HOME > SEOニュース
> グーグルが一度のクロールで見るURLは1兆件
グーグルは7月25日、公式ブログで現在のクロール・インデックス方法と、その周期について公開しました。
グーグルは、現在、新しいコンテンツを見つけるために、一度に1兆のユニークURLを見て回るということです。
グーグルでは、最初のページから新しいページへのリンクをたどり、そこからまた新しいページへのリンクをたどることで膨大なリンクのリストを作ってインデックス化しています。
重複するコンテンツを除くと、ユニークURLのリストは1兆件、1日当たり作成されるウェブページは数十億ページになるということです。
このシステムは、グーグルが設立された1998年に構築し、現在にいたるまで重要な基幹システムですが、当初のインデックスは2600万ページなのに対し、2000年には10億に拡大し、その後8年間で膨大な数のコンテンツがウェブ上に登場しました。
インデックスが2600万ページ規模だった当初は、ウェブページを評価する「PageRank」のグラフを2時間で計算して、それを一定期間使用していたが、現在は継続的に新しいページの情報を収集して、1日に数回PageRankグラフを再計算しているということです。
グーグルのインフラチームのエンジニアであるAlpert氏とHajaj氏は、この作業を「1兆の交差点がある道路図を作っているようなものだ。またこの地図は、道路と交差点が米国の5万倍ある米国全土より5万倍大きい道路図だ。」と言っています。
グーグル公式ブログ(原文):
http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html
2012年02月28日 10:33 : Webサイトのインデックス数は多い方がいい?
2012年02月28日 10:32 : ドメインはどのくらい古い方がいい?
2012年02月28日 10:31 : Googleページランクは高い方がいい?
2012年02月27日 14:57 : ページ内の文字数は多い方がいい?
2012年02月27日 13:58 : h2要素内の文字数は多い方がいい?
2012年02月27日 13:43 : h2要素の数は多いほうがいい?
2012年02月27日 13:14 : h1要素はほかのh要素よりも上にある方がいい?
2012年02月27日 13:13 : h1要素は画像よりもテキストの方がいい?
2012年02月27日 11:43 : h1要素はbody要素の直下にある方がいい?
2012年02月27日 11:41 : h1要素内の検索キーワードは前方に配置した方がいい?