HOME > SEOニュース
 > グーグルが一度のクロールで見るURLは1兆件


グーグルが一度のクロールで見るURLは1兆件

 

グーグルが一度のクロールで見るURLは1兆件

グーグルは7月25日、公式ブログで現在のクロール・インデックス方法と、その周期について公開しました。

グーグルは、現在、新しいコンテンツを見つけるために、一度に1兆のユニークURLを見て回るということです。
グーグルでは、最初のページから新しいページへのリンクをたどり、そこからまた新しいページへのリンクをたどることで膨大なリンクのリストを作ってインデックス化しています。
重複するコンテンツを除くと、ユニークURLのリストは1兆件、1日当たり作成されるウェブページは数十億ページになるということです。

このシステムは、グーグルが設立された1998年に構築し、現在にいたるまで重要な基幹システムですが、当初のインデックスは2600万ページなのに対し、2000年には10億に拡大し、その後8年間で膨大な数のコンテンツがウェブ上に登場しました。

インデックスが2600万ページ規模だった当初は、ウェブページを評価する「PageRank」のグラフを2時間で計算して、それを一定期間使用していたが、現在は継続的に新しいページの情報を収集して、1日に数回PageRankグラフを再計算しているということです。

グーグルのインフラチームのエンジニアであるAlpert氏とHajaj氏は、この作業を「1兆の交差点がある道路図を作っているようなものだ。またこの地図は、道路と交差点が米国の5万倍ある米国全土より5万倍大きい道路図だ。」と言っています。

グーグル公式ブログ(原文):
http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html