2013年10月25日 星期五

詳細解讀Google更新過程

Google是如何更新全部索引的?這是一個範圍相當寬的問題,大家都知道,Google為確保向用戶提供最具相關性和質量最高的搜索結果而對其數據庫按月進行更新。為了回答上述問題,在本文中我將向大家詳細說明Google更新過程的每個步驟。
有相當多的用戶和公司都已經發現,為了在早期的搜索引擎優化中,能在Google裡有個很好的排名,在認真做計劃之前就要採取一切必要的措施。就免費提交的搜索引擎來說,Google是為數極少之中的一個,也是最早將網站收錄到數據庫的搜索引擎之一。到23年7月10日為止,Google已經成為收錄34億個網頁之多的最廣泛的數據庫。其中只有一小部分不能夠被Google訪問,因為這些站點是不能夠被搜索引擎爬蟲或蜘蛛所訪問的。

就像在現實生活中一樣,無論是對網站所有者、網站管理員還是搜索引擎優化專家來說,當開始一個新產品的市場時,有很大的風險和潛在的複雜性。然而大多數專家都一致同意在使用Google搜索時,要正確輸入關鍵字,這樣才可以有效地搜索到你所要查找的信息。因為Google每個月都會更新它的數據庫。在這篇文章中,我們要解釋關於"Google Dance"的信息,還有如何在恰當的時間理解"Googlebot"。另外,我們也會告訴你如何進行搜索引擎的優化

  著名的"Google Dance"

如果你想寫封信去參加在Google總部的年度更新過程,那麼你可能希望繼續讀到GooglePlex這篇文章,從中了解Google數據庫和搜索引擎機器人是何如工作的。關於Google每月週期性的更新過程有很多的文檔記錄。而在過去整整一年,Google的這種每個月的周期性更新(如今人們親切稱之為"Google Dance")對那些焦慮等待的網站所有者和網站管理員來說,都變得愈加複雜和不可琢磨。

每次的更新都是從Google的一個主要的深層次的爬蟲開始的。我們先把它叫做爬蟲A。它是如何索引到整個網站中至少三四十億的網頁的呢? Google使用了15,0多台位於不同數據中心的計算機,來索引全世界範圍內的站點。當Googlebot來搜索數據庫中現有站點時,同時也會搜索到最新的網站。一旦Google完成了爬蟲A這個過程,就會為下一步的更新有效地搜索到所有的網頁,然後便是兩個星期後的第二次更新過程。

最後,Google會更新整個數據庫,在www2.google.comwww3.google.com這兩個站點上可以看到最新的更新結果。在更新的同時,其結果會很快的連接在主要數據庫和第二、第三個數據庫之間。由於Google使用的服務器有15,0台之多,因此在整個更新結束之前,不同地方的人們所得到的搜索結果是不同的。 "Google Dance"會持續好幾天,但是不會超過一個星期。除非Google要改變一些主要的規則,比如23年4月份的更新。

無論是在Google的每個數據庫更新的時候還是在更新之後, 只要其中一個數據庫進行更新,Google又會開始新一輪的"全面"檢索。我們把它稱做爬蟲B。這次檢索仍然包括數據庫中所有已被收錄站點和一些新發布的網站。 GoogleBot的這次檢索完成之後,就是Google下一輪更新的起點,意味著下個月的更新又全面開始了。

沒有留言:

張貼留言