Google搜索的運作方式與具體工作步驟
Google搜索的運作方式
Google是一個全自動搜索引擎,它會使用名為“網頁抓取工具”的軟件(蜘蛛爬蟲)定期探索網絡,以便查找可添加到Google索引中的網站。實際上,Google搜索結果中收錄的大多數網站都不是手動提交的,而是網頁抓取工具在抓取網絡時自動找到并添加的。
一、抓取
第一步是找出網絡上存在哪些網頁。Google不斷搜索新網頁并將其添加到已知網頁列表中。由于Google之前已經訪問過某些網頁,因此這些網頁是Google已知的網頁。當跟蹤已知網頁上指向新網頁的鏈接時,Google會發現其他網頁。當網站所有者以列表形式(站點地圖)提交一系列網頁供Google抓取時,Google也會發現其他網頁。
Google發現網頁網址后,會訪問或抓取該網頁以了解其中的內容。Google會呈現該網頁,并分析文字和非文字內容以及整體視覺布局,確定該網頁會顯示在搜索結果中的什么位置。Google越了解我們的網站,就越能準確地將我們的網站與正在查找我們內容的用戶相匹配。
二、編入索引
發現網頁后,Google會嘗試了解該網頁的內容。此過程稱為“編入索引”。Google會分析該網頁的內容、為網頁上嵌入的圖片和視頻文件編制目錄,并通過其他方式嘗試了解網頁。這些信息存儲在Google索引中,而Google索引是一個存儲在很多計算機中的巨大數據庫。
三、呈現(排名)
當用戶輸入查詢時,Google會根據許多因素嘗試從其索引中找到最相關的答案。Google會考慮用戶的所在位置、語言及設備(桌面設備或手機)等因素來努力確定最優質的答案,并會考慮其他因素,盡可能提供最佳用戶體驗和最恰當的答案。
四、搜索算法的工作方式
4.1 分析關鍵詞
理解搜索字詞的含義對于返回優質結果至關重要。為了找到包含相關信息的頁面,谷歌的第一步就是分析搜索查詢中的字詞的含義。谷歌創建了語言模型,試圖了解應該使用關鍵詞的哪些部分在索引中進行查詢。
4.2 與搜索內容相符
4.2.1 谷歌會尋找包含與相應查詢匹配的信息的網頁。當我們搜索時,在最基本的層面上,谷歌的算法會在索引中查詢我們的搜索關鍵詞以找到適當的網頁。這些算法會分析相關關鍵字在某個網頁上(不論是在標題中還是在正文中)的出現頻率和顯示位置。
4.2.2 當某個網頁中包含與我們的搜索查詢內容相同的關鍵字時,這是表示搜索到的信息可能與我們要查找的內容相關的最基本信號。如果網頁或者文本的標題或正文中出現這些關鍵字,則表示該信息與我們要查找的內容相關的可能性更大了。除了簡單的關鍵字匹配之外,谷歌還使用經過匯總和匿名化處理的互動數據來評估搜索結果是否與查詢內容相關。谷歌會將這些數據轉換為信號,以協助機器學習系統更好地評估相關性。
4.3 為實用網頁排名
4.3.1 對于一項典型的查詢,含有可能相關信息的網頁會多達數千個甚至數百萬個。因此,為了幫助將最符合需求的網頁排在靠前的位置,谷歌還編寫了算法來評估這些網頁的實用性。
4.3.2 這些算法會分析數百種不同的因素-從內容的新鮮度,到搜索關鍵詞的出現次數以及網頁能否提供出色的用戶體驗-以盡力呈現網絡所能提供的最有用的信息。為了評估內容在相關主題方面的可信度和權威性,谷歌會尋找那些看起來在類似查詢中受到大量用戶青睞的網站。如果與該主題相關的其他知名網站鏈接到了相應頁面,則可充分說明此頁面上的信息具有較高的品質。
4.3.3 網絡中有很多垃圾網站會試圖通過重復關鍵字或購買可提升排名的鏈接等各種不當手段,蒙混到搜索結果中靠前的位置。這些網站提供的用戶體驗非常糟糕,甚至可能會傷害或誤導Google用戶。因此,谷歌編寫了算法來識別網絡垃圾并將那些違反Google網站站長指南的網站從結果中移除。
4.4 返回最佳結果
4.4.1 在為我們提供結果之前,谷歌會評估所有相關信息的綜合效果:這些搜索結果是只有一個主題,還是有很多主題?是否有過多的頁面在著重探討一條狹義的內容?谷歌會根據搜索類型以最有用的格式提供一系列多樣的信息。
4.4.2 這些算法會通過分析相關信號來評估是否所有用戶都能查看搜索結果。例如:網站是否能在不同的瀏覽器中正常顯示;網站是否適合各種類型和尺寸的設備(包括桌面設備、平板電腦和智能手機);以及網頁加載時間對于互聯網連接速度較慢的用戶而言是否合適。
4.5考慮具體環境
谷歌使用國家/地區和位置信息來提供與我們所在區域相關的內容。例如,如果我們身處芝加哥并搜索“橄欖球”,Google極有可能會先為我們顯示有關美國橄欖球和芝加哥熊隊的結果。但如果我們是在中國搜索“足球”,Google則會在比較靠前的位置顯示有關亞洲杯中國足球的結果。