搜尋引擎演算法是保密的,而且據說每天都在調整,具體沒人知道。但是Ethan認為搜尋引擎演算法源自兩個方法論:程式推理和使用者判斷,程式推理分為兩個維度:相關性和重要性,使用者判斷分別為相關性和重要性乘上個係數。關鍵詞相關性由網頁文字域內的關鍵詞密度和分佈決定。重要性也叫權重,一個網頁的權重由這個網頁的血統和內容品質共同決定。由此,Ethan總結出搜尋引擎演算法的四個方面:關鍵詞相關性、網頁血統、網頁內容品質、使用者判斷,不妨稱之為搜尋引擎演算法的四大因素。大家從這四個方面思考,往往可以為被廣泛認可的seo操作找到理論依據,培養自己的seo思維。有了seo思維,才能突破教條式的操作規定,在seo實戰中靈活應變。
排名不是針對網站的,而是針對網頁的。當用戶搜尋一個關鍵詞時,搜尋引擎從以下四個方面分析被收錄的頁面,算出一個總分,總分最高的,排在自然排名的第一位。
一、關鍵詞相關性
網頁文字域是Ethan創造的一個概念,想說明的意思是,搜尋引擎在判斷關鍵詞和網頁之間的相關性的時候,不僅僅考察網頁內的文字,還會考察網頁外的文字,主要包括反向連結錨文字的文字、反向連結頁面的主題文字、域名的主題文字,所有這些文字構成了這個網頁的文字域。所謂主題文字,就是搜尋引擎會為每個域名和每個頁面賦予一些文字,這些文字型現了這個域名或這個頁面的主題。大家都知道meta標籤裡有keywords和description,可以這樣想象,搜尋引擎為頁面增加了一些meta標籤,包括域名的主題文字、反向連結1的錨文字、反向連結1所在頁面的主題文字、反向連結1所在頁面的域名的主題文字、反向連結2的錨文字、反向連結2所在頁面的主題文字、反向連結2所在頁面的域名的主題文字等等。這些meta標籤的權重要遠高於keywords和description,有的甚至高於頁面可見文字。有了網頁文字域的概念,我們就能夠理解外鏈建設等很多seo操作。
注意搜尋引擎會根據使用者的搜尋意圖,把使用者搜尋的關鍵詞翻譯成內部實際查詢的關鍵詞。多數情況下兩者是一樣的,但有的時候兩者不一樣。比如知道了使用者的ip來自哪個地區,那麼那個地區的相關頁面會優先顯示,有種使用者搜尋時加進了地域性文字的效果。再比如近義詞分析,搜尋引擎會把近義詞的搜尋結果也列出來。
關鍵詞和一個網頁的相關性由網頁文字域內的關鍵詞密度和分佈決定,越相關,排名越靠前。
二、網頁血統
網頁血統是Ethan創造的一個概念,想說明的意思是,在搜尋引擎看來,一個網頁天生就具備一種權重,這種權重來自url。搜尋引擎會分析一個網頁的url,得到兩種重要資訊,第一是域名的情況,域名是有權重的,會直接傳遞到這個頁面;第二是反向連結的情況,每個反向連結所在頁面也是有權重的,也會傳遞到這個頁面。我們經常遇到的pr值,主要體現了通過反向連結傳遞的權重。
注意域名的權重不等於首頁的權重,搜尋引擎會根據首頁的權重、網站整體的情況(比如網站的穩定性和漸進性、站內是否有很多定向錨文字等等)、其它因素(比如域名壽命等等)決定域名的權重。
一個網頁的血統越好,權重越高,排名越靠前。
三、網頁內容品質
在重要性方面,網頁血統是傳遞性因素,單純由外部傳入;網頁內容品質是結構性因素,由這個網頁自身相關的各種特質決定。這方面搜尋引擎雖然不夠智慧,但還是有很多手段的,其中最重要的是內容的原創性如何和內容的新鮮度如何,特別是內容的原創性。還有比如網頁中是否有定向錨文字和反向連結錨文字是否定向,搜尋引擎認為如果一個頁面認真地寫了定向錨文字或其反向連結錨文字為定向的,說明這個網頁內容品質較高。細節一些的,比如頁面中有個圖片會更好一點,頁面中適當使用list標籤會更好一 點,段落的開頭適當出現“首先”、“其次”這種詞彙會更好一點,等等。
一個網頁的內容品質越好,權重越高,排名越靠前。
四、使用者判斷
相關性和權重,資料來源都不是來自使用者的判斷,搜尋引擎很清楚,最重要的是使用者覺得好不好。雖然這方面獲取資料來源異常艱難,但搜尋引擎還是有些辦法的,比如搜尋跳出率,比如百度統計和google分析,比如社會化網路的資料,這是以後搜尋引擎演算法的發展方向,對排名的作用會越來越大。Ethan相信,搜尋引擎為了獲取使用者判斷的資料來源,會不惜血本。