搜索引擎原理(九)?

Tags: 原理, 搜索引擎, 引擎,

倒排文件就是用詞來作為索引的一個數據結構，顯然，q中的詞必須是包含在倒排文件詞表中才有意義。有了這樣的q，它的每一個元素都對應倒排文件中的一個倒排表（文檔編號的集合），記作L(t) ，它們的交集即為對應查詢的結果文檔集合， i 從而實現了查詢和文檔的匹配。上述過程的基本假設是：用戶是希望網頁包含所輸入查詢文字的。 2. 結果排序上面，我們瞭解了得到和用戶查詢相關的文檔集合的過程。這個集合的元素需要以一定的形式通過計算機顯示屏呈現給用戶。就目前的技術情況看，列表是最常見的形式（但人們也在探求新的形式，如Vivisimo 引擎將結果頁面以類別的形式呈現）。給定一個查詢結果集合，R={r , r , …, r }，所謂列表，就是按照某種 1 2 n 評價方式，確定出R中元素的一個順序，讓這些元素以這種順序呈現出來。籠統地講，ri和q的相關性（relevance ）是形成這種順序的基本因素。但是，有效地定義相關性本身是很困難的，從原理上講它不僅和查詢詞有關，而且還和用戶的背景，以及用戶的查詢歷史有關。不同需求的用戶可能輸入同一個查詢，同一個用戶在不同的時間輸入的相同的查詢可能是針對不同的信息需求。為了形成一個合適的順序，在搜索引擎出現的早期人們採用了傳統信息檢索領域很成熟的基於詞匯出現頻度的方法。大致上講就是一篇文檔中包含的查詢（q）中的那些詞越多，則該文檔就應該排在越前面；再精細一些的考慮則是若一個詞在越多的文檔中有出現，則該詞用於區分文檔相關性的作用就越小。這樣一種思路不僅有一定直覺上的道理，而且在倒排文件數據結構上很容易實現。因為，當我們通過前述關鍵詞的提取過程，形成一篇文檔的關鍵詞集合，p = {t , t , …, t }的時候，很容易同 1 2 n 時得到每一個ti在該文檔中出現的次數，即詞頻，而倒排文件中每個倒排表的長度則對應著一個詞所涉及的文檔的篇數，即文檔頻率。然而，由於網頁編寫的自發性、隨意性較強，僅僅針對詞的出現來決定文檔的順序，在Web上做信息檢索表現出明顯的缺點，需要有其他技術的補充。這方面最重要的成果就是前面提到過的PageRank。通過在預處理階段為每篇網頁形成一個獨立於查詢詞（也就和網頁內容無關）的重要性指標，將它和查詢過程中形成的相關性指標結合形成一個最終的排序，是目前搜索引擎給出查詢結果排序的主要方法。

原理, 搜索引擎, 引擎, 搜索引擎的工作原理, 搜索引擎抓取原理, 搜索引擎原理, 搜索引擎工作原理, 淘寶搜索引擎原理, 搜索引擎的原理, 搜索引擎原理與實踐, 百度搜索引擎原理, 搜索引擎技術原理,

相關問題答案

Have any Question?

Let us answer it!