息能在一定程度上指示詞語在一篇文檔中的相對重要性或者和某些內容的相關 性,這是有意義的。有了HTML 標記後,情況還可能進一步改善,例如在同一篇 文檔中,之間的信息很可能就比在之間的信息更重要。 特別地,HTML 文檔中所含的指向其他文檔的鏈接信息是人們近幾年來特別關注 的對象,認為它們不僅給出了網頁之間的關係,而且還對判斷網頁的內容有很重 要的作用。例如“北大學報”這幾個字在北京大學學報社會科學版的主頁上是沒 有的,因此一個僅靠內容文字分析的搜索引擎就不可能返回該主頁作為結果。但 是北京大學主頁上是用“北大學報(社)”作為鏈接信息指向了北京大學學報社會 科學版的主頁。因此在很好利用鏈接信息的搜索引擎中應該能返回北京大學學報 社會科學版的主頁。 4. 網頁重要程度的計算 搜索引擎返回給用戶的,是一個和用戶查詢相關的結果列表。列表中條目的 順序是很重要的一個問題。由於面對各種各樣的用戶,加之查詢的自然語言風格, 對同樣的q 返回相同的列表肯定是不能使所有提交q 的用戶都滿意的(或者都達 0 0 到最高的滿意度)。因此搜索引擎實際上追求的是一種統計意義上的滿意。人們認 為Google 目前比天網好,是因為在多數情況下前者返回的內容要更符合用戶的需 要,而不是所有情況下都如此。如何對查詢結果進行排序有很多因素需要考慮, 後面將有深入的討論。這裡只是概要解釋在預處理階段可能形成的所謂“重要性” 因素。顧名思義,既然是在預處理階段形成的,就是和用戶查詢無關的。如何講 一篇網頁比另外一篇網頁重要?人們參照科技文獻重要性的評估方式,核心想法 就是“被引用多的就是重要的”。“引用”這個概念恰好可以通過HTML超鏈在網 頁之間體現得非常好,作為Google創立核心技術的PageRank就是這種思路的成功 體現[Page, et al.,1998]。除此以外,人們還注意到網頁和文獻的不同特點,即一些 網頁主要是大量對外的鏈接,其本身基本沒有一個明確的主題內容,而另外有些 網頁則被大量的其他網頁鏈接。從某種意義上講,這形成了一種對偶的關係,這 種關係使得人們可以在網頁上建立另外一種重要性指標[Kleinberg,1998]。這些指 標有的可以在預處理階段計算,有的則要在查詢階段計算,但都是作為在查詢服 務階段最終形成結果排序的部分參數。 第四節 查詢服務 如上述,從一個原始網頁集合S 開始,預處理過程得到的是對S 的一個子集 的元素的某種內部表示,這種表示構成了查詢服務的直接基礎。對每個元素來說, 這種表示至少包含如下幾個方面: