資訊的生產、傳播、蒐集與查詢是人類最基本的活動之一。考慮以文字為載 體的資訊,傳統上有圖書館、相應的編目體系和專業人員幫助我們很快找到所需 的資訊,其粒度通常是“書”或者“文章”。隨著計算機與資訊科技的發展,有了 資訊檢索(Information Retrieval,IR)學科領域,有了關於圖書或者文獻的全文 檢索系統,使我們能很方便地在“關鍵詞”的粒度上得到相關的資訊。 我們注意到,上述全文檢索系統一般工作在一個規模相對有限、內容相對穩 定的館藏(collection)上,被檢索的物件通常是經過認真篩選和預先處理的(例 如人工提取出了“作者”,“標題”等元資料,形成了很好的“摘要”等),並且系 統需要同時響應的查詢數量通常都不會太大(例如每秒鐘 10 個左右)。 1994 年左右,全球資訊網(World Wide Web,簡記為WWW 或Web )出現。它 的開放性(openness)和其上資訊廣泛的可訪問性(accessibility)極大地鼓勵了 人們創作的積極性。作為一個資訊源,Web 和上述全文檢索系統的工作物件相比, 具有許多不同的特徵,它們給資訊檢索領域帶來了新的發展機遇和技術挑戰。 規模大。在短短的 10 年左右時間,人類至少生產了40 億網頁[Google,2004], 而人類有文字上萬年以來產生了大約 1 億本書;中國網上到2004 年初大致有了約 3 億網頁[天網,2004],而中華民族有史以來出版的書籍大約不過 275 萬種。儘管 書籍的容量和質量是一般網頁不可比的,但在對應的時間背景上考察其文字的總 體數量,我們不能不為人類在Web 上創造文字的激情驚歎! 內容不穩定。除了不斷有新的網頁出現外,舊的網頁會因為各種原因被刪除 (有研究指出50%網頁的平均生命週期大約為50 天[Cho and Garcia-Molina,2000, Cho,2002]); 從原則上講,讀者數和作者數在同一個量級,形式和內容的隨意性很強,權 威性相對也不高,也不太可能進行人工篩選和預處理。 與生俱來的數字化、網路化。傳統載體上的資訊,人們目前正忙於將它們數 字化、上網(花費極高),而網路資訊天生如此。這個特性是一把雙刃劍:一方面 便於我們蒐集和處理,另一方面也會使我們感到太多,蜂擁而至,魚目混珠。 而作為要在Web 上提供服務的資訊查詢系統,如搜尋引擎和數字圖書館,通 常要具備同時對付大量訪問的能力(例如每秒鐘 1000 個查詢),而且響應時間還 要足夠的快(例如 1 秒鐘)。 本書旨在介紹構建這類搜尋引擎的有關技術。傳統的 IR 是其基礎,同時也 充分討論了由上述Web 資訊的特徵所帶來的新問題及其解決方案。