搜尋引擎原理(一)?

Tags: 原理, 搜尋引擎, 引擎,

資訊的生產、傳播、蒐集與查詢是人類最基本的活動之一。考慮以文字為載體的資訊，傳統上有圖書館、相應的編目體系和專業人員幫助我們很快找到所需的資訊，其粒度通常是“書”或者“文章”。隨著計算機與資訊科技的發展，有了資訊檢索（Information Retrieval，IR）學科領域，有了關於圖書或者文獻的全文檢索系統，使我們能很方便地在“關鍵詞”的粒度上得到相關的資訊。我們注意到，上述全文檢索系統一般工作在一個規模相對有限、內容相對穩定的館藏（collection）上，被檢索的物件通常是經過認真篩選和預先處理的（例如人工提取出了“作者”，“標題”等元資料，形成了很好的“摘要”等），並且系統需要同時響應的查詢數量通常都不會太大（例如每秒鐘 10 個左右）。 1994 年左右，全球資訊網（World Wide Web，簡記為WWW 或Web ）出現。它的開放性（openness）和其上資訊廣泛的可訪問性（accessibility）極大地鼓勵了人們創作的積極性。作為一個資訊源，Web 和上述全文檢索系統的工作物件相比，具有許多不同的特徵，它們給資訊檢索領域帶來了新的發展機遇和技術挑戰。規模大。在短短的 10 年左右時間，人類至少生產了40 億網頁[Google,2004]，而人類有文字上萬年以來產生了大約 1 億本書；中國網上到2004 年初大致有了約 3 億網頁[天網,2004]，而中華民族有史以來出版的書籍大約不過 275 萬種。儘管書籍的容量和質量是一般網頁不可比的，但在對應的時間背景上考察其文字的總體數量，我們不能不為人類在Web 上創造文字的激情驚歎！內容不穩定。除了不斷有新的網頁出現外，舊的網頁會因為各種原因被刪除（有研究指出50%網頁的平均生命週期大約為50 天[Cho and Garcia-Molina,2000, Cho,2002]）；從原則上講，讀者數和作者數在同一個量級，形式和內容的隨意性很強，權威性相對也不高，也不太可能進行人工篩選和預處理。與生俱來的數字化、網路化。傳統載體上的資訊，人們目前正忙於將它們數字化、上網（花費極高），而網路資訊天生如此。這個特性是一把雙刃劍：一方面便於我們蒐集和處理，另一方面也會使我們感到太多，蜂擁而至，魚目混珠。而作為要在Web 上提供服務的資訊查詢系統，如搜尋引擎和數字圖書館，通常要具備同時對付大量訪問的能力（例如每秒鐘 1000 個查詢），而且響應時間還要足夠的快（例如 1 秒鐘）。本書旨在介紹構建這類搜尋引擎的有關技術。傳統的 IR 是其基礎，同時也充分討論了由上述Web 資訊的特徵所帶來的新問題及其解決方案。

原理, 搜尋引擎, 引擎, 搜尋引擎的工作原理, 搜尋引擎抓取原理, 搜尋引擎原理, 搜尋引擎工作原理, 淘寶搜尋引擎原理, 搜尋引擎的原理, 搜尋引擎原理與實踐, 百度搜索引擎原理, 搜尋引擎技術原理,

相關問題答案

Have any Question?

Let us answer it!