其它檢索技術有哪些?

General 更新 2024-12-24

全文檢索技術的介紹

全文檢索技術,就是以數據諸如文字,聲音,圖像等為主要內容,以檢索文獻資料的內容而不是外表特徵的一種檢索技術·主要全文檢索系統有TRS系統·天宇系統·等與其他搜索引擎相比,全文搜索引擎的顯著特點是它能夠以文中任何一個有檢索意義的詞作為檢索入口,而且取得的檢索結果是原始文獻,而不是文獻線索·

常用的信息檢索方法有哪些?

檢索方法是指實現檢索計劃的具體方法,檢索方式不同,方法也不一樣。常用的信息檢索方法有常規法(包括順查法、倒查法、抽查法)、追溯法、綜合法(也叫做循環法,是常規法和追溯法的綜合)、搜索引擎法、導航法等。

常用的搜索引擎有哪些?

索引擎(search engines)是對互聯網上的信息資源進行蒐集整理,然後供你查詢的系統,它包括信息蒐集、信息整理和用戶查詢三部分。 搜索引擎是一個為你提供信息“檢索”服務的網站,它使用某些程序把因特網上的所有信息歸類以幫助人們在茫茫網海中搜尋到所需要的信息。 早期的搜索引擎是把因特網中的資源服務器的地址收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進行分類。人們要找自己想要的信息可按他們的分類一層層進入,就能最後到達目的地,找到自己想要的信息。這其實是最原始的方式,只適用於因特網信息並不多的時候。隨著因特網信息按幾何式增長,出現了真正意義上的搜索引擎,這些搜索引擎知道網站上每一頁的開始,隨後搜索因特網上的所有超級鏈接,把代表超級鏈接的所有詞彙放入一個數據庫。這就是現在搜索引擎的原型。 隨著yahoo!的出現,搜索引擎的發展也進入了黃金時代,相比以前其性能更加優越。現在的搜索引擎已經不只是單純的搜索網頁的信息了,它們已經變得更加綜合化,完美化了。以搜索引擎權威yahoo!為例,從1995年3月由美籍華裔楊致遠等人創辦yahoo!開始,到現在,他們從一個單一的搜索引擎發展到現在有電子商務、新聞信息服務、個人免費電子信箱服務等多種網絡服務,充分說明了搜索引擎的發展從單一到綜合的過程。 然而由於搜索引擎的工作方式和因特網的快速發展,使其搜索的結果讓人越來越不滿意。例如,搜索“電腦”這個詞彙,就可能有數百萬頁的結果。這是由於搜索引擎通過對網站的相關性來優化搜索結果,這種相關性又是由關鍵字在網站的位置、網站的名稱、 標籤等公式來決定的。這就是使搜索引擎搜索結果多而雜的原因。而搜索引擎中的數據庫因為因特網的發展變化也必然包含了死鏈接。 這篇文章中,我們介紹了google,它是一個大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網頁並建立索引,它的查詢結果比其它現有系統都高明。這個原型的全文和超連接的數據庫至少包含24‘000‘000個網頁。我們可以從google.stanford.edu/ 下載。 設計搜索引擎是一項富有挑戰性的工作。搜索引擎為上億個網頁建立索引,其中包含大量迥然不同的詞彙。而且每天要回答成千上萬個查詢。在網絡中,儘管大型搜索引擎非常重要,但是學術界卻很少研究它。此外由於技術的快速發展和網頁的大量增加,現在建立一個搜索引擎和三年前完全不同。 本文詳細介紹了我們的大型搜索引擎,據我們所知,在公開發表的論文中,這是第一篇描述地如此詳細。除了把傳統數據搜索技術應用到如此大量級網頁中所遇到的問題,還有許多新的技術挑戰,包括應用超文本中的附加信息改進搜索結果。 本文將解決這個問題,描述如何運用超文本中的附加信息,建立一個大型實用系統。任何人都可以在網上隨意發佈信息,如何有效地處理這些無組織的超文本集合,也是本文要關注的問題。 關鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰。Web上的信息量快速增長,同時不斷有毫無經驗的新用戶來體驗Web這門藝術。人們喜歡用超級鏈接來網上衝浪,通常都以象Yahoo這樣重要的網頁或搜索引擎開始。大家認為List(目錄)......

世界上三大文獻檢索數據庫是哪幾個

三大文獻檢索數據庫是以下三個:

1、SCI(科學引文索引 ):(Science Citation Index, SCI)是由美國科學信息研究所(ISI)1961年創辦出版的引文數據庫,其覆蓋生命科學、臨床醫學、物理化學、農業、生物、獸醫學、工程技術等方面的綜合性檢索刊物。

2、EI(工程索激 ):(EngineeringIndex,EI),1884年創刊,由美國工程信息公司出版,報道工程技術各學科的期刊、會議論文、科技報告等文獻。

3、ISTP(科技會議錄索引 ) 是世界著名的三大科技文獻檢索系統,(Index to Scientific & TechnicalProceedings,ISTP),也是由ISI出版,1978年創刊,報導世界上每年召開的科技會議的會議論文。

信息檢索是什麼?

按照一定方式組織存貯信息,並根據用戶需求查找出有關信息的過程。又稱信息存貯與檢索、情報檢索。信息的查找萌芽於圖書館的參考工作。“信息檢索”一詞出現於20世紀50年代 。信息檢索包括3個主要環節 :①信息內容分析與編碼,產生信息記錄及檢索標識。②組織存貯,將全部記錄按文件、數據庫等形式組成有序的信息集合。③用戶提問處理和檢索輸出。關鍵部分是信息提問與信息集合的匹配和選擇,即對給定提問與集合中的記錄進行相似性比較,根據一定的匹配標準選出有關信息。它按對象分為文獻檢索、數據檢索和事實檢索;按設備分為手工檢索、機械檢索和計算機檢索。由一定的設備和信息集合構成的服務設施稱為信息檢索系統,如穿孔卡片系統、聯機檢索系統、光盤檢索系統、多媒體檢索系統等。信息檢索最初應用於圖書館和科技信息機構,後來逐漸擴大到其他領域,並與各種管理信息系統結合在一起。與信息檢索有關的理論、技術和服務構成了一個相對獨立的知識領域,是信息學的一個重要分支,並與計算機應用技術相互交叉。

參考資料:中國大百科全書

搜索引擎分幾種

可分為三種 搜索引擎分類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。 從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,並自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的數據庫,並按自定的格式排列搜索結果,如Lycos引擎。 目錄索引 目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬於這一類。 元搜索引擎(META Search Engine) 元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。 除上述三大類引擎外,還有以下幾種非主流形式: 集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它“集合式”搜索引擎更確切些。 門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他引擎。 免費鏈接列表(Free For All Links,簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。 由於上述網站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統稱為搜索引擎。 搜索引擎基本工作原理 瞭解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。 全文搜索引擎 在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息蒐集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址範圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。 另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站並將有關信息存入......

百度是用什麼技術搜索的?

百度有一個蜘蛛程序,也叫網絡蜘蛛

什麼是網絡蜘蛛

網絡蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那麼網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

蜘蛛工作原理

對於搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能的,從目前公佈的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸,100億網頁的容量是100×2000G字節,即使能夠存儲,下載也存在問題(按照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才能把所有網頁下載完畢)。同時,由於數據量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。    搜索引擎抓取策略

在抓取網頁的時候,網絡蜘蛛一般有兩種策略:廣度優先和深度優先(如下圖所示)。廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然後再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網絡蜘蛛並行處理,提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。

搜索引擎的分類,各具有什麼特點?

隨著搜索技術的發展,搜索引擎商無不具有獨門產品和技術,搜索引擎也進入細分化時期,種類越來越多。儘管數不勝數,但主要包括目錄索引、關鍵詞全文搜索引擎、元搜索引擎,以及由關鍵詞全文搜索引擎擴展延伸的垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。

目錄搜索的特點是考人工按照目錄一層一層的查找,耗費時間。

關鍵(字)詞搜索,以及以關鍵詞組合為基礎的全文搜索與目錄搜索引擎相比,基於關鍵詞搜索的優勢是使琺方便,搜索速度快,直接搜索內容,是目錄搜索引擎無法比擬的。

其它不再一一列舉,請在網上瀏覽新華雲科論搜索引擎。

搜索引擎的分類有哪些

全文索引

全文搜索引擎是名副其實的搜索引擎,國外代表有Google,國內則有著名的百度搜索。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,並能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。

根據搜索結果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,上面提到的Google和百度就屬於此類;另一類則是租用其他搜索引擎的數據庫,並按自定的格式排列搜索結果,如Lycos搜索引擎。

2.目錄索引

目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo!、新浪分類目錄搜索。

3.元搜索引擎

元搜索引擎(META Search Engine)接受用戶查詢請求後,同時在多個搜索引擎上搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規則將結果重新排列組合,如Vivisimo。

其他非主流搜索引擎形式

(1)集合式搜索引擎:該搜索引擎類似元搜索引擎,區別在於它並非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

(2)門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。

(3)免費鏈接列表(Free For All Links,簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。

【工作原理】

1、抓取網頁

每個獨立的搜索引擎都有自己的網頁抓取程序(spider)。Spider順著網頁中的超鏈接,連續地抓取網頁。由於互聯網中超鏈接的應用很普遍,理論上,從一定範圍的網頁出發,就能蒐集到絕大多數的網頁。

2、處理網頁

搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引文件。其他還包括去除重複網頁、分析超鏈接、計算網頁的重要度。

3、提供檢索服務

用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。

搜索技術由百度提供怎麼弄得?

這是和百度合作的,百度提供了開放接口,你自己到站長管理後臺就可以對接

相關問題答案
其它檢索技術有哪些?
基本的檢索技術有哪些?
文獻檢索步驟有哪些?
養豬生產技術有哪些?
論文檢索網站有哪些?
施工技術有哪些?
最新醫學技術有哪些?
現代物流技術有哪些?
現代農業技術有哪些?
綠色施工技術有哪些?

Have any Question?

Let us answer it!