計算機文獻檢索論文
電子計算機文獻檢索系統是指廣泛利用電子計算機和現代化通訊技術,進行文獻加工、檢索和遠距離傳遞的自動化系統。下面是小編為大家整理的,供大家參考。
篇一
專利文獻計算機檢索技術的最新發展
[摘要]通過對近年來電腦科學、人工智慧、專利文獻加工等領域的發展進行總結,從多語言混合檢索、分類檢索、語義檢索、影象檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。機器翻譯技術和多邊共同分類體系的完善有助於提高計算機檢索效率、消除語言障礙,而語義檢索、影象檢索和文獻自動處理技術的發展有望使面向不同層次使用者的計算機智慧化檢索系統得以實現。
[關鍵詞]專利文獻 計算機檢索 語義檢索 影象檢索
[分類號]G352
1 前言
近年來,計算機技術、語言學以及人工智慧技術的發展促進了整個資訊檢索技術領域的發展,專利文獻的計算機檢索技術正成為情報檢索領域研究的熱點。下文擬從多語言混合檢索、分類檢索、語義檢索、影象檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。
2 多語言混合檢索
專利文獻是由各國、各地區專利局或世界智慧財產權局出版的官方文獻,因此一般以各局官方語言出版。雖然大部分專利文獻是英語文獻,但是仍然存在大量日文、中文、德文、法文及其他語種的文獻。出版語言的多樣性給專利文獻的檢索和利用帶來了極大的障礙,要實現多語言混合檢索,機器翻譯是必不可少的技術。目前一些專利局在其官方網站上推出了機器翻譯系統,例如我國國家智慧財產權局提供有漢英機器翻譯,日本特許廳提供有日英機器翻譯,韓國智慧財產權局提供有韓英機器翻譯等,上述網路機器翻譯系統對其他國家的使用者閱讀方便和使用本國專利文獻起到了幫助作用。
隨著計算機技術的發展,機器翻譯的技術也迅速發展,從傳統的基於規則的機器翻譯擴充套件到了基於例項或模版的機器翻譯、統計機器翻譯等。尤其是近年來語言學和人工智慧技術的發展,以語義描述或以知識描述為特徵的智慧機器翻譯系統正逐步成為研究的熱點。專利文獻作為一種特殊的科技文獻,由於其具有特定的句法和語言結構,同時例如權利要求書等具有法律公示性檔案的作用,這對翻譯的準確性提出了更高的要求,已有研究者通過在機器翻譯系統內整合多個翻譯引擎、對不同特點的內容使用不同引擎翻譯的方式來提高翻譯質量。
已有的機器翻譯系統基本侷限於單篇文獻的機器翻譯,無法實現真正的多語言混合檢索。多語言混合檢索系統不僅可以允許混合語言的檢索式,而且同一個檢索式還可以對不同語言的專利文獻進行檢索,其實現方式主要有如下三種:翻譯檢索式、翻譯文獻或者兩者相結合的混合式。翻譯檢索式的工作量小,比較適合於因特網檢索,但由於檢索式通常缺乏語境,翻譯難度較大;翻譯文獻的方式雖然有利於提高翻譯質量,進而有利於文獻檢索,但存在的主要問題是翻譯量太大、翻譯時間長。
3 分類檢索
分類號一直是專利文獻檢索的重要手段。目前除了基本涵蓋各國專利文獻的國際專利分類IPC之外,美國專利商標局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標準不統一、分類條目不夠完備、文獻分類更新不及時等缺陷,導致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專利文獻,ECLA雖然能夠檢索到多國的文獻,但仍然不能有效地檢索日本、韓國、中國等國的專利文獻。
為改善這種局面,美國、日本和歐洲自2000年即開始了“三邊分類和諧計劃”,該計劃旨在推進ECLA、UC和FI三個分類體系的融合以增強分類號檢索的功能,同時對現有IPC分類體系提出改進建議。依據2009年召開的第27次三邊會議,韓國智慧財產權局已經加入上述計劃,而中國國家智慧財產權局也以觀察國的身份參與這項工作。此外,近年來美國專利商標局、日本特許廳、歐洲專利局、韓國智慧財產權局和中國國家智慧財產權局五局積極開展合作,其中一個重要的合作專案是“共同的分類”。該專案的實施將有利於提高分類的一致性,擴充套件或細化部分技術領域的分類,進而提高檢索的效率和質量。
不管是美日歐三方開展的“三邊分類和諧計劃”,還是五局共同開展的“共同的分類”專案,都必將推進專利文獻分類體系的進一步發展,實現真正意義上的“基於檢索的分類”,進一步增強分類號在專利文獻計算機檢索中的作用。
4 語義檢索
當前專利文獻檢索的主要手段為關鍵詞和分類號檢索,而由於一詞多義、一義多詞,專利文獻撰寫、加工和翻譯質量不一以及關鍵詞的機械匹配等問題,本質上決定了其查全率和查準率受限制。隨著計算技術、人工智慧、自然語言處理等技術的發展,搜尋引擎的智慧化有望從根本上提高現有檢索系統的檢索質量。
搜尋引擎的智慧化具體表現為語義檢索,也稱為知識檢索或概念檢索。語義檢索是對檢索條件、資訊組織及檢索結果顯示賦予一定語義成分的一種新的檢索方式。語義檢索的本質在於以語義為物件進行搜尋,而不是對字串進行簡單的機械匹配,因此可避免關鍵詞匹配檢索中由於詞和義不對應所導致的問題。
語義檢索過程一般包括對被檢索的文件以及輸入的檢索式進行語義分析和匹配處理。這種語義分析處理依賴於詞彙的語義描述技術以及分別用於詞義鑑別和詞彙過濾的語義識別技術和詞彙鏈演算法。可以通過諸如WordNet等語義詞典對詞彙實現較完備的語義描述,保證人和機器對詞彙的理解一致。
最新發展的潛在語義索引通過將文獻搜尋過程中的向量空間模型和奇異值分解相結合,可以揭示文件中的詞間關係,因而適於構建專利文獻搜尋引擎”…。利用語義進行檢索還可以將專利文獻中的非技術性資訊考慮在內,例如將特定的技術概念和申請人、發明人等資訊進行語義聯絡。此外,語義檢索還可以從使用者角度出發,考慮使用者的檢索需求,從而為諸如查新、侵權等不同目的的檢索提供相應的結果。
近年來國內一些開發商也紛紛提供具有語義檢索功能的專利文獻檢索系統,例如東方靈盾開發的專利檢索系統和Patenticst網站。Patentics網站除了可以實現傳統的關鍵詞檢索功能,還支援語義檢索,僅通過輸入檢索所針對的專利文獻號,即可自動對其進行語義分析、文獻檢索,並對結果進行相關度排序。當前專利文獻檢索領域還未廣泛應用語義檢索,但隨著研究的深入,相信未來的搜尋引擎不僅能利用語義技術提高檢索的效率,還有望能對檢索結果進行分析、評價,甚至自動生成檢索報告。
5 影象檢索
根據對影象檢索所使用方法的特徵可以分為基於文字的影象檢索法TBIR和基於內容的影象檢索法cBIR。專利文獻一般都帶有大量的附圖,包括機械結構或化學結構式附圖、電路圖、方框圖、流程圖或曲線圖等。與傳統的關鍵詞檢索和分類號檢索相比,CBIR更加直觀、快速,而且可以克服因文字表述差異而導致的漏檢,因此它正在成為專利文獻檢索領域的研究熱點。專利文獻的附圖都是黑白二元影象本文
所稱專利是指發明和實用新型專利,不包括外觀設計專利,不存在顏色和紋理等特徵,因此專利文獻的影象檢索主要是基於形狀和區域的影象特徵。
雖然目前還沒有成熟的專利文獻影象檢索系統,但一些研究機構已經開發出若干可專門用於專利文獻的影象檢索原型系統,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專門針對美國專利文獻進行影象檢索,而PatMedia網站上的試驗系統僅針對歐洲專利局的專利文獻,這兩個影象檢索系統都可實現直接輸入待檢索的影象,系統自動進行相似度匹配,直接提供專利附圖,同時還可以進行基於文字的影象檢索。
典型的專利影象檢索系統包括專利文獻處理部分和影象檢索部分,如圖1所示:
文獻處理部分又進一步包括文獻預處理和視覺、文字元資料提取和索引兩部分。前者是找出文獻中的圖形和對應的文字描述;後者則是進一步進行影象特徵分析和文字分析,分別提取基本的影象特徵以及能夠表示圖形含義的高層語義特徵的關鍵詞,由此分別形成索引後的圖形特徵向量庫、影象庫、文字描述關鍵詞庫和知識庫。在影象檢索部分,基於上述提取的元資料,進行影象相似度匹配,同時還可以基於文字進行影象檢索。與一般領域的圖形檢索相比,由於專利文獻中每幅圖形一般都對應有文字描述,即使不再進行人工標註或自動標註,都能提取到較好的高層語義特徵,這對提高專利文獻圖形檢索的準確性非常有幫助。
目前因特網上最新版本的PatMedia專利文獻影象檢索系統不僅提供有影象輸入的檢索方式,還提供有文獻號、關鍵詞輸入的檢索方式;此外,對於檢索結果還可以進一步使用文字過濾、類別過濾等功能。下面示例性地給出了利用PatMedia進行影象檢索的結果見圖2、圖3,輸入如圖2所示的影象,該系統可以檢索出如圖3所示的結果僅列出部分結果。
目前專利文獻影象檢索系統僅處於試驗階段,只能對數量非常少的特定專利文獻進行檢索,且檢索結果相關度還不是很高,但由於影象檢索具有其他任何檢索方式都不具備的優點,相信隨著人們對專利文獻影象檢索技術的進一步研究以及語義檢索技術的進一步發展,實現高精度的影象檢索必將成為現實。
6 輔助技術
高質量的專利文獻是提高檢索質量的基礎。專利文獻分類、標引和摘要改寫是專利文獻加工的主要內容。傳統的專利文獻加工方法主要依賴於人工,其成本高且速度受限制,質量不統一。隨著人工智慧和計算機技術的發展,開始出現對專利文獻進行自動分類、自動標引、自動摘要和自動聚類。
專利文獻自動分類已經在歐洲、美國、日本得到了廣泛的研究和嘗試。例如歐洲專利局已經利用自然語言處理的相關技術實現了專利文獻的自動初分類;對日本專利文獻自動分類研究表明,對於使用K臨近演算法進行自動分類的情況下,先將專利文獻按部分結構化為語義單元可以提高74%的效率。
PATExpert代表了目前較先進的專利文獻自動處理技術的發展,通過基於語義網的語義處理技術實現了面向內容的專利文獻自動處理,其中的一個主要技術是利用一定的語義表示結構實現專利文獻知識層面的表達。該系統可以執行的處理任務包括:專利文獻內容和元資料的自動抽取;全文、影象、相關性搜尋引擎;專利文獻的自動分類和聚類;面向多語言的輔助理解工具;專利價值自動評估等。
國內有一些研究機構開展了大量的基於IPC體系的專利文獻自動分類的研究,這些研究大部分集中在統計分類技術。近年來隨著人工智慧技術的興起,基於人工智慧或語義的專利文獻自動分類發展迅速,例如上文提到的Patentics試驗系統也開始嘗試對專利文獻進行自動分類。
中文專利文獻的自動處理仍處於研究階段,雖然國外專利文獻自動處理已經積累了許多寶貴經驗,但由於中文表述的特殊性,許多技術還待消化和開發,例如漢語詞彙之間的分詞技術是制約自動標引質量的一個障礙。隨著資訊處理自動化相關技術的發展,專利文獻的自動分類、自動標引、自動聚類和自動摘要正在逐步由半自動走向全自動化,這給搜尋引擎的發展帶來了極大的便利。同時,利用語義技術實現基於內容的自動處理將是未來的發展主流,也是提高專利文獻自動處理質量的主要手段。
7 結語
專利文獻計算機檢索是一個涉及了多學科的研究領域,其中以語義檢索為核心的技術推動了搜尋引擎、機器翻譯、影象檢索等相關技術的發展,而由於專利文獻的特殊性,分類體系和文獻自動處理技術也在其中佔據了重要地位。隨著研究的進一步深入,現存的語言障礙和檢索效率低下等缺陷在不久的將來必將逐漸被克服,不同層次的使用者有望藉助於智慧化的自動檢索系統便利地實現專業化檢索。
篇二
熟悉文獻檢索工具 學會檢索文獻資料
摘 要:在學術研究和論文寫作中,我們經常需要檢索查詢資料資料,但是在浩若煙海的文獻中,如何快速準確地找到所需要的文獻,這就要求我們對文獻檢索的知識和技術有一定的瞭解,在本文中,介紹了文獻檢索的一些基本知識,主要針對的是手工文獻檢索的方法、步驟、途經和方法。
關鍵詞:文獻檢索; 檢索工具
中圖分類號:G250 文獻標識碼:A 文章編號:1006-3315201207-144-002
德國柏林圖書館的大門上,刻有這樣一句話:“在這裡是人類知識的寶庫,如果你掌握它的鑰匙的話,那麼全部知識都是你的。”這把鑰匙就是圖書館各種型別的檢索工具和檢索工具書。
一、瞭解圖書館目錄組織,掌握目錄的檢索方法
大學生在校學習期間,由於年級的不同,利用圖書館學習所使用檢索文獻資料的工具也有所不同,低年級時最常使用的是圖書館的目錄,而到了高年級,除了使用其目錄手檢或機檢外,就是利用文獻檢索工具書和計算機檢索所需文獻。
圖書館的目錄,也稱藏書目錄,是按一定規則而組成的。它是向讀者揭示、宣傳館藏圖書內容,幫助讀者迅速而準確地查詢文獻資料,提供檢索途徑的重要工具,也是讀者利用圖書館,發掘知識寶庫的入門鑰匙。
圖書館的目錄,對讀者而言也稱讀者目錄,它的種類較多,按文字分,有中文、西文、日文、俄文目錄;按查詢途徑分,有分類、書名、著者、主題等目錄,按文獻型別分,有圖書、期刊、資料、聲象資料目錄等。
1.圖書目錄
1.1分類目錄。館藏圖書是根據各館使用的圖書分類法,按圖書內容的科學體系進行分類組成的目錄,來揭示一個圖書館的藏書。所以,讀者要想了解某學科或專業館藏圖書的情況,或者想查詢到某類的圖書,就可通過分類目錄進行檢索。
1.2書名目錄,是按書名的漢語拼音或筆畫、字母順序等方法排列組成的目錄,它是從圖書名稱方面來揭示一個圖書館的藏書。如果讀者已知書名,便可利用書名目錄檢索所需圖書。
中文圖書目錄,是按漢語拼音字母順序加筆畫排列的目錄,也就是先將同音漢字包括聲調排在一起,然後對音同字不同的漢字再按筆畫順序和筆形順序排列。
日文書名目錄,以漢字為起始的,先按《日本實用漢字表》也有用漢語拼音字母順序的筆畫順序排列,同筆畫的按筆形的順序排列。書名是以日文假名起始的,則按日文五十音圖順序排列。
西文和俄文的書名目錄,都是按原文字母的順序排列而組成的目錄,但應注意,西文圖書書名前頭的冠詞,在組成書名目錄時是省略的。
1.3著者目錄,是按著者姓名漢語拼音字母順序或筆畫、字母順序排列而組成的目錄。它是從圖書著者方面揭示館藏圖書的。如果讀者想知道館藏某一作者都有哪些圖書或想借到某作者的圖書,就可利用著者目錄進行檢索。
但利用西文、俄文著者目錄時要注意,歐美人的習慣是名在前,姓在後,所以在查詢時要倒過來才能查到。
1.4主題目錄,也稱標引目錄,它是用扼要的、經過規範的詞彙,揭示圖書所研究的物件或所論述問題的基本內容。這種目錄的特點,使凡研究物件相同的圖書,都給以同樣的主題,予以集中。這種目錄的排列,是按主題詞的字母或筆畫的順序而組成的目錄。如果讀者要查詢某一專題比較完整的圖書資料,就可利用主題目錄進行檢索。
另外,圖書館還編制有書本式館藏目錄,藏有一些圖書館書本式館藏目錄。這樣,讀者還可通過館藏書本式目錄查詢所需圖書,或者經查詢本館無館藏時還可通過其他館書本式目錄進行檢索,查詢到後便可通過館際互借或其他途徑借到所需圖書。
2.期刊目錄
期刊是連續出版物,種類相對比較穩定。期刊目錄的排列是按刊名和分類組成兩種目錄。它是揭示館藏期刊方面的目錄。中文期刊刊名目錄,是按刊名的漢語拼音字母或筆畫順序排列的。外文期刊刊名目錄,一般是按文字字母省略刊名前邊的冠詞順序排列的。分類目錄,是按各館使用的圖書分類法進行分類,組成分類目錄。
另外,各館還編制有書本式館藏期刊目錄,藏有地區性和系統的期刊聯合目錄。如果讀者通過上述兩種途徑經查詢本館不藏此種期刊時,還可通過查詢聯合目錄,查到哪個館藏有所需期刊,這樣便可通過館際互借或其他方式借到或複製方法得到所需文獻。
至於資料、聲象資料的目錄組織基本與書刊目錄組織大同小異,在這裡就不一一介紹。據調查,一個瞭解圖書館目錄組織、熟練掌握目錄檢索方法的學生,僅用2分鐘左右就可查到所需圖書;相反,不瞭解目錄排列規則,不掌握目錄檢索途徑的學生,要花上l一2個小時才能查詢到所需圖書。所以大學生在校學習期間,一定要了解圖書館目錄組織,熟練地利用目錄檢索所需書刊資料,將終身受益。
二、熟悉文獻檢索工具書,學會檢索文獻的途徑、方法與步驟
為了使科學技術工作者及時、有效地利用文獻資料,圖書情報文獻工作者相繼編輯了許多文獻檢索工具書。在當代資訊社會中,大學生熟悉文獻檢索工具書,學會檢索文獻的途徑與方法,不僅對獨立獲取文獻進行自學和培養自學能力十分有益,而且還可大大增強情報意識,不斷獲取情報資訊也有著重要作用。
1.熟悉查詢國內外文獻的工具書
利用文獻檢索工具書檢索文獻,首要一點就是要選準文獻檢索工具書。
1.1查詢國內文獻的工具書。查詢國內文獻資料的工具書主要有:《全國總書目》《全國新書目》《全國報刊資料索引》《國內內部期刊索引》《內部期刊篇名目錄》、《國內科技資料目錄》《科學技術譯文通報》以及其他檢索工具書如文摘等等。
1.2查詢國外文獻的工具書。查詢國外文獻資料的工具書主要有:《科技文摘》《國外科技資料索引》《國外科技資料館藏目錄》《專利文摘》和《專利目錄》《國外報刊目錄》《北京圖書館外文新書通報》等等。
另外,國外版的檢索工具書主要有:《化學文摘》《生物學文摘》《科學文摘》《伍利希國際期刊目錄》《科學文摘雜誌》《科學技術文獻速報》《工程索引》《地理學文摘》等等。
篇三
文獻分類與檢索
【內容提要】索引的研究、編制與文獻流通形式變化息息相關。以 計算機為主體的新技術在文獻流通領域廣泛 應用,對索引理論研究及編制形成衝擊,同時也帶來變革的要求。10年來我國索引編制研究的起伏波動,說明索引研究應順應 社會文獻流通需要而變革的重要性。書目編制、資料庫建設及文獻標引、檢索 語言方面等研究的 發展趨勢,也說明新技術運用對於文獻整理帶來的新特點、新要求。索引理論研究和編制要適應新形勢、新情況,使索引編制更好地為社會服務。
索引是利用文獻的工具,與文獻流通形式的變化息息相關。10年來在索引編制理論研究方面發生了波動,說明我們關於索引編制的理念正隨著文獻整理現代化進步而發生深刻地變化。以往文獻以紙質載體為主,索引編制靠人工,編排技術百多年沒有發生多大改變,理論研究相對穩定。自從計算機及其相關電子技術應用於文獻領域併成為新流通載體後,索引編制手段及索引形式發生了巨大變化,對傳統理念產生很大沖擊,這是造成索引研究波動的根本原因。本文就10年1993-2002來索引研究的狀況進行剖析,以求得一二看法,為索引研究深入發展籌謀。
1 索引理論研究低落,相關研究發展強勁
我國很早就有索引的編撰和理論研究。上世紀二三十年代,現代索引編制理論和方法傳到我國,曾掀起索引編制和研究的高潮,成果輝煌。新中國建立後,安定的社會 環境,先進的 政治制度,為學術研究提供了良好氛圍,索引的理論研究和編制才真正掀起高潮。雖然 影響了索引事業的發展,但撥亂反正後,索引研究與編制又蓬勃興起。尤其是80年代末期中國索引學會成立,領導索引研究, 組織索引開發,開展學術交流,使我國索引事業走向規範化道路。
20世紀90年代初,是我國學術界研究索引理論的高峰期,1996年以後研究數量相對減少。《全國報刊索引哲社版》報道的資訊顯示了這種趨勢見表1。但這種滑動並不表明我國索引研究衰退,而只能說明傳統理論研究在減少,這是索引研究走向成熟的轉折。能說明問題的是與索引研究相關學科或索引應用理論研究走向強勁。
表1 索引編制理論研究情況按《全國報刊索引》報道時間 統計
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共計
總 共 38 44 36 25 20 31 29 0 1 2 226
傳統編制 37 42 32 25 20 29 28 0 1 2 216
自動化編制 1 2 4 0 0 2 1 0 0 0 10
1.1 書目的編制研究
書目編制在我國曆史悠久,從漢代劉向著《七略》麇集眾書始,書目便成為人們查檢文獻的重要工具。其六分群書並以此編排的方法,雖然有些幼稚,但已開索引先河。書目對儲存文獻並提供文獻利用的功能,在兩千多年曆史中影響巨大。書目功能雖然主要不是用於文獻查檢,可在漫長歲月中人們主要靠書目來檢索文獻,以至許多學者將索引理論在中國的不完善歸咎於書目的影響。直到現在關於書目編制的研究一直不衰。論述書目編制和資料庫的文獻就非常之多不包括目錄學理論、各種目錄研究、圖書館編目及目錄組織等文章,見表2。尤其是運用自動化手段編制書目的研究逐漸增強。
表2 書目編制理論及資料庫研究狀況按《全國報刊索引》報道時間統計
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共計
總 共 25 17 32 10 27 51 49 36 56 51 374
書目編制 11 6 11 2 5 16 4 9 12 12 88
傳統編制 11 5 10 2 4 8 4 6 8 6 64
自動化編制 0 1 1 0 1 8 0 3 4 6 24
資料庫研究 3 5 10 6 17 49 41 18 32 27 208
1.2 書目資料庫建設研究
資料庫是計算機技術應用於文獻儲存後的文獻形態,大多數資料庫就是電子版的書目。其多種檢索途徑又使它成為一部多功能索引。對它的研究90年代初期較少,而末期達到高峰,至今不減見表2。
1.3 文獻標引研究
文獻標引是揭示文獻的途徑,書目和索引的編制都離不開它。書目標引在於揭示群書篇目,索引標引所揭示的包括文獻提名在內的各種知識點。在標引技術上沒有本質區別,對它的研究一直是常見的選題。10年來研究文章比較多見表3,不包括圖書館分類、編目所涉及的標引問題。計算機技術大規模運用書目和索引編制以來,討論自動化標引技術的文章越來越多,說明我國文獻處理技術的研究已跟上世界發展的趨勢。
表3 文獻標引研究情況按《全國報刊索引》報道時間統計
年 代 1993 1994 1995 1996 1997 1998 1999 20
00 2001 2002 共計
總 共 28 39 34 26 46 64 48 28 50 39 402
傳統理論 22 36 29 21 42 49 36 16 33 29 313
自動化標引 6 3 5 5 4 15 12 12 17 10 89
1.4 文獻檢索語言研究
檢索語言是人與文獻對話的媒介,沒有這種語言就無法做到文獻規範化處理,就無法與文獻溝通。特別是計算機技術運用以後,檢索語言成為人機對話的途徑。檢索語言是具有一定規範標準的人工語言。例如《中國圖書館圖書分類法》、《漢語主題詞表》、以及各種形式的“關鍵詞表”、“著者號碼錶”等。如今人們又提出用自然語言標引和檢索計算機整理的文獻,研討熱烈,有許多文章頗有見地,代表了檢索語言的方向。如何在網路環境下進行文獻檢索的探討日益見多見表4,資料不包括圖書館日常使用的分類法、主題法等。
表4 文獻檢索語言研究狀況按《全國報刊索引》報道時間統計
年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共計
總 共 15 37 25 16 41 29 25 35 37 19 279
傳統理論 15 35 24 15 38 25 21 27 29 11 240
自動化語言 0 2 1 1 3 4 4 8 8 8 39
相關學科研究的強勁勢頭,是索引研究和編制的必然結果,是索引研究實用化的反映,也是索引科學與各學科交叉和融合的結果。它告示我們對應用科學理論的探討更應注重於實踐。
2 索引研究發展曲線描述了電子技術應用文獻流通領域的歷程
10年中,關於索引編制、書目編制、書目資料庫、文獻標引、檢索語言等研究,都經歷了低→高→低的波動。駝峰從1995年開始至1999年,峰頂在1997-1998年。這正是以計算機為主體的現代電子技術在文獻出版、儲存、流通各環節普遍應用時期。計算機網路已成為人們實際使用的文獻形式。其功能齊全、傳播速度快、儲存量大、收藏豐富、檢索方便,準確率高,都是紙質文獻所不及,有替代書本式文獻之趨勢。在人們心理接受新生事物、生理適應並掌握操作技術上產生了解、掌握、運用的慾望,因此關於新技術運用的研究探討是必然現象。這種研究的熱化,勢必對傳統理論形成衝擊。但也要經歷由淺入深、由一般介紹到深刻研究的程序。隨著新技術的普及和運轉穩定後,該方面研究就會減少,因而形成曲線。這個曲線記錄著計算機及其網路技術在文獻流通領域應用的歷程。
2.1 計算機技術應用對傳統索引理論研究的衝擊
1994年研究索引理論的文章最多,隨之逐漸減少見表1。與研究資料庫建設、文獻標引技術和檢索語言的文章從1997年逐漸增多形成反差。形成這種反差的原因,就是學術界對計算機技術在文獻流通領域普遍應用的反映與研究探討。1994-1996年是這類研究的醞釀、寫作、發表週期。傳統理論逐漸減少合乎學術研究發展趨勢,但“0”發展不正常,重視一種研究而忽視其他研究的傾向不可取。傳統索引編制理論是一切新索引編制和索引形式的理論基礎,對其研究不可輕視。
2.2 書目資料庫研究的發展曲線見圖1,明顯表明計算機及其網路在圖書館和其他文獻傳播行業中運用的過程
關於資料庫研究的文章始見於80年代末90年代初,主要以介紹其功能作用為主。隨著計算機在文獻流通領域普及速度加快,文章數量開始增多,探討資料庫編制、檢索以及製作技術等方面內容。1995年以後研究文章開始驟增,標誌著計算機在以圖書館為主體的文獻流通領域大規模應用。之後的三四年是計算機及其網路技術普及應用的高峰,至90年代末基本穩定,於是研究的文章相對減少。
附圖
圖1 文獻標引、檢索語言、書目資料庫研究情況示意圖
2.3 文獻標引的研究與檢索語言的研究相依共存,都是揭示文獻的方式和手段
檢索語言是人與文獻載體印刷體、電子形式等溝通的語言,通過這種語言或代表這種語言的識別符號號,把文獻主體概念及其他有檢索意義的特徵表示出來,作為文獻儲存和檢索的依據。沒有檢索語言,標引無法做到。不進行標引,檢索語言便毫無用處。這是索引編制的重要途徑。尤其是計算機技術應用於文獻整理後,這兩方面的研究尤為需要。從圖1可以看出,研究的高峰恰恰也在計算機技術普遍應用時期,表明了學術界對文獻標引及其檢索語言編制的重視,同時也反映出這些學者與時俱進的學風和進取精神。計算機應用是索引理論研究史上最重大的事件,它不僅隨著文獻載體轉變而變換其形態,而且關係到編制方法、操作過程等環節的改革與創新,更重要是索引編制的觀念必須改變。這是索引編制史上一場重大的革命。
3 索引理論研究步伐不大但視野開闊
索引研究在眾學科中是小字輩,成果相對較少。研究內容大都屬於功能介紹、編制方法等探討。隨著科學研究深入 發展,人們對文獻需求廣泛,索引理論研究便向著多元化、專深化發展。特別是新型文獻載體的出現,開闊了索引理論研究的眼界。人們從多角度多方面探求揭示文獻的途徑,10年來總體研究步伐邁得不大,但研究視野比以前開闊了許多,這本身就是索引理論研究的進步。
3.1 總體趨勢是傳統理論研究在減少,但反映的是對新形勢下索引研究的呼喚
索引理論研究在90年代還很穩定。表1中1993-1999年間研究文章數量起伏不大,而且較多。說明我國學術界中有一批學者在關心索引事業的發展。在這較好的氛圍中,中國索引學會功不可沒, 組織學術研究,與國內外學界交流互通,做了許多 工作。在90年代中期,中國索引學會編輯了《索引研究論從》叢書,包括《索引的昨天與明天》、《索引技術和索引標準》、《論索引和索引方法》、《報紙索引和新聞資料庫》、《索引編制自動化》5個分冊,共收 論文114篇,聘請相關專家撰寫了有關索引編制原理及自動化編制技術、文獻標引及自動化標引技術、檢索 語言編制及 計算機語言識別技術、書目資料庫技術等方面的論文,論及問題之深,引用資料之多,學術見解之新,是索引理論研究多年未曾有過的,為中國索引理論發展起了導航作用。但近幾年研究文章驟減的狀況應該引起學術界注意,反思以往的研究是否適於新形勢、新局面的需要,如何儘快改變傳統觀念,建立起新技術研究體系等,為 網路 環境下索引事業的發展奠定基礎。
3.2 索引研究視野逐步擴大,適應了科學技術發展的大趨勢
10年間報刊上共 發表研究索引編制理論的文章203篇這個數字是按原始文獻發表時間 統計,內容包括索引編制的一般理論、自動化編制、國外索引編制、各種型別索引研究、索引史研究、對著名索引學者和編制機構研究、索引專著研究、各種檢索工具索引編制、古籍和現代著作索引編制等見表5。一般理論研究只佔31.5%,其他專門研究佔2/3還強。在64篇理論文章中談功能作用類27篇,編制原理類26篇,論索引事業發展8篇,對中外索引編制理論進行比較研究的3篇。從各種角度來研究索引編制,反映出索引研究的生命力,能夠適應科學技術進步而發展。
表5 1993-2002索引理論研究分類狀況按原始文獻發表時間統計
項 一般 自動 國外 索引 學者 索引 索引 檢索 古籍 現代 總
目 研究 化 索引 型別 機構 史 專著 工具 索引 著作 共
數量 64 12 13 62 6 7 22 10 3 4 203
3.3 索引型別的研究數量較多,表明了索引學仍是一門實用科學
只要社會需要文獻就有使用索引的要求。不論什麼時候索引都是使用文獻最便捷的途徑。研究各種型別索引編制的文章62篇,幾乎佔1/3,論述了10多種索引的編制見表6。雖然平均文章不多,但反映出學術界給予的關注。這些索引功用不同,但都是人們所需要的。
表6 型別索引研究情況按原始文獻發表時間統計
附圖
3.4 計算機技術趨於穩定後,自動化方面的研究會減少,而研究索引型別、為學術著作編制索引會增多
新文獻載體出現,文獻利用形式發生變化,對這方面的研究必然要出現,但一旦普及並趨於穩定後,介紹或說明性文章就會減少,而逐漸轉向深層次探討,文章數量就要下落。研討資料庫文章逐漸減少就是例證。而在書目編制、文獻標引、文獻編排、檢索語言等領域自動化研究逐漸增多則表明人們正在擺脫一般理論的研究,轉向實用理論、專門編制方法的探討。這也是計算機技術從應用到理論研究進展的過程。因此研究計算機應用於具體領域的文章會逐漸增多,逐步加深。
3.5 對索引史、索引研究與編制方面有貢獻的學者或機構的研究逐漸減少,而對索引著作和檢索工具索引編制研究的增多,反映出學術界更重視索引應用理論的研究,重視索引檢索功能的探討
雖然近3年這方面研究出現空白,但是暫時現象,是由於文獻載體變換中出現的調整期。當計算機技術執行穩定後,由於機編速度快、抽詞準確、編排規範等優點,節省大量編製成本和人工,勢必會出現編撰索引的高潮。包括為古今中外各種學術研究而編制索引。索引成果不一定是印刷型,但功能一樣。
只要文獻功能沒有消失,索引作用就不會消亡。從索引功利效能上講,計算機在文獻領域裡廣泛運用,為索引編制開闢了無限光明的前景,以往可望不可及的鴻篇鉅著的索引編制,如今可能在俄傾之間,輕鬆愉快之中成就。文獻使用步入了嶄新的時代。
4 走出“理論”的困惑,建立大索引觀,放眼於索引的實際應用
索引是“完備文獻”的重要組成部分,“完備文獻”應該是既有原始文獻又兼有檢索工具,使用起來非常方便。索引就是檢索工具,依附於文獻而存在。如今文獻形態發生了巨大變化,索引研究也要洗心革面,使其適應新形勢下人們對文獻的需求。就索引研究的現狀有幾方面應引起我們重視。
4.1 應突破傳統觀念的束縛,樹立創新思維
深刻研究當今人們利用文獻的特點,研究計算機及其網路發展對文獻傳播的影響,網路環境下人們對文獻使用的需求,以使索引編制適應人們未來利用文獻的需要。索引理論研究既要適應文獻形式變化,也應符合人們對所用文獻的瞭解認知、心理適應和使用習慣。不能固守傳統理論不放,理論與實用脫節,而失去指導實踐的意義。建立創新思維,不能指望在短時間建立一套完備的新理論,應該樹立新的思維方式方法,敢於創新,敢於超前,以社會需求為研究目的,充分發揮索引在揭示文獻上的作用,為文獻利用提供快車道。
4.2 衝破“太平研究”的藩籬,增強其理性探索
現在許多研究是以發表文章為第一需要,所以在理論探討上,都願說“套話”,打“貫腔”,生怕新東西叫不準,新提法不被編輯認同,因此眾雲亦云,以求太平。還有個傾向,不論什麼樣內容都把它寫成“理論”型,帶有“理論”味,把特徵、規律、功能等大談一番。這實不可取。理論研究就是為了解決實際問題,不要拘於一定的形式,內容深淺皆可,只要論述明白一個問題就是好文章。索引是一門實用科學,應注重編撰技術的研究與探討。可在10年中關於書目、索引編排技術不包括圖書館目錄組織的研究只有44篇見表7,這個數量是討論索引編制和書目編制理論314篇文章見表1、2的14%,佔這次在《全國報刊索引》查閱1 247條資訊的3.5%,表明對編制技術方面的忽視。重“理論”,輕技術,是理性不足的顯現。反映出業界習慣於約定俗成的運作,不善於開發與創新。
表7 關於書目索引編排技術研究按《全國報刊索引》報道時間統計
年代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共計
總共 4 2 5 5 3 6 2 6 2 9 44
傳統 3 2 3 4 2 3 0 4 1 2 24
自動化 1 0 2 1 1 3 2 2 1 7 20
4.3 相當研?a href='//' target='_blank'>咳嗽倍韻冉?際趿私獠蛔悖?運饕?蠢捶⒄谷鮮賭:?/p>
表1中研究傳統理念數量與研究自動化編制之比為216:10,不能不說明學術界對新技術反映生疏。許多選題和論述,都不談計算機運用於文獻整理後產生的影響,而談那些已被許多人談過的問題。這是因為對新技術運用不甚瞭解,自然就不會對未來發展有清醒認識。90年代初期計算機在我國應用較少,而西方先進國家已大規模使用,這時理論界就應有個介紹的高潮,可實際上這種文
章很少。說明我國索引界對新技術應用反映不夠,學術研究相對滯後。這種局面必須改變,不然的話我們索引研究與編制就會落伍,就會影響國家和民族科學文化事業的發展。
4.4 首先要深刻了解日新月異的新技術帶來的挑戰,需要我們不時地更新、探索、追求,才能跟上時代的步伐,才能為文獻充分服務於社會保駕護航
要根據新形勢下社會對文獻的需要,開發出實用性強的索引產品,為社會服務。索引研究和編制要因時、因書、因人、因社會需求而宜,真能如此,社會怎不認同。
4.5 理論研究要與時俱進,與實踐相結合,以社會實際需要為前提
對於原理的討論是必須的,而專門編撰理論的研究更為重要。索引編制不順應時代,脫離實際需求,就分文不值。要形成良好的研究氛圍,建立需求→研究→新需求→新研究的機制,研究有針對性也就有了生命力。編制方法有了科學性,索引成果就會產生很大的社會效益。
4.6 樹立大索引觀,開闊研究領域,為振興國家的科學、技術、文化及經濟建設服務
一不能把眼光侷限於印刷型文獻,雖然電子型文獻目前人們不常見,但它終會成為文獻主流載體,所以要加強資料庫檢索方式方法研究的力度,使電子文獻更科學的為人們服務。二不能只重視社會科學方面文獻的索引編制,要把眼界擴充套件為流通於整個社會的文獻,比如經濟建設、工業生產、商業服務業等方面,凡是能通過整序而流通於社會的文獻,或者說通過整序後有利於社會流通的文獻,都應該納入我們的視野。比如產業名錄、商品名錄等。三要注重與索引研究交叉學科的研究,這些學科間研究目的相近,技術相關,功能相連。諸如文獻的分類、編目、標引、校仇、考證以及資料庫製作技術等。雖然整理目的不同,但許多技術相近,可以相互利用,共同完成文獻的揭示與整理。
4.7 中國索引學會應加強力量引導學術研究
除組織學術活動外,更應該在索引理論研究方向上起導向作用,介紹世界上先進的編制技術和索引研究動態,引進成果,翻譯有影響的學術著作,加強學術交流,使社會各界瞭解索引的新發展。學會也應吸收工商界有關技術人員參加,使索引研究更加實用化,直接與工農業生產和國家的經濟建設掛鉤,更好地服務於國民經濟建設。
總之,10年來索引研究有喜也有憂,憂中也有喜。喜,研究成果頗豐。憂,後幾年傳統研究滑坡。滑坡的原因是社會對新技術廣泛應用的關注,人們要有個瞭解熟悉的過程。在這個過程中,人們會對傳統技術進行重新審視、評價、借鑑並與新技術融會。後幾年傳統研究減少就是新舊技術融會調整的時期。今後定會出現個新理論蓬勃發展期,因此憂中又有喜。讓我們做好理論準備,迎接新索引編制高潮的到來。
【參考文獻】
1 《全國報刊索引哲社版》,1993-2002年
2 侯漢清主編.索引技術和索引標準.北京:北京圖書館出版社,1997
3 葛永慶主編.索引的昨天今天和明天.中國索引學會出版.1994
4 葛永慶主編.論索引和索引法.中國索引學會出版,1994
5 葛永慶主編.索引工作自動化.中國索引學會出版,1994
6 葛永慶主編.報紙索引和新聞資料庫.中國索引學會出版,1999
有關推薦:
計算機系統維修論文