淺談高校數字圖書館資訊數字化建設中的問題及對策
General 更新 2024年12月22日
論文關鍵詞:數字圖書館 資訊數字化 儲存技術 發展對策
論文摘要:數字圖書館是一個將資訊資源以數字化方式存貯並通過網路提供即時服務的資訊系統,因而資訊資源數字化是實現數字圖書館的根本條件。從數字圖書館中資訊資源數字化的涵義出發,探討了資訊數字化的關鍵技術,並從內容建設、智慧財產權、技術應用和標準與規範4個方面分析了我國數字圖書館資訊數字化中存在的主要問題,同時提出了相應的對策和建議。
資訊數字化作為數字圖書館的內容建設,是數字圖書館正常運轉的關鍵步驟。但目前我國資訊數字化中由於種種原因還存在許多問題,如重複建設、智慧財產權、技術應用和標準與規範等問題,這些都嚴重阻礙了我國數字圖書館的健康發展。因此,我國在實施資訊數字化建設過程中,不僅需要更新觀念、統籌建設,還要規範標準、加強立法、提高館員素質,更要加強適合我國國情的技術創新。為此,我們需要不斷地總結經驗,探索新的開發技術和工作方式,逐步將我國寶貴的傳統文化遺產加以數字化,進而開發出具有中國特色的數字化產品。
1數字圖書館中的資訊數字化
1.1資訊數字化的內涵
從社會資訊化環境來說,數字圖書館是運用計算機技術、網路技術、通訊技術等多種資訊科技,對不同載體和型別的資訊資源進行蒐集、選擇和規範化處理,使之以數字化的方式儲存,建立分散式的館藏資訊資源庫和虛擬資訊資源庫,並通過網路向世界各地使用者提供無時空限制服務的資訊系統。數字圖書館的主要職能是蒐集、儲存和傳遞數字化資訊,可以稱之為數字化資訊的儲存和傳遞中心,因而資訊數字化建設無論從質量還是從數量上都是數字圖書館發展的關鍵環節。
1.2資訊數字化的關鍵技術
資訊數字化技術包括數字化資訊的生成技術、儲存技術和壓縮技術等,其關鍵技術是數字化資訊的生成技術和儲存技術。
1)數字化資訊的生成技術包括有鍵盤錄入和非鍵盤錄入兩種方式,目前使用較多的數字化資訊的生成技術主要是第二種方式。鍵盤錄入是一種手工轉換的文字模式;非鍵盤錄入包括手寫識別技術、印刷文稿掃描識別技術、語音識別技術。在資訊數字化實際工作中,我國許多數字圖書館都採用兩者相結合的方式來規避鍵盤錄入的較高錯誤率和掃描方式對硬體的較高要求,也就是採用超星公司開發的數字化技術加上行動式檔案格式(PDF)和超文字標記語言(HTML)格式。
2)數字化資訊的儲存技術包括直接儲存技術和網路儲存技術。直接儲存技術是目前大多數數字圖書館的資料存貯技術,主要包括光碟塔技術、磁碟陣列技術和磁帶庫技術;網路儲存技術是海量資料資訊儲存的實現方式,包括直接附加儲存(DAS)、網路附加儲存(NAS)、儲存區域網路(SAN)、小型計算機系統介面(iSCSI)技術和內容定址儲存(CAS)[1]。
2資訊數字化中存在的主要問題
雖然我國數字圖書館建設中的資訊數字化工作取得了一定的進步,但由於觀念和技術的落後,資訊數字化建設整體上呈現出數字資訊資源重複建設嚴重、版權保護立法不健全、缺乏有力的技術支撐、標準和規範化建設滯後等問題[2]。
2.1重複建設問題
由於國內各地區、各系統以及各館之間無一個權威的協調機構,也無規劃佈局和分工實施計劃,數字圖書館建設缺乏全域性性的統一規劃和政府權威部門的協調,相當多的所謂數字圖書館建設仍處於各自為政、貪大求全和相對分散的無序狀態,資訊資源重複現象的問題嚴重。近年來,我國各級政府投入數字化建設的資金總額已達36億元,在政府資金的大力支援下,各級各類數字圖書館都在進行數字資訊資源建設,甚至引進CNKI等資料庫,這種現象在各大高校數字圖書館的資訊數字化中也非常普遍,在相當廣的範圍內存在著潛在的數字資訊資源重複建設問題。
2.2智慧財產權問題
數字圖書館中資訊數字化所涉及的智慧財產權問題包括資訊來源的著作權尊重和數字化資訊建成後自身著作權的保護。隨著數字圖書館的開通,資料庫的利用將越來越廣泛,由此產生的智慧財產權問題就不可避免,其中爭論的焦點是關於網路作品的製作、傳播和使用的版權保護問題,讓一些數字圖書館在實踐中遭遇法律尷尬。著作權人公開指責圖書館界濫用權利,嚴重損害了著作權人的利益;出版界也有人認為文獻資訊的數字化是複製出版界的出版物,在網上出現了成千上萬的複製本、使出版界的經濟利益受到損害;而圖書館界則認為資訊獲取的主動權完全掌握在版權人手裡,這樣會嚴重地影響知識的創造和傳播。因而制定網上數字化文獻的著作權法律法規已成當務之急。
2.3技術應用問題
隨著電子出版物的收藏和網路數字化資源的採集,圖書館越來越多的資訊一入館就是數字化的,而對於未數字化的傳統館藏,進行數字化轉化所使用的技術主要是光學字元識別(OCR)掃描錄入方式。一般的OCR錄入系統能夠實現對各種現代書籍、簡繁體書籍、報刊雜誌、公文件案的錄入識別,且識別率高,還能實現各種校對,然而,對於館藏文獻的數字化而言,由於漢字的複雜性,OCR對各類中文文獻的識別遠難於對英文和數字的識別,特別對含有繁體手寫漢字的古籍文獻、簡繁混排的中文文獻、專業性強的中文文獻以及難於機檢的漢字文獻。OCR技術目前還存在很大的誤識率和拒識率,為此,需要對OCR系統進行深入的研究和改進,提高其應用的全面性,並要引入中文校對、錄入質量控制等技術,從而加強其管理功能。
2.4標準與規範問題
目前,在資訊數字化標準規範方面存在的問題主要有:①缺乏對標準規範重要性的認識;②缺乏普遍接受和廣泛應用的關鍵標準規範;③缺乏對標準規範建設的系統化把握;④缺乏對標準規範的開放描述和開放應用;⑤缺乏開放、聯合、共享的標準規範建設與應用機制,例如圖書館在資訊資源建設過程中所採用的軟體系統差異很大,如ILAS系統、圖書館整合系統等,其標準和格式都不一致,導致開發的資料庫不能相容,檢索介面不一,檢索途徑也不同,檢索語言也無統一的規範控制,無法在網上實現資源共享。
關於圖書館參與營造綠色網路環境探討
公共關係論文參考文獻
論文摘要:數字圖書館是一個將資訊資源以數字化方式存貯並通過網路提供即時服務的資訊系統,因而資訊資源數字化是實現數字圖書館的根本條件。從數字圖書館中資訊資源數字化的涵義出發,探討了資訊數字化的關鍵技術,並從內容建設、智慧財產權、技術應用和標準與規範4個方面分析了我國數字圖書館資訊數字化中存在的主要問題,同時提出了相應的對策和建議。
資訊數字化作為數字圖書館的內容建設,是數字圖書館正常運轉的關鍵步驟。但目前我國資訊數字化中由於種種原因還存在許多問題,如重複建設、智慧財產權、技術應用和標準與規範等問題,這些都嚴重阻礙了我國數字圖書館的健康發展。因此,我國在實施資訊數字化建設過程中,不僅需要更新觀念、統籌建設,還要規範標準、加強立法、提高館員素質,更要加強適合我國國情的技術創新。為此,我們需要不斷地總結經驗,探索新的開發技術和工作方式,逐步將我國寶貴的傳統文化遺產加以數字化,進而開發出具有中國特色的數字化產品。
1.1資訊數字化的內涵
從社會資訊化環境來說,數字圖書館是運用計算機技術、網路技術、通訊技術等多種資訊科技,對不同載體和型別的資訊資源進行蒐集、選擇和規範化處理,使之以數字化的方式儲存,建立分散式的館藏資訊資源庫和虛擬資訊資源庫,並通過網路向世界各地使用者提供無時空限制服務的資訊系統。數字圖書館的主要職能是蒐集、儲存和傳遞數字化資訊,可以稱之為數字化資訊的儲存和傳遞中心,因而資訊數字化建設無論從質量還是從數量上都是數字圖書館發展的關鍵環節。
資訊數字化技術包括數字化資訊的生成技術、儲存技術和壓縮技術等,其關鍵技術是數字化資訊的生成技術和儲存技術。
1)數字化資訊的生成技術包括有鍵盤錄入和非鍵盤錄入兩種方式,目前使用較多的數字化資訊的生成技術主要是第二種方式。鍵盤錄入是一種手工轉換的文字模式;非鍵盤錄入包括手寫識別技術、印刷文稿掃描識別技術、語音識別技術。在資訊數字化實際工作中,我國許多數字圖書館都採用兩者相結合的方式來規避鍵盤錄入的較高錯誤率和掃描方式對硬體的較高要求,也就是採用超星公司開發的數字化技術加上行動式檔案格式(PDF)和超文字標記語言(HTML)格式。
2)數字化資訊的儲存技術包括直接儲存技術和網路儲存技術。直接儲存技術是目前大多數數字圖書館的資料存貯技術,主要包括光碟塔技術、磁碟陣列技術和磁帶庫技術;網路儲存技術是海量資料資訊儲存的實現方式,包括直接附加儲存(DAS)、網路附加儲存(NAS)、儲存區域網路(SAN)、小型計算機系統介面(iSCSI)技術和內容定址儲存(CAS)[1]。
2資訊數字化中存在的主要問題
雖然我國數字圖書館建設中的資訊數字化工作取得了一定的進步,但由於觀念和技術的落後,資訊數字化建設整體上呈現出數字資訊資源重複建設嚴重、版權保護立法不健全、缺乏有力的技術支撐、標準和規範化建設滯後等問題[2]。
2.1重複建設問題
由於國內各地區、各系統以及各館之間無一個權威的協調機構,也無規劃佈局和分工實施計劃,數字圖書館建設缺乏全域性性的統一規劃和政府權威部門的協調,相當多的所謂數字圖書館建設仍處於各自為政、貪大求全和相對分散的無序狀態,資訊資源重複現象的問題嚴重。近年來,我國各級政府投入數字化建設的資金總額已達36億元,在政府資金的大力支援下,各級各類數字圖書館都在進行數字資訊資源建設,甚至引進CNKI等資料庫,這種現象在各大高校數字圖書館的資訊數字化中也非常普遍,在相當廣的範圍內存在著潛在的數字資訊資源重複建設問題。
2.2智慧財產權問題
數字圖書館中資訊數字化所涉及的智慧財產權問題包括資訊來源的著作權尊重和數字化資訊建成後自身著作權的保護。隨著數字圖書館的開通,資料庫的利用將越來越廣泛,由此產生的智慧財產權問題就不可避免,其中爭論的焦點是關於網路作品的製作、傳播和使用的版權保護問題,讓一些數字圖書館在實踐中遭遇法律尷尬。著作權人公開指責圖書館界濫用權利,嚴重損害了著作權人的利益;出版界也有人認為文獻資訊的數字化是複製出版界的出版物,在網上出現了成千上萬的複製本、使出版界的經濟利益受到損害;而圖書館界則認為資訊獲取的主動權完全掌握在版權人手裡,這樣會嚴重地影響知識的創造和傳播。因而制定網上數字化文獻的著作權法律法規已成當務之急。
2.3技術應用問題
隨著電子出版物的收藏和網路數字化資源的採集,圖書館越來越多的資訊一入館就是數字化的,而對於未數字化的傳統館藏,進行數字化轉化所使用的技術主要是光學字元識別(OCR)掃描錄入方式。一般的OCR錄入系統能夠實現對各種現代書籍、簡繁體書籍、報刊雜誌、公文件案的錄入識別,且識別率高,還能實現各種校對,然而,對於館藏文獻的數字化而言,由於漢字的複雜性,OCR對各類中文文獻的識別遠難於對英文和數字的識別,特別對含有繁體手寫漢字的古籍文獻、簡繁混排的中文文獻、專業性強的中文文獻以及難於機檢的漢字文獻。OCR技術目前還存在很大的誤識率和拒識率,為此,需要對OCR系統進行深入的研究和改進,提高其應用的全面性,並要引入中文校對、錄入質量控制等技術,從而加強其管理功能。
2.4標準與規範問題
目前,在資訊數字化標準規範方面存在的問題主要有:①缺乏對標準規範重要性的認識;②缺乏普遍接受和廣泛應用的關鍵標準規範;③缺乏對標準規範建設的系統化把握;④缺乏對標準規範的開放描述和開放應用;⑤缺乏開放、聯合、共享的標準規範建設與應用機制,例如圖書館在資訊資源建設過程中所採用的軟體系統差異很大,如ILAS系統、圖書館整合系統等,其標準和格式都不一致,導致開發的資料庫不能相容,檢索介面不一,檢索途徑也不同,檢索語言也無統一的規範控制,無法在網上實現資源共享。
公共關係論文參考文獻