民國檔案數字化研究與思考
朱琪
隨著信息技術、網絡技術、數據庫等技術的迅速發展及其在各領域的廣泛應用,社會信息流通的基礎結構發生了根本性的變化,檔案數字化的建設勢在必行①。民國檔案年代久遠,記載著民國社會歷史的原貌,反映著民國社會發展的軌跡。將館藏民國檔案數字化,對于繼承和保護人類寶貴的文化財富,無疑是最有意義的。為此,筆者就檔案數字化建設作粗淺的探討,與檔案界同行交流,以推進檔案數字化的健康發展。
一、檔案數字化
檔案數字化就是將存儲于傳統載體上的檔案信息進行數字化。它利用掃描、照相及其他數字轉換技術、將紙質及其他載體中記錄的傳統檔案信息(模擬形式)轉換成可以被計算機識別和處理的數字形式的過程。數字化檔案的最大特點是能夠通過網絡迅速流動,徹底改變檔案的利用方式,促使檔案管理從檔案的保管、利用職能向信息采集、信息管理和信息服務職能轉變。
二、檔案數字化面臨的問題
近些年來,為充分利用現代信息技術為檔案的管理與利用服務,檔案界對檔案數字化進行了理論研究,同時全國各地的一些檔案館也開展了積極的嘗試,但是在檔案數字化過程中也面臨著一些問題。
1.標準問題
數字化標準是數字化建設規范和高效的保障,是穩步推進檔案數字化建設的基礎。但目前檔案數字化標準化建設還處在簡單、孤立、單個的狀態,還沒有形成完整的體系。全國檔案數字化無相關數據標準,不同檔案部門數據結構格式不統一,盡管可以通過大量的元數據來克服這樣不一致的問題,但不利于網絡條件下檔案信息的高效率共享。檔案數字化標準的缺位與滯后,已成為制約檔案數字化建設的瓶頸;檔案管理軟件低水平與數據壁壘現象,已成為阻礙檔案數字化發展的阻力②。
2.優選問題
長期以來,受歷史檔案“片紙只字不得銷毀”思想影響,在民國檔案接收進館過程中,采取“有文必收,有檔定管”的態度,永久保管。這樣,不免將內容極具一般的事務性文件、零散性文件、重復性文件與體現民國時期機關主要職能的業務性文件交織在一起,這種“魚龍混雜,玉石不分”的館藏現象,造成了“館藏的虛腫,內容的龐雜”,影響著館藏檔案的優化管理。在當前檔案數字化工作中哪些內容優先數字化,哪些全宗優先數字化,哪些全宗暫緩數字化等,這些問題都很難明確。極端的做法是盡其所能通過鍵盤、采集卡及掃描設備等將其內容全部數字化③。目前,二史館共收藏有940多個全宗,計180多萬卷檔案,排架長度達5萬余米,繞南京城墻1.5周④,如果將這些檔案全部數字化,需耗時20年。
3.檢索問題
檔案信息檢索是館藏檔案數字化基礎工作的重中之重。數字化的館藏檔案,不僅應該是經過系統化整理的,而且是建立了能與全文數字化信息鉤鏈檢索的案卷級或文件級機讀目錄。因此,必須處理好館藏檔案實體整理中的遺留問題,完善案卷級目錄的主題揭示和加強文件級目錄的編制以及目錄數據庫的建設。
三、檔案數字化對象的界定
民國檔案數量浩繁,而資金和人力資源相對有限,檔案數字化不可能一步到位。因此,我們應該從實際出發,采取優先原則進行檔案數字化⑤。
一是館藏珍貴檔案應優先數字化。各檔案館都有其最為珍貴的“鎮館之寶”,從保護人類歷史遺產和搶救的角度出發,這些特藏應該成為數字化的首選對象。
二是瀕危、經過鑒定確認具有重要保存和使用價值的檔案應優先數字化。此舉有利于加快搶救與妥善保存這些反映民國時期歷史進程、社會變遷等重大歷史事件的瀕危檔案信息。
三是具有館藏特色的檔案應優先數字化。選擇本館獨有、特有的資源進行檔案數字化,可以突出自己的特色,實現優勢互補和共享。
四是利用率高、需求大、開放的檔案應優先數字化。這樣不僅可以發揮館藏檔案的社會效益和經濟效益,而且有利于對檔案原件的保護。
二史館在長期的館藏建設中形成了自己的核心館藏,它們形成時間早、影響范圍廣、使用價值大、利用頻率高。早在上世紀六十年代,老一代檔案工作者為適應當時形勢的需要,從實體館藏150萬卷,700多個全宗的基礎上,精心選出74000多卷重要檔案。雖然這些檔案不能代表館藏中極具重要價值檔案的全部,卻是二史館館藏最為核心檔案的一部分,成為館藏檔案中利用最頻繁和最有亮點的檔案。我們應該在尊重前人勞動成果基礎上,將這些檔案優先進行數字化運作。
四、檔案數字化建設
1.檔案目錄數據庫
由于館藏檔案歷史跨度大,數量多,早期檔案整理編目工作較粗,目錄數據庫質量不高。例如案卷過大過厚,目錄籠統不準確,不能反映卷內內容或只反映部分內容等,造成大量有價值的信息沒有被揭示出來,降低了檔案利用的效益。2009年4月我館正式啟動館藏檔案數字化掃描工作,先期將教育部全宗和內政部全宗進行整理編目,共計36931條目錄,比原來增加了6000多條,解決了部分案卷過厚、標題不準確、檔案著錄項缺失(如形成時間、責任者不詳、事由不清)等問題,使整理后案卷標題規范,主題清晰,能夠全面反映卷內文件內容。然后將這些優質目錄和規范數據輸入計算機檔案管理系統,形成的新案卷目錄數據庫質量大為提高。同時,也為今后數字化全文掃描準確掛接,為檔案利用者快速和準確查詢提供了重要保證。
2.紙質檔案全文數字化
通過掃描儀、數碼相機對檔案原文進行光學掃描,以圖片格式或光學字符進入計算機,形成圖像文件。之后可用OCR識別軟件,將掃描后的圖像文件轉換成文本文件。
掃描系統參數的選擇和確定對掃描數字影像質量有著較大影響,其中掃描分辨率直接關系到掃描文件的清晰度和還原效果。我們在選擇分辨率時應根據實際需要綜合考慮,包括掃描文件的可閱讀性、存儲空間、輸出打印質量等。
根據檔案紙質的不同,采用不同的分辨率。否則,有的幅面清晰度好;有的幅面則清晰度差。對大幅面的表冊和地圖等檔案資料進行分塊掃描,形成的多幅圖像,要即時合并為一個完整的圖像,避免遺忘,以保證檔案資料數字化圖像的整體性。
3.多媒體檔案數字化
(1)照片檔案數字化。可采用以下兩種方法進行輸入,一種是利用光電掃描儀將照片存貯到計算機中的磁盤上,然后將照片采用壓縮文件格式進行縮小,解決因掃描圖象占用磁盤空間較大的問題。另一種方法是采用數碼相機對照片進行拍攝,圖像存貯在相機的磁盤上,再將圖像下載到計算機的硬盤或光盤上。對照片檔案進行掃描轉換,照片檔案掃描采用圖形格式,一般格式為JPG、TIFF,并且采用較高的分辨率,便于日后沖洗和印刷利用。
(2)聲像檔案數字化。主要是對錄音帶、錄像帶進行數字化處理。聲像檔案采用視頻采集卡和軟件進行模數轉換,音頻數據采用MP3、WAV等格式存儲,視頻數據采用MPEG、MOV等格式存儲。
(3)對數碼照相機和攝像機產生的已經是數字化格式的多媒體檔案,則可直接進入對應的多媒體檔案管理系統。
(4)檔案縮微品的數字轉換。使用縮微膠片掃描儀進行掃描,直接將縮微膠片轉換成數字信號,避免再對紙質原件進行重復掃描。
4.實現掃描文件和已有目錄數據庫的掛接
通過檔案目錄數據庫和掃描文件的快速掛接,系統就可初步實現對目標檔案的全文檢索。然而,真正意義上的全文檢索,不僅應該構建功能完備的檔案全文數據庫,而且能夠集成數據庫檢索技術、全文檢索技術、圖像內容檢索技術以及數字化音頻和視頻信息的檢索技術等。由于數字化檔案要求必須與檔案原件完全一致,然而目前的數字轉換、識別技術又不能完全滿足這一要求,因此,要實現數字檔案全文檢索,還有待技術的進一步發展。
5.開展網上利用服務
檔案數字化的目的就是要組織數字信息上網,面向應用,建立“活性”,實現檔案信息的網上檢索和利用,為用戶提供更好的服務。
五、結束語
檔案數字化是對檔案部門的挑戰,也給檔案工作帶來了新的契機。面對新的挑戰和機遇,我們要勇于擔負起社會使命,以優化理論為指導,以用戶需求為導向,以檔案利用為目的,加快檔案數字化建設的進程,實現“資源共享、保護檔案、傳承歷史”的愿景目標。
注釋:
①熊飛,熊艷.城建檔案數字化建設[J].城建檔案,2009(2):12-13.
②趙寧燕等.檔案數字化建設危機[J].蘭臺世界,2008(10):6-7.
③王素立.檔案信息數字化邊界問題的研究[J].檔案學通訊,2008(4):65-67.
④王俊明.九州圖籍歸天府——中國第二歷史檔案館解放初期接收政權檔案紀實[J].中國檔案,2009(9):37-39.
⑤陳光誼.淺談檔案數字化建設中應遵循的幾個原則[J].四川檔案,2009(3):46-47.
⑥趙煒.檔案的影像化趨勢研究[J].中國檔案,2009(7):44-49.