數(shù)字檔案館指檔案收集、處理、存儲(chǔ)、查詢等檔案管理活動(dòng)的數(shù)字化、電子化、網(wǎng)絡(luò)化,即虛擬檔案。它是基于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫(kù)技術(shù)以及多媒體技術(shù)的發(fā)展而產(chǎn)生的新型檔案館。數(shù)字檔案館是一個(gè)數(shù)字化的信息系統(tǒng),它把分散于不同載體不同地理位置的信息資源以數(shù)字化的形式存貯,以網(wǎng)絡(luò)方式互相聯(lián)結(jié),從而提供及時(shí)利用,實(shí)現(xiàn)資源共享。
全文數(shù)據(jù)庫(kù)建設(shè)的問題
在實(shí)際中有一種讓人說不清的現(xiàn)象,就是建設(shè)數(shù)字檔案館中,并不十分關(guān)注檔案全文數(shù)據(jù)庫(kù)建設(shè)的問題,其表現(xiàn):
1.忽略檔案全文數(shù)據(jù)庫(kù)建設(shè)
一是忽略檔案全文數(shù)據(jù)庫(kù)建設(shè)。如國(guó)家檔案局的《數(shù)字檔案館建設(shè)指南》雖然指出:“數(shù)字檔案資源建設(shè)是數(shù)字檔案館建設(shè)的核心內(nèi)容”,但是,在整部《數(shù)字檔案館建設(shè)指南》中沒有提及檔案全文數(shù)據(jù)庫(kù)建設(shè)的問題,根本沒有對(duì)檔案全文數(shù)據(jù)庫(kù)建設(shè)的要求。在國(guó)家檔案局《數(shù)字檔案館系統(tǒng)測(cè)試辦法》中也同樣沒有提及檔案全文數(shù)據(jù)庫(kù)的問題,也沒有對(duì)檔案全文數(shù)據(jù)庫(kù)建設(shè)的要求,而僅僅有對(duì)檔案目錄數(shù)據(jù)庫(kù)的要求。
2.忽略檔案全文數(shù)據(jù)庫(kù)建設(shè)
二是誤讀檔案全文數(shù)據(jù)庫(kù)。在許多數(shù)字檔案館建設(shè)的地方,大都稱已建立了檔案全文數(shù)據(jù)庫(kù),但是,也不知是不理解什么是檔案全文數(shù)據(jù)庫(kù),還是誤解檔案全文數(shù)據(jù)庫(kù),實(shí)際并沒有建立檔案全文數(shù)據(jù)庫(kù),而是將檔案全文掃描圖像誤認(rèn)為是檔案全文數(shù)據(jù)庫(kù)。實(shí)際只是對(duì)檔案原文進(jìn)行圖像數(shù)字化掃描,生成的只是一幅幅圖像,并不能對(duì)其內(nèi)容進(jìn)行直接檢索,而是通過掛接到檔案目錄數(shù)據(jù)庫(kù),靠檢索檔案目錄來指引查閱檔案原文。這種現(xiàn)象從一些地方數(shù)字檔案館的建設(shè)費(fèi)用上就可以看出來。例如,一個(gè)通過國(guó)家示范數(shù)字檔案館測(cè)試的檔案館,共投資560萬(wàn)元,包括機(jī)房、軟硬件平臺(tái)、數(shù)字檔案館管理軟件、“加工檔案96779卷,建成了159萬(wàn)條目錄數(shù)據(jù)庫(kù)、1085萬(wàn)頁(yè)全文數(shù)據(jù)庫(kù)、36027張照片數(shù)據(jù)庫(kù)、11160分鐘的多媒體數(shù)據(jù)庫(kù),12809條圖書資料目錄數(shù)據(jù)庫(kù)”等。一般加工一頁(yè)全文檔案(掃描、文字識(shí)別、校對(duì))至少1元,而且年代越遠(yuǎn)的檔案其加工成本會(huì)更高。那么,僅1085萬(wàn)頁(yè)全文就需要資金1085萬(wàn),僅此一項(xiàng)幾乎是總投資2倍。所以,可以肯定其不是全文數(shù)據(jù)庫(kù),而只是全文圖像數(shù)據(jù)庫(kù),也就是無(wú)法進(jìn)行檔案全文檢索的檔案信息。
3.對(duì)檔案全文數(shù)據(jù)庫(kù)文字識(shí)別的標(biāo)準(zhǔn)問題
三是對(duì)檔案全文數(shù)據(jù)庫(kù)文字識(shí)別的標(biāo)準(zhǔn)問題。對(duì)于檔案全文數(shù)據(jù)庫(kù)最基礎(chǔ)的紙質(zhì)檔案資源的數(shù)字化加工,檔案行業(yè)標(biāo)準(zhǔn)《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(DA/T31—2017)根本沒有有關(guān)檔案全文文字識(shí)別的問題,該規(guī)范只對(duì)紙質(zhì)檔案數(shù)字化掃描圖像的分辨率做了規(guī)定。也就是對(duì)于檔案全文的數(shù)字化文字識(shí)別的問題根本沒有標(biāo)準(zhǔn)。對(duì)于文字識(shí)別率的問題,有專家認(rèn)為:“識(shí)別率一般達(dá)到90%以上,已經(jīng)基本滿足檔案全文檢索的需要了。有的人片面追求識(shí)別率,一定要求識(shí)別率達(dá)到98%-99%的,反復(fù)校對(duì),實(shí)際上是浪費(fèi)人力物力?!睂?shí)際90%的識(shí)別率對(duì)檔案全文檢索還是有相當(dāng)影響的,達(dá)到98%-99%可能有些要求高,至少應(yīng)該在95-98%以內(nèi)。但是,OCR只能對(duì)現(xiàn)代正規(guī)的打印體識(shí)別率較高,對(duì)于手寫體、鋼板刻字以及打字機(jī)打字蠟紙油印的字體的識(shí)別率并不高,特別是前兩者。至于豎版的檔案就更別說了。而在市縣級(jí)檔案館保存的檔案中,現(xiàn)代正規(guī)的打印體的并不多,大部分都是后者。就像計(jì)算機(jī)的普及一樣,先省后市,然后才是縣鄉(xiāng),先經(jīng)濟(jì)發(fā)達(dá)地方,后經(jīng)濟(jì)落后地方,從手寫到鋼板刻字再到打字機(jī)打字,也是如此。
近日,知識(shí)管理專家會(huì)博通“知識(shí)檢索功能”及“百度OCR”功能上線,將以更前沿的技術(shù)手段,更便捷的檔案數(shù)字化管理方式,提升對(duì)全文數(shù)字庫(kù)的管理,從而提升數(shù)字檔案館的管理效益。