“互聯(lián)網(wǎng)+”時(shí)代的古籍?dāng)?shù)字化新思路論文
“互聯(lián)網(wǎng)+”時(shí)代的古籍?dāng)?shù)字化新思路論文
摘要:本文分析了目前中文古籍?dāng)?shù)字化過程中遇到的問題,在“互聯(lián)網(wǎng)+”的驅(qū)動(dòng)下,通過借鑒成熟的“reCAPTCHA”技術(shù),構(gòu)建基于互聯(lián)網(wǎng)知識(shí)網(wǎng)絡(luò)的古籍?dāng)?shù)字化平臺(tái)。
關(guān)鍵詞:古籍 互聯(lián)網(wǎng) 大數(shù)據(jù) 知識(shí)網(wǎng)絡(luò) 驗(yàn)證碼 數(shù)字化
一、古籍?dāng)?shù)字化出現(xiàn)的問題
1、古籍?dāng)?shù)字化研究現(xiàn)狀
古籍又稱典籍、文獻(xiàn),是指沒有采用現(xiàn)代印刷技術(shù)來印制的書籍。中華文明五千年從甲骨文、簡牘、卷軸再到線裝,留下了大量寶貴的古籍,作為中華文明文化延續(xù)的印證,古籍整理是非常重要的。
古籍整理的傳統(tǒng)方法,是通過對(duì)古籍進(jìn)行審校釋(審定、?、注釋)等加工整理后形成新版本,便于現(xiàn)代人進(jìn)行閱讀。古籍整理的傳統(tǒng)方法主要依賴手工進(jìn)行,有著操作過程繁雜、效率低的缺點(diǎn),而且新版本仍然是書本形式,難以再次利用。在計(jì)算機(jī)技術(shù)出現(xiàn)后,古籍整理有了新的工具和方法,即古籍?dāng)?shù)字化技術(shù)。通過利用信息技術(shù)將古籍文獻(xiàn)進(jìn)行加工和整理,并使其轉(zhuǎn)化為電子數(shù)據(jù),可以通過光盤、網(wǎng)絡(luò)進(jìn)行保存和傳播,有效解決了傳統(tǒng)古籍整理的缺點(diǎn)。
中文古籍的數(shù)字化最早是二十世紀(jì)七十年代,從計(jì)算機(jī)技術(shù)發(fā)達(dá)的美國開始的。我國在引入相關(guān)技術(shù)后,產(chǎn)生了大批有價(jià)值的成果。國家圖書館的“古籍特藏文獻(xiàn)數(shù)字化計(jì)劃”,完成了“甲骨文”、“數(shù)字方志”、“碑砧菁華”、“敦煌遺珍”、“西夏碎金”、“永樂大典”等成果。其他研究機(jī)構(gòu)也推出了大量產(chǎn)品,其中北京大學(xué)所著的《中國基本古籍光盤庫》,將收錄古籍萬余種。另外,在CALIS項(xiàng)目和CANAL項(xiàng)目中涉及到的古籍子項(xiàng)目也有很好的成果。
國際上,拉丁文體系古籍的數(shù)字化工作也進(jìn)行了大量研究工作。由歐盟二十六家圖書館聯(lián)合推出的IMPACT(Improving Access to Text)項(xiàng)目,是一個(gè)通過研究OCR(Optical Character Recognition,光學(xué)字符識(shí)別)技術(shù),來推動(dòng)拉丁體系文字古籍?dāng)?shù)字化工程。
2、古籍?dāng)?shù)字化的發(fā)展與瓶頸
我國古籍?dāng)?shù)字化的發(fā)展經(jīng)歷了聯(lián)合目錄階段、目錄+影像階段和全文檢索三個(gè)階段。
第一階段是20世紀(jì)80年代,聯(lián)合目錄為古籍?dāng)?shù)據(jù)庫檢索系統(tǒng)的開發(fā),以數(shù)據(jù)庫的形式儲(chǔ)存。通過利用計(jì)算機(jī),對(duì)古籍資料進(jìn)行目錄檢索、內(nèi)容整理、儲(chǔ)存、數(shù)量統(tǒng)計(jì),以及編制索引,極大的改進(jìn)了古籍文獻(xiàn)的檢索方式,是古籍研究的輔助工具。最初的古籍?dāng)?shù)據(jù)庫主要是書目數(shù)據(jù)庫,很多省市級(jí)圖書館都建立了書目數(shù)據(jù)庫,其中南京圖書館建立了40萬條中文古籍書目數(shù)據(jù)。
第二階段是20世紀(jì)90年代的目錄+影像階段。這個(gè)階段形成了以光盤為載體,可通過目錄進(jìn)行查詢、瀏覽原文的影像頁的古籍文獻(xiàn)或古籍?dāng)?shù)據(jù)庫,所以又稱為光盤版古籍。1997年武漢大學(xué)出版社推出的“四庫全書光盤版”共150張光盤,以文淵閣本《四庫全書》為底本,將全書兩百余萬頁逐頁掃描成電子文件。
第三階段,2000年起古籍?dāng)?shù)字化進(jìn)入了全文檢索階段。將古籍的全文錄入進(jìn)數(shù)據(jù)庫系統(tǒng),通過文本與檢索項(xiàng)匹配,實(shí)現(xiàn)直接到段落的精確查找。并且配置網(wǎng)絡(luò)化,以各地區(qū)的圖書館為節(jié)點(diǎn)、網(wǎng)絡(luò)為紐帶建立了網(wǎng)絡(luò)上的聯(lián)合數(shù)據(jù)庫。
通過網(wǎng)絡(luò)共享服務(wù),可以不再依賴個(gè)人存儲(chǔ)也能得到海量資源。然而古籍?dāng)?shù)字資源不足,影響了網(wǎng)絡(luò)化的發(fā)展。古籍?dāng)?shù)字化加工有著很多的問題。
2.1機(jī)器難以提高對(duì)古籍的識(shí)別能力
整理好的古籍進(jìn)行數(shù)字化的第一步,便是古籍錄入。
圖書數(shù)字化錄入的方法有兩種,分別是人工鍵盤輸入和計(jì)算機(jī)光學(xué)字符識(shí)別(OCR)掃描輸入。人工鍵盤輸入屬于手工作業(yè),需要由錄入人員看著圖書,逐字錄入,有著效率低、成本高的缺點(diǎn)。OCR是一種先進(jìn)的自動(dòng)化技術(shù),通過機(jī)器來大量識(shí)別圖像為文本,是大量圖書數(shù)字化的主要手段。但是,如果圖書是古籍的情況下,機(jī)器的錄入難度就增加了不少。
缺字:
由于計(jì)算機(jī)對(duì)文字的處理要通過編碼來完成,國標(biāo)字庫(GB2312)收錄有6763個(gè)字,國標(biāo)擴(kuò)展?jié)h字字庫(GBK)收錄有20902個(gè)字。而古籍中通用字約有四萬,常用的異體字約為兩萬。相對(duì)古籍中的繁體字、通假字、異體字、避諱字而言,計(jì)算機(jī)的編碼庫無法滿足古籍輸入要求。
排版:
古籍不僅僅是豎排版的問題,有無鈐印、句讀、欄線,標(biāo)注分為單行標(biāo)注和雙行標(biāo)注,寫本、刻本、家譜、碑拓等等,甚至出現(xiàn)手寫字體,都會(huì)讓計(jì)算機(jī)無法識(shí)別。
所以,要提高古籍識(shí)別系統(tǒng)的可用性和可靠性,必須建立一套自我學(xué)習(xí)系統(tǒng),讓它盡可能接觸更多古籍:從中提取新字樣來擴(kuò)充字符集,識(shí)別新版式來增強(qiáng)版面分析能力。
2.2專業(yè)要求強(qiáng)、投入不足
現(xiàn)代人能將古文順利“認(rèn)出”,就是一件非常難的事情。
句讀:
古文是沒有標(biāo)點(diǎn)符號(hào)的,在閱讀古文時(shí)要做到正確表達(dá)和語氣順暢,必須注意文句間起承轉(zhuǎn)合。不懂句讀會(huì)造成誤讀、誤解原意,所以古人在《三字經(jīng)》中要求“明句讀”。唐代文學(xué)家韓愈在《師說》中就提到“句讀之不知,惑之不解,或師焉,或不焉,小學(xué)而大遺,吾未見其明也”。除非進(jìn)行專門的學(xué)習(xí)和研究,現(xiàn)代人很難讀懂古文。
生僻字:
漢字是在不斷發(fā)展和變化的。中國最早商代甲骨文中的文字有三千多字,漢代《訓(xùn)纂篇》有五千多字,《說文解字》有九千多字,晉代《字林》有一萬二千多字,后魏《字統(tǒng)》有一萬三千多字,唐代《玉篇》有兩萬二千多字,宋代《類篇》三萬一千多字,清代《康熙字典》四萬七千多字。1915年,歐陽博存的《中華大字典》四萬八千多字。1970年,由張其昀主編的《中文大辭典》四萬九千多字。1990年,由徐仲舒主編的《漢語大字典》五萬四千多字。1994年,冷玉龍等的《中華字!肥杖氪罅繌U棄的字,總字?jǐn)?shù)多達(dá)八萬五千字。而新課標(biāo)在義務(wù)教育階段對(duì)學(xué)生的識(shí)字要求僅有三千五百個(gè)。
異體字:
同一個(gè)漢字在古今也存在多種寫法,比如有部分古書會(huì)把“嫦娥”中的“嫦”寫成“!。魯迅作品中的孔乙己強(qiáng)調(diào)茴香豆的“茴”有四種寫法,這些字統(tǒng)稱為異體字。古籍整理要求把幾個(gè)異體字改為一個(gè)字,需要有很多古文經(jīng)驗(yàn)并結(jié)合上下文的理解,要求整理者有很深的古文專業(yè)知識(shí)。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 yyfangchan@163.com (舉報(bào)時(shí)請(qǐng)帶上具體的網(wǎng)址) 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除