-
古籍數字化介紹
我國古籍數字化經曆了數據庫版、光盤版、網絡版三個建設階段。數據庫版古籍包括書目數據庫和全文數據庫兩種形式。光盤版古籍一般有圖像版、全(quan)文(wen)版(ban)和(he)圖(tu)文(wen)版(ban)三(san)種(zhong)類(lei)型(xing)。網(wang)絡(luo)版(ban)古(gu)籍(ji)主(zhu)要(yao)是(shi)將(jiang)數(shu)字(zi)化(hua)的(de)古(gu)籍(ji)資(zi)源(yuan)在(zai)網(wang)絡(luo)上(shang)有(you)償(chang)或(huo)無(wu)償(chang)發(fa)布(bu),供(gong)互(hu)聯(lian)網(wang)用(yong)戶(hu)使(shi)用(yong),這(zhe)是(shi)目(mu)前(qian)古(gu)籍(ji)數(shu)字(zi)化(hua)的(de)主(zhu)要(yao)目(mu)標(biao)。
zaiwangluoshidai,renhezhishixinxidedaochongfenliyongdeqianti,shikanqinengfouzhuanhuaweishuzihuaxinxi。gujiwenxianyouhengaodexueshujiazhi,wogongsicaiyongjisuanjijishu,duigujiwenxianjinxingquanwenshuzihuajiagongchuli,zhizuochenggujiwenxianshumushujukuhegujiquanwenshujuku,bujinyouxiaobaohuguji,erqienenggenghaodichuanboliyongguji,tigaogujiwenxiandeshiyonglv。
-
模化、流水線式的數字化加工
公司避於手工業作坊式的生產方式,建立了數字化加工工廠。並創立了從資料整理去汙→掃描→圖像處理(糾偏、消藍、圖像增強、去雜)→OCR識別(版麵分析、識別、橫向校對、縱向校對、導出文件)→建立索引→刻錄光盤(可全文檢索、二次檢索、模糊檢索)等全過程的流水線式加工方式,大大提高了加工效率和效果。規範了加工流程、xiangmuguanlifangfahezhidu,helidefenpeirenyuandaogegeliushuixianjiedian,chuangjianlekeyouhuadexiangmuzhiliangbaozhengtixi,shidemeiyicixindejiagongxiangmudounenggoujichengyuanyouxiangmudeyouxiujingyan,bingshidezaizhecixindexiangmuzhongchanshengdejingyan,nenggouyouxiaodebeixiayigexiangmujichenghefayang。
規模化的生產、流水線式的作業,使得加工工人能夠從事自己最擅長和最熟練的工作,導致了項目質量的不斷提高和單位成本的穩定下降。
-
成熟的軟件產品
豆dou海hai本ben著zhe以yi廣guang闊kuo的de胸xiong襟jin,容rong納na各ge種zhong優you秀xiu的de人ren才cai和he產chan品pin。由you於yu經jing濟ji的de全quan球qiu化hua帶dai來lai的de人ren才cai和he競jing爭zheng方fang麵mian的de壓ya力li,使shi得de任ren何he一yi個ge公gong司si都dou不bu可ke能neng完wan全quan依yi賴lai於yu自zi己ji而er立li足zu於yu市shi場chang不bu敗bai,要yao想xiang在zai競jing爭zheng中zhong獲huo得de生sheng存cun,就jiu必bi須xu和he其qi他ta人ren合he作zuo。
我們引進TH-OCR錄入工廠,並與清華紫光建立了合作夥伴關係,在數字化領域進行多方麵產品與服務合作。
-
流程管理和質量控製:
流程管理貫穿於整個錄入工廠的生產流程中,服務器端控製整個流程,它將數據打包、分發給各個客戶端;客(ke)戶(hu)端(duan)接(jie)收(shou)數(shu)據(ju)包(bao),完(wan)成(cheng)流(liu)程(cheng)當(dang)中(zhong)的(de)某(mou)個(ge)或(huo)某(mou)幾(ji)個(ge)工(gong)序(xu),完(wan)成(cheng)後(hou)將(jiang)數(shu)據(ju)打(da)包(bao)發(fa)回(hui)給(gei)服(fu)務(wu)器(qi)。質(zhi)量(liang)控(kong)製(zhi)功(gong)能(neng)是(shi)檢(jian)驗(yan)最(zui)終(zhong)文(wen)本(ben)錯(cuo)誤(wu)率(lv)的(de)有(you)效(xiao)工(gong)具(ju),它(ta)通(tong)過(guo)獨(du)特(te)的(de)方(fang)法(fa)檢(jian)驗(yan)橫(heng)向(xiang)校(xiao)對(dui)、縱向校對和綜合校對之後的文本差錯率以確保最終文本的差錯率在一定範圍之內。流程管理和質量控製是大批量數據高效、高質錄入的必不可少的環節。
豆海資料數字化解決方案以OCR錄入工廠為核心產品,並輔助圖像淨化處理係統、圖文校驗工具,在整個的過程中融入豆海多年的資料數字化領域的管理與製作經驗,確保為用戶提供優秀的產品和服務。
-
數字化流程 :
1、古籍領出登記
將(jiang)珍(zhen)貴(gui)古(gu)籍(ji)從(cong)館(guan)裏(li)領(ling)出(chu)進(jin)行(xing)數(shu)字(zi)化(hua)掃(sao)描(miao),做(zuo)到(dao)每(mei)一(yi)本(ben)領(ling)出(chu)古(gu)籍(ji)都(dou)要(yao)嚴(yan)格(ge)登(deng)記(ji),避(bi)免(mian)遺(yi)漏(lou)。登(deng)記(ji)時(shi)確(que)認(ren)每(mei)本(ben)古(gu)籍(ji)的(de)總(zong)頁(ye)數(shu),與(yu)管(guan)理(li)人(ren)員(yuan)進(jin)行(xing)交(jiao)接(jie)
2、古籍整理
將領出古籍進行平整處理,確保古籍無粘連、折邊、部分缺失等情況,確認處理好後開始利用書刊掃描儀進行數字化掃描。 如無頁碼的需進行人工編頁碼防止掃描是順序錯亂以及丟頁。
3、古籍掃描
進行掃描時,根據每本古籍的不同情況做相應的處理。如古籍情況較好,則可以采用玻璃壓稿台對古籍進行壓平掃描;如古籍紙張較薄,則需用空白A4紙張進行插墊,確保獲得的影像不會有背透而影響觀賞效果;如古籍本身情況不理想,則不必使用玻璃壓稿台進行壓平,由書刊掃描儀自帶PerfectBook 功能進行掃描處理。
4、圖像修圖處理
掃描後的圖像進行糾偏、去黑邊、分頁、拚圖等處理,更高的還原原圖像。
5、圖像質檢
處理後的圖像統一質檢,質檢視具體情況而言分為一次質檢和二次質檢。主要是檢查圖像的質量,和有無漏頁、重複掃描等情況。 發現問題及時改正補掃等等。
6、識別錄入
利用OCR對圖像進行版麵分析,比如文字的橫向縱向、圖片與表格等進行進行區分處理。
將分析好的圖像OCR進行智能識別並進行人工校對(可先進行縱校再橫校),保證質量減少錯誤率。
經過人工的一二三校,將數據按客戶要求的格式輸出並根據不同要求排版處理等。
7、格式轉換
雙層PDF圖文格式: 用掃描方式製成TIFF圖像,然後利用OCR技術將圖像形式全部識別為可檢索的漢字,並將文字和圖像進行對應,製作成圖像在上、文字在下的雙層PDF格式文件。既便於用戶快速準確地查找到所需內容,又能使用戶古籍的原始麵貌。雙層PDF特別適合於古籍數字化,異寫、通假、避諱等造成的眾多漢字無法完全識別,用戶通過圖像即可對照。
8、數據存儲
據及壓縮轉換後的數據進行存儲,通過網絡傳輸到磁盤陣列中進行存儲。
9、古籍入庫登記
完畢後,將掃描後的古籍及未完成的古籍進行入庫。與管理人員進行逐一核對,核對無誤後進行登記,登記完成後,古籍方可入庫。
