-
圖書數字化介紹
豆海圖書數字化解決方案,擬在以豆海人多年來在圖書、報紙、期刊、雜誌和檔案方麵的專業的數字化銷售、服務、實施經驗,幫助用戶建立自己的數字化流水線加工工廠,高效、高質量的實現電子資料的加工,或者利用豆海的加工工廠為客戶提供數字化加工服務。
suizhequanguowenhuaxinxiziyuangongxianggongchengyuzhongguoshuzitushuguangongchengdeqidong,xinxihuayichengweiguojichaoliu,xinxiziyuanjianshechengweidangwuzhiji。xinxiziyuanjianshedezhongdianshidianziwenxian、各類數據庫、網絡資源、電子雜誌、電(dian)子(zi)圖(tu)書(shu)等(deng)新(xin)型(xing)數(shu)字(zi)化(hua)信(xin)息(xi)資(zi)源(yuan)的(de)建(jian)設(she)。在(zai)數(shu)字(zi)化(hua)信(xin)息(xi)資(zi)源(yuan)建(jian)設(she)中(zhong),很(hen)大(da)的(de)一(yi)個(ge)需(xu)求(qiu)是(shi)將(jiang)現(xian)有(you)的(de)紙(zhi)介(jie)質(zhi)印(yin)刷(shua)品(pin)數(shu)字(zi)化(hua),使(shi)之(zhi)成(cheng)為(wei)能(neng)夠(gou)用(yong)計(ji)算(suan)機(ji)閱(yue)讀(du)、理解、查詢、檢索的電子文件,最終將其應用於數據庫存儲,或通過CD-ROM、Internet網進行出版,或上傳數字圖書館供用戶使用。
以傳統紙張為載體的保存方式,占據了大量的空間,需要特殊的環境,而且不方便查詢,隨著時間的推移,還麵臨著腐蝕、老化等問題。而將紙介質文件信息進行電子化處理,保存到光盤上,具有存儲、管理、共享等功能,還可以減少文件庫房占地,節省保管設備和人員方麵開支,又方便統計和進行遠程查詢。
因此,將圖書、期刊、報紙、文檔資料等信息資源通過掃描儀,掃描成圖像文件,再通過OCR識別成文字,建立目錄和全文索引,製作成電子文件,然後用軟件進行管理使用,已是當務之急。
-
圖書數字化的工序
圖書拆分→圖像掃描→圖像處理→文字識別→橫向校對→縱向校對→對比校→索引製作→索引質檢→成品驗收→圖書裝訂還原
1. 圖書拆分
為了方便掃描加工,對可以拆的圖書進行拆分掃描,加工完後再進行圖書還原。其流程為:圖書封皮與書脊分離,將脫離封皮的圖書書脊用電動切紙機切去膠塊部份,不同情況按不同尺寸精度切開。
2.圖像掃描
掃描組主要負責將紙質性的圖書掃描轉為電子版的圖像。在過程當中保證沒有少掃漏掃現象。
3.圖像處理
修圖組是對掃描完的電子圖像進行去汙、校正等;同時修圖組還進行質檢圖像模糊、原稿殘缺、補掃、漏掃、圖片不完整、多圖重疊等圖像問題。
4.識別與校對
用專業的識別軟件將圖像進行標注並識別其文本,然後進行人工一、二、三校,以保障數據的質量達到出版水平。
文字識別:差錯率千分之五
橫向校對:差錯率萬分之五
縱向校對:差錯率萬分之三
對 比 校:差錯率萬分之一
5.索引製作:
按照索引項目利用所提供的軟件進行標注或人工標引。
6.索引質檢:
檢查索引的文字正確性與索引的字段標識。
7.成品驗收:
對圖像、文本與索引進行全麵的質檢,合格後提交成品。
8.裝書還原:
chengpinrukuhou,jiukeyijinxingtushuhaiyuangongzuole,bayaohaiyuandetushuyongpingtaidingshujihediandongdachuanzhuangdingjijiangshudeneirongzhuangdinghao,ranhouyongjiaodingjibashuzhanhao,haiyuanweiyuanshu。
-
圖書數字化的種類
資料數字化根據檢索和利用需求,大概分為以下幾個種類:
第一類 全文圖像化,有簡單的目錄索引
這種類型的資料數字化,僅僅是將紙質的資料利用掃描儀掃描成圖像文件,並進行簡單的編目,提供目錄索引,而不做文字的識別。
其流程如下:
這種電子資料的好處在於投資小,每單位的價格最便宜;其缺點是沒有全文檢索功能,隻能為讀者提供簡單的索引查詢,圖像文件較大導致瀏覽速度較慢。
第二類 全文文本化,可全文檢索
這種類型的資料數字化,全部利用人工錄入,建立全文文本化的電子資料,可以提供全文檢索。
其流程如下:
其優點是占用存儲空間較小,可實現全文檢索,瀏覽傳輸速度快;其缺點是未經過格式化,沒有版麵信息,讀者閱覽到的是單純文本,單位價格較高。
第三類 全文圖像文本化,可全文檢索
這種類型的資料數字化,在提供紙質資料的掃描圖像文件後,還進行了人工錄入或者OCR識別,為圖書建立了全文文本,因此可以提供全文檢索。
其流程如下:
zhezhongleixing,shijishangshiliyongshuangcengwenjiandexingshixiangduzhezhanshidianziziliaode。tafenweishangxialiangceng,shangmiandeshituxiangceng,xiamiandeshiwenbenceng,danshizhezhongwenbenmeiyoujingguopaiban,tashiwugeshihunluande。duzhekandaodeshishangcengdetuxiang,erquanwenjiansuoshi,keyishiyongxiacengdewenben。zhezhongleixingdehaochuzaiyudanweijiagejiaobianyi,danshiyouyuzaiduzheliulanshiyaotongshichuanshutuxiangwenjianhewenbenwenjian,qiliulansuduzuiman。
第四類 基於原版原樣的,可全文檢索
這種類型的資料數字化,利用掃描儀將紙質資料掃描加工成圖像文件,再通過OCR工廠,識別成能夠保留原始版麵樣式的文本化的文件(如:rtf、pdf格式),它既保留了版麵的信息,又是全文文本化的,可以提供全文的檢索。
其大致流程如下(更詳細的流程參見後麵的“豆海圖書電子化的過程”):
這種類型的優點在於支持全文檢索,占用存儲空間較少,由於是文本格式的文件,電子資料質量(放大、縮小是不失真)和瀏覽速度都很好;其缺點是價格較高。
-
規模化、流水線式的數字化加工
公司避於手工業作坊式的生產方式,建立了數字化加工工廠。並創立了從資料整理去汙→掃描→圖像處理(糾偏、消藍、圖像增強、去雜)→OCR識別(版麵分析、識別、橫向校對、縱向校對、導出文件)→建立索引→刻錄光盤(可全文檢索、二次檢索、模糊檢索)等全過程的流水線式加工方式,大大提高了加工效率和效果。規範了加工流程、項xiang目mu管guan理li方fang法fa和he製zhi度du,合he理li的de分fen配pei人ren員yuan到dao各ge個ge流liu水shui線xian節jie點dian,創chuang建jian了le可ke優you化hua的de項xiang目mu質zhi量liang保bao證zheng體ti係xi,使shi得de每mei一yi次ci新xin的de加jia工gong項xiang目mu都dou能neng夠gou繼ji承cheng原yuan有you項xiang目mu的de優you秀xiu經jing驗yan,並bing使shi得de在zai這zhe次ci新xin的de項xiang目mu中zhong產chan生sheng的de經jing驗yan,能neng夠gou有you效xiao的de被bei下xia一yi個ge項xiang目mu繼ji承cheng和he發fa揚yang。
規模化的生產、流水線式的作業,使得加工工人能夠從事自己最擅長和最熟練的工作,導致了項目質量的不斷提高和單位成本的穩定下降。
-
成熟的軟件產品
douhaibenzheyiguangkuodexiongjin,rongnagezhongyouxiuderencaihechanpin。youyujingjidequanqiuhuadailaiderencaihejingzhengfangmiandeyali,shiderenheyigegongsidoubukenengwanquanyilaiyuzijierlizuyushichangbubai,yaoxiangzaijingzhengzhonghuodeshengcun,jiubixuheqitarenhezuo。
我們引進OCR錄入工廠,OCR錄入工廠具有以下一些特點:
★高品質:不須打印校樣,一次錄入就能達到出版質量,可將最終文檔的錯誤率嚴格控製在萬分之一以內;
★高效低成本:保持同樣數量工作人員的情況下完成更大的工作量;生產效率是傳統手工方式的3倍以上
★超強能力:具有對超大字符集(達兩萬餘字)、超多種字體(近百種)的漢字識別能力;具有超級查錯糾錯能力,將電子文檔的錯誤率減少到萬分之一以下;具有對彩色及複雜中文資料等進行版麵分析、版麵理解和準確複原的能力;能將已有的各種印刷品自動地轉換化為具有原式原樣原文重現版麵的、可供計算機閱讀和查詢檢索的、具有PDF、HTML、RTF等標準文檔格式的文檔輸出。
OCR錄入工廠的構成:
★精確的版麵分析:OCR數據錄入工廠能對掃描獲得的各種圖像,包括彩色/灰度圖像和二值圖像及複雜的報刊、雜誌進行自動版麵分析,分析不同的物理結構元素進行區域分割,即橫、豎排文本區、圖形、表格區等;
★超強的識別核心:OCR數據錄入工廠是唯一可以識別2萬多漢字的係統,綜合性能處於國內外絕對領先地位。該係統可識別簡體6763個漢字(國標一級3755和國標二級3008)、繁體13053個漢字(繁體字一級5401和二級7652)的超大字符集,可識別字體達近百種(同時自動識別原各種宋體、仿宋、黑體和楷體及小姚和魏碑等字體外,還同時自動識別各種圓體、隸書等等);
★獨特的校對方式:具有超級查錯糾錯能力,通過橫向校對、縱向校對、對比校對後確保電子文檔的錯誤率“萬無一失”;
★原版原樣的版麵恢複:可將掃描、識別、校對後的各種報刊、雜誌、圖書等的電子文檔自動地轉換為具有原式原樣、版麵信息重構的、可供計算機閱讀和查詢檢索的、具有PDF、HTML等標準格式的電子文檔;
★方便地應用於全文檢索:由錄入工廠處理生成的多種電子文檔格式,可應用於各種檢索係統。可直接用於數字圖書館、CD-ROM出版或Internet網上出版;在“Jdaedit”軟件中,將識別後文檔自動編輯形成邏輯結構,比如:圖書的“書名”、“版號”、“正文”、“作者”等標引信息。標引信息是自動形成的,但需要人工調整和添加。標引信息為數據的自動歸檔、全文精確檢索等提供了條件。同時,“Jdaedit”軟件也是形成PDF格式文檔的必要工具;
★流程管理和質量控製:流程管理貫穿於整個錄入工廠的生產流程中,服務器端控製整個流程,它將數據打包、分發給各個客戶端;kehuduanjieshoushujubao,wanchengliuchengdangzhongdemougehuomoujigegongxu,wanchenghoujiangshujudabaofahuigeifuwuqi。zhiliangkongzhigongnengshijianyanzuizhongwenbencuowulvdeyouxiaogongju,tatongguodutedefangfajianyanhengxiangxiaodui、縱向校對和綜合校對之後的文本差錯率以確保最終文本的差錯率在一定範圍之內。流程管理和質量控製是大批量數據高效、高質錄入的必不可少的環節。
豆海圖書數字化解決方案以OCR錄入工廠為核心產品,並輔助圖像淨化處理係統、圖文校驗工具,在整個的過程中融入豆海多年的資料數字化領域的管理與製作經驗,確保為用戶提供優秀的產品和服務。
-
優秀的加工團隊
現今世界的社會分工逐漸向兩個方向延伸:一yi是shi,專zhuan業ye化hua和he職zhi業ye化hua,二er是shi,分fen工gong合he作zuo。我wo們men生sheng活huo在zai一yi個ge知zhi識shi爆bao炸zha的de年nian代dai,信xin息xi不bu是shi貧pin乏fa,而er是shi泛fan濫lan,這zhe導dao致zhi任ren何he的de人ren都dou不bu能neng精jing通tong所suo有you的de行xing業ye,職zhi業ye化hua以yi及ji專zhuan業ye化hua使shi得de人ren們men能neng夠gou更geng專zhuan注zhu於yu自zi己ji的de領ling域yu,而er做zuo出chu更geng大da的de貢gong獻xian。分fen工gong合he作zuo使shi項xiang目mu的de成cheng功gong率lv大da大da提ti高gao。
豆(dou)海(hai)秉(bing)承(cheng)以(yi)人(ren)為(wei)本(ben)的(de)企(qi)業(ye)文(wen)化(hua),注(zhu)重(zhong)員(yuan)工(gong)與(yu)公(gong)司(si)的(de)共(gong)同(tong)發(fa)展(zhan),擁(yong)有(you)著(zhe)一(yi)批(pi)具(ju)有(you)專(zhuan)業(ye)技(ji)術(shu)和(he)管(guan)理(li)水(shui)平(ping)的(de)項(xiang)目(mu)經(jing)理(li)及(ji)加(jia)工(gong)隊(dui)伍(wu),可(ke)以(yi)同(tong)時(shi)為(wei)多(duo)家(jia)客(ke)戶(hu)提(ti)供(gong)數(shu)字(zi)化(hua)加(jia)工(gong)服(fu)務(wu)。
-
低廉的價格
豆海采用優秀的產品能夠節省3~5倍bei於yu傳chuan統tong手shou工gong方fang式shi的de加jia工gong,通tong過guo規gui模mo化hua和he流liu水shui線xian式shi的de生sheng產chan手shou段duan,再zai次ci降jiang低di了le各ge種zhong費fei用yong和he成cheng本ben,我wo們men為wei客ke戶hu提ti供gong優you質zhi產chan品pin的de同tong時shi,能neng夠gou以yi低di於yu同tong行xing業ye水shui平ping的de價jia格ge為wei客ke戶hu提ti供gong加jia工gong服fu務wu。
-
完善的服務
信息數字化是一個服務性質的行業,豆海把“客戶就是上帝”的思想,從經理到員工,從前期銷售到後期加工、服務,貫徹到每個地方,讓公司所有員工都建立為客戶提供優質服務的理念。
公司為客戶提供從售前的銷售拜訪、售前谘詢、規劃、解決、實施方案,到售後的免費電話、現場有限支持、定期客戶回訪等方式,為客戶提供優質的服務。
-
豆海資料數字化解決方案的流程:
-
正確率
出版要求錯誤率控製在萬分之三以內,傳統的資料數字化過程需要進行人工錄入、打樣、一校、打樣、二校、打樣、三校等三次校對,而且其中有大量的人工參與;而豆海公司通過圖像淨化、OCR識別、橫向校對、縱向校對等手段(絕大部分是由計算機完成),能夠對印刷體的資料將錯誤率控製到“萬無一失”。
-
加工速度
傳統的資料數字化主要是通過人工打字錄入的方式,再通過打樣、校對、排版等工序,最後製作出電子資料。其中大量的需要人工的參與,利用計算機的優勢之處較少,因而加工速度較慢。
豆海資料數字化主要是利用快速掃描技術、圖像處理技術、OCR識別技術等,大量的利用計算機快速處理能力,並輔助人工的控製和管理,因而具有非常高的加工速度。
