两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于云計算的文本掃描識別方法

文檔序號:6502118閱讀:222來源:國知局
基于云計算的文本掃描識別方法
【專利摘要】本發(fā)明公開了一種基于云計算的文本掃描識別方法,包括以下步驟:文檔圖像預處理:針對從掃描儀直接掃描出的原始圖像進行預處理;文檔圖像版面特征分析:將預處理文檔圖像加載到版面分析引擎進行處理:根據(jù)預處理文檔圖像的版面特征信息,添加掩膜并對關(guān)鍵域進行局部處理;碎片化:對經(jīng)過文檔圖像掩膜步驟處理后的預處理文檔圖像進行切碎處理;碎片的OCR/ICR識別:識別小碎片,拼接并輸出文字;語意識別:利用統(tǒng)計語言模型算法結(jié)合行業(yè)辭典,對OCR/ICR的結(jié)果進行邏輯校驗。本發(fā)明利用圖像特征識別,圖像掩膜,圖像碎片化,碎片的并發(fā)處理OCR/ICR,語意校驗等特種方法綜合使用,顯著提高了文本掃描件的最終準確率。
【專利說明】基于云計算的文本掃描識別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種文本掃描識別的方法,尤其涉及一種基于云計算的文本掃描識別 方法。

【背景技術(shù)】
[0002] 圖像識別技術(shù)是人工智能的一個重要領(lǐng)域。為了編制模擬人類圖像識別活動的計 算機程序,人們提出了不同的圖像識別模型。例如模板匹配模型。這種模型認為,識別某個 圖像,必須在過去的經(jīng)驗中有這個圖像的記憶模式,又叫模板。當前的刺激如果能與大腦中 的模板相匹配,這個圖像也就被識別了。例如有一個字母A,如果在腦中有個A模板,字母 A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。這個模型簡單明了,也 容易得到實際應(yīng)用。但這種模型強調(diào)圖像必須與腦中的模板完全符合才能加以識別,而事 實上人不僅能識別與腦中的模板完全一致的圖像,也能識別與模板不完全一致的圖像。例 如,人們不僅能識別某一個具體的字母A,也能識別印刷體的、手寫體的、方向不正、大小不 同的各種字母A。同時,人能識別的圖像是大量的,如果所識別的每一個圖像在腦中都有 一個相應(yīng)的模板,也是不可能的。為了解決模板匹配模型存在的問題,格式塔心理學家又提 出了一個原型匹配模型。這種模型認為,在長時記憶中存儲的并不是所要識別的無數(shù)個模 板,而是圖像的某些"相似性"。從圖像中抽象出來的"相似性"就可作為原型,拿它來檢驗 所要識別的圖像。如果能找到一個相似的原型,這個圖像也就被識別了。這種模型從神經(jīng) 上和記憶探尋的過程上來看,都比模板匹配模型更適宜,而且還能說明對一些不規(guī)則的,但 某些方面與原型相似的圖像的識別。但是,這種模型沒有說明人是怎樣對相似的刺激進行 辨別和加工的,它也難以在計算機程序中得到實現(xiàn)。因此又有人提出了一個更復雜的模型, 即"泛魔"識別模型。
[0003] 具體而言,現(xiàn)有的影像識別技術(shù)有如下幾種:國內(nèi)的漢王,紫光文通,尚書7號,國 外的Abbyy FineReaderll等。這些方案都著重于對于純文字的識別率,即OCR,但對整體 的識別準確率,特別是對有超高識別率要求的特別域一即有效識別率,沒有太多的考慮和 設(shè)計。同時,由于OCR / ICR的效率問題,往往處理速度較慢,無法應(yīng)對高時效的要求。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明所要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)的不足,提供一種識別速度快、 識別準確率高的基于云計算的文本掃描識別方法。
[0005] 為實現(xiàn)上述技術(shù)目的,本發(fā)明采取的技術(shù)方案為一種基于云計算的文本掃描識別 方法,其特征在于包括以下步驟 : 第一步,文檔圖像預處理:針對從掃描儀直接掃描出的原始圖像進行預處理,以將原始 圖像二值化并且去除原始圖像噪點,將扭曲的原始圖像還原,將原始圖像壓縮以便后續(xù)圖 像處理; 第二步,文檔圖像版面特征分析:將預處理文檔圖像加載到版面分析引擎進行處理,以 獲得預處理文檔圖像版面特征信息; 第三步,文檔圖像掩膜:根據(jù)預處理文檔圖像的版面特征信息,添加相應(yīng)的掩膜,然后 對關(guān)鍵域進行局部處理,即提取預處理文檔圖像的版面特征信息并與掩模的特征信息進行 匹配; 第四步,碎片化:即文檔圖片定位與分割,具體為采用圖像局部特征定位方法、表格識 別方法和OCR關(guān)鍵字符識別定位方法,對經(jīng)過文檔圖像掩膜步驟處理后的預處理文檔圖像 進行切碎處理; 第五步:碎片的0CR/ICR識別:識別小碎片,拼接并輸出文字,以便進行語意識別; 第六步,語意識別:利用統(tǒng)計語言模型算法結(jié)合行業(yè)辭典,對OCR / ICR的結(jié)果進行邏 輯校驗。
[0006] 作為本發(fā)明進一步改進的技術(shù)方案,所述文檔圖像預處理包括以下步驟: 首先,對原始圖像采用權(quán)平均法進行處理后,再采用最大類間方差進行二值化處理,將 原始的真彩色以及高DPI的灰度圖轉(zhuǎn)化為二值化的黑白圖; 其次,對二值化的黑白圖進行圖像去噪,以去除了掃描過程中由于電子信號干擾帶來 的圖像噪點,形成預處理文檔圖像; 第三,對預處理文檔圖像進行糾偏處理,使扭曲的圖像還原。
[0007] 作為本發(fā)明進一步改進的技術(shù)方案,所述文檔圖像版面特征分析為:通過版面分 析算法搜索整個預處理文檔圖像并對預處理文檔圖像進行區(qū)域劃分和類型識別,以獲得預 處理文檔圖像的版面特征信息,所述版面特征信息包括區(qū)域分割線坐標信息、預處理文檔 圖像的類型信息以及預處理文檔圖像中的文字對象的坐標信息; 作為本發(fā)明進一步改進的技術(shù)方案,所述預處理文檔圖像的類型信息包括文字、圖章、 圖片、公式和條碼。
[0008] 作為本發(fā)明進一步改進的技術(shù)方案,所述文檔圖像掩膜為:分別用各類型的掩模 依次覆蓋和匹配經(jīng)過文檔圖像版面特征分析步驟處理后的預處理文檔圖像,如果掩模的特 征信息和預處理文檔圖像的版面特征信息相一致,則所述預處理文檔圖像與掩模的類型相 一致并且將掩模的類型信息添加到預處理文檔圖像的版面特征信息中。
[0009] 作為本發(fā)明進一步改進的技術(shù)方案,在文檔圖像掩步驟中,還包括根據(jù)具體的業(yè) 務(wù)特征制作各種類型的掩模的步驟。
[0010] 作為本發(fā)明進一步改進的技術(shù)方案,所述文檔圖片定位與分割包括以下步驟: 首先,將預處理文檔圖像進行定位分割,即根據(jù)預處理文檔圖像的版面特征信息中的 掩膜的特征信息,提取掩膜的具體坐標信息; 其次,根據(jù)掩模的具體坐標信息,將具體的業(yè)務(wù)數(shù)據(jù)圖像從整個的預處理文檔圖像中 截取出來,形成具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像。
[0011] 作為本發(fā)明進一步改進的技術(shù)方案,所述碎片的0CR/ICR識別為對具有具體業(yè)務(wù) 數(shù)據(jù)的碎片圖像通過多路OCR引擎進行識別處理,以識別小碎片,拼接并輸出文字。
[0012] 作為本發(fā)明進一步改進的技術(shù)方案,在所述碎片的0CR/ICR識別過程中,采用大 數(shù)據(jù)處理方案里的工作分解并發(fā)合成的方法對輸出文字第四步中輸出的文字進行分解并 發(fā)與集成處理。
[0013] 作為本發(fā)明進一步改進的技術(shù)方案,所述語意識別包括以下步驟: 首先,根據(jù)不同的行業(yè)特征建立行業(yè)詞語庫; 其次,對詞語進行組合:針對不同專業(yè),生成專業(yè)詞語組合,并根據(jù)不同的行業(yè),基于所 述行業(yè)詞語庫,統(tǒng)計得出詞語組合的概率分值; 第三,對OCR的結(jié)果句進行劃分并自動替換不可識別詞語,生成多種組合句; 第四,計算生成的多種組合句的各自的總概率分值,并將總概率分值最高的組合句保 留。
[0014] 本發(fā)明利用圖像特征識別,圖像掩膜,圖像碎片化,碎片的并發(fā)處理OCR / ICR,語 意校驗等特種方法綜合使用,顯著提高了文本掃描件的最終準確率。

【專利附圖】

【附圖說明】
[0015] 圖1為本發(fā)明的流程結(jié)構(gòu)示意圖。
[0016] 下面結(jié)合附圖對本發(fā)明的【具體實施方式】做進一步說明。

【具體實施方式】
[0017] 參見圖1,本基于云計算的文本掃描識別方法,包括以下步驟: 第一步,文檔圖像預處理:針對從掃描儀直接掃描出的原始圖像進行預處理,以將原始 圖像二值化并且去除原始圖像噪點,將扭曲的原始圖像還原,將原始圖像壓縮以便后續(xù)圖 像處理; 第二步,文檔圖像版面特征分析:將預處理文檔圖像加載到版面分析引擎進行處理,以 獲得預處理文檔圖像版面特征信息; 第三步,文檔圖像掩膜:根據(jù)預處理文檔圖像的版面特征信息,添加相應(yīng)的掩膜,然后 對關(guān)鍵域進行局部處理,即提取預處理文檔圖像的版面特征信息并與掩模的特征信息進行 匹配; 第四步,碎片化:即文檔圖片定位與分割,具體為采用圖像局部特征定位方法、表格識 別方法和OCR關(guān)鍵字符識別定位方法,對經(jīng)過文檔圖像掩膜步驟處理后的預處理文檔圖像 進行切碎處理; 第五步:碎片的0CR/ICR識別:識別小碎片,拼接并輸出文字,以便進行語意識別; 第六步,語意識別:利用統(tǒng)計語言模型算法結(jié)合行業(yè)辭典,對OCR / ICR的結(jié)果進行邏 輯校驗。
[0018] 作為優(yōu)選方案,所述文檔圖像預處理包括以下步驟: 首先,對原始圖像采用權(quán)平均法進行處理后,再采用最大類間方差進行二值化處理,將 原始的真彩色以及高DPI的灰度圖轉(zhuǎn)化為二值化的黑白圖; 其次,對二值化的黑白圖進行圖像去噪,以去除了掃描過程中由于電子信號干擾帶來 的圖像噪點,形成預處理文檔圖像; 第三,對預處理文檔圖像進行糾偏處理,使扭曲的圖像還原。
[0019] 作為優(yōu)選方案,所述文檔圖像版面特征分析為:通過版面分析算法搜索整個預處 理文檔圖像并對預處理文檔圖像進行區(qū)域劃分和類型識別,以獲得預處理文檔圖像的版面 特征信息,所述版面特征信息包括區(qū)域分割線坐標信息、預處理文檔圖像的類型信息以及 預處理文檔圖像中的文字對象的坐標信息。所述預處理文檔圖像的類型信息包括文字、圖 章、圖片、公式和條碼。
[0020] 所述文檔圖像掩膜為:分別用各類型的掩模依次覆蓋和匹配經(jīng)過文檔圖像版面特 征分析步驟處理后的預處理文檔圖像,如果掩模的特征信息和預處理文檔圖像的版面特征 信息相一致,則所述預處理文檔圖像與掩模的類型相一致并且將掩模的類型信息添加到預 處理文檔圖像的版面特征信息中。在文檔圖像掩步驟中,還包括根據(jù)具體的業(yè)務(wù)特征制作 各種類型的掩模的步驟。
[0021] 所述文檔圖片定位與分割包括以下步驟: 首先,將預處理文檔圖像進行定位分割,即根據(jù)預處理文檔圖像的版面特征信息中的 掩膜的特征信息,提取掩膜的具體坐標信息; 其次,根據(jù)掩模的具體坐標信息,將具體的業(yè)務(wù)數(shù)據(jù)圖像從整個的預處理文檔圖像中 截取出來,形成具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像。
[0022] 所述碎片的0CR/ICR識別為對具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像通過多路OCR引擎進 行識別處理,以識別小碎片,拼接并輸出文字。在所述碎片的0CR/ICR識別過程中,采用大 數(shù)據(jù)處理方案里的工作分解并發(fā)合成的方法對輸出文字第四步中輸出的文字進行分解并 發(fā)與集成處理。
[0023] 所述語意識別包括以下步驟: 首先,根據(jù)不同的行業(yè)特征建立行業(yè)詞語庫; 其次,對詞語進行組合:針對不同專業(yè),生成專業(yè)詞語組合,并根據(jù)不同的行業(yè),基于所 述行業(yè)詞語庫,統(tǒng)計得出詞語組合的概率分值; 第三,對OCR的結(jié)果句進行劃分并自動替換不可識別詞語,生成多種組合句; 第四,計算生成的多種組合句的各自的總概率分值,并將總概率分值最高的組合句保 留。
[0024] 關(guān)于文檔圖像預處理:圖像灰度化首先采用權(quán)平均法進行第一步處理,灰度化后 采用最大類間方差進行二值化處理。平滑去噪,糾偏。二值化的好處是顯而易見的:影像文 件大小顯著降低,后期處理速度加快。步驟是針對從掃描儀直接掃描出的原始圖像進行預 處理。本處理分為三步驟:第一步對原始圖像進行二值化處理將原始的真彩色/高DPI的 灰度圖轉(zhuǎn)化為二值化的黑白圖,該步驟大大減小了圖像文件的大小提高了后期處理中文件 的加載和識別速率。第二步圖像去噪,該步驟去除了掃描過程中由于電子信號干擾帶來的 圖像噪點,進一步提高圖像識別準確率。第三步二值化圖像的糾偏,該步驟解決了扭曲圖像 的原始還原大大提高了識別的準確率。
[0025] 關(guān)于:文檔圖像版面特征分析:采用經(jīng)典的游程版面分析法--run-length algorithm--自底向上的分析算法,同時兼顧分析處理的時間消耗及準確性而引入了二 分法,還采用基于背景空白的版面分割法、基于圖像紋理特征的版面分割法、基于形態(tài)學處 理的版面分割法。本步驟將經(jīng)過文檔圖像預處理后的圖像加載到版面分析引擎進行處理, 即通過版面分析算法搜索整個圖像,對圖像進行區(qū)域劃分、類型識別等,本步驟處理完成后 會計算出如下信息:圖像區(qū)域分割線坐標,文字、圖章、圖片、公式、條碼等對象類型,文字對 象的坐標信息。
[0026] 關(guān)于文檔圖像掩膜:本步驟基于預處理文檔圖像的版面特征,添加特別設(shè)計的掩 膜,對關(guān)鍵域進行局部處理,其中掩膜可以基于特征自適應(yīng)。具體而言,將通過文檔圖像版 面特征分析后的預處理文檔圖像,提取其局部特征信息與掩模特征匹配如果掩模和局部特 征一致,將該圖像劃分為該掩模類型。本步驟處理完成后,預處理文檔圖像帶有了掩模類型 信息,并可根據(jù)預處理文檔圖像的掩模類型對圖像進行分類,為下一步圖像的分割做準備。
[0027] 關(guān)于碎片化及碎片的0CR/ICR識別:本步驟采用圖像局部特征定位、表格識別和 OCR關(guān)鍵字符識別定位等方法對文檔圖像進行切碎處理,本步驟完成后會產(chǎn)生一系列具有 具體業(yè)務(wù)數(shù)據(jù)的碎片圖像,產(chǎn)生的碎片圖大大提高了識別的準確率,再通過多路OCR引擎 的處理大大提高了識別的速率。本步驟運用了國際著名的大數(shù)據(jù)處理方案Hadoop里的工 作分解并發(fā)合成的方法,即Map - Reduce,創(chuàng)新的應(yīng)用到了圖像識別里。這樣就很好的解決 了高性能派發(fā),大范圍分包的任務(wù)分解并發(fā)與集成的問題。
[0028] 關(guān)于語意識別:本步驟利用統(tǒng)計語言模型算法結(jié)合行業(yè)辭典,對OCR / ICR的結(jié)果進 行邏輯校驗:首先基于建立一個詞語庫;第二步,對詞語進行組合,針對不同專業(yè),生成專業(yè)詞 語組合,并根據(jù)行業(yè),統(tǒng)計得出概率分值;第三步,對OCR的結(jié)果句進行劃分并自動替換不可識 別詞語,生成多種組合句;第四步,生成多種組合比對總概率分值,保留最高者。比如:"清華大 X",X是不可識別文字。經(jīng)過比對,"清華大學"的概率遠遠高于"清華大人"或者"清華大班" 等,保留"清華大學"作為識別結(jié)果。所述行業(yè)詞語庫是根據(jù)不同的行業(yè)特征建立,如電信行業(yè) 詞庫,醫(yī)藥行業(yè)詞庫。這樣,處理的目標比較有方向性,容易找到正確的結(jié)果。同時,這個庫不 是靜態(tài)的,它是可以基于影像處理結(jié)果,自動添加新詞,也可以通過網(wǎng)絡(luò)爬蟲學習新詞。
[0029] 本實施例中,包括文檔圖像預處理、文檔圖像版面特征分析、文檔圖像掩膜、碎片 化、碎片的0CR/ICR識別和語意識別六個步驟,各步驟的工作要點及目標如表1所示。本實施 例整體的有效識別率高可達99. 8%,而且處理速度加快,在相同條件下,效率提高45%。
[0030] 表1 :各步驟的工作要點及目標對應(yīng)表

【權(quán)利要求】
1. 一種基于云計算的文本掃描識別方法,其特征在于包括以下步驟: 第一步,文檔圖像預處理:針對從掃描儀直接掃描出的原始圖像進行預處理,以將原始 圖像二值化并且去除原始圖像噪點,將扭曲的原始圖像還原,將原始圖像壓縮以便后續(xù)圖 像處理; 第二步,文檔圖像版面特征分析:將預處理文檔圖像加載到版面分析引擎進行處理,以 獲得預處理文檔圖像版面特征信息; 第三步,文檔圖像掩膜:根據(jù)預處理文檔圖像的版面特征信息,添加相應(yīng)的掩膜,然后 對關(guān)鍵域進行局部處理,即提取預處理文檔圖像的版面特征信息并與掩模的特征信息進行 匹配; 第四步,碎片化:即文檔圖片定位與分割,具體為采用圖像局部特征定位方法、表格識 別方法和OCR關(guān)鍵字符識別定位方法,對經(jīng)過文檔圖像掩膜步驟處理后的預處理文檔圖像 進行切碎處理; 第五步:碎片的0CR/ICR識別:識別小碎片,拼接并輸出文字,以便進行語意識別; 第六步,語意識別:利用統(tǒng)計語言模型算法結(jié)合行業(yè)辭典,對OCR / ICR的結(jié)果進行邏 輯校驗。
2. 根據(jù)權(quán)利要求1所述的基于云計算的文本掃描識別方法,其特征在于所述文檔圖像 預處理包括以下步驟: 首先,對原始圖像采用權(quán)平均法進行處理后,再采用最大類間方差進行二值化處理,將 原始的真彩色以及高DPI的灰度圖轉(zhuǎn)化為二值化的黑白圖; 其次,對二值化的黑白圖進行圖像去噪,以去除了掃描過程中由于電子信號干擾帶來 的圖像噪點,形成預處理文檔圖像; 第三,對預處理文檔圖像進行糾偏處理,使扭曲的圖像還原。
3. 根據(jù)權(quán)利要求2所述的基于云計算的文本掃描識別方法,其特征在于所述文檔圖像 版面特征分析為:通過版面分析算法搜索整個預處理文檔圖像并對預處理文檔圖像進行區(qū) 域劃分和類型識別,以獲得預處理文檔圖像的版面特征信息,所述版面特征信息包括區(qū)域 分割線坐標信息、預處理文檔圖像的類型信息以及預處理文檔圖像中的文字對象的坐標信 息。
4. 根據(jù)權(quán)利要求3所述的基于云計算的文本掃描識別方法,其特征在于:所述預處理 文檔圖像的類型信息包括文字、圖章、圖片、公式和條碼。
5. 根據(jù)權(quán)利要求4所述的基于云計算的文本掃描識別方法,其特征在于所述文檔圖像 掩膜為:分別用各類型的掩模依次覆蓋和匹配經(jīng)過文檔圖像版面特征分析步驟處理后的預 處理文檔圖像,如果掩模的特征信息和預處理文檔圖像的版面特征信息相一致,則所述預 處理文檔圖像與掩模的類型相一致并且將掩模的類型信息添加到預處理文檔圖像的版面 特征信息中。
6. 根據(jù)權(quán)利要求5所述的基于云計算的文本掃描識別方法,其特征在于:在文檔圖像 掩步驟中,還包括根據(jù)具體的業(yè)務(wù)特征制作各種類型的掩模的步驟。
7. 根據(jù)權(quán)利要求6所述的基于云計算的文本掃描識別方法,其特征在于所述文檔圖片 定位與分割包括以下步驟: 首先,將預處理文檔圖像進行定位分割,即根據(jù)預處理文檔圖像的版面特征信息中的 掩膜的特征信息,提取掩膜的具體坐標信息; 其次,根據(jù)掩模的具體坐標信息,將具體的業(yè)務(wù)數(shù)據(jù)圖像從整個的預處理文檔圖像中 截取出來,形成具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像。
8. 根據(jù)權(quán)利要求7所述的基于云計算的文本掃描識別方法,其特征在于:所述碎片的 OCR/ICR識別為對具有具體業(yè)務(wù)數(shù)據(jù)的碎片圖像通過多路OCR引擎進行識別處理,以識別 小碎片,拼接并輸出文字。
9. 根據(jù)權(quán)利要求8所述的基于云計算的文本掃描識別方法,其特征在于:在所述碎片 的0CR/ICR識別過程中,采用大數(shù)據(jù)處理方案里的工作分解并發(fā)合成的方法對輸出文字第 四步中輸出的文字進行分解并發(fā)與集成處理。
10. 根據(jù)權(quán)利要求7所述的基于云計算的文本掃描識別方法,其特征在于所述語意識 別包括以下步驟: 首先,根據(jù)不同的行業(yè)特征建立行業(yè)詞語庫; 其次,對詞語進行組合:針對不同專業(yè),生成專業(yè)詞語組合,并根據(jù)不同的行業(yè),基于所 述行業(yè)詞語庫,統(tǒng)計得出詞語組合的概率分值; 第三,對OCR的結(jié)果句進行劃分并自動替換不可識別詞語,生成多種組合句; 第四,計算生成的多種組合句的各自的總概率分值,并將總概率分值最高的組合句保 留。
【文檔編號】G06K9/20GK104123550SQ201310145112
【公開日】2014年10月29日 申請日期:2013年4月25日 優(yōu)先權(quán)日:2013年4月25日
【發(fā)明者】魏昊, 張磊 申請人:魏昊, 張磊
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
察隅县| 汝城县| 齐齐哈尔市| 荥经县| 昭觉县| 保靖县| 潼南县| 乐昌市| 安平县| 铜川市| 大渡口区| 宜君县| 原平市| 铜陵市| 留坝县| 桓台县| 扎兰屯市| 武威市| 中宁县| 青浦区| 武义县| 彝良县| 平武县| 沙洋县| 德钦县| 澜沧| 乌兰察布市| 新泰市| 建平县| 陆川县| 平江县| 东莞市| 池州市| 玉林市| 双辽市| 祁东县| 宁陕县| 南华县| 兴隆县| 河北省| 阳高县|