一種根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法與流程

文檔序號：11143287閱讀：3867來源：國知局

本發(fā)明屬于圖像OCR(Optical Character Recognition，光學字符識別)技術領域。當使用OCR軟件讀取、分析圖像文件并提取出其中的字符串時，本發(fā)明可以檢查和糾正識別錯誤的字符串，從而輔助OCR軟件降低識別的錯誤率。

背景技術：

OCR軟件，指利用OCR(Optical Character Recognition，光學字符識別)技術，將圖片、照片等圖像上的文字內容轉換為可編輯文本的軟件，廣泛應用于提取各種圖像中的字符。通常，圖像信息通過掃描儀、照相機等設備獲取并存儲在圖像文件中，然后OCR軟件讀取、分析圖像文件并通過字符識別提取出其中的字符串。

OCR軟件的一個典型應用是文件編號的自動識別。比如，支票、稅票和信件等各種文件進行數(shù)字化時，需要通過OCR軟件提取其編號。由于文件編號可能出現(xiàn)模糊、錯位等狀況，OCR軟件的識別結果會出現(xiàn)錯誤。如何檢查和糾正OCR識別結果中的錯誤，國內外研究人員提出了一些解決辦法。

美國已授權專利《Apparatus and method for OCR character and confidence determination using multiple OCR devices》(公開號：US 5805747 A)使用多個OCR軟件進行識別，各OCR軟件輸出自己的識別結果并標記出置信度，最后綜合各輸出結果，給出最終識別結果并標記出置信度。該方法具有很好的通用性，但需要用到多個OCR識別軟件。如果圖像本身存在缺陷(比如個別數(shù)字過于模糊)，即使有多個OCR軟件也無法得到準確的結果。

國內已授權專利《基于多種OCR方案組合校驗以準確提取數(shù)字的方法》(公開號：CN 101009747 A)采用多種不同的OCR軟件識別傳真圖片，以獲取其中的傳真號碼，然后根據(jù)各自識別算法的特征對識別出的數(shù)字進行糾錯，最后對所有識別出的傳真號碼進行統(tǒng)一校驗。只有當識別出的傳真號碼完全匹配，系統(tǒng)才自動啟動傳真發(fā)送，否則由人工干預發(fā)送。該方法也是通過使用多個OCR軟件以投票表決的方式來認定識別錯誤的數(shù)據(jù)。

現(xiàn)有的技術方案都沒有關注到所識別文件編號的自身規(guī)律，更沒有利用自身規(guī)律對錯誤數(shù)據(jù)實施檢查和糾正。

技術實現(xiàn)要素：

本發(fā)明根據(jù)所要識別字符串的已知完整集合，針對OCR軟件從圖像中提取出的字符串提出一種檢錯與糾錯的方法，目的在于輔助OCR軟件檢查出識別結果中的錯誤數(shù)據(jù)并對這些錯誤數(shù)據(jù)實施糾正，從而提高識別結果的準確率。其中，所要識別字符串的已知完整集合記為允許集，且允許集中字符串不能重復。OCR軟件從圖像中提取出的這些字符串記為OCR識別結果。

本發(fā)明的目的是通過下述技術方案來實現(xiàn)的。

一種根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法，包括下述步驟：

1)輸入允許集和OCR識別結果；

2)OCR識別結果中找出的重復字符串；

3)從OCR識別結果中找出存在、而允許集中不存在的字符串，記為不可存在字符串；

4)從允許集中找出存在、而OCR識別結果中不存在的字符串，記為缺失字符串；

5)重復字符串、不可存在字符串和缺失字符串即為OCR識別結果中錯誤的字符串；

6)判斷允許集中的所有字符串在每一個字符串位置是否具有相同字符；若具有相同字符，則將該位置與該字符構造成<位置,字符>，記為固定位置字符對；

7)對每一個不可存在字符串，用固定位置字符對的字符替換其相應位置處的字符；替換后的字符串組成糾正中間集；

8)從糾正中間集中找出與缺失字符串相同的字符串，組成糾正結果集；糾正結果集中字符串即為糾正成功的字符串。

步驟6所述的操作包含下述步驟：

6a)輸入允許集數(shù)據(jù)；

6b)定義字符串位置index，定義字符char，定義元素為<index,char>的集合set，定義初始狀態(tài)init；

6c)置index值為0，清空set，置init值為1；

6d)判斷允許集是否為空；若為空，則返回set并結束本方法；若不為空，則取出允許集中最長的一個字符串；

6e)判斷index值是否小于該字符串長度；若小于，則置char值為該字符串在index位置處字符；若不小于，則置index值為0，置init值為0，跳轉至步驟6d)；

6f)判斷init值是否為1；若為1，則構造鍵值對<index,char>并存入集合set；若不為1，則刪除set中鍵為index而值不為char的元素；

6g)將index值增1并繼續(xù)執(zhí)行步驟6e)。

本發(fā)明對比已有技術具有以下特點：

1、通過在OCR識別結果集中提取重復元素，可以獲得識別錯誤的字符串；

2、通過對允許集和OCR識別結果集作差，可以獲得識別錯誤的字符串；

3、通過并發(fā)執(zhí)行尋找識別錯誤字符串的相關操作，可以提高執(zhí)行效率；

4、利用字符串的允許集合，可以糾正不可存在字符串；

附圖說明

圖1為本發(fā)明方法的總體數(shù)據(jù)流圖；

圖2為糾正不可存在字符串操作的數(shù)據(jù)流圖；

圖3為尋找固定位置字符對操作的算法流程圖。

具體實施方式

下面結合附圖和實施例對本發(fā)明作進一步說明。

如圖1所示，本發(fā)明給出了一種根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法，包括下述步驟：

1)輸入允許集和OCR識別結果；

2)OCR識別結果中找出的重復字符串；

3)從OCR識別結果中找出存在、而允許集中不存在的字符串，記為不可存在字符串；

4)從允許集中找出存在、而OCR識別結果中不存在的字符串，記為缺失字符串；

5)重復字符串、不可存在字符串和缺失字符串均為OCR識別結果中錯誤的字符串；

6)判斷允許集中的所有字符串在每一個字符串位置是否具有相同字符；若具有相同字符，則將該位置與該字符構造成<位置,字符>，記為固定位置字符對；

具體方法為：

6a)輸入允許集數(shù)據(jù)；

6b)定義字符串位置index，定義字符char，定義元素為<index,char>的集合set，定義初始狀態(tài)init；

6c)置index值為0，清空set，置init值為1；

6d)判斷允許集是否為空；若為空，則返回set并結束本方法；若不為空，則取出允許集中最長的一個字符串；

6e)判斷index值是否小于該字符串長度；若小于，則置char值為該字符串在index位置處字符；若不小于，則置index值為0，置init值為0，跳轉至步驟6d)；

6f)判斷init值是否為1；若為1，則構造鍵值對<index,char>并存入集合set；若不為1，則刪除set中鍵為index而值不為char的元素；

6g)將index值增1并繼續(xù)執(zhí)行步驟6e)；

7)對每一個不可存在字符串，用固定位置字符對的字符替換其相應位置處的字符；替換后的字符串組成糾正中間集；

8)從糾正中間集中找出與缺失字符串相同的字符串，組成糾正結果集；糾正結果集中字符串即為糾正成功的字符串。

下面通過一個具體稅收通用繳款書編號的OCR識別結果來進一步說明本發(fā)明檢錯與糾錯方法。

稅收通用繳款書是稅務機關發(fā)行的一種常見稅票，為了實現(xiàn)數(shù)字化存儲和快速檢索，需要被掃描成圖像并通過OCR軟件提取其編號。由于掃描獲取的圖像會出現(xiàn)模糊、錯位等狀況，OCR軟件識別結果中會出現(xiàn)一些錯誤，這些錯誤需要被檢查和糾正。稅票編號在打印過程中不會重復，且可以事先確定其允許集合，故符合本發(fā)明方法的適用條件。因此，稅票編號OCR識別結果中的錯誤可以利用本發(fā)明檢查和修正，從而提高OCR軟件識別稅票編號的準確率。

本發(fā)明方法的總體數(shù)據(jù)流圖如圖1所示，具體實施過程如下：

1、將所要識別的全體稅票編號輸入到允許集121；采用OCR軟件識別出的稅票編號作為OCR識別結果122；

2、通過尋找重復字符串132操作，找出OCR識別結果122中的重復字符串124；

3、通過尋找不可存在字符串131操作，找出OCR識別結果中存在而允許集中不存在的字符串，記為不可存在字符串123；

4、通過尋找缺失字符串133操作，找出允許集中存在而OCR識別結果中不存在的字符串，記為缺失字符串125；

5、重復字符串124、不可存在字符串123和缺失字符串125均為OCR軟件識別錯誤的字符串；

6、糾正不可存在字符串134，操作如圖2所示，其具體過程如下：

(1)尋找固定位置字符對231：對每一個字符串位置，判斷允許集中的所有字符串在該位置是否具有相同字符；若具有相同字符，則將該位置與該字符構造成<位置,字符>，記為固定位置字符對234；

(2)替換固定字符232：對每一個不可存在字符串，用固定位置字符對的字符替換其相應位置處字符；替換后的字符串組成糾正中間集221；

(3)從糾正中間集中找出與缺失字符串相同的字符串233，組成糾正結果集126；糾正結果集126中字符串即為糾正成功的字符串。

上述過程中步驟6所述的糾正不可存在字符串134操作中(1)的流程圖如圖3所示，具體過程如下：

6a)輸入允許集數(shù)據(jù)；

6b)定義字符串位置index，定義字符char，定義元素為<index,char>的集合set，定義初始狀態(tài)init；

6c)置index值為0，清空set，置init值為1；

6d)判斷允許集是否為空；若為空，則返回set并結束本方法；若不為空，則取出允許集中最長的一個字符串；

6e)判斷index值是否小于該字符串長度；若小于，則置char值為該字符串在index位置處字符；若不小于，則置index值為0，置init值為0，跳轉至步驟4；

6f)判斷init值是否為1；若為1，則構造鍵值對<index,char>并存入集合set；若不為1，則刪除set中鍵為index而值不為char的元素；

6g)將index值增1并繼續(xù)執(zhí)行步驟5。

此實施實例通過一系列的操作實現(xiàn)了稅票編號OCR識別結果的檢錯與糾錯，驗證了根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法。本發(fā)明與現(xiàn)有方法相比，更多地考慮了識別對象自身的特性，輔助OCR軟件提高了識別結果的準確率。

以上結合附圖對本發(fā)明的具體實施方式作了說明，但這些說明不能被理解為限制了本發(fā)明的范圍，本發(fā)明的保護范圍由隨附的權利要求書限定，任何在本發(fā)明權利要求基礎上的改動都是本發(fā)明的保護范圍。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：史晨旭;李向寧;程培濤;億珍珍;賀奎奎;馬樂;趙志平;聶振康;焦煒;李歡;劉歡;徐杰;徐戰(zhàn)輝;陳瑞;宮文天;劉偉;馬鑫;向克進;許夏;張宗正
技術所有人：西安電子科技大學
我是此專利的發(fā)明人

上一篇：一種計算機字體識別方法及裝置與制造工藝
上一篇：一種紙鈔的冠字號識別方法及其裝置與制造工藝

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！