两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法與流程

文檔序號:11143287閱讀:3867來源:國知局
一種根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法與制造工藝

本發(fā)明屬于圖像OCR(Optical Character Recognition,光學字符識別)技術領域。當使用OCR軟件讀取、分析圖像文件并提取出其中的字符串時,本發(fā)明可以檢查和糾正識別錯誤的字符串,從而輔助OCR軟件降低識別的錯誤率。



背景技術:

OCR軟件,指利用OCR(Optical Character Recognition,光學字符識別)技術,將圖片、照片等圖像上的文字內容轉換為可編輯文本的軟件,廣泛應用于提取各種圖像中的字符。通常,圖像信息通過掃描儀、照相機等設備獲取并存儲在圖像文件中,然后OCR軟件讀取、分析圖像文件并通過字符識別提取出其中的字符串。

OCR軟件的一個典型應用是文件編號的自動識別。比如,支票、稅票和信件等各種文件進行數(shù)字化時,需要通過OCR軟件提取其編號。由于文件編號可能出現(xiàn)模糊、錯位等狀況,OCR軟件的識別結果會出現(xiàn)錯誤。如何檢查和糾正OCR識別結果中的錯誤,國內外研究人員提出了一些解決辦法。

美國已授權專利《Apparatus and method for OCR character and confidence determination using multiple OCR devices》(公開號:US 5805747 A)使用多個OCR軟件進行識別,各OCR軟件輸出自己的識別結果并標記出置信度,最后綜合各輸出結果,給出最終識別結果并標記出置信度。該方法具有很好的通用性,但需要用到多個OCR識別軟件。如果圖像本身存在缺陷(比如個別數(shù)字過于模糊),即使有多個OCR軟件也無法得到準確的結果。

國內已授權專利《基于多種OCR方案組合校驗以準確提取數(shù)字的方法》(公開號:CN 101009747 A)采用多種不同的OCR軟件識別傳真圖片,以獲取其中的傳真號碼,然后根據(jù)各自識別算法的特征對識別出的數(shù)字進行糾錯,最后對所有識別出的傳真號碼進行統(tǒng)一校驗。只有當識別出的傳真號碼完全匹配,系統(tǒng)才自動啟動傳真發(fā)送,否則由人工干預發(fā)送。該方法也是通過使用多個OCR軟件以投票表決的方式來認定識別錯誤的數(shù)據(jù)。

現(xiàn)有的技術方案都沒有關注到所識別文件編號的自身規(guī)律,更沒有利用自身規(guī)律對錯誤數(shù)據(jù)實施檢查和糾正。



技術實現(xiàn)要素:

本發(fā)明根據(jù)所要識別字符串的已知完整集合,針對OCR軟件從圖像中提取出的字符串提出一種檢錯與糾錯的方法,目的在于輔助OCR軟件檢查出識別結果中的錯誤數(shù)據(jù)并對這些錯誤數(shù)據(jù)實施糾正,從而提高識別結果的準確率。其中,所要識別字符串的已知完整集合記為允許集,且允許集中字符串不能重復。OCR軟件從圖像中提取出的這些字符串記為OCR識別結果。

本發(fā)明的目的是通過下述技術方案來實現(xiàn)的。

一種根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法,包括下述步驟:

1)輸入允許集和OCR識別結果;

2)OCR識別結果中找出的重復字符串;

3)從OCR識別結果中找出存在、而允許集中不存在的字符串,記為不可存在字符串;

4)從允許集中找出存在、而OCR識別結果中不存在的字符串,記為缺失字符串;

5)重復字符串、不可存在字符串和缺失字符串即為OCR識別結果中錯誤的字符串;

6)判斷允許集中的所有字符串在每一個字符串位置是否具有相同字符;若具有相同字符,則將該位置與該字符構造成<位置,字符>,記為固定位置字符對;

7)對每一個不可存在字符串,用固定位置字符對的字符替換其相應位置處的字符;替換后的字符串組成糾正中間集;

8)從糾正中間集中找出與缺失字符串相同的字符串,組成糾正結果集;糾正結果集中字符串即為糾正成功的字符串。

步驟6所述的操作包含下述步驟:

6a)輸入允許集數(shù)據(jù);

6b)定義字符串位置index,定義字符char,定義元素為<index,char>的集合set,定義初始狀態(tài)init;

6c)置index值為0,清空set,置init值為1;

6d)判斷允許集是否為空;若為空,則返回set并結束本方法;若不為空,則取出允許集中最長的一個字符串;

6e)判斷index值是否小于該字符串長度;若小于,則置char值為該字符串在index位置處字符;若不小于,則置index值為0,置init值為0,跳轉至步驟6d);

6f)判斷init值是否為1;若為1,則構造鍵值對<index,char>并存入集合set;若不為1,則刪除set中鍵為index而值不為char的元素;

6g)將index值增1并繼續(xù)執(zhí)行步驟6e)。

本發(fā)明對比已有技術具有以下特點:

1、通過在OCR識別結果集中提取重復元素,可以獲得識別錯誤的字符串;

2、通過對允許集和OCR識別結果集作差,可以獲得識別錯誤的字符串;

3、通過并發(fā)執(zhí)行尋找識別錯誤字符串的相關操作,可以提高執(zhí)行效率;

4、利用字符串的允許集合,可以糾正不可存在字符串;

附圖說明

圖1為本發(fā)明方法的總體數(shù)據(jù)流圖;

圖2為糾正不可存在字符串操作的數(shù)據(jù)流圖;

圖3為尋找固定位置字符對操作的算法流程圖。

具體實施方式

下面結合附圖和實施例對本發(fā)明作進一步說明。

如圖1所示,本發(fā)明給出了一種根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法,包括下述步驟:

1)輸入允許集和OCR識別結果;

2)OCR識別結果中找出的重復字符串;

3)從OCR識別結果中找出存在、而允許集中不存在的字符串,記為不可存在字符串;

4)從允許集中找出存在、而OCR識別結果中不存在的字符串,記為缺失字符串;

5)重復字符串、不可存在字符串和缺失字符串均為OCR識別結果中錯誤的字符串;

6)判斷允許集中的所有字符串在每一個字符串位置是否具有相同字符;若具有相同字符,則將該位置與該字符構造成<位置,字符>,記為固定位置字符對;

具體方法為:

6a)輸入允許集數(shù)據(jù);

6b)定義字符串位置index,定義字符char,定義元素為<index,char>的集合set,定義初始狀態(tài)init;

6c)置index值為0,清空set,置init值為1;

6d)判斷允許集是否為空;若為空,則返回set并結束本方法;若不為空,則取出允許集中最長的一個字符串;

6e)判斷index值是否小于該字符串長度;若小于,則置char值為該字符串在index位置處字符;若不小于,則置index值為0,置init值為0,跳轉至步驟6d);

6f)判斷init值是否為1;若為1,則構造鍵值對<index,char>并存入集合set;若不為1,則刪除set中鍵為index而值不為char的元素;

6g)將index值增1并繼續(xù)執(zhí)行步驟6e);

7)對每一個不可存在字符串,用固定位置字符對的字符替換其相應位置處的字符;替換后的字符串組成糾正中間集;

8)從糾正中間集中找出與缺失字符串相同的字符串,組成糾正結果集;糾正結果集中字符串即為糾正成功的字符串。

下面通過一個具體稅收通用繳款書編號的OCR識別結果來進一步說明本發(fā)明檢錯與糾錯方法。

稅收通用繳款書是稅務機關發(fā)行的一種常見稅票,為了實現(xiàn)數(shù)字化存儲和快速檢索,需要被掃描成圖像并通過OCR軟件提取其編號。由于掃描獲取的圖像會出現(xiàn)模糊、錯位等狀況,OCR軟件識別結果中會出現(xiàn)一些錯誤,這些錯誤需要被檢查和糾正。稅票編號在打印過程中不會重復,且可以事先確定其允許集合,故符合本發(fā)明方法的適用條件。因此,稅票編號OCR識別結果中的錯誤可以利用本發(fā)明檢查和修正,從而提高OCR軟件識別稅票編號的準確率。

本發(fā)明方法的總體數(shù)據(jù)流圖如圖1所示,具體實施過程如下:

1、將所要識別的全體稅票編號輸入到允許集121;采用OCR軟件識別出的稅票編號作為OCR識別結果122;

2、通過尋找重復字符串132操作,找出OCR識別結果122中的重復字符串124;

3、通過尋找不可存在字符串131操作,找出OCR識別結果中存在而允許集中不存在的字符串,記為不可存在字符串123;

4、通過尋找缺失字符串133操作,找出允許集中存在而OCR識別結果中不存在的字符串,記為缺失字符串125;

5、重復字符串124、不可存在字符串123和缺失字符串125均為OCR軟件識別錯誤的字符串;

6、糾正不可存在字符串134,操作如圖2所示,其具體過程如下:

(1)尋找固定位置字符對231:對每一個字符串位置,判斷允許集中的所有字符串在該位置是否具有相同字符;若具有相同字符,則將該位置與該字符構造成<位置,字符>,記為固定位置字符對234;

(2)替換固定字符232:對每一個不可存在字符串,用固定位置字符對的字符替換其相應位置處字符;替換后的字符串組成糾正中間集221;

(3)從糾正中間集中找出與缺失字符串相同的字符串233,組成糾正結果集126;糾正結果集126中字符串即為糾正成功的字符串。

上述過程中步驟6所述的糾正不可存在字符串134操作中(1)的流程圖如圖3所示,具體過程如下:

6a)輸入允許集數(shù)據(jù);

6b)定義字符串位置index,定義字符char,定義元素為<index,char>的集合set,定義初始狀態(tài)init;

6c)置index值為0,清空set,置init值為1;

6d)判斷允許集是否為空;若為空,則返回set并結束本方法;若不為空,則取出允許集中最長的一個字符串;

6e)判斷index值是否小于該字符串長度;若小于,則置char值為該字符串在index位置處字符;若不小于,則置index值為0,置init值為0,跳轉至步驟4;

6f)判斷init值是否為1;若為1,則構造鍵值對<index,char>并存入集合set;若不為1,則刪除set中鍵為index而值不為char的元素;

6g)將index值增1并繼續(xù)執(zhí)行步驟5。

此實施實例通過一系列的操作實現(xiàn)了稅票編號OCR識別結果的檢錯與糾錯,驗證了根據(jù)允許集對字符串OCR識別結果檢錯與糾錯的方法。本發(fā)明與現(xiàn)有方法相比,更多地考慮了識別對象自身的特性,輔助OCR軟件提高了識別結果的準確率。

以上結合附圖對本發(fā)明的具體實施方式作了說明,但這些說明不能被理解為限制了本發(fā)明的范圍,本發(fā)明的保護范圍由隨附的權利要求書限定,任何在本發(fā)明權利要求基礎上的改動都是本發(fā)明的保護范圍。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
博客| 大关县| 静乐县| 西城区| 吉木乃县| 崇信县| 磐石市| 孝义市| 广东省| 永泰县| 娱乐| 溆浦县| 滨海县| 宁武县| 河源市| 陇川县| 玉山县| 车险| 金乡县| 县级市| 香河县| 金乡县| 冕宁县| 武定县| 临沂市| 那曲县| 林甸县| 巩留县| 弥勒县| 洛川县| 丘北县| 曲麻莱县| 新干县| 阜阳市| 威宁| 仁布县| 鄂温| 陆丰市| 彭州市| 温宿县| 通海县|