两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種字符識別的后處理方法

文檔序號:6636116閱讀:571來源:國知局
專利名稱:一種字符識別的后處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)信息處理領(lǐng)域的后處理技術(shù),尤其涉及一種對識別后的錯(cuò)字進(jìn)行糾正的方法。
背景技術(shù)
后處理是OCR(光學(xué)字符識別)技術(shù)應(yīng)用的一個(gè)重要環(huán)節(jié),目前OCR文字識別結(jié)果中總有誤識的字符存在,后處理算法的應(yīng)用在一定程度上糾正了識別錯(cuò)誤的字符。
對于識別后出現(xiàn)的錯(cuò)字傳統(tǒng)上采用作標(biāo)記的辦法,標(biāo)記出來后依賴于人工進(jìn)行糾正處理。因而不能進(jìn)行自動處理,由此對于批量處理識別結(jié)果的工作人員來說,工作量是非常大的。
現(xiàn)有技術(shù)中還有另外一種方法,如文獻(xiàn)“一種基于字詞結(jié)合的漢字識別上下文處理新方法”(清華電子工程系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,作者丁曉青等)中所述的方法,首先通過識別得到識別結(jié)果,而后對于錯(cuò)誤識別的漢字,在其候選字列表中查找可以跟后面正確的字組成詞語的字,如果找到了,就選擇這個(gè)候選字,如果沒找到,則選擇第一個(gè)候選字。該方法提供了詞語選擇,可以達(dá)到半自動的處理效果。
這種方法的優(yōu)點(diǎn)在于,根據(jù)邏輯來組詞可以在一定程度上準(zhǔn)確地選擇正確的候選字。缺陷在于,依靠組詞來選擇候選字,忽略了詞語的詞頻信息和詞語的長度信息,缺乏一定的可靠性。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中進(jìn)行字符識別后處理時(shí)糾正錯(cuò)字的效率和準(zhǔn)確度不高的問題,本發(fā)明的目的是提供一種通過對識別結(jié)果中誤識字符的所有候選字符進(jìn)行組詞判斷來自動選出正確字符的方法。
本發(fā)明提供一種字符識別的后處理方法,包括以下步驟識別文檔中的字符,并獲取文檔中字符的候選字符及候選字符的相似度;將候選字符相似度與預(yù)定閾值相比較確定被誤識的字符;對于誤識字符的候選字符,形成至少包含所述候選字符的搜索詞,用所述搜索詞在已知的文本數(shù)據(jù)庫中搜索,從而獲得搜索詞的至少一種測量值;用所獲得的測量值來計(jì)算誤識字符搜索詞的權(quán)值,比較誤識字符所有搜索詞的權(quán)值從而確定用來糾正所述誤識字符的正確字符。
上述方法中,形成至少包含所述候選字符的搜索詞進(jìn)一步包括用所述誤識字符的一個(gè)候選字符取代其位置,與所述誤識字符的前后字符組成搜索詞形成至少包含所述候選字符的搜索詞。
上述方法中,形成至少包含所述候選字符的搜索詞進(jìn)一步包括如果在已知的文本數(shù)據(jù)庫中搜索到了所述搜索詞,則在搜索詞上增加一個(gè)相鄰字符,加長搜索詞直到獲得在已知文本數(shù)據(jù)庫中可以搜索到的最長的搜索詞。
上述用來計(jì)算權(quán)值的至少一種測量值可以是搜索詞的詞長、詞頻和其中各個(gè)字符的相似度三種測量值中的至少一種。
上述方法中,用如下公式計(jì)算搜索詞的權(quán)值Pwi=an2-bD+f,這里Wi表示一個(gè)誤識字符的候選字符,n、f和D分別表示包含Wi的搜索詞的詞長、詞頻和詞語相似度,并且a和b是大于0的系數(shù)。
上述方法中,詞語相似度D=d1’+d2’+…+di+…+dn’;這里di表示候選字符Wi的相似度,d’表示所述搜索詞中Wi左右各個(gè)字符的相似度。
上述比較誤識字符所有搜索詞的權(quán)值從而確定用來糾正所述誤識字符的正確字符進(jìn)一步包括如果第一權(quán)值是所有搜索詞的權(quán)值中最大的,就將第一權(quán)值對應(yīng)的候選字符確定為所述誤識字符位置上的正確字符。
上述比較誤識字符所有搜索詞的權(quán)值從而確定用來糾正所述誤識字符的正確字符進(jìn)一步包括如果第一權(quán)值和第二權(quán)值相同而且都是搜索詞的權(quán)值中最大的,那么判斷第一搜索詞中與第一候選字符成詞的字符能否與相鄰的另一個(gè)字符成詞,如果能成詞就選取第二權(quán)值對應(yīng)的第二搜索詞所包含的第二候選字符。
上述方法中,如果第一和第二兩個(gè)搜索詞中與第一和第二候選字符成詞的字符都與相鄰的另一個(gè)字符不成詞,就拿與第一候選字符成詞的字符的相似度和與第二候選字符成詞的字符的相似度作比較,選取相似度好的字符所在的搜索詞,也就是選取了這個(gè)搜索詞所包含的候選字符。
上述方法中,如果與第一候選字符成詞的字符的相似度和與第二候選字符成詞的字符的相似度相同,就以第一候選字符的相似度和第二候選字符的相似度作比較,選取相似度好的候選字符。
本發(fā)明的實(shí)施方案具有很多優(yōu)點(diǎn)和進(jìn)步。采用本發(fā)明所述的后處理方法可以根據(jù)邏輯組詞,準(zhǔn)確糾正誤識字符,算法簡單易行。另外,選取候選字符時(shí)考慮的因素更合理,保證了糾正過程的準(zhǔn)確性。可以連續(xù)糾正相鄰的幾個(gè)不正確的字,提高識別率和識別速度。對初始識別之后的錯(cuò)誤內(nèi)容進(jìn)行自動糾正處理,減少了人工工作量,同時(shí)減少了人工后期檢查性的干預(yù),提高可靠性和工作效率。


圖1是按照本發(fā)明實(shí)施例的字符識別裝置的結(jié)構(gòu)示意圖。
圖2是圖1的字符識別裝置所執(zhí)行的字符識別過程的流程圖。
圖3是權(quán)值公式中各個(gè)量測量過程的流程圖。
圖4是誤識字符的確定結(jié)果的范例。
具體實(shí)施例方式
下面結(jié)合說明書附圖來說明本發(fā)明的具體實(shí)施方式

圖1示出按照本發(fā)明的實(shí)施例用來將打印文檔或手寫文檔轉(zhuǎn)換成文本數(shù)據(jù)的字符識別裝置。因?yàn)镺CR識別裝置可能對文檔中的某些字符不能準(zhǔn)確識別,所以本實(shí)施例引入一種后處理裝置以便從推薦的多個(gè)候選字符中確定正確的字符,從而提高識別率。
在圖1中,字符識別裝置包括圖像輸入單元11,它可以是掃描儀、傳真機(jī)或數(shù)碼相機(jī)等圖像輸入裝置,還包括圖像數(shù)據(jù)存儲單元12、版面分析單元13、預(yù)處理單元14、OCR識別單元15、后處理單元16、識別結(jié)果存儲單元17和文本數(shù)據(jù)輸出單元18。其中,圖像輸入單元11用于輸入打印文檔或手寫文檔作為圖像數(shù)據(jù);圖像數(shù)據(jù)存儲單元12用于以位映像形式存儲由圖像輸入單元11讀取的圖像數(shù)據(jù);版面分析單元13用于將圖像數(shù)據(jù)劃分成具有不同符號的區(qū)域,比如字符區(qū)域、圖形區(qū)域、公式區(qū)域等等;預(yù)處理單元14用于對所劃分的字符區(qū)域進(jìn)行行列切分,逐個(gè)提取單個(gè)字符的圖像數(shù)據(jù);OCR識別單元15用于將提取的圖像數(shù)據(jù)轉(zhuǎn)換為待選的文本字符,并且生成表示各個(gè)待選的文本字符與對應(yīng)的圖像數(shù)據(jù)匹配程度的數(shù)值;后處理單元16用于校正被OCR識別單元15錯(cuò)誤識別的文本數(shù)據(jù),OCR識別單元15生成由后處理單元123確定的最為可信的文本數(shù)據(jù)的數(shù)據(jù)文檔;而識別結(jié)果存儲單元17用來存儲由OCR識別單元122獲得的識別結(jié)果;文本數(shù)據(jù)輸出單元18用來輸出已被轉(zhuǎn)換成文本數(shù)據(jù)的文檔數(shù)據(jù)。
后處理單元16包括中央控制模塊160、搜索模塊161、文本數(shù)據(jù)存儲模塊162和存儲模塊163。其中,中央控制模塊160用于分析識別結(jié)果存儲單元17中所存儲的初始識別結(jié)果從而確定被錯(cuò)誤識別的字符,用于根據(jù)權(quán)值公式計(jì)算誤識字符各個(gè)侯選字符對應(yīng)的權(quán)值,并將與一個(gè)誤識字符相關(guān)的所有權(quán)值作比較以確定最佳候選字符,而且還用于管理后處理單元16中的其他模塊;搜索模塊161響應(yīng)中央控制模塊160給定的搜索詞,在事先已轉(zhuǎn)換成文本數(shù)據(jù)的文檔數(shù)據(jù)或事先收集形成的文本數(shù)據(jù)資料庫中進(jìn)行搜索,并將搜索詞在整個(gè)文檔或整個(gè)資料庫中出現(xiàn)的次數(shù)送回中央控制模塊160;文本數(shù)據(jù)存儲模塊162用于保存事先已轉(zhuǎn)換成文本數(shù)據(jù)的文檔數(shù)據(jù)或事先收集形成的文本數(shù)據(jù)資料庫;存儲模塊163用于存儲中央控制模塊160處理的中間結(jié)果。
接著參照圖2描述具有上述結(jié)構(gòu)的字符識別裝置的操作,圖2示出在掃描打印文檔的情況下,由本實(shí)施例的字符識別裝置執(zhí)行的整個(gè)過程的流程圖。
在步驟201中,準(zhǔn)備識別樣張,由圖像輸入單元11掃描打印文檔,并存儲到圖像數(shù)據(jù)存儲單元12上。通過用戶指定所存儲的上述圖像數(shù)據(jù)文件而開始進(jìn)行文本數(shù)據(jù)轉(zhuǎn)換。
在步驟202中版面分析單元13獲得這個(gè)圖像數(shù)據(jù)文件,并將圖像數(shù)據(jù)劃分成不同的區(qū)域,諸如圖像區(qū)域、圖形區(qū)域、字符區(qū)域等等,然后將字符區(qū)域的位置信息發(fā)送給預(yù)處理單元14。
在步驟203中,預(yù)處理單元14可以利用如投影法、連通域法之類的方法從字符區(qū)域中將第一個(gè)字符切分出來,而且向OCR識別單元15提供這個(gè)字符的位置信息。
在步驟204中,OCR識別單元15識別從所提供的位置信息獲得的字符圖象數(shù)據(jù),并且生成多個(gè)候選字符以形成候選字符列表。此外,OCR識別單元15還用數(shù)值表示每個(gè)候選字符與該字符圖像數(shù)據(jù)的匹配程度,在此稱為相似度。可以將候選字符的相似度與預(yù)定標(biāo)準(zhǔn)作比較從而選取匹配程度比較高的候選字符構(gòu)成候選字符列表,而且以選取的候選字符相似度的順序生成候選字符列表。
在步驟205中,將候選字符列表存儲在識別結(jié)果存儲單元17中。處理流程在步驟203、204和205上循環(huán),按照上述方法,預(yù)處理單元14和OCR識別單元15對字符區(qū)域中剩下的字符繼續(xù)進(jìn)行切分和識別。重復(fù)這三個(gè)步驟,直到字符區(qū)域中的最后一個(gè)字符。這時(shí),識別結(jié)果存儲單元17中的候選字符列表具有如下形式

這里,C表示在字符區(qū)域中的字符數(shù),而T表示候選字符的最大數(shù)目。后處理單元16在步驟206上基于一個(gè)預(yù)先確定的標(biāo)準(zhǔn)來判斷字符區(qū)域中的各個(gè)字符是否被誤識別。如果對于字符區(qū)域第一位置上的字符,其轉(zhuǎn)換候選者的相似度未達(dá)到預(yù)定標(biāo)準(zhǔn),那么確定第一位置上的字符被誤識別。相反,如果達(dá)到了預(yù)定標(biāo)準(zhǔn),那么確定第一位置上的字符被正確識別,并認(rèn)定該位置上的正確字符就是其候選字符W1。進(jìn)而,對已存儲在識別結(jié)果存儲單元17中的字符區(qū)域其他位置上的字符重復(fù)這個(gè)判斷過程,直到字符區(qū)域最后一個(gè)位置上的字符是否被誤識別都已經(jīng)確定。
本實(shí)施例提供一種改進(jìn)的誤識字符糾正方法,下面對這種方法作進(jìn)一步詳細(xì)的描述。
假設(shè)字符區(qū)域中有X個(gè)誤識字符,在步驟207中首先根據(jù)公式Pwi=F(D,f,n)來計(jì)算誤識字符1的候選字符的權(quán)值。這里,Wi是誤識字符1的候選字符列表W中的任一候選字符,它的相似度為di。對于包含候選字符Wi的詞語A,通過搜索得到這個(gè)詞的詞頻f和詞的長度n,而且得到A中Wi左右各個(gè)字符的相似度d’,所以詞語A的相似度D為D=g(d1’,d2’,…,di…,dn’);權(quán)值公式的具體表達(dá)式可以為Pwi=an2-bD+f。
其中,a和b是大于0的系數(shù),D=d1’+d2’+…+di+…+dn’。
假如誤識字符1的候選字符列表W中有T個(gè)候選字符,那么重復(fù)步驟207,直到計(jì)算出候選字符W1至WT中每一個(gè)的權(quán)值。這時(shí)在步驟208上將所有的權(quán)值互相比較,基于比較結(jié)果從W1至WT中給誤識字符1選出一個(gè)最佳的候選字符,并存儲到存儲模塊163中。
在步驟207和208上循環(huán)直到給字符區(qū)域中X個(gè)誤識字符都選取了最佳的候選字符,并且將這些最佳的候選字符都存儲到了識別結(jié)果存儲單元17中。這時(shí)流程進(jìn)行到步驟209,在此由文本數(shù)據(jù)輸出單元18輸出最后生成的文本數(shù)據(jù)。整個(gè)流程結(jié)束。
圖3示出在圖2的步驟207中用來計(jì)算權(quán)值的各個(gè)量的測量過程。這里假設(shè),事先將已被文本數(shù)據(jù)轉(zhuǎn)換單元12轉(zhuǎn)換成文本數(shù)據(jù)的多個(gè)文檔數(shù)據(jù)或已形成的文本數(shù)據(jù)資料庫保存在文本數(shù)據(jù)存儲模塊162中了。
在步驟801上,后處理單元16的中央控制模塊160要求搜索模塊161首先將包括兩個(gè)字符的字符串作為搜索詞,在文本數(shù)據(jù)存儲模塊162內(nèi)的文本數(shù)據(jù)中進(jìn)行搜索。這兩個(gè)字符包括候選字符W1,還包括比如W1對應(yīng)的誤識字符前面相鄰的字符。
在步驟802上,搜索模塊161將詞頻f作為搜索結(jié)果送回給中央控制模塊160。
在步驟803上根據(jù)搜索模塊161的搜索結(jié)果進(jìn)行判定。如果在文本數(shù)據(jù)存儲模塊162內(nèi)沒有搜索到上述包含兩個(gè)字符的字符串,即f=0,中央控制模塊160就在步驟804上將詞長n設(shè)置為0。接著,流程進(jìn)行到步驟808。相反,如果在文本數(shù)據(jù)存儲模塊162內(nèi)搜索到了這個(gè)字符串,即f>0,中央控制模塊160就在步驟805上將詞長n設(shè)置為2。
接著在步驟806上,中央控制模塊160在字符串中增加一個(gè)字符,在本實(shí)施例的情況下是誤識字符前面第二個(gè)字符。而且,中央控制模塊160要求搜索模塊161用加長了的搜索詞重新進(jìn)行搜索。
在步驟807上,搜索詞出現(xiàn)的次數(shù)f作為搜索結(jié)果送回給中央控制模塊160。
在步驟808上根據(jù)搜索模塊161的搜索結(jié)果進(jìn)行判定。如果在文本數(shù)據(jù)存儲模塊162內(nèi)搜索到這個(gè)增加了一個(gè)字符的搜索詞,即f>0,中央控制模塊160就在步驟809上將詞長n遞加。在這一步,流程返回步驟806,進(jìn)一步前向遞增作為搜索詞的字符串中的字符。相反,如果在文本數(shù)據(jù)存儲模塊162內(nèi)沒有搜索到上述包含三個(gè)字符的字符串,即f=0,中央控制模塊160就在步驟810上開始后向遞增作為搜索詞的字符串中的字符,并用加長后的搜索詞重新進(jìn)行搜索。
類似地,在步驟811上,將搜索詞出現(xiàn)的次數(shù)f作為搜索結(jié)果送回給中央控制模塊160,在步驟812上根據(jù)搜索模塊161的搜索結(jié)果進(jìn)行判定。如果搜索到了該搜索詞,即f>0,中央控制模塊160就在步驟813上將詞長n遞加,然后返回步驟810,進(jìn)一步后向遞增作為搜索詞的字符串中的字符。相反,如果沒有搜索到該搜索詞,即f=0,后處理單元16就在步驟814從識別結(jié)果存儲單元17中取出可以搜索到的最長字符串中每個(gè)字符的相似度數(shù)值,并送到中央控制模塊160中。
至此,整個(gè)測量流程結(jié)束。
如果這個(gè)誤識字符的候選字符有多個(gè),中央控制模塊160進(jìn)一步用該誤識字符前面相鄰的字符和候選字符2組成字符串作為搜索詞,并且要求搜索模塊161用包括候選字符2的搜索詞作如上所述的搜索并記錄可以搜索到的最長的搜索詞的詞頻,同時(shí)中央控制模塊160記錄該最長搜索詞的詞長,而且后處理單元16還從識別結(jié)果存儲單元17中取出可以搜索到的最長字符串中每個(gè)字符的相似度數(shù)值并送到中央控制模塊160中。該誤識字符的其他候選字符替換候選字符1組成包含兩個(gè)字符的字符串。
可見,當(dāng)后處理單元16用每個(gè)候選字符代替難以識別的字符以形成搜索字符串的時(shí)候,就用這個(gè)替換后的檢索詞進(jìn)行一遍這樣的測量過程。同樣要記錄可以搜索到的最長的搜索詞的詞頻和詞長并取出搜索詞中每個(gè)字符的相似度數(shù)值。需要說明的是,增加搜索詞的長度也可以先作后向遞增再作前向遞增。
通過圖3的測量流程得到包含候選字符Wi的搜索詞的詞頻、詞長和其中各個(gè)字符的相似度之后,在后處理單元16的中央控制模塊160中按照圖2中步驟207所示的方式來計(jì)算候選字符Wi的權(quán)值PWi,并將計(jì)算出的權(quán)值存儲到存儲模塊163中。
在圖2的步驟208上,將一個(gè)誤識字符所有搜索詞的權(quán)值互相比較,基于比較結(jié)果給該誤識字符選出一個(gè)最佳的候選字符。在比較時(shí)。如果出現(xiàn)權(quán)值相同的兩個(gè)詞語,而且這個(gè)相同的權(quán)值就是最大權(quán)值,那么需要從分別包含在兩個(gè)詞語中的兩個(gè)候選字符中選取最適合的一個(gè)作為識別結(jié)果,下面通過實(shí)際例子來說明選取方法。
例如,一個(gè)字符串的圖像數(shù)據(jù)是“那樣成為……”。對這個(gè)字符串進(jìn)行初始識別得到的結(jié)果是,“成”字有兩個(gè)候選字符“式”和“成”。而在后處理過程中,“樣式”和“成為”兩個(gè)詞最后求出的權(quán)值相同。在這種情況下,解決步驟1,首先假定“樣”是正確識別的字,如果“樣”和它前面的字組成一個(gè)詞語,例如“那樣”,就把“樣式”排除掉,也就是排除掉了候選字“式”。這時(shí)選取“成為”,也就是選取了候選字“成”。步驟2,如果“樣”和前面的字不成詞,則假定“為”是正確識別的字,判斷“為”是否和它后面的字成為詞語,如果成詞,則排除掉“成為”,選取“樣式”,也就是選取了候選字“式”。步驟3,如果“樣”和“為”都和前面或者后面那個(gè)字不能成為詞語,就要看“樣”和“為”中哪一個(gè)的相似度好,就選擇由哪個(gè)字組成的詞語。例如“樣”的相似度是2,“為”的相似度是0,因?yàn)檫@里相似度越小越好,所以就選擇“成為”,也就是選取了候選字“成”。步驟4,如果“樣”和“為”相似度一樣,則判斷“式”和“成”這兩個(gè)候選字符中哪一個(gè)的相似度好,就選擇哪個(gè)字符。
現(xiàn)在以包括兩個(gè)候選字符W1和W2的候選字符列表W為例,說明包含其中一個(gè)候選字符的詞語A的相似度D的計(jì)算過程??梢詮腛CR識別單元122的識別結(jié)果中得到候選字符W1和W2的相似度d1和d2。例如,“子”的d1=3,“于”的d2=2。假設(shè)候選字符W1和前面相鄰的字符組成詞語A,例如“樣子”,“樣”的相似度也從識別結(jié)果中得到,是d1’=0,“子”的相似度是d1=3,所以D=d1’+d1=0+3=3。
下面結(jié)合圖4的具體情況來說明利用P函數(shù)計(jì)算權(quán)值的實(shí)際過程。
如圖所示,在這段詞語中發(fā)現(xiàn)誤識別的字符為圓形內(nèi)的字符“入”和“民”,其中每一個(gè)誤識字符的各個(gè)候選字符的相似度和候選字符列表在初始識別時(shí)已經(jīng)得到,所得到的結(jié)果如圖4所示?!叭搿钡暮蜻x字列表中有兩個(gè)候選字,W1是“入”,d1=2,W2是“人”,d2=2?!懊瘛钡暮蜻x字列表中有兩個(gè)候選字,W1是“民”,d1=0,W2是“良”,d2=2。
在這個(gè)實(shí)施例中,相似度的數(shù)值越小這個(gè)候選字的正確性越高。在此,為了簡化計(jì)算,假設(shè)權(quán)值表達(dá)式中的系數(shù)b=1。先計(jì)算“入”的權(quán)值,由于沒有找到“入”和“民”“良”“華”形成的詞語,所以“入”的權(quán)值是P入=a0×0-2+0=-2。
再計(jì)算“人”的權(quán)值,從已經(jīng)準(zhǔn)備好的文本數(shù)據(jù)文檔或資料庫中找到了“人民”這個(gè)詞語,然后根據(jù)公式算出P人=a2×2-(2+0)+f,詞頻是量詞,這里f=200,所以P人=4a+198。又因?yàn)闄?quán)值公式中的a大于0,所以4a+198大于-2,因而選擇“人”作為識別結(jié)果。
這里,搜索詞這個(gè)術(shù)語并不局限于字、詞、句等的概念。
總而言之,按照本實(shí)施例的字符識別后處理方法形成用于每個(gè)誤識字符的多個(gè)搜索詞,在已被轉(zhuǎn)換成文本數(shù)據(jù)的多個(gè)文檔中或在根據(jù)經(jīng)驗(yàn)形成的文本數(shù)據(jù)資料庫中進(jìn)行搜索,以便在候選字符中找出正確字符。按照本實(shí)施例的后處理方法可以真實(shí)地反映原始樣張中的字形,對誤識字符的糾正達(dá)到了自動化。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種字符識別的后處理方法,包括以下步驟識別文檔中的字符,并獲取文檔中字符的候選字符及候選字符的相似度;將候選字符相似度與預(yù)定閾值相比較確定被誤識的字符;對于誤識字符的候選字符,形成至少包含所述候選字符的搜索詞,用所述搜索詞在已知的文本數(shù)據(jù)庫中搜索,從而獲得搜索詞的至少一種測量值;用所獲得的測量值來計(jì)算誤識字符搜索詞的權(quán)值,比較誤識字符所有搜索詞的權(quán)值從而確定用來糾正所述誤識字符的正確字符。
2.如權(quán)利要求1所述的方法,其特征在于形成至少包含所述候選字符的搜索詞進(jìn)一步包括用所述誤識字符的一個(gè)候選字符取代其位置,與所述誤識字符的前后字符組成搜索詞。
3.如權(quán)利要求2所述的方法,其特征在于形成至少包含所述候選字符的搜索詞進(jìn)一步包括如果在已知的文本數(shù)據(jù)庫中搜索到了所述搜索詞,則在搜索詞上增加一個(gè)相鄰字符,加長搜索詞直到獲得在已知文本數(shù)據(jù)庫中可以搜索到的最長的搜索詞。
4.如權(quán)利要求1所述的方法,其特征在于用來計(jì)算權(quán)值的至少一種測量值可以是搜索詞的詞長、詞頻和其中各個(gè)字符的相似度三種測量值中的至少一種。
5.如權(quán)利要求1所述的方法,其特征在于用如下公式計(jì)算搜索詞的權(quán)值Pwi=an2-bD+f,這里Wi表示一個(gè)誤識字符的候選字符,n、f和D分別表示包含Wi的搜索詞的詞長、詞頻和詞語相似度,并且a和b是大于0的系數(shù)。
6.如權(quán)利要求5所述的方法,其特征在于詞語相似度D=d1’+d2’+...+di+...+dn’;這里di表示候選字符Wi的相似度,d’表示所述搜索詞中Wi左右各個(gè)字符的相似度。
7.如權(quán)利要求6所述的方法,其特征在于比較誤識字符所有搜索詞的權(quán)值從而確定用來糾正所述誤識字符的正確字符進(jìn)一步包括如果第一權(quán)值是所有搜索詞的權(quán)值中最大的,就將第一權(quán)值對應(yīng)的候選字符確定為所述誤識字符位置上的正確字符。
8.如權(quán)利要求7所述的方法,其特征在于比較誤識字符所有搜索詞的權(quán)值從而確定用來糾正所述誤識字符的正確字符進(jìn)一步包括如果第一權(quán)值和第二權(quán)值相同而且都是搜索詞的權(quán)值中最大的,那么判斷第一搜索詞中與第一候選字符成詞的字符能否與相鄰的另一個(gè)字符成詞,如果能成詞就選取第二權(quán)值對應(yīng)的第二搜索詞所包含的第二候選字符。
9.如權(quán)利要求8所述的方法,其特征在于如果第一和第二兩個(gè)搜索詞中與第一和第二候選字符成詞的字符都與相鄰的另一個(gè)字符不成詞,就拿與第一候選字符成詞的字符的相似度和與第二候選字符成詞的字符的相似度作比較,選取相似度好的字符所在的搜索詞,也就是選取了這個(gè)搜索詞所包含的候選字符。
10.如權(quán)利要求9所述的方法,其特征在于如果與第一候選字符成詞的字符的相似度和與第二候選字符成詞的字符的相似度相同,就以第一候選字符的相似度和第二候選字符的相似度作比較,選取相似度好的候選字符。
全文摘要
本發(fā)明公開了一種字符識別的后處理方法,對初始識別之后的錯(cuò)誤內(nèi)容進(jìn)行自動糾正處理。首先,識別文檔中的字符,并獲取文檔中字符的候選字符及候選字符的相似度。而后,將候選字符相似度與預(yù)定閾值相比較確定被誤識的字符。對于誤識字符的候選字符,形成至少包含所述候選字符的搜索詞,用所述搜索詞在已知的文本數(shù)據(jù)庫中搜索,從而獲得搜索詞的至少一種測量值。最后,用所獲得的測量值來計(jì)算誤識字符搜索詞的權(quán)值,比較誤識字符所有搜索詞的權(quán)值從而確定用來糾正所述誤識字符的正確字符。本發(fā)明在選取候選字符時(shí)考慮的因素更合理,保證了糾正過程的準(zhǔn)確性,提高了識別率和識別速度。
文檔編號G06K9/68GK1916941SQ200510090878
公開日2007年2月21日 申請日期2005年8月18日 優(yōu)先權(quán)日2005年8月18日
發(fā)明者杜鵬飛, 康凱, 徐劍波 申請人:北大方正集團(tuán)有限公司, 北京北大方正技術(shù)研究院有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
高雄市| 旺苍县| 庄浪县| 宜宾县| 新沂市| 扶余县| 苗栗县| 兴义市| 闽侯县| 荣昌县| 望都县| 雷波县| 泗洪县| 海兴县| 古丈县| 临高县| 罗山县| 葵青区| 兴海县| 淮阳县| 瓦房店市| 彰化县| 上饶县| 江阴市| 哈巴河县| 石屏县| 临夏市| 清水县| 双江| 阳原县| 云和县| 出国| 正安县| 龙岩市| 禹州市| 武义县| 兴海县| 宁远县| 平罗县| 江孜县| 临桂县|