本發(fā)明涉及字符識(shí)別技術(shù)領(lǐng)域,特別是涉及一種字符識(shí)別方法和字符識(shí)別系統(tǒng)。
背景技術(shù):
文字識(shí)別技術(shù)在虛擬現(xiàn)實(shí)、人機(jī)交互、票據(jù)識(shí)別、工業(yè)自動(dòng)化等領(lǐng)域中都有廣泛的應(yīng)用。例如,計(jì)算機(jī)可以通過(guò)分析路邊指示牌,獲取當(dāng)前位置或其他行車信息,幫助無(wú)人駕駛車輛合理規(guī)劃行車路線。
傳統(tǒng)的光學(xué)字符識(shí)別(opticalcharacterrecognition,ocr)技術(shù)主要面向的是質(zhì)量較好的文檔圖像,其假設(shè)輸入的圖像使用了規(guī)范的印刷體、有干凈的背景、且具有較高的分辨率。但是,在自然場(chǎng)景中,由于圖像背景環(huán)境多樣、采圖設(shè)備參差、字體多變、排布豐富等的原因,傳統(tǒng)的ocr技術(shù)識(shí)別效果較差。
具體而言,自然場(chǎng)景的字符識(shí)別所面對(duì)的困難和挑戰(zhàn)主要有:1)文字背景復(fù)雜,自然圖像的文字背景中包含著大量圖案、建筑、樹木等,有些圖像甚至有遮擋、同色的前景背景等會(huì)給識(shí)別,這些都會(huì)給識(shí)別帶來(lái)強(qiáng)烈的干擾;2)文字類型豐富,自然場(chǎng)景的文字可能會(huì)出現(xiàn)筆體不連續(xù),字體空心、扭曲、顏色過(guò)渡等展示形式;3)分布不確定,自然場(chǎng)景下的文字分布間距、空間位置等都帶有不確定性;4)字符分割困難,自然場(chǎng)景的文字中可能包含筆體粘連、字符重疊等情況,會(huì)給字符分隔帶來(lái)很大的問(wèn)題;5)噪音嚴(yán)重,自然場(chǎng)景下圖像會(huì)因?yàn)楣庹铡⒔嵌?、抖?dòng)等原因,造成成像效果較差的現(xiàn)象,這些都會(huì)給ocr識(shí)別過(guò)程帶來(lái)巨大困難。
那么針對(duì)自然場(chǎng)景的圖像的字符識(shí)別問(wèn)題,現(xiàn)有技術(shù)提出了流程如圖1所示的一種基于神經(jīng)網(wǎng)絡(luò)的自然場(chǎng)景的文字識(shí)別算法。該流程主要包括:針對(duì)輸入的自然場(chǎng)景的原始圖像進(jìn)行預(yù)處理操作,然后對(duì)與處理操作后的圖像進(jìn)行版面分析,接著采用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)對(duì)版面分析后的像素矩陣進(jìn)行文字檢測(cè),接著,采用rnns對(duì)檢測(cè)的文字進(jìn)行識(shí)別,得到字符序列輸出結(jié)果。
其中,考慮到循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,rnns)在長(zhǎng)期記憶中的梯度爆炸或消失問(wèn)題,該算法中可以將其換為時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(longshort-termmemory,lstm)算法。其中,在lstm算法中有:輸入門(inputgate)、輸出門(outputgate)、遺忘門(forgetgate)三個(gè)門。其中的forgetgate用來(lái)控制歷史狀態(tài)信息(這里為)對(duì)當(dāng)前狀態(tài)影響的程度,雖然長(zhǎng)期記憶對(duì)當(dāng)前影響不是按梯度消失或增長(zhǎng),但是,長(zhǎng)期記憶的影響力仍然是以[0,1]之間的若干個(gè)值累乘進(jìn)行衰減的。因此,除非這些值取值全為“1”,才能保證長(zhǎng)期記憶對(duì)當(dāng)前狀態(tài)有100%的影響力。其中,lstm隱層的計(jì)算公式如下:
輸入門:it=sigm(w1xt+w2ht-1);
輸入值:it′=tanh(w3xt+w4ht-1);
遺忘門:ft=sigm(w5xt+w6ht-1);
輸出門:ot=sigm(w7xt+w8ht-1);
狀態(tài)門:mt=mt-1eft+iteit′;
隱層節(jié)點(diǎn)輸出值:ht=mteot。
結(jié)合lstm算法的隱層的計(jì)算公式,在圖2中給出了lstm隱層的示意圖。其中,σi,i=1,2,3表示公式中的sigm函數(shù),對(duì)應(yīng)不同的權(quán)重w參數(shù)。
但是,這種神經(jīng)網(wǎng)絡(luò)的自然場(chǎng)景的文字識(shí)別算法中的每個(gè)隱層中都需要訓(xùn)練一套8個(gè)權(quán)重參數(shù),計(jì)算量非常大,而且不能保證長(zhǎng)程記憶中信息完美地傳遞給當(dāng)前狀態(tài),造成字符識(shí)別效果不佳。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種字符識(shí)別方法和字符識(shí)別系統(tǒng),以解決現(xiàn)有技術(shù)中的字符識(shí)別算法所存在的計(jì)算量大、不能保證長(zhǎng)程記憶中信息完美地傳遞給當(dāng)前狀態(tài),造成字符識(shí)別效果不佳的問(wèn)題。
為了解決上述問(wèn)題,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明公開(kāi)了一種字符識(shí)別方法,包括:
采集自然場(chǎng)景的原始圖像;
對(duì)所述原始圖像進(jìn)行預(yù)處理;
對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析,得到多個(gè)像素矩陣;
采用cnn對(duì)所述多個(gè)像素矩陣分別進(jìn)行特征提取,得到多個(gè)特征圖;
采用加入attentionmodel的lstm對(duì)所述多個(gè)特征圖分別進(jìn)行字符識(shí)別,得到字符序列;
其中,所述加入attentionmodel的lstm中的遺忘門由所述attentionmodel替換。
根據(jù)本發(fā)明的另一方面,本發(fā)明還公開(kāi)了一種字符識(shí)別系統(tǒng),包括:
采集模塊,用于采集自然場(chǎng)景的原始圖像;
預(yù)處理模塊,用于對(duì)所述原始圖像進(jìn)行預(yù)處理;
版面分析模塊,用于對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析,得到多個(gè)像素矩陣;
特征提取模塊,用于采用cnn對(duì)所述多個(gè)像素矩陣分別進(jìn)行特征提取,得到多個(gè)特征圖;
字符識(shí)別模塊,用于采用加入attentionmodel的lstm對(duì)所述多個(gè)特征圖分別進(jìn)行字符識(shí)別,得到字符序列;
其中,所述加入attentionmodel的lstm中的遺忘門由所述attentionmodel替換。
與現(xiàn)有技術(shù)相比,本發(fā)明包括以下優(yōu)點(diǎn):
本發(fā)明利用卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取中的優(yōu)勢(shì),提取出圖像中包含待識(shí)別文字信息的特征序列,即特征圖,降低了傳統(tǒng)ocr算法圖像預(yù)處理的復(fù)雜度和工作量;然后利用加入attentionmodel的lstm算法,將cnn算法提取的特征序列識(shí)別為對(duì)應(yīng)字符序列,從而得到需求的文字信息。通過(guò)將attentionmodel取代lstm算法中的forgetgate構(gòu)成的全聯(lián)通網(wǎng)絡(luò),能夠減少運(yùn)算參數(shù),同時(shí)實(shí)現(xiàn)不同上下文內(nèi)容對(duì)當(dāng)前字符識(shí)別不同影響力的控制,并能夠?qū)㈤L(zhǎng)程記憶中信息完美地傳遞給當(dāng)前字符,提升了字符識(shí)別準(zhǔn)確度。
附圖說(shuō)明
圖1現(xiàn)有技術(shù)中的一種基于神經(jīng)網(wǎng)絡(luò)的自然場(chǎng)景的文字識(shí)別算法的流程圖;
圖2是現(xiàn)有技術(shù)中的一種lstm隱層的示意圖;
圖3是本發(fā)明的一種字符識(shí)別方法實(shí)施例的步驟流程圖;
圖4是本發(fā)明的另一種符識(shí)別方法實(shí)施例的步驟流程圖;
圖5是本發(fā)明的一種加入attentionmodel的lstm算法的示意圖;
圖6是本發(fā)明的一種字符識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
參照?qǐng)D3,示出了本發(fā)明的一種字符識(shí)別方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
步驟301,采集自然場(chǎng)景的原始圖像;
其中,可以采集需要進(jìn)行字符識(shí)別的自然場(chǎng)景的原始圖像,該原始圖像為由圖像的像素點(diǎn)構(gòu)成的一個(gè)像素矩陣。
步驟302,對(duì)所述原始圖像進(jìn)行預(yù)處理;
其中,為了減少彩圖帶來(lái)的無(wú)意義的運(yùn)算量,并增加圖像的對(duì)比度,使圖像更清晰,可以對(duì)該原始圖像進(jìn)行預(yù)處理操作。
步驟303,對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析,得到多個(gè)像素矩陣;
其中,由于一副原始圖像可能包含多個(gè)包含文字的區(qū)域,這些區(qū)域并不完全相同,因此,可以對(duì)預(yù)處理后的原始圖像進(jìn)行ocr版面分析,來(lái)得到多個(gè)像素矩陣。其中,版面分析是ocr系統(tǒng)的一個(gè)重要組成部分,它可以將文檔圖像按一定的特征分割成各個(gè)部分,并判斷各部分是文本、標(biāo)題、圖像、圖形或表格等。ocr版面分析主要包括:版面分割和版面理解兩部分。
另外,本發(fā)明實(shí)施例可以利用cnn的特征提取優(yōu)勢(shì)和lstm的序列識(shí)別優(yōu)勢(shì),同時(shí)結(jié)合編碼器解碼器結(jié)構(gòu)(encoder-decoderarchitecture)來(lái)實(shí)現(xiàn)對(duì)自然場(chǎng)景的圖像的文字識(shí)別。encoder-decoderarchitecture是一種常見(jiàn)的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)模式。其基本思想是:首先通過(guò)某種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將輸入轉(zhuǎn)化為一個(gè)或一組向量表示,這部分被稱為編碼器(encoder),然后再使用另一組神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)向量表示的數(shù)據(jù)進(jìn)行分類、分割等最終操作,這部分結(jié)構(gòu)被稱為解碼器(decoder)。文字識(shí)別可以被認(rèn)為是一種特殊的翻譯過(guò)程:圖像數(shù)據(jù)通過(guò)算法被“翻譯”為字符序列。
具體如下:
步驟304,采用cnn對(duì)所述多個(gè)像素矩陣分別進(jìn)行特征提取,得到多個(gè)特征圖;
其中,采用cnn(作為encoder-decoderarchitecture中的encoder)對(duì)這些像素矩陣分別進(jìn)行特征提取。其中,由于直接在像素級(jí)別進(jìn)行文字識(shí)別往往難以得到理想的效果,因此,本發(fā)明實(shí)施例將原始圖像轉(zhuǎn)換為像素矩陣的形式進(jìn)行上述步驟處理,以及特征提取處理。這樣,通過(guò)從圖像的像素矩陣中提取特征部分,可以提升特征提取的準(zhǔn)確度。其中,每個(gè)像素矩陣都對(duì)應(yīng)一個(gè)特征圖。
這里提取的特征由cnn機(jī)器自動(dòng)學(xué)習(xí)的特征,在另外一個(gè)實(shí)施例中,在進(jìn)行特征提取時(shí),也可以提取人工定義的特征(包括但不限于邊緣特征、筆畫特征、結(jié)構(gòu)特征等)。
步驟305,采用加入attentionmodel的lstm對(duì)所述多個(gè)特征圖分別進(jìn)行字符識(shí)別,得到字符序列。
其中,所述加入attentionmodel的lstm中的遺忘門由所述attentionmodel替換。
其中,可以采用加入attentionmodel的lstm(作為encoder-decoderarchitecture中的decoder)對(duì)這多個(gè)特征圖分別進(jìn)行字符分類、分割的字符識(shí)別,從而得到字符序列。
借助于本發(fā)明上述實(shí)施例的技術(shù)方案,本發(fā)明利用卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取中的優(yōu)勢(shì),提取出圖像中包含待識(shí)別文字信息的特征序列,即特征圖,降低了傳統(tǒng)ocr算法圖像預(yù)處理的復(fù)雜度和工作量;然后利用加入attentionmodel的lstm算法,將cnn算法提取的特征序列識(shí)別為對(duì)應(yīng)字符序列,從而得到需求的文字信息。通過(guò)將attentionmodel取代lstm算法中的forgetgate構(gòu)成的全聯(lián)通網(wǎng)絡(luò),能夠減少運(yùn)算參數(shù),同時(shí)實(shí)現(xiàn)不同上下文內(nèi)容對(duì)當(dāng)前字符識(shí)別不同影響力的控制,并能夠?qū)㈤L(zhǎng)程記憶中信息完美地傳遞給當(dāng)前字符,提升了字符識(shí)別準(zhǔn)確度。
參照?qǐng)D4,在上述實(shí)施例的基礎(chǔ)上,示出了本發(fā)明的另一種字符識(shí)別方法實(shí)施例的步驟流程圖。
步驟一:輸入待識(shí)別的包含文字信息的原始圖像;
步驟二:對(duì)原始圖像進(jìn)行預(yù)處理;
其中,預(yù)處理階段主要對(duì)圖像進(jìn)行灰度化、二值化、圖像增強(qiáng)、縮放、旋轉(zhuǎn)等操作,從而減少彩圖帶來(lái)的無(wú)意義的運(yùn)算量,增加對(duì)比度,讓圖像更加清晰。
步驟三:對(duì)預(yù)處理后的圖像進(jìn)行ocr版面分析;
具體而言,可以對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析,確定所述原始圖像中包含字符的多個(gè)圖像區(qū)域;生成針對(duì)所述多個(gè)圖像區(qū)域的多個(gè)像素矩陣。
這樣,通過(guò)ocr版面分析,就可以確定原始圖像(一個(gè)像素矩陣)中包含文字的各個(gè)圖像區(qū)域,并針對(duì)各個(gè)圖像區(qū)域生成對(duì)應(yīng)的多個(gè)像素矩陣(對(duì)應(yīng)于包含字符的區(qū)域)。
步驟四:利用卷積神經(jīng)網(wǎng)絡(luò)從多個(gè)像素矩陣中分別提取特征圖;
步驟五:利用加入attentionmodel的lstm對(duì)步驟四中輸出的特征圖進(jìn)行字符識(shí)別,得到字符序列;
具體而言,可以采用加入attentionmodel的lstm對(duì)每個(gè)特征圖中的當(dāng)前特征分別進(jìn)行字符識(shí)別,確定(本地機(jī)器學(xué)習(xí)過(guò)的字符中)與所述當(dāng)前特征相似的字符,得到字符序列。
步驟六:在條件具備的情況下,可以使用外加的語(yǔ)言信息對(duì)識(shí)別結(jié)果進(jìn)行篩選。詞典是一個(gè)可選的信息來(lái)源,有時(shí)上下文、字符排布等都可以作為最終確定字符的依據(jù),得分最高的候選結(jié)果(即字符)最終被選作輸出。
具體而言,如果上述確定的字符中,存在與當(dāng)前特征相似的多個(gè)字符(例如,喬、嬌、大、齊),那么可以確定所述特征圖中所述當(dāng)前特征的上一個(gè)特征對(duì)應(yīng)的上一個(gè)字符(例如,整);并獲取所述上一個(gè)字符的上下文字符(例如可以依據(jù)該詞典中的信息來(lái)源來(lái)獲取該字符“整”的上下文字符,例如整齊的“齊”、平整的“平”等);接著,確定所述多個(gè)字符(即,喬、嬌、大、齊)中與所述上下文字符(即,齊、平)相匹配的目標(biāo)字符(這里為齊);最后,就可以將所述目標(biāo)字符(齊)確定為與所述當(dāng)前特征相似的字符。
步驟七:輸出步驟六中識(shí)別出的圖像中的字符(即,文字)信息。
由此可見(jiàn),本發(fā)明實(shí)施例能夠?qū)⒆匀粓?chǎng)景中圖像的文字識(shí)別問(wèn)題,轉(zhuǎn)化為提取特征圖、特征圖序列解碼及字符匹配的問(wèn)題。本發(fā)明重點(diǎn)對(duì)自然場(chǎng)景下的神經(jīng)網(wǎng)絡(luò)ocr算法進(jìn)行了修改,在解碼特征序列的lstm算法中加入attentionmodel來(lái)取代forgetgate的全聯(lián)通網(wǎng)絡(luò)。
其中,圖5示出了本發(fā)明實(shí)施例的加入attentionmodel的lstm算法,簡(jiǎn)寫為a-lstm算法。
如圖5所示,本發(fā)明利用attention機(jī)制,用兩張權(quán)重概率表c和s來(lái)記錄歷史信息對(duì)當(dāng)前狀態(tài)的影響,這樣就保留了長(zhǎng)程記憶對(duì)當(dāng)前狀態(tài)的影響,而且只需要訓(xùn)練一份c權(quán)重表即可。其中,該算法采用如下公式實(shí)現(xiàn):
it=f(ct,h1·g2(y1),h2·g2(y2),...,ht-1·g2(yt-1))
ht=tanh(it+st×ht′)
其中,權(quán)重概率表c記錄了encode階段,cnn算法編碼的每個(gè)字符向量間的相互影響關(guān)系的權(quán)重矩陣;
ct為當(dāng)前識(shí)別的第t個(gè)字符對(duì)應(yīng)的權(quán)重列向量,該權(quán)重列向量向量記錄了待識(shí)別圖像中除當(dāng)前第t個(gè)字符之外的其他各待識(shí)別字符對(duì)當(dāng)前字符的影響值;
s權(quán)重概率表也是一個(gè)矩陣,記錄的是decode階段,已解碼(識(shí)別)字符對(duì)當(dāng)前待識(shí)別字符影響的權(quán)重;
st為前t-1(t>1)個(gè)已識(shí)別字符對(duì)當(dāng)前待識(shí)別字符的影響值;
s是由st構(gòu)成的上三角矩陣;
g1和g2為將向量轉(zhuǎn)化為數(shù)值的函數(shù);
xi為cnn提取的第i個(gè)序列特征;
tx為當(dāng)前圖像中待識(shí)別的字符數(shù);
ct是由c中第t個(gè)向量中各權(quán)值
yi為當(dāng)前預(yù)測(cè)到的第i個(gè)字符;
f函數(shù)為利用歷史編碼向量預(yù)測(cè)字符的概率函數(shù);
ht′是由hi,i=1,...,(t-1)構(gòu)成的向量,。
it為歷史識(shí)別信息(即已識(shí)別字符)以及全量特征信息(即,待識(shí)別圖像中除當(dāng)前第t個(gè)字符之外的其他各待識(shí)別字符)對(duì)當(dāng)前待識(shí)別的字符的影響值,由f函數(shù)計(jì)算得到;
ht為由tanh函數(shù)將it和歷史識(shí)別信息量綜合,得到當(dāng)前的識(shí)別結(jié)果。
同樣的,圖5所示的xt-1、xt、xt+1與xi意義類似,都是序列特征,只是第幾個(gè)序列特征而已。
同理,ct-1和ct+1與ct的意義同樣類似;ht-1和ht+1與ht的意義同樣類似;
yt-1、yt、yt+1與yi的意義同樣類似;st-1和st+1與st的意義同樣類似,在此不再贅述。
由此可見(jiàn),本發(fā)明實(shí)施例的a-lstm算法能夠在對(duì)特征圖中的特征進(jìn)行字符識(shí)別時(shí),結(jié)合特征圖中的全量特征向量和已識(shí)別到的字符對(duì)當(dāng)前待識(shí)別的字符的影響程度(即影響值)來(lái)對(duì)當(dāng)前字符進(jìn)行識(shí)別判斷,從而確定當(dāng)前字符,保證了長(zhǎng)程記憶中信息完美地傳遞給當(dāng)前狀態(tài),提升了字符識(shí)別效果。
下面結(jié)合一具體實(shí)例來(lái)對(duì)本發(fā)明的上述技術(shù)方案進(jìn)行詳細(xì)闡述。
這里,本發(fā)明實(shí)施例收集了5萬(wàn)余張不同角度、不同光照、不同背景環(huán)境下拍攝的包含文字的圖像進(jìn)行訓(xùn)練和實(shí)驗(yàn)。本發(fā)明技術(shù)方案的主要過(guò)程如下:
(1)將收集的5萬(wàn)余張圖像進(jìn)行標(biāo)注,取其中5萬(wàn)張進(jìn)行訓(xùn)練實(shí)驗(yàn),剩余的5000余張作為測(cè)試集;
(2)對(duì)圖片進(jìn)行預(yù)處理和版面分析,確定圖片中包含字符的圖像范圍,對(duì)各個(gè)圖像區(qū)域分別進(jìn)行縮放,使得保持原始圖像寬高比的情況下,圖像高度固定為64;
(3)用cnn網(wǎng)絡(luò)對(duì)圖像的特征進(jìn)行提取,網(wǎng)絡(luò)共6組,前五組均由一個(gè)卷積層、一個(gè)激活函數(shù)層、一個(gè)池化層三層組成,最后一組由一個(gè)卷積層和一個(gè)激活函數(shù)層構(gòu)成。最終每個(gè)圖像區(qū)域輸出一張?zhí)卣鲌D,為保證圖片信息不丟失,設(shè)置窗口滑動(dòng)步長(zhǎng)均為1。激活層使用softplus函數(shù)作為激活函數(shù);
(4)用a-lstm神經(jīng)網(wǎng)絡(luò)作為解碼器,對(duì)cnn提取的特征序列進(jìn)行解碼,轉(zhuǎn)化為字符。具體公式如上述圖5所用的公式,其中f使用余弦距離函數(shù)。g1和g2均使用一個(gè)權(quán)重向量,進(jìn)行向量乘法,獲得向量的加權(quán)值后,用logisticsigmoid函數(shù),得到其在[0,1]范圍的取值。
(5)使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練中常用的downpoursgd算法訓(xùn)練前面的字符識(shí)別模型,用dropout方法來(lái)預(yù)防過(guò)擬合,訓(xùn)練得到模型;
(6)將訓(xùn)練的模型在測(cè)試集上進(jìn)行測(cè)試,具體識(shí)別流程如上述各個(gè)實(shí)施例所描述的識(shí)別流程,在此不再贅述。
由此可見(jiàn),本發(fā)明實(shí)施例能夠借助于加入了attentionmodel的lstm算法進(jìn)行字符識(shí)別,能夠減少運(yùn)算參數(shù),同時(shí)實(shí)現(xiàn)了不同上下文內(nèi)容對(duì)當(dāng)前字符識(shí)別不同影響力的控制,并達(dá)到了長(zhǎng)程記憶和遺忘的類似效果。在lstm算法中加入attentionmodel來(lái)取代forgetgate的全聯(lián)通網(wǎng)絡(luò)的思路是現(xiàn)有算法中不曾出現(xiàn)的,同時(shí)將這種算法結(jié)合cnn卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然場(chǎng)景的字符識(shí)別中,也是此前ocr領(lǐng)域不曾運(yùn)用的,都是本發(fā)明實(shí)施例的核心技術(shù)。
需要說(shuō)明的是,對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
與上述本發(fā)明實(shí)施例所提供的方法相對(duì)應(yīng),參照?qǐng)D6,示出了本發(fā)明一種字符識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
采集模塊61,用于采集自然場(chǎng)景的原始圖像;
預(yù)處理模塊62,用于對(duì)所述原始圖像進(jìn)行預(yù)處理;
版面分析模塊63,用于對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析,得到多個(gè)像素矩陣;
特征提取模塊64,用于采用cnn對(duì)所述多個(gè)像素矩陣分別進(jìn)行特征提取,得到多個(gè)特征圖;
字符識(shí)別模塊65,用于采用加入attentionmodel的lstm對(duì)所述多個(gè)特征圖分別進(jìn)行字符識(shí)別,得到字符序列;
其中,所述加入attentionmodel的lstm中的遺忘門由所述attentionmodel替換。
可選地,所述版面分析模塊63包括:
版面分析子模塊,用于對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析,確定所述原始圖像中包含字符的多個(gè)圖像區(qū)域;
生成子模塊,用于生成針對(duì)所述多個(gè)圖像區(qū)域的多個(gè)像素矩陣。
可選地,所述字符識(shí)別模塊65包括:
字符識(shí)別子模塊,用于采用加入attentionmodel的lstm對(duì)每個(gè)特征圖中的當(dāng)前特征分別進(jìn)行字符識(shí)別,確定與所述當(dāng)前特征相似的字符,得到字符序列。
可選地,所述系統(tǒng)還包括:
第一確定模塊,用于若存在與當(dāng)前特征相似的多個(gè)字符,則確定所述特征圖中所述當(dāng)前特征的上一個(gè)特征對(duì)應(yīng)的上一個(gè)字符;
獲取模塊,用于獲取所述上一個(gè)字符的上下文字符;
第二確定模塊,用于確定所述多個(gè)字符中與所述上下文字符相匹配的目標(biāo)字符;
第三確定模塊,用于將所述目標(biāo)字符確定為與所述當(dāng)前特征相似的字符。
對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者終端設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者終端設(shè)備中還存在另外的相同要素。
以上對(duì)本發(fā)明所提供的一種字符識(shí)別方法和一種字符識(shí)別系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。