字符識(shí)別方法和字符識(shí)別系統(tǒng)與流程

文檔序號(hào)：11708071閱讀：882來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及字符識(shí)別技術(shù)領(lǐng)域，特別是涉及一種字符識(shí)別方法和字符識(shí)別系統(tǒng)。

背景技術(shù)：

文字識(shí)別技術(shù)在虛擬現(xiàn)實(shí)、人機(jī)交互、票據(jù)識(shí)別、工業(yè)自動(dòng)化等領(lǐng)域中都有廣泛的應(yīng)用。例如，計(jì)算機(jī)可以通過(guò)分析路邊指示牌，獲取當(dāng)前位置或其他行車信息，幫助無(wú)人駕駛車輛合理規(guī)劃行車路線。

傳統(tǒng)的光學(xué)字符識(shí)別(opticalcharacterrecognition，ocr)技術(shù)主要面向的是質(zhì)量較好的文檔圖像，其假設(shè)輸入的圖像使用了規(guī)范的印刷體、有干凈的背景、且具有較高的分辨率。但是，在自然場(chǎng)景中，由于圖像背景環(huán)境多樣、采圖設(shè)備參差、字體多變、排布豐富等的原因，傳統(tǒng)的ocr技術(shù)識(shí)別效果較差。

具體而言，自然場(chǎng)景的字符識(shí)別所面對(duì)的困難和挑戰(zhàn)主要有：1)文字背景復(fù)雜，自然圖像的文字背景中包含著大量圖案、建筑、樹木等，有些圖像甚至有遮擋、同色的前景背景等會(huì)給識(shí)別，這些都會(huì)給識(shí)別帶來(lái)強(qiáng)烈的干擾；2)文字類型豐富，自然場(chǎng)景的文字可能會(huì)出現(xiàn)筆體不連續(xù)，字體空心、扭曲、顏色過(guò)渡等展示形式；3)分布不確定，自然場(chǎng)景下的文字分布間距、空間位置等都帶有不確定性；4)字符分割困難，自然場(chǎng)景的文字中可能包含筆體粘連、字符重疊等情況，會(huì)給字符分隔帶來(lái)很大的問(wèn)題；5)噪音嚴(yán)重，自然場(chǎng)景下圖像會(huì)因?yàn)楣庹铡⒔嵌?、抖?dòng)等原因，造成成像效果較差的現(xiàn)象，這些都會(huì)給ocr識(shí)別過(guò)程帶來(lái)巨大困難。

那么針對(duì)自然場(chǎng)景的圖像的字符識(shí)別問(wèn)題，現(xiàn)有技術(shù)提出了流程如圖1所示的一種基于神經(jīng)網(wǎng)絡(luò)的自然場(chǎng)景的文字識(shí)別算法。該流程主要包括：針對(duì)輸入的自然場(chǎng)景的原始圖像進(jìn)行預(yù)處理操作，然后對(duì)與處理操作后的圖像進(jìn)行版面分析，接著采用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)對(duì)版面分析后的像素矩陣進(jìn)行文字檢測(cè)，接著，采用rnns對(duì)檢測(cè)的文字進(jìn)行識(shí)別，得到字符序列輸出結(jié)果。

其中，考慮到循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks，rnns)在長(zhǎng)期記憶中的梯度爆炸或消失問(wèn)題，該算法中可以將其換為時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(longshort-termmemory，lstm)算法。其中，在lstm算法中有：輸入門(inputgate)、輸出門(outputgate)、遺忘門(forgetgate)三個(gè)門。其中的forgetgate用來(lái)控制歷史狀態(tài)信息(這里為)對(duì)當(dāng)前狀態(tài)影響的程度，雖然長(zhǎng)期記憶對(duì)當(dāng)前影響不是按梯度消失或增長(zhǎng)，但是，長(zhǎng)期記憶的影響力仍然是以[0,1]之間的若干個(gè)值累乘進(jìn)行衰減的。因此，除非這些值取值全為“1”，才能保證長(zhǎng)期記憶對(duì)當(dāng)前狀態(tài)有100％的影響力。其中，lstm隱層的計(jì)算公式如下：

輸入門：it＝sigm(w1xt+w2ht-1)；

輸入值：it′＝tanh(w3xt+w4ht-1)；

遺忘門：ft＝sigm(w5xt+w6ht-1)；

輸出門：ot＝sigm(w7xt+w8ht-1)；

狀態(tài)門：mt＝mt-1eft+iteit′；

隱層節(jié)點(diǎn)輸出值：ht＝mteot。

結(jié)合lstm算法的隱層的計(jì)算公式，在圖2中給出了lstm隱層的示意圖。其中，σi,i＝1,2,3表示公式中的sigm函數(shù)，對(duì)應(yīng)不同的權(quán)重w參數(shù)。

但是，這種神經(jīng)網(wǎng)絡(luò)的自然場(chǎng)景的文字識(shí)別算法中的每個(gè)隱層中都需要訓(xùn)練一套8個(gè)權(quán)重參數(shù)，計(jì)算量非常大，而且不能保證長(zhǎng)程記憶中信息完美地傳遞給當(dāng)前狀態(tài)，造成字符識(shí)別效果不佳。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供了一種字符識(shí)別方法和字符識(shí)別系統(tǒng)，以解決現(xiàn)有技術(shù)中的字符識(shí)別算法所存在的計(jì)算量大、不能保證長(zhǎng)程記憶中信息完美地傳遞給當(dāng)前狀態(tài)，造成字符識(shí)別效果不佳的問(wèn)題。

為了解決上述問(wèn)題，根據(jù)本發(fā)明的一個(gè)方面，本發(fā)明公開(kāi)了一種字符識(shí)別方法，包括：

采集自然場(chǎng)景的原始圖像；

對(duì)所述原始圖像進(jìn)行預(yù)處理；

對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析，得到多個(gè)像素矩陣；

采用cnn對(duì)所述多個(gè)像素矩陣分別進(jìn)行特征提取，得到多個(gè)特征圖；

采用加入attentionmodel的lstm對(duì)所述多個(gè)特征圖分別進(jìn)行字符識(shí)別，得到字符序列；

其中，所述加入attentionmodel的lstm中的遺忘門由所述attentionmodel替換。

根據(jù)本發(fā)明的另一方面，本發(fā)明還公開(kāi)了一種字符識(shí)別系統(tǒng)，包括：

采集模塊，用于采集自然場(chǎng)景的原始圖像；

預(yù)處理模塊，用于對(duì)所述原始圖像進(jìn)行預(yù)處理；

版面分析模塊，用于對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析，得到多個(gè)像素矩陣；

特征提取模塊，用于采用cnn對(duì)所述多個(gè)像素矩陣分別進(jìn)行特征提取，得到多個(gè)特征圖；

字符識(shí)別模塊，用于采用加入attentionmodel的lstm對(duì)所述多個(gè)特征圖分別進(jìn)行字符識(shí)別，得到字符序列；

其中，所述加入attentionmodel的lstm中的遺忘門由所述attentionmodel替換。

與現(xiàn)有技術(shù)相比，本發(fā)明包括以下優(yōu)點(diǎn)：

本發(fā)明利用卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取中的優(yōu)勢(shì)，提取出圖像中包含待識(shí)別文字信息的特征序列，即特征圖，降低了傳統(tǒng)ocr算法圖像預(yù)處理的復(fù)雜度和工作量；然后利用加入attentionmodel的lstm算法，將cnn算法提取的特征序列識(shí)別為對(duì)應(yīng)字符序列，從而得到需求的文字信息。通過(guò)將attentionmodel取代lstm算法中的forgetgate構(gòu)成的全聯(lián)通網(wǎng)絡(luò)，能夠減少運(yùn)算參數(shù)，同時(shí)實(shí)現(xiàn)不同上下文內(nèi)容對(duì)當(dāng)前字符識(shí)別不同影響力的控制，并能夠?qū)㈤L(zhǎng)程記憶中信息完美地傳遞給當(dāng)前字符，提升了字符識(shí)別準(zhǔn)確度。

附圖說(shuō)明

圖1現(xiàn)有技術(shù)中的一種基于神經(jīng)網(wǎng)絡(luò)的自然場(chǎng)景的文字識(shí)別算法的流程圖；

圖2是現(xiàn)有技術(shù)中的一種lstm隱層的示意圖；

圖3是本發(fā)明的一種字符識(shí)別方法實(shí)施例的步驟流程圖；

圖4是本發(fā)明的另一種符識(shí)別方法實(shí)施例的步驟流程圖；

圖5是本發(fā)明的一種加入attentionmodel的lstm算法的示意圖；

圖6是本發(fā)明的一種字符識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。

具體實(shí)施方式

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。

參照?qǐng)D3，示出了本發(fā)明的一種字符識(shí)別方法實(shí)施例的步驟流程圖，具體可以包括如下步驟：

步驟301，采集自然場(chǎng)景的原始圖像；

其中，可以采集需要進(jìn)行字符識(shí)別的自然場(chǎng)景的原始圖像，該原始圖像為由圖像的像素點(diǎn)構(gòu)成的一個(gè)像素矩陣。

步驟302，對(duì)所述原始圖像進(jìn)行預(yù)處理；

其中，為了減少彩圖帶來(lái)的無(wú)意義的運(yùn)算量，并增加圖像的對(duì)比度，使圖像更清晰，可以對(duì)該原始圖像進(jìn)行預(yù)處理操作。

步驟303，對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析，得到多個(gè)像素矩陣；

其中，由于一副原始圖像可能包含多個(gè)包含文字的區(qū)域，這些區(qū)域并不完全相同，因此，可以對(duì)預(yù)處理后的原始圖像進(jìn)行ocr版面分析，來(lái)得到多個(gè)像素矩陣。其中，版面分析是ocr系統(tǒng)的一個(gè)重要組成部分，它可以將文檔圖像按一定的特征分割成各個(gè)部分，并判斷各部分是文本、標(biāo)題、圖像、圖形或表格等。ocr版面分析主要包括：版面分割和版面理解兩部分。

另外，本發(fā)明實(shí)施例可以利用cnn的特征提取優(yōu)勢(shì)和lstm的序列識(shí)別優(yōu)勢(shì)，同時(shí)結(jié)合編碼器解碼器結(jié)構(gòu)(encoder-decoderarchitecture)來(lái)實(shí)現(xiàn)對(duì)自然場(chǎng)景的圖像的文字識(shí)別。encoder-decoderarchitecture是一種常見(jiàn)的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)模式。其基本思想是：首先通過(guò)某種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將輸入轉(zhuǎn)化為一個(gè)或一組向量表示，這部分被稱為編碼器(encoder)，然后再使用另一組神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)向量表示的數(shù)據(jù)進(jìn)行分類、分割等最終操作，這部分結(jié)構(gòu)被稱為解碼器(decoder)。文字識(shí)別可以被認(rèn)為是一種特殊的翻譯過(guò)程：圖像數(shù)據(jù)通過(guò)算法被“翻譯”為字符序列。

具體如下：

步驟304，采用cnn對(duì)所述多個(gè)像素矩陣分別進(jìn)行特征提取，得到多個(gè)特征圖；

其中，采用cnn(作為encoder-decoderarchitecture中的encoder)對(duì)這些像素矩陣分別進(jìn)行特征提取。其中，由于直接在像素級(jí)別進(jìn)行文字識(shí)別往往難以得到理想的效果，因此，本發(fā)明實(shí)施例將原始圖像轉(zhuǎn)換為像素矩陣的形式進(jìn)行上述步驟處理，以及特征提取處理。這樣，通過(guò)從圖像的像素矩陣中提取特征部分，可以提升特征提取的準(zhǔn)確度。其中，每個(gè)像素矩陣都對(duì)應(yīng)一個(gè)特征圖。

這里提取的特征由cnn機(jī)器自動(dòng)學(xué)習(xí)的特征，在另外一個(gè)實(shí)施例中，在進(jìn)行特征提取時(shí)，也可以提取人工定義的特征(包括但不限于邊緣特征、筆畫特征、結(jié)構(gòu)特征等)。

步驟305，采用加入attentionmodel的lstm對(duì)所述多個(gè)特征圖分別進(jìn)行字符識(shí)別，得到字符序列。

其中，所述加入attentionmodel的lstm中的遺忘門由所述attentionmodel替換。

其中，可以采用加入attentionmodel的lstm(作為encoder-decoderarchitecture中的decoder)對(duì)這多個(gè)特征圖分別進(jìn)行字符分類、分割的字符識(shí)別，從而得到字符序列。

借助于本發(fā)明上述實(shí)施例的技術(shù)方案，本發(fā)明利用卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取中的優(yōu)勢(shì)，提取出圖像中包含待識(shí)別文字信息的特征序列，即特征圖，降低了傳統(tǒng)ocr算法圖像預(yù)處理的復(fù)雜度和工作量；然后利用加入attentionmodel的lstm算法，將cnn算法提取的特征序列識(shí)別為對(duì)應(yīng)字符序列，從而得到需求的文字信息。通過(guò)將attentionmodel取代lstm算法中的forgetgate構(gòu)成的全聯(lián)通網(wǎng)絡(luò)，能夠減少運(yùn)算參數(shù)，同時(shí)實(shí)現(xiàn)不同上下文內(nèi)容對(duì)當(dāng)前字符識(shí)別不同影響力的控制，并能夠?qū)㈤L(zhǎng)程記憶中信息完美地傳遞給當(dāng)前字符，提升了字符識(shí)別準(zhǔn)確度。

參照?qǐng)D4，在上述實(shí)施例的基礎(chǔ)上，示出了本發(fā)明的另一種字符識(shí)別方法實(shí)施例的步驟流程圖。

步驟一：輸入待識(shí)別的包含文字信息的原始圖像；

步驟二：對(duì)原始圖像進(jìn)行預(yù)處理；

其中，預(yù)處理階段主要對(duì)圖像進(jìn)行灰度化、二值化、圖像增強(qiáng)、縮放、旋轉(zhuǎn)等操作，從而減少彩圖帶來(lái)的無(wú)意義的運(yùn)算量，增加對(duì)比度，讓圖像更加清晰。

步驟三：對(duì)預(yù)處理后的圖像進(jìn)行ocr版面分析；

具體而言，可以對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析，確定所述原始圖像中包含字符的多個(gè)圖像區(qū)域；生成針對(duì)所述多個(gè)圖像區(qū)域的多個(gè)像素矩陣。

這樣，通過(guò)ocr版面分析，就可以確定原始圖像(一個(gè)像素矩陣)中包含文字的各個(gè)圖像區(qū)域，并針對(duì)各個(gè)圖像區(qū)域生成對(duì)應(yīng)的多個(gè)像素矩陣(對(duì)應(yīng)于包含字符的區(qū)域)。

步驟四：利用卷積神經(jīng)網(wǎng)絡(luò)從多個(gè)像素矩陣中分別提取特征圖；

步驟五：利用加入attentionmodel的lstm對(duì)步驟四中輸出的特征圖進(jìn)行字符識(shí)別，得到字符序列；

具體而言，可以采用加入attentionmodel的lstm對(duì)每個(gè)特征圖中的當(dāng)前特征分別進(jìn)行字符識(shí)別，確定(本地機(jī)器學(xué)習(xí)過(guò)的字符中)與所述當(dāng)前特征相似的字符，得到字符序列。

步驟六：在條件具備的情況下，可以使用外加的語(yǔ)言信息對(duì)識(shí)別結(jié)果進(jìn)行篩選。詞典是一個(gè)可選的信息來(lái)源，有時(shí)上下文、字符排布等都可以作為最終確定字符的依據(jù)，得分最高的候選結(jié)果(即字符)最終被選作輸出。

具體而言，如果上述確定的字符中，存在與當(dāng)前特征相似的多個(gè)字符(例如，喬、嬌、大、齊)，那么可以確定所述特征圖中所述當(dāng)前特征的上一個(gè)特征對(duì)應(yīng)的上一個(gè)字符(例如，整)；并獲取所述上一個(gè)字符的上下文字符(例如可以依據(jù)該詞典中的信息來(lái)源來(lái)獲取該字符“整”的上下文字符，例如整齊的“齊”、平整的“平”等)；接著，確定所述多個(gè)字符(即，喬、嬌、大、齊)中與所述上下文字符(即，齊、平)相匹配的目標(biāo)字符(這里為齊)；最后，就可以將所述目標(biāo)字符(齊)確定為與所述當(dāng)前特征相似的字符。

步驟七：輸出步驟六中識(shí)別出的圖像中的字符(即，文字)信息。

由此可見(jiàn)，本發(fā)明實(shí)施例能夠?qū)⒆匀粓?chǎng)景中圖像的文字識(shí)別問(wèn)題，轉(zhuǎn)化為提取特征圖、特征圖序列解碼及字符匹配的問(wèn)題。本發(fā)明重點(diǎn)對(duì)自然場(chǎng)景下的神經(jīng)網(wǎng)絡(luò)ocr算法進(jìn)行了修改，在解碼特征序列的lstm算法中加入attentionmodel來(lái)取代forgetgate的全聯(lián)通網(wǎng)絡(luò)。

其中，圖5示出了本發(fā)明實(shí)施例的加入attentionmodel的lstm算法，簡(jiǎn)寫為a-lstm算法。

如圖5所示，本發(fā)明利用attention機(jī)制，用兩張權(quán)重概率表c和s來(lái)記錄歷史信息對(duì)當(dāng)前狀態(tài)的影響，這樣就保留了長(zhǎng)程記憶對(duì)當(dāng)前狀態(tài)的影響，而且只需要訓(xùn)練一份c權(quán)重表即可。其中，該算法采用如下公式實(shí)現(xiàn)：

it＝f(ct,h1·g2(y1),h2·g2(y2),...,ht-1·g2(yt-1))

ht＝tanh(it+st×ht′)

其中，權(quán)重概率表c記錄了encode階段，cnn算法編碼的每個(gè)字符向量間的相互影響關(guān)系的權(quán)重矩陣；

ct為當(dāng)前識(shí)別的第t個(gè)字符對(duì)應(yīng)的權(quán)重列向量，該權(quán)重列向量向量記錄了待識(shí)別圖像中除當(dāng)前第t個(gè)字符之外的其他各待識(shí)別字符對(duì)當(dāng)前字符的影響值；

s權(quán)重概率表也是一個(gè)矩陣，記錄的是decode階段，已解碼(識(shí)別)字符對(duì)當(dāng)前待識(shí)別字符影響的權(quán)重；

st為前t-1(t>1)個(gè)已識(shí)別字符對(duì)當(dāng)前待識(shí)別字符的影響值；

s是由st構(gòu)成的上三角矩陣；

g1和g2為將向量轉(zhuǎn)化為數(shù)值的函數(shù)；

xi為cnn提取的第i個(gè)序列特征；

tx為當(dāng)前圖像中待識(shí)別的字符數(shù)；

ct是由c中第t個(gè)向量中各權(quán)值與對(duì)應(yīng)特征向量的數(shù)值化g1(xi)相乘后累積求和所得；

yi為當(dāng)前預(yù)測(cè)到的第i個(gè)字符；

f函數(shù)為利用歷史編碼向量預(yù)測(cè)字符的概率函數(shù)；

ht′是由hi,i＝1,...,(t-1)構(gòu)成的向量，。

it為歷史識(shí)別信息(即已識(shí)別字符)以及全量特征信息(即，待識(shí)別圖像中除當(dāng)前第t個(gè)字符之外的其他各待識(shí)別字符)對(duì)當(dāng)前待識(shí)別的字符的影響值，由f函數(shù)計(jì)算得到；

ht為由tanh函數(shù)將it和歷史識(shí)別信息量綜合，得到當(dāng)前的識(shí)別結(jié)果。

同樣的，圖5所示的xt-1、xt、xt+1與xi意義類似，都是序列特征，只是第幾個(gè)序列特征而已。

同理，ct-1和ct+1與ct的意義同樣類似；ht-1和ht+1與ht的意義同樣類似；

yt-1、yt、yt+1與yi的意義同樣類似；st-1和st+1與st的意義同樣類似，在此不再贅述。

由此可見(jiàn)，本發(fā)明實(shí)施例的a-lstm算法能夠在對(duì)特征圖中的特征進(jìn)行字符識(shí)別時(shí)，結(jié)合特征圖中的全量特征向量和已識(shí)別到的字符對(duì)當(dāng)前待識(shí)別的字符的影響程度(即影響值)來(lái)對(duì)當(dāng)前字符進(jìn)行識(shí)別判斷，從而確定當(dāng)前字符，保證了長(zhǎng)程記憶中信息完美地傳遞給當(dāng)前狀態(tài)，提升了字符識(shí)別效果。

下面結(jié)合一具體實(shí)例來(lái)對(duì)本發(fā)明的上述技術(shù)方案進(jìn)行詳細(xì)闡述。

這里，本發(fā)明實(shí)施例收集了5萬(wàn)余張不同角度、不同光照、不同背景環(huán)境下拍攝的包含文字的圖像進(jìn)行訓(xùn)練和實(shí)驗(yàn)。本發(fā)明技術(shù)方案的主要過(guò)程如下：

(1)將收集的5萬(wàn)余張圖像進(jìn)行標(biāo)注，取其中5萬(wàn)張進(jìn)行訓(xùn)練實(shí)驗(yàn)，剩余的5000余張作為測(cè)試集；

(2)對(duì)圖片進(jìn)行預(yù)處理和版面分析，確定圖片中包含字符的圖像范圍，對(duì)各個(gè)圖像區(qū)域分別進(jìn)行縮放，使得保持原始圖像寬高比的情況下，圖像高度固定為64；

(3)用cnn網(wǎng)絡(luò)對(duì)圖像的特征進(jìn)行提取，網(wǎng)絡(luò)共6組，前五組均由一個(gè)卷積層、一個(gè)激活函數(shù)層、一個(gè)池化層三層組成，最后一組由一個(gè)卷積層和一個(gè)激活函數(shù)層構(gòu)成。最終每個(gè)圖像區(qū)域輸出一張?zhí)卣鲌D，為保證圖片信息不丟失，設(shè)置窗口滑動(dòng)步長(zhǎng)均為1。激活層使用softplus函數(shù)作為激活函數(shù)；

(4)用a-lstm神經(jīng)網(wǎng)絡(luò)作為解碼器，對(duì)cnn提取的特征序列進(jìn)行解碼，轉(zhuǎn)化為字符。具體公式如上述圖5所用的公式，其中f使用余弦距離函數(shù)。g1和g2均使用一個(gè)權(quán)重向量，進(jìn)行向量乘法，獲得向量的加權(quán)值后，用logisticsigmoid函數(shù)，得到其在[0,1]范圍的取值。

(5)使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練中常用的downpoursgd算法訓(xùn)練前面的字符識(shí)別模型，用dropout方法來(lái)預(yù)防過(guò)擬合，訓(xùn)練得到模型；

(6)將訓(xùn)練的模型在測(cè)試集上進(jìn)行測(cè)試，具體識(shí)別流程如上述各個(gè)實(shí)施例所描述的識(shí)別流程，在此不再贅述。

由此可見(jiàn)，本發(fā)明實(shí)施例能夠借助于加入了attentionmodel的lstm算法進(jìn)行字符識(shí)別，能夠減少運(yùn)算參數(shù)，同時(shí)實(shí)現(xiàn)了不同上下文內(nèi)容對(duì)當(dāng)前字符識(shí)別不同影響力的控制，并達(dá)到了長(zhǎng)程記憶和遺忘的類似效果。在lstm算法中加入attentionmodel來(lái)取代forgetgate的全聯(lián)通網(wǎng)絡(luò)的思路是現(xiàn)有算法中不曾出現(xiàn)的，同時(shí)將這種算法結(jié)合cnn卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然場(chǎng)景的字符識(shí)別中，也是此前ocr領(lǐng)域不曾運(yùn)用的，都是本發(fā)明實(shí)施例的核心技術(shù)。

需要說(shuō)明的是，對(duì)于方法實(shí)施例，為了簡(jiǎn)單描述，故將其都表述為一系列的動(dòng)作組合，但是本領(lǐng)域技術(shù)人員應(yīng)該知悉，本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制，因?yàn)橐罁?jù)本發(fā)明實(shí)施例，某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次，本領(lǐng)域技術(shù)人員也應(yīng)該知悉，說(shuō)明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例，所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。

與上述本發(fā)明實(shí)施例所提供的方法相對(duì)應(yīng)，參照?qǐng)D6，示出了本發(fā)明一種字符識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖，具體可以包括如下模塊：

采集模塊61，用于采集自然場(chǎng)景的原始圖像；

預(yù)處理模塊62，用于對(duì)所述原始圖像進(jìn)行預(yù)處理；

版面分析模塊63，用于對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析，得到多個(gè)像素矩陣；

特征提取模塊64，用于采用cnn對(duì)所述多個(gè)像素矩陣分別進(jìn)行特征提取，得到多個(gè)特征圖；

字符識(shí)別模塊65，用于采用加入attentionmodel的lstm對(duì)所述多個(gè)特征圖分別進(jìn)行字符識(shí)別，得到字符序列；

其中，所述加入attentionmodel的lstm中的遺忘門由所述attentionmodel替換。

可選地，所述版面分析模塊63包括：

版面分析子模塊，用于對(duì)預(yù)處理后的所述原始圖像進(jìn)行ocr版面分析，確定所述原始圖像中包含字符的多個(gè)圖像區(qū)域；

生成子模塊，用于生成針對(duì)所述多個(gè)圖像區(qū)域的多個(gè)像素矩陣。

可選地，所述字符識(shí)別模塊65包括：

字符識(shí)別子模塊，用于采用加入attentionmodel的lstm對(duì)每個(gè)特征圖中的當(dāng)前特征分別進(jìn)行字符識(shí)別，確定與所述當(dāng)前特征相似的字符，得到字符序列。

可選地，所述系統(tǒng)還包括：

第一確定模塊，用于若存在與當(dāng)前特征相似的多個(gè)字符，則確定所述特征圖中所述當(dāng)前特征的上一個(gè)特征對(duì)應(yīng)的上一個(gè)字符；

獲取模塊，用于獲取所述上一個(gè)字符的上下文字符；

第二確定模塊，用于確定所述多個(gè)字符中與所述上下文字符相匹配的目標(biāo)字符；

第三確定模塊，用于將所述目標(biāo)字符確定為與所述當(dāng)前特征相似的字符。

對(duì)于裝置實(shí)施例而言，由于其與方法實(shí)施例基本相似，所以描述的比較簡(jiǎn)單，相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。

本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白，本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此，本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且，本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器，使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中，使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上，使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理，從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例，但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念，則可對(duì)這些實(shí)施例做出另外的變更和修改。所以，所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。

最后，還需要說(shuō)明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái)，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過(guò)程、方法、物品或者終端設(shè)備不僅包括那些要素，而且還包括沒(méi)有明確列出的其他要素，或者是還包括為這種過(guò)程、方法、物品或者終端設(shè)備所固有的要素。在沒(méi)有更多限制的情況下，由語(yǔ)句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過(guò)程、方法、物品或者終端設(shè)備中還存在另外的相同要素。

以上對(duì)本發(fā)明所提供的一種字符識(shí)別方法和一種字符識(shí)別系統(tǒng)，進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹驥;李健;王富田;張連毅;武衛(wèi)東
技術(shù)所有人：北京捷通華聲科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！