一種圖像文本的識別方法和裝置與流程

文檔序號：11177785閱讀：757來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請涉及文字識別技術(shù)領(lǐng)域，特別是涉及一種圖像文本的識別方法和一種圖像文本的識別裝置。

背景技術(shù)：

模式識別技術(shù)的研究目的是根據(jù)人類大腦的識別機理，通過計算機模擬，構(gòu)造出能代替人類完成分類和辨識的任務(wù)，進(jìn)而進(jìn)行自動信息處理的機器系統(tǒng)。其中，漢字識別便是模式識別應(yīng)用的一個重要領(lǐng)域，最典型的就是身份證識別，自動識別姓名、身份證號碼、地址、性別等信息。

傳統(tǒng)的漢字識別方法主要是通過對圖像進(jìn)行預(yù)處理，比如灰度化、降噪等，并基于傳統(tǒng)的圖像特征抽取，然后再采用支持向量機svm、神經(jīng)網(wǎng)絡(luò)等分類器訓(xùn)練漢字識別模型來進(jìn)行的。傳統(tǒng)的漢字識別通?；谌斯そ?jīng)驗提取圖像特征，不具備一定的噪聲抗干擾能力。因此，當(dāng)噪聲干擾較大時，會導(dǎo)致漢字的識別率較低。近年來，隨著卷積神經(jīng)網(wǎng)絡(luò)cnn在計算機視覺領(lǐng)域取得巨大成功，cnn也被應(yīng)用于漢字識別。cnn的識別效果，相比于傳統(tǒng)方法，準(zhǔn)確率有了很大的提高。

但是，對于漢字識別，最大的問題在于漢字的多樣性，特別是形近字較多，傳統(tǒng)的漢字識別方法，對于形近字幾乎無能為力。很多漢字加一個偏旁就是另外一個字，比如“可”與“何”。如果輸入的圖片是“可”，但是在圖片的左側(cè)又存在一些小噪聲，由于cnn對位置信息還是比較敏感，特別是在輸入數(shù)據(jù)不夠充分的情況下，現(xiàn)有的利用cnn識別漢字的方法會很難區(qū)分輸入圖片的到底是“可”還是“何”。因此，現(xiàn)有的利用cnn進(jìn)行漢字識別的方法仍然不能很好的解決形近字的識別的問題。

技術(shù)實現(xiàn)要素：

鑒于上述問題，提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種圖像文本的識別方法和相應(yīng)的一種圖像文本的識別裝置。

為了解決上述問題，本申請公開了一種圖像文本的識別方法，包括：

獲取待識別的圖像，所述圖像包括多個像素點；

根據(jù)所述多個像素點，確定所述圖像的第一文本區(qū)域；

按照預(yù)設(shè)規(guī)則，從所述第一文本區(qū)域中提取出第二文本區(qū)域；

對所述第二文本區(qū)域進(jìn)行識別。

可選地，所述根據(jù)所述多個像素點，確定所述圖像的第一文本區(qū)域的步驟包括：

針對所述多個像素點，計算所述圖像的直方圖，所述直方圖具有對應(yīng)的多個特征值；

根據(jù)所述多個特征值，對所述直方圖進(jìn)行對比度歸一化處理，獲得對比度歸一化處理結(jié)果；

對所述對比度歸一化處理結(jié)果進(jìn)行二值化處理，獲得所述圖像的第一文本區(qū)域。

可選地，所述根據(jù)所述多個特征值，對所述直方圖進(jìn)行對比度歸一化處理，獲得對比度歸一化處理結(jié)果的步驟包括：

按比例調(diào)整所述多個特征值，使調(diào)整后的多個特征值的和為特定數(shù)值；

采用累積分布函數(shù)對所述調(diào)整后的多個特征值進(jìn)行變換，獲得變換后的多個特征值；

分別將所述變換后的多個特征值映射到所述多個像素點，獲得所述多個像素點的映射像素值。

可選地，所述對所述對比度歸一化處理結(jié)果進(jìn)行二值化處理，獲得所述圖像的第一文本區(qū)域的步驟包括：

分別判斷所述圖像中的多個像素點的映射像素值是否大于第一預(yù)設(shè)閾值；

若是，則將所述像素點標(biāo)記為第一背景區(qū)域像素點；

若否，則將所述像素點標(biāo)記為第一文本區(qū)域像素點；

從所述圖像中提取出包含全部第一文本區(qū)域像素點的面積最小的外接矩形。

可選地，在所述按照預(yù)設(shè)規(guī)則，從所述第一文本區(qū)域中提取出第二文本區(qū)域的步驟前，還包括：

對所述第一文本區(qū)域進(jìn)行二值化處理。

可選地，所述對所述第一文本區(qū)域進(jìn)行二值化處理的步驟包括：

分別判斷所述第一文本區(qū)域中的多個像素點的映射像素值是否大于第二預(yù)設(shè)閾值；

若是，則將所述像素點標(biāo)記為第二背景區(qū)域像素點；

若否，則將所述像素點標(biāo)記為第二文本區(qū)域像素點；

可選地，所述按照預(yù)設(shè)規(guī)則，從所述第一文本區(qū)域中提取出第二文本區(qū)域的步驟包括：

確定所述第一文本區(qū)域中的多個連通區(qū)域；

分別判斷所述多個連通區(qū)域是否滿足預(yù)設(shè)規(guī)則；

若是，則提取出相對應(yīng)的多個連通區(qū)域作為第二文本區(qū)域。

可選地，所述確定所述第一文本區(qū)域中的多個連通區(qū)域的步驟包括：

遍歷所述第二文本區(qū)域像素點；

將當(dāng)前第二文本區(qū)域像素點與相鄰的第二文本區(qū)域像素點相連，獲得以第二文本區(qū)域像素點為頂點的多邊形；

將包含所述多邊形的面積最小的外接矩形確定為連通區(qū)域。

可選地，所述對所述第二文本區(qū)域進(jìn)行識別的步驟包括：

采用卷積神經(jīng)網(wǎng)絡(luò)cnn漢字識別模型對所述第二文本區(qū)域進(jìn)行識別。

為了解決上述問題，本申請公開了一種圖像文本的識別裝置，包括：

獲取模塊，用于獲取待識別的圖像，所述圖像包括多個像素點；

確定模塊，用于根據(jù)所述多個像素點，確定所述圖像的第一文本區(qū)域；

提取模塊，用于按照預(yù)設(shè)規(guī)則，從所述第一文本區(qū)域中提取出第二文本區(qū)域；

識別模塊，用于對所述第二文本區(qū)域進(jìn)行識別。

可選地，所述確定模塊包括：

直方圖計算子模塊，用于針對所述多個像素點，計算所述圖像的直方圖，所述直方圖具有對應(yīng)的多個特征值；

對比度歸一化處理子模塊，用于根據(jù)所述多個特征值，對所述直方圖進(jìn)行對比度歸一化處理，獲得對比度歸一化處理結(jié)果；

第一文本區(qū)域獲得子模塊，用于對所述對比度歸一化處理結(jié)果進(jìn)行二值化處理，獲得所述圖像的第一文本區(qū)域。

可選地，所述對比度歸一化處理子模塊包括：

特征值調(diào)整單元，用于按比例調(diào)整所述多個特征值，使調(diào)整后的多個特征值的和為特定數(shù)值；

特征值變換單元，用于采用累積分布函數(shù)對所述調(diào)整后的多個特征值進(jìn)行變換，獲得變換后的多個特征值；

特征值映射單元，用于分別將所述變換后的多個特征值映射到所述多個像素點，獲得所述多個像素點的映射像素值。

可選地，所述第一文本區(qū)域獲得子模塊包括：

第一預(yù)設(shè)閾值判斷單元，用于分別判斷所述圖像中的多個像素點的映射像素值是否大于第一預(yù)設(shè)閾值；

第一背景區(qū)域像素點標(biāo)記單元，用于在所述像素點的映射像素值大于第一預(yù)設(shè)閾值時，將所述像素點標(biāo)記為第一背景區(qū)域像素點；

第一文本區(qū)域像素點標(biāo)記單元，用于在所述像素點的映射像素值不大于第一預(yù)設(shè)閾值時，將將所述像素點標(biāo)記為第一文本區(qū)域像素點；

第一文本區(qū)域提取單元，用于從所述圖像中提取出包含全部第一文本區(qū)域像素點的面積最小的外接矩形。

可選地，所述裝置還包括：

二值化處理模塊，用于對所述第一文本區(qū)域進(jìn)行二值化處理。

可選地，所述二值化處理模塊包括：

第二預(yù)設(shè)閾值判斷子模塊，用于分別判斷所述第一文本區(qū)域中的多個像素點的映射像素值是否大于第二預(yù)設(shè)閾值；

第二背景區(qū)域像素點標(biāo)記子模塊，用于在所述像素點的映射像素值大于第二預(yù)設(shè)閾值時，將所述像素點標(biāo)記為第二背景區(qū)域像素點；

第二文本區(qū)域像素點標(biāo)記子模塊，用于在所述像素點的映射像素值不大于第二預(yù)設(shè)閾值時，將將所述像素點標(biāo)記為第二文本區(qū)域像素點；

可選地，所述提取模塊包括：

連通區(qū)域確定子模塊，用于確定所述第一文本區(qū)域中的多個連通區(qū)域；

預(yù)設(shè)規(guī)則判斷子模塊，用于分別判斷所述多個連通區(qū)域是否滿足預(yù)設(shè)規(guī)則；

第二文本區(qū)域提取子模塊，用于在所述多個連通區(qū)域滿足預(yù)設(shè)規(guī)則時，提取出相對應(yīng)的多個連通區(qū)域作為第二文本區(qū)域。

可選地，所述連通區(qū)域確定子模塊包括：

第二文本區(qū)域像素點遍歷單元，用于遍歷所述第二文本區(qū)域像素點；

第二文本區(qū)域像素點連接單元，用于將當(dāng)前第二文本區(qū)域像素點與相鄰的第二文本區(qū)域像素點相連，獲得以第二文本區(qū)域像素點為頂點的多邊形；

連通區(qū)域確定單元，用于將包含所述多邊形的面積最小的外接矩形確定為連通區(qū)域。

可選地，所述識別模塊包括：

識別子模塊，用于采用卷積神經(jīng)網(wǎng)絡(luò)cnn漢字識別模型對所述第二文本區(qū)域進(jìn)行識別。

與背景技術(shù)相比，本申請實施例包括以下優(yōu)點：

本申請實施例通過對待識別的圖像進(jìn)行對比度歸一化處理以及二值化處理，從而提取出第一文本區(qū)域，然后在確定第一文本區(qū)域的連通區(qū)域基礎(chǔ)上，獲得第二文本區(qū)域，有效地去除了待識別的圖像中的噪聲，并通過對所述第二文本區(qū)域進(jìn)行識別來實現(xiàn)對圖像文本的識別，避免了噪聲對圖像文本識別的干擾，大大提高了識別的準(zhǔn)確率。

其次，在本申請實施例中，對于在身份證、護(hù)照等字體單一、背景簡單的文本識別場景中，通過對待識別圖像進(jìn)行空間歸一化處理，能夠?qū)⒂?xùn)練數(shù)據(jù)和測試數(shù)據(jù)在空間上盡可能的統(tǒng)一，使得形近字在空間歸一化后，具有不同的表現(xiàn)特征，使得cnn漢字識別模型能夠更準(zhǔn)確的識別形近字。

附圖說明

圖1是本申請的一種圖像文本的識別方法實施例一的步驟流程圖；

圖2是本申請的一種圖像文本的識別方法實施例二的步驟流程圖；

圖3是本申請的一種圖像文本的識別裝置實施例的結(jié)構(gòu)框圖。

具體實施方式

為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和具體實施方式對本申請作進(jìn)一步詳細(xì)的說明。

參照圖1，示出了本申請的一種圖像文本的識別方法實施例一的步驟流程圖，具體可以包括如下步驟：

步驟101，獲取待識別的圖像；

在本申請實施例中，所述待識別的圖像可以是各類證件圖像，例如身份證、護(hù)照等。其中，所述圖像包括有多個像素點，像素點是指把某一圖像分割成若干個小方格，每個小方格便被稱為一個像素點，由這些像素點排列組成的柵格被稱為“光柵”，計算機可以通過表示這些像素點的位置、顏色、亮度等信息，從而表示出整幅圖像。

通常，各類證件中的文本都有別于其他自然場景的漢字識別。證件中的文本的特點是：1)文本都是印刷體；2)文本都是單一(或種類不多)的字體，例如都是宋體字，或都是宋體字或楷體字；3)圖像背景簡單。

步驟102，根據(jù)所述多個像素點，確定所述圖像的第一文本區(qū)域；

通常，為了對圖像中的文本進(jìn)行識別，可以首先根據(jù)所述多個像素點，排除一些背景區(qū)域，以確定出所述圖像的第一文本區(qū)域。

在本申請實施例中，所述第一文本區(qū)域可以是經(jīng)過初步篩選而確定的包括文本信息的區(qū)域，從而有助于進(jìn)一步地有針對性地對相應(yīng)區(qū)域的文本進(jìn)行識別。

在本申請的一種優(yōu)選實施例中，所述根據(jù)所述多個像素點，確定所述圖像的第一文本區(qū)域的步驟具體可以包括如下子步驟：

子步驟1021，針對所述多個像素點，計算所述圖像的直方圖；

在具體實現(xiàn)中，當(dāng)獲得待識別的圖像后，可以首先針對圖像中的多個像素點，計算出所述圖像的直方圖。直方圖是一種用來描述圖像灰度值的圖，可以把一定范圍內(nèi)的圖像數(shù)據(jù)顯示出來，通過查看圖像的直方圖，可以了解圖像的曝光情況，或者畫面是否柔和等。所述直方圖可以具有對應(yīng)的多個特征值，即表示不同亮度的rgb數(shù)值。

一般地，直方圖的橫軸可以用來表示圖像亮度的變化，縱軸用來表示像素的多少。直方圖的橫軸從左到右表示亮度越來越高，從0到255，其中，0表示黑，255表示白。如果某個地方的峰越高，則說明在這個亮度下的像素越多。

子步驟1022，根據(jù)所述多個特征值，對所述直方圖進(jìn)行對比度歸一化處理，獲得對比度歸一化處理結(jié)果；

在具體實現(xiàn)中，對所述直方圖進(jìn)行對比度歸一化處理可以首先按比例對直方圖的多個特征值進(jìn)行調(diào)整，使調(diào)整后的多個特征值的和為255。例如，若經(jīng)過求和，得到所述直方圖的多個特征值的和為765，則可以將每個特征值乘以1/3，從而使得調(diào)整后的多個特征值的和為255(765*1/3＝255)；如果所述脂肪圖的多個特征值的和小于255，則可以按比例擴大每個特征值，使調(diào)整后的多個特征值的和滿足上述要求。

然后，可以采用累積分布函數(shù)對所述調(diào)整后的多個特征值進(jìn)行變換，得到變換后的多個特征值。累積分布函數(shù)是概率密度函數(shù)的積分，能夠完整描述一個實數(shù)隨機變量x的概率分布情況。

進(jìn)而，可以將獲得的變換后的多個特征值作為映射表，將變換后的多個特征值分別映射到所述圖像的多個像素點，以變換后的特征值作為所述多個像素點的映射像素值，從而替換所述像素點原有的像素值。

子步驟1023，對所述對比度歸一化處理結(jié)果進(jìn)行二值化處理，獲得所述圖像的第一文本區(qū)域。

在本申請實施例中，可以首先遍歷所述多個像素點的映射像素值，分別判斷其映射像素值是否大于第一預(yù)設(shè)閾值，若是，則可以將所述像素點標(biāo)記為第一背景區(qū)域像素點；若否，則可以將所述像素點標(biāo)記為第一文本區(qū)域像素點；然后從所述圖像中提取出包含全部第一文本區(qū)域像素點的面積最小的外接矩形，所述外接矩形即為所述圖像的第一文本區(qū)域。

在具體實現(xiàn)中，所述第一預(yù)設(shè)閾值可以通過大津算法(otsu算法)計算得到。大津算法是一種對圖像進(jìn)行二值化的高效算法，使用聚類的思想，通過把圖像的灰度數(shù)按灰度級分成兩個部分，使得兩個部分之間的灰度值差異最大，每個部分之間的灰度差異最小，然后通過方差的計算來尋找一個合適的灰度級別來劃分。因此，可以在二值化的時候，采用大津算法來自動選取閾值進(jìn)行二值化。大津算法被認(rèn)為是圖像分割中閾值選取的最佳算法，計算簡單，不受圖像亮度和對比度的影響。

步驟103，按照預(yù)設(shè)規(guī)則，從所述第一文本區(qū)域中提取出第二文本區(qū)域；

在本申請實施例中，當(dāng)從所述圖像中提取出第一文本區(qū)域后，可以繼續(xù)對所述第一文本區(qū)域進(jìn)行篩選，以進(jìn)一步排除背景區(qū)域，得到包含文本信息的第二文本區(qū)域。

在本申請的一種優(yōu)選實施例中，在所述按照預(yù)設(shè)規(guī)則，從所述第一文本區(qū)域中提取出第二文本區(qū)域的步驟前，還可以包括如下：

對所述第一文本區(qū)域進(jìn)行二值化處理。

在具體實現(xiàn)中，可以繼續(xù)按照步驟102中的方法對第一文本區(qū)域進(jìn)行第二次二值化處理，從而標(biāo)記出第二文本區(qū)域像素點，然后基于第二文本區(qū)域像素點，提取第二文本區(qū)域。

在本申請的一種優(yōu)選實施例中，所述按照預(yù)設(shè)規(guī)則，從所述第一文本區(qū)域中提取出第二文本區(qū)域的步驟具體可以包括如下子步驟：

子步驟1031，確定所述第一文本區(qū)域中的多個連通區(qū)域；

子步驟1032，分別判斷所述多個連通區(qū)域是否滿足預(yù)設(shè)規(guī)則，若是，則提取出相對應(yīng)的多個連通區(qū)域作為第二文本區(qū)域。

在具體實現(xiàn)中，可以基于第二次二值化處理標(biāo)記的第二文本區(qū)域像素點，采用連通圖算法確定出所述第一文本區(qū)域中的多個連通區(qū)域。具體地，如下偽代碼是本申請實施例中采用的連通圖算法的一種示例：

然后，可以分別對每個連通區(qū)域進(jìn)行判斷，刪除不滿足預(yù)設(shè)規(guī)則的連通區(qū)域，從而得到第二文本區(qū)域。

在本申請實施例中，所述不滿足預(yù)設(shè)規(guī)則的連通區(qū)域可以包括面積太小的連通區(qū)域，以及離最大連通區(qū)域距離較大的連通區(qū)域。

步驟104，對所述第二文本區(qū)域進(jìn)行識別。

通常，在對待識別的圖像完成步驟102和步驟103的處理后，已基本達(dá)到去除噪聲的目的，從而可以對第二文本區(qū)域進(jìn)行識別，獲得待識別的圖像中的文本信息。

在本申請實施例中，通過對待識別的圖像進(jìn)行對比度歸一化處理以及二值化處理，從而提取出第一文本區(qū)域，然后在確定第一文本區(qū)域的連通區(qū)域基礎(chǔ)上，獲得第二文本區(qū)域，有效地去除了待識別的圖像中的噪聲，并通過對所述第二文本區(qū)域進(jìn)行識別來實現(xiàn)對圖像文本的識別，避免了噪聲對圖像文本識別的干擾，大大提高了識別的準(zhǔn)確率。

參照圖2，示出了本申請的一種圖像文本的識別方法實施例二的步驟流程圖，具體可以包括如下步驟：

步驟201，獲取待識別的圖像；

在本申請實施例中，所述待識別的圖像可以是各類證件圖像，例如身份證、護(hù)照等。通常，各類證件圖像中的文本都有別于其他自然場景的漢字識別。證件中的文本的特點是：1)文本都是印刷體；2)文本都是單一(或種類不多)的字體，例如都是宋體字，或都是宋體字或楷體字；3)圖像背景簡單。因此，基于空間歸一化操作的圖像文本識別可以應(yīng)用于證件識別的場景中。

步驟202，針對所述多個像素點，計算所述圖像的直方圖；

每一張圖像都包括有多個像素點，計算機可以通過表示這些像素點的位置、顏色、亮度等信息，從而表示出整幅圖像。因此，在本申請實施例中，可以針對所述多個像素點，計算出所述圖像的直方圖。

步驟203，根據(jù)所述多個特征值，對所述直方圖進(jìn)行對比度歸一化處理，獲得對比度歸一化處理結(jié)果；

在本申請的一種優(yōu)選實施例中，所述根據(jù)所述多個特征值，對所述直方圖進(jìn)行對比度歸一化處理，獲得對比度歸一化處理結(jié)果的步驟具體可以包括如下子步驟：

子步驟2031，按比例調(diào)整所述多個特征值，使調(diào)整后的多個特征值的和為特定數(shù)值；

子步驟2032，采用累積分布函數(shù)對所述調(diào)整后的多個特征值進(jìn)行變換，獲得變換后的多個特征值；

子步驟2033，分別將所述變換后的多個特征值映射到所述多個像素點，獲得所述多個像素點的映射像素值。

然后，可以采用累積分布函數(shù)對所述調(diào)整后的多個特征值進(jìn)行變換，得到變換后的多個特征值。累積分布函數(shù)是概率密度函數(shù)的積分，能夠完整描述一個實數(shù)隨機變量x的概率分布情況。即，第j個特征值變換后的對應(yīng)的值應(yīng)該為在其前面的全部特征值之和。

步驟204，對所述對比度歸一化處理結(jié)果進(jìn)行二值化處理，獲得所述圖像的第一文本區(qū)域；

在具體實現(xiàn)中，可以采用大津算法(otsu算法)計算出第一預(yù)設(shè)閾值，通過將每個像素點的映射像素值與第一預(yù)設(shè)閾值進(jìn)行比較，從而獲得所述圖像的第一文本區(qū)域。

在本申請的一種優(yōu)選實施例中，所述對所述對比度歸一化處理結(jié)果進(jìn)行二值化處理，獲得所述圖像的第一文本區(qū)域的步驟具體可以包括如下子步驟：

子步驟2041，分別判斷所述圖像中的多個像素點的映射像素值是否大于第一預(yù)設(shè)閾值；

子步驟2042，若是，則將所述像素點標(biāo)記為第一背景區(qū)域像素點；

子步驟2043，若否，則將所述像素點標(biāo)記為第一文本區(qū)域像素點；

子步驟2044，從所述圖像中提取出包含全部第一文本區(qū)域像素點的面積最小的外接矩形。

在具體實現(xiàn)中，可以分別將每個像素點的映射像素值與第一預(yù)設(shè)閾值進(jìn)行比較，若所述映射像素值大于第一預(yù)設(shè)閾值，則可以標(biāo)記所述像素點為第一背景區(qū)域像素點，例如標(biāo)記dst(x,y)＝1，若所述映射像素值不大于第一預(yù)設(shè)閾值，則可以標(biāo)記所述像素點為第一文本區(qū)域像素點，例如標(biāo)記dst(x,y)＝0。

然后，在所述圖像中找到一個面積最小的并且能將所有的dst(x,y)＝0的像素點包含在內(nèi)的矩形。所述矩形內(nèi)的圖像就是一階空間歸一化的結(jié)果，即第一文本區(qū)域。

步驟205，對所述第一文本區(qū)域進(jìn)行二值化處理；

在本申請實施例中，對第一文本區(qū)域進(jìn)行二值化處理的過程與步驟204相同，即所述對所述第一文本區(qū)域進(jìn)行二值化處理的步驟具體可以包括如下子步驟：

子步驟2051，分別判斷所述第一文本區(qū)域中的多個像素點的映射像素值是否大于第二預(yù)設(shè)閾值；

子步驟2052，若是，則將所述像素點標(biāo)記為第二背景區(qū)域像素點；

子步驟2053，若否，則將所述像素點標(biāo)記為第二文本區(qū)域像素點；

需要注意的是，在對第一文本區(qū)域進(jìn)行第二次二值化處理時，需要重新計算預(yù)設(shè)閾值，即，需要通過大津算法(otsu算法)計算出第二預(yù)設(shè)閾值，通過將每個像素點的映射像素值與第二預(yù)設(shè)閾值進(jìn)行比較，從而標(biāo)記出第二背景區(qū)域像素點以及第二文本區(qū)域像素點。例如若所述映射像素值大于第二預(yù)設(shè)閾值，則可以標(biāo)記所述像素點為第二背景區(qū)域像素點，標(biāo)記dst(x,y)＝1，若所述映射像素值不大于第二預(yù)設(shè)閾值，則可以標(biāo)記所述像素點為第二文本區(qū)域像素點，標(biāo)記dst(x,y)＝0。

步驟206，確定所述第一文本區(qū)域中的多個連通區(qū)域；

在本申請實施例中，可以基于第二次二值化處理標(biāo)記的第二文本區(qū)域像素點，采用連通圖算法確定出所述第一文本區(qū)域中的多個連通區(qū)域。

在本申請的一種優(yōu)選實施例中，所述確定所述第一文本區(qū)域中的多個連通區(qū)域的步驟具體可以包括如下子步驟：

子步驟2061，遍歷所述第二文本區(qū)域像素點；

子步驟2062，將當(dāng)前第二文本區(qū)域像素點與相鄰的第二文本區(qū)域像素點相連，獲得以第二文本區(qū)域像素點為頂點的多邊形；

子步驟2063，將包含所述多邊形的面積最小的外接矩形確定為連通區(qū)域。

在具體實現(xiàn)中，可以遍歷所述第二文本區(qū)域像素點，即在步驟205中二值化處理時，被標(biāo)記為dst(x,y)＝0的像素點，將當(dāng)前第二文本區(qū)域像素點與相鄰的第二文本區(qū)域像素點相連，得到一個全部以第二文本區(qū)域像素點為頂點的多邊形，然后，在所述第一文本區(qū)域中找到一個面積最小的并且能將所述多邊形包含在內(nèi)的矩形。所述矩形內(nèi)的圖像就是一個連通區(qū)域。

步驟207，分別判斷所述多個連通區(qū)域是否滿足預(yù)設(shè)規(guī)則；

在本申請實施例中，在確定出全部的連通區(qū)域后，可以逐個判斷所述連通區(qū)域是否滿足預(yù)設(shè)規(guī)則，如果某一連通區(qū)域不滿足預(yù)設(shè)規(guī)則，則可以將該連通區(qū)域刪除，從而最終得到由剩余的多個滿足預(yù)設(shè)規(guī)則的連通區(qū)域組成的第二文本區(qū)域。

在具體實現(xiàn)中，所述不滿足預(yù)設(shè)規(guī)則的連通區(qū)域可以包括面積太小的連通區(qū)域，以及離最大連通區(qū)域距離較大的連通區(qū)域。例如，面積小于2*2像素的連通區(qū)域，以及，離最大連通區(qū)域距離大于0.06的連通區(qū)域。

步驟208，提取出相對應(yīng)的多個連通區(qū)域作為第二文本區(qū)域；

步驟209，采用卷積神經(jīng)網(wǎng)絡(luò)cnn漢字識別模型對所述第二文本區(qū)域進(jìn)行識別。

在本申請實施例中，當(dāng)獲得第二文本區(qū)域圖像后，可以采用卷積神經(jīng)網(wǎng)絡(luò)cnn漢字識別模型對所述第二文本區(qū)域進(jìn)行識別。卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork，cnn)是一種前饋神經(jīng)網(wǎng)絡(luò)，它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元，對于大型圖像處理有著出色的表現(xiàn)。

在具體實現(xiàn)中，可以利用上述步驟201至步驟208所述的方法對訓(xùn)練數(shù)據(jù)進(jìn)行空間歸一化操作，并用于cnn漢字識別模型的訓(xùn)練，從而得到卷積神經(jīng)網(wǎng)絡(luò)cnn漢字識別模型。然后在圖像文本識別任務(wù)中，給定一張待識別的圖像，利用訓(xùn)練好的cnn漢字識別模型進(jìn)行識別。

在本申請實施例中，對于在身份證、護(hù)照等字體單一、背景簡單的文本識別場景中，通過對待識別圖像進(jìn)行空間歸一化處理，能夠?qū)⒂?xùn)練數(shù)據(jù)和測試數(shù)據(jù)在空間上盡可能的統(tǒng)一，使得形近字在空間歸一化后，具有不同的表現(xiàn)特征，使得cnn漢字識別模型能夠更準(zhǔn)確的識別形近字。

需要說明的是，對于方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領(lǐng)域技術(shù)人員應(yīng)該知悉，本申請實施例并不受所描述的動作順序的限制，因為依據(jù)本申請實施例，某些步驟可以采用其他順序或者同時進(jìn)行。其次，本領(lǐng)域技術(shù)人員也應(yīng)該知悉，說明書中所描述的實施例均屬于優(yōu)選實施例，所涉及的動作并不一定是本申請實施例所必須的。

參照圖3，示出了本申請的一種圖像文本的識別裝置實施例的結(jié)構(gòu)框圖，具體可以包括如下模塊：

獲取模塊301，用于獲取待識別的圖像，所述圖像包括多個像素點；

確定模塊302，用于根據(jù)所述多個像素點，確定所述圖像的第一文本區(qū)域；

提取模塊303，用于按照預(yù)設(shè)規(guī)則，從所述第一文本區(qū)域中提取出第二文本區(qū)域；

識別模塊304，用于對所述第二文本區(qū)域進(jìn)行識別。

在本申請實施例中，所述確定模塊302具體可以包括如下子模塊：

直方圖計算子模塊3021，用于針對所述多個像素點，計算所述圖像的直方圖，所述直方圖具有對應(yīng)的多個特征值；

對比度歸一化處理子模塊3022，用于根據(jù)所述多個特征值，對所述直方圖進(jìn)行對比度歸一化處理，獲得對比度歸一化處理結(jié)果；

第一文本區(qū)域獲得子模塊3023，用于對所述對比度歸一化處理結(jié)果進(jìn)行二值化處理，獲得所述圖像的第一文本區(qū)域。

在本申請實施例中，所述對比度歸一化處理子模塊3022具體可以包括如下單元：

特征值調(diào)整單元221，用于按比例調(diào)整所述多個特征值，使調(diào)整后的多個特征值的和為特定數(shù)值；

特征值變換單元222，用于采用累積分布函數(shù)對所述調(diào)整后的多個特征值進(jìn)行變換，獲得變換后的多個特征值；

特征值映射單元223，用于分別將所述變換后的多個特征值映射到所述多個像素點，獲得所述多個像素點的映射像素值。

在本申請實施例中，所述第一文本區(qū)域獲得子模塊3023具體可以包括如下單元：

第一預(yù)設(shè)閾值判斷單元231，用于分別判斷所述圖像中的多個像素點的映射像素值是否大于第一預(yù)設(shè)閾值；

第一背景區(qū)域像素點標(biāo)記單元232，用于在所述像素點的映射像素值大于第一預(yù)設(shè)閾值時，將所述像素點標(biāo)記為第一背景區(qū)域像素點；

第一文本區(qū)域像素點標(biāo)記單元233，用于在所述像素點的映射像素值不大于第一預(yù)設(shè)閾值時，將將所述像素點標(biāo)記為第一文本區(qū)域像素點；

第一文本區(qū)域提取單元234，用于從所述圖像中提取出包含全部第一文本區(qū)域像素點的面積最小的外接矩形。

在本申請實施例中，所述裝置還可以包括如下模塊：

二值化處理模塊305，用于對所述第一文本區(qū)域進(jìn)行二值化處理。

在本申請實施例中，所述二值化處理模塊305具體可以包括如下子模塊：

第二預(yù)設(shè)閾值判斷子模塊3051，用于分別判斷所述第一文本區(qū)域中的多個像素點的映射像素值是否大于第二預(yù)設(shè)閾值；

第二背景區(qū)域像素點標(biāo)記子模塊3052，用于在所述像素點的映射像素值大于第二預(yù)設(shè)閾值時，將所述像素點標(biāo)記為第二背景區(qū)域像素點；

第二文本區(qū)域像素點標(biāo)記子模塊3053，用于在所述像素點的映射像素值不大于第二預(yù)設(shè)閾值時，將將所述像素點標(biāo)記為第二文本區(qū)域像素點；

在本申請實施例中，所述提取模塊303具體可以包括如下子模塊：

連通區(qū)域確定子模塊3031，用于確定所述第一文本區(qū)域中的多個連通區(qū)域；

預(yù)設(shè)規(guī)則判斷子模塊3032，用于分別判斷所述多個連通區(qū)域是否滿足預(yù)設(shè)規(guī)則；

第二文本區(qū)域提取子模塊3033，用于在所述多個連通區(qū)域滿足預(yù)設(shè)規(guī)則時，提取出相對應(yīng)的多個連通區(qū)域作為第二文本區(qū)域。

在本申請實施例中，所述連通區(qū)域確定子模塊3031具體可以包括如下單元：

第二文本區(qū)域像素點遍歷單元311，用于遍歷所述第二文本區(qū)域像素點；

第二文本區(qū)域像素點連接單元312，用于將當(dāng)前第二文本區(qū)域像素點與相鄰的第二文本區(qū)域像素點相連，獲得以第二文本區(qū)域像素點為頂點的多邊形；

連通區(qū)域確定單元313，用于將包含所述多邊形的面積最小的外接矩形確定為連通區(qū)域。

在本申請實施例中，所述識別模塊304具體可以包括如下子模塊：

識別子模塊3041，用于采用卷積神經(jīng)網(wǎng)絡(luò)cnn漢字識別模型對所述第二文本區(qū)域進(jìn)行識別。

對于裝置實施例而言，由于其與方法實施例基本相似，所以描述的比較簡單，相關(guān)之處參見方法實施例的部分說明即可。

本說明書中的各個實施例均采用遞進(jìn)的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白，本申請實施例的實施例可提供為方法、裝置、或計算機程序產(chǎn)品。因此，本申請實施例可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且，本申請實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。

在一個典型的配置中，所述計算機設(shè)備包括一個或多個處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計算機可讀介質(zhì)中的非永久性存儲器，隨機存取存儲器(ram)和/或非易失性內(nèi)存等形式，如只讀存儲器(rom)或閃存(flashram)。內(nèi)存是計算機可讀介質(zhì)的示例。計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括，但不限于相變內(nèi)存(pram)、靜態(tài)隨機存取存儲器(sram)、動態(tài)隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲、磁盒式磁帶，磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì)，可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定，計算機可讀介質(zhì)不包括非持續(xù)性的電腦可讀媒體(transitorymedia)，如調(diào)制的數(shù)據(jù)信號和載波。

本申請實施例是參照根據(jù)本申請實施例的方法、終端設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個機器，使得通過計算機或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計算機可讀存儲器中，使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理終端設(shè)備上，使得在計算機或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理，從而在計算機或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本申請實施例的優(yōu)選實施例，但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念，則可對這些實施例做出另外的變更和修改。所以，所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請實施例范圍的所有變更和修改。

最后，還需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。

以上對本申請所提供的一種圖像文本的識別方法和一種圖像文本的識別裝置，進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個例對本申請的原理及實施方式進(jìn)行了闡述，以上實施例的說明只是用于幫助理解本申請的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本申請的思想，在具體實施方式及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本申請的限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：毛旭東;施興;褚崴;程孟力;周文猛
技術(shù)所有人：阿里巴巴集團(tuán)控股有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

圖像文本識別相關(guān)技術(shù)

圖像識別方法相關(guān)技術(shù)

圖像識別的方法相關(guān)技術(shù)

cnn圖像識別方法相關(guān)技術(shù)

圖像收發(fā)裝置相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種圖像文本的識別方法和裝置與流程