本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種在自然場景圖像中的中文定位,分割和識別方法。
背景技術(shù):
自然場景下的文本識別是一種非常重要的視覺檢測目標(biāo),圖像中的文本存有很多有用的信息,對視覺內(nèi)容理解和獲取至關(guān)重要。目前有很多相關(guān)的文本識別的應(yīng)用,包括路標(biāo)、車牌、票據(jù)等等。
一般來說,傳統(tǒng)的ocr技術(shù)受自然場景復(fù)雜的背景影響,很難正確完成相關(guān)的任務(wù)。整體上來說,此類任務(wù)可以分為兩個(gè)階段,文本的定位和識別。文本的定位是對圖像中文本位置的精確定位,主要是根據(jù)提取相關(guān)的文字特征,如msers,來區(qū)分字段和背景。目前相對于傳統(tǒng)的基于文字特征的檢測方法,也出現(xiàn)了通過對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)文本定位的方法。不過此種方法往往需要大量的人工標(biāo)注數(shù)據(jù)用于訓(xùn)練,同時(shí)訓(xùn)練好的模型也很難直接擴(kuò)展到更多其他的應(yīng)用場景中。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的首要目的在于提供一種簡單、有效,可以擴(kuò)展應(yīng)用更多場景的一種自然場景圖像中的中文定位、分割和識別方法。
為了實(shí)現(xiàn)上目的,本發(fā)明采用的技術(shù)方案是:一種自然場景圖像中的中文定位,分割及識別方法,包括以下步驟:
1)通過fastext模型對原始圖片進(jìn)行初步的文字定位,提取候選的文字區(qū)域;
2)通過對候選的文字區(qū)域進(jìn)行預(yù)分割;
3)對預(yù)分割后的文字區(qū)域的單字部分進(jìn)行識別,字段部分進(jìn)行進(jìn)一步的單字分割并加以識別。
進(jìn)一步,候選的文字區(qū)域是通過fastext的getcharsegmentation功能進(jìn)行提取的。
進(jìn)一步,步驟2)中預(yù)分割的具體過程為:對候選的文字區(qū)域進(jìn)行聯(lián)通區(qū)域的標(biāo)定,去掉一些較小的聯(lián)通區(qū)域(噪聲)后,將符合中文字符長寬比的區(qū)域認(rèn)為是單字直接切出,取出剩下的聯(lián)通區(qū)域。
進(jìn)一步,步驟3)對預(yù)分割后的字段部分進(jìn)行進(jìn)一步的單字分割的具體過程為:
(1)通過對深度殘差神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到一個(gè)單字識別器resnet;
(2)通過單字識別器對預(yù)分割后獲得的單字結(jié)果直接進(jìn)行識別;
(3)對預(yù)分割后獲得的字段結(jié)果進(jìn)一步單字分割,利用fastext獲取字段圖片中候選字符的區(qū)域范圍,收集所有區(qū)域范圍中的豎直線,將其作為單字分割的候選切分線集合
(4)利用訓(xùn)練好的單字識別器resnet對任意一個(gè)單字分割方案(如
(5)選取平均置信度最高單字分割方案作為最優(yōu)單字分割方案;
(6)將最優(yōu)單字分割方案對應(yīng)的單字識別結(jié)果作為最優(yōu)字段識別方案,輸出相應(yīng)的字段識別結(jié)果。
進(jìn)一步,步驟(3)的每種路徑上的候選單字對應(yīng)的矩形框互不重疊且覆蓋所有fastext檢測出的文字筆畫。
本發(fā)明利用一種基于文字筆畫特征的文字筆畫檢測器fastext提取出候選單字和字段區(qū)域,然后在候選單字矩形框的基礎(chǔ)上,提出一種路徑樹的方法,生成候選的單字分割方案。對于每種單字分割方案,利用深度殘差神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的單字識別器resnet對單字分割方案對應(yīng)的所有單字進(jìn)行識別并記錄單字識別置信度,計(jì)算每種單字分割方案對應(yīng)的字段識別置信度,選取具有最高字段識別置信度的方案作為最終的單字分割和識別方案。本發(fā)明利用文字筆畫特征的準(zhǔn)確提取,以及深度殘差神經(jīng)網(wǎng)絡(luò)強(qiáng)大的文字識別能力,結(jié)合路徑樹的方法,簡單有效的實(shí)現(xiàn)中文定位和識別的目的,能夠應(yīng)用于多種自然場景且無需監(jiān)督訓(xùn)練。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:第一,針對中文字中較為明顯的筆畫結(jié)構(gòu)特征,采用fastext模型,通過對文字筆畫部分的檢測,從而實(shí)現(xiàn)文字區(qū)域的初步定位,這一步有效地去除了背景因素的影響。第二,由于獲取的候選區(qū)域中既有單字部分,也有字段部分。針對字段部分,本發(fā)明采用fastext對檢測出的候選字段區(qū)域進(jìn)行進(jìn)一步的單字分割,同時(shí)利用深度殘差神經(jīng)網(wǎng)絡(luò)對分割后的單字部分進(jìn)行識別,這種方法將字段的分割和單字的識別融合在一起,并且在嘗試所有候選分割方案的前提下,找出最優(yōu)方案,因而具有更高的魯棒性和精確性。
附圖說明
圖1是本發(fā)明的流程圖。
圖2是本發(fā)明對中文實(shí)例進(jìn)行定位、識別的效果圖。
具體實(shí)施方式
如圖1所示,本實(shí)施例提供一種自然場景圖像中的中文定位、分割和識別方法,流程可以分為以下幾個(gè)步驟:
1)通過fastext模型對原始圖片進(jìn)行初步的文字定位,提取候選的文字區(qū)域;
2)通過對候選的文字區(qū)域進(jìn)行預(yù)分割;
3)對預(yù)分割后的文字區(qū)域的單字部分進(jìn)行識別,字段部分進(jìn)行進(jìn)一步的單字分割并加以識別。
如圖2所示,其中圖(a)是原始圖片;步驟1利用fastext的getcharsegmentation功能提取候選圖像區(qū)域,提取圖像如圖(b)所示;步驟2的預(yù)分割操作具體為先確定步驟1提取出的聯(lián)通區(qū)域,在去掉一些較小的聯(lián)通區(qū)域(噪聲)后,將符合中文字符長寬比(接近1:1)的區(qū)域認(rèn)為是單字直接切出,然后再取出剩下的聯(lián)通區(qū)域(如圖(c));步驟3中,對于預(yù)分割獲得的單字結(jié)果可以直接利用單字識別器進(jìn)行識別,如圖(c)中的“口”、“貿(mào)”、“易”、“有”、“限”、“公”、“司”,而對于字段結(jié)果需要進(jìn)一步切分成單字,如圖(c)中的“上海中實(shí)進(jìn)出”,這里首先需要利用fastext獲取字段圖片中候選字符(labelcandidates)的區(qū)域范圍(regionbox)(如圖(d)所示);接著我們收集所有區(qū)域范圍中的豎直線,將其作為單字切分的候選切分線集合
下面結(jié)合具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。