两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于脫機手寫漢字識別的漢字字符切分方法

文檔序號:6348390閱讀:813來源:國知局
專利名稱:用于脫機手寫漢字識別的漢字字符切分方法
技術(shù)領(lǐng)域
本發(fā)明涉及漢字識別領(lǐng)域,具體涉及脫機手寫體漢字識別中的漢字分割問題,尤其是粘連字符串的分割。
背景技術(shù)
漢字字符分割技術(shù)作為預處理中的一個難點,一直以來都是脫機漢字識別系統(tǒng)應用的障礙。只有將單個漢字正確地從文檔圖像中分割出來,才有可能進行正確的漢字識別。 然而,由于手寫體漢字書寫隨意性和相鄰漢字之間的位置關(guān)系復雜性,造成手寫體漢字要比印刷體漢字難分割得多,尤其是粘連字符的切分。目前,常用的切分技術(shù)有基于統(tǒng)計的切分方法、基于結(jié)構(gòu)的切分方法、基于識別的切分方法和基于詞的整體切分方法。
(1)基于統(tǒng)計的切分方法
基于統(tǒng)計的切分方法是根據(jù)字符的總體統(tǒng)計分布特征,確定字符之間的界線,判別時以字符的平均字寬作輔助判別,統(tǒng)計分布特征的代表性和穩(wěn)定性對切分的正確性及收斂性起很重要作用,如投影法和連通域法,該方法適合漢字字符間距較寬,無粘連字符的切分,算法效率高。該方法無法用于粘連或交叉字符串的切分。
(2)基于筆劃結(jié)構(gòu)的切分方法
近年來,針對粘連手寫漢字提出了多種切分方法。采用基于筆劃結(jié)構(gòu)切分是一種很有潛力的切分方法,可以從另一個角度解決筆畫粘連問題。常見的筆畫分割方法有筆畫連接盒的動態(tài)算法和黑游程跟蹤提取筆畫算法兩種。有學者提出采用先提取筆畫再合并的方法,但該方法對漢字切分的好壞很大程度上依賴于筆畫提取的好壞,如何有效地提取筆劃信息仍有待進一步研究,此外筆畫先提取后合并使算法過于復雜。即該方法的主要應用障礙在于準確提取筆劃難度較大。
(3)基于漢字識別的切分方法
在模仿人類視覺感知機理的基礎(chǔ)上,基于識別的漢字統(tǒng)計切分方法為漢字切分提供了新思路,但由于該方法與后期識別密切相關(guān),算法復雜且漢字識別正確率有限,還有待進一步改善。
(4)基于詞整體分割的方法
基于詞的整體切分方法是為了繞開粘連漢字分割難度大這一難題,直接將粘連漢字做整體分割進行識別,可較好應用于有限字符集。但對大字符集漢字識別而言,漢字集本身就很大,由單字組成的詞語更多,需要的模式庫更大,系統(tǒng)效率會更低。并且詞只是粘連漢字中的一部分,如何解決非詞語的粘連識別問題,都需要進一步研究。
對于粘連或交叉的漢字切分,單單采用一種方法是難以獲得高的準確分割率的, 于是人們開始尋找將多種方法結(jié)合起來進行漢字切分。最初,有學者提出了一種粗切分和細切分相結(jié)合的技術(shù)方案,首先通過某種方法得到粗切分結(jié)果,再對粘連字符串的背景圖像作細化處理,找出特征點,利用模糊決策準則求出合理的分割路徑,然而這種評價分割路徑的模糊決策標準不易被確定。而且這種方法采用了直線作為分割路徑。隨著研究的深入,直線作為粘連字符的分割路徑已逐漸不被學者采用,人們逐漸開始采用曲線或分線段作為粘連字符的分割路徑。有學者提出了利用Viterbi算法將原字符串切分成互不連通的分割塊,對于其中寬度較大且存在粘連字符的分割塊,從候選分割點入手,用非線性分割路徑將粘連部分分開;最后再應用A*算法找到全局最佳分割位置。該方法對于交錯、單處筆劃粘連等字符能夠得到較好的分割效果,但并未從根本上解決多種粘連方式的分割問題。最近幾年人們開始將遺傳算法引入到字符分割技術(shù)中,遺傳算法被用來尋找最優(yōu)分割路徑,由于遺傳算法是一種典型的隨機算法,其算法可適應于多種情況,具有很好的魯棒性,此類方法較好的解決了多處粘連或交叉的情況,但正是由于算法本身的隨機性,使算法的效率較低。作為實際應用的技術(shù)而言,效率是一個主要的影響因素。
總之,現(xiàn)有的多步切分技術(shù)都具有以下共同的特點基本都是先通過某種方法獲取候選分割路徑,然后采用某種判優(yōu)方法選取最佳的分割路徑。這種串行模式不足是,如果在兩個粘連字符之間沒有獲得候選分割路徑,則準確地進行分割則無從談起。另外,即使獲取了候選分割路徑,如果候選分割路徑中沒有合適的分割路徑,即使通過判優(yōu)規(guī)則獲取一個相對較好的分割路徑,但最終結(jié)果仍無法獲得準確的分割。再則,如果獲取的多個候選路徑中,存在一個合適的分割路徑,但判優(yōu)規(guī)則的判優(yōu)準確性亦不是百分之百。因此,需要尋找新的技術(shù)思路來解決這種串行模式的不足。發(fā)明內(nèi)容
本發(fā)明的發(fā)明目的是提供一種用于脫機手寫漢字識別的漢字字符切分方法,以解決非粘連漢字和粘連漢字的分割問題,而且具有較高的效率。
為達到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是一種用于脫機手寫漢字識別的漢字字符切分方法,用于對粘連和非粘連的漢字字符進行切分以識別漢字,包括下列步驟
(1)對待識別的漢字圖像進行預處理,所述預處理包括對圖像進行二值化處理;
(2)基于投影分析對漢字圖像進行粗分割,將非粘連的字符分割成單個字符,將粘連的字符整體分割;
(3)獲得非粘連字符的平均高度;
(4)根據(jù)步驟( 獲得的非粘連字符的平均高度,對步驟( 分割后的字符進行判斷,得到粘連字符串集;
(5)對于粘連字符串集中的每一粘連字符串,基于最小加權(quán)分割路徑進行細切分, 實現(xiàn)粘連字符的切分。
上文中,步驟(1)的預處理有利于減少干擾信息,提高分割效率。通常,首先利用圖像獲取設(shè)備(如掃描儀、照相機或其它圖像輸入裝置)取得彩色或灰度圖像,該彩色或灰度圖像中具有待識別的漢字信息,圖像先進行二值化處理,將前景(漢字)和背景分開;為提高字符分割的準確性,可以對二值化后的圖像進行濾波去噪處理,以降低噪音對漢字分割的影響。步驟O)中的粗分割將經(jīng)過預處理的二值化圖像進行初始分割,采用投影分析算法,利用波谷和波峰進行漢字字符的粗分割,即可將非粘連的字符準確地分割成單個字符,而將粘連的字符作為一個整體分割成粘連字符串。對步驟( 分割后的字符應當進行判定分類,分成非粘連字符和粘連字符兩類,以便作進一步處理。最后,基于最小加權(quán)分割路徑在初始分割路徑的局部鄰域內(nèi)搜索并修正,獲得最佳分割路徑,實現(xiàn)粘連字符的切分。
上述技術(shù)方案中,步驟O)中,所述基于投影分析對漢字圖像進行粗分割的方法是,通過對二值化的圖像前景點的計數(shù),獲得前景點的Y軸方向的投影直方圖,用不存在任何前景點投影的波谷作為字符的分割空隙,實現(xiàn)字符的粗分割。
步驟(3)中,非粘連字符的平均高度的獲得方法是,統(tǒng)計分割后每個字符的高度, 獲得字符高度集H= (hi;h2,h3,h4, Λ A,hn),式中hn為第η個字符的高度,對H進行歸一化處理,令4=2,其中j為丄至!!的整數(shù),0為整數(shù)且1彡σ彡Ilmil^hmin = HiinOvtvh3, σh4,Λ Λ,hn),h' i取表達式計算后的整數(shù)部分,歸一化后的高度按從小到大排列的集合為 H' = (h/ , h2',h3',h4',AA,hm'),其中任何兩個元素的值都不相等,C= (ci,c2, c3, c4, A A , cffl)記錄H’中不同高度出現(xiàn)的頻數(shù),取頻數(shù)最大值對應的歸一化高度為
權(quán)利要求
1.一種用于脫機手寫漢字識別的漢字字符切分方法,用于對粘連和非粘連的漢字字符進行切分以識別漢字,其特征在于,包括下列步驟(1)對待識別的漢字圖像進行預處理,所述預處理包括對圖像進行二值化處理;(2)基于投影分析對漢字圖像進行粗分割,將非粘連的字符分割成單個字符,將粘連的字符整體分割;(3)獲得非粘連字符的平均高度;(4)根據(jù)步驟C3)獲得的非粘連字符的平均高度,對步驟( 分割后的字符進行判斷, 得到粘連字符串集;(5)對于粘連字符串集中的每一粘連字符串,基于最小加權(quán)分割路徑進行細切分,實現(xiàn)粘連字符的切分。
2.根據(jù)權(quán)利要求1所述的用于脫機手寫漢字識別的漢字字符切分方法,其特征在于 步驟O)中,所述基于投影分析對漢字圖像進行粗分割的方法是,通過對二值化的圖像前景點的計數(shù),獲得前景點的Y軸方向的投影直方圖,用不存在任何前景點投影的波谷作為字符的分割空隙,實現(xiàn)字符的粗分割。
3.根據(jù)權(quán)利要求1所述的用于脫機手寫漢字識別的漢字字符切分方法,其特征在于 步驟(3)中,非粘連字符的平均高度的獲得方法是,統(tǒng)計分割后每個字符的高度,獲得字符高度集H= (hi;h2,h3,h4, Λ Λ,hn),式中hn為第η個字符的高度,對H進行歸一化處理,令《=2,其中j為1至η的整數(shù),σ為整數(shù)且1彡σ彡hmin,hmin = min (h” h2,h3,h4,Λ Λ, σhn),h' 1取表達式計算后的整數(shù)部分,歸一化后的高度按從小到大排列的集合為H'= Qi1' , h2',h3',h4' , A A,hffl' ^其中任何兩個元素的值都不相等^=^,^, A A,cffl)記錄H’中不同高度出現(xiàn)的頻數(shù),取頻數(shù)最大值對應的歸一化高度為h' k,則非粘hk'+SVc χ/;‘連字符的平均高度是‘_^Xj-S7其中,(V -5,hk' +δ)表示hk'(Chk '-S + Chk '-(5+1+Λ Λ +cK'+S J的局部鄰域J = ^l。 2σ
4.根據(jù)權(quán)利要求1所述的用于脫機手寫漢字識別的漢字字符切分方法,其特征在于 步驟中,判斷的方法為,逐一計算分割出來的字符的高度與非粘連字符的平均高度的比值E,gE< ε,則該字符為非粘連字符,若E > ε,則該字符為非粘連字符,其中,ε為預先設(shè)定的閾值,其設(shè)定范圍為0< ε <2。
5.根據(jù)權(quán)利要求4所述的用于脫機手寫漢字識別的漢字字符切分方法,其特征在于 1. 5 < ε <2。
6.根據(jù)權(quán)利要求1所述的用于脫機手寫漢字識別的漢字字符切分方法,其特征在于 步驟(5)中,所述細切分的方法為,定義粘連字符的分割路徑SPL為 式中,characterwidth是粘連字符串的寬度,i表示最優(yōu)分割路徑搜索范圍中的第i個(5),Xi是第- 個像素Yuvver = Ycer1upper cey.,ter ~ 0ΧY - Y lower cer,1 ,H--χ "er 10X力I口俾懷,Yi 7characterheight characterheight(6) (7)characterheight是粘連字符串的高度,Ycenter是粘連字符中心點的縱坐標,定義帶權(quán)值的分割路徑SPLW為SPLff = ((x1 Y1, W1), (x2, j2, w2), (x3, y3, w3), A (xn, yn, wn)) (8) 其中, else將兩個粘連字符的中線作為初始分割路徑,獲得初始化的SPLWJf SPLW中一段連續(xù)的前景區(qū)域元素集合定義為CFR,CFR為SPLW的子集,CFR中的元素權(quán)值都是1 ;其定義如下 對初始化的SPLW進行掃描,如果找到連續(xù)的前景區(qū)域CFR,則以該CFR的起點橫坐標為起點,終點橫坐標為終點,掃描從Y1mct到Y(jié)uppct的每一行的對應橫坐標區(qū)間,獲得每一行的元素權(quán)值和,以權(quán)值和最小的行對應的點代替該CFR,更新SPLW,重復上述過程,直至完成對SPLW的掃描,由此獲得對應的最佳分割路徑。
全文摘要
本發(fā)明公開了一種用于脫機手寫漢字識別的漢字字符切分方法,其特征在于,包括下列步驟(1)對待識別的漢字圖像進行預處理,所述預處理包括對圖像進行二值化處理;(2)基于投影分析對漢字圖像進行粗分割,將非粘連的字符分割成單個字符,將粘連的字符整體分割;(3)獲得非粘連字符的平均高度;(4)根據(jù)步驟(3)獲得的非粘連字符的平均高度,對步驟(2)分割后的字符進行判斷,得到粘連字符串集;(5)對于粘連字符串集中的每一粘連字符串,基于最小加權(quán)分割路徑進行細切分,實現(xiàn)粘連字符的切分。本發(fā)明可以有效地自適應分割粘連漢字字符和非粘連漢字字符,具有較高的分割準確率和分割效率。
文檔編號G06K9/20GK102496013SQ20111035739
公開日2012年6月13日 申請日期2011年11月11日 優(yōu)先權(quán)日2011年11月11日
發(fā)明者劉純平, 周雙飛, 季怡, 王朝暉, 蔣德茂, 龔聲蓉 申請人:蘇州大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
昆明市| 靖西县| 清徐县| 县级市| 富源县| 靖安县| 当雄县| 忻州市| 荆门市| 谢通门县| 清涧县| 平武县| 武川县| 积石山| 丽江市| 鹰潭市| 富源县| 宁远县| 安吉县| 新余市| 潞西市| 丹凤县| 五原县| 黑龙江省| 邹平县| 从江县| 西乡县| 九龙县| 甘孜县| 巴南区| 石台县| 饶平县| 上虞市| 吕梁市| 突泉县| 蓬莱市| 社会| 安西县| 顺义区| 华坪县| 广水市|