專利名稱::一種用于聯(lián)機(jī)手寫漢字識別的漢字筆畫特征串行提取方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于聯(lián)機(jī)手寫漢字識別
技術(shù)領(lǐng)域:
,特別是涉及一種用于聯(lián)機(jī)手寫漢字識別的筆畫特征提取方法。
背景技術(shù):
:聯(lián)機(jī)手寫漢字識別是指用戶一邊書寫一邊識別。一般是指用戶通過手寫輸入設(shè)備(比如手寫板、觸摸屏、鼠標(biāo)等)書寫漢字,同時(shí)計(jì)算機(jī)將手寫輸入設(shè)備采集到的漢字書寫軌跡轉(zhuǎn)換為相應(yīng)的漢字機(jī)器內(nèi)碼的識別技術(shù)。按書寫限制的程度,一般可以分為限制性手寫體(如限制筆順,橫平豎直,沒有連筆),手寫印刷體(指書寫工整的漢字),行書手寫體(指有部分筆畫變形和連筆的漢字),草書手寫體(指大部分筆畫變形以及幾乎完全連筆書寫的漢字)。這幾種手寫體的識別難度依次增大,以草書手寫體的識別難度最大。因?yàn)椴輹謱戵w的漢字字型通常已經(jīng)和原漢字字形有了較大的不同,不僅表現(xiàn)在筆畫的變形上,還表現(xiàn)在漢字結(jié)構(gòu)的變形上。這些變形一般是由于書寫者為了達(dá)到更快、更流暢的書寫速度而在原有漢字字形的基礎(chǔ)上改變而來的。因此在以上幾種手寫體漢字中,以草書手寫體的書寫速度最快,因而這種書寫方式也是人們最樂于接受的一種書寫方式。已有的漢字識別方法大多數(shù)是基于漢字筆畫來進(jìn)行識別的,比如中國發(fā)明專利98106953.3號專利《手寫漢字識別方法及裝置》、98108373.0號專利《文字識別裝置及文字識別方法》以及98122949.2號專利《一種無筆畫順序的手寫字符辨識系統(tǒng)》等專利使用的方法都依賴于筆畫的正確提取與識別,而草書手寫體漢字不但連筆書寫,大部分筆畫變形嚴(yán)重,而且有很多短的筆畫會(huì)被省去,因此以上識別方法無法很好地解決草書手寫體漢字的識別。目前,識別草書手寫體漢字的一種比較有效的方法是,對聯(lián)機(jī)手寫漢字使用虛擬筆畫技術(shù)后再提取漢字的點(diǎn)特征。虛擬筆畫技術(shù)最早由日本學(xué)者M(jìn).Okamoto等人提出,方法是采用虛擬的點(diǎn)將所有筆畫連接在一起,目的是模擬人的草書習(xí)慣,統(tǒng)一手寫漢字的風(fēng)格。虛擬筆畫技術(shù)雖然起到一定效果,但已經(jīng)被證實(shí)會(huì)損失相當(dāng)一部分漢字的識別率,有待改進(jìn)。
發(fā)明內(nèi)容本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種使得識別結(jié)構(gòu)精確度較高的用于聯(lián)機(jī)手寫漢字識別的筆畫特征提取方法,特別是用于聯(lián)機(jī)手寫草書字體識別的筆畫特征提取方法。為了實(shí)現(xiàn)上述發(fā)明目的,采用的技術(shù)方案如下一種用于聯(lián)機(jī)手寫漢字識別的漢字筆畫特征串行提取方法,包括如下步驟(1)對聯(lián)機(jī)手寫漢字的時(shí)間序列進(jìn)行真實(shí)筆畫和虛擬筆畫處理,即在所有相鄰且斷開的真實(shí)筆畫間加入虛擬筆畫,構(gòu)成一個(gè)連續(xù)的書寫軌跡,得到有虛擬筆畫的時(shí)間序列,同時(shí)保留不添加任何虛擬筆畫點(diǎn)的時(shí)間序列副本,即無虛擬筆畫的時(shí)間序列;(2)根據(jù)步驟(1)得到的有虛擬筆畫的時(shí)間序列和無虛擬筆畫的時(shí)間序列,提取出聯(lián)機(jī)手寫漢字的虛擬筆畫特征和無虛擬筆畫特征;(3)對步驟(2)提取到的兩個(gè)特征,采用串行融合的方法產(chǎn)生最終的筆畫特征,具體的串行融合方法如下令z和;r分別是虛擬筆畫特征矢量和無虛擬筆畫特征矢量,其中,xeo,YeT,(D、W分別指虛擬筆畫特征用于訓(xùn)練的空間集合和無虛擬筆畫特征用于訓(xùn)練的空間集合,z,表示采用串行融合的方法獲取到的新的特征,則z,的獲取方法用如下公式表示<formula>formulaseeoriginaldocumentpage7</formula>其中<formula>formulaseeoriginaldocumentpage7</formula>為變換矩陣,K和R分別是虛擬筆畫訓(xùn)練集空間o和無虛擬筆畫訓(xùn)練集空間甲的變換矩陣,^和、分別是R和^的權(quán)重。上述技術(shù)方案中,所述R和^的取值包括如下兩種方式(1)R=^=/,表示直接對原始特征Z和y進(jìn)行線性組合,/代表單位矩陣;(2)^=^=f^_z,表示先對原始特征Z和y進(jìn)行線性組合,再將組合后的特征進(jìn)行LDA訓(xùn)練,得到一個(gè)最佳投影變換矩陣P^。j,利用『^—,產(chǎn)生新的特征矢量。本發(fā)明所述步驟(1)在進(jìn)行真實(shí)筆畫和虛擬筆畫處理之前還包括對聯(lián)機(jī)手寫漢字的時(shí)間序列進(jìn)行如下的預(yù)處理步驟線性歸一化,用比值線性歸一化的方法,把時(shí)間序列歸一化到固定的64X64像素的尺寸。預(yù)處理步驟是為了消除不同用戶書寫同一漢字的區(qū)別,對于不同的用戶,書寫出來的同一個(gè)漢字會(huì)有很大的不同,預(yù)處理的目的是盡可能去除同一類別中不同漢字樣本的差別。本發(fā)明所述步驟(1)在進(jìn)行真實(shí)筆畫和虛擬筆畫處理之后還包括對得到的有虛擬筆畫的時(shí)間序列和無虛擬筆畫的時(shí)間序列進(jìn)行重采樣,將每個(gè)樣本的數(shù)據(jù)采樣點(diǎn)序列用固定的距離重新采樣。重采樣的目的是減少歸一化后漢字樣本數(shù)據(jù)中連續(xù)點(diǎn)的距離的變化和一個(gè)筆畫的采樣點(diǎn)的數(shù)目變化。同樣可消除不同用戶書寫同一漢字的區(qū)別。本發(fā)明所述步驟(2)對于每一個(gè)時(shí)間序列,具體的特征提取方法如下(I)定義二維平面內(nèi)的八種方向,包括東、西、南、北、東南、西南、東北和西北,計(jì)算時(shí)間序列中每一點(diǎn)的方向特征,點(diǎn)的方向特征定義為從當(dāng)前點(diǎn)的前驅(qū)到后續(xù)前一個(gè)點(diǎn)到后一個(gè)點(diǎn)的一個(gè)矢量,最后將每一點(diǎn)的方向特征映射到平面內(nèi)的八個(gè)方向,得到八個(gè)方向的模式圖像,具體的映射方法是分解點(diǎn)特征矢量到最鄰近的兩個(gè)方向;(II)把每個(gè)時(shí)間序列看成一幅圖像,通過把漢字圖像在水平和垂直兩個(gè)方向上的直方圖投影畫出8x8的全局彈性網(wǎng)格,使得每一列網(wǎng)格在水平方向上的直方圖投影累積量相等,每一行網(wǎng)格在垂直方向上的直方圖投影累積量相等,根據(jù)這64個(gè)彈性網(wǎng)格,在步驟(I)中得到八個(gè)模式圖像中提取網(wǎng)格特征,每一個(gè)序列都得到512維的特征矢量;(III)根據(jù)步驟(I)和(11),每一手寫漢字都提取出兩個(gè)512維的特征矢量,分別代表該手寫漢字的虛擬筆畫特征和無虛擬筆畫特征。本發(fā)明與已有的聯(lián)機(jī)手寫漢字特征提取方法相比,具有如下的優(yōu)點(diǎn)和有益效果(1)、融合了手寫漢字虛擬筆畫特征和無虛擬筆畫特征,使得融合后的新特征更能夠代表所書寫的漢字,因此能很好地解決當(dāng)前虛擬筆畫技術(shù)容易造成相當(dāng)一部分漢字識別性能下降的問題;(2)、采用本發(fā)明的方法提取到的融合的特征具有更優(yōu)異的性能,通過不同的分類器測試,結(jié)果顯示本發(fā)明更加準(zhǔn)確識別連筆草書。圖1是本發(fā)明的特征提取方法流程框圖。具體實(shí)施方式下面結(jié)合附圖對本發(fā)明做進(jìn)一步的說明。實(shí)施本發(fā)明所用的識別設(shè)備可以采用手寫板書寫漢字,用計(jì)算機(jī)進(jìn)行識別,用純平型顯示器顯示用戶圖形界面,可采用0^++語言編制各類處理程序,便能較好地實(shí)施本發(fā)明。本發(fā)明的手寫漢字特征提取方法如附圖1所示。首先對聯(lián)機(jī)手寫漢字進(jìn)行預(yù)處理。在預(yù)處理包含如下三個(gè)步驟(1)線性歸一化。用比值線性歸一化的方法,把樣本的時(shí)間序列歸一化到固定的64X64像素的尺寸;(2)虛擬筆畫處理。定義虛擬筆畫為從一個(gè)真實(shí)筆畫的結(jié)束點(diǎn)到下一個(gè)真實(shí)筆畫的開始點(diǎn)的一條虛直線。在所有相鄰且斷幵的真實(shí)筆畫間加入虛擬筆畫,構(gòu)成一個(gè)連續(xù)的書寫軌跡,得到有虛擬筆畫的時(shí)間序列;同時(shí)保留不添加任何虛擬筆畫點(diǎn)的時(shí)間序列副本,即無虛擬筆畫的時(shí)間序列;(3)對步驟(2)得到的兩個(gè)時(shí)間序列進(jìn)行重采樣。重采樣的目的是減少歸一化后漢字樣本數(shù)據(jù)中連續(xù)點(diǎn)的距離的變化和一個(gè)筆畫的采樣點(diǎn)的數(shù)目變化。每個(gè)樣本的數(shù)據(jù)采樣點(diǎn)序列用固定的距離重新采樣。接著,通過預(yù)處理步驟從同一個(gè)手寫樣本漢字中,得到兩個(gè)時(shí)間序列,分別是有虛擬筆畫的時(shí)間序列和無虛擬筆畫的時(shí)間序列,然后提取這里兩個(gè)時(shí)間序列的方向特征,分別稱之為聯(lián)機(jī)手寫漢字的虛擬筆特征和無虛擬筆畫特征。提取時(shí)間序列的方向特征方法如下(I)定義二維平面內(nèi)有八種方向,東、西、南、北,東南、西南、東北和西北。計(jì)算序列中每一點(diǎn)的方向特征,點(diǎn)的方向特征定義從當(dāng)前點(diǎn)的前驅(qū)到后續(xù)的一個(gè)矢量。最后將每一點(diǎn)的方向特征映射到平面內(nèi)的八個(gè)方向,得到八個(gè)方向的模式圖像。映射的方法是分解點(diǎn)特征矢量到最鄰近的兩個(gè)方向。(II)把每個(gè)序列看出一幅圖像,通過把漢字圖像在水平和垂直兩個(gè)方向上的直方圖投影畫出8x8的全局彈性網(wǎng)格,使得每一列網(wǎng)格在水平方向上的直方圖投影累積量相等,每一行網(wǎng)格在垂直方向上的直方圖投影累積量相等,根據(jù)這64個(gè)彈性網(wǎng)格,在步驟(I)中得到8個(gè)模式圖像中提取網(wǎng)格特征。最后,每一個(gè)序列都可以得到512維的特征矢量。最后,采用串行融合的方法融合聯(lián)機(jī)手寫漢字的虛擬筆特征和無虛擬筆畫特征,產(chǎn)生新的特征。同樣設(shè)義和r是分別是提取到的聯(lián)機(jī)手寫漢字虛擬筆畫特征矢量和無虛擬筆畫特征矢量,其中,XeO,!^T,①、中分別指虛擬筆畫特征用于訓(xùn)練的空間集合和無虛擬筆畫特征用于訓(xùn)練的空間集合,22表示采用并行融合的方法獲取到的新的特征,則^的獲取方法可以用如下公式表示-Z2=『2(1=ow乂(zjy=,J,、『"其中R和^分別是虛擬筆畫訓(xùn)練集空間0和無虛擬第畫訓(xùn)練集空間vp的變換矩陣,^和、分別是R和^的權(quán)重。^和^的取值有如下三種情況①^=^=/。表示直接對原始特征義和r進(jìn)行線性拼接。這里說的拼接是指將兩個(gè)矢量加權(quán)后,前后連接成一個(gè)新矢量;②k=^=『w。_z。表示先對原始特征x和:r進(jìn)行線性拼接,'再將相加后的特征進(jìn)行LDA訓(xùn)練,得到一個(gè)最佳投影變換矩陣^^,利用巧。h產(chǎn)生新的特征選取上述①②中一種方法,即可提取到采用串行融合的方法的新特征。本發(fā)明的優(yōu)異性能通過大樣本和大類別的實(shí)驗(yàn)得到了證實(shí)。下面描述采用本發(fā)明所述的特征提取方法,對大量聯(lián)機(jī)手寫漢字樣本的進(jìn)行相關(guān)實(shí)驗(yàn)的結(jié)果實(shí)驗(yàn)采用了華南理工大學(xué)人機(jī)通信與智能接口實(shí)驗(yàn)室的SCUT-COUCH聯(lián)機(jī)手寫樣本數(shù)據(jù)庫中的GB2312-80—二級漢字樣本子集。該子集包含168位不同書寫者的漢字樣本,每位書寫者在自然狀態(tài)下獨(dú)立完成6763個(gè)GB2312-80—二級漢字的書寫。實(shí)驗(yàn)對6763個(gè)漢字類別進(jìn)行測試,每個(gè)類別有168套樣本。每個(gè)類隨機(jī)選取134套樣本(占每類總樣本數(shù)的80%)進(jìn)行訓(xùn)練,總訓(xùn)練樣本數(shù)為卯6,242個(gè);余下34套樣本用于測試,總的測試樣本數(shù)目為229,942個(gè)。在實(shí)驗(yàn)中,同時(shí)測試了三種與虛擬筆畫技術(shù)相關(guān)的手寫漢字特征提取方法的識別率,分別是傳統(tǒng)的無虛擬筆畫特征提取方法,傳統(tǒng)的虛擬筆畫特征提取方法,以及本發(fā)明的串行融合虛擬筆畫及無虛擬筆畫技術(shù)的特征提取方法,識別采用的分類器為最小歐氏距離分類器。通過下面兩種方法測試特征識別率①直接對原始特征進(jìn)行測試;取其變換矩陣為K=^=/;②先對原始特征LDA訓(xùn)練并降成同一維數(shù)得到新的特征矢量。取其變換矩陣為^=^=^。—z;表1三種手寫漢字特征提取方法識別率比較<table>tableseeoriginaldocumentpage11</column></row><table>由表1可以看到,采用本發(fā)明提出的特征提取方法,其識別率明顯高于傳統(tǒng)的不加虛擬筆畫的手寫漢字特征,和僅采用虛擬筆畫的手寫漢字特征,因此,實(shí)驗(yàn)結(jié)果顯示了本發(fā)明所述的方法獲得的手寫漢字特征在性能方面,是明顯優(yōu)于傳統(tǒng)的無虛擬筆畫特征或者虛擬筆畫特征的。權(quán)利要求1、一種用于聯(lián)機(jī)手寫漢字識別的漢字筆畫特征串行提取方法,其特征在于包括如下步驟(1)對聯(lián)機(jī)手寫漢字的時(shí)間序列進(jìn)行真實(shí)筆畫和虛擬筆畫處理,即在所有相鄰且斷開的真實(shí)筆畫間加入虛擬筆畫,構(gòu)成一個(gè)連續(xù)的書寫軌跡,得到有虛擬筆畫的時(shí)間序列,同時(shí)保留不添加任何虛擬筆畫點(diǎn)的時(shí)間序列副本,即無虛擬筆畫的時(shí)間序列;(2)根據(jù)步驟(1)得到的有虛擬筆畫的時(shí)間序列和無虛擬筆畫的時(shí)間序列,提取出聯(lián)機(jī)手寫漢字的虛擬筆畫特征和無虛擬筆畫特征;(3)對步驟(2)提取到的兩個(gè)特征,采用串行融合的方法產(chǎn)生最終的筆畫特征,具體的串行融合方法如下令X和Y分別是虛擬筆畫特征矢量和無虛擬筆畫特征矢量,其中,X∈Φ,Y∈Ψ,Φ、Ψ分別指虛擬筆畫特征用于訓(xùn)練的空間集合和無虛擬筆畫特征用于訓(xùn)練的空間集合,Z2表示采用串行融合的方法獲取到的新的特征,則Z2的獲取方法用如下公式表示<mathsid="math0001"num="0001"><math><![CDATA[<mrow><msub><mi>Z</mi><mn>2</mn></msub><mo>=</mo><msub><mi>W</mi><mn>2</mn></msub><msup><mfencedopen='('close=')'><mtable><mtr><mtd><mi>X</mi></mtd><mtd><mi>Y</mi></mtd></mtr></mtable></mfenced><mi>T</mi></msup><mo>=</mo><mfencedopen='('close=')'><mtable><mtr><mtd><msub><mi>k</mi><mi>x</mi></msub><msub><mi>W</mi><mi>x</mi></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><msub><mi>k</mi><mi>y</mi></msub><msub><mi>W</mi><mi>y</mi></msub></mtd></mtr></mtable></mfenced><msup><mfencedopen='('close=')'><mtable><mtr><mtd><mi>X</mi></mtd><mtd><mi>Y</mi></mtd></mtr></mtable></mfenced><mi>T</mi></msup><mo>=</mo><mrow><mo>(</mo><msub><mi>k</mi><mi>x</mi></msub><msub><mi>W</mi><mi>x</mi></msub><mi>X</mi><mo>,</mo><msub><mi>k</mi><mi>y</mi></msub><msub><mi>W</mi><mi>y</mi></msub><mi>Y</mi><mo>)</mo></mrow></mrow>]]></math></maths>其中<mathsid="math0002"num="0002"><math><![CDATA[<mrow><msub><mi>W</mi><mn>2</mn></msub><mo>=</mo><mfencedopen='('close=')'><mtable><mtr><mtd><msub><mi>k</mi><mi>x</mi></msub><msub><mi>W</mi><mi>x</mi></msub></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><msub><mi>k</mi><mi>y</mi></msub><msub><mi>W</mi><mi>y</mi></msub></mtd></mtr></mtable></mfenced></mrow>]]></math>id="icf0002"file="A2009100410460002C2.tif"wi="29"he="12"top="197"left="39"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>為變換矩陣,Wx和Wy分別是虛擬筆畫訓(xùn)練集空間Φ和無虛擬筆畫訓(xùn)練集空間Ψ的變換矩陣,kx和ky分別是Wx和Wy的權(quán)重。2、根據(jù)權(quán)利要求1所述的漢字筆畫特征提取方法,其特征在于所述R和^的取值包括如下兩種方式(1)R表示直接對原始特征X和y進(jìn)行線性組合;(2)R=^=『w。—z,表示先對原始特征Z和y進(jìn)行線性組合,再將組合后的特征進(jìn)行LDA訓(xùn)練,得到一個(gè)最佳投影變換矩陣W^?!獄,利用『&」產(chǎn)生新的特征矢量。3、根據(jù)權(quán)利要求1或2所述的漢字筆畫特征提取方法,其特征在于所述步驟(1)在進(jìn)行真實(shí)筆畫和虛擬筆畫處理之前還包括對聯(lián)機(jī)手寫漢字的時(shí)間序列進(jìn)行如下的預(yù)處理步驟線性歸一化,用比值線性歸一化的方法,把時(shí)間序列歸一化到固定的64X64像素的尺寸。4、根據(jù)權(quán)利要求3所述的漢字筆畫特征提取方法,其特征在于所述步驟(l)在進(jìn)行真實(shí)筆畫和虛擬筆畫處理之后還包括對得到的有虛擬筆畫的時(shí)間序列和無虛擬筆畫的時(shí)間序列進(jìn)行重采樣,將每個(gè)樣本的數(shù)據(jù)采樣點(diǎn)序列用固定的距離重新采樣。5、根據(jù)權(quán)利要求4所述的漢字筆畫特征提取方法,其特征在于所述步驟(2)對于每一個(gè)時(shí)間序列,具體的特征提取方法如下(I)定義二維平面內(nèi)的八種方向,包括東、西、南、北、東南、西南、東北和西北,計(jì)算時(shí)間序列中每一點(diǎn)的方向特征,點(diǎn)的方向特征定義為從當(dāng)前點(diǎn)的前驅(qū)前一個(gè)點(diǎn)到后一個(gè)點(diǎn)的一個(gè)矢量,最后將每一點(diǎn)的方向特征映射到平面內(nèi)的八個(gè)方向,得到八個(gè)方向的模式圖像,具體的映射方法是分解點(diǎn)特征矢量到最鄰近的兩個(gè)方向;(II)把每個(gè)時(shí)間序列看成一幅圖像,通過把漢字圖像在水平和垂直兩個(gè)方向上的直方圖投影畫出8x8的全局彈性網(wǎng)格,使得每一列網(wǎng)格在水平方向上的直方圖投影累積量相等,每一行網(wǎng)格在垂直方向上的直方圖投影累積量相等,根據(jù)這64個(gè)彈性網(wǎng)格,在步驟(I)中得到八個(gè)模式圖像中提取網(wǎng)格特征,每一個(gè)序列都得到512維的特征矢量;(III)根據(jù)步驟(I)和(11),每一手寫漢字都提取出兩個(gè)512維的特征矢量,分別代表該手寫漢字的虛擬筆畫特征和無虛擬筆畫特征。全文摘要本發(fā)明提供一種用于聯(lián)機(jī)手寫漢字識別的漢字筆畫特征串行提取方法,其方法主要通過對聯(lián)機(jī)手寫漢字的時(shí)間序列進(jìn)行真實(shí)筆畫和虛擬筆畫處理,進(jìn)而提取用于文字識別的筆畫特征。本發(fā)明融合聯(lián)機(jī)手寫漢字的虛擬筆畫特征和無虛擬筆畫特征,采用融合后的特征進(jìn)行聯(lián)機(jī)手寫體識別,可以大大提高對連筆草書漢字的識別效果,不僅能識別規(guī)范書寫的漢字,也能夠?qū)B筆草書漢字進(jìn)行識別,故而可以讓用戶無限制地自由書寫漢字。文檔編號G06K9/68GK101604378SQ20091004104公開日2009年12月16日申請日期2009年7月10日優(yōu)先權(quán)日2009年7月10日發(fā)明者鄧國強(qiáng),金連文申請人:華南理工大學(xué)