專利名稱:一種使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法
一種使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法
背景技術(shù):
手寫漢字識別一般是指用戶通過手寫輸入設(shè)備(比如手寫板、觸摸屏、鼠標(biāo)等)書寫漢字,同時計(jì)算機(jī)將手寫輸入設(shè)備采集到的漢字書寫軌跡轉(zhuǎn)換為相應(yīng)的漢字機(jī)器內(nèi)碼的識別技術(shù)。傳統(tǒng)的手寫識別技術(shù)通常所采用的輸入方式為單字符識別,即書寫一個漢字識別一個漢字。使用的識別引擎與用戶無關(guān),即識別引擎事先通過大量的訓(xùn)練樣本訓(xùn)練出來, 對于不同用戶,識別引擎使用的模型及參數(shù)都是一樣的,事先由開發(fā)人員訓(xùn)練并設(shè)置好。由于采用了大數(shù)據(jù)量的訓(xùn)練樣本,所以識別引擎能滿足書寫規(guī)范的用戶的識別準(zhǔn)確率要求。 但是不同用戶的書寫風(fēng)格差異很大,每個用戶書寫風(fēng)格除了存在共性外,往往還包括自己個性化的地方,與用戶無關(guān)的識別引擎針對這類用戶時書寫漢字時,識別準(zhǔn)確率往往不盡人意,有待改進(jìn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服傳統(tǒng)的識別引擎無法適應(yīng)特定用戶的書寫風(fēng)格的不足,提供一種讓識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格從而提高識別率的方法。本發(fā)明采用的技術(shù)方案為
一種使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法,其步驟如下
(1)、選取用戶少量的增量書寫樣本;
(2)、對增量書寫樣本提取特征,并根據(jù)原始線性判決分析(LDA)模型對增量書寫樣本特征進(jìn)行線性判決分析(LDA)變換;
(3)、采用增量書寫樣本動態(tài)更新每個類別的均值向量;
(4)、采用增量書寫樣本動態(tài)更新每個類別的協(xié)方差矩陣;
(5)、根據(jù)新的均值向量和協(xié)方差矩陣,更新改進(jìn)的二次判決函數(shù)(MQDF)分類器。所述步驟(1)為選擇用戶少量的樣本,用于更新模板及識別引擎。用戶樣本的選擇應(yīng)能充分體現(xiàn)用戶的書寫風(fēng)格。設(shè)原始樣本為I 二 (i=i,…,對,#為樣本數(shù),并設(shè)其類別數(shù)是I;設(shè)增量書寫樣本為/ 二 {yj …,W,Z為增量樣本數(shù),并設(shè)其類別數(shù)是 P。則合并后的總的樣本可表示為Z=IU 7二 {zj …,Z^V入樣本總數(shù)為Ζ+Λ/,類別總數(shù)為G且C夕K夕凡不失一般性,我們假設(shè)對于合并后的總樣本中的第i (i=l,…,C) 類,分別在原始樣本#和增量書寫樣本Z中有/和人.個樣本。因此,對于合并后新的樣本, 屬于第i (i=l,…,C)類的樣本數(shù)為尸/^人.。所述步驟(2)對增量書寫樣本提取特征并進(jìn)行線性判決分析(LDA)變換,其步驟包括
(Α)、增量書寫樣本特征提取,對于每一個增量書寫樣本,都采用八方向特征提取方法提取其方向特征,
(B)、對增量書寫樣本特征進(jìn)行線性判決分析(LDA)變換,線性判決分析變換的目的是使各個漢字類別能最大程度的分開,從而提高識別率設(shè)經(jīng)過八方向特征提取后,類別 i(i=l,…,C)的原始特征向量為九,令原始線性判決分析變換矩陣為WL ,設(shè)經(jīng)過線性判決分析變換后的特征向量為 、則通過以下公式求得ι
權(quán)利要求
1.一種使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法,其特征在于包括如下步驟(1)、選取用于更新模板及識別引擎的用戶增量書寫樣本;(2)、提取增量書寫樣本的漢字特征,并根據(jù)原始線性判決分析模型對該漢字特征進(jìn)行線性判決分析變換;(3)、采用增量書寫樣本動態(tài)更新每個類別的均值向量;(4)、采用增量書寫樣本動態(tài)更新每個類別的協(xié)方差矩陣;(5)、采用增量書寫樣本更新改進(jìn)的二次判決函數(shù)分類器。
2.根據(jù)權(quán)利要求1所述的使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法,其特征在于所述步驟(1)選取用戶的增量書寫樣本的具體步驟如下設(shè)定原始樣本為I 二 (i=l,…,對,#為樣本數(shù),并設(shè)其類別數(shù)是#;設(shè)增量書寫樣本為7 二 {yj 二人…,Z入Z為增量樣本數(shù),并設(shè)其類別數(shù)是Λ則合并后的總的樣本可表示為Zi U 7 二 {zj (k=l,…,L+N),樣本總數(shù)為L+N,類別總數(shù)為C’且C彡IX彡Λ 再設(shè)定合并后的總樣本中的第i (i=l,…,C)類,分別在原始樣本#和增量書寫樣本Z中有巧和厶個樣本,因此,對于合并后新的樣本,屬于第i (i=l,C)類的樣本數(shù)為尸/^人.。
3.根據(jù)權(quán)利要求2所述的使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法,其特征在于所述步驟(2)具體更新步驟如下(21)、增量書寫樣本特征提取,對于每一個增量書寫樣本,都采用八方向特征提取方法提取其方向特征,(22)、對增量書寫樣本特征進(jìn)行線性判決分析變換,設(shè)經(jīng)過八方向特征提取后,類別 i (i=l,…,C)的原始特征向量為九,令原始線性判決分析變換矩陣為Wm ,設(shè)經(jīng)過線性判決分析變換后的特征向量為Λ ,則通過以下公式求得、yi = wM^yi,。
4.根據(jù)權(quán)利要求3所述的使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法,其特征在于所述步驟(3)具體更新步驟如下(31)、設(shè)類別.“,C)經(jīng)過線性判決分析變換后的原始均值向量為&,原始樣本個數(shù)為%,則通過以下公式求得^ 其0巧=0(32)、設(shè)類別i「i二人...,C)經(jīng)過線性判決分析變換后的增量書寫樣本均值向量為Λ, 原始樣本個數(shù)為纟,則通過以下公式求得力
5.根據(jù)權(quán)利要求4所述的使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法,其特征在于所述步驟(4)具體更新步驟如下(41)、求原始樣本中類別i「i二人...,C)的協(xié)方差矩陣,原始樣本中類別i經(jīng)過線性判決分析變換后的均值向量為&,樣本個數(shù)為%,則其協(xié)方差矩陣由以下公式求得
6.根據(jù)權(quán)利要求5所述的使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法,其特征在于所述步驟(5)具體更新步驟如下(51)、設(shè) 代表第i個類別(i=l,…,以,。和4分別表示根據(jù)步驟4和5得到的更新后的均值向量和協(xié)方差矩陣,并設(shè)每個類別的先驗(yàn)概率相等,則原始的二次判決函數(shù)由以下公式求得goCi) = (ζ — zOrSa1^ — + loS 1 I,i = ι,…,C'(52)、根據(jù)K-L變換,對協(xié)方差矩陣&進(jìn)行對角化,求得Ssj = ^AiCf其中,Ai = diagU u,…,U,Λ ip j=l,…是協(xié)方差矩陣、的特征值,"是特征的維數(shù),Φ, = Φη,…,Φ^,Φ Ρ」=1,…是對應(yīng)的特征向量,Oi是標(biāo)準(zhǔn)正交的, ΦΤ Φ 二 /;(53)、根據(jù)上述公式,將原始的二次判決函數(shù)寫成特征向量和特征值的形式 ^0(SjQ)= [ΦΓ (S— h)]TA.^(z-Zi)+ IoglAiIJ-I %J-I64)、用常量4替代較小的特征值,設(shè)^為主導(dǎo)特征向量的個數(shù),就得到了最終的修正的二次判決函數(shù)分類器,由以下公式求得
全文摘要
本發(fā)明提供一種使手寫漢字識別引擎能動態(tài)適應(yīng)用戶書寫風(fēng)格的方法,包括如下步驟(1)選取用于更新模板及識別引擎的用戶增量書寫樣本;(2)提取增量書寫樣本的漢字特征,并根據(jù)原始LDA模型對該漢字特征進(jìn)行LDA變換;(3)采用增量書寫樣本動態(tài)更新每個類別的均值向量;(4)采用增量書寫樣本動態(tài)更新每個類別的協(xié)方差矩陣;(5)采用增量書寫樣本更新改進(jìn)的二次判決函數(shù)分類器。利用本發(fā)明提供的方法,手寫漢字識別引擎能自適應(yīng)用戶的手寫風(fēng)格,提高識別準(zhǔn)確度。
文檔編號G06K9/68GK102184426SQ20111010878
公開日2011年9月14日 申請日期2011年4月28日 優(yōu)先權(quán)日2011年4月28日
發(fā)明者丁凱, 劉崗, 金連文 申請人:華南理工大學(xué)