一種手寫漢字的在線識別裝置的制作方法

文檔序號：97338閱讀：363來源：國知局

專利名稱:一種手寫漢字的在線識別裝置的制作方法
本發(fā)明涉及一種手寫漢字的在線識別裝置，特別涉及一種不致因手寫筆劃順序不同而會影響識別率和識別時間的手寫漢字在線識別裝置。
在現(xiàn)有的手寫漢字在線識別裝置中，標準漢字字形存貯器都是以傳統(tǒng)的筆劃書寫順序編組信息的，而目前公眾的書寫習慣往往又不是非常嚴格地遵守這種傳統(tǒng)順序。因而一旦輸入的手寫筆劃順序偶有差異，就會產生識別差錯。1980年12月2日公布的日本特開昭55-154669號公報和1985年4月19日公布的日本特開昭60-68484號公報曾經先后提出過在手寫漢字在線識別裝置中避免因手寫筆劃順序發(fā)生偏差而會降低識別率的方案。但這些方案都沒有完全丟棄按書寫順序存貯和處理筆劃信息的方法，而只是在原有方法的基礎上增加了調換輸入筆劃順序進行信息處理的程序，其結果雖然提高了識別率，但卻增加了識別時間，特別是筆劃繁多的漢字識別時間增長得更多，這就嚴重地影響了手寫和識別的效率。
本發(fā)明的目的在于完全改變按筆劃順序編存字形信息與匹配字形的方法，使得在任意改變輸入手寫筆劃順序的情況下都不致影響識別率和識別時間，從而能夠克服現(xiàn)有技術的缺陷。
根據(jù)漢字楷書的結構特征，每個漢字都可以按照筆跡的斷開次數(shù)分解成一個或數(shù)個筆劃，而每一個筆跡連續(xù)的筆劃又都可以按照拐折次數(shù)分解成一段或數(shù)段不同方向的筆段。本發(fā)明以筆段作為每個字形結構的基本單元。抽取字形中每個筆段的交叉數(shù)、長度和方向的信息組成筆段編碼。并根據(jù)筆段在字形中的相互位置，定義一種具有傳遞性的大于關系，使任意兩個筆段的位置能夠比較大小，由此就可以按照這種大小對筆段編碼進行排序，組成一個字形的筆段編碼序列。本發(fā)明裝置中的標準字形存貯器就是用這樣的編碼序列表征各種標準字形的。為了充分利用輸入筆劃的冗余，提取比較穩(wěn)定的筆段方向，本發(fā)明需要經過逐一識別和分解輸入筆劃以獲取它所包含的筆段信息。為此，本發(fā)明裝置還設有適應楷書字體的各種標準筆劃和標準慣用連寫筆劃的筆劃模型存貯器。在這種筆劃模型存貯器中用筆劃的筆段數(shù)，各筆段的長度分配和筆段方向等信息表征每一筆劃模型。
手寫漢字時由書寫板給出筆點的坐標。經過整形器進行細化(消除噪音和冗余使線條變細)和量化(使連續(xù)的點變成隔開一定距離的間斷點)之后由特殊點測定器測出端點和拐點，求出它們相鄰兩點之間的方向和長度，并在筆劃匹配器中與各種標準筆劃進行筆劃匹配運算，從中選取匹配近似度最高的筆劃模型作為筆劃識別的結果。接著，在筆段分解器中對所識別的輸入筆劃進行筆段分解，確定它所包含的筆段方向和長度。然后，新分解出的筆段要在筆段位置測定器中與已經分解出的各筆段進行相互之間的位置測定。當一個漢字全部書寫完畢后，分析各次位置測定的結果，并按照經過定義的大于關系判定各筆段之間位置的大小，在筆段排序器中按照這種大小進行筆段排序。隨之，在筆段編碼器中用與標準字形存貯器中所用的相同編碼方法對輸入字形的筆段進行筆段編碼。經過字形匹配器對輸入字形的筆段編碼序列與存貯器中各個標準字形的筆段編碼序列進行字形匹配運算，最后以其中匹配近似度最高的標準字形作為對該漢字的識別結果。
本發(fā)明裝置的主要優(yōu)點在于它對手寫輸入漢字的識別只和書寫的字形結構有關，與書寫的筆劃順序完全無關。用它識別手寫漢字絕不會因手寫筆劃順序發(fā)生差異而會影響識別效果。本發(fā)明裝置的另一優(yōu)點是，它在字形識別前進行了筆劃的識別與分解，除了抽取筆段的方向和長度信息外，還對它們的相交數(shù)和相互位置進行了運算和表征，這樣使得對字形結構的描述更加充分，因而更有利于區(qū)分與識別那些字形結構比較接近的漢字。本發(fā)明裝置的又一項優(yōu)點是，只要在筆劃模型存貯器中建立相應的慣用連寫筆劃模型，當用連寫方式書寫輸入字形時，經過筆劃匹配、筆劃分解、以及位置測定等步驟之后，仍可得到與正規(guī)楷書(非連寫)字形相同的筆段編碼序列。這樣，無需在標準字形存貯器中增設標準連寫字形就可以識別慣用的連寫字形，這一優(yōu)點實際上也就表現(xiàn)為放寬了對字形的書寫要求，擴大了識別范圍。
圖一為本發(fā)明裝置一項實施例的方塊結構圖。
圖二為本發(fā)明實施例的識別流程圖。
圖三為本發(fā)明實施例中筆段方向的劃分圖。
圖四為本發(fā)明實施例中對輸入筆劃“
”的整形與特殊點測定結果，其中(a)為手寫筆跡，(b)為整形后的圖形，(c)為經過特殊點測定后各段方向的編號。
圖五為本發(fā)明實施例的筆劃模型存貯器中丿、_、
五種筆劃模型的表征參量。
圖六為本發(fā)明實施例中筆劃匹配運算的算法流程圖。
圖七為本發(fā)明實施例中測定Ti和Tj兩個筆段之間位置的算法流程圖。
圖八為在圖七的算法流程圖中為確定ti和tj的值需查找的兩種判斷表，表一為Ti和Tj兩筆段交叉時的判斷表，表二為Ti和Tj兩筆段不交叉時的判斷表。
圖九為本發(fā)明實施例的筆段編碼中各畢特的定義方法。(a)1至9個筆段字形的筆段編碼，(b)10至19個筆段字形的筆段編碼，(c)20個以上筆段字形的筆段編碼，(d)筆段的方向碼。
圖十為本發(fā)明實施例中對10至19個筆段字形進行字形匹配運算中所用的部份扣分表。
圖一示出本發(fā)明裝置一項實施例的方塊結構圖，圖二示出它的處理流程。
手寫漢字開始后，書寫板以每2毫秒左右的周期送出筆點坐標，由整形器對坐標值進行處理，壓縮重復點、孤立點和毛剌，使線條細化并予以顯示，如圖四(b)所示。再對連續(xù)的筆點每隔一定距離進行一次抽樣，選取能表示筆點運動方向的抽樣點，并按照圖三的小角度分區(qū)把抽樣點間的線段劃分為24種方向。經過特殊點測定器對抽樣點進行平滑處理，選出端點和拐點(如圖四(c)所示)，求出它們相鄰兩點之間的筆段方向Rk和長度rk(k＝1，2……m;m為在一個輸入筆劃內所選的特殊點的個數(shù)減1，以下稱R1，R2……Rm為輸入筆劃的方向序列，稱r1，r2……rm為輸入筆劃的長度序列)。按照圖三中圓外的括號把Rk的方向劃分為8種，兩方向之間有間隙的區(qū)域為相容區(qū)，進入相鄰方向前若不超過相容區(qū)仍視為屬原有方向。
當抬筆時，輸入筆劃與筆劃模型存貯器中的各標準筆劃在筆劃匹配器中進行方向序列與長度分配的匹配運算。圖五以五種標準筆劃為例示出它們在筆劃模型存貯器中的表征參量。其中“模式”為各標準筆劃的幾何形狀。“筆段數(shù)(n)”即各標準筆劃所包含的筆段總數(shù)?！伴L度分配(B)”為在各標準筆劃中每一筆段所占筆劃總長的比例。“機動分配(J)”是為了適應書寫筆劃的隨機性而預留的比例。每一標準筆劃的各段長度分配與機動分配的總和等于一恒定值，在圖五中該恒定值為8，即Σi = 1nBi +J = 8]]>。“特征方向(Fi)”為在各標準筆劃中每一筆段所許可的方向。“歸約值”表示在匹配成功時匹配器應輸出的筆段方向，該值指導筆劃的分解。
圖六示出本發(fā)明實施例的筆劃匹配過程。其中k表示輸入筆劃的方向序列R和其長度序列r的下標變量，k＝1……m。i表示標準筆劃的特征方向序列F和其長度序列B或b的下標變量，i＝l……n?！茷榻贫茸兞浚圃酱蟊硎据斎牍P劃與標準筆劃越近似。筆劃匹配的主要算法為①在和每個標準筆劃進行匹配運算前首先要進行篩選，檢查輸入筆劃的方向序列R＝(R1，R2……Rm)是否有該標準筆劃的主要特征方向，有則進行匹配運算，否則調換下一個標準筆劃。
②求出輸入筆劃長度序列的長度總和SUM =Σk = 1mrk]]>，再用SUM和機動分配比值J求出實際的機動數(shù)j，j＝SUM×J/8?！啤、i均置0。
③由SUM和長度分配比值Bi，求出第i個特征方向應具有的實際長度bi，bi＝SUM×Bi/8。
④比較Fi是否包含Rk，若包含則∑的值加1。
⑤Rk的長度rk減1，若rk減1后為0，則k加1，即取下一個輸入筆段方向與長度。
⑥特征方向Fi的長度bi減1，若不為0則返回步驟④，否則進行下一個步驟。
⑦比較Fi是否包含Rk，若不包含則轉到步驟⑨;否則檢查j是否為0，若為0也轉到步驟⑨，若j不為0，則∑的值加1，j減1。
⑧判定rk-1是否為0，若不為0則返回步驟⑦，否則k加1。
⑨判定i+1是否等于n+1，若不等于則返回到步驟③，否則與該標準筆劃的匹配運算結束。
每一輸入筆劃與各標準筆劃逐一按照以上算法進行匹配運算，最后從其中選擇近似度∑最大的標準筆劃作為對該輸入筆劃的識別結果。
筆劃識別結束后，按照標準筆劃的歸約值，把輸入筆劃分解成正規(guī)的筆段，記錄其方向和長度。這時的筆段方向被歸結為橫、點捺、豎和撇四種，分別以0、1、2和3為其代碼?；仡櫳鲜鲞^程，筆段方向從抽樣點時的24種變?yōu)樘厥恻c時的8種，最后在筆段分解后僅歸結為4種，而且輸入時的24種變?yōu)樘厥恻c時的8種，最后在筆段分解后僅歸結為4種，而且輸入時的筆段方向與分解后的筆段方向也不一定完全相同。經過這樣處理，充分利用了輸入筆劃的冗余，適應了書寫當中局部線段方向的隨機性，把輸入的筆段規(guī)范化，為最后準確地識別字形創(chuàng)造了條件。
在筆段分解中，每當分解出一個新的筆段Ti，都要和在它之前分解出的各個筆段Tj(j＝1，2……i-1)進行相互間的位置測定，圖七示出這種測定的算法框圖。其中XiL、XiB、YiL、YiB為筆段Ti的端點坐標，它們之間保持XiL≤XiB和YiL≤YiB的關系。XjL、XjB、YjL、YjB為筆段Tj的端點坐標，它們之間保持XjL≤XjB和YjL≤YjB的關系，(Xic，Yic)和(Xjc，Yjc)為Ti和Tj的中心點坐標。LEFT與HIGH為相互水平值置(左、中、右)與垂直位置(上、中、下)的變量，ti與tj為關系計數(shù)器，I為運算變量。位置測定的主要算法為
①求出Ti與Tj在水平軸上的投影△Xi與△Xj，若△Xi≥△Xj，則LEFT←0，I←1;否則LEFT←2，I←-1，i與j對換。
②判定XiL＜Xjc是否成立，若不成立轉到步驟③，否則LEFT+I。再判定Xjc≥XiB是否成立，若不成立也轉到步驟③，否則LEFT+I。
③恢復i、j的值，求出Ti與Tj在垂直軸上的投影△Yi與△Yj，若△Yi≥△Yj，則HIGH←O，I←1;否則HIGH←2，I←1，i與j對換。
④判定YiL＜Yjc是否成立，若不成立轉到步驟⑤，否則HIGH+I。再判定Yjc≥YjB是否成立，若不成立也轉到步驟⑤，否則HIGH+I。
⑤恢復i、j的值，檢查HIGH與LEFT的值，若HIGH＝LEFT＝1，則認為Ti與Tj交叉;根據(jù)Ti與Tj的方向查圖八中的表一，若表中值為1，則關系計數(shù)器tj的值加1，否則ti的值加1。對HIGH和LEFT的其它值查圖八中的表二，同樣，若表中值為1，tj的值加1，否則ti的值加1。
當一個字形的所有筆段都經過筆段位置測定器按照上述算法計算各筆段的t值之后，由筆段排序器按照各筆段t值的大小順序重新編排筆段的方向與長度的數(shù)列。如果ti＞tj，則Ti的方向和長度值應排在Tj的前面，如果ti＝tj，則需進一步判定Ti與Tj兩筆段的中點與書寫板左上角的距離Li與Lj之間的大小關系，若Li＜Lj，則Ti編排在前，否則Tj編排在前。按照這種方式重新編排的數(shù)列表征了字形的整體結構，它與筆劃書寫的順序完全無關。
完成了筆段排序之后要進行筆段編碼，本發(fā)明實施例的筆段編碼使用了筆段的交叉數(shù)、長度和方向三類信息，其中的長度是用相對長度，即各筆段先按長度的絕對值由小至大排序，以其在序列中的序號作為各自的相對長度。相對長度比絕對長度更能表征字形。根據(jù)漢字的筆劃越多、信息冗余越多的特點，本發(fā)明實施例在編存筆段代碼中按照字形的筆段多少，采用了如圖九中(a)、(b)、(c)所示的三種方法。在這三種方法中D0和D1兩畢特都用于表示筆段的方向碼，它的定義示于圖九(d)中。圖九(a)為1至9個筆段字形的筆段編碼，它共占用了8個畢特，除D0和D1作為方向碼外，D2、D3和D43個畢特作為筆段的長度碼，D5和D6兩個畢特用于記錄交叉數(shù)(0至3個，大于3時仍記為3)，D7用于區(qū)分同碼字。其中長度碼就是前述的相對長度，即由小到大的長度值排列序號(0至7，序號8的筆段長度碼仍為7)。圖九(b)為10至19個筆段字形的筆段編碼，它共占用了4個畢特，除D0和D1作為方向碼外，D2用于長度碼，把按長度值排序的前 1/4 部份的筆段定義為短筆段，均用代碼0表示，后 3/4 部份的筆段定義為長筆段，用代碼1表示。D3用于交叉碼，無交叉者用代碼0表示，有交叉則用1表示。圖九(c)為20個以上筆段字形的筆段編碼，它只有D0和D1兩個畢特用作方向碼。為了加快查找速度，在標準字形存貯器中的數(shù)據(jù)組織層次，首先是按字形筆段數(shù)劃分大塊，在各大塊中再按照橫筆段的個數(shù)劃分成小塊，每小塊中又按字形使用幾率的高低進行排列，使用幾率高的排在前面。設輸入字形分解出的筆段總數(shù)為P，其中橫筆段的總數(shù)為Q，則供查找字形的匹配運算僅在P大區(qū)中的Q、Q+1、Q-1、Q+2、Q-2小區(qū)內，和P+1、P-1大區(qū)中的Q、Q+1、Q-1小區(qū)內進行。
設X＝(X1，X2……Xp)為標準字形的編碼序列，W＝(W1，W2……Wp)為重新排序后的輸入字形筆段編碼序列。由于寫法上的差異，排序中可能會產生與標準字形序列的偏離。在匹配運算中，Xi要與Wi……Wi+c范圍內的筆段編碼逐個進行比較，選擇最接近的筆段編碼(以10至19筆段為例，按圖十的扣分表進行扣分，扣分數(shù)最小就是最接近的)，譬如是Wi+b，則Wi與Wi+b交換。累計扣分，若超過門限值V，匹配失敗，調換另一個標準字形重新進行匹配運算。若累計扣分不超過V，則i+1，重復以上過程，直至i＝P+1，以本次累計扣分值替換V，記下該字形。接著進行與下一個標準字形的匹配運算。C值為搜素范圍，實踐中選擇C不大于3，它根據(jù)筆段總數(shù)P的大小而變化，P值大時C值也大。由于門限值V在匹配運算中越來越小，故若在早期匹配成功(V的值小于某常數(shù))則以后的匹配運算速度將大大加快。當和有關區(qū)域內的全部標準字形匹配運算結束后，檢查V是否小于某個限定值，若小于則輸出該字形的國際碼，否則匹配失敗，告警。
權利要求
1.一種包括書寫板、整形器、筆劃模型存貯器、筆劃匹配器、標準字形存貯器、以及字形匹配器等部件的手寫漢字在線識別裝置，本發(fā)明的特征為，用筆段分解器把經過整形與筆劃識別的輸入筆劃按拐折次數(shù)分解成不同方向的筆段，并抽取這些筆段的方向和長度信息；用筆段位置測定器按照專門定義的數(shù)值標準測定整個輸入字形各個筆段之間的位置關系(即用特定的數(shù)值表示筆段之間左、中、右與上、中、下等位置關系)；用筆段排序器按照經過測定的各個筆段之間位置關系定義值的大小順序對整個輸入字形的各個筆段進行排序，用筆段編碼器按照筆段排序器排列的筆段順序對整個輸入字形的各個筆段進行方向、長度、交叉數(shù)等信息的編碼，組成輸入字形的筆段編碼序列；在字形匹配器中用輸入字形的筆段編碼序列與標準字形存貯器中各個標準字形的筆段編碼序列進行匹配運算，選擇匹配近似度最高的標準字形作為識別結果輸出。
2.按照權利要求
1，所述在筆段分解前進行的筆劃識別，是在筆劃匹配器中使輸入字形的筆劃與筆劃模型存貯器中各個標準筆劃逐一進行筆段數(shù)、方向序列和長度分配等信息的匹配運算，選擇其中匹配近似度最高的標準筆劃作為識別的筆劃，送往筆段分解器進行筆段分解。
3.按照權利要求
1，所述在字形匹配器中用輸入字形的筆段編碼序列與標準字形存貯器中各個標準字形的筆段編碼序列進行匹配運算，是與在筆段總數(shù)和輸入字形相同或相近而且橫筆段(-)數(shù)又相同或相近的一定范圍內的標準字形進行匹配運算。
專利摘要
一種手寫漢字的在線識別裝置，能夠任意改變輸入的手寫筆劃順序而不致影響識別率和識別時間。輸入字形經過整形和筆劃識別后被分解成各種方向的筆段，記取它們各自的方向和長度信息，運算和表征相互間的位置關系，以此位置關系進行筆段排序，編排出既充分表征字形結構又與輸入筆劃順序無關的字形筆段編碼序列。用它與各種標準字形的筆段編碼序列進行匹配運算，其識別結果顯然不受輸入筆劃順序的任何影響。
文檔編號G06K9/18GK86100683SQ86100683
公開日1987年8月19日申請日期1986年1月28日
發(fā)明者劉迎建, 崔廷明申請人:中國人民解放軍58026部隊導出引文BiBTeX, EndNote, RefMan

完整全部詳細技術資料下載