專利名稱:手寫輸入筆劃分段的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及手寫識別,具體涉及手寫輸入筆劃分段的方法。
對于人手寫體的機器識別是很難的,最近隨著筆基(pen—based)計算裝置的迅速發(fā)展,這種識別業(yè)已成為一個重要問題而被提出來。對此,現(xiàn)已存在許多截然不同的解決方案,而其中的一種有用的方案是將手寫體劃分成一序列基本的動程或“筆劃”,并用這些筆劃(將它們按照某種方式參數(shù)化)作為字符識別器的輸入。
以筆劃為基礎(chǔ)的識別器的一個關(guān)鍵要求是同一字符類別的多種情況(例如不同次數(shù)和不同的書寫者所寫的字母“A”)每次都應被劃分在一個相似的筆劃組內(nèi)。這有助于確保識別不太因難,因為該字符多種情況的描述對于字符識別器本身“看來”是相似的緣故。在理想情況下,一個給定字符的所有書寫情況總是含有相同數(shù)目的筆劃,這些筆劃全都位于相同的相對位置上,并且這些筆劃的特征描述對于各種情況全都很相似。雖然這種理想情況在實踐中不能實現(xiàn),但在一定程度上可以接近它,從而能改進識別的準確度。
在先有技術(shù)中有一種識別技術(shù)是把筆劃邊界設(shè)定在垂直(或“y”)方向上筆尖速度為零的一些點上,也就是,在這些點上書寫開始向上移動或者開始向下移動。這樣所形成的筆劃組可稱為“向上的筆劃”和“向下的筆劃”。這種方法在Mermelstein & Eden,Information And Control Vol.7,PP.255—270,1964發(fā)表的文章“Experiments on Computer Recognition of ConnectedHandwritten Words”中討論了。這種方法的一個問題是,在垂直方向上對筆劃變化過分敏感,而在水平方向上對筆劃變化根本不敏感。然而,許多字符是由一些水平線條組成的,例如,字母“t”中的一橫和字母“E”的三橫,即使草率的寫,它們在正常情況下也是多為水平的而不是垂直的。y速度型筆劃分段器因書寫中在垂直方向上筆尖的抖動有時會使一個水平橫斷開成為一劃,經(jīng)常它被斷成兩段、三段甚至更多段。這導致差的識別準確性,因為同一字符的多種字體情況往往被分段成為看起來各不相同的筆劃組。對于糾正這種方法的不準確性所做的努力包括在產(chǎn)生一個新筆劃之前要求最小的垂直方向變化,這只取得了有限的成功,許多同樣的基本問題依然存在。
在另一種已有的技術(shù)中,這個問題是,通過在這樣一些點上設(shè)定筆劃邊界而解決的,即在這樣的點上出現(xiàn)局部最大彎曲,并超過某個對應于該書寫體強列彎曲的閾值。因強列彎曲可能發(fā)生與筆尖的移動方向無關(guān),故這種方法對手寫輸入例如語句或字符的各部分的取向不敏感。然而,以彎曲為基礎(chǔ)的技術(shù)也有它自身的問題。例如,假定某人書寫字母“L”時帶有一個很漸變的彎曲,而不是強列的彎曲,以使它開始看起來它更象字母“C”。在這種情況下,如果筆劃邊界所需的彎曲度閾值不能滿足,則這種方法不能分段。簡單地降低閾值并不能解決這個問題,因為這會單純地導致過多的筆劃數(shù)目。具有過多的附加筆劃與具有過少的筆劃都不好,因為這又意味著同一字符的多種筆體時常被分段成不同的筆劃類型。
據(jù)此,現(xiàn)在需要一種更準確的、無上述的方法諸如y速度法和現(xiàn)有的彎曲度方法中存在的問題的筆劃分段技術(shù)。
為此,本發(fā)明提供一種將手寫輸入分段成為多個筆劃的方法,對于每個具體字符類別的多種筆體,都能分段出一致的筆劃數(shù)目。
本發(fā)明提供一種將手寫字輸入分段成為多個筆劃的方法,對于輸入的每個具體字符類別的多種筆體分段筆劃具有類似的形狀和位置。
總的說來,本發(fā)明的方法包括計算手寫輸入中各點上的彎曲度的導數(shù)或瞬時變化率的步驟。然后,該方法選擇手寫輸入中的某些點(或像素)作為筆劃邊界點,它們位于一個高的彎曲度導數(shù)點與后繼的一個低的彎曲度導數(shù)點之間。這樣的邊界點并不受絕對彎曲度值的影響,而是只受彎曲度相對變化的影響。
圖1示出按照本發(fā)明的一個優(yōu)選實施例的用以識別筆劃界限的操作的流程圖;圖2示出用先有技術(shù)的y速度方法產(chǎn)生的手寫輸入分段成為多個筆劃的例子;圖3示出用先有技術(shù)中彎曲度方法產(chǎn)生的手寫輸入分段成為多個筆劃的例子;圖4示出用本發(fā)明的優(yōu)選實施例產(chǎn)生的手寫輸入分段成為多個筆劃的例子;圖5示出建立從數(shù)字化裝置接收的字母“L”的點;圖6示出按照本發(fā)明的優(yōu)選實施例再取樣后按照恒定距離建立字母“L”的點;圖7示出本發(fā)明的優(yōu)選實施例的彎曲度計算的分解圖;圖8示出對于圖7各點計算得到的彎曲度值的曲線圖9示出對于圖7各點計算得到的彎曲度導數(shù)值的曲線圖。
手寫字符輸入通常是從用戶以離散的連續(xù)段的形式收集的。一個離散的連續(xù)段是由一個或多個筆劃組成的,其中,一個筆劃是筆與一個數(shù)字化圖形輸入卡或紙之類的輸入裝置接觸期間所留下的印跡。
在本發(fā)明中,一個或多個離散的連續(xù)段是被識別的手寫輸入的多個單元。手寫輸入是電學捕獲的輸入,它包括但不限于以下輸入手寫輸入;電子輸入;壓力捕獲的輸入,例如壓印的輸入;電子方法例如用傳真機、尋呼機或其它裝置接收的輸入。
一個筆劃可以表示成為由輸入裝置以大致有規(guī)律的間隔取樣的一序列的點。每個點至少可用x和y座標來描述。筆劃可以利用一個數(shù)字化圖形輸入卡用電學方法來捕獲,或在圖像中線條的檢測過程中從掃描的或傳真的圖像來得到;這樣電學捕獲的方法在本技術(shù)領(lǐng)域內(nèi)是公知的。在一個優(yōu)選方法中,手寫輸入由一個諸如個人數(shù)字助理(PDA)裝置或其它裝置之類的裝置來接收。具有接收手寫輸入功能的其它裝置包括但不限于以下裝置計算機、調(diào)制解調(diào)器、尋呼機、電話機、數(shù)字式電視機、交互式電視機、帶有數(shù)字化圖形輸入卡的裝置、傳真裝置、掃描裝置、以及具有捕獲手寫輸入能力的其它裝置。通常,當筆劃用電學方法捕獲時,每個點以一個像素來表示,以使一個筆劃可由該裝置上的一系列像素來表示。
按照本發(fā)明,手寫輸入可以是字母的字符形式、表意字符或手寫通信中字符或符號的其它形式。
參看附圖,圖2和圖3示出當筆劃分段通過一個以筆劃為基礎(chǔ)的識別器時,在對輸入的理解中字母數(shù)字手寫輸入的筆劃分段具有高或然率的不準確性。圖4示出對于圖2和圖3的相同的字母數(shù)字輸入的筆劃分段,筆劃分段是按照本發(fā)明的教導進行圖中的這樣的筆劃分段通過一個以筆劃為基礎(chǔ)的識別器時具有高或然率的準確性的。
參看圖1,圖中示出按照本發(fā)明教導的一種優(yōu)選方法的流程圖。從數(shù)字化裝置或其它裝置來的手寫輸入以x和y座標的形式(連同有關(guān)的筆尖上移或筆尖下移狀態(tài))在步驟110被接收。這些點通常由像素來表示??偟膩碚f,本發(fā)明的方法在步驟120對手寫輸入再取樣,以得到沿著手寫輸入長度以等間距離開的點。圖5示出字母“L”500作為再取樣之前,一系列點或像素的例子。圖6示出同一字母“L”600在再取樣之后的一系列點或像素。再取樣是應用點子間距d610實現(xiàn)的,d值在整個手寫輸入是恒定的。d值最好選擇得使手寫輸入的中間輸入高度約為15至30倍d值。例如,圖6所示的d值選擇得可使字母的中間高度大約在15至30倍d值的范圍內(nèi)。
圖1的優(yōu)選實施例在步驟130計算每個再取樣點處的彎曲度。圖7示出在點R(710)處彎曲度計算的數(shù)據(jù)描繪。在再取樣點R(710)的彎曲度定義為的距離,從該R點的前一點(R-1,750)經(jīng)R本身線性投影而得到一點P(720)到R點的后一點(點R+1,730)的間距。這個距離如圖7中所示的間距740。在手寫輸入端點處的彎曲度定義為等于對應的最近相鄰點處的彎曲度。手寫輸入的內(nèi)部點處的彎曲度也可以計算,從遠離R點的兩點而不是一點投影(和應用R點的前兩點的那一點而不是R-1點),以得到一個較強的估值。圖8示出圖7所示各點得到的彎曲度值的曲線圖。
例如,上例的具有逐漸彎曲的字母“L”只要“L”的兩個“直線”部分明顯地是比它們之間的彎曲更筆直些,就能分段成為一個垂直筆劃和一個水平筆劃。于是,彎曲度在趨向拐彎處增加(即彎曲度導數(shù)變高),遠離拐彎處彎曲度減小(彎曲度導數(shù)變低),因而,如所希望的,在拐彎處或靠近拐彎處可有一個筆劃邊界。
在本發(fā)明的優(yōu)選實施例中,一旦為每一再取樣點獲得彎曲度,再取樣點的彎曲度陣列就可以被平滑,以使數(shù)字化過程引入的任何已知人為產(chǎn)物減到最小。所執(zhí)行的平滑類型應該是一種標準方法,可根據(jù)現(xiàn)有的具體的數(shù)字化特性來選定。這可包括將一個點與其鄰近點求平均值(對該點本身和最近點的加權(quán)得高些),用計算得到的平均值來取代所分析的點的彎曲度值。這里所用的平滑窗口的尺寸理想上應在寬于手寫的低彎曲度處寬些,而在高彎曲度部分窄些,以使得在平滑過程中重要信息的丟失減到最小。因這是彎曲度本身被平滑,故一種平滑優(yōu)選方式是計算初始彎曲度,根據(jù)那些彎曲度進行平滑,然后又根據(jù)計算得到的新的彎曲度進行再平滑。
在本發(fā)明的優(yōu)選實施例中,對于每個再取樣點,利用對任何負彎曲度值乘以-1來計算彎曲度的絕對值。在計算彎曲度導數(shù)中最好應用其絕對值而不用實際彎曲度值,因為本發(fā)明方法的優(yōu)選實施例只考慮手寫輸入中拐彎的強列性而不是對于一個給定的拐彎彎曲的方向。
如圖1所示,該方法接著在步驟140計算每個再取樣點處的彎曲度導數(shù)。參看圖7,點R處的彎曲度導數(shù)定義為點R+1處彎曲度的絕對值減去點R-1處彎曲度的絕對值后再除以2(也即所畫的彎曲度值曲線的斜率)。圖9示出圖7所示的每一點上得到的彎曲度的導數(shù)的曲線圖。類似于上述的應用兩個以上點來求得較準確的彎曲度的度量,在存在相關(guān)點時彎曲度導數(shù)應當采用較寬的窗口(5點對3點)來計算,而在必要時也采用較窄的窗口(2點對3點)。因彎曲度的導數(shù)在墨跡段的端點處不能夠計算出,故端點處的彎曲度導數(shù)可以簡單地定義為等于對應的鄰近點處的彎曲度導數(shù)。
參看圖1和圖9,該方法的優(yōu)選實施例下一步的處理在步驟150,檢查新計算的彎曲度導數(shù)值的陣列,以尋找彎曲度導數(shù)的局部最大值(910)限定包括拐折端部和最大值趨向減小的點所在的位置,或彎曲度導數(shù)的局部最小值(920)限定包括拐折端部最小值趨向增加的點所在的位置。對于局部最大值之后和局部最小值之前(及時地)手寫輸入的每一部分,尋找出該部分的中點(930)(就該部分弧長而言的中點)。這個中點定義為M點(930)。在步驟150,如果對于某一部分來說局部最大值與局部最小值之差超過一個閾值T(940)并且M點處的彎曲度絕對值超過某個閾值T′(820),則點M被選定作為一個筆劃邊界。
必須對參數(shù)T′和T″估值,它們與彎曲度和彎曲度導數(shù)測量的單位有關(guān)。只要使用誤差容限的字符識別器,T′和T″的精確值并不嚴格。對于用以產(chǎn)生本發(fā)明的一個具體實施例所執(zhí)行的T′和T″或任何其它參數(shù)的任何實驗性協(xié)調(diào)中,所希望的目標是達到對具體字符類別的所有多種筆體其分段能盡可能地一致的分段。這應當實驗性地通過檢驗該程序?qū)σR別的手寫輸入的各種實際的樣品如何分段來實現(xiàn)。
除了上述的選定筆劃邊界點之外,凡是筆尖提起或筆尖落下的點也都選定為筆劃邊界點。在本發(fā)明的優(yōu)選實施例中,在步驟160,對于以彎曲度導數(shù)為基礎(chǔ)的邊界點可移動兩個點那樣多,以使它們落在彎曲度絕對值為最大值的點上。利用移動彎曲度導數(shù)為基礎(chǔ)的邊界點,使彎曲度測量和彎曲度導數(shù)兩者產(chǎn)生出相同的筆劃邊界,改進了筆劃邊界點的定位。然而,本發(fā)明的優(yōu)選應用只是對一種給定的點才能應用,但是所產(chǎn)生少于三點的筆劃是沒有的。
按照本發(fā)明,筆劃邊界點組限定了一對應的筆劃組。將這些筆劃傳送到一個以筆劃為基礎(chǔ)的字符識別器,以便識別該手寫輸入。
本發(fā)明及其優(yōu)選實施例涉及新穎的、更準確的筆劃分段方法。按照本發(fā)明,在手寫輸入的多種筆體情況下,該輸入重復地每一次被劃分成為相似的筆劃組。例如,如果該手寫輸入字母是由不同的書寫者以不同的寫出的字母“L”,則本發(fā)明及其優(yōu)選實施例能較準確地每次將該字母“L”的輸入劃分成為相似的筆劃分段邊界點,而與不同的書寫者的差異無關(guān)。這種筆劃分段有助于對筆劃為基礎(chǔ)的識別器提供更精確的筆劃解釋。
本領(lǐng)域的技術(shù)人員發(fā)現(xiàn)本發(fā)明的許多實施例是有用的。一種明顯的擴展是從這里描述的印刷的手寫體到草體書寫。筆劃分段的實際方法是與字符分段的方法無關(guān)的,因而能處理草體書寫的技術(shù)可方便地利用這里所述的筆劃分段方法。另一個實施例是使掃描的或“脫機”書寫的分段成為筆劃。將應用本發(fā)明于這種任務的直截方法是執(zhí)行書寫體的變細修整,以獲得恒定寬度的墨跡曲線。于是,因缺少暫時的信息而使交叉點和相切的拐彎看起來相似,故可以在彎曲度導數(shù)為基礎(chǔ)的點和交叉點上設(shè)定筆劃邊界。
權(quán)利要求
1.一種用以識別含有多個墨跡像素的手寫字符的方法,其特征在于包括以下步驟對多個墨跡像素之每個像素計算彎曲度導數(shù)值,每個彎曲度導數(shù)值表示相應像素處的絕對彎曲度的變化率;選擇一組筆劃邊界,以使每個筆劃邊界處在一個具有高彎曲度導數(shù)值的墨跡像素與一個隨后的具有低彎曲度導數(shù)值的墨跡像素之間;尋找一組筆劃的位置.以使每個筆劃邊界位于一個筆劃的末端;計算每個筆劃的至少一種筆劃特征值,以產(chǎn)生出一個字符特征集;應用該字符特征集來判定對所述手寫字符的識別。
2.根據(jù)權(quán)利要求1方法,其特征在于具有高度彎曲度導數(shù)值的墨跡像素有一個局部的最大彎曲度導數(shù)值,而具有低彎曲度導數(shù)值的隨后一個墨跡像素具有一個局部的最小彎曲度導數(shù)值。
3.根據(jù)權(quán)利要求2的方法,其特征在于,每個筆劃邊界位于具有局部最大彎曲度導數(shù)值的墨跡像素與具有局部最小彎曲度導數(shù)值的墨跡像素之間的中點上。
4.根據(jù)權(quán)利要求1的方法,其特征在于,每個筆劃邊界位于具有局部最大絕對彎曲度值的點上。
5.一種用以識別由一序列點組成的手寫字符的方法,其中每個點包含三個空間座標值,其特征在于該方法包括以下步驟計算多個點的每個點的彎曲度導數(shù)值,每個彎曲度導數(shù)值表示出在相應點上絕對彎曲度的變化率;選擇一組筆劃邊界,以使每個筆劃邊界位于一個具有高彎曲度導數(shù)值的點與一個的隨后具有低彎曲度導數(shù)值的點之間;尋找一組筆劃的位置,以使每一筆劃邊界位于一個筆劃的末端;計算每一筆劃的至少一個筆劃特征值,以產(chǎn)生一個字符特征集;應用該字符特征集來判定對所述手寫字符的識別。
6.根據(jù)權(quán)利要求5的方法,其特征在于,一個具有高彎曲度導數(shù)值的點具有局部的最大彎曲度導數(shù)值,一個隨后的具有低彎曲度導數(shù)值點具有局部的最小彎曲度導數(shù)值。
7.根據(jù)權(quán)利要求6的方法,其特征在于,每個筆劃邊界位于一個具有局部最大彎曲度導數(shù)值的點與一個具有局部最小彎曲度導數(shù)值的點之間的中點上。
8.根據(jù)權(quán)利要求5的方法,其特征在于,每個筆劃邊界位于一個具有局部最大絕對變曲度值的點上。
全文摘要
本發(fā)明的識別筆劃分段的方法包括在接收到的手寫字輸入的每個點處(110)計算彎曲度的導數(shù)(140)或彎曲度瞬時變化率的步驟。選擇輸入中位于彎曲度導數(shù)高的點與彎曲度導數(shù)低的隨后的點之間中點上的某些點子(像素)作為筆劃邊界點(150)。這樣的邊界點不受彎曲度絕對值的影響,而只受彎曲度相對變化的影響。筆劃分段邊界點提供給一個以筆劃為基礎(chǔ)的識別器,用于解釋手寫輸入的筆劃(170)。
文檔編號G06K9/34GK1128074SQ95190347
公開日1996年7月31日 申請日期1995年5月3日 優(yōu)先權(quán)日1994年5月10日
發(fā)明者克里斯·A·科爾奇 申請人:摩托羅拉公司