專利名稱:漢字指紋編碼及其輸入鍵盤的制作方法
漢字編碼的核心是漢字識別信息的提取,這些信息來自兩方面音和形。單獨(dú)以漢字拼音壓縮技術(shù)為基礎(chǔ)的拼音編碼法雖然在改進(jìn)上已經(jīng)趨于窮盡,但并沒因此走出重碼率高的困境。以漢字字根為基礎(chǔ)的拼形編碼法雖在解決重碼問題占有優(yōu)勢,但是沉重的字根鍵盤記憶,特別是繁瑣的漢字拆分,難以為一般人員使用。集漢字音形于一體的結(jié)合編碼法,由于拼形部分規(guī)律性差、記憶量大,仍然難學(xué)。本發(fā)明的任務(wù)是提供一種漢字拼形編碼及其輸入鍵盤,它要具備識別能力強(qiáng)、規(guī)律性好、便于記憶的特征,用于漢字拼形編碼和音形或形音結(jié)合編碼。
發(fā)明是這樣實(shí)現(xiàn)的先分解出漢字的基本筆畫,然后劃分漢字相臨兩個基本筆畫的相互關(guān)系,最后將這種相互關(guān)系作為漢字拼形碼定義在鍵盤上。
漢字筆畫錯綜復(fù)雜,但是適當(dāng)作以分解,可以得到橫、撇、豎、捺四種基本筆畫,它們是不含明顯折點(diǎn)的一段直線或曲線,特征如下1、橫用“-”表示,呈水平方向。
2、豎用“|”表示,呈豎直方向,同“橫”垂直。
3、撇用“/”表示,左端低,右端高,同“橫”夾角為45度。
4、捺用“\”表示,左端高,右端低,同“撇”垂直。
在漢字筆畫中,方向朝上、左上和右上的勾(例如“乙”、“或”、“小”和“良”中勾),多起修飾作用,識別漢字意義不大,不計(jì)入基本筆畫。
例如,“勹”由基本筆畫/、-、|順序構(gòu)成,“才”由基本筆畫-、|、/順序構(gòu)成,“玄”由基本筆畫\、-、/、-、/、-、\順序構(gòu)成,“斤”由基本筆畫/、/、-、|順序構(gòu)成,“乙”由基本筆畫-、/、-順序構(gòu)成,“子”由基本筆畫-、/、|、-順序構(gòu)成。
漢字基本筆畫雖只有四種,但是按照不同的相互關(guān)系,便可組成成千差萬別的漢字。例如“上”、“土”、和“工”的第一、二、三基本筆畫都分別是“-、|、-”,但是,第一、二基本筆畫的相互關(guān)系“上”為“├”,“土”為“十”,“工”為“┬”。
由此看出,相臨兩個基本筆畫的相互關(guān)系,如同人類指紋的個體特性一樣,是一種十分有效的漢字識別信息,稱其為漢字指紋,并將漢字第一、二基本筆畫的相互關(guān)系稱為漢字第一指紋(亦稱首指紋),漢字第二、三基本筆畫的相互關(guān)系稱為漢字第二指紋(亦稱次首指紋),余者類推。與此同理,將漢字倒數(shù)第一、二基本筆畫的相互關(guān)系稱為漢字倒數(shù)第一指紋(亦稱末指紋),倒數(shù)第二、三基本筆畫的相互關(guān)系稱為漢字倒數(shù)第二指紋(亦稱次末指紋),余者類推。
當(dāng)一個漢字僅由一個基本筆畫構(gòu)成時,不能形成漢字指紋,稱之為漢字空指紋,記為“~”。例如,“一”由空指紋構(gòu)成。
四種基本筆畫即可同質(zhì)(同類基本筆畫)組合,亦可異質(zhì)(不同類基本筆畫)組合。
同質(zhì)組合有四種形式-與-、|與 、丿與/、\與\,兩個基本筆畫之間無交點(diǎn),分別用符號--、||、//和\\表示,稱漢字同質(zhì)指紋。例如,“二”、“業(yè)”、“得”和“江”的首指紋分別是--、||、//和\\。
異質(zhì)組合有六種形式-與|、-與/、-與\、|與/、|與\和/與\,每種異質(zhì)組合形式又分有交點(diǎn)和無交點(diǎn)兩種。
無交點(diǎn)異質(zhì)組合分別用符號-|、-/、-\、|/、|\和/\表示,稱無交點(diǎn)異質(zhì)指紋。例如,“豆”、“千”、“方”、“兒”、“門”和“家”的首指紋分別是-|、-/、-\、|/、|\和/\。
在“/與\”組合中,如果無交點(diǎn)、或交點(diǎn)不明顯,但是可以形成一個,且只有一個明顯夾角,則視為兩基本筆畫端點(diǎn)相交。例如,“小”、“辦”、“勻”和“戈”的最后兩筆都視為端點(diǎn)相交。
在有交點(diǎn)的六種異質(zhì)組合中,交點(diǎn)位置、相交方向和角度的不同,使每一種組合都呈現(xiàn)九種相交形式,各組合形式如下1、正田字指紋由“-與|”組合構(gòu)成,特征是構(gòu)成漢字指紋的兩個基本筆畫一個是“-”,另一個是“|”。相交的九種形式可用符號“┌、┬、┐、├、┼、┤、└、┴、┘”形象地表示,它們恰好與“田”字的九個交點(diǎn)相對應(yīng),故稱正田字指紋。例如,“正”由漢字指紋┬、├、-|、和┴順序構(gòu)成。
2、單旋田字指紋由“-與/”、“-與\”、“|與/”、“|與\”四種組合構(gòu)成,特征是構(gòu)成漢字指紋的兩個基本筆畫中,一個是“-”或“|”,另一個是“/”或“\”。如果將“/”或“\”旋轉(zhuǎn)成與另一基本筆畫垂直,將與組合“-與|”一致。故稱這類指紋為單旋田字指紋。這四種組合的漢字指紋分別用對應(yīng)的正田字指紋附加各自組合符號表示。例如“┌-/”、“┌-\”、“┌|/”、“┌|\”等。同一正田字指紋對應(yīng)的四種單旋田字指紋,統(tǒng)一用符號“?!北硎?。例如,“車”、“戈”的首指紋分別是┼-/、┼-\,統(tǒng)一表示為┼#。
3、雙旋田字指紋由“/與\”組合構(gòu)成,特征是構(gòu)成漢字指紋的兩個基本筆畫一個是“/”,另一個是“\”。如果將“/”與“\”按照順時針方向都旋轉(zhuǎn)45度,將與組合“-與|”一致。故稱這類指紋為雙旋田字指紋。雙旋田字指紋分別用對應(yīng)的正田字指紋附加符號“*”表示。例如,“水”、“頁”和“木”的末指紋分別是┌*、┬*、┐*。
整個漢字指紋系統(tǒng)結(jié)構(gòu)如下表表1.漢字指紋系統(tǒng)結(jié)構(gòu)
在65種漢字指紋中,田字指紋54種,占漢字指紋總數(shù)的83%,采用“田”字自然排列方式,按單旋田字、正田字和雙旋田字三類分別定義在鍵盤的左、中、右三個區(qū),其中雙旋田字指紋└*、┴*與┘*合用同一“M”鍵。
在11種非田字指紋中,“-/”與“~”定義在同一“P”鍵,其它九個指紋--、||、//、\\、-|、|/、|\、/\分別定義在L、F、V、R、B、H、C、J”鍵,分別與┤*、├、└、┌、┴、┤、┘#、├*同用一鍵,見
圖1。
在漢字指紋拼形編碼中,利用漢字指紋的獨(dú)具特征,只需對漢字進(jìn)行形象的幾何拆分即可得到充分的漢字識別信息。
本發(fā)明將漢字分成獨(dú)形字和拼形字,其中拼形字是可以拆分成首、末兩個方形子塊的漢字,余者為獨(dú)形字。拼形字按幾何形式拆分成十二種結(jié)構(gòu),詳見如下,漢字后括號內(nèi)分別為首塊和末塊。
1、上下: 。例如,盟(明、皿)、出(山、山)。
2、左右: 。例如,明(日、月)、腺(月、泉)。
3、全包圍: 。例如,國(囗、玉)、園(囗、元)。
4、上開圍: 。例如,函(凵、 )、畫(凵、 )。
5、下開圍: 。例如,岡(冂、乂)、向( 、口)。
6、左開圍: 。例如,丑( 、十)。
7、右開圍: 。例如,匡(匚、王)、匾(匚、扁)。
8、左上包圍: 。例如,病(疒、丙)、灰(、火)。
9、左下包圍: 。例如,這(辶、文)、延( 、廴)。
10、右上包圍: 。例如,勻(勹、冫)、忒(弋、心)。
11、右下包圍: 。例如,斗( 、十)。
12、先中后邊: 。例如,水(亅、 )、小(亅、八)。
拼形漢字拆分原則如下1、不拆成獨(dú)一基本筆畫子塊。例“示”拆成“二”與“小”,不拆成“一”與“ ”2、絕不拆交,能離不連。例如“京”拆成“亠”與“ ”,不拆成“ ”與“小”。
3、全包優(yōu)先當(dāng)漢字即可拆成全包圍結(jié)構(gòu),又可拆成其它結(jié)構(gòu)時,拆成全包圍結(jié)構(gòu)。例“田”拆成“口”與“十”,不拆成“凵”與“干”。
4、直觀優(yōu)先拆成的子塊為漢字時優(yōu)先。例如“舉”拆成“興”與“ ”,不拆成“ ”與“ ”。
5、兼顧均衡,余部歸前。例“喜”拆成“ ”與“ ”,不是“ ”與“口”、“湘”拆成“沐”與“目”,不是“氵”與“相”。
6、首筆定序擁有漢字首筆的子塊在首塊,否則為尾塊。例如,“田”拆成“口”與“十”,不拆成“十”與“口”。
在單字拼形編碼中,獨(dú)形漢字取首、次首、末、次末指紋順序編碼,即“首、次首、末、次末”。例如,“中”的編碼為“┌、┐、┼、┘”。
一般拼形漢字取首塊的首、末指紋和尾塊的首、末指紋順序編碼,即“首末首末”。例如,“編”的編碼為“└#、--、-\、||”,“碼”的編碼為“┬#、┘、┐、┤”。
上述編碼中,如果漢字、漢字的首塊或尾塊的末指紋與首指紋重合(例如“十”)、末指紋與次首指紋重合,此時次末指紋與首指紋重合(例如“三”)、或次末指紋與次首指紋重合(例如“口”),省去后面重合漢字指紋,在最后補(bǔ)加一個空格鍵送出。
例如,“二”的編碼為“--、空格”、“土”的編碼為“十、┴、空格”、“木”的編碼為“十、┤#、┐*、空格”、“仗”的編碼為“┬#、十#、十*、空格”、“什”的編碼為“┬#、十、空格”。
同一漢字重復(fù)三次構(gòu)成的三重復(fù)拼形漢字,例如“森”、“眾”等,取首塊的首指紋,重復(fù)一次,再取尾塊的末指紋,重復(fù)一次,即“首首末末”。例如,“森”編碼為“十、十、┐*、┐*”?!氨姟本幋a為“┬*、┬*、┬*、┬*”
漢字指紋拼形詞組編碼以及漢字指紋同拼音中的聲母(簡稱“聲”)和韻母(簡稱“韻”)結(jié)合進(jìn)行音形或形音結(jié)合編碼詳見下表 由上表看出,漢字指紋在拼形詞組編碼和漢字音形或形音結(jié)合編碼中,不再需要拆分漢字。
本發(fā)明另一作用是漢字指紋可以用于漢字字典編排。
權(quán)利要求
本發(fā)明所屬技術(shù)領(lǐng)域?yàn)闈h字信息處理?,F(xiàn)有技術(shù)中的漢字拼形編碼以及音形或形音結(jié)合編碼,都缺少一種易于學(xué)習(xí)、記憶量小,而且識別漢字信息大的拼形編碼。1、一種漢字指紋編碼及其輸入鍵盤,其特征是將漢字筆畫分解為基本筆畫,把漢字相臨兩個基本筆畫的關(guān)系用作漢字識別碼,稱為漢字指紋,通過漢字指紋“田”字形的鍵盤定義方式和漢字方塊式拆分,建立漢字編碼。
2.按權(quán)力要求1所述的基本筆畫,其特征是漢字筆畫中不含明顯折點(diǎn)的一段直線或曲線,歸納為橫“一”、撇“/”、豎“|”、捺“\”四種。
3.按權(quán)力要求1所述的漢字指紋,其特征是根據(jù)漢字相臨兩個基本筆畫是否同類分為同質(zhì)指紋和異質(zhì)指紋,根據(jù)異質(zhì)指紋中兩個基本筆畫是否有交點(diǎn)分為相交異質(zhì)指紋和非相交異質(zhì)指紋。
4.按權(quán)力要求3所述的同質(zhì)指紋和非相交異質(zhì)指紋,其特征是同質(zhì)指紋有--、||、//和\\四種,非相交異質(zhì)指紋有-|、一/、-\、|/、|\和/\六種。
5.按權(quán)力要求3所述的相交異質(zhì)指紋,其特征是與“田”字的九個交點(diǎn)具有對應(yīng)關(guān)系,稱為田字指紋。
6.按權(quán)力要求5所述的田字指紋,其特征是由基本筆畫-與|、-與/、-與\、|與/、|與\、/與\六種組合構(gòu)成,歸納成正田字指紋、單旋田字指紋和雙旋田字指紋三類。
7.按權(quán)力要求1所述的鍵盤定義,其特征是正田字指紋、單旋田字指紋、雙旋田字指紋按照“田”字形定義在鍵盤的三個區(qū)上。
8.按權(quán)力要求1所述的漢字方塊式拆分,其特征是將拼形漢字按照上下、左右、全包圍、上開圍、下開圍、左開圍、右開圍、左上包圍、左下包圍、右上包圍、右下包圍和先中后邊左右結(jié)構(gòu),拆分成首塊和尾塊。
9.按權(quán)力要求1和8所述的漢字編碼,其特征是取漢字、漢字首塊和尾塊的部分指紋用于漢字拼形和音形或形音結(jié)合編碼。
10.按權(quán)力要求1所述的漢字編碼,其特征是亦可用于漢字字典編排。
全文摘要
本發(fā)明將漢字分解成橫、撇、豎和捺四種基本筆畫,利用相臨兩個基本筆畫的關(guān)系作為漢字識別碼,稱為漢字指紋,共有65種,其中54種與“田”字的九個交點(diǎn)具有對應(yīng)關(guān)系,據(jù)此將漢字指紋定義在鍵盤上的三個“田”字區(qū)。用漢字指紋編碼漢字,只需在單字拼形編碼中對拼形漢字作方塊式拆分,而在其它拼形編碼和漢字音形或形音結(jié)合編碼中不再需要拆分漢字。本發(fā)明的編碼方法還可用于漢字字典的編排。
文檔編號G06F3/023GK1098209SQ9310884
公開日1995年2月1日 申請日期1993年7月26日 優(yōu)先權(quán)日1993年7月26日
發(fā)明者張志武 申請人:張志武