專利名稱:合成編碼法及漢字輸入鍵盤(pán)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及合成編碼法及漢字輸入鍵盤(pán),屬于計(jì)算機(jī)漢字輸入技術(shù)領(lǐng)域。
漢字是中華民族勤勞智彗的結(jié)晶。漢字的發(fā)明和使用是中華民族對(duì)人類(lèi)文明地卓越貢獻(xiàn)。同時(shí),漢字也為幾千年來(lái)中國(guó)的進(jìn)步發(fā)展、繁榮昌盛、團(tuán)結(jié)統(tǒng)一做出了巨大的貢獻(xiàn)。然而,在人類(lèi)文明步入了以計(jì)算機(jī)為標(biāo)志的信息時(shí)代的今天,漢字因其大字符集的固有特性而使?jié)h字的計(jì)算機(jī)信息處理比拼音文字的計(jì)算機(jī)信息處理要困難得多。這種困難集中體現(xiàn)在將中文信息的文字材料輸入到計(jì)算機(jī)內(nèi)的過(guò)程上。眾所周知,用計(jì)算機(jī)進(jìn)行信息處理的第一步就是將基本的文字材料輸入到計(jì)算機(jī)中去。因此解決漢字輸入問(wèn)題是實(shí)現(xiàn)用計(jì)算機(jī)對(duì)漢字信息進(jìn)行快速處理的關(guān)鍵。
隨著微型計(jì)算機(jī)的普及,信息處理的發(fā)展,特別是伴隨著對(duì)漢字信息處理的研究中,人們探討過(guò)許多漢字輸入方案。最初人們?cè)O(shè)想過(guò)用大鍵盤(pán)的方式解決漢字輸入問(wèn)題。但是這種方案很快就被否決了。因?yàn)檫@種方案是建立在一字一鍵的基礎(chǔ)上的,對(duì)于成千上萬(wàn)個(gè)漢字來(lái)說(shuō)就需要成千上萬(wàn)個(gè)鍵與之對(duì)應(yīng),例如我國(guó)于1981年頒布的《信息交換用漢字編碼字符集基本集》(即GB-2312)中共收入6763個(gè)基本漢字,為這些漢字設(shè)計(jì)的大鍵盤(pán)將有幾千個(gè)鍵位。這樣的鍵盤(pán)既不利于漢字集的擴(kuò)充也不利于提高輸入速度。據(jù)日本實(shí)用字研究協(xié)會(huì)的統(tǒng)計(jì),具有26個(gè)鍵位的英文字母數(shù)字鍵盤(pán)的擊鍵速度是每分鐘450次,有50個(gè)鍵位的鍵盤(pán)的擊鍵速度是每分鐘250次,當(dāng)鍵位數(shù)達(dá)到2000時(shí)擊鍵速度只有每分鐘50次。因此大鍵盤(pán)的思路是難以行得通的。
大鍵盤(pán)的思路被否定之后,人們自然地轉(zhuǎn)到利用已有的在計(jì)算機(jī)上廣泛使用的小鍵盤(pán)來(lái)輸入漢字的思路上?,F(xiàn)有的小鍵盤(pán)上的鍵位充其量不過(guò)一百個(gè)左右,要輸入成千上萬(wàn)個(gè)漢字就需要建立一種被稱為漢字編碼的鍵位組合到漢字的對(duì)應(yīng)。經(jīng)過(guò)許多專家學(xué)者十幾年的辛勤探索,迄今為止,已經(jīng)出現(xiàn)了數(shù)百種漢字編碼方案,其中在微型機(jī)上常見(jiàn)的諸如拼音輸入方案、區(qū)位碼、電報(bào)碼、自然碼、五筆字型、大眾碼、表形碼等優(yōu)秀編碼方案卻不過(guò)十幾種。這十幾種編碼方案各有特色各有優(yōu)缺點(diǎn)。在這些編碼方案中,有只利用漢字的字音屬性的,如拼音輸入方案;有只利用漢字的字形屬性的,如五筆字型;有既利用漢字的字音屬性又利用漢字的字形屬性的,如自然碼;有既不利用漢字的字音屬性也不利用漢字的字形屬性的,如區(qū)位碼和電報(bào)碼等。
一套漢字編碼方案的優(yōu)劣大體上應(yīng)從兩個(gè)方面來(lái)考慮,其一是否易學(xué)易用,其二是否有較高的輸入速度。影響易學(xué)程度的關(guān)鍵因素之一是編碼規(guī)則的繁簡(jiǎn)程度及其記憶量的大小。影響輸入速度的因素主要是重碼率,碼長(zhǎng)、碼元數(shù)、碼元的鍵位布局、編碼方案中包含的詞組數(shù)等也對(duì)輸入速度有影響。
編碼方案的記憶量是指掌握該編碼方案需要記憶的內(nèi)容的數(shù)量。要掌握拼音輸入法即使對(duì)于只接受過(guò)初等教育的人來(lái)說(shuō)也幾乎不需要記憶任何內(nèi)容,因此拼音輸入法是最容易掌握的,是迄今為止擁有最多使用者的漢字輸入法。一般說(shuō)來(lái),編碼規(guī)則簡(jiǎn)單則編碼方案的記憶量就少,編碼方案就容易被掌握。但是情況并非總是如此,盡管區(qū)位碼和電報(bào)碼輸入法的規(guī)則很簡(jiǎn)單,但這種規(guī)則的簡(jiǎn)單是建立在必須記住每個(gè)漢字的代碼的基礎(chǔ)之上的,要熟練地使用它們就必須記住每個(gè)漢字的代碼,所以這種漢字編碼方案的記憶量是非常巨大的,以至于今天使用這種輸入法的人廖廖無(wú)幾。顯而易見(jiàn),一套容易掌握的漢字編碼方案是那種編碼規(guī)則簡(jiǎn)單同時(shí)記憶量又少的編碼方案。
重碼率是衡量使用同一代碼的漢字的多少的一個(gè)指標(biāo)。如果有多個(gè)漢字使用同一代碼,那么當(dāng)輸入這個(gè)代碼后并不能立即輸入需要的漢字,尚需要從這個(gè)代碼對(duì)應(yīng)的幾個(gè)漢字中挑選出所需要的漢字。重碼率越高,花費(fèi)在這種挑選上的時(shí)間就越多,當(dāng)然輸入漢字的速度也就越低。因此一套具有較高輸入速度的漢字編碼方案必然是一套重碼率低的編碼方案。
碼元是指漢字代碼使用的符號(hào)。在現(xiàn)代漢字計(jì)算機(jī)編碼方案中一般利用標(biāo)準(zhǔn)鍵盤(pán)上的符號(hào)。因?yàn)榇a元少占用的鍵位就少擊鍵速度就快,所以在保證人手十指合理分工并保證重碼率充分低的前提下漢字編碼中使用的碼元越少,漢字的輸入速度就越快。碼長(zhǎng)是指一個(gè)漢字的代碼中所含的碼元的個(gè)數(shù)。顯然,較短的碼長(zhǎng)會(huì)有較高的輸入速度。另外碼長(zhǎng)較短還有一個(gè)優(yōu)點(diǎn),就是易于編碼方案在計(jì)算機(jī)上的實(shí)現(xiàn)同時(shí)在實(shí)現(xiàn)后有利于節(jié)約計(jì)算機(jī)的內(nèi)存。區(qū)位碼和電報(bào)碼輸入方案的碼元少,碼長(zhǎng)很短且整齊,所有漢字的代碼皆由四個(gè)碼元構(gòu)成。同時(shí)在這兩種方案中沒(méi)有重碼,從理論上說(shuō),如果熟記所有漢字的區(qū)位碼或電報(bào)碼,那么使用它們輸入漢字的速度將是很快的。但是要記住幾千個(gè)漢字的代碼對(duì)于絕大多數(shù)人來(lái)說(shuō)是不現(xiàn)實(shí)的。這也是這兩種方案的普及率很低的原因。
漢字編碼規(guī)則簡(jiǎn)單、記憶量少與重碼率低、碼元少、碼長(zhǎng)短,即易學(xué)程度與輸入速度是一對(duì)矛盾。當(dāng)前已有一些編碼方案較成功地解決了這一對(duì)矛盾,五筆字型和自然碼方案就是其中的代表。1989年2月15日CN1003326B公開(kāi)了"優(yōu)化五筆字型編碼法及其鍵盤(pán)",它將優(yōu)選的字根依據(jù)其首筆相同或形態(tài)相近等特征分成五大類(lèi),分別歸入標(biāo)準(zhǔn)鍵盤(pán)的五個(gè)區(qū),具有重碼率低輸入速度快的優(yōu)點(diǎn),被認(rèn)為是當(dāng)今最優(yōu)秀的漢字編碼方案之一。因?yàn)槲骞P字型和自然碼的記憶量都比區(qū)位碼和電報(bào)碼的記憶量少得多,所以掌握它們比較容易。但要掌握這兩種編碼方案仍需記住二百個(gè)左右的字根及其在鍵盤(pán)上的位置,另外對(duì)自然碼尚需記住三十多個(gè)漢語(yǔ)拼音的具有兩個(gè)以上字母的聲母和韻母的鍵盤(pán)位置。加之編碼規(guī)則較復(fù)雜,掌握起來(lái)仍是不太容易,是特別適用于專業(yè)輸入員的編碼方案。
每個(gè)漢字都是音形義幾種屬性的統(tǒng)一體。而字義是由字音和字形屬性決定的??v觀當(dāng)今漢字編碼方案,漢字的字形屬性和字音屬性在其中起著舉足輕重的作用,要克服區(qū)位碼和電報(bào)碼因其完全拋開(kāi)漢字屬性而強(qiáng)行編碼所帶來(lái)的記憶量大難以掌握的缺點(diǎn),就必須充分利用漢字的字形屬性和字音屬性使一套漢字編碼方案做到見(jiàn)字知碼。一套好的漢字編碼方案應(yīng)該充分利用漢字的各種屬性,以最少的記憶量獲得最高的輸入速度。
十幾年的漢字編碼探索業(yè)已表明,僅使用漢字字音屬性的拼音方案盡管有其易學(xué)的特點(diǎn),但是這種方案的重碼率太高,碼長(zhǎng)不齊,這既不利于方案在計(jì)算機(jī)上的實(shí)現(xiàn)也很難有較高的輸入速度,只適合于不太常用計(jì)算機(jī)輸入漢字的人使用。僅使用漢字字形屬性的編碼方案也有其難以克服的弱點(diǎn)。純形碼為減少重碼率,往往采取增加字根的方法,這將在兩個(gè)方面增加學(xué)習(xí)和輸入時(shí)的困難。其一,增加字根必然導(dǎo)致記憶的增加,其二,字根若太多也會(huì)帶來(lái)拆字的困難。另外有些漢字僅靠增加字根量仍然不能區(qū)分,例如,“旭”和“旮”,“標(biāo)”和“柰”等。欲區(qū)分這些漢字,純形碼方案又需要采用所謂的“型碼”來(lái)區(qū)分它們,也就是把漢字區(qū)分為上下型、左右型、包圍型、半包圍型或雜合型等。例如五筆字型就采用一種由三種字型代碼和末筆代碼構(gòu)成的“交叉識(shí)別碼”來(lái)區(qū)分這些字根及其順序都相同從而形碼也必然相同的漢字。這樣做必然會(huì)增加輸入者的負(fù)擔(dān),因?yàn)橛行h字的型是模棱兩可的。對(duì)于這些字型模棱兩可的漢字,在輸入時(shí)采用字型識(shí)別碼勢(shì)必會(huì)影響輸入速度。原因是明顯的,當(dāng)你弄不清楚一個(gè)字的字型屬性時(shí),你只能花費(fèi)時(shí)間去一次一次地試打。有些純形編碼方案采用容錯(cuò)碼的方式來(lái)克服這樣一個(gè)缺點(diǎn)。但這種容錯(cuò)處理方式是有限度的,首先容錯(cuò)碼要保證不出現(xiàn)重碼,其次太多的容錯(cuò)碼會(huì)浪費(fèi)寶貴的計(jì)算機(jī)內(nèi)存資源??傊冃未a有其與生具來(lái)的難以克服的弱點(diǎn)。有理由認(rèn)為僅利用字音屬性的編碼方案不會(huì)有較高的輸入速度,僅利用字形屬性的編碼方案很難會(huì)有易學(xué)性和速度兩方面都比五筆字型更令人滿意的編碼方案。
按國(guó)家頒布的漢語(yǔ)拼音方案給漢字注音時(shí)每個(gè)漢字所用的字母數(shù)量不一,有些字如"阿"只需一個(gè)字母,而有些字如"莊"卻需要六個(gè)字母。音形碼編碼方案若想達(dá)到碼長(zhǎng)整齊且較短的目的,就必須對(duì)超過(guò)一個(gè)字母的漢語(yǔ)拼音的聲母和韻母進(jìn)行壓縮,使音碼控制在兩個(gè)碼位的范圍內(nèi),然后再使用兩個(gè)或多個(gè)碼位的形碼來(lái)區(qū)分同音字。自然碼編碼方案就是這樣做的。據(jù)統(tǒng)計(jì),在國(guó)標(biāo)GB-2312收入的6763個(gè)漢字中,同音字最多的有114個(gè)。若將形碼字根合理地分布在26個(gè)字母鍵上,再使用兩位形碼來(lái)區(qū)分同音字,這從數(shù)量對(duì)比上來(lái)看似乎是沒(méi)問(wèn)題的,因?yàn)槿蓚€(gè)字母的不同排列有676個(gè)之多,這樣就可以使可用代碼數(shù)與最大需求代碼數(shù)之比約為6∶1。然而這樣做并不能有效地區(qū)分同音字。例如自然碼編碼方案的形碼字根多達(dá)近二百個(gè)時(shí)采用兩位形碼仍不能很好地降低重碼率。再?gòu)耐糇值姆植家?guī)律上看,在6763個(gè)漢字中讀“ri”的字只有一個(gè)而讀“yi”的字卻有110個(gè)之多,最多同音字?jǐn)?shù)與最少同音字?jǐn)?shù)之比為110∶1。這樣兩位形碼的使用就不太均勻合理了,因?yàn)閷?duì)有些同音字沒(méi)有必要使用兩位形碼而對(duì)于有些同音字又不能僅用兩位形碼完全或幾乎完全區(qū)分。采用這種兩音兩形方式的自然碼的形碼字根數(shù)與純形碼的五筆字型的字根數(shù)不相上下,但學(xué)習(xí)自然碼時(shí)尚需記住30多個(gè)多字母的聲母和韻母的鍵盤(pán)位置。這種方案還存在著一個(gè)弱點(diǎn),由于在漢字中有大量的多音字,這勢(shì)必會(huì)造成一字多碼從而浪費(fèi)計(jì)算機(jī)內(nèi)存的問(wèn)題。
本發(fā)明的目的在于,克服已有技術(shù)的缺點(diǎn),提供一種音形合成的編碼法及漢字輸入鍵盤(pán)。
本發(fā)明的目的是通過(guò)如下技術(shù)方案實(shí)現(xiàn)的。
將漢字的聲母作為第一位編碼,其后是形碼,在不少于30個(gè)健位的鍵盤(pán)上,聲母Zh、Ch、Sh分別對(duì)應(yīng)U、O、V,其余聲母與英文字母鍵一一對(duì)應(yīng),取漢字五種基本筆劃?rùn)M、豎、撇、點(diǎn)、折,代碼依次為1、2、3、4、5,形成拼音拼形組字組詞的漢字編碼法及輸入鍵盤(pán)。
本發(fā)明將標(biāo)準(zhǔn)英文鍵盤(pán)分為五個(gè)區(qū),第一區(qū)G F D S A,代碼為11 12 1314 15,第二區(qū)H J K L;,代碼為21 22 23 24 25,第三區(qū)T R E W Q,代碼為31 32 33 34 35,第四區(qū)Y U I O P,代碼為41 42 43 44 45,第五區(qū)B V C X Z,代碼為51 52 53 54 55。
本發(fā)明優(yōu)選漢字67種字根在鍵盤(pán)上的分布及形碼如下
G 11 廣 氵 Y 41 月 羊
F 12 饣 U 42 竹 辶 雨
D 13 大 I 43 米 示 灬 礻 衤
S 14 四 纟幺 乂 O 44 蟲(chóng) 又
A 15 八 馬 犭P 45 門(mén) 匚 冂 勹 凵
H 21 禾 火 B 51 疒 匕
J 22 金 钅 臼
V 52 石 水
K 23 口 C 53 艸
L 24 立 力 耒X 54 西 辛
;25 人 亻 彐Z 55 子 足 山
T 31 土 士 N 女 牛
田
R 32 日 彳 M 皿 木 口
E 33 耳 阝 車(chē)< 目 小 冖
W 34 王 攵 夂> 心 忄
Q 35 言 讠 / 扌 手 寸 弓
本發(fā)明音碼由漢語(yǔ)拼音的第一個(gè)字母聲每構(gòu)成,形碼由一個(gè)字根在鍵盤(pán)上對(duì)應(yīng)的字母或兩個(gè)筆劃的代碼對(duì)應(yīng)的字母或鍵盤(pán)符號(hào)構(gòu)成。
單字輸入首先鍵入漢字的音碼,然后鍵入漢字第一、二及最后一形碼,字根單字的形碼只有一個(gè)時(shí)用兩個(gè)M鍵補(bǔ)足,字根單字的形碼不足三個(gè)時(shí)補(bǔ)一位該字根對(duì)應(yīng)的形碼。
雙字詞組先鍵入第一字的音碼及首位形碼,然后鍵入第二字的音碼及首位形碼。
三字詞組順序鍵入每個(gè)字的音碼。
四詞組順序鍵入每個(gè)字的音碼。
四字以上詞組順序鍵入前三個(gè)字和末一個(gè)字的音碼。
常用26個(gè)漢字一級(jí)簡(jiǎn)碼只輸入一個(gè)對(duì)應(yīng)編碼鍵
大a,不b,到c,的d,這e,地f,個(gè)g,和h,一i,就j,來(lái)k,了l,們m,你n,里o,子p,說(shuō)q,人r,上s,他t,著u,是v,我w,要x,有y,在z。
我們對(duì)音形碼的一個(gè)重要改進(jìn)是對(duì)單字詞減少音碼增加形碼,即變兩位音碼為一位音碼,變兩位形碼為三位形碼。這樣做是符合漢字的演變和產(chǎn)生規(guī)律的。先人最初造字以象形字為主,后來(lái)隨著社會(huì)和文化的發(fā)展新產(chǎn)的漢字則主要以形聲字為主。據(jù)統(tǒng)計(jì),在我們今天所使用的漢字中有90%以上是形聲字。這也就是說(shuō)絕大部分的漢字已經(jīng)寓其音于其形中了。因此如果再在編碼中使用兩位代碼作音碼將是一種極大的浪費(fèi)。本發(fā)明采用一音三形的編碼模式既符合漢字的造字規(guī)律又改變了同音碼漢字子集之間的數(shù)量上的不平衡,增加了區(qū)分同音碼漢字的可用代碼,同時(shí)也大大降低了一字多碼的出現(xiàn)。
本發(fā)明可適用于一切大、中、小、微型計(jì)算機(jī)中文信息處理系統(tǒng),并將在中文電傳電腦打字和計(jì)算機(jī)漢字排版印刷等方面獲得廣泛的應(yīng)用。
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作更進(jìn)一步說(shuō)明。
圖1是漢字五種基本筆劃表。
圖2是字根和代碼中英文共容鍵盤(pán)。
單字編碼中,第一位編碼為音碼,它是聲母zh,ch,sh分別用u,o,v代替后每個(gè)單字的漢語(yǔ)拼音注音的第一個(gè)字母。這樣在26個(gè)英文字母中音碼只用了25個(gè),這25個(gè)音碼把近七千個(gè)漢字分為25組。最多的一組有漢字605個(gè),最少的一組有漢字51個(gè),每組最多字?jǐn)?shù)與最少字?jǐn)?shù)之比為605∶51約為13∶1,這顯然要比用兩位音碼時(shí)的分組均勻得多。本發(fā)明將形碼字根分布在30個(gè)鍵位上。用三位形碼構(gòu)成的不同排列為27000種,在擁有最多字?jǐn)?shù)的同音碼組中可用碼與需要碼之比為27000∶605約為45∶1。如果采用兩位音碼兩位形碼的模式則區(qū)分同音碼的可用碼與最多需要碼之比為900∶110大約為8.2∶1。因此采用一音三形的模式加大了區(qū)分同音碼的可用代碼與需要代碼的比例,這也就降低了產(chǎn)生重碼的可能性。本發(fā)明單字編碼中只有87個(gè)碼是對(duì)應(yīng)著兩個(gè)漢字的,另有一個(gè)碼對(duì)應(yīng)著三個(gè)字,即只有88個(gè)重碼,實(shí)際重碼率不足萬(wàn)分之一。漢字的一字多音現(xiàn)象大多是具有相同的聲母而具有不同的韻母。所以采用一音三形的方式還可以有效地降低一字多碼的現(xiàn)象從而可以達(dá)到節(jié)約計(jì)算機(jī)內(nèi)存的目的。
本發(fā)明除包括了GB-2312的所有單字外還包含大量的兩字以上的詞匯。根據(jù)《現(xiàn)代漢語(yǔ)頻率詞典》和《信息交換用五千詞)》精心挑選了近一萬(wàn)七千條詞匯。其中雙字詞匯13544條,三字詞匯1724條,四字以上詞匯1653條。按同樣的鍵位數(shù)如果能輸入兩個(gè)字甚至多個(gè)字那么輸入速度肯定會(huì)比只能輸入一個(gè)字快得多。因此在不增加碼長(zhǎng)的情況下增加詞匯的收入量肯定會(huì)提高輸入速度。
為了提高輸入速度,本發(fā)明還設(shè)計(jì)了簡(jiǎn)碼方案。它的一級(jí)簡(jiǎn)碼中包含了26個(gè)最常用的單字,二級(jí)簡(jiǎn)碼中包含了347個(gè)單字和399個(gè)雙字詞組。按頻率統(tǒng)計(jì)這些簡(jiǎn)碼字詞的覆蓋面已達(dá)75%以上。僅用兩位編碼就能夠輸入大量的雙字詞匯也肯定會(huì)有助于輸入速度的提高。本發(fā)明形碼部分只有60多個(gè)字根,而且大部分是按其讀音的第一個(gè)拼音字母安排的,因此學(xué)習(xí)掌握本發(fā)明的記憶量是非常小的。
構(gòu)成漢字的最基本的元素是筆劃。在書(shū)寫(xiě)標(biāo)準(zhǔn)體漢字時(shí)從落筆開(kāi)始到提筆結(jié)束所留下的痕跡稱為一個(gè)筆劃。本發(fā)明取能夠被社會(huì)廣泛接受的五種基本筆劃即橫,豎,撇,點(diǎn),折,用1,2,3,4,5作為這五種基本筆劃的代碼;一般說(shuō)來(lái)運(yùn)筆方向自左至右者為橫,自上至下者為豎,自右上至左下者為撇,自左上至右下的捺歸點(diǎn)類(lèi)筆劃,運(yùn)筆方向有轉(zhuǎn)折的筆劃歸為折類(lèi)筆劃。另有下面兩條特殊的歸類(lèi)方式,(1)運(yùn)筆方向自左下至右上的“提”歸為橫類(lèi)筆劃,但是“氵”和“冫”中的末筆按傳統(tǒng)習(xí)慣應(yīng)歸為點(diǎn)類(lèi)筆劃;(2)豎末向左鉤者歸為豎類(lèi)筆劃,其余帶鉤的筆劃歸為折類(lèi)筆劃。
除了基本筆劃外,本發(fā)明為了拆字的直觀并兼顧到減少產(chǎn)生重碼的可能性精選了83個(gè)不同形態(tài)的字根。這83個(gè)字根都是傳統(tǒng)的漢字偏旁部首,其中,絕大部分是國(guó)標(biāo)GB-2312中收錄的。這83個(gè)字根是
疒,八,車(chē),蟲(chóng),寸,大,耳,阝,弓,廣,禾,火,金,钅,臼,口,立,力,馬,門(mén),匚,冂,勹,凵,米,皿,木,目,牛,女,人,亻,日,山,石,示,礻,手,扌,水,四,田,土,士,王,西,小,辛,心,忄,言,讠,羊,又,雨,月,竹,子,足(包括),
,匕,艸,
,囗,彳,犭,饣,氵,辶,彐,纟,幺,攵,夂,灬,衤,
,乂,耒,冖,(包括
,
)。
為記憶方便,可以將以上字根分類(lèi)合并。按照傳統(tǒng)習(xí)慣,把“耳、阝”,“金、钅”,“人、亻”,“心、忄”,“手、扌”,“言、讠”,“示、礻”等,分別歸為一種;按形狀近似把“土、士”,“攵、夂”,“纟、幺”等,分別歸為一種,在組字特征上,有字根“門(mén)、匚、冂、勹、凵”,出現(xiàn)的漢字大多為半包圍形的或稱偏包圍形的漢字,可將它們歸為一種稱之為“偏圍”的字根;字根“冖,
,
”一般出現(xiàn)在漢字的上部,可將其歸為一種稱之為“蓋”的字根。這樣的分類(lèi)既自然也有助于記憶字根在鍵盤(pán)上的分布。經(jīng)過(guò)以上合并后,本發(fā)明實(shí)際上只有67種字根。
由于字根很少,在拆字時(shí)不會(huì)造成字根間爭(zhēng)筆劃的沖突。只須按照大家公認(rèn)的書(shū)寫(xiě)順序?qū)h字分拆為五種基本筆劃和67種基本字根即可。另外在拆字時(shí)要遵循以下兩條基本原則
①.取大原則一個(gè)基本筆劃應(yīng)盡可能地與前面的筆劃或字根相連構(gòu)成一個(gè)較大的字根,但字根的筆劃數(shù)必須少于原字的筆劃數(shù)。例如“辯”字應(yīng)拆為“辛 讠辛”而不應(yīng)拆為“立13讠立12”。字根筆劃數(shù)要少于原字的筆劃數(shù)是指對(duì)于被選為字根的單字也需再要進(jìn)一步分拆。例如“米”字要分拆為“43木”,“疒”要分拆為“廣44”等。
②.不交原則即前后兩個(gè)字根不能共用原字的相同的筆劃。例如“生”字不能拆為“牛土”,因?yàn)檫@時(shí)“?!焙汀巴痢惫灿谩吧弊值牡谌P和第四筆,而應(yīng)分拆為“牛1”。
鍵盤(pán)布局如圖2所示。
鍵位分區(qū)
由于本發(fā)明的字根很少,因此在一個(gè)單字的分拆序列中字根往往較少,編碼時(shí)如果讓一個(gè)基本筆劃就對(duì)應(yīng)一個(gè)鍵位或者說(shuō)對(duì)應(yīng)一個(gè)碼元是不合理的,采取兩個(gè)相連的基本筆劃對(duì)應(yīng)一個(gè)碼元的方法來(lái)克服這一弱點(diǎn),遵循打字擊鍵時(shí)的指法規(guī)律,從鍵盤(pán)中央的30個(gè)鍵中選出25個(gè)分為五個(gè)區(qū),第一區(qū)是“G、F、D、S、A”,其編號(hào)分別為“11、12、13、14、15”,第二區(qū)是“H、J、K、L、;”,編號(hào)分別為“21、22、23、24、25”,第三區(qū)是“T、R、E、W、Q”,其編號(hào)分別為“31、32、33、34、35”,第四區(qū)是“Y、U、I、O、P”,其編號(hào)分別為“41、42、43、44、45”,第五區(qū)是“B、V、C、X、Z”,其編號(hào)分別為“51、52、53、54、55”。
字根的鍵位分布
本發(fā)明67種字根合理地分布在26個(gè)字母鍵及4個(gè)符號(hào)鍵“;、<、>、/”上,在字根的鍵盤(pán)分布中基本上遵循了按音碼分布的規(guī)律,即大部分字根分布在它的傳統(tǒng)讀音的聲母或韻母的第一個(gè)字母所在的鍵位。
按字根的聲母分布的有39種49個(gè)
疒,匕,艸,大,耳(阝),饣(飯旁),廣,禾,火,金(钅),臼,口,立,力,耒,木,皿,牛,女,
,蟲(chóng),偏包類(lèi)字根(門(mén),匚,冂,勹,凵),日,彳,纟(幺),四,土(士),竹,辶,石,水,王,攵(夂),西,辛,月,羊,子,足()。
按字根的韻母分布的有9種10個(gè)
八,車(chē),犭,馬,米,示(礻),衤,雨,又。
以上兩種分布方式使得大部分字根的鍵盤(pán)位置不需要記憶,另外一些字根分布也有規(guī)律可循,例如字根“小”在“<”號(hào)上,“扌(手)”在類(lèi)似于筆劃提的符號(hào)“/”上等。
單字音碼是由漢字的國(guó)家標(biāo)準(zhǔn)漢語(yǔ)拼音注音中的zh,ch,sh分別用u,o,v代替后取第一個(gè)字母得到的。例如“愛(ài),耳,朱,充,是”的音碼分別為“a,e,u,o,v”。
單個(gè)漢字的形碼按以下方法確定
首先考慮單字的分拆序列中的第一個(gè)單元即基本筆劃或字根,
①.若此單元是基本筆劃則這轉(zhuǎn)②;否則用此單元即字根所在的鍵位符號(hào)即其對(duì)應(yīng)的碼元作為一位形碼,轉(zhuǎn)④;
②.記此基本筆劃為單元1,若單元1后還有單元,則記此單元為單元2,轉(zhuǎn)③,否則單元1的筆劃代碼后補(bǔ)“1”構(gòu)成鍵位代碼,按鍵盤(pán)分區(qū)用此鍵位代碼對(duì)應(yīng)的符號(hào)作為一位形碼,轉(zhuǎn)⑦;
③.若單元2是字根則省略單元1,用單元2(字根)對(duì)應(yīng)的碼元作為一位形碼,轉(zhuǎn)④;否則用單元1和單元2的筆劃代碼構(gòu)成鍵位代碼,取此鍵位代碼對(duì)應(yīng)的符號(hào)作為一位形碼,轉(zhuǎn)④;
④.若分拆序列中的單元已用盡則轉(zhuǎn)⑦;否則,若已取夠兩位形碼則轉(zhuǎn)⑤,若未取夠兩位形碼則轉(zhuǎn)①去考慮分拆序列中剛剛用過(guò)的這一單元的下一單元;
⑤.若最后一個(gè)單元是基本筆劃,則記其為單元2轉(zhuǎn)⑥;否則最后一個(gè)單元是一字根,取其對(duì)應(yīng)的碼元作為第三位形碼,轉(zhuǎn)⑧;
⑥.如果單元2前面是一個(gè)尚未使用的基本筆劃則用它的筆劃代碼和單元2的筆劃代碼構(gòu)成鍵位代碼,取此鍵位代碼對(duì)應(yīng)的符號(hào)作為第三位形碼,轉(zhuǎn)⑧;否則用單元2的筆劃代碼后補(bǔ)“1”構(gòu)成鍵位代碼,取此鍵位代碼對(duì)應(yīng)的符號(hào)作為第三位形碼,轉(zhuǎn)⑧;
⑦.至此形碼至多有兩位,應(yīng)按下述規(guī)則補(bǔ)充形碼如果單字是字根則補(bǔ)充字根所在鍵位的符號(hào)作為一位形碼,如果單字不是字根且按以上規(guī)則只取到一位形碼,則補(bǔ)充兩個(gè)“m”作為形碼;轉(zhuǎn)⑧;
⑧.字形碼取碼結(jié)束。
以上字形碼的取碼步驟看起來(lái)很繁鎖,原因是我們?yōu)槭谷〈a規(guī)則盡量表述得清晰、嚴(yán)格。其實(shí)真正理解之后是很簡(jiǎn)單的,可概括為以下幾句話
首二末一順序取,字根前面去單筆;
字根單獨(dú)成一碼,鍵位代碼合兩筆;
字根形碼不足三,所在鍵位充其一;
單字形碼若孤單,兩個(gè)M做兄弟。
單字的編碼是由它的音碼和形碼構(gòu)成的,音碼在前形碼在后。
例1.“乙”字的分拆序列是“5”,編碼是“ybmm”,其中“y”是音碼,“bmm”是形碼,在形碼“bmm”中,“b”是分拆單元“5”補(bǔ)“1”得到的鍵位代碼“51”所對(duì)應(yīng)的碼元,“mm”是補(bǔ)充形碼。
例2.“人”字的分拆序列是“34”,編碼是“rw;”,其中“r”是音碼,“w;”是形碼,在形碼“w;”中,“w”是鍵位代碼“34”對(duì)應(yīng)的碼元,“;”是補(bǔ)充形碼。
例3.“我”字的分拆序列是“3扌534”,編碼是“w/cy”,其中“w”是音碼,“/cy”是形碼;在形碼“/cy”中,“/”是省略字根“扌”前的單一筆劃“3”后字根“扌”對(duì)應(yīng)的碼元,“c”是鍵位代碼“53”對(duì)應(yīng)的碼元,“y”是分拆序列中最后一個(gè)單元即基本筆劃“4”補(bǔ)“1”構(gòu)成的鍵位代碼“41”對(duì)應(yīng)的碼元。
例4.“及”字的分拆序列是“5人”,編碼是“j;mm”。
例5.“想”字的分拆序列是“木目心”,編碼是“xm<>”。
雙字詞組的編碼由第一字的音碼及首位形碼和第二字的音碼及首位形碼組成。例,“勝利”的編碼是“vylh”,“漢字”的編碼是“hgz<”等。
三字詞組的編碼由三個(gè)字的音碼順序組成。例如,“大學(xué)生”的編碼是“dxv”,“共產(chǎn)黨”的編碼是“god”,“計(jì)算機(jī)”的編碼是“jsj”等。
四字詞組的編碼由四個(gè)字的音碼組成,例如,“朝氣蓬勃”的編碼是“uqpb”,“共產(chǎn)主義”的編碼是“gouy”。
四字以上詞組的編碼由前三個(gè)字的音碼及最后一個(gè)字的音碼構(gòu)成。例如,“不管三七二十一”的編碼是“bgsy”,“中華人民共和國(guó)”的編碼是“uhrg”。
挑選了26個(gè)最常用的漢字給它們以最短的碼長(zhǎng)。這26個(gè)漢字盡管為數(shù)很少但使用頻率卻已達(dá)26.78%。其中大部分漢字的一級(jí)簡(jiǎn)碼是有規(guī)律的,例如“不的個(gè)和就了們你人他著是我有在”共15個(gè)是這些字的音碼,“大這一”是這三個(gè)字的韻母,其他的一級(jí)簡(jiǎn)碼似乎沒(méi)有明顯的規(guī)律,我們?nèi)匀恢庾隽诉@樣的安排“到地,來(lái)里”的簡(jiǎn)碼就分別在它們的音碼d和l的周?chē)罢f(shuō),要”的簡(jiǎn)碼是它們的第一位形碼,只有“上”和“子” 的簡(jiǎn)碼沒(méi)有明顯的規(guī)律。據(jù)《現(xiàn)代漢語(yǔ)頻率詞典》的統(tǒng)計(jì)這些漢字的使用頻率已超過(guò)四分之一,所以這些一級(jí)簡(jiǎn)碼的設(shè)置對(duì)提高輸入速度是相當(dāng)重要的。
本發(fā)明還挑選了347個(gè)較常用的單字和399個(gè)較常用的雙字詞匯作為二級(jí)簡(jiǎn)碼。這些二級(jí)簡(jiǎn)碼的使用頻率按詞計(jì)算已達(dá)54.25%,按字計(jì)算已達(dá)48.34%。這樣一來(lái),將有71.76%的單個(gè)漢字可用一、二級(jí)簡(jiǎn)碼輸入。二級(jí)簡(jiǎn)碼采用兩位編碼,它的取碼規(guī)則是二級(jí)簡(jiǎn)碼字的編碼由單字的前兩位編碼即音碼和首位形碼組成。二級(jí)簡(jiǎn)碼詞的編碼由這兩個(gè)字的音碼組成。例如“因?yàn)椋?,得,好”的二?jí)簡(jiǎn)碼分別是“yw,sy,dr,hn”等。
二級(jí)簡(jiǎn)碼中收入雙字詞匯是本發(fā)明的又一特色,一二級(jí)簡(jiǎn)碼的覆蓋率說(shuō)明將是一種高效率的漢字編碼。熟悉二級(jí)簡(jiǎn)碼的編碼將有助于提高輸入速度。
權(quán)利要求
1.一種合成編碼法及漢字輸入鍵盤(pán),其特征在于,將漢字的聲母作為第一位編碼,其后是形碼,在不少于30個(gè)健位的鍵盤(pán)上,聲母Zh、Ch、Sh分別對(duì)應(yīng)U、O、V,其余聲母與英文字母鍵一一對(duì)應(yīng),取漢字五種基本筆劃?rùn)M、豎、撇、點(diǎn)、折,代碼依次為1、2、3、4、5,形成拼音拼形組字組詞的漢字編碼法及輸入鍵盤(pán)。
2.如權(quán)利要求l所述的合成編碼法及漢字輸入鍵盤(pán),其特征在于,英文鍵盤(pán)分為五個(gè)區(qū),第一區(qū)G F D S A,代碼為11 12 13 14 15,第二區(qū)H J K L;,代碼為21 22 2824 25,第三區(qū)T R E W Q,代碼為31 32 33 34 35,第四區(qū)Y U I O P,代碼為41 4243 44 45,第五區(qū)B V C X Z,代碼為51 52 53 54 55。
3.如權(quán)利要求l所述的合成編碼法及漢字輸入鍵盤(pán),其特征在于,優(yōu)選漢字67種字根在鍵盤(pán)上的分布及形碼如下G 11 廣 氵 Y 41 月 羊F 12 饣U 42 竹 辶 雨D 13 大I 43 米 示 灬 礻衤S 14 四 纟幺 乂O 44 蟲(chóng) 又A 15 八 馬 犭 P 45 門(mén) 匚 冂 勹 凵H 21 禾 火 B 51 廣 匕J 22 金 钅 臼
V 52 石 水K 23 口C 53 艸
L 24 立 力 耒 X 54 西 辛;25 人 亻 彐 Z 55 子 足 山T 31 土 士 N 女 牛
田R 32 日 彳 M 木 口E 83 耳 阝車(chē) < 目 小 冖W 34 王 攵 夂 > 心 忄Q 35 言 讠 / · 扌 手 寸 弓
4.如權(quán)利要求1所述的合成編碼法及漢字輸入鍵盤(pán),其特征在于,音碼由漢語(yǔ)拼音的第一個(gè)字母構(gòu)成,形碼由一個(gè)字根在鍵盤(pán)上對(duì)應(yīng)的字母或兩個(gè)筆劃的代碼對(duì)應(yīng)的字母或鍵盤(pán)符號(hào)構(gòu)成。
5.如權(quán)利要求1和2所述的合成編碼法及漢字輸入鍵盤(pán)其特征在于,單字輸入首先鍵入漢字的音碼,然后鍵入漢字第一、二及最后一形碼,字根單字的形碼只有一個(gè)時(shí)用兩們鍵補(bǔ)足,字根單字的形碼不足三個(gè)時(shí)補(bǔ)一位該字根對(duì)應(yīng)的形碼。
6.如權(quán)利要求1所述的合成編碼法及漢字輸入鍵盤(pán),其特征在于,雙字詞組先鍵入第一字的音碼及首位形碼,然后鍵入第二字的音碼及首位形碼。
7.如權(quán)利要求1所述的合成編碼法及漢字輸入鍵盤(pán),其特征在于,三字詞組順序鍵入每個(gè)字的音碼。
8.如權(quán)利要求1所述的合成編碼法及漢字輸入鍵盤(pán),其特征在于,四字詞組順序鍵入每個(gè)字的音碼。
9.如權(quán)利要求1所述的合成編碼法及漢字輸入鍵盤(pán),其特征在于,四字以上詞組順序鍵入前三個(gè)字和末一個(gè)字的音碼。
10.如權(quán)利要求1所述的合成編碼法及漢字輸入鍵盤(pán),其特征在于,常用26個(gè)漢字一級(jí)簡(jiǎn)碼只輸入一個(gè)對(duì)應(yīng)編碼鍵大a,不b,到c,的d,這e,地f,個(gè)g,和h,一i,就j,來(lái)k,了l,們m,你n,里o,子p,說(shuō)q,人r,上s,他t,著u,是v,我w,要x,有y,在z。
全文摘要
本發(fā)明涉及合成編碼法及漢字輸入鍵盤(pán),屬于計(jì)算機(jī)漢字輸入技術(shù)領(lǐng)域。將漢字的聲母作為第一位編碼,其后是形碼,在不少于30個(gè)鍵位的鍵盤(pán)上,聲母zh、ch、sh分別對(duì)應(yīng)U、O、V,其余聲母與英文字母鍵一一對(duì)應(yīng),取漢字五種基本筆劃?rùn)M、豎、撇、點(diǎn)、折,代碼依次為1、2、3、4、5,形成拼音拼形組字組詞的漢字編碼法及輸入鍵盤(pán)。本發(fā)明碼長(zhǎng)短,字根少,音形結(jié)合易學(xué)易記,適用于計(jì)算機(jī)漢字系統(tǒng)及有關(guān)設(shè)備中。
文檔編號(hào)G06F3/023GK1152742SQ9611598
公開(kāi)日1997年6月25日 申請(qǐng)日期1996年9月27日 優(yōu)先權(quán)日1996年9月27日
發(fā)明者趙光鋒, 林鈞昌 申請(qǐng)人:曲阜師范大學(xué)