專利名稱:簡易音部碼漢語輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于計算機、電子打字機等電腦設(shè)備上的鍵盤式漢語輸入方法。
漢語的鍵盤式輸入是在我國普及計算機應(yīng)用要解決的關(guān)鍵技術(shù)之一。近十年來我國大陸、臺灣、香港等地都研制了許多漢語輸入法,但能被廣大用戶普遍接受的很少。目前我國市場上覆蓋率最高的漢語輸入法有兩種,一種是拼音碼,它本身又包括多種不同的輸入系統(tǒng);另一種是五筆字型。這兩種輸入法有各自的優(yōu)點與缺點。
拼音碼的顯著優(yōu)點是易學(xué)性好,主要缺點是重碼率高,且對用戶的發(fā)音要求較高。
為了解決拼音碼重碼率高的缺點,拼音碼近年來先后發(fā)展出三代產(chǎn)品。以單字輸入為主的音碼,如CCDOS簡拼;以字詞統(tǒng)一處理為特征的音碼,如周志農(nóng)先生的自然碼;以語句級處理為特征的音碼,如哈爾濱工業(yè)大學(xué)計算機系研制的‘音聲漢字語句輸入系統(tǒng)’。第二、三代產(chǎn)品與第一代產(chǎn)品相比,在理論和技術(shù)的某些方面有相當(dāng)?shù)倪M步,但作為產(chǎn)業(yè)化的實用輸入系統(tǒng),它們都未能妥善地解決漢語同音字詞的重碼問題。例如,哈工大的音聲漢字語句輸入系統(tǒng),是國家863高技術(shù)計劃和國家自然科學(xué)基金資助的項目。代表了音碼輸入技術(shù)的最高水準(zhǔn),但它亦未能解決好字詞重碼問題。在該系統(tǒng)中,語句級輸入特有的整句滯后音詞轉(zhuǎn)換方式使操作員無法實時處理消除重碼,只能在每句話的音碼輸入完之后再回復(fù)校驗,搜索重碼并重新做更正輸入。這就使系統(tǒng)的輸入效率大打折扣,一些音碼輸入系統(tǒng)還嘗試采用以音碼為主,以形碼為輔的音形結(jié)合編碼方式解決重碼問題,但都不夠成功。需要指出的是,如果詞級和語句級音碼在解決重碼問題方面有綜合性和實用性的提高和進步,那么可以預(yù)料它們應(yīng)取代第一代音碼產(chǎn)品,甚至取代五筆字型,在市場上有較高的覆蓋率??墒瞧駷橹挂舸a的第二、三代產(chǎn)品在市場上的占有率一直很低,甚至未能取代第一代產(chǎn)品的主導(dǎo)地位。從科技產(chǎn)業(yè)化商品化的觀點看,用戶的檢驗勝過任何級別的鑒定或理論學(xué)術(shù)論文。所以,至少在最近的將來單純依靠音碼徹底解決重碼,實現(xiàn)漢語高速輸入的前景不容樂觀。
音碼的第二個缺點是對用戶發(fā)音的要求過高過嚴(yán)。漢語存在八大方言體系,普通話是以其中一種為基礎(chǔ)設(shè)立推廣的。在廣大方言地區(qū),有相當(dāng)比例用戶達不到標(biāo)準(zhǔn)發(fā)音的水準(zhǔn),例如前后鼻韻母之間的區(qū)分,平翹舌音之間的區(qū)分等。為了解決這個問題,有些音碼設(shè)置了“南方方式”輸入狀態(tài)如自然碼。在這種狀態(tài)下用戶可不區(qū)分前后鼻韻母或平翹舌音。但這種輸入方式使原已過高的重碼率又大輻上升。這不是一種較好的解決辦法。此外,受過中等教育的中國公民的識字量在4,500以內(nèi),國標(biāo)碼一二級字庫所收六千多漢字中,有三分之一左右或以上對普通用戶是不能正確識讀的生字。音碼在處理這部分漢字的輸入上,效率更低。
王永民先生發(fā)明的五筆字型輸入法,是形碼的優(yōu)秀代表之一,已獲美英等國專利。迄今為止,它仍是實用輸入系統(tǒng)中效率最高的,是專業(yè)操作員首選的輸入法。但五筆字形存在兩個主要弱點。第一是易學(xué)性差。非操作員專業(yè)的普通用戶普遍反映五筆字型難學(xué)、難記、易忘。五筆字型的字根系統(tǒng),是建立在五種基本筆劃的雙筆組合基礎(chǔ)上的。這種字根系統(tǒng)與人們在小學(xué)階段已掌握熟悉的漢字形態(tài)系統(tǒng)-部首偏旁系統(tǒng)-之間缺乏內(nèi)在的一致性,從教育與學(xué)習(xí)心理分析,它與人們先期學(xué)習(xí)已形成的漢字形態(tài)的心理認(rèn)知圖式不一致,學(xué)習(xí)難度高是不可避免的。普通用戶使用五筆以較高的效率輸入漢字是可以做到的,但必須有一段較長時間的訓(xùn)練熟悉過程。換言之,五筆字型輸入的高效率技術(shù)指標(biāo),是建立在用戶掌握它時低效率的學(xué)習(xí)基礎(chǔ)上的。五筆字型高效但難學(xué),這是計算界較普遍的看法。用戶學(xué)習(xí)的低效率性,客觀上不利于計算機應(yīng)用的普及與推廣。
五筆字型的第二個弱點是詞處理功能較低。五筆字型詞庫詞條量約為5,000條,這個數(shù)量遠遠達不到高效實用的水準(zhǔn)。權(quán)威度較高的《現(xiàn)代漢語詞典》共收詞56,000條,它的簡化壓縮版本《現(xiàn)代漢語小詞典》共收詞35,000條。專家普遍認(rèn)為實用輸入系統(tǒng)的詞庫詞條量應(yīng)當(dāng)在10,000以上。五筆字型的詞條覆蓋率低,漏詞率高,用戶在使用時,如果采用詞輸入法,會經(jīng)常遇到廢碼,即有碼無詞或雖有詞但不是目標(biāo)詞,必須更正后再輸入。這就限制了系統(tǒng)的輸入效率,并造成使用上的不便。在實際運用中,因漏詞率高,廢碼率高,許多用戶干脆不采用詞輸入法,只用字輸入法,這樣可避免經(jīng)常重打。但這更加減弱了五筆的詞處理功能。
在具有詞處理功能的音碼或形碼輸入法中,一般都存在詞處理功能不理想的弱點。這主要表現(xiàn)在以下幾個方面。第一,詞重碼率偏高,如各種音碼。第二,詞庫詞條量偏低,漏詞率高而覆蓋率低,如五筆字型。第三,有些輸入系統(tǒng)采用靜態(tài)鏈表結(jié)構(gòu)的聯(lián)想方式實現(xiàn)詞輸入,這種方法對提高輸入效率作用有限,且屏蔽了數(shù)字鍵原有的功能而造成使用不便;又很累眼睛,極易引起操作疲勞。第四,詞簡碼功能較差。五筆字型有字簡碼,但無詞簡碼。自然碼有詞簡碼,但存在外碼流中簡碼與原碼不統(tǒng)一而產(chǎn)生的缺點。自然碼的雙字詞外碼的統(tǒng)一形式是“聲韻聲韻”,簡碼的形式則是“聲聲”加指定切換鍵。由于簡碼與原碼不統(tǒng)一,引起以下幾方面的缺點。首先是簡碼的有效編碼空間太小,“聲聲”形式編碼的最大容量為26X26=676,這就把簡碼的容量限制在很小的范圍內(nèi)。其次是動態(tài)廢碼率高,如果不能夠記住簡碼的全部目標(biāo)詞,操作員在用簡碼輸入時就經(jīng)常會遇到廢碼。盡管簡碼的目標(biāo)詞量只有幾百,要全部記住也是很困難的。再次是指定單鍵切換的擊鍵方式在心理與指法操作上不很方便。在字簡碼與詞簡碼技術(shù)之間作一對比是富于啟發(fā)的。注意字簡碼的實現(xiàn)方法一般是采用原碼的截尾式空格盲打法。這種方法的優(yōu)點是與原碼統(tǒng)一,輸入時不易產(chǎn)生廢碼,簡碼的有效空間較大且指法操作方便,因而潛在的實用效率較高。但盲打法同樣需要用戶強記簡碼目標(biāo)字,使用很不方便,影響了系統(tǒng)潛在效率的發(fā)揮。
從算法分析理論考查,對元素使用頻度不同的信息集合進行編碼時,效率最高的編碼必定是某種形式的前綴碼。這一前綴碼的設(shè)定,必須以元素的使用頻度排序為依據(jù)。設(shè)編碼的基本鍵位數(shù)是N,則此前綴碼應(yīng)該相當(dāng)于一棵權(quán)數(shù)最小的N元最優(yōu)樹。單純從算法理論出發(fā),設(shè)計一個技術(shù)效率最高的漢語編碼方案實際并不困難,只要采用前綴碼最優(yōu)樹算法就能實現(xiàn)。但迄今為此,還沒有一種漢語輸入系統(tǒng)能夠較全面地采用前綴碼最優(yōu)樹算法。這是近年來漢語輸入系統(tǒng)的效率踏步不前,出現(xiàn)高原現(xiàn)象的原因之一,是漢語編碼需要解決的問題。
在實用的輸入系統(tǒng)中,編碼的實際效率不完全取決于它的理論效率,它還與人腦學(xué)習(xí)與操作該編碼的效率有密切關(guān)系。前綴碼最優(yōu)樹算法的編碼是不等長編碼,而不等長編碼會顯著增加心理加工的復(fù)雜度,從而限制它理論效率的發(fā)揮。不解決這一難題,就難以全面實現(xiàn)前綴碼最優(yōu)樹的設(shè)計方案。在漢語輸入實踐中,我國編碼與軟件工作者創(chuàng)造了截尾式空格盲打輸入法、尾碼切換法等簡碼輸入法,這些方法在解決上述難題方面有所進展。實際上,簡碼輸入法已經(jīng)部分地實現(xiàn)了前綴碼最優(yōu)樹算法。但它仍然存在一些重要缺陷。首先,到目前為此,簡碼技術(shù)主要局限于漢語輸入的某些部分,缺乏統(tǒng)一化的設(shè)計實施方案。例如空格盲打法局限于字輸入范圍,尾碼切換法局限于小部分詞輸入范圍等。其次,每種簡碼輸入法都有各自的弱點。例如,原碼的截尾式盲打輸入是潛在技術(shù)效率較高的簡碼輸入法,但盲打法也需要用戶熟記簡碼的目標(biāo)字或詞,這又大大增加了人腦操作負擔(dān),限制了技術(shù)效率的發(fā)揮。
本發(fā)明的目的是提供一種自成體系的漢語輸入法,它建立在漢字漢語悠久傳統(tǒng)的基礎(chǔ)上,又融匯了現(xiàn)代漢語的特點;它既有很好的易學(xué)性,又有極高的輸入效率;在易學(xué)性指標(biāo)上,它與音碼相近,比五筆字型容易很多,在輸入效率的主要技術(shù)指標(biāo)上,它比五筆字型有較顯著的提高;它適用于各種領(lǐng)域,各種層次的用戶;它既能處理簡化字,又能處理繁體字,包括用戶不能正確識讀的漢字;特別是,它與漢語書面語的啟蒙教育能夠很好統(tǒng)一,這就使小學(xué)低年級兒童不用增加學(xué)習(xí)負擔(dān),也能迅速掌握本輸入法,使中國兒童像西語兒童那樣,從小就能十分方便地用電腦或電子打字機處理自己的母語;這對計算機普及,對教育和科技普及,對整個中華民族文化素質(zhì)的提高,都會產(chǎn)生良好的重大的社會效益。
本發(fā)明的目的是通過設(shè)計一種音形義一體化,字詞統(tǒng)一的編碼方案,同時實施輸入系統(tǒng)全面優(yōu)化的手段來實現(xiàn)的。這需要在理論與工程技術(shù)兩個層面進行透徹的因素分析與系統(tǒng)綜合,分析與綜合與語言處理相關(guān)的各種有關(guān)理論與技術(shù),篩選生成出一套與部首偏旁系統(tǒng)具有內(nèi)在一致性的形碼字根系統(tǒng),這套形碼系統(tǒng)能與音碼實現(xiàn)自由結(jié)合,同時采用字詞分流合成簡碼技術(shù)全面實現(xiàn)前綴碼最優(yōu)樹算法,從而優(yōu)化組合成一種易學(xué)高效的漢語輸入系統(tǒng),使該系統(tǒng)的各項技術(shù)指標(biāo),達到或接近達到算法理論的極限水平。
以下詳細介紹具體實施方案。
一.形碼系統(tǒng)設(shè)計1.一般原則首先,通過語言學(xué)、心理學(xué)和教育學(xué)的分析確定,形碼系統(tǒng)應(yīng)當(dāng)盡可能地與漢字傳統(tǒng)的部首偏旁系統(tǒng)具有一致性。然后,對漢語的基本單元進行統(tǒng)計,了解它們的分布狀態(tài),主要包括字和詞相對于部首、音節(jié)、聲母韻母的分布,以及詞相對于字的分布。在獲得的分布狀態(tài)的基礎(chǔ)上,將認(rèn)知心理學(xué)模型和概率論模型相結(jié)合,實施部首歸類的模擬實驗,篩選生成了本輸入系統(tǒng)中的關(guān)鍵部分-形碼字根系統(tǒng)。
2.字根系統(tǒng)將約200個漢字傳統(tǒng)部首以及漢字中其他常見的形態(tài)單元歸為27個大類,取名為“科”。將此27個科分別對應(yīng)于鍵盤上27個鍵,其中26個是字母鍵,另一個是分號鍵。采用音形義多線索集成方法,在部首科與鍵位之間建立對應(yīng)關(guān)系,方便記憶操作。27個科的概括如表1.所示。
本字根系統(tǒng)的歸類具有兩個重要原則。第一是強調(diào)與部首偏旁系統(tǒng)的一致性,所以大部分字根本身就是規(guī)范的部首偏旁,其他的非規(guī)范部首偏旁的字根也與已有的某個部首偏旁具有形態(tài)特征上的相似性。第二是強調(diào)字根整體的大輪廓的知覺特征,這種輪廓形態(tài)的知覺特征一般與一個或幾個主干筆劃相關(guān),但與筆劃的具體種類、數(shù)量、或筆劃組合順序等方面的
表4作為溫度函數(shù)的由交換耦合引起的較小回線矯頑磁力偏移溫度實施例7實施例8實施例9(℃)Hc△HcHc△HcHc△Hc201.250.55~1.2~21.50.351200.650.15--0.900.101500.550.10~0.8~1.20.750.052000.280.03~0.3~0.70.400.03實施例10第一多層該第一層的制造過程如實施例4中所述。樣品從真空室中取出并進行下述過程的熱處理
(A)長度24個氨基酸(B)類型氨基酸(C)鏈單鏈(D)拓撲線性(ⅱ)分子類型肽(ⅹⅰ)序列描述SEQ ID NO1
(2)SEQ ID NO2的資料(ⅰ)序列特征(A)長度23個氨基酸(B)類型氨基酸(C)鏈單鏈(D)拓撲線性(ⅱ)分子類型肽(ⅹⅰ)序列描述SEQ ID NO2
(2)SEQ ID NO3的資料(ⅰ)序列特征
17.大耳刀科.本科包括三個部分大部,耳部,刀部。
大部大,夫, ,央。
耳部耳, ,阝,卩。
刀部刀, ,力。
18.小計算科.本科包括三個部分小字部,言字旁讠,竹字頭。其中小字部有幾種變形 。
19.水叉火科.本科包括三個部分水字部,火字部,叉形部。前兩者是規(guī)范部首。叉形部又可分為四個子類單叉,復(fù)叉,上叉,下叉。
單叉十,乂,。
復(fù)叉 ,豐。
上叉 。
下叉干, 。
20.白里黑科.屬于本科的字根大多是規(guī)范部首,它們的共同特點是不論具體形態(tài)上有多少差別,都無一例外的包含有方形的封閉型結(jié)構(gòu),但又不是單純的口字或國字框。屬于本科的部首或字根有日,白,田,里,黑,西,酉,臼等等。但“目”字形封閉結(jié)構(gòu)不屬于本科(參見22.盼月盈科)。
21.又婦多科.本科字根的特點是它們都包含有交叉的封閉或近似封閉的結(jié)構(gòu),且封閉形狀是三角形等非方形結(jié)構(gòu),可以把這些字根歸為以下三類文部文,攵,夂。
又女部又,女,又。
夕歹部夕, ,歹。
22.盼月盈科.除了月字旁以外,本科的字根都具有或包含有典型的“目”字形結(jié)構(gòu),可以如目字是垂直的,也可以如皿字等是水平的。月字本身在形態(tài)上與目字也很相近,容易記憶。屬于本科的部首或字根有月,目,且,自,直,血,皿,身,自等等。注意“耳”字與本科字根較相近,但不屬于本科,屬于大耳刀科。
表4作為溫度函數(shù)的由交換耦合引起的較小回線矯頑磁力偏移溫度實施例7實施例8實施例9(℃)Hc△HcHc△HcHc△Hc201.250.55~1.2~21.50.351200.650.15--0.900.101500.550.10~0.8~1.20.750.052000.280.03~0.3~0.70.400.03實施例10第一多層該第一層的制造過程如實施例4中所述。樣品從真空室中取出并進行下述過程的熱處理
二.音形組合編碼從理論和實用兩個方面分析,漢語編碼應(yīng)當(dāng)走音形結(jié)合的道路,這樣既可以提高外碼的有效信息量和區(qū)分度,又能適用于不同類型的用戶;而且,音形結(jié)合的方式,應(yīng)當(dāng)具有一定的自由度,以方便用戶選擇。
在實用輸入系統(tǒng)中,本形碼可以與音碼以多種方式自由結(jié)合,生成形式上不同的編碼。以下列舉幾種主要的組合方式。音節(jié)+形碼組合輸入方式1.簡拼音形碼-CCDOS簡拼+形碼的組合輸入方式CCDOS簡拼用一到三個字母鍵輸入一個漢語音節(jié),然后根據(jù)提示行提示的重碼字集用數(shù)字鎖定方式選擇目標(biāo)字,并經(jīng)常要做換頁搜索。如果納入本形碼系統(tǒng),在音碼之后輸入一到兩個形碼,則可消除95%以上的重碼(國標(biāo)一級字庫,下同),不需做任何換頁處理。
2.雙拼音形碼-雙拼+形碼的組合輸入方式雙拼是用兩個字母輸入一個漢語音節(jié)。在字輸入狀態(tài)下,它的重碼率與簡拼相同?;谕瑯拥姆绞?,將雙拼碼與本形碼系統(tǒng)結(jié)合,在雙拼音碼之后輸入一到兩個形碼,可削除95%以上的重碼。這種編碼方式效率較高,且為等長編碼。.聲母+形碼組合輸入方式在拼音聲母鍵之后直接輸入本形碼系統(tǒng)的一到三個形碼,構(gòu)成碼長為四的聲形碼。這種編碼的效率很高,可使字輸入方式的靜態(tài)重碼率降到百分之一以下。結(jié)合詞編碼等輸入技術(shù),可使動態(tài)重碼率降到十萬分之一以下。.獨立輸入方式本形碼單獨使用,構(gòu)成碼長為四的純形碼,同樣是效率很高的編碼輸入方式。它的字輸入方式的靜態(tài)重碼率在5%以下。它還可以懸掛在上述任一種音形結(jié)合的系統(tǒng)下作為輔助輸入方式,用于輸入處理不能正確識讀的生僻字。
三.字詞統(tǒng)一的編碼系統(tǒng)現(xiàn)代漢語在語用交際中的基本單位是詞而不是字。各種漢語輸入系統(tǒng)中普遍采用某種詞輸入技術(shù)。本編碼方案是以字輸入為基礎(chǔ),以詞輸入為主導(dǎo)的編碼系統(tǒng),在模型建構(gòu)的過程中充分考慮了詞分布的編碼空間,特別適用于詞輸入處理。
表2.聲部碼復(fù)音詞編碼方式第一字第二字第三字末尾字合計雙字詞前二碼前二碼四碼三字詞前一碼前一碼前二碼四碼多字詞前一碼前一碼前一碼前一碼四碼注多字詞系指四字或四字以上的復(fù)音詞在前節(jié)所述的三種字輸入方式的基礎(chǔ)上,都可以采用字詞統(tǒng)一編碼的方式,使系統(tǒng)具備詞輸入功能。下面以聲母+形碼組合輸入方式為例,介紹詞編碼原理。為方便敘述,將這種編碼系統(tǒng)簡稱為聲部碼。其詞碼的編碼方式如表2所示。
聲部碼詞庫可容納40,000個以上詞條,沒有必要再采用聯(lián)想式輸入。
四.字詞分流合成簡碼技術(shù)從鍵盤鍵位的功能、分布與指法操作分析,一個良好的輸入方案不應(yīng)當(dāng)把數(shù)字鍵作為編碼系統(tǒng)內(nèi)的基本鍵位或分離的選擇鍵位而頻繁使用,也不應(yīng)當(dāng)像聯(lián)想式輸入那樣,排除了數(shù)字鍵本身的功能。本編碼方案基本鍵位27個,不包括數(shù)字鍵。本編碼系統(tǒng)的重碼率很低,極少用數(shù)字鍵作選擇鍵。此外,由于本編碼系統(tǒng)的無理碼比例低,有效編碼空間大,它的詞庫詞條數(shù)可達40,000以上,完全淘汰了聯(lián)想式輸入方案,數(shù)字鍵本身的功能不受任何影響。在此基礎(chǔ)之上,本編碼方案以獨特的方式設(shè)計了字詞分流合成簡碼技術(shù),既完全保留數(shù)字鍵原有功能,又開發(fā)了它的新功能,使數(shù)字鍵成為編碼體系中的有機構(gòu)成部分。使效率最高的前綴碼最優(yōu)樹的算法能夠在漢語輸入中較全面的實現(xiàn)。
字詞分流合成簡碼技術(shù),是在字詞原碼的基礎(chǔ)上,采用原碼的截尾式明打法實現(xiàn)的。它包括結(jié)構(gòu)上統(tǒng)一平行,操作上尾鍵分離的字與詞雙重簡碼。以聲部碼為例說明這一方法。聲部碼的碼長為四。字簡碼是原碼的截尾式空格明打法,即一鍵/二鍵/三鍵加空格鍵的明打法??崭矜I截尾式輸入法是許多系統(tǒng)中普遍采用的字簡碼輸入方法,但通常是盲打法,如五筆字型輸入系統(tǒng)。盲打的缺點前文已述及。本系統(tǒng)采用明打法。所謂明打法,是系統(tǒng)根據(jù)編碼輸入的第一鍵/前二鍵/前三鍵,在檢索時將對應(yīng)的高頻首位簡碼字和詞在提示行以顯著方式預(yù)先提示,用戶根據(jù)提示行的預(yù)提示,用空格鍵將目標(biāo)字頂送至光標(biāo)處。這種方法不需用戶記憶簡碼的目標(biāo)字詞,比盲打法更優(yōu)越實用。詞簡碼也采用與字簡碼結(jié)構(gòu)統(tǒng)一平行的原碼截尾式明打法,明打鍵為任一數(shù)字鍵,即一鍵/二鍵/三鍵加任意數(shù)字鍵明打。特別要指出的是這里數(shù)字鍵之間不需作任何區(qū)分,可用八個手指中的任一指隨意打十個數(shù)字鍵中的任一鍵,在心理加工與指法操作上十分方便,比特定單鍵切換的詞簡碼輸入方式優(yōu)越實用。而且,這種詞簡碼不會與字簡碼產(chǎn)生任何混淆、競爭或沖突,它的理論有效空間很大,對提高系統(tǒng)的整體輸入效率作用明顯。高頻簡碼詞與高頻簡碼字一樣,必須根據(jù)輸入鍵位系列檢索,在提示行預(yù)提示。用戶根據(jù)提示,用任意數(shù)字鍵將簡碼目標(biāo)詞頂送至光標(biāo)處。
還可以采用另一種方式實施詞簡碼。原碼截尾式明打法的基本原理不變,將通用鍵盤做一微小的改造把空格鍵區(qū)分為左右兩空格鍵。在通常狀態(tài)下兩空格鍵功能相同,都是空格鍵,但對應(yīng)的內(nèi)碼不同。在中文編碼輸入檢索狀態(tài)下,指定其中一鍵為字簡碼尾鍵,另一鍵為詞簡碼尾鍵,例如,可以指定左空格鍵為字簡碼鍵,右空格鍵為詞碼鍵。輸入檢索時,在提示行也按照左字右詞的方式顯示對應(yīng)的高頻字和高頻詞。這樣顯示方式與指法方位方式完全對應(yīng),用戶用左空格鍵將左邊的簡碼字頂送至光標(biāo)處,用右空格鍵將右邊的簡碼詞頂送至光標(biāo)處。
在實用的輸入系統(tǒng)中,字詞簡碼技術(shù)必須與字詞使用度排序技術(shù)相結(jié)合,后者在算法理論與數(shù)據(jù)結(jié)構(gòu)實現(xiàn)方面都已很成熟,不難實現(xiàn)。
五.方言容錯處理本發(fā)明采用音形結(jié)合的編碼方案,且音形結(jié)合有多重方式,這樣可適用于不同的用戶。發(fā)音標(biāo)準(zhǔn)的用戶可選用音節(jié)加形碼的輸入方式;發(fā)音稍差的用戶可選用聲母加形碼的輸入方式,這種方式的編碼中不包括韻母,減輕了識記拼音的負擔(dān);此外還有全形碼輸入方式,可供不懂拼音的用戶選用。為了進一步方便用戶,系統(tǒng)還設(shè)計了方言容錯技術(shù)。對漢語拼音中較難區(qū)分的聲母和韻母,系統(tǒng)分別采用主從對偶檢索和混合檢索兩種工作方式,實現(xiàn)容錯。對容易混淆的平翹舌音實施主從對偶檢索方式。例如,如果用戶輸入了平舌音碼,系統(tǒng)則進行以平舌音字詞集為主,以翹舌音字詞集為輔的檢索操作。檢索出的平舌音字詞集的顯示與到位方式不變;檢索出對應(yīng)的翹舌音的字詞集中,將高頻首位字與高頻首位詞這兩項在提示行末尾顯示,或者用專設(shè)窗口另外顯示,該字與詞可分別用數(shù)字鍵0與1頂送至光標(biāo)處。若用戶輸入無誤,則操作如常進行;若錯將翹舌音當(dāng)作平舌音輸入,則可啟用數(shù)字鍵0或1將另外顯示的翹舌音字詞頂送至光標(biāo)處。反之亦然。這樣就避免了因平翹舌音混淆錯誤而引起的重打操作。對容易混淆的前后鼻韻母實施混合檢索操作。即系統(tǒng)可不加區(qū)分,將前后鼻韻母對應(yīng)的候選字詞集統(tǒng)一檢索,統(tǒng)一按使用度排序顯示。由于本發(fā)明在音形結(jié)合的編碼設(shè)計中已充分考慮了前后鼻韻母對應(yīng)字詞的分布狀態(tài),編碼的區(qū)分度極高,統(tǒng)一檢索不會增加重碼率。在方言容錯輸入狀態(tài)下,詞簡碼操作需作微小改動。由于數(shù)字鍵0與1被啟用為容錯選擇鍵,詞簡碼的截尾明打鍵將不包括0與1,但仍可以是2-9這八個鍵中的任一鍵,幾乎不影響詞簡碼操作的方便性。
考查測評一個漢語輸入方案或?qū)嵱孟到y(tǒng)的性能。有兩大方面的指標(biāo)。一個是系統(tǒng)本身的輸入效率的純技術(shù)極限指標(biāo),我們稱之為客體效標(biāo)。一個是用戶掌握該輸入系統(tǒng)過程中的學(xué)習(xí)效率指標(biāo),我們稱之為主體效標(biāo)。以下從這兩個方面分析對比,說明本發(fā)明的優(yōu)點。我們以本編碼方案中的聲部碼子系統(tǒng)為主,結(jié)合其他部分進行對比分析。
客體效標(biāo)主要是重碼率,平均擊鍵次數(shù)以及復(fù)音詞的覆蓋率與漏詞率。重碼率又可分為字重碼率與詞重碼率,靜態(tài)重碼率與動態(tài)重碼率,綜合重碼率。平均擊鍵次數(shù)可分為靜態(tài)平均擊鍵次數(shù)與動態(tài)平均擊鍵次數(shù)。
根據(jù)聲部碼方案,并結(jié)合采用字詞分流合成簡碼技術(shù),對國標(biāo)一、二級字庫全部6763個漢字進行編碼;對《現(xiàn)代漢語頻率詞典》中所列全部16,000個高頻詞條進行編碼,在數(shù)據(jù)庫上進行統(tǒng)計,結(jié)果如表3.4所示。
由于本輸入系統(tǒng)采用按使用度排序的字詞分流合成簡碼,大部分高頻段字詞都是用簡碼方式輸入。其中一級字庫中2,500個以上的常用字在三鍵以內(nèi)輸入,超過8,000個常用詞在三鍵以內(nèi)輸入,簡碼的字詞動態(tài)覆蓋率已達95%以上。所以系統(tǒng)的動態(tài)平均擊鍵次數(shù)要顯著低于靜態(tài)值。系統(tǒng)的動態(tài)重碼率更是低到幾乎為零。
表3. 聲部碼靜態(tài)重碼率統(tǒng)計
根據(jù)《現(xiàn)代漢語頻率詞典》按使用度排序的前8,500個詞條的動態(tài)覆表4. 聲部碼靜態(tài)平均擊鍵次數(shù)統(tǒng)計
蓋率已達95%以上。上述聲部碼的數(shù)據(jù)庫摸擬統(tǒng)計中,將該詞典中按使用度排序的前16,000個詞條全部收入,漏詞率為零,動態(tài)覆蓋率大于98%。實際上,根據(jù)系統(tǒng)設(shè)計的理論模型測算,詞庫的詞條數(shù)還可以增長至少一倍,同時保持靜態(tài)重碼率在5%以下。
從以上數(shù)據(jù)庫統(tǒng)計結(jié)果考查,本發(fā)明的各項主要技術(shù)指標(biāo),都比五筆字型有顯著的實質(zhì)性的提高,比各種音碼則有成倍提高。
不難從數(shù)學(xué)上證明,本發(fā)明的各項主要技術(shù)指標(biāo),特別是平均擊鍵次數(shù)和重碼率,已達到或接近達到字詞級輸入的理論最佳極限值。這主要是因為系統(tǒng)的設(shè)計全面采納了概率論模型和前綴碼最優(yōu)樹算法。
主體的效標(biāo)主要是易學(xué)性優(yōu)劣。一個漢語輸入系統(tǒng),無論它的各項技術(shù)指標(biāo)多么好,如果易學(xué)性差,那就難以被廣大用戶迅速接受,難以產(chǎn)生良好的社會效益。我們以下運用信息加工心理學(xué)的認(rèn)知操作分析方法,將本發(fā)明與五筆字型作易學(xué)性指標(biāo)的分析對比。
一般說來,形碼比音碼難學(xué)。形碼的難度來自于它的心理操作的復(fù)雜度。這主要包括三個方面。第一是對形碼歸類的學(xué)習(xí)記憶操作。第二是在輸入操作時,對漢字進行形態(tài)拆分操作。第三是拆分到具體碼元后,在碼元與鍵盤鍵位之間的聯(lián)系反應(yīng)操作。
由學(xué)習(xí)與教育心理學(xué)原理可知,新知識的學(xué)習(xí)獲得,必需在學(xué)習(xí)者已有的認(rèn)知圖式中找到適當(dāng)?shù)耐c、同化網(wǎng)或其他形式的同化構(gòu)造。新知識與原有知識之間同構(gòu)性越高,學(xué)習(xí)新知識的效率就越高。漢字的偏旁部首系統(tǒng),是幾千年來人們從事漢字書寫實踐中逐步總結(jié)概括出來的,反映了人們對漢字的形態(tài)系統(tǒng)的認(rèn)識規(guī)律,是漢字客體的形態(tài)結(jié)構(gòu)與人類主體反映它的認(rèn)知結(jié)構(gòu)之間的高度統(tǒng)一的產(chǎn)物。每一個人從小學(xué)起就學(xué)習(xí)運用部首偏旁系統(tǒng),形成了牢固的認(rèn)知結(jié)構(gòu)。任何形碼編碼系統(tǒng)的設(shè)計和推廣使用,如果不把偏旁部首系統(tǒng)作為基本的同構(gòu)目標(biāo)或框架,勢必造成人類主體知識資源的巨大浪費,造成用戶學(xué)習(xí)上的低效率性,也就難以把編碼的技術(shù)效率提升到整體社會效益的層次。
總之,由于漢字形態(tài)部件非常龐雜,除了部首偏旁系統(tǒng)的歸類法外,其他的歸類方法與人們先期學(xué)習(xí)已形成的認(rèn)知結(jié)構(gòu)不一致,難學(xué)難記是不可避免的。非操作員專業(yè)的普通用戶普遍反映五筆字型難,主要原因正在于此。
本發(fā)明中的形碼字根歸類設(shè)計,以最大限度地與部首偏旁系統(tǒng)一致為目標(biāo),以認(rèn)知心理學(xué)感知記憶原理、認(rèn)知操作的組織性與整體性的完形原理為指導(dǎo),以小學(xué)低年級學(xué)生寫字錯誤歸類分析的大量實驗為客觀依據(jù),并結(jié)合概率論模型與模糊數(shù)學(xué)模型,實施系統(tǒng)篩選模擬實驗;同時將篩選出的字根歸類系統(tǒng)在小學(xué)生中進行教學(xué)實驗,搜集反饋信息;通過多次反復(fù),獲得了這一形碼字根系統(tǒng)。它達到了系統(tǒng)設(shè)計的目標(biāo)-與部首偏旁系統(tǒng)具有最大限度的一致性和相容性。易于被中國人已有的漢字的心理認(rèn)知圖式同化。這就從文化傳統(tǒng)和漢語語文教學(xué)的基礎(chǔ)環(huán)節(jié)上確立了本形碼系統(tǒng)具有很好的易學(xué)性。
在實時輸入時對漢字進行拆分需要耗費心理操作時間,這是形碼難度高的第二個主要原因。拆分操作的復(fù)雜度,與形碼歸類的難度成正比,與拆分次數(shù)成正比。如前兩段所述,本發(fā)明已顯著降低了形碼字根的歸類難度。在本輸入系統(tǒng)中,還采用了以下幾個方面的綜合性措施減少漢語輸入時形碼拆分次數(shù)。第一,音形結(jié)合的編碼方案,聲母+形碼的編碼系統(tǒng)和音節(jié)+形碼的編碼系統(tǒng)都能有效降低形碼拆分次數(shù)。與五筆字型相比,在字輸入狀態(tài)時,可使形碼拆分次數(shù)減少25%-50%。第二,截尾式空格明打字簡碼技術(shù),不僅可使形碼拆分次數(shù)減少35%以上,而且不需熟悉記憶簡碼目標(biāo)字。五筆字型中也使用截尾式字簡碼技術(shù),但它采用的是空格盲打法,心理操作的復(fù)雜性明顯高于明打法技術(shù)。第三,字詞統(tǒng)一編碼方案。聲部碼雙字詞的編碼形式為“聲形聲形”,形碼拆分次數(shù)比五筆字型雙字詞碼減少50%;而且本方案詞庫詞條量是五筆字型詞條量的四倍以上,這就是說,在本系統(tǒng)詞庫中,有四分之三以上的多音詞在五筆字型中只能以字方式輸入。這些詞的形碼拆分次數(shù),比五筆字型減少70%以上。在音節(jié)加形的輸入系統(tǒng)中,詞輸入時形碼拆分次數(shù)減少的百分比更高。第四,字詞分流合成簡碼技術(shù),即截尾式數(shù)字明打法詞簡碼技術(shù),使形碼拆分次數(shù)比五筆字型減少70%以上,這進一步強化了本輸入系統(tǒng)的易學(xué)性與易用性。從整體上看,在本輸入系統(tǒng)中,形碼拆分次數(shù)比五筆字型減少60%以上。在易學(xué)性指標(biāo)方面,這是第二點重大的實質(zhì)性的提高。
拆分到具體碼元之后,與鍵盤之間的聯(lián)系反應(yīng)是形碼難度的第三個來源。本發(fā)明采用音形義多線索集成方式,在形碼歸類與鍵盤鍵位之間建立聯(lián)結(jié)關(guān)系。這種方法不僅易學(xué)易記易用,而且使中文與英文之間、漢字與拼音之間在鍵盤鍵位和指法操作上趨于統(tǒng)一,相互兼容。
音形結(jié)合的編碼方案和方言容錯技術(shù),使拼音程度較差的用戶,也能在不增加重碼率的情況下,方便地使用本系統(tǒng)的任一種音形結(jié)合的編碼輸入漢語,不僅不降低輸入效率,而且還能使用戶在使用過程中逐步提高拼音水平。
特別需要指出的是,由于本發(fā)明采用了音形結(jié)合的編碼方案,它的形碼又與規(guī)范部首統(tǒng)一,用戶只需將他們在小學(xué)階段已經(jīng)掌握的漢字部首偏旁知識簡化歸類,就能迅速掌握本輸入法。這不僅有利于中文計算機事業(yè)的普及,而且有利于漢語文字信息處理的標(biāo)準(zhǔn)化和規(guī)范化。更重要的是,本輸入法能夠與小學(xué)漢語書面語教育緊密結(jié)合統(tǒng)一,小學(xué)低年級學(xué)生都能在很短時間內(nèi)掌握它,這就可以徹底改變漢語兒童難于用電腦學(xué)習(xí)使用母語的狀況,使小學(xué)一二年級學(xué)生都能夠十分方便地用計算機輸入處理漢語漢字,這對提高漢語兒童在世界各民族教育競爭中的競爭力,對提高整個中華民族的文化素質(zhì),都會產(chǎn)生重大的效益。
下面介紹一個實現(xiàn)方案-簡易音部碼漢語輸入系統(tǒng)。
本輸入系統(tǒng)包括兩種基本輸入檢索方式和一種輔助輸入檢索方式。
一、第一種輸入方式是音節(jié)加形碼輸入方式,簡稱為音形碼。
音碼采用CCDOS簡拼方案,這是考慮到迄今為止該簡拼方案仍是音碼中覆蓋面最廣的。
1.字輸入編碼方式,CCDOS簡拼加一到兩個形碼。形碼取碼方式為首尾方式,即先按簡拼音碼輸入一個字的音節(jié),然后輸入此字的第一個形碼和最后一個形碼。由于CCDOS簡拼是不等長編碼,碼長最少為一,最多為三,加上兩個形碼之后,仍為不等長編碼,碼長最少為三,最多為五。當(dāng)一個字的編碼數(shù)不足五個時,以空格鍵結(jié)束。
2.詞輸入編碼方式,復(fù)音詞一律打五碼,編碼方式如表5.所示。
表5. 音形碼復(fù)音詞編碼方式
注多字詞指四字或四字以上的復(fù)音詞復(fù)音詞的編碼方式可簡稱為前二后三排列法,即詞的首字一律打兩碼其余三碼在后續(xù)字之間分配。
二.第二種輸入方式是聲部碼1.字輸入方式.一般是由該字拼音的首字母加三個形碼組成,即聲母+形碼+形碼+形碼。為了與CCDOS簡拼和上述音形碼相容,聲母zh、ch、sh仍分別用a、i、u代替,零聲母音節(jié)仍用該音節(jié)的首字母,但拼音中以字母a為首的音節(jié)則以o代替。此外,音節(jié)yu、yuan、yue、yun的首鍵打v。這幾個音節(jié)可以分別表示成ü,üan,üe,ün,取它們的首字母ü的替代鍵v。拼音的替代鍵位可概括如表6.
表6. 聲部碼拼音替代鍵位表
形碼的取碼順序為第一碼,第二碼和最后一碼。若不足三碼則將最后一字根形碼按筆劃拆分入碼。舉例如下。
想xmvd.聲母是x,三個字根分別是木,目,心,對應(yīng)于木科,月科,點科,取碼分別為m,v,d,合成全碼為xmvd。
相xmvu.該字只有兩個字根,形碼不足三碼,取其最后一字根“目”的筆劃,目的第一筆是豎,豎科鍵位是u,合成全碼為xmvu。
八bbpn.該字僅有一個字根,取此字根的筆劃“撇”,“捺”入碼合成全碼為bbpn。
2.詞輸入方式.聲部碼復(fù)音詞編碼方式見表2。雙字詞的編碼方式可概括為“聲形聲形”?,F(xiàn)舉例如下。
時機,詩集,實際,世紀(jì),事跡,師級,試劑,這些詞在各種音碼中都是重碼詞。在聲部碼中,它們的外碼如下詞拆分解釋外碼時機sh十里科十j十木科uljm詩集sh十計科十j十人科ujjr實際sh十捺蓋科十j十耳科unje世紀(jì)sh十草科十j十絲科ucjs事跡sh十橫科十j十衣科uhjy師級sh十撇科十j十絲科upjs試劑sh十計科十j十婦科ujjf在聲部碼中,這些詞都不是重碼。
三字和三字以上的復(fù)音詞編碼更加簡單,不再舉例。
三.輔助輸入檢索方式輔助輸入檢索方式就是全形碼輸入方式。在本輸入系統(tǒng)中,全形碼輸入方式是作為一種輔助的輸入方式,用于處理輸入那些用戶不能正確識讀的生僻字。為保證高效率輸入,系統(tǒng)不應(yīng)當(dāng)在不同輸入方式之間頻繁轉(zhuǎn)換。所以,系統(tǒng)把它作為輔助而非獨立的輸入方式,懸掛在上述兩種基本輸入方式之下。全形碼共取四碼,對字根不足四碼的字,取其最后一個字根的筆劃入碼。從鍵盤指法操作方便快速考慮,只需在輸入第一個形碼之后,再輸入一個非編碼鍵位,但仍是基本指法范圍內(nèi)的鍵位,系統(tǒng)就知道應(yīng)轉(zhuǎn)入全形碼檢索??蓪⒋随I設(shè)為逗號鍵或句號鍵。這樣用戶在輸入時,一旦遇到不認(rèn)識的生字,即可方便地用全形碼檢索輸入,而基本輸入狀態(tài)沒有改變,不需要在不同輸入狀態(tài)之間頻繁轉(zhuǎn)換。注意,逗號鍵和句號鍵原有的功能并不受影響。全形碼編碼方式第一形碼+逗號/句號+第二形碼+第三形碼+第四形碼例僨r,xck或r.xck
胤p,svw或p.svw兀h,wpw或h.wpw在全形碼檢索方式中,同樣應(yīng)當(dāng)采用原碼的截尾式明打簡碼技術(shù)。尾鍵可以是空格鍵,也可以是任意數(shù)字鍵。它們不會與主輸入方式中的字詞簡碼產(chǎn)生任何沖突。
全形碼檢索的范圍,沒有必要包括全體字庫,它只處理那些可能的生僻字??稍谝患壸謳熘羞x1,000個次常用字和易讀錯字,再加上二級字庫的全部漢字,共約4,000余字,作為全形碼的檢索范圍。
四.字詞分流合成簡碼的設(shè)定.字簡碼和詞簡碼的設(shè)定,需要將統(tǒng)計語言學(xué)與工程心理學(xué)相結(jié)合,主要用三個指標(biāo)確定一個字或詞的綜合權(quán)值使用度,形碼拆分難度,重碼狀態(tài)。各級簡碼字詞就是各級前綴碼對應(yīng)的所有候選字詞集中綜合權(quán)值最大者。由于系統(tǒng)采用的是明打法簡碼,一個字或詞若已設(shè)定為K級簡碼字或詞,該字或詞就不需要再設(shè)K+1級簡碼或全碼。
五.將輸入系統(tǒng)設(shè)計成能與各種流行的漢字操作系統(tǒng)兼容,能夠自由懸掛在這些操作系統(tǒng)下運行。
權(quán)利要求
1.一種用于計算機、電子打字機等電腦設(shè)備上的鍵盤式漢語輸入系統(tǒng),其特征在于使用與漢語部首偏旁系統(tǒng)統(tǒng)一的形碼字根系統(tǒng),將此形碼系統(tǒng)與漢語拼音自由組合編碼,再根據(jù)前綴碼最優(yōu)樹算法將原碼優(yōu)化為用截尾式明打法實現(xiàn)的字詞簡碼。
2.根據(jù)權(quán)利要求1所述的漢語輸入法,其特征在于它的形碼系統(tǒng)將漢字的部首偏旁以及漢字中其他常見的字根形態(tài)歸納為27個大類。
3.根據(jù)權(quán)利要求1.2所述的輸入系統(tǒng),其特征是它的27個形碼字根類的取名及其對應(yīng)鍵位分別如下點心科-d,橫科-h,豎科-u,撇科-p,折科-a,捺蓋科-n,雙折科-z,正反彎科-w,正反提手科-t,草帽草鞋科-c,衣頭衣腳科-y,人科-r,口科-o,廠科-i,木米科-m,八病科-b,大耳刀科-e,小計算科-j,水叉火科-x,白里黑科-l,牛欠錢科-q,又婦多科-f,盼月盈科-v,土工上科-g,貝匡舟科-k,印絲車科-s,石足蟲科-;。
4.根據(jù)權(quán)利要求1所述的輸入系統(tǒng),其特征是它的形碼系統(tǒng)可以獨立使用,也可以與音碼組合使用。
5.根據(jù)權(quán)利要求1.4所述的輸入系統(tǒng),其特征是它的形碼系統(tǒng)可以與簡拼、雙拼等不同的音碼系統(tǒng)組合,也可以單獨與聲母或韻母組合。
6.根據(jù)權(quán)利要求1所述的輸入系統(tǒng),其特征在于使用原碼的截尾式明打法實現(xiàn)的詞簡碼,詞簡碼的尾鍵可以是任意數(shù)字鍵,也可以將英文鍵盤的空格鍵改造為左右兩空格鍵,指定其中任一鍵為詞簡碼尾鍵,保留另一鍵為字簡碼尾鍵。
全文摘要
一種電腦鍵盤式漢語輸入系統(tǒng),使用拼音與部首相結(jié)合的編碼,字詞統(tǒng)一處理。易學(xué)易用,易于與小學(xué)漢語語文教學(xué)統(tǒng)一。能夠輸入簡體字和繁體字。使用效率最高的前綴碼最優(yōu)樹算法設(shè)計的字詞分流合成簡碼。各項技術(shù)指標(biāo)接近達到算法理論的極限水平,優(yōu)于目前市場上流行的各種漢語輸入法國標(biāo)一級字庫靜態(tài)重碼率=0,平均擊鍵次數(shù)每字兩鍵,詞庫詞條量四萬以上。
文檔編號G06F3/023GK1081772SQ9210871
公開日1994年2月9日 申請日期1992年7月29日 優(yōu)先權(quán)日1992年7月29日
發(fā)明者徐火輝, 王璐 申請人:王璐, 徐火輝