專利名稱:中文輸入的自動分隔方式的制作方法
本發(fā)明是關(guān)于對漢語文字(以下簡稱中文)的輸入自動進(jìn)行分隔的,特別是在中文輸入裝置上對一連串的中文進(jìn)行分隔。
在處理中文的信息處理系統(tǒng)上,必須有中文輸入裝置。作為這樣的中文輸入裝置的輸入方式,一般來說,是根據(jù)漢字的字型或讀音、或者字型和讀音二者結(jié)合起來進(jìn)行編碼以進(jìn)行輸入。
作為表示漢語讀法的表音文字,有著兩種方法,一種是由中國政府制定的拼音字母,另一種是拼音字母制定之前的注音字母。現(xiàn)在中國以拼音字母為主流,而注音字母只限于臺灣等部分地區(qū)使用。
根據(jù)上述拼音的記述進(jìn)行中文輸入,一般來說,按一次聲母鍵和一次韻母鍵,也就鍵入了一個中文音節(jié)(亦即一個漢字)。根據(jù)此種方法,就可以通過重復(fù)單純的操作來鍵入拼音,但是,設(shè)置將拼音字母串分隔為單詞或者有意義的詞組的手段是十分必要的。也就是說,中文輸入裝置以拼音字母串中的分隔符作為單位,把拼音字母轉(zhuǎn)換為漢字。
過去,作為上面所述的分隔符,采用著句號和逗號(中文中稱為標(biāo)點(diǎn)符號)。作為變換的分隔符,只用句號和逗號是不夠的,因?yàn)橹皇褂脴?biāo)點(diǎn)時,分隔間距過長的情況很多,將拼音字母串轉(zhuǎn)換為漢字串(例如整體詞組轉(zhuǎn)換)時,在兩個分隔符之間,其前面部分所發(fā)生的詞匯的分隔錯誤,會順次地波及到后面部分,于是又使分隔錯誤進(jìn)一步增加。這樣也使轉(zhuǎn)換處理時間變長,不能期待得到高效的中文輸入,這是其缺點(diǎn)。
為了補(bǔ)救上述缺點(diǎn),在標(biāo)點(diǎn)以外的任意音節(jié)上設(shè)置分隔鍵,以便用它來指出分節(jié)。但是,使用此法,操作員必須經(jīng)常地意識到分隔鍵的操作,因此,按拼音進(jìn)行的一系列鍵入會被弄亂,成為效率低下的原因。
本發(fā)明的目的在于,把分隔中文詞組的頻度非常高的音節(jié)作為自動分隔音節(jié)而特設(shè),從而就可以把由這樣的音節(jié)、或者標(biāo)點(diǎn)符號、或者根據(jù)中文的接續(xù)關(guān)系在標(biāo)點(diǎn)符號以外的地方所鍵入的手工分隔指定等所分隔后的拼音字母串,作為轉(zhuǎn)換為漢字串的單位,就可以克服前述的缺點(diǎn),提供一種中文輸入的自動分隔方法。
根據(jù)本發(fā)明而進(jìn)行的中文輸入自動轉(zhuǎn)換方式,在把鍵入的中文表音字符串轉(zhuǎn)換為漢字串的中文輸入裝置上,作為在這種裝置上面的中文輸入自動分隔方式。它具有檢出手段和轉(zhuǎn)換手段,檢出手段檢出予先確定了的特定音節(jié)的表音字母串,把它們作為自動分隔音節(jié),而變換手段則將鍵入的直到前述的自動分隔音節(jié)為止的所有表音字符串一起變換為漢字串。這樣,在順次鍵入前述表音文字串時,在上述的表音字符串中,每當(dāng)遇到前述自動分隔音節(jié)、標(biāo)點(diǎn)符號,或每當(dāng)撳下手工分隔指定鍵時,就可以實(shí)現(xiàn)表音字符串到漢字字串的依次轉(zhuǎn)換。
根據(jù)本發(fā)明的中文輸入自動分隔方式,因?yàn)榘逊指糁形脑~組的頻度非常高的音節(jié)作為自動分隔音節(jié),每當(dāng)這個音節(jié)被鍵入,它們就把前面的中文字串作為變換的單位進(jìn)行轉(zhuǎn)換,因此,操作員不必意識是什么詞或詞組,就可以根據(jù)拼音順暢地進(jìn)行鍵入,其效果是使鍵入的效率大大提高。
圖1是根據(jù)本發(fā)明而進(jìn)行的中文輸入自動分隔方式的一個實(shí)施例的方框圖;圖2是根據(jù)中文輸入自動分隔方式而進(jìn)行的中文輸入處理動作步驟的流程圖。
以下,參照附圖來說明根據(jù)本發(fā)明所提出的中文輸入自動分隔方式。
圖1是本發(fā)明的一個實(shí)施例的方框圖。在該圖中,具有鍵入拼音功能的輸入部1;對拼音字母串進(jìn)行檢查并將其中的分隔音節(jié)檢出的分隔檢出部2;把拼音字母串臨時保存起來的緩沖部3;把拼音字母串變?yōu)闈h字串的變換部4;具有拼音和中文對照表的轉(zhuǎn)換字典部5;以及對鍵入的拼音或者轉(zhuǎn)換3的中文進(jìn)行顯示的顯示部6,依靠這些部分,來實(shí)現(xiàn)中文輸入的自動分隔。
輸入部1,對應(yīng)于操作員的操作,發(fā)送包含有拼音字母串的輸入數(shù)據(jù)100。
分隔檢出部2則輸入數(shù)據(jù)100,在輸出拼音字母串101的同時,當(dāng)輸入數(shù)據(jù)100中存在有予先規(guī)定的特定音節(jié)的拼音字母串、標(biāo)點(diǎn)符號或者是手工分隔指定符時,就輸出控制信號102。
緩沖部3把上述的拼音字母串101輸入進(jìn)來并暫時加以保存,并把它作為音節(jié)信號103而輸出。
變換部4根據(jù)變換控制信號102,輸入音節(jié)信號103,與具有拼音和中文對照表的變換字典部5之間相互傳送檢索信號104,同時把拼音轉(zhuǎn)換為漢字,輸出顯示信號105。
表示部6輸入上述顯示信號105進(jìn)行顯示,使操作員能夠進(jìn)行觀察確認(rèn)。
表1中,表示出為了由上述分隔檢出部檢知并輸出控制信號102而予先確定的特定音節(jié)的實(shí)例。同一表中,當(dāng)根據(jù)拼音文字鍵入所示音節(jié)時,拼音字母串被作為變換的單位而被分隔。這些音節(jié)雖然其自身是個單音節(jié)的詞,而它們作為多音節(jié)詞的末尾音節(jié)的頻度非常高。進(jìn)而,因其使用頻度甚高,故在單詞或詞組的末尾,具有很強(qiáng)的更精細(xì)地對中文字串進(jìn)行分隔的能力。我們就把這樣的音節(jié)叫作自動分隔音節(jié)。
圖2是根據(jù)上述中文輸入自動分隔方式而進(jìn)行的中文輸入處理動作步驟的流程圖。該圖中,處理11是鍵入拼音的操作,處理12則是為了確認(rèn)鍵入的拼音所進(jìn)行的顯示。
處理13,14,和15,分別判別輸入進(jìn)來的數(shù)據(jù)是標(biāo)點(diǎn)、自動分隔音節(jié)或由分隔鍵產(chǎn)生的數(shù)據(jù),如果這些都不是,則返回處理11,繼續(xù)鍵入。如果是標(biāo)點(diǎn)、自動分隔音節(jié)或由分隔鍵產(chǎn)生的代碼,則轉(zhuǎn)到處理16。
處理16把上述分隔了的拼音字母串轉(zhuǎn)換為漢字字符串。這時要參照把拼音和漢字對應(yīng)起來的轉(zhuǎn)換字典文件17。
處理18,把鍵入的拼音字母串置換成漢字字符串而予以顯示。處理19對中文的輸入是否已經(jīng)結(jié)束進(jìn)行判斷,如果未結(jié)束,則返回處理11。
表2中,給出了關(guān)于前述自動分隔音節(jié)的分隔率、分隔間距和評價系數(shù)的計算示例。該表中的分隔率表示了該音節(jié)把漢字字符串分隔為有意義的分隔音節(jié)的比例。計算是對中國的從小學(xué)到高中的十年間的語文教科書中所出現(xiàn)的全體詞匯進(jìn)行的(專有名詞除外)。而且,是對一字詞和二字詞進(jìn)行計算,由于超過三字的詞組出現(xiàn)的頻度極低,因而忽略不計。此外,在上述統(tǒng)計中的分隔間距表示了該音節(jié)出現(xiàn)的間距的平均值,用字?jǐn)?shù)來表示。而評價系數(shù)乃是具有該音節(jié)的一字詞以及把該音節(jié)作為詞尾的二字詞對全音節(jié)總數(shù)之比。該表示就是按評價系數(shù)的大小順序列出了各分隔音節(jié)。
把上述這樣的音節(jié)作為自動分隔音節(jié),就可以把漢語序列自動地進(jìn)行有意義的分隔。
第3表(a)
第3表(b)
表3(a)和(b)是利用上述中文輸入自動分隔方式而進(jìn)行的中文輸入的例子。該表中的(A)欄是鍵入的拼音字母串(聲母用大寫字母,韻母用小寫字母表示)。同欄中的符號“V”是根據(jù)中文朗讀的語流,在標(biāo)點(diǎn)符號以外的暫停處鍵入的分隔指定符。
(B)欄是從(A)欄中抽出的所有分隔。也就是,“ш ”是根據(jù)標(biāo)點(diǎn)符號的鍵入而自動進(jìn)行的分隔;“De|”或“He|”等,是根據(jù)上述自動分隔音節(jié)的鍵入而產(chǎn)生的自動分隔;“‖”是對應(yīng)于朗讀時的停頓而鍵入的手動分隔。
欄(C)是以欄(B)中的每個分隔為單位,把欄(A)中的拼音字母串轉(zhuǎn)換為漢字字符串的結(jié)果。變換法是反復(fù)采用所謂最長一致法而進(jìn)行的整體詞組變換。同欄中的“/”是整體詞組變換時自動進(jìn)行的單詞分隔。此外,當(dāng)有同音詞時則采用這些詞的出現(xiàn)頻度統(tǒng)計中最大的那個詞。
欄(D)是相當(dāng)于上述中文字符串的日語漢字。
表3的(a)和(b)的中文內(nèi),共59個音節(jié)(漢字字?jǐn)?shù))被6個標(biāo)點(diǎn)符號和9個自動分隔音節(jié)以及上述的停頓而作的手工分隔指定等劃分為19個分區(qū)。而每區(qū)相當(dāng)?shù)囊艄?jié)數(shù)平均為3(最大6,最小1),作為整體詞組轉(zhuǎn)換的分隔區(qū)間的長度,由于自動分隔音節(jié)的采用而顯著地縮短了。
上述的例句是光明日報(1986年8月14日刊載)的錢學(xué)森博士的論文的一部分。從拼音到中文的轉(zhuǎn)換正確率達(dá)100%。但是在中文輸入時,與日語輸入時相同,對同音詞的處理并非十全十美,基于上述自動分隔音節(jié)的分隔能力并非百分之百。通常作為辦公自動化對象的實(shí)際業(yè)務(wù)文章的轉(zhuǎn)換正確率約為95%,文學(xué)作品的正確率約為85%。因此,必須再設(shè)置對輸入的中文作訂正處理例如可以音節(jié)為單位對所輸入的中文進(jìn)行。
并且,現(xiàn)在中國對“什么是詞?”“應(yīng)當(dāng)在句中的什么地方進(jìn)行分隔,以將它們劃分為一個個的單詞?”等問題,還沒有明確的結(jié)論。根據(jù)本發(fā)明而進(jìn)行的中文輸入自動分隔方式,對每個單詞的分隔,并不依賴于操作員的判斷,而是根據(jù)系統(tǒng)內(nèi)的基本定義被統(tǒng)一起來,這樣就解除了上述障礙。
權(quán)利要求
一中文輸入自動分隔方式,其特征在于鍵入漢語的表音文字串,并將其轉(zhuǎn)換為漢字字符串的中文輸入裝置上的中文輸入自動分隔方式,它具有把對應(yīng)于予先確定的特定音節(jié)的表音文字串作為自動分隔音節(jié)加以檢出的檢出手段;以及把直到上述自動分隔音節(jié)為止所鍵入并顯示的表音字符串整體地轉(zhuǎn)換為中文字符串的轉(zhuǎn)換手段;當(dāng)前述表音文字串被順次鍵入時,每當(dāng)上述表音文字串中存在有前述自動分隔音節(jié)、標(biāo)點(diǎn)符號、或者當(dāng)撳下手動分隔指定鍵時,便將表音文字串順次轉(zhuǎn)換為漢字字符串。
專利摘要
本發(fā)明是關(guān)于按拼音從鍵盤上輸入漢字時,以一些出現(xiàn)頻度很高的音節(jié)作為自動分隔音節(jié),來提高輸入的效率。
文檔編號G06F17/21GK87108006SQ87108006
公開日1988年6月8日 申請日期1987年11月26日
發(fā)明者伊藤英俊, 楠井健 申請人:日本電氣株式會社導(dǎo)出引文BiBTeX, EndNote, RefMan