一種漢字拆分處理方法

文檔序號(hào)：6409082閱讀：1572來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種漢字拆分處理方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)中文信息處理領(lǐng)域。
計(jì)算機(jī)在中國的普及和應(yīng)用有賴于計(jì)算機(jī)對(duì)中文的處理能力，其中漢字的計(jì)算機(jī)輸入問題是一個(gè)比較難于實(shí)現(xiàn)的問題。漢字的數(shù)量龐大，字形復(fù)雜，屬性眾多，難于使用西文標(biāo)準(zhǔn)鍵盤輸入。
目前已有的漢字輸入方案很多，大致分為音碼、形碼、音形碼等幾類。
除了最簡單的拼音輸入方法，其它各種以字形為基礎(chǔ)的編碼方案都需要對(duì)漢字進(jìn)行拆分。這是必要的，也是可能的。因?yàn)橥ㄟ^分析漢字的字形，可以發(fā)現(xiàn)漢字有一定的組成規(guī)律；漢字的字形可以分為筆畫、字根、整字若干層次，筆畫的類型和數(shù)目最多為數(shù)十種，字根的數(shù)目最多為數(shù)百種，各種字根相互組合形成了數(shù)萬個(gè)漢字。用數(shù)十個(gè)鍵位來直接表達(dá)數(shù)十個(gè)筆畫、數(shù)百個(gè)字根，然后把由字根部件組合成的漢字進(jìn)行拆分，依次對(duì)每個(gè)字根進(jìn)行描述，這也就是目前各類編碼方案的核心思想。
各類方案的不同點(diǎn)主要表現(xiàn)在對(duì)字根部件特征的提取、描述，以及與鍵位的對(duì)應(yīng)關(guān)系上，不同編碼各自的規(guī)則包括一套字根部件特征描述規(guī)則和與之對(duì)應(yīng)的鍵位安排，以及漢字的拆分規(guī)則兩大部分。
決定漢字拆分方法的因素是漢字的組成規(guī)律和字根部件的選取方法。
漢字拆分中遇到的問題一是拆分結(jié)果的表示，二是字根部件的選擇。
漢字拆分的結(jié)果是把一個(gè)整字分割成一個(gè)漢字組件的序列，在分割過程中往往產(chǎn)生一些在標(biāo)準(zhǔn)漢字集合(比如GB2312，ISO10646等)中沒有收入的字符，比如，“學(xué)”字的上部件，“泰”字的上部件和下部件，如何表示這種字符，人們采取了不同的方法，有經(jīng)濟(jì)實(shí)力的單位一般自己搜集整理出一套字符集合，把它們安排在標(biāo)準(zhǔn)字符集合的未用區(qū)域，同時(shí)為這些字符制作相應(yīng)的顯示和打印字模；其它一些人則盡量回避這一問題，比如一般的編碼說明材料中都不提供完整的漢字拆分表，而是使用手工書寫或者造字軟件造字的方法列舉一些說明性的漢字拆分示例，然后提供用西文字符表示的碼表。個(gè)別單位、個(gè)別人自己搜集整理非標(biāo)準(zhǔn)字符、安排內(nèi)碼、制作顯示字模和打印字模，整個(gè)過程工作量大，又無標(biāo)準(zhǔn)可循，容易造成人力、物力資源的重復(fù)性投入。
漢字拆分時(shí)，由于字根部件的選擇差異，導(dǎo)致漢字拆分結(jié)果的不同，各種方案對(duì)漢字的拆分方法各異，比較混亂。這個(gè)問題已經(jīng)引起了有關(guān)專家的注意，不少文字專家提出了防止“文字污染”的觀點(diǎn)；同時(shí)這個(gè)問題也使用戶感到茫然，無所適從。比如對(duì)“束”的拆法就有“一口小”“十口八”“木口”等等幾種。諸如此類為了減少重碼率，盲目對(duì)漢字強(qiáng)行拆分的作法，造成了當(dāng)前漢字編碼中的一些不科學(xué)、不規(guī)范、不合理現(xiàn)象，直接影響著計(jì)算機(jī)與漢字的教學(xué)和應(yīng)用。
本發(fā)明就是針對(duì)漢字拆分處理中存在的這些問題而提出的。目的是解決漢字拆分過程中出現(xiàn)的非標(biāo)準(zhǔn)漢字字根、部件無法統(tǒng)一表示的問題以及漢字拆分過程中的不科學(xué)、不規(guī)范、不合理現(xiàn)象。
考察漢字拆分過程產(chǎn)生的標(biāo)準(zhǔn)字符集合中未收入的字符，即非標(biāo)準(zhǔn)字根部件，可以看出，它們或者是一個(gè)或幾個(gè)標(biāo)準(zhǔn)漢字的變形，或者是一個(gè)或幾個(gè)標(biāo)準(zhǔn)漢字的部件。比如“慕”的下部字根是“心”的變體，“泰”的下部字根是“水”的變體；“泰”的上部字根是該字的一部分，也是“春”“奉”“奏”“秦”等字的一部分。非標(biāo)準(zhǔn)字符都是來源于標(biāo)準(zhǔn)字符的，這樣就可以使用標(biāo)準(zhǔn)字符加注一個(gè)標(biāo)記的方法來表示非標(biāo)準(zhǔn)字符。
這種特殊標(biāo)記作為一種轉(zhuǎn)義符號(hào)，當(dāng)一個(gè)標(biāo)準(zhǔn)字符和轉(zhuǎn)義符號(hào)同時(shí)出現(xiàn)時(shí)，就說明表示的是非標(biāo)準(zhǔn)字符。
轉(zhuǎn)義符號(hào)要選自計(jì)算機(jī)信息交換字符集中，可以是單字節(jié)，也可以是雙字節(jié)。
為了避免符號(hào)使用的沖突，轉(zhuǎn)義符號(hào)可以選擇在中文文本中比較罕用的西文符號(hào)。
轉(zhuǎn)義符號(hào)可以使用一個(gè)，也可以使用幾個(gè)。如果使用幾個(gè)，可以分別賦予它們不同的含義，比如使用幾個(gè)轉(zhuǎn)義符號(hào)分別表示非標(biāo)準(zhǔn)部件在標(biāo)準(zhǔn)部件內(nèi)的位置，包括上部件、下部件、左部件、右部件等等。這樣有助于識(shí)別非標(biāo)準(zhǔn)字符和對(duì)應(yīng)的標(biāo)準(zhǔn)字符之間的關(guān)系。
在選擇標(biāo)準(zhǔn)的對(duì)應(yīng)字符時(shí)可以考慮字形相似、同源變體、字形包含、常用、首部件等幾個(gè)因素，便于聯(lián)想、識(shí)別。
所謂字形相似是指形狀相似的變形字，比如“水”和“泰“字的下部件；所謂同源變體是指來源相同、字體發(fā)生變化，比如“心”和“慕”字的下部件；所謂字形包含是指標(biāo)準(zhǔn)字包含非標(biāo)準(zhǔn)部件，比如“學(xué)”字包含“學(xué)”字的上部件；所謂常用是指標(biāo)準(zhǔn)字符比較常用；所謂首部件是指書寫時(shí)先寫的部件，比如“朝”的左部件就是首部件；圖1。
這樣，凡是出現(xiàn)非標(biāo)準(zhǔn)字符的場合均使用轉(zhuǎn)義符號(hào)加上其對(duì)應(yīng)的標(biāo)準(zhǔn)字符來表示。包括計(jì)算機(jī)內(nèi)部信息、數(shù)據(jù)交換，以及顯示、打印等場合。比如選用單字節(jié)ASCII字符“_”作為轉(zhuǎn)義符號(hào)，“_春”表示它的上部件，“_水”表示“泰”的下部件，那么，“泰”就可以拆分成為“_春_水”的序列。
當(dāng)計(jì)算機(jī)內(nèi)部處理數(shù)據(jù)時(shí)，如果遇到轉(zhuǎn)義符號(hào)和漢字同時(shí)出現(xiàn)，就要做相應(yīng)的處理。
當(dāng)用戶看到轉(zhuǎn)義符號(hào)和漢字同時(shí)出現(xiàn)在顯示設(shè)備，以及印刷品上時(shí)，應(yīng)該當(dāng)做非標(biāo)準(zhǔn)字符對(duì)待。所以，在使用系統(tǒng)、文字材料以前，應(yīng)該給用戶適當(dāng)?shù)恼f明。
下面，考察各類漢字編碼方案對(duì)漢字的拆分過程，可以看出所有漢字可以大致分為三類第一類漢字一般不拆分，比如最基本的常用字根口、艸、氵等等；第二類漢字一般拆分，比如明顯的組合多體字漢、字等等；第三類漢字有時(shí)拆分，有時(shí)不拆分，比如青、音、骨等等；本發(fā)明對(duì)漢字進(jìn)行如下劃分，同時(shí)針對(duì)不同的類型，采用不同的特征描述策略基本部件不拆分，包括頻度較高的字根、結(jié)構(gòu)緊密的單體字，例如，最基本的高頻常用字根口、艸、氵等等；結(jié)構(gòu)緊密是指構(gòu)成字根、部件、漢字的筆畫之間聯(lián)系密切，具有交叉，以及緊密連接等關(guān)系，不宜進(jìn)行強(qiáng)制拆分，如果拆分也不易確定拆分結(jié)果，比如“夫”，筆畫交叉，結(jié)構(gòu)緊密，有些編碼強(qiáng)行拆分，但結(jié)果往往不同，有的編碼拆分成為“二人”，有的編碼拆分成為“一大”；同理，“春”的上部件也不宜拆分成為“三人”“三八”“豐丶”等等。
復(fù)合部件允許拆分和不拆分，包括結(jié)構(gòu)松散的單體字，頻度較高的組字字根、部件、多體字，比如莫、林、從等等。其中莫、林、從這些字是明顯的可拆分的合體字，但是因?yàn)橐赃@些字作為部件的字不少，比如以“莫”為部件的漢字有摹、墓、暮、幕、募、慕、驀以“林”為部件的漢字有彬、郴、楚、焚、禁、婪、麓、夢(mèng)、梵、棼這樣，由于組字頻度較高，如果把它們作為一個(gè)整體來處理，比較符合漢字的結(jié)構(gòu)特點(diǎn)，而且在提取特征時(shí)，也會(huì)提高編碼的效率。
合體字拆分，包括多體字，比如明顯的組合多體字漢、字等等；與上述漢字劃分相應(yīng)的漢字描述特征提取策略是基本部件作為一個(gè)整體來提取特征，形成一組特征代碼；復(fù)合部件可以作為一個(gè)整體對(duì)待，提取描述特征，形成一組特征代碼；也可以拆分成n個(gè)部件，分別提取描述特征，形成n組特征代碼；合體字拆分成n個(gè)部件，依次從每個(gè)部件中提取特征代碼，得到n組特征代碼；這里所說的描述特征可以是漢字的字形信息，比如筆畫，也可以是漢字的發(fā)音信息或者其它信息。一組描述特征體現(xiàn)為一組代碼，可以在鍵盤上得到體現(xiàn)。
一組代碼內(nèi)部關(guān)系比較密切，代碼組與組之間相對(duì)獨(dú)立。
復(fù)合部件在作為一個(gè)整體處理時(shí)，可以使用和基本部件相同的特征提取方法，也可以不同，因?yàn)閺?fù)合部件在字形上比基本部件包含更豐富的信息，比如，盡管把它當(dāng)做一個(gè)整體，也可以分別從各個(gè)組成部件中提取特征，形成一組的描述特征代碼。
本發(fā)明使用轉(zhuǎn)義符號(hào)加上標(biāo)準(zhǔn)字符表示非標(biāo)準(zhǔn)字符，充分利用了各種現(xiàn)有資源，避免了內(nèi)碼設(shè)計(jì)和字模制作，節(jié)省時(shí)間、精力；而且統(tǒng)一、直觀，易于表示，易于接受；本發(fā)明對(duì)漢字的兼容拆分處理方法規(guī)范、合理、智能，提高了漢字處理系統(tǒng)的容錯(cuò)能力和適應(yīng)性；同時(shí)也提高了編碼效率。
這種方法可以應(yīng)用到各種中文信息處理軟硬件系統(tǒng)中，印刷出版物中。
本發(fā)明的一個(gè)實(shí)施方案是與林碼漢字輸入方法(專利申請(qǐng)?zhí)?4117506.5)相結(jié)合使用。
對(duì)漢字字符集合GB2312-80中收入的所有漢字字符進(jìn)行拆分處理時(shí)1.選擇一個(gè)轉(zhuǎn)義符號(hào)“_”，該字符是ASCII單字節(jié)符號(hào)；2.搜集、整理出一組非標(biāo)準(zhǔn)漢字部件字符集合，選擇相應(yīng)的替代表示標(biāo)準(zhǔn)字符，形成對(duì)應(yīng)表，選擇標(biāo)準(zhǔn)替代字時(shí)，可以考慮字形相似、同源變體、字形包含、常用、首部件等幾個(gè)因素；圖1；3.在2中得到的非標(biāo)準(zhǔn)漢字部件字符集合作為標(biāo)準(zhǔn)字符集合的附加字符集合，兩者的并集形成擴(kuò)充字符集合，其中非標(biāo)準(zhǔn)字符通過使用轉(zhuǎn)義符號(hào)加上對(duì)應(yīng)的標(biāo)準(zhǔn)字符組合來表示；4.考察擴(kuò)充字集，根據(jù)字根、部件、單體字的使用頻度和字形緊密程度確定基本部件集合；5.考察擴(kuò)充字集，根據(jù)部件、漢字的使用頻度、組字頻度和字形特點(diǎn)，確定復(fù)合部件集合；6.考察擴(kuò)充字集，根據(jù)多體字的組成結(jié)構(gòu)特點(diǎn)，確定合體字集合；7.對(duì)4中得到的基本部件集合，直接進(jìn)行字符屬性的提取和描述，形成屬性特征描述代碼表；圖3；林碼對(duì)字根特征的描述采用帶有相對(duì)位置信息的筆畫特征，林碼的一種實(shí)施方案把筆畫按形狀分為橫豎撇捺折五種，按相對(duì)位置分為上中下三種，按筆順依次提取各個(gè)筆畫；比如“木”的筆畫特征是“中一、上丨、中丿、中丶”；8.對(duì)5中得到的復(fù)合部件集合，制作復(fù)合部件拆分表，其中基本部件作為拆分部件；同時(shí)制作復(fù)合部件不拆分整體屬性特征描述代碼表；圖4；9.對(duì)6中得到的合體字集合，制作漢字拆分表，其中基本部件和復(fù)合部件作為拆分部件；圖5；復(fù)合部件是可拆可不拆的，可拆是因?yàn)樗扇舾苫静考M成；可不拆，因?yàn)閺?fù)合部件作為一個(gè)整體在漢字中充當(dāng)一個(gè)組字部件的頻度比較高，這樣，如果作為一個(gè)整體對(duì)待，更能夠體現(xiàn)漢字的結(jié)構(gòu)特點(diǎn)，比如前面提到的“募”字可以拆分成為“莫力”，把“莫”字作為一個(gè)組字部件來處理；10.基本部件的屬性代碼位于一個(gè)鍵盤分區(qū)內(nèi)；林碼漢字輸入方案把鍵盤劃分成為若干區(qū)域，字根和單體字的輸入在一個(gè)區(qū)域內(nèi)完成，多體字拆分成為字根、部件，然后依次交替在不同的鍵盤區(qū)域中輸入各個(gè)字根、部件；11.復(fù)合部件的屬性代碼可以在一個(gè)分區(qū)內(nèi)，也可以分布在若干分區(qū)內(nèi)；例如“莫”可以拆分成為“艸日大”，提取三組相對(duì)獨(dú)立的字形特征，然后分別交替在三個(gè)鍵盤分區(qū)中輸入，也可以提取每個(gè)字根的第一筆畫，形成一組特征代碼，在一個(gè)鍵盤分區(qū)中輸入，當(dāng)復(fù)合部件出現(xiàn)在別的漢字中，作為一個(gè)整體來處理，比較直觀；12.合體字的屬性代碼分布在若干分區(qū)內(nèi)，如果包含復(fù)合部件，則同時(shí)兼容拆與不拆兩種情況；比如“募”在輸入時(shí)可以拆分成為“艸日大力”，依次在交替在四個(gè)鍵盤分區(qū)中輸入每個(gè)字根，也可以拆分成為“莫力”，其中“莫”字在一個(gè)鍵盤分區(qū)中輸入，提取它的三個(gè)字根的首筆畫作為描述特征代碼。同樣的方法可以應(yīng)用到詞匯的輸入，把組成詞匯的每個(gè)字都作為一個(gè)整體來處理，例如輸入“莫非”一詞時(shí)，兩個(gè)字可以分別在兩個(gè)鍵盤分區(qū)內(nèi)輸入，而不必交替在多個(gè)分區(qū)內(nèi)依次輸入兩個(gè)字的各個(gè)字根的特征代碼。

圖1.非標(biāo)準(zhǔn)部件的表示舉例圖2.漢字字符分類圖3.基本部件及其處理舉例不拆分圖4.復(fù)合部件及其處理舉例可拆可不拆圖5.合體字及其處理舉例拆分
權(quán)利要求
1.一種漢字拆分處理方法，其特征是對(duì)于在漢字拆分過程中產(chǎn)生的、漢字標(biāo)準(zhǔn)字符集中沒有收入的非標(biāo)準(zhǔn)漢字部件，使用轉(zhuǎn)義符號(hào)加上一個(gè)標(biāo)準(zhǔn)字符來表示，同時(shí)對(duì)于可以拆分，也可以不拆分的字根、部件、漢字進(jìn)行兼容處理。
2.按照權(quán)利要求1的方法，其特征是采用下列步驟(1).選定一個(gè)或若干個(gè)轉(zhuǎn)義符號(hào)；(2).對(duì)漢字字符集中的漢字進(jìn)行拆分，搜集出現(xiàn)的非標(biāo)準(zhǔn)部件字符；(3).為每一個(gè)非標(biāo)準(zhǔn)字符選定一個(gè)對(duì)應(yīng)的標(biāo)準(zhǔn)字符；(4).制作標(biāo)準(zhǔn)字符與非標(biāo)準(zhǔn)字符的對(duì)應(yīng)表；(5).凡是出現(xiàn)非標(biāo)準(zhǔn)字符的場合均使用轉(zhuǎn)義符號(hào)加上其對(duì)應(yīng)的標(biāo)準(zhǔn)字符來表示。圖1。
3.按照權(quán)利要求2的方法，其特征是所說的轉(zhuǎn)義字符是計(jì)算機(jī)信息交換用標(biāo)準(zhǔn)字符集合中的符號(hào)。
4.按照權(quán)利要求2的方法，其特征是所說的若干個(gè)轉(zhuǎn)義字符可以分別表示非標(biāo)準(zhǔn)部件字符與對(duì)應(yīng)的標(biāo)準(zhǔn)字符的字形關(guān)系，包括字形相似、字形變體、字形包含、左部件、右部件、上部件、下部件等等。
5.按照權(quán)利要求2的方法，其特征是在為非標(biāo)準(zhǔn)部件字符選擇替代用標(biāo)準(zhǔn)字符時(shí)，考慮兩者的相互關(guān)系，包括字形相似、同源變體、字形包含、常用、首部件等等因素。
6.按照權(quán)利要求2的方法，其特征是所說的出現(xiàn)非標(biāo)準(zhǔn)字符的場合包括計(jì)算機(jī)軟硬件系統(tǒng)內(nèi)部信息交換、字符顯示、字符打印等。
7.按照權(quán)利要求1的方法，其特征是在對(duì)漢字拆分處理時(shí)，根據(jù)字形結(jié)構(gòu)、組字頻度等特點(diǎn)，把標(biāo)準(zhǔn)漢字字符和非標(biāo)準(zhǔn)漢字字符分為以下三種情況(1).基本部件包括常用字根部件、結(jié)構(gòu)緊密的單體字；(2).復(fù)合部件包括可以作為組字部件，組字頻度較高的字根、部件、漢字；(3).合體字結(jié)構(gòu)分明的多體字。圖2。
8.按照權(quán)利要求7的方法，其特征是采用下列步驟(1).對(duì)基本部件不拆分，作為一個(gè)整體，提取特征，形成一組特征描述代碼；圖3；(2).對(duì)復(fù)合部件可拆也可不拆，不拆分時(shí)，作為一個(gè)整體，提取特征，形成一組特征描述代碼；拆分時(shí)，把它拆成n個(gè)部件，可以提取出n組特征描述代碼；圖4；(3).對(duì)合體字拆分，把它拆成n個(gè)部件，可以提取出n組特征描述代碼；如果其中包含復(fù)合部件，分別按拆分和不拆分兩種情況處理；圖5。
9.按照權(quán)利要求8的方法，其特征是對(duì)于復(fù)合部件，在作為一個(gè)整體提取特征時(shí)，可以分別從n個(gè)部件中提取特征，形成一組特征描述代碼。
10.按照權(quán)利要求1至9任何一條的方法，可以應(yīng)用到各種計(jì)算機(jī)中文信息處理的軟硬件系統(tǒng)，以及各種印刷出版物中。
全文摘要
一種漢字拆分處理方法，針對(duì)計(jì)算機(jī)漢字信息處理過程中對(duì)漢字進(jìn)行拆分而產(chǎn)生的非標(biāo)準(zhǔn)字符和盲目拆分問題，提出了使用轉(zhuǎn)義符號(hào)加上一個(gè)相關(guān)的標(biāo)準(zhǔn)字符表示非標(biāo)準(zhǔn)字符，標(biāo)準(zhǔn)字符集合和非標(biāo)準(zhǔn)字符集合構(gòu)成擴(kuò)充字符集合，把擴(kuò)充字符集合中的字符分為基本部件集合、復(fù)合部件集合、合體字集合三類，分別進(jìn)行不拆分、可拆可不拆、拆分的處理。使文字拆分高效、規(guī)范、合理。
文檔編號(hào)G06F3/023GK1152143SQ9510598
公開日1997年6月18日申請(qǐng)日期1995年6月7日優(yōu)先權(quán)日1995年6月7日
發(fā)明者林兵申請(qǐng)人:林兵

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林兵
技術(shù)所有人：林兵
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢字拆分相關(guān)技術(shù)

漢字部件拆分相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種漢字拆分處理方法