漢字拆分和編碼方法

文檔序號(hào)：6603790閱讀：1461來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：漢字拆分和編碼方法
技術(shù)領(lǐng)域：
本發(fā)明是關(guān)于漢字的一種拆分和編碼方法。
目前漢字編碼方法很多，已經(jīng)在計(jì)算機(jī)上使用的漢字編碼方法有幾十種，其中包括最常見(jiàn)的拼音碼、首尾碼、五筆字型碼、大眾碼和表形碼等。這些編碼都未能很好地同時(shí)解決漢字拆碼的簡(jiǎn)易性、漢字輸入的快速性和編碼方法易記易學(xué)三方面的矛盾。例如拼音碼，雖然簡(jiǎn)單易學(xué)，但重碼率高，輸入速度慢。首尾碼、五筆字型碼、大眾碼和表形碼等雖能實(shí)現(xiàn)漢字的快速輸入，但漢字拆碼難，部件或字根難以記憶。最近出現(xiàn)的自然碼，是在雙拼法基礎(chǔ)上發(fā)展起來(lái)的，它采用以詞為主導(dǎo)、字詞混合的編碼方法，其漢字輸入速度更高。但是這種編碼方法仍然存在漢字不易拆碼、部件多、難以記憶等缺點(diǎn)。
本發(fā)明的漢字拆分和編碼方法在于通過(guò)選擇漢字中的子漢字對(duì)漢字拆分，然后采用聲碼、韻碼和形碼(英文字母或數(shù)字)中的各種碼或部分碼對(duì)漢字或漢字拆分后的各個(gè)部分(以下統(tǒng)稱為子部)進(jìn)行編碼。這樣使?jié)h字拆分變得十分簡(jiǎn)單，因此徹底克服了許多編碼方法中存在的漢字難拆分、部件多、難記憶等缺點(diǎn)。對(duì)于熟練掌握漢語(yǔ)拼音、一般掌握漢語(yǔ)拼音和完全不懂漢語(yǔ)拼音的人，都能夠做到漢字拆分容易、編碼方法簡(jiǎn)單、易記易學(xué)、重碼率低，可以實(shí)現(xiàn)漢字的高速度輸入。
下面對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
按漢字拆分成的子部數(shù)目不同，本發(fā)明的編碼體系可分為兩分體系(漢字最多拆分成兩部分)、三分體系(漢字最多拆分成三部分)和四分體系(漢字最多拆分成四部分)。對(duì)于不同的編碼體系，有不同的編碼方法。在每種體系中，可分為以10個(gè)數(shù)字或10個(gè)英文字母為碼元的全形碼法和以26英文字母為碼元的四位碼長(zhǎng)形碼法。前者又分為五位碼長(zhǎng)法和六位碼長(zhǎng)法，后者又分為全形碼法和部分形碼法。本發(fā)明共提供了12種編碼方法，可采用任何一種方法對(duì)所有漢字和詞組進(jìn)行編碼。
子漢字是指漢字本身或子部中所包含的由最大部分構(gòu)成的漢字。我們規(guī)定交式單體字不拆分，因此交式單體字不包含子漢字。另外，我們規(guī)定漢字“一”不是子漢字，因此“一”不作為子漢字參與對(duì)漢字的拆分。
本發(fā)明對(duì)漢字的拆分原則是1.按照二分體系或三分體系或四分體系將漢字最多拆分成二或三或四部分。如將“辭”拆分成兩部分時(shí)，為“舌”和“辛”，拆分成三部分時(shí)，為“舌”、立”和“十”，拆分成四部分時(shí)，為“千”、“口”、“立”和“十”。
2.按照二分體系或三分體系或四分體系將漢字盡量拆分成二或三或四部分。如在四分體系中，“許”拆分成“讠”、“丿”、“一”和“十”四部分。
3.漢字拆分時(shí)，盡量先取最大的部分作為子漢字，如有需要，子漢字還可繼續(xù)拆分。如“暮”先拆分成“莫”和“日”，在三分和四分體系中，“莫”再逐步拆分出“大”、“日”?！靶堋耙差愃?。
4.漢字中的各部分盡可能多地參與編碼。如“贛”拆分成四部分時(shí)，先拆分出“章”后，再?gòu)钠溆野氩坎鸱殖觥柏暋?，“貢”再拆成“工”和“貝”?br> 5.除相交筆畫(huà)外，所有漢字都按筆畫(huà)順序進(jìn)行拆分。如從“產(chǎn)”的前部分拆分出子漢字“立”，而不從后部分拆分出子漢字“廠”。
6.漢字盡可能多地拆分出子漢字。例如在四分體系中，“躁”拆分成?？凇薄ⅰ爸埂?、“品”和“木”?！伴堋辈鸱殖觥Ｄ尽?、“八”和“言”，而不是拆分出“木”和“廠”。
漢字本身、第一子部和第二子部等都可有形碼，分別記為形01、形02、形11、形12、形21和形22等。漢字本身可有聲碼、韻碼，子漢字可有聲碼，它們可分別記為聲0、韻0、聲1、聲2等。分別表示漢字聲碼、韻碼和第一、第二子部的聲碼等。
二分體系中漢字的拆分方法和編碼方法在二分體系中，通過(guò)選擇漢字的字首或字尾部分(當(dāng)字首不存在子漢字時(shí))的子漢字對(duì)漢字拆分，并按漢字是否可拆分，將漢字分為單部字和雙部字，然后采用聲碼、韻碼和形碼中的各種碼或部分碼對(duì)漢字或漢字拆分后的子部進(jìn)行編碼。
1.單部字具有下列特征的漢字為單部字。
(1)交式單體字，如東、未、申、中、串和豐等。
(2)不能拆分出子漢字的連或散式單體字，如心、瓜、爪和予等。
(3)不能拆分出子漢字的雙體字或多體字，如卵、扎和巡等。
(4)僅中間部分可拆分出子漢字的漢字，例如烹、羔。
2.雙部字具有下列特征的漢字為雙部字。
(1)至少字首部分為子漢字的連式或散式單體字，如父、太、今、令、矛、產(chǎn)、名、易、星、歲和盡等?！疤辈鸱譃椤按蟆焙汀柏肌?，“盡”可拆分為“尺”和“
”。
(2)僅字尾部分為子漢字的連式或散式單體字，如白、亞、亙等，“白”拆分為“丿”和“日”，“亙”拆分為“一”和“旦”。
(3)雙體字中至少有一體為子漢字，如從、明、訂、江、過(guò)、閉、暢、春、純和氙等。“明”拆分為“日”和“月”，“鵝”拆分為“我”和“鳥(niǎo)”。
(4)僅字首或字尾部分為子漢字的漢字，前者如足、走等，后者如受、帝、字、著、帚和學(xué)等?！白恪辈鸱譃椤翱凇焙汀?
”，“受”拆分為“爫”和“又”等。
三分體系中漢字的拆分方法和編碼方法在三分體系中，采用下列步驟對(duì)漢字拆分，(1)通過(guò)選擇漢字的字首或字尾部分(當(dāng)字首不存在子漢字時(shí))的子漢字對(duì)漢字拆分，拆分后的子部可按其中的子漢字繼續(xù)拆分，(2)如果字首或字尾部分都沒(méi)有子漢字，則可通過(guò)選擇漢字中間部分的子漢字對(duì)漢字拆分，根據(jù)漢字拆分結(jié)果，將漢字分為單部字、雙部字和三部字，然后采用聲碼、韻碼和形碼中的各種碼或部分碼對(duì)漢字或漢字拆分后的子部進(jìn)行編碼。
二分體系中的某些單部字，在三分體系中仍為單部字，例如串，而一些單部字可通過(guò)字的中間部分拆分成三部字，例如“羔”。如果二分體系中的雙部字可繼續(xù)拆分，則可以拆成三部字。如果僅第一部或者第二部可拆分成兩部分，則只要將其拆分，就可以拆成三部字。如果第一部和第二部均可拆分成兩部分，則它們的拆分原則是如果第一、第二部拆分后，得到的子漢字?jǐn)?shù)目分別為α和β，當(dāng)α≤β時(shí)，則拆分第二部。注意如果拆分第一部后各部所包含的子漢字總數(shù)大于拆分第二部后各部所包含的子漢字總數(shù)，則拆分第一部。如按三分法拆分“殿”，拆分左半部后子漢字有“尸”、“共”和“殳”，總數(shù)為三，拆分右半部后的子漢字只有“幾”和“又”，總數(shù)為二，所以應(yīng)拆分左半部。如果第一、第二部都不包含子漢字，則漢字仍為雙部字。
下面具體對(duì)單部字、雙部字和三部字進(jìn)行詳細(xì)說(shuō)明。
1.單部字具有下列特征的漢字為單部字。
(1)交式單體字如東、未、申、中、串和豐等。
(2)無(wú)法拆分出子漢字的連或散式單體字如心、瓜、爪和予等。
(3)無(wú)法拆分出子漢字的雙體字或三體字如卵、扎和巡等。
2.雙部字具有下列特征的漢字為雙部字。
(1)只能拆分出一個(gè)子漢字或只能拆分成兩個(gè)子漢字的連式或散式單體字，例如父、太、白、今、矛、產(chǎn)、亞、名、易、星和歲等?！疤辈鸪伞按蟆焙汀柏肌保皻q”拆分為“山”和“夕”。
(2)雙體字中至少有一體為子漢字，且此二體不能再拆出子漢字，例如從、明、訂、江、過(guò)、閉、鵝、汞、純和氙等?！懊鳌辈鸱譃椤叭铡焙汀霸隆?，“鵝”拆分為“我”和“鳥(niǎo)”。
(3)僅字首或者字尾部為子漢字的漢字，前者如足、走等，后者如受、帝、字、著、帚和學(xué)等?！白恪辈鸱譃椤翱凇焙汀?
”，“受”拆分為“
”和“又”等。(4)三體字或多體字中，拆分成兩部分后，不能再拆分出子漢字，如“昂”拆分為“日”和“
”。
3.三部字具有下列特征的漢字為三部字。
(1)可拆分出子漢字、且該子漢字可再拆分出子漢字的連或散式單體字，如光、矢、百、卓、丟、午、舌和缶等。“舌”拆分為“千”和“口”，“千”再拆分為“丿”和“十”。
(2)可拆分出兩個(gè)子漢字的連或散式單體字，例如桌、享和卒等?！白洹辈鸱譃椤百铩?、“從”和“十”。
(3)僅中間部分為子漢字的漢字，例如魚(yú)、羔和荒等?！棒~(yú)”可拆分為“”、“田”和“一”，“荒”拆成“艸”、“亡”和“
”。
(4)至少有一體為子漢字、并且該子漢字可再拆分出子漢字的雙體字，例如敵、柏、玻、殘、柔、肩、閏、遲和慶等。從“玻”拆分出“皮”，從“皮”再拆分出“又”。
(5)三體字中至少有兩體為子漢字，如享、崇、冀、崽、品、嶄、想、枷、斑、輯、昭、部、尉、闊、廂和屢等?！搬獭辈鸱殖伞吧健薄ⅰ疤铩焙汀靶摹?，“斑”拆分為“王”、“文”和“王”。
(6)三體字中有兩體可構(gòu)成子漢字、且該子漢字可再拆分出一個(gè)子漢字，如徹、喂、漕和褓等?！榜佟钡淖钣颐鎯审w可構(gòu)成子漢字“?！?，從“?！敝锌稍俨鸱殖鲆粋€(gè)子漢字“呆”。
(7)具有下列特征的三體字或多體字，如贏和囂等，它們均由五個(gè)獨(dú)立的子漢字構(gòu)成，則拆分出最前面兩個(gè)子漢字作為第一、第二部，剩余部分作為第三部。例如“贏”拆分為“亡”、“口”和“
”。疑和嶷等，可采取類似方法進(jìn)行拆分。如“疑”拆分為“匕”、“矢”和“
”。
四分體系中漢字的拆分方法和編碼方法在四分體系中，采用下列步驟對(duì)漢字拆分，(1)通過(guò)選擇漢字的字首或字尾部分(當(dāng)字首不存在子漢字時(shí))的子漢字對(duì)漢字拆分，拆分后的子部可以按照其中的子漢字繼續(xù)拆分，(2)如果漢字的字首或字尾部分都沒(méi)有子漢字，則可以通過(guò)選擇漢字中間部分的子漢字對(duì)漢字拆分，根據(jù)漢字拆分結(jié)果，將漢字分為單部字、雙部字、三部字和四部字，然后采用聲碼、韻碼和形碼中的各種碼或部分碼對(duì)漢字或者漢字拆分后的子部進(jìn)行編碼。
漢字按照二分法和三分法拆分后，有的可繼續(xù)拆分成三部字和四部字，有的應(yīng)直接從二分體系中雙部字拆分成四部字，不應(yīng)經(jīng)過(guò)三部字。如“糕”經(jīng)過(guò)兩次拆分后，為“丷”、“木”和“羔”，在四分體系中它應(yīng)拆為“米”、 “丷”、“王”和“灬”。
對(duì)三分體系中的三部字，如果第一、第二和第三部拆分后，得到的子漢字?jǐn)?shù)目分別為α、β和γ，當(dāng)α≤β和γ≤β時(shí)，則規(guī)定拆分第二部。當(dāng)α≤γ和β＜γ時(shí)，則規(guī)定拆分第三部。如果拆分第一部后各部所包含的子漢字總數(shù)分別大于拆分第二部和第三部后各部的子漢字總數(shù)，則拆分第一部，例如“壁”拆分為“尸”、“口”、“辛”和“土”。如果拆分第三部后各部包含的子漢字總數(shù)大于拆分第二部后各部包含的字漢字子漢字總數(shù)、且不小于拆分第一部后各部的子漢字總數(shù)，則規(guī)定拆分第三部。如果第一、第二和第三部都不包含子漢字，則漢字仍為三部字。
具體地說(shuō)，三分體系中關(guān)于單部字和雙部字的說(shuō)明仍然適合于四分體系，而三部字的說(shuō)明在四分體系中有些不同。
1.三部字具有下列特征的漢字為三部字。
(1)可拆分出一個(gè)子漢字、且該子漢字只可再拆分出一個(gè)子漢字的連式或者散式單體字，如光、矢、百、卓、丟、午、舌和缶等。
(2)只可拆分出兩個(gè)子漢字的連或散式單體字，如桌等。
(3)僅中間部分含有一個(gè)子漢字的漢字，如參、魚(yú)、羔和荒等。
(4)至少有一體為子漢字、且僅該子漢字只可再拆分出一個(gè)子漢字的雙體字，如柏、殘、柔、肩、遲和慶等。
(5)三體字中至少有兩體為子漢字，且三體都不能再拆出子漢字，例如享、崽、森、品、嶄、想、枷、樹(shù)、湘、輯、昭、凱、部和廂等。
(6)三體字中僅兩體可構(gòu)成子漢字、且該子漢字只可再拆分出一個(gè)子漢字，而另一體不能拆分出子漢字，如徹、喂和漕等。
2.四部字具有下列特征的漢字為四部字。
(1)在至少有一體為子漢字的雙體字中，至少有一體含有兩個(gè)以上的子漢字，如說(shuō)、熊、糅、糍和蓽等。
(2)在至少有一體為子漢字的雙體字中，兩體中各含有一個(gè)以上的子漢字，例如踉和糲等。
(3)三分體系中的三部字，至少有一部還可分出一個(gè)子漢字，例如智、壁、鵠、解、煤、蜘、弼、凰、屢、盜、哭和闊等。
(4)漢字拆分成四部分后，至少有三部為子漢字，如燠、潭、蹉、蹁、腐、摩、鼓、驥、蟑和鰨等。
(5)中間部分可拆分出兩個(gè)子漢字，如烹和卒等。
(6)漢字拆分成四部分后，至少第一和第三部均為子漢字或至少第二和第四部均為子漢字，前者如煮、熹、亟和嬗等，后者如復(fù)、褚、靠、灌、疑和攝等。
(7)具有下列特征的多體字，如贏和囂等，它們均由五個(gè)獨(dú)立的子漢字構(gòu)成，則拆分出最前面的三個(gè)子漢字作為第一、第二、第三部，剩余部分作為第四部。又如嶷，可采取類似的方法進(jìn)行拆分。
各種體系中漢字的編碼方法和編碼規(guī)則在不同的編碼體系中，漢字編碼方法都包含有四位碼長(zhǎng)法、五位碼長(zhǎng)法和六位碼長(zhǎng)法。五位碼長(zhǎng)法和六位碼長(zhǎng)法均采用10個(gè)數(shù)字或英文字母作碼元，它們分別與不同的筆畫(huà)及其組合相對(duì)應(yīng)，即分別對(duì)應(yīng)于橫、豎、撇、點(diǎn)、折、叉、串、撇、點(diǎn)和方塊及其組合筆畫(huà)等。四位碼長(zhǎng)全形碼法采用26個(gè)英文字母作碼元，它們分別與不同筆畫(huà)及其組合相對(duì)應(yīng)，即分別對(duì)應(yīng)于橫、豎、撇、點(diǎn)、折、叉、串、八和方塊及其它們的組合筆畫(huà)等。下面說(shuō)明采用10個(gè)數(shù)字或英文字母作碼元的編碼方法(以下簡(jiǎn)稱為10碼元編碼法)和編碼規(guī)則。10個(gè)碼元的典型代碼規(guī)則見(jiàn)下表
高頻字或高頻部首作為子漢字或非子漢字子部時(shí)，不再拆分。10個(gè)碼元0-9可用10個(gè)英文字母Q、W、E、R、T、Y、U、I、O和P或其它英文字母代替。
我們?cè)谇懊嬖赋鲞^(guò)除相交筆畫(huà)外，所有漢字都按照筆畫(huà)順序進(jìn)行拆分。如對(duì)于“戌”、“吏”等有相交筆畫(huà)的漢字，均要優(yōu)先處理相交筆畫(huà)，“戌”的編碼為734，“吏”的編碼為772。
帶有叉和串的漢字或者子部編碼規(guī)則如下1兩筆相叉，代碼一律為6。
2三筆相串，代碼一律為7。
3四筆以上筆畫(huà)相交，優(yōu)先處理相串筆畫(huà)。如“豐”的編碼為76，“夷”的編碼為774。
10碼元編碼方法和編碼規(guī)則10碼元編碼方法分為五位碼長(zhǎng)法和六碼長(zhǎng)法。
五位碼長(zhǎng)法單部字編碼規(guī)則為形01+形02+形03+形04+形05，碼長(zhǎng)為1-5碼。
雙部字如果第一部?jī)H有一碼，則第二部最多取四個(gè)碼，編碼規(guī)則為形11+形21+形22+形23+形24，碼長(zhǎng)為2-5碼。
如果第一部有兩個(gè)以上碼，則第二部最多取三個(gè)碼，編碼規(guī)則為形11+形12+形21+形22+形23，碼長(zhǎng)為3-5碼。
三部字如果第一部和第二部都僅有一個(gè)碼，則第三部最多取三個(gè)碼，編碼規(guī)則為形11+形21+形31+形32+形33，碼長(zhǎng)為3-5碼。
如果第一部只有一個(gè)碼，第二部有兩個(gè)以上碼，則第三部最多取兩個(gè)碼，其編碼規(guī)則為形11+形21+形22+形31+形32，碼長(zhǎng)為4-5碼。
如果第一部有兩個(gè)以上碼，則第三部最多取兩個(gè)碼，編碼規(guī)則為形11+形12+形21+形31+形32，碼長(zhǎng)為4-5碼。
四部字如果第一部有兩個(gè)以上碼，編碼規(guī)則為形11+形12+形21+形31+形41，碼長(zhǎng)為5碼。。
如果第一部?jī)H有一個(gè)碼，而第二部有兩個(gè)以上碼，編碼規(guī)則為形11+形21+形22+形31+形41，碼長(zhǎng)為5碼。。
如果第一部和第二部都僅有一個(gè)碼，而第三部有兩個(gè)以上碼，編碼規(guī)則為形11+形21+形31+形32+形41，碼長(zhǎng)為5碼。。
如果第一、第二和第三部都僅有一個(gè)碼，則第四部最多取有兩個(gè)碼，編碼規(guī)則為形11+形21+形31+形41+形42，碼長(zhǎng)為4-5碼。
詞組的編碼方法如下雙字詞第一字的第一、第二碼+第二字的第一、第二和第三碼。
三字詞第一字的第一、第二碼+第二字的第一、第二碼+第三字的第一碼。
四字詞第一字的第一、第二碼+第二、第三和第四字的第一碼。
多字詞第一字的第一、第二碼+第二、第三和最后一字的第一碼。
六位碼長(zhǎng)法單部字形01+形02+形03+形04+形05，碼長(zhǎng)為1-5碼。
雙部字如果第一部?jī)H有一個(gè)碼，則第二部最多取四個(gè)碼，編碼規(guī)則為形11+形21+形22+形23+形24，碼長(zhǎng)為2-5碼。
如果第一部有兩個(gè)以上碼，則第二部最多取四個(gè)碼，編碼規(guī)則為形11+形12+形21+形22+形23+形24，碼長(zhǎng)為3-6碼。
三部字如果第一部和第二部都只有一個(gè)碼，則第三部最多取三個(gè)碼，編碼規(guī)則為形11+形21+形31+形32+形33，碼長(zhǎng)為3-5碼。
如果第一部只有一個(gè)碼，第二部有兩個(gè)以上碼，則第三部最多取三個(gè)碼，編碼規(guī)則為形11+形21+形22+形31+形32+形33，碼長(zhǎng)為4-6碼。
如果第一部有兩個(gè)以上碼，則第二、第三部最多取兩個(gè)碼，編碼規(guī)則為形11+形12+形21+形22+形31+形32，碼長(zhǎng)為4-6碼。
四部字如果第一部有兩個(gè)以上碼，編碼規(guī)則為形11+形12+形21+形31+形41，碼長(zhǎng)為5碼。
如果第一部只有一個(gè)碼，而第二部有兩個(gè)以上碼，編碼規(guī)則為形11+形21+形22+形31+形41，碼長(zhǎng)為5碼。
如果第一部和第二部都只有一個(gè)碼，而第三部有兩個(gè)以上碼，編碼規(guī)則為形11+形21+形31+形32+形41，碼長(zhǎng)為5碼。
如果第一、第二和第三部都只有一個(gè)碼，則第四部最多取有兩個(gè)碼，編碼規(guī)則為形11+形21+形31+形41+形42，碼長(zhǎng)為4-5碼。
詞組的編碼方法如下雙字詞第一字的第一、第二碼+第二字的第一、第二、第三和第四碼。
三字詞第一字的第一、第二碼+第二字的第一、第二碼+第三字的第一、第二碼。
四字詞第一、第二字的第一、第二碼+第三和第四字的第一碼。
多字詞第一、第二字的第一、第二碼+第三和最后一字的第一碼。
26碼元編碼方法和編碼規(guī)則采用26個(gè)英文字母作碼元的編碼方法和編碼規(guī)則如下在四位碼長(zhǎng)全形碼法中選擇26個(gè)英文字母作為碼元，它們分別與不同的筆畫(huà)及其組合相對(duì)應(yīng)，即分別對(duì)應(yīng)于橫、豎、撇、點(diǎn)、折、叉、串、八和方塊及其組合筆畫(huà)等。
26個(gè)碼元的代碼規(guī)則見(jiàn)下表帶有叉和串的漢字或子部編碼規(guī)則如下1一橫筆和一豎筆相叉，代碼一律為H，其它的兩筆相叉，代碼一律為N。
2一橫筆和兩豎筆相串，代碼一律為J，一豎筆和兩橫筆相串，則代碼一律為U，其它的三筆畫(huà)相串，代碼一律為M。
3四筆以上筆畫(huà)相交，優(yōu)先處理相串筆畫(huà)。如“豐”的編碼為UH，“夷”的編碼為MMF。
26碼元編碼法一律采用四位碼長(zhǎng)法。
單部字編碼規(guī)則為形01+形02+形03+形04。
雙部字如果第一部?jī)H有一個(gè)碼，則第二部最多取三個(gè)碼，編碼規(guī)則為形11+形21+形22+形23，碼長(zhǎng)為2-4碼。
如果第一部有兩個(gè)以上碼，則第二部最多取兩個(gè)碼，編碼規(guī)則為形11+形12+形21+形22，碼長(zhǎng)為3-4碼。
三部字如果第一部和第二部都僅有一個(gè)碼，則第三部最多取兩個(gè)碼，編碼規(guī)則為形11+形21+形31+形32，碼長(zhǎng)為3-4碼。
如果第一部?jī)H有一個(gè)碼，第二部有兩個(gè)以上碼，編碼規(guī)則為形11+形21+形22+形31，碼長(zhǎng)為4碼。
注高頻字或高頻部首作為子漢字或非子漢字子部時(shí)，不再拆分。如果第一部有兩個(gè)以上碼，編碼規(guī)則為形11+形12+形21+形31，碼長(zhǎng)為4碼。
四部字編碼規(guī)則為形11+形21+形31+形41，碼長(zhǎng)為4碼。
詞組的編碼方法如下雙字詞第一字的第一、第二碼+第二字的第一、第二碼。
三字詞第一字的第一、第二碼+第二字的第一碼+第三字的第一碼。
四字詞第一、第二、第三和第四字的第一碼相加。
多字詞第一、第二、第三和最后一字的第一碼相加。
除四位碼長(zhǎng)全形碼法外，還有利用漢字聲碼、韻碼、形碼和子漢字聲碼、形碼以及非子漢字形碼進(jìn)行混合編碼的方法，即四位碼長(zhǎng)部分形碼法。在這些方法中，漢字本身最多可有三個(gè)形碼，子漢字和非子漢字子部只有一個(gè)形碼。聲碼和韻碼分別取漢字或子漢字拼音的聲母和韻母的首字母或者按雙拼法取碼。在二分體系中，漢字編碼方法還有聲0韻0聲1[形1]聲2[形2]法，其編碼規(guī)則如下單部字聲0+韻0+形01+形02雙部字聲0+韻0+聲1[形1]+聲2[形2]聲1[形1]表示聲1不存在時(shí)，以形1代替。聲2[形2]意義相同。
在三分體系中，漢字編碼方法還有聲0聲1[形1]聲2[形2]聲3[形3]法，其編碼規(guī)則如下單部字聲0+形01+形02+形03雙部字聲0+聲1{形1}+聲2[形2]，當(dāng)聲1存在時(shí)聲0+聲1[形1]+聲2{形2}，當(dāng)聲1不存在時(shí)三部字聲0+聲1[形1]+聲2[形2]+聲3[形3]聲1{形1}表示聲1不存在時(shí)，以形1代替，聲1存在時(shí)，增加形1。聲2{形2}意義相同。
而在四分體系中，漢字編碼方法還有聲1[形1]聲2[形2]聲3[形3]聲4[形4]法，其編碼規(guī)則如下單部字聲0+形01+形02+形03雙部字聲1{形1}+聲2{形2}三部字聲1{形1}+聲2[形2]+聲3[形3]，當(dāng)聲1存在時(shí)聲1[形1]+聲2{形2}+聲3[形3]，當(dāng)聲1不存在、而聲2存在時(shí)四部字聲1[形1]+聲2[形2]+聲3[形3]+聲4[形4]，詞組的編碼方法同上。
對(duì)于五位碼長(zhǎng)法和六位碼長(zhǎng)法，碼元取碼規(guī)則還可采用常用的四角號(hào)碼方法，具體見(jiàn)下表
本發(fā)明的漢字編碼方法具有規(guī)律性強(qiáng)的優(yōu)點(diǎn)，特別是采用了具有規(guī)律性的筆畫(huà)及其筆畫(huà)組合作為形碼，因此對(duì)于熟練掌握漢語(yǔ)拼音、一般掌握漢語(yǔ)拼音和完全不懂漢語(yǔ)拼音的人，都可以選擇不同的編碼方法進(jìn)行編碼，都能做到易記易學(xué)，漢字拆分十分簡(jiǎn)單，重碼率低和漢字輸入速度快。
權(quán)利要求
1.一種漢字拆分和編碼方法，其特征是通過(guò)選擇漢字中的子漢字對(duì)漢字拆分，然后采用聲碼、韻碼和形碼中的各種碼或部分碼對(duì)漢字或者漢字拆分后的子部進(jìn)行編碼以及對(duì)詞組進(jìn)行編碼。
2.按照權(quán)利要求1所述的漢字拆分和編碼方法，其特征是在二分體系中，通過(guò)選擇漢字的字首部分或者字尾部分的子漢字對(duì)漢字拆分，并按漢字是否可拆分，將漢字分為單部字和雙部字，再采用聲碼、韻碼和形碼中的各種碼或部分碼對(duì)漢字或漢字拆分后的子部進(jìn)行編碼以及對(duì)詞組進(jìn)行編碼。
3.按照權(quán)利要求1所述的漢字拆分和編碼方法，其特征是在三分體系中，采用下列步驟對(duì)漢字拆分，(1)通過(guò)選擇漢字的字首部分或者字尾部分的子漢字對(duì)漢字拆分，拆分后的子部可以按照其中的子漢字繼續(xù)拆分，(2)如果漢字的字首部分或字尾部分沒(méi)有子漢字，則可通過(guò)選擇漢字中間部分的子漢字對(duì)漢字拆分，根據(jù)漢字拆分結(jié)果，將漢字分為單部字、雙部字和三部字，然后采用聲碼、韻碼和形碼中的各種碼或部分碼對(duì)漢字或漢字拆分后的子部進(jìn)行編碼以及對(duì)詞組進(jìn)行編碼。
4.按照權(quán)利要求1所述的漢字拆分和編碼方法，其特征是在四分體系中，采用下列步驟對(duì)漢字拆分，(1)通過(guò)選擇漢字的字首部分或者字尾部分的子漢字對(duì)漢字拆分，拆分后的子部可以按照其中的子漢字繼續(xù)拆分，(2)如果漢字的字首部分或字尾部分沒(méi)有子漢字，則可通過(guò)選擇漢字中間部分的子漢字對(duì)漢字拆分，根據(jù)漢字拆分結(jié)果，將漢字分為單部字、雙部字、三部字和四部字，然后采用聲碼、韻碼和形碼中的各種碼或部分碼對(duì)漢字或漢字拆分后的子部進(jìn)行編碼以及對(duì)詞組進(jìn)行編碼。
5.按照權(quán)利要求2或3或4所述的漢字拆分和編碼方法，其特征是漢字本身有聲碼、韻碼和形碼，子漢字子部只有聲碼和形碼，非子漢字子部只有形碼，漢字本身最多可有五個(gè)形碼，子漢字和非子漢字子部只有一個(gè)形碼，聲碼和韻碼分別取漢字或子漢字拼音的聲母和韻母的首字母或者按雙拼法取碼。
6.按照權(quán)利要求5所述的漢字拆分和編碼方法，其特征是在二分體系中，漢字編碼方法有全形碼法和聲0韻0聲1[形1]聲2[形2]法，全形碼法有四位碼長(zhǎng)法、五位碼長(zhǎng)法和六位碼長(zhǎng)法，而聲0韻0聲1[形1]聲2[形2]法只有四位碼長(zhǎng)法。
7.按照權(quán)利要求5所述的漢字拆分和編碼方法，在三分體系中，漢字編碼方法有全形碼法和聲0聲1[形1]聲2[形2]聲3[形3]法，全形碼法有四位碼長(zhǎng)法、五位碼長(zhǎng)法和六位碼長(zhǎng)法，而聲0聲1[形1]聲2[形2]聲3[形3]法只有四位碼長(zhǎng)法。
8.按照權(quán)利要求5所述的漢字拆分和編碼方法，在四分體系中，漢字編碼方法有全形碼法和聲1[形1]聲2[形2]聲3[形3]聲4[形4]法，全形碼法有四位碼長(zhǎng)法、五位碼長(zhǎng)法和六位碼長(zhǎng)法，聲1[形1]聲2[形2]聲3[形3]聲4[形4]法只有四位碼長(zhǎng)法。
9.按照權(quán)利要求6或7或8所述的漢字拆分和編碼方法，其特征是在五位碼長(zhǎng)法和六位碼長(zhǎng)法中，選擇10個(gè)數(shù)字0-9或10個(gè)英文字母作為碼元，它們分別與不同筆畫(huà)及其組合相對(duì)應(yīng)，即分別對(duì)應(yīng)于橫、豎、撇、點(diǎn)、折、叉、串、撇、點(diǎn)和方塊及其組合筆畫(huà)等，碼元還可采用四角號(hào)碼方法取碼。
10.按照權(quán)利要求6或7或8所述的漢字拆分和編碼方法，其特征是在四位碼法中，選擇26個(gè)英文字母作為碼元，它們分別與不同的筆畫(huà)及其組合相對(duì)應(yīng)，即分別對(duì)應(yīng)于橫、豎、撇、點(diǎn)、折、叉、串、八和方塊及其組合筆畫(huà)等。
全文摘要
漢字的一種拆分和編碼方法,其特點(diǎn)是通過(guò)選擇漢字中的子漢字對(duì)漢字拆分,然后采用聲碼、韻碼和形碼(英文字母或數(shù)字)中的各種碼或部分碼對(duì)漢字或漢字拆分后的子部進(jìn)行編碼。可采用二分體系、三分體系和四分體系中的任何一種方法對(duì)所有漢字和詞組進(jìn)行編碼。對(duì)熟練掌握漢語(yǔ)拼音、一般掌握漢語(yǔ)拼音和完全不懂漢語(yǔ)拼音的人,都能做到漢字拆分容易、編碼方法簡(jiǎn)單、易記易學(xué)、重碼率低,可實(shí)現(xiàn)漢字的高速度輸入。
文檔編號(hào)G06F3/023GK1199887SQ9711065
公開(kāi)日1998年11月25日申請(qǐng)日期1997年5月18日優(yōu)先權(quán)日1997年5月18日
發(fā)明者邱勵(lì)楠, 邱行中申請(qǐng)人:邱勵(lì)楠

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邱勵(lì)楠;邱行中
技術(shù)所有人：邱勵(lì)楠
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢字的編碼方法相關(guān)技術(shù)

漢字編碼方法相關(guān)技術(shù)

漢字輸入編碼方法相關(guān)技術(shù)

漢字拆分相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

漢字拆分和編碼方法