两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

漢字?jǐn)?shù)碼的制作方法

文檔序號(hào):6330409閱讀:767來源:國(guó)知局
專利名稱:漢字?jǐn)?shù)碼的制作方法
技術(shù)領(lǐng)域
本發(fā)明是一種漢字及詞語(yǔ)的編碼方法,屬于漢字信息處理技術(shù)領(lǐng)域。
現(xiàn)有的漢字編碼對(duì)漢字的分解有三種方法一、將漢字分解為筆畫;二、將漢字分解為部件;三、將漢字分解為筆畫和為數(shù)不多的部件。
方法一的制約因素是漢字平均筆畫數(shù)較多和各種筆畫分布極不均勻;方法二的制約因素是漢字部件種類較多、漢字構(gòu)成部件較少及部件轉(zhuǎn)化為符號(hào)困難;方法三雖然較前兩種方法優(yōu)越,但仍未擺脫上述因素的制約,同樣存在編碼規(guī)則不規(guī)范、隨意性強(qiáng)、記憶點(diǎn)多等缺陷。
本專利發(fā)明人通過研究漢字的結(jié)構(gòu)規(guī)律,發(fā)現(xiàn)了漢字字母。這一漢字字母集具有以下特性一、字母集能拼出大漢字集的全部漢字;二、字母集只需很少的記憶量;三、字母集有利于識(shí)字教育;四、字母集為優(yōu)化漢字編碼提供了條件。
在此基礎(chǔ)上,本專利發(fā)明人發(fā)明了將漢字字母轉(zhuǎn)化為數(shù)碼的方法,從而構(gòu)建成了漢字字母符號(hào)系統(tǒng)。這一字母符號(hào)集具有以下特性一、符號(hào)集只用十個(gè)數(shù)字就能表示出全部漢字字母;二、符號(hào)集利用數(shù)字的有序性實(shí)現(xiàn)了字母的有序性。
上述發(fā)明雖然實(shí)現(xiàn)了漢字的字母化和數(shù)字化,但仍存在以下兩個(gè)問題一、漢字分解為字母不具有唯一性;二、漢字的字母及數(shù)碼序列長(zhǎng)度分布極不均勻,短至一位,長(zhǎng)至一二十位。
為解決上述問題,本專利發(fā)明人將字母的固定組合定義為字塊,提出了字塊筆畫構(gòu)成字母的方法,從而保證了漢字分解為字母的唯一性。根據(jù)構(gòu)成漢字的字塊數(shù)目,將漢字分為獨(dú)體字和合體字,再將合體字分為字首和字身,并從中提取出能代表漢字主要特征的數(shù)碼,從而將漢字?jǐn)?shù)碼及二三字詞組控制在六位數(shù)字以內(nèi),并保證了重碼率不因數(shù)碼的縮短而明顯地上升。
本專利發(fā)明人還提出了加碼和減碼方法,徹底解決了漢字編碼的重碼問題,并實(shí)現(xiàn)了漢字和詞語(yǔ)混合編碼不重碼。
經(jīng)過對(duì)國(guó)家標(biāo)準(zhǔn)《信息交換用漢字編碼字符集基本集》(GB2312-80)6763個(gè)漢字、《漢字鍵盤輸入通用詞語(yǔ)集》(GB/T 15732-1995)43540個(gè)詞語(yǔ)、《信息處理用現(xiàn)代漢語(yǔ)常用詞表》36410個(gè)詞語(yǔ)以及《現(xiàn)代漢語(yǔ)詞典》中大部分詞語(yǔ)的不重碼編碼統(tǒng)計(jì),編碼數(shù)字在漢字及詞語(yǔ)數(shù)碼首位和其他各位的分布是比較均勻的,最長(zhǎng)數(shù)碼不超過八位,其中有近98%的漢字及詞語(yǔ)數(shù)碼長(zhǎng)度不超過六位(與上述漢字及詞語(yǔ)集相應(yīng)的英語(yǔ)詞語(yǔ),不超過六個(gè)字母的不到30%左右,最長(zhǎng)的達(dá)十幾個(gè))。因此本漢字編碼在各種漢字編碼方案中居于領(lǐng)先水平。
本漢字?jǐn)?shù)碼方案具體說明如下本方案的基本思路是詞語(yǔ)由漢字組成,漢字由字塊組成,字塊由字母組成,字母由筆畫組成。從筆畫的形狀位置特征入手,通過一種簡(jiǎn)單的形數(shù)轉(zhuǎn)換方法,將字母轉(zhuǎn)換成字母數(shù)碼,再由字母數(shù)碼組合成漢字?jǐn)?shù)碼和詞語(yǔ)數(shù)碼。
本方案提出了漢字分解與組合的方法、字母轉(zhuǎn)換為數(shù)碼的方法和漢字及詞語(yǔ)與數(shù)碼相互轉(zhuǎn)換的方法。
一、漢字字母漢字字母主要由一個(gè)筆畫或兩個(gè)筆畫構(gòu)成,如字母“丶、匚、刂、亻、勹、廴、冫、讠”。首尾連接的筆畫整體構(gòu)成字母,其筆畫數(shù)不受限制,如字母“人、幾、弓、已、尸、凸、凹”。
(一)筆畫構(gòu)成漢字字母的筆畫有橫筆(一)、豎筆(丨)、撇筆(丿)、捺筆()、點(diǎn)筆(丶)、提筆( )和折筆(乙 ㄋ……)。
(二)筆形指筆畫的形狀。
1、筆形筆畫按方向歸類為橫、豎、撇、捺四種筆形,按長(zhǎng)短分為長(zhǎng)筆形和短筆形。
(1)橫筆形較長(zhǎng)的橫筆是長(zhǎng)橫,較短的橫筆和提筆是短橫。
(2)豎筆形較長(zhǎng)的豎筆是長(zhǎng)豎,較短的豎筆是短豎。
(3)撇筆形較長(zhǎng)的撇筆是長(zhǎng)撇,較短的撇筆是短撇。
(4)捺筆形較長(zhǎng)的捺筆是長(zhǎng)捺,較短的捺筆和點(diǎn)筆是短捺。
鉤筆是橫、豎、撇、捺四種筆畫的附加筆形。橫筆附加鉤筆構(gòu)成橫鉤( ),定義為短橫;豎筆附加鉤筆構(gòu)成豎鉤(),定義為短豎;撇筆附加鉤筆構(gòu)成撇鉤( ),定義為短撇;捺筆附加鉤筆構(gòu)成捺鉤( ),定義為短捺。折筆不是筆形,它是由上述筆形組合成的,如“乙”是由橫筆、捺筆和鉤筆構(gòu)成。
2、特殊筆形由若干筆畫構(gòu)成的形如“又、口、尸、巳、凸、凹”的封口圖形,定義為口筆形。橫長(zhǎng)豎短的口筆形是長(zhǎng)口,如漢字“昌、色、戶、每、貫”中的口筆形;橫短豎長(zhǎng)的囗筆形是短口,如漢字“梅、如、辟、抱”中的口筆形,“又”定義為短口。
3、筆形數(shù)用數(shù)字來表示上述各種筆形,即0表示短橫,1表示短豎,2表示短撇,3表示短捺,4表示長(zhǎng)橫,5表示長(zhǎng)豎,6表示長(zhǎng)撇,7表示長(zhǎng)捺,8表示短口,9表示長(zhǎng)口。
(三)筆位指連續(xù)書寫的兩個(gè)筆形之間的位置關(guān)系。
1、筆位種類(1)單筆指單獨(dú)的筆形,如一、丿。
(2)相接指筆形與筆形之間在其端點(diǎn)處連接在一起,如廠、乙。
(3)相離指筆形與筆形之間存在著間隔,如二、八。
(4)相連指一筆形端點(diǎn)與另一筆形中部連接在一起,如卜、亠。
(5)相交指筆形與筆形之間在其中部交叉,如十。
2、筆位數(shù)用數(shù)字來表示上述各種筆位,即0表示單筆,1表示相接,2表示相離,3表示相連,4表示相交。
(四)字母數(shù)碼規(guī)則1、筆畫、相接筆畫、兩筆筆形筆畫構(gòu)成的字母數(shù)碼是字母筆形數(shù)與字母筆位數(shù)之和。其中字母筆形數(shù)是取字母最后一個(gè)筆形的筆形數(shù)。除口筆形外,其它字母數(shù)碼都需轉(zhuǎn)化為八進(jìn)制數(shù)字0~7。例如橫筆(一)數(shù)碼4=筆形數(shù)4(長(zhǎng)橫)+筆位數(shù)0(單筆)口筆(凹)數(shù)碼9=筆形數(shù)9(長(zhǎng)口)+筆位數(shù)0(單筆)折筆(乙)數(shù)碼4=筆形數(shù)3(短捺)+筆位數(shù)1(相接)字母(弓)數(shù)碼2=筆形數(shù)1(短豎)+筆位數(shù)1(相接)字母(二)數(shù)碼6=筆形數(shù)4(長(zhǎng)橫)+筆位數(shù)2(相離)字母(八)數(shù)碼1=筆形數(shù)7(長(zhǎng)捺)+筆位數(shù)2(相離)字母(亻)數(shù)碼0=筆形數(shù)5(長(zhǎng)豎)+筆位數(shù)3(相連)字母(亠)數(shù)碼7=筆形數(shù)4(長(zhǎng)橫)+筆位數(shù)3(相連)字母(十)數(shù)碼1=筆形數(shù)5(長(zhǎng)豎)+筆位數(shù)4(相交)2、含折筆的不相接筆畫構(gòu)成的字母數(shù)碼是字母的首筆筆畫數(shù)碼。例如字母(兒)數(shù)碼6=首筆畫數(shù)碼是6(長(zhǎng)撇)字母(讠)數(shù)碼3=首筆畫數(shù)碼是3(短捺)字母(刂)數(shù)碼1=首筆畫數(shù)碼是1(短豎)字母(力)數(shù)碼2=首筆畫數(shù)碼是2(短豎折)字母(廴)數(shù)碼7=首筆畫數(shù)碼是7(長(zhǎng)撇折)二、漢字字塊(一)字塊構(gòu)成1、由單獨(dú)的筆畫(單獨(dú)的短筆形除外)構(gòu)成。例如漢字“云”中的單獨(dú)橫筆[一]是字塊漢字“億”中的單獨(dú)折筆[乙]是字塊漢字“紅”中的單獨(dú)提筆[ ]是字塊
2、由不分離筆畫構(gòu)成(含單獨(dú)的短筆形)。例如漢字“傅”中的[亻][甫][寸]分別是字塊漢字“跡”中的[亦][辶]分別是字塊漢字“摑”中的[扌][口][玉]分別是字塊3、由上下分離或左右分離的筆畫構(gòu)成。例如漢字“江”中的上下分離筆畫[氵]是字塊漢字“熱”中的左右分離筆畫[灬]是字塊漢字“圳”中的左右分離筆畫[川]是字塊(二)字塊分解首先將相接筆畫組合成字母,再將連續(xù)書寫的兩個(gè)筆畫組合成字母,余下的筆畫單獨(dú)成為字母,最后按筆順關(guān)系排列成字母序列。例如字塊[白]只能分解為字母(丿)(口)(一)字塊[主]只能分解為字母(亠)(十)(一)字塊[早]只能分解為字母(口)(一)(十)(三)字塊數(shù)碼將上述字母序列中的字母代換成字母數(shù)碼,就構(gòu)成字塊數(shù)碼。例如字塊[白]的數(shù)碼是694,其中(丿)→6(口)→9(一)→4字塊[主]的數(shù)碼是314,其中(亠)→3(十)→1(一)→4字塊[早]的數(shù)碼是901,其中(口)→9(一)→0(十)→1三、漢字?jǐn)?shù)碼漢字分為獨(dú)體字和合體字。獨(dú)體字由一個(gè)字塊構(gòu)成,合體字由字首和字身構(gòu)成。
(一)合體字構(gòu)成合體字是左右結(jié)構(gòu)的,左部是字首,右部是字身;是上下結(jié)構(gòu)的,上部是字首,右部是字身;是包圍結(jié)構(gòu)的,包圍部分是字首,被包圍部分是字身。例如“途”(包圍結(jié)構(gòu))的字首是‘辶’,字身是‘余’“恩”(上下結(jié)構(gòu))的字首是‘因’,字身是‘心’
“鋼”(左右結(jié)構(gòu))的字首是‘钅’,字身是‘岡’(二)字首數(shù)碼字首是單個(gè)字塊的,取其前兩位數(shù)碼;是多個(gè)字塊的,取前兩個(gè)字塊的首位數(shù)碼;是繁體的,取第一個(gè)字塊的首位數(shù)碼前加9。例如字首‘阝’數(shù)碼6=[阝]前兩位數(shù)碼6字首‘革’數(shù)碼01=[革]前兩位數(shù)碼01字首‘钅’數(shù)碼76=[]首位數(shù)碼7+[ ]首位數(shù)碼6字首‘多’數(shù)碼94=9+[ ]首位數(shù)碼4(三)字身數(shù)碼取前面字塊的首位數(shù)碼和最后字塊的全部數(shù)碼。例如字身‘兼’數(shù)碼401107=[兼]全部數(shù)碼401107字身‘覃’數(shù)碼4901=[西]首位數(shù)碼4+[早]全部數(shù)碼901字身‘感’數(shù)碼74935=[戊]首位數(shù)碼7+[一]首位數(shù)碼4+[口]首位 數(shù)碼9+[心]全部數(shù)碼35(四)漢字?jǐn)?shù)碼獨(dú)體字?jǐn)?shù)碼取其前六位字塊數(shù)碼;合體字?jǐn)?shù)碼取前兩位字首數(shù)碼和前四位字身數(shù)碼。例如差→42200搬→42208(扌→42般→208)遇→902330(辶→30禺→9023)墜→6014(隊(duì)→60土→14)(五)組詞數(shù)碼1、組詞數(shù)碼構(gòu)成獨(dú)體字組詞數(shù)碼取獨(dú)體字?jǐn)?shù)碼的前三位,合體字組詞數(shù)碼取字首首位數(shù)碼和字身前兩位數(shù)碼。例如“來”的組詞數(shù)碼575=‘來’前三位數(shù)碼575“搞”的組詞數(shù)碼479=‘扌’首位數(shù)碼4+‘高’前兩位數(shù)碼79“海”的組詞數(shù)碼578=‘氵’首位數(shù)碼5+‘每’前兩位數(shù)碼782、組詞數(shù)碼補(bǔ)碼組詞數(shù)碼不足三位時(shí),構(gòu)詞漢字末筆形是長(zhǎng)筆形的,用數(shù)字8補(bǔ)足;是短筆形的,用數(shù)字9補(bǔ)足。例如“力”的組詞數(shù)碼288=‘力’數(shù)碼2+補(bǔ)碼88(末筆形是長(zhǎng)撇)“加”的組詞數(shù)碼289=‘力’數(shù)碼2+‘口’數(shù)碼8+補(bǔ)碼9(六)詞語(yǔ)數(shù)碼二字詞語(yǔ)數(shù)碼取每個(gè)字的全部組詞數(shù)碼;三字、四字詞語(yǔ)數(shù)碼取每個(gè)字的前兩位組詞數(shù)碼;四字以上詞語(yǔ)數(shù)碼取每個(gè)字的第一位組詞數(shù)碼并在前面加上數(shù)字8。例如安全→344027(安→344全→027)地方→123728(地→123方→728)電視機(jī)→943614(電→943視→366機(jī)→149)高瞻遠(yuǎn)矚→79824189(高→792瞻→827遠(yuǎn)→413矚→896)更上一層樓→843491數(shù)風(fēng)流人物還看今朝→8445071205(七)加減數(shù)碼1、加碼規(guī)則漢字、詞語(yǔ)的末筆形是長(zhǎng)筆形的,可在數(shù)碼后面加8;是短筆形的,可在數(shù)碼后面加9。例如人(末筆形是長(zhǎng)捺)數(shù)碼2→28刊(末筆形是短豎)數(shù)碼651→651999機(jī)工(末筆形是長(zhǎng)橫) 數(shù)碼149048→149048882、減碼規(guī)則只取漢字、詞語(yǔ)數(shù)碼的前面部分。例如地?cái)?shù)碼1023→1很數(shù)碼05907→059漢字 數(shù)碼588324→588大多數(shù)數(shù)碼272242→2722科學(xué)技術(shù) 數(shù)碼65524110→6552權(quán)利要求
1.本發(fā)明提出了一種將漢字?jǐn)?shù)字化的方法。其特征是將漢字分解為字塊,將字塊分解為字母,并用數(shù)字來表示字母的筆畫形狀位置特征,從而將漢字字母轉(zhuǎn)換為字母數(shù)碼,再由字母數(shù)碼組成漢字?jǐn)?shù)碼或詞語(yǔ)數(shù)碼,還可以采用加碼和減碼的方法使?jié)h字?jǐn)?shù)碼和詞語(yǔ)數(shù)碼都不重碼。
2.如權(quán)利要求1所述的漢字字塊,其特征是由單獨(dú)的筆畫、左右分離或上下分離的筆畫以及不分離的筆畫構(gòu)成。
3.如權(quán)利要求1所述的漢字字母,其特征是由一個(gè)筆畫、兩個(gè)筆畫和相接的多個(gè)筆畫構(gòu)成。
4.如權(quán)利要求1所述的漢字筆畫形狀,其特征是將漢字筆畫根據(jù)其方向和長(zhǎng)短分為短橫、短豎、短撇、短捺、長(zhǎng)橫、長(zhǎng)豎、長(zhǎng)撇、長(zhǎng)捺,定義相接筆畫封口為短口、長(zhǎng)口,分別用數(shù)字0~9來表示,并稱這些數(shù)字為筆形數(shù)。
5.如權(quán)利要求1所述的漢字筆形位置,其特征是將漢字筆形根據(jù)其相互關(guān)系分為單筆形、相接、相離、相連、相交,分別用數(shù)字0~4來表示,并稱這些數(shù)字為筆位數(shù)。
6.如權(quán)利要求1所述的將漢字字母轉(zhuǎn)換為漢字?jǐn)?shù)碼的方法,其特征是由權(quán)利要求4所述的筆形數(shù)與權(quán)利要求5所述的筆位數(shù)相加得到。
7.如權(quán)利要求1所述的字母數(shù)碼組成漢字?jǐn)?shù)碼的方法,其特征是將漢字分為獨(dú)體字和合體字,合體字又分為字首和字身。獨(dú)體字取其字塊的前六位數(shù)碼構(gòu)成漢字?jǐn)?shù)碼,合體字取前兩位字首數(shù)碼和前四位字身數(shù)碼構(gòu)成漢字?jǐn)?shù)碼。
8.如權(quán)利要求1所述的字母數(shù)碼組成詞語(yǔ)數(shù)碼的方法,其特征是從構(gòu)成詞語(yǔ)的漢字中提取三位組詞數(shù)碼,再提取各漢字的所有組詞數(shù)碼構(gòu)成兩字詞語(yǔ)數(shù)碼,提取各漢字的前兩位組詞數(shù)碼構(gòu)成三字或四字詞語(yǔ)數(shù)碼,由數(shù)字8和各漢字的前一位組詞數(shù)碼構(gòu)成四字以上詞語(yǔ)數(shù)碼。
9.如權(quán)利要求1所述的漢字?jǐn)?shù)碼或詞語(yǔ)數(shù)碼的加碼減碼方法,其特征是可以只取漢字?jǐn)?shù)碼或詞語(yǔ)數(shù)碼的前幾位或可以視其末筆形的長(zhǎng)短,在其數(shù)碼后面增加數(shù)字8或數(shù)字9。
全文摘要
本發(fā)明公開了一種用數(shù)字作為符號(hào)來表示漢字的方法,屬于漢字信息處理領(lǐng)域,其特征是將漢字分解為字母,并根據(jù)漢字字母的筆畫形狀位置特征,將漢字字母轉(zhuǎn)換成字母數(shù)碼,再由字母數(shù)碼按一定規(guī)則組合成漢字?jǐn)?shù)碼。該方法具有編碼規(guī)則規(guī)范、記憶量小、簡(jiǎn)單易學(xué)等特點(diǎn),可用于漢字檢索、漢字輸入、漢字?jǐn)?shù)碼操作和漢字?jǐn)?shù)碼控制等方面。
文檔編號(hào)G06F3/023GK1313546SQ01107250
公開日2001年9月19日 申請(qǐng)日期2001年3月15日 優(yōu)先權(quán)日2001年3月15日
發(fā)明者鐘林 申請(qǐng)人:鐘林
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
商丘市| 如东县| 黎川县| 军事| 临江市| 马龙县| 桐柏县| 来安县| 广安市| 平顺县| 团风县| 华宁县| 寿光市| 修文县| 桐城市| 浦北县| 蓝田县| 徐州市| 安龙县| 东明县| 隆回县| 绥滨县| 公主岭市| 鄯善县| 大厂| 武胜县| 深圳市| 伊春市| 安西县| 六盘水市| 尚志市| 武山县| 贡嘎县| 四会市| 枣强县| 玉溪市| 天水市| 山丹县| 太保市| 桂东县| 哈尔滨市|