两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

電子計算機中文信息詞識別碼處理技術的制作方法

文檔序號:6342882閱讀:261來源:國知局
專利名稱:電子計算機中文信息詞識別碼處理技術的制作方法
技術領域
本發(fā)明涉及電子計算機中文信息處理技術。
背景技術
中文信息處理按語言化程度分為三個層次(1)機內碼字處理層;(2)中間文字處理層;(3)拼音文字詞處理層。
中文信息字處理技術已較成熟。國標一二級漢字的機內碼,共包含6763個漢字,其中,有一級漢字含漢語拼音音序,但不完善,因為機內碼是一字一音,多音字無法包容,也就無法處理。
中間文字也對著一二級國標漢字,但它包含帶調的全部音節(jié),和多音字在內的7585個漢字。因此,它可以綜合處理漢語的語音和漢字信息。該處理層技術1993年已獲國家發(fā)明專利權(專利號90105411.9)。
第90105411.9號專利用字母(ASCII碼)表達了漢語語音和漢字,而國標一二級機內碼是用圖形符號(擴展ASCII碼)表達漢字。這樣,圖形符號只能作字符串用,不能幫助編寫程序,特別是靠近CPU的匯編語言編程。匯編語言程序在運行速度,存儲空間,處理精確度,以及安全可靠性等,都居其他語言的絕對優(yōu)勢。但是,匯編語言標識符只能用字母數(shù)字,而且不能超過8個字節(jié)。上述發(fā)明專利的音圖拼法,就有效地解決了這個問題。
但是,所述發(fā)明專利對中文信息詞處理的深度是有限的。因為它用PPA公式描述的漢語,本身仍是字為單位,音圖拼法也沒有脫離漢語拼音的音節(jié)標調。另外,PPA詞的表達,也是用空格作詞界。而漢字文本中的空格還有許多用,不可能是詞的唯一分界。這樣,它顯然存在兩個缺陷(一)詞的保存(包括存磁盤和存緩沖區(qū))解決不了,因而無法進一步分析詞性,詞義,并進到中文語意理解,及其他語言智能(如翻譯機)等。
(二)詞的輸出(漢語拼音)解決困難,因而關鍵詞,主題詞等索引制作不能自動實現(xiàn)。
現(xiàn)有技術中,電子計算機的詞處理技術仍停留在漢字文本分詞和查詞性方面。問題出在漢字表述的詞,機器不能識別,無法自動處理。
電子計算機對漢語詞處理技術,有著極重要的用途一是制作書本式檢索工具;二是制作計算機智能軟件。

發(fā)明內容
本發(fā)明要解決的技術問題是,針對現(xiàn)有技術存在的缺陷,提出一種電子計算機中文信息詞識別碼處理技術,應用它能使電子計算機對中文信息處理既保持高效率,又能實現(xiàn)高智能化,還可用于標引文獻主題詞而使中文資訊利用率大幅度提高。
本發(fā)明的技術解決方案是,所述電子計算機中文信息詞識別碼處理技術是在采用通用漢語拼音表達漢語詞的基礎上,按如下方法賦予單詞尾聲調識別碼(1)建立以下行、列結構的單詞尾聲調識別碼表
b p m fd t k lj q h xz c s r(2)將上述識別碼表中的行(即從左至右的行)、列(即從上至下的列)信息轉換為單詞的聲調信息,其中一、二、三、四行字符分別表示單詞第一音節(jié)的一、二、三、四聲,一、二、三、四列字符分別表示單詞第二音節(jié)的一、二、三、四聲;(3)按上述信息轉換規(guī)則確定而位于相關行、列交點位置的字符即為該單詞的聲調識別碼。
以下對本發(fā)明做出進一步說明。
本發(fā)明技術中1.將識別碼表的行列信息轉換成單詞的聲調信息。一二三四行表示單詞第一音節(jié)的一二三四聲;一二三四列表示單詞第二音節(jié)的一二三四聲。例如,c-42 ketangc(課堂),f-14 zhidaof(知道),j-31 shoujij(手機),t-22 tongxuet(同學)。
只有一個音節(jié)的單詞,相當于第二音節(jié)為○,列的信息為○,所以只標行首字母b-d-j-z分別表示一二三四聲。例如,b-1 jib(雞)d-2 niand(年)j-3 woj(我)z-4 huaz(畫)。
2.輔音識別碼不含韻母音素(n,g),任何時候都不與前面音節(jié)混淆,因此,識別碼可標識國標正詞法中的任何詞,包括三字詞四字詞及成語熟語等。例如,gonghecguod(共和國),shehuirzhuyix(社會主義),qixiangrxued(氣象學),qixiangrwanqianz(氣象萬千),tongxinzjishouk(痛心疾首),aizbuzshizshouj(愛不釋手)。
3.外國名詞一般不標識別碼;漢語實詞中的兒化,子化,助詞及其他虛詞成份不計入識別碼,確保單詞識別碼所具有的詞匯意義。例如,gesidalijia(哥斯達黎加),hemusi(霍姆斯);zhezer(這兒),duzzi(肚子),paojle(跑了),nadzhe(拿著)wojmen(我們),shendme(什么)。
本發(fā)明為中文信息處理的拼音文字詞處理層,它是基于“漢語句子分析和漢語語意理解”需要而提出的方法技術,也是發(fā)明人前述發(fā)明專利的接續(xù)成果。當發(fā)明人將“分詞”,“抽詞”,“(自然語言)檢索”等技術總成,解決″漢語句子分析″及″漢語語意理解″的時候,發(fā)現(xiàn)漢語詞的表達和存儲等問題難以解決,因此提出本發(fā)明的技術。
中國沒有字母文字,只有方塊漢字。而漢字機內碼為兩個字節(jié),且每個字節(jié)的8個bit位高位都置1,本來高位是作校驗位(奇偶,正負等)的,漢字占用后,就無法由計算機識別和處理;機內碼兩個字節(jié)的值和值域也不一樣,第一字節(jié)176-247,第二字節(jié)161-254,也就無法按字節(jié)比較處理及排序等,因而發(fā)明用字母描述漢語語音和漢字的前述專利<電子計算機漢語>,將它作為中間文字,與國標機內碼相互轉換,處理時轉換成字母文字,輸出時轉換成漢字。
中國沒有拼音文字,只有漢語拼音。漢語拼音聲韻相拼的400個音節(jié),跟6763個漢字相比,一個音節(jié)包含了1-20個漢字,拼音和漢字不具備一一對應的關系,也就無自動轉換能力。音節(jié)標聲調也只1200多個,一個帶調的音節(jié)仍包含5-6個漢字,二者之間也不能自動轉換。發(fā)明就是用字母給單詞標調,傳統(tǒng)是為音節(jié)標調,這是一種創(chuàng)新意識。采用聲母給單詞標調,是利用了聲母與韻母互補的關系聲母總是在前,韻母總在后;如果韻母后有兩個聲母呢?顯然不能相拼,這樣就提供人和機器識別單詞尾的那個聲母既是單詞的分界,又是這個單詞的聲調碼。
另一個重要思想是漢語的詞總可以分成雙音節(jié)詞和單音節(jié)詞。由單音節(jié)和雙音節(jié)詞構成三音節(jié),四音節(jié)及更多音節(jié)的詞。發(fā)明者對尹斌庸約20萬字的<漢語拼寫詞典>進行實驗,這一思想是肯定的,因而單詞尾標聲調識別碼,可以解決所有詞標調的問題。
上一思想的引伸,又提供尋找漢語基本詞匯的方法。機器可由有限的基本詞匯,生成漢語全部詞匯,那么基本詞匯對應漢字的表也是有限的存儲空間,進而解決詞的存儲問題。
以上的思考路線,落實在聲調識別碼的設計。如何獲得雙音節(jié)詞4×4=16個不同聲調組配的字母?這是一種巧合,使得本發(fā)明的聲調識別碼具有唯一性和規(guī)律性。我們看<漢語拼音方案>聲母表的構成b p m fd t n l
g k hj q xzh ch sh rz c s表面上看,聲母有21個,實際上zh ch sh中的″h″已作了聲母,那么不同符號的聲母只有18個b p m fd t n lg k hj q xz c s r然而,聲母g和n又可以構成韻母,因此,這兩個字母必需刪去,否則,打破聲母與韻母的互補關系,喪失聲調識別碼的功能。舍去g,聲母表就少了一行,剩下的k,h,k取換n位置,h插入jq與x之間,從而生成bpmf dtkl jqhx zcsr16個聲調識別碼。
本發(fā)明技術結合前述發(fā)明專利技術,可自動產生句子的詞識別碼存儲方式,如句子“馬強是我的專利代理人”的詞識別碼存儲方式為maqiangqshizwodejzhuanlifdailisrend。
(詞識別碼) q zj f s d句子成分詞識別碼的存儲方式,則要用第一發(fā)明的分詞,抽詞和檢索三個技術,方能找出語界詞(主要是動詞,副詞和其他虛詞),并自動分析產生相應成分(主謂賓動狀補)的詞識別碼存儲方式。
但不管哪種存儲方式,詞識別碼中的音節(jié)與漢字字段中的字,都是一一對應的,因此,詞識別碼的每個詞都能得到漢字輸出;每個漢字詞又都能輸出漢語拼音;如果是關鍵詞或主題詞,通過機器自動排序,又可使?jié)h語拼音詞與漢字詞一一對應,免去現(xiàn)在拼音檢索以音節(jié)為單位,同音節(jié)相同的漢字要一個個手工移動。
由以上可知,本發(fā)明為一種電子計算機中文信息詞識別碼處理技術,它具有完整的漢語音素拼音和完整的音節(jié)(ü用yu)以及完整的單詞;本發(fā)明的作用和技術特點有1.與第90105411.9號專利<電子計算機漢語>(PPA)接軌。用PPA公式描述的電子計算機漢語,與漢字和漢語語音都一一對應,機器處理中文信息時,將漢字文本轉成PPA,處理完后,再按漢字輸出,因而使中文信息處理的效率達到最高。但是PPA沒有詞的表述,無法將中文信息處理高智能化。因此,PPA跟本發(fā)明相結合,將使中文信息處理既保持高效率,又能進到高智能化。
2.提高中文資訊利用率。
目前中文資料很少制作索引,無論關鍵詞,主題詞都是用400個拼音音節(jié)排序,主要靠手工將相應的漢字詞集中,所以除了大詞典辭書外,一般資料很少建主題詞或關鍵詞索引。如果用“漢語拼音詞+聲調識別碼”標引文獻的主題詞或關鍵詞,將有數(shù)百萬拼音詞與不到十萬的漢字詞相對應,機器一次排序,即可將相應的漢字詞集中在一起,不必手工移動,大大提高了索引制作效率,也就大大提高中文資訊利用率了。
(1)漢語拼音詞計算400×400×16=2560000(2)漢字詞統(tǒng)計<現(xiàn)代漢語詞典>收詞6萬多一點,北京大學信息處理用<大語料庫>收詞也只7.3萬。
具體實施例方式
實施例1例如下列句子一切文化發(fā)展離不開發(fā)明與創(chuàng)造。運行前一發(fā)明開發(fā)的分詞技術(羅海清<隱性生成性小詞表分詞技術>),將產生一切文化發(fā)展離不開發(fā)明與創(chuàng)造。
再將本發(fā)明與前發(fā)明的抽詞檢索技術結合,可以找出句中的語界詞,并分析出句子成分(數(shù)字標識),全部信息通過pinyin.exe程序,用詞識別碼記錄下來1yiqiefwenhualfazhanm2lidbzkai3famingpyujchuangzaor.
1-主語 2-謂語 3-賓語由此提供詞義分析,語意理解和其他智能軟件的開發(fā)。
實施例2文獻資料自動索引編制。
在用戶提供詞表的情況下,可用前一發(fā)明自動抽詞并帶句段頁碼等編制索引,例如<環(huán)境大事典>的索引編制,機器一次性排序,可將拼音詞與相應漢字詞集合一起,由拼音詞而不是音節(jié)查入anleir-胺類343baihel-白鶴004 526baineilzhangz-白內障036 087baipitshu-白皮書338 386 544 875baiselcezhis-白色廁紙576baiselwuranm-白色污染348 349 350 560banzganhanf-半干旱053 056 063 309 713 744banzhanshengz-半旱生713baochiqshuituh-保持水土077 712 713 716baohuxhaiyangq-保護海洋031 247 249 802 812baohuxsenlinp-保護森林034baohuxshengtaif-保護生態(tài)216 358 543 591 701baohuxshuiyuanq-保護水源009在用戶用識別碼標引關鍵詞或一般詞的情況下,機器一次排序,也可產生漢語拼音查入的檢索工具.例如,對尹斌庸的書是<新華拼寫詞典>用詞識別碼描述,機器一次排序,可得到<漢語正詞表>,即將分詞,拼音,定調,辨義,查字揉合一體的檢索工具ganyuq敢于ganzouh趕走gao fangd高房gao shencaip高身材
gao shuz高樹gao weiqiangt高圍墻gao-digangf高低杠gao-xin jishur高新技術gaobfenzim huahewucwuz高分子化合物gaobmaozzi高帽子gaobxueyaz高血壓gaodaf高大gaogaobxingxingr高高興興
權利要求
1.一種電子計算機中文信息詞識別碼處理技術,其特征是,它是在采用通用漢語拼音表達漢語詞的基礎上,按如下方法賦予單詞尾聲調識別碼(1)建立以下行、列結構的單詞尾聲調識別碼表bpmfdtkljqhxzcsr(2)將上述識別碼表中的行、列信息轉換為單詞的聲調信息,其中一、二、三、四行字符分別表示單詞第一音節(jié)的一、二、三、四聲,一、二、三、四列字符分別表示單詞第二音節(jié)的一、二、三、四聲;(3)按上述信息轉換規(guī)則確定而位于相關行、列交點位置的字符即為該單詞的聲調識別碼。
全文摘要
一種電子計算機中文信息詞識別碼處理技術,它是在采用通用漢語拼音表達漢語詞的基礎上,按如下方法賦予單詞尾聲調識別碼(1)建立以下行、列結構的單詞尾聲調識別碼表bpmfdtkl jqhxzcsr(2)將上述識別碼表中的行、列信息轉換為單詞的聲調信息,其中一、二、三、四行字符分別表示單詞第一音節(jié)的一、二、三、四聲,一、二、三、四列字符分別表示單詞第二音節(jié)的一、二、三、四聲;(3)按上述信息轉換規(guī)則確定而位于相關行、列交點位置的字符即為該單詞的聲調識別碼。本發(fā)明可使中文信息處理進入高度智能化,并可標引文獻主題詞而大大提高中文資訊利用率。
文檔編號G06F17/28GK1700206SQ20041002321
公開日2005年11月23日 申請日期2004年5月19日 優(yōu)先權日2004年5月19日
發(fā)明者羅海清, 羅萬 申請人:湖南大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
无棣县| 龙游县| 义马市| 凤山县| 台安县| 东明县| 芜湖市| 金寨县| 安乡县| 醴陵市| 丽水市| 瓮安县| 漠河县| 平顺县| 拜城县| 榆社县| 昌江| 木兰县| 巴东县| 青铜峡市| 咸宁市| 湛江市| 古浪县| 大关县| 澄江县| 西城区| 个旧市| 奎屯市| 玉溪市| 南开区| 德州市| 平果县| 扶余县| 富锦市| 苏尼特左旗| 交口县| 宝兴县| 云阳县| 梅州市| 越西县| 峨山|