利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法

文檔序號：6518262閱讀：381來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)漢字錄入方法技術(shù)領(lǐng)域，具體涉及一種利用漢字全信息通過全文檢索方式獲取生僻漢字的通用檢字錄入方法。
背景技術(shù)：
中國作為世界四大文明古國之一，有著五千年悠久的文明發(fā)展史和一脈相承的文化底蘊(yùn)，而漢字，則是傳承整個(gè)中華文明的基本元素。漢字經(jīng)過數(shù)千年的發(fā)明和衍變，目前流傳下來的總數(shù)量大約7萬左右，其中常用漢字大約有三、四千。經(jīng)過多年的研究和實(shí)踐已經(jīng)比較好的解決了對常用漢字的計(jì)算機(jī)錄入問題。但是對大量的生僻漢字的錄入一直沒有較好的解決方案。這些數(shù)量龐大的生僻漢字即便對于受過高等教育的人群而言，也很少有人認(rèn)識和使用，其使用人群相當(dāng)狹窄，再加上目前計(jì)算機(jī)尚無法處理這類漢字，生僻漢字基本處于“死字”的狀態(tài)。事實(shí)上，現(xiàn)在的國際字符編碼標(biāo)準(zhǔn)Unicode已經(jīng)將約五萬個(gè)生僻漢字的編碼放到了四個(gè)字節(jié)的長字節(jié)編碼區(qū)，以解決二字節(jié)編碼碼位不足的難題，而微軟公司多年前也已在通用軟件MS Word中預(yù)先安裝了總數(shù)接近七萬漢字的超大字符集，但是這些一直沒有引起國人的注意。一個(gè)被忽略的事實(shí)是這些生僻漢字卻大量存在于中國的古代典籍中，與常用漢字一起構(gòu)成“漢字”這一中華文明的載體，其本身也是國家寶貴的文化遺產(chǎn)的組成部分。在一般的古籍中約有千分之一的漢字屬于四個(gè)字節(jié)的生僻漢字，而在諸如《說文解字》、《康熙字典》等字書類古籍中，四個(gè)字節(jié)編碼的漢字出現(xiàn)的頻率可以高達(dá)百分之三到五左右。很顯然，舍棄這些生僻字而建構(gòu)的中文知識庫絕對是不完整的。
目前，主要的漢字輸入方法無非有根據(jù)讀音輸入和根據(jù)字形輸入兩種方法，然而對生僻漢字而言，這兩種輸入方法都有一定不足。首先對于讀音輸入方法，基本上所有的生僻漢字絕大多數(shù)人都完全不認(rèn)識，在加上有很多字在歷史的演化的進(jìn)程中已經(jīng)失去了其讀音，或讀音不確定，僅僅根據(jù)讀音輸入生僻漢字是不行的。其次，利用字形對生僻漢字進(jìn)行錄入雖然不存在像讀音輸入法那樣的問題，然而目前所存在的字形輸入方法，如《五筆字型》輸入法等，往往需要使用者預(yù)先進(jìn)行長時(shí)間的學(xué)習(xí)和訓(xùn)練，這個(gè)限制條件使得字形輸入法目前在非打字員人群中不具有優(yōu)勢影響力。普通用戶，如需要大量使用生僻漢字的研究人員，是無法很快掌握這種方法的。
面對3000到1萬多的常見漢字，中國人使用了23年的輸入法已經(jīng)沒有大的突破的空間了。但是，要處理7萬漢字，以至于今后要處理的更多的漢字或字符，普通的輸入法顯露出種種缺陷和不足。面對這樣一個(gè)超級混沌的客觀存在，迫切的需要一套概念全新的輸入方法。

發(fā)明內(nèi)容
本發(fā)明針對目前在生僻漢字錄入方法上存在的不足和缺陷，針對人們普遍對生僻漢字了解信息不全的事實(shí)，針對生僻漢字錄入的難點(diǎn)和生僻漢字多系由簡單漢字組合而成的特性，提出一種利用漢字全信息，即利用每個(gè)漢字所對應(yīng)的字形、字音(如果有)、字義(如果有)、筆畫數(shù)、公用編碼(如生僻漢字一定存在的對應(yīng)的五筆編碼)等客觀特征，實(shí)現(xiàn)生僻漢字錄入的方法。由于在歷史演化的過程中，這些特征已形成了固定的標(biāo)準(zhǔn)，通過匯總這些客觀特征，再利用全文檢索的方式尋找所有和用戶輸入特征相匹配的漢字，進(jìn)而完成生僻漢字的錄入。這一方法可以滿足生僻漢字使用者特定群體研究、錄入生僻漢字的需求。
根據(jù)本發(fā)明的利用漢字全信息通過全文檢索方式獲取生僻漢字的通用檢字錄入方法，具體步驟包括(1)對生僻漢字進(jìn)行整理，獲取該錄入法需要處理的生僻漢字字符集；(2)對該生僻漢字集根據(jù)每個(gè)漢字的客觀特征進(jìn)行全信息整理，并建立數(shù)據(jù)庫；(3)用戶輸入時(shí)，用拼音或數(shù)字的方式對要錄入的生僻漢字進(jìn)行描述，利用全文檢索的方法對生僻漢字字符集里的每個(gè)漢字的全信息進(jìn)行全文檢索；(4)利用漢字筆畫的數(shù)字信息對檢字結(jié)果排序輸出。
以上步驟即實(shí)現(xiàn)了生僻漢字的通用檢字錄入，用戶只要從檢字排序輸出的結(jié)果中，選出要錄入的漢字即可。
本發(fā)明的特點(diǎn)針對生僻漢字的使用人群的特征提供的帶有檢索性質(zhì)的生僻漢字錄入方法；利用生僻漢字中存在的全部信息，包括字形、字義、字音和筆畫數(shù)等信息，進(jìn)行全文檢索，通過對生僻漢字的全文檢索完成生僻漢字的錄入。
可以兼容簡潔輸入方法，諸如拼音輸入法或《五筆字型》輸入法。

下面結(jié)合附圖對本發(fā)明進(jìn)一步詳細(xì)地說明圖1是為本發(fā)明的生僻漢字的通用檢字錄入方法的流程框圖。
具體實(shí)施例方式
下面參照本發(fā)明的附圖，更詳細(xì)地描述本發(fā)明的最佳實(shí)施例。
如圖1所示為本發(fā)明的生僻漢字的通用檢字錄入方法的流程框圖，根據(jù)本發(fā)明的生僻漢字的通用檢字錄入方法具體包括以下步驟(1)對生僻漢字進(jìn)行整理，獲取該錄入法需要處理的生僻漢字字符集；對生僻漢字字符集可以采用Unicode進(jìn)行管理；這里所指的生僻字主要是國標(biāo)GB2312-80《信息交換用漢字編碼字符集》基本集之外的漢字。
(2)對該生僻漢字集根據(jù)每個(gè)漢字的客觀特征進(jìn)行全信息整理，并建立數(shù)據(jù)庫；這些信息可以采用拼音或數(shù)字的方式表示，也可以采用其他形式的編碼表示；這里所指的漢字全信息包括字義、字形、筆畫、字音、公用編碼等信息。
全信息的整理包括字義、字形、筆畫、字音以及公用編碼信息的搜集。
對字義信息的收集，我們利用了《說文解字》、《康熙字典》等古代字書中的相關(guān)信息對該生僻漢字集逐字整理字義的信息；對字音信息的收集，不僅包括生僻漢字的拼音讀音信息(如果有)，也包括其上古音、中古音等古代發(fā)音信息(如果有)；對字形信息的搜集，可以整理每個(gè)生僻漢字的總筆畫數(shù)信息和部外筆畫數(shù)信息(如果有)，同時(shí)根據(jù)每個(gè)生僻漢字的字形對生僻漢字進(jìn)行拆分及文字描述。由于生僻漢字多由常見簡單漢字通過組合的方式構(gòu)成，或者由常見簡單漢字增減筆畫得到，因此可以通過這些常見簡單漢字來描述生僻漢字。少數(shù)生僻漢字是少筆畫非組合漢字，對于這些字可以利用基本漢字筆畫，例如點(diǎn)、橫、撇、捺、折等，配合漢字筆畫數(shù)，解決生僻漢字中的少筆畫非組合形聲字的錄入問題。
一些常用的公用編碼，如生僻漢字所對應(yīng)的五筆編碼，也納入全信息中，熟悉五筆字型輸入法的用戶也可以通過輸入所要錄入的生僻漢字的五筆編碼來實(shí)現(xiàn)漢字的錄入。
所有這些信息將采用拼音或數(shù)字的方式表示，并輸入全信息數(shù)據(jù)庫。
(3)用戶輸入時(shí)，用拼音或數(shù)字的方式對要錄入的生僻漢字進(jìn)行描述，利用全文檢索的方法對生僻漢字字符集里的每個(gè)漢字的全信息進(jìn)行全文檢索。
(4)利用漢字筆畫的數(shù)字信息對檢字結(jié)果排序輸出。
以上步驟即實(shí)現(xiàn)了生僻漢字的通用檢字錄入，用戶只要從檢字排序輸出的結(jié)果中，選出要錄入的漢字即可。
本發(fā)明的利用漢字全信息的生僻漢字錄入法，主要解決對國標(biāo)GB2312-80《信息交換用漢字編碼字符集》基本集之外的漢字的計(jì)算機(jī)錄入問題。對于每個(gè)漢字，在其演化的過程中，已具有固定的字形，字義，絕大部分漢字也具有固定的一個(gè)或多個(gè)讀音，這些固定特征的和就構(gòu)成了漢字全信息。對于生僻漢字而言，用戶對這些客觀信息了解是不全的，全信息錄入方法的優(yōu)點(diǎn)就在于，用戶可以最大限度的利用他所知道的關(guān)于要輸入漢字的一種或多種信息來實(shí)現(xiàn)漢字的輸入。用戶只需要輸入其所知道的關(guān)于錄入漢字的任何信息，都可以完成該漢字的錄入。輸入的信息越多，待選漢字會越少。
下面結(jié)合一些具體生僻字的檢字錄入，來進(jìn)一步說明本發(fā)明方法的具體實(shí)現(xiàn)例如設(shè)定漢字全信息表的結(jié)構(gòu)為{字頭字音；字義；字形；筆畫數(shù)；五筆編碼}。
則以下幾個(gè)生僻漢字的全信息分別為{ wéi；古文為；丿橫豎臼；12；wnnv}{ wéi；古文為；爪三；8；endf，end}{ ？；？；求心；11；fiyn} (讀音不明，字義不明。)在利用檢索引擎具體處理時(shí)需要預(yù)先對全信息進(jìn)行簡化，包括對內(nèi)容的簡化，和對基礎(chǔ)筆畫，點(diǎn)(、＝d)、橫(一＝h)、豎(丨＝s)、撇(丿＝p)、捺(＝n)、折(＝z，向下折)以及乙(y，向上折)的簡化，然后采用拼音或數(shù)字的方式進(jìn)行表示并輸入數(shù)據(jù)庫。上述全信息在處理后變?yōu)閧 wei；wei；pie p zhe z zhe z heng h shu sjiu；12；wnnv}{ wei；wei；zhua zhe z san；8；endf，end}{ ？；？；qiu xin；11；fiyn}(讀音不明，字義不明。)
用戶在錄入漢字的時(shí)候可以根據(jù)自己對要錄入漢字信息了解的多少，隨意輸入所知關(guān)于該漢字的一種或多種信息，程序?qū)⒏鶕?jù)用戶輸入的漢字信息，利用全文檢索的方法對生僻漢字字符集中的每個(gè)漢字的全信息進(jìn)行全文檢索，尋找所有與用戶輸入的漢字信息相匹配的生僻漢字，并根據(jù)漢字筆畫的信息對檢字結(jié)果排序輸出。用戶在檢字結(jié)果中尋找自己所需要的生僻漢字，從而完成生僻漢字的錄入。由于采用的是全文搜索的方法，用戶輸入的漢字信息不需要遵循一定的先后順序，對于字形信息的輸入也可以只包含漢字部分的形狀信息或者與輸入漢字相像的形狀信息，因此具有很大的靈活性。
例如在上述例子中，用戶想要輸入可以通過輸入其字音“wei”或者字義“wei”或者筆畫數(shù)“8”或者全部或部分字形描述如“san”、“zhua san”、“zhua zhe san”或者五筆編碼“endf”、“end”或者將上述信息隨意組合如字音+字形“wei zhua zhesan”、筆畫數(shù)+五筆編碼+字義“8 endfwei”來完成該漢字的輸入。組合的信息之間用空格格開。當(dāng)然，用戶輸入的信息越多，最后的待選漢字就會越少，本發(fā)明的優(yōu)點(diǎn)與技術(shù)效果生僻漢字的使用人群大多為研究人員，不具備使用諸如《五筆字型》等字形錄入法的能力。采用漢字全信息的漢字錄入方式，將可以利用盡可能多的信息采用檢索的方式完成生僻漢字的錄入。該方法的優(yōu)點(diǎn)在于不需要學(xué)習(xí)，也沒有字根，用戶輸入的漢字特征不需要遵循一定的先后順序，因此具有很大的靈活性。
盡管為說明目的公開了本發(fā)明的具體實(shí)施例和附圖，其目的在于幫助理解本發(fā)明的內(nèi)容并據(jù)以實(shí)施，但是本領(lǐng)域的技術(shù)人員可以理解在不脫離本發(fā)明及所附的權(quán)利要求的精神和范圍內(nèi)，各種替換、變化和修改都是可能的。因此，本發(fā)明不應(yīng)局限于最佳實(shí)施例和附圖所公開的內(nèi)容。
權(quán)利要求
1.一種利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法，具體包括以下步驟1)對生僻漢字進(jìn)行整理，獲取該錄入法需要處理的生僻漢字字符集；2)對該生僻漢字集根據(jù)每個(gè)漢字的客觀特征進(jìn)行全信息整理，并建立數(shù)據(jù)庫；3)用戶輸入時(shí)，用拼音或數(shù)字的方式對要錄入的生僻漢字進(jìn)行描述，利用全文檢索的方法對生僻漢字字符集里的每個(gè)漢字的全信息進(jìn)行全文檢索；4)利用漢字筆畫的數(shù)字信息對檢字結(jié)果排序輸出。
2.如權(quán)利要求1所述的利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法，其特征在于對生僻漢字字符集用Unicode進(jìn)行管理。
3.如權(quán)利要求1所述的利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法，其特征在于所述的生僻字主要是指國標(biāo)GB2312-80《信息交換用漢字編碼字符集》基本集之外的漢字。
4.如權(quán)利要求1所述的利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法，其特征在于所述的漢字全信息包括字義、字形、筆畫、字音、公用編碼信息。
5.如權(quán)利要求1所述的利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法，其特征在于進(jìn)一步，用戶只要從檢字排序輸出的結(jié)果中，選出要錄入的漢字即可。
全文摘要
本發(fā)明針對目前在生僻漢字錄入方法上存在的不足和缺陷，針對人們普遍對生僻漢字了解信息不全的事實(shí)，針對生僻漢字錄入的難點(diǎn)和生僻漢字多系由簡單漢字組合而成的特性，提出一種利用漢字全信息，即利用每個(gè)漢字所對應(yīng)的字形、字音(如果有)、字義(如果有)、筆畫數(shù)、公用編碼(如生僻漢字一定存在的對應(yīng)的五筆編碼)等客觀特征，實(shí)現(xiàn)生僻漢字錄入的方法。由于在歷史演化的過程中，這些特征已形成了固定的標(biāo)準(zhǔn)，通過匯總這些客觀特征，再利用全文檢索的方式尋找所有和用戶輸入特征相匹配的漢字，進(jìn)而完成生僻漢字的錄入。這一方法可以滿足生僻漢字使用者特定群體研究、錄入生僻漢字的需求。
文檔編號G06F17/30GK1719390SQ200510012219
公開日2006年1月11日申請日期2005年7月18日優(yōu)先權(quán)日2005年7月18日
發(fā)明者錢則侃, 王宏源, 趙鋒申請人:王宏源

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：錢則侃;王宏源;趙鋒
技術(shù)所有人：王宏源
我是此專利的發(fā)明人

上一篇：軌道交通移動閉塞信號模擬控制方法
上一篇：網(wǎng)絡(luò)查詢四字節(jié)字符的方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

二十五史全文檢索系統(tǒng)相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法