两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種中文字體對照的查詢索引建立方法及其查詢方法

文檔序號:6466715閱讀:406來源:國知局
專利名稱:一種中文字體對照的查詢索引建立方法及其查詢方法
技術領域
本發(fā)明涉及一種査詢方法,特別是一種中文字體對照的查詢索引建立方法 及其查詢方法。
技術背景目前, 一般所使用的中文簡繁體查詢方式可分為下列二種方式第一種為 統(tǒng)一轉換型, 一般系統(tǒng)利用此種方式可將數據統(tǒng)一轉換為簡體文字,而繁體中 文到簡體中文是多對一的映射關系,所以只能將繁體轉換為簡體,再記錄字對應的索引。若是在線(online)處理查詢請求時,需將被査詞組也轉換為簡體, 再使用簡體文字的索引進行查詢。統(tǒng)一轉換型的優(yōu)點是額外數據量為零,并且 只需要一次査詢;缺點是當多個繁體字(a, b, c,...)都對應到一個簡體字(m) 時,如查詢a,會錯誤的將{b, c, ...}等查詢出來。而第二種方式是在線轉換型在離線狀態(tài)只記錄字本身的索引;而在線狀 態(tài)處理查詢請求時,窮舉列出被査詞組的所有可能的簡繁體變形,然后分別進 行查詢。優(yōu)點是額外數據量為零,缺點是需要多次查詢,尤其在被查字詞組含 多個可轉換字時組合很多,會影響查詢速度??傊?,不管統(tǒng)一轉換型還是在線轉換型,都不同程度地存在錯誤查詢、查 詢速度慢的缺點,效果很不理想。 發(fā)明內容本發(fā)明的目的是通過一種中文字體對照的查詢索引建立方法及其査詢方法, 以提高中文查詢的正確性和速度。本發(fā)明的技術解決方案是一種中文字體對照的查詢索引建立方法,包括以下步驟 11)、從一原始數據中選取可供查詢的第一字體的中文字;12) 、紀錄該第一字體的中文字及其在原始數據中的第一索引;13) 、判斷該第一字體的中文字是否有對應的任一第二字體,若是,則紀錄 對應于該第二字體的中文字及其在原始數據中的第二索引。一種基于上述的中文字體對照的査詢索引建立方法的中文字體對照的査詢 方法,用于在多個原始數據中進行查詢,且每一原始數據是具有對應于第一字體 及第二字體的中文字索引,該方法包括以下步驟21) 、輸入一中文字;22) 、使用第一字體的中文字索引,在多個原始數據中查詢出具有輸入中文 字的原始數據;23) 、使用第二字體的中文字索引,在多個原始數據中杳詢出具有該輸入中 文字的原始數據;24) 、顯示所杳詢到的原始數據。 上述原始數據是一翻譯數據或一詞句解釋數據。上述第一字體、第二,體是中文繁體字體或中文簡體字體,且,當第一字體 的中文字為一繁體中文字時,第二字體的中文字為-一簡體中文字,而當第一字體 的中文T為一簡體中文字時,第二字體的中文字為一繁體中文字。綜上所述,本發(fā)明具有以下優(yōu)點1、 對于繁體屮文字,可記錄其本身及其所對應的簡體中文的附加索引,以 省略査詢時所花費的時間。2、 對于簡體屮文字,可記錄其本身及其所對應的所有繁體字的附加索引,以提高查詢的時效。3、 此查詢方法可直接對于輸入內容進行查詢,從而節(jié)省繁-簡字體轉換的時間。


圖1是本發(fā)明的中文字體對照查詢索引建立方法示意圖; 圖2是本發(fā)明的中文字體對照查詢方法示意圖; 圖3是本發(fā)明的較佳實施例的示意圖一; 圖4是本發(fā)明的較佳實施例的示意圖二;圖5是本發(fā)明的較佳實施例的示意圖三;具體實施方式
參見圖l,本發(fā)明的中文字體對照查詢索引建立方法,其步驟如下11) 、從一原始數據中選取可供查詢的第一字體的中文字;12) 、紀錄該第一字體的中文字及其在原始數據中的第一索引;13) 、判斷該第一字體的中文字是否有對應的任一第二字體;若是,則紀錄對應于第二字體的中文字及其在該原始數據中的第二索引。 其中原始數據可以是一翻譯數據,也可以是一詞句解釋數據,以提供學習者 査詢使用。上述的第一字體、第二字體是中文繁體字體或中文簡體字體,且,當第一字 體的中文字為一繁體中文字時,第二字體的中文字為一簡體中文字,而當第一字 體的中文字為一簡體中文字時,第二字體的中文字為一繁體中文字。上述索引至少可供查詢的中文字以及此中文字在原始數據中的位置,例如原 始數據是local attraction的解釋數據「局部磁干擾」,則所建立的查詢索引的一實 施例如表一所示1局2部3磁4干5擾4乾4幹由于"干"為"乾"及"幹"的簡體字,所以本發(fā)明的查詢索引建立方法會把"乾" 及"幹,,加入「局部磁干擾」的索引中。參見圖2,本發(fā)明的基于上述的中文字體對照的查詢索引建立方法的中文字 體對照的査詢方法,可應用于一電子裝置,用來提供一查詢不同中文字體的原始數據,該方法包括以下歩驟 21)、輸入一中文字;22) 、使用該第一字體的中文字索引,在多個原始數據中查詢出具有該輸入 中文字的原始數據;23) 、使用該第二字體的中文字索引,在多個原始數據中查詢出具有該輸入 中文字的原始數據;24) 、顯示所查詢到的原始數據。其中,所述電子裝置可以是一桌上型個人計算機、 一筆記型計算機、 一平板 型計算機、 一網絡工作站、 一個人數字助理裝置或一電子字典。參見圖3、 4、 5,其為本發(fā)明的一較佳實施例的示意圖,現以欲要査詢的繁體中文字"乾"為例,其所對應的簡體中文字"干"。參見圖3,在關鍵詞字段輸入"乾",然后按下確認鍵以輸入,所查詢到的索 引內容將會顯示在輸入框下面。若使用在線轉換型,即窮舉列出被査詢的內容的 所有可能的簡繁體變形,然后分別進行查詢。對于這個例子則需要進行兩次查找, 第一次找"干",第二次找"草辛",才能將所有的內容找全。本例子僅是査找一個漢字,如果是詞組,窮舉列出被查詞組的所有可能的簡、 繁體變形,分別進行查詢。例如預査詢內容是"乾乾贛搟酐幹榦榦IA籙"由于"干" 字有對應的三個繁體字"贛"、"乾"及"幹",此時的組合數字為31()種組合方式即 59049種,所以查詢速度非常慢。參見圖4,因為"乾"及"幹"對應的簡體字都是"干",若使用統(tǒng)一轉換型,己 預先將數據庫從繁體中文統(tǒng)一全部轉換為簡體,并記錄簡體中文字對應的索引, 但是統(tǒng)一轉換型在進行查詢時,會將輸入的中文轉換成簡體再査詢,例如輸入中 文為"乾",則轉換成"干"再查詢一次,所以會找出錯誤的第3項和第4項。參見圖5,使用本發(fā)明的中文字體對照查詢方法,先對翻譯數據進行預處理, 對于所有字體除了記錄其本身的索引外,還需將其所對應的其它字體及其索引進 行記錄,也就是說,對于簡體字,記錄其本身及其對應的所有繁體字的索引;而 對于繁體字,記錄其本身及其對應的簡體字的索引。在作在線查詢時,可直接對輸入文字或詞組進行查詢,不需做轉換,僅需要 輸入一次欲査詢的文字或詞組,即可快速又準確的找出所有內容。
權利要求
1、一種中文字體對照的查詢索引建立方法,包括以下步驟11)、從一原始數據中選取可供查詢的第一字體的中文字;12)、紀錄該第一字體的中文字及其在原始數據中的第一索引;13)、判斷該第一字體的中文字是否有對應的任一第二字體,若是,則紀錄對應于該第二字體的中文字及其在原始數據中的第二索引。
2、 根據權利要求1所述的中文字體對照的查詢索引建立方法,其特征是 所述原始數據是一翻譯數據或一詞句解釋數據。
3、 根據權利要求1或2所述的中文字體對照的査詢方法,其特征是所述 第一字體、第二字體是中文繁體字體或中文簡體字體,且,當第一字體的中文 字為一繁體中文字時,第二字體的中文字為一簡體中文字,而當第一字體的中 文字為一簡體中文字時,第二字體的中文字為一繁體中文字。
4、 一種基亍權利要求1所述的中文字體對照的査詢索引建立方法的中文字 體對照的查詢方法,用于在多個原始數據中進行查詢,且每一原始數據是具有對 應于第一字體及第二字體的中文字索引,該方法包括以下歩驟21) 、輸入一中文字;22) 、使用第一字體的中文字索引,在所述多個原始數據中査詢出具有輸入中文字的原始數據-,23) 、使用第二字體的中文字索引,在所述多個原始數據中查詢出具有該輸 入中文字的原始數據;24) 、顯示所査詢到的原始數據。
全文摘要
本發(fā)明涉及一種中文字體對照的查詢索引建立方法及其查詢方法,該包括以下步驟11)從一原始數據中選取可供查詢的第一字體的中文字;12)紀錄該第一字體的中文字及其在原始數據中的第一索引;13)判斷該第一字體的中文字是否有對應的任一第二字體,若是,則紀錄對應于該第二字體的中文字及其在原始數據中的第二索引。本發(fā)明所提供的中文字體對照的查詢索引建立方法及其查詢方法具有可提高中文查詢的正確性和速度的優(yōu)點。
文檔編號G06F17/30GK101324905SQ20081015049
公開日2008年12月17日 申請日期2008年7月29日 優(yōu)先權日2008年7月29日
發(fā)明者劉海斌, 莉 王, 陳淮琰 申請人:無敵科技(西安)有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
万载县| 台东县| 天全县| 益阳市| 阿克陶县| 彝良县| 依兰县| 博白县| 湛江市| 财经| 津市市| 莎车县| 宜阳县| 武清区| 梁平县| 朔州市| 雅安市| 禄劝| 丽江市| 陇川县| 庆城县| 博野县| 正阳县| 东台市| 漾濞| 民权县| 崇礼县| 五河县| 内黄县| 泊头市| 邓州市| 平邑县| 凤阳县| 阜康市| 新晃| 安阳县| 光山县| 海阳市| 阿坝县| 麻栗坡县| 阜宁县|