專利名稱:一種輸入過程中編碼糾錯的提示方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及計算機信息輸入技術領域,特別是涉及一種在信息輸入過程中 編碼糾錯的提示方法和系統(tǒng)。
背景技術:
對于中文、日文、韓文等用戶而言, 一般都需要通過輸入法程序與計算機進行交互用戶通過^t盤輸入編碼字符串,然后由輸入法程序會依據(jù)其預置的 標準映射規(guī)則將其變換為相應語言的候選項,進而由用戶確認輸入所需信息。 但是由于人們語言習慣、地域區(qū)別等各種問題,人們在輸入編碼字符串時, 可能會輸入錯誤的編碼字符串(與輸入法程序所應用的標準映射規(guī)則不同), 進而難以得到該用戶所需的候選項結果。例如,對于中文拼音輸入法而言,由于中國幅員遼闊,不同的地區(qū)存在各 種方言。受方言影響,特別是南方一些地區(qū)的用戶,普遍存在平巻舌音(z/zh、 s/sh、 c/ch)不分、前后鼻音(an/ang、 en/eng、 in/ing)不分、(1/n)不分 等問題。少數(shù)地區(qū)還存在h/f不分、1/r不分、eng和ong不分等等。當涉及 這些聲母/韻母時,由于用戶無法確認漢字的準確讀音,給輸入帶來很大不便。 例如當用戶無法區(qū)分前后鼻音時,用戶難以區(qū)分在拼音輸入法的標準映射規(guī)則 中,漢字"風"和"分,,究竟讀"fen"還是"feng",只能通過反復嘗試的手 段來輸入。為了方便這些用戶的輸入,很多現(xiàn)有的輸入法都提供了 "模糊音"功能。 即將某些用戶可能混淆的音節(jié)視為等同(需要將哪些音節(jié)視為等同,可以由用 戶自行設置,見圖1的界面圖),從而允許用戶使用自己更加習慣的方式進行 輸入。例如,對于不習慣后鼻音的用戶,在等同的情況下,只要輸入"fen,, 就能同時獲得"分"和"風",并參與詞頻調(diào)整(將較常用的字放在前面);從 而大大方便了這類用戶的輸入,請見圖2。但是,從上述的應用過程可以看出,為了實現(xiàn)對模糊音的支持(即對可能 混淆的音節(jié)的等同),使得本來具有不同拼音的候選項合在了一起供用戶選擇 (如,"分"和"風"),即使得重碼候選項的問題更加嚴重,讓用戶選詞選字更加困難。而由于同音字/詞存在,重碼一直是拼音輸入法所面臨和需要解決 的問題,但是由于輸入法對模糊音的支持顯然使得重碼的問題更加嚴重。上面的例子僅僅是針對拼音輸入法而言的,其實對于其他輸入法而言,該 問題同樣存在,只要是支持易混淆編碼等同功能的輸入法,都會存在強化重碼 問題的技術缺陷??傊枰绢I域技術人員迫切解決的一個技術問題就是如何能夠在輸入法支持易混淆編碼等同功能的情況下,降低重碼問題,降低用戶對模糊音的依賴。發(fā)明內(nèi)容本發(fā)明所要解決的技術問題是提供一種輸入過程中編碼糾錯的提示方法 和系統(tǒng),能夠向用戶提示各種編碼糾錯信息,以幫助用戶在使用過程中主動提 高編碼字符串的輸入準確度,從而降低由于輸入法支持易混淆編碼等同功能而 帶來的增加重碼的影響。為了解決上述問題,本發(fā)明公開了 一種輸入過程中編碼糾錯的提示方法,包括接收用戶輸入的編碼字符串;依據(jù)所接收的編碼字符串,轉換得到相 應的候選項;判斷所述候選項中是否存在通過易混淆編碼等同方式而得到的候 選項;如果是,則提示編碼糾錯信息。優(yōu)選的,可以通過以下方式提示編碼糾錯信息在展現(xiàn)該候選項的同時, 展現(xiàn)其相應的正確編碼字符串。優(yōu)選的,當存在多個通過易混淆編碼等同方式得到的候選項時,還包括 依據(jù)預置規(guī)則對上述多個候選項進行篩選,僅對其中符合條件的部分候選項及 其相應的正確編碼字符串進行展現(xiàn)提示。優(yōu)選的,在提示編碼糾錯信息之前還包括進一步判斷該通過易混淆編碼 等同方式而得到的特定候選項的出現(xiàn)次數(shù)或者出現(xiàn)頻率是否大于等于預定閾 值,如果是,則提示編碼糾錯信息。優(yōu)選的,所述出現(xiàn)次數(shù)或者出現(xiàn)頻率是針對輸入法當前用戶的;或者,所 述出現(xiàn)次數(shù)或者出現(xiàn)頻率是針對整個輸入法用戶群的。優(yōu)選的,所述的方法還可以包括收集編碼糾錯信息,生成糾錯記錄表, 所述糾錯記錄表包括用戶輸入串、標準字符串和相應候選項。優(yōu)選的,可以通過以下方式判斷得知一候選項是否通過易混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如果不同,則確定該候選項為通過易混淆編碼等同方式得到的。優(yōu)選的,可以通過以下方式判斷得知一候選項是否通過易混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如 果不同,則進一步判斷其是否滿足正常轉換規(guī)則,如果不滿足,則確定該候選 項為通過易混淆編碼等同方式得到的。優(yōu)選的,當應用拼音輸入法時,可以通過以下方式判斷得知一候選項是否 通過易混淆編碼等同方式而得到在從用戶輸入的編碼字符串得到候選項的過 程中,記錄音節(jié)生成規(guī)則的屬性,如果應用了特定易混淆編碼等同方式,則確 定該候選項為通過易混淆編碼等同方式得到的。優(yōu)選的,可以通過以下方式判斷得知一候選項是否通過易混淆編碼等同方 式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串作為一個映射 關系,在輸入法的映射規(guī)則表中檢索其是否滿足特定易混淆編碼等同方式,如 果是,則確定該候選項為通過易混淆編碼等同方式得到的。依據(jù)本發(fā)明的另 一優(yōu)選實施例,還公開了 一種輸入過程中編碼糾錯的提示 裝置,包括接口單元,用于接收用戶輸入的編碼字符串;編碼轉換單元,用于依據(jù)所接收的編碼字符串,轉換得到相應的候選項; 混淆判斷單元,用于判斷所述候選項中是否存在通過易混淆編碼等同方式 而得到的候選項;如果是,則通知信息展示單元; 信息展示單元,用于提示編碼糾錯信息。優(yōu)選的,可以通過以下方式提示編碼糾錯信息在展現(xiàn)該候選項的同時, 展現(xiàn)其相應的正確編碼字符串。優(yōu)選的,當存在多個通過易混淆編碼等同方式得到的候選項時,在混淆判 斷單元和信息展示單元之間還可以包括第一篩選模塊,用于依據(jù)預置規(guī)則對 上述多個候選項進行篩選,僅對其中符合條件的部分候選項及其相應的正確編 碼字符串通知信息展示單元進行展現(xiàn)提示。優(yōu)選的,在混淆判斷單元和信息展示單元之間還可以包括第二篩選模塊,用于判斷該通過易混淆編碼等同方式而得到的特定候選項的出現(xiàn)次數(shù)或者出 現(xiàn)頻率是否大于等于預定閾值,如果是,則通知信息展示單元進行展現(xiàn)提示。優(yōu)選的,所述的裝置還可以包括糾錯記錄表生成單元,用于收集編碼糾 錯信息,生成糾錯記錄表,所述糾錯記錄表包括用戶輸出編碼字符串、標準字 符串和相應的候選項。優(yōu)選的,可以通過以下方式判斷得知一候選項是否通過易混淆編碼等同方 式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如 果不同,則確定該候選項為通過易混淆編碼等同方式得到的。優(yōu)選的,可以通過以下方式判斷得知一候選項是否通過易混淆編碼等同方 式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如 果不同,則進一步判斷其是否滿足正常轉換規(guī)則,如果不滿足,則確定該候選 項為通過易混淆編碼等同方式得到的。優(yōu)選的,當應用拼音輸入法時,可以通過以下方式判斷得知一候選項是否 通過易混淆編碼等同方式而得到在從用戶輸入的編碼字符串得到候選項的過 程中,記錄音節(jié)生成規(guī)則的屬性,如果應用了特定易混淆編碼等同方式,則確 定該候選項為通過易混淆編碼等同方式得到的。優(yōu)選的,可以通過以下方式判斷得知一候選項是否通過易混淆編碼等同方 式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串作為一個映射 關系,在輸入法的映射規(guī)則表中檢索其是否滿足特定易混淆編碼等同方式,如 果是,則確定該候選項為通過易混淆編碼等同方式得到的。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點本發(fā)明可以從根源上降低重碼,即當特定用戶能夠更加準確的輸入編碼字 符串時,輸入法的易混淆編碼等同功能就可以比較少的用到,進而可以降低用 戶對模糊音的依賴,降低重碼影響。但是如何才能幫助用戶輸入正確的編碼字 符串?由于輸入法的易混淆編碼等同功能實際上是在遷就用戶的情況下混淆了 具有不同編碼字符串的候選項(如,混淆了不同讀音的漢字),使得用戶在使 用過程中無需對混淆編碼字符串進行區(qū)分,從而可能永遠也不知道其準確的編碼字符串(如,模糊音的正確讀音)。因此,用戶不會在輸入過程中主動改進 編碼字符串的準確度,進而導致重碼問題一直存在,甚至被助長。于是本發(fā)明為了幫助用戶輸入正確的編碼字符串,創(chuàng)新性的提出在混淆的 情況下,自動向用戶提供正確編碼字符串的提示信息,以幫助用戶在使用過程 中主動提高編碼字符串的準確度,降低用戶對模糊音的依賴。
圖l是現(xiàn)有的模糊音功能設置界面示意圖; 圖2是現(xiàn)有應用模糊音功能的候選項選擇界面示意圖; 圖3是本發(fā)明一種輸入過程中編碼糾錯的提示方法的具體實施例1的步驟 流程圖;圖4是本發(fā)明對應用模糊音功能的候選項進行糾錯提示的界面示意圖; 圖5是本發(fā)明一種輸入過程中編碼糾錯的提示方法的具體實施例2的步驟 流程圖;圖6是本發(fā)明一;流:程圖;圖7是拼音輸入的過程示意圖;圖8是一種音節(jié)切分的網(wǎng)絡示意圖;圖9是另一種更復雜音節(jié)切分的網(wǎng)絡示意圖;圖IO本發(fā)明一種輸入過程中編碼糾錯的提示裝置實施例1的結構框圖; 圖11是本發(fā)明一種輸入過程中編碼糾錯的提示裝置實施例2的結構框圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。本發(fā)明可用于眾多通用或專用的計算系統(tǒng)環(huán)境或配置中。例如個人計算 機、服務器計算機、手持設備或便攜式設備、平板型設備、多處理器系統(tǒng)以及 包括以上任何系統(tǒng)或設備的分布式計算環(huán)境等等。本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例 如程序模塊。 一般地,程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結構等等。也可以在分布式計算環(huán)境中實踐本 發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡而被連接的遠程處理設備來 執(zhí)行任務。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設備在內(nèi)的本地 和遠程計算機存儲介質(zhì)中。參照圖3,示出了本發(fā)明一種輸入過程中編碼糾錯的提示方法的具體實施例1,可以包括步驟301、接收用戶輸入的編碼字符串;步驟302、依據(jù)所接收的編碼字符串,轉換得到相應的候選項; 步驟303、判斷所述候選項中是否存在通過易混淆編碼等同方式而得到的 候選項;步驟304、如果是,則提示編碼糾錯信息。本實施例中的步驟301和302,對于現(xiàn)有的各種輸入法,都是比較公知的, 因此在此不再贅述。步驟302中具體的轉換規(guī)則有很多,例如,對于漢字輸入 就可以包括五筆、簡拼、全拼、雙拼等等;本發(fā)明并不需要對此加以限定。對 于各種轉換規(guī)則,都可能存在其相應的易混淆編碼等同應用的情況。在下面的說明書中主要針對拼音輸入法中的模糊音混淆情況進行舉例說明,其他混淆情 況參照即可。對于步驟303的具體判斷方式,可能存在很多種,本發(fā)明在后面會詳細敘 述。下面先對步驟304的具體實現(xiàn)方式進行詳細介紹。步驟304中提示編碼糾錯信息的實現(xiàn)方式也可以有多種,如下 例1通過以下方式提示編碼糾錯信息在展現(xiàn)該候選項的同時,展現(xiàn)其相應的 正確編碼字符串。假設用戶輸入編碼字符串"fen,,,通過才莫糊音等同方式得到 了候選項"風",則依據(jù)本發(fā)明需要向用戶提示"風,,的正確編碼字符串"feng"。 所述的展現(xiàn)可以包括視覺展示,還可以包括聽覺展示等方式。當然,具體的展現(xiàn)方式就更多了。例如,簡單的,參照圖4,可以在候選 項中增加顯示漢字的準確^f音,以提示用戶正確的漢字讀音。再例如,通過彈 出式消息或者氣泡等方式提示用戶。又例如,還可以增加其他的顯示區(qū)域,以提示用戶正確的漢字讀音;如在候選項窗口下方增加一行提示信息輸入漢字 "風"、"封"應用使用拼音"feng"。為了避免干擾用戶的輸入,則可以先給出錯誤提示,然后由用戶選擇是否 需要查看正確編碼字符串。例如,簡單的,可以通過針對該候選項"風,,設置 不同的顏色或者字體等,提示用戶該候選項的讀音需要糾正,如果用戶需要查 看,則點擊該候選項"風"附近的按鈕或者鏈接等觸發(fā)組件,然后由輸入法向 用戶展示"風"的正確編碼字符串"feng"。例2當存在多個通過易混淆編碼等同方式得到的候選項時,還可以依據(jù)預置規(guī) 則對上述多個候選項進行篩選,僅對其中符合條件的部分候選項及其相應的正 確編碼字符串進行展現(xiàn)提示。例如,參照圖4,在顯示的前5個候選項中,有兩個候選項"風"、"封" 是通過模糊音等同技術得到的,因此,應該對二者的糾錯信息都進行提示;但 是為了減小對用戶輸入過程的干擾,優(yōu)選的,可以僅僅對上述兩個候選項中排 序在前的"風"進行提示(或者,第一個錯誤讀音候選項),而不對后面的"封" 進行提示。再例如,當用戶的選擇焦點到達候選項"風"時,才對其加以糾錯信息的 提示,否則,不予提示,以提高糾錯提示的針對性。參照圖5,示出了本發(fā)明一種輸入過程中編碼糾錯的提示方法的具體實施 例2,可以包括步驟501、接收用戶輸入的編碼字符串;步驟502、依據(jù)所接收的編碼字符串,轉換得到相應的候選項; 步驟503、判斷所述候選項中是否存在通過易混淆編碼等同方式而得到的 候選項;步驟504、如果是,則進一步判斷該通過易混淆編碼等同方式而得到的特 定候選項的出現(xiàn)次數(shù)或者出現(xiàn)頻率是否大于等于預定閾值; 步驟505、如果是,則提示編碼糾錯信息。本實施例與圖4所示實施例的主要區(qū)別在于,本例需要統(tǒng)計特定模糊音的出現(xiàn)次數(shù)或者出現(xiàn)頻率,例如,對于模糊音而言,本例需要統(tǒng)計用戶輸入各個 模糊音的出現(xiàn)次數(shù)或者出現(xiàn)頻率,僅僅對超過一定次數(shù)或者頻率的模糊音候選 項進行提示,對于用戶偶爾出現(xiàn)混淆輸入,則可以不予4是示,避免過多的干擾 用戶輸入。于適應當前用戶的個性習慣的,因為實際中各個用戶需要糾正的模糊音可能并不相同;本例中所述的出現(xiàn)次數(shù)或者出現(xiàn)頻率也可以針對整個輸入法用戶群的,即統(tǒng)計各個用戶的共性習慣。參照圖6,示出了本發(fā)明一種輸入過程中編碼糾錯的提示方法的具體實施 例3,可以包括步驟601、接收用戶輸入的編碼字符串;步驟602、依據(jù)所接收的編碼字符串,轉換得到相應的候選項; 步驟603、判斷所述候選項中是否存在通過易混淆編碼等同方式而得到的 候選項;步驟604、如果是,則提示編碼糾錯信息;步驟605、收集編碼糾錯信息,生成糾錯記錄表,所述糾錯記錄表可以包 括用戶輸入串、標準字符串和相應的候選項。本實施例可以收集用戶曾經(jīng)出現(xiàn)的錯誤信息(如針對一段時間),匯總成 表,以供用戶查看、學習或者作為統(tǒng)計數(shù)據(jù)以作他用。下面對本發(fā)明中的一個核心或難點如何識別易混淆編碼等同方式的應用 (例如,如何識別模糊音的使用)進行詳細說明。具體實現(xiàn)方式可能較多,由 于篇幅限制,在此僅僅示出幾個典型例子。 識別方案1通過以下方式判斷得知一候選項是否通過易混淆編碼等同方式而得到將 用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如果不同,則確 定該候選項為通過易混淆編碼等同方式得到的。以拼音輸入為例,該方案的基本思想是,將用戶輸入的拼音與漢字的正確讀音進行對比,識別其是否是模糊音。例如用戶輸入了 "fen",并檢索得到候 選"風feng,,,可以通過對輸入拼音串"fen"和正確的拼音串"feng,,進行 比較,判斷用戶使用了模糊音。該方案的基礎是,輸入法記錄了單個漢字所對 應的用戶輸入串和其讀音。優(yōu)選的,當用戶一次性輸入多個漢字(詞或句子)時,輸入法需要能夠對 拼音串進行正確的切分以找到對應該漢字的輸入串,而現(xiàn)有輸入法技術基本都 能夠滿足詞或句子的輸入。并且,在輸入法詞庫中會存儲有各個漢字及其對應 的正確讀音,因此,輸入法在生成〗吳選項時可以記錄^f夷選項所對應漢字的準確 讀音。例如,用戶輸入"fenge"給出選項"風格",輸入法通過音節(jié)切分(如被 切分成音節(jié)"fen,ge,,)可以知悉對應漢字"風"的用戶輸入串是"fen,,,通 過詞庫可以知悉漢字"風,,的準確讀音是"feng"。再通過對這兩個字符串進 行比較,即可判斷用戶是否使用了模糊音。對輸入串和標準拼音串進行比較時, 最簡單的手段是看二者是否相同。如果要求不高,只要二者不同,則就可以視 為模糊音,進行正確讀音的提示。大多數(shù)情況下,輸入法會出于詞頻調(diào)整、學詞(如用戶詞庫)等目的主動 記錄用戶輸入拼音串的分隔信息以及候選項中漢字的正確讀音。因此除了增加 顯示模塊,只要增加一個比較過程(比較二者是否相同)即可。因此,這是一個非常簡單和容易實現(xiàn)的方案。但是,在實際應用中發(fā)現(xiàn),用戶輸入的拼音串和標準拼音串不同,并不一 定就屬于模糊音,例如,可能還包括簡拼、雙拼等情況。為了能夠僅僅對模糊 音進行^R示,本發(fā)明給出了另 一識別方案識別方案2通過以下方式判斷得知一候選項是否通過易混淆編碼等同方式而得到將 用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如果不同,則進 一步判斷其是否滿足正常轉換規(guī)則,如果不滿足,則確定該候選項為通過易混 淆編碼等同方式得到的。即,本識別方案中需要采用已知的正常轉換規(guī)則對輸 入串和標準編碼串進行篩選,以提高糾錯提示的精確度。假設正常轉換規(guī)則包括簡拼,即通過使用不完全的拼音完成候選項轉換。 在簡拼轉換規(guī)則中,由于音節(jié)沒有輸入完全,因此輸入串和標準拼音之間 也是不相同的。例如,用戶可能直接輸入"fg"得到候選項"風格"或者"分隔"。對于"格"或者"隔",用戶實際用"g"輸入了拼音"ge",但這并不是 模糊音,不應提示,因為對于簡拼而言,"fg"對應"fengge"屬于正常轉換 模式。另外,某些以巻舌音(zh、 ch、 sh)為聲母的音節(jié),某些用戶習慣輸入 完整的聲母;例如zhong的簡拼為zh。即在正常的簡拼轉換規(guī)則中,用戶可 以通過"zh,,輸入"中zhong",但是如果用戶僅使用單個字母"z"輸入"中 zhong",則應當^L為才莫糊音加以^是示。 假設正常轉換規(guī)則包括雙拼。在雙拼轉換規(guī)則中,拼音通常用兩個字母表示。例如用ff表示fen, fg 表示feng。如果用戶用ff輸入了 "風",而"風,,的標準音應該為"fg",則 應當認為用戶使用了模糊音。即對于不同的轉換規(guī)則,判斷標準會有所不同,因此,在雙拼模式下應當 使用雙拼的標準表示方法來對用戶輸入進行比較。即優(yōu)選的,可以通過輸入法 狀態(tài)獲悉具體的轉換規(guī)則,或者,在候選項顯示前根據(jù)音節(jié)反查獲悉具體的轉 換規(guī)則。當然,在向用戶展示糾錯信息時,可以展示該候選項的準確全拼,也 可以展示該候選項在雙^f方式下的準確#f寫。上述識別方案2可以在一定程度上保證模糊音提示的準確性,避免對一些 非模糊音的應用進行提示,干擾用戶輸入過程。但是其仍然可能存在一些偏差, 例如擊鍵容錯。為了便于用戶輸入,某些輸入法具有擊鍵容錯功能。例如搜狗 拼音允許用戶使用"tign"輸入"聽ting"。這也會導致輸入串與拼音串不相 同,但不應視為模糊音。(當然,在本發(fā)明的識別方案1和2中,也可以對該 情況進行提示,但是如果專項針對模糊音提示,則可以使用不同的提示方式)。ong問題。大多數(shù)情況下,當用戶輸入串和標準讀音僅在末尾相差一個字 母g,通常是平巻舌音模糊導致的(an/ang、 en/eng、 in/ing)。但有例外。 大部分輸入法為了便于用戶輸入,僅輸入"ton"就能夠得到"同tong"。由 于"ton"并不是一個合法音節(jié),因此這不應被看作模糊音。某些輸入法甚至允許用戶僅輸入"to"得到"同tong",同樣不應視為模糊音。通過以上對識別方案1和2的介紹,可以得知,具體的識別方案取決于拼 音規(guī)則,以及對提示所要求的精度。精度不高,則只要比較輸入串與標準拼音 是否相同即可。簡拼通??梢酝ㄟ^識別音節(jié)長度得到部分的解決(模糊音涉及 的音節(jié)長度通常不小于2,而一般簡拼僅包含一個字符)。如果要求更高,則 需要對輸入串和標準拼音之間的差異進行更加細致的比較。下面本發(fā)明介紹兩個更為優(yōu)選的識別方案。識別方案3 (基于解釋規(guī)則)當應用拼音輸入法時,通過以下方式判斷得知一候選項是否通過易混淆編 碼等同方式而得到在從用戶輸入的編碼字符串得到候選項的過程中,記錄音 節(jié)生成規(guī)則的屬性,如果應用了特定易混淆編碼等同方式,則確定該候選項為 通過易混淆編碼等同方式得到的。參照圖7,示出了一般情況下拼音輸入的過程圖,包括用戶輸入、音節(jié)切 分、音節(jié)解釋、生成候選以及顯示5個步驟。即在輸入法獲得用戶輸入進行音節(jié)切分再生成候選(例如,查找系統(tǒng)詞庫、 用戶詞庫等)的過程中,存在一個音節(jié)轉換的過程。例如用戶輸入"fenge" 首先被切分成"fen,ge"。對于支持模糊音的輸入法,系統(tǒng)能夠知道用戶輸入 fen可以被解釋為音節(jié)fen,也可以被解釋為音節(jié)feng。前一個解釋規(guī)則所使 用的是標準拼音,而后一個規(guī)則即用到了模糊音。因此,只要記錄了音節(jié)生成 規(guī)則的屬性(如采用標志位的方式),就可以了解某個候選項是否使用了模糊 音,從而可以進行準確的模糊音糾錯提示。具體的如,zongguo —> [zhong,才莫糊][guo,標準]—> 中[zhong,才莫糊]國[guo,標準] 通過查看標志位即可獲知是否應用了模糊音等同。當然,在記錄模糊音屬 性的同時,還可以記錄更多信息,例如用戶的原始輸入串等,以便后續(xù)使用; 或者使用參數(shù)區(qū)分用戶使用的是哪種才莫糊,供后續(xù)統(tǒng)計等等。 下面對音節(jié)切分作簡單說明。音節(jié)切分的一種優(yōu)選方案是實現(xiàn)為一個網(wǎng)絡。例如用戶輸入"dandan"可 以-故切分為dan,dan。如果考慮"an/ang"的4莫糊,它對應了各種不同的解釋,包括"dan,dan,, "dan,dang,, "dang,dan,, "dang,dang,,(單單、擔當dang、 當 dang當dang)等各種情況。為了簡化,我們可以采取圖8所示的網(wǎng)絡表示方 法。在圖8中,由起點出發(fā)到達終點所對應的任一條^^徑正好對應了一種音節(jié) 解釋(共四種)。因此,這個網(wǎng)絡應當視為一種壓縮的音節(jié)切分表示;構成路 徑的邊正好對應了音節(jié),其上可以附加音節(jié)的解釋規(guī)則。更復雜的情況參見圖9,用戶輸入"fangan",具有兩種不同的切分方式 "fan,gan,,和"fang,an,,(反感、返崗gang、方fang岡'J gang、方案)。基于解釋規(guī)則的識別方案3可以具有更大的靈活性。比如,當涉及簡拼時, 可以根據(jù)規(guī)則確定是否附加模糊音屬性。比如用單一字母"z"輸入"zhong,,, 當使用聲母簡拼時該音節(jié)解釋為模糊音;而當使用首字母簡拼時,該音節(jié)解釋 不是模糊音。后續(xù)判斷僅根據(jù)音節(jié)解釋的屬性判斷是否需要進行提示即可。又 如ong,當用"zhon"輸入"zhong"時,其并非由才莫糊音失見則生成,因此不 會被解釋為模糊音,從而不加提示。另一方面,當多個提示規(guī)則同時存在時,該識別方案可以^是供更多信息。 例如,如果用戶使用"zhegn"輸入"真zhen",需要同時使用模糊音(eng—〉en ) 和輸入容錯規(guī)則(gn—〉ng )。當這兩個屬性均被加入^是示失見則,則可以同時^是 示用戶讀音不準確、擊4A不正確。識別方案4通過以下方式判斷得知一候選項是否通過易混淆編碼等同方式而得到將 用戶所輸入的編碼字符串與該候選項的標準編碼串作為一個映射關系,在輸入 法的映射規(guī)則表中檢索其是否滿足特定易混淆編碼等同方式,如果是,則確定 該候選項為通過易混淆編碼等同方式得到的。輸入法的映射規(guī)則表一般可以稱為Keymap表;可以用來記錄用戶的擊鍵 習慣,是根據(jù)全/雙拼、模糊音、糾錯等規(guī)則生成的。比如音節(jié)[feng],全拼下會有映射feng-〉feng;如果涉及才莫糊音en-〉eng, 就會有映射fen-〉[feng];如果涉及糾錯gn-〉ng,就會有映射fegn-〉 [feng]; 在雙拼底下eng用字母g表示,因此有映射fg->[feng]。又比如音節(jié)xue, 很多人寫成xve,因此可以有兩條映射規(guī)則 xue-〉 [xue]; xve->[xue]。又比如,如果為了加快輸入速度,輸入法允許將hong簡寫成hon,則因 it匕有映射hon —> [hong]。又比如,很多用戶已經(jīng)習慣于用sohu、 sogou來輸入"搜狐""搜狗",但so 其實不是合法的拼音音節(jié),則可以手工增加了一個映射關系so-> [sou]。這 樣,sohu可以被解釋成為[sou] [hu],從而得到"搜狐"。所有這些映射規(guī)則放在一起,就構成了 Keymap表。使用中,需要頻繁根 據(jù)字符串在Keymap表中查找可能對應的音節(jié)id。 Keymap表是將"用戶輸入的 字符串"轉換成"可能的拼音串"的基礎,這個轉換過程就是音節(jié)切分。由于Keymap表中集中了各種映射規(guī)則,其中一定包括有糾錯提示所需的 映射規(guī)則(如模糊音),則識別方案4就是到Keymap表中檢索,用戶輸入串和 標準拼音串之間的映射到底是屬于什么映射規(guī)則,如果是糾錯提示所需的,則 對相應的候選項進行糾錯提示即可。具體的,如,對于候選項中的"風",到Keymap表中才企索,fen-〉 [feng] 究竟是什么映射關系;對于候選項中的"中",到Keymap表中檢索, zong-〉[zhong]究竟是什么映射關系;如果發(fā)現(xiàn)其屬于模糊音映射規(guī)則,則進 行糾錯提示即可。如果發(fā)現(xiàn)其不屬于糾錯提示所需的沖莫糊音映射規(guī)則,則不予 糾錯提示即可。由于技術方案本身的優(yōu)勢,識別方案3和4比識別方案1和2在特定混淆 規(guī)則上的識別準確度更高 一些。需要說明的是,本發(fā)明在前面的描述中,對于模糊音主要描述了獨立的聲 母才莫糊(z/zh、 s/sh、 c/ch)或者韻母才莫糊(an/ang、 en/eng、 in/ing),或 者聲母模糊和韻母模糊的組合等。但是實際上,還有更復雜的情況,如全音節(jié)模糊。例如某些地區(qū)將"hui,,發(fā)音為"fei",或者,將"fei,,發(fā) 音為"hui",但能夠區(qū)別部分h/f開頭的其他音節(jié)。因此將聲母h/f等同并不 是很好的做法。這時可能需要將整個音節(jié)進行等同,該等同映射規(guī)則仍然屬于 模糊音的一種。漢字模糊。例如某些地區(qū)的漢字具有特殊發(fā)音,例如"風feng,,的發(fā)音 為"fong","么me"的發(fā)音為"mo"。則對于"fong -〉 "feng,,, "mo" -> "me", 該等同映射規(guī)則仍然屬于模糊音的 一種。因此,本文所謂的模糊音泛指由于不準確發(fā)音而導致的錯誤輸入,輸入法 通過模糊音功能對用戶的錯誤輸入進行容錯,便于用戶順利輸入漢字。通過本 發(fā)明的糾錯提示功能,可以幫助用戶能夠逐漸熟悉漢字的正確讀音,從而提高 輸入的準確率,普通話更標準。參照圖10,示出了本發(fā)明一種輸入過程中編碼糾錯的提示裝置實施例1, 具體可以包括接口單元1001,用于接收用戶輸入的編碼字符串;編碼轉換單元1002,用于依據(jù)所接收的編碼字符串,轉換得到相應的候 選項;混淆判斷單元1003,用于判斷所述候選項中是否存在通過易混淆編碼等 同方式而得到的候選項;如果是,則通知信息展示單元;信息展示單元1004,用于提示編碼糾錯信息。簡單的,例如,在展現(xiàn)該 候選項的同時,展現(xiàn)其相應的正確編碼字符串。基于前面對四種識別方案的詳細介紹,可以得知,混淆判斷單元1003可 以通過以下四種方式中的任一個或者任意組合判斷得知一候選項是否通過易 混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如果不 同,則確定該候選項為通過易混淆編碼等同方式得到的?;蛘?,將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如 果不同,則進一步判斷其是否滿足正常轉換規(guī)則,如果不滿足,則確定該候選 項為通過易混淆編碼等同方式得到的。18或者,在從用戶輸入的編碼字符串得到候選項的過程中,記錄音節(jié)生成規(guī) 則的屬性,如果應用了特定易混淆編碼等同方式,則確定該候選項為通過易混 淆編碼等同方式得到的。或者,將用戶所輸入的編碼字符串與該候選項的標準編碼串作為 一個映射 關系,在輸入法的映射規(guī)則表中檢索其是否滿足特定易混淆編碼等同方式,如 果是,則確定該候選項為通過易混淆編碼等同方式得到的。參照圖11,示出了一種輸入過程中編碼糾錯的提示裝置實施例2,具體可以包括接口單元1101,用于接收用戶輸入的編碼字符串;編碼轉換單元1102,用于依據(jù)所接收的編碼字符串,轉換得到相應的候 選項;混淆判斷單元1103,用于判斷所述候選項中是否存在通過易混淆編碼等 同方式而得到的候選項;如果是,則通知第二篩選模塊;第二篩選模塊1104,用于判斷該通過易混淆編碼等同方式而得到的特定 候選項的出現(xiàn)次數(shù)或者出現(xiàn)頻率是否大于等于預定閾值,如果是,則通知信息 展示單元;信息展示單元1105,用于提示編碼糾錯信息。簡單的,例如,在展現(xiàn)該 候選項的同時,展現(xiàn)其相應的正確編碼字符串。優(yōu)選的,當存在多個通過易混淆編碼等同方式得到的候選項時,還可以包 括第一篩選模塊1106,用于依據(jù)預置規(guī)則對上述多個候選項進行篩選,僅 對其中符合條件的部分候選項及其相應的正確編碼字符串通知信息展示單元 進行展現(xiàn)提示。為了便于用戶查看和學習,圖11所示的裝置實施例還可以包括糾錯記 錄表生成單元1107,用于收集編碼糾錯信息,生成糾錯記錄表,所述糾錯記 錄表包括用戶輸出編碼字符串、標準字符串和相應的候選項。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的 都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡 單,相關之處參見方法實施例的部分說明即可。以上對本發(fā)明所提供的一種輸入過程中編碼糾錯的提示方法和裝置,進行以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應用范圍上均 會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。
權利要求
1、一種輸入過程中編碼糾錯的提示方法,其特征在于,包括接收用戶輸入的編碼字符串;依據(jù)所接收的編碼字符串,轉換得到相應的候選項;判斷所述候選項中是否存在通過易混淆編碼等同方式而得到的候選項;如果是,則提示編碼糾錯信息。
2、 如權利要求1所述的方法,其特征在于,通過以下方式提示編碼糾錯 信息在展現(xiàn)該候選項的同時,展現(xiàn)其相應的正確編碼字符串。
3、 如權利要求2所述的方法,其特征在于,當存在多個通過易混淆編碼 等同方式得到的候選項時,還包括依據(jù)預置規(guī)則對上述多個候選項進行篩選,僅對其中符合條件的部分候選 項及其相應的正確編碼字符串進行展現(xiàn)提示。
4、 如權利要求1或3所述的方法,其特征在于,在提示編碼糾錯信息之 前還包括進一步判斷該通過易混淆編碼等同方式而得到的特定候選項的出現(xiàn)次數(shù) 或者出現(xiàn)頻率是否大于等于預定閾值,如果是,則提示編碼糾錯信息。
5、 如權利要求4所述的方法,其特征在于,所述出現(xiàn)次數(shù)或者出現(xiàn)頻率是針對輸入法當前用戶的;或者,所述出現(xiàn)次數(shù)或者出現(xiàn)頻率是針對整個輸入法用戶群的。
6、 如權利要求l所述的方法,其特征在于,還包括 收集編碼糾錯信息,生成糾錯記錄表,所述糾錯記錄表包括用戶輸入串、標準字符串和相應候選項。
7、 如權利要求1所述的方法,其特征在于,通過以下方式判斷得知一候 選項是否通過易混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如果不 同,則確定該候選項為通過易混淆編碼等同方式得到的。
8、 如權利要求1所述的方法,其特征在于,通過以下方式判斷得知一候 選項是否通過易混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如果不 同,則進一步判斷其是否滿足正常轉換規(guī)則,如果不滿足,則確定該候選項為 通過易混淆編碼等同方式得到的。
9、 如權利要求1所述的方法,其特征在于,當應用拼音輸入法時,通過 以下方式判斷得知一候選項是否通過易混淆編碼等同方式而得到在從用戶輸入的編碼字符串得到候選項的過程中,記錄音節(jié)生成規(guī)則的屬 性,如果應用了特定易混淆編碼等同方式,則確定該候選項為通過易混淆編碼 等同方式得到的。
10、 如權利要求l所述的方法,其特征在于,通過以下方式判斷得知一候 選項是否通過易混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串作為一個映射關系, 在輸入法的映射規(guī)則表中檢索其是否滿足特定易混淆編碼等同方式,如果是, 則確定該候選項為通過易混淆編碼等同方式得到的。
11、 一種輸入過程中編碼糾錯的提示裝置,其特征在于,包括 接口單元,用于接收用戶輸入的編碼字符串;編碼轉換單元,用于依據(jù)所接收的編碼字符串,轉換得到相應的候選項; 混淆判斷單元,用于判斷所述候選項中是否存在通過易混淆編碼等同方式 而得到的候選項;如果是,則通知信息展示單元; 信息展示單元,用于提示編碼糾錯信息。
12、 如權利要求11所述的裝置,其特征在于,通過以下方式提示編碼糾 錯信息在展現(xiàn)該候選項的同時,展現(xiàn)其相應的正確編碼字符串。
13、 如權利要求12所述的裝置,其特征在于,當存在多個通過易混淆編 碼等同方式得到的候選項時,在混淆判斷單元和信息展示單元之間還包括第一篩選模塊,用于依據(jù)預置規(guī)則對上述多個候選項進行篩選,僅對其中 符合條件的部分候選項及其相應的正確編碼字符串通知信息展示單元進行展 現(xiàn)提示。
14、 如權利要求11或13所述的裝置,其特征在于,在混淆判斷單元和信 息展示單元之間還包括第二篩選模塊,用于判斷該通過易混淆編碼等同方式而得到的特定候選項 的出現(xiàn)次數(shù)或者出現(xiàn)頻率是否大于等于預定閾值,如果是,則通知信息展示單 元進行展現(xiàn)提示。
15、 如權利要求11所述的裝置,其特征在于,還包括 糾錯記錄表生成單元,用于收集編碼糾錯信息,生成糾錯記錄表,所述糾錯記錄表包括用戶輸出編碼字符串、標準字符串和相應的候選項。
16、 如權利要求11所述的裝置,其特征在于,通過以下方式判斷得知一 候選項是否通過易混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如果不 同,則確定該候選項為通過易混淆編碼等同方式得到的。
17、 如權利要求11所述的裝置,其特征在于,通過以下方式判斷得知一 候選項是否通過易混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串進行比較,如果不 同,則進一步判斷其是否滿足正常轉換規(guī)則,如果不滿足,則確定該候選項為 通過易混淆編碼等同方式得到的。
18、 如權利要求11所述的裝置,其特征在于,當應用"^并音輸入法時,通 過以下方式判斷得知一候選項是否通過易混淆編碼等同方式而得到在從用戶輸入的編碼字符串得到候選項的過程中,記錄音節(jié)生成規(guī)則的屬 性,如果應用了特定易混淆編碼等同方式,則確定該候選項為通過易混淆編碼 等同方式得到的。
19、 如權利要求11所述的裝置,其特征在于,通過以下方式判斷得知一 候選項是否通過易混淆編碼等同方式而得到將用戶所輸入的編碼字符串與該候選項的標準編碼串作為一個映射關系, 在輸入法的映射規(guī)則表中檢索其是否滿足特定易混淆編碼等同方式,如果是, 則確定該候選項為通過易混淆編碼等同方式得到的。
全文摘要
本發(fā)明提供了一種輸入過程中編碼糾錯的提示方法和裝置,該方法可以包括以下步驟接收用戶輸入的編碼字符串;依據(jù)所接收的編碼字符串,轉換得到相應的候選項;判斷所述候選項中是否存在通過易混淆編碼等同方式而得到的候選項;如果是,則提示編碼糾錯信息。本發(fā)明為了幫助用戶輸入正確的編碼字符串,創(chuàng)新性的提出在混淆的情況下,自動向用戶提供包括正確編碼字符串的提示信息,以幫助用戶在使用過程中主動提高編碼字符串的輸入準確度,降低用戶對模糊音的依賴。
文檔編號G06F3/023GK101276245SQ20081010421
公開日2008年10月1日 申請日期2008年4月16日 優(yōu)先權日2008年4月16日
發(fā)明者磊 楊 申請人:北京搜狗科技發(fā)展有限公司