專利名稱:一種應用于機頂盒的輸入方法及其裝置的制作方法
技術領域:
本發(fā)明涉及機頂盒技術領域,尤其涉及一種應用于機頂盒的輸入方法及其裝置。
背景技術:
隨著嵌入式系統(tǒng)在家電、娛樂、通信等領域的應用不斷發(fā)展,嵌入式系統(tǒng)越來越需要一個界面友好、支持中文的圖形系統(tǒng)。目前在嵌入式系統(tǒng)中廣泛使用的圖形系統(tǒng)對中文顯示已有很好的支持,但都不支持中文的輸入,因此中文輸入法在嵌入式圖形系統(tǒng)中的實現(xiàn),對于嵌入式相關產品的應用具有極強的現(xiàn)實意義。中文的拼音輸入法是自然語言的計算機處理學科的一個分支。從自然語言的角度,漢語是一種詞語豐富,格式自由的語言,而拼音類型相對比較少,因此單個或幾個拼音單元能匹配到的漢字詞組往往有很多,而且詞長度的組合也會有多種,這些因素大大增加了中文輸入法的計算復雜度。在嵌入式系統(tǒng)下實現(xiàn)中文輸入主要涉及兩個方面漢字顯示和中文輸入。漢字顯示特別是點陣漢字的顯示相對簡單,許多嵌入式系統(tǒng)已經支持,滿足了大部分應用的需求,輸入法一般都要支持一、二級常用漢字的輸入,一些簡單的系統(tǒng)只實現(xiàn)一級漢字的輸入。詞組聯(lián)想功能則可根據(jù)需要決定是否實現(xiàn),即使要實現(xiàn),往往也是對一級漢字實現(xiàn)詞組聯(lián)想。與個人計算機(Personal Computer, PC)相比,機頂盒的中央處理器(CentralProcessing Unit,CPU)速度有限;而與字詞級別的輸入相比,整句輸入需要占用更多的CPU線程,因此高效的查找算法對于系統(tǒng)的性能至關重要。當前常用的查找算法基于詞庫的寬帶為N的倒序查找算法。若詞庫文件正序排列,則整句輸入時用戶每輸入一個字的編碼后,都需要在詞庫中查找多次,觀察是否有滿足條件的詞。以編碼長度L en為3為例,若輸入序列為“042,68*,337,50*,076,707,317,8*”,期望輸出序列是“他是該事的見證人”。當前用戶輸入編碼為“503”中的“3”時,需要去詞庫中分別定位以編碼“042”、“68*”、“337”、“50*”開頭的詞,然后在其定位的位置查找編碼為“042,68*,337,50*”,“68*,337,50*”和“337,50*”,“50*”的詞,這樣需要查找字詞庫文件四次。實際上,輸入序列越長,定位、查找詞庫的次數(shù)越多?,F(xiàn)有技術存在以下缺陷傳統(tǒng)的編碼結構設計與現(xiàn)有技術中輸入方法的結構設計不同,在使用現(xiàn)有輸入方法時通過需要重新設計文件索引結構,詞庫文件結構;傳統(tǒng)設計不能有效快速匹配從詞庫搜索到的整句,不利于提高搜索效率。
發(fā)明內容
本發(fā)明的目的在于克服現(xiàn)有技術的不足,本發(fā)明提供了一種應用于機頂盒的輸入方法及其裝置,提高了詞庫的搜索效率,降低了計算復雜度,提高了機頂盒的輸入性能。為了解決上述問題,本發(fā)明提出了一種應用于機頂盒的輸入方法,所述方法包括輸入機頂盒用戶的輸入指令對應的拼音串;
將所述拼音串切分為多個詞組對應的拼音串;根據(jù)切分完的多個拼音串進行詞組匹配,獲得多個拼音串對應的漢字詞組;獲取各個漢字詞組的組合概率,并輸出組合概率最高的漢字詞組組合。優(yōu)選地,所述根據(jù)切分完的多個拼音串進行詞組匹配,獲得多個拼音串對應的漢字詞組的步驟包括在切分完的拼音串上選擇漢字詞組;獲取各個漢字詞組對應的概率;根據(jù)所獲得的概率選擇確認的漢字詞組,組成新的漢字詞組。優(yōu)選地,在所述獲取各個漢字詞組的組合概率的步驟之前還包括在新的漢字詞組后面添加后續(xù)詞組形成組合的漢字詞組,并根據(jù)新的漢字詞組的概率及后續(xù)詞組的概率獲得組合的漢字詞組的組合概率。優(yōu)選地,所述方法還包括保存組合的漢字詞組的組合概率。優(yōu)選地,所述在新的漢字詞組后面添加后續(xù)詞組形成組合的漢字詞組的步驟具體是在新的漢字詞組后面添加不同的后續(xù)詞組形成不同組合的漢字詞組。相應地,本發(fā)明實施例還提供一種應用于機頂盒的輸入裝置,所述裝置包括輸入模塊,用于輸入機頂盒用戶的輸入指令對應的拼音串;切分模塊,用于將所述輸入模塊所輸入的拼音串切分為多個詞組對應的拼音串;匹配模塊,用于根據(jù)所述切分模塊切分完的多個拼音串進行詞組匹配,獲得多個拼首串對應的漢字詞組;輸出模塊,用于獲取各個漢字詞組的組合概率,并輸出組合概率最高的漢字詞組組合。優(yōu)選地,所述匹配模塊包括選擇單元,用于在切分完的拼音串上選擇漢字詞組;概率獲取單元,用于獲取各個漢字詞組對應的概率;組成單元,用于根據(jù)所獲得的概率選擇確認的漢字詞組,組成新的漢字詞組。優(yōu)選地,所述裝置還包括添加模塊,用于在新的漢字詞組后面添加后續(xù)詞組形成組合的漢字詞組,并根據(jù)新的漢字詞組的概率及后續(xù)詞組的概率獲得組合的漢字詞組的組合概率。優(yōu)選地,所述裝置還包括保存模塊,用于保存組合的漢字詞組的組合概率。優(yōu)選地,所述添加模塊還用于在新的漢字詞組后面添加不同的后續(xù)詞組形成不同組合的漢字詞組。實施本發(fā)明實施例,通過對機頂盒用戶輸入內容的檢測記憶,使機頂盒能夠智能獲取用戶想要輸入的內容;通過每次記錄用戶的使用頻率來提高輸入的準確性,提高了詞庫的搜索效率,降低了計算復雜度,提高了機頂盒的輸入性能。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。圖1是本發(fā)明實施例的應用于機頂盒的輸入方法的流程示意圖;圖2是本發(fā)明實施例的應用于機頂盒的輸入裝置的結構組成示意圖。
具體實施例方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1是本發(fā)明實施例的應用于機頂盒的輸入方法的流程示意圖,如圖1所示,該方法包括:S101,輸入機頂盒用戶的輸入指令對應的拼音串;S102,將拼音串切分為多個詞組對應的拼音串;S103,根據(jù)切分完的多個拼音串進行詞組匹配,獲得多個拼音串對應的漢字詞組;S104,獲取各個漢字詞組的組合概率,并輸出組合概率最高的漢字詞組組合。具體實施中,S103包括:在切分完的拼音串上選擇漢字詞組;獲取各個漢字詞組對應的概率;根據(jù)所獲得的概率選擇確認的漢字詞組,組成新的漢字詞組。在所述獲取各個漢字詞組的組合概率的步驟之前還包括:在新的漢字詞組后面添加后續(xù)詞組形成組合的漢字詞組,并根據(jù)新的漢字詞組的概率及后續(xù)詞組的概率獲得組合的漢字詞組的組合概率;具體實施中,可以在新的漢字詞組后面添加不同的后續(xù)詞組形成不同組合的漢字詞組。進一步的,該方法還包括:保存組合的漢字詞組的組合概率。在本發(fā)明實施例中,對于拼音整句翻譯主要包括拼音串切分和詞組匹配。一句拼音串中包含多個詞組,通常漢字詞組是多種多樣的,如果長度為三的拼音串,可能是由一個一字詞組和一個兩字詞組組成(下面簡稱為1-2組合,其他也類似),也有可能2-1組合,也有可能1-1-1組合或3組合,隨拼音串長度的增加,組合方案的個數(shù)迅速增加;詞組匹配的任務是在切分好的拼音串上選擇漢字詞組,計算這種漢字詞組組合方案的總概率,選擇總概率最高的作為最終輸出(這里的概率為普通概率即普通個體與總體之比,句子切分為依次暴力切分的組合)??梢?,如果是15字的拼音串,在理論上可以有上億種輸出可能。而中文輸入法作為應用工具,對響應速度也有比較高的要求,“查全率”和“速度”是一個相互制約的指標,這就要求輸入方法在一定的“查全率”的基礎上,通過提高匹配效率提高“速度”。在本發(fā)明實施例中,句子是由漢字詞組(片段)組成的,一個片段加上一個詞組后組合成一個更大的片段,直到加上最后一個詞組后,組合成了一個句子。在實施過程中,假設一,組合概率函數(shù)是相對詞組的組合概率是嚴格單調的,即如果f = G(n, a),其中,η是片段,a是追加詞組,有兩個候選詞組al和a2,如al>a2,貝丨J fl必然大于f2,而且在最終的組合中Fl也必然大于F2。這個假設在常用句型中是通常是成立的。假設二,漢語句子是馬爾可夫一次相關的,即一個詞組的組合概率只和與它相鄰部分有關。從這個假設出發(fā),一個片段加上一個詞組的概率可以由片段的概率和這個詞組的概率計算得到,而與片段內部無關。根據(jù)以上兩點假設,一個片段可以由于加上的詞組不同,而組成不同的組合方式,但這個片段的固有概率在不同的組合方式中是相同的,可以被重復使用的。所以,,可以從句首組合小的片段,并把計算得到的該片段概率儲存起來;而后,嘗試添加一個后續(xù)詞組,選擇最大概率的組合作為到達這個位置的新片段,并儲存這個概率。由于到達該點的最后一個詞組的長度可以不一樣,所以到達該點的片段也是多個的,它們的概率被分別儲存;如此類推,直到匹配到句尾,有最終最大總概率的片段就是最終的輸出。(此處假設為考慮大部分情況忽略少數(shù)特殊的個例,不影響算法準確性)字庫在匹配時與用戶輸入的拼音進行比對,提供的各種參數(shù),具體實施中,可通過下面的代碼對一個字庫數(shù)據(jù)區(qū)結構進行定義Struct element {Int Len Word;//詞組的字長String pinyinStr;//拼音串String Hanzi ; // 漢字詞組Int freq;//詞組頻度Int offset; //到轉移矩陣的偏移}為存儲匹配過程中各片段的概率,再建立如下數(shù)組(以下簡稱為匹配數(shù)組)Struct Pianduan {ffchar HzWord;//該片段最后一個一字詞組Int SubProl;//包含該詞組的片段最高的概率Int perLinkl;//指向該最高概率片段中,前一個詞組.....//相應的二三字詞組ffchar Hzfford4[4] ;//該片段最后一個四字詞組Int SubPro4; //包含該詞組的片段最高的概率Int perLink4;//指向該最高概率片段中,前一個詞組String HzffordM;//包含該詞組的片段最高的概率Int HzWordML;//多字詞組的字長Int SubProM;//包含該詞組的片段最高的概率Int perLinkM;//指向該最高概率片段中,前一個詞組}另外,可通過以下代碼實現(xiàn)匹配的過程,包括預查、比對和輸出。
權利要求
1.一種應用于機頂盒的輸入方法,其特征在于,所述方法包括: 輸入機頂盒用戶的輸入指令對應的拼音串; 將所述拼音串切分為多個詞組對應的拼音串; 根據(jù)切分完的多個拼音串進行詞組匹配,獲得多個拼音串對應的漢字詞組; 獲取各個漢字詞組的組合概率,并輸出組合概率最高的漢字詞組組合。
2.如權利要求1所述的應用于機頂盒的輸入方法,其特征在于,所述根據(jù)切分完的多個拼音串進行詞組匹配,獲得多個拼音串對應的漢字詞組的步驟包括: 在切分完的拼音串上選擇漢字詞組; 獲取各個漢字詞組對應的概率; 根據(jù)所獲得的概率選擇確認的漢字詞組,組成新的漢字詞組。
3.如權利要求2所述的應用于機頂盒的輸入方法,其特征在于,在所述獲取各個漢字詞組的組合概率的步驟之前還包括:在新的漢字詞組后面添加后續(xù)詞組形成組合的漢字詞組,并根據(jù)新的漢字詞組的概率及后續(xù)詞組的概率獲得組合的漢字詞組的組合概率。
4.如權利要求3所述的應用于機頂盒的輸入方法,其特征在于,所述方法還包括:保存組合的漢字詞組的組合概率。
5.如權利要求3所述的應用于機頂盒的輸入方法,其特征在于,所述在新的漢字詞組后面添加后續(xù)詞組形成組合的漢字詞組的步驟具體是:在新的漢字詞組后面添加不同的后續(xù)詞組形成不同組合的漢字詞組。
6.一種應用于機頂盒的輸入裝置,其特征在于,所述裝置包括: 輸入模塊,用于輸入機頂盒用戶的輸入指令對應的拼音串; 切分模塊,用于將所述輸入模塊所輸入的拼音串切分為多個詞組對應的拼音串; 匹配模塊,用于根據(jù)所述切分模塊切分完的多個拼音串進行詞組匹配,獲得多個拼音串對應的漢字詞組; 輸出模塊,用于獲取各個漢字詞組的組合概率,并輸出組合概率最高的漢字詞組組合。
7.如權利要求6所述的應用于機頂盒的輸入裝置,其特征在于,所述匹配模塊包括: 選擇單元,用于在切分完的拼音串上選擇漢字詞組; 概率獲取單元,用于獲取各個漢字詞組對應的概率; 組成單元,用于根據(jù)所獲得的概率選擇確認的漢字詞組,組成新的漢字詞組。
8.如權利要求7所述的應用于機頂盒的輸入裝置,其特征在于,所述裝置還包括添加模塊,用于在新的漢字詞組后面添加后續(xù)詞組形成組合的漢字詞組,并根據(jù)新的漢字詞組的概率及后續(xù)詞組的概率獲得組合的漢字詞組的組合概率。
9.如權利要求8所述的應用于機頂盒的輸入裝置,其特征在于,所述裝置還包括保存模塊,用于保存組合的漢字詞組的組合概率。
10.如權利要求8所述的應用于機頂盒的輸入裝置,其特征在于,所述添加模塊還用于在新的漢字詞組后面添加不同的后續(xù)詞組形成不同組合的漢字詞組。
全文摘要
本發(fā)明實施例公開了一種應用于機頂盒的輸入方法及其裝置,其中,該方法包括輸入機頂盒用戶的輸入指令對應的拼音串;將所述拼音串切分為多個詞組對應的拼音串;根據(jù)切分完的多個拼音串進行詞組匹配,獲得多個拼音串對應的漢字詞組;獲取各個漢字詞組的組合概率,并輸出組合概率最高的漢字詞組組合。實施本發(fā)明實施例,通過對機頂盒用戶輸入內容的檢測記憶,使機頂盒能夠智能獲取用戶想要輸入的內容;通過每次記錄用戶的使用頻率來提高輸入的準確性,提高了詞庫的搜索效率,降低了計算復雜度,提高了機頂盒的輸入性能。
文檔編號G06F17/27GK103077213SQ20121058559
公開日2013年5月1日 申請日期2012年12月28日 優(yōu)先權日2012年12月28日
發(fā)明者王佳, 羅笑南, 孟思明, 陳湘萍 申請人:中山大學