两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于聯(lián)合圖模型的糾錯方法及系統(tǒng)的制作方法

文檔序號:6549578閱讀:263來源:國知局
基于聯(lián)合圖模型的糾錯方法及系統(tǒng)的制作方法
【專利摘要】一種信息處理【技術(shù)領(lǐng)域】的基于聯(lián)合圖模型的糾錯方法及系統(tǒng),基于拼音規(guī)則和拼音音節(jié)語言模型,使用最短路徑算法,對用戶輸入的可能包含錯誤的拼音串進行音節(jié)切分,并對切分得到的音節(jié)串構(gòu)建拼音糾錯和整句生成的聯(lián)合圖模型,最終通過在聯(lián)合圖模型上進行最短路徑解碼,獲得拼音糾錯-整句生成聯(lián)合最優(yōu)解,完成糾錯。本發(fā)明能夠在拼音輸入含有錯誤時仍能夠通過自動容錯糾錯,生成用戶意圖輸入的句子,在復(fù)雜度為0(E)的情況下準(zhǔn)確率達到97%以上。
【專利說明】基于聯(lián)合圖模型的糾錯方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及的是一種信息處理【技術(shù)領(lǐng)域】的方法,具體是一種基于聯(lián)合圖模型的糾 錯方法及系統(tǒng)。

【背景技術(shù)】
[0002] 人們的日常工作與生活強烈地依賴于中文輸入法。不論是寫郵件、發(fā)短信,還是寫 文章、填表格;凡是需要將中文輸入到計算機當(dāng)中幾乎都離不開中文輸入法。中文輸入也是 中文的信息化處理的重要環(huán)節(jié),只有將中文通過輸入法錄入到計算機中,才可能進行后續(xù) 的儲存、分類、統(tǒng)計、檢索、傳輸?shù)刃畔⒒幚砉ぷ?。作為人們?nèi)粘I畹谋匦柢浖椭形男?息處理的基石,中文輸入法的重要性不言而喻。
[0003] 早期的中文輸入法受限于計算機的軟硬件條件,普遍要求用戶不得不去適應(yīng)機 器,如記憶大量的編碼,或產(chǎn)生歧義時人工選擇等。隨著計算機的性能的不斷提升,計算機 硬件方面漢字輸入計算機的性能制約已不復(fù)存在,中文輸入法軟件也隨之進步發(fā)展。
[0004] 現(xiàn)階段主流的輸入法都采用了拼音輸入、整句解碼的架構(gòu)。用戶只需要輸入和漢 字句子對應(yīng)的連續(xù)的拼音串,輸入法會自動進行拼音切分,查找候選詞,最終解碼生成整 句。整句解碼不僅使用戶的輸入更加連貫自然,更重要的是利用了整句層面的統(tǒng)計語言學(xué) 信息極大程度地減少了歧義,使得中文輸入更加準(zhǔn)確高效。
[0005] 然而現(xiàn)有的整句解碼方案都要求用戶的拼音輸入沒有錯誤,否則便無法進行正確 解碼。然而隨著智能手機、平板電腦等觸摸屏便攜智能設(shè)備的普及,受限于觸摸屏的軟鍵盤 的大小和缺乏物理反饋,拼音輸入的錯誤率較使用物理鍵盤大大增加,極大地影響了這些 設(shè)備上的使用體驗和輸入效率。
[0006] 經(jīng)過對現(xiàn)有技術(shù)的檢索發(fā)現(xiàn),中國專利文獻號CN102156551A公開(公告)日 2011. 08. 17,公開了一種字詞輸入的糾錯方法及系統(tǒng),其中:,所述方法包括:檢測用戶輸 入的編碼字符串中存在的錯誤輸入片段;糾正所述編碼字符串中的錯誤輸入片段,生成至 少一個糾錯候選字符串;利用基于編碼字符串的噪音信道模型,對所述糾錯候選字符串進 行評估;根據(jù)評估的結(jié)果,將至少一個所述糾錯候選字符串轉(zhuǎn)換為輸入文字,并展現(xiàn)所述輸 入文字。通過該技術(shù),能夠提高糾錯的有效性或命中率。但該技術(shù)基于的是片段的字符串, 且對拼音和漢字是分開處理的,由于忽視了拼音與漢字之間的關(guān)聯(lián)性,使得其糾錯的正確 率較低。
[0007] 中國專利文獻號CN101350004公開(公告)日2009. 01. 21,公開了一種形成個性 化糾錯模型的方法,該方法包括:收集用戶的輸入信息;分析所述輸入信息,獲取用戶的輸 入習(xí)慣信息;根據(jù)所述輸入習(xí)慣信息對當(dāng)前糾錯模型進行調(diào)整,得到個性化糾錯模型。該技 術(shù)還公開了一種形成個性化糾錯模型的裝置及個性化糾錯的輸入法系統(tǒng)。該技術(shù)通過對當(dāng) 前糾錯模型進行調(diào)整來得到符合用戶輸入習(xí)慣的個性化糾錯模型,以用于實現(xiàn)對用戶的輸 入序列進行更準(zhǔn)確的個性化自動糾錯。另外,可以收集多方面的信息,糾錯范圍不僅包括類 似南方模糊音的認(rèn)知錯誤,還包括非認(rèn)知錯誤,糾錯覆蓋面廣。由于綜合考慮了輸入設(shè)備布 局、輸入設(shè)備質(zhì)量等因素,使得該技術(shù)可以適用于PC鍵盤、迷你鍵盤等不同的輸入設(shè)備,具 有廣泛的適用性。但該技術(shù)需要收集用戶輸入信息來建立糾錯模型,使得不同用戶使用過 程中的輸入習(xí)慣將導(dǎo)致糾錯的結(jié)果各不相同。


【發(fā)明內(nèi)容】

[0008] 本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提出一種基于聯(lián)合圖模型的糾錯方法及系 統(tǒng),基于拼音切分、拼音糾錯和漢字整句解碼聯(lián)合圖模型來達到容錯輸入的拼音輸入法,在 拼音輸入含有錯誤時仍能夠通過自動容錯糾錯,生成用戶意圖輸入的句子。
[0009] 本發(fā)明是通過以下技術(shù)方案實現(xiàn)的,本發(fā)明基于拼音規(guī)則和拼音音節(jié)語言模型, 使用最短路徑算法,對用戶輸入的可能包含錯誤的拼音串進行音節(jié)切分,并對切分得到的 音節(jié)串構(gòu)建拼音糾錯和整句生成的聯(lián)合圖模型,最終通過在聯(lián)合圖模型上進行最短路徑解 碼,獲得拼音糾錯-整句生成聯(lián)合最優(yōu)解,完成糾錯。
[0010] 所述的拼音音節(jié)語言模型是指:使用拼音文本訓(xùn)練得到拼音音節(jié)語言模型。
[0011] 所述的音節(jié)切分是指:使用最短路徑算法對拼音音節(jié)進行切分。
[0012] 所述的聯(lián)合圖模型通過以下步驟構(gòu)建得到:
[0013] 4. 1)將用戶輸入的可能包含錯誤的拼音串中的音節(jié)作為節(jié)點加入圖模型;
[0014] 4. 2)對音節(jié)串中母進行逐一修改,將替換得到的新的合法音節(jié)加入圖模型;
[0015] 4. 3)合并輸入字符串上相鄰的音節(jié),當(dāng)?shù)玫椒蠞h語拼音規(guī)范的合法音節(jié)則加入 步驟4. 2)中的圖模型中;
[0016] 4. 4)通過查找拼音-漢字詞典,將圖模型的節(jié)點由音節(jié)轉(zhuǎn)換為漢字詞,獲得聯(lián)合 圖模型。
[0017] 所述的漢字詞語言模型通過使用已經(jīng)分詞的漢字文本訓(xùn)練得到。
[0018] 所述的聯(lián)合圖模型中:使用拼音-漢字發(fā)射概率和拼音修改的編輯概率加權(quán)求和 作為節(jié)點權(quán)重,使用漢字詞語言模型概率作為邊權(quán)重。
[0019] 所述的拼音-漢字發(fā)射概率通過使用拼音-漢字對應(yīng)文本抽取拼音-漢字詞典并 訓(xùn)練得到。
[0020] 所述的拼音修改的編輯概率是指:將一個拼音串在當(dāng)前上下文中修改為相鄰的一 個拼音串的概率。
[0021] 本發(fā)明涉及實現(xiàn)上述方法的系統(tǒng),包括:交互裝置、切分模塊、聯(lián)合圖模型生成模 塊和最短路徑計算模塊,其中:交互裝置接收用戶輸入的拼音字符串并輸出至切分模塊,切 分模塊根據(jù)預(yù)存的拼音規(guī)則和拼音音節(jié)語言模型,使用最短路徑算法對拼音字符串進行切 分,并將切分后音節(jié)串的輸出至聯(lián)合圖模型生成模塊,聯(lián)合圖模型生成模塊根據(jù)音節(jié)串生 成拼音糾錯和整句生成的聯(lián)合圖模型并分別輸出至最短路徑計算模塊,最短路徑計算模塊 針對聯(lián)合圖模型進行最短路徑解碼,并根據(jù)拼音糾錯聯(lián)合得到糾錯結(jié)果并將糾錯后的結(jié)果 反饋至交互裝置。 技術(shù)效果
[0022] 與現(xiàn)有技術(shù)相比,本發(fā)明糾錯方法相比現(xiàn)有技術(shù)更加高效、快速、準(zhǔn)確,其算法復(fù) 雜度為〇 (E),處理速度能夠達到2000字/秒;準(zhǔn)確率為97. 52 %,而現(xiàn)有的google輸入法 糾錯準(zhǔn)確率為95. 26%。

【專利附圖】

【附圖說明】
[0023] 圖1為實施例拼音切分示意圖。
[0024] 圖2為實施例糾錯圖模型示意圖。
[0025] 圖3為實施例聯(lián)合圖模型示意圖。

【具體實施方式】
[0026] 下面對本發(fā)明的實施例作詳細(xì)說明,本實施例在以本發(fā)明技術(shù)方案為前提下進行 實施,給出了詳細(xì)的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施 例。 實施例1
[0027] 如圖1所示,本實施對用戶輸入的可能包含錯誤的拼音串,對拼音糾錯和整句生 成進行聯(lián)合解碼,包括以下步驟:
[0028] 1.使用拼音文本訓(xùn)練得到拼音音節(jié)語言模型;
[0029] 2.使用已經(jīng)分詞的漢字文本訓(xùn)練得到漢字詞語言模型;
[0030] 3.使用拼音-漢字對應(yīng)文本抽取拼音-漢字詞典,訓(xùn)練得到拼音-漢字發(fā)射概率 模型。
[0031] 本實施例使用了一個已經(jīng)收集好的拼音-漢字對應(yīng)的人民日報語料庫進行訓(xùn)練。 使用拼音部分訓(xùn)練得到拼音音節(jié)語言模型,拼音音節(jié)語言模型可以提供已知已經(jīng)出現(xiàn)的若 干拼音音節(jié)Si_ n. . . ShSh,下一個拼音音節(jié)sn的概率P (Si I Si_n. . . ShSh)。
[0032] 類似地,使用已經(jīng)分詞的漢字部分訓(xùn)練得到漢字詞語言模型,提供已知已經(jīng)出現(xiàn) 的若干漢字詞Wi_ n. . . WhWh,下一個拼音音節(jié)Wi的概率P (Wi I Wi_n. . . WhWh)。
[0033] 使用拼音-漢字對應(yīng)語料庫,抽取拼音-漢字詞典,并訓(xùn)練得到拼音-漢字詞發(fā)射 概率P(W |S),其中:w為漢字詞,S為它的拼音。
[0034] 所述的拼音音節(jié)語言模型的獲得方式為:
[0035] = -Cm:)), 其中:count (xa. ·· xk)為序 列xjy . . xk的在語料中的計數(shù),smooth ()為平滑函數(shù)。
[0036] 所述的拼音-漢字發(fā)射概率的獲得方式為POP) = smoothC7untTs^,其中: count (w)為詞語w的在語料中的計數(shù),count (S)為拼音S的在語料中的計數(shù),smooth ()為 平滑函數(shù)。
[0037] 按照拼音規(guī)則和拼音音節(jié)語言模型,使用最短路徑算法,對用戶輸入的拼音進行 音節(jié)切分:
[0038] 對于用戶輸入的拼音串. . cN,如果其子串. . Cj可以組成一個合法音節(jié)Si, j,就將其作為節(jié)點加入到圖中,相鄰音節(jié)Sy,s^k之間有一條邊相連,邊權(quán)重由拼音語言 模型P (Si 給出。在這個圖上求最短路徑,即可得到概率最大的音節(jié)切分。
[0039] 例如,用戶希望輸入"你好世界",并且錯誤地輸入了拼音"mihaoshijiw",拼音切 分過程如圖1所示。
[0040] 對切分得到的音節(jié)串構(gòu)建拼音糾錯和整句生成的聯(lián)合圖模型,并進行聯(lián)合優(yōu)化解 碼,具體包括:
[0041] i)將音節(jié)串中的音節(jié)作為節(jié)點加入圖模型,即將2中的音節(jié)Si,j加入這一步中的 圖中。
[0042] ii)使用任意一種現(xiàn)有技術(shù)對音節(jié)串中的字母進行逐一修改。將替換得到的新的 合法音節(jié)加入圖模型。合并相鄰的音節(jié),如果可以得到合法的音節(jié),也加入圖模型,即修改 Si,j得到Sy,如果Sy也是一個合法的音節(jié),就將其加入圖中。如果Sy,sJ+1,k可以合并成 一個新的合法音節(jié) Si, k,就將其加入圖中。
[0043] iii)本實施例中,得到的新的圖模型如圖2所示。
[0044] iv)通過查找拼音-漢字詞典,將圖模型的節(jié)點由音節(jié)轉(zhuǎn)換為漢字詞,獲得聯(lián)合 圖模型,即通過合并若干相鄰的音節(jié)為一個可能的詞 Siu'+1,k...,在詞典中查找是否存在 對應(yīng)的漢字詞語w,如果有,就將這些音節(jié)對應(yīng)的節(jié)點合并出一個新的節(jié)點代表這個漢字詞 語。
[0045] 本實施例中,這個圖模型如圖3所示,進一步地:使用拼音-漢字發(fā)射概率和拼音 修改的編輯概率加權(quán)求和為節(jié)點權(quán)重。使用漢字詞語言模型概率為邊權(quán)重。
[0046] 使用編輯距離近似編輯概率,與拼音-漢字發(fā)射概率加權(quán)求和得到節(jié)點權(quán)重。而 邊權(quán)重由漢字詞語言模型P (Wi I Wi_n. . . W^Wh)給出。
[0047] 在聯(lián)合圖模型上進行最短路徑解碼,獲得拼音糾錯-整句生成聯(lián)合最優(yōu)解,即在 漢字詞語的節(jié)點上進行最短路徑解碼,得到整句概率最大同時糾錯概率最大的聯(lián)合最優(yōu)結(jié) 果。
[0048] 本實施例實現(xiàn)上述方法的系統(tǒng)包括:交互裝置、切分模塊、聯(lián)合圖模型生成模塊和 最短路徑計算模塊,其中:交互裝置接收用戶輸入的拼音字符串并輸出至切分模塊,切分模 塊根據(jù)預(yù)存的拼音規(guī)則和拼音音節(jié)語言模型,使用最短路徑算法對拼音字符串進行切分, 并將切分后音節(jié)串的輸出至聯(lián)合圖模型生成模塊,聯(lián)合圖模型生成模塊根據(jù)音節(jié)串生成拼 音糾錯和整句生成的聯(lián)合圖模型并分別輸出至最短路徑計算模塊,最短路徑計算模塊針對 聯(lián)合圖模型進行最短路徑解碼,并根據(jù)拼音糾錯聯(lián)合得到糾錯結(jié)果并將糾錯后的結(jié)果反饋 至交互裝置。
[0049] 本實施例中,用戶通過向交互裝置輸入拼音"mihaoshi jiw",系統(tǒng)自動判斷用戶希 望輸入的拼音為" nihaoshijie",經(jīng)拼音糾錯-整句生成聯(lián)合最優(yōu)解,即"你好世界"。
【權(quán)利要求】
1. 一種基于聯(lián)合圖模型的糾錯方法,其特征在于,基于拼音規(guī)則和拼音音節(jié)語言模型, 使用最短路徑算法,對用戶輸入的可能包含錯誤的拼音串進行音節(jié)切分,并對切分得到的 音節(jié)串構(gòu)建拼音糾錯和整句生成的聯(lián)合圖模型,最終通過在聯(lián)合圖模型上進行最短路徑解 碼,獲得拼音糾錯-整句生成聯(lián)合最優(yōu)解,完成糾錯。
2. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的拼音音節(jié)語言模型是指:使用拼音 文本訓(xùn)練得到拼音音節(jié)語言模型,拼音音節(jié)語言模型根據(jù)已知已經(jīng)出現(xiàn)的若干拼音音節(jié) Sif. ,提供下一個拼音音節(jié)sn的概率P (Si I Sif·· s^s^)。
3. 根據(jù)權(quán)利要求1或2所述的方法,其特征是,所述的拼音音節(jié)語言模型的獲得方 式為:Ρ〇?|Χ?_η 〇 = ,其中:count (Χιχ2· ·· xk)為序列 XiX2. . . xk的在語料中的計數(shù),smooth ()為平滑函數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的音節(jié)切分是指:使用最短路徑算法對 拼音音節(jié)進行切分。
5. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的聯(lián)合圖模型通過以下方式構(gòu)建得到: 4. 1)將用戶輸入的可能包含錯誤的拼音串中的音節(jié)作為節(jié)點加入圖模型; 4. 2)使用任意一種現(xiàn)有技術(shù)對音節(jié)串中的字母進行逐一修改,將替換得到的新的合法 音節(jié)加入圖模型; 4. 3)合并輸入字符串上相鄰的音節(jié),當(dāng)?shù)玫椒蠞h語拼音規(guī)范的合法音節(jié)則加入步驟 4. 2)中的圖模型中;否則什么都不做; 4. 4)通過查找拼音-漢字詞典,將圖模型的節(jié)點由音節(jié)轉(zhuǎn)換為漢字詞,獲得聯(lián)合圖模 型。
6. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的漢字詞語言模型通過使用已經(jīng)分詞 的漢字文本訓(xùn)練得到,漢字詞語言模型根據(jù)已知已經(jīng)出現(xiàn)的若干漢字詞,提 供下一個拼音音節(jié)R的概率P (Wi | Wi_n. . . 。
7. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的聯(lián)合圖模型中:使用拼音-漢字發(fā) 射概率和拼音修改的編輯概率加權(quán)求和作為節(jié)點權(quán)重,使用漢字詞語言模型概率作為邊權(quán) 重。
8. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的拼音-漢字發(fā)射概率是指:通過使用 拼音-漢字對應(yīng)文本抽取拼音-漢字詞典并訓(xùn)練得到P (w | S),其中:w為漢字詞,S為它的 拼音;/>^|5)=通〇〇晰^^),其中:count (w)為詞語w的在語料中的計數(shù),count⑶為 拼音S的在語料中的計數(shù),smooth ()為平滑函數(shù)。
9. 一種實現(xiàn)上述任一權(quán)利要求所述基于聯(lián)合圖模型的糾錯方法的系統(tǒng),其特征在于, 包括:交互裝置、切分模塊、聯(lián)合圖模型生成模塊和最短路徑計算模塊,其中:交互裝置接 收用戶輸入的拼音字符串并輸出至切分模塊,切分模塊根據(jù)預(yù)存的拼音規(guī)則和拼音音節(jié)語 言模型,使用最短路徑算法對拼音字符串進行切分,并將切分后音節(jié)串的輸出至聯(lián)合圖模 型生成模塊,聯(lián)合圖模型生成模塊根據(jù)音節(jié)串生成拼音糾錯和整句生成的聯(lián)合圖模型并分 別輸出至最短路徑計算模塊,最短路徑計算模塊針對聯(lián)合圖模型進行最短路徑解碼,并根 據(jù)拼音糾錯聯(lián)合得到糾錯結(jié)果并將糾錯后的結(jié)果反饋至交互裝置。
【文檔編號】G06F17/30GK104050255SQ201410264085
【公開日】2014年9月17日 申請日期:2014年6月13日 優(yōu)先權(quán)日:2014年6月13日
【發(fā)明者】賈鐘燁, 趙海, 王玉柱 申請人:上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
香港| 阿荣旗| 连南| 阿尔山市| 玛纳斯县| 建水县| 阳城县| 苏尼特左旗| 虎林市| 彩票| 莫力| 泾川县| 尼玛县| 横山县| 银川市| 黄大仙区| 波密县| 黎平县| 瑞安市| 呼和浩特市| 美姑县| 阿坝县| 福建省| 偃师市| 彭水| 凤冈县| 阜宁县| 隆化县| 桓台县| 德钦县| 子洲县| 白山市| 海宁市| 静海县| 铁岭县| 江西省| 淮阳县| 平乐县| 昌都县| 龙江县| 类乌齐县|