提高統(tǒng)計語言模型準確度的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種提高統(tǒng)計語言模型準確度的方法及系統(tǒng),該方法包括:獲取訓(xùn)練語料,并將所述訓(xùn)練語料分為兩部分:訓(xùn)練集和保留集;在所述訓(xùn)練集上統(tǒng)計各階語言模型對應(yīng)的詞頻,并對詞頻為0的語言模型設(shè)置對應(yīng)的補償參數(shù),所述補償參數(shù)的取值在設(shè)定范圍內(nèi);在所述保留集上按設(shè)定步長遍歷對應(yīng)所述語言模型的補償參數(shù)在所述設(shè)定范圍內(nèi)的各值,獲得使目標函數(shù)最小的最優(yōu)補償參數(shù);利用對應(yīng)所述語言模型的最優(yōu)補償參數(shù)計算所述語言模型的條件概率,得到統(tǒng)計語言模型。利用本發(fā)明,可以有效提高語言模型的整體識別率。
【專利說明】提高統(tǒng)計語言模型準確度的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別【技術(shù)領(lǐng)域】,具體涉及一種提高統(tǒng)計語言模型準確度的方法及 系統(tǒng)。
【背景技術(shù)】
[0002] 統(tǒng)計語言模型在自然語言處理技術(shù)中占有重要地位,在語音識別、光學(xué)字符識別、 機器翻譯、漢語拼音輸入、信息檢索等許多系統(tǒng)中都得到了成功的應(yīng)用。在語音識別中,計 算機需要知道一個文字序列是否能構(gòu)成一個大家理解而且有意義的句子,然后顯示或者打 印給使用者。
[0003] 例如:給定拼音串:ta shi yan jiu sheng wu de ;
[0004] 可能的漢字串有以下幾種:踏實研究生物的、他實驗救生物的、他使煙酒生物的、 他是研究生物的等等。
[0005] 如何讓計算機選擇一個最可能的漢字串,就要用到統(tǒng)計語言模型。
[0006] 在統(tǒng)計語言模型中,判斷一個句子是否合理,就要看它的可能性大小。假定S表示 一個有意義的句子,由一連串特定順序排列的詞Wp W2, . . .,Wn組成,即S = Wi,W2, . . .,Wn,η 是句子的長度,則S在文本中出現(xiàn)的概率為:
[0007] P ⑶=P (W" W2,…,Wn)
[0008] 由條件概率可知,S這個序列在文本中出現(xiàn)的概率等于每一個詞出現(xiàn)的條件概率 相乘,即:
[0009] P(S) =P(W1)XP(W2|W1)XP(W3|W 1,W2)X··· XPOVjH···,^
[0010] 其中,P(Wi)表示第一個詞出現(xiàn)的概率,P^IWi)表示在已知第一個詞的前提下,第 二個詞出現(xiàn)的概率,依此類推。
[0011] 但是依然有一個問題,就是文本序列越靠后的詞,依賴的詞越多,到最后一個詞時 可能都無法估算。為此,業(yè)界給出了一個簡單有效的方法,即假設(shè)任意一個詞Wi出現(xiàn)的概 率只與它前面的詞Wg有關(guān),則上式(2)簡化為 :
[0012] p(s) = Pdi) xpdjffi) xp(w3|w2) x... xpdjw^)
[0013] 但是,對于統(tǒng)計語言模型,還有很多細節(jié)問題需要解決,其中一個問題就是零概率 問題。而且,隨著階數(shù)的增大,估計為0的模型數(shù)越來越多,對語音識別正確率有較大影響。 為此,現(xiàn)有技術(shù)中通過平滑處理來改進模型的整體正確率。目前,統(tǒng)計語言模型的平滑方法 主要有:絕對折扣平滑、Kneser-Ney折扣平滑、witten-bell折扣平滑等。這幾種方法,都 是在使非零概率下降的時候,同時改變了非零概率之間的分布比例,導(dǎo)致語言模型困惑度 上升,整體正確率下降。
【發(fā)明內(nèi)容】
[0014] 本發(fā)明實施例提供一種提高統(tǒng)計語言模型準確度的方法及系統(tǒng),在不改變非零概 率之間的分布比例的情況下,消除零概率,提高語言模型的整體識別率。
[0015] 為此,本發(fā)明實施例提供如下技術(shù)方案:
[0016] 一種提高統(tǒng)計語言模型準確度的方法,包括:
[0017] 獲取訓(xùn)練語料,并將所述訓(xùn)練語料分為兩部分:訓(xùn)練集和保留集;
[0018] 在所述訓(xùn)練集上統(tǒng)計各階語言模型對應(yīng)的詞頻,并對詞頻為0的語言模型設(shè)置對 應(yīng)的補償參數(shù),所述補償參數(shù)的取值在設(shè)定范圍內(nèi);
[0019] 在所述保留集上按設(shè)定步長遍歷對應(yīng)所述語言模型的補償參數(shù)在所述設(shè)定范圍 內(nèi)的各值,獲得使目標函數(shù)最小的最優(yōu)補償參數(shù);
[0020] 利用對應(yīng)所述語言模型的最優(yōu)補償參數(shù)計算所述語言模型的條件概率,得到統(tǒng)計 語目模型。
[0021] 優(yōu)選地,所述將所述訓(xùn)練語料分為兩部分包括:
[0022] 按照任意比例將所述訓(xùn)練語料分為兩部分。
[0023] 優(yōu)選地,所述設(shè)定范圍為0?1。
[0024] 優(yōu)選地,所述目標函數(shù)為語言模型的困惑度PP :
[0025]
【權(quán)利要求】
1. 一種提高統(tǒng)計語言模型準確度的方法,其特征在于,包括: 獲取訓(xùn)練語料,并將所述訓(xùn)練語料分為兩部分:訓(xùn)練集和保留集; 在所述訓(xùn)練集上統(tǒng)計各階語言模型對應(yīng)的詞頻,并對詞頻為0的語言模型設(shè)置對應(yīng)的 補償參數(shù),所述補償參數(shù)的取值在設(shè)定范圍內(nèi); 在所述保留集上按設(shè)定步長遍歷對應(yīng)所述語言模型的補償參數(shù)在所述設(shè)定范圍內(nèi)的 各值,獲得使目標函數(shù)最小的最優(yōu)補償參數(shù); 利用對應(yīng)所述語言模型的最優(yōu)補償參數(shù)計算所述語言模型的條件概率,得到統(tǒng)計語言 模型。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述訓(xùn)練語料分為兩部分包括: 按照任意比例將所述訓(xùn)練語料分為兩部分。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述設(shè)定范圍為0?1。
4. 根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述目標函數(shù)為語言模型的困 惑度PP :
P(Si)表示所述保留集語料中的詞串序列Si在所述訓(xùn)練集語料中出現(xiàn)的概率,ni表示 所述詞串序列Si在所述訓(xùn)練集語料中出現(xiàn)的次數(shù)。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述利用對應(yīng)所述語言模型的最優(yōu)補償 參數(shù)對所述語言模型進行優(yōu)化,得到優(yōu)化后的語言模型包括: 對于同階的非零概率部分,
對于同階的零概率部分,
其中,詞串序列h = 1_η+1, · · ·,Wh,詞串序列h' = 1_η+2, · · ·,Wh, C(h)表示h在所述 訓(xùn)練集語料中出現(xiàn)的次數(shù);C(h,Wi)表示(h,Wi)在所述訓(xùn)練集語料中出現(xiàn)的次數(shù);λ (h) 表示對應(yīng)h的最優(yōu)補償參數(shù):
6. -種提高統(tǒng)計語言模型準確度的系統(tǒng),其特征在于,包括: 語料獲取模塊,用于獲取訓(xùn)練語料; 拆分模塊,用于將所述訓(xùn)練語料分為兩部分:訓(xùn)練集和保留集; 統(tǒng)計模塊,用于在所述訓(xùn)練集上統(tǒng)計各階語言模型對應(yīng)的詞頻,并對詞頻為〇的語言 模型設(shè)置對應(yīng)的補償參數(shù),所述補償參數(shù)的取值在設(shè)定范圍內(nèi); 最優(yōu)補償參數(shù)獲取模塊,用于在所述保留集上按設(shè)定步長遍歷對應(yīng)所述語言模型的補 償參數(shù)在所述設(shè)定范圍內(nèi)的各值,獲得使目標函數(shù)最小的最優(yōu)補償參數(shù); 優(yōu)化模塊,用于利用對應(yīng)所述語言模型的最優(yōu)補償參數(shù)計算所述語言模型的條件概 率,得到統(tǒng)計語言模型。
7. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述拆分模塊按照任意比例將所述訓(xùn)練 語料分為兩部分。
8. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述設(shè)定范圍為0?1。
9. 根據(jù)權(quán)利要求6至8任一項所述的系統(tǒng),其特征在于,所述目標函數(shù)為語言模型的困 惑度PP :
P(Si)表示所述保留集語料中的詞串序列Si在所述訓(xùn)練集語料中出現(xiàn)的概率,ni表示 所述詞串序列Si在所述訓(xùn)練集語料中出現(xiàn)的次數(shù)。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述優(yōu)化模塊具體按以下方式對所述語 言模型進行優(yōu)化: 對于同階的非零概率部分,
對于同階的零概率部分
其中,詞串序列h = 1_η+1, · · ·,Wh,詞串序列h' = 1_η+2, · · ·,Wh, C(h)表示h在所述 訓(xùn)練集語料中出現(xiàn)的次數(shù);C(h,Wi)表示(h,Wi)在所述訓(xùn)練集語料中出現(xiàn)的次數(shù);λ (h) 表示對應(yīng)h的最優(yōu)補償參數(shù),
【文檔編號】G10L15/06GK104112447SQ201410366038
【公開日】2014年10月22日 申請日期:2014年7月28日 優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】殷永光, 鹿曉亮, 梁修存 申請人:科大訊飛股份有限公司