一種基于雙層gmm結(jié)構(gòu)和vts特征補償?shù)墓铝⒃~識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別領(lǐng)域,具體涉及一種基于雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓?立詞識別方法。
【背景技術(shù)】
[0002] 近年來,隨著語音技術(shù)的發(fā)展,孤立詞識別技術(shù)在通信、消費電子、自助服務(wù)、辦公 自動化等多個領(lǐng)域得到了廣泛應(yīng)用,這些設(shè)備通常使用或者安裝在嘈雜的公共場所,不可 避免地受到各種干擾,而干擾會嚴重影響孤立詞識別系統(tǒng)的性能。此外,孤立詞識別系統(tǒng)識 別時間較長成為移植到嵌入式、投入實際應(yīng)用的不利因素。移動設(shè)備、自助服務(wù)設(shè)備的本機 孤立詞識別系統(tǒng)補償模塊計算量大,如何通過算法改進、優(yōu)化,降低特征補償?shù)挠嬎懔?,?時不降低系統(tǒng)性能,從而提高系統(tǒng)的實際應(yīng)用能力,成為了現(xiàn)有技術(shù)發(fā)展的方向。
【發(fā)明內(nèi)容】
[0003] 發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于雙層GMM結(jié)構(gòu) 和VTS特征補償?shù)墓铝⒃~識別方法,通過建立兩層GMM模型和HMM模型,減少了特征補償模 塊的計算量,解決了現(xiàn)有技術(shù)的不足。
[0004] 技術(shù)方案:為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
[0005] 一種基于雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓铝⒃~識別方法,其特征在于,包括純凈 環(huán)境和測試環(huán)境;該方法包括以下步驟:
[0006] 1)模型訓(xùn)練階段:在純凈環(huán)境下,利用所有孤立詞的純凈訓(xùn)練語音訓(xùn)練數(shù)據(jù)分別 得到兩個表示純凈環(huán)境下所有孤立詞的特征參數(shù)分布的高斯混合模型GMM,同時利用各個 孤立詞的純凈訓(xùn)練語音訓(xùn)練生成各個孤立詞對應(yīng)的表示純凈環(huán)境下每個孤立詞的特征參 數(shù)分布的HMM模型;
[0007] 所訴兩個高斯混合模型GMM包括高斯單元混合數(shù)設(shè)置為10的GMM1和高斯單元混 合數(shù)設(shè)置為100的GMM2 ;
[0008] 2)基于特征補償?shù)淖R別階段:在測試環(huán)境下,利用矢量泰勒級數(shù)VTS進行特征補 償,基于步驟1)得到的GMM1模型,通過最大似然概率準則ML進行噪聲參數(shù)估計,估算出測 試語音中噪聲的均值和方差;接著基于步驟1)得到的GMM2模型,通過最小均方誤差估計準 則麗SE,將測試環(huán)境下含噪語音MFCC特征參數(shù)映射為純凈MFCC特征參數(shù);最后將所述純 凈MFCC特征參數(shù)與步驟1)得到的HMM模型進行匹配,得到最終識別結(jié)果。
[0009] 進一步的,步驟1)具體包括模型訓(xùn)練步驟:
[0010] 1.1)對純凈訓(xùn)練語音數(shù)據(jù)進行預(yù)處理,所述預(yù)處理過程包括預(yù)加重、分幀加窗和 端點檢測;
[0011] 1. 2)對步驟1. 1)中得到的每一幀語音信號提取MFCC特征參數(shù),得到純凈環(huán)境下 所有孤立詞的純凈語音MFCC特征參數(shù);
[0012] 1. 3)利用步驟1. 2)中所有孤立詞的純凈語音MFCC特征參數(shù)分別訓(xùn)練得到高斯混 合數(shù)為10的GMM1模型,和高斯混合數(shù)為100的GMM2模型;
[0013] 1.4)利用步驟1.2)中所有孤立詞中每個孤立詞的純凈語音MFCC特征參數(shù),訓(xùn)練 得到每個孤立詞對應(yīng)的HMM模型。
[0014] 進一步的,步驟2)基于特征補償?shù)淖R別階段具體包括以下步驟:
[0015] 2. 1)測試語音經(jīng)過預(yù)處理過程,該預(yù)處理過程包括預(yù)加重、分幀加窗、端點檢測和 提取測試環(huán)境下的含噪語音MFCC參數(shù);
[0016] 2.2)基于矢量泰勒級數(shù)方法和純凈環(huán)境下的GMM1模型和步驟2.1)得到的含噪 語音MFCC參數(shù),基于最大似然概率準則ML估計測試語音中噪聲的均值和方差;得到噪聲參 數(shù);
[0017] 2.3)利用步驟2.2)估計出的噪聲參數(shù)和GMM2模型,基于最小均方誤差準則 麗SE,將當前測試語音的含噪MFCC特征參數(shù)映射為純凈MFCC特征參數(shù);
[0018] 2. 4)將每個孤立詞HMM模型作為識別模型,對經(jīng)過步驟2. 3)映射后的純凈MFCC 特征參數(shù)進行概率計算,得到最終的孤立詞識別結(jié)果。
[0019] 進一步的,所述MFCC特征參數(shù)為26維,該參數(shù)包括13維MFCC參數(shù)和13維一階 差分MFCC參數(shù);所述HMM模型的混合數(shù)為4,狀態(tài)數(shù)為6。
[0020] 有益效果:與現(xiàn)有基于單個GMM模型和VTS特征補償?shù)墓铝⒃~識別算法相比,本 發(fā)明提出的基于雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓铝⒃~識別方法,在識別率基本不變的情 況下,特征補償計算量顯著減少,從而減少了整個孤立詞識別的時間。我們利用TIMIT語 音庫、實驗室采集的中文語音庫對算法性能進行測試,在不同的噪聲類型(包括白噪聲、粉 紅噪聲和工廠噪聲),以及不同的信噪比條件下(信噪比分別為0dB、5dB、10dB、12dB、15dB 和20dB),本發(fā)明的雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓铝⒃~識別方法,與基于單個GMM結(jié) 構(gòu)和VTS特征補償?shù)墓铝⒃~識別算法相比,特征補償中噪聲均值和方差的估計時間減少了 90%,特征補償整體時間減少了 30% -50%,,同時正確識別率基本不變。
【附圖說明】
[0021] 圖1為本發(fā)明算法總體流程圖。
[0022] 圖2為基于譜熵的端點檢測算法流程圖。
[0023] 圖3為MFCC特征參數(shù)提取流程圖。
[0024] 圖4為雙層GMM結(jié)構(gòu)特征補償?shù)慕Y(jié)構(gòu)框圖。
[0025] 圖5為HMM識別流程圖。
【具體實施方式】
[0026] 下面結(jié)合附圖對本發(fā)明作更進一步的說明。
[0027] 如圖1所示為一種基于雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓铝⒃~識別方法,其特征 在于,包括純凈環(huán)境和測試環(huán)境;該方法包括以下步驟:
[0028]1)模型訓(xùn)練階段:在純凈環(huán)境下,利用所有孤立詞的純凈訓(xùn)練語音訓(xùn)練數(shù)據(jù)分別 得到兩個表示純凈環(huán)境下所有孤立詞的特征參數(shù)分布的高斯混合模型GMM,同時利用各個 孤立詞的純凈訓(xùn)練語音訓(xùn)練生成各個孤立詞對應(yīng)的表示純凈環(huán)境下每個孤立詞的特征參 數(shù)分布的HMM模型;
[0029] 所訴兩個高斯混合模型GMM包括高斯單元混合數(shù)設(shè)置為10的GMM1和高斯混合數(shù) 設(shè)置為100的GMM2 ;
[0030] 2)基于特征補償?shù)淖R別階段:在測試環(huán)境下,利用矢量泰勒級數(shù)VTS進行特征補 償,基于步驟1)得到的GMM1模型,通過最大似然概率準則ML進行噪聲參數(shù)估計,估算出測 試語音中噪聲的均值和方差;接著基于步驟1)得到的GMM2模型,通過最小均方誤差估計準 則麗SE,將測試環(huán)境下含噪語音MFCC特征參數(shù)映射為純凈MFCC特征參數(shù);最后將所述純 凈MFCC特征參數(shù)與步驟1)得到的HMM模型進行匹配,得到最終識別結(jié)果。
[0031] 進一步的,步驟1)具體包括模型訓(xùn)練步驟:
[0032] 1. 1)對純凈訓(xùn)練語音數(shù)據(jù)進行預(yù)處理,所述預(yù)處理過程包括預(yù)加重、分幀加窗和 端點檢測;
[0033] 1. 2)對步驟1. 1)中得到的每一幀語音信號提取MFCC特征參數(shù),得到純凈環(huán)境下 所有孤立詞的純凈語音MFCC特征參數(shù);
[0034] 1. 3)利用步驟1. 2)中所有孤立詞的純凈語音MFCC特征參數(shù)分別訓(xùn)練得到高斯混 合數(shù)為10的GMM1模型,和高斯混合數(shù)為100的GMM2模型;
[0035] 1.4)利用步驟1.2)中所有孤立詞中每個孤立詞的純凈語音MFCC特征參數(shù),訓(xùn)練 得到每個孤立詞對應(yīng)的HMM模型。
[0036] 進一步的,步驟2)基于特征補償?shù)淖R別階段具體包括以下步驟:
[0037] 2. 1)測試語音經(jīng)過預(yù)處理過程,該預(yù)處理過程包括預(yù)加重、分幀加窗、端點檢測和 提取測試環(huán)境下的含噪語音MFCC參數(shù);
[0038] 2. 2)基于矢量泰勒級數(shù)方法和純凈環(huán)境下的GMM1模型和步驟2. 1)得到的含噪 語音MFCC參數(shù),基于最大似然概率準則ML估計測試語音中噪聲的均值和方差;得到噪聲參 數(shù);
[0039] 2.3)利用步驟2.2)估計出的噪聲參數(shù)和GMM2