一種基于雙層gmm結(jié)構(gòu)和vts特征補償?shù)墓铝⒃~識別方法

文檔序號：8923596閱讀：894來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于雙層gmm結(jié)構(gòu)和vts特征補償?shù)墓铝⒃~識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別領(lǐng)域，具體涉及一種基于雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓?立詞識別方法。
【背景技術(shù)】
[0002] 近年來，隨著語音技術(shù)的發(fā)展，孤立詞識別技術(shù)在通信、消費電子、自助服務(wù)、辦公自動化等多個領(lǐng)域得到了廣泛應(yīng)用，這些設(shè)備通常使用或者安裝在嘈雜的公共場所，不可避免地受到各種干擾，而干擾會嚴重影響孤立詞識別系統(tǒng)的性能。此外，孤立詞識別系統(tǒng)識別時間較長成為移植到嵌入式、投入實際應(yīng)用的不利因素。移動設(shè)備、自助服務(wù)設(shè)備的本機孤立詞識別系統(tǒng)補償模塊計算量大，如何通過算法改進、優(yōu)化，降低特征補償?shù)挠嬎懔?，?時不降低系統(tǒng)性能，從而提高系統(tǒng)的實際應(yīng)用能力，成為了現(xiàn)有技術(shù)發(fā)展的方向。

【發(fā)明內(nèi)容】

[0003] 發(fā)明目的：為了克服現(xiàn)有技術(shù)中存在的不足，本發(fā)明提供一種基于雙層GMM結(jié)構(gòu) 和VTS特征補償?shù)墓铝⒃~識別方法，通過建立兩層GMM模型和HMM模型，減少了特征補償模塊的計算量，解決了現(xiàn)有技術(shù)的不足。
[0004] 技術(shù)方案：為實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案為：
[0005] 一種基于雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓铝⒃~識別方法，其特征在于，包括純凈環(huán)境和測試環(huán)境；該方法包括以下步驟：
[0006] 1)模型訓(xùn)練階段：在純凈環(huán)境下，利用所有孤立詞的純凈訓(xùn)練語音訓(xùn)練數(shù)據(jù)分別得到兩個表示純凈環(huán)境下所有孤立詞的特征參數(shù)分布的高斯混合模型GMM，同時利用各個孤立詞的純凈訓(xùn)練語音訓(xùn)練生成各個孤立詞對應(yīng)的表示純凈環(huán)境下每個孤立詞的特征參數(shù)分布的HMM模型；
[0007] 所訴兩個高斯混合模型GMM包括高斯單元混合數(shù)設(shè)置為10的GMM1和高斯單元混合數(shù)設(shè)置為100的GMM2 ;
[0008] 2)基于特征補償?shù)淖R別階段：在測試環(huán)境下，利用矢量泰勒級數(shù)VTS進行特征補償，基于步驟1)得到的GMM1模型，通過最大似然概率準則ML進行噪聲參數(shù)估計，估算出測試語音中噪聲的均值和方差；接著基于步驟1)得到的GMM2模型，通過最小均方誤差估計準則麗SE，將測試環(huán)境下含噪語音MFCC特征參數(shù)映射為純凈MFCC特征參數(shù)；最后將所述純凈MFCC特征參數(shù)與步驟1)得到的HMM模型進行匹配，得到最終識別結(jié)果。
[0009] 進一步的，步驟1)具體包括模型訓(xùn)練步驟：
[0010] 1.1)對純凈訓(xùn)練語音數(shù)據(jù)進行預(yù)處理，所述預(yù)處理過程包括預(yù)加重、分幀加窗和端點檢測；
[0011] 1. 2)對步驟1. 1)中得到的每一幀語音信號提取MFCC特征參數(shù)，得到純凈環(huán)境下所有孤立詞的純凈語音MFCC特征參數(shù)；
[0012] 1. 3)利用步驟1. 2)中所有孤立詞的純凈語音MFCC特征參數(shù)分別訓(xùn)練得到高斯混合數(shù)為10的GMM1模型，和高斯混合數(shù)為100的GMM2模型；
[0013] 1.4)利用步驟1.2)中所有孤立詞中每個孤立詞的純凈語音MFCC特征參數(shù)，訓(xùn)練得到每個孤立詞對應(yīng)的HMM模型。
[0014] 進一步的，步驟2)基于特征補償?shù)淖R別階段具體包括以下步驟：
[0015] 2. 1)測試語音經(jīng)過預(yù)處理過程，該預(yù)處理過程包括預(yù)加重、分幀加窗、端點檢測和提取測試環(huán)境下的含噪語音MFCC參數(shù)；
[0016] 2.2)基于矢量泰勒級數(shù)方法和純凈環(huán)境下的GMM1模型和步驟2.1)得到的含噪語音MFCC參數(shù)，基于最大似然概率準則ML估計測試語音中噪聲的均值和方差；得到噪聲參數(shù)；
[0017] 2.3)利用步驟2.2)估計出的噪聲參數(shù)和GMM2模型，基于最小均方誤差準則麗SE，將當前測試語音的含噪MFCC特征參數(shù)映射為純凈MFCC特征參數(shù)；
[0018] 2. 4)將每個孤立詞HMM模型作為識別模型，對經(jīng)過步驟2. 3)映射后的純凈MFCC 特征參數(shù)進行概率計算，得到最終的孤立詞識別結(jié)果。
[0019] 進一步的，所述MFCC特征參數(shù)為26維，該參數(shù)包括13維MFCC參數(shù)和13維一階差分MFCC參數(shù)；所述HMM模型的混合數(shù)為4,狀態(tài)數(shù)為6。
[0020] 有益效果：與現(xiàn)有基于單個GMM模型和VTS特征補償?shù)墓铝⒃~識別算法相比，本發(fā)明提出的基于雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓铝⒃~識別方法，在識別率基本不變的情況下，特征補償計算量顯著減少，從而減少了整個孤立詞識別的時間。我們利用TIMIT語音庫、實驗室采集的中文語音庫對算法性能進行測試，在不同的噪聲類型（包括白噪聲、粉紅噪聲和工廠噪聲），以及不同的信噪比條件下（信噪比分別為0dB、5dB、10dB、12dB、15dB 和20dB)，本發(fā)明的雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓铝⒃~識別方法，與基于單個GMM結(jié) 構(gòu)和VTS特征補償?shù)墓铝⒃~識別算法相比，特征補償中噪聲均值和方差的估計時間減少了 90%，特征補償整體時間減少了 30% -50%，，同時正確識別率基本不變。
【附圖說明】
[0021] 圖1為本發(fā)明算法總體流程圖。
[0022] 圖2為基于譜熵的端點檢測算法流程圖。
[0023] 圖3為MFCC特征參數(shù)提取流程圖。
[0024] 圖4為雙層GMM結(jié)構(gòu)特征補償?shù)慕Y(jié)構(gòu)框圖。
[0025] 圖5為HMM識別流程圖。
【具體實施方式】
[0026] 下面結(jié)合附圖對本發(fā)明作更進一步的說明。
[0027] 如圖1所示為一種基于雙層GMM結(jié)構(gòu)和VTS特征補償?shù)墓铝⒃~識別方法，其特征在于，包括純凈環(huán)境和測試環(huán)境；該方法包括以下步驟：
[0028]1)模型訓(xùn)練階段：在純凈環(huán)境下，利用所有孤立詞的純凈訓(xùn)練語音訓(xùn)練數(shù)據(jù)分別得到兩個表示純凈環(huán)境下所有孤立詞的特征參數(shù)分布的高斯混合模型GMM，同時利用各個孤立詞的純凈訓(xùn)練語音訓(xùn)練生成各個孤立詞對應(yīng)的表示純凈環(huán)境下每個孤立詞的特征參數(shù)分布的HMM模型；
[0029] 所訴兩個高斯混合模型GMM包括高斯單元混合數(shù)設(shè)置為10的GMM1和高斯混合數(shù) 設(shè)置為100的GMM2 ;
[0030] 2)基于特征補償?shù)淖R別階段：在測試環(huán)境下，利用矢量泰勒級數(shù)VTS進行特征補償，基于步驟1)得到的GMM1模型，通過最大似然概率準則ML進行噪聲參數(shù)估計，估算出測試語音中噪聲的均值和方差；接著基于步驟1)得到的GMM2模型，通過最小均方誤差估計準則麗SE，將測試環(huán)境下含噪語音MFCC特征參數(shù)映射為純凈MFCC特征參數(shù)；最后將所述純凈MFCC特征參數(shù)與步驟1)得到的HMM模型進行匹配，得到最終識別結(jié)果。
[0031] 進一步的，步驟1)具體包括模型訓(xùn)練步驟：
[0032] 1. 1)對純凈訓(xùn)練語音數(shù)據(jù)進行預(yù)處理，所述預(yù)處理過程包括預(yù)加重、分幀加窗和端點檢測；
[0033] 1. 2)對步驟1. 1)中得到的每一幀語音信號提取MFCC特征參數(shù)，得到純凈環(huán)境下所有孤立詞的純凈語音MFCC特征參數(shù)；
[0034] 1. 3)利用步驟1. 2)中所有孤立詞的純凈語音MFCC特征參數(shù)分別訓(xùn)練得到高斯混合數(shù)為10的GMM1模型，和高斯混合數(shù)為100的GMM2模型；
[0035] 1.4)利用步驟1.2)中所有孤立詞中每個孤立詞的純凈語音MFCC特征參數(shù)，訓(xùn)練得到每個孤立詞對應(yīng)的HMM模型。
[0036] 進一步的，步驟2)基于特征補償?shù)淖R別階段具體包括以下步驟：
[0037] 2. 1)測試語音經(jīng)過預(yù)處理過程，該預(yù)處理過程包括預(yù)加重、分幀加窗、端點檢測和提取測試環(huán)境下的含噪語音MFCC參數(shù)；
[0038] 2. 2)基于矢量泰勒級數(shù)方法和純凈環(huán)境下的GMM1模型和步驟2. 1)得到的含噪語音MFCC參數(shù)，基于最大似然概率準則ML估計測試語音中噪聲的均值和方差；得到噪聲參數(shù)；
[0039] 2.3)利用步驟2.2)估計出的噪聲參數(shù)和GMM2

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周琳;李海靜;呂勇;吳鎮(zhèn)揚;
技術(shù)所有人：東南大學(xué);
我是此專利的發(fā)明人

上一篇：一種聲音與文本全自動匹配對齊的方法
上一篇：語音檢索裝置以及語音檢索方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

孤立相關(guān)技術(shù)

被孤立相關(guān)技術(shù)