本發(fā)明屬于語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種語音識(shí)別方法。
背景技術(shù):
語音的識(shí)別過程主要包括特征提取、特征優(yōu)化和利用分類器進(jìn)行識(shí)別。在特征提取方面,語音識(shí)別系統(tǒng)的性能與識(shí)別器所用的特征參數(shù)密切相關(guān),常用的特征參數(shù)主要有線譜對(duì)LSP、相對(duì)譜(RASTA)、線性預(yù)測(cè)倒譜系數(shù)LPCC、Mel倒譜MFCC、能量、Fourier倒譜以及相應(yīng)的動(dòng)態(tài)特征參數(shù)等。
小波分析能隨信號(hào)變化快慢自動(dòng)調(diào)整時(shí)間分辨力和頻率分辨力。小波系數(shù)中少量系數(shù)包含信號(hào)的絕大部分能量,大部分系數(shù)在零附近,對(duì)信號(hào)能量貢獻(xiàn)很小,具有重拖尾現(xiàn)象,因此使用能量/熵特征是不科學(xué)的。對(duì)于連續(xù)小波變換來說,信號(hào)小波變換系數(shù)模的平方反映了信號(hào)在時(shí)間-尺度(頻率)平面的能量密度分布,對(duì)語音多尺度連續(xù)小波變換系數(shù)采用高斯混合模型(Gaussian Mixture Model,GMM)建模分析,提出新的特征參數(shù)GCWT能夠有效地區(qū)分語音種類。
在特征優(yōu)化方面,傳統(tǒng)的線性降維方法(如主成分分析法(PCA))在把高維數(shù)據(jù)映射到低維空間時(shí),通常不能保留原高維數(shù)據(jù)的內(nèi)在非線性結(jié)構(gòu)和特征?;诹餍螌W(xué)習(xí)的非線性降維方法局部線性嵌入(Locally linear embedding,LLE)進(jìn)行降維時(shí),對(duì)稀疏采樣和噪音污染的數(shù)據(jù)比較敏感。本發(fā)明提出了動(dòng)態(tài)加權(quán)局部線性嵌入DWLLE(Dynamic weighted locally linear embedding)方法,對(duì)樣本點(diǎn)近鄰點(diǎn)采用核函數(shù)動(dòng)態(tài)加權(quán),弱化稀疏采樣對(duì)降維造成的影響。
技術(shù)實(shí)現(xiàn)要素:
解決的技術(shù)問題:針對(duì)現(xiàn)有的語音識(shí)別方法中特征提取方面具有重拖尾現(xiàn)象以及特征優(yōu)化方面不能保留原高維數(shù)據(jù)的內(nèi)在非線性結(jié)構(gòu)和特征的缺點(diǎn),本發(fā)明提供一種語音識(shí)別方法,該方法提出的特征參數(shù)GCWT優(yōu)于傳統(tǒng)的特征參數(shù)MFCC,改進(jìn)的動(dòng)態(tài)加權(quán)局部線性嵌入方法DWLLE的降維效果優(yōu)于傳統(tǒng)的LLE方法。
技術(shù)方案:一種語音識(shí)別方法包括特征提取、特征優(yōu)化和利用分類器進(jìn)行識(shí)別三個(gè)步驟,本發(fā)明主要針對(duì)特征提取和特征優(yōu)化進(jìn)行研究。在特征提取方面,通過采用多尺度連續(xù)小波變換對(duì)語音進(jìn)行時(shí)頻分析,同時(shí)對(duì)沿尺度軸方向的小波系數(shù)進(jìn)行高斯混合建模得到統(tǒng)計(jì)學(xué)參數(shù)GCWT,對(duì)嗓音進(jìn)行識(shí)別。在特征優(yōu)化方面,為了降低特征參數(shù)的 冗余,對(duì)特征參數(shù)進(jìn)行降維處理,針對(duì)局部線性嵌入降維算法LLE對(duì)稀疏數(shù)據(jù)的敏感性,提出了改進(jìn)的動(dòng)態(tài)加權(quán)局部線性嵌入降維算法DWLLE。
本發(fā)明中的語音識(shí)別系統(tǒng)具體設(shè)計(jì)主要包括:
(1)特征提取階段,通過采用多尺度連續(xù)小波變換對(duì)語音進(jìn)行時(shí)頻分析,對(duì)沿尺度軸方向的小波系數(shù)進(jìn)行高斯混合建模得到特征參數(shù):GCWT=(π1,u1,Σ1,…,πM,uM,ΣM)
其中,π1,u1,Σ1,…,πM,uM,ΣM分別為M個(gè)高斯混合模型的權(quán)重、期望、方差。
(2)特征優(yōu)化階段,采用動(dòng)態(tài)加權(quán)局部線性嵌入方法(DWLLE,Dynamic weighted locally linear embedding)對(duì)特征參數(shù)GCWT進(jìn)行降維;
(3)將語音分為訓(xùn)練集與測(cè)試集,利用訓(xùn)練集語音的特征參數(shù)訓(xùn)練識(shí)別模型;
(4)利用訓(xùn)練好的模型對(duì)測(cè)試集的特征參數(shù)進(jìn)行預(yù)測(cè)分類。
上述所述的動(dòng)態(tài)加權(quán)局部線性嵌入方法DWLLE是對(duì)樣本點(diǎn)近鄰點(diǎn)采用核函數(shù)動(dòng)態(tài)加權(quán),弱化稀疏采樣對(duì)降維造成的影響,主要過程包括:
(1)利用歐氏距離尋找每個(gè)樣本點(diǎn)的k(k<n,n為樣本點(diǎn)數(shù))個(gè)近鄰點(diǎn);
(2)計(jì)算樣本點(diǎn)和近鄰點(diǎn)之間的徑向基核函數(shù):
其中,uij是近鄰點(diǎn)xi、xj的核函數(shù)k(xi,xj)的函數(shù)值,Φ(xi)、Φ(xj)分別是樣本點(diǎn)xi、xj的高維空間映射值,||xi-xj||2是樣本點(diǎn)xi、xj的歐氏距離,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。
令θ為加權(quán)閾值,當(dāng)uij≥θ時(shí),不對(duì)近鄰點(diǎn)xj做任何處理,當(dāng)uij<θ時(shí),對(duì)樣本點(diǎn)與近鄰點(diǎn)重構(gòu)之間的誤差以u(píng)ij做加權(quán)處理,弱化稀疏采樣對(duì)降維造成的影響;
(3)由樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣,使樣本點(diǎn)與近鄰點(diǎn)以核函數(shù)相似度加權(quán)的重構(gòu)誤差最?。?/p>
其中,W是局部重構(gòu)權(quán)值wij矩陣,uij是動(dòng)態(tài)加權(quán)權(quán)值,wij是樣本點(diǎn)xi、xj之間的權(quán)值,代表著局部信息。
(4)根據(jù)局部重建權(quán)值矩陣和其近鄰點(diǎn)計(jì)算出樣本集的低維嵌入。
上述所述的特征參數(shù)GCWT基于小波變換,充分體現(xiàn)了時(shí)域和頻域良好的局部化特性。
上述所述的特征參數(shù)GCWT是針對(duì)小波系數(shù)呈現(xiàn)稀疏分布進(jìn)行改進(jìn)的特征提取。
有益效果:本發(fā)明提供的一種語音識(shí)別方法,具有以下優(yōu)點(diǎn):
(1)針對(duì)小波能量/熵的局限性,通過多尺度連續(xù)小波變換對(duì)語音進(jìn)行時(shí)頻分析,對(duì)沿尺度軸方向的小波系數(shù)進(jìn)行高斯混合建模得到統(tǒng)計(jì)學(xué)參數(shù)GCWT,對(duì)語音進(jìn)行識(shí)別,提出的特征參數(shù)GCWT優(yōu)于傳統(tǒng)的特征參數(shù)MFCC。
(2)針對(duì)局部線性嵌入降維算法LLE對(duì)稀疏數(shù)據(jù)的敏感性,提出了改進(jìn)的動(dòng)態(tài)加權(quán)局部線性嵌入方法DWLLE,降維效果優(yōu)于LLE。
附圖說明
圖1為語音識(shí)別系統(tǒng)的主要過程圖。
圖2為本發(fā)明的語音識(shí)別系統(tǒng)的設(shè)計(jì)圖。
圖3為本發(fā)明的實(shí)施例1的語音識(shí)別系統(tǒng)的設(shè)計(jì)圖。
圖4為本發(fā)明的實(shí)施例1的MFCC特征參數(shù)提取流程圖。
圖5為本發(fā)明的實(shí)施例2的語音識(shí)別系統(tǒng)的設(shè)計(jì)圖。
圖6為本發(fā)明的實(shí)施例3的語音識(shí)別系統(tǒng)的設(shè)計(jì)圖。
具體實(shí)施方式
實(shí)施例1
在不進(jìn)行特征優(yōu)化的情況下,語音識(shí)別包括特征提取和利用分類器進(jìn)行識(shí)別兩個(gè)步驟。
一、特征提?。?/p>
分別對(duì)語音提取現(xiàn)有的特征參數(shù)MFCC和本發(fā)明的特征參數(shù)GCWT。
1.特征參數(shù)MFCC提取步驟:
(1)將信號(hào)S(n)預(yù)加重后采用漢明窗進(jìn)行加窗分幀,得到每幀信號(hào)xn(m),然后 通過短時(shí)傅里葉變換得到其頻譜Xn(k),隨后求取頻譜的平方,即能量譜Pn(k)。
Pn(k)=|Xn(k)|2
(2)用M個(gè)Mel帶通濾波器對(duì)Pn(k)進(jìn)行濾波,由于每一個(gè)頻帶中分量的作用在人耳中是疊加的,因此將每個(gè)濾波器頻帶內(nèi)的能量進(jìn)行疊加。
其中,Hm(k)為Mel濾波器頻域形式,Sn(m)是每個(gè)濾波器頻帶輸出。
(3)將每個(gè)濾波器輸出取對(duì)數(shù)功率譜并進(jìn)行反離散余弦變換,得到L個(gè)MFCC系數(shù)。
(4)將得到的MFCC系數(shù)作為第n幀的特征參數(shù),反映了語音信號(hào)的靜態(tài)特征,如果加上人耳更為敏感的一階差分系數(shù),將得到更好的效果。一階差分的計(jì)算公式如下:
L一般取2,表示當(dāng)前幀前后各2幀的線性組合,反映了語音的動(dòng)態(tài)特征。
2.特征參數(shù)GCWT提取步驟:
(1)語音時(shí)頻分析
使用db4小波作為母小波,db4小波的中心頻率是0.7143Hz,在16個(gè)不同尺度下對(duì)語音進(jìn)行連續(xù)小波變換,得到時(shí)頻域語音的能量譜密度。
(2)高斯混合建模
采用k-menns算法確定中心點(diǎn)進(jìn)行初始化,并采用EM(Expectation Maximum)算法求解,選取高斯混合模型(M=4),對(duì)16個(gè)小波尺度下的能量譜密度沿尺度方向進(jìn)行多維建模,并且將建模所得的統(tǒng)計(jì)學(xué)參數(shù)作為特征參數(shù)GCWT,GCWT=(π1,u1,Σ1,…,πM,uM,ΣM)。
二、識(shí)別:
使用訓(xùn)練集語音的特征參數(shù)訓(xùn)練不同的分類器模型,進(jìn)而使用訓(xùn)練好模型測(cè)試集語音特征參數(shù)進(jìn)行識(shí)別。
實(shí)施例2
一種語音識(shí)別方法包括特征提取、特征優(yōu)化和利用分類器進(jìn)行識(shí)別三個(gè)步驟。
一、特征提取與實(shí)施例1中特征參數(shù)GCWT提取步驟相同。
二、特征優(yōu)化:
使用非線性降維方法LLE進(jìn)行降維處理,包含以下三個(gè)步驟:
(1)對(duì)于給定的源數(shù)據(jù)集X={x1,x2,…,xn},xi∈RD,利用歐氏距離尋找每個(gè)樣本點(diǎn)的
k(k<n)個(gè)近鄰點(diǎn),其中k=7;
(2)由樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣,使重建誤差最?。?/p>
(3)根據(jù)局部重建權(quán)值矩陣和其近鄰點(diǎn)計(jì)算出樣本集的低維嵌入。
LLE在樣本均勻采樣下使用歐氏距離求取鄰域,這對(duì)稀疏和噪音污染的數(shù)據(jù)容易產(chǎn)生扭曲的鄰域結(jié)構(gòu),從而導(dǎo)致短路現(xiàn)象。
三、利用分類器進(jìn)行識(shí)別:
使用經(jīng)過LLE降維的訓(xùn)練集語音的特征參數(shù)訓(xùn)練SVM模型,進(jìn)而使用訓(xùn)練好模型對(duì)經(jīng)過LLE降維的測(cè)試集語音特征參數(shù)進(jìn)行識(shí)別。
實(shí)施例3
一種語音識(shí)別方法包括特征提取、特征優(yōu)化和利用分類器進(jìn)行識(shí)別三個(gè)步驟。
一、特征提取與實(shí)施例1特征參數(shù)GCWT提取步驟相同。
二、特征優(yōu)化:
使用非線性降維方法DWLLE對(duì)GCWT進(jìn)行降維處理。降維時(shí),參數(shù)設(shè)置如下:
(1)利用歐氏距離尋找每個(gè)樣本點(diǎn)的k(k<n)個(gè)近鄰點(diǎn);
(2)計(jì)算樣本點(diǎn)和近鄰點(diǎn)之間的徑向基核函數(shù):
其中,uij是近鄰點(diǎn)xi、xj的核函數(shù)k(xi,xj)的函數(shù)值,Φ(xi)、Φ(xj)分別是樣本點(diǎn)xi、xj的高維空間映射值,||xi-xj||2是樣本點(diǎn)xi、xj的歐氏距離,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。
令θ為加權(quán)閾值,當(dāng)uij≥θ時(shí),不對(duì)近鄰點(diǎn)xj做任何處理,當(dāng)uij<θ時(shí),對(duì)樣本點(diǎn)與近鄰點(diǎn)重構(gòu)之間的誤差以u(píng)ij做加權(quán)處理,弱化稀疏采樣對(duì)降維造成的影響;
(3)由樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣,使樣本點(diǎn)與近鄰點(diǎn)以核函數(shù)相似度加權(quán)的重構(gòu)誤差最?。?/p>
其中,W是局部重構(gòu)權(quán)值wij矩陣,uij是動(dòng)態(tài)加權(quán)權(quán)值,wij是樣本點(diǎn)xi、xj之間的權(quán)值,代表著局部信息。
(4)根據(jù)局部重建權(quán)值矩陣和其近鄰點(diǎn)計(jì)算出樣本集的低維嵌入。
三、利用分類器進(jìn)行識(shí)別:
使用經(jīng)過DWLLE降維的訓(xùn)練集語音的特征參數(shù)訓(xùn)練SVM模型,進(jìn)而使用訓(xùn)練好的模型對(duì)經(jīng)過DWLLE降維的測(cè)試集語音特征參數(shù)進(jìn)行識(shí)別。
對(duì)實(shí)施例1中的特征參數(shù)MFCC和特征參數(shù)GCWT采用十交叉驗(yàn)證方式,實(shí)驗(yàn)結(jié)果見下表:
從上表可以看出,特征參數(shù)GCWT優(yōu)于傳統(tǒng)的特征參數(shù)MFCC。
通過實(shí)施例2的降維方法LLE對(duì)特征參數(shù)GCWT降維后識(shí)別率分別可以達(dá)到95.54%,比實(shí)施例1中未經(jīng)過降維優(yōu)化的GCWT平均識(shí)別率提高了2.7%;實(shí)施例3的降維方法DWLLE對(duì)特征參數(shù)GCWT降維后識(shí)別率分別可以達(dá)到97.45%,比實(shí)施例1中未經(jīng)過降維優(yōu)化的GCWT平均識(shí)別率提高了4.8%。由此可知,經(jīng)過降維處理的特征參數(shù)比未處理的特征參數(shù)提高了系統(tǒng)的識(shí)別率和可靠性,并且降維方法DWLLE的降維效果優(yōu)于降維方法LLE。