基于車聯(lián)網(wǎng)的語音識(shí)別方法
【專利摘要】本發(fā)明提供了一種基于車聯(lián)網(wǎng)的語音識(shí)別方法,該方法包括:對(duì)帶噪語音信號(hào)進(jìn)行頻域分離,以獲得純凈的語音信號(hào);選擇待端點(diǎn)檢測(cè)的語音信號(hào)、將檢測(cè)到的有效語音段保存為語音文件,選擇多個(gè)語音文件導(dǎo)入車載語音識(shí)別系統(tǒng)中識(shí)別。本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音識(shí)別方法,減弱了背景噪聲對(duì)車載語音識(shí)別系統(tǒng)的干擾,有效地改善了在噪聲環(huán)境下車載語音識(shí)別系統(tǒng)的性能。
【專利說明】
基于車聯(lián)網(wǎng)的語音識(shí)別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及語音信號(hào)處理,特別設(shè)及一種基于車聯(lián)網(wǎng)的語音識(shí)別方法。
【背景技術(shù)】
[0002] 語音識(shí)別是通過利用識(shí)別算法讓機(jī)器能夠準(zhǔn)確地識(shí)別出人類所發(fā)出的語音命令 并執(zhí)行相應(yīng)的操作。目前,隨著語音信號(hào)處理技術(shù)的發(fā)展,一些較成熟的語音識(shí)別系統(tǒng)相繼 誕生。然而在車載現(xiàn)場環(huán)境下使用時(shí),其識(shí)別性能會(huì)急劇下降。假設(shè)一個(gè)孤立詞識(shí)別系統(tǒng)是 由純凈語音訓(xùn)練得到的,那么它在相對(duì)安靜環(huán)境下進(jìn)行語音識(shí)別,其識(shí)別率可達(dá)到100%, 但是如果在W90Km/h行駛的汽車內(nèi),其識(shí)別率下降到了30%。從上述對(duì)比數(shù)據(jù)中可W發(fā)現(xiàn), 在行駛中的車輛等噪聲環(huán)境下語音識(shí)別系統(tǒng)性能無法滿足人們的需求。在真實(shí)環(huán)境中,語 音信號(hào)不可避免地受到各種外部噪聲的干擾,而運(yùn)些噪聲的存在會(huì)使得帶噪語音與原先由 純凈語音訓(xùn)練出的模型之間失配,從而影響車載語音識(shí)別系統(tǒng)性能。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音識(shí)別方 法,包括:
[0004] 對(duì)帶噪語音信號(hào)進(jìn)行頻域分離,W獲得純凈的語音信號(hào);選擇待端點(diǎn)檢測(cè)的語音 信號(hào),將檢測(cè)到的有效語音段保存為語音文件,選擇多個(gè)語音文件導(dǎo)入車載語音識(shí)別系統(tǒng) 中識(shí)別。
[0005] 優(yōu)選地,所述對(duì)帶噪語音信號(hào)進(jìn)行頻域分離,W獲得純凈的語音信號(hào),進(jìn)一步包 括:
[0006] 利用短時(shí)FFT將帶噪語音信號(hào)XI,a = l,2)從時(shí)域變換到頻域,生成LXM點(diǎn)采樣信 號(hào)矩陣,其中L表示FFT變換后頻域下的頻點(diǎn)個(gè)數(shù),M表示對(duì)信號(hào)加窗分帖后的帖數(shù);然后實(shí) 現(xiàn)混合信號(hào)的頻域分離,對(duì)提取出的頻域分量進(jìn)行FFT逆變換得到時(shí)域獨(dú)立成分;最后對(duì)獲 得的Mni或特征和其對(duì)應(yīng)的一階差分系數(shù)進(jìn)行線性組合,并將組合后的特征用于后續(xù)識(shí)別 過程;
[0007] 其中所述短時(shí)FFT將帶噪語音信號(hào)Xi從時(shí)域變換到頻域,進(jìn)一步包括:
[000引對(duì)語音信號(hào)加窗,并讓該窗在時(shí)間軸上平移,卷積混合過程描述為:
[0009]
[0010] 其中P為卷積混合濾波器階數(shù),au為第j個(gè)聲源到第i個(gè)傳感器的沖激響應(yīng),N為聲 源數(shù)量,Sj為源信號(hào);對(duì)上式進(jìn)行短時(shí)FFT變換,得到的信號(hào)表示為:
[0011]
[0012]其中,win表示在預(yù)處理過程中所加的窗口函數(shù),T為窗口函數(shù)的位置;fs為采樣頻 率,f為離散頻點(diǎn),其取值為f = fsl/L;l = 0,l,…レl;
[001引對(duì)輸入的語音進(jìn)行短時(shí)FFT變換之后,將時(shí)域采樣信號(hào)Xi(t)變換到時(shí)頻域,得到 一個(gè)L*M點(diǎn)的采樣信號(hào)矩陣:
[0014]
[0015] 將同頻點(diǎn)fk(kG[0,L-l])的Xi(fk)作為該頻點(diǎn)進(jìn)行獨(dú)立成分提取的新采樣數(shù)據(jù), 對(duì)新采樣數(shù)據(jù)進(jìn)行頻域分離矩陣w(f O的估計(jì),進(jìn)而實(shí)現(xiàn)對(duì)信號(hào)頻域分量Yi (f O的提取;對(duì) 各頻點(diǎn)進(jìn)行頻域分離得到短時(shí)頻域分量Yi(f,T),再消除模糊性后得到化(f,T),作為對(duì)純凈 頻域源信號(hào)Si(f,T)的逼近;
[0016] 所述混合信號(hào)的頻域分離,進(jìn)一步包括:
[0017] 對(duì)Ui (f,T)進(jìn)行短時(shí)FFT逆變換,即按列對(duì)Ui (f,T)時(shí)頻矩陣求逆離散FFT運(yùn)算,得到 在不同時(shí)窗位置Tm,(m = 0,l,. . .M-1)上的時(shí)間信號(hào)Ui(f,Tm):
[0018;
[0019] 然后按Tm從小到大的順序?qū)i(f ,Tm)進(jìn)行拼接,得到源的完整時(shí)間信號(hào),即:
[0020] Ui(t)=Ui(t,T〇)+Ui(t-Tl,T:i) + ...+Ui(t-TM-l,TM-l)
[0021] 如果進(jìn)行拼接處理時(shí),相鄰窗口內(nèi)的時(shí)間信號(hào)出現(xiàn)部分重疊,則對(duì)重疊區(qū)域的數(shù) 據(jù)采用相加求平均的處理方法。
[0022] 本發(fā)明相比現(xiàn)有技術(shù),具有W下優(yōu)點(diǎn):
[0023] 本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音識(shí)別方法,減弱了背景噪聲對(duì)車載語音識(shí)別 系統(tǒng)的干擾,有效地改善了在噪聲環(huán)境下車載語音識(shí)別系統(tǒng)的性能。
【附圖說明】
[0024] 圖1是根據(jù)本發(fā)明實(shí)施例的基于車聯(lián)網(wǎng)的語音識(shí)別方法的流程圖。
【具體實(shí)施方式】
[0025] 下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描 述。結(jié)合運(yùn)樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利 要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)W 提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供運(yùn)些細(xì)節(jié),并且無運(yùn)些具體細(xì)節(jié)中的一 些或者所有細(xì)節(jié)也可W根據(jù)權(quán)利要求書實(shí)現(xiàn)本發(fā)明。
[0026] 本發(fā)明的一方面提供了一種基于車聯(lián)網(wǎng)的語音識(shí)別方法。圖1是根據(jù)本發(fā)明實(shí)施 例的基于車聯(lián)網(wǎng)的語音識(shí)別方法流程圖。
[0027] 本發(fā)明首先在車載語音識(shí)別系統(tǒng)的前端處理過程中增加了成分分析,對(duì)帶噪語音 信號(hào)進(jìn)行頻域分離從而獲得純凈的語音信號(hào);對(duì)所獲得的純凈語音信號(hào)進(jìn)行端點(diǎn)檢測(cè);最 后提取所獲語音段的特征參數(shù),并導(dǎo)入車載語音識(shí)別系統(tǒng)中進(jìn)行識(shí)別。
[0028] 車載語音識(shí)別系統(tǒng)包括四個(gè)單元。卷積混合單元,進(jìn)行語音信號(hào)與噪聲的仿真卷 積混合,W獲得帶噪語音信號(hào);分離單元:對(duì)帶噪語音信號(hào)進(jìn)行頻域分離,W獲得純凈的語 音信號(hào);端點(diǎn)檢測(cè)單元,采用語音端點(diǎn)檢測(cè)算法,并選擇待檢測(cè)的語音信號(hào)、調(diào)整端點(diǎn)檢測(cè) 參數(shù)、并在檢測(cè)后將檢測(cè)到的有效語音段保存為語音文件。語音識(shí)別單元,用于語音識(shí)別、 顯示識(shí)別結(jié)果和計(jì)算識(shí)別率,可W選擇多個(gè)語音文件導(dǎo)入車載語音識(shí)別系統(tǒng)中識(shí)別。
[0029] 本發(fā)明利用基于動(dòng)態(tài)峰度和能量雙闊值的端點(diǎn)檢測(cè)算法。首先計(jì)算出語音信號(hào)的 滑動(dòng)窗峰度值,記為Kt(n),并同時(shí)記錄下中間值S2(n),其中n是語音信號(hào)的長度。利用公式 th=max化t)/10來計(jì)算整個(gè)語音信號(hào)的峰度闊值。
[0030] 將n記為起點(diǎn)start,在n不斷遞增的過程中,開始向后檢索,若n為空白段,則判斷 空白段樣本點(diǎn)數(shù)nc與空白段所允許的最大樣本點(diǎn)常數(shù)maxnc,W及語音段樣本點(diǎn)數(shù)SC與語 音段所允許的最小樣本點(diǎn)常數(shù)minsc ;僅當(dāng)滿足nc〉maxnc并且sc>minsc,輸入語音段
[St曰rt,St曰rt+sc+nc-1]C
[0031] 考慮到混合系統(tǒng)對(duì)源信號(hào)產(chǎn)生的延遲和卷積效應(yīng),本發(fā)明采用W下方法提取相對(duì) 純凈的語音特征參數(shù)。首先利用短時(shí)FF門尋帶噪語音信號(hào)XI,a = l,2)從時(shí)域變換到頻域, 生成LXM點(diǎn)采樣信號(hào)矩陣,其中L表示FFT變換后頻域下的頻點(diǎn)個(gè)數(shù),M表示對(duì)信號(hào)加窗分帖 后的帖數(shù);然后實(shí)現(xiàn)混合信號(hào)的頻域分離,對(duì)提取出的頻域分量進(jìn)行FFT逆變換得到時(shí)域獨(dú) 立成分;最后對(duì)獲得的MHi或特征和其對(duì)應(yīng)的一階差分系數(shù)進(jìn)行線性組合,并將組合后的特 征用于后續(xù)識(shí)別過程中。在特征提取前端,獨(dú)立成分分析可W有效地減少噪聲對(duì)源語音信 號(hào)的干擾,使得在卷積噪聲環(huán)境下所提取的語音特征參數(shù)也能較好地反映語音信號(hào)的本質(zhì) 特征。
[0032] 本發(fā)明對(duì)語音信號(hào)進(jìn)行FFT變換時(shí)是逐段進(jìn)行的。對(duì)語音信號(hào)加窗,并讓該窗在時(shí) 間軸上平移。卷積混合過程可W描述為:
[0033]
[0034] 其中P為卷積混合濾波器階數(shù),曰1功第j個(gè)聲源到第i個(gè)傳感器的沖激響應(yīng),N為聲 源數(shù)量。對(duì)上式進(jìn)行短時(shí)FFT變換,所得信號(hào)可W表示為:
[0035]
1;:=1,2; T=To, ..Tm-I
[0036] 具甲,win巧不巧頂處埋巧巧甲所加的簡U幽數(shù),T為窗口函數(shù)的位置;fS為采樣頻 率,f為離散頻點(diǎn),其取值為f = fsl/L; 1 = 0,1,…心!。
[0037] 對(duì)輸入的語音進(jìn)行短時(shí)FFT變換之后,將時(shí)域采樣信號(hào)xi(t)變換到時(shí)頻域,得到 一個(gè)L*M點(diǎn)的采樣信號(hào)矩陣:
[00;3 引
[0039] 將同頻點(diǎn)fk(kG[0,L-l])的Xi(fk)作為該頻點(diǎn)進(jìn)行獨(dú)立成分提取的新采樣數(shù)據(jù), 對(duì)新采樣數(shù)據(jù)進(jìn)行頻域分離矩陣W(fk)的估計(jì),進(jìn)而實(shí)現(xiàn)對(duì)信號(hào)頻域分量Yi(fk)的提取。
[0040] 其中獨(dú)立成分分析算法對(duì)各頻點(diǎn)進(jìn)行頻域分離,得到了短時(shí)頻域分量Yi(f,T),再 消除幅值和排序模糊性之后得到化(f,T),它們是對(duì)純凈頻域源信號(hào)Si(f,T)的逼近。
[0041] 接下來就是將信號(hào)從頻域轉(zhuǎn)換到時(shí)域,則對(duì)化(f,T)進(jìn)行短時(shí)FFT逆變換,即按列 對(duì)化(f,T)時(shí)頻矩陣求逆離散FFT運(yùn)算,得到在不同時(shí)窗位置(而,111 = 0,1,...1-1)上的時(shí)間 f曰號(hào)Ui(f , Tm);
[0042]
[0043] 然后按Tm從小到大的順序?qū)(f ,Tm)進(jìn)行拼接,得到源的完整時(shí)間信號(hào),即:
[0044] Ui(t;)=Ui(t,T〇;)+Ui(t-Tl,T:i;) + ...+Ui(t-TM-l,TM-l)
[0045] 如果進(jìn)行拼接處理時(shí),相鄰窗口內(nèi)的時(shí)間信號(hào)出現(xiàn)部分重疊,則對(duì)重疊區(qū)域的數(shù) 據(jù)采用相加求平均的處理方法。
[0046] 為了提取語音M化參數(shù),首先對(duì)經(jīng)過頻域去卷積的處理的語音信號(hào)進(jìn)行預(yù)加重處 理,再使其通過M化濾波器組,對(duì)每組輸出結(jié)果做對(duì)數(shù)運(yùn)算后再進(jìn)行DCT變換,最后輸出即為 語音信號(hào)的MFL域特征。
[0047] 此外,為了獲得語音信號(hào)的動(dòng)態(tài)信息,算法對(duì)提取出的M化參數(shù)進(jìn)行了差分運(yùn)算, 計(jì)算過程如下:
[004引
[0049] 其中R是ffiL系數(shù)的階數(shù),d反映信號(hào)的動(dòng)態(tài)特征,a表示加權(quán)因子,K為進(jìn)行一階差 分求取的帖的長度,Cm表示信號(hào)倒譜。經(jīng)過上式計(jì)算可W獲得與MHi或特征參數(shù)階數(shù)R相同 的差分MEL參數(shù)。最后將所得MEL參數(shù)和差分MEL參數(shù)進(jìn)行組合得到2*R維的新組合特征作為 語音信號(hào)特征矢量。
[0050] 其中,頻域去卷積處理是用于實(shí)現(xiàn)卷積混合信號(hào)的分離,具體包括,首先利用短時(shí) FFT將時(shí)域下的卷積混合變換成頻域下的瞬時(shí)混合,然后采用獨(dú)立成分分析對(duì)其中每個(gè)頻 點(diǎn)進(jìn)行頻域分離。最后為了獲得時(shí)域下對(duì)應(yīng)的語音信號(hào),還通過短時(shí)FFT逆變換將頻域信號(hào) 變換成時(shí)域信號(hào)。
[0051] 首先對(duì)采樣信號(hào)進(jìn)行FFT變換,可得:
[0052] X(f)=A(f)S(f)
[0053] 其中,X(f)和S(f)分別表示采樣信號(hào)和源信號(hào)經(jīng)FFT變換后得到的頻域信號(hào),A(f) 是各混合濾波器頻率響應(yīng)構(gòu)成的矩陣,經(jīng)過FFT之后,語音信號(hào)從時(shí)域下的卷積混合變成了 頻域下的瞬時(shí)混合。對(duì)每個(gè)頻點(diǎn)fk(k = 0,l,…,i-1)利用瞬時(shí)獨(dú)立成分分析算法進(jìn)行頻域 分離,如下所示
[0054] X化)=4化)5化),4 = 0,1,...心化為頻點(diǎn)序號(hào)
[0055] 經(jīng)過FFT變換后,采樣信號(hào)從時(shí)域變到頻域,同時(shí)也使得待處理數(shù)據(jù)的數(shù)值從實(shí)數(shù) 域變到了復(fù)數(shù)域,對(duì)于復(fù)數(shù)域的獨(dú)立成分分析,本發(fā)明引入了多變量數(shù)據(jù)的四維累加量矩 陣,并對(duì)其做特征分解,從而實(shí)現(xiàn)對(duì)信號(hào)的分離。
[0056] 令;義=[義1,義2-別]為一組采樣信號(hào),對(duì)其進(jìn)行白化處理,即找到一個(gè)使得的自相 關(guān)矩陣為單位矩陣I的線性變換矩陣B。其中,
[0化7] Z = Bx = BAs = Vs
[005引令M是NXN維的矩陣,則Z的四階累加矩陣為化(M),其第ij個(gè)元素定義如下:
[0化9]
[0060]式中,Cu為四階累加量矩陣中第化,I)個(gè)位置的累加量子矩陣的第i行第j列的元 素。mki為矩陣M中化,1)個(gè)元素。
[0061 ] 令V=[Vi,V2-Vn],取矩陣M=[Mi,M2-Mp],對(duì)每個(gè)Mi求取化(Mi),計(jì)算使得化(Mi)非 對(duì)角元素平方和即yH化(Mi)V出現(xiàn)極小值的矩陣V,最后提取獨(dú)立成分u=W'x = vHbx
[0062] 對(duì)于幅值模糊性的出現(xiàn),本發(fā)明通過幅值補(bǔ)償來消除運(yùn)種幅值模糊性問題,補(bǔ)償 算法如下:
[0063] 設(shè)W(fk)是對(duì)頻點(diǎn)fk對(duì)應(yīng)的頻域采樣信號(hào)進(jìn)行獨(dú)立成分提取過程中計(jì)算得到的分 離矩陣,則所提取的各通道獨(dú)立成分構(gòu)成向量:Y(fk,T),其中T表示滑動(dòng)窗的位置,則該頻 點(diǎn)上的混合矩陣A(fk)可計(jì)算為
[0064] A(fk)=W_i(fk)
[0065] 利用混合矩陣A(fk)對(duì)對(duì)應(yīng)頻點(diǎn)獨(dú)立成分進(jìn)行補(bǔ)償,計(jì)算如下:
[0066]
[0067] 其中Y^fk, T)表示幅值補(bǔ)償前所提取的第j通道頻域分量,Vu(fk,T)表示經(jīng)過幅值 補(bǔ)償后第i個(gè)頻域采樣信號(hào)中實(shí)際上屬于第j通道頻域分量的部分。經(jīng)過幅值補(bǔ)償后,fk頻 點(diǎn)對(duì)應(yīng)的獨(dú)立成分會(huì)產(chǎn)生N個(gè)補(bǔ)償分量,經(jīng)過一系列的后續(xù)處理,最終可W得到N個(gè)對(duì)應(yīng)于 同一個(gè)信號(hào)源的純凈語音信號(hào)。最后從N個(gè)信號(hào)求取平均作為最終輸出信號(hào)。
[0068] 在對(duì)各頻點(diǎn)進(jìn)行頻域分離后得到的對(duì)應(yīng)頻點(diǎn)的分離結(jié)果是隨機(jī)分配的,所W在分 離之后對(duì)各頻點(diǎn)的分離結(jié)果進(jìn)行重新組合時(shí)可能會(huì)出現(xiàn)不同頻點(diǎn)分離信號(hào)對(duì)應(yīng)不同的源 信號(hào)。本發(fā)明采用一種基于相鄰頻點(diǎn)相關(guān)性檢測(cè)的方法來消除排序模糊性的問題。假設(shè)經(jīng) 獨(dú)立成分提取后得到的信號(hào)分量為Y(fk) =化化,T),Y2(fk,T)]T
[0069] 則根據(jù)幅值補(bǔ)償公式可得
[0070]
[0071]
[0072]
[0073]
[0074] 式中d表示平均寬度。根據(jù)上式可得包絡(luò)函數(shù)3也,1)=[虹化,1),1?2化,1)]。通過 對(duì)相鄰頻點(diǎn)的包絡(luò)函數(shù)R(fk,T)和R(fk+1,T)進(jìn)行匹配,并根據(jù)匹配結(jié)果對(duì)頻域分量進(jìn)行排 序。
[00巧]排序算法如下:
[0076] 首先根據(jù)選定的匹配方法計(jì)算包絡(luò)參數(shù)。定義相鄰頻點(diǎn)fk和fk+i之間的包絡(luò)參數(shù) Pij定義如下:
[0077]
[0078] 式中M表示在對(duì)信號(hào)進(jìn)行加窗FFT變換后的語音帖數(shù)。
[0079] 根據(jù)所定義的包絡(luò)參數(shù)構(gòu)造調(diào)整矩陣P。對(duì)于相鄰頻點(diǎn)fk和fk+i的包絡(luò)系數(shù)m構(gòu)成 一個(gè)如下調(diào)整矩陣
[0080;
[0081]根據(jù)調(diào)整矩陣判斷是否要進(jìn)行重新排序。若P11+P22〉P12+P21,則表示相鄰頻點(diǎn)中,同 源獨(dú)立成分位置一致,則無需調(diào)整。若P11+P22小于P12+P21,則表示相鄰頻點(diǎn)中,同源獨(dú)立成分 的位置不一致,需要重新進(jìn)行排序。若經(jīng)過幅值補(bǔ)償后的輸出成分為 [00 劇 V(fk) = [Vl(fk,T),V2(fk,T)]T
[008;3 ] V 化+1) = [ Vl 化+1,T ),V2 ( f k+1,T ) ] T
[0084] 貝恃U用P對(duì)后一個(gè)頻點(diǎn)fk+i的V(fk+i)進(jìn)行左乘,即
[0085] PXV(fk+i)^V(fk+i)
[0086] 綜上所述,本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音識(shí)別方法,減弱了背景噪聲對(duì)車 載語音識(shí)別系統(tǒng)的干擾,有效地改善了在噪聲環(huán)境下車載語音識(shí)別系統(tǒng)的性能。
[0087] 顯然,本領(lǐng)域的技術(shù)人員應(yīng)該理解,上述的本發(fā)明的各單元或各步驟可W用通用 的計(jì)算系統(tǒng)來實(shí)現(xiàn),它們可W集中在單個(gè)的計(jì)算系統(tǒng)上,或者分布在多個(gè)計(jì)算系統(tǒng)所組成 的網(wǎng)絡(luò)上,可選地,它們可W用計(jì)算系統(tǒng)可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可W將它們存儲(chǔ) 在存儲(chǔ)系統(tǒng)中由計(jì)算系統(tǒng)來執(zhí)行。運(yùn)樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0088] 應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實(shí)施方式】僅僅用于示例性說明或解釋本發(fā)明的 原理,而不構(gòu)成對(duì)本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者運(yùn)種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項(xiàng)】
1. 一種基于車聯(lián)網(wǎng)的語音識(shí)別方法,其特征在于,包括: 對(duì)帶噪語音信號(hào)進(jìn)行頻域分離,以獲得純凈的語音信號(hào);選擇待端點(diǎn)檢測(cè)的語音信號(hào), 將檢測(cè)到的有效語音段保存為語音文件,選擇多個(gè)語音文件導(dǎo)入車載語音識(shí)別系統(tǒng)中識(shí) 別。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)帶噪語音信號(hào)進(jìn)行頻域分離,以獲 得純凈的語音信號(hào),進(jìn)一步包括: 利用短時(shí)FFT將帶噪語音信號(hào)Xl,(i = l,2)從時(shí)域變換到頻域,生成LXM點(diǎn)采樣信號(hào)矩 陣,其中L表示FFT變換后頻域下的頻點(diǎn)個(gè)數(shù),M表示對(duì)信號(hào)加窗分幀后的幀數(shù);然后實(shí)現(xiàn)混 合信號(hào)的頻域分離,對(duì)提取出的頻域分量進(jìn)行FFT逆變換得到時(shí)域獨(dú)立成分;最后對(duì)獲得的 MFL域特征和其對(duì)應(yīng)的一階差分系數(shù)進(jìn)行線性組合,并將組合后的特征用于后續(xù)識(shí)別過程; 其中所述短時(shí)FFT將帶噪語音信號(hào)^從時(shí)域變換到頻域,進(jìn)一步包括: 對(duì)語音信號(hào)加窗,并讓該窗在時(shí)間軸上平移,卷積混合過程描述為:其中P為卷積混合濾波器階數(shù),為第j個(gè)聲源到第i個(gè)傳感器的沖激響應(yīng),N為聲源數(shù) 量,為源信號(hào);對(duì)上式進(jìn)行短時(shí)FFT變換,得到的信號(hào)表示為:其中,win表示在預(yù)處理過程中所加的窗口函數(shù),τ為窗口函數(shù)的位置;fs為采樣頻率,f 為離散頻點(diǎn),其取值為f = f sI/L; I = O,1,…L-1; 對(duì)輸入的語音進(jìn)行短時(shí)FFT變換之后,將時(shí)域采樣信號(hào)Xl(t)變換到時(shí)頻域,得到一個(gè)L* M點(diǎn)的采樣信號(hào)矩陣:將同頻點(diǎn)fk(ke[〇,L-l])的XJfk)作為該頻點(diǎn)進(jìn)行獨(dú)立成分提取的新采樣數(shù)據(jù),對(duì)新 采樣數(shù)據(jù)進(jìn)行頻域分離矩陣W(fk)的估計(jì),進(jìn)而實(shí)現(xiàn)對(duì)信號(hào)頻域分量Ydfk)的提取;對(duì)各頻 點(diǎn)進(jìn)行頻域分離得到短時(shí)頻域分量Y 1(Lt),再消除模糊性后得到IMf,τ),作為對(duì)純凈頻域 源信號(hào)SKfj)的逼近; 所述混合信號(hào)的頻域分離,進(jìn)一步包括: 對(duì)Ui (f,τ)進(jìn)行短時(shí)FFT逆變換,即按列對(duì)Ui (f,τ)時(shí)頻矩陣求逆離散FFT運(yùn)算,得到在不 同時(shí)窗位置Tm,(m=0,l,· · ·Μ-1)上的時(shí)間信號(hào)m(f,τη):然后按Tm從小到大的順序?qū)(f,Tm)進(jìn)行拼接,得到源的完整時(shí)間信號(hào),即: Ui(t) = Ui(t, T〇)+Ui(t-Tl, Ti) + -"+Ui(t-TM-l, Tm-I) 如果進(jìn)行拼接處理時(shí),相鄰窗口內(nèi)的時(shí)間信號(hào)出現(xiàn)部分重疊,則對(duì)重疊區(qū)域的數(shù)據(jù)采 用相加求平均的處理方法。
【文檔編號(hào)】G10L15/04GK106023984SQ201610280673
【公開日】2016年10月12日
【申請(qǐng)日】2016年4月28日
【發(fā)明人】謝欣霖, 陳波
【申請(qǐng)人】成都之達(dá)科技有限公司, 成都同創(chuàng)合科技有限公司, 成都同創(chuàng)合一科技有限公司