本發(fā)明涉及到語音識(shí)別領(lǐng)域,特別是涉及到一種混響抑制方法及裝置。
背景技術(shù):
近年來隨著互聯(lián)網(wǎng)技術(shù)、智能硬件的蓬勃發(fā)展,語音識(shí)別、聲紋識(shí)別、聲源檢測(cè)等語音智能交互技術(shù)開始從實(shí)驗(yàn)室走向用戶。由于語音識(shí)別技術(shù)是基于語音的人機(jī)交互系統(tǒng)最核心的技術(shù)。目前在限定條件下識(shí)別率已經(jīng)達(dá)到可用的準(zhǔn)確率。所謂限定調(diào)節(jié)通常是指用戶距離麥克風(fēng)較近,噪聲干擾較小。而必須近距離發(fā)出語音指令這一條件限制了語音交互的便捷性。
在遠(yuǎn)講情況下,由于語音能量會(huì)快速衰減,而噪音干擾能量大致不變,會(huì)使得識(shí)別率迅速下降。另外一個(gè)影響識(shí)別準(zhǔn)確率的因素是,語音指令到達(dá)房間墻壁多次反射之后的混響,也會(huì)造成實(shí)際應(yīng)用與語音識(shí)別訓(xùn)練數(shù)據(jù)集的不匹配,影響識(shí)別率。
噪音主要有兩個(gè)來源:(1)麥克風(fēng)信號(hào)采集系統(tǒng)自帶的信道噪聲,信道噪聲因麥克風(fēng)的敏感性而不同,麥克風(fēng)敏感性越高,通常信道噪聲越高;(2)不可忽略的環(huán)境噪聲干擾,比如電視機(jī)、空調(diào)噪聲等等。相比于噪聲,混響由于產(chǎn)生條件更為復(fù)雜,更難抑制。并且,噪音和混響一般同時(shí)存在,使得混響抑制更加困難。
cn201280047068公開了一種混響抑制裝置,具備:回聲消除部,去除輸入信號(hào)中包含的回聲分量;嘯聲抑制部,根據(jù)被去除了回聲分量的輸入信號(hào)的頻率特性,檢測(cè)嘯聲的發(fā)生,使所檢測(cè)出的嘯聲分量的頻率的電平衰減;以及語頭抑制部,檢測(cè)嘯聲分量的頻率電平被衰減的輸入信號(hào)的聲音區(qū)間,抑制所檢測(cè)出的聲音區(qū)間的聲音開始部分的信號(hào)值。
然而,該裝置提供的是汽車內(nèi)部空間的混響抑制解決方法,并不適用于家居音頻采集時(shí)的混響問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的為提供一種混響抑制方法及裝置,解決家居環(huán)境中聲音采集的混響問題。
本發(fā)明提出一種混響抑制方法,包括以下步驟:
將聲音信號(hào)從時(shí)域變換到頻域,獲得頻域信號(hào);
根據(jù)所述頻域信號(hào)計(jì)算所述頻域信號(hào)的語音參數(shù);
在判斷出所述聲音信號(hào)存在語音活動(dòng)時(shí),根據(jù)所述語音參數(shù)更新預(yù)測(cè)誤差向量;
根據(jù)所述預(yù)測(cè)誤差向量,更新所述聲音信號(hào)的混響功率譜密度;
根據(jù)所述混響功率譜密度構(gòu)建衰減因子,使用所述衰減因子處理語音頻譜,獲得優(yōu)化語音頻譜。
優(yōu)選地,所述根據(jù)所述語音參數(shù)更新預(yù)測(cè)誤差向量,具體為:
gk=g′k+kgepre
其中,gk為當(dāng)前幀的預(yù)測(cè)誤差向量,g′k為前一幀的預(yù)測(cè)誤差向量,kg為kalman增益,epre為當(dāng)前幀的預(yù)測(cè)混響分量。
優(yōu)選地,所述根據(jù)所述預(yù)測(cè)誤差向量,更新所述聲音信號(hào)的混響功率譜密度,具體為:
其中,φr(k)為當(dāng)前幀的混響功率譜密度,φ′r(k)為前一幀的混響功率譜密度,α為平滑系數(shù),
優(yōu)選地,所述α的取值范圍為[0.95,0.98)、0.98或(0.98,0.995]。
優(yōu)選地,所述根據(jù)所述混響功率譜密度構(gòu)建衰減因子,輸出估算語音頻譜,具體為:
其中,ζ(k)為衰減因子,φy(k)為混合語音功率譜密度,φv(k)為噪音功率譜密度。
優(yōu)選地,所述根據(jù)所述混響功率譜密度構(gòu)建衰減因子,輸出估算語音頻譜之后,還包括:
采用逆傅里葉變換,將所述估算語音頻譜恢復(fù)為時(shí)域信號(hào),具體為:
其中,
優(yōu)選地,所述根據(jù)所述語音參數(shù)更新預(yù)測(cè)誤差向量之前,還包括:
計(jì)算kalman增益,并更新預(yù)測(cè)向量方差矩陣,具體為:
其中,kg為kalman增益,
ppre為預(yù)測(cè)向量方差矩陣,用于計(jì)算kalman增益,
pk為向量方差矩陣,用于更新ppre,
e(k)為估算混響分量。
優(yōu)選地,所述e(k)由以下式子求得:
e(k)=η|epre|2-(1-η)|epre,o|2
其中,η為平滑系數(shù),epre,o為前一幀的預(yù)測(cè)混響分量。
優(yōu)選地,所述計(jì)算kalman增益,并更新預(yù)測(cè)向量方差矩陣之前,還包括:
更新所述預(yù)測(cè)向量方差矩陣和當(dāng)前幀的預(yù)測(cè)混響分量epre,具體為:
其中,
本發(fā)明還提出了一種混響抑制裝置,包括:
變換模塊,用于將聲音信號(hào)從時(shí)域變換到頻域,獲得頻域信號(hào);
參數(shù)計(jì)算模塊,用于根據(jù)所述頻域信號(hào)計(jì)算所述頻域信號(hào)的語音參數(shù);
更新預(yù)測(cè)向量模塊,用于在判斷出所述聲音信號(hào)存在語音活動(dòng)時(shí),根據(jù)所述語音參數(shù)更新預(yù)測(cè)誤差向量;
更新混響功率譜密度模塊,用于根據(jù)所述預(yù)測(cè)誤差向量,更新所述聲音信號(hào)的混響功率譜密度;
優(yōu)化語音頻譜計(jì)算模塊,用于根據(jù)所述混響功率譜密度構(gòu)建衰減因子,使用所述衰減因子處理語音頻譜,獲得優(yōu)化語音頻譜。
本發(fā)明提出的一種混響抑制方法及裝置,先將聲音信號(hào)從時(shí)域變換到頻域,獲得頻域信號(hào),然后使用vad(voiceactivitydetection,語音活動(dòng)檢測(cè))檢測(cè)所述頻域信號(hào),判斷是否存在語音;在存在語音的情況下,使用一個(gè)預(yù)測(cè)誤差向量預(yù)測(cè)聲音信號(hào)的混響功率譜密度,然后構(gòu)建衰減因子,計(jì)算出優(yōu)化語音頻譜,該優(yōu)化語音頻譜去除了聲音信號(hào)中的混響部分。本發(fā)明提高了采集的聲音信號(hào)質(zhì)量。
附圖說明
圖1為本發(fā)明混響抑制方法一實(shí)施例的流程示意圖;
圖2為本發(fā)明混響抑制裝置一實(shí)施例的結(jié)構(gòu)示意圖。
本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。
具體實(shí)施方式
應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明所指的聲音信號(hào),是指數(shù)字音頻數(shù)據(jù),即先通過聲波轉(zhuǎn)換電路將聲波轉(zhuǎn)換為模擬音頻信號(hào),再通過模擬數(shù)字轉(zhuǎn)換器將上述模擬音頻信號(hào)轉(zhuǎn)換得到的數(shù)字音頻數(shù)據(jù)。
參照?qǐng)D1,本發(fā)明實(shí)施例提出一種混響抑制方法,包括以下步驟:
s10、將聲音信號(hào)從時(shí)域變換到頻域,獲得頻域信號(hào);
s20、根據(jù)所述頻域信號(hào)計(jì)算所述頻域信號(hào)的語音參數(shù);
s30、在判斷出所述聲音信號(hào)存在語音活動(dòng)時(shí),根據(jù)所述語音參數(shù)更新預(yù)測(cè)誤差向量;
s40、根據(jù)所述預(yù)測(cè)誤差向量,更新所述聲音信號(hào)的混響功率譜密度;
s50、根據(jù)所述混響功率譜密度構(gòu)建衰減因子,使用所述衰減因子處理語音頻譜,獲得優(yōu)化語音頻譜。
在步驟s10中,取緩沖區(qū)數(shù)據(jù),并加窗做fft變換,把時(shí)域信號(hào)變換到頻譜域:
假設(shè)混合語音數(shù)據(jù)為y(t),其中x(t)為帶混響語音信號(hào),v(t)為背景噪聲,fft變換(傅里葉變換)如下所示:
其中,w(t)為長(zhǎng)度512的漢寧窗,l為時(shí)間幀坐標(biāo),k為頻率坐標(biāo)。
上述y(t)即為聲音信號(hào),y(l,k)為頻域信號(hào)。
在步驟s20、s30中,語音參數(shù)包括估算語音頻譜
在前l(fā)i幀進(jìn)行預(yù)測(cè)誤差向量,預(yù)測(cè)向量方差矩陣,預(yù)測(cè)誤差進(jìn)行初始化,初始化過程如下所示:
e(k)=0
其中,預(yù)測(cè)向量方差矩陣pk為維度lg×lg的0矩陣,為預(yù)測(cè)誤差向量gk為維度lg×1的0向量,e(k)為采用當(dāng)前預(yù)測(cè)向量獲得的預(yù)測(cè)誤差。
從li+1幀開始,如果語音檢測(cè)結(jié)果表明存在語音活動(dòng)執(zhí)行如下自適應(yīng)更新過程:
更新預(yù)測(cè)誤差,包括預(yù)測(cè)誤差向量和預(yù)測(cè)頻譜誤差,更新過程如下所示:
其中,
預(yù)測(cè)頻譜誤差平滑,使得誤差估計(jì)更加平滑,具體流程如下所示:
e(k)=η|epre|2-(1-η)|epre,o|2
其中,η為平滑系數(shù)取值范圍在0.6~0.9之間,本項(xiàng)發(fā)明取值為0.75。
kalman增益計(jì)算,更新預(yù)測(cè)向量,更新過程如下所示:
gk=g′k+kgepre
這樣就獲得可用于預(yù)測(cè)混響分量的向量gk。
步驟s40中,根據(jù)所述預(yù)測(cè)誤差向量,更新所述聲音信號(hào)的混響功率譜密度,具體計(jì)算如下:
α為平滑系數(shù),取值范圍為推薦為0.95~0.995,本實(shí)施例優(yōu)選0.98作為平滑閾值。
步驟s50中,根據(jù)所述混響功率譜密度構(gòu)建衰減因子,使用所述衰減因子處理語音頻譜,獲得優(yōu)化語音頻譜,計(jì)算如下:
該優(yōu)化語音頻譜,既用來在下一步恢復(fù)時(shí)域信號(hào),又用于第一步參與后驗(yàn)信噪比的計(jì)算。
以下為本發(fā)明混響抑制方法具體的計(jì)算過程。
首先是背景噪音的估計(jì),噪聲能量估計(jì)的準(zhǔn)確程度直接影響后續(xù)語音檢測(cè)的效果。本發(fā)明實(shí)施例采用固定噪聲估計(jì)結(jié)合噪聲自適應(yīng)更新的方式來保證噪音估計(jì)的穩(wěn)定性和精確性。初始化及具體計(jì)算流程如下所示:
取緩沖區(qū)數(shù)據(jù),并加窗做fft變換,把時(shí)域信號(hào)變換到頻譜域:
假設(shè)混合語音數(shù)據(jù)為y(t),其中x(t)為帶混響語音信號(hào),v(t)為背景噪聲,h(τ)為混響沖擊響應(yīng)信號(hào),s(t-τ)為無混響語音信號(hào)。fft變換(傅里葉變換)如下所示:
其中,w(t)為長(zhǎng)度512的漢寧窗,l為時(shí)間幀坐標(biāo),k為頻率坐標(biāo)。
對(duì)前l(fā)i時(shí)間幀假設(shè)沒有語音活動(dòng),并做如下初始化:
γ(k)=1,ε(k)=κ,k=1,2,...,k
其中,k代表頻帶整體的數(shù)量,φv(k)代表噪音信號(hào)的功率譜密度,φy(k)代表觀測(cè)信號(hào)的功率譜密度,γ(k)為先驗(yàn)信噪比,ε(k)為后驗(yàn)信噪比,
從第lt+1時(shí)間幀開始做迭代計(jì)算,計(jì)算流程如下所示:
更新觀測(cè)信號(hào)功率譜密度估計(jì)值,即根據(jù)前一幀的結(jié)果,平滑得到下一幀的計(jì)算結(jié)果:
φ′y(k)=αφy(k)+(1-α)|y(l,k)|2
其中,α為平滑因子,取值范圍為推薦為0.95~0.995,本實(shí)施例優(yōu)選0.98作為平滑閾值。
計(jì)算先驗(yàn)信噪比和后驗(yàn)信噪比
其中,β為平滑因子,β為取值范圍為0.6~0.9,本實(shí)施例優(yōu)選取值為0.75。max函數(shù)表示選擇兩個(gè)變量中的最大值。
以上只是先驗(yàn)信噪比和后驗(yàn)信噪比的一種優(yōu)選的計(jì)算方式,任何按照上述方法進(jìn)行適當(dāng)?shù)淖冃畏纸?,再進(jìn)行求解的方式,也應(yīng)屬于本發(fā)明的保護(hù)范圍之內(nèi)。
根據(jù)先驗(yàn)后驗(yàn)信噪比計(jì)算噪音功率譜自適應(yīng)更新步長(zhǎng):
即采用固定步長(zhǎng)加上自適應(yīng)步長(zhǎng)的方式,實(shí)現(xiàn)整體更新。
根據(jù)步長(zhǎng),更新噪音功率譜,基本原則是,如果語音越少,則噪音功率譜更新的步長(zhǎng)越大,保證噪音估計(jì)的準(zhǔn)確性;反之,則采用較慢的步長(zhǎng),以避免語音信號(hào)參與噪音功率譜的迭代更新:
φv(k)=αv(k)φ′v(k)+(1-αv(k))|y(l,k)|2。
上式輸出即為噪音功率譜更新結(jié)果,用以下一幀的噪音更新和作為參數(shù)參與語音檢測(cè)過程。
以下為語音檢測(cè)的具體過程。
在準(zhǔn)確估算出背景噪音參數(shù)之后,便可根據(jù)背景噪音參數(shù)構(gòu)建聽覺特征的。在獲得聽覺特征之后,將當(dāng)前幀的聽覺特征與設(shè)定的聽覺閾值比較,便可判斷當(dāng)前幀是否出現(xiàn)語音活動(dòng)。
語音活動(dòng)檢測(cè)主要是為了檢測(cè)出語音活動(dòng)的區(qū)域,在非語音活動(dòng)區(qū)域,停止對(duì)語音的優(yōu)化處理,減少功耗;在語音活動(dòng)區(qū)域,則可減少噪音干擾,提高語音優(yōu)化的效果。
在提取當(dāng)前幀的聽覺特征之前,有一初始化過程,具體如下:
對(duì)特征緩沖矩陣,特征閾值,語音檢測(cè)結(jié)果緩沖區(qū)進(jìn)行初始化,特征緩沖區(qū)矩陣由li個(gè)3維度列向量構(gòu)成,以公式表示如下:
q(1:li)=0
θt(1)=fb(1,1)
θt(2)=fb(2,1)
θt(3)=fb(3,1)
其中,fb為聽覺特征緩沖區(qū),q為語音活動(dòng)檢測(cè)結(jié)果緩沖區(qū),θt為聽覺特征閾值緩沖區(qū),即分別用先驗(yàn)信噪比、后驗(yàn)信噪比和時(shí)域信號(hào)用以最終的語音活動(dòng)檢測(cè)。在聽覺特征計(jì)算中,lw代表窗長(zhǎng),lt代表起始樣本點(diǎn),起始樣本點(diǎn)取值范圍通常在5~20之間,本實(shí)施例設(shè)定為10。
從第lt+1時(shí)間幀開始,計(jì)算當(dāng)前幀聽覺特征如下所示:
根據(jù)當(dāng)前幀聽覺特征計(jì)算結(jié)果,更新特征緩沖區(qū)和特征閾值,即把緩沖區(qū)內(nèi)時(shí)間最久的數(shù)據(jù)踢出緩沖區(qū).把當(dāng)前幀數(shù)據(jù)放入緩沖區(qū):
并求取各維度參數(shù)對(duì)應(yīng)的聽覺閾值:
θt(i)=max(θ′t(i),minj-1,...,li(fb(i,j))),i=1,2,3
當(dāng)前聽覺特征與聽覺閾值進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果確定語音檢測(cè)的結(jié)果,具體計(jì)算如下所示:
q(i)為所述聽覺特征的維度參數(shù)的得分,qframe為語音檢查的判斷結(jié)果,結(jié)果為1則表明當(dāng)前幀存在語音,結(jié)果為0則表明當(dāng)前幀不存在語音。
更新語音檢測(cè)結(jié)果緩沖區(qū),同樣把緩沖區(qū)內(nèi)時(shí)間最久的數(shù)據(jù)踢出緩沖區(qū),加入當(dāng)前幀判斷結(jié)果,并計(jì)算緩沖區(qū)內(nèi)平均的語音檢測(cè)結(jié)果:
q=[q′(:,2:lb);qframe]
然后,計(jì)算語音檢測(cè)結(jié)果緩沖區(qū)內(nèi)檢測(cè)結(jié)果的統(tǒng)計(jì)值,在此處采用的是計(jì)算檢測(cè)結(jié)果的總和,具體計(jì)算如下:
由于語音通常是連續(xù)出現(xiàn)的,對(duì)比qm與固定閾值δli,如果小于閾值,表明當(dāng)前緩沖區(qū)內(nèi)語音存在幀為誤檢,當(dāng)前緩沖區(qū)內(nèi)沒有語音,更新特征閾值并把語音頻譜估計(jì)結(jié)果設(shè)為一個(gè)極小值,計(jì)算如下所示:
θt(i)=maxj-1,...,li(fb(i,j)),i=1,2,3
同時(shí),更新估算語音頻譜
δ取值范圍為0.1~0.3,本項(xiàng)發(fā)明取值為0.15。若無誤檢,表明當(dāng)前緩沖區(qū)內(nèi)有語音出現(xiàn),可對(duì)該聲音信號(hào)繼續(xù)優(yōu)化處理。
kalman自適應(yīng)增強(qiáng)是假定用一個(gè)長(zhǎng)為lg的前向預(yù)測(cè)濾波器,對(duì)純凈語音頻譜進(jìn)行預(yù)測(cè),通常lg<li。在本項(xiàng)發(fā)明中,這兩個(gè)參數(shù)分別設(shè)置為lg=15,li=25。由于語音信號(hào)可以用一個(gè)自回歸模型來很好的表達(dá),預(yù)測(cè)的誤差可以理解為混響分量。基于最小均方誤差準(zhǔn)則,濾波器更新的自適應(yīng)過程如下所示:
在前l(fā)i幀進(jìn)行預(yù)測(cè)誤差向量,預(yù)測(cè)向量方差矩陣,預(yù)測(cè)誤差進(jìn)行初始化,初始化過程如下所示:
e(k)=0
其中,預(yù)測(cè)向量方差矩陣pk為維度lg×lg的0矩陣,為預(yù)測(cè)誤差向量gk為維度lg×1的0向量,e(k)為采用當(dāng)前預(yù)測(cè)向量獲得的預(yù)測(cè)誤差。
從li+1幀開始,如果語音檢測(cè)結(jié)果表明存在語音活動(dòng)執(zhí)行如下自適應(yīng)更新過程:
(1.1)更新預(yù)測(cè)誤差,包括預(yù)測(cè)誤差向量和預(yù)測(cè)頻譜誤差,更新過程如下所示:
其中,
(1.2)預(yù)測(cè)頻譜誤差平滑,使得誤差估計(jì)更加平滑,具體流程如下所示:
e(k)=η|epre|2-(1-η)|epre,o|2
其中,η為平滑系數(shù)取值范圍在0.6~0.9之間,本項(xiàng)發(fā)明取值為0.75。
(1.3)kalman增益計(jì)算,更新預(yù)測(cè)向量,更新過程如下所示:
gk=g′k+kgepre
(1.4)混響功率譜密度更新,更新過程如下所示:
該混響功率譜密度與觀測(cè)信號(hào)功率譜密度采用同一個(gè)平滑系數(shù)。φ′r(k)為前一幀的混響功率譜密度?;祉懝β首V密度的初始設(shè)置值為0。
(1.5)根據(jù)維納濾波構(gòu)建衰減因子,輸出估算語音頻譜,計(jì)算如下:
該頻譜估計(jì)值既用來在下一步恢復(fù)時(shí)域信號(hào),又用于第一步參與后驗(yàn)信噪比的計(jì)算。
(1.6)循環(huán)執(zhí)行1.1-1.5至所有頻帶更新完畢,采用逆傅里葉變換恢復(fù)時(shí)域信號(hào),計(jì)算流程如下所示:
恢復(fù)出時(shí)域信號(hào)之后,發(fā)送到后續(xù)應(yīng)用終端,比如通訊設(shè)備或者語音識(shí)別引擎,實(shí)現(xiàn)噪聲、混響聯(lián)合抑制。
參照?qǐng)D2,本發(fā)明還提出了一種混響抑制裝置,包括:
變換模塊10,用于將聲音信號(hào)從時(shí)域變換到頻域,獲得頻域信號(hào);
參數(shù)計(jì)算模塊20,用于根據(jù)所述頻域信號(hào)計(jì)算所述頻域信號(hào)的語音參數(shù);
更新預(yù)測(cè)向量模塊30,用于在判斷出所述聲音信號(hào)存在語音活動(dòng)時(shí),根據(jù)所述語音參數(shù)更新預(yù)測(cè)誤差向量;
更新混響功率譜密度模塊40,用于根據(jù)所述預(yù)測(cè)誤差向量,更新所述聲音信號(hào)的混響功率譜密度;
優(yōu)化語音頻譜計(jì)算模塊50,用于根據(jù)所述混響功率譜密度構(gòu)建衰減因子,使用所述衰減因子處理語音頻譜,獲得優(yōu)化語音頻譜。
可選地,所述更新預(yù)測(cè)向量模塊30,用于根據(jù)所述語音參數(shù)更新預(yù)測(cè)誤差向量,具體為:
gk=g′k+kgepre
其中,gk為當(dāng)前幀的預(yù)測(cè)誤差向量,g′k為前一幀的預(yù)測(cè)誤差向量,kg為kalman增益,epre為當(dāng)前幀的預(yù)測(cè)混響分量。
可選地,所述更新混響功率譜密度模塊40,用于根據(jù)所述預(yù)測(cè)誤差向量,更新所述聲音信號(hào)的混響功率譜密度,具體為:
其中,φr(k)為當(dāng)前幀的混響功率譜密度,φ′r(k)為前一幀的混響功率譜密度,α為平滑系數(shù),
可選地,所述α的取值范圍為[0.95,0.98)、0.98或(0.98,0.995]。
可選地,所述優(yōu)化語音頻譜計(jì)算模塊50,用于根據(jù)所述混響功率譜密度構(gòu)建衰減因子,輸出估算語音頻譜,具體為:
其中,ζ(k)為衰減因子,φy(k)為混合語音功率譜密度,φv(k)為噪音功率譜密度。
可選地,還包括頻譜恢復(fù)模塊,用于采用逆傅里葉變換,將所述估算語音頻譜恢復(fù)為時(shí)域信號(hào),具體為:
其中,
可選地,所述參數(shù)計(jì)算模塊20,包括:
第二參數(shù)計(jì)算單元,用于計(jì)算kalman增益,并更新預(yù)測(cè)向量方差矩陣,具體為:
其中,kg為kalman增益,
ppre為預(yù)測(cè)向量方差矩陣,用于計(jì)算kalman增益,
pk為向量方差矩陣,用于更新ppre,
e(k)為估算混響分量。
可選地,所述e(k)由以下式子求得:
e(k)=η|epre|2-(1-η)|epre,o|2
其中,η為平滑系數(shù),epre,o為前一幀的預(yù)測(cè)混響分量。
可選地,所述參數(shù)計(jì)算模塊20,還包括:
第一參數(shù)計(jì)算單元,用于更新所述預(yù)測(cè)向量方差矩陣和當(dāng)前幀的預(yù)測(cè)混響分量epre,具體為:
其中,
本發(fā)明可以用于輔助應(yīng)用于家居環(huán)境下的語音指令識(shí)別。在家居環(huán)境下,用戶距離麥克風(fēng)大約為1米至3米,會(huì)受到家庭噪聲和墻壁混響的影響,識(shí)別率會(huì)迅速下降。本發(fā)明提出的混響抑制方法與裝置,可以優(yōu)化語音質(zhì)量。經(jīng)實(shí)驗(yàn)證明,在距離麥克風(fēng)2米左右,輸入信噪比10db左右,識(shí)別率可以從30%提高到65%,當(dāng)增加噪聲至20db,識(shí)別率從10%提高至50%左右。
本發(fā)明提出的一種混響抑制方法及裝置,先將聲音信號(hào)從時(shí)域變換到頻域,獲得頻域信號(hào),然后使用vad(voiceactivitydetection,語音活動(dòng)檢測(cè))檢測(cè)所述頻域信號(hào),判斷是否存在語音;在存在語音的情況下,使用一個(gè)預(yù)測(cè)誤差向量預(yù)測(cè)聲音信號(hào)的混響功率譜密度,然后構(gòu)建衰減因子,計(jì)算出優(yōu)化語音頻譜,該優(yōu)化語音頻譜去除了聲音信號(hào)中的混響部分。本發(fā)明提高了采集的聲音信號(hào)質(zhì)量。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。