專利名稱:一種寬帶波束形成方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻處理技術(shù),具體涉及一種寬帶波束形成方法和裝置。
背景技術(shù):
隨著現(xiàn)代科學(xué)的蓬勃發(fā)展,通信或信息交換已成為人類社會(huì)存在的必要條件,而語(yǔ)音作為語(yǔ)言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段之一。
在語(yǔ)音通信過程中,不可避免地會(huì)受到來(lái)自周圍環(huán)境、傳輸媒介引入的噪聲、通信設(shè)備內(nèi)部電噪聲、乃至其他講話者的干擾。這些干擾最終會(huì)使語(yǔ)音接收者接收到的語(yǔ)音不再是純凈的原始語(yǔ)音,而是被噪聲污染過的帶噪語(yǔ)音。例如,汽車、街道、機(jī)場(chǎng)中的電話,常會(huì)受到強(qiáng)背景噪聲的于擾,從而嚴(yán)重影響了通話質(zhì)量。環(huán)境噪聲的污染還會(huì)使得許多語(yǔ)音處理系統(tǒng)的性能急劇惡化。例如,語(yǔ)音識(shí)別系統(tǒng)已取得重大進(jìn)展,正步入實(shí)用階段,但是,目前的語(yǔ)音識(shí)別系統(tǒng)大都是在安靜環(huán)境中工作的,在噪聲環(huán)境中尤其是在強(qiáng)噪聲環(huán)境中,語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率將會(huì)受到嚴(yán)重影響。低速率語(yǔ)音編碼,特別是參數(shù)編碼,也遇到類似問題。由于語(yǔ)音生成模型是低速率編碼的基礎(chǔ),當(dāng)模型參數(shù)的提取受到混雜在語(yǔ)音中背景噪聲嚴(yán)重干擾時(shí),重建語(yǔ)音的質(zhì)量將急劇惡化,甚至變得完全不可懂。
語(yǔ)音增強(qiáng)技術(shù)能夠有效的抑制背景噪聲,提高語(yǔ)音通信質(zhì)量,提高語(yǔ)音處理系統(tǒng)的抗干擾能力,維持語(yǔ)音處理系統(tǒng)的性能。因此,研究語(yǔ)音增強(qiáng)技術(shù)在實(shí)際應(yīng)用中有著重要的價(jià)值。語(yǔ)音增強(qiáng)技術(shù)己在語(yǔ)音處理系統(tǒng)、通信系統(tǒng)、多媒體技術(shù)、數(shù)字化家電等領(lǐng)域得到了越來(lái)越廣泛的應(yīng)用。
語(yǔ)音增強(qiáng)技術(shù)的主要目的是從帶噪語(yǔ)音信號(hào)中提取盡可能純凈的原始語(yǔ)音。然而,由于干擾通常都是隨機(jī)的,從帶噪語(yǔ)音中提取完全純凈的語(yǔ)音幾乎是不可能。在此情況下,語(yǔ)音增強(qiáng)的主要目的是通過對(duì)帶噪語(yǔ)音進(jìn)行處理,以消除背景噪聲,改善語(yǔ)音質(zhì)量,提高語(yǔ)音的清晰度、可懂度和舒適度,提高語(yǔ)音處理系統(tǒng)的性能。這些目的往往不能兼得,通常需要根據(jù)語(yǔ)音處理系統(tǒng)的具體需要而定。
語(yǔ)音增強(qiáng)技術(shù)的研究始于20世紀(jì)70年代中期。隨著數(shù)字信號(hào)處理理論的成熟,語(yǔ)音增強(qiáng)已發(fā)展成為語(yǔ)音信號(hào)處理領(lǐng)域的一個(gè)重要分支。1978年,Lim和Oppenheim提出了語(yǔ)音增強(qiáng)的維納濾波方法。1979年,Boll提出了譜相減方法來(lái)抑制噪聲。1980年,Maulay和Malpass提出了軟判決噪聲抑制方法。1984年,Ephraim和Malah提出基于MMSE短時(shí)譜幅度估計(jì)的語(yǔ)音增強(qiáng)方法。1987年,Paliwal把卡爾曼濾波引入到語(yǔ)音增強(qiáng)領(lǐng)域。在近30年的研究中,各種語(yǔ)音增強(qiáng)方法不斷被提出,它奠定了語(yǔ)音增強(qiáng)理論的基礎(chǔ)并使之逐漸走向成熟。
近些年來(lái),隨著VLSI(超大規(guī)模集成電路)技術(shù)的發(fā)展和高速DSP(數(shù)字信號(hào)處理)芯片的出現(xiàn),語(yǔ)音增強(qiáng)技術(shù)逐步走向?qū)嵱?,同時(shí)新的語(yǔ)音增強(qiáng)技術(shù)又相繼涌現(xiàn)。
語(yǔ)音增強(qiáng)、去噪的方法可以簡(jiǎn)單的分為基于時(shí)域、頻域和空域的濾波技術(shù),如維納濾波的語(yǔ)音增強(qiáng)技術(shù)、基于頻域的譜抵消技術(shù)等。近年來(lái),陣列處理技術(shù)也引入到語(yǔ)音處理中,形成了基于波束的空域?yàn)V波技術(shù),如時(shí)延求和波束形成技術(shù)(DSB)等。
MVDR(Minim Variance Distortion Response,窄帶最小方差無(wú)失真)波束形成技術(shù)主要用于傳統(tǒng)的窄帶信號(hào)處理過程中。
設(shè)定有M個(gè)傳感器組成如附圖1所示的天線陣列,接收來(lái)自方向0的窄帶信號(hào)s(t),用MVDR波束形成技術(shù)對(duì)接收信號(hào)進(jìn)行空域?yàn)V波的主要步驟如下
步驟1、把每個(gè)傳感器接收到的模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),將數(shù)字信號(hào)組成輸入數(shù)據(jù)矩陣X(n)X(n)=[x1(n) x2(n)…xM(n)]T(1)其中,[·]T表示對(duì)矩陣或向量·作轉(zhuǎn)置運(yùn)算,x1(n)表示第n時(shí)刻第i個(gè)傳感器接收到的經(jīng)過AD變換后的數(shù)字信號(hào)、且i=1,…,M。
到步驟2、取L次快拍的L點(diǎn)數(shù)據(jù),即取n時(shí)刻,n-1時(shí)刻,……,n-L+1時(shí)刻每個(gè)傳感器上采集的數(shù)據(jù),并根據(jù)公式(2)求輸入信號(hào)的頻域相關(guān)矩陣RR=1LΣl=1L{X(n-l+1)*XH(n-l+1)}---(2)]]>其中,[·]H表示對(duì)矩陣或向量·作轉(zhuǎn)置并對(duì)每個(gè)元素取共額運(yùn)算。例如A=1+2i2+4i4-4i5-8i,]]>則AH=1-2i4+4i2-4i5+8i.]]>到步驟3、根據(jù)信號(hào)源的方向0和陣列拓?fù)浣Y(jié)構(gòu)求出信號(hào)源的方向矢量a。在獲取信號(hào)源的方向矢量a時(shí),陣列拓?fù)浣Y(jié)構(gòu)不限,如可以為均勻圓陣、均勻直線陣或其他的陣列結(jié)構(gòu),且信號(hào)源的方向0的獲得方法不限。
設(shè)定M個(gè)傳感器以間距d組成均勻直線陣列、且以第一個(gè)傳感器為參考點(diǎn),則信號(hào)源的方向矢量a為a=[1 e-jφ…e-j(M-1)φ]T(3)在公式(3)中,φ為空間相位、且 其中,λ為入射信號(hào)的波長(zhǎng),d為陣列間距,0為入射信號(hào)的入射角度。
到步驟4、根據(jù)信號(hào)源的方向矢量a和頻域相關(guān)矩陣R求最優(yōu)權(quán)向量WoptWopt=R-1aaHR-1a---(5)]]>到步驟5、根據(jù)最優(yōu)權(quán)向量對(duì)輸入信號(hào)進(jìn)行空間濾波,得到輸出信號(hào)y(n)y(n)=WoptH*X(n)---(6)]]>
然后,將數(shù)字信號(hào)y(n)轉(zhuǎn)換成模擬信號(hào)即可。
上述MVDR波束形成技術(shù)只能適用于窄帶信號(hào)源,當(dāng)該方法用于寬帶信號(hào)源時(shí),其語(yǔ)音增強(qiáng)性能會(huì)大幅度下降,而且,該技術(shù)只能適用于遠(yuǎn)場(chǎng)信號(hào)源,即入射信號(hào)為平面波,當(dāng)該技術(shù)適用于近場(chǎng)信號(hào)源,即入射信號(hào)為球面波時(shí),語(yǔ)音增強(qiáng)性能同樣會(huì)大幅度下降。
發(fā)明內(nèi)容
本發(fā)明的目的在于,提供一種寬帶波束形成方法和裝置,通過結(jié)合頻域和空域?qū)φZ(yǔ)音信號(hào)進(jìn)行處理,以實(shí)現(xiàn)提高語(yǔ)音增強(qiáng)性能的目的。
為達(dá)到上述目的,本發(fā)明提供的一種寬帶波束形成方法,包括a、確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào);b、確定所述各子帶信號(hào)的頻域相關(guān)矩陣;c、根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量;d、根據(jù)所述各子帶信號(hào)的權(quán)向量和各子帶信號(hào)確定輸出的信號(hào)。
所述步驟a具體包括a1、對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行語(yǔ)音檢測(cè),并確定語(yǔ)音幀;a2、確定所述語(yǔ)音幀對(duì)應(yīng)的各子帶信號(hào)。
設(shè)定輸入各麥克風(fēng)的信號(hào)為F(t)=[f1(t)…fi(t)…fM(t)]T;其中fi(t)表示第i個(gè)麥克風(fēng)接收到的信號(hào),i=1,…,M,M為麥克風(fēng)的數(shù)量,[·]T表示矩陣的轉(zhuǎn)置運(yùn)算;且所述步驟a1具體包括a11、根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換F(n)=[f1(n)…fi(n)…fM(n)]T;a12、從所述AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換
F(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)···Σm=1NfM(n)w(n-m)exp(-jωm);]]>a13、對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè),確定語(yǔ)音幀。
所述步驟a13具體包括如下步驟對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè);在確定信號(hào)幀不為語(yǔ)音幀時(shí),將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜;在確定信號(hào)幀為語(yǔ)音幀時(shí),根據(jù)當(dāng)前估計(jì)噪聲譜將所述語(yǔ)音幀進(jìn)行譜抵消去噪,確定譜抵消去噪后的語(yǔ)音幀S(ω)為S(ω)=F(ω)-N(ω)=s1(1)···s1(NFFT)·········sM(1)···sM(NFFT)M×NFFT;]]>其中:N(ω)=n1(1)···n1(NFFT)·········nM(1)···nM(NFFT)M×NFFT]]>為當(dāng)前估計(jì)噪聲譜,NFFT為短時(shí)傅立葉變換的頻率采樣點(diǎn)數(shù),F(xiàn)(ω)為短時(shí)傅立葉變換后的信號(hào)幀,M為麥克風(fēng)的數(shù)量。
所述步驟a2具體包括根據(jù)K個(gè)預(yù)定頻帶將語(yǔ)音幀劃分為K個(gè)子帶信號(hào),并將K個(gè)預(yù)定頻率ωi,i=1,…K,確定為各子帶的中心頻率;確定第i個(gè)子帶的信號(hào)分量S(ωi)為S(ωi)=S1(i)···SM(i);]]>其中M為麥克風(fēng)陣列的麥克風(fēng)數(shù)量,i=1,…K,K為子帶數(shù)量。
所述步驟b具體包括確定各子帶信號(hào)的頻域相關(guān)矩陣R(i)
R(i)=E{S(ωi)SH(ωi)};其中S(ωi)為第i個(gè)子帶的信號(hào)分量,且S(ωi)=S1(i)···SM(i).]]>所述步驟c中信號(hào)源的三維空間傳輸矢量可通過如下步驟獲得c1、獲取信號(hào)源位置(f0,θ0,φ0)坐標(biāo)矢量S=r0*[sinθ0cosφ0sinθ0sinφ0cosθ0];c2、獲取各麥克風(fēng)的坐標(biāo)矢量Pi=ri*[sinθicosφisinθisinφicosθi];c3、確定信號(hào)源位置(r0,θ0,φ0)到第i個(gè)麥克風(fēng)的相對(duì)幅度衰減因子m為∂i=||S||||Pi-S||;]]>其中‖*‖表示矢量*的范數(shù);c4、確定信號(hào)源位置(r0,θ0,φ0)到第i個(gè)麥克風(fēng)的相對(duì)時(shí)間延遲因子τi為τi=||S-Pi||-||S||c;]]>其中c為聲音在空氣中的傳播速度,‖*‖表示矢量*的范數(shù);c5、確定信號(hào)源位置(r0,θ0,φ0)的三維空間傳輸矢量a(r,θ,φ)為a(r,θ,φ)=∂1e-jωiτ1···∂me-jωiτm···∂Me-jωiτM;]]>其中ωi為各子帶的中心頻率。
所述步驟c具體包括確定第i個(gè)子帶的最優(yōu)權(quán)向量Wopti為Wopti=R(i)-1aaHR(i)-1a;]]>其中R(i)為第i個(gè)子帶信號(hào)的頻域相關(guān)矩陣,a為所述信號(hào)源位置(r0,θ0,φ0)的三維空間傳輸矢量。
所述步驟d包括根據(jù)各子帶信號(hào)的最優(yōu)權(quán)向量對(duì)各子帶信號(hào)進(jìn)行子帶空間濾波,得到第i個(gè)子帶的頻域輸出信號(hào)y(ωi)y(ωi)=(Wopti)H*S(ωi);]]>其中Wopti為第i個(gè)子帶的最優(yōu)權(quán)向量,S(ωi)為第i個(gè)子帶的信號(hào)分量;將各子帶的頻域輸出信號(hào)組合為Y(ω)Y(ω)=[y(ω1) y(ω2)…y(ωK)]T;對(duì)組合后的頻域輸出信號(hào)Y(ω)進(jìn)行逆快速傅立葉變換得到輸出信號(hào)Y(n);將所述Y(n)轉(zhuǎn)換成模擬信號(hào)y(t),并將y(t)進(jìn)行低通濾波后信號(hào)確定為需要輸出的語(yǔ)音信號(hào)。
本發(fā)明還提供一種寬帶波束形成裝置,包括劃分子帶信號(hào)模塊確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào),并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊;頻域相關(guān)矩陣模塊確定所述各子帶信號(hào)的頻域相關(guān)矩陣,并將其傳輸至權(quán)向量模塊;權(quán)向量模塊根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量,并將其傳輸至輸出模塊;輸出模塊根據(jù)所述各子帶信號(hào)的權(quán)向量、各子帶信號(hào)確定輸出的信號(hào)。
所述劃分子帶信號(hào)模塊包括采樣子模塊根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換,并從所述AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換;語(yǔ)音檢測(cè)子模塊對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè),在確定信號(hào)幀不為語(yǔ)音幀時(shí),將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜,在確定信號(hào)幀為語(yǔ)音幀時(shí),將該語(yǔ)音幀傳輸至譜抵消去噪子模塊;譜抵消去噪子模塊根據(jù)當(dāng)前估計(jì)噪聲譜將其接收的語(yǔ)音幀進(jìn)行譜抵消去噪,并傳輸至劃分子帶信號(hào)子模塊;劃分子帶信號(hào)子模塊根據(jù)預(yù)定頻帶將其接收的語(yǔ)音幀劃分為多個(gè)子帶信號(hào),并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊。
通過上述技術(shù)方案的描述可知,本發(fā)明通過對(duì)信號(hào)源位置矢量采用三維空間傳播矢量a(r0,θ0,φ0),解決了三維空間濾波問題,抑制了空間干擾信號(hào)和噪聲,提高了輸出信號(hào)的信噪比;通過將語(yǔ)音信號(hào)劃分為多個(gè)子帶,對(duì)每個(gè)子帶分別進(jìn)行三維空間濾波,使本發(fā)明能夠?qū)㈩l域和空域結(jié)合起來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行處理,使本發(fā)明能夠很好的適用于寬帶信號(hào)源、近場(chǎng)信號(hào)源;通過采用過零率、短時(shí)能量相結(jié)合等語(yǔ)音檢測(cè)技術(shù)來(lái)確定語(yǔ)音幀,避免了在沒有語(yǔ)音信號(hào)輸入時(shí),消耗系統(tǒng)資源的現(xiàn)象,提高了輸出語(yǔ)音信號(hào)的準(zhǔn)確性和穩(wěn)定性;通過采用譜抵消技術(shù)去除系統(tǒng)噪聲,避免了非白高斯噪聲對(duì)系統(tǒng)的影響,有效提高了語(yǔ)音信號(hào)的濾波性能;在確定信號(hào)源位置矢量a(r0,θ0,φ0)過程中,通過采用信號(hào)源位置到各麥克風(fēng)的相對(duì)幅度衰減因子和相對(duì)時(shí)間延遲因子,且幅度衰減因子采用信號(hào)源到各麥克風(fēng)的距離與信號(hào)源到參考麥克風(fēng)的距離的比值、時(shí)延因子采用信號(hào)源到各麥克風(fēng)的時(shí)延與信號(hào)源到參考麥克風(fēng)的時(shí)延的差,使本發(fā)明與子空間理論的模型假設(shè)一致,減少了模型誤差,提高了三維空間濾波性能;通過根據(jù)窄帶信號(hào)假設(shè)條件和語(yǔ)音信號(hào)的特點(diǎn),將輸入麥克風(fēng)的語(yǔ)音信號(hào)劃分為若干個(gè)子帶,根據(jù)各子帶的信號(hào)分量確定各子帶的頻域相關(guān)矩陣,大大減少了運(yùn)算量,提高了系統(tǒng)的實(shí)時(shí)性,節(jié)約了硬件成本;從而通過本發(fā)明提供的技術(shù)方案實(shí)現(xiàn)了提高語(yǔ)音增強(qiáng)性能,提高語(yǔ)音系統(tǒng)實(shí)用性的目的。
圖1是均勻直線麥克風(fēng)陣列示意圖;圖2是本發(fā)明的寬帶波束形成方法流程圖;圖3是近場(chǎng)信號(hào)模型示意圖。
具體實(shí)施例方式
本發(fā)明的方法和裝置的核心均為確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào),確定各子帶信號(hào)的頻域相關(guān)矩陣,根據(jù)信號(hào)源的三維空間傳輸矢量、各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量,根據(jù)各子帶信號(hào)的權(quán)向量、各子帶信號(hào)確定輸出的信號(hào)。
下面基于本發(fā)明的核心思想對(duì)本發(fā)明提供的技術(shù)方案做進(jìn)一步的描述。
本發(fā)明中的麥克風(fēng)類型為全向麥克風(fēng),麥克風(fēng)的拾音距離可根據(jù)具體的應(yīng)用環(huán)境來(lái)確定,如房間大小為長(zhǎng)5米、寬10米、高4米,如果要求對(duì)該房間內(nèi)的所有聲音進(jìn)行處理,則麥克風(fēng)的拾音距離至少為10米。本發(fā)明對(duì)構(gòu)成麥克風(fēng)的支架材料不限,但是,支架材料的幾何尺寸越小越好,以減小支架對(duì)聲音的反射,減小多徑效應(yīng)。
本發(fā)明中的麥克風(fēng)陣列的拓?fù)浣Y(jié)構(gòu)可以為任意形式,如ULA(均勻直線陣列)、UCA(均勻圓環(huán)陣列)等。
本發(fā)明基于麥克風(fēng)陣列的寬帶信號(hào)源波束形成方法的流程圖如附圖2所示。
在圖2中,本發(fā)明的方法主要包括三大部分,即信號(hào)采集預(yù)處理部分、寬帶信號(hào)處理部分和輸出信號(hào)處理部分。
下面結(jié)合附圖2對(duì)本發(fā)明的基于麥克風(fēng)陣列的寬帶波束形成方法的詳細(xì)實(shí)現(xiàn)過程進(jìn)行描述。
信號(hào)采集預(yù)處理部分主要包括如下5個(gè)步驟步驟1、設(shè)定M個(gè)普通全向麥克風(fēng)按照一定的拓?fù)浣Y(jié)構(gòu)組成麥克風(fēng)陣列,麥克風(fēng)陣列拾取信號(hào)源發(fā)出的聲音信號(hào)、及其他處于麥克風(fēng)接收范圍內(nèi)的所有語(yǔ)音信號(hào)。
麥克風(fēng)陣列拾取的信號(hào)用數(shù)學(xué)公式可以表示為F(t)=[f1(t)…fi(t)…fM(t)]T(7)公式(7)中fi(t)表示第i個(gè)麥克風(fēng)接收到的語(yǔ)音信號(hào),i=1,…,M,M為麥克風(fēng)陣列中麥克風(fēng)的數(shù)量,[·]T表示矩陣的轉(zhuǎn)置運(yùn)算。
設(shè)定第i個(gè)麥克風(fēng)的坐標(biāo)矢量為pi={xi,yi,zi}=ri*((sinθicosi,sinθisini,cosθi)),i=1,…,M (8)公式(8)中ri為第i個(gè)麥克風(fēng)距麥克風(fēng)陣列中心的距離,麥克風(fēng)陣列中心即坐標(biāo)原點(diǎn),坐標(biāo)原點(diǎn)可以為麥克風(fēng)陣列的中心位置,也可以為麥克風(fēng)陣列中的任意一個(gè)麥克風(fēng)的位置,或其他位置;θi為第i個(gè)麥克風(fēng)的坐標(biāo)矢量與Z軸正方向的夾角,i為第i個(gè)麥克風(fēng)坐標(biāo)矢量在XOY平面的投影與X軸正方向的夾角。
M個(gè)麥克風(fēng)的坐標(biāo)矢量組成整個(gè)麥克風(fēng)陣列的坐標(biāo)矩陣為 步驟2、對(duì)各麥克風(fēng)接收到的信號(hào)進(jìn)行AD變換。
在進(jìn)行AD變換時(shí),可以根據(jù)對(duì)聲音質(zhì)量的要求來(lái)選取采樣頻率和采樣精度,如采樣頻率可以為16KHz、22KHz或44Khz等,采樣精度可以為8bit、16bit或32bit等。本發(fā)明對(duì)采樣的技術(shù)和芯片不限。
采樣后形成多路數(shù)字語(yǔ)音信號(hào),即F(n)=[f1(n)…fi(n)…fM(n)]T(10)公式(10)中i=1,…,M,M為麥克風(fēng)陣列中麥克風(fēng)的數(shù)量。
步驟3、從公式(10)的每路采樣信號(hào)中選取幀長(zhǎng)為32ms的信號(hào)幀,進(jìn)行短時(shí)傅立葉變換,短時(shí)傅立葉變換可以選用漢明窗或其它窗函數(shù)。
一般情況下可以用NFFT的512點(diǎn)的FFT(快速傅立葉變換)來(lái)實(shí)現(xiàn)短時(shí)傅立葉變換。即
F(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)···Σm=1NfM(n)w(n-m)exp(-jωm)---(11)]]>步驟4、對(duì)公式(11)中經(jīng)過短時(shí)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè),語(yǔ)音檢測(cè)技術(shù)可以為過零率、短時(shí)能量相結(jié)合等,本發(fā)明對(duì)采用的語(yǔ)音檢測(cè)技術(shù)不限。
根據(jù)語(yǔ)音檢測(cè)技術(shù),在確定信號(hào)幀為非語(yǔ)音幀時(shí),將非語(yǔ)音幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜,當(dāng)前估計(jì)噪聲譜的初始值可設(shè)置為0矩陣;在確定信號(hào)幀為語(yǔ)音幀時(shí),對(duì)該語(yǔ)音幀進(jìn)行下述步驟5的處理。
步驟5、對(duì)語(yǔ)音幀采用譜抵消方法即減譜法進(jìn)行譜抵消去噪。
設(shè)定當(dāng)前估計(jì)噪聲譜為N(ω)=n1(1)···n1(NFFT)·········nM(1)···nM(NFFT)M×NFFT---(12)]]>對(duì)語(yǔ)音幀進(jìn)行譜抵消去噪后的語(yǔ)音幀為S(ω)=F(ω)-N(ω)=s1(1)···s1(NFFT)·········sM(1)···sM(NFFT)M×NFFT---(13)]]>經(jīng)過上述步驟1到步驟5,完成了本發(fā)明對(duì)信號(hào)的采集預(yù)處理過程。下面的步驟6為實(shí)現(xiàn)了本發(fā)明的寬帶信號(hào)處理過程。
步驟6、根據(jù)信號(hào)的頻率特點(diǎn)將公式(13)中的S(ω)劃分為各干個(gè)子帶,然后,從各子帶中分別選取一個(gè)感興趣的頻率ωi,其中i=1,…K,K為子帶的數(shù)量。將頻率ωi作為其對(duì)應(yīng)的子帶的中心頻率。
設(shè)第i個(gè)子帶信號(hào)的信號(hào)分量S(ωi)為S(ωi)=S1(i)···SM(i)---(14)]]>公式(14)中M為麥克風(fēng)陣列中麥克風(fēng)的數(shù)量。
對(duì)公式(14)的各子帶作如下四方面的處理1、獲得語(yǔ)音幀的頻域相關(guān)矩陣R(i)R(i)=E{S(ωi)SH(ωi)}(15)2、獲得信號(hào)源位置矢量a(r0,θ0,φ0)設(shè)定第i個(gè)麥克風(fēng)的坐標(biāo)矢量為Pi,信號(hào)源位置(r0,θ0,φ0)的坐標(biāo)矢量為S,如附圖3所示,r0為信號(hào)源到坐標(biāo)原點(diǎn)的距離,θ0為信號(hào)源與三維坐標(biāo)的Z軸的夾角,φ0為信號(hào)源在XOY平面上的投影與X軸的夾角。即S=r0*[sinθ0cosφ0sinθ0sinφ0cosθ0] (16)Pi=ri*[sinθicosφisinθisinφicosθi] (17)從信號(hào)源位置(r0,θ0,φ0)到第i個(gè)麥克風(fēng)的相對(duì)幅度衰減因子i為∂i=||S||||Pi-S||---(18)]]>從信號(hào)源位置(r0,θ0,φ0)到第i個(gè)麥克風(fēng)的相對(duì)時(shí)間延遲因子τi為τi=||S-Pi||-||S||c---(19)]]>公式(19)中c為聲音在空氣中的傳播速度,在室溫時(shí)可以取340米/秒,‖·‖表示求·矢量的范數(shù),如矢量a=[x y z],則||a||=x2+y2+z2.]]>信號(hào)源位置(r0,θ0,φ0)的位置矢量a(r0,θ0,φ0)為a(r0,θ0,φ0)=∂1e-jωiτ1···∂me-jωiτm···∂Me-jωiτM---(20)]]>3、獲取第i個(gè)子帶的最優(yōu)權(quán)向量Wopti。根據(jù)公式(20)獲得的信號(hào)源的位置矢量a(r0,θ0,φ0)和公式(15)獲得的頻域頻域相關(guān)矩陣R(i),獲取第i子帶的最優(yōu)權(quán)向量Wopti。
第i個(gè)子帶的最優(yōu)權(quán)向量Wopti為Wopti=R(i)-1aaHR(i)-1a---(21)]]>4、利用最優(yōu)權(quán)向量和子帶信號(hào)進(jìn)行子帶空間濾波,得到第i個(gè)子帶的頻域輸出信號(hào)y(ωi)=(Wopti)H*S(ωi)---(22)]]>在上述各公式中,通過采用三維空間坐標(biāo)來(lái)表示麥克風(fēng)的位置和信號(hào)源位置,使本發(fā)明的方法可以用于任意拓?fù)浣Y(jié)構(gòu)的麥克風(fēng)陣列,本發(fā)明的麥克風(fēng)陣列不限定于圓陣、直線陣列等。由于本發(fā)明中的麥克風(fēng)、信號(hào)源等位置信息都是三維的,所以,本發(fā)明的濾波技術(shù)屬于三維空間濾波技術(shù),但是,當(dāng)麥克風(fēng)使用一維陣列時(shí)如ULA、均勻直線陣列等,三維濾波特性消失。
本發(fā)明中使用的方向矢量求解方法適用于任意拓?fù)浣Y(jié)構(gòu)的麥克風(fēng)陣列。
下面的步驟7、步驟8為輸出信號(hào)處理部分。
步驟7、將K個(gè)子帶的頻域輸出信號(hào)組合成頻域輸出信號(hào)Y(ω)Y(ω)=[y(ω1) y(ω1)…y(ωK)]T(23)步驟8、對(duì)Y(ω)進(jìn)行逆FFT,得到輸出信號(hào)Y(n),然后把Y(n)轉(zhuǎn)換成模擬信號(hào)y(t),對(duì)y(t)進(jìn)行低通濾波,得到語(yǔ)音輸出信號(hào)。
本發(fā)明提供的基于麥克風(fēng)陣列的寬帶波束形成裝置主要包括劃分子帶信號(hào)模塊、頻域相關(guān)矩陣模塊、權(quán)向量模塊和輸出模塊。劃分子帶信號(hào)模塊的功能由采樣子模塊、語(yǔ)音檢測(cè)子模塊、譜抵消去噪子模塊和劃分子帶信號(hào)子模塊來(lái)實(shí)現(xiàn)。
采樣子模塊主要用于根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換,然后,從AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換。上述采樣頻率可以為16KHz、22KHz或44Khz等,采樣精度可以為8bit、16bit或32bit等,短時(shí)傅立葉變換可通過NFFT的512點(diǎn)的FFT來(lái)實(shí)現(xiàn)、且短時(shí)傅立葉變換可以選用漢明窗或其它窗函數(shù)等。具體實(shí)現(xiàn)過程如方法中F(n)和F(ω)的描述。
語(yǔ)音檢測(cè)子模塊主要用于對(duì)采樣子模塊處理的、傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè),在確定信號(hào)幀不為語(yǔ)音幀時(shí),將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜,在確定信號(hào)幀為語(yǔ)音幀時(shí),將該語(yǔ)音幀傳輸至譜抵消去噪子模塊。語(yǔ)音檢測(cè)子模塊采用的語(yǔ)音檢測(cè)技術(shù)可以為過零率、短時(shí)能量相結(jié)合等。
譜抵消去噪子模塊主要用于根據(jù)語(yǔ)音檢測(cè)子模塊存儲(chǔ)的當(dāng)前估計(jì)噪聲譜,將語(yǔ)音檢測(cè)子模塊傳輸來(lái)的語(yǔ)音幀進(jìn)行譜抵消去噪,并將譜抵消去噪后的語(yǔ)音幀傳輸至劃分子帶信號(hào)子模塊。譜抵消去噪后過程和譜抵消去噪后的信號(hào)如上述方法中S(ω)的描述。
劃分子帶信號(hào)子模塊主要用于根據(jù)預(yù)定頻帶將譜抵消去噪子模塊傳輸來(lái)的語(yǔ)音幀劃分為多個(gè)子帶信號(hào),并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊和輸出模塊,語(yǔ)音幀的各子帶信號(hào)如上述方法中S(ωi)的描述。
頻域相關(guān)矩陣模塊主要用于確定其接收的各子帶信號(hào)的頻域相關(guān)矩陣,并將其傳輸至權(quán)向量模塊。獲得頻域相關(guān)矩陣R(i)的方法如上述方法中的描述。
權(quán)向量模塊主要用于根據(jù)信號(hào)源的三維空間傳輸矢量a(r0,θ0,φ0)、其接收的各頻域相關(guān)矩陣R(i)確定各子帶信號(hào)的最優(yōu)權(quán)向量Wopti,并將Wopti傳輸至輸出模塊。信號(hào)源的三維空間傳輸矢量a(r0,θ0,φ0)、最優(yōu)權(quán)向量Wopti的獲取方法如上述方法中的描述。
輸出模塊主要用于根據(jù)權(quán)向量模塊傳輸來(lái)的各子帶信號(hào)的權(quán)向量對(duì)劃分子帶信號(hào)子模塊傳輸來(lái)的各子帶信號(hào)進(jìn)行子帶空間濾波,得到各子帶的頻域輸出信號(hào),將K個(gè)子帶的頻域輸出信號(hào)組合成頻域輸出信號(hào),并將組合成的頻域輸出信號(hào)進(jìn)行逆FFT,然后,轉(zhuǎn)換成模擬信號(hào),將該模擬信號(hào)進(jìn)行低通濾波后的信號(hào)確定為需要輸出的語(yǔ)音信號(hào)。
雖然通過實(shí)施例描繪了本發(fā)明,本領(lǐng)域普通技術(shù)人員知道,本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神,本發(fā)明的申請(qǐng)文件的權(quán)利要求包括這些變形和變化。
權(quán)利要求
1.一種寬帶波束形成方法,其特征在于,包括步驟a、確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào);b、確定所述各子帶信號(hào)的頻域相關(guān)矩陣;c、根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量;d、根據(jù)所述各子帶信號(hào)的權(quán)向量和各子帶信號(hào)確定輸出的信號(hào)。
2.如權(quán)利要求1所述的一種寬帶波束形成方法,其特征在于,所述步驟a具體包括如下步驟a1、對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行語(yǔ)音檢測(cè),并確定語(yǔ)音幀;a2、確定所述語(yǔ)音幀對(duì)應(yīng)的各子帶信號(hào)。
3.如權(quán)利要求2所述的一種寬帶波束形成方法,其特征在于設(shè)定輸入各麥克風(fēng)的信號(hào)為F(t)=[f1(t)…fi(t)…fM(t)]T;其中fi(t)表示第i個(gè)麥克風(fēng)接收到的信號(hào),i=1,…,M,M為麥克風(fēng)的數(shù)量,[·]T表示矩陣的轉(zhuǎn)置運(yùn)算;且所述步驟a1具體包括如下步驟a11、根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換F(n)=[f1(n)…fi(n)…fM(n)]T;a12、從所述AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換F(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)...Σm=1NfM(n)w(n-m)exp(-jωm);]]>a13、對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè),確定語(yǔ)音幀。
4.如權(quán)利要求3所述的一種寬帶波束形成方法,其特征在于,所述步驟a13具體包括如下步驟對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè);在確定信號(hào)幀不為語(yǔ)音幀時(shí),將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜;在確定信號(hào)幀為語(yǔ)音幀時(shí),根據(jù)當(dāng)前估計(jì)噪聲譜將所述語(yǔ)音幀進(jìn)行譜抵消去噪,確定譜抵消去噪后的語(yǔ)音幀S(ω)為S(ω)=F(ω)-N(ω)=s1(1)···s1(NFFT)·········sM(1)···sM(NFFT)M×NFFT;]]>其中N(ω)=n1(1)···n1(NFFT)·········nM(1)···nM(NFFT)M×NFFT]]>為當(dāng)前估計(jì)噪聲譜,NFFT為短時(shí)傅立葉變換的頻率采樣點(diǎn)數(shù),F(xiàn)(ω)為短時(shí)傅立葉變換后的信號(hào)幀,M為麥克風(fēng)的數(shù)量。
5.如權(quán)利要求2、3或4所述的一種寬帶波束形成方法,其特征在于,所述步驟a2具體包括如下步驟根據(jù)K個(gè)預(yù)定頻帶將語(yǔ)音幀劃分為K個(gè)子帶信號(hào),并將K個(gè)預(yù)定頻率ωi,i=1,…K,確定為各子帶的中心頻率;確定第i個(gè)子帶的信號(hào)分量S(ωi)為S(ωi)=S1(i)...SM(i);]]>其中M為麥克風(fēng)陣列的麥克風(fēng)數(shù)量,i=1,…K,K為子帶數(shù)量。
6.如權(quán)利要求5所述的一種寬帶波束形成方法,其特征在于,所述步驟b具體包括確定各子帶信號(hào)的頻域相關(guān)矩陣R(i)R(i)=E{S(ωi)SH(ωi)};其中S(ωi)為第i個(gè)子帶的信號(hào)分量,且S(ωi)=S1(i)...SM(i).]]>
7.如權(quán)利要求5所述的一種寬帶波束形成方法,其特征在于,所述步驟c中信號(hào)源的三維空間傳輸矢量可通過如下步驟獲得c1、獲取信號(hào)源位置(r0,θ0,φ0)坐標(biāo)矢量S=r0*[sinθ0cosφ0sinθ0sinφ0cosθ0];c2、獲取各麥克風(fēng)的坐標(biāo)矢量Pi=ri*[sinθicosφisinθisinφicosθi];c3、確定信號(hào)源位置(r0,θ0,φ0)到第i個(gè)麥克風(fēng)的相對(duì)幅度衰減因子m為∂i=||S||||Pi-S||;]]>其中‖*‖表示矢量*的范數(shù);c4、確定信號(hào)源位置(r0,θ0,φ0)到第i個(gè)麥克風(fēng)的相對(duì)時(shí)間延遲因子τi為τi=||S-Pi||-||S||c;]]>其中c為聲音在空氣中的傳播速度,‖*‖表示矢量*的范數(shù);c5、確定信號(hào)源位置(r0,θ0,φ0)的三維空間傳輸矢量a(r,θ,φ)為a(r,θ,φ)=[∂ie-jωiτi···∂me-jωiτm···∂Me-jωiτM];]]>其中ωi為各子帶的中心頻率。
8.如權(quán)利要求1、2、3或4所述的一種寬帶波束形成方法,其特征在于,所述步驟c具體包括確定第i個(gè)子帶的最優(yōu)權(quán)向量Wopti為Wopti=R(i)-1aaHR(i)-1a;]]>其中R(i)為第i個(gè)子帶信號(hào)的頻域相關(guān)矩陣,a為所述信號(hào)源位置(r0,θ0,φ0)的三維空間傳輸矢量。
9.如權(quán)利要求1、2、3或4所述的一種寬帶波束形成方法,其特征在于,所述步驟d具體包括如下步驟根據(jù)各子帶信號(hào)的最優(yōu)權(quán)向量對(duì)各子帶信號(hào)進(jìn)行子帶空間濾波,得到第i個(gè)子帶的頻域輸出信號(hào)y(ωi)y(ωi)=(Wopti)H*S(ωi);]]>其中Wopti為第i個(gè)子帶的最優(yōu)權(quán)向量,S(ωi)為第i個(gè)子帶的信號(hào)分量;將各子帶的頻域輸出信號(hào)組合為Y(ω)Y(ω)=[y(ω1)y(ω2)…y(ωK)]T;對(duì)組合后的頻域輸出信號(hào)Y(ω)進(jìn)行逆快速傅立葉變換得到輸出信號(hào)Y(n);將所述Y(n)轉(zhuǎn)換成模擬信號(hào)y(t),并將y(t)進(jìn)行低通濾波后信號(hào)確定為需要輸出的語(yǔ)音信號(hào)。
10.一種寬帶波束形成裝置,其特征在于,包括劃分子帶信號(hào)模塊確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào),并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊;頻域相關(guān)矩陣模塊確定所述各子帶信號(hào)的頻域相關(guān)矩陣,并將其傳輸至權(quán)向量模塊;權(quán)向量模塊根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量,并將其傳輸至輸出模塊;輸出模塊根據(jù)所述各子帶信號(hào)的權(quán)向量、各子帶信號(hào)確定輸出的信號(hào)。
11.如權(quán)利要求10所述的一種寬帶波束形成裝置,其特征在于,所述劃分子帶信號(hào)模塊包括采樣子模塊根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換,并從所述AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換;語(yǔ)音檢測(cè)子模塊對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè),在確定信號(hào)幀不為語(yǔ)音幀時(shí),將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜,在確定信號(hào)幀為語(yǔ)音幀時(shí),將該語(yǔ)音幀傳輸至譜抵消去噪子模塊;譜抵消去噪子模塊根據(jù)當(dāng)前估計(jì)噪聲譜將其接收的語(yǔ)音幀進(jìn)行譜抵消去噪,并傳輸至劃分子帶信號(hào)子模塊;劃分子帶信號(hào)子模塊根據(jù)預(yù)定頻帶將其接收的語(yǔ)音幀劃分為多個(gè)子帶信號(hào),并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊。
全文摘要
本發(fā)明提供一種寬帶波束形成方法和裝置,其方法和裝置的核心均為確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào),確定各子帶信號(hào)的頻域相關(guān)矩陣,根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量,根據(jù)各子帶信號(hào)的權(quán)向量和各子帶信號(hào)確定輸出的信號(hào)。本發(fā)明能夠?qū)㈩l域和空域結(jié)合起來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行處理,解決了三維空間濾波問題,抑制了空間干擾信號(hào)和噪聲,提高了輸出信號(hào)的信噪比,本發(fā)明能夠適用于寬帶信號(hào)源、近場(chǎng)信號(hào)源;從而實(shí)現(xiàn)了提高語(yǔ)音增強(qiáng)性能,提高語(yǔ)音系統(tǒng)實(shí)用性的目的。
文檔編號(hào)G10L21/02GK1866356SQ200510090740
公開日2006年11月22日 申請(qǐng)日期2005年8月15日 優(yōu)先權(quán)日2005年8月15日
發(fā)明者居太亮, 邵懷宗, 林靜然, 彭啟琮, 余水安 申請(qǐng)人:華為技術(shù)有限公司, 電子科技大學(xué)