一種寬帶波束形成方法和裝置的制作方法

文檔序號(hào)：2822407閱讀：294來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種寬帶波束形成方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻處理技術(shù)，具體涉及一種寬帶波束形成方法和裝置。
背景技術(shù)：
隨著現(xiàn)代科學(xué)的蓬勃發(fā)展，通信或信息交換已成為人類社會(huì)存在的必要條件，而語(yǔ)音作為語(yǔ)言的聲學(xué)表現(xiàn)，是人類交流信息最自然、最有效、最方便的手段之一。
在語(yǔ)音通信過程中，不可避免地會(huì)受到來(lái)自周圍環(huán)境、傳輸媒介引入的噪聲、通信設(shè)備內(nèi)部電噪聲、乃至其他講話者的干擾。這些干擾最終會(huì)使語(yǔ)音接收者接收到的語(yǔ)音不再是純凈的原始語(yǔ)音，而是被噪聲污染過的帶噪語(yǔ)音。例如，汽車、街道、機(jī)場(chǎng)中的電話，常會(huì)受到強(qiáng)背景噪聲的于擾，從而嚴(yán)重影響了通話質(zhì)量。環(huán)境噪聲的污染還會(huì)使得許多語(yǔ)音處理系統(tǒng)的性能急劇惡化。例如，語(yǔ)音識(shí)別系統(tǒng)已取得重大進(jìn)展，正步入實(shí)用階段，但是，目前的語(yǔ)音識(shí)別系統(tǒng)大都是在安靜環(huán)境中工作的，在噪聲環(huán)境中尤其是在強(qiáng)噪聲環(huán)境中，語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率將會(huì)受到嚴(yán)重影響。低速率語(yǔ)音編碼，特別是參數(shù)編碼，也遇到類似問題。由于語(yǔ)音生成模型是低速率編碼的基礎(chǔ)，當(dāng)模型參數(shù)的提取受到混雜在語(yǔ)音中背景噪聲嚴(yán)重干擾時(shí)，重建語(yǔ)音的質(zhì)量將急劇惡化，甚至變得完全不可懂。
語(yǔ)音增強(qiáng)技術(shù)能夠有效的抑制背景噪聲，提高語(yǔ)音通信質(zhì)量，提高語(yǔ)音處理系統(tǒng)的抗干擾能力，維持語(yǔ)音處理系統(tǒng)的性能。因此，研究語(yǔ)音增強(qiáng)技術(shù)在實(shí)際應(yīng)用中有著重要的價(jià)值。語(yǔ)音增強(qiáng)技術(shù)己在語(yǔ)音處理系統(tǒng)、通信系統(tǒng)、多媒體技術(shù)、數(shù)字化家電等領(lǐng)域得到了越來(lái)越廣泛的應(yīng)用。
語(yǔ)音增強(qiáng)技術(shù)的主要目的是從帶噪語(yǔ)音信號(hào)中提取盡可能純凈的原始語(yǔ)音。然而，由于干擾通常都是隨機(jī)的，從帶噪語(yǔ)音中提取完全純凈的語(yǔ)音幾乎是不可能。在此情況下，語(yǔ)音增強(qiáng)的主要目的是通過對(duì)帶噪語(yǔ)音進(jìn)行處理，以消除背景噪聲，改善語(yǔ)音質(zhì)量，提高語(yǔ)音的清晰度、可懂度和舒適度，提高語(yǔ)音處理系統(tǒng)的性能。這些目的往往不能兼得，通常需要根據(jù)語(yǔ)音處理系統(tǒng)的具體需要而定。
語(yǔ)音增強(qiáng)技術(shù)的研究始于20世紀(jì)70年代中期。隨著數(shù)字信號(hào)處理理論的成熟，語(yǔ)音增強(qiáng)已發(fā)展成為語(yǔ)音信號(hào)處理領(lǐng)域的一個(gè)重要分支。1978年，Lim和Oppenheim提出了語(yǔ)音增強(qiáng)的維納濾波方法。1979年，Boll提出了譜相減方法來(lái)抑制噪聲。1980年，Maulay和Malpass提出了軟判決噪聲抑制方法。1984年，Ephraim和Malah提出基于MMSE短時(shí)譜幅度估計(jì)的語(yǔ)音增強(qiáng)方法。1987年，Paliwal把卡爾曼濾波引入到語(yǔ)音增強(qiáng)領(lǐng)域。在近30年的研究中，各種語(yǔ)音增強(qiáng)方法不斷被提出，它奠定了語(yǔ)音增強(qiáng)理論的基礎(chǔ)并使之逐漸走向成熟。
近些年來(lái)，隨著VLSI(超大規(guī)模集成電路)技術(shù)的發(fā)展和高速DSP(數(shù)字信號(hào)處理)芯片的出現(xiàn)，語(yǔ)音增強(qiáng)技術(shù)逐步走向?qū)嵱?，同時(shí)新的語(yǔ)音增強(qiáng)技術(shù)又相繼涌現(xiàn)。
語(yǔ)音增強(qiáng)、去噪的方法可以簡(jiǎn)單的分為基于時(shí)域、頻域和空域的濾波技術(shù)，如維納濾波的語(yǔ)音增強(qiáng)技術(shù)、基于頻域的譜抵消技術(shù)等。近年來(lái)，陣列處理技術(shù)也引入到語(yǔ)音處理中，形成了基于波束的空域?yàn)V波技術(shù)，如時(shí)延求和波束形成技術(shù)(DSB)等。
MVDR(Minim Variance Distortion Response，窄帶最小方差無(wú)失真)波束形成技術(shù)主要用于傳統(tǒng)的窄帶信號(hào)處理過程中。
設(shè)定有M個(gè)傳感器組成如附圖1所示的天線陣列，接收來(lái)自方向0的窄帶信號(hào)s(t)，用MVDR波束形成技術(shù)對(duì)接收信號(hào)進(jìn)行空域?yàn)V波的主要步驟如下
步驟1、把每個(gè)傳感器接收到的模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)，將數(shù)字信號(hào)組成輸入數(shù)據(jù)矩陣X(n)X(n)＝[x1(n) x2(n)…xM(n)]T(1)其中，[·]T表示對(duì)矩陣或向量·作轉(zhuǎn)置運(yùn)算，x1(n)表示第n時(shí)刻第i個(gè)傳感器接收到的經(jīng)過AD變換后的數(shù)字信號(hào)、且i＝1，…，M。
到步驟2、取L次快拍的L點(diǎn)數(shù)據(jù)，即取n時(shí)刻，n-1時(shí)刻，……，n-L+1時(shí)刻每個(gè)傳感器上采集的數(shù)據(jù)，并根據(jù)公式(2)求輸入信號(hào)的頻域相關(guān)矩陣RR=1LΣl=1L{X(n-l+1)*XH(n-l+1)}---(2)]]>其中，[·]H表示對(duì)矩陣或向量·作轉(zhuǎn)置并對(duì)每個(gè)元素取共額運(yùn)算。例如A=1+2i2+4i4-4i5-8i,]]>則AH=1-2i4+4i2-4i5+8i.]]>到步驟3、根據(jù)信號(hào)源的方向0和陣列拓?fù)浣Y(jié)構(gòu)求出信號(hào)源的方向矢量a。在獲取信號(hào)源的方向矢量a時(shí)，陣列拓?fù)浣Y(jié)構(gòu)不限，如可以為均勻圓陣、均勻直線陣或其他的陣列結(jié)構(gòu)，且信號(hào)源的方向0的獲得方法不限。
設(shè)定M個(gè)傳感器以間距d組成均勻直線陣列、且以第一個(gè)傳感器為參考點(diǎn)，則信號(hào)源的方向矢量a為a＝[1 e-jφ…e-j(M-1)φ]T(3)在公式(3)中，φ為空間相位、且其中，λ為入射信號(hào)的波長(zhǎng)，d為陣列間距，0為入射信號(hào)的入射角度。
到步驟4、根據(jù)信號(hào)源的方向矢量a和頻域相關(guān)矩陣R求最優(yōu)權(quán)向量WoptWopt=R-1aaHR-1a---(5)]]>到步驟5、根據(jù)最優(yōu)權(quán)向量對(duì)輸入信號(hào)進(jìn)行空間濾波，得到輸出信號(hào)y(n)y(n)=WoptH*X(n)---(6)]]>
然后，將數(shù)字信號(hào)y(n)轉(zhuǎn)換成模擬信號(hào)即可。
上述MVDR波束形成技術(shù)只能適用于窄帶信號(hào)源，當(dāng)該方法用于寬帶信號(hào)源時(shí)，其語(yǔ)音增強(qiáng)性能會(huì)大幅度下降，而且，該技術(shù)只能適用于遠(yuǎn)場(chǎng)信號(hào)源，即入射信號(hào)為平面波，當(dāng)該技術(shù)適用于近場(chǎng)信號(hào)源，即入射信號(hào)為球面波時(shí)，語(yǔ)音增強(qiáng)性能同樣會(huì)大幅度下降。

發(fā)明內(nèi)容
本發(fā)明的目的在于，提供一種寬帶波束形成方法和裝置，通過結(jié)合頻域和空域?qū)φZ(yǔ)音信號(hào)進(jìn)行處理，以實(shí)現(xiàn)提高語(yǔ)音增強(qiáng)性能的目的。
為達(dá)到上述目的，本發(fā)明提供的一種寬帶波束形成方法，包括a、確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào)；b、確定所述各子帶信號(hào)的頻域相關(guān)矩陣；c、根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量；d、根據(jù)所述各子帶信號(hào)的權(quán)向量和各子帶信號(hào)確定輸出的信號(hào)。
所述步驟a具體包括a1、對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行語(yǔ)音檢測(cè)，并確定語(yǔ)音幀；a2、確定所述語(yǔ)音幀對(duì)應(yīng)的各子帶信號(hào)。
設(shè)定輸入各麥克風(fēng)的信號(hào)為F(t)＝[f1(t)…fi(t)…fM(t)]T；其中fi(t)表示第i個(gè)麥克風(fēng)接收到的信號(hào)，i＝1，…，M，M為麥克風(fēng)的數(shù)量，[·]T表示矩陣的轉(zhuǎn)置運(yùn)算；且所述步驟a1具體包括a11、根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換F(n)＝[f1(n)…fi(n)…fM(n)]T；a12、從所述AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換
F(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)···Σm=1NfM(n)w(n-m)exp(-jωm);]]>a13、對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè)，確定語(yǔ)音幀。
所述步驟a13具體包括如下步驟對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè)；在確定信號(hào)幀不為語(yǔ)音幀時(shí)，將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜；在確定信號(hào)幀為語(yǔ)音幀時(shí)，根據(jù)當(dāng)前估計(jì)噪聲譜將所述語(yǔ)音幀進(jìn)行譜抵消去噪，確定譜抵消去噪后的語(yǔ)音幀S(ω)為S(ω)=F(ω)-N(ω)=s1(1)···s1(NFFT)·········sM(1)···sM(NFFT)M×NFFT;]]>其中:N(ω)=n1(1)···n1(NFFT)·········nM(1)···nM(NFFT)M×NFFT]]>為當(dāng)前估計(jì)噪聲譜，NFFT為短時(shí)傅立葉變換的頻率采樣點(diǎn)數(shù)，F(xiàn)(ω)為短時(shí)傅立葉變換后的信號(hào)幀，M為麥克風(fēng)的數(shù)量。
所述步驟a2具體包括根據(jù)K個(gè)預(yù)定頻帶將語(yǔ)音幀劃分為K個(gè)子帶信號(hào)，并將K個(gè)預(yù)定頻率ωi，i＝1，…K，確定為各子帶的中心頻率；確定第i個(gè)子帶的信號(hào)分量S(ωi)為S(ωi)=S1(i)···SM(i);]]>其中M為麥克風(fēng)陣列的麥克風(fēng)數(shù)量，i＝1，…K，K為子帶數(shù)量。
所述步驟b具體包括確定各子帶信號(hào)的頻域相關(guān)矩陣R(i)
R(i)＝E{S(ωi)SH(ωi)}；其中S(ωi)為第i個(gè)子帶的信號(hào)分量，且S(ωi)=S1(i)···SM(i).]]>所述步驟c中信號(hào)源的三維空間傳輸矢量可通過如下步驟獲得c1、獲取信號(hào)源位置(f0，θ0，φ0)坐標(biāo)矢量S＝r0*[sinθ0cosφ0sinθ0sinφ0cosθ0]；c2、獲取各麥克風(fēng)的坐標(biāo)矢量Pi＝ri*[sinθicosφisinθisinφicosθi]；c3、確定信號(hào)源位置(r0，θ0，φ0)到第i個(gè)麥克風(fēng)的相對(duì)幅度衰減因子m為&PartialD;i=||S||||Pi-S||;]]>其中‖*‖表示矢量*的范數(shù)；c4、確定信號(hào)源位置(r0，θ0，φ0)到第i個(gè)麥克風(fēng)的相對(duì)時(shí)間延遲因子τi為τi=||S-Pi||-||S||c;]]>其中c為聲音在空氣中的傳播速度，‖*‖表示矢量*的范數(shù)；c5、確定信號(hào)源位置(r0，θ0，φ0)的三維空間傳輸矢量a(r，θ，φ)為a(r,θ,φ)=&PartialD;1e-jωiτ1···&PartialD;me-jωiτm···&PartialD;Me-jωiτM;]]>其中ωi為各子帶的中心頻率。
所述步驟c具體包括確定第i個(gè)子帶的最優(yōu)權(quán)向量Wopti為Wopti=R(i)-1aaHR(i)-1a;]]>其中R(i)為第i個(gè)子帶信號(hào)的頻域相關(guān)矩陣，a為所述信號(hào)源位置(r0，θ0，φ0)的三維空間傳輸矢量。
所述步驟d包括根據(jù)各子帶信號(hào)的最優(yōu)權(quán)向量對(duì)各子帶信號(hào)進(jìn)行子帶空間濾波，得到第i個(gè)子帶的頻域輸出信號(hào)y(ωi)y(ωi)=(Wopti)H*S(ωi);]]>其中Wopti為第i個(gè)子帶的最優(yōu)權(quán)向量，S(ωi)為第i個(gè)子帶的信號(hào)分量；將各子帶的頻域輸出信號(hào)組合為Y(ω)Y(ω)＝[y(ω1) y(ω2)…y(ωK)]T；對(duì)組合后的頻域輸出信號(hào)Y(ω)進(jìn)行逆快速傅立葉變換得到輸出信號(hào)Y(n)；將所述Y(n)轉(zhuǎn)換成模擬信號(hào)y(t)，并將y(t)進(jìn)行低通濾波后信號(hào)確定為需要輸出的語(yǔ)音信號(hào)。
本發(fā)明還提供一種寬帶波束形成裝置，包括劃分子帶信號(hào)模塊確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào)，并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊；頻域相關(guān)矩陣模塊確定所述各子帶信號(hào)的頻域相關(guān)矩陣，并將其傳輸至權(quán)向量模塊；權(quán)向量模塊根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量，并將其傳輸至輸出模塊；輸出模塊根據(jù)所述各子帶信號(hào)的權(quán)向量、各子帶信號(hào)確定輸出的信號(hào)。
所述劃分子帶信號(hào)模塊包括采樣子模塊根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換，并從所述AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換；語(yǔ)音檢測(cè)子模塊對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè)，在確定信號(hào)幀不為語(yǔ)音幀時(shí)，將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜，在確定信號(hào)幀為語(yǔ)音幀時(shí)，將該語(yǔ)音幀傳輸至譜抵消去噪子模塊；譜抵消去噪子模塊根據(jù)當(dāng)前估計(jì)噪聲譜將其接收的語(yǔ)音幀進(jìn)行譜抵消去噪，并傳輸至劃分子帶信號(hào)子模塊；劃分子帶信號(hào)子模塊根據(jù)預(yù)定頻帶將其接收的語(yǔ)音幀劃分為多個(gè)子帶信號(hào)，并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊。
通過上述技術(shù)方案的描述可知，本發(fā)明通過對(duì)信號(hào)源位置矢量采用三維空間傳播矢量a(r0，θ0，φ0)，解決了三維空間濾波問題，抑制了空間干擾信號(hào)和噪聲，提高了輸出信號(hào)的信噪比；通過將語(yǔ)音信號(hào)劃分為多個(gè)子帶，對(duì)每個(gè)子帶分別進(jìn)行三維空間濾波，使本發(fā)明能夠?qū)㈩l域和空域結(jié)合起來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行處理，使本發(fā)明能夠很好的適用于寬帶信號(hào)源、近場(chǎng)信號(hào)源；通過采用過零率、短時(shí)能量相結(jié)合等語(yǔ)音檢測(cè)技術(shù)來(lái)確定語(yǔ)音幀，避免了在沒有語(yǔ)音信號(hào)輸入時(shí)，消耗系統(tǒng)資源的現(xiàn)象，提高了輸出語(yǔ)音信號(hào)的準(zhǔn)確性和穩(wěn)定性；通過采用譜抵消技術(shù)去除系統(tǒng)噪聲，避免了非白高斯噪聲對(duì)系統(tǒng)的影響，有效提高了語(yǔ)音信號(hào)的濾波性能；在確定信號(hào)源位置矢量a(r0，θ0，φ0)過程中，通過采用信號(hào)源位置到各麥克風(fēng)的相對(duì)幅度衰減因子和相對(duì)時(shí)間延遲因子，且幅度衰減因子采用信號(hào)源到各麥克風(fēng)的距離與信號(hào)源到參考麥克風(fēng)的距離的比值、時(shí)延因子采用信號(hào)源到各麥克風(fēng)的時(shí)延與信號(hào)源到參考麥克風(fēng)的時(shí)延的差，使本發(fā)明與子空間理論的模型假設(shè)一致，減少了模型誤差，提高了三維空間濾波性能；通過根據(jù)窄帶信號(hào)假設(shè)條件和語(yǔ)音信號(hào)的特點(diǎn)，將輸入麥克風(fēng)的語(yǔ)音信號(hào)劃分為若干個(gè)子帶，根據(jù)各子帶的信號(hào)分量確定各子帶的頻域相關(guān)矩陣，大大減少了運(yùn)算量，提高了系統(tǒng)的實(shí)時(shí)性，節(jié)約了硬件成本；從而通過本發(fā)明提供的技術(shù)方案實(shí)現(xiàn)了提高語(yǔ)音增強(qiáng)性能，提高語(yǔ)音系統(tǒng)實(shí)用性的目的。

圖1是均勻直線麥克風(fēng)陣列示意圖；圖2是本發(fā)明的寬帶波束形成方法流程圖；圖3是近場(chǎng)信號(hào)模型示意圖。
具體實(shí)施例方式
本發(fā)明的方法和裝置的核心均為確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào)，確定各子帶信號(hào)的頻域相關(guān)矩陣，根據(jù)信號(hào)源的三維空間傳輸矢量、各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量，根據(jù)各子帶信號(hào)的權(quán)向量、各子帶信號(hào)確定輸出的信號(hào)。
下面基于本發(fā)明的核心思想對(duì)本發(fā)明提供的技術(shù)方案做進(jìn)一步的描述。
本發(fā)明中的麥克風(fēng)類型為全向麥克風(fēng)，麥克風(fēng)的拾音距離可根據(jù)具體的應(yīng)用環(huán)境來(lái)確定，如房間大小為長(zhǎng)5米、寬10米、高4米，如果要求對(duì)該房間內(nèi)的所有聲音進(jìn)行處理，則麥克風(fēng)的拾音距離至少為10米。本發(fā)明對(duì)構(gòu)成麥克風(fēng)的支架材料不限，但是，支架材料的幾何尺寸越小越好，以減小支架對(duì)聲音的反射，減小多徑效應(yīng)。
本發(fā)明中的麥克風(fēng)陣列的拓?fù)浣Y(jié)構(gòu)可以為任意形式，如ULA(均勻直線陣列)、UCA(均勻圓環(huán)陣列)等。
本發(fā)明基于麥克風(fēng)陣列的寬帶信號(hào)源波束形成方法的流程圖如附圖2所示。
在圖2中，本發(fā)明的方法主要包括三大部分，即信號(hào)采集預(yù)處理部分、寬帶信號(hào)處理部分和輸出信號(hào)處理部分。
下面結(jié)合附圖2對(duì)本發(fā)明的基于麥克風(fēng)陣列的寬帶波束形成方法的詳細(xì)實(shí)現(xiàn)過程進(jìn)行描述。
信號(hào)采集預(yù)處理部分主要包括如下5個(gè)步驟步驟1、設(shè)定M個(gè)普通全向麥克風(fēng)按照一定的拓?fù)浣Y(jié)構(gòu)組成麥克風(fēng)陣列，麥克風(fēng)陣列拾取信號(hào)源發(fā)出的聲音信號(hào)、及其他處于麥克風(fēng)接收范圍內(nèi)的所有語(yǔ)音信號(hào)。
麥克風(fēng)陣列拾取的信號(hào)用數(shù)學(xué)公式可以表示為F(t)＝[f1(t)…fi(t)…fM(t)]T(7)公式(7)中fi(t)表示第i個(gè)麥克風(fēng)接收到的語(yǔ)音信號(hào)，i＝1，…，M，M為麥克風(fēng)陣列中麥克風(fēng)的數(shù)量，[·]T表示矩陣的轉(zhuǎn)置運(yùn)算。
設(shè)定第i個(gè)麥克風(fēng)的坐標(biāo)矢量為pi＝{xi，yi，zi}＝ri*((sinθicosi，sinθisini，cosθi))，i＝1，…，M (8)公式(8)中ri為第i個(gè)麥克風(fēng)距麥克風(fēng)陣列中心的距離，麥克風(fēng)陣列中心即坐標(biāo)原點(diǎn)，坐標(biāo)原點(diǎn)可以為麥克風(fēng)陣列的中心位置，也可以為麥克風(fēng)陣列中的任意一個(gè)麥克風(fēng)的位置，或其他位置；θi為第i個(gè)麥克風(fēng)的坐標(biāo)矢量與Z軸正方向的夾角，i為第i個(gè)麥克風(fēng)坐標(biāo)矢量在XOY平面的投影與X軸正方向的夾角。
M個(gè)麥克風(fēng)的坐標(biāo)矢量組成整個(gè)麥克風(fēng)陣列的坐標(biāo)矩陣為步驟2、對(duì)各麥克風(fēng)接收到的信號(hào)進(jìn)行AD變換。
在進(jìn)行AD變換時(shí)，可以根據(jù)對(duì)聲音質(zhì)量的要求來(lái)選取采樣頻率和采樣精度，如采樣頻率可以為16KHz、22KHz或44Khz等，采樣精度可以為8bit、16bit或32bit等。本發(fā)明對(duì)采樣的技術(shù)和芯片不限。
采樣后形成多路數(shù)字語(yǔ)音信號(hào)，即F(n)＝[f1(n)…fi(n)…fM(n)]T(10)公式(10)中i＝1，…，M，M為麥克風(fēng)陣列中麥克風(fēng)的數(shù)量。
步驟3、從公式(10)的每路采樣信號(hào)中選取幀長(zhǎng)為32ms的信號(hào)幀，進(jìn)行短時(shí)傅立葉變換，短時(shí)傅立葉變換可以選用漢明窗或其它窗函數(shù)。
一般情況下可以用NFFT的512點(diǎn)的FFT(快速傅立葉變換)來(lái)實(shí)現(xiàn)短時(shí)傅立葉變換。即
F(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)···Σm=1NfM(n)w(n-m)exp(-jωm)---(11)]]>步驟4、對(duì)公式(11)中經(jīng)過短時(shí)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè)，語(yǔ)音檢測(cè)技術(shù)可以為過零率、短時(shí)能量相結(jié)合等，本發(fā)明對(duì)采用的語(yǔ)音檢測(cè)技術(shù)不限。
根據(jù)語(yǔ)音檢測(cè)技術(shù)，在確定信號(hào)幀為非語(yǔ)音幀時(shí)，將非語(yǔ)音幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜，當(dāng)前估計(jì)噪聲譜的初始值可設(shè)置為0矩陣；在確定信號(hào)幀為語(yǔ)音幀時(shí)，對(duì)該語(yǔ)音幀進(jìn)行下述步驟5的處理。
步驟5、對(duì)語(yǔ)音幀采用譜抵消方法即減譜法進(jìn)行譜抵消去噪。
設(shè)定當(dāng)前估計(jì)噪聲譜為N(ω)=n1(1)···n1(NFFT)·········nM(1)···nM(NFFT)M×NFFT---(12)]]>對(duì)語(yǔ)音幀進(jìn)行譜抵消去噪后的語(yǔ)音幀為S(ω)=F(ω)-N(ω)=s1(1)···s1(NFFT)·········sM(1)···sM(NFFT)M×NFFT---(13)]]>經(jīng)過上述步驟1到步驟5，完成了本發(fā)明對(duì)信號(hào)的采集預(yù)處理過程。下面的步驟6為實(shí)現(xiàn)了本發(fā)明的寬帶信號(hào)處理過程。
步驟6、根據(jù)信號(hào)的頻率特點(diǎn)將公式(13)中的S(ω)劃分為各干個(gè)子帶，然后，從各子帶中分別選取一個(gè)感興趣的頻率ωi，其中i＝1，…K，K為子帶的數(shù)量。將頻率ωi作為其對(duì)應(yīng)的子帶的中心頻率。
設(shè)第i個(gè)子帶信號(hào)的信號(hào)分量S(ωi)為S(ωi)=S1(i)···SM(i)---(14)]]>公式(14)中M為麥克風(fēng)陣列中麥克風(fēng)的數(shù)量。
對(duì)公式(14)的各子帶作如下四方面的處理1、獲得語(yǔ)音幀的頻域相關(guān)矩陣R(i)R(i)＝E{S(ωi)SH(ωi)}(15)2、獲得信號(hào)源位置矢量a(r0，θ0，φ0)設(shè)定第i個(gè)麥克風(fēng)的坐標(biāo)矢量為Pi，信號(hào)源位置(r0，θ0，φ0)的坐標(biāo)矢量為S，如附圖3所示，r0為信號(hào)源到坐標(biāo)原點(diǎn)的距離，θ0為信號(hào)源與三維坐標(biāo)的Z軸的夾角，φ0為信號(hào)源在XOY平面上的投影與X軸的夾角。即S＝r0*[sinθ0cosφ0sinθ0sinφ0cosθ0] (16)Pi＝ri*[sinθicosφisinθisinφicosθi] (17)從信號(hào)源位置(r0，θ0，φ0)到第i個(gè)麥克風(fēng)的相對(duì)幅度衰減因子i為&PartialD;i=||S||||Pi-S||---(18)]]>從信號(hào)源位置(r0，θ0，φ0)到第i個(gè)麥克風(fēng)的相對(duì)時(shí)間延遲因子τi為τi=||S-Pi||-||S||c---(19)]]>公式(19)中c為聲音在空氣中的傳播速度，在室溫時(shí)可以取340米/秒，‖·‖表示求·矢量的范數(shù)，如矢量a＝[x y z]，則||a||=x2+y2+z2.]]>信號(hào)源位置(r0，θ0，φ0)的位置矢量a(r0，θ0，φ0)為a(r0,θ0,φ0)=&PartialD;1e-jωiτ1···&PartialD;me-jωiτm···&PartialD;Me-jωiτM---(20)]]>3、獲取第i個(gè)子帶的最優(yōu)權(quán)向量Wopti。根據(jù)公式(20)獲得的信號(hào)源的位置矢量a(r0，θ0，φ0)和公式(15)獲得的頻域頻域相關(guān)矩陣R(i)，獲取第i子帶的最優(yōu)權(quán)向量Wopti。
第i個(gè)子帶的最優(yōu)權(quán)向量Wopti為Wopti=R(i)-1aaHR(i)-1a---(21)]]>4、利用最優(yōu)權(quán)向量和子帶信號(hào)進(jìn)行子帶空間濾波，得到第i個(gè)子帶的頻域輸出信號(hào)y(ωi)=(Wopti)H*S(ωi)---(22)]]>在上述各公式中，通過采用三維空間坐標(biāo)來(lái)表示麥克風(fēng)的位置和信號(hào)源位置，使本發(fā)明的方法可以用于任意拓?fù)浣Y(jié)構(gòu)的麥克風(fēng)陣列，本發(fā)明的麥克風(fēng)陣列不限定于圓陣、直線陣列等。由于本發(fā)明中的麥克風(fēng)、信號(hào)源等位置信息都是三維的，所以，本發(fā)明的濾波技術(shù)屬于三維空間濾波技術(shù)，但是，當(dāng)麥克風(fēng)使用一維陣列時(shí)如ULA、均勻直線陣列等，三維濾波特性消失。
本發(fā)明中使用的方向矢量求解方法適用于任意拓?fù)浣Y(jié)構(gòu)的麥克風(fēng)陣列。
下面的步驟7、步驟8為輸出信號(hào)處理部分。
步驟7、將K個(gè)子帶的頻域輸出信號(hào)組合成頻域輸出信號(hào)Y(ω)Y(ω)＝[y(ω1) y(ω1)…y(ωK)]T(23)步驟8、對(duì)Y(ω)進(jìn)行逆FFT，得到輸出信號(hào)Y(n)，然后把Y(n)轉(zhuǎn)換成模擬信號(hào)y(t)，對(duì)y(t)進(jìn)行低通濾波，得到語(yǔ)音輸出信號(hào)。
本發(fā)明提供的基于麥克風(fēng)陣列的寬帶波束形成裝置主要包括劃分子帶信號(hào)模塊、頻域相關(guān)矩陣模塊、權(quán)向量模塊和輸出模塊。劃分子帶信號(hào)模塊的功能由采樣子模塊、語(yǔ)音檢測(cè)子模塊、譜抵消去噪子模塊和劃分子帶信號(hào)子模塊來(lái)實(shí)現(xiàn)。
采樣子模塊主要用于根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換，然后，從AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換。上述采樣頻率可以為16KHz、22KHz或44Khz等，采樣精度可以為8bit、16bit或32bit等，短時(shí)傅立葉變換可通過NFFT的512點(diǎn)的FFT來(lái)實(shí)現(xiàn)、且短時(shí)傅立葉變換可以選用漢明窗或其它窗函數(shù)等。具體實(shí)現(xiàn)過程如方法中F(n)和F(ω)的描述。
語(yǔ)音檢測(cè)子模塊主要用于對(duì)采樣子模塊處理的、傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè)，在確定信號(hào)幀不為語(yǔ)音幀時(shí)，將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜，在確定信號(hào)幀為語(yǔ)音幀時(shí)，將該語(yǔ)音幀傳輸至譜抵消去噪子模塊。語(yǔ)音檢測(cè)子模塊采用的語(yǔ)音檢測(cè)技術(shù)可以為過零率、短時(shí)能量相結(jié)合等。
譜抵消去噪子模塊主要用于根據(jù)語(yǔ)音檢測(cè)子模塊存儲(chǔ)的當(dāng)前估計(jì)噪聲譜，將語(yǔ)音檢測(cè)子模塊傳輸來(lái)的語(yǔ)音幀進(jìn)行譜抵消去噪，并將譜抵消去噪后的語(yǔ)音幀傳輸至劃分子帶信號(hào)子模塊。譜抵消去噪后過程和譜抵消去噪后的信號(hào)如上述方法中S(ω)的描述。
劃分子帶信號(hào)子模塊主要用于根據(jù)預(yù)定頻帶將譜抵消去噪子模塊傳輸來(lái)的語(yǔ)音幀劃分為多個(gè)子帶信號(hào)，并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊和輸出模塊，語(yǔ)音幀的各子帶信號(hào)如上述方法中S(ωi)的描述。
頻域相關(guān)矩陣模塊主要用于確定其接收的各子帶信號(hào)的頻域相關(guān)矩陣，并將其傳輸至權(quán)向量模塊。獲得頻域相關(guān)矩陣R(i)的方法如上述方法中的描述。
權(quán)向量模塊主要用于根據(jù)信號(hào)源的三維空間傳輸矢量a(r0，θ0，φ0)、其接收的各頻域相關(guān)矩陣R(i)確定各子帶信號(hào)的最優(yōu)權(quán)向量Wopti，并將Wopti傳輸至輸出模塊。信號(hào)源的三維空間傳輸矢量a(r0，θ0，φ0)、最優(yōu)權(quán)向量Wopti的獲取方法如上述方法中的描述。
輸出模塊主要用于根據(jù)權(quán)向量模塊傳輸來(lái)的各子帶信號(hào)的權(quán)向量對(duì)劃分子帶信號(hào)子模塊傳輸來(lái)的各子帶信號(hào)進(jìn)行子帶空間濾波，得到各子帶的頻域輸出信號(hào)，將K個(gè)子帶的頻域輸出信號(hào)組合成頻域輸出信號(hào)，并將組合成的頻域輸出信號(hào)進(jìn)行逆FFT，然后，轉(zhuǎn)換成模擬信號(hào)，將該模擬信號(hào)進(jìn)行低通濾波后的信號(hào)確定為需要輸出的語(yǔ)音信號(hào)。
雖然通過實(shí)施例描繪了本發(fā)明，本領(lǐng)域普通技術(shù)人員知道，本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神，本發(fā)明的申請(qǐng)文件的權(quán)利要求包括這些變形和變化。
權(quán)利要求
1.一種寬帶波束形成方法，其特征在于，包括步驟a、確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào)；b、確定所述各子帶信號(hào)的頻域相關(guān)矩陣；c、根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量；d、根據(jù)所述各子帶信號(hào)的權(quán)向量和各子帶信號(hào)確定輸出的信號(hào)。
2.如權(quán)利要求1所述的一種寬帶波束形成方法，其特征在于，所述步驟a具體包括如下步驟a1、對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行語(yǔ)音檢測(cè)，并確定語(yǔ)音幀；a2、確定所述語(yǔ)音幀對(duì)應(yīng)的各子帶信號(hào)。
3.如權(quán)利要求2所述的一種寬帶波束形成方法，其特征在于設(shè)定輸入各麥克風(fēng)的信號(hào)為F(t)＝[f1(t)…fi(t)…fM(t)]T；其中fi(t)表示第i個(gè)麥克風(fēng)接收到的信號(hào)，i＝1，…，M，M為麥克風(fēng)的數(shù)量，[·]T表示矩陣的轉(zhuǎn)置運(yùn)算；且所述步驟a1具體包括如下步驟a11、根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換F(n)＝[f1(n)…fi(n)…fM(n)]T；a12、從所述AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換F(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)...Σm=1NfM(n)w(n-m)exp(-jωm);]]>a13、對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè)，確定語(yǔ)音幀。
4.如權(quán)利要求3所述的一種寬帶波束形成方法，其特征在于，所述步驟a13具體包括如下步驟對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè)；在確定信號(hào)幀不為語(yǔ)音幀時(shí)，將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜；在確定信號(hào)幀為語(yǔ)音幀時(shí)，根據(jù)當(dāng)前估計(jì)噪聲譜將所述語(yǔ)音幀進(jìn)行譜抵消去噪，確定譜抵消去噪后的語(yǔ)音幀S(ω)為S(ω)=F(ω)-N(ω)=s1(1)···s1(NFFT)·········sM(1)···sM(NFFT)M×NFFT;]]>其中N(ω)=n1(1)···n1(NFFT)·········nM(1)···nM(NFFT)M×NFFT]]>為當(dāng)前估計(jì)噪聲譜，NFFT為短時(shí)傅立葉變換的頻率采樣點(diǎn)數(shù)，F(xiàn)(ω)為短時(shí)傅立葉變換后的信號(hào)幀，M為麥克風(fēng)的數(shù)量。
5.如權(quán)利要求2、3或4所述的一種寬帶波束形成方法，其特征在于，所述步驟a2具體包括如下步驟根據(jù)K個(gè)預(yù)定頻帶將語(yǔ)音幀劃分為K個(gè)子帶信號(hào)，并將K個(gè)預(yù)定頻率ωi，i＝1，…K，確定為各子帶的中心頻率；確定第i個(gè)子帶的信號(hào)分量S(ωi)為S(ωi)=S1(i)...SM(i);]]>其中M為麥克風(fēng)陣列的麥克風(fēng)數(shù)量，i＝1，…K，K為子帶數(shù)量。
6.如權(quán)利要求5所述的一種寬帶波束形成方法，其特征在于，所述步驟b具體包括確定各子帶信號(hào)的頻域相關(guān)矩陣R(i)R(i)＝E{S(ωi)SH(ωi)}；其中S(ωi)為第i個(gè)子帶的信號(hào)分量，且S(ωi)=S1(i)...SM(i).]]>
7.如權(quán)利要求5所述的一種寬帶波束形成方法，其特征在于，所述步驟c中信號(hào)源的三維空間傳輸矢量可通過如下步驟獲得c1、獲取信號(hào)源位置(r0，θ0，φ0)坐標(biāo)矢量S＝r0*[sinθ0cosφ0sinθ0sinφ0cosθ0]；c2、獲取各麥克風(fēng)的坐標(biāo)矢量Pi＝ri*[sinθicosφisinθisinφicosθi]；c3、確定信號(hào)源位置(r0，θ0，φ0)到第i個(gè)麥克風(fēng)的相對(duì)幅度衰減因子m為&PartialD;i=||S||||Pi-S||;]]>其中‖*‖表示矢量*的范數(shù)；c4、確定信號(hào)源位置(r0，θ0，φ0)到第i個(gè)麥克風(fēng)的相對(duì)時(shí)間延遲因子τi為τi=||S-Pi||-||S||c;]]>其中c為聲音在空氣中的傳播速度，‖*‖表示矢量*的范數(shù)；c5、確定信號(hào)源位置(r0，θ0，φ0)的三維空間傳輸矢量a(r，θ，φ)為a(r,θ,φ)=[&PartialD;ie-jωiτi···&PartialD;me-jωiτm···&PartialD;Me-jωiτM];]]>其中ωi為各子帶的中心頻率。
8.如權(quán)利要求1、2、3或4所述的一種寬帶波束形成方法，其特征在于，所述步驟c具體包括確定第i個(gè)子帶的最優(yōu)權(quán)向量Wopti為Wopti=R(i)-1aaHR(i)-1a;]]>其中R(i)為第i個(gè)子帶信號(hào)的頻域相關(guān)矩陣，a為所述信號(hào)源位置(r0，θ0，φ0)的三維空間傳輸矢量。
9.如權(quán)利要求1、2、3或4所述的一種寬帶波束形成方法，其特征在于，所述步驟d具體包括如下步驟根據(jù)各子帶信號(hào)的最優(yōu)權(quán)向量對(duì)各子帶信號(hào)進(jìn)行子帶空間濾波，得到第i個(gè)子帶的頻域輸出信號(hào)y(ωi)y(ωi)=(Wopti)H*S(ωi);]]>其中Wopti為第i個(gè)子帶的最優(yōu)權(quán)向量，S(ωi)為第i個(gè)子帶的信號(hào)分量；將各子帶的頻域輸出信號(hào)組合為Y(ω)Y(ω)＝[y(ω1)y(ω2)…y(ωK)]T；對(duì)組合后的頻域輸出信號(hào)Y(ω)進(jìn)行逆快速傅立葉變換得到輸出信號(hào)Y(n)；將所述Y(n)轉(zhuǎn)換成模擬信號(hào)y(t)，并將y(t)進(jìn)行低通濾波后信號(hào)確定為需要輸出的語(yǔ)音信號(hào)。
10.一種寬帶波束形成裝置，其特征在于，包括劃分子帶信號(hào)模塊確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào)，并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊；頻域相關(guān)矩陣模塊確定所述各子帶信號(hào)的頻域相關(guān)矩陣，并將其傳輸至權(quán)向量模塊；權(quán)向量模塊根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量，并將其傳輸至輸出模塊；輸出模塊根據(jù)所述各子帶信號(hào)的權(quán)向量、各子帶信號(hào)確定輸出的信號(hào)。
11.如權(quán)利要求10所述的一種寬帶波束形成裝置，其特征在于，所述劃分子帶信號(hào)模塊包括采樣子模塊根據(jù)預(yù)定采樣頻率對(duì)輸入各麥克風(fēng)的信號(hào)進(jìn)行AD轉(zhuǎn)換，并從所述AD轉(zhuǎn)換后的信號(hào)中選取信號(hào)幀進(jìn)行短時(shí)傅立葉變換；語(yǔ)音檢測(cè)子模塊對(duì)傅立葉變換后的信號(hào)幀進(jìn)行語(yǔ)音檢測(cè)，在確定信號(hào)幀不為語(yǔ)音幀時(shí)，將該信號(hào)幀存儲(chǔ)為當(dāng)前估計(jì)噪聲譜，在確定信號(hào)幀為語(yǔ)音幀時(shí)，將該語(yǔ)音幀傳輸至譜抵消去噪子模塊；譜抵消去噪子模塊根據(jù)當(dāng)前估計(jì)噪聲譜將其接收的語(yǔ)音幀進(jìn)行譜抵消去噪，并傳輸至劃分子帶信號(hào)子模塊；劃分子帶信號(hào)子模塊根據(jù)預(yù)定頻帶將其接收的語(yǔ)音幀劃分為多個(gè)子帶信號(hào)，并將各子帶信號(hào)傳輸至頻域相關(guān)矩陣模塊。
全文摘要
本發(fā)明提供一種寬帶波束形成方法和裝置，其方法和裝置的核心均為確定輸入各麥克風(fēng)的信號(hào)對(duì)應(yīng)的各子帶信號(hào)，確定各子帶信號(hào)的頻域相關(guān)矩陣，根據(jù)信號(hào)源的三維空間傳輸矢量、所述各頻域相關(guān)矩陣確定各子帶信號(hào)的權(quán)向量，根據(jù)各子帶信號(hào)的權(quán)向量和各子帶信號(hào)確定輸出的信號(hào)。本發(fā)明能夠?qū)㈩l域和空域結(jié)合起來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行處理，解決了三維空間濾波問題，抑制了空間干擾信號(hào)和噪聲，提高了輸出信號(hào)的信噪比，本發(fā)明能夠適用于寬帶信號(hào)源、近場(chǎng)信號(hào)源；從而實(shí)現(xiàn)了提高語(yǔ)音增強(qiáng)性能，提高語(yǔ)音系統(tǒng)實(shí)用性的目的。
文檔編號(hào)G10L21/02GK1866356SQ200510090740
公開日2006年11月22日申請(qǐng)日期2005年8月15日優(yōu)先權(quán)日2005年8月15日
發(fā)明者居太亮, 邵懷宗, 林靜然, 彭啟琮, 余水安申請(qǐng)人:華為技術(shù)有限公司, 電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載