用于提供通知的多信道語音存在概率估計(jì)的裝置和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻信號(hào)處理,尤其涉及一種用于提供通知的多信道語音存在概率估 計(jì)的裝置和方法。
【背景技術(shù)】
[0002] 音頻信號(hào)處理變得越來越重要。特別是,在許多人機(jī)接口和通信系統(tǒng)中對(duì)免提語 音捕捉有需要。內(nèi)置聲學(xué)傳感器通常會(huì)接收到所需聲音(例如,語音)和不需要的聲音(例 如,環(huán)境噪聲,干擾語言,混響和傳感器噪聲)的混合。由于不需要的聲音降低了所需聲音 的質(zhì)量和清晰度,因此聲學(xué)傳感器信號(hào)可被處理(例如,過濾和求和)以提取出所需的源信 號(hào)或,換句話說,減少不需要的聲音信號(hào)。為了計(jì)算這種濾波器,通常要求對(duì)噪聲功率譜密 度(PSD)矩陣的精確估計(jì)。在實(shí)踐中,噪聲信號(hào)是不可觀察的并且其PSD矩陣需要從帶有 噪音的聲學(xué)傳感器信號(hào)中估計(jì)。
[0003] 單信道語音存在概率(SPP)估計(jì)器已經(jīng)被用于估計(jì)噪聲PSD (見,例如【1-5】)并 且控制降噪和語音失真之間的權(quán)衡(見,例如【6, 7】)。多信道后驗(yàn)SPP最近已經(jīng)用于估計(jì) 噪聲PSD矩陣(見,例如【8】)。另外,所述SPP估計(jì)可用于減低設(shè)備的功耗。
[0004] 在下文中,將考慮在多信道語音處理中行之有效的信號(hào)模型,其中M-元素陣列的 每個(gè)聲學(xué)傳感器捕獲所需信號(hào)和不需要的信號(hào)的累加混合。在第m個(gè)聲學(xué)傳感器接收到的 f目號(hào)可在如下時(shí)間 -頻率域中描述:
[0005] Ym (k, n) = Xm (k, n) +Vm (k, n), (1)
[0006] 其中Xm(k,n)和Vm(k,n)分別表示第m個(gè)聲學(xué)傳感器的所需源信號(hào)和噪聲分量的 復(fù)頻譜系數(shù),并且n和k分別為時(shí)間和頻率指數(shù)。
[0007] 所需信號(hào)可以,例如,在整個(gè)麥克風(fēng)空間地相干,并且噪聲的空間相干性可以,例 如,遵循理想的球形各向同性聲場(chǎng)的空間相干性,見【24】。
[0008] 換句話說,例如,Xm(k,n)可表示在第m個(gè)聲學(xué)傳感器的所需源信號(hào)的復(fù)頻率系數(shù), V m(k,n)可表示在第m個(gè)聲學(xué)傳感器的噪聲分量的復(fù)頻譜系數(shù),n可表示時(shí)間指數(shù),并且k 可以表示頻率指數(shù)。
[0009] 觀察到的嘈雜聲學(xué)傳感器信號(hào)可寫成矢量符號(hào):
[0010] y(k,n) = [Yjk,n)…YM(k,n)]T (2)
[0011] 并且y(k,n)的功率譜密度(PSD)矩陣被定義為
[0012] ① yy(k,n) = E{y(k,n)yH k,n)}, (3)
[0013] 其中上標(biāo)H表示矩陣的共軛轉(zhuǎn)置。矢量x(k,n)和v(k,n)以及矩陣〇xx(k,n)和 〇 yy(k,n)也被類似地定義。所需的和不需要的信號(hào)被假定為互不相關(guān)和為零平均值,使得 式⑶可寫為:
[0014] 〇yy(k, n) = 〇xx(k, n)+〇vv(k, n) (4)
[0015] 以下標(biāo)準(zhǔn)的假設(shè)被引入在給定的時(shí)間頻率點(diǎn)中關(guān)于所需信號(hào)(例如,語音信號(hào)) 的存在:
[0016] H0(k,n) :y(k,n) = v(k,n)表示語音不存在,并且
[0017] Hjk,n) :y(k,n) = x(k,n)表示語音存在。
[0018] 它可以,例如,理解為估計(jì)條件后驗(yàn)SPP,例如,pliHjk,n)] |y(k,n)。
[0019] 假定將陣列的第i個(gè)麥克風(fēng)作為參考,它可以,例如,理解來估計(jì)所需信號(hào)Xjn, k) 〇
[0020] 假設(shè)所需的和不需要的分量可被建模為復(fù)多元高斯隨機(jī)變量,多信道SPP估計(jì)由 下式給出(見【9】): 「00211
【主權(quán)項(xiàng)】
1. 一種提供語音概率估計(jì)的裝置,包括: 第一語音概率估計(jì)器(110 ;210 ;310),用于估計(jì)表示場(chǎng)景的聲場(chǎng)是否包括語音或所述 場(chǎng)景的所述聲場(chǎng)是否不包括語音的第一概率的語音概率信息,以及 輸出接口(120 ;220),用于根據(jù)所述語音概率信息輸出所述語音概率估計(jì), 其中,所述第一語音概率估計(jì)器(110 ;210 ;310)被配置為至少基于關(guān)于所述聲場(chǎng)的空 間信息或所述場(chǎng)景的空間信息估計(jì)第一語音概率信息。
2. 根據(jù)權(quán)利要求1所述的裝置, 其中,所述裝置進(jìn)一步包括第二語音概率估計(jì)器(215 ;315),所述第二語音概率估計(jì) 器用于估計(jì)表示所述聲場(chǎng)是否包括語音或所述聲場(chǎng)是否不包括語音的第二概率的語音概 率信息, 其中,所述第二語音概率估計(jì)器(215 ;315)被配置為基于所述第一語音概率估計(jì)器 (110 ;210 ;310)估計(jì)的語音概率信息以及基于取決于所述聲場(chǎng)的一個(gè)或多個(gè)聲學(xué)傳感器 信號(hào),來估計(jì)所述語音概率估計(jì)。
3. 根據(jù)權(quán)利要求1或2所述的裝置, 其中,所述第一語音概率估計(jì)器(110 ;210 ;310)被配置為基于方向性信息估計(jì)語音概 率信息,其中所述方向性信息表示所述聲場(chǎng)的定向聲音是怎樣的, 其中,所述第一語音概率估計(jì)器(110 ;210 ;310)被配置為基于位置信息估計(jì)語音概率 信息,其中所述位置信息表示所述場(chǎng)景的聲源的至少一個(gè)位置,或者 其中,所述第一語音概率估計(jì)器(110 ;210 ;310)被配置為基于接近度信息估計(jì)語音概 率信息,其中所述接近度信息表示至少一個(gè)可能聲音對(duì)象到至少一個(gè)接近度傳感器的至少 一個(gè)接近度。
4. 根據(jù)前述權(quán)利要求中任一項(xiàng)所述的裝置,其中,所述第一語音概率估計(jì)器(110 ; 210 ;310)被配置為通過確定直接擴(kuò)散比率的直接擴(kuò)散比率估計(jì)作為所述空間信息,來估 計(jì)語音概率估計(jì),所述直接擴(kuò)散比率表示所述聲學(xué)傳感器信號(hào)中包括的直達(dá)聲與所述聲學(xué) 傳感器信號(hào)中包括的擴(kuò)散聲的比率。
5. 根據(jù)權(quán)利要求4所述的裝置, 其中,所述第一語音概率估計(jì)器(110 ;210 ;310)被配置為通過確定所述聲學(xué)傳感器信 號(hào)中的第一聲學(xué)信號(hào)和所述聲學(xué)傳感器信號(hào)中的第二聲學(xué)信號(hào)之間的復(fù)相干性的相干性 估計(jì),來確定所述直接擴(kuò)散比率,其中所述第一聲學(xué)信號(hào)由第一聲學(xué)傳感器P記錄,所述第 二聲學(xué)信號(hào)由第二聲學(xué)傳感器q記錄,并且 其中,所述第一語音概率估計(jì)器(110 ;210 ;310)還被配置為基于所述第一聲學(xué)信號(hào)和 所述第二聲學(xué)信號(hào)之間的直達(dá)聲的相移的相移估計(jì),來確定所述直接擴(kuò)散比率。
6. 根據(jù)權(quán)利要求5所述的裝置, 其中,所述第一語音概率估計(jì)器(110 ;210 ;310)被配置為通過應(yīng)用以下公式來確定所 述第一聲學(xué)信號(hào)和所述第二聲學(xué)信號(hào)之間的所述直接擴(kuò)散比率估計(jì)?.?):
其中,是關(guān)于時(shí)間頻率點(diǎn)(k,n)的所述第一聲學(xué)信號(hào)和所述第二聲學(xué)信號(hào)之 間的復(fù)相干性的相干性估計(jì),其中n表示時(shí)間,并且其中k表示頻率, 其中,0 (k,n)為關(guān)于時(shí)間頻率點(diǎn)(k,n)的所述第一聲學(xué)信號(hào)和所述第二聲學(xué)信號(hào)之 間的直達(dá)聲的相移的相移估計(jì),并且 其中,F(xiàn)pq,diff(k)對(duì)應(yīng)于純擴(kuò)散聲場(chǎng)中的聲學(xué)傳感器P和聲學(xué)傳感器q之間的空間相 干性。
7. 根據(jù)權(quán)利要求