提供揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)描述的設(shè)備和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻信號(hào)處理,并且特別涉及用于識(shí)別揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)(louds peaker-enclosure-microphone system)的設(shè)備和方法。
【背景技術(shù)】
[0002] 空間音頻再現(xiàn)技術(shù)變得越來(lái)越重要。新興的空間音頻再現(xiàn)技術(shù)比如波場(chǎng)合成 (WFS,wavefieldsynthesis)(參見(jiàn)[1])或高階高保真度立體聲響復(fù)制(參見(jiàn)[2])目的 在于在擴(kuò)展的收聽(tīng)區(qū)域中創(chuàng)建或者再現(xiàn)聲波場(chǎng),其中該聲波場(chǎng)提供了期望的聲場(chǎng)景的完美 空間印象。再現(xiàn)技術(shù)比如WFS或者H0A使用大量再現(xiàn)聲道來(lái)向收聽(tīng)者提供高質(zhì)量空間印象。 為此,通常使用具有數(shù)十至數(shù)百個(gè)元件的揚(yáng)聲器陣列。這些技術(shù)與空間記錄系統(tǒng)的結(jié)合開(kāi) 啟了新的應(yīng)用領(lǐng)域,比如身臨其境的遠(yuǎn)程現(xiàn)場(chǎng)感和自然聲人/機(jī)交互。為了獲得更身臨其 境的用戶(hù)體驗(yàn),可以通過(guò)空間記錄系統(tǒng)來(lái)補(bǔ)充這樣的再現(xiàn)系統(tǒng)以接近新的應(yīng)用領(lǐng)域或者改 進(jìn)再現(xiàn)質(zhì)量。揚(yáng)聲器陣列、封閉室和麥克風(fēng)陣列的組合稱(chēng)為揚(yáng)聲器封閉麥克風(fēng)系統(tǒng),并且在 許多應(yīng)用情況下通過(guò)觀察目前的揚(yáng)聲器和麥克風(fēng)信號(hào)來(lái)識(shí)別。作為示例,室內(nèi)的本地聲場(chǎng) 景通常記錄在由再現(xiàn)系統(tǒng)回放另一聲場(chǎng)景的室內(nèi)。
[0003] 然而,在這樣的情況下無(wú)揚(yáng)聲器的回音則不能觀察到本地聲場(chǎng)景的期望麥克風(fēng)信 號(hào)。在電話(huà)會(huì)議中,作為結(jié)果的信號(hào)會(huì)攪擾遠(yuǎn)端方[3],同時(shí)在基于語(yǔ)音的人/機(jī)前端中 的語(yǔ)音識(shí)別器通常會(huì)展現(xiàn)出較差的識(shí)別率[4]。通常使用回聲消除(AEC,acoustic echo cancellation)從所記錄的麥克風(fēng)信號(hào)中去除不想要的揚(yáng)聲器回音,同時(shí)在不降低質(zhì)量的 情況下保存本地聲場(chǎng)景的期望信號(hào)。為此,通過(guò)自適應(yīng)濾波器對(duì)揚(yáng)聲器封閉麥克風(fēng)系統(tǒng) (LEMS,loudspeaker-enclosure-microphone system)進(jìn)行建模,該自適應(yīng)濾波器產(chǎn)生對(duì)包 含在麥克風(fēng)信號(hào)中的揚(yáng)聲器回音的估計(jì),該揚(yáng)聲器回音從實(shí)際麥克風(fēng)信號(hào)中被減去。該任 務(wù)包括對(duì)LEMS的識(shí)別,從而理想地產(chǎn)生唯一解。下面,術(shù)語(yǔ)LEMS始終指MM0 LEMS (多輸 入多輸出LEMS)。
[0004] AEC在多聲道(MC,multichannel)再現(xiàn)情況下與單聲道的情況相比明顯更具挑 戰(zhàn)性,這是因?yàn)橥ǔ?huì)出現(xiàn)下述非唯一性問(wèn)題:由于揚(yáng)聲器信號(hào)(例如,立體設(shè)置中的左聲 道和右聲道的揚(yáng)聲器信號(hào))之間的強(qiáng)互相關(guān),所以該識(shí)別問(wèn)題的條件不好,不可能唯一地 識(shí)別出對(duì)應(yīng)的LEMS的脈沖響應(yīng)[6]。相反,識(shí)別出的系統(tǒng)表不通過(guò)揚(yáng)聲器信號(hào)的相關(guān)性質(zhì) 來(lái)定義的無(wú)窮多解中的僅一個(gè)解。因此,僅僅不完全地識(shí)別出真實(shí)的LEMS。從立體音響 AEC (參見(jiàn)例如[6])中已知該非唯一性問(wèn)題,并且對(duì)于大規(guī)模多聲道再現(xiàn)系統(tǒng),比如以波場(chǎng) 合成系統(tǒng)為例,該非唯一性問(wèn)題變得嚴(yán)重。
[0005] 不完全識(shí)別系統(tǒng)仍針對(duì)目前揚(yáng)聲器信號(hào)描述真實(shí)LEMS的行為,并且因此可以被 用于不同的自適應(yīng)濾波應(yīng)用,然而識(shí)別的脈沖響應(yīng)可能不同于真實(shí)的脈沖響應(yīng)。在AEC的 情況下,獲得的脈沖響應(yīng)描述了對(duì)明顯抑制揚(yáng)聲器回音足夠好的LEMS。
[0006] 然而,當(dāng)揚(yáng)聲器信號(hào)的互相關(guān)性質(zhì)變化時(shí),這不再是真實(shí)的,并且依賴(lài)自適應(yīng)濾波 器的系統(tǒng)的行為實(shí)際上會(huì)不可控。當(dāng)揚(yáng)聲器信號(hào)的互相關(guān)有變化時(shí),回音消除性能出故障 是通常的后果。這種魯棒性缺少對(duì)MCAEC的應(yīng)用構(gòu)成大障礙。而且,其他的應(yīng)用比如聆聽(tīng) 室均衡(還稱(chēng)為收聽(tīng)室均衡)或者有源噪音消除(還稱(chēng)為有源噪音控制)也取決于系統(tǒng)識(shí) 另IJ,并且以相同方式受到強(qiáng)烈影響。
[0007] 為了在這些情況下提高魯棒性,通常改變揚(yáng)聲器信號(hào)以實(shí)現(xiàn)去相關(guān),使得能夠唯 一地識(shí)別出真實(shí)LEMS。揚(yáng)聲器信號(hào)的去相關(guān)是常規(guī)選擇。
[0008] 為了此目的,針對(duì)每個(gè)揚(yáng)聲器信號(hào)已知有三個(gè)選項(xiàng):將相互獨(dú)立的噪音信號(hào)與揚(yáng) 聲器信號(hào)相加[5、6、7]、不同非線(xiàn)性處理[6、9]或者不同時(shí)變?yōu)V波[10、11]。盡管不知道完 美解,然而已示出時(shí)變相位調(diào)制甚至可被應(yīng)用于高質(zhì)量音頻[11]。雖然所提到的技術(shù)理想 上應(yīng)當(dāng)不損害所感覺(jué)的聲音質(zhì)量,然而應(yīng)用所提到的再現(xiàn)技術(shù)的這些方法可能不是最佳選 擇:由于WFS和H0A的揚(yáng)聲器信號(hào)以分析的方式確定,所以時(shí)變?yōu)V波會(huì)使再現(xiàn)波場(chǎng)明顯失 真,并且當(dāng)目的是高質(zhì)量音頻再現(xiàn)時(shí),收聽(tīng)者很可能不接受添加噪音信號(hào)或者非線(xiàn)性預(yù)處 理。
[0009] 可能存在揚(yáng)聲器信號(hào)的改變是不想要的或不實(shí)用的情況。通過(guò)WFS來(lái)給出示例, 其中,根據(jù)基礎(chǔ)理論來(lái)確定揚(yáng)聲器信號(hào)并且相位上的偏差會(huì)使再現(xiàn)波場(chǎng)失真。另一示例是 再現(xiàn)系統(tǒng)的擴(kuò)展,其中,揚(yáng)聲器信號(hào)是可觀察的,而不能被改變。然而,在這樣的情況下,仍 可以通過(guò)試探性方法來(lái)減輕非唯一性問(wèn)題的后果以改進(jìn)系統(tǒng)描述。這樣的試探可以基于與 LEMS的傳感器位置和作為結(jié)果的脈沖響應(yīng)有關(guān)的知識(shí)。對(duì)于由Shimauchi等人提出[12] 的在對(duì)稱(chēng)陣列設(shè)置中的立體聲AEC,其中假定該對(duì)稱(chēng)陣列設(shè)置產(chǎn)生脈沖響應(yīng)的對(duì)稱(chēng),該脈沖 響應(yīng)是針對(duì)對(duì)應(yīng)的揚(yáng)聲器至麥克風(fēng)路徑的脈沖響應(yīng)。
[0010] 在使揚(yáng)聲器信號(hào)不改變的情況下,仍可以在發(fā)生非唯一'丨生問(wèn)題時(shí)改進(jìn)系統(tǒng)描述, 然而過(guò)去幾乎沒(méi)有調(diào)查過(guò)該可能性。為此,可以使用LEMS幾何學(xué)的知識(shí)來(lái)得到另外的約 束,以在試探性意義下選擇針對(duì)系統(tǒng)描述的改進(jìn)解。在[12]中給出了一種這樣的方法,其 中相應(yīng)地運(yùn)用了立體聲陣列設(shè)置的對(duì)稱(chēng)性。
[0011] 然而,在[12]中,對(duì)于具有大量揚(yáng)聲器和麥克風(fēng)的系統(tǒng),比如揚(yáng)聲器封閉麥克風(fēng) 系統(tǒng),沒(méi)有給出任何解。
[0012] 對(duì)于包括多聲道回聲消除(MCAEC,multichannel acoustic echo cancellation)
[13] 、多聲道收聽(tīng)室均衡[27]和多聲道有源噪聲控制[28]的聲信號(hào)處理中的各種自適 應(yīng)濾波任務(wù),由Buchner等人在2004年提出了波域自適應(yīng)濾波。在2008年,Buchner和 Spors公布了應(yīng)用于與波域自適應(yīng)濾波(WDAF,wave-domain adaptive filtering) -起使 用的MCAEC[14]的廣義頻域自適應(yīng)濾波(GFDAF,generalized frequency-domain adaptive filtering)算法的公式[15],然而忽視了非唯一'丨生問(wèn)題[15]。
[0013] 本發(fā)明的目的是提供用于識(shí)別揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)的改進(jìn)的構(gòu)思。通過(guò)根據(jù)權(quán) 利要求1所述的設(shè)備、通過(guò)根據(jù)權(quán)利要求17所述的方法以及通過(guò)根據(jù)權(quán)利要求19所述的 計(jì)算機(jī)程序來(lái)解決本發(fā)明的目的。
【發(fā)明內(nèi)容】
[0014] 提供了一種用于提供揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)的當(dāng)前揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)描述 的設(shè)備。該設(shè)備包括用于生成多個(gè)波域揚(yáng)聲器音頻信號(hào)的第一變換單元。而且,該設(shè)備包 括用于生成多個(gè)波域麥克風(fēng)音頻信號(hào)的第二變換單元。此外,該設(shè)備包括系統(tǒng)描述生成器, 該系統(tǒng)描述生成器用于基于多個(gè)波域揚(yáng)聲器音頻信號(hào)、基于多個(gè)波域麥克風(fēng)音頻信號(hào)并且 基于多個(gè)稱(chēng)合值來(lái)生成當(dāng)前揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)描述,其中,該系統(tǒng)描述生成器被配置 成通過(guò)確定關(guān)系指示來(lái)確定分配給多個(gè)波域?qū)χ械囊粋€(gè)波域?qū)Φ拿總€(gè)耦合值,所述關(guān)系指 示指示揚(yáng)聲器信號(hào)變換值與麥克風(fēng)信號(hào)變換值之間的關(guān)系。
[0015] 具體地,提供了一種用于提供揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)的當(dāng)前揚(yáng)聲器封閉麥克風(fēng)系 統(tǒng)描述的設(shè)備,其中,該揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)包括多個(gè)揚(yáng)聲器和多個(gè)麥克風(fēng)。
[0016] 該設(shè)備包括第一變換單元,該第一變換單元用于生成多個(gè)波域揚(yáng)聲器音頻信號(hào), 其中,該第一變換單元被配置成基于多個(gè)時(shí)域揚(yáng)聲器音頻信號(hào)并且基于多個(gè)揚(yáng)聲器信號(hào)變 換值中的一個(gè)或更多個(gè)揚(yáng)聲器信號(hào)變換值來(lái)生成波域揚(yáng)聲器音頻信號(hào)中的每個(gè)波域揚(yáng)聲 器音頻信號(hào),該多個(gè)揚(yáng)聲器信號(hào)變換值中的一個(gè)或更多個(gè)揚(yáng)聲器信號(hào)變換值被分配給所生 成的所述波域揚(yáng)聲器音頻信號(hào)。
[0017] 而且,該設(shè)備包括第二變換單元,該第二變換單元用于生成多個(gè)波域麥克風(fēng)音頻 信號(hào),其中,該第二變換單元被配置成基于多個(gè)時(shí)域麥克風(fēng)音頻信號(hào)并且基于多個(gè)麥克風(fēng) 信號(hào)變換值中的一個(gè)或更多個(gè)麥克風(fēng)信號(hào)變換值來(lái)生成波域麥克風(fēng)音頻信號(hào)中的每個(gè)波 域麥克風(fēng)音頻信號(hào),該多個(gè)麥克風(fēng)信號(hào)變換值中的一個(gè)或更多個(gè)麥克風(fēng)信號(hào)變換值被分配 給所生成的所述波域揚(yáng)聲器音頻信號(hào)。
[0018] 此外,該設(shè)備包括系統(tǒng)描述生成器,該系統(tǒng)描述生成器用于基于多個(gè)波域揚(yáng)聲器 音頻信號(hào)并且經(jīng)濟(jì)與多個(gè)波域麥克風(fēng)音頻信號(hào)來(lái)生成當(dāng)前揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)描述。
[0019] 該系統(tǒng)描述生成器被配置成基于多個(gè)稱(chēng)合值來(lái)生成揚(yáng)聲器封閉麥克風(fēng)系統(tǒng)描述, 其中該多個(gè)耦合值