專利名稱:相位-幅度3d立體聲編碼器和解碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信號處理技術(shù)。更具體地,本發(fā)明涉及用于處理音頻信號的方法。
背景技術(shù):
也稱為“矩陣化環(huán)繞編碼”或“矩陣編碼”的兩聲道相位_幅度立體聲編碼被廣泛 用于將視頻游戲系統(tǒng)的音頻輸出連接到家庭影院系統(tǒng),以用于多聲道環(huán)繞聲再現(xiàn)并且用于 對環(huán)繞聲電影聲軌進行低帶寬或兩聲道傳輸或記錄。通常,在游戲應用中,多聲道音頻混 合由交互式音頻空間化引擎來實時地(在玩游戲期間)計算,并且利用與用于矩陣編碼多 聲道電影聲軌的處理相同的矩陣化環(huán)繞編碼處理而被下混(down-mix)為兩聲道。作為編 碼-解碼處理的結(jié)果,如圖IA中示意性地圖示出的,環(huán)繞聲混合可經(jīng)由單個標準立體聲音 頻連接來發(fā)送,或者經(jīng)由在當前家庭影院設(shè)備中常用的S/PDIF同軸電纜或光電纜連接來 發(fā)送。在交互式音頻呈現(xiàn)引擎中構(gòu)成的多聲道混合通常被獲得作為對點源進行再現(xiàn)的經(jīng)定 位聲音分量(主要聲音分量)與混響(reverberation)或空間擴散聲音分量(周圍聲音分 量)的組合(混合)。相位-幅度立體聲編碼相比于備選的離散多聲道音頻數(shù)據(jù)格式(例如杜比數(shù)字 (Dolby Digital)或DTS)的優(yōu)點在于經(jīng)編碼數(shù)據(jù)流是可以通過標準兩聲道立體聲揚聲器 或耳機直接(無需任何解碼)回放的兩聲道音頻信號。對于多聲道揚聲器呈遞,矩陣化環(huán)繞 解碼器可用來從矩陣編碼兩聲道信號中恢復多聲道信號。然而,與不經(jīng)過矩陣化環(huán)繞編碼 /解碼的直接多聲道再現(xiàn)相比,通過當前可用的時域矩陣化環(huán)繞解碼器,空間再現(xiàn)的保真度 通常遭受著不精確的源響度再現(xiàn)、不精確的空間再現(xiàn)、定位導向(localization steering) 失真以及“離散性”(或“源分離”)的缺乏。MPEG環(huán)繞技術(shù)使得能夠通過低比特速率的數(shù)字音頻連接,來將與現(xiàn)有的商品化的 矩陣化環(huán)繞解碼器兼容的兩聲道矩陣編碼信號與輔助空間信息數(shù)據(jù)流一起傳輸,輔助空間信息數(shù)據(jù)流由MPEG環(huán)繞解碼器利用以便恢復對原始離散多聲道混合的忠實再現(xiàn)。然而,將 輔助數(shù)據(jù)與音頻信號一起傳輸需要與標準立體聲設(shè)備不兼容的新的數(shù)字連接格式。 上面的音頻編碼-解碼技術(shù)的另一限制是其僅水平方向空間化的約束、其偏 向于特定的多聲道揚聲器布局,以及其依賴于稱為多聲道幅度擺動(panning)的空間音 頻呈現(xiàn)技術(shù)。這使得這些技術(shù)對于利用耳機或備選揚聲器布局以及空間化技術(shù)(例如 ambisonic或雙耳技術(shù))的再現(xiàn)來說不是理想的,空間化技術(shù)在一些收聽條件下比幅度擺 動技術(shù)更有效地用于改善空間音頻再現(xiàn)。特別地,對于耳機回放,優(yōu)良的收聽體驗可以利用 也僅需兩個音頻傳輸聲道的雙耳3D音頻空間化方法來獲得。然而,在經(jīng)編碼信號中包括與 頭部有關(guān)的聲道間延遲和依賴于頻率的幅度差提示,因此,雙耳傳輸格式將不適合于在擴 展的家庭影院收聽區(qū)域中的多聲道環(huán)繞聲再現(xiàn)。希望通過提供更靈活的、空間上精確的編碼和解碼方案來克服現(xiàn)有矩陣化環(huán)繞編 碼和解碼技術(shù)的上述限制。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個實施例,提供了一種在時域或頻域中對一個或多個聲源進行兩 聲道相位-幅度立體聲編碼的方法,以使得每個聲源的能量在經(jīng)矩陣編碼的信號中得到維 持。根據(jù)本發(fā)明的另一實施例,提供了一種在時域或頻域中操作的方法,用于對一個 或多個經(jīng)定位的聲源和一個或多個未經(jīng)定位的聲音進行兩聲道相位_幅度立體聲編碼,以 使得未經(jīng)定位的源在經(jīng)矩陣編碼的信號中的貢獻在左右經(jīng)編碼輸出聲道之間基本上不相 關(guān)。根據(jù)本發(fā)明的另一實施例,提供了一種在時域或頻域中操作的方法,用于對一個 或多個經(jīng)定位的聲源進行兩聲道相位_幅度立體聲編碼,以使得每個聲源通過利用獨立于 頻率的聲道間相位和幅度差而被指派一三維的定位(除了包括左右和前后區(qū)分外還包括 上下區(qū)分)。根據(jù)本發(fā)明的另一實施例,提供了一種用于對兩聲道立體聲信號進行相位_幅度 立體聲解碼的頻域方法,包括利用任何優(yōu)選的空間化技術(shù)來對記錄中的2D或3D定位提示 進行頻域空間分析并且將這些定位提示進行重新合成,從而允許通過耳機或任意多聲道揚 聲器再現(xiàn)格式來忠實地再現(xiàn)2D或3D位置音頻提示和混響或周圍提示,同時保持源分離,而 不管先前的僅通過兩個音頻聲道的編碼如何。下面將參考附圖描述本發(fā)明的這些以及其它特征和優(yōu)點。
圖IA是具有到家庭影院系統(tǒng)的單電纜音頻輸出連接的交互式游戲音頻引擎的簡 化功能示圖,該家庭影院系統(tǒng)以標準5聲道僅水平方向環(huán)繞聲再現(xiàn)格式來進行音頻回放。圖IB是圖示出現(xiàn)有技術(shù)的5-2-5矩陣化環(huán)繞編碼-解碼方案的示圖,其中,5聲道 記錄饋入(feed)多聲道矩陣化環(huán)繞編碼器以產(chǎn)生兩聲道矩陣編碼的信號,并且該矩陣編 碼的信號隨后饋入矩陣化環(huán)繞解碼器以產(chǎn)生用于通過揚聲器再現(xiàn)的5個輸出信號。圖IC是圖示出用于將來自具有標準5聲道僅水平方向空間音頻記錄格式的源的2D位置音頻提示編碼為兩聲道信號的現(xiàn)有技術(shù)的多聲道矩陣化環(huán)繞編碼器的示圖,圖2A是圖示出如現(xiàn)有技術(shù)中描述的,根據(jù)水平平面中的概念編碼圓(notional encoding circle)上的幅度擺動角α以及在有源矩陣化環(huán)繞解碼器中使用的主導向量δ 進行的外圍相位-幅度矩陣化環(huán)繞編碼。物理仰角θ的值指示水平平面中的標準揚聲器 位置。
圖2Β是圖示出如現(xiàn)有技術(shù)中所述的,在由幅度擺動角α和聲道間相位差角β表 示的、稱為“Scheiber球體”的概念編碼球體上進行的相位-幅度矩陣化環(huán)繞編碼,圖3是針對在揚聲器聲道L和Ls之間進行幅度擺動的聲音分量計算出的、在水平 平面中的收聽圓上的Gerzon向量的圖示說明。圖4A是對于分別位于水平平面中的收聽圓上的-110、-30,30和110度方位角處 的揚聲器Ls,L,R和Rs,通過以10度方位角遞增地進行4聲道外圍擺動并且以9遞增地進 行徑向擺動而獲得的Gerzon速度向量的2D繪圖。圖4B是對于分別位于水平平面中的收聽圓上的-130、-40,40和130度方位角處 的揚聲器Ls,L,R和Rs,通過以10度方位角遞增地進行4聲道外圍擺動并且以9遞增地進 行徑向擺動而獲得的Gerzon速度向量的2D繪圖。圖5A是根據(jù)本發(fā)明一個實施例的針對圖4A中表示的擺動定位和揚聲器位置的相 位_幅度編碼圓上的主導向量的2D繪圖,其中,環(huán)繞編碼角α s被設(shè)為-148度。圖5B是根據(jù)本發(fā)明一個實施例的針對圖4B中表示的擺動定位和揚聲器位置的相 位_幅度編碼圓上的主導向量的2D繪圖,其中,環(huán)繞編碼角α s被設(shè)為-135度。圖6A是圖示出根據(jù)本發(fā)明一個實施例的6聲道3D位置音頻擺動模塊的示圖。圖6B是圖示出根據(jù)本發(fā)明一個實施例的用于將6聲道3D音頻信號轉(zhuǎn)換為兩聲道 相位_幅度矩陣編碼3D音頻信號的多聲道相位_幅度編碼矩陣。圖6C示出了根據(jù)本發(fā)明一個實施例的完整的交互式相位_幅度3D立體聲編碼
ο圖7A是圖示出根據(jù)本發(fā)明一個實施例的相位_幅度矩陣化環(huán)繞解碼器的信號流 程圖。圖7B是圖示出根據(jù)本發(fā)明一個實施例的用于多聲道揚聲器再現(xiàn)的相位_幅度矩 陣化環(huán)繞解碼器的信號流程圖。圖8是圖示出根據(jù)本發(fā)明一個實施例的相位_幅度立體聲編碼器的信號流程圖。
具體實施例方式現(xiàn)在將詳細參考本發(fā)明的優(yōu)選實施例。優(yōu)選實施例的示例在附圖中示出。雖然將 結(jié)合這些優(yōu)選實施例來描述本發(fā)明,但是將會理解,不希望將本發(fā)明局限于這些優(yōu)選實施 例。相反,希望覆蓋可以包括在由所附權(quán)利要求所限定的本發(fā)明的精神和范圍內(nèi)的替代方 式、修改和等同物。在以下描述中,提出多個具體細節(jié)來提供對本發(fā)明的全面理解。本發(fā)明 可以在無需這些具體細節(jié)中的某些或全部的情況下實施。在其他實例中,沒有詳細描述公 知的機構(gòu),以免不必要地模糊本發(fā)明。這里應該注意,遍及各個附圖的類似標號指示類似部件。這里示出和描述的各個 附圖被用于圖示說明本發(fā)明的各個特征。就在一張附圖中示出而在其他附圖中沒有示出的一個特定特征而言,除非特別指示或者該結(jié)構(gòu)本質(zhì)上禁止并入該特征,否則將理解為這些 特征可以被適應性修改以包括到在其他附圖中表示的實施例中,就好像這些特征在這些附 圖中被完全示出一樣。除非特別指示,否則附圖不一定是按比例繪制的。在附圖中提供的 任何維度都不認為是對本發(fā)明的范圍的限制而僅僅是示例性的。矩陣化環(huán)繞原理圖IB示出了 5-2-5矩陣編碼-解碼方案,其中,5聲道記錄{Ls[t],L[t],C[t], R[t],Rs[t]}饋入多聲道矩陣化環(huán)繞編碼器以產(chǎn)生矩陣編碼的兩聲道信號{LT[t],RT[t]}, 并且該矩陣編碼信號隨后饋入矩陣化環(huán)繞解碼器以產(chǎn)生5聲道揚聲器輸出信號OV [t], L' [t], C' [t],R' [t], Rs' [t]}供再現(xiàn)。一般地,這種矩陣編碼-解碼方案的目的在 于產(chǎn)生與通過位于收聽者周圍相同的N個位置處的揚聲器來收聽原始N聲道信號的收聽 體驗極接近的收聽體驗。多聲道矩陣化環(huán)繞編碼等式圖IC示出了多聲道相位_幅度矩陣化環(huán)繞編碼器,用于通過下混5聲道信號來將 2D位置音頻提示編碼為兩聲道信號,該5聲道信號是與圖IA所示的揚聲器布局相對應的標 準僅水平方向的“3-2立體聲”格式(Ls,L,C,R,Rs)。在此情況中,相位-幅度矩陣化環(huán)繞 編碼等式的一般形式為 其中,j表示理想化90度相移并且角度03在
內(nèi)。Os的通常選擇為29 度,其產(chǎn)生cos σ s = 0. 875 ;sin σ s = 0. 485 (2.)如圖IC所示,向等式(1)中的環(huán)繞聲道LS和LR施加相對90度相移通常是利用 向前面的輸入聲道施加相移Φ的全通濾波器以及向環(huán)繞聲道施加相移Φ+90度的全通濾 波器來實現(xiàn)的。無源矩陣化環(huán)繞解碼等式對于任何相位-幅度編碼矩陣,“無源”解碼矩陣可被定義為編碼矩陣的 Hermitian轉(zhuǎn)置。如果以矩陣形式來表示編碼矩陣(1)[LTRT]T = E [LsLCRRsJt (3.)則無源解碼等式產(chǎn)生五個相對應的輸出聲道如下[Ls,L,C,R,Rs,]τ = EH[LTRT]T (4.)由于編碼矩陣E優(yōu)選地是能量守恒的(energy-preserving) ( S卩,E的每列中的 左右編碼系數(shù)的平方之和為單位1),因此,經(jīng)組合的5X5編碼/解碼矩陣EhE的對角線系 數(shù)都為單位1。這蘊含了原始多聲道信號的每個信道被正確地發(fā)送給相對應的解碼器輸出 聲道。然而,每個解碼器輸出聲道還從其它編碼器輸入聲道接收大量另外的貢獻(即“泄 漏”(bleeding)),這在原始多聲道信號{Ls,L,C,R,Rj與經(jīng)過矩陣化環(huán)繞編碼和解碼之后 的再現(xiàn)信號OV,L',C',R',Rs' }之間產(chǎn)生了顯著的空間音頻再現(xiàn)差異。有源矩陣化環(huán)繞解碼器通過變化解碼矩陣的系數(shù),有源矩陣化環(huán)繞解碼器在矩陣編碼信號表示較強的方向主導(dominance)的情況中,與無源矩陣化環(huán)繞解碼器相比,可以提高“源分離”性能。這 種增強是通過“導向邏輯”來實現(xiàn)的,“導向邏輯”根據(jù)用δ = (δχ,Sy)表示的所測得主 導向量來連續(xù)地適配(adapt)解碼矩陣,δ = (δχ,5y)可從4聲道無源矩陣化環(huán)繞解碼 器輸出信號 L' = LT, R' = Rt, C' = 0.7 (L' +R')以及 S' = 0.7 (L' -R')獲得,如 下δχ= (|r,2-|l,2)/(|r,2+|l,|2)5y= (|c,|2-|s,|2)/(|c,|2+|s,I2) (5.)其中,平方的范數(shù)I. I2表示信號功率。主導向量PI=O^+《盧的大小量度了經(jīng) 編碼信號中的方向主導性的程度,并且從不大于1。導向邏輯的效果在于向由在如圖2A所示的編碼圓上觀察到的主導向量δ的方向 所指示的聲道重新分布信號功率。當主導向量的大小I S I接近零時,有源矩陣化環(huán)繞解碼 器必須回復到先前描述的無源行為(或利用某種其它無源矩陣)。只要信號Lt和Rt不相 關(guān)或弱相關(guān)(即,主要包含周圍分量)或者在分布在編碼圓周圍的多個并發(fā)的主要聲音源 存在時,這就會發(fā)生。一般地,基于時域有源矩陣化環(huán)繞解碼器的現(xiàn)有技術(shù)5-2-5矩陣編碼/解碼方案 能夠精確地再現(xiàn)編碼圓上任何地方的單個主要源的成對幅度擺動。然而,它們不能在多個 并發(fā)主要聲音分量存在時產(chǎn)生有效的精確的方向增強,也不能在主導性主要源存在時保持 周圍聲音的擴散空間分布。在這些情形中,往往會出現(xiàn)可覺察到的導向失真(例如,在居中 的對話存在時,轉(zhuǎn)移音效定位或縮窄立體聲像)。因此,建議混合工程師通過工作室中的編 碼-解碼鏈來監(jiān)視經(jīng)矩陣編碼的混合,以檢測并避免這種失真的出現(xiàn)。然而,這種預防在混 合是由實時游戲播放自動地驅(qū)動的游戲應用中是不可能的。設(shè)計準則為了表征根據(jù)本發(fā)明的矩陣化環(huán)繞編碼-解碼方案的性能,定義可在交互式音頻 呈現(xiàn)系統(tǒng)(例如,游戲、計算機音樂或虛擬現(xiàn)實)的設(shè)計中應用的一般性空間分析原理是有 用的,而不管所使用的空間呈現(xiàn)技術(shù)或設(shè)置如何。從這些一般性原理,我們將根據(jù)空間音頻 場景中的主要和周圍聲音分量的能量和空間性質(zhì),來導出針對矩陣編碼-解碼處理的空間 音頻場景保持(preservation)需求,而不管回放環(huán)境如何??肇畢鸩巾搱鼍昂蘮#r號It型如圖IA所示,表示空間音頻場景的多聲道信號可被建模為主要和周圍聲音分量 的重疊。主要分量可以利用“擺動”模塊(在圖IA中標記為擺動)在方向上被編碼,“擺動” 模塊接收單音源信號并且產(chǎn)生用于添加到輸出混合中去的多聲道信號。一般而言,該空間 擺動模塊的作用是向源指派在以收聽者為中心的收聽球體上觀察到的感知到的方向,同時 保持源響度和頻譜內(nèi)容。在利用揚聲器再現(xiàn)M聲道信號P= [P1... Pm]時,這種感知到的方 向可通過Gerzon向量g來量度,g定義如下g=E fflPffleffl (6.)其中,“聲道向量” em是第m個輸出聲道(圖3)方向上的單位向量。等式(6)中 的權(quán)重Pm由下式給出對于“速度向量”Pm= pM/| |p I1 (7.)
對于“能量向量”pm=IPJ2/ |P I2 (8.)其中,I |p I1表示第Μ-聲道信號的幅度和,并且I |P| I2表示其總的信號功率。由等式(6,7)等于的Gerzon “速度向量”與在收聽位置處測得的有源聲學強度向 量成比例。其足夠用于描述針對位于中心的收聽者的所感知到的在低頻(大概在700Hz以 下)處的主要分量的定位,而由等式(6,8)定義的“能量向量”可被認為更足夠用于表示較 高頻處的感知到的聲音定位。諸如Ambisonics或VBAP之類的多聲道聲音空間化技術(shù)可 被當作是在給定了 Gerzon向量的所需方向時用于求解擺動權(quán)重Pm組的不同方法??臻g化 技術(shù)在其實際的工程折衷方面以及其精確控制Gerzon向量大小的能力方面是不同的,該 Gerzon向量的大小表征聲像的空間“銳度”或“焦點”,并且在小于1時,可以反映跨越揚聲 器陣列的內(nèi)部擺動(例如“經(jīng)過”或“越過”聲音事件)。Gerzon向量還可以應用于表征諸如房間混響或空間擴展聲音事件(例如,周圍的 掌聲或者附近瀑布的更具體定位的聲音)之類的多聲道再現(xiàn)中的周圍聲音分量的方向分 布。在此情況中,揚聲器信號應當被相互去相關(guān),并且Gerzon能量向量隨后與有源聲學強 度成比例。其大小對于均勻分布的周圍聲音為零,并且在空間強調(diào)方向上增大。系統(tǒng)設(shè)計準則基于上面的原理,在空間音頻場景再現(xiàn)方面對矩陣編碼-解碼系統(tǒng)的設(shè)計要求可 表達為如下場景中每個個體聲音分量(主要或周圍)的功率和Gerzon向量方向,下面稱 為與每個聲源相關(guān)聯(lián)的空間提示(spatial cue),應當被正確地再現(xiàn)。在下面的描述中考慮 的優(yōu)選實施例中,假設(shè)周圍分量在空間上是擴散的,即,其Gerzon能量向量是空的。這種假 設(shè)實際上不會約束在虛擬環(huán)境中模擬房間混響或周圍背景氣氛。針對根據(jù)本發(fā)明優(yōu)選實施例的矩陣化環(huán)繞編碼_解碼方案的另外的設(shè)計準則產(chǎn) 生于技術(shù)兼容性要求希望所提出的交互式矩陣編碼器一致地產(chǎn)生適合于利用現(xiàn)有技術(shù)的 矩陣環(huán)繞解碼器進行解碼的輸出,現(xiàn)有技術(shù)的矩陣環(huán)繞解碼器在擺動到五個聲道(Ls,L,C, R,Rs)之一的聲音分量的經(jīng)編碼聲道信號Lt和Rt之間假設(shè)了特定的相位_幅度關(guān)系,如等 式(1)指示的。相反,在本發(fā)明的優(yōu)選實施例中,矩陣化環(huán)繞解碼器與舊的矩陣編碼內(nèi)容兼 容,即,以與現(xiàn)有技術(shù)的矩陣化環(huán)繞解碼器的響應一致的方式來對其輸入信號中的強方向 性主導作出響應。此外,在本發(fā)明的優(yōu)選實施例中,矩陣化環(huán)繞解碼器在經(jīng)歷任何標準立體聲源 (不一定經(jīng)矩陣編碼)時應當產(chǎn)生自然的發(fā)聲“上混”(upmix),理想地,不需要修改其操作 (例如,如在現(xiàn)有技術(shù)的矩陣化環(huán)繞解碼器中常見的,從“電影模式”切換到“音樂模式”)。 這意味著輸入立體聲信號中的周圍聲音分量應當被提取并由解碼器重新分布以利用環(huán)繞 輸出聲道(LS*RS)從而增強沉浸感,同時維持立體聲像中的主要聲音分量的原始定位并且 利用中心揚聲器來提高與收聽者遠離“最佳聽音位置”的橫向位移相對的聲像的健壯性。經(jīng)改進的相位_幅度立體聲編碼器下面將詳細說明根據(jù)本發(fā)明一個實施例的經(jīng)改進的相位_幅度矩陣化環(huán)繞編碼 器。首先,考慮對2D水平方向圓中的主要聲音分量的位置編碼。然后,導出3D球形編碼方 案。最后,通過包括在經(jīng)編碼信號中添加空間上擴散的周圍聲音分量來完成編碼方案。在 優(yōu)選實施例中,由游戲引擎或工作室混合應用來為每個個體聲源提供空間提示,并且編碼 器對源信號的時域或頻域表示進行操作。在其它實施例中,多聲道源信號以已知的空間音頻記錄格式被提供,該信號被轉(zhuǎn)換為頻域表示或者是以頻域表示的形式接收的,并且通過對多聲道源信號的空間分析來導出針對每個時間和頻率的空間提示。2D外圍編碼考慮一組M個單音聲源信號{SM[t]},主要聲音分量的兩聲道立體聲混合{LT[t], Rt [t]}可被表達為Lt [t] =Σ mLm Sm [t]Rt [t] =Σ mRm Sm [t] (9)其中,1^和Rm表示每個源的左右擺動系數(shù)。對于在編碼圓上被指派有擺動角度α 的源(如圖2Α所示),能量守恒相位-幅度擺動系數(shù)可表達為L ( α ) = cos (α /2+31 /4)R ( α ) = sin (α /2+31 /4) (10)其中,擺動角度α是從前方(C)順時針地測得的,并且從針對擺動到左聲道的 信號的α 弧度)變化到針對擺動到右聲道的信號的α = π/2。假設(shè)α跨越 被擴展為[-η,^ ]的間隔,則圖2Α的編碼圓上的所有位置由等式(10)利用針對環(huán)繞弧 (L-Ls-Rs-R)的位置的正極性擺動系數(shù)而被唯一地編碼。相位-幅度擺動等式(10)的應用 包括將在圖3所示的收聽圓上測得的所需方位角θ映射到擺動角α。如圖2Α所指示的, 這種映射必須使θ = θ 射到α = π/2并且使θ = 93映射到α =-as,其中,θρ 表示指派給前面的聲道L或R的方位角(例如30° ),表示指派給環(huán)繞聲道Ls或Rs的方位 角(例如110° ),并且Cis針對與多聲道矩陣編碼等式(1)的一致性來驗證os=|a s/2+3i /4 (11)對于在圓上中間位置處的編碼,從θ到α的任何單調(diào)映射在原理上是適當?shù)?。?了確保與利用等式(1)對5聲道混合進行矩陣編碼的兼容性,合適的θ到α角度映射函 數(shù)是等效于5聲道成對幅度擺動的函數(shù),5聲道成對幅度擺動利用諸如基于向量的幅度擺 動方法(VBAP)之類的公知的現(xiàn)有技術(shù)擺動技術(shù),隨后進行5到2矩陣編碼。然而,與源在聲道之間進行幅度擺動的情況一樣,當5到2編碼矩陣的輸入沒有被 相互去相關(guān)時,其實際上不是能量守恒的。例如,其將信號功率提高了 l+sin(20s),g卩,對 于擺動到后方中央的聲音提高了大概3dB,并且對于在C和L之間均勻地擺動的聲音提高了 1 + λ/ 7Ι或2. 3dB。在根據(jù)本發(fā)明實施例的編碼器中,通過根據(jù)每個源信號的擺動位置來縮 放(scale)每個源信號從而消除了這種能量偏差。作為簡化形式,在矩陣編碼之前,其還有 利地僅跨越4個聲道(Ls, L,R,Rs)擺動,忽略了 C。利用內(nèi)部擺動的2D編碼使用等式(10)的直接兩聲道編碼與使用等式(1)的矩陣編碼的多聲道擺動之間 的重要差別在于后者包括施加給環(huán)繞聲道Ls和Rs的90度相移,其具有將180度相位差均 勻地分布在左右經(jīng)編碼聲道之間的效果。沒有這種相移(在等式(1)中用j表示)的話, 在前方中央位置和后方中央位置之間擺動的“經(jīng)過”或“越過”聲音效果將被編碼為沿著編 碼圓的左半部分擺動。用P (Θ)表示通過外圍擺動(例如利用BVAP技術(shù))獲得的擺動權(quán) 重組,則水平方向多聲道擺動算法可被擴展為包括內(nèi)部擺動定位,如下Ρ( θ , ψ) = cos¥ P ( θ )+sin¥ ε (12.)其中,P是得到的擺動權(quán)重組(在為了能量守恒而進行縮放之前),cos Ψ和sin Ψ是“徑向擺動”系數(shù),ψ在W,JI/2]之內(nèi),并且ε是一組能量守恒的非方向性(或“中間 的”)擺動權(quán)重,其通過等式(6,7)產(chǎn)生O大小的Gerzon速度向量。在跨越(LS,L,R,RS)的 4聲道擺動的情況中,用于該組非方向性擺動權(quán)重ε的優(yōu)選解是表現(xiàn)出左右對稱并且前后 幅度擺動率等于I cos θ s/cos θ F|的解。圖4A示出了通過等式(6,7)從Ρ(θ,Ψ)導出的Gerzon速度向量g的繪圖, 其中,θ和ψ以10度遞增變化,揚聲器Ls,L,分別位于水平平面中的收聽圓上 的-110、_30、30和110度方位角處。給定方位角的徑向擺動位置由實線相連,實線通過連 接到收聽圓邊緣上的對應點的虛線被延長。類似地,圖4B圖示出了本發(fā)明的替代實施例, 其中,揚聲器Ls,L,R和Rs分別位于收聽圓上的-130、-40,40和130度方位角處。
圖5A繪制出了在利用等式(1)進行矩陣編碼之后,利用等式(5)從Ρ( θ,ψ)導出 的主導向量,在與圖4Α相同的假設(shè)下,假設(shè)環(huán)繞編碼角Cis為-148度(S卩,03 = 29度)。 給定方位角的編碼位置用實線相連。在側(cè)面弧(L-Ls)和(R-Rs)上,該實線通過連接到編碼 圓邊緣上的對應編碼點的虛線段而被延長,該編碼圓的邊緣是由外圍編碼等式(10)定義 的并且假設(shè)從θ到α進行線性映射。類似地,圖5Β繪制出了針對在圖4Β中假定的備選 實施例導出的主導向量并且假設(shè)環(huán)繞編碼角Cis*-135度(即,Os = 22.5度)。由于矩陣編碼等式(1)是線性的,因此,其后跟隨了矩陣編碼的任何A聲道徑 向擺動技術(shù)的應用也可以被看作是施加給相位-幅度立體聲編碼系數(shù)的交叉衰減操作 (cross-fading) L ( α,ψ) = cos Ψ L ( α ) +sin Ψ ε LR(a , ψ) = cos¥R(a )+sin¥ ε R (13.)其中,ε ^和ε 1;是通過矩陣編碼從“中間”擺動權(quán)重ε組導出的。由于矩陣編碼 等式(1)中的90度相移,因此q和ε κ是包括相移的共軛復系數(shù)ε L = |cos9s|+j cos θ F(cos σ s+sin σ s)ε κ = I cos 9 s 卜j cos θ F (cos σ s+sin σ s) (14.)由于立體聲編碼系數(shù)通常不是實因數(shù),因此,針對每個主要聲源的兩聲道擺動的 直接實現(xiàn)在時域中是不實際的。本發(fā)明的優(yōu)選時域?qū)嵤├褂蒙厦嫠龅腁聲道外圍-徑 向擺動和編碼方案,或者使用5聲道格式(Ls,L,Τ, R,Rs)的擺動和混合,其中,T表示如圖 3指示的虛擬“中間”聲道,然后利用下面的編碼等式進行5到2矩陣編碼Lt = L+ ε Lt+j (cos σ sLs+sin σ SRS)Rt = R+ ε ET-j (sin σ SLs+cos σ SRS) (15.)3D位置相位_幅度立體聲編碼當在等式(12)中cos Ψ = 0(并且因此,sin Ψ = 1)時,聲音事件的概念上的定 位與參考收聽位置相符。然而,在4聲道揚聲器再現(xiàn)中,位于該位置處的收聽者將感知到位 于頭部之上的聲音事件。這表明,將徑向擺動角Ψ的值從0度增加到90度可以被解釋為 將收聽球體上的虛擬源位置的仰角識從0度增加到90度。對徑向擺動的這種解釋使得能夠 在采用虛擬“中間”聲道T的圖3的水平方向收聽圓中定位(θ,r)處的2D外圍-徑向擺 動,與上半球體上的定位(久P)處的3D多聲道擺動之間建立等效性,其中,T表示虛擬或?qū)?際“頂部”聲道并且P是3D仰角,而r表示2D定位半徑。對從徑向擺動角Ψ到半徑r再到仰角爐的映射函數(shù)的選擇不是決定性的,如果映射函數(shù)單調(diào)的話,并且以使得當ψ從O增加到90度時,半徑r從1減小到0,仰角供從O增 加到90度。在下面的實施例中采用的最簡單易懂的假設(shè)是r = cos Ψ并且識=V,這意味 著r和過垂直投影被聯(lián)系起來
r = Cos 爐(16.)
在矩陣編碼時,上半球體或水平方向圓上的任何源定位由此通過兩聲道信號{LT, RtI中的聲道間幅度和相位差而被編碼。為了檢查相位-幅度立體聲編碼系統(tǒng)的性質(zhì),經(jīng) 常采用立體聲相位-幅度編碼的球形表示,其將擺動等式(10)擴展為包括任意聲道間相位 差L(a , β) = cos ( a/2+31/4) eJ 0/2R(a , β) = sin(a/2+3i/4)e"Jf!/2(17.)在如圖2B所示的圖形表示中,聲道間相位差角β被解釋為繞著一平面的左右軸 的旋轉(zhuǎn),在該平面中,幅度擺動角α被測量。如果α跨越[-π/2,π/2]并且β跨越[_ π, Ji ],則角坐標(a,β )將任何聲道間相位和/或幅度差唯一地映射到“Scheiber球體”上 的位置。具體地,β =0描述前方圓弧(L-C-R)并且β = π描述后方圓弧(L-Ls-Rs-R)。 按照慣例,在優(yōu)選實施例中,正的β值將對應于上半球體,負的β值將對應于下半球體。對 于“頂部”位置Τ,等式(14)蘊含了矩陣編碼立體聲信號中的聲道間相位差為β T = 2arctan[ (cos σ s+sin σ s) cos θ J | cos θ s | ] (18.)一個有用性質(zhì)是通過等式(5)導出的主導向量δ與到Scheiber球體上的位置 (α, β)的水平平面上的垂直投影相符Sx = Sinaδ y = cos a cos β (19.)傳統(tǒng)上,如圖5的主導繪圖也是Scheiber球體上的概念編碼位置的“上-下”示 圖。這允許擴展相位_幅度3D位置編碼方案以通過定義“底部”編碼位置來包括下半球體 中的對稱位置。在優(yōu)選實施例中,用B表示的該位置被定義為Scheiber球體上的“頂部” 位置T相對于(α,β) = (0,_βτ)處的水平平面的對稱,以使得上半球體和下半球體對于 2D矩陣解碼器來說是相同的。圖6Α和圖6Β —起示出了根據(jù)本發(fā)明優(yōu)選實施例的3D位置相位-幅度立體聲編 碼方案。圖6Α示出了 6聲道擺動模塊(600)用于將3D位置音頻定位(凡,Pm)指派給6聲 道格式(LS,L,T,B,R,RS)的主要聲源信號Sm,其中,T表示頂部聲道,B表示底部聲道,如前 面所述的。圖6B示出了相位-幅度3D立體聲編碼矩陣模塊(610),其中,得到的6聲道信 號(606)根據(jù)下面的編碼等式被矩陣編碼為兩聲道相位-幅度立體聲編碼信號{LT,RT}Lt = L+ ε LT+ ε EB+j (cos σ s Ls+sin σ s Rs)Rt = R+ ε ET+ ε LB_j (sin σ s Ls+cos σ s Rs) (20.)其中,&= Vl72exp(yy0r/2)并且 =Vl72exp(-yy0r/2),以使得# + g = 1。在圖6A所示的6聲道3D位置擺動模塊中,源通過六個擺動系數(shù)604被縮放,這六 個擺動系數(shù)604是從方位角Qn^n仰角識m導出的,如下(為了清楚,省略了源索引m) L(0, φ) - cos爐 L(O)LsiO, φ) = cos爐 Ls(O) 其中,[ <條件> ?]表示邏輯比特(即,如果<條件 > 為真的話則為1,如果<條 件〉為為假的話則為0)。在優(yōu)選實施例中,等式(21)中的系數(shù)1^(9),l(e),r(e)和 Rs( θ)是能量守恒的4聲道2D外圍幅度擺動系數(shù),其是根據(jù)分別表示為es并且分 別被指派給前方聲道對(L,R)和環(huán)繞聲道對(LS,RS)的前方和環(huán)繞揚聲器方位角,利用VBAP 方法從方位角導出的。此外,在本發(fā)明的優(yōu)選實施例中,饋入每個擺動模塊的源信號通過能 量歸一化因子602被縮放,因子602等于 其中,、(氏識)和^^(仏識)是通過將由等式(20)定義的編碼矩陣應用于由等式 (21)定義的擺動系數(shù)而導出的。這種歸一化確保了矩陣編碼信號{LT,RT}中的每個源信號 Sm的貢獻是能量守恒的,無不管其擺動定位(凡,^bi)如何。圖6B中的編碼矩陣610的特定實施例是通過如下這樣重寫等式(20)獲得的Lt = L+ VV2 (Τ + B) οο%φτΙ2) + j [(Γ - B) sin(^r/2) + coscts Ls + sin叼 Rs]Rt = R+ VV2 (Τ + B) cos(fiT/2) - j [(T-B) sin(^r/2) + Sinas Ls + cosas(23 )得到的編碼矩陣是對圖IC所示的現(xiàn)有技術(shù)編碼矩陣的擴展,其中,輸入C是可選 的。該編碼矩陣接收由擺動模塊600產(chǎn)生的6個輸入聲道606。輸入聲道Ls,L,R和Rs與 在圖1所示的舊的編碼矩陣中完全一樣地,利用乘法器614和全通濾波器616被處理。該 編碼矩陣還接收兩個另外的聲道T和B,推導出它們的和信號以及差信號,并且向和信號以 及差信號分別應用縮放系數(shù)612,cos(^T/2)和sin(i3T/2)??s放后的和信號以及差信號 隨后通過分別與前方聲道和經(jīng)縮放環(huán)繞輸入聲道組合的系數(shù)被進一步衰減??梢栽诒景l(fā)明 的范圍內(nèi)通過在W,^ ]內(nèi)為β工選擇任意值而非由等式(18)導出的值,來實現(xiàn)根據(jù)本發(fā) 明的相位_幅度矩陣化環(huán)繞編碼方案替代實施例。將收聽球體映射到Scheiber球體3D位置擺動模塊(600)和3D立體聲編碼矩陣610的組合效果是將收聽球體上的 預期定位(氏識)映射到Scheiber球體上的概念位置(α,β)。這種映射可以通過設(shè)置先前 定義的角度參數(shù)的值來進行配置θ F在
內(nèi);θ s在[π /2,π ]內(nèi);σ s在
內(nèi);并且
內(nèi)。這種映射的兩個示例在圖5Α和5Β中示出。對這些參數(shù)的設(shè)置 確定了根據(jù)本發(fā)明的編碼-解碼方案與舊的矩陣化環(huán)繞解碼器和經(jīng)矩陣編碼的內(nèi)容的兼 容性。例如,舊的兼容的編碼器可以通過設(shè)置eF = 30°,es = iio°,Os = 29°,并且 根據(jù)等式(18)導出^^來實現(xiàn)??赡艿木幋a方案范圍還可以通過在應用等式(20)或(23) 之前,引入W,η/4]內(nèi)的前方編碼角參數(shù)σρ并且將L和R分別用(cos σ FL+sin ο fR)和 (cosoFR+sinoFL)替代而得到擴展。在舊的兼容的編碼矩陣實施例中,σ F = 0并且聲道 L和R無修改地被分別傳遞給經(jīng)編碼聲道Lt和RT。
此外,很容易在本發(fā)明的范圍內(nèi)擴展上述優(yōu)選實施例,以使用替代優(yōu)選的6聲道 格式(Ls,L,Τ, B, R,Rs)的任何中間的P-聲道格式(C1, C2,... Cp...),其被關(guān)聯(lián)到水平平面 中的附加或備選中間聲道位置或收聽球體上任何位置,其利用任何2D或3D多聲道 擺動技術(shù)來實現(xiàn)每個聲源信號Sm的多聲道位置擺動模塊,并且根據(jù)由等式(21,23)或(21, 20)定義的擺動和編碼方案將每個中間聲道Cp編碼為具有定位(^,識;^的3D源。替代地,在本發(fā)明的另一實施例中,聲源在收聽球體上的定位根據(jù)Duda-Algazi 角坐標系統(tǒng)來表達,其中,方位角μ是在包含源以及左右耳朵軸的平面中測得的,并且 仰 角ν量度該平面相對于左右耳朵軸的旋轉(zhuǎn)。在此情況中,定位坐標μ和ν可分別被映射到 幅度擺動角α和聲道間相位差角β。一個實施例包括設(shè)置α = μ并且β = ν,在此情 況中,收聽球體等同地映射到Scheiber球體,并且相位-幅度3D立體聲編碼通過應用等式 (17)來直接實現(xiàn)。容易清楚,無論所選擇的從定位到Scheiber球體上的編碼位置的映射如何,通過 將編碼系數(shù)L(am,βω)和L(am,β m)應用于聲源信號Sm的頻域表示,可以在頻域中實現(xiàn)根 據(jù)本發(fā)明的對信號的相位_幅度立體聲編碼。周圍編碼在本發(fā)明的優(yōu)選實施例中,交互式相位_幅度立體聲編碼器包括用于將空間上擴 散的周圍分量和混響分量結(jié)合在兩聲道經(jīng)編碼輸出信號{LT,RT}中的裝置。讓我們假設(shè)空間音頻場景僅包含周圍分量。在現(xiàn)有技術(shù)的矩陣化環(huán)繞解碼器中, 這種狀況與零主導性相關(guān)聯(lián),并且在信號Lt和Rt不相關(guān)并且能量相等時(其與傳統(tǒng)立體聲 記錄中的周圍分量的信號性質(zhì)一致)出現(xiàn)。在這些狀況中,現(xiàn)有技術(shù)的多聲道矩陣化環(huán)繞 解碼器落入其無源解碼行為,該行為具有將信號能量散布在環(huán)繞聲道中的效果。這是針對 矩陣化環(huán)繞解碼器和音樂上混器兩者的所希望的性質(zhì)。然而,利用遵循等式(1)的現(xiàn)有技術(shù)時域矩陣編碼器的任何矩陣化環(huán)繞編碼-解 碼系統(tǒng)的缺點在于由解碼器再現(xiàn)的周圍聲音場景的空間分布與原始記錄不一致其表現(xiàn) 出朝向后方聲道Ls和Rs的顯著的系統(tǒng)性偏倚。針對主要信號的模擬現(xiàn)象在圖5A和5B中 可見,其中,可看到,具有空Gerzon速度向量的多聲道信號利用較強的負主導性被編碼,較 強的負主導性指示左右經(jīng)編碼信號Lt和Rt之間的較強的負相關(guān)性。在(具有空能量向量 的)擴散的周圍信號的情況中,從前至后的聲道功率比將等于I cos θ s I /cos θ F,如果θ F = 30°并且9S = 110°,則其通過等式(5)將主導性設(shè)置為-0.434,從而使得矩陣化環(huán)繞解 碼器將信號能量大量地擺動到環(huán)繞聲道中去(而不落入其無源行為)。在根據(jù)本發(fā)明的相 位_幅度立體聲編碼器的優(yōu)選實施例中,通過將周圍分量直接混合到相位_幅度編碼器的 兩聲道輸出{LT,RT}中或編碼矩陣610的輸入聲道L和R中來避免這種偏倚(而在現(xiàn)有技 術(shù)的編碼方案中,大量的周圍信號能量將被混合到編碼矩陣的環(huán)繞輸入聲道中)。圖6C示出了根據(jù)本發(fā)明優(yōu)選實施例的交互式相位_幅度3D立體聲編碼器。每個 源Sm生成被先前描述的并在圖6A中示出的擺動模塊600擺動的主要聲音分量,擺動模塊 600向源信號指派定位(九, )。每個擺動模塊600的輸出被添加到主控多聲道總線622,主 控多聲道總線622供給先前描述的且在圖6B中示出的編碼矩陣610。另外,每個源Sm生成 去往混響發(fā)送總線624的貢獻623,總線624供給混響模塊626,由此產(chǎn)生與源信號Sm相關(guān) 聯(lián)的周圍聲音分量?;祉懩K626通過本領(lǐng)域公知的諸如反饋延遲網(wǎng)絡(luò)之類的方法來模擬虛擬房間的混響,并且生成兩個基本上不相關(guān)的混響信號?;祉懩K626的兩個輸出信號 直接被組合到編碼矩陣610的輸出{LT,RT}中。針對每個源信號Sm生成主要聲音分量和周 圍聲音分量的每個源處理模塊623可以包括濾波和延遲模塊629,以利用現(xiàn)有技術(shù)中已知 的方法來在虛擬場景中模擬距離、空氣吸收、源方向性或者由聲學障礙物引起的聲學阻塞 和障礙效果。改講的相位-幅度矩陣化環(huán)繞解碼器
根據(jù)本發(fā)明的一個優(yōu)選實施例,提供了這樣的頻域方法,用于基于對輸入信號中 的2D或3D方向提示的空間分析以及利用任何所選聲音空間化技術(shù)來重新合成這些提示以 用于在任何耳機或揚聲器回放系統(tǒng)上再現(xiàn),從而對諸如音樂記錄和電影或視頻游戲聲軌之 類的兩聲道立體聲信號進行相位_幅度矩陣化環(huán)繞解碼。如將從下面的描述中清楚的,本 發(fā)明使得能夠?qū)碜詢陕暤酪纛l記錄的3D定位提示進行解碼,同時保持與先前描述的現(xiàn) 有技術(shù)的兩聲道僅水平方向的相位_幅度矩陣化環(huán)繞編碼_解碼技術(shù)的向后兼容性。本發(fā)明利用時間/頻率分析和合成框架顯著地改善了矩陣化環(huán)繞解碼器的源分 離性能。執(zhí)行作為時間和頻率兩者的函數(shù)的分析的基本優(yōu)點在于其極大地減小了信號表 示中同時存在或重疊多個源的可能性,并且由此改善了源分離。如果該分析的頻率分辨率 可與人類聽覺系統(tǒng)相比較,則在通過耳機或揚聲器再現(xiàn)解碼器的輸出信號期間,并發(fā)源在 頻域表示中的任何重疊的可能效果基本上被掩蓋。通過對頻域信號進行操作并且結(jié)合主要_周圍分解,根據(jù)本發(fā)明的矩陣化環(huán)繞解 碼器克服了現(xiàn)有矩陣環(huán)繞解碼器在擴散的周圍再現(xiàn)以及方向源分離方面的限制,并且能夠 分析主要聲音分量的主導信息,同時避免因場景中存在周圍分量而引起的混淆,從而經(jīng)由 任何空間再現(xiàn)系統(tǒng)精確地再現(xiàn)2D或3D位置提示。這使得能夠顯著地改善通過耳機或揚聲 器對兩聲道矩陣編碼電影和游戲聲軌或傳統(tǒng)立體聲音樂記錄的空間再現(xiàn)。圖7A是圖示出根據(jù)本發(fā)明一個實施例的相位_幅度矩陣化環(huán)繞解碼器的信號流 程圖。首先,在塊702中根據(jù)相關(guān)領(lǐng)域的技術(shù)人員所知的任何傳統(tǒng)方法來進行時間/頻率 轉(zhuǎn)換,傳統(tǒng)方法包括但不限于利用短時傅里葉變換(STFT)或任何子頻帶信號表示。接下來,在塊704中,主要-周圍分解發(fā)生。這種分解是有利的,因為主要信號分 量(通常為直接路徑聲音)和周圍分量(例如混響或掌聲)通常需要不同的空間分析策 略。主要-周圍分解將兩聲道輸入信號St= {Lt,Rt}分離為其聲道互相關(guān)的主要信號Sp = {PL, PeI以及其聲道互不相關(guān)或弱相關(guān)的周圍信號Sa = {Al, AJ,以使得信號Sp和Sa的組 合重建出信號St的近似,并且信號St中存在的周圍分量的貢獻在主要信號Sp中被顯著減 少。主要_周圍分解的頻域方法在現(xiàn)有技術(shù)中例如由Merimaa等人在Audio Engineering Society (2OO7年 10 月)第 I23 次會議中提出的"Correlation-Based Ambience Extraction from Stereo Recordings,,中進行了描述。主要信號Sp = {PL, PE}隨后在塊706中經(jīng)過定位分析。對于每個時間和頻率,空 間分析導出表示相對于收聽者頭部的物理位置的空間定位向量d。這種定位向量取決于再 現(xiàn)解碼器的輸出信號所需要的模式而可以是三維的或二維的。在三維情況中,定位向量表 示由方位角θ和仰角識表征的、以收聽者為中心的收聽球體上的位置。在二維情況中,定位 向量可用來表示由方位角θ和半徑r表征的、在水平平面上以收聽者頭部為中心的圓圈上 或圓圈內(nèi)的位置。這種二維表示例如能夠使水平多聲道回放系統(tǒng)中的經(jīng)過和穿過聲音軌跡參數(shù)化。在定位分析塊706中,針對每個時間和頻率從出現(xiàn)在信號Sp中的聲道間幅度 和相位差導出空間定位向量d。這些聲道間差值可以根據(jù)等式(17)通過如圖2B所示的 Scheiber球體上的概念位置(α,β)來唯一地表示,其中,α表示幅度擺動角,β表示聲 道間相位差。根據(jù)等式(10)或(17),擺動角α通過下式被與聲道間電平差m= |PL|/|PE| 相聯(lián)系α = 2tan_1 (1/m) - π /2 (24.)根據(jù)本發(fā)明的一個實施例,定位分析塊706的操作包括計算聲道間幅度和相位差,然后從Scheiber球體上的概念位置(α,β)映射到三維物理空間中的方向(<9,識)或二 維物理空間中的位置(Θ,r)。一般地,這種映射可以任意方式來定義,并且甚至可以取決
于頻率。根據(jù)本發(fā)明的另一實施例,主要信號Sp根據(jù)矩陣編碼等式(9,10)或(9,17)被建 模為基本單音源信號SmW混合,其中,每個源的概念編碼位置(αω,βω)是根據(jù)物理或虛擬 空間聲音場景中的二維或三維定位由已知的雙射(bijective)映射來定義的。這樣的混合 例如可以通過音頻混合工作站或者通過例如在圖IA或圖6C所示的視頻游戲系統(tǒng)中找到的 交互式音頻呈現(xiàn)系統(tǒng)來實現(xiàn)。在這種應用中,實現(xiàn)定位分析塊706以使得所導出的定位向 量通過反轉(zhuǎn)由矩陣編碼方案實現(xiàn)的映射而被獲得是有利的,從而使得對解碼器輸出信號的 回放忠實地再現(xiàn)原始空間聲音場景。在本發(fā)明另一實施例中,在每個時間和頻率處,通過根據(jù)等式(5)計算主導向量 并且應用從編碼圓中的主導向量位置到水平收聽圓中的物理位置(Θ,r)的映射(如圖2A 所示并且在圖5A和5B中舉例說明的),來執(zhí)行定位分析706。替代地,隨后可通過從收聽
圓垂直投影到收聽球體來將主導向量位置映射到三維定位汐,識),如下
爐= cos_1(r)sign(>l9)(25.)其中,聲道間差值β的符號用來將上半球體從下半球體區(qū)分開。塊708通過將由定位分析706導出的空間提示707應用于主要信號Sp來在頻域中 實現(xiàn)對解碼器輸出信號中的主要分量的空間分析。多種方法可用于對來自單音信號的主要 分量進行空間分析(或“參數(shù)化”),包括ambisonic或雙耳技術(shù)以及傳統(tǒng)的幅度擺動方法。 在本發(fā)明的一個實施例中,通過傳統(tǒng)的單聲道下混來在每個時間和頻率處導出單聲道主要 信號P,其中,戶=ν Τ2(Ρ, + Pr)。在另一實施例中,單聲道信號P的計算通過應用針對概念 位置(α,β )(從在定位分析塊706中計算出的聲道間幅度和相位差導出的)的無源解碼 等式,來使用取決于時間和頻率的下混系數(shù)P = L*(a , β )PL+R*(a , β )PR (26.)其中,L*(a,β)禾PR*(a,β)分別表示由等式(17)表達的左右編碼系數(shù)的復數(shù) 共軛L*(a , β) = cos (a/2+31/4) 0/2R*(a , β) = sin(a/2+3i/4)eje/2· (27.)一般地,在主要分量合成塊708中使用的空間化方法應當尋求使經(jīng)空間化的聲源 的所感知定位的離散度最大化。另一方面,對于周圍分量,在塊710中實現(xiàn)的空間分析方法應當尋求再現(xiàn)(或者甚至增強)聲音分量的空間散布或擴散性。如圖7A所示,在塊710中 生成的周圍輸出信號被添加到在塊708中生成的主要輸出信號。最后,在塊712中例如通 過使用逆STFT來進行頻率/時間轉(zhuǎn)換,以便產(chǎn)生解碼器輸出信號。在本發(fā)明的替代實施例中,省略了主要-周圍分解704以及周圍分量的空間分析 710。在此情況中,定位分析706直接被應用給輸入信號{LT,RT}。在本發(fā)明的又一實施例中,省略了時間-頻率轉(zhuǎn)換塊702和712以及周圍處理塊 704和710。盡管進行了這些簡化,然而,根據(jù)本發(fā)明的矩陣化環(huán)繞解碼器可以通過使能矩 陣編碼信號表示與經(jīng)再現(xiàn)聲音場景之間的任意2D或3D空間映射,來明顯地提供相對于現(xiàn) 有技術(shù)矩陣化環(huán)繞解碼器的顯著改進。空間分析 對主要信號Sp = {&,PJ的空間分析根據(jù)任何所選多聲道音頻輸出格式或空間再 現(xiàn)技術(shù),在每個時間和頻率處產(chǎn)生了將在主要信號分量的空間分析中使用的、由方位角θ 和仰角識或半徑r標征的獨立于格式的空間定位向量d。在一個實施例中,假設(shè)根據(jù)先前由等式(20,21)或(21,23)定義的并在圖6A和6B 中圖示出的相位-幅度3D位置編碼方法,利用稱為先驗的編碼器參數(shù)θ F,θ5,
的值來對輸入信號St = {LT,RT}編碼。這定義了從由汐,爐)或(θ,r)表征的預期定位d到 由(α,β)標準的主導δ的唯一映射,如圖5Α或圖5Β所示。通過應用相對應的逆映射, 空間分析可在每個時間和頻率處從由等式(5)計算出的主導δ中恢復定位d。在優(yōu)選實施例中,這種逆映射是通過在給定主導向量δ的坐標Sy的情況 下由返回方位角θ和半徑!·的值的查找表方法來實現(xiàn)的。查找表如下這樣來生成(a)對于對所有可能定位值(久識)的高密度采樣,其中,θ均勻地在W,2Ji]內(nèi)采 樣并且識均勻地在W,JI ]內(nèi)采樣,通過應用等式(20,21)或(21,23)來計算左右編碼系數(shù)
妁和盡(民識),并且通過應用等式(5)來從妁和柊(氏妁導出主導向量的坐標 么(權(quán),妁和冬(仏識)。(b)根據(jù)以“頂部”編碼位置T(對于任何值的θ當r=o時得到的主導位置)為 中心的經(jīng)修改主導坐標系統(tǒng)(θ ‘ , r')來定義對編碼圓中的主導位置的采樣,以使得當 r'均勻地從0遞增到1時,主導位置在從點T到編碼圓的邊緣上由外圍編碼等式(10)在 以Θ'為方位角時定義的點的直線段上線性地遞增。形成第一二維查找表,其對于均勻采 樣S ,和Sy的值返回最近的采樣位置(Θ ‘,r')。(c)對于每個所采樣的主導位置(θ ‘ ,r'),記錄與在步驟(b)獲得的主導位置 中的最近的主導位置相對應的定位值(仏識)。對于落在側(cè)面頂點(L-Ls)和(R-Rs)以外的位 置(Θ' , r'),記錄識=0,并且通過選擇將每個徑向擺動軌跡連接到圓邊緣上其相應的外 圍編碼位置的最近延長線段(圖5A或5B中的虛線段)來確定θ。形成第二二維查找表, 其針對每個采樣主導位置(Θ ‘ , r')返回汐,爐),其中,θ ‘均勻地在
內(nèi)采樣并 且r'均勻地在W,l]內(nèi)采樣。在優(yōu)選實施例中,用于根據(jù)主導(δ x,5y)對定位汐,識)進行空間分析的逆映射操 作在如下兩個步驟中執(zhí)行利用第一表導出(θ ‘ , r')并且隨后利用第二表獲得汐,爐)。 這種兩步處理的優(yōu)點在于其確保了在無需采用極大的查找表的情況下高精度地估計定位坐標θ和爐,而不管映射函數(shù)嚴重地不統(tǒng)一并且在編碼圓的一些區(qū)域中非常“陡峭”(如在 圖5Α或圖5Β中可見的)的事實。在針對2D矩陣化立體聲解碼器的空間分析實施例中,通過取r=COS識來從(6>,識)導 出2D定位(θ,r)。在針對3D相位-幅度立體聲解碼器的空間分析實施例中,用sign(i3) 表示的聲道間相位差β的符號被計算,以便選擇上半球體或下半球體,并且如果β為負的 話,則用識的相反值來取代識。β的符號可從每個時間和頻率處的信號1\和Pk的復數(shù)值來 計算,而無需明確地計算其相位差β sign(3) = sign(Im(PL Pk*)) (28.)其中,signC )對于絕對負值為-1否則為1。Im(.)表示虛部,并且*表示復數(shù)共軛。空間分析圖7B是示出根據(jù)本發(fā)明一個實施例的用于多聲道揚聲器再現(xiàn)的相位_幅度矩陣 化環(huán)繞解碼器的信號流程圖。塊702中的時間/頻率轉(zhuǎn)換、塊704中的主要-周圍分解以 及塊706中的定位分析如前述那樣執(zhí)行。當塊707中給出依賴于時間和頻率的空間定位提 示時,塊708中對主要分量的空間合成將主要信號Sp= {PL,PE}提供給N個輸出聲道,其中, N對應于塊714中換能器的數(shù)目。在圖7B的實施例中,N = 4,然而該合成可應用于任何數(shù) 目的輸出聲道。此外,塊710中對周圍分量的空間合成將周圍信號Sa = {Al, Ae}提供給相 同的N個輸出聲道。在塊705的一個實施例中,主要無源上混形成了對其輸入信號Sp= {PL,PE}的單聲 道下混,并且向其輸出聲道中的每個填入這種下混。在一個實施例中,表示為P的單聲道主 要下混信號是通過針對Scheiber球體上的依賴于時間和頻率的編碼位置(α,β )應用無 源解碼等式(26)來導出的,該Scheiber球體是由在空間分析塊706中計算出的主導向量 δ和sign(i3)確定的??臻g分析然后包括在每個時間和頻率處利用基于空間提示707, 即d = (Θ,r)或 / =(仏識)計算出的增益因子來對塊709中的塊705的輸出聲道重新加權(quán)。在上混兩聲道信號時利用中間單聲道下混可能導致不希望的空間“泄露”或串擾 作為因并發(fā)源的頻域重疊引起的空間模糊的結(jié)果,排它地出現(xiàn)在左輸入聲道PL中的信號 分量可能對右側(cè)的輸出聲道作出貢獻。盡管這種重疊可通過適當選擇頻域表示來最小化, 然而,最好通過向輸出聲道填入已在解碼器輸入信號中提供的、保持空間分離的信號組來 使其對再現(xiàn)出的場景的潛在影響最小化。在塊705的另一實施例中,主要無源上混根據(jù)等 式(4)執(zhí)行成為N個輸出信號的無源矩陣解碼,如下對于η = 1...Ν, Pn = L*(an, ^n)PL+R*(an, β n) Pe (29.)其中,(α η,β n)對應于Scheiber球體上輸出聲道η的概念位置。得到的N個信 號隨后在塊709中利用基于空間提示707計算出的增益因子來重新加權(quán)。在塊709的一個 實施例中,每個聲道的增益因子是通過基于定位向量d和輸出格式導出每個時間和頻率處 的多聲道擺動系數(shù)來確定的,輸出格式可以由用戶輸入來提供或者通過自動估計來確定。在解碼器輸入信號St = {LT,RT}是根據(jù)本發(fā)明實施例生成的矩陣編碼信號并且解 碼器輸出格式精確地對應于由前方聲道方位角θ F和環(huán)繞聲道方位角θ s表征的4聲道布 局(Ls,L,R,Rs)的情況中,空間分析塊708的實施例可以重建原始的主要信號分量組(Ls, L,R,RS)就好像未進行中間矩陣編碼-解碼一樣(假設(shè)主要-周圍分解704已從信號Sp ={PL, Pr}成功地提取出所有周圍信號分量并且假設(shè)并發(fā)聲源在所選時間-頻率信號表示中 被完美地分離),其中,在空間分析塊708中,在塊705中根據(jù)等式(26,27)生成單聲道下 混信號并且在塊709中根據(jù)先前描述的2D外圍-徑向擺動方法來通過輸出聲道(Ls,L,R, Rs)擺動該下混信號。類似地,根據(jù)本發(fā)明的頻域空間合成塊708的實施例可以利用任何聲音空間化或 位置音頻呈現(xiàn)技術(shù)來實現(xiàn),由此,單聲道信號被指派給收聽球體上的3D定位汐,爐)或收聽圓 上的2D定位(θ,r),以用于通過揚聲器或耳機進行空間再現(xiàn)。這種空間化技術(shù)包括但不限 于幅度擺動技術(shù)(例如VBAP)、雙耳技術(shù)、ambisonic技術(shù)以及波場合成技術(shù)。利用幅度擺 動技術(shù)的頻域空間合成方法在題為“Spatial Audio Coding Based on UniversalSpatial Cues”的美國專利申請No. 11/750, 300中進行了更詳細地描述。利用雙耳技術(shù)、ambisonic 技術(shù)、波場合成技術(shù)或基于聲道間幅度和相位差的其它空間化技術(shù)的頻域空間合成方法在 2008 年 10 月 1 日提交的題為 “Spatial Audio Analysis and Synthesis for Binaural Reproduction and FormatConversion"的美國申請中作了進一步描述,該申請通過引用被圖7B中的塊713圖示出了對周圍分量的空間合成的一個實施例。一般地,對周圍 分量的空間合成應當尋求再現(xiàn)(或者甚至增強)相應聲音分量的空間散布或擴散性。在塊 713中,周圍無源上混首先基于給定的輸出格式將周圍信號{‘AJ分配給該塊的每個輸出 信號。在一個實施例中,維持針對在左右方向上對稱的輸出聲道對的左右分離。即,慫被 分配給這樣的對中的左聲道并且Ak被分配給右聲道。對于非對稱聲道配置,用于信號{~, AJ的無源上混系數(shù)可以通過利用應用于{AK,AJ而非{P。PJ的等式(29)的無源上混來 獲得。然后對每個聲道加權(quán),以使得輸出信號的總能量與輸入信號的相匹配,并且以使得根 據(jù)等式(6)和(8)計算出的所得到的Gerzon能量向量的大小為零??梢酝ㄟ^假設(shè)慫和Ak 具有相同的能量并且應用在題為“Spatial Audio Coding Based on Universal Spatial Cues”的美國專利申請No. 11/750,300 (通過引用被結(jié)合于此)中指定的方法,單獨基于輸 出格式來計算權(quán)重系數(shù)一次。通過揚聲器對周圍分量進行感知上精確的多聲道空間再現(xiàn)要求周圍輸出信號相 互不相關(guān)。這可以通過在周圍輸出聲道信號與主要輸出聲道信號組合之前對周圍輸出聲道 信號中的至少一些應用全通(或者基本上全通)“去相關(guān)濾波器”(或“去相關(guān)器”)來實 現(xiàn)。在圖7B的塊710中對周圍分量的空間合成的一個實施例中,經(jīng)無源上混的周圍信號在 塊713中被去相關(guān)。在塊713的一個實施例中,取決于無源上混塊711的操作,向周圍信號 的子集應用全通濾波器以使得塊713的所有輸出聲道被相互去相關(guān)。相關(guān)領(lǐng)域的技術(shù)人員 已知的任何其它去相關(guān)方法也可類似地實施,并且去相關(guān)處理還可以包括延遲元件。最后,與N個輸出信號中的每個相對應的主要和周圍信號被相加并且在塊712中 被轉(zhuǎn)換到時域。時域信號隨后被引導至N個換能器714。所述的矩陣化環(huán)繞解碼方法使得通過耳機或揚聲器再現(xiàn)兩聲道杜比環(huán)繞電影聲 軌的空間質(zhì)量得到了顯著的改善。實際上,本發(fā)明使能了與通過直接離散多聲道再現(xiàn)或通 過諸如杜比數(shù)字或DTS之類的離散多聲道編碼-解碼技術(shù)提供的收聽體驗非常近似的收聽 體驗。此外,所述解碼方法使得能夠不僅通過最初假設(shè)的目標多聲道揚聲器布局而且通過 在輸出聲道數(shù)目、其定位以及空間呈現(xiàn)技術(shù)方面具有充分的靈活性的耳機或揚聲器來忠實地再現(xiàn)原始空間聲音場景。改講的多聲道矩陣化環(huán)繞編碼器
圖8是圖示出根據(jù)本發(fā)明一個實施例的相位_幅度立體聲編碼器的信號流程圖, 其中,多聲道源信號是以已知的空間音頻記錄格式提供的。首先,在塊802中進行時間/頻 率轉(zhuǎn)換。例如,可以利用STFT來生成頻域表示。接下來,在塊804,根據(jù)任何已知的或傳統(tǒng) 的方法來進行主要_周圍分解。在塊806中進行對信號的主要分量的矩陣編碼,然后添加 周圍信號。最后,在塊808中,例如通過利用逆STFT來進行頻率/時間轉(zhuǎn)換。該方法確保 了周圍信號分量是以不相關(guān)信號對的形式被編碼的,不相關(guān)信號對確保了矩陣解碼器將以 充分擴散的空間分布來呈現(xiàn)它們。在一個實施例中,多聲道源信號是具有與圖IA所示的揚聲器布局相對應的標準 “3-2立體聲”格式(LS,L,C,R,RS)的5聲道信號,并且塊806中對主要分量的矩陣編碼是 根據(jù)在每個時間和頻率處應用的等式(1)來執(zhí)行的。在替代實施例中,多聲道源信號是以 P-聲道格式((^,(:2,... ...)提供的,其中,每個聲道Cp希望通過位于定位( , ^)處的揚
聲器來再現(xiàn),并且通過下式來執(zhí)行塊806中的矩陣編碼Lt =Σ pL(ap, β p) CpRt =Σ pR(ap,βρ) (30.)其中,(a p,β p)是通過將每個定位( ,映射到Scheiber球體上其對應的概念 編碼位置(αρ,βρ)而導出的,并且相位_幅度編碼系數(shù)L(ap,βρ)和R(ap,β p)是由等 式(17)給出的。替代地,編碼系數(shù)可以通過等式(20)或通過任何所選擇的定位至主導映 射協(xié)定來導出。在主要矩陣編碼塊806的其它實施例中,空間定位提示(仏識)是在每個時間和頻 率處通過對主要聲道信號進行空間分析導出的,并且相位-幅度編碼系數(shù)L(a,β)和 R(a,β)是通過如前所述的將汐,識)映射到(α,β)來獲得的。在一個實施例中,這種映 射是通過在每個時間和頻率處應用由等式(20,21)或(21,23)以及圖6Α、6Β描述的編碼 方案來實現(xiàn)的??臻g分析可以通過各種方法來執(zhí)行,這些方法包括DirAC方法或者在題為 "entitIedSpatial Audio Coding Based on Universal Spatial Cues,,的共同待決美國專 利申請No. 11/750,300中描述的空間分析方法。雖然為了清楚理解的目的以一些細節(jié)描述了前面的發(fā)明,然而將清楚,可以在所 附權(quán)利要求的范圍內(nèi)實施某些改變和修改。因此,這些實施例將被認為是說明性的而非限 制性的,并且本發(fā)明不局限于這里給出的細節(jié),而是可以在所附權(quán)利要求的范圍和等同物 內(nèi)被修改。
權(quán)利要求
一種用于對被指派給相對于收聽者位置的定位的至少一個音頻源信號進行兩聲道相位幅度立體聲編碼的方法,該方法包括通過從所述定位導出的擺動系數(shù)來縮放所述至少一個音頻輸入源,以生成與所需要的多聲道格式相對應的多聲道信號;以及對所述多聲道信號進行矩陣編碼以生成兩聲道編碼信號,以使得該至少一個源的定位由所述兩聲道編碼信號中的聲道間相位和幅度差來表示;使得無論所指派的定位如何,所述兩聲道編碼信號中的源產(chǎn)生的總功率等于所述音頻源信號的功率。
2.如權(quán)利要求1所述的方法,其中,縮放所述至少一個音頻輸入源是通過從所述定位 導出的獨立于頻率的編碼系數(shù)來執(zhí)行的,以生成兩聲道編碼信號,使得所述至少一個源的 位置由所述兩聲道編碼信號中的聲道間相位和幅度差來表示,并且方法還包括從未經(jīng)定 位的音頻源信號生成第一未經(jīng)定位音頻信號和第二未經(jīng)定位音頻信號,以使得第一音頻信 號和第二音頻信號基本不相關(guān),從而使得所述定位包括方位角和仰角。
3.如權(quán)利要求1所述的方法,其中,擺動系數(shù)是通過利用基于向量的幅度擺動(VBAP) 技術(shù)從方位角導出的。
4.如權(quán)利要求1所述的方法,其中,所述縮放容納與位于收聽平面之上的上半球體相 對應的頂部聲道以及位于所述收聽平面之下的底部聲道。
5.如權(quán)利要求1所述的方法,其中,所述縮放產(chǎn)生了六聲道信號,并且其中,所述六聲 道信號被矩陣編碼為兩聲道相位_幅度立體聲編碼信號。
6.如權(quán)利要求1所述的方法,其中,所述至少一個音頻源信號包括多個源,并且其中, 每個源的經(jīng)縮放多聲道信號在矩陣編碼之前被組合。
7.一種用于對被指派給相對于收聽者位置的定位的至少一個經(jīng)定位音頻源信號以及 至少一個未經(jīng)定位音頻源信號進行兩聲道相位幅度立體聲編碼的方法,該方法包括通過從所述定位導出的獨立于頻率的編碼系數(shù)來縮放至少一個音頻輸入源以生成兩 聲道編碼信號,使得所述至少一個源的位置由所述兩聲道編碼信號中的聲道間相位和幅度 差來表示;從所述未經(jīng)定位音頻源信號生成第一未經(jīng)定位音頻信號和第二未經(jīng)定位音頻信號,使 得第一音頻信號和第二音頻信號基本不相關(guān);以及將所述第一音頻信號和所述第二音頻信號分別添加到第一編碼聲道信號和第二編碼 聲道信號。
8.一種用于對被指派給相對于收聽者的三維空間中的定位的至少一個經(jīng)定位音頻源 信號進行兩聲道相位幅度立體聲編碼的方法,該方法包括通過從所述定位導出的獨立于頻率的編碼系數(shù)來縮放所述至少一個音頻輸入源以生 成兩聲道編碼信號,以使得所述至少一個源的位置由所述兩聲道編碼信號中的聲道間相位 和幅度差來表示;從未經(jīng)定位音頻源信號生成第一未經(jīng)定位音頻信號和第二未經(jīng)定位音頻信號,以使得 第一音頻信號和第二音頻信號基本不相關(guān);使得所述定位包括上下維度、左右維度和前后維度。
9.一種用于從具有第一聲道信號和第二聲道信號的音頻輸入信號中導出三維經(jīng)編碼定位提示的方法,該方法包括 (a)將所述第一聲道信號和所述第二聲道信號轉(zhuǎn)換為包含多個時間-頻率拼貼的頻域 或子頻帶表示;以及(b)通過考慮所述第一聲道信號和所述第二聲道信號之間的聲道間幅度差和聲道間相 位差來導出所述多個時間_頻率拼貼中的每個時間_頻率拼貼的方向;以使得所述定位提示包括上下維度、左右維度和前后維度。
10.如權(quán)利要求9所述的方法,其中,所述定位提示包括方位角和仰角。
11.如權(quán)利要求9所述的方法,其中,導出每個時間-頻率拼貼的定位包括將聲道間 差映射到概念球體上或概念圓內(nèi)的位置,以使得所述聲道間相位差映射到沿著前后軸的位 置坐標。
12.如權(quán)利要求9所述的方法,其中,通過對具有多聲道空間提示的多聲道記錄進行相 位-幅度矩陣編碼來獲得所述輸入信號,并且所導出的經(jīng)編碼空間提示與所述多聲道記錄 的多聲道空間提示基本匹配。
13.如權(quán)利要求9所述的方法,還包括將所述音頻輸入信號中的周圍聲音分量與主要 聲音分量相分離,并且僅導出所述主要聲音分量的方向。
14.如權(quán)利要求9所述的方法,還包括將頻域信號分解成為主要分量和周圍分量,并 且為所述主要分量的每個時間和頻率確定表示相對于收聽者頭部的物理位置的空間定位 向量,所述定位向量至少由方位角表征,其中,所述方位角是針對每個時間和頻率從出現(xiàn)在 立體聲信號的主要分量中的聲道間相位和幅度差導出的。
全文摘要
兩聲道相位-幅度立體聲編碼和解碼方案使得能夠經(jīng)由標準的僅音頻的兩聲道傳輸來進行靈活地在空間上精確地交互式3D音頻再現(xiàn)。該編碼方案允許通過利用獨立于頻率的聲道間相位和幅度差來將2D或3D位置定位關(guān)聯(lián)到多個聲源中的每個。解碼器是基于利用任何優(yōu)選的空間化技術(shù)對兩聲道立體聲信號中的2D或3D方向提示進行頻域空間分析并且重新合成這些提示的,從而允許通過任意多聲道揚聲器再現(xiàn)格式或通過耳機來忠實地再現(xiàn)位置音頻提示和混響或周圍提示,同時保持源分離,而不管僅通過兩個音頻聲道的中間編碼如何。
文檔編號G10L19/00GK101889307SQ200880119420
公開日2010年11月17日 申請日期2008年10月6日 優(yōu)先權(quán)日2007年10月4日
發(fā)明者吉恩-馬克·喬特, 朱華·奧斯卡里·麥里瑪, 愛德華·斯坦, 邁克爾·M·古德溫, 馬丁·沃什 申請人:創(chuàng)新科技有限公司