選擇跨越音頻對(duì)象的第一頓到最 后一頓的最佳位置。全局成本函數(shù)考慮了針對(duì)一個(gè)頓的候選位置中的每個(gè)位置W及針對(duì)下 一頓的候選位置中的每個(gè)位置之間的距離,并旨在通過(guò)考慮在每對(duì)相鄰的頓之間的距離的 總和而確定音頻對(duì)象從第一頓到最后一頓的多個(gè)估計(jì)位置。作為結(jié)果,最佳路徑由該多頓 跟蹤處理構(gòu)成作為估計(jì)軌跡。該處理可W被稱為多頓跟蹤處理,其適用于對(duì)應(yīng)關(guān)系法和混 合法W用于獲得平滑的軌跡。另一方面,可W應(yīng)用對(duì)全部頓的估計(jì)位置的簡(jiǎn)單平滑化到能 量加權(quán)法。
[0081] 針對(duì)第f頓的候選位置組可W被表示為,f = 1,. . .,F(xiàn),其由Μ(巧個(gè)候選位置 pf構(gòu)成。在一個(gè)實(shí)施例中,cf可由下面的公式計(jì)算:
[0082]
(6)
[0083] 候選位置組的大小可W隨頓改變。如圖5所示,多頓跟蹤處理的目的是尋求從第 一頓到最后一頓的軌跡。在每一頓,從候選位置中選出僅僅一個(gè)候選位置。在針對(duì)多個(gè)頓 的估計(jì)位置被確定后,可W基于所選擇的估計(jì)位置自動(dòng)生成軌跡??偠灾?,多頓跟蹤處理 針對(duì)多個(gè)頓中的每個(gè)頓選擇最佳位置,并且針對(duì)多個(gè)頓中的每個(gè)頓的估計(jì)位置的選擇相對(duì) 于多個(gè)頓中其余的頓被全局地優(yōu)化。
[0084] 為了尋求最佳的軌跡,在一個(gè)實(shí)施例中,可W通過(guò)最小化目標(biāo)函數(shù)來(lái)優(yōu)化,如W 下:
[0085]
(7)
[0086] 其中pf G i表示候選位置在第一頓的指數(shù),即i = 1,2, ...,M(f) ;f = 1,2, . . .,F(xiàn) ;j表示候選位置在第二頓的指數(shù),即,j = 1,2, . . .,M(f) ;f = 1,2,..., F ;m表示候選位置在最后一頓的指數(shù),即,m = 1,2, ...,M(f) ;f = 1,2, ...,F(xiàn);而其中
表示預(yù)定義的成本函數(shù),測(cè)量軌跡產(chǎn)生的成本量。
[0087] W上優(yōu)化試圖從M(l) XM似X. . . XM(巧個(gè)
的可能的組合中用 最小的成本值尋求最佳軌跡。成本函數(shù)的定義取決于具體的要求。例如,在一個(gè)實(shí)施例中, 成本函數(shù)可被定義為:
[0088]
(8)
[008引其I
表示在位置與p/+i之間的距離。
[0090] 通過(guò)計(jì)算所有可能的距離,可W生成平滑的軌跡。在一個(gè)實(shí)施例中,如果存在對(duì)于 多個(gè)頓中的一個(gè)頓希望經(jīng)過(guò)特定的候選位置的預(yù)定義偏好,一組成本cf可W被分配到送些 候選位置,并且在一個(gè)實(shí)施例中,公式(8)將變?yōu)椋?br>[0091]
(9)
[0092] 例如,在一個(gè)實(shí)施例中,成本cf的定義可W是:
[009引
(10)
[0094] 其中df表示在第f頓在第i個(gè)候選平移向量(或增益向量)與所計(jì)算的平移向 量(或增益向量)之間的距離,函數(shù)h是一類函數(shù),其值隨著df的值的增加而減小,例如, 在一個(gè)實(shí)施例中
并且δ表示在h與公式巧)於
之 間的平衡因子。
[0095] 可替代地,在另一個(gè)實(shí)施例中,如果存在選擇特定軌跡的偏好,一組權(quán)重可W 被添加到公式(8)中W用于使軌跡傾向于通過(guò)特定的候選位置,并且在一個(gè)實(shí)施例中,成 本函數(shù)可W被改寫(xiě)為:
[009引
(U)
[0097] 其中表示針對(duì)第f頓從位置i跳到位置j的偏好。
[009引值趙低,選擇路徑i 一 j的可能性越高。在極端的情況下,的值可W被設(shè) 置為無(wú)窮大,送意味著從位置i跳到位置j是最不希望的。因?yàn)楣剑?0)中的部分 地表示經(jīng)過(guò)候選位置的置信度得分,在一個(gè)實(shí)施例中,可W通過(guò)下面的公式導(dǎo)出:
[0099]
(12)
[0100] 通將cf代入公式(9)或?qū)⒋牍剑?1),能夠依據(jù)由針對(duì)音頻對(duì)象的多個(gè)頓 的所有候選位置所形成的所有可能的軌跡的優(yōu)選軌跡確定估計(jì)位置。優(yōu)選軌跡通過(guò)使得針 對(duì)多個(gè)頓中的至少一個(gè)頓的候選位置中的至少一個(gè)位置傾向于被選擇為估計(jì)位置而獲得。
[OW] 因?yàn)榭偣灿蠱(l) XM似X. . . XM(巧個(gè)...,Ρ友)的候選組合,它需要大 量的計(jì)算來(lái)列舉每個(gè)可能的軌跡W獲得在針對(duì)多個(gè)頓中每相鄰的兩個(gè)頓的候選位置之間 的距離的最小總和??蓋應(yīng)用多種動(dòng)態(tài)編程技術(shù)w最小化生成最佳軌跡的計(jì)算。在一個(gè)實(shí) 施例中,一種送樣的技術(shù)可W是:
[0102] ?初始4·
i = 1,...,M(l),其中c/巧儲(chǔ)高至第f頓的第i個(gè)候 選位置的最小累計(jì)成本值,W及巧儲(chǔ)第(f-1)頓的位置的指數(shù),從中c/的值是最小的。 [010引 ?對(duì)于f = 2至F
[0104] 1.計(jì)算在第f頓從第i個(gè)位置跳到第j個(gè)位置的成本,即
[0105] 2.通過(guò)
計(jì)算高至第f頓的第j個(gè)位置的最小累計(jì)成本, 并通過(guò)
存儲(chǔ)第(f-1)頓的位置的指數(shù)。
[0106] ?結(jié)束
[0107] ?利用
技現(xiàn)在最后頓的最小成本位置S最小成本路徑的位 置的指數(shù)可W由下面的反向公式組成:
[010 引
[0109] ?因而最佳路徑可表示義
[0110] 在一個(gè)實(shí)施例中,在步驟S204的維度轉(zhuǎn)換處理可W基于音頻對(duì)象的內(nèi)容類型W 及針對(duì)多個(gè)頓的每個(gè)頓的估計(jì)位置中的至少一個(gè)被用來(lái)將針對(duì)多個(gè)頓中的每個(gè)頓的估計(jì) 位置從二維格式轉(zhuǎn)換為Η維格式,或通過(guò)從估計(jì)位置中移除一個(gè)維度的信息將針對(duì)多個(gè)頓 的每個(gè)頓的估計(jì)位置從3D格式轉(zhuǎn)換為2D格式。
[0111] 隨著音頻處理技術(shù)的進(jìn)步,通過(guò)添加若干頂置揚(yáng)聲器,由多聲道格式的音頻內(nèi)容 創(chuàng)建的音頻場(chǎng)景從2D平面逐漸演變?yōu)?D空間。因?yàn)槔萌舾身斨寐暤赖?D音頻場(chǎng)景提 供了更逼真的聽(tīng)覺(jué)體驗(yàn),估計(jì)針對(duì)音頻對(duì)象的3D軌跡是理想的。大多數(shù)的音頻內(nèi)容不包含 高度信息,因?yàn)榇蠖鄶?shù)市場(chǎng)上的多聲道格式的內(nèi)容是基于環(huán)繞5. 1或環(huán)繞7. 1的。其結(jié)果 是,估計(jì)軌跡只能在2D平面上生成。為了將送些音頻內(nèi)容從2D格式擴(kuò)展至3D格 式,期望增加的高度維度zf。
[0112] 高度的增加可手動(dòng)地完成或通過(guò)應(yīng)用一些經(jīng)驗(yàn)法則自動(dòng)地完成。送些法則或者是 從混音師的共同行為所啟發(fā),或者是在當(dāng)前的道染技術(shù)的限制下得到。例如,在一個(gè)實(shí)施例 中,如果音頻對(duì)象的估計(jì)位置位于靠近空間的中必,可W通過(guò)將高度設(shè)定為預(yù)定義值而不 管其內(nèi)容類型而將該音頻對(duì)象放置到頂置揚(yáng)聲器。送可W從混音師的共同行為中得到,因 為如果混音師理解某音頻對(duì)象為要被頂置揚(yáng)聲器所播放,他通常會(huì)有意地將該音頻對(duì)象布 置在空間的中必。
[0113] 在另一個(gè)實(shí)施例中,若音頻對(duì)象的估計(jì)位置接近空間的邊或壁,則針對(duì)該音頻對(duì) 象的高度可W被設(shè)置為零。在由多個(gè)揚(yáng)聲器限定的邊附近的估計(jì)位置可能是不具有高度信 息的音頻對(duì)象,因?yàn)榛煲魩煵荒芎?jiǎn)單地僅通過(guò)使用在一側(cè)上的揚(yáng)聲器來(lái)生成被感知為從天 空中傳出的音頻對(duì)象。高度可W被共同地表示為具有特定空間(諸如半球)的函數(shù)g(X, y)。在半球中,高度的值在該空間的中必處達(dá)到1 (即最大值),并在從中必向壁移動(dòng)時(shí)逐漸 減小到零。
[0114] 在另一個(gè)實(shí)施例中,如果音頻對(duì)象的內(nèi)容類型屬于預(yù)定義類型(送通常不在平面 中,例如鳥(niǎo)叫、雷聲、雨聲等),該音頻對(duì)象可W通過(guò)將高度設(shè)置為預(yù)定義值而被放置到頂置 揚(yáng)聲器。高度可表示為函數(shù)f(c),其中C是內(nèi)容類型。
[0115] 如果音頻對(duì)象的內(nèi)容類型指示它是頂置對(duì)象,高度通過(guò)函數(shù)f(c)被設(shè)定為預(yù)定 義值;否則,函數(shù)g(X,y)被用來(lái)基于音頻對(duì)象的估計(jì)位置獲得高度的值??商娲?,在一個(gè) 實(shí)施例中,總體函數(shù)可W是h(x,y,Z),其中h(x,y,C) = g(x,y)Xf(c)。
[0116] 關(guān)于內(nèi)容類型的信息可W被手動(dòng)注釋或通過(guò)人工智能技術(shù)自動(dòng)獲得。應(yīng)當(dāng)注意的 是,音頻對(duì)象的源或完整性并非必要。音頻對(duì)象可W來(lái)自其中音頻對(duì)象不彼此混合的現(xiàn)成 的純對(duì)象內(nèi)容,或者來(lái)自一些音頻對(duì)象提取算法的輸出。對(duì)于現(xiàn)成的音頻對(duì)象,應(yīng)用經(jīng)驗(yàn)法 則W便添加高度的值是安全的。
[0117] 然而,對(duì)于從多聲道格式的音頻內(nèi)容自動(dòng)提取的音頻對(duì)象,應(yīng)當(dāng)考慮到相同的音 頻對(duì)象的一些能量可能仍存留在平面(地面揚(yáng)聲器)中的事實(shí)。例如,對(duì)于7. 1輸入,通過(guò) 函數(shù)g(x,y)或f(c)計(jì)算出的高度維度,音頻對(duì)象被放置到頂置揚(yáng)聲器。由于不完美的音 頻對(duì)象提取,不是所有的音頻對(duì)象的能量/頻譜被放置到頂置揚(yáng)聲器,仍有部分存留在平 面中。存在一定的風(fēng)險(xiǎn)使播放的聲音不被感知為集中的對(duì)象。為了減輕風(fēng)險(xiǎn),在一個(gè)實(shí)施 例中,通過(guò)引入介于0與1之間的比例因子S提出了自適應(yīng)的高度估計(jì),如;
[011 引 Z = sXz"'" (13)
[0119] 其中z^^表示從g狂,y)和/或^(3)所估計(jì)的高度。
[0120] 值S可W通過(guò)考慮平面中的剩余能量被設(shè)定。例如,當(dāng)沒(méi)有剩余能量在平面中時(shí) 它可W被設(shè)置為1,或如果音頻對(duì)象的幾乎所有能量都在平面中時(shí)被設(shè)置為0。在平面中的 剩余能量與音頻對(duì)象的總能量的比率可被表示為r。在一個(gè)實(shí)施例中,S可W由S = l-r進(jìn) 行估計(jì),使其值隨r線性變化。在另一個(gè)實(shí)施方案中,S可W由
進(jìn)行估計(jì),其中 參數(shù)λ控制函數(shù)的斜率,其值隨r非線性變化??蒞利用真實(shí)數(shù)據(jù)對(duì)λ的值進(jìn)行調(diào)整。
[0121] 在一個(gè)實(shí)施例中,也可W包括3D至2D轉(zhuǎn)換。送對(duì)于沒(méi)有頂置揚(yáng)聲器的播放系統(tǒng) 是有用的。送種轉(zhuǎn)換需要將軌跡從3D格式轉(zhuǎn)換成2D格式。實(shí)現(xiàn)該轉(zhuǎn)換的簡(jiǎn)單方法是丟棄 記錄在3D格式中的高度維度并僅使用在一個(gè)平面中的位置來(lái)表示音頻內(nèi)容。 。12引 威知大小估計(jì)
[0123] 現(xiàn)在參考圖6,其示出了根據(jù)本發(fā)明的示例實(shí)施例的用于處理音頻對(duì)象W便于估 計(jì)其感知大小的方法600的流程圖。
[0124] 當(dāng)多聲道格式的音頻對(duì)象由多聲道系統(tǒng)播放時(shí),例如會(huì)在輸入信號(hào)之間存在相 差。其結(jié)果是,當(dāng)信號(hào)被各種換能器播放時(shí),收聽(tīng)者可W感知音頻對(duì)象為具有一定面積或大 小而不是集中的點(diǎn)的幻象。當(dāng)然,像關(guān)于音頻對(duì)象的軌跡或位置的信息,也期望能夠估計(jì)音 頻對(duì)象的感知大小。
[0125] 如先前所述,如果兩個(gè)相同的信號(hào)由兩個(gè)揚(yáng)聲器100同時(shí)播放,收聽(tīng)者將可能感 知音頻對(duì)象為點(diǎn)幻象,如圖1的左圖所示,其中ICC值等于1。在實(shí)際中,混音師一般不會(huì)將 音頻對(duì)象道染為具有點(diǎn)幻象,而是將ICC值分配在0與1之間。在一個(gè)實(shí)施例中,感知大小 也是0與1之間的值,其中感性大小為0意味著點(diǎn)幻象,并且感知大小為1意味著從一個(gè)揚(yáng) 聲器延伸到另一個(gè)揚(yáng)聲器的大小。因此,感知大小獨(dú)立于兩個(gè)揚(yáng)聲器之間的物理距離,并僅 由聲道間相關(guān)性即ICC確定。在下文中將呈現(xiàn)方法600的步驟。
[0126] 在步驟S601,如圖7所示的多個(gè)聲道的每對(duì)700的聲道間相關(guān)系數(shù)(ICC)在時(shí)域 或頻域中被計(jì)算出來(lái)。由于感知大小是基于個(gè)人感知的參數(shù),很難用解析方法來(lái)得到關(guān)于 其ICC值的相關(guān)性。經(jīng)常使用的方法是訴諸聽(tīng)音實(shí)驗(yàn)W收集實(shí)驗(yàn)數(shù)據(jù),然后用統(tǒng)計(jì)方法來(lái) 找到最佳的對(duì)應(yīng)關(guān)系或很好地?cái)M合該經(jīng)驗(yàn)數(shù)據(jù)的函數(shù)。例如,在一個(gè)實(shí)施例中,圖8圖示了 曲線擬合后的函數(shù)。
[0127] 如圖示圖8中的曲線示出了感知大小與ICC值之間的關(guān)系??蒞觀察到,感知大 小關(guān)于ICC值非線性地變化。
[012引為了從輸入音頻信號(hào)生成ICC值,需要進(jìn)行幾個(gè)步驟。作為實(shí)驗(yàn)設(shè)置的示例,如圖 7所示,兩個(gè)揚(yáng)聲器700被放置在收聽(tīng)者710的前方。圖7僅圖示了放置在收聽(tīng)者710前方