生成針對音頻對象的元數(shù)據(jù)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實施例通常涉及音頻內(nèi)容處理,更具體地,涉及用于處理多聲道格式的 音頻內(nèi)容的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 傳統(tǒng)上,音頻內(nèi)容是W基于聲道的格式進(jìn)行創(chuàng)建及存儲的。如在本文中所使用的, 術(shù)語"音頻聲道"或"聲道"指的是通常具有預(yù)定義物理位置的音頻內(nèi)容。例如,雙聲道、環(huán) 繞5. 1、環(huán)繞7. 1等等均為針對音頻內(nèi)容的基于聲道的格式。近來,隨著多媒體工業(yè)中的技 術(shù)發(fā)展,Η維(3D)電影和電視內(nèi)容在影院和家庭中變得越來越受歡迎。為了創(chuàng)建更身臨其 境的聲場且精確地控制而無關(guān)于特定的播放揚聲器配置的單獨音頻元素,許多常規(guī)的多聲 道系統(tǒng)都已被擴(kuò)展W支持包括聲道和音頻對象兩者的新格式。
[0003] 如在本文中使用的,術(shù)語"音頻對象"指的是在聲場中存在預(yù)定義時間段的獨立音 頻元素。音頻對象可W是動態(tài)或靜態(tài)的。例如,音頻對象可W是對話、槍聲、雷電等等。作 為重要的元素,音頻對象通常被混音師使用W創(chuàng)建其理想的聲音效果。
[0004] 傳統(tǒng)上,基于多聲道格式的音頻內(nèi)容或音頻信號包括針對至少兩個聲道的分離的 信號。例如,在環(huán)繞5. 1揚聲器系統(tǒng)中可W包括五個不同的信號。每個分離的音頻信號被用 于驅(qū)動位于由每個物理揚聲器限定的場中與其對應(yīng)的揚聲器。因為對于單個音頻對象分配 給每個聲道的能量是不同的,揚聲器或換能器可被不同地驅(qū)動并且W不同的響度再現(xiàn)相同 的音頻對象,送導(dǎo)致由在場中的收聽者所感知到的特定位置。此外,根據(jù)多聲道格式的音頻 信號自身可W包括聲道間相關(guān)系數(shù)(ICC),其例如可W體現(xiàn)為在聲道間的相位和幅度差異 的形式。關(guān)于能量分配和特定音頻對象的ICC的信息可W允許多個揚聲器表現(xiàn)音頻對象, 使音頻對象的位置和大小能夠被收聽者所感知。
[0005] 目前,適合于一定的多聲道環(huán)繞系統(tǒng)的多聲道格式的特定音頻信號需要由專業(yè)人 ±在錄音室中使用平移工具來道染,并且諸如不同的音頻對象的位置和大小之類的屬性僅 能在工作室被定制為特定格式(即,對應(yīng)固定的播放設(shè)定的固定數(shù)量的聲道),送意味著一 旦被創(chuàng)建就不能再操縱送樣的屬性。因此,如果想在7. 1揚聲器系統(tǒng)或普通的雙聲道系統(tǒng) 上播放良好道染的5. 1格式的音頻內(nèi)容,由送種系統(tǒng)的給出的演繹并沒有得到優(yōu)化。另外, 諸如音頻對象的位置和大小之類的屬性可能無法通過揚聲器被精確地播放。換言之,當(dāng)音 頻內(nèi)容是創(chuàng)建為多聲道格式的時,由收聽者所感知的收聽體驗是由混音師針對特定播放設(shè) 置優(yōu)化的。當(dāng)音頻內(nèi)容通過不同的播放設(shè)置被播放時,由于播放設(shè)置之間并不匹配,性能可 能會降低,諸如音頻對象的位置會發(fā)生變化。
[0006] 鑒于上述情況,本領(lǐng)域需要用于生成包含音頻對象的屬性的元數(shù)據(jù)的解決方案。
【發(fā)明內(nèi)容】
[0007] 為了解決上述和其他潛在的問題,本發(fā)明提出了一種用于生成與音頻對象相關(guān)聯(lián) 的元數(shù)據(jù)的方法和系統(tǒng)。
[0008] 在一個方面,本發(fā)明的實施例提供了用于處理音頻內(nèi)容的方法,音頻內(nèi)容包括多 聲道格式的至少一個音頻對象。該方法包括;生成與該音頻對象相關(guān)聯(lián)的元數(shù)據(jù),該元數(shù)據(jù) 包括W下數(shù)項中的至少一個:音頻對象的估計軌跡;W及音頻對象的估計感知大小,該感 知大小是由至少兩個換能器所產(chǎn)生的音頻對象的幻象(地antom)的所感知到的區(qū)域。在送 方面的實施例還包括相應(yīng)的計算機程序產(chǎn)品。
[0009] 在另一個方面,本發(fā)明的實施例提供用于處理音頻內(nèi)容的系統(tǒng),該音頻內(nèi)容包括 多聲道格式的至少一個音頻對象。該系統(tǒng)包括:元數(shù)據(jù)生成單元,被配置成生成與該音頻對 象相關(guān)聯(lián)的元數(shù)據(jù),該元數(shù)據(jù)生成單元包括W下數(shù)項中的至少一個:軌跡元數(shù)據(jù)生成單元, 被配置成生成該音頻對象的估計軌跡;W及大小元數(shù)據(jù)生成單元,被配置成生成該音頻對 象的估計感知大小,該感知大小是由至少兩個換能器所產(chǎn)生的音頻對象的幻象的所感知到 的區(qū)域。
[0010] 通過下面的描述將可W理解,根據(jù)本發(fā)明的實施例,音頻對象可W被處理從而被 分配包括軌跡和感知大小信息的元數(shù)據(jù)。音頻內(nèi)容中經(jīng)轉(zhuǎn)換的新的音頻對象是有利的,因 為送樣的音頻內(nèi)容可W在任何播放系統(tǒng)中都能夠被精確地播放,而不論維度數(shù)目W及換能 器的數(shù)目是多少。此外,元數(shù)據(jù)易于在后續(xù)處理階段被操縱及改善,其結(jié)果是,在幾乎每一 個聲學(xué)系統(tǒng)(即使耳機)中音頻內(nèi)容的表現(xiàn)均能夠被適配為準(zhǔn)確且因而是身臨其境的。通 過本發(fā)明的實施例所實現(xiàn)的其他優(yōu)點將通過下面的描述變得顯而易見。
【附圖說明】
[0011] 通過參照附圖的W下詳細(xì)描述,本發(fā)明的實施例的上述和其他目的、特征和優(yōu)點 將變得更容易理解。在附圖中,本發(fā)明的數(shù)個實施例將W示例W及非限制性的方式進(jìn)行說 明,其中:
[0012] 圖1圖示了根據(jù)本發(fā)明示例實施例的針對具有不同的ICC值提取的音頻對象的感 知幻象;
[0013] 圖2圖示了根據(jù)本發(fā)明的示例實施例的用于處理音頻對象W便于估計其位置的 方法的流程圖;
[0014] 圖3圖示了根據(jù)本發(fā)明另一示例實施例的用于處理基于對應(yīng)關(guān)系方法的位置估 計的方法的流程圖;
[0015] 圖4圖示了根據(jù)本發(fā)明的另一示例實施例的用于處理基于混合方法的位置估計 的方法的流程圖;
[0016] 圖5圖示了根據(jù)本發(fā)明的示例實施例的尋求從音頻對象第一頓到最后一頓的路 徑的示例;
[0017] 圖6圖示了根據(jù)本發(fā)明的示例實施例的用于處理音頻對象W便于估計其感知大 小的方法的流程圖;
[0018] 圖7圖示了根據(jù)本發(fā)明的示例實施例的對輸入的音頻對象執(zhí)行去相關(guān)處理W用 于獲得感知大小與ICC值之間的對應(yīng)關(guān)系的7K例;
[0019] 圖8圖示了根據(jù)本發(fā)明的示例實施例的W ICC值為函數(shù)的感知大小的值的變化;
[0020] 圖9圖示了根據(jù)本發(fā)明的示例實施例的將從Η個揚聲器的每對中生成的感知大 小進(jìn)行聚集的示例;
[0021] 圖10圖示了根據(jù)本發(fā)明的示例實施例的用于獲得更加精確的感知大小的校準(zhǔn)實 驗;
[0022] 圖11圖示了根據(jù)本發(fā)明的示例實施例的將由揚聲器L、R、Ls和Rs構(gòu)建的空間分 割成多個子空間的可能策略;
[0023] 圖12圖示了根據(jù)本發(fā)明的示例實施例的用于音頻對象處理的系統(tǒng)的框圖;W及
[0024] 圖13圖示了適合于實施本發(fā)明的實施例的示例計算機系統(tǒng)的框圖。
[0025] 在全部附圖中,相同或相應(yīng)的附圖標(biāo)記指代相同或相應(yīng)的部分。
【具體實施方式】
[0026] 現(xiàn)在將參照附圖中所示的各種示例實施例對本發(fā)明的原理進(jìn)行說明。應(yīng)當(dāng)理解, 送些實施例的描述僅僅是使本領(lǐng)域的技術(shù)人員能夠更好地理解并進(jìn)一步實現(xiàn)本發(fā)明,而不 意在W任何方式限制本發(fā)明的范圍。
[0027] 本發(fā)明假設(shè)輸入的音頻內(nèi)容是在多聲道格式,例如5. 1、7. 1或7. 1. 4,其中數(shù)字4 表示四個頂置揚聲器。若干音頻對象通過重復(fù)如本發(fā)明所要求保護(hù)的方法易于被處理。應(yīng) 當(dāng)指出的是,在本發(fā)明中,將不會提及音頻對象的提取,并且滿足下面所列出的要求等的所 有的音頻對象均可被視為可用的音頻對象:
[0028] ?來自現(xiàn)成內(nèi)容或從音頻內(nèi)容通過使用各種音頻提取技術(shù)自動提取的音頻對象, 在現(xiàn)成內(nèi)容中干凈的對象是已經(jīng)可用的,在音頻內(nèi)容中希望提取的音頻對象通常與其它對 象混合在一起;
[0029] · W全頻帶或子頻帶表示的音頻對象,其中全頻帶表示關(guān)于音頻對象的所有頻譜 信息W及頻譜方向均被包括在內(nèi),而子頻帶表示音頻對象的頻譜信息的僅僅一部分是可用 的擬及
[0030] ?隨時間不完整的音頻對象,其可能例如是由自動音頻對象提取過程中的不完美 的時間分割造成的。
[0031] 如上面所提到的,在本發(fā)明中,與音頻對象相關(guān)聯(lián)的元數(shù)據(jù)主要集中在音頻對象 的軌跡和感知大小兩方面。本文的感知大小是指由音場中的至少兩個物理換能器或揚聲器 產(chǎn)生的音頻對象的(與點幻象相比)增大的幻象的區(qū)域。
[0032] 音頻對象的位置可W或者是在二維(2D)平面上或在Η維(3D)空間中的。例如,對 于5.1或7.1聲道配置,位置通常是在二維平面(X,y)上的,而對于7. 1.4配置,位置是在 Η維空間(x,y,z)中的。在某些情況下,諸如音頻上混(up-mixing),從2D (x,y)到3D (X, y,Z)的位置的轉(zhuǎn)換是期望的,因為3D空間提供了新層次的身臨其境的體驗。
[0033] 音頻對象的感知大小由收聽者感知到的所產(chǎn)生的音頻回放的區(qū)域所定義。例如, 當(dāng)前左揚聲器和前右揚聲器兩者均在播放具有相似能量水平的相同音頻對象時,它們將在 送兩個物理揚聲器之間呈現(xiàn)幻象對象,并且如圖1中的左圖所示,收聽者會將來自于正面 中必的對象感知為點幻象。
[0034] 在圖1中,對于每個用戶,有兩個揚聲器100播放相同的音頻對象,送意味著聲道 間相關(guān)系數(shù)(ICC)恰好是1。如由兩個揚聲器100之間圈出的區(qū)域所示,音頻對象的感知大 小取決于ICC值,而ICC值是由大量的聽音實驗驗證的。通過使ICC值從1減小到0,感知 大小將相應(yīng)地從0增加到1。例如,如果單聲道格式的音頻對象被復(fù)制到兩個揚聲器100, 并W不存在相位差的方式同時播放,正在播放的音頻對象可W被視為如上面所描述的ICC 值等于1的點幻象。如果施加某些操作(例如去相關(guān)),從而使得ICC值小于1,收聽者將 感知到播放的音頻對象不再形成單一的點而是增大的幻象,如圖1的右圖所示。音頻對象 的感知大小被混音師出于藝術(shù)加工目的而有意地操縱。其結(jié)果是,一些音頻對象實際上不 再被感知為點幻象。
[0035] 為了產(chǎn)生包括諸如軌跡和感知大小的屬性的元數(shù)據(jù),本發(fā)明的實施例提出了一種 用于處理音頻內(nèi)容的方法和系統(tǒng)。音頻內(nèi)容包括多聲道格式的至少一個音頻對象。用于估 計音頻對象的軌跡和感知大小的實施例將在下文中分別進(jìn)行說明。
[0036] 軌誠估計
[0037] 首先參照圖2,其示出了根據(jù)本發(fā)明的示例實施例的用于處理音頻對象W便于估 計其位置的方法200的流程圖。
[0038] 所輸入的音頻內(nèi)容是基于多聲道的格式。例如,輸入的音頻內(nèi)容可W符合環(huán)繞 5. 1、環(huán)繞7. 1、甚至7. 1. 4等等。所輸入的音頻內(nèi)容通常包含至少一個具有多個頓的音頻對 象。在步驟S201,應(yīng)用位置估計處理,其用多聲道格式的音頻對象作為輸入。在步驟S201 之后,生成候選位置組,其針對音頻對象的多個頓中的每個頓包含至少一個候選位置。在步 驟S202,從針對音頻對象的多個頓中的每個頓所生成的候選位置組中選擇一個估計位置。 然后,在步驟S203,通過使用跨越音頻對象的多個頓的估計位置生成估計軌跡。步驟S204 是可選的,其中當(dāng)需要時2D到3D的轉(zhuǎn)換和3D到2D的轉(zhuǎn)換都能夠進(jìn)行。換言之,針對音頻 對象的多個頓中的每個頓所輸出的估計軌跡的格式為(X,y)或(X,y,Z)。
[0039] 通過示例的方式,可W有Η種方法用于在步驟S201生成候選位置組,其包括:
[0040] ?能量加權(quán)法,其對位置進(jìn)行簡單而直接的計算,該方法能夠?qū)ξ恢眠M(jìn)行魯棒的估 計但在另一方面對估計的準(zhǔn)確性做出妥協(xié);
[0041] ?對應(yīng)關(guān)系法,其假設(shè)已獲得由混音師使用W用于生成音頻對象的多聲道表現(xiàn)的 (多個)平移工具的先備知識,該方法可W實現(xiàn)準(zhǔn)確的估計但在一些情況下對魯棒性做出 妥協(xié);W及