本發(fā)明涉及音頻信號(hào)處理,具體地,涉及用于進(jìn)行音頻呈現(xiàn)的裝置和方法,更具體地,涉及采用幾何距離定義的音頻呈現(xiàn)裝置和方法。
背景技術(shù):
隨著日常生活中多媒體內(nèi)容消耗的不斷增加,對(duì)復(fù)雜多媒體解決方案的需求也穩(wěn)步增長(zhǎng)。在這種背景下,對(duì)音頻對(duì)象的定位扮演著重要的角色。針對(duì)現(xiàn)有揚(yáng)聲器系統(tǒng)的音頻對(duì)象的優(yōu)化定位是令人期待的。
在現(xiàn)有技術(shù)中,音頻對(duì)象是已知的。音頻對(duì)象可以被認(rèn)為是例如具有相關(guān)聯(lián)元數(shù)據(jù)的音軌。元數(shù)據(jù)可以例如描述原始音頻數(shù)據(jù)的特性,例如期望的回放位置或音量水平?;趯?duì)象的音頻的優(yōu)點(diǎn)在于,可采用對(duì)于所有再現(xiàn)揚(yáng)聲器布局可能的最佳方式通過回放側(cè)的特殊呈現(xiàn)處理來再現(xiàn)預(yù)定義移動(dòng)。
幾何元數(shù)據(jù)可用來定義應(yīng)該將音頻對(duì)象呈現(xiàn)到哪里,例如相對(duì)于參考點(diǎn)(例如,收聽者)的方位角或仰角或絕對(duì)位置。元數(shù)據(jù)與對(duì)象音頻信號(hào)一起存儲(chǔ)或發(fā)送。
在MPEG(移動(dòng)圖像專家組)-H的背景下,在第105次MPEG會(huì)議上,音頻組對(duì)不同的應(yīng)用標(biāo)準(zhǔn)的要求和時(shí)間線進(jìn)行了綜述。根據(jù)該綜述,對(duì)于下一代廣播系統(tǒng)來講,滿足特定時(shí)間點(diǎn)和特定要求是至關(guān)重要的。據(jù)此,系統(tǒng)應(yīng)該能夠在編碼器輸入端處接受音頻對(duì)象。此外,系統(tǒng)應(yīng)該支持對(duì)音頻對(duì)象的信號(hào)發(fā)送、遞送和呈現(xiàn),并且應(yīng)該使得能夠?qū)?duì)象進(jìn)行用戶控制,例如針對(duì)對(duì)話增強(qiáng)、備選語(yǔ)言軌道和音頻描述語(yǔ)言。
在現(xiàn)有技術(shù)中,不同的概念是已知的。第一個(gè)概念是針對(duì)基于對(duì)象的音頻的反射聲音呈現(xiàn)(參見[2])。跳轉(zhuǎn)(snap)至揚(yáng)聲器位置信息被包括在元數(shù)據(jù)定義中,作為有用的呈現(xiàn)信息。但是,在[2]中,沒有提供關(guān)于在回放處理中如何使用所述信息的任何信息。此外,沒有提供關(guān)于如何確定兩個(gè)位置之間的距離的任何信息。
作為現(xiàn)有技術(shù)的另一概念,在[5]中描述了用于增強(qiáng)3D音頻編著和呈現(xiàn)的系統(tǒng)和工具。文獻(xiàn)[5]的圖6B是示出了如何在算數(shù)上實(shí)現(xiàn)“跳轉(zhuǎn)”至揚(yáng)聲器的圖。具體地,根據(jù)文獻(xiàn)[5],如果確定將音頻對(duì)象位置跳轉(zhuǎn)至揚(yáng)聲器位置(參見[5]的圖6B的塊665),則將音頻對(duì)象位置映射到揚(yáng)聲器位置(參見[5]的圖6B的塊670),一般是與針對(duì)音頻對(duì)象接收的意圖(x,y,z)位置最近的一個(gè)揚(yáng)聲器。根據(jù)[5],跳轉(zhuǎn)可應(yīng)用于再現(xiàn)揚(yáng)聲器的小組和/或單個(gè)再現(xiàn)揚(yáng)聲器。但是,[5]采用笛卡爾(x,y,z)坐標(biāo),而不是球坐標(biāo)。此外,呈現(xiàn)器行為僅被描述為將音頻對(duì)象位置映射到揚(yáng)聲器位置。如果跳轉(zhuǎn)標(biāo)記是一,則不提供任何詳細(xì)描述。此外,沒有提供關(guān)于如何確定最近的揚(yáng)聲器的任何細(xì)節(jié)。
根據(jù)另一現(xiàn)有技術(shù),即文獻(xiàn)[1]中描述的用于自適應(yīng)音頻信號(hào)產(chǎn)生、編碼和呈現(xiàn)的系統(tǒng)和方法,元數(shù)據(jù)信息(元數(shù)據(jù)元素)指定“一個(gè)或多個(gè)聲音分量被呈現(xiàn)到揚(yáng)聲器饋線,以用于通過離聲音分量的意圖回放位置(如位置元數(shù)據(jù)所指出)最近的揚(yáng)聲器進(jìn)行回放”。但是,沒有提供關(guān)于如何確定最近的揚(yáng)聲器的任何信息。
在另一現(xiàn)有技術(shù)中,即文獻(xiàn)[4]描述的音頻定義模型,元數(shù)據(jù)標(biāo)記被定義為“聲道鎖(channelLock)”。如果設(shè)置為1,則呈現(xiàn)器可將對(duì)象鎖定到最近的聲道或揚(yáng)聲器,而不是正常呈現(xiàn)。但是,沒有描述對(duì)最近聲道的確定。
在另一現(xiàn)有技術(shù)中,描述了對(duì)基于對(duì)象的音頻的上混頻(參見[3])。文獻(xiàn)[3]描述了用于在不同的應(yīng)用領(lǐng)域使用揚(yáng)聲器的距離測(cè)量的方法。這里,其用于對(duì)基于對(duì)象的音頻材料進(jìn)行上混頻。呈現(xiàn)系統(tǒng)被配置為根據(jù)基于對(duì)象的音頻節(jié)目(和對(duì)將被用來播放節(jié)目的揚(yáng)聲器的位置的了解)確定節(jié)目所指示的音頻源的每個(gè)位置和每個(gè)揚(yáng)聲器的位置之間的距離。此外,[3]的呈現(xiàn)系統(tǒng)被配置為針對(duì)所述節(jié)目所指示的每個(gè)實(shí)際源位置(例如,沿源軌線的每個(gè)源位置)確定由揚(yáng)聲器的完整集合中的與實(shí)際源位置最近的那些揚(yáng)聲器(或一個(gè)揚(yáng)聲器)組成的完整集合的子集(“主”子集),其中,在特定合理限定意義上定義本文中的“最近”。但是,沒有提供關(guān)于應(yīng)該如何計(jì)算所述距離的任何信息。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供用于音頻呈現(xiàn)的改善構(gòu)思。本發(fā)明的目的是通過根據(jù)權(quán)利要求1的裝置、根據(jù)權(quán)利要求13的解碼器設(shè)備、根據(jù)權(quán)利要求14的方法和根據(jù)權(quán)利要求15的計(jì)算機(jī)程序解決的。
提供了一種用于回放與位置相關(guān)聯(lián)的音頻對(duì)象的裝置。所述裝置包括:距離計(jì)算器,用于計(jì)算所述位置到揚(yáng)聲器的距離或用于讀取所述位置到揚(yáng)聲器的距離。所述距離計(jì)算器被配置為取具有最小距離的解。所述裝置被配置為使用與所述解相對(duì)應(yīng)的揚(yáng)聲器來對(duì)所述音頻對(duì)象進(jìn)行回放。
根據(jù)一個(gè)實(shí)施例,所述距離計(jì)算器可被配置為:例如,只有在由裝置所接收的最近揚(yáng)聲器播放標(biāo)記(mdae_closestSpeakerPlayout)被啟用的條件下才計(jì)算所述位置到揚(yáng)聲器的距離或讀取所述位置到揚(yáng)聲器的距離。此外,所述距離計(jì)算器可被配置為:例如,只有在所述最近揚(yáng)聲器播放標(biāo)記(mdae_closestSpeakerPlayout)被啟用的條件下,才取具有最小距離的解。此外,所述裝置可被配置為:例如,只有在所述最近揚(yáng)聲器播放標(biāo)記(mdae_closestSpeakerPlayout)被啟用的條件下,才使用與所述解相對(duì)應(yīng)的揚(yáng)聲器來對(duì)所述音頻對(duì)象進(jìn)行回放。
在一個(gè)實(shí)施例中,所述裝置可被配置為:例如,如果最近揚(yáng)聲器播放標(biāo)記(mdae_closestSpeakerPlayout)被啟用,則不對(duì)所述音頻對(duì)象進(jìn)行任何呈現(xiàn)。
在一個(gè)實(shí)施例中,所述距離計(jì)算器可被配置為例如根據(jù)返回加權(quán)歐氏距離或優(yōu)弧(great-arc)距離的距離函數(shù)來計(jì)算所述距離。
在一個(gè)實(shí)施例中,所述距離計(jì)算器可被配置為例如根據(jù)返回方位角和仰角中的加權(quán)絕對(duì)差的距離函數(shù)來計(jì)算所述距離。
在一個(gè)實(shí)施例中,所述距離計(jì)算器可被配置為例如根據(jù)返回至冪p的加權(quán)絕對(duì)差的距離函數(shù)來計(jì)算所述距離,其中p是數(shù)。在一個(gè)實(shí)施例中,p可被設(shè)置為例如p=2。
在一個(gè)實(shí)施例中,所述距離計(jì)算器可被配置為例如根據(jù)返回加權(quán)角度差的距離函數(shù)來計(jì)算所述距離。
在一個(gè)實(shí)施例中,所述距離函數(shù)可以是例如根據(jù)下式定義的:
diffAngle=acos(cos(azDiff)*cos(elDiff)),
其中,azDiff指示兩個(gè)方位角的差,elDiff指示兩個(gè)仰角的差,以及diffAngle指示加權(quán)角度差。
根據(jù)一個(gè)實(shí)施例,距離計(jì)算器可被配置為例如計(jì)算所述位置到揚(yáng)聲器的距離,以使得所述位置到所述揚(yáng)聲器之一的每一個(gè)距離Δ(P1,P2)都是根據(jù)下式計(jì)算的:
Δ(P1,P2)=|β1-β2|+|α1-α2|
α1指示所述位置的方位角,α2指示所述揚(yáng)聲器之一的方位角,β1指示所述位置的仰角,以及β2指示所述揚(yáng)聲器之一的仰角?;蛘撸?指示所述揚(yáng)聲器之一的方位角,α2指示所述位置的方位角,β1指示所述揚(yáng)聲器之一的仰角,以及β2指示所述位置的仰角。
在一個(gè)實(shí)施例中,距離計(jì)算器可被配置為例如計(jì)算所述位置到揚(yáng)聲器的距離,以使得所述位置到所述揚(yáng)聲器之一的每一個(gè)距離Δ(P1,P2)都是根據(jù)下式計(jì)算的:
Δ(P1,P2)=|β1-β2|+|α1-α2|+|r1-r2|
α1指示所述位置的方位角,α2指示所述揚(yáng)聲器之一的方位角,β1指示所述位置的仰角,β2指示所述揚(yáng)聲器之一的仰角,r1指示所述位置的半徑,以及r2指示所述揚(yáng)聲器之一的半徑?;蛘?,α1指示所述揚(yáng)聲器之一的方位角,α2指示所述位置的方位角,β1指示所述揚(yáng)聲器之一的仰角,β2指示所述位置的仰角,r1指示所述揚(yáng)聲器之一的半徑,以及r2指示所述位置的半徑。
根據(jù)一個(gè)實(shí)施例,距離計(jì)算器可被配置為例如計(jì)算所述位置到揚(yáng)聲器的距離,以使得所述位置到所述揚(yáng)聲器之一的每一個(gè)距離Δ(P1,P2)都是根據(jù)下式計(jì)算的:
Δ(P1,P2)=b·|β1-β2|+a·|α1-α2|
α1指示所述位置的方位角,α2指示所述揚(yáng)聲器之一的方位角,β1指示所述位置的仰角,β2指示所述揚(yáng)聲器之一的仰角,a是第一數(shù),b是第二數(shù)。或者,α1指示所述揚(yáng)聲器之一的方位角,α2指示所述位置的方位角,β1指示所述揚(yáng)聲器之一的仰角,以及β2指示所述位置的仰角,a是第一數(shù),以及b是第二數(shù)。
在一個(gè)實(shí)施例中,距離計(jì)算器可被配置為例如計(jì)算所述位置到揚(yáng)聲器的距離,以使得所述位置到所述揚(yáng)聲器之一的每一個(gè)距離Δ(P1,P2)都是根據(jù)下式計(jì)算的:
Δ(P1,P2)=b·|β1-β2|+a·|α1-α2|+c·|r1-r2|
α1指示所述位置的方位角,α2指示所述揚(yáng)聲器之一的方位角,β1指示所述位置的仰角,β2指示所述揚(yáng)聲器之一的仰角,r1指示所述位置的半徑,r2指示所述揚(yáng)聲器之一的半徑,a是第一數(shù),以及b是第二數(shù)。或者,α1指示所述揚(yáng)聲器之一的方位角,α2指示所述位置的方位角,β1指示所述揚(yáng)聲器之一的仰角,β2指示所述位置的仰角,r1指示所述揚(yáng)聲器之一的半徑,以及r2指示所述位置的半徑,a是第一數(shù),b是第二數(shù),以及c是第三數(shù)。
根據(jù)一個(gè)實(shí)施例,提供了解碼器設(shè)備。所述解碼器設(shè)備包括:USAC解碼器,用于對(duì)比特流進(jìn)行解碼,以獲得一個(gè)或多個(gè)音頻輸入聲道,獲得一個(gè)或多個(gè)輸入音頻對(duì)象,獲得壓縮的對(duì)象元數(shù)據(jù)以及獲得一個(gè)或多個(gè)SAOC傳輸聲道。此外,所述解碼器設(shè)備包括:SAOC解碼器,用于對(duì)所述一個(gè)或多個(gè)SAOC傳輸聲道進(jìn)行解碼,以獲得包括一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象的組。此外,所述解碼器設(shè)備包括:對(duì)象元數(shù)據(jù)解碼器,用于對(duì)壓縮的對(duì)象元數(shù)據(jù)進(jìn)行解碼,以獲得未壓縮的元數(shù)據(jù)。此外,所述解碼器設(shè)備包括格式轉(zhuǎn)換器,用于對(duì)所述一個(gè)或多個(gè)音頻輸入聲道進(jìn)行轉(zhuǎn)換,以獲得一個(gè)或多個(gè)經(jīng)過轉(zhuǎn)換的聲道。此外,所述解碼器設(shè)備包括混頻器,用于對(duì)所述包括一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象的組中的所述一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象、所述一個(gè)或多個(gè)輸入音頻對(duì)象和所述一個(gè)或多個(gè)經(jīng)過轉(zhuǎn)換的聲道進(jìn)行混頻,以獲得一個(gè)或多個(gè)經(jīng)過解碼的音頻聲道。所述對(duì)象元數(shù)據(jù)解碼器和混頻器一起形成根據(jù)上述實(shí)施例之一的裝置。所述對(duì)象元數(shù)據(jù)解碼器包括根據(jù)上述實(shí)施例之一的裝置的距離計(jì)算器,其中,距離計(jì)算器被配置為:針對(duì)所述一個(gè)或多個(gè)輸入音頻對(duì)象中的每個(gè)輸入音頻對(duì)象計(jì)算與所述輸入音頻對(duì)象相關(guān)聯(lián)的位置與揚(yáng)聲器的距離或讀取與所述輸入音頻對(duì)象相關(guān)聯(lián)的位置與揚(yáng)聲器的距離,以及取具有最小距離的解。所述混頻器被配置為向揚(yáng)聲器輸出所述一個(gè)或多個(gè)經(jīng)過解碼的音頻聲道之一內(nèi)的所述一個(gè)或多個(gè)輸入音頻對(duì)象中的每個(gè)輸入音頻對(duì)象,所述揚(yáng)聲器與由根據(jù)上述實(shí)施例之一的裝置的距離計(jì)算器針對(duì)所述輸入音頻對(duì)象確定的解相對(duì)應(yīng)。
一種用于回放與位置相關(guān)聯(lián)的音頻對(duì)象的方法,包括:
-計(jì)算所述位置到揚(yáng)聲器的距離或用于讀取所述位置到揚(yáng)聲器的距離。
-取具有最小距離的解。以及
-使用與所述解相對(duì)應(yīng)的揚(yáng)聲器來對(duì)所述音頻對(duì)象進(jìn)行回放。
此外,提供了一種用于當(dāng)在計(jì)算機(jī)或信號(hào)處理器上執(zhí)行時(shí)實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
附圖說明
在下文中,將參考附圖更詳細(xì)地描述本發(fā)明的實(shí)施例,在附圖中:
圖1是根據(jù)實(shí)施例的裝置。
圖2示出了根據(jù)實(shí)施例的對(duì)象呈現(xiàn)器。
圖3示出了根據(jù)實(shí)施例的對(duì)象元數(shù)據(jù)處理器。
圖4示出了3D音頻編碼器的概覽。
圖5示出了根據(jù)實(shí)施例的3D音頻解碼器的概覽。
圖6示出了格式轉(zhuǎn)換器的結(jié)構(gòu)。
具體實(shí)施方式
圖1示出了一種用于回放與位置相關(guān)聯(lián)的音頻對(duì)象的裝置100。
所述裝置100包括:距離計(jì)算器110,用于計(jì)算所述位置到揚(yáng)聲器的距離或用于讀取所述位置到揚(yáng)聲器的距離。所述距離計(jì)算器110被配置為取具有最小距離的解。
所述裝置100被配置為使用與所述解相對(duì)應(yīng)的揚(yáng)聲器來對(duì)所述音頻對(duì)象進(jìn)行回放。
例如,針對(duì)每個(gè)揚(yáng)聲器,確定所述位置(音頻對(duì)象位置)和所述揚(yáng)聲器(所述揚(yáng)聲器的位置)之間的距離。
根據(jù)一個(gè)實(shí)施例,所述距離計(jì)算器可被配置為:例如,只有在由裝置100所接收的最近揚(yáng)聲器播放標(biāo)記(mdae_closestSpeakerPlayout)被啟用的條件下才計(jì)算所述位置到揚(yáng)聲器的距離或讀取所述位置到揚(yáng)聲器的距離。此外,所述距離計(jì)算器可被配置為:例如,只有在所述最近揚(yáng)聲器播放標(biāo)記(mdae_closestSpeakerPlayout)被啟用的條件下,才取具有最小距離的解。此外,所述裝置100可被配置為:例如,只有在所述最近揚(yáng)聲器播放標(biāo)記(mdae_closestSpeakerPlayout)被啟用的條件下,才使用與所述解相對(duì)應(yīng)的揚(yáng)聲器來對(duì)所述音頻對(duì)象進(jìn)行回放。
在一個(gè)實(shí)施例中,所述裝置100可被配置為:例如,如果最近揚(yáng)聲器播放標(biāo)記(mdae_closestSpeakerPlayout)被啟用,則不對(duì)所述音頻對(duì)象進(jìn)行任何呈現(xiàn)。
在一個(gè)實(shí)施例中,所述距離計(jì)算器可被配置為例如根據(jù)返回加權(quán)歐氏距離或優(yōu)弧(great-arc)距離的距離函數(shù)來計(jì)算所述距離。
在一個(gè)實(shí)施例中,所述距離計(jì)算器可被配置為例如根據(jù)返回方位角和仰角中的加權(quán)絕對(duì)差的距離函數(shù)來計(jì)算所述距離。
在一個(gè)實(shí)施例中,所述距離計(jì)算器可被配置為例如根據(jù)返回至冪p的加權(quán)絕對(duì)差的距離函數(shù)來計(jì)算所述距離,其中p是數(shù)。在一個(gè)實(shí)施例中,p可被設(shè)置為例如2。
在一個(gè)實(shí)施例中,所述距離計(jì)算器可被配置為例如根據(jù)返回加權(quán)角度差的距離函數(shù)來計(jì)算所述距離。
在一個(gè)實(shí)施例中,所述距離函數(shù)可以是例如根據(jù)下式定義的:
diffAngle=acos(cos(azDiff)*cos(elDiff)),
其中,azDiff指示兩個(gè)方位角的差,elDiff指示兩個(gè)仰角的差,以及diffAngle指示加權(quán)角度差。
根據(jù)一個(gè)實(shí)施例,距離計(jì)算器可被配置為例如計(jì)算所述位置到揚(yáng)聲器的距離,以使得所述位置到所述揚(yáng)聲器之一的每一個(gè)距離Δ(P1,P2)都是根據(jù)下式計(jì)算的:
Δ(P1,P2)=|β1-β2|+|α1-α2|
α1指示所述位置的方位角,α2指示所述揚(yáng)聲器之一的方位角,β1指示所述位置的仰角,以及β2指示所述揚(yáng)聲器之一的仰角?;蛘?,α1指示所述揚(yáng)聲器之一的方位角,α2指示所述位置的方位角,β1指示所述揚(yáng)聲器之一的仰角,以及β2指示所述位置的仰角。
在一個(gè)實(shí)施例中,距離計(jì)算器可被配置為例如計(jì)算所述位置到揚(yáng)聲器的距離,以使得所述位置到所述揚(yáng)聲器之一的每一個(gè)距離Δ(P1,P2)都是根據(jù)下式計(jì)算的:
Δ(P1,P2)=|β1-β2|+|α1-α2|+|r1-r2|
α1指示所述位置的方位角,α2指示所述揚(yáng)聲器之一的方位角,β1指示所述位置的仰角,β2指示所述揚(yáng)聲器之一的仰角,r1指示所述位置的半徑,以及r2指示所述揚(yáng)聲器之一的半徑?;蛘撸?sub>1指示所述揚(yáng)聲器之一的方位角,α2指示所述位置的方位角,β1指示所述揚(yáng)聲器之一的仰角,β2指示所述位置的仰角,r1指示所述揚(yáng)聲器之一的半徑,以及r2指示所述位置的半徑。
根據(jù)一個(gè)實(shí)施例,距離計(jì)算器可被配置為例如計(jì)算所述位置到揚(yáng)聲器的距離,以使得所述位置到所述揚(yáng)聲器之一的每一個(gè)距離Δ(P1,P2)都是根據(jù)下式計(jì)算的:
Δ(P1,P2)=b·|β1-β2|+a·|α1-α2|
α1指示所述位置的方位角,α2指示所述揚(yáng)聲器之一的方位角,β1指示所述位置的仰角,β2指示所述揚(yáng)聲器之一的仰角,a是第一數(shù),b是第二數(shù)。或者,α1指示所述揚(yáng)聲器之一的方位角,α2指示所述位置的方位角,β1指示所述揚(yáng)聲器之一的仰角,以及β2指示所述位置的仰角,a是第一數(shù),以及b是第二數(shù)。
在一個(gè)實(shí)施例中,距離計(jì)算器可被配置為例如計(jì)算所述位置到揚(yáng)聲器的距離,以使得所述位置到所述揚(yáng)聲器之一的每一個(gè)距離Δ(P1,P2)都是根據(jù)下式計(jì)算的:
Δ(P1,P2)=b·|β1-β2|+a·|α1-α2|+c·|r1-r2|
α1指示所述位置的方位角,α2指示所述揚(yáng)聲器之一的方位角,β1指示所述位置的仰角,β2指示所述揚(yáng)聲器之一的仰角,r1指示所述位置的半徑,r2指示所述揚(yáng)聲器之一的半徑,a是第一數(shù),b是第二數(shù),以及c是第三數(shù)。或者,α1指示所述揚(yáng)聲器之一的方位角,α2指示所述位置的方位角,β1指示所述揚(yáng)聲器之一的仰角,β2指示所述位置的仰角,r1指示所述揚(yáng)聲器之一的半徑,以及r2指示所述位置的半徑,a是第一數(shù),b是第二數(shù),以及c是第三數(shù)。
在下文中,描述了本發(fā)明的實(shí)施例。該實(shí)施例提供用于使用幾何距離定義進(jìn)行音頻呈現(xiàn)的概念。
對(duì)象元數(shù)據(jù)可用來限定以下任一項(xiàng):
1)應(yīng)將對(duì)象呈現(xiàn)到空間中的何處,或
2)應(yīng)使用哪個(gè)揚(yáng)聲器來回放所述對(duì)象。
如果元數(shù)據(jù)中指示的對(duì)象的位置并不落于單個(gè)揚(yáng)聲器上,則對(duì)象呈現(xiàn)器將使用多個(gè)揚(yáng)聲器和定義的遙放(pan)規(guī)則來創(chuàng)建輸出信號(hào)。遙放在定位聲音或聲音色彩方面是次優(yōu)的。
因此,基于對(duì)象的內(nèi)容的制作方可期待進(jìn)行如下限定:特定聲音來自在特定方向上的單個(gè)揚(yáng)聲器。
可能發(fā)生的是,該揚(yáng)聲器并不存在于用戶揚(yáng)聲器設(shè)置中。從而,在元數(shù)據(jù)中設(shè)置標(biāo)記,強(qiáng)制由最近的可用揚(yáng)聲器對(duì)該聲音進(jìn)行回放,而不進(jìn)行任何呈現(xiàn)。
本發(fā)明描述了如何找到最近的揚(yáng)聲器,其中允許通過一定的加權(quán)來考慮相對(duì)于期望對(duì)象位置的可容忍偏差。
圖2示出了根據(jù)實(shí)施例的對(duì)象呈現(xiàn)器。
在基于對(duì)象的音頻格式中,元數(shù)據(jù)是與對(duì)象信號(hào)一起存儲(chǔ)或發(fā)送的。使用元數(shù)據(jù)和關(guān)于回放環(huán)境的信息在回放側(cè)對(duì)音頻對(duì)象進(jìn)行呈現(xiàn)。這種信息是例如揚(yáng)聲器的數(shù)量或屏幕的大小。
表1-示例元數(shù)據(jù):
針對(duì)對(duì)象,幾何元數(shù)據(jù)可用來定義應(yīng)該如何對(duì)它們進(jìn)行呈現(xiàn),例如相對(duì)于參考點(diǎn)(例如,收聽者)的方位角或仰角或絕對(duì)位置。呈現(xiàn)器基于幾何數(shù)據(jù)和可用揚(yáng)聲器及其位置來計(jì)算揚(yáng)聲器信號(hào)。
如果音頻對(duì)象(與3D空間中的位置(例如方位角、仰角和距離)相關(guān)聯(lián)的音頻信號(hào))不應(yīng)被呈現(xiàn)到其相關(guān)聯(lián)的位置,而是由本地?fù)P聲器設(shè)置中存在的揚(yáng)聲器來進(jìn)行回放,則一種方式將是借助元數(shù)據(jù)來限定應(yīng)該回放所述對(duì)象的揚(yáng)聲器。
盡管如此,還存在制作方不希望通過特定揚(yáng)聲器而是通過下一個(gè)可用的揚(yáng)聲器(即,“幾何上最近的”揚(yáng)聲器)來回放對(duì)象內(nèi)容的情況。這允許離散的回放,而不必限定哪個(gè)揚(yáng)聲器對(duì)應(yīng)于哪個(gè)音頻信號(hào)或在多個(gè)揚(yáng)聲器之間進(jìn)行呈現(xiàn)。
根據(jù)本發(fā)明的實(shí)施例通過以下方式從上文中產(chǎn)生。
元數(shù)據(jù)域:
表2-組定義()的語(yǔ)法
mdae_closestSpeakerPlayout該標(biāo)記定義了不應(yīng)被呈現(xiàn)而是直接由離成員的幾何位置最近的揚(yáng)聲器回放的元數(shù)據(jù)元素組的成員。
在對(duì)象元數(shù)據(jù)處理器中進(jìn)行重映射,該對(duì)象元數(shù)據(jù)處理器將本地?fù)P聲器設(shè)置考慮在內(nèi),并且使用關(guān)于應(yīng)該通過哪個(gè)揚(yáng)聲器或從哪個(gè)方向呈現(xiàn)聲音的特定信息來執(zhí)行信號(hào)到相應(yīng)呈現(xiàn)器的路由。
圖3示出了根據(jù)實(shí)施例的對(duì)象元數(shù)據(jù)處理器。
以下描述了針對(duì)距離計(jì)算的策略:
-如果設(shè)置了最近揚(yáng)聲器元數(shù)據(jù)標(biāo)記,則在所述最近揚(yáng)聲器上對(duì)聲音進(jìn)行回放
-為此,計(jì)算(或從預(yù)先存儲(chǔ)的表中讀取)到接下來的揚(yáng)聲器的距離
-取具有最小距離的解
-距離函數(shù)可以是例如(但不限于):
-加權(quán)歐氏或優(yōu)弧距離
-方位角和仰角的加權(quán)絕對(duì)差
-至冪p(p=2=>最小二乘解)的加權(quán)絕對(duì)差
-加權(quán)角度差,例如,diffAngle=acos(cos(azDiff)*cos(elDiff))
以下給出最近揚(yáng)聲器計(jì)算的示例。
如果啟用了音頻元素組的mdae_closestSpeakerPlayout標(biāo)記,則音頻元素組的成員均應(yīng)該由離音頻元素的給定位置最近的揚(yáng)聲器回放。不應(yīng)用任何呈現(xiàn)。
兩個(gè)位置P1和P2在球坐標(biāo)系中的距離被定義為其方位角α和仰角β的絕對(duì)差。
Δ(P1,P2)=|β1-β2|+|α1-α2|+|r1-r2|
應(yīng)該相對(duì)于音頻元素Pwanted的期望位置針對(duì)N個(gè)輸出揚(yáng)聲器的所有已知位置P1到PN計(jì)算該距離。
最近的已知揚(yáng)聲器位置是到音頻元素的期望位置的距離取最小值的位置。
Pnext=min(Δ(Pwanted,P1),Δ(Pwanted,P2),...,Δ(Pwanted,PN))
通過該公式,能夠向仰角、方位角和/或半徑添加權(quán)重。在該方式中,能夠說明的是,通過使用更高的數(shù)來對(duì)方位角偏差進(jìn)行加權(quán),方位角偏差與仰角偏差相比是更不可容忍的。
Δ(P1,P2)=b·|β1-β2|+a·|α1-α2|+c·|r1-r2|
一個(gè)示例涉及針對(duì)雙聲道呈現(xiàn)的最近揚(yáng)聲器計(jì)算。
如果應(yīng)該在耳機(jī)或立體聲揚(yáng)聲器設(shè)置上將音頻內(nèi)容作為雙聲道立體聲信號(hào)進(jìn)行回放,則音頻內(nèi)容的每個(gè)聲道傳統(tǒng)地與雙聲道室內(nèi)脈沖響應(yīng)或頭部相關(guān)脈沖響應(yīng)進(jìn)行數(shù)學(xué)組合。
該脈沖響應(yīng)的測(cè)量位置必須對(duì)應(yīng)于應(yīng)該感知到相關(guān)聯(lián)的聲道的音頻內(nèi)容的方向。在多聲道音頻系統(tǒng)或基于對(duì)象的音頻中,存在以下情況:(通過揚(yáng)聲器或通過對(duì)象位置)可限定的位置的數(shù)量大于可用脈沖響應(yīng)的數(shù)量。在該情況中,如果不存在任何專用脈沖響應(yīng)可用于所述聲道位置或所述對(duì)象位置的話,則必須選擇合適的脈沖響應(yīng)。為了只對(duì)感知施加最小的位置改變,所選擇的脈沖響應(yīng)應(yīng)該是“幾何上最近的”脈沖響應(yīng)。
在兩種情況中都需要確定已知位置(即,回放揚(yáng)聲器或雙聲道室內(nèi)脈沖響應(yīng)(BRIR))的列表中的哪一個(gè)是期望位置的下一個(gè)位置。因此,必須定義不同位置之間的“距離”。
本文中,將不同位置之間的距離定義為其方位角和仰角的絕對(duì)差。
下式用來計(jì)算兩個(gè)位置P1,P2在通過仰角α和方位角β限定的坐標(biāo)系中的距離:
Δ(P1,P2)=|β1-β2|+|α1-α2|
能夠添加半徑r,作為第三變量:
Δ(P1,P2)=|β1-β2|+|α1-α2|+|r1-r2|
最近的已知位置是到期望位置的距離取最小值的位置。
Pnext=min(Δ(Pwanted,P1),Δ(Pwanted,P2),..,Δ(Pwanted,PN))。
在一個(gè)實(shí)施例中,可向仰角、方位角和/或半徑添加權(quán)重:
Δ(P1,P2)=b·|β1-β2|+a·|α1-α2|+c·|r1-r2|。
根據(jù)一些實(shí)施例,可根據(jù)例如以下內(nèi)容確定最近的揚(yáng)聲器:
兩個(gè)位置P1和P2在球坐標(biāo)系中的距離可被定義為例如其方位角和仰角θ的絕對(duì)差:
應(yīng)該相對(duì)于音頻元素的期望位置Pwanted針對(duì)N個(gè)輸出揚(yáng)聲器的所有已知位置P1到PN計(jì)算該距離。
最近的已知揚(yáng)聲器位置是到音頻元素的期望位置的距離取最小值的位置:
Pnext=min(Δ(Pwanted,P1),Δ(Pwanted,P2),...,Δ(Pwanted,PN))。
例如,根據(jù)一些實(shí)施例,如果最近揚(yáng)聲器播放(ClosestSpeakerPlayout)標(biāo)記等于1,則根據(jù)一些實(shí)施例的最近的揚(yáng)聲器播放處理可通過確定音頻對(duì)象組中的每個(gè)成員的最近的現(xiàn)有揚(yáng)聲器的位置來進(jìn)行。
例如,最近的揚(yáng)聲器播放處理可對(duì)于具有動(dòng)態(tài)位置數(shù)據(jù)的元素組尤其有意義。最近的已知揚(yáng)聲器位置可以是例如到音頻元素的期待/期望位置的距離取最小值的位置。
在下文中,提供了對(duì)3D音頻編解碼系統(tǒng)的系統(tǒng)概覽。本發(fā)明的實(shí)施例可用于這種3D音頻編解碼系統(tǒng)。所述3D音頻編解碼系統(tǒng)可以例如基于用于對(duì)聲道和對(duì)象信號(hào)進(jìn)行編碼的MPEG-G USAC編解碼器。
根據(jù)實(shí)施例,為了增加對(duì)大量對(duì)象進(jìn)行編碼的效率,采用了MPEG SAOC(空間音頻對(duì)象編碼)技術(shù)。例如,根據(jù)一些實(shí)施例,三種類型的呈現(xiàn)器可以執(zhí)行例如將對(duì)象呈現(xiàn)到聲道,將聲道呈現(xiàn)到耳機(jī)或?qū)⒙暤莱尸F(xiàn)到不同的揚(yáng)聲器設(shè)置的任務(wù)。
當(dāng)顯式地發(fā)送對(duì)象信號(hào)或使用SAOC對(duì)對(duì)象進(jìn)行參數(shù)化編碼時(shí),將對(duì)應(yīng)的對(duì)象元數(shù)據(jù)信息進(jìn)行壓縮且復(fù)用到3D音頻比特流中。
圖4和圖5示出了3D音頻系統(tǒng)的不同算法塊。具體地,圖4示出了3D音頻編碼器的概覽。圖5示出了根據(jù)實(shí)施例的3D音頻解碼器的概覽。
現(xiàn)在描述圖4和圖5的模塊的可能實(shí)施例。
在圖4中,示出了預(yù)呈現(xiàn)器810(還稱為混頻器)。在圖4的配置中,預(yù)呈現(xiàn)器810(混頻器)是可選的。預(yù)呈現(xiàn)器810能夠可選地用來在編碼前將聲道加對(duì)象輸入場(chǎng)景轉(zhuǎn)換為聲道場(chǎng)景。在功能上,編碼器側(cè)的預(yù)呈現(xiàn)器810可以例如與解碼器側(cè)的對(duì)象呈現(xiàn)器/混頻器920的功能有關(guān),下文將對(duì)此進(jìn)行描述。對(duì)象的預(yù)呈現(xiàn)確保了編碼器輸入處的確定性的信號(hào)熵,該信號(hào)熵基本上獨(dú)立于同時(shí)活躍的對(duì)象信號(hào)的數(shù)目。在具有對(duì)象的預(yù)呈現(xiàn)的情況下,不再要求任何對(duì)象元數(shù)據(jù)傳輸。離散對(duì)象信號(hào)被呈現(xiàn)到編碼器被配置使用的聲道布局。針對(duì)每個(gè)聲道的對(duì)象的權(quán)重是從相關(guān)聯(lián)的對(duì)象元數(shù)據(jù)(OAM)獲得的。
用于揚(yáng)聲器聲道信號(hào)、離散對(duì)象信號(hào)、對(duì)象下混頻信號(hào)以及預(yù)呈現(xiàn)信號(hào)的核心編解碼器基于MPEG-D USAC技術(shù)(USAC核心編解碼器)。USAC編碼器820(如圖4所示)通過基于對(duì)象指派以及輸入聲道的幾何與語(yǔ)義信息創(chuàng)建信號(hào)與對(duì)象映射信息來對(duì)大量信號(hào)的編碼進(jìn)行處理。該映射信息描述如何將輸入聲道和對(duì)象映射到USAC聲道元素(CPE、SCE、LFE)以及如何向解碼器發(fā)送對(duì)應(yīng)信息。
所有附加的有效載荷(如SAOC數(shù)據(jù)或?qū)ο笤獢?shù)據(jù))已通過擴(kuò)展元素傳遞且已在USAC編碼器速率控制中加以考慮。
根據(jù)對(duì)于呈現(xiàn)器的速率/失真需求以及互動(dòng)需求,對(duì)象的編碼可以通過不同的方式進(jìn)行。以下對(duì)象編碼變型是可能的:
-預(yù)呈現(xiàn)對(duì)象:在編碼前,將對(duì)象信號(hào)預(yù)呈現(xiàn)并混頻為22.2聲道信號(hào)。隨后的編碼鏈看到22.2聲道信號(hào)。
-離散對(duì)象波形:將對(duì)象作為單聲道波形提供給USAC編碼器820。除了聲道信號(hào)之外,USAC編碼器820使用單個(gè)聲道元素SCE來發(fā)送對(duì)象。在接收機(jī)側(cè)對(duì)解碼對(duì)象進(jìn)行呈現(xiàn)和混頻。將壓縮的對(duì)象元數(shù)據(jù)信息一起發(fā)送給接收機(jī)/呈現(xiàn)器。
-參數(shù)化對(duì)象波形:借助SAOC參數(shù)來描述對(duì)象屬性及他們彼此間關(guān)系。由USAC編碼器820使用USAC對(duì)對(duì)象信號(hào)的下混頻進(jìn)行編碼。將參數(shù)化信息一起發(fā)送。根據(jù)對(duì)象的數(shù)目以及整體數(shù)據(jù)速率來選擇下混頻聲道的數(shù)目。向SAOC呈現(xiàn)器發(fā)送壓縮的對(duì)象元數(shù)據(jù)信息。
在解碼器側(cè),USAC解碼器910進(jìn)行USAC解碼。
此外,根據(jù)實(shí)施例,提供了解碼器,參見圖5。所述解碼器包括:USAC解碼器910,用于對(duì)比特流進(jìn)行解碼,以獲得一個(gè)或多個(gè)音頻輸入聲道,獲得一個(gè)或多個(gè)音頻對(duì)象,獲得壓縮的對(duì)象元數(shù)據(jù)以及獲得一個(gè)或多個(gè)SAOC傳輸聲道。
此外,所述解碼器包括:SAOC解碼器915,用于對(duì)所述一個(gè)或多個(gè)SAOC傳輸聲道進(jìn)行解碼,以獲得包括一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象的第一組。
此外,所述解碼器包括:格式轉(zhuǎn)換器922,用于對(duì)所述一個(gè)或多個(gè)音頻輸入聲道進(jìn)行轉(zhuǎn)換,以獲得一個(gè)或多個(gè)經(jīng)過轉(zhuǎn)換的聲道。
此外,解碼器包括:混頻器930,用于對(duì)包括一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象的所述第一組中的音頻對(duì)象、包括一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象的第二組的音頻對(duì)象和所述一個(gè)或多個(gè)經(jīng)過轉(zhuǎn)換的聲道進(jìn)行混頻,以獲得一個(gè)或多個(gè)經(jīng)過解碼的音頻聲道。
在圖5中,示出了解碼器的具體實(shí)施例。針對(duì)對(duì)象信號(hào)的SAOC編碼器815(SAOC編碼器815是可選的,參見圖4)和SAOC解碼器915(參見圖5)基于MPEG SAOC技術(shù)。所述系統(tǒng)能夠基于較少數(shù)目的傳輸聲道和附加參數(shù)數(shù)據(jù)(OLD(對(duì)象級(jí)差)、IOC(對(duì)象間相關(guān)性)、DMG(下混頻增益))重新創(chuàng)建、修改以及呈現(xiàn)多個(gè)音頻對(duì)象。附加參數(shù)數(shù)據(jù)展示出比單獨(dú)發(fā)送所有對(duì)象所需的數(shù)據(jù)速率低得多的數(shù)據(jù)速率,使得編碼非常高效。
SAOC編碼器815以作為單聲道波形的對(duì)象/聲道信號(hào)作為輸入,且輸出參數(shù)信息(其被封裝在3D音頻比特流中)和SAOC傳輸聲道(其是使用單個(gè)聲道元素來編碼并發(fā)送的)。
SAOC解碼器915根據(jù)經(jīng)過解碼的SAOC傳輸聲道以及參數(shù)信息重構(gòu)對(duì)象/聲道信號(hào),并基于再現(xiàn)布局、解壓縮的對(duì)象元數(shù)據(jù)信息以及可選地基于用戶交互信息來產(chǎn)生輸出音頻場(chǎng)景。
關(guān)于對(duì)象元數(shù)據(jù)編解碼器,針對(duì)每個(gè)對(duì)象,通過對(duì)象屬性在時(shí)間及空間中的量化來對(duì)指示對(duì)象在3D空間中的幾何位置及擴(kuò)展的相關(guān)聯(lián)元數(shù)據(jù)進(jìn)行高效編碼(例如,由圖4的元數(shù)據(jù)編碼器818)。將壓縮的對(duì)象元數(shù)據(jù)cOAM(壓縮的音頻對(duì)象元數(shù)據(jù))作為輔助信息發(fā)送到接收機(jī)。在接收機(jī)處,cOAM由元數(shù)據(jù)解碼器918解碼。
例如,在圖5中,元數(shù)據(jù)解碼器918可例如根據(jù)上述實(shí)施例之一實(shí)現(xiàn)圖1的距離計(jì)算器110。
對(duì)象呈現(xiàn)器(例如,圖5的對(duì)象呈現(xiàn)器920)根據(jù)給定的再現(xiàn)格式利用壓縮的對(duì)象元數(shù)據(jù)來產(chǎn)生對(duì)象波形。每個(gè)對(duì)象根據(jù)其元數(shù)據(jù)被呈現(xiàn)至特定輸出聲道。該塊的輸出是根據(jù)部分結(jié)果之和得到的。在一些實(shí)施例中,如果進(jìn)行了對(duì)最近揚(yáng)聲器的確定,則對(duì)象呈現(xiàn)器920可以例如將從USAC-3D解碼器910接收的音頻對(duì)象在不進(jìn)行呈現(xiàn)的情況下傳遞到混頻器930?;祛l器930可以例如將音頻對(duì)象傳遞到通過對(duì)于揚(yáng)聲器的距離計(jì)算器(例如,實(shí)現(xiàn)在元數(shù)據(jù)解碼器918內(nèi))確定的揚(yáng)聲器。根據(jù)實(shí)施例,可能包括例如距離計(jì)算器的元數(shù)據(jù)解碼器918、混頻器930和可選地對(duì)象呈現(xiàn)器920可一起實(shí)現(xiàn)圖1的裝置100。
例如,元數(shù)據(jù)解碼器918包括距離計(jì)算器(未示出)并且所述距離計(jì)算器或所述元數(shù)據(jù)解碼器918可以通過例如到混頻器930的連接(未示出)用信號(hào)發(fā)送針對(duì)從USAC-3D解碼器接收的一個(gè)或多個(gè)音頻對(duì)象的每個(gè)音頻對(duì)象的最近揚(yáng)聲器?;祛l器930然后可以只向多個(gè)揚(yáng)聲器中的最近揚(yáng)聲器(通過距離計(jì)算器確定)在揚(yáng)聲器聲道內(nèi)輸出音頻對(duì)象。
在一些其他實(shí)施例中,由距離計(jì)算器或元數(shù)據(jù)解碼器918向混頻器930僅針對(duì)所述音頻對(duì)象中的一個(gè)或多個(gè)用信號(hào)向最近揚(yáng)聲器進(jìn)行信號(hào)發(fā)送。
如果基于聲道的內(nèi)容以及離散/參數(shù)化對(duì)象都被解碼,則在輸出得到的波形之前(或在向后置處理器模塊饋送它們之前,后置處理器模塊例如是雙聲道呈現(xiàn)器或是揚(yáng)聲器呈現(xiàn)器模塊),(例如由圖5的混頻器930)對(duì)基于聲道的波形和所呈現(xiàn)的對(duì)象波形進(jìn)行混頻。
雙聲道呈現(xiàn)器模塊940可以例如產(chǎn)生多聲道音頻材料的雙聲道下混頻,使得可通過虛擬聲音源來表示每個(gè)輸入聲道。該處理是在QMF域中逐幀進(jìn)行。該雙聲道化可以基于例如所測(cè)量的雙聲道室內(nèi)脈沖響應(yīng)。
揚(yáng)聲器呈現(xiàn)器922可以例如在所發(fā)送的聲道配置和所希望的再現(xiàn)格式之間進(jìn)行轉(zhuǎn)換。因此在下文中將其稱為“格式轉(zhuǎn)換器”922。格式轉(zhuǎn)換器922執(zhí)行至較少數(shù)目的輸出聲道的轉(zhuǎn)換,例如,其創(chuàng)建下混頻。針對(duì)輸入及輸出格式的給定組合,該系統(tǒng)自動(dòng)地產(chǎn)生優(yōu)化的下混頻矩陣,并在下混頻處理中應(yīng)用這些矩陣。格式轉(zhuǎn)換器922允許標(biāo)準(zhǔn)揚(yáng)聲器配置并允許具有非標(biāo)準(zhǔn)揚(yáng)聲器位置的隨機(jī)配置。
根據(jù)實(shí)施例,提供了解碼器設(shè)備。所述解碼器設(shè)備包括:USAC解碼器910,用于對(duì)比特流進(jìn)行解碼,以獲得一個(gè)或多個(gè)音頻輸入聲道,獲得一個(gè)或多個(gè)輸入音頻對(duì)象,獲得壓縮的對(duì)象元數(shù)據(jù)以及獲得一個(gè)或多個(gè)SAOC傳輸聲道。
此外,所述解碼器設(shè)備包括:SAOC解碼器915,用于對(duì)所述一個(gè)或多個(gè)SAOC傳輸聲道進(jìn)行解碼,以獲得包括一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象的組。
此外,所述解碼器設(shè)備包括:對(duì)象元數(shù)據(jù)解碼器918,用于對(duì)壓縮的對(duì)象元數(shù)據(jù)進(jìn)行解碼,以獲得未壓縮的元數(shù)據(jù)。
此外,所述解碼器設(shè)備包括:格式轉(zhuǎn)換器922,用于對(duì)所述一個(gè)或多個(gè)音頻輸入聲道進(jìn)行轉(zhuǎn)換,以獲得一個(gè)或多個(gè)經(jīng)過轉(zhuǎn)換的聲道。
此外,所述解碼器設(shè)備包括:混頻器930,用于對(duì)所述包括一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象的組中的所述一個(gè)或多個(gè)所呈現(xiàn)的音頻對(duì)象、所述一個(gè)或多個(gè)輸入音頻對(duì)象和所述一個(gè)或多個(gè)經(jīng)過轉(zhuǎn)換的聲道進(jìn)行混頻,以獲得一個(gè)或多個(gè)經(jīng)過解碼的音頻聲道。
所述對(duì)象元數(shù)據(jù)解碼器918和混頻器930一起形成根據(jù)上述實(shí)施例之一(例如根據(jù)圖1的實(shí)施例)的裝置100。
所述對(duì)象元數(shù)據(jù)解碼器918包括根據(jù)上述實(shí)施例之一的裝置100的距離計(jì)算器110,其中,距離計(jì)算器110被配置為:針對(duì)所述一個(gè)或多個(gè)輸入音頻對(duì)象中的每個(gè)輸入音頻對(duì)象計(jì)算與所述輸入音頻對(duì)象相關(guān)聯(lián)的位置與揚(yáng)聲器的距離或讀取與所述輸入音頻對(duì)象相關(guān)聯(lián)的位置與揚(yáng)聲器的距離,以及取具有最小距離的解。
所述混頻器930被配置為向揚(yáng)聲器輸出所述一個(gè)或多個(gè)經(jīng)過解碼的音頻聲道之一內(nèi)的所述一個(gè)或多個(gè)輸入音頻對(duì)象中的每個(gè)輸入音頻對(duì)象,所述揚(yáng)聲器與由根據(jù)上述實(shí)施例之一的裝置100的距離計(jì)算器110針對(duì)所述輸入音頻對(duì)象確定的解相對(duì)應(yīng)。
在這種實(shí)施例中,對(duì)象呈現(xiàn)器920可以是可選的。在一些實(shí)施例中,對(duì)象呈現(xiàn)器920可存在,但可能只在指示最近揚(yáng)聲器播放的元數(shù)據(jù)信息被去激活時(shí)對(duì)輸入的音頻對(duì)象進(jìn)行呈現(xiàn)。如果指示最近揚(yáng)聲器播放的元數(shù)據(jù)信息被激活,則對(duì)象呈現(xiàn)器920可例如將輸入的音頻對(duì)象直接傳遞到混頻器,而不對(duì)輸入的音頻對(duì)象進(jìn)行呈現(xiàn)。
圖6示出了格式轉(zhuǎn)換器的結(jié)構(gòu)。圖6示出了下混頻配置器1010和用于對(duì)QMF(正交鏡像濾波器)域中的下混頻進(jìn)行處理的下混頻處理器。
在下文中,還描述了本發(fā)明的實(shí)施例的概念和其他實(shí)施例。
在實(shí)施例中,舉例來講,可使用元數(shù)據(jù)和關(guān)于回放環(huán)境的信息在回放側(cè)對(duì)音頻對(duì)象進(jìn)行呈現(xiàn)(例如,通過對(duì)象呈現(xiàn)器)。這種信息可以是例如揚(yáng)聲器的數(shù)量或屏幕的大小。對(duì)象呈現(xiàn)器可以例如基于幾何數(shù)據(jù)和可用揚(yáng)聲器及其位置來計(jì)算揚(yáng)聲器信號(hào)。
對(duì)象的用戶控制可以例如通過描述性元數(shù)據(jù)(例如,通過關(guān)于對(duì)象在比特流中的存在以及對(duì)象的高級(jí)屬性的信息)來實(shí)現(xiàn),或者,可以例如通過限制性元數(shù)據(jù)(例如,關(guān)于內(nèi)容創(chuàng)建器如何使得交互成為可能的信息)來實(shí)現(xiàn)。
根據(jù)實(shí)施例,對(duì)音頻對(duì)象的發(fā)送、遞送和呈現(xiàn)可通過位置元數(shù)據(jù)來實(shí)現(xiàn),例如,通過結(jié)構(gòu)元數(shù)據(jù)(例如,對(duì)象的分組和層級(jí)),例如,通過向特定揚(yáng)聲器進(jìn)行呈現(xiàn)的能力以及發(fā)送作為對(duì)象的聲道內(nèi)容的能力,以及例如,使對(duì)象場(chǎng)景適應(yīng)屏幕大小的措施。
因此,除了對(duì)象在3D空間中已經(jīng)限定的幾何位置和級(jí)別之外,還開發(fā)了新的元數(shù)據(jù)域。
一般地,通過元數(shù)據(jù)中所指示的在3D空間中的位置來限定對(duì)象的位置。
該回放揚(yáng)聲器可以是存在于本地?fù)P聲器設(shè)置中的特定揚(yáng)聲器。在該情況中,可借助元數(shù)據(jù)來直接地限定期望的揚(yáng)聲器。
盡管如此,還存在制作方不希望通過特定揚(yáng)聲器而是通過下一個(gè)可用的揚(yáng)聲器(例如,“幾何上最近的”揚(yáng)聲器)來回放對(duì)象內(nèi)容的情況。這允許離散的回放,而不必限定哪個(gè)揚(yáng)聲器對(duì)應(yīng)于哪個(gè)音頻信號(hào)。由于再現(xiàn)揚(yáng)聲器布局對(duì)于制作方來講可能是未知的,從而其可能不知道能夠選擇哪個(gè)揚(yáng)聲器,所以這是有用的。
實(shí)施例提供對(duì)不需要任何平方根運(yùn)算或cos/sin函數(shù)的距離函數(shù)的簡(jiǎn)單定義。在實(shí)施例中,距離函數(shù)用于角域(方位角、仰角、距離),從而不需要進(jìn)行到任何其他坐標(biāo)系(笛卡爾、經(jīng)度/維度)的變換。根據(jù)實(shí)施例,函數(shù)中具有權(quán)重,權(quán)重提供了在方位角偏差、仰角偏差和半徑偏差之間移動(dòng)關(guān)注點(diǎn)的可能性。函數(shù)中的權(quán)重可以例如根據(jù)人類的聽力進(jìn)行調(diào)整(例如,根據(jù)方位角和仰角方向的剛好能感知到的差別來調(diào)整權(quán)重)。函數(shù)不僅能應(yīng)用于對(duì)最近揚(yáng)聲器的確定,還能用于選擇雙聲道室內(nèi)脈沖響應(yīng)或頭部相關(guān)脈沖響應(yīng)以進(jìn)行雙聲道呈現(xiàn)。在這種情況中,不需要對(duì)脈沖響應(yīng)進(jìn)行內(nèi)插,相反,可使用“最近的”脈沖響應(yīng)。
根據(jù)一個(gè)實(shí)施例,在基于對(duì)象的元數(shù)據(jù)中可以定義被稱為mae_closestSpeakerPlayout的“ClosestSpeakerPlayout”標(biāo)記,該標(biāo)記強(qiáng)制由最近的可用揚(yáng)聲器對(duì)該聲音進(jìn)行回放,而不進(jìn)行呈現(xiàn)。如果對(duì)象的“ClosestSpeakerPlayout”標(biāo)記被設(shè)為一,則可將對(duì)象標(biāo)記為由最近揚(yáng)聲器進(jìn)行回放??梢愿鶕?jù)對(duì)象“組”的級(jí)別來定義“ClosestSpeakerPlayout”標(biāo)記。對(duì)象組是應(yīng)作為聯(lián)合進(jìn)行呈現(xiàn)或修改的相關(guān)對(duì)象的合集的概念。如果該標(biāo)記被設(shè)為一,則其適用于組內(nèi)的所有成員。
根據(jù)實(shí)施例,為了確定最近揚(yáng)聲器,如果啟用了組(例如,音頻對(duì)象的組)的mdae_closestSpeakerPlayout標(biāo)記,則組的成員均應(yīng)該由離對(duì)象的給定位置最近的揚(yáng)聲器回放。不應(yīng)用任何呈現(xiàn)。如果針對(duì)組啟用了“ClosestSpeakerPlayout”,則進(jìn)行以下處理:
針對(duì)組成員中的每一個(gè),確定成員的幾何位置(根據(jù)動(dòng)態(tài)對(duì)象元數(shù)據(jù)(OAM)),以及確定最近揚(yáng)聲器(通過在預(yù)先存儲(chǔ)的表中進(jìn)行查找或通過在距離測(cè)量的幫助下進(jìn)行計(jì)算)。計(jì)算所述成員的位置到現(xiàn)有揚(yáng)聲器中的每一個(gè)(或只是子集)的距離。產(chǎn)生最小距離的揚(yáng)聲器被定義為最近的揚(yáng)聲器,并且成員被路由到其最近的揚(yáng)聲器。組成員均由其最近的揚(yáng)聲器進(jìn)行回放。
如所述,針對(duì)最近揚(yáng)聲器的確定的距離測(cè)量可以例如實(shí)現(xiàn)為:
-方位角和仰角的加權(quán)絕對(duì)差
-方位角、仰角和半徑/距離的加權(quán)絕對(duì)差
以及,例如(但不限于):
-至冪p(p=2=>最小二乘解)的加權(quán)絕對(duì)差
-(加權(quán))勾股定理/歐氏距離
可通過采用以下公式來實(shí)現(xiàn)笛卡爾坐標(biāo)的距離d:
其中,x1、y1、z1是第一位置的x、y和z坐標(biāo)值,x2、y2、z2是第二位置的x、y和z坐標(biāo)值,d是第一位置和第二位置之間的距離。
可通過采用以下公式來實(shí)現(xiàn)極坐標(biāo)的距離測(cè)量d:
其中,α1、β1、r1是第一位置的極坐標(biāo)值,α2、β2、r2是第二位置的極坐標(biāo)值,d是第一位置和第二位置之間的距離。
加權(quán)角度差可以是根據(jù)下式定義的:
diffAngle=acos(cos(α1-α2)·cos(β1-β2))
關(guān)于順向距離、優(yōu)弧距離或優(yōu)環(huán)距離,距離是沿球面表面測(cè)量的(與通過球面內(nèi)部的直線相反)??刹捎美缙椒礁\(yùn)算和三角函數(shù)。坐標(biāo)可變換為例如緯度和經(jīng)度。
回到以上出現(xiàn)的公式:
Δ(P1,P2)=|β1-β2|+|α1-α2|+|r1-r2|,
所述公式可被看作使用極坐標(biāo)(而不是像原始計(jì)程車幾何定義中使用的笛卡爾坐標(biāo))的修正的計(jì)程車幾何。
Δ(P1,P2)=|x1-x2|+y1-y2|。
通過該公式,能夠向仰角、方位角和/或半徑添加權(quán)重。在該方式中,能夠說明的是,通過使用更高的數(shù)來對(duì)方位角偏差進(jìn)行加權(quán),方位角偏差與仰角偏差相比是更不可容忍的:
Δ(P1,P2)=b·|β1-β2|+a·|α1-α2|+c·|r1-r2|。
作為進(jìn)一步的觀點(diǎn),應(yīng)該注意的是,在實(shí)施例中,圖2的“所呈現(xiàn)的對(duì)象音頻”可被認(rèn)為是“所呈現(xiàn)的基于對(duì)象的音頻”。在圖2中,關(guān)于靜態(tài)對(duì)象元數(shù)據(jù)的usacConfigExtention和usacExtension只是用作具體實(shí)施例的示例。
關(guān)于圖3應(yīng)該注意的是,在一些實(shí)施例中,圖3的動(dòng)態(tài)對(duì)象元數(shù)據(jù)可以是例如位置OAM(音頻對(duì)象元數(shù)據(jù)、位置數(shù)據(jù)+增益)。在一些實(shí)施例中,可以通過將信號(hào)路由到格式轉(zhuǎn)換器或?qū)ο蟪尸F(xiàn)器來實(shí)現(xiàn)“路由信號(hào)”。
雖然已經(jīng)在裝置的上下文中描述了一些方面,但是將清楚的是,這些方面還表示對(duì)相應(yīng)方法的描述,其中,框或設(shè)備對(duì)應(yīng)于方法步驟或方法步驟的特征。類似地,在方法步驟的上下文中描述的方案也表示對(duì)相應(yīng)塊或項(xiàng)或者相應(yīng)裝置的特征的描述。
新穎的解構(gòu)信號(hào)可以存儲(chǔ)在數(shù)字存儲(chǔ)介質(zhì)上,或者可以在諸如無線傳輸介質(zhì)或有線傳輸介質(zhì)(例如,互聯(lián)網(wǎng))等的傳輸介質(zhì)上傳輸。
取決于某些實(shí)現(xiàn)要求,可以在硬件中或在軟件中實(shí)現(xiàn)本發(fā)明的實(shí)施例。可以使用其上存儲(chǔ)有電子可讀控制信號(hào)的數(shù)字存儲(chǔ)介質(zhì)(例如,軟盤、DVD、CD、ROM、PROM、EPROM、EEPROM或閃存)來執(zhí)行該實(shí)現(xiàn),該電子可讀控制信號(hào)與可編程計(jì)算機(jī)系統(tǒng)協(xié)作(或者能夠與之協(xié)作)從而執(zhí)行相應(yīng)方法。
根據(jù)本發(fā)明的一些實(shí)施例包括具有電子可讀控制信號(hào)的非瞬時(shí)數(shù)據(jù)載體,該電子可讀控制信號(hào)能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作從而執(zhí)行本文所述的方法之一。
通常,本發(fā)明的實(shí)施例可以實(shí)現(xiàn)為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品,程序代碼可操作以在計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行方法之一。程序代碼可以例如存儲(chǔ)在機(jī)器可讀載體上。
其他實(shí)施例包括存儲(chǔ)在機(jī)器可讀載體上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。
換言之,本發(fā)明方法的實(shí)施例因此是具有程序代碼的計(jì)算機(jī)程序,該程序代碼用于在計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行本文所述的方法之一。
因此,本發(fā)明方法的另一實(shí)施例是其上記錄有計(jì)算機(jī)程序的數(shù)據(jù)載體(或者數(shù)字存儲(chǔ)介質(zhì)或計(jì)算機(jī)可讀介質(zhì)),該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。
因此,本發(fā)明方法的另一實(shí)施例是表示計(jì)算機(jī)程序的數(shù)據(jù)流或信號(hào)序列,所述計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。數(shù)據(jù)流或信號(hào)序列可以例如被配置為經(jīng)由數(shù)據(jù)通信連接(例如,經(jīng)由互聯(lián)網(wǎng))傳送。
另一實(shí)施例包括處理裝置,例如,計(jì)算機(jī)或可編程邏輯器件,所述處理裝置被配置為或適于執(zhí)行本文所述的方法之一。
另一實(shí)施例包括其上安裝有計(jì)算機(jī)程序的計(jì)算機(jī),該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。
在一些實(shí)施例中,可編程邏輯器件(例如,現(xiàn)場(chǎng)可編程門陣列)可以用于執(zhí)行本文所述的方法的功能中的一些或全部。在一些實(shí)施例中,現(xiàn)場(chǎng)可編程門陣列可以與微處理器協(xié)作以執(zhí)行本文所述的方法之一。通常,方法優(yōu)選地由任意硬件裝置來執(zhí)行。
上述實(shí)施例對(duì)于本發(fā)明的原理僅是說明性的。應(yīng)當(dāng)理解的是:本文所述的布置和細(xì)節(jié)的修改和變形對(duì)于本領(lǐng)域其他技術(shù)人員將是顯而易見的。因此,旨在僅由所附專利權(quán)利要求的范圍來限制而不是由借助對(duì)本文的實(shí)施例的描述和解釋所給出的具體細(xì)節(jié)來限制。
參考文獻(xiàn)
“System and Method for Adaptive Audio Signal Generation,Coding and Rendering”,專利申請(qǐng)?zhí)枺篣S20140133683 A1(權(quán)利要求48)
“Reflected sound rendering for object-based audio”,專利申請(qǐng)?zhí)枺篧O2014036085 A1(章節(jié):Playback Applications)
“Upmixing object based audio”,專利申請(qǐng)?zhí)枺篣S20140133682 A1(具體實(shí)施例部分以及權(quán)利要求71b))
“Audio Definition Model”,EBU-TECH 3364,
https://tech.ebu.ch/docs/tech/tech3364.pdf
“System and Tools for Enhanced 3D Audio Authoring and Rendering”,專利申請(qǐng)?zhí)枺篣S20140119581 A1