本發(fā)明涉及一種用于音頻信號的分布式渲染的方法。
背景技術(shù):
1、雙耳音頻內(nèi)容(例如,采用旨在用于在頭戴式耳機(jī)上或在具有串?dāng)_消除的擴(kuò)音器系統(tǒng)上回放的立體聲音頻信號的形式)越來越受歡迎。例如,可以使用頭部相關(guān)傳遞函數(shù)(hrtf)將基于對象的音頻內(nèi)容渲染為用于頭戴式耳機(jī)的雙耳立體聲呈現(xiàn)?;趯ο蟮囊纛l內(nèi)容包括與三維空間中的位置(可選地時變的位置)相關(guān)聯(lián)的一個或多個音頻對象。例如,音頻對象可以旨在被收聽者感知為在收聽者右側(cè)、在收聽者上方或沿著收聽者周圍的軌跡移動的音頻對象。因此,基于對象的音頻可以為收聽者提供增強(qiáng)沉浸感的聲學(xué)效果。
2、已經(jīng)開發(fā)了hrtf,其作為收聽者頭部的取向和/或位置的函數(shù)描述了耳間時差、耳間電平差、人耳中發(fā)生的反射和人耳的頻率響應(yīng)。使用這種hrtf,可以為三維空間中音頻對象的任意靜態(tài)或動態(tài)布置生成雙耳音頻信號。另外,通常添加房間反射和/或混響來創(chuàng)建感知距離和空間的感覺。
3、在一些情況下,基于對象的音頻內(nèi)容的渲染是基于收聽者的取向和/或位置來基本上實時調(diào)整的,以便使音頻對象固定到環(huán)境中,而不是固定到收聽者的頭部。因此,當(dāng)收聽者移動他/她的頭部時,渲染被調(diào)整成使得聲學(xué)圖像對應(yīng)地移位,從而使收聽者感知到音頻對象固定在空間中,而不是固定到他/她的頭部。作為示例,首先向收聽者呈現(xiàn)將音頻對象渲染為被感知為位于收聽者右側(cè)的音頻呈現(xiàn)。如果收聽者轉(zhuǎn)向并面向相反方向,則由取向檢測器記錄這種取向變化,所述取向檢測器進(jìn)而將此信息提供給渲染器,所述渲染器對渲染進(jìn)行修改以提供將音頻對象呈現(xiàn)為被感知為位于收聽者左側(cè)的經(jīng)修改的呈現(xiàn)。這樣做的效果是,音頻對象就像是固定在收聽者的環(huán)境中一樣,其中,收聽者能夠在此空間內(nèi)移動和/或使他/她自己重新定向。這種形式的取向和/或位置修改的渲染(有時稱為交互式雙耳渲染)在游戲應(yīng)用、擴(kuò)展現(xiàn)實(xr)應(yīng)用、增強(qiáng)現(xiàn)實(ar)應(yīng)用和虛擬現(xiàn)實(vr)應(yīng)用中尤其有用。
技術(shù)實現(xiàn)思路
1、基于收聽者取向和/或位置的基本上實時音頻渲染的現(xiàn)有解決方案的缺點(diǎn)是渲染對數(shù)據(jù)傳輸帶寬和處理能力的要求很高,這進(jìn)而增加了執(zhí)行渲染的設(shè)備的功耗。同時,為了使得能夠渲染令人信服的音頻圖像,包括就像是固定在空間中或者沿著在空間中固定的軌跡移動而不是固定到收聽者的頭部的音頻對象,重要的是保持時延(即,收聽者改變頭部取向和/或位置與音頻呈現(xiàn)中的相關(guān)聯(lián)修改之間的時間延遲)非常低,通常為幾十毫秒的量級。
2、因此,第一個挑戰(zhàn)在于提供基于取向和/或位置的渲染過程,所述渲染過程提供足夠低的時延并且對收聽者取向和/或位置的任何變化作出快速響應(yīng)。取向和/或位置的改變與向收聽者呈現(xiàn)經(jīng)修改的音頻呈現(xiàn)之間的時延理想地應(yīng)遠(yuǎn)小于100ms,因為對于許多收聽者來說17ms量級的時延可能是明顯的。然而,由于渲染過程本身引入的固有延遲以及傳感器和音頻數(shù)據(jù)從用戶配戴的取向跟蹤設(shè)備和被配置為執(zhí)行音頻渲染的系統(tǒng)、服務(wù)或計算機(jī)的(通常是無線的)傳輸,實際上很難實現(xiàn)這種低時延。
3、為了減少時延,可以將取向和/或位置跟蹤設(shè)備、音頻渲染器和擴(kuò)音器集成到同一可穿戴設(shè)備(例如,耳塞或vr頭戴式裝置)中。然而,然后出現(xiàn)了第二個挑戰(zhàn),其與對收聽者取向和/或位置變化作出快速響應(yīng)的基于取向/位置的基本上實時渲染所需的計算能力以及相關(guān)聯(lián)的高電力功耗有關(guān)?;趯ο蟮囊纛l可以包括表示環(huán)境、點(diǎn)聲源、聲音效果、對話和其他重要元素的大量資產(chǎn),所有這些資產(chǎn)都需要響應(yīng)于收聽者取向和/或位置的變化而實時渲染,這種變化可能突然發(fā)生并且非常快速(例如,由于收聽者快速轉(zhuǎn)向、向上看和向下看或在環(huán)境中四處走動)。如vr頭戴式裝置、智能眼鏡、耳塞或眼鏡等可穿戴設(shè)備通常不具有所需的處理能力,也不具有長時間維持這種音頻渲染的電池容量。因此,在許多應(yīng)用中,取向和/或位置信息從可穿戴設(shè)備傳送到的更強(qiáng)大的配套設(shè)備,如電話、平板計算機(jī)、計算機(jī)、游戲控制臺或云計算機(jī)(例如,邊緣服務(wù)器),所述配套設(shè)備執(zhí)行渲染,從而將經(jīng)渲染呈現(xiàn)傳送回可穿戴設(shè)備。然而,配套設(shè)備與可穿戴設(shè)備之間的通信極大地增加了時延,尤其是如果通信在如藍(lán)牙等公共無線通信信道上發(fā)生,這可能引入顯著的時延。
4、為了實現(xiàn)足夠低的時延,可以使用具有增強(qiáng)處理性能和例如更大電池的功能更強(qiáng)大的可穿戴設(shè)備。然而,為了在物理上適應(yīng)增強(qiáng)的設(shè)備能力,然后出現(xiàn)了第三個挑戰(zhàn),因為可穿戴設(shè)備變得笨重并且不方便使用(例如,體積更大和/或更重以容納必要的處理部件、功率部件和冷卻部件)。通常,用于與可穿戴設(shè)備通信的帶寬也是有限的,并且因為基于對象的音頻內(nèi)容中的多個音頻元素需要相當(dāng)大的帶寬,所以可能需要移除或壓縮一些音頻元素,這降低了體驗質(zhì)量(qoe)。由于利用無線通信難以獲得足夠的帶寬,一些解決方案采取與可穿戴設(shè)備的有線數(shù)據(jù)連接,然而,這極大地阻礙了可穿戴設(shè)備的靈活性,使得其難以在室外使用或用戶難以自由移動。
5、本公開的目的是提出一種用于渲染音頻內(nèi)容(尤其是基于對象的音頻內(nèi)容)的方法,所述方法基本上實時地響應(yīng)于收聽者取向和/或位置的變化,從而克服或至少減輕了上文中強(qiáng)調(diào)的現(xiàn)有解決方案的問題。
6、根據(jù)本發(fā)明的第一方面,提供了一種處理音頻的方法,所述方法包括:在第一處理模塊處接收至少一個輸入音頻信號,并且在所述第一處理模塊處產(chǎn)生主要經(jīng)渲染呈現(xiàn)和附加經(jīng)渲染呈現(xiàn),每個經(jīng)渲染呈現(xiàn)分別與第一收聽者取向和/或位置和第二收聽者取向和/或位置相關(guān)聯(lián)。所述方法進(jìn)一步包括在第一處理模塊處確定用于將主要經(jīng)渲染呈現(xiàn)變換為附加經(jīng)渲染呈現(xiàn)的變換參數(shù),以及在第二處理模塊處接收由第一處理模塊生成的變換參數(shù)和主要經(jīng)渲染呈現(xiàn)。所述方法進(jìn)一步包括在第二處理模塊處接收指示用戶的取向和/或位置的用戶取向和/或位置數(shù)據(jù),在第二處理模塊處基于用戶的取向和/或位置以及第一收聽者取向和/或位置和第二收聽者取向和/或位置來確定取向和/或位置偏差值,在第二處理模塊處基于變換參數(shù)以及取向和/或位置偏差值來確定經(jīng)修改的變換參數(shù),以及在第二處理模塊處將經(jīng)修改的變換參數(shù)應(yīng)用于主要經(jīng)渲染呈現(xiàn)以生成與用戶的取向和/或位置相關(guān)聯(lián)的輸出呈現(xiàn)。
7、也就是說,第一處理模塊預(yù)先渲染與不同收聽者取向和/或位置相關(guān)聯(lián)的至少兩個呈現(xiàn),并且針對除了一個(主要呈現(xiàn))之外的每個呈現(xiàn)確定可以用于將主要呈現(xiàn)變換為至少一個附加經(jīng)渲染呈現(xiàn)的變換參數(shù)。
8、收聽者或用戶“取向”是指假定的收聽者或用戶的頭部的旋轉(zhuǎn)取向。例如,取向可以由俯仰角、偏航角和滾轉(zhuǎn)角中的一者或多者來定義。收聽者或用戶“位置”是指收聽者頭部或用戶頭部在前/后、左/右和上/下方向中的一個或多個方向上的位置。例如,位置可以由具有垂直的x軸、y軸和z軸的笛卡爾坐標(biāo)系來定義。應(yīng)當(dāng)理解,不同的收聽者取向和/或位置可以在取向和位置之一上不同,或者在取向和位置兩者上不同。設(shè)想的是,一些實施方式僅考慮取向變化(具有一個、兩個或三個自由度),而在其他實施方式中僅考慮位置變化(具有一個、兩個或三個自由度)。
9、取向和/或位置偏差值可以是兩個取向和/或位置之間的線性或非線性距離。另外,取向和/或位置偏差可以是兩個取向和/或位置之間的感知加權(quán)距離,如將在下文中進(jìn)一步詳細(xì)描述的。
10、可以針對時間-頻率表示的每個時間-頻率片更新變換參數(shù)。如下文將描述的,對于具有兩個聲道的音頻呈現(xiàn),每個變換參數(shù)集合可以包括少至四個或五個變換參數(shù)(其中一些可以為復(fù)值)或者甚至少至兩個實值變換參數(shù),這構(gòu)成了可以以低時延快速傳輸?shù)臄?shù)據(jù)量。變換參數(shù)仍然足以準(zhǔn)確地描述從主要呈現(xiàn)到附加呈現(xiàn)的取向/位置變換,并且在用戶取向/位置不對應(yīng)于與附加呈現(xiàn)相關(guān)聯(lián)的取向/位置的情況下可以用于找到經(jīng)修改的變換參數(shù)(使用例如插值)。
11、因此,即使例如針對每個時間-頻率片頻繁更新變換參數(shù),變換參數(shù)也僅表示少量數(shù)據(jù)(與用于表示音頻聲道的時間-頻率片的數(shù)百或數(shù)千個樣本相比),這些數(shù)據(jù)可以高效地傳輸?shù)降诙幚砟K。
12、此外,變換參數(shù)的應(yīng)用和/或修改在計算上是高效的,并且甚至在處理能力有限的處理模塊上也可以快速執(zhí)行,這意味著第二處理模塊可以在如頭戴式耳機(jī)、耳塞式耳機(jī)、無線耳塞、真無線耳塞、智能眼鏡或vr/ar/xr頭戴式裝置等有限設(shè)備上實施。通過接收與第一收聽者取向/位置相關(guān)聯(lián)的經(jīng)渲染的主要呈現(xiàn)以及與第二收聽者取向/位置相關(guān)聯(lián)的變換參數(shù),第二處理模塊可以快速修改變換參數(shù)并將其應(yīng)用于主要呈現(xiàn)以將所述呈現(xiàn)移位到第二收聽者取向/位置,如果這與實際用戶取向/位置更符合的話。還可以在將變換參數(shù)應(yīng)用于主要呈現(xiàn)之前例如使用插值來修改變換參數(shù),以更準(zhǔn)確地跟隨用戶的取向/位置。
13、通過這種方法,輸入音頻信號的渲染可以基于用戶的取向/位置來移位,從而向用戶呈現(xiàn)就像是固定在空間中的音頻呈現(xiàn)。作為說明性示例,音頻資產(chǎn)與來自收聽者正前方的虛擬舞臺的音樂相關(guān)聯(lián),并且用戶在站在物理空間中時使用耳塞式耳機(jī)來收聽這些音頻資產(chǎn)。如果用戶將他或她的頭部轉(zhuǎn)向右側(cè),則調(diào)整渲染,使得向收聽者呈現(xiàn)仿佛音樂來自左側(cè)的音頻呈現(xiàn)。這就是修改呈現(xiàn)以跟隨用戶的相對于音頻資產(chǎn)的虛擬三維空間的取向的示例。如果收聽者朝向或遠(yuǎn)離虛擬舞臺移動,則可以向用戶呈現(xiàn)其中音樂變得更響或更弱的音頻呈現(xiàn)。這就是修改呈現(xiàn)以跟隨用戶的相對于音頻資產(chǎn)的虛擬三維空間的位置的示例。一個或多個音頻資產(chǎn)還可以包括沿著虛擬三維空間中的軌跡移動的音頻對象。通過基于用戶的取向/位置來移位音頻資產(chǎn)的渲染,可以向收聽者提供使收聽者感知到音頻對象移動的軌跡在虛擬三維空間中是固定的音頻呈現(xiàn)。
14、在一些實施方式中,第一收聽者取向和/或位置與第二收聽者取向和/或位置在相應(yīng)的第一俯仰取向和第二俯仰取向上是不同的偏航取向,并且所述方法進(jìn)一步包括在第二處理模塊處獲得與第三俯仰取向相關(guān)聯(lián)的簡化變換參數(shù),所述簡化變換參數(shù)被配置為將主要經(jīng)渲染呈現(xiàn)或附加經(jīng)渲染呈現(xiàn)變換為具有第三俯仰取向的俯仰經(jīng)渲染呈現(xiàn),以及在第二處理模塊處基于取向偏差將簡化變換參數(shù)應(yīng)用于主要經(jīng)渲染呈現(xiàn)以生成輸出呈現(xiàn)。
15、也就是說,每個變換參數(shù)集合可以與在預(yù)定俯仰角(用戶向上看或向下看)下在偏航(用戶向左看或向右看)上不同的相應(yīng)取向相關(guān)聯(lián),并且變換參數(shù)捕獲對于變化的偏航角而言非常明顯的耳間效應(yīng)。另一方面,對于每個偏航角,為了跨越不同的俯仰角,針對偏離預(yù)定俯仰角的多個俯仰角傳送與(未簡化)變換參數(shù)相比具有更少參數(shù)值(例如每個聲道一個實際增益值)的簡化變換參數(shù)集合。因此,通過考慮到對偏航上的音頻呈現(xiàn)移位的敏感度不同于對俯仰上的呈現(xiàn)移位的敏感度,可以減少傳送到第二處理模塊的信息量,而不降低體驗質(zhì)量qoe。
16、根據(jù)本發(fā)明的第二方面,提供了一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括指令,當(dāng)所述程序由計算機(jī)執(zhí)行時,所述指令使所述計算機(jī)執(zhí)行根據(jù)第一方面的方法。
17、根據(jù)本發(fā)明的第三方面,提供了一種系統(tǒng),所述系統(tǒng)包括與第二處理模塊通信的第一處理模塊,其中,所述第一處理模塊和所述第二處理模塊被配置為執(zhí)行根據(jù)第一方面的方法。
18、根據(jù)第二方面的計算機(jī)程序產(chǎn)品和根據(jù)第三方面的系統(tǒng)的特征在于與根據(jù)第一方面的方法具有相同或等效的益處。關(guān)于方法所描述的任何功能可以具有系統(tǒng)或計算機(jī)程序產(chǎn)品中的對應(yīng)特征,反之亦然。