两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

具有解相關(guān)處理操作配置的空間化音頻編碼的制作方法

文檔序號:40615753發(fā)布日期:2025-01-07 21:05閱讀:22來源:國知局
具有解相關(guān)處理操作配置的空間化音頻編碼的制作方法

本發(fā)明涉及空間化聲音數(shù)據(jù)的編碼/解碼,尤其是在立體混響背景下(下文也表示為“高保真立體聲(ambisonic)”)。


背景技術(shù):

1、目前在移動電話中使用的編碼器/解碼器(下文稱為“編解碼器”)是單聲道的(用于在單一揚聲器上呈現(xiàn)的單個信號聲道)。3gpp?evs(代表“增強型語音服務(wù)”)編解碼器允許提供“超hd”(也稱為“高清加”或hd+語音)音質(zhì),其中,為以32khz或48khz采樣的信號提供swb(代表“超寬帶”)音頻帶或者為以48khz采樣的信號提供fb(代表“全帶”);音頻帶寬的范圍在swb模式(9.6kbit/s至128kbit/s)下為從14.4khz至16khz,并且在fb模式(16.4kbit/s至128kbit/s)下為20khz以上。

2、由運營商提供的會話服務(wù)的下一質(zhì)量演變應(yīng)該由沉浸式服務(wù)(這些沉浸式服務(wù)使用如配備有多個麥克風(fēng)的智能手機等終端)、或者遠(yuǎn)程呈現(xiàn)或360°視頻類型的空間化音頻會議或視頻會議設(shè)備、或者甚至具有比簡單的2d立體聲呈現(xiàn)更加沉浸式的3d空間化聲音呈現(xiàn)的“實時”音頻內(nèi)容共享設(shè)備組成。隨著音頻頭戴式耳機在移動電話上的使用日益廣泛以及先進(jìn)的音頻設(shè)備(如3d麥克風(fēng)、具有聲學(xué)天線的語音助手、虛擬現(xiàn)實頭戴式耳機等附件)的出現(xiàn),捕獲并呈現(xiàn)空間化聲音場景以提供沉浸式通信體驗如今已經(jīng)足夠普遍。

3、在這方面,未來的標(biāo)準(zhǔn)3gpp“ivas”(代表“沉浸式語音和音頻服務(wù)”)包括通過接受至少以下所列的空間化聲音格式(及其組合)作為編解碼器的輸入格式來將evs編解碼器擴(kuò)展為沉浸式的:

4、-立體聲或5.1類型的基于聲道的格式,其中,每個聲道供應(yīng)一個揚聲器(例如,立體聲中的l和r或5.1中的l、r、ls、rs和c);

5、-基于對象的格式,其中,聲音對象被描述為與描述該對象的屬性(空間中的位置、源空間寬度等)的元數(shù)據(jù)相關(guān)聯(lián)的音頻信號(通常是單聲道的),

6、-基于場景的格式,該格式描述了給定點的聲場,該聲場通常由球形麥克風(fēng)捕獲或在球諧函數(shù)域中合成。

7、通過示例性實施例,下文中的重點通常是以基于場景的(或高保真立體聲)格式對聲音進(jìn)行編碼(其中,下文中關(guān)于本發(fā)明呈現(xiàn)的至少某些方面還可以應(yīng)用于除了基于場景的格式之外的格式)。

8、高保真立體聲是錄制(聲學(xué)意義上的“編碼”)空間化聲音以及進(jìn)行再現(xiàn)(聲學(xué)意義上的“解碼”)的方法。高保真立體聲麥克風(fēng)(1階)包括布置在球面網(wǎng)格(例如正四面體的頂點)上的至少四個振膜艙(典型地為心型或亞心型)。與這些振膜艙相關(guān)聯(lián)的音頻聲道被稱為“a格式”。該格式被轉(zhuǎn)換成“b格式”,其中,聲場分解為以w、x、y、z表示的四個分量(球諧函數(shù)),這四個分量與四個重合的虛擬麥克風(fēng)相對應(yīng)。分量w與聲場的全向捕獲相對應(yīng),而更具方向性的分量x、y和z可以被認(rèn)為是沿著三個空間正交軸定向的壓力梯度麥克風(fēng)。高保真立體聲系統(tǒng)在錄音和呈現(xiàn)分開并且分離的意義上是一種靈活的系統(tǒng)。其允許對任何給定配置的揚聲器(例如,雙耳、5.1類型“環(huán)繞”聲或7.1.4類型的全向聲(具有仰角))進(jìn)行(聲學(xué)意義上的)解碼。高保真立體聲方法可以一般化為四個以上b格式聲道,并且這種一般化表示通常被稱為“hoa”(代表“高階高保真立體聲”)。將聲音分解成更多的球諧函數(shù)改善了在揚聲器上呈現(xiàn)時的空間精準(zhǔn)度。

9、m階高保真立體聲信號包括k=(m+1)2個分量,并且在1階(如果m=1)時(通常被稱為foa(代表一階高保真立體聲))有四個分量w、x、y和z被恢復(fù)。還存在稱為“平面”的高保真立體聲變體(w、x、y),該“平面”高保真立體聲變體對在通常是水平面的平面上定義的聲音進(jìn)行分解。在這種情況下,分量的數(shù)量是k=2m+1個聲道。為了便于閱讀,1階高保真立體聲(4個聲道:w、x、y、z)、1階平面高保真立體聲(3個聲道:w、x、y)、更高階高保真立體聲在下文中均以“高保真立體聲”表示,所呈現(xiàn)的處理操作無論類型、平面或其他方面以及高保真立體聲分量的數(shù)量如何都是適用的。

10、在下文中,“高保真立體聲信號”將指具有一定數(shù)量的高保真立體聲分量的預(yù)定順序的b格式信號。這還包括混合情況,其中,例如,在2階時,僅存在8個聲道(而不是9個)——更確切地,在2階時,存在4個1階聲道(w、x、y、z),通常會加上5個聲道(通常表示為r、s、t、u、v),并且其中一個高階聲道(例如r)可能例如會被忽略。這還包括高保真立體聲信號已經(jīng)經(jīng)歷預(yù)處理以便在編碼之前將其變換為預(yù)處理聲道的情況。

11、要由編碼器/解碼器處理的信號采用連續(xù)的聲音樣本塊的形式,下文中稱為“幀”或“子幀”。

12、此外,在下文中,數(shù)學(xué)符號遵循以下慣例:

13、-標(biāo)量:s或n(小寫字母用于變量或大寫字母用于常量)

14、-運算符re(.)表示復(fù)數(shù)的實部

15、-向量:u(小寫字母,粗體)

16、-矩陣:a(大寫字母,粗體)

17、符號和分別指示的轉(zhuǎn)置和埃爾米特轉(zhuǎn)置(轉(zhuǎn)置和共軛)。

18、在長度為l的時間間隔i=0,…,l-1內(nèi)定義的一維離散時間信號s(i)用以下行向量表示

19、

20、這也可以寫成:以避免使用圓括號。

21、-在長度為l的時間間隔i=0,…,l-1內(nèi)定義并具有k個維度的多維度離散時間信號用以下大小為l×k的矩陣表示:

22、

23、這也可以寫成:以避免使用圓括號。

24、此外,此處沒有提起從現(xiàn)有高保真立體聲技術(shù)中已知的關(guān)于高保真立體聲分量(包括acn(代表“高保真立體聲聲道數(shù)量”)、sid(代表“單一指數(shù)命名”)、fuma(代表“弗斯-馬哈姆(furse-malham)”))的階數(shù)以及高保真立體聲分量(sn3d、n3d、maxn)的歸一化的慣例。更多細(xì)節(jié)可以見于例如可在線獲得的資源:

25、https://en.wikipedia.org/wiki/ambisonic_data_exchange_formats

26、按照慣例,高保真立體聲信號的第一分量通常對應(yīng)于全向分量w。

27、用于對高保真立體聲信號進(jìn)行編碼的最簡單的方法在于使用單聲道編碼器,并且將單聲道編碼器單獨應(yīng)用于各個聲道中的每一個,同時潛在地根據(jù)聲道分配不同的比特。此處該方法被稱為“多單聲道”。多單聲道方法可以擴(kuò)展到多立體聲編碼(其中,聲道對由立體聲編解碼器單獨編碼)或者更一般地擴(kuò)展到使用相同核心編解碼器的多個相似實例。輸入信號被劃分為聲道(一個單聲道或若干聲道)。這些聲道根據(jù)預(yù)定分布和二進(jìn)制分配被單獨編碼。在解碼時,根據(jù)輸入信號的慣例對解碼后的聲道進(jìn)行重新組合。

28、多單聲道或多立體聲編碼的質(zhì)量取決于所使用的核心編碼和解碼而變化,并且通常只有在非常高的速率下才能令人滿意。例如,在多單聲道的情況下,evs編碼在速率為至少每聲道(單聲道)48kbit/s時可以被判定為準(zhǔn)透明(從感知的角度來看);因此,對于1階高保真立體聲信號,最低速率為4×48=192kbit/s。由于多單聲道編碼方法沒有考慮到聲道間關(guān)聯(lián),因此該方法產(chǎn)生了空間變形和各種偽像,如幻象聲源、漫射噪聲或聲源路徑移位的出現(xiàn)。因此,根據(jù)該方法對高保真立體聲信號進(jìn)行編碼導(dǎo)致了空間化的退化。

29、聲道單獨編碼的替代方法是參數(shù)編碼,如dirac編碼,其例如在以下文章中描述:v.pulkki,spatial?sound?reproduction?with?directional?audio?coding[利用定向音頻編碼的空間聲音再現(xiàn)],journal?of?the?audio?engineering?society[音頻工程學(xué)會雜志],第55卷,第6期,第503-516頁,2007年。在該文獻(xiàn)中,按幀和子帶執(zhí)行高保真立體聲信號的定向分析以確定源方向(doa)。doa由“擴(kuò)散”參數(shù)完成,這給出了聲音場景的參數(shù)描述。多聲道輸入信號以下混聲道(典型地通過減少多個拾音聲道而獲得的單聲道或立體聲信號)和空間元數(shù)據(jù)(每個子帶的doa和“擴(kuò)散”)的形式進(jìn)行編碼。

30、本發(fā)明還涉及在以下出版物中描述的另一種特定高保真立體聲編碼方法:

31、-p.mahé、s.ragot、s.marchand,“first-order?ambisonic?coding?withquaternion-based?interpolation?of?pca?rotation?matrices[利用pca旋轉(zhuǎn)矩陣的基于四元數(shù)插值的一階高保真立體聲編碼]”,proc.eaa?spatial?audio?signal?processingsymposium[eaa空間音頻信號處理研討會論文集],法國巴黎,2019年9月,第7-12頁

32、-p.mahé、s.ragot、s.marchand,“first-order?ambisonic?coding?with?pcamatrixing?and?quaternion-based?interpolation[利用pca矩陣和基于四元數(shù)的插值的一階高保真立體聲編碼]”,proc.dafx[數(shù)字音頻效果論文集],英國伯明翰,2019年9月。

33、這種方法(以下稱為主成分分析編碼或簡稱為pca編碼)使用與pca分析的特征向量相關(guān)聯(lián)的旋轉(zhuǎn)矩陣的量化和插值,如也在專利申請wo?2020177981中描述的。這種類型的高保真立體聲編碼的策略是使高保真立體聲信號的聲道解相關(guān),然后使用核心(例如,多單聲道)編解碼器對這些變換后的聲道進(jìn)行單獨編碼。這種策略允許限制已解碼的高保真立體聲信號中的空間偽像。

34、在該方法中,對于1階高保真立體聲信號,3d中大小為4×4的旋轉(zhuǎn)矩陣(來自pca/klt分析,如例如上文的專利申請中描述的)被轉(zhuǎn)換為經(jīng)編碼的參數(shù),例如6個一般化的歐拉角或兩個單位四元數(shù)。

35、在不失一般性的情況下,在此更具體地保留四元數(shù)的域,這允許有效地對為pca/klt分析而計算的變換矩陣進(jìn)行插值;由于變換矩陣是旋轉(zhuǎn)矩陣,因此在解碼時,逆矩陣化運算是簡單地通過對在編碼時應(yīng)用的矩陣進(jìn)行轉(zhuǎn)置來執(zhí)行的。

36、圖1展示了在旋轉(zhuǎn)矩陣的編碼和插值時都使用四元數(shù)表示的情況下的這種編碼方法。編碼分若干步驟進(jìn)行。

37、尺寸為k×l(即l個時間或者頻率樣本的k個分量)的原始多聲道信號位于輸入端。在塊100中,pca分析分為若干步驟執(zhí)行:

38、-假設(shè)聲道(例如,對于foa的情況為w、y、z、x)的信號呈具有n×l矩陣(每幀有n個高保真立體聲聲道(在這里是4)和l個樣本)的矩陣的形式??蛇x地,可以例如通過高通濾波器對這些聲道進(jìn)行預(yù)處理。

39、獲得多聲道信號的協(xié)方差矩陣,例如如下所示:

40、以在歸一化因數(shù)內(nèi)(在實數(shù)情況下)

41、或者

42、以在歸一化因數(shù)內(nèi)(在復(fù)數(shù)情況下)

43、可以使用用于對協(xié)方差矩陣進(jìn)行時間平滑的操作。在時域中的多聲道信號的情況下,協(xié)方差可以以遞歸方式(逐個樣本地)來估計。幀還可以被劃分為子幀,并且每個子幀確定一個協(xié)方差矩陣,隨后對協(xié)方差矩陣進(jìn)行平滑處理。

44、的對角元素特別以cii的形式表示,其表示pca處理的第i個輸入聲道的能量

45、-應(yīng)用主成分分析pca,或者以等效方式應(yīng)用karhunen-loeve變換(klt),其中將協(xié)方差矩陣分解成特征值,以便獲得特征值和特征向量矩陣使得

46、-為當(dāng)前幀t獲得的初始特征值矩陣經(jīng)歷有符號排列,使得其盡可能與性質(zhì)和前一幀t-1相同的矩陣對齊,以便確保兩個幀之間的變換矩陣之間的最大相干性。還確保了這樣通過有符號排列進(jìn)行校正的當(dāng)前幀t的特征值矩陣確實表示旋轉(zhuǎn)的應(yīng)用。

47、在塊110中,將當(dāng)前幀t的新特征值矩陣(其為旋轉(zhuǎn)矩陣)轉(zhuǎn)換為適當(dāng)?shù)牧炕瘏?shù)域。這里,對應(yīng)的特征值矩陣表示為這里,考慮了對于4×4矩陣轉(zhuǎn)換為2個單位四元數(shù)的情況;在平面高保真立體聲的情況下,將存在3×3矩陣的單個單位四元數(shù)。

48、在維度為4(n=4)的情況下,旋轉(zhuǎn)矩陣可以通過兩個單位四元數(shù)和的乘積以矩陣形式來參數(shù)化:

49、

50、其中,四元數(shù)是且其中,例如:

51、

52、并且

53、

54、相反地,給定4×4旋轉(zhuǎn)矩陣,可以找到相關(guān)聯(lián)的雙四元數(shù)以及對應(yīng)的矩陣。換句話說,可以例如使用被稱為“凱萊因式分解”的方法將這個矩陣因式分解成形式為的矩陣乘積。這通常涉及計算被稱為“相關(guān)聯(lián)矩陣”(或“四方變換”)的中間矩陣,并從中推斷出四元數(shù),盡管兩個四元數(shù)的符號并不確定。

55、根據(jù)現(xiàn)有技術(shù)的編碼方法(塊120)通過分配給參數(shù)量化的多個比特對這些參數(shù)進(jìn)行編碼。例如,對于可以使用19比特,而對于使用18比特,這給出了每幀nq=37比特的預(yù)算。

56、當(dāng)前幀被劃分成子幀,這里假設(shè)子幀數(shù)量是固定的。編碼后的四元數(shù)的表示由索引t’的連續(xù)子幀從前一幀t-1的末尾到當(dāng)前幀t的末尾進(jìn)行插值(塊130),以便在時間上平滑幀間矩陣化之間的差異。將在每個子幀內(nèi)插值的四元數(shù)轉(zhuǎn)換成旋轉(zhuǎn)矩陣(塊140),然后應(yīng)用在每個子幀內(nèi)解碼和插值的結(jié)果旋轉(zhuǎn)矩陣(塊150)。

57、在塊150的輸出端,獲得表示高保真立體聲聲道的信號的每個子幀的矩陣,用于對這些信號進(jìn)行解相關(guān)并獲得變換后的信號還基于從其中減去塊120中使用的nq個比特的總比特數(shù)來執(zhí)行對單獨聲道的二進(jìn)制分配(塊160)。

58、圖2展示了對應(yīng)的解碼。根據(jù)與編碼(塊120)相對應(yīng)的解碼方法對當(dāng)前幀中的旋轉(zhuǎn)矩陣的量化參數(shù)的量化索引進(jìn)行解復(fù)用(塊200)并在塊230中進(jìn)行解碼。還基于與編碼器(塊160)相同的二進(jìn)制分配(塊210)對變換后的聲道進(jìn)行解碼(塊220)。

59、解碼器的轉(zhuǎn)換和插值步驟(塊240、250)與在編碼器處執(zhí)行的步驟(塊130和140)相同。

60、塊260按子幀將來自塊250的逆矩陣化應(yīng)用于高保真立體聲聲道的經(jīng)解碼信號,憶及旋轉(zhuǎn)矩陣的逆矩陣是其轉(zhuǎn)置矩陣。應(yīng)當(dāng)注意,與編碼-解碼(塊170和220)相關(guān)的算法延遲必須通過以適當(dāng)?shù)姆绞皆诖鎯ζ髦写鎯δ婢仃嚮祦硌a償。

61、如在圖1和圖2中實施的高保真立體聲編碼假設(shè)輸入聲道(充分)相關(guān)。特別地,假設(shè)塊150的解相關(guān)提供編碼增益;此外,假設(shè)矩陣化從一幀到另一幀是穩(wěn)定的,從而不會在變換后的信號中生成音頻偽像。還應(yīng)注意,元數(shù)據(jù)的編碼(塊120)使用通常約為2kbit/s的速率(例如,當(dāng)20ms每幀的nq=37比特時為1.85kbit/s),該速率取自聲道的編碼預(yù)算(塊160和170)。

62、然而,對于一些信號,如聲場相對較為擴(kuò)散的掌聲錄音,解相關(guān)增益可能較低。對于空間不穩(wěn)定的信號,例如其在聲音空間中的每個幀處的定位快速交替的打擊聲音,pca分析(塊100)可能導(dǎo)致矩陣化按發(fā)生非常大的變化。在這兩種情況下,不斷使用元數(shù)據(jù)來表示pca變換并不十分相關(guān)。

63、本發(fā)明將改善這種狀況。


技術(shù)實現(xiàn)思路

1、為此目的,本發(fā)明提供了一種用于對音頻信號進(jìn)行編碼的方法,這些音頻信號在呈階數(shù)高于0的高保真立體聲表示的n個聲道中的每一個聲道內(nèi)在時間上形成一系列樣本幀(t-1,t),該方法包括:

2、-針對要編碼的當(dāng)前幀,確定指示要對該當(dāng)前幀的信號應(yīng)用的解相關(guān)處理的活動模式(on)或非活動模式(off)的二進(jìn)制值,并且將該值編碼到比特流中;

3、-在模式被確定為活動的情況下,將解相關(guān)處理信息編碼到該比特流中;

4、-根據(jù)為該當(dāng)前幀確定的模式和為前一幀確定的模式,生成輸出信號以將其編碼到該比特流中。

5、因此,本發(fā)明允許根據(jù)輸入信號的特性來調(diào)整對n個聲道之間的解相關(guān)的使用。

6、在一個實施例中,對指示活動或非活動模式的該二進(jìn)制值的確定是根據(jù)用于在解相關(guān)處理之前和之后對信號進(jìn)行編碼的至少一個增益標(biāo)準(zhǔn)來執(zhí)行的。

7、因此,該標(biāo)準(zhǔn)允許確保解相關(guān)處理提供足夠的增益,以便激活。

8、根據(jù)一個特定實施例,該編碼增益由以下對數(shù)值定義:

9、

10、其中,是該解相關(guān)處理的輸入聲道的能量,并且λi是這些輸入聲道的特征值,對于該增益g的預(yù)定義值,該模式被確定為非活動。

11、在一個實施例中,對指示活動或非活動模式的該二進(jìn)制值的確定是根據(jù)應(yīng)用該解相關(guān)處理的旋轉(zhuǎn)矩陣之間的幀間距離的標(biāo)準(zhǔn)來執(zhí)行的。

12、因此,根據(jù)該距離的值,調(diào)整要編碼的信號的生成,以避免應(yīng)用解相關(guān)處理的變換矩陣變化太大。

13、根據(jù)其中旋轉(zhuǎn)矩陣被表示為雙四元數(shù)的一個特定實施例,旋轉(zhuǎn)矩陣之間的幀間距離使用當(dāng)前幀的四元數(shù)與前一幀的四元數(shù)之間的標(biāo)量積來表示。

14、在一個實施例中,對指示活動或非活動模式的該二進(jìn)制值的確定是根據(jù)該當(dāng)前幀的應(yīng)用該解相關(guān)處理的旋轉(zhuǎn)矩陣與恒等矩陣之間的距離標(biāo)準(zhǔn)來執(zhí)行的。

15、因此,在此再次,根據(jù)該距離的值,調(diào)整要編碼的信號的生成,以避免應(yīng)用解相關(guān)處理的變換矩陣相對于輸入的直接編碼變化太大。

16、在旋轉(zhuǎn)矩陣被表示為雙四元數(shù)的一個特定實施例中,當(dāng)前幀的旋轉(zhuǎn)矩陣與恒等矩陣之間的距離以當(dāng)前幀的四元數(shù)與單位四元數(shù)之間的標(biāo)量積的形式表示。

17、本發(fā)明適用于一種用于對音頻信號進(jìn)行解碼的方法,這些音頻信號在作為階數(shù)高于0的高保真立體聲表示的n個聲道中的每一個聲道中在時間上形成一系列樣本幀(t-1,t),該方法包括:

18、-針對當(dāng)前幀(t),除了該當(dāng)前幀的n個聲道的信號之外,接收指示對該當(dāng)前幀的信號應(yīng)用的解相關(guān)處理的活動或非活動模式的二進(jìn)制值;

19、-在模式被確定為活動的情況下,對在比特流中接收到的解相關(guān)處理信息進(jìn)行解碼;

20、-根據(jù)為該當(dāng)前幀確定的所述模式和為前一幀確定的模式,生成輸出信號。

21、該解碼方法具有與對應(yīng)的編碼方法相同的優(yōu)點。

22、本發(fā)明還旨在一種編碼設(shè)備,該編碼設(shè)備包括用于實施先前提出的編碼方法的處理電路。

23、本發(fā)明還旨在一種解碼設(shè)備,該解碼設(shè)備包括用于實施上述解碼方法的處理電路。

24、本發(fā)明還旨在一種包括指令的計算機程序,這些指令用于在處理電路的處理器執(zhí)行這些指令時實施上述方法。

25、本發(fā)明還旨在一種存儲這種計算機程序的指令的非易失性存儲器介質(zhì)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
抚松县| 肇源县| 金阳县| 和平县| 溧水县| 蓬安县| 汉阴县| 彰化县| 盱眙县| 汉源县| 崇信县| 隆尧县| 库伦旗| 庆安县| 当阳市| 高安市| 麻栗坡县| 宣化县| 大厂| 呼伦贝尔市| 柳河县| 体育| 黄梅县| 吕梁市| 登封市| 长阳| 莱阳市| 青阳县| 彩票| 鹿邑县| 阜康市| 长顺县| 乌拉特前旗| 马公市| 乌兰察布市| 都江堰市| 永嘉县| 冀州市| 方城县| 宜良县| 沿河|