將輸入聲道配置的多個(gè)輸入聲道映射至輸出聲道配置的輸出聲道的方法、信號(hào)處理單元 ...的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及用于將輸入聲道配置的多個(gè)輸入聲道映射至輸出聲道配置的輸出聲 道的方法及信號(hào)處理單元,特別地,設(shè)及適用于不同揚(yáng)聲器聲道配置之間的格式降混轉(zhuǎn)換 的方法及裝置。
【背景技術(shù)】
[0002] 空間音頻編碼工具為業(yè)界眾所周知且已經(jīng)標(biāo)準(zhǔn)化,例如MPEG環(huán)繞標(biāo)準(zhǔn)??臻g音頻 編碼始于多個(gè)原始輸入,例如5或7個(gè)輸入聲道,通過(guò)其在重現(xiàn)設(shè)置中的布置識(shí)別,例如識(shí)別 為左聲道、中聲道、右聲道、左環(huán)繞聲道、右環(huán)繞聲道、及低頻加強(qiáng)(LFE)聲道??臻g音頻編碼 器可從原始聲道得到一個(gè)或多個(gè)降混聲道,此外,可得到與空間線索相關(guān)的參數(shù)數(shù)據(jù),如聲 道相干值中的聲道間位準(zhǔn)差、聲道間相位差、聲道間時(shí)間差等。一個(gè)或多個(gè)降混聲道與指示 空間線索的參數(shù)邊帶信息一起傳送給空間音頻解碼器用于解碼降混聲道及相關(guān)聯(lián)的參數(shù) 數(shù)據(jù),從而最終獲得輸出聲道,其為原始輸入聲道的近似版本。聲道在輸出設(shè)置中的布置可 W為固定,例如5.1格式、7.1格式等。
[0003] 此外,空間音頻對(duì)象編碼工具為業(yè)界眾所周知且已經(jīng)標(biāo)準(zhǔn)化,例如MPEG SAOC標(biāo)準(zhǔn) (SAOC =空間音頻對(duì)象編碼)。與始于原始聲道的空間音頻編碼相反,空間音頻對(duì)象編碼始 于非自動(dòng)專用于某些擅染重現(xiàn)設(shè)置的音頻對(duì)象。更確切地,音頻對(duì)象在重現(xiàn)場(chǎng)景中的布置 是靈活的且可由用戶設(shè)置,例如通過(guò)將某些擅染信息輸入空間音頻對(duì)象編碼解碼器內(nèi)???選地或額外地,擅染信息可W作為額外的邊帶信息或元數(shù)據(jù)被傳輸;擅染信息可包括某個(gè) 音頻對(duì)象將被布置(例如經(jīng)過(guò)一段時(shí)間)在重現(xiàn)設(shè)置中的哪個(gè)位置的信息。為了獲得某個(gè)數(shù) 據(jù)壓縮,使用SAOC編碼器對(duì)多個(gè)音頻對(duì)象進(jìn)行編碼,通過(guò)根據(jù)某個(gè)降混信息對(duì)對(duì)象進(jìn)行降 混,SAOC編碼器從輸入對(duì)象計(jì)算一或多個(gè)傳送聲道。此外,SAOC編碼器計(jì)算表示對(duì)象間線索 的參數(shù)邊帶信息,如對(duì)象級(jí)差(OLD)、對(duì)象相干值等。如在SAC(SAC =空間音頻編碼)中,對(duì)于 各個(gè)時(shí)間/頻率拼貼塊(tile)計(jì)算對(duì)象間參數(shù)數(shù)據(jù)。對(duì)于音頻信號(hào)的某個(gè)帖(例如1024或 2048個(gè)樣本),考慮多個(gè)頻帶(例如24、32或64個(gè)頻帶),W便為每個(gè)帖及每個(gè)頻帶提供參數(shù) 數(shù)據(jù)。例如,當(dāng)音頻片段有20帖且每個(gè)帖被劃分為32個(gè)頻帶時(shí),時(shí)間/頻率拼貼塊的數(shù)量為 640。
[0004] 期望的重現(xiàn)格式,即輸出聲道配置(輸出揚(yáng)聲器配置)可與輸入聲道配置不同,其 中輸出聲道的數(shù)量與輸入聲道的數(shù)量不同。因此,可W要求格式轉(zhuǎn)換W將輸入聲道配置的 輸入聲道映射至輸出聲道配置的輸出聲道。
【發(fā)明內(nèi)容】
[000引本發(fā)明的目的在于提出一種W靈活的方式將輸入聲道配置的輸入聲道映射至輸 出聲道配置的輸出聲道的被認(rèn)可的辦法。
[0006]此目的由權(quán)利要求1的方法、權(quán)利要求25的計(jì)算機(jī)程序、權(quán)利要求26的信號(hào)處理單 元及權(quán)利要求27的音頻解碼器實(shí)現(xiàn)。
[0007] 本發(fā)明的實(shí)施例提出一種用于將輸入聲道配置的多個(gè)輸入聲道映射至輸出聲道 配置的輸出聲道的方法,該方法包括:
[0008] 提供與多個(gè)輸入聲道的每個(gè)輸入聲道相關(guān)聯(lián)的規(guī)則集合,其中集合中的規(guī)則定義 相關(guān)聯(lián)的輸入聲道與輸出聲道集合之間的不同映射;
[0009] 對(duì)于多個(gè)輸入聲道的每個(gè)輸入聲道,訪問(wèn)與該輸入聲道相關(guān)聯(lián)的規(guī)則,確定相關(guān) 聯(lián)的規(guī)則中定義的輸出聲道集合是否存在于輸出聲道配置中,W及如果訪問(wèn)的規(guī)則中定義 的輸出聲道集合存在于輸出聲道配置中,選擇該訪問(wèn)的規(guī)則;W及
[0010] 根據(jù)所選擇的規(guī)則,將輸入聲道映射至輸出聲道。
[0011] 本發(fā)明的實(shí)施例提供一種計(jì)算機(jī)程序,當(dāng)其在計(jì)算機(jī)或處理器上運(yùn)行時(shí),執(zhí)行此 種方法。本發(fā)明的實(shí)施例提供一種包括用于或被編程為執(zhí)行此種方法的處理器的信號(hào)處理 單元。本發(fā)明的實(shí)施例提供一種包括此種信號(hào)處理單元的音頻解碼器。
[0012] 本發(fā)明的實(shí)施例基于新穎的方法,其中描述潛在輸入-輸出聲道映射的規(guī)則集合 與多個(gè)輸入聲道中的每個(gè)輸入聲道相關(guān)聯(lián),并且其中對(duì)于給定輸入-輸出聲道配置選擇規(guī) 則集合中的一個(gè)規(guī)則。由此,規(guī)則不與輸入聲道配置或與特定輸入-聲道配置相關(guān)聯(lián)。因此, 對(duì)于給定輸入聲道配置及特定輸出聲道配置,對(duì)于給定輸入聲道配置中存在的多個(gè)輸入聲 道的每個(gè),訪問(wèn)相關(guān)聯(lián)的規(guī)則集合W便確定哪個(gè)規(guī)則匹配給定的輸出聲道配置。規(guī)則可直 接定義待應(yīng)用至輸入聲道的一個(gè)或多個(gè)系數(shù),或可定義待應(yīng)用的處理W得到待應(yīng)用至輸入 聲道的系數(shù)。根據(jù)系數(shù),可生成系數(shù)矩陣如降混(DMX)矩陣,其可應(yīng)用至給定輸入聲道配置 的輸入聲道W將其映射至給定輸出聲道配置的輸出聲道。由于規(guī)則集合與輸入聲道相關(guān)聯(lián) 而非與輸入聲道配置或特定輸入-輸出聲道配置相關(guān)聯(lián),因此本發(fā)明辦法可W靈活的方式 用于不同輸入聲道配置及不同輸出聲道配置。
[0013] 在本發(fā)明的實(shí)施例中,聲道表示音頻通道,其中各個(gè)輸入聲道及各個(gè)輸出聲道具 有方向,其中相關(guān)聯(lián)的揚(yáng)聲器相對(duì)于中屯、收聽(tīng)者位置定位。
【附圖說(shuō)明】
[0014] 將關(guān)于附圖描述本發(fā)明的實(shí)施例,其中:
[0015] 圖1顯示3D音頻系統(tǒng)的3D音頻編碼器的概述;
[0016] 圖2顯示3D音頻系統(tǒng)的3D音頻解碼器的概述;
[0017] 圖3顯示用于實(shí)現(xiàn)可在圖2的3D音頻解碼器中實(shí)現(xiàn)的格式轉(zhuǎn)換器的實(shí)施例;
[0018] 圖4顯示揚(yáng)聲器配置的示意俯視圖;
[0019] 圖5顯示另一揚(yáng)聲器配置的示意后視圖;
[0020] 圖6a顯示用于將輸入聲道配置的輸入聲道映射至輸出聲道配置的輸出聲道的信 號(hào)處理單元的框圖;
[0021] 圖化顯示根據(jù)本發(fā)明實(shí)施例的信號(hào)處理單元;
[0022] 圖7顯示用于將輸入聲道配置的輸入聲道映射至輸出聲道配置的輸出聲道的方 法;及
[0023] 圖8更詳細(xì)地顯示映射步驟的示例。
【具體實(shí)施方式】
[0024] 在詳細(xì)描述本發(fā)明方法的實(shí)施例之前,給出其中可實(shí)現(xiàn)本發(fā)明方法的3D音頻編解 碼系統(tǒng)的概述。
[0025] 圖1和圖2顯示根據(jù)據(jù)實(shí)施例的3D音頻系統(tǒng)的算法塊。更具體地,圖1顯示3D音頻編 碼器100的概述。音頻編碼器100在預(yù)擅染器/混合器電路1〇2(可選擇性地設(shè)置)處接收輸入 信號(hào),更具體地,多個(gè)輸入聲道提供多個(gè)聲道信號(hào)104、多個(gè)對(duì)象信號(hào)106及對(duì)應(yīng)的對(duì)象元數(shù) 據(jù)108給音頻編碼器100。通過(guò)預(yù)擅染器/混合器102處理的對(duì)象信號(hào)106(參考信號(hào)110)可被 提供給SAOC編碼器112(SA0C =空間音頻對(duì)象編碼)"SA0C編碼器112生成提供給USAC編碼器 116(USAC =統(tǒng)一語(yǔ)音及音頻編碼)的輸入。此外,信號(hào)SAOC-SI 118(SA0C-SI = SAOC邊帶信 息)也提供給USAC編碼器116的輸入。USAC編碼器116進(jìn)一步從預(yù)擅染器/混合器直接接收對(duì) 象信號(hào)120W及聲道信號(hào)及預(yù)擅染的對(duì)象信號(hào)122。對(duì)象元數(shù)據(jù)信息108被應(yīng)用至OAM編碼器 124(0AM=對(duì)象元數(shù)據(jù)),0AM編碼器124提供壓縮的對(duì)象元數(shù)據(jù)信息126給USAC編碼器?;?前述輸入信號(hào),USAC編碼器116生成壓縮輸出信號(hào)MP4,如128所示。
[0026] 圖2顯示3D音頻系統(tǒng)的3D音頻解碼器200的概述。音頻解碼器200,更具體地,USAC 解碼器202接收由圖1的音頻編碼器100所產(chǎn)生的編碼信號(hào)128(MP4)dUSAC解碼器202將接收 到的信號(hào)128解碼成聲道信號(hào)204、預(yù)擅染的對(duì)象信號(hào)206、對(duì)象信號(hào)208、及SAOC傳送聲道信 號(hào)210。進(jìn)一步地,壓縮的對(duì)象元數(shù)據(jù)信息212及信號(hào)SAOC-SI 214通過(guò)USAC解碼器輸出。對(duì) 象信號(hào)208被提供給對(duì)象擅染器216,對(duì)象擅染器216輸出擅染的對(duì)象信號(hào)218dSA0C傳送聲 道信號(hào)210被提供給SAOC解碼器220,SA0C解碼器220輸出擅染的對(duì)象信號(hào)222。壓縮的對(duì)象 元數(shù)據(jù)信息212被提供給OAM解碼器224用于輸出各個(gè)控制信號(hào)給對(duì)象擅染器216W及提供 給SAOC解碼器220用于生成擅染的對(duì)象信號(hào)218及擅染的對(duì)象信號(hào)222。解碼器進(jìn)一步包括 混合器226,如圖2所示,混合器226接收輸入信號(hào)204、206、218及222用于輸出聲道信號(hào)228。 如230指示,聲道信號(hào)可直接輸出給揚(yáng)聲器,例如32聲道揚(yáng)聲器??蛇x地,信號(hào)228可提供給 格式轉(zhuǎn)換電路232,格式轉(zhuǎn)換電路232接收信號(hào)228作為指示聲道信號(hào)228被轉(zhuǎn)換的方式的重 現(xiàn)布局信號(hào)的控制輸入。在圖2描繪的實(shí)施例中,假設(shè)W信號(hào)可被提供給5.1揚(yáng)聲器系統(tǒng)(如 234指示)的方式完成轉(zhuǎn)換。此外,聲道信號(hào)228被提供給雙耳擅染器236生成兩個(gè)輸出信號(hào), 例如用于耳機(jī),如238指示。
[0027] 圖1及2描繪的編碼/解碼系統(tǒng)可基于用于聲道及對(duì)象信號(hào)的編碼(參考信號(hào)104及 106)的MPEG-D USAC編解碼器。為了提高編碼大量對(duì)象的效率,可使用MPEG SAOC技術(shù)。S個(gè) 類型的擅染器可執(zhí)行下列工作:擅染對(duì)象至聲道,擅染聲道至耳機(jī),或擅染聲道至不同揚(yáng)聲 器設(shè)置(參考圖2,附圖標(biāo)記230、234及238)。當(dāng)對(duì)象信號(hào)被顯式傳輸或使用SAOC參數(shù)化編碼 時(shí),相應(yīng)的對(duì)象元數(shù)據(jù)信息108被壓縮(參考信號(hào)126)及多路復(fù)用為3D音頻比特流128。
[0028] 圖1及圖2顯示用于總體3D音頻系統(tǒng)的算法塊,下面將進(jìn)一步詳細(xì)地描述。
[0029] 可選擇性地提供預(yù)擅染器/混合器102W在編碼之前將聲道加對(duì)象輸入場(chǎng)景轉(zhuǎn)換 成聲道場(chǎng)景。功能上而言其與對(duì)象擅染器/混合器相同,下面將詳細(xì)描述。可W期望對(duì)象的 預(yù)擅染W(wǎng)確保編碼器輸入處的確定性信號(hào)賭基本上與同時(shí)作用的對(duì)象信號(hào)的數(shù)量相獨(dú)立。 通過(guò)對(duì)象的預(yù)擅染,無(wú)需傳輸對(duì)象元數(shù)據(jù)。離散對(duì)象信號(hào)被擅染至編碼器使用的聲道布局。 從相關(guān)聯(lián)的對(duì)象元數(shù)據(jù)(OAM)獲得用于每個(gè)聲道的對(duì)象的加權(quán)。
[0030] USAC編碼器116為用于揚(yáng)聲器聲道信號(hào)、離散對(duì)象信號(hào)、對(duì)象降混信號(hào)及預(yù)擅染的 信號(hào)的核屯、編解碼器。它基于MPEG-D USAC技術(shù)。它基于輸入聲道及對(duì)象分配的幾何及語(yǔ)義 信息而產(chǎn)生聲道及對(duì)象映射信息,從而處理上述信號(hào)的編碼。運(yùn)個(gè)映射信息描述如何將輸 入聲道及對(duì)象映射至USAC-聲道元素(如聲道對(duì)元素(CPE)、單聲道元素(SCE)、低頻音效 (L陽(yáng))及四聲道立體聲元素(QCE)) W及如何將CPE、SCE及L陽(yáng)、及相對(duì)應(yīng)信息傳輸至解碼器。 在編碼器速率控制中考慮所有額外的載荷,例如SAOC數(shù)據(jù)114、118或?qū)ο笤獢?shù)據(jù)126。取決 于擅染器的速率/失真要求及交互要求,可W W不同的方式進(jìn)行對(duì)象的編碼。根據(jù)實(shí)施例, 下列對(duì)象編碼變化是可能的:
[0031] ?預(yù)擅染對(duì)象:在編碼之前,對(duì)象信號(hào)被預(yù)擅染及混合成22.2聲道信號(hào)。后續(xù)編碼 鏈參見(jiàn)22.2聲道信號(hào)。
[0032] ?離散對(duì)象波形:對(duì)象作為單聲道波形提供給編碼器。除了聲道信號(hào)之外,編碼器 使用單聲道元素(SCE) W發(fā)送對(duì)象。解碼的對(duì)象在接收器端被擅染及混合。壓縮的對(duì)象元數(shù) 據(jù)信息被傳輸至接收器/擅染器。
[0033] ?參數(shù)對(duì)象波形:利用SAOC參數(shù)描述對(duì)象性質(zhì)及彼此之間的關(guān)系。對(duì)象信號(hào)的降 混由USAC編碼。一起傳輸參數(shù)信息。取決于對(duì)象的數(shù)量及總數(shù)據(jù)速率,選擇降混聲道的數(shù) 量。壓縮的對(duì)象元數(shù)據(jù)信息被傳輸至SAOC擅染器。
[0034] 用于對(duì)象信號(hào)的SAOC編碼器112及SAOC解碼器220可基于MPEG SAOC技術(shù)?;谳^ 少數(shù)量的被傳輸?shù)穆暤兰邦~外參數(shù)數(shù)據(jù)如化D、I0C(對(duì)象間相干性)、DMG (降混增益),系統(tǒng) 能夠重建、修改及擅染多個(gè)音頻對(duì)象。與分別地傳輸全部對(duì)象所要求的數(shù)據(jù)速率相比,額外 參數(shù)數(shù)據(jù)顯示顯著較低的數(shù)據(jù)速率,使得編碼非常有效率。SAOC編碼器112W作為輸入的對(duì) 象/聲道信號(hào)作為單聲道波形,并輸出參數(shù)信息(其被打包在3D音頻比特流128內(nèi))及SAOC傳 送聲道(其使用單聲道元素被編碼及傳輸)dSA0C解碼器220從解碼的SAOC傳送聲道210及參 數(shù)信息214重建對(duì)象/聲道信號(hào),并基于重現(xiàn)布局、解壓縮的對(duì)象元數(shù)據(jù)信息及選擇性地基 于用戶交互信息生成輸出音頻場(chǎng)景。
[0035] 提供對(duì)象元數(shù)據(jù)編解碼器(參考OAM編碼器124及OAM解碼器224),使得對(duì)于每個(gè)對(duì) 象,通過(guò)對(duì)象性質(zhì)在時(shí)間和空間中的量化而有效地編碼說(shuō)明對(duì)象在3D空間中的幾何位置及 體積的相關(guān)聯(lián)元數(shù)據(jù)。壓縮的對(duì)象元數(shù)據(jù)COAM 126被傳輸至接收器200作為邊帶信息。
[0036] 對(duì)象擅染器216利用壓縮的對(duì)象元數(shù)據(jù)W根據(jù)給定重現(xiàn)格式生成對(duì)象波形。每個(gè) 對(duì)象根據(jù)其元數(shù)據(jù)被擅染至某個(gè)輸出聲道218。運(yùn)個(gè)塊的輸出由部分結(jié)果的和產(chǎn)生。如果基 于聲道的內(nèi)容W及離散/參數(shù)對(duì)象都被解碼,在輸出產(chǎn)生的波形228之前,或在將產(chǎn)生的波 形228饋至后處理器模塊如雙耳擅染器236或揚(yáng)聲器擅染器模塊232之前,通過(guò)混合器226混 合基于聲道的波形及擅染的對(duì)象波形。
[0037] 雙耳擅染器模塊236產(chǎn)生多聲道音頻材料的雙耳降混,使得每個(gè)輸入聲道通過(guò)虛 擬聲源表示。在QMF(正交鏡像濾波器組)域中帖式地進(jìn)行處理,并且基于測(cè)量的雙耳室脈沖 響應(yīng)進(jìn)行雙耳化。
[0038] 揚(yáng)聲器擅染器232在被傳輸?shù)牡穆暤琅渲?28與期望的重現(xiàn)格式間轉(zhuǎn)換。也可稱作 "格式轉(zhuǎn)換器"。格式轉(zhuǎn)換器進(jìn)行轉(zhuǎn)換成較少數(shù)量的輸出聲道,即產(chǎn)生降混。
[0039] 圖3示出格式轉(zhuǎn)換器232的可能實(shí)現(xiàn)。在本發(fā)明的實(shí)施例中,信號(hào)處理單元為此種 格式轉(zhuǎn)換器。格式轉(zhuǎn)換器232(又稱揚(yáng)聲器擅染器),通過(guò)將傳送器(輸入)聲道配置的傳送器 (輸入)聲道映射至期望的重現(xiàn)格式(輸出聲道配置)的(輸出)聲道而在傳送器聲道配置與 期望的重現(xiàn)格式間轉(zhuǎn)換。格式轉(zhuǎn)換器232通常進(jìn)行轉(zhuǎn)換成較少數(shù)量的輸出聲道,即進(jìn)行降混 (DMX)處理240。降混器240,優(yōu)選地在QMF域中操作,接收混合器輸出信號(hào)228及輸出揚(yáng)聲