音頻信號(hào)的編碼和解碼的制作方法
【專利摘要】一種用于對(duì)多個(gè)音頻信號(hào)進(jìn)行編碼的編碼器(1201)包括選擇器(1303),所述選擇器(1303)選擇待縮混的時(shí)頻拼貼的子集和待作為非縮混的拼貼的子集。生成指示拼貼是否被編碼為縮混編碼的拼貼或編碼為非縮混的拼貼的縮混指示。包括經(jīng)編碼的拼貼和所述縮混指示的編碼的信號(hào)被饋送給包括用于接收所述信號(hào)的接收器(1401)的解碼器(1203)。生成器(1403)從經(jīng)編碼的時(shí)頻拼貼生成輸出信號(hào),其中所述輸出信號(hào)的生成包括針對(duì)由所述縮混指示指示為編碼的縮混拼貼的拼貼的上混。本發(fā)明可以提供更靈活的和/或改進(jìn)的編碼/解碼并且可以尤其在較高數(shù)據(jù)速率下具體地提供改進(jìn)的可伸縮性。
【專利說(shuō)明】音頻信號(hào)的編碼和解碼
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多個(gè)音頻信號(hào)的編碼和/或解碼,并且具體地但不排他地,涉及多個(gè) 音頻對(duì)象的編碼和解碼。
【背景技術(shù)】
[0002] 各種源信號(hào)的數(shù)字編碼在過(guò)去數(shù)十年里已變得日益重要,因?yàn)閿?shù)字信號(hào)表示和通 信已日益代替模擬表示和通信。例如,諸如語(yǔ)音和音樂(lè)之類的音頻內(nèi)容是越來(lái)越多地基于 數(shù)字內(nèi)容編碼的。
[0003] 音頻編碼格式已被開發(fā)來(lái)提供越來(lái)越有能力的、變化的且靈活的音頻服務(wù),并且 特別地,支持空間音頻服務(wù)的音頻編碼格式已被開發(fā)。
[0004] 像DTS和杜比數(shù)碼(Dolby Digital)這樣的眾所周知的空間音頻編碼技術(shù)產(chǎn)生編 碼的多聲道音頻信號(hào),所述編碼的多聲道音頻信號(hào)將空間像(spatial image)表示為在固 定位置處的收聽者周圍被放置的大量聲道。對(duì)于與對(duì)應(yīng)于多聲道信號(hào)的設(shè)置不同的揚(yáng)聲器 設(shè)置,空間像將是次優(yōu)的。并且,這些基于聲道的音頻編碼系統(tǒng)通常不能夠應(yīng)付不同數(shù)目的 揚(yáng)聲器。
[0005] 這樣的常規(guī)方法的方法在圖1中被圖示(其中字母C指代音頻聲道)。輸入聲道(例 如5. 1聲道)被提供給編碼器,所述編碼器執(zhí)行矩陣變換以利用聲道間關(guān)系,后面是矩陣信 號(hào)變成比特流的編碼。此外矩陣變換信息還可以被作為比特流的一部分傳送到解碼器。在 編碼器側(cè)這個(gè)過(guò)程是顛倒的。
[0006] MPEG環(huán)繞提供多聲道音頻編碼工具,所述多聲道音頻編碼工具允許現(xiàn)有的基于單 音或立體聲的編碼器被擴(kuò)展到多聲道音頻應(yīng)用。圖2圖示了 MPEG環(huán)繞系統(tǒng)的元件的示例。 使用通過(guò)對(duì)原始多聲道輸入的分析所獲得的空間參數(shù),MPEG環(huán)繞解碼器能夠通過(guò)單音信號(hào) 或立體聲信號(hào)的受控上混(upmix)來(lái)重建空間像以獲得多聲道輸出信號(hào)。
[0007] 因?yàn)槎嗦暤垒斎胄盘?hào)的空間像被參數(shù)化,所以MPEG環(huán)繞允許通過(guò)不使用多聲道 揚(yáng)聲器設(shè)置的渲染裝置來(lái)解碼相同的多聲道比特流。示例是頭戴式耳機(jī)上的虛擬環(huán)繞再 現(xiàn),這被稱為MPEG環(huán)繞雙聲道解碼過(guò)程。在這種模式下,逼真的環(huán)繞體驗(yàn)?zāi)軌蛟谑褂闷胀?頭戴式耳機(jī)時(shí)被提供。另一示例是高階多聲道輸出(例如7. 1聲道)到低階設(shè)置(例如5. 1 聲道)的變換。
[0008] MPEG環(huán)繞的方法(和諸如雙耳線索編碼或參數(shù)立體之類的類似參數(shù)多聲道編碼方 法)在圖3中被圖示。和離散或波形編碼方法對(duì)比,輸入聲道被縮混(例如至立體混合)。這 個(gè)縮混(downmix)隨后使用諸如編解碼器的AAC族之類的傳統(tǒng)編碼技術(shù)被編碼。除經(jīng)編碼 的縮混之外,還在比特流中發(fā)送空間像的表示。解碼器顛倒該過(guò)程。
[0009] 為了提供音頻的更加靈活的表示,MPEG標(biāo)準(zhǔn)化了稱為"空間音頻對(duì)象編碼" (MPEG-D SAOC)的格式。和諸如DTS、杜比數(shù)碼以及MPEG環(huán)繞之類的多聲道音頻編碼系統(tǒng) 對(duì)比,SAOC提供對(duì)單獨(dú)的音頻對(duì)象而不是音頻聲道的高效編碼。然而在MPEG環(huán)繞中,每個(gè) 揚(yáng)聲器聲道可以被認(rèn)為源自聲音對(duì)象的不同混合,SAOC使得單獨(dú)的聲音對(duì)象在解碼器側(cè)可 得到以用于如圖4中所圖示的交互式操縱。在SAOC中,多個(gè)聲音對(duì)象連同允許聲音對(duì)象在 渲染側(cè)被提取的參數(shù)數(shù)據(jù)一起被編碼成單音或立體聲縮混,從而允許單獨(dú)的音頻對(duì)象可用 于例如由終端用戶操縱。
[0010] 實(shí)際上,類似于MPEG環(huán)繞,SAOC同樣創(chuàng)建單音或立體聲縮混。此外,對(duì)象參數(shù)被 計(jì)算并且被包括。在解碼器側(cè),用戶可以操縱這些參數(shù)以控制單獨(dú)對(duì)象的各種特征,諸如位 置、電平、均衡,或者甚至以應(yīng)用諸如混響這樣的效果。圖5圖示了使得用戶能夠控制被包 含在SAOC比特流中的單獨(dú)對(duì)象的交互式接口。借助于渲染矩陣,單獨(dú)的聲音對(duì)象被映射到 揚(yáng)聲器聲道上。
[0011] 圖6提供了 SAOC(或類似的對(duì)象編碼系統(tǒng))的參數(shù)方法的高級(jí)框圖。對(duì)象信號(hào)(O) 被縮混并且結(jié)果得到的縮混被編碼。此外參數(shù)對(duì)象數(shù)據(jù)在使單獨(dú)對(duì)象與縮混相關(guān)聯(lián)的比特 流中被發(fā)送。在解碼器側(cè),對(duì)象根據(jù)揚(yáng)聲器配置被解碼并且渲染到聲道。通常,在這樣的方 法中組合對(duì)象的解碼和揚(yáng)聲器渲染是更高效的。
[0012] 用于渲染空間聲音的渲染配置方面的變化和靈活性已隨著越來(lái)越多的再現(xiàn)格式 變得可供主流消費(fèi)者使用而近年來(lái)顯著地增加。這需要音頻的靈活表示。隨著MPEG環(huán)繞編 解碼的引入已采取了重要的步驟。然而,音頻針對(duì)特定擴(kuò)音器設(shè)置仍然被產(chǎn)生和發(fā)送。在 不同設(shè)置之上和在非標(biāo)準(zhǔn)(即靈活的或用戶定義的)揚(yáng)聲器設(shè)置之上的再現(xiàn)未被指定。
[0013] 這個(gè)問(wèn)題能夠部分地由SAOC解決,所述SAOC發(fā)送音頻對(duì)象而非再現(xiàn)聲道。這允 許解碼器側(cè)將音頻對(duì)象放置在空間中的任意位置處,只要該空間被揚(yáng)聲器充分地覆蓋。這 樣,在被發(fā)送音頻與再現(xiàn)設(shè)置之間不存在關(guān)系,因此能夠使用任意揚(yáng)聲器設(shè)置。這對(duì)于例如 揚(yáng)聲器因?yàn)槠鹁邮业牟季侄鴰缀鯊牟辉陬A(yù)定位置處的、典型起居室中的家庭影院設(shè)置來(lái)說(shuō) 是有利的。在SAOC中,在解碼器側(cè)判定對(duì)象在聲音場(chǎng)景中被放置在的地方。這從藝術(shù)觀點(diǎn) 看常常不是期望的,并且因此SAOC標(biāo)準(zhǔn)確實(shí)提供了用來(lái)在比特流中發(fā)送默認(rèn)渲染矩陣從 而消除解碼器職責(zé)的方式。這些渲染矩陣再次被聯(lián)系到特定揚(yáng)聲器配置。
[0014] 在SAOC中,作為縮混的結(jié)果,對(duì)象提取僅在某些邊界內(nèi)工作。通常不可能與其它 對(duì)象足夠高度分離地提取單個(gè)對(duì)象以用于沒(méi)有其它對(duì)象的再現(xiàn),例如在卡拉OK用例中。此 夕卜,因?yàn)閰?shù)化,SAOC技術(shù)不隨著比特率很好地縮放。特別地,縮混和提取(上混)音頻對(duì) 象結(jié)果的方法導(dǎo)致甚至在非常高的比特率下也未被完全地補(bǔ)償?shù)囊恍┕逃行畔⒌膿p失。因 此,即使比特率增加,結(jié)果得到的音頻質(zhì)量也通常降級(jí)并且防止編碼/解碼操作為完全透 明的。
[0015] 為了解決這個(gè),SAOC支持能夠被應(yīng)用于有限的一組對(duì)象(直到并且包括4個(gè),其一 直是設(shè)計(jì)選擇)的所謂的殘余編碼。殘余編碼基本上發(fā)送對(duì)誤差信號(hào)(包括該對(duì)象中的來(lái)自 其它對(duì)象的串?dāng)_)進(jìn)行編碼的附加的比特流分量,使得能夠在高程度的對(duì)象分離情況下提 取有限數(shù)目的對(duì)象。可以供應(yīng)上至特定頻率的殘余波形分量使得能夠逐步提高質(zhì)量。結(jié)果 得到的對(duì)象因此是參數(shù)分量和波形分量的組合。
[0016] 針對(duì)3D音頻的音頻格式的另一規(guī)范正由3D音頻聯(lián)盟(3DAA)開發(fā),所述3D音頻 聯(lián)盟(3DAA)是由SRS (聲音檢索系統(tǒng))實(shí)驗(yàn)室所發(fā)起的行業(yè)聯(lián)盟。3DAA致力于開發(fā)用于3D 音頻的傳輸?shù)臉?biāo)準(zhǔn),這"將促進(jìn)從當(dāng)前揚(yáng)聲器饋送范式(par ad i gm )到靈活的基于對(duì)象的方 法的轉(zhuǎn)變"。在3DAA中,允許舊有多聲道縮混連同單獨(dú)的聲音對(duì)象一起發(fā)送的比特流格式 將被定義。此外,對(duì)象定位數(shù)據(jù)被包括。生成3DAA音頻流的原理在圖7中被圖示。
[0017] 在3DAA方法中,聲音對(duì)象在擴(kuò)展流中被獨(dú)立地接收,并且這些可以被從多聲道縮 混中提取。結(jié)果得到的多聲道縮混連同單獨(dú)地可用的對(duì)象一起被渲染。
[0018] 在3DAA中,多聲道參考混合能夠被與音頻對(duì)象的選擇一起發(fā)送。3DAA發(fā)送針對(duì) 每個(gè)對(duì)象的3D位置數(shù)據(jù)。然后能夠使用3D位置數(shù)據(jù)提取對(duì)象??商鎿Q地,可以發(fā)送逆混 合矩陣,從而描述對(duì)象與參考混合之間的關(guān)系。圖6的圖示可以被認(rèn)為還對(duì)應(yīng)于3DAA的方 法。
[0019] SAOC和3DAA兩種方法都并入了能夠在解碼器側(cè)被單獨(dú)地操縱的單獨(dú)的音頻對(duì)象 的傳輸。兩個(gè)方法之間的差別是SAOC通過(guò)提供相對(duì)于縮混表征對(duì)象的參數(shù)來(lái)提供關(guān)于音 頻對(duì)象的信息(即,使得音頻對(duì)象在解碼器側(cè)從縮混生成),然而3DAA將音頻對(duì)象作為完全 且獨(dú)立的音頻對(duì)象(即,其能夠在解碼器側(cè)從縮混獨(dú)立地生成)來(lái)提供。
[0020] 在MPEG中關(guān)于3D音頻的新的工作項(xiàng)在構(gòu)造中。這被稱為MPEG-3D音頻并且旨在 和HEVC視頻編碼和DASH系統(tǒng)一起成為MPEG-H套件的一部分。圖8圖示了意中的MPEG 3D 音頻系統(tǒng)的當(dāng)前高級(jí)框圖。
[0021] 除傳統(tǒng)的基于聲道的格式之外,該方法旨在還支持基于對(duì)象的格式和基于場(chǎng)景的 格式。系統(tǒng)的一個(gè)重要方面是其質(zhì)量應(yīng)該隨透明度調(diào)整以便提高比特率,即隨著數(shù)據(jù)速 率增加由編碼和解碼所引起的衰減(degradation)應(yīng)該繼續(xù)降低直到它是無(wú)關(guān)緊要的為 止。然而,這樣的要求對(duì)于在過(guò)去已大量地使用的參數(shù)編碼技術(shù)(即HE-AAC v2、MPEG環(huán)繞、 SA0C、USAC)來(lái)說(shuō)是趨于有問(wèn)題的。特別地,對(duì)于單獨(dú)信號(hào)的信號(hào)損失的補(bǔ)償甚至在非常高 的比特率下趨于未由參數(shù)數(shù)據(jù)完全地補(bǔ)償。實(shí)際上,質(zhì)量將受參數(shù)模型的內(nèi)在質(zhì)量限制。
[0022] MPEG-3D音頻此外力圖提供獨(dú)立于再現(xiàn)設(shè)置的結(jié)果得到的比特流。設(shè)想的再現(xiàn)可 能性包括上至22. 2個(gè)聲道的靈活的擴(kuò)音器設(shè)置,以及遍及頭戴式耳機(jī)和緊密地隔開的揚(yáng) 聲器的虛擬環(huán)繞。
[0023] 另一方法被稱為DirAC -方向音頻編碼(DirAC),其在縮混連同使得能 夠在合成側(cè)再現(xiàn)空間像的參數(shù)一起被發(fā)送的意義上與MPEG環(huán)繞和SAOC類似。在 DirAC中,這些參數(shù)表示來(lái)自方向和擴(kuò)散分析的結(jié)果(方位、仰角以及擴(kuò)散Ψ(ν f))。在合成期間縮混被動(dòng)態(tài)地劃分成兩個(gè)流:對(duì)應(yīng)于非擴(kuò)散聲的一個(gè)流(權(quán)重 ),和對(duì)應(yīng)于擴(kuò)散聲的另一流(權(quán)重# )。非擴(kuò)散聲流利用針對(duì)點(diǎn)狀聲源的技術(shù)加以 再現(xiàn),并且擴(kuò)散聲流利用針對(duì)缺少主方向的聲音的感知的技術(shù)加以再現(xiàn)。DirAC的方法在圖 9中被圖示。
[0024] DirAC可以被認(rèn)為是依照?qǐng)D10的方法的基于記錄的編碼/解碼系統(tǒng)。在該系統(tǒng) 中,麥克風(fēng)信號(hào)(m)被編碼。這能夠例如被與使用空間信息的縮混和編碼的參數(shù)方法類似 地執(zhí)行。在解碼器處,能夠重建麥克風(fēng)信號(hào),并且基于提供的揚(yáng)聲器配置,能夠?qū)Ⅺ溈孙L(fēng)信 號(hào)渲染到聲道。注意由于效率原因,解碼和渲染過(guò)程能夠被整合成單個(gè)步驟。
[0025] 在 2002 年 11 月 15 日比利時(shí)魯汶 Proc. MPCA-2002, M. Kelly 等人的 "The continuity illusion revisited: coding of multiple concurrent sound sources"中, 提出了不使用參數(shù)編碼和縮混而是替代地使用離散/波形編碼單獨(dú)地對(duì)單獨(dú)的音頻對(duì)象 進(jìn)行編碼。該方法在圖11中被圖示。如所圖示的,所有對(duì)象被同時(shí)地編碼并且發(fā)送到解碼 器。在解碼器側(cè),對(duì)象被解碼并且根據(jù)揚(yáng)聲器配置渲染到聲道。該方法可以提供改進(jìn)的音 頻質(zhì)量,并且特別地,具有隨透明度調(diào)整的潛力。然而,該系統(tǒng)不提供顯著的編碼效率并且 甚至對(duì)于較低音頻質(zhì)量也需要相對(duì)高的數(shù)據(jù)速率。
[0026] 因此,存在力圖提供高效的音頻編碼的許多不同的方法。
[0027] 音頻內(nèi)容現(xiàn)今被共享在越來(lái)越多數(shù)目的不同再現(xiàn)裝置之間。例如,可以經(jīng)由對(duì)接 站和/或使用各種多聲道設(shè)置遍及頭戴式耳機(jī)、小揚(yáng)聲器體驗(yàn)到音頻。對(duì)于多聲道設(shè)置,照 慣例已被假定為標(biāo)稱揚(yáng)聲器設(shè)置的ITU推薦的5. 1揚(yáng)聲器設(shè)置在渲染音頻內(nèi)容時(shí)常常甚至 未被近似地應(yīng)用。例如,在典型起居室中很少找到依照該設(shè)置的五個(gè)空間揚(yáng)聲器的準(zhǔn)確定 位。揚(yáng)聲器被放置在方便位置處而非在推薦角度和距離處。此外,可以使用像4. 1、6. 1、7. 1 或甚至22. 2配置這樣的替代設(shè)置。為了在所有的這些再現(xiàn)方案中提供最佳體驗(yàn),能夠觀察 到朝著對(duì)象編碼或場(chǎng)景編碼方向的趨勢(shì)。這樣的方法被日益引入(當(dāng)前主要用于電影院應(yīng) 用,但是家庭使用預(yù)期變得更常見)以代替每個(gè)音頻聲道與標(biāo)稱位置相關(guān)聯(lián)的常規(guī)音頻聲 道方法。
[0028] 當(dāng)再現(xiàn)聲道(即揚(yáng)聲器)的數(shù)目及其位置是未知的時(shí),音頻場(chǎng)景最好能夠由場(chǎng)景中 的單獨(dú)的音頻對(duì)象來(lái)表示。在解碼器側(cè)對(duì)象然后各自能夠被獨(dú)立地渲染在再現(xiàn)聲道上,使 得空間感知最接近于意中的感知。
[0029] 將對(duì)象編碼為單獨(dú)的音頻信號(hào)/流需要相對(duì)高的比特率??捎玫慕鉀Q方案(即 SAOC、DirAC、3DAA等)發(fā)送縮混的對(duì)象信號(hào)并且意在從這個(gè)縮混重建對(duì)象信號(hào)。這導(dǎo)致顯 著的比特率降低。
[0030] SAOC通過(guò)高效對(duì)象編碼在具有對(duì)象提取參數(shù)的縮混中提供與揚(yáng)聲器無(wú)關(guān)的音頻, 3DAA定義了場(chǎng)景根據(jù)對(duì)象位置被描述的格式。DirAC嘗試通過(guò)使用B格式縮混來(lái)進(jìn)行音頻 對(duì)象的高效編碼。
[0031] 因此,這些系統(tǒng)適合于音頻內(nèi)容的高效且靈活的編碼和渲染。能夠?qū)崿F(xiàn)顯著的數(shù) 據(jù)速率降低,并且因此相對(duì)低的數(shù)據(jù)速率實(shí)施方式仍然能夠提供合理的或良好的音頻質(zhì) 量。然而,這樣的系統(tǒng)的問(wèn)題是音頻質(zhì)量受參數(shù)編碼和縮混內(nèi)在地限制。甚至隨著可用的 數(shù)據(jù)速率增加,也不可能實(shí)現(xiàn)不能夠檢測(cè)到編碼/解碼操作的影響的完全的透明度。特別 地,甚至在高數(shù)據(jù)速率下也不能夠在沒(méi)有來(lái)自其它對(duì)象的串?dāng)_的情況下重建對(duì)象。當(dāng)對(duì)象 在空間再現(xiàn)上分開(即渲染在不同的位置處)時(shí)這導(dǎo)致音頻質(zhì)量和空間感知的降低。另一個(gè) 缺點(diǎn)是對(duì)象間相干性大多數(shù)未被正確地重建,這是用于創(chuàng)建空間感知的一個(gè)重要特性。重 建相干性的嘗試基于解相關(guān)器的使用,并且趨于導(dǎo)致次優(yōu)音頻質(zhì)量。
[0032] 單獨(dú)地對(duì)音頻對(duì)象進(jìn)行波形編碼的替代方案可以在高數(shù)據(jù)速率下允許高質(zhì)量,并 且可以特別地提供包括完全透明編碼/解碼的完全可伸縮性。然而,這樣的方法不適合于 它們不提供高效編碼的低數(shù)據(jù)速率。
[0033] 因此,基于參數(shù)縮混的編碼適合于低數(shù)據(jù)速率和朝著較低數(shù)據(jù)速率方向的可伸縮 性,然而波形對(duì)象編碼適合于高數(shù)據(jù)速率和朝著高數(shù)據(jù)速率方向的可伸縮性。
[0034] 可伸縮性對(duì)于將來(lái)的音頻系統(tǒng)是非常重要的準(zhǔn)則,并且因此高度地期望具有延伸 到非常低的數(shù)據(jù)速率和非常高的數(shù)據(jù)速率兩者并且特別地延伸到完全透明度的高效可伸 縮性。此外,期望這樣的可伸縮性有可伸縮性的低粒度。
[0035] 因此,改進(jìn)的音頻編碼/解碼方法將是有利的,并且特別地,允許增加的靈活性、 降低的復(fù)雜性、改進(jìn)的可伸縮性和/或改進(jìn)的性能的系統(tǒng)將是有利的。
【發(fā)明內(nèi)容】
[0036] 因此,本發(fā)明力圖優(yōu)選地單個(gè)地或者以任何組合方式緩解、減輕或者消除上面提 到的缺點(diǎn)中的一個(gè)或多個(gè)。
[0037] 根據(jù)本發(fā)明的一個(gè)方面提供了解碼器,包括:接收器(1401),其用于接收表示多 個(gè)音頻信號(hào)的編碼的數(shù)據(jù)信號(hào),所述編碼的數(shù)據(jù)信號(hào)包括用于多個(gè)音頻信號(hào)的編碼的時(shí)頻 拼貼(time-frequency tile),所述編碼的時(shí)頻拼貼包括非縮混時(shí)頻拼貼和縮混時(shí)頻拼貼, 每個(gè)縮混時(shí)頻拼貼是多個(gè)音頻信號(hào)的至少兩個(gè)時(shí)頻拼貼的縮混并且每個(gè)非縮混時(shí)頻拼貼 表示多個(gè)音頻信號(hào)的僅一個(gè)時(shí)頻拼貼,所述編碼的數(shù)據(jù)信號(hào)進(jìn)一步包括針對(duì)多個(gè)音頻信號(hào) 的時(shí)頻拼貼的縮混指示,所述縮混指示指示多個(gè)音頻信號(hào)的時(shí)頻拼貼是否被編碼為縮混時(shí) 頻拼貼或非縮混時(shí)頻拼貼;生成器(1403),其用于從經(jīng)編碼的時(shí)頻拼貼生成輸出信號(hào)的集 合,輸出信號(hào)的生成包括針對(duì)由縮混指示指示為縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼的上混。
[0038] 本發(fā)明可以允許改進(jìn)的音頻解碼,并且特別地可以在許多實(shí)施例中允許改進(jìn)的可 伸縮性。特別地,本發(fā)明可以在許多實(shí)施例中允許隨透明度的數(shù)據(jù)速率可伸縮性。特別地, 可以在許多情況下避免或者減輕對(duì)于在較高數(shù)據(jù)速率下的參數(shù)編碼已知的編碼贗像。
[0039] 該方法可以進(jìn)一步提供高效編碼,并且特別地可以在較低數(shù)據(jù)速率下提供高效編 碼。能夠?qū)崿F(xiàn)高程度的可伸縮性,并且特別地,能夠?qū)崿F(xiàn)在較低數(shù)據(jù)速率下的高效編碼和在 高數(shù)據(jù)速率下的非常高的質(zhì)量(以及具體地透明度)的可伸縮性。
[0040] 本發(fā)明可以在高程度的適配和優(yōu)化為可能的情況下提供非常靈活的系統(tǒng)。編碼和 解碼操作可以不僅適于音頻信號(hào)的總體特性,而且適于單獨(dú)的時(shí)頻拼貼的特性。因此能夠 實(shí)現(xiàn)高度高效的編碼。
[0041] 縮混時(shí)頻拼貼的上混可以是單獨(dú)運(yùn)算或者可以與其它運(yùn)算整合。例如,上混可以 是矩陣(向量)運(yùn)算的一部分,所述矩陣(向量)運(yùn)算將用于時(shí)頻拼貼的信號(hào)值與矩陣(向量) 系數(shù)相乘,其中矩陣(向量)系數(shù)反映上混運(yùn)算但是可以進(jìn)一步反映其它運(yùn)算,諸如用來(lái)輸 出渲染聲道的映射。上混不必是縮混的所有分量的上混。例如,上混可以是用來(lái)生成包括 在縮混中的時(shí)頻拼貼中的僅一個(gè)的部分上混。
[0042] 時(shí)頻拼貼是時(shí)頻間隔??梢詮母采w相同的時(shí)間間隔和頻率間隔的編碼的時(shí)頻拼貼 生成輸出信號(hào)的時(shí)頻拼貼。類似地,每個(gè)縮混時(shí)頻拼貼可以是覆蓋相同的時(shí)間間隔和頻率 間隔的音頻信號(hào)的時(shí)頻拼貼的縮混。特別地對(duì)于頻率維度來(lái)說(shuō),時(shí)頻間隔可以在均勻網(wǎng)格 上或者可以例如在非均勻網(wǎng)格上。這樣的均勻網(wǎng)格例如可以被用來(lái)發(fā)掘和反映人類聽覺(jué)的 對(duì)數(shù)靈敏度。
[0043] 對(duì)于未被指示為縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼,輸出信號(hào)的生成(確實(shí))不必包 括上混。
[0044] 可能不在經(jīng)編碼的時(shí)頻拼貼中表示多個(gè)音頻信號(hào)的一些時(shí)頻拼貼??赡懿辉诰幋a 的縮混時(shí)頻拼貼或非縮混時(shí)頻拼貼中表示多個(gè)音頻信號(hào)的時(shí)頻拼貼。
[0045] 在一些實(shí)施例中,可以參考經(jīng)編碼的時(shí)頻拼貼提供多個(gè)音頻信號(hào)的時(shí)頻拼貼是否 被編碼為縮混時(shí)頻拼貼或非縮混時(shí)頻拼貼的指示。在一些實(shí)施例中,可以為多個(gè)音頻信號(hào) 的時(shí)頻拼貼單獨(dú)地提供縮混指示值。等效地,在一些實(shí)施例中可以為多個(gè)音頻信號(hào)的時(shí)頻 拼貼的集合提供縮混指示值。
[0046] 非縮混時(shí)頻拼貼表示針對(duì)音頻信號(hào)的僅一個(gè)時(shí)頻拼貼的數(shù)據(jù)然而縮混時(shí)頻拼貼 表示音頻信號(hào)的兩個(gè)或更多個(gè)時(shí)頻拼貼??梢栽诓煌膶?shí)施例中在經(jīng)編碼的數(shù)據(jù)信號(hào)中 以不同的方式對(duì)縮混時(shí)頻拼貼和非縮混時(shí)頻拼貼進(jìn)行編碼,包括例如每個(gè)拼貼被獨(dú)立地編 碼,一些或全部被聯(lián)合編碼等。
[0047] 依照本發(fā)明的可選特征,經(jīng)編碼的數(shù)據(jù)信號(hào)此外包括參數(shù)上混數(shù)據(jù),并且其中生 成器(1403)被布置成響應(yīng)于參數(shù)數(shù)據(jù)來(lái)適配上混運(yùn)算。
[0048] 這可以提供改進(jìn)的性能,并且特別地可以在較低數(shù)據(jù)速率下提供改進(jìn)的音頻質(zhì) 量。本發(fā)明可以允許例如波形和參數(shù)編碼的靈活適配和互配以提供非??缮炜s的系統(tǒng),以 及特別地能夠?qū)τ诟邤?shù)據(jù)速率提供非常高的音頻質(zhì)量同時(shí)在較低數(shù)據(jù)速率下提供高效編 碼的系統(tǒng)。
[0049] 生成器可以響應(yīng)于用于由縮混指示指示為縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼(而不 用于由縮混指示指示不為編碼的縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼)的參數(shù)上混數(shù)據(jù)來(lái)具體 地生成輸出信號(hào)。
[0050] 依照本發(fā)明的可選特征,生成器(1403)包括渲染單元,所述渲染單元被布置成將 用于多個(gè)音頻信號(hào)的時(shí)頻拼貼映射到與空間聲源配置相對(duì)應(yīng)的輸出信號(hào)。
[0051] 這可以提供適合于通過(guò)給定空間聲源(通常為揚(yáng)聲器)配置進(jìn)行渲染的音頻信號(hào) 的高效生成。上混和渲染映射可以在一些實(shí)施例中作為單個(gè)整合運(yùn)算(例如,作為單個(gè)矩陣 乘法)被執(zhí)行。
[0052] 在一些實(shí)施例中,生成器被布置成從經(jīng)編碼的時(shí)頻拼貼生成經(jīng)解碼的音頻信號(hào), 并且布置成通過(guò)空間上將經(jīng)解碼的音頻信號(hào)映射到輸出信號(hào)的集合來(lái)生成音頻信號(hào),輸出 信號(hào)的集合對(duì)應(yīng)于空間聲源設(shè)置。
[0053] 依照本發(fā)明的可選特征,生成器(1403)被布置成通過(guò)對(duì)經(jīng)編碼的時(shí)頻拼貼應(yīng)用矩 陣運(yùn)算來(lái)為輸出信號(hào)的集合生成時(shí)頻拼貼,矩陣運(yùn)算的系數(shù)包括用于對(duì)于其來(lái)說(shuō)縮混指示 指示經(jīng)編碼的時(shí)頻拼貼是縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼而不用于對(duì)于其來(lái)說(shuō)縮混指示 指示經(jīng)編碼的時(shí)頻拼貼是非縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼的上混分量。
[0054] 這可以提供特別高效的運(yùn)算。矩陣運(yùn)算可以被應(yīng)用于經(jīng)編碼的時(shí)頻拼貼的信號(hào)樣 本。可以通過(guò)解碼運(yùn)算來(lái)生成信號(hào)樣本。
[0055] 依照本發(fā)明的可選特征,至少一個(gè)音頻信號(hào)通過(guò)至少一個(gè)非縮混時(shí)頻拼貼和至少 一個(gè)縮混時(shí)頻拼貼被表示在經(jīng)解碼的信號(hào)中。
[0056] 單獨(dú)的音頻信號(hào)可以由縮混時(shí)頻拼貼和非縮混時(shí)頻拼貼兩者來(lái)表示。音頻信號(hào)的 每個(gè)時(shí)頻拼貼可以由縮混時(shí)頻拼貼或非縮混時(shí)頻拼貼來(lái)表示,而不要求以相同的方式表示 所有時(shí)頻拼貼。該方法可以允許高程度的靈活性和優(yōu)化,并且可以具體地導(dǎo)致改進(jìn)的音頻 質(zhì)量、編碼效率和/或可伸縮性。
[0057] 依照本發(fā)明的可選特征,針對(duì)至少一個(gè)縮混時(shí)頻拼貼的縮混指示包括編碼的縮混 時(shí)頻拼貼與多個(gè)音頻信號(hào)的時(shí)頻拼貼之間的鏈接(link)。
[0058] 這可以在許多實(shí)施例中允許編碼在時(shí)頻拼貼基礎(chǔ)上被靈活地優(yōu)化。該方法可以允 許高程度的靈活性和優(yōu)化,并且可以具體地導(dǎo)致改進(jìn)的音頻質(zhì)量、編碼效率和/或可伸縮 性。
[0059] 依照本發(fā)明的可選特征,多個(gè)音頻信號(hào)中的至少一個(gè)音頻信號(hào)由作為多個(gè)音頻信 號(hào)中的音頻信號(hào)的不同集合的縮混的兩個(gè)縮混時(shí)頻拼貼來(lái)表示。
[0060] 這可以在許多實(shí)施例中允許編碼在時(shí)頻拼貼基礎(chǔ)上被靈活地優(yōu)化。該方法可以允 許高程度的靈活性和優(yōu)化,并且可以具體地導(dǎo)致改進(jìn)的音頻質(zhì)量、編碼效率和/或可伸縮 性。
[0061] 依照本發(fā)明的可選特征,多個(gè)音頻信號(hào)中的至少一個(gè)音頻信號(hào)由包括不作為非縮 混時(shí)頻拼貼或縮混時(shí)頻拼貼的至少一個(gè)編碼的時(shí)頻拼貼的編碼的時(shí)頻拼貼來(lái)表示。
[0062] 在一些實(shí)施例中這可以允許改進(jìn)的編碼效率。不作為非縮混時(shí)頻拼貼或縮混時(shí)頻 拼貼的經(jīng)編碼的時(shí)頻拼貼例如可以被編碼為空時(shí)頻拼貼(編碼為沒(méi)有信號(hào)數(shù)據(jù)的空時(shí)頻拼 貼),或者可以例如使用諸如中間/邊編碼之類的其它技術(shù)來(lái)編碼。
[0063] 依照本發(fā)明的可選特征,至少一個(gè)縮混時(shí)頻拼貼是不與聲源渲染配置的標(biāo)稱聲源 位置相關(guān)聯(lián)的音頻對(duì)象和與聲源渲染配置的標(biāo)稱聲源位置相關(guān)聯(lián)的音頻聲道的縮混。
[0064] 這可以提供改進(jìn)的靈活性和/或更高效的編碼。具體地,縮混時(shí)頻拼貼可以包括 音頻對(duì)象和音頻聲道的時(shí)頻拼貼的縮混。
[0065] 依照本發(fā)明的可選特征,非縮混時(shí)頻拼貼中的至少一些被波形編碼。
[0066] 這可以允許高效且潛在高質(zhì)量的編碼/解碼。在許多情況下它可以允許改進(jìn)的可 伸縮性,并且特別地允許隨透明度的可伸縮性。
[0067] 依照本發(fā)明的可選特征,縮混時(shí)頻拼貼中的至少一些被波形編碼。
[0068] 這可以允許高效且潛在高質(zhì)量的編碼/解碼。
[0069] 依照本發(fā)明的可選特征,生成器(1403)被布置成上混縮混頻率拼貼以為縮混時(shí)頻 拼貼的多個(gè)音頻信號(hào)中的至少一個(gè)生成上混的時(shí)頻拼貼;并且生成器被布置成針對(duì)對(duì)于其 來(lái)說(shuō)縮混指示指示經(jīng)編碼的時(shí)頻拼貼是縮混時(shí)頻拼貼的拼貼而使用經(jīng)上混的時(shí)頻拼貼來(lái) 為輸出信號(hào)的集合生成時(shí)頻拼貼。
[0070] 這可以便于實(shí)現(xiàn)和/或提供高性能。
[0071] 根據(jù)本發(fā)明的另一方面,解碼的方法包括:接收表示多個(gè)音頻信號(hào)的編碼的數(shù)據(jù) 信號(hào),所述編碼的數(shù)據(jù)信號(hào)包括用于多個(gè)音頻信號(hào)的編碼的時(shí)頻拼貼,所述編碼的時(shí)頻拼 貼包括非縮混時(shí)頻拼貼和縮混時(shí)頻拼貼,每個(gè)縮混時(shí)頻拼貼是多個(gè)音頻信號(hào)的至少兩個(gè)時(shí) 頻拼貼的縮混并且每個(gè)非縮混時(shí)頻拼貼表示多個(gè)音頻信號(hào)的僅一個(gè)時(shí)頻拼貼,所述編碼的 數(shù)據(jù)信號(hào)進(jìn)一步包括針對(duì)多個(gè)音頻信號(hào)的時(shí)頻拼貼的縮混指示,所述縮混指示指示多個(gè)音 頻信號(hào)的時(shí)頻拼貼是否被編碼為縮混時(shí)頻拼貼或非縮混時(shí)頻拼貼;以及從經(jīng)編碼的時(shí)頻拼 貼生成輸出信號(hào)的集合,輸出信號(hào)的生成包括針對(duì)由縮混指示指示為縮混時(shí)頻拼貼的編碼 的時(shí)頻拼貼的上混。
[0072] 依照本發(fā)明的另一方面,編碼器包括:接收器(1301),其用于接收多個(gè)音頻信號(hào), 每個(gè)音頻信號(hào)包括多個(gè)時(shí)頻拼貼;選擇器(1303),其用于選擇待縮混的多個(gè)時(shí)頻拼貼的第 一子集;縮混器(1305),其用于縮混第一子集的時(shí)頻拼貼以生成縮混的時(shí)頻拼貼;第一編 碼器(1307),其用于通過(guò)對(duì)縮混時(shí)頻拼貼進(jìn)行編碼來(lái)生成縮混編碼的時(shí)頻拼貼;第二編碼 器(1309),其用于通過(guò)在沒(méi)有第二子集的時(shí)頻拼貼的縮混的情況下對(duì)音頻信號(hào)的時(shí)頻拼貼 的第二子集進(jìn)行編碼來(lái)生成非縮混時(shí)頻拼貼;單元(1311),其用于生成指示第一子集和第 二子集的時(shí)頻拼貼是否被編碼為縮混編碼的時(shí)頻拼貼或者為非縮混時(shí)頻拼貼的縮混指示; 輸出(1313),其用于生成表示多個(gè)音頻信號(hào)的編碼的音頻信號(hào),所述編碼的音頻信號(hào)包括 非縮混時(shí)頻拼貼、縮混編碼的時(shí)頻拼貼以及縮混指示。
[0073] 本發(fā)明可以允許改進(jìn)的音頻編碼,并且特別地可以在許多實(shí)施例中允許改進(jìn)的可 伸縮性。特別地,本發(fā)明可以在許多實(shí)施例中允許隨透明度的數(shù)據(jù)速率可伸縮性。特別地, 可以在許多情況下避免或者減輕對(duì)于在較高數(shù)據(jù)速率下的參數(shù)編碼已知的編碼贗像。
[0074] 該方法可以進(jìn)一步提供高效編碼,并且特別地可以在較低數(shù)據(jù)速率下提供高效編 碼。能夠?qū)崿F(xiàn)高程度的可伸縮性,并且特別地,能夠?qū)崿F(xiàn)在較低數(shù)據(jù)速率下的高效編碼和在 高數(shù)據(jù)速率下的非常高的質(zhì)量(以及具體地透明度)的可伸縮性。
[0075] 本發(fā)明可以在高程度的適配和優(yōu)化為可能的情況下提供非常靈活的系統(tǒng)。編碼和 解碼運(yùn)算可以不僅適于音頻信號(hào)的總體特性,而且適于單獨(dú)的時(shí)頻拼貼的特性。因此,能夠 實(shí)現(xiàn)高度高效的編碼。
[0076] 縮混器可以進(jìn)一步被布置成生成用于恢復(fù)從經(jīng)縮混的時(shí)頻拼貼縮混的時(shí)頻拼貼 的參數(shù)數(shù)據(jù);并且輸出可以被配置成將參數(shù)數(shù)據(jù)包括在經(jīng)編碼的音頻信號(hào)中。
[0077] 第一編碼器和第二編碼器可以被實(shí)現(xiàn)為單個(gè)編碼器,例如順序地并且可能使用相 同的編碼算法對(duì)縮混進(jìn)行編碼。
[0078] 編碼過(guò)程可以考慮縮混時(shí)頻拼貼的集合和單獨(dú)的時(shí)頻拼貼以改進(jìn)效率和質(zhì)量。
[0079] 根據(jù)本發(fā)明的可選特征,選擇器(1303)被布置成響應(yīng)于用于經(jīng)編碼的音頻信號(hào)的 目標(biāo)數(shù)據(jù)速率來(lái)為第一子集選擇時(shí)頻拼貼。
[0080] 這可以提供改進(jìn)的性能,并且可以特別地允許經(jīng)編碼的音頻信號(hào)的高效縮放。
[0081] 根據(jù)本發(fā)明的可選特征,選擇器(1303 )被布置成響應(yīng)于下列中的至少一個(gè)來(lái)為第 一子集選擇時(shí)頻拼貼:時(shí)頻拼貼的能量;時(shí)頻拼貼的空間特性;以及成對(duì)時(shí)頻拼貼之間的 相干性特性。
[0082] 這可以在許多實(shí)施例中并且對(duì)于許多信號(hào)提供改進(jìn)的性能。
[0083] 依照本發(fā)明的另一方面,編碼的方法包括:接收多個(gè)音頻信號(hào),每個(gè)音頻信號(hào)包括 多個(gè)時(shí)頻拼貼;選擇待縮混的多個(gè)時(shí)頻拼貼的第一子集;縮混第一子集的時(shí)頻拼貼以生成 縮混的時(shí)頻拼貼;通過(guò)對(duì)經(jīng)縮混的時(shí)頻拼貼進(jìn)行編碼來(lái)生成縮混編碼的時(shí)頻拼貼;通過(guò)在 沒(méi)有第二子集的時(shí)頻拼貼的縮混的情況下對(duì)音頻信號(hào)的時(shí)頻拼貼的第二子集進(jìn)行編碼來(lái) 生成非縮混時(shí)頻拼貼;生成指示第一子集和第二子集的時(shí)頻拼貼是否被編碼為縮混編碼的 時(shí)頻拼貼或者編碼為非縮混時(shí)頻拼貼的縮混指示;以及 生成表示多個(gè)音頻信號(hào)的編碼的音頻信號(hào),所述編碼的音頻信號(hào)包括非縮混時(shí)頻拼 貝占、縮混編碼的時(shí)頻拼貼以及縮混指示。
[0084] 依照本發(fā)明的另一方面,編碼和解碼系統(tǒng)包括上面所描述的編碼器和解碼器。
[0085] 本發(fā)明的這些和其它方面、特征以及優(yōu)點(diǎn)從在下文中所描述的(一個(gè)或多個(gè))實(shí)施 例將是顯而易見的,并且將參考在下文中所描述的(一個(gè)或多個(gè))實(shí)施例而被闡明。
【專利附圖】
【附圖說(shuō)明】
[0086] 將參考附圖僅通過(guò)示例對(duì)本發(fā)明的實(shí)施例進(jìn)行描述,附圖中: 圖1圖示了依照現(xiàn)有技術(shù)的多聲道信號(hào)的音頻編碼的原理的示例; 圖2圖示了依照現(xiàn)有技術(shù)的MPEG環(huán)繞系統(tǒng)的元件的示例; 圖3圖示了依照現(xiàn)有技術(shù)的MPEG環(huán)繞系統(tǒng)的元件的示例; 圖4圖示了依照現(xiàn)有技術(shù)的SAOC系統(tǒng)的元件的示例; 圖5圖示了使得用戶能夠控制包含在SAOC比特流中的單獨(dú)對(duì)象的交互式接口; 圖6圖示了依照現(xiàn)有技術(shù)的SAOC系統(tǒng)的元件的示例; 圖7圖示了依照現(xiàn)有技術(shù)的3DAA的音頻編碼的原理的示例; 圖8圖示了依照現(xiàn)有技術(shù)的MPEG 3D音頻系統(tǒng)的元件的示例; 圖9圖示了依照現(xiàn)有技術(shù)的DirAC系統(tǒng)的元件的示例; 圖10圖示了依照現(xiàn)有技術(shù)的DirAC系統(tǒng)的元件的示例; 圖11圖示了依照現(xiàn)有技術(shù)的音頻系統(tǒng)的元件的示例; 圖12圖示了依照本發(fā)明的一些實(shí)施例的音頻系統(tǒng)的元件的示例; 圖13圖示了依照本發(fā)明的一些實(shí)施例的編碼器的元件的示例; 圖14圖示了依照本發(fā)明的一些實(shí)施例的解碼器的元件的示例; 圖15圖示了依照本發(fā)明的一些實(shí)施例的音頻系統(tǒng)解碼器的元件的示例; 圖16圖示了依照本發(fā)明的一些實(shí)施例的將音頻信號(hào)的時(shí)頻拼貼編碼為縮混或非縮混 時(shí)頻拼貼的示例;以及 圖17圖示了依照本發(fā)明的一些實(shí)施例的音頻系統(tǒng)解碼器的元件的示例。
【具體實(shí)施方式】
[0087] 圖12圖示了依照本發(fā)明的一些實(shí)施例的音頻渲染系統(tǒng)的示例。該系統(tǒng)包括接收 待編碼的音頻信號(hào)的編碼器1201。經(jīng)編碼的音頻數(shù)據(jù)經(jīng)由適合的通信介質(zhì)1205被發(fā)送到 解碼器1203。
[0088] 提供給編碼器1201的音頻信號(hào)可以以不同的形式被提供并且以不同的方式被生 成。例如,音頻信號(hào)可以是從麥克風(fēng)捕獲的音頻和/或可以是諸如例如針對(duì)計(jì)算機(jī)游戲應(yīng) 用合成地生成的音頻。音頻信號(hào)可以包括大量分量,所述大量分量可以被編碼為單獨(dú)的音 頻對(duì)象,諸如例如特定的合成地生成的音頻對(duì)象或被布置成捕獲特定音頻源的麥克風(fēng),所 述特定音頻源諸如例如單個(gè)樂(lè)器。
[0089] 每個(gè)音頻對(duì)象通常對(duì)應(yīng)于單個(gè)聲源。因此,和音頻聲道對(duì)比,并且特別地和常規(guī)空 間多聲道信號(hào)的音頻聲道對(duì)比,音頻對(duì)象通常不包括來(lái)自可能具有大大不同的位置的多個(gè) 聲源的分量。類似地,每個(gè)音頻對(duì)象通常提供聲源的完全表示。每個(gè)音頻對(duì)象因此通常與 針對(duì)僅單個(gè)聲源的空間位置數(shù)據(jù)相關(guān)聯(lián)。具體地,每個(gè)音頻對(duì)象通??梢员徽J(rèn)為是聲源的 單個(gè)且完整的表示,并且可以與單個(gè)空間位置相關(guān)聯(lián)。
[0090] 音頻對(duì)象不與任何特定渲染配置相關(guān)聯(lián),并且具體地不與聲換能器/揚(yáng)聲器的任 何特定空間配置相關(guān)聯(lián)。因此,和與諸如特定空間揚(yáng)聲器設(shè)置(例如環(huán)繞聲設(shè)置)之類的渲 染配置相關(guān)聯(lián)的聲音聲道對(duì)比,音頻對(duì)象不是相對(duì)于任何特定空間渲染配置定義的。
[0091] 音頻對(duì)象因此通常是視為單獨(dú)實(shí)例(例如歌唱家、樂(lè)器或合唱)的單個(gè)或組合聲 源。通常,音頻對(duì)象具有定義音頻對(duì)象的特定位置并且具體地定義音頻對(duì)象的點(diǎn)源位置的 相關(guān)聯(lián)的空間位置信息。然而,這個(gè)位置與特定渲染設(shè)置無(wú)關(guān)。對(duì)象(音頻)信號(hào)是表示音 頻對(duì)象的信號(hào)。對(duì)象信號(hào)可以包含多個(gè)對(duì)象,例如不在時(shí)間上并發(fā)。
[0092] 相比之下,音頻聲道與標(biāo)稱音頻源位置相關(guān)聯(lián)。音頻聲道因此通常沒(méi)有相關(guān)聯(lián)的 位置數(shù)據(jù),而是與標(biāo)稱相關(guān)聯(lián)的揚(yáng)聲器配置中的揚(yáng)聲器的標(biāo)稱位置相關(guān)聯(lián)。因此,鑒于音頻 聲道通常與相關(guān)聯(lián)的配置中的揚(yáng)聲器位置相關(guān)聯(lián),音頻對(duì)象不與任何揚(yáng)聲器配置相關(guān)聯(lián)。 音頻聲道因此表示在使用標(biāo)稱揚(yáng)聲器配置來(lái)執(zhí)行渲染時(shí)應(yīng)該被從給定標(biāo)稱位置渲染的組 合音頻。音頻聲道因此表示需要聲音分量從與聲道相關(guān)聯(lián)的標(biāo)稱位置渲染以便讓標(biāo)稱揚(yáng)聲 器配置空間上渲染音頻源的音頻場(chǎng)景中的所有音頻源。音頻對(duì)象相比之下通常不與任何特 定渲染配置相關(guān)聯(lián),并且替代地提供應(yīng)該被從一個(gè)聲源位置渲染以便讓所關(guān)聯(lián)的聲音分量 被感知為源自該位置的音頻。
[0093] 空間音頻編碼裝置1201被布置成生成編碼的信號(hào),所述編碼的信號(hào)包含表示提 供給空間音頻編碼裝置1201的音頻信號(hào)(具體地音頻對(duì)象和/或音頻聲道)的編碼的數(shù)據(jù)。
[0094] 可以通過(guò)包括直接通信或廣播鏈路的任何適合的通信介質(zhì)來(lái)傳送經(jīng)編碼的音頻 流。例如,通信可以是經(jīng)由因特網(wǎng)、數(shù)據(jù)網(wǎng)絡(luò)、無(wú)線電廣播等的。通信介質(zhì)可以可替換地或 附加地是經(jīng)由諸如⑶、Blu-Ray?盤、存儲(chǔ)器卡等之類的物理存儲(chǔ)介質(zhì)的。
[0095] 以下描述將集中于音頻對(duì)象的編碼,但是應(yīng)當(dāng)了解,所描述的原理視情況而定還 可以被應(yīng)用于例如音頻聲道信號(hào)。
[0096] 圖13更詳細(xì)地圖示了編碼器1201的元件。在該示例中,編碼器1201接收在該特 定示例中作為音頻對(duì)象的多個(gè)音頻信號(hào)(在該特定示例中四個(gè)音頻對(duì)象(^至〇 4被示出,但 是應(yīng)當(dāng)了解,這些僅僅表示任何多個(gè)音頻對(duì)象)。
[0097] 音頻對(duì)象由編碼接收器1301接收,所述編碼接收器1301將用于音頻對(duì)象的時(shí)頻 拼貼提供給編碼器1201的剩余部分。如將為技術(shù)人員所知的,信號(hào)的時(shí)頻拼貼對(duì)應(yīng)于給定 時(shí)間間隔和給定頻率間隔中的信號(hào)。因此,用時(shí)頻拼貼表示信號(hào)意味著該信號(hào)用大量拼貼 加以表不,其中每個(gè)拼貼有相關(guān)聯(lián)的頻率間隔和相關(guān)聯(lián)的時(shí)間間隔。每個(gè)時(shí)頻拼貼可以提 供反映所關(guān)聯(lián)的時(shí)間間隔和頻率間隔中的信號(hào)值的單個(gè)(通常為復(fù))值。然而,時(shí)頻拼貼還 可以提供多個(gè)信號(hào)值。信號(hào)常常被劃分成均勻時(shí)頻拼貼,即時(shí)間和/或頻率間隔對(duì)于所有 時(shí)頻拼貼來(lái)說(shuō)常常具有相同的大小。然而,在一些情況或?qū)嵤├校缤ㄟ^(guò)使用針對(duì)其的 說(shuō)頻率間隔的大小隨頻率增加而增加的時(shí)頻拼貼,可以使用非均勻時(shí)頻拼貼。
[0098] 在許多實(shí)施例中,音頻信號(hào)可能已經(jīng)被作為時(shí)頻拼貼表示提供給編碼器。然而,在 一些實(shí)施例中,編碼接收器1301可以生成這樣的表示。這通??梢酝ㄟ^(guò)將信號(hào)分割成(例 如持續(xù)時(shí)間為20 msec的)時(shí)間段并且對(duì)每個(gè)段執(zhí)行諸如FFT之類的時(shí)間至頻率變換而完 成。結(jié)果得到的頻域值可以各自直接地表示時(shí)頻拼貼,或者在一些情況下,可以將多個(gè)相鄰 頻率塊(在時(shí)間和/或頻率上相鄰)組合成一個(gè)時(shí)頻拼貼。
[0099] 為了簡(jiǎn)潔,以下描述將使用縮寫術(shù)語(yǔ)"拼貼"來(lái)指代時(shí)頻拼貼。
[0100] 編碼接收器1301被耦接到接收音頻對(duì)象的拼貼的選擇器1303。選擇器1303然后 被布置成選擇將被編碼為縮混的拼貼的一些拼貼和將被編碼為非縮混的拼貼的一些拼貼。 經(jīng)縮混的拼貼將是通過(guò)縮混通常來(lái)自至少兩個(gè)音頻對(duì)象的至少兩個(gè)拼貼所生成的拼貼,而 非縮混拼貼將在沒(méi)有任何縮混的情況下被編碼。因此,非縮混拼貼將包括來(lái)自正被編碼的 音頻對(duì)象/信號(hào)的僅一個(gè)拼貼的數(shù)據(jù)。因此,非縮混拼貼將包括來(lái)自僅一個(gè)音頻對(duì)象的貢 獻(xiàn),然而縮混拼貼將包括來(lái)自至少兩個(gè)拼貼并且通常至少兩個(gè)音頻對(duì)象的分量/貢獻(xiàn)。非 縮混拼貼具體地是不為兩個(gè)或更多個(gè)拼貼的縮混的拼貼。
[0101] 選擇器1303被耦接到縮混器1305,所述縮混器1305被饋送有由選擇器1303所 選擇的拼貼。然后繼續(xù)從這些拼貼生成縮混拼貼。例如,來(lái)自意在被縮混的不同音頻對(duì)象 的兩個(gè)對(duì)應(yīng)的(相同的頻率間隔和時(shí)間間隔)拼貼被縮混器1305縮混以生成單個(gè)縮混的拼 貝占。對(duì)于多個(gè)拼貼執(zhí)行這個(gè)方法從而生成縮混的拼貼的集合,其中每個(gè)縮混拼貼表示至少 兩個(gè)拼貼并且通常來(lái)自至少兩個(gè)音頻對(duì)象。
[0102] 在許多實(shí)施例中,縮混器1305進(jìn)一步生成能夠被用來(lái)通過(guò)執(zhí)行縮混拼貼的上混 來(lái)再造原始音頻對(duì)象拼貼的參數(shù)(上混)數(shù)據(jù)。例如,縮混器1305可以生成如將為本領(lǐng)域的 技術(shù)人員所熟知的對(duì)象間電平差(ILD)、對(duì)象間時(shí)間差(ITD)、對(duì)象間相位差(iro)和/或?qū)?象間相干性系數(shù)(ICC)。
[0103] 縮混拼貼被饋送給第一編碼器1307,所述第一編碼器1307繼續(xù)對(duì)每個(gè)縮混拼貼 進(jìn)行編碼以生成編碼的縮混拼貼。編碼器可以例如是縮混拼貼的值的簡(jiǎn)單量化,并且可以 具體地是維持由縮混拼貼所表示的波形的編碼。
[0104] 在許多實(shí)施例中,上混參數(shù)還可以被提供給第一編碼器1307,所述第一編碼器 1307可以使用任何適合的編碼方法來(lái)對(duì)這些參數(shù)進(jìn)行編碼。
[0105] 選擇器1303此外被耦接到被饋送有將作為非縮混拼貼的拼貼的第二編碼器 1309。第二編碼器然后繼續(xù)對(duì)這些拼貼進(jìn)行編碼。
[0106] 應(yīng)當(dāng)了解,盡管圖13將第一編碼器1307和第二編碼器1309圖示為獨(dú)立的功能單 元,但是它們可以被實(shí)現(xiàn)為單個(gè)編碼器,并且可以對(duì)縮混拼貼和非縮混拼貼兩者應(yīng)用相同 的編碼算法。
[0107] 應(yīng)當(dāng)了解,縮混拼貼和非縮混拼貼的任何編碼可以被用來(lái)生成適合的編碼的數(shù)據(jù) 信號(hào)。例如,在一些實(shí)施例中所有拼貼可以被獨(dú)立地編碼。例如,可以在不考慮任何其它拼 貼或沒(méi)有來(lái)自任何其它拼貼的影響的情況下對(duì)于每個(gè)拼貼執(zhí)行單獨(dú)的編碼,即可以獨(dú)立于 其它拼貼為每個(gè)拼貼生成經(jīng)編碼的數(shù)據(jù)。作為特定示例,可以對(duì)于每個(gè)拼貼獨(dú)立地執(zhí)行量 化和聲道編碼(無(wú)論是縮混還是非縮混)以生成被組合來(lái)生成經(jīng)編碼的數(shù)據(jù)的數(shù)據(jù)。
[0108] 在其它實(shí)施例中,可以使用拼貼的某種聯(lián)合編碼。具體地,可以對(duì)縮混拼貼和/或 非縮混拼貼的選擇進(jìn)行聯(lián)合編碼,以便通過(guò)利用拼貼和/或由拼貼所表示的對(duì)象的特定屬 性和/或相關(guān)性來(lái)改進(jìn)效率。
[0109] 選擇器1303被此外耦接到指示處理器1311,所述指示處理器1311接收哪些拼貼 被編碼為縮混拼貼以及哪些是非縮混的信息。指示處理器1311然后繼續(xù)生成指示音頻對(duì) 象的拼貼是否被編碼為縮混的拼貼或者編碼為非縮混拼貼的縮混指示??s混指示可以例如 包括針對(duì)音頻對(duì)象中的每一個(gè)的每個(gè)拼貼的數(shù)據(jù),其中針對(duì)給定拼貼的數(shù)據(jù)指示這是否一 直是非縮混或者編碼為縮混。在后者情況下,數(shù)據(jù)可以進(jìn)一步指示哪些其它音頻對(duì)象被縮 混成相同的縮混。這樣的數(shù)據(jù)可以允許解碼器標(biāo)識(shí)經(jīng)編碼的數(shù)據(jù)信號(hào)中的哪些數(shù)據(jù)應(yīng)該被 用來(lái)對(duì)特定拼貼進(jìn)行解碼。
[0110] 第一編碼器1307、第二編碼器1309以及指示處理器1311被耦接到輸出處理器 1313,所述輸出處理器1313生成包括非縮混拼貼、縮混編碼的拼貼以及縮混指示的編碼的 音頻信號(hào)。通常,上混參數(shù)被同樣包括。
[0111] 圖14更詳細(xì)地圖示了解碼器1203的元件。
[0112] 解碼器1203包括從編碼器1201接收經(jīng)編碼的信號(hào)的接收器1401。因此,接收器 接收表示多個(gè)音頻對(duì)象的編碼的數(shù)據(jù)信號(hào),其中經(jīng)編碼的數(shù)據(jù)信號(hào)包括被編碼為縮混拼貼 或者編碼為非縮混拼貼的編碼的拼貼。此外,它包括指示原始音頻拼貼分成不同類型的編 碼的拼貼如何已被執(zhí)行的縮混指示。通常,上混參數(shù)被同樣包括。
[0113] 接收器1401被耦接到生成器1403,所述生成器1403被饋送有所接收到的拼貼和 縮混指示符,并且其作為響應(yīng)繼續(xù)生成輸出信號(hào)的集合。輸出信號(hào)可以例如是然后可以在 后處理運(yùn)算中被處理或者以其它方式操縱的經(jīng)解碼的音頻對(duì)象。在一些實(shí)施例中,生成器 1403可以直接地生成適合于使用給定渲染設(shè)置(以及具體地?fù)P聲器配置)進(jìn)行渲染的輸出 信號(hào)。因此,生成器1403可以在一些情況下包括用于將音頻對(duì)象映射到特定渲染配置的音 頻聲道上的功能性。
[0114] 生成器1403被布置成根據(jù)它們是縮混拼貼還是非縮混拼貼而不同地處理編碼的 拼貼。具體地,對(duì)于由縮混指示指示為縮混拼貼的拼貼,為輸出信號(hào)生成拼貼包括上混運(yùn) 算。因此上混運(yùn)算可以具體地對(duì)應(yīng)于用于音頻對(duì)象的拼貼從其中音頻對(duì)象拼貼已被縮混的 縮混拼貼中的提取或再現(xiàn)。
[0115] 在數(shù)據(jù)信號(hào)包括參數(shù)上混數(shù)據(jù)的實(shí)施例中,這個(gè)數(shù)據(jù)被用在經(jīng)縮混的拼貼的上混 運(yùn)算中。
[0116] 作為示例,生成器1403可以包括再現(xiàn)原始音頻對(duì)象的再現(xiàn)生成器1405。再現(xiàn)生成 器1405可以例如每次一個(gè)來(lái)處理每個(gè)音頻對(duì)象,并且每次一個(gè)拼貼來(lái)處理每個(gè)音頻對(duì)象。
[0117] 例如,再現(xiàn)生成器1405可以對(duì)于給定(時(shí)間)段從音頻對(duì)象1的拼貼1 (例如最低 頻率拼貼)開始??s混指示然后針對(duì)對(duì)象1的拼貼1被評(píng)估。如果縮混指示指示針對(duì)對(duì)象1 的拼貼1的經(jīng)編碼的拼貼是非縮混,則經(jīng)編碼的拼貼被解碼以直接地提供對(duì)象1的拼貼1。 然而,如果縮混指示指示針對(duì)對(duì)象1的拼貼1的經(jīng)編碼的拼貼被縮混編碼,則經(jīng)編碼的拼貼 被首先解碼以提供縮混拼貼并且連續(xù)地上混以再現(xiàn)音頻對(duì)象1的原始拼貼1。(編碼的)縮 混拼貼的這個(gè)上混因此在它在編碼器處被縮混之前創(chuàng)建音頻對(duì)象1的拼貼1的(估計(jì))。如 果這樣的數(shù)據(jù)是可用的,則上混可以具體地使用參數(shù)上混數(shù)據(jù)。然而,如果未提供這樣的數(shù) 據(jù),則上混可以是盲上混。應(yīng)用于對(duì)象1的編碼的拼貼1的上混操作的結(jié)果因此是如饋送 給編碼器1201的音頻對(duì)象1的拼貼1 (的估計(jì))。
[0118] 因此,操作的結(jié)果是對(duì)象1的拼貼1,其中該拼貼的生成取決于縮混指示是否指示 這個(gè)已被編碼為縮混或者編碼為非縮混拼貼。
[0119] 再現(xiàn)生成器1405然后繼續(xù)對(duì)于音頻對(duì)象1的拼貼2執(zhí)行完全相同的操作,從而結(jié) 果得到音頻對(duì)象1的解碼的拼貼2。
[0120] 對(duì)于音頻對(duì)象1的所有拼貼重復(fù)該過(guò)程,并且生成的拼貼的結(jié)果得到的合集因此 提供音頻對(duì)象1的時(shí)頻拼貼表示。這可以由再現(xiàn)生成器1405 (或生成器1403)輸出,或者 如果例如時(shí)域信號(hào)是需要的,則可以應(yīng)用頻域至?xí)r域變換(例如iFFT)。
[0121] 然后對(duì)于音頻對(duì)象2、然后對(duì)于音頻對(duì)象3等重復(fù)相同的方法,直到已生成了所有 音頻對(duì)象為止。
[0122] 應(yīng)當(dāng)了解在這個(gè)示例中,多個(gè)上混操作被應(yīng)用于每個(gè)編碼的縮混拼貼。例如,如果 給定編碼的縮混拼貼是假定音頻對(duì)象1和3的拼貼的縮混,則在音頻對(duì)象1生成時(shí)和在音 頻對(duì)象3生成時(shí)都將執(zhí)行上混操作。上混操作將使用不同的上混參數(shù)(具體地針對(duì)特定對(duì) 象提供的參數(shù))。
[0123] 應(yīng)當(dāng)了解在一些實(shí)施例中,上混可以同時(shí)地提供經(jīng)上混的拼貼中的兩者(或全 部)。例如,矩陣操作可以被用來(lái)為音頻對(duì)象1和3兩者直接地生成經(jīng)上混的拼貼。當(dāng)算法 首先遇到給定編碼的縮混拼貼時(shí)(例如當(dāng)處理對(duì)象1時(shí))可以例如執(zhí)行全上混操作。可以存 儲(chǔ)用于其它對(duì)象的結(jié)果得到的上混拼貼,使得當(dāng)遇到了縮混成經(jīng)編碼的縮混拼貼的其它拼 貼時(shí)(例如,在該特定示例中當(dāng)處理對(duì)象3時(shí))不需要單獨(dú)的上混操作。
[0124] 應(yīng)當(dāng)了解在一些實(shí)施例或情況中,可以通過(guò)再現(xiàn)生成器1405的上混操作從一個(gè) 編碼的縮混拼貼生成僅一個(gè)上混的拼貼。例如,如果通過(guò)再現(xiàn)生成器1405僅生成了對(duì)象1, 則給定縮混拼貼的上混僅需要為對(duì)象1提供經(jīng)上混的拼貼。
[0125] 在一些實(shí)施例中,可以從生成器1403直接地輸出經(jīng)解碼的音頻對(duì)象。然而,在圖 14的示例中,經(jīng)解碼的音頻對(duì)象被饋送到渲染處理器1407,所述渲染處理器1407被布置成 生成與特定渲染設(shè)置相對(duì)應(yīng)并且具體地與特定揚(yáng)聲器配置相對(duì)應(yīng)的輸出信號(hào)。渲染處理器 1407因此可以將音頻對(duì)象映射到輸出聲道,其中每個(gè)輸出聲道與標(biāo)稱聲音渲染位置相關(guān) 聯(lián)。例如,可以將大量音頻對(duì)象映射到5. 1環(huán)繞聲揚(yáng)聲器設(shè)置的音頻聲道。
[0126] 本領(lǐng)域的技術(shù)人員將知道用于針對(duì)特定空間揚(yáng)聲器配置來(lái)將音頻對(duì)象映射到音 頻聲道的不同算法,并且應(yīng)當(dāng)了解,可以使用任何適合的方法。
[0127] 在圖14的示例中,生成器1403被示出為具有用于生成音頻對(duì)象并且用于渲染這 些對(duì)象的單獨(dú)功能性。然而,在許多實(shí)施例中,再現(xiàn)生成器1405和渲染處理器1407的功能 性可以被組合成單個(gè)整合功能或操作。因此,生成器可以在無(wú)需生成音頻對(duì)象作為顯式中 間信號(hào)的情況下直接地從經(jīng)編碼的數(shù)據(jù)生成渲染輸出。
[0128] 例如,上混操作可以作為矩陣操作/乘法(或者如果將生成僅一個(gè)上混值則甚至 作為復(fù)數(shù)乘法)被執(zhí)行。類似地,渲染映射可以作為矩陣操作/乘法被執(zhí)行。一個(gè)或多個(gè) 矩陣操作/乘法可以具體地是向量操作/乘法(即使用僅具有一列或一行的矩陣)。應(yīng)當(dāng)了 解,兩個(gè)順序乘法可以被組合成應(yīng)用于經(jīng)編碼的拼貼的拼貼值的單個(gè)矩陣乘法。這能夠通 過(guò)具有反映上混(如果被執(zhí)行)和渲染映射兩者的矩陣系數(shù)的矩陣乘法來(lái)實(shí)現(xiàn)??梢岳绾?jiǎn) 單地通過(guò)將與上混和渲染映射相關(guān)聯(lián)的單獨(dú)矩陣相乘來(lái)生成這樣的矩陣。因此,在這樣的 情況下,上混作為單個(gè)矩陣操作的組成部分并且在無(wú)需上混拼貼值或音頻對(duì)象的顯式生成 作為中間信號(hào)的情況下被執(zhí)行。在這樣的實(shí)施例中,矩陣系數(shù)因此可以反映/包括針對(duì)被 指示為縮混拼貼的拼貼而非針對(duì)被指示為非縮混拼貼的拼貼的上混。具體地,當(dāng)縮混指示 指示拼貼是縮混拼貼時(shí)而不是當(dāng)它指示拼貼是非縮混拼貼時(shí),矩陣系數(shù)可以取決于在經(jīng)編 碼的數(shù)據(jù)信號(hào)中接收到的上混參數(shù)。
[0129] 圖12的系統(tǒng)的方法可以由圖15圖示。如所圖示的,音頻對(duì)象的子集被直接地提 供用于編碼并且被編碼為非縮混拼貼,即沒(méi)有任何縮混。然而,另一子集(與第一子集不相 交)的音頻對(duì)象未被直接地提供用于編碼而是首先與縮混中的其它音頻對(duì)象組合。在該示 例中,四個(gè)音頻對(duì)象被成對(duì)地縮混為兩個(gè)縮混??s混此外生成了描述/定義原始音頻對(duì)象 如何可以被從縮混生成的參數(shù)上混數(shù)據(jù)(對(duì)象數(shù)據(jù))。應(yīng)當(dāng)了解,可以提供這樣的參數(shù)用于 更長(zhǎng)的時(shí)間間隔等,并且與原始信號(hào)相比縮混和參數(shù)數(shù)據(jù)因此提供數(shù)據(jù)減少。縮混然后連 同參數(shù)數(shù)據(jù)一起被編碼。在解碼器側(cè),可以首先解除編碼以為非縮混信號(hào)并且為上混生成 信號(hào)值。結(jié)果得到的信號(hào)然后被處理以生成適合的輸出聲道。這個(gè)處理包括針對(duì)縮混(基 于參數(shù)上混數(shù)據(jù))的上混和音頻對(duì)象到特定揚(yáng)聲器配置的映射。
[0130] 在該系統(tǒng)中,信號(hào)在時(shí)頻拼貼表示中并且具體地通過(guò)在時(shí)頻拼貼域中處理而被處 理。此外,提供了可以對(duì)于單獨(dú)的拼貼指示單獨(dú)的音頻對(duì)象拼貼是否被編碼為縮混拼貼或 者編碼為非縮混拼貼的縮混指示。這個(gè)縮混指示被從編碼器傳送到解碼器,并且因此允許 作為縮混或非縮混拼貼的拼貼的分配在逐個(gè)拼貼基礎(chǔ)上執(zhí)行。因此,圖15可以被認(rèn)為表示 針對(duì)特定拼貼即針對(duì)特定時(shí)間和頻率間隔的方法。然而,對(duì)于其它拼貼,相同的音頻對(duì)象可 以使用拼貼的不同分配被編碼成縮混編碼的拼貼和非縮混拼貼。因此,系統(tǒng)可以提供非常 靈活的編碼,并且高度粒狀的方法可以允許針對(duì)給定目標(biāo)速率的大量?jī)?yōu)化,其中優(yōu)化對(duì)于 特定信號(hào)特性來(lái)說(shuō)是特定的。
[0131] 該方法允許縮混編碼和非縮混編碼的相對(duì)度量之間(并且因此參數(shù)編碼和波形編 碼的相對(duì)度量之間)的非常高效的權(quán)衡。例如,對(duì)于較低數(shù)據(jù)速率,相對(duì)大量的拼貼可以利 用相關(guān)聯(lián)的參數(shù)被參數(shù)編碼為縮混拼貼。然而,仍然有可能在沒(méi)有任何縮混的情況下對(duì)關(guān) 鍵拼貼進(jìn)行編碼,從而降低參數(shù)編碼的可能的質(zhì)量降級(jí)。隨著目標(biāo)/可用數(shù)據(jù)速率增加,漸 增數(shù)目的拼貼可以是非縮混拼貼從而提高質(zhì)量(具體地音頻對(duì)象被漸增地波形編碼而不是 參數(shù)編碼并且特別地可以降低音頻對(duì)象串?dāng)_)。可以繼續(xù)這個(gè)趨勢(shì)直到所有拼貼是非縮混 拼貼并且整個(gè)編碼和解碼方法變得透明為止。因此,能夠?qū)崿F(xiàn)高度高效的編碼和隨透明度 的可伸縮性。
[0132] 圖12的系統(tǒng)因此可以被視為連同伴隨參數(shù)信息一起使用可用拼貼的子集預(yù)組合 成縮混的拼貼的混合波形/參數(shù)方法。剩余的拼貼與經(jīng)縮混的拼貼一起可以使用傳統(tǒng)的波 形編碼拼貼進(jìn)行編碼。參數(shù)信息將使經(jīng)縮混的拼貼與音頻對(duì)象拼貼相關(guān)聯(lián)。此外,關(guān)于每 個(gè)對(duì)象如何被表示的信息(純粹地波形或波形加參數(shù)信息一一即無(wú)論被非縮混編碼還是被 縮混編碼)同樣在經(jīng)編碼的數(shù)據(jù)信號(hào)中被傳送。這些特征特別地允許經(jīng)編碼的信號(hào)的數(shù)據(jù) 速率的改進(jìn)的可伸縮性。
[0133] 一個(gè)特定示例是擴(kuò)散聲場(chǎng)的編碼。在擴(kuò)散聲場(chǎng)實(shí)際上是全向的假設(shè)下,這需要實(shí) 際上無(wú)限數(shù)目的對(duì)象來(lái)表示擴(kuò)散聲場(chǎng)。通常,由于人類聽覺(jué)系統(tǒng)的局限,無(wú)需使用非常大量 的對(duì)象/聲道來(lái)表示擴(kuò)散聲場(chǎng)。取決于可用的比特速率,表示擴(kuò)散聲場(chǎng)的大量對(duì)象/聲道 能夠利用伴隨參數(shù)信息被縮混成較少數(shù)目的對(duì)象/聲道。
[0134] 在圖15的示例中,八個(gè)對(duì)象被編碼。編碼器確定哪些對(duì)象拼貼將被組合成縮混的 拼貼。除縮混之外,還得到了表示經(jīng)縮混的拼貼與原始對(duì)象拼貼之間的關(guān)系的對(duì)象數(shù)據(jù)。關(guān) 于原始對(duì)象的每個(gè)拼貼如何能夠被得到的信息(直接波形或縮混波形加對(duì)象數(shù)據(jù))被同樣 得到。由尚未被縮混的對(duì)象拼貼、已利用它們的伴隨對(duì)象數(shù)據(jù)(部分地)縮混的對(duì)象拼貼以 及得到信息(縮混指示)所組成的結(jié)果得到的信息被全部編碼。可以使用傳統(tǒng)的波形編碼技 術(shù)來(lái)對(duì)對(duì)象拼貼進(jìn)行編碼(無(wú)論是否被縮混)。
[0135] 解碼器接收一個(gè)或多個(gè)縮混拼貼,其中每個(gè)縮混拼貼表示來(lái)自音頻對(duì)象中的一個(gè) 或多個(gè)的一個(gè)或多個(gè)拼貼的縮混。此外,解碼器接收與縮混拼貼中的對(duì)象拼貼相關(guān)聯(lián)的參 數(shù)數(shù)據(jù)。并且,解碼器接收來(lái)自對(duì)象信號(hào)中的一個(gè)或多個(gè)中的一個(gè)或多個(gè)拼貼,其中這些拼 貼不存在于縮混拼貼中。解碼器進(jìn)一步接收提供指示給定對(duì)象拼貼是否利用參數(shù)數(shù)據(jù)被編 碼為非縮混拼貼或者編碼為縮混拼貼的信息的縮混指示符。基于這個(gè)信息,解碼器能夠使 用縮混拼貼加參數(shù)信息或者使用非縮混拼貼來(lái)為輸出信號(hào)生成拼貼。
[0136] 在一些實(shí)施例中,對(duì)對(duì)應(yīng)的拼貼執(zhí)行所有操作,即對(duì)于每個(gè)拼貼的頻率間隔和時(shí) 間間隔獨(dú)立地執(zhí)行處理。具體地,通過(guò)基于覆蓋相同的時(shí)間和頻率間隔的編碼的拼貼而生 成輸出信號(hào)拼貼來(lái)生成輸出信號(hào)。然而,在一些實(shí)施例中,一些頻率或時(shí)間變換可以作為處 理的一部分被執(zhí)行。例如,可以組合多個(gè)編碼的拼貼以生成覆蓋較大頻率間隔的輸出拼貼。
[0137] 并且,通常縮混將是覆蓋相同的頻率間隔和時(shí)間間隔的拼貼的。然而,在一些實(shí)施 例中,縮混可以是覆蓋可能是重疊的或不相交的不同間隔的拼貼的。實(shí)際上,在一些實(shí)施 例和情況中,縮混可以甚至是相同信號(hào)的兩個(gè)拼貼的(例如兩個(gè)拼貼沿著頻率維度是相鄰 的)。
[0138] 縮混指示的使用和傳送在音頻對(duì)象的編碼方面并且具體地在如何組合(或不組 合)音頻對(duì)象作為編碼過(guò)程的一部分的選擇方面提供非常高度的靈活性。該方法可以取決 于信號(hào)的僅一部分的特性而允許單獨(dú)的信號(hào)段(單獨(dú)的拼貼)被靈活地選擇用于與其它信 號(hào)段組合。實(shí)際上,并非僅僅選擇哪些信號(hào)或?qū)ο竽軌虮灰黄鹂s混,而是基于拼貼的縮混指 示的應(yīng)用允許這樣的考慮對(duì)于單獨(dú)的信號(hào)段并且具體地對(duì)于單獨(dú)的拼貼被執(zhí)行。
[0139] 在一些實(shí)施例中,縮混指示可以包括針對(duì)每個(gè)對(duì)象的每個(gè)拼貼的單獨(dú)指示,并且 編碼器可以針對(duì)每個(gè)拼貼確定該拼貼是否被縮混,并且如果是這樣的話,則可以判定應(yīng)該 與其它哪一個(gè)或其它哪些拼貼縮混。因此,在這樣的實(shí)施例中,可以對(duì)于所有對(duì)象執(zhí)行縮混 的基于單獨(dú)的拼貼的優(yōu)化。實(shí)際上,可以執(zhí)行全局優(yōu)化過(guò)程以對(duì)于給定目標(biāo)速率實(shí)現(xiàn)最高 音頻質(zhì)量。
[0140] 該方法可以具體地允許給定對(duì)象的一些拼貼與其它拼貼縮混,然而對(duì)象的其它拼 貼在沒(méi)有任何縮混的情況下被編碼。因此,一個(gè)對(duì)象的編碼可以包括縮混的拼貼和非縮混 拼貼兩者。這可以實(shí)質(zhì)上改進(jìn)編碼效率和/或質(zhì)量。
[0141] 例如,兩個(gè)音頻對(duì)象可以在給定時(shí)間段中包含(例如由于低信號(hào)值)感知上不太重 要的一些頻率間隔,然而其它頻率間隔是感知上更加重要的。在這種情況下,感知上不太緊 要的間隔中的拼貼可以被一起縮混,然而感知上更加緊要的間隔保持獨(dú)立以避免串?dāng)_并且 改進(jìn)質(zhì)量。
[0142] 并且,應(yīng)當(dāng)了解,在不同縮混中所牽涉的對(duì)象可以是變化的。例如,對(duì)于給定對(duì)象, 一個(gè)拼貼可以與一個(gè)其它對(duì)象縮混然而另一拼貼可以與另一對(duì)象縮混。作為特定示例,對(duì) 于較低頻率縮混對(duì)象1和2可能是有利的,然而對(duì)于較高頻率,縮混對(duì)象1和3可能是有利 的(假定在示例中對(duì)象1在高頻率和低頻率兩者下具有低信號(hào)能量,對(duì)象2在低頻率下具有 低信號(hào)能量但是在高頻率下具有高信號(hào)能量,并且對(duì)象3在高頻率下具有低信號(hào)能量但是 在低頻率下具有高信號(hào)能量)。
[0143] 被縮混成給定縮混拼貼的拼貼的數(shù)目此外在許多實(shí)施例中不限于兩個(gè)拼貼,而是 實(shí)際上在一些實(shí)施例和情況中,可以通過(guò)縮混3、4或甚至更多的拼貼來(lái)生成一個(gè)或多個(gè)縮 混拼貼。
[0144] 靈活性在時(shí)間方向上進(jìn)一步延伸,并且實(shí)際上拼貼變成縮混拼貼和非縮混拼貼的 分布可以暫時(shí)變化。因此可以動(dòng)態(tài)地改變分布,并且特別地可以針對(duì)每個(gè)時(shí)間段來(lái)確定新 的分布/分配。
[0145] 還應(yīng)當(dāng)了解,未必要求所有對(duì)象包括被縮混的一個(gè)或多個(gè)拼貼。實(shí)際上,可能的是 對(duì)象中的一個(gè)或多個(gè)中的所有拼貼可以是非縮混拼貼從而提供這些對(duì)象的高音頻質(zhì)量。如 果一個(gè)對(duì)象具有特定感知意義(諸如針對(duì)音樂(lè)音頻場(chǎng)景的聲樂(lè))則這可能是特別適當(dāng)?shù)?。?樣地,可能的是一個(gè)或多個(gè)音頻對(duì)象的所有拼貼被整個(gè)地編碼為縮混拼貼。
[0146] 可能的靈活性的示例在圖16中被圖示,圖16示出了一個(gè)時(shí)間段中的拼貼的分 布。在圖16中,每列由給定音頻輸入信號(hào)的拼貼組成并且每行是特定頻率間隔(與拼貼相 對(duì)應(yīng))。該示例圖示了五個(gè)音頻對(duì)象(由字母0表示)和兩個(gè)音頻聲道信號(hào)(由字母C表示)。 此外,該示例是基于對(duì)于每個(gè)頻率間隔可以包括兩個(gè)縮混(由字母d表示)的段的編碼的。
[0147] 在該示例中,第一頻率間隔(即第一行)使用僅兩個(gè)縮混拼貼被編碼。具體地,在這 個(gè)間隔中,三個(gè)最左邊對(duì)象的拼貼和兩個(gè)音頻聲道可以被組合成第一縮混并且兩個(gè)最右邊 對(duì)象的拼貼可以被組合成第二縮混拼貼。
[0148] 在下一個(gè)頻率間隔/行中,所有拼貼被編碼為非縮混拼貼。在下一個(gè)頻率間隔/ 行中,兩個(gè)音頻聲道的兩個(gè)拼貼被縮混成一個(gè)縮混拼貼然而所有對(duì)象拼貼被編碼為非縮混 拼貼。在下一個(gè)頻率間隔/行中,兩個(gè)最右邊對(duì)象的兩個(gè)拼貼被縮混成一個(gè)縮混拼貼然而 所有其它拼貼被編碼為非縮混拼貼。等等。
[0149] 為了結(jié)果得到的信號(hào)/拼貼的高效編碼,可以例如使用針對(duì)稀疏矩陣存儲(chǔ)的現(xiàn)有 技術(shù)。附加地或可替換地,能夠采用各種技術(shù)來(lái)在拼貼的編碼中改進(jìn)比特率效率。例如,用 于給定對(duì)象/拼貼的量化電平可能由于通過(guò)場(chǎng)景中的其它對(duì)象/拼貼的空間掩蔽而增加。 在極端情況下,可以例如根本不發(fā)送給定拼貼(即量化為零)。
[0150] 應(yīng)當(dāng)了解,不同的方法、算法或準(zhǔn)則能夠被用于選擇哪些拼貼被縮混(并且縮混成 哪些縮混)。
[0151] 在許多實(shí)施例中,選擇器1303可以選擇用于響應(yīng)于用于經(jīng)編碼的音頻信號(hào)的目 標(biāo)數(shù)據(jù)速率進(jìn)行縮混的拼貼。特別地,被縮混的拼貼的數(shù)目和/或被包括在經(jīng)編碼的音頻 信號(hào)中的縮混的數(shù)目可能依賴于可用的(即目標(biāo))數(shù)據(jù)速率。因此,對(duì)于較低數(shù)據(jù)速率,生成 了相對(duì)大量的縮混。隨著目標(biāo)數(shù)據(jù)速率增加,縮混的數(shù)目減少,并且實(shí)際上如果數(shù)據(jù)速率是 足夠高的,則系統(tǒng)可以選擇不執(zhí)行任何縮混。在極其低的比特率下縮混的數(shù)目可以是少的, 但是每個(gè)縮混可以是大量拼貼的縮混。因此,相對(duì)少量的縮混可以表示多個(gè)音頻信號(hào)的大 多數(shù)(如果并非全部)頻率拼貼。
[0152] 選擇器1303 (還)可以響應(yīng)于拼貼的能量來(lái)執(zhí)行選擇。具體地,表示拼貼中的信 號(hào)分量的低能量的拼貼可以被縮混,然而表示拼貼中的信號(hào)分量的較高能量的拼貼可以被 編碼為非縮混拼貼。較低能量很可能是感知上不太要緊的,并且因此可以相應(yīng)地減少縮混 編碼的影響(imp I i cat ions )(諸如串?dāng)_)。在一些情況下,使在給定縮混中被組合的拼貼的 能量平衡可能是有利的。這可以例如減少串?dāng)_,因?yàn)樾盘?hào)將在給定拼貼中是更相似的。
[0153] 在一些實(shí)施例中,選擇可以響應(yīng)于拼貼的空間特性。例如,音頻對(duì)象可以表示很可 能靠近彼此定位的音頻對(duì)象并且因此這些拼貼可以被選擇為被一起縮混。在許多實(shí)施例 中,空間上靠近的對(duì)象將被組合。這個(gè)的基本原理是在對(duì)象之間需要的空間分離越多,將發(fā) 生的空間暴露越多。特別地,串?dāng)_在它是在兩個(gè)靠近的音頻源之間時(shí)比在它針對(duì)空間上彼 此遠(yuǎn)離的兩個(gè)音頻源時(shí)不太可能被感知到。
[0154] 在一些實(shí)施例中,選擇可以響應(yīng)于成對(duì)拼貼之間的相干性特性。實(shí)際上,緊密地相 關(guān)的信號(hào)之間的串?dāng)_比在僅非常松散地相關(guān)的信號(hào)之間的不太可能被感知到。
[0155] 應(yīng)當(dāng)了解,通過(guò)縮混指示對(duì)信息的特定表示可能取決于單獨(dú)實(shí)施例的特定要求和 偏好。
[0156] 作為示例,預(yù)定限制可以是僅能夠在特定對(duì)中一起縮混音頻對(duì)象。例如,對(duì)象1的 拼貼僅能夠與對(duì)象2的拼貼(在相同的頻率和時(shí)間間隔中)縮混,對(duì)象3的拼貼僅能夠與對(duì) 象4的拼貼縮混等。在這樣的情況下,縮混指示可以簡(jiǎn)單地指示哪些拼貼被縮混并且不必 顯式地指示在特定縮混中被縮混的拼貼的標(biāo)識(shí)符。例如,對(duì)于對(duì)象1和2的每個(gè)頻率間隔 縮混指示可以包括一個(gè)比特,其中所述比特簡(jiǎn)單地指示拼貼是否被縮混。解碼器可以解釋 這個(gè)比特并且如果該比特指示拼貼是縮混則執(zhí)行拼貼的上混以便為對(duì)象1和2生成拼貼。
[0157] 實(shí)際上,縮混指示不必是顯式的但是可以由其它數(shù)據(jù)提供。特別地,對(duì)于縮混生成 參數(shù)數(shù)據(jù)的實(shí)施例,拼貼為縮混拼貼的指示可以簡(jiǎn)單地由參數(shù)上混數(shù)據(jù)的存在來(lái)提供。因 此,如果在音頻信號(hào)中提供了描述如何從編碼的拼貼生成(一個(gè)或多個(gè))上混拼貼的參數(shù), 則這提供了拼貼實(shí)際上是縮混拼貼的指示。
[0158] 在許多實(shí)施例中,縮混指示可以指示哪些對(duì)象拼貼在給定縮混拼貼中被縮混。縮 混指示可以針對(duì)被編碼為縮混拼貼的一個(gè)或多個(gè)(可能全部)拼貼提供縮混拼貼與音頻對(duì) 象的拼貼之間的鏈接。鏈接可以標(biāo)識(shí)在縮混中被縮混的拼貼。例如,鏈接數(shù)據(jù)可以針對(duì)給 定縮混拼貼指示它假定是對(duì)象1和2的縮混,對(duì)于另一縮混拼貼它假定是對(duì)象2、4以及7 的縮混等。
[0159] 包括已被縮混成縮混拼貼的對(duì)象拼貼的標(biāo)識(shí)可以提供增加的靈活性,并且能夠避 免對(duì)于對(duì)哪些拼貼可以被縮混的預(yù)定限制的任何需要。該方法可以允許完全自由的優(yōu)化, 其中縮混的拼貼可以被按照任何組合縮混以針對(duì)給定數(shù)據(jù)速率提供優(yōu)化的(感性的)音頻 質(zhì)量。
[0160] 還應(yīng)當(dāng)了解,能夠在不同的實(shí)施例中不同地構(gòu)造縮混指示。特別地,應(yīng)當(dāng)了解,可 以參照原始對(duì)象拼貼(更一般地正被編碼的音頻信號(hào)的拼貼)提供縮混指示數(shù)據(jù)。例如,對(duì) 于每個(gè)對(duì)象的每個(gè)拼貼,參數(shù)上混數(shù)據(jù)的存在可以指示該拼貼是縮混拼貼。對(duì)于這個(gè)拼貼, 提供了從它鏈接到特定編碼的縮混拼貼的數(shù)據(jù)。例如,數(shù)據(jù)可以在所對(duì)應(yīng)的縮混拼貼已被 編碼的經(jīng)編碼的數(shù)據(jù)信號(hào)中提供數(shù)據(jù)位置的指針。
[0161] 等同地,可以參考經(jīng)編碼的拼貼(并且特別地參考音頻信號(hào)的經(jīng)編碼的縮混拼貼) 提供縮混指示數(shù)據(jù)。例如,對(duì)于音頻信號(hào)的編碼的拼貼,音頻信號(hào)可以包括標(biāo)識(shí)縮混拼貼表 示哪些對(duì)象的數(shù)據(jù)段。
[0162] 應(yīng)當(dāng)了解,這些方法是等同的并且被經(jīng)編碼的拼貼所參考的縮混指示內(nèi)在地還為 對(duì)象拼貼提供縮混指不。例如注意,由指不例如 對(duì)象A的拼貼N被縮混成編碼的拼貼X、 對(duì)象B的拼貼M被縮混成編碼的拼貼X、 的數(shù)據(jù)(即為對(duì)象拼貼所參考的數(shù)據(jù))提供的信息提供了與指示如下的數(shù)據(jù)完全相同 的信息: 編碼的拼貼X是對(duì)象A的拼貼N和對(duì)象B的拼貼M的縮混。
[0163] (即為經(jīng)編碼的拼貼所參考的數(shù)據(jù))。
[0164] 數(shù)據(jù)在經(jīng)編碼的數(shù)據(jù)信號(hào)中的布置可以取決于特定實(shí)施例。例如,在一些實(shí)施例 中,可以在與經(jīng)編碼的數(shù)據(jù)拼貼和參數(shù)更新分開的一個(gè)數(shù)據(jù)段中提供表示縮混指示的數(shù) 據(jù)。在其它實(shí)施例中,數(shù)據(jù)可以是散置的,例如其中每個(gè)編碼的縮混數(shù)據(jù)拼貼伴隨有包括上 混參數(shù)的字段和包括在縮混中的對(duì)象拼貼的標(biāo)識(shí)。
[0165] 例如,可以通過(guò)被順序地布置在數(shù)據(jù)流中的對(duì)象信號(hào)來(lái)構(gòu)造經(jīng)編碼的音頻信號(hào)。 因此,可以為對(duì)象1提供第一數(shù)據(jù)。這個(gè)數(shù)據(jù)可以包括多個(gè)順序數(shù)據(jù)段,其中的每一個(gè)時(shí)間 段表示一個(gè)拼貼(例如按照漸增頻率排列)。因此,第一段包括針對(duì)對(duì)象1的拼貼1的編碼 的拼貼,下一個(gè)段包括針對(duì)對(duì)象1的拼貼2的編碼的拼貼等。
[0166] 如果段包括作為非縮混拼貼的編碼的拼貼,則僅經(jīng)編碼的拼貼數(shù)據(jù)被包括在該段 中。然而,如果拼貼已被編碼為縮混拼貼,則段包括經(jīng)編碼的縮混數(shù)據(jù),即縮混拼貼。然而, 此外,段包括包含用于從縮混拼貼為對(duì)象1生成拼貼的參數(shù)上混參數(shù)的字段。這指示該段 包含縮混拼貼。此外,標(biāo)識(shí)哪一個(gè)(或哪些)其它拼貼被組合成縮混的字段被包括(例如,它 可以包含指示對(duì)象2的對(duì)應(yīng)拼貼也由縮混來(lái)表示的數(shù)據(jù))。
[0167] 經(jīng)編碼的音頻信號(hào)因此能夠包含針對(duì)第一音頻對(duì)象的所有拼貼的順序段。
[0168] 然后對(duì)于下一個(gè)音頻對(duì)象重復(fù)相同的方法,即緊跟針對(duì)對(duì)象1的編碼數(shù)據(jù)之后, 針對(duì)對(duì)象2的經(jīng)編碼的數(shù)據(jù)被提供在多個(gè)段中,所述多個(gè)段中的每一個(gè)對(duì)應(yīng)于一個(gè)拼貼。 然而,在這種情況下,不包括已經(jīng)被提供在較早段(例如針對(duì)先前的對(duì)象)中的縮混編碼數(shù) 據(jù)。例如,如果為對(duì)象1和2的拼貼2生成了縮混,則已經(jīng)為對(duì)象1的拼貼2提供了這個(gè)編 碼的縮混數(shù)據(jù),并且因此針對(duì)對(duì)象2的拼貼2的數(shù)據(jù)段不包含任何編碼的數(shù)據(jù)。然而,在一 些實(shí)施例中它可以包括用于從縮混拼貼生成對(duì)象2的拼貼2的上混參數(shù)。在其它實(shí)施例中, 可能不提供這個(gè)數(shù)據(jù)(即可以使用盲上混)或者它可以被提供有經(jīng)編碼的拼貼數(shù)據(jù)(即在針 對(duì)對(duì)象1的拼貼2的數(shù)據(jù)段中)。在這樣的實(shí)施例中,當(dāng)前段可以是空的或者被跳過(guò)。
[0169] 可以利用如下原理對(duì)于所有對(duì)象繼續(xù)這個(gè)方法:編碼的縮混數(shù)據(jù)僅當(dāng)在經(jīng)編碼的 數(shù)據(jù)信號(hào)的順序拼貼布置中第一次遇到它時(shí)被包括??梢韵裼帽豁樞虻夭贾迷诮?jīng)編碼的音 頻信號(hào)中的時(shí)間段所描述的那樣提供每個(gè)時(shí)間段的經(jīng)編碼的數(shù)據(jù)。
[0170] 應(yīng)當(dāng)了解,許多其它布置是可能的并且可以使用任何適合的布置。
[0171] 上述描述已集中于音頻對(duì)象的編碼。然而,應(yīng)當(dāng)了解方法也適用于其它音頻信號(hào)。 具體地,它可以適用于空間多聲道信號(hào)的音頻信號(hào)/聲道和/或針對(duì)與標(biāo)稱揚(yáng)聲器配置中 的標(biāo)稱位置相關(guān)聯(lián)的聲道的音頻信號(hào)的編碼。具體地,在先前描述中對(duì)音頻對(duì)象的參考可 以視需要而被認(rèn)為是對(duì)音頻信號(hào)的參考。
[0172] 實(shí)際上,可以在基于混合聲道/對(duì)象的系統(tǒng)中使用該方法。象這樣的示例在圖17 中被圖示。在該示例中,音頻聲道和對(duì)象兩者像針對(duì)音頻對(duì)象先前所描述的那樣被以類似 的方式對(duì)待。編碼器判定對(duì)象和/或聲道的哪些拼貼將被組合。這個(gè)選擇能夠具體地將音 頻聲道和對(duì)象的拼貼組合成(混合)縮混拼貼。
[0173] 應(yīng)當(dāng)了解,上述描述為了清楚已參考不同的功能電路、單元以及處理器描述了本 發(fā)明的實(shí)施例。然而,將顯而易見的是,在不脫離本發(fā)明的情況下可以使用不同的功能電 路、單元或處理器之間的功能性的任何適合分布。例如,被圖示成由單獨(dú)的處理器或控制器 執(zhí)行的功能性可以由同一處理器或控制器來(lái)執(zhí)行。因此,對(duì)特定功能單元或電路的參考僅 將被視為對(duì)用于提供所描述的功能性的適合裝置的引用,而不是指示嚴(yán)格的邏輯或物理結(jié) 構(gòu)或組織。
[0174] 本發(fā)明能夠以包括硬件、軟件、固件或這些的任何組合的任何適合的形式加以實(shí) 現(xiàn)。本發(fā)明可選地可以被至少部分地實(shí)現(xiàn)為運(yùn)行在一個(gè)或多個(gè)數(shù)據(jù)處理器和/或數(shù)字信號(hào) 處理器上的計(jì)算機(jī)軟件。本發(fā)明的實(shí)施例的元件和組件可以以任何適合的方式被在物理 上、功能上以及邏輯上實(shí)現(xiàn)。實(shí)際上,功能性可以被實(shí)現(xiàn)在單個(gè)單元中、實(shí)現(xiàn)在多個(gè)單元中 或者實(shí)現(xiàn)為其它功能單元的一部分。同樣地,本發(fā)明可以被實(shí)現(xiàn)在單個(gè)單元中,或者可以在 物理上和功能上被分布在不同的單元、電路以及處理器之間。
[0175] 盡管已經(jīng)連同一些實(shí)施例描述了本發(fā)明,但是它不意在限于本文中所闡述的特定 形式。相反,本發(fā)明的范圍僅受所附權(quán)利要求限制。附加地,盡管特征可以看來(lái)似乎被連同 特定實(shí)施例一起描述,但是本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,可以根據(jù)本發(fā)明組合所描述的實(shí) 施例的各種特征。在權(quán)利要求中,術(shù)語(yǔ)包括不排除其它元件或步驟的存在。
[0176] 此外,盡管被單獨(dú)地列舉,但是多個(gè)裝置、元件、電路或方法步驟可以例如由單個(gè) 電路、單元或處理器來(lái)實(shí)現(xiàn)。附加地,盡管單獨(dú)的特征可以被包括在不同的權(quán)利要求中,但 是這些可能可以被有利地組合,并且在不同的權(quán)利要求中的包括不暗示特征的組合是不可 行的和/或有利的。并且特征在一個(gè)類別的權(quán)利要求中的包括不暗示對(duì)這個(gè)類別的限制, 而是指示特征視情況而定同樣地適用于其它權(quán)利要求類別。此外,權(quán)利要求中的特征的次 序不暗示特征必須以其來(lái)工作的任何特定次序,并且特別地,方法權(quán)利要求中的單獨(dú)的步 驟的次序不暗示必須按照這個(gè)次序執(zhí)行步驟。相反,可以按照任何適合的次序執(zhí)行步驟。此 夕卜,單數(shù)引用不排除多個(gè)。因此,對(duì)"一"、"一個(gè)"、"第一"、"第二"等的引用不排除多個(gè)。權(quán) 利要求中的附圖標(biāo)記僅僅作為澄清示例來(lái)提供,不應(yīng)該被解釋為以任何方式限制權(quán)利要求 的范圍。
【權(quán)利要求】
1. 一種解碼器,其包括: 接收器(1401),其用于接收表示多個(gè)音頻信號(hào)的編碼的數(shù)據(jù)信號(hào),所述編碼的數(shù)據(jù)信 號(hào)包括用于所述多個(gè)音頻信號(hào)的編碼的時(shí)頻拼貼,所述編碼的時(shí)頻拼貼包括非縮混時(shí)頻拼 貼和縮混時(shí)頻拼貼,每個(gè)縮混時(shí)頻拼貼是所述多個(gè)音頻信號(hào)的至少兩個(gè)時(shí)頻拼貼的縮混并 且每個(gè)非縮混時(shí)頻拼貼表示所述多個(gè)音頻信號(hào)的僅一個(gè)時(shí)頻拼貼,所述編碼的數(shù)據(jù)信號(hào)進(jìn) 一步包括針對(duì)所述多個(gè)音頻信號(hào)的時(shí)頻拼貼的縮混指示,所述縮混指示指示所述多個(gè)音頻 信號(hào)的時(shí)頻拼貼是否被編碼為縮混時(shí)頻拼貼或非縮混時(shí)頻拼貼; 生成器(1403),其用于從所述編碼的時(shí)頻拼貼生成輸出信號(hào)的集合,所述輸出信號(hào)的 生成包括針對(duì)由所述縮混指示指示為縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼的上混。
2. 根據(jù)權(quán)利要求1所述的解碼器,其中所述編碼的數(shù)據(jù)信號(hào)此外包括參數(shù)上混數(shù)據(jù), 并且其中所述生成器(1403)被布置成響應(yīng)于所述參數(shù)數(shù)據(jù)來(lái)適配上混操作。
3. 根據(jù)權(quán)利要求1所述的解碼器,其中所述生成器(1403)包括渲染單元,所述渲染單 元被布置成將用于所述多個(gè)音頻信號(hào)的時(shí)頻拼貼映射到與空間聲源配置相對(duì)應(yīng)的輸出信 號(hào)。
4. 根據(jù)權(quán)利要求1所述的解碼器,其中所述生成器(1403)被布置成通過(guò)對(duì)所述編碼的 時(shí)頻拼貼應(yīng)用矩陣操作來(lái)為輸出信號(hào)的集合生成時(shí)頻拼貼,矩陣操作的系數(shù)包括用于對(duì)于 其來(lái)說(shuō)所述縮混指示指示所述編碼的時(shí)頻拼貼是縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼而不用 于對(duì)于其來(lái)說(shuō)所述縮混指示指示所述編碼的時(shí)頻拼貼是非縮混時(shí)頻拼貼的編碼的時(shí)頻拼 貼的上混分量。
5. 根據(jù)權(quán)利要求1所述的解碼器,其中至少一個(gè)音頻信號(hào)通過(guò)至少一個(gè)非縮混時(shí)頻拼 貼和至少一個(gè)縮混時(shí)頻拼貼被表示在經(jīng)解碼的信號(hào)中。
6. 根據(jù)權(quán)利要求1所述的解碼器,其中針對(duì)至少一個(gè)縮混時(shí)頻拼貼的所述縮混指示包 括編碼的縮混時(shí)頻拼貼與所述多個(gè)音頻信號(hào)的時(shí)頻拼貼之間的鏈接。
7. 根據(jù)權(quán)利要求1所述的解碼器,其中所述多個(gè)音頻信號(hào)中的至少一個(gè)音頻信號(hào)由作 為所述多個(gè)音頻信號(hào)中的音頻信號(hào)的不同集合的縮混的兩個(gè)縮混時(shí)頻拼貼來(lái)表示。
8. 根據(jù)權(quán)利要求1所述的解碼器,其中所述多個(gè)音頻信號(hào)中的至少一個(gè)音頻信號(hào)由包 括不作為非縮混時(shí)頻拼貼或縮混時(shí)頻拼貼的至少一個(gè)編碼的時(shí)頻拼貼的編碼的時(shí)頻拼貼 來(lái)表示。
9. 根據(jù)權(quán)利要求1所述的解碼器,其中至少一個(gè)縮混時(shí)頻拼貼是不與聲源渲染配置的 標(biāo)稱聲源位置相關(guān)聯(lián)的音頻對(duì)象和與聲源渲染配置的標(biāo)稱聲源位置相關(guān)聯(lián)的音頻聲道的 縮混。
10. 根據(jù)權(quán)利要求1所述的解碼器,其中所述非縮混時(shí)頻拼貼中的至少一些被波形編 碼。
11. 根據(jù)權(quán)利要求1所述的解碼器,其中所述縮混時(shí)頻拼貼中的至少一些被波形編碼。
12. 根據(jù)權(quán)利要求1所述的解碼器,其中所述生成器(1403)被布置成上混所述縮混頻 率拼貼以為縮混時(shí)頻拼貼的所述多個(gè)音頻信號(hào)中的至少一個(gè)生成上混的時(shí)頻拼貼;并且所 述生成器被布置成針對(duì)對(duì)于其來(lái)說(shuō)所述縮混指示指示所述編碼的時(shí)頻拼貼是縮混時(shí)頻拼 貼的拼貼而使用所述上混的時(shí)頻拼貼來(lái)為輸出信號(hào)的集合生成時(shí)頻拼貼。
13. -種解碼的方法,其包括: 接收表示多個(gè)音頻信號(hào)的編碼的數(shù)據(jù)信號(hào),所述編碼的數(shù)據(jù)信號(hào)包括用于所述多個(gè)音 頻信號(hào)的編碼的時(shí)頻拼貼,所述編碼的時(shí)頻拼貼包括非縮混時(shí)頻拼貼和縮混時(shí)頻拼貼,每 個(gè)縮混時(shí)頻拼貼是所述多個(gè)音頻信號(hào)的至少兩個(gè)時(shí)頻拼貼的縮混并且每個(gè)非縮混時(shí)頻拼 貼表示所述多個(gè)音頻信號(hào)的僅一個(gè)時(shí)頻拼貼,所述編碼的數(shù)據(jù)信號(hào)進(jìn)一步包括針對(duì)所述多 個(gè)音頻信號(hào)的時(shí)頻拼貼的縮混指示,所述縮混指示指示所述多個(gè)音頻信號(hào)的時(shí)頻拼貼是否 被編碼為縮混時(shí)頻拼貼或非縮混時(shí)頻拼貼;以及 從所述編碼的時(shí)頻拼貼生成輸出信號(hào)的集合,所述輸出信號(hào)的生成包括針對(duì)由所述縮 混指示指示為縮混時(shí)頻拼貼的編碼的時(shí)頻拼貼的上混。
14. 一種編碼器,其包括 接收器(1301 ),其用于接收多個(gè)音頻信號(hào),每個(gè)音頻信號(hào)包括多個(gè)時(shí)頻拼貼; 選擇器(1303),其用于選擇待縮混的所述多個(gè)時(shí)頻拼貼的第一子集; 縮混器(1305),其用于縮混所述第一子集的時(shí)頻拼貼以生成縮混的時(shí)頻拼貼; 第一編碼器(1307),其用于通過(guò)對(duì)所述縮混時(shí)頻拼貼進(jìn)行編碼來(lái)生成縮混編碼的時(shí)頻 拼貼; 第二編碼器(1309),其用于通過(guò)在沒(méi)有所述第二子集的時(shí)頻拼貼的縮混的情況下對(duì)所 述音頻信號(hào)的所述時(shí)頻拼貼的第二子集進(jìn)行編碼來(lái)生成非縮混時(shí)頻拼貼; 單元(1311),其用于生成指示所述第一子集和所述第二子集的時(shí)頻拼貼是否被編碼為 縮混編碼的時(shí)頻拼貼或者編碼為非縮混時(shí)頻拼貼的縮混指示; 輸出(1313),其用于生成表示所述多個(gè)音頻信號(hào)的編碼的音頻信號(hào),所述編碼的音頻 信號(hào)包括所述非縮混時(shí)頻拼貼、所述縮混編碼的時(shí)頻拼貼以及所述縮混指示。
15. 根據(jù)權(quán)利要求14所述的編碼器,其中所述選擇器(1303)被布置成響應(yīng)于用于所述 編碼的音頻信號(hào)的目標(biāo)數(shù)據(jù)速率來(lái)為所述第一子集選擇時(shí)頻拼貼。
16. 根據(jù)權(quán)利要求14所述的編碼器,其中選擇器(1303)被布置成響應(yīng)于下列中的至少 一個(gè)來(lái)為所述第一子集選擇時(shí)頻拼貼: 所述時(shí)頻拼貼的能量; 所述時(shí)頻拼貼的空間特性;以及 成對(duì)所述時(shí)頻拼貼之間的相干性特性。
17. -種編碼的方法,其包括: 接收多個(gè)音頻信號(hào),每個(gè)音頻信號(hào)包括多個(gè)時(shí)頻拼貼; 選擇待縮混的所述多個(gè)時(shí)頻拼貼的第一子集; 縮混所述第一子集的時(shí)頻拼貼以生成縮混的時(shí)頻拼貼; 通過(guò)對(duì)經(jīng)縮混的時(shí)頻拼貼進(jìn)行編碼來(lái)生成縮混編碼的時(shí)頻拼貼; 通過(guò)在沒(méi)有所述第二子集的時(shí)頻拼貼的縮混的情況下對(duì)所述音頻信號(hào)的所述時(shí)頻拼 貼的第二子集進(jìn)行編碼來(lái)生成非縮混時(shí)頻拼貼; 生成指示所述第一子集和所述第二子集的時(shí)頻拼貼是否被編碼為縮混編碼的時(shí)頻拼 貼或者編碼為非縮混時(shí)頻拼貼的縮混指示;以及 生成表示多個(gè)音頻信號(hào)的編碼的音頻信號(hào),所述編碼的音頻信號(hào)包括所述非縮混時(shí)頻 拼貼、所述縮混編碼的時(shí)頻拼貼以及所述縮混指示。
18. -種編碼和解碼系統(tǒng),其包括根據(jù)權(quán)利要求1所述的編碼器和根據(jù)權(quán)利要求14所 述的解碼器。
19. 一種計(jì)算機(jī)程序產(chǎn)品,其包括被適配成在所述程序在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行根據(jù)權(quán) 利要求13或17所述的所有步驟的計(jì)算機(jī)程序代碼裝置。
【文檔編號(hào)】G10L19/18GK104428835SQ201380036886
【公開日】2015年3月18日 申請(qǐng)日期:2013年7月9日 優(yōu)先權(quán)日:2012年7月9日
【發(fā)明者】W. J. 奧門 A., G. H. 科彭斯 J., G. P. 舒杰斯 E. 申請(qǐng)人:皇家飛利浦有限公司