基于對象的音頻系統(tǒng)中的殘差編碼的制作方法

文檔序號：12288473閱讀：469來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請要求于2014年3月20日提交的題為“基于對象的音頻系統(tǒng)中的殘差編碼”的美國臨時專利申請No.61/968111、以及于2015年2月12日提交的題為“基于對象的音頻系統(tǒng)中的殘差編碼”的美國非臨時專利申請No.14/620544的優(yōu)先權(quán)。

技術(shù)領(lǐng)域

本發(fā)明大體上涉及有損的、多聲道音頻壓縮和解壓縮，更具體地涉及對下混的多聲道音頻信號以有助于對接收的解壓縮的多聲道音頻信號進行上混的方式來壓縮和解壓縮。

背景技術(shù)：

音頻和視聽娛樂系統(tǒng)從不起眼的起點、能夠通過單個揚聲器再現(xiàn)單聲道音頻而進展?，F(xiàn)代環(huán)繞聲系統(tǒng)能夠通過在收聽者環(huán)境(可以是公共劇院或更私人的“家庭影院”)中的多個揚聲器來記錄、發(fā)送并再現(xiàn)多個聲道。各種環(huán)繞聲揚聲器設(shè)置是可用的：這些揚聲器設(shè)置遵循諸如“5.1環(huán)繞”、“7.1環(huán)繞”甚至20.2環(huán)繞的名稱(其中小數(shù)點右側(cè)的數(shù)字指示低頻效果聲道)。對于每個這樣的配置，揚聲器的各種物理設(shè)置是可能的；但是通常如果渲染幾何形狀類似于由混合和掌控被記錄的聲道的音頻工程師來假定的幾何形狀，那么最佳的結(jié)果將被實現(xiàn)。

因為除了混合工程師的預(yù)測之外的各種渲染環(huán)境和幾何形狀是可能的，并且因為相同的內(nèi)容可以在多種收聽配置或環(huán)境中被回放，所以環(huán)繞聲配置的多樣性給希望呈現(xiàn)忠實的收聽體驗的工程師或藝術(shù)家?guī)砹吮姸嗵魬?zhàn)?！盎诼暤赖摹被?最近的)“基于對象的”方法可以被用來呈現(xiàn)環(huán)繞聲收聽體驗。

在基于聲道的方法中，每個聲道被記錄，目的是它應(yīng)該在對應(yīng)的揚聲器上的回放期間被渲染。在混合期間，期待的揚聲器的物理設(shè)置被預(yù)先確定或至少被近似地假設(shè)。相較而言，在基于對象的方法中，多個獨立的音頻對象被分別記錄、存儲和發(fā)送，保留它們的同步關(guān)系，但是獨立于與期待的回放揚聲器或環(huán)境的配置或幾何形狀有關(guān)的任何假定。音頻對象的示例將是單個樂器、諸如被視為統(tǒng)一的樂音的中提琴部分的合奏部分、人聲或聲音效果。為了保留空間關(guān)系，表示音頻對象的數(shù)字數(shù)據(jù)對于每個對象包括象征與特定聲源相關(guān)聯(lián)的信息的某些數(shù)據(jù)(“元數(shù)據(jù)”)：例如，矢量方向、近似值、響度、運動和聲源的范圍可以被以符號編碼(優(yōu)選地以能夠時變的方式)并且這個信息與特定的聲音信號一起被發(fā)送或記錄。獨立聲源波形和相關(guān)聯(lián)的元數(shù)據(jù)的組合一起包括音頻對象(存儲為音頻對象文件)。這個方法具有這樣的優(yōu)點：它可以以許多不同的配置而被靈活地渲染；但是，負擔(dān)被施加到渲染處理器(“引擎”)上以基于回放揚聲器和環(huán)境的幾何形狀和配置來計算合適的混合。

在對于音頻的、基于聲道的和基于對象的方法兩者中，都頻繁地期望以這樣的方式來發(fā)送下混的信號(A加上B)：在該方式中，兩個獨立的聲道(或?qū)ο?，A和B)可以在回放期間被分開(“被上混”)。發(fā)送下混的一個動機可能是為了保持向后兼容性，使得下混的節(jié)目可以在單聲道、傳統(tǒng)的雙聲道立體聲或(更一般地)在具有比記錄的節(jié)目中的聲道或?qū)ο蟮臄?shù)目少的揚聲器的系統(tǒng)上播放。為了恢復(fù)聲道或?qū)ο蟮母叩亩嘣裕瑧?yīng)用上混過程。例如，如果某人發(fā)送信號A和B的和C：(A+B)，并且如果其還發(fā)送B，那么接收器可以容易地構(gòu)造A：(A+B-B)＝A?？商娲兀橙丝梢园l(fā)送復(fù)合信號(A+B)和(A-B)，然后通過采用發(fā)送的復(fù)合信號的線性組合來恢復(fù)A和B。許多現(xiàn)有系統(tǒng)使用這個“矩陣混合”方法的變型。這些系統(tǒng)在恢復(fù)離散聲道或?qū)ο蠓矫媸穷H為成功的。但是，當(dāng)大量的聲道或者特別是對象被求和時，在沒有偽影或不切實際的高帶寬需要的情況下，充分地再現(xiàn)單獨的離散對象或聲道變得困難。因為基于對象的音頻經(jīng)常牽涉到非常大量的獨立音頻對象，所以，在為了從下混的信號中恢復(fù)離散的對象的有效的上混中，特別是在數(shù)據(jù)率(或更一般地，帶寬)被約束的地方，牽涉到巨大的困難。

在用于數(shù)字音頻的發(fā)送或記錄的大多數(shù)實用的系統(tǒng)中，數(shù)據(jù)壓縮的一些方法將是高度被期望的。數(shù)據(jù)率一直受到一些約束，并且更高效地發(fā)送音頻一直是被期望的。當(dāng)使用大量聲道時-作為離散聲道或被上混，這個考慮變得越來越重要。在本申請中，術(shù)語“壓縮”指減小發(fā)送或記錄音頻信號的數(shù)據(jù)需求的方法，不論結(jié)果是數(shù)據(jù)率減小還是文件大小減小。(這個定義不應(yīng)該與動態(tài)范圍壓縮混淆，在與這里無關(guān)的其他音頻情境中，動態(tài)范圍壓縮有時也被稱為“壓縮”)。

壓縮下混的信號的現(xiàn)有方法通常采用下面的兩個方法中的一個：無損編碼或冗余描述。這兩個方法中的任何一個可以有助于解壓縮之后的上混，但是兩者均有缺點。

無損和有損編碼：

假設(shè)A,B₁,B₂,...,B_m是獨立的信號(對象)，這些獨立的信號(對象)在碼流中被編碼并被發(fā)出到渲染器。被分辨的對象A將被稱為基對象，而B＝B₁,B₂,...,B_m將被稱為常規(guī)對象。在基于對象的音頻系統(tǒng)中，我們對同時但獨立地渲染對象感興趣，使得，例如，每個對象可以在不同的空間定位處被渲染。

向后兼容性是被期望的：換言之，我們需要編碼流是可以由既不是基于對象的也不是知曉對象的老式系統(tǒng)、或能夠處理更少的聲道老式系統(tǒng)解譯的。這樣的系統(tǒng)只能從C的編碼的(壓縮的)版本E(C)渲染復(fù)合對象或聲道C＝A+B₁+B₂+···+B_m。因此，我們需要碼流包括被發(fā)送的E(C)，后面跟著對單獨的對象的描述，該單獨的對象的描述被老式系統(tǒng)忽略。因而，碼流可以包括E(C)，后面跟著常規(guī)對象的描述E(B₁),E(B₂),…,E(B_m)。基對象A隨后通過解碼這些描述并設(shè)置A＝C-B₁–B₂-···-B_m被恢復(fù)。但是應(yīng)該注意，在實踐中使用的大多數(shù)音頻編解碼器是有損的，這意味著編碼的對象E(X)的解碼的版本Q(X)＝D(E(X))只是X的近似，因而不必與它相同。近似的精確度通常依賴于編解碼器的選擇并依賴于可用于碼流的帶寬(或存儲空間)。雖然無損編碼是可能的，即Q(X)＝X，但是它通常需要比有損編碼大得多的帶寬或存儲空間。在另一方面，后者仍然可以提供與原始的對象在知覺上無法區(qū)分的高質(zhì)量再現(xiàn)。

冗余描述：

可替代的方法是在碼流中包括對某些特權(quán)對象A的顯式的編碼，該碼流因此將包括E(C)，E(A)，E(B₁)，E(B₂)，…，E(B_m)。假設(shè)E是有損的，這個方法可能比使用無損編碼更經(jīng)濟，但是仍然不是帶寬的高效利用。該方法是冗余的，因為E(C)顯然與單獨地編碼的對象E(A)，E(B₁)，E(B₂)，…，E(B_m)相關(guān)。

技術(shù)實現(xiàn)要素：

對具有多個軌道和對象的下混復(fù)合信號(包括下混的信號)的有損壓縮和發(fā)送以與冗余發(fā)送或無損壓縮相比減小比特率要求同時減小上混偽影的方式來完成。壓縮的殘差信號與壓縮的總混合和至少一個壓縮的音頻對象一起被生成和發(fā)送。在接收和上混方面，本發(fā)明對下混的信號和其他壓縮的對象進行解壓縮，計算近似上混信號，并通過減去解壓縮的殘差信號來校正從上混中得出的特定基信號。本發(fā)明因而允許有損壓縮與下混音頻信號組合用于通過通信通道發(fā)送(或用于存儲)。在后面的接收和上混時，附加的基信號在提供多對象性能的有能力的系統(tǒng)中是可恢復(fù)的(而老式系統(tǒng)可以在不上混的情況下容易地解碼總混合)。本發(fā)明的方法和裝置具有以下兩個方面：a)音頻壓縮和下混方面，和b)音頻解壓縮/上混方面，其中壓縮應(yīng)該被理解成表示的是比特率減小(或文件大小減小)的方法，而下混表示的是聲道或?qū)ο笥嫈?shù)的減小，同時上混表示的是通過恢復(fù)和分離之前被下混的聲道或?qū)ο蠖鸬穆暤烙嫈?shù)的增大。

在本發(fā)明的解壓縮和上混方面，本發(fā)明包括用于對壓縮的下混復(fù)合音頻信號進行解壓縮和上混的方法。該方法包括以下步驟：接收總混合信號C的壓縮表示、一組相應(yīng)的對象信號{Bi}(所述組具有至少一個成員)的一組壓縮表示和殘差信號Δ的壓縮表示；對總混合信號C的壓縮表示進行解壓縮，對殘差信號Δ的壓縮表示和該組對象信號{Bi}解壓縮以得到相應(yīng)的近似總混合信號C’、一組近似對象信號{Bi’}和重構(gòu)的殘差信號Δ’；相減地混合該近似總混合信號C’和整組近似對象信號{Bi’}以便得到基信號R的近似R’；及相減地混合所述重構(gòu)的殘差信號Δ’與參考信號R的近似R’以便產(chǎn)生校正的基信號A”。在優(yōu)選的實施例中，對至少一個Bi的壓縮表示和對C的壓縮表示中的至少一個由有損壓縮方法來準(zhǔn)備。

在本發(fā)明的壓縮和下混方面，本發(fā)明包括壓縮復(fù)合音頻信號的方法，該復(fù)合音頻信號包括總混合信號C、一組至少一個對象信號{Bi}(所述組具有至少一個成員Bi)和基信號A，其中總混合信號C包括根據(jù)以下步驟與所述一組至少一個對象信號{Bi}混合的基信號A：通過有損壓縮方法來壓縮該總混合信號C和所述一組至少一個對象信號{Bi}以便分別產(chǎn)生壓縮的總混合信號E(C)和一組壓縮的對象信號E({Bi})；解壓縮所述壓縮的總混合信號E(C)和該組壓縮的對象信號E({Bi})以便得到重構(gòu)的Q(C)和一組重構(gòu)的對象信號Q({Bi})；相減地混合重構(gòu)的信號Q(C)和整組對象信號Q({Bi})以便產(chǎn)生近似的基信號Q’(A)；及從近似的基信號減去參考信號以便產(chǎn)生殘差信號Δ，然后壓縮該殘差信號Δ以便得到壓縮的殘差信號Ec(Δ)。壓縮的總混合信號E(C)、所述一組組(至少一個)壓縮的對象信號E({Bi})和壓縮的殘差信號Ec(Δ)被優(yōu)選地發(fā)送(或等同地，存儲或記錄)。

在壓縮和下混方面的一個實施例中，參考信號包括基混合信號A。在可替代的實施例中，參考信號是通過以下方法得出的基信號A的近似：使用有損方法壓縮基信號A以便形成壓縮信號E(A)，然后解壓縮該壓縮信號E(A)以便得到參考信號(該參考信號是基信號A的近似)。

提供這個總結(jié)以便介紹在下面的具體實施方式中被進一步描述的簡化形式中的概念的選擇。這個總結(jié)既不是意圖識別要求權(quán)利的主題的關(guān)鍵特征或本質(zhì)特征，也不是意圖用于限制權(quán)力要求的范圍。正如在本申請中使用的，除非在上下文以其他方式清楚地要求，否則術(shù)語“組”被用于表示具有至少一個成員的組，但不必需要具有多個成員。這個概念在數(shù)學(xué)情境中常用，并且不應(yīng)該導(dǎo)致歧義。根據(jù)下面結(jié)合附圖對優(yōu)選實施例的詳細描述，對于本領(lǐng)域的技術(shù)人員而言，本發(fā)明的這些和其他特征和優(yōu)點將是清楚的，其中：

附圖說明

圖1是描繪在現(xiàn)有技術(shù)中已知的、用于以向后兼容的方式來壓縮和發(fā)送包括混合的音頻信號的復(fù)合信號的一般化系統(tǒng)的高水平框圖；

圖2是示出根據(jù)本發(fā)明的第一實施例來壓縮復(fù)合音頻信號的方法的步驟的流程圖；

圖3是示出根據(jù)本發(fā)明的解壓縮方面解壓縮并上混音頻信號的方法的步驟的流程圖；

圖4是示出根據(jù)本發(fā)明的可替代的實施例壓縮復(fù)合音頻信號的方法的步驟的流程圖；

圖5是根據(jù)本發(fā)明的可替代實施例，與圖2中的方法一致地壓縮復(fù)合音頻信號的裝置的原理框圖；及

圖6是根據(jù)本發(fā)明的第一實施例，與圖4的方法一致地壓縮復(fù)合音頻信號的裝置的原理框圖。

具體實施方式

本文中描述的方法涉及處理信號，特別地針對處理表示物理聲音的音頻信號。這些信號可以由數(shù)字電子信號表示。在本討論中，連續(xù)的數(shù)學(xué)公式可以被示出或討論以便例證概念；但是，應(yīng)該理解，一些實施例在數(shù)字字節(jié)或字的時間序列的情境中操作，所述字節(jié)或字形成對于模擬信號或(最終)物理聲音的離散近似。該離散的數(shù)字信號與周期地采樣的音頻波形的數(shù)字表示對應(yīng)。在實施例中，可以使用近似48000采樣/秒的采樣率。諸如96khz的更高的采樣率可以被可替代地使用?？梢赃x擇量化方案和位分辨率來滿足特定應(yīng)用的需求。本文中描述的技術(shù)和裝置可以在數(shù)個聲道中相互依賴地應(yīng)用。例如，它們可以用于具有多于兩個聲道的環(huán)繞音頻系統(tǒng)的情境中。

如在本文中使用的，“數(shù)字音頻信號”或“音頻信號”不是描述單純的數(shù)學(xué)抽象概念，而是除了具有它的普通意義，還表示在能夠由機器或裝置檢測的非瞬時性物理介質(zhì)中體現(xiàn)的、或由該介質(zhì)攜帶的信息。這個術(shù)語包括記錄的或發(fā)送的信號，并且應(yīng)該理解為包括以任何形式的編碼來輸送，該任何形式的編碼包括脈沖編碼調(diào)制(PCM)但不限于PCM。輸出或輸入可以用各種已知方法中的任何一種而被編碼或壓縮，該已知方法包括MPEG、ATRAC、AC3或在美國專利5,974,380、5,978,762和6,487,535中描述的、DTS公司的專有方法?？梢詫τ嬎銏?zhí)行一些修改以便適應(yīng)那個特定的壓縮或編碼方法。

概述

圖1以高水平的概括示出了本發(fā)明在其中操作的一般性環(huán)境。如在現(xiàn)有技術(shù)中，編碼器110接收被任意地稱為A、B的多個獨立的音頻信號，使用混合器120將所述信號下混成總混合信號C(＝A+B)，使用壓縮器130壓縮該下混的信號，然后以將允許在解碼器160處重構(gòu)該信號的合理的近似的方式來發(fā)送(或記錄)該下混的信號。雖然在圖中僅示出信號B(為了簡化)，但是本發(fā)明可以用于多個獨立的信號或?qū)ο驜1,B2,...,Bm。類似地，在下面的描述中我們稱一組對象B1,B2,...,Bm；應(yīng)該理解，該組對象包括至少一個對象，即m>＝1，不限于某個數(shù)目的對象。

除了編碼器110和解碼器160，圖1還示出了一般化的發(fā)送通道150，發(fā)送通道150應(yīng)該被理解成包括發(fā)送或記錄或存儲介質(zhì)的、特別是記錄到非瞬時性機器可讀存儲介質(zhì)上的任何裝備。在本發(fā)明的情境中，更一般地在通信理論中，記錄或存儲與后面的回放結(jié)合，這可以被視為信息發(fā)送或通信的特殊情況，據(jù)理解，再現(xiàn)對應(yīng)于通常在后面的時間，可選地在不同的空間定位中接收并解碼該編碼的信息。因而，術(shù)語“發(fā)送”可以表示在存儲介質(zhì)上記錄；“接收”可以表示從存儲介質(zhì)讀?。磺摇巴ǖ馈笨梢园ń橘|(zhì)上的信息存儲。

信號通過發(fā)送通道以復(fù)用的格式被發(fā)送對于維持和保留信號(A,B,C)之間的同步關(guān)系是重要的。復(fù)用器和解復(fù)用器可以包括現(xiàn)有技術(shù)中已知的比特封裝和數(shù)據(jù)格式化方法。發(fā)送通道還可以包括信息編碼或處理的其他層，例如錯誤校正、奇偶校驗或適合(例如)在OSI層模型中描述的通道或物理層的其他技術(shù)。

如示出的，解碼器接收壓縮的下混的音頻信號，解復(fù)用所述信號，以創(chuàng)新的方式解壓縮所述信號，該創(chuàng)新的方式允許對上混的可接受的重構(gòu)以便再現(xiàn)多個獨立的信號(或音頻對象)。隨后該信號被優(yōu)選地上混以便恢復(fù)原始的信號(或盡可能的近似)。

操作原理：

假設(shè)A,B₁,B₂,...,B_m是獨立的信號(對象)，這些獨立的信號(對象)在碼流中被編碼并被發(fā)出到渲染器。被分辨的對象A將被稱為基對象，而B＝B₁,B₂,...,B_m將被稱為常規(guī)對象。我們稱一組對象B₁,B₂,...,B_m；但是應(yīng)該理解，該組對象包含至少一個對象(即m>＝1)，不限于某個數(shù)目的對象。在基于對象的音頻系統(tǒng)中，我們對同時但獨立地渲染對象感興趣，使得，例如，每個對象可以在不同的空間定位處被渲染。

對于向后兼容性，我們需要編碼流可以由既不是基于對象的也不是知曉對象的老式系統(tǒng)解譯。這樣的系統(tǒng)只能從C的編碼的版本E(C)渲染復(fù)合對象C＝A+B₁+B₂+···+B_m。因此，我們需要發(fā)送的碼流包括E(C)，后面跟著對單獨的對象的描述，該單獨的對象的描述被老式系統(tǒng)忽略。在現(xiàn)有技術(shù)方法中，碼流將包括E(C)，后面跟著常規(guī)對象的描述E(B₁),E(B₂),…,E(B_m)。基對象A隨后通過解碼這些描述并設(shè)置A＝C-B₁–B₂-···-B_m被恢復(fù)。但是應(yīng)該注意，在實踐中使用的大多數(shù)音頻編解碼器是有損的，這意味著編碼的對象E(X)的解碼的版本Q(X)＝D(E(X))只是X的近似，而不必與它相同。該近似的精確度通常依賴于編解碼器{E,D}的選擇并依賴于可用于碼流的帶寬(或存儲空間)。

因此，由此可見，當(dāng)使用有損編碼器時，解碼器將不能訪問對象C,B₁,B₂,…,B_m,但是可以訪問近似版本Q(C),Q(B₁),Q(B₂),…,Q(B_m),并且將只能將A估計成

Q’(A)＝Q(C)-Q(B₁)-Q(B₂)-···-Q(B_m)

這樣的近似將遭受單獨的有損編碼中的誤差的積累。在實踐中這將經(jīng)常導(dǎo)致令人不快的可感知的偽影。特別是，Q’(A)可能是比Q(A)差得多的A的近似，且它的偽影可能與其他對象統(tǒng)計相關(guān)，而Q(A)并不會這樣。在實踐中，殘差C–B1–B2等將在聽覺上與B1+B2+..相關(guān)(對于有損壓縮)。我們的人耳可以分辨出(pick up)在算法上很難檢測的相關(guān)性。

根據(jù)本發(fā)明，避免了結(jié)合現(xiàn)有方法提到的冗余中的一些，同時仍然允許A的可接受的重構(gòu)。我們在碼流中包括編碼E_c(Δ),而不是包括(冗余信號)Q(A)，其中，Δ是殘差信號：

Δ＝Q’(A)-A

且E_c是對于Δ的有損編碼器(不必與E相同)。令D_c是對于E_c的解碼器,并令

R(Δ)＝D_c(E_c(Δ))

在解碼器側(cè)，得到A的近似

Q_c(A)＝Q’(A)-R(Δ)

第一實施例的方法：

1.編碼器

上面以數(shù)學(xué)方式描述的編碼方法可以在程序上被描述成動作序列，如圖2所示。如前面描述的，至少一個被分辨的對象A將被稱為基對象，而B₁,B₂,...,B_m將被稱為常規(guī)對象。為了簡潔，我們可以在下面將常規(guī)對象統(tǒng)稱為B，可以理解，該組全部的(至少一個)常規(guī)對象B₁,B₂,...,B_m可以被指定為{Bi}；相較而言，B＝B₁+B₂+…B_m表示常規(guī)對象B₁,B₂,...,B_m的混合。該方法從混合的信號C＝A+B開始。應(yīng)當(dāng)清楚，A+B的混合可以作為預(yù)備步驟，或信號可以被設(shè)置為事先混合的。信號A也是需要的；它可以被分開接收或通過從C中減去B被重構(gòu)。該組(至少一個)常規(guī)對象{Bi}也是需要的，并且以下面描述的方式被編碼器使用。

首先，編碼器使用有損編碼方法分別壓縮(步驟210)信號A、{Bi}和C，以便得到分別由E(A)、{E(Bi)}和E(C)表示的對應(yīng)的壓縮信號。(符號{E(Bi)}表示該組編碼的對象中的每個與屬于該組信號{Bi}的相應(yīng)的原始對象對應(yīng)，每個對象信號由E單獨編碼)。然后編碼器使用與用于壓縮C和{Bi}的方法互補的方法來解壓縮(步驟220)E(C)和{E(Bi)}，以便產(chǎn)生重構(gòu)的信號Q(C)和{Q(Bi)}。這些信號與原始的C和{Bi}近似(不同，因為它們使用有損壓縮/解壓縮方法被壓縮然后解壓縮)。隨后，使用相減混合步驟230從Q(C)中減去{Q(Bi)}，以便產(chǎn)生修改的上混信號Q’(A)，該修改的上混信號是原始的A的近似，由于在混合之前的有損編碼中引入的誤差，Q’(A)不同于A。然后，在第二混合步驟240中從修改的上混信號Q’(A)中減去信號A(參考信號)，以便得到殘差信號Δ＝Q’(A)-A(步驟130)。該殘差信號Δ隨后由壓縮方法壓縮(步驟250)，我們指定該壓縮方法為E_c,其中E_c不必是與E(在步驟210中用于壓縮信號A、{Bi}或C)相同的壓縮方法或設(shè)備。優(yōu)選地，為了降低帶寬需求，E_c應(yīng)該是被選擇以便與Δ的特性匹配的、對于Δ的有損編碼器。但是，在帶寬被更少地優(yōu)化的可替代的實施例中，E_c可以是無損壓縮方法。

注意，上面描述的方法需要連續(xù)的壓縮和解壓縮步驟210和220(如應(yīng)用到信號{Bi}和C的那樣)。在這些步驟中，以及在下面描述的可替代的方法中，在一些例子中可以通過只執(zhí)行壓縮(和解壓縮)的有損部分來減小計算復(fù)雜度和時間。例如，諸如在美國專利5974380中描述的DTS編解碼器的許多有損解壓縮方法需要連續(xù)應(yīng)用有損步驟(濾波到子帶中、比特分配、在子帶中重新量化)和跟在后面的無損步驟(應(yīng)用碼本、熵減小)兩者。在這樣的例子中，省略編碼和解碼兩者上的無損步驟而只執(zhí)行有損步驟是足夠的。重構(gòu)的信號將仍然顯示出有損發(fā)送的效果的全部，但是節(jié)省了許多計算步驟。

隨后編碼器發(fā)送(步驟260)R＝Ec(Δ)、E(C)和{E(Bi)}。優(yōu)選地，編碼方法還包括將這三個信號復(fù)用或重新格式化成被復(fù)用的封裝以便用于發(fā)送或記錄的可選步驟。如果一些方式被用于保留或重構(gòu)這三個分開的但是相關(guān)的信號的時間同步，那么可以使用已知的復(fù)用方法中的任何一個。應(yīng)該記住，不同的量化方案可以被用于全部三個信號，并且?guī)捒梢栽谠撔盘栔g分配。有損音頻壓縮的許多已知的方法中的任何一個可以被用于E，包括MP3、AAC、WMA或DTS(等等)。

這個方法至少提供了以下優(yōu)點：首先，“誤差”信號Δ被期待擁有比原始對象小的功率和熵。由于具有與A相比減小的功率，該誤差信號Δ可以用比對象A少的比特被編碼，這幫助重構(gòu)。因此，提出的方法被期待比上面討論的冗余描述方法(在背景技術(shù)部分)經(jīng)濟。第二，編碼器E可以是任何音頻編碼器(例如MP3、AAC、WMA等)，特別注意，編碼器可以是并且在優(yōu)選實施例中是使用心理聲學(xué)原理的有損編碼器。(對應(yīng)的解碼器當(dāng)然也將是對應(yīng)的有損解碼器)。第三，編碼器E_c不需要是標(biāo)準(zhǔn)音頻編碼器，而可以對于信號Δ被優(yōu)化，Δ不是標(biāo)準(zhǔn)音頻信號。事實上，在E_c的設(shè)計和優(yōu)化中，感知的考慮將與標(biāo)準(zhǔn)音頻編解碼器的設(shè)計中的感知的考慮不同。例如，感知的音頻編解碼器不總是尋求在信號的所有部分中最大化SNR；相反，有時尋求更“恒定的”瞬時SNR機制，其中當(dāng)信號更強時允許更大的誤差。事實上，這是在Q’(A)中找到的由B_i引起的偽影的主要源頭。對于E_c，我們尋求盡可能多地消除這些偽影，所以在這種情況下直接的瞬時SNR最大化似乎更合適。

根據(jù)本發(fā)明的解碼方法在圖3中示出。作為預(yù)備的可選步驟300，解碼器必須接收并解復(fù)用數(shù)據(jù)流以便恢復(fù)Ec(Δ)、{E(Bi)}和E(C)。首先，(步驟310)解碼器接收壓縮的數(shù)據(jù)流(或文件)Ec(Δ)、{E(Bi)}和E(C)。然后解碼器將對數(shù)據(jù)流(或文件)Ec(Δ)、{E(Bi)}和E(C)中的每個進行解壓縮(步驟320)以便得到重構(gòu)的表示{Q(Bi)}、Q(C)和Rc(Δ)＝Dc(Ec(Δ))，其中Dc是與壓縮方法Ec相反的解壓縮方法，且其中用于{E(Bi)}和E(C)的解壓縮方法是與用于{Bi}和C的壓縮方法互補的解壓縮方法。信號Q(C)和{Q(Bi)}被相減地混合(步驟330)以便恢復(fù)Q’(A)＝Q(C)-ΣQ(Bi)。這個信號Q’(A)是A的近似，與原始的A不同，因為它根據(jù)Q(C)和{Q(Bi)}的相減的混合被重構(gòu)，Q(C)和{Q(Bi)}兩者均使用有損編解碼方法被發(fā)送。在本發(fā)明的解碼和上混方法中，隨后通過減去(步驟340)重構(gòu)的殘差R(Δ)以便得到Qc(A)＝Q’(A)-R(Δ)而改善近似信號Q’(A)。恢復(fù)的副本信號Qc(A)、Q(C)、{Q(Bi)}隨后可以被再現(xiàn)或輸出以便作為上混(A,{Bi})再現(xiàn)(步驟350)。對于具有更少的通道的系統(tǒng)，下混信號Q(C)對于輸出也是可用的(或作為基于消費者控制或偏好的選擇)。

應(yīng)該認識到，本發(fā)明的方法確實需要發(fā)送一些冗余數(shù)據(jù)。但是，本發(fā)明的方法的文件大小(或比特率需求)比下面的方法中所需的文件大小(或比特率需求)?。篴)對所有通道使用無損編碼，或者b)發(fā)送對有損編碼的對象加上有損編碼的上混的冗余描述。在一個實驗中，本發(fā)明的方法被用于將上混A+B(對于單個對象B)與基聲道A一起發(fā)送。結(jié)果在表1中示出?？梢钥吹?，冗余描述(現(xiàn)有技術(shù))方法將需要309KB來發(fā)送混合；相較而言，本發(fā)明的方法對于相同的信息(加上復(fù)用和頭字段的一些最低開銷)將只需要251KB。這個實驗不表示對可以通過進一步優(yōu)化壓縮方法來得到的改進的限制。

如圖4所示，在本方法的可替代的實施例中，編碼方法不同，因為殘差信號Δ根據(jù)Q’(A)＝D(E(C))-ΣD(E(Bi))和Q(A)(代替A)之間的差值而得出。這個實施例在這樣的應(yīng)用中特別適合：在該應(yīng)用中A的重構(gòu)被期望，并被期待近似地達到與B和C的重構(gòu)相同的質(zhì)量(不需要努力達到對A的更高的保真度重構(gòu))。在音頻娛樂系統(tǒng)中情況往往如此。

注意，在可替代的實施例中，Q’(A)是通過求取a)C下混的編碼然后解碼的版本、和b)通過對有損編碼的基混合B進行解碼而再現(xiàn)的、重構(gòu)的基對象{Q(Bi)}這兩者之間的差值來再現(xiàn)的信號。

現(xiàn)在參考圖4，在可替代的方法中，編碼器使用有損編碼方法分別壓縮(步驟410)信號A、{Bi}和C以便得到三個對應(yīng)的壓縮信號，該三個對應(yīng)的壓縮信號分別由EA、{E(Bi)}和E(C)表示。然后編碼器使用與用于壓縮A的方法互補的方法來解壓縮E(A)，產(chǎn)生Q(A)，Q(A)是A的近似(不同，因為它使用有損壓縮/解壓縮方法被壓縮然后解壓縮)。該可替代的方法隨后使用與用于編碼C和{Bi}的方法互補的相應(yīng)的方法來對E(C)和{E(Bi)}兩者解壓縮(步驟430)。產(chǎn)生的重構(gòu)信號Q(C)和{Q(Bi)}是原始的{Bi}和C的近似，由于由有損編碼和解碼方法引入的缺陷而不同?？商娲姆椒S后在步驟440中從Q(C)中減去ΣQ(Bi)以便得到差值信號Q’(A)。Q’(A)是A的另一個近似，由于有損壓縮被用于發(fā)送的下混而不同。殘差信號Δ通過從Q’(A)中減去Q(A)被得到(步驟450)。

殘差信號Δ隨后使用編碼方法Ec(Ec可以與E不同)被壓縮(步驟460)。正如在上面描述的第一實施例中的，Ec優(yōu)選地是適合殘差信號的特性的有損編解碼器。該編碼器隨后通過發(fā)送通道發(fā)送(步驟470)R＝Ec(Δ)、E(C)和{E(Bi)}，且同步關(guān)系被保留。優(yōu)選地，編碼方法還包括將這三個信號復(fù)用或重新格式化到復(fù)用的封裝中以便用于發(fā)送或記錄。如果一些方式被用于保留或重構(gòu)這三個分開的但是相關(guān)的信號的時間同步，那么可以使用已知的復(fù)用方法中的任何一個。應(yīng)該記住，不同的量化方案可以被用于全部三個信號，并且?guī)捒梢栽谛盘栔g分配。音頻壓縮的許多已知的方法中的任何一個可以被用于E，包括MP3、AAC、WMA或DTS(等等)。

由可替代的編碼方法編碼的信號可以使用上面結(jié)合圖3描述的相同的解碼方法來解碼。解碼器將減去重構(gòu)的殘差信號以便改善上混信號的近似，Q(A)，由此減小重構(gòu)的副本信號Q(A)和原始的信號A之間的差值。本發(fā)明的兩個實施例由這樣的一般性而聯(lián)合起來：它們在編碼器處生成殘差或誤差信號Δ，Δ表示在對信號進行解碼和上混以便提取特權(quán)對象A之后被期待的差值。在這兩個實施例中，誤差信號Δ均被壓縮和發(fā)送(或等同地，被記錄和或存儲)。在這兩個實施例中，解碼器均對該被壓縮的誤差信號進行解壓縮并將其從重構(gòu)的上混信號中減去，該重構(gòu)的上混信號近似于特權(quán)對象A。

可替代的實施例的方法可以在某些應(yīng)用中具有一些可感知的優(yōu)點。在實踐中，可替代的實施例中的哪個是優(yōu)選的可以依賴于系統(tǒng)的具體參數(shù)以及具體的優(yōu)化目標(biāo)。

在另一方面，本發(fā)明包括用于對混合的音頻信號進行壓縮或編碼的裝置，如圖5所示。在該裝置的第一實施例中，信號C(＝A+B對象混合)和B在輸入510和512處被分別提供。信號C由編碼器520編碼以便產(chǎn)生編碼的信號E(C)；信號{Bi}由編碼器530編碼以便產(chǎn)生第二編碼的信號{E(Bi)}。E(C)和{E(Bi)}隨后分別由解碼器540和550解碼，以便產(chǎn)生重構(gòu)的信號Q(C)和{Q(Bi)}。重構(gòu)的信號Q(C)和{Q(Bi)}在混合器560中被相減地混合以便產(chǎn)生差值信號Q’(A)。這個差值信號與原始信號A不同，因為它是通過對重構(gòu)的總混合Q(C)和重構(gòu)的對象{Q(Bi)}進行混合而得到的；偽影或誤差被引入，均是因為編碼器520是有損編碼器，并且因為信號是通過減法(在混合器560中)而得出的。重構(gòu)的信號Q’(A)隨后被從信號A中減去(輸入到570)且差值Δ由第二編碼器580壓縮以便產(chǎn)生壓縮的殘差信號Ec(Δ)，在優(yōu)選的實施例中第二編碼器580使用與壓縮器520不同的方法來操作。

如圖6所示，在編碼器裝置的可替代實施例中，信號C(＝A+B對象混合)和B分別在輸入510和512處被提供。信號C由編碼器520編碼以便產(chǎn)生編碼的信號E(C)；信號{Bi}由編碼器530編碼以便產(chǎn)生第二編碼的信號{E(Bi)}。E(C)和{E(Bi)}隨后分別由解碼器540和550解碼，以便產(chǎn)生重構(gòu)的信號Q(C)和{Q(Bi)}。重構(gòu)的信號Q(C)和{Q(Bi)}在混合器560中被相減地混合以便產(chǎn)生差值信號Q’(A)。這個差值信號與原始信號A不同，因為它是通過對重構(gòu)的總混合Q(C)和重構(gòu)的對象{Q(Bi)}進行混合而得到的。偽影或誤差被引入，均是因為編碼器520是有損編碼器，并且因為信號是通過減法(在混合器560中)而得出的。到現(xiàn)在為止可替代的實施例與第一實施例相似。

在裝置的可替代的實施例中，在輸入570處接收的信號A由編碼器572編碼(該編碼器可以是與有損編碼器520和530相同的編碼器或由與之相同的原理來操作)，然后572的編碼輸出再次由互補的解碼器574來解碼以便產(chǎn)生重構(gòu)的近似Q(A)，由于編碼器572的有損的性質(zhì)，所以Q(A)與A不同。重構(gòu)的信號Q(A)隨后在混合器560中被從Q’(A)中減去，而產(chǎn)生的殘差信號由第二編碼器580編碼(與在有損編碼器520和530中使用的方法不同的方法)。輸出E(C)、{E(Bi)}和E(Δ)隨后被使得可用于進行發(fā)送或記錄，優(yōu)選地以一些復(fù)用的格式或準(zhǔn)許同步的任何其他方法進行發(fā)送或記錄。

由第一或可替代的方法或編碼裝置(圖6)編碼的內(nèi)容可以由圖3的解碼器來解碼，這將是清楚的。解碼器需要壓縮的誤差信號，但是不需要對計算誤差的方式敏感。這給將來在編解碼器上進行改進而不改變解碼器設(shè)計留下了機會。

本文中描述的方法可以在消費者電子設(shè)備中實現(xiàn)，諸如通用計算機、數(shù)字音頻工作站、DVD或BD播放器、TV調(diào)諧器、CD播放器、手持播放器、互聯(lián)網(wǎng)音頻/視頻設(shè)備、游戲控制臺、移動電話、頭戴式耳機等等。消費者電子設(shè)備可以包括中央處理單元(CPU)，該中央處理單元可以表示一個或多個種類的處理器，諸如IBM PowerPC，Intel Pentium(x86)處理器等等。隨機存取存儲器(RAM)臨時存儲由CPU執(zhí)行的數(shù)據(jù)處理操作的結(jié)果，并且通?？梢越?jīng)由專用內(nèi)存通道與CPU相連。消費者電子設(shè)備還可以包括諸如硬驅(qū)動的永久存儲設(shè)備，其也可以經(jīng)由I/O總線與CPU通信。諸如磁帶驅(qū)動器或光盤驅(qū)動器的其他種類的存儲設(shè)備也可以被連接。顯卡也可以經(jīng)由視頻總線被連接到CPU，并將表示顯示數(shù)據(jù)的信號發(fā)送到顯示監(jiān)視器。諸如鍵盤或鼠標(biāo)的外圍數(shù)據(jù)輸入設(shè)備可以經(jīng)由USB端口被連接到音頻再現(xiàn)系統(tǒng)。USB控制器可以對去到以及來自CPU的數(shù)據(jù)和指令進行轉(zhuǎn)換以用于連接到USB端口的外圍設(shè)備。諸如打印機、麥克風(fēng)、揚聲器、頭戴式耳機等等的附加的設(shè)備可以被連接到消費者電子設(shè)備。

消費者電子設(shè)備可以利用具有圖形用戶接口(GUI)的操作系統(tǒng)，諸如來自華盛頓雷蒙德的微軟公司的WINDOWS、來自CA庫珀蒂諾的蘋果公司的MAC OS、為諸如安卓的移動操作系統(tǒng)而設(shè)計的移動GUI的各種版本等等。消費者電子設(shè)備可以運行一個或多個計算機程序。通常，操作系統(tǒng)和計算機程序被有形地體現(xiàn)在非瞬時性計算機可讀介質(zhì)中，例如包括硬驅(qū)動的、固定和/或可移動數(shù)據(jù)存儲設(shè)備中的一個或多個。操作系統(tǒng)和計算機程序兩者均可以從前述的數(shù)據(jù)存儲設(shè)備中被加載到RAM中以便由CPU執(zhí)行。計算機程序可以包括指令，當(dāng)由CPU讀取和運行時，該指令使得該CPU執(zhí)行運行本文中描述的實施例的步驟或特征的步驟。

本文中描述的實施例可以具有許多不同的配置和架構(gòu)。任何這樣的配置或架構(gòu)可以容易地被替代。本領(lǐng)域的技術(shù)人員將認識到，上述序列是在計算機可讀介質(zhì)中最常用的，但是具有可以被替代的其他現(xiàn)存的序列。

一個實施例的元素可以由硬件、固件、軟件或其任何組合來實現(xiàn)。當(dāng)被實現(xiàn)為硬件時，本文中描述的實施例可以在一個音頻信號處理器上應(yīng)用或在各種處理部件之間被分配。當(dāng)在軟件中被實現(xiàn)時，實施例的元素可以包括執(zhí)行必要的任務(wù)的代碼段。軟件可以包括實施在一個實施例中描述的操作的實際代碼或模擬或仿真該操作的代碼。程序或代碼段可以被存儲在處理器或機器可訪問介質(zhì)中，或由在載波中體現(xiàn)的計算機數(shù)據(jù)信號或由載波調(diào)制的信號經(jīng)由發(fā)送介質(zhì)來發(fā)送。處理器可讀或可訪問介質(zhì)或機器可讀或可訪問介質(zhì)可以包括可以存儲、發(fā)送或傳遞信息的任何介質(zhì)。相較而言，計算機可讀存儲介質(zhì)或非瞬時性計算機存儲器可以包括物理計算機器存儲設(shè)備但是不包括信號。

處理器可讀介質(zhì)的示例包括電子電路、半導(dǎo)體存儲設(shè)備、只讀存儲器(ROM)、閃存存儲器、可擦除ROM(EROM)、軟盤、壓縮磁盤(CD)ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路等等。計算機數(shù)據(jù)信號可以包括能夠經(jīng)由諸如電子網(wǎng)絡(luò)通道、光纖、空氣、電磁波、RF鏈路等的發(fā)送介質(zhì)傳播的任何信號。代碼段可以經(jīng)由諸如互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計算機網(wǎng)絡(luò)來下載。機器可訪問介質(zhì)可以在制品中體現(xiàn)。機器可訪問介質(zhì)可以包括當(dāng)由機器訪問時使機器執(zhí)行下面描述的操作的數(shù)據(jù)。術(shù)語“數(shù)據(jù)”除了具有普通的意義之外，在這里還指為了機器可讀的目的而被編碼的任何種類的信息。因此，它可以包括程序、代碼、文件等。

各種實施例的全部或部分可以由在機器中運行的軟件實現(xiàn)，該機器例如包括數(shù)字邏輯電路的硬件處理器。軟件可以具有彼此耦合的數(shù)個模塊。硬件處理器可以是可編程數(shù)字微處理器、或?qū)Ｓ每删幊虜?shù)字信號處理器(DSP)、場可編程門陣列、ASIC或其他數(shù)字處理器。例如，在一個實施例中，根據(jù)本發(fā)明的方法的步驟的全部(或者在編碼器方面或者解碼器方面)可以由在軟件控制下順序地運行全部步驟的一個或多個可編程數(shù)字計算機來合適地實施。軟件模塊可以耦合到另一模塊以便接收變量、參數(shù)、自變量(argument)、指針等和/或以便生成或傳遞結(jié)果、更新的變量、指針等。軟件模塊還可以是與運行在平臺上的操作系統(tǒng)交互的軟件驅(qū)動器或接口。軟件模塊還可以包括用來配置、設(shè)置、初始化硬件設(shè)備、發(fā)送數(shù)據(jù)到該硬件設(shè)備或從該硬件設(shè)備接收數(shù)據(jù)的硬件驅(qū)動器。

各種實施例可以被描述為一個或多個過程，該一個或多個過程可以被描繪成流程圖、流圖、結(jié)構(gòu)圖或框圖。雖然框圖可以將操作描述成順序過程，但是許多操作可以并行或同期執(zhí)行。此外，操作的順序可以重新設(shè)置。當(dāng)過程的操作完成時，過程終止。過程可以對應(yīng)于方法、程序、步驟等等。

在整個本申請，頻繁地引述加法、減法或“相減地混合”信號。將容易地認識到，信號可以以各種方式混合，結(jié)果是等同的。例如，為了從G中減去任意信號F(G-F)，人們可以使用差分輸入直接相減，或者等同地將信號中的一個翻轉(zhuǎn)，然后相加(例如：G+(-F))。其他等同操作可以被設(shè)想，一些操作包括引入相位偏移。諸如“減去”或“相減地混合”的術(shù)語意圖包括這樣的等同變型。類似地，信號相加的變型的方法是可能的，并被設(shè)想為“混合”。

在示出并描述了本發(fā)明的數(shù)個示例性的實施例的情況下，本領(lǐng)域的技術(shù)人員將能想到多種變型和可替代的實施例?？梢栽诓贿`背在所附的權(quán)利要求中定義的、本發(fā)明的精神和范圍的情況下設(shè)想和進行這樣的變型和可替代實施例。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3