專利名稱:用以基于下混信號表示型態(tài)針對上混信號表示型態(tài)的供應來提供一個或多個經調整參數(shù) ...的制作方法
技術領域:
根據本發(fā)明的實施例涉及一種用以基于一下混信號表示型態(tài)及一對象相關參數(shù)信息針對一上混信號表示型態(tài)的供應來提供一個或多個經調整參數(shù)的裝置。根據本發(fā)明的另一實施例涉及一音頻信號譯碼器。根據本發(fā)明的另一實施例涉及一音頻信號轉碼器。根據本發(fā)明的更進一步實施例涉及一用以提供一個或多個經調整參數(shù)的方法。根據本發(fā)明的更進一步實施例涉及一種基于一下混信號表示型態(tài)、一對象相關參數(shù)信息及一期望渲染信息來提供多個上混音頻信道作為一上混信號表示型態(tài)的方法。根據本發(fā)明的又一實施例涉及一種基于一下混信號表示型態(tài)、一對象相關參數(shù)信息及一期望渲染信息來提供一下混信號表示型態(tài)及一信道相關參數(shù)信息作為一上混信號表示型態(tài)的方法。根據本發(fā)明的更進一步實施例涉及一音頻信號編碼器、一種用以提供一編碼音頻信號表示型態(tài)的方法及一音頻位串流。根據本發(fā)明的更進一步實施例涉及相對應的計算機程序。根據本發(fā)明的更進一步實施例涉及針對避免失真的音頻信號處理的方法、裝置及計算機程序。
背景技術:
在已知音頻處理、音頻傳輸與音頻儲存技術中,愈益期望處理多通道內容以便提高聽覺印象。多信道音頻內容的使用為使用者帶來顯著的改進。舉例而言,獲得一 3維聽覺印象,其在娛樂應用中提高使用者的滿意度。然而,多信道音頻內容在例如電話會議應用的專業(yè)環(huán)境中也是有用的,因為揚聲器可懂度可通過使用一多信道音頻播放來提高。然而,還期望在音頻質量與位率要求間有一良好折衷,以避免由多通道應用導致的一過度資源加載。最近,已提出了針對包含多個音頻對象的音頻場景的位率有效傳輸及/或儲存的參數(shù)技術,例如,雙耳線索編碼(類型I)(參見,例如參考文獻[BCC])、聯(lián)合源編碼(參見, 例如參考文獻[JSC])、及MPEG空間音頻對象編碼(SAOC)(參見,例如參考文獻[SA0C1]、 [SA0C2])。這些技術旨在感知地重建期望的輸出音頻場景而非用一波形匹配。圖8示出這一系統(tǒng)的一系統(tǒng)概觀(這里MPEG SA0C)。在圖8中示出的MPEG SAOC 系統(tǒng)800包括一 SAOC編碼器810及一 SAOC譯碼器820。SAOC編碼器810接收多個對象信號X1至xn,它們可被表示為例如時域信號或時間-頻率-域信號(例如,為一傅立葉類型轉換的一組轉換系數(shù)的形式,或為QMF子頻帶信號的形式)。SAOC編碼器810典型地也接收下混系數(shù)Cl1至dn,它們與對象信號X1至^相關聯(lián)。諸組下混系數(shù)可分別用于下混信號的每一信道。SAOC編碼器810典型地被配置成通過根據相關聯(lián)的下混系數(shù)Cl1至dn組合對象信號X1至來獲得下混信號的一信道。典型地,下混信道比對象信號X1至I少。為了在 SAOC譯碼器820端(至少近似)容許分離(或分開處理)對象信號,SAOC編碼器810提供一個或多個下混信號(表示為下混通道)812及一輔助(side)信息814。輔助信息814說明對象信號X1至%的特性以便容許一譯碼器端特定對象處理。SAOC譯碼器820被配置成接收該一個或多個下混信號812及輔助信息814。再者,SAOC譯碼器820典型地被配置成接收說明一期望的渲染設置的一使用者互動信息及/ 或一使用者控制信息822。舉例而言,使用者互動信息/使用者控制信息822可說明一揚聲器設置及提供對象信號&至%的對象的期望空間布局。SAOC譯碼器820被配置成提供例如多個譯碼上混信道信號義至5^1。上混信道信號可例如與一多揚聲器渲染安排的個別揚聲器相關聯(lián)。SAOC譯碼器820可例如包含一對象分離器820a,該對象分離器820a被配置成基于一個或多個下混信號812及輔助信息814來至少近似重建對象信號X1至%,借此獲得重建對象信號820b。然而,重建對象信號820b可能略偏離原始對象信號1工至&,舉例而言,因為輔助信息814由于比特流限制不太夠進行完美重建。SAOC譯碼器820可進一步包含一混合器820c,該混合器820c可被配置成接收重建對象信號820b及使用者互動信息/使用者控制信息822并基于它們來提供上混信道信號
至知?;旌掀?20可被配置成使用使用者互動信息/使用者控制信息822來判定個別重建對象信號820b對上混信道信號義至的貢獻。使用者互動信息/使用者控制信息822 可例如包含渲染參數(shù)(也被表示為渲染系數(shù)),這些渲染參數(shù)判定個別重建對象信號822對上混信道信號義至的貢獻。然而,應該注意的是,在許多實施例中,在單一步驟中執(zhí)行用第8圖中對象分離器 820a指示的對象分離與用第8圖中混合器820c指示的混合。為實現(xiàn)此目的,可計算說明一個或多個下混信號812到上混信道信號義至 Μ上的一直接映像之總參數(shù)。這些參數(shù)可基于輔助信息及使用者互動信息/使用者控制信息820來計算?,F(xiàn)在參考圖9a、圖9b及圖9c,將說明不同的用以基于一下混信號表示型態(tài)及對象相關輔助信息來獲得一上混信號表示型態(tài)之裝置。圖9a示出一包含一 SAOC譯碼器920之 MPEG SAOC系統(tǒng)900的一方塊示意圖。SAOC譯碼器920包含作為分離功能區(qū)塊的一對象譯碼器922及一混合器/渲染器926。對象譯碼器922依賴于下混信號表示型態(tài)(例如,為在時域或時間-頻率-域中表示的一個或多個下混信號的形式)及對象相關輔助信息(例如,為對象元數(shù)據的形式)提供多個重建對象信號924?;旌掀?渲染器擬4接收與N個對象相關聯(lián)的重建對象信號擬4并基于它們提供一個或多個上混信道信號928。在SAOC譯碼器920中,對象信號擬4的采集與混合/渲染分開執(zhí)行,這允許將對象譯碼功能與混合/渲染功能分離但帶來一相當高的計算復雜度?,F(xiàn)在參考圖%,將簡要討論另一 MPEG SAOC系統(tǒng)930,該MPEG SAOC系統(tǒng)930包含一 SAOC譯碼器950。SAOC譯碼器950依賴于一下混信號表示型態(tài)(例如,為一個或多個下混信號的形式)及一對象相關輔助信息(例如,為對象元數(shù)據的形式)提供多個上混信道信號958。SAOC譯碼器950包含一組合的對象譯碼器與混合器/渲染器,該組合的對象譯碼器與混合器/渲染器被配置成在一聯(lián)合混合處理中獲得上混信道信號958而無需將對象譯碼與混合/渲染分開,其中該聯(lián)合上混過程的參數(shù)是取決于對象相關輔助信息與渲染信息。聯(lián)合上混過程也取決于被視為對象相關輔助信息的一部分之下混信息。綜上所述,可在一個一步驟過程或一個兩步驟過程中執(zhí)行提供上混信道信號928、 958?,F(xiàn)在參考圖9c,將說明一 MEPG SAOC系統(tǒng)960。SAOC系統(tǒng)960包含一 SAOC至MPEG 環(huán)繞轉碼器而非一 SAOC譯碼器。SAOC至MPEG環(huán)繞轉碼器包含一輔助信息轉碼器982,該輔助信息轉碼器982被配置成接收對象相關輔助信息(例如,為對象元數(shù)據的形式)及可取舍地關于一個或多個下混信號的信息及渲染信息。輔助信息轉碼器也被配置成基于一接收數(shù)據來提供一 MPEG環(huán)繞輔助信息(例如,為一 MPEG環(huán)繞位串流的形式)。因此,輔助信息轉碼器982被配置成在計入渲染信息及可取舍地有關一個或多個下混信號內容的信息之情況下將自對象編碼器出來的一對象相關(參數(shù))輔助信息轉換成一信道相關(參數(shù))輔助信息??扇∩岬兀琒AOC至MPEG環(huán)繞轉碼器980可被配置成操控例如下混信號表示型態(tài)所描述的一個或多個下混信號以獲得一經操控的下混信號表示型態(tài)988。然而,下混信號操控器986可被省略使得SAOC至MPEG環(huán)繞轉碼器980之輸出下混信號表示型態(tài)988與SAOC 至MPEG環(huán)繞轉碼器之輸入下混信號表示型態(tài)相同。舉例而言,如果通道相關MPEG環(huán)繞輔助信息984基于SAOC至MPEG環(huán)繞轉碼器980之輸入下混信號表示型態(tài)可能不能提供一期望的聽覺印象(這在一些渲染群集(rendering constellation)中可能如此),則可使用下混信號操控器986。因此,SAOC至MPEG環(huán)繞轉碼器980提供下混信號表示型態(tài)988及MPEG環(huán)繞位串流984使得多個上混信道信號可使用一接收MPEG環(huán)繞位串流984與下混信號表示型態(tài)988 的MPEG環(huán)繞譯碼器來產生,該多個上混信道信號根據輸入至SAOC至MPEG環(huán)繞轉碼器980 的渲染信息來表示音頻對象。綜上所述,可使用譯碼SAOC編碼音頻信號的不同構想。在一些情況中,一 SAOC譯碼器被使用,該SAOC譯碼器依賴于下混信號表示型態(tài)及對象相關參數(shù)輔助信息來提供上混信道信號(例如,上混信道信號928、958)。在第9a與9b圖中可見此構想的范例??蛇x擇地,SAOC編碼音頻信息可被轉碼以獲得一下混信號表示型態(tài)(例如,一下混信號表示型態(tài)988)及一信道相關輔助信息(例如,信道相關MPEG環(huán)繞位串流984,),它們可被一 MPEG 環(huán)繞譯碼器使用以提供期望的上混信道信號。在MPEG SAOC系統(tǒng)800中(此一系統(tǒng)概觀在第8圖中給出),一般處理是以一頻率選擇方式來完成且在每一頻帶內可被如下說明作為SAOC編碼器處理的一部分,N個輸入音頻對象信號X1至%被下混。對于一單聲道下混,用Cl1至dN來表示下混系數(shù)。此外,SAOC編碼器810采集說明輸入音頻對象的特性的輔助信息814。對于MPEGSA0C,彼此間對象功率的關系是此一輔助信息的最基本形式。(數(shù))下混信號812及輔助信息814被傳輸及/或儲存。為此目的,下混音頻信號可使用習知的感知音頻編碼器來壓縮,諸如MPEG-I層II或III (也稱為“.mp3” ) ,MPEG高階音頻編碼(AAC)、或任一其它音頻編碼器。 在接收端,SAOC譯碼器820感知地嘗試使用經傳輸?shù)妮o助信息814(當然還有一個或多個下混信號812)來恢復原始對象信號(「對象分離」)。這些近似對象信號(也表示為重建對象信號820b)接著使用一渲染矩陣被混合成一用M個音頻輸出信道表示(例如可用上混信道信號夕1至表示)的目標場景。對于一單聲道輸出,用巧至!·,指定渲染矩陣系數(shù)。
實際上,很少執(zhí)行對象信號的分離,因為分離步驟(用對象分離器820a指示) 與混合步驟(用混合器820c指示)被組合成一單一轉碼步驟,這通常極大地降低計算復雜度。 已發(fā)現(xiàn)這一方案在傳輸位率(僅需傳輸幾個下混通道外加一些輔助信息來代替N 個離散對象音頻信號或一離散系統(tǒng))與計算復雜度(處理復雜度主要有關于輸出信道數(shù)目而非音頻對象數(shù)目)方面都極其有效。對接收端上的使用者的進一步好處包括自由選擇對他/她的選擇(單聲道、立體聲、環(huán)繞、虛擬化耳機播放等等)的一渲染設置與使用者互動性特征渲染矩陣,及因而,輸出場景可由使用者隨意愿、個人偏好或其它準則來互動地設置及改變。舉例而言,可以將一群組的通話器一起置于一空間區(qū)域來與其它剩余通話器最大的區(qū)別開。此互動性透過提供一譯碼器使用者接口來實現(xiàn)對于每一傳輸聲音對象,其相對層級及(對于非單聲道渲染)渲染的空間位置可被調整。這可隨使用者改變相關聯(lián)圖形使用者接口(⑶I)滑動塊的位置而實時發(fā)生(例如, 對象層級=+5dB,對象位置=-30deg)。然而,已發(fā)現(xiàn)的是,針對上混信號表示型態(tài)(例如,上混信道信號義至 Μ )的供應之譯碼器端參數(shù)選擇在一些情況中帶來可聞降級。鑒于此情況,本發(fā)明的目標是建立一種在提供一上混信號表示型態(tài)(例如,為上混信道信號至 Μ的形式)時容許減小或甚至避免可聞失真的構想。
發(fā)明內容
發(fā)明概要此問題由一種根據權利要求1項所述之用以基于一下混信號表示型態(tài)及一對象相關參數(shù)信息針對一上混信號表示型態(tài)之一供應來提供一個或多個經調整的參數(shù)之裝置、 一種根據權利要求M項所述之音頻信號譯碼器、一種根據權利要求25項所述之音頻信號轉碼器、一種根據權利要求26、27、觀項所述之方法、一種根據權利要求四項所述之音頻信號編碼器、一種根據權利要求31項所述之方法、一種根據權利要求32項所述之音頻位串流及一種根據權利要求;34項所述之計算機程序來解決。根據本發(fā)明的一實施例產生一種用以基于一下混信號表示型態(tài)及一對象相關參數(shù)信息針對一上混信號表示型態(tài)之一供應來提供一個或多個經調整的參數(shù)之裝置。該裝置包含一參數(shù)調整器(例如,一渲染系數(shù)調整器),該參數(shù)調整器被配置成接收一個或多個輸入參數(shù)(例如,一渲染系數(shù)或一期望渲染矩陣之一說明)并基于該一個或多個輸入參數(shù)提供一個或多個經調整的參數(shù)。該參數(shù)調整器被配置成依賴于該一個或多個輸入參數(shù)及該對象相關參數(shù)信息(例如,依賴于一個或多個下混系數(shù)、及/或一個或多個物件層級差值、及/ 或一個或多個對象間相關性值)來提供該一個或多個經調整參數(shù),使得由使用非最佳參數(shù)引起的上混信號表示型態(tài)之一失真至少針對偏離最佳參數(shù)超過一預定偏差之輸入參數(shù)而減小。
根據本發(fā)明的此實施例是根據此想法由不適當選擇輸入參數(shù)引起的音頻信號失真可通過針對上混信號表示型態(tài)之供應提供經調整參數(shù)來減小,及通過計入對象相關參數(shù)信息能以良好準確度來執(zhí)行經調整參數(shù)的供應。已發(fā)現(xiàn)的是,使用對象相關參數(shù)信息容許獲得可能由使用輸入參數(shù)而引起之可聞失真的一估計測度,這相應地容許提供適于將可聞失真保持在一預定范圍內或較輸入參數(shù)適于減小可聞失真之經調整參數(shù)。對象相關信息說明例如音頻對象特性及/或給出有關編碼器端對象處理的信息。因此,通過提供一個或多個經調整參數(shù),由使用不適當參數(shù)(例如,不適當渲染系數(shù))導致之不期望及往往惱人的音頻信號失真可被減小或甚至避免,其中在參數(shù)調整時計入對象相關參數(shù)信息有助于通過考慮可聞失真的一相對可靠估計來確保有效減小及/或限制音頻信號失真。在一優(yōu)選實施例中,該裝置被配置成接收期望渲染參數(shù)作為輸入參數(shù),這些期望渲染參數(shù)描述上混信號表示型態(tài)說明的一個或多個信道中多個音頻對象信號的一期望強度縮放。在此情況中,參數(shù)調整器被配置成依賴于該一個或多個期望渲染參數(shù)提供一個或多個實際渲染參數(shù)。已發(fā)現(xiàn)的是,選擇不適當渲染參數(shù)帶來使用此類不適當選擇的渲染參數(shù)而獲得之一上混信號表示型態(tài)的一顯著(及往往可聞)降級。再者,已發(fā)現(xiàn)的是,渲染參數(shù)可依賴于對象相關參數(shù)信息被有效調整,因為對象相關參數(shù)信息考慮到對由渲染參數(shù) (可由輸入參數(shù)來定義)的一指定選擇而引入之失真的一估計。在一優(yōu)選實施例中,參數(shù)調整器被配置成依賴于對象相關參數(shù)信息及一說明音頻對象信號對下混信號表示型態(tài)的一貢獻之下混信息來獲得一個或多個渲染參數(shù)限制值,使得一失真度量處在渲染參數(shù)值遵從渲染參數(shù)限制值所定義的限制之一預定范圍內。在此情況中,參數(shù)調整器被配置成依賴于期望渲染參數(shù)及該一個或多個渲染參數(shù)限制值來獲得實際渲染參數(shù),使得實際渲染參數(shù)遵從渲染參數(shù)限制值所定義的限制。計算渲染參數(shù)限制值組成一計算上簡單且可靠的機制以根據一失真度量確??陕勈д嬖谝豢扇菰S的范圍內。在一優(yōu)選實施例中,參數(shù)調整器被配置成獲得該一個或多個渲染參數(shù)限制值使得在使用一遵從該一個或多個渲染參數(shù)限制值的渲染參數(shù)而渲染之多個對象信號的一渲染迭加中一對象信號的一相對貢獻與一下混信號中對象信號的一相對貢獻的差異不超過一預定差。已發(fā)現(xiàn)的是,若對象信號之一渲染迭加中一對象信號的貢獻類似于一下混信號中對象信號的一貢獻,則失真典型地足夠小,而這些相對貢獻的一強烈差異典型地帶來可聞失真。這是由于此事實一對象信號(相對)層級較之下混信號表示型態(tài)中對象信號(相對)層級的一強烈改變往往帶來人工因素,因為往往不可能以理想方式分離不同音頻對象的對象信號。因此,已發(fā)現(xiàn)調整渲染參數(shù)帶來良好結果,借此透過選擇渲染參數(shù),對象信號的相對貢獻僅被適度改變。在另一實施例中,參數(shù)調整器被配置成獲得該一個或多個渲染參數(shù)限制值使得一失真測度處在一預定范圍內,該失真測度說明一由下混信號表示型態(tài)說明的下混信號與使用該一個或多個遵從該一個或多個渲染參數(shù)限制值之渲染參數(shù)而渲染的渲染信號間的相干性。已發(fā)現(xiàn)的是,對構成參數(shù)調整器的輸入參數(shù)之期望渲染參數(shù)的選擇應該使得在下混信號表示型態(tài)說明之下混信號與渲染信號間維持一足夠「類似性」,因為若非如此上混過程中獲得可聞失真的風險十分高。在又一優(yōu)選實施例中,參數(shù)調整器被配置成計算一期望渲染參數(shù)(可構成參數(shù)調整器的輸入參數(shù))之平方與一最佳渲染參數(shù)(可例如被定義為一最小化一失真度量的渲染參數(shù))之平方間的一線性組合以獲得實際渲染參數(shù)(可被裝置輸出為經調整參數(shù))。在此情況中,參數(shù)調整器被配置成依賴于一預定閾值參數(shù)T及失真度量來決定期望渲染參數(shù)與最佳渲染參數(shù)對線性組合的一貢獻,其中失真度量說明一使用該一個或多個期望渲染參數(shù)而非最佳渲染參數(shù)以基于下混信號表示型態(tài)來獲得上混信號表示型態(tài)而引起之失真。此構想容許將失真減小至一可接受的測度,同時仍維持期望渲染參數(shù)的一足夠影響。根據此構想,計入限制可聞失真的一期望程度可找到最佳渲染參數(shù)與期望渲染參數(shù)間的一合理良好折衷。在一優(yōu)選實施例中,參數(shù)調整器被配置成依賴于對感知降級的一計算測度來提供一個或多個經調整參數(shù),使得由使用非最佳參數(shù)引起且用感知降級之計算測度表示之上混信號表示型態(tài)的一感知評估失真受限制。以此方式,可實現(xiàn)參數(shù)可根據聽覺印象來調整,從而避免一不可接受之欠佳聽覺印象,同時在依一使用者的期望來調整參數(shù)上仍提供足夠的靈活性。在一優(yōu)選實施例中,參數(shù)調整器被配置成接收一說明一個或多個原始對象信號的性質之對象性質信息,該一個或多個原始對象信號構成下混信號表示型態(tài)說明之一下混信號的基礎。在此情況中,參數(shù)調整器被配置成考慮對象性質信息來提供經調整參數(shù)使得上混信號表示型態(tài)相對被包括于上混信號表示型態(tài)中之對象信號的性質方面的一失真至少針對偏離最佳參數(shù)超過一預定偏差之輸入參數(shù)而減小。根據本發(fā)明的此實施例是根據此發(fā)現(xiàn)該一個或多個原始對象信號的性質可被用來評估是否輸入參數(shù)合適或應該被調整,因為期望提供上混信號使得上混信號的特性有關于該一個或多個原始對象信號的特性,因為若非如此在許多情況下感知印象會明顯降級。在一優(yōu)選實施例中,參數(shù)調整器被配置成接收并考慮一對象信號音調信息作為一對象性質信息以便提供該一個或多個經調整參數(shù)。已發(fā)現(xiàn)的是,對象信號的音調是一對感知印象有明顯影響的量,及應該避免選擇明顯改變音調印象的參數(shù)以便擁有一良好聽覺印象。在一優(yōu)選實施例中,參數(shù)調整器被配置成依賴于接收的對象信號音調信息及一接收的對象功率信息來估計一理想渲染上混信號的音調。在此情況中,參數(shù)調整器被配置成提供該一個或多個經調整參數(shù),以當相比于估計音調與使用輸入參數(shù)而獲得之一上混信號的音調間的差時減小估計音調與使用該一個或多個經調整參數(shù)而獲得之一上混信號的音調間的差,或使估計音調與使用該一個或多個經調整參數(shù)而獲得之一上混信號的音調間的差保持在一預定范圍內。使用此構想,能以高計算效率獲得聽覺印象降級的一測度,該測度允許適當調整渲染參數(shù)。在一優(yōu)選實施例中,參數(shù)調整器被配置成執(zhí)行輸入參數(shù)的一時間與頻率變化調整。因此,可僅在此類調整實際上帶來聽覺印象的改進或避免聽覺印象的一明顯降級之時間間隔或頻率區(qū)域執(zhí)行輸入參數(shù)的調整來獲得經調整參數(shù)。還在另一優(yōu)選實施例中,參數(shù)調整器被配置成亦考慮提供該一個或多個經調整參數(shù)之下混信號表示型態(tài)。計入下混信號表示型態(tài),可獲得聽覺印象可能的失真的一更加精確估計。在一優(yōu)選實施例中,參數(shù)調整器被配置成獲得一總失真測度,其為說明多個人工因素類型之失真測度的一組合。在此情況中,參數(shù)調整器被配置成獲得總失真測度使得總失真測度是由使用一個或多個輸入渲染參數(shù)而非最佳渲染參數(shù)以基于下混信號表示型態(tài)來獲得上混信號表示型態(tài)而引起之失真的一測度。通過組合說明多個人工因素類型的多個失真測度,建立一調整聽覺印象的良好控制機制。根據本發(fā)明的另一實施例產生一種用以基于一下混信號表示型態(tài)、一對象相關參數(shù)信息及一期望渲染信息來提供多個上混音頻信道作為一上混信號表示型態(tài)之音頻信號譯碼器。該音頻信號譯碼器包含一上混器,該上混器被配置成基于該下混信號表示型態(tài)并依賴于對象相關參數(shù)信息及一實際渲染信息來獲得上混音頻信道,該實際渲染信息說明由對象相關參數(shù)信息說明之音頻對象之多個對象信號至上混音頻信道的一分配。該音頻信號譯碼器亦包含一種用以提供如上討論一個或多個經調整參數(shù)之裝置。用以提供一個或多個經調整參數(shù)的裝置被配置成接收期望渲染信息作為該一個或多個輸入參數(shù)并提供該一個或多個經調整參數(shù)作為實際渲染信息。用以提供一個或多個經調整參數(shù)的裝置亦被配置成提供該一個或多個經調整參數(shù)使得由使用偏離最佳渲染參數(shù)之實際渲染參數(shù)而引起之上混音頻信道的失真至少針對偏離最佳渲染參數(shù)超過一預定偏差之期望渲染參數(shù)被減小。在一音頻信號譯碼器中使用用以提供該一個或多個經調整參數(shù)之裝置容許避免產生由用不當選擇期望渲染信息執(zhí)行音頻譯碼而引起之強烈可聞失真。根據本發(fā)明的一實施例產生一種用以基于一下混信號表示型態(tài)、一對象相關參數(shù)信息及一期望渲染信息提供一信道相關參數(shù)信息作為一上混信號表示型態(tài)之音頻信號轉碼器。該音頻信號轉碼器包含一輔助信息轉碼器,該輔助信息轉碼器被配置成基于下混信號表示型態(tài)并依賴于對象相關參數(shù)信息及一實際渲染信息來獲得信道相關參數(shù)信息,該實際渲染信息說明由對象相關參數(shù)信息說明之音頻對象之多個對象信號至上混音頻信道的一分配。該音頻信號譯碼器亦包含一種用以提供如上討論一個或多個經調整參數(shù)之裝置。 用以提供一個或多個經調整參數(shù)的裝置被配置成接收期望渲染信息作為該一個或多個輸入參數(shù)并提供該一個或多個經調整參數(shù)作為實際渲染信息。再者,用以提供該一個或多個經調整參數(shù)的裝置被配置成提供該一個或多個經調整參數(shù)使得由使用偏離最佳渲染參數(shù)之實際渲染參數(shù)引起、由信道相關參數(shù)信息(結合下混信號信息)表示之上混音頻信道的失真至少針對偏離最佳渲染參數(shù)超過一預定偏差之期望渲染參數(shù)減小。已發(fā)現(xiàn)的是,提供經調整參數(shù)的構想也十分適于結合一音頻信號轉碼器使用。根據本發(fā)明的進一步實施例產生一種用以提供一個或多個經調整參數(shù)的方法,一種譯碼一音頻信號之方法及一種轉碼一音頻信號之方法。這些方法是以與如上所討論裝置相同的關鍵想法為基礎。根據本發(fā)明的另一實施例產生一種用以基于多個對象信號來提供一下混信號表示型態(tài)及一對象相關參數(shù)信息之音頻信號編碼器。該音頻編碼器包含一下混器,該下混器被配置成依賴于與對象信號相關聯(lián)的下混系數(shù)來提供一個或多個下混信號,使得該一個或多個下混信號包含多個對象信號的一迭加。該音頻編碼器也包含一輔助信息提供器,該輔助信息提供器被配置成提供一說明對象信號的層級差與相關性特性之對象間關系輔助信息與一說明個別對象信號的一個或多個個別性質之個別對象輔助信息。已發(fā)現(xiàn)的是,一音頻信號編碼器提供一對象間關系輔助信息與一個別對象輔助信息容許有效減小或甚至避免一多信道音頻信號譯碼器端的可聞失真。對象間關系輔助信息被用于在譯碼器端分離對象信號,個別對象輔助信息可被用于決定是否對象信號的個別特性在譯碼器端被維持,這指示失真在可接受容許度內。在一優(yōu)選實施例中,輔助信息提供器被配置成提供個別對象輔助信息使得個別對象輔助信息說明個別對象的音調。已發(fā)現(xiàn)的是,個別對象的音調是一心里聲學上重要的量, 其容許失真的一譯碼器端限制。根據本發(fā)明的一實施例產生一種用以編碼一音頻信號之方法。根據本發(fā)明的另一實施例產生一種以一編碼形式表示多個(音頻)對象信號之音頻位串流。該音頻位串流包含一表示一個或多個下混信號之下混信號表示型態(tài),其中至少一下混信號包含多個(音頻)對象信號的一迭加。該音頻位串流也包含一說明對象信號的層級差與相關性特性之對象間關系輔助信息與一說明個別對象信號的一個或多個個別性質之個別對象輔助信息。如上所述,這一音頻位串流使多信道音頻信號的一重建成為可能, 其中可識別并減小或甚至消除由不當設置渲染參數(shù)引起的可聞失真。根據本發(fā)明之進一步的實施例產生一種用以實施上面所討論方法的計算機程序。
參考附圖隨后將說明根據本發(fā)明的實施例,其中圖1示出一用以基于一下混信號表示型態(tài)及一對象相關參數(shù)信息針對一上混信號表示型態(tài)之供應來提供一個或多個經調整參數(shù)之裝置的一方塊示意圖;圖2根據本發(fā)明一實施例示出了一 MPEG SAOC系統(tǒng)的一方塊示意圖;圖3根據本發(fā)明另一實施例示出了一 MPEG SAOC系統(tǒng)的一方塊示意圖;圖4示出了對象信號對一下混信號及對一混合信號的一貢獻的一示意表示型態(tài);圖fe根據本發(fā)明一實施例示出了一基于單聲道下混的SAOC至MPEG環(huán)繞轉碼器的一方塊示意圖;圖5b根據本發(fā)明一實施例示出了一基于立體聲下混的SAOC至MPEG環(huán)繞轉碼器的一方塊示意圖;圖6根據本發(fā)明一實施例示出了一音頻信號編碼器的一方塊示意圖;圖7根據本發(fā)明一實施例示出了一音頻位串流的一示意表示型態(tài);圖8示出了一參考MPEG SAOC系統(tǒng)的一方塊示意圖;圖9a示出了一使用一分離的譯碼器及混合器的參考SAOC系統(tǒng)的一方塊示意圖;圖9b示出了一使用一整合的譯碼器及混合器之參考SAOC系統(tǒng)的一方塊示意圖; 以及圖9c示出了一使用一 SAOC至MPEG轉碼器的參考SAOC系統(tǒng)的一方塊示意圖。
具體實施例方式1.根據圖1用以提供一個或多個經調整參數(shù)的裝置下面將參考圖1說明一用以基于一下混信號表示型態(tài)及一對象相關參數(shù)信息針對一上混信號表示型態(tài)的供應來提供一個或多個經調整參數(shù)的裝置100。圖1示出了這一裝置100的一方塊示意圖,該裝置100被配置成接收一個或多個輸入參數(shù)110。輸入參數(shù) 110可例如是期望渲染參數(shù)。裝置100也被配置成基于輸入參數(shù)110提供一個或多個經調整參數(shù)120。經調整參數(shù)可例如是經調整渲染參數(shù)。裝置100進一步被配置成接收一對象相關參數(shù)信息130。該對象相關參數(shù)信息130可例如是描述多個對象的一對象層級差信息及/或一對象間相關信息。裝置100包含一參數(shù)調整器140,該參數(shù)調整器140被配置成接收該一個或多個輸入參數(shù)110并基于該一個或多個輸入參數(shù)110來提供該一個或多個經調整參數(shù)120。參數(shù)調整器140被配置成依賴于該一個或多個輸入參數(shù)110及對象相關參數(shù)信息130來提供該一個或多個經調整參數(shù)120,使得至少針對偏離最佳參數(shù)超過一預定偏差的輸入參數(shù)110,減小在一用以基于一下混信號表示型態(tài)及對象相關參數(shù)信息130提供一上混信號表示型態(tài)的裝置中由使用非最佳參數(shù)(例如,該一個或多個輸入參數(shù)110)而引起的一上混信號表示型態(tài)的失真。因此,裝置100接收該一個或多個輸入參數(shù)110并基于它們提供該一個或多個經調整參數(shù)120。在提供該一個或多個經調整參數(shù)120時,若該一個或多個輸入參數(shù)110被用以基于一下混信號表示型態(tài)及對象相關參數(shù)信息130來控制一上混信號表示型態(tài)的一供應,則裝置100明確地或隱性地判定是否不改變使用該一個或多個輸入參數(shù)110將導致無法接受的高失真。因此,經調整參數(shù)120典型地比該一個或多個輸入參數(shù)110較適于調整這一提供上混信號表示型態(tài)的裝置,至少在該一個或多個輸入參數(shù)110以一不利方式被選擇時。因此,裝置100典型地改善一上混信號表示型態(tài)的感知印象,該上混信號表示型態(tài)由一上混信號表示型態(tài)提供器依賴于該一個或多個經調整參數(shù)120來提供。使用對象相關參數(shù)信息來調整該一個或多個輸入參數(shù)以獲得該一個或多個經調整參數(shù)已被發(fā)現(xiàn)帶來良好結果,因為若該一個或多個經調整參數(shù)120對應于對象相關參數(shù)信息130則上混信號表示型態(tài)的質量通常良好,而違反與對象相關參數(shù)信息130的期望關系的參數(shù)典型地造成可聞失真。對象相關參數(shù)信息可例如包含下混參數(shù),這些下混參數(shù)說明對象信號(來自多個音頻對象)對該一個或多個下混信號的一貢獻。對象相關參數(shù)信息也能可選擇地或額外地包含說明對象信號的特性的對象層級差及/或對象間相關參數(shù)。已發(fā)現(xiàn)的是,說明對象信號的一編碼器端處理的參數(shù)與說明音頻對象自身特性的參數(shù)都可被視作有用信息供參數(shù)調整器120使用。然而,其它對象相關參數(shù)信息130可被裝置100可選擇或額外地使用。然而,應該注意的是,參數(shù)調整器140可使用額外信息以便提供基于該一個或多個輸入參數(shù)110來提供該一個或多個經調整參數(shù)120。舉例而言,參數(shù)調整器140能可取舍地評估下混系數(shù)、一個或多個下混信號或任一額外信息以甚至改進該一個或多個經調整參數(shù)120的供應。2.根據圖2的系統(tǒng)下面將詳細說明圖2的MPEG SAOC系統(tǒng)200。為了提供對MPEG SAOC系統(tǒng)200的一良好理解,將給出對期望系統(tǒng)規(guī)格及設計考慮的一概述。隨后,將給出系統(tǒng)的一結構概述。此外,將討論多個SAOC失真度量,及將說明針對一失真限制的這些SAOC失真的應用。此外,將討論系統(tǒng)200的進一步延伸。2. 1系統(tǒng)設計考慮如上討論,針對包含多個音頻對象的音頻場景的位率有效傳輸/儲存的參數(shù)技術典型地在傳輸位率與計算復雜度方面是有效的。對此系統(tǒng)使用者在接收端上的進一步好處包括自由選擇對他/她的選擇(單聲道、立體聲、環(huán)繞、虛擬化耳機播放、等等)的一渲染設置與使用者互動性特征渲染矩陣,及因而,輸出場景可隨意愿、個人偏好或其它準則來互動地設置及改變。舉例而言,可以將一群組的通話器一起置于一空間區(qū)域來與其它剩余通話器最大的區(qū)別開。此互動性透過提供一譯碼器使用者接口來實現(xiàn)對于每一傳輸聲音對象,其相對層級及(對于非單聲道渲染)渲染的空間位置可被調整。這可隨使用者改變相關聯(lián)圖形使用者接口(⑶I)滑動塊的位置而實時發(fā)生(例如, 對象層級=+5dB,對象位置=-30deg)。然而,已發(fā)現(xiàn)的是,由于使用下混分離/混合式參數(shù)方法,渲染音頻輸出的主觀質量取決于渲染參數(shù)設置。已發(fā)現(xiàn)的是,相對對象層級上的改變對最后音頻質量的影響多于空間渲染位置上的改變(「再平移」)。也已發(fā)現(xiàn)的是,相對參數(shù)的極端設置(例如,+20dB)甚至可導致無法接受的輸出質量。雖然這只是違反一些構成此方案基礎的感知假定的結果,但對于商業(yè)產品而言仍無法接受依使用者接口上的設置而產生不良的聲音及人工因素。因此,根據本發(fā)明的實施例類似例如系統(tǒng)200處理此避免無法接受降級問題,而不管使用者接口的設置(該使用者接口設置可被視作「輸入參數(shù)」)。下面將討論有關避免SAOC失真方法的一些細節(jié)。本文所呈現(xiàn)的SAOC失真限制的方法是以下列構想為基礎突出的SAOC失真因不當選擇渲染系數(shù)(可被視作輸入參數(shù))而出現(xiàn)。此選擇通常由使用者以一互動方式來作出(例如,經由交互式應用程序的一實時圖形使用者接口 (GUI))。因此,引入一額外的處理步驟,該步驟修改使用者提供的渲染系數(shù)(例如,根據某些計算限制它們)并將這些經修改系數(shù)用于SAOC渲染引擎。舉例而言,使用者提供的渲染系數(shù)可被視作輸入參數(shù),及SAOC渲染引擎的經修改系數(shù)可被視作經修改參數(shù)。為控制產生的SAOC音頻輸出的過度降級,期望開發(fā)感知降級的一計算測度(也被指定為失真測度DM)。已發(fā)現(xiàn)的是,此失真測度應該滿足某準則該失真測度應易于從SAOC譯碼引擎的內部參數(shù)中計算出。舉例而言,期望無需額外濾波器組計算來獲得失真測度。該失真測度值應該與主觀感知聲音質量(感知降級)相關,也即符合心里聲學的基本原理。為此目的,可優(yōu)選地以一頻率選擇方式來完成失真測度的計算,因為其通常自感知音頻編碼及處理知曉。已發(fā)現(xiàn)的是,眾多SAOC失真測度可被定義及計算。然而,已發(fā)現(xiàn)的是,SAOC失真測度應該優(yōu)選地考慮某些基本因素以便對一渲染SAOC質量做出一正確評估及因而往往(但不一定)具有某些共性它們考慮下混系數(shù)。這些下混系數(shù)判定該一個或多個下混信號中每一音頻對象的相對混合部分。作為一背景信息,應該指出的是,已發(fā)現(xiàn)出現(xiàn)的SAOC失真取決于下混系數(shù)與渲染系數(shù)間的關系如果渲染系數(shù)定義的相對對象貢獻實質上不同于下混中的相對對象貢獻,則SAOC譯碼引擎(使用經調整參數(shù))必須對下混信號執(zhí)行相當大的調整來將其轉換為渲染輸出。已發(fā)現(xiàn)這導致SAOC失真。它們考慮渲染系數(shù)。這些渲染系數(shù)判定每一音頻對象對該一個或多個渲染輸出信號中的每一者的相對輸出強度。作為一背景信息,應該指出的是,已發(fā)現(xiàn)出現(xiàn)SAOC失真也取決于彼此間對象功率的關系。如果在某一時間點的一對象具有比其它對象高得多的功率 (及如果此對象的下混系數(shù)不是很小的話),則此對象支配下混并被很好地在渲染輸出信號中重現(xiàn)。相比之下,弱對象在下混時僅被很弱地表示及因而在沒有顯著失真的情況下無法被提至高輸出層級。它們考慮每一對象相對于另一對象的(相對)對象功率/層級。此信息被描述為例如一 SAOC對象層級差(OLD)。作為一背景信息,應該指出的是,已發(fā)現(xiàn)出現(xiàn)SAOC失真進一步取決于個別對象信號的性質。例如,將渲染輸出中具有音調性質的一對象提升到較大層級(而其它對象可能更多為具有類似噪聲性質的)將導致相當大的感知失真。除此之外,可考慮其它有關原始對象信號性質的信息。這些信息接著可被SAOC編碼器作為SAOC輔助信息的一部分來傳輸。舉例而言,有關每一對象項的音調或噪度的信息可作為SAOC輔助信息的一部分被傳輸且被用于達到限制失真的目的。2. 2系統(tǒng)概述根據上述考慮,現(xiàn)在將給出對MPEG SAOC系統(tǒng)200的一概述以很好地理解本發(fā)明。 應該指出的是,根據圖2的SAOC系統(tǒng)200是根據圖8的MPEG SAOC系統(tǒng)800的一延伸形態(tài),因此上述討論也適用。再者,應該指出的是,MPEG SAOC系統(tǒng)200可根據圖9a、圖9b及圖9c中示出的實施備選900、930、960來修改,其中對象編碼器對應于SAOC編碼器,其中使用者互動信息/使用者控制信息822對應于渲染控制信息/渲染系數(shù)。此外,MPEG SAOC系統(tǒng)100的SAOC譯碼器可用分離式對象譯碼器與混合器/渲染器安排920來替換、用整合式對象譯碼器與混合器/渲染器安排930或SAOC至MPEG環(huán)繞轉碼器980來替換?,F(xiàn)在參考圖2,可見的是,MPEG SAOC系統(tǒng)200包含一 SAOC編碼器210,該SAOC編碼器210被配置成接收與自1至N編號的多個對象相關聯(lián)之多個對象信號\至&。該SAOC 編碼器210也被配置成接收(或者獲得)下混系數(shù)Cl1至dN。舉例而言,SAOC編碼器210可針對其提供的下混信號212的每一信道獲得一組下混系數(shù)Cl1至dN。SAOC編碼器210可例如被配置成獲得對象信號X1至&的一加權組合以獲得一下混信號,其中各該對象信號X1至 %用與其相關聯(lián)的下混系數(shù)Cl1至dN來加權。SAOC編碼器210還被配置成獲得說明不同對象信號間的一關系的對象間關系信息。舉例而言,對象間關系信息可包含例如為OLD參數(shù)形式的對象層級差信息與例如為IOC參數(shù)形式的對象間相關信息。因此,SAOC編碼器200 接著被配置成提供一個或多個下混信號212,該一個或多個下混信號212中的每一個包含一個或多個對象信號的一加權組合,該一個或多個對象信號根據一組與各自下混信號(或多信道下混信號212的一信道)相關聯(lián)的下混參數(shù)來加權。SAOC編碼器210還被配置成提供輔助信息214,其中輔助信息214包含對象間關系信息(例如,為對象層級差參數(shù)與對象間相關參數(shù)的形式)。輔助信息214還包含一下混參數(shù)信息,例如,為下混增益參數(shù)與下混通道層級差參數(shù)的形式。輔助信息214可進一步包含一可表示個別對象性質的可取舍對象性質輔助信息。下面將討論有關可取舍對象性質輔助信息的細節(jié)。MPEG SAOC系統(tǒng)200也包含一 SAOC譯碼器220,該SAOC譯碼器220可包含SAOC 譯碼器820的功能。因此,SAOC譯碼器220接收一個或多個下混信號212及輔助信息214 以及經修改(或「經調整」,或「實際的」)渲染系數(shù)222并基于它們提供一個或多個上混信道信號P產、。MPEG SAOC系統(tǒng)200也包含一用以依賴于一個或多個輸入參數(shù),即說明一渲染控制信息或渲染系數(shù)242的輸入參數(shù)來提供一個或多個經修改(或「經調整」,或「實際的」) 參數(shù),即經修改渲染系數(shù)222的裝置M0。裝置240被配置成還接收至少輔助信息214的一部分。舉例而言,裝置240被配置成接收說明對象功率(例如,對象信號X1至%的功率) 的參數(shù)2Ha。舉例而言,參數(shù)21 可包含對象層級差參數(shù)(也表示為OLD)。裝置240也優(yōu)選地接收說明下混系數(shù)的輔助信息214的參數(shù)214b。舉例而言,參數(shù)214b說明下混系數(shù) Cl1至dN??扇∩岬兀b置240可進一步接收組成一個別對象性質輔助信息的額外參數(shù)2Hc。
裝置240大體上被配置成基于輸入渲染系數(shù)242 (可例如自一使用者接口接收,或可例如依賴于使用者輸入來計算或作為預設信息被提供)來提供經修改渲染系數(shù)222,使得由SAOC譯碼器220使用非最佳渲染參數(shù)而引起的上混信號表示型態(tài)的一失真被減小。換言之,經修改渲染系數(shù)222是輸入渲染系數(shù)M2的一修改版本,其中依賴于參數(shù)214a、214b 來作出改變使得上混信道信號^ (形成上混信號表示型態(tài))中所有可聞失真被減小或被限制。用以提供該一個或多個經調整參數(shù)242的裝置240可例如包含一渲染系數(shù)調整器 250,該渲染系數(shù)調整器250接收輸入渲染系數(shù)242并基于它們提供經修改渲染系數(shù)222。 為此目的,渲染系數(shù)調整器250可接收一說明由使用輸入渲染系數(shù)242而引起的失真的失真測度252。失真測度252可例如由失真計算器260依賴于參數(shù)214a、214b及輸入渲染系數(shù)242來提供。然而,渲染系數(shù)調整器250與失真計算器沈0的功能也可被整合于一單一功能單元中,使得在沒有顯式計算一失真測度252的情況下提供經修改的渲染系數(shù)222。當然,可應用減小或限制失真測度的隱式機制。關于MPEG SAOC系統(tǒng)200的功能,應該指出的是,以上混信道信號至^n形式輸出的上混信號表示型態(tài)以良好感知質量被產生,因為通過修改或調整渲染系數(shù)避免了可聞失真,這些可聞失真系由參考系統(tǒng)800中不當選擇使用者互動信息/使用者控制信息822而引起。修改或調整由裝置240執(zhí)行使得感知印象的嚴重降級被避免,或使得較之輸入渲染系數(shù)242被SAOC譯碼器220直接使用(沒有修改或調整)的一情況時感知印象的降級至少被減小。下面將簡要概述本發(fā)明構想的功能。在指定一失真測度(DM)的情況下,可通過計算指定信號的失真測度值并修改SAOC譯碼算法(限制實際使用的渲染系數(shù)21 使得失真測度值不超過某一閾值值來避免音頻輸出中的過度失真。根據此構想的一系統(tǒng)200在圖2 中被示出并在上面已被較詳細地闡述。關于系統(tǒng)200,可做下列論述期望渲染系數(shù)M2由使用者或另一接口輸入。在被應用于SAOC譯碼引擎220之前,渲染系數(shù)242被一渲染系數(shù)調整器250修改, 該渲染系數(shù)調整器250使用一失真計算器260提供的一個或多個經計算失真測度252。失真計算器260評估出自輔助信息214(例如,相關對象功率/OLD、下混系數(shù)及可取舍地對象信號性質信息)的信息(例如,參數(shù)2Ha、214b)。此外,它是基于期望渲染系數(shù)輸入242。在一優(yōu)選實施例中,裝置240被配置成根據一失真測度來修改渲染系數(shù)。優(yōu)選地, 使用例如頻率選擇權重以一頻率選擇方式調整渲染系數(shù)。渲染系數(shù)的修改可以此幀(例如,一目前幀)為基礎、或渲染系數(shù)不僅可在逐幀基礎上隨時間被調整,而且還隨時間被處理/控制(例如,隨時間被平滑化),其中如針對一動態(tài)范圍壓縮器/限制器可能可應用不同的起音/衰減時間常數(shù)。在一些實施例中,失真測度可以是頻率選擇的。在一些實施例中,失真測度可考慮下列一個或多個特性每一物件的功率/能量/層級下混系數(shù)渲染系數(shù);及/或額外對象性質輔助信息,如果適用的話在一些實施例中,失真測度可以每對象為基礎來計算并組合達成一總失真。在一些實施例中,一額外對象性質輔助信息2Hc能可取舍地被評估。額外對象性質輔助信息2Hc可在一增強型SAOC編碼器中讀取,例如,SAOC編碼器210。額外對象性質輔助信息可被例如植入一增強型SAOC位串流中,該增強型SAOC位串流將參考圖7被說明。 再者,額外對象性質輔助信息可被一增強型SAOC譯碼器用于失真限制。在一特殊情況中,噪度/音調可被用作額外對象性質輔助信息所說明的對象性質。在此情況中,噪度/音調比之其它對象參數(shù)(例如,OLD)能以粗略得多的頻率分辨率來傳輸以保存于輔助信息上。在一極端情況中,噪度/音調對象性質輔助信息能以每對象僅一信息來傳輸(例如,如寬帶特性)。2. 3SA0C 失真度量下面將說明多個不同失真測度,該多個不同失真測度可例如使用失真計算器沈0 而獲得。在下面2. 4節(jié)將討論應用這些失真測度來限制渲染系數(shù)的細節(jié)。換言之,此節(jié)概述數(shù)個失真測度。這些失真測度可個別使用或例如通過將個別失真度量值加權相加而可被組合形成一復合、更復雜失真度量。應該注意的是,這里詞語「失真測度」與「失真度量」表示類似的量且在大部分情況中不需要區(qū)分。下面將說明多個失真度量,該多個失真度量可被失真計算器260評估且可被渲染系數(shù)調整器250使用,以便基于輸入渲染系數(shù)242獲得經修改渲染系數(shù)222。2. 3.1 失真測度 #1下面將說明一第一失真測度(也表示為失真測度#1)。為了構想簡單易懂,將考慮一 N-1-1SA0C系統(tǒng)(例如,一單聲道下混信號(212)及一單一上混信道(信號))。N個輸入音頻對象被下混成一單聲道信號并被渲染成一單聲道輸出。如圖8中指定,用Cl1.. dN表示下混系數(shù)及用IV. 1^表示渲染系數(shù)。在下面公式中,為了簡單明了,已省略了時間指數(shù)。同樣地,已去掉了頻率指數(shù),要注意的是,方程式有關于子頻帶信號。在下面的一些方程式中,小寫字母表示系數(shù)或信號,及大寫字母表示可從方程式的脈絡中看出的相對應的功率。此外,應該注意的是,信號有時用相對應時間-頻率-域而非時域系數(shù)表示。假定,對象#m (聽覺對象指數(shù)m)是受關注的一對象,例如最主要對象,其相對層級被增加且因而限制總聲音質量。那么理想的期望輸出信號(上混信道信號)由
權利要求
1.一種用以基于一下混信號表示型態(tài)及一對象相關參數(shù)信息針對一上混信號表示型態(tài)("^至·^^)的一供應來提供一個或多個經調整參數(shù)(rm’,rlim,m)的裝置,所述裝置包含一參數(shù)調整器,其被配置成接收一個或多個輸入參數(shù)并基于所述一個或多個輸入參數(shù)提供一個或多個經調整參數(shù),其中,所述參數(shù)調整器被配置成依賴于所述一個或多個輸入參數(shù)及所述對象相關參數(shù)信息來提供所述一個或多個經調整參數(shù),使得由使用非最佳參數(shù)而引起的所述上混信號表示型態(tài)的一失真至少針對偏離最佳參數(shù)超過一預定偏差的輸入參數(shù)被減小。
2.根據權利要求1所述的裝置,其中,所述裝置被配置成接收期望渲染參數(shù)來作為所述輸入參數(shù)(A),所述期望渲染參數(shù)說明所述上混信號表示型態(tài)(^至夕^^)所說明的一個或多個音頻信道中多個音頻對象信號(X1至&)的一期望強度縮放;以及其中,所述參數(shù)調整器被配置成依賴于所述一個或多個期望渲染參數(shù)(A)來提供一個或多個實際渲染參數(shù)(rm’,rlim,m)。
3.根據權利要求2所述的裝置,其中,所述參數(shù)調整器被配置成依賴于所述對象相關參數(shù)信息及一說明所述音頻對象信號0^至&)對所述下混信號表示型態(tài)的一貢獻的下混信息(Cli)來獲得一個或多個渲染參數(shù)限制值( ),使得一失真度量(cKOii)、dm2(m)、 dm5(m)、dm6(m)、DM1, DM2, DM3, DM4, DM5, DM6)在渲染參數(shù)值遵從所述渲染參數(shù)限制值所定義的限制的一預定范圍內,以及其中,所述參數(shù)調整器被配置成依賴于所述期望渲染參數(shù)(A)及所述一個或多個渲染參數(shù)限制值來獲得所述實際渲染參數(shù)(rm’,rlim,m),使得所述實際渲染參數(shù)遵從所述渲染參數(shù)限制值所定義的所述限制。
4.根據權利要求2至3中任一項所述的裝置,其中,所述參數(shù)調整器被配置成獲得所述一個或多個渲染參數(shù)限制值(r2m ),使得使用一個或多個遵從所述一個或多個渲染參數(shù)限制值的渲染參數(shù)(rm’,rlim,m)而渲染的多個對象信號的一渲染迭加中的一對象信號(\至%) 的一相對貢獻與一下混信號中所述對象信號的一相對貢獻的差異不超過一預定差。
5.根據權利要求4所述的裝置,其中,所述參數(shù)調整器被配置成決定所述一個或多個渲染參數(shù)值rm,使得對于一對象指數(shù)m指定的一個或多個音頻對象滿足方程式
6.根據權利要求2或3所述的裝置,其中,所述參數(shù)調整器被配置成獲得所述一個或多個渲染參數(shù)限制值(€),使得一失真測度(DM3)在一預定范圍內,所述失真測度(DM3)說明由所述下混信號表示型態(tài)所說明的一下混信號與使用一個或多個遵從所述一個或多個渲染參數(shù)限制值丨的渲染參數(shù)OJ而渲染的一渲染信號間的相干性。
7.根據權利要求6所述的裝置,其中,所述參數(shù)調整器被配置成獲得所述一個或多個渲染參數(shù)限制值為C,使得所述失真測度
8.根據權利要求2所述的裝置,其中,所述參數(shù)調整器被配置成計算一期望渲染參數(shù) (rffl)的平方與一最佳渲染參數(shù)(ropt’ J的平方間的一線性組合,以獲得所述實際渲染參數(shù)(riim,m),其中,所述參數(shù)調整器被配置成依賴于一預定閾值參數(shù)τ及一失真度量((Η、(1πι2、(1ΠΙ3、 dm4、dm5、dm6)來判定所述期望渲染參數(shù)(rm)與所述最佳渲染參數(shù)(r。pt,m)對所述線性組合的一貢獻,其中,所述失真度量說明一由使用所述一個或多個期望渲染參數(shù)(rm)而非所述最佳渲染參數(shù)(r。pt,m)以基于所述下混信號表示型態(tài)來獲得所述上混信號表示型態(tài)而引起的失真。
9.根據權利要求8所述的裝置,其中,所述參數(shù)調整器被配置成評估所述方程式
10.根據權利要求8或9所述的裝置,其中,所述參數(shù)調整器被配置成獲得所述失真度量,使得所述失真度量取決于根據所述期望渲染參數(shù)而渲染的多個對象信號的一渲染迭加中一指定對象信號的一相對貢獻與一包含所述指定對象信號的下混信號中所述指定對象信號的一相對貢獻間的一關系。
11.根據權利要求8、9或10所述的裝置,其中,所述參數(shù)調整器被配置成獲得所述失真度量(Clm1),使得所述失真度量取決于根據所述期望渲染參數(shù)(rm)而渲染的多個對象信號的一渲染迭加中一指定對象信號(^至^)的一相對貢獻與一包含所述指定對象信號(X1 至%)的下混信號中所述指定對象信號0^至&)的一相對貢獻間的比。
12.根據權利要求8至11中任一項所述的裝置,其中,所述參數(shù)調整器被配置成根據以下來計算所述失真度量dmx (m)
13.根據權利要求8、9或10所述的裝置,其中,所述參數(shù)調整器被配置成獲得所述失真度量(dm2),使得所述失真度量取決于根據所述期望渲染參數(shù)(rm)而渲染的多個對象信號的一渲染迭加中一指定對象信號(^至^)的一相對貢獻與一包含所述指定對象信號(X1 至%)的下混信號中所述指定對象信號(\至&)的一相對貢獻間的差。
14.根據權利要求8至13中任一項所述的裝置,其中,所述參數(shù)調整器被配置成計算所述失真度量(dm2),使得所述失真度量取決于一遮蔽對信號比(msr),以致于若所述遮蔽對信號比增加,則所述失真度量(dm2)減小,表明一失真較小。
15.根據權利要求8至10中任一項或第11項或第12項所述的裝置,其中所述參數(shù)調整器被配置成計算所述失真度量,根據
16.根據權利要求1至15中任一項所述的裝置,其中,所述參數(shù)調整器被配置成依賴于感知降級的一計算測度來提供所述一個或多個經調整參數(shù),使得由使用非最佳參數(shù)而引起且用感知降級的所述計算測度表示的所述上混信號表示型態(tài)的一感知評估失真被限制。
17.根據權利要求1至16中任一項所述的裝置,其中,所述參數(shù)調整器被配置成接收一個別對象性質信息,所述個別對象性質信息說明一個或多個構成所述下混信號表示型態(tài)說明的一下混信號的基礎的原始對象信號的所述個別性質;以及其中,所述參數(shù)調整器被配置成考慮所述個別對象性質信息,并提供所述經調整參數(shù)使得相對于一理想渲染上混信號表示型態(tài),所述上混信號表示型態(tài)的一失真至少針對偏離最佳參數(shù)超過一預定偏差的輸入參數(shù)被減小。
18.根據權利要求17所述的裝置,其中,所述參數(shù)調整器被配置成接收并考慮一對象信號音調信息作為一個別對象性質信息,以便提供所述一個或多個經調整參數(shù)。
19.根據權利要求18所述的裝置,其中,所述參數(shù)調整器被配置成依賴于所述接收對象信號音調信息與所述接收對象功率信息(0LP,P)來估計一理想渲染上混信號的一音調 (N);以及其中,所述參數(shù)調整器被配置成提供所述一個或多個經調整參數(shù),以在比較于所述估計音調與使用所述一個或多個輸入參數(shù)而獲得的一上混信號的一音調間的差時減小所述估計音調與使用所述一個或多個經調整參數(shù)而獲得的一上混信號的所述音調間的差,或使所述估計音調與使用所述一個或多個經調整參數(shù)而獲得的一上混信號的一音調間的差保持在一預定范圍內。
20.根據權利要求1至19中任一項所述的裝置,其中,所述參數(shù)調整器被配置成執(zhí)行所述輸入參數(shù)的一時間及頻率變化調整。
21.根據權利要求1至20中任一項所述的裝置,其中,所述參數(shù)調整器被配置成在提供所述一個或多個經調整參數(shù)方面也考慮所述下混信號表示型態(tài)。
22.根據權利要求1至21中任一項所述的裝置,其中,所述參數(shù)調整器被配置成獲得一總失真測度,所述總失真測度是說明多個人工因素類型的失真測度的一加權組合;其中,所述參數(shù)調整器被配置成獲得所述總失真測度,使得所述總失真測度是由使用一個或多個所述輸入渲染參數(shù)而非最佳渲染參數(shù)來基于所述下混信號表示型態(tài)來獲得所述上混信號表示型態(tài)而引起的失真的一測度。
23.根據權利要求22所述的裝置,其中,所述參數(shù)調整器被配置成組合下列所述失真測度當中的至少兩失真測度,以便獲得所述總失真測度 一說明一音頻對象的音色的一寄生改變的測度; 一說明與一音頻對象相關聯(lián)的一對象信號的一寄生調變的測度; 一說明一寄生樂音的存在的測度; 一說明一寄生調變噪聲的存在的測度。
24.一種用以基于一下混信號表示型態(tài)、一對象相關參數(shù)信息及一期望渲染信息來提供多個上混音頻信道作為一上混信號表示型態(tài)的音頻信號譯碼器,所述音頻信號譯碼器包括一上混器,其被配置成基于所述下混信號表示型態(tài)并依賴于所述對象相關參數(shù)信息及一實際渲染信息來獲得所述上混音頻信道(^ 1至·^^ ),所述實際渲染信息說明由所述對象相關參數(shù)信息說明的音頻對象的多個對象信號至所述上混音頻信道的一分配;以及一根據權利要求1至23所述的用以提供一個或多個經調整參數(shù)的裝置,其中,所述用以提供一個或多個經調整參數(shù)的裝置被配置成接收所述期望渲染信息作為所述一個或多個輸入參數(shù),并將所述一個或多個經調整參數(shù)提供為實際渲染信息;以及其中,所述用以提供所述一個或多個經調整參數(shù)的裝置被配置成提供所述一個或多個經調整參數(shù),使得由使用偏離最佳渲染參數(shù)(r。pt,m)的所述實際渲染參數(shù)(rm’,rliffl,ffl)而引起的所述上混音頻信道(^丨至^^)的失真至少針對偏離所述最佳渲染參數(shù)(r。pt,m)超過一預定偏差的期望渲染參數(shù)(^)被減小。
25.一種用以基于一下混信號表示型態(tài)、一對象相關參數(shù)信息及一期望渲染信息來提供一信道相關參數(shù)信息作為一上混信號表示型態(tài)的音頻信號轉碼器,所述音頻信號轉碼器包括一輔助信息轉碼器,其被配置成基于所述下混信號表示型態(tài)并依賴于所述對象相關參數(shù)信息及一實際渲染信息來獲得所述信道相關參數(shù)信息,所述實際渲染信息說明由所述對象相關參數(shù)信息說明的音頻對象的多個對象信號至所述信道相關參數(shù)信息說明的上混音頻信道的一分配;以及一根據權利要求1至23中任一項所述的用以提供一個或多個經調整參數(shù)的裝置,其中所述用以提供一個或多個經調整參數(shù)的裝置被配置成接收所述期望渲染信息作為所述一個或多個輸入參數(shù),并提供所述一個或多個經調整參數(shù)作為所述實際渲染信息;以及其中,所述用以提供所述一個或多個經調整參數(shù)的裝置被配置成提供所述一個或多個經調整參數(shù),使得由使用偏離最佳渲染參數(shù)的實際渲染參數(shù)而引起的所述上混音頻信道的失真至少針對偏離所述最佳渲染參數(shù)超過一預定偏差的期望渲染參數(shù)被減小。
26.一種用以基于一下混信號表示型態(tài)及一對象相關參數(shù)信息針對一上混信號表示型態(tài)一供應來提供一個或多個經調整參數(shù)的方法,所述方法包含接收一個或多個輸入參數(shù)并基于所述一個或多個輸入參數(shù)來提供一個或多個經調整參數(shù),其中,所述一個或多個經調整參數(shù)是依賴于所述一個或多個輸入參數(shù)及所述對象相關參數(shù)信息而被提供,使得由使用非最佳參數(shù)而引起的所述上混信號表示型態(tài)的一失真至少針對偏離最佳參數(shù)超過一預定偏差的輸入參數(shù)被減小。
27.一種用以基于一下混信號表示型態(tài)、一對象相關參數(shù)信息及一期望渲染信息來提供多個上混音頻信道作為一上混信號表示型態(tài)的方法,所述方法包括根據權利要求26所述,提供一個或多個經調整參數(shù),其中,所述期望渲染信息被接收為所述一個或多個輸入參數(shù)及其中所述一個或多個經調整參數(shù)被提供為一實際渲染信息, 及其中所述一個或多個經調整參數(shù)被提供,使得由使用偏離最佳渲染參數(shù)的所述實際渲染參數(shù)而引起的所述上混音頻信道的失真至少針對偏離所述最佳渲染參數(shù)超過一預定偏差的期望渲染參數(shù)被減??;以及基于所述下混信號表示型態(tài)并依賴于所述對象相關參數(shù)信息及所述實際渲染信息來獲得所述上混音頻信道,所述實際渲染信息說明由所述對象相關參數(shù)信息說明的音頻對象的多個對象信號至所述上混音頻信道的一分配。
28.一種用以基于一下混信號表示型態(tài)、一對象相關參數(shù)信息及一期望渲染信息來提供一信道相關參數(shù)信息作為一上混信號表示型態(tài)的方法,所述方法包括根據權利要求26所述,提供一個或多個經調整參數(shù),其中,所述期望渲染信息被接收為所述一個或多個輸入參數(shù),及其中所述一個或多個經調整參數(shù)被提供為一實際渲染信息,及其中所述一個或多個經調整參數(shù)被提供,使得由使用偏離最佳渲染參數(shù)的所述實際渲染參數(shù)而引起的所述上混音頻信道的失真至少針對偏離所述最佳渲染參數(shù)超過一預定偏差的期望渲染參數(shù)被減??;以及基于所述下混信號表示型態(tài)并依賴于所述對象相關參數(shù)信息及所述實際渲染信息來獲得說明所述上混音頻信道的所述信道相關參數(shù)信息,所述實際渲染信息說明由所述對象相關參數(shù)信息說明的音頻對象的多個對象信號至上混音頻信道的一分配,所述上混音頻信道由所述信道相關參數(shù)信息說明。
29.一種用以基于多個對象信號U1至%)來提供一下混信號表示型態(tài)及一對象相關參數(shù)信息的音頻信號編碼器,所述音頻編碼器包括一下混器,其被配置成依賴于與所述對象信號(\至&)相關聯(lián)的下混系數(shù)W1至屯) 來提供一個或多個下混信號,使得所述一個或多個下混信號包括多個對象信號的一迭加;一輔助信息提供器,其被配置成提供一說明對象信號(X1至&)的層級差與相關性特性的對象間關系輔助信息(OLD、I0C)與一說明所述個別對象信號U1至%)的一個或多個個別性質的個別對象輔助信息。
30.根據權利要求四所述的裝置,其中,所述輔助信息提供器被配置成提供所述個別對象輔助信息,使得所述個別對象輔助信息說明所述個別對象信號U1至&)的音調。
31.一種用以基于多個對象信號來提供一下混信號表示型態(tài)及一對象相關參數(shù)信息的方法,所述方法包括依賴于與所述對象信號相關聯(lián)的下混系數(shù)來提供一個或多個下混信號,使得所述一個或多個下混信號包含多個對象信號的一迭加;以及提供一說明對象信號的層級差及相關性特性的對象間關系輔助信息;以及提供一說明所述個別對象信號的一個或多個個別性質的個別對象輔助信息。
32.—種以一編碼形式來表示多個對象信號U1至%)的音頻位串流,所述音頻位串流包括一下混信號表示型態(tài),其表示一個或多個下混信號,其中,所述下混信號當中的至少一下混信號包含多個對象信號的一迭加;以及一對象間關系輔助信息,其說明對象信號的層級差與相關性特性;以及一個別對象輔助信息,其說明所述個別對象信號的一個或多個個別性質。
33.根據權利要求32所述的音頻位串流,其中,所述個別對象輔助信息說明所述個別對象信號的音調。
34.一種用以執(zhí)行根據權禾腰求洸、27、冽或31所述的方法當中的一個方法的計算機程序。
全文摘要
一種用以基于一下混信號表示型態(tài)及一對象相關參數(shù)信息針對一上混信號表示型態(tài)的一供應來提供一個或多個經調整參數(shù)的裝置包括一參數(shù)調整器。該參數(shù)調整器被配置成接收一個或多個輸入參數(shù)并基于該一個或多個輸入參數(shù)提供一個或多個經調整參數(shù)。該參數(shù)調整器被配置成依賴于該一個或多個輸入參數(shù)及該對象相關參數(shù)信息來提供該一個或多個經調整參數(shù),使得由使用非最佳參數(shù)而引起的該上混信號表示型態(tài)的一失真至少針對偏離最佳參數(shù)超過一預定偏差的輸入參數(shù)被減小。
文檔編號G10L19/00GK102576532SQ201080019185
公開日2012年7月11日 申請日期2010年4月28日 優(yōu)先權日2009年4月28日
發(fā)明者于爾根·赫萊, 列昂尼德·特倫蒂夫, 安德烈亞斯·赫爾策, 托爾斯藤·卡斯特納, 法爾科·里德魯施, ??啤て諣柤{根, 科爾內利婭·法爾克, 約納斯·恩格德加德 申請人:埃爾朗根-紐倫堡弗里德希-亞歷山大大學, 弗蘭霍菲爾運輸應用研究公司, 杜比Ab國際公司