專利名稱:多信道音頻編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及音頻信號(hào)處理。本發(fā)明尤其適用于低比特率和甚低比特率音頻信號(hào)處理。具體地說(shuō),本發(fā)明的方面涉及編碼器(或編碼過(guò)程),解碼器(或解碼過(guò)程),和音頻信號(hào)的編碼/解碼系統(tǒng)(或編碼/解碼過(guò)程),其中多個(gè)音頻信道用復(fù)合單聲音頻信道和輔助(“側(cè)鏈”)信息來(lái)表示?;蛘?,多個(gè)音頻信道用多個(gè)音頻信道和側(cè)鏈信息來(lái)表示。本發(fā)明的方面還涉及多信道-復(fù)合單聲信道下混合器(或下混合過(guò)程),單聲信道-多信道上混合器(或上混合過(guò)程),和單聲信道-多信道解相關(guān)器(或解相關(guān)過(guò)程)。本發(fā)明其他方面涉及多信道-多信道下混合器(或下混合過(guò)程),多信道-多信道上混合器(或上混合過(guò)程),和解相關(guān)器(或解相關(guān)過(guò)程)。
背景技術(shù):
在AC-3數(shù)字音頻編碼和解碼系統(tǒng)中,當(dāng)系統(tǒng)缺少比特時(shí),可以有選擇地在高頻對(duì)信道進(jìn)行合并或“耦合”。AC-3系統(tǒng)的細(xì)節(jié)在本技術(shù)領(lǐng)域是眾所周知的,例如參見(jiàn)ATSC Standard A52/ADigital AudioCompression Standard(AC-3),Revision A,Advanced TelevisionSystems Committee,20 Aug.2001。A/52A文獻(xiàn)可以從萬(wàn)維網(wǎng)上的http://www.atsc.org/standards.html得到。A/52A文獻(xiàn)在此全部包含作為參考。
AC-3系統(tǒng)根據(jù)需要以高于某一頻率對(duì)信道進(jìn)行合并,這一頻率被稱為“耦合”頻率。高于耦合頻率時(shí),所耦合的信道被合并成“耦合”或復(fù)合信道。編碼器為每一信道中高于耦合頻率的每一子帶產(chǎn)生“耦合坐標(biāo)”(振幅比例因子)。耦合坐標(biāo)表示每一耦合信道子帶的原始能量與復(fù)合信道中相應(yīng)子帶的能量的比率。低于耦合頻率時(shí),信道被分立地編碼。為了減少異相信號(hào)分量抵消,耦合信道的子帶的相位極性在該信道與一個(gè)或多個(gè)其他耦合信道合并之前可以先被反向。復(fù)合信道與側(cè)鏈信息(按每一子帶含有耦合坐標(biāo)以及信道相位是否反向)一起被發(fā)送到解碼器。實(shí)際上,AC-3系統(tǒng)的商用實(shí)施方式中所用的耦合頻率的范圍是從約10kHz到約3500Hz。美國(guó)專利5,583,962、5,633,981、5,727,119、5,909,664和6,021,386包括一些教導(dǎo),涉及將多個(gè)音頻信道合并成復(fù)合信道以及輔助或側(cè)鏈信息,和由此恢復(fù)出原始多個(gè)信道的近似。所述專利中的每一個(gè)在此全部包含作為參考。
發(fā)明內(nèi)容
本發(fā)明的方面可以被認(rèn)為是AC-3編碼和解碼系統(tǒng)的“耦合”技術(shù)的改進(jìn),同時(shí)也是如下其他技術(shù)的改進(jìn)將多個(gè)音頻信道合并成單聲復(fù)合信號(hào),或合并成多個(gè)音頻信道連同相關(guān)輔助信息,以及重建多個(gè)音頻信道。本發(fā)明的方面還可以被認(rèn)為是這樣一些技術(shù)的改進(jìn)將多個(gè)音頻信道下混合到單聲音頻信號(hào)或下混合到多個(gè)音頻信道,和將從單聲音頻信道或從多個(gè)音頻信道得到的多個(gè)音頻信道解相關(guān)。
本發(fā)明的方面可以用于N:1:N的空間音頻編碼技術(shù)中(其中“N”是音頻信道數(shù))或M:1:N的空間音頻編碼技術(shù)中(其中“M”是編碼的音頻信道數(shù)而“N”是解碼的音頻信道數(shù)),這些技術(shù)尤其通過(guò)提供改進(jìn)的相位補(bǔ)償、解相關(guān)機(jī)制和與信號(hào)相關(guān)的可變時(shí)間常數(shù)來(lái)改進(jìn)信道耦合。本發(fā)明的方面還可以用于N:x:N和M:x:N的空間音頻編碼技術(shù)中(其中“x”可以是1或大于1)。目的在于,在下混合之前通過(guò)調(diào)整信道間相對(duì)相位來(lái)減小編碼過(guò)程中的耦合抵消人為產(chǎn)物,和通過(guò)在解碼器中恢復(fù)相角和解相關(guān)度來(lái)改進(jìn)再現(xiàn)信號(hào)的空間維度。本發(fā)明的方面在實(shí)際實(shí)施方式中體現(xiàn)時(shí),應(yīng)當(dāng)考慮到連續(xù)不斷的而不是請(qǐng)求式的信道耦合以及比例如AC-3系統(tǒng)中更低的耦合頻率,從而降低所需的數(shù)據(jù)率。
圖1是示出體現(xiàn)本發(fā)明的方面的N:1編碼配置的主要功能或設(shè)備的理想化框圖。
圖2是示出體現(xiàn)本發(fā)明的方面的1:N解碼配置的主要功能或設(shè)備的理想化框圖。
圖3示出了下述內(nèi)容的簡(jiǎn)化的概念性結(jié)構(gòu)的一個(gè)例子沿(縱向)頻率軸的bin和子帶,和沿(橫向)時(shí)間軸的塊和幀。該圖沒(méi)有按比例繪制。
圖4具有混合流程圖和功能框圖的性質(zhì),示出了用于實(shí)現(xiàn)體現(xiàn)本發(fā)明的方面的編碼配置的功能的編碼步驟或設(shè)備。
圖5具有混合流程圖和功能框圖的性質(zhì),示出了用于實(shí)現(xiàn)體現(xiàn)本發(fā)明的方面的解碼配置的功能的解碼步驟或設(shè)備。
圖6是示出體現(xiàn)本發(fā)明的方面的第一種N:x編碼配置的主要功能或設(shè)備的理想化框圖。
圖7是示出體現(xiàn)本發(fā)明的方面的x:M解碼配置的主要功能或設(shè)備的理想化框圖。
圖8是示出體現(xiàn)本發(fā)明的方面的第一種可選x:M解碼配置的主要功能或設(shè)備的理想化框圖。
圖9是示出體現(xiàn)本發(fā)明的方面的第二種可選x:M解碼配置的主要功能或設(shè)備的理想化框圖。
具體實(shí)施例方式
基本N:1編碼器參照?qǐng)D1,示出了體現(xiàn)本發(fā)明的方面的N:1編碼器功能或設(shè)備。該圖是作為體現(xiàn)本發(fā)明的方面的基本編碼器所實(shí)現(xiàn)的功能或結(jié)構(gòu)的一個(gè)例子。實(shí)施本發(fā)明的方面的其他功能或結(jié)構(gòu)配置也可以使用,包括如下所述的可選和/或等價(jià)的功能或結(jié)構(gòu)配置。
兩個(gè)或兩個(gè)以上音頻輸入信道輸入到編碼器。盡管原則上本發(fā)明的方面可以用模擬、數(shù)字或混合模擬/數(shù)字實(shí)施方式來(lái)實(shí)施,但本文所公開(kāi)的例子是數(shù)字實(shí)施方式。因此,輸入信號(hào)可以是已從模擬音頻信號(hào)中得到的時(shí)間樣值。時(shí)間樣值可以被編碼成線性脈碼調(diào)制(PCM)信號(hào)。每個(gè)線性PCM音頻輸入信道都由具有同相和正交輸出的濾波器組功能或設(shè)備進(jìn)行處理,比如通過(guò)512點(diǎn)開(kāi)窗的正向離散傅里葉變換(DFT)(由快速傅里葉變換(FFT)所實(shí)現(xiàn))進(jìn)行處理。濾波器組可以被認(rèn)為是一種時(shí)域-頻域變換。
圖1示出了各自輸入到濾波器組功能或設(shè)備“濾波器組”2的第一PCM信道輸入(信道“1”)和輸入到另一濾波器組功能或設(shè)備“濾波器組”4的第二PCM信道輸入(信道“n”)??梢杂小皀”個(gè)輸入信道,其中“n”是大于等于2的正整數(shù)。因此,相應(yīng)地有“n”個(gè)濾波器組,每個(gè)都接收“n”個(gè)輸入信道中的唯一一個(gè)信道。為了便于說(shuō)明,圖1只示出了兩個(gè)輸入信道“1”和“n”。
當(dāng)用FFT實(shí)現(xiàn)濾波器組時(shí),輸入時(shí)域信號(hào)被分割成連續(xù)的塊,然后通常以交疊的塊進(jìn)行處理。FFT的離散頻率輸出(變換系數(shù))稱之為bin,每個(gè)bin都有一個(gè)具有實(shí)部和虛部(分別相應(yīng)于同相和正交分量)的復(fù)值。鄰接的變換bin可以組合成接近于人耳聽(tīng)覺(jué)臨界帶寬的子帶,并且由編碼器產(chǎn)生的大部分側(cè)鏈信息(如下所述)可以按每一子帶進(jìn)行計(jì)算和發(fā)送,以便最大限度地減少處理資源和降低比特率。多個(gè)連續(xù)的時(shí)域塊可以組合成幀,單個(gè)塊的值在每幀上進(jìn)行平均或反過(guò)來(lái)進(jìn)行合并或累積,以便最大限度地降低側(cè)鏈數(shù)據(jù)率。在本文所述的例子中,每一濾波器組都通過(guò)FFT實(shí)現(xiàn),鄰接的變換bin被組合成子帶,塊被組合成幀,而側(cè)鏈數(shù)據(jù)每幀發(fā)送一次?;蛘撸瑐?cè)鏈數(shù)據(jù)可以每幀發(fā)送一次以上(如每塊一次)。例如參見(jiàn)以下圖3及其描述。眾所周知,在發(fā)送側(cè)鏈信息的頻率與所需的比特率之間有一個(gè)折衷。
當(dāng)使用48kHz采樣率時(shí),本發(fā)明的方面的一種適宜的實(shí)際實(shí)現(xiàn)方式可以使用約32毫秒的固定長(zhǎng)度幀,每一幀有6個(gè)相互間隔約為5.3毫秒的塊(例如采用持續(xù)時(shí)間約為10.6毫秒有50%交疊的塊)。然而,假如這里所述的按每幀發(fā)送的信息以不低于約每隔40毫秒的頻率發(fā)送,那么這種時(shí)序、固定長(zhǎng)度幀的使用及其固定個(gè)數(shù)的塊的劃分對(duì)實(shí)施本發(fā)明的方面而言都不是關(guān)鍵所在。幀可以具有任意長(zhǎng)度,而且其長(zhǎng)度可以動(dòng)態(tài)變化。正如上述AC-3系統(tǒng)中那樣,可以使用可變塊長(zhǎng)度。條件是在此要參照“幀”和“塊”。
實(shí)際上,如果復(fù)合單聲或多信道信號(hào)或者復(fù)合單聲或多信道信號(hào)和離散低頻信道通過(guò)例如感覺(jué)編碼器來(lái)編碼(如下所述),那么可以方便地使用感覺(jué)編碼器中所用的相同的幀和塊結(jié)構(gòu)。此外,如果該編碼器使用可變塊長(zhǎng)度使得可以隨時(shí)從一個(gè)塊長(zhǎng)度切換到另一個(gè)塊長(zhǎng)度,那么,當(dāng)這種塊切換發(fā)生時(shí),最好更新本文所述的一個(gè)或多個(gè)側(cè)鏈信息。為了使數(shù)據(jù)開(kāi)銷增量最小,當(dāng)隨著這種切換的發(fā)生而更新側(cè)鏈信息時(shí),可以降低所更新側(cè)鏈信息的頻率分辨率。
圖3示出了下述內(nèi)容的簡(jiǎn)化的概念性結(jié)構(gòu)的一個(gè)例子沿(縱向)頻率軸的bin和子帶,和沿(橫向)時(shí)間軸的塊和幀。當(dāng)一些bin被劃分為接近于臨界頻帶的子帶時(shí),最低頻率子帶具有最少的bin(比如1個(gè)),而每一子帶的bin個(gè)數(shù)隨頻率提高而增加。
回到圖1,由每個(gè)信道的各自濾波器組(本例中的濾波器組2和4)所產(chǎn)生的n個(gè)時(shí)域輸入信道中的每一個(gè)的頻域形式通過(guò)加性合并功能或設(shè)備“加性合并器”6被一起合并(“下混合”)為單聲復(fù)合音頻信號(hào)。
下混合可以應(yīng)用于輸入音頻信號(hào)的整個(gè)頻率帶寬,或者它可以可選地限于給定“耦合”頻率以上的頻率,因?yàn)橄禄旌线^(guò)程的人為產(chǎn)物在中頻到低頻可聽(tīng)得更清楚。在這些情況下,在耦合頻率以下信道可以離散傳送。這種策略即使在處理人為產(chǎn)物不成問(wèn)題時(shí)也能合乎要求,這是因?yàn)?,將變換bin組合成臨界頻帶類的子帶(寬度與頻率大致成比例)所構(gòu)成的中/低頻子帶使得在低頻時(shí)有較少的變換bin(在甚低頻只有一個(gè)bin),并可以直接用少數(shù)幾個(gè)比特或比發(fā)送具有側(cè)鏈信息的下混合單聲音頻信號(hào)所需更少的比特來(lái)編碼。低至4kHz、2300Hz、1000Hz甚至低至輸入到編碼器的音頻信號(hào)的頻帶的最低頻率的耦合或過(guò)渡頻率可適用于某些應(yīng)用,尤其適用于甚低比特率顯得重要的應(yīng)用。其他頻率可以在節(jié)省比特與聽(tīng)眾接受之間提供有益的平衡。具體耦合頻率的選擇對(duì)本發(fā)明來(lái)說(shuō)并不是關(guān)鍵。耦合頻率可以變化,而且如果變化,那么該頻率可以例如直接或間接地取決于輸入信號(hào)特性。
本發(fā)明的一個(gè)方面在于,在下混合之前改進(jìn)信道彼此之間的相角對(duì)準(zhǔn),以便當(dāng)信道被合并時(shí)減少異相信號(hào)分量抵消并提供改進(jìn)的單聲復(fù)合信道。這可以通過(guò)隨時(shí)間可控地對(duì)這些信道中的一些信道上的某些或所有變換bin的“絕對(duì)角度”進(jìn)行偏移來(lái)實(shí)現(xiàn)。例如,必要時(shí),在每一信道中或者當(dāng)以某個(gè)信道作參考時(shí)在除該參考信道外的所有信道中,隨時(shí)間可控地對(duì)表示高于耦合頻率的音頻(從而規(guī)定了所關(guān)心的頻帶)的所有變換bin進(jìn)行偏移。
bin的“絕對(duì)角度”可以認(rèn)為是濾波器組所產(chǎn)生的每一復(fù)值變換bin的幅度-角度表達(dá)式中的角度。信道中的bin的絕對(duì)角度的可控偏移可以利用角度轉(zhuǎn)動(dòng)功能或設(shè)備(“轉(zhuǎn)動(dòng)角度”)來(lái)實(shí)現(xiàn)。濾波器組2的輸出在被應(yīng)用于加性合并器6所提供的下混合合并之前,轉(zhuǎn)動(dòng)角度8先對(duì)其進(jìn)行處理,而濾波器組4的輸出在被應(yīng)用于加性合并器6之前,轉(zhuǎn)動(dòng)角度10先對(duì)其進(jìn)行處理。應(yīng)當(dāng)理解,在某些信號(hào)條件下,特定的變換bin在某一時(shí)間段(在這里所述的例子中為一幀的時(shí)間段)上可以不需要角度轉(zhuǎn)動(dòng)。低于耦合頻率時(shí),信道信息可以離散編碼(圖1中未示出)。
原則上,信道彼此之間的相角對(duì)準(zhǔn)的改善可以通過(guò)在所關(guān)心的整個(gè)頻帶上的每個(gè)塊中使每個(gè)變換bin或子帶偏移其絕對(duì)相角的負(fù)值來(lái)完成。盡管這樣基本上避免了異相信號(hào)分量抵消,然而,尤其當(dāng)孤立傾聽(tīng)所得到的單聲復(fù)合信號(hào)時(shí),往往會(huì)造成可聽(tīng)得見(jiàn)的人為產(chǎn)物。因此,最好采用“最少處理”原則根據(jù)需要只對(duì)信道中bin的絕對(duì)角度進(jìn)行偏移,以便最大限度地減少下混合過(guò)程中的異相抵消和最大限度地減少解碼器所重建的多信道信號(hào)的空間聲像崩潰。一些用于確定這種角度偏移的技術(shù)如下所述。這些技術(shù)包括時(shí)間和頻率平滑方法以及信號(hào)處理對(duì)發(fā)生瞬變作出響應(yīng)的方式。
此外,如下所述,還可以在編碼器中按每一bin進(jìn)行能量歸一化,以進(jìn)一步減少孤立bin的其余任意異相抵消。如下進(jìn)一步所述,還可以(在解碼器中)按每一子帶進(jìn)行能量歸一化,以確保單聲復(fù)合信號(hào)的能量等于起作用信道的能量總和。
每一輸入信道都有一個(gè)與其相關(guān)的音頻分析器功能或設(shè)備(“音頻分析器”),用于產(chǎn)生該信道的側(cè)鏈信息,和用于在控制了應(yīng)用于信道的角度轉(zhuǎn)動(dòng)量或度數(shù)之后才將其輸入到下混合合并6。信道1和n的濾波器組輸出分別輸入到音頻分析器12和音頻分析器14。音頻分析器12產(chǎn)生信道1的側(cè)鏈信息和信道1的相角轉(zhuǎn)動(dòng)量。音頻分析器14產(chǎn)生信道n的側(cè)鏈信息和信道n的相角轉(zhuǎn)動(dòng)量。應(yīng)當(dāng)理解,本文中這些所謂“角度”指的是相角。
每個(gè)信道的音頻分析器所產(chǎn)生的每個(gè)信道的側(cè)鏈信息可以包括振幅比例因子(“振幅SF”),角度控制參數(shù),解相關(guān)比例因子(“解相關(guān)SF”),瞬變標(biāo)志,和可選內(nèi)插標(biāo)志。
這樣的側(cè)鏈信息可以表征為“空間參數(shù)”,表示信道的空間特性和/或表示可能與空間處理有關(guān)的信號(hào)特性(比如瞬變)。在每種情況下,側(cè)鏈信息都將應(yīng)用于單個(gè)子帶(除了瞬變標(biāo)志和內(nèi)插標(biāo)志之外,每一側(cè)鏈信息都將應(yīng)用于信道內(nèi)的所有子帶),并且可以每幀更新一次(如以下例子中所述)或者當(dāng)在相關(guān)編碼器中出現(xiàn)塊切換時(shí)進(jìn)行更新。各種空間參數(shù)的進(jìn)一步的細(xì)節(jié)如下所述。編碼器中的具體信道的角度轉(zhuǎn)動(dòng)可以被認(rèn)為是極性反向的角度控制參數(shù),它是側(cè)鏈信息的一部分。
如果使用參考信道,那么該信道可以不需要音頻分析器,或者可以需要只產(chǎn)生振幅比例因子側(cè)鏈信息的音頻分析器。如果解碼器可以根據(jù)其他非參考信道的振幅比例因子推斷出具有足夠精度的振幅比例因子,那么未必發(fā)送該振幅比例因子。如下所述,如果編碼器中的能量歸一化確保任意子帶內(nèi)的所有信道上的比例因子實(shí)際平方和為1,那么在解碼器中可以推斷出參考信道的振幅比例因子的近似值。由于振幅比例因子的相對(duì)粗量化導(dǎo)致所再現(xiàn)的多信道音頻中的聲像移位,因此推斷出的近似參考信道振幅比例因子值可能有誤差。然而,在低數(shù)據(jù)率情況下,這種人為產(chǎn)物與使用比特來(lái)發(fā)送參考信道的振幅比例因子的情況相比更可接受。不過(guò),在某些情況下,參考信道最好使用至少能產(chǎn)生振幅比例因子側(cè)鏈信息的音頻分析器。
圖1用虛線來(lái)表示到每個(gè)音頻分析器的可選輸入(從PCM時(shí)域輸入到該信道中的音頻分析器)。音頻分析器利用這一輸入來(lái)檢測(cè)某一時(shí)間段(在這里所述的例子中為一個(gè)塊或幀的時(shí)間段)上的瞬變,并響應(yīng)這一瞬變產(chǎn)生瞬變指示符(例如1比特“瞬變標(biāo)志”)?;蛘?,如以下圖4的步驟408的解釋中所述,可以在頻域中檢測(cè)瞬變,這樣,音頻分析器不必接收時(shí)域輸入。
單聲復(fù)合音頻信號(hào)和所有信道(或除參考信道外的所有信道)的側(cè)鏈信息可被存儲(chǔ)、傳送或者存儲(chǔ)和傳送到解碼過(guò)程或設(shè)備(“解碼器”)。在進(jìn)行存儲(chǔ)、傳送或者存儲(chǔ)和傳送之前,各種音頻信號(hào)和各種側(cè)鏈信息可以被復(fù)用和打包到一個(gè)或多個(gè)適用于存儲(chǔ)、傳送或者存儲(chǔ)和傳送媒介或媒體的比特流中。在進(jìn)行存儲(chǔ)、傳送或者存儲(chǔ)和傳送之前,單聲復(fù)合音頻可以輸入到數(shù)據(jù)率下降編碼過(guò)程或設(shè)備(比如感覺(jué)編碼器)或者輸入到感覺(jué)編碼器和熵編碼器(比如算術(shù)或霍夫曼編碼器)(有時(shí)也稱之為“無(wú)損”編碼器)。此外,如上所述,只對(duì)于高于某一頻率(“耦合”頻率)的音頻,才可以從多個(gè)輸入信道中得到單聲復(fù)合音頻和相關(guān)側(cè)鏈信息。在這種情況下,多個(gè)輸入信道的每一個(gè)中的低于耦合頻率的音頻可以作為離散信道進(jìn)行存儲(chǔ)、傳送或者存儲(chǔ)和傳送,或者可以按與這里所述不同的某種方式進(jìn)行合并或處理。這些離散的或反過(guò)來(lái)合并的信道也可以輸入到數(shù)據(jù)下降編碼過(guò)程或設(shè)備(比如感覺(jué)編碼器,或者感覺(jué)編碼器和熵編碼器)。單聲復(fù)合音頻和離散多信道音頻都可以輸入到綜合感覺(jué)編碼或者感覺(jué)和熵編碼過(guò)程或設(shè)備。
在編碼器比特流中載送側(cè)鏈信息的具體方式對(duì)本發(fā)明而言并不是關(guān)鍵。需要時(shí),側(cè)鏈信息可以按比如比特流與老式解碼器兼容(即比特流是向后兼容的)的方式進(jìn)行載送。完成這項(xiàng)工作的許多合適技術(shù)是已知的。例如,許多編碼器產(chǎn)生了具有解碼器忽略的未用或無(wú)效比特的比特流。這種配置的一個(gè)例子如美國(guó)專利6,807,528 B1中所述,該專利在此全部包含作為參考,它由Truman等人于2004年10月19日申請(qǐng),名稱為“Adding Data to a Compressed Data Frame”。這些比特可以用側(cè)鏈信息來(lái)代替。另一個(gè)例子是,側(cè)鏈信息可以在編碼器的比特流中進(jìn)行加密編碼。此外,還可利用允許這種側(cè)鏈信息和與老式解碼器兼容的單聲/立體聲比特流一同傳送或存儲(chǔ)的任意技術(shù),將側(cè)鏈信息與向后兼容的比特流分別存儲(chǔ)或傳送。
基本1:N和1:M解碼器參照?qǐng)D2,示出了體現(xiàn)本發(fā)明的方面的1:N解碼器功能或設(shè)備(“解碼器”)。該圖是作為體現(xiàn)本發(fā)明的方面的基本解碼器所實(shí)現(xiàn)的功能或結(jié)構(gòu)的一個(gè)例子。實(shí)施本發(fā)明的方面的其他功能或結(jié)構(gòu)配置也可以使用,包括如下所述的可選和/或等價(jià)的功能或結(jié)構(gòu)配置。
解碼器接收單聲復(fù)合音頻信號(hào)和所有信道(或除參考信道外的所有信道)的側(cè)鏈信息。必要時(shí),將復(fù)合音頻信號(hào)和相關(guān)側(cè)鏈信息去復(fù)用、拆分和/或解碼。解碼可以采用查尋表。目的是要從單聲復(fù)合音頻信道中得到與輸入到圖1的編碼器的音頻信道中的各個(gè)信道接近的多個(gè)單獨(dú)音頻信道,以遵照本文所述的本發(fā)明的比特率下降技術(shù)。
當(dāng)然,可以選擇不恢復(fù)輸入到編碼器的所有信道或者只使用單聲復(fù)合信號(hào)。此外,利用如下申請(qǐng)中所述發(fā)明的方面,還可以從根據(jù)本發(fā)明的方面的解碼器的輸出中得到除了這些輸入到編碼器的信道以外的信道于2002年2月7日申請(qǐng)并于2002年8月15日公布的指定美國(guó)的國(guó)際申請(qǐng)PCT/US02/03619,及其于2003年8月5日申請(qǐng)的相應(yīng)美國(guó)國(guó)家申請(qǐng)系列號(hào)10/467,213;和于2003年8月6日申請(qǐng)并于2001年3月4日公布為WO 2004/019656的指定美國(guó)的國(guó)際申請(qǐng)PCT/US03/24570,及其于2005年1月27日申請(qǐng)的相應(yīng)美國(guó)國(guó)家申請(qǐng)系列號(hào)10/522,515。所述申請(qǐng)?jiān)诖巳堪鳛閰⒖?。?shí)施本發(fā)明的方面的解碼器所恢復(fù)的信道尤其可以與所述參考的申請(qǐng)中的信道相乘技術(shù)結(jié)合起來(lái)使用,這是因?yàn)?,所恢?fù)信道不僅具有有用的信道間振幅關(guān)系,而且還具有有用的信道間相位關(guān)系。信道相乘的另一種變通辦法是使用矩陣解碼器來(lái)得到附加信道。本發(fā)明的信道間振幅和相位保持的方面使得體現(xiàn)本發(fā)明的方面的解碼器的輸出信道尤其適用于對(duì)振幅和相位敏感的矩陣解碼器。許多這樣的矩陣解碼器使用寬帶控制電路,這種控制電路嚴(yán)格地僅當(dāng)輸入給它的信號(hào)在整個(gè)信號(hào)帶寬上都是立體聲時(shí)才工作。因此,如果在N等于2的N:1:N系統(tǒng)中體現(xiàn)本發(fā)明的方面,那么解碼器所恢復(fù)的兩個(gè)信道可以輸入到2:M的有源矩陣解碼器。如上所述,低于耦合頻率時(shí),這些信道可以是離散信道。許多合適的有源矩陣解碼器在技術(shù)上是眾所周知的,包括例如稱為“Pro Logic”和“Pro Logic II”解碼器的矩陣解碼器(“Pro Logic”是Dolby Laboratories Licensing Corporation的商標(biāo))。Pro Logic解碼器的有關(guān)方面如美國(guó)專利4,799,260和4,941,177中所公開(kāi),這些專利中的每一個(gè)在此全部包含作為參考。Pro Logic II解碼器的有關(guān)方面如以下專利申請(qǐng)所公開(kāi)Fosgate于2000年3月22日申請(qǐng)并于2001年6月7日公布為WO 01/41504的未決美國(guó)專利申請(qǐng)系列號(hào)09/532,711,名稱為“Method for Deriving at Least Three Audio Signalsfrom Two Input Audio Signals”;和Fosgate等人于2003年2月25日申請(qǐng)并于2004年7月1日公布為US 2004/0125960 A1的未決美國(guó)專利申請(qǐng)系列號(hào)10/362,786,名稱為“Method for Apparatus for Audio MatrixDecoding”。所述申請(qǐng)中的每一個(gè)在此全部包含作為參考。例如,在Roger Dressler的論文“Dolby Surround Pro Logic Decoder Principlesof Operation”和Jim Hilson的論文“Mixing with Dolby Pro Logic IITechnology”中,解釋了Dolby Pro Logic和Pro Logic II解碼器的操作的某些方面,這些論文可以從Dolby Laboratories的網(wǎng)站(www.dolby.com)上得到。其他合適的有源矩陣解碼器可以包括下列美國(guó)專利和公開(kāi)的國(guó)際申請(qǐng)(每個(gè)都指定美國(guó))中的一個(gè)或多個(gè)中所述的有源矩陣解碼器,這些專利和申請(qǐng)中的每一個(gè)在此全部包含作為參考5,046,098;5,274,740;5,400,433;5,625,696;5,644,640;5,504,819;5,428,687;5,172,415;和WO 02/19768。
再回到圖2,接收到的單聲復(fù)合音頻信道應(yīng)用于多個(gè)信號(hào)通道,從中得到所恢復(fù)的多個(gè)音頻信道中的各自一個(gè)信道。各信道得到通道包括(按任一次序)振幅調(diào)整功能或設(shè)備(“調(diào)整振幅”)和角度轉(zhuǎn)動(dòng)功能或設(shè)備(“轉(zhuǎn)動(dòng)角度”)。
調(diào)整振幅是對(duì)單聲復(fù)合信號(hào)施加增益或衰減,這樣,在某些信號(hào)條件下,從復(fù)合信號(hào)中得到的輸出信道的相對(duì)輸出幅度(或能量)類似于編碼器輸入端的信道的幅度(或能量)。此外,如下所述,在強(qiáng)加“隨機(jī)”角度變動(dòng)時(shí)的某些信號(hào)條件下,還可以對(duì)所恢復(fù)信道的振幅強(qiáng)加一個(gè)可控的“隨機(jī)”振幅變動(dòng)量,從而改進(jìn)它相對(duì)于所恢復(fù)信道中的其他信道的解相關(guān)性。
轉(zhuǎn)動(dòng)角度應(yīng)用了相位轉(zhuǎn)動(dòng),這樣,在某些信號(hào)條件下,從單聲復(fù)合信號(hào)中得到的輸出信道的相對(duì)相角類似于編碼器輸入端的信道的相角。最好,在某些信號(hào)條件下,還可以對(duì)所恢復(fù)信道的角度強(qiáng)加一個(gè)可控的“隨機(jī)”角度變動(dòng)量,從而改進(jìn)它相對(duì)于所恢復(fù)信道中的其他信道的解相關(guān)性。
如以下進(jìn)一步所述,“隨機(jī)”角度振幅變動(dòng)不僅包括偽隨機(jī)和真隨機(jī)變動(dòng),而且包括確定性產(chǎn)生的變動(dòng)(具有減小信道之間的互相關(guān)的作用)。這還將在以下圖5A的步驟505的解釋中作進(jìn)一步的討論。
從概念上講,具體信道的調(diào)整振幅和轉(zhuǎn)動(dòng)角度是要確定單聲復(fù)合音頻DFT系數(shù),以便得到信道的重建變換bin值。
每個(gè)信道的調(diào)整振幅可以至少由具體信道的所恢復(fù)側(cè)鏈振幅比例因子進(jìn)行控制,或者,在有參考信道的情況下,既根據(jù)參考信道的所恢復(fù)側(cè)鏈振幅比例因子又根據(jù)從其他非參考信道的所恢復(fù)側(cè)鏈振幅比例因子中推斷出的振幅比例因子進(jìn)行控制??蛇x地,為了增強(qiáng)所恢復(fù)信道的解相關(guān)性,調(diào)整振幅還可以由從具體信道的所恢復(fù)側(cè)鏈解相關(guān)比例因子以及具體信道的所恢復(fù)側(cè)鏈瞬變標(biāo)志中得出的隨機(jī)振幅比例因子參數(shù)進(jìn)行控制。
每個(gè)信道的轉(zhuǎn)動(dòng)角度可以至少由所恢復(fù)的側(cè)鏈角度控制參數(shù)進(jìn)行控制(在這種情況下,解碼器中的轉(zhuǎn)動(dòng)角度基本上可以取消編碼器中的轉(zhuǎn)動(dòng)角度所提供的角度轉(zhuǎn)動(dòng))。為了增強(qiáng)所恢復(fù)信道的解相關(guān)性,轉(zhuǎn)動(dòng)角度還可以由從具體信道的所恢復(fù)側(cè)鏈解相關(guān)比例因子以及具體信道的所恢復(fù)側(cè)鏈瞬變標(biāo)志中得出的隨機(jī)角度控制參數(shù)進(jìn)行控制。信道的隨機(jī)角度控制參數(shù)以及信道的隨機(jī)振幅比例因子(如果使用該因子的話)可以由可控的解相關(guān)器功能或設(shè)備(“可控解相關(guān)器”)從信道的所恢復(fù)解相關(guān)比例因子和信道的所恢復(fù)瞬變標(biāo)志中得出。
參照?qǐng)D2中的例子,所恢復(fù)的單聲復(fù)合音頻輸入到第一信道音頻恢復(fù)通道22,通道22得出信道1音頻;同時(shí)輸入到第二信道音頻恢復(fù)通道24,通道24得出信道n音頻。音頻通道22包括調(diào)整振幅26、轉(zhuǎn)動(dòng)角度28和反向?yàn)V波器組功能或設(shè)備(“反向?yàn)V波器組”)30(如果需要PCM輸出的話)。同樣,音頻通道24包括調(diào)整振幅32、轉(zhuǎn)動(dòng)角度34和反向?yàn)V波器組功能或設(shè)備(“反向?yàn)V波器組”)36(如果需要PCM輸出的話)。至于圖1中的情況,為了便于說(shuō)明,只示出了兩個(gè)信道,應(yīng)當(dāng)理解可以有兩個(gè)以上的信道。
第一信道(信道1)的所恢復(fù)側(cè)鏈信息可以包括振幅比例因子、角度控制參數(shù)、解相關(guān)比例因子、瞬變標(biāo)志和可選內(nèi)插標(biāo)志(如以上結(jié)合基本編碼器的描述中所述)。振幅比例因子輸入到調(diào)整振幅26。如果使用可選內(nèi)插標(biāo)志,那么可以使用可選頻率內(nèi)插器或內(nèi)插器功能(“內(nèi)插器”)27在整個(gè)頻率上(例如信道的每一子帶中的所有bin上)內(nèi)插角度控制參數(shù)。這種內(nèi)插可以是例如每個(gè)子帶中心點(diǎn)之間的bin角度的線性內(nèi)插。1比特內(nèi)插標(biāo)志的狀態(tài)可以選擇是否在頻率上進(jìn)行內(nèi)插,如以下進(jìn)一步所述。瞬變標(biāo)志和解相關(guān)比例因子輸入到可控解相關(guān)器38,該解相關(guān)器根據(jù)這一輸入產(chǎn)生一個(gè)隨機(jī)角度控制參數(shù)。1比特瞬變標(biāo)志的狀態(tài)可以選擇隨機(jī)角度解相關(guān)的兩種復(fù)方式之一,如以下進(jìn)一步所述。可在整個(gè)頻率上進(jìn)行內(nèi)插(如果使用內(nèi)插標(biāo)志和內(nèi)插器的話)的角度控制參數(shù)和隨機(jī)角度控制參數(shù)通過(guò)加性合并器或合并功能40相加在一起,以便提供用于轉(zhuǎn)動(dòng)角度28的控制信號(hào)??蛇x地,可控解相關(guān)器38除了產(chǎn)生隨機(jī)角度控制參數(shù)之外,還可以根據(jù)瞬變標(biāo)志和解相關(guān)比例因子產(chǎn)生一個(gè)隨機(jī)振幅比例因子。振幅比例因子與這種隨機(jī)振幅比例因子通過(guò)加性合并器或合并功能(未示出)相加在一起,以便提供用于調(diào)整振幅26的控制信號(hào)。
同樣,第二信道(信道n)的所恢復(fù)側(cè)鏈信息也可以包括振幅比例因子、角度控制參數(shù)、解相關(guān)比例因子、瞬變標(biāo)志和可選內(nèi)插標(biāo)志(如以上結(jié)合基本編碼器的描述中所述)。振幅比例因子輸入到調(diào)整振幅32。可以使用頻率內(nèi)插器或內(nèi)插器功能(“內(nèi)插器”)33在整個(gè)頻率上內(nèi)插角度控制參數(shù)。與信道1的情況一樣,1比特內(nèi)插標(biāo)志的狀態(tài)可以選擇是否在整個(gè)頻率上進(jìn)行內(nèi)插。瞬變標(biāo)志和解相關(guān)比例因子輸入到可控解相關(guān)器42,該解相關(guān)器根據(jù)這一輸入產(chǎn)生一個(gè)隨機(jī)角度控制參數(shù)。與信道1的情況一樣,1比特瞬變標(biāo)志的狀態(tài)可以選擇隨機(jī)角度解相關(guān)的兩種復(fù)方式之一,如以下進(jìn)一步所述。角度控制參數(shù)和隨機(jī)角度控制參數(shù)通過(guò)加性合并器或合并功能44相加在一起,以便提供用于轉(zhuǎn)動(dòng)角度34的控制信號(hào)。可選地,如以上結(jié)合信道1所述,可控解相關(guān)器42除了產(chǎn)生隨機(jī)角度控制參數(shù)之外,還可以根據(jù)瞬變標(biāo)志和解相關(guān)比例因子產(chǎn)生一個(gè)隨機(jī)振幅比例因子。振幅比例因子與隨機(jī)振幅比例因子通過(guò)加性合并器或合并功能(未示出)相加在一起,以便提供用于調(diào)整振幅32的控制信號(hào)。
盡管剛剛所述的過(guò)程或布局便于理解,然而,實(shí)際上利用能達(dá)到相同或類似結(jié)果的其他過(guò)程或布局也可以得到相同的結(jié)果。例如,調(diào)整振幅26(32)和轉(zhuǎn)動(dòng)角度28(34)的次序可以反過(guò)來(lái),和/或可以有一個(gè)以上的轉(zhuǎn)動(dòng)角度(一個(gè)用于響應(yīng)角度控制參數(shù),而另一個(gè)用于響應(yīng)隨機(jī)角度控制參數(shù))。轉(zhuǎn)動(dòng)角度還可以被認(rèn)為是三個(gè)(而不是一個(gè)或兩個(gè))功能或設(shè)備,如以下圖5的例子中所述。如果使用隨機(jī)振幅比例因子,那么,可以有一個(gè)以上的調(diào)整振幅(一個(gè)用于響應(yīng)振幅比例因子,而另一個(gè)用于響應(yīng)隨機(jī)振幅比例因子)。由于人耳聽(tīng)覺(jué)對(duì)振幅比對(duì)相位更敏感,因此,如果使用隨機(jī)振幅比例因子,那么,最好調(diào)整隨機(jī)振幅比例因子的影響相對(duì)于隨機(jī)角度控制參數(shù)的影響的比例,使得隨機(jī)振幅比例因子對(duì)振幅的影響小于隨機(jī)角度控制參數(shù)對(duì)相角的影響。作為另一種可選的過(guò)程或布局,解相關(guān)比例因子還可以用來(lái)控制隨機(jī)相角與基本相角的比例(而不是將表示隨機(jī)相角的參數(shù)與表示基本相角的參數(shù)相加),以及(如果使用的話)隨機(jī)振幅變動(dòng)與基本振幅變動(dòng)的比例(而不是將表示隨機(jī)振幅的比例因子與表示基本振幅的比例因子相加)(即每種情況下的可變疊化)。
如果使用參考信道,那么,如以上結(jié)合基本編碼器所述,由于參考信道的側(cè)鏈信息可能只包括振幅比例因子(或者,如果該側(cè)鏈信息不含參考信道的振幅比例因子,那么,當(dāng)編碼器中的能量歸一化確保子帶內(nèi)的所有信道上的比例因子平方和為1時(shí),該振幅比例因子可以從其他信道的振幅比例因子中推斷出),因此可以省略該信道的可控解相關(guān)器和加性合并器。為參考信道提供振幅調(diào)整,并且可以由接收到的或所得出的參考信道的振幅比例因子來(lái)該控制振幅調(diào)整。無(wú)論參考信道的振幅比例因子是從該側(cè)鏈中得出還是在解碼器中推斷出,所恢復(fù)參考信道都是單聲復(fù)合信道的振幅定標(biāo)形式。因此它不需要角度轉(zhuǎn)動(dòng),這是因?yàn)樗瞧渌诺赖霓D(zhuǎn)動(dòng)的參考。
盡管調(diào)整所恢復(fù)信道的相對(duì)振幅可以提供適度的解相關(guān),然而,如果使用單獨(dú)的振幅調(diào)整很可能導(dǎo)致許多信號(hào)條件下再現(xiàn)的聲場(chǎng)實(shí)際上缺乏空間化或映像(例如“崩潰”的聲場(chǎng))。振幅調(diào)整可能影響耳邊的耳間電平差,這只是耳朵所用的心理聲學(xué)定向提示之一。因此,根據(jù)本發(fā)明的方面,可以根據(jù)信號(hào)條件使用某些角度調(diào)整技術(shù),以提供附加的解相關(guān)??梢詤⒄毡?,表中給出了簡(jiǎn)要解釋,這些解釋便于理解根據(jù)本發(fā)明的方面所采用的多種角度調(diào)整解相關(guān)技術(shù)或操作模式。除了表1中的技術(shù)之外,還可以采用其他解相關(guān)技術(shù)(如以下結(jié)合圖8和9的例子所述)。
實(shí)際上,實(shí)施角度轉(zhuǎn)動(dòng)和幅度變更可能導(dǎo)致循環(huán)回旋(circularconvolution)(也稱為循環(huán)性或周期性回旋)。盡管通常要求避免循環(huán)回旋,然而,在編碼器和解碼器中通過(guò)互補(bǔ)角度偏移可以稍微減輕循環(huán)回旋所帶來(lái)的令人不快的聽(tīng)得見(jiàn)的人為產(chǎn)物。此外,在本發(fā)明的方面的低成本實(shí)現(xiàn)方式中,尤其是在只有部分音頻頻帶(比如1500Hz以上)下混合到單聲或多個(gè)信道的那些實(shí)現(xiàn)方式中(這種情況下聽(tīng)得見(jiàn)的循環(huán)回旋的影響最小),可以容忍這種循環(huán)回旋的影響??蛇x地,利用任意合適的技術(shù)(包括例如適當(dāng)使用“0”填充)可以避免或最大限度地減小循環(huán)回旋。使用“0”填充的一種方式是將所提出的頻域變動(dòng)(表示角度轉(zhuǎn)動(dòng)和振幅定標(biāo))變換到時(shí)域,對(duì)其開(kāi)窗(利用任意窗口),為其填充一些“0”,然后再變換回到頻域并乘以所要處理的音頻的頻域形式(該音頻不必被開(kāi)窗)。
表1角度調(diào)整解相關(guān)技術(shù)
對(duì)于實(shí)際上是譜靜態(tài)的信號(hào)(比如管樂(lè)定調(diào)音符),第一種技術(shù)(“技術(shù)1”)將接收到的單聲復(fù)合信號(hào)的角度相對(duì)于其他所恢復(fù)信道中的每一個(gè)的角度恢復(fù)到一個(gè)與在編碼器的輸入端該信道相對(duì)于其他信道的原始角度類似(經(jīng)過(guò)頻率和時(shí)間粒度并經(jīng)過(guò)量化)的角度。相角差尤其適用于提供低于約1500Hz的低頻信號(hào)分量(其中聽(tīng)覺(jué)遵循音頻信號(hào)的單獨(dú)周期)的解相關(guān)。最好,技術(shù)1在所有信號(hào)條件下都能操作以提供基本角度偏移。
對(duì)于高于約1500Hz的高頻信號(hào)分量,聽(tīng)覺(jué)不遵循聲音的單獨(dú)周期而響應(yīng)波形包絡(luò)(基于臨界頻帶)。因此,最好利用信號(hào)包絡(luò)的差而不是用相角差來(lái)提供高于約1500Hz的解相關(guān)。按照技術(shù)1只應(yīng)用相角偏移無(wú)法充分改變信號(hào)的包絡(luò)來(lái)將高頻信號(hào)解相關(guān)。第二和第三種技術(shù)(“技術(shù)2”和“技術(shù)3”)在某些信號(hào)條件下分別將技術(shù)1所確定的角度加上一個(gè)可控的隨機(jī)角度變動(dòng)量,從而得到可控的隨機(jī)包絡(luò)變動(dòng)量,這增強(qiáng)了解相關(guān)性。
相角的隨機(jī)變化是造成信號(hào)包絡(luò)隨機(jī)變化的最好方式。特定包絡(luò)是由子帶內(nèi)頻譜分量的振幅和相位的特定組合的交互作用所造成的。盡管改變子帶內(nèi)頻譜分量的振幅可以改變包絡(luò),然而,需要大的振幅變化才能得到包絡(luò)的顯著變化,這不合乎需要,因?yàn)槿硕?tīng)覺(jué)對(duì)頻譜振幅的變動(dòng)很敏感。相反,改變頻譜分量的相角比改變頻譜分量的振幅對(duì)包絡(luò)的影響更大(頻譜分量不再以同樣的方式排齊),因此,在不同的時(shí)間出現(xiàn)了決定包絡(luò)的加強(qiáng)和減弱,從而改變包絡(luò)。盡管人耳聽(tīng)覺(jué)對(duì)包絡(luò)有一定的敏感性,然而聽(tīng)覺(jué)對(duì)相位相對(duì)較弱,因此,總體聲音質(zhì)量實(shí)際上仍然相似。不過(guò),對(duì)于某些信號(hào)條件,頻譜分量的振幅的某種隨機(jī)性與頻譜分量的相位的隨機(jī)性一道可以提供信號(hào)包絡(luò)的增強(qiáng)型隨機(jī)性,只要這種振幅隨機(jī)性不造成令人不快的聽(tīng)得見(jiàn)的人為產(chǎn)物。
最好,在某些信號(hào)條件下,技術(shù)2或技術(shù)3的可控量或度數(shù)與技術(shù)1一同操作。瞬變標(biāo)志選擇技術(shù)2(在幀或塊中(取決于瞬變標(biāo)志是以幀速率還是以塊速率傳送)沒(méi)有瞬變時(shí))或選擇技術(shù)3(在幀或塊中有瞬變時(shí))。因此,取決于是否有瞬變,將有多種操作模式。此外,在某些信號(hào)條件下,振幅隨機(jī)性可控量或度還可以與試圖恢復(fù)原始信道振幅的振幅定標(biāo)一同操作。
技術(shù)2適用于諧波豐富的復(fù)連續(xù)信號(hào),比如集中管弦樂(lè)隊(duì)小提琴。技術(shù)3適用于復(fù)脈沖或瞬變信號(hào),比如鼓掌歡呼、響板等。(技術(shù)2有時(shí)會(huì)抹去鼓掌歡呼中的拍手聲,使得它不適用于這種信號(hào))。如以下進(jìn)一步所述,為了最大限度地減小聽(tīng)得見(jiàn)的人為產(chǎn)物,技術(shù)2和技術(shù)3具有不同的時(shí)間和頻率分辨率,用于應(yīng)用隨機(jī)角度變動(dòng)(沒(méi)有瞬變時(shí)選用技術(shù)2,而有瞬變時(shí)選用技術(shù)3)。
技術(shù)1緩慢地(逐幀地)對(duì)信道中的bin角度進(jìn)行偏移。這一基本偏移量或度數(shù)由角度控制參數(shù)控制(參數(shù)為0時(shí)沒(méi)有偏移)。如以下進(jìn)一步所述,每一子帶中的所有bin都應(yīng)用相同的或內(nèi)插的參數(shù),而每幀都要更新參數(shù)。因此,每個(gè)信道的每一子帶相對(duì)于其他信道都有相移,從而在低頻時(shí)(低于約2500Hz)提供了解相關(guān)度。然而,技術(shù)1本身不適用于諸如鼓掌歡呼等瞬變信號(hào)。對(duì)于這些信號(hào)條件,再現(xiàn)的信道可能表現(xiàn)出令人討厭的不穩(wěn)定梳狀濾波效果。在鼓掌歡呼的情況下,本質(zhì)上只通過(guò)調(diào)整所恢復(fù)信道的相對(duì)振幅無(wú)法提供解相關(guān),這是因?yàn)樗行诺涝趲陂g往往都有相同的振幅。
技術(shù)2在沒(méi)有瞬變時(shí)工作。按信道中逐個(gè)bin(每個(gè)bin都有一個(gè)不同的隨機(jī)偏移),技術(shù)2將技術(shù)1中的角度偏移加上一個(gè)不隨時(shí)間變化的隨機(jī)角度偏移,使得信道彼此之間的包絡(luò)不同,從而提供這些信道當(dāng)中的復(fù)信號(hào)的解相關(guān)。保持隨機(jī)相角值不隨時(shí)間變化避免了可能由于bin相角的隨塊或隨幀而變所造成的塊或幀的人為產(chǎn)物。盡管這一技術(shù)在沒(méi)有瞬變時(shí)是一種很有用的解相關(guān)工具,然而,它可能會(huì)暫時(shí)模糊瞬變(導(dǎo)致通常所謂的“預(yù)噪聲”——瞬變掩蓋了后瞬變涂沫)。技術(shù)2所提供的附加偏移量或度數(shù)由解相關(guān)比例因子直接定標(biāo)(比例因子為0時(shí)沒(méi)有附加偏移)。理想地,根據(jù)技術(shù)2與基本角度偏移(技術(shù)1)相加的隨機(jī)相角的量由解相關(guān)比例因子以最大限度地減小聽(tīng)得見(jiàn)的信號(hào)顫音人為產(chǎn)物的方式進(jìn)行控制。如下所述,利用得到解相關(guān)比例因子的方式以及應(yīng)用適當(dāng)?shù)臅r(shí)間平滑方式可以實(shí)現(xiàn)這種最大限度地減小信號(hào)顫音人為產(chǎn)物的過(guò)程。盡管每一bin應(yīng)用了不同的附加隨機(jī)角度偏移值且該偏移值不變,但整個(gè)子帶卻應(yīng)用了相同的定標(biāo)而每幀則更新定標(biāo)。
技術(shù)3在幀或塊中(取決于瞬變標(biāo)志的傳送速率)有瞬變時(shí)工作。它將信道中每一子帶中的所有bin逐塊地用唯一的隨機(jī)角度值(子帶中所有bin公用的)來(lái)偏移,使信道彼此之間不僅信號(hào)的包絡(luò)而且信號(hào)的振幅和相位都隨塊而變。角度隨機(jī)化的時(shí)間和頻率分辨率的這些變化減小了這些信道當(dāng)中的穩(wěn)態(tài)信號(hào)相似性,并充分提供了信道的解相關(guān)而不會(huì)造成“預(yù)噪聲”人為產(chǎn)物。角度隨機(jī)化的頻率分辨率從技術(shù)2中的很細(xì)(信道中的所有bin之間都不同)到技術(shù)3中的粗(子帶中的所有bin之間都相同但每個(gè)子帶之間不同)的變化尤其有利于最大限度地減小“預(yù)噪聲”人為產(chǎn)物。盡管聽(tīng)覺(jué)高頻時(shí)不直接對(duì)純角度變化作出響應(yīng),然而,當(dāng)兩個(gè)或多個(gè)信道在從揚(yáng)聲器到聽(tīng)眾的途中進(jìn)行聲音混合時(shí),相差可能造成可聽(tīng)得見(jiàn)的令不不快的振幅變化(梳狀濾波效果),而技術(shù)3則減弱了這種變化。信號(hào)的脈沖特性可以最大限度地減小要不然可能出現(xiàn)的塊速率人為產(chǎn)物。因此,按信道中逐個(gè)子帶,技術(shù)3將技術(shù)1中的相移加上一個(gè)快速(逐塊)變化的隨機(jī)角度偏移。如下所述,附加偏移量或度數(shù)由解相關(guān)比例因子間接定標(biāo)(比例因子為0時(shí)沒(méi)有附加偏移)。整個(gè)子帶應(yīng)用了相同的定標(biāo)而每幀則更新定標(biāo)。
盡管角度調(diào)整技術(shù)用三種技術(shù)進(jìn)行了表征,然而,語(yǔ)義上講,還可以用以下兩種技術(shù)來(lái)表征(1)技術(shù)1與技術(shù)2的可變度數(shù)(它可以是0)的組合,和(2)技術(shù)1與技術(shù)3的可變度數(shù)(它可以是0)的組合。為便于說(shuō)明,這些技術(shù)也被看作是三種技術(shù)。
在提供通過(guò)上混合從一個(gè)或多個(gè)音頻信道中(即使這些音頻信道不是從根據(jù)本發(fā)明的方面的編碼器中得出)所得到的音頻信號(hào)的解相關(guān)時(shí),可以采用多模式解相關(guān)技術(shù)的一些方面及其修改方式。這些配置當(dāng)應(yīng)用于單聲音頻信道時(shí)有時(shí)稱之為“偽立體聲”設(shè)備和功能??梢允褂萌我夂线m的設(shè)備或功能(“上混合器”)來(lái)從單聲音頻信道或從多個(gè)音頻信道中得到多個(gè)信號(hào)。一旦通過(guò)上混合器得到這些多音頻信道,就可以應(yīng)用這里所述的多模式解相關(guān)技術(shù),對(duì)這些音頻信道中的一個(gè)或多個(gè)信道相對(duì)其他所得到的音頻信號(hào)中一個(gè)或多個(gè)信號(hào)之間進(jìn)行解相關(guān)。在這種應(yīng)用中,通過(guò)檢測(cè)所得到的音道本身中的瞬變,應(yīng)用了這些解相關(guān)技術(shù)的每一所得到的音頻信道可以在不同的操作模式之間相互切換。此外,有瞬變的技術(shù)(技術(shù)3)的操作可以被簡(jiǎn)化,以便有瞬變時(shí)不對(duì)頻譜分量的相角進(jìn)行偏移。
側(cè)鏈信息如上所述,側(cè)鏈信息可以包括振幅比例因子、角度控制參數(shù)、解相關(guān)比例因子、瞬變標(biāo)志和可選內(nèi)插標(biāo)志。本發(fā)明的方面的實(shí)際實(shí)施方式的這種側(cè)鏈信息可以用下表2來(lái)概括。通常,側(cè)鏈信息可以每幀更新一次。
表2信道的側(cè)鏈信息特性
在每種情況下,信道的側(cè)鏈信息都應(yīng)用于單個(gè)子帶(除了瞬變標(biāo)志和內(nèi)插標(biāo)志之外,每一側(cè)鏈信息都將應(yīng)用于信道中的所有子帶),并可以每幀更新一次。盡管得到所指示的時(shí)間分辨率(每幀一次)、頻率分辨率(子帶)、值范圍和量化級(jí)后可以提供有效性能以及低比特率與性能之間的有效折衷,然而應(yīng)當(dāng)理解,這樣的時(shí)間和頻率分辨率、值范圍以及量化級(jí)并不是關(guān)鍵,在實(shí)施本發(fā)明的方面時(shí)還可以采用其他分辨率、范圍和級(jí)。例如,瞬變標(biāo)志和內(nèi)插標(biāo)志(如果使用的話)可以每塊更新一次,這樣才只有最小的側(cè)鏈數(shù)據(jù)開(kāi)銷增量。在瞬變標(biāo)志的情況下,每塊更新一次的好處是,技術(shù)2與技術(shù)3之間的切換將更精確。此外,如上所述,側(cè)鏈信息還可以在相關(guān)編碼器出現(xiàn)塊切換時(shí)進(jìn)行更新。
應(yīng)當(dāng)注意,上述技術(shù)2(也可參見(jiàn)表1)提供了bin頻率分辨率而不是子帶頻率分辨率(也就是說(shuō),對(duì)每個(gè)bin而不是對(duì)每個(gè)子帶實(shí)施不同的偽隨機(jī)相角偏移),即使子帶中的所有bin都應(yīng)用了同一子帶解相關(guān)比例因子。還應(yīng)注意,上述技術(shù)3(也可參見(jiàn)表1)提供了塊頻率分辨率(也就是說(shuō),對(duì)每塊而不是對(duì)幀實(shí)施不同的隨機(jī)相角偏移),即使子帶中的所有bin都應(yīng)用了同一子帶解相關(guān)比例因子。這些比側(cè)鏈信息的分辨率高的分辨率是可行的,因?yàn)殡S機(jī)相角偏移可以在解碼器中產(chǎn)生而且不必在編碼器中得知(即使編碼器也對(duì)所編碼的單聲復(fù)合信號(hào)實(shí)施隨機(jī)相角偏移,情況也是這樣,這種情況如下所述)。換言之,即使解相關(guān)技術(shù)采用bin或塊粒度,也未必發(fā)送具有這種粒度的側(cè)鏈信息。解碼器可以使用例如一個(gè)或多個(gè)查尋隨機(jī)bin相角的查尋表。獲得解相關(guān)的比側(cè)鏈信息率大的時(shí)間和/或頻率分辨率屬于本發(fā)明的方面之一。因此,經(jīng)隨機(jī)相位的解相關(guān)可以這樣實(shí)現(xiàn)利用不隨時(shí)間變化的細(xì)頻率分辨率(逐個(gè)bin)(技術(shù)2),或者利用粗頻率分辨率(逐個(gè)頻帶)((或當(dāng)使用頻率內(nèi)插時(shí)的細(xì)頻率分辨率(逐個(gè)bin),如下進(jìn)一步所述)和細(xì)時(shí)間分辨率(塊速率)(技術(shù)3)。
還應(yīng)當(dāng)理解,隨著不斷增長(zhǎng)的隨機(jī)相移度數(shù)與所恢復(fù)信道的相角相加,所恢復(fù)信道的絕對(duì)相角與該信道的原始絕對(duì)相角相差越來(lái)越大。還應(yīng)當(dāng)理解本發(fā)明的一個(gè)方面,當(dāng)信號(hào)條件是根據(jù)本發(fā)明的方面要加上隨機(jī)相移時(shí),所恢復(fù)信道的最終絕對(duì)相角不必與原始信道的絕對(duì)相角相符。例如,在解相關(guān)比例因子造成最大的隨機(jī)相移度數(shù)時(shí)的極端情況下,技術(shù)2或技術(shù)3所造成的相移完全蓋過(guò)技術(shù)1所造成基本相移。不過(guò),這并不是所要關(guān)心的,因?yàn)殡S機(jī)相移的可聽(tīng)情況與原始信號(hào)中的不同隨機(jī)相位一樣,這些隨機(jī)相位造成要加上某一度數(shù)的隨機(jī)相移的解相關(guān)比例因子。
如上所述,除了使用隨機(jī)相移之外還可以使用隨機(jī)振幅變動(dòng)。例如,調(diào)整振幅還可以由從具體信道的所恢復(fù)側(cè)鏈解相關(guān)比例因子和該具體信道的所恢復(fù)側(cè)鏈瞬變標(biāo)志中得到的隨機(jī)振幅比例因子參數(shù)來(lái)控制。這種隨機(jī)振幅變動(dòng)可以按與隨機(jī)相移的應(yīng)用情況類似的方式以兩種模式進(jìn)行操作。例如,在沒(méi)有瞬變時(shí),可以逐個(gè)bin地(隨bin不同而不同)加上不隨時(shí)間變化的隨機(jī)振幅變動(dòng),而在(幀或塊中)有瞬變時(shí),可以加上逐塊變化的(隨塊不同而不同)和隨子帶變化的(子帶中所有bin具有相同變動(dòng);隨子帶不同而不同)隨機(jī)振幅變動(dòng)。盡管要加的隨機(jī)振幅變動(dòng)的量或度可以由解相關(guān)比例因子來(lái)控制,然而,應(yīng)當(dāng)知道,特定比例因子值可帶來(lái)比從相同比例因子值得到的相應(yīng)隨機(jī)相移更小的振幅變動(dòng),從而避免聽(tīng)得見(jiàn)的人為產(chǎn)物。
當(dāng)瞬變標(biāo)志應(yīng)用于幀時(shí),通過(guò)在解碼器中提供輔助瞬變檢測(cè)器可以提高瞬變標(biāo)志選擇技術(shù)2或技術(shù)3所用的時(shí)間分辨率,從而提供比幀速率低甚至比塊速率還要低的時(shí)間分辨率。這種輔助瞬變檢測(cè)器可以檢測(cè)解碼器所接收到的單聲或多信道復(fù)合音頻信號(hào)中出現(xiàn)的瞬變,然后再將這種檢測(cè)信息發(fā)送給每一可控解相關(guān)器(如圖2中的38、42所示)。于是,當(dāng)接收到其信道的瞬變標(biāo)志時(shí),一旦接收到解碼器的本地瞬變檢測(cè)指示,可控解相關(guān)器從技術(shù)2切換技術(shù)3。因此,無(wú)需提高側(cè)鏈比特率就能明顯改善時(shí)間分辨率,即使空間精度下降(編碼器先檢測(cè)每一輸入信道中的瞬變?cè)龠M(jìn)行下混合,反之,在解碼器中的檢測(cè)則在下混合之后進(jìn)行)。
作為逐幀發(fā)送側(cè)鏈信息的另一種變通辦法,至少對(duì)高動(dòng)態(tài)信號(hào)每塊都更新側(cè)鏈信息。如上所述,每塊更新瞬變標(biāo)志和/或內(nèi)插標(biāo)志只導(dǎo)致很小的側(cè)鏈數(shù)據(jù)開(kāi)銷增量。為了在不顯著提高側(cè)鏈數(shù)據(jù)率的前提下達(dá)到其他側(cè)鏈信息的時(shí)間分辨率的這種提高,可以采用塊浮點(diǎn)差分編碼配置。例如,可在幀上按6塊一組收集連續(xù)變換塊。每個(gè)子帶信道的全部側(cè)鏈信息可以在第一塊中發(fā)送。在5個(gè)后續(xù)塊中,可以只發(fā)送差分值,每一差分值表示當(dāng)前塊的振幅和角度與上一塊的等同值之間的差。對(duì)于靜態(tài)信號(hào)(比如管樂(lè)定調(diào)音符),這將導(dǎo)致很低的數(shù)據(jù)率。對(duì)于較動(dòng)態(tài)的信號(hào),需要更大的差值范圍,但精度低。因此,對(duì)于每組的5個(gè)差分值,可以首先利用比如3個(gè)比特來(lái)發(fā)送指數(shù),然后,將差分值量化為比如2比特精度。這種配置將平均最壞情況的側(cè)鏈數(shù)據(jù)率降低約1倍。通過(guò)省略參考信道的側(cè)鏈數(shù)據(jù)(因?yàn)樗梢詮钠渌诺赖玫?(如上所述)和利用例如算術(shù)編碼可以進(jìn)一步降低該數(shù)據(jù)率。此外,還可以通過(guò)發(fā)送例如子帶角度或振幅的差來(lái)使用整個(gè)頻率上的差分編碼。
無(wú)論側(cè)鏈信息是逐幀發(fā)送還是更頻繁地發(fā)送,在幀中的所有塊上內(nèi)插側(cè)鏈值可能都是有用的。隨時(shí)間的線性內(nèi)插可以按如下所述的在整個(gè)頻率上的線性內(nèi)插的方式來(lái)使用。
本發(fā)明的方面的一種合適的實(shí)現(xiàn)方式使用了實(shí)現(xiàn)各個(gè)處理步驟且功能上與如下所述有關(guān)的處理步驟或設(shè)備。盡管下列編碼和解碼步驟各自都可以通過(guò)按下列步驟的次序操作的計(jì)算機(jī)軟件指令序列來(lái)執(zhí)行,然而,應(yīng)當(dāng)理解,考慮到從較早步驟得到了某些量,因此可以通過(guò)按其他方式排序的步驟得到等同或類似結(jié)果。例如,可以使用多線程計(jì)算機(jī)軟件指令序列,使得可以并行執(zhí)行某些順序的步驟?;蛘?,所述步驟可以實(shí)現(xiàn)成一些執(zhí)行所述功能的設(shè)備,各種設(shè)備具有下文所述的功能和功能相互關(guān)系。
編碼編碼器或編碼功能可以收集幀的數(shù)據(jù)特性然后得出側(cè)鏈信息,再將該幀的音頻信道下混合到單個(gè)單聲(單聲)音頻信道(按上述圖1中的例子的方式)或下混合到多個(gè)音頻信道(按下述圖6中的例子的方式)。這樣,首先將側(cè)鏈信息發(fā)送到解碼器,從而使解碼器一接收到單聲或多信道音頻信息就立即開(kāi)始解碼。編碼過(guò)程的步驟(“編碼步驟”)可以描述如下。關(guān)于編碼步驟,可以參照?qǐng)D4,圖4具有混合流程圖和功能框圖的性質(zhì)。從開(kāi)始到步驟419,圖4表示對(duì)一個(gè)信道的編碼步驟。步驟420和421應(yīng)用于所有多個(gè)信道,這些信道被合并以提供復(fù)合單聲信號(hào)輸出,或一起矩陣化以提供多個(gè)信道,如以下結(jié)合圖6的例子所述。
步驟401,檢測(cè)瞬變。
a.執(zhí)行輸入音頻信道中的PCM值的瞬變檢測(cè)。
b.如果在信道的幀的任一塊中有瞬變,那么設(shè)置1比特瞬變標(biāo)志“真”。
關(guān)于步驟401的解釋瞬變標(biāo)志構(gòu)成側(cè)鏈信息的一部分,而且還將用于如下所述的步驟411中。比解碼器中的塊速率更細(xì)的瞬變分辨率可以改善解碼器性能。盡管,如上所述,塊速率而不是幀速率的瞬變標(biāo)志可以適度提高比特率來(lái)構(gòu)成側(cè)鏈信息的一部分,然而,通過(guò)檢測(cè)解碼器所接收到的單聲復(fù)合信號(hào)中出現(xiàn)的瞬變,即使空間精度下降也可以在不提高側(cè)鏈比特率的情況下得到同樣的結(jié)果。
每幀每個(gè)信道都有一個(gè)瞬變標(biāo)志,由于它是在時(shí)域中得出的,因此它必需應(yīng)用于該信道內(nèi)的所有子帶。瞬變檢測(cè)可以按類似于AC-3編碼器中用于控制何時(shí)在長(zhǎng)與短音頻塊之間切換的決定的方式進(jìn)行,但其檢測(cè)靈敏度更高,而且任一幀當(dāng)其中塊的瞬變標(biāo)志為“真”時(shí)該幀的瞬變標(biāo)志為“真”(AC-3編碼器按塊檢測(cè)瞬變)。具體可以參見(jiàn)上述A/52A文獻(xiàn)中的第8.2.2節(jié)。通過(guò)將第8.2.2節(jié)中所述的公式加上一個(gè)靈敏度因子F,可以提高該節(jié)中所述的瞬變檢測(cè)的靈敏度。后面將通過(guò)加上靈敏度因子來(lái)陳述A/52A文獻(xiàn)中的第8.2.2節(jié)(后面所再現(xiàn)的第8.2.2節(jié)進(jìn)行了修改,以表明低通濾波器是級(jí)聯(lián)雙二次直接II型IIR濾波器而不是公開(kāi)的A/52A文獻(xiàn)中所述的“I型”;第8.2.2節(jié)在早期A/52A文獻(xiàn)中是合適的)。盡管它并不是關(guān)鍵性的,但已發(fā)現(xiàn)在本發(fā)明的方面的實(shí)際實(shí)施方式中靈敏度因子0.2是一個(gè)合適的值。
或者,可以采用美國(guó)專利5,394,473中所述的類似的瞬變檢測(cè)技術(shù)。該’473專利詳述了A/52A文獻(xiàn)的瞬變檢測(cè)器的一些方面。無(wú)論所述A/52A文獻(xiàn)還是所述’473專利在此全部包含作為參考。
作為另一種變通辦法,可以在頻域中而不是在時(shí)域中檢測(cè)瞬變(參見(jiàn)步驟408的解釋)。在這種情況下,步驟401可以省略而在如下所述的頻域中使用另一步驟。
步驟402,開(kāi)窗和DFT。
將PCM時(shí)間樣值的相互交疊的塊乘以時(shí)間窗口,然后通過(guò)用FFT所實(shí)現(xiàn)的DFT將它們轉(zhuǎn)換成復(fù)頻率值。
步驟403,將復(fù)值轉(zhuǎn)換成幅度和角度。
利用標(biāo)準(zhǔn)復(fù)處理,將每一頻域復(fù)變換bin值(a+jb)轉(zhuǎn)換成幅度和角度表示a.幅度=(a2+b2)的平方根b.角度=arctan(b/a)關(guān)于步驟403的解釋下列步驟中的某些步驟使用或可能使用(作為一種選擇)bin的能量,能量被定義為上述幅度的平方(即能量=(a2+b2))。
步驟404,計(jì)算子帶能量。
a.將每一子帶內(nèi)的bin能量值相加(整個(gè)頻率上求和),計(jì)算出每塊的子帶能量。
b.將幀中的所有塊中的能量平均或累積(整個(gè)時(shí)間上平均/累積),計(jì)算出每幀的子帶能量。
c.如果編碼器的耦合頻率低于約1000Hz,那么將子帶的幀-平均或幀-累積能量應(yīng)用于在低于該頻率而高于耦合頻率的所有子帶上工作的時(shí)間平滑器。
關(guān)于步驟404c的解釋通過(guò)時(shí)間平滑以便在低頻子帶中提供幀間平滑將會(huì)是有益的。為了避免人為產(chǎn)物造成的子帶邊界處bin值之間的不連續(xù)性,可以很好地應(yīng)用不斷下降的時(shí)間平滑從高于(含)耦合頻率的最低頻率子帶(其中平滑會(huì)具有顯著效果),直至更高的頻率子帶(其中時(shí)間平滑效果可測(cè)量但聽(tīng)不到,盡管近乎聽(tīng)得見(jiàn))。最低頻率范圍子帶(其中,如果子帶是臨界頻帶,那么子帶是單個(gè)bin)的合適時(shí)間常數(shù)可以介于比如50-100毫秒范圍。不斷下降的時(shí)間平滑可以一直延續(xù)到包括約1000Hz的子帶,其中時(shí)間常數(shù)可以是比如10毫秒。
盡管一階平滑器是合適的,但該平滑器可以是兩級(jí)平滑器,兩級(jí)平滑器具有可變時(shí)間常數(shù),它縮短了響應(yīng)瞬變的增高和衰落時(shí)間(這種兩級(jí)平滑器可是美國(guó)專利3,846,719和4,922,535中所述的模擬兩級(jí)平滑器的數(shù)字等效物,這些專利每一個(gè)在此全部包含作為參考)。換言之,穩(wěn)態(tài)時(shí)間常數(shù)可以根據(jù)頻率來(lái)定標(biāo),也可以隨瞬變而變??蛇x地,這種平滑過(guò)程還可以應(yīng)用于步驟412。
步驟405,計(jì)算bin幅度的和。
a.計(jì)算出每塊的每一子帶的bin幅度的和(步驟403)(整個(gè)頻率上求和)。
b.通過(guò)將幀中的所有塊的步驟405a的幅度平均或累積(整個(gè)時(shí)間上平均/累積),計(jì)算出每幀的每一子帶的bin幅度的和。這些和用于計(jì)算以下步驟410中的信道間角度一致性因子。
c.如果編碼器的耦合頻率低于約1000Hz,那么將子帶的幀-平均或幀-累積幅度應(yīng)用于在低于該頻率而高于耦合頻率的所有子帶上工作的時(shí)間平滑器。
關(guān)于步驟405c的解釋除了在步驟405c的情況下時(shí)間平滑過(guò)程還可實(shí)現(xiàn)成步驟410的一部分之外,其他參見(jiàn)關(guān)于步驟404c的解釋。
步驟406,計(jì)算信道間相對(duì)bin相角。
通過(guò)將步驟403的bin角度減去參考信道(比如第一信道)的相應(yīng)bin角度,計(jì)算出每塊的每一變換bin的信道間相對(duì)相角。正如本文中的其他角度加法或減法那樣,其結(jié)果被取為模(π,-π)弧度(通過(guò)加上或減去2π,直到結(jié)果在所要求的-π至+π范圍內(nèi))。
步驟407,計(jì)算信道間子帶相角針對(duì)每個(gè)信道,按如下方式計(jì)算出每一子帶的幀速率振幅加權(quán)平均的信道間相角a.對(duì)于每一bin,根據(jù)步驟403的幅度和步驟406的信道間相對(duì)bin相角構(gòu)建一個(gè)復(fù)數(shù)。
b.將每一子帶上的步驟407a的所構(gòu)建復(fù)數(shù)相加(整個(gè)頻率上求和)。
關(guān)于步驟407b的解釋例如,如果子帶有兩個(gè)bin,其中一個(gè)bin具有復(fù)值1+j1而另一個(gè)bin具有復(fù)值2+j2,那么它們的復(fù)數(shù)和為3+3j。
c.將每一幀的所有塊的步驟407b的每一子帶的每塊復(fù)數(shù)和平均或累積(整個(gè)時(shí)間上平均或累積)。
d.如果編碼器的耦合頻率低于約1000Hz,那么將子帶的幀-平均或幀-累積復(fù)值應(yīng)用于在低于該頻率而高于耦合頻率的所有子帶上工作的時(shí)間平滑器。
關(guān)于步驟407d的解釋除了在步驟407d的情況下時(shí)間平滑過(guò)程還可實(shí)現(xiàn)成步驟407e或410的一部分之外,其他參見(jiàn)關(guān)于步驟404c的解釋。
e.按照步驟403,計(jì)算出步驟407d的復(fù)數(shù)結(jié)果的幅度。
關(guān)于步驟407e的解釋這一幅度將用于以下步驟410a中。在步驟407b給出的簡(jiǎn)單例子中,3+3j的幅度為(9+9)的平方根=4.24。
f.按照步驟403,計(jì)算出復(fù)數(shù)結(jié)果的角度。
關(guān)于步驟407f的解釋在步驟407b給出的簡(jiǎn)單例子中,3+3j的角度為arctan(3/3)=45度=π/4弧度。這一子帶角度進(jìn)行與信號(hào)相關(guān)的時(shí)間平滑(參見(jiàn)步驟413)和量化(參見(jiàn)步驟414),以產(chǎn)生子帶角度控制參數(shù)側(cè)鏈信息,如下所述。
步驟408,計(jì)算bin頻譜穩(wěn)定性因子。
針對(duì)每一bin,按如下方式計(jì)算出0-1范圍內(nèi)的bin頻譜穩(wěn)定性因子
a.設(shè)xm=步驟403中計(jì)算出的當(dāng)前塊的bin幅度。
b.設(shè)ym=上一塊的相應(yīng)bin幅度。
c.如果xm>ym,那么bin動(dòng)態(tài)振幅因子=(ym/xm)2;d.否則,如果ym>xm,那么bin動(dòng)態(tài)振幅因子=(xm/ym)2,e.否則,如果ym=xm,那么bin頻譜穩(wěn)定性因子=1。
關(guān)于步驟408f的解釋“頻譜穩(wěn)定性”是頻譜分量(如頻譜系數(shù)或bin值)隨時(shí)間變化程度的度量。bin頻譜穩(wěn)定性因子=1表示在給定時(shí)間段上沒(méi)有變化。
頻譜穩(wěn)定性還可以被看作是有沒(méi)有瞬變的指示符。瞬變可能造成在一個(gè)或多個(gè)塊的時(shí)間段上頻譜(bin)振幅的突升和突降,這取決于該瞬變相對(duì)于塊及其邊界的位置。因此,bin頻譜穩(wěn)定性因子在少數(shù)幾個(gè)塊上從高值到低值的變化可以被認(rèn)為是具有較低值的一個(gè)或多個(gè)塊上出現(xiàn)瞬變的指示。出現(xiàn)瞬變的進(jìn)一步確認(rèn)(或使用bin頻譜穩(wěn)定性因子的變通辦法)是要觀察塊內(nèi)bin的相角(例如在步驟403的相角輸出)。由于瞬變很可能占據(jù)塊內(nèi)單個(gè)時(shí)間位置并在塊中具有時(shí)域能量,因此,瞬變的存在和位置可以用塊中bin之間的很均勻的相位延遲(即作為頻率的函數(shù)的相角的基本上線性斜升)來(lái)指示。進(jìn)一步確定(或變通辦法)還要觀察少數(shù)幾個(gè)塊上的bin振幅(例如在步驟403的幅度輸出),也就是說(shuō)直接查找頻譜級(jí)別的突升和突降。
可選地,步驟408還可以查看連續(xù)三個(gè)塊而不是一個(gè)塊。如果編碼器的耦合頻率低于約1000Hz,那么步驟408可以查看連續(xù)三個(gè)以上的塊。連續(xù)塊的個(gè)數(shù)可以考慮隨頻率的變化,這樣其個(gè)數(shù)隨子帶頻率范圍減小而逐漸增加。如果bin頻譜穩(wěn)定性因子是從一個(gè)以上的塊中得到的,那么正如剛剛所述,瞬變的檢測(cè)可以由只響應(yīng)檢測(cè)瞬變所用的塊的個(gè)數(shù)的單獨(dú)步驟來(lái)確定。
作為又一種變通辦法,可以使用bin能量而不是bin幅度。
作為還有一種變通辦法,步驟408可以采用如下在步驟409后面的解釋中所述的“事件判決”檢測(cè)技術(shù)。
步驟409,計(jì)算子帶頻譜穩(wěn)定性因子。
按如下方式,通過(guò)形成幀中的所有塊中的每一子帶內(nèi)的bin頻譜穩(wěn)定性因子的振幅加權(quán)平均值,來(lái)計(jì)算0-1范圍內(nèi)的幀速率子帶頻譜穩(wěn)定性因子a.對(duì)于每一bin,計(jì)算出步驟408的bin頻譜穩(wěn)定性因子與步驟403的bin幅度的乘積。
b.求出每一子帶內(nèi)的這些乘積的總和(整個(gè)頻率上求和)。
c.將幀中的所有塊中的步驟409b的總和平均或累積(整個(gè)時(shí)間上平均/累積)。
d.如果編碼器的耦合頻率低于約1000Hz,那么將子帶的幀-平均或幀-累積總和應(yīng)用于在低于該頻率而高于耦合頻率的所有子帶上工作的時(shí)間平滑器。
關(guān)于步驟409d的解釋除了在步驟409d的情況下沒(méi)有還可以實(shí)現(xiàn)時(shí)間平滑過(guò)程的合適后續(xù)步驟之外,其他參見(jiàn)關(guān)于步驟404c的解釋。
e.根據(jù)情況,將步驟409c或步驟409d的結(jié)果除以該子帶內(nèi)bin幅度(步驟403)的總和。
關(guān)于步驟409e的解釋步驟409a中的乘以幅度的乘法和步驟409e中除以幅度總和的除法提供了振幅加權(quán)。步驟408的輸出與絕對(duì)振幅無(wú)關(guān),如果不進(jìn)行振幅加權(quán),那么可使步驟409的輸出受到很小振幅的控制,這是所不期望的。
f.通過(guò)將范圍從{0.5...1}變換到{0...1}的方式對(duì)該結(jié)果進(jìn)行定標(biāo),以得到子帶頻譜穩(wěn)定性因子。這可以這樣來(lái)完成將結(jié)果乘以2再減1,并將小于0的結(jié)果限定為值0。
關(guān)于步驟409f的解釋步驟409f可以用于確保噪聲信道得到子帶頻譜穩(wěn)定性因子為0。
關(guān)于步驟408和409的解釋步驟408和409的目的在于測(cè)量頻譜穩(wěn)定性——信道的子帶中頻譜成分隨時(shí)間的變化。此外,還可以使用諸如國(guó)際公開(kāi)號(hào)WO02/097792 A1(指定美國(guó))中所述的“事件判決”檢測(cè)的方面來(lái)測(cè)量頻譜穩(wěn)定性,而不用剛剛結(jié)合步驟408和409所述的方法。2003年11月20日申請(qǐng)的美國(guó)專利申請(qǐng)系列號(hào)10/478,538是所公開(kāi)的PTC申請(qǐng)WO02/097792 A1的美國(guó)國(guó)家申請(qǐng)。無(wú)論所公開(kāi)的PTC申請(qǐng)還是美國(guó)申請(qǐng)?jiān)诖巳堪鳛閰⒖肌8鶕?jù)這些所參考的申請(qǐng),每一bin的復(fù)FFT系數(shù)的幅度都被計(jì)算和歸一化(例如,將最大值設(shè)為值1)。然后,減去連續(xù)塊中的相應(yīng)bin的幅度(以dB為單位)(忽略符號(hào)),求出bin之間的差值的總和,如果總和超過(guò)閾值,那么認(rèn)為該塊邊界是聽(tīng)覺(jué)事件邊界。此外,塊之間的振幅變化也可以與頻譜級(jí)別變化(通過(guò)查看所要求的歸一化量)一起加以考慮。
如果使用所參考的事件檢測(cè)申請(qǐng)的方面來(lái)測(cè)量頻譜穩(wěn)定性,那么可以不需要?dú)w一化,而最好是基于子帶來(lái)考慮頻譜級(jí)別的變化(如果省略歸一化則可以不測(cè)量振幅的變化)。取代如上所述的執(zhí)行步驟408,根據(jù)所述申請(qǐng)的教導(dǎo),可以求出每一子帶中相應(yīng)bin之間的頻譜級(jí)別的分貝差的總和。然后,可以對(duì)表示塊之間的頻譜變化度的這些總和中的每一個(gè)進(jìn)行定標(biāo),使得其結(jié)果為0-1范圍內(nèi)的頻譜穩(wěn)定性因子,其中,值1表示最高穩(wěn)定性(給定bin的塊之間的變化為0dB)。表示最低穩(wěn)定性的值0可以指配給大于等于適當(dāng)量(比如12dB)的分貝變化。步驟409使用這些結(jié)果bin頻譜穩(wěn)定性因子可以按上述步驟409使用步驟408的結(jié)果同樣的方式進(jìn)行。當(dāng)步驟409接收到利用剛剛所述的另一種事件判決檢測(cè)技術(shù)所得到的bin頻譜穩(wěn)定性因子時(shí),步驟409的子帶頻譜穩(wěn)定性因子也可以被用作瞬變的指示符。例如,如果步驟409產(chǎn)生的值的范圍為0-1,那么,當(dāng)子帶頻譜穩(wěn)定性因子是一個(gè)小值(比如0.1,表示頻譜相當(dāng)不穩(wěn)定)時(shí),可以認(rèn)為有瞬變。
應(yīng)當(dāng)理解,步驟408所產(chǎn)生的和剛剛所述步驟408的變通辦法所產(chǎn)生的bin頻譜穩(wěn)定性因子在某種程度上都固有地提供了可變閾值,這是因?yàn)樗鼈兓趬K之間的相對(duì)變化??蛇x地,通過(guò)例如根據(jù)幀中的多個(gè)瞬變或較小瞬變當(dāng)中的大瞬變(比如突如其來(lái)的中上到低下的鼓掌歡呼的強(qiáng)烈瞬變)專門(mén)提供閾值的變動(dòng),可用來(lái)補(bǔ)充這種固有特性。在后一種例子中,事件檢測(cè)器最初可以將每一拍手聲識(shí)別為事件,但強(qiáng)烈瞬變(比如擊鼓聲)可能使得要求改變閾值,這樣只有擊鼓聲被識(shí)別為事件。
此外,還可以利用隨機(jī)度量(例如,如美國(guó)專利Re 36,714中所述,該專利在此全部包含作為參考),而不用頻譜穩(wěn)定性隨時(shí)間的測(cè)量。
步驟410,計(jì)算信道間角度一致性因子。
針對(duì)具有一個(gè)以上bin的每一子帶,按如下方式計(jì)算出幀速率信道間角度一致性因子a.將步驟407的復(fù)數(shù)總和的幅度除以步驟405的幅度的總和。得到的“原始”角度一致性因子是一個(gè)0-1范圍內(nèi)的數(shù)。
b.計(jì)算修正因子設(shè)n=整個(gè)子帶上對(duì)上述步驟中的兩個(gè)量起作用的值的個(gè)數(shù)(換言之,“n”是子帶中的bin的個(gè)數(shù))。如果n小于2,則設(shè)角度一致性因子為1,并進(jìn)至步驟411和413。
c.設(shè)r=所期望的隨機(jī)變動(dòng)=1/n。將步驟410b中的結(jié)果減去r。
d.將步驟410c的結(jié)果通過(guò)除以(1-r)進(jìn)行歸一化。結(jié)果的最大值為1。必要時(shí)將最小值限定為0。
關(guān)于步驟410的解釋信道間角度一致性是在一幀時(shí)間段上子帶內(nèi)的信道間相角相似程度的度量。如果該子帶的所有bin信道間角度都相同,那么信道間角度一致性因子為1.0;反之,如果信道角度是隨機(jī)發(fā)散的,那么該值接近于0。
子帶角度一致性因子表示信道之間是否有幻覺(jué)聲像。如果一致性低,那么,要求將信道解相關(guān)。高值表示融合聲像。聲像融合與其他信號(hào)特性無(wú)關(guān)。
應(yīng)當(dāng)注意,子帶角度一致性因子盡管是角度參數(shù),但它間接地根據(jù)兩個(gè)幅度來(lái)確定。如果信道間角度完全相同,那么,將這些復(fù)值相加然后取其幅度可得到與先取所有幅度再將它們相加得到的結(jié)果相同的結(jié)果,因此商為1。如果信道間角度是發(fā)散的,那么將這些復(fù)值相加(比如將具有不同角度的矢量相加)將導(dǎo)致至少部分抵消,因此總和的幅度小于幅度的總和,因而商小于1。
下列是具有兩個(gè)bin的子帶的一個(gè)簡(jiǎn)單例子假定,兩個(gè)復(fù)bin值為(3+j4)和(6+j8)。(每種情況角度相同角度=arctan(虛部/實(shí)部),因此,角度1=arctan(4/3),而角度2=arctan(8/6)=arctan(4/3))。將復(fù)值相加,總和為(9+12j),其幅度為(81+144)的平方根=15。
幅度的總和為(3+j4)的幅度+(6+j8)的幅度=5+10=15。因此商為15/15=1=一致性(在1/n歸一化之前,而在歸一化之后也為1)(歸一化一致性=(1-0.5)/(1-0.5)=1.0)。
如果上述bin之一具有不同的角度,假定第二個(gè)bin是具有相同幅度10的復(fù)值(6-8j)。此時(shí)復(fù)數(shù)總和為(9-j4),其幅度為(81+16)的平方根=9.85,因此,商為9.85/15=0.66=一致性(歸一化之前)。進(jìn)行歸一化,減去1/n=1/2,再除以(1-1/n)(歸一化一致性=(0.66-0.5)/(1-0.5)=0.32)。
盡管已看出上述用于確定子帶角度一致性因子的技術(shù)是有用的,但它的使用并不是關(guān)鍵性的。其他合適的技術(shù)也可以采用。例如,我們可以利用標(biāo)準(zhǔn)公式計(jì)算角度的標(biāo)準(zhǔn)偏差。無(wú)論如何,要求利用振幅加權(quán)以便最小化小信號(hào)對(duì)所計(jì)算的一致性值的影響。
此外,子帶角度一致性因子的另一種導(dǎo)出方法可使用能量(幅度的平方)而不是幅度。這可以通過(guò)先將來(lái)自步驟403的幅度進(jìn)行平方再將其應(yīng)用于步驟405和407來(lái)實(shí)現(xiàn)。
步驟411,得出子帶解相關(guān)比例因子。
按如下方式得出每一子帶的幀速率解相關(guān)比例因子a.設(shè)x=步驟409f的幀速率頻譜穩(wěn)定性因子。
b.設(shè)y=步驟410e的幀速率角度一致性因子。
c.那么,幀速率子帶解相關(guān)比例因子=(1-x)*(1-y),數(shù)值在0和1之間。
關(guān)于步驟411的解釋子帶解相關(guān)比例因子是信道的子帶中信號(hào)特性隨時(shí)間的頻譜穩(wěn)定性(頻譜穩(wěn)定性因子)和信道的同一子帶中bin角度相對(duì)于參考信道的相應(yīng)bin的一致性(信道間角度一致性因子)的函數(shù)。僅當(dāng)頻譜穩(wěn)定性因子和信道間角度一致性因子都低時(shí),子帶解相關(guān)比例因子才為高。
如上所述,解相關(guān)比例因子控制解碼器中所提供的包絡(luò)解相關(guān)度。表現(xiàn)出隨時(shí)間的頻譜穩(wěn)定性的信號(hào)最好不應(yīng)通過(guò)改變其包絡(luò)來(lái)解相關(guān)(不管其他信道上發(fā)生什么事),因?yàn)檫@種解相關(guān)會(huì)導(dǎo)致聽(tīng)得見(jiàn)的人為產(chǎn)物,即信號(hào)的搖擺或顫音。
步驟412,得出子帶振幅比例因子。
根據(jù)步驟404的子帶幀能量值和根據(jù)其他所有信道的子帶幀能量值(可以由與步驟404相應(yīng)的步驟或其等同步驟所得到),按如下方式得出幀速率子帶振幅比例因子a.對(duì)于每個(gè)子帶,求出所有輸入信道上每幀能量值的總和。
b.將每幀的每一子帶能量值(來(lái)自步驟404)除以所有輸入信道上的能量值的總和(來(lái)自步驟412a),產(chǎn)生一些0-1范圍內(nèi)的值。
c.將每一比率轉(zhuǎn)換成范圍為-∞到0的dB值。
d.除以比例因子粒度(它可以設(shè)為例如1.5dB),改變符號(hào)得到一個(gè)非負(fù)值,限定一個(gè)最大值(它可以是例如31)(即5比特精度),并化整為最接近的整數(shù)以產(chǎn)生量化值。這些值便是幀速率子帶振幅比例因子并作為側(cè)鏈信息的一部分進(jìn)行傳送。
e.如果編碼器的耦合頻率低于約1000Hz,那么將子帶的幀-平均或幀-累積幅度應(yīng)用于在低于該頻率而高于耦合頻率的所有子帶上工作的時(shí)間平滑器。
關(guān)于步驟412e的解釋除了在步驟412e的情況下沒(méi)有還可以實(shí)現(xiàn)時(shí)間平滑過(guò)程的合適后續(xù)步驟之外,其他參見(jiàn)關(guān)于步驟404c的解釋。
步驟412的解釋盡管看出這里所表明的粒度(分辨率)和量化精度是有用的,但它們并不是關(guān)鍵性的,其他值也能提供可接受的結(jié)果。
可選地,我們可以使用幅度而不用能量來(lái)產(chǎn)生子帶振幅比例因子。如果使用幅度,那么可以使用dB=20*log(振幅比率),否則如果使用能量,那么可以通過(guò)dB=10*log(能量比率)轉(zhuǎn)換成dB,其中振幅比率=(能量比率)的平方根。
步驟413,對(duì)信道間子帶相角進(jìn)行與信號(hào)相關(guān)的時(shí)間平滑。
將與信號(hào)相關(guān)的時(shí)間平滑過(guò)程應(yīng)用于步驟407f中所得出的子帶幀速率信道間角度a.設(shè)v=步驟409d的子帶頻譜穩(wěn)定性因子。
b.設(shè)w=步驟410e的相應(yīng)角度一致性因子。
c.設(shè)x=(1-v)*w。其值在0和1之間,如果頻譜穩(wěn)定性因子低而角度一致性因子高,那么其值為高。
d.設(shè)y=1-x。如果頻譜穩(wěn)定性因子高而角度一致性因子低,那么y為高。
e.設(shè)z=y(tǒng)exp,其中exp是一個(gè)常數(shù),可以是=0.1。z也在0-1范圍內(nèi),但相應(yīng)于慢時(shí)間常數(shù),偏向于1。
f.如果設(shè)置信道的瞬變標(biāo)志(步驟401),那么,相應(yīng)于有瞬變時(shí)的快時(shí)間常數(shù),設(shè)z=0。
g.計(jì)算z的最大允許值lim,lim=1-(0.1*w)。其范圍從0.9(如果角度一致性因子高)至1.0(如果角度一致性因子低(0))。
h.必要時(shí)用lim來(lái)限定z如果(z>lim),則z=lim。
i.利用z的值和為每一子帶所保持的角度的運(yùn)行平滑值來(lái)平滑步驟407f的子帶角度。如果A=步驟407f的角度和RSA=到上一塊為止的運(yùn)行平滑角度值,而NewRSA是運(yùn)行平滑角度值的新值,那么,NewRSA=RSA*z+A*(1-z)。RSA的值隨后在處理下一塊之前被設(shè)為等于NewRSA。NewRSA是步驟413的與信號(hào)相關(guān)的時(shí)間平滑角度輸出。
關(guān)于步驟413的解釋當(dāng)測(cè)量瞬變時(shí),子帶角度更新時(shí)間常數(shù)被設(shè)為0,以便允許快速子帶角度變化。這合乎要求,因?yàn)樗试S正常角度更新機(jī)制利用相對(duì)較慢時(shí)間常數(shù)的范圍,從而可以最大限度地減少靜態(tài)或準(zhǔn)靜態(tài)信號(hào)期間的聲像漂動(dòng),而快變化信號(hào)利用快時(shí)間常數(shù)來(lái)處理。
盡管還可以使用其他平滑技術(shù)和參數(shù),但已看出執(zhí)行步驟413的一階平滑器是合適的。如果實(shí)現(xiàn)成一階平滑器/低通濾波器,那么,變量“z”相當(dāng)于前饋系數(shù)(有時(shí)表示為“ffo”),而變量“(1-z)”相當(dāng)于反饋系數(shù)(有時(shí)表示為“fbl”)。
步驟414,將平滑的信道間子帶相角量化。
將步驟413i中所得到的時(shí)間平滑的子帶信道間角度量化以得到子帶角度控制參數(shù)a.如果值小于0,那么加上2π,這樣所要量化的所有角度值都在0-2π范圍內(nèi)。
b.除以角度粒度(分辨率)(該粒度可以是2π/64弧度),并化整為一個(gè)整數(shù)。最大值可以設(shè)為63,相應(yīng)于6比特量化。
關(guān)于步驟414的解釋將量化值處理成非負(fù)整數(shù),因此量化角度的簡(jiǎn)便方法是將量化值變換為非負(fù)浮點(diǎn)數(shù)(如果小于0,則加上2π,使范圍為0-(小于)2π),用粒度(分辨率)進(jìn)行定標(biāo),并化整為整數(shù)。類似地,可按如下方式完成將整數(shù)去量化過(guò)程(否則可以用簡(jiǎn)單的查詢表來(lái)實(shí)現(xiàn))用角度粒度因子的倒數(shù)進(jìn)行定標(biāo),將非負(fù)整數(shù)轉(zhuǎn)換成非負(fù)浮點(diǎn)角度(范圍也為0-2π),然后將其重新歸一化為范圍±π以便進(jìn)一步使用。盡管看出子帶角度控制參數(shù)的這種量化是有效的,但這種量化并不是關(guān)鍵性的,其他量化也可以提供可接受的結(jié)果。
步驟415,將子帶解相關(guān)比例因子量化。
通過(guò)乘以7.49并化整為最接近的整數(shù),可將步驟411所產(chǎn)生的子帶解相關(guān)比例因子量化成例如8級(jí)(3比特)。這些量化值是側(cè)鏈信息的一部分。
關(guān)于步驟415的解釋盡管看出子帶解相關(guān)比例因子的這種量化是有用的,使用舉例值的量化并不是關(guān)鍵性的,其他量化也可以提供可接受的結(jié)果。
步驟416,將子帶角度控制參數(shù)去量化。
將子帶角度控制參數(shù)(參見(jiàn)步驟414)去量化,以便在下混合之前使用。
關(guān)于步驟416的解釋編碼器中使用量化值有助于保持編碼器與解碼器之間的同步。
步驟417,在所有塊上分配幀速率去量化子帶角度控制參數(shù)。
在準(zhǔn)備下混合時(shí),在整個(gè)時(shí)間上將每幀一次的步驟416的去量化子帶角度控制參數(shù)分配給幀內(nèi)每一塊的子帶。
關(guān)于步驟417的解釋相同的幀值可以指配給幀中的每一塊??蛇x地,在幀的所有塊上內(nèi)插子帶角度控制參數(shù)值可能有用。隨時(shí)間的線性內(nèi)插可以按如下所述的在整個(gè)頻率上的線性內(nèi)插的方式來(lái)使用。
步驟418,將塊子帶角度控制參數(shù)內(nèi)插到bin。
最好使用如下所述的線性內(nèi)插,在整個(gè)頻率上將每一信道的步驟417的塊子帶角度控制參數(shù)分配給bin。
關(guān)于步驟418的解釋如果使用整個(gè)頻率上的線性內(nèi)插,那么步驟418將最大限度地減小整個(gè)子帶邊界處bin之間的相角變化,從而最大限度地減小混疊人為產(chǎn)物。例如,如下所述,在步驟422的描述之后,可以啟動(dòng)這種線性內(nèi)插。子帶角度相互獨(dú)立地進(jìn)行計(jì)算,每一子帶角度表示整個(gè)子帶上的平均值。因此,從一個(gè)子帶到下一個(gè)子帶可能會(huì)有大的變化。如果一個(gè)子帶的凈角度值應(yīng)用于該子帶中的所有bin(“矩形”子帶分布),那么,兩個(gè)bin之間會(huì)出現(xiàn)從一個(gè)子帶到鄰近子帶的總相位變化。如果其中有強(qiáng)信號(hào)分量,那么可能會(huì)有劇烈的可能聽(tīng)得見(jiàn)的混疊。例如每一子帶的中心點(diǎn)之間的線性內(nèi)插擴(kuò)散了子帶中所有bin上的相角變化,從而最大限度地減小了任意一對(duì)bin之間的變化,這樣,例如在子帶的低端的角度與在低于它的子帶的高端的角度緊密配合,同時(shí)保持總平均值與所給的計(jì)算子帶角度相同。換言之,取代矩形子帶分布,可以形成梯形的子帶角度分布。
例如,假定最低耦合子帶具有一個(gè)bin和20度的子帶角度,那么下一子帶有三個(gè)bin和40度的子帶角度,而第三個(gè)子帶有五個(gè)bin和100度的子帶角度。無(wú)內(nèi)插情況下,假定第一個(gè)bin(一個(gè)子帶)被偏移20度的角度,那么接下來(lái)三個(gè)bin(另一個(gè)子帶)被偏移40度的角度,而再接下來(lái)五個(gè)bin(又一個(gè)子帶)被偏移100度的角度。該例子中,從bin4至bin5有60度的最大變化。有線性內(nèi)插時(shí),第一個(gè)bin仍被偏移20度的角度,接下來(lái)三個(gè)bin被偏移約30、40和50度;而再接下來(lái)五個(gè)bin被偏移約67、83、100、117和133度。平均子帶角度偏移相同,但最大bin-bin變化被降至17度。
可選擇地,子帶之間的振幅變化連同本步驟以及這里所述的其他步驟(比如步驟417)也可以按類似的內(nèi)插方式進(jìn)行處理。不過(guò),也可能沒(méi)必要這樣做,因?yàn)閺囊粋€(gè)子帶到下一個(gè)子帶其振幅往往有更自然的連續(xù)性。
步驟419,對(duì)信道的bin變換值應(yīng)用相角轉(zhuǎn)動(dòng)按下列方式對(duì)每一bin變換值應(yīng)用相角轉(zhuǎn)動(dòng)a.設(shè)x=步驟418中所計(jì)算的這一bin的bin角度。
b.設(shè)y=-x;c.計(jì)算z,即角度為y的單位幅度復(fù)相位轉(zhuǎn)動(dòng)比例因子,z=cos(y)+jsin(y)。
d.將bin值(a+jb)乘以z。
關(guān)于步驟419的解釋?xiě)?yīng)用于編碼器的相角轉(zhuǎn)動(dòng)是從子帶角度控制參數(shù)中得到的角度的負(fù)值。
如這里所述,在下混合(步驟420)之前在編碼器或編碼過(guò)程中的相角調(diào)整具有如下幾個(gè)優(yōu)點(diǎn)(1)最大限度地減小了被合并成單聲復(fù)合信號(hào)或矩陣化為多個(gè)信道的那些信道的抵消,(2)最大限度地減小了對(duì)能量歸一化(步驟421)的依賴,和(3)對(duì)解碼器反向角轉(zhuǎn)動(dòng)進(jìn)行了預(yù)補(bǔ)償,從而減小了混疊。
通過(guò)將每一子帶中的每一變換bin值的角度減去該子帶的相位修正值,在編碼器中可以應(yīng)用相位修正因子。這等價(jià)于將每一復(fù)bin值乘以一個(gè)幅度為1.0而角度等于負(fù)相位修正因子的復(fù)數(shù)。注意,幅度為1而角度為A的復(fù)數(shù)等于cos(A)+jsin(A)。利用A=子帶的負(fù)相位修正,為每一信道的每一子帶都計(jì)算一次這一后者量,然后乘以每一bin復(fù)信號(hào)值來(lái)獲得相移的bin值。
相移是循環(huán)的,從而將導(dǎo)致循環(huán)回旋(如上所述)。盡管循環(huán)回旋可能對(duì)某些連續(xù)信號(hào)是良性的,然而,如果不同的相角用于不同的子帶,那么它可能產(chǎn)生某些連續(xù)復(fù)信號(hào)(比如管樂(lè)定調(diào))的寄生頻譜分量或者可能造成瞬變的模糊。因此,可以采用能避免循環(huán)回旋的合適技術(shù),或者可以使用瞬變標(biāo)志,使得,例如當(dāng)瞬變標(biāo)志為“真”時(shí),可以不考慮角度計(jì)算結(jié)果,而且信道中的所有子帶都可以使用相位修正因子(比如0或隨機(jī)值)。
步驟420,下混合。
通過(guò)將所有信道上的相應(yīng)復(fù)變換bin相加產(chǎn)生單聲復(fù)合信道的方式下混合到單聲,或者通過(guò)形成輸入信道的矩陣的方式下混合到多個(gè)信道(例如按下述圖6中的例子的方式)。
關(guān)于步驟420的解釋在編碼器中,一旦所有信道的變換bin被相移,就逐個(gè)bin地合并信道,以形成單聲復(fù)合音頻信號(hào)?;蛘?,將信道應(yīng)用于無(wú)源或有源矩陣,這些矩陣可為一個(gè)信道提供簡(jiǎn)單合并(如圖1中的N:1編碼方式那樣),或?yàn)槎鄠€(gè)信道提供簡(jiǎn)單合并。矩陣系數(shù)可以是實(shí)數(shù)也可以是復(fù)數(shù)(實(shí)部和虛部)。
步驟421,歸一化。
為了避免孤立bin的抵消和同相信號(hào)的過(guò)分加強(qiáng),按下列方式將單聲復(fù)合信道的每一bin的振幅歸一化,從而實(shí)際上具有與起作用能量的總和相同的能量a.設(shè)x=所有信道上bin能量的總和(步驟403中計(jì)算出的bin幅度的平方)。
b.設(shè)y=按照步驟403計(jì)算出的單聲復(fù)合信道的相應(yīng)bin的能量。
c.設(shè)z=比例因子=(x/y)的平方根。如果x=0,那么y=0,z設(shè)為1。
d.限定z的最大值(比如100)。如果z最初大于100(意味著下混合的強(qiáng)抵消),那么將一個(gè)任意值(比如0.01*(x)的平方根)與單聲復(fù)合bin的實(shí)部和虛部相加,這將確保它足夠大以便按下一步驟進(jìn)行歸一化。
e.將該復(fù)數(shù)單聲復(fù)合bin值乘以z。
關(guān)于步驟421的解釋盡管一般要求使用相同的相位因子來(lái)編碼和解碼,然而,即使是子帶相位修正值的最佳選擇也可能造成子帶內(nèi)的一個(gè)或多個(gè)聽(tīng)得見(jiàn)的頻譜分量在編碼下混合過(guò)程中抵消,因?yàn)椴襟E419的相移是基于子帶而不是基于bin實(shí)現(xiàn)的。在這種情況下,可能使用編碼器中孤立bin的不同相位因子,如果檢測(cè)出這些bin的總能量比該頻率上的單獨(dú)信道bin的能量總和小得多的話。通常未必將這種孤立修正因子應(yīng)用于解碼器,因?yàn)楣铝in通常對(duì)總聲像質(zhì)量影響很小。如果使用多個(gè)信道而不是單聲信道,那么可以應(yīng)用類似的歸一化。
步驟422,組裝和打包到比特流。
每一信道的振幅比例因子、角度控制參數(shù)、解相關(guān)比例因子和瞬變標(biāo)志側(cè)鏈信息與公共單聲復(fù)合音頻或矩陣化多個(gè)信道一起根據(jù)需要被復(fù)用,并打包到一個(gè)或多個(gè)適用于存儲(chǔ)、傳送或者存儲(chǔ)和傳送媒介或媒體的比特流中。
關(guān)于步驟422的解釋在打包之前,單聲復(fù)合音頻或多信道音頻可以輸入到數(shù)據(jù)率下降編碼過(guò)程或設(shè)備(比如感覺(jué)編碼器)或者輸入到感覺(jué)編碼器和熵編碼器(比如算術(shù)或霍夫曼編碼器)(有時(shí)也稱之為“無(wú)損”編碼器)。此外,如上所述,只對(duì)于高于某一頻率(“耦合”頻率)的音頻,才可以從多個(gè)輸入信道中得到單聲復(fù)合音頻(或多信道音頻)和相關(guān)側(cè)鏈信息。在這種情況下,多個(gè)輸入信道中的每一個(gè)中的低于耦合頻率的音頻可以作為離散信道進(jìn)行存儲(chǔ)、傳送或者存儲(chǔ)和傳送,或者可以按與這里所述不同的某種方式進(jìn)行合并或處理。離散的或反過(guò)來(lái)合并的信道也可以輸入到數(shù)據(jù)下降編碼過(guò)程或設(shè)備(比如感覺(jué)編碼器,或者感覺(jué)編碼器和熵編碼器)。打包之前,單聲復(fù)合音頻(或多信道音頻)和離散多信道音頻都可以輸入到綜合感覺(jué)編碼或者感覺(jué)和熵編碼過(guò)程或設(shè)備。
可選內(nèi)插標(biāo)志(圖4中未示出)
在編碼器中(步驟418)和/或在解碼器中(下面的步驟505),可以啟動(dòng)子帶角度控制參數(shù)所提供的基本相角偏移在整個(gè)頻率上的內(nèi)插。在解碼器中,可用可選內(nèi)插標(biāo)志側(cè)鏈參數(shù)來(lái)啟動(dòng)內(nèi)插。在編碼器中,既可以使用內(nèi)插標(biāo)志又可以使用類似于內(nèi)插標(biāo)志的啟動(dòng)標(biāo)志。注意,由于編碼器可以使用bin級(jí)的數(shù)據(jù),因此它可以采用與解碼器不同的內(nèi)插值,即將子帶角度控制參數(shù)內(nèi)插到側(cè)鏈信息中。
如果例如下列兩個(gè)條件中的任一條件成立,那么可以在編碼器或解碼器中啟動(dòng)在整個(gè)頻率上使用這種內(nèi)插條件1如果強(qiáng)度大的孤立譜峰位于兩個(gè)其相位轉(zhuǎn)動(dòng)角度配置明顯不同的子帶的邊界或其附近。
原因無(wú)內(nèi)插情況下,邊界處的大相位變化可能在孤立頻譜分量中引起顫音。通過(guò)利用內(nèi)插擴(kuò)散頻帶內(nèi)所有bin值的帶間相位變化,可以減小子帶邊界處的變化量。滿足這一條件的譜峰強(qiáng)度、邊界接近程度和子帶間相位轉(zhuǎn)動(dòng)的差的閾值可以根據(jù)經(jīng)驗(yàn)來(lái)調(diào)整。
條件2如果取決于有無(wú)瞬變,信道間相角(無(wú)瞬變)或信道內(nèi)的絕對(duì)相角(有瞬變)都能很好地適應(yīng)線性級(jí)數(shù)。
原因利用內(nèi)插重建數(shù)據(jù)往往可以很好地適應(yīng)原始數(shù)據(jù)。注意,線性級(jí)數(shù)的斜度未必在所有頻率上都不變而只在每一子帶內(nèi)不變,這是因?yàn)榻嵌葦?shù)據(jù)仍將按子帶傳送到解碼器;并形成到內(nèi)插步驟418的輸入。為滿足這一條件,該數(shù)據(jù)所要很好地適應(yīng)的度數(shù)也可以根據(jù)經(jīng)驗(yàn)來(lái)調(diào)整。
其他條件(比如根據(jù)經(jīng)驗(yàn)確定的那些條件)也可能得益于整個(gè)速率上的內(nèi)插。剛剛提到的這兩個(gè)條件的存在性可以判斷如下條件1如果強(qiáng)度大的孤立譜峰位于兩個(gè)其相位轉(zhuǎn)動(dòng)角度配置明顯不同的子帶的邊界或其附近對(duì)于解碼器所要使用的內(nèi)插標(biāo)志,可用子帶角度控制參數(shù)(步驟414的輸出)來(lái)確定子帶間的轉(zhuǎn)動(dòng)角度;而對(duì)于編碼器內(nèi)步驟418的啟動(dòng),可用量化前步驟413的輸出來(lái)確定子帶間的轉(zhuǎn)動(dòng)角度。
無(wú)論對(duì)于內(nèi)插標(biāo)志還是對(duì)于編碼器內(nèi)的啟動(dòng),都可以用步驟403的幅度輸出即當(dāng)前DFT幅度來(lái)找出子帶邊界處的孤立峰值。
條件2如果取決于有無(wú)瞬變,信道間相角(無(wú)瞬變)或信道內(nèi)的絕對(duì)相角(有瞬變)都能很好地適應(yīng)線性級(jí)數(shù)如果瞬變標(biāo)志不是“真”(無(wú)瞬變),那么利用步驟406的信道間相對(duì)bin相角來(lái)適應(yīng)線性級(jí)數(shù)確定,和如果瞬變標(biāo)志為“真”(有瞬變),那么利用步驟403的信道的絕對(duì)相角。
解碼解碼過(guò)程的步驟(“解碼步驟”)如下所述。關(guān)于解碼步驟,可以參見(jiàn)圖5,圖5具有混合流程圖和功能框圖的性質(zhì)。為簡(jiǎn)便起見(jiàn),該圖示出了一個(gè)信道的側(cè)鏈信息分量的得出過(guò)程,應(yīng)當(dāng)理解,必須得出每個(gè)信道的側(cè)鏈信息分量,除非該信道是這些分量的參考信道,正如其他地方所述。
步驟501,將側(cè)鏈信息拆分和解碼。
根據(jù)需要,將每一信道(圖5中所示的一個(gè)信道)的每一幀的側(cè)鏈數(shù)據(jù)分量(振幅比例因子、角度控制參數(shù)、解相關(guān)比例因子和瞬變標(biāo)志)拆分和解碼(包括去量化)??梢岳貌閷け韺⒄穹壤蜃?、角度控制參數(shù)和解相關(guān)比例因子解碼。
關(guān)于步驟501的解釋如上所述,如果使用參考信道,那么參考信道的側(cè)鏈數(shù)據(jù)可以不含角度控制參數(shù)、解相關(guān)比例因子和瞬變標(biāo)志。
步驟502,將單聲復(fù)合或多信道音頻信號(hào)拆分和解碼。
根據(jù)需要,將單聲復(fù)合或多信道音頻信號(hào)信息拆分和解碼,以提供單聲復(fù)合或多信道音頻信號(hào)的每一變換bin的DFT系數(shù)。
關(guān)于步驟502的解釋步驟501和步驟502可以認(rèn)為是信號(hào)拆分和解碼步驟的一部分。步驟502可以包括無(wú)源或有源矩陣。
步驟503,在所有塊上分配角度參數(shù)值。
從去量化的幀子帶角度控制參數(shù)值中得到塊子帶角度控制參數(shù)值。
關(guān)于步驟503的解釋步驟503可以通過(guò)將相同的參數(shù)值分配給幀中的每一塊來(lái)實(shí)現(xiàn)。
步驟504,在所有塊上分配子帶解相關(guān)比例因子。
從去量化的幀子帶解相關(guān)比例因子值中得到塊子帶解相關(guān)比例因子值。
關(guān)于步驟504的解釋步驟504可以通過(guò)將相同的比例因子值分配給幀中的每一塊來(lái)實(shí)現(xiàn)。
步驟505,在整個(gè)頻率上進(jìn)行線性內(nèi)插。
可選擇地,根據(jù)以上結(jié)合編碼器步驟418所述的在整個(gè)頻率上進(jìn)行線性內(nèi)插,從解碼器步驟503的塊子帶角度中得出bin角度。在內(nèi)插標(biāo)志被使用且為“真”時(shí),可以啟動(dòng)步驟505中的線性內(nèi)插。
步驟506,加上隨機(jī)相角偏移(技術(shù)3)。
根據(jù)如上所述的技術(shù)3,當(dāng)瞬變標(biāo)志指示瞬變時(shí),將步驟503所提供的塊子帶角度控制參數(shù)(在步驟505中可能已在整個(gè)頻率上線性內(nèi)插)加上解相關(guān)比例因子所定標(biāo)的隨機(jī)偏移值(如該步驟中所述,定標(biāo)可以是間接的)a.設(shè)y=塊子帶解相關(guān)比例因子。
b.設(shè)z=y(tǒng)exp,其中exp是一個(gè)常數(shù),比如=5。z也在0-1范圍內(nèi),但偏向于1,反映了偏向于低級(jí)隨機(jī)變動(dòng),除非解相關(guān)比例因子值高。
c.設(shè)x=+1.0和1.0之間的隨機(jī)數(shù),可分別為每個(gè)塊的每一子帶進(jìn)行選擇。
d.于是,被加到塊子帶角度控制參數(shù)中(以便根據(jù)技術(shù)3加上一個(gè)隨機(jī)角度偏移值)的值為x*pi*z。
關(guān)于步驟506的解釋正如普通技術(shù)人員所知,解相關(guān)比例因子用于定標(biāo)的“隨機(jī)”角度(或“隨機(jī)”振幅,如果還對(duì)振幅進(jìn)行定標(biāo)的話)不僅可以包括偽隨機(jī)和真隨機(jī)變動(dòng),而且可以包括確定性產(chǎn)生的變動(dòng)(當(dāng)被應(yīng)用于相角或者應(yīng)用于相角和振幅時(shí),具有減小信道之間的互相關(guān)的作用)。例如,可以使用具有不同種子值的偽隨機(jī)數(shù)發(fā)生器?;蛘撸梢岳糜布S機(jī)數(shù)發(fā)生器來(lái)產(chǎn)生真隨機(jī)數(shù)。由于僅1度左右的隨機(jī)角度分辨率就足夠,因此,可以使用具有兩個(gè)或三個(gè)小數(shù)位的隨機(jī)數(shù)(比如0.84或0.844)的表。最好,隨機(jī)值(在-1.0和1.0之間,參見(jiàn)以上步驟505c)在每個(gè)信道上其統(tǒng)計(jì)是均勻分布的。
盡管已看出步驟506的非線性間接定標(biāo)是有用的,但這種定標(biāo)并不是關(guān)鍵性的,其他合適的定標(biāo)也可以采用,尤其可以使用其他指數(shù)值來(lái)得到類似的結(jié)果。
當(dāng)子帶解相關(guān)比例因子值為1時(shí),加上隨機(jī)角度的整個(gè)范圍-π至+π(在這種情況下,可使步驟503所產(chǎn)生的塊子帶角度控制參數(shù)值不相關(guān))。隨著子帶解相關(guān)比例因子值降至0,隨機(jī)角度偏移也降至0,從而使步驟506的輸出趨向于步驟503所產(chǎn)生的子帶角度控制參數(shù)值。
如果需要,上述編碼器還可以將根據(jù)技術(shù)3的所定標(biāo)隨機(jī)偏移與下混合前應(yīng)用于信道的角度偏移相加。這樣可以改善解碼器中的混疊抵消。它還有利于提高編碼器和解碼器的同步性。
步驟507,加上隨機(jī)相角偏移(技術(shù)2)。
根據(jù)如上所述的技術(shù)2,當(dāng)瞬變標(biāo)志沒(méi)有指示瞬變時(shí)(針對(duì)每個(gè)bin),將步驟503所提供的幀中的所有塊子帶角度控制參數(shù)(僅當(dāng)瞬變標(biāo)志指示瞬變時(shí),步驟505才操作)加上解相關(guān)比例因子所定標(biāo)的不同隨機(jī)偏移值(如該步驟中所述,定標(biāo)可以是直接的)a.設(shè)y=塊子帶解相關(guān)比例因子。
b.設(shè)x=+1.0和-1.0之間的隨機(jī)數(shù),可分別為每一幀的每一bin進(jìn)行選擇。
c.于是,被加到塊bin角度控制參數(shù)中(以便根據(jù)技術(shù)3加上一個(gè)隨機(jī)角度偏移值)的值為x*pi*y。
關(guān)于步驟507的解釋關(guān)于隨機(jī)角度偏移,參見(jiàn)以上關(guān)于步驟505的解釋。
盡管已看出步驟507的直接定標(biāo)是有用的,但這種定標(biāo)并不是關(guān)鍵性的,其他合適的定標(biāo)也可以采用。
為了最大限度地減少時(shí)間不連續(xù)性,每一信道的每一bin的唯一隨機(jī)角度值最好不隨時(shí)間變化。子帶中的所有bin的隨機(jī)角度值利用按幀速率更新的相同的子帶解相關(guān)比例因子值進(jìn)行定標(biāo)。因此,當(dāng)子帶解相關(guān)比例因子值為1時(shí),加上隨機(jī)角度的整個(gè)范圍-π至+π(在這種情況下,可使從去量化的幀子帶角度值得出的塊子帶角度值不相關(guān))。隨著子帶解相關(guān)比例因子值降至0,隨機(jī)角度偏移也降至0。與步驟504不同,步驟507中的定標(biāo)可以是子帶解相關(guān)比例因子值的直接函數(shù)。例如,子帶解相關(guān)比例因子值0.5將每個(gè)隨機(jī)角度變動(dòng)成比例地減少0.5。
然后可以將所定標(biāo)的隨機(jī)角度值與來(lái)自解碼器步驟506的bin角度相加。解相關(guān)比例因子值每幀更新一次。針對(duì)幀有瞬變標(biāo)志時(shí),將跳過(guò)這一步驟,以免瞬變的預(yù)噪聲人為產(chǎn)物。
如果需要,上述編碼器還可以將根據(jù)技術(shù)2的所定標(biāo)隨機(jī)偏移與下混合前所應(yīng)用的角度偏移相加。這樣可以改善解碼器中的混疊抵消。它還有利于提高編碼器和解碼器的同步性。
步驟508,將振幅比例因子歸一化。
將所有信道上的振幅比例因子歸一化,使得它們的平方和為1。
關(guān)于步驟508的解釋例如,如果兩個(gè)信道具有去量化比例因子-3.0dB(=2*1.5dB的粒度)(.70795),那么平方和為1.002。每個(gè)都除以1.002的平方根=1.001得到兩個(gè)值.7072(-3.01dB)。
步驟509,提高子帶比例因子值(可選項(xiàng))。
可選擇地,當(dāng)瞬變標(biāo)志指示沒(méi)有瞬變時(shí),根據(jù)子帶解相關(guān)比例因子值,略微提高子帶解相關(guān)比例因子值將每一歸一化子帶振幅比例因子乘以一個(gè)小因子(比如,1+0.2*子帶解相關(guān)比例因子)。當(dāng)瞬變?yōu)椤罢妗睍r(shí),將跳過(guò)這一步驟。
關(guān)于步驟509的解釋該步驟可能是有用的,因?yàn)榻獯a器解相關(guān)步驟507可能導(dǎo)致最終反向?yàn)V波器組過(guò)程中略微降低的電平。
步驟510,在所有bin上分配子帶振幅值。
步驟510可以通過(guò)將相同的子帶振幅比例因子值分配給子帶中的每一bin來(lái)實(shí)現(xiàn)。
步驟510a,加上隨機(jī)振幅偏移(可選項(xiàng))。
可選擇地,根據(jù)子帶解相關(guān)比例因子值和瞬變標(biāo)志,將隨機(jī)變動(dòng)應(yīng)用于歸一化子帶振幅比例因子。在沒(méi)有瞬變時(shí),可以逐個(gè)bin地(隨bin不同而不同)加上不隨時(shí)間變化的隨機(jī)振幅變動(dòng),而在(幀或塊中)有瞬變時(shí),可以加上逐塊變化的(隨塊不同而不同)和隨子帶變化的(子帶中所有bin具有相同變動(dòng);隨子帶不同而不同)隨機(jī)振幅比例因子。步驟510a在圖中未示出。
關(guān)于步驟510a的解釋盡管要加的隨機(jī)振幅變動(dòng)度可以由解相關(guān)比例因子來(lái)控制,然而,應(yīng)當(dāng)知道,特定比例因子值可帶來(lái)比從相同比例因子值得到的相應(yīng)隨機(jī)相移更小的振幅變動(dòng),從而避免聽(tīng)得見(jiàn)的人為產(chǎn)物。
步驟511,上混合。
a.對(duì)于每一輸出信道的每一bin,根據(jù)解碼器步驟508的振幅和解碼器步驟507的bin角度構(gòu)建一個(gè)復(fù)數(shù)上混合比例因子(振幅*(cos(角度)+jsin(角度))。
b.對(duì)于每一輸出信道,將復(fù)bin值和復(fù)數(shù)上混合比例因子相乘,以產(chǎn)生該信道的每一bin的上混合復(fù)輸出bin值。
步驟512,執(zhí)行逆DFT變換(可選項(xiàng))。
可選擇地,對(duì)每一輸出信道的bin進(jìn)行逆DFT變換以產(chǎn)生多信道輸出PCM值。眾所周知,結(jié)合這種逆DFT變換,對(duì)時(shí)間樣值的單獨(dú)塊開(kāi)窗,將鄰近塊交疊并相加在一起,以便重建最終連續(xù)時(shí)間輸出PCM音頻信號(hào)。
關(guān)于步驟512的解釋根據(jù)本發(fā)明的解碼器可能不提供PCM輸出。如果只在給定耦合頻率以上使用解碼器過(guò)程而為該頻率以下的每一信道傳送離散MDCT系數(shù),那么最好將解碼器上混合步驟511a和511b所得到的DFT系數(shù)轉(zhuǎn)換成MDCT系數(shù),這樣它們可以與較低頻率的離散MDCT系數(shù)合并后再重新量化,以便例如提供與具有大量安裝用戶的編碼系統(tǒng)兼容的比特流,比如適用于可進(jìn)行逆變換的外部設(shè)備的標(biāo)準(zhǔn)AC-3SP/DIF比特流。逆DFT變換可以應(yīng)用于輸出信道中的某些信道以提供PCM輸出。
A/52A文獻(xiàn)中的附加有靈敏度因子“F”的第8.2.2節(jié)8.2.2瞬變檢測(cè)為了判斷何時(shí)切換到長(zhǎng)度短的音頻塊來(lái)改善預(yù)混響性能,可以在全帶寬信道中進(jìn)行瞬變檢測(cè)。檢查信號(hào)的高通濾波形式,查看能量從一個(gè)子塊時(shí)間段到下一個(gè)子塊時(shí)間段是否增加。以不同的時(shí)標(biāo)檢查子塊。如果在信道中的音頻塊的后半部分中檢測(cè)到瞬變,那么該信道切換到短塊。進(jìn)行了塊切換的信道使用D45指數(shù)策略[即數(shù)據(jù)具有較粗的頻率分辨率,以便減小因時(shí)間分辨率提高所帶來(lái)的數(shù)據(jù)開(kāi)銷]。
瞬變檢測(cè)器用于判斷何時(shí)從長(zhǎng)變換塊(長(zhǎng)度512)切換到短塊(長(zhǎng)度256)。對(duì)于每個(gè)音頻塊,對(duì)512個(gè)樣值進(jìn)行操作。這按兩遍進(jìn)行處理,每遍處理256個(gè)樣值。瞬變檢測(cè)分成四個(gè)步驟1)高通濾波,2)將塊分割成若干段,3)每個(gè)子塊段內(nèi)的峰值振幅檢測(cè),和4)閾值比較。瞬變檢測(cè)器輸出每一全帶寬信道的標(biāo)志blksw[n],當(dāng)它被置為“1”時(shí),表示相應(yīng)信道的512長(zhǎng)度輸入塊的后半部分中有瞬變。
1)高通濾波高通濾波器實(shí)現(xiàn)成一個(gè)截止頻率為8kHz的級(jí)聯(lián)雙二次直接II型IIR濾波器。
2)塊分割有256個(gè)高通濾波樣值的塊被分割成分級(jí)樹(shù),其中級(jí)1代表256長(zhǎng)度的塊,級(jí)2是長(zhǎng)度為128的兩個(gè)段,而級(jí)3是長(zhǎng)度為64的四個(gè)段。
3)峰值檢測(cè)在分級(jí)樹(shù)的每一級(jí)上,識(shí)別每段的最高幅度的樣值。按如下方式得出單個(gè)級(jí)的峰值P[j][k]=max(x(n)對(duì)于n=(512×(k-1)/2^j),(512×(k-1)/2^j)+1,...(512×k/2^j)-1以及k=1,...,2^(j-1);其中x(n)=256長(zhǎng)度塊中的第n個(gè)樣值j=1,2,3是分級(jí)號(hào)
k=級(jí)j中的段號(hào)注意,P[j]
(即k=0)被定義為當(dāng)前樹(shù)之前剛計(jì)算的樹(shù)的級(jí)j上的最后段的峰值。例如,前一樹(shù)中的P[3][4]是當(dāng)前樹(shù)中的P[3]
。
4)閾值比較閾值比較器的第一階段檢查當(dāng)前塊中是否有很大的信號(hào)電平。這通過(guò)將當(dāng)前塊的總峰值P[1][1]與“靜閾值”進(jìn)行比較來(lái)完成。如果P[1][1]低于該閾值,那么強(qiáng)加長(zhǎng)塊。靜閾值為100/32768。比較器的下一階段檢查分級(jí)樹(shù)的每一級(jí)上鄰近段的相對(duì)峰值。如果特定級(jí)上任意兩個(gè)鄰近段的峰值比率超出該級(jí)的預(yù)定閾值,那么使標(biāo)志指示當(dāng)前256長(zhǎng)度塊中有瞬變。這些比率按下列方式比較mag(P[j][k]×T[j]>(F*mag(P[j][k-1]))[注意,“F”為靈敏度因子]其中T[j]是級(jí)j的預(yù)定閾值,定義為T(mén)[1]=.1T[2]=.075T[3]=.05如果這一不等式對(duì)于任意級(jí)上的任意兩個(gè)段峰值都成立,那么指示512長(zhǎng)度的輸入塊的前半部分有瞬變。這一過(guò)程的第二遍將確定512長(zhǎng)度的輸入塊的后半部分有無(wú)瞬變。
N:M編碼本發(fā)明的方面并不局限于如上結(jié)合圖1所述的N:1編碼。更一般來(lái)說(shuō),本發(fā)明的方面可適用于按圖6中的方式從任意多個(gè)輸入信道(n個(gè)輸入信道)到任意多個(gè)輸出信道(m個(gè)輸出信道)的變換(即N:M編碼)。由于在許多普通應(yīng)用中輸入信道數(shù)n大于輸出信道數(shù)m,因此,為了便于描述,將圖6中的N:M編碼配置稱為“下混合”。
參照?qǐng)D6的細(xì)節(jié),不是象圖1的配置中那樣在加性合并器6中將轉(zhuǎn)動(dòng)角度8和轉(zhuǎn)動(dòng)角度10的輸出合并,而可以將這些輸出輸入到下混合矩陣設(shè)備或功能6’(“下混合矩陣”)。下混合矩陣6’可以是無(wú)源或有源矩陣,既可以象圖1中的N:1編碼那樣簡(jiǎn)單合并為一個(gè)信道,又可以合并為多個(gè)信道。這些矩陣系數(shù)可以是實(shí)數(shù)或復(fù)數(shù)(實(shí)部和虛部)。圖6中的其他設(shè)備和功能可以與圖1的配置中的情況一樣,并且它們標(biāo)有相同的標(biāo)號(hào)。
下混合矩陣6’可以提供與頻率相關(guān)的混合功能,這樣它可以提供例如頻率范圍為f1-f2的mf1-f2個(gè)信道和頻率范圍為f2-f3的mf2-f3個(gè)信道。例如,在耦合頻率(如1000Hz)以下,下混合矩陣6’可以提供兩個(gè)信道,而在耦合頻率以上,下混合矩陣6’可以提供一個(gè)信道。通過(guò)使用耦合頻率以下的兩個(gè)信道,可以獲得更好的空間保真度,尤其如果這兩個(gè)信道代表水平方向(從而符合人耳聽(tīng)覺(jué)的水平性)。
盡管圖6示出了象圖1配置中那樣為每個(gè)信道產(chǎn)生相同的側(cè)鏈信息,然而,當(dāng)下混合矩陣6’的輸出提供一個(gè)以上的信道時(shí),可以省略側(cè)鏈信息中的一些信息。在某些情況下,當(dāng)圖6的配置只提供振幅比例因子側(cè)鏈信息時(shí),才能獲得可接受的結(jié)果。關(guān)于側(cè)鏈可選項(xiàng)的進(jìn)一步細(xì)節(jié)如以下結(jié)合圖7、8和9的描述所討論。
如上剛剛所述,下混合矩陣6’所產(chǎn)生的多個(gè)信道不一定少于輸入信道數(shù)n。當(dāng)比如圖6中的編碼器的目的是要減少傳送或存儲(chǔ)的比特?cái)?shù)時(shí),下混合矩陣6’所產(chǎn)生的信道數(shù)很有可能將少于輸入信道數(shù)n。然而,圖6中的配置還可以用作“上混合”。在這種情況下,其應(yīng)用將是下混合矩陣6’所產(chǎn)生的信道數(shù)多于輸入信道數(shù)n。
結(jié)合圖2、5和6的例子所述的編碼器還可以包括其自身的本地解碼器或解碼功能,以便當(dāng)被這種解碼器解碼時(shí)判斷音頻信息和側(cè)鏈信息是否能提供合適的結(jié)果。這種判斷的結(jié)果可以通過(guò)利用例如遞歸過(guò)程來(lái)改善參數(shù)。在塊編碼和解碼系統(tǒng)中,例如可以在下一塊結(jié)束之前對(duì)每個(gè)塊都進(jìn)行遞歸計(jì)算,以便在傳送音頻信息塊及其相關(guān)空間參數(shù)時(shí)最大限度地減小延時(shí)。
當(dāng)只對(duì)某些塊不存儲(chǔ)或傳送空間參數(shù)時(shí),也可以很好地使用其中編碼器還包括其自身的本地解碼器或解碼功能的配置。如果不傳送空間參數(shù)側(cè)鏈信息導(dǎo)致了不合適的解碼,那么將為該特定塊傳送這種側(cè)鏈信息。這種情況下,該解碼器可以是圖2、5和6的解碼器或解碼功能的修正,因?yàn)?,該解碼器不僅要能從輸入比特流中恢復(fù)出耦合頻率以上的頻率的空間參數(shù)側(cè)鏈信息,而且要能根據(jù)耦合頻率以下的立體聲信息形成模擬的空間參數(shù)側(cè)鏈信息。
作為這些具有本地解碼器的編碼器例子的一種簡(jiǎn)單替換方式,編碼器可以不用具有本地解碼器或解碼功能,而只判斷是否有耦合頻率以下的任意信號(hào)內(nèi)容(以任意合適的方式來(lái)判斷,比如利用整個(gè)頻率范圍內(nèi)的頻率bin中的能量的總和來(lái)判斷),如果沒(méi)有,那么,如果能量大于閾值則傳送或存儲(chǔ)空間參數(shù)側(cè)鏈信息。根據(jù)這種編碼方案,低于耦合頻率的低信號(hào)信息還可能導(dǎo)致更多用于傳送側(cè)鏈信息的比特。
M:N解碼圖2中的配置的更一般形式如圖7中所示,其中,上混合矩陣功能或設(shè)備(“上混合矩陣”)20接收?qǐng)D6中的配置所產(chǎn)生的1至m個(gè)信道。上混合矩陣20可以是無(wú)源矩陣。它可以是(但不一定是)圖6配置中的下混合矩陣6’的共軛變換(即互補(bǔ))。此外,上混合矩陣20還可以是有源矩陣,即可變矩陣或結(jié)合有可變矩陣的無(wú)源矩陣。如果使用有源矩陣解碼器,那么,在其松馳或靜態(tài)狀態(tài)下,它可以是下混合矩陣的復(fù)共軛,或者它可以與下混合矩陣無(wú)關(guān)??梢匀鐖D7中所示那樣應(yīng)用側(cè)鏈信息,以便控制調(diào)整振幅、轉(zhuǎn)動(dòng)角度和(可選)內(nèi)插器功能或設(shè)備。在這種情況下,上混合矩陣(如果是有源矩陣的話)其操作可以與側(cè)鏈信息無(wú)關(guān),而只對(duì)輸入到它的信道作出響應(yīng)。此外,某些或所有側(cè)鏈信息也可以輸入到有源矩陣以協(xié)助其操作。在這種情況下,可以省略調(diào)整振幅、轉(zhuǎn)動(dòng)角度和內(nèi)插器功能或設(shè)備中的某些或所有功能或設(shè)備。圖7中的解碼器例子在某些信號(hào)條件下還可以采用如以上結(jié)合圖2和5所示的應(yīng)用隨機(jī)振幅變動(dòng)度的變通辦法。
當(dāng)上混合矩陣20是有源矩陣時(shí),圖7中的配置可表征為用于在“混合矩陣編碼器/解碼器系統(tǒng)”中操作的“混合矩陣解碼器”。這里的“混合”表示解碼器可以從其輸入音頻信號(hào)中得到控制信息的某些度量(即有源矩陣對(duì)輸入到它的信道中所編碼的空間信息作出響應(yīng)),還從空間參數(shù)側(cè)鏈信息中得到控制信息的某些度量。圖7中的其他要素與圖2配置中的情況一樣,并且標(biāo)有相同的標(biāo)號(hào)。
混合矩陣解碼器中所用的合適有源矩陣解碼器可以包括諸如以上所述的作為參考的有源矩陣解碼器,比如包括稱為“Pro Logic”和“Pro Logic II”解碼器的矩陣解碼器(“Pro Logic”是DolbyLaboratories Licensing Corporation的商標(biāo))。
可選解相關(guān)圖8和9表示圖7中的通用解碼器的變型。具體地說(shuō),無(wú)論圖8中的配置還是圖9中的配置都示出了圖2和7的解相關(guān)技術(shù)的變通辦法。圖8中,各個(gè)解相關(guān)器功能或設(shè)備(“解相關(guān)器”)46和48都在時(shí)域中,每一個(gè)都在其信道中的各自反向?yàn)V波器組30和36之后。在圖9中,各個(gè)解相關(guān)器功能或設(shè)備(“解相關(guān)器”)50和52都在頻域中,每一個(gè)都在其信道中的各自反向?yàn)V波器組30和36之前。無(wú)論在圖8還是在圖9的配置中,每個(gè)解相關(guān)器(46、48、50、52)都有其獨(dú)特特征,因此,它們的輸出相互之間被解相關(guān)。解相比例因子可以用于控制例如每個(gè)信道所提供的解相關(guān)與非相關(guān)信號(hào)之間的比率。可選擇地,瞬變標(biāo)志還可以用于變換解相關(guān)器的操作模式,如下所述。無(wú)論在圖8還是在圖9的配置中,每個(gè)解相關(guān)器都可以是具有其獨(dú)特濾波特征的Schroeder型混響器,其中混響量或度由解相關(guān)比例因子來(lái)控制(例如,通過(guò)控制解相關(guān)器的輸出在解相關(guān)器的輸入和輸出的線性組合中所占的比例來(lái)實(shí)現(xiàn))。此外,其他一些可控解相關(guān)技術(shù)既可以單獨(dú)使用,又可以相互結(jié)合起來(lái)使用,又可以與Schroeder型混響器一起使用。Schroeder型混響器是眾所周知的,可以溯源到兩篇期刊論文M.R.Schroeder和B.F.Logan,“‘Colorless’Artificial Reverberation”,IRE Transactions onAudio,vol.AU-9,pp.209-214,1961;和M.R.Schroeder,“NaturalSounding Artificial Reverberation”,Journal A.E.S.,July 1962,vol.10,no.2,pp.219-223。
當(dāng)解相關(guān)器46和48在時(shí)域中操作時(shí),如圖8配置中所示那樣,需要單一(即寬帶)解相關(guān)比例因子。這可以利用若干種方法中的任一種方法獲得。例如,在圖1或圖7的編碼器中可以只產(chǎn)生單一解相關(guān)比例因子。或者,如果圖1或圖7的編碼器按子帶產(chǎn)生解相關(guān)比例因子,那么,這些子帶解相關(guān)比例因子可以是圖1或圖7的編碼器中或圖8的解碼器中所求得的振幅和或功率和。
當(dāng)解相關(guān)器50和52在頻域中操作時(shí),如圖9配置中所示那樣,它們可以接收每一子帶或成組子帶的解相關(guān)比例因子,并附帶提供這些子帶或成組子帶的相應(yīng)的解相關(guān)度。
圖8中的解相關(guān)器46和48以及圖9中的解相關(guān)器50和52可以可選地接收瞬變標(biāo)志。在圖8的時(shí)域解相關(guān)器中,可以利用瞬變標(biāo)志來(lái)變換各個(gè)解相關(guān)器的操作模式。例如,沒(méi)有瞬變標(biāo)志時(shí),解相關(guān)器可以作為Schroeder型混響器來(lái)操作,而當(dāng)接收到瞬變標(biāo)志且其后續(xù)時(shí)間段短(比方說(shuō)1-10毫秒)時(shí),可以作為固定延時(shí)來(lái)操作。每一信道都可以有一個(gè)預(yù)定的固定延時(shí),或者延時(shí)可以隨短時(shí)間段內(nèi)的多個(gè)瞬變而變。在圖9的頻域解相關(guān)器中,也可以利用瞬變標(biāo)志來(lái)變換各個(gè)解相關(guān)器的操作模式。不過(guò),在這種情況下,瞬變標(biāo)志的接收可以例如啟動(dòng)出現(xiàn)標(biāo)志的信道中的振幅的短暫(幾毫秒)提高。
無(wú)論在圖8還是在圖9的配置中,可選瞬變標(biāo)志所控制的內(nèi)插器27(33)可以按上述方式提供轉(zhuǎn)動(dòng)角度28(33)的相角輸出在整個(gè)頻率上的內(nèi)插。
如上所述,當(dāng)兩個(gè)或多個(gè)信道與側(cè)鏈信息一起被發(fā)送時(shí),減少側(cè)鏈參數(shù)個(gè)數(shù)是可以接受的。例如,可以接受只傳送振幅比例因子,這樣,可以省略解碼器中的解相關(guān)和角度設(shè)備或功能(在這種情況下,圖7、8和9簡(jiǎn)化為相同的配置)。
或者,可以只傳送振幅比例因子、解相關(guān)比例因子和可選的瞬變標(biāo)志。在這種情況下,可以采用圖7、8或9配置中的任一配置(在每一個(gè)圖中都省略了轉(zhuǎn)動(dòng)角度28和34)。
作為另一種選擇,可以只傳送振幅比例因子和角度控制參數(shù)。在這種情況下,可以采用圖7、8或9配置中的任一配置(省略了圖7中的解相關(guān)器38和42以及圖8和9中的46、48、50、52)。
正如圖1和2中那樣,圖6-9的配置旨在說(shuō)明任意多個(gè)輸入和輸出信道,盡管為了便于說(shuō)明只示出了兩個(gè)信道。
應(yīng)當(dāng)理解,熟練技術(shù)人員容易想到本發(fā)明及其各個(gè)方面的其他變化和修改方式的實(shí)現(xiàn),并且本發(fā)明并不局限于所述的這些具體的實(shí)施方式。因此,本發(fā)明是想要覆蓋這里所述的基本原理的實(shí)際思想和范圍內(nèi)的全部修改方式、變更方式或等價(jià)方式。
權(quán)利要求
1.在一種接收至少兩個(gè)輸入音頻信道的音頻編碼器中,一種方法,包括確定至少兩個(gè)輸入音頻信道的一組空間參數(shù),該參數(shù)組包括第一參數(shù),該參數(shù)響應(yīng)第一輸入信道中的頻譜分量隨時(shí)間變化程度的度量,和響應(yīng)所述輸入信道的所述頻譜分量相對(duì)于另一輸入信道的頻譜分量的信道間相角的相似性的度量。
2.如權(quán)利要求1所述的音頻編碼方法,其中,所述第一輸入信道中的頻譜分量隨時(shí)間變化程度的度量是關(guān)于各個(gè)頻譜分量的振幅或能量的變化。
3.如權(quán)利要求1或權(quán)利要求2所述的音頻編碼方法,其中,所述第一輸入信道的所述頻譜分量相對(duì)于所述另一輸入信道的頻譜分量的信道間相角的相似性的度量涉及所述輸入信道與另一輸入信道之間的幻覺(jué)聲像的出現(xiàn)。
4.如權(quán)利要求1-3任一所述的音頻編碼方法,其中,該參數(shù)組還包括另一參數(shù),該參數(shù)響應(yīng)所述第一輸入信道中的頻譜分量的相角相對(duì)于所述另一輸入信道中的頻譜分量的相角。
5.權(quán)利要求1-4任一的方法,還包括產(chǎn)生從所述至少兩個(gè)輸入音頻信道中得到的單聲音頻信號(hào)。
6.從屬于權(quán)利要求4時(shí)的權(quán)利要求5的方法,其中,通過(guò)這樣一個(gè)過(guò)程從所述至少兩個(gè)輸入音頻信道中得到所述單聲音頻信號(hào),該過(guò)程包括響應(yīng)所述第一參數(shù)和所述另一參數(shù),修改所述至少兩個(gè)輸入音頻信道中的至少一個(gè)。
7.權(quán)利要求6的方法,其中,所述修改修改所述至少兩個(gè)輸入音頻信道中的所述至少一個(gè)的頻譜分量的相角。
8.權(quán)利要求5-7任一的方法,還包括產(chǎn)生表示所述單聲音頻信號(hào)和空間參數(shù)組的編碼信號(hào)。
9.權(quán)利要求1-4任一的方法,還包括產(chǎn)生從所述至少兩個(gè)輸入音頻信道中得到的多個(gè)音頻信號(hào)。
10.權(quán)利要求9的方法,其中,通過(guò)這樣一個(gè)過(guò)程從所述至少兩個(gè)輸入音頻信道中得到所述多個(gè)音頻信號(hào),該過(guò)程包括對(duì)所述至少兩個(gè)輸入音頻信道進(jìn)行無(wú)源或有源矩陣化。
11.從屬于權(quán)利要求4時(shí)的權(quán)利要求9或權(quán)利要求10的方法,其中,通過(guò)這樣一個(gè)過(guò)程從所述至少兩個(gè)輸入音頻信道中得到所述多個(gè)音頻信號(hào),該過(guò)程包括響應(yīng)所述第一參數(shù)和所述另一參數(shù),修改所述至少兩個(gè)輸入音頻信道中的至少一個(gè)。
12.權(quán)利要求11的方法,其中,所述修改修改所述至少兩個(gè)輸入音頻信道中的所述至少一個(gè)的頻譜分量的相角。
13.權(quán)利要求10-12任一的方法,還包括產(chǎn)生表示所述多個(gè)音頻信號(hào)和空間參數(shù)組的編碼信號(hào)。
14.如權(quán)利要求1-13任一所述的音頻編碼方法,其中,該參數(shù)組還包括響應(yīng)所述第一輸入信道中瞬變的出現(xiàn)的參數(shù)。
15.如權(quán)利要求1-14任一所述的音頻編碼方法,其中,該參數(shù)組還包括響應(yīng)所述第一輸入信道的振幅或能量的參數(shù)。
16.如權(quán)利要求1-15任一所述的音頻編碼方法,其中,輸入信道中的頻譜分量隨時(shí)間變化程度的度量是關(guān)于所述第一輸入信道的頻帶中的頻譜分量,而所述第一輸入信道的所述頻譜分量相對(duì)于所述另一輸入信道的頻譜分量的信道間相角的相似性的度量是關(guān)于所述第一輸入信道的所述頻帶中的頻譜分量相對(duì)于所述另一輸入信道的相應(yīng)頻帶中的頻譜分量。
17.在一種接收至少兩個(gè)輸入音頻信道的音頻編碼器中,一種方法,包括確定至少兩個(gè)輸入音頻信道的一組空間參數(shù),該參數(shù)組包括第一參數(shù),該參數(shù)響應(yīng)所述第一輸入信道中瞬變的出現(xiàn)。
18.一種相對(duì)于一個(gè)或多個(gè)其他音頻信號(hào)對(duì)音頻信號(hào)解相關(guān)的方法,其中,該音頻信號(hào)被劃分為多個(gè)頻帶,每個(gè)頻帶包括一個(gè)或多個(gè)頻譜分量,該方法包括根據(jù)第一操作模式和第二操作模式,至少部分地對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移。
19.權(quán)利要求18的方法,其中,根據(jù)第一操作模式對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移包括根據(jù)第一頻率分辨率和第一時(shí)間分辨率對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移;而根據(jù)第二操作模式對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移包括根據(jù)第二頻率分辨率和第二時(shí)間分辨率對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移。
20.權(quán)利要求19的方法,其中,第二時(shí)間分辨率比第一頻率分辨率細(xì)。
21.權(quán)利要求19的方法,其中,第二頻率分辨率比第一頻率分辨率粗或一樣,而第二時(shí)間分辨率比第一頻率分辨率細(xì)。
22.權(quán)利要求18-21任一的方法,其中,所述第一操作模式包括對(duì)多個(gè)頻帶中的至少一個(gè)或多個(gè)中的頻譜分量的相角進(jìn)行偏移,其中,每一頻譜分量都被偏移不同的角度,該角度基本上是時(shí)間不變的;而所述第二操作模式包括對(duì)多個(gè)頻帶中的所述至少一個(gè)或多個(gè)中的所有頻譜分量的相角都偏移相同的角度,其中,對(duì)相角被偏移且相角偏移隨時(shí)間變化的每一頻帶都施加不同的相角偏移。
23.權(quán)利要求22的方法,其中,在所述第二操作模式中,內(nèi)插頻帶內(nèi)的頻譜分量的相角,以便減小跨越頻帶邊界時(shí)頻譜分量之間的相角變化。
24.權(quán)利要求18的方法,其中,所述第一操作模式包括對(duì)多個(gè)頻帶中的至少一個(gè)或多個(gè)中的頻譜分量的相角進(jìn)行偏移,其中,每一頻譜分量都被偏移不同的角度,該角度基本上是時(shí)間不變的;而所述第二操作模式包括不對(duì)頻譜分量的相角進(jìn)行偏移。
25.權(quán)利要求18-24任一的方法,其中,所述偏移包括隨機(jī)偏移。
26.權(quán)利要求18-25任一的方法,其中,所述隨機(jī)偏移的量是可控的。
27.權(quán)利要求18-26任一的方法,其中,操作模式響應(yīng)所述音頻信號(hào)。
28.權(quán)利要求27的方法,其中,操作模式響應(yīng)所述音頻信號(hào)中的瞬變的出現(xiàn)。
29.權(quán)利要求18-26任一的方法,其中,操作模式響應(yīng)控制信號(hào)。
30.權(quán)利要求29的方法,其中,控制信號(hào)響應(yīng)音頻信號(hào)中的瞬變的出現(xiàn)。
31.權(quán)利要求18-30任一的方法,還包括變動(dòng)音頻信號(hào)中的頻譜分量的幅度。
32.權(quán)利要求31的方法,其中,變動(dòng)音頻信號(hào)中的頻譜分量的幅度依照第一操作模式和第二操作模式進(jìn)行。
33.權(quán)利要求32的方法,其中操作模式響應(yīng)所述音頻信號(hào)。
34.權(quán)利要求33的方法,其中,操作模式響應(yīng)所述音頻信號(hào)中的瞬變的出現(xiàn)。
35.權(quán)利要求14的方法,其中,操作模式響應(yīng)控制信號(hào)。
36.權(quán)利要求35的方法,其中,控制信號(hào)響應(yīng)音頻信號(hào)中的瞬變的出現(xiàn)。
37.權(quán)利要求30-36任一的方法,其中,變動(dòng)幅度是隨機(jī)變動(dòng)。
38.權(quán)利要求37的方法,其中,變動(dòng)幅度的量是可控的。
39.在一種音頻解碼器中,它接收表示N個(gè)音頻信道的M個(gè)編碼音頻信道,其中M大于等于1而N大于等于2,并接收與N個(gè)音頻信道有關(guān)的一組空間參數(shù),一種方法,包括從所述M個(gè)音頻信道中得到N個(gè)音頻信道,其中,每個(gè)音頻信道中的音頻信號(hào)被劃分為多個(gè)頻帶,其中,每個(gè)頻帶包括一個(gè)或多個(gè)頻譜分量;和響應(yīng)一個(gè)或一些所述空間參數(shù),對(duì)N個(gè)音頻信道至少之一中的音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移,其中,所述偏移至少部分依照第一操作模式和第二操作模式進(jìn)行。
40.權(quán)利要求39的方法,其中,通過(guò)這樣一個(gè)過(guò)程從所述M個(gè)音頻信道中得到所述N個(gè)音頻信道,該過(guò)程包括對(duì)所述M個(gè)音頻信道進(jìn)行無(wú)源或有源解矩陣化。
41.權(quán)利要求39的方法,其中,M大于等于2,和通過(guò)這樣一個(gè)過(guò)程從所述M個(gè)音頻信道中得到所述N個(gè)音頻信道,該過(guò)程包括對(duì)所述M個(gè)音頻信道進(jìn)行有源解矩陣化。
42.權(quán)利要求41的方法,其中,解矩陣化至少部分地響應(yīng)所述M個(gè)音頻信道的特性進(jìn)行操作。
43.權(quán)利要求41或權(quán)利要求42的方法,其中,解矩陣化至少部分地響應(yīng)一個(gè)或一些所述空間參數(shù)進(jìn)行操作。
44.權(quán)利要求39的方法,其中,根據(jù)第一操作模式對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移包括根據(jù)第一頻率分辨率和第一時(shí)間分辨率對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移;而根據(jù)第二操作模式對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移包括根據(jù)第二頻率分辨率和第二時(shí)間分辨率對(duì)音頻信號(hào)中的頻譜分量的相角進(jìn)行偏移。
45.權(quán)利要求44的方法,其中,第二時(shí)間分辨率比第一時(shí)間分辨率細(xì)。
46.權(quán)利要求44的方法,其中,第二頻率分辨率比第一頻率分辨率粗或一樣,而第二時(shí)間分辨率比第一時(shí)間分辨率細(xì)。
47.權(quán)利要求45的方法,其中,第一頻率分辨率比空間參數(shù)的頻率分辨率細(xì)。
48.權(quán)利要求46或權(quán)利要求47的方法,其中,第二時(shí)間分辨率比空間參數(shù)的時(shí)間分辨率細(xì)。
49.權(quán)利要求39-48任一的方法,其中,所述第一操作模式包括對(duì)多個(gè)頻帶中的至少一個(gè)或多個(gè)中的頻譜分量的相角進(jìn)行偏移,其中,每一頻譜分量都被偏移不同的角度,該角度基本上是時(shí)間不變的;而所述第二操作模式包括對(duì)多個(gè)頻帶中的所述至少一個(gè)或多個(gè)中的所有頻譜分量的相角都偏移相同的角度,其中,對(duì)相角被偏移且相角偏移隨時(shí)間變化的每一頻帶都施加不同的相角偏移。
50.權(quán)利要求49的方法,其中,在所述第二操作模式中,內(nèi)插頻帶內(nèi)的頻譜分量的相角,以便減小跨越頻帶邊界時(shí)頻譜分量之間的相角變化。
51.權(quán)利要求39的方法,其中,所述第一操作模式包括對(duì)多個(gè)頻帶中的至少一個(gè)或多個(gè)中的頻譜分量的相角進(jìn)行偏移,其中,每一頻譜分量都被偏移不同的角度,該角度基本上是時(shí)間不變的;而所述第二操作模式包括不對(duì)頻譜分量的相角進(jìn)行偏移。
52.權(quán)利要求39-51任一的方法,其中,所述偏移包括隨機(jī)偏移。
53.權(quán)利要求52的方法,其中,所述隨機(jī)偏移的量是可控的。
54.權(quán)利要求39-53任一的方法,還包括根據(jù)第一操作模式和第二操作模式,響應(yīng)一個(gè)或一些所述空間參數(shù)來(lái)變動(dòng)音頻信號(hào)中的頻譜分量的幅度。
55.權(quán)利要求54的方法,其中,變動(dòng)幅度包括隨機(jī)變動(dòng)。
56.權(quán)利要求54或權(quán)利要求55的方法,其中,變動(dòng)幅度的量是可控的。
57.在一種音頻解碼器中,它接收表示N個(gè)音頻信道的M個(gè)編碼音頻信道,其中M大于等于1而N大于等于2,并接收與N個(gè)音頻信道有關(guān)的一組空間參數(shù),一種方法,包括從所述M個(gè)音頻信道中得到N個(gè)音頻信道,其中,通過(guò)這樣一個(gè)過(guò)程從所述M個(gè)音頻信道中得到N個(gè)音頻信道,該過(guò)程包括對(duì)所述M個(gè)音頻信道進(jìn)行有源解矩陣化,其中,解矩陣化至少部分地響應(yīng)所述M個(gè)音頻信道的特性和至少部分響應(yīng)一個(gè)或一些所述空間參數(shù)進(jìn)行操作。
58.適合于執(zhí)行權(quán)利要求1-57任一的方法的設(shè)備。
59.一種存儲(chǔ)在計(jì)算機(jī)可讀媒介上的計(jì)算機(jī)程序,用于使計(jì)算機(jī)可以執(zhí)行權(quán)利要求1-57任一的方法。
60.一種由權(quán)利要求1-17任一的方法所產(chǎn)生的比特流。
61.一種由適合于執(zhí)行權(quán)利要求1-17任一的方法的設(shè)備所產(chǎn)生的比特流。
62.一種編碼/解碼系統(tǒng),實(shí)施權(quán)利要求1-17中任一和權(quán)利要求39-57中任一的方法。
全文摘要
將多個(gè)音頻信道合并成單聲復(fù)合信號(hào),或合并成多個(gè)音頻信道,連同用于重建多個(gè)音頻信道的相關(guān)輔助信息,包括改進(jìn)的下混合將多個(gè)音頻信道下混合到單聲音頻信號(hào)或下混合到多個(gè)音頻信道,和改進(jìn)的解相關(guān)將從單聲音頻信道或從多個(gè)音頻信道得到的多個(gè)音頻信道解相關(guān)。所公開(kāi)的本發(fā)明的方面可用于音頻編碼器、解碼器、編碼/解碼系統(tǒng)、下混合器、上混合器和解相關(guān)器。
文檔編號(hào)H04S5/00GK1926607SQ200580006783
公開(kāi)日2007年3月7日 申請(qǐng)日期2005年2月28日 優(yōu)先權(quán)日2004年3月1日
發(fā)明者馬克·F·戴維斯 申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司