两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于可擴(kuò)縮編碼的設(shè)備及方法和用于可擴(kuò)縮解碼的設(shè)備及方法

文檔序號:2821094閱讀:256來源:國知局
專利名稱:用于可擴(kuò)縮編碼的設(shè)備及方法和用于可擴(kuò)縮解碼的設(shè)備及方法
技術(shù)領(lǐng)域
本發(fā)明涉及音頻和/或視頻編碼/解碼器,尤其涉及具有可擴(kuò)縮性的編碼/解碼器裝置。
最新的音頻編碼方法,例如MPEG layer 3(MP3)或MPEGAAC,使用變換,如所謂的修正離散余弦變換(MDCT),以獲得塊級的音頻信號頻率表示。這樣的音頻編碼器通常從時間離散音頻采樣值來獲得電流。來自音頻采樣值的電流被窗口化以獲得一個例如1024或者2048個窗口化的音頻采樣值的窗口塊。為了進(jìn)行窗口化,使用了不同的窗口函數(shù),如正弦窗口等。
窗口化的時間離散音頻采樣值然后通過濾波器組被實(shí)現(xiàn)為頻譜表示。原則上,一個傅立葉變換或由于特殊原因的多種上述傅立葉變換,如FFT,或者如已經(jīng)執(zhí)行的MDCT,都可以使用。在濾波器組輸出端處的音頻頻譜值的數(shù)據(jù)塊然后按照要求被進(jìn)一步處理。用上述指定的音頻編碼器,隨后是音頻頻譜值的量化,量化階段通常被選擇,以使由量化引入的量化噪聲低于心理聲學(xué)的屏蔽閾值,即被“屏蔽掉”了。量化代表一種有損編碼。為了獲得進(jìn)一步的數(shù)據(jù)量縮減,量化的頻譜值將通過哈夫曼編碼進(jìn)行熵編碼。通過增加頁信息,如比例因子(scale factors)等,可以被存儲或傳遞的比特流,通過比特流多路復(fù)用器由經(jīng)過熵編碼的量化頻譜值形成。
在音頻解碼器中,比特流通過比特流多路信號分離器被組織為已編碼的量化頻譜值和頁信息。經(jīng)過熵編碼的量化頻譜值首先被熵編碼,以獲得量化的頻譜值。量化頻譜值然后被反向量化,以獲得包含量化噪聲的解碼頻譜值,然而該噪聲低于心理聲學(xué)的屏蔽閾值,因而是聽不到的。這些頻譜值然后通過合成濾波器組被實(shí)現(xiàn)為時間表示,以獲得時間離散解碼的音頻采樣值。在合成濾波器組中必須使用一個與變換算法相反的變換算法。而且,在頻率時間再次變換后,必須取消窗口化。
為了獲得良好的頻率選擇性,最新的音頻編碼器通常使用塊重疊。這樣的情況被表示在

圖10a中。首先,獲得例如2048個時間離散的音頻采樣值,并通過裝置402進(jìn)行窗口化。表示裝置402的窗口具有2N個采樣值的窗口長度,并在它的輸出端提供2N個窗口化采樣值的數(shù)據(jù)塊。為了獲得窗口重疊,通過裝置404形成了2N個窗口化采樣值的第二個數(shù)據(jù)塊,為了清楚起見,裝置404在圖10a中與裝置402分開描述。然而,被送入裝置404的2048個采樣值不是直接與第一個窗口相連的時間離散音頻采樣值,而是包含被裝置402窗口化的后半段采樣值,另外包含僅1024個新的采樣值。在圖10a中,重疊通過裝置406象征性地表示,引起50%的重疊。通過裝置402的兩個N個窗口化采樣值輸出,和通過裝置404的2N個窗口化采樣值輸出,然后都將借助于裝置408和/或410實(shí)現(xiàn)MDCT算法。裝置408為第一個窗口提供與現(xiàn)有技術(shù)中的MDCT算法一致的N個頻譜值,而裝置410也提供存在于第一和第二個窗口之間的具有50%重疊的N個頻譜值,但是為第二個窗口所提供。
在解碼器中,第一個窗口的N個頻譜值,如圖10b所示,將被送入實(shí)現(xiàn)反向修正離散余弦變換的裝置412。同樣的操作應(yīng)用于第二個窗口的N個頻譜值。同樣被送入一個實(shí)現(xiàn)反向修正離散余弦變換的裝置414。裝置412和裝置414分別為第一個窗口提供2N個采樣值和/或?yàn)榈诙€窗口提供2N個采樣值。
裝置416,在圖10b中被稱為TDAC(TDAC=時域混迭取消),考慮到了兩個窗口是重疊的這一情況。尤其,第一個窗口后半段的采樣值y1(即帶有指數(shù)N+k),與第二個窗口前半段的采樣值y2(即帶有指數(shù)k)相加,這樣在輸出端,也就是在解碼器端,將產(chǎn)生N個經(jīng)過解碼的時間采樣值。
可以理解的是,通過裝置416的功能,也可被稱為相加功能,在圖10a中示意性描述的編碼器中進(jìn)行的窗口化被自動考慮了,這樣在圖10b描述的解碼器中,不必進(jìn)行明確的“反向窗口化”。
如果通過裝置402或404實(shí)現(xiàn)的窗口功能被指定為w(k),其中指數(shù)k代表時間指數(shù),必須滿足的條件是經(jīng)過平方后的窗口權(quán)重w(k)被加到經(jīng)過平方后的窗口權(quán)重w(N+k),得到1的平方,k的范圍從0到N-1。如果使用正弦窗口(其窗口權(quán)重遵循正弦函數(shù)的前半波),則始終滿足這個條件,因?yàn)槿我饨堑恼移椒胶陀嘞移椒街涂偸菫?。
在圖10a中描述的具有后繼MDCT函數(shù)的窗口方法的一個缺點(diǎn)在于,窗口化由時間離散采樣值相乘得到,考慮具有浮點(diǎn)數(shù)的正弦窗口,由于在0到180度之間的角的正弦,除了90度角之外,都不會得到整數(shù)。即使整數(shù)時間離散采樣值被窗口化,在窗口化之后也將得到浮點(diǎn)數(shù)。
因此,即使不使用心理聲學(xué)編碼器,也就是如果沒有實(shí)現(xiàn)無損編碼,在裝置408和/或410的輸出端的量化也是必要的,這樣才能實(shí)現(xiàn)一個合理清楚的熵編碼過程。
因此,如果為了無損音頻編碼應(yīng)該使用已知變換,如通過圖10a操作的那樣,要么必須采用一個非常好的量化以能夠忽略基于浮點(diǎn)數(shù)取整引起的誤差,要么誤差信號必須被另外編碼,例如在時域中編碼。
第一種概念,也就是在這種概念中量化被細(xì)微地調(diào)整,以至于在浮點(diǎn)數(shù)取整基礎(chǔ)上引起的誤差是可以忽略的,例如在德國專利申請DE19742201 C1中公開。這里,音頻信號被轉(zhuǎn)換為它的頻譜表示并被量化,以獲得量化頻譜值。量化頻譜值被再次反向量化,轉(zhuǎn)換到時域,并與原始音頻信號相比較。如果誤差(指原始音頻信號和量化/反向量化音頻信號之間的誤差)在一個誤差閾值之上時,量化器將以類似于反饋的方式進(jìn)行更細(xì)微的調(diào)整,然后再次進(jìn)行比較。當(dāng)誤差落在誤差閾值之下時,迭代結(jié)束??赡苋匀淮嬖诘氖S嘈盘枌⒈粫r域編碼器進(jìn)行編碼,并被寫入一個比特流,該比特流除了時域編碼的剩余信號外,還包含根據(jù)在迭代中斷時可用的量化器設(shè)置被量化的編碼頻譜值。可以理解的是,所用的量化器不需要由心理聲學(xué)模型控制,所以編碼頻譜值通常量化得比基于心理聲學(xué)模型時它所應(yīng)達(dá)到的更加精確。
在技術(shù)文獻(xiàn)“A Design of Lossy and lossless Scalable AudioCoding(有損和無損可擴(kuò)縮音頻編碼設(shè)計)”,T.Moriya等,Proc.ICASSP,2000中,描述了一種可擴(kuò)縮編碼器,它包括作為第一個有損數(shù)據(jù)壓縮模塊的MPEG編碼器,例如它具有塊級數(shù)字波形作為輸入信號,并且產(chǎn)生壓縮的位編碼。在一個現(xiàn)有的本地解碼器中,編碼被取消,并產(chǎn)生編碼/解碼信號。這個信號將通過從原始輸入信號中減去編碼/解碼信號與原始輸入信號進(jìn)行比較。誤差信號然后被送入第二個模塊,在那里使用了無損位變換。這種變換具有兩個步驟。第一步包括從二進(jìn)制補(bǔ)碼形式到數(shù)值符號形式的變換。第二步包括在一個處理塊中從垂直幅度序列到水平比特序列的變換。實(shí)現(xiàn)無損數(shù)據(jù)轉(zhuǎn)換以使信號數(shù)目最大化或者使序列中連續(xù)的零的數(shù)目最大化,這樣才能獲得盡可能好的時間誤差信號壓縮,它作為數(shù)字化數(shù)字的結(jié)果是可獲得的。這種原則基于位切割算術(shù)編碼方案(BSAC方案),該方案在技術(shù)文獻(xiàn)“Multi-Layer Bit Sliced Bit Rate Scalable Audio Coder9(多層位切割比特率可擴(kuò)縮音頻編碼器)”,(103.AES Convention,pre-printNo.4520,1997中進(jìn)行了描述。
上述BSAC文獻(xiàn)公開了一種類似編碼器的東西,如圖8所示。時間信號被送入塊80,它被指定為“窗口”和時間-頻率變換。通常,在塊80中使用MDCT(MDCT=修正離散余弦變換)。于是,由塊80生成的MDCT頻譜值將在塊82中被量化,以獲得二進(jìn)制形式的量化頻譜值。用心理聲學(xué)模型計算屏蔽閾值的裝置84控制塊82的量化,實(shí)現(xiàn)在塊82中的量化是為了使量化噪聲保持在心理聲學(xué)屏蔽閾值之下。在塊85中,在位級基礎(chǔ)上設(shè)置量化頻譜值,所以量化頻譜值的等序比特被設(shè)置在一列中。在塊86中,將形成縮放層,一個縮放層對應(yīng)于一列。因此一個縮放層包含所有量化頻譜值的等序比特。接下來,每個縮放層將進(jìn)行連續(xù)的算術(shù)編碼(塊87),而通過塊87的縮放層輸出將以其冗余編碼形式被送入一個比特流形成裝置,裝置88在它的輸出端提供縮放/編碼信號,除了單個的縮放層,也包含邊信息(sideinformation),如已經(jīng)知道的那樣。
通常來講,優(yōu)先狀態(tài)可擴(kuò)縮BSAC編碼器會接受所有根據(jù)心理聲學(xué)方面量化的頻譜值的最高序比特,對它們進(jìn)行算術(shù)編碼,然后將它們作為第一縮放層寫入比特流。通常,由于僅有非常少的非常大的頻譜值可用,所以非常少的量化頻譜值的最高序比特等于1。
為了生成第二縮放層,所有頻譜值的第二高序比特被接受,進(jìn)行算術(shù)編碼,然后作為第二縮放層寫入比特流。這個過程會重復(fù)多次,直到所有量化頻譜值的最低序比特被算術(shù)編碼,并作為最后的縮放層寫入比特流。
圖9顯示了用來對由圖8所示的可擴(kuò)縮編碼器生成的對縮放/解碼信號進(jìn)行解碼的可擴(kuò)縮解碼器。首先,此可擴(kuò)縮解碼器包括一個比特流變形裝置90,一個縮放層抽取裝置/解碼裝置91,一個反向量化裝置92,和一個頻域/時域變換裝置93,以獲得解碼信號,該解碼信號的質(zhì)量部分取決于裝置91所選取的縮放層的數(shù)目。
具體地說,比特流變形裝置將對比特流進(jìn)行解包,并且提供了除邊信息外的不同的縮放層。首先,裝置91進(jìn)行算術(shù)解碼并存儲第一縮放層。然后,第二縮放層被算術(shù)解碼并被存儲。這個過程會重復(fù)多次,直到縮放/編碼信號中包含的所有縮放層都已被算術(shù)解碼并存儲,或者重復(fù)多次直到通過控制輸入94所請求的縮放層的數(shù)目都已被解碼并存儲。因此,每個單個量化頻譜線的二進(jìn)制圖樣將被連續(xù)產(chǎn)生,這些以二進(jìn)制形式表示的量化頻譜值考慮到比例因子等被反向量化92,以獲得反向量化頻譜值,這些頻譜值必須通過裝置93變換到時域,以獲得解碼信號。
在解碼時,用每個縮放層會得到每個頻譜值的一個比特。這些在對五層縮放層進(jìn)行解碼之后得到的每個頻譜線的比特包含最高位的五個比特。可以理解的是,在頻譜值很小的情況下,其最高位比特僅僅出現(xiàn)在第五個位置,這個頻譜線的MSB(MSB=最高位比特)在對五個縮放層進(jìn)行解碼之后是得不到的,其中,為了更精確地表示這個頻譜線,必須處理更多的縮放層。
頻譜值的二進(jìn)制表示導(dǎo)致(MDCT頻譜值例如是振幅值)每個附加位代表頻譜線的6db的精確增益。
因此每個額外的縮放層將導(dǎo)致所有頻譜值的精確度有6db的增長。
考慮到至少在噪聲信號中,聽力屏蔽閾值僅在信號下大約6db,這表明位級縮放在精度方面是有問題的,這種位級縮放由現(xiàn)有技術(shù)中的編碼器/解碼器概念提供和使用,尤其是用于對將要聽到的信號部分進(jìn)行有效編碼,也就是,例如用于根據(jù)心理聲學(xué)方面量化的頻譜值的較低位。
例如,如果在傳輸信道瓶頸的基礎(chǔ)上,由圖8中的塊88輸出的縮放/編碼信號的最低縮放層沒有被傳輸,這將導(dǎo)致6db的精度損失,在不利的情況下,這將導(dǎo)致解碼信號中可清晰聽見的干擾。
本發(fā)明的目的是提供一種可擴(kuò)縮的編碼/解碼的概念,它將通過更好的可擴(kuò)縮性來實(shí)現(xiàn)。
這個目的將通過根據(jù)權(quán)利要求1的可擴(kuò)縮編碼設(shè)備,根據(jù)權(quán)利要求17的可擴(kuò)縮解碼方法,根據(jù)權(quán)利要求19的可擴(kuò)縮編碼方法,根據(jù)權(quán)利要求20的可擴(kuò)縮解碼方法,或者根據(jù)權(quán)利要求21的計算機(jī)程序來獲得。
本發(fā)明基于這樣的思想,即頻域中的心理聲學(xué)屏蔽效應(yīng)發(fā)生在頻段級,而不是線級基礎(chǔ)上,所以通過增加一個頻段中的一個頻譜線的精確度,每個頻段會得到同樣的精確度增益,就如在整個頻段中實(shí)現(xiàn)精確度都提高一個有規(guī)律的部分一樣,而這在縮放層的位級分割中是不可能的。按照本發(fā)明,精確縮放的細(xì)化是通過將比特層細(xì)分為次級縮放層而得到的。與現(xiàn)有技術(shù)相反,在現(xiàn)有技術(shù)中所有量化頻譜值的某一次序的比特被放在一起來形成一個縮放層,而在本發(fā)明中,這個次序的比特將在第一個次級縮放層中具有創(chuàng)造性地被使用,僅通過一部分量化頻譜值作為在所考慮的頻段中的第一個次級縮放層。下一個次級縮放層然后將獲得同樣次序的比特,然而現(xiàn)在是從其他量化頻譜值獲得第二個縮放層,而不在第一個次級縮放層中獲得。
例如,如果考慮具有m=4的量化頻譜值的頻段,那么在現(xiàn)有技術(shù)中,某個縮放層將包含在所考慮的頻段中的所有四個頻譜線的一個特定次序的比特。下一個頻譜層將再次包括所有量化頻譜線的小于1的某個特定次序的比特,這樣從縮放層到縮放層會使每條頻譜線的精確度增加6db。
按照本發(fā)明,確定的縮放層現(xiàn)在將被細(xì)分為最多m個次級縮放層。第一個次級縮放層將只包含第一頻譜線的特定次序的比特,沒有第二,第三和第四頻譜線的比特。第二個次級縮放層將只包含第二個頻譜線的特定次序的比特,卻沒有第一,第三和第四頻譜線的比特。以同樣的方式,第三次頻譜層將包括第三頻譜線的特定次序的比特,第四次頻譜層將包括所考慮的頻段的第四頻譜線中的特定次序的比特。如前面已經(jīng)說明的,既然屏蔽效應(yīng)僅發(fā)生在頻段級和非線級的基礎(chǔ)上,每個附加的次級縮放層將提供6/mdb的精確度增益。這意味著在考慮的例子m=4時,每個次級縮放層將導(dǎo)致1.5db的精確度增益。
可以理解的是,在次級縮放層中,不止一個的量化頻譜線的特定次序的比特可能也存在。在所考慮的例子中,如果一個次級縮放層包含兩個量化頻譜線特定次序的比特,每個次級縮放層的精確度增益將不再是1.5db,而是3.5db。通常來講,選擇量化頻譜值的第二個數(shù)目,在第二個次級縮放層中的比特就是從這個數(shù)目出現(xiàn)的,使得該數(shù)目大于或等于1,并小于頻段中量化頻譜值的總數(shù),頻譜值的第二個數(shù)目還包含至少量化光譜值的特定次序的比特,該比特不出現(xiàn)于其特別存在于第一個次級縮放層中的第一個數(shù)目的量化二進(jìn)制頻譜值中。
按照本發(fā)明,關(guān)于哪些頻譜值被選擇作為下一個次級縮放層,存在多種可能的選擇。如果聽力屏蔽閾值例如是用線來表示的(例如,比6-db步驟更加精確),在編碼器中精確地確定是可能的,這m個頻譜線具有迄今最小的精確度。
相反,如果聽力屏蔽閾值在頻段級的基礎(chǔ)上被重復(fù)表示(例如,在6db步驟中),在一個新層的編碼開始階段,也就是為新的比特層生成次級縮放層的時候,每個頻譜線與聽力屏蔽閾值相關(guān)的同一精確度被傳輸。當(dāng)在次級縮放層中選擇線的次序時,允許考慮頻譜線的值,然而這些值迄今被傳輸。例如,如果具有小頻譜值的頻譜線在下面的次級層中首先被編碼,會導(dǎo)致結(jié)果量化誤差的更精確的頻譜信息。
在本發(fā)明的一個優(yōu)選實(shí)施例中,用心理聲學(xué)量化頻譜值形成次級縮放層,特定次序的比特在次級縮放層中被處理,該層持續(xù)處于包含m個頻譜線的所考慮的頻段之上。在心理聲學(xué)量化二進(jìn)制頻譜值的情況下,為了進(jìn)行心理聲學(xué)透明編碼,量化頻譜值的所有比特都必須被傳輸。在這種情況下,尤其是具有二進(jìn)制量化頻譜值的低序比特,更細(xì)微的可擴(kuò)縮性是具有優(yōu)點(diǎn)的,以使根據(jù)所考慮的次級縮放層的數(shù)目緩慢降低質(zhì)量的解碼成為可能。
在本發(fā)明的一個替代實(shí)施例中,量化頻譜值不是考慮心理聲學(xué)方面而量化的,而是在量化之前的計算機(jī)計算精確度的框架中就有了。作為替代,量化頻譜值用整數(shù)MDCT生成,這在“Audio Coding Basedon Integer Transforms(基于整數(shù)變換的音頻編碼)”,lll AESConvention,New York,2001,Geiger,Herre,Koller,Brandenburg中有所描述。
IntMDCT尤其有利,因?yàn)樗薓DCT的吸引人的屬性,例如音頻信號的良好的頻譜表示、嚴(yán)格的采樣和塊重疊。如前所述,IntMDCT是無損變換,也就是在前向變換過程中到整數(shù)值的取整會被后向變換中的反向取整操作所考慮,因此不會產(chǎn)生取整誤差。
IntMDCT頻譜值因此表現(xiàn)為無損的形式,也就是說,它們不是考慮心理聲學(xué)方面量化的。
對于關(guān)于心理聲學(xué)屏蔽閾值的縮放操作,最好為每個頻譜值和/或每個頻段至少確定心理聲學(xué)屏蔽閾值的最高位比特,并且不再建立以一種絕對方式進(jìn)入縮放層和/或次級縮放層的特定次序的比特,就像在以心理聲學(xué)方式量化的頻譜值的情況那樣,但是與心理聲學(xué)屏蔽閾值的相應(yīng)最高位比特有關(guān)。因此在縮放層中特定次序的比特相對于心理聲學(xué)屏蔽閾值被確定,例如,因?yàn)轭l譜值的比特將在縮放層被編碼,該縮放層例如包括一個比心理聲學(xué)屏蔽層的MSB大1的次序,該MSB是用于相應(yīng)的頻譜值和/或在心理聲學(xué)閾值的頻段級規(guī)定中用于該頻譜值所在的頻段。為在頻譜值情況下定義縮放層的特定次序(該序沒有考慮心理聲學(xué)規(guī)則而量化)因此是與心理聲學(xué)屏蔽閾值MSB相關(guān)的相對次序,其與各自的頻譜值相關(guān)。
按照本發(fā)明,為了進(jìn)行心理聲學(xué)透明編碼/解碼,最好將量化頻譜值的所有比特變換到包含與心理聲學(xué)屏蔽閾值MSB相同次序的、或者具有比心理聲學(xué)屏蔽閾值MSB的次序更高的次序的各個縮放層或次級縮放層中。
尤其是,當(dāng)定義縮放層時,該縮放層包括量化頻譜值的比特,具有與心理聲學(xué)屏蔽層的最高位比特相同的次序,最好執(zhí)行到次級縮放層的分類,以獲得更好的精確縮放,可以說在干擾能聽度的極限處。例如,如果整個頻域或者部分頻域被細(xì)分為例如每個具有四個頻譜值的頻段,并且如果在一個次級縮放層中總是有在次級縮放層傳輸?shù)乃械玫降念l段的一個頻譜值,則可以通過每個次級縮放層得到1.5db的精確度增加。
可以理解的是,通過設(shè)置頻段的大小,可以自由選擇精確縮放比例。例如,如果八個頻譜值被分組為一個頻段,并且如果每個次級縮放層僅包含這個頻段中的一個頻譜值中的比特,則可獲得0.75db的精確縮放比例。
將一個縮放層細(xì)分為幾個次級縮放層這一具有創(chuàng)造性的概念(但是其中次級縮放層可以各自獨(dú)立地被抽取和解碼)的一個好處在于,它與所有其他現(xiàn)有可擴(kuò)縮性操作是兼容的。作為一個例子,應(yīng)當(dāng)提到頻段寬度縮放,其中為了進(jìn)行低比特率的音頻信號的聲學(xué)適應(yīng)編碼,通??s減音頻頻段寬度,以能夠用足夠的精確度表示余下的頻譜值。這種與信道相關(guān)的頻段寬度縮放例如也可以在使用次級縮放層的本發(fā)明上下文中實(shí)現(xiàn)。為此目的,在第一層中,僅僅考慮具有上限的頻域,由于在其他層和/或次級層中的精度增加,目前還沒有考慮的更高的頻域,將在分步的基礎(chǔ)上編碼。
次級縮放層的本方明概念的另一個優(yōu)點(diǎn)在于,它也與在MPEG-4BSAC中使用的與環(huán)境相關(guān)的算術(shù)編碼兼容。MPEG-4 BASC在“Coding of Audio Visual Objects,Audio(視聽對象,音頻的編碼)”,International Standard 14496-3,2nd edition,ISO/IEC MovingPictures Expert Group,ISO/IEC JTCI/SC29/WG11,2001中有所描述。
本發(fā)明的構(gòu)思的進(jìn)一步優(yōu)勢在于,在解碼器端,能夠?qū)崿F(xiàn)對量化值的任何解釋。如果不是頻譜的所有比特層都被傳輸,對每個頻譜值,僅僅高次序比特在解碼器中是可用的。而且,考慮到在本發(fā)明一個優(yōu)選實(shí)施例中傳輸?shù)穆犃ζ帘伍撝?,并且考慮到所傳輸?shù)谋忍貙拥臄?shù)目,可以確定該頻譜值有多少比特還沒有被傳輸。解碼器必須從這個數(shù)據(jù)重建一個量化頻譜值。為此可以近似地用零來替代未傳輸?shù)谋忍?。這樣,通過消除縮放層,量化過程將始終導(dǎo)致向較小絕對值的取整。然而,這種量化將導(dǎo)致最小可能的平均量化誤差。平均量化誤差將在這種量化中通過使用替代解碼器的重建策略而減少。
本發(fā)明的優(yōu)選實(shí)施例將在下面通過附圖來說明,在圖中,圖1a顯示了根據(jù)本發(fā)明的編碼器的方框圖;圖1b是具有縮放層和次級縮放層的已縮放的編碼信號的示意圖;圖2顯示了將幅度頻譜細(xì)分為與聽力屏蔽閾值平行的比特層中的情況;圖3是圖2中考慮聽力屏蔽閾值的MSB的細(xì)分的示意圖;圖4顯示了在一個連續(xù)給定的聽力屏蔽閾值中選擇用于下一個次級縮放層的頻譜值的示意圖;圖5是在一個聽力屏蔽閾值的頻段級表示中展示下一個次級縮放層的頻譜值選擇的示意圖;圖6是根據(jù)本發(fā)明的編碼器的詳細(xì)方框圖7是具有IntMDCT的根據(jù)本發(fā)明的解碼器方框圖;圖8是現(xiàn)有技術(shù)中BSAC編碼器的方框圖;圖9是現(xiàn)有技術(shù)中BSAC解碼器的方框圖;圖10a是具有MDCT和50%重疊的現(xiàn)有技術(shù)中編碼器的示意方框圖;圖10b是為了對圖10a中生成的值進(jìn)行解碼的現(xiàn)有技術(shù)中解碼器的方框圖;圖11是用于處理時間離散音頻采樣值以獲得整數(shù)值的優(yōu)選裝置的方框圖,整數(shù)頻譜值能夠由該整數(shù)值達(dá)到平衡;圖12是在Given旋轉(zhuǎn)和兩個DCT-IV操作中分解MDCT和反向MDCT的示意圖;圖13是展示在旋轉(zhuǎn)和DCT-IV操作中分解具有50%重疊的MDCT的示意圖。
圖1a示出了一個用于對包含音頻和/或視頻信息的信號的頻譜進(jìn)行可擴(kuò)縮編碼的設(shè)備的示意方框圖,頻譜由被分組為頻段的二進(jìn)制頻譜值組成。音頻和/或視頻信號的二進(jìn)制頻譜值的頻段將被送入圖1a中的可擴(kuò)縮編碼設(shè)備的輸入端100。二進(jìn)制頻譜值劃分為頻段的分組以任何給定方式進(jìn)行都是有效的。如前所述,本發(fā)明基于這樣的事實(shí),即頻域中的屏蔽效應(yīng)發(fā)生在頻段級基礎(chǔ)上,而不是頻譜值級基礎(chǔ)上。因?yàn)檫@個原因,最好在頻段中實(shí)現(xiàn)二進(jìn)制頻譜值的分組,例如利用頻率組(臨界頻段)或者利用比頻率組小,即比頻率組包含更少的頻譜值的頻段,從而使一個生理聲學(xué)或者心理光學(xué)頻率組被分組為例如兩個或更多個頻段。
音頻和/或視頻信號的二進(jìn)制頻譜值頻段會被送入輸入端102,用于生成次級縮放層,用生成次級縮放層的裝置102來生成第一個次級縮放層、第二個次級縮放層、以及(如果需要的話)其他次級縮放層。次級縮放層會從裝置102被輸出到輸出線104a,104b…并被傳輸?shù)接糜趯σ丫幋a的信號進(jìn)行縮放的裝置106,通過裝置106形成所實(shí)現(xiàn)的編碼信號,以將第一個次級縮放層(TSS)和第二個縮放層包含到在圖1a顯示的設(shè)備的輸出端108處的編碼信號中,因此第一個和第二個次級縮放層可以彼此獨(dú)立地被解碼。
生成次級縮放層的裝置102用在頻段中的第一個數(shù)目的二進(jìn)制頻譜值的特定次序的比特來操作,其中第一個數(shù)目大于或等于1,且小于頻段中二進(jìn)制頻譜值的總數(shù)目。為了生成第二個次級縮放層,裝置102使用第二個數(shù)目的二進(jìn)制頻譜值的特定次序的比特,二進(jìn)制頻譜值的第二個數(shù)目被選擇使得其大于或等于1,且小于頻段中二進(jìn)制頻譜值的總數(shù)目,確定二進(jìn)制頻譜值的第二個數(shù)目,使得它們包含至少一個未包括在第一個數(shù)目的二進(jìn)制頻譜值中的二進(jìn)制頻譜值。這意味著,每個次級縮放層,如果已經(jīng)被解碼,將使得解碼器中所考慮的頻段中至少有一個頻譜值表現(xiàn)出比這個次級縮放層未被考慮的情況下更高的精確度。
圖1b顯示了作為示意比特流表示的已縮放的編碼信號。代表已縮放的編碼信號的比特流首先包含邊信息110,可以像在BSAC標(biāo)準(zhǔn)中指定的那樣實(shí)現(xiàn)。比特流然后包括第一縮放層111、第二縮放層112、和第三縮放層113、第四縮放層114、第五縮放層115…。僅作為一個例子,在圖1b顯示的縮放/編碼信號中,第三縮放層113被細(xì)分為四個次級縮放層(SSL),分別表示為113a到113d。而且,僅作為一個例子,第五縮放層也被細(xì)分為次級縮放層,也就是分為次擴(kuò)展層115a,115b,115c…。
第一縮放層111例如包括最高次序的比特,要么是絕對的,要么如前所述,相對于音頻和/或視頻信號頻譜值的心理聲學(xué)屏蔽閾值。作為一個完整的縮放層,第二縮放層112也包含具有小于1的次序的頻譜值的比特。
總共,第三縮放層包含頻譜值的次序小2級的比特,然而,作為一個不完整的縮放層,其只能被完整解碼,但是為了更好的精確縮放比例,它被細(xì)分為四個可決定的次級縮放層113a,113b,113c,113d,這四層彼此分開。在圖1b表示的例子中,整個頻譜,也就是所有的頻譜值,被細(xì)分為每個具有四個頻譜值的頻段。然后第一個次級縮放層113a包括分別在頻段中之一的一個頻譜值的次序低3級的比特。與此類似,第二個次級縮放層包括在各個頻段中來自其他頻譜值的同樣次序的比特。第三個次級縮放層113c也包括同樣次序、但也是來自一個頻段中的其他頻譜值的比特。這同樣也應(yīng)用于第四個次級縮放層。如果選中了每個包含四個頻譜值的頻段,每個次級縮放層具有每個頻段的一個頻譜值的一個比特。這意味著,在圖1b表示的例子中,每個次級縮放層含有四分之一數(shù)目的比特的信息,像一個完整的縮放層,比如第一縮放層111或者第二縮放層112。
下面,在圖2中描述了將幅度頻譜細(xì)分為與聽力屏蔽閾值平行的比特層的情況。在圖2中由它們的位模式代表的頻譜值例如是由IntMDCT獲得的頻譜值,IntMDCT將在下文詳細(xì)描述。在圖2中通過它們的位模式表示的二進(jìn)制頻譜值也可以是任意時域/頻域轉(zhuǎn)換算法的結(jié)果,例如FFT,以及被表示為原理上可以是任意大小的二進(jìn)制整數(shù)。因此在圖2中表示的二進(jìn)制頻譜值還沒有用心理聲學(xué)方面來量化。
此外,在圖2中,聽力心理聲學(xué)屏蔽閾值被描繪為在0db處指定的連續(xù)線。
從在頻譜中聽力屏蔽閾值的過程,得到與聽力屏蔽閾值平行的比特層,一個比特對比特層的成員反映了這個比特心理聲學(xué)或心理光學(xué)的關(guān)聯(lián)性。例如,從圖2可以看出,指定為1的頻譜值包含占據(jù)了聽力屏蔽閾值之上的兩個比特層的比特。相反,更大的頻譜值5的特點(diǎn)是它包含占據(jù)了聽力屏蔽閾值之上的三個比特層的更高次序的比特。相反,頻譜值2,3和4僅僅包含處于聽力屏蔽閾值之下的一個比特層中的比特。
對于心理聲學(xué)透明度,也就是在量化基礎(chǔ)上和/或在“忽略”低次序比特的基礎(chǔ)上干擾的能聽度,聽力屏蔽閾值被稱為0db線。心理聲學(xué)上最高的比特層,和圖2所示例子中的第一縮放層,是在12db和18db之間的比特層。這里,僅僅有數(shù)字5的頻譜值提供了貢獻(xiàn)。因此圖1b的第一縮放層107將僅包含圖2例子中關(guān)于頻譜值5的信息。
第二比特層在6db和12db之間,也就是在圖2中的第二縮放層112,僅包含關(guān)于第一頻譜值和第五頻譜值的比特的信息,然而沒有關(guān)于其他頻譜值的信息,因?yàn)樗鼈兊腗SB處于較低的比特層中。
在圖2所示的例子中,第三比特層113包含處于圖2中0db線和+6db線之間的比特,現(xiàn)在僅包括關(guān)于第六、第五、和第一頻譜線的信息,然而,仍然沒有關(guān)于其他頻譜值的信息。如果現(xiàn)在在圖2的例子中的第三縮放層被作為一個完整的縮放層被處理,從第二縮放層到第三縮放層的精度等級變化將非常強(qiáng)烈,由于僅對第一和第二縮放層進(jìn)行解碼,而沒有第三縮放層,這將導(dǎo)致強(qiáng)烈的可聽干擾。相反,考慮到第三縮放層幾乎不會導(dǎo)致任何可聽見的干擾。按照本發(fā)明,會引起這個范圍內(nèi)的等級變化,因?yàn)樾纬闪说谌s放層的次級縮放層,其中,在圖2所示的情況下,盡管頻段分割為例如m=5,僅僅兩個次級縮放層就夠了,而第一個次級縮放層將包含頻譜值No.1的第二次序比特,第二個次級縮放層將包含頻譜值No.5的第三次序比特,這些在頻譜值No.1和頻譜值No.5的次級縮放層中的比特具有相對于屏蔽閾值的最低位比特的同樣的次序。
為了說明這些事實(shí),下面將引用圖3。圖3是對圖2情況的詳細(xì)表述,聽力屏蔽閾值不再通過實(shí)際值描述,如在圖2中顯示那樣,而是在圖3中用它的最高位表示。
根據(jù)本發(fā)明,已經(jīng)發(fā)現(xiàn),對于心理聲學(xué)透明度,為了轉(zhuǎn)化任何不利的情況,量化頻譜值的多個比特需要被傳輸,以使最近傳輸?shù)谋忍氐拇涡蚺c和此頻譜值相關(guān)的屏蔽閾值是最高位比特的次序相一致。換種說法,這意味著一個頻譜值的所有位,假若它存在的話,包含比與需要傳輸?shù)念l譜值相關(guān)的屏蔽閾值的MSB更高的次序,這也進(jìn)一步意味著,包含與屏蔽閾值的MSB相同的次序的頻譜值的比特將被傳輸。
本發(fā)明的精確縮放對心理聲學(xué)屏蔽閾值具有特別的興趣,也就是,對于具有和與頻譜值有關(guān)的屏蔽閾值的MSB相同次序的頻譜值的比特有興趣。在圖3所示的圖中,這些比特被表示為黑邊方框。
通常來講,在圖3中比特次序以垂直方向描述,意味著從MSB開始,經(jīng)由MSB-1、MSB-2、MSB-3、LSB+2、LSB+1到LSB。然而,圖3中的“MSB”不是指心理聲學(xué)屏蔽閾值的某個特定頻譜值的MSB,而是絕對MSB,就是在二進(jìn)制系統(tǒng)中可表示的最大的二的冪。
相反,在圖3描述的黑邊框中,聽力屏蔽閾值的MSB表示為頻譜值1到6。尤其,每個方框被虛線對角線分開,有頻譜值的比特在對角線上方,而在對角線的下方是對應(yīng)于這個頻譜值的屏蔽閾值的比特。用“1”表示的比特具有值1。用“0”表示的比特具有值0。最后,用“x”表示的比特具有值0或1。因此圖3的例子中的第一縮放層和/或第一比特層包含頻譜值5的比特MSB,頻譜值4的比特MSB-1,頻譜值3的比特MSB-2,頻譜值2的比特MSB-1,以及頻譜值1的比特MSB。因此在第一縮放層中的特定比特次序比屏蔽閾值的MSB所在的比特次序大3。
第二縮放層對于頻譜值5,4,3,2和1將包括比特(MSB-1),(MSB-2),(MSB-3),(MSB-2)和(MSB-1)。第三縮放層對于頻譜值5,4,3,2和1包含比特(MSB-2),(MSB-3),(LSB+2),(MSB-3)和(MSB-2)。最好被分割為次級縮放層的第四縮放層對于頻譜值5,4,3,2和1包含圖3中的黑邊比特,也就是(MSB-3),(LSB+2),(LSB+1),(LSB+2)和(MSB-3)。第一、第二、第三和第四縮放層的傳輸將導(dǎo)致心理聲學(xué)透明度,而如果第四縮放層被省略,將得到6db的精確度損失。
按照本發(fā)明,第四縮放層例如被細(xì)分為五個次級縮放層,在每個次級縮放層中,在包含五個頻譜值的頻段中會為每個頻譜值提供一個頻譜值比特。
每個次級縮放層因此提供6db/(m=5)=1.5db的精確度增加。
為了能夠在圖3所示的實(shí)施例中的解碼器中跟蹤比特層的過程,聽力屏蔽閾值和/或唯一正確的心理聲學(xué)上的重要的比特的過程,也就是聽力屏蔽閾值的MSB,在邊信息110內(nèi)從圖1b被傳輸?shù)浇獯a器。
為了這個目的,兩種選擇方案是最佳的。包括線級表示和頻段級表示。
由于它的連續(xù)過程,聽力屏蔽閾值在線級表示中通過一個具有極少系數(shù)的FIR濾波器或者多項(xiàng)式內(nèi)插法有效地表達(dá)。這里對于每個頻率響應(yīng),生成聽力屏蔽閾值的一個單獨(dú)的值。
在頻段級表示中,參考了這樣的事實(shí),即基于聽力屏蔽閾值的心理聲學(xué)屏蔽效應(yīng)可以在頻段級基礎(chǔ)上表達(dá),頻段劃分可以與Bark比例一致,并且最好代表Bark比例的細(xì)化。這種頻段級表示也用在聲學(xué)適應(yīng)音頻編碼,如MPEG-2 AAC的現(xiàn)有技術(shù)方法中。為了表示聽力屏蔽閾值,在每個頻段傳輸一個值就足夠了。
如前所述,圖2和圖3代表相同心理聲學(xué)重要性的比特層定義,如用IntMDCT頻譜來表示。如前所述,比特在層到層的基礎(chǔ)上被編碼,從最高層開始,并被傳輸。當(dāng)達(dá)到對應(yīng)于聽力屏蔽閾值(圖3中的黑邊比特)的比特層時,所傳輸?shù)男盘柺切睦砺晫W(xué)透明的。其他比特層的傳輸,它來自圖3表示的黑邊方框下的比特,增了加精確度,因此也增加了到聽力屏蔽閾值的安全距離。最后,如果所有可用的比特都被傳輸,這種方法在無損的基礎(chǔ)上工作。如前所述,最好采用一種算術(shù)編碼來減少所傳輸?shù)谋忍氐娜哂唷?br> 根據(jù)本發(fā)明使用的次級縮放層基礎(chǔ)上的精確縮放的細(xì)化可以在解碼中彼此分開地處理,在聽力屏蔽閾值以上、在聽力屏蔽閾值上、和聽力屏蔽閾值以下(相對于聽力屏蔽閾值的MSB的次序)的區(qū)域內(nèi)尤其有優(yōu)勢。沒有任何精確縮放,精確度增加6db會導(dǎo)致IntMDCT頻譜的比特的層級傳輸。然而,如果考慮到至少在噪聲信號中,聽力屏蔽閾值僅在信號下大約6db,很明顯,精確度為6db步驟的縮放對于唯一正好的可聽信號部分的有效編碼來說往往過于粗糙。
在上面描述的1.5-b步驟的細(xì)分,如果使用具有四個頻譜值的頻段,并且如果在每個次級縮放層中僅設(shè)置一個頻譜值,或者如果例如使用具有八個頻譜值的頻段,并在每個次級縮放層中考慮兩個頻譜值,關(guān)于精度適配的對應(yīng)應(yīng)該在1.5db步驟中,這也存在于MPEG-2 AAC中。這里,通過形式為20.25×n(n代表整數(shù))的比例因子,對連續(xù)頻譜值進(jìn)行頻段級適應(yīng)性量化。如果n增加1,MPEG-2 AAC的量化精確度就變化1.5db。
本發(fā)明的概念通過將比特層細(xì)分為次級縮放層,提供了精確縮放的這種細(xì)化,通過在m個次級層上分別細(xì)分m個相鄰的線得到一層的m個次級層。通過每個新傳輸?shù)拇渭墝?,精確度會增加6/mdb。在1.5db步驟中m=4的分級也是可能的。與上面所說的MPEG-2 AAC方法中的量化相反,每個次級層的精確度只對于本發(fā)明概念中m個頻譜線中的一個而增加。由于心理聲學(xué)效應(yīng)在頻域中發(fā)生在頻段級的基礎(chǔ)上,而不是線級的基礎(chǔ)上,每個頻段相同的精確度增益可以通過增加頻譜線的精確度得到,像在整個頻段中規(guī)則地增加精確度一樣。
圖4和圖5提到了在下一個次級層中選擇m個頻譜線中的哪一個進(jìn)行細(xì)化的最佳模式。
圖4描述了這樣一種情況,其中聽力屏蔽閾值在線級的基礎(chǔ)上描述。聽力屏蔽閾值被繪制為連續(xù)的線。聽力屏蔽閾值的MSB以“十字”形狀被繪制在上面。在圖4中沒有描述的位于上面的所有縮放層的解碼已經(jīng)完成,使得頻譜值1,2,3和4用以0表示的精確度表示。以0表示的先前傳輸?shù)谋忍匾虼舜碓诮獯a器中的頻譜線精確度。通過將編碼器中以前處理的頻譜值和此頻譜值的聽力屏蔽閾值的值進(jìn)行比較,哪個頻譜值以前被以最不精確的方式傳輸一下子就非常清楚了。在圖4的例子中,從圖4可以很容易地看出,這包括頻譜值2。因此第一個次級縮放層將獲得頻譜值NO.2的下一個比特。
用于第二個次級縮放層的下一個頻譜值是頻譜值No.4。緊跟著是用于第三個次級縮放層的頻譜值NO.1.,最后是用于第四個次級縮放層的頻譜值No.3。
因此從在前面處理的頻譜值精確度和聽力屏蔽閾值之間差別最大的頻譜線決定下一個要編碼的比特。
可以理解的是,解碼器中的這個過程將會被逆轉(zhuǎn),使得解碼器可以在沒有任何附加的邊信息的情況下得知哪一個頻譜值會被次級縮放層進(jìn)一步細(xì)化,以緊接著被解碼,只要解碼器知道心理聲學(xué)屏蔽閾值的連續(xù)過程。
圖5顯示了聽力屏蔽閾值的頻段級表示的情況。從圖5可以看出,頻譜值2,3和4的比特可以被看作下面要處理的次級縮放層,因?yàn)榕c聽力屏蔽閾值相比,它們相距聽力屏蔽閾值的距離最大。與此相反,頻譜值1的值已經(jīng)位于靠近聽力屏蔽閾值的位置,所以頻譜值1不需要被細(xì)化,但是頻譜值2,3和4需要。
原則上,頻譜值2,3和4中的任何一個都可以在下一個次級縮放層被考慮。然而可以得到噪聲整形,其中考慮了頻譜值2,3和4的絕對值,像在編碼器和/或解碼器中已經(jīng)處理過的一樣。例如,如果發(fā)現(xiàn)六個較高次序的比特已經(jīng)為頻譜值2被傳輸了,意味著頻譜值2非常大,這意味著,相對來說,這個頻譜值已經(jīng)被以一種相當(dāng)精確的方式表示了。相反,如果發(fā)現(xiàn)頻譜值NO.3是一個較小的頻譜值,例如僅僅傳輸了一個較高次序的比特,首先,頻譜值No.3,最好是根據(jù)本發(fā)明,將在一個次級縮放層中被處理,然后是頻譜值2。這種認(rèn)識基于這樣的事實(shí),即假定聽力印象的相對精確度比絕對精確度更重要。
圖6顯示了根據(jù)本發(fā)明的編碼器的整個方框圖。時間信號將被送入編碼器的輸入端600,例如,通過IntMDCT602變換為頻域。與此同時,心理聲學(xué)模型4生效,它主要包含與圖8所示的心理聲學(xué)模型84相同的結(jié)構(gòu)。在心理聲學(xué)模型84中計算的屏蔽閾值現(xiàn)在不被用于量化,如圖8所示,而是被用于定義604縮放層。尤其,在本發(fā)明的一個優(yōu)選實(shí)施例中,裝置84在每個頻譜值或者每個頻段級基礎(chǔ)上提供了屏蔽閾值的MSB,以確定在圖3中表示的黑邊方框。裝置604然后定義相對于(圖3中黑方框的)屏蔽閾值的MSB的次序的縮放層。
如果縮放層和次級縮放層都會被使用的話,用于定義縮放層的裝置604控制用于生成次級縮放層和/或用于生成縮放層的裝置132。在圖3所示的實(shí)施例中,裝置102將工作,它將生成三個完整的次級縮放層,并將它們送入裝置606做算術(shù)編碼,然后,對于關(guān)于頻譜值比特的第四層,其次序等于屏蔽閾值的MSB的次序,將它們細(xì)分為特定數(shù)目的次級縮放層。在次級縮放層算術(shù)編碼以后,縮放層和次級縮放層將通過比特流形成裝置608在比特流中產(chǎn)生,以獲得主要包含圖1b中所示結(jié)構(gòu)的縮放/編碼信號。
縮放/編碼信號將被送入圖7所示的解碼器輸入端700,裝置702使圖1b的比特流變形,以將邊信息與次級縮放層等分開。然后抽取/編碼裝置704連續(xù)地對縮放層和次級縮放層進(jìn)行算術(shù)編碼,這樣,在圖7沒有顯示的位于解碼器端的存儲器中,各個頻譜值的位模式一個接一個地形成。
根據(jù)傳輸?shù)目s放層數(shù)目和/或根據(jù)在裝置704的控制輸入端處的控制信號,解碼器有時會停止對其他縮放層或者次級縮放層的解碼。如果所有在編碼器端產(chǎn)生的縮放層和次級縮放層都已經(jīng)在比特流中被傳輸和解碼了,無損編碼/傳輸/解碼將發(fā)生,解碼器不再需要對量化值進(jìn)行任何解釋。在無損或者幾乎無損的編碼/傳輸/解碼之后獲得的頻譜值將被送入后向轉(zhuǎn)換裝置706,該裝置例如實(shí)現(xiàn)反向IntMDCT(IntMDCT-1),以在輸出端708處獲得解碼信號。例如,如果在傳輸信道基礎(chǔ)上確定的縮放層或者次級縮放層被切斷,或者如果由于其結(jié)構(gòu),解碼器無法處理所有的縮放層或者次級縮放層,或者如果裝置704被控制為只處理一定數(shù)目的縮放層或者次級縮放層,根據(jù)本發(fā)明的解碼器會對前面可用的頻譜值位模式進(jìn)行解釋。如果不是頻譜的所有比特層都被傳輸,則只有較高次序的比特在解碼器中對于每個頻譜值是可用的。
知道聽力屏蔽閾值和在無損情況下解碼器產(chǎn)生的全部的比特層數(shù)目和/或可能產(chǎn)生的全部比特層數(shù)目,解碼器現(xiàn)在確定對于每個單獨(dú)的頻譜值有多少比特層,以及多少個比特,還沒有被傳輸。解碼器由這些數(shù)據(jù)構(gòu)造了一個量化的頻譜值。為此最簡單的方法是,用0代替未被傳輸?shù)谋忍?。在這種情況下,量化過程將永遠(yuǎn)導(dǎo)致向較小絕對值方向的取整。
按照本發(fā)明,最好將平均量化誤差保持得盡可能小。這通過使用一種所謂的“歸一中高層量化器(Uniform Midrise Quantizer)”來實(shí)現(xiàn),這在N.S.Jayant和P.Noll的“Digital coding of waveform(波形的數(shù)字編碼)”,Prentice-Hall,1984中有介紹。這種量化器保持在量化中采用的量化間隔不變,但是使量化值移位,也就是對量化間隔進(jìn)行表示以及通過特定值對傳輸?shù)谋忍剡M(jìn)行解釋。得到向量化間隔中心位置的移動,例如對缺少的比特通過使用位模式“1000…”。對于頻譜值所缺少的低次序比特,通常最好在量化器中使用位模式以進(jìn)行重建,該模式與用“000…”表示的“取整位模式”不同。換句話說,這意味著重建位模式包含至少一個1,最好重建位模式的最高有效位是1。
下面,詳細(xì)提到了圖6所示編碼器和圖7所示的解碼器的功能,作為一個優(yōu)選的變換算法,包括IntMDCT。IntMDCT頻譜提供了對音頻信號的頻譜整數(shù)表示。與此同時,在圖6所示的解碼器中,心理聲學(xué)模型計算聽力屏蔽閾值。如前所述,聽力屏蔽閾值由于連續(xù)的過程可以被有效地編碼,并且可以以比特流來傳輸,例如,通過FIR濾波器的系數(shù)或者通過多項(xiàng)式內(nèi)插法。
對每個頻譜線,比特的數(shù)目在心理聲學(xué)方面不重要,也就是說,頻譜值的次序小于這個頻譜值聽力屏蔽閾值的MSB的次序的比特將由聽力屏蔽閾值得到。參照圖3,它們是黑邊方框下面的比特。
整數(shù)頻譜值的每個數(shù)量值都在位級的基礎(chǔ)上被表示,以通過裝置604定義沿著頻域的相同心理聲學(xué)重要性的比特層,例如,與靜止的心理聲學(xué)重要比特的層平行,在更重要的層中更偏愛低次序的頻率。這些比特沿著重要層排序,從最高有效位開始。起始層要么從理論最大值得到,要么從有效編碼的頻譜包絡(luò)得到,與經(jīng)過編碼的聽力屏蔽閾值類似,或者從聽力屏蔽閾值的平行位置得到,例如通過30db,其對應(yīng)于5個比特。
在高重要性的層中出現(xiàn)“1”是不大可能的,因?yàn)橹挥泻苌俚念l譜線在遠(yuǎn)離聽力屏蔽閾值處,例如,在圖2或者圖3中的頻譜線5。向著低一些的層,遇到“1”的可能性增加,大約是50%。對于以這種方式排列的比特序列,最好對冗余縮減應(yīng)用比特級算術(shù)編碼。
在本發(fā)明的一個方面,可擴(kuò)縮區(qū)域,像在MPEG-4 BSAC中那樣,不僅延伸到心理聲學(xué)透明性,還延伸到無損編碼/解碼。如果整個經(jīng)過編碼的比特序列和具有相應(yīng)表示的頻譜值的適當(dāng)符號被傳輸,則此實(shí)施例將基于無損地操作。僅僅部分編碼比特序列被傳輸,這將減少無關(guān)的問題。如果編碼比特序列被傳輸?shù)轿ㄒ徽_重要比特的層,該方法僅以透明模式操作。如果傳輸更少的比特,將引起比特率的減少,也將導(dǎo)致音頻/視頻質(zhì)量的下降。
如果除了心理聲學(xué)重要層之外還傳輸其他層,音頻信號(視頻信號)將用到屏蔽閾值的額外安全距離來表示,因此讓一個與后續(xù)處理步驟相比具有很大可靠性的幾乎無損的表示成為可能。
用于實(shí)現(xiàn)透明度而需要的比特的數(shù)目在各個塊之間是不同的。如果這個信息被編碼為完整的無損比特流,則這個信息可以用于控制比特的分配來獲得恒定比特率。這個信息的確可用,并可以用于任何需要的恒定比特率。因此,從完整的無損編碼比特流,對每個特定的恒定比特率可采用一個聲學(xué)適配的編碼次級比特流,前者利用了局部變化比特率的功能。
最終,在邊信息中比特層的傳輸,這是獲得透明所必需的,通過將這個值與真正傳輸?shù)谋忍貙訑?shù)目進(jìn)行比較使得可以控制在次級比特流中傳輸?shù)漠?dāng)前音頻質(zhì)量。
作為整數(shù)變換算法的例子,下面提到IntMDCT變換算法,該算法在“Audio Coding Based on Integer Transforms(基于整數(shù)變換的音頻編碼)”,111th AES convention,New York,2001中有所描述。IntMDCT算法尤其受歡迎,因?yàn)樗峁┝薓DCT最有吸引力的性質(zhì),例如對音頻信號的良好頻譜表示、嚴(yán)格的取樣和塊重疊。
圖11顯示了根據(jù)本發(fā)明的優(yōu)選設(shè)備的概略圖,該設(shè)備用于處理表示音頻信號的時間離散的采樣值以獲得整數(shù)值,IntMDCT整數(shù)變換算法的操作正是依賴于該整數(shù)值。時間離散的采樣值然后被圖11的設(shè)備窗口化,并可選地被轉(zhuǎn)換為頻譜表示。被送入該設(shè)備的輸入端10的時間離散的采樣值將由一個長度對應(yīng)于2N個時間離散采樣值的窗口w進(jìn)行窗口化,以在輸出端12處獲得整數(shù)窗口化采樣值,該值適合通過變換、尤其是通過執(zhí)行整數(shù)DCT的裝置14被轉(zhuǎn)換為頻譜表示。進(jìn)行整數(shù)DCT來從N個輸入值生成N個輸出值,這與圖10a的MDCT函數(shù)408相反,MDCT函數(shù)408是在MDCT等式的基礎(chǔ)上,僅從2N個窗口化采樣值生成N個頻譜值。
為了對時間離散的采樣值進(jìn)行窗口化,首先在裝置16中選擇兩個時間離散采樣值,它們共同表示一個時間離散采樣值的向量。一個被裝置16選擇的時間離散采樣值被放在窗口的頭一個四分之一處。另一個時間離散采樣值被放在窗口的第二個四分之一處,這在圖13中闡述得更加詳細(xì)。裝置16產(chǎn)生的向量現(xiàn)在被提供一個2×2維的旋轉(zhuǎn)矩陣,這個操作不是被直接執(zhí)行,而是通過幾個所謂的提升矩陣來進(jìn)行。
一個提升矩陣具有這樣的屬性,它僅包含一個元素,該元素取決于窗口w,并且不等于“1”或“0”。
在提升步驟中小波變換的因式分解在技術(shù)文獻(xiàn)“FactoringWavelet Transforms Into Lifting Steps(將小波變換因式分解為提升步驟)”,Ingrid Daubechies and Wim Sedldens,Preprint,BellLaboratories,Lucent Technologies,1996中有介紹。通常,提升方案是在包含相同低通和高通濾波器的完美重建濾波器對之間的簡單關(guān)系。每對互補(bǔ)濾波器可以被因式分解為提升步驟。尤其,這也適用于Givens旋轉(zhuǎn)??紤]多端矩陣是一個Givens旋轉(zhuǎn)的情況。則下面的等式有效cosα-sinαsinαcosα=1cosα-1sinα0110sinα11cosα-1sinα01---(1)]]>在等式右邊的這三個提升矩陣中的每個都有值“1”作為主對角線元素。另外,在每個提升矩陣中,一個輔助對角線元素等于0,一個輔助對角線元素取決于旋轉(zhuǎn)角a。
現(xiàn)在向量將與第三個提升矩陣相乘,也就是上面等式中最右邊的提升矩陣,得到第一個結(jié)果向量。在圖11中通過裝置18表示了這個過程。按照本發(fā)明,現(xiàn)在第一個結(jié)果向量將通過把實(shí)數(shù)量映射為整數(shù)量的任何取整函數(shù)來進(jìn)行取整,該函數(shù)在圖11中通過裝置20來描述。在裝置20的輸出端處得到了取整后的第一個結(jié)果向量。這個取整后的第一個結(jié)果向量被送到裝置22中,將其與中間的一項(xiàng),也就是第二項(xiàng)相乘,以得到第二個結(jié)果向量,然后再用裝置24對其進(jìn)行取整,得到取整后的第二個結(jié)果向量。現(xiàn)在取整后的第二個結(jié)果向量被送至裝置26,將其與上述等式最左邊一項(xiàng)的提升矩陣,也就是第一項(xiàng)相乘,以得到第三個結(jié)果向量,它最后再次用裝置28取整,最后在輸出端12處得到整數(shù)窗口采樣值,最后需要用裝置14對其進(jìn)行處理,如果希望用一個頻譜對其進(jìn)行表示,以在頻譜輸出端30處得到整數(shù)頻譜值的話。
最好裝置14實(shí)現(xiàn)為一個整數(shù)DCT或整數(shù)DCT。
根據(jù)長度為N的類型4(DCT-IV),離散余弦變換用下式給出Xt(m)=2NΣk=0N-1x(k)cos(π4N(2k+1)(2m+1))---(2)]]>DCT-IV的系數(shù)形成一個標(biāo)準(zhǔn)正交的N×N矩陣。每一個標(biāo)準(zhǔn)正交的N×N矩陣可以分解成N(N-1)/2個Givens旋轉(zhuǎn),如技術(shù)文獻(xiàn)“Multirate Systems And Filter Banks(多率系統(tǒng)和濾波器組)”,P.P.Vaidyanathan,Prentice Hall,Englewood Cliffs,1993中所述。可以理解的是,也可以存在其他的分解方式。
關(guān)于各種DCT算法的分類,可以參考H.S.Malvar的“SignalProcessing With Lapped Transforms(利用重疊變換的信號處理)”,Artech House,1992。一般來說,DCT算法根據(jù)它們的基函數(shù)來類型區(qū)分。然而本發(fā)明中優(yōu)選的DCT-IV中包含非對稱的基函數(shù),即1/4余弦波、3/4余弦波、5/4余弦波、7/4余弦波等等。這種離散余弦變換,如II類(DCT-II),具有中心對稱和點(diǎn)對稱的基函數(shù)。第零級基函數(shù)有一個直流分量,第一級基函數(shù)是半個余弦波,第二級基函數(shù)是整個余弦波等等。由于在DCT-II中特別考慮直流分量,在視頻編碼中也使用直流分量,但在音頻編碼中則與視頻編碼相反,不采用直流分量,因?yàn)橐纛l編碼中的直流分量是不相關(guān)的。
下面做了特別參考來解釋Givens旋轉(zhuǎn)的旋轉(zhuǎn)角α是如何依賴于窗口函數(shù)的。
窗口長度為2N的MDCT可以縮減至長度為N的IV類離散余弦變換。這可以通過在時域內(nèi)明確執(zhí)行TDAC變換,然后應(yīng)用DCT-IV來實(shí)現(xiàn)。在50%的重疊中,塊t左邊一半窗口與前面的塊,即塊t-1的右邊一半窗口重疊。這兩個連續(xù)塊t-1和t的重疊部分在時域內(nèi)進(jìn)行預(yù)處理,即在轉(zhuǎn)換之前,如下也就是在圖11的輸入端10和輸出端12之間處理x~t(k)x~t-1(N-1-k)=w(N2+k)-w(N2-1-k)···w(N2-1-k)w(N2+k)xt(N2+k)xt(N2-1-k)---(3)]]>標(biāo)有波浪線的值包含圖1的輸出端12處的值,而在上面等式中沒有任何波浪線的x值包含輸入端10和/或裝置16后面的將要選擇的值。連續(xù)指數(shù)k取值范圍從0到N/2-1,w代表窗口函數(shù)。
從窗口函數(shù)w的TDAC條件可知下面關(guān)系有效w(N2+k)2+w(N2-1-k)2=1---(4)]]>對于某些角度αk,k=0、1、……、(N/2)-1,這個在時域內(nèi)的預(yù)處理可以寫成Givens旋轉(zhuǎn),如前所述。
Givens旋轉(zhuǎn)的角度α依賴于窗口函數(shù)如下α=arctan[w(N/2-1-k)/w(N/2+k)](5)可以理解的是,只要符合TDAC條件,可以使用任意的窗口函數(shù)w。
下面,通過圖12描述了一個級聯(lián)的編碼器和解碼器。由一個窗口共同窗口化的從x(0)到x(2N-1)的離散時間采樣值被圖11的裝置16選中,使得采樣值x(0)和采樣值x(N-1),也就是來自窗口的第一個四分之一的采樣和來自窗口的第二個四分之一的采樣,被選中,以在裝置16的輸出端處形成向量。交叉的箭頭表示對裝置18,20和/或22,24和/或26,28提升相乘和相繼取整,以在DCT-IV塊的輸入端處得到整數(shù)窗口化采樣值。
如上所描述,當(dāng)?shù)谝粋€向量已經(jīng)被處理時,從采樣值x(N/2-1)和x(N/2)中進(jìn)一步選出第二個向量,即又一個來自窗口第一個四分之一的采樣值和來自窗口的第二個四分之一的采樣值,由圖1中所述的算法處理。與此類似,所有其他來自第一個和第二個四分之一窗口的采樣值對都將被處理。第一個窗口的第三和第四個四分之一被同樣地處理。2N個窗口化整數(shù)采樣值現(xiàn)在出現(xiàn)在輸出端12處,現(xiàn)在它們將被送入DCT-IV變換,如圖12所示。尤其第二和第三個四分之一處的整數(shù)窗口采樣值將被送入DCT。第一個四分之一窗口處的窗口化整數(shù)采樣值將與前一個窗口的第四個四分之一處的窗口化整數(shù)采樣值一起在前述的DCT-IV處理。類似地,圖12中第四個四分之一處的窗口化整數(shù)采樣值和下一個窗口的第一個四分之一處的窗口化整數(shù)采樣值一起被送入DCT-IV變換。圖12中所示的中心整數(shù)DCT-IV變換32提供了從y(0)到y(tǒng)(N-1)的N個整數(shù)頻譜值?,F(xiàn)在這些整數(shù)頻譜值僅進(jìn)行熵編碼,不需要任何中間量化,因?yàn)楦鶕?jù)本發(fā)明的窗口化和變換提供了整數(shù)輸出值。
在圖12的右半邊示出了一個解碼器。這個解碼器包含反向變換和反向窗口化,它對于編碼器來說是在反向工作。眾所周知,對于DCT-IV的反向變換來說,可以使用如圖12所示的反向DCT-IV。圖2所示的解碼器DCT-IV 34的輸出值現(xiàn)在用根據(jù)本發(fā)明的前面的變換和/或后繼變換的相應(yīng)值來反向處理,以從在裝置34和/或前面的變換及后繼變換的輸出端處的證書窗口化采樣值來生成時間離散的音頻采樣值x(0)到x(2N-1)。
輸出端操作通過反向Givens旋轉(zhuǎn)反向進(jìn)行,也就是說,使得塊26,28和/或22,24和/或18,20在相反的方向上通過。這需要通過等式1的第二個提升矩陣更詳細(xì)地描述。如果(在編碼器中)當(dāng)?shù)诙€結(jié)果向量通過將取整后的第一個結(jié)果向量與第二個提升矩陣(裝置22)相乘得到的時候,有以下的表達(dá)式(x,y)→(x,y+xsinα)(6)等式6右邊的值x,y是整數(shù)。然而這不適用于值sinα。這里,需要介紹一下取整函數(shù)r,它以如下的等式表示(x,y)→(x,y+r(xsinα))(7)
裝置24執(zhí)行了這個運(yùn)算。
(在解碼器中的)反向影射可以定義如下(x′,y′)→(x′,y′-r(x′sinα))(8)由于在取整運(yùn)算之前的減號,顯而易見,提升階段的整數(shù)近似可以被反向,而不引入任何誤差。在這三個提升步驟中任何一個應(yīng)用這種近似都導(dǎo)致了Givens旋轉(zhuǎn)的整數(shù)近似。取整旋轉(zhuǎn)(在編碼器中)可以被反向(在解碼器中),而不引入誤差,即以相反的順序通過反向取整提升階段,也就是說,如果圖1的算法在解碼時是自下向上實(shí)現(xiàn)的。
如果取整函數(shù)r是點(diǎn)對稱的,反向的取整旋轉(zhuǎn)與角-α的取整旋轉(zhuǎn)是相同的,如下cosαsinα-sinαcosα---(9)]]>解碼器的提升矩陣,即為了進(jìn)行反向Givens旋轉(zhuǎn),在這種情況下可由等式(1)通過僅僅將表達(dá)式“sinα”替換為“-sinα”而直接得到。
在下面,具有重疊窗口42到46的普通MDCT的分解再次被通過圖13來表示。窗口40到46中的每個窗口具有50%的重疊。每個窗口,Givens旋轉(zhuǎn)首先在第一個和第二個四分之一窗口內(nèi)和/或第三個和第四個四分之一窗口內(nèi)執(zhí)行,如箭頭48所示。然后,旋轉(zhuǎn)值,即經(jīng)過窗口化的整數(shù)采樣值,被送入一個N到N的DCT,使得一個窗口的第二和第三個四分之一窗口和/或下一個窗口的第四個和第一個四分之一窗口總是通過在頻譜表示的DCT-IV算法共同執(zhí)行。
按照本發(fā)明,通常的Givens旋轉(zhuǎn)被分解為提升矩陣,這些矩陣被依次執(zhí)行,其中在每次提升矩陣相乘之后,執(zhí)行一個取整的步驟,使得浮點(diǎn)數(shù)在它們產(chǎn)生后就立即被取整,所以,在每次結(jié)果向量與提升矩陣相乘前,結(jié)果向量只包括整數(shù)。
因此,輸出值總是整數(shù),其中最好使用整數(shù)輸入值。這不代表任何限制,因?yàn)槿魏蜳CM采樣值,由于它們存儲在一張CD上,是整數(shù)值,它們的值域根據(jù)比特寬度而變化,也就是說,取決于時間離散的數(shù)字輸入值是十六位值還是二十四位值。然而,如所闡述的一樣,通過以反向順序執(zhí)行反向旋轉(zhuǎn),整個過程是可以反向的。按照本發(fā)明,存在一個用于完美重建的MDCT整數(shù)近似,也就是無損變換。
本發(fā)明的變換提供了整數(shù)輸出值而不是浮點(diǎn)值。它提供了一個完美的重建,這樣當(dāng)執(zhí)行一個前向變換、然后執(zhí)行一個后向變換的時候,不會引入誤差。按照本發(fā)明的一個優(yōu)選實(shí)施例,這個變換是對修正離散余弦變換的替換。其他變換方法也可在整數(shù)的基礎(chǔ)上執(zhí)行,只要能夠分解為旋轉(zhuǎn)并將旋轉(zhuǎn)分解為提升階段。
按照本發(fā)明,整數(shù)MDCT具有MDCT的大部分優(yōu)良特性。它具有重疊的結(jié)構(gòu),由此可得到比在無重疊塊變換中更好的頻率選擇性。在TDAC函數(shù)的基礎(chǔ)上,當(dāng)變換前進(jìn)行窗口化的時候已經(jīng)開始考慮這個函數(shù),維持了嚴(yán)格的采樣,使得代表一個音頻信號的所有頻譜值等于輸入采樣值的總數(shù)。
與另一種普通的提供浮點(diǎn)采樣值的MDCT相比,本發(fā)明的整數(shù)變換,與普通的MDCT相比,表現(xiàn)為噪聲只在僅有很小信號強(qiáng)度的頻譜區(qū)域內(nèi)增加,而這種噪聲增加在重要信號層不會被注意到。為此目的,本發(fā)明的整數(shù)處理適用于有效的硬件實(shí)現(xiàn),因?yàn)橹皇褂昧顺朔ú襟E,而乘法可以很容易地分解為移位/加法步驟,這兩種算法在硬件基礎(chǔ)上都是很容易很快實(shí)現(xiàn)的。
本發(fā)明的整數(shù)變換提供了音頻信號的良好的頻譜表示,并且仍然保留在整數(shù)區(qū)域。如果應(yīng)用于一個音頻信號的音調(diào)部分時,會導(dǎo)致良好的能量集中。因此,一個有效的無損編碼方案僅僅通過用如圖1所示簡單級聯(lián)的本發(fā)明的窗口化/變換就可以實(shí)現(xiàn)。特別地,使用逸出值的堆棧編碼對本發(fā)明是很受歡迎的,像在MPEG AAC中使用的一樣。最好通過使用特定冪方來縮減所有的值直到它們滿足一個需要的碼表,然后對忽略的最低有效位進(jìn)行額外編碼。與使用更大碼表的替代方案相比,這個方案對于存儲碼表所需要的存儲消耗更為便宜。僅僅通過省略某些最低有效位,就可以獲得一種近似于無損的編碼器尤其對于音調(diào)信號,整數(shù)頻譜值的熵編碼可以獲得高編碼增益。對于信號的瞬態(tài)部分,編碼增益很低,即在瞬態(tài)信號的平坦頻譜基礎(chǔ)上,即在一小部分等于或幾乎等于0的頻譜值基礎(chǔ)上。如在J.Herre,J.D.Johnston的“Enhancing the Performance of Perceptual AudioCoders by Using Temporal Noise Shaping(通過使用臨時噪音成形(TNS)增強(qiáng)知覺音頻編碼器的性能)”,101stAES Convention,LosAngeles,1996,preprint 4384中所描述,然而這種平坦性可通過使用頻域內(nèi)的線性預(yù)測而被利用。一種替代方案是用開環(huán)來預(yù)測,還有一個替代方案是用閉環(huán)來預(yù)測。第一個替代方案,即采用開環(huán)的預(yù)測器,被稱為TNS。預(yù)測的量化導(dǎo)致結(jié)果量化噪聲適配于音頻信號的時間結(jié)構(gòu),并避免了心理聲學(xué)音頻編碼器中的前向回波。對于無損音頻編碼,第二個替代方案更適合,即閉環(huán)的預(yù)測器,因?yàn)殚]環(huán)的預(yù)測允許輸入信號的精確重建。如果這個技術(shù)被應(yīng)用于一個根據(jù)本發(fā)明生成的頻譜,在每級預(yù)測濾波器后必須采用一個取整步驟來使之保留在整數(shù)范圍內(nèi)。通過使用反向?yàn)V波器和相同的取整函數(shù),初始頻譜可以被精確地再現(xiàn)。
為了利用數(shù)據(jù)縮減中的兩條信道之間的冗余,如果使用一個π/4角度的取整旋轉(zhuǎn),在無損的基礎(chǔ)上可以使用中間-旁邊(middle-side)編碼。與計算立體聲信號左右聲道之間的和與差的替代方案相比,這種取整旋轉(zhuǎn)的好處是能夠保持能量。使用所謂的聯(lián)合立體聲編碼的技術(shù)可以打開或關(guān)閉每個頻段,如同在標(biāo)準(zhǔn)MPEG AAC中實(shí)現(xiàn)的。也可考慮其他的旋轉(zhuǎn)角度,以能夠更加靈活地減小兩個信道之間的冗余。
根據(jù)實(shí)際環(huán)境,根據(jù)本發(fā)明的編碼器概念和/或根據(jù)本發(fā)明的解碼器概念可以通過硬件或軟件實(shí)現(xiàn)。實(shí)現(xiàn)在數(shù)字存儲介質(zhì)上有效,尤其在具有電子可讀控制信號的軟盤或者CD上,它們可以與可編程的計算機(jī)系統(tǒng)協(xié)同工作,以實(shí)現(xiàn)相應(yīng)的方法。通常,本發(fā)明還包含具有存儲在機(jī)器可讀載體上的程序代碼的計算機(jī)程序產(chǎn)品,用于當(dāng)計算程序產(chǎn)品在計算機(jī)上執(zhí)行時實(shí)現(xiàn)本發(fā)明的編碼方法或本發(fā)明的解碼方法。換句話說,當(dāng)計算機(jī)程序在計算機(jī)上執(zhí)行時,本發(fā)明因此代表了具有能夠執(zhí)行解碼方法和/或能夠執(zhí)行編碼方法的計算機(jī)代碼的計算機(jī)程序。
權(quán)利要求
1.用于對包含音頻和/或視頻信息的信號頻譜進(jìn)行可擴(kuò)縮編碼的設(shè)備,其中頻譜包含二進(jìn)制頻譜值,該設(shè)備包括裝置(102),用于利用在頻段中的第一個數(shù)目的二進(jìn)制頻譜值的特定次序的比特生成第一個次級縮放層,其中第一個數(shù)目大于或等于1,且小于在頻段中的二進(jìn)制頻譜值的總數(shù),以及用于利用第二個數(shù)目的二進(jìn)制頻譜值的特定次序的比特來生成第二個次級縮放層,實(shí)現(xiàn)用于生成的裝置(102)以選擇二進(jìn)制頻譜值的第二個數(shù)目,使得這個數(shù)目大于或等于1,且小于頻段中二進(jìn)制頻譜值的總數(shù),并進(jìn)一步確定頻譜值的第二個數(shù)目,使得該數(shù)目包含至少一個不包括在第一個數(shù)目的二進(jìn)制頻譜值中的二進(jìn)制頻譜值;和裝置(106),用于形成編碼信號,實(shí)現(xiàn)用于形成的裝置以將第一個次級縮放層和第二個次級縮放層包含在編碼信號中,使得第一和第二個次級縮放層(113a,113b)可以彼此獨(dú)立地被編碼。
2.如權(quán)利要求1所述的設(shè)備,還包括用于在頻段中使用具有與特定次序不同的次序的所有比特來生成一個完全縮放層的裝置,以及進(jìn)一步實(shí)現(xiàn)用于形成的裝置(106),以把完全縮放層包含在比特流中,使得它可以獨(dú)立于第一和第二個次級縮放層(113a,113b)被編碼。
3.如權(quán)利要求1或2所述的設(shè)備,其中二進(jìn)制頻譜值被量化,該設(shè)備還包括用于為頻段計算心理聲學(xué)屏蔽閾值的最高有效位的次序的裝置(84),以及用于定義二進(jìn)制頻譜值的比特的縮放層的裝置(604),具有包含二進(jìn)制頻譜值位的縮放層,其次序與心理聲學(xué)屏蔽閾值最高有效位的次序具有特定的差,或者其次序與這些頻段的心理聲學(xué)屏蔽閾值的最高有效位的次序相等。
4.如權(quán)利要求3所述的設(shè)備,其中實(shí)現(xiàn)用于生成第一和第二個次級縮放層(113a,113b)的裝置(102),以將其用作二進(jìn)制頻譜值的比特的特定次序的比特,其與在頻段中的心理聲學(xué)屏蔽閾值最高有效位的次序的差等于“+1”,“0”和/或“-1”。
5.如權(quán)利要求3或4所述的設(shè)備,其中實(shí)現(xiàn)用來計算心理聲學(xué)屏蔽閾值最高有效位的次序的裝置(84),以為頻段中的每個頻譜值確定最高有效位的次序,或者為整個頻段確定心理聲學(xué)屏蔽閾值的最高有效位的次序。
6.如權(quán)利要求3到5中任一項(xiàng)所述的設(shè)備,其中進(jìn)一步實(shí)現(xiàn)用于形成的裝置(106),以將在心理聲學(xué)屏蔽閾值上的信息,如邊信息(110)包括到編碼信號中。
7.如前面任一項(xiàng)權(quán)利要求所述的設(shè)備,其中第一個次級縮放層在第二個次級縮放層之前被解碼,并且其中實(shí)現(xiàn)用于生成第一和第二個次級縮放層的裝置(102),以為第一個數(shù)目的二進(jìn)制頻譜值選擇頻譜值,通過它可獲得頻段的最大的精確度增益。
8.如權(quán)利要求1至7中任一項(xiàng)所述的設(shè)備,其中第一個次級縮放層在第二個次級縮放層之前被解碼,并且其中實(shí)現(xiàn)用于生成第一和第二個次級縮放層的裝置(102),以為第一個次級縮放層使用二進(jìn)制頻譜值,它通過較高縮放層的比特來表示,包括與頻段中的頻譜值的心理聲學(xué)屏蔽閾值的最大差值。
9.如前面任一項(xiàng)權(quán)利要求所述的設(shè)備,其中實(shí)現(xiàn)用于生成第一和第二個次級縮放層的裝置(102),以為第一個次級縮放層使用二進(jìn)制頻譜值,它通過較高縮放層的比特來表示,是頻段中的最小量化頻譜值。
10.如前面任一項(xiàng)權(quán)利要求所述的設(shè)備,其中通過整數(shù)MDCT從信號的時間采樣值生成頻譜值。
11.如權(quán)利要求1或2所述的設(shè)備,其中使用心理聲學(xué)和/或心理光學(xué)模型(82)來量化頻譜值。
12.如權(quán)利要求11所述的設(shè)備,其中實(shí)現(xiàn)用來生成第一和第二個次級縮放層的裝置(102),以使用頻段中的特定恒定次序的比特。
13.如權(quán)利要求11或12所述的設(shè)備,其中特定次序包括經(jīng)過量化的二進(jìn)制頻譜值的比特的最低有效次序。
14.如前面任一項(xiàng)權(quán)利要求所述的設(shè)備,其中一個頻段包含m個頻譜值,m大于或等于2,并且其中實(shí)現(xiàn)用于生成第一和第二個次級縮放層的裝置(102),以計算次級縮放層的第一和第二個數(shù)目,使得它們最大等于m、最小等于1,其中,在存在m個次級縮放層的情況下,每個次級縮放層包括恰好一個頻譜值的特定次序的一個比特,對于該特定次序在一個次級縮放層中僅存在一個頻譜值。
15.如權(quán)利要求14所述的設(shè)備,其中m等于4。
16.如前面任一項(xiàng)權(quán)利要求所述的設(shè)備,其中實(shí)現(xiàn)用于生成第一和第二個次級縮放層的裝置(102),以對特定次序的量化頻譜值的第一個和/或第二個數(shù)目的比特進(jìn)行算術(shù)編碼。
17.用于對包含第一和第二個次級縮放層的編碼信號進(jìn)行擴(kuò)縮解碼的設(shè)備,第一個次級縮放層包含一個頻段中第一個數(shù)目的二進(jìn)制頻譜值的特定次序的比特,第二個次級縮放層包含頻段中第二個數(shù)目的二進(jìn)制頻譜值的特定次序的比特,第二個數(shù)目包含至少一個不包括在第一個數(shù)目中的頻譜值,該設(shè)備包括用于從編碼信號抽取第一個次級縮放層和從編碼信號抽取第二個次級縮放層的裝置(704);以及用于處理第一個次級縮放層和第二個次級縮放層的裝置,以確定在頻段中的二進(jìn)制量化頻譜值的特定次序的比特。
18.如權(quán)利要求17所述的設(shè)備,其中為第一個次級縮放層選擇第一個數(shù)目的二進(jìn)制頻譜值,以為頻段獲得最大精確度增益,其中實(shí)現(xiàn)用于抽取的裝置(704),以在第二個次級縮放層之前抽取第一個次級縮放層。
19.用于對包括音頻和/或視頻信息的信號頻譜進(jìn)行可擴(kuò)縮編碼的方法,頻譜包括二進(jìn)制頻譜值,該方法包括以下步驟利用在頻段中的第一個數(shù)目的二進(jìn)制頻譜值的特定次序的比特生成(102)第一個次級縮放層,第一個數(shù)目大于或等于1,且小于在頻段中二進(jìn)制頻譜值的總數(shù),利用第二個數(shù)目的二進(jìn)制頻譜值的特定次序的比特生成第二個次級縮放層,其中實(shí)現(xiàn)用于生成的裝置(102),以選擇第二個數(shù)目的二進(jìn)制頻譜值,使得此數(shù)目大于或等于1,且小于在頻段中二進(jìn)制頻譜值的總數(shù),并進(jìn)一步確定頻譜值的第二個數(shù)目,這個數(shù)目包含至少一個不包括在第一個數(shù)目的二進(jìn)制頻譜值中的二進(jìn)制頻譜值;形成(106)一個編碼信號,實(shí)現(xiàn)用于形成的裝置,以將第一個次級縮放層和第二個次級縮放層包括到編碼信號中,使得第一和第二個次級縮放層(113a,113b)可以彼此獨(dú)立地被編碼。
20.用于對包含第一個和第二個次級縮放層的編碼信號進(jìn)行擴(kuò)縮解碼的方法,第一個次級縮放層包含在頻段中第一個數(shù)目的二進(jìn)制頻譜值的特定次序的比特,第二個次級縮放層包含在頻段中第二個數(shù)目的二進(jìn)制頻譜值的特定次序的比特,其中,第二個數(shù)目包含至少一個不包括在第一個數(shù)目中的頻譜值,該方法包括以下步驟從編碼信號抽取(704)第一個次級縮放層和從編碼信號抽取第二縮放層,并且處理第一個次級縮放層和第二個次級縮放層,以確定在頻段中的二進(jìn)制量化頻譜值的特定次序的比特。
21.一種計算機(jī)程序,當(dāng)程序在計算機(jī)上執(zhí)行時,具有用于實(shí)現(xiàn)權(quán)利要求19或權(quán)利要求20所述方法的程序代碼。
全文摘要
本發(fā)明涉及一種用于對包含音頻和/或視頻信息的信號的頻譜進(jìn)行擴(kuò)縮編碼的設(shè)備。其中頻譜包含分組為頻段的二進(jìn)制頻譜值。所述設(shè)備包括一個用于用于生成第一個次級縮放層和第二個次級縮放層的裝置(102),以及用于形成編碼信號的裝置(106),以將第一個次級縮放層和第二個次級縮放層包含在編碼信號中,使得第一個和第二個次級縮放層可彼此獨(dú)立地被解碼。與完全縮放層相比,局部縮放層僅僅包括頻段中的一部分二進(jìn)制頻譜值的特定次序的比特,這樣通過對局部縮放層進(jìn)行額外解碼,可以得到更好的可控和更好的可擴(kuò)縮精確度增益。
文檔編號G10L19/032GK1675683SQ03819055
公開日2005年9月28日 申請日期2003年8月4日 優(yōu)先權(quán)日2002年8月9日
發(fā)明者拉爾夫·蓋格, 托馬斯·斯波爾, 拉爾勒赫恩茲·布蘭登堡, 朱爾根·赫爾, 朱爾根·科勒爾, 杰拉爾德·舒勒 申請人:弗蘭霍菲爾運(yùn)輸應(yīng)用研究公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
巫溪县| 新蔡县| 沙田区| 绍兴市| 定南县| 确山县| 宝清县| 浦江县| 修水县| 红安县| 卓尼县| 新源县| 临江市| 松溪县| 惠水县| 六安市| 景东| 蒙城县| 沂南县| 吉首市| 宣恩县| 长沙县| 交口县| 襄樊市| 江门市| 开封县| 贵定县| 大埔县| 静乐县| 内丘县| 张家港市| 马龙县| 胶南市| 叶城县| 松阳县| 石狮市| 新平| 榆树市| 贵州省| 肇州县| 沅陵县|