專利名稱:基于改進(jìn)型離散余弦變換的復(fù)數(shù)預(yù)測(cè)立體聲編碼的制作方法
技術(shù)領(lǐng)域:
這里公開(kāi)的本發(fā)明總的來(lái)說(shuō)涉及立體聲音頻編碼,更確切地,涉及在頻域中使用復(fù)數(shù)預(yù)測(cè)進(jìn)行立體聲編碼的技術(shù)。
背景技術(shù):
立體聲信號(hào)左(L)和右(R)聲道的聯(lián)合編碼與L和R的獨(dú)立編碼相比能夠更有效地編碼。用于聯(lián)合立體聲編碼的普通方法是中/側(cè)(mid/side,M/S)編碼。這里,中間(M)信號(hào)通過(guò)將L和R信號(hào)相加而形成,例如,該M信號(hào)可具有如下形式:M= (L+R) /2此外,側(cè)邊(side,S)信號(hào)通過(guò)將兩聲道L和R信號(hào)相減而形成,例如,該S信號(hào)可具有如下形式:S= (L-R) /2在M/S編碼情況下,M和S "[目號(hào)而不是L和R "[目號(hào)被編碼。在運(yùn)動(dòng)圖像專家組(Moving Picture Experts Group, MPEG)高級(jí)音頻編碼(Advanced Audio Coding, AAC)標(biāo)準(zhǔn)中(見(jiàn)標(biāo)準(zhǔn)文件IS0/IEC13818-7),能夠以時(shí)變和頻變方式選擇L/R立體聲編碼和M/S立體聲編碼。因此,立體聲編碼器能夠?qū)αⅢw聲信號(hào)的某些頻帶應(yīng)用L/R編碼,而M/S編碼用于編碼該立體聲信號(hào)的其他頻帶(頻變)。此外,該編碼器能夠隨時(shí)間在L/R和M/S編碼之間切換(時(shí)變)。在MPEG AAC中,立體聲編碼在頻域中進(jìn)行,更具體而言,在改進(jìn)型離散余弦變換(modified discretecosine transform, MDCT)域中進(jìn)行。這允許以頻率和時(shí)間可變的方式自適應(yīng)地選擇L/R或M/S編碼。參數(shù)立體聲編碼是用于有效地將立體聲音頻信號(hào)編碼為單耳聽(tīng)覺(jué)信號(hào)加少量用于立體聲參數(shù)的邊信息的技術(shù)。其是MPEG-4音頻標(biāo)準(zhǔn)(見(jiàn)標(biāo)準(zhǔn)文件IS0/IEC 14496-3)的一部分。能夠使用任何音頻編碼器對(duì)單耳聽(tīng)覺(jué)信號(hào)編碼。立體聲參數(shù)可被嵌入單聲道比特流的輔助部分,從而實(shí)現(xiàn)完全的向前和向后兼容。在解碼器中,首先解碼的是單耳聽(tīng)覺(jué)信號(hào),在這之后,借助于立體聲參數(shù)重建立體聲信號(hào)。通過(guò)去相關(guān)器(例如,可包括一條或更多條延遲線的適當(dāng)?shù)娜V波器)來(lái)產(chǎn)生已解碼單聲道信號(hào)的去相關(guān)版本,其與單聲道信號(hào)零互相關(guān)。本質(zhì)上,已去相關(guān)信號(hào)具有與單聲道信號(hào)相同的頻譜和時(shí)間能量分布。單耳聽(tīng)覺(jué)信號(hào)連同已去相關(guān)信號(hào)被輸入到通過(guò)立體聲參數(shù)來(lái)控制并重建立體聲信號(hào)的上混(up-mix)處理。更多信息參見(jiàn) H.Purnhagen 所著的論文:“Low complexity ParametricStereoCoding in MPEG-4 (MPEG-4中的低復(fù)雜度參數(shù)立體聲編碼)”(第七屆數(shù)字音頻影響國(guó)際會(huì)議(DAFx’ 04)會(huì)刊,意大利那不勒斯,2004年10月5-8日,第163至168頁(yè))。MPEG 環(huán)繞(MPS ;見(jiàn) IS0/IEC 23003-1 和 J.Herre 等人所著的論文 〃MPEGSurround-The IS0/MPEG Standard for Efficient and CompatibleMult1-Channel AudioCoding (MPEG環(huán)繞——用于有效且兼容的多聲道音頻編碼的IS0/MPEG標(biāo)準(zhǔn))〃(音頻工程大會(huì)論文7084,第122屆大會(huì),2007年5月5_8日))允許將參數(shù)立體聲編碼原理與殘留編碼結(jié)合、用發(fā)送的殘留信號(hào)代替去相關(guān)信號(hào),從而提高感知質(zhì)量。通過(guò)下混(down-mix)多聲道信號(hào),并且可選地,通過(guò)提取空間線索,可實(shí)現(xiàn)殘留編碼。在下混處理期間,代表誤差信號(hào)的殘留信號(hào)被計(jì)算,并且然后被編碼和發(fā)送。在解碼器中,它們可代替去相關(guān)信號(hào)。在混合的方法中,在某些頻帶中(優(yōu)選在相對(duì)低的頻帶中),它們可代替去相關(guān)信號(hào)。根據(jù)當(dāng)前的MPEG統(tǒng)一語(yǔ)音和音頻編碼(Unified Speech and AudioCoding,USAC)系統(tǒng)(其兩個(gè)示例在
圖1中示出),解碼器包括位于核心解碼器下游的復(fù)數(shù)值的正交鏡像濾波器(quadrature mirror filter, QMF)組。作為濾波器組輸出而獲得的QMF表示是復(fù)數(shù)(因此通過(guò)因子2過(guò)采樣),并可被布置作為下混信號(hào)(或相當(dāng)于中間信號(hào))M和殘留信號(hào)D,帶有復(fù)數(shù)條目的上混矩陣被施加到所述下混信號(hào)的殘留信號(hào)。L和R信號(hào)(在QMF域中)如下獲得:
權(quán)利要求
1.一種解碼器系統(tǒng),該解碼器系統(tǒng)用于通過(guò)復(fù)數(shù)預(yù)測(cè)立體聲編碼來(lái)提供立體聲信號(hào),該解碼器系統(tǒng)包括:上混級(jí)(206、207、210、211 ;306、307、308、309、312 ;406、407、408、409 ;1410 ;1421 ;1433),該上混級(jí)被適配為基于下混信號(hào)(M)和殘留信號(hào)(D)的第一頻域表示來(lái)產(chǎn)生所述立體聲信號(hào),每個(gè)所述第一頻域表示包括第一頻譜分量,該第一頻譜分量代表相應(yīng)信號(hào)的在多維空間的第一子空間中表示的頻譜內(nèi)容,所述上混級(jí)包括: 基于所述下混信號(hào)的第一頻域表示來(lái)計(jì)算所述下混信號(hào)的第二頻域表示的模塊(206;306,307 ;408),所述第二頻域表示包括第二頻譜分量,該第二頻譜分量代表所述信號(hào)的在所述多維空間的第二子空間中表示的頻譜內(nèi)容,所述第二子空間包括所述多維空間的不含在所述第一子空間內(nèi)的部分; 加權(quán)求和器(210、211 ;308、309 ;406、407),該加權(quán)求和器基于所述下混信號(hào)的第一頻域表示和第二頻域表示、所述殘留信號(hào)的第一頻域表示和編碼在比特流信號(hào)中的復(fù)數(shù)預(yù)測(cè)系數(shù)(α )來(lái)計(jì)算側(cè)邊信號(hào)(S),和 求和與求差級(jí)(207 ;312 ;409),該求和與求差級(jí)基于所述下混信號(hào)的第一頻域表示和所述側(cè)邊信號(hào)來(lái)計(jì)算所述立體聲信號(hào), 其中所述上混級(jí)被適配為對(duì)所述下混信號(hào)和所述殘留信號(hào)施加獨(dú)立的帶寬限制。
2.如權(quán)利要求1所述的解碼器系統(tǒng),其中,要被施加的所述帶寬限制由兩個(gè)數(shù)據(jù)字段來(lái)表示,為所述信號(hào)中的每個(gè)指示要被解碼的最高頻帶。
3.如權(quán)利要求2所述的解碼器系統(tǒng),該解碼器系統(tǒng)被適配為接收MPEG比特流,其中,每個(gè)所述數(shù)據(jù)字段被編碼為值max_sfb。
4.如前述權(quán)利要求的任何一個(gè)所述的解碼器系統(tǒng),還包括:` 反量化級(jí)(202 ;301 ;401),所述反量化級(jí)被布置在所述上混級(jí)的上游,用于基于比特流信號(hào)來(lái)提供所述下混信號(hào)(M)和殘留信號(hào)(D)的第一頻域表示。
5.如前述權(quán)利要求的任何一個(gè)所述的解碼器系統(tǒng),其中: 所述第一頻譜分量具有在所述第一子空間中表示的實(shí)值; 所述第二頻譜分量具有在所述第二子空間中表示的虛值; 所述第一頻譜分量能夠選擇性地通過(guò)下述方式之一獲得: 離散余弦變換DCT,或 改進(jìn)型離散余弦變換MDCT, 并且,第二頻譜分量能夠選擇性地通過(guò)下述方式之一獲得: 離散正弦變換DST,或 改進(jìn)型離散正弦變換MDST。
6.如前述權(quán)利要求的任何一個(gè)所述的解碼器系統(tǒng),還包括至少一個(gè)布置在所述上混級(jí)上游的時(shí)域噪音成形(TNS)模塊(204 ;303 ;403);以及 布置在所述上混級(jí)下游的至少一個(gè)另外的時(shí)域噪音成形模塊(410);以及 用于選擇性地激活以下二者之一的選擇器裝置(404、411): Ca)在所述上混級(jí)上游的所述時(shí)域噪音成形模塊,或 (b)在所述上混級(jí)下游的所述另外的時(shí)域噪音成形模塊。
7.如權(quán)利要求5所述的解碼器,其中:所述下混信號(hào)被分割成連續(xù)時(shí)間幀,每個(gè)所述時(shí)間幀與復(fù)數(shù)預(yù)測(cè)系數(shù)的值相關(guān),以及用于計(jì)算所述下混信號(hào)的第二頻域表示的模塊被適配為:響應(yīng)于在一時(shí)間幀內(nèi)所述復(fù)數(shù)預(yù)測(cè)系數(shù)的虛部的絕對(duì)值小于預(yù)定容限而去激活自身,使得在所述時(shí)間幀內(nèi)所述模塊不產(chǎn)生輸出。
8.如前述權(quán)利要求的任何一個(gè)所述的解碼器系統(tǒng),其中: 所述第一頻譜分量是變換系數(shù)中的布置在一個(gè)或更多個(gè)時(shí)間幀中的變換系數(shù),每一塊通過(guò)對(duì)一時(shí)間段的時(shí)域信號(hào)施加變換來(lái)產(chǎn)生;以及 用于計(jì)算所述下混信號(hào)的第二頻域表示的模塊被適配為: 從所述第一頻譜分量中的至少一些中導(dǎo)出一個(gè)或更多個(gè)第一中間分量; 根據(jù)一個(gè)或更多個(gè)脈沖響應(yīng)的至少一部分來(lái)形成所述一個(gè)或更多第一頻譜分量的組合,以獲得一個(gè)或更多個(gè)第二中間分量;以及 從所述一個(gè)或更多個(gè)第二中間分量中導(dǎo)出所述一個(gè)或更多個(gè)第二頻譜分量。
9.如權(quán)利要求8所述的解碼器系統(tǒng),其中,用于計(jì)算所述下混信號(hào)的第二頻域表示的模塊被適配為基于以下中的一個(gè)來(lái)獲得第二頻譜分量的每個(gè)時(shí)間幀: (a)所述第一頻譜分量的同時(shí)的時(shí)間幀; (b)所述第一頻譜分量的同時(shí)的時(shí)間幀和前一時(shí)間幀;以及 (c)所述第一頻譜分量的同時(shí)的時(shí)間幀、前一時(shí)間幀和后一時(shí)間幀。
10.如前述權(quán)利要求的任何一個(gè)所述的解碼器系統(tǒng),其中用于計(jì)算所述下混信號(hào)的第二頻域表示的模塊被適配為:計(jì)算近似第二頻譜表示,該近似第二頻譜表示包括通過(guò)至少兩個(gè)時(shí)間相鄰和/或頻率相鄰的第一頻譜分量的組合而確定的近似第二頻譜分量。
11.如前述權(quán)利要求的任何一個(gè)所述的解碼器系統(tǒng),所述立體聲信號(hào)被表示在時(shí)域中,并且所述解碼器系統(tǒng)還包括: 布置在所述反量化級(jí)和所述上混級(jí)之間的切換組件(203),該切換組件可操作地作為: (a)通過(guò)級(jí),或 (b)求和與求差級(jí), 使得能夠在直接和聯(lián)合編碼的立體聲輸入信號(hào)之間切換; 逆變換級(jí)(209),該逆變換級(jí)被適配為計(jì)算所述立體聲信號(hào)的時(shí)域表示;以及選擇器裝置(208),該選擇器裝置布置在所述逆變換級(jí)的上游,被適配為選擇性地將所述逆變換級(jí)連接到: Ca)在所述上混級(jí)下游的點(diǎn),使得通過(guò)復(fù)數(shù)預(yù)測(cè)而獲得的立體聲信號(hào)被提供給所述逆變換級(jí);或 (b)在所述切換組件(203)下游并在所述上混級(jí)上游的點(diǎn),使得通過(guò)直接立體聲編碼而獲得的立體聲信號(hào)被提供給所述逆變換級(jí)。
12.如前述權(quán)利要求的任何一個(gè)所述的解碼器系統(tǒng),其中用于計(jì)算所述下混信號(hào)的第二頻域表示的模塊包括: 逆變換級(jí)(306),該逆變換級(jí)用于基于所述多維空間的所述第一子空間中相應(yīng)信號(hào)的第一頻域表示來(lái)計(jì)算所述側(cè)邊信號(hào)和/或所述下混信號(hào)的時(shí)域表示;以及 變換級(jí)(307),該變換級(jí)基于所述信號(hào)的時(shí)域表示來(lái)計(jì)算所述相應(yīng)信號(hào)的第二頻域表示, 其中,所述逆變換級(jí)(306)優(yōu)選地執(zhí)行逆改進(jìn)型離散余弦變換MDCT,以及所述變換級(jí)執(zhí)行改進(jìn)型離散正弦變換MDST。
13.如權(quán)利要求12所述的解碼器系統(tǒng),所述立體聲信號(hào)被表示在時(shí)域中,并且所述解碼器系統(tǒng)還包括: 切換組件(302),該切換組件布置在所述反量化級(jí)和所述上混級(jí)之間,可操作地作為: (a)通過(guò)級(jí),用于聯(lián)合立體聲編碼;或 (b)求和與求差級(jí),用于直接立體聲編碼; 又一逆變換級(jí)(311 ),該又一逆變換級(jí)被布置在所述上混級(jí)中,用于計(jì)算所述側(cè)邊信號(hào)的時(shí)域表示; 選擇器裝置(305、310),所述選擇器裝置被布置在所述逆變換級(jí)(306、301)上游,被適配為選擇性地將所述逆變換級(jí)連接到: Ca)又一求和與求差級(jí)(304),該求和與求差級(jí)(304)又被連接到在所述切換組件(302)下游并在所述上混級(jí)上游的點(diǎn);或 (b)從所述切換組件(302)中獲得的下混信號(hào)和從所述加權(quán)求和器(308、309)中獲得的側(cè)邊信號(hào)。
14.一種解碼方法,用于將通過(guò)復(fù)數(shù)預(yù)測(cè)立體聲編碼而編碼的輸入立體聲信號(hào)上混為輸出立體聲信號(hào),其中:` 所述輸入立體聲信號(hào)包括下混聲道(M)和殘留聲道(D)的第一頻域表示以及復(fù)數(shù)預(yù)測(cè)系數(shù)U);且 每個(gè)所述第一頻域表示包括第一頻譜分量,該第一頻譜分量代表對(duì)應(yīng)信號(hào)的在多維空間的第一子空間中表示的頻譜內(nèi)容, 所述方法由上混級(jí)執(zhí)行并包括以下步驟: 基于所述下混聲道的第一頻域表示來(lái)計(jì)算所述下混聲道的第二頻域表示,所述第二頻域表示包括第二頻譜分量,該第二頻譜分量代表所述信號(hào)的在所述多維空間的第二子空間表示的頻譜內(nèi)容,所述多維空間的所述第二子空間包括所述多維空間的不包含在所述第一子空間內(nèi)的部分;以及 基于所述下混信號(hào)的第一和第二頻域表示、所述殘留信號(hào)的第一頻域表示和所述復(fù)數(shù)預(yù)測(cè)系數(shù)來(lái)計(jì)算側(cè)邊聲道, 其中,對(duì)下混信號(hào)和殘留信號(hào)施加獨(dú)立的帶寬限制。
15.—種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括存儲(chǔ)指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)所述指令被通用計(jì)算機(jī)執(zhí)行時(shí),所述指令執(zhí)行如權(quán)利要求14中所述的方法。
全文摘要
本發(fā)明提供了在頻域中使用復(fù)數(shù)預(yù)測(cè)進(jìn)行立體聲編碼和解碼的方法和裝置。在一個(gè)實(shí)施例中,一種用于從通過(guò)復(fù)數(shù)預(yù)測(cè)編碼而編碼的并包括兩個(gè)輸入聲道的第一頻域表示的輸入立體聲信號(hào)中獲得輸出立體聲信號(hào)的解碼方法包括以下的上混步驟(i)計(jì)算第一輸入聲道的第二頻域表示;以及(ii)基于第一輸入聲道的第一和第二頻域表示、第二輸入聲道的第一頻域表示和復(fù)數(shù)預(yù)測(cè)系數(shù)來(lái)計(jì)算輸出聲道。該方法包括為輸入聲道施加獨(dú)立的帶寬限制。
文檔編號(hào)G10L19/00GK103119647SQ201180025305
公開(kāi)日2013年5月22日 申請(qǐng)日期2011年4月6日 優(yōu)先權(quán)日2010年4月9日
發(fā)明者??啤て諣柟? 蓬圖斯·卡爾森, 拉爾斯·維爾默斯 申請(qǐng)人:杜比國(guó)際公司