一種基于張量分解的多聲道音頻信號(hào)壓縮方法

文檔序號(hào)：2833743閱讀：472來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種基于張量分解的多聲道音頻信號(hào)壓縮方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種多聲道音頻信號(hào)壓縮方法，尤其是一種基于張量分解的多聲道信號(hào)壓縮方法，屬于音頻信號(hào)處理技術(shù)領(lǐng)域，尤其是空間音頻編解碼技術(shù)領(lǐng)域。
背景技術(shù)：
在數(shù)字音頻應(yīng)用領(lǐng)域，多聲道音頻能夠提供臨場(chǎng)感的環(huán)繞聲音感受，這是傳統(tǒng)立體聲信號(hào)所不能提供的。隨著人們對(duì)數(shù)字音頻信號(hào)的高享受的需求，高效的音頻信號(hào)壓縮方法越來越被研究者重視。為了產(chǎn)生空間環(huán)繞的效果，多聲道信號(hào)編解碼技術(shù)例如DolbyAC-3,DTS以及MPEG Surround等相繼被提出，這些方法在編碼端大多需要傳輸由多聲道下混后的單聲道或立體聲信號(hào)，并提取空間音頻參數(shù)一并傳輸，以便在解碼端再上混為多聲道信號(hào)。隨著虛擬現(xiàn)實(shí)、3D游戲、高質(zhì)量視頻會(huì)議等交互式音頻應(yīng)用的發(fā)展，多聲道音頻信號(hào)需要以盡可能低的速率壓縮傳輸，而聲道數(shù)目的增多(甚至于幾百聲道)難以有較大程度的壓縮效果，如何利用聲道間和聲道內(nèi)的相關(guān)性進(jìn)行高效壓縮是多聲道音頻編碼領(lǐng)域的關(guān)鍵問題。多聲道信號(hào)相比傳統(tǒng)的單聲道和立體聲信號(hào)研究的影響因素增多，至少涉及聲道、時(shí)域、頻域三種因素，構(gòu)成一種高階信號(hào)空間，適合用張量結(jié)構(gòu)表示和分析，進(jìn)而通過構(gòu)建張量信號(hào)利用張量分解方法進(jìn)行低秩近似達(dá)到壓縮的目的。張量分析方法近十年來在三維圖像處理、說話人識(shí)別、數(shù)據(jù)挖掘等信號(hào)處理領(lǐng)域已有廣泛應(yīng)用，例如在語音信號(hào)的特征提取方面，Jeong等人提出了利用張量分析對(duì)語音信號(hào)的訓(xùn)練模型狀態(tài)、特征維度、說話人、噪聲空間進(jìn)行多線性奇異值分析的方法;Mesgarani等人提出了聲音信號(hào)從耳蝸到大腦皮層階段產(chǎn)生的多尺度暫態(tài)語譜圖特征，利用多線性降維技術(shù)進(jìn)行處理，可以在低信噪比或者高回響的環(huán)境下或得較高的分辨率；我國公開號(hào)為CN102592593A (
公開日為2012年7月18日)的專利“一種考慮語音中多線性群組稀疏性的情緒特征提取方法”，考慮了語音信號(hào)中包括的時(shí)間、頻率、尺度、方向信息的多重因素，利用多線性群組稀疏分解的方法進(jìn)行特征提取。而在多聲道音頻信號(hào)處理領(lǐng)域，尚未見有運(yùn)用張量分解進(jìn)行空間音頻表示和壓縮的應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明的目的是為了充分表征和高效壓縮多聲道音頻信號(hào)，提出了一種基于張量分解的多聲道音頻信號(hào)壓縮方法，解決了傳統(tǒng)多聲道音頻編解碼只能用矢量或矩陣代數(shù)進(jìn)行運(yùn)算，不能同時(shí)考慮聲道和時(shí)頻的多因素影響的問題。為了實(shí)現(xiàn)上述目的，本發(fā)明方法的基本思路是對(duì)多聲道音頻信號(hào)，首先在編碼端，將每個(gè)聲道的音頻信號(hào)通過交疊分幀和時(shí)頻變換，對(duì)變換后的多聲道信號(hào)建立包含聲道、時(shí)域和頻域的三階張量信號(hào)，并利用張量分解進(jìn)行低秩近似，得到低秩核張量和三個(gè)低秩投影矩陣，其中低秩核張量用于量化編碼壓縮，三個(gè)低秩投影矩陣用于訓(xùn)練過程，在解碼端，將解量化和解碼后的低秩核張量結(jié)合事先訓(xùn)練好的三個(gè)低秩投影矩陣，通過張量信號(hào)重構(gòu)過程得到變換域的多聲道信號(hào)，最后對(duì)每個(gè)聲道信號(hào)進(jìn)行反變換，并通過交疊相加恢復(fù)原來的每個(gè)聲道的音頻信號(hào)。本發(fā)明所述一種基于張量分解的多聲道音頻信號(hào)壓縮方法，包括以下步驟步驟一在編碼端，對(duì)待處理的聲道數(shù)目為R的多聲道音頻信號(hào)，首先將每個(gè)聲道的音頻信號(hào)采用漢明窗進(jìn)行分幀，幀長為L，幀移為M，從而把每個(gè)聲道的音頻信號(hào)分成N幀，順序排列后得到每個(gè)聲道的幀序列；步驟二對(duì)每個(gè)聲道，對(duì)分幀后的每幀音頻信號(hào)分別進(jìn)行時(shí)頻變換，每幀音頻信號(hào)經(jīng)過該時(shí)頻變換后得到長度為S的頻域系數(shù)；若每幀音頻信號(hào)補(bǔ)零后進(jìn)行時(shí)頻變換，則S大于L ;
若每幀音頻信號(hào)直接進(jìn)行時(shí)頻變換，則S等于L ;若每幀音頻信號(hào)直接進(jìn)行時(shí)頻變換后只保留能量較大的頻域系數(shù)，則S小于L ；若每幀音頻信號(hào)補(bǔ)零后進(jìn)行時(shí)頻變換后只保留能量較大的頻域系數(shù)，則S的大小視具體補(bǔ)零的長度以及保留頻域系數(shù)的個(gè)數(shù)而定；所述的時(shí)頻變換為正交變換；所述的時(shí)頻變換優(yōu)選采用DCT離散余弦變換；步驟三對(duì)每個(gè)聲道，將每一幀所對(duì)應(yīng)的長度為S的頻域系數(shù)作為矩陣的每一行，即將N幀音頻信號(hào)的頻域系數(shù)構(gòu)成一個(gè)大小為NXS的系數(shù)矩陣；將所有R個(gè)聲道的系數(shù)矩陣進(jìn)行依次排列，構(gòu)成大小為RXNXS的三階張量信號(hào)X，所述的三階分別稱為聲道序列階、幀序列階、頻域系數(shù)階；步驟四對(duì)步驟三構(gòu)造的三階張量信號(hào)X進(jìn)行張量分解，即分解為GX1U(DX2W) X3U⑶ (I)其中U⑴、U⑵、U(3)彼此之間正交，分別代表張量信號(hào)在聲道序列階、幀序列階、頻域系數(shù)階上進(jìn)行投影的主分量，即，U⑴為該張量信號(hào)分解時(shí)在聲道序列階進(jìn)行秩為O的低秩投影矩陣，矩陣大小為RX0，其中參數(shù)O應(yīng)滿足1<0<R;U 為該張量信號(hào)分解時(shí)在幀序列階進(jìn)行秩為P的低秩投影矩陣，大小為NXP，其中參數(shù)P應(yīng)滿足I< P < N ;U(3)為張量信號(hào)分解時(shí)在頻域系數(shù)階進(jìn)行的秩為Q的低秩投影矩陣，大小為SXQ，其中參數(shù)Q應(yīng)滿足KQSS;G為三階低秩核張量，在聲道序列階、幀序列階、頻域系數(shù)階上的維度分別是上述的O、P、Q，核張量G通過下式計(jì)算得到G =(2)符號(hào)T表示偽逆，Xp X2, X3分別表示張量第一階、第二階、第三階的張量矩陣乘，張量矩陣乘定義如下設(shè)有一個(gè)大小為I1X I2 X…X In的N階張量H，一個(gè)大小為JX In的矩陣Α，則張量的η階矩陣乘HXnA的結(jié)果是一個(gè)大小為I1X I2X…X IlriX JX Ιη+1 X…X In的N階張量，其中KnSN;作為優(yōu)選，步驟四中，所述張量分解時(shí)求取低秩投影矩陣采用ALS交替最小二乘法，或者HOSVD高階奇異值分解的方法；
作為優(yōu)選，在幀序列階上不進(jìn)行低秩投影，即P=N，而在聲道序列階和頻域系數(shù)階上進(jìn)行低秩投影，即I彡0<1 且1彡0<5。步驟五對(duì)步驟四得到的三階低秩核張量G進(jìn)行降維獲得一維序列，然后對(duì)該一維序列進(jìn)行量化編碼，獲得壓縮后的比特流數(shù)據(jù)，用于傳輸或存儲(chǔ)，而低秩投影矩陣U(1)、U⑵、u(3)不進(jìn)行量化編碼處理；步驟六在解碼端，對(duì)壓縮后的比特流數(shù)據(jù)進(jìn)行與步驟五中量化編碼方法相應(yīng)的解碼和解量化，再進(jìn)行與步驟五相應(yīng)的升維處理，得到恢復(fù)后的低秩核張量G’ ；結(jié)合預(yù)先訓(xùn)練得到的三個(gè)低秩投影矩陣U’(1)、U'⑵、U' (3)，進(jìn)行張量信號(hào)重構(gòu)得到恢復(fù)后的三階張量信號(hào)Y，重構(gòu)表示為、Y = G' X1U' (1)X 2U，⑵ X 3U，⑶ (4)其中張量信號(hào)Y在聲道序列階、幀序列階、頻域系數(shù)階上的維度分別是R、N、S ;其中所述所述預(yù)先訓(xùn)練得到三個(gè)低秩投影矩陣U’ (1)、U, (2)、U, (3)的方法為選取V組多聲道音頻信號(hào)，每組的聲道數(shù)目均為R個(gè)，對(duì)每組多聲道音頻信號(hào)重復(fù)上述的步驟一、二、三、四，得到V組低秩投影矩陣Uv(1)、UV⑵、Uv(3)，其中I彡V彡V，將V組低秩投影矩陣UV(1)、UV(2)、UV(3)分別進(jìn)行平均，即得到訓(xùn)練后的低秩投影矩陣U’(1)、u’ (2)、u’(3);作為優(yōu)選，V ^ 10 ；步驟七步驟六得到的RXNX S的三階張量信號(hào)Y中包含R個(gè)聲道的N個(gè)幀，其中每幀長度為S，從Y中抽取每個(gè)聲道的NXS系數(shù)矩陣，對(duì)矩陣的每行的S個(gè)數(shù)據(jù)，分別進(jìn)行與步驟二相應(yīng)的時(shí)頻反變換，得到恢復(fù)的每幀音頻信號(hào)；作為優(yōu)選，若步驟二所述的時(shí)頻變換采用離散余弦變換DCT，則步驟七所述的時(shí)頻反變換采用反離散余弦變換IDCT。步驟八將步驟七得到的每個(gè)聲道的每幀音頻信號(hào)通過交疊相加恢復(fù)每個(gè)聲道的音頻信號(hào)，幀長為L，幀間交疊長度為M。對(duì)比現(xiàn)有技術(shù)，本發(fā)明的有益效果在于本發(fā)明考慮了多聲道音頻信號(hào)同時(shí)受到聲道、時(shí)域、頻域三方面因素影響的特點(diǎn)，將多聲道音頻信號(hào)通過時(shí)頻變換和張量分解轉(zhuǎn)換為低秩核張量進(jìn)行編解碼，從而更好的利用聲道間和聲道內(nèi)的相關(guān)性去處冗余信息，達(dá)到高效壓縮的目的。本發(fā)明結(jié)合時(shí)頻變換和張量分解對(duì)多聲道音頻信號(hào)進(jìn)行分析和壓縮，相比傳統(tǒng)的多聲道音頻編解碼方法增強(qiáng)了對(duì)聲道間冗余信息的壓縮能力，且不需要傳輸額外的空間參數(shù)信息，能夠提高多聲道音頻信號(hào)的壓縮效果。

圖1是利用張量分解對(duì)多聲道音頻信號(hào)進(jìn)行編解碼的流程圖；圖2是張量/[目號(hào)構(gòu)造不意圖；圖3是本發(fā)明具體實(shí)施例中5.1聲道音頻信號(hào)壓縮后的MUSHRA主觀質(zhì)量測(cè)試結(jié)果圖。
具體實(shí)施例方式下面將結(jié)合附圖和實(shí)施例對(duì)本發(fā)明加以詳細(xì)說明，同時(shí)也敘述了本發(fā)明技術(shù)方案解決的技術(shù)問題及有益效果，需要指出的是，所描述的實(shí)施例僅旨在便于對(duì)本發(fā)明的理解，而對(duì)其不起任何限定作用。如圖1所示，本發(fā)明的基于張量分解的多聲道音頻信號(hào)壓縮方法的一個(gè)具體實(shí)施例包括以下步驟步驟一編碼端，對(duì)待處理的多聲道音頻信號(hào)(聲道數(shù)目為R)，首先將每個(gè)聲道的音頻信號(hào)采用漢明窗進(jìn)行分幀，幀長為L，幀移為M，從而把音頻信號(hào)分成N幀，順序排列后得到每個(gè)聲道的幀序列；以5.1聲道的空間音頻信號(hào)為例，則R的取值為6，這里取值幀長為L=960個(gè)樣點(diǎn)，幀移為M=480個(gè)樣點(diǎn)，音頻信號(hào)分幀為N=899幀；步驟二對(duì)每個(gè)聲道，對(duì)分幀后的每幀音頻信號(hào)分別進(jìn)行DCT離散余弦變換(也可以是其他的正交變換)，每幀音頻信號(hào)經(jīng)過DCT變換后得到S個(gè)DCT系數(shù)，即頻域系數(shù)；作為優(yōu)選，S的取值與幀長相等，即S=960 ；如果S < L則步驟七恢復(fù)每幀音頻信號(hào)的時(shí)候頻域補(bǔ)值，如果S>=L則變換時(shí)時(shí)域補(bǔ)值；步驟三對(duì)每個(gè)聲道，將每一幀所對(duì)應(yīng)的長度為S的頻域系數(shù)作為矩陣的每一行，即將N幀音頻信號(hào)的頻域系數(shù)構(gòu)成一個(gè)大小為NXS的系數(shù)矩陣；將所有R個(gè)聲道的系數(shù)矩陣進(jìn)行依次排列，構(gòu)成大小為RXNXS的三階張量信號(hào)X，所述的三階分別稱為聲道序列階、幀序列階、頻域系數(shù)階；該三階張量信號(hào)X如圖2所示；步驟四對(duì)步驟三構(gòu)造的三階張量信號(hào)X進(jìn)行張量分解，分解表示為G X !U(1) X 2U ⑵ X 3U ⑶ (I)其中U⑴、U⑵、U(3)彼此之間正交，分別代表張量信號(hào)在聲道序列階、幀序列階、頻域系數(shù)階上進(jìn)行投影的主分量，即，U⑴為該張量信號(hào)分解時(shí)在聲道序列階進(jìn)行秩為O的低秩投影矩陣，矩陣大小為RX0，其中參數(shù)O應(yīng)滿足KOSR;U 為該張量信號(hào)分解時(shí)在幀序列階進(jìn)行秩為P的低秩投影矩陣，大小為NXP，其中參數(shù)P應(yīng)滿足I < P < N ;U(3)為張量信號(hào)分解時(shí)在頻域系數(shù)階進(jìn)行的秩為Q的低秩投影矩陣，大小為SXQ，其中參數(shù)Q應(yīng)滿足KQSS;由于受到信號(hào)平穩(wěn)性的影響，幀序列階上的低秩投影過程對(duì)多聲道音頻信號(hào)的重建質(zhì)量的影響相比其他兩個(gè)階上的低秩投影過程影響較大，所以在幀序列階上可以不進(jìn)行低秩投影，亦即P=N=899 ;而其他兩個(gè)階上可以進(jìn)行較大程度的低秩投影，從而得到較大程度的壓縮效果；即低秩投影的優(yōu)選取值方式為I ^ O < R, P=N ；1 ^ Q < S ；G為三階低秩核張量，在聲道序列、幀序列、頻域系數(shù)對(duì)應(yīng)各階上的維度分別是上述的O、P、Q，核張量G通過下式計(jì)算得到G =(2)，符號(hào)T表示偽逆，XpX2, X3分別表示張量第一階、第二階、第三階的張量矩陣乘，張量矩陣乘定義如下設(shè)有一個(gè)大小為I1X I2X…XIn的N階張量H，一個(gè)大小為JXIn的矩陣Α，則張量的η階(I彡η彡N)矩陣乘為HXnA的結(jié)果是一個(gè)大小為I1X I2X…X Ilri X J X In+1 X …X In 的 N 階張量；作為優(yōu)選，上述張量分解進(jìn)行低秩近似的過程采用Evrim Acar等人在文獻(xiàn)《AnOptimization Approach for Fitting Canonical Tensor Decompositions))中 13-14 頁所提出的ALS交替最小二乘法獲得，但此處不限于采用交替最小二乘法；或者或者采用Lathauwera 等人在《a multilinear singular value decomposition》中所提至Ij的 HOSVD高階奇異值分解的方法。步驟五對(duì)步驟四得到的低秩核張量G進(jìn)行降維獲得一維序列，然后對(duì)該一維序列進(jìn)行量化編碼，獲得壓縮后的比特流數(shù)據(jù)，用于傳輸或存儲(chǔ)，而低秩投影矩陣u(1)、u(2)、u(3)不進(jìn)行量化編碼處理；步驟六在解碼端，對(duì)壓縮后的比特流數(shù)據(jù)進(jìn)行與步驟五中量化編碼方法相應(yīng)的解碼和解量化，再進(jìn)行與步驟五相應(yīng)的升維處理，得到恢復(fù)后的低秩核張量G’ ；
結(jié)合預(yù)先訓(xùn)練得到的三個(gè)低秩投影矩陣U’ (1)、U'⑵、U' (3)，進(jìn)行張量信號(hào)重構(gòu)得到恢復(fù)后的三階張量信號(hào)Y，重構(gòu)表示為Y = G' X1U' (1)X 2U，⑵ X 3U，⑶ (4)其中張量信號(hào)Y在聲道序列階、幀序列階、頻域系數(shù)階上的維度分別是R、N、S ;步驟六中所述預(yù)先訓(xùn)練得到三個(gè)低秩投影矩陣U' (1)、U, (2)、U' (3)的方法為選取V組多聲道音頻信號(hào)，每組的聲道數(shù)目均為R個(gè)，對(duì)每組多聲道音頻信號(hào)重復(fù)所述的步驟一、二、三、四，得到V組低秩投影矩陣Uv(1)、UV⑵、Uv(3)，其中I彡V彡V，將V組低秩投影矩陣UV(1)、UV(2)、UV(3)分別進(jìn)行平均，即得到訓(xùn)練后的低秩投影矩陣U' (1)、u, (2)、u,⑶。步驟七步驟六得到的張量信號(hào)Y中包含R個(gè)聲道的N個(gè)幀，其中每幀長度為S，從Y中抽取每個(gè)聲道的NXS系數(shù)矩陣，對(duì)矩陣的每行的S個(gè)數(shù)據(jù)，分別進(jìn)行反離散余弦變換IDCT得到恢復(fù)的每幀音頻信號(hào)；步驟八將步驟七反變換得到的每個(gè)聲道的每幀的音頻信號(hào)通過交疊相加恢復(fù)每個(gè)聲道的音頻信號(hào)，幀長為L，幀間交疊長度為M，獲得所有R個(gè)聲道的音頻信號(hào)恢復(fù)后多聲道音頻信號(hào)。為了進(jìn)一步說明步驟四一步驟六，具體說明各參數(shù)的關(guān)系三階張量信號(hào)X的大小為6X899X960 (聲道序列X幀序列X頻域系數(shù))，張量信號(hào)X分解時(shí)對(duì)聲道序列階進(jìn)行秩0=1近似，幀序列階進(jìn)行秩P=899近似，頻域系數(shù)階進(jìn)行秩Q=200近似，張量信號(hào)X進(jìn)行張量分解后得到1X899X200的低秩核張量G，該核張量中的每個(gè)元素進(jìn)行量化編碼后傳給解碼端；在解碼端經(jīng)過解碼和解量化恢復(fù)后的1X899X200的低秩核張量與事先訓(xùn)練得到的低秩投影矩陣結(jié)合恢復(fù)原始張量信號(hào)，其中訓(xùn)練過程是選取10條多聲道音頻樣本，對(duì)每條樣本通過時(shí)頻變換和張量分解得到一組低秩投影矩陣，最后將得到的10組低秩投影矩陣進(jìn)行平均用于解碼端的張量信號(hào)重構(gòu)過程。本發(fā)明方法當(dāng)三階低秩核張量G的大小不同時(shí)所獲得的壓縮效率不同，這里用壓
( O V/)、
縮百分比X 100%來衡量不同O和Q取值時(shí)的壓縮效果，用MUSHRA主觀質(zhì)量測(cè)試
VRx-S J
方法衡量不同O和Q取值時(shí)的解碼輸出音質(zhì)表現(xiàn)，分?jǐn)?shù)越高質(zhì)量越好；選取6條測(cè)試用的5.1聲道音頻信號(hào)進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果見表I和圖3 ;實(shí)驗(yàn)結(jié)果顯示當(dāng)0=2，Q=400時(shí)壓縮百分比為86. 1%，而主觀質(zhì)量可以達(dá)到78. 7的良好程度，大量實(shí)驗(yàn)表明本發(fā)明利用張量分解進(jìn)行多聲道音頻信號(hào)壓縮的方法能夠在可接受的音質(zhì)情況下提供很高的壓縮效率。表15.1聲道音頻信號(hào)壓縮百分比的結(jié)果表格
權(quán)利要求
1.一種基于張量分解的多聲道音頻信號(hào)壓縮方法，其特征在于，包括以下步驟步驟一在編碼端，對(duì)待處理的聲道數(shù)目為R的多聲道音頻信號(hào)，首先將每個(gè)聲道的音頻信號(hào)采用漢明窗進(jìn)行分幀，幀長為L，幀移為M，從而把每個(gè)聲道的音頻信號(hào)分成N幀，順序排列后得到每個(gè)聲道的幀序列；步驟二對(duì)每個(gè)聲道，對(duì)分幀后的每幀音頻信號(hào)分別進(jìn)行時(shí)頻變換，每幀音頻信號(hào)經(jīng)過該時(shí)頻變換后得到長度為S的頻域系數(shù)；步驟三對(duì)每個(gè)聲道，將每一幀所對(duì)應(yīng)的長度為S的頻域系數(shù)作為矩陣的每一行，即將N幀音頻信號(hào)的頻域系數(shù)構(gòu)成一個(gè)大小為NXS的系數(shù)矩陣；將所有R個(gè)聲道的系數(shù)矩陣進(jìn)行依次排列，構(gòu)成大小為RXNXS的三階張量信號(hào)X，所述的三階分別稱為聲道序列階、幀序列階、頻域系數(shù)階；步驟四對(duì)步驟三構(gòu)造的三階張量信號(hào)X進(jìn)行張量分解，即分解為 GXWDX^XW3) (I) 其中U⑴、U⑵、U(3)彼此之間正交，分別代表張量信號(hào)在聲道序列階、幀序列階、頻域系數(shù)階上進(jìn)行投影的主分量，即， u(1)為該張量信號(hào)分解時(shí)在聲道序列階進(jìn)行秩為O的低秩投影矩陣，矩陣大小為RXO，其中參數(shù)O應(yīng)滿足1<0<R; u(2)為該張量信號(hào)分解時(shí)在幀序列階進(jìn)行秩為P的低秩投影矩陣，大小為NXP，其中參數(shù)P應(yīng)滿足I< P < N ; U(3)為張量信號(hào)分解時(shí)在頻域系數(shù)階進(jìn)行的秩為Q的低秩投影矩陣，大小為SXQ，其中參數(shù)Q應(yīng)滿足KQSS; G為三階低秩核張量，在聲道序列階、幀序列階、頻域系數(shù)階上的維度分別是上述的O、P、Q，核張量G通過下式計(jì)算得到 G = XX1UanX2UtenX3Uon (2) 符號(hào)T表示偽逆，Xp X2, X3分別表示張量第一階、第二階、第三階的張量矩陣乘，張量矩陣乘定義如下設(shè)有一個(gè)大小為I1X I2X…X In的N階張量H，一個(gè)大小為JX In的矩陣A，則張量的n階矩陣乘HXnA的結(jié)果是一個(gè)大小為I1X I2X…X Ilri X JX In+1 X…X In的N階張量，其中I ^ n ^ N ；步驟五對(duì)步驟四得到的三階低秩核張量G進(jìn)行降維獲得一維序列，然后對(duì)該一維序列進(jìn)行量化編碼，獲得壓縮后的比特流數(shù)據(jù)，用于傳輸或存儲(chǔ)，而低秩投影矩陣U(1)、U(2)、U(3)不進(jìn)行量化編碼處理；步驟六在解碼端，對(duì)壓縮后的比特流數(shù)據(jù)進(jìn)行與步驟五中量化編碼方法相應(yīng)的解碼和解量化，再進(jìn)行與步驟五相應(yīng)的升維處理，得到恢復(fù)后的低秩核張量G’ ；結(jié)合預(yù)先訓(xùn)練得到的三個(gè)低秩投影矩陣U’(1)、U' (2)、U, (3)，進(jìn)行張量信號(hào)重構(gòu)得到恢復(fù)后的三階張量信號(hào)Y，重構(gòu)表示為 Y = G' X1U，⑴ X2U，⑵ X3U,⑶ (4) 其中張量信號(hào)Y在聲道序列階、幀序列階、頻域系數(shù)階上的維度分別是R、N、S ; 步驟七步驟六得到的RXNX S的三階張量信號(hào)Y中包含R個(gè)聲道的N個(gè)幀，其中每幀長度為S，從Y中抽取每個(gè)聲道的NXS系數(shù)矩陣，對(duì)矩陣的每行的S個(gè)數(shù)據(jù)，分別進(jìn)行與步驟二相應(yīng)的時(shí)頻反變換，得到恢復(fù)的每幀音頻信號(hào)；步驟八將步驟七得到的每個(gè)聲道的每幀音頻信號(hào)通過交疊相加恢復(fù)每個(gè)聲道的音頻信號(hào)，幀長為L，幀間交疊長度為M。
2.根據(jù)權(quán)利要求I所述一種基于張量分解的多聲道音頻信號(hào)壓縮方法，其特征在于，步驟二所述的時(shí)頻變換為正交變換。
3.根據(jù)權(quán)利要求I或2所述一種基于張量分解的多聲道音頻信號(hào)壓縮方法，其特征在于，若步驟二所述的時(shí)頻變換采用離散余弦變換DCT，則步驟七所述的時(shí)頻反變換采用反離散余弦變換IDCT。
4.根據(jù)權(quán)利要求I所述一種基于張量分解的多聲道音頻信號(hào)壓縮方法，其特征在于，步驟四中，所述張量分解時(shí)求取低秩投影矩陣采用ALS交替最小二乘法，或者采用HOSVD高階奇異值分解的方法。
5.根據(jù)權(quán)利要求I所述一種基于張量分解的多聲道音頻信號(hào)壓縮方法，其特征在于，步驟六中所述預(yù)先訓(xùn)練得到三個(gè)低秩投影矩陣U，(1)、U, (2)、U, (3)的方法為選取V組多聲道音頻信號(hào)，每組的聲道數(shù)目均為R個(gè)，對(duì)每組多聲道音頻信號(hào)重復(fù)所述的步驟一、二、三、四，得到V組低秩投影矩陣Uv(1)、Uv(2)、Uv(3)，其中I彡v彡V，將V組低秩投影矩陣Uv(1)、Uv⑵、Uv⑶分別進(jìn)行平均，即得到訓(xùn)練后的低秩投影矩陣U，⑴、U，⑵、U，⑶。
6.根據(jù)權(quán)利要求I或5所述一種基于張量分解的多聲道音頻信號(hào)壓縮方法，其特征在于，步驟六中，V彡10。
7.根據(jù)權(quán)利要求I所述一種基于張量分解的多聲道音頻信號(hào)壓縮方法，其特征在于，步驟二中，若每幀音頻信號(hào)補(bǔ)零后進(jìn)行時(shí)頻變換，則S大于L ; 若每幀音頻信號(hào)直接進(jìn)行時(shí)頻變換，則S等于L ; 若每幀音頻信號(hào)直接進(jìn)行時(shí)頻變換后只保留能量較大的頻域系數(shù)，則S小于L ；若每幀音頻信號(hào)補(bǔ)零后進(jìn)行時(shí)頻變換后只保留能量較大的頻域系數(shù)，則S的大小視具體補(bǔ)零的長度以及保留頻域系數(shù)的個(gè)數(shù)而定。
8.根據(jù)權(quán)利要求I所述一種基于張量分解的多聲道音頻信號(hào)壓縮方法，其特征在于，步驟四中，在幀序列階上不進(jìn)行低秩投影，即P=N，而在聲道序列階和頻域系數(shù)階上進(jìn)行低秩投影，即I彡0<1 且1彡0<5。
全文摘要
本發(fā)明公開了一種基于張量分解的多聲道音頻信號(hào)壓縮方法，屬于音頻信號(hào)處理技術(shù)領(lǐng)域，尤其是空間音頻編解碼技術(shù)領(lǐng)域。將每個(gè)聲道的音頻信號(hào)進(jìn)行交疊分幀，并對(duì)每幀信號(hào)進(jìn)行時(shí)頻變換得到頻域系數(shù)，將所有聲道和所有幀序列的頻域系數(shù)組合，建立三階張量信號(hào)，并對(duì)其進(jìn)行張量分解得到低秩核張量用于編碼傳輸，解碼端結(jié)合恢復(fù)的低秩核張量和事先訓(xùn)練的低秩投影矩陣進(jìn)行張量信號(hào)重建，對(duì)重建后的張量信號(hào)再進(jìn)行每個(gè)聲道上反變換和交疊相加恢復(fù)多聲道音頻信號(hào)。本方法結(jié)合時(shí)頻變換和張量分解對(duì)多聲道音頻信號(hào)進(jìn)行分析和編解碼，利用聲道間和聲道內(nèi)的相關(guān)性去處冗余信息，能較大程度提高多聲道音頻信號(hào)的壓縮效率。
文檔編號(hào)G10L19/008GK102982805SQ201210579570
公開日2013年3月20日申請(qǐng)日期2012年12月27日優(yōu)先權(quán)日2012年12月27日
發(fā)明者王晶, 謝湘, 匡鏡明申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載