編碼器、解碼器以及用于編碼和解碼的方法與流程

文檔序號(hào)：11142446閱讀：2874來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明的實(shí)施例涉及用于對(duì)音頻信號(hào)進(jìn)行編碼以獲得數(shù)據(jù)流的編碼器以及用于對(duì)數(shù)據(jù)流進(jìn)行解碼以獲得音頻信號(hào)的解碼器。其他實(shí)施例涉及用于對(duì)音頻信號(hào)進(jìn)行編碼以及用于對(duì)數(shù)據(jù)流進(jìn)行解碼的對(duì)應(yīng)方法。又一實(shí)施例涉及進(jìn)行用于編碼和/或解碼的方法的步驟的計(jì)算機(jī)程序。

背景技術(shù)：

待被編碼的音頻信號(hào)可以，例如，為語音信號(hào)；即編碼器與語音編碼器相對(duì)應(yīng)且解碼器與語音解碼器相對(duì)應(yīng)。語音編碼中最常用的范例為用于諸如AMR-家族、G.718以及MPEG USAC的標(biāo)準(zhǔn)中的代數(shù)碼激勵(lì)線性預(yù)測(cè)(ACELP)。它基于使用源模型的建模語音，由用于對(duì)頻譜包絡(luò)進(jìn)行建模的線性預(yù)測(cè)器(LP)、用于對(duì)基頻進(jìn)行建模的長(zhǎng)期預(yù)測(cè)器(LTP)以及用于殘差的代數(shù)碼本組成。在感知加權(quán)合成域中，碼本參數(shù)被優(yōu)化。感知模型基于濾波器，由此，通過線性預(yù)測(cè)器和加權(quán)濾波器的組合描述從殘差至加權(quán)輸出的映射。

ACELP編解碼器中的計(jì)算復(fù)雜度的最大部分花費(fèi)在選擇代數(shù)碼本條目上，其基于殘差的量化。從殘差域至加權(quán)合成域的映射本質(zhì)上是乘以大小為N×N的矩陣，其中N為向量長(zhǎng)度。由于此映射，就加權(quán)輸出SNR(信噪比)而言，殘差樣本是相關(guān)的且無法被獨(dú)立地量化。由此得出結(jié)論，在加權(quán)合成域中，需要明確地評(píng)估每個(gè)可能的碼本向量以確定最佳條目。此方法被稱為合成-分析算法。僅利用碼本的暴力搜索，最優(yōu)性能是可能的。碼本大小取決于比特率，但考慮B的比特率，存在2^B個(gè)條目需要評(píng)估，總復(fù)雜度為O(2^BN²)，當(dāng)B大于或等于11時(shí)，這明顯是不切實(shí)際的。在實(shí)際中，編解碼器因此利用在復(fù)雜度和質(zhì)量之間權(quán)衡的非最優(yōu)量化。已存在一些用于找到以準(zhǔn)確率為代價(jià)限制復(fù)雜度的最佳量化的迭代算法。為了克服此限制，需要新方法。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種用于編碼和解碼音頻信號(hào)同時(shí)避免上述缺陷的概念。

通過獨(dú)立權(quán)利要求實(shí)現(xiàn)此目的。

第一實(shí)施例提供一種用于將音頻信號(hào)編碼為數(shù)據(jù)流的編碼器。該編碼器包括：(線性或長(zhǎng)期)預(yù)測(cè)器、因子分解器(factorizer)、變換器、以及量化的編碼階段。預(yù)測(cè)器用于分析音頻信號(hào)以獲得描述音頻信號(hào)的頻譜包絡(luò)或音頻信號(hào)的基頻的(線性或長(zhǎng)期)預(yù)測(cè)系數(shù)并用于使得音頻信號(hào)服從取決于預(yù)測(cè)系數(shù)的分析濾波函數(shù)以輸出音頻信號(hào)的殘差信號(hào)。因子分解器用于將矩陣因子分解應(yīng)用于由預(yù)測(cè)系數(shù)定義的合成濾波函數(shù)的自相關(guān)或協(xié)方差矩陣以獲得經(jīng)因子分解的矩陣。變換器用于基于經(jīng)因子分解的矩陣對(duì)殘差信號(hào)進(jìn)行變換以獲得變換的殘差信號(hào)。量化和編碼階段用于對(duì)變換的殘差信號(hào)進(jìn)行量化以獲得量化后的變換的殘差信號(hào)或經(jīng)編碼的量化后的變換的殘差信號(hào)。

另一實(shí)施例提供一種用于將數(shù)據(jù)流解碼為音頻信號(hào)的解碼器。該解碼器包括：解碼階段、再變換器以及合成階段。解碼階段用于基于入站的量化后的變換的殘差信號(hào)或基于入站的經(jīng)編碼的量化后的變換的殘差信號(hào)輸出變換的殘差信號(hào)。再變換器用于基于從合成濾波函數(shù)的自相關(guān)或協(xié)方差矩陣的矩陣因子分解產(chǎn)生的經(jīng)因子分解的矩陣，從變換的殘差信號(hào)再變換為殘差信號(hào)，合成濾波函數(shù)由描述音頻信號(hào)的頻譜包絡(luò)或音頻信號(hào)的基頻的預(yù)測(cè)系數(shù)定義。合成階段用于通過使用由預(yù)測(cè)系數(shù)定義的合成濾波函數(shù)基于殘差信號(hào)合成音頻信號(hào)。

正如基于這兩個(gè)實(shí)施例可見的，編碼和解碼為使得此概念可比擬于ACELP的兩階段過程。第一步驟使能關(guān)于頻譜包絡(luò)或基頻的合成的量化，其中第二階段能夠?qū)崿F(xiàn)殘差信號(hào)(也稱為激勵(lì)信號(hào)并表示在利用音頻信號(hào)的頻譜包絡(luò)或基頻對(duì)信號(hào)進(jìn)行濾波之后的信號(hào))的(直接)量化或合成。同樣，類似于ACELP，殘差信號(hào)或激勵(lì)信號(hào)的量化遵守優(yōu)化問題，其中與ACELP相比，根據(jù)本文中所公開的教示的優(yōu)化問題的目標(biāo)函數(shù)存在本質(zhì)區(qū)別。詳細(xì)地，本發(fā)明的教示基于矩陣因子分解用于對(duì)優(yōu)化問題的目標(biāo)函數(shù)進(jìn)行去相關(guān)，由此可避免計(jì)算昂貴的迭代并保證最優(yōu)性能的原理。作為所附實(shí)施例的一個(gè)核心步驟的矩陣因子分解包括于編碼器實(shí)施例中，且優(yōu)選地而非必須地可包括于解碼器實(shí)施例中。

矩陣分子分解可基于不同技術(shù)，例如特征值分解、范德蒙因子分解或任何其他因子分解，其中，對(duì)于每種所選的技術(shù)，因子分解進(jìn)行因子分解的是矩陣，如由編碼或解碼的第一階段(線性預(yù)測(cè)器或長(zhǎng)期預(yù)測(cè)器)中的第一音頻檢測(cè)到的(線性或長(zhǎng)期)預(yù)測(cè)系數(shù)定義的合成濾波函數(shù)的自相關(guān)或協(xié)方差矩陣。

根據(jù)另一實(shí)施例，因子分解器對(duì)包括使用矩陣存儲(chǔ)的預(yù)測(cè)系數(shù)的合成濾波函數(shù)進(jìn)行因子分解，并對(duì)合成濾波函數(shù)矩陣的加權(quán)形式進(jìn)行因子分解。例如，可通過使用范德蒙矩陣V、對(duì)角矩陣D以及范德蒙矩陣的共軛變換形式V^＊進(jìn)行因子分解?？墒褂霉絉＝V^*DV或C＝V^＊DV對(duì)范德蒙矩陣進(jìn)行因子分解，其中自相關(guān)矩陣R或協(xié)方差矩陣C由合成濾波函數(shù)矩陣的共軛變換形式H^＊以及合成函數(shù)矩陣H的正則形式定義，即R＝H^＊H或C＝H^*H。

根據(jù)又一實(shí)施例，變換器，從先前確定的對(duì)角矩陣D的和先前確定的范德蒙矩陣V，使用公式y(tǒng)＝D^1/2Vx或公式y(tǒng)＝DVx將殘差信號(hào)x變換為變換的殘差信號(hào)y。

根據(jù)又一實(shí)施例，量化和編碼階段此刻能夠?qū)ψ儞Q的殘差信號(hào)y進(jìn)行量化以獲得量化后的變換的殘差信號(hào)此變換為優(yōu)化問題，如上所論述，其中使用目標(biāo)函數(shù)此處，有利的是，與用于不同的編碼或解碼方法的目標(biāo)函數(shù)(如，ACELP編碼器中使用的目標(biāo)函數(shù))相比，此目標(biāo)函數(shù)具有減小的復(fù)雜度。

根據(jù)實(shí)施例，解碼器從編碼器接收經(jīng)因子分解的矩陣，如和數(shù)據(jù)流一起?；蚋鶕?jù)另一實(shí)施例，解碼器包括進(jìn)行矩陣因子分解的可選的因子分解器。根據(jù)優(yōu)選實(shí)施例，解碼器直接接收經(jīng)因子分解的矩陣并從這些經(jīng)因子分解的矩陣得到預(yù)測(cè)系數(shù)，因?yàn)榫仃嚩荚从陬A(yù)測(cè)系數(shù)(參看編碼器)。此實(shí)施例能夠?qū)崿F(xiàn)進(jìn)一步地減小解碼器的復(fù)雜度。

又一實(shí)施例提供用于將音頻信號(hào)編碼為數(shù)據(jù)流以及用于將數(shù)據(jù)流解碼為音頻信號(hào)的對(duì)應(yīng)方法。根據(jù)附加實(shí)施例，用于編碼的方法以及用于解碼的方法可由或至少部分地可由諸如計(jì)算機(jī)的CPU的處理器進(jìn)行。

附圖說明

將參考所附附圖論述本發(fā)明的實(shí)施例，其中

圖1a顯示根據(jù)第一實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行編碼的編碼器的示意性框圖；

圖1b顯示根據(jù)第一實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行編碼的對(duì)應(yīng)方法的示意性流程圖；

圖2a顯示根據(jù)第二實(shí)施例的用于對(duì)數(shù)據(jù)流進(jìn)行解碼的解碼器的示意性框圖；

圖2b顯示根據(jù)第二實(shí)施例的用于對(duì)數(shù)據(jù)流進(jìn)行解碼的對(duì)應(yīng)方法的示意性流程圖；

圖3a顯示示出對(duì)于不同量化方法的作為每幀比特?cái)?shù)的函數(shù)的平均感知信噪比的示意圖；

圖3b顯示示出作為每幀比特?cái)?shù)的函數(shù)的不同量化方法的歸一化運(yùn)行時(shí)間的示意圖；以及

圖3c顯示示出范德蒙變換的特征的示意圖。

具體實(shí)施方式

隨后以下將參考所附附圖詳細(xì)地論述本發(fā)明的實(shí)施例。此處，為具有相同或相似功能的對(duì)象提供相同的附圖標(biāo)記，以使得其描述為可互換或互相適用的。

圖1顯示基本配置中的編碼器10。編碼器10包括：此處被實(shí)施為線性預(yù)測(cè)器12的預(yù)測(cè)器12、以及因子分解器14、變換器16以及量化和編碼階段18。

線性預(yù)測(cè)器12布置于輸入處以接收音頻信號(hào)AS，優(yōu)選地，數(shù)字音頻信號(hào)，如脈沖碼調(diào)制信號(hào)(PCM)。線性預(yù)測(cè)器12經(jīng)由所謂的LPC信道LPC連接至因子分解器14和編碼器的輸出處，參看附圖標(biāo)記DS_LPC/DS_DV。更進(jìn)一步地，線性預(yù)測(cè)器12經(jīng)由所謂的殘差信道連接至變換器16。反之亦然，變換器16在其輸入側(cè)(除殘差信道之外)連接至因子分解器14。在其輸出側(cè)，變換器連接至量化和編碼階段18，其中量化和編碼階段18連接至輸出(參看附圖標(biāo)記)。兩個(gè)數(shù)據(jù)流DS_LPC/DS_DV和形成待被輸出的數(shù)據(jù)流DS。

以下將論述編碼器10的功能，其中額外參考描述用于編碼的方法100的圖1b。如根據(jù)圖1b可見的，用于將音頻信號(hào)AS編碼為數(shù)據(jù)流DS的基本方法100包括由單元12、14、16和18進(jìn)行的四個(gè)基本步驟120、140、160和180。在第一步驟120中，線性預(yù)測(cè)器12分析音頻信號(hào)AS以獲得線性預(yù)測(cè)系數(shù)LPC。之后，描述音頻信號(hào)AS的頻譜包絡(luò)的線性預(yù)測(cè)系數(shù)LPC使得能夠使用所謂的合成濾波函數(shù)H去基本地合成音頻信號(hào)。合成濾波函數(shù)H可包括由LPC系數(shù)定義的合成濾波函數(shù)的加權(quán)值。使用LPC信道LPC，線性預(yù)測(cè)系數(shù)LPC被輸出至因子分解器14，以及被轉(zhuǎn)發(fā)至編碼器10的輸出處。線性預(yù)測(cè)器12更進(jìn)一步地使得音頻信號(hào)AS服從由線性預(yù)測(cè)系數(shù)LPC定義的分析濾波函數(shù)H。此過程為由解碼器進(jìn)行的基于LPC系數(shù)的音頻信號(hào)的合成的對(duì)應(yīng)部分。此子步驟的結(jié)果是被輸出至變換器16的殘差信號(hào)x，而沒有由濾波函數(shù)H可描述的信號(hào)部分。請(qǐng)注意，此步驟是逐幀進(jìn)行的，即，具有振幅和時(shí)域的音頻信號(hào)AS被劃分或采樣至如具有5毫秒的長(zhǎng)度的時(shí)窗(樣本)，并在頻域中被量化。

隨后的步驟為由變換器16進(jìn)行的殘差信號(hào)x的變換(參看方法步驟160)。變換器16用于對(duì)殘差信號(hào)x進(jìn)行變換以獲得被輸出至量化和編碼階段18的變換的殘差信號(hào)y。例如，變換160可基于公式y(tǒng)＝D^1/2Vx或公式y(tǒng)＝DVx，其中矩陣D和V由因子分解器14提供。因此，殘差信號(hào)x的變換基于至少兩個(gè)經(jīng)因子分解的矩陣V(示例性地被稱為范德蒙矩陣)和D(示例性地被稱為對(duì)角矩陣)。

所應(yīng)用的矩陣因子分解可被自由地選作，例如，特征值分解、范德蒙因子分解、喬里斯基(Cholesky)分解或類似。范德蒙因子分解可用作對(duì)稱、正定的托普利茲(Toeplitz)矩陣(如自相關(guān)矩陣)至范德蒙矩陣V和V^＊的乘積的因子分解。對(duì)于目標(biāo)函數(shù)中的自相關(guān)矩陣，此與通常稱作范德蒙變換的翹曲離散傅立葉變換相對(duì)應(yīng)。在論述量化和編碼階段18的功能之后，將詳細(xì)論述由因子分解器14進(jìn)行的表示本發(fā)明的基礎(chǔ)部分的矩陣因子分解的此步驟140。

量化和編碼階段18對(duì)從變換器16接收的變換的殘差信號(hào)y進(jìn)行量化，以獲得量化后的變換的殘差信號(hào)此變換的量化后的殘差信號(hào)作為數(shù)據(jù)流的部分被輸出。請(qǐng)注意，整個(gè)數(shù)據(jù)流DS包括由DS_LPC/DS_DV指示的LPC-部分以及由指示的部分。

例如，使用目標(biāo)函數(shù)，例如，依據(jù)可進(jìn)行變換的殘差信號(hào)y的量化。與ACELP編碼器的典型目標(biāo)函數(shù)相比，此目標(biāo)函數(shù)具有減小的復(fù)雜度，以使得編碼關(guān)于其性能被有利地改進(jìn)。此性能改進(jìn)可用于對(duì)具有較高分辨率的音頻信號(hào)AS進(jìn)行編碼或用于減少所需資源。

應(yīng)注意的是，信號(hào)可為經(jīng)編碼的信號(hào)，其中編碼由量化和編碼階段18進(jìn)行。因此，根據(jù)其他實(shí)施例，量化和編碼階段18可包括可用于算術(shù)編碼的編碼器。量化和編碼階段18的編碼器可使用線性量化步驟(即，等距離)或諸如對(duì)數(shù)的、可變的量化步驟?？蛇x地，編碼器可用于進(jìn)行其他(無損)熵編碼，其中碼長(zhǎng)度隨著奇異(singular)輸入信號(hào)AS的概率的函數(shù)而改變。因此，為了獲得優(yōu)選碼長(zhǎng)度，作為可選選項(xiàng)，可以基于合成包絡(luò)以及因此基于LPC系數(shù)檢測(cè)輸入信號(hào)的概率。因此，量化的編碼階段還可具有用于LPC信道的輸入。

以下，將論述能夠?qū)崿F(xiàn)目標(biāo)函數(shù)η(y)的復(fù)雜度減小的背景。如以上所提及的，改進(jìn)的編碼基于由因子分解器14進(jìn)行的矩陣因子分解的步驟140。因子分解器14對(duì)諸如由線性預(yù)測(cè)系數(shù)LPC(參看LPC信道)定義的濾波合成函數(shù)H的自相關(guān)矩陣R或協(xié)方差矩陣C的矩陣進(jìn)行因子分解。此因子分解的結(jié)果為兩個(gè)經(jīng)因子分解的矩陣，例如，表示包括奇異LPC系數(shù)的原始矩陣H的范德蒙矩陣V和對(duì)角矩陣D。由于此，殘差信號(hào)x的樣本為去相關(guān)的。由此得出結(jié)論，變換的殘差信號(hào)的直接量化(參看步驟180)為最優(yōu)量化，由此計(jì)算復(fù)雜度幾乎獨(dú)立于比特率。相比之下，用于ACELP碼本的優(yōu)化的傳統(tǒng)方法必須在計(jì)算復(fù)雜度和準(zhǔn)確率之間進(jìn)行權(quán)衡，尤其是在高比特率處。因此，實(shí)際上從傳統(tǒng)ACELP進(jìn)程開始論述背景。

ACELP的傳統(tǒng)目標(biāo)函數(shù)采用協(xié)方差矩陣的形式。根據(jù)改進(jìn)的方法，存在應(yīng)用加權(quán)合成函數(shù)的自相關(guān)矩陣的可選目標(biāo)函數(shù)?；贏CELP的編解碼器優(yōu)化感知加權(quán)合成域中的信噪比(SNR)。目標(biāo)函數(shù)可被表示為：

其中，x是目標(biāo)殘差，為量化后的殘差，H為與加權(quán)合成濾波相對(duì)應(yīng)的卷積矩陣，以及γ為比例增益系數(shù)。為了找到最優(yōu)量化標(biāo)準(zhǔn)方法為在η(x，γ)的導(dǎo)數(shù)為0處找到由γ^＊指示的γ的最優(yōu)值。通過將最優(yōu)γ^＊插入等式(1)，獲得新的目標(biāo)函數(shù)：

其中，H^*是合成函數(shù)H的共軛變換形式。

請(qǐng)注意，傳統(tǒng)方法H是下三角方卷積矩陣，由此，協(xié)方差矩陣C＝H^＊H為對(duì)稱的協(xié)方差矩陣。以全尺寸卷積矩陣對(duì)下三角矩陣的替代(由此，自相關(guān)矩陣R＝H^＊H為對(duì)稱的自相關(guān)矩陣)與加權(quán)合成濾波的其他相關(guān)相對(duì)應(yīng)。此替代給出顯著減小的復(fù)雜度，而對(duì)質(zhì)量的影響最小。

線性預(yù)測(cè)器14可使用協(xié)方差矩陣C或自相關(guān)矩陣R用于矩陣因子分解。以下論述針對(duì)這樣的假設(shè)作出：自相關(guān)R用于通過取決于LPC系數(shù)的矩陣的因子分解修改目標(biāo)函數(shù)。通過包括特征值分解的一些方法，諸如R的對(duì)稱正定定義的托普利茲矩陣可被分解為：

R＝V^＊DV (3)

此處，V^*為范德蒙矩陣V的共軛變換形式。在使用協(xié)方差矩陣C的傳統(tǒng)方法中，可應(yīng)用其他因子分解，如奇異值分解C＝USV。

對(duì)于自相關(guān)矩陣，還可使用以等式(3)的形式的可選因子分解，此處可被稱為范德蒙因子分解。范德蒙因子分解為能夠?qū)崿F(xiàn)因子分解/變換的新概念。范德蒙矩陣具有|v_k|＝1的值以及

的V。并且，D為具有嚴(yán)格正條目的對(duì)角矩陣。可以以復(fù)雜度為O(N³)的任意精度計(jì)算分解。直接分解具有為O(N^3)的典型計(jì)算復(fù)雜度，但在此處計(jì)算復(fù)雜度可被降低至O(N^2)，或如果近似因子分解是足夠的，則復(fù)雜度可降低至O(N log N)。對(duì)于所選中的分解，可被定義為：

其中，x＝V^-1D^-1/2_y，且將其插入等式(2)可得到：

請(qǐng)注意，此處，y的樣本并非是彼此相關(guān)的，且以上的目標(biāo)函數(shù)不過是目標(biāo)與量化后的殘差之間的歸一化相關(guān)。由此可得出結(jié)論，y的樣本可被獨(dú)立地量化，且如果所有樣本的準(zhǔn)確率是相等的，則此量化引致最佳的可能準(zhǔn)確率。

在范德蒙因子分解的情況下，由于V具有|v_k|＝1的值，它與翹曲離散傅立葉變換相對(duì)應(yīng)，且y的元素與殘差的頻率分量相對(duì)應(yīng)。更進(jìn)一步地，乘以對(duì)角矩陣D與頻帶的比例縮放相對(duì)應(yīng)，且由此可得出結(jié)論，y為殘差的頻域表示。

與此相反，當(dāng)特征值分解與傅立葉變換一致時(shí)，特征值分解僅在窗口長(zhǎng)度接近無窮時(shí)具有物理解釋。有限長(zhǎng)度的特征值分解因此松散地與信號(hào)的頻率表示相關(guān)，但將分量標(biāo)記至頻率是困難的。再者，已知特征值分解是優(yōu)化基礎(chǔ)，由此它可在某些情況下給出最佳性能。

始于這兩個(gè)經(jīng)因子分解的V和D，變換器16進(jìn)行變換160，以便使用由等式(5)定義的去相關(guān)的向量而對(duì)殘差信號(hào)x進(jìn)行變換。

假定x是非相關(guān)的白噪聲，則Vx的樣本也將具有相等的能量期望。據(jù)此，可使用算術(shù)編碼器或使用代數(shù)碼本來對(duì)值進(jìn)行編碼的編碼器。然而，Vx的量化并非是關(guān)于目標(biāo)函數(shù)最優(yōu)的，因?yàn)樗雎粤藢?duì)角矩陣D^1/2。另一方面，全變換y＝D^1/2Vx包括通過對(duì)角矩陣D的比例縮放，這改變了y的樣本的能量期望。創(chuàng)建具有非均勻方差的代數(shù)碼本并非是無關(guān)緊要的。因此，可將使用算術(shù)碼本而非獲得最優(yōu)比特消耗作為一種選項(xiàng)。然后可定義算術(shù)編碼，正如[14]中所披露的。

請(qǐng)注意，如果使用分解，如范德蒙變換或其他復(fù)雜變換，則實(shí)部和虛部為獨(dú)立的隨機(jī)變量。如果復(fù)變量的方差為σ²，則實(shí)部和虛部具有σ²/2的方差。諸如特征值分解的實(shí)值分解僅提供實(shí)值，由此實(shí)部和虛部的分離并非必須的。為了利用復(fù)值變換的更高性能，可應(yīng)用用于復(fù)值的算術(shù)編碼的傳統(tǒng)方法。

根據(jù)以上實(shí)施例，預(yù)測(cè)系數(shù)LPC(參看DS_LPC)被輸出為L(zhǎng)SF信號(hào)(線譜頻率信號(hào))，其中，輸出經(jīng)因子分解的矩陣V和D(參看DS_DV)內(nèi)的預(yù)測(cè)系數(shù)LPC是可選選項(xiàng)。此可選選項(xiàng)通過由V、D標(biāo)記的虛線以及DS_DV是由因子分解器14的輸出產(chǎn)生的指示暗示。

因此，本發(fā)明的另一實(shí)施例涉及包括兩個(gè)經(jīng)因子分解的矩陣(DS_VD)的形式的預(yù)測(cè)系數(shù)LPC的數(shù)據(jù)流(DS)。

關(guān)于圖2，將論述解碼器20和用于解碼的對(duì)應(yīng)方法200。

圖2a顯示包括解碼階段22、可選的因子分解器24、再變換器26以及合成階段28的解碼器20。解碼階段22以及因子分解器24被布置于解碼器20的輸入處，且因此用于接收數(shù)據(jù)流DS。詳細(xì)地，數(shù)據(jù)流DS的第一部分，即線性預(yù)測(cè)系數(shù)，被提供至可選的因子分解器24(參看DS_LPC/DS_DV)，其中第二部分，即量化后的變換的殘差信號(hào)或經(jīng)編碼的量化后的變換的殘差信號(hào)被提供至解碼階段22(參看)。合成階段28被布置于解碼器20的輸出處，并用于輸出類似但不等于音頻信號(hào)AS的音頻信號(hào)AS’。

音頻信號(hào)AS’的合成基于LPC系數(shù)(參看DS_LPC/DS_DV)且基于殘差信號(hào)x。因此，合成階段28連接至輸入以接收DS_LPC信號(hào)以及連接至提供殘差信號(hào)x的再變換器26。再變換器26基于變換的殘差信號(hào)y且基于至少兩個(gè)經(jīng)因子分解的矩陣V和D計(jì)算殘差信號(hào)x。因此，再變換器26具有至少兩個(gè)輸入，即用于(例如)從因子分解器24接收V和D的第一輸入，以及用于從解碼器階段接收變換的殘差信號(hào)y的一個(gè)輸入。

以下將參考圖2b示出的對(duì)應(yīng)方法200詳細(xì)地論述解碼器20的功能。解碼器20(從編碼器)接收數(shù)據(jù)流DS。此數(shù)據(jù)信號(hào)DS使得解碼器20能夠合成音頻信號(hào)AS’，其中由DS_LPC/DS_DV指示的數(shù)據(jù)流的部分能夠?qū)崿F(xiàn)基本信號(hào)的合成，其中由指示的部分能夠?qū)崿F(xiàn)音頻信號(hào)AS’的細(xì)節(jié)部分的合成。在第一步驟220中，解碼器階段22對(duì)入站的信號(hào)進(jìn)行解碼，并將變換的殘差信號(hào)y輸出至再變換器26(參看步驟260)。

并行的或串行的，因子分解器24進(jìn)行因子分解(參看步驟240)。如關(guān)于步驟140所論述的，因子分解器24將矩陣因子分解應(yīng)用于合成濾波函數(shù)H的自相關(guān)矩陣R或協(xié)方差矩陣C，即，解碼器20所使用的因子分解類似或接近類似于在編碼的上下文中描述的因子分解(參看方法100)，且因此可為如上所論述的特征值分解或Cholesky因子分解。此處，合成濾波函數(shù)H得自入站的數(shù)據(jù)流DS_LPC/DS_DV。更進(jìn)一步地，因子分解器24將兩個(gè)經(jīng)因子分解的矩陣V和D輸出至再變換器26。

基于兩個(gè)矩陣V和D，再變換器26從變換的殘差信號(hào)y再變換為殘差信號(hào)x并將x輸出至合成階段28(參看步驟280)。合成階段28基于殘差信號(hào)x以及基于作為數(shù)據(jù)流DS_LPC/DS_DV接收的LPC系數(shù)LPC合成音頻信號(hào)AS’。應(yīng)注意的是，音頻信號(hào)AS’類似但不等于音頻信號(hào)AS，因?yàn)橛删幋a器10進(jìn)行的量化并非是無損的。

根據(jù)另一實(shí)施例，經(jīng)因子分解的矩陣V和D可被從另一實(shí)體(例如，直接從編碼器10)提供至再變換器26(作為數(shù)據(jù)流的部分)。因此，解碼器20的因子分解器24以及矩陣因子分解的步驟240為可選的實(shí)體/步驟，且因此由虛線示出。此處，作為可選的選項(xiàng)，預(yù)測(cè)系數(shù)LPC(合成280基于此進(jìn)行)可得自入站的經(jīng)因子分解的矩陣V和D。換句話說，這意味著數(shù)據(jù)流DS包括和矩陣V和D(即DS_DV)而非和DS_LPC。

以下關(guān)于圖3a和3b論述以上所述的編碼(以及解碼)的性能改進(jìn)。

圖3a顯示示出作為用于對(duì)可接收長(zhǎng)度并等于64幀進(jìn)行編碼的比特的函數(shù)的平均感知信噪比的示意圖。在圖中，示出用于五個(gè)不同量化方法的5條曲線，其中兩個(gè)方法即最優(yōu)量化和逐對(duì)迭代量化為傳統(tǒng)方法。公式(1)形成此對(duì)比的基礎(chǔ)。作為所提議的去相關(guān)方法的量化性能與殘差信號(hào)的傳統(tǒng)時(shí)域表示的對(duì)比，ACELP編解碼器已被實(shí)施如下。輸入信號(hào)被再采樣至12.8kHz，且利用在每一幀中心的長(zhǎng)為32毫秒的漢明(Hamming)窗口估計(jì)線性預(yù)測(cè)器。然后，對(duì)于長(zhǎng)為5毫秒并與AMR-WB編解碼器的子幀相對(duì)應(yīng)的幀，計(jì)算預(yù)測(cè)殘差。利用窮舉搜索，以32至150個(gè)樣本之間的整數(shù)滯后對(duì)長(zhǎng)期預(yù)測(cè)器進(jìn)行優(yōu)化。最優(yōu)值用于未量化的LTP增益。

以(1-0.68z^-1)濾波的預(yù)加重被應(yīng)用于輸入信號(hào)，且像在AMR-WB中一樣應(yīng)用于合成中。所應(yīng)用的感知加權(quán)為A(0.92z^-1)，其中A(z)為線性預(yù)測(cè)濾波。

為了評(píng)估性能，需要對(duì)比所提議的量化與傳統(tǒng)方法(最優(yōu)量化和逐對(duì)迭代量化)。最常用的方法將長(zhǎng)為64幀的幀的殘差信號(hào)劃分至4個(gè)交錯(cuò)的通道。利用兩種方式即以窮舉搜索嘗試所有組合的最優(yōu)量化(參看Opt)方法或通過在每個(gè)可能位置嘗試兩個(gè)脈沖以連續(xù)地添加兩個(gè)脈沖的逐對(duì)迭代量化(參看，Pair)，應(yīng)用此方法。

前者對(duì)于每幀大于15個(gè)比特?cái)?shù)的比特率變得計(jì)算上不可行且復(fù)雜的，而后者為次優(yōu)的。請(qǐng)注意，后者也比應(yīng)用于諸如AMR-WB的編解碼器中的現(xiàn)有技術(shù)水平的方式更復(fù)雜，但因此也更有可能引致較佳的信噪比。將傳統(tǒng)方式與以上論述的用于量化的算法進(jìn)行對(duì)比。

范德蒙量化(參看Vand)通過y＝D^1/2Vx對(duì)殘差向量x進(jìn)行變換，其中從范德蒙因子分解獲得矩陣V和D并使用算術(shù)編碼器進(jìn)行量化。特征值量化(參看Eig)類似于范德蒙量化，但矩陣V和D是通過特征值分解獲得的。更進(jìn)一步地，還可應(yīng)用FFT量化(參看FFT)，即根據(jù)另一實(shí)施例，在y＝D^1/2Vx的變換處使用濾波的加窗的組合可被用于代替信號(hào)處理算法中的離散傅立葉變換(DFT)、離散余弦變換(DCT)、修正型離散余弦變換(MDCT)或其他變換。采取殘差信號(hào)的FFT(快速傅立葉變換)，其中應(yīng)用關(guān)于范德蒙量化的相同算術(shù)編碼器。FFT方法將明顯地給出低下質(zhì)量，因?yàn)楸娝苤獙⒌仁?2)中的樣本之間的相關(guān)考慮在內(nèi)是很重要的。此量化因此為較低的參照點(diǎn)。

所述方法的性能的展示由評(píng)估如等式(1)所定義的平均長(zhǎng)感知信噪比和方法復(fù)雜度的圖3a示出?？汕宄乜闯觯缢A(yù)期的，F(xiàn)FT域中的量化給出最差的信噪比。低下的性能可歸因于此量化未將殘差樣本之間的相關(guān)考慮在內(nèi)的事實(shí)。更進(jìn)一步地，可聲明的是，時(shí)域殘差信號(hào)的最優(yōu)量化等于以每幀5個(gè)和10個(gè)比特的逐對(duì)優(yōu)化，因?yàn)樵谶@些比特率下，存在僅1或2個(gè)脈沖，由此這些方法恰好是相同的。正如所預(yù)期的，對(duì)于每幀15個(gè)比特，最優(yōu)方法稍微優(yōu)于逐對(duì)優(yōu)化。

在每幀10個(gè)比特或以上處，范德蒙域中的量化優(yōu)于時(shí)域量化且特征值域?yàn)閮?yōu)于范德蒙域的一個(gè)步驟。在每幀5個(gè)比特處，算術(shù)編碼器的性能更有可能迅速地降低，因?yàn)橐阎獙?duì)于非常稀疏的信號(hào)它是次優(yōu)的。

還觀察到，在每幀80個(gè)比特以上，逐對(duì)方法開始偏離逐對(duì)方法。非正式實(shí)驗(yàn)顯示，此趨勢(shì)在更高比特率處增大，以使得最終FFT和逐對(duì)方法達(dá)到遠(yuǎn)低于特征值和范德蒙方法的類似信噪比。與此相反，特征值和范德蒙值繼續(xù)為比特率的大約線性函數(shù)。特征值方法始終近似優(yōu)于范德蒙方法0.36dB。假設(shè)此差值的至少部分由算術(shù)編碼器中實(shí)部和復(fù)部的隔離解釋。為了最優(yōu)性能，實(shí)部和復(fù)部應(yīng)被聯(lián)合地編碼。

圖3b顯示用于示出不同算法的復(fù)雜度的估計(jì)的以每比特率的每個(gè)方法的運(yùn)行時(shí)間的測(cè)量?？煽闯觯诘捅忍芈侍?，最優(yōu)時(shí)域方法的復(fù)雜度(參看Opt)已激增。時(shí)域殘差的逐對(duì)優(yōu)化(參看Pair)反而作為比特率的函數(shù)線性地增大。請(qǐng)注意，現(xiàn)有技術(shù)水平的方法限制逐對(duì)方法的復(fù)雜度，以使得該復(fù)雜度對(duì)于高比特率變成常數(shù)，雖然在此種限制下仍無法達(dá)到圖3a示出的實(shí)驗(yàn)的有競(jìng)爭(zhēng)性的信噪比結(jié)果。進(jìn)一步地，兩種去相關(guān)方法(參看Eig和Vand)以及FFT方法(參看FFT)對(duì)全體比特率近似地為恒定的。范德蒙變換在以上實(shí)施中具有比特征值分解方法高大體50％的復(fù)雜度，但對(duì)于此的原因可由MATLAB提供的特征值分解的高度優(yōu)化版本的使用來解釋，然而，范德蒙因子分解并非最優(yōu)實(shí)施。然而，重要地，在每幀100個(gè)比特的比特率處，逐對(duì)優(yōu)化的ACELP的復(fù)雜度分別相當(dāng)于基于范德蒙算法的大體30倍和50倍。僅FFT快于特征值分解方法，然而由于FFT的信噪比是低下的，它并非可行的選項(xiàng)。

總之，以上所述的方法具有兩個(gè)顯著的益處。首先，通過在感知域中應(yīng)用量化，感知信噪比被改進(jìn)。其次，由于殘差信號(hào)為去相關(guān)的(關(guān)于目標(biāo)函數(shù))，可直接地應(yīng)用量化而無需高度復(fù)雜的合成分析環(huán)。由此得出結(jié)論，所提議的方法的計(jì)算復(fù)雜度關(guān)于比特率是幾乎不變的，然而傳統(tǒng)方法隨著增大比特率而變得愈加復(fù)雜。

以上提出的方法完全不可利用傳統(tǒng)語音和音頻編碼方法操作。具體地，目標(biāo)函數(shù)的去相關(guān)可被應(yīng)用于諸如MPEG USAC或AMR-WB+的編解碼器的ACELP模式，而不限于編解碼器中存在的其他手段。其中應(yīng)用核心帶寬或帶寬擴(kuò)展方法的方式將保持相同，且無需改變ACELP中的長(zhǎng)期預(yù)測(cè)、共振峰增強(qiáng)、低音后置濾波等的方式以及實(shí)施此種不同編碼模式(如ACELP和TCX)以及在這些模式之間切換的方式將不會(huì)受到目標(biāo)函數(shù)的去相關(guān)的影響。

另一方面，明顯的是，可輕松地重新用公式表示使用相同目標(biāo)函數(shù)(參看公式(1))的所有手段(即，至少所有的ACELP實(shí)施)以利用去相關(guān)。因此，根據(jù)又一實(shí)施例，例如，可應(yīng)用對(duì)長(zhǎng)期預(yù)測(cè)貢獻(xiàn)的去相關(guān)，且因此可使用去相關(guān)的信號(hào)計(jì)算增益因子。

此外，由于所提出的變換域?yàn)轭l域表示，根據(jù)其他實(shí)施例，可將頻域語音和音頻編解碼器的典型方法應(yīng)用至此新域。根據(jù)特定實(shí)施例，在頻譜線的量化中，可應(yīng)用死區(qū)以增大效率。根據(jù)另一實(shí)施例，可應(yīng)用噪聲填充以避免頻譜缺陷。

盡管已經(jīng)使用線性預(yù)測(cè)器在編碼器的上下文中論述編碼的以上實(shí)施例(參看圖1a和圖1b)，應(yīng)當(dāng)注意的是，預(yù)測(cè)器還可用于包含長(zhǎng)期預(yù)測(cè)器以確定描述音頻信號(hào)AS的基頻的長(zhǎng)期預(yù)測(cè)系數(shù)并基于由長(zhǎng)期預(yù)測(cè)系數(shù)定義的濾波函數(shù)對(duì)音頻信號(hào)AS進(jìn)行濾波，以及輸出殘差信號(hào)x用于進(jìn)一步處理。根據(jù)又一實(shí)施例，預(yù)測(cè)器可為線性預(yù)測(cè)器和長(zhǎng)期預(yù)測(cè)器的組合。

清楚的是，可輕松地將所提議的變換應(yīng)用至語音和音頻處理中的其他任務(wù)，如語音增強(qiáng)。首先，基于子空間的方法基于信號(hào)的特征值分解或奇異值分解。由于所提出的方法基于類似分解，基于子空間分析的語音增強(qiáng)方法可適于根據(jù)又一實(shí)施例所提議的域。與傳統(tǒng)子空間方法的不同在于，基于線性預(yù)測(cè)和殘差域中的加窗的信號(hào)模型在何時(shí)被應(yīng)用，如被應(yīng)用于ACELP中。與此相反，傳統(tǒng)子空間方法應(yīng)用隨時(shí)間固定(非適應(yīng)性)的重疊窗口。

其次，基于范德蒙去相關(guān)的去相關(guān)提供類似于由離散傅立葉、余弦或其他類似變換所提供的頻域。因此也可將常常在傅立葉、余弦或類似變換域中進(jìn)行的任何語音處理算法以最小的修改應(yīng)用于以上所述方法的變換域中。因此，可應(yīng)用在變換域中使用頻譜減法的語音增強(qiáng)，即這意味著，根據(jù)其他實(shí)施例，所提議的變換可用于語音或音頻增強(qiáng)，例如，利用頻譜減法、子空間分析的方法或它們的衍生或變型。此處，益處在于，此方法使用與ACELP相同的加窗，以便語音增強(qiáng)算法可緊緊地集成于語音編解碼器中。更進(jìn)一步地，ACELP的窗口具有比用于傳統(tǒng)子空間分析中的那些窗口低的算法延遲。因而，加窗因此基于更高性能的信號(hào)模型。

參考用于變換器14中(即步驟140內(nèi))的等式(5)，應(yīng)注意的是，它們的產(chǎn)物也可是不同的，例如，以y＝DVx的形狀。

根據(jù)又一實(shí)施例，編碼器10可包括位于輸出處的用于將兩個(gè)數(shù)據(jù)流DS_LPC/DS_DV和封包至共同封包DS的封包器。反之亦然，解碼器20可包括用于將數(shù)據(jù)流DS分成兩個(gè)包DS_LPC/DS_DV和的解封包器。

盡管已在裝置的上下文中描述一些方面，顯然的是，這些方面也表示對(duì)應(yīng)方法的描述，其中區(qū)塊或裝置對(duì)應(yīng)于方法步驟或方法步驟的特征。類似地，在方法步驟的上下文中所描述的方面也表示對(duì)應(yīng)裝置的對(duì)應(yīng)區(qū)塊或項(xiàng)目或特征的描述。方法步驟中的一些或所有可由(或使用)像諸如微處理器、可編程計(jì)算機(jī)或電子電路的硬件裝置執(zhí)行。在一些實(shí)施例中，最重要方法步驟的某個(gè)或某些可由此裝置執(zhí)行。

本發(fā)明的經(jīng)編碼的信號(hào)可儲(chǔ)存在數(shù)字存儲(chǔ)介質(zhì)上或可在傳輸介質(zhì)上(例如無線傳輸介質(zhì)或有線傳輸介質(zhì)(例如因特網(wǎng)))上傳輸。

取決于特定的實(shí)施要求，本發(fā)明的實(shí)施例可以以硬件或軟件實(shí)施?？墒褂镁哂写鎯?chǔ)于其上的電子可讀控制信號(hào)的數(shù)字存儲(chǔ)介質(zhì)，例如軟性磁盤、DVD、藍(lán)光、CD、ROM、PROM、EPROM、EEPROM或閃存，執(zhí)行實(shí)施方案，這些電子可讀控制信號(hào)與可編程計(jì)算機(jī)系統(tǒng)協(xié)作(或能夠協(xié)作)以使得執(zhí)行各個(gè)方法。因此，數(shù)字存儲(chǔ)介質(zhì)可為計(jì)算機(jī)可讀的。

根據(jù)本發(fā)明的一些實(shí)施例包括具有電子可讀控制信號(hào)的數(shù)據(jù)載體，這些電子可讀控制信號(hào)能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作，使得執(zhí)行本文中所描述的方法中的一個(gè)。

通常，本發(fā)明的實(shí)施例可被實(shí)施為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品，當(dāng)計(jì)算機(jī)程序產(chǎn)品運(yùn)行于計(jì)算機(jī)上時(shí)，程序代碼操作性地用于執(zhí)行這些方法中的一個(gè)。程序代碼可(例如)儲(chǔ)存于機(jī)器可讀載體上。

其他實(shí)施例包括儲(chǔ)存于機(jī)器可讀載體上的用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序。

換言之，因此，本發(fā)明方法的實(shí)施例為具有程序代碼的計(jì)算機(jī)程序，當(dāng)計(jì)算機(jī)程序運(yùn)行于計(jì)算機(jī)上時(shí)，該程序代碼用于執(zhí)行本文中所描述的方法中的一個(gè)。

因此，本發(fā)明方法的另一實(shí)施例為包括記錄于其上的，用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序的數(shù)據(jù)載體(或數(shù)字存儲(chǔ)介質(zhì)，或計(jì)算機(jī)可讀介質(zhì))。數(shù)據(jù)載體、數(shù)字存儲(chǔ)介質(zhì)或記錄的介質(zhì)通常為有形的和/或非暫時(shí)性的。

因此，本發(fā)明方法的另一實(shí)施例為表示用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序的數(shù)據(jù)流或信號(hào)序列。數(shù)據(jù)流或信號(hào)序列可例如用于經(jīng)由數(shù)據(jù)通信連接(例如，經(jīng)由因特網(wǎng))而被傳送。

另一實(shí)施例包括用于或適于執(zhí)行本文中所描述的方法中的一個(gè)的處理構(gòu)件，例如，計(jì)算機(jī)或可編程邏輯器件。

另一實(shí)施例包括安裝有用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序的計(jì)算機(jī)。

根據(jù)本發(fā)明的另一實(shí)施例包含用以將用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序(例如電性或光學(xué))傳輸?shù)浇邮掌鞯难b置或系統(tǒng)。例如，接收器可為計(jì)算機(jī)、移動(dòng)裝置、存儲(chǔ)器裝置或類似。例如，此裝置或系統(tǒng)可包含用于將計(jì)算機(jī)程序傳輸至接收器的文件服務(wù)器。

在一些實(shí)施例中，可編程邏輯器件(例如，現(xiàn)場(chǎng)可編程門陣列)可用于執(zhí)行本文中所描述的方法的功能性中的一些或所有。在一些實(shí)施例中，現(xiàn)場(chǎng)可編程門陣列可與微處理器協(xié)作，以便執(zhí)行本文中所描述的方法中的一個(gè)。大體而言，優(yōu)選地由任何硬件裝置執(zhí)行這些方法。

以下將利用不同的措辭以及可助于闡明本發(fā)明背景的更多細(xì)節(jié)論述以上所述的教示。近來，范德蒙變換作為時(shí)頻變換被提出，不同于離散傅立葉變換，范德蒙變換還對(duì)信號(hào)進(jìn)行去相關(guān)。盡管傅立葉提供的近似或漸近去相關(guān)在一些情況下是足夠的，其性能在利用短窗口的應(yīng)用中是不足的。因此，在由于輸入信號(hào)隨時(shí)間迅速地改變而需要使用短分析窗口的語音和音頻處理應(yīng)用中，范德蒙變換將是有用的。此種應(yīng)用常用在具有有限計(jì)算能力的移動(dòng)設(shè)備上，由此高效的計(jì)算具有卓越的重要性。

然而，范德蒙變換的實(shí)施變成相當(dāng)大的工作量：它要求其性能對(duì)于復(fù)雜度和準(zhǔn)確率已被優(yōu)化的先進(jìn)數(shù)值計(jì)算工具。此貢獻(xiàn)提供解決包括性能評(píng)估的此任務(wù)的基準(zhǔn)方案。索引詞-時(shí)頻變換、去相關(guān)、范德蒙矩陣、托普利茲矩陣、翹曲離散傅立葉變換。

離散傅立葉變換為數(shù)字信號(hào)處理中的最基本手段中的一種。它提供頻率分量形式的輸入信號(hào)的物理激勵(lì)再現(xiàn)。由于快速傅立葉變換(FFT)也以非常低的計(jì)算復(fù)雜度O(N log N)計(jì)算離散傅立葉變換，它已變成數(shù)字信號(hào)處理的最重要手段中的一種。

盡管有名的，離散傅立葉變換具有如此瑕疵：它未完全地對(duì)信號(hào)分量進(jìn)行去相關(guān)(對(duì)于數(shù)值示例，參見部分4)。僅當(dāng)變換長(zhǎng)度收斂至無窮時(shí)，分量變成正交的。此近似去相關(guān)在許多應(yīng)用中是足夠良好的。然而，對(duì)于利用諸如許多語音和音頻處理算法的相對(duì)小變換的應(yīng)用，此近似的準(zhǔn)確率限制算法的總體效率。例如，語音編碼標(biāo)準(zhǔn)AMR-WB利用長(zhǎng)為N＝64的窗口。實(shí)踐已證明，離散傅立葉變換的性能在此情況下是不足的，且因而大多數(shù)主流語音編解碼器使用時(shí)域編碼。

圖3c顯示范德蒙變換的特征，由51標(biāo)記的粗線示出信號(hào)的(非翹曲)傅立葉頻譜，以及線52、53和54為利用輸入信號(hào)進(jìn)行濾波的、三個(gè)選中頻率的帶通濾波器的響應(yīng)。范德蒙因子分解大小為64。

自然地，存在提供輸入信號(hào)的去相關(guān)的大量變換，如卡洛南-洛伊(Karhunen-Loève)變換(KLT)。然而，KLT的分量為不具有像傅立葉變換一樣簡(jiǎn)單的物理解釋的抽象實(shí)體。另一方面，物理激勵(lì)域允許物理激勵(lì)標(biāo)準(zhǔn)簡(jiǎn)單明了地實(shí)施于處理方法中。因此期望提供物理解釋和去相關(guān)二者的變換。

近來，我們已提出具有兩種優(yōu)選特征的被稱為范德蒙變換的變換。它基于將埃爾米特托普利茲(HermitianToeplitz)矩陣分解為對(duì)角矩陣和范德蒙矩陣的乘積。此因子分解實(shí)際上也被稱作協(xié)方差矩陣的卡拉西奧多禮(Carathéodory)參數(shù)化，且類似于漢克爾(Hankel)矩陣的范德蒙因子分解。

對(duì)于正定的埃爾米特托普利茲矩陣的特定情況，范德蒙因子分解將與頻率-翹曲離散傅立葉變換相對(duì)應(yīng)。換句話說，它是提供采樣于并非必須均勻分布的頻率處的信號(hào)分量的時(shí)頻變換。范德蒙變換因此提供兩種期望特性：去相關(guān)和物理解釋。

當(dāng)已分析地展示范德蒙變換的存在和特性時(shí)，當(dāng)前工作的目的在于，首先，收集用于范德蒙變換的現(xiàn)有實(shí)際算法并形成文檔。這些方法已在包括數(shù)值代數(shù)學(xué)、數(shù)值分析、系統(tǒng)識(shí)別、時(shí)頻分析和信號(hào)處理的非常不同的領(lǐng)域中顯現(xiàn)，由此它們常難以被發(fā)現(xiàn)。此文件因此是提供用于結(jié)果的分析和論述的聯(lián)合平臺(tái)的方法的回顧。其次，我們提供作為基準(zhǔn)的數(shù)值示例以用于不同方法的性能的進(jìn)一步評(píng)估。

此部分提供對(duì)范德蒙變換的簡(jiǎn)要介紹。對(duì)于關(guān)于應(yīng)用的更全面的誘因和論述，請(qǐng)參考。

范德蒙矩陣V由標(biāo)量vk定義為：

如果標(biāo)量vk為不同的(對(duì)于)且它的逆具有顯式公式，它是滿秩的。

對(duì)稱的托普利茲矩陣T由標(biāo)量T_k定義為：

如果T為正定的，則它可被因子分解為：

T＝V^*∧V， (3z)

其中，∧為具有實(shí)數(shù)和嚴(yán)格正條目λ_kk＞0的對(duì)角矩陣，且指數(shù)級(jí)數(shù)V全部在單位圓v_k＝exp(iβ_k)上。此形式還被稱為托普利茲矩陣的卡拉西奧多禮參數(shù)化。

在此我們提出范德蒙變換的兩種使用：用作去相關(guān)變換或用作卷積矩陣的替代。首先考慮具有自相關(guān)矩陣E[xx^*]＝R_x的信號(hào)x。由于自相關(guān)矩陣是正定、對(duì)稱的且是托普利茲，我們可將它因子分解為R＝V*∧V。由此得出結(jié)論，如果我們應(yīng)用變換

y_d＝V^-*x (4z)

其中V^-*是V的逆埃爾米特，則y_d的自相關(guān)矩陣為

變換的信號(hào)y_d因此為不相關(guān)的。逆變換為

x＝V*y_d. (6z)

作為啟發(fā)式描述，我們可說，正變換V^-*在其第k行包含濾波器，該濾波器的帶通處于頻率-β_k處且用于x的阻帶輸出具有低能量。具體地，輸出的頻譜形狀接近于在單位圓上具有單極的AR濾波器的頻譜形狀。請(qǐng)注意，由于此濾波器組為信號(hào)自適應(yīng)的，此處我們考慮濾波器的輸出而非基本函數(shù)的頻率響應(yīng)。

反變換V^*反而在其列中具有指數(shù)級(jí)數(shù)，以使得x為指數(shù)級(jí)數(shù)的加權(quán)和。換句話說，變換為翹曲時(shí)頻變換。圖3c展示輸入信號(hào)x的離散(非翹曲)傅立葉頻譜以及V^-*的選中行的頻率響應(yīng)。

用于卷積域中的信號(hào)的評(píng)估的范德蒙變換可構(gòu)造如下。令C為卷積矩陣且x為輸入信號(hào)?？紤]我們的目標(biāo)為評(píng)估卷積信號(hào)y_c＝C_x的情況。例如，此評(píng)估在利用ACELP的語音編解碼器中顯現(xiàn)于在感知域中評(píng)估量化誤差能量之處以及通過濾波描述至感知域的映射之處。

y_c的能量為：

||y_c||²＝||Cx||²＝x*C*Cx＝x*R_cx＝x*V*ΛVx＝||Λ^1/2Vx||² (7z)

y_c的能量因此等于變換且縮放的信號(hào)的能量：

y_v＝Λ^1/2Vx (8z)

因此，我們能等效地評(píng)估卷積或變換域中的信號(hào)能量||y_c||²＝||y_v||²。逆變換明顯地為

x＝V^-1∧^-1/2y_v. (9z)

正變換V在其行中具有指數(shù)級(jí)數(shù)，由此它是翹曲傅立葉變換。它的逆V^-1在其列中具有在β_k處具有帶通的濾波器。以此形式，濾波器組的頻率響應(yīng)等于離散傅立葉變換。它是利用常被看作為混疊分量以能夠?qū)崿F(xiàn)完美的重建的僅有的逆變換。

為了使用范德蒙變換，我們需要用于確定以及應(yīng)用變換的高效算法。在此部分中，我們將論述可用的算法。讓我們以變換的應(yīng)用開始，因?yàn)樗歉?jiǎn)單明了的任務(wù)。

V和V^＊的乘積是簡(jiǎn)單明了的，且可以復(fù)雜度O(N²)實(shí)施。為了減小存儲(chǔ)需求，我們?cè)诖孙@示對(duì)于h＞1無需明確地評(píng)估指數(shù)的算法。即，如果y＝Vx且x的元素為ξ_k，則可利用循環(huán)確定y的元素η_k：

此處，T_h，k為臨時(shí)標(biāo)量，僅需要存儲(chǔ)其當(dāng)前值。對(duì)于N個(gè)分量，總體循環(huán)具有N個(gè)步驟，由此總體復(fù)雜度為O(N²)且存儲(chǔ)需求為常量。對(duì)于y＝V*x可輕松地寫出類似算法。

逆范德蒙矩陣V^-1和V^-*的乘積是稍微復(fù)雜的任務(wù)，但幸運(yùn)的是，已可從文獻(xiàn)中得到相對(duì)高效的方法。算法易于實(shí)施且對(duì)于x＝V^-1y和x＝V^-*y，復(fù)雜度為O(N²)且存儲(chǔ)需求為線性的O(N)。然而，算法在每個(gè)步驟包括除法，這在許多架構(gòu)中具有高常量代價(jià)。

盡管用于乘以逆的以上算法在分析的意義中是精確的，實(shí)際的實(shí)施對(duì)于大數(shù)N為數(shù)值上不穩(wěn)定的。在我們的經(jīng)驗(yàn)中，利用大小上達(dá)N～64的矩陣的計(jì)算有時(shí)是可能的，但除此之外，數(shù)值不穩(wěn)定性致使這些算法就其本身而言是無用的。實(shí)際的方案為根V_k的Leja-排序，其相當(dāng)于利用部分主元消元的高斯消元法。Leja-排序的主要思想為以根V_k距前面的0...(k-1)的根的距離被最大化的方式對(duì)根進(jìn)行重排序。通過此重排序，顯現(xiàn)于算法中的分母被最大化且中間變量的值被最小化，由此截?cái)嗾`差的貢獻(xiàn)也被最小化。Leja-排序的實(shí)施是簡(jiǎn)單的且可以以復(fù)雜度O(N²)和存儲(chǔ)需求O(N)實(shí)現(xiàn)。

然后，最終障礙是獲得因子分解，即，根V_k以及需要時(shí)的對(duì)角線值λ_kk。就我們所知，可通過求解

Ra＝[11...1]^T， (11z)

獲得根。其中，a具有元素α_k。然后v₀＝1和剩余根V₁...V_N為多項(xiàng)式的根。我們可輕松地顯示，這相當(dāng)于求解漢克爾系統(tǒng)

其中，然后根V_k為的根。

由于原始托普利茲系統(tǒng)的因子分解等式(11z)與等式(12z)等效，我們可使用用于漢克爾矩陣的因子分解的快速算法。此算法返回三對(duì)角矩陣，其特征值與的根相對(duì)應(yīng)。然后可以通過應(yīng)用LR算法以O(shè)(N²)或通過標(biāo)準(zhǔn)的非對(duì)稱QR算法以O(shè)(N²)獲得特征值。此種方式獲得的根為近似值，由此它們可能會(huì)稍微脫離單位圓。然后，將根的絕對(duì)值歸一化至統(tǒng)一單位并利用牛頓方法的2或3次迭代進(jìn)行精煉是有用的。完整的過程具有O(N²)的計(jì)算代價(jià)。

因子分解中的最后步驟為獲得對(duì)角線值∧。請(qǐng)觀察，

Re＝V*∧Ve＝V*λ (13z)

其中，e＝[10...0]^T且λ為包含∧的對(duì)角線值的向量。換句話說，通過計(jì)算

λ＝V^-*(Re)， (14z)

我們獲得對(duì)角線值λ_kk。利用以上論述的方法可計(jì)算此逆，由此以復(fù)雜度O(N²)獲得對(duì)角線值。

總之，矩陣R的因子分解所需的步驟為：

1、使用萊文森一德賓(Levinson-Durbin)或其他經(jīng)典方法，求解等式(11z)。

2、通過擴(kuò)展自相關(guān)序列。

3、對(duì)序列T_k應(yīng)用三對(duì)角化算法。

4、使用LR或?qū)ΨQ的QR算法，求解特征值vk。

5、通過將v_k縮放至統(tǒng)一單位以及牛頓方法的數(shù)次迭代，對(duì)根的位置進(jìn)行精煉。

6、使用等式(14z)確定對(duì)角線值λ_kk。

讓我們以展示所使用的概念的數(shù)值示例開始。此處，矩陣C為與簡(jiǎn)單濾波器1+z^-1相對(duì)應(yīng)的卷積矩陣，矩陣R為它的自相關(guān)，矩陣V為利用部分3中的算法獲得的對(duì)應(yīng)范德蒙矩陣，矩陣F為離散傅立葉變換矩陣且矩陣∧_V和∧_F展示兩個(gè)變換的對(duì)角化準(zhǔn)確率。因此，我們可定義

由此我們可利用

評(píng)估對(duì)角化。

此處，我們可看到，利用范德蒙變換，我們獲得完美地對(duì)角化的矩陣∧_V。離散傅立葉變換的性能遠(yuǎn)非最優(yōu)的，因?yàn)閷?duì)角線外的值明顯地是非零。作為性能的度量，我們可計(jì)算對(duì)角線外的值的絕對(duì)和與對(duì)角線上的值的絕對(duì)和之比，其對(duì)于范德蒙因子分解為0，而對(duì)于傅立葉變換為0.444。

然后，我們可進(jìn)行對(duì)部分3中描述的實(shí)施的評(píng)估。在提供性能基準(zhǔn)的目的下，我們已在MATLAB中實(shí)施每個(gè)算法，基于該性能基準(zhǔn)，未來的工作可進(jìn)行對(duì)比并找到最終的性能瓶頸。我們將考慮關(guān)于復(fù)雜度和準(zhǔn)確率的性能。

為了確定因子分解的性能，我們將范德蒙因子分解與離散傅立葉和卡洛南-洛伊變換進(jìn)行對(duì)比，利用特征值分解應(yīng)用后者。我們已使用兩種方式應(yīng)用范德蒙因子分解，第一，在此論文中描述的算法(V₁)以及第二，在使用由MATLAB提供的內(nèi)置尋根函數(shù)(V₂)中描述的方法。由于此MATLAB函數(shù)為經(jīng)細(xì)致調(diào)整的一般算法，我們預(yù)期將以比我們?yōu)樘囟康亩鴦?chuàng)建的算法高的復(fù)雜度獲得準(zhǔn)確的結(jié)果。

作為用于我們的實(shí)驗(yàn)的數(shù)據(jù)，我們使用以12.8kHz的采樣率用于MPEG USAC標(biāo)準(zhǔn)的評(píng)估中的語音、音頻和混合音樣本的集合。利用漢明窗口，對(duì)音頻樣本加窗至期望長(zhǎng)度，并計(jì)算它們的自相關(guān)。為了確保自相關(guān)矩陣為正定的，主對(duì)角線乘以(1+10^-5)。

對(duì)于性能度量，我們使用關(guān)于歸一化運(yùn)行時(shí)間的計(jì)算復(fù)雜度和關(guān)于由對(duì)角線外的元素的絕對(duì)和與對(duì)角線上的元素的絕對(duì)和之比度量的距對(duì)角矩陣有多近的準(zhǔn)確率。結(jié)果被列出在表1和2中。

表1、關(guān)于歸一化運(yùn)行時(shí)間的因子分解算法對(duì)于不同窗口長(zhǎng)度N的復(fù)雜度

表2、關(guān)于的對(duì)角線外的值的絕對(duì)和與對(duì)角線上的值的絕對(duì)和之比的log₁₀的因子分解算法對(duì)于不同窗口長(zhǎng)度N的準(zhǔn)確率

請(qǐng)注意，此處，對(duì)比算法之間的運(yùn)行時(shí)間是不明智的，僅是作為幀大小的函數(shù)的復(fù)雜度的增大，因?yàn)閮?nèi)置MATLAB函數(shù)已以不同于我們自己算法的語言實(shí)施。我們可看到，所提議的算法V₁的復(fù)雜度隨可比擬于KLT的比率增大，而應(yīng)用MATLAB的尋根函數(shù)V₂的算法增大更多。所提議的因子分解算法V₁的準(zhǔn)確率尚非最優(yōu)的。然而，由于MATLAB的尋根函數(shù)V₂引致可比擬于KLT的準(zhǔn)確率，我們得到結(jié)論，通過算法改進(jìn)的改進(jìn)是可能的。

第二個(gè)實(shí)驗(yàn)是變換的應(yīng)用以確定準(zhǔn)確率和復(fù)雜度。首先，我們應(yīng)用等式(4z)和(9z)，其復(fù)雜度在表3中列出。此處，我們可看到，KLT的矩陣乘法以及MATLAB的矩陣系統(tǒng)的內(nèi)置方案V₂具有大體相同的復(fù)雜度增大比率，而用于等式(4z)和(9z)的所提議的方法具有更小的增大。自然地，F(xiàn)FT快于所有其他方法。

最后，為了獲得范德蒙方案的準(zhǔn)確率，我們依次應(yīng)用正變換和反變換。在表4中列出了原始向量和重構(gòu)建向量之間的歐氏(Euclidean)距離。我們可觀察到，首先，正如所預(yù)期的，F(xiàn)FT和KLT算法為最準(zhǔn)確的，因?yàn)樗鼈兓谡蛔儞Q。其次，我們可看到，所提議的算法V₁的準(zhǔn)確率稍微低于MATLAB的內(nèi)置方案V₂，但兩個(gè)算法均提供足夠的準(zhǔn)確率。

我們已在回顧可用算法以及提供用于進(jìn)一步開發(fā)的性能基準(zhǔn)的目的下，提出使用范德蒙因子分解對(duì)時(shí)頻變換進(jìn)行去相關(guān)的實(shí)施細(xì)節(jié)。而原則上可從先前工作得到算法，它結(jié)果是使得系統(tǒng)按需求運(yùn)行。

表3、關(guān)于歸一化運(yùn)行時(shí)間的范德蒙方案對(duì)于不同的窗口長(zhǎng)度N的復(fù)雜度。此處，v₁^-*和V₁^-1預(yù)示利用各個(gè)所提議的算法的等式(4z)和(9z)的方案。

表4、如通過測(cè)量的正變換和反變換的準(zhǔn)確率，其中x和為原始向量和重構(gòu)建向量。

相當(dāng)大的工作量。主要挑戰(zhàn)為數(shù)值準(zhǔn)確率和計(jì)算復(fù)雜度。實(shí)驗(yàn)證實(shí)，可得到以O(shè)(N2)復(fù)雜度的方法，盡管獲得低復(fù)雜度同時(shí)具有數(shù)值穩(wěn)定性是個(gè)挑戰(zhàn)。然而，由于一般MATLAB實(shí)施提供準(zhǔn)確的方案，我們斷定利用實(shí)施的進(jìn)一步調(diào)整，獲得高準(zhǔn)確率是可能的。

總之，我們的實(shí)驗(yàn)顯示，對(duì)于范德蒙方案，所提議的算法具有良好的準(zhǔn)確率和足夠低的復(fù)雜度。對(duì)于因子分解，為特定目的而創(chuàng)建的因子分解的確以合理的復(fù)雜度給出比FFT更優(yōu)的去相關(guān)，而對(duì)于準(zhǔn)確率，仍存在改進(jìn)空間。MATLAB的內(nèi)置實(shí)施給出令人滿意的準(zhǔn)確率，這將我們引向如此結(jié)論：可實(shí)施準(zhǔn)確的O(N²)算法。

上文所描述的實(shí)施例僅僅說明本發(fā)明的原理。應(yīng)理解，對(duì)本文中所描述的配置及細(xì)節(jié)的修改及變型對(duì)本領(lǐng)域技術(shù)人員而言將是顯而易見。因此，僅意欲由待決專利的權(quán)利要求的范圍限制，而不由通過本文的實(shí)施例的描述及解釋而提出的特定細(xì)節(jié)限制。

參考文獻(xiàn)

[1]B.Bessette，R.Salami，R.Lefebvre，M.Jelinek，J.Rotola-Pukkila，J.Vainio，H.Mikkola，and K.“The adaptive multirate wideband speech codec(AMR-WB)，″Speech and Audio Processing，IEEE Transactions on，vol.10，no.8，pp.620-636，2002.

[2]ITU-T G.718，“Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from8-32kbit/s，″2008.

[3]M.Neuendorf，P.Gournay，M.Multrus，J.Lecomte，B.Bessette，R.Geiger，S.Bayer，G.Fuchs，J.Hilpert，N.Rettelbach，R.Salami，G.Schuller，R.Lefebvre，and B.Grill，“Unied speech and audio coding scheme forhigh quality at low bitrates，″in Acoustics，Speech and Signal Processing.ICASSP 2009.IEEE Int Conf，2009，pp.1-4，

[4]J.-P.Adoul，P.Mabilleau，M.Delprat，and S.Morissette，“Fast CELP coding based on algebraic codes，″in Acoustics，Speech，and Signal Processing，IEEE International Conference on ICASSP′87.，vol.12.IEEE，1987，pp.1957-1960.

[5]C.Laamme，J.Adoul，H.Su，and S.Morissette，“On reducing computational complexity of codebook search in CELP coder through the use of algebraic codes，″in Acoustics，Speech，and Signal Processing，1990.ICASSP-90.，1990International Conference on.IEEE，1990，pp.177-180.

[6]F.-K.Chen and J.-F.Yang，“Maximum-take-precedence ACELP：a low complexity search method，″in Acoustics，Speech，and Signal Processing，2001.Proceedings.(ICASSP′01).2001 IEEE International Conference on，vol.2.IEEE，2001，pp.693-696.

[7]K.J.Byun，H.B.Jung，M.Hahn，and K.S.Kim，“A fast ACELP codebook search method，″in Signal Processing，2002 6th International Conference on，vol.1.IEEE，2002，pp.422-425.[8]N.K.Ha，\A fast search method of algebraic codebook by reordering search sequence，″in Acoustics，Speech，and Signal Processing，1999.Proceedings.，1999 IEEE International Conference on，vol.1.IEEE，1999，pp.21-24.

[9]M.A.Ramirez and M.Gerken，“Efficient algebraic multipulse search，″in Telecommunications Symposium，1998.ITS′98 Proceedings.SBT/IEEE International.IEEE，1998，pp.231-236.

[10]T.“Computationally efficient objective function for algebraic codebook optimization in ACELP，″in Interspeech 2013，August 2013.

[11]|“Vandermonde factorization of Toeplitz matrices and applications in filtering and warping，″IEEE Trans.Signal Process.，vol.61，no.24，pp.6257-6263，2013.

[12]G.H.Golub and C.F.van Loan，Matrix Computations，3rd ed.John Hopkins University Press，1996.

[13]T.J.Fischer，and D.Boley，“Implementation and evaluation of the Vandermonde transform，″in submitted to EUSIPCO 2014(22^nd European Signal Processing Conference 2014)(EUSIPCO 2014)，Lisbon，Portugal，Sep.2014.

[14]T.G.Fuchs，M.Multrus，and M.Dietz，“Linear prediction based audio coding using improved probability distribution estimation，″US Provisional Patent US 61/665 485，6，2013.

[15]K.Hermus，P.Wambacq et al.，\A review of signal subspace speech enhancement and its application to noise robust speech recognition，″EURASIP Journal on Applied Signal Processing，vol.2007，no.1，pp.195-195，2007.

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3