用于包括通用音頻和語音幀的音頻信號的解碼器的制作方法

文檔序號：2832714閱讀：432來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于包括通用音頻和語音幀的音頻信號的解碼器的制作方法
技術(shù)領(lǐng)域：
本公開一般地涉及語音和音頻處理，并且更具體地，涉及用于處理包括通用音頻和語音幀的音頻信號的解碼器。
背景技術(shù)：
許多音頻信號可以被分類為具有更多類語音特性或音樂、音調(diào)、背景噪聲、回響語音等更典型的更多的通用音頻特性?；谶m用于處理語音信號的源濾波器模型的編譯碼器不會有效地處理通用音頻信號。這樣的編譯碼器包括線性預(yù)測代碼化(LPC)編譯碼器，如碼激勵線性預(yù)測(CELP)代碼器。語音代碼器往往以低比特率處理語音信號。相反，諸如頻域變換編譯碼器的通用音頻處理系統(tǒng)不會很好地處理語音信號。公知的是，提供分類器或鑒別器來在逐個幀的基礎(chǔ)上確定音頻信號是更像語音還是不太像語音，并且基于該分類來將信號指引到語音編譯碼器或通用音頻編譯碼器。能夠處理不同信號類型的音頻信號處理器有時被稱為混合核心編譯碼器。然而，分別地已知在與使用語音編譯碼器和通用音頻編譯碼器的語音幀和通用音頻幀的處理之間的轉(zhuǎn)變來在已處理輸出信號中產(chǎn)生音頻間隙形式的不連續(xù)。這樣的音頻間隙通?？稍谟脩艚鹰硖幉煊X，并且通常是不期望的?，F(xiàn)有技術(shù)圖I圖示了輸出幀序列中的在已處理語音幀與已處理通用音頻幀之間產(chǎn)生的音頻間隙。圖I還在102處圖示了輸入幀的序列，該輸入幀的序列可以被分類為語音幀(m-2)和(m-1)，后面是通用音頻幀(m)和(m+1)。樣本索引η與該幀串內(nèi)的在時間η處獲得的樣本相對應(yīng)。出于該圖的目的，η = O的樣本索引與其中獲得幀(m)的最后ー個樣本的相對時間相對應(yīng)。這里，可以在已經(jīng)累積了 320個新樣本之后處理幀(m)，將該320個新樣本與160個先前累積的樣本組合，總共480個樣本。在該示例中，采樣頻率是16kHz，并且對應(yīng)的幀尺寸是20毫秒，但是許多采樣速率和幀尺寸都是可能的?？梢允褂镁€性預(yù)測代碼化(LPC)語音代碼化來處理語音幀，其中，在104處圖示了 LPC分析窗ロ。已處理語音巾貞(m-Ι)在106處進行圖示并且其前面是未圖示的代碼化的語音幀(m-2)，與輸入幀(m-2)相對應(yīng)。圖I還在108處圖示了重疊的代碼化的通用音頻幀。通用音頻分析/復(fù)合窗ロ與已處理通用音頻幀的振幅包絡(luò)相對應(yīng)。已處理幀106和108的序列由于算法處理延遲而導(dǎo)致在時間上相對于輸入幀102的序列偏移，該算法處理延遲在本文中還分別針對語音和通用音頻巾貞被稱為先行延遲(look-ahead delay)和重疊-添加延遲。圖I中的108處的代碼化的通用音頻(m)和(m+1)的重疊部分提供了對110處的對應(yīng)順序已處理通用音頻幀(m)和(m+Ι)的加性效應(yīng)。然而，因為前ー個幀是代碼化的語音幀，所以在108處的代碼化的通用音頻幀(m)的導(dǎo)尾不與相鄰的通用音頻幀的拖尾重疊。因此，在108處的對應(yīng)已處理通用音頻幀(m)的前導(dǎo)部分具有減小的振幅。將代碼化的語音和通用音頻幀的序列組合的結(jié)果是在已處理輸出幀的序列中的已處理語音幀和已處理通用音頻幀之間的音頻間隙，如110處的復(fù)合輸出幀中所示。標(biāo)題為“Switching Between Coding Schemes”(諾基亞)的美國申請No. 2006/0173675公開了ー種混合代碼器，該混合代代碼器通過在逐幀的基礎(chǔ)上在自適應(yīng)多速率寬帶(AMR-WB)編譯碼器與利用修正的離散余弦變換(MDCT)之間進行選擇，例如，在MPEG 3編譯碼器或(AAC)編譯碼器之間進行選擇，其中最適當(dāng)?shù)末`個，來適應(yīng)語音和音樂二者。諾基亞改善了不連續(xù)性的不利影響，該不連續(xù)性由于在使用具有幾乎完美的重構(gòu)性質(zhì)(其特征在于混疊誤差的最小化)的特殊MDCT分析/復(fù)合窗ロ從AMR-WB編譯碼器切換到基于MDCT的編譯碼器時產(chǎn)生的未抵消混疊誤差而發(fā)生。諾基亞公開的特殊MDCT分析/復(fù)合窗ロ包括三個組成部分的重疊的基于正弦的窗ロ HtlOihH1 (η)和H2(η)，其被應(yīng)用于在語音幀之后的第一個輸入音樂幀以提供改善的處理音樂幀。然而，該方法可能經(jīng)歷可能由于由H0Oi)、氏(11)和H2 (η)定義的關(guān)聯(lián)譜區(qū)的欠建模(under-modeling)所引起的信號不連續(xù)。也就是說，可以提供的有限數(shù)目的比特需要跨三個區(qū)域分布，同時仍然要求產(chǎn)生在前一語音幀的結(jié)尾與區(qū)域Htl (η)的起始之間的幾乎完美的波形匹配。對于本領(lǐng)域的技術(shù)人員來說，在結(jié)合下述附圖仔細(xì)考慮本發(fā)明的以下具體實施方式
時，本發(fā)明的各種方面、特征和優(yōu)點將變得更加充分地顯而易見。已經(jīng)出于簡單的目的簡化了附圖，并且附圖不一定按比例繪制。

·
現(xiàn)有技術(shù)圖I圖示了具有音頻間隙的語音幀和通用音頻幀的常規(guī)處理序列。圖2是混合語音和通用音頻信號代碼器的示意性框圖。圖3是混合語音和通用音頻信號解碼器的示意性框圖。圖4圖不了首頻イ目號編碼過程。圖5圖示了經(jīng)歷非常規(guī)代碼化過程的語音幀和通用音頻幀的序列。圖6圖示了經(jīng)歷另一非常規(guī)代碼化過程的語音幀和通用音頻幀的序列。圖7圖示了音頻解碼過程。
具體實施例方式圖2圖示混合核心代碼器200，該混合核心代碼器200被配置成對輸入的幀流進行代碼化，該輸入的幀流中的ー些是語音幀，而其它的是不不太像語音的幀。不太像語音的幀在本文中被稱為通用音頻幀?；旌虾诵木幾g碼器包括處理輸入音頻信號s (η)的幀的模式選擇器120，其中η是樣本索引。當(dāng)采樣速率是每秒16k個樣本時，幀長度可以包括320個音頻樣本，這與20毫秒的幀時間間隔相對應(yīng)，但是許多其它修改也是可能的。模式選擇器被配置成基于特定于每個幀的屬性或特性的評估來評定輸入幀的序列中的幀比較像語音還是不太像語音。音頻信號辨別或者更一般地音頻幀分類的細(xì)節(jié)超出本公開的范圍，但是對于本領(lǐng)域的普通技術(shù)人員來說是公知的。對復(fù)用器220提供模式選擇碼字。該碼字在逐個幀的基礎(chǔ)上指示通過其處理輸入信號的對應(yīng)幀的模式。因此，例如，輸入音頻幀可以作為語音信號或通用音頻信號來進行處理，其中，碼字指示如何處理該幀以及具體地使用什么類型的音頻代碼器來來處理該幀。該碼字還可以傳遞關(guān)于從語音到通用音頻的轉(zhuǎn)變的信息。雖然可以從前ー幀分類類型暗示轉(zhuǎn)變信息，但是通過其傳送信息的信道可能是有損耗的，并且因此關(guān)于前一幀類型的信息可能不可用。在圖2中，編譯碼器通常包括適用于對語音幀進行代碼化的第一代碼器230以及適用于對通用音頻幀進行代碼化的第二代碼器240。在一個實施例中，語音代碼器基于適用于處理語音信號的源濾波器模型，并且通用音頻代碼器是基于時域混疊抵消(TDAC)的線性正交重疊變換。在一個實現(xiàn)中，語音代碼器可以利用碼激勵線性預(yù)測代碼器(CELP)典型的線性預(yù)測代碼化(LPC)以及適用于處理語音信號的代碼器。通用音頻代碼器可以基于不同類型的離散余弦變換(DCT)或DCT/離散正弦變換(DST)組合來被實現(xiàn)為修正的離散余弦變換(MSCT)編譯碼器或修正的離散正弦變換(MSCT)或MDCT的形式。在圖2中，第一代碼器230和第二代碼器240具有通過選擇開關(guān)250耦合到輸入音頻信號的輸入，該選擇開關(guān)250基于由模式選擇器210選擇或確定的模式來控制。例如，處理器可以基于模式選擇器的碼字輸出來控制開關(guān)250。開關(guān)250選擇用于處理語音幀的語音代碼器230，并且開關(guān)選擇用于處理通用音頻幀的通用音頻代碼器。借助于選擇開關(guān)250，可以僅用例如語音代碼器或通用音頻代碼器的一個代碼器來處理每個幀。更一般地，雖然在圖2中僅圖示了兩個代碼器，但是可以用若干不同代碼器中的一個來對該幀進行代碼化。例如，可以選擇三個或更多代碼器中的ー個來處理輸入音頻信號的特定幀。然而，在其它實施例中，如下文進ー步討論的，可以用所有代碼器來對每個幀進行代碼化。在圖2中，每個編譯碼器基于由代碼器處理的對應(yīng)輸入音頻幀來產(chǎn)生編碼比特流和對應(yīng)已處理幀。用も(》)來指示由語音代碼器產(chǎn)生的處理巾貞，而用·？力;)來指示由通用音頻代碼器產(chǎn)生的處理幀。在圖2中，代碼器230和240的輸出上的開關(guān)252將所選擇的代碼器的代碼化輸出耦合到復(fù)用器220。更具體地，開關(guān)將代碼器的編碼比特流輸出耦合到復(fù)用器。而且基于由模式選擇器210選擇或確定的模式來控制開關(guān)252。例如，處理器可以基于模式選擇器的碼字輸出來控制開關(guān)252。復(fù)用器使碼字與基于該碼字選擇的對應(yīng)代碼器的編碼比特流輸出進行復(fù)用。因此，對于通用音頻幀，開關(guān)252將通用音頻代碼器240的輸出耦合到復(fù)用器220，并且對于語音幀，開關(guān)252將語音代碼器230的輸出耦合到復(fù)用器。在通用音頻幀代碼化過程遵循語音編碼過程的情況下，利用根據(jù)本公開的特殊“轉(zhuǎn)變模式”幀。轉(zhuǎn)變模式編碼器包括通用音頻代碼器240和音頻間隙編碼器260，如下描述其細(xì)節(jié)。圖4圖示了在混合音頻信號處理編譯碼器中，例如2的混合編譯碼器中，實現(xiàn)的代碼化過程400。在410處，通過對幀序列中的第一音頻幀進行代碼化來產(chǎn)生代碼化音頻樣本的第一幀。在該示例性實施例中，音頻樣本的第一代碼化幀是使用語音編譯碼器產(chǎn)生或生成的代碼化語音幀。在圖5中，輸入語音/音頻幀序列502包括連續(xù)語音幀(m-2)和(m-Ι)以及后續(xù)的通用音頻幀(m)?？梢圆糠值鼗谠?04處圖示的LPC分析窗ロ來對語音幀(m-2)和(m-Ι)進行代碼化。在506處圖示了與輸入語音幀(m_l)相對應(yīng)的代碼化語音幀。該幀的前面可以是未示出的與輸入幀(m-2)相對應(yīng)的另一代碼化語音幀。代碼化語音幀相對于對應(yīng)的輸入幀被延遲了從與LPC “先行”處理緩沖器相關(guān)聯(lián)的算法延遲所得到的間隔，LPC “先行”處理緩沖器即在估計在代碼化語音幀的結(jié)尾附近(或接近結(jié)尾)集中的LPC參數(shù)所需要的幀前面的音頻樣本。在圖4中，在420處，通過對幀序列中的第二音頻幀的至少一部分進行代碼化來產(chǎn)生代碼化音頻樣本的至少一部分第二幀。該第二幀與第一幀相鄰。在本示例性實施例中，音頻樣本的第二代碼化幀是使用通用音頻編譯碼器產(chǎn)生或生成的代碼化通用音頻幀。在圖5中，輸入的語音/音頻幀序列502中的幀“m”是通用音頻幀，該通用音頻幀基于在508處圖示的基于TDAC的線性正交重疊變換分析/復(fù)合窗ロ(m)來被代碼化。用在508處圖示的重疊分析/復(fù)合窗ロ(m+Ι)來代碼化輸入幀的序列502中的后續(xù)通用音頻幀(m+Ι)。在圖5中，通用音頻分析/復(fù)合窗ロ在振幅上與已處理通用音頻幀相對應(yīng)。在圖5中的508處的分析/復(fù)合窗ロ(m)的重疊部分提供了對輸入幀序列的對應(yīng)連續(xù)處理通用音頻幀(m)和(m+Ι)的加性影響。該結(jié)果是，沒有衰減與輸入幀(m)相對應(yīng)的已處理通用音頻幀的拖尾以及與輸入幀(m+Ι)相對應(yīng)的相鄰已處理幀的導(dǎo)尾。在圖5中，由于使用MDCT代碼器來處理通用音頻幀(m)并且使用LPC代碼器來處理前ー語音幀(m-Ι)，所以在-480和-400之間的重疊區(qū)域中的MDCT輸出是零。并不知道如何具有通用音頻幀(m)的全部320個樣本的無混疊生成，并且同時生成用于使用與規(guī)則音頻幀的MDCT順序相同順序的MDCT來與后續(xù)通用音頻幀(m+Ι)的MDCT輸出重疊添加的ー些樣本。根據(jù)本公開的一方面，為在已處理語音幀之后的已處理通用音頻幀之間另外發(fā)生的音頻間隙提供補償，如下文所討論的。為了保證適當(dāng)?shù)幕殳B抵消，必須通過M個樣本重疊添加區(qū)域內(nèi)的補充窗ロ來顯示以下屬性 w;: I (M + H) + π (〃)= I，O s；"< ル/，以及 (I)W^1 (M+n) W^1 (2Μ_η_1) _wm (n) wm (Μ_η_1) =0, O ^ η〈Μ, (2)其中，m是當(dāng)前巾貞索引，η是當(dāng)前巾貞內(nèi)的樣本索引，wm(n)是巾貞m處的對應(yīng)的分析和復(fù)合窗ロ，并且M是關(guān)聯(lián)幀長度。給出滿足以上準(zhǔn)則的公共窗ロ形狀為
( I、疋w(//) = sin //+— - ， O < // < 2M5(3)
L 2 J 2 A/然而，公知的是，許多窗ロ形狀都可以滿足這些條件。例如，在本公開中，通過如下對2M幀結(jié)構(gòu)進行零填充來減小通用音頻代碼化重疊添加過程的算法延遲
O,O < a < —,
.\( M η ^·] M 3Μ
sm Ii---1— — , — h H く-,
4 2JM \ 44
r n /、,3M SM“、w(n) = \1，——<n<——，(4)
44
(Y 5M Ιλ π SM TM
cos η--+ — —, -<η<-,
[I 4 2； MJ 44
ΛTM ^,
O,——<ιι<2Μ,
L4這通過允許處理在獲取僅3Μ/2個樣本或者用于M = 320的幀長度的480個樣本之后開始來減小算法延遲。注意，雖然w(n)是針對2M個樣本(這是處理具有50%重疊添加的MDCT結(jié)構(gòu)所需要的)定義的，但僅需要480個樣本以進行處理。返回以上等式⑴和(2)，如果前ー幀(m-Ι)是語音幀并且當(dāng)前幀(m)是通用音頻幀，則將不存在重疊添加數(shù)據(jù)，并且來自幀(m-Ι)的窗ロ基本上是零或Wm^1 (M+n) =0, O ( n〈M。因此，等式⑴和⑵將變成= L O < // < ル/，以及 (5)wm(n)wm(M-n-l)=0,0 ^ n<M. (6)根據(jù)這些修訂的等式，明顯的是，等式(3)和(4)中的窗ロ函數(shù)不滿足這些約束，并且實際上，對于間隔M/2 < n〈M，存在的對于等式(5)和(6)的唯一可能的解為Wm (n)=l, M/2 < η〈Μ，以及 (7)wm (η) =0，O ^ η〈Μ/2·(8)因此，為了確保適當(dāng)?shù)幕殳B抵消，在本公開中給出了語音到音頻幀轉(zhuǎn)變窗ロ為

權(quán)利要求
1.一種用于對音頻幀進行解碼的方法，所述方法包括；使用第一解碼方法來產(chǎn)生代碼化音頻樣本的第一幀；使用第二解碼方法來產(chǎn)生代碼化音頻樣本的至少一部分第二幀；基于下述參數(shù)來生成音頻間隙填充樣本所述參數(shù)表示代碼化音頻樣本的所述第一中貞的加權(quán)分段或代碼化音頻樣本的所述一部分第二幀的加權(quán)分段；形成包括所述音頻間隙填充樣本和代碼化音頻樣本的所述一部分第二幀的序列。
2.根據(jù)權(quán)利要求I所述的方法，進ー步包括形成包括代碼化音頻樣本的所述第一幀的序列，其中，所述音頻間隙填充樣本至少部分地填充了在代碼化音頻樣本的所述第一幀與代碼化音頻樣本的所述一部分第二幀之間的音頻間隙。
3.根據(jù)權(quán)利要求I所述的方法，其中，代碼化音頻樣本的所述第一幀的所述加權(quán)分段包括第一加權(quán)參數(shù)和第一索引，所述第一加權(quán)參數(shù)和第一索引用于代碼化音頻樣本的所述第一幀的所述加權(quán)分段，并且代碼化音頻樣本的所述一部分第二幀的所述加權(quán)分段包括第二加權(quán)參數(shù)和第二索引，所述第二加權(quán)參數(shù)和第二索引用于代碼化音頻樣本的所述一部分第二幀的所述加權(quán)分段。
4.根據(jù)權(quán)利要求3所述的方法，其中，所述第一索引指定從所述音頻間隙填充樣本到代碼化音頻樣本的所述第一幀中對應(yīng)樣本的第一時間偏移，所述第二索引指定從所述音頻間隙填充樣本到代碼化音頻樣本的所述一部分第二幀中對應(yīng)樣本的第二時間偏移。
5.根據(jù)權(quán)利要求I所述的方法，基于下述參數(shù)來生成所述音頻間隙填充樣本所述參數(shù)表示代碼化音頻樣本的所述第一幀的所述加權(quán)分段以及代碼化音頻樣本的所述一部分第二幀的所述加權(quán)分段二者。
6.根據(jù)權(quán)利要求5所述的方法，其中，所述參數(shù)基于以下表達(dá)式
7.根據(jù)權(quán)利要求6所述的方法，其中，所述參數(shù)基于失真度量，所述失真度量是基準(zhǔn)音頻間隙樣本集合的函數(shù)，其中，所述失真度量是方差失真度量。
8.根據(jù)權(quán)利要求6所述的方法，其中，所述參數(shù)基于失真度量，所述失真度量是基準(zhǔn)音頻間隙樣本集合的函數(shù)，其中，所述失真度量基于以下表達(dá)式
9.根據(jù)權(quán)利要求6所述的方法，使用通用音頻代碼化方法來產(chǎn)生代碼化音頻樣本的所述一部分第二中貞。
10.根據(jù)權(quán)利要求9所述的方法，使用語音代碼化方法來產(chǎn)生代碼化音頻樣本的所述第一中貞。
11.根據(jù)權(quán)利要求I所述的方法，其中，所述參數(shù)基于失真度量，所述失真度量是所述基準(zhǔn)間隙填充樣本集合的函數(shù)。
12.根據(jù)權(quán)利要求I所述的方法，使用通用音頻代碼化方法來產(chǎn)生代碼化音頻樣本的所述一部分第二中貞。
13.根據(jù)權(quán)利要求12所述的方法，使用語音代碼化方法來產(chǎn)生代碼化音頻樣本的所述第一中貞。
14.根據(jù)權(quán)利要求3所述的方法，其中，所述第一索引基于在所述幀序列中基準(zhǔn)音頻間隙樣本分段與代碼化音頻樣本的所述第一幀的分段之間的相關(guān)性，以及所述第二索引基于在代碼化音頻樣本的所述一部分第二幀的分段與所述基準(zhǔn)音頻間隙樣本的所述分段之間的相關(guān)性。
15.根據(jù)權(quán)利要求I所述的方法，基于下述參數(shù)來生成所述音頻間隙填充樣本所述參數(shù)被選擇為減小在所述音頻間隙填充樣本與基準(zhǔn)音頻間隙樣本集合之間的失真。
全文摘要
一種用于對音頻幀進行解碼的方法，包括產(chǎn)生代碼化音頻樣本的第一幀；產(chǎn)生代碼化音頻樣本的至少一部分第二幀；基于下述參數(shù)來生成音頻間隙填充樣本，該參數(shù)表示代碼化音頻樣本的第一幀的加權(quán)分段或代碼化音頻樣本的一部分第二幀的加權(quán)分段；以及形成包括代碼化音頻樣本的一部分第二幀和音頻間隙填充樣本的序列。
文檔編號G10L19/12GK102834863SQ201180012623
公開日2012年12月19日申請日期2011年3月1日優(yōu)先權(quán)日2010年3月5日
發(fā)明者烏達(dá)·米塔爾, 喬納森·A·吉布斯, 詹姆斯·P·阿什利申請人:摩托羅拉移動有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載