本發(fā)明涉及音頻編碼,并且更具體地涉及為了編碼對輸入信號特征進行分析和匹配。
背景技術:
蜂窩通信網(wǎng)絡朝著更高的數(shù)據(jù)速率、改進的容量和改進的覆蓋演進。在第三代合作伙伴項目(3GPP)標準主體中,已經(jīng)開發(fā)了并且當前也正在開發(fā)若干技術。
LTE(長期演進)是標準化技術的示例。在LTE中,針對下行鏈路使用基于OFDM(正交頻分復用)的接入技術,而針對上行鏈路使用基于單載波FDMA(SC-FDMA)的接入技術。通常在考慮每個無線終端的瞬時業(yè)務模式和無線電傳播特征的情況下通過使用快速調度自適應地執(zhí)行在下行鏈路和上行鏈路二者上對無線終端(也被稱為用戶設備,UE)的資源分配。LTE上的一種數(shù)據(jù)類型是例如用于語音會話或流音頻的音頻數(shù)據(jù)。
為了改進低比特率語音和音頻編碼的性能,利用關于信號特征的先驗知識并采用信號建模,這是公知的。在使用更復雜信號的情況下,可以針對信號的不同部分使用若干編碼模型或編碼模式。這些編碼模式還可能涉及用于處理信道錯誤和丟失分組的不同策略。在任何時候選擇適當?shù)木幋a模式是有益的。
技術實現(xiàn)要素:
本文所述的解決方案涉及可用于編碼方法選擇和/或錯誤隱藏方法選擇二者(其在本文中已被概括為編碼模式的選擇)的信號分類或區(qū)分的低復雜度的、穩(wěn)定的適配。在錯誤隱藏的情況下,該解決方案涉及解碼器。
根據(jù)第一方案,提供了一種對音頻信號進行解碼的方法。所述方法包括,針對幀m:基于變換域中幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m)。每個這種范圍包括與音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。所述方法還包括:基于所述穩(wěn)定性值D(m)從多個編碼模式中選擇編碼模式;以及應用所選的解碼模式。
根據(jù)第二方案,提供了一種用于對音頻信號進行解碼的解碼器。所述解碼器被配置為,針對幀m:基于變換域中幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m)。每個這種范圍包括與音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。所述編碼器還被配置為:基于所述穩(wěn)定性值D(m)從多個解碼模式中選擇編碼模式;以及應用所選的解碼模式。
根據(jù)第三方案,提供了一種對音頻信號進行編碼的方法。所述方法包括,針對幀m:基于變換域中幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m)。每個這種范圍包括與音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。所述方法還包括:基于所述穩(wěn)定性值D(m)從多個解碼模式中選擇解碼模式;以及應用所選的編碼模式。
根據(jù)第四方案,提供了一種用于對音頻信號進行編碼的編碼器。所述編碼器被配置為,針對幀m:基于變換域中幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m)。每個這種范圍包括與音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。所述編碼器還被配置為:基于所述穩(wěn)定性值D(m)從多個解碼模式中選擇解碼模式;以及應用所選的編碼模式。
根據(jù)第五方案,提供了一種音頻信號分類方法。所述方法包括,針對語音信號的幀m:基于變換域中幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m),每個范圍包括與所述音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。所述方法還包括:基于穩(wěn)定性值D(m)對所述語音信號分類。
根據(jù)第六方案,提供了一種音頻信號分類器。音頻信號被配置為,針對語音信號的幀m:基于變換域中幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m),每個范圍包括與所述音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合;以及還基于穩(wěn)定性值D(m)對所述語音信號分類。
根據(jù)第七方案,提供了一種主機設備,包括根據(jù)第二方案的解碼器。
根據(jù)第八方案,提供了一種主機設備,包括根據(jù)第四方案的編碼器。
根據(jù)第九方案,提供了一種主機設備,包括根據(jù)第六方案的信號分類器。
根據(jù)第十方案,提供了一種計算機程序,其包括指令,所述指令當在至少一個處理器上執(zhí)行時使所述至少一個處理器執(zhí)行根據(jù)第一、第三和/或第六方案所述的方法。
根據(jù)第十一方案,提供了一種包含第九方案所述的計算機程序的載體,其中,所述載體是電信號、光信號、無線電信號或計算機可讀存儲介質中的一種。
附圖說明
現(xiàn)在將參照附圖通過示例描述本發(fā)明,在附圖中:
圖1是示出了可以應用本文介紹介紹的實施例的蜂窩網(wǎng)的示意圖。
圖2a和圖2b是示出了根據(jù)示例性實施例的由解碼器執(zhí)行的方法的流程圖。
圖3a是示出從濾波后的穩(wěn)定性值到穩(wěn)定性參數(shù)的映射曲線的示意圖;
圖3b是示出從濾波后的穩(wěn)定性值到穩(wěn)定性參數(shù)的映射曲線的示意圖,其中映射曲線是從離散值獲得的;
圖4是示出接收的音頻幀的信號的頻譜包絡的示意圖;
圖5a-b是示出在主機設備中執(zhí)行的用于選擇分組丟失隱藏過程的方法的流程圖;
圖6a-c是根據(jù)示例實施例示出解碼器的不同實施方式的示意框圖。
圖7a-c是根據(jù)示例實施例示出編碼器的不同實施方式的示意框圖。
圖8a-c是根據(jù)示例實施例示出分類器的不同實施方式的示意框圖。
圖9是示出了無線終端的一些組件的示意圖;
圖10是示出了轉碼節(jié)點的一些組件的示意圖;以及
圖11示出了包括計算機可讀裝置的計算機程序產(chǎn)品的一個示例。
具體實施方式
現(xiàn)將在下文參考示出本發(fā)明的特定實施例的附圖來更全面地描述本發(fā)明。然而,本發(fā)明可以用多種不同形式來實施,并且不應當被解釋為受到本文闡述的實施例的限制;相反,這些實施例是作為示例給出的,使得本公開將是透徹和完整的,并將向本領域技術人員充分地傳達本發(fā)明的范圍。在本說明書全文中,相似的標記指相似的元素。
圖1是示出了可以應用本文介紹介紹的實施例的蜂窩網(wǎng)8的示意圖。蜂窩網(wǎng)8包括核心網(wǎng)3和一個或多個無線電基站1,這里所述無線電基站1具有演進節(jié)點B(也稱為eNodeB或eNB)的形式的。無線電基站1也可以是節(jié)點B、BTS(基本收發(fā)機站)和/或BSS(基站子系統(tǒng))等的形式。無線電基站1提供與多個無線終端2的無線電連接。術語無線終端也稱為移動通信終端、用戶設備(UE)、移動終端、用戶終端、用戶代理、無線設備、機器對機器設備等,并且可以是例如今天通常被稱為移動電話或具有無線連接或固定安裝端的平板/膝上型計算機。
只要下文所描述的原理是適用的,蜂窩網(wǎng)8可以例如符合LTE(長期演進)、W-CDMA(寬帶碼分多址)、EDGE(增強型數(shù)據(jù)速率GSM(全球移動通信系統(tǒng))演進)、GPRS(通用分組無線電服務)、CDMA2000(碼分多址2000)或任何其它當前或未來的無線網(wǎng)絡(諸如高級LTE)中的任意一個或其組合。
在無線電接口上執(zhí)行無線終端2與無線電基站1之間的來自無線終端2的上行鏈路(UL)4a通信和去往無線終端2的下行鏈路(DL)4b通信。由于衰落、多徑傳播、干擾等影響,到每個無線終端2的無線電接口的質量可能隨時間并根據(jù)無線終端2的位置而變化。
無線電基站1還與核心網(wǎng)3連接,核心網(wǎng)3用于與中心功能和外部網(wǎng)絡7(例如公共交換電話網(wǎng)(PSTN)和/或因特網(wǎng))連接。
可以例如由無線終端2和轉碼節(jié)點5對音頻數(shù)據(jù)進行編碼和解碼,轉碼節(jié)點5是被布置為執(zhí)行音頻的轉碼的網(wǎng)絡節(jié)點??梢岳缭贛GW(媒體網(wǎng)關)、SBG(會話邊界網(wǎng)關)/BGF(邊界網(wǎng)關功能)或MRFP(媒體資源功能處理器)中實現(xiàn)轉碼節(jié)點5。因此,無線終端2和轉碼節(jié)點5二者均是包括相應音頻編碼器和解碼器的主機設備。
使用一組錯誤恢復或錯誤隱藏方法和根據(jù)瞬時信號特征選擇適當?shù)碾[藏策略,在許多情況下可以提高重建的音頻信號的質量。
為了選擇最佳編碼/解碼模式,編碼器和/或解碼器可以在分析合成(analysis-by-synthesis)(也稱為閉環(huán)方式)中嘗試所有可用模式,或者它可以依賴于基于信號分析模式對編碼做出判定(也稱為開環(huán)判定)的信號分類器。語音信號的典型信號類別是發(fā)聲和不發(fā)聲語音。對于一般的音頻信號,通常在語音、音樂和潛在的背景噪聲信號之間進行區(qū)分。類似的分類可用于控制錯誤恢復或錯誤隱藏方法。
然而,信號分類器可能涉及在計算復雜性和存儲器資源方面具有高成本的信號分析。為所有信號找到合適的分類也是困難的問題。
可以通過使用編碼或解碼方法中已經(jīng)可用的編解碼器參數(shù)的信號分類方法的應用來避免計算復雜度的問題,從而增加非常少的附加計算復雜度。信號分類方法也可以根據(jù)目前的編碼模式使用不同的參數(shù),以便即使當編碼模式改變時也給出可靠的控制參數(shù)。這給出了可以用于編碼方法選擇和錯誤隱藏方法選擇二者的信號分類的低復雜度且穩(wěn)定的適配。
實施例可以應用于在頻域或變換域中操作的音頻編解碼器。在編碼器處,輸入樣本x(n)被劃分為固定長度或變化長度的時間段或幀。為了表示幀m的樣本,寫入x(m,n)。通常,使用20ms的固定長度,具有以下選擇:針對快速時間變化(例如在瞬態(tài)聲音處)可以選擇使用較短的窗口長度或幀長度。通過頻率變換將輸入采樣變換至頻域。由于修改的離散余弦變換的編碼的適用性,許多音頻編解碼器采用修改的離散余弦變換(MDCT)。也可以使用其他變換,例如DCT(離散余弦變換)或DFT(離散傅立葉變換)。使用以下關系找到幀m的MDCT頻譜系數(shù):
其中X(m,k)表示幀m中的MDCT系數(shù)k。將MDCT頻譜的系數(shù)劃分為組或頻帶。這些頻帶在大小上通常是不均勻的,對于低頻使用較窄的頻帶,對于較高頻使用較寬的頻帶。這旨在模仿人類聽覺感知的頻率分辨率和有損編碼方案的相關設計。頻帶b的系數(shù)是MDCT系數(shù)的矢量:
X(m,k),k=kstart(b),kstart(b)+1,...,kend(b)
其中kstart(b)和kend(b)表示帶b的開始和結束索引。然后計算每個頻帶的能量或均方根(RMS)值
頻帶能量E(m,b)形成MDCT頻譜的頻譜粗糙結構或包絡。使用合適的量化技術(例如使用差分編碼結合熵編碼)或矢量量化器(VQ)對其進行量化。量化步驟產(chǎn)生要存儲或發(fā)送給解碼器的量化索引,并還再現(xiàn)相應的量化包絡值MDCT頻譜用量化的頻帶能量進行歸一化以形成歸一化的MDCT頻譜N(m,k):
使用合適的量化技術(例如結合差分編碼和熵編碼的標量量化器,或矢量量化技術)對歸一化的MDCT頻譜進行進一步量化。通常,量化涉及針對每個頻帶b產(chǎn)生比特分配R(b),其被用于對每個頻帶進行編碼??梢援a(chǎn)生比特分配,其包括基于感知重要性將比特分配給各頻帶的感知模型。
可能希望通過對信號特征的適應來進一步引導編碼器和解碼器處理。如果使用在編碼器和解碼器二者處均可用的量化參數(shù)來進行適配,則可以在編碼器和解碼器之間對適配進行同步,而不需要傳輸附加參數(shù)。
這里描述的解決方案主要涉及使編碼器和/或解碼器處理適應于要編碼或解碼的信號的特征。簡言之,為信號確定穩(wěn)定性值/參數(shù),并且基于所確定的穩(wěn)定性值/參數(shù)來選擇和應用適當?shù)木幋a和/或解碼模式。如本文所使用的,“編碼模式”可以指編碼模式和/或解碼模式。如前所述,編碼模式可以涉及用于處理信道錯誤和丟失分組的不同策略。此外,如本文所使用的,表達“解碼模式”旨在指與音頻信號的解碼和重建相關聯(lián)地使用的解碼方法和/或用于錯誤隱藏的方法。也就是說,如本文所使用的,不同的解碼模式可以與同一解碼方法、但與不同的錯誤隱藏方法相關聯(lián)。類似地,不同的解碼模式可以與同一錯誤隱藏方法、但不同的解碼方法相關聯(lián)。當應用于編解碼器時,本文描述的解決方案涉及基于與音頻信號穩(wěn)定性相關的新穎測量來選擇編碼方法和/或錯誤隱藏方法。
示例實施例
下面,將參照圖2a和圖2b描述與用于對音頻信號進行解碼的方法相關的示例實施例。該方法可以由解碼器執(zhí)行,所述解碼器可以被配置為符合音頻解碼的一個或多個標準。圖2a中所示的方法包括:針對音頻信號的幀m,在變換域中,確定201穩(wěn)定性值D(m)?;趲琺的頻譜包絡的范圍與相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定該穩(wěn)定性值D(m)。每個范圍包括與音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合?;诜€(wěn)定性值D(m),可以從多種解碼模式中選擇204解碼模式。例如,可以選擇解碼方法和/或錯誤隱藏方法。然后可以應用205所選擇的解碼模式,來解碼和/或重建音頻信號中的至少幀m。
如圖所示,該方法還可以包括對穩(wěn)定性值D(m)進行低通濾波202,從而獲得濾波后的穩(wěn)定性值然后,可以通過使用例如S型函數(shù)將濾波后的穩(wěn)定性值映射(203)至標量范圍[0,1],從而獲得穩(wěn)定性參數(shù)S(m)。然后,通過基于從D(m)導出的穩(wěn)定性參數(shù)S(m)選擇解碼模式,實現(xiàn)基于D(m)的解碼模式的選擇。穩(wěn)定性值的確定和穩(wěn)定性參數(shù)的導出可以被認為是對音頻信號的分段進行分類的方式,其中穩(wěn)定性表示信號的某種類別或類型。
作為示例,所描述的解碼過程的適配可以涉及基于穩(wěn)定性值從多個錯誤隱藏方法中選擇錯誤隱藏方法。包括在例如解碼器中的多個錯誤隱藏方法可以與單個解碼方法相關聯(lián)或與不同的解碼方法相關聯(lián)。如前所述,本文使用的術語解碼模式可以指解碼方法和/或錯誤隱藏方法。基于穩(wěn)定性值或穩(wěn)定性參數(shù)以及可能還基于其他標準,可以選擇最適合于音頻信號的相關部分的錯誤隱藏方法。穩(wěn)定性值和參數(shù)可以指示音頻信號的相關分段是否包括語音或音樂,和/或當音頻信號包括音樂時:穩(wěn)定性參數(shù)可以指示不同類型的音樂。錯誤隱藏方法中的至少一種可能更適合于語音而不是音樂,并且多個錯誤隱藏方法中的至少一種其他錯誤隱藏方法可能更適合于音樂而不是語音。然后,當穩(wěn)定性值或穩(wěn)定性參數(shù)(例如下面例示的那樣,可能與進一步細化組合)指示音頻信號的相關部分包括語音時,可以選擇與音樂相比更適合于語音的錯誤隱藏方法。相應地,當穩(wěn)定性值或參數(shù)指示音頻信號的相關部分包括音樂時,可以選擇與語音相比更適合于音樂的錯誤隱藏方法。
這里描述的用于編解碼器適配的方法的新穎性在于:使用音頻信號的分段(在變換域中)的量化包絡的范圍來確定穩(wěn)定性參數(shù)。相鄰幀的包絡的范圍之間的差D(m)可以計算為:
頻帶bstart,....,bend表示用于包絡差測量的頻帶的范圍。它可以是連續(xù)的頻帶范圍,或者,這些頻帶可以是不相交的,在這種情況下,表達bstart-bend+1需要用該范圍中的正確數(shù)量的頻帶來替代。注意,在針對第一幀的計算中,值E(m-1,b)不存在,并因此被初始化為例如與空頻譜對應的包絡值。
執(zhí)行對所確定的差D(m)的低通濾波以獲得更穩(wěn)定的控制參數(shù)。一種解決方案是:使用以下形式的一階AR(自回歸)濾波器或遺忘因子:
其中α是AR濾波器的配置參數(shù)。
為了促進在編解碼器/解碼器中使用濾波后的差或者穩(wěn)定性值可能希望將濾波后的差映射至更合適的使用范圍。這里,如下使用S型函數(shù)將值映射至范圍[0,1]:
其中S(m)∈[0,1]表示映射的穩(wěn)定性值。在示例性實施例中,可以將常數(shù)b,c,d設置為b=6.11,c=1.91和d=2.26,但可以將b,c和d設置為任意合適的值。可以通過實驗來設置S型函數(shù)的參數(shù),使得其將觀察到的輸入?yún)?shù)的動態(tài)范圍與期望的輸出判定S(m)相適配。S型函數(shù)提供了用于實現(xiàn)軟判決閾值的良好機制,原因在于可以控制拐點和工作范圍二者。在圖3a中示出了映射曲線,其中在水平軸上,S(m)在垂直軸上。由于指數(shù)函數(shù)在計算上是復雜的,因此可能期望用查找表替代映射函數(shù)。在那種情況下,如圖3b中的圓圈所示,映射曲線將在和S(m)的成對的離散點中采樣。在采樣的情況下,如果優(yōu)選的,和S(m)可以表示為例如和在這種情況下,例如通過使用歐幾里得距離定位的閉合值來找到查找表值還可以注意到,由于函數(shù)的對稱性,S型函數(shù)可以僅用過渡曲線的一半來表示。S型函數(shù)Smid的中點定義為Smid=c/b+d。通過減去中點Smid:
我們可以如前所述使用量化和查找來獲得相應的單側映射穩(wěn)定性參數(shù),并且取決于相對于中點的位置導出的最終穩(wěn)定性參數(shù)S′(m)為:
此外,可能期望對包絡穩(wěn)定性測量應用掛起(hangover)邏輯或滯后。也可能希望用瞬態(tài)檢測器補充該測量。下面將進一步概述使用掛起邏輯的瞬態(tài)檢測器的示例。
另一實施例解決了產(chǎn)生包絡穩(wěn)定性測量的需要,其本身是更穩(wěn)定的并且較少受統(tǒng)計波動的影響。如上所述,一種可能方案是對包絡穩(wěn)定性測量應用掛起邏輯或滯后。然而,在許多情況下,這可能不足夠,并且另一方面,在一些情況下,僅產(chǎn)生具有有限數(shù)量的穩(wěn)定性程度的離散輸出就足矣。對于這種情況,已經(jīng)發(fā)現(xiàn)使用采用馬爾可夫模型的平滑器是有利的。這種平滑器將提供與通過對包絡穩(wěn)定性測量應用掛起邏輯或滯后可以實現(xiàn)的輸出值相比更穩(wěn)定(即更小的波動)的輸出值。如果回頭參考例如圖2a和/或2b中的示例性實施例,基于穩(wěn)定性值或參數(shù)的解碼模式選擇(例如解碼方法和/或錯誤隱藏方法)還可以基于定義與音頻信號中的不同信號屬性之間的轉變相關的狀態(tài)轉移概率的馬爾可夫模型。不同的狀態(tài)可以例如表示語音和音樂?,F(xiàn)在將描述使用馬爾可夫模型產(chǎn)生具有有限數(shù)量的穩(wěn)定性程度的離散輸出的方法。
馬爾可夫模型
所使用的馬爾可夫模型包括M個狀態(tài),其中每個狀態(tài)表示某一程度的包絡穩(wěn)定性。在M被選為2的情況下,一種狀態(tài)(狀態(tài)0)可以表示強烈波動的頻譜包絡,而另一種狀態(tài)(狀態(tài)1)可以表示穩(wěn)定的頻譜包絡。在沒有任何概念差異的情況下,有可能將這個模型擴展至更多狀態(tài),所述更多狀態(tài)例如是針對中間包絡穩(wěn)定性程度的狀態(tài)。
該馬爾可夫狀態(tài)模型由狀態(tài)轉移概率表征,該狀態(tài)轉移概率表示從前一時刻的每個給定狀態(tài)到當前時刻的給定狀態(tài)的概率。例如,時刻可以與當前幀的幀索引m和先前正確接收的幀的幀索引m-1相對應。注意,在由于傳輸錯誤引起的幀丟失的情況下,這可能是與在沒有幀丟失的情況下原本可用的先前幀不同的幀。狀態(tài)轉移概率可以以作為轉移矩陣T的數(shù)學表達式來書寫,其中每個元素表示當從狀態(tài)i出現(xiàn)時轉換至狀態(tài)j的概率p(j|i)。對于優(yōu)選的2狀態(tài)馬爾可夫模型,轉移概率矩陣看起來如下。
可以注意到,通過將保持在給定狀態(tài)的似然性設置為相對較大的值,而將離開該狀態(tài)的似然性設置較小的值,來實現(xiàn)期望的平滑效果。
此外,每個狀態(tài)與給定時刻的概率相關聯(lián)。在先前正確接收幀m-1的時刻,狀態(tài)概率由以下矢量給出:
為了計算每個狀態(tài)的發(fā)生的先驗似然性,將狀態(tài)概率矢量PS(m-1)乘以轉移概率矩陣:
PA(m)=T·PS(m-1)。
然而,真實狀態(tài)概率不僅取決于這些先驗似然性,還取決于與當前幀時刻m處的當前觀察Pp(m)相關聯(lián)的似然性。根據(jù)本文介紹的實施例,要平滑的頻譜包絡測量值與這種觀察似然性相關聯(lián)。由于狀態(tài)0表示波動頻譜包絡,并且狀態(tài)1表示穩(wěn)定包絡,所以包絡穩(wěn)定性D(m)的低測量值意味著狀態(tài)0的高概率和狀態(tài)1的低概率。相反,如果測量或觀察到的包絡穩(wěn)定性D(m)大,則這與狀態(tài)1的高概率和狀態(tài)0的低概率相關聯(lián)。通過上述S型函數(shù)進行的包絡穩(wěn)定性測量值向良好適合于包絡穩(wěn)定性值的優(yōu)選處理的狀態(tài)觀察似然性的映射是D(m)向狀態(tài)1的狀態(tài)觀察概率的一一映射和1-D(m)向狀態(tài)0的狀態(tài)觀察概率的一一映射。也就是說,S型函數(shù)映射的輸出可以是馬爾可夫平滑器的輸入:
應當注意,該映射強烈依賴于所使用的S型函數(shù)。改變該功能可能需要將來自1-D(m)和D(m)的映射函數(shù)引入各自的狀態(tài)觀察概率。除S型函數(shù)之外還可以進行的簡單重映射是附加偏移和縮放因子的應用。
在下一處理步驟中,狀態(tài)觀察概率矢量PP(m)與先驗概率矢量PA(m)組合,先驗概率矢量給出幀m的新狀態(tài)概率矢量PS(m)。這種組合通過兩個矢量的逐元素相乘來完成:
由于該矢量的概率不一定總和為1,因此該矢量被重新歸一化,這進而產(chǎn)生幀m的最終狀態(tài)概率矢量:
在最后一個步驟中,通過該方法返回幀m的最可能狀態(tài)作為平滑后的離散的包絡穩(wěn)定性測量。這需要標識狀態(tài)概率矢量PS(m)中的最大元素:
為了使所描述的基于馬爾可夫的平滑方法對于包絡穩(wěn)定性測量工作良好,以適當?shù)姆绞竭x擇狀態(tài)轉移概率。下面示出了已經(jīng)發(fā)現(xiàn)非常適合于該任務的轉移概率矩陣的示例:
從該轉移概率矩陣中的概率可以看出,保持在狀態(tài)0的可能性非常高,為0.999,而離開該狀態(tài)的可能性很小,為0.001。因此,包絡穩(wěn)定性測量的平滑僅在包絡穩(wěn)定性測量值表示低穩(wěn)定性的情況下是選擇性的。由于指示穩(wěn)定包絡的穩(wěn)定性測量值本身相對穩(wěn)定,因此認為不需要對所述穩(wěn)定性測量值進行進一步平滑。因此,離開狀態(tài)1和停留在狀態(tài)1中的轉移似然值被等同地設置為0.5。
要注意的是,通過增加狀態(tài)的數(shù)量M可以容易地實現(xiàn)提高平滑后的包絡穩(wěn)定性測量的分辨率。
包絡穩(wěn)定性測量的平滑方法的進一步增強的可能性是包括與包絡穩(wěn)定性呈現(xiàn)統(tǒng)計關系的附加測量。這種附加測量可以用模擬方式用作包絡穩(wěn)定性測量觀察結果D(m)與狀態(tài)觀察概率的關聯(lián)。在這種情況下,通過不同使用的測量的各自的狀態(tài)觀察概率的逐元素乘法來計算狀態(tài)觀察概率。
已經(jīng)發(fā)現(xiàn),包絡穩(wěn)定性測量,特別是平滑后的測量,對于語音/音樂分類特別有用。根據(jù)該發(fā)現(xiàn),語音可以與低穩(wěn)定性測量良好地相關聯(lián),并且具體地與上述馬爾可夫模型的狀態(tài)0相關聯(lián)。相反,音樂可以與高穩(wěn)定性測量并且具體地與馬爾可夫模型的狀態(tài)1相關聯(lián)。
為了清楚起見,在具體實施例中,在每個時刻m,按下面的步驟執(zhí)行上述平滑程序:
1.將當前包絡穩(wěn)定性測量值D(m)與狀態(tài)觀察概率PP(m)相關聯(lián)。
2.計算與較早時刻m-1的狀態(tài)概率PS(m-1)相關并與轉移概率T相關的先驗概率PA(m)。
3.將先驗概率PA(m)逐元素乘以狀態(tài)觀察概率PP(m),包括重新歸一化,從而產(chǎn)生當前幀m的狀態(tài)概率的矢量PS(m)。
4.標識狀態(tài)概率矢量PS(m)中具有最大概率的狀態(tài)并且將其返回作為當前幀m的最終平滑后的包絡穩(wěn)定性測量Dsmo(m)。
圖4是示出接收的音頻幀的信號的頻譜包絡10的示意圖形,其中每個頻帶的幅度由單個值表示。水平軸表示頻率,并且垂直軸表示幅度(例如,功率等)。該圖示出了針對較高頻率增加帶寬的典型設置,但是應當注意,可以使用任何類型的均勻或非均勻頻帶劃分。
瞬態(tài)檢測
如前所述,可能需要將穩(wěn)定性值或穩(wěn)定性參數(shù)與對音頻信號的瞬態(tài)特征的測量結合。為了實現(xiàn)這種測量,可以使用瞬態(tài)檢測器。例如,可以基于穩(wěn)定性值/參數(shù)和瞬態(tài)測量來確定當對音頻信號進行解碼時應當使用哪種類型的噪聲填充或衰減控制。下面概述了使用掛起邏輯的示例性瞬態(tài)檢測器。術語“掛起”通常在音頻信號處理中使用,并且指的是這樣的想法:當通常認為延遲判決較安全時,延遲判決以避免在轉換時段中的不穩(wěn)定切換行為。
瞬態(tài)檢測器根據(jù)編碼模式使用不同的分析。它具有掛起計數(shù)器no_att_hangover以處理掛起邏輯,該掛起邏輯被初始化為零。瞬態(tài)檢測器具有針對三種不同模式定義的行為:
模式A不具有包絡值的低頻帶編碼模式
模式B具有包絡值的正常編碼模式
模式C瞬態(tài)編碼模式
瞬態(tài)檢測依賴于合成信號的長期能量估計。它根據(jù)編碼模式進行不同更新。
模式A
在模式A中,幀能量估計EframeA(m)被計算為
其中bin_th是模式A的合成低頻帶中的最高編碼系數(shù),并且是幀m的合成的MDCT系數(shù)。在編碼器中,這些是使用可以在編碼處理中提取的本地合成方法來再現(xiàn)的,并且它們與在解碼處理中獲得的系數(shù)相同。使用低通濾波器更新長期能量估計ELT
ELT(m)=βELT(m-1)+(1-β)EframeA(m)
其中β是濾波因子,該濾波因子具有示例性值0.93。如果掛起計數(shù)器大于1,則它被遞減。
模式B
基于量化的包絡值來更新長期能量估計EframeB(m)。
其中BLF是在低頻能量計算中包括的最高頻帶b。以與模式A中相同的方式更新該長期能量估計:
ELT(m)=βELT(m-1)+(1-β)EframeB(m)
與模式A等同地執(zhí)行掛起遞減。
模式C
模式C是在四個子幀(每個子幀對應于LTE中的1ms)中對頻譜進行編碼的瞬態(tài)模式。包絡被交織成這樣的樣式,該樣式中頻率階的一部分被保持。根據(jù)以下計算四個子幀能量Esub,SF,SF=0,1,2,3:
其中subframeSF表示代表子幀SF的包絡頻帶b,并且|subframe SF|是該集合的大小。注意,實際實施方式將取決于交織后的子幀在包絡矢量中的布置。
幀能量EframeC(m)通過對子幀能量求和來形成:
通過檢查下述條件,對高能量幀進行瞬態(tài)測試
EframeC(m)>ETHR·NSF
其中ETHR=100是能量閾值,并且NSF=4是子幀的數(shù)量。如果通過了上述條件,則找到最大子幀能量差:
最后,如果條件Dmax(m)>DTHR為真(其中DTHR=5是取決于實施方式和靈敏度設置的判決閾值),則將掛起計數(shù)器設置為最大值
其中ATT_LIM_HANGOVER=150是可配置的恒定幀計數(shù)器值?,F(xiàn)在,如果條件T(m)=no_att_hangover(m)>0為真,則意味著已經(jīng)檢測到瞬態(tài),并且掛起計數(shù)器尚未達到零。
瞬時掛起判決T(m)可以與包絡穩(wěn)定性測量組合,使得僅在T(m)為真時,應用該取決于的修改。
一個特定問題是在不提供具有子帶范數(shù)(或縮放因子)形式的頻譜包絡表示的音頻編解碼器的情況下包絡穩(wěn)定性測量的計算。
下面描述一個實施例,其解決了該問題,并且仍然獲得與如上所述的基于子帶范數(shù)或縮放因子獲得的包絡穩(wěn)定性測量一致的有用的包絡穩(wěn)定性測量。
該解決方案的第一步是找到給定信號幀的頻譜包絡的合適的替代表示。一種這種表示是基于線性預測系數(shù)(LPC或短期預測系數(shù))的表示。如果適當?shù)剡x擇LPC階數(shù)P,例如對于寬帶或超寬帶信號為16,則這些系數(shù)是頻譜包絡的良好表示。特別適合于編碼、量化和內(nèi)插目的的LPC參數(shù)的表示是線譜頻率(LSF)或相關參數(shù),例如ISF(導抗譜頻率)或LSP(線譜對)。原因在于這些參數(shù)表現(xiàn)出與相應的LPC合成濾波器的包絡譜的良好的關系。
評估當前幀的LSF參數(shù)與先前幀的LSF參數(shù)相比的穩(wěn)定性的現(xiàn)有技術度量在ITU-T G.718編解碼器中被稱為LSF穩(wěn)定性度量。該LSF穩(wěn)定性度量用于LPC參數(shù)內(nèi)插的上下文中以及幀擦除的情況下。該度量定義如下:
其中P是LPC濾波器階數(shù),a和b是某些合適的常數(shù)。此外,lsf_stab度量可以限制為從0至1的間隔。接近1的大數(shù)意味著LSF參數(shù)非常穩(wěn)定,即沒有太大變化,而低值意味著參數(shù)相對不穩(wěn)定。
根據(jù)本文介紹的實施例的一個發(fā)現(xiàn)是,LSF穩(wěn)定性度量還可以用作包絡穩(wěn)定性的特別有用的指示符,作為以子帶范數(shù)(或縮放因子)的形式比較當前和較早的頻譜包絡的備選。為此,根據(jù)一個實施例,針對當前幀(相對于較早的幀)計算lsf_stab參數(shù)。然后,通過適當?shù)亩囗検阶儞Q來重新縮放該參數(shù),如:
其中N是多項式階數(shù),并且αn是多項式系數(shù)。
執(zhí)行重新縮放,即多項式階數(shù)和系數(shù)的設置,使得變換值盡可能與上述的相應包絡穩(wěn)定性值D(m)相類似地工作。發(fā)現(xiàn)在許多情況下多項式階數(shù)為1足矣。
分類,圖5a和5b
上述方法可以被描述為用于對音頻信號的一部分進行分類的方法,并且其中可以基于分類的結果選擇適當?shù)慕獯a或編碼模式或方法。
圖5a-b是示出在主機設備(例如,圖1的無線終端和/或轉碼節(jié)點)的音頻編碼器中執(zhí)行的、用于輔助針對音頻的編碼模式的選擇的方法的流程圖。
在獲得編解碼器參數(shù)步驟501中,可以獲得編解碼器參數(shù)。編解碼器參數(shù)是主機設備的編碼器或解碼器中已經(jīng)可用的參數(shù)。
在分類步驟502中,基于編解碼器參數(shù)對所述音頻信號分類??梢岳绶诸悶檎Z音或音樂。可選地,如以上更詳細地解釋的,在該步驟中使用滯后以防止來回跳躍。附加地或備選地,如上文更詳細解釋的,馬爾可夫模型(例如馬爾可夫鏈)可用于提高分類的穩(wěn)定性。
例如,分類可以基于音頻數(shù)據(jù)的頻譜信息的包絡穩(wěn)定性測量,然后在該步驟中計算。該計算可以例如基于量化包絡值。
可選地,該步驟包括將穩(wěn)定性測量映射至預定義的如上面的S(m)表示的標量范圍,可選地使用查找表來降低計算要求。
可以針對音頻數(shù)據(jù)的每個接收幀重復該方法。
圖5b示出了根據(jù)一個實施例的用于輔助對音頻的編碼和/或解碼模式的選擇的方法。該方法與圖5a中所示的方法類似,并且將僅描述相對于圖5a而言的新的或修改的步驟。
在可選的選擇編碼模式步驟503中,基于來自分類步驟502的分類來選擇編碼模式。
在可選的編碼步驟504中,基于在選擇編碼模式步驟503中選擇的編碼模式對音頻數(shù)據(jù)進行編碼或解碼。
具體實現(xiàn)
上述方法和技術可以在編碼器和/或解碼器中實現(xiàn),編碼器和/或解碼器可以是例如通信設備的一部分。
解碼器,圖6a-6c
在圖6a中以一般方式示出了解碼器的示例實施例。解碼器指的是:被配置用于解碼和可能以其他方式重建音頻信號的解碼器。解碼器有可以還被配置用于對其他類型的信號進行解碼。解碼器600被配置為執(zhí)行上述例如參照圖2a和圖2b的方法實施例中的至少一個。解碼器600關聯(lián)于與前述方法實施例相同的技術特征、目的和優(yōu)點。解碼器可以被配置為符合音頻編碼/解碼的一個或多個標準。為了避免不必要的重復,將簡要描述解碼器。
可以如下實現(xiàn)和/或描述解碼器:
解碼器600被配置為對音頻信號進行解碼。解碼器600包括處理電路或處理裝置601和通信接口602。處理電路601被配置為:針對幀m,在變換域中,使所述解碼器600:基于幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m),每個范圍包括與所述音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。處理電路601還被配置為:使所述解碼器基于所述穩(wěn)定性值D(m)從多個解碼模式中選擇編碼模式;以及應用所選的解碼模式。
處理電路601還可以被配置為使解碼器對穩(wěn)定性值D(m)進行低通濾波,從而獲得濾波后的穩(wěn)定性值以及通過使用S型函數(shù)將濾波后的穩(wěn)定性值映射至標量范圍[0,1],從而獲得穩(wěn)定性參數(shù)S(m),然后基于穩(wěn)定性參數(shù)S(m)選擇解碼模式。通信接口602,其也可以被標記為例如輸入/輸出(I/O)接口,其包括用于向其它實體或模塊發(fā)送數(shù)據(jù)和從其他實體或模塊接收數(shù)據(jù)的接口。
如圖6b中所示,處理電路601可以包括處理裝置(例如處理器603(例如CPU))和用于存儲或保持指令的存儲器604。然后,存儲器將包括例如具有計算機程序605的形式的指令,所述指令當由處理裝置603執(zhí)行時,使解碼器600執(zhí)行上述動作。
在圖6c中示出了處理電路601的備選實現(xiàn)方式。這里處理電路包括編碼單元606,被配置為使所述解碼器600確定以下關系:基于幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m),每個范圍包括與所述音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。處理電路還包括選擇單元609,被配置為使所述解碼器基于穩(wěn)定性值D(m)從多個解碼模式中選擇解碼模式。處理電路還包括應用單元或解碼單元610,被配置為使所述解碼器應用所選的解碼模式。處理電路601可以包括更多單元,例如濾波單元607,被配置為使解碼器對穩(wěn)定性值D(m)進行低通濾波,從而獲得濾波后的穩(wěn)定性值處理電路還可以包括映射單元608,其被配置為使所述解碼器通過使用S型函數(shù)將濾波后的穩(wěn)定性值映射至標量范圍[0,1],從而獲得穩(wěn)定性參數(shù)S(m),然后基于穩(wěn)定性參數(shù)S(m)選擇解碼模式。在圖6c中用虛線輪廓示出這些可選單元。
上述解碼器或編解碼器可以被配置用于本文所述的不同方法實施例,例如使用馬爾可夫模型并在與錯誤隱藏相關聯(lián)的不同的解碼模式之間進行選擇的方法實施例。
可以假設編碼器600包括用于執(zhí)行常規(guī)解碼器功能的附加功能。
編碼器,圖7a-7c
在圖7a中以一般方式示出了編碼器的示例實施例。編碼器指被配置用于對音頻信號進行編碼的編碼器。編碼器可以還被配置為對其他類型的信號進行編碼。編碼器700被配置為執(zhí)行與上述例如參照圖2a和圖2b所描述的解碼方法相對應的至少一種方法。也就是說,替代于選擇解碼模式(如圖2a和圖2b所示),選擇并應用編碼模式。編碼器700關聯(lián)于與前述方法實施例相同的技術特征、目的和優(yōu)點。編碼器可以被配置為符合音頻編碼/解碼的一個或多個標準。為了避免不必要的重復,將簡要描述編碼器。
可以如下實現(xiàn)和/或描述編碼器:
編碼器700被配置為對音頻信號進行編碼。編碼器700包括處理電路或處理裝置701和通信接口702。處理電路701被配置為:在變換域中,針對幀m,使所述編碼器700:基于幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m),每個范圍包括與所述音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。處理電路701還被配置為使所述編碼器基于穩(wěn)定性值D(m)從多個編碼模式中選擇編碼模式,以及應用所選的編碼模式。
處理電路701還可以被配置為使編碼器對穩(wěn)定性值D(m)進行低通濾波,從而獲得濾波后的穩(wěn)定性值以及通過使用S型函數(shù)將濾波后的穩(wěn)定性值映射至標量范圍[0,1],從而獲得穩(wěn)定性參數(shù)S(m),然后基于穩(wěn)定性參數(shù)S(m)選擇編碼模式。通信接口702,其也可以被標記為例如輸入/輸出(I/O)接口,其包括用于向其它實體或模塊發(fā)送數(shù)據(jù)和從其他實體或模塊接收數(shù)據(jù)的接口。
如圖7b所示,處理電路701可以包括處理裝置(例如處理器703(例如CPU))和用于存儲或保持指令的存儲器704。然后,存儲器將包括例如具有計算機程序705的形式的指令,所述指令當由處理裝置703執(zhí)行時,使編碼器700執(zhí)行上述動作。
在圖7c示出了處理電路701的備選實施方式。這里處理電路包括編碼單元706,被配置為使所述編碼器700確定以下關系:基于幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差確定穩(wěn)定性值D(m),每個范圍包括與所述音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。處理電路還包括選擇單元709,被配置為使所述編碼器基于穩(wěn)定性值D(m)從多個編碼模式中選擇編碼模式。處理電路還包括應用單元或編碼單元710,被配置為使所述編碼器應用所選的編碼模式。處理電路701可以包括更多單元,例如濾波單元707,被配置為使編碼器對穩(wěn)定性值D(m)進行低通濾波,從而獲得濾波后的穩(wěn)定性值處理電路還可以包括映射單元708,被配置為使所述編碼器通過使用S型函數(shù)將濾波后的穩(wěn)定性值映射至標量范圍[0,1],從而獲得穩(wěn)定性參數(shù)S(m),然后基于穩(wěn)定性參數(shù)S(m)選擇解碼模式。這些可選單元在圖7c中用虛線輪廓示出。
上述編碼器或編解碼器可以被配置用于本文所述的不同方法實施例,例如使用馬爾可夫模型的方法實施了。
可以認為編碼器700包括用于執(zhí)行常規(guī)編碼器功能的附加功能。
分類器,圖8a-8c
在圖8a中以一般方式示出了分類器的示例實施例。分類器是指被配置用于對音頻信號進行分類,即區(qū)分不同類型或類別的音頻信號的分類器。分類器800被配置為執(zhí)行與上述例如參照圖5a和圖5b所描述的方法相對應的至少一種方法。分類器800關聯(lián)于與前述方法實施例相同的技術特征、目的和優(yōu)點。分類器可以被配置為符合音頻編碼/解碼的一個或多個標準。為了避免不必要的重復,將簡要描述分類器。
可以如下實現(xiàn)和/或描述分類器:
分類器800被配置為對音頻信號進行分類。分類器800包括處理電路或處理裝置801和通信接口802。處理電路801被配置為:在變換域中,針對幀m,使所述分類器800:基于幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定穩(wěn)定性值D(m),每個范圍包括與所述音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。處理電路801還被配置為使分類器基于穩(wěn)定性值D(m)對音頻信號進行分類。例如,分類可以涉及從多個候選音頻信號類中選擇音頻信號類。處理電路801還可以被配置為使分類器指示例如由解碼器或編碼器使用的分類。
處理電路801還可以被配置為使分類器對穩(wěn)定性值D(m)進行低通濾波,從而獲得濾波后的穩(wěn)定性值以及通過使用S型函數(shù)將濾波后的穩(wěn)定性值映射至標量范圍[0,1],從而獲得穩(wěn)定性參數(shù)S(m),可以基于穩(wěn)定性參數(shù)S(m)對音頻信號進行分類。通信接口802,其也可以被標記為例如輸入/輸出(I/O)接口,其包括用于向其它實體或模塊發(fā)送數(shù)據(jù)和從其他實體或模塊接收數(shù)據(jù)的接口。
如圖8b中所示,處理電路801可以包括處理裝置(例如處理器803(例如CPU))和用于存儲或保持指令的存儲器804。然后,存儲器將包括例如具有計算機程序805形式的指令,所述指令當由處理裝置803執(zhí)行時,使分類器800執(zhí)行上述動作。
在圖8c中示出了處理電路801的備選實施方式。這里處理電路包括編碼單元806,被配置為使所述分類器800確定以下關系:基于幀m的頻譜包絡的范圍和相鄰幀m-1的頻譜包絡的相應范圍之間的差,確定(201)穩(wěn)定性值D(m),每個范圍包括與所述音頻信號的分段的頻譜帶中的能量相關的量化頻譜包絡值的集合。處理電路還包括分類單元809,被配置為使所述分類器對所述音頻信號分類。處理電路還可以包括指示單元810,被配置為使得分類器向例如編碼器或解碼器指示分類。處理電路801可以包括更多單元,例如濾波單元807,被配置為使分類器對穩(wěn)定性值D(m)進行低通濾波,從而獲得濾波后的穩(wěn)定性值處理電路還可以包括映射單元808,被配置為使所述分類器通過使用S型函數(shù)將濾波后的穩(wěn)定性值映射至標量范圍[0,1],從而獲得穩(wěn)定性參數(shù)S(m),然后可以基于穩(wěn)定性參數(shù)S(m)對音頻信號進行分類。在圖8c中用虛線輪廓示出這些可選單元。
上述分類器可以被配置用于本文所述的不同方法實施例,例如使用馬爾可夫模型的方法實施例。
可以假設分類器800包括用于執(zhí)行常規(guī)分類器功能的附加功能。
圖9是示出了圖1的無線終端2的一些組件的示意圖。使用合適的中央處理單元(CPU)、多處理器、微控制器、數(shù)字信號處理器(DSP)、專用集成電路等等中的一個或多個的任意組合提供處理器70,處理器70能夠執(zhí)行在存儲器74中存儲的軟件指令76,軟件指令76因此可以是計算機程序產(chǎn)品。處理器70可以執(zhí)行軟件指令76,以執(zhí)行以上參照圖5a-b所描述的方法的一個或多個實施例。
存儲器74可以是讀寫存儲器(RAM)和只讀存儲器(ROM)的任意組合。存儲器74還包括持久存儲設備,其例如可以是磁存儲器、光存儲器、固態(tài)存儲器或甚至遠程安裝存儲器中的任意單獨一個或其組合。
還提供數(shù)據(jù)存儲器73,用于在處理器70中執(zhí)行軟件指令期間讀取和/或存儲數(shù)據(jù)。數(shù)據(jù)存儲器73可以是讀寫存儲器(RAM)和只讀存儲器(ROM)的任意組合。
無線終端2還包括I/O接口72,用于與其他外部實體通信。I/O接口72還包括用戶接口,包括麥克風、揚聲器、顯示器等??蛇x地,外部麥克風和/或揚聲器/頭戴耳機可以與無線終端連接。
無線終端2還包括一個或多個收發(fā)機71,包括模擬和數(shù)字組件和合適數(shù)量的天線75,用于與圖1中所示的無線終端進行無線通信。
無線終端2包括音頻編碼器和音頻解碼器。這些可以用軟件指令76實現(xiàn),軟件指令76可以由處理器70執(zhí)行或使用單獨硬件執(zhí)行(未示出)。
為了突出本文介紹的構思,省略了無線終端2的其他組件。
圖10是示出了圖1的轉碼節(jié)點5的一些組件的示意圖。使用合適的中央處理單元(CPU)、多處理器、微控制器、數(shù)字信號處理器(DSP)、專用集成電路等等中的一個或多個的任意組合提供處理器80,處理器80能夠執(zhí)行在存儲器84中存儲的軟件指令66,軟件指令66因此可以是計算機程序產(chǎn)品。處理器80可以被配置為執(zhí)行軟件指令86,以執(zhí)行以上參照圖5a-b所描述的方法的一個或多個實施例。
存儲器84可以是讀寫存儲器(RAM)和只讀存儲器(ROM)的任意組合。存儲器84還包括持久存儲設備,其例如可以是磁存儲器、光存儲器、固態(tài)存儲器或甚至遠程安裝存儲器中的任意單獨一個或其組合。
還提供數(shù)據(jù)存儲器83,用于在處理器80中執(zhí)行軟件指令期間讀取和/或存儲數(shù)據(jù)。數(shù)據(jù)存儲器83可以是讀寫存儲器(RAM)和只讀存儲器(ROM)的任意組合。
轉碼節(jié)點5還包括I/O接口82,用于經(jīng)由無線電基站1與其他外部實體(例如圖1的無線終端)通信。
轉碼節(jié)點5包括音頻編碼器和音頻解碼器。這些可以用軟件指令86實現(xiàn),軟件指令86可以由處理器80執(zhí)行或使用單獨硬件執(zhí)行(未示出)。
為了突出本文介紹的構思,省略了轉碼節(jié)點5的其他組件。
圖11示出了包括計算機可讀裝置的計算機程序產(chǎn)品90的一個示例。在該計算機可讀裝置中,可以存儲計算機程序91,該計算機程序可以使處理器執(zhí)行根據(jù)本文描述的實施例的方法。在本示例中,計算機程序產(chǎn)品是光盤,例如CD(緊致盤)或DVD(數(shù)字多功能盤)或藍光盤。如以上解釋的,計算機程序產(chǎn)品還可以被實現(xiàn)為設備的存儲器,例如圖7的計算機程序產(chǎn)品74或圖8的計算機程序產(chǎn)品84。雖然計算機程序91此處被示意性地示為光盤上所示的軌道,可以用任意適合于計算機程序產(chǎn)品的方式來存儲計算機程序,例如可移除固態(tài)存儲器(例如,通用串行總線(USB)棒)。
這里,現(xiàn)在以下是一組編號的實施例,以進一步例示本文所介紹的發(fā)明構思的一些方面。
1.一種用于輔助對音頻的編碼模式或解碼模式的選擇的方法,所述方法在音頻編碼器或解碼器中執(zhí)行,并且包括步驟:
獲得(501)編解碼器參數(shù);以及
基于所述編解碼器參數(shù)對所述音頻信號分類(502)。
2.根據(jù)實施例1所述的方法,還包括步驟:
基于所述分類來選擇(503)編碼模式。
3.根據(jù)實施例2所述的方法,還包括以下步驟:
基于在選擇步驟中選擇的編碼模式對音頻數(shù)據(jù)進行編碼或解碼(504)。
4.根據(jù)前述實施例中任一實施例所述的方法,其中對所述音頻信號進行分類(502)的步驟包括使用滯后。
5.根據(jù)前述實施例中任一實施例所述的方法,其中對所述音頻信號進行分類(502)的步驟包括使用馬爾可夫鏈。
6.根據(jù)前述實施例中任一實施例所述的方法,其中所述分類步驟(502)包括計算音頻數(shù)據(jù)的頻譜信息的包絡穩(wěn)定性測量。
7.根據(jù)實施例6所述的方法,其中,在分類步驟中,包絡穩(wěn)定性測量的計算基于量化包絡值。
8.根據(jù)實施例6或實施例7所述的方法,其中所述分類步驟包括將所述穩(wěn)定性測量映射至預定義的標量范圍。
9.根據(jù)實施例8所述的方法,其中,所述分類步驟包括使用查找表將所述穩(wěn)定性測量映射至預定義的標量范圍。
10.根據(jù)前述實施例中任一實施例所述的方法,其中所述包絡穩(wěn)定性測量基于幀m中的包絡特征與先前幀m-1中的包絡特征的比較。
11.一種用于輔助對音頻編碼模式的選擇的主機設備(2,5),所述主機設備包括:
處理器(70,80);以及
存儲器(74,84),用于存儲指令(76,86),所述指令當由處理器(21)執(zhí)行時,使所述主機設備(2,5):
獲得編解碼器參數(shù);以及
基于所述編解碼器參數(shù)對所述音頻信號分類。
12.根據(jù)實施例11所述的主機設備(2,5),還包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)基于所述分類來選擇編碼模式。
13.根據(jù)實施例12所述的主機設備(2,5),還包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)基于所選的編碼模式對語音數(shù)據(jù)進行編碼。
14.根據(jù)實施例11至13中任一項所述的主機設備(2,5),其中用于對音頻信號進行分類的指令還包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)使用滯后。
15.根據(jù)實施例11至14中任一項所述的主機設備(2,5),其中用于對音頻信號進行分類的指令包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)使用馬爾可夫鏈。
16.根據(jù)實施例11至15中任一項所述的主機設備(2,5),其中用于分類的指令包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)計算語音數(shù)據(jù)的頻譜包絡的包絡穩(wěn)定性測量。
17.根據(jù)實施例16所述的主機設備(2,5),其中用于分類的指令包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)基于量化包絡值來計算包絡穩(wěn)定性測量。
18.根據(jù)實施例16或實施例17所述的主機設備(2,5),其中用于分類的指令包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)將所述穩(wěn)定性測量映射至預定標量范圍。
19.根據(jù)實施例18所述的主機設備(2,5),其中用于分類的指令包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)使用查找表將穩(wěn)定性測量映射值預定標量范圍。
20.根據(jù)實施例11至19中任一項所述的主機設備(2,5),其中用于分類的指令包括以下指令,所述指令當由所述處理器執(zhí)行時,使所述主機設備(2,5)基于幀m中的包絡特征與前一幀m-1中的包絡特征的比較來計算包絡穩(wěn)定性測量。
21.一種計算機程序(66,91),用于輔助對音頻的編碼模式的選擇,所述計算機程序包括計算機程序代碼,所述計算機程序代碼在主機設備上運行時使所述主機設備(2,5):
獲得編解碼器參數(shù);以及
基于所述編解碼器參數(shù)對所述音頻信號分類。
22.一種計算機程序產(chǎn)品(74,84,90),包括:根據(jù)實施例21所述的計算機程序以及其上存儲所述計算機程序的計算機可讀裝置。
已經(jīng)參考一些實施例在上文中主要地描述了本發(fā)明。然而,本領域技術人員容易理解,在本發(fā)明的范圍中的不同于上文公開的實施例的其他實施例也是可能的。
結論陳述
本文所述的步驟、功能、過程、模塊、單元和/或框可以使用任何常規(guī)技術實現(xiàn)在硬件中,例如使用分立式電路或集成電路技術,包括通用電子電路和專用電路二者。
特定示例包括一個或多個合適配置的數(shù)字信號處理器和其他已知電子電路,例如用于執(zhí)行特定功能的互連的分立邏輯門、或者專用集成電路(ASIC)。
備選地,上述步驟、功能、過程、模塊、單元和/或框的至少一些可以實現(xiàn)在軟件中,所述軟件例如是由包括一個或多個處理單元的合適的處理電路來執(zhí)行的計算機程序。在網(wǎng)絡節(jié)點中的計算機程序的使用之前和/或期間,軟件可以由諸如電子信號,光學信號,無線電信號或計算機可讀存儲介質的載體承載。上述網(wǎng)絡節(jié)點和索引服務器可以在所謂的云解決方案中實現(xiàn),指的是該實施方式可以是分布式的,并且因此網(wǎng)絡節(jié)點和索引服務器可以是所謂的虛擬節(jié)點或虛擬機。
當由一個或多個處理器執(zhí)行時,本文介紹的流程圖(一個或多個)可被認為是計算機流程圖(一個或多個)。對應的裝置可定義為一組功能模塊,其中由處理器執(zhí)行的每個步驟對應于一個功能模塊。在這種情況下,功能模塊實現(xiàn)為在處理器上運行的計算機程序。
處理電路的示例包括但不限于:一個或多個微處理器、一個或多個數(shù)字信號處理器(DSP)、一個或多個中央處理單元(CPU)和/或任意合適的可編程邏輯電路,例如一個或多個現(xiàn)場可編程門陣列(FPGA)或者一個或多個可編程邏輯控制器(PLC)。也就是說,在上述不同節(jié)點中的布置中的單元或模塊可以被實施為模擬或數(shù)字電路的組合、和/或由存儲在存儲器中的軟件和/或固件配置的一個或多個處理器。這些處理器中的一個或多個以及其它數(shù)字硬件可以包括在單個專用集成電路(ASIC)中,或者若干個處理器和各種數(shù)字硬件可以分布在若干個分離的組件上,不論是單獨封裝的還是組裝為片上系統(tǒng)(SoC)的。
也應當理解,可以重用實現(xiàn)了所提出的技術的任意傳統(tǒng)設備或單元的通用處理能力。還可以例如通過重新編程現(xiàn)有的軟件或者通過添加新的軟件組件來重新使用現(xiàn)有的軟件。
僅作為示例,提出上述實施例,并且應當理解,所提出的技術不限于此。本領域技術人員將會理解,在不背離本發(fā)明范圍的情況下,可以對該實施例進行各種修改、合并和改變。尤其是,在其他技術上可行的配置中,不同實施例中的不同部分的方案可以進行組合。
當使用詞語″包括″或″包括……″時,應當被理解為非限制性的,即意味著″至少包括″。
應該注意的是,在一些替代實施例中,在框中標記的功能/動作可以不以流程圖中標記的順序發(fā)生。例如依賴于所涉及的功能/動作,連續(xù)示出的兩個框實際上可以實質上同時執(zhí)行,或者框有時候可以按照相反的順序執(zhí)行。此外,可以將流程圖和/或方框圖中的給定模塊的功能分離成多個框和/或流程圖的兩個或更多框的功能和/或可以至少部分地集成方框圖。最后,在不脫離本發(fā)明構思的范圍的情況下,可以在所示出的塊之間添加/插入其他塊,和/或可以省略塊/操作。
應當理解,在本公開內(nèi)對交互單元的選擇以及單元的命名僅用于示例目的,并且可通過多個備選方式來配置適合于執(zhí)行上述任何方法的節(jié)點,從而能夠執(zhí)行所公開的處理動作。
還應當注意,本公開中描述的單元應被認為是邏輯實體,而不必是分離的物理實體。