混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)的制作方法

文檔序號：2826516閱讀：293來源：國知局

混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)，該方法把語音幀提供給混合音頻解碼器，語音幀提供混合音頻解碼器在合成音頻信號中所需使用的譜參數(shù)；根據(jù)譜參數(shù)判斷當前幀是否為壞幀，若為壞幀，則根據(jù)當前壞幀與近鄰好幀編碼模式的相關性，選擇近鄰N個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)。本發(fā)明既考慮了連續(xù)壞幀和當前壞幀與近鄰好幀間編碼模式的相關性，從而進一步提高了音頻質(zhì)量。
【專利說明】混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)
【技術領域】[0001]本發(fā)明涉及混合音頻解碼器，具體涉及一種混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)。
【背景技術】
[0002]現(xiàn)代移動通信中，音頻信號通過分幀打包，然后以比特流的形式傳輸。由于不存在理想信道，傳輸過程中會出現(xiàn)丟包現(xiàn)象，接收端就會接收到錯誤信息，我們稱之為壞幀。在現(xiàn)有的AMR-WB、AMR-WB+, AVS-PlO編解碼器中，當出現(xiàn)壞幀時，一般根據(jù)相鄰好幀的譜參數(shù)來代替當前壞幀的譜參數(shù)，從而隱藏當前壞幀譜參數(shù)，達到增強音頻質(zhì)量的效果。
[0003]現(xiàn)有的編碼方式中，ACELP256編碼模式適合語音音頻信號，TCX256編碼模式適合瞬變音樂音頻信號，TCX512編碼模式適合暫穩(wěn)態(tài)音頻信號，TCX1024編碼模式適合穩(wěn)態(tài)音頻信號。AMR-WB+和AVS-PlO編解碼器都是采用混合編碼模式，混合音頻編碼模式比單一音頻編碼模式適用范圍更廣。但是，混合音頻解碼器對壞幀進行恢復時，均未考慮當前壞幀與近鄰好幀編碼模式的相關性。

【發(fā)明內(nèi)容】

[0004]針對現(xiàn)有技術存在的不足，本發(fā)明提供了一種考慮了當前壞幀與近鄰好幀編碼模式相關性的、混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)。
[0005]為解決上述問題，本發(fā)明采用如下的技術方案:
[0006]一、混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，該方法把語音幀提供給混合音頻解碼器，語音幀提供混合音頻解碼器在合成音頻信號中所需使用的譜參數(shù)；根據(jù)譜參數(shù)判斷當前幀是否為壞幀，若為壞幀，則根據(jù)當前壞幀與近鄰好幀編碼模式的相關性，選擇近鄰N個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)。所述的N優(yōu)選為I或2或3。所述的待定系數(shù)a、0、Y通過樣本訓練獲得。
[0007]上述選擇近鄰N個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)，具體采用如下公式進行恢復:
[0008]ISFq(i) = a *past_ISFji) +3 *ISFadaptiveJiea^ihMISFconst 隱n(i)
[0009]其中:ISF^i)是當前壞幀ISF向量的第i分量TastJSFq⑴是當前壞幀的上一好幀ISF向量的第i分量；ISFadaptive m_(i)是當前壞幀的近鄰N個好幀ISF向量的第i分量的平均值；ISF_st m_(i)是ISF向量的長期平均值常數(shù)向量的第i分量，為經(jīng)驗常數(shù)；a、^、Y是待定系數(shù)，由當前壞幀與近鄰好幀編碼模式的相關性、連續(xù)壞幀數(shù)量及當前誤碼率決定為ISF向量的分量編號，i = 0，1，...，15。
[0010]如果當前壞幀與最近好幀的編碼模式相同，且當前壞幀的近鄰M個好幀的編碼模式也相同，則使用該近鄰M個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)，即所述的ISFadaptive _(i)為該近鄰M個好幀的ISF向量第i分量的平均值；考慮當前壞幀與近鄰好幀的相關度確定M0[0011] 如果當前壞幀與最近好幀的編碼模式相同，當前壞幀的近鄰M個好幀中離當前壞幀最近的N個好幀的編碼模式相同，則使用該近鄰N個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)，即所述的ISFadaptive m_(i)為該近鄰N個好幀的ISF向量第i分量的平均值；考慮當前壞幀與近鄰好幀的相關度確定M。
[0012]如果當前壞幀與最近好幀的編碼模式不同，則使用該最近好幀的譜參數(shù)恢復當前壞幀譜參數(shù)，即所述的ISFadaptive m_(i)為該最近好幀的ISF向量的第i分量。
[0013]二、混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替系統(tǒng)，包括:
[0014]壞幀判斷模塊，用來根據(jù)譜參數(shù)判斷當前幀是否為壞幀；
[0015]譜參數(shù)代替模塊，用來根據(jù)當前壞幀與近鄰好幀編碼模式的相關性，選擇近鄰N個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)。
[0016]本發(fā)明根據(jù)當前壞幀與近鄰好幀編碼模式的相關性，采用近鄰好幀的自適應平均值來代替壞幀譜參數(shù)，隱藏壞幀對語音解碼器的影響，以提高語音解碼器合成音頻的主觀質(zhì)量。本發(fā)明中，壞幀指損壞幀和丟失幀。
[0017]與現(xiàn)有技術相比，本發(fā)明具有如下有益效果:
[0018]AMR-WB+編解碼器未考慮連續(xù)丟幀情況，當連續(xù)丟幀較多時，其音頻質(zhì)量較差；AVS-PlO編解碼器雖然考慮了連續(xù)丟幀情況，但其僅利用最近一個好幀對壞幀譜參數(shù)進行恢復，忽略了近鄰好幀間編碼模式的相關性，其音頻質(zhì)量仍有待提高。本發(fā)明既考慮了連續(xù)壞幀情況，也考慮了當前壞幀與近鄰好幀間編碼模式的相關性，從而可進一步提高合成音
頻質(zhì)量。
【專利附圖】

【附圖說明】
[0019]圖1是發(fā)射和存儲音頻信號的系統(tǒng)框圖；
[0020]圖2是本發(fā)明方法的一種具體流程圖。
【具體實施方式】
[0021]本發(fā)明用于混合音頻解碼器中幀差錯隱藏的譜參數(shù)替代，把語音幀提供給混合音頻解碼器，語音幀提供混合音頻解碼器在合成音頻中所需使用的譜參數(shù)，混合音頻解碼器根據(jù)譜參數(shù)判斷當前語音幀是否為壞幀，若為壞幀，則根據(jù)當前壞幀與近鄰好幀編碼模式的相關性確定譜參數(shù)代替方法。
[0022]AMR-WB, AMR-WB+和AVS-PlO等編解碼器將接收語音幀的線性預測系數(shù)轉(zhuǎn)換為導譜頻率ISF并進行量化，將ISF作為譜參數(shù)傳送至解碼端。本發(fā)明所需使用的譜參數(shù)即ISF向量。
[0023]本發(fā)明的譜參數(shù)替代方法可采用如下公式來表示:
[0024]ISFq(i) = a *past_ISFji) +3 *ISFadaptiveJiea^ihMISFconst 隱n(i) (I)
[0025]其中:
[0026]ISFq(i)是當前壞幀ISF向量的第i分量；
[0027]past_ISFq(i)是當前壞幀的上一好幀ISF向量的第i分量；
[0028]ISFadaptive mean(i)是當前壞幀的近鄰N個好幀ISF向量的第i分量的平均值，根據(jù)當前壞幀和近鄰好幀編碼模式的相關性確定N值；[0029]ISFconst fflean(i)是ISF向量的長期平均值常數(shù)向量的第i分量，為經(jīng)驗常數(shù)；
[0030]a、0Y是待定系數(shù)，由當前壞幀與近鄰好幀編碼模式的相關性、連續(xù)壞幀數(shù)量及當前誤碼率決定；
[0031]i為ISF向量的分量的編號，i = 0，1，? ? ?，15。
[0032]上述待定系數(shù)可通過樣本訓練得到，具體為:
[0033]根據(jù)當前壞幀和前近鄰M個好幀編碼模式的相關性分為M類情況，該M類情況分別指取前近鄰1、2、…M個近鄰好幀ISF向量的平均值來恢復當前壞幀的譜參數(shù)，這里M的優(yōu)選取值為I~3?；谏鲜鯩類情況對若干音頻序列在無差錯解碼時的ISF向量進行分類訓練。訓練各類ISF向量時，考慮連續(xù)壞幀數(shù)量，分別在連續(xù)壞幀數(shù)量為I~P的情況下訓練ISF向量，并以當前壞幀的正確ISF向量為擬合目標對該類ISF向量訓練樣本進行擬合，以獲得不同連續(xù)壞幀及不同誤碼率下對應的待定系數(shù)。當連續(xù)壞幀數(shù)大于3時，采用指數(shù)函數(shù)表示待定系數(shù)；當連續(xù)壞幀數(shù)量不大于3時，則直接獲得待定系數(shù)值。
[0034]下面結(jié)合附圖和上述譜參數(shù)替代方法進一步說明本發(fā)明的【具體實施方式】。
[0035]見圖1，音頻信號通過信道傳輸?shù)交旌弦纛l解碼端，當混合音頻解碼器檢測到壞幀時，分析當前壞幀和近鄰好幀的編碼模式，采用近鄰好幀的譜參數(shù)對當前壞幀譜參數(shù)進行隱藏。壞幀的譜參數(shù)會影響語音的質(zhì)量，隱藏壞幀的譜參數(shù)可增強音頻質(zhì)量。
[0036]目前的音頻編碼模式主要有四種，ACELP256編碼模式適合語音音頻信號，TCX256編碼模式適合瞬變音樂音頻信號，TCX512編碼模式適合暫穩(wěn)態(tài)音頻信號，TCX1024編碼模式適合穩(wěn)態(tài)音頻信號?；旌弦纛l編碼模式比單一音頻編碼模式適用范圍更廣，AMR-WB+和AVS-PLO編解碼器均是采用混合編碼模式，但在進行幀差錯隱藏時，均未考慮當前壞幀與近鄰好幀編碼模式的相關性，僅僅只是在編碼模式切換時做了平滑處理。而本發(fā)明在幀差錯隱藏時考慮了當前壞幀與近鄰好幀編碼模式的相關性。
[0037]圖2為本發(fā)明方法的一種【具體實施方式】。根據(jù)本發(fā)明，把語音幀提供給混合音頻解碼器，各語音幀提供混合音頻解碼器在合成音頻中所需使用的譜參數(shù)，當接收到好幀時，混合音頻解碼器使用常規(guī)解碼方式進行解碼。當接收到壞幀時，則對壞幀的譜參數(shù)進行替代，然后使用常規(guī)解碼方式對譜參數(shù)替代后的壞幀進行解碼。
[0038]在混合音頻編碼器編碼模式切換處，幀的相關性很低，需要用近鄰好幀的譜參數(shù)來恢復當前壞幀。距離當前壞幀越遠的幀，當前壞幀與其相關度越低。實際應用過程中，一般可選取當前壞幀的近鄰I~3個好幀的譜參數(shù)來恢復當前壞幀。本【具體實施方式】中，取當前壞幀的近鄰三個好幀的譜參數(shù)對當前壞幀執(zhí)行譜參數(shù)代替，具體恢復方法為:如果當前壞幀與最近好幀編碼模式相同，且當前壞幀的近鄰三個好幀的編碼模式相同，則使用近鄰三個好幀的譜參數(shù)恢復當前壞幀的譜參數(shù)，即公式(I)中的ISFadapti”aJi)為當前壞幀的近鄰三個好幀ISF向量第i分量的平均值。如果當前壞幀與最近好幀編碼模式相同，但當前壞幀的近鄰三個好幀中僅最近的兩個近鄰好幀編碼模式相同，則使用近鄰兩個好幀的譜參數(shù)恢復當前壞幀的譜參數(shù)，即公式(I)中的ISFadaptive _n(i)為當前壞幀的近鄰兩個好幀的ISF向量第i分量的平均值。如果當前壞幀與最近好幀編碼模式相同，但該最近好幀與其前一好幀的編碼模式不同，則僅使用該最近好幀的譜參數(shù)恢復當前壞幀的譜參數(shù)，即公式(I)中的ISFadaptive _n(i)為當前壞幀的最近好幀的ISF向量第i分量。如果當前壞幀與最近好幀編碼模式不同，則使用該最近好幀的譜參數(shù)恢復當前壞幀的譜參數(shù)，即公式(I) 中的ISFadaptive _(i)為當前壞幀的最近好幀的ISF向量第i分量。
【權利要求】
1.混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，把語音幀提供給混合音頻解碼器，語音幀提供混合音頻解碼器在合成音頻信號中所需使用的譜參數(shù)，其特征在于: 根據(jù)譜參數(shù)判斷當前幀是否為壞幀，若為壞幀，則根據(jù)當前壞幀與近鄰好幀編碼模式的相關性，選擇近鄰N個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)。
2.如權利要求1所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 所述的N為I或2或3。
3.如權利要求1所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 所述的選擇近鄰N個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)，具體采用如下公式進行恢復:
ISFq(i) = a *past_ISFji) + @ *ISFadaptive—咖⑴ +Y*ISFCQnst—^eanQ) 其中=ISFJi)是當前壞幀ISF向量的第i分量；paSt_ISF^i)是當前壞幀的上一好幀ISF向量的第i分量；ISFadaptive m_(i)是當前壞幀的近鄰N個好幀ISF向量的第i分量的平均值；ISF_st m_(i)是ISF向量的長期平均值常數(shù)向量的第i分量，為經(jīng)驗常數(shù)；a、3、Y是待定系數(shù)，由當前壞幀與近鄰好幀編碼模式的相關性、連續(xù)壞幀數(shù)量及當前誤碼率決定；i為ISF向量的分量編號，i = O，1，...，15。
4.如權利要求3所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 如果當前壞幀與最近好幀的編碼模式相同，且當前壞幀的近鄰M個好幀的編碼模式也相同，則使用該近鄰M個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)，即所述的ISFadaptive _n(i)為該近鄰M個好幀的ISF向量第i分量的平均值；考慮當前壞幀與近鄰好幀的相關度確定M。
5.如權利要求3所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 如果當前壞幀與最近好幀的編碼模式相同，當前壞幀的近鄰M個好幀中離當前壞幀最近的N個好幀的編碼模式相同，則使用該近鄰N個好幀的譜參數(shù)恢復當前壞幀譜參數(shù)，即所述的ISFadaptive _(i)為該近鄰N個好幀的ISF向量第i分量的平均值；考慮當前壞幀與近鄰好幀的相關度確定M。
6.如權利要求3所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 如果當前壞幀與最近好幀的編碼模式不同，則使用該最近好幀的譜參數(shù)恢復當前壞幀譜參數(shù)，即所述的ISFadaptive _(i)為該最近好幀的ISF向量的第i分量。
7.如權利要求3所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 所述的待定系數(shù)a、0、Y通過樣本訓練獲得。
8.混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替系統(tǒng)，其特征在于，包括: 壞幀判斷模塊，用來根據(jù)譜參數(shù)判斷當前幀是否為壞幀；譜參數(shù)代替模塊，用來根據(jù)當前壞幀與近鄰好幀編碼模式的相關性，選擇近鄰N個好中貞的譜參數(shù)恢復當前壞幀譜參數(shù)。
【文檔編號】G10L19/20GK103646647SQ201310683244
【公開日】2014年3月19日申請日期:2013年12月13日優(yōu)先權日:2013年12月13日
【發(fā)明者】胡瑞敏, 楊玉紅, 王衍業(yè), 董少龍, 謝松波, 余洪江, 高麗, 王曉晨, 涂衛(wèi)平, 高戈申請人:武漢大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：胡瑞敏;楊玉紅;王衍業(yè);董少龍;謝松波;余洪江;高麗;王曉晨;涂衛(wèi)平;高戈
技術所有人：武漢大學
我是此專利的發(fā)明人

上一篇：噪聲檢測裝置、噪聲檢測方法和程序的制作方法
上一篇：一種語音信號非連續(xù)傳輸及背景噪聲生成方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！