基于高斯混合模型的感知域音頻編碼方法及系統(tǒng)的制作方法

文檔序號：2827286閱讀：261來源：國知局

基于高斯混合模型的感知域音頻編碼方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于高斯混合模型的感知域音頻編碼方法和系統(tǒng)，包括步驟：步驟1，采用聽覺濾波器對輸入音頻信號進行濾波，獲得子帶信號；步驟2，提取子帶信號的希爾伯特包絡，對希爾伯特包絡進行平滑濾波，獲得子帶信號譜包絡；步驟3，采用心理聲學模型獲得子帶信號譜包絡的絕對掩蔽閾值，根據(jù)絕對掩蔽閾值對子帶信號譜包絡進聽覺行閾值判別；步驟4，采用多路復用掩蔽模型替換子帶信號譜包絡；步驟5，采用采用高斯-牛頓算法對子帶信號譜包絡進行高斯混合模型參數(shù)擬合；步驟6，量化和編碼擬合后的高斯混合模型參數(shù)。本發(fā)明可應用于高質(zhì)量的中低碼率語音編碼，能大大降低編碼碼率。
【專利說明】基于高斯混合模型的感知域音頻編碼方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及感知域音頻編碼領域，尤其涉及一種基于高斯混合模型的感知域音頻編碼方法及系統(tǒng)。
【背景技術】
[0002]隨著計算機技術、網(wǎng)絡技術和通信技術的飛速發(fā)展，人類社會已經(jīng)進入了數(shù)字化時代。一些重要信號，如語音、音樂、影視的數(shù)字化版本，數(shù)據(jù)量巨大，傳輸和存儲成本較高。而且，隨著新技術和新應用的不斷出現(xiàn)，還有可能出現(xiàn)數(shù)碼率更高的信源。這些數(shù)據(jù)的傳輸和存儲便是一個很大的難題，而編碼技術正是針對這一問題而提出的解決辦法。在這些應用中，音頻編碼技術作為其中的關鍵技術之一起到了極大的推動作用。人類聽覺系統(tǒng)存在局限性，不能感知所接收到的聲音中的所有信號成分。傳統(tǒng)的感知域音頻編碼方法將音頻信號變換到感知域后，會產(chǎn)生大量的冗余脈沖信號，編碼效率不高。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的是提供一種基于高斯混合模型的感知域音頻編碼方法及系統(tǒng)，使得編碼后的音頻信號碼率更低。
[0004]為達到上述目的，本發(fā)明提出了一種基于高斯混合模型的感知域音頻編碼方法，包括步驟:
[0005]步驟1，采用聽覺濾波器對輸入音頻信號進行濾波，獲得子帶信號；
[0006]步驟2，提取子帶信號的希爾伯特包絡，對希爾伯特包絡進行平滑濾波，獲得子帶信號譜包絡；
[0007]步驟3，采用心理聲學模型獲得子帶信號譜包絡的絕對掩蔽閾值，根據(jù)絕對掩蔽閾值對子帶信號譜包絡進行聽覺閾值判別，去除小于絕對掩蔽閾值的子帶信號譜包絡，保留不小于掩蔽閾值的子帶信號譜包絡，以便有效減少子帶信號脈沖數(shù)量；
[0008]步驟4，采用多路復用掩蔽模型替換步驟3所得子帶信號譜包絡，使用多路復用掩蔽模型的目的主要有兩個:一方面為了進一步減少子帶信號脈沖數(shù)量從而有利于編碼的實施，另一方面為了更好重構(gòu)音頻信號；
[0009]步驟5，采用高斯混合模型參數(shù)分別表示各子帶信號譜包絡，基于步驟4所得子帶信號譜包絡構(gòu)建高斯混合模型，并采用高斯-牛頓算法擬合高斯混合模型參數(shù)；
[0010]步驟6，對步驟5所得高斯混合模型參數(shù)進行量化和編碼。
[0011 ] 步驟4進一步包括子步驟:
[0012]4.1針對當前原始子帶信號樣本，找出子帶信號譜包絡的最大值，計算最大值所在的子帶信號譜包絡產(chǎn)生的掩蔽效應圖形，所述的當前原始子帶信號樣本初始值為步驟3所得子帶信號譜包絡；
[0013]4.2將當前原始子帶信號樣本與掩蔽效應圖形中對應的樣本點值進行比較，并根據(jù)比較結(jié)果獲得替換后的子帶信號譜包絡:[0014]若當前原始子帶信號樣本點值大于掩蔽效應圖形中相應樣本點值，則保留該當前原始子帶信號樣本點；若當前原始子帶信號樣本點值不大于掩蔽效應圖形中相應樣本點值，則將該當前原始子帶信號樣本點值替換為掩蔽效應圖形中相應樣本點值；所述的樣本點值指樣本點處譜包絡的幅度值；
[0015]4.3以替換后的子帶信號譜包絡為當前原始子帶信號樣本，然后執(zhí)行步驟4.1~
4.2，直至當前原始子帶信號樣本中所有樣本點值均被掩蔽效應圖形中相應樣本點值替換過、或均進行過至少兩次樣本點值比較，即完成子帶信號譜包絡替換。
[0016]步驟5進一步包括子步驟:
[0017]5.1定義擬合算式
【權利要求】
1.基于高斯混合模型的感知域音頻編碼方法，其特征在于，包括步驟: 步驟I，采用聽覺濾波器對輸入音頻信號進行濾波，獲得子帶信號；步驟2，提取子帶信號的希爾伯特包絡，對希爾伯特包絡進行平滑濾波，獲得子帶信號譜包絡；步驟3，采用心理聲學模型獲得子帶信號譜包絡的絕對掩蔽閾值，根據(jù)絕對掩蔽閾值對子帶信號譜包絡進行聽覺閾值判別，去除小于絕對掩蔽閾值的子帶信號譜包絡，保留不小于掩蔽閾值的子帶信號譜包絡；步驟4，采用多路復用掩蔽模型替換步驟3所得子帶信號譜包絡；步驟5，采用高斯混合模型參數(shù)分別表示各子帶信號譜包絡，基于步驟4所得子帶信號譜包絡構(gòu)建高斯混合模型，并采用高斯-牛頓算法擬合高斯混合模型參數(shù)；步驟6，對步驟5所得高斯混合模型參數(shù)進行量化和編碼。
2.如權利要求1所述的基于高斯混合模型的感知域音頻編碼方法，其特征在于: 步驟4進一步包括子步驟: 4.1針對當前原始子帶信號樣本，找出子帶信號譜包絡的最大值，計算最大值所在的子帶信號譜包絡產(chǎn)生的掩蔽效應圖形； 4.2將當前原始子帶信號樣本與掩蔽效應圖形中對應的樣本點值進行比較，并根據(jù)比較結(jié)果獲得替換后的子帶信號譜包絡: 若當前原始子帶信號樣本點值大于掩蔽效應圖形中相應樣本點值，則保留該原始子帶信號樣本點；若當前原始子帶信號樣本點值不大于掩蔽效應圖形中相應樣本點值，則將該當前原始子帶信號樣本點值替換為掩蔽效應圖形中相應樣本點值；所述的樣本點值指樣本點處譜包絡的幅度值； 4.3以替換后的子帶信號譜包絡為當前原始子帶信號樣本，然后執(zhí)行步驟4.1~4.2，直至當前原始子帶信號樣本中所有樣本點值均被掩蔽效應圖形中相應樣本點值替換過、或均進行過至少兩次樣本點值比較，即完成子帶信號譜包絡替換。
3.如權利要求1所述的基于高斯混合模型的感知域音頻編碼方法，其特征在于: 步驟5進一步包括子步驟: ` 5.1定義擬合算式
4.如權利要求1所述的基于高斯混合模型的感知域音頻編碼方法，其特征在于: 步驟6中，采用均勻量化方式對高斯混合模型參數(shù)中的均值和方差進行量化，采用非均勻量化方式對高斯混合模型參數(shù)中的權值進行量化。
5.基于高斯混合模型的感知域音頻編碼系統(tǒng)，其特征在于，包括: 聽覺濾波器組模塊，用來采用聽覺濾波器對輸入音頻信號進行濾波，獲得子帶信號；包絡平滑模塊，用來提取子帶信號的希爾伯特包絡，對希爾伯特包絡進行平滑濾波，獲得子帶信號譜包絡；聽覺閾值判別模塊，用來采用心理聲學模型獲得子帶信號譜包絡的絕對掩蔽閾值，根據(jù)絕對掩蔽閾值對子帶信號譜包絡進行聽覺閾值判別，刪除小于絕對掩蔽閾值的子帶信號譜包絡，保留不小于絕對掩蔽閾值的子帶信號譜包絡；掩蔽模型替換模塊，用來采用多路復用掩蔽模型替換子帶信號譜包絡；高斯混合模型擬合模塊，用來采用高斯混合模型參數(shù)分別表示各子帶信號譜包絡，基于子帶信號譜包絡構(gòu)建高斯混合模型，并采用高斯-牛頓算法擬合高斯混合模型參數(shù)；量化編碼模塊，用來對高斯混合模型參數(shù)進行量化和編碼。
6.如權利要求5所述的基于高斯混合模型的感知域音頻編碼系統(tǒng)，其特征在于: 所述的聽覺濾波器組模塊為ga_atone濾波器組模塊。
7.如權利要求5所述的基于高斯混合模型的感知域音頻編碼系統(tǒng)，其特征在于: 所述的量化編碼模塊進一步包括均勻量化模塊、非均勻量化模塊和差分編碼模塊，均勻量化模塊用來對高斯混合模型參數(shù)中的均值和方差進行量化，非均勻量化模塊用來對高斯混合模型參數(shù)中的權值進行量化。
【文檔編號】G10L19/04GK103761969SQ201410057260
【公開日】2014年4月30日申請日期:2014年2月20日優(yōu)先權日:2014年2月20日
【發(fā)明者】高戈, 陳怡 , 呂亞平, 張康, 楊玉紅申請人:武漢大學

完整全部詳細技術資料下載