專利名稱:基于網(wǎng)絡協(xié)議的低速語音編碼方法
技術領域:
本發(fā)明涉及數(shù)字通信系統(tǒng)中數(shù)據(jù)編碼方法,尤其是基于網(wǎng)絡協(xié)議的低速語音編碼方法。
在數(shù)字通信系統(tǒng)中,用以傳輸信息的信道帶寬總是有限的,要在有限的帶寬內(nèi)盡可能多地增加系統(tǒng)容量或用戶數(shù),就必須提高信道帶寬的利用率。采用低速語音編碼對信源數(shù)據(jù)進行壓縮是提高帶寬利用率的重要手段。目前,低速語音編碼方法以固定幀長為基礎,基于IP(網(wǎng)絡協(xié)議)傳送的語音信號的數(shù)據(jù)報分割是以一幀或多幀語音的比特數(shù)為單位的。
基于固定幀長的單幀或多幀IP語音傳送系統(tǒng)的工作流程如下在發(fā)送端,當語音PCM(脈沖編碼調(diào)制)信號輸入后,首先確定語音性質(zhì),再根據(jù)語音性質(zhì)和幀長確定編碼速率并對其進行壓縮編碼,最后對壓縮后的單幀或多幀語音編碼TCP(傳輸控制協(xié)議)或UDP(用戶數(shù)據(jù)報協(xié)議)打包和IP打包后,通過信道傳送給接收端;在接收端,首先進行IP和TCP或UDP解包,然后判斷數(shù)據(jù)包是否出錯、丟包或延遲,如沒有上述情況,則正常譯碼后輸出語音PCM信號,否則,經(jīng)單幀或多幀語音預測譯碼后輸出語音PCM信號。在上述過程中,無論采用單幀還是多幀,由于采用了固定幀長,則其編碼效率低,不利于編碼效率的進一步下降。當采用多幀時,還不利于IP數(shù)據(jù)包丟失、傳送比特出錯、延遲太大時對信源譯碼的處理,對語音譯碼質(zhì)量有影響。
針對以上現(xiàn)有技術中的問題,本發(fā)明的目的是,提供一種有利于提高編碼效率、降低壓縮速率、保證語音譯碼質(zhì)量的基于網(wǎng)絡協(xié)議的低速語音編碼方法。
為達到上述目的,本發(fā)明采用的技術方案是一種基于網(wǎng)絡協(xié)議的低速語音編碼方法,該方法包括以下步驟(1)信源根據(jù)語音數(shù)據(jù)采樣頻率,順序輸入量化的語音數(shù)據(jù);(2)根據(jù)TN時間內(nèi)輸入的語音數(shù)據(jù)確定語音的性質(zhì)參數(shù);(3)根據(jù)上述步驟(2)得到的語音性質(zhì)參數(shù),確定語音后繼處理的最佳幀長T;(4)對最佳幀長T的語音數(shù)據(jù)進行壓縮編碼;(5)對語音數(shù)據(jù)壓縮編碼后的數(shù)據(jù)比特,在利用TCP或UDP協(xié)議打包和IP協(xié)議打包后,通過信道輸出。
由于本方法采用變幀長語音壓縮編碼方法,可提高編碼效率,有利于編碼壓縮速率的進一步下降,進而提高了數(shù)據(jù)傳輸效率。同時由于本方法采用單幀語音編碼,在IP包數(shù)據(jù)丟失、傳送比特出錯、延遲太大時,有利于信源譯碼的處理,對語音譯碼有好處,進而保證了語音譯碼質(zhì)量。采用非正式聽音表明,使用本方法的數(shù)據(jù)編碼壓縮能力或在同等誤碼率上,以及在對語音譯碼能力方面,MOS分值提高0.1~0.2。
下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。
圖1是本發(fā)明的流程示意圖;圖2是基于自適應變幀長變速率的單幀IP語音傳送系統(tǒng)流程示意圖;圖3是本發(fā)明的一個實施例系統(tǒng)邏輯示意圖;圖4是本發(fā)明的基于自適應變幀長變速率的單幀IP語音傳送系統(tǒng)實施例流程示意圖。
本發(fā)明的原理描述如下,參考圖1、2。信源輸入為采樣量化的語音數(shù)據(jù),數(shù)據(jù)是根據(jù)采樣率順序輸入的,語音性質(zhì)確定模塊根據(jù)每TN毫秒輸入的數(shù)據(jù),確定輸入語音的性質(zhì)參數(shù)。上述時間TN按照下述原則確定首先編碼效率、壓縮率要盡可能高,其次延遲時間不能太長;經(jīng)實驗證明,5ms≤TN≤30ms時為最佳。根據(jù)語音性質(zhì)參數(shù),即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T,基本原則為使輸入語音滿足短時特性不變,而可以分析的語音幀長盡量長,具體說,若語音的變化頻度快,則幀長短,反之幀長長。最佳幀長T=T1,T2,...,TN,為一個有限集。對最佳幀長T的語音,再采用內(nèi)部變速率算法對其進行壓縮編碼,輸出壓縮編碼后的比特,其比特數(shù)NUM也是在一個有限集中,NUM=NUM1,NUM2,......,NUMM。對語音壓縮編碼后輸出的NUM個比特利用TCP或UDP協(xié)議加上包頭,比特數(shù)變?yōu)镹UM_P,IP打包模塊對NUM_P個比特再打包加上路由信息,得到NUM_IP個比特,由此,傳送到接收方,接收方進行IP解包,TCP或UDP解包。在正常情況下,語音譯碼模塊正常譯碼,但由于在傳送過程中,可能會引入信道誤碼,傳輸延遲等情況,此時,由于只有一幀語音傳送,語音譯碼模塊可以很容易地處理傳輸中出現(xiàn)的問題。
編碼的基本操作流程如下(1)信源輸入為采樣量化的語音數(shù)據(jù),數(shù)據(jù)是根據(jù)采樣率順序輸入的;(2)語音性質(zhì)確定模塊根據(jù)每TN毫秒輸入的數(shù)據(jù)確定輸入語音的性質(zhì)參數(shù),根據(jù)語音的性質(zhì)參數(shù),即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T,T=T1,T2,...,TN,為一個有限集;(3)對最佳幀長T的語音,再采用內(nèi)部變速率算法對其進行壓縮編碼,輸出壓縮編碼后的比特,其比特數(shù)NUM也是在一個有限集中,NUM=NUM1,NUM2,......,NUMM;(4)對語音壓縮編碼后輸出的NUM個比特利用TCP或UDP協(xié)議加上包頭,比特數(shù)變?yōu)镹UM_P;(5)IP打包模塊對NUM_P個比特再打包加上路由信息,得到NUM_IP個比特。
上述IP打包后的NUM_IP個比特通過信道,傳送到接收方。
譯碼的基本操作流程如下(1)接收方進行IP解包;(2)TCP或UDP解包;
(3)在正常情況下,語音譯碼模塊正常譯碼;在處錯條件下,進行單幀預測譯碼;(4)輸出恢復的語音數(shù)據(jù)。
本發(fā)明可以應用于目前Internet上公用網(wǎng)或?qū)S镁W(wǎng)IP語音傳送,也可用于未來移動通信中基于IP的核心網(wǎng)語音傳送。參考圖3。其中IP網(wǎng)關采用本發(fā)明提出的編譯碼,在Internet傳送IP包出現(xiàn)丟包、傳輸比特出錯等情況下,譯碼器能夠根據(jù)本發(fā)明內(nèi)容糾正譯碼質(zhì)量,由于是變幀長傳輸,糾正的語音譯碼質(zhì)量能夠更好。對于IP網(wǎng)關,本例給出了一個結(jié)合變幀長、變速率語音編碼方法的實例,參考圖4,編碼速率為2Kbitps,4Kbitps,8Kbitps,其基本操作流程如下編碼(1)信源輸入為采樣量化的語音數(shù)據(jù),采樣率8000Hz,數(shù)據(jù)是根據(jù)采樣率順序輸入的;T1=5,T2=10,T3=15,T4=20,T5=25,T6=30ms;(2)語音性質(zhì)確定模塊根據(jù)每30ms輸入的數(shù)據(jù)確定輸入語音的性質(zhì)參數(shù),計算方法如下,計算每5ms的分段基音周期,分別計算10ms,15ms,20ms,25ms,30ms的基音周期方差D10,D15,D20,D25,D30;(3)根據(jù)語音的性質(zhì)參數(shù),即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T當{D30<Threshold則T=30;D25<Threshold則T=25;
D20<Threshold則T=20;D15<Threshold則T=15;D10<Threshold則T=10;否則T=5}其中Threshold是基音周期的一個方差的比較,其值的確定應考慮在編碼效率和質(zhì)量之間作一個較好的權衡。
(4)對最佳幀長T的語音,采用內(nèi)部變速率算法壓縮編碼,壓縮編碼后的比特數(shù)為NUM,NUM=T*2,T*4,T*8,為三個檔次;(5)對語音壓縮編碼后輸出的NUM個比特利用TCP協(xié)議加上包頭,比特數(shù)變?yōu)镹UM_P;(6)IP打包模塊對NUM_P個比特再打包加上路由信息,得到NUM_IP個比特。該NUM_IP個比特通過信道,傳送到接收方。譯碼(1)接收方進行IP解包;(2)TCP解包;(3)在正常情況下,語音譯碼模塊正常譯碼;在處錯條件下,進行單幀預測譯碼;(4)·輸出恢復的語音數(shù)據(jù)。
權利要求
1.一種基于網(wǎng)絡協(xié)議的低速語音編碼方法,其特征在于,該方法包括以下步驟(1)信源根據(jù)語音數(shù)據(jù)采樣頻率,順序輸入量化的語音數(shù)據(jù);(2)根據(jù)TN時間內(nèi)輸入的語音數(shù)據(jù)確定語音的性質(zhì)參數(shù);(3)根據(jù)上述步驟(2)得到的語音性質(zhì)參數(shù),確定語音后繼處理的最佳幀長T;(4)對最佳幀長T的語音數(shù)據(jù)進行壓縮編碼;(5)對語音數(shù)據(jù)壓縮編碼后的數(shù)據(jù)比特,在利用TCP或UDP協(xié)議打包和IP協(xié)議打包后,通過信道輸出。
2.根據(jù)權利要求1所述的基于網(wǎng)絡協(xié)議的低速語音編碼方法,其特征在于所述TN時間為滿足TN≥5ms且TN≤30ms的任一時間。
3.根據(jù)權利要求1所述的基于網(wǎng)絡協(xié)議的低速語音編碼方法,其特征在于,所述根據(jù)語音性質(zhì)參數(shù)確定語音后繼處理的最佳幀長T是按照下述方法確定的若語音的變化頻度快,則幀長短,反之幀長長。
4.根據(jù)權利要求1所述的基于網(wǎng)絡協(xié)議的低速語音編碼方法,其特征在于所述對最佳幀長T的語音數(shù)據(jù)進行壓縮編碼是采用內(nèi)部變速率算法進行的。
全文摘要
本發(fā)明提供了一種基于網(wǎng)絡協(xié)議的低速語音編碼方法,由于本方法采用單幀、變幀長、幀內(nèi)比特自適應的低速語音壓縮編碼方法,可使編碼壓縮的能力進一步提高,進而提高了數(shù)據(jù)傳輸效率。同時由于IP的數(shù)據(jù)報分割以該語音編碼幀的分割為單位,對信源語音編譯碼的質(zhì)量會有較大的提高。采用非正式聽音表明,使用本方法的數(shù)據(jù)編碼壓縮能力或在同等誤碼率上,以及在對語音譯碼能力方面,MOS分值提高0.1~0.2。
文檔編號G10L19/18GK1338834SQ0012611
公開日2002年3月6日 申請日期2000年8月19日 優(yōu)先權日2000年8月19日
發(fā)明者潘勝昔, 李英濤 申請人:華為技術有限公司