基于網(wǎng)絡協(xié)議的低速語音編碼方法

文檔序號：2835803閱讀：747來源：國知局

專利名稱：基于網(wǎng)絡協(xié)議的低速語音編碼方法
技術領域：
本發(fā)明涉及數(shù)字通信系統(tǒng)中數(shù)據(jù)編碼方法，尤其是基于網(wǎng)絡協(xié)議的低速語音編碼方法。
在數(shù)字通信系統(tǒng)中，用以傳輸信息的信道帶寬總是有限的，要在有限的帶寬內(nèi)盡可能多地增加系統(tǒng)容量或用戶數(shù)，就必須提高信道帶寬的利用率。采用低速語音編碼對信源數(shù)據(jù)進行壓縮是提高帶寬利用率的重要手段。目前，低速語音編碼方法以固定幀長為基礎，基于IP(網(wǎng)絡協(xié)議)傳送的語音信號的數(shù)據(jù)報分割是以一幀或多幀語音的比特數(shù)為單位的。
基于固定幀長的單幀或多幀IP語音傳送系統(tǒng)的工作流程如下在發(fā)送端，當語音PCM(脈沖編碼調(diào)制)信號輸入后，首先確定語音性質(zhì)，再根據(jù)語音性質(zhì)和幀長確定編碼速率并對其進行壓縮編碼，最后對壓縮后的單幀或多幀語音編碼TCP(傳輸控制協(xié)議)或UDP(用戶數(shù)據(jù)報協(xié)議)打包和IP打包后，通過信道傳送給接收端；在接收端，首先進行IP和TCP或UDP解包，然后判斷數(shù)據(jù)包是否出錯、丟包或延遲，如沒有上述情況，則正常譯碼后輸出語音PCM信號，否則，經(jīng)單幀或多幀語音預測譯碼后輸出語音PCM信號。在上述過程中，無論采用單幀還是多幀，由于采用了固定幀長，則其編碼效率低，不利于編碼效率的進一步下降。當采用多幀時，還不利于IP數(shù)據(jù)包丟失、傳送比特出錯、延遲太大時對信源譯碼的處理，對語音譯碼質(zhì)量有影響。
針對以上現(xiàn)有技術中的問題，本發(fā)明的目的是，提供一種有利于提高編碼效率、降低壓縮速率、保證語音譯碼質(zhì)量的基于網(wǎng)絡協(xié)議的低速語音編碼方法。
為達到上述目的，本發(fā)明采用的技術方案是一種基于網(wǎng)絡協(xié)議的低速語音編碼方法，該方法包括以下步驟(1)信源根據(jù)語音數(shù)據(jù)采樣頻率，順序輸入量化的語音數(shù)據(jù)；(2)根據(jù)TN時間內(nèi)輸入的語音數(shù)據(jù)確定語音的性質(zhì)參數(shù)；(3)根據(jù)上述步驟(2)得到的語音性質(zhì)參數(shù)，確定語音后繼處理的最佳幀長T；(4)對最佳幀長T的語音數(shù)據(jù)進行壓縮編碼；(5)對語音數(shù)據(jù)壓縮編碼后的數(shù)據(jù)比特，在利用TCP或UDP協(xié)議打包和IP協(xié)議打包后，通過信道輸出。
由于本方法采用變幀長語音壓縮編碼方法，可提高編碼效率，有利于編碼壓縮速率的進一步下降，進而提高了數(shù)據(jù)傳輸效率。同時由于本方法采用單幀語音編碼，在IP包數(shù)據(jù)丟失、傳送比特出錯、延遲太大時，有利于信源譯碼的處理，對語音譯碼有好處，進而保證了語音譯碼質(zhì)量。采用非正式聽音表明，使用本方法的數(shù)據(jù)編碼壓縮能力或在同等誤碼率上，以及在對語音譯碼能力方面，MOS分值提高0.1～0.2。
下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。

圖1是本發(fā)明的流程示意圖；圖2是基于自適應變幀長變速率的單幀IP語音傳送系統(tǒng)流程示意圖；圖3是本發(fā)明的一個實施例系統(tǒng)邏輯示意圖；圖4是本發(fā)明的基于自適應變幀長變速率的單幀IP語音傳送系統(tǒng)實施例流程示意圖。
本發(fā)明的原理描述如下，參考圖1、2。信源輸入為采樣量化的語音數(shù)據(jù)，數(shù)據(jù)是根據(jù)采樣率順序輸入的，語音性質(zhì)確定模塊根據(jù)每TN毫秒輸入的數(shù)據(jù)，確定輸入語音的性質(zhì)參數(shù)。上述時間TN按照下述原則確定首先編碼效率、壓縮率要盡可能高，其次延遲時間不能太長；經(jīng)實驗證明，5ms≤TN≤30ms時為最佳。根據(jù)語音性質(zhì)參數(shù)，即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T，基本原則為使輸入語音滿足短時特性不變，而可以分析的語音幀長盡量長，具體說，若語音的變化頻度快，則幀長短，反之幀長長。最佳幀長T＝T1，T2，...，TN，為一個有限集。對最佳幀長T的語音，再采用內(nèi)部變速率算法對其進行壓縮編碼，輸出壓縮編碼后的比特，其比特數(shù)NUM也是在一個有限集中，NUM＝NUM1，NUM2，......，NUMM。對語音壓縮編碼后輸出的NUM個比特利用TCP或UDP協(xié)議加上包頭，比特數(shù)變?yōu)镹UM_P，IP打包模塊對NUM_P個比特再打包加上路由信息，得到NUM_IP個比特，由此，傳送到接收方，接收方進行IP解包，TCP或UDP解包。在正常情況下，語音譯碼模塊正常譯碼，但由于在傳送過程中，可能會引入信道誤碼，傳輸延遲等情況，此時，由于只有一幀語音傳送，語音譯碼模塊可以很容易地處理傳輸中出現(xiàn)的問題。
編碼的基本操作流程如下(1)信源輸入為采樣量化的語音數(shù)據(jù)，數(shù)據(jù)是根據(jù)采樣率順序輸入的；(2)語音性質(zhì)確定模塊根據(jù)每TN毫秒輸入的數(shù)據(jù)確定輸入語音的性質(zhì)參數(shù)，根據(jù)語音的性質(zhì)參數(shù)，即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T，T＝T1，T2，...，TN，為一個有限集；(3)對最佳幀長T的語音，再采用內(nèi)部變速率算法對其進行壓縮編碼，輸出壓縮編碼后的比特，其比特數(shù)NUM也是在一個有限集中，NUM＝NUM1，NUM2，......，NUMM；(4)對語音壓縮編碼后輸出的NUM個比特利用TCP或UDP協(xié)議加上包頭，比特數(shù)變?yōu)镹UM_P；(5)IP打包模塊對NUM_P個比特再打包加上路由信息，得到NUM_IP個比特。
上述IP打包后的NUM_IP個比特通過信道，傳送到接收方。
譯碼的基本操作流程如下(1)接收方進行IP解包；(2)TCP或UDP解包；
(3)在正常情況下，語音譯碼模塊正常譯碼；在處錯條件下，進行單幀預測譯碼；(4)輸出恢復的語音數(shù)據(jù)。
本發(fā)明可以應用于目前Internet上公用網(wǎng)或?qū)Ｓ镁W(wǎng)IP語音傳送，也可用于未來移動通信中基于IP的核心網(wǎng)語音傳送。參考圖3。其中IP網(wǎng)關采用本發(fā)明提出的編譯碼，在Internet傳送IP包出現(xiàn)丟包、傳輸比特出錯等情況下，譯碼器能夠根據(jù)本發(fā)明內(nèi)容糾正譯碼質(zhì)量，由于是變幀長傳輸，糾正的語音譯碼質(zhì)量能夠更好。對于IP網(wǎng)關，本例給出了一個結(jié)合變幀長、變速率語音編碼方法的實例，參考圖4，編碼速率為2Kbitps，4Kbitps，8Kbitps，其基本操作流程如下編碼(1)信源輸入為采樣量化的語音數(shù)據(jù)，采樣率8000Hz，數(shù)據(jù)是根據(jù)采樣率順序輸入的；T1＝5，T2＝10，T3＝15，T4＝20，T5＝25，T6＝30ms；(2)語音性質(zhì)確定模塊根據(jù)每30ms輸入的數(shù)據(jù)確定輸入語音的性質(zhì)參數(shù)，計算方法如下，計算每5ms的分段基音周期，分別計算10ms，15ms，20ms，25ms，30ms的基音周期方差D10，D15，D20，D25，D30；(3)根據(jù)語音的性質(zhì)參數(shù)，即語音的變化頻度確定輸入語音后續(xù)處理的最佳幀長T當{D30<Threshold則T＝30；D25<Threshold則T＝25；
D20<Threshold則T＝20；D15<Threshold則T＝15；D10<Threshold則T＝10；否則T＝5}其中Threshold是基音周期的一個方差的比較，其值的確定應考慮在編碼效率和質(zhì)量之間作一個較好的權衡。
(4)對最佳幀長T的語音，采用內(nèi)部變速率算法壓縮編碼，壓縮編碼后的比特數(shù)為NUM，NUM＝T*2，T*4，T*8，為三個檔次；(5)對語音壓縮編碼后輸出的NUM個比特利用TCP協(xié)議加上包頭，比特數(shù)變?yōu)镹UM_P；(6)IP打包模塊對NUM_P個比特再打包加上路由信息，得到NUM_IP個比特。該NUM_IP個比特通過信道，傳送到接收方。譯碼(1)接收方進行IP解包；(2)TCP解包；(3)在正常情況下，語音譯碼模塊正常譯碼；在處錯條件下，進行單幀預測譯碼；(4)·輸出恢復的語音數(shù)據(jù)。
權利要求
1.一種基于網(wǎng)絡協(xié)議的低速語音編碼方法，其特征在于，該方法包括以下步驟(1)信源根據(jù)語音數(shù)據(jù)采樣頻率，順序輸入量化的語音數(shù)據(jù)；(2)根據(jù)TN時間內(nèi)輸入的語音數(shù)據(jù)確定語音的性質(zhì)參數(shù)；(3)根據(jù)上述步驟(2)得到的語音性質(zhì)參數(shù)，確定語音后繼處理的最佳幀長T；(4)對最佳幀長T的語音數(shù)據(jù)進行壓縮編碼；(5)對語音數(shù)據(jù)壓縮編碼后的數(shù)據(jù)比特，在利用TCP或UDP協(xié)議打包和IP協(xié)議打包后，通過信道輸出。
2.根據(jù)權利要求1所述的基于網(wǎng)絡協(xié)議的低速語音編碼方法，其特征在于所述TN時間為滿足TN≥5ms且TN≤30ms的任一時間。
3.根據(jù)權利要求1所述的基于網(wǎng)絡協(xié)議的低速語音編碼方法，其特征在于，所述根據(jù)語音性質(zhì)參數(shù)確定語音后繼處理的最佳幀長T是按照下述方法確定的若語音的變化頻度快，則幀長短，反之幀長長。
4.根據(jù)權利要求1所述的基于網(wǎng)絡協(xié)議的低速語音編碼方法，其特征在于所述對最佳幀長T的語音數(shù)據(jù)進行壓縮編碼是采用內(nèi)部變速率算法進行的。
全文摘要
本發(fā)明提供了一種基于網(wǎng)絡協(xié)議的低速語音編碼方法,由于本方法采用單幀、變幀長、幀內(nèi)比特自適應的低速語音壓縮編碼方法,可使編碼壓縮的能力進一步提高,進而提高了數(shù)據(jù)傳輸效率。同時由于IP的數(shù)據(jù)報分割以該語音編碼幀的分割為單位,對信源語音編譯碼的質(zhì)量會有較大的提高。采用非正式聽音表明,使用本方法的數(shù)據(jù)編碼壓縮能力或在同等誤碼率上,以及在對語音譯碼能力方面,MOS分值提高0.1～0.2。
文檔編號G10L19/18GK1338834SQ0012611
公開日2002年3月6日申請日期2000年8月19日優(yōu)先權日2000年8月19日
發(fā)明者潘勝昔, 李英濤申請人:華為技術有限公司

完整全部詳細技術資料下載