語音特征矢量并發(fā)送給分析服務(wù) 器,由分析服務(wù)器采用基于距離的聚類算法對(duì)其進(jìn)行計(jì)算,獲得新的編解碼參數(shù),將其作為 編碼參數(shù)發(fā)送給通信終端、作為解碼參數(shù)發(fā)送給對(duì)端通信終端;通信終端將該通信終端中 編碼器的編碼參數(shù)更新為新的編解碼參數(shù),對(duì)端通信終端將該對(duì)端通信終端中解碼器的解 碼參數(shù)更新為新的編解碼參數(shù)。這樣,通信終端中編碼器在隨后便可以利用更新后的編碼 參數(shù)對(duì)通信終端采集的語音數(shù)據(jù)進(jìn)行編碼,并通過通信網(wǎng)絡(luò)向?qū)Χ送ㄐ沤K端傳輸編碼得到 的語音碼流數(shù)據(jù),由對(duì)端通信終端中解碼器利用更新后的解碼參數(shù)對(duì)通信終端傳輸?shù)牟杉?的語音碼流數(shù)據(jù)進(jìn)行解碼。與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例基于通信終端當(dāng)前采集的語音 數(shù)據(jù)的語音特征矢量來計(jì)算匹配的個(gè)性化的編碼參數(shù),使得編碼參數(shù)更符合當(dāng)前用戶、當(dāng) 前使用語言個(gè)性化的語音特征,例如,特定說話用戶的發(fā)聲模型,利用該個(gè)性化的編碼參數(shù) 替代編碼器中的原編碼參數(shù),實(shí)現(xiàn)了編碼參數(shù)的優(yōu)化,利用優(yōu)化的編碼參數(shù)對(duì)語音數(shù)據(jù)進(jìn) 行編碼,可以減少矢量量化造成的誤差,從而提高編碼效率和語音質(zhì)量,可以提高用戶體 驗(yàn);并且由網(wǎng)絡(luò)側(cè)的分析服務(wù)器來計(jì)算匹配的個(gè)性化的編碼參數(shù),不會(huì)增加終端側(cè)編碼器 的實(shí)現(xiàn)復(fù)雜度,不會(huì)增加編碼器和解碼器的存儲(chǔ)量和計(jì)算量,且并不需要修改語音編碼算 法本身,不需要對(duì)通信終端的編解碼器進(jìn)行改造。
[0045]其中,圖1所示的實(shí)施例中,通信終端包括建立語音通話的兩個(gè)通信終端中的一 個(gè)或另一個(gè),即:建立語音通話的兩個(gè)通信終端中的每一個(gè)都作為圖1所示實(shí)施例中的通 信終端,執(zhí)行圖1所示實(shí)施例的流程,從而實(shí)現(xiàn)對(duì)雙方通信終端中編、解碼參數(shù)的優(yōu)化,使 得每一個(gè)通信終端都采用符合自身語音特征的編碼參數(shù)進(jìn)行編碼,同時(shí)采用符合對(duì)端語音 特征的解碼參數(shù)進(jìn)行解碼。
[0046]圖2為本發(fā)明語音數(shù)據(jù)的編碼方法一個(gè)實(shí)施例的流程圖。該實(shí)施例以雙方通信終 端通過執(zhí)行會(huì)話發(fā)起協(xié)議(SIP)的呼叫過程建立語音通話為例進(jìn)行說明,其語音通信系統(tǒng) 的一個(gè)示例性架構(gòu)如圖3所示。如圖2所示,該實(shí)施例語音數(shù)據(jù)的編碼方法包括:
[0047]210,通信終端在與對(duì)端通信終端進(jìn)行語音通話的過程中,通過麥克風(fēng)采集語音數(shù) 據(jù),并采用編碼器中的原始編碼參數(shù)對(duì)采集的語音數(shù)據(jù)進(jìn)行編碼,通過IP網(wǎng)絡(luò)向?qū)Χ送ㄐ?終端傳輸語音碼流數(shù)據(jù)。
[0048]220,通信終端從采集的語音數(shù)據(jù)中,每隔第一預(yù)設(shè)時(shí)間tl提取一組語音特征矢 量發(fā)送給分析服務(wù)器,同時(shí)向分析服務(wù)器發(fā)送該通信終端用戶和對(duì)端通信終端用戶的個(gè)人 帳號(hào)信息。
[0049]230,分析服務(wù)器將通信終端發(fā)送的語音特征矢量存儲(chǔ)在通信終端用戶的數(shù)據(jù)庫 表中。
[0050]其中,分析服務(wù)器可以基于每個(gè)用戶的個(gè)人帳號(hào),在其數(shù)據(jù)庫中為每個(gè)用戶建立 一個(gè)數(shù)據(jù)庫表,個(gè)人帳號(hào)可以是用戶的通信帳號(hào)(例如SIP地址)或者電話號(hào)碼等。
[0051]240,分析服務(wù)器每隔第二預(yù)設(shè)時(shí)間t2,采用基于距離的聚類算法,對(duì)通信終端用 戶的數(shù)據(jù)庫表中在最近一個(gè)t2存儲(chǔ)的N個(gè)語音特征矢量進(jìn)行計(jì)算,獲得新的編解碼參數(shù)。
[0052] 其中,N為預(yù)設(shè)正整數(shù)。t2的取值可以大于tl,避免頻繁更新編解碼參數(shù)占用較 多的網(wǎng)絡(luò)帶寬,從而影響用于語音通話的帶寬。
[0053] 分析服務(wù)器獲得新的編解碼參數(shù)后,可以刪除部分或全部通信終端用戶的數(shù)據(jù)庫 表中的語音特征矢量,以釋放存儲(chǔ)空間。
[0054] 250,分析服務(wù)器根據(jù)通信終端用戶和對(duì)端通信終端用戶的個(gè)人帳號(hào)信息,將新的 編解碼參數(shù)作為編碼參數(shù)發(fā)送給通信終端,并將該新的編解碼參數(shù)作為解碼參數(shù)發(fā)送給對(duì) 端通信終端。
[0055] 260,通信終端將該通信終端中編碼器的編碼參數(shù)更新為新的編解碼參數(shù)(即:將 該通信終端中編碼器的編碼參數(shù)替換為新的編解碼參數(shù)),對(duì)端通信終端將該對(duì)端通信終 端中解碼器的解碼參數(shù)更新為新的編解碼參數(shù)(即:將該對(duì)端通信終端中解碼器的解碼參 數(shù)替換為新的編解碼參數(shù)),從而實(shí)現(xiàn)對(duì)雙方通信終端中編解碼參數(shù)的優(yōu)化。
[0056] 270,通信終端中編碼器利用更新后的編碼參數(shù)對(duì)該通信終端采集的語音數(shù)據(jù)進(jìn) 行編碼,并通過通信網(wǎng)絡(luò)向?qū)Χ送ㄐ沤K端傳輸編碼得到的語音碼流數(shù)據(jù)。
[0057] 280,對(duì)端通信終端中解碼器利用更新后的解碼參數(shù)對(duì)通信終端傳輸?shù)牟杉恼Z 音碼流數(shù)據(jù)進(jìn)行解碼,獲得語音數(shù)據(jù)并播放。
[0058]同樣,對(duì)端通信終端作為圖2所示實(shí)施例中的通信終端,執(zhí)行圖2所示實(shí)施例的流 程,實(shí)現(xiàn)對(duì)對(duì)端通信終端中編碼參數(shù)和通信終端中解碼參數(shù)的優(yōu)化。
[0059] 作為一個(gè)具體示例,在本發(fā)明上述各語音數(shù)據(jù)的編碼方法實(shí)施例中,編碼器具體 為G. 729編碼器,解碼器具體為G. 729解碼器,新的編解碼參數(shù)、編碼參數(shù)與解碼參數(shù)具體 包括矢量量化碼本LI、L2、L3。相應(yīng)地,該示例中,通信終端每隔第一預(yù)設(shè)時(shí)間tl提取一 組語音特征矢量具體為:每隔第一預(yù)設(shè)時(shí)間tl提取一組10維的切換滑動(dòng)平均(Swiched MovingAveragePrediction,ΜΑ)預(yù)測(cè)殘差矢量作為語音特征矢量。
[0060]G. 729編碼器采用一種按幀編碼的策略,每次采集讀入一幀(80個(gè)語音樣本點(diǎn)) 語音數(shù)據(jù),編碼得到80比特壓縮后的數(shù)據(jù)(即:語音碼流數(shù)據(jù)),而G. 729解碼器的作用則 是將上述80比特壓縮后的數(shù)據(jù)解碼還原為80個(gè)語音樣本點(diǎn)。G. 729編碼器采集一幀語音 數(shù)據(jù)后進(jìn)行加窗,并對(duì)對(duì)加窗后的語音幀采用Levison-Durbin算法進(jìn)行計(jì)算得到一組線 性預(yù)測(cè)系數(shù),并轉(zhuǎn)換為等價(jià)的線譜對(duì)(LinearSpectrumPairs,LSP)系數(shù)表示。使用矢量 量化碼本LI、L2、L3對(duì)本語音幀LSP系數(shù)進(jìn)行編碼時(shí),首先使用在其之前4幀的LSP系數(shù) 對(duì)本語音幀的LSP系數(shù)進(jìn)行MA預(yù)測(cè)(以下簡稱:MA預(yù)測(cè)),然后使用矢量量化碼本L1、L2、 L3對(duì)經(jīng)ΜΑ預(yù)測(cè)獲得的ΜΑ預(yù)測(cè)殘差矢量進(jìn)行兩級(jí)矢量量化編碼。其中使用的矢量量化碼 本是由兩級(jí)容量不同的碼本構(gòu)成。第一級(jí)是10維碼本(用7比特進(jìn)行整體矢量量化),記 為L1 ;第二級(jí)是將10維碼本分裂為兩個(gè)5維的碼本(分別用5比特進(jìn)行矢量量化),分別 記為L2、L3。對(duì)于現(xiàn)行G. 729標(biāo)準(zhǔn)而言,L1、L2、L3的碼本矢量都是固定的,如后續(xù)表1、表 2中所示。
[0061] 作為另一個(gè)具體示例,在本發(fā)明上述各語音數(shù)據(jù)的編碼方法實(shí)施例中,基于距離 的聚類算法具體為硬聚類(K-Means)算法。在實(shí)際應(yīng)用中,G. 729編碼器采用定點(diǎn)運(yùn)算 (fixed-pointarithmetic)實(shí)現(xiàn),而K-Means算法得到的矢量量化碼本通常帶有小數(shù),貝IJ在 操作240中,分析服務(wù)器具體采用K-Means算法,對(duì)通信終端最近上傳的N個(gè)MA預(yù)測(cè)殘差 矢量進(jìn)行計(jì)算,得到精確編解碼參數(shù);并對(duì)計(jì)算得到的精確編解碼參數(shù)進(jìn)行四舍五入取整, 得到矢量量化碼本LI、L2、L3。
[0062] 若通信終端最近上傳的N個(gè)語音特征矢量以集合形式表示為{xj,i= 1,. . .,N。 則在本發(fā)明上述各語音數(shù)據(jù)的編碼方法實(shí)施例的又一個(gè)具體示例中,采用K-Means算法, 對(duì)通信終端最近上傳的N個(gè)語音特征矢量進(jìn)行計(jì)算具體包括:
[0063] 從對(duì)N個(gè)語音特征矢量中,隨機(jī)選擇K個(gè)MA預(yù)測(cè)殘差矢量作為中心矢量,表示為 {vk},k= 1,. . .,K,K為矢量量化碼本的數(shù)量,K小于或等于N;
[0064] 分別針對(duì)每一個(gè)語音特征矢量Xp通過公式diik = | |xi_vk| |計(jì)算其到K個(gè)中心 矢量距離,此處的距離采用歐氏距離dlik度量,并選擇一個(gè)與其距離最小的中心矢量作為該 語音特征矢量Xi對(duì)應(yīng)中心矢量,所有對(duì)應(yīng)中心矢量Vk的語音特征矢量的集合為,i= 1,···,Ρ|^,
[0065] 計(jì)算所有對(duì)應(yīng)中心矢量^的語音特征矢量的算數(shù)平均值作為新的中心矢量v'k :
;其中,pk表示集合丨中元素的個(gè)數(shù); )i
[0066] 以ν'k替換vk,并返回開始執(zhí)行分別針對(duì)每一個(gè)語音特征矢量Xl,計(jì)算其到K個(gè)中 心矢量的歐氏距離的操作,直到滿足條件||八-^||〈8,輸出{八},其中,£為預(yù)設(shè)閾值;
[0067] 通過如下公式計(jì)算以{ν'k}作為矢量量化碼本對(duì){Xl}進(jìn)行矢量量化的均方誤差 (MSE)
,并記錄Iv'k}及其MSE值;
[0068] 重復(fù)執(zhí)行從"從對(duì)N個(gè)語音特征矢量中,隨機(jī)選擇K個(gè)MA預(yù)測(cè)殘差矢量作為中心 矢量"至"記錄{ν'k}及其MSE值"的操作至Q次,得到Q個(gè)MSE值,以該Q個(gè)MSE值中值最 小的MSE值對(duì)應(yīng)的{ν'k}作為精確編解碼參數(shù)的矢量量化碼本L輸出,其中,Q為預(yù)設(shè)正整 數(shù)。
[0069] 進(jìn)一步示例性地,采用K-Means算法計(jì)算獲取精確編解碼參數(shù)中的矢量量化碼本 L1時(shí),可以設(shè)置上述又一個(gè)具體示例中的K= 128,通過上述又一個(gè)具體示例的流程,計(jì)算 獲得的矢量量化碼本L即為矢量量化碼本L1。
[0070] 進(jìn)一步示例性地,采用K-Means算法對(duì)通信終端最近上傳的N個(gè)語音特征矢量進(jìn) 行計(jì)算,得到精確編解碼參數(shù)中的矢量量化碼本L2時(shí),具體可以通過如下方式實(shí)現(xiàn):
[0071] 計(jì)算采用矢量量化碼本L1對(duì){Xl}進(jìn)行矢量量化的誤差:yi =Xl_VQ(Xl,L1);其 中矢量量化碼本L1為上述采用K-Means算法計(jì)算獲得的精確編解碼參數(shù)中的矢量量化 碼本LI;VQ(Xl,L1)表示采用矢量量化表L1對(duì)矢量Xl進(jìn)行矢量量化,S卩:從碼本L1中找 到一個(gè)碼本矢量如使得其與\的歐式距離最小,S卩:| |Xl-ak| |彡||Χι-α]| |,k弇j, je[1,2,···,128];
[0072] 分別提取每個(gè)矢量量化的誤差yi的前5維v;
[0073] 以}代替IviJ作為K