語音數(shù)據(jù)的編碼方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信技術(shù),尤其是一種語音數(shù)據(jù)的編碼方法和系統(tǒng)。
【背景技術(shù)】
[0002] 隨著語音編碼技術(shù)的不斷發(fā)展,語音編碼方式逐漸豐富,從G. 711編碼到最新提 出的Opus編碼,在語音編碼效率提升的同時(shí),計(jì)算復(fù)雜度也迅速增大,軟硬件實(shí)現(xiàn)難度也 更高。通信終端,特別是嵌入式移動終端,受到計(jì)算、存儲、功耗、體積、成本等因素限制,在 引入復(fù)雜度較高的語音編碼方式存在諸多限制。
[0003] 在現(xiàn)有的各種語音編碼方式中,基于G. 729協(xié)議的語音編碼方式,對輸入語音性 質(zhì)的模擬信號用8kHz、采樣,16比特線性脈沖編碼調(diào)制(PCM)量化。G. 729協(xié)議使用的算法 是共軛結(jié)構(gòu)的算術(shù)碼本激勵線性預(yù)測(CS-ACELP),它基于碼本激勵線性預(yù)測(CELP)編碼 模型。由于采用G. 729協(xié)議的編碼器(本發(fā)明中簡稱為:G. 729編解碼器)具有很高的語 音質(zhì)量和很低的延時(shí),目前已被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域,例如,互聯(lián)網(wǎng)協(xié)議電話 (VoIP)和基于H. 323多媒體通信標(biāo)準(zhǔn)的網(wǎng)上多媒體通信系統(tǒng)等。
[0004] G. 729編解碼過程的一個(gè)重要步驟是使用編碼參數(shù)--矢量量化碼本,對語音數(shù) 據(jù)進(jìn)行兩級矢量量化編碼。其中的矢量量化碼本由兩級容量不同的碼本構(gòu)成:第一級是10 維碼本(用7比特進(jìn)行整體矢量量化),記為L1,如后續(xù)表1所示;第二級是將10維碼本分 裂為兩個(gè)5維的碼本(分別用5比特進(jìn)行矢量量化),分別記為L2、L3,如后續(xù)表2所示。
[0005] 在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn),現(xiàn)有G.729編解碼方式至少存在以下問題:
[0006] 現(xiàn)有的G. 729編碼器中,采用的矢量量化碼本LI、L2、L3都是固定的,基于不同語 言和不同用戶訓(xùn)練得到,如后續(xù)表1、表2所示。因此,所有通信終端中G. 729編解碼器采 用的編碼參數(shù)均相同且確定,即:所有G. 729編解碼器對不同語言、不同用戶的語音數(shù)據(jù)進(jìn) 行編碼時(shí),使用的矢量量化碼本均相同。由于不同語言、不同用戶的語音特征存在個(gè)性化差 異,對所有語言、用戶的語音數(shù)據(jù)進(jìn)行采用同樣的編碼參數(shù)進(jìn)行編碼,無法保證編碼效率和 語音質(zhì)量,用戶體驗(yàn)較差。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明實(shí)施例所要解決的一個(gè)技術(shù)問題是:提供一種語音數(shù)據(jù)的編碼方法和系 統(tǒng),以提高語音編碼的編碼效率和語音質(zhì)量。
[0008] 本發(fā)明實(shí)施例提供的一種語音數(shù)據(jù)的編碼方法,包括:
[0009] 通信終端在與對端通信終端進(jìn)行語音通話的過程中,提取所述通信終端采集的語 音數(shù)據(jù)的語音特征矢量,并發(fā)送給分析服務(wù)器;
[0010] 分析服務(wù)器采用基于距離的聚類算法對所述通信終端最近上傳的N個(gè)語音特征 矢量進(jìn)行計(jì)算,獲得新的編解碼參數(shù);其中,N為預(yù)設(shè)正整數(shù);
[0011] 分析服務(wù)器將所述新的編解碼參數(shù)作為編碼參數(shù)發(fā)送給所述通信終端,將所述新 的編解碼參數(shù)作為解碼參數(shù)發(fā)送給所述對端通信終端;
[0012] 所述通信終端將該通信終端中編碼器的編碼參數(shù)更新為所述新的編解碼參數(shù),所 述對端通信終端將該對端通信終端中解碼器的解碼參數(shù)更新為所述新的編解碼參數(shù);
[0013] 所述通信終端中編碼器利用更新后的編碼參數(shù)對所述通信終端采集的語音數(shù)據(jù) 進(jìn)行編碼,并通過通信網(wǎng)絡(luò)向所述對端通信終端傳輸編碼得到的語音碼流數(shù)據(jù);
[0014] 所述對端通信終端中解碼器利用更新后的解碼參數(shù)對所述通信終端傳輸?shù)牟杉?的語音碼流數(shù)據(jù)進(jìn)行解碼。
[0015] 本發(fā)明實(shí)施例提供的一種語音數(shù)據(jù)的編碼系統(tǒng),包括進(jìn)行語音通話的通信終端 和對端通信終端,通信終端和對端通信終端中均設(shè)置有編碼器和解碼器,還包括分析服務(wù) 器;
[0016] 所述通信終端,用于在與對端通信終端進(jìn)行語音通話的過程中,提取所述通信終 端采集的語音數(shù)據(jù)的語音特征矢量,并發(fā)送給分析服務(wù)器;以及將該通信終端中編碼器的 編碼參數(shù)更新為所述分析服務(wù)器發(fā)送的新的編解碼參數(shù);以及通過編碼器利用更新后的編 碼參數(shù)對所述通信終端采集的語音數(shù)據(jù)進(jìn)行編碼,并通過通信網(wǎng)絡(luò)向所述對端通信終端傳 輸編碼得到的語音碼流數(shù)據(jù);
[0017] 所述分析服務(wù)器,用于采用基于距離的聚類算法對所述通信終端最近上傳的N個(gè) 語音特征矢量進(jìn)行計(jì)算,獲得新的編解碼參數(shù);其中,N為預(yù)設(shè)正整數(shù);將所述新的編解碼 參數(shù)作為編碼參數(shù)發(fā)送給所述通信終端,將所述新的編解碼參數(shù)作為解碼參數(shù)發(fā)送給所述 對端通信終端;
[0018] 所述對端通信終端,用于將該對端通信終端中解碼器的解碼參數(shù)更新為所述新的 編解碼參數(shù);以及通過解碼器利用更新后的解碼參數(shù)對所述通信終端傳輸?shù)牟杉恼Z音碼 流數(shù)據(jù)進(jìn)行解碼。
[0019] 基于本發(fā)明上述實(shí)施例提供的語音數(shù)據(jù)的編碼方法和系統(tǒng),通信終端在與對端通 信終端進(jìn)行語音通話的過程中,提取其自身采集的語音數(shù)據(jù)的語音特征矢量并發(fā)送給分析 服務(wù)器,由分析服務(wù)器采用基于距離的聚類算法對其進(jìn)行計(jì)算,獲得新的編解碼參數(shù),將其 作為編碼參數(shù)發(fā)送給通信終端、作為解碼參數(shù)發(fā)送給對端通信終端;通信終端將該通信終 端中編碼器的編碼參數(shù)更新為新的編解碼參數(shù),對端通信終端將該對端通信終端中解碼器 的解碼參數(shù)更新為新的編解碼參數(shù)。這樣,通信終端中編碼器在隨后便可以利用更新后的 編碼參數(shù)對通信終端采集的語音數(shù)據(jù)進(jìn)行編碼,并通過通信網(wǎng)絡(luò)向?qū)Χ送ㄐ沤K端傳輸編碼 得到的語音碼流數(shù)據(jù),由對端通信終端中解碼器利用更新后的解碼參數(shù)對通信終端傳輸?shù)?采集的語音碼流數(shù)據(jù)進(jìn)行解碼。與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下有益技術(shù)效果:
[0020] 基于通信終端當(dāng)前采集的語音數(shù)據(jù)的語音特征矢量來計(jì)算匹配的個(gè)性化的編碼 參數(shù),使得編碼參數(shù)更符合當(dāng)前用戶、當(dāng)前使用語言個(gè)性化的語音特征,例如,特定說話用 戶的發(fā)聲模型,利用該個(gè)性化的編碼參數(shù)替代編碼器中的原編碼參數(shù),實(shí)現(xiàn)了編碼參數(shù)的 優(yōu)化,利用優(yōu)化的編碼參數(shù)對語音數(shù)據(jù)進(jìn)行編碼,可以減少矢量量化造成的誤差,從而提高 編碼效率和語音質(zhì)量,可以提高用戶體驗(yàn);
[0021] 本發(fā)明實(shí)施例由網(wǎng)絡(luò)側(cè)的分析服務(wù)器來計(jì)算匹配的個(gè)性化的編碼參數(shù),不會增加 終端側(cè)編碼器的實(shí)現(xiàn)復(fù)雜度,不會增加編碼器和解碼器的存儲量和計(jì)算量,且并不需要修 改語音編碼算法本身,不需要對通信終端的編解碼器進(jìn)行改造;
[0022] 由于通信終端上傳給服務(wù)器的只是語音特征矢量,而非語音數(shù)據(jù)本身,因此不會 出現(xiàn)用戶私隱泄露的問題。
[0023] 下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
【附圖說明】
[0024] 構(gòu)成說明書的一部分的附圖描述了本發(fā)明的實(shí)施例,并且連同描述一起用于解釋 本發(fā)明的原理。
[0025] 參照附圖,根據(jù)下面的詳細(xì)描述,可以更加清楚地理解本發(fā)明,其中:
[0026] 圖1為本發(fā)明語音數(shù)據(jù)的編碼方法一個(gè)實(shí)施例的流程圖。
[0027] 圖2為本發(fā)明語音數(shù)據(jù)的編碼方法另一個(gè)實(shí)施例的流程圖。
[0028] 圖3為本發(fā)明語音通信系統(tǒng)的一個(gè)示例性架構(gòu)圖。
[0029] 圖4為本發(fā)明語音數(shù)據(jù)的編碼系統(tǒng)一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030] 現(xiàn)在將參照附圖來詳細(xì)描述本發(fā)明的各種示例性實(shí)施例。應(yīng)注意到:除非另外具 體說明,否則在這些實(shí)施例中闡述的部件和步驟的相對布置、數(shù)字表達(dá)式和數(shù)值不限制本 發(fā)明的范圍。
[0031] 同時(shí),應(yīng)當(dāng)明白,為了便于描述,附圖中所示出的各個(gè)部分的尺寸并不是按照實(shí)際 的比例關(guān)系繪制的。
[0032] 以下對至少一個(gè)示例性實(shí)施例的描述實(shí)際上僅僅是說明性的,決不作為對本發(fā)明 及其應(yīng)用或使用的任何限制。
[0033] 對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適 當(dāng)情況下,所述技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為說明書的一部分。
[0034] 在這里示出和討論的所有示例中,任何具體值應(yīng)被解釋為僅僅是示例性的,而不 是作為限制。因此,示例性實(shí)施例的其它示例可以具有不同的值。
[0035] 應(yīng)注意到:相似的標(biāo)號和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一 個(gè)附圖中被定義,則在隨后的附圖中不需要對其進(jìn)行進(jìn)一步討論。
[0036] 圖1為本發(fā)明語音數(shù)據(jù)的編碼方法一個(gè)實(shí)施例的流程圖。如圖1所示,該實(shí)施例 語音數(shù)據(jù)的編碼方法包括:
[0037] 110,通信終端在與對端通信終端進(jìn)行語音通話的過程中,提取該通信終端自身采 集的語音數(shù)據(jù)的語音特征矢量,并發(fā)送給分析服務(wù)器。
[0038] 120,分析服務(wù)器采用基于距離的聚類算法,對通信終端最近上傳的N個(gè)語音特征 矢量進(jìn)行計(jì)算,獲得新的編解碼參數(shù)。
[0039] 其中,N為預(yù)設(shè)正整數(shù)。
[0040] 130,分析服務(wù)器將新的編解碼參數(shù)作為編碼參數(shù)發(fā)送給通信終端,并將該新的編 解碼參數(shù)作為解碼參數(shù)發(fā)送給對端通信終端。
[0041] 140,通信終端將該通信終端中編碼器的編碼參數(shù)更新為新的編解碼參數(shù),實(shí)現(xiàn)編 碼參數(shù)的優(yōu)化;對端通信終端將該對端通信終端中解碼器的解碼參數(shù)更新為新的編解碼參 數(shù)。
[0042] 150,通信終端中編碼器利用更新后的編碼參數(shù)對該通信終端采集的語音數(shù)據(jù)進(jìn) 行編碼,并通過通信網(wǎng)絡(luò)向?qū)Χ送ㄐ沤K端傳輸編碼得到的語音碼流數(shù)據(jù)。
[0043]160,對端通信終端中解碼器利用更新后的解碼參數(shù)對通信終端傳輸?shù)牟杉恼Z 音碼流數(shù)據(jù)進(jìn)行解碼。
[0044]基于本發(fā)明上述實(shí)施例提供的語音數(shù)據(jù)的編碼方法,通信終端在與對端通信終端 進(jìn)行語音通話的過程中,提取其自身采集的語音數(shù)據(jù)的