两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

語音信號傳輸方法及系統(tǒng)的制作方法

文檔序號:2826151閱讀:517來源:國知局
語音信號傳輸方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語音信號傳輸方法及系統(tǒng),該方法包括:確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容;根據(jù)所述文本內(nèi)容及所述連續(xù)語音信號確定各合成單元的語音合成參數(shù)模型;拼接各合成單元的語音合成參數(shù)模型得到語音合成參數(shù)模型序列;確定所述語音合成參數(shù)模型序列對應(yīng)的序號串;將所述序號串發(fā)送給接收端,以使所述接收端根據(jù)所述序號串恢復(fù)所述連續(xù)語音信號。利用本發(fā)明,可以在保證語音恢復(fù)音質(zhì)損失最小化的前提下實現(xiàn)極低碼流率的信號傳輸。
【專利說明】語音信號傳輸方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信號傳輸【技術(shù)領(lǐng)域】,具體涉及一種語音信號傳輸方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的普及和便攜式設(shè)備的推廣,各種基于手持設(shè)備的聊天軟件應(yīng)運而生。語音交互的自然人性化是其他交互手段無法超越的,特別是在不利于手寫按鍵輸入的手持小屏設(shè)備應(yīng)用上。對此很多產(chǎn)品都支持語音交互功能,將某終端接收到的語音信號傳輸至目的端,如騰訊推出的微訊產(chǎn)品即支持VoiceMessage的語音消息傳輸功能。然而直接傳輸?shù)恼Z音信號數(shù)據(jù)量往往極大,在互聯(lián)網(wǎng)或通訊網(wǎng)等按流量收費的信道中給用戶帶來了較大的經(jīng)濟負擔(dān)。顯然如何在不影響語音質(zhì)量的前提下盡可能壓縮傳送的數(shù)據(jù)量是提高語音信號傳輸應(yīng)用價值的前提條件。
[0003]針對語音信號傳輸?shù)膯栴},研究人員嘗試了多種語音編碼方法,對語音信號進行數(shù)字量化和壓縮傳輸,在提高語音信號的恢復(fù)話質(zhì)條件下降低編碼碼率并提升傳輸效率。目前常用的語音信號壓縮方法有波形編碼和參數(shù)編碼等。其中:
[0004]波形編碼是將時域的模擬信號波形經(jīng)過取樣、量化、編碼,形成數(shù)字信號,這種編碼方式具有適應(yīng)能力強、話音質(zhì)量高的優(yōu)點。但由于需要保持恢復(fù)原有語音信號的波形形狀,這種方案碼流率要求較高,在高于16kb/s才能取得較好的音質(zhì)。
[0005]參數(shù)編碼即從原始語音信號中提取表征語音發(fā)音特征的參量,并對該特征參量進行編碼。這種方案的目標在于保持原始語音的語意,保證可懂度。其優(yōu)點在于碼流率較低,但恢復(fù)音質(zhì)受損較多。
[0006]在傳統(tǒng)的語音通信時代,往往采用時間計費方式,編碼方法主要考量算法延時和通信質(zhì)量;而在移動互聯(lián)時代,語音作為數(shù)據(jù)信號的一種,通常使用流量來收取費用,編碼語音碼流率的高低將直接影響用戶使用的花費。此外,傳統(tǒng)電話信道語音只使用8k采樣率,屬于窄帶語音,音質(zhì)受損且存在上限。顯然如果繼續(xù)使用傳統(tǒng)編碼方式處理寬帶或超寬帶語音,需要增加碼流率,成倍提升流量消耗。

【發(fā)明內(nèi)容】

[0007]本發(fā)明實施例提供一種語音信號傳輸方法及系統(tǒng),在保證語音恢復(fù)音質(zhì)損失最小化的前提下實現(xiàn)極低碼流率的信號傳輸。
[0008]本發(fā)明實施例提供一種語音信號傳輸方法,包括:
[0009]確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容;
[0010]根據(jù)所述文本內(nèi)容及所述連續(xù)語音信號確定各合成單元的語音合成參數(shù)模型;
[0011]拼接各合成單元的語音合成參數(shù)模型得到語音合成參數(shù)模型序列;
[0012]確定所述語音合成參數(shù)模型序列對應(yīng)的序號串;
[0013]將所述序號串發(fā)送給接收端,以使所述接收端根據(jù)所述序號串恢復(fù)所述連續(xù)語音信號。[0014]本發(fā)明實施例還提供一種語音信號傳輸系統(tǒng),包括:
[0015]文本獲取模塊,用于確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容;
[0016]參數(shù)模型確定模塊,用于根據(jù)所述文本內(nèi)容及所述連續(xù)語音信號確定各合成單元的語音合成參數(shù)模型;
[0017]拼接模塊,用于拼接各合成單元的語音合成參數(shù)模型得到語音合成參數(shù)模型序列;
[0018]序號串確定模塊,用于確定所述語音合成參數(shù)模型序列對應(yīng)的序號串;
[0019]發(fā)送模塊,用于將所述序號串發(fā)送給接收端,以使所述接收端根據(jù)所述序號串恢復(fù)所述連續(xù)語音信號。
[0020]本發(fā)明實施例提供的語音信號傳輸方法及系統(tǒng),采用統(tǒng)計分析模型編碼,其處理方式與語音采樣率無關(guān),在保證語音恢復(fù)音質(zhì)損失最小化的前提下極大地降低了傳輸碼流率,減少了流量消耗,解決了傳統(tǒng)語音編碼方法不能兼顧音質(zhì)和流量的問題,改善了移動網(wǎng)絡(luò)時代下用戶通信需求體驗。
【專利附圖】

【附圖說明】
[0021]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0022]圖1是本發(fā)明實施例語音信號傳輸方法的流程圖;
[0023]圖2是本發(fā)明實施例中確定各合成單元的語音合成參數(shù)模型的一種流程圖;
[0024]圖3是本發(fā)明實施例中二叉決策樹的構(gòu)建流程圖;
[0025]圖4是本發(fā)明實施例中一種二叉決策樹的示意圖;
[0026]圖5是本發(fā)明實施例中對初始基頻模型進行聯(lián)合優(yōu)化的流程圖;
[0027]圖6是本發(fā)明實施例語音信號傳輸系統(tǒng)的結(jié)構(gòu)示意圖;
[0028]圖7是本發(fā)明實施例中參數(shù)模型確定模塊的一種結(jié)構(gòu)示意圖;
[0029]圖8是本發(fā)明實施例中語音信號發(fā)送系統(tǒng)中二叉決策樹構(gòu)建模塊的結(jié)構(gòu)示意圖;
[0030]圖9是本發(fā)明實施例中第一優(yōu)化單元的結(jié)構(gòu)示意圖;
[0031]圖10是本發(fā)明實施例中第二優(yōu)化單元的結(jié)構(gòu)示意圖。
【具體實施方式】
[0032]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施方式對本發(fā)明實施例作進一步的詳細說明。
[0033]針對傳統(tǒng)編碼方式處理寬帶或超寬帶語音,需要增加碼流率,流量消耗大的問題,本發(fā)明實施例提供一種語音信號傳輸方法及系統(tǒng),適用于各類語音(如16KHz采樣率的超寬帶語音、SKHz采樣率的窄帶語音等)的編碼,在保證語音恢復(fù)音質(zhì)損失最小化的前提下,實現(xiàn)極低碼流率的信號傳輸。
[0034]如圖1所示,是本發(fā)明實施例語音信號發(fā)送方法的流程圖,包括以下步驟:
[0035]步驟101,確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容。
[0036]具體地,可以通過語音識別算法自動獲取所述文本內(nèi)容,當然也可以通過人工標注的方式來獲取所述文本內(nèi)容。另外,為了進一步保證語音識別得到的文本內(nèi)容的正確性,還可以對語音識別得到的文本內(nèi)容進行人工編輯修正。
[0037]步驟102,根據(jù)所述文本內(nèi)容及所述連續(xù)語音信號確定各合成單元的語音合成參數(shù)模型。
[0038]所述合成單元是預(yù)先設(shè)定的最小合成對象,如音節(jié)單元、音素單元,甚至是音素HMM模型中的狀態(tài)單元等。
[0039]為了盡量減少接收端恢復(fù)音質(zhì)的損失,使接收端能夠通過語音合成方式恢復(fù)連續(xù)語音信號,發(fā)送端從原始語音信號中獲取的語音合成參數(shù)模型應(yīng)盡可能符合原語音信號特點,以減少信號壓縮和恢復(fù)的損失。
[0040]具體地,可以根據(jù)所述文本內(nèi)容對連續(xù)語音信號進行語音片斷切分,得到各合成單元對應(yīng)的語音片斷,進而得到各合成單元對應(yīng)的時長、初始化語音合成參數(shù)模型,然后利用采集的語音信號對初始化語音合成參數(shù)模型進行聯(lián)合優(yōu)化,具體過程將在后面詳細描述。
[0041]步驟103,拼接各合成單元的語音合成參數(shù)模型得到語音合成參數(shù)模型序列。
[0042]步驟104,確定所述語音合成參數(shù)模型序列對應(yīng)的序號串。
[0043]步驟105,將所述序號串發(fā)送給接收端,以使所述接收端根據(jù)所述序號串恢復(fù)所述連續(xù)語音信號。
[0044]相應(yīng)地,接收方接收到發(fā)送方發(fā)送的序號串后,可以根據(jù)所述序號串從碼本中獲取語音合成參數(shù)模型序列。
[0045]由于每個語音合成參數(shù)模型都有一個唯一的序號,而且,在發(fā)送方和接收方都保存有相同的碼本,所述碼本中包含了所有語音合成參數(shù)模型。因此,接收方接收到所述序號串后,根據(jù)所述序號串即可從碼本中獲取對應(yīng)各序號的語音合成參數(shù)模型,拼接這些語音合成參數(shù)模型得到所述語音合成參數(shù)模型序列。然后,根據(jù)所述語音合成參數(shù)模型序列確定語音合成參數(shù)序列,通過語音合成方式恢復(fù)語音信號。
[0046]本發(fā)明實施例語音信號傳輸方法,采用統(tǒng)計分析模型編碼,其處理方式與語音采樣率無關(guān),對16kHz超寬帶語音編碼無需付出額外碼流率代價,其音質(zhì)效果好,編碼流量低。以一段典型的中文語音片段為例,其有效語音段持續(xù)10s,擁有80個聲韻母(音素),以每個音素擁有5個基頻狀態(tài)、5個頻譜狀態(tài)、I個時長狀態(tài)計,每狀態(tài)采用I個字節(jié)編碼(8bit),其碼流率為 m:m=[80* (5+5+1) ] *8bit/10s=704b/s,低于 lkb/s,屬于極低碼率編碼方法,碼流率大大低于當前主流語音通訊領(lǐng)域的各項編碼標準,網(wǎng)絡(luò)通訊的流量將會大大降低。相較當前主流的通信領(lǐng)域語音編碼方法,本發(fā)明方法的語音編碼方式可處理超寬帶語音(16kHz采樣率),音質(zhì)更高;且具有更低的碼流率(lkb/s以下),有效降低網(wǎng)絡(luò)通信流量。
[0047]本發(fā)明實施例語音信號傳輸方法,通過對連續(xù)語音信號對應(yīng)的語音合成參數(shù)模型的提取和信號合成,實現(xiàn)了語音信號的極大壓縮和信號損失的最小化,即有效地減少信號失真。
[0048]如圖2所示,是本發(fā)明實施例中確定各合成單元的語音合成參數(shù)模型的一種流程圖,包括以下步驟:
[0049]步驟201,根據(jù)文本內(nèi)容對連續(xù)語音信號進行語音片斷切分,得到各合成單元對應(yīng)的語音片斷。
[0050]具體地,可以將所述連續(xù)語音信號與預(yù)設(shè)的合成單元對應(yīng)的聲學(xué)模型做強制對齊,即計算語音信號相應(yīng)于所述聲學(xué)模型序列的語音識別解碼,從而獲取各合成單元對應(yīng)的語音片段。
[0051]需要說明的是,所述合成單元可以根據(jù)不同的應(yīng)用需求而選擇不同規(guī)格。一般來說,如果對碼流率要求較高,則選擇較大的語音單元,如音節(jié)單元、音素單元等;反之若對音質(zhì)要求較高,則可以選擇更小的語音單元,如模型的狀態(tài)單元、特征流單元等。
[0052]在采用基于HMM (Hidden Markov Model,隱馬爾可夫模型)的聲學(xué)模型設(shè)置下,還可進一步選取HMM模型的各狀態(tài)作為合成單元,并獲取相應(yīng)的基于狀態(tài)層的語音片斷。隨后對每個狀態(tài)分別從其對應(yīng)的基頻二叉決策樹及頻譜二叉決策樹中確定每個狀態(tài)對應(yīng)的基頻模型和頻譜模型。這樣可以使獲取的語音合成參數(shù)模型能夠更細致地描述語音信號的特點。
[0053]步驟202,依次確定各合成單元對應(yīng)的語音片斷的時長及初始語音合成參數(shù)模型,所述初始語音合成參數(shù)模型包括:初始基頻模型和初始頻譜模型,并得到對應(yīng)所述連續(xù)語音信號的基頻模型序列和頻譜模型序列。
[0054]具體地,首先獲取當前考察的合成單元對應(yīng)的基頻二叉決策樹;對所述合成單元進行文本解析,獲得所述合成單元的上下文信息,比如,音素單元、調(diào)性、詞性、韻律層次等上下文信息;然后,根據(jù)所述上下文信息在所述基頻二叉樹中進行路徑?jīng)Q策,得到對應(yīng)的葉子節(jié)點,將所述葉節(jié)點對應(yīng)的基頻模型作為所述合成單元的基頻模型。
[0055]進行路徑?jīng)Q策的過程如下:
[0056]根據(jù)所述合成單元的上下文信息,從所述基頻二叉決策樹的根節(jié)點開始依次對各節(jié)點分裂問題進行回答;根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑;根據(jù)所述匹配路徑獲得葉子節(jié)點。
[0057]同樣,可以在當前考察的合成單元對應(yīng)的頻譜二叉決策樹中通過詢問獲取葉節(jié)點對應(yīng)的頻譜模型,將葉節(jié)點對應(yīng)的頻譜模型作為當前考察的合成單元的初始頻譜模型。具體地,首先獲取所述合成單元對應(yīng)的頻譜二叉決策樹;對所述合成單元進行文本解析,獲得所述合成單元的上下文信息。然后根據(jù)所述上下文信息,在所述頻譜二叉決策樹中進行路徑?jīng)Q策,得到對應(yīng)的葉子節(jié)點;將所述葉節(jié)點對應(yīng)的頻譜模型作為所述合成單元對應(yīng)的初始頻譜模型。
[0058]進行路徑?jīng)Q策的過程如下:
[0059]根據(jù)所述合成單元的上下文信息,從所述頻譜二叉決策樹的根節(jié)點開始依次對各節(jié)點分裂問題進行答復(fù),并根據(jù)回答結(jié)果獲取一條至上而下的匹配路徑,并決策獲得葉子節(jié)點。
[0060]需要說明的是,對應(yīng)所述連續(xù)語音信號的基頻模型序列即由各合成單元對應(yīng)的初始基頻模型組成的序列,同樣地,對應(yīng)所述連續(xù)語音信號的頻譜模型序列即由各合成單元對應(yīng)的初始頻譜模型組成的序列。
[0061]步驟203,利用所述連續(xù)語音信號及所述基頻模型序列對各合成單元對應(yīng)的初始基頻模型進行聯(lián)合優(yōu)化,得到各合成單元的基頻模型。
[0062]步驟204,利用所述連續(xù)語音信號及所述頻譜模型序列對各合成單元對應(yīng)的初始頻譜模型進行聯(lián)合優(yōu)化,得到各合成單元的頻譜模型。
[0063]在本發(fā)明實施例中,合成單元對應(yīng)的初始語音合成參數(shù)模型的質(zhì)量和二叉決策樹(包括基頻二叉決策樹和頻譜二叉決策樹)的構(gòu)建有著直接的關(guān)系。在本發(fā)明實施例中,采用從下而上的聚類方法構(gòu)建二叉決策樹。
[0064]如圖3所示,是本發(fā)明實施例中二叉決策樹的構(gòu)建流程圖,包括以下步驟:
[0065]步驟301,獲取訓(xùn)練數(shù)據(jù)。
[0066]具體地,可以采集大量的語音訓(xùn)練數(shù)據(jù)并對其進行文本標注,然后根據(jù)標注的文本內(nèi)容進行基本語音單元乃至合成單元(如基本語音單元模型的狀態(tài)單元)的語音片斷切分,獲取各合成單元對應(yīng)的語音片斷集合,并將每個合成單元對應(yīng)的語音片斷集合中的語音片斷作為該合成單元對應(yīng)的訓(xùn)練數(shù)據(jù)。
[0067]步驟302,從所述訓(xùn)練數(shù)據(jù)中提取合成單元對應(yīng)的語音片斷集合的合成參數(shù)。
[0068]所述合成參數(shù)包括:基頻特征和頻譜特征等。
[0069]步驟303,根據(jù)提取的合成參數(shù)對所述合成單元對應(yīng)的二叉決策樹進行初始化,并設(shè)置根節(jié)點作為當前考察節(jié)點。
[0070]對所述二叉決策樹進行初始化即構(gòu)建只有根節(jié)點的二叉決策樹。
[0071]步驟304,判斷當前考察節(jié)點是否需要分裂。如果是,則執(zhí)行步驟305 ;否則執(zhí)行步驟 306。
[0072]挑選預(yù)設(shè)問題集合中的剩余問題對當前考察節(jié)點的數(shù)據(jù)進行分裂嘗試,獲取子節(jié)點。所述剩余問題是指沒有詢問過的問題。
[0073]具體地,可以首先計算當前考察節(jié)點的樣本聚集度,即描述語音片斷集合內(nèi)樣本的分散程度。一般來說,分散程度越大,則說明該節(jié)點分裂的可能性越大,否則分裂的可能性越小。具體可以采用樣本方差來衡量節(jié)點的樣本聚集度,即計算該節(jié)點下所有樣本距離類中心的距離(或平方)的均值。然后計算分裂后子節(jié)點的樣本聚集度,并選擇具有最大樣本聚集度下降幅度的問題作為優(yōu)選問題。
[0074]然后根據(jù)所述優(yōu)選問題進行分裂嘗試,得到子節(jié)點。如果根據(jù)所述優(yōu)選問題分裂的聚集度下降小于設(shè)定的閾值,或者分裂后的子節(jié)點中訓(xùn)練數(shù)據(jù)最低于設(shè)定的門限,則確定當前考察節(jié)點不再繼續(xù)分裂。
[0075]步驟305,對當前考察節(jié)點進行分裂,并獲取分裂后的子節(jié)點及所述子節(jié)點對應(yīng)的訓(xùn)練數(shù)據(jù)。然后,執(zhí)行步驟307。
[0076]具體地,可以根據(jù)所述優(yōu)選問題對當前考察節(jié)點進行分裂。
[0077]步驟306,將當前考察節(jié)點標記為葉節(jié)點。
[0078]步驟307,判斷所述二叉決策樹中是否還有未考察過的非葉節(jié)點。如果是,則執(zhí)行步驟308 ;否則執(zhí)行步驟309。
[0079]步驟308,獲取下一個未考察過的非葉節(jié)點作為當前考察節(jié)點。然后,返回步驟304。
[0080]步驟309,輸出二叉決策樹。
[0081]需要說明的是,在本發(fā)明實施例中,基頻二叉決策樹和頻譜二叉決策樹都可以按照圖3所示流程來建立。
[0082]如圖4所示,是本發(fā)明實施例中一種二叉決策樹的示意圖。[0083]圖4展示了音素”*_aa+”的第三個狀態(tài)的二叉決策樹的構(gòu)建圖。如圖4所示,在根節(jié)點分裂時根據(jù)對預(yù)設(shè)問題“右相鄰音素是否為鼻音”的回答可以將根節(jié)點對應(yīng)的訓(xùn)練數(shù)據(jù)拆分,隨后在下一層節(jié)點分裂時,如對左節(jié)點分裂時,根據(jù)對預(yù)設(shè)問題“左相鄰音素是否為濁輔音”的回答可以將所述節(jié)點對應(yīng)的訓(xùn)練數(shù)據(jù)進一步拆分。最后在節(jié)點無法進一步拆分時設(shè)定其為葉節(jié)點,并利用其所對應(yīng)得訓(xùn)練數(shù)據(jù)訓(xùn)練得到數(shù)學(xué)統(tǒng)計模型,如高斯模型,將該數(shù)字統(tǒng)計模型作為當前葉節(jié)點對應(yīng)的合成參數(shù)模型。 [0084]顯然,在圖2所示實施例中,初始語音合成參數(shù)模型的挑選主要依賴于基于文本分析的二叉決策樹,如通過當前考察的合成單元上下文的音素類別、當前音素的發(fā)音類型等,這樣可以方便快捷地獲得初始語音合成參數(shù)模型。
[0085]進一步地,基于實際語音信號和編碼模型合成語音信號損失最小化的原則,在發(fā)明實施例中,還需要對初始基頻模型和初始頻譜模型分別進行聯(lián)合優(yōu)化,下面對聯(lián)合優(yōu)化過程做詳細說明。
[0086]如圖5所示,是本發(fā)明實施例中對初始基頻模型進行聯(lián)合優(yōu)化的流程圖,包括以下步驟:
[0087]步驟501,提取連續(xù)語音信號對應(yīng)的原始基頻特征序列。
[0088]步驟502,獲取第一個合成單元用為當前優(yōu)化的合成單元。
[0089]步驟503,獲取當前優(yōu)化的合成單元對應(yīng)的初始基頻模型及相關(guān)基頻模型集合,所述相關(guān)基頻模型集合包括當前優(yōu)化的合成單元對應(yīng)的基頻二叉決策樹的全部或部分葉節(jié)點。
[0090]步驟504,根據(jù)所述原始基頻特征序列從所述相關(guān)基頻模型集合中選擇所述初始基頻模型的優(yōu)選模型。
[0091]也就是說,根據(jù)所述原始基頻特征序列和所述相關(guān)基頻模型集合對所述初始基頻模型進行聯(lián)合優(yōu)化。
[0092]具體地,可以依次選擇所述相關(guān)基頻模型集合中的基頻模型替換所述基頻模型序列中對應(yīng)的初始基頻|吳型,得到新的基頻|吳型序列;接著根據(jù)所述新的基頻|吳型序列確定合成的新的基頻特征序列。然后計算所述新的基頻特征序列與所述原始基頻特征序列的距離;選擇最小距離對應(yīng)的基頻模型作為所述初始基頻模型的優(yōu)選模型。
[0093]在根據(jù)所述新的基頻模型序列確定合成的新的基頻特征序列時,具體可以是根據(jù)所述新的基頻模型序列和合成單元對應(yīng)的時長序列確定基頻模型參數(shù),生成合成的新的基頻特征序列。
[0094]如,按照以下公式來得到合成的新的基頻特征序列:
[0095]0max=argmaxP (O |,λ,T)
[0096]其中,O為特征序列,λ為給定的基頻模型序列,T為各合成單元對應(yīng)的時長序列。
[0097]Omax即最終生成的基頻特征序列,在單元時長序列T的范圍內(nèi),求取相應(yīng)于給定的基頻1?型序列、的具有最大似然值的基頻特征序列0max。
[0098]在計算新的基頻特征序列與所述原始基頻特征序列的距離時,可以采用歐式距離計算方法,即:
[0099]D(ClC) = Yj(C)1-C ) (O-C )


/二I[0100]其中,Oi, Ci分別是第i個原始基頻特征矢量和第i個新的基頻特征矢量。
[0101]步驟505,將所述優(yōu)選模型作為當前優(yōu)化的合成單元的基頻模型,并將所述優(yōu)選模型替換所述基頻模型序列中對應(yīng)的初始基頻模型。
[0102]步驟506,判斷是否還有未優(yōu)化的合成單元。如果是,則執(zhí)行步驟507 ;否則,執(zhí)行步驟508。
[0103]步驟507,獲取下一個合成單元作為當前優(yōu)化的合成單元。然后,返回步驟503。
[0104]步驟508,輸出各合成單元的基頻模型。
[0105]前面提到,所述相關(guān)基頻模型集合可以是所述合成單元對應(yīng)的基頻二叉決策樹的全部葉節(jié)點,考慮到基頻二叉決策樹中葉節(jié)點數(shù)目往往較多,逐一計算比較將耗費大量的運算資源,不利于編碼實時性的要求。因此,也可以從所有葉節(jié)點中選擇部分具有較大優(yōu)選可能的葉節(jié)點作為所述相關(guān)基頻模型集合,參與后續(xù)基頻模型的優(yōu)化。具體過程可以如下:
[0106](I)首先計算所述合成單元對應(yīng)的原始基頻特征序列和基頻二叉決策樹的所有葉節(jié)點的基頻模型之間的似然度。
[0107]設(shè)原始基頻特征序列為O = [<,<,...,<.] (N為語音信號的幀數(shù)),當前考察的基
頻模型為λ ^ ( λ j, j=l,...J, J為整個模型集合大小),則這兩者之間的似然度為:
[0108]
【權(quán)利要求】
1.一種語音信號傳輸方法,其特征在于,包括: 確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容; 根據(jù)所述文本內(nèi)容及所述連續(xù)語音信號確定各合成單元的語音合成參數(shù)模型; 拼接各合成單元的語音合成參數(shù)模型得到語音合成參數(shù)模型序列; 確定所述語音合成參數(shù)模型序列對應(yīng)的序號串; 將所述序號串發(fā)送給接收端,以使所述接收端根據(jù)所述序號串恢復(fù)所述連續(xù)語音信號。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容包括: 通過語音識別算法確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容;或者 通過人工標注的方式獲取待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述文本內(nèi)容及所述連續(xù)語音信號確定各合成單元的語音合成參數(shù)模型包括: 根據(jù)所述文本內(nèi)容對所述連續(xù)語音信號進行語音片斷切分,得到各合成單元對應(yīng)的語首片斷; 依次確定各合成單元對應(yīng)的語音片斷的時長及初始語音合成參數(shù)模型,所述初始語音合成參數(shù)模型包括:初始基頻模型和初始頻譜模型,并得到對應(yīng)所述連續(xù)語音信號的基頻模型序列和頻譜模型 序列; 利用所述連續(xù)語音信號及所述基頻模型序列對各合成單元對應(yīng)的初始基頻模型進行聯(lián)合優(yōu)化,得到各合成單元的基頻模型; 利用所述連續(xù)語音信號及所述頻譜模型序列對各合成單元對應(yīng)的初始頻譜模型進行聯(lián)合優(yōu)化,得到各合成單元的頻譜模型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定合成單元對應(yīng)的初始基頻模型包括: 獲取所述合成單元對應(yīng)的基頻二叉決策樹; 對所述合成單元進行文本解析,獲得所述合成單元的上下文信息; 根據(jù)所述上下文信息,在所述基頻二叉決策樹中進行路徑?jīng)Q策,得到對應(yīng)的葉子節(jié)占.將所述葉節(jié)點對應(yīng)的基頻模型作為所述合成單元對應(yīng)的初始基頻模型。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定合成單元對應(yīng)的初始頻譜模型包括: 獲取所述合成單元對應(yīng)的頻譜二叉決策樹; 對所述合成單元進行文本解析,獲得所述合成單元的上下文信息; 根據(jù)所述上下文信息,在所述頻譜二叉決策樹中進行路徑?jīng)Q策,得到對應(yīng)的葉子節(jié)占.將所述葉節(jié)點對應(yīng)的頻譜模型作為所述合成單元對應(yīng)的初始頻譜模型。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述方法還包括:按以下方式構(gòu)建所述合成單元對應(yīng)的二叉決策樹: 獲取訓(xùn)練數(shù)據(jù);從所述訓(xùn)練數(shù)據(jù)中提取所述合成單元對應(yīng)的語音片斷集合的合成參數(shù),所述合成參數(shù)包括:基頻特征和頻譜特征; 根據(jù)所述合成參數(shù)對所述合成單元對應(yīng)的二叉決策樹進行初始化; 從所述二叉決策樹的根節(jié)點開始,依次考察每個非葉節(jié)點; 如果當前考察節(jié)點需要分裂,則對當前考察節(jié)點進行分裂,并獲取分裂后的子節(jié)點及所述子節(jié)點對應(yīng)的訓(xùn)練數(shù)據(jù);否則,將當前考察節(jié)點標記為葉節(jié)點; 當所有非葉節(jié)點考察完成后,得到所述合成單元的二叉決策樹。
7.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述利用所述連續(xù)語音信號及所述基頻模型序列對各合成單元對應(yīng)的初始基頻模型進行聯(lián)合優(yōu)化,得到各合成單元的基頻模型包括: 提取所述連續(xù)語音信號對應(yīng)的原始基頻特征序列; 依次對各合成單元進行以下處理: 獲取所述合成單元對應(yīng)的初始基頻模型及相關(guān)基頻模型集合,所述相關(guān)基頻模型集合包括所述合成單元對應(yīng)的基頻二叉決策樹的全部或部分葉節(jié)點; 根據(jù)所述原始基頻特征序列從所述相關(guān)基頻模型集合中選擇所述初始基頻模型的優(yōu)選模型; 將所述優(yōu)選模型作為所述合成單元的基頻模型,并將所述優(yōu)選模型替換所述基頻模型序列中對應(yīng)的初始基頻I吳型。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述原始基頻特征序列從所述相關(guān)基頻模型集合中選擇所述初始基頻模型的優(yōu)選模型包括: 依次選擇所述相關(guān)基頻模型集合中的基頻模型替換所述基頻模型序列中對應(yīng)的初始基頻1?型,得到新的基頻1?型序列; 根據(jù)所述新的基頻模型序列確定合成的新的基頻特征序列; 計算所述新的基頻特征序列與所述原始基頻特征序列的距離; 選擇最小距離對應(yīng)的基頻模型作為所述初始基頻模型的優(yōu)選模型。
9.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述利用所述連續(xù)語音信號及所述頻譜模型序列對各合成單元對應(yīng)的初始頻譜模型進行聯(lián)合優(yōu)化,得到各合成單元的頻譜模型包括: 提取所述連續(xù)語音信號對應(yīng)的原始頻譜特征序列; 依次對各合成單元進行以下處理: 獲取所述合成單元對應(yīng)的初始頻譜模型及相關(guān)頻譜模型集合,所述相關(guān)頻譜模型集合包括所述合成單元對應(yīng)的頻譜二叉決策樹的全部或部分葉節(jié)點; 根據(jù)所述原始頻譜特征序列從所述相關(guān)頻譜模型集合中選擇所述初始頻譜模型的優(yōu)選模型; 將所述優(yōu)選模型作為所述合成單元的頻譜模型,并將所述優(yōu)選模型替換所述頻譜模型序列中對應(yīng)的初始頻譜模型。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述根據(jù)所述原始頻譜特征序列從所述相關(guān)頻譜模型集合中選擇所述初始頻譜模型的優(yōu)選模型包括: 依次選擇所述相關(guān)頻譜模型集合中的頻譜模型替換所述頻譜模型序列中對應(yīng)的初始頻譜模型,得到新的頻譜模型序列; 根據(jù)所述新的頻譜模型序列確定合成的新的頻譜特征序列; 計算所述新的頻譜特征序列與所述原始頻譜特征序列的距離; 選擇最小距離對應(yīng)的頻譜模型作為所述初始頻譜模型的優(yōu)選模型。
11.一種語音信號傳輸系統(tǒng),其特征在于,包括: 文本獲取模塊,用于確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容; 參數(shù)模型確定模塊,用于根據(jù)所述文本內(nèi)容及所述連續(xù)語音信號確定各合成單元的語音合成參數(shù)模型; 拼接模塊,用于拼接各合成單元的語音合成參數(shù)模型得到語音合成參數(shù)模型序列; 序號串確定模塊,用于確定所述語音合成參數(shù)模型序列對應(yīng)的序號串; 發(fā)送模塊,用于將所述序號串發(fā)送給接收端,以使所述接收端根據(jù)所述序號串恢復(fù)所述連續(xù)語音信號。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述文本獲取模塊包括: 語音識別單元,用于通過語音識別算法確定待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容;或者 標注信息獲取單元,用于通過人工標注的方式獲取待發(fā)送的連續(xù)語音信號對應(yīng)的文本內(nèi)容。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述參數(shù)模型確定模塊包括: 切分單元,用于根據(jù)所述文本內(nèi)容對所述連續(xù)語音信號進行語音片斷切分,得到各合成單元對應(yīng)的語音片斷; 時長確定單元,用于依次確定各合成單元對應(yīng)的語音片斷的時長; 模型確定單元,用于依次確定各合成單元對應(yīng)的初始語音合成參數(shù)模型,所述初始語音合成參數(shù)模型包括:初始基頻模型和初始頻譜模型; 模型序列獲取單元,用于獲得對應(yīng)所述連續(xù)語音信號的基頻模型序列和頻譜模型序列; 第一優(yōu)化單元,用于利用所述連續(xù)語音信號及所述基頻模型序列對各合成單元對應(yīng)的初始基頻模型進行聯(lián)合優(yōu)化,得到各合成單元的基頻模型; 第二優(yōu)化單元,用于利用所述連續(xù)語音信號及所述頻譜模型序列對各合成單元對應(yīng)的初始頻譜模型進行聯(lián)合優(yōu)化,得到各合成單元的頻譜模型。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述模型確定單元包括:初始基頻模型確定單元和初始頻譜模型確定單元; 所述初始基頻模型確定單元包括: 第一獲取單元,用于獲取所述合成單元對應(yīng)的基頻二叉決策樹; 第一解析單元,用于對所述合成單元進行文本解析,獲得所述合成單元的上下文信息; 第一決策單元,用于根據(jù)所述上下文信息,在所述基頻二叉決策樹中進行路徑?jīng)Q策,得到對應(yīng)的葉子節(jié)點; 第一輸出單元,用于將所述葉節(jié)點對應(yīng)的基頻模型作為所述合成單元對應(yīng)的初始基頻模型;所述初始頻譜模型確定單元包括: 第二獲取單元,用于獲取所述合成單元對應(yīng)的頻譜二叉決策樹; 第二解析單元,用于對所述合成單元進行文本解析,獲得所述合成單元的上下文信息; 第二決策單元,用于根據(jù)所述上下文信息,在所述頻譜二叉決策樹中進行路徑?jīng)Q策,得到對應(yīng)的葉子節(jié)點; 第二輸出單元,用于將所述葉節(jié)點對應(yīng)的頻譜模型作為所述合成單元對應(yīng)的初始頻譜模型。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:二叉決策樹構(gòu)建模塊,所述二叉決策樹構(gòu)建模塊包括: 訓(xùn)練數(shù)據(jù)獲取單元,用于獲取訓(xùn)練數(shù)據(jù); 參數(shù)提取單元,用于從所述訓(xùn)練數(shù)據(jù)中提取所述合成單元對應(yīng)的語音片斷集合的合成參數(shù),所述合成參數(shù)包括:基頻特征和頻譜特征; 初始化單元,用于根據(jù)所述合成參數(shù)對所述合成單元對應(yīng)的二叉決策樹進行初始化;節(jié)點考察單元,用于從所述二叉決策樹的根節(jié)點開始,依次考察每個非葉節(jié)點;如果當前考察節(jié)點需要分裂,則對當前考察節(jié)點進行分裂,并獲取分裂后的子節(jié)點及所述子節(jié)點對應(yīng)的訓(xùn)練數(shù)據(jù);否則,將當前考察節(jié)點標記為葉節(jié)點; 二叉決策樹輸出單元,用于在所有非葉節(jié)點考察完成后,得到所述合成單元的二叉決策樹。
16.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第一優(yōu)化單元包括: 基頻特征序列提取單元,用于提取所述連續(xù)語音信號對應(yīng)的原始基頻特征序列;第一獲取單元,用于依次獲取各合成單元對應(yīng)的初始基頻模型及相關(guān)基頻模型集合,所述相關(guān)基頻模型集合包括所述合成單元對應(yīng)的基頻二叉決策樹的全部或部分葉節(jié)點;第一選擇單元,用于根據(jù)所述原始基頻特征序列從所述相關(guān)基頻模型集合中選擇所述初始基頻模型的優(yōu)選模型; 第一替換單元,用于將所述優(yōu)選模型作為所述合成單元的基頻模型,并將所述優(yōu)選模型替換所述基頻模型序列中對應(yīng)的初始基頻模型。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述第一選擇單元包括: 基頻模型序列更新單元,用于依次選擇所述相關(guān)基頻模型集合中的基頻模型替換所述基頻1?型序列中對應(yīng)的初始基頻1?型,得到新的基頻1?型序列;并根據(jù)所述新的基頻1吳型序列確定合成的新的基頻特征序列; 第一計算單元,用于計算所述新的基頻特征序列與所述原始基頻特征序列的距離;基頻模型選擇單元,用于選擇最小距離對應(yīng)的基頻模型作為所述初始基頻模型的優(yōu)選模型。
18.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第二優(yōu)化單元包括: 頻譜特征序列提取單元,用于提取所述連續(xù)語音信號對應(yīng)的原始頻譜特征序列;第二獲取單元,用于依次獲取各合成單元對應(yīng)的初始頻譜模型及相關(guān)頻譜模型集合,所述相關(guān)頻譜模型集合包括所述合成單元對應(yīng)的頻譜二叉決策樹的全部或部分葉節(jié)點;第二選擇單元,用于根據(jù)所述原始頻譜特征序列從所述相關(guān)頻譜模型集合中選擇所述初始頻譜模型的優(yōu)選模型; 第二替換單元,用于將所述優(yōu)選模型作為所述合成單元的頻譜模型,并將所述優(yōu)選模型替換所述頻譜模型序列中對應(yīng)的初始頻譜模型。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其特征在于,所述第二選擇單元包括: 頻譜模型序列更新單元,用于依次選擇所述相關(guān)頻譜模型集合中的頻譜模型替換所述頻譜模型序列中對應(yīng)的初始頻譜模型,得到新的頻譜模型序列;并根據(jù)所述新的頻譜模型序列確定合成的新的頻譜特征序列; 第二計算單元,用于計算所述新的頻譜特征序列與所述原始頻譜特征序列的距離;頻譜模型選擇單元,用于選擇最小距離對應(yīng)的頻譜模型作為所述初始頻譜模型的優(yōu)選 模型。
【文檔編號】G10L15/26GK103474067SQ201310361783
【公開日】2013年12月25日 申請日期:2013年8月19日 優(yōu)先權(quán)日:2013年8月19日
【發(fā)明者】江源, 周明, 凌震華, 何婷婷, 胡國平, 胡郁, 劉慶峰 申請人:安徽科大訊飛信息科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
锡林郭勒盟| 行唐县| 全南县| 沂南县| 韩城市| 静乐县| 岑巩县| 南澳县| 滨海县| 沅江市| 平定县| 东港市| 辽源市| 徐州市| 正安县| 安阳市| 新乐市| 新野县| 承德县| 台中县| 思南县| 余姚市| 儋州市| 察雅县| 紫云| 淳化县| 岐山县| 屏山县| 松溪县| 佛山市| 那曲县| 临汾市| 汝城县| 淮北市| 肥东县| 汝南县| 磐安县| 迁安市| 巩留县| 宿迁市| 类乌齐县|