專利名稱:基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域,涉及到一種語(yǔ)音合成中的關(guān)聯(lián)性參數(shù)修正方法,更具體的涉及了一種基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)和信號(hào)處理技術(shù)的高速發(fā)展,傳統(tǒng)的語(yǔ)音合成技術(shù)已經(jīng)無(wú)法滿足人們?cè)絹碓礁叩囊蟆H藗兿M軌蚺c機(jī)器進(jìn)行自然和諧的交流,語(yǔ)音作為人類社會(huì)重要的交流方式,很大程度上決定了這種人機(jī)自然和諧交流的實(shí)現(xiàn)。因此語(yǔ)音合成在情感計(jì)算、信號(hào)處理領(lǐng)域具有很重要的研究意義。而細(xì)膩的情感表達(dá)則能夠較大地提高合成語(yǔ)音的自然度。在語(yǔ)言表達(dá)過程中,說話人的言語(yǔ)中常常并不只包含有一種情感。很多語(yǔ)句有可能是幾種情感融合后地表達(dá)。同時(shí),人在情感表達(dá)的過程中語(yǔ)音和表情均對(duì)情感表現(xiàn)及其程度的產(chǎn)生影響。現(xiàn)有的情感表達(dá)研究主要集中在對(duì)單一語(yǔ)音韻律特征、情感特征或生理信息的情感合成,研究對(duì)象局限于實(shí)驗(yàn)室中的特定說話人或數(shù)據(jù)庫(kù)中特定表演者的范圍內(nèi),導(dǎo)致目前的情感合成方法無(wú)法合成出多種情感相互融合的綜合化表情,使得合成語(yǔ)音情感表達(dá)不自然,工程應(yīng)用效果不理想。在語(yǔ)音情感描述領(lǐng)域,Pereira提出的“激勵(lì)一評(píng)價(jià)一控制”(PAD)三維情感空間理論。用模糊化的情感空間標(biāo)記方式,可以對(duì)語(yǔ)句進(jìn)行維度空間的標(biāo)注,這種維度空間中的標(biāo)注可以較為準(zhǔn)確的分析出每個(gè)語(yǔ)句的情感組成,從而能獲得較為合理、精確的情感標(biāo)記。在情感語(yǔ)音合成領(lǐng)域,目前語(yǔ)音情感合成方法主要分為兩類:基于情感語(yǔ)料的情感語(yǔ)音合成和基于中性語(yǔ)料的情感語(yǔ)音合成。由于訓(xùn)練模型較小,因此合成語(yǔ)音的情感質(zhì)量較差。采用基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法可以較好的解決訓(xùn)練模型較小導(dǎo)致的情感數(shù)據(jù)不準(zhǔn)確以及合成語(yǔ)音情感質(zhì)量不高這一問題。因此提出一種有效的情感表達(dá)修正方法具有很強(qiáng)的現(xiàn)實(shí)意義和工程實(shí)踐意義。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種能夠?qū)铣烧Z(yǔ)音所表達(dá)情感進(jìn)行修正的方法,以解決合成語(yǔ)音情感表達(dá)不自然的問題。本發(fā)明采用的技術(shù)方案是:本發(fā)明提供了一種基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法,包括以下步驟:步驟1:建立PAD情感模型并對(duì)η種典型情感進(jìn)行PAD主觀評(píng)分。步驟2:對(duì)經(jīng)過情感語(yǔ)音合成系統(tǒng)合成出的待修正情感語(yǔ)音提取語(yǔ)音特征參數(shù)。利用語(yǔ)音特征參數(shù)與PAD情感參數(shù)的關(guān)聯(lián)關(guān)系,將待修正情感語(yǔ)音映射至PAD情感空間內(nèi)。步驟3:采用不均勻正態(tài)分布空間歐氏距離計(jì)算方法,計(jì)算待修正情感點(diǎn)到各個(gè)典型情感點(diǎn)的歐氏距離。設(shè)Pa,Pb為a、b兩情感點(diǎn)在PAD空間內(nèi)的P參數(shù)觀察值,%和Ob為兩個(gè)情感類別的方差。歐式距離計(jì)算公式如下:
權(quán)利要求
1.一種基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法,其特征在于,具體包括以下步驟: 步驟1:建立PAD情感模型并對(duì)η種典型情感進(jìn)行PAD主觀評(píng)分; 步驟2:對(duì)經(jīng)過情感語(yǔ)音合成系統(tǒng)合成出的待修正情感語(yǔ)音提取語(yǔ)音特征參數(shù),利用語(yǔ)音特征參數(shù)與PAD情感參數(shù)的關(guān)聯(lián)關(guān)系,將待修正情感語(yǔ)音映射至PAD情感空間內(nèi);步驟3:采用不均勻正態(tài)分布空間歐氏距離計(jì)算方法,計(jì)算待修正情感點(diǎn)到各個(gè)典型情感點(diǎn)的歐氏距離,PAD情感空間為三維空間,兩情感點(diǎn)間的最終距離由三維空間內(nèi)亮點(diǎn)間距離計(jì)算方法計(jì)算,最終獲得待修正點(diǎn)到η類典型情感點(diǎn)的η個(gè)情感距離; 步驟4:根據(jù)待修正情感點(diǎn)到各個(gè)典型情感點(diǎn)的距離,計(jì)算修正情感點(diǎn)的基本情感組成,待修正點(diǎn)到各個(gè)典型情感點(diǎn)的距離與待修正點(diǎn)的典型情感組成權(quán)重成反比,采用排序組合方法獲得待修正點(diǎn)的各典型情感組成權(quán)重; 步驟5:根據(jù)典型情感點(diǎn)對(duì)應(yīng)的語(yǔ)音特征參數(shù)以及各典型情感在待修正情感中所占比重,采用線性修正算法,對(duì)合成情感特征參數(shù)進(jìn)行修正。
2.根據(jù)權(quán)利要求1所述的基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法,其特征在于:所述的步驟2中的待修正情感語(yǔ)音的情感空間值按如下步驟獲取: 步驟2.1:對(duì)于待修正情感合成語(yǔ)音提取梅爾倒譜參數(shù)(MFCC)和短時(shí)能量; 步驟2.2:根據(jù)PAD情感空間中各項(xiàng)目與語(yǔ)音特征參數(shù)的關(guān)系,計(jì)算PAD空間各項(xiàng)目值; 步驟2.3:待修正情感合成語(yǔ)音的PAD情感空間值由使用不同參數(shù)計(jì)算出的PAD空間值進(jìn)行加權(quán)平均獲得;加權(quán)比例為70%和30%。
3.根據(jù)權(quán)利要求1所述的基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法,其特征在于:所述的步驟3中PAD情感空間中兩情感點(diǎn)間距離按以下步驟獲得: 步驟3.1:采用不均勻正態(tài)分布空間歐氏距離計(jì)算方法,按式(I)計(jì)算待修正情感點(diǎn)到各典型情感點(diǎn)間的歐氏距離;、Ik-#1^iPl- P2J=1T^=… -y <τ j +tl): 其中P1, P2為兩情感點(diǎn)在PAD空間內(nèi)的P參數(shù)觀察值,ojp Ob為兩個(gè)情感類別的方差;當(dāng)所建立的PAD情感空間為歸一化(-1,+1)的空間時(shí),方差遠(yuǎn)遠(yuǎn)小于I ; 步驟3.2:由PAD為三維情感空間,則a、b兩情感間的最終距離S為: S = ^Sp +S2a +Λ'-(2).其中SP、SA、Sd分別為a、b兩情感點(diǎn)間P、A、D坐標(biāo)距離。
4.根據(jù)權(quán)利要求1所述的基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法,其特征在于:所述的步驟4中待修正情感點(diǎn)中各典型情感組成權(quán)重關(guān)系由式(3)獲得: S M =-—~Y" Sii=i ^(3)-其中Smax為待修正點(diǎn)與距離其最遠(yuǎn)的典型情感點(diǎn)間的距離,Mfflin為與待修正點(diǎn)距離Smax的典型情感所占組成權(quán)重;采用排序組合方法獲得待修正點(diǎn)的各典型情感組成權(quán)重。
5.根據(jù)權(quán)利要求1所述的基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法,其特征在于:所述的步驟5中語(yǔ)音特征參數(shù)情感修正量,采用線性修正算法獲得,其計(jì)算方法如式(4):
全文摘要
本發(fā)明公開了一種基于韻律特征參數(shù)和情感參數(shù)關(guān)聯(lián)性的語(yǔ)音情感修正方法,該方法包括對(duì)11類典型情感進(jìn)行情感建模;對(duì)待修正的情感語(yǔ)音提取特征參數(shù),并將其映射至情感空間內(nèi);利用情感參數(shù)和語(yǔ)音特征參數(shù)的關(guān)聯(lián)關(guān)系,以及兩類語(yǔ)音參數(shù)基于不同的信息度量間的互補(bǔ)性;通過情感參數(shù)對(duì)語(yǔ)音特征參數(shù)的修正獲得更客觀準(zhǔn)確的情感表達(dá)。本發(fā)明方法能夠更細(xì)致的獲得所需合成的情感狀態(tài),自然度高,可廣泛應(yīng)用于語(yǔ)音處理與先進(jìn)智能領(lǐng)域。
文檔編號(hào)G10L13/08GK103198827SQ20131010028
公開日2013年7月10日 申請(qǐng)日期2013年3月26日 優(yōu)先權(quán)日2013年3月26日
發(fā)明者陳雁翔, 龍潤(rùn)田 申請(qǐng)人:合肥工業(yè)大學(xué)