一種基于說(shuō)話人標(biāo)準(zhǔn)化變換的語(yǔ)音情感特征選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種語(yǔ)音情感特征選擇方法,尤其涉及一種基于語(yǔ)音軌跡模型的語(yǔ)音 情感特征選擇方法,屬于語(yǔ)音情感識(shí)別技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的快速發(fā)展和各種智能終端的興起,現(xiàn)有的人機(jī)交互系統(tǒng)正面臨日 益嚴(yán)峻的考驗(yàn)。為了克服人機(jī)交互的障礙,使人機(jī)交互更為方便、自然,機(jī)器的情感智能正 日益受到各領(lǐng)域研究者的重視。語(yǔ)音作為現(xiàn)今人機(jī)交互中極具發(fā)展?jié)摿Φ母咝Ы换ッ浇椋?攜帶著豐富的情感信息。語(yǔ)音情感識(shí)別作為情感智能的重要研究課題,在遠(yuǎn)程教學(xué)、輔助 測(cè)謊、自動(dòng)遠(yuǎn)程電話服務(wù)中心以及臨床醫(yī)學(xué),智能玩具,智能手機(jī)等方面有著廣闊的應(yīng)用前 景,吸引了越來(lái)越多研究機(jī)構(gòu)與研究學(xué)者的廣泛關(guān)注。
[0003] 為了提高語(yǔ)音情感識(shí)別的精度和魯棒性,提取充分反映說(shuō)話人情感狀態(tài)的語(yǔ)音情 感特征至關(guān)重要。從原始語(yǔ)音數(shù)據(jù)中提取有效的情感信息,剔除情感無(wú)關(guān)的說(shuō)話人身份信 息等冗余信息是提高語(yǔ)音情感識(shí)別系統(tǒng)魯棒性的重點(diǎn)和難點(diǎn)。
[0004] 作為一種新興的語(yǔ)音分析技術(shù),語(yǔ)音片段軌跡模型因其在語(yǔ)音信號(hào)處理中的靈活 性和有效性,越來(lái)越得到研究者的廣泛重視。對(duì)于分類(lèi)問(wèn)題,建立語(yǔ)音片段軌跡模型,量化 語(yǔ)音表達(dá)因素與特征表現(xiàn)的相關(guān)性,進(jìn)而對(duì)語(yǔ)音中說(shuō)話人進(jìn)行標(biāo)準(zhǔn)化,降低了說(shuō)話人身份、 語(yǔ)音內(nèi)容等無(wú)關(guān)信息對(duì)于語(yǔ)音特征表現(xiàn)的影響,選擇出含有較多情感信息的語(yǔ)音特征。這 種基于語(yǔ)音表達(dá)因素與特征表現(xiàn)的相關(guān)性特征提取思想和方法在語(yǔ)音情感識(shí)別研究中具 有重要的意義。
【發(fā)明內(nèi)容】
[0005] 技術(shù)問(wèn)題:本發(fā)明提供一種能夠提高語(yǔ)音情感識(shí)別的魯棒性,降低了說(shuō)話人身份、 語(yǔ)音內(nèi)容等無(wú)關(guān)信息對(duì)于語(yǔ)音特征表現(xiàn)的影響,可以選擇出含有較多情感信息語(yǔ)音特征的 基于說(shuō)話人標(biāo)準(zhǔn)化變換的語(yǔ)音情感特征選擇方法。
[0006] 技術(shù)方案:本發(fā)明的基于說(shuō)話人標(biāo)準(zhǔn)化變換的語(yǔ)音情感特征選擇方法,包括以下 步驟:
[0007] 步驟1 :對(duì)情感語(yǔ)音片段數(shù)字化后的數(shù)字語(yǔ)音信號(hào)X進(jìn)行預(yù)處理,得到有效語(yǔ)音幀 集合,對(duì)所述有效語(yǔ)音幀集合中每個(gè)語(yǔ)音片段X'提取一個(gè)D維的特征A,得到一個(gè)特征矩 陣C:
[0009] 其中,K為有效語(yǔ)音幀幀長(zhǎng),A表示語(yǔ)音片段提取的特征,D表示特征A的維數(shù),Cni, t表示特征矩陣中一個(gè)元素,Ct表示特征矩陣中一個(gè)列向量,其中t為特征矩陣中列標(biāo),t= 1,2, . . .,D,m為特征矩陣中行標(biāo),m= 1,2, . . .,K;
[0010] 步驟2 :把所述特征矩陣C轉(zhuǎn)換為一個(gè)軌跡模型方程:C=ZB+E,其中B表示軌跡 參數(shù)矩陣,E表示殘差向量矩陣,Z表示負(fù)責(zé)將語(yǔ)音片段的時(shí)間度量歸一化的設(shè)計(jì)矩陣;
[0011] 然后構(gòu)建行數(shù)為K,列數(shù)為軌跡模型展開(kāi)階次J加1的設(shè)計(jì)矩陣Z,其中元素
[0012] 步驟3 :對(duì)每個(gè)語(yǔ)音片段,利用最大似然估計(jì)來(lái)計(jì)算軌跡參數(shù)矩陣Bq:
[0013] Bq= (ZrqZq) 1ZrqCq (2)
[0014] 其中,q為語(yǔ)音片段編號(hào),Zq,Cq分別為第q個(gè)語(yǔ)音片段的設(shè)計(jì)矩陣和特征矩陣, Z'q為Zq的轉(zhuǎn)置矩陣;
[0015] 然后計(jì)算每個(gè)語(yǔ)音片段的殘差協(xié)方差矩陣Eq:
[0017] Kq是第q個(gè)語(yǔ)音片段的幀數(shù);
[0018] 步驟4 :對(duì)說(shuō)話人進(jìn)行標(biāo)準(zhǔn)化:
[0019] 選取語(yǔ)音庫(kù)中發(fā)音最標(biāo)準(zhǔn)的說(shuō)話人作為參考標(biāo)準(zhǔn),其語(yǔ)音片段Xraf的聲學(xué)特征用 軌跡模型表示為{Braf,Eraf,K},需要標(biāo)準(zhǔn)化的其他說(shuō)話人語(yǔ)音片段,即需要變換的語(yǔ)音片 段&的聲學(xué)特征用軌跡模型表示為{BpEpK},其中Braf表示參考語(yǔ)音片段X的平均軌 跡向量,E 表示參考語(yǔ)音片段X的殘差協(xié)方差矩陣,B1表示需要變換語(yǔ)音片段Xi的平 均軌跡向量,Ei表示參考語(yǔ)音片段Xi的殘差協(xié)方差矩陣;
[0020] 首先根據(jù)下式進(jìn)行白化轉(zhuǎn)換:
表示白化變換后的數(shù)據(jù),即X1解相關(guān)數(shù)據(jù);
[0023] 然后根據(jù)下式進(jìn)行說(shuō)話人標(biāo)準(zhǔn)化:
[0025] Xn表示Xi利用參考語(yǔ)音片段X標(biāo)準(zhǔn)化后的數(shù)據(jù),V"f,Draf分別表示EM對(duì)應(yīng)的 特征向量矩陣和特征值矩陣;
[0026] 步驟5 :計(jì)算各個(gè)影響語(yǔ)音表達(dá)的因素在語(yǔ)音表達(dá)中與聲學(xué)特征的相關(guān)性,包括: 標(biāo)準(zhǔn)化后情感因素與聲學(xué)特征的相關(guān)性、標(biāo)準(zhǔn)化后說(shuō)話人因素與聲學(xué)特征的相關(guān)性;
[0027] 步驟6 :相關(guān)性比較:將所有聲學(xué)特征中,與情感因素的相關(guān)性大于與標(biāo)準(zhǔn)化后的 說(shuō)話人因素相關(guān)性的特征作為語(yǔ)音情感識(shí)別特征。
[0028] 進(jìn)一步的,本發(fā)明方法中,所述步驟1中的預(yù)處理包括如下步驟:
[0029] 步驟I. 1 :對(duì)數(shù)字語(yǔ)音信號(hào)X按下式進(jìn)行預(yù)加重,得到預(yù)加重后的語(yǔ)音信號(hào)X5
[0030] x(H) =x(?) - (-1),o<s<j^-i
[0031] 其中反表示數(shù)字語(yǔ)音信號(hào)X的離散點(diǎn)序號(hào),F(xiàn)為數(shù)字語(yǔ)音信號(hào)X的長(zhǎng)度,和 1)分別表示數(shù)字語(yǔ)音信號(hào)X在第瓦和1個(gè)離散點(diǎn)上的值,尤_表示預(yù)加重后的語(yǔ) 音信號(hào)f第i個(gè)離散點(diǎn)上的值,x(-l) = 0 ;
[0032] 步驟1. 2 :采用交疊分段的方法對(duì)預(yù)加重后的語(yǔ)音信號(hào).Z進(jìn)行分幀,前一幀起點(diǎn) 與后一幀起點(diǎn)的距離稱為幀移,此處幀移取8ms,即在采樣率Fs= 16kHz下取128點(diǎn),每一 幀長(zhǎng)取16ms,即取256點(diǎn),龍經(jīng)過(guò)分幀得到語(yǔ)音幀集
[0033] Xjt, (?)== + 128(^- -1)^ 0<?< 255,1<K
[0034] 其中為語(yǔ)音幀集合中的第k'個(gè)語(yǔ)音幀,n表示語(yǔ)音幀離散點(diǎn)序號(hào),k'為語(yǔ)音 幀序號(hào),K'為語(yǔ)音幀總幀數(shù),且滿足:
[0037] 步驟1. 3:對(duì)各語(yǔ)音幀^,1彡k'彡K',選擇窗口長(zhǎng)度為256點(diǎn)的漢明窗w進(jìn)行 加窗處理,得到加窗語(yǔ)音幀Xk,為:
[0038] xA- (w) = X^. ( ?) w(? ) 0 < ? < 255,1 < Aj <K
[0039]其中xk, (n)、.%?)._、、w(n)分別表示xk,、%、,w在第n個(gè)離散點(diǎn)上的值,窗口長(zhǎng)度 為256點(diǎn)的漢明窗函數(shù)為:
[0041]步驟1. 4:對(duì)各加窗語(yǔ)音幀xk,,1彡k'彡K',計(jì)算短時(shí)能量Ek,和短時(shí)過(guò)零率 Zk-:
[0044] 其中Ek,表示加窗語(yǔ)音幀Xk,的短時(shí)能量,Zk,表示Xk,的短時(shí)過(guò)零率,xk,(n) 為加窗語(yǔ)音幀xk,在第n個(gè)采樣點(diǎn)上的值,xk, (n-1)為xk,在第n-1個(gè)采樣點(diǎn)上的值,sgn[xk, (n)]、sgn[xk, (n-1)]分別為xk, (n)、xk, (n-1)的符號(hào)函數(shù),即:
[0046]步驟1. 5:確定短時(shí)能量閾值tE和短時(shí)過(guò)零率閾值tz:
[0049] 其中K'為語(yǔ)音幀總幀數(shù);
[0050] 步驟1. 6 :對(duì)各加窗語(yǔ)音幀,首先用短時(shí)能量作第一級(jí)判別,將短時(shí)能量值大于閾 值&的加窗語(yǔ)音幀標(biāo)記為一級(jí)判別有效語(yǔ)音幀,將幀序號(hào)最小的一級(jí)判別有效語(yǔ)音幀作 為當(dāng)前有效語(yǔ)音幀集合的起始幀,將幀序號(hào)最大的一級(jí)判別有效語(yǔ)音幀作為當(dāng)前有效語(yǔ)音 幀集合的結(jié)束幀,然后用短時(shí)過(guò)零率作第二級(jí)判別,即對(duì)當(dāng)前有效語(yǔ)音幀集合,以起始幀為 起點(diǎn),按照幀序號(hào)由大到小的順序逐幀判別,將短時(shí)過(guò)零率大于閾值tz的加窗語(yǔ)音幀標(biāo)記 為有效語(yǔ)音幀,并且以結(jié)束幀為起點(diǎn)按照幀序號(hào)由小到大的順序逐幀判別,將短時(shí)過(guò)零率 大于閾值&的加窗語(yǔ)音幀標(biāo)記為有效語(yǔ)音幀,將兩級(jí)判別后得到的有效語(yǔ)音幀集合記為 {sk}i KK,其中k為有效語(yǔ)音幀序號(hào),K為有效語(yǔ)音幀總幀數(shù),Sk為有效語(yǔ)音幀集合中的第 k個(gè)有效語(yǔ)音幀。
[0051]進(jìn)一步的,本發(fā)明方法中,所述步驟5中的標(biāo)準(zhǔn)化后情感因素與聲學(xué)特征的相關(guān) 性根據(jù)下式計(jì)算:
[0053] 其中E&為上述標(biāo)準(zhǔn)化后的數(shù)據(jù)Xn的殘差協(xié)方差矩陣;
[0054] 其中E表示影響語(yǔ)音情感表達(dá)中的情感因素的集合,為影響語(yǔ)音情感表達(dá)中的 情感因素,即集合E中的元素,tr(〇表示某個(gè)矩陣的跡,P(fJ表示對(duì)應(yīng)情感的語(yǔ)音樣本在 語(yǔ)音庫(kù)中出現(xiàn)的概率,tr(EA|fJ表示對(duì)應(yīng)情感的語(yǔ)音樣本中聲學(xué)特征A的總的變化性;
[0055]所述標(biāo)準(zhǔn)化后說(shuō)話人因素與聲學(xué)特征的相關(guān)性根據(jù)下式計(jì)算:
[0057] 其中Sp表示影響語(yǔ)音情感表達(dá)中的中的說(shuō)話人因素的集合,fSp為影響語(yǔ)音情感 表達(dá)中的說(shuō)話人因素,即集合Sp中的元素,有F= {E,Sp},F(xiàn)為影響語(yǔ)音情感表達(dá)中的因素 的集合,P(fSp)表示對(duì)應(yīng)說(shuō)話人的語(yǔ)音樣本在語(yǔ)音庫(kù)中出現(xiàn)的概率,tr(EA|fSp)表示對(duì)應(yīng) 說(shuō)話人的語(yǔ)音樣本中聲學(xué)特征A的總的變化性。
[0058]本發(fā)明能夠利用語(yǔ)音片段軌跡模型,量化語(yǔ)音表達(dá)因素與特征表現(xiàn)的相關(guān)性,利 用說(shuō)話人標(biāo)準(zhǔn)化方法,降低了說(shuō)話人身份、語(yǔ)音內(nèi)容等無(wú)關(guān)信息對(duì)于語(yǔ)音特征表現(xiàn)的影響, 選擇出含有較多情感信息的語(yǔ)音特征。
[0059]有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):