本發(fā)明屬于聲紋識(shí)別,特別涉及一種用于深度學(xué)習(xí)說(shuō)話人驗(yàn)證的分?jǐn)?shù)域特征提取方法、設(shè)備及介質(zhì)。
背景技術(shù):
1、說(shuō)話人驗(yàn)證屬于聲紋識(shí)別領(lǐng)域范疇,即給定兩個(gè)音頻,判定它們是否為同一個(gè)人所說(shuō)。傳統(tǒng)的說(shuō)話人驗(yàn)證系統(tǒng)主要依賴于從語(yǔ)音信號(hào)中提取特征來(lái)表示說(shuō)話人的身份信息。常用的特征提取方法包括濾波器組特征(fbank)和梅爾頻率倒譜系數(shù)(mfcc)。fbank特征通過(guò)模擬人耳的聽(tīng)覺(jué)特性,使用一組濾波器來(lái)分析語(yǔ)音信號(hào)的頻譜能量分布。mfcc則在fbank的基礎(chǔ)上進(jìn)行了進(jìn)一步的處理,通過(guò)離散余弦變換(dct)來(lái)降低特征之間的相關(guān)性。這些方法雖然在實(shí)踐中證明了其有效性,但仍然存在一些局限性,如難以充分捕捉語(yǔ)音信號(hào)中的細(xì)微差異和動(dòng)態(tài)特征。
2、近年來(lái),深度學(xué)習(xí)技術(shù)在語(yǔ)音處理領(lǐng)域取得了顯著進(jìn)展。卷積神經(jīng)網(wǎng)絡(luò)(cnn)和時(shí)延神經(jīng)網(wǎng)絡(luò)(tdnn)等模型被廣泛應(yīng)用于說(shuō)話人驗(yàn)證任務(wù)中。cnn通過(guò)其局部連接和權(quán)值共享的特性,能夠有效地學(xué)習(xí)語(yǔ)音信號(hào)的時(shí)頻結(jié)構(gòu)。tdnn則通過(guò)考慮輸入特征的時(shí)間依賴關(guān)系,更好地捕捉語(yǔ)音的動(dòng)態(tài)特征。這些深度學(xué)習(xí)模型在一定程度上提高了系統(tǒng)的性能,但仍然面臨著如何更有效地提取和利用語(yǔ)音信號(hào)中的豐富信息的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種用于深度學(xué)習(xí)說(shuō)話人驗(yàn)證的分?jǐn)?shù)域特征提取方法,能夠利用多階次的分?jǐn)?shù)階窗函數(shù)提供比傳統(tǒng)特征更靈活和全面的信息,在時(shí)頻平面上提供更豐富的信號(hào)表示,將這種分?jǐn)?shù)域特征與現(xiàn)有的深度學(xué)習(xí)模型結(jié)合有潛力揭示傳統(tǒng)方法難以捕捉的語(yǔ)音信號(hào)微妙特征。
2、為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:
3、一種用于深度學(xué)習(xí)說(shuō)話人驗(yàn)證的分?jǐn)?shù)域特征提取方法,包括以下步驟:
4、s1、對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重增強(qiáng)高頻部分;
5、具體的,選0.97的預(yù)加重系數(shù)進(jìn)行如下預(yù)加重:
6、x(t)=x0(t)-0.97*x0(t-1)
7、其中為x0(t)原始語(yǔ)音信號(hào),x(t)為預(yù)加重后語(yǔ)音信號(hào);
8、s2、對(duì)選定窗函數(shù)分別使用提取自分?jǐn)?shù)階傅里葉變換的n個(gè)不同階數(shù)的調(diào)制因子獲取分?jǐn)?shù)階窗函數(shù);
9、具體的,所述分?jǐn)?shù)階傅里葉變換表示為:
10、
11、核函數(shù)kp(t,u)可表示為
12、
13、其中時(shí)頻面的旋轉(zhuǎn)角度
14、對(duì)核函數(shù)公式做變換,并使用窗函數(shù)w(t)加窗,得到
15、
16、所述分?jǐn)?shù)階窗函數(shù)由原窗函數(shù)與調(diào)制因子結(jié)合得到,表示為:
17、
18、具體的,w(t)為漢明(hamming)窗表示為:
19、
20、窗函數(shù)長(zhǎng)度n=400;
21、階數(shù)分別為p1=1,p2=0.8,p3=0.6,p4=0.4,p5=0.2;
22、s3、對(duì)每一語(yǔ)音信號(hào)分別使用5個(gè)不同階數(shù)的分?jǐn)?shù)階窗函數(shù)獲取功率譜頻譜圖;
23、對(duì)所得功率譜頻譜圖,提取m維濾波器組(fbank)特征;
24、所述5個(gè)分?jǐn)?shù)階窗函數(shù)的階數(shù)為p1=1,p2=0.8,p3=0.6,p4=0.4,p5=0.2;
25、具體的,提取功率譜頻譜圖步驟包括以下步驟:
26、分幀:將輸入語(yǔ)音信號(hào)分割為有重疊的片段,片段長(zhǎng)度與窗函數(shù)長(zhǎng)度一致;
27、加窗:每幀語(yǔ)音信號(hào)分別使用5個(gè)不同階次的分?jǐn)?shù)階窗函數(shù)加窗;
28、執(zhí)行快速傅里葉變換,對(duì)每一幀進(jìn)行快速傅里葉變換,將時(shí)域信號(hào)轉(zhuǎn)換為頻域;計(jì)算功率譜;取快速傅里葉變換結(jié)果的模的平方,然后除以信號(hào)長(zhǎng)度進(jìn)行歸一化;
29、生成頻譜圖:將每一幀的頻譜按時(shí)間順序排列,形成二維的頻譜圖;
30、所述提取功率譜密度表示為:
31、
32、每一語(yǔ)音信號(hào)分別使用5個(gè)不同階次的分?jǐn)?shù)階窗函數(shù)加窗;
33、s4、對(duì)功率譜頻譜圖,使用m維梅爾濾波器組并取對(duì)數(shù)提取濾波器組(fbank)特征;
34、具體的,每個(gè)功率譜頻譜圖提取一個(gè)m維fbank特征,即建立語(yǔ)音信號(hào)個(gè)數(shù)×n個(gè)m維fbank特征;
35、所述fbank特征表示為:
36、
37、其中hl[k]為80維梅爾濾波器組,l=1,2,...,80表示梅爾濾波器序號(hào)索引,m=1,2,...,t表示時(shí)間維的索引,r為幀移,∈為極小的正數(shù),用于避免取對(duì)數(shù)時(shí)出現(xiàn)零或負(fù)值
38、根據(jù)每一語(yǔ)音信號(hào)的n個(gè)功率譜頻譜圖提取fbank特征,包括以下步驟:
39、對(duì)所述功率譜頻譜圖應(yīng)用梅爾濾波器組hl[k];這些濾波器在梅爾頻率尺度上均勻分布的,模擬了人耳對(duì)不同頻率的敏感度;l=1,2,...,l表示梅爾濾波器序號(hào)索引;
40、s5、對(duì)n個(gè)fbank特征分別加權(quán),并用softmax激活函數(shù)限制權(quán)重總和不變;
41、具體的,所述對(duì)n個(gè)fbank特征分別加權(quán),并用softmax激活函數(shù)限制權(quán)重總和不變,包括以下步驟:
42、對(duì)每組特征進(jìn)行零均值化處理;即對(duì)每組特征減去其均值,使得特征的均值為0,特征的分布中心對(duì)齊到零點(diǎn);
43、初始化權(quán)重參數(shù);為n個(gè)fbank特征分別初始化原始權(quán)重參數(shù);
44、共初始化5個(gè)原始權(quán)重參數(shù)w1,w2,w3,w4,w5,初始值均設(shè)為1.0;
45、使用softmax激活函數(shù)限制權(quán)重:將原始權(quán)重參數(shù)堆疊成一個(gè)向量后,使用softmax函數(shù)對(duì)該向量進(jìn)行歸一化,并乘以原始權(quán)重?cái)?shù)量,確保權(quán)重總和恒定;乘以5以確保權(quán)重總和恒定為5;所述softmax函數(shù)表示為:
46、
47、s6、對(duì)n個(gè)加權(quán)fbank特征,按階次從高到低在時(shí)間維上串聯(lián)拼接為一個(gè)多窗分?jǐn)?shù)階fbank特征,使用該特征輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練;
48、具體的,所述對(duì)n個(gè)加權(quán)fbank特征,按階次從高到低在時(shí)間維上串聯(lián)拼接為一個(gè)多窗分?jǐn)?shù)階fbank特征,表示為:
49、c[l,m]=5·softmax[w1·f1[l,m];w2·f2[l,m];w3·f3[l,m];w4·f4[l,m];w5·f5[l,m]]
50、具體的,使用該多窗分?jǐn)?shù)階fbank特征輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練包括以下步驟:
51、選定模型:選定tdnn模型和ecapa-tdnn模型分別搭配傳統(tǒng)fbank特征和所述多窗分?jǐn)?shù)階fbank特征進(jìn)行訓(xùn)練;
52、設(shè)定訓(xùn)練超參數(shù):輸入語(yǔ)音信號(hào)片段長(zhǎng)度為200ms,最大訓(xùn)練輪數(shù)(epoch)為max_epoch=100,批次大小為batch_size=64;采用adam優(yōu)化器,權(quán)重衰減為weight_decay=1e-4,學(xué)習(xí)率衰減策略為預(yù)熱余弦退火;
53、選定訓(xùn)練集數(shù)據(jù):選取voxceleb1語(yǔ)音數(shù)據(jù)集作為訓(xùn)練集;
54、輸入特征進(jìn)行訓(xùn)練:設(shè)置一個(gè)布爾型標(biāo)志freeze_weights,初始值為false,用于控制權(quán)重是否可更新,并初始化一個(gè)固定權(quán)重向量fixed_weights:根據(jù)當(dāng)前訓(xùn)練epoch決定是否更新權(quán)重,如果當(dāng)前輪次小于或等于預(yù)設(shè)閾值10,則允許更新權(quán)重,否則,凍結(jié)權(quán)重更新:將計(jì)算得到的權(quán)重值更新到fixed_weights中,當(dāng)權(quán)重被凍結(jié)時(shí),直接使用fixed_weights作為當(dāng)前權(quán)重:在訓(xùn)練初期允許權(quán)重自由調(diào)整,而在訓(xùn)練后期固定權(quán)重。
55、本發(fā)明利用n個(gè)不同階數(shù)的分?jǐn)?shù)階窗函數(shù)引入分?jǐn)?shù)階信息,能夠提取多角度的時(shí)頻域特征,并利用可學(xué)習(xí)參數(shù)權(quán)重自適應(yīng)的確定不同段特征的重要性,能夠便捷的與更有效的進(jìn)行說(shuō)話人驗(yàn)證。