技術(shù)特征:1.一種用于深度學(xué)習(xí)說話人驗(yàn)證的分?jǐn)?shù)域特征提取方法,其特征在于,包括以下步驟:
2.一種處理設(shè)備,其特征在于,包括:
3.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,當(dāng)計(jì)算機(jī)程序被處理器執(zhí)行時(shí)能實(shí)現(xiàn)權(quán)利要求1所述方法中的步驟。
技術(shù)總結(jié)本發(fā)明屬于聲紋識別技術(shù)領(lǐng)域,特別涉及一種用于深度學(xué)習(xí)說話人驗(yàn)證的分?jǐn)?shù)域特征提取方法、設(shè)備及介質(zhì)。包括以下步驟:對語音信號進(jìn)行預(yù)處理;對選定窗函數(shù)分別使用提取自分?jǐn)?shù)階傅里葉變換的不同階數(shù)的調(diào)制因子獲取分?jǐn)?shù)階窗函數(shù);對語音信號分別進(jìn)行短時(shí)傅里葉變換,得到功率譜頻譜圖;對所得功率譜頻譜圖,分別通過梅爾濾波器組進(jìn)行濾波并取對數(shù),得到M維濾波器組特征;對Fbank特征,統(tǒng)一分配初始值為1的可學(xué)習(xí)參數(shù)作為權(quán)重,并使用softmax激活函數(shù)限制權(quán)重總和不變;對加權(quán)Fbank特征,按階次從高到低在時(shí)間維上串聯(lián)拼接為一個(gè)多窗分?jǐn)?shù)階Fbank特征,使用該特征輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練;本發(fā)明突出不同階次特征的重要性,能有效的提高深度學(xué)習(xí)說話人驗(yàn)證系統(tǒng)的準(zhǔn)確性。
技術(shù)研發(fā)人員:徐麗云,何怡帆
受保護(hù)的技術(shù)使用者:山西大學(xué)
技術(shù)研發(fā)日:技術(shù)公布日:2025/1/6