本技術(shù)涉及音頻數(shù)據(jù)處理,具體涉及一種基于脈沖神經(jīng)網(wǎng)絡(luò)的未知音頻事件識別算法。
背景技術(shù):
1、聲音事件分類是語音信息檢索的一種應(yīng)用,能夠自動識別和標(biāo)注音頻信號中特定聲音事件,例如說話、音樂、動物叫聲等。目前,語音信息檢索技術(shù)在音頻數(shù)據(jù)的索引和查詢方面取得了顯著進(jìn)展,廣泛應(yīng)用于語音識別、音樂檢索和聲音事件檢測等領(lǐng)域?,F(xiàn)有的音頻識別方法通常依賴于深度學(xué)習(xí)模型,特別是卷積神經(jīng)網(wǎng)絡(luò)cnn和循環(huán)神經(jīng)網(wǎng)絡(luò)rnn,這些模型通過對大量標(biāo)注數(shù)據(jù)的訓(xùn)練,能夠有效地識別和分類已知類別的聲音事件。然而,這些方法的有效性依賴于訓(xùn)練數(shù)據(jù)的豐富性和多樣性,當(dāng)算法遇到未在訓(xùn)練集中出現(xiàn)的聲音事件時,通常會錯誤地將其歸類為最接近的已知類別。這種錯誤分類不僅影響識別的準(zhǔn)確性,還可能導(dǎo)致系統(tǒng)在處理音頻事件時的魯棒性下降。例如,在實際應(yīng)用中,系統(tǒng)可能會將引擎的異常聲音誤識別為背景噪音,從而忽略了潛在的故障預(yù)警。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于,提供一種基于脈沖神經(jīng)網(wǎng)絡(luò)的未知音頻事件識別算法,能夠在不依賴于預(yù)先標(biāo)注的未知類別信息的情況下,有效地識別和區(qū)分未知的聲音事件,提高系統(tǒng)的整體識別的準(zhǔn)確率,并為后續(xù)的未知聲音事件分析和處理提供支持。
2、本發(fā)明采取的技術(shù)方案是:一種基于脈沖神經(jīng)網(wǎng)絡(luò)的未知音頻事件識別算法,包括如下步驟:
3、s1:構(gòu)建音頻數(shù)據(jù)集,并將所述音頻數(shù)據(jù)集拆分為訓(xùn)練集、驗證集和測試集;
4、s2:對音頻數(shù)據(jù)集中的每段音頻數(shù)據(jù)進(jìn)行預(yù)處理,生成3d?log-mel頻譜圖;
5、s3:構(gòu)建脈沖神經(jīng)網(wǎng)絡(luò)模型,將測試集對應(yīng)的3d?log-mel頻譜圖輸入至所述脈沖神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行分類訓(xùn)練;所述脈沖神經(jīng)網(wǎng)絡(luò)模型包括卷積層、多個脈沖神經(jīng)單元、多層感知機(jī)mlp、重塑層和長短期記憶網(wǎng)絡(luò)lstm;所述脈沖神經(jīng)單元包括兩個脈沖單元和殘差卷積,所述脈沖單元由卷積層、批歸一化層和至少兩個小脈沖神經(jīng)元組成;
6、s4:使用交叉熵?fù)p失和對比損失聯(lián)合訓(xùn)所述脈沖神經(jīng)網(wǎng)絡(luò)模型;
7、s5:使用驗證集中的已知類別的音頻數(shù)據(jù)輸入至脈沖神經(jīng)網(wǎng)絡(luò)和自編碼器,推理獲得均方誤差平均損失,設(shè)定為區(qū)分已知類別和未知音頻類別的閾值;所述自編碼器包括編碼器和解碼器,所述編碼器包括輸入層、至少兩個隱藏層和輸出層,所述解碼器包括輸入層、至少兩個隱藏層和輸出層;
8、s6:使用訓(xùn)練好的脈沖神經(jīng)網(wǎng)絡(luò)模型對采集的音頻數(shù)據(jù)進(jìn)行識別,并將脈沖神經(jīng)網(wǎng)絡(luò)模型輸出的概率值輸入至自編碼器,通過自編碼器判定輸入數(shù)據(jù)屬于已知類別還是未知類別,若脈沖神經(jīng)網(wǎng)絡(luò)模型輸出的概率值高于所述閾值的則判定為未知類別,否則根據(jù)脈沖神經(jīng)網(wǎng)絡(luò)模型輸出的概率值判斷音頻具體屬于哪一已知類別。
9、進(jìn)一步地,所述步驟s2的具體步驟為:
10、s201:將音頻數(shù)據(jù)通過z-標(biāo)準(zhǔn)化轉(zhuǎn)變?yōu)檎龖B(tài)分布,使不同特征的音頻數(shù)據(jù)具有相同的量綱和分布,便于脈沖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí),具體公式為:
11、;
12、其中, x表示原始音頻數(shù)據(jù),表示原始音頻數(shù)據(jù)的均值,表示原始音頻數(shù)據(jù)的標(biāo)準(zhǔn)差,z表示z-標(biāo)準(zhǔn)化后的原始音頻數(shù)據(jù);
13、s202:使用梅爾濾波器組生成z-標(biāo)準(zhǔn)化后的原始音頻數(shù)據(jù)對應(yīng)的log-mel頻譜圖,并將所述log-mel頻譜圖中的log-mel頻譜特征值作為音頻數(shù)據(jù)的原始靜態(tài)特征;
14、s203:對每一幀log-mel頻譜計算前一幀和后一幀的差異,得到對應(yīng)的一階時間導(dǎo)數(shù),即一階delta差分特征,使用一階delta差分特征捕捉特征隨時間的變化;
15、求解一階delta差分特征的具體過程為:
16、選定用于計算一階delta差分特征的窗口大小 n1,對于每個時刻 t,分別計算每幀log-mel頻譜特征值前后1~ n1幀的加權(quán)差分,并且對于前后 n幀的加權(quán)差分,以作為歸一化因子對加權(quán)差分結(jié)果進(jìn)行歸一化,具體公式為:
17、;
18、其中,表示一階delta差分特征, c t+n表示時間幀 t處后 n幀的log-mel頻譜特征值, c t-n表示時間幀 t處前 n幀的log-mel頻譜特征值, n=1,2,……, n1;
19、s204:對一階delta差分特征計算前一幀和后一幀的差異,得到對應(yīng)的二階delta差分特征,使用二階delta差分特征捕捉特征隨時間變化的加速度信息,描述信號的動態(tài)變化特性;
20、求解二階delta差分特征的具體過程為:
21、選定用于計算為二階delta差分特征的窗口大小 n2,分別計算每幀一階delta差分特征前后1~ n2幀的加權(quán)差分,并且對于前后 n幀的加權(quán)差分,以作為歸一化因子對加權(quán)差分結(jié)果進(jìn)行歸一化,具體公式為:
22、;
23、其中,表示表示第 t幀的二階delta差分特征,表示第 t+ n幀的一階delta差分特征,表示第 t- n幀的一階delta差分特征, n=1,2,……, n2;
24、s205:將步驟s202得到的log-mel頻譜特征值、步驟s203得到的一階delta差分特征和步驟s204得到的二階delta差分特征按照特征維度進(jìn)行堆疊,獲得3d?log-mel頻譜信號。
25、進(jìn)一步地,所述步驟s202的具體步驟為:
26、s2021:將z-標(biāo)準(zhǔn)化后的原始音頻數(shù)據(jù)分成重疊的幀,每幀包含 n3個樣本,使用漢明窗減少頻譜泄露,并獲得加窗后的信號,具體公式為:
27、;
28、;
29、其中, w[ n]表示漢明窗, x w[ n]表示加窗后得到的信號, x[ n]表示每一幀的信號,0≤ n≤ n3-1;
30、s2022:對每幀加窗后的信號使用傅里葉變換進(jìn)行離散,并計算每一幀離散信號的功率譜,具體公式為:
31、;
32、;
33、其中, x[ k]表示功率譜, p[ k]表示每一幀離散信號的功率譜, k表示頻率索引, j表示虛數(shù)單位;
34、s2023:將每幀信號的頻率刻度和功率譜轉(zhuǎn)換為mel頻譜刻度,并對所述mel頻譜刻度去對數(shù)得到log-mel頻譜圖,具體公式為:
35、;
36、;
37、;
38、其中, h m[ k]表示是?mel?濾波器組的濾波器響應(yīng), f( m)表示第 m個梅爾濾波器的中心頻率, s m表示通過?mel?濾波器組計算出的?mel?頻譜能量。
39、進(jìn)一步地,所述步驟s3的具體步驟為:
40、s301:將所述3d?log-mel頻譜信號輸入至卷積層,按照批量和通道數(shù)進(jìn)行形狀重塑;
41、s302:通過脈沖神經(jīng)單元對卷積層輸出的頻譜信號進(jìn)行處理,以脈沖單元提供前后時間序列信息,具體步驟為:
42、s3021:通過小脈沖神經(jīng)元對頻譜信號進(jìn)行處理,捕獲頻譜信號的時間特征,具體過程為:
43、;
44、;
45、;
46、其中, u[ t]表示 t時刻重置前的膜電位, s[ t]表示 t時刻的輸出尖峰,當(dāng)有尖峰時等于1,否則為0, t表示時間常數(shù),影響膜電位的衰減速度, v[ t-1]表示 t-1時刻觸發(fā)尖峰后的膜電位, i[ t]表示在時間 t時刻的輸入電流,表示heaviside階躍函數(shù),表示膜電位的閾值,當(dāng) u[ t]超過此值時,神經(jīng)元會觸發(fā)尖峰, v[ t]表示 t時刻觸發(fā)尖峰后的膜電位, v reset表示膜電位在觸發(fā)尖峰后重置的值;
47、s3022:使用脈沖單元中的卷積層提取頻譜信號的尺度不變信息,對每一幀輸入 i,設(shè)定卷積核大小為 k,進(jìn)行卷積操作,具體公式為:
48、;
49、其中, s( u, v)表示卷積結(jié)果矩陣中第 u行第 v列的值, u表示卷積 k的高度, v表示卷積 k的寬度, i( u+a, v+b)表示輸入矩陣 i中第 u+a行第 v+b的值, k( a, b)表示卷積核 k中第 a行第 b列的值;
50、s3023:使用批歸一化層對脈沖單元中卷積層的輸出進(jìn)行標(biāo)準(zhǔn)化處理,以加速脈沖神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練并提高其穩(wěn)定性,具體公式為:
51、;
52、;
53、;
54、其中, y i表示表示經(jīng)過批歸一化處理后的輸出,表示第一可學(xué)習(xí)參數(shù),用于縮放標(biāo)準(zhǔn)化后的值, x i表示批次中第 i個樣本的輸入特征值,表示每一批次的特征求解均值,表示每一批次的特征方差,為常數(shù),表示第二可學(xué)習(xí)參數(shù),用于平移標(biāo)準(zhǔn)化后的值, q表示批次中樣本的數(shù)量;
55、s3024:脈沖單元提取完輸入的頻譜信號內(nèi)的特異性特征后,通過殘差卷積與輸入的頻譜信號進(jìn)行融合,提高信息流的傳播效率,脈沖神經(jīng)單元的輸出表達(dá)式為:
56、 output= f( w)?+ conv( w);
57、其中, output表示脈沖神經(jīng)單元的輸出, w表示輸入的特征 ,f表示兩個脈沖單元的輸出 ,conv表示卷積操作;
58、s303:通過脈沖神經(jīng)單元得到頻譜信號的尺度不變特征,并對輸出的特征圖脈沖神經(jīng)單元使用空間平均池化進(jìn)行處理,獲得特征向量;
59、s304:將所述特征向量依次輸入多層感知機(jī)mlp、重塑層和長短期記憶網(wǎng)絡(luò)lstm進(jìn)行處理,所述長短期記憶網(wǎng)絡(luò)lstm包括輸入門、遺忘門和輸出門,其中, sig表示激活函數(shù)sigmoid,用于將輸入值映射到0到1之間, w i表示輸入門的權(quán)重矩陣, w f表示遺忘門的權(quán)重矩陣, w o表示輸出門的權(quán)重矩陣, h t-1表示表示前一個時刻的隱藏狀態(tài), x t表示表示當(dāng)前時刻的輸入向量, b i表示輸入門的偏置向量, b f表示遺忘門的偏置向量, b o表示輸出門的偏置向量;根據(jù)當(dāng)前輸入和前一個隱藏狀態(tài)生成的候選狀態(tài),其中,tanh表示表示雙曲正切函數(shù),用于將輸入值映射到-1到1之間, w c表示候選狀態(tài)的權(quán)重矩陣, b c表示候選狀態(tài)的偏置向量,通過遺忘門和輸入門的調(diào)控,結(jié)合前一個單元狀態(tài) c t-1和候選狀態(tài)更新得到單元狀態(tài);
60、s305:將長短期記憶網(wǎng)絡(luò)lstm輸出的特征依次輸入重塑層和多層感知機(jī)mlp進(jìn)行處理,輸入向量 x1經(jīng)過隱藏層計算,其中,表示隱藏層輸出的特征向量, w1表示輸入層到隱藏層的權(quán)重矩陣, b1表示隱藏層的偏置向量;將隱藏層輸出的隱藏特征向量送入輸出層進(jìn)行運(yùn)算,輸出特征向量,其中, w2表示隱藏層到輸出層的權(quán)重矩陣, b2表示輸出層的偏置向量。
61、進(jìn)一步地,所述交叉熵?fù)p失和對比損失的計算公式為:
62、;
63、;
64、其中, lce表示交叉熵?fù)p失, bs表示批量數(shù)據(jù)的大小, x b表示第 b個樣本, y b表示第 b個樣本的標(biāo)簽, f( x b, y b)表示模型對樣本 x b在真實標(biāo)簽 y b上的輸出, d表示類別的總數(shù), d表示類別索引, x b,d表示第 b個樣本在第 d類上的輸入, f( x b,d)表示輸入數(shù)據(jù)的第 d類的輸出值,表示對比損失, p1表示批量數(shù)據(jù)中正樣本的集合, x1表示當(dāng)前樣本, x1+表示與當(dāng)前樣本相似的正樣本,即與當(dāng)前樣本屬于同一類別的樣本,表示溫度參數(shù), sim表示余弦相似度, x1-表示與當(dāng)前樣本不相似的負(fù)樣本,即與當(dāng)前樣本屬于不同類別的樣本, n neg表示批量數(shù)據(jù)中負(fù)樣本的集合。
65、進(jìn)一步地,所述編碼器輸入層的節(jié)點數(shù)由脈沖單元的卷積層輸出的特征圖經(jīng)過平均池化得到;在訓(xùn)練所述自編碼器時,使用均方誤差訓(xùn)練自編碼器,具體公式為:
66、;
67、其中, mse表示均方誤差, s表示樣本數(shù)量, y ae表示真實預(yù)測值,表示自編碼器預(yù)測值。
68、本發(fā)明的有益效果在于:
69、本發(fā)明在對數(shù)據(jù)進(jìn)行預(yù)處理時,有別于傳統(tǒng)使用2d-mel頻譜圖,而是融合動態(tài)和原始靜態(tài)特征構(gòu)成三維log-mel特征,以捕捉更加細(xì)節(jié)的低頻語音信號,以便更好的理解聲音事件的特征;本發(fā)明結(jié)合脈沖神經(jīng)元與殘差神經(jīng)網(wǎng)絡(luò)構(gòu)建脈沖神經(jīng)網(wǎng)絡(luò)模型,能夠在提取特征信息的同時,有效處理音頻中的時間相關(guān)性特征;在訓(xùn)練模型時,既使用交叉熵?fù)p失進(jìn)行分類,又結(jié)合對比損失,對比損失可將同一類別的樣本特征距離縮小,并擴(kuò)大不同類別樣本的特征距離,使得脈沖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到更加緊湊的特征,提高未知類別和已知類別的識別準(zhǔn)確率;在區(qū)分未知類別和已知類別的過程中,不同于傳統(tǒng)方法使用神經(jīng)網(wǎng)絡(luò)輸出層中的最大概率值logit來判定分布,本發(fā)明通過自編碼器,依據(jù)已知類別的重構(gòu)損失設(shè)定閾值,避免當(dāng)模型校準(zhǔn)較差的時候,出現(xiàn)的性能損失。