一種基于脈沖神經(jīng)網(wǎng)絡(luò)的未知音頻事件識別算法

文檔序號：40578871發(fā)布日期：2025-01-07 20:18閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及音頻數(shù)據(jù)處理，具體涉及一種基于脈沖神經(jīng)網(wǎng)絡(luò)的未知音頻事件識別算法。

背景技術(shù)：

1、聲音事件分類是語音信息檢索的一種應(yīng)用，能夠自動識別和標(biāo)注音頻信號中特定聲音事件，例如說話、音樂、動物叫聲等。目前，語音信息檢索技術(shù)在音頻數(shù)據(jù)的索引和查詢方面取得了顯著進(jìn)展，廣泛應(yīng)用于語音識別、音樂檢索和聲音事件檢測等領(lǐng)域?，F(xiàn)有的音頻識別方法通常依賴于深度學(xué)習(xí)模型，特別是卷積神經(jīng)網(wǎng)絡(luò)cnn和循環(huán)神經(jīng)網(wǎng)絡(luò)rnn，這些模型通過對大量標(biāo)注數(shù)據(jù)的訓(xùn)練，能夠有效地識別和分類已知類別的聲音事件。然而，這些方法的有效性依賴于訓(xùn)練數(shù)據(jù)的豐富性和多樣性，當(dāng)算法遇到未在訓(xùn)練集中出現(xiàn)的聲音事件時，通常會錯誤地將其歸類為最接近的已知類別。這種錯誤分類不僅影響識別的準(zhǔn)確性，還可能導(dǎo)致系統(tǒng)在處理音頻事件時的魯棒性下降。例如，在實際應(yīng)用中，系統(tǒng)可能會將引擎的異常聲音誤識別為背景噪音，從而忽略了潛在的故障預(yù)警。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于，提供一種基于脈沖神經(jīng)網(wǎng)絡(luò)的未知音頻事件識別算法，能夠在不依賴于預(yù)先標(biāo)注的未知類別信息的情況下，有效地識別和區(qū)分未知的聲音事件，提高系統(tǒng)的整體識別的準(zhǔn)確率，并為后續(xù)的未知聲音事件分析和處理提供支持。

2、本發(fā)明采取的技術(shù)方案是：一種基于脈沖神經(jīng)網(wǎng)絡(luò)的未知音頻事件識別算法，包括如下步驟：

3、s1：構(gòu)建音頻數(shù)據(jù)集，并將所述音頻數(shù)據(jù)集拆分為訓(xùn)練集、驗證集和測試集；

4、s2：對音頻數(shù)據(jù)集中的每段音頻數(shù)據(jù)進(jìn)行預(yù)處理，生成3d?log-mel頻譜圖；

5、s3：構(gòu)建脈沖神經(jīng)網(wǎng)絡(luò)模型，將測試集對應(yīng)的3d?log-mel頻譜圖輸入至所述脈沖神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行分類訓(xùn)練；所述脈沖神經(jīng)網(wǎng)絡(luò)模型包括卷積層、多個脈沖神經(jīng)單元、多層感知機(jī)mlp、重塑層和長短期記憶網(wǎng)絡(luò)lstm；所述脈沖神經(jīng)單元包括兩個脈沖單元和殘差卷積，所述脈沖單元由卷積層、批歸一化層和至少兩個小脈沖神經(jīng)元組成；

6、s4：使用交叉熵?fù)p失和對比損失聯(lián)合訓(xùn)所述脈沖神經(jīng)網(wǎng)絡(luò)模型；

7、s5：使用驗證集中的已知類別的音頻數(shù)據(jù)輸入至脈沖神經(jīng)網(wǎng)絡(luò)和自編碼器，推理獲得均方誤差平均損失，設(shè)定為區(qū)分已知類別和未知音頻類別的閾值；所述自編碼器包括編碼器和解碼器，所述編碼器包括輸入層、至少兩個隱藏層和輸出層，所述解碼器包括輸入層、至少兩個隱藏層和輸出層；

8、s6：使用訓(xùn)練好的脈沖神經(jīng)網(wǎng)絡(luò)模型對采集的音頻數(shù)據(jù)進(jìn)行識別，并將脈沖神經(jīng)網(wǎng)絡(luò)模型輸出的概率值輸入至自編碼器，通過自編碼器判定輸入數(shù)據(jù)屬于已知類別還是未知類別，若脈沖神經(jīng)網(wǎng)絡(luò)模型輸出的概率值高于所述閾值的則判定為未知類別，否則根據(jù)脈沖神經(jīng)網(wǎng)絡(luò)模型輸出的概率值判斷音頻具體屬于哪一已知類別。

9、進(jìn)一步地，所述步驟s2的具體步驟為：

10、s201：將音頻數(shù)據(jù)通過z-標(biāo)準(zhǔn)化轉(zhuǎn)變?yōu)檎龖B(tài)分布，使不同特征的音頻數(shù)據(jù)具有相同的量綱和分布，便于脈沖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)，具體公式為：

11、；

12、其中， x表示原始音頻數(shù)據(jù)，表示原始音頻數(shù)據(jù)的均值，表示原始音頻數(shù)據(jù)的標(biāo)準(zhǔn)差，z表示z-標(biāo)準(zhǔn)化后的原始音頻數(shù)據(jù)；

13、s202：使用梅爾濾波器組生成z-標(biāo)準(zhǔn)化后的原始音頻數(shù)據(jù)對應(yīng)的log-mel頻譜圖，并將所述log-mel頻譜圖中的log-mel頻譜特征值作為音頻數(shù)據(jù)的原始靜態(tài)特征；

14、s203：對每一幀log-mel頻譜計算前一幀和后一幀的差異，得到對應(yīng)的一階時間導(dǎo)數(shù)，即一階delta差分特征，使用一階delta差分特征捕捉特征隨時間的變化；

15、求解一階delta差分特征的具體過程為：

16、選定用于計算一階delta差分特征的窗口大小 n1，對于每個時刻 t，分別計算每幀log-mel頻譜特征值前后1~ n1幀的加權(quán)差分，并且對于前后 n幀的加權(quán)差分，以作為歸一化因子對加權(quán)差分結(jié)果進(jìn)行歸一化，具體公式為：

17、；

18、其中，表示一階delta差分特征， c t+n表示時間幀 t處后 n幀的log-mel頻譜特征值， c t-n表示時間幀 t處前 n幀的log-mel頻譜特征值， n=1,2,……, n1；

19、s204：對一階delta差分特征計算前一幀和后一幀的差異，得到對應(yīng)的二階delta差分特征，使用二階delta差分特征捕捉特征隨時間變化的加速度信息，描述信號的動態(tài)變化特性；

20、求解二階delta差分特征的具體過程為：

21、選定用于計算為二階delta差分特征的窗口大小 n2，分別計算每幀一階delta差分特征前后1~ n2幀的加權(quán)差分，并且對于前后 n幀的加權(quán)差分，以作為歸一化因子對加權(quán)差分結(jié)果進(jìn)行歸一化，具體公式為：

22、；

23、其中，表示表示第 t幀的二階delta差分特征，表示第 t+ n幀的一階delta差分特征，表示第 t- n幀的一階delta差分特征， n=1,2,……, n2；

24、s205：將步驟s202得到的log-mel頻譜特征值、步驟s203得到的一階delta差分特征和步驟s204得到的二階delta差分特征按照特征維度進(jìn)行堆疊，獲得3d?log-mel頻譜信號。

25、進(jìn)一步地，所述步驟s202的具體步驟為：

26、s2021：將z-標(biāo)準(zhǔn)化后的原始音頻數(shù)據(jù)分成重疊的幀，每幀包含 n3個樣本，使用漢明窗減少頻譜泄露，并獲得加窗后的信號，具體公式為：

27、；

28、；

29、其中， w[ n]表示漢明窗， x w[ n]表示加窗后得到的信號， x[ n]表示每一幀的信號，0≤ n≤ n3-1；

30、s2022：對每幀加窗后的信號使用傅里葉變換進(jìn)行離散，并計算每一幀離散信號的功率譜，具體公式為：

31、；

32、；

33、其中， x[ k]表示功率譜， p[ k]表示每一幀離散信號的功率譜， k表示頻率索引， j表示虛數(shù)單位；

34、s2023：將每幀信號的頻率刻度和功率譜轉(zhuǎn)換為mel頻譜刻度，并對所述mel頻譜刻度去對數(shù)得到log-mel頻譜圖，具體公式為：

35、；

36、；

37、；

38、其中， h m[ k]表示是?mel?濾波器組的濾波器響應(yīng)， f( m)表示第 m個梅爾濾波器的中心頻率， s m表示通過?mel?濾波器組計算出的?mel?頻譜能量。

39、進(jìn)一步地，所述步驟s3的具體步驟為：

40、s301：將所述3d?log-mel頻譜信號輸入至卷積層，按照批量和通道數(shù)進(jìn)行形狀重塑；

41、s302：通過脈沖神經(jīng)單元對卷積層輸出的頻譜信號進(jìn)行處理，以脈沖單元提供前后時間序列信息，具體步驟為：

42、s3021：通過小脈沖神經(jīng)元對頻譜信號進(jìn)行處理，捕獲頻譜信號的時間特征，具體過程為：

43、；

44、；

45、；

46、其中， u[ t]表示 t時刻重置前的膜電位， s[ t]表示 t時刻的輸出尖峰，當(dāng)有尖峰時等于1，否則為0， t表示時間常數(shù)，影響膜電位的衰減速度， v[ t-1]表示 t-1時刻觸發(fā)尖峰后的膜電位， i[ t]表示在時間 t時刻的輸入電流，表示heaviside階躍函數(shù)，表示膜電位的閾值，當(dāng) u[ t]超過此值時，神經(jīng)元會觸發(fā)尖峰， v[ t]表示 t時刻觸發(fā)尖峰后的膜電位， v reset表示膜電位在觸發(fā)尖峰后重置的值；

47、s3022：使用脈沖單元中的卷積層提取頻譜信號的尺度不變信息，對每一幀輸入 i，設(shè)定卷積核大小為 k，進(jìn)行卷積操作，具體公式為：

48、；

49、其中， s( u， v)表示卷積結(jié)果矩陣中第 u行第 v列的值， u表示卷積 k的高度， v表示卷積 k的寬度， i( u+a， v+b)表示輸入矩陣 i中第 u+a行第 v+b的值， k( a， b)表示卷積核 k中第 a行第 b列的值；

50、s3023：使用批歸一化層對脈沖單元中卷積層的輸出進(jìn)行標(biāo)準(zhǔn)化處理，以加速脈沖神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練并提高其穩(wěn)定性，具體公式為：

51、；

52、；

53、；

54、其中， y i表示表示經(jīng)過批歸一化處理后的輸出，表示第一可學(xué)習(xí)參數(shù)，用于縮放標(biāo)準(zhǔn)化后的值， x i表示批次中第 i個樣本的輸入特征值，表示每一批次的特征求解均值，表示每一批次的特征方差，為常數(shù)，表示第二可學(xué)習(xí)參數(shù)，用于平移標(biāo)準(zhǔn)化后的值， q表示批次中樣本的數(shù)量；

55、s3024：脈沖單元提取完輸入的頻譜信號內(nèi)的特異性特征后，通過殘差卷積與輸入的頻譜信號進(jìn)行融合，提高信息流的傳播效率，脈沖神經(jīng)單元的輸出表達(dá)式為：

56、 output= f( w)?+ conv( w)；

57、其中， output表示脈沖神經(jīng)單元的輸出， w表示輸入的特征，f表示兩個脈沖單元的輸出，conv表示卷積操作；

58、s303：通過脈沖神經(jīng)單元得到頻譜信號的尺度不變特征，并對輸出的特征圖脈沖神經(jīng)單元使用空間平均池化進(jìn)行處理，獲得特征向量；

59、s304：將所述特征向量依次輸入多層感知機(jī)mlp、重塑層和長短期記憶網(wǎng)絡(luò)lstm進(jìn)行處理，所述長短期記憶網(wǎng)絡(luò)lstm包括輸入門、遺忘門和輸出門，其中， sig表示激活函數(shù)sigmoid，用于將輸入值映射到0到1之間， w i表示輸入門的權(quán)重矩陣， w f表示遺忘門的權(quán)重矩陣， w o表示輸出門的權(quán)重矩陣， h t-1表示表示前一個時刻的隱藏狀態(tài)， x t表示表示當(dāng)前時刻的輸入向量， b i表示輸入門的偏置向量， b f表示遺忘門的偏置向量， b o表示輸出門的偏置向量；根據(jù)當(dāng)前輸入和前一個隱藏狀態(tài)生成的候選狀態(tài)，其中，tanh表示表示雙曲正切函數(shù)，用于將輸入值映射到-1到1之間， w c表示候選狀態(tài)的權(quán)重矩陣， b c表示候選狀態(tài)的偏置向量，通過遺忘門和輸入門的調(diào)控，結(jié)合前一個單元狀態(tài) c t-1和候選狀態(tài)更新得到單元狀態(tài)；

60、s305：將長短期記憶網(wǎng)絡(luò)lstm輸出的特征依次輸入重塑層和多層感知機(jī)mlp進(jìn)行處理，輸入向量 x1經(jīng)過隱藏層計算，其中，表示隱藏層輸出的特征向量， w1表示輸入層到隱藏層的權(quán)重矩陣， b1表示隱藏層的偏置向量；將隱藏層輸出的隱藏特征向量送入輸出層進(jìn)行運(yùn)算，輸出特征向量，其中， w2表示隱藏層到輸出層的權(quán)重矩陣， b2表示輸出層的偏置向量。

61、進(jìn)一步地，所述交叉熵?fù)p失和對比損失的計算公式為：

62、；

63、；

64、其中， lce表示交叉熵?fù)p失， bs表示批量數(shù)據(jù)的大小， x b表示第 b個樣本， y b表示第 b個樣本的標(biāo)簽， f( x b， y b)表示模型對樣本 x b在真實標(biāo)簽 y b上的輸出， d表示類別的總數(shù)， d表示類別索引， x b,d表示第 b個樣本在第 d類上的輸入， f( x b,d)表示輸入數(shù)據(jù)的第 d類的輸出值，表示對比損失， p1表示批量數(shù)據(jù)中正樣本的集合， x1表示當(dāng)前樣本， x1+表示與當(dāng)前樣本相似的正樣本，即與當(dāng)前樣本屬于同一類別的樣本，表示溫度參數(shù)， sim表示余弦相似度， x1-表示與當(dāng)前樣本不相似的負(fù)樣本，即與當(dāng)前樣本屬于不同類別的樣本， n neg表示批量數(shù)據(jù)中負(fù)樣本的集合。

65、進(jìn)一步地，所述編碼器輸入層的節(jié)點數(shù)由脈沖單元的卷積層輸出的特征圖經(jīng)過平均池化得到；在訓(xùn)練所述自編碼器時，使用均方誤差訓(xùn)練自編碼器，具體公式為：

66、；

67、其中， mse表示均方誤差， s表示樣本數(shù)量， y ae表示真實預(yù)測值，表示自編碼器預(yù)測值。

68、本發(fā)明的有益效果在于：

69、本發(fā)明在對數(shù)據(jù)進(jìn)行預(yù)處理時，有別于傳統(tǒng)使用2d-mel頻譜圖，而是融合動態(tài)和原始靜態(tài)特征構(gòu)成三維log-mel特征，以捕捉更加細(xì)節(jié)的低頻語音信號，以便更好的理解聲音事件的特征；本發(fā)明結(jié)合脈沖神經(jīng)元與殘差神經(jīng)網(wǎng)絡(luò)構(gòu)建脈沖神經(jīng)網(wǎng)絡(luò)模型，能夠在提取特征信息的同時，有效處理音頻中的時間相關(guān)性特征；在訓(xùn)練模型時，既使用交叉熵?fù)p失進(jìn)行分類，又結(jié)合對比損失，對比損失可將同一類別的樣本特征距離縮小，并擴(kuò)大不同類別樣本的特征距離，使得脈沖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到更加緊湊的特征，提高未知類別和已知類別的識別準(zhǔn)確率；在區(qū)分未知類別和已知類別的過程中，不同于傳統(tǒng)方法使用神經(jīng)網(wǎng)絡(luò)輸出層中的最大概率值logit來判定分布，本發(fā)明通過自編碼器，依據(jù)已知類別的重構(gòu)損失設(shè)定閾值，避免當(dāng)模型校準(zhǔn)較差的時候，出現(xiàn)的性能損失。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：游捷,蔡瑞澤,蔡體健,熊漢卿,闕越,譚林豐,劉文涵
技術(shù)所有人：華東交通大學(xué)
我是此專利的發(fā)明人

上一篇：一種預(yù)防煤礦火災(zāi)用自動滅火設(shè)備的制作方法
上一篇：氣體冷卻等離子體弧炬的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于脈沖神經(jīng)網(wǎng)絡(luò)的未知音頻事件識別算法