本發(fā)明屬于自動語音識別領(lǐng)域,涉及一種基于注意力與邊界檢測的非流式模型流式語音識別方法。
背景技術(shù):
1、自動語音識別技術(shù)通過將音頻信號轉(zhuǎn)錄為文字內(nèi)容,在科研和日常生活中扮演著重要角色。流式語音識別能夠在音頻流輸入的過程中實時輸出轉(zhuǎn)錄文本。而基于transformer的語音識別模型,是將音頻信號一次性轉(zhuǎn)換為向量表示,然后通過解碼器(decoder)模塊進行自回歸解碼。這類模型在非流式語音識別任務中表現(xiàn)出色,但用于流式語音識別時效果不佳,并且會消耗更多的計算資源。
2、一些傳統(tǒng)方法為解決非流式模型在流式識別中的挑戰(zhàn),采用局部轉(zhuǎn)錄策略。通常是將音頻分成小片段,模型對這些片段分別進行轉(zhuǎn)錄,并尋找多個片段轉(zhuǎn)錄內(nèi)容中的最長公共前綴。雖然這類方法無需修改模型的參數(shù)和結(jié)構(gòu),且能實現(xiàn)較為有效的流式語音識別,但其在控制轉(zhuǎn)錄延遲性和不確定性上表現(xiàn)較弱,同時也帶來了較大的計算開銷。
3、在語音翻譯領(lǐng)域,非流式模型的流式翻譯同樣是一個關(guān)鍵挑戰(zhàn)。一些研究方法聚焦于transformer模型中的注意力機制,以此來控制解碼時機,判斷音頻幀的最大注意力權(quán)重是否接近音頻片段末尾,或在末尾幀的注意力權(quán)重達到某個閾值。這種方式也可以應用于語音識別領(lǐng)域。相比于局部轉(zhuǎn)錄策略,基于交叉注意力的解碼策略能夠降低轉(zhuǎn)錄的延遲性。
4、然而,基于注意力機制控制解碼的方式往往關(guān)注最大注意力權(quán)重的位置,但這種做法存在一定的準確性問題。僅關(guān)注最大注意力權(quán)重可能會忽略背景噪聲,并導致模型陷入局部不穩(wěn)定的區(qū)域。因此,應該擴展到更廣域的權(quán)重值進行考量。此外,轉(zhuǎn)錄結(jié)果的可靠性也不完全保障。多個音頻片段可能會切割一個完整單詞,此時需要通過單詞邊界檢測機制來防止這種情況發(fā)生。如果解碼過程中出現(xiàn)過早停止的情況,邊界檢測也可以幫助糾正解碼時機。一些方法通過線性層或循環(huán)神經(jīng)網(wǎng)絡(rnn)來檢測轉(zhuǎn)錄內(nèi)容的邊界,但在處理復雜音頻時,這類方法的表現(xiàn)欠佳,效率較低。同時,轉(zhuǎn)錄內(nèi)容的不可靠性也會影響邊界檢測的效果。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是解決現(xiàn)有技術(shù)存在的問題,提供一種基于注意力與邊界檢測的非流式模型流式語音識別方法,包括:分割音頻片段,并對音頻片段進行特征提取,生成對數(shù)梅爾頻譜圖;使用非流式語音模型whisper對音頻片段進行轉(zhuǎn)錄,提取每幀音頻在模型中的交叉注意力,獲得對應的注意力權(quán)重;設定長度為的滑動窗口,計算窗口內(nèi)各幀的平均注意力權(quán)重。當某窗口的最大平均注意力權(quán)重距離音頻結(jié)束幀的距離小于設定閾值時,控制模型停止解碼;使用詞邊界檢測模塊,對解碼內(nèi)容進行檢測,判斷停止解碼時是否存在截斷的轉(zhuǎn)錄詞,從而確保正確輸出轉(zhuǎn)錄結(jié)果。同時根據(jù)邊界檢測情況動態(tài)調(diào)整閾值,以實現(xiàn)精準高效的實時語音識別。
2、本發(fā)明采用的技術(shù)方案如下:一種基于注意力與邊界檢測的非流式模型流式語音識別方法,包括以下步驟:
3、步驟1,對接收的實時音頻流切割出多個音頻片段;
4、步驟2,將步驟1中分割的音頻片段片段轉(zhuǎn)換為對數(shù)梅爾頻譜圖;
5、步驟3,將對數(shù)梅爾頻譜圖輸入至whisper模型,獲得轉(zhuǎn)錄文本,并計算whisper模型中注意力權(quán)重之和;
6、所述whisper模型包括卷積層、位置編碼、encoder模塊和decoder模塊,encoder模塊包括多個由自注意力機制和多層感知器構(gòu)成的編碼器塊,decoder模塊包括多個由自注意力機制、多層感知器和交叉注意力機制組成的解碼器塊;
7、步驟4,從音頻片段的起始幀開始,設定長度為的滑動窗口,計算滑動窗口內(nèi)各幀音頻的平均注意力權(quán)重,在長度為的音頻片段中,當滑動窗口中最大的平均注意力權(quán)重對應的窗口末端靠近音頻片段末尾,并且其與末尾的距離小于閾值時,控制模型停止解碼;
8、步驟5,解碼停止時,通過邊界檢測模型檢測停止位置是否在單詞的邊界位置;
9、步驟6,根據(jù)步驟5中單詞邊界的檢測情況,計算步驟3中轉(zhuǎn)錄文本的停止解碼位置與步驟5中單詞邊界之間的差值,通過調(diào)整函數(shù)動態(tài)調(diào)整步驟4中閾值的值;當whisper模型停止解碼時的音頻幀位置剛好達到或超出單詞邊界位置,則表明發(fā)生截斷,若發(fā)生截斷,則該音頻片段將不會直接轉(zhuǎn)錄文本,而通過緩存并等待下一音頻片段,共同轉(zhuǎn)錄文本;若未發(fā)生截斷則進入步驟7;
10、步驟7,由whisper模型的decoder模塊輸出音頻片段的轉(zhuǎn)錄內(nèi)容。
11、進一步的,步驟1中對接收的實時音頻流以特定的采樣率進行采樣,隨后以大小為的窗口,按照步長切割出多個音頻片段,截取第個片段的計算公式如下:
12、
13、其中,為原始音頻信號序列,截取的第個片段中第個音頻樣本值,其中。
14、進一步的,步驟2的具體實現(xiàn)方式如下;
15、對于步驟(1)中分割的片段內(nèi)的時間和音頻片段頻率,將音頻信號轉(zhuǎn)換為頻譜圖,再將音頻頻率轉(zhuǎn)換為梅爾頻率,頻譜圖轉(zhuǎn)換為梅爾頻譜圖,最后將梅爾頻譜圖轉(zhuǎn)換為對數(shù)梅爾頻譜圖。
16、進一步的,whisper模型的處理過程如下:
17、步驟3.1,步驟2中得到的音頻片段對數(shù)梅爾頻譜圖經(jīng)過兩層卷積層實現(xiàn)降采樣,提取局部時率信息,同時使用gelu作為激活函數(shù),引入非線性;
18、步驟3.2,經(jīng)過步驟3.1中卷積層提取特征后,添加正弦位置編碼,使模型能夠識別不同時間步長的輸入;
19、步驟3.3,由上述步驟處理后,輸入至encoder模塊得到音頻特征的隱藏狀態(tài)表示;
20、步驟3.4,decoder模塊接收encoder模塊中對音頻特征的提取的隱藏狀態(tài)表示,得到轉(zhuǎn)錄文本;
21、步驟3.5,在音頻片段內(nèi)的某一時刻t,對于解碼器塊中的交叉注意力權(quán)重si,計算所有解碼器塊的交叉注意力權(quán)重之和,即計算decoder模塊多頭交叉注意力集合的注意力權(quán)重之和。
22、進一步的,在長度為r的滑動窗口內(nèi),對時刻至時刻的音頻幀的注意力權(quán)重,計算整個窗口的平均注意力權(quán)重;
23、平均注意力權(quán)重的計算公式如下:
24、。
25、進一步的,步驟4中whisper模型停止條件如下:
26、。
27、進一步的,步驟5的具體實現(xiàn)方式如下:
28、步驟5.1,在邊界檢測模型的輸入層input中輸入步驟2中的對數(shù)梅爾頻譜的張量形式;
29、步驟5.2,對音頻片段對數(shù)梅爾頻譜的張量通過卷積層conv1提取特征,隨后通過最大池化層mp進行降采樣;
30、步驟5.3,經(jīng)過最大池化層后的特征進入卷積層conv2和conv3,進行更深層次的特征提??;隨后通過殘差連接add1將最初通過conv1提取的特征與conv3的輸出進行相加,保持特征信息的完整性;
31、步驟5.4,將步驟5.3得到的深層次特征傳遞給卷積層conv4和conv5繼續(xù)提取特征,并再次進行殘差連接add2,接下來依次進入卷積層conv6和conv7,并進行第三次殘差連接add3,細化特征提??;
32、步驟5.5,將上述步驟中卷積層提取的特征最終匯總到卷積層conv8,形成全局的特征表示,隨后引入cbam注意力機制,突出語音信號中與詞邊界相關(guān)的顯著特征;
33、步驟5.6,使用平均池化層ap進行全局降維,并將降維后的特征傳遞到全連接層,整合特征,最后由輸出層預測邊界檢測位置。
34、進一步的,根據(jù)步驟5中單詞邊界的檢測情況,計算停止解碼位置與單詞邊界的差值,通過調(diào)整函數(shù)計算出新的閾值,即,調(diào)整函數(shù)計算公式如下:
35、
36、其中,初始閾值和可調(diào)節(jié)參數(shù)為人工設置。
37、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:
38、本發(fā)明通過引入基于交叉注意力的解碼策略(通過計算滑動窗口內(nèi)的平均注意力權(quán)重)來控制非流式模型?whisper?的解碼過程,從而實現(xiàn)非流式語音模型的流式識別。同時,基于卷積神經(jīng)網(wǎng)絡和注意力機制的單詞邊界檢測機制,確保轉(zhuǎn)錄內(nèi)容的完整性和準確性。最后,依據(jù)邊界檢測結(jié)果和停止解碼的位置,通過調(diào)整函數(shù)動態(tài)調(diào)節(jié)解碼閾值,進一步提高識別的精準性。該發(fā)明能夠?qū)⒆R別精度較高的非流式語音模型應用于實時語音識別領(lǐng)域,顯著提升流式識別的準確性和效率。