本技術涉及人工智能,特別是涉及一種基于端到端的跨語言大模型的語音識別方法、裝置及設備。
背景技術:
1、語音識別技術是將語音信號自動轉換為文本的過程,作為人與機器交互的重要技術之一,其廣泛應用于智能助手、語音控制等領域。語音識別的流程一般包括以下幾個步驟:
2、(1)語音信號采集:通過話筒輸入語音信號,將聲波轉換為電壓信號,再通過a/d(模擬數字轉換)裝置進行采樣,從而將連續(xù)的電壓信號轉換為計算機能夠處理的數字信號。
3、(2)特征提?。簭牟杉降恼Z音信號中提取出關鍵特征,例如聲學特征、時間特征、序列特征等,這些特征是后續(xù)語音識別模型進行分析和處理的基礎,能夠反映語音信號中的主要信息。
4、(3)模型訓練:語音識別系統的核心在于模型訓練。傳統的兩階段模型包括聲學模型和語言模型。聲學模型將提取的聲學特征與語音信號的物理特征對應,從而為每個聲學單元打分。語言模型則基于語言學理論,預測不同詞語或詞組序列的概率,幫助理解并生成符合上下文的文本。模型訓練通常使用大規(guī)模數據集,通過預訓練模型或統計方法提高模型的識別準確度和泛化能力。
5、(4)解碼:解碼階段通過結合聲學模型和語言模型的結果,生成最有可能的文本輸出,最終完成語音到文本的轉換。
6、隨著深度學習技術的發(fā)展,聲學模型和語言模型也從傳統的隱馬爾可夫系列模型逐漸轉為基于大模型神經網絡的深度學習模型,基于深度學習的聲學和語言模型在處理復雜語音信號時表現出了顯著的性能提升。但是由于兩階段模型的架構設計,使得聲學模型和語言模型之間存在特征不匹配的問題,限制了模型的識別上限。
7、為了解決這一問題,近年來出現了端到端語音識別模型,例如paraformer等。與傳統兩階段模型不同,端到端模型通過直接將輸入的語音信號映射到輸出文本,減少了中間步驟帶來的誤差累積。然而,這類模型在處理新詞、熱詞以及跨語言識別等場景時,依然面臨一定的挑戰(zhàn)。為了提高其在這些領域的性能,往往需要引入額外的語言模型進行輔助解碼。
8、因此,雖然語音識別技術在深度學習的推動下取得了顯著進步,但在準確性、泛化能力和跨語言適應性方面,依然有很大的優(yōu)化空間。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種基于端到端的跨語言大模型的語音識別方法、裝置及設備。
2、一種基于端到端的跨語言大模型的語音識別方法,所述方法包括:
3、構建跨語言大模型,跨語言大模型由語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊組成;
4、獲取由多組語音文本標簽對構成的訓練數據集,并將訓練數據集輸入跨語言大模型進行端到端訓練,直至得到訓練好的跨語言大模型;其中,在每組語音文本標簽對中,文本標簽的前端拼接有跨語言識別提示詞,跨語言識別提示詞用于在訓練過程中,提示模型將文本標簽翻譯為目標語言的文本;
5、將待識別的語音信號輸入訓練好的跨語言模型,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量;通過文本編碼模塊根據跨語言識別提示詞,對語音信號對應的文本標簽進行文本的嵌入特征表示,得到文本嵌入特征向量;通過特征對齊模塊將語音特征向量的維度與文本嵌入特征向量的維度進行對齊;通過解碼模塊對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接以及解碼翻譯,輸出得到目標語言的語音識別文本。
6、在其中一個實施例中,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量,包括:
7、語音編碼模塊由過濾器特征提取模塊、wav2vec2預訓練模型和特征拼接模塊組成;
8、過濾器特征提取模塊用于對輸入的語音信號依次進行預加重、分幀、加窗、快速傅里葉變換、梅爾譜濾波以及對數運算處理,輸出得到過濾器特征;
9、wav2vec2預訓練模型用于對輸入的語音信號依次進行卷積編碼和上下文表征,輸出得到wav2vec2特征;
10、特征拼接模塊用于對過濾器特征和wav2vec2特征進行特征維度的拼接,輸出得到語音特征向量。
11、在其中一個實施例中,wav2vec2預訓練模型由編碼器網絡、上下文網絡以及離散化網絡組成;
12、編碼器網絡通過若干個卷積層對輸入的語音信號進行特征提取,輸出得到卷積特征;上下文網絡通過若干個時間步長編碼器對卷積特征進行上下文表征,輸出得到wav2vec2特征;離散化網絡通過對卷積特征進行離散化處理后,根據離散化后的卷積特征與wav2vec2特征計算損失,并根據損失對wav2vec2預訓練模型進行訓練。
13、在其中一個實施例中,對過濾器特征和wav2vec2特征進行特征維度的拼接,輸出得到語音特征向量,包括:
14、通過單個卷積層按照設定的卷積步長對過濾器特征進行特征維度卷積變換,得到變換后的過濾器特征;
15、基于變換后的過濾器特征的特征維度,對wav2vec2特征進行設定步長的鄰近點融合,得到變換后的wav2vec2特征,并保持變換后的過濾器特征與變換后的wav2vec2特征的特征維度一致;
16、對變換后的過濾器特征與變換后的wav2vec2特征進行拼接,輸出得到語音特征向量。
17、在其中一個實施例中,特征對齊模塊采用多層感知機將語音特征向量的維度映射為文本嵌入特征向量的維度,保持二者的維度一致。
18、在其中一個實施例中,解碼模塊在對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接后,將得到的拼接特征向量輸入大語言模型進行解碼翻譯,輸出得到目標語言的語音識別文本。
19、一種基于端到端的跨語言大模型的語音識別裝置,所述裝置包括:
20、模型構建單元,用于構建跨語言大模型,跨語言大模型由語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊組成;
21、模型訓練單元,用于獲取由多組語音文本標簽對構成的訓練數據集,并將訓練數據集輸入跨語言大模型進行端到端訓練,直至得到訓練好的跨語言大模型;其中,在每組語音文本標簽對中,文本標簽的前端拼接有跨語言識別提示詞,跨語言識別提示詞用于在訓練過程中,提示模型將文本標簽翻譯為目標語言的文本;
22、語音識別單元,用于將待識別的語音信號輸入訓練好的跨語言模型,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量;通過文本編碼模塊根據跨語言識別提示詞,對語音信號對應的文本標簽進行文本的嵌入特征表示,得到文本嵌入特征向量;通過特征對齊模塊將語音特征向量的維度與文本嵌入特征向量的維度進行對齊;通過解碼模塊對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接以及解碼翻譯,輸出得到目標語言的語音識別文本。
23、一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現以下步驟:
24、構建跨語言大模型,跨語言大模型由語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊組成;
25、獲取由多組語音文本標簽對構成的訓練數據集,并將訓練數據集輸入跨語言大模型進行端到端訓練,直至得到訓練好的跨語言大模型;其中,在每組語音文本標簽對中,文本標簽的前端拼接有跨語言識別提示詞,跨語言識別提示詞用于在訓練過程中,提示模型將文本標簽翻譯為目標語言的文本;
26、將待識別的語音信號輸入訓練好的跨語言模型,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量;通過文本編碼模塊根據跨語言識別提示詞,對語音信號對應的文本標簽進行文本的嵌入特征表示,得到文本嵌入特征向量;通過特征對齊模塊將語音特征向量的維度與文本嵌入特征向量的維度進行對齊;通過解碼模塊對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接以及解碼翻譯,輸出得到目標語言的語音識別文本。
27、一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現以下步驟:
28、構建跨語言大模型,跨語言大模型由語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊組成;
29、獲取由多組語音文本標簽對構成的訓練數據集,并將訓練數據集輸入跨語言大模型進行端到端訓練,直至得到訓練好的跨語言大模型;其中,在每組語音文本標簽對中,文本標簽的前端拼接有跨語言識別提示詞,跨語言識別提示詞用于在訓練過程中,提示模型將文本標簽翻譯為目標語言的文本;
30、將待識別的語音信號輸入訓練好的跨語言模型,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量;通過文本編碼模塊根據跨語言識別提示詞,對語音信號對應的文本標簽進行文本的嵌入特征表示,得到文本嵌入特征向量;通過特征對齊模塊將語音特征向量的維度與文本嵌入特征向量的維度進行對齊;通過解碼模塊對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接以及解碼翻譯,輸出得到目標語言的語音識別文本。
31、上述基于端到端的跨語言大模型的語音識別方法、裝置及設備,相較于現有技術,具備以下技術效果:
32、1、本技術引入跨語言識別提示詞拼接到文本標簽前端,基于跨語言識別提示詞可在模型訓練過程中,提示模型將文本標簽翻譯為目標語言的文本,使得構建的跨語言大模型具備多語言識別的能力,即可以將一個語言的音頻識別為另一個語言的文本。并且,跨語言識別提示詞會影響到跨語言大模型的每一層參數學習,但是不會增加額外的學習參數,簡化了模型的設計和訓練過程。
33、2、本技術采用過濾器特征與wav2vec2特征聯合提取的方法進行語音特征提取,兩種方式聯合提取能夠獲得更加全面和多樣化的語音特征,可以更好地適應不同語言的識別任務需求。并且通過對兩種語音特征進行特征維度的拼接,組合了過濾器特征中的基礎聲學特性和wav2vec2特征中的高級語義特性,使得模型在訓練過程中能夠利用更多的信息進行學習,無需進行語言模型的迭代更新以及熱詞新詞發(fā)現等輔助工作,提升了語音特征表示的能力,顯著提升了語音識別的準確度以及魯棒性。