1.一種基于端到端的跨語言大模型的語音識別方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,通過所述語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量,包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述wav2vec2預訓練模型由編碼器網絡、上下文網絡以及離散化網絡組成;
4.根據(jù)權利要求2所述的方法,其特征在于,對所述過濾器特征和wav2vec2特征進行特征維度的拼接,輸出得到語音特征向量,包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述特征對齊模塊采用多層感知機將語音特征向量的維度映射為文本嵌入特征向量的維度,保持二者的維度一致。
6.根據(jù)權利要求1所述的方法,其特征在于,所述解碼模塊在對所述文本編碼模塊輸出的文本嵌入特征向量與所述特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接后,將得到的拼接特征向量輸入大語言模型進行解碼翻譯,輸出得到目標語言的語音識別文本。
7.一種基于端到端的跨語言大模型的語音識別裝置,其特征在于,所述裝置包括:
8.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至6中任一項所述方法的步驟。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至6中任一項所述的方法的步驟。