基于端到端的跨語言大模型的語音識別方法、裝置及設備與流程

文檔序號：40614476發(fā)布日期：2025-01-07 21:02閱讀：來源：國知局

技術特征：

1.一種基于端到端的跨語言大模型的語音識別方法，其特征在于，所述方法包括：

2.根據(jù)權利要求1所述的方法，其特征在于，通過所述語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接，得到語音特征向量，包括：

3.根據(jù)權利要求2所述的方法，其特征在于，所述wav2vec2預訓練模型由編碼器網絡、上下文網絡以及離散化網絡組成；

4.根據(jù)權利要求2所述的方法，其特征在于，對所述過濾器特征和wav2vec2特征進行特征維度的拼接，輸出得到語音特征向量，包括：

5.根據(jù)權利要求1所述的方法，其特征在于，所述特征對齊模塊采用多層感知機將語音特征向量的維度映射為文本嵌入特征向量的維度，保持二者的維度一致。

6.根據(jù)權利要求1所述的方法，其特征在于，所述解碼模塊在對所述文本編碼模塊輸出的文本嵌入特征向量與所述特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接后，將得到的拼接特征向量輸入大語言模型進行解碼翻譯，輸出得到目標語言的語音識別文本。

7.一種基于端到端的跨語言大模型的語音識別裝置，其特征在于，所述裝置包括：

8.一種計算機設備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至6中任一項所述方法的步驟。

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至6中任一項所述的方法的步驟。

技術總結
本申請涉及一種基于端到端的跨語言大模型的語音識別方法、裝置及設備。所述方法包括：構建跨語言大模型；獲取由多組語音文本標簽對構成的訓練數(shù)據(jù)集，并將訓練數(shù)據(jù)集輸入跨語言大模型進行端到端訓練，直至得到訓練好的跨語言大模型；將待識別的語音信號輸入訓練好的跨語言模型，依次通過模型中的語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊進行過濾器特征與wav2vec2特征提取與拼接、文本的嵌入特征表示、維度對齊、拼接以及解碼翻譯，輸出得到目標語言的語音識別文本。采用本方法能夠提升語音識別的準確度以及魯棒性，并實現(xiàn)跨語言的語音識別。

技術研發(fā)人員：朱飛
受保護的技術使用者：中電信數(shù)智科技有限公司
技術研發(fā)日：
技術公布日：2025/1/6

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于端到端的跨語言大模型的語音識別方法、裝置及設備與流程

基于端到端的跨語言大模型的語音識別方法、裝置及設備與流程