基于自適應(yīng)的AI大模型流式語音識別方法、裝置以及設(shè)備與流程

文檔序號：40592804發(fā)布日期：2025-01-07 20:33閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于自適應(yīng)的AI大模型流式語音識別方法、裝置以及設(shè)備與流程

本發(fā)明涉及語音識別的，特別涉及一種基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備。

背景技術(shù)：

1、語音識別技術(shù)在眾多領(lǐng)域有著廣泛的應(yīng)用需求，如智能語音助手、語音控制系統(tǒng)、自動語音轉(zhuǎn)錄等。

2、在實(shí)際應(yīng)用場景中，在語音識別模型的處理方面，傳統(tǒng)的語音識別模型大多是基于固定結(jié)構(gòu)和參數(shù)的設(shè)計(jì)。然而，語音數(shù)據(jù)本身具有高度的多樣性和動態(tài)變化性，不同的說話人、口音、語言風(fēng)格以及語音內(nèi)容都會導(dǎo)致語音特征的分布發(fā)生變化。固定的模型結(jié)構(gòu)和參數(shù)無法自適應(yīng)地應(yīng)對這些變化，例如在面對新的語音模式或者特殊口音時，模型的識別能力會顯著下降。

3、在神經(jīng)網(wǎng)絡(luò)解碼階段，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)無法根據(jù)輸入的語音數(shù)據(jù)自適應(yīng)地生長和調(diào)整，不能動態(tài)地適應(yīng)不同的語音特征組合和變化，造成語音識別結(jié)果的質(zhì)量不佳。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的主要目的為提供一種基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備，旨在克服當(dāng)前語音識別模型的語音識別結(jié)果不佳的缺陷。

2、為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種基于自適應(yīng)的ai大模型流式語音識別方法，包括以下步驟：

3、對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng)，得到初步語音信號；

4、對所述初步語音信號進(jìn)行特征提取，得到語音特征向量；

5、將所述語音特征向量輸入至自適應(yīng)的ai大模型中，得到語音識別結(jié)果；

6、其中，所述ai大模型具體用于：

7、對所述語音特征向量進(jìn)行多層感知機(jī)編碼，得到初始編碼向量；

8、根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量，以對所述初始編碼向量進(jìn)行聚類，得到聚類后的編碼向量；

9、通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制，依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重，并進(jìn)行加權(quán)處理；

10、將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼，得到所述語音識別結(jié)果。

11、進(jìn)一步地，所述將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼，得到所述語音識別結(jié)果，包括：

12、對加權(quán)后的編碼向量進(jìn)行特征分布分析，根據(jù)特征分布動態(tài)調(diào)整神經(jīng)元之間的連接權(quán)重；

13、根據(jù)語音數(shù)據(jù)在時間序列上的變化特點(diǎn)，調(diào)整神經(jīng)元之間的連接數(shù)量；

14、基于調(diào)整后的神經(jīng)元對加權(quán)后的編碼向量進(jìn)行解碼，得到所述語音識別結(jié)果。

15、進(jìn)一步地，所述將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼，得到所述語音識別結(jié)果，包括：

16、實(shí)時檢測加權(quán)后的編碼向量的信息熵，當(dāng)信息熵高于預(yù)設(shè)閾值時，在神經(jīng)網(wǎng)絡(luò)的隱藏層中按照預(yù)設(shè)比例增加神經(jīng)元數(shù)量，新增加的神經(jīng)元與周圍神經(jīng)元的連接權(quán)重根據(jù)當(dāng)前加權(quán)編碼向量各維度的相關(guān)性動態(tài)初始化；對原有神經(jīng)元之間的連接權(quán)重通過基于梯度的優(yōu)化算法進(jìn)行調(diào)整，從而完成解碼得到所述語音識別結(jié)果。

17、進(jìn)一步地，所述得到語音識別結(jié)果之后，包括：

18、基于語言模型和聲學(xué)模型對所述語音識別結(jié)果進(jìn)行校正處理，得到流式語音識別校正結(jié)果。

19、進(jìn)一步地，所述對所述語音特征向量進(jìn)行多層感知機(jī)編碼，得到初始編碼向量，包括：

20、對所述語音特征向量按特征維度進(jìn)行分組；

21、對于每組語音特征向量，通過第一層感知機(jī)基于初始化權(quán)重矩陣的線性變換，得到中間特征向量；

22、對所述中間特征向量進(jìn)行非線性激活，得到激活特征向量；其中，激活函數(shù)依輸入的中間特征向量的能量水平動態(tài)調(diào)整斜率參數(shù)；

23、將激活特征向量輸入第二層感知機(jī)，得到初始編碼向量；所述第二層感知機(jī)的權(quán)重矩陣通過反向傳播和小批次梯度下降優(yōu)化，依據(jù)激活特征向量在批次中的變化動態(tài)調(diào)整學(xué)習(xí)率。

24、進(jìn)一步地，根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量，以對所述初始編碼向量進(jìn)行聚類，得到聚類后的編碼向量，包括：

25、基于核密度估計(jì)法分析所述語音特征向量在各維度的概率密度分布，確定出峰值、峰值間距、寬度以及周圍向量疏密程度；

26、依據(jù)峰值確定聚類算法的聚類中心，根據(jù)峰值間距、寬度以及周圍向量疏密估算聚類數(shù)量；

27、基于k-means算法，將所述初始編碼向量分配到最近的聚類，得到聚類后的編碼向量。

28、進(jìn)一步地，所述通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制，依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重，并進(jìn)行加權(quán)處理，包括：

29、分析語音上下文信息，提取語義關(guān)鍵元素、停頓特征、語調(diào)趨勢，并轉(zhuǎn)化為上下文特征向量；

30、計(jì)算聚類后的編碼向量與上下文特征向量的相關(guān)性，根據(jù)相關(guān)性自適應(yīng)調(diào)整聚類后的編碼向量對應(yīng)的注意力權(quán)重，將所述注意力權(quán)重與聚類后的編碼向量進(jìn)行加權(quán)計(jì)算。

31、本發(fā)明還提供了一種基于自適應(yīng)的ai大模型流式語音識別裝置，包括：

32、處理單元，用于對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng)，得到初步語音信號；

33、提取單元，用于對所述初步語音信號進(jìn)行特征提取，得到語音特征向量；

34、識別單元，用于將所述語音特征向量輸入至自適應(yīng)的ai大模型中，得到語音識別結(jié)果；

35、其中，所述ai大模型具體用于：

36、對所述語音特征向量進(jìn)行多層感知機(jī)編碼，得到初始編碼向量；

37、根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量，以對所述初始編碼向量進(jìn)行聚類，得到聚類后的編碼向量；

38、通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制，依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重，并進(jìn)行加權(quán)處理；

39、將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼，得到所述語音識別結(jié)果。

40、本發(fā)明還提供一種計(jì)算機(jī)設(shè)備，包括存儲器和處理器，所述存儲器中存儲有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)上述任一項(xiàng)所述方法的步驟。

41、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲介質(zhì)，其上存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一項(xiàng)所述的方法的步驟。

42、本發(fā)明提供的基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備，包括：對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng)，得到初步語音信號；對所述初步語音信號進(jìn)行特征提取，得到語音特征向量；將所述語音特征向量輸入至自適應(yīng)的ai大模型中，得到語音識別結(jié)果；其中，所述ai大模型具體用于：對所述語音特征向量進(jìn)行多層感知機(jī)編碼，得到初始編碼向量；根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量，以對所述初始編碼向量進(jìn)行聚類，得到聚類后的編碼向量；通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制，依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重，并進(jìn)行加權(quán)處理；將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼，得到所述語音識別結(jié)果。在本發(fā)明中，通過在自適應(yīng)的ai大模型中，自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼，提升語音識別結(jié)果的質(zhì)量，克服了當(dāng)前語音識別模型的語音識別結(jié)果不佳的缺陷。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：車建波
技術(shù)所有人：深圳市貝鉑智能科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于自適應(yīng)的AI大模型流式語音識別方法、裝置以及設(shè)備與流程

基于自適應(yīng)的AI大模型流式語音識別方法、裝置以及設(shè)備與流程