两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于自適應(yīng)的AI大模型流式語音識別方法、裝置以及設(shè)備與流程

文檔序號:40592804發(fā)布日期:2025-01-07 20:33閱讀:7來源:國知局
基于自適應(yīng)的AI大模型流式語音識別方法、裝置以及設(shè)備與流程

本發(fā)明涉及語音識別的,特別涉及一種基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備。


背景技術(shù):

1、語音識別技術(shù)在眾多領(lǐng)域有著廣泛的應(yīng)用需求,如智能語音助手、語音控制系統(tǒng)、自動語音轉(zhuǎn)錄等。

2、在實(shí)際應(yīng)用場景中,在語音識別模型的處理方面,傳統(tǒng)的語音識別模型大多是基于固定結(jié)構(gòu)和參數(shù)的設(shè)計(jì)。然而,語音數(shù)據(jù)本身具有高度的多樣性和動態(tài)變化性,不同的說話人、口音、語言風(fēng)格以及語音內(nèi)容都會導(dǎo)致語音特征的分布發(fā)生變化。固定的模型結(jié)構(gòu)和參數(shù)無法自適應(yīng)地應(yīng)對這些變化,例如在面對新的語音模式或者特殊口音時,模型的識別能力會顯著下降。

3、在神經(jīng)網(wǎng)絡(luò)解碼階段,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)無法根據(jù)輸入的語音數(shù)據(jù)自適應(yīng)地生長和調(diào)整,不能動態(tài)地適應(yīng)不同的語音特征組合和變化,造成語音識別結(jié)果的質(zhì)量不佳。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的主要目的為提供一種基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備,旨在克服當(dāng)前語音識別模型的語音識別結(jié)果不佳的缺陷。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于自適應(yīng)的ai大模型流式語音識別方法,包括以下步驟:

3、對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng),得到初步語音信號;

4、對所述初步語音信號進(jìn)行特征提取,得到語音特征向量;

5、將所述語音特征向量輸入至自適應(yīng)的ai大模型中,得到語音識別結(jié)果;

6、其中,所述ai大模型具體用于:

7、對所述語音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;

8、根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量,以對所述初始編碼向量進(jìn)行聚類,得到聚類后的編碼向量;

9、通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;

10、將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果。

11、進(jìn)一步地,所述將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果,包括:

12、對加權(quán)后的編碼向量進(jìn)行特征分布分析,根據(jù)特征分布動態(tài)調(diào)整神經(jīng)元之間的連接權(quán)重;

13、根據(jù)語音數(shù)據(jù)在時間序列上的變化特點(diǎn),調(diào)整神經(jīng)元之間的連接數(shù)量;

14、基于調(diào)整后的神經(jīng)元對加權(quán)后的編碼向量進(jìn)行解碼,得到所述語音識別結(jié)果。

15、進(jìn)一步地,所述將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果,包括:

16、實(shí)時檢測加權(quán)后的編碼向量的信息熵,當(dāng)信息熵高于預(yù)設(shè)閾值時,在神經(jīng)網(wǎng)絡(luò)的隱藏層中按照預(yù)設(shè)比例增加神經(jīng)元數(shù)量,新增加的神經(jīng)元與周圍神經(jīng)元的連接權(quán)重根據(jù)當(dāng)前加權(quán)編碼向量各維度的相關(guān)性動態(tài)初始化;對原有神經(jīng)元之間的連接權(quán)重通過基于梯度的優(yōu)化算法進(jìn)行調(diào)整,從而完成解碼得到所述語音識別結(jié)果。

17、進(jìn)一步地,所述得到語音識別結(jié)果之后,包括:

18、基于語言模型和聲學(xué)模型對所述語音識別結(jié)果進(jìn)行校正處理,得到流式語音識別校正結(jié)果。

19、進(jìn)一步地,所述對所述語音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量,包括:

20、對所述語音特征向量按特征維度進(jìn)行分組;

21、對于每組語音特征向量,通過第一層感知機(jī)基于初始化權(quán)重矩陣的線性變換,得到中間特征向量;

22、對所述中間特征向量進(jìn)行非線性激活,得到激活特征向量;其中,激活函數(shù)依輸入的中間特征向量的能量水平動態(tài)調(diào)整斜率參數(shù);

23、將激活特征向量輸入第二層感知機(jī),得到初始編碼向量;所述第二層感知機(jī)的權(quán)重矩陣通過反向傳播和小批次梯度下降優(yōu)化,依據(jù)激活特征向量在批次中的變化動態(tài)調(diào)整學(xué)習(xí)率。

24、進(jìn)一步地,根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量,以對所述初始編碼向量進(jìn)行聚類,得到聚類后的編碼向量,包括:

25、基于核密度估計(jì)法分析所述語音特征向量在各維度的概率密度分布,確定出峰值、峰值間距、寬度以及周圍向量疏密程度;

26、依據(jù)峰值確定聚類算法的聚類中心,根據(jù)峰值間距、寬度以及周圍向量疏密估算聚類數(shù)量;

27、基于k-means算法,將所述初始編碼向量分配到最近的聚類,得到聚類后的編碼向量。

28、進(jìn)一步地,所述通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理,包括:

29、分析語音上下文信息,提取語義關(guān)鍵元素、停頓特征、語調(diào)趨勢,并轉(zhuǎn)化為上下文特征向量;

30、計(jì)算聚類后的編碼向量與上下文特征向量的相關(guān)性,根據(jù)相關(guān)性自適應(yīng)調(diào)整聚類后的編碼向量對應(yīng)的注意力權(quán)重,將所述注意力權(quán)重與聚類后的編碼向量進(jìn)行加權(quán)計(jì)算。

31、本發(fā)明還提供了一種基于自適應(yīng)的ai大模型流式語音識別裝置,包括:

32、處理單元,用于對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng),得到初步語音信號;

33、提取單元,用于對所述初步語音信號進(jìn)行特征提取,得到語音特征向量;

34、識別單元,用于將所述語音特征向量輸入至自適應(yīng)的ai大模型中,得到語音識別結(jié)果;

35、其中,所述ai大模型具體用于:

36、對所述語音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;

37、根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量,以對所述初始編碼向量進(jìn)行聚類,得到聚類后的編碼向量;

38、通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;

39、將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果。

40、本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)上述任一項(xiàng)所述方法的步驟。

41、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一項(xiàng)所述的方法的步驟。

42、本發(fā)明提供的基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備,包括:對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng),得到初步語音信號;對所述初步語音信號進(jìn)行特征提取,得到語音特征向量;將所述語音特征向量輸入至自適應(yīng)的ai大模型中,得到語音識別結(jié)果;其中,所述ai大模型具體用于:對所述語音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量,以對所述初始編碼向量進(jìn)行聚類,得到聚類后的編碼向量;通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果。在本發(fā)明中,通過在自適應(yīng)的ai大模型中,自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,提升語音識別結(jié)果的質(zhì)量,克服了當(dāng)前語音識別模型的語音識別結(jié)果不佳的缺陷。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
赤峰市| 阿坝| 阆中市| 龙岩市| 仙桃市| 衡水市| 昆明市| 霍山县| 青神县| 屏山县| 西吉县| 巨野县| 乐东| 汽车| 牡丹江市| 略阳县| 高安市| 北海市| 宜春市| 渭南市| 秀山| 祁门县| 德兴市| 宣恩县| 新乡市| 泌阳县| 东乡县| 云阳县| 和平县| 阜新市| 库车县| 谢通门县| 钟山县| 那坡县| 澄江县| 荆州市| 阜新市| 马龙县| 岚皋县| 安徽省| 湘乡市|