本發(fā)明涉及語音識別的,特別涉及一種基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備。
背景技術(shù):
1、語音識別技術(shù)在眾多領(lǐng)域有著廣泛的應(yīng)用需求,如智能語音助手、語音控制系統(tǒng)、自動語音轉(zhuǎn)錄等。
2、在實(shí)際應(yīng)用場景中,在語音識別模型的處理方面,傳統(tǒng)的語音識別模型大多是基于固定結(jié)構(gòu)和參數(shù)的設(shè)計(jì)。然而,語音數(shù)據(jù)本身具有高度的多樣性和動態(tài)變化性,不同的說話人、口音、語言風(fēng)格以及語音內(nèi)容都會導(dǎo)致語音特征的分布發(fā)生變化。固定的模型結(jié)構(gòu)和參數(shù)無法自適應(yīng)地應(yīng)對這些變化,例如在面對新的語音模式或者特殊口音時,模型的識別能力會顯著下降。
3、在神經(jīng)網(wǎng)絡(luò)解碼階段,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)無法根據(jù)輸入的語音數(shù)據(jù)自適應(yīng)地生長和調(diào)整,不能動態(tài)地適應(yīng)不同的語音特征組合和變化,造成語音識別結(jié)果的質(zhì)量不佳。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的為提供一種基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備,旨在克服當(dāng)前語音識別模型的語音識別結(jié)果不佳的缺陷。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于自適應(yīng)的ai大模型流式語音識別方法,包括以下步驟:
3、對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng),得到初步語音信號;
4、對所述初步語音信號進(jìn)行特征提取,得到語音特征向量;
5、將所述語音特征向量輸入至自適應(yīng)的ai大模型中,得到語音識別結(jié)果;
6、其中,所述ai大模型具體用于:
7、對所述語音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;
8、根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量,以對所述初始編碼向量進(jìn)行聚類,得到聚類后的編碼向量;
9、通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;
10、將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果。
11、進(jìn)一步地,所述將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果,包括:
12、對加權(quán)后的編碼向量進(jìn)行特征分布分析,根據(jù)特征分布動態(tài)調(diào)整神經(jīng)元之間的連接權(quán)重;
13、根據(jù)語音數(shù)據(jù)在時間序列上的變化特點(diǎn),調(diào)整神經(jīng)元之間的連接數(shù)量;
14、基于調(diào)整后的神經(jīng)元對加權(quán)后的編碼向量進(jìn)行解碼,得到所述語音識別結(jié)果。
15、進(jìn)一步地,所述將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果,包括:
16、實(shí)時檢測加權(quán)后的編碼向量的信息熵,當(dāng)信息熵高于預(yù)設(shè)閾值時,在神經(jīng)網(wǎng)絡(luò)的隱藏層中按照預(yù)設(shè)比例增加神經(jīng)元數(shù)量,新增加的神經(jīng)元與周圍神經(jīng)元的連接權(quán)重根據(jù)當(dāng)前加權(quán)編碼向量各維度的相關(guān)性動態(tài)初始化;對原有神經(jīng)元之間的連接權(quán)重通過基于梯度的優(yōu)化算法進(jìn)行調(diào)整,從而完成解碼得到所述語音識別結(jié)果。
17、進(jìn)一步地,所述得到語音識別結(jié)果之后,包括:
18、基于語言模型和聲學(xué)模型對所述語音識別結(jié)果進(jìn)行校正處理,得到流式語音識別校正結(jié)果。
19、進(jìn)一步地,所述對所述語音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量,包括:
20、對所述語音特征向量按特征維度進(jìn)行分組;
21、對于每組語音特征向量,通過第一層感知機(jī)基于初始化權(quán)重矩陣的線性變換,得到中間特征向量;
22、對所述中間特征向量進(jìn)行非線性激活,得到激活特征向量;其中,激活函數(shù)依輸入的中間特征向量的能量水平動態(tài)調(diào)整斜率參數(shù);
23、將激活特征向量輸入第二層感知機(jī),得到初始編碼向量;所述第二層感知機(jī)的權(quán)重矩陣通過反向傳播和小批次梯度下降優(yōu)化,依據(jù)激活特征向量在批次中的變化動態(tài)調(diào)整學(xué)習(xí)率。
24、進(jìn)一步地,根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量,以對所述初始編碼向量進(jìn)行聚類,得到聚類后的編碼向量,包括:
25、基于核密度估計(jì)法分析所述語音特征向量在各維度的概率密度分布,確定出峰值、峰值間距、寬度以及周圍向量疏密程度;
26、依據(jù)峰值確定聚類算法的聚類中心,根據(jù)峰值間距、寬度以及周圍向量疏密估算聚類數(shù)量;
27、基于k-means算法,將所述初始編碼向量分配到最近的聚類,得到聚類后的編碼向量。
28、進(jìn)一步地,所述通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理,包括:
29、分析語音上下文信息,提取語義關(guān)鍵元素、停頓特征、語調(diào)趨勢,并轉(zhuǎn)化為上下文特征向量;
30、計(jì)算聚類后的編碼向量與上下文特征向量的相關(guān)性,根據(jù)相關(guān)性自適應(yīng)調(diào)整聚類后的編碼向量對應(yīng)的注意力權(quán)重,將所述注意力權(quán)重與聚類后的編碼向量進(jìn)行加權(quán)計(jì)算。
31、本發(fā)明還提供了一種基于自適應(yīng)的ai大模型流式語音識別裝置,包括:
32、處理單元,用于對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng),得到初步語音信號;
33、提取單元,用于對所述初步語音信號進(jìn)行特征提取,得到語音特征向量;
34、識別單元,用于將所述語音特征向量輸入至自適應(yīng)的ai大模型中,得到語音識別結(jié)果;
35、其中,所述ai大模型具體用于:
36、對所述語音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;
37、根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量,以對所述初始編碼向量進(jìn)行聚類,得到聚類后的編碼向量;
38、通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;
39、將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果。
40、本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)上述任一項(xiàng)所述方法的步驟。
41、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一項(xiàng)所述的方法的步驟。
42、本發(fā)明提供的基于自適應(yīng)的ai大模型流式語音識別方法、裝置以及設(shè)備,包括:對采集到的流式語音信號進(jìn)行降噪以及語音增強(qiáng),得到初步語音信號;對所述初步語音信號進(jìn)行特征提取,得到語音特征向量;將所述語音特征向量輸入至自適應(yīng)的ai大模型中,得到語音識別結(jié)果;其中,所述ai大模型具體用于:對所述語音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;根據(jù)所述語音特征向量的分布變化動態(tài)調(diào)整聚類算法的聚類中心和聚類數(shù)量,以對所述初始編碼向量進(jìn)行聚類,得到聚類后的編碼向量;通過自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語音上下文信息動態(tài)為聚類后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語音識別結(jié)果。在本發(fā)明中,通過在自適應(yīng)的ai大模型中,自適應(yīng)生長結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,提升語音識別結(jié)果的質(zhì)量,克服了當(dāng)前語音識別模型的語音識別結(jié)果不佳的缺陷。