两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu)

文檔序號(hào):40613650發(fā)布日期:2025-01-07 21:00閱讀:11來(lái)源:國(guó)知局
一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu)

本發(fā)明涉及語(yǔ)音識(shí)別,具體為一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu)。


背景技術(shù):

1、近年來(lái),大量研究集中在對(duì)conformer的結(jié)構(gòu)改進(jìn),旨在進(jìn)一步降低計(jì)算開銷并提升識(shí)別性能。例如,branchformer(peng?et?al.,2022)通過(guò)引入并行分支對(duì)不同范圍的上下文特征進(jìn)行建模,其中一個(gè)分支采用卷積門控多層感知機(jī)(cgmlp)捕獲局部上下文特征,另一個(gè)分支利用自注意機(jī)制捕捉長(zhǎng)程特征依賴關(guān)系,branchformer結(jié)構(gòu)如圖1所示,

2、但是該結(jié)構(gòu)存在兩個(gè)問(wèn)題:第一,局部特征和全局特征完全分離的方式是主流模式,但這種進(jìn)行局部特征和全局特征獨(dú)立提取再拼接融合的方式,并沒有解決全局特征和局部特征實(shí)時(shí)都在相互影響的問(wèn)題,因此本文在提取局部特征和全局特征的同時(shí),適當(dāng)?shù)脑诰植刻卣骱腿痔卣魈崛√幚頃r(shí)進(jìn)行了提前融合,來(lái)解決全局特征和局部特征實(shí)時(shí)相互影響的問(wèn)題。

3、第二,注意力計(jì)算復(fù)雜度高,對(duì)硬件設(shè)備依賴嚴(yán)重。mlp?mixer(tolstikhin?etal.,?2021)通過(guò)固定大小的mlp在時(shí)間維度上進(jìn)行令牌混合,在多個(gè)任務(wù)上展示了與多頭自注意機(jī)制(mhsa)相媲美的性能(choe?et?al.,?2022)。但是,鑒于語(yǔ)音任務(wù)通常涉及可變長(zhǎng)度的序列,mlp?mixer在語(yǔ)音任務(wù)中的應(yīng)用受限,導(dǎo)致其性能表現(xiàn)不佳。


技術(shù)實(shí)現(xiàn)思路

1、本部分的目的在于概述本發(fā)明的實(shí)施方式的一些方面以及簡(jiǎn)要介紹一些較佳實(shí)施方式。在本部分以及本申請(qǐng)的說(shuō)明書摘要和發(fā)明名稱中可能會(huì)做些簡(jiǎn)化或省略以避免使本部分、說(shuō)明書摘要和發(fā)明名稱的目的模糊,而這種簡(jiǎn)化或省略不能用于限制本發(fā)明的范圍。

2、因此,本發(fā)明的目的是提供一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),在提取局部特征和全局特征的同時(shí),適當(dāng)?shù)脑诰植刻卣骱腿痔卣魈崛√幚頃r(shí)進(jìn)行了提前融合,來(lái)解決全局特征和局部特征實(shí)時(shí)相互影響的問(wèn)題。

3、為解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了如下技術(shù)方案:

4、一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),其包括:amlp分支和卷積分支;

5、所述amlp分支使用mlp替代注意力機(jī)制,并在mlp基礎(chǔ)上添加注意力平均池化層,在保持線性復(fù)雜度的同時(shí),確保注意力權(quán)重均勻分布,并獲取全面的全局特征;

6、所述卷積分支利用卷積空間門控單元捕獲增強(qiáng)的局部特征關(guān)系,并通過(guò)與amlp分支交互信息的通道,將局部特征與全局特征進(jìn)行混合,為全局特征補(bǔ)充局部特征。

7、作為本發(fā)明所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,還包括前饋神經(jīng)網(wǎng)絡(luò)模塊,所述前饋神經(jīng)網(wǎng)絡(luò)模塊位于模型架構(gòu)的兩端。

8、作為本發(fā)明所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,所述amlp分支對(duì)輸入信息進(jìn)行全局上下文建模,具體步驟如下:

9、利用兩個(gè)mlp,針對(duì)第一個(gè)時(shí)間的特征維度從輸入本身動(dòng)態(tài)生成w1、w2,以此類推,直到第t個(gè)時(shí)長(zhǎng)的特征維度,所有維度的特征權(quán)重描述方式如公式:

10、;

11、其中,k∈1,2;

12、對(duì)輸入序列x中的每個(gè)時(shí)間步長(zhǎng)xt應(yīng)用多層感知機(jī)mlpk(xt)生成各自時(shí)間段的權(quán)重,得到所有時(shí)間步長(zhǎng)下的特征權(quán)重,然后將這些權(quán)重堆疊成一個(gè)可變高度的權(quán)重矩陣wk,從而適用于可變長(zhǎng)序列;

13、在獲取權(quán)重的同時(shí),計(jì)算復(fù)雜度與輸入序列的時(shí)間長(zhǎng)度t呈線性關(guān)系,通過(guò)如下公式輸出:

14、;

15、其中,是非線性的;

16、上述公式中,權(quán)重矩陣mlp2對(duì)每個(gè)時(shí)間步長(zhǎng)應(yīng)用局部變換,生成局部貢獻(xiàn),然后與對(duì)應(yīng)時(shí)間步的輸入序列做內(nèi)積,將這些局部貢獻(xiàn)的結(jié)果通過(guò)全局求和得到整體表示,再通過(guò)非線性變換得到全局投影矩陣,每個(gè)局部變換的結(jié)果mlp1(xt)通過(guò)全局投影矩陣進(jìn)行投影,整合為最終的輸出矩陣。

17、作為本發(fā)明所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,所述amlp分支具有amlp模塊,amlp模塊包括超混合網(wǎng)絡(luò)和加性注意力,超混合網(wǎng)絡(luò)用于動(dòng)態(tài)獲取全局信息;加性注意力對(duì)超混合網(wǎng)絡(luò)獲取的全局信息進(jìn)一步凝練,最后將結(jié)果輸入到下一層的hyper?mixer模塊;

18、amlp模塊利用多層感知機(jī)構(gòu)成的hypermixer提取全局信息,再通過(guò)加性注意力對(duì)輸出矩陣進(jìn)行加權(quán)平均,得到具有全局上下文信息的向量,進(jìn)一步對(duì)線性計(jì)算處理的注意力結(jié)果利用softmax進(jìn)行歸一化,得到注意力權(quán)重,公式如下:

19、;

20、其中,是可訓(xùn)練的權(quán)重向量,是縮放因子,全局上下文信息向量計(jì)算公式如下:

21、。

22、作為本發(fā)明所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,所述卷積分支執(zhí)行如下步驟:

23、對(duì)特征序列進(jìn)行非線性變換;

24、然后,將其送入關(guān)鍵模塊線性門控csgu中,接著,將特征序列沿隱藏層維度切割為相等的兩個(gè)特征序列,對(duì)進(jìn)行層歸一化,并使用深度卷積獲取強(qiáng)局部特征;

25、最后,將進(jìn)行逐元素乘積,得到最終的局部特征矩陣:

26、。

27、作為本發(fā)明所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,所述卷積分支在卷積空間門控單元的基礎(chǔ)上,添加全局和局部特征混合的卷積空間門控特征混合單元,用來(lái)混合來(lái)自卷積的局部上下文信息與amlp分支的全局上下文信息;

28、所述卷積分支線性計(jì)算如下:首先將強(qiáng)局部特征矩陣與全局特征矩陣amlp(x)進(jìn)行拼接,得到保留了兩種完整信息的新特征矩陣,然后,將其送入門控線性單元,并與逐元素乘積,得到的特征矩陣和未與全局特征混合的矩陣進(jìn)行殘差連接,具體公式表示如下:

29、;

30、;

31、;

32、其中,與是相同的。

33、與現(xiàn)有技術(shù)相比,本發(fā)明具有的獨(dú)創(chuàng)效果是:本發(fā)明提出的hmbformer架構(gòu),是一種具有線性時(shí)間復(fù)雜度的新型架構(gòu),旨在消除語(yǔ)音識(shí)別中對(duì)自注意機(jī)制的依賴,降低計(jì)算復(fù)雜度。hmbformer架構(gòu)使用多個(gè)線性組件對(duì)全局上下文信息進(jìn)行補(bǔ)充,可以高效且充分的利用全局和局部特征信息,從而實(shí)現(xiàn)較好的語(yǔ)音識(shí)別性能。



技術(shù)特征:

1.一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,包括:amlp分支和卷積分支;

2.根據(jù)權(quán)利要求1所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,還包括前饋神經(jīng)網(wǎng)絡(luò)模塊,所述前饋神經(jīng)網(wǎng)絡(luò)模塊位于模型架構(gòu)的兩端。

3.根據(jù)權(quán)利要求1所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,所述amlp分支對(duì)輸入信息進(jìn)行全局上下文建模,具體步驟如下:

4.根據(jù)權(quán)利要求1所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,所述amlp分支具有amlp模塊,amlp模塊包括超混合網(wǎng)絡(luò)和加性注意力,超混合網(wǎng)絡(luò)用于動(dòng)態(tài)獲取全局信息;加性注意力對(duì)超混合網(wǎng)絡(luò)獲取的全局信息進(jìn)一步凝練,最后將結(jié)果輸入到下一層的hyper?mixer模塊;

5.根據(jù)權(quán)利要求1所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,所述卷積分支執(zhí)行如下步驟:

6.根據(jù)權(quán)利要求1所述的一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,所述卷積分支在卷積空間門控單元的基礎(chǔ)上,添加全局和局部特征混合的卷積空間門控特征混合單元,用來(lái)混合來(lái)自卷積的局部上下文信息與amlp分支的全局上下文信息;


技術(shù)總結(jié)
本發(fā)明公開介紹了語(yǔ)音識(shí)別技術(shù)領(lǐng)域中一種用于語(yǔ)音識(shí)別的線性復(fù)雜度模型架構(gòu),所述AMLP分支使用MLP替代注意力機(jī)制,并在MLP基礎(chǔ)上添加注意力平均池化層,在保持線性復(fù)雜度的同時(shí),確保注意力權(quán)重均勻分布,并獲取全面的全局特征,所述卷積分支利用卷積空間門控單元捕獲增強(qiáng)的局部特征關(guān)系,并通過(guò)與AMLP分支交互信息的通道,將局部特征與全局特征進(jìn)行混合,為全局特征補(bǔ)充局部特征,本發(fā)明在提取局部特征和全局特征的同時(shí),適當(dāng)?shù)脑诰植刻卣骱腿痔卣魈崛√幚頃r(shí)進(jìn)行了提前融合,來(lái)解決全局特征和局部特征實(shí)時(shí)相互影響的問(wèn)題。

技術(shù)研發(fā)人員:劉葳,田志野,許春生,孫一鳴,陳純毅
受保護(hù)的技術(shù)使用者:長(zhǎng)春理工大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
连山| 桃源县| 建宁县| 基隆市| 黔西| 子洲县| 林芝县| 商南县| 乃东县| 子长县| 和田市| 张家界市| 白玉县| 台东市| 天峨县| 松潘县| 孟津县| 华蓥市| 扶绥县| 雷州市| 确山县| 浙江省| 贡嘎县| 利川市| 嘉定区| 黄平县| 周宁县| 大关县| 如东县| 定襄县| 清徐县| 雅江县| 宣恩县| 财经| 美姑县| 阿拉善盟| 壤塘县| 恩施市| 调兵山市| 同心县| 方正县|