一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練方法及系統(tǒng)

文檔序號(hào)：40578673發(fā)布日期：2025-01-07 20:18閱讀：15來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于語音識(shí)別和語音評(píng)估領(lǐng)域，具體涉及一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練方法及系統(tǒng)。

背景技術(shù)：

1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息，不必然構(gòu)成在先技術(shù)。

2、計(jì)算機(jī)輔助發(fā)音訓(xùn)練（capt，computer-aided?pronunciation?training）技術(shù)是一種利用計(jì)算機(jī)和軟件技術(shù)幫助第二語言學(xué)習(xí)者改進(jìn)發(fā)音的工具。capt系統(tǒng)可以對(duì)學(xué)習(xí)者的發(fā)音進(jìn)行評(píng)分和錯(cuò)誤檢測(cè)，從而幫助學(xué)習(xí)者糾正發(fā)音錯(cuò)誤。capt系統(tǒng)主要由兩個(gè)任務(wù)組成，分別是自動(dòng)發(fā)音評(píng)估（apa，automatic?pronunciation?assessment）和錯(cuò)誤發(fā)音檢測(cè)與診斷（mdd，mispronunciation?detection?and?diagnosis）。

3、作為capt的分支任務(wù)，apa和mdd也使用相似的方法，例如基于發(fā)音優(yōu)度（gop，goodness?of?pronunciation）特征的方法，基于預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型的方法和基于深度特征的方法。但是基于gop特征的方法需要先將聲學(xué)特征輸入到基于深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型的聲學(xué)模型，得到目標(biāo)音素的對(duì)數(shù)似然值。然后再將gop特征輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)，進(jìn)而得到最終的評(píng)估分?jǐn)?shù)。而使用基于預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型的方法，可以將聲學(xué)特征輸入到微調(diào)后的預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型來獲得深度特征，然后把深度特征輸入到評(píng)分頭中預(yù)測(cè)得分?；陬A(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型的方法在apa任務(wù)上的皮爾遜相關(guān)系數(shù)相比于基于gop特征的方法來說要更高，并且由于用于語音評(píng)估的數(shù)據(jù)集規(guī)模普遍比較小，使用基于預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型的方法在一定程度上可以解決訓(xùn)練數(shù)據(jù)量不足的問題。

4、自動(dòng)發(fā)音評(píng)估的許多研究集中于對(duì)發(fā)音的音素進(jìn)行評(píng)分，或者對(duì)單詞的準(zhǔn)確性、重音，句子的流暢性、韻律和完整性等進(jìn)行單獨(dú)建模。但是音素、單詞和句子之間的聲學(xué)特征是相互關(guān)聯(lián)的，只對(duì)單一粒度進(jìn)行建模無法充分利用一段語音中豐富的特征信息，并且在實(shí)際應(yīng)用中，也需要有僅用一個(gè)模型就能評(píng)估多方面多粒度分?jǐn)?shù)的方法。

5、錯(cuò)誤發(fā)音檢測(cè)與診斷是一種用于識(shí)別和分析第二語言學(xué)習(xí)者發(fā)音錯(cuò)誤的技術(shù)，具體來說是一種音素識(shí)別任務(wù)，識(shí)別學(xué)習(xí)者的發(fā)音在音素級(jí)別上的發(fā)音錯(cuò)誤，包括插入錯(cuò)誤、刪除錯(cuò)誤和替換錯(cuò)誤。

6、自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷在以往的研究中被視為兩個(gè)獨(dú)立的任務(wù)，但這兩種任務(wù)之間存在著語言相關(guān)性，把它們分開處理不能全面地評(píng)估學(xué)習(xí)者的發(fā)音水平。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為了解決上述問題，提出了一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練方法及系統(tǒng)，本發(fā)明充分利用自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷任務(wù)的相關(guān)性，提高了發(fā)音評(píng)估的準(zhǔn)確率。

2、根據(jù)一些實(shí)施例，本發(fā)明采用如下技術(shù)方案：

3、一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練方法，包括以下步驟：

4、獲取待評(píng)估的英語發(fā)音音頻；

5、對(duì)所述英語發(fā)音音頻進(jìn)行預(yù)處理，提取音頻特征，得到英語發(fā)音的深度特征向量；

6、利用預(yù)訓(xùn)練的自動(dòng)發(fā)音評(píng)估模型對(duì)深度特征向量進(jìn)行多粒度評(píng)估，確定音素級(jí)、單詞級(jí)和句子級(jí)的發(fā)音評(píng)估結(jié)果；

7、利用預(yù)訓(xùn)練的發(fā)音檢測(cè)與診斷模型對(duì)深度特征向量進(jìn)行音素識(shí)別并計(jì)算英語發(fā)音的音素錯(cuò)誤率；

8、在自動(dòng)發(fā)音評(píng)估模型和發(fā)音檢測(cè)與診斷模型的訓(xùn)練過程中，聯(lián)合優(yōu)化自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷的損失。

9、作為可選擇的實(shí)施方式，對(duì)所述英語發(fā)音音頻進(jìn)行預(yù)處理，提取音頻特征的過程包括：利用訓(xùn)練后的自監(jiān)督學(xué)習(xí)模型提取音頻特征，所述自監(jiān)督學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)編碼器、量化模塊和transformer上下文網(wǎng)絡(luò)，所述卷積神經(jīng)網(wǎng)絡(luò)編碼器使用多個(gè)卷積層對(duì)原始音頻信號(hào)進(jìn)行處理，生成低級(jí)別的連續(xù)的特征表示，所述量化模塊使用矢量量化器將連續(xù)的特征表示轉(zhuǎn)換為離散的特征編碼，用于對(duì)比學(xué)習(xí)，所述transformer上下文網(wǎng)絡(luò)使用transformer網(wǎng)絡(luò)對(duì)量化后的特征進(jìn)行建模，生成上下文表示，捕獲長(zhǎng)距離的依賴關(guān)系，并生成具有語義信息的聲學(xué)深度特征。

10、作為進(jìn)一步的實(shí)施方式，在自監(jiān)督學(xué)習(xí)模型的訓(xùn)練過程中對(duì)模型進(jìn)行微調(diào)，在transformer上下文網(wǎng)絡(luò)后加一個(gè)全連接層和ctc解碼器，利用ctc損失對(duì)訓(xùn)練結(jié)果進(jìn)行優(yōu)化。

11、作為可選擇的實(shí)施方式，所述自動(dòng)發(fā)音評(píng)估模型包括卷積增強(qiáng)的transformer編碼器和多方面多粒度評(píng)分模塊，其中，所述卷積增強(qiáng)的transformer編碼器用于對(duì)深度特征向量進(jìn)行編碼，提取音素級(jí)、單詞級(jí)和句子級(jí)共享的評(píng)分信息，所述多方面多粒度評(píng)分模塊用于對(duì)每一個(gè)句子進(jìn)行音素級(jí)、單詞級(jí)和句子級(jí)三個(gè)粒度的評(píng)分，句子級(jí)包括完整性、準(zhǔn)確性、流暢性、韻律和總分五個(gè)方面，單詞級(jí)包括準(zhǔn)確性、重音和總分三個(gè)方面，音素級(jí)包括準(zhǔn)確性一個(gè)方面的評(píng)分。

12、作為進(jìn)一步的實(shí)施方式，所述卷積增強(qiáng)的transformer編碼器包括依次連接的卷積模塊、自注意力模塊和前饋網(wǎng)絡(luò)，并且每層之間由殘差結(jié)構(gòu)連接；所述卷積模塊用于捕獲深度特征向量的局部上下文信息，以提取音素和單詞之間的局部信息；所述自注意力模塊用于捕獲全局上下文信息，對(duì)輸入的信息賦予不同的權(quán)重，以對(duì)句子級(jí)別進(jìn)行建模；所述前饋網(wǎng)絡(luò)用于對(duì)輸入的特征進(jìn)行非線性變換和增強(qiáng)特征表示，融合經(jīng)過卷積模塊和自注意力模塊的聲學(xué)特征。

13、作為進(jìn)一步的實(shí)施方式，所述多方面多粒度評(píng)分模塊，對(duì)每個(gè)粒度的每個(gè)方面均設(shè)置有一個(gè)評(píng)分頭，并設(shè)計(jì)兩個(gè)多層感知機(jī)以適應(yīng)不同的評(píng)分頭，第一個(gè)多層感知機(jī)用于音素和單詞評(píng)分頭，第二個(gè)多層感知機(jī)用于句子評(píng)分頭，兩個(gè)多層感知機(jī)都由線性層和一維自適應(yīng)平均池化組成，兩者的輸出維度不同。

14、作為進(jìn)一步的實(shí)施方式，所述多方面多粒度評(píng)分模塊預(yù)先對(duì)音素級(jí)和單詞級(jí)的評(píng)分進(jìn)行填充，在訓(xùn)練過程中，將自動(dòng)發(fā)音評(píng)估任務(wù)視為一個(gè)回歸任務(wù)，預(yù)測(cè)每個(gè)粒度每個(gè)方面的評(píng)分；使用均方差損失作為損失函數(shù)，且計(jì)算預(yù)測(cè)評(píng)分損失時(shí)，忽略掉用填充的位置，讓填充不參與損失計(jì)算，音素級(jí)、單詞級(jí)、句子級(jí)的預(yù)測(cè)評(píng)分與真實(shí)標(biāo)簽分別做均方差運(yùn)算，最后求和作為自動(dòng)發(fā)音評(píng)估任務(wù)的總損失。

15、作為可選擇的實(shí)施方式，所述發(fā)音檢測(cè)與診斷模型包括ctc解碼器和transformer解碼器，其中：

16、所述ctc解碼器包括全連接層和ctc預(yù)測(cè)頭，所述全連接層為提取音頻特征對(duì)自監(jiān)督學(xué)習(xí)模型微調(diào)時(shí)添加的全連接層，共享微調(diào)的權(quán)重，得到未歸一化的分?jǐn)?shù)；所述ctc預(yù)測(cè)頭將未歸一化的分?jǐn)?shù)轉(zhuǎn)換為對(duì)數(shù)概率，得到語音的每一幀對(duì)應(yīng)詞表中某個(gè)音素的概率；

17、所述transformer解碼器包括多層解碼器塊，至少有一層解碼器塊包括依次連接的掩碼多頭自注意力模塊、多頭交叉注意力模塊和前饋模塊。

18、作為可選擇的實(shí)施方式，?ctc解碼器的損失是，transformer解碼器的損失是，混合ctc/attention聯(lián)合訓(xùn)練的總損失為：

19、；

20、其中，是mdd任務(wù)的損失權(quán)重，，用于平衡ctc和attention的損失；

21、在錯(cuò)誤發(fā)音檢測(cè)與診斷任務(wù)中，使用總損失同時(shí)優(yōu)化ctc解碼器和transformer解碼器的結(jié)果。

22、作為可選擇的實(shí)施方式，聯(lián)合優(yōu)化自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷的損失的過程包括：多任務(wù)學(xué)習(xí)總的損失為：

23、；

24、其中，是多任務(wù)學(xué)習(xí)的損失權(quán)重，，用于平衡自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷的損失。

25、一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練系統(tǒng)，包括：

26、數(shù)據(jù)獲取模塊，被配置為獲取待評(píng)估的英語發(fā)音音頻；

27、音頻深度特征提取模塊，被配置為對(duì)所述英語發(fā)音音頻進(jìn)行預(yù)處理，提取音頻特征，得到英語發(fā)音的深度特征向量；

28、自動(dòng)發(fā)音評(píng)估模塊，被配置為利用預(yù)訓(xùn)練的自動(dòng)發(fā)音評(píng)估模型對(duì)深度特征向量進(jìn)行多粒度評(píng)估，確定音素級(jí)、單詞級(jí)和句子級(jí)的發(fā)音評(píng)估結(jié)果；

29、錯(cuò)誤發(fā)音檢測(cè)與診斷模塊，被配置為利用預(yù)訓(xùn)練的發(fā)音檢測(cè)與診斷模型對(duì)深度特征向量進(jìn)行音素識(shí)別并計(jì)算英語發(fā)音的音素錯(cuò)誤率；

30、聯(lián)合優(yōu)化模塊，被配置為在自動(dòng)發(fā)音評(píng)估模型和發(fā)音檢測(cè)與診斷模型的訓(xùn)練過程中，聯(lián)合優(yōu)化自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷的損失。

31、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，用于存儲(chǔ)計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)，完成上述方法中的步驟。

32、一種電子設(shè)備，包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí)，完成上述方法中的步驟。

33、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為：

34、（1）本發(fā)明利用多任務(wù)學(xué)習(xí)的方式聯(lián)合訓(xùn)練自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷，解決了無法充分利用兩種任務(wù)之間存在的語言相關(guān)性的問題。

35、（2）本發(fā)明利用遷移學(xué)習(xí)的方法，把用于語音識(shí)別領(lǐng)域的預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型遷移到語音評(píng)估領(lǐng)域，把預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型作為本發(fā)明的聲學(xué)深度特征提取骨干網(wǎng)絡(luò)，解決了語音評(píng)估領(lǐng)域訓(xùn)練數(shù)據(jù)稀缺的問題，并且評(píng)分的皮爾遜相關(guān)系數(shù)相較于基于gop特征的方法有顯著提升。

36、（3）針對(duì)自動(dòng)發(fā)音評(píng)估任務(wù)，本發(fā)明設(shè)計(jì)了多方面多粒度的評(píng)分標(biāo)準(zhǔn)，具體為三個(gè)粒度：音素級(jí)、單詞級(jí)和句子級(jí)；音素級(jí)有一個(gè)方面：準(zhǔn)確性，單詞級(jí)有三個(gè)方面：準(zhǔn)確性、重音和總分，句子級(jí)有五個(gè)方面：完整性、準(zhǔn)確性、流暢性、韻律和總分。

37、（4）針對(duì)自動(dòng)發(fā)音評(píng)估任務(wù)中的強(qiáng)化特征提取層，本發(fā)明設(shè)計(jì)了一個(gè)卷積增強(qiáng)的transformer模塊，相較于雙向lstm模塊，可以在多方面多粒度的語音評(píng)估中獲得更高的評(píng)分。

38、（5）針對(duì)錯(cuò)誤發(fā)音檢測(cè)與診斷任務(wù)，本發(fā)明設(shè)計(jì)了混合ctc/attention架構(gòu)解碼模塊，能夠提高音素識(shí)別的準(zhǔn)確率，降低音素錯(cuò)誤率，并在錯(cuò)誤發(fā)音檢測(cè)與診斷的結(jié)果中獲得更高的指標(biāo)。

39、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂，下文特舉較佳實(shí)施例，并配合所附附圖，作詳細(xì)說明如下。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許信順,張桐琿,羅昕,陳振鐸
技術(shù)所有人：山東大學(xué)
我是此專利的發(fā)明人

上一篇：一種堤壩護(hù)坡車載掃描檢測(cè)支架
上一篇：一種圓型開孔食品包裝盒的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練方法及系統(tǒng)