本發(fā)明屬于語音識(shí)別和語音評(píng)估領(lǐng)域,具體涉及一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、計(jì)算機(jī)輔助發(fā)音訓(xùn)練(capt,computer-aided?pronunciation?training)技術(shù)是一種利用計(jì)算機(jī)和軟件技術(shù)幫助第二語言學(xué)習(xí)者改進(jìn)發(fā)音的工具。capt系統(tǒng)可以對(duì)學(xué)習(xí)者的發(fā)音進(jìn)行評(píng)分和錯(cuò)誤檢測(cè),從而幫助學(xué)習(xí)者糾正發(fā)音錯(cuò)誤。capt系統(tǒng)主要由兩個(gè)任務(wù)組成,分別是自動(dòng)發(fā)音評(píng)估(apa,automatic?pronunciation?assessment)和錯(cuò)誤發(fā)音檢測(cè)與診斷(mdd,mispronunciation?detection?and?diagnosis)。
3、作為capt的分支任務(wù),apa和mdd也使用相似的方法,例如基于發(fā)音優(yōu)度(gop,goodness?of?pronunciation)特征的方法,基于預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型的方法和基于深度特征的方法。但是基于gop特征的方法需要先將聲學(xué)特征輸入到基于深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型的聲學(xué)模型,得到目標(biāo)音素的對(duì)數(shù)似然值。然后再將gop特征輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí),進(jìn)而得到最終的評(píng)估分?jǐn)?shù)。而使用基于預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型的方法,可以將聲學(xué)特征輸入到微調(diào)后的預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型來獲得深度特征,然后把深度特征輸入到評(píng)分頭中預(yù)測(cè)得分?;陬A(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型的方法在apa任務(wù)上的皮爾遜相關(guān)系數(shù)相比于基于gop特征的方法來說要更高,并且由于用于語音評(píng)估的數(shù)據(jù)集規(guī)模普遍比較小,使用基于預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型的方法在一定程度上可以解決訓(xùn)練數(shù)據(jù)量不足的問題。
4、自動(dòng)發(fā)音評(píng)估的許多研究集中于對(duì)發(fā)音的音素進(jìn)行評(píng)分,或者對(duì)單詞的準(zhǔn)確性、重音,句子的流暢性、韻律和完整性等進(jìn)行單獨(dú)建模。但是音素、單詞和句子之間的聲學(xué)特征是相互關(guān)聯(lián)的,只對(duì)單一粒度進(jìn)行建模無法充分利用一段語音中豐富的特征信息,并且在實(shí)際應(yīng)用中,也需要有僅用一個(gè)模型就能評(píng)估多方面多粒度分?jǐn)?shù)的方法。
5、錯(cuò)誤發(fā)音檢測(cè)與診斷是一種用于識(shí)別和分析第二語言學(xué)習(xí)者發(fā)音錯(cuò)誤的技術(shù),具體來說是一種音素識(shí)別任務(wù),識(shí)別學(xué)習(xí)者的發(fā)音在音素級(jí)別上的發(fā)音錯(cuò)誤,包括插入錯(cuò)誤、刪除錯(cuò)誤和替換錯(cuò)誤。
6、自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷在以往的研究中被視為兩個(gè)獨(dú)立的任務(wù),但這兩種任務(wù)之間存在著語言相關(guān)性,把它們分開處理不能全面地評(píng)估學(xué)習(xí)者的發(fā)音水平。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為了解決上述問題,提出了一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練方法及系統(tǒng),本發(fā)明充分利用自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷任務(wù)的相關(guān)性,提高了發(fā)音評(píng)估的準(zhǔn)確率。
2、根據(jù)一些實(shí)施例,本發(fā)明采用如下技術(shù)方案:
3、一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練方法,包括以下步驟:
4、獲取待評(píng)估的英語發(fā)音音頻;
5、對(duì)所述英語發(fā)音音頻進(jìn)行預(yù)處理,提取音頻特征,得到英語發(fā)音的深度特征向量;
6、利用預(yù)訓(xùn)練的自動(dòng)發(fā)音評(píng)估模型對(duì)深度特征向量進(jìn)行多粒度評(píng)估,確定音素級(jí)、單詞級(jí)和句子級(jí)的發(fā)音評(píng)估結(jié)果;
7、利用預(yù)訓(xùn)練的發(fā)音檢測(cè)與診斷模型對(duì)深度特征向量進(jìn)行音素識(shí)別并計(jì)算英語發(fā)音的音素錯(cuò)誤率;
8、在自動(dòng)發(fā)音評(píng)估模型和發(fā)音檢測(cè)與診斷模型的訓(xùn)練過程中,聯(lián)合優(yōu)化自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷的損失。
9、作為可選擇的實(shí)施方式,對(duì)所述英語發(fā)音音頻進(jìn)行預(yù)處理,提取音頻特征的過程包括:利用訓(xùn)練后的自監(jiān)督學(xué)習(xí)模型提取音頻特征,所述自監(jiān)督學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)編碼器、量化模塊和transformer上下文網(wǎng)絡(luò),所述卷積神經(jīng)網(wǎng)絡(luò)編碼器使用多個(gè)卷積層對(duì)原始音頻信號(hào)進(jìn)行處理,生成低級(jí)別的連續(xù)的特征表示,所述量化模塊使用矢量量化器將連續(xù)的特征表示轉(zhuǎn)換為離散的特征編碼,用于對(duì)比學(xué)習(xí),所述transformer上下文網(wǎng)絡(luò)使用transformer網(wǎng)絡(luò)對(duì)量化后的特征進(jìn)行建模,生成上下文表示,捕獲長(zhǎng)距離的依賴關(guān)系,并生成具有語義信息的聲學(xué)深度特征。
10、作為進(jìn)一步的實(shí)施方式,在自監(jiān)督學(xué)習(xí)模型的訓(xùn)練過程中對(duì)模型進(jìn)行微調(diào),在transformer上下文網(wǎng)絡(luò)后加一個(gè)全連接層和ctc解碼器,利用ctc損失對(duì)訓(xùn)練結(jié)果進(jìn)行優(yōu)化。
11、作為可選擇的實(shí)施方式,所述自動(dòng)發(fā)音評(píng)估模型包括卷積增強(qiáng)的transformer編碼器和多方面多粒度評(píng)分模塊,其中,所述卷積增強(qiáng)的transformer編碼器用于對(duì)深度特征向量進(jìn)行編碼,提取音素級(jí)、單詞級(jí)和句子級(jí)共享的評(píng)分信息,所述多方面多粒度評(píng)分模塊用于對(duì)每一個(gè)句子進(jìn)行音素級(jí)、單詞級(jí)和句子級(jí)三個(gè)粒度的評(píng)分,句子級(jí)包括完整性、準(zhǔn)確性、流暢性、韻律和總分五個(gè)方面,單詞級(jí)包括準(zhǔn)確性、重音和總分三個(gè)方面,音素級(jí)包括準(zhǔn)確性一個(gè)方面的評(píng)分。
12、作為進(jìn)一步的實(shí)施方式,所述卷積增強(qiáng)的transformer編碼器包括依次連接的卷積模塊、自注意力模塊和前饋網(wǎng)絡(luò),并且每層之間由殘差結(jié)構(gòu)連接;所述卷積模塊用于捕獲深度特征向量的局部上下文信息,以提取音素和單詞之間的局部信息;所述自注意力模塊用于捕獲全局上下文信息,對(duì)輸入的信息賦予不同的權(quán)重,以對(duì)句子級(jí)別進(jìn)行建模;所述前饋網(wǎng)絡(luò)用于對(duì)輸入的特征進(jìn)行非線性變換和增強(qiáng)特征表示,融合經(jīng)過卷積模塊和自注意力模塊的聲學(xué)特征。
13、作為進(jìn)一步的實(shí)施方式,所述多方面多粒度評(píng)分模塊,對(duì)每個(gè)粒度的每個(gè)方面均設(shè)置有一個(gè)評(píng)分頭,并設(shè)計(jì)兩個(gè)多層感知機(jī)以適應(yīng)不同的評(píng)分頭,第一個(gè)多層感知機(jī)用于音素和單詞評(píng)分頭,第二個(gè)多層感知機(jī)用于句子評(píng)分頭,兩個(gè)多層感知機(jī)都由線性層和一維自適應(yīng)平均池化組成,兩者的輸出維度不同。
14、作為進(jìn)一步的實(shí)施方式,所述多方面多粒度評(píng)分模塊預(yù)先對(duì)音素級(jí)和單詞級(jí)的評(píng)分進(jìn)行填充,在訓(xùn)練過程中,將自動(dòng)發(fā)音評(píng)估任務(wù)視為一個(gè)回歸任務(wù),預(yù)測(cè)每個(gè)粒度每個(gè)方面的評(píng)分;使用均方差損失作為損失函數(shù),且計(jì)算預(yù)測(cè)評(píng)分損失時(shí),忽略掉用填充的位置,讓填充不參與損失計(jì)算,音素級(jí)、單詞級(jí)、句子級(jí)的預(yù)測(cè)評(píng)分與真實(shí)標(biāo)簽分別做均方差運(yùn)算,最后求和作為自動(dòng)發(fā)音評(píng)估任務(wù)的總損失。
15、作為可選擇的實(shí)施方式,所述發(fā)音檢測(cè)與診斷模型包括ctc解碼器和transformer解碼器,其中:
16、所述ctc解碼器包括全連接層和ctc預(yù)測(cè)頭,所述全連接層為提取音頻特征對(duì)自監(jiān)督學(xué)習(xí)模型微調(diào)時(shí)添加的全連接層,共享微調(diào)的權(quán)重,得到未歸一化的分?jǐn)?shù);所述ctc預(yù)測(cè)頭將未歸一化的分?jǐn)?shù)轉(zhuǎn)換為對(duì)數(shù)概率,得到語音的每一幀對(duì)應(yīng)詞表中某個(gè)音素的概率;
17、所述transformer解碼器包括多層解碼器塊,至少有一層解碼器塊包括依次連接的掩碼多頭自注意力模塊、多頭交叉注意力模塊和前饋模塊。
18、作為可選擇的實(shí)施方式,?ctc解碼器的損失是,transformer解碼器的損失是,混合ctc/attention聯(lián)合訓(xùn)練的總損失為:
19、;
20、其中,是mdd任務(wù)的損失權(quán)重,,用于平衡ctc和attention的損失;
21、在錯(cuò)誤發(fā)音檢測(cè)與診斷任務(wù)中,使用總損失同時(shí)優(yōu)化ctc解碼器和transformer解碼器的結(jié)果。
22、作為可選擇的實(shí)施方式,聯(lián)合優(yōu)化自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷的損失的過程包括:多任務(wù)學(xué)習(xí)總的損失為:
23、;
24、其中,是多任務(wù)學(xué)習(xí)的損失權(quán)重,,用于平衡自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷的損失。
25、一種基于多任務(wù)學(xué)習(xí)的英語輔助發(fā)音訓(xùn)練系統(tǒng),包括:
26、數(shù)據(jù)獲取模塊,被配置為獲取待評(píng)估的英語發(fā)音音頻;
27、音頻深度特征提取模塊,被配置為對(duì)所述英語發(fā)音音頻進(jìn)行預(yù)處理,提取音頻特征,得到英語發(fā)音的深度特征向量;
28、自動(dòng)發(fā)音評(píng)估模塊,被配置為利用預(yù)訓(xùn)練的自動(dòng)發(fā)音評(píng)估模型對(duì)深度特征向量進(jìn)行多粒度評(píng)估,確定音素級(jí)、單詞級(jí)和句子級(jí)的發(fā)音評(píng)估結(jié)果;
29、錯(cuò)誤發(fā)音檢測(cè)與診斷模塊,被配置為利用預(yù)訓(xùn)練的發(fā)音檢測(cè)與診斷模型對(duì)深度特征向量進(jìn)行音素識(shí)別并計(jì)算英語發(fā)音的音素錯(cuò)誤率;
30、聯(lián)合優(yōu)化模塊,被配置為在自動(dòng)發(fā)音評(píng)估模型和發(fā)音檢測(cè)與診斷模型的訓(xùn)練過程中,聯(lián)合優(yōu)化自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷的損失。
31、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成上述方法中的步驟。
32、一種電子設(shè)備,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成上述方法中的步驟。
33、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
34、(1)本發(fā)明利用多任務(wù)學(xué)習(xí)的方式聯(lián)合訓(xùn)練自動(dòng)發(fā)音評(píng)估和錯(cuò)誤發(fā)音檢測(cè)與診斷,解決了無法充分利用兩種任務(wù)之間存在的語言相關(guān)性的問題。
35、(2)本發(fā)明利用遷移學(xué)習(xí)的方法,把用于語音識(shí)別領(lǐng)域的預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型遷移到語音評(píng)估領(lǐng)域,把預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)模型作為本發(fā)明的聲學(xué)深度特征提取骨干網(wǎng)絡(luò),解決了語音評(píng)估領(lǐng)域訓(xùn)練數(shù)據(jù)稀缺的問題,并且評(píng)分的皮爾遜相關(guān)系數(shù)相較于基于gop特征的方法有顯著提升。
36、(3)針對(duì)自動(dòng)發(fā)音評(píng)估任務(wù),本發(fā)明設(shè)計(jì)了多方面多粒度的評(píng)分標(biāo)準(zhǔn),具體為三個(gè)粒度:音素級(jí)、單詞級(jí)和句子級(jí);音素級(jí)有一個(gè)方面:準(zhǔn)確性,單詞級(jí)有三個(gè)方面:準(zhǔn)確性、重音和總分,句子級(jí)有五個(gè)方面:完整性、準(zhǔn)確性、流暢性、韻律和總分。
37、(4)針對(duì)自動(dòng)發(fā)音評(píng)估任務(wù)中的強(qiáng)化特征提取層,本發(fā)明設(shè)計(jì)了一個(gè)卷積增強(qiáng)的transformer模塊,相較于雙向lstm模塊,可以在多方面多粒度的語音評(píng)估中獲得更高的評(píng)分。
38、(5)針對(duì)錯(cuò)誤發(fā)音檢測(cè)與診斷任務(wù),本發(fā)明設(shè)計(jì)了混合ctc/attention架構(gòu)解碼模塊,能夠提高音素識(shí)別的準(zhǔn)確率,降低音素錯(cuò)誤率,并在錯(cuò)誤發(fā)音檢測(cè)與診斷的結(jié)果中獲得更高的指標(biāo)。
39、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。