本發(fā)明涉及基于深度學(xué)習(xí)的機器翻譯領(lǐng)域,針對多個語種共享參數(shù)聯(lián)合訓(xùn)練,提出一種可以有效緩解由不同語言導(dǎo)致的梯度負面干擾的方法。
背景技術(shù):
1、多語言神經(jīng)機器翻譯(mnmt)技術(shù),在多個語言對中進行訓(xùn)練,因為其在多個語種之間共享知識,所以可以通過共享參數(shù),使用單個模型同時支持多個不同語種的翻譯方向,從而降低訓(xùn)練成本,因此引起了學(xué)術(shù)界和工業(yè)界很大的關(guān)注。然而,多語言機器翻譯訓(xùn)練由于不同翻譯方向之間存在的梯度負面干擾,在共享參數(shù)中存在多個翻譯方向性能退化的問題,尤其是在高資源語言上。
技術(shù)實現(xiàn)思路
1、1.一種用于多語言翻譯的方法流程,即,高資源語言優(yōu)先的機器翻譯方法(hlt-mt),其特征在于包含兩階段的訓(xùn)練框架,高資源特定語言訓(xùn)練與低資源遷移學(xué)習(xí)。
2、s1、所述的高資源特定語言訓(xùn)練步驟:用跨語言預(yù)訓(xùn)練編碼器模型(xlm-r)對多語言模型初始化,獲得目標語言共享特征,生成確定翻譯方向下的語言特異性表示,此表示最終會用來生成目標句子。
3、s2、所述的低資源遷移學(xué)習(xí)步驟:使用共享參數(shù)生成的底層特征進行低資源目標句生成,在高資源雙語語料庫dh和低資源雙語語料庫dl上聯(lián)合訓(xùn)練多語言模型;
4、2.根據(jù)權(quán)利要求1中所述的多語言翻譯的方法流程,其特征在于,在步驟s1中,所述的高資源特定語言訓(xùn)練步驟包括以下操作:
5、s101、只在高資源方向上使用基于選擇機制的語言感知池(slp)訓(xùn)練模型。
6、s102、采用跨語言預(yù)訓(xùn)練編碼器模型(xlm-r)對多語言模型進行初始化
7、s103、給定包含u個單詞的源句子以及一個包含v個單詞的目標句子通過多頭注意力機制模型(transformer)得到目標語言lk在解碼器頂端的共享特征公式如下:
8、
9、s104、在得到了高資源語言lk的一系列解碼表示之后,通過具有選擇性機制的語言特定池將語言共享表示映射為語言特異性表示。給定一個翻譯方向li→lk(1≤i,k≤k∧i≠k)以及選擇性語言特定池相關(guān)的模塊可以生成語言特異性表示。(g函數(shù)是僅依賴于目標語言的映射函數(shù))使用函數(shù)將語言共享特征轉(zhuǎn)變到語言特異性特征的等式如下:
10、
11、s105、上述公式中的函數(shù)定義如下:
12、
13、其中,這里的f是層規(guī)范化函數(shù)并且σ是線性整流函數(shù)(relu)激活函數(shù)。是上投影矩陣是下投影矩陣。
14、s106、對于每個源序列,都指定一個特殊的目標語言符號作為前綴以表明模型的翻譯方向,從而使得解碼器能夠使用共享的解碼器參數(shù)正確生成目標句子。因此,目標語言符號的嵌入被用于從基于選擇機制的語言感知池(slp)中選擇語言特異性模塊。選擇函數(shù)被如下定義:
15、
16、s107、上述公式中,(t維),e[lk]表示目標語言lk符號的嵌入。將目標嵌入映射到向量其中,是的第i個元素并且slp由t個子網(wǎng)絡(luò)構(gòu)成。具有最高概率的子網(wǎng)絡(luò)將會被選擇用來生成語言特異性特征。
17、s108、為了解決基于選擇機制的語言感知池(slp)的不可導(dǎo)問題,使用加權(quán)平均來保證梯度能夠被傳播給所有語言特異性模塊,具體的實現(xiàn)如下:
18、
19、s109、其中,由目標嵌入和softmax函數(shù)計算得來。
20、s1010、用學(xué)習(xí)矩陣wg將目標嵌入e[lk]映射到概率向量
21、s1011、
22、
23、并且e[lk]表示lk的語言嵌入。de是嵌入大小。是向量的第t個元素
24、s1012、在實際訓(xùn)練中,以相等的概率交替使用s104和s108中的兩個目標函數(shù)來學(xué)習(xí)映射函數(shù)并且生成語言特異性特征
25、s1013、這個表示最終會被用來生成目標句子
26、
27、其中,wo∈de×v是輸出矩陣,v是詞匯量大小。
28、3.根據(jù)權(quán)利要求1中所述的多語言翻譯的方法流程,其特征在于,在步驟s2中,所述的低資源遷移學(xué)習(xí)步驟包括以下操作:
29、s201、將高資源模塊充分訓(xùn)練后,由共享參數(shù)θ生成的共享特征被饋送到通用層θu,從而生成低資源語言共享特征;
30、s202、所有低資源語言共享相同的通用層,將共享的特性投影到最終的表示
31、
32、s203、通過生成目標句子,并輸出類似于s1013的矩陣wo;
33、s204、在高資源雙語語料庫dh和低資源雙語語料庫dl的聯(lián)合數(shù)據(jù)集dh∪dl上,在用于高資源語言的基于選擇機制的語言感知池(slp)和用于低資源語言的通用層上進行聯(lián)合調(diào)優(yōu):
34、
35、其中θ是所有語言的共享參數(shù)。基于選擇機制的語言感知池(slp)包含用于高資源語言集合(hrls)的特定于語言的層列表,θu是用于低資源語言集合(lrls)的通用層。
1.一種用于多語言翻譯的方法流程高資源語言優(yōu)先的機器翻譯方法(hlt-mt),其特征在于包含兩階段的訓(xùn)練框架,高資源特定語言訓(xùn)練與低資源遷移學(xué)習(xí)。
2.根據(jù)權(quán)利要求1中所述的多語言翻譯的方法流程,其特征在于,在步驟s1中,所述的高資源特定語言訓(xùn)練步驟包括以下操作:
3.根據(jù)權(quán)利要求1中所述的多語言翻譯的方法流程,其特征在于,在步驟s2中,所述的低資源遷移學(xué)習(xí)步驟包括以下操作: