本申請涉及機器翻譯,特別是涉及一種用于機器翻譯的n-seq2seq模型構(gòu)建方法。
背景技術(shù):
1、近年來,隨著國際貿(mào)易和全球合作的增加,機器翻譯(mt)在消除語言障礙、促進跨文化交流方面變得愈發(fā)重要,機器翻譯領(lǐng)域取得了顯著的進展,研究者通過各種方法來應(yīng)對翻譯中會出現(xiàn)的各種問題。從最早的統(tǒng)計機器翻譯方法,到傳統(tǒng)機器學(xué)習(xí)方法,再到現(xiàn)今的神經(jīng)機器翻譯(nmt),機器翻譯不斷變得智能。
2、早期的統(tǒng)計機器翻譯(smt)方法是機器翻譯研究的先驅(qū),依賴于短語模型和統(tǒng)計對齊模型。研究者首次使用大規(guī)模平行語料庫來估計翻譯概率和建立統(tǒng)計翻譯模型,其中最著名的包括ibm模型和短語模型。隨著技術(shù)的進步,傳統(tǒng)機器學(xué)習(xí)方法在機器翻譯中變得受歡迎,因為它們能夠更好地捕捉句法和語義信息。研究者通過使用多種方法,包括使用hmm和crf等傳統(tǒng)機器學(xué)習(xí)方法來建模中文句子的結(jié)構(gòu)和單詞預(yù)測,以及使用svm等方法來分類和排名候選翻譯。雖然傳統(tǒng)機器學(xué)習(xí)方法通常需要領(lǐng)域?qū)I(yè)知識和人工特征,但它們在特定任務(wù)和數(shù)據(jù)集上表現(xiàn)出良好的結(jié)果。
3、然而,無論是smt還是傳統(tǒng)機器學(xué)習(xí)方法,都難以處理翻譯中的長距離依賴和翻譯歧義問題。深度學(xué)習(xí)的崛起徹底改變了機器翻譯,seq2seq模型成為了主要的翻譯模式。seq2seq模型通過將源語言句子編碼成固定長度的表示,并將其解碼成目標(biāo)語言句子,有效地解決了這些問題。但是機器翻譯仍然存在一些問題,比如訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)需要大量的gpu資源和內(nèi)存,以及在過度翻譯、不足翻譯和生成不自然語言方面存在的問題。
4、因此,相關(guān)技術(shù)中,亟需一種能夠提高機器翻譯準(zhǔn)確率并降低計算資源需求的方式。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠提高機器翻譯準(zhǔn)確率并降低計算資源需求的一種用于機器翻譯的n-seq2seq模型構(gòu)建方法。
2、第一方面,本申請?zhí)峁┝艘环N用于機器翻譯的n-seq2seq模型構(gòu)建方法。所述方法包括:
3、獲取訓(xùn)練數(shù)據(jù);
4、搭建初始n-seq2seq模型,所述初始n-seq2seq模型包括編碼解碼模塊、多頭注意力模塊、相對位置編碼模塊、詞嵌入編碼模塊和文本候選搜索框模塊;
5、采用所述訓(xùn)練數(shù)據(jù)訓(xùn)練所述初始n-seq2seq模型;
6、分別進行消融實驗和對比實驗,結(jié)合bleu值評價模型的翻譯結(jié)果,基于評價結(jié)果確定n-seq2seq模型。
7、可選的,在本申請的一個實施例中,所述編碼解碼模塊包括編碼器與解碼器,所述編碼器和解碼器的骨干網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)。
8、可選的,在本申請的一個實施例中,所述多頭注意力模塊包括多個自注意力機制,以剔除輸入序列的非重要信息。
9、可選的,在本申請的一個實施例中,所述相對位置編碼模塊是在自注意力機制中加入的可訓(xùn)練的嵌入編碼,用于表示詞之間的相對距離。
10、可選的,在本申請的一個實施例中,所述詞嵌入編碼模塊采用wobert模型構(gòu)建詞向量。
11、可選的,在本申請的一個實施例中,所述文本候選搜索框模塊位于解碼器中,用于存儲候選詞集合以及預(yù)測輸出詞。
12、第二方面,本申請還提供了一種用于機器翻譯的n-seq2seq模型構(gòu)建裝置。所述裝置包括:
13、數(shù)據(jù)獲取模塊,用于獲取訓(xùn)練數(shù)據(jù);
14、初始模型搭建模塊,用于搭建初始n-seq2seq模型,所述初始n-seq2seq模型包括編碼解碼模塊、多頭注意力模塊、相對位置編碼模塊、詞嵌入編碼模塊和文本候選搜索框模塊;
15、初始模型訓(xùn)練模塊,用于采用所述訓(xùn)練數(shù)據(jù)訓(xùn)練所述初始n-seq2seq模型;
16、實驗驗證模塊,用于分別進行消融實驗和對比實驗,結(jié)合bleu值評價模型的翻譯結(jié)果。
17、第三方面,本申請還提供了一種計算機設(shè)備。所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行上述各個實施例所述方法的步驟。
18、第四方面,本申請還提供了一種計算機可讀存儲介質(zhì)。所述計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述各個實施例所述方法的步驟。
19、上述一種用于機器翻譯的n-seq2seq模型構(gòu)建方法,首先,獲取訓(xùn)練數(shù)據(jù);之后,搭建初始n-seq2seq模型,所述初始n-seq2seq模型包括編碼解碼模塊、多頭注意力模塊、相對位置編碼模塊、詞嵌入編碼模塊和文本候選搜索框模塊;之后,采用所述訓(xùn)練數(shù)據(jù)訓(xùn)練所述初始n-seq2seq模型;最后,分別進行消融實驗和對比實驗,結(jié)合bleu值評價模型的翻譯結(jié)果,基于評價結(jié)果確定n-seq2seq模型。也就是說,構(gòu)建了一種新的機器翻譯模型n-seq2seq,該模型采用兩種注意力機制,有針對性地關(guān)注全局信息和重要信息,通過超參數(shù)調(diào)整來實現(xiàn),并剔除掉非重要信息;使用基于詞的分詞方法和相對位置編碼,提高了文本分詞的準(zhǔn)確性以及增強詞的關(guān)聯(lián)性;引入文本候選詞框,通過提前預(yù)測來加速模型的推理速度,實現(xiàn)了模型推理速度加快、推理結(jié)果準(zhǔn)確、高效,并且具有輕量化的優(yōu)勢。
1.一種用于機器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種用于機器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述編碼解碼模塊包括編碼器與解碼器,所述編碼器和解碼器的骨干網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求1所述的一種用于機器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述多頭注意力模塊包括多個自注意力機制,以剔除輸入序列的非重要信息。
4.根據(jù)權(quán)利要求1所述的一種用于機器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述相對位置編碼模塊是在自注意力機制中加入的可訓(xùn)練的嵌入編碼,用于表示詞之間的相對距離。
5.根據(jù)權(quán)利要求1所述的一種用于機器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述詞嵌入編碼模塊采用wobert模型構(gòu)建詞向量。
6.根據(jù)權(quán)利要求1所述的一種用于機器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述文本候選搜索框模塊位于解碼器中,用于存儲候選詞集合以及預(yù)測輸出詞。
7.一種用于機器翻譯的n-seq2seq模型構(gòu)建裝置,其特征在于,所述裝置包括:
8.一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至6中任一項所述的方法的步驟。
9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述的方法的步驟。