翻譯裝置、學(xué)習(xí)裝置、翻譯方法以及存儲(chǔ)介質(zhì)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及翻譯裝置等。
【背景技術(shù)】
[0002] 例如統(tǒng)計(jì)機(jī)器翻譯等以往的翻譯裝置是通過(guò)組合了多個(gè)特征的線性模型來(lái)實(shí)現(xiàn) 的,并被程式化為如下問(wèn)題,即搜索使該線性模型的分?jǐn)?shù)最高的翻譯。在這種模型化中,盡 管翻譯裝置的改進(jìn)是被當(dāng)作開(kāi)發(fā)出對(duì)翻譯做出貢獻(xiàn)的特征的問(wèn)題來(lái)理解的,但是,評(píng)價(jià)翻 譯好壞的評(píng)價(jià)函數(shù)與翻譯裝置中所使用的特征之間不一定能夠通過(guò)線性關(guān)系表現(xiàn)出來(lái)。因 此,即使重新向線性模型中添加特征,新的特征也未必會(huì)對(duì)翻譯裝置的改進(jìn)做出貢獻(xiàn)。另 外,基于線性模型的制約,即使開(kāi)發(fā)出更好的特征,有可能對(duì)翻譯裝置的改進(jìn)所做出的貢獻(xiàn) 也是有限的。
[0003] 因此,以往在統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域中,不拘泥于線性模型,而提出了非線性模型(參 照非專(zhuān)利文獻(xiàn)1~5)。在非專(zhuān)利文獻(xiàn)1、2中,根據(jù)Boosting算法實(shí)現(xiàn)了一種非線性翻譯模 型,并將其用于對(duì)從翻譯裝置輸出的多個(gè)候選翻譯進(jìn)行的重排序。
[0004] 另外,在非專(zhuān)利文獻(xiàn)3中,將神經(jīng)網(wǎng)絡(luò)導(dǎo)入到表現(xiàn)為轉(zhuǎn)換機(jī)(Transducer)的翻譯 模型中。
[0005] 在非專(zhuān)利文獻(xiàn)4、5中,按照短語(yǔ)對(duì)和規(guī)則對(duì)等翻譯知識(shí)的基本單位,基于神經(jīng)網(wǎng) 絡(luò)構(gòu)建了模型,并將其作為重排序和短語(yǔ)對(duì)單位的特征導(dǎo)入。
[0006] 在先技術(shù)文獻(xiàn)
[0007] 非專(zhuān)利文獻(xiàn)
[0008] 非專(zhuān)利文獻(xiàn) I :Kevin Duh and Katrin Kirchhoff. 2008. Beyond log-linear models:Boosted minimum error rate training for n-best re-ranking. In Proceedings of ACL_08:HLT,Short Papers,pages 37-40, Columbus,Ohio, June. Association for Computational Linguistics.
[0009] 非專(zhuān)利文獻(xiàn) 2 :A. Sokolov,G. Wisniewski,and F. Yvon. 2012. Non-linear n-best list reranking with few features. In AMTAjSan DiegojUSA.
[0010] 非專(zhuān)利文南犬 3 :M. Asuncion Castano,Francisco Casacubertaj and Enrique Vidal. 1997. Machine translation using neural networks and finite-state models. In TMI,pages 160-167.
[0011] 非專(zhuān)利文獻(xiàn) 4 :Le Hai Son,Alexandre Allauzen,and Francois Yvon. 2012. Continuous space translation models with neural networks. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, NAACL HLTi 12, pages 39-48,Stroudsburg, PA, USA. Association for Computational Linguistics.
[0012] 非專(zhuān)利文獻(xiàn) 5 :Holger Schwenk. 2〇l2· Continuous space translation models for phrase-based statistical machine translation. In Proceedings of the 24th International Conference on Computational Linguistics, COLING' 12, Mumbai, India. Association for Computational Linguistics.
【發(fā)明內(nèi)容】
[0013] 發(fā)明所要解決的技術(shù)問(wèn)題
[0014] 然而,在以往的翻譯裝置中,當(dāng)利用對(duì)特征進(jìn)行非線性結(jié)合的神經(jīng)網(wǎng)絡(luò)時(shí),在檢索 過(guò)程中需要重新計(jì)算候選翻譯的分?jǐn)?shù),負(fù)荷較大。
[0015] 進(jìn)一步,非專(zhuān)利文獻(xiàn)1、2、4等的非線性模型實(shí)現(xiàn)為一種重排序模型,該重排序模 型從由現(xiàn)有的翻譯裝置輸出的多個(gè)候選翻譯中選擇正確的翻譯。在這種重排序模型中,由 于其候選翻譯中未必包含正確的翻譯,因此,使用重排序模型的效果是有限的。
[0016] 另外,如非專(zhuān)利文獻(xiàn)3所述,提出了將非線性模型適用在機(jī)器翻譯裝置自身的技 術(shù)方案,但是,在非專(zhuān)利文獻(xiàn)3中,是作為加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)而實(shí)現(xiàn)的,并未考慮排列順 序,僅僅適用于英語(yǔ)與法語(yǔ)等比較接近的語(yǔ)言對(duì)。
[0017] 在非專(zhuān)利文獻(xiàn)3、5中,按照各短語(yǔ)對(duì)和規(guī)則對(duì)單位構(gòu)建了非線性模型,關(guān)于組合 該短語(yǔ)對(duì)和規(guī)則對(duì)從而生成的語(yǔ)句單位的翻譯,無(wú)法進(jìn)行最優(yōu)化。尤其是n-gram語(yǔ)言模型 等,關(guān)于短語(yǔ)對(duì)和規(guī)則對(duì)組合了無(wú)法進(jìn)行局部計(jì)算的特征時(shí),在非專(zhuān)利文獻(xiàn)3、5中無(wú)法實(shí) 現(xiàn)最優(yōu)化。
[0018] 進(jìn)一步,使用圖9中示出的規(guī)則,對(duì)現(xiàn)有技術(shù)的問(wèn)題點(diǎn)進(jìn)行具體說(shuō)明。圖9中的 規(guī)則ι?"Χ-<友好合作;friendly cooperation >",規(guī)則r 2為"乂 一<多年來(lái)的X ;X over the last year >',〇
[0019] 在由這樣的規(guī)則構(gòu)成的部分翻譯的示例中,假定各個(gè)規(guī)則的特征向量為以下的數(shù) 學(xué)式1。在數(shù)學(xué)式1中,h()為特征函數(shù)。
[0020] [數(shù)學(xué)式1]
[0022] 在這種情況下,該部分翻譯的特征向量為以下的數(shù)學(xué)式2。
[0023] [數(shù)學(xué)式2]
[0025] 在部分翻譯的評(píng)分中使用以下的數(shù)學(xué)式3的線性模型,并假定權(quán)重向量W為數(shù)學(xué) 式4。此外,在數(shù)學(xué)式3中,f為源語(yǔ)言句,e為目標(biāo)語(yǔ)言句,d為導(dǎo)出。另外,d包括兩個(gè)以 上的部分對(duì)信息。部分對(duì)信息是指如下信息,即具有用于構(gòu)成源語(yǔ)言句部分的源語(yǔ)言部分 信息以及用于構(gòu)成目標(biāo)語(yǔ)言句部分的目標(biāo)語(yǔ)言部分信息。部分對(duì)信息例如為短語(yǔ)對(duì)、規(guī)則 對(duì)、單詞對(duì)等。另外,在數(shù)學(xué)式3、數(shù)學(xué)式4中,W為權(quán)重向量。另外,e a ( a存在于e的正 上方)為目標(biāo)語(yǔ)言句,d a ( a存在于d的正上方)為構(gòu)成目標(biāo)語(yǔ)言句的部分對(duì)信息(例 如短語(yǔ)對(duì)、規(guī)則對(duì)等)。
[0026] [數(shù)學(xué)式3] CN 105190609 A 說(shuō)明書(shū) 3/15 頁(yè)
[0028][數(shù)學(xué)式4]
[0030] 在這種情況下,該部分翻譯(f,e,d)的分?jǐn)?shù)為 "0· 3X1. 3+0. 5X0. 21+0.1 X (-0· 6) = 0· 435"。
[0031] 而且,在線性模型的情況下,通過(guò)動(dòng)態(tài)規(guī)劃法能夠按照短語(yǔ)對(duì)單位或者規(guī)則對(duì)單 位進(jìn)行該計(jì)算并求出合計(jì)值,例如,能夠以數(shù)學(xué)式5的方式進(jìn)行計(jì)算。
[0032] [數(shù)學(xué)式5]
[0034] 另外,在非線性模型的情況下,例如,假定如以下數(shù)學(xué)式6所示的一層神經(jīng)網(wǎng)絡(luò)。 在數(shù)學(xué)式6中,M為權(quán)重矩陣,B是u維的作為偏置(Bias)的向量。此外,權(quán)重矩陣M是 uXK維的。另外,在數(shù)學(xué)式6中,M、B如以下的數(shù)學(xué)式7所示。另外,〇為各要素單位的 sigmoid函數(shù)(參照數(shù)學(xué)式8)。
[0035] [數(shù)學(xué)式6]
[0037][數(shù)學(xué)式7]
[0039][數(shù)學(xué)式8]
[0041] 此時(shí),部分翻譯的分?jǐn)?shù)如以下數(shù)學(xué)式9所示。
[0042] [數(shù)學(xué)式9]
[0044] 在與線性模型同樣地以短語(yǔ)對(duì)或者規(guī)則對(duì)為單位進(jìn)行計(jì)算的情況下,當(dāng)將通過(guò)函 數(shù)S表示其分?jǐn)?shù)時(shí),則為如下數(shù)學(xué)式10。
[0045] [數(shù)學(xué)式 10]
CN 105190609 A 說(shuō)明書(shū) 4/15 頁(yè)
[0048] 這樣,當(dāng)對(duì)各個(gè)要素單位進(jìn)行計(jì)算并根據(jù)其合計(jì)求出部分翻譯的分?jǐn)?shù)時(shí),結(jié)果為 0. 957,即使考慮化整誤差,也與0. 522之間存在大幅差異。因此,在非線性模型中,無(wú)法直 接使用基于動(dòng)態(tài)規(guī)劃法的檢索方法。
[0049] 鑒于這種問(wèn)題,本發(fā)明的目的在于提供一種翻譯裝置,該翻譯裝置關(guān)于非局部特 征函數(shù)導(dǎo)入線性模型,并且關(guān)于局部特征函數(shù)導(dǎo)入非線性模型,從而能夠有效地計(jì)算候選 翻譯的分?jǐn)?shù)。
[0050] 用于解決技術(shù)問(wèn)題的方案
[0051] 本申請(qǐng)的第一項(xiàng)發(fā)明的翻譯裝置具備:參數(shù)存儲(chǔ)部,能夠存儲(chǔ)適用于非局部特征 函數(shù)的權(quán)重向量即第一權(quán)重向量、以及適用于局部特征函數(shù)的權(quán)重向量即第二權(quán)重向量; 特征函數(shù)信息存儲(chǔ)部,能夠存儲(chǔ)與非局部特征函數(shù)相關(guān)的信息即第一特征函數(shù)信息、以及 與局部特征函數(shù)相關(guān)的信息即第二特征函數(shù)信息;部分對(duì)信息存儲(chǔ)部,能夠存儲(chǔ)兩個(gè)以上 的部分對(duì)信息,所述部分對(duì)信息具有用于構(gòu)成源語(yǔ)言句部分的源語(yǔ)言部分信息和用于構(gòu)成 目標(biāo)語(yǔ)言句部分的目標(biāo)語(yǔ)言部分信息;接受部,用于接受源語(yǔ)言句;向量取得部,將接受部 接受的源語(yǔ)言句和存儲(chǔ)在部分對(duì)信息存儲(chǔ)部中的一個(gè)以上的部分對(duì)信息適用在由第一特 征函數(shù)信息表示的非局部特征函數(shù),從而取得第一向量,并且,將構(gòu)成接受部接受的源語(yǔ)言 句的一個(gè)以上的用語(yǔ)和存儲(chǔ)在部分對(duì)信息存儲(chǔ)部中的一個(gè)以上的部分對(duì)信息適用在由第 二特征函數(shù)信息表示的局部特征函數(shù),從而取得第二向量;分?jǐn)?shù)取得部,使用向量取得部 取得的第一向量以及第一權(quán)重向量計(jì)算出非局部的分?jǐn)?shù)即非局部分?jǐn)?shù),并使用向量取得部 取得的第二向量以及第二權(quán)重向量計(jì)算出局部的分?jǐn)?shù)即局部分?jǐn)?shù),再使用非局部分?jǐn)?shù)和局 部分?jǐn)?shù)取得與接受部接受的源語(yǔ)言句對(duì)應(yīng)的兩個(gè)以上目標(biāo)語(yǔ)言句的分?jǐn)?shù);目標(biāo)語(yǔ)言句取得 部,取得分?jǐn)?shù)取得部取得的分?jǐn)?shù)最大的目標(biāo)語(yǔ)言句;以及輸出部,用于輸出目標(biāo)語(yǔ)言句取得 部取得的目標(biāo)語(yǔ)言句。
[0052] 根據(jù)該結(jié)構(gòu),在機(jī)器翻譯過(guò)程中,能夠高效地計(jì)算候選翻譯的分?jǐn)?shù)。
[0053] 另外,與第一項(xiàng)發(fā)明相對(duì)地,本申請(qǐng)的第二項(xiàng)發(fā)明的翻譯裝置為,參數(shù)存儲(chǔ)部還存 儲(chǔ)有在計(jì)算局部分?jǐn)?shù)時(shí)所使用的參數(shù),該參數(shù)包括權(quán)重矩陣M(uXK維)以及u維的作為 偏置的向量B;第一特征函數(shù)信息是表示"h(f,e,d)"的信息,其中,f為源語(yǔ)言句,e為目 標(biāo)語(yǔ)言句,d為導(dǎo)出,h為K維的特征函數(shù);第二特征函數(shù)信息是表示"h'(r)"的信息,其 中,r為導(dǎo)出d中包含的一個(gè)要素,h'為K維的特征函數(shù);分?jǐn)?shù)取得部使用第一特征函數(shù)信 息h(f,e,d)和第一權(quán)重向量W,通過(guò)數(shù)學(xué)式"WT*h(f,e,d)"計(jì)算出非局部分?jǐn)?shù),并使用 第二特征函數(shù)信息W'和第二權(quán)重向量h'(r),以導(dǎo)出d的各個(gè)要素 r為單位,通過(guò)數(shù)學(xué)式 "W'T· σ (M*h'(r)+B)"計(jì)算出局部分?jǐn)?shù),并通過(guò)數(shù)學(xué)式11取得兩個(gè)以上的目標(biāo)語(yǔ)言句各 自的分?jǐn)?shù),其中,σ是u個(gè)各要素單位的sigmoid函數(shù)。
[0054] [數(shù)學(xué)式 11]
[0056] 根據(jù)該結(jié)構(gòu),在機(jī)器翻譯過(guò)程中,能夠高效地計(jì)算候選翻譯的分?jǐn)?shù)。進(jìn)一步具體而 言,根據(jù)該結(jié)構(gòu),通過(guò)以短語(yǔ)對(duì)或規(guī)則對(duì)等為單位導(dǎo)入非線性模型,并且將非線性模型限定 于對(duì)短語(yǔ)對(duì)或規(guī)則對(duì)封閉的特性,從而能夠?qū)崿F(xiàn)與線性模型同樣的高速檢索。
[0057] 另外,本申請(qǐng)的第三項(xiàng)發(fā)明的學(xué)習(xí)裝置具備:參數(shù)存儲(chǔ)部,能夠存儲(chǔ)適用于非局部 特征函數(shù)的權(quán)重向量即第一權(quán)重向量W、適用于局部特征函數(shù)的權(quán)重向量即第二權(quán)重向量 W'、計(jì)算局部分?jǐn)?shù)時(shí)所使用的權(quán)重矩陣M(uXK維)以及u維的作為偏置的向量B ;目標(biāo)函 數(shù)信息存儲(chǔ)部,能夠存儲(chǔ)目標(biāo)函數(shù)信息,所述目標(biāo)函數(shù)信息是與為了