專利名稱:一種基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,是一種新穎的基于謂詞論元結(jié)構(gòu)(簡(jiǎn)稱為PAS)的統(tǒng)計(jì)機(jī)器翻譯方法。
背景技術(shù):
當(dāng)前的統(tǒng)計(jì)機(jī)器翻譯方法主要是從雙語(yǔ)語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)翻譯規(guī)則,并利用這些規(guī)則對(duì)測(cè)試語(yǔ)句進(jìn)行翻譯的過(guò)程。統(tǒng)計(jì)機(jī)器翻譯模型經(jīng)歷了基于詞的、基于短語(yǔ)、以及基于句法結(jié)構(gòu)的翻譯模型,翻譯質(zhì)量也取得了長(zhǎng)足的發(fā)展。然而,當(dāng)前的翻譯模型最多只考慮了句子的層次結(jié)構(gòu)屬性,而并沒(méi)有對(duì)句子中的語(yǔ)義知識(shí)進(jìn)行建模。
同時(shí),調(diào)序(reordering) —直都是機(jī)器翻譯研究中的一個(gè)既重要又困難的課題。當(dāng)前的翻譯模型對(duì)于局部調(diào)序(local reordering)進(jìn)行了很好的建模。然而,對(duì)于全局調(diào)序(global reordering),也就是把句子的整體結(jié)構(gòu)考慮在內(nèi)的調(diào)序,當(dāng)前的機(jī)器翻譯模型并沒(méi)有非常好的解決辦法。因此,如果建立一個(gè)機(jī)器翻譯模型,能夠?qū)渥拥恼Z(yǔ)義知識(shí)進(jìn)行建模,同時(shí)又能夠很好地處理全局調(diào)序問(wèn)題,將大大推動(dòng)機(jī)器翻譯領(lǐng)域的發(fā)展,是一項(xiàng)富有挑戰(zhàn)且非常有意義的工作。謂詞論元結(jié)構(gòu)體現(xiàn)了句子中一個(gè)謂詞和它的所屬論元之間的關(guān)系。因此,它從某種程度上就指示了句子的語(yǔ)義屬性和主體的骨架結(jié)構(gòu)。根據(jù)謂詞論元結(jié)構(gòu)的特性,發(fā)現(xiàn)它不僅僅提供了機(jī)器翻譯所需要的語(yǔ)義知識(shí),而且提供了一種骨架結(jié)構(gòu),可以用于在句子的骨架層面進(jìn)行全局調(diào)序。同時(shí),文獻(xiàn)Pascale Fung, Wu Zhaojun, Yang Yongsheng,and Dekai ffu. (2006). Automatic learning of Chinese english semantic structuremapping.1nlEEE/ACL 2006 Workshop on Spoken Language Technology (SLT 2006)和Dekai Wu and Pascale Fung. (2009b). Semantic roles for smt A hybridtwo-passmodel.1n Proceedings of Human Language Technologies The 2009Annual Conferenceof the North American Chapter of the Association forComputational Linguistics,Companion Volume Short Papers還證明了兩種語(yǔ)言之間的謂詞論元結(jié)構(gòu)比句法結(jié)構(gòu)更能保持結(jié)構(gòu)上的一致性。也就是說(shuō),由于當(dāng)前的基于句法結(jié)構(gòu)的翻譯模型總是受到雙語(yǔ)句子之間句法結(jié)構(gòu)差異性的限制,謂詞論元結(jié)構(gòu)將是句法結(jié)構(gòu)一個(gè)非常合適的替代品。
發(fā)明內(nèi)容
(一 )要解決的技術(shù)問(wèn)題本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)如何有效利用句子中的語(yǔ)義信息,并同時(shí)處理機(jī)器翻譯過(guò)程中的全局調(diào)序問(wèn)題,提出了一種基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法。這種方法使得翻譯模型能夠充分使用待翻譯句子的謂詞論元結(jié)構(gòu)中所攜帶的語(yǔ)義信息,并同時(shí)對(duì)句子在骨架層面的全局調(diào)序進(jìn)行建模,以提高當(dāng)前統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。( 二 )技術(shù)方案為了解決上述技術(shù)問(wèn)題,本發(fā)明提供一種利用句子的謂詞論元結(jié)構(gòu)進(jìn)行統(tǒng)計(jì)機(jī)器翻譯的方法。所述方法包括如下步驟對(duì)所述雙語(yǔ)語(yǔ)料中的雙語(yǔ)句子對(duì)進(jìn)行分詞、自動(dòng)詞對(duì)齊、句法分析以及雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注;根據(jù)所述雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果,抽取所述雙語(yǔ)句子對(duì)的PAS轉(zhuǎn)換規(guī)則,以對(duì)兩種語(yǔ)言的謂詞論元結(jié)構(gòu)之間的對(duì)應(yīng)關(guān)系進(jìn)行建模;利用所述PAS轉(zhuǎn)換規(guī)則,匹配待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果,并相應(yīng)進(jìn)行翻譯;根據(jù)所述翻譯規(guī)則的匹配和翻譯結(jié)果,構(gòu)造解碼超圖,最終生成翻譯結(jié)果。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,所述抽取PAS轉(zhuǎn)換規(guī)則的具體步驟如下步驟1:首先利用自動(dòng)詞對(duì)齊的結(jié)果對(duì)雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果進(jìn)行修改,以確定雙語(yǔ)謂詞論元結(jié)構(gòu)的對(duì)應(yīng)關(guān)系;步驟2 :根據(jù)雙語(yǔ)謂詞論元結(jié)構(gòu)的對(duì)應(yīng)關(guān)系,抽取PAS轉(zhuǎn)換規(guī)則。步驟3 :根據(jù)所獲得的PAS轉(zhuǎn)換規(guī)則,對(duì)這些規(guī)則進(jìn)行泛化擴(kuò)展。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,在源語(yǔ)言的謂詞論元結(jié)構(gòu)中,若存在多個(gè)論元對(duì)齊到目標(biāo)語(yǔ)言的一個(gè)或多個(gè)論元的情況,不抽取PAS轉(zhuǎn)換規(guī)則。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,利用基于謂詞的規(guī)則翻譯概率和基于源端謂詞論元結(jié)構(gòu)的規(guī)則翻譯概率來(lái)衡量PAS轉(zhuǎn)換規(guī)則的置信度。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,使用PAS轉(zhuǎn)換規(guī)則匹配待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果時(shí),只保留那些含有最多的論元或者覆蓋了最多詞匯的匹配結(jié)構(gòu)。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,使用PAS轉(zhuǎn)換規(guī)則匹配待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果時(shí),使用結(jié)構(gòu)匹配打分來(lái)衡量所獲得的句子的謂詞論元結(jié)構(gòu)的置信度。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,使用PAS轉(zhuǎn)換規(guī)則進(jìn)行翻譯時(shí)時(shí),根據(jù)多個(gè)句法分析的結(jié)果,把間隔詞匯附著到與其相鄰的元素上。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,對(duì)匹配得到的謂詞論元結(jié)構(gòu)進(jìn)行翻譯時(shí),使用基于CKY模式的解碼算法進(jìn)行翻譯。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,生成翻譯超圖時(shí),沒(méi)有被謂詞論元結(jié)構(gòu)覆蓋的跨度,使用傳統(tǒng)的翻譯方法生成翻譯候選。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,生成翻譯超圖時(shí),被謂詞論元結(jié)構(gòu)覆蓋的跨度,使用PAS轉(zhuǎn)換規(guī)則,或者傳統(tǒng)的翻譯方法生成翻譯候選。(三)有益效果本發(fā)明的有益效果是謂詞論元結(jié)構(gòu)描述了句子中謂詞和論元之間的關(guān)系。它既有效的表示了句子的語(yǔ)義信息,又定義了句子的一種全局骨架結(jié)構(gòu)。本發(fā)明能夠充分利用謂詞論元結(jié)構(gòu)中所攜帶的語(yǔ)義信息,又能夠利用這種骨架結(jié)構(gòu)進(jìn)行有效的全局調(diào)序,對(duì)于基于語(yǔ)義的機(jī)器翻譯有著重大的推動(dòng)作用。
圖1是本發(fā)明的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法的流程圖;圖2中(a)是一個(gè)雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的例子;(b)是完整的PAS轉(zhuǎn)換規(guī)則示例;(c)是簡(jiǎn)化的PAS轉(zhuǎn)換規(guī)則示例;圖3是一個(gè)使用詞對(duì)齊對(duì)雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果進(jìn)行修改的例子;圖4是一個(gè)示例句子所獲得的多個(gè)語(yǔ)義角色標(biāo)注的結(jié)果,以及最終的PAS轉(zhuǎn)換規(guī)則匹配的結(jié)果;
圖5是一個(gè)利用句法分析樹(shù)對(duì)間隔詞進(jìn)行附著的例子;圖6是使用基于CKY模式的解碼算法對(duì)目標(biāo)端的謂詞論元結(jié)構(gòu)TP進(jìn)行解碼的例子;圖7是本發(fā)明翻譯超圖的一個(gè)示例;圖8是本發(fā)明翻譯超圖的一個(gè)示例。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。本發(fā)明提出了一種利用謂詞論元結(jié)構(gòu)(簡(jiǎn)稱為PAS)進(jìn)行統(tǒng)計(jì)機(jī)器翻譯的方法。圖1是本發(fā)明的總體流程圖。如圖1所示,本發(fā)明首先對(duì)雙語(yǔ)語(yǔ)料中的雙語(yǔ)句子進(jìn)行自動(dòng)分詞、自動(dòng)詞對(duì)齊、句法分析以及雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注。然后,根據(jù)雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果,抽取PAS轉(zhuǎn)換規(guī)則,也就是能夠把源語(yǔ)言句子的謂詞論元結(jié)構(gòu)轉(zhuǎn)換為目標(biāo)語(yǔ)言句子的謂詞論元結(jié)構(gòu)的規(guī)則。然后,本發(fā)明把機(jī)器翻譯的過(guò)程分解為三個(gè)步驟1)PAS獲取即通過(guò)語(yǔ)義角色標(biāo)注獲取待翻譯句子的謂詞論元結(jié)構(gòu),即PAS ;2)PAS轉(zhuǎn)換使用前面從訓(xùn)練語(yǔ)料中得到的PAS轉(zhuǎn)換規(guī)則,匹配待翻譯句子的謂詞論元結(jié)構(gòu),并利用規(guī)則將其轉(zhuǎn)換為目標(biāo)語(yǔ)言句子的謂詞論元結(jié)構(gòu)。3)PAS翻譯根據(jù)目標(biāo)語(yǔ)言句子的謂詞論元結(jié)構(gòu),對(duì)各個(gè)論元和謂詞的翻譯結(jié)果進(jìn)行合并,以獲取最終的句子翻譯結(jié)果。下面就以漢-英平行句子對(duì)作為一個(gè)實(shí)施例來(lái)詳細(xì)闡述本發(fā)明的原理與實(shí)現(xiàn)方法。該方法包括以下各步驟1.對(duì)雙語(yǔ)語(yǔ)料中的雙語(yǔ)句子進(jìn)行自動(dòng)分詞、自動(dòng)詞對(duì)齊、句法分析以及雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注。
具體實(shí)施方式
如下對(duì)雙語(yǔ)句子對(duì)中的源語(yǔ)言句子和目標(biāo)語(yǔ)言句子進(jìn)行分詞,得到源語(yǔ)言端和目標(biāo)語(yǔ)言端的分詞結(jié)果。如果源語(yǔ)言或目標(biāo)語(yǔ)言中不包含漢語(yǔ),則不需要進(jìn)行分詞。如果源語(yǔ)言或目標(biāo)語(yǔ)言中包含漢語(yǔ),則需要對(duì)漢語(yǔ)進(jìn)行分詞。在本發(fā)明的實(shí)施例中,以詞法分析工具Urheen對(duì)漢語(yǔ)進(jìn)行自動(dòng)分詞。Urheen詞法分析工具可以在以下網(wǎng)址免費(fèi)下載http://www. openpr. org. cn/index. php/NLP-Toolkit-for-Natural-Language-Processing/。得到所述的源語(yǔ)言端和目標(biāo)語(yǔ)言端的分詞結(jié)果之后,需要對(duì)雙語(yǔ)句子對(duì)進(jìn)行詞對(duì)齊。在本發(fā)明的實(shí)施例中,使用GIZA++工具對(duì)漢-英句子對(duì)進(jìn)行自動(dòng)詞對(duì)齊,得到漢-英自動(dòng)詞對(duì)齊結(jié)果。GIZA++是一個(gè)常用的開(kāi)源詞對(duì)齊工具。GIZA++可以在以下網(wǎng)址免費(fèi)下載http://fj0ch. com/GIZA++. html。在使用GIZA++時(shí)要選擇某個(gè)啟發(fā)式策略來(lái)得到對(duì)稱的詞對(duì)齊結(jié)果,分別選擇grow-diag-final-and策略,因?yàn)樵搯l(fā)式策略被許多研究工作證明在中英翻譯中是最有效的啟發(fā)式策略。得到所述的源語(yǔ)言端與目標(biāo)語(yǔ)言端的分詞結(jié)果之后,需要對(duì)雙語(yǔ)句子進(jìn)行句法分析。在本文的實(shí)施例中分別使用Berkeley句法分析器、standford句法分析器以及bike句法分析器對(duì)雙語(yǔ)句子進(jìn)行句法分析。它們都可以免費(fèi)下載,下載地址分別為http://code. ROORle. com/p/berkeleyparser/0http://nip. Stanford, edu/software/lex~parser. shtml
http://www. cis. upenn. edu/ dbikel/software. html最后,根據(jù)Ta。Zhuangand Chengqing Zong, 2010. Joint InferenceforBilingual Semantic Role Labeling. Proc. of EMNLP 2010. pages 304-314中的方法對(duì)訓(xùn)練語(yǔ)料進(jìn)行雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注。語(yǔ)義角色標(biāo)注是獲取謂詞論元結(jié)構(gòu)的一個(gè)有效方法。雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注不僅能夠同時(shí)獲得雙語(yǔ)兩端的謂詞論元結(jié)構(gòu),而且能夠獲取句子兩端論元之間的對(duì)齊關(guān)系,有利于抽取PAS轉(zhuǎn)換規(guī)則。雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果如圖2(a)所示。2.根據(jù)所述的雙語(yǔ)兩端的謂詞論元結(jié)構(gòu),抽取所述雙語(yǔ)句子對(duì)的PAS轉(zhuǎn)換規(guī)則,以對(duì)兩種語(yǔ)言的謂詞論元結(jié)構(gòu)之間的轉(zhuǎn)換關(guān)系進(jìn)行建模。給定一個(gè)雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果,可以很容易得到一條完整的PAS轉(zhuǎn)換規(guī)貝U,如圖2(b)所示。規(guī)則中包含了很多句子的語(yǔ)義信息(謂詞與論元之間的依賴關(guān)系)和雙語(yǔ)論元之間的對(duì)齊信息。但在這條規(guī)則中,并不是所有的信息都會(huì)在機(jī)器翻譯進(jìn)程中使
用。于是對(duì)這條規(guī)則進(jìn)行簡(jiǎn)化,得到了如圖2(c)所示的簡(jiǎn)化的PAS轉(zhuǎn)換規(guī)則。利用這樣的規(guī)則,就能夠把漢語(yǔ)謂詞論元結(jié)構(gòu)轉(zhuǎn)換為英語(yǔ)的謂詞論元結(jié)構(gòu),然后把各個(gè)論元的翻譯結(jié)果填充到這個(gè)英語(yǔ)的謂詞論元結(jié)構(gòu)中,就可以獲得最終的翻譯結(jié)果了。一條簡(jiǎn)化的PAS轉(zhuǎn)換規(guī)則是一個(gè)三元組{Pred,SP, TP},其中Pred是源端謂詞,SP代表源端的謂詞論元結(jié)構(gòu),TP代表目標(biāo)端的謂詞論元結(jié)構(gòu)。例如,在圖2(c)中的規(guī)則即為一個(gè)三元組,其中Pred為漢語(yǔ)動(dòng)詞“提供”,SP為〈[AO^AM-ADVL^UPredUAlL〉,TP為OC1 X2 X4 X5 X3>。其中,兩個(gè)結(jié)構(gòu)SP和TP中相同的下標(biāo)表示兩個(gè)結(jié)構(gòu)中兩個(gè)對(duì)齊的元素。在這里,用元素表示一個(gè)謂詞論元結(jié)構(gòu)中的謂詞([Pred])或者論元(例如[A0])。有了 PAS轉(zhuǎn)換規(guī)則,對(duì)SP的各個(gè)元素進(jìn)行翻譯,然后按照TP的模式把各個(gè)元素的翻譯結(jié)果組織起來(lái),就能夠得到最終的翻譯結(jié)果。這就要求SP和TP的元素之間存在著一一對(duì)應(yīng)關(guān)系,如此才能把一個(gè)SP元素的翻譯結(jié)果傳遞給TP元素。然而,許多情況下,雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果并不滿足這種一一對(duì)齊的關(guān)系。在源端的謂詞論元結(jié)構(gòu)中,有些論元沒(méi)有對(duì)齊到目標(biāo)端論元,有些論元?jiǎng)t對(duì)齊到了多個(gè)目標(biāo)端的論元上。為了能夠抽取PAS轉(zhuǎn)換規(guī)則,使用詞對(duì)齊對(duì)語(yǔ)義角色標(biāo)注的結(jié)果進(jìn)行修正。對(duì)于那些沒(méi)有對(duì)齊到目標(biāo)端的源端論元,根據(jù)詞對(duì)齊找到它在目標(biāo)端對(duì)應(yīng)的跨度,即目標(biāo)語(yǔ)言句子中與源端論元對(duì)應(yīng)的范圍。如果這個(gè)跨度和目標(biāo)端的各個(gè)論元不交叉,而且這個(gè)跨度和源端論元的跨度滿足對(duì)齊一致性,那么就把這個(gè)跨度作為一個(gè)虛擬的目標(biāo)端論元用于抽取PAS轉(zhuǎn)換規(guī)則。否則,就不考慮這個(gè)源端論元。兩個(gè)跨度滿足對(duì)齊一致性是指,根據(jù)詞對(duì)齊,一個(gè)跨度中的詞匯只能對(duì)齊到另外一個(gè)跨度中,反之也成立。對(duì)于那些對(duì)齊到多個(gè)目標(biāo)端論元的源端論元,找到那個(gè)能夠覆蓋所有與之對(duì)齊的目標(biāo)端論元的最小的連續(xù)跨度。同樣地,如果這個(gè)跨度和其他的目標(biāo)端論元沒(méi)有交叉,并且它和源端論元的跨度滿足對(duì)齊一致性,那么把它作為一個(gè)虛擬的目標(biāo)端論元用于抽取PAS轉(zhuǎn)換規(guī)則。否則,不考慮這個(gè)源端論元。另外,若存在多個(gè)源端論元對(duì)齊到一個(gè)或多個(gè)目標(biāo)端論元的情況,則不抽取PAS轉(zhuǎn)換規(guī)則。圖3是一個(gè)使用詞對(duì)齊對(duì)雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果進(jìn)行修改的例子,其中
(a)是一個(gè)待修改的雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的例子,(b)是修改后所抽取的簡(jiǎn)化的PAS轉(zhuǎn)換規(guī)則。在圖3(a)中,雖然源端論元[AM-ADV]沒(méi)有對(duì)齊到目標(biāo)端論元,但通過(guò)詞對(duì)齊,把它對(duì)齊到了目標(biāo)端詞匯“has”上。而對(duì)于源端論元[AM-TMP],把與它對(duì)齊的兩個(gè)目標(biāo)端論元[AM-TMP]進(jìn)行合并,形成一個(gè)大的目標(biāo)端論元用于規(guī)則抽取。最終,得到如圖3(b)所示的PAS轉(zhuǎn)換規(guī)則。另外,在謂詞論元結(jié)構(gòu)中,一些修飾論元對(duì)于句子的整體結(jié)構(gòu)來(lái)說(shuō)是沒(méi)有必要的。這里說(shuō)的修飾論元是指那些前綴為AM的論元。例如,在圖3(a)中,[AM-TMP]就是一個(gè)修飾論元。如果把它和與它對(duì)齊的目標(biāo)端論元丟棄掉,那么剩余的謂詞論元結(jié)構(gòu)仍然是有意義的。因此,可以根據(jù)這個(gè)結(jié)論對(duì)PAS轉(zhuǎn)換規(guī)則進(jìn)行擴(kuò)展,以增加其通用性,稱這個(gè)過(guò)程為規(guī)則的泛化擴(kuò)展。具體地,對(duì)于一條PAS轉(zhuǎn)換規(guī)則的每一個(gè)修飾論元,都可以丟掉它和與它的對(duì)齊論元,并用剩余的結(jié)構(gòu)構(gòu)造一條新的PAS轉(zhuǎn)換規(guī)則。這樣一來(lái),一條規(guī)則中有多少個(gè)修飾論元,就可以獲得多少條新的PAS轉(zhuǎn)換規(guī)則。例如,在圖3(a)中,丟掉源端論元[AM-TMP]后,可以得到PAS轉(zhuǎn)換規(guī)則,這條規(guī)則的Pred是“公布”,SP是〈[Al] i [AM-ADV] 2 [Pred] 3>,TP是 OC1 X2 X3>。 本發(fā)明把所有的PAS轉(zhuǎn)換規(guī)則都被存放在一棵Trie樹(shù)結(jié)構(gòu)中,用TRTrie表示。在這個(gè)結(jié)構(gòu)中,使用規(guī)則的Pred和SP作為鍵值,TP作為節(jié)點(diǎn)值用于存放。同時(shí),本發(fā)明還使用兩個(gè)與PAS轉(zhuǎn)換規(guī)則息息相關(guān)的概率,以衡量PAS轉(zhuǎn)換規(guī)則的置信度基于謂詞的規(guī)則翻譯概率Pprei(r)和基于SP的規(guī)則翻譯概率Psp(r)
P ,M、_f(廠)Ipred V)-——
上,:/)m/(r)-Pred(r)〔)
P 卜、—C(TSPir))rsAn = ~C(TSP(/))
^r':SP(r'))=SP(r) uK1 V ”其中,TSP (r)表示規(guī)則r的SP和TP。c (r)和c (TSP (r)分別為規(guī)則r和TSP (r)出現(xiàn)的次數(shù)。Pred (r)和SP(r)分別表示規(guī)則r的Pred和SP。概率Ppral (r)中,分母為對(duì)所有與當(dāng)前規(guī)則r具有相同謂詞Pred的規(guī)則進(jìn)行求和。同理,概率Psp (r)中,分母為對(duì)所有與r具有相同源端結(jié)構(gòu)SP的規(guī)則進(jìn)行求和。這兩個(gè)概率將作為翻譯特征用于最終的解碼。其中,第一個(gè)概率主要用于評(píng)價(jià)一個(gè)特定的源端謂詞使用這條PAS轉(zhuǎn)換規(guī)則的可能性。而第二個(gè)概率則用于衡量哪一個(gè)TP更適合于給定的SP。這兩個(gè)特征從不同的角度對(duì)雙語(yǔ)謂詞論元結(jié)構(gòu)的分布進(jìn)行建模,能夠幫助機(jī)器翻譯解碼器選擇合適的PAS轉(zhuǎn)換規(guī)則用于翻譯。3.利用所述PAS轉(zhuǎn)換規(guī)則,匹配待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果,并相應(yīng)進(jìn)行翻譯。本發(fā)明把基于謂詞論元結(jié)構(gòu)的翻譯方法分為三個(gè)過(guò)程1)PAS獲取使用一個(gè)單語(yǔ)的語(yǔ)義角色標(biāo)注系統(tǒng)對(duì)每一個(gè)待翻譯句子進(jìn)行語(yǔ)義角色標(biāo)注。為了緩和語(yǔ)義角色標(biāo)注錯(cuò)誤帶來(lái)的消極影響,使用多個(gè)語(yǔ)義角色標(biāo)注的結(jié)果。也就是說(shuō),對(duì)于每個(gè)待翻譯句子,使用Berkeley句法分析器產(chǎn)生的最好的3棵句法樹(shù)、Standford句法分析器產(chǎn)生的最好的句法樹(shù)以及Bikel句法分析器產(chǎn)生的句法樹(shù),總共5棵句法樹(shù)用于語(yǔ)義角色標(biāo)注。每棵句法樹(shù)產(chǎn)生一個(gè)語(yǔ)義角色標(biāo)注的結(jié)果,將它們綜合起來(lái),即得到語(yǔ)義角色標(biāo)注結(jié)果,如圖4(a)所示。其中,AO代表謂詞“提供”的施事論元,Al表示受事論元,前綴為AM的則為修飾論元。2)PAS轉(zhuǎn)換使用PAS轉(zhuǎn)換規(guī)則匹配所產(chǎn)生的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果SP,將其轉(zhuǎn)換為目標(biāo)端的謂詞論元結(jié)構(gòu)TP。3)PAS翻譯根據(jù)產(chǎn)生的目標(biāo)端的謂詞論元結(jié)構(gòu)TP,進(jìn)行解碼以生成最終的翻譯。3.1PAS 轉(zhuǎn)換獲得待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注的結(jié)果之后,根據(jù)第2節(jié)抽取的PAS轉(zhuǎn)換規(guī)貝U,本發(fā)明使用動(dòng)態(tài)規(guī)劃算法匹配獲得待翻譯句子所有可能的謂詞論元結(jié)構(gòu)。首先,在儲(chǔ)存了 PAS規(guī)則的TRTrie中尋找當(dāng)前的謂詞,并得到節(jié)點(diǎn)P_N。從P_N開(kāi)始,根據(jù)語(yǔ)義角色標(biāo)注的結(jié)果,不斷的匹配PAS轉(zhuǎn)換規(guī)則中的各個(gè)元素,也就是沿著TRTrie擴(kuò)展。最后就能夠得到所有可能的謂詞論元結(jié)構(gòu)以及對(duì)應(yīng)的PAS轉(zhuǎn)換規(guī)則。本發(fā)明僅僅保留那些含有數(shù)量最多的論元,或者覆蓋了最多源端詞匯的謂詞論元結(jié)構(gòu)。例如,在圖4(b)給出了圖4(a)的匹配結(jié)果。在圖4(b)中,匹配結(jié)果Ml覆蓋了最多數(shù)量的源端詞匯,結(jié)果M3含有最多數(shù)量的論元,而M2則同時(shí)滿足了這兩個(gè)條件。得到匹配的結(jié)果之后,根據(jù)PAS轉(zhuǎn)換規(guī)則,就可以得到
目標(biāo)端的謂詞論元結(jié)構(gòu)TP。本發(fā)明中,使用結(jié)構(gòu)匹配得分來(lái)衡量匹配的謂詞論元結(jié)構(gòu)的置信度。對(duì)于一個(gè)謂詞論元結(jié)構(gòu) <Aml, · · ·,Α >,例如,<[A0] [AM-ADV] [A2] [Pred] [Al]>(圖 4(b)中的匹配結(jié)果M1),它的結(jié)構(gòu)匹配得分為
權(quán)利要求
1.基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于包括如下步驟步驟1:基于謂詞論元結(jié)構(gòu)對(duì)雙語(yǔ)語(yǔ)料中的雙語(yǔ)句子對(duì)進(jìn)行分詞、自動(dòng)詞對(duì)齊、句法分析以及雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注;步驟2 :根據(jù)所述雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果,抽取所述雙語(yǔ)句子對(duì)的PAS轉(zhuǎn)換規(guī)貝U,以對(duì)兩種語(yǔ)言的謂詞論元結(jié)構(gòu)之間的關(guān)系進(jìn)行建模;步驟3 :利用所述PAS轉(zhuǎn)換規(guī)則,匹配待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果,并相應(yīng)進(jìn)行翻譯;步驟4 :根據(jù)所述PAS轉(zhuǎn)換規(guī)則的匹配和翻譯結(jié)果,構(gòu)造翻譯超圖,最終生成翻譯結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于抽取 PAS轉(zhuǎn)換規(guī)則的具體步驟如下步驟1:首先利用自動(dòng)詞對(duì)齊的結(jié)果對(duì)雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果進(jìn)行修正,以確定雙語(yǔ)謂詞論元結(jié)構(gòu)的對(duì)應(yīng)關(guān)系;步驟2 :根據(jù)雙語(yǔ)謂詞論元結(jié)構(gòu)的對(duì)應(yīng)關(guān)系,抽取PAS轉(zhuǎn)換規(guī)則。步驟3 :根據(jù)所獲得的PAS轉(zhuǎn)換規(guī)則,對(duì)這些規(guī)則進(jìn)行泛化擴(kuò)展。
3.根據(jù)權(quán)利要求2所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述修正具體為對(duì)于沒(méi)有對(duì)齊到目標(biāo)端的源端論元,如果根據(jù)詞對(duì)齊,其跨度和目標(biāo)端的各個(gè)論元不交叉,而且這個(gè)跨度和源端論元的跨度滿足對(duì)齊一致性,就把這個(gè)跨度作為一個(gè)虛擬的目標(biāo)端論元用于抽取PAS轉(zhuǎn)換規(guī)則;否則,不考慮這個(gè)源端論元;對(duì)于對(duì)齊到多個(gè)目標(biāo)端論元的源端論元,找到能夠覆蓋所有與之對(duì)齊的目標(biāo)端論元的最小的連續(xù)跨度,如果這個(gè)跨度和其他的目標(biāo)端論元沒(méi)有交叉,并且它和源端論元的跨度滿足對(duì)齊一致性,把它作為一個(gè)虛擬的目標(biāo)端論元用于抽取PAS轉(zhuǎn)換規(guī)則;否則,不考慮這個(gè)源端論元;若存在多個(gè)源端論元對(duì)齊到一個(gè)或多個(gè)目標(biāo)端論元的情況,則不抽取PAS轉(zhuǎn)換規(guī)則。
4.根據(jù)權(quán)利要求2所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述泛化擴(kuò)展包括將謂詞論元結(jié)構(gòu)中的修飾論元和與它對(duì)齊的目標(biāo)端論元丟棄掉,用剩余的結(jié)構(gòu)構(gòu)造一條新的PAS轉(zhuǎn)換規(guī)則。
5.根據(jù)權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于建模時(shí)利用基于謂詞的規(guī)則翻譯概率和基于源端謂詞論元結(jié)構(gòu)的規(guī)則翻譯概率來(lái)衡量PAS轉(zhuǎn)換規(guī)則的置信度。
6.根據(jù)權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于利用所述PAS轉(zhuǎn)換規(guī)則,匹配待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果時(shí),只保留那些含有最多的論元或者覆蓋了最多源端詞匯的匹配結(jié)構(gòu)。
7.根據(jù)權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于利用所述PAS轉(zhuǎn)換規(guī)則,匹配待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果時(shí),使用結(jié)構(gòu)匹配得分來(lái)衡量所獲得的句子的謂詞論元結(jié)構(gòu)的置信度。
8.根據(jù)權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于使用 PAS轉(zhuǎn)換規(guī)則進(jìn)行翻譯時(shí),把間隔詞匯附著到與其相鄰的元素上。
9.根據(jù)權(quán)利要求1或8所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于使用PAS轉(zhuǎn)換規(guī)則進(jìn)行翻譯時(shí),根據(jù)多棵句法分析樹(shù),使用投票的方法把間隔詞匯附著到與其相鄰的元素上。
10.根據(jù)權(quán)利要求9所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于把間隔詞匯附著到與其相鄰的元素上后,若存在完全相同的結(jié)構(gòu),那么只保留其中結(jié)構(gòu)匹配得分最聞的一個(gè)。
11.根據(jù)權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于步驟3中使用基于CKY模式的解碼算法進(jìn)行翻譯。
12.根據(jù)權(quán)利要求11所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于所述算法只搜尋所有可能的跨度的合并方式。
13.根據(jù)權(quán)利要求12所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于合并后產(chǎn)生的新跨度的翻譯候選來(lái)自于兩個(gè)方面一是利用立方體剪枝對(duì)它的子跨度的翻譯候選進(jìn)行合并,另一個(gè)是直接使用短語(yǔ)翻譯規(guī)則。
14.根據(jù)權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于生成翻譯超圖時(shí),沒(méi)有被謂詞論元結(jié)構(gòu)覆蓋的跨度,使用傳統(tǒng)的翻譯方法生成翻譯候選。
15.根據(jù)權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于生成翻譯超圖時(shí),被謂詞論元結(jié)構(gòu)覆蓋的跨度,使用PAS轉(zhuǎn)換規(guī)則,或者傳統(tǒng)的翻譯方法生成翻譯候選。
全文摘要
本發(fā)明涉及一種基于謂詞論元結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,所述方法包括如下步驟對(duì)雙語(yǔ)語(yǔ)料中的雙語(yǔ)句子對(duì)進(jìn)行分詞、自動(dòng)詞對(duì)齊、句法分析以及雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注;根據(jù)所述雙語(yǔ)聯(lián)合語(yǔ)義角色標(biāo)注的結(jié)果,抽取所述雙語(yǔ)句子對(duì)的PAS轉(zhuǎn)換規(guī)則,以對(duì)兩種語(yǔ)言的謂詞論元結(jié)構(gòu)之間的關(guān)系進(jìn)行建模;利用所述PAS轉(zhuǎn)換規(guī)則,匹配待翻譯句子的多個(gè)語(yǔ)義角色標(biāo)注結(jié)果,并相應(yīng)進(jìn)行翻譯;根據(jù)所述PAS轉(zhuǎn)換規(guī)則的匹配和翻譯結(jié)果,構(gòu)造翻譯超圖,最終生成翻譯結(jié)果。
文檔編號(hào)G06F17/27GK103020045SQ20121053409
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年12月11日 優(yōu)先權(quán)日2012年12月11日
發(fā)明者宗成慶, 翟飛飛, 張家俊, 周玉 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所