一種雙語(yǔ)最大名詞組塊分離-融合的翻譯方法
【專利摘要】本發(fā)明公開(kāi)了一種雙語(yǔ)最大名詞組塊分離-融合的翻譯方法,屬于計(jì)算機(jī)科學(xué)中的自然語(yǔ)言處理【技術(shù)領(lǐng)域】。在基于樹(shù)的統(tǒng)計(jì)機(jī)器翻譯模型的中引入了BMNCs分離-融合翻譯的思想,把句子翻譯轉(zhuǎn)化為句子中所有雙語(yǔ)最大名詞組塊的翻譯和句子骨架的翻譯。本方法降低了翻譯難度和翻譯時(shí)間,提升了翻譯準(zhǔn)確率,尤其適合在即時(shí)翻譯中針對(duì)較長(zhǎng)句子的翻譯。
【專利說(shuō)明】—種雙語(yǔ)最大名詞組塊分離-融合的翻譯方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種雙語(yǔ)最大名詞組塊分離-融合的翻譯方法,尤其適用于較長(zhǎng)句子的翻譯,屬于計(jì)算機(jī)科學(xué)中的自然語(yǔ)言處理(NLP)【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]最大名詞短語(yǔ)(MNP)是指不被其他任何名詞短語(yǔ)所包含的名詞短語(yǔ)。從句法功能上來(lái)看,MNP 一般出現(xiàn)在句子的主語(yǔ)或賓語(yǔ)的位置,如果能夠很好地識(shí)別出句子中所有的MNP,就可以很方便地把握句子的整體結(jié)構(gòu)框架。作為一項(xiàng)重要的應(yīng)用基礎(chǔ)研究,MNP的自動(dòng)識(shí)別與分析對(duì)于自然語(yǔ)言處理領(lǐng)域中的許多應(yīng)用研究,包括句法分析、信息檢索、信息抽取、機(jī)器翻譯等,都具有重要的實(shí)踐意義。
[0003]在計(jì)算機(jī)語(yǔ)言處理【技術(shù)領(lǐng)域】中,不同語(yǔ)言之間的機(jī)器翻譯問(wèn)題本質(zhì)上還是語(yǔ)言問(wèn)題,所以機(jī)器翻譯問(wèn)題的最終解決也必須依靠語(yǔ)言學(xué)知識(shí)的運(yùn)用。語(yǔ)言學(xué)知識(shí)一般指的是源或目的語(yǔ)言的句法分析結(jié)構(gòu)。典型的基于語(yǔ)言學(xué)語(yǔ)法的統(tǒng)計(jì)翻譯模型是基于樹(shù)的統(tǒng)計(jì)翻譯機(jī)器翻譯模型,指的是在漢語(yǔ)端,或者英語(yǔ)端,或者兩端同時(shí)利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu),是統(tǒng)計(jì)機(jī)器翻譯的一種新趨勢(shì)。
[0004]目前,研究人員對(duì)MNP和基于樹(shù)的統(tǒng)計(jì)翻譯都進(jìn)行了大量的研究,但是仍然存在諸多的問(wèn)題。
[0005]第一,在基于樹(shù)的統(tǒng)計(jì)機(jī)器翻譯中,句法分析錯(cuò)誤會(huì)傳遞到翻譯解碼節(jié)點(diǎn),使得翻譯準(zhǔn)確率嚴(yán)重下降,中文句法分析不盡人意。因此,句法分析問(wèn)題成為基于樹(shù)的統(tǒng)計(jì)機(jī)器翻譯的瓶頸。
[0006]第二,在基于樹(shù)的統(tǒng)計(jì)翻譯模型中,翻譯解碼時(shí)間加上漢語(yǔ)句法分析的時(shí)間,其時(shí)間復(fù)雜度是句子長(zhǎng)度的三次方。隨著句子的長(zhǎng)度增加,翻譯時(shí)間將明顯增長(zhǎng),這對(duì)在線翻譯的影響顯而易見(jiàn)。所以,長(zhǎng)句子的翻譯一直是個(gè)難點(diǎn)。
[0007]第三,目前對(duì)漢英MNP的識(shí)別研究較多,但是由于漢英的語(yǔ)言差異比較大,MNP在機(jī)器翻譯中的一直沒(méi)有得到廣泛的應(yīng)用。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是為了克服已有技術(shù)的缺陷,針對(duì)現(xiàn)有基于樹(shù)的統(tǒng)計(jì)機(jī)器翻譯模型在翻譯質(zhì)量和翻譯實(shí)時(shí)性上的不足,通過(guò)定義一種比現(xiàn)有的MNP更具有應(yīng)用性的雙語(yǔ)最大名詞組塊(BMNC),并在此基礎(chǔ)上提出一種雙語(yǔ)最大名詞組塊分離-融合的翻譯方法。
[0009]本發(fā)明方法的基本原理是:采用一種分而治之的翻譯策略,把句子翻譯轉(zhuǎn)化為句子中所有雙語(yǔ)最大名詞組塊的翻譯和句子骨架的翻譯。首先,對(duì)待翻譯的句子進(jìn)行BMNC識(shí)另O,把所有BMNC抽取出來(lái)組成BMNC集合(用BMNCs表示);在原來(lái)的句子中,用BMNC的中心詞的詞性來(lái)代替BMNC整體,形成句子骨架。然后,對(duì)BMNCs和句子骨架分別進(jìn)行句法分析。利用BMNC翻譯模型翻譯BMNC,得到英語(yǔ)BMNCs的n-best輸出;利用句子骨架翻譯模型翻譯句子骨架得到英語(yǔ)句子骨架的n-best輸出。最后,融合英語(yǔ)BMNCs和句子骨架,形成最后的翻譯結(jié)果。
[0010]所述BMNC,是指具備雙語(yǔ)一致性的MNP。在雙語(yǔ)句對(duì)中,漢英MNP會(huì)存在不完全對(duì)譯的情況。BMNC不僅是一個(gè)完整的句法單元和語(yǔ)義單元,在句子中有穩(wěn)定的外部修飾結(jié)構(gòu),還具備雙語(yǔ)可互譯性和雙語(yǔ)識(shí)別的一致性。在單語(yǔ)中它可能被其它名詞短語(yǔ)包含,但是它不能被可互譯的其它名詞短語(yǔ)包含。
[0011]具體地,本發(fā)明方法包括以下步驟:
[0012]步驟一、對(duì)待翻譯的句子進(jìn)行BMNC識(shí)別,并將所有BMNC抽取出來(lái)組成BMNC集合;同時(shí),在原來(lái)的句子中用BMNC的中心詞的詞性來(lái)代替BMNC整體,形成句子骨架。
[0013]首先,從句法樹(shù)庫(kù)中隨機(jī)抽取2000句,提取BMNC并標(biāo)注其中心詞,作為訓(xùn)練語(yǔ)料。通過(guò)機(jī)器學(xué)習(xí)的方法,訓(xùn)練BMNC及其中心詞的識(shí)別模型。然后,利用識(shí)別模型,對(duì)待翻譯的句子進(jìn)行BMNC及其中心詞識(shí)別標(biāo)注,提取句子中所有BMNC并組成BMNC集合——BMNCs,同時(shí),將句子中的BMNC用其中心詞詞性代替形成句子骨架。
[0014]所述識(shí)別模型可選用條件隨機(jī)域模型(CRF)或者支持向量機(jī)(SVM)。
[0015]所述句法樹(shù)庫(kù)可選用賓州句法樹(shù)庫(kù)或者清華大學(xué)句法樹(shù)庫(kù)等。
[0016]步驟二、建立BMNC和句子骨架的翻譯模型,翻譯經(jīng)步驟一得到的BMNCs和句子骨架。
[0017]為了翻譯步驟一中得到的BMNCs和句子骨架,首先訓(xùn)練BMNC和句子骨架的翻譯模型。其流程如圖2所示,具體如下:
[0018]在句子級(jí)別對(duì)齊的語(yǔ)料中抽取對(duì)齊的BMNC,建立BMNC平行語(yǔ)料庫(kù)。首先,分別對(duì)漢英句子進(jìn)行BMNC粗識(shí)別,然后對(duì)BMNC進(jìn)行識(shí)別對(duì)齊修正,最后通過(guò)一個(gè)貪心算法,得到句對(duì)最優(yōu)的BMNC對(duì)集合。
[0019]平行語(yǔ)料中提取到的所有BMNC對(duì)構(gòu)成了 BMNC平行語(yǔ)料;把每個(gè)句子中的BMNC用對(duì)應(yīng)的中心詞的詞性代替,組成句子骨架平行語(yǔ)料。由此將句子級(jí)對(duì)齊的平行語(yǔ)料分解為BMNC平行語(yǔ)料和句子骨架平行語(yǔ)料,并在這兩個(gè)語(yǔ)料上分別訓(xùn)練BMNC翻譯模型和句子骨架翻譯模型。
[0020]利用上述BMNC翻譯模型,對(duì)步驟一得到的BMNCs進(jìn)行翻譯,得到英語(yǔ)BMNCs的n-best輸出;利用句子骨架翻譯模型翻譯待翻譯句子的句子骨架,得到句子骨架的英語(yǔ)n-best 輸出。
[0021]所述n-best是指最優(yōu)的前η個(gè)結(jié)果。
[0022]步驟三、融合英語(yǔ)的BMNCs和句子骨架,形成翻譯結(jié)果。
[0023]把經(jīng)步驟二得到的英語(yǔ)端BMNCs的n_best輸出和英語(yǔ)端句子骨架的n_best輸出進(jìn)行交叉組合,產(chǎn)生待翻譯句子的一系列翻譯候選。利用線性加權(quán)模型,融合n-gram特征和句子長(zhǎng)度懲罰特征為每個(gè)翻譯候選打分,把翻譯任務(wù)轉(zhuǎn)換為一個(gè)排序任務(wù),選取得分最高的翻譯假設(shè)作為最優(yōu)句子翻譯結(jié)果。
[0024]所述n-gram是指η元語(yǔ)法模型。
[0025]有益效果
[0026]本發(fā)明通過(guò)在基于樹(shù)的統(tǒng)計(jì)機(jī)器翻譯模型的中引入了 BMNCs分離-融合翻譯的思想,把整句翻譯任務(wù)分解為,BMNCs翻譯和句子骨架翻譯兩個(gè)獨(dú)立的任務(wù),降低了翻譯難度和翻譯時(shí)間。本方法對(duì)比現(xiàn)有技術(shù),BMNCs分離-融合翻譯減低了最大名詞組塊對(duì)句子翻譯的負(fù)面影響,降低了句子的結(jié)構(gòu)復(fù)雜度,從而句法分析錯(cuò)誤傳遞到翻譯解碼節(jié)點(diǎn)的幾率減少,使得翻譯準(zhǔn)確率得到提升。用中心詞的詞性來(lái)代替BMNC整體,使句子的平均長(zhǎng)度降低一半左右,而且剔除了部分底層的結(jié)構(gòu)歧義,給句法分析帶來(lái)了極大的便利,也使得基于語(yǔ)言學(xué)語(yǔ)法的翻譯模型能更好地發(fā)揮它長(zhǎng)距離調(diào)序的優(yōu)勢(shì)。另外,句子長(zhǎng)度的縮短,減小了翻譯搜索空間,降低了翻譯算法的復(fù)雜度,降低了翻譯時(shí)間。本發(fā)明尤其適合在即時(shí)翻譯中針對(duì)較長(zhǎng)句子的翻譯。
【專利附圖】
【附圖說(shuō)明】
[0027]圖1為本發(fā)明方法中BMNCs分離-融合翻譯方法示意圖;
[0028]圖2為本發(fā)明方法中BMNC翻譯模型和句子Skeleton翻譯模型的訓(xùn)練過(guò)程流程示意圖;
【具體實(shí)施方式】
[0029]下面結(jié)合附圖和實(shí)例對(duì)本發(fā)明的【具體實(shí)施方式】做進(jìn)一步詳細(xì)說(shuō)明。
[0030]一種雙語(yǔ)最大名詞組塊分離翻譯的統(tǒng)計(jì)機(jī)器翻譯模型,包括以下步驟:
[0031]步驟一、識(shí)別待翻譯句子的BMNC及其中心詞。首先,采用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)標(biāo)注模型,對(duì)待翻譯的句子進(jìn)行BMNC及其中心詞標(biāo)注。
[0032]在雙語(yǔ)句對(duì)中,漢英最大名詞短語(yǔ)(MNP)會(huì)存在不完全對(duì)譯的情況,例如: [0033]【上海浦東開(kāi)發(fā)與法制建設(shè)】同步【Thedevelopment of Shanghai’s Pudong】is in step with【the establishment of its legal system】。漢語(yǔ)端將【上海浦東開(kāi)發(fā)與法制建設(shè)】識(shí)別為一個(gè)最大名詞短語(yǔ),而在英語(yǔ)端則被拆分為【The development ofShanghai’s Pudong】和【the establishment of its legal system】?jī)蓚€(gè)不連續(xù)的名詞短語(yǔ)。
[0034]針對(duì)漢英語(yǔ)言的特點(diǎn),定義一個(gè)面向機(jī)器翻譯的實(shí)際需要的雙語(yǔ)最大名詞組塊BMNC概念,它不僅是一個(gè)完整的句法單元和語(yǔ)義單元,在句子中有穩(wěn)定的外部修飾結(jié)構(gòu),還具備雙語(yǔ)可互譯性和雙語(yǔ)識(shí)別的一致性。在單語(yǔ)中,它可能被其它名詞短語(yǔ)包含,但是它不能被可互譯的其它名詞短語(yǔ)包含。漢英BMNC形式化定義如下:
[0035]對(duì)于句對(duì)SP=〈S, T>, S表示漢語(yǔ)詞序列S = WS1WSfWSns, T表示英語(yǔ)詞序列T = Wt1WtfWtnt ;其中ns和nt分別表示S和T的長(zhǎng)度。若存在< MNCc, MNCe>,MNCc cz S,MNCe cz 并且滿足下列條件時(shí),稱< MNCc, MNCe >為漢英BMNC:{ < MNCc, MNCe > MNCc = ws0, Ws1,…,wsm, MNCe = wt0, Wt1,…,wtn; MNCc <r^MNCe; m< ns, η < nt}
[0036](I)非空性。MNCc 幸 null, MNCe 幸 null
[0037](2)互譯性。MNCc OMNCe,MNCe和MNCc具有翻譯上的轉(zhuǎn)換充分性。
[0038](3)代表性。MNCc和MNCe的語(yǔ)義核心由一個(gè)或多個(gè)名詞組成,該語(yǔ)義核心的成分特征決定了整個(gè)BMNC短語(yǔ)結(jié)構(gòu)的特征。
[0039](4)最大性:不存在另外一個(gè)< MVCc,MVCe >,MNCc c SiMNCe c ,且滿足
【權(quán)利要求】
1.一種雙語(yǔ)最大名詞組塊分離-融合的翻譯方法,其特征在于包括以下步驟: 步驟一、對(duì)待翻譯的句子進(jìn)行BMNC識(shí)別,并將所有BMNC抽取出來(lái)組成BMNC集合;同時(shí),在原來(lái)的句子中用BMNC的中心詞的詞性來(lái)代替BMNC整體,形成句子骨架;具體過(guò)程如下: 首先,定義一個(gè)面向機(jī)器翻譯的實(shí)際需要的雙語(yǔ)最大名詞組塊BMNC概念,它不僅是一個(gè)完整的句法單元和 語(yǔ)義單元,在句子中有穩(wěn)定的外部修飾結(jié)構(gòu),還具備雙語(yǔ)可互譯性和雙語(yǔ)識(shí)別的一致性;在單語(yǔ)中,它可能被其它名詞短語(yǔ)包含,但是它不能被可互譯的其它名詞短語(yǔ)包含; 從句法樹(shù)庫(kù)中隨機(jī)抽取2000句,提取BMNC并標(biāo)注其中心詞,作為訓(xùn)練語(yǔ)料;通過(guò)機(jī)器學(xué)習(xí)的方法,訓(xùn)練BMNC及其中心詞的識(shí)別模型; 然后,利用識(shí)別模型,對(duì)待翻譯的句子進(jìn)行BMNC及其中心詞識(shí)別標(biāo)注,提取句子中所有BMNC并組成BMNC集合——BMNCs,同時(shí),將句子中的BMNC用其中心詞詞性代替形成句子骨架; 步驟二、建立BMNC和句子骨架的翻譯模型,翻譯經(jīng)步驟一得到的BMNCs和句子骨架; 為翻譯步驟一中得到的BMNCs和句子骨架,首先訓(xùn)練BMNC和句子骨架的翻譯模型,其流程具體如下: 在句子級(jí)別對(duì)齊的語(yǔ)料中抽取對(duì)齊的BMNC,建立BMNC平行語(yǔ)料庫(kù);首先,分別對(duì)漢英句子進(jìn)行BMNC粗識(shí)別,然后對(duì)BMNC進(jìn)行識(shí)別對(duì)齊修正,最后通過(guò)一個(gè)貪心搜索,得到句對(duì)最優(yōu)的BMNC對(duì)集合; 平行語(yǔ)料中提取到的所有BMNC對(duì)構(gòu)成了 BMNC平行語(yǔ)料;把每個(gè)句子中的BMNC用對(duì)應(yīng)的中心詞的詞性代替,組成句子骨架平行語(yǔ)料,由此將句子級(jí)對(duì)齊的平行語(yǔ)料分解為BMNC平行語(yǔ)料和句子骨架平行語(yǔ)料,并在這兩個(gè)語(yǔ)料上分別訓(xùn)練BMNC翻譯模型和句子骨架翻譯模型; 利用上述BMNC翻譯模型,對(duì)步驟一得到的BMNCs進(jìn)行翻譯,得到英語(yǔ)BMNCs的n_best輸出;利用句子骨架翻譯模型翻譯待翻譯句子的句子骨架,得到句子骨架的英語(yǔ)n-best輸出;所述n-best是指最優(yōu)的前η個(gè)結(jié)果; 步驟三、融合英語(yǔ)的BMNCs和句子骨架,形成翻譯結(jié)果; 把經(jīng)步驟二得到的英語(yǔ)端BMNCs的n-best輸出和英語(yǔ)端句子骨架的n-best輸出進(jìn)行交叉組合,產(chǎn)生待翻譯句子的一系列翻譯候選;利用線性加權(quán)模型,融合n-gram特征和句子長(zhǎng)度懲罰特征為每個(gè)翻譯候選打分,把翻譯任務(wù)轉(zhuǎn)換為一個(gè)排序任務(wù),選取得分最高的翻譯假設(shè)作為最優(yōu)句子翻譯結(jié)果;所述n-gram是指η元語(yǔ)法模型。
2.如權(quán)利要求1所述的一種雙語(yǔ)最大名詞組塊分離-融合的翻譯方法,其特征在于,所述步驟二中,針對(duì)漢英平行語(yǔ)料,融合BMNC識(shí)別與對(duì)齊,采取一種漢英BMNC —體化交互式識(shí)別對(duì)齊方法,具體如下: 首先,在2000句標(biāo)注好的漢英雙語(yǔ)語(yǔ)料上訓(xùn)練兩個(gè)初始BMNC識(shí)別模型,利用識(shí)別模型分別對(duì)漢英平行語(yǔ)料進(jìn)行BMNC粗識(shí)別,產(chǎn)生漢語(yǔ)端句子的BMNC集合MNCxT;,英語(yǔ)端句子的 BMNC 集合MVCe ? ; 然后,將漢英雙語(yǔ)句對(duì)中的BMNC兩兩組合,即M = MNCclxMNCetl,mk(MNCci, MNCej),i ^ [1,s], j ^ [1,t]是其一個(gè) BMNC 對(duì),即 mk ^ M,M 就是粗對(duì)齊的候選集合;以BMNC內(nèi)部詞對(duì)齊的比率作為粗對(duì)齊的置信度;粗對(duì)齊置信度的計(jì)算如公式(I)所示:
3.如權(quán)利要求1所述的一種雙語(yǔ)最大名詞組塊分離-融合的翻譯方法,其特征在于,所述步驟三中翻譯假設(shè)的分值計(jì)算如下:E, =VW^wj 其中,V和μ分別是高階語(yǔ)言模型和句子長(zhǎng)度懲罰的權(quán)重,它們的值可以在開(kāi)發(fā)集上進(jìn)行優(yōu)化調(diào)整,W表示句子長(zhǎng)度。
【文檔編號(hào)】G06F17/28GK103942192SQ201310593728
【公開(kāi)日】2014年7月23日 申請(qǐng)日期:2013年11月21日 優(yōu)先權(quán)日:2013年11月21日
【發(fā)明者】黃河燕, 史樹(shù)敏, 李業(yè)剛 申請(qǐng)人:北京理工大學(xué)