專利名稱:統(tǒng)計(jì)機(jī)譯中短語化聯(lián)合概率模型的短語的制作方法
對相關(guān)申請的交叉引用本申請要求2002年3月27日提交的序號(hào)為60/368450的美國臨時(shí)申請優(yōu)先權(quán),該臨時(shí)申請通過引用包含于文中。
發(fā)明來源本應(yīng)用中描述的研發(fā)得到DARPA-ITO的授權(quán)號(hào)N66001-00-1-9814和NSF-STTR授權(quán)0128379的支持。美國政府對所述要求權(quán)利的發(fā)明有一些權(quán)利。
背景大多數(shù)用于統(tǒng)計(jì)機(jī)譯(MT)的基于噪聲信道的模型是條件概率模型。在噪聲信道框架中,假定并行語料庫中的每個(gè)源句e通過隨機(jī)過程(其參數(shù)用傳統(tǒng)期望最大值(EM)技術(shù)估算)生成目標(biāo)句f。該生成式模型說明源詞如何映射進(jìn)目標(biāo)詞及如何對目標(biāo)詞重排序以產(chǎn)生結(jié)構(gòu)好的目標(biāo)句。使用多種方法解決目標(biāo)詞的重排序,包括使用基于詞、基于模板和基于句法的模型(這里只羅列幾個(gè))。盡管這些模型用不同的生成式過程說明所譯的詞是如何在目標(biāo)語言中得到重排序的,在詞匯層面上這些模型都假定源詞是單個(gè)地譯成目標(biāo)詞的。
概述機(jī)譯(MT)系統(tǒng)用一或更多雙語語料庫形成概率短語到短語翻譯詞典。例如,用并集概率方法、詞到詞條件方法或其他方法形成翻譯詞典。
機(jī)譯系統(tǒng)用翻譯詞典翻譯一或更多句子(或句子片斷)。例如,機(jī)譯系統(tǒng)用優(yōu)先策略、用使用聚束解碼器的方法或用其它方法對句子解碼。
在用基于短語的并集概率模型形成翻譯詞典的實(shí)施例中,同時(shí)生成源語言句和目標(biāo)語言句。該系統(tǒng)將并集概率模型用于源語言到目標(biāo)語言的翻譯應(yīng)用和目標(biāo)語言到源語言的翻譯應(yīng)用。
在使用單詞到單詞條件方法的實(shí)施例中,所述模型根據(jù)單詞到單詞統(tǒng)計(jì)機(jī)譯系統(tǒng)生成的單詞到單詞校準(zhǔn)學(xué)習(xí)短語到短語校準(zhǔn)。
附圖簡述
圖1是包括基于短語的并集概率翻譯模型的機(jī)譯(MT)系統(tǒng)的框圖。
圖2示出由基于短語的并集概率模型生成的校準(zhǔn)和概率分布。
圖3是描述基于短語的并集概率模型的訓(xùn)練算法的流程圖。
圖4示出一例基于短語的優(yōu)先解碼。
圖5是根據(jù)一實(shí)施例描述基于短語的解碼算法的流程圖。
圖6示出描述基于短語的解碼算法的偽碼。
圖7示出前提假設(shè)間的弧的生成。
圖8示出短語長度對性能的影響。
圖9示出一例詞法重量估算。
圖10示出詞法對性能的影響。
圖11比較不同的啟發(fā)式方法的性能。
詳細(xì)描述本說明中的系統(tǒng)和技術(shù)用來提供較有效精確的機(jī)譯(MT)。在一些實(shí)施例中,機(jī)譯系統(tǒng)形成短語到短語概率翻譯詞典。從雙語語料庫中用例如,并集概率模型或單詞到單詞條件模型自動(dòng)學(xué)習(xí)概率翻譯詞典。
這些翻譯詞典便用來翻譯新句。即,翻譯詞典用來翻譯用來訓(xùn)練機(jī)譯系統(tǒng)的語料庫中沒有的句子。翻譯系統(tǒng)和技術(shù)包括優(yōu)先策略、使用聚束解碼器的方法或其它方法。
圖1示出包括翻譯模型105和解碼器110的機(jī)譯(MT)系統(tǒng)100。翻譯模型105包括從雙語語料庫習(xí)得的翻譯詞典。翻譯模型105假定可在單詞層面及短語層面建立詞匯對應(yīng)。解碼器110根據(jù)輸入句用翻譯詞典提供譯句。
短語到短語翻譯詞典形成。
根據(jù)一些實(shí)施例,模型105根據(jù)并集概率模型得到訓(xùn)練。即,模型105用包括并行的源語言串和目標(biāo)語言串的并行語料庫115自動(dòng)生成翻譯詞典。模型105并不試圖捕獲源句如何映射進(jìn)目標(biāo)句,而是同時(shí)生成源句和目標(biāo)句。換言之,翻譯模型是并集概率模型,該并集概率模型可容易地邊緣化以產(chǎn)生用于源至目標(biāo)機(jī)譯應(yīng)用和目標(biāo)至源機(jī)譯應(yīng)用的條件概率模型。
在一實(shí)施例中,模型105用以下隨機(jī)過程生成句對
1.生成一包概念C。
2.根據(jù)分配 對每個(gè)概念ci∈C生成短語對 其中 和 各含至少一詞。
3.對每種語言的短語排序以生成短語的兩線性序列;序列對應(yīng)雙語語料庫中的句對。
簡便起見,假定該包概念和對所生成的短語的排序按照均勻分布建模。還假定ci=(e→i,f→i).]]>在這些假定下,用概念ci∈C生成句對(E,F(xiàn))的概率即所有短語到短語翻譯概率的乘積Πci∈c(e→i,f→i),]]>該乘積產(chǎn)生數(shù)包短語,這些數(shù)包短語可線性排序以獲得句子E和F。
表2說明一例。句對“abc”-“xy”可用兩概念(“ab”:“y”)和(“c”:“x”)或一概念(“abc”:“xy”)生成,因?yàn)樵谶@兩種情況下,每種語言的短語可按產(chǎn)生原始句對的序列排列。然而,不能用概念(“ab”:“y”)和(“c”:“y”)生成同一句對,因?yàn)椴荒軓膬啥陶Z“y”和“y”重新生成序列“xy”。類似地,句對可用概念(“ac”:“x”)和(“b”:“y”)生成,因?yàn)椴荒芡ㄟ^并置短語“ac”和“b”生成序列“abc”。
如果E和F可通過排列具有所有概念ci∈C的特點(diǎn)的短語 和 而獲得,則概念C集可線性為句對(E,F(xiàn))。我們用謂詞L(E,F(xiàn),C)表示該特性。在此模型下,將生成可線性為(E,F(xiàn))的數(shù)包概念ci∈C的所有可能的方法相加而得到給定句對(E,F(xiàn))的概率。
p(E,F)=Σc=c|L(E,F,C)Πci∈Ct(e→i,f→i)]]>上述模型(模型1)可有相當(dāng)好的校準(zhǔn)。不過,該模型不適于翻譯未見句,因?yàn)樗鼘εc給定概念相關(guān)的短語的排序無限制。為說明之,開發(fā)了改進(jìn)模型(模型2)以說明失真。該模型的生成過程為1.生成一包概念C。
2.初始化E和F以清除序列。
3.根據(jù)分布 (其中 和 各含至少一詞)隨機(jī)取概念ci∈C并生成短語對 然后從C除去ci。
4.在F端附加短語 把k當(dāng)作F中的起始位 5.如果無其他短語占據(jù)位置1或位置 ( 是短語 的長度),將短語 插于E中的位置1處。系統(tǒng)因而以概率(d(i,j)是基于位置的失真分布)生成兩短語 和 間的校準(zhǔn)Πp=kk+|f→|d(p,(l+|e→i|)/2).]]>6.重復(fù)步驟3到5直至C為空。
在該模型中,生成句對(E,F(xiàn))的概率由下式表示p(E,F)=ΣC∈|L(E,F,C)Πci∈C[t(ei,fi)×Πk=1|f→i|d(pos(fik),poscm(e→i))]]]>其中, 表示句F中短語 的詞k的位置,表示海量短語ei中心的句子E中的位置。
訓(xùn)練上述模型計(jì)算上具挑戰(zhàn)性。由于有一指數(shù)個(gè)能生成句對(E,F(xiàn))的校準(zhǔn),不能窮舉地應(yīng)用期望最大值(EM)訓(xùn)練算法。圖3是將該問題考慮進(jìn)去的基于短語的并集概率模型的訓(xùn)練算法300的流程圖。
系統(tǒng)確定E和F中的高頻(塊305)。如果一開始便假定可從概念生成短語e→i∈E*]]>和f→i∈F*,]]>則需一超級(jí)計(jì)算機(jī)以將對 分布建模的表存儲(chǔ)于存儲(chǔ)器中。因?yàn)橄到y(tǒng)未接入有無限內(nèi)存的計(jì)算機(jī),系統(tǒng)起初只對經(jīng)常出現(xiàn)在語料庫中的短語和學(xué)習(xí)t個(gè)分布目錄。然后,通過平滑,系統(tǒng)也學(xué)習(xí)出現(xiàn)少的短語的t個(gè)分布目錄。為在下一步算法得到考慮,一短語至少須在語料庫中出現(xiàn)五次。
下一步是初始化t分布表(塊310)。在EM訓(xùn)練過程開始前,我們不知道怎樣的詞對或短語對極有可能共享同一意義。換言之,假定能生成句對(E,F(xiàn))的所有校準(zhǔn)有相同的概率。在此情況下,句對(E,F(xiàn))有助于由同一概念ci生成 的事實(shí)的證據(jù)是由校準(zhǔn)數(shù)表示的,所述校準(zhǔn)建于(E,F(xiàn))間,且有一概念ci加以鏈接以對句E中短語 的和句F中的短語 (按兩句間能建立的校準(zhǔn)總數(shù)劃分)短語化。這兩數(shù)字都很容易約計(jì)。
如果是一詞的句E,有S(1,k)種方法可將該一詞分成k個(gè)非空集/概念,S(1,k)是第二種的Stirling數(shù)。
S(l,k)=1k!Σi=0k-1(-1)iki(k-i)n]]>有S(m,k)種方法可將句F的m個(gè)詞分成k個(gè)非空集。如果E中的詞能映射到F中的詞,則在長度分別為1和m的兩句(E,F(xiàn))間建立個(gè)校準(zhǔn)Ek=1min(l,m)k!S(s(l,k)S(m,k)).]]>當(dāng)概念生成長度分別是a和b的兩短語 時(shí),只有1-a和m-b個(gè)詞留待鏈接。因此,缺失任何其他信息,由同一概念ci生成短語 和 的概率由下式表示Σk=1min(l-a,m-b)k!S(s(l-a,k)S(m-b,k)Σk=1min(l,m)k!S(s(l,k)S(m,k)]]>需注意的是,由該式得出的小數(shù)計(jì)數(shù)只是系統(tǒng)感興趣的t分布的近似值,因?yàn)榈诙N的Stirling數(shù)未附加于與給定概念有關(guān)的詞使其連續(xù)。但是,由于該式對分子和分母同樣評估過高,該近似值實(shí)際中工作正常。
在算法的第二步中,系統(tǒng)應(yīng)用公式以就語料庫中每個(gè)句對(E,F(xiàn))中的短語定義的Cartesian乘積收集所有unigram和高頻n-gram對。系統(tǒng)將所有這些t計(jì)數(shù)相加并規(guī)格化以獲得一起始并集分布t。該步驟相當(dāng)于對語料庫中所有可能的校準(zhǔn)在一步驟中執(zhí)行EM算法。
在算法的第三步,系統(tǒng)在Viterbi校準(zhǔn)上執(zhí)行EM訓(xùn)練(塊315)。如果是非均勻t分布,短語到短語校準(zhǔn)有不同的權(quán)重,且無其他策略來在多項(xiàng)式時(shí)間內(nèi)收集所有可能的校準(zhǔn)的小數(shù)計(jì)數(shù)。從圖3的算法的塊315開始,對語料庫中的每個(gè)句對,系統(tǒng)通過將短語鏈接起來來優(yōu)先產(chǎn)生初始校準(zhǔn)以生成高t概率的概念。系統(tǒng)通過突破和合并概念、在概念間對換詞以及在概念上移動(dòng)詞來向最高概率的Viterbi校準(zhǔn)爬山。系統(tǒng)計(jì)算與系統(tǒng)在爬山過程中生成的所有校準(zhǔn)有關(guān)的概率并收集這些校準(zhǔn)中所有概念的t計(jì)數(shù)。
系統(tǒng)將該基于Viterbi的EM訓(xùn)練過程用于數(shù)個(gè)迭代。第一迭代用模型1估算校準(zhǔn)概率。其余迭代用模型2估算校準(zhǔn)概率。
在訓(xùn)練期間,系統(tǒng)應(yīng)用平滑以使系統(tǒng)能將非零值與語料庫中不常出現(xiàn)的短語對聯(lián)系起來。
訓(xùn)練過程結(jié)束時(shí),系統(tǒng)取并集概率分布t和d的邊緣(塊320)。這產(chǎn)生條件概率分布 和d(posF|posE),系統(tǒng)用它們來解碼。
當(dāng)系統(tǒng)在圖2的語料庫上執(zhí)行圖3的訓(xùn)練過程時(shí),在四個(gè)模型1迭代后,系統(tǒng)獲得校準(zhǔn)205和并集條件概率分布210。初步印象是,第一句對的Viterbi校準(zhǔn)看起來不正確,因?yàn)槿祟愑性诳赡艿淖钚《陶Z間建立校準(zhǔn)的本能。然而,注意我們的模型所作的選擇是相當(dāng)有道理的。畢竟,在缺少附加信息的情況下,該模型要么假定“a”和“y”所指相同,要么假定短語“abc”和“xy”所指相同。該模型選擇在保持第一假定的某一概率海量的同時(shí)給第二假定較大權(quán)重。
還要注意盡管并集概率將第二假定優(yōu)先,條件分布則不。條件分布210同我們的直覺一致,該直覺告訴我們將“abc”翻譯成“xy”及將“a”翻譯成“y”都是合理的。條件分布反映我們的直覺。
在可選實(shí)施例中,諸如圖1的系統(tǒng)100的系統(tǒng)從詞對詞校準(zhǔn)學(xué)習(xí)短語到短語翻譯。即,諸如模型105的模型通過擴(kuò)展詞對詞模型學(xué)習(xí)的詞對詞翻譯詞典開發(fā)短語翻譯詞典。短語翻譯模型基于噪聲信道模型。該系統(tǒng)用貝斯規(guī)則如下重組將外語句f譯成英語e的翻譯概率argmaxep(e|f)=argmaxep(f|e)p(e)這考慮到語言模型p(e)和獨(dú)立翻譯模型p(f|e)。
解碼(即翻譯)期間,輸入外語句f細(xì)分成I短語序列 系統(tǒng)假定對所有可能的細(xì)分都是均勻概率分布。
中的每個(gè)外語短語 譯成英語短語 重新排序這些英語短語。短語翻譯按概率分布 建模。因?yàn)樨愃挂?guī)則,從建模觀點(diǎn)看翻譯方向得到逆轉(zhuǎn)。
對輸出英語短語的重新排序是按相對失真概率分布建模的,表示被譯成第i個(gè)英語短語的外語短語的起始位,表示被譯成第i-1個(gè)英語短語的外語短語的終止位。
用并集概率模型(諸如結(jié)合前述實(shí)施例所描述的)訓(xùn)練失真概率分布d(.)?;蛘撸到y(tǒng)亦可使用參數(shù)α有一適當(dāng)值的較簡單失真模型d(ai-bi-1)=a|ai-bi-1-1|.]]>為校準(zhǔn)輸出長度,系統(tǒng)除三字母組外還為每個(gè)生成的英語詞引入因子ω。這是優(yōu)化性能的簡單手段。通常,該因子大于1,偏離較長輸出。
概括地說,輸入英語句f按照該模型的最佳輸出英語句是Ebest=argmaxep(e|f)=argmaxep(f|e)pLM(e)ωlength(e)其中,p(f|e)分解為p(f‾1I|e‾1I)=Πi=1Iφ(f‾i|e‾i)d(ai-bi-1)]]>
開發(fā)工具包用來從并行語料庫訓(xùn)練基于詞的翻譯模型。作為副產(chǎn)品,它生成該數(shù)據(jù)的詞校準(zhǔn)。系統(tǒng)用許多啟發(fā)式改進(jìn)該校準(zhǔn)。系統(tǒng)收集與詞校準(zhǔn)一致的所有校準(zhǔn)短語對。合法短語對中的詞只相互校準(zhǔn),而不與外面的詞校準(zhǔn)。在所收集的短語對的情況下,系統(tǒng)用相對頻率估算短語翻譯概率分布φ(f‾|e‾)=count(f‾|e‾)Σf‾count(f‾|e‾)]]>在一些實(shí)施例中,執(zhí)行平滑。
如果系統(tǒng)收集與詞校準(zhǔn)一致的所有短語對,則包括許多非直觀短語。例如,學(xué)習(xí)諸如“house the”的短語的翻譯。直觀上系統(tǒng)會(huì)相信這樣的短語無用。將可能的短語限定于受句法激勵(lì)的短語可過濾掉這樣的非直觀對。
評價(jià)只包含句法短語的短語翻譯模型的性能的另一動(dòng)機(jī)來自近來建立句法翻譯模型的努力。在這些模型中,將對詞的重新排序限定于對構(gòu)建良好的句法分析樹的成分的重新排序。當(dāng)向這樣的模型增加短語翻譯時(shí),通常只能翻譯跨整個(gè)句法子樹的短語。了解這是否有益的限制是重要的。
系統(tǒng)將一句法短語定義為一由句法分析樹中的單一子樹覆蓋的詞序列。我們?nèi)缦率占浞ǘ陶Z對系統(tǒng)詞校準(zhǔn)并行語料庫,如上述。然后系統(tǒng)用句法分析程序分析語料庫的兩側(cè)。對與詞校準(zhǔn)一致的所有短語對,系統(tǒng)還查驗(yàn)這兩個(gè)短語是否句法樹的子樹。這樣的短語才包括在模型中。因此,所學(xué)受句法激勵(lì)的短語對是不了解句法所學(xué)短語對的子集。短語翻譯概率分布用相對頻率估算。
圖8顯示不同最大短語長度的試驗(yàn)結(jié)果。使用與詞校準(zhǔn)一致的所有短語(AP)。如圖8所示,將每個(gè)短語限定于最多三詞的長度性能最佳。學(xué)習(xí)更長的短語不見改進(jìn)。然而,將長度限制減至兩詞是有害的??紤]到更長的短語增加短語翻譯表大小。該增加幾乎與最大長度限制是線性的。這些模型大小未有導(dǎo)致存儲(chǔ)問題的。
系統(tǒng)通過檢驗(yàn)詞互譯的好壞來驗(yàn)證短語翻譯對的質(zhì)量。為此,使用詞法翻譯概率分布。該分布用根據(jù)與短語模型相同的詞校準(zhǔn)的相對概率來估算w(f|e)=count(f,e)Σf′count(f′,e)]]>特別的英語零記號(hào)加于每個(gè)英語句并與每個(gè)未校準(zhǔn)的外語詞校準(zhǔn)。
在給定短語對f,e和外語詞位I-1,……,n與英語詞位j=0、1、……、m間的詞校準(zhǔn)a的情況下,系統(tǒng)如下計(jì)算詞匯權(quán)重pw 圖9示出一例。
如果短語(f,e)對有多個(gè)校準(zhǔn),系統(tǒng)使用具最大詞匯權(quán)重的校準(zhǔn)pw(f|e)=maxapw(f|e,a)系統(tǒng)在翻譯期間將詞匯權(quán)重Pw用作附加因子。這意味著模型p(f|e)擴(kuò)展為p(f‾1I|e‾1I)=Πi=1Iφ(f‾i|e‾i)d(ai-bi-1)pw(f‾i|e‾i,a)λ]]>參數(shù)定義詞匯權(quán)重的長度Pw。該參數(shù)的良好值是約0.25。
圖10示出詞匯權(quán)重對機(jī)譯性能的影響。在我們的試驗(yàn)中,系統(tǒng)在BLEU計(jì)分表上有最高0.01的改進(jìn)。
有詞匯權(quán)重的短語翻譯是每詞有一詞級(jí)的校準(zhǔn)模板模型的特例。系統(tǒng)執(zhí)行的簡化的優(yōu)點(diǎn)在于詞匯權(quán)重可事先作為因子進(jìn)入短語翻譯表,加快解碼。與校準(zhǔn)模板模型的束搜索解碼器不同的是,圖5和圖6描述的解碼方法能搜索輸入句的所有可能的短語細(xì)分,而非在解碼前選擇一細(xì)分。
在試驗(yàn)中,系統(tǒng)根據(jù)按生成的詞校準(zhǔn)學(xué)習(xí)短語對。該工具包執(zhí)行的IBM模型只允許一英語詞至多與一外語詞校準(zhǔn)。系統(tǒng)用啟發(fā)式方法矯正該問題。
首先,系統(tǒng)雙向(即,外語到英語及英語到外語)校準(zhǔn)并行語料庫。這使得系統(tǒng)試圖使兩詞校準(zhǔn)和諧。如果系統(tǒng)橫斷這兩校準(zhǔn),系統(tǒng)獲得高置信度校準(zhǔn)點(diǎn)的高精度校準(zhǔn)。如果系統(tǒng)取這兩校準(zhǔn)的并集,系統(tǒng)獲得有附加校準(zhǔn)點(diǎn)的高查全率校準(zhǔn)。
橫斷和并集間的空間是始于橫斷并添加附加校準(zhǔn)點(diǎn)的擴(kuò)展啟發(fā)式。判定添加哪些點(diǎn)取決于許多范疇,例如哪一個(gè)校準(zhǔn)存在潛在校準(zhǔn)點(diǎn)(外英或英外)嗎,潛在點(diǎn)鄰是否已建點(diǎn),相鄰是否意味直接緊鄰(塊距)抑或?qū)蔷€緊鄰,目前潛在點(diǎn)相連的英語詞或外語詞是否尚未校準(zhǔn),是否兩者皆未得到校準(zhǔn)及潛在點(diǎn)的詞法概率。
系統(tǒng)始于所述兩詞校準(zhǔn)的橫斷。系統(tǒng)只添加存在于兩詞校準(zhǔn)的并集中的新校準(zhǔn)點(diǎn)。系統(tǒng)亦一直要求一新校準(zhǔn)點(diǎn)連接至少一之前未校準(zhǔn)的詞。
首先,系統(tǒng)擴(kuò)展至只直接緊鄰校準(zhǔn)點(diǎn)。系統(tǒng)檢驗(yàn)始于校準(zhǔn)矩陣右上角的潛在點(diǎn),檢驗(yàn)第一英語詞的校準(zhǔn)點(diǎn),并繼續(xù)于第二英語詞的校準(zhǔn)點(diǎn)等等。這迭代地進(jìn)行,直到不再添加校準(zhǔn)點(diǎn)。在最后一步,系統(tǒng)添加非緊鄰校準(zhǔn)點(diǎn),否則用相同的要求。
圖11示出該啟發(fā)式(基礎(chǔ))的性能,并與兩單一方向校準(zhǔn)(e2f,f2e)及其并集(union)相比。該圖還包含基啟發(fā)式的兩修正在第一(diag)系統(tǒng)還允許迭代擴(kuò)張階段中的對角線相鄰。在其變體(diag-and)中,系統(tǒng)在最后一步要求兩詞都未得到校準(zhǔn)。
這些不同的方法的排列因訓(xùn)練語料庫大小的不同而不同。例如,校準(zhǔn)f2e對10000句對語料庫起初倒數(shù)第二,但最終對320000句對卻是有競爭力的最好方法?;鶈l(fā)式起初最好,但隨后衰落。最好與最差方法的不同相當(dāng)大,大約是0.2BLEU(IBM計(jì)分系統(tǒng)),這是對幾乎所有訓(xùn)練語料庫大小,雖然并非總是明顯。
解碼一些實(shí)施例中的基于短語的解碼器使用束搜索算法。以部分翻譯(或假設(shè))的形式從左至右生成英語輸出。
在初始狀態(tài)(未翻譯輸入外語詞且未生成輸出英語詞),系統(tǒng)開始搜索可能的譯文。用對一些未譯的輸入外語詞的短語翻譯擴(kuò)展英語輸出來生成新狀態(tài)。新狀態(tài)的當(dāng)前成本是隨翻譯倍增的原始狀態(tài)、失真和所添加的短語翻譯的語言模型成本。
每個(gè)搜索空間(假定)表示為(a)對最佳此前狀態(tài)的回鏈接,(b)目前覆蓋的外語詞,(c)生成的(計(jì)算未來語言模型成本所需)最后兩英語詞,(d)所覆蓋的最后外語短語(計(jì)算未來失真成本所需)的終端,(e)最后添加的英語短語(從假定路徑讀譯文所需),(f)目前成本及(g)未來成本估算。
搜索中的最后狀態(tài)是覆蓋所有外語詞的假定。其中成本最小的假定選為最佳譯文。
兩假定可合并,如果它們在以下一致(a)目前覆蓋的外語詞,(b)生成的最后兩英語詞及(c)所覆蓋的最后外語短語的終端。
如果有兩個(gè)使兩假定在這些特性上一致的路徑,系統(tǒng)保存較便宜路徑,例如目前成本較低的假定。其他假定不可能是至最佳譯文的路徑的部分,系統(tǒng)可安全地丟棄之。注意較差假定可以是至第二最佳譯文的路徑的部分圖5是根據(jù)一實(shí)施例描述基于短語的解碼操作500的流程圖。描述該操作的算法見圖6。系統(tǒng)始于初始空假定。用短語的譯文從現(xiàn)有假定擴(kuò)展新假定。選擇一未譯外語詞序列及其可能的英語短語譯文(塊505)。英語短語附于現(xiàn)有英語輸出序列(塊510)。將外語詞標(biāo)記為已譯并更新假定的概率成本(塊515)。無未譯外語詞的最便宜(最高概率)最終假定是搜索的輸出(塊520)。
這些假定存于棧中。棧含有m個(gè)外語詞得到翻譯的所有假定。系統(tǒng)可重組搜索假定。盡管這某種程度上減少存于每個(gè)棧中的假定數(shù)量,棧大小隨輸入句長度成指數(shù)級(jí)增長。這使得窮盡搜索不可能。
這樣,系統(tǒng)根據(jù)弱假定目前引發(fā)的成本和未來成本估算剪除弱假定。對每一個(gè)棧,系統(tǒng)只保存一束最佳的n個(gè)假定。由于未來成本估算不完美,導(dǎo)致搜索差錯(cuò)。我們的未來成本估算考慮估算的短語翻譯成本,但未考慮預(yù)期失真成本。
對句中任一處的每一個(gè)可能的短語譯文(稱為譯文選項(xiàng)),系統(tǒng)將其短語翻譯概率乘所生成的英語短語的語言模型概率。作為語言模型概率,系統(tǒng)對第一詞使用單字母詞概率,對第二詞使用雙字母詞母字概率,對隨后所有詞使用三字概率。
有了翻譯選項(xiàng)的成本,系統(tǒng)通過動(dòng)態(tài)編程計(jì)算任一連續(xù)外語詞序列的估算未來成本。注意這只是可能性,因?yàn)橄到y(tǒng)忽略失真成本。由于長度為n的輸入外語句只有n(n+1)/2個(gè)這樣的序列,系統(tǒng)事先預(yù)計(jì)算這些成本估算并將其存于表中。
翻譯期間,未覆蓋外語詞的未來成本可通過查詢該表得到快速計(jì)算。如果一假定已突破未譯外語詞序列,系統(tǒng)查尋每個(gè)序列的成本并取其積。
束搜索期間生成的假定的空間形成路徑格,各自表示一譯文(翻譯計(jì)分可容易地計(jì)算)。將n個(gè)最佳路徑從這樣的格中析取是一得到很好研究的問題。
當(dāng)從中可導(dǎo)出多個(gè)新假定的一假定有多個(gè)譯文選項(xiàng)時(shí),路徑擴(kuò)展范圍。合并假定時(shí),路徑交匯。如上所述,如果一假定在一些相同特性上與較低成本假定一致,系統(tǒng)丟棄之。為保存關(guān)于合并路徑的信息,系統(tǒng)記錄這樣的合并包含前一假定的識(shí)別符、較低成本假定的識(shí)別符及從前一假定到較高成本假定的成本。
圖7給出生成這樣一個(gè)弧的例子。在該例中,如上所詳述,假定2和4在啟發(fā)式搜索方面是等價(jià)的。因而,刪除假定4。但為保留從假定3至假定2的路徑的信息,系統(tǒng)存儲(chǔ)對弧705的記錄。該弧還含有從假定3至4所添加的成本。注意從假定1至假定2的成本不必存儲(chǔ),因?yàn)榭蓮募俣〝?shù)據(jù)結(jié)構(gòu)重新計(jì)算之。
束大小,例如每棧中假定的最大數(shù)目,可定為某一數(shù)目。譯文選項(xiàng)數(shù)目同句長成線性關(guān)系。因此,束搜索的時(shí)間復(fù)雜性與句長成二次關(guān)系,同束大小成線性關(guān)系。
由于束大小限制搜索空間并因而限制搜索質(zhì)量,系統(tǒng)須在速度(低束大小)和性能(高束大小)間找到合適的平衡。在試驗(yàn)中,束大小只為100便足夠。對于較大束大小,只有數(shù)個(gè)句子譯地不同。解碼器在2GHz Linux系統(tǒng)上約10分鐘翻譯長度為5至15詞的句子1755個(gè)。系統(tǒng)在保證高質(zhì)量的同時(shí),實(shí)現(xiàn)了快速解碼。
在一些實(shí)施例中,諸如圖1的解碼器110的解碼器執(zhí)行優(yōu)先過程。以外語句F為例,解碼器首先通過為中的短語選擇概率P(E,F(xiàn))對其注釋。解碼器隨后迭代爬山,修改E和E與F間的校準(zhǔn)以最大化規(guī)則。解碼器通過經(jīng)本地修改所建校準(zhǔn)/翻譯的一組操作而修改現(xiàn)有校準(zhǔn)/翻譯直至給定時(shí)間來爬山。這些操作將校準(zhǔn)的英語側(cè)用不同概率的短語替換,合并和突破現(xiàn)有概念,并在概念間互換詞。概率p(E)用簡單三字語言模型計(jì)算。語言模型在詞(而非短語)級(jí)得到估算。圖3示出解碼器為發(fā)現(xiàn)句的譯文而采取的步驟。圖4中的每個(gè)中間譯文405在其概率410后并后續(xù)以將其改變以產(chǎn)生較高概率的譯文的操作。
已描述許多實(shí)施例。然而,可以理解的是,可不脫離本發(fā)明的精神和范圍地做各種修改。例如,流程圖中的塊可跳過或打破順序執(zhí)行而結(jié)果仍理想??墒褂貌煌姆g方法。因此,其它實(shí)施例在下列權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種方法,其特征在于,包括采用包括多個(gè)兩種語言間的并列文本的并列語料庫訓(xùn)練基于短語的連接概率模型。
2.一種如權(quán)利要求1所述的方法,其特征在于,還包括確定包括E和F的句子對中的高頻n字;用校準(zhǔn)初始化t分布表;對多個(gè)迭代執(zhí)行基于Viterbi的EM訓(xùn)練;及導(dǎo)出并集概率模型和條件概率模型。
全文摘要
機(jī)譯(MT)系統(tǒng)利用基于短語的并集概率模型。所述模型用來同時(shí)生成源語言和目標(biāo)語言。在一實(shí)施例中,所述模型根據(jù)單詞到單詞統(tǒng)計(jì)機(jī)譯系統(tǒng)生成的單詞到單詞校準(zhǔn)學(xué)習(xí)短語到短語校準(zhǔn)。所述系統(tǒng)將并集概率模型用于源語言到目標(biāo)語言的翻譯應(yīng)用和目標(biāo)語言到源語言的翻譯應(yīng)用。
文檔編號(hào)G06F17/28GK1643512SQ03807018
公開日2005年7月20日 申請日期2003年3月27日 優(yōu)先權(quán)日2002年3月27日
發(fā)明者D·馬庫, K·奈特, W·王, P·科恩 申請人:南加利福尼亞大學(xué)