專利名稱:訓練雙語詞對齊模型的方法和裝置、雙語詞對齊方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地,涉及自然語言處理中雙語詞對齊的技術(shù)和統(tǒng)計機器翻譯技術(shù)。
背景技術(shù):
詞對齊在自然語言處理中被廣泛地使用?,F(xiàn)有的詞對齊技術(shù),通常使用統(tǒng)計詞對齊模型,把雙語句子中互為譯文的詞對對應起來。統(tǒng)計詞對齊模型包含用于確定雙語句子中互為譯文的詞對的統(tǒng)計信息。
在P.F.Brown、S.A.Della Pietra、V.J.Della Pietra和R.Mercer于1993年發(fā)表的文章“The Mathematics of Statistical Machine TranslationParameter Estimation”(發(fā)表于Computational Linguistics,19(2)263-311)中描述了關(guān)于統(tǒng)計機器翻譯模型和統(tǒng)計詞對齊模型以及相應的參數(shù)估計方法。
統(tǒng)計詞對齊模型需要有足夠的雙語語料來訓練參數(shù)。如果訓練語料不充分,那么得到的參數(shù)將不能產(chǎn)生高質(zhì)量的對齊結(jié)果。但是,對于某些語言對來說,可用的雙語語料更少,所以雙語語料的數(shù)量制約著統(tǒng)計詞對齊模型的質(zhì)量和阻礙了統(tǒng)計詞對齊模型的進一步應用。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了利用中間語言的訓練雙語詞對齊模型的方法和裝置、雙語詞對齊方法和裝置。
根據(jù)本發(fā)明的一個方面,提供了一種訓練雙語詞對齊模型的方法,包括利用第一和第二語種的雙語語料,訓練第一和第二語種的雙語詞對齊模型;利用第二和第三語種的雙語語料,訓練第二和第三語種的雙語詞對齊模型;以及根據(jù)上述第一和第二語種的雙語詞對齊模型以及上述第二和第三語種的雙語詞對齊模型,估計第一和第三語種的雙語詞對齊模型。
根據(jù)本發(fā)明的另一個方面,提供了一種雙語詞對齊方法,包括利用前面所述的訓練雙語詞對齊模型的方法,根據(jù)第一和第二語種的雙語語料以及第二和第三語種的雙語語料,獲得第一和第三語種的雙語詞對齊模型;以及利用第一和第三語種的雙語詞對齊模型,對第一和第三語種的雙語句子對進行詞對齊。
根據(jù)本發(fā)明的另一個方面,提供了一種訓練雙語詞對齊模型的裝置,包括第一訓練單元,其利用第一和第二語種的雙語語料,訓練第一和第二語種的雙語詞對齊模型;第二訓練單元,其利用第二和第三語種的雙語語料,訓練第二和第三語種的雙語詞對齊模型;以及模型估計單元,其根據(jù)上述第一和第二語種的雙語詞對齊模型以及上述第二和第三語種的雙語詞對齊模型,估計第一和第三語種的雙語詞對齊模型。
根據(jù)本發(fā)明的另一個方面,提供了一種雙語詞對齊裝置,其特征在于,包括前面所述的訓練雙語詞對齊模型的裝置,用于根據(jù)第一和第二語種的雙語語料以及第二和第三語種的雙語語料,獲得第一和第三語種的雙語詞對齊模型;并且利用由上述訓練雙語詞對齊模型的裝置獲得的第一和第三語種的雙語詞對齊模型,對第一和第三語種的雙語句子對進行詞對齊。
相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點、優(yōu)點和目的。
圖1是根據(jù)本發(fā)明一個實施例的訓練雙語詞對齊模型的方法的流程圖;圖2是根據(jù)本發(fā)明一個實施例的雙語詞對齊方法的流程圖;圖3是根據(jù)本發(fā)明一個實施例的訓練雙語詞對齊模型的裝置的方框圖;以及圖4是根據(jù)本發(fā)明一個實施例的雙語詞對齊裝置的方框圖。
具體實施例方式
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進行詳細的說明。
圖1是根據(jù)本發(fā)明一個實施例的訓練雙語詞對齊模型的方法的流程圖。
如圖1所示,首先在步驟101,利用第一和第二語種的雙語語料,訓練第一和第二語種的雙語詞對齊模型。在本實施例中的雙語詞對齊模型包括詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型。
其中,詞匯翻譯子模型是詞匯翻譯概率的集合,詞匯翻譯概率p(ws|wt)是目標語言詞匯wt翻譯到源語言語詞匯ws的概率。
位置扭曲子模型是位置扭曲概率的集合,位置扭曲概率p(j|i,l,m)是給定源語言句子的長度m,目標語句子的長度l的情況下,目標語言句子中第ith個位置對應到源語言句子中第jth的位置的概率。
詞匯衍生子模型是詞匯衍生概率的集合,詞匯衍生概率p(i|wt)是目標語言詞匯wt對應i個源語言詞匯的概率。
在本步驟中,利用統(tǒng)計方法,根據(jù)第一和第二語種的雙語語料,訓練第一和第二語種的雙語詞對齊模型,即,第一和第二語種的詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型。
接著,在步驟105,利用第二和第三語種的雙語語料,訓練第二和第三語種的雙語詞對齊模型。與前面步驟101類似,在本步驟中,利用統(tǒng)計方法,根據(jù)第二和第三語種的雙語語料,訓練第二和第三語種的雙語詞對齊模型,即,第二和第三語種的詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型。
在本實施例中,假定存在著大量、準確的第一和第二語種的雙語語料以及第二和第三語種的雙語語料,但是缺乏第一和第三語種的雙語語料。這樣,通過前面的步驟101和105,可以利用充足的第一和第二語種的雙語語料以及第二和第三語種的雙語語料獲得質(zhì)量好的第一和第二語種的雙語詞對齊模型以及第二和第三語種的雙語詞對齊模型。
接著,在步驟110,根據(jù)第一和第二語種的雙語詞對齊模型以及第二和第三語種的雙語詞對齊模型,估計第一和第三語種的雙語詞對齊模型。
在本實施例中,需要分別估計詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型,具體地,包括如下步驟利用第一和第二語種的詞匯翻譯子模型以及第二和第三語種的詞匯翻譯子模型,估計第一和第三語種的詞匯翻譯子模型;利用第一和第二語種的位置扭曲子模型以及第二和第三語種的位置扭曲子模型,估計第一和第三語種的位置扭曲子模型;以及利用第一和第二語種的詞匯衍生子模型以及/或者第二和第三語種的詞匯衍生子模型、第一和第二語種的詞匯翻譯子模型以及/或者第二和第三語種的詞匯翻譯子模型,估計第一和第三語種的詞匯衍生子模型。
下面,就詳細說明上述這些子模型的估計過程。
1)首先,關(guān)于第一和第三語種的詞匯翻譯子模型的估計當設pCE(wc|we)是第二語種的詞we到第一語種的詞wc的翻譯概率,pEJ(we|wj)是第三語種的詞wj到第二語種的詞we的翻譯概率,C(wj,wc)是第一語種的詞wc和第三語種的詞wj的同現(xiàn)次數(shù),p(wc|wj)是第三語種的詞wj到第一語種的詞wc的翻譯概率時,利用公式C(wj,wc)=ΣwepEJ(we|wj)*pCE(wc|we)]]>收集第一語種的詞wc和第三語種的詞wj的同現(xiàn)次數(shù);以及利用公式p(wc|wj)=C(wj,wc)Σwc′C(wj,wc′)]]>計算第三語種的詞wj到第一語種的詞wc的翻譯概率p(wc|wj)。
2)其次,關(guān)于第一和第三語種的位置扭曲子模型的估計當設pEJ(k|i,l,m′)是第二語種的句子長度為m’、第三語種的句子長度為l、第ith個第三語種的詞對應到第kth個第二語種的詞的概率,pCE(j|k,m′,m)是第一語種的句子長度為m、第二語種的句子長度為m’、第kth個第二語種的詞對應到第jth個第一語種的詞的概率,C(j,i,l,m)和pCJ(j|i,l,m)分別是第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的同現(xiàn)次數(shù)和概率時,利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的同現(xiàn)次數(shù);以及利用公式pCJ(j|i,l,m)=C(j,i,l,m)Σj′C(j′,i,l,m)]]>計算第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的位置扭曲概率。
3)最后,關(guān)于第一和第三語種的詞匯衍生子模型的估計當設pJE(we|wj)是第三語種的詞wj到第二語種的詞we的翻譯概率,pCE(i|we)是第二語種的詞we對應i個第一語種的詞的概率,C(i,wj)和p(i|wj)分別是第三語種的詞wj衍生出i個第一語種的詞的同現(xiàn)次數(shù)和概率時,利用公式 獲得第三語種的詞wj衍生出i個第一語種的詞的同現(xiàn)次數(shù);以及利用公式 計算第三語種的詞wj衍生出i個第一語種的詞的詞匯衍生概率。
通過以上描述可知,對于由于訓練語料不充分而無法得到高質(zhì)量的詞對齊模型的問題,本實施例的訓練雙語詞對齊模型的方法可以利用一個中間語種來解決。例如,通常情況下,由于中文和日文的雙語語料比較少,因此制約著中文和日文的統(tǒng)計詞對齊模型的質(zhì)量。采用本實施例的方法,可以利用語料豐富的中間語種,如英文,來解決這個問題。因為存在著大量、豐富的中文和英文的雙語語料以及日文和英文的雙語語料,因此可以獲得高質(zhì)量的中文和英文的詞對齊模型以及日文和英文的詞對齊模型,進而,利用中文和英文的詞對齊模型以及日文和英文的詞對齊模型,就可以估計出中文和日文的詞對齊模型。
當然,本發(fā)明并不限于中文、英文和日文的情況,任何語種都可以作為前面實施例中的第一、第二和第三語種。只是通常情況下,作為中間語種的第二語種,應當考慮語料豐富的國際性的語言,例如,英語、法語或西班牙語等。
在同一發(fā)明構(gòu)思下,圖2是根據(jù)本發(fā)明一個實施例的雙語詞對齊方法的流程圖。下面就結(jié)合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略其說明。
如圖2所示,首先在步驟101,利用第一和第二語種的雙語語料,訓練第一和第二語種的雙語詞對齊模型。接著,在步驟105,利用第二和第三語種的雙語語料,訓練第二和第三語種的雙語詞對齊模型。接著,在步驟110,根據(jù)第一和第二語種的雙語詞對齊模型以及第二和第三語種的雙語詞對齊模型,估計第一和第三語種的雙語詞對齊模型。
以上步驟101、105和110與前面圖1所示的實施例基本相同,在此不再重復。
然后,在步驟215,利用估計出的第一和第三語種的雙語詞對齊模型,對第一和第三語種的雙語句子對進行詞對齊。具體的對齊方式為1.利用詞匯翻譯概率和位置對齊概率,為每一個源語言單詞尋找一個最佳的單詞對齊。這樣得到一個對齊序列A0。
2.在對齊序列Ai的基礎(chǔ)上,利用詞匯翻譯概率,位置扭曲模型和詞匯衍生模型,通過嘗試交換任意兩個對齊或改變一個對齊,來尋找更好的對齊序列Ai+1。
3.重復過程2,直到?jīng)]有更好的對齊序列被發(fā)現(xiàn)。
在此,本領(lǐng)域技術(shù)人員應當可以理解,對于最佳對其序列的搜索可以采用人們已知的和將來的任何搜索算法。
從以上描述可知,采用本實施例的雙語詞對齊方法,通過利用一個中間語種解決了由于訓練語料不充分而無法得到高質(zhì)量的詞對齊模型的問題,因此即使對于語料稀少的雙語語種,例如,中文和英文,也可以進行準確的詞對齊。
在同一發(fā)明構(gòu)思下,圖3是根據(jù)本發(fā)明一個實施例的訓練雙語詞對齊模型的裝置的方框圖。下面就結(jié)合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略其說明。
如圖3所示,本實施例的訓練雙語詞對齊模型的裝置300,第一訓練單元303,其利用第一和第二語種的雙語語料301,訓練第一和第二語種的雙語詞對齊模型;第二訓練單元304,其利用第二和第三語種的雙語語料302,訓練第二和第三語種的雙語詞對齊模型;以及模型估計單元305,其根據(jù)由第一訓練單元303訓練的第一和第二語種的雙語詞對齊模型以及由第二訓練單元304訓練的第二和第三語種的雙語詞對齊模型,估計第一和第三語種的雙語詞對齊模型。
具體地,由第一訓練單元303訓練的第一和第二語種的雙語詞對齊模型以及由第二訓練單元304訓練的第二和第三語種的雙語詞對齊模型,分別包括詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型。模型估計單元305,包括詞匯翻譯子模型估計單元,其利用第一和第二語種的詞匯翻譯子模型以及第二和第三語種的詞匯翻譯子模型,估計第一和第三語種的詞匯翻譯子模型;位置扭曲子模型估計單元,其利用第一和第二語種的位置扭曲子模型以及第二和第三語種的位置扭曲子模型,估計第一和第三語種的位置扭曲子模型;以及詞匯衍生子模型估計單元,其利用第一和第二語種的詞匯衍生子模型以及/或者第二和第三語種的詞匯衍生子模型、上述第一和第二語種的詞匯翻譯子模型以及/或者第二和第三語種的詞匯翻譯子模型,估計第一和第三語種的詞匯衍生子模型。
與前面實施例類似,在本實施例中,詞匯翻譯子模型估計單元,當設pCE(wc|we)是第二語種的詞we到第一語種的詞wc的翻譯概率,pEJ(we|wj)是第三語種的詞wj到第二語種的詞we的翻譯概率,C(wj,wc)是第一語種的詞wc和第三語種的詞wj的同現(xiàn)次數(shù),p(wc|wj)是第三語種的詞wj到第一語種的詞wc的翻譯概率時,利用公式C(wj,wc)=ΣwepEJ(we|wj)*pCE(wc|we)]]>收集第一語種的詞wc和第三語種的詞wj的同現(xiàn)次數(shù);并且利用公式p(wc|wj)=C(wj,wc)ΣwcC(wj,wc′)]]>計算第三語種的詞wj到第一語種的詞wc的翻譯概率p(wc|wj)。
位置扭曲子模型估計單元,當設pEJ(k|i,l,m′)是第二語種的句子長度為m’、第三語種的句子長度為l、第ith個第三語種的詞對應到第kth個第二語種的詞的概率,pCE(j|k,m′,m)是第一語種的句子長度為m、第二語種的句子長度為m’、第kth個第二語種的詞對應到第jth個第一語種的詞的概率,C(j,i,l,m)和pCJ(j|i,l,m)分別是第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的同現(xiàn)次數(shù)和概率時,利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的同現(xiàn)次數(shù);并且利用公式pCJ(j|i,l,m)=C(j,i,l,m)Σj′C(j′,i,l,m)]]>計算第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的位置扭曲概率。
詞匯衍生子模型估計單元,當設pEJ(we|wj)是第三語種的詞wj到第二語種的詞we的翻譯概率,pCE(i|we)是第二語種的詞we對應i個第一語種的詞的概率,C(i,wj)和p(i|wj)分別是第三語種的詞wj衍生出i個第一語種的詞的同現(xiàn)次數(shù)和概率時,利用公式 獲得第三語種的詞wj衍生出i個第一語種的詞的同現(xiàn)次數(shù);以及利用公式 計算第三語種的詞wj衍生出i個第一語種的詞的詞匯衍生概率。
從以上描述可知,本實施例的訓練雙語詞對齊模型的裝置在操作上可以實現(xiàn)前面圖1描述的實施例的訓練雙語詞對齊模型的方法。采用本實施例,可以通過利用一個中間語種解決由于訓練語料不充分而無法得到高質(zhì)量的詞對齊模型的問題。
在此,應當指出,本實施例的訓練雙語詞對齊模型的裝置300及其各個組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應的程序來實現(xiàn)。
在同一發(fā)明構(gòu)思下,圖4是根據(jù)本發(fā)明一個實施例的雙語詞對齊裝置的方框圖。下面就結(jié)合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略其說明。
如圖4所示,本實施例的雙語詞對齊裝置400,包括前面圖3描述的訓練雙語詞對齊模型的裝置300和詞對齊單元406。詞對齊單元406利用由訓練雙語詞對齊模型的裝置300獲得的第一和第三語種的雙語詞對齊模型,對第一和第三語種的雙語句子對進行詞對齊,具體的詞對齊方式在前面實施例中已經(jīng)進行了描述,在此不再重復。
通過以上描述可知,本實施例的雙語詞對齊裝置400可以實施前面描述的本發(fā)明實施例的雙語詞對齊方法。采用本實施例的雙語詞對齊裝置,通過利用一個中間語種解決了由于訓練語料不充分而無法得到高質(zhì)量的詞對齊模型的問題,因此即使對于語料稀少的雙語語種,例如,中文和英文,也可以進行準確的詞對齊。
在此,應當指出,本實施例的雙語詞對齊裝置400及其各個組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應的程序來實現(xiàn)。
以上雖然通過一些示例性的實施例對本發(fā)明的雙語詞對齊方法和裝置、訓練雙語詞對齊模型的方法和裝置進行了詳細的描述,但是以上這些實施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā)明的范圍僅由所附權(quán)利要求為準。
權(quán)利要求
1.一種訓練雙語詞對齊模型的方法,包括利用第一和第二語種的雙語語料,訓練第一和第二語種的雙語詞對齊模型;利用第二和第三語種的雙語語料,訓練第二和第三語種的雙語詞對齊模型;以及根據(jù)上述第一和第二語種的雙語詞對齊模型以及上述第二和第三語種的雙語詞對齊模型,估計第一和第三語種的雙語詞對齊模型。
2.根據(jù)權(quán)利要求1所述的訓練雙語詞對齊模型的方法,其中,上述第一和第二語種的雙語詞對齊模型、第二和第三語種的雙語詞對齊模型以及第一和第三語種的雙語詞對齊模型分別包括詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型;上述估計第一和第三語種的雙語詞對齊模型的步驟包括利用上述第一和第二語種的詞匯翻譯子模型以及上述第二和第三語種的詞匯翻譯子模型,估計第一和第三語種的詞匯翻譯子模型;利用上述第一和第二語種的位置扭曲子模型以及上述第二和第三語種的位置扭曲子模型,估計第一和第三語種的位置扭曲子模型;以及利用上述第一和第二語種的詞匯衍生子模型以及/或者上述第二和第三語種的詞匯衍生子模型、上述第一和第二語種的詞匯翻譯子模型以及/或者上述第二和第三語種的詞匯翻譯子模型,估計第一和第三語種的詞匯衍生子模型。
3.根據(jù)權(quán)利要求2所述的訓練雙語詞對齊模型的方法,其中,上述估計第一和第三語種的詞匯翻譯子模型的步驟,包括當設pCE(wc|we)是第二語種的詞we到第一語種的詞wc的翻譯概率,pEJ(we|wj)是第三語種的詞wj到第二語種的詞we的翻譯概率,C(wj,wc)是第一語種的詞wc和第三語種的詞wj同現(xiàn)次數(shù),p(wc|wj)是第三語種的詞wj到第一語種的詞wc的翻譯概率時,利用公式C(wj,wc)=ΣwcpEJ(we|wj)*pCE(wc|we)]]>收集第一語種的詞wc和第三語種的詞wj的同現(xiàn)次數(shù);以及利用公式p(wc|wj)=C(wj,wc)Σwc′C(wj,wc′)]]>計算第三語種的詞wj到第一語種的詞wc的翻譯概率p(wc|wj)。
4.根據(jù)權(quán)利要求2所述的訓練雙語詞對齊模型的方法,其中,上述估計第一和第三語種的位置扭曲子模型的步驟,包括當設pEJ(k|i,l,m′)是第二語種的句子長度為m’、第三語種的句子長度為l、第ith個第三語種的詞對應到第kth個第二語種的詞的概率,pCE(j|k,m′,m)是第一語種的句子長度為m、第二語種的句子長度為m’、第kth個第二語種的詞對應到第jth個第一語種的詞的概率,C(j,i,l,m)和pCJ(j|i,l,m)分別是第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的同現(xiàn)次數(shù)和概率時,利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的同現(xiàn)次數(shù);以及利用公式pCJ(j|i,l,m)=C(j,i,l,m)Σj′C(j′,i,l,m)]]>計算第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的位置扭曲概率。
5.根據(jù)權(quán)利要求2所述的訓練雙語詞對齊模型的方法,其中,上述估計第一和第三語種的詞匯衍生子模型的步驟,包括當設pEJ(we|wj)是第三語種的詞wj到第二語種的詞we的翻譯概率,pCE(i|we)是第二語種的詞we對應i個第一語種的詞的概率,C(i,wj)和p(i|wj)分別是第三語種的詞wj衍生出i個第一語種的詞的同現(xiàn)次數(shù)和概率時,利用公式 獲得第三語種的詞wj衍生出i個第一語種的詞的同現(xiàn)次數(shù);以及利用公式 計算第三語種的詞wj衍生出i個第一語種的詞的詞匯衍生概率。
6.一種雙語詞對齊方法,包括利用權(quán)利要求1~5的任意一項所述的訓練雙語詞對齊模型的方法,根據(jù)第一和第二語種的雙語語料以及第二和第三語種的雙語語料,獲得第一和第三語種的雙語詞對齊模型;以及利用第一和第三語種的雙語詞對齊模型,對第一和第三語種的雙語句子對進行詞對齊。
7.一種訓練雙語詞對齊模型的裝置,包括第一訓練單元,其利用第一和第二語種的雙語語料,訓練第一和第二語種的雙語詞對齊模型;第二訓練單元,其利用第二和第三語種的雙語語料,訓練第二和第三語種的雙語詞對齊模型;以及模型估計單元,其根據(jù)上述第一和第二語種的雙語詞對齊模型以及上述第二和第三語種的雙語詞對齊模型,估計第一和第三語種的雙語詞對齊模型。
8.根據(jù)權(quán)利要求7所述的訓練雙語詞對齊模型的裝置,其中,上述第一和第二語種的雙語詞對齊模型、第二和第三語種的雙語詞對齊模型以及第一和第三語種的雙語詞對齊模型分別包括詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型;上述模型估計單元包括詞匯翻譯子模型估計單元,其利用上述第一和第二語種的詞匯翻譯子模型以及上述第二和第三語種的詞匯翻譯子模型,估計第一和第三語種的詞匯翻譯子模型;位置扭曲子模型估計單元,其利用上述第一和第二語種的位置扭曲子模型以及上述第二和第三語種的位置扭曲子模型,估計第一和第三語種的位置扭曲子模型;以及詞匯衍生子模型估計單元,其利用上述第一和第二語種的詞匯衍生子模型以及/或者上述第二和第三語種的詞匯衍生子模型、上述第一和第二語種的詞匯翻譯子模型以及/或者上述第二和第三語種的詞匯翻譯子模型,估計第一和第三語種的詞匯衍生子模型。
9.根據(jù)權(quán)利要求8所述的訓練雙語詞對齊模型的裝置,其中,上述詞匯翻譯子模型估計單元被被設置為當設pCE(wc|we)是第二語種的詞we到第一語種的詞wc的翻譯概率,pEJ(we|wj)是第三語種的詞wj到第二語種的詞we的翻譯概率,C(wj,wc)是第一語種的詞wc和第三語種的詞wj的同現(xiàn)次數(shù),p(wc|wj)是第三語種的詞wj到第一語種的詞wc的翻譯概率時,利用公式C(wj,wc)=ΣwepEJ(we|wj)*pCE(wc|we)]]>收集第一語種的詞wc和第三語種的詞wj的同現(xiàn)次數(shù);以及利用公式p(wc|wj)=C(wj,wc)Σwc′C(wj,wc′)]]>計算第三語種的詞wj到第一語種的詞wc的翻譯概率p(wc|wj)。
10.根據(jù)權(quán)利要求8所述的訓練雙語詞對齊模型的裝置,其中,上述位置扭曲子模型估計單元被設置為當設pEJ(k|i,l,m′)是第二語種的句子長度為m’、第三語種的句子長度為l、第ith個第三語種的詞對應到第kth個第二語種的詞的概率,pCE(j|k,m′,m)是第一語種的句子長度為m、第二語種的句子長度為m’、第kth個第二語種的詞對應到第jth個第一語種的詞的概率,C(j,i,l,m)和pCJ(j|i,l,m)分別是第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的同現(xiàn)次數(shù)和概率時,利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的同現(xiàn)次數(shù);以及利用公式pCJ(j|i,l,m)=C(j,i,l,m)Σj′C(j′,i,l,m)]]>計算第一語種的句子長度為m、第三語種的句子長度為l、第ith個第三語種的詞對應到第jth個第一語種的詞的位置扭曲概率。
11.根據(jù)權(quán)利要求8所述的訓練雙語詞對齊模型的裝置,其中,上述詞匯衍生子模型估計單元被設置為當設pEJ(we|wj)是第三語種的詞wj到第二語種的詞we的翻譯概率,pCE(i|we)是第二語種的詞we對應i個第一語種的詞的概率,C(i,wj)和p(i|wj)分別是第三語種的詞wj衍生出i個第一語種的詞的同現(xiàn)次數(shù)和概率時,利用公式 獲得第三語種的詞wj衍生出i個第一語種的詞的同現(xiàn)次數(shù);以及利用公式 計算第三語種的詞wj衍生出i個第一語種的詞的詞匯衍生概率。
12.一種雙語詞對齊裝置,其特征在于,包括權(quán)利要求7~11的任意一項所述的訓練雙語詞對齊模型的裝置,用于根據(jù)第一和第二語種的雙語語料以及第二和第三語種的雙語語料,獲得第一和第三語種的雙語詞對齊模型;并且利用由上述訓練雙語詞對齊模型的裝置獲得的第一和第三語種的雙語詞對齊模型,對第一和第三語種的雙語句子對進行詞對齊。
全文摘要
本發(fā)明提供了訓練雙語詞對齊模型的方法和裝置、雙語詞對齊方法和裝置。本發(fā)明的訓練雙語詞對齊模型的方法,包括利用第一和第二語種的雙語語料,訓練第一和第二語種的雙語詞對齊模型;利用第二和第三語種的雙語語料,訓練第二和第三語種的雙語詞對齊模型;以及根據(jù)上述第一和第二語種的雙語詞對齊模型以及上述第二和第三語種的雙語詞對齊模型,估計第一和第三語種的雙語詞對齊模型。
文檔編號G06F17/28GK101030196SQ20061005806
公開日2007年9月5日 申請日期2006年2月28日 優(yōu)先權(quán)日2006年2月28日
發(fā)明者王海峰, 劉占一, 吳華 申請人:株式會社東芝