專利名稱:短語劃分模型建立方法、統(tǒng)計機器翻譯方法以及解碼器的制作方法
技術領域:
本發(fā)明涉及統(tǒng)計機器翻譯領域,具體而言,涉及一種短語劃分模型建立方法、統(tǒng)計機器翻譯方法以及解碼器。
背景技術:
基于層次化短語的統(tǒng)計機器翻譯方法是近年來統(tǒng)計機器翻譯領域的一種主流方法。在層次化短語模型中,允許短語中包含子短語,并使用變量X來代替子短語,從而使模型具有泛化能力。也就是說,從一個短語中學習到的翻譯知識,可以用來翻譯具有相同模式的其他短語。例如,對于以下短語對短語對1 于四月訪問中國visit China in April‘‘四月,April”和“中國,China” 可以看作2個子短語。分別用\和\2代替這兩個子短語,則可以得到一條翻譯規(guī)則規(guī)貝丨J1 =X-X 于 X1 訪問 X2, visit X2in X1)其中X是變量,下標表示變量之間的對應關系。例如,在規(guī)則1中,變量&在漢語端處于第二個位置,而當翻譯為英語后,X1處于英語端的第四個位置。規(guī)則1具有泛化能力,能夠用來翻譯其他短語或句子。例如,當用它來翻譯“于6 月訪問美國華盛頓”時,如果令& =“6月”,“美國華盛頓”,則可以得到翻譯結果于^C1 {6 月}訪問 X2 {美國華盛頓} visit U. S. Washingtonin June然而,基于層次化短語的統(tǒng)計機器翻譯方法面臨的一個問題是,在規(guī)則匹配過程中,難以確定短語邊界,因而造成翻譯的不準確。例如,以下是一個由漢語句子及其英語譯文組成的雙語句對的例子
權利要求
1.一種基于最大熵模型的短語劃分模型建立方法,包括 從雙語語料庫中獲取訓練樣本;將所獲取的訓練樣本輸入到最大熵模型的參數訓練工具中進行參數訓練,得到最大熵模型的權重參數;以及將所述權重參數代入最大熵模型中,生成所述短語劃分模型。
2.如權利要求1所述的方法,其中,所述獲取訓練樣本的步驟包括針對所述雙語語料庫中的每個雙語句對中的源語言句子或目標語言句子執(zhí)行以下步驟對所述句子進行短語劃分;為所劃分出的短語中的每個詞標注邊界標簽,所述邊界標簽指示該詞是所述短語的開始、中間、結束部分還是所述短語本身;以及確定所述句子中的每個詞的上下文特征的值,其中所述句子中的每個詞及其邊界標簽、上下文特征值組成一個訓練樣本。
3.如權利要求2所述的方法,其中所述短語劃分步驟包括 將所述句子劃分為多個最大單調短語,其中如果源語言短語中的詞的順序與目標語言短語中的對應詞的順序一致,則所述源語言短語和所述目標語言短語均稱為單調短語,并且如果通過所述單調短語在其所在的句子中的擴展所生成的任何新短語都不是單調短語,則所述單調短語是最大單調短語。
4.如權利要求2所述的方法,其中所述上下文特征包括上下文單詞特征和上下文詞性特征中的至少一種。
5.一種統(tǒng)計機器翻譯方法,用于將輸入的源語言句子翻譯成目標語言句子,所述方法包括通過查詢翻譯規(guī)則表來獲得用于翻譯所述源語言句子的規(guī)則; 組合所述規(guī)則以得到中間翻譯結果;以及利用統(tǒng)計機器翻譯模型來從多個中間翻譯結果中確定目標語言句子, 其中,所述方法還包括將短語劃分模型作為一種特征函數結合到統(tǒng)計機器翻譯模型中, 其中所述短語劃分模型是根據權利要求1-4中任意一項所述的方法建立的短語劃分模型。
6.如權利要求5所述的方法,其中,所述結合步驟包括對于用于翻譯所述源語言句子的每個規(guī)則,為所述規(guī)則中的每個源語言詞標注初始邊界標簽;在組合所述規(guī)則之后,更新所述中間翻譯結果中的源語言詞的邊界標簽,以保證所述邊界標簽所形成的標簽序列的合理性;以及基于所述短語劃分模型和所述中間翻譯結果中的源語言詞的邊界標簽來計算對應于所述中間翻譯結果的短語劃分分數,作為所述統(tǒng)計機器翻譯模型的特征函數值。
7.如權利要求6所述的方法,其中所述結合步驟還包括在標注初始邊界標簽的步驟之前,對所述輸入的源語言句子中的每個詞,利用所述短語劃分模型來計算它對應于每種邊界標簽的概率以形成單詞-標簽矩陣;以及在組合所述規(guī)則的步驟之前,基于所述初始邊界標簽和所述單詞-標簽矩陣來計算每個規(guī)則的短語劃分分數,并且其中,所述計算對應于所述中間翻譯結果的短語劃分分數的步驟包括 合計每個規(guī)則的短語劃分分數以及所述邊界標簽更新所導致的短語劃分分數變化量, 以得到所述翻譯結果所對應的短語劃分分數。
8.一種解碼器,用于將輸入的源語言句子翻譯成目標語言句子,所述解碼器包括 解碼單元,配置用于通過查詢翻譯規(guī)則表來獲得用于翻譯所述源語言句子的規(guī)則;組合所述規(guī)則以得到中間翻譯結果;以及利用統(tǒng)計機器翻譯模型來從多個中間翻譯結果中確定目標語言句子;以及短語劃分模型單元,配置用于將短語劃分模型作為一種特征函數結合到統(tǒng)計機器翻譯模型中,其中所述短語劃分模型是根據權利要求1-4中任意一項所述的方法建立的短語劃分模型。
9.如權利要求8所述的解碼器,其中所述短語劃分模型單元包括邊界標簽標注單元,配置用于對于用于翻譯所述源語言句子的每個規(guī)則,為所述規(guī)則中的每個源語言詞標注初始邊界標簽;以及更新所述解碼單元得到的所述中間翻譯結果中的源語言詞的邊界標簽,以保證所述邊界標簽所形成的標簽序列的合理性;以及短語劃分分數計算單元,配置用于基于所述短語劃分模型和所述中間翻譯結果中的源語言詞的邊界標簽來計算對應于所述中間翻譯結果的短語劃分分數,作為所述統(tǒng)計機器翻譯模型的特征函數值。
10.如權利要求9所述的解碼器,其中所述邊界標簽標注單元進一步配置用于對所述輸入的源語言句子中的每個詞,利用所述短語劃分模型來計算它對應于每種邊界標簽的概率以形成單詞-標簽矩陣;并且所述短語劃分分數計算單元進一步配置用于基于所述初始邊界標簽和所述單詞-標簽矩陣來計算每個規(guī)則的短語劃分分數;以及合計每個規(guī)則的短語劃分分數以及所述邊界標簽更新所導致的短語劃分分數變化量,以得到所述翻譯結果所對應的短語劃分分數。
全文摘要
本發(fā)明公開了一種短語劃分模型建立方法、統(tǒng)計機器翻譯方法以及解碼器。所述短語模型建立方法包括從雙語語料庫中獲取訓練樣本;將所獲取的訓練樣本輸入到最大熵模型的參數訓練工具中進行參數訓練,得到最大熵模型的權重參數;以及將權重參數代入最大熵模型中,生成短語劃分模型。
文檔編號G06F17/27GK102193912SQ201010124870
公開日2011年9月21日 申請日期2010年3月12日 優(yōu)先權日2010年3月12日
發(fā)明者于浩, 何中軍, 孟遙 申請人:富士通株式會社