一種雙向詞語對齊方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及機器翻譯技術(shù)領(lǐng)域,特別是設(shè)及一種雙向詞語對齊方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展和國際交流的日益深入,人們的語言翻譯需求日益增長。在運 種需求的帶動之下,用機器翻譯系統(tǒng)來協(xié)助人們快速翻譯、建檔,已成為無法避免的趨勢。 據(jù)Google翻譯團隊披露,Google翻譯每天提供翻譯服務(wù)達十億次,相當(dāng)于全球一年的人工 翻譯量,處理的文字?jǐn)?shù)量相當(dāng)于一百萬冊圖書。由于互聯(lián)網(wǎng)中存在的語言種類多,各語言又 具有大量的多義性,并處于時時刻刻的變化之中,因此,如何為用戶提供高質(zhì)量的翻譯服務(wù) 仍然是一個難題。
[0003] 詞語對齊旨在計算平行文本中詞語之間的對應(yīng)關(guān)系,它最早是作為機器翻譯系統(tǒng) 的中間結(jié)果提出。詞語對齊的質(zhì)量直接影響機器翻譯的質(zhì)量,因此,詞語對齊在機器翻譯中 起著關(guān)鍵作用。
[0004] 現(xiàn)有機器翻譯系統(tǒng)廣泛使用生成式的單向詞語對齊模型,其基本假設(shè)是每個目標(biāo) 語言詞僅僅與一個源語言詞產(chǎn)生對應(yīng)關(guān)系,一個源語言詞可W和零個或多個目標(biāo)語言詞產(chǎn) 生對應(yīng)關(guān)系。然而,運種假設(shè)無法很好地對現(xiàn)實中詞語對齊的對稱性進行建模,更無法統(tǒng)一 處理復(fù)雜的詞語對齊情況,如一對多、多對一、多對多等。目前,解決該問題的主要方法是對 兩個方向的單向詞語對齊模型分別進行訓(xùn)練,訓(xùn)練完成之后使用啟發(fā)式規(guī)則對兩個非對稱 的詞語對齊結(jié)果進行合并。
[0005] 雖然利用啟發(fā)式規(guī)則進行合并的方法能夠在一定程度降低詞語對齊的錯誤率,然 而由于對兩個方向的單向詞語對齊模型是分別進行訓(xùn)練的,無法解決詞語對齊的對稱性問 題,詞語對齊的錯誤率仍然較高。
[0006] 為了解決詞語對齊的對稱性問題,目前機器翻譯系統(tǒng)也有使用一致性模型,其假 設(shè)目標(biāo)語言和源語言的詞均為一對一的對齊,即構(gòu)建了一個完全對稱的模型。雖然一致性 模型極大地提高了詞語對齊的精度,但是由于一對一的假設(shè)過于強化,降低了詞語對齊的 召回率,并且違背了詞語對齊的實際情況,對于本身對應(yīng)關(guān)系不好的語言對效果較差,如在 處理一對多、多對一、多對多等復(fù)雜的詞語對齊情況時,效果較差。
【發(fā)明內(nèi)容】
[0007] (一)要解決的技術(shù)問題
[000引本發(fā)明提供一種雙向詞語對齊方法及裝置,W解決現(xiàn)有技術(shù)中無法很好的對詞語 對齊的對稱性進行建模、詞語對齊的錯誤率高,在處理一對多、多對一、多對多等復(fù)雜的詞 語對齊情況時對齊效果差的問題。
[0009] (二)技術(shù)方案
[0010] 為了解決上述技術(shù)問題,本發(fā)明提出了 W下技術(shù)方案。
[0011] -方面,本發(fā)明提供一種雙向詞語對齊方法,包括:
[0012] A、構(gòu)建源語言到目標(biāo)語言的第一詞語對齊模型和目標(biāo)語言到源語言的第二詞語 對齊模型;
[0013] B、利用一致性評估函數(shù),融合所述第一詞語對齊模型和第二詞語對齊模型,構(gòu)建 初始目標(biāo)函數(shù);
[0014] C、利用一致性評估函數(shù),對所述第一詞語對齊模型和第二詞語對齊模型進行聯(lián)合 訓(xùn)練,形成優(yōu)化目標(biāo)函數(shù),并輸出聯(lián)合訓(xùn)練得到的模型;
[0015] D、利用所述優(yōu)化目標(biāo)函數(shù)及聯(lián)合訓(xùn)練得到的模型,對平行雙語句對進行詞語對 齊,得到雙向詞語對齊結(jié)果。
[0016] 進一步地,所述步驟B前還包括步驟:
[0017] 構(gòu)建數(shù)據(jù)集W及對所述數(shù)據(jù)集進行預(yù)處理;
[0018] 所述構(gòu)建數(shù)據(jù)集包括收集平行雙語句對,并將所述雙語句對作為訓(xùn)練語料;
[0019] 所述對數(shù)據(jù)集進行預(yù)處理包括對數(shù)據(jù)集中的源語言和目標(biāo)語言文本中的句子切 分成詞、轉(zhuǎn)換大小寫和過濾無效字符。
[0020] 具體地,所述步驟B中的一致性評估函數(shù)包括用于對所述第一詞語對齊模型和第 二詞語對齊模型的詞語對齊的一致性進行衡量的一致性評估函數(shù)一;
[00別]所述步驟C包括:
[0022] C1,針對數(shù)據(jù)集中的平行雙語句對(s,t),利用第一詞語對齊模型和第二詞語對齊 模型分別求解,得到源語言到目標(biāo)語言的第一詞語對齊結(jié)果ai、目標(biāo)語言到源語言的第二 詞語對齊結(jié)果曰2;
[0023] C2,利用一致性評估函數(shù)一衡量第一詞語對齊結(jié)果ai和第二詞語對齊結(jié)果32的對 齊一致性,得到平行雙語句對(S,t)的詞語對齊一致性得分;
[0024] C3,將數(shù)據(jù)集中所有平行雙語句對的詞語對齊一致性得分相加,得到目標(biāo)函數(shù)值;
[0025] C4,隨機調(diào)整詞語對齊連線,返回步驟C1-C3,重新計算目標(biāo)函數(shù)值;
[0026] C5,判斷本次調(diào)整詞語對齊連線后得到的目標(biāo)函數(shù)值是否增長或判斷本次調(diào)整是 否達到預(yù)設(shè)的調(diào)整次數(shù);
[0027] 若所述目標(biāo)函數(shù)值不再增長或達到預(yù)設(shè)的調(diào)整次數(shù),則輸出調(diào)整過程中得到的目 標(biāo)函數(shù)值最高時對應(yīng)的第一詞語對齊結(jié)果ai和第二詞語對齊結(jié)果32,并執(zhí)行步驟C6;
[002引否則返回步驟C4;
[0029] C6,利用所述目標(biāo)函數(shù)值最高時對應(yīng)的第一詞語對齊結(jié)果ai和第二詞語對齊結(jié)果 32,重新估計第一詞語對齊模型和第二詞語對齊模型的模型參數(shù),并返回步驟C1;重復(fù)執(zhí)行 步驟C1-C6,當(dāng)?shù)螖?shù)達到預(yù)設(shè)的迭代次數(shù)時,輸出優(yōu)化目標(biāo)函數(shù)及優(yōu)化的模型參數(shù),并 輸出聯(lián)合訓(xùn)練得到的模型。
[0030] 可選地,所述一致性評估函數(shù)一為:
[0031] Scorewa = 2 I ai η a21 -1 ai U a21 ;
[0032] 其中,針對數(shù)據(jù)集中的句對(s,t),ai為通過第一詞語對齊模型生成的第一詞語對 齊結(jié)果,曰2為通過第二詞語對齊模型生成的第二詞語對齊結(jié)果,ai η曰2為第一詞語對齊結(jié)果 和第二詞語對齊結(jié)果交集中連線的數(shù)目,ai U 32為第一詞語對齊結(jié)果和第二詞語對齊結(jié)果 并集中連線的數(shù)目。
[0033] 優(yōu)選地,所述步驟A還包括:
[0034] 構(gòu)建用于對源語言中的短語進行切分的第一短語切分模型和用于對目標(biāo)語言中 的短語進行切分的第二短語切分模型;
[0035] 所述步驟B包括:利用一致性評估函數(shù),融合所述第一詞語對齊模型、第二詞語對 齊模型、第一短語切分模型和第二短語切分模型,構(gòu)建初始目標(biāo)函數(shù);所述一致性評估函數(shù) 還包括用于對所述第一詞語對齊模型、第二詞語對齊模型的詞語對齊和短語切分的一致性 進行衡量的一致性評估函數(shù)二;
[0036] 所述步驟C包括:
[0037] C1',針對數(shù)據(jù)集中的平行雙語句對(s,t),利用第一詞語對齊模型、第二詞語對齊 模型、第一短語切分模型和第二短語切分模型分別求解,得到源語言到目標(biāo)語言的第一詞 語對齊結(jié)果ai、目標(biāo)語言到源語言的第二詞語對齊結(jié)果32、源語言的第一短語切分結(jié)果bi、 目標(biāo)語言的第二短語切分結(jié)果b2 ;
[0038] C2',利用一致性評估函數(shù)一衡量第一詞語對齊結(jié)果ai和第二詞語對齊結(jié)果曰2的對 齊一致性,得到平行雙語句對(S,t)的詞語對齊一致性得分;利用一致性評估函數(shù)二衡量詞 語對齊與短語切分的一致性,得到平行雙語句對(S,t)的詞語對齊與短語切分一致性得分;
[0039] C3',將數(shù)據(jù)集中所有平行雙語句對的詞語對齊一致性得分相加,數(shù)據(jù)集中所有平 行雙語句對的詞語對齊與短語切分一致性得分相加,組成目標(biāo)函數(shù)值;
[0040] C4',隨機調(diào)整詞語對齊連線,并隨機調(diào)整短語切分結(jié)果,返回步驟C1'至步驟C3', 重新計算目標(biāo)函數(shù)值;
[0041] 巧',判斷本次調(diào)整詞語對齊連線和短語切分結(jié)果后得到的目標(biāo)函數(shù)值是否增長 或判斷本次調(diào)整是否達到預(yù)設(shè)的調(diào)整次數(shù);
[0042] 若所述目標(biāo)函數(shù)值不再增長或達到預(yù)設(shè)的調(diào)整次數(shù),則輸出調(diào)整過程中得到的目 標(biāo)函數(shù)值最高時對應(yīng)的第一詞語對齊結(jié)果ai、第二詞語對齊結(jié)果32、第一短語切分結(jié)果bi和 第二短語切分結(jié)果b2,并執(zhí)行步驟C6' ;
[0043] 否則返回步驟C4';
[0044] C6',利用所述目標(biāo)函數(shù)值最高時對應(yīng)的第一詞語對齊結(jié)果ai、第二詞語對齊結(jié)果 32、第一短語切分結(jié)果bi和第二短語切分結(jié)果b2,重新估計第一詞語對齊模型、第二詞語對 齊模型、第一短語切分模型和第二短語切分模型的模型參數(shù),并返回步驟cr;重復(fù)執(zhí)行步 驟Cr至步驟C6',當(dāng)?shù)螖?shù)達到預(yù)設(shè)的迭代次數(shù)時,輸出優(yōu)化目標(biāo)函數(shù)及優(yōu)化的模型參 數(shù),并輸出聯(lián)合訓(xùn)練得到的模型