两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法及系統(tǒng)的制作方法

文檔序號(hào):6515710閱讀:248來源:國知局
一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法及系統(tǒng),包括訓(xùn)練和翻譯過程,將句子中所有的謂詞論元結(jié)構(gòu)有機(jī)的組織成圖狀結(jié)構(gòu),再將此結(jié)構(gòu)作為改進(jìn)層次短語機(jī)器翻譯的頂層語義骨架結(jié)構(gòu),從而直接將謂詞論元結(jié)構(gòu)建模到層次短語機(jī)器翻譯中,將語義獨(dú)立的片段單獨(dú)翻譯并依據(jù)它們之間的結(jié)構(gòu)組合成最終譯文,由此得到的譯文具有更好的語義相關(guān)性、語義結(jié)構(gòu)和長距離調(diào)序特征,并因此降低了機(jī)器翻譯生成毫無意義譯文的概率。
【專利說明】一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法及系統(tǒng)【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理【技術(shù)領(lǐng)域】,具體地說,涉及一種基于謂詞語義結(jié)構(gòu)的機(jī)器翻譯方法及系統(tǒng)。
【背景技術(shù)】
[0002]對(duì)于機(jī)器翻譯而言,語義信息是非常重要的信息。
[0003]發(fā)明專利“基于語義的機(jī)器翻譯系統(tǒng)及方法”公開了一種基于語義的自然語言機(jī)器翻譯方法,用于將原始語種的原文自動(dòng)地翻譯成一個(gè)或多個(gè)目的語種的譯文,該方法包括如下步驟:提取原文的一句;根據(jù)語義單元表示庫,對(duì)該句進(jìn)行語義分析,從而得到該句的句義表達(dá)式;根據(jù)語義單元表示庫,將該句義表達(dá)式用目的語種的語義單元表示進(jìn)行展開;將展開后的句子作為譯文輸出。本發(fā)明機(jī)器翻譯方法可以高效的同時(shí)翻譯多種目的語種的譯文?;痉g方法和語義獲取和使用方法均不相同。該專利是基于規(guī)則機(jī)器翻譯方法的,利用人工定義的語義規(guī)則來進(jìn)行語義處理的。
[0004]發(fā)明專利“一種基于語義模板的問題自動(dòng)翻譯方法及其系統(tǒng)”公開了專利摘要:本發(fā)明公開了一種基于語義模板的問題自動(dòng)翻譯方法及其系統(tǒng),其中該方法包括:模板獲取步驟,用于獲取與用戶提出的問題最相關(guān)的語義模板;模板映射步驟,用于將最相關(guān)的語義模板映射到目標(biāo)語言模板,得到問題的可填充項(xiàng)及可填充項(xiàng)對(duì)應(yīng)于目標(biāo)語言模板中的語義標(biāo)簽;語義選擇步驟,用于對(duì)可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到可填充項(xiàng)的所有語義;利用語義標(biāo)簽從所有語義中選擇可填充項(xiàng)的最佳語義,將最佳語義填充到目標(biāo)語言模板中,得目標(biāo)語言問題。本發(fā)明能夠?qū)换ナ絾柎鹣到y(tǒng)中用戶提出的問題進(jìn)行自動(dòng)翻譯,實(shí)現(xiàn)了不同語言用戶之間的無障礙交流?;痉g方法和語義獲取和使用方法均不相同。該專利是基于規(guī)則機(jī)器翻譯方法的,利用人工定義的語義模板來進(jìn)行翻譯的。
[0005]發(fā)明專利“一種語義約定全文翻譯系統(tǒng)和方法”公開了一種語義約定全文翻譯系統(tǒng)和方法。該翻譯系統(tǒng)和方法作為一種多語通用的人機(jī)交互自然語言翻譯技術(shù)可以滿足以下要求:保證語義信息傳遞質(zhì)量;人機(jī)交互只需使用母語;可自動(dòng)轉(zhuǎn)換為多種語言譯文。本發(fā)明可用于短信、電子郵件、網(wǎng)頁和各類數(shù)據(jù)庫(比如數(shù)字圖書館)信息翻譯,可提供電子商務(wù)多語洽談、多語交流專線、多語共享BBS,并且可以以短信通訊方式實(shí)現(xiàn)任意語言用戶之間的遠(yuǎn)程和面對(duì)面多語交流。該方法將不同語言的詞匯映射到相同的語義信息上去,利用該信息直接進(jìn)行翻譯。該方法系規(guī)則翻譯方法,且歧義極大。
[0006]發(fā)明專利“語言翻譯系統(tǒng)”公開了用戶可以在各種語言之間通信的一種語言轉(zhuǎn)換系統(tǒng)。翻譯單元(300)將構(gòu)建自然語言表達(dá)的自然語言的組元翻譯為對(duì)應(yīng)于該組元并進(jìn)入通用語言字典(210)的通用語言元素。翻譯規(guī)則(220)被應(yīng)用于經(jīng)翻譯的通用語言元素,由此根據(jù)該次序創(chuàng)建以二項(xiàng)式關(guān)系表達(dá)的通用語言的表達(dá)。反翻譯部分(350)根據(jù)包括在所述翻譯規(guī)則中的以二元關(guān)系表達(dá)的規(guī)則、參考所述翻譯規(guī)則(220)將以所述二元關(guān)系表達(dá)的通用語言的表達(dá)解析為構(gòu)建連接的通用語言元素。參考通用語言(210),將已解析的通用語言元素翻譯為構(gòu)建自然語言表達(dá)的組元,由此創(chuàng)建自然語言的表達(dá)。該專利技術(shù)是一種自然語言的簡單翻譯技術(shù),基本翻譯方法為規(guī)則方法,并未在翻譯過程中涉及任何語義相關(guān)處理,也未使用任何與謂詞語義相關(guān)的語義算法及結(jié)構(gòu)。
[0007]可見,目前大部分的統(tǒng)計(jì)機(jī)器翻譯模型都沒有對(duì)語義結(jié)構(gòu)進(jìn)行直接建模。
[0008]語義結(jié)構(gòu)和句法結(jié)構(gòu)是兩種獨(dú)立的結(jié)構(gòu)。任何結(jié)構(gòu)都包括兩方面內(nèi)容,一是成分,二是成分關(guān)系。在成分方面,語義結(jié)構(gòu)有施事、受事、謂詞等成分,句法結(jié)構(gòu)有主語、謂語、賓語等成分。語義結(jié)構(gòu)的最小單位是語義詞(又叫義位),最大單位是義句;句法結(jié)構(gòu)的最小單位是詞匯詞(又叫詞位)。
[0009]謂詞論兀結(jié)構(gòu)(PAS:Predicate Argument Structure)作為淺層語義結(jié)構(gòu)的一種,表示句子成分之間的謂詞邏輯關(guān)系,例如謂詞論元結(jié)構(gòu):“他們[A0]舉行[Pred]會(huì)議[Al] ”,表示“他們”為施事,而“會(huì)議”為受事,“舉行”為響應(yīng)的謂詞。該結(jié)構(gòu)為統(tǒng)計(jì)機(jī)器翻譯提供了較強(qiáng)的先驗(yàn)結(jié)構(gòu)知識(shí),能夠在一定程度上幫助機(jī)器進(jìn)行詞匯選擇及調(diào)序。但是由于謂詞論元結(jié)構(gòu)組織結(jié)構(gòu)較為離散,現(xiàn)有工作均是以該結(jié)構(gòu)作為補(bǔ)充信息指導(dǎo)翻譯而不是將其直接在機(jī)器翻譯中進(jìn)行建模。目前直接針對(duì)謂詞論元結(jié)構(gòu)建模的障礙在于:謂詞論元結(jié)構(gòu)可以互相嵌套,且同樣的詞匯或短語可以在不同的謂詞論元結(jié)構(gòu)中所作為不同的論元成分;謂詞論元結(jié)構(gòu)中的成分之間有可能存在不屬于該謂詞論元結(jié)構(gòu)的詞匯或短語。例如圖1中,一個(gè)句子中有三個(gè)謂詞論元結(jié)構(gòu),其中謂詞論元結(jié)構(gòu)I中的“Al”成分嵌套著兩個(gè)不同的謂詞論元結(jié)構(gòu);謂詞論元結(jié)構(gòu)2和3共享“會(huì)議”作為其結(jié)構(gòu)的組成部分,并且“會(huì)議”在不同的謂詞論元結(jié)構(gòu)中代表不同作用的論元(A1/A0);其中謂詞論元結(jié)構(gòu)3中的“會(huì)議”和“將”之間存在著與該謂詞論元結(jié)構(gòu)無關(guān)的詞匯及短語
[0010]在現(xiàn)有技術(shù)中,可以利用統(tǒng)計(jì)學(xué)習(xí)得到的轉(zhuǎn)換映射規(guī)則生成目標(biāo)端語義結(jié)構(gòu),但不是在源端利用謂詞語義結(jié)構(gòu)進(jìn)行翻譯,更不是對(duì)語義獨(dú)立片段進(jìn)行單獨(dú)翻譯,最終生成目標(biāo)端翻譯。

【發(fā)明內(nèi)容】

[0011]為了解決上述問題,本發(fā)明的目的在于提出一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法:將句子中所有的謂詞論元結(jié)構(gòu)有機(jī)的組織成圖狀結(jié)構(gòu),再將此結(jié)構(gòu)作為改進(jìn)層次短語機(jī)器翻譯的頂層語義骨架結(jié)構(gòu),從而直接將謂詞論元結(jié)構(gòu)建模到層次短語機(jī)器翻譯中。直接在謂詞語義結(jié)構(gòu)上對(duì)翻譯過程進(jìn)行建模,將語義獨(dú)立的片段單獨(dú)翻譯并依據(jù)它們之間的結(jié)構(gòu)組合成最終譯文,由此得到的譯文具有更好的語義相關(guān)性、語義結(jié)構(gòu)和長距離調(diào)序特征,并因此降低了機(jī)器翻譯生成毫無意義譯文的概率。
[0012]具體地講,本發(fā)明公開了一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,包括訓(xùn)練和翻譯步驟,其中,訓(xùn)練步驟包括:
[0013]步驟11,對(duì)雙語平行句對(duì)中的源語言句子進(jìn)行語義角色標(biāo)注,得到源語言句子所有的謂詞論元結(jié)構(gòu);源語言的謂詞論元結(jié)構(gòu)可以由語義角色標(biāo)注工具獲得。
[0014]步驟12,將雙語平行句對(duì)中的源語言句子的謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu);所有謂詞論元結(jié)構(gòu)是通過以下步驟轉(zhuǎn)換為圖狀結(jié)構(gòu)的:
[0015]將源語言句子根據(jù)謂詞論元結(jié)構(gòu)拆分成最小的謂詞語義元素;
[0016]將各個(gè)謂詞語義元素通過原有的謂詞論元結(jié)構(gòu)中語義元素之間的關(guān)系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結(jié)構(gòu),其中兩個(gè)不同與謂詞論元結(jié)構(gòu)I有嵌套關(guān)系的謂詞論元結(jié)構(gòu)2和3的謂詞通過“Pred”標(biāo)簽與其上層結(jié)構(gòu)的謂詞聯(lián)系起來,并通過相應(yīng)邊的方向表示其從屬關(guān)系。
[0017]步驟13,將源端謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段;所有謂詞論元的圖狀結(jié)構(gòu)是通過以下步驟轉(zhuǎn)換語義獨(dú)立片段的:
[0018]將謂詞及所有指向謂詞的非謂詞語義元素構(gòu)成的子圖抽取出來;
[0019]將上述抽取出的子圖轉(zhuǎn)換成語義獨(dú)立片段,其中句子中與該語義片段無關(guān)的單詞或短語和下層結(jié)構(gòu)的謂詞元素將會(huì)泛化為語義非終結(jié)符S。
[0020]步驟14,得到雙語平行句對(duì)中的源語言句子及其對(duì)應(yīng)的語義獨(dú)立片段結(jié)構(gòu)后,在雙語詞匯對(duì)齊的雙語平行句對(duì)上抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和層次短語翻譯規(guī)則;抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和基本層次短語翻譯規(guī)則具體包括:將語義獨(dú)立片段中的單詞及對(duì)應(yīng)標(biāo)簽組織成線圖形式,并將對(duì)應(yīng)的目標(biāo)語言句子與語義非終極符對(duì)齊的部分泛化為同樣的語義非終結(jié)符;將源端語義獨(dú)立片段和目標(biāo)端翻譯及其對(duì)齊組織成線圖結(jié)構(gòu),在該線圖結(jié)構(gòu)上根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。
[0021]翻譯步驟包括:
[0022]步驟21,對(duì)待翻譯的源語言句子進(jìn)行語義角色標(biāo)注,得到待翻譯源語言句子所有的謂詞論元結(jié)構(gòu);
[0023]步驟22,將待翻譯源語言句子所有謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu);
[0024]步驟23,將謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段;
[0025]步驟24,根據(jù)基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯文法,將帶語義獨(dú)立片段單獨(dú)翻譯并將其合并成為目標(biāo)語言譯文。
[0026]步驟21中獲得謂詞論元結(jié)構(gòu)的方式與步驟11中相同,步驟22中將待翻譯源語言句子的謂詞論元結(jié)構(gòu)的方法與步驟12中相同,步驟23將謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段的方法與步驟13中相同。
[0027]步驟24中根據(jù)基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法分別涉及到運(yùn)用兩個(gè)不同文法的具體包括:(a)運(yùn)用語義獨(dú)立片段翻譯文法單獨(dú)翻譯每一個(gè)語義獨(dú)立片段;(b)使用語義獨(dú)立片段組合文法將上一步翻譯好的語義獨(dú)立片段連同非語義元素的詞匯或短語組合成最終的目標(biāo)端譯文。其中:語義獨(dú)立片段翻譯文法為帶謂詞論元結(jié)構(gòu)規(guī)則的雙語同步文法,其中謂詞論元結(jié)構(gòu)包括:粘貼規(guī)則和泛化規(guī)則。
[0028]本發(fā)明還公開了一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯系統(tǒng),包括訓(xùn)練系統(tǒng)和翻譯系統(tǒng),其中訓(xùn)練系統(tǒng)包括:
[0029]標(biāo)注模塊,用于對(duì)雙語平行句對(duì)中的源語言句子進(jìn)行語義角色標(biāo)注,得到源語言句子所有的謂詞論元結(jié)構(gòu);
[0030]組織模塊,用于將雙語平行句對(duì)中的源語言句子的謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu);
[0031]拆分模塊,用于將源端謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段;
[0032]抽取模塊,用于在得到雙語平行句對(duì)中的源語言句子及其對(duì)應(yīng)的語義獨(dú)立片段結(jié)構(gòu)后,在雙語詞匯對(duì)齊的雙語平行句對(duì)上抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和層次短語翻譯規(guī)則;
[0033]翻譯系統(tǒng)包括:[0034]標(biāo)注模塊,用于對(duì)待翻譯的源語言句子進(jìn)行語義角色標(biāo)注,得到待翻譯源語言句子所有的謂詞論元結(jié)構(gòu);
[0035]組織模塊,用于將待翻譯源語言句子所有謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu);
[0036]拆分模塊,用于將謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段;
[0037]翻譯模塊,用于根據(jù)基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯文法,將帶語義獨(dú)立片段單獨(dú)翻譯并將其合并成為目標(biāo)語言譯文。
[0038]拆分模塊具體包括:
[0039]謂詞語義元素拆分模塊,用于將源語言句子根據(jù)謂詞論元結(jié)構(gòu)拆分成最小的謂詞語義元素;
[0040]語義元素關(guān)聯(lián)模塊,用于將各個(gè)謂詞語義元素通過原有的謂詞論元結(jié)構(gòu)中語義元素之間的關(guān)系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結(jié)構(gòu),其中兩個(gè)不同于謂詞論元結(jié)構(gòu)I有嵌套關(guān)系的謂詞論元結(jié)構(gòu)2和3的謂詞通過Pred標(biāo)簽與其上層結(jié)構(gòu)的謂詞聯(lián)系起來,并通過相應(yīng)邊的方向表示其從屬關(guān)系。
[0041]抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和基本層次短語翻譯規(guī)則具體包括:將語義獨(dú)立片段中的單詞及對(duì)應(yīng)標(biāo)簽組織成線圖形式,并將對(duì)應(yīng)的目標(biāo)語言句子與語義非終極符對(duì)齊的部分泛化為同樣的語義非終結(jié)符;將源端語義獨(dú)立片段和目標(biāo)端翻譯及其對(duì)齊組織成線圖結(jié)構(gòu),在該線圖結(jié)構(gòu)上根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。
[0042]所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯系統(tǒng),訓(xùn)練系統(tǒng)的標(biāo)注模塊、組織模塊和拆分模塊,與翻譯系統(tǒng)的標(biāo)注模塊、組織模塊和拆分模塊相同。
[0043]本發(fā)明具有如下技術(shù)效果:
[0044]本發(fā)明直接在謂詞語義結(jié)構(gòu)上對(duì)翻譯過程進(jìn)行建模,將語義獨(dú)立的片段單獨(dú)翻譯并依據(jù)它們之間的結(jié)構(gòu)組合成最終譯文。由此得到的譯文具有更好的語義相關(guān)性、語義結(jié)構(gòu)和長距離調(diào)序特征,并因此降低了機(jī)器翻譯生成毫無意義譯文的概率。
【專利附圖】

【附圖說明】
[0045]圖1為一個(gè)帶有3個(gè)謂詞語義結(jié)構(gòu)的漢語句子;
[0046]圖2為3個(gè)謂詞語義結(jié)構(gòu)的漢語句子拆分成3個(gè)語義獨(dú)立片段的過程;
[0047]圖3為謂詞語義的圖結(jié)構(gòu)中的子圖轉(zhuǎn)換成語義片段;
[0048]圖4為從語義獨(dú)立片段抽取語義規(guī)則的示例;
[0049]圖5為翻譯一個(gè)漢語句子的實(shí)施例;
[0050]圖6為利用語義獨(dú)立片段翻譯文法的翻譯例子;
[0051]圖7為運(yùn)用語義獨(dú)立片段組合文法將翻譯好的語義獨(dú)立片段及獨(dú)立的詞匯或短語合并成最終譯文;
[0052]圖8為具體實(shí)施翻譯系統(tǒng)訓(xùn)練及翻譯步驟。
【具體實(shí)施方式】
[0053]下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)說明。
[0054]本發(fā)明提供的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,包括訓(xùn)練步驟和翻譯步驟,其中:[0055]1、訓(xùn)練步驟包括:
[0056]步驟1,對(duì)雙語平行句對(duì)中的源語言句子進(jìn)行語義角色標(biāo)注,得到源語言句子所有的謂詞論元結(jié)構(gòu)。源語言的謂詞論元結(jié)構(gòu)可以由語義角色標(biāo)注工具獲得,所述語義角色標(biāo)注工具可以是開源的 Illinois Semantic Role Labeler (SRL) I 等。
[0057]步驟2,將雙語平行句對(duì)中的源語言句子的謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu)。
[0058]所有謂詞論元結(jié)構(gòu)是通過以下步驟轉(zhuǎn)換為圖狀結(jié)構(gòu)的:
[0059]將源語言句子根據(jù)謂詞論元結(jié)構(gòu)拆分成最小的謂詞語義元素,如圖2(a)與2(b)所示。圖2為3個(gè)謂詞語義結(jié)構(gòu)的漢語句子拆分成3個(gè)語義獨(dú)立片段的過程;
[0060]將各個(gè)謂詞語義元素通過原有的謂詞論元結(jié)構(gòu)中語義元素之間的關(guān)系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結(jié)構(gòu),如圖2(c)所示。其中兩個(gè)不同與謂詞論元結(jié)構(gòu)I有嵌套關(guān)系的謂詞論元結(jié)構(gòu)2&3的謂詞通過“Pred”標(biāo)簽與其上層結(jié)構(gòu)的謂詞聯(lián)系起來,并通過相應(yīng)邊的方向表示其從屬關(guān)系。
[0061]步驟3,將源端謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段。所有謂詞論元的圖狀結(jié)構(gòu)是通過以下步驟轉(zhuǎn)換語義獨(dú)立片段的(如圖2(c)和2(d)所示):
[0062]將謂詞(帶“Pred”標(biāo)簽的詞)及所有指向謂詞的非謂詞語義元素構(gòu)成的子圖抽取出來(如圖3(a)所示)。圖3為謂詞語義的圖結(jié)構(gòu)中的子圖轉(zhuǎn)換成語義片段;
[0063]將上述抽取出的子圖轉(zhuǎn)換成語義獨(dú)立片段(如圖2 (d)及圖3(b)),其中句子中與該語義片段無關(guān)的單詞或短語和下層結(jié)構(gòu)的謂詞元素將會(huì)泛化為語義非終結(jié)符“S”(如圖2 Cd)及圖3(b)所示)。
[0064]步驟4,得到雙語平行句對(duì)中的源語言句子及其對(duì)應(yīng)的語義獨(dú)立片段結(jié)構(gòu)后,在雙語詞匯對(duì)齊的雙語平行句對(duì)上抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和層次短語翻譯規(guī)則的步驟。
[0065]訓(xùn)練步驟4中,抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和基本層次短語翻譯規(guī)則的步驟為:將語義獨(dú)立片段中的單詞及對(duì)應(yīng)標(biāo)簽組織成如圖4(a)中所示的線圖形式。并且將對(duì)應(yīng)的目標(biāo)語言句子與語義非終極符對(duì)齊的部分泛化為同樣的語義非終結(jié)符(如圖4(b))。圖4為從語義獨(dú)立片段抽取語義規(guī)則的示例;
[0066]將源端語義獨(dú)立片段和目標(biāo)端翻譯及其對(duì)齊組織成如圖4的結(jié)構(gòu),在該結(jié)構(gòu)上可以根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。在抽取過程中如果在源端抽取語義標(biāo)簽的線段,目標(biāo)端對(duì)齊的詞匯或短語也同樣會(huì)被泛化為相應(yīng)的語義標(biāo)簽。例如在圖4中,如果抽取線圖中(2,5)范圍內(nèi)的規(guī)則,將得到以下規(guī)則:
[0067]X,一 <f2f3S, Se3e4>
[0068]X’ — <ADVS, Se3ADV)
[0069]V — <ADVS, SADV>
[0070]其中,X,為基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯文法的起始符,f2f3代表原端詞匯對(duì)應(yīng)的e3e4為目標(biāo)端詞匯,S和ADV為語義非終結(jié)符。
[0071]根據(jù)以上方法抽取的源端帶語義標(biāo)簽或語義非終結(jié)符(“S”)的規(guī)則稱之為謂詞論元結(jié)構(gòu)規(guī)則。
[0072]根據(jù)雙語詞匯對(duì)齊語料,可以直接使用現(xiàn)有層次短語的規(guī)則抽取技術(shù)抽取基本層次短語翻譯規(guī)則。
[0073]訓(xùn)練步驟4中所述其他通用訓(xùn)練步驟為機(jī)器翻譯領(lǐng)域通用的概率計(jì)算,模型調(diào)參等訓(xùn)練步驟,非本專利核心技術(shù)。
[0074]步驟5,其他通用訓(xùn)練步驟。
[0075]2、翻譯步驟包括:
[0076]步驟1,對(duì)待翻譯的源語言句子進(jìn)行語義角色標(biāo)注,得到待翻譯源語言句子所有的謂詞論元結(jié)構(gòu)(如圖5(a))。與訓(xùn)練步驟I中相同。
[0077]步驟2,將待翻譯源語言句子所有謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu)(如圖5(a) -5(c))ο與訓(xùn)練步驟2中相同。
[0078]步驟3,將謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段(如圖5(c)_5(d))。與訓(xùn)練步驟3中相同。
[0079]步驟4,根據(jù)基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯文法,將帶語義獨(dú)立片段單獨(dú)翻譯并將其合并成為目標(biāo)語言譯文。
[0080]涉及到運(yùn)用兩個(gè)不同文法的具體步驟:Ca)運(yùn)用語義獨(dú)立片段翻譯文法單獨(dú)翻譯每一個(gè)語義獨(dú)立片段;(b)使用語義獨(dú)立片段組合文法將上一步翻譯好的語義獨(dú)立片段連同非語義元素的詞匯或短語組合成最終的目標(biāo)端譯文。
[0081]其中:(a)語義獨(dú)立片段翻譯文法為帶謂詞論元結(jié)構(gòu)規(guī)則的雙語同步文法,其中謂詞論元結(jié)構(gòu)包括: [0082]粘貼規(guī)則:
[0083]X,一〈X,X,,X,X,>(I)
[0084]其中V為基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯文法的起始符,所有謂詞論元結(jié)構(gòu)規(guī)則均由此非終結(jié)符推導(dǎo)出來。
[0085]泛化規(guī)則:
[0086]Xs —〈X,X〉(2)
[0087]其中Xs代表所有語義標(biāo)簽及語義非終結(jié)符“S”,X代表一般層次短語同步文法的非終結(jié)符。一般的層次短語規(guī)則,與通用的層次短語翻譯方法所使用的規(guī)則一致。
[0088](b)語義獨(dú)立片段組合文法為改進(jìn)后的層次短語文法,其中包括文法推導(dǎo)規(guī)則:
[0089]S — <SS,SS>(8)
[0090]其中“S”為語義非終結(jié)符。
[0091]S —<X,X>(9)
[0092]其中“X”為層次短語的非終結(jié)符。
[0093]依據(jù)上述方案,以圖5中的待翻譯句子為例。
[0094]圖5為翻譯一個(gè)漢語句子的實(shí)施例。先將該漢語句子拆分成兩個(gè)語義獨(dú)立片段進(jìn)行翻譯。獲得了語義獨(dú)立片段之后,分別對(duì)兩個(gè)語義獨(dú)立片段利用語義獨(dú)立片段翻譯文法進(jìn)行翻譯。
[0095]以第二個(gè)語義獨(dú)立片段為例,如圖6,圖6為利用語義獨(dú)立片段翻譯文法的翻譯例子(左上為待翻譯語義獨(dú)立片段;左下為通過語義獨(dú)立片段翻譯文法翻譯得到的片段譯文;右上為所使用的謂詞邏輯結(jié)構(gòu)規(guī)則;右下為需要使用的層次短語翻譯規(guī)則)
[0096]根據(jù)語義獨(dú)立片段翻譯文法將該語義獨(dú)立片段通過以下規(guī)則推導(dǎo)生成對(duì)應(yīng)的語義獨(dú)立片段譯文(見下頁):
[0097]其中箭頭上括號(hào)內(nèi)的數(shù)字代表該推導(dǎo)使用的規(guī)則編號(hào),例如“(I) ”代表上述的粘貼規(guī)則,編號(hào)3-7的規(guī)則見圖6右側(cè)。
[0098]得到所有上述的語義獨(dú)立片段后可以通過語義獨(dú)立片段組合文法將其合并為最終的翻譯譯文,如圖7所示。圖7為運(yùn)用語義獨(dú)立片段組合文法將翻譯好的語義獨(dú)立片段及獨(dú)立的詞匯或短語合并成最終譯文。
[0099]
【權(quán)利要求】
1.一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,其特征在于,包括訓(xùn)練和翻譯步驟,其中,訓(xùn)練步驟包括: 步驟11,對(duì)雙語平行句對(duì)中的源語言句子進(jìn)行語義角色標(biāo)注,得到源語言句子所有的謂詞論元結(jié)構(gòu); 步驟12,將雙語平行句對(duì)中的源語言句子的謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu); 步驟13,將源端謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段; 步驟14,得到雙語平行句對(duì)中的源語言句子及其對(duì)應(yīng)的語義獨(dú)立片段結(jié)構(gòu)后,在雙語詞匯對(duì)齊的雙語平行句對(duì)上抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和層次短語翻譯規(guī)則; 翻譯步驟包括: 步驟21,對(duì)待翻譯的源語言句子進(jìn)行語義角色標(biāo)注,得到待翻譯源語言句子所有的謂詞論元結(jié)構(gòu); 步驟22,將待翻譯源語言句子所有謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu); 步驟23,將謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段; 步驟24,根據(jù)基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯文法,將帶語義獨(dú)立片段單獨(dú)翻譯并將其合并成為目標(biāo)語言譯文。
2.如權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,其特征在于,步驟11中,源語言的謂詞論元結(jié)構(gòu)可以由語義角色標(biāo)注工具獲得。
3.如權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,其特征在于,步驟12中,所有謂詞論元結(jié)構(gòu)是通過以下步驟轉(zhuǎn)換為圖狀結(jié)構(gòu)的: 將源語言句子根據(jù)謂詞論元結(jié)構(gòu)拆分成最小的謂詞語義元素; 將各個(gè)謂詞語義元素通過原有的謂詞論元結(jié)構(gòu)中語義元素之間的關(guān)系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結(jié)構(gòu),其中兩個(gè)不同與謂詞論元結(jié)構(gòu)I有嵌套關(guān)系的謂詞論元結(jié)構(gòu)2和3的謂詞通過“Pred”標(biāo)簽與其上層結(jié)構(gòu)的謂詞聯(lián)系起來,并通過相應(yīng)邊的方向表示其從屬關(guān)系。
4.如權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,其特征在于,步驟13中,所有謂詞論元的圖狀結(jié)構(gòu)是通過以下步驟轉(zhuǎn)換語義獨(dú)立片段的: 將謂詞及所有指向謂詞的非謂詞語義元素構(gòu)成的子圖抽取出來; 將上述抽取出的子圖轉(zhuǎn)換成語義獨(dú)立片段,其中句子中與該語義片段無關(guān)的單詞或短語和下層結(jié)構(gòu)的謂詞元素將會(huì)泛化為語義非終結(jié)符S。
5.如權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,其特征在于,步驟14中,抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和基本層次短語翻譯規(guī)則具體包括:將語義獨(dú)立片段中的單詞及對(duì)應(yīng)標(biāo)簽組織成線圖形式,并將對(duì)應(yīng)的目標(biāo)語言句子與語義非終極符對(duì)齊的部分泛化為同樣的語義非終結(jié)符;將源端語義獨(dú)立片段和目標(biāo)端翻譯及其對(duì)齊組織成線圖結(jié)構(gòu),在該線圖結(jié)構(gòu)上根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。
6.如權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,其特征在于,步驟21中獲得謂詞論元結(jié)構(gòu)的方式與步驟11中相同,步驟22中將待翻譯源語言句子的謂詞論元結(jié)構(gòu)的方法與步驟12中相同,步驟23將謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段的方法與步驟13中相同。
7.如權(quán)利要求1所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法,其特征在于,步驟24中根據(jù)基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯方法分別涉及到運(yùn)用兩個(gè)不同文法的具體包括:(a)運(yùn)用語義獨(dú)立片段翻譯文法單獨(dú)翻譯每一個(gè)語義獨(dú)立片段;(b)使用語義獨(dú)立片段組合文法將上一步翻譯好的語義獨(dú)立片段連同非語義元素的詞匯或短語組合成最終的目標(biāo)端譯文。 其中:語義獨(dú)立片段翻譯文法為帶謂詞論元結(jié)構(gòu)規(guī)則的雙語同步文法,其中謂詞論元結(jié)構(gòu)包括:粘貼規(guī)則和泛化規(guī)則。
8.一種基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯系統(tǒng),其特征在于,包括訓(xùn)練系統(tǒng)和翻譯系統(tǒng),其中訓(xùn)練系統(tǒng)包括: 標(biāo)注模塊,用于對(duì)雙語平行句對(duì)中的源語言句子進(jìn)行語義角色標(biāo)注,得到源語言句子所有的謂詞論元結(jié)構(gòu); 組織模塊,用于將雙語平行句對(duì)中的源語言句子的謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu); 拆分模塊,用于將源端謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段; 抽取模塊,用于在得到雙語平行句對(duì)中的源語言句子及其對(duì)應(yīng)的語義獨(dú)立片段結(jié)構(gòu)后,在雙語詞匯對(duì)齊的雙語平行句對(duì)上抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和層次短語翻譯規(guī)則; 翻譯系統(tǒng)包括: 標(biāo)注模塊,用于對(duì)待翻譯的源語言句子進(jìn)行語義角色標(biāo)注,得到待翻譯源語言句子所有的謂詞論元結(jié)構(gòu); 組織模塊,用于將待翻譯源語言句子所有謂詞論元結(jié)構(gòu)組織成相應(yīng)的圖狀結(jié)構(gòu); 拆分模塊,用于將謂詞論元的圖狀結(jié)構(gòu)拆分成多個(gè)語義獨(dú)立片段; 翻譯模塊,用于根據(jù)基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯文法,將帶語義獨(dú)立片段單獨(dú)翻譯并將其合并成為目標(biāo)語言譯文。
9.如權(quán)利要求8所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯系統(tǒng),其特征在于,拆分模塊具體包括: 謂詞語義元素拆分模塊,用于將源語言句子根據(jù)謂詞論元結(jié)構(gòu)拆分成最小的謂詞語義元素; 語義元素關(guān)聯(lián)模塊,用于將各個(gè)謂詞語義元素通過原有的謂詞論元結(jié)構(gòu)中語義元素之間的關(guān)系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結(jié)構(gòu),其中兩個(gè)不同于謂詞論元結(jié)構(gòu)I有嵌套關(guān)系的謂詞論元結(jié)構(gòu)2和3的謂詞通過Pred標(biāo)簽與其上層結(jié)構(gòu)的謂詞聯(lián)系起來,并通過相應(yīng)邊的方向表示其從屬關(guān)系。
10.如權(quán)利要求8所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯系統(tǒng),其特征在于,抽取雙語謂詞論元結(jié)構(gòu)規(guī)則和基本層次短語翻譯規(guī)則具體包括:將語義獨(dú)立片段中的單詞及對(duì)應(yīng)標(biāo)簽組織成線圖形式,并將對(duì)應(yīng)的目標(biāo)語言句子與語義非終極符對(duì)齊的部分泛化為同樣的語義非終結(jié)符;將源端語義獨(dú)立片段和目標(biāo)端翻譯及其對(duì)齊組織成線圖結(jié)構(gòu),在該線圖結(jié)構(gòu)上根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。
11.如權(quán)利要求8所述的基于謂詞論元結(jié)構(gòu)的層次機(jī)器翻譯系統(tǒng),其特征在于,訓(xùn)練系統(tǒng)的標(biāo)注模塊、組織模塊 和拆分模塊,與翻譯系統(tǒng)的標(biāo)注模塊、組織模塊和拆分模塊相同。
【文檔編號(hào)】G06F17/28GK103577398SQ201310487641
【公開日】2014年2月12日 申請(qǐng)日期:2013年10月17日 優(yōu)先權(quán)日:2013年10月17日
【發(fā)明者】劉凱, 姜文斌, 呂雅娟, 劉群 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
山阳县| 肇庆市| 锦州市| 砚山县| 潞城市| 高邮市| 昌都县| 阳春市| 九寨沟县| 泸西县| 永春县| 武宣县| 扬州市| 竹北市| 玉环县| 睢宁县| 正镶白旗| 高台县| 阳东县| 姚安县| 百色市| 浦县| 太保市| 卓资县| 明光市| 洛隆县| 调兵山市| 扶绥县| 玛沁县| 谷城县| 永和县| 会宁县| 彭州市| 宜阳县| 虞城县| 延长县| 重庆市| 宜兴市| 博客| 岳池县| 镇巴县|