两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種用于機(jī)器翻譯的調(diào)序模型的生成方法和裝置的制作方法

文檔序號:6339429閱讀:347來源:國知局
專利名稱:一種用于機(jī)器翻譯的調(diào)序模型的生成方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器翻譯領(lǐng)域,特別涉及一種用于機(jī)器翻譯的調(diào)序模型的生成方法和直O(jiān)
背景技術(shù)
近年來,基于短語的統(tǒng)計(jì)機(jī)器翻譯(phrase-based statistical machine translation)相比于IBM公司當(dāng)初提出的基于單詞的統(tǒng)計(jì)機(jī)器翻譯(word-based statistical machine translation)在譯文質(zhì)量上有了很大的進(jìn)步,因而受到人們的廣泛 關(guān)注。簡單地說,基于短語的統(tǒng)計(jì)機(jī)器翻譯在訓(xùn)練時(shí),首先將雙語語料庫中的雙語例句進(jìn)行 雙語詞對齊,隨后雙語詞對齊的基礎(chǔ)上抽取出帶概率的雙語短語表。在翻譯時(shí),首先是將要 翻譯的源語言句子與短語表中的源語言短語進(jìn)行匹配,得到與源語言短語對應(yīng)的目標(biāo)語言 短語,然后對目標(biāo)語言短語進(jìn)行調(diào)序,進(jìn)而得到目標(biāo)語言句子。在基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,存在三個(gè)比較重要的模型翻譯模型、調(diào)序模 型以及語言模型。其中,調(diào)序模型是為了解決翻譯中存在的調(diào)序問題?,F(xiàn)有的調(diào)序模型主 要是基于相鄰的短語。例如,在翻譯“人們將來的發(fā)展與他們幼年時(shí)的發(fā)展息息相關(guān)”時(shí), 調(diào)序模型考慮的是“與他們幼年時(shí)的發(fā)展”與“息息相關(guān)”之間的調(diào)序問題?;诙陶Z的調(diào) 序模型存在以下兩個(gè)缺陷一是不能對非連續(xù)性的短語進(jìn)行調(diào)序,例如不能對“與...息息 相關(guān)”和“他們幼年時(shí)的發(fā)展”進(jìn)行調(diào)序;二是調(diào)序模型依賴于整個(gè)短語,使得估計(jì)參數(shù)時(shí)存 在數(shù)據(jù)稀疏問題,導(dǎo)致估計(jì)不準(zhǔn)。為了提高調(diào)序模型的調(diào)序能力,部分研究者采用功能詞(function word)或者邊 界詞(boundary word)等方式來解決數(shù)據(jù)稀疏問題,但上述解決方案的效果仍不理想,無法 滿足機(jī)器翻譯需求。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種用于機(jī)器翻譯的調(diào)序模型的生成方法和 裝置,以通過詞與詞之間的搭配信息來提高調(diào)序模型的調(diào)序能力。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種用于機(jī)器翻譯的調(diào)序模型 的生成方法,包括a.獲取雙語語料庫,所述雙語語料庫包括多個(gè)雙語例句對,每一所述雙 語例句對包括源語言例句以及與所述源語言例句對應(yīng)的目標(biāo)語言例句;b.對所述源語言 例句進(jìn)行搭配抽取,以獲取源語言搭配詞對,每一所述源語言搭配詞對包括兩個(gè)具有搭配 關(guān)系的源語言搭配詞;c.對所述源語言例句以及所述目標(biāo)語言例句進(jìn)行雙語詞對齊,并根 據(jù)雙語詞對齊結(jié)果確定所述源語言搭配詞的對應(yīng)譯文;d.根據(jù)所述源語言搭配詞在所述 源語言例句中的順序以及所述對應(yīng)譯文在所述目標(biāo)語言例句的順序確定所述源語言搭配 詞對的調(diào)序方向;e.對所述調(diào)序方向進(jìn)行統(tǒng)計(jì),獲取每一所述調(diào)序方向的調(diào)序概率,以形 成調(diào)序模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟b進(jìn)一步包括bl.對所述源語言例句進(jìn)行復(fù)制,以形成包括兩個(gè)所述源語言例句的源語言例句對;b2.對所述源語言例句對進(jìn)行單 語詞對齊,并根據(jù)單語詞對齊結(jié)果獲得一組源語言對齊詞對,每一所述源語言對齊詞對包 括兩個(gè)具有對齊關(guān)系的源語言對齊詞;b3.從所述源語言對齊詞對中選擇所述源語言搭配 詞對。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,在所述步驟1^2中,利用單語詞對齊模型對所述源語 言例句對進(jìn)行單語詞對齊。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,在所述步驟b3中,過濾掉對齊頻率小于第一閾值的 所述源語言對齊詞對。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,在所述步驟b3中,基于所述源語言對齊詞對的對齊 頻率計(jì)算所述源語言對齊詞對的對齊概率,根據(jù)所述對齊概率計(jì)算所述源語言對齊詞對的 搭配概率,并選擇搭配概率大于第二閾值的所述源語言對齊詞對作為所述源語言搭配詞 對。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,在所述步驟C中,利用雙語詞對齊模型對所述源語 言例句以及所述目標(biāo)語言例句進(jìn)行雙語詞對齊。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述調(diào)序方向包括所述源語言搭配詞在所述源語言 例句中的順序與所述對應(yīng)譯文在所述目標(biāo)語言例句中的順序相同以及所述源語言搭配詞 在所述源語言例句中的順序與所述對應(yīng)譯文在所述目標(biāo)語言例句中的順序相反。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種用于機(jī)器翻譯的調(diào)序模型 的生成裝置,包括雙語語料獲取單元,用于獲取雙語語料庫,所述雙語語料庫包括多個(gè)雙 語例句對,每一所述雙語例句對包括源語言例句以及與所述源語言例句對應(yīng)的目標(biāo)語言例 句;搭配抽取單元,用于對所述源語言例句進(jìn)行搭配抽取,以獲取源語言搭配詞對,每一所 述源語言搭配詞對包括兩個(gè)具有搭配關(guān)系的源語言搭配詞;雙語詞對齊單元,用于對所述 源語言例句以及所述目標(biāo)語言例句進(jìn)行雙語詞對齊,并根據(jù)雙語詞對齊結(jié)果確定所述源語 言搭配詞的對應(yīng)譯文;調(diào)序方向確定單元,用于根據(jù)所述源語言搭配詞在所述源語言例句 中的順序以及所述對應(yīng)譯文在所述目標(biāo)語言例句的順序確定所述源語言搭配詞對的調(diào)序 方向;調(diào)序模型生成單元,用于對所述調(diào)序方向進(jìn)行統(tǒng)計(jì),獲取每一所述調(diào)序方向的調(diào)序概 率,以形成調(diào)序模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述搭配抽取單元進(jìn)一步包括源語言例句對形成 單元,用于對所述源語言例句進(jìn)行復(fù)制,以形成包括兩個(gè)所述源語言例句的源語言例句對; 單語詞對齊單元,用于對所述源語言例句對進(jìn)行單語詞對齊,并根據(jù)單語詞對齊結(jié)果獲得 一組源語言對齊詞對,每一所述源語言對齊詞對包括兩個(gè)具有對齊關(guān)系的源語言對齊詞; 源語言搭配詞對選擇單元,從所述源語言對齊詞對中選擇所述源語言搭配詞對。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述單語詞對齊單元利用單語詞對齊模型對所述源 語言例句對進(jìn)行單語詞對齊。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述源語言搭配詞對選擇單元過濾掉對齊頻率小于 第一閾值的所述源語言對齊詞對。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述源語言搭配詞對選擇單元基于所述源語言對齊 詞對的對齊頻率計(jì)算所述源語言對齊詞對的對齊概率,根據(jù)所述對齊概率計(jì)算所述源語言 對齊詞對的搭配概率,并選擇搭配概率大于第二閾值的所述源語言對齊詞對作為所述源語言搭配詞對。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述雙語詞對齊單元利用雙語詞對齊模型對所述源 語言例句以及所述目標(biāo)語言例句進(jìn)行雙語詞對齊。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述調(diào)序方向包括所述源語言搭配詞在所述源語言 例句中的順序與所述對應(yīng)譯文在所述目標(biāo)語言例句中的順序相同以及所述源語言搭配詞 在所述源語言例句中的順序與所述對應(yīng)譯文在所述目標(biāo)語言例句中的順序相反。由以上技術(shù)方案可以看出,本發(fā)明提供的調(diào)序模型的生成方法及裝置基于源語言 的詞與詞之間的搭配信息來建立調(diào)序模型,進(jìn)而提高了調(diào)序模型的調(diào)序能力。


圖1是本發(fā)明實(shí)施例中的調(diào)序模型生成方法的流程示意圖;圖2是本發(fā)明實(shí)施例中的搭配抽取結(jié)果的示意圖;圖3是本發(fā)明實(shí)施例中的雙語詞對齊結(jié)果的示意圖;圖4是本發(fā)明實(shí)施例中的搭配抽取方法的流程示意圖;圖5是本發(fā)明實(shí)施例中的調(diào)序模型生成裝置的示意框圖;圖6是本發(fā)明實(shí)施例中的搭配抽取單元的示意框圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。本發(fā)明利用源語言句子中的詞與詞之間的搭配信息來提高調(diào)序模型的調(diào)序能力, 例如在以上例句中,如果能夠發(fā)現(xiàn)“與”和“息息相關(guān)”是一個(gè)搭配詞對,那么在調(diào)序過程中, 考慮采用這樣的調(diào)序模型來約束二者的調(diào)序方向ρ (o I wi Wj) ο ^ (straight,inverted)在上述調(diào)序模型中,Wi和%表示在源語言句子中具有搭配關(guān)系的兩個(gè)源語言搭配 詞,二者構(gòu)成一源語言搭配詞對,ο表示調(diào)序方向,其中,“straight”表示源語言搭配詞Wi 和 在源語言句子中的順序與源語言搭配詞Wi和 的對應(yīng)譯文在目標(biāo)語言句子中的順序 相同,“inverted”表示源語言搭配詞Wi和Wj在源語言句子中的順序與Wi和Wj的對應(yīng)譯文 在目標(biāo)語言句子中的順序相反。請參閱圖1,圖1是本發(fā)明實(shí)施例中的調(diào)序模型生成方法的流程示意圖。在本實(shí)施 例中,通過訓(xùn)練的方式來生成上述模型,該調(diào)序模型生成方法主要包括以下幾個(gè)步驟在步驟SlOl中,獲取雙語語料庫。該雙語語料庫包括多個(gè)雙語例句對,每一雙語 例句對包括源語言例句以及與源語言例句對應(yīng)的目標(biāo)語言例句。雙語語料庫在機(jī)器翻譯領(lǐng) 域中被普遍使用,并可通過各種方式獲得,在此不再贅述。在步驟S102中,對源語言例句進(jìn)行搭配抽取,以獲取源語言搭配詞對。如圖2所 示,在本步驟中,可通過單語詞對齊的方式來獲取源語言搭配詞對。例如,在圖2中,“人們” 與“發(fā)展”、“將來”與“發(fā)展”以及“與”與“息息相關(guān)”均為兩個(gè)具有搭配關(guān)系的源語言搭配 詞,進(jìn)而分別構(gòu)成一源語言搭配詞對。下文將詳細(xì)描述通過單語詞對齊方式來獲取源語言 搭配詞對的搭配抽取方法。在步驟S103中,對雙語例句對中的源語言例句以及目標(biāo)語言例句進(jìn)行雙語詞對齊,并根據(jù)雙語詞對齊結(jié)果確定源語言搭配詞的對應(yīng)譯文。如圖3所示,源語言搭配 詞“人們”的對應(yīng)譯文為“People”、“將來”的對應(yīng)譯文為“future”、“發(fā)展”的對應(yīng)譯文 為“development”、“與”的對應(yīng)譯文為“to”以及“息息相關(guān)”的對應(yīng)譯文為“is closely related”。在本步驟中,雙語詞對齊可通過訓(xùn)練好的雙語詞對齊模型來實(shí)現(xiàn)。雙語詞對齊 模型及其訓(xùn)練方法為本領(lǐng)域公知常識,在此不再贅述。在步驟S104中,根據(jù)源語言搭配詞在源語言例句中的順序以及源語言搭配詞的 對應(yīng)譯文在目標(biāo)語言例句的順序確定源語言搭配詞對的調(diào)序方向。具體來說,如圖2-3所 示,在源語言例句中,源語言搭配詞“人們”位于“發(fā)展”的前面,同時(shí)在目標(biāo)語言例句中,“人 們”的對應(yīng)譯文“People”同樣位于“發(fā)展”的對應(yīng)譯文“development”的前面。此時(shí),認(rèn) 為源語言搭配詞對“人們”與“發(fā)展”的調(diào)序方向?yàn)椤皊traight”,即源語言搭配詞在源語言 例句中的順序與對應(yīng)譯文在目標(biāo)語言例句中的順序相同。同理,“將來”與“發(fā)展”的調(diào)序 方向也是“straight”。進(jìn)一步,在源語言例句中,源語言搭配詞“與”位于“息息相關(guān)”的前 面,而在目標(biāo)語言例句中,“與”的對應(yīng)譯文“to”位于“息息相關(guān)”的對應(yīng)譯文“is closely related”的后面,則認(rèn)為源語言搭配詞對“與”與“息息相關(guān)”的調(diào)序方向是“inverted”, 即源語言搭配詞在源語言例句中的順序與對應(yīng)譯文在目標(biāo)語言例句中的順序相反。在步驟S105中,對上述調(diào)序方向進(jìn)行統(tǒng)計(jì),獲取每一調(diào)序方向的調(diào)序概率,以形 成調(diào)序模型。具體來說,每一源語言搭配詞對Wi和%的調(diào)序方向的調(diào)序概率為
權(quán)利要求
1.一種用于機(jī)器翻譯的調(diào)序模型的生成方法,其特征在于,所述生成方法包括以下步驟a.獲取雙語語料庫,所述雙語語料庫包括多個(gè)雙語例句對,每一所述雙語例句對包括 源語言例句以及與所述源語言例句對應(yīng)的目標(biāo)語言例句;b.對所述源語言例句進(jìn)行搭配抽取,以獲取源語言搭配詞對,每一所述源語言搭配詞 對包括兩個(gè)具有搭配關(guān)系的源語言搭配詞;c.對所述源語言例句以及所述目標(biāo)語言例句進(jìn)行雙語詞對齊,并根據(jù)雙語詞對齊結(jié)果 確定所述源語言搭配詞的對應(yīng)譯文;d.根據(jù)所述源語言搭配詞在所述源語言例句中的順序以及所述對應(yīng)譯文在所述目標(biāo) 語言例句的順序確定所述源語言搭配詞對的調(diào)序方向;e.對所述調(diào)序方向進(jìn)行統(tǒng)計(jì),獲取每一所述調(diào)序方向的調(diào)序概率,以形成調(diào)序模型。
2.如權(quán)利要求1所述的調(diào)序模型的生成方法,其特征在于,所述步驟b進(jìn)一步包括 bl.對所述源語言例句進(jìn)行復(fù)制,以形成包括兩個(gè)所述源語言例句的源語言例句對; b2.對所述源語言例句對進(jìn)行單語詞對齊,并根據(jù)單語詞對齊結(jié)果獲得一組源語言對齊詞對,每一所述源語言對齊詞對包括兩個(gè)具有對齊關(guān)系的源語言對齊詞; b3.從所述源語言對齊詞對中選擇所述源語言搭配詞對。
3.如權(quán)利要求2所述的調(diào)序模型的生成方法,其特征在于,在所述步驟1^2中,利用單語 詞對齊模型對所述源語言例句對進(jìn)行單語詞對齊。
4.如權(quán)利要求2所述的調(diào)序模型的生成方法,其特征在于,在所述步驟b3中,過濾掉對 齊頻率小于第一閾值的所述源語言對齊詞對。
5.如權(quán)利要求2所述的調(diào)序模型的生成方法,其特征在于,在所述步驟b3中,基于所述 源語言對齊詞對的對齊頻率計(jì)算所述源語言對齊詞對的對齊概率,根據(jù)所述對齊概率計(jì)算 所述源語言對齊詞對的搭配概率,并選擇搭配概率大于第二閾值的所述源語言對齊詞對作 為所述源語言搭配詞對。
6.如權(quán)利要求1所述的調(diào)序模型的生成方法,其特征在于,在所述步驟c中,利用雙語 詞對齊模型對所述源語言例句以及所述目標(biāo)語言例句進(jìn)行雙語詞對齊。
7.如權(quán)利要求1所述的調(diào)序模型的生成方法,其特征在于,所述調(diào)序方向包括所述源 語言搭配詞在所述源語言例句中的順序與所述對應(yīng)譯文在所述目標(biāo)語言例句中的順序相 同以及所述源語言搭配詞在所述源語言例句中的順序與所述對應(yīng)譯文在所述目標(biāo)語言例 句中的順序相反。
8.一種用于機(jī)器翻譯的調(diào)序模型的生成裝置,其特征在于,所述生成裝置包括 雙語語料獲取單元,用于獲取雙語語料庫,所述雙語語料庫包括多個(gè)雙語例句對,每一所述雙語例句對包括源語言例句以及與所述源語言例句對應(yīng)的目標(biāo)語言例句;搭配抽取單元,用于對所述源語言例句進(jìn)行搭配抽取,以獲取源語言搭配詞對,每一所 述源語言搭配詞對包括兩個(gè)具有搭配關(guān)系的源語言搭配詞;雙語詞對齊單元,用于對所述源語言例句以及所述目標(biāo)語言例句進(jìn)行雙語詞對齊,并 根據(jù)雙語詞對齊結(jié)果確定所述源語言搭配詞的對應(yīng)譯文;調(diào)序方向確定單元,用于根據(jù)所述源語言搭配詞在所述源語言例句中的順序以及所述 對應(yīng)譯文在所述目標(biāo)語言例句的順序確定所述源語言搭配詞對的調(diào)序方向;調(diào)序模型生成單元,用于對所述調(diào)序方向進(jìn)行統(tǒng)計(jì),獲取每一所述調(diào)序方向的調(diào)序概 率,以形成調(diào)序模型。
9.如權(quán)利要求8所述的調(diào)序模型的生成裝置,其特征在于,所述搭配抽取單元進(jìn)一步 包括源語言例句對形成單元,用于對所述源語言例句進(jìn)行復(fù)制,以形成包括兩個(gè)所述源語 言例句的源語言例句對;單語詞對齊單元,用于對所述源語言例句對進(jìn)行單語詞對齊,并根據(jù)單語詞對齊結(jié)果 獲得一組源語言對齊詞對,每一所述源語言對齊詞對包括兩個(gè)具有對齊關(guān)系的源語言對齊 詞;源語言搭配詞對選擇單元,從所述源語言對齊詞對中選擇所述源語言搭配詞對。
10.如權(quán)利要求9所述的調(diào)序模型的生成裝置,其特征在于,所述單語詞對齊單元利用 單語詞對齊模型對所述源語言例句對進(jìn)行單語詞對齊。
11.如權(quán)利要求9所述的調(diào)序模型的生成裝置,其特征在于,所述源語言搭配詞對選擇 單元過濾掉對齊頻率小于第一閾值的所述源語言對齊詞對。
12.如權(quán)利要求9所述的調(diào)序模型的生成裝置,其特征在于,所述源語言搭配詞對選擇 單元基于所述源語言對齊詞對的對齊頻率計(jì)算所述源語言對齊詞對的對齊概率,根據(jù)所述 對齊概率計(jì)算所述源語言對齊詞對的搭配概率,并選擇搭配概率大于第二閾值的所述源語 言對齊詞對作為所述源語言搭配詞對。
13.如權(quán)利要求8所述的調(diào)序模型的生成裝置,其特征在于,所述雙語詞對齊單元利用 雙語詞對齊模型對所述源語言例句以及所述目標(biāo)語言例句進(jìn)行雙語詞對齊。
14.如權(quán)利要求8所述的調(diào)序模型的生成裝置,其特征在于,所述調(diào)序方向包括所述源 語言搭配詞在所述源語言例句中的順序與所述對應(yīng)譯文在所述目標(biāo)語言例句中的順序相 同以及所述源語言搭配詞在所述源語言例句中的順序與所述對應(yīng)譯文在所述目標(biāo)語言例 句中的順序相反。
全文摘要
本發(fā)明提供了一種用于機(jī)器翻譯的調(diào)序模型的生成方法,包括獲取雙語語料庫;對雙語語料庫中的源語言例句進(jìn)行搭配抽取,以獲取源語言搭配詞對;對源語言例句以及目標(biāo)語言例句進(jìn)行雙語詞對齊,并根據(jù)雙語詞對齊結(jié)果確定源語言搭配詞的對應(yīng)譯文;根據(jù)源語言搭配詞在源語言例句中的順序以及對應(yīng)譯文在目標(biāo)語言例句的順序確定源語言搭配詞對的調(diào)序方向;對調(diào)序方向進(jìn)行統(tǒng)計(jì),獲取每一調(diào)序方向的調(diào)序概率,以形成調(diào)序模型。通過上述方式,基于源語言的詞與詞之間的搭配信息建立調(diào)序模型,進(jìn)而提高調(diào)序模型的調(diào)序能力。
文檔編號G06F17/28GK102053959SQ20101060003
公開日2011年5月11日 申請日期2010年12月13日 優(yōu)先權(quán)日2010年12月13日
發(fā)明者吳華, 王海峰, 胡曉光 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
鄢陵县| 隆化县| 皮山县| 太仆寺旗| 巴彦淖尔市| 凌云县| 宝坻区| 东台市| 德钦县| 松江区| 光山县| 花垣县| 大连市| 尼木县| 黑龙江省| 江达县| 巨野县| 奉化市| 瓦房店市| 衡阳市| 长宁区| 福清市| 福州市| 广丰县| 浦城县| 宜兰县| 奉节县| 昔阳县| 襄樊市| 福建省| 桑植县| 建德市| 云和县| 犍为县| 大关县| 横山县| 兰溪市| 襄樊市| 乐平市| 饶阳县| 梧州市|