專利名稱:獲取語(yǔ)料的方法及裝置、生成翻譯模型的方法及系統(tǒng)、機(jī)器翻譯的方法及系統(tǒng)的制作方法
獲取語(yǔ)料的方法及裝置、生成翻譯模型的方法及系統(tǒng)、機(jī)器翻譯的方法及系統(tǒng)技術(shù)領(lǐng)域:
本發(fā)明涉及機(jī)器翻譯領(lǐng)域,特別涉及一種獲取語(yǔ)料的方法及裝置、生成翻譯模型的方法及系統(tǒng)、機(jī)器翻譯的方法及系統(tǒng)。背景技術(shù):
在機(jī)器翻譯中,使用的翻譯模型對(duì)翻譯質(zhì)量有很大的影響,現(xiàn)有的機(jī)器翻譯方法中,不對(duì)待翻譯文本的類型進(jìn)行區(qū)分,而采用相同的翻譯模型對(duì)各種類型的文本進(jìn)行翻譯, 這會(huì)導(dǎo)致針對(duì)不同類型的文本,翻譯結(jié)果的質(zhì)量出現(xiàn)較大差異的現(xiàn)象。
例如英語(yǔ)中的“bank” 一詞,在經(jīng)濟(jì)、金融領(lǐng)域的上下文中,應(yīng)該翻譯成“銀行”,而在地理領(lǐng)域的上下文中,則應(yīng)該翻譯為“河岸”。如果對(duì)這些情況不做區(qū)分,而采用同一種翻譯模型進(jìn)行翻譯,就會(huì)降低翻譯的質(zhì)量。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種獲取語(yǔ)料的方法及裝置、生成翻譯模型的方法及系統(tǒng)、機(jī)器翻譯的方法及系統(tǒng),以解決現(xiàn)有技術(shù)在對(duì)不同領(lǐng)域的文本進(jìn)行翻譯時(shí),翻譯精度不夠高的缺陷。
本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種獲取語(yǔ)料的方法,包括將雙語(yǔ)語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將所述雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料;從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料;采用聚類的方法, 將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類;利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練分類模型;使用訓(xùn)練后的分類模型對(duì)所述雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分類,以確定所述短語(yǔ)料所屬領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述短語(yǔ)料為所述雙語(yǔ)語(yǔ)料中除所述長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述聚類的方法為潛在概率語(yǔ)義分析方法。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí)采用的聚類特征包括對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行分詞后,各個(gè)詞語(yǔ)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各互譯詞對(duì)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述分類模型包括貝葉斯模型、支持向量機(jī)模型、K 近鄰分類模型或最大熵模型。
本發(fā)明還提供了一種生成翻譯模型的方法,包括采用上述獲取語(yǔ)料的方法獲取各領(lǐng)域的訓(xùn)練語(yǔ)料;使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模型進(jìn)行訓(xùn)練得到各領(lǐng)域翻譯模型。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括將各領(lǐng)域的訓(xùn)練語(yǔ)料合并后對(duì)翻譯模型進(jìn)行訓(xùn)練得到通用翻譯模型。
本發(fā)明還提供了一種機(jī)器翻譯方法,包括:A.使用第一分類模型對(duì)待翻譯文本進(jìn)行分類,以確定所述待翻譯文本所屬領(lǐng)域,其中所述第一分類模型`由各領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到;B.利用與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型對(duì)所述待翻譯文本進(jìn)行 翻譯,其中所述領(lǐng)域翻譯模型由對(duì)應(yīng)領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第一分類模型包括貝葉斯模型、支持向量機(jī)模 型、K近鄰分類模型或最大熵模型。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟A進(jìn)一步包括確定所述待翻譯文本歸屬于 所述待翻譯文本所屬領(lǐng)域的概率并判斷該概率是否高于設(shè)定的第一閾值,如果是,則所述 步驟B中,將與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型與通用翻譯模型融合后對(duì)所 述待翻譯文本進(jìn)行翻譯,其中所述通用翻譯模型由各領(lǐng)域的訓(xùn)練語(yǔ)料合并后訓(xùn)練得到。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,各領(lǐng)域的訓(xùn)練語(yǔ)料是采用下列方式得到的將雙語(yǔ) 語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將所述雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料; 從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定的第二閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料;采用聚類的方 法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類;利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練第二分類模型; 使用訓(xùn)練后的第二分類模型對(duì)所述雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分類,以確定所述短語(yǔ)料所屬 領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所 述短語(yǔ)料為所述雙語(yǔ)語(yǔ)料中除所述長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述聚類的方法為潛在概率語(yǔ)義分析方法。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí)采用的聚類特征包括對(duì) 所述長(zhǎng)語(yǔ)料進(jìn)行分詞后,各個(gè)詞語(yǔ)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各互譯詞對(duì)在所述長(zhǎng)語(yǔ)料 中出現(xiàn)的次數(shù)。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第二分類模型包括貝葉斯模型、支持向量機(jī)模 型、K近鄰分類模型或最大熵模型。
本發(fā)明還提供了一種獲取語(yǔ)料的裝置,包括歸并單元,用于將雙語(yǔ)語(yǔ)料中來(lái)自相 同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將所述雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料;選取單元,用于 從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料;聚類單元,用于采用聚 類的方法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類;訓(xùn)練單元,用于利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料 訓(xùn)練分類模型;分類單元,用于使用訓(xùn)練后的分類模型對(duì)所述雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分 類,以確定所述短語(yǔ)料所屬領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到 各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述短語(yǔ)料為所述雙語(yǔ)語(yǔ)料中除所述長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述聚類單元采用潛在概率語(yǔ)義分析方法對(duì)所述長(zhǎng) 語(yǔ)料進(jìn)行聚類。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述聚類單元對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí)采用的聚類 特征包括對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行分詞后,各個(gè)詞語(yǔ)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各互譯詞對(duì) 在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述分類模型包括貝葉斯模型、支持向量機(jī)模型、K 近鄰分類模型或最大熵模型。
本發(fā)明還提供了一種生成翻譯模型的系統(tǒng),包括上文所述的獲取語(yǔ)料的裝置,用 于獲取各領(lǐng)域的訓(xùn)練語(yǔ)料;以及,領(lǐng)域模型生成模塊,用于使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模 型進(jìn)行訓(xùn)練得到各領(lǐng)域翻譯模型。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述系統(tǒng)進(jìn)一步包括通用模型生成模塊,用于將各領(lǐng)域的訓(xùn)練語(yǔ)料合并后對(duì)翻譯模型進(jìn)行訓(xùn)練得到通用翻譯模型。
本發(fā)明還提供了一種機(jī)器翻譯系統(tǒng),包括分類模塊,用于使用第一分類模型對(duì)待翻譯文本進(jìn)行分類,以確定所述待翻譯文本所屬領(lǐng)域,其中所述第一分類模型由各領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到;翻譯模塊,用于利用與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型對(duì)所述待翻譯文本進(jìn)行翻譯,其中所述領(lǐng)域翻譯模型由對(duì)應(yīng)領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第一分類模型包括貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述分類模塊進(jìn)一步用于確定所述待翻譯文本歸屬于所述待翻譯文本所屬領(lǐng)域的概率并判斷該概率是否高于設(shè)定的第一閾值,如果是,則所述翻譯模塊將與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型與通用翻譯模型融合后對(duì)所述待翻譯文本進(jìn)行翻譯,其中所述通用翻譯模型由各領(lǐng)域的訓(xùn)練語(yǔ)料合并后訓(xùn)練得到。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述系統(tǒng)進(jìn)一步包括語(yǔ)料獲取模塊,用于得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述語(yǔ)料獲取模塊包括歸并單元,用于將雙語(yǔ)語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將所述雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料;選取單元,用于從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定的第二閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料;聚類單元,用于采用聚類的方法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類;訓(xùn)練單元,用于利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練第二分類模型;分類單元,用于使用訓(xùn)練后的第二分類模型對(duì)所述雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分類,以確定所述短語(yǔ)料所屬領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述短語(yǔ)料為所述雙語(yǔ)語(yǔ)料中除所述長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述聚類單元采用潛在概率語(yǔ)義分析方法對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述聚類單元對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí)采用的聚類特征包括對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行分詞后,各個(gè)詞語(yǔ)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各互譯詞對(duì)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第二分類模型包括貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型。
由以上技術(shù)方案可以看出,通過采用不同領(lǐng)域的翻譯模型對(duì)待翻譯文本進(jìn)行翻譯,可以有效提高翻譯的精度,同時(shí)通過對(duì)含有更多信息量的長(zhǎng)語(yǔ)料進(jìn)行聚類,通過聚類結(jié)果指導(dǎo)短語(yǔ)料進(jìn)行分類,可以有效地將語(yǔ)料劃分到各個(gè)不同領(lǐng)域,用以訓(xùn)練各個(gè)領(lǐng)域翻譯模型,從而提高翻譯模型的有效性。
圖1為本發(fā)明中機(jī)器翻譯系統(tǒng)的實(shí)施例的結(jié)構(gòu)示意框圖2為本發(fā)明中機(jī)器翻譯方法的實(shí)施例一的流程示意圖3為本發(fā)明中獲取語(yǔ)料的方法的實(shí)施例的流程示意 圖4為本發(fā)明中機(jī)器翻譯方法的實(shí)施例二的流程示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì) 本發(fā)明進(jìn)行詳細(xì)描述。
請(qǐng)參考圖1,圖1為本發(fā)明中機(jī)器翻譯系統(tǒng)的實(shí)施例的結(jié)構(gòu)示意框圖。如圖1所 示,機(jī)器翻譯系統(tǒng)包括分類模塊101、翻譯模塊102、訓(xùn)練模塊103、模型生成模塊104和語(yǔ) 料獲取模塊105。
其中語(yǔ)料獲取模塊105,用于獲取各領(lǐng)域的訓(xùn)練語(yǔ)料,以供其他模塊使用。
語(yǔ)料獲取模塊105包括歸并單元1051、選取單元1052、聚類單元1053、訓(xùn)練單元 1054和分類單元1055。
其中歸并單元1051,用于將雙語(yǔ)語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而 將雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料。
雙語(yǔ)語(yǔ)料由雙語(yǔ)句對(duì)構(gòu)成,可通過互聯(lián)網(wǎng)進(jìn)行挖掘。在本實(shí)施例中,雙語(yǔ)語(yǔ)料進(jìn)行 了歸并處理,歸并的策略為將相同頁(yè)面,即URL(Uniform/Universal Resource Locator) 地址相同的頁(yè)面上挖掘到的雙語(yǔ)句對(duì)歸并為一組。這樣,雙語(yǔ)語(yǔ)料就可以劃分為多個(gè)歸并 語(yǔ)料,每個(gè)歸并語(yǔ)料由來(lái)自同一頁(yè)面的雙語(yǔ)句對(duì)組成。由于來(lái)自于相同頁(yè)面的雙語(yǔ)句對(duì)通 常有相同的主題,因此,對(duì)雙語(yǔ)語(yǔ)料進(jìn)行歸并處理,有助于后續(xù)進(jìn)行聚類時(shí),提高聚類的精 度。
選取單元1052,用于從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定閾值的歸并語(yǔ)料組成長(zhǎng) 語(yǔ)料,以供聚類單元1053使用。
由于從每個(gè)頁(yè)面挖掘到的雙語(yǔ)句對(duì)的數(shù)量不同,有的頁(yè)面挖掘到的雙語(yǔ)句對(duì)可能 數(shù)量很少,如果直接采用這樣的語(yǔ)料進(jìn)行聚類處理,會(huì)影響聚類的精度。設(shè)定閾值是為了對(duì) 歸并語(yǔ)料的長(zhǎng)度進(jìn)行區(qū)分,將較長(zhǎng)的歸并語(yǔ)料提取出來(lái)組成長(zhǎng)語(yǔ)料用于聚類處理。通過設(shè) 定的閾值,可以控制參與聚類的長(zhǎng)語(yǔ)料的數(shù)量,從而控制聚類的精度。
聚類單元1053,用于采用聚類的方法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類。聚類后各領(lǐng) 域的長(zhǎng)語(yǔ)料,可用于后續(xù)訓(xùn)練第二分類模型使用。
聚類的目的是為了將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類,在本實(shí)施例中可采用潛在概率 語(yǔ)義分析(probabilistic Latent semantic alnalysis, PLSA)方法對(duì)長(zhǎng)語(yǔ)料進(jìn)行聚類。 由于該方法屬于現(xiàn)有技術(shù),在此不再做具體介紹,除此之外,本發(fā)明并不限定具體的聚類方 法,采用其他的聚類方法并不影響本發(fā)明的實(shí)施。
在本實(shí)施例中,對(duì)長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí),可采用下列特征對(duì)長(zhǎng)語(yǔ)料進(jìn)行分詞后,各 個(gè)詞語(yǔ)在長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各個(gè)互譯詞對(duì)在長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
例如下面的一對(duì)雙語(yǔ)句對(duì)
句1:cl c2 c3......cn
句2 :el e2 e3......em
其中cl至cn、el至em分別為句I和句2中的各個(gè)詞語(yǔ),假設(shè)(cl, el)構(gòu)成了互 譯詞對(duì),則在步驟102中可采用的聚類特征,包括cl、el在長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù),以及(Cl, el)在長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
將互譯詞對(duì)作為聚類時(shí)考慮的特征,使得雙語(yǔ)句對(duì)的特征性更加明顯,可以有效 提高聚類的效果。
訓(xùn)練單元1054,用于利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練第二分類模型。
在本實(shí)施例中,對(duì)第二分類模型的具體類型不做限制,可采用本領(lǐng)域技術(shù)人員熟 知的任意分類模型,例如貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型等坐 寸ο
通過機(jī)器學(xué)習(xí)的方法,給定已知各個(gè)類別的語(yǔ)料,則可以用這些語(yǔ)料訓(xùn)練出可以 對(duì)未知類別的語(yǔ)料進(jìn)行分類的第二分類模型,隨后,該第二分類模型可用于對(duì)未知類別的 語(yǔ)料進(jìn)行分類。具體的訓(xùn)練過程由采用的分類模型的算法決定,由于各種分類模型,如貝葉 斯模型、支持向量機(jī)模型或K近鄰分類模型等分類模型的算法都屬于現(xiàn)有技術(shù),在此不再 做過多介紹。
分類單元1055,用于使用訓(xùn)練后的第二分類模型對(duì)雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分 類,以確定短語(yǔ)料所屬領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng) 域的訓(xùn)練語(yǔ)料,其中短語(yǔ)料為雙語(yǔ)語(yǔ)料中除長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
分類單元1055得到的各領(lǐng)域的訓(xùn)練語(yǔ)料,可供本系統(tǒng)的訓(xùn)練模塊103和模型生成 模塊104使用。
訓(xùn)練模塊103,用于使用各領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練第一分類模型。第一分類模型隨后 可供分類模塊101使用。
本發(fā)明中同樣不限制第一分類模型的類型,第一分類模型包括本領(lǐng)域技術(shù)人員熟 知的貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型等現(xiàn)有的分類模型。訓(xùn) 練第一分類模型的過程也與訓(xùn)練第二分類模型的過程類似,在此不再做過多介紹。
模型生成模塊104,用于使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模型進(jìn)行訓(xùn)練以得到各領(lǐng) 域翻譯模型,以及,將各領(lǐng)域的訓(xùn)練語(yǔ)料合并后對(duì)翻譯模型進(jìn)行訓(xùn)練以得到通用翻譯模型。
使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模型進(jìn)行訓(xùn)練就是用各個(gè)領(lǐng)域的訓(xùn)練語(yǔ)料分別訓(xùn) 練一個(gè)翻譯模型,從而得到體現(xiàn)領(lǐng)域翻譯偏好的各個(gè)領(lǐng)域翻譯模型。而用已有語(yǔ)料訓(xùn)練翻 譯模型屬于統(tǒng)計(jì)機(jī)器翻譯中的現(xiàn)有技術(shù),在此不做進(jìn)一步的介紹。
各個(gè)領(lǐng)域翻譯模型與通用翻譯模型,可提供給翻譯模塊102在對(duì)待翻譯文本進(jìn)行 翻譯時(shí)使用。
分類模塊101,用于使用訓(xùn)練好的第一分類模型對(duì)待翻譯文本進(jìn)行分類,以確定待 翻譯文本所屬領(lǐng)域。
采用第一分類模型對(duì)待翻譯文本進(jìn)行分類時(shí),由第一分類模型還可以算出待翻譯 文本歸屬于其所屬領(lǐng)域的概率。例如貝葉斯模型,其基于貝葉斯定理,可以用來(lái)預(yù)測(cè)類成員 關(guān)系的可能性,給出文本屬于某特定類別的概率。待翻譯文本歸屬于其所屬領(lǐng)域的概率,可 幫助翻譯模塊102對(duì)待翻譯文本進(jìn)行翻譯時(shí),選擇最終的一個(gè)或多個(gè)翻譯模型。
翻譯模塊102,用于利用與待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型對(duì)待翻譯文 本進(jìn)行翻譯。
如上文所述的,分類模塊101,還可用于確定待翻譯文本歸屬于其所屬領(lǐng)域的概 率,并判斷該概率是否高于設(shè)定閾值,如果是,則翻譯模塊102可以使用與待翻譯文本所屬 領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型對(duì)待翻譯文本進(jìn)行翻譯,作為優(yōu)選的,當(dāng)待翻譯文本歸屬于其所 屬領(lǐng)域的概率高于設(shè)定閾值時(shí),將與待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型與通用翻譯 模型融合后對(duì)待翻譯文本進(jìn)行翻譯。另外,當(dāng)該概率值較低時(shí),也可僅采用通用翻譯模型對(duì) 待翻譯文本進(jìn)行翻譯。
例如待翻譯文本為Uponcompletion of the payment PARTY A shall cause issuing bank to deliver the original hard copy of BG by bonded bank courier to PARTY B bank within 7 banking days.
對(duì)上述待翻譯文本,分類模塊101使用第一分類模型確定其分到金融領(lǐng)域的概率 高于設(shè)定的閾值,則說(shuō)明該文本很可能具有金融領(lǐng)域的翻譯偏好,可采用金融領(lǐng)域的領(lǐng)域 翻譯模型與通用翻譯模型融合的結(jié)果對(duì)待翻譯文本進(jìn)行翻譯。
模型融合可通過模型插值來(lái)實(shí)現(xiàn),本發(fā)明不限定模型融合的實(shí)施方式,現(xiàn)有的各 種模型融合算法,都可以應(yīng)用到本發(fā)明上。
在本發(fā)明的其他實(shí)施例中,各領(lǐng)域的訓(xùn)練語(yǔ)料,也可以不通過上述實(shí)施例中采用 的方式得到,例如通過大量人工標(biāo)注,或者通過從互聯(lián)網(wǎng)的分類信息上抓取,或者將所有的 雙語(yǔ)語(yǔ)料進(jìn)行一次聚類實(shí)現(xiàn),都不影響本發(fā)明的實(shí)施。
應(yīng)該理解,本實(shí)施例中獲取第一分類模型以及各領(lǐng)域翻譯模型和通用翻譯模型的 方式僅為實(shí)現(xiàn)本發(fā)明的翻譯方法的一種實(shí)施方式,本發(fā)明并不限制通過其他方式獲取第一 分類模型以及各領(lǐng)域翻譯模型和通用翻譯模型,例如接收一個(gè)現(xiàn)有的分類模型作為第一分 類模型,以及現(xiàn)有的翻譯模型作為各領(lǐng)域翻譯模型和通用翻譯模型。
請(qǐng)參考圖2,圖2為本發(fā)明中機(jī)器翻譯的方法的實(shí)施例一的流程示意圖。如圖2所 示,機(jī)器翻譯的方法包括
步驟SlOl :獲取各領(lǐng)域的訓(xùn)練語(yǔ)料;
步驟S102 :使用各領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練第一分類模型;
步驟S103 :使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模型進(jìn)行訓(xùn)練以得到各領(lǐng)域翻譯模型;
步驟S104 :使用訓(xùn)練后的第一分類模型對(duì)待翻譯文本進(jìn)行分類,以確定待翻譯文 本所屬領(lǐng)域;
步驟S105 :使用與待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型對(duì)待翻譯文本進(jìn)行 翻譯。
其中步驟SlOl的具體實(shí)施方式
請(qǐng)參考圖3。圖3為本發(fā)明中獲取語(yǔ)料的方法的實(shí) 施例的流程示意圖。如圖3所示,獲取各領(lǐng)域訓(xùn)練語(yǔ)料的方法包括
步驟S201 :將雙語(yǔ)語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將雙語(yǔ)語(yǔ)料 劃分為多個(gè)歸并語(yǔ)料。
步驟S201 :從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料。
步驟S202 :采用聚類的方法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類。
步驟S203 :利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練第二分類模型。
步驟S204 :使用訓(xùn)練后的第二分類模型對(duì)雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分類,并將各 領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng)域的子語(yǔ)料。
雙語(yǔ)語(yǔ)料由雙語(yǔ)句對(duì)構(gòu)成,可通過互聯(lián)網(wǎng)進(jìn)行挖掘。在本實(shí)施例中,雙語(yǔ)語(yǔ)料進(jìn)行 了歸并處理,歸并的策略為將相同頁(yè)面,即URL(Uniform/Universal Resource Locator) 地址相同的頁(yè)面上挖掘到的雙語(yǔ)句對(duì)歸并為一組。這樣,雙語(yǔ)語(yǔ)料就可以劃分為多個(gè)歸并 語(yǔ)料,每個(gè)歸并語(yǔ)料由來(lái)自同一頁(yè)面的雙語(yǔ)句對(duì)組成。由于來(lái)自于相同頁(yè)面的雙語(yǔ)句對(duì)通 常有相同的主題,因此,對(duì)雙語(yǔ)語(yǔ)料進(jìn)行歸并處理,有助于后續(xù)進(jìn)行聚類時(shí),提高聚類的精 度。由于從每個(gè)頁(yè)面挖掘到的雙語(yǔ)句對(duì)的數(shù)量不同,有的頁(yè)面挖掘到的雙語(yǔ)句對(duì)可能數(shù)量很少,如果直接采用這樣的語(yǔ)料進(jìn)行聚類處理,會(huì)影響聚類的精度。設(shè)定閾值是為了對(duì)歸并 語(yǔ)料的長(zhǎng)度進(jìn)行區(qū)分,將較長(zhǎng)的歸并語(yǔ)料提取出來(lái)組成長(zhǎng)語(yǔ)料用于聚類處理。通過設(shè)定的 閾值,可以控制參與聚類的長(zhǎng)語(yǔ)料的數(shù)量,從而控制聚類的精度。
聚類的目的是為了將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類,在本實(shí)施例中可采用潛在概率 語(yǔ)義分析(probabilistic Latent semantic alnalysis, PLSA)方法對(duì)長(zhǎng)語(yǔ)料進(jìn)行聚類。 由于該方法屬于現(xiàn)有技術(shù),在此不再做具體介紹,除此之外,本發(fā)明并不限定具體的聚類方 法,采用其他的聚類方法并不影響本發(fā)明的實(shí)施。
在本實(shí)施例中,對(duì)長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí),可采用下列特征對(duì)長(zhǎng)語(yǔ)料進(jìn)行分詞后,各 個(gè)詞語(yǔ)在長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各個(gè)互譯詞對(duì)在長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
例如下面的一對(duì)雙語(yǔ)句對(duì)
句1:cl c2 c3......cn
句2 :el e2 e3......em
其中cl至cn、el至em分別為句I和句2中的各個(gè)詞語(yǔ),假設(shè)(cl, el)構(gòu)成了互 譯詞對(duì),則在步驟102中可采用的聚類特征,包括cl、el在長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù),以及(Cl, el)在長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
將互譯詞對(duì)作為聚類時(shí)考慮的特征,使得雙語(yǔ)句對(duì)的特征性更加明顯,可以有效 提高聚類的效果。
在本實(shí)施例中,對(duì)第二分類模型的具體類型不做限制,可采用本領(lǐng)域技術(shù)人員熟 知的任意分類模型,例如貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型等坐 寸O
通過機(jī)器學(xué)習(xí)的方法,給定已知各個(gè)類別的語(yǔ)料,則可以用這些語(yǔ)料訓(xùn)練出可以 對(duì)未知類別的語(yǔ)料進(jìn)行分類的第二分類模型,隨后,該第二分類模型可用于對(duì)未知類別的 語(yǔ)料進(jìn)行分類。具體的訓(xùn)練過程由采用的分類模型的算法決定,由于各種分類模型,如貝葉 斯模型、支持向量機(jī)模型或K近鄰分類模型等分類模型的算法都屬于現(xiàn)有技術(shù),在此不再 做過多介紹。
請(qǐng)繼續(xù)參考圖2。
第一分類模型與第二分類模型類似,在本實(shí)施例中,對(duì)第二分類模型的具體類型 也不做限制,可采用本領(lǐng)域技術(shù)人員熟知的任意分類模型,例如貝葉斯模型、支持向量機(jī) 模型、K近鄰分類模型或最大熵模型等等。
使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模型進(jìn)行訓(xùn)練就是用各個(gè)領(lǐng)域的訓(xùn)練語(yǔ)料分別訓(xùn) 練一個(gè)翻譯模型,從而得到體現(xiàn)領(lǐng)域翻譯偏好的各個(gè)領(lǐng)域翻譯模型。而用已有語(yǔ)料訓(xùn)練翻 譯模型屬于統(tǒng)計(jì)機(jī)器翻譯中的現(xiàn)有技術(shù),在此不做進(jìn)一步的介紹。
在本發(fā)明的機(jī)器翻譯方法中,圖2所示的步驟執(zhí)行順序可進(jìn)行各種符合邏輯的組 合,既可以如圖2所示的方式,從SlOl順序執(zhí)行到S105,也可以按照下列方式執(zhí)行
S101-S103-S102-S104-S105,或者 S101-S102-S104-S103-S105。
應(yīng)該理解,在本實(shí)施例中,步驟SlOl至步驟S103為獲得第一分類模型及各領(lǐng)域翻 譯模型的實(shí)施方式,但是本發(fā)明并不限于這種實(shí)施方式,實(shí)際上,第一分類模型與各領(lǐng)域翻 譯模型,也可以是從其他地方獲取得到的現(xiàn)有模型。
請(qǐng)參考圖4,圖4為本發(fā)明中機(jī)器翻譯的方法的實(shí)施例二的流程示意圖。如圖4所示,機(jī)器翻譯的方法包括
步驟S301 :獲取各領(lǐng)域的訓(xùn)練語(yǔ)料;
步驟S302 :使用各領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練第一分類模型;
步驟S303 :使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模型進(jìn)行訓(xùn)練以得到各領(lǐng)域翻譯模型, 以及,將各領(lǐng)域的訓(xùn)練語(yǔ)料合并后對(duì)翻譯模型進(jìn)行訓(xùn)練以得到通用翻譯模型;
步驟S304 :使用訓(xùn)練后的第一分類模型對(duì)待翻譯文本進(jìn)行分類,以確定待翻譯文 本所屬領(lǐng)域,并且確定待翻譯文本歸屬于其所屬領(lǐng)域的概率并判斷該概率是否低于設(shè)定的 閾值;
步驟S305 :如果待翻譯文本歸屬于其所述領(lǐng)域的概率高于設(shè)定的閾值,則將與待 翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型與通用翻譯模型融合后對(duì)待翻譯文本進(jìn)行翻譯。
采用第一分類模型對(duì)待翻譯文本進(jìn)行分類時(shí),由第一分類模型還可以算出待翻譯 文本歸屬于其所屬領(lǐng)域的概率。例如貝葉斯模型,其基于貝葉斯定理,可以用來(lái)預(yù)測(cè)類成員 關(guān)系的可能性,給出文本屬于某特定類別的概率。該概率有助于選擇最終的一個(gè)或多個(gè)翻 譯模型。
例如待翻譯文本為Uponcompletion of the payment PARTY A shall cause issuing bank to deliver the original hard copy of BG by bonded bank courier to PARTY B bank within 7 banking days.
對(duì)上述待翻譯文本,如果使用第一分類模型確定其分到金融領(lǐng)域的概率高于設(shè)定 的閾值,則說(shuō)明該文本很可能具有金融領(lǐng)域的翻譯偏好,可采用金融領(lǐng)域的領(lǐng)域翻譯模型 與通用翻譯模型融合的結(jié)果對(duì)待翻譯文本進(jìn)行翻譯。
如果待翻譯文本歸屬于其所述領(lǐng)域的概率很低,也可以僅采用通用翻譯模型對(duì)其 進(jìn)行翻譯。
模型融合可通過模型插值來(lái)實(shí)現(xiàn),本發(fā)明不限定模型融合的實(shí)施方式,現(xiàn)有的各 種模型融合算法,都可以應(yīng)用到本發(fā)明上。
與實(shí)施例一類似的,應(yīng)該理解,圖4所示的執(zhí)行步驟也可以在本領(lǐng)域技術(shù)人員認(rèn) 為合理的情況下進(jìn)行組合。例如以下面的順序執(zhí)行S301-S303-S302-S304-S305,或者 S301-S302-S304-S303-S305。
同樣,應(yīng)該理解,在本實(shí)施例中,步驟S301至步驟S303為獲得第一分類模型以及 各領(lǐng)域翻譯模型和通用翻譯模型的實(shí)施方式,但是本發(fā)明并不限于這種實(shí)施方式,實(shí)際上, 第一分類模型以及各領(lǐng)域翻譯模型和通用翻譯模型,也可以是從其他地方獲取得到的現(xiàn)有 模型。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種獲取語(yǔ)料的方法,其特征在于,所述方法包括 將雙語(yǔ)語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將所述雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料; 從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料; 采用聚類的方法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類; 利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練分類模型; 使用訓(xùn)練后的分類模型對(duì)所述雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分類,以確定所述短語(yǔ)料所屬領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述短語(yǔ)料為所述雙語(yǔ)語(yǔ)料中除所述長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述聚類的方法為潛在概率語(yǔ)義分析方法。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí)采用的聚類特征包括對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行分詞后,各個(gè)詞語(yǔ)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各互譯詞對(duì)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分類模型包括貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型。
5.一種生成翻譯模型的方法,其特征在于,所述方法包括 采用權(quán)利要求1至4中任一權(quán)項(xiàng)所述方法獲取各領(lǐng)域的訓(xùn)練語(yǔ)料; 使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模型進(jìn)行訓(xùn)練得到各領(lǐng)域翻譯模型。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法進(jìn)一步包括 將各領(lǐng)域的訓(xùn)練語(yǔ)料合并后對(duì)翻譯模型進(jìn)行訓(xùn)練得到通用翻譯模型。
7.一種機(jī)器翻譯方法,其特征在于,所述方法包括 A.使用第一分類模型對(duì)待翻譯文本進(jìn)行分類,以確定所述待翻譯文本所屬領(lǐng)域,其中所述第一分類模型由各領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到; B.利用與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型對(duì)所述待翻譯文本進(jìn)行翻譯,其中所述領(lǐng)域翻譯模型由對(duì)應(yīng)領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述第一分類模型包括貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟A進(jìn)一步包括確定所述待翻譯文本歸屬于所述待翻譯文本所屬領(lǐng)域的概率并判斷該概率是否高于設(shè)定的第一閾值,如果是,則所述步驟B中,將與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型與通用翻譯模型融合后對(duì)所述待翻譯文本進(jìn)行翻譯,其中所述通用翻譯模型由各領(lǐng)域的訓(xùn)練語(yǔ)料合并后訓(xùn)練得到。
10.根據(jù)權(quán)利要求7至9中任一權(quán)項(xiàng)所述的方法,其特征在于,各領(lǐng)域的訓(xùn)練語(yǔ)料是采用下列方式得到的 將雙語(yǔ)語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將所述雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料; 從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定的第二閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料; 采用聚類的方法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類;利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練第二分類模型; 使用訓(xùn)練后的第二分類模型對(duì)所述雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分類,以確定所述短語(yǔ)料所屬領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述短語(yǔ)料為所述雙語(yǔ)語(yǔ)料中除所述長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述聚類的方法為潛在概率語(yǔ)義分析方法。
12.根據(jù)權(quán)利要求10所述的方法,其特征在于,對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí)采用的聚類特征包括對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行分詞后,各個(gè)詞語(yǔ)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各互譯詞對(duì)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
13.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述第二分類模型包括貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型。
14.一種獲取語(yǔ)料的裝置,其特征在于,所述裝置包括 歸并單元,用于將雙語(yǔ)語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將所述雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料; 選取單元,用于從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料; 聚類單元,用于采用聚類的方法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類; 訓(xùn)練單元,用于利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練分類模型; 分類單元,用于使用訓(xùn)練后的分類模型對(duì)所述雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分類,以確定所述短語(yǔ)料所屬領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述短語(yǔ)料為所述雙語(yǔ)語(yǔ)料中除所述長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述聚類單元采用潛在概率語(yǔ)義分析方法對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述聚類單元對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí)采用的聚類特征包括對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行分詞后,各個(gè)詞語(yǔ)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各互譯詞對(duì)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
17.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述分類模型包括貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型。
18.—種生成翻譯模型的系統(tǒng),其特征在于,所述系統(tǒng)包括 權(quán)利要求14至17中任一權(quán)項(xiàng)所述裝置,用于獲取各領(lǐng)域的訓(xùn)練語(yǔ)料;以及,領(lǐng)域模型生成模塊,用于使用各領(lǐng)域的訓(xùn)練語(yǔ)料對(duì)翻譯模型進(jìn)行訓(xùn)練得到各領(lǐng)域翻譯模型。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括 通用模型生成模塊,用于將各領(lǐng)域的訓(xùn)練語(yǔ)料合并后對(duì)翻譯模型進(jìn)行訓(xùn)練得到通用翻譯模型。
20.一種機(jī)器翻譯系統(tǒng),其特征在于,所述系統(tǒng)包括 分類模塊,用于使用第一分類模型對(duì)待翻譯文本進(jìn)行分類,以確定所述待翻譯文本所屬領(lǐng)域,其中所述第一分類模型由各領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到; 翻譯模塊,用于利用與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型對(duì)所述待翻譯文本進(jìn)行翻譯,其中所述領(lǐng)域翻譯模型由對(duì)應(yīng)領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,所述第一分類模型包括貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型。
22.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,所述分類模塊進(jìn)一步用于確定所述待翻譯文本歸屬于所述待翻譯文本所屬領(lǐng)域的概率并判斷該概率是否高于設(shè)定的第一閾值,如果是,則所述翻譯模塊將與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型與通用翻譯模型融合后對(duì)所述待翻譯文本進(jìn)行翻譯,其中所述通用翻譯模型由各領(lǐng)域的訓(xùn)練語(yǔ)料合并后訓(xùn)練得到。
23.根據(jù)權(quán)利要求20至22中任一權(quán)項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括語(yǔ)料獲取模塊,用于得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述語(yǔ)料獲取模塊包括 歸并單元,用于將雙語(yǔ)語(yǔ)料中來(lái)自相同頁(yè)面的雙語(yǔ)句對(duì)歸并為一組從而將所述雙語(yǔ)語(yǔ)料劃分為多個(gè)歸并語(yǔ)料; 選取單元,用于從各個(gè)歸并語(yǔ)料中選擇長(zhǎng)度超過設(shè)定的第二閾值的歸并語(yǔ)料組成長(zhǎng)語(yǔ)料; 聚類單元,用于采用聚類的方法,將相同領(lǐng)域的長(zhǎng)語(yǔ)料聚為一類; 訓(xùn)練單元,用于利用聚類得到的各領(lǐng)域的長(zhǎng)語(yǔ)料訓(xùn)練第二分類模型; 分類單元,用于使用訓(xùn)練后的第二分類模型對(duì)所述雙語(yǔ)語(yǔ)料中的短語(yǔ)料進(jìn)行分類,以確定所述短語(yǔ)料所屬領(lǐng)域,并將各領(lǐng)域的短語(yǔ)料與相同領(lǐng)域的長(zhǎng)語(yǔ)料進(jìn)行合并,得到各領(lǐng)域的訓(xùn)練語(yǔ)料,其中所述短語(yǔ)料為所述雙語(yǔ)語(yǔ)料中除所述長(zhǎng)語(yǔ)料之外的其他語(yǔ)料。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述聚類單元采用潛在概率語(yǔ)義分析方法對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類。
25.根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述聚類單元對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行聚類時(shí)采用的聚類特征包括對(duì)所述長(zhǎng)語(yǔ)料進(jìn)行分詞后,各個(gè)詞語(yǔ)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)及各互譯詞對(duì)在所述長(zhǎng)語(yǔ)料中出現(xiàn)的次數(shù)。
26.根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述第二分類模型包括貝葉斯模型、支持向量機(jī)模型、K近鄰分類模型或最大熵模型。
全文摘要
本發(fā)明提供了一種獲取語(yǔ)料的方法及裝置、生成翻譯模型的方法及系統(tǒng)、機(jī)器翻譯的方法及系統(tǒng),其中機(jī)器翻譯的系統(tǒng)包括分類模塊,用于使用第一分類模型對(duì)待翻譯文本進(jìn)行分類,以確定所述待翻譯文本所屬領(lǐng)域,其中所述第一分類模型由各領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到;翻譯模塊,用于利用與所述待翻譯文本所屬領(lǐng)域?qū)?yīng)的領(lǐng)域翻譯模型對(duì)所述待翻譯文本進(jìn)行翻譯,其中所述領(lǐng)域翻譯模型由對(duì)應(yīng)領(lǐng)域的訓(xùn)練語(yǔ)料訓(xùn)練得到。通過上述方式,可以有效提高翻譯的精度。
文檔編號(hào)G06F17/30GK103049436SQ201110307878
公開日2013年4月17日 申請(qǐng)日期2011年10月12日 優(yōu)先權(quán)日2011年10月12日
發(fā)明者馬艷軍, 吳華, 王海峰 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司