專利名稱::一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及問(wèn)題自動(dòng)翻譯方法,特別是涉及一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法及其系統(tǒng)。
背景技術(shù):
:對(duì)于大多數(shù)僅掌握一門語(yǔ)言的人來(lái)說(shuō),如何有效、準(zhǔn)確地理解其他語(yǔ)言的文章是一個(gè)亟待解決的問(wèn)題。由于問(wèn)答系統(tǒng)中的用戶對(duì)他們所要得到的信息帶有明顯的主動(dòng)性,翻譯在解決不同國(guó)家用戶間的交流障礙方面,顯得尤為重要。目前,已經(jīng)開(kāi)發(fā)出一些翻譯工具,如Altavista(http:〃babelfish.altavista.com/)、Google(http:〃translate.google.com/translate—1)Yahoo(http:〃fanyi.cn.yahoo.com/translate—txt)。但是,因?yàn)榭梢越柚F(xiàn)有的一些詞典,這些詞典在單詞或者短語(yǔ)的層面上的翻譯效果尚可。但是,在整個(gè)句子的結(jié)構(gòu)的理解方面尚有很大不足。由于不同語(yǔ)言的語(yǔ)法、表達(dá)方式不盡相同,并不奇怪上面幾種翻譯工具在實(shí)際應(yīng)用中不理想,例如,對(duì)于句子"Whatisthecolorofrose",其翻譯結(jié)果分別為"什么是顏色上升了","什么是顏色上升了","是什么顏色的玫瑰"。正因如此,目前還沒(méi)有哪個(gè)翻譯工具能夠取代人工翻譯。因此,有必要提出一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法及其系統(tǒng),用于對(duì)交互式問(wèn)答系統(tǒng)中用戶提出的問(wèn)題進(jìn)行自動(dòng)翻譯,實(shí)現(xiàn)不同語(yǔ)言用戶之間的無(wú)障礙交流。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問(wèn)題在于提供一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法及其系統(tǒng),對(duì)交互式問(wèn)答系統(tǒng)中用戶提出的問(wèn)題進(jìn)行自動(dòng)翻譯,在不同語(yǔ)言用戶之間實(shí)現(xiàn)了無(wú)障礙的交流,獲得了較好的用戶體驗(yàn)。為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,應(yīng)用于交互式問(wèn)答系統(tǒng),其特征在于,包括模板獲取步驟,用于獲取與用戶提出的問(wèn)題最相關(guān)的語(yǔ)義模板;模板映射步驟,用于將所述最相關(guān)的語(yǔ)義模板映射到目標(biāo)語(yǔ)言模板,得到所述問(wèn)題的可填充項(xiàng)及所述可填充項(xiàng)對(duì)應(yīng)于所述目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽;語(yǔ)義選擇步驟,用于對(duì)所述可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到所述可填充項(xiàng)的所有語(yǔ)義;利用所述語(yǔ)義標(biāo)簽從所述所有語(yǔ)義中選擇所述可填充項(xiàng)的最佳語(yǔ)義,將所述最佳語(yǔ)義填充到所述目標(biāo)語(yǔ)言模板中,得目標(biāo)語(yǔ)言問(wèn)題。所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,其中,所述模板獲取步驟中,進(jìn)一步包括當(dāng)用戶以自由文本提問(wèn)時(shí),先通過(guò)命名實(shí)體識(shí)別器對(duì)該問(wèn)題進(jìn)行結(jié)構(gòu)分析,獲得該問(wèn)題的基本結(jié)構(gòu),再將所述基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)中的模板進(jìn)行匹配,獲得最相關(guān)的語(yǔ)義模板;或當(dāng)用戶利用語(yǔ)義模板提問(wèn)時(shí),將該語(yǔ)義模板作為最相關(guān)的語(yǔ)義模板。所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,其中,所述模板映射步驟中,進(jìn)一步包括根據(jù)所述最相關(guān)的語(yǔ)義模板及不同語(yǔ)言模板對(duì)照表或?qū)?yīng)關(guān)系將所述最相關(guān)的語(yǔ)義模板映射到所述目標(biāo)語(yǔ)言模板的步驟。所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,其中,所述語(yǔ)義選擇步驟中,進(jìn)一步包括通過(guò)由翻譯工具接口提供的翻譯工具對(duì)所述可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到所述所有語(yǔ)義的步驟。所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,其中,所述語(yǔ)義選擇步驟中,進(jìn)一步包括計(jì)算所述可填充項(xiàng)的所有語(yǔ)義與所述語(yǔ)義標(biāo)簽之間的相似度,并選擇相似度最大的語(yǔ)義作為所述最佳語(yǔ)義的步驟;以如下公式計(jì)算所述可填充項(xiàng)的所有語(yǔ)義與所述語(yǔ)義標(biāo)簽之間的相似度<formula>formulaseeoriginaldocumentpage6</formula>Dis(SIi,L1);語(yǔ)義SIi與語(yǔ)義標(biāo)簽L1在概念層級(jí)中的最短路徑;a:協(xié)同因數(shù);,^):語(yǔ)義與語(yǔ)義標(biāo)簽二之間的相似度;以如下公式計(jì)算所述可填充項(xiàng)的最佳語(yǔ)義S(w,)=argMax5V/w(《,,)可填充項(xiàng)vv,的最佳語(yǔ)義。為了實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),應(yīng)用于交互式問(wèn)答系統(tǒng),其特征在于,包括模板獲取模塊,用于獲取與用戶提出的問(wèn)題最相關(guān)的語(yǔ)義模板;模板映射模塊,用于將所述最相關(guān)的語(yǔ)義模板映射到目標(biāo)語(yǔ)言模板,得到所述問(wèn)題的可填充項(xiàng)及所述可填充項(xiàng)對(duì)應(yīng)于所述目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽;語(yǔ)義選擇及問(wèn)題生成模塊,連接所述模板獲取模塊、所述模板映射模塊,用于對(duì)所述可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到所述可填充項(xiàng)的所有語(yǔ)義;利用所述語(yǔ)義標(biāo)簽從所述所有語(yǔ)義中選擇所述可填充項(xiàng)的最佳語(yǔ)義,將所述最佳語(yǔ)義填充到所述目標(biāo)語(yǔ)言模板中,得目標(biāo)語(yǔ)言問(wèn)題。所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),其中,所述模板獲取模塊當(dāng)用戶以自由文本提問(wèn)時(shí),先通過(guò)命名實(shí)體識(shí)別器對(duì)該問(wèn)題進(jìn)行結(jié)構(gòu)分析,獲得該問(wèn)題的基本結(jié)構(gòu),再將所述基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)中的模板進(jìn)行匹配,獲得最相關(guān)的語(yǔ)義模板;或當(dāng)用戶利用語(yǔ)義模板提問(wèn)時(shí),將該語(yǔ)義模板作為最相關(guān)的語(yǔ)義模板。所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),其中,所述模板映射模塊根據(jù)所述最相關(guān)的語(yǔ)義模板及不同語(yǔ)言模板對(duì)照表或?qū)?yīng)關(guān)系將所述最相關(guān)的語(yǔ)義模板映射到所述目標(biāo)語(yǔ)言模板的歩驟。所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),其中,所述語(yǔ)義選擇及問(wèn)題生成模塊包括可填充項(xiàng)翻譯模塊,用于通過(guò)由翻譯工具接口提供的翻譯工具對(duì)所述可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到所述所有語(yǔ)義;可填充項(xiàng)語(yǔ)義選擇模塊,連接所述可填充項(xiàng)翻譯模塊,用于利用所述語(yǔ)義標(biāo)簽從所有語(yǔ)義中選擇所述最佳語(yǔ)義;問(wèn)題生成模塊,連接所述模板映射模塊、所述可填充項(xiàng)語(yǔ)義選擇模塊,用于將所述最佳語(yǔ)義填充到所述目標(biāo)語(yǔ)言模板中,生成所述目標(biāo)語(yǔ)言問(wèn)題。所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),其中,所述可填充項(xiàng)語(yǔ)義選擇模塊通過(guò)計(jì)算所述可填充項(xiàng)的所有語(yǔ)義與所述語(yǔ)義標(biāo)簽之間的相似度,并選擇相似度最大的語(yǔ)義作為所述最佳語(yǔ)義;以如下公式計(jì)算所述可填充項(xiàng)的所有語(yǔ)義與所述語(yǔ)義標(biāo)簽之間的相似度Z^(S,,ZJ:語(yǔ)義&,與語(yǔ)義標(biāo)簽^在概念層級(jí)中的最短路徑;協(xié)同因數(shù);S/m(S,,"語(yǔ)義與語(yǔ)義標(biāo)簽^之間的相似度;以如下公式計(jì)算所述可填充項(xiàng)的最佳語(yǔ)義<formula>formulaseeoriginaldocumentpage8</formula>S(^):可填充項(xiàng)w,的最佳語(yǔ)義。本發(fā)明提供了一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法及其系統(tǒng),能夠?qū)换ナ絾?wèn)答系統(tǒng)中用戶提交的問(wèn)題進(jìn)行自動(dòng)翻譯,在不同語(yǔ)言用戶之間實(shí)現(xiàn)了無(wú)障礙的交流,獲得了較好的用戶體驗(yàn)。以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述,但不作為對(duì)本發(fā)明的限定。圖1為本發(fā)明基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法流程圖;圖2為本發(fā)明基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng)結(jié)構(gòu)圖;圖3A為本發(fā)明實(shí)現(xiàn)自動(dòng)翻譯的一實(shí)施例;圖3B為本發(fā)明實(shí)現(xiàn)自動(dòng)翻譯的用戶界面示意圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步更詳細(xì)的描述。如圖l所示,為本發(fā)明基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法流程圖。該流程描述了一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,該方法能對(duì)交互式問(wèn)答系統(tǒng)中用戶提出的問(wèn)題進(jìn)行自動(dòng)翻譯,具體步驟包括步驟S101,模板獲取,獲取與用戶所提出的問(wèn)題最相關(guān)的語(yǔ)義模板。進(jìn)一步地,該步驟S101中,包括一模板獲取的具體方法當(dāng)用戶以自由文本提問(wèn)時(shí),首先通過(guò)命名實(shí)體識(shí)別器(NamedEntityIdentification,NER)對(duì)該問(wèn)題進(jìn)行結(jié)構(gòu)分析,獲得其基本結(jié)構(gòu)。然后,將基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)中的模板進(jìn)行匹配,獲得最相關(guān)的語(yǔ)義模板;當(dāng)用戶利用語(yǔ)義模板提問(wèn)時(shí),該語(yǔ)義模板即為最相關(guān)的語(yǔ)義模板。進(jìn)一步地,對(duì)問(wèn)題進(jìn)行結(jié)構(gòu)分析的方法又包括1)通過(guò)關(guān)鍵詞査詢獲得問(wèn)題類型;2)獲得問(wèn)題的基本結(jié)構(gòu);3)利用命名實(shí)體識(shí)別器獲得一些關(guān)鍵詞或命名實(shí)體。進(jìn)一步地,該步驟S101中,模板數(shù)據(jù)庫(kù)為一存儲(chǔ)有事先創(chuàng)建好的語(yǔ)義模板的數(shù)據(jù)庫(kù)。其中,語(yǔ)義模板是在基本結(jié)構(gòu)的基礎(chǔ)上,為帶有一定含義的單元(單詞或短語(yǔ))加語(yǔ)義標(biāo)簽(標(biāo)注)。通過(guò)關(guān)鍵詞査詢獲得問(wèn)題類型的步驟主要通過(guò)查詢問(wèn)題類型對(duì)照表(如,"什么","怎么","如何","為什么","哪里",what,hmv,why,where等)中的關(guān)鍵詞(如,"什么","怎么","如何","為什么","哪里",what,how,why,where等)來(lái)獲得相應(yīng)的問(wèn)題類型。命名實(shí)體,即是問(wèn)題中有一定含義(此處"一定含義"指除了停用詞(stopwords)夕卜,一切有實(shí)際意義的名詞、動(dòng)詞,其中,絕大多數(shù)為名詞)的單元,關(guān)鍵詞在此也是名詞,指那些在詞性標(biāo)注(POStagging)后、未能被命名實(shí)體識(shí)別器識(shí)別出來(lái)的名詞,關(guān)鍵詞或命名實(shí)體將在模板匹配步驟中與語(yǔ)義模板中的可填充項(xiàng)匹配。后面對(duì)可填充項(xiàng)的翻譯,其實(shí)是對(duì)匹配成功的關(guān)鍵詞或命名實(shí)體的翻譯。停用詞(stopwords)通常指的是自身無(wú)明確的意義的詞,如語(yǔ)氣助詞、副詞、介詞、連詞,如of等。在不同的應(yīng)用中可以設(shè)定不同的停用詞詞表。步驟S102,模板映射,根據(jù)最相關(guān)的語(yǔ)義模板以及不同語(yǔ)言模板對(duì)照表或?qū)?yīng)關(guān)系,將最相關(guān)的語(yǔ)義模板映射到目標(biāo)語(yǔ)言模板,得到該問(wèn)題中的可填充項(xiàng)(單詞或短語(yǔ)),以及該可填充項(xiàng)對(duì)應(yīng)于目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽。有關(guān)語(yǔ)義模板、可填充項(xiàng)、及語(yǔ)義標(biāo)簽的定義參見(jiàn)專利申請(qǐng)?zhí)柎a為200510130778.5的中國(guó)發(fā)明專利申請(qǐng)、國(guó)際發(fā)明專利申請(qǐng)?zhí)枮镻CT/CN2006/003648的發(fā)明專利申請(qǐng)"一種網(wǎng)上用戶交互問(wèn)答方法及其系統(tǒng)",以及專利申請(qǐng)?zhí)柎a為200810056168.9的中國(guó)發(fā)明專利申請(qǐng)"一種自動(dòng)生成問(wèn)題的語(yǔ)義模板的方法和系統(tǒng)"。并且,以上發(fā)明專利中的可填充內(nèi)容即為本發(fā)明中的可填充項(xiàng)。目標(biāo)語(yǔ)言是用戶想把原問(wèn)題翻譯到的語(yǔ)言,如把中文的原問(wèn)題翻譯到的英文,則英文就是目標(biāo)語(yǔ)言,而該問(wèn)題的中文模板在英文中的對(duì)應(yīng)模板則是目標(biāo)語(yǔ)言模板。步驟S103,語(yǔ)義選擇及問(wèn)題生成,其首先利用現(xiàn)有的翻譯工具對(duì)該問(wèn)題中的可填充項(xiàng)(單詞或短語(yǔ))進(jìn)行自動(dòng)翻譯,得到所有語(yǔ)義;然后,利用該可填充項(xiàng)對(duì)應(yīng)于目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽從所有語(yǔ)義中選擇該可填充項(xiàng)的最佳語(yǔ)義;最后,將該可填充項(xiàng)的最佳語(yǔ)義填充到目標(biāo)語(yǔ)言模板中,生成目標(biāo)語(yǔ)言問(wèn)題。進(jìn)一步地,該步驟S103中,對(duì)于該問(wèn)題中的一個(gè)可填充項(xiàng)(單詞或短語(yǔ)),首先利用現(xiàn)有翻譯工具對(duì)可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到該可填充項(xiàng)的所有語(yǔ)義;然后通過(guò)一語(yǔ)義相似度的計(jì)算步驟計(jì)算相似度,即,通過(guò)計(jì)算每個(gè)語(yǔ)義與該可填充項(xiàng)在目標(biāo)語(yǔ)言模板中對(duì)應(yīng)的語(yǔ)義標(biāo)簽之間的相似度,并選擇相似度最大的語(yǔ)義作為最佳語(yǔ)義,該最大的相似度定義為該可填充項(xiàng)與該語(yǔ)義標(biāo)簽之間的相似度??商畛漤?xiàng)w,的語(yǔ)義&,與語(yǔ)義標(biāo)簽丄;之間的相似度由如下公式計(jì)算得到Z^(S,,A):語(yǔ)義&,與語(yǔ)義標(biāo)簽丄7在概念層級(jí)中的最短路徑;":一協(xié)同因數(shù);^附0^,A):語(yǔ)義與語(yǔ)義標(biāo)簽丄,之間的相似度;以如下公式計(jì)算可填充項(xiàng)的最佳語(yǔ)義xS(H^)=argMax57附(《,,Zj)可填充項(xiàng)vn的最佳語(yǔ)義。該方法能對(duì)交互式問(wèn)答系統(tǒng)中用戶提交的問(wèn)題進(jìn)行自動(dòng)翻譯,在不同語(yǔ)言用戶之間實(shí)現(xiàn)無(wú)障礙的交流,獲得了較好的用戶體驗(yàn)。如圖2所示,為本發(fā)明基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng)結(jié)構(gòu)圖。該基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng)100,對(duì)交互式問(wèn)答系統(tǒng)中用戶提交的問(wèn)題進(jìn)行自動(dòng)翻譯,其包括模板獲取模塊IO、模板映射模塊20、語(yǔ)義選擇及問(wèn)題生成模塊30。模板獲取模塊io判斷用戶提交的問(wèn)題是否是以自由文本提出,當(dāng)用戶以自由文本提問(wèn)時(shí),首先通過(guò)命名實(shí)體識(shí)別器(NamedEntityIdentification,NER)對(duì)該問(wèn)題進(jìn)行結(jié)構(gòu)分析,獲得其基本結(jié)構(gòu)。然后,將基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)中的模板進(jìn)行匹配,獲得最相關(guān)的語(yǔ)義模板;而當(dāng)用戶利用語(yǔ)義模板提問(wèn)時(shí),將該語(yǔ)義模板作為最相關(guān)的語(yǔ)義模板。進(jìn)一步地,對(duì)問(wèn)題進(jìn)行結(jié)構(gòu)分析的步驟又包括問(wèn)題類型獲取模塊11,用于當(dāng)問(wèn)題是以自由文本提出時(shí),通過(guò)關(guān)鍵詞査詢獲得問(wèn)題類型。問(wèn)題類型獲取模塊ll主要通過(guò)查詢問(wèn)題類型對(duì)照表(如,"什么","怎么","如何","為什么","哪里",what,how,why,where等)中的關(guān)鍵詞(如,"什么","怎么","如何","為什么","哪里",what,how,why,where等)來(lái)獲得相應(yīng)問(wèn)題類型?;窘Y(jié)構(gòu)獲取模塊12,用于獲得問(wèn)題的基本結(jié)構(gòu)。實(shí)體識(shí)別獲取模塊13,用于利用命名實(shí)體識(shí)別器NER獲得一些關(guān)鍵詞或命名實(shí)體。命名實(shí)體是問(wèn)題中有一定含義(這里的"一定含義"指除了停用詞(stopwords)夕卜,一切有實(shí)際意義的名詞、動(dòng)詞,其中,絕大多數(shù)為名詞)的單元,關(guān)鍵詞在此也是名詞,指那些在詞性標(biāo)注(POStagging)后、未能被命名實(shí)體識(shí)別器識(shí)別出來(lái)的名詞,關(guān)鍵詞或命名實(shí)體將在模板匹配步驟中與語(yǔ)義模板中的可填充項(xiàng)匹配。后面對(duì)可填充項(xiàng)的翻譯,其實(shí)是對(duì)匹配成功的關(guān)鍵詞或命名實(shí)體的翻譯。停用詞(st0pwords)通常指的是自身無(wú)明確的意義的詞,如語(yǔ)氣助詞、副詞、介詞、連詞,如of等。在不同的應(yīng)用中可以設(shè)定不同的停用詞詞表o進(jìn)一步地,模板獲取模塊包括一模板匹配模塊14,用于將前面獲得的基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)40中的模板進(jìn)行匹配,獲得最相關(guān)的語(yǔ)義模板。模板映射模塊20,連接模板獲取模塊10,根據(jù)最相關(guān)的語(yǔ)義模板以及不同語(yǔ)言模板對(duì)照表或?qū)?yīng)關(guān)系,將該最相關(guān)的語(yǔ)義模塊映射到目標(biāo)語(yǔ)言模板,得到該問(wèn)題中的可填充項(xiàng)(單詞或短語(yǔ)),以及該可填充項(xiàng)對(duì)應(yīng)于目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽。語(yǔ)義選擇及問(wèn)題生成模塊30,連接模板獲取模塊IO、模板映射模塊20,用于首先利用現(xiàn)有的翻譯工具對(duì)問(wèn)題中的可填充項(xiàng)(單詞或短語(yǔ))進(jìn)行自動(dòng)翻譯,得到該填充項(xiàng)的所有語(yǔ)義;然后,利用該可填充項(xiàng)對(duì)應(yīng)于目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽從所有語(yǔ)義中選擇該可填充項(xiàng)的最佳語(yǔ)義;最后,將該可填充項(xiàng)的最佳語(yǔ)義填充到目標(biāo)語(yǔ)言模板中,生成目標(biāo)語(yǔ)言問(wèn)題。模板數(shù)據(jù)庫(kù)40為一存儲(chǔ)事先創(chuàng)建好的語(yǔ)義模板的數(shù)據(jù)庫(kù)。其中,語(yǔ)義模板是在句子基本結(jié)構(gòu)的基礎(chǔ)上,為帶有一定含義的單元(單詞或短語(yǔ))加語(yǔ)義標(biāo)簽(或稱為標(biāo)注)。語(yǔ)義選擇及問(wèn)題生成模塊30,連接模板獲取模塊IO、模板映射模塊20,包括可填充項(xiàng)翻譯模塊31、可填充項(xiàng)語(yǔ)義選擇模塊32、問(wèn)題生成模塊33??商畛漤?xiàng)翻譯模塊31,用于首先利用通過(guò)翻譯工具接口50提供的現(xiàn)有翻譯工具對(duì)問(wèn)題中的可填充項(xiàng)(單詞或短語(yǔ))進(jìn)行自動(dòng)翻譯,得到該可填充項(xiàng)的所有語(yǔ)義;可填充項(xiàng)語(yǔ)義選擇模塊32,連接可填充項(xiàng)翻譯模塊31,用于利用該可填充項(xiàng)對(duì)應(yīng)于目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽從所有語(yǔ)義中選擇該可填充項(xiàng)的最佳語(yǔ)義;問(wèn)題生成模塊33,連接模板映射模塊20、可填充項(xiàng)語(yǔ)義選擇模塊32,用于將該可填充項(xiàng)的最佳語(yǔ)義填充到目標(biāo)語(yǔ)言模板中,生成目標(biāo)語(yǔ)言問(wèn)題。進(jìn)一步地,對(duì)于最相關(guān)的語(yǔ)義模板中的一個(gè)可填充項(xiàng)(單詞或短語(yǔ)),可填充項(xiàng)翻譯模塊31首先利用現(xiàn)有翻譯工具對(duì)該可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到該可填充項(xiàng)的所有語(yǔ)義,然后,可填充項(xiàng)語(yǔ)義選擇模塊32計(jì)算所有語(yǔ)義與該可填充項(xiàng)在目標(biāo)語(yǔ)言模板中對(duì)應(yīng)的語(yǔ)義標(biāo)簽之間的相似度,并選擇相似度最大的語(yǔ)義作為最佳語(yǔ)義。可填充項(xiàng)W的語(yǔ)義&,與語(yǔ)義標(biāo)簽之間的相似度由如下公式計(jì)算得到<formula>formulaseeoriginaldocumentpage12</formula>Lfe(S,,A):語(yǔ)義與語(yǔ)義標(biāo)簽^在概念層級(jí)中的最短路徑;:—協(xié)同因數(shù);S^(S,,A):語(yǔ)義&,與語(yǔ)義標(biāo)簽^之間的相似度;如下公式計(jì)算可填充項(xiàng)vn的最佳語(yǔ)義<formula>formulaseeoriginaldocumentpage13</formula>可填充項(xiàng)w,的最佳語(yǔ)義。本發(fā)明提出一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,對(duì)交互式問(wèn)答系統(tǒng)中用戶提交的問(wèn)題進(jìn)行自動(dòng)翻譯,在不同的語(yǔ)言用戶之間實(shí)現(xiàn)無(wú)障礙的交流,獲得較好的用戶體驗(yàn)。如圖3A所示,為本發(fā)明實(shí)現(xiàn)自動(dòng)翻譯的一實(shí)施例,圖3B為本發(fā)明實(shí)現(xiàn)自動(dòng)翻譯的用戶界面示意圖。結(jié)合圖1、2,該用戶界面為圖3A中的實(shí)施例實(shí)現(xiàn)自動(dòng)翻譯的用戶界面。該實(shí)施例中,是將本發(fā)明方法應(yīng)用于一交互式問(wèn)答系統(tǒng)200中,在該交互式問(wèn)答系統(tǒng)200中,用戶以自由文本形式提交一個(gè)新問(wèn)題,如"WhowasfirstpresidentofPRC",此時(shí),該交互式問(wèn)答系統(tǒng)200通過(guò)問(wèn)題自動(dòng)翻譯系統(tǒng)100實(shí)現(xiàn)對(duì)該問(wèn)題的翻譯。該實(shí)施例中,由于該問(wèn)題是以自由文本形式提出的。具體地,首先,在模板獲取模塊10中對(duì)該問(wèn)題進(jìn)行結(jié)構(gòu)分析,獲得該問(wèn)題的基本結(jié)構(gòu)和一些關(guān)鍵詞。接著,將該基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)40中的語(yǔ)義模板進(jìn)行匹配,獲得與該問(wèn)題最相關(guān)的語(yǔ)義模板。然后,由模板映射模塊20利用不同語(yǔ)言模板對(duì)照表或?qū)?yīng)關(guān)系將該最相關(guān)的語(yǔ)義模板映射到目標(biāo)語(yǔ)言模板。與此同時(shí),得到該問(wèn)題中的可填充項(xiàng)(單詞或短語(yǔ)),以及它們對(duì)應(yīng)于目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽??商畛漤?xiàng)翻譯模塊31利用已有的翻譯工具對(duì)可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到該可填充項(xiàng)的所有語(yǔ)義??商畛漤?xiàng)語(yǔ)義選擇模塊32根據(jù)可填充項(xiàng)對(duì)應(yīng)于目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽從所有語(yǔ)義中選擇可填充項(xiàng)的最佳語(yǔ)義。最后,問(wèn)題生成模塊33將最佳語(yǔ)義填充到目標(biāo)語(yǔ)言模板中,得到自動(dòng)翻譯后的問(wèn)題,即目標(biāo)語(yǔ)言問(wèn)題。如圖3B中的"誰(shuí)是第一個(gè)中華人民共和國(guó)主席?"以及"誰(shuí)是第一中華人民共和國(guó)主席?"。進(jìn)一步地,在模板獲取模塊10中,將該基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)40中的語(yǔ)義模板匹配時(shí),如果匹配到模板,直接顯示到用戶界面,供用戶提問(wèn)問(wèn)題;如果沒(méi)有匹配到模板,系統(tǒng)將根據(jù)預(yù)先設(shè)定規(guī)則自動(dòng)生成若干模板,供用戶選擇。問(wèn)題提交后,用戶可以單擊問(wèn)題下面的"自動(dòng)翻譯"來(lái)實(shí)現(xiàn)翻譯功能。進(jìn)一步地,模板匹配主要是問(wèn)題類型和基本結(jié)構(gòu)的匹配。語(yǔ)義模板,即在基本結(jié)構(gòu)的基礎(chǔ)上,為帶有一定含義的單元(單詞或短語(yǔ))加語(yǔ)義標(biāo)簽(標(biāo)注)。由四部分組成,即問(wèn)題目標(biāo)、問(wèn)題類型、概念、約束條件。如表1所示,該表給出了問(wèn)題的語(yǔ)義模板實(shí)例。問(wèn)題",加booA;cMiache/Q-sownrifeJ962"<table>tableseeoriginaldocumentpage0</column></row><table>表1在表1中,"<7br取f:五"f^1Pr(x/wcf〉"為該問(wèn)題的問(wèn)題目標(biāo),"<7>pe.-附^>"為該問(wèn)題的問(wèn)題類型,F(xiàn):Z)fl/e=/96y為該問(wèn)題的約束條件,"6ooA:(7E"鄉(xiāng)lPra血c(/J"、"/ac/e/Ca/w"(7"http://wm"wl/WW^a/_/9"為該問(wèn)題中的概念。"fJ"中的內(nèi)容即為概念的語(yǔ)義標(biāo)簽,"\"左邊為概念的一級(jí)標(biāo)簽,右邊為概念的二級(jí)標(biāo)簽。語(yǔ)義標(biāo)簽可借助WordNet、HowNet中的層級(jí)概念獲得。在該實(shí)施例中,不同語(yǔ)言模板對(duì)照表包含有同一問(wèn)題的不同語(yǔ)言模板之間的映射關(guān)系,如表2所示,該表給出了不同語(yǔ)言模板對(duì)照表實(shí)例。<table>tableseeoriginaldocumentpage0</column></row><table>表2在表2中,由于不同語(yǔ)言模板的模板ID相同,通過(guò)該語(yǔ)言模板對(duì)照表即可實(shí)現(xiàn)同一問(wèn)題的不同語(yǔ)言模板間的映射。其中,"001"、"002"、"003"為語(yǔ)言ID。在該實(shí)施例中,對(duì)于可填充項(xiàng)vv可填充項(xiàng)翻譯模塊31利用已有的翻譯工具對(duì)句子中可填充項(xiàng)進(jìn)行自動(dòng)翻譯時(shí),通常有很多項(xiàng)語(yǔ)義。可填充項(xiàng)語(yǔ)義選擇模塊32通過(guò)計(jì)算每項(xiàng)語(yǔ)義與該可填充項(xiàng)對(duì)應(yīng)的語(yǔ)義標(biāo)簽之間的相似度來(lái)選擇最佳語(yǔ)義。其中,可填充項(xiàng)^的語(yǔ)義&,與語(yǔ)義標(biāo)簽A之間的相似度由下式計(jì)算ZX^,,,^):語(yǔ)義&,與語(yǔ)義標(biāo)簽丄/在概念層級(jí)(如WordNet、HowNet)中的最短路徑;:—協(xié)同因數(shù),其值可根據(jù)經(jīng)驗(yàn)確定,如1.6。^^A):語(yǔ)義&,與語(yǔ)義標(biāo)簽丄7之間的相似度;本發(fā)明中,可填充項(xiàng)語(yǔ)義選擇模塊32選擇相似度最大的語(yǔ)義作為最佳語(yǔ)義。并且,以如下公式計(jì)算可填充項(xiàng)^的最佳語(yǔ)義)=argMor5Vw(5^,Zj)可填充項(xiàng)w,的最佳語(yǔ)義。在該實(shí)施例中,還進(jìn)一步測(cè)試了本發(fā)明方法的性能。通過(guò)人工判斷其對(duì)可填充項(xiàng)w,的翻譯rra似—)是否正確;并為其對(duì)問(wèn)題結(jié)構(gòu)的翻譯rm似C^)進(jìn)行打分,分值從0到1;對(duì)應(yīng)用本發(fā)明方法對(duì)問(wèn)題Q進(jìn)行自動(dòng)翻譯的整體滿意度由下式計(jì)算7>麵5,(2)<formula>formulaseeoriginaldocumentpage15</formula>附式中符號(hào)含義如下7Vy,(w,):對(duì)可填充項(xiàng)^的翻譯是否正確。rraw(》)對(duì)問(wèn)題結(jié)構(gòu)的翻譯的分值。P:協(xié)同因數(shù),其值可根據(jù)經(jīng)驗(yàn)確定,如0.5。w:在對(duì)問(wèn)題Q翻譯過(guò)程中共翻譯的可填充項(xiàng)數(shù)。r訓(xùn)s&,(e)對(duì)應(yīng)用本發(fā)明方法對(duì)問(wèn)題Q進(jìn)行自動(dòng)翻譯的整體滿意度。組序號(hào)平均分值<table>tableseeoriginaldocumentpage15</column></row><table>10.8587.5%在該實(shí)施例中,選取一交互式問(wèn)答系統(tǒng)中500個(gè)帶有語(yǔ)義模板的問(wèn)題,分為5組,作為測(cè)試數(shù)據(jù),測(cè)試結(jié)果如表3所示,通過(guò)表3可明顯地得到應(yīng)用本發(fā)明方法進(jìn)行測(cè)試的整體滿意度結(jié)果。最后得到應(yīng)用本發(fā)明方法對(duì)500個(gè)問(wèn)題進(jìn)行自動(dòng)翻譯的平均滿意度為91.3%。本發(fā)明提供了一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法及其系統(tǒng),能夠?qū)换ナ絾?wèn)答系統(tǒng)中用戶提交的問(wèn)題進(jìn)行自動(dòng)翻譯,在不同語(yǔ)言用戶之間實(shí)現(xiàn)了無(wú)障礙的交流,獲得了較好的用戶體驗(yàn)。當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。權(quán)利要求1、一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,應(yīng)用于交互式問(wèn)答系統(tǒng),其特征在于,包括模板獲取步驟,用于獲取與用戶提出的問(wèn)題最相關(guān)的語(yǔ)義模板;模板映射步驟,用于將所述最相關(guān)的語(yǔ)義模板映射到目標(biāo)語(yǔ)言模板,得到所述問(wèn)題的可填充項(xiàng)及所述可填充項(xiàng)對(duì)應(yīng)于所述目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽;語(yǔ)義選擇步驟,用于對(duì)所述可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到所述可填充項(xiàng)的所有語(yǔ)義;利用所述語(yǔ)義標(biāo)簽從所述所有語(yǔ)義中選擇所述可填充項(xiàng)的最佳語(yǔ)義,將所述最佳語(yǔ)義填充到所述目標(biāo)語(yǔ)言模板中,得目標(biāo)語(yǔ)言問(wèn)題。2、根據(jù)權(quán)利要求1所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,其特征在于,所述模板獲取步驟中,進(jìn)一步包括當(dāng)用戶以自由文本提問(wèn)時(shí),先通過(guò)命名實(shí)體識(shí)別器對(duì)該問(wèn)題進(jìn)行結(jié)構(gòu)分析,獲得該問(wèn)題的基本結(jié)構(gòu),再將所述基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)中的模板進(jìn)行匹配,獲得最相關(guān)的語(yǔ)義模板;或當(dāng)用戶利用語(yǔ)義模板提問(wèn)時(shí),將該語(yǔ)義模板作為最相關(guān)的語(yǔ)義模板。3、根據(jù)權(quán)利要求1所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,其特征在于,所述模板映射步驟中,進(jìn)一步包括根據(jù)所述最相關(guān)的語(yǔ)義模板及不同語(yǔ)言模板對(duì)照表或?qū)?yīng)關(guān)系將所述最相關(guān)的語(yǔ)義模板映射到所述目標(biāo)語(yǔ)言模板的步驟。4、根據(jù)權(quán)利要求l、2或3所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,其特征在于,所述語(yǔ)義選擇步驟中,進(jìn)一步包括通過(guò)由翻譯工具接口提供的翻譯工具對(duì)所述可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到所述所有語(yǔ)義的步驟。5、根據(jù)權(quán)利要求l、2或3所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法,其特征在于,所述語(yǔ)義選擇歩驟中,進(jìn)一步包括計(jì)算所述可填充項(xiàng)的所有語(yǔ)義與所述語(yǔ)義標(biāo)簽之間的相似度,并選擇相似度最大的語(yǔ)義作為所述最佳語(yǔ)義的步驟;以如下公式計(jì)算所述可填充項(xiàng)的所有語(yǔ)義與所述語(yǔ)義標(biāo)簽之間的相似度£^(5,,,^):語(yǔ)義&,與語(yǔ)義標(biāo)簽丄/在概念層級(jí)中的最短路徑;:協(xié)同因數(shù);S/m(S,,"語(yǔ)義&,與語(yǔ)義標(biāo)簽A之間的相似度;以如下公式計(jì)算所述可填充項(xiàng)的最佳語(yǔ)義S(w,)二argMax5Vw(5^,Zj)S—'):可填充項(xiàng)^的最佳語(yǔ)義。6、一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),應(yīng)用于交互式問(wèn)答系統(tǒng),其特征在于,包括模板獲取模塊,用于獲取與用戶提出的問(wèn)題最相關(guān)的語(yǔ)義模板;模板映射模塊,用于將所述最相關(guān)的語(yǔ)義模板映射到目標(biāo)語(yǔ)言模板,得到所述問(wèn)題的可填充項(xiàng)及所述可填充項(xiàng)對(duì)應(yīng)于所述目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽;語(yǔ)義選擇及問(wèn)題生成模塊,連接所述模板獲取模塊、所述模板映射模塊,用于對(duì)所述可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到所述可填充項(xiàng)的所有語(yǔ)義;利用所述語(yǔ)義標(biāo)簽從所述所有語(yǔ)義中選擇所述可填充項(xiàng)的最佳語(yǔ)義,將所述最佳語(yǔ)義填充到所述目標(biāo)語(yǔ)言模板中,得目標(biāo)語(yǔ)言問(wèn)題。7、根據(jù)權(quán)利要求6所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),其特征在于,所述模板獲取模塊當(dāng)用戶以自由文本提問(wèn)時(shí),先通過(guò)命名實(shí)體識(shí)別器對(duì)該問(wèn)題進(jìn)行結(jié)構(gòu)分析,獲得該問(wèn)題的基本結(jié)構(gòu),再將所述基本結(jié)構(gòu)與模板數(shù)據(jù)庫(kù)中的模板進(jìn)行匹配,獲得最相關(guān)的語(yǔ)義模板;或當(dāng)用戶利用語(yǔ)義模板提問(wèn)時(shí),將該語(yǔ)義模板作為最相關(guān)的語(yǔ)義模板。8、根據(jù)權(quán)利要求6所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),其特征在于,所述模板映射模塊根據(jù)所述最相關(guān)的語(yǔ)義模板及不同語(yǔ)言模板對(duì)照表或?qū)?yīng)關(guān)系將所述最相關(guān)的語(yǔ)義模板映射到所述目標(biāo)語(yǔ)言模板的步驟。9、根據(jù)權(quán)利要求6、7或8所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),其特征在于,所述語(yǔ)義選擇及問(wèn)題生成模塊包括可填充項(xiàng)翻譯模塊,用于通過(guò)由翻譯工具接口提供的翻譯工具對(duì)所述可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到所述所有語(yǔ)義;可填充項(xiàng)語(yǔ)義選擇模塊,連接所述可填充項(xiàng)翻譯模塊,用于利用所述語(yǔ)義標(biāo)簽從所有語(yǔ)義中選擇所述最佳語(yǔ)義-,問(wèn)題生成模塊,連接所述模板映射模塊、所述可填充項(xiàng)語(yǔ)義選擇模塊,用于將所述最佳語(yǔ)義填充到所述目標(biāo)語(yǔ)言模板中,生成所述目標(biāo)語(yǔ)言問(wèn)題。10、根據(jù)權(quán)利要求9所述的基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯系統(tǒng),其特征在于,所述可填充項(xiàng)語(yǔ)義選擇模塊通過(guò)計(jì)算所述可填充項(xiàng)的所有語(yǔ)義與所述語(yǔ)義標(biāo)簽之間的相似度,并選擇相似度最大的語(yǔ)義作為所述最佳語(yǔ)義;以如下公式計(jì)算所述可填充項(xiàng)的所有語(yǔ)義與所述語(yǔ)義標(biāo)簽之間的相似度Z^0VA):語(yǔ)義&與語(yǔ)義標(biāo)簽丄/在概念層級(jí)中的最短路徑;:協(xié)同因數(shù);SmOS,,,":語(yǔ)義與語(yǔ)義標(biāo)簽^之間的相似度;以如下公式計(jì)算所述可填充項(xiàng)的最佳語(yǔ)義<formula>formulaseeoriginaldocumentpage4</formula>可填充項(xiàng)w,的最佳語(yǔ)義。全文摘要本發(fā)明公開(kāi)了一種基于語(yǔ)義模板的問(wèn)題自動(dòng)翻譯方法及其系統(tǒng),其中該方法包括模板獲取步驟,用于獲取與用戶提出的問(wèn)題最相關(guān)的語(yǔ)義模板;模板映射步驟,用于將最相關(guān)的語(yǔ)義模板映射到目標(biāo)語(yǔ)言模板,得到問(wèn)題的可填充項(xiàng)及可填充項(xiàng)對(duì)應(yīng)于目標(biāo)語(yǔ)言模板中的語(yǔ)義標(biāo)簽;語(yǔ)義選擇步驟,用于對(duì)可填充項(xiàng)進(jìn)行自動(dòng)翻譯,得到可填充項(xiàng)的所有語(yǔ)義;利用語(yǔ)義標(biāo)簽從所有語(yǔ)義中選擇可填充項(xiàng)的最佳語(yǔ)義,將最佳語(yǔ)義填充到目標(biāo)語(yǔ)言模板中,得目標(biāo)語(yǔ)言問(wèn)題。本發(fā)明能夠?qū)换ナ絾?wèn)答系統(tǒng)中用戶提出的問(wèn)題進(jìn)行自動(dòng)翻譯,實(shí)現(xiàn)了不同語(yǔ)言用戶之間的無(wú)障礙交流。文檔編號(hào)G06F17/28GK101251840SQ200810104250公開(kāi)日2008年8月27日申請(qǐng)日期2008年4月17日優(yōu)先權(quán)日2008年4月17日發(fā)明者劉文印,張加龍,郝天永申請(qǐng)人:北京百問(wèn)百答網(wǎng)絡(luò)技術(shù)有限公司