專利名稱:從非結(jié)構(gòu)化資源挖掘短語(yǔ)對(duì)的制作方法
從非結(jié)構(gòu)化資源挖掘短語(yǔ)對(duì)
背景技術(shù):
近年來(lái),人們對(duì)統(tǒng)計(jì)機(jī)器翻譯技術(shù)有相當(dāng)大的興趣。此技術(shù)通過(guò)首先建立訓(xùn)練集來(lái)操作。傳統(tǒng)上,訓(xùn)練集提供并行的文本語(yǔ)料庫(kù),如第一語(yǔ)言的文本的正文以及第二語(yǔ)言的文本的對(duì)應(yīng)的正文。訓(xùn)練模塊使用統(tǒng)計(jì)技術(shù)來(lái)確定第一文本正文最有可能映射到第二文本正文的方式。此分析導(dǎo)致生成翻譯模型。在解碼階段,翻譯模型可以被用來(lái)將第一語(yǔ)言的文本的實(shí)例映射到第二語(yǔ)言的對(duì)應(yīng)的文本實(shí)例。統(tǒng)計(jì)翻譯模型的有效性常常取決于用于產(chǎn)生翻譯模型的訓(xùn)練集的穩(wěn)健性。然而, 提供高質(zhì)量訓(xùn)練集是具有挑戰(zhàn)性的任務(wù)。部分地,這是因?yàn)橛?xùn)練模塊通常要求大量的訓(xùn)練數(shù)據(jù),但是,只有少量的預(yù)先建立的并行語(yǔ)料庫(kù)類型的資源用于提供這樣的信息。在傳統(tǒng)的情況下,可以通過(guò)手動(dòng)生成并行文本,例如,通過(guò)使用人類翻譯者,來(lái)獲取訓(xùn)練集。然而,手動(dòng)生成這些文本是極其耗時(shí)的任務(wù)。存在許多以比較自動(dòng)化的方式標(biāo)識(shí)并行文本的技術(shù)。例如,考慮一個(gè)網(wǎng)站以多種不同的語(yǔ)言傳達(dá)相同信息的情況,信息的每一個(gè)版本都與單獨(dú)的網(wǎng)絡(luò)地址(例如,單獨(dú)的 URL)相關(guān)聯(lián)。在一種技術(shù)中,檢索模塊可以檢查搜索索引以試圖標(biāo)識(shí)這些并行文檔,例如, 基于URL內(nèi)的特征信息。然而,此技術(shù)可以提供對(duì)相對(duì)數(shù)量有限的并行文本的訪問(wèn)。此外, 此方法還可以取決于在很多情況下可能不成立的假設(shè)。上面的示例已經(jīng)被框入在兩個(gè)不同的自然語(yǔ)言之間轉(zhuǎn)換文本的模型的上下文中。 還提出了單語(yǔ)種模型。這樣的模型試圖改述輸入文本以與輸入文本相同的語(yǔ)言產(chǎn)生輸出文本。例如,在一種應(yīng)用中,這種類型的模型可用于修改用戶的搜索查詢,例如,通過(guò)標(biāo)識(shí)表達(dá)搜索查詢的額外的方式。單語(yǔ)種模型具有上面所提及的相同缺點(diǎn)。實(shí)際上,查找相同語(yǔ)言內(nèi)的預(yù)先存在的并行語(yǔ)料庫(kù)是特別具有挑戰(zhàn)性的。即,在雙語(yǔ)上下文中,有預(yù)先存在的生成不同的語(yǔ)言的并行文本以適應(yīng)不同的讀者的本國(guó)語(yǔ)言的需要。以相同語(yǔ)言生成文本的并行版本的需要?jiǎng)t有限得多。盡管如此,這樣的單語(yǔ)種信息確實(shí)少量地存在。例如,常規(guī)的同義詞庫(kù)提供關(guān)于相同語(yǔ)言的帶有類似的含義的單詞的信息。在另一種情況下,一些書(shū)已經(jīng)被不同的翻譯者翻譯成相同語(yǔ)言。不同的翻譯可以充當(dāng)并行的單語(yǔ)種語(yǔ)料庫(kù)。然而,這種類型的并行信息太專業(yè)化,以至于難以有效地用于比較一般的上下文中。此外,如前所述,只有相對(duì)較小的量的這種類型的信息。已經(jīng)作出了自動(dòng)標(biāo)識(shí)涉及相同主題的單語(yǔ)種文檔的正文,然后挖掘這些文檔以發(fā)現(xiàn)并行句子的存在的努力。然而,在某些情況下,這些方法依賴于可能會(huì)限制它們的有效性和通用性的上下文特定的假設(shè)。除這些困難之外,文本可以以多種多樣的方式被改述;因此,標(biāo)識(shí)單語(yǔ)種上下文中的并行性潛在地是比標(biāo)識(shí)雙語(yǔ)上下文中的相關(guān)的文本更加復(fù)雜的任務(wù)
發(fā)明內(nèi)容
此處描述了從非結(jié)構(gòu)化資源中精選出結(jié)構(gòu)化訓(xùn)練集的挖掘系統(tǒng)。即,非結(jié)構(gòu)化資源可以在重復(fù)的內(nèi)容以及替換類型的內(nèi)容方面隱而不見(jiàn)地豐富。重復(fù)的內(nèi)容是指非結(jié)構(gòu)化資源包括文本的相同實(shí)例的許多重復(fù)。替換類型的內(nèi)容是指非結(jié)構(gòu)化資源包括文本的在形式方面不同但是表達(dá)類似的語(yǔ)義內(nèi)容的許多實(shí)例。挖掘系統(tǒng)展示并提取非結(jié)構(gòu)化資源的這些特征,并通過(guò)該過(guò)程,將原始非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)換為用于訓(xùn)練翻譯模型的結(jié)構(gòu)化內(nèi)容。在一種情況下,非結(jié)構(gòu)化資源可以對(duì)應(yīng)于可通過(guò)網(wǎng)絡(luò)訪問(wèn)的資源項(xiàng)的儲(chǔ)存庫(kù)(例如,因特網(wǎng)可訪問(wèn)的資源項(xiàng))。根據(jù)一個(gè)說(shuō)明性實(shí)現(xiàn),挖掘系統(tǒng)通過(guò)向檢索模塊提交查詢來(lái)操作。檢索模塊使用查詢來(lái)在非結(jié)構(gòu)化資源內(nèi)執(zhí)行搜索,之后,它提供結(jié)果項(xiàng)。結(jié)果項(xiàng)可以對(duì)應(yīng)于概括了在非結(jié)構(gòu)化資源中所提供的相關(guān)聯(lián)的資源項(xiàng)的文本段。挖掘系統(tǒng)通過(guò)過(guò)濾結(jié)果項(xiàng)并標(biāo)識(shí)相應(yīng)的結(jié)果項(xiàng)對(duì)來(lái)產(chǎn)生結(jié)構(gòu)化訓(xùn)練集。訓(xùn)練系統(tǒng)可以使用該訓(xùn)練集來(lái)產(chǎn)生統(tǒng)計(jì)翻譯模型。根據(jù)一個(gè)說(shuō)明性方面,挖掘系統(tǒng)可以只基于查詢的提交來(lái)標(biāo)識(shí)結(jié)果項(xiàng),無(wú)需預(yù)先標(biāo)識(shí)針對(duì)相同主題的資源項(xiàng)的組。換言之,挖掘系統(tǒng)可以取將資源項(xiàng)的主題(例如,文檔) 作為整體的不可知的方法;挖掘系統(tǒng)在子文檔片斷級(jí)別展示非結(jié)構(gòu)化資源內(nèi)的結(jié)構(gòu)。根據(jù)另一個(gè)說(shuō)明性方面,訓(xùn)練集可包括對(duì)應(yīng)于句子段的項(xiàng)。換言之,訓(xùn)練系統(tǒng)不依賴于句子級(jí)別的并行性的標(biāo)識(shí)和利用(盡管訓(xùn)練系統(tǒng)也可以成功地處理包括完整的句子的訓(xùn)練集)。根據(jù)另一個(gè)說(shuō)明性方面,翻譯模型可以用于單語(yǔ)種上下文中,以在單一語(yǔ)言內(nèi)將輸入短語(yǔ)轉(zhuǎn)換為輸出短語(yǔ),其中,輸入短語(yǔ)和輸出短語(yǔ)具有類似的語(yǔ)義內(nèi)容,但是具有不同形式的表達(dá)。換言之,翻譯模型可用于提供輸入短語(yǔ)的釋義版本。翻譯模型也可以用于雙語(yǔ)上下文中,以將第一語(yǔ)言的輸入短語(yǔ)翻譯為第二語(yǔ)言的輸出短語(yǔ)。根據(jù)另一個(gè)說(shuō)明性方面,描述了翻譯模型的各種應(yīng)用。上面的方法可以顯現(xiàn)在各種類型的系統(tǒng)、組件,方法、計(jì)算機(jī)可讀介質(zhì)、數(shù)據(jù)結(jié)構(gòu)、
產(chǎn)品等等中。提供本發(fā)明內(nèi)容是為了以精簡(jiǎn)的形式介紹一些概念;這些概念在以下詳細(xì)描述中進(jìn)一步描述。本概述并不旨在標(biāo)識(shí)所要求保護(hù)主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求保護(hù)主題的范圍。附圖簡(jiǎn)述
圖1示出了用于創(chuàng)建和應(yīng)用統(tǒng)計(jì)機(jī)器翻譯模型的說(shuō)明性系統(tǒng)。圖2示出了圖1的系統(tǒng)在網(wǎng)絡(luò)相關(guān)的環(huán)境內(nèi)的實(shí)現(xiàn)。圖3示出了一個(gè)結(jié)果集內(nèi)的一系列結(jié)果項(xiàng)的示例。圖1的系統(tǒng)響應(yīng)于向檢索模塊提交查詢而返回結(jié)果集。圖4示出了演示圖1的系統(tǒng)如何在結(jié)果集內(nèi)建立結(jié)果項(xiàng)的對(duì)的示例。圖5示出了演示圖1的系統(tǒng)如何基于對(duì)于不同的結(jié)果集執(zhí)行的分析來(lái)創(chuàng)建訓(xùn)練集的示例。圖6示出了呈現(xiàn)圖1的系統(tǒng)的操作的概述的說(shuō)明性過(guò)程。圖7示出了用于在圖6的過(guò)程內(nèi)建立訓(xùn)練集的說(shuō)明性過(guò)程。圖8示出了用于應(yīng)用使用圖1的系統(tǒng)創(chuàng)建的翻譯模型的說(shuō)明性過(guò)程。圖9示出了可以被用來(lái)實(shí)現(xiàn)前面的附圖中所示出的特征的任何方面的說(shuō)明性處理功能。在整個(gè)說(shuō)明書(shū)和附圖中,使用相同的標(biāo)號(hào)來(lái)指示相同的組件和特征。系列100的編號(hào)表示圖1中的特征,系列200編號(hào)表示圖2中的特征,系列300編號(hào)表示圖3中的特征, 以此類推。
具體實(shí)施例方式本公開(kāi)闡述了用于生成可用于建立統(tǒng)計(jì)翻譯模型的訓(xùn)練集的功能。本公開(kāi)還闡述了用于生成和應(yīng)用統(tǒng)計(jì)翻譯模型的功能。本發(fā)明是按如下方式來(lái)組織的。章節(jié)A描述了用于執(zhí)行上面概括的功能的說(shuō)明性系統(tǒng)。章節(jié)B描述了說(shuō)明章節(jié)A的系統(tǒng)的操作的說(shuō)明性方法。章節(jié)C描述了可以被用來(lái)實(shí)現(xiàn)章節(jié)A和B所描述的特征的任何方面的說(shuō)明性處理功能。作為正文前的圖文,一些附圖是在一個(gè)或多個(gè)結(jié)構(gòu)組件(各自稱為功能、模塊、特征、元件等等)的上下文中來(lái)描述概念的。附圖所示出的各種組件可以以任何方式來(lái)實(shí)現(xiàn), 例如,通過(guò)軟件、硬件(例如,離散邏輯組件等等)、固件等等,或這些實(shí)現(xiàn)的任何組合。在一種情況下,附圖中所示出的將各種組件分離為不同的單元可以反映在實(shí)際實(shí)現(xiàn)中使用對(duì)應(yīng)的不同的組件??闪磉x地,或者另外,附圖中所示出的任何單個(gè)組件都可以通過(guò)多個(gè)實(shí)際組件來(lái)實(shí)現(xiàn)。可另選地,或者另外,對(duì)附圖中的任何兩個(gè)或更多單獨(dú)的組件的描繪可以反映由單一實(shí)際組件所執(zhí)行的不同的功能。要依次討論的圖9提供了關(guān)于附圖所示出的功能的一個(gè)說(shuō)明性實(shí)現(xiàn)的更多細(xì)節(jié)。其他附圖以流程圖形式描述了概念。以此形式,某些操作被描述為構(gòu)成以某一順序執(zhí)行的不同的框。這樣的實(shí)現(xiàn)是說(shuō)明性的,非限制性的??梢詫⒋颂幩枋龅哪承┛蚍纸M在一起,并在單一操作中執(zhí)行,可以將某些框分解為多個(gè)組件框,還可以以不同于此處所示出的順序來(lái)執(zhí)行某些框(包括以并行方式執(zhí)行框)。流程圖所示出的框可以通過(guò)軟件、硬件(例如,離散邏輯組件等等)、固件、手動(dòng)處理等等,或這些實(shí)現(xiàn)的任何組合來(lái)實(shí)現(xiàn)。至于術(shù)語(yǔ),短語(yǔ)“被配置成”包含任何類型的功能可以被構(gòu)建來(lái)執(zhí)行已標(biāo)識(shí)的操作的任何方式。功能可以被配置成使用,例如,軟件、硬件(例如,離散邏輯組件等等)、固件等等,和/或其任何組合來(lái)執(zhí)行操作。術(shù)語(yǔ)“邏輯”包含用于執(zhí)行任務(wù)的任何功能。例如,流程圖中所示出的每一個(gè)操作都對(duì)應(yīng)于用于執(zhí)行該操作的邏輯組件。可以使用,例如,軟件、硬件(例如,離散邏輯組件等等)、固件等等,和/或其任何組合來(lái)執(zhí)行操作。A.說(shuō)明性系統(tǒng)圖1示出了用于生成和應(yīng)用翻譯模型102的說(shuō)明性系統(tǒng)100。翻譯模型102對(duì)應(yīng)于用于將輸入短語(yǔ)映射到輸出短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯(SMT)模型,其中,這里“短語(yǔ)”是指任何一個(gè)或多個(gè)文本字符串。翻譯模型102使用統(tǒng)計(jì)技術(shù),而并非基于規(guī)則的方法來(lái)執(zhí)行此操作。然而,在另一種實(shí)現(xiàn)中,翻譯模型102可以通過(guò)結(jié)合基于規(guī)則的方法的一個(gè)或多個(gè)特點(diǎn)來(lái)補(bǔ)充其統(tǒng)計(jì)分析。在一種情況下,翻譯模型102在單語(yǔ)種上下文中操作。這里,翻譯模型102生成以與輸入短語(yǔ)相同的語(yǔ)言表示的輸出短語(yǔ)。換言之,輸出短語(yǔ)可以被視為輸入短語(yǔ)的釋義的版本。在另一種情況下,翻譯模型102在雙語(yǔ)(或多語(yǔ)言)上下文中操作。這里,翻譯模型102以與輸入短語(yǔ)相比不同的語(yǔ)言來(lái)生成輸出短語(yǔ)。在再一種情況下,翻譯模型102在直譯(transliteration)上下文中操作。這里,翻譯模型以與輸入短語(yǔ)相同的語(yǔ)言來(lái)生成輸出短語(yǔ),但是,輸出短語(yǔ)以與輸入短語(yǔ)相比不同的書(shū)寫形式來(lái)表示??梢詫⒎g模型102應(yīng)用于其他翻譯方案。在所有這樣的上下文中,單詞“翻譯”應(yīng)該從廣義上來(lái)理解,是指任何類型的文本信息從一種狀態(tài)到另一種狀態(tài)的轉(zhuǎn)換。系統(tǒng)100包括三個(gè)主要組件挖掘系統(tǒng)104 ;訓(xùn)練系統(tǒng)106 ;以及應(yīng)用模塊108。作為概述,挖掘系統(tǒng)104產(chǎn)生用于訓(xùn)練翻譯模型102的訓(xùn)練集。訓(xùn)練系統(tǒng)106根據(jù)訓(xùn)練集來(lái)應(yīng)用迭代方法以導(dǎo)出翻譯模型102。應(yīng)用模塊108應(yīng)用翻譯模型102,以在特定的與使用有關(guān)的方案中將輸入短語(yǔ)映射到輸出短語(yǔ)。在一種情況下,單一系統(tǒng)可以實(shí)現(xiàn)圖1所示出的全部組件,通過(guò)單一實(shí)體或多個(gè)實(shí)體的任何組合來(lái)管理。在另一種情況下,任何兩個(gè)或更多分開(kāi)的系統(tǒng)可以實(shí)現(xiàn)圖1所示出的任何兩個(gè)或更多組件,也是通過(guò)單一實(shí)體或多個(gè)實(shí)體的任何組合來(lái)管理。不論是哪一種情況,圖1所示出的組件可以位于單一站點(diǎn)或者分布在多個(gè)相應(yīng)的站點(diǎn)中。下面的說(shuō)明提供了關(guān)于圖1所示出的組件的附加細(xì)節(jié)。以挖掘系統(tǒng)104開(kāi)始,此組件通過(guò)從非結(jié)構(gòu)化資源110檢索結(jié)果項(xiàng)來(lái)操作。非結(jié)構(gòu)化資源110表示資源項(xiàng)的任何局部化的或分布式源。資源項(xiàng)又可以對(duì)應(yīng)于文本信息的任何單元。例如,非結(jié)構(gòu)化資源110可以表示由諸如因特網(wǎng)之類的廣域網(wǎng)所提供的資源項(xiàng)的分布式儲(chǔ)存庫(kù)。這里,資源項(xiàng)可以對(duì)應(yīng)于任何類型的可通過(guò)網(wǎng)絡(luò)訪問(wèn)的頁(yè)面和/或相關(guān)聯(lián)的文檔。非結(jié)構(gòu)化資源110被視為非結(jié)構(gòu)化的,因?yàn)樗鼪](méi)有按并行語(yǔ)料庫(kù)的方式排列的先驗(yàn)。換言之,非結(jié)構(gòu)化資源110不根據(jù)任何包羅萬(wàn)象的方案來(lái)將其資源項(xiàng)彼此相關(guān)聯(lián)。盡管如此,非結(jié)構(gòu)化資源110可以在重復(fù)的內(nèi)容以及替換類型的內(nèi)容方面隱而不見(jiàn)地豐富。重復(fù)的內(nèi)容是指非結(jié)構(gòu)化資源110包括文本的相同的實(shí)例的許多重復(fù)。替換類型的內(nèi)容是指非結(jié)構(gòu)化資源110包括文本的在形式方面不同但是表達(dá)類似的語(yǔ)義內(nèi)容的許多實(shí)例。這意味著,存在非結(jié)構(gòu)化資源110的可以被挖掘以便用于構(gòu)建訓(xùn)練集的底層特點(diǎn)。挖掘系統(tǒng)104的一個(gè)用途是展示非結(jié)構(gòu)化資源110的上文所描述的特征,并通過(guò)該過(guò)程,將原始非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化內(nèi)容,以便用于訓(xùn)練翻譯模型102。挖掘系統(tǒng) 104部分地結(jié)合檢索模塊116使用查詢準(zhǔn)備模塊112和接口模塊114來(lái)實(shí)現(xiàn)此用途。查詢準(zhǔn)備模塊112形成一組查詢。每一個(gè)查詢都可包括涉及目標(biāo)主題的一個(gè)或多個(gè)查詢項(xiàng)。接口模塊114向檢索模塊116提交查詢。檢索模塊116使用查詢來(lái)在非結(jié)構(gòu)化資源110內(nèi)執(zhí)行搜索。響應(yīng)于此搜索,檢索模塊116返回不同的相應(yīng)的查詢的多個(gè)結(jié)果集。每一個(gè)結(jié)果集又都包括一個(gè)或多個(gè)結(jié)果項(xiàng)。結(jié)果項(xiàng)標(biāo)識(shí)非結(jié)構(gòu)化資源110內(nèi)的相應(yīng)的資源項(xiàng)。在一種情況下,挖掘系統(tǒng)104和檢索模塊116通過(guò)由相同實(shí)體或不同的相應(yīng)的實(shí)體管理的相同系統(tǒng)來(lái)實(shí)現(xiàn)。在另一種情況下,挖掘系統(tǒng)104和檢索模塊116通過(guò)也是由相同實(shí)體或不同的相應(yīng)的實(shí)體管理的兩個(gè)相應(yīng)的系統(tǒng)來(lái)實(shí)現(xiàn)。例如,在一種實(shí)現(xiàn)中,檢索模塊 116表示諸如,但不僅限于,由美國(guó)華盛頓州雷德蒙市的微軟公司所提供的Live Search引擎之類的搜索引擎。用戶可以通過(guò)諸如由搜索引擎所提供的接口(例如,API等等)之類的任何機(jī)制來(lái)訪問(wèn)搜索引擎。搜索引擎可以使用任何搜索策略和分級(jí)策略,響應(yīng)于所提交的查詢,標(biāo)識(shí)和形成結(jié)果集。
在一種情況下,結(jié)果集中的結(jié)果項(xiàng)對(duì)應(yīng)于相應(yīng)的文本段。在響應(yīng)于對(duì)查詢的提交而形成文本段時(shí),不同的搜索引擎可以使用不同的策略。在很多情況下,文本段提供資源項(xiàng)的通過(guò)所提交的查詢傳遞資源項(xiàng)的相關(guān)性的代表性的部分(例如,摘錄)。為解釋起見(jiàn),文本段可以被視為它們的相關(guān)聯(lián)的完整的資源項(xiàng)的摘要。更具體而言,在一種情況下,文本段可以對(duì)應(yīng)于從底層的完整的資源項(xiàng)獲取的一個(gè)或多個(gè)句子。在一種情況下,接口模塊114 和檢索模塊116可以形成包括句子段的資源項(xiàng)。在另一種情況下,接口模塊114和檢索模塊116可以形成包括完整的句子(或諸如完整的段落等等之類的較大的文本單元)的資源項(xiàng)。接口模塊114將結(jié)果集存儲(chǔ)在存儲(chǔ)118中。訓(xùn)練集準(zhǔn)備模塊120(簡(jiǎn)稱為“準(zhǔn)備模塊”)處理結(jié)果集中的原始數(shù)據(jù)以產(chǎn)生訓(xùn)練集。此操作包括兩個(gè)組件操作,即,可以分開(kāi)或一起執(zhí)行的過(guò)濾和匹配。至于過(guò)濾操作,準(zhǔn)備模塊120基于一個(gè)或多個(gè)約束考慮因素來(lái)過(guò)濾原始結(jié)果項(xiàng)組。此處理的目標(biāo)是標(biāo)識(shí)作為用于成對(duì)匹配的適當(dāng)候選的結(jié)果項(xiàng)的子集,從而從結(jié)果集中消除“噪聲”。過(guò)濾操作產(chǎn)生經(jīng)過(guò)濾的結(jié)果集。至于匹配操作,準(zhǔn)備模塊120對(duì)經(jīng)過(guò)濾的結(jié)果集執(zhí)行成對(duì)匹配。成對(duì)匹配標(biāo)識(shí)結(jié)果集內(nèi)的結(jié)果項(xiàng)對(duì)。準(zhǔn)備模塊120將由上面的操作所產(chǎn)生的訓(xùn)練集存儲(chǔ)在存儲(chǔ)122 中。將在此說(shuō)明的稍后的結(jié)合點(diǎn)提供關(guān)于準(zhǔn)備模塊120的操作的附加細(xì)節(jié)。訓(xùn)練系統(tǒng)106使用存儲(chǔ)122中的訓(xùn)練集來(lái)訓(xùn)練翻譯模型102。為此,訓(xùn)練系統(tǒng)106 可包括諸如短語(yǔ)類型的SMT功能之類的任何類型的統(tǒng)計(jì)機(jī)器翻譯(SMT)功能124。SMT功能1 通過(guò)使用統(tǒng)計(jì)技術(shù)來(lái)操作,以標(biāo)識(shí)訓(xùn)練集中的模式。SMT功能IM使用這些模式來(lái)標(biāo)識(shí)訓(xùn)練集內(nèi)的短語(yǔ)的關(guān)聯(lián)。更具體而言,SMT功能124以迭代的方式執(zhí)行其訓(xùn)練操作。在每一個(gè)階段,SMT功能1 執(zhí)行統(tǒng)計(jì)分析,該統(tǒng)計(jì)分析允許它達(dá)成關(guān)于訓(xùn)練集中的短語(yǔ)的成對(duì)地對(duì)齊的暫定的假設(shè)。SMT功能IM使用這些暫定的假設(shè)來(lái)重復(fù)其統(tǒng)計(jì)分析,允許它達(dá)成更新的暫定的假設(shè)。SMT功能IM重復(fù)此迭代操作,直到結(jié)束條件被視為被滿足。存儲(chǔ)1 可以在由SMT功能1 執(zhí)行的處理過(guò)程中維持臨時(shí)對(duì)齊信息(例如,以翻譯表等等的形式)的工作集。在其處理結(jié)束時(shí),SMT功能IM產(chǎn)生定義翻譯模型102的統(tǒng)計(jì)參數(shù)。將在此說(shuō)明的稍后的結(jié)合點(diǎn)提供關(guān)于SMT功能IM的附加細(xì)節(jié)。應(yīng)用模塊108使用翻譯模型102來(lái)將輸入短語(yǔ)轉(zhuǎn)換為語(yǔ)義相關(guān)的輸出短語(yǔ)。如上文所指出的,輸入短語(yǔ)和輸出短語(yǔ)可以以相同語(yǔ)言或不同的相應(yīng)的語(yǔ)言來(lái)表示。應(yīng)用模塊 108可以在各種應(yīng)用方案的上下文中執(zhí)行此轉(zhuǎn)換。將在此說(shuō)明的稍后的結(jié)合點(diǎn)提供關(guān)于應(yīng)用模塊108和應(yīng)用方案的附加細(xì)節(jié)。圖2示出了圖1的系統(tǒng)100的一個(gè)代表性實(shí)現(xiàn)。在此情況下,計(jì)算功能202可用于實(shí)現(xiàn)挖掘系統(tǒng)104和訓(xùn)練系統(tǒng)106。計(jì)算功能202可以表示在單一站點(diǎn)中維護(hù)的或分布在多個(gè)站點(diǎn)上的任何處理功能,如由單一實(shí)體或多個(gè)實(shí)體的組合維護(hù)的。在一個(gè)代表性的情況下,計(jì)算功能202對(duì)應(yīng)于任何類型的計(jì)算機(jī)設(shè)備,如個(gè)人臺(tái)式計(jì)算設(shè)備,服務(wù)器類型的計(jì)算設(shè)備,等等。在一種情況下,非結(jié)構(gòu)化資源110可以通過(guò)由網(wǎng)絡(luò)環(huán)境204所提供的資源項(xiàng)的分布式儲(chǔ)存庫(kù)來(lái)實(shí)現(xiàn)。網(wǎng)絡(luò)環(huán)境204可以對(duì)應(yīng)于任何類型的局域網(wǎng)或廣域網(wǎng)。例如,但不僅限于,網(wǎng)絡(luò)環(huán)境204可以對(duì)應(yīng)于因特網(wǎng)。這樣的環(huán)境提供對(duì)潛在大量的資源項(xiàng)(例如,對(duì)應(yīng)于可通過(guò)網(wǎng)絡(luò)訪問(wèn)的頁(yè)面和鏈接的內(nèi)容項(xiàng)的)的訪問(wèn)。檢索模塊116可以以常規(guī)方式,例
8如,使用網(wǎng)絡(luò)爬行功能等等,維持網(wǎng)絡(luò)環(huán)境204中的可用資源項(xiàng)的索引。圖3示出了可以由檢索模塊116響應(yīng)于查詢304的提交而返回的假設(shè)結(jié)果集302 的一部分的示例。此示例充當(dāng)用于說(shuō)明圖1的挖掘系統(tǒng)104的一些概念性基礎(chǔ)的媒介。查詢304“shingles zoster (帶狀皰疹)”涉及一種已知的疾病。查詢被選擇為帶有足夠的聚焦準(zhǔn)確定位針對(duì)的主題,以排除大量的無(wú)關(guān)信息。在此示例中,“shingles”(帶狀皰疹)是指疾病的通用名稱,而“zoster” (帶狀皰疹)(例如,如在herpes zoster中) 是指疾病的比較正式的名稱。因此,這種查詢項(xiàng)的組合可以減少涉及單詞“shingles”(帶狀皰疹)的無(wú)關(guān)的和非故意的含義的結(jié)果項(xiàng)的檢索。結(jié)果集302包括被標(biāo)記為Rl-RN的一系列結(jié)果項(xiàng);圖3示出了這些結(jié)果項(xiàng)的小樣本。每一個(gè)結(jié)果項(xiàng)都包括從對(duì)應(yīng)的資源項(xiàng)中提取的文本段。在此情況下,文本段包括句子段。但是,接口模塊114和檢索模塊116也可以被配置成提供包括完整的句子(或完整的段落等等)的資源項(xiàng)。疾病“shingles (帶狀皰疹)”具有突出的特征。例如,shingles是由導(dǎo)致水痘的相同病毒(herpes zoster)的重新激活所引起的疾病。在被重新喚醒之后,病毒沿著身體的神經(jīng)傳播,導(dǎo)致外表上是微紅的疼痛的皮疹,并有成小簇的水皰。當(dāng)免疫系統(tǒng)受損害時(shí), 常常會(huì)出現(xiàn)該疾病,因此,會(huì)由身體的外傷,其他疾病,壓力等等而觸發(fā)。該疾病常常折磨老
年人等等??梢灶A(yù)計(jì)不同的結(jié)果項(xiàng)包括聚焦于疾病的突出的特征的內(nèi)容。結(jié)果,可以預(yù)計(jì)結(jié)果項(xiàng)重復(fù)某些警告短語(yǔ)。例如,如由實(shí)例306所指示的,多個(gè)結(jié)果項(xiàng)提及發(fā)生了疼痛的皮疹,如不同地表達(dá)的。如由實(shí)例308所指示的,多個(gè)結(jié)果項(xiàng)提及該疾病與免疫系統(tǒng)變?nèi)跸嚓P(guān)聯(lián),如不同地表達(dá)的。如由實(shí)例310所指示的,多個(gè)結(jié)果項(xiàng)提及該疾病導(dǎo)致病毒沿著身體中的神經(jīng)移動(dòng),如不同地表達(dá)的,等等。這些示例只是說(shuō)明性的。其他結(jié)果項(xiàng)可能基本上與目標(biāo)主題不相干。例如,結(jié)果項(xiàng)312在建筑材料的上下文中使用術(shù)語(yǔ)“shingles”,因此,與主題沒(méi)有密切關(guān)系。但是,甚至這種無(wú)關(guān)的結(jié)果項(xiàng)312也可包括與其他結(jié)果項(xiàng)共享的短語(yǔ)。可以從結(jié)果集302中表現(xiàn)的模式收集各種洞察。這些洞察中的某些嚴(yán)密地涉及目標(biāo)主題,即,疾病“shingles”(帶狀皰疹)。例如,挖掘系統(tǒng)104可以使用結(jié)果集302來(lái)推斷 “shingles”和“herpes zoster”是同義詞。其他洞察涉及一般的醫(yī)學(xué)領(lǐng)域。例如,挖掘系統(tǒng)104可以推斷短語(yǔ)“painful rash”(疼痛的皮疹)可以在含義上代替短語(yǔ)“rash that is painful”(疼痛的皮疹)。此外,當(dāng)討論免疫系統(tǒng)(以及潛在地,其他主題)時(shí),挖掘系統(tǒng)104還可以推斷短語(yǔ)“impaired”可以在含義上替換為“weakened”或“compromised”。 其他洞察可能具有全局性的或領(lǐng)域獨(dú)立的范圍。例如,挖掘系統(tǒng)104可以推斷短語(yǔ)“moves along”可以在含義上代替“travels over”或“moves over”,而短語(yǔ)“elderly”可以替換為“old people”,或“old folks”,或“senior citizens”等等。這些等效性表現(xiàn)在結(jié)果集 302內(nèi)的醫(yī)學(xué)上下文中,但是,它們也可以適用于其他上下文。例如,可以描述一個(gè)人的去上班的路為“travelling over” 一條道路或者“moving along” 一條道路。圖3還示出了訓(xùn)練系統(tǒng)106可以用來(lái)標(biāo)識(shí)短語(yǔ)之間有意義的相似度的一個(gè)機(jī)制。 例如,結(jié)果項(xiàng)重復(fù)諸如“rash”、“elderly”、“nerVes”、“immune system”等等之類的相同單詞中的許多。這些頻繁出現(xiàn)的單詞可以充當(dāng)研究文本段以了解語(yǔ)義相關(guān)短語(yǔ)的存在的錨點(diǎn)。例如,通過(guò)聚焦于與通常出現(xiàn)的短語(yǔ)“immune system”相關(guān)聯(lián)的錨點(diǎn),訓(xùn)練系統(tǒng)106可以得出結(jié)論“impaired”、“weakened”,以及“compromised”可以對(duì)應(yīng)于語(yǔ)義可互換的單詞。訓(xùn)練系統(tǒng)106可以以逐段方式趨近此研究。即,它可以導(dǎo)出關(guān)于短語(yǔ)的對(duì)齊的暫定的假設(shè)?;谀切┘僭O(shè),它可以重復(fù)其研究以導(dǎo)出新的暫定的假設(shè)。在任何結(jié)合點(diǎn),暫定的假設(shè)可以允許訓(xùn)練系統(tǒng)106導(dǎo)出對(duì)于結(jié)果項(xiàng)的相關(guān)性的額外的洞察;可另選地,假設(shè)可以表示后退一步,使進(jìn)一步的分析模糊(在這樣的情況下,可以修改假設(shè))。通過(guò)此過(guò)程,訓(xùn)練系統(tǒng)106試圖得出關(guān)于結(jié)果集內(nèi)的短語(yǔ)的相關(guān)性的穩(wěn)定的假設(shè)組。更一般而言,此示例還示出了挖掘系統(tǒng)104可以只基于查詢的提交來(lái)標(biāo)識(shí)結(jié)果項(xiàng),無(wú)需預(yù)先標(biāo)識(shí)針對(duì)相同主題的資源項(xiàng)的組(例如,底層文檔)。換言之,挖掘系統(tǒng)104可以取將資源項(xiàng)的主題作為整體的不可知的方法。在圖3的示例中,大部分資源項(xiàng)可能事實(shí)上確實(shí)涉及相同主題(疾病shingles)。然而,(1)這種相似度是只根據(jù)查詢暴露的,而并非對(duì)文檔的元級(jí)別的分析,以及( 沒(méi)有要求資源項(xiàng)涉及相同主題。前進(jìn)到圖4,此圖示出了準(zhǔn)備模塊120(圖1的)可用于在結(jié)果集(Ra)內(nèi)建立初始結(jié)果項(xiàng)配對(duì)(RAI-Ran)的方式。這里,準(zhǔn)備模塊120可以在結(jié)果集中的每一個(gè)結(jié)果項(xiàng)和每一個(gè)其他結(jié)果項(xiàng)之間建立鏈接(排除結(jié)果項(xiàng)的自我相同的配對(duì))。例如,第一對(duì)將結(jié)果項(xiàng)Rai 與結(jié)果項(xiàng)Ra2連接。第二對(duì)將結(jié)果項(xiàng)與結(jié)果項(xiàng)Ra3連接,依次類推。在實(shí)踐中,準(zhǔn)備模塊 120可以基于一個(gè)或多個(gè)過(guò)濾考慮因素來(lái)約束結(jié)果項(xiàng)之間的關(guān)聯(lián)。章節(jié)B將提供關(guān)于準(zhǔn)備模塊120可以約束結(jié)果項(xiàng)的成對(duì)匹配的方式的附加信息。為重復(fù),以上面的方式配對(duì)的結(jié)果項(xiàng)可以對(duì)應(yīng)于它們的相應(yīng)的資源項(xiàng)的任何部分,包括句子段。這意味著,挖掘系統(tǒng)104可以建立訓(xùn)練集,而無(wú)需明確的標(biāo)識(shí)并行句子的任務(wù)。換言之,訓(xùn)練系統(tǒng)106不取決于對(duì)句子級(jí)別的并行性的利用。然而,訓(xùn)練系統(tǒng)106也可以成功地處理其中結(jié)果項(xiàng)包括完整的句子(較大的文本單元)的訓(xùn)練集。圖5示出了來(lái)自不同的結(jié)果集的成對(duì)地映射可以被組合以形成存儲(chǔ)122中的訓(xùn)練集的方式。即,查詢A導(dǎo)致結(jié)果集I A,而&又導(dǎo)致成對(duì)匹配的結(jié)果集TSA。查詢( 導(dǎo)致結(jié)果集&,而&又導(dǎo)致成對(duì)匹配的結(jié)果集T&,依次類推。準(zhǔn)備模塊120組合并級(jí)聯(lián)這些不同的成對(duì)匹配的結(jié)果集以創(chuàng)建訓(xùn)練集。作為整體,訓(xùn)練集在結(jié)果項(xiàng)之間建立初始臨時(shí)對(duì)齊的集合,供進(jìn)一步的調(diào)查。訓(xùn)練系統(tǒng)106以迭代的方式對(duì)訓(xùn)練集進(jìn)行操作,以標(biāo)識(shí)揭示確實(shí)相關(guān)的文本段的對(duì)齊的子集。最終,訓(xùn)練系統(tǒng)106試圖標(biāo)識(shí)在對(duì)齊內(nèi)表現(xiàn)出的語(yǔ)義相關(guān)的短語(yǔ)。作為本節(jié)中的最后一點(diǎn),注意,在圖1中,在系統(tǒng)100的不同的組件之間繪制了虛線。這用圖形方式表示了由任何組件取得的結(jié)論可用于修改其他組件的操作。例如,SMT功能1 可以取得對(duì)準(zhǔn)備模塊120執(zhí)行其初始過(guò)濾以及結(jié)果集的配對(duì)的方式有影響的某些結(jié)論。準(zhǔn)備模塊120可以接收此反饋,并作為響應(yīng),修改其過(guò)濾或匹配行為。在另一種情況下, SMT功能IM或準(zhǔn)備模塊120可以達(dá)成關(guān)于某些查詢組成策略的有效性的結(jié)論,例如,對(duì)查詢組成策略提取在重復(fù)的內(nèi)容以及替換類型的內(nèi)容方面豐富的結(jié)果集的能力影響。查詢準(zhǔn)備模塊112可以接收此反饋,并作為響應(yīng),修改其行為。更具體而言,在一種情況下,SMT功能1 或準(zhǔn)備模塊120可以發(fā)現(xiàn)包括在另一輪查詢內(nèi)可能有用的關(guān)鍵術(shù)語(yǔ)或關(guān)鍵短語(yǔ),導(dǎo)致額外的結(jié)果集供分析。在系統(tǒng)100內(nèi)可以存在供反饋的其他機(jī)會(huì)。B.說(shuō)明性過(guò)程圖6-8示出了說(shuō)明圖1的系統(tǒng)100的操作的一種方式的過(guò)程(600、700、800)。由于在章節(jié)A已經(jīng)介紹了系統(tǒng)100的操作的底層的原理,在此部分以概述的方式說(shuō)明某些操作。從圖6開(kāi)始,此圖示出了表示挖掘系統(tǒng)104和訓(xùn)練系統(tǒng)106的操作的概述的過(guò)程 600。更具體而言,操作的第一階段描述了由挖掘系統(tǒng)104執(zhí)行的挖掘操作602,而操作的第二階段描述了由訓(xùn)練系統(tǒng)106執(zhí)行的訓(xùn)練操作604。在框606中,挖掘系統(tǒng)104通過(guò)構(gòu)建一組查詢來(lái)啟動(dòng)過(guò)程600。挖掘系統(tǒng)104可以使用不同的策略來(lái)執(zhí)行此任務(wù)。在一種情況下,挖掘系統(tǒng)104可以提取一組由用戶先前向搜索引擎提交的實(shí)際查詢,例如,從查詢?nèi)罩镜鹊戎蝎@得的。在另一種情況下,挖掘系統(tǒng)104 可以基于任何引用源或引用源的組合來(lái)構(gòu)建“人工的”查詢。例如,挖掘系統(tǒng)104可以從諸如Wikipedia等等之類的百科全書(shū)引用源的分類索引或從同義詞庫(kù)等等提取查詢項(xiàng)。只作為一個(gè)示例,挖掘系統(tǒng)104可以使用引用源來(lái)生成包括不同的疾病名稱的查詢集合。挖掘系統(tǒng)104可以利用一個(gè)或多個(gè)其他項(xiàng)來(lái)補(bǔ)充疾病名稱,以幫助聚焦返回的結(jié)果集。例如,挖掘系統(tǒng)104可以將每一個(gè)常見(jiàn)的疾病名稱與其正式的醫(yī)學(xué)等效名稱結(jié)合,如在“shingles AND zoster”中那樣?;蛘?,挖掘系統(tǒng)104可以將每一個(gè)疾病名稱與在某種程度上與疾病名稱正交的另一查詢項(xiàng)結(jié)合,如“shingles AND prevention"(帶狀皰疹A(yù)ND預(yù)防)等等。更加廣泛地考慮,框606中的查詢選擇可以受不同的包羅萬(wàn)象的目標(biāo)來(lái)控制。在一種情況下,挖掘系統(tǒng)104可以試圖準(zhǔn)備聚焦于特定領(lǐng)域的查詢。這種策略在對(duì)在某種程度上偏重于該特定領(lǐng)域的短語(yǔ)進(jìn)行表面處理時(shí)有效。在另一種情況下,挖掘系統(tǒng)104可以試圖準(zhǔn)備細(xì)查較寬的范圍的領(lǐng)域的查詢。這種策略在對(duì)本質(zhì)上比較領(lǐng)域獨(dú)立的短語(yǔ)進(jìn)行表面處理(surcfacing)時(shí)有效。在任何情況下,挖掘系統(tǒng)104試圖獲取在重復(fù)的內(nèi)容以及替換類型的內(nèi)容方面豐富的結(jié)果項(xiàng),如上文所討論的。此外,查詢本身仍是從非結(jié)構(gòu)化資源中提取并行性的主要媒介,而并非任何類型的對(duì)資源項(xiàng)之間的相似的主題的先驗(yàn)的分析。最后,挖掘系統(tǒng)104可以接收揭示其對(duì)查詢的選擇的有效性的反饋?;诖朔答仯?挖掘系統(tǒng)104可以修改控制它如何構(gòu)建查詢的規(guī)則。另外,反饋可以標(biāo)識(shí)可以被用來(lái)形成查詢的特定關(guān)鍵字或關(guān)鍵短語(yǔ)。在框608中,挖掘系統(tǒng)104向檢索模塊116提交查詢。檢索模塊116又使用查詢來(lái)在非結(jié)構(gòu)化資源110內(nèi)執(zhí)行搜索操作。在框610中,挖掘系統(tǒng)104從檢索模塊116接收返回的結(jié)果集。結(jié)果集包括相應(yīng)的結(jié)果項(xiàng)組。每一個(gè)結(jié)果項(xiàng)都可以對(duì)應(yīng)于從非結(jié)構(gòu)化資源110內(nèi)的對(duì)應(yīng)的資源項(xiàng)中提取的文本段。在框612中,挖掘系統(tǒng)104對(duì)結(jié)果集執(zhí)行初始處理以產(chǎn)生訓(xùn)練集。如上文所描述的,此操作可包括兩個(gè)組件。在過(guò)濾組件中,挖掘系統(tǒng)104約束結(jié)果集以去除或邊緣化對(duì)標(biāo)識(shí)語(yǔ)義相關(guān)的短語(yǔ)不太可能有用的信息。在匹配組件中,挖掘系統(tǒng)104標(biāo)識(shí)結(jié)果項(xiàng)對(duì),例如,一個(gè)集一個(gè)集地。圖4用圖形方式示出了說(shuō)明性結(jié)果集的上下文中的此操作。圖7提供關(guān)于在框612中執(zhí)行的操作的附加細(xì)節(jié)。在框614中,訓(xùn)練系統(tǒng)106使用統(tǒng)計(jì)技術(shù)來(lái)對(duì)訓(xùn)練集進(jìn)行操作,以導(dǎo)出翻譯模型 102??梢允褂萌魏谓y(tǒng)計(jì)機(jī)器翻譯方法來(lái)執(zhí)行此操作,諸如任何類型的面向短語(yǔ)的方法。一般而言,翻譯模型102可以被表示成P (y I χ),后者定義了輸出短語(yǔ)y表示給定輸入短語(yǔ)χ的概率。通過(guò)使用貝葉斯規(guī)則,這可以被表達(dá)為P(y Iχ) =Ρ(χIy)P(y)/P(χ)。訓(xùn)練系統(tǒng)106操作以基于對(duì)訓(xùn)練集的研究來(lái)暴露由此表達(dá)式所定義的概率,帶有趨向于最大化P (χ I y) P (y) 的從輸入短語(yǔ)χ學(xué)習(xí)映射的目標(biāo)。如上文所指出的,調(diào)查本質(zhì)上是迭代的。在操作的每一個(gè)階段,訓(xùn)練系統(tǒng)106可以取得關(guān)于訓(xùn)練集內(nèi)的短語(yǔ)(以及文本段作為整體)的對(duì)齊的暫定的結(jié)論。在面向短語(yǔ)的SMT方法中,可以使用翻譯表等等來(lái)表達(dá)暫定的結(jié)論。在框616中,訓(xùn)練系統(tǒng)616確定是否已經(jīng)達(dá)到結(jié)束條件,指示已經(jīng)實(shí)現(xiàn)了令人滿意的對(duì)齊結(jié)果??梢允褂萌魏味攘縼?lái)作出此確定,諸如已知的雙語(yǔ)評(píng)估替代技術(shù)(BLEU)分?jǐn)?shù)。在框618中,如果還沒(méi)有實(shí)現(xiàn)滿意的結(jié)果,則訓(xùn)練系統(tǒng)106修改用于訓(xùn)練的其假設(shè)中的任何一個(gè)。這具有修改關(guān)于結(jié)果項(xiàng)內(nèi)的短語(yǔ)如何彼此相關(guān)聯(lián)(以及文本段作為整體如何彼此相關(guān)聯(lián))的主要的起作用的假設(shè)的效果。當(dāng)滿足了結(jié)束條件時(shí),訓(xùn)練系統(tǒng)106將具有經(jīng)標(biāo)識(shí)的訓(xùn)練集內(nèi)的語(yǔ)義相關(guān)的短語(yǔ)之間的映射。定義這些映射的參數(shù)建立了翻譯模型102。構(gòu)成對(duì)這樣的翻譯模型102的使用的基礎(chǔ)的假設(shè)是,文本的新遇到的實(shí)例將類似于訓(xùn)練集內(nèi)發(fā)現(xiàn)的模式。圖6的過(guò)程可以以不同的方式變化。例如,在替換實(shí)現(xiàn)中,框614中的訓(xùn)練操作可以使用統(tǒng)計(jì)分析和基于規(guī)則的分析的組合來(lái)導(dǎo)出翻譯模型102。在另一修改方案中,框614 中的訓(xùn)練操作可以將訓(xùn)練任務(wù)分解為多個(gè)子任務(wù),事實(shí)上,創(chuàng)建多個(gè)翻譯模型。然后,訓(xùn)練操作可以將多個(gè)翻譯模型合并為單一翻譯模型102。在另一修改方案中,可以使用諸如從同義詞庫(kù)等等獲得的信息之類的引用源,來(lái)初始化或“預(yù)準(zhǔn)備”框614中的訓(xùn)練操作。其他修改方案也是可以的。圖7示出了提供關(guān)于由挖掘系統(tǒng)104在圖6的框612中執(zhí)行的過(guò)濾和匹配過(guò)程的附加細(xì)節(jié)的過(guò)程700。在框702中,挖掘系統(tǒng)104基于一個(gè)或多個(gè)考慮因素來(lái)過(guò)濾原始結(jié)果集。此操作具有標(biāo)識(shí)被視為用于成對(duì)匹配的最適當(dāng)?shù)暮蜻x的結(jié)果項(xiàng)的子集的效果。此操作有助于降低訓(xùn)練集的復(fù)雜性和訓(xùn)練集中的噪聲量(例如,通過(guò)消除或邊緣化被評(píng)估為具有低相關(guān)性的結(jié)果項(xiàng))。在一種情況下,挖掘系統(tǒng)104可以基于與結(jié)果項(xiàng)相關(guān)聯(lián)的評(píng)分來(lái)將結(jié)果項(xiàng)標(biāo)識(shí)為用于成對(duì)匹配的適當(dāng)?shù)暮蜻x。否定地說(shuō),挖掘系統(tǒng)104可以去除具有低于規(guī)定的相關(guān)性閾值的評(píng)分的結(jié)果項(xiàng)??闪磉x地,或另外地,挖掘系統(tǒng)104可以生成相應(yīng)的結(jié)果集的詞匯簽名,這些簽名表達(dá)在結(jié)果集內(nèi)發(fā)現(xiàn)的典型的文本特點(diǎn)(例如,基于在結(jié)果集中出現(xiàn)的單詞的共同性)。然后,挖掘系統(tǒng)104可以將每一個(gè)結(jié)果項(xiàng)與和其結(jié)果集相關(guān)聯(lián)的詞匯簽名進(jìn)行比較。挖掘系統(tǒng)104可以基于此比較來(lái)將結(jié)果項(xiàng)標(biāo)識(shí)為用于成對(duì)匹配的適當(dāng)?shù)暮蜻x。從反面來(lái)說(shuō),挖掘系統(tǒng)104可以去除與它們的詞匯簽名相差規(guī)定的量的結(jié)果項(xiàng)。不太正式地陳述,挖掘系統(tǒng) 104可以去除在它們的相應(yīng)的結(jié)果集內(nèi)“突出的”結(jié)果項(xiàng)??闪磉x地,或另外地,挖掘系統(tǒng)104可以生成相似度分?jǐn)?shù),這些分?jǐn)?shù)標(biāo)識(shí)每一個(gè)結(jié)果項(xiàng)相對(duì)于結(jié)果集內(nèi)的每一個(gè)其他結(jié)果項(xiàng)的相似度如何。挖掘系統(tǒng)104可以依賴于任何相似度度量來(lái)作出此確定,諸如,但不僅限于,余弦相似度度量。挖掘系統(tǒng)104可以基于這些相似度分?jǐn)?shù)來(lái)將結(jié)果項(xiàng)標(biāo)識(shí)為用于成對(duì)匹配的適當(dāng)?shù)暮蜻x。從反面來(lái)說(shuō),挖掘系統(tǒng)104可以標(biāo)識(shí)對(duì)于匹配來(lái)說(shuō)不是好的候選的結(jié)果項(xiàng)的對(duì),因?yàn)樗鼈儽舜讼嗖畛^(guò)規(guī)定量(如相似
12度分?jǐn)?shù)所揭示的)??闪磉x地,或另外地,挖掘系統(tǒng)104可以對(duì)結(jié)果集內(nèi)的結(jié)果項(xiàng)執(zhí)行聚類分析,以確定類似的結(jié)果項(xiàng)的組,例如,使用k_最近鄰聚類技術(shù)或任何其他聚類技術(shù)。然后,挖掘系統(tǒng) 104可以將每一個(gè)集群內(nèi)的結(jié)果項(xiàng)標(biāo)識(shí)為用于成對(duì)匹配的適當(dāng)?shù)暮蜻x,但不是跨不同的集群的候選。挖掘系統(tǒng)104可以執(zhí)行其他操作以過(guò)濾或“清理”從非結(jié)構(gòu)化資源110收集到的結(jié)果項(xiàng)???02導(dǎo)致生成經(jīng)過(guò)濾的結(jié)果集。在框704中,挖掘系統(tǒng)104標(biāo)識(shí)經(jīng)過(guò)濾的結(jié)果集內(nèi)的對(duì)。如已經(jīng)討論的,圖4示出了如何在說(shuō)明性結(jié)果集的上下文內(nèi)執(zhí)行此操作。在框706中,挖掘系統(tǒng)104可以組合框704的結(jié)果(與單個(gè)結(jié)果集相關(guān)聯(lián))以提供訓(xùn)練集。如已經(jīng)討論的,圖5示出了如何執(zhí)行此操作。雖然框704被示為與框702分開(kāi),以有助于說(shuō)明,但是,框702和704可以作為集成的操作來(lái)執(zhí)行。此外,框702和704的過(guò)濾和匹配操作可以分布到操作的多個(gè)階段。例如,挖掘系統(tǒng)104可以對(duì)結(jié)果項(xiàng)遵循框706執(zhí)行進(jìn)一步的過(guò)濾。此外,訓(xùn)練系統(tǒng)106可以在其迭代過(guò)程的過(guò)程中對(duì)結(jié)果項(xiàng)執(zhí)行進(jìn)一步的過(guò)濾(如圖6的框614-618所示)。作為另一種變體,框704是在單個(gè)結(jié)果集內(nèi)建立結(jié)果項(xiàng)對(duì)的上下文中描述的。然而,在另一種模式下,挖掘系統(tǒng)104可以跨不同的結(jié)果集建立候選對(duì)。圖8示出了描述翻譯模型102的說(shuō)明性應(yīng)用的過(guò)程800。在框802中,應(yīng)用模塊108接收輸入短語(yǔ)。在框804中,應(yīng)用模塊108使用翻譯模型102來(lái)將輸入短語(yǔ)轉(zhuǎn)換為輸出短語(yǔ)。在框806中,應(yīng)用模塊108基于輸出短語(yǔ)來(lái)生成輸出結(jié)果。不同的應(yīng)用模塊可以提供不同的相應(yīng)的輸出結(jié)果以實(shí)現(xiàn)不同的相應(yīng)的優(yōu)點(diǎn)。在一種情況下,應(yīng)用模塊108可以使用翻譯模型102來(lái)執(zhí)行查詢修改操作。這里,應(yīng)用模塊108可以將輸入短語(yǔ)當(dāng)作搜索查詢。應(yīng)用模塊108可以使用輸出短語(yǔ)來(lái)替換或補(bǔ)充搜索查詢。例如,如果輸入短語(yǔ)是“shingles”,則應(yīng)用模塊108可以使用輸出短語(yǔ) “zoster”來(lái)生成補(bǔ)充查詢“shingles AND zoster”。然后,應(yīng)用模塊108可以向搜索引擎呈現(xiàn)擴(kuò)展的查詢。在另一種情況下,應(yīng)用模塊108可以使用翻譯模型102來(lái)編制索引分類決策。這里,應(yīng)用模塊108可以從要被分類的文檔中提取任何文本內(nèi)容,并將該文本內(nèi)容當(dāng)作輸入短語(yǔ)。應(yīng)用模塊108可以使用輸出短語(yǔ)來(lái)收集關(guān)于文檔的主題的額外的洞察,該洞察又可用于提供文檔的適當(dāng)?shù)姆诸?。在另一種情況下,應(yīng)用模塊108可以使用翻譯模型102來(lái)執(zhí)行任何類型的文本修改操作。這里,應(yīng)用模塊108可以將輸入短語(yǔ)當(dāng)作文本修改的候選。應(yīng)用模塊108可以使用輸出短語(yǔ)來(lái)建議可以修改輸入短語(yǔ)的方式。例如,假設(shè)輸入短語(yǔ)對(duì)應(yīng)于相當(dāng)冗長(zhǎng)的文本 "rash that is painful”。應(yīng)用模塊108可以建議可以將此輸入短語(yǔ)替換為比較簡(jiǎn)潔的 "painful rash”。在提出此建議時(shí),應(yīng)用模塊108可以糾正原始短語(yǔ)中的任何語(yǔ)法上的和 /或拼寫錯(cuò)誤(假設(shè)輸出短語(yǔ)不包含語(yǔ)法上的和/或拼寫錯(cuò)誤)。在一種情況下,應(yīng)用模塊 108可以給用戶提供關(guān)于他或她如何修改輸入短語(yǔ)的多種選擇,與允許用戶估計(jì)不同的修改的適當(dāng)性的一些類型的信息耦合。例如,應(yīng)用模塊108通過(guò)指出這種表達(dá)您的思想的方式被80%的作者使用(只引用一個(gè)代表性的示例)來(lái)注解特定修改。可另選地,應(yīng)用模塊 108可以基于一個(gè)或多個(gè)考慮因素來(lái)自動(dòng)作出修改。在另一種文本修改情況下,應(yīng)用模塊108可以使用翻譯模型102來(lái)執(zhí)行文本截?cái)嗖僮鳌@?,?yīng)用模塊108可以接收原文本,以便在諸如移動(dòng)電話設(shè)備等等之類的小屏幕查看設(shè)備上呈現(xiàn)。應(yīng)用模塊108可以使用翻譯模型102來(lái)將被視為輸入短語(yǔ)的文本轉(zhuǎn)換為文本的縮寫的版本。在另一種情況下,應(yīng)用模塊108可以使用此方法來(lái)縮短原始短語(yǔ),以使得它與諸如類似于Twitter的通信機(jī)制之類的對(duì)其消息施加大小約束的任何消息傳輸機(jī)制兼容。在另一種文本修改情況下,應(yīng)用模塊108可以使用翻譯模型102來(lái)概括一個(gè)或短語(yǔ)。例如,應(yīng)用模塊108可以使用此方法來(lái)縮短原始摘要的長(zhǎng)度。在另一種情況下,應(yīng)用模塊108可以使用此方法來(lái)基于文本的較長(zhǎng)的片斷來(lái)建議標(biāo)題??闪磉x地,應(yīng)用模塊108可以使用翻譯模型102來(lái)擴(kuò)展文檔或短語(yǔ)。在另一種情況下,應(yīng)用模塊108可以使用翻譯模型102來(lái)執(zhí)行廣告信息的擴(kuò)展。這里,例如,廣告商可能已經(jīng)選擇了與廣告內(nèi)容(例如,網(wǎng)頁(yè)或其他可通過(guò)網(wǎng)絡(luò)訪問(wèn)的內(nèi)容) 相關(guān)聯(lián)的初始觸發(fā)關(guān)鍵字。如果最終用戶輸入了這些觸發(fā)關(guān)鍵字,或者如果用戶以別的方式正在消費(fèi)與這些觸發(fā)關(guān)鍵字相關(guān)聯(lián)的內(nèi)容,則廣告機(jī)制可以將用戶定向到與觸發(fā)關(guān)鍵字相關(guān)聯(lián)的廣告內(nèi)容。這里,應(yīng)用模塊108可以將初始觸發(fā)關(guān)鍵字集合視為要使用翻譯模型 102擴(kuò)展的輸入短語(yǔ)。可另選地,或另外,應(yīng)用模塊108可以將廣告內(nèi)容本身當(dāng)作輸入短語(yǔ)。 然后,應(yīng)用模塊108可以使用翻譯模型102來(lái)建議與廣告內(nèi)容關(guān)聯(lián)的文本。廣告商可以基于建議的文本來(lái)提供一個(gè)或多個(gè)觸發(fā)關(guān)鍵字。上文所描述的應(yīng)用是代表性的,且非窮盡性的。其他應(yīng)用也是可以的。在上面的討論中,作出了輸出短語(yǔ)以與輸入短語(yǔ)相同的語(yǔ)言來(lái)表示的假設(shè)。在此情況下,輸出短語(yǔ)可以被視為輸入短語(yǔ)的釋義。在另一種情況下,挖掘系統(tǒng)104和訓(xùn)練系統(tǒng) 106可用于產(chǎn)生將第一語(yǔ)言的短語(yǔ)轉(zhuǎn)換為另一種語(yǔ)言(或多種其他語(yǔ)言)的對(duì)應(yīng)的短語(yǔ)的翻譯模型102。為在雙語(yǔ)或多語(yǔ)言上下文中操作,挖掘系統(tǒng)104可以如上文參考雙語(yǔ)或多語(yǔ)言信息所描述的相同基本操作。在一種情況下,挖掘系統(tǒng)104可以通過(guò)在網(wǎng)絡(luò)環(huán)境內(nèi)提交并行查詢來(lái)建立雙語(yǔ)結(jié)果集。即,挖掘系統(tǒng)104可以提交一個(gè)組以第一語(yǔ)言表示的查詢和另一組以第二語(yǔ)言表示的查詢。例如,挖掘系統(tǒng)104可以提交短語(yǔ)“rash zoster”來(lái)生成英語(yǔ)結(jié)果集,提交短語(yǔ)“zoster erupcion de piel”來(lái)生成英語(yǔ)結(jié)果集的西班牙語(yǔ)對(duì)應(yīng)結(jié)果集。 然后,挖掘系統(tǒng)104可以建立將英語(yǔ)結(jié)果項(xiàng)鏈接到西班牙語(yǔ)結(jié)果項(xiàng)的對(duì)。這種匹配操作的目標(biāo)是提供允許訓(xùn)練系統(tǒng)106標(biāo)識(shí)用英語(yǔ)和西班牙語(yǔ)表示的語(yǔ)義相關(guān)的短語(yǔ)之間的鏈接的訓(xùn)練集。在另一種情況下,挖掘系統(tǒng)104可以提交組合了英語(yǔ)和西班牙語(yǔ)關(guān)鍵術(shù)語(yǔ)的查詢,諸如在查詢“shingles rash erupcion de piel”的情況下。在此方法中,可以預(yù)計(jì)檢索模塊116提供組合了以英語(yǔ)表示的結(jié)果項(xiàng)和以西班牙語(yǔ)表示的結(jié)果項(xiàng)的結(jié)果集。然后,挖掘系統(tǒng)104可以在此混合結(jié)果集中的不同的結(jié)果項(xiàng)之間建立鏈接,無(wú)需鑒別結(jié)果項(xiàng)是以英語(yǔ)表示的還是以西班牙語(yǔ)表示的。訓(xùn)練系統(tǒng)106可以基于混合訓(xùn)練集中的底層模式來(lái)生成單一翻譯模型102。在使用中,可以在單語(yǔ)種模式下應(yīng)用翻譯模型102,在這種模式下,翻譯
14模型被約束為以與輸入短語(yǔ)相同語(yǔ)言生成輸出短語(yǔ)?;蛘?,翻譯模型102可以在雙語(yǔ)模式下操作,在這種模式下,翻譯模型被約束為以與輸入短語(yǔ)相比不同的語(yǔ)言的生成輸出短語(yǔ)。 或者,翻譯模型102可以在無(wú)約束的模式下操作,在無(wú)約束的模式下,翻譯模型同時(shí)提供兩種語(yǔ)言的結(jié)果。代表性的處理功能圖9闡述了可以被用來(lái)實(shí)現(xiàn)上文所描述的功能的任何方面的說(shuō)明性電氣數(shù)據(jù)處理功能900。參考圖1和2,例如,圖9所示出的處理功能900的類型可用于實(shí)現(xiàn)系統(tǒng)100 或計(jì)算功能202的任何方面,等等。在一種情況下,處理功能900可以對(duì)應(yīng)于包括一個(gè)或多個(gè)處理設(shè)備的任何類型的計(jì)算設(shè)備。處理功能900可包括諸如RAM 902和ROM 904之類的易失性和非易失性存儲(chǔ)器, 以及一個(gè)或多個(gè)處理設(shè)備906。處理功能900還可任選地包括諸如硬盤模塊、光盤模塊等等之類的各種介質(zhì)設(shè)備908。當(dāng)處理設(shè)備900執(zhí)行由存儲(chǔ)器(例如,RAM 906、ROM 902或在別處)維護(hù)的指令時(shí),處理功能904可以執(zhí)行上文所標(biāo)識(shí)的各種操作。更一般而言,指令及其他信息可以存儲(chǔ)在任何計(jì)算機(jī)可讀介質(zhì)910上,包括,但不僅限于,靜態(tài)存儲(chǔ)器存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備、光存儲(chǔ)設(shè)備等等。術(shù)語(yǔ)“計(jì)算機(jī)可讀介質(zhì)”還包含多個(gè)存儲(chǔ)設(shè)備。術(shù)語(yǔ)“計(jì)算機(jī)可讀介質(zhì)”還包含,例如,通過(guò)有線、電纜、無(wú)線傳輸?shù)鹊?,從第一位置傳輸?shù)降诙恢玫男盘?hào)。處理功能900還包括用于接收來(lái)自用戶的各種輸入(通過(guò)輸入模塊912),以及用于向用戶提供各種輸出(通過(guò)輸出模塊)的輸入/輸出模塊914。一個(gè)特定的輸出機(jī)制可包括呈現(xiàn)模塊916和相關(guān)聯(lián)的圖形用戶界面(⑶1)918。處理功能900還可以包括用于通過(guò)一個(gè)或多個(gè)通信管道920與其他設(shè)備交換數(shù)據(jù)的一個(gè)或多個(gè)網(wǎng)絡(luò)接口 922。一個(gè)或多個(gè)通信總線擬4可通信地將上文所描述的組件耦合在一起。盡管用結(jié)構(gòu)特征和/或方法動(dòng)作專用的語(yǔ)言描述了本主題,但可以理解,所附權(quán)利要求書(shū)中定義的主題不必限于上述具體特征或動(dòng)作。相反,上述具體特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求的示例形式公開(kāi)的。
權(quán)利要求
1.一種用于使用電氣數(shù)據(jù)處理功能來(lái)創(chuàng)建用于訓(xùn)練統(tǒng)計(jì)翻譯模型的訓(xùn)練集的方法 (600),包括構(gòu)建(606)查詢;向電氣數(shù)據(jù)檢索模塊呈現(xiàn)(608)所述查詢,所述檢索模塊被配置成基于所述查詢來(lái)在非結(jié)構(gòu)化資源內(nèi)執(zhí)行搜索操作;從所述檢索模塊接收(610)結(jié)果集,所述結(jié)果集提供由所述檢索模塊所標(biāo)識(shí)的結(jié)果項(xiàng),作為所述搜索操作的結(jié)果;以及對(duì)所述結(jié)果集執(zhí)行(612)處理,以產(chǎn)生結(jié)構(gòu)化訓(xùn)練集,所述訓(xùn)練集標(biāo)識(shí)所述結(jié)果集內(nèi)的所述結(jié)果項(xiàng)對(duì),所述訓(xùn)練集提供一個(gè)基礎(chǔ),通過(guò)該基礎(chǔ),電氣訓(xùn)練系統(tǒng)能夠?qū)W習(xí)所述統(tǒng)計(jì)翻譯模型。
2.如權(quán)利要求1所述的方法,其特征在于,所述檢索模塊是搜索引擎,并且其中所述非結(jié)構(gòu)化資源是可通過(guò)網(wǎng)絡(luò)環(huán)境被訪問(wèn)的集合資源項(xiàng)。
3.如權(quán)利要求2所述的方法,其特征在于,所述網(wǎng)絡(luò)環(huán)境是廣域網(wǎng)。
4.如權(quán)利要求1所述的方法,其特征在于,所述執(zhí)行處理包括基于至少一個(gè)考慮因素來(lái)約束所述結(jié)果集中的所述結(jié)果項(xiàng)。
5.如權(quán)利要求4所述的方法,其特征在于,所述約束包括基于與結(jié)果項(xiàng)相關(guān)聯(lián)的評(píng)分, 將所述結(jié)果項(xiàng)標(biāo)識(shí)為用于成對(duì)匹配的候選。
6.如權(quán)利要求4所述的方法,其特征在于,所述約束包括基于所述結(jié)果項(xiàng)和與所述結(jié)果集相關(guān)聯(lián)的相應(yīng)的詞匯簽名之間的一致性,將所述結(jié)果集標(biāo)識(shí)為用于成對(duì)匹配的候選。
7.如權(quán)利要求4所述的方法,其特征在于,所述約束包括基于與相應(yīng)的結(jié)果項(xiàng)對(duì)相關(guān)聯(lián)的相似度分?jǐn)?shù),將所述結(jié)果項(xiàng)標(biāo)識(shí)為用于成對(duì)匹配的候選。
8.如權(quán)利要求4所述的方法,其特征在于,所述約束包括基于所述結(jié)果項(xiàng)和已標(biāo)識(shí)的結(jié)果項(xiàng)的集群之間的關(guān)聯(lián),標(biāo)識(shí)用于成對(duì)匹配的候選。
9.如權(quán)利要求1所述的方法,其特征在于,所述執(zhí)行處理包括,對(duì)于每一個(gè)結(jié)果集,標(biāo)識(shí)所述結(jié)果集內(nèi)的結(jié)果項(xiàng)對(duì)。
10.如權(quán)利要求1所述的方法,其特征在于,所述結(jié)果集內(nèi)的所述結(jié)果項(xiàng)對(duì)應(yīng)于單語(yǔ)種文本內(nèi)容。
11.如權(quán)利要求1所述的方法,其特征在于,所述結(jié)果集內(nèi)的所述結(jié)果對(duì)應(yīng)于雙語(yǔ)文本內(nèi)容。
12.如權(quán)利要求1所述的方法,其特征在于,所述結(jié)果項(xiàng)包括由所述檢索模塊從所述非結(jié)構(gòu)化資源檢索到的文本段,所述文本段對(duì)應(yīng)于所述非結(jié)構(gòu)化資源內(nèi)的相應(yīng)的資源項(xiàng)的摘錄。
13.如權(quán)利要求1所述的方法,其特征在于,還包括基于所述訓(xùn)練集來(lái)生成所述統(tǒng)計(jì)翻譯模型,并應(yīng)用所述統(tǒng)計(jì)翻譯模型,所述應(yīng)用包括下列各項(xiàng)中的一項(xiàng)使用所述統(tǒng)計(jì)翻譯模型來(lái)擴(kuò)展搜索查詢;使用所述統(tǒng)計(jì)翻譯模型來(lái)促進(jìn)文檔索引決策;使用所述統(tǒng)計(jì)翻譯模型來(lái)修改文本內(nèi)容;或使用所述統(tǒng)計(jì)翻譯模型來(lái)擴(kuò)展廣告信息。
14.一種用于創(chuàng)建用于訓(xùn)練統(tǒng)計(jì)翻譯模型(102)的訓(xùn)練集的電氣挖掘系統(tǒng)(104),包括被配置成構(gòu)建查詢的查詢呈現(xiàn)模塊(112); 被配置成執(zhí)行下列操作的接口模塊(114)向檢索模塊(116)呈現(xiàn)所述查詢,所述檢索模塊(116)被配置成基于所述查詢來(lái)在非結(jié)構(gòu)化資源(110)內(nèi)執(zhí)行搜索操作;以及從所述檢索模塊(116)接收結(jié)果集,所述結(jié)果集提供由所述檢索模塊(116)所標(biāo)識(shí)的結(jié)果項(xiàng),作為所述搜索操作的結(jié)果;以及訓(xùn)練集準(zhǔn)備模塊(120),所述訓(xùn)練集準(zhǔn)備模塊(120)被配置成對(duì)所述結(jié)果集執(zhí)行處理以產(chǎn)生結(jié)構(gòu)化訓(xùn)練集,所述訓(xùn)練集標(biāo)識(shí)所述結(jié)果集內(nèi)的所述結(jié)果項(xiàng)對(duì),所述訓(xùn)練集提供一個(gè)基礎(chǔ),通過(guò)該基礎(chǔ),電氣訓(xùn)練系統(tǒng)(106)可以學(xué)習(xí)所述統(tǒng)計(jì)翻譯模型(102),所述結(jié)果集內(nèi)的所述結(jié)果項(xiàng)包括由所述檢索模塊(116)從所述非結(jié)構(gòu)化資源檢索到的文本段,所述文本段至少對(duì)應(yīng)于所述非結(jié)構(gòu)化資源內(nèi)的相應(yīng)的資源項(xiàng)的句子段,所述資源項(xiàng)沒(méi)有彼此之間的預(yù)先標(biāo)識(shí)的關(guān)系。
15.如權(quán)利要求14所述的挖掘系統(tǒng),其特征在于,所述結(jié)果集內(nèi)的所述結(jié)果項(xiàng)對(duì)應(yīng)于單語(yǔ)種文本內(nèi)容,由所述訓(xùn)練系統(tǒng)所產(chǎn)生的所述統(tǒng)計(jì)翻譯模型被用來(lái)在單一語(yǔ)言內(nèi)的語(yǔ)義相關(guān)的短語(yǔ)之間映射。
全文摘要
挖掘系統(tǒng)應(yīng)用查詢來(lái)從非結(jié)構(gòu)化資源檢索結(jié)果項(xiàng)。非結(jié)構(gòu)化資源可以對(duì)應(yīng)于可通過(guò)網(wǎng)絡(luò)訪問(wèn)的資源項(xiàng)的儲(chǔ)存庫(kù)。被檢索的結(jié)果項(xiàng)可以對(duì)應(yīng)于與資源項(xiàng)相關(guān)聯(lián)的文本段(例如,句子段)。挖掘系統(tǒng)通過(guò)過(guò)濾結(jié)果項(xiàng)和建立相應(yīng)的結(jié)果項(xiàng)對(duì),來(lái)產(chǎn)生結(jié)構(gòu)化訓(xùn)練集。訓(xùn)練系統(tǒng)可以使用該訓(xùn)練集來(lái)產(chǎn)生統(tǒng)計(jì)翻譯模型。翻譯模型可以用于單語(yǔ)種上下文中,以在單一語(yǔ)言的語(yǔ)義相關(guān)的短語(yǔ)之間翻譯。翻譯模型也可以用于雙語(yǔ)上下文中,以在以兩種相應(yīng)的語(yǔ)言表示的短語(yǔ)之間翻譯。還描述了翻譯模型的各種應(yīng)用。
文檔編號(hào)G06F17/26GK102439596SQ201080023190
公開(kāi)日2012年5月2日 申請(qǐng)日期2010年5月14日 優(yōu)先權(quán)日2009年5月22日
發(fā)明者C·J·布羅克特, J·J·卡斯蒂略, L·H·范德溫德, W·B·多蘭 申請(qǐng)人:微軟公司