两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用基于圖表的分級來分級文本中單詞和概念的方法和系統(tǒng)的制作方法

文檔序號:6538279閱讀:189來源:國知局
專利名稱:用基于圖表的分級來分級文本中單詞和概念的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及識別和檢索文本,尤其涉及通過生成覆蓋文本資料的圖表和對圖表的部分計分以從較大的文本資料語料庫中識別和檢索感興趣的文本部分(或文本段)。
背景技術(shù)
有各種各樣的應(yīng)用得益于在較大文本語言資料庫中識別感興趣的文本的能力。例如,文檔群集(clustering)和文檔概要兩者都嘗試識別與文檔相關(guān)聯(lián)的概念。那些概念被用來將文檔群集成各群集,或概括文檔。實際上,已經(jīng)嘗試自動群集文檔和概括整個文檔群集,以在稍后的處理中使用(例如信息檢索)。
現(xiàn)有的系統(tǒng)已經(jīng)嘗試基于它們與文檔的概念或主題如何相關(guān)來排序句子。這些句子然后被壓縮,有時候被些許重寫以獲取摘要。
在過去,已經(jīng)以許多種不同方法嘗試了句子排序。一些現(xiàn)有的系統(tǒng)基于動詞特異性以嘗試排序句子。其他方法使用基于文檔中句子位置和句子中所識別實體的頻率的試探法來嘗試排序句子。
所有這樣的現(xiàn)有系統(tǒng)都有一定的缺點(diǎn)。例如,所有這樣的現(xiàn)有系統(tǒng)都是大量消耗資源的。這些系統(tǒng)簡單地從正在被概括的文檔中提取單詞和句子片斷。這些單詞和單詞順序不會被改變。相反,如同寫在原始的文檔中那樣,用出現(xiàn)在原始文檔中的原始順序,簡單地提供這些單詞或句子片段用作文檔摘要。當(dāng)然,這對人類而言,來譯解這樣的文本片段是困難的。
此外,大多數(shù)現(xiàn)有的方法已經(jīng)通過基于檢索詞頻率對文本中的每個單詞計算一個得分來識別感興趣的單詞和文本片段。為了計算該得分,在現(xiàn)有系統(tǒng)中主要使用的技術(shù)是檢索詞頻率*逆文檔頻率(tf*idf)函數(shù),在本領(lǐng)域中該函數(shù)是眾所周知的并備有證明文件的。一些現(xiàn)有的系統(tǒng)使用(tf*idf)函數(shù)的較小的變異,但是使用(tf*idf)函數(shù)類的所有算法都是基于單詞的。
在另一個技術(shù)領(lǐng)域,圖表被建立以對網(wǎng)頁進(jìn)行分級。使用中心和權(quán)限(hub andauthorities)算法以對圖表分級,該算法使用網(wǎng)頁作為圖表中的節(jié)點(diǎn),并使用到網(wǎng)頁的鏈接作為圖表中的連接。該圖表算法還沒有被應(yīng)用于圖表文本。

發(fā)明內(nèi)容
本發(fā)明是用于從文本語料庫中識別感興趣的單詞、文本段或者概念的一種方法和系統(tǒng)。圖表被建立以覆蓋文本語料庫。圖表包括節(jié)點(diǎn)和連接,其中節(jié)點(diǎn)表示單詞或者概念,節(jié)點(diǎn)間的連接表示有方向的關(guān)系名稱。隨后對于圖表中的每個節(jié)點(diǎn)計算一個得分。也可以對圖表中較大的子圖表部分計算得分(比如元組)。得分被用于識別圖表中需要的子圖表部分,那些子圖表部分被稱作圖表片段。
在一種實施例中,文本輸出是從識別的圖表片段中生成的。該圖表片段被提供給一文本生成組件,它生成指示提供給它的圖標(biāo)片段的文本輸出。


圖1是一種能在其中使用本發(fā)明的說明性環(huán)境的框圖。
圖2是一種依照本發(fā)明的系統(tǒng)的實施例的框圖。
圖3是一個流程圖,示出了圖2中示出的系統(tǒng)的操作的一種實施例。
圖4示出了對一示例輸入文本生成的示例性圖表。
具體實施例方式
本發(fā)明涉及從較大文本語料庫中識別感興趣的單詞,文本段和概念。在更詳細(xì)地描述本發(fā)明之前,將描述一種在其中能使用本發(fā)明的說明性環(huán)境。
圖1示出了適合在其中實現(xiàn)本發(fā)明的計算系統(tǒng)環(huán)境100的一個示例。計算系統(tǒng)環(huán)境100僅為合適的計算環(huán)境的一個示例,并非暗示對本發(fā)明的使用范圍或功能的局限。也不應(yīng)將計算環(huán)境100解釋為對示例性操作環(huán)境100中示出的任一組件或其組合具有任何依賴或需求。
本發(fā)明可以使用眾多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置來操作。適合使用本發(fā)明的眾所周知的計算系統(tǒng)、環(huán)境和/或配置包括但不限于,個人計算機(jī)、服務(wù)器計算機(jī)、手持式或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)者電子設(shè)備、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、包括任一上述系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。
本發(fā)明可在諸如由計算機(jī)執(zhí)行的程序模塊等計算機(jī)可執(zhí)行指令的一般上下文環(huán)境中描述。一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等,執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。本發(fā)明也可以在分布式計算環(huán)境中實踐,其中,任務(wù)由通過通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備來執(zhí)行。在分布式計算環(huán)境中,程序模塊可以位于包括存儲器存儲設(shè)備的本地和遠(yuǎn)程計算機(jī)存儲介質(zhì)中。
參考圖1,用于實現(xiàn)本發(fā)明的示例性系統(tǒng)包括以計算機(jī)110形式的通用計算裝置。計算機(jī)110的組件包括,但不限于,處理單元120、系統(tǒng)存儲器130以及將包括系統(tǒng)存儲器的各類系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)類型的任一種,包括存儲器總線或存儲器控制器、外圍總線以及使用各類總線體系結(jié)構(gòu)的局部總線。作為示例而非局限,這類體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強(qiáng)ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA)局部總線以及外圍部件互連(PCI)總線,也稱為夾層(Mezzanine)總線。
計算機(jī)110通常包括各種計算機(jī)可讀介質(zhì)。計算機(jī)可讀介質(zhì)可以是可由計算機(jī)110訪問的任一可用介質(zhì),包括易失和非易失介質(zhì)、可移動和不可移動介質(zhì)。作為示例而非局限,計算機(jī)可讀介質(zhì)包括計算機(jī)存儲介質(zhì)和通信介質(zhì)。計算機(jī)存儲介質(zhì)包括以用于儲存諸如計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任一方法或技術(shù)實現(xiàn)的易失和非易失,可移動和不可移動介質(zhì)。計算機(jī)存儲介質(zhì)包括但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁盒、磁帶、磁盤存儲或其它磁存儲設(shè)備、或可以用來儲存所期望的信息并可由計算機(jī)110訪問的任一其它介質(zhì)。通信介質(zhì)通常在諸如載波或其它傳輸機(jī)制的已調(diào)制數(shù)據(jù)信號中包含計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任一信息傳送介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號”指以對信號中的信息進(jìn)行編碼的方式設(shè)置或改變其一個或多個特征的信號。作為示例而非局限,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡(luò)或直接連線連接,以及無線介質(zhì),如聲學(xué)、RF、紅外和其它無線介質(zhì)。上述任一的組合也應(yīng)當(dāng)包括在計算機(jī)可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲器130包括易失和/或非易失存儲器形式的計算機(jī)存儲介質(zhì),如只讀存儲器(ROM)131和隨機(jī)存取存儲器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)包括如在啟動時幫助在計算機(jī)110內(nèi)的元件之間傳輸信息的基本例程,通常儲存在ROM 131中。RAM 132通常包含處理單元120立即可訪問或者當(dāng)前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非局限,圖1示出了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機(jī)110也可包括其它可移動/不可移動、易失/非易失計算機(jī)存儲介質(zhì)。僅作示例,圖1示出了對不可移動、非易失磁介質(zhì)進(jìn)行讀寫的硬盤驅(qū)動器141、對可移動、非易失磁盤152進(jìn)行讀寫的磁盤驅(qū)動器151以及對可移動、非易失光盤156,如CD ROM或其它光介質(zhì)進(jìn)行讀寫的光盤驅(qū)動器155。可以在示例性操作環(huán)境中使用的其它可移動/不可移動、易失/非易失計算機(jī)存儲介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141通常通過不可移動存儲器接口,如接口140連接到系統(tǒng)總線121,磁盤驅(qū)動器151和光盤驅(qū)動器155通常通過可移動存儲器接口,如接口150連接到系統(tǒng)總線121。
上述討論并在圖1中示出的驅(qū)動器及其關(guān)聯(lián)的計算機(jī)存儲介質(zhì)為計算機(jī)110提供了計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖1中,示出硬盤驅(qū)動器141儲存操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同,也可以與它們不同。這里對操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147給予不同的標(biāo)號來說明至少它們是不同的副本。
用戶可以通過輸入設(shè)備,如鍵盤162,麥克風(fēng)163和定位設(shè)備161(如鼠標(biāo)、跟蹤球或觸摸板)向計算機(jī)110輸入命令和信息。其它輸入設(shè)備(未示出)可包括操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等等。這些和其它輸入設(shè)備通常通過耦合至系統(tǒng)總線的用戶輸入接口160連接至處理單元120,但是也可以通過其它接口和總線結(jié)構(gòu)連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器191或其它類型的顯示設(shè)備也通過接口,如視頻接口190連接至系統(tǒng)總線121。除了監(jiān)視器之外,計算機(jī)也包括其它外圍輸出設(shè)備,如揚(yáng)聲器197和打印機(jī)196,通過輸出外圍接口190連接。
計算機(jī)110可以在使用到一個或多個遠(yuǎn)程計算機(jī),如遠(yuǎn)程計算機(jī)180的邏輯連接的網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計算機(jī)180可以是個人計算機(jī)、手持式設(shè)備,服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它公用網(wǎng)絡(luò)節(jié)點(diǎn),并通常包括許多或所有上述與計算機(jī)110相關(guān)的元件。圖1描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也包括其它網(wǎng)絡(luò)。這類網(wǎng)絡(luò)環(huán)境常見于辦公室、企業(yè)范圍計算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)以及因特網(wǎng)。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時,計算機(jī)110通過網(wǎng)絡(luò)接口或適配器170連接至LAN 171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時,計算機(jī)110通常包括調(diào)制解調(diào)器172或其它裝置,用于通過WAN 173,如因特網(wǎng)建立通信。調(diào)制解調(diào)器172可以是內(nèi)置或外置的,通過用戶輸入接口160連接至系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán)境中,描述的與計算機(jī)110相關(guān)的程序模塊或其部分可儲存在遠(yuǎn)程存儲器存儲設(shè)備中。作為例子,而非限制,圖1示出了遠(yuǎn)程應(yīng)用程序駐留在遠(yuǎn)程計算機(jī)180中??梢岳斫?,示出的網(wǎng)絡(luò)連接是示例性的,也可以使用在計算機(jī)間建立通信鏈路的其它裝置。
圖2是依照本發(fā)明的一種實施例的文本處理系統(tǒng)200的框圖。文本處理系統(tǒng)200可用于各種各樣的文本操縱應(yīng)用程序中。例如,以下會作更詳細(xì)的描述的,它能用作文檔群集、文檔概括、文檔群集的概括、問題回答、信息檢索等等。為了簡單化,本發(fā)明將在群集概括的方面加以描述。然而,本發(fā)明不限于此。系統(tǒng)200包括圖表構(gòu)建器202、計分組件204、可任選會談計劃系統(tǒng)205、子圖表提取組件206和生成組件208。圖3是一個示出了圖2中所示系統(tǒng)200的操作的流程圖。
在操作中,圖表構(gòu)建器202首先接收輸入文本210。這由圖3中方框212指示。例如,輸入文本210可以是包括一個或多個文檔的文本語料庫。在系統(tǒng)200用于概括文檔群集的情況下,則輸入文本210是一組先前使用任何已知群集系統(tǒng)來群集的文檔。
在任何情況下,圖表構(gòu)建器202接收輸入文本210并構(gòu)建覆蓋整個輸入文本210的圖表214。這通過為輸入文本210中單獨(dú)的句子首先構(gòu)建圖表來說明性地完成。該單獨(dú)的圖表隨后被連接在一起以形成整體圖表214。在實現(xiàn)中,因為單獨(dú)圖表中的單詞或概念將對應(yīng)于整體圖表214中單獨(dú)的節(jié)點(diǎn),而不管它們在單獨(dú)的圖表中出現(xiàn)的次數(shù),因此單獨(dú)的圖表稍微有點(diǎn)被折疊。生成整體圖表214由圖3中的方框216指示。在一種說明性的實施例中,圖表214包括了節(jié)點(diǎn)和連接。節(jié)點(diǎn)表示在輸入文本210中的單詞、事件、實體或概念,節(jié)點(diǎn)之間的連接表示有向的關(guān)系名稱。在一種實現(xiàn)中,一組確定的單詞能從圖表214中被排除。這樣的單詞通常被稱作停止單詞(stop words)。
在一種說明性的實施例中,圖表構(gòu)建器202是由產(chǎn)生輸入文本210的抽象分析的自然語言處理系統(tǒng)來實現(xiàn)的。該抽象分析歸一化表面單詞順序,使用功能單詞(例如“be”,“have”,“with”等等)分配關(guān)系名稱。包括圖表構(gòu)建器202的自然語言處理系統(tǒng)也能完成解決代名詞的和詞匯的名詞短語互指(co-reference)的首語重復(fù)法(anaphora)的分辨。這一輸入文本210的抽象分析的一種實施例被稱作邏輯形式,一種生成抽象分析(邏輯形式)的可適用系統(tǒng)在1999年10月12日發(fā)行的名為“從句法樹計算語義邏輯形式的方法和系統(tǒng)(Method and System for ComputingSemantic Logical Forms From Syntax Trees)”的美國專利號5,966,686中有陳述。該邏輯形式針對覆蓋每一句子輸入文本的非循環(huán)圖表。每一句子的圖表被說明性地連接到覆蓋整個輸入文本210的較大圖表214中的另一個。
當(dāng)然,圖表構(gòu)建器202也能是另一種合適的系統(tǒng)。例如,圖表構(gòu)建器可被配置成產(chǎn)生輸入文本210中的每一輸入句子的句法分析,隨后根據(jù)該句法分析產(chǎn)生一個相關(guān)性樹。隨后從該相關(guān)性樹中說明性地構(gòu)造一圖表??蛇x地,通過把臨近的或者協(xié)同定位的單詞定位為圖表中的節(jié)點(diǎn),并通過定位節(jié)點(diǎn)間的連接,圖表構(gòu)建器202能對輸入文本210構(gòu)造圖表214,其中連接的方向或者是任意分配的,或者是根據(jù)節(jié)點(diǎn)語音的部分計算的。這能由啟發(fā)式或機(jī)器學(xué)習(xí)的方法來完成。
在任何情況下,一旦圖表構(gòu)建器202從輸入文本210中生成了圖表214,圖表214的節(jié)點(diǎn)或子圖表分量由計分組件204計分。這由圖3中的方框圖218指示。在一種說明性的實施例中,一種公眾可用的圖表分級算法被用來對圖表214中的節(jié)點(diǎn)計分。這種公眾可用的圖表分級系統(tǒng)的一種例子被稱作中心和權(quán)限算法(Hub andAuthorities Algorithm),作者是John Kleinberg(參見Authoritative sources in ahyperlinked environment(超鏈接環(huán)境中的授權(quán)來源)第9屆離散算法研討會論文集(Proc.9th ACM-SIAM Symposium on Discrete Algorithms,1998.)ACM 46期刊(1999)的擴(kuò)展版本。它也出現(xiàn)在1997年5月的IBM調(diào)查報告RJ 10076中),它已經(jīng)被用來例如如Sergey Brin和Lawrence Page中所陳述地對網(wǎng)頁進(jìn)行分級。一種大規(guī)模超文本web搜索引擎的剖析(anatomy)。澳大利亞的布里斯班的Ashman andThistlewaite[2],第107-117頁。簡要地,這一算法考慮了圖表中的連接方向,以產(chǎn)生分級。圖表中的每個節(jié)點(diǎn)接收一個權(quán)重,它和多少個節(jié)點(diǎn)連接到本節(jié)點(diǎn),以及給定的節(jié)點(diǎn)連接到多少個節(jié)點(diǎn)有關(guān)。該算法的輸出是圖表中每個節(jié)點(diǎn)的得分。節(jié)點(diǎn)的得分能用作替代使用檢索詞頻率的計分系統(tǒng),例如,在諸如信息檢索、問題回答、群集、概括等等的文本處理應(yīng)用程序中。
一旦節(jié)點(diǎn)的得分被計算,圖表214中元組的得分能被計算。元組包括以nodeB→relation→nodeA(節(jié)點(diǎn)B→關(guān)系→節(jié)點(diǎn)A)形式的圖表214的子圖表分量,其中,節(jié)點(diǎn)A被稱作元組中目標(biāo)節(jié)點(diǎn),節(jié)點(diǎn)B被稱作元組中的初始節(jié)點(diǎn)。在一種說明性的實施例中,每個元組的得分是對所有連接到節(jié)點(diǎn)A的節(jié)點(diǎn)的得分,節(jié)點(diǎn)B的得分和文本語料庫210中給定元組的頻率計數(shù)的函數(shù)。每個元組的得分實質(zhì)上能在要求匹配元組的任何應(yīng)用程序中使用。然而,為了簡單性,在這里只參考文檔概括來描述。
依照本發(fā)明的一種實施例,元組得分的精確計算僅相對于目標(biāo)節(jié)點(diǎn)來加權(quán)元組。例如,在nodeB→relation→nodeA的元組中,元組權(quán)重是相對于指向節(jié)點(diǎn)A的所有其它節(jié)點(diǎn)來計算的,與其它元組或其它節(jié)點(diǎn)無關(guān)。被用來完成這一計算的具體公式的例子如下方程式1TupleScore(nodeB→relation→nodeA)=NodeScore(B)*Count(nodeB→relation→nodeA)/Sum(對于使得nodeX→R→nodeA|NodeScore(X)*Count(nodeX→R→nodeA)的所有節(jié)點(diǎn)X和關(guān)系R))。
其中,TupleScore()指示了給定元組的得分;NodeScore()指示了給定節(jié)點(diǎn)的得分;以及Count()是輸入文本中所識別元組的頻率。
當(dāng)然,也能使用其它計分機(jī)制和方程式。
計分組件204生成的得分和圖表214被提供給子圖表提取組件206。子圖表提取組件206使用對應(yīng)于圖表214的高得分節(jié)點(diǎn)和元組從輸入文本210中識別生成的重要子圖表。隨后基于NodeScores和TupleScores提取子圖表。子圖表也能由子圖表提取組件206基于它們的對應(yīng)得分來分級。圖3中的方框圖220和222指示了對應(yīng)于高得分節(jié)點(diǎn)和子圖表的圖表片段的提取,以及基于得分來分級圖表片段。圖2中的方框圖224指示了由組件206提供的已分級的圖表片段。
圖表片段能用不同方法提取。例如,它們能從輸入文本210中的單獨(dú)句子產(chǎn)生的,并在總體圖表214中產(chǎn)生高等分節(jié)點(diǎn)和元組的單獨(dú)圖表(或邏輯形式)中提取?;蛘撸鼈兛芍苯訌目傮w圖表214中提取。
在一種說明性的實施例中,通過將從輸入文本210中生成的邏輯形式與高得分節(jié)點(diǎn)以及元組進(jìn)行匹配,子圖表提取組件206識別了重要的子圖表。所謂“高得分”意味著憑經(jīng)驗確定閥值,并且具有滿足閥值的得分的節(jié)點(diǎn)和元組被識別為高得分。此外,為了提取連接到那個子圖表的額外高得分節(jié)點(diǎn),每個子圖表被進(jìn)一步的研究。對于子圖表連接的每一個高得分節(jié)點(diǎn),使用高得分元組作為錨(anchor),這個過程被說明性地迭代。
此外,邏輯形式中的節(jié)點(diǎn)能涉及另一個節(jié)點(diǎn)。例如,通過代詞化或依靠涉及相同的實體或事件,能發(fā)生這一情況。例如,依靠查閱相同的實體,詞語“GeneralAugusto Pinochet”和“Pinochet”依靠涉及同一實體而相關(guān)。在一種說明性的實施例中,這些相關(guān)的節(jié)點(diǎn)也能在匹配過程中使用。
此外,在一種說明性的實施例中,給定一具體的節(jié)點(diǎn)類型,確定的關(guān)系和它們的值能被提取作為匹配子圖表的一部分。例如,對于符合一個事件的節(jié)點(diǎn)類型,事件核心參數(shù)(如主題和/或?qū)ο箧溄樱绻嬖诘脑?也能被保留作為匹配子圖表的一部分。特別是在識別子圖表的目標(biāo)是將它傳遞給生成組件的實施例中,這改善了子圖表的一致性。
如上述匹配的整個子圖表被稱作圖表片段。在一種說明性的實施例中,一截斷閥值被用來確定將用作匹配的最小得分,并且得分在最小以上的圖表片段被保留用于進(jìn)一步的處理。
在一種說明性的實施例中,根據(jù)節(jié)點(diǎn)和元組得分,該圖表片段224被排序,并提供給為圖表片段224生成自然語言輸出的生成組件208。
或者,在一種實施例中,也提供了可任選的會談計劃系統(tǒng)205。計劃系統(tǒng)205接收圖表片段224并生成圖表片段的優(yōu)化的排序,它不僅考慮了對圖表片段的節(jié)點(diǎn)和元組得分,也考慮了相似節(jié)點(diǎn)的位置,兩個節(jié)點(diǎn)出現(xiàn)的順序(相關(guān)的語音部分),和高級別考慮事項,例如事件時間線(timeline)、主題和焦點(diǎn)等等。例如,假設(shè)要生成三個句子(S1、S2和S3),如果只考慮一種得分,句子順序?qū)荢1 S2 S3。然而,句子S1和S3都涉及同一實體,計劃系統(tǒng)205將生成S1 S3 S2,并也會用代名詞替換S3中的實體,或者句子S1和S3被組合成一句較長的句子。涉及共同節(jié)點(diǎn)的組合句子提高了生成的摘要的可讀性。
同樣的,例如,假設(shè)兩個句子S1和S2都涉及單詞“arrest(拘捕)”,但是在S1中被用作名詞,在S2中被用作動詞。計劃系統(tǒng)205將句子重新排序為S2 S1。這產(chǎn)生了一個摘要,例如,涉及“X got arrested yesterday...(X昨天被拘捕……)”,隨后“the arrest...(拘捕行動……)”,這再一次提高了生成的摘要的可讀性。
在任何情況下,基于額外的考慮事項,計劃系統(tǒng)205重新排序圖表片段224,并將它們作為重新排序的圖表片段225提供給生成組件208。圖3中的方框圖224指示了重新排序會談計劃系統(tǒng)205的圖表片段的可任選步驟。
向生成組件208提供一組圖表片段。隨后生成組件208基于接收到的圖表片段生成輸出文本226。這由圖3中的方框圖228指示。
生成組件208僅須和它接收的圖表片段的類型相一致。組件208是基于規(guī)則的,例如在圖盧茲第8屆歐洲自然語言生成專題討論會會議論文集中的Aikawa,T.、M.Melero、L.Schwartz和A.Wu.(2001).的“多語言句子生成(Multilingual Sentence Generation)”中,以及西班牙圣地亞哥MT高層會議VIII的會議論文集中的Aikawa,T.、M.Melero、L.Schwartz和A.Wu.(2001)的“多語言機(jī)器翻譯的句子生成(Sentence Generation for Multilingual MachineTranslation)中”找到的。它也能是機(jī)器可學(xué)習(xí)的,例如在微軟研究技術(shù)報告MSR-TR-2002-57中Gamon,M.、E.Ringger和S.Corston-Oliver.2002.的“Amalgam一種機(jī)器學(xué)習(xí)生成模塊(AmalgamA machine-learned generationmodule)中找到的。
在這點(diǎn)上,一個例子也許是有用的。假設(shè)輸入文本210包括下列句子組Pinochet was reportedto have left LondonBridge Hospital onWednesday.
President Eduardo Frei Ruiz_Tagle said that Pinochet,now an unelectedsenator for life,carried a diplomatic passport giving him legalimmunity.
The arrest of Gen.Augusto Pinochet shows the growing significanceof international human_rights law.
Former Chilean dictator Gen.Augusto Pinochet has been arrested byBritish police,despite protests from Chile that he is entitled todiplomatic immunity.
對每個單獨(dú)句子的單獨(dú)圖表(邏輯形式)如下Pinochet was reported to have left London Bridge Hospital on Wednesday.
report2({Verb}(.))Tsub _X2({Pron})Tobj leave2({Verb})TimeWednesday2({Noun}{on})TsubPinochet2({Noun})TobjLondon_Bridge_Hospital2({Noun})PLACENAME London1({Noun})PLACETYPE bridge1({Noun})PLACETYPE hospital1({Noun})FactHyp hospital2({Noun})President Eduardo Frei Ruiz_Tagle said that Pinochet,now an unelectedsenator for life,carried a diplomatic passport giving him legalimmunity.say1({Verb}(.))Tsub Pres ident_Eduardo Frei_Ruiz_Tagle1({Noun})TITLE president1({Noun})FIRSTNAME Eduardo1({Noun})LASTNAME Freil({Noun})
LASTNAME Ruiz_Tagle1({Noun})FactHyp person1({Noun})Tobjcarry1({Verb})Tsub Pinochet2({Noun})Appostn senator2({Noun})Timenow1({Adv})Attrib unelected2({Adj})forlife1({Noun})Tobj passport1({Noun})Attrib diplomatic1({Adj})give1({Verb})Tsub passport1Tobj immunity1({Noun})Attrib legal1({Adj})Tind he1({Pron})The arrest of Gen.Augusto Pinochet shows the growing significanceof international human_rights law.
show2({Verb}(.))Tsub arrest3({Noun})Possr Gen._Augusto_Pinochet3({Noun})TITLE Gen.1({Noun})FIRSTNAME Augusto1({Noun})LASTNAME Pinochet1({Noun})FactHyp person1({Noun})Tobj significance3({Noun})Attrib grow3({Verb})Tsub significance3oflaw3({Noun})Modhuman_rights3({Noun})Attrib international3({Adj})Former Chilean dictator Gen.Augusto Pinochet has been arrested byBritish police,despite protests from Chile that he is entitled todiplomatic immunity.
arrest2({Verb}(.))Tsub police3({Noun})Attrib British3({Adj})despite protest2({Noun})props entitle1({Verb})Tsub_X1({Pron})Tobjhe1({Pron})to diplomatic_immunity1({Noun})Source Chile2({Noun}{from})Tobjdictator2({Noun})Appostn Gen._Augusto_Pinochet2({Noun})TITLE Gen.1({Noun})FIRSTNAME Augusto1({Noun})
LASTNAME Pinochet1({Noun})FactHyp person1({Noun})Attrib Chilean2({Adj})former2({Adj})圖4示出了以“Pinochet”節(jié)點(diǎn)為中心的圖表300,它連接來自于輸入句子邏輯形式的節(jié)點(diǎn)。圖表300虛擬地也可被表示如下leave2({Verb})Tsub Pinochet2({Noun})Tobj London_Bridge_Hospital2({Noun})carry1({Verb})Tsub Pinochet2({Noun})Tobj passport1({Noun})Attrib diplomatic1({Adj})Pinochet2({Noun})Appostn senator2({Noun})give1({Verb})Tsub passport1Tobj immunity1({Noun})Tind he1({Pron}RefsPinochet)show2({Verb}(.))Tsub arrest3({Noun})Possr Gen._Augusto_Pinochet3({Noun})Tobj significance3({Noun})arrest2({Verb}(.))Tsub police3({Noun})Tobj dictator2({Noun})Appostn Gen._Augusto_Pinochet2({Noun})entitle1({Verb})Tsub _X1({Pron})Tobj he1({Pron}RefsPinochet)todiplomatic_immunity1({Noun})dictator2({Noun})Appostn Gen._Augusto_Pinochet2({Noun})Gen._Augusto_Pinochet3({Noun})TITLE Gen.1({Noun})FIRSTNAME Augusto1({Noun})LASTNAME Pinochet1({Noun})FactHyp person1({Noun})能看到圖表300中連接到Pinochet的節(jié)點(diǎn)如下
leave2({Verb})Tsub Pinochet2({Noun})carry1({Verb})Tsub Pinochet2({Noun})注意首語重復(fù)法分辨被用來將“he”解析成“Pinochet”。
give1({Verb})Tind he1({pron}RefsPinochet)arrest3({Noun})Possr Gen._Augusto_Pinochet3({Noun})注意,Appostn關(guān)系被“解包”以得到兩個連接(或無論有多少Appostn)。所以根據(jù)該邏輯形式,除了連接“arrest-Tobj-dictator”之外,連接“arrest-Tobj-Gen._Augusto_Pinochet”也被識別。
arrest2({Verb}(.))Tsub police3({Noun})Tobj dictator2({Noun})Appostn Gen._Augusto_Pinochet2({Noun})arrest2({Verb}(.))Tobj Gen._Augusto_Pinochet2({Noun})注意,首語重復(fù)法分辨被用來將“he”解析成“Pinochet”。
entitle1({Verb})Tobj he1({Pron}RefsPinochet)也能看到Pinochet連接的節(jié)點(diǎn)如下Pinochet2({Noun})Appostn senator2({Noun})dictator2({Noun})Appostn Gen._Augusto_Pinochet2({Noun})注意,這一最后的邏輯形式指示了上述“相似單詞”的概念,因為如果考慮中的節(jié)點(diǎn)是Gen._Augusto_Pinochet,“Pinochet”也會被包括在內(nèi)。這是基于LASTNAME(最后名字)關(guān)系
Gen._Augusto_Pinochet3({Noun})TITLE Gen.1({Noun})FIRSTNAME Augusto1({Noun})LASTNAME Pihochet1({Noun})FactHyp person1({Noun})下列節(jié)點(diǎn)得分示出了對這個群集的整個圖表僅一部分的例子,所以得分是指示性的而不是精確的Pinochet_Noun 8.86931560843612arrest_Noun 5.65798261000217dictator_Noun 4.66735025856776leave_Verb 3.19016764263043show_Verb 3.05887157398304arrest_Verb 2.99724084165062immunity_Noun 2.61908266128404give_Verb 2.59211486749912police_Noun 2.23721253134214Gen.Augusto_Pinochet_Noun 2.14890018458375senator_Noun 1.99746859744986diplomatic_immunity_Noun 1.52760640157329carry_Verb 1.4547668737008passport_Noun 1.08547333802503diplomatic_Adj 0.949668310003334entitle_Verb 0.760364251949961significance_Noun 0.518215630826775London_Bridge_Hospital_Noun 0.493827515638096下列是示例性的元組得分。注意得分是關(guān)于左邊節(jié)點(diǎn)的,因此“arrest_Possr_Pinochet”比“arrest_Tsub_police”有更高的得分,但是關(guān)于是否“arrest_Tsub_police”比“carry_Tobj_passport”有更高/低的得分無法從權(quán)重中推斷。
arrest_Noun Possr Pinochet_Noun 0.9674310arrest_Verb Tobj Pinochet_Noun 0.9137349arrest_Verb Tsub police_Noun 0.5801700carry_Verb Tsub Pinochet_Noun 0.9916259carry_Verb Tobj passport_Noun 0.7846062entitle_Verb Tobj Pinochet_Noun 0.9956231entitle_Verb″to″diplomatic_immunity_Noun 0.8876522Gen._Augusto_Pinochet_Noun Appostn dictator_Noun 0.7838148give_Verb Tind Pinochet_Noun 0.8829976give_Verb Tsub passport_Noun 0.8081048give_Verb Tobj immunity_Noun 0.5551054leave_Verb Tsub Pinochet_Noun 0.9449093leave_Verb Tobj London_Bridge_Hospital_Noun 0.0713249
passport_Noun Attrib diplomatic_Adj 0.3981289Pinochet_Noun Appostn senator_Noun 0.5996584show_Verb Tsub arrest_Noun 0.9343253show_Verb Tobj significance_Noun 0.1478469片段按分?jǐn)?shù)來分級。在該例子中,以演說的動詞部分為根的所選擇的片段在以演說的名詞部分為根的所選擇的片段之前被排序。
注意,Time和Tobj也被選為圖表片段的一部分,因為它們對于“l(fā)eave”都是核心參數(shù),即使“London_Bridge_Hospital”本身是一個低得分元組。
1.leave({Verb}3.19016764263043)Time Wednesday({Noun}{on})Tsub Pinochet({Noun})Tobj London_Bridge_Hospital({Noun})注意,選擇“significant”是因為它是核心參數(shù)。因為“significant”是名詞,但是由于事件屬性,我們?yōu)槊~(Attrrib和“of”)也選擇參數(shù)。
2.show({Verb}3.05887157398304)Tsub arrest({Noun})Possr Gen._Augusto_Pinochet({Noun})Tobj significance({Noun})Attrib grow({Verb})Tsub significance({Noun})of human_rights({Noun})Attrib international({Adj})注意,這是“arrest Tobj Pinochet”的元組得分,但是“dictator”和“Pinochet”是相同的實體,通過互指被識別。
3.arrest({Verb}2.99724084165062)Tsub police({Noun})Tobj dictator({Noun})Locn London({Noun})這是一個名詞短語例子,當(dāng)已經(jīng)使用高得分事件或當(dāng)已經(jīng)到達(dá)權(quán)重限制,它可用于擴(kuò)展圖表中的節(jié)點(diǎn)。
4.Pinochet({Noun}8.86931560843612)Appostn senator({Noun})Attrib unelected({Adj})
以下是當(dāng)使用可任選計劃系統(tǒng)205時重新排序并組合相似/相同的節(jié)點(diǎn)的例子因為1和4都共享節(jié)點(diǎn)“Pinochet”,以下示出了它們組合的圖表片段leave({Verb})Time Wednesday({Noun}{on})Tsub Pinochet({Noun})Appostn senator({Noun})Attrib unelected({Adj})Tobj London_Bridge_Hospital({Noun})以下示出了圖表片段2和3的重新排序并反映了語言中不同部分的相同節(jié)點(diǎn)動詞第一,然后名詞的首選排序arrest({Verb})Tsub police({Noun})Tobj dictator({Noun})Locn London({Noun})show({Verb})Tsub arrest({Noun})Possr Gen._Augusto_Pinochet({Noun})Tobj significance({Noun})Attrib grow({Verb})Tsub significance({Noun})ofhuman_rights({Noun})Attrib international({Adj})以下示出了生成輸出226。在這個例子中,在生成過程中,參考表達(dá)式被選擇用于生成。通常,那首先是最具體的參考表達(dá)式(Gen.Augusto Pinochet),其次是短形式(Pinochet),緊跟著是代名詞化(如果它在核心參數(shù)位置中)。因此,一種生成輸出226的實施例如下Gen.Augusto Pinochet,an unelected senator,left London BridgeHospital on Wednesday.
Pinochet has been arrested in London by the police.
His arrest shows the growing significance of internationalhuman_rights.
因此可以看到,本發(fā)明提供了比現(xiàn)有技術(shù)明顯的優(yōu)點(diǎn)。本發(fā)明基于從輸入文本中生成的圖表對事件進(jìn)行分級。已經(jīng)發(fā)現(xiàn),當(dāng)決定在概要中包括什么的時候,它比基于單詞頻率的方法更精確。本發(fā)明的另一方面生成了給定分級圖表片段時的概要。對多文檔概要這比句子提取或壓縮有更好的一致性和可讀性。
當(dāng)然,可以理解,本發(fā)明也能用在各種各樣其它的應(yīng)用程序中。例如,通過對輸入文本生成圖表,然后計算圖表中分量得分,來識別輸入文本中的單詞或文本片段或事件在許多場合是有用的。例如,當(dāng)試圖識別兩個文本輸入間的關(guān)系時,例如信息檢索、索引、文檔群集、問題回答等等,可使用這一方法。在那些例子中,第一輸入的單詞或元組得分被與第二輸入的單詞或元組的得分作比較,以確定兩個輸入間的關(guān)系。在信息檢索中,第一輸入是查詢而第二輸入或是索引或是與查詢作比較的文檔。在問題回答中,第一輸入是問題,第二輸入是被檢查以確定它是否回答了該問題的文本。在文檔群集中,兩個輸入是文檔或其概要,或是群集概要。同樣地,對覆蓋輸入文本的圖表生成的得分能用于確定文檔中的哪些詞語被用于索引輸入文本,以及對那些條件計算出的任何權(quán)重。
當(dāng)然,本發(fā)明也能如所描述地使用以生成對應(yīng)于輸入文本的輸出文本。該文本能是單獨(dú)文檔的概要、群集的概要等等。所以,雖然本發(fā)明主要是相對于文檔概要來描述的,然而本發(fā)明有廣泛的應(yīng)用,并不限制于概要。
雖然參考具體實施例描述了本發(fā)明,本領(lǐng)域技術(shù)人員將認(rèn)識到,可以在形式和細(xì)節(jié)上進(jìn)行改變而不背離本發(fā)明的精神和范圍。
權(quán)利要求
1.一種識別由文本輸入表示的感興趣的特征的方法,其特征在于,它包括構(gòu)建一對應(yīng)于所述文本輸入的圖表;對所述圖表的子圖表分量計分;基于所述得分識別感興趣的圖表片段;以及基于所識別的圖表片段執(zhí)行文本操縱。
2.如權(quán)利要求1所述的方法,其特征在于,構(gòu)建圖表包括用由連接來連接的節(jié)點(diǎn)構(gòu)建圖表。
3.如權(quán)利要求2所述的方法,其特征在于,所述節(jié)點(diǎn)對應(yīng)于所述文本輸入中的單詞或由所述文本輸入表示的概念。
4.如權(quán)利要求3所述的方法,其特征在于,構(gòu)建圖表還包含生成連接作為有向語義關(guān)系名稱。
5.如權(quán)利要求4所述的方法,其特征在于,構(gòu)建圖表還包含為所述文本輸入生成一組抽象分析。
6.如權(quán)利要求5所述的方法,其特征在于,生成一組抽象分析包含基于所述文本輸入生成一組有向非循環(huán)圖表;以及將所述定向非循環(huán)圖表組彼此連接。
7.如權(quán)利要求2所述的方法,其特征在于,構(gòu)建圖表包含對所述文本輸入中的文本部分生成一句法分析;從所述句法分析中生成一依賴性結(jié)構(gòu);從所述句法分析中生成所述圖表。
8.如權(quán)利要求2所述的方法,其特征在于,構(gòu)建圖表包含識別節(jié)點(diǎn)為鄰近的或協(xié)同定位的單詞;以及識別節(jié)點(diǎn)間的連接。
9.如權(quán)利要求8所述的方法,其特征在于,識別連接包含任意地分配連接的方向性。
10.如權(quán)利要求8所述的方法,其特征在于,識別連接包含基于與所述節(jié)點(diǎn)相關(guān)聯(lián)的給定語音部分,使用啟發(fā)識別連接和分配所述連接的方向。
11.如權(quán)利要求8所述的方法,其特征在于,識別連接包含基于與所述節(jié)點(diǎn)相關(guān)聯(lián)的給定語言部分,使用機(jī)器可學(xué)習(xí)識別連接和分配所述連接的方向。
12.如權(quán)利要求2所述的方法,其特征在于,對所述圖表的子圖表分量計分包含向所述圖表中的每個節(jié)點(diǎn)分配得分。
13.如權(quán)利要求12所述的方法,其特征在于,一對節(jié)點(diǎn)和該對節(jié)點(diǎn)間的連接包含一元組,并且其中,對所述圖表的子圖表分量計分包含向所述圖表中的每個元組分配得分。
14.如權(quán)利要求13所述的方法,其特征在于,向圖表中的每個元組分配得分包含基于所述元組中一初始節(jié)點(diǎn)的得分、連接到所述元組中的一目標(biāo)節(jié)點(diǎn)的節(jié)點(diǎn)的得分、以及所述文本輸入中元組的頻率,對所述圖表中的每個元組分配得分。
15.如權(quán)利要求13所述的方法,其特征在于,識別感興趣的圖表片段包含將所述圖表的子圖表分量與有足夠得分的節(jié)點(diǎn)和元組進(jìn)行匹配。
16.如權(quán)利要求15所述的方法,其特征在于,識別感興趣的圖表片段包含識別連接到所匹配的子圖表分量、并具有足夠得分的節(jié)點(diǎn)。
17.如權(quán)利要求16所述的方法,其特征在于,識別圖表片段包含識別在匹配的子圖表分量之外的節(jié)點(diǎn),該節(jié)點(diǎn)與所匹配的子圖表分量中的節(jié)點(diǎn)有一預(yù)先確定的關(guān)系。
18.如權(quán)利要求17所述的方法,其特征在于,識別圖表片段包含給定一預(yù)先確定的具體節(jié)點(diǎn)類型,識別某一種關(guān)系。
19.如權(quán)利要求18所述的方法,其特征在于,所有匹配的子圖表分量和所識別的節(jié)點(diǎn)和關(guān)系包含所述圖表片段。
20.如權(quán)利要求19所述的方法,其特征在于,執(zhí)行文本操縱包含提取對給定的文本輸入部分所識別的子圖表分量組,作為圖表片段。
21.如權(quán)利要求20所述的方法,其特征在于,構(gòu)建圖表包含對所述文本輸入中的每一句子生成一單獨(dú)的圖表;以及將所述單獨(dú)的圖表連接到一起以形成一總體圖表。
22.如權(quán)利要求21所述的方法,其特征在于,提取包含從所述總體圖表中提取有足夠得分的子圖表部分。
23.如權(quán)利要求21所述的方法,其特征在于,所述總體圖表中高得分的子圖表部分包含所述總體圖表中具有滿足一閥值得分值的得分的子圖表部分,其中,提取子圖表部分包含提取產(chǎn)生所述總體圖表中高得分子圖表部分的單獨(dú)圖表的部分。
24.如權(quán)利要求1所述的方法,其特征在于,執(zhí)行文本操縱包含概括、信息檢索、問題回答、文檔群集和索引中的一種。
25.如權(quán)利要求1所述的方法,其特征在于,執(zhí)行文本操縱包含基于所提取的圖表片段生成文本輸出。
26.如權(quán)利要求1所述的方法,其特征在于,還包括基于對應(yīng)于所述圖表片段的得分對圖表片段排序。
27.如權(quán)利要求26所述的方法,其特征在于,排序還包括基于除所述得分之外的因素對所述圖表片段排序。
28.如權(quán)利要求27所述的方法,其特征在于,所述因素包含節(jié)點(diǎn)的位置和通過語音部分相關(guān)的節(jié)點(diǎn)出現(xiàn)的順序、從所述文本輸入中確定的事件時間線以及為所述文本輸入確定的主題中的一種。
29.如權(quán)利要求1所述的方法,其特征在于,感興趣的特征包含單詞、文本片段、概念、事件、實體和主題中的一種。
全文摘要
本發(fā)明是用于從文本語料庫中識別感興趣的單詞,文本段或者概念的一種方法和系統(tǒng)。構(gòu)建覆蓋文本語料庫的圖表。圖表包括節(jié)點(diǎn)和連接,其中節(jié)點(diǎn)表示單詞或者概念,節(jié)點(diǎn)間的連接表示有方向的關(guān)系名稱。隨后對于圖表中的每個節(jié)點(diǎn)計算一個得分。也可以對圖表中較大的子圖表部分計算得分(比如元組)。得分被用于識別圖表中期望的子圖表部分,那些子圖表部分被稱作圖表片段。
文檔編號G06F17/30GK1691014SQ200510053179
公開日2005年11月2日 申請日期2005年3月2日 優(yōu)先權(quán)日2004年3月2日
發(fā)明者A·A·梅尼澤斯, L·H·范德文蒂, M·L·班科 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
托克托县| 佛教| 中宁县| 木里| 枣阳市| 巴楚县| 饶阳县| 犍为县| 凤凰县| 广丰县| 岑溪市| 临沧市| 将乐县| 兴隆县| 郯城县| 泰安市| 昌乐县| 内乡县| 游戏| 诏安县| 盐源县| 隆子县| 全南县| 且末县| 芜湖县| 吉木萨尔县| 葫芦岛市| 老河口市| 镇赉县| 桑日县| 德钦县| 河南省| 新沂市| 那曲县| 济南市| 文化| 博罗县| 安仁县| 东乌珠穆沁旗| 漳州市| 阜阳市|