两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于自然語(yǔ)言文本的自動(dòng)語(yǔ)義標(biāo)注的系統(tǒng)和方法

文檔序號(hào):6349140閱讀:555來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于自然語(yǔ)言文本的自動(dòng)語(yǔ)義標(biāo)注的系統(tǒng)和方法
技術(shù)領(lǐng)域
本申請(qǐng)涉及用于自然語(yǔ)言文本的自動(dòng)語(yǔ)義標(biāo)注的系統(tǒng)和方法以及關(guān)于提供用于執(zhí)行該標(biāo)注的基礎(chǔ)的語(yǔ)言模式的創(chuàng)建的技術(shù)。
背景技術(shù)
下面的美國(guó)專(zhuān)利文件提供了關(guān)于本申請(qǐng)的技術(shù)的描述1995年5月頒發(fā)給Ito 的美國(guó)專(zhuān)利No. 5,418,889(在下文中為“1切”)、1997年12月頒發(fā)給附切吐士的美國(guó)專(zhuān)利No. 5,696,916 (在下文中為"Hitachi,,)、2000年2月頒發(fā)給Liddy等人的美國(guó)專(zhuān)利No. 6,026,388 (在下文中為“Liddy”)、2001年2月頒發(fā)給Boguraev等人的美國(guó)專(zhuān)利No. 6,185,592(在下文中為“Boguraev 1”)、2001年4月頒發(fā)給Boguraev的美國(guó)專(zhuān)利No. 6,212,494(在下文中為“8(^11^6¥ 2”)、2001年6月頒發(fā)給Messerly等人的美國(guó)專(zhuān)利No. 6,246,977(在下文中為1^8吐17”)、2001年7月頒發(fā)給Paik等人的美國(guó)專(zhuān)利No. 6,263,335 (在下文中為“Paik” )以及2008年9月頒發(fā)給Reynar的美國(guó)專(zhuān)利 No. 7,421,645 (在下文中為 “ Reynar ”)??砂ㄐ畔z索、知識(shí)工程、機(jī)器翻譯、總結(jié)等任務(wù)的自動(dòng)文本處理需要某些語(yǔ)言分析被執(zhí)行。該分析——特別是當(dāng)分析的深度和復(fù)雜性從初級(jí)詞法水平增加到語(yǔ)義水平時(shí)——基于傳統(tǒng)的語(yǔ)言知識(shí),例如詞匯、詞態(tài)等,并且基于所謂的識(shí)別語(yǔ)言模型或模式,該識(shí)別語(yǔ)言模型或模式在某種程度上可對(duì)進(jìn)行文本理解的人的認(rèn)知功能建模,并利用語(yǔ)言的具體詞法單元及其詞性類(lèi)別和句法與語(yǔ)義關(guān)系的元素。上述兩種類(lèi)型的知識(shí)連同統(tǒng)計(jì)方法一起提供了用于自動(dòng)識(shí)別文本中的各種語(yǔ)義成分、關(guān)系及其屬性(例如,關(guān)鍵字、賓語(yǔ)及其參數(shù)、主動(dòng)者、行動(dòng)、事實(shí)、因果關(guān)系等)的算法的基礎(chǔ)。換句話(huà)說(shuō),它們根據(jù)以前規(guī)定的分類(lèi)器來(lái)提供自然語(yǔ)言文本的自動(dòng)語(yǔ)義標(biāo)注,例如,語(yǔ)義上標(biāo)注的文本的字符串。分類(lèi)器又基于文本處理任務(wù)的最終目標(biāo)來(lái)定義。
一些現(xiàn)有的方法針對(duì)具有嚴(yán)格結(jié)構(gòu)的數(shù)據(jù)庫(kù),并且被人工編譯或針對(duì)具有嚴(yán)格定義的字段的文本。通常執(zhí)行膚淺的文本的語(yǔ)言分析,其不產(chǎn)生高準(zhǔn)確性。特別是,文本的字符串的語(yǔ)義標(biāo)注歸結(jié)成對(duì)僅僅幾種特殊類(lèi)型的語(yǔ)義成分或關(guān)系的識(shí)別。以這種方式, Reynar提供了用于在用戶(hù)正創(chuàng)建文件時(shí)利用語(yǔ)義種類(lèi)或列表來(lái)標(biāo)注文本的字符串的應(yīng)用程序接口,并基于該種類(lèi)或列表來(lái)向用戶(hù)提供電子商務(wù)行動(dòng)。列表可包括例如類(lèi)型標(biāo)簽“人名”或“微軟雇員”。Hitachi描述了一種使用具有高-低關(guān)系的預(yù)先確定的概念詞典的系統(tǒng),其中該高_(dá)低關(guān)系即概念之間的“is-a(是-一個(gè))”關(guān)系和“部分_整體”關(guān)系。Liddy使用了一種用于信息搜索系統(tǒng)中的用戶(hù)查詢(xún)擴(kuò)展的類(lèi)似技術(shù)。Ito描述了知識(shí)庫(kù)——包括因果模型庫(kù)和設(shè)備模型庫(kù)一一的使用。設(shè)備模型庫(kù)具有描述目標(biāo)機(jī)器的設(shè)備的層次的設(shè)備知識(shí)的集合。因果模型庫(kù)在設(shè)備模型庫(kù)的基礎(chǔ)上形成,并具有在目標(biāo)機(jī)器中的故障事件的因果關(guān)系的集合。因此,設(shè)備的每個(gè)元件中的故障的可能原因在關(guān)于其與設(shè)備的其它元件的結(jié)構(gòu)連接的信息的基礎(chǔ)上被推測(cè)。通常,這些是最大“連接的”元件,其被確定為原因。Boguraev 1描述了深入的文本分析的性能,其中對(duì)于文本段,最重要的名詞組在加權(quán)語(yǔ)義角色中在其使用頻率的基礎(chǔ)上被標(biāo)記。Boguraev 2描述了計(jì)算機(jī)介導(dǎo)的語(yǔ)言分析的使用,以創(chuàng)建在技術(shù)領(lǐng)域中的關(guān)鍵術(shù)語(yǔ)的目錄,并且還確定技術(shù)功能(動(dòng)詞_賓語(yǔ))的行為者(解決者)。Paik描述了信息提取系統(tǒng),其是獨(dú)立于領(lǐng)域的,并自動(dòng)構(gòu)造其自己的主題知識(shí)庫(kù)。 該知識(shí)庫(kù)的基礎(chǔ)由概念-關(guān)系-概念三元組(CRC)組成,其中第一個(gè)概念通常是適當(dāng)?shù)拿Q(chēng)。這是文本的相當(dāng)深入的語(yǔ)義標(biāo)注的實(shí)例,其依賴(lài)于鏈接概念對(duì)的二元關(guān)系和與單個(gè)概念相關(guān)聯(lián)的一元關(guān)系的識(shí)別。該系統(tǒng)通過(guò)尋找專(zhuān)門(mén)類(lèi)型的概念和語(yǔ)言線索——包括一些介詞、標(biāo)點(diǎn)符號(hào)或?qū)S枚陶Z(yǔ)——來(lái)從以前標(biāo)記詞性的和在句法上解析的文本提取語(yǔ)義關(guān)系。當(dāng)然,語(yǔ)義標(biāo)注的過(guò)程在這種情況下由CRC關(guān)系的框架限制。例如,可僅針對(duì)與某些類(lèi)型的動(dòng)詞一起出現(xiàn)的賓語(yǔ)執(zhí)行因果關(guān)系的識(shí)別。雖然這樣的識(shí)別常常需要較寬的上下文,且結(jié)果是在一般情況下它應(yīng)基于文本中的一組自動(dòng)識(shí)別的語(yǔ)義成分,即所謂的事實(shí)。例如,這樣的事實(shí)的成分之一是“行動(dòng)”的語(yǔ)義概念,其與僅僅的“動(dòng)詞”不同??紤]到CRC關(guān)系的強(qiáng)加的框架中的內(nèi)在的限制,在這種情況下的語(yǔ)義標(biāo)注需要非常耗費(fèi)勞動(dòng)的大量模式的開(kāi)發(fā)。最后,這樣的語(yǔ)義標(biāo)注實(shí)際上只處理文本的主題內(nèi)容,且不考慮其邏輯內(nèi)容。Messerly以邏輯形式“深度主語(yǔ)-動(dòng)詞-深度賓語(yǔ)”執(zhí)行文本的語(yǔ)義標(biāo)注。然而, 上述邏輯形式純粹是語(yǔ)法概念;“深度主語(yǔ)”和“深度賓語(yǔ)”中的每個(gè)僅僅是“名詞”,而“動(dòng)詞”僅僅是“本質(zhì)動(dòng)詞”。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的方面,提供了唯一的語(yǔ)義處理器(SP),其中勞動(dòng)強(qiáng)度減小了,所產(chǎn)生的結(jié)果的質(zhì)量增加了,以及使用相關(guān)語(yǔ)義處理的應(yīng)用的范圍擴(kuò)展了。這樣的語(yǔ)義處理器執(zhí)行面向一些通用語(yǔ)義結(jié)構(gòu)的文本的更深入的基本語(yǔ)言分析,并根據(jù)利用那些語(yǔ)義結(jié)構(gòu)并響應(yīng)于用戶(hù)要求和/或輸入的技術(shù)方法來(lái)執(zhí)行其語(yǔ)義標(biāo)注。同樣根據(jù)本發(fā)明的方面,提供了用于自然語(yǔ)言文本的自動(dòng)語(yǔ)義標(biāo)注的系統(tǒng)和方法。該系統(tǒng)和方法包括或使用執(zhí)行文本的基本語(yǔ)義分析——包括其某種類(lèi)型的預(yù)格式化、 詞法、詞性、句法和語(yǔ)義分析——的語(yǔ)義處理器。這樣的分析本身是識(shí)別最重要的語(yǔ)義成分和關(guān)系的文本的語(yǔ)義標(biāo)注的一部分。此外,該分析的結(jié)果也可用于旨在額外的語(yǔ)義標(biāo)注的專(zhuān)門(mén)語(yǔ)言模式的有效創(chuàng)建。這些模式響應(yīng)于文本處理的所指示的目標(biāo)。由語(yǔ)義處理器執(zhí)行的文本的語(yǔ)言分析的深度由在實(shí)現(xiàn)語(yǔ)義標(biāo)注目標(biāo)方面應(yīng)提供的深度來(lái)確定。從這些目標(biāo)中可確定一組標(biāo)準(zhǔn),其可包括a)在基本語(yǔ)言分析期間提取的語(yǔ)義成分和關(guān)系的普遍性;b)所分析的文本的最大可能的“涵蓋”;c)不僅文本主題內(nèi)容而且其邏輯內(nèi)容的語(yǔ)義標(biāo)注的可能性;d)針對(duì)進(jìn)一步的語(yǔ)義標(biāo)注發(fā)展的語(yǔ)言模式的最大可能的概括(generalization); 以及e)語(yǔ)義標(biāo)注的算法對(duì)主題領(lǐng)域且在某種程度上對(duì)自然語(yǔ)言(NL)文本的獨(dú)立性。根據(jù)本發(fā)明的方面的語(yǔ)義處理器使用如下的基本類(lèi)型的知識(shí)的水平來(lái)實(shí)現(xiàn)這樣的深度賓語(yǔ)/賓語(yǔ)類(lèi)別、事實(shí)和反映因果關(guān)系的形式的外部領(lǐng)域例如外部世界和/或知識(shí)領(lǐng)域的規(guī)律性的一組規(guī)則。這個(gè)深度水平的語(yǔ)言分析滿(mǎn)足上述標(biāo)準(zhǔn)。因此,輸入本文在其基本語(yǔ)言處理的階段通過(guò)語(yǔ)義處理器的標(biāo)注產(chǎn)生(a)賓語(yǔ)/ 賓語(yǔ)類(lèi)別的自動(dòng)識(shí)別;(b)在多個(gè)賓語(yǔ),即,S-A-O(主語(yǔ)-行動(dòng)-賓語(yǔ))類(lèi)型關(guān)系上的事實(shí)以及這些關(guān)系的成分的屬性的進(jìn)一步識(shí)別;以及(c)在多個(gè)事實(shí)上的因果關(guān)系的進(jìn)一步識(shí)別。這樣的關(guān)系、其成分和屬性連同詞性和句法標(biāo)記一起可包括可由語(yǔ)義處理器分配的一組標(biāo)簽??傮w地,這些標(biāo)簽實(shí)際上涵蓋在基本語(yǔ)言分析的階段處理的輸入文本的所有詞法單元。這些標(biāo)簽也可確保語(yǔ)言模式的有效技術(shù)發(fā)展,該語(yǔ)言模式針對(duì)可依賴(lài)于特定應(yīng)用的要求的進(jìn)一步的文本語(yǔ)義標(biāo)注。根據(jù)本發(fā)明的一些方面,一旦專(zhuān)家在基本語(yǔ)義分析和處理的階段處理的輸入文本中發(fā)現(xiàn)所關(guān)注的新語(yǔ)義關(guān)系(也稱(chēng)為相關(guān))的特定例子,例如“整體-部分”、“位置”、“時(shí)間”等,專(zhuān)家就可立即看到在NL的所有重要水平處的所有組成成分的標(biāo)簽從詞性和句法標(biāo)記到語(yǔ)義標(biāo)簽。因此,專(zhuān)家能以最大可能的概括程度明確表達(dá)語(yǔ)言模式的原型,該語(yǔ)言模式針對(duì)使用同一語(yǔ)義處理器在任何文本中以例子的形式找到的新語(yǔ)義關(guān)系的自動(dòng)識(shí)別。在一些實(shí)施方式中,語(yǔ)言模式的概括可由專(zhuān)家通過(guò)與語(yǔ)義處理器的互動(dòng)人工地或由語(yǔ)義處理器自動(dòng)地來(lái)執(zhí)行。這由于為了那些目的提供有效的上下文的文本的基本語(yǔ)言分析而變得可能。已通過(guò)測(cè)試階段的那些語(yǔ)言模式原型可存儲(chǔ)在模式數(shù)據(jù)庫(kù)中,該模式數(shù)據(jù)庫(kù)可以是由語(yǔ)義處理器使用的語(yǔ)言知識(shí)庫(kù)的一部分。根據(jù)發(fā)明性概念的一個(gè)方面,提供了用于自然語(yǔ)言文本的自動(dòng)標(biāo)注的方法。該方法包括提供耦合到至少一個(gè)非瞬態(tài)存儲(chǔ)介質(zhì)的至少一個(gè)計(jì)算機(jī)處理器。所述至少一個(gè)計(jì)算機(jī)處理器執(zhí)行該方法,其包括接收來(lái)自電子形式的至少一個(gè)自然語(yǔ)言文件的文本;執(zhí)行文本的基本語(yǔ)言分析;將在語(yǔ)言上分析的文本與存儲(chǔ)的目標(biāo)語(yǔ)義關(guān)系模式相匹配;通過(guò)基于在語(yǔ)言上分析的文本和在語(yǔ)言上分析的文本與目標(biāo)語(yǔ)義關(guān)系模式的匹配的結(jié)果生成語(yǔ)義關(guān)系標(biāo)簽,來(lái)產(chǎn)生在語(yǔ)義上標(biāo)注的文本,其中,語(yǔ)義關(guān)系標(biāo)簽與來(lái)自文本內(nèi)的句子的詞或短語(yǔ)相關(guān)聯(lián),并且指示預(yù)定類(lèi)型的語(yǔ)義關(guān)系的成分;以及將在語(yǔ)義上標(biāo)注的文本存儲(chǔ)在數(shù)據(jù)庫(kù)中。
該方法還可包括將詞性標(biāo)記應(yīng)用于文本的至少部分,以生成所述文本的被標(biāo)記的部分;解析文本的被標(biāo)記的部分,以生成文本的被解析和標(biāo)記的部分;以及在語(yǔ)義上分析文本的被解析和標(biāo)記的部分以生成文本的在語(yǔ)義上分析的、被解析的和標(biāo)記的部分。應(yīng)用詞性標(biāo)記可對(duì)文本的被預(yù)格式化部分執(zhí)行,從而文本的被預(yù)格式化部分包括非自然語(yǔ)言符號(hào)被移除的文本。在語(yǔ)義上分析文本的被解析和標(biāo)記的部分可包括識(shí)別文本中的至少一個(gè)擴(kuò)展的主語(yǔ)-行動(dòng)-賓語(yǔ)(eSAO)集合的形式的一個(gè)或多個(gè)事實(shí),其中,每個(gè)eSAO集合具有至少一個(gè)eSAO成分;以及在文本中識(shí)別規(guī)則集合,所述規(guī)則集合反映至少一個(gè)eSAO集合中的因果關(guān)系的形式的外部領(lǐng)域和知識(shí)領(lǐng)域中的至少一個(gè)的規(guī)律性,其中因果關(guān)系的至少一個(gè)因果關(guān)系包括原因eSAO和結(jié)果eSAO。至少一個(gè)eSAO成分可包括與選自由主語(yǔ)、賓語(yǔ)、行動(dòng)、形容詞、介詞、間接賓語(yǔ)和副詞所構(gòu)成的組的一個(gè)或多個(gè)元素有關(guān)的文本。識(shí)別文本中的一個(gè)或多個(gè)擴(kuò)展的主語(yǔ)_行動(dòng)_賓語(yǔ)(eSAO)集合可包括識(shí)別文本的至少一個(gè)句子中的一個(gè)或多個(gè)主語(yǔ)、賓語(yǔ)、行動(dòng)、形容詞、介詞、間接賓語(yǔ)和副詞。識(shí)別文本中的一個(gè)或多個(gè)擴(kuò)展的主語(yǔ)_行動(dòng)_賓語(yǔ)(eSAO)集合和因果關(guān)系可包括訪問(wèn)具有定義eSAO和因果成分的模式的數(shù)據(jù)庫(kù)的語(yǔ)言知識(shí)庫(kù)。原因eSAO可包括至少一個(gè)eSAO集合的至少一個(gè)eSAO成分,而結(jié)果eSAO可包括至少一個(gè)eSAO集合的至少一個(gè)其它eSAO成分。所述至少一個(gè)因果關(guān)系可包括順序操作符,其使用詞法、語(yǔ)法和/或語(yǔ)義語(yǔ)言手段使原因eSAO的至少一個(gè)eSAO成分與結(jié)果eSAO的至少一個(gè)其它eSAO成分相關(guān)。將在語(yǔ)言上分析的文本與目標(biāo)語(yǔ)義關(guān)系模式相匹配還可包括訪問(wèn)是語(yǔ)言知識(shí)數(shù)據(jù)庫(kù)的一部分的模式數(shù)據(jù)庫(kù),其中模式數(shù)據(jù)庫(kù)通過(guò)下列操作生成執(zhí)行文本文件的語(yǔ)料庫(kù)的基本語(yǔ)言分析;在語(yǔ)言上分析的語(yǔ)料庫(kù)中識(shí)別特定情況的目標(biāo)語(yǔ)義關(guān)系;使用來(lái)自于所識(shí)別的特定情況的目標(biāo)語(yǔ)義關(guān)系的詞法語(yǔ)言單元以及其語(yǔ)義類(lèi)別、詞性和句法標(biāo)記、eSAO 和因果標(biāo)簽將特定情況的目標(biāo)語(yǔ)義關(guān)系概括為語(yǔ)言模式;以及存儲(chǔ)語(yǔ)言模式。將特定情況的目標(biāo)語(yǔ)義關(guān)系概括為語(yǔ)言模式可使用eSAO格式作為上下文,并可包括使用針對(duì)所述特定情況的目標(biāo)語(yǔ)義關(guān)系的組成成分從基本語(yǔ)言分析得到的詞法、語(yǔ)法、句法、eSAO和因果標(biāo)簽,通過(guò)在文本文件的在語(yǔ)言上分析的語(yǔ)料庫(kù)中進(jìn)行搜索,來(lái)概括該成分。將所述在語(yǔ)言上分析的文本與所述目標(biāo)語(yǔ)義關(guān)系模式相匹配對(duì)詞、詞性標(biāo)記、句法標(biāo)記、eSAO和因果集合進(jìn)行匹配,其中生成語(yǔ)義關(guān)系標(biāo)簽可包括生成eSAO和因果標(biāo)簽。根據(jù)本發(fā)明的另一方面,提供了包括具有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)的計(jì)算程序產(chǎn)品,所述計(jì)算機(jī)可執(zhí)行指令在由至少一個(gè)處理器執(zhí)行時(shí)執(zhí)行用于自然語(yǔ)言文本的語(yǔ)義標(biāo)注的方法。該方法包括接收來(lái)自至少一個(gè)自然語(yǔ)言文件的文本;執(zhí)行文本的基本語(yǔ)言分析;將在語(yǔ)言上分析的文本與存儲(chǔ)的目標(biāo)語(yǔ)義關(guān)系模式相匹配;通過(guò)基于在語(yǔ)言上分析的文本和在語(yǔ)言上分析的文本與目標(biāo)語(yǔ)義關(guān)系模式的匹配的結(jié)果生成語(yǔ)義關(guān)系標(biāo)簽,來(lái)產(chǎn)生在語(yǔ)義上標(biāo)注的文本,其中,所述語(yǔ)義關(guān)系標(biāo)簽與來(lái)自文本內(nèi)的句子的詞或短語(yǔ)相關(guān)聯(lián),并且指示預(yù)定類(lèi)型的語(yǔ)義關(guān)系的成分;以及將在語(yǔ)義上標(biāo)注的文本存儲(chǔ)在數(shù)據(jù)庫(kù)中。
根據(jù)本發(fā)明的另一方面,提供了用于電子或數(shù)字形式的自然語(yǔ)言文本的自動(dòng)語(yǔ)義標(biāo)注的語(yǔ)義處理器。語(yǔ)義處理器包括預(yù)格式化所接收的電子文本的預(yù)格式化器;執(zhí)行被預(yù)格式化的文本的基本語(yǔ)言分析的語(yǔ)言分析器;將在語(yǔ)言上分析的文本與存儲(chǔ)的目標(biāo)語(yǔ)義關(guān)系模式相匹配以產(chǎn)生在語(yǔ)義上標(biāo)注的文本的標(biāo)注器,其中在語(yǔ)義上標(biāo)注的文本包括與來(lái)自文本內(nèi)的句子的詞或短語(yǔ)相關(guān)聯(lián)的語(yǔ)義關(guān)系標(biāo)簽,其指示預(yù)定類(lèi)型的語(yǔ)義關(guān)系的成分。語(yǔ)言分析器可包括產(chǎn)生在語(yǔ)義上分析的文本的語(yǔ)義分析器。語(yǔ)義分析器可包括 識(shí)別文本中的eSAO集合的擴(kuò)展的主語(yǔ)-行動(dòng)-賓語(yǔ)(eSAO)識(shí)別器;以及識(shí)別因果關(guān)系的因果(C-E)識(shí)別器,其中eSAO和C-E識(shí)別是基于存儲(chǔ)在語(yǔ)言知識(shí)庫(kù)中的語(yǔ)言模式的。由標(biāo)注器生成的語(yǔ)義關(guān)系標(biāo)簽可包括eSAO標(biāo)簽和因果標(biāo)簽。eSAO原因-結(jié)果關(guān)系可包括原因eSAO、結(jié)果eSAO和使原因eSAO與結(jié)果eSAO相關(guān)的至少一個(gè)順序操作符。每個(gè)eSAO集合可包括eSAO成分,以及原因eSAO可包括eSAO成分的至少一個(gè)eSAO 成分,而結(jié)果eSAO可包括eSAO成分的不同于原因eSAO的至少一個(gè)eSAO成分的至少一個(gè) eSAO成分。eSAO成分可包括與選自由主語(yǔ)、賓語(yǔ)、行動(dòng)、形容詞、介詞、間接賓語(yǔ)和副詞所構(gòu)成的組的一個(gè)或多個(gè)元素有關(guān)的文本。語(yǔ)言分析器還可包括接收被預(yù)格式化的文本并產(chǎn)生被POS標(biāo)記的文本的詞性 (POS)標(biāo)記器;以及接收被POS標(biāo)記的文本、產(chǎn)生被解析的文本并向語(yǔ)義分析器提供被解析的文本的解析器,其中詞性標(biāo)記器和解析器使用存儲(chǔ)在語(yǔ)言知識(shí)庫(kù)中的數(shù)據(jù)來(lái)操作。預(yù)格式化器可執(zhí)行下列操作的至少一個(gè)移除數(shù)字或電子表示的文本中的不形成自然語(yǔ)言文本的部分的任何符號(hào)、檢測(cè)和校正文本中的任何不匹配或錯(cuò)誤、以及將文本分割成句子和詞的結(jié)構(gòu)。目標(biāo)語(yǔ)義關(guān)系模式可由模式生成器創(chuàng)建,模式生成器包括執(zhí)行文本文件的語(yǔ)料庫(kù)的基本語(yǔ)言分析的語(yǔ)料庫(kù)語(yǔ)言分析器;生成具有詞性標(biāo)記、句法標(biāo)記、eSAO標(biāo)簽和因果標(biāo)簽的被標(biāo)注的文本語(yǔ)料庫(kù)的標(biāo)注文本語(yǔ)料庫(kù)生成器;在被標(biāo)注的文本語(yǔ)料庫(kù)中識(shí)別特定情況的目標(biāo)語(yǔ)義關(guān)系的關(guān)系生成器;通過(guò)使用所述特定情況的語(yǔ)義關(guān)系的標(biāo)簽來(lái)概括所述特定情況的語(yǔ)義關(guān)系,以產(chǎn)生更一般的語(yǔ)言模式的模式生成器,其中所述標(biāo)簽包括詞法語(yǔ)言單元、所述語(yǔ)義關(guān)系的語(yǔ)義類(lèi)別、詞性和句法標(biāo)記、以及eSAO和因果標(biāo)簽;以及用于測(cè)試模式生成器的一般語(yǔ)言模式的模式測(cè)試器。當(dāng)將特定情況的目標(biāo)語(yǔ)義關(guān)系概括為語(yǔ)言模式時(shí),模式生成器使用eSAO格式作為上下文,以使用在基本語(yǔ)言分析的水平上針對(duì)組成成分得到的詞性、句法以及eSAO和因果標(biāo)簽,作為在文本文件的在語(yǔ)言上分析的語(yǔ)料庫(kù)中進(jìn)行搜索的結(jié)果,來(lái)概括所述成分。標(biāo)注器可通過(guò)對(duì)詞、詞性標(biāo)記、句法標(biāo)記、eSAO和因果集合進(jìn)行匹配來(lái)將所述在語(yǔ)言上分析的文本與目標(biāo)語(yǔ)義關(guān)系模式相匹配。


附圖通過(guò)實(shí)例而不是限制性的方式描述了優(yōu)選實(shí)施方式。在附圖中,相似的參考數(shù)字表示相同或相似的元件。附圖不一定按比例,而是著重于說(shuō)明本發(fā)明的方面。圖1是根據(jù)本發(fā)明的方面的一組功能模塊或處理器的實(shí)施方式的高級(jí)結(jié)構(gòu)圖,該組功能模塊或處理器可在一個(gè)或多個(gè)計(jì)算機(jī)中實(shí)現(xiàn),以形成語(yǔ)義處理器。圖2是根據(jù)本發(fā)明的方面的一組功能模塊或處理器的實(shí)施方式的高級(jí)結(jié)構(gòu)圖,該組功能模塊或處理器可在一個(gè)或多個(gè)計(jì)算機(jī)中實(shí)現(xiàn),以形成語(yǔ)言分析器。圖3是根據(jù)本發(fā)明的方面的一組功能模塊或處理器的實(shí)施方式的高級(jí)結(jié)構(gòu)圖,該組功能模塊或處理器可在一個(gè)或多個(gè)計(jì)算機(jī)中實(shí)現(xiàn),以形成語(yǔ)義分析器。圖4A和圖4B示出了針對(duì)兩個(gè)特定的句子的eSAO識(shí)別器的輸出的實(shí)施方式。圖5A示出了用于識(shí)別單個(gè)eSAO內(nèi)的C-E關(guān)系的語(yǔ)言模式的一般形式的示例性實(shí)施方式。圖5B示出了使用圖5A所述的語(yǔ)言模式的針對(duì)給定句子的C-E識(shí)別器的輸出的實(shí)施方式。圖6A示出了在兩個(gè)eSAO之間的C-E關(guān)系的識(shí)別的語(yǔ)言模式的一般形式的示例性實(shí)施方式。 圖6B示出了使用圖6A所述的語(yǔ)言模式的針對(duì)特定句子的C-E識(shí)別器的輸出的實(shí)施方式。圖7是根據(jù)本發(fā)明的方面的一組功能模塊或處理器的實(shí)施方式的高級(jí)結(jié)構(gòu)圖,該組功能模塊或處理器可在一個(gè)或多個(gè)計(jì)算機(jī)中實(shí)現(xiàn),用于創(chuàng)建對(duì)文本的自動(dòng)語(yǔ)義標(biāo)注有用的語(yǔ)言模式。圖8示出了根據(jù)本發(fā)明的方面的計(jì)算機(jī)實(shí)現(xiàn)的實(shí)施方式的結(jié)構(gòu)圖,當(dāng)該計(jì)算機(jī)實(shí)現(xiàn)被適當(dāng)?shù)嘏渲脮r(shí)可用于執(zhí)行本文所述的一個(gè)或多個(gè)功能或方法。圖9是計(jì)算設(shè)備的網(wǎng)絡(luò)的實(shí)施方式,本發(fā)明可在這些計(jì)算設(shè)備中實(shí)現(xiàn)。
具體實(shí)施例方式在下文中,通過(guò)參考附圖解釋根據(jù)本發(fā)明的方面的說(shuō)明性實(shí)施方式來(lái)描述本發(fā)明的方面。在描述這些實(shí)施方式時(shí),為了簡(jiǎn)明起見(jiàn),一般省略對(duì)公知的項(xiàng)、功能或配置的詳細(xì)描述。將理解,雖然術(shù)語(yǔ)第一、第二等在本文用于描述各種元件,但這些元件不應(yīng)被這些術(shù)語(yǔ)限制。這些術(shù)語(yǔ)用于將一個(gè)元件與另一元件區(qū)分開(kāi),而不是暗示元件的所需順序。例如,第一元件可被稱(chēng)為第二元件,且類(lèi)似地,第二元件可被稱(chēng)為第一元件,而不偏離本發(fā)明的范圍。如本文使用的,術(shù)語(yǔ)“和/或”包括列出的相關(guān)聯(lián)的術(shù)語(yǔ)的一個(gè)或多個(gè)的任意和全部組合。將理解,當(dāng)元件被稱(chēng)為在另一元件“上”或“連接”或“耦合”到另一元件時(shí),它可直接在另一元件上或連接或耦合到另一元件,或者可以存在居間的元件。相反,當(dāng)元件被稱(chēng)為 “直接,,在另一元件“上”或“直接連接,,或“直接耦合,,到另一元件時(shí),不存在居間的元件。 應(yīng)以相似的方式來(lái)解釋用于描述元件之間的關(guān)系的其它詞(例如,“在...之間”與“直接在...之間”、“相鄰”與“直接相鄰”等)。本文使用的術(shù)語(yǔ)僅僅是為了描述特定實(shí)施方式的目的,而不是用來(lái)限制本發(fā)明。 如本文使用的,單數(shù)形式“一(a)”、“一(an)”和“該(the) ”也旨在包括復(fù)數(shù)形式,除非上下文明確地指示其它情況。將進(jìn)一步理解,術(shù)語(yǔ)“包括(comprises)”、“包括(comprising)”、 “包括(includes)”和/或“包括(including) ”當(dāng)在本文中使用時(shí)指定所陳述的特征、步驟、操作、元件和/或部件的存在,但不排除一個(gè)或多個(gè)其它特征、步驟、操作、元件、部件和 /或其組合的存在或添加。根據(jù)本發(fā)明的方面,提供了唯一的語(yǔ)義處理器(SP),其中勞動(dòng)強(qiáng)度降低了,所產(chǎn)生的結(jié)果的質(zhì)量增加了,并且使用相關(guān)語(yǔ)義處理的應(yīng)用的范圍擴(kuò)展了。這樣的語(yǔ)義處理器執(zhí)行面向一組語(yǔ)義結(jié)構(gòu)的文本的更深入的基本語(yǔ)言分析,并根據(jù)利用那些語(yǔ)義結(jié)構(gòu)的技術(shù)方法并進(jìn)一步應(yīng)用戶(hù)要求來(lái)執(zhí)行其語(yǔ)義標(biāo)注。本發(fā)明的實(shí)施方式涉及用于電子形式的自然語(yǔ)義文本的自動(dòng)語(yǔ)義標(biāo)注的系統(tǒng)和方法。該系統(tǒng)包括語(yǔ)義處理器,其執(zhí)行輸入文本的基本語(yǔ)言分析、賓語(yǔ)/賓語(yǔ)類(lèi)別的識(shí)別、 來(lái)自一組賓語(yǔ)的事實(shí)的識(shí)別以及來(lái)自一組事實(shí)的因果關(guān)系的識(shí)別。上述語(yǔ)義關(guān)系獨(dú)立于主題領(lǐng)域和語(yǔ)言,并表示關(guān)于外部領(lǐng)域(例如,外部世界)和/或主題領(lǐng)域的三種主要類(lèi)型的知識(shí)。這些語(yǔ)義關(guān)系連同其成分和屬性一起確定也被稱(chēng)為語(yǔ)義關(guān)系標(biāo)簽的一組語(yǔ)義標(biāo)簽,其中語(yǔ)義處理器在基本語(yǔ)言分析階段期間執(zhí)行輸入文本的語(yǔ)義文本標(biāo)注,從而取決于特定應(yīng)用的需要來(lái)幫助發(fā)展用于進(jìn)一步的目標(biāo)語(yǔ)義標(biāo)注的語(yǔ)言模式。根據(jù)本發(fā)明的實(shí)施方式,用于標(biāo)注電子或數(shù)字形式的文本的語(yǔ)義處理包括預(yù)格式化文本;執(zhí)行語(yǔ)言分析;以及文本標(biāo)注。圖1是根據(jù)本發(fā)明的方面的一組功能模塊或處理器的實(shí)施方式的高級(jí)結(jié)構(gòu)圖,該組功能模塊或處理器可在一個(gè)或多個(gè)計(jì)算機(jī)中實(shí)現(xiàn),以形成語(yǔ)義標(biāo)注處理器100,其也被稱(chēng)為語(yǔ)義處理器(SP) 100。語(yǔ)義處理器100構(gòu)造成、適合于或配置成處理原始文本10,以產(chǎn)生標(biāo)注文本數(shù)據(jù)庫(kù)50。在這個(gè)實(shí)施方式中,語(yǔ)義處理器100包括預(yù)格式化原始文本10的預(yù)格式化器20、執(zhí)行被預(yù)格式化的文本的語(yǔ)言分析的語(yǔ)言分析器30、以及執(zhí)行在語(yǔ)言上分析的文本的語(yǔ)義標(biāo)注并產(chǎn)生標(biāo)注文本數(shù)據(jù)庫(kù)50的標(biāo)注器40。在一個(gè)實(shí)施方式中,也被稱(chēng)為語(yǔ)義標(biāo)注器的標(biāo)注器40對(duì)在語(yǔ)義上分析的文本與存儲(chǔ)在語(yǔ)言知識(shí)庫(kù)60中的或語(yǔ)言知識(shí)庫(kù)60可訪問(wèn)的目標(biāo)語(yǔ)義關(guān)系模式(或語(yǔ)言模式)進(jìn)行匹配或比較,并基于在語(yǔ)義上分析的文本和匹配結(jié)果來(lái)生成語(yǔ)義關(guān)系標(biāo)簽。該語(yǔ)義標(biāo)簽可包括所分析的文本中的與某些類(lèi)型的語(yǔ)義關(guān)系(例如, 因果和/或整體_部分)相對(duì)應(yīng)的詞或短語(yǔ)的標(biāo)簽。語(yǔ)義處理器100的模塊的功能可體現(xiàn)在可由至少一個(gè)處理器執(zhí)行并被保存在語(yǔ)言知識(shí)庫(kù)60中的計(jì)算機(jī)程序代碼中。語(yǔ)義處理功能可以可選地或附加地體現(xiàn)在硬件、固件或前述項(xiàng)的組合中,這對(duì)本文描述的其它功能模塊或處理器也是成立的。語(yǔ)言知識(shí)庫(kù)60可包括各種數(shù)據(jù)庫(kù),例如詞典、分類(lèi)器、統(tǒng)計(jì)數(shù)據(jù)等,以及識(shí)別用于文本到詞的分割、名詞和動(dòng)詞短語(yǔ)、主語(yǔ)、賓語(yǔ)、行動(dòng)及其屬性的識(shí)別、因果關(guān)系識(shí)別等的語(yǔ)言模型或語(yǔ)言模式的數(shù)據(jù)庫(kù)。下面另外詳細(xì)地描述語(yǔ)言分析器30和標(biāo)注器40。優(yōu)選地,根據(jù)在上文通過(guò)引用并入的美國(guó)專(zhuān)利No. 7,251,781中描述的技術(shù)來(lái)執(zhí)行由預(yù)格式化器20執(zhí)行的文本預(yù)格式化。優(yōu)選地,在本實(shí)施方式中,預(yù)格式化文本包括從文本中移除非自然語(yǔ)言符號(hào),例如標(biāo)點(diǎn)符號(hào)。圖2是根據(jù)本發(fā)明的方面的一組功能模塊或處理器的實(shí)施方式的高級(jí)結(jié)構(gòu)圖,該組功能模塊或處理器可在一個(gè)或多個(gè)計(jì)算機(jī)中實(shí)現(xiàn),以形成圖1的語(yǔ)言分析器30。在其它實(shí)施方式中,語(yǔ)言分析器30可包括執(zhí)行基本上相同的功能的不同的一組計(jì)算機(jī)模塊。語(yǔ)言分析器30處理從預(yù)格式化器(例如,上文關(guān)于圖1描述的預(yù)格式化器20)接收的被預(yù)格式化的文本,以產(chǎn)生在語(yǔ)義上分析的文本16。被預(yù)格式化的文本12由確定詞性標(biāo)記并將該詞性標(biāo)記應(yīng)用于被預(yù)格式化的文本12的詞性(POS)標(biāo)記器32接收。然后,解析器34解析被POS標(biāo)記的文本以用于由語(yǔ)義分析器300進(jìn)行處理。在本實(shí)施方式中,優(yōu)選地,根據(jù)在美國(guó)專(zhuān)利No. 7,251,781中描述的技術(shù)來(lái)執(zhí)行由POS標(biāo)記器32和解析器34執(zhí)行的功能。圖3是根據(jù)本發(fā)明的方面的一組功能模塊或處理器的實(shí)施方式的高級(jí)結(jié)構(gòu)圖,該組功能模塊或處理器可在一個(gè)或多個(gè)計(jì)算機(jī)中實(shí)現(xiàn),以形成語(yǔ)義分析器300。在本實(shí)施方式中,語(yǔ)義分析器300與關(guān)于圖2描述的語(yǔ)義分析器300類(lèi)似或相同。在本實(shí)施方式中,語(yǔ)義分析器300從解析器接收被解析的文本14,并從被解析的文本14產(chǎn)生在語(yǔ)義上分析的文本16。語(yǔ)義分析器300具有執(zhí)行eSAO語(yǔ)義關(guān)系識(shí)別的擴(kuò)展的主語(yǔ)_行動(dòng)_賓語(yǔ)(eSAO)識(shí)別器310和在eSAO內(nèi)和/或之間執(zhí)行因果語(yǔ)義關(guān)系識(shí)別的 C-E識(shí)別器320。除了主語(yǔ)(S)、行動(dòng)(A)、賓語(yǔ)(0)類(lèi)型的語(yǔ)義元素或成分以外,在本實(shí)施方式中,介詞、間接賓語(yǔ)、形容詞、副詞類(lèi)型的語(yǔ)義元素或成分也被識(shí)別為eSAO。如上所述, 還可識(shí)別其它語(yǔ)義關(guān)系,例如因果關(guān)系。在本實(shí)施方式中,優(yōu)選地,根據(jù)在美國(guó)專(zhuān)利No. 7,251,781中描述的技術(shù)來(lái)執(zhí)行 eSAO關(guān)系識(shí)別。還在本實(shí)施方式中,可根據(jù)通過(guò)引用被全部并入的美國(guó)專(zhuān)利申請(qǐng)公布 No. 20060041424中描述的技術(shù)來(lái)執(zhí)行因果關(guān)系識(shí)別。圖4A和圖4B示出了識(shí)別文本中的eSAO類(lèi)型的語(yǔ)義關(guān)系的例子,其可由圖3的 eSAO識(shí)別器310針對(duì)輸入句子來(lái)完成。特別是,圖4A和圖4B示出了針對(duì)兩個(gè)特定的示例句子的eSAO識(shí)別器310的示例輸出“移相元素向?qū)耆种撇黄谕哪J健?在圖4A中);以及"χ的最大值是依賴(lài)于鑭系元素的離子半徑的”(在圖4B中)。在圖4A中,通過(guò)eSAO識(shí)別器310從輸入句子確定與主語(yǔ)、行動(dòng)、賓語(yǔ)和副詞對(duì)應(yīng)的eSAO成分。在圖4B中,通過(guò)eSAO識(shí)別器310針對(duì)輸入句子確定eSAO成分——主語(yǔ)、行動(dòng)、介詞、間接賓語(yǔ)和形容詞。在本實(shí)施方式中,eSAO成分——主語(yǔ)、賓語(yǔ)和間接賓語(yǔ)——具有內(nèi)部結(jié)構(gòu),g卩,與語(yǔ)義關(guān)系對(duì)應(yīng)的成分本身及其屬性。例如,從句子確定的主語(yǔ)、賓語(yǔ)或間接賓語(yǔ)可以是整體-部分(或部分整體)關(guān)系的參數(shù),即,與這樣的關(guān)系的整體或者部分對(duì)應(yīng),或者可以是其它功能關(guān)系中的參數(shù)。根據(jù)本實(shí)施方式的因果關(guān)系包括使作為原因的一個(gè)或多個(gè)完整和/或不完整的 eSAO與作為相應(yīng)的結(jié)果的一個(gè)或多個(gè)完整和/或不完整的eSAO配對(duì)。注意,單個(gè)eSAO可產(chǎn)生原因eSAO和結(jié)果eSAO兩者。此外,從知識(shí)工程和自然語(yǔ)言特性的觀點(diǎn)看,因果關(guān)系可在單獨(dú)的eSAO中找到。C-E識(shí)別器320使用可存儲(chǔ)在語(yǔ)言知識(shí)數(shù)據(jù)庫(kù)60中的語(yǔ)言模式,來(lái)檢測(cè)在單個(gè) eSAO內(nèi)和不同的eSAO之間的文本句子中的因果關(guān)系。例如,如果主語(yǔ)具有“CAUSE_0F”意義且行動(dòng)利用“BE”意義將主語(yǔ)鏈接至賓語(yǔ),則“主語(yǔ)中的“cause of”結(jié)構(gòu)”類(lèi)型的模式在單個(gè)eSAO內(nèi)出現(xiàn)。在該模式中,“CAUSE_0F”主語(yǔ)意義是表示名詞短語(yǔ)的非終止符號(hào),其優(yōu)選地符合下面的模式多個(gè)詞;詞“引起(cause)”或“引起(causes)”;跟隨有多個(gè)詞的介詞“的(of)”?!癈AUSE_0F”意義可由下面的方程表示CAUSE_0F = · *( “cause” | “causes”)“of”· *在優(yōu)選實(shí)施方式中,“BE”的意義至少等于詞或短語(yǔ)“是(be) |變?yōu)?become) ”。圖5A示出了用于識(shí)別單個(gè)eSAO內(nèi)的C-E關(guān)系的語(yǔ)言模式的一般形式的示例性實(shí)施方式。圖5B示出了使用圖5A所述的語(yǔ)言模式的針對(duì)給定句子的C-E識(shí)別器320的輸出的實(shí)施方式。特別是,圖5B示出了針對(duì)輸入句子“水蒸發(fā)的原因是熱”由eSAO識(shí)別器310所識(shí)別的eSAO類(lèi)型的關(guān)系。而且,示出了根據(jù)上面描述的語(yǔ)言模式在該單個(gè)eSAO中由C-E識(shí)別器320識(shí)別的因果關(guān)系,其中結(jié)果“水蒸發(fā)”具有原因“熱”。注意,在上面的例子中提到的符號(hào)“_”意味著對(duì)應(yīng)的成分可具有任何含義或表示沒(méi)有符號(hào)或?yàn)榭铡Ec前面的語(yǔ)言模式不同,如果被認(rèn)為是原因的第一 eSAO具有帶有“ACTIVE”意義的行動(dòng)且被認(rèn)為是結(jié)果的第二 eSAO具有帶有“T0_VB | DO | HV”意義的行動(dòng),則在這兩個(gè)eSAO 之間產(chǎn)生“目的狀語(yǔ)TO VB I DO IHV”類(lèi)型的模式?!癆CTIVE”行動(dòng)意義是表示從主動(dòng)語(yǔ)態(tài)動(dòng)詞組提取的行動(dòng)的非終止符號(hào)?!癟0_VB I DO I HV”行動(dòng)意義是表示從包括下列各項(xiàng)的動(dòng)詞組提取的行動(dòng)的非終止符號(hào)任何的不定式動(dòng)詞(VB)、不定式“具有”(HV)或不定式“做”(D0), 其中冠詞“to”在動(dòng)詞前面。圖6A示出了對(duì)識(shí)別在兩個(gè)eSAO之間的C-E關(guān)系有用的語(yǔ)言模式的一般形式。圖 6B示出了使用圖6A所述的語(yǔ)言模式的針對(duì)特定句子的C-E識(shí)別器320的輸出。在圖6A 中,語(yǔ)言模式要求主語(yǔ)1和賓語(yǔ)2 “存在”,即,主語(yǔ)1在第一 eSAO中,而賓語(yǔ)2在第二 eSAO 中。在第一 eSAO中的行動(dòng)1必須是“ACTIVE”,而在第二 eSAO中的行動(dòng)2必須具有如上所述的形式 “T0_VB|D0|HV”。圖6B特別示出了根據(jù)上面關(guān)于圖6A描述的語(yǔ)言模式由C-E識(shí)別器320從輸入句子“寄存器包含正確的比特模式以開(kāi)始其移出操作”中的兩個(gè)eSAO識(shí)別的因果關(guān)系。如使用圖6A的語(yǔ)言模式確定的,來(lái)自輸入句子的詞和短語(yǔ)示出為具有其對(duì)應(yīng)的語(yǔ)義標(biāo)簽。參見(jiàn)圖1,在基本語(yǔ)義分析期間由語(yǔ)言處理器100針對(duì)輸入文本產(chǎn)生的語(yǔ)義標(biāo)簽連同詞法、語(yǔ)法和句法標(biāo)記一起涵蓋了輸入文本的幾乎所有詞法單元。在本實(shí)施方式中, 語(yǔ)義處理器100實(shí)允許對(duì)進(jìn)一步的文本語(yǔ)義標(biāo)注有用的語(yǔ)言模式的有效擴(kuò)展。例如,語(yǔ)義處理器100給專(zhuān)家提供使用不同水平的語(yǔ)言分析(例如,詞法、語(yǔ)法、句法和語(yǔ)義分析)的標(biāo)簽來(lái)“覆蓋(wrap)”新目標(biāo)語(yǔ)義關(guān)系的任何特定例子的能力,這可獨(dú)立于語(yǔ)言和知識(shí)領(lǐng)域。用戶(hù)可通過(guò)例如在計(jì)算機(jī)顯示器上使文本片段中的對(duì)應(yīng)的詞突顯來(lái)指定新的目標(biāo)語(yǔ)義關(guān)系。因此,一方面,語(yǔ)義處理器100提供概括用于識(shí)別文本中的語(yǔ)義關(guān)系的語(yǔ)言模式的能力,且另一方面,由于語(yǔ)義處理器100可訪問(wèn)使用語(yǔ)言模式來(lái)處理文本所需的文本分析的水平或量,因此提供在所概括的語(yǔ)義模式的基礎(chǔ)上在功能上支持任何文本中的語(yǔ)義關(guān)系的自動(dòng)識(shí)別的能力。該識(shí)別可在主題內(nèi)容中以及在邏輯內(nèi)容中被執(zhí)行。圖7是根據(jù)本發(fā)明的方面的一組功能模塊或處理器的實(shí)施方式的高級(jí)結(jié)構(gòu)圖,該組功能模塊或處理器可在一個(gè)或多個(gè)計(jì)算機(jī)中實(shí)現(xiàn),可用于創(chuàng)建和存儲(chǔ)對(duì)文本的自動(dòng)語(yǔ)義標(biāo)注有用的語(yǔ)言模式。特別是,圖7示出了可用于自動(dòng)生成可在本文所公開(kāi)的實(shí)施方式中實(shí)現(xiàn)的新的語(yǔ)言模式的模塊180、190、200、210和220。在各種實(shí)施方式中,圖7的一個(gè)或多個(gè)模塊可包括在上文關(guān)于圖1-3描述的語(yǔ)言分析器30和標(biāo)注器40的至少一個(gè)中。
如圖7所示,自然語(yǔ)言文本文件的足夠大的語(yǔ)料庫(kù)——文本語(yǔ)料庫(kù)170優(yōu)選地用來(lái)建立并形成包括多個(gè)語(yǔ)言模式的模式數(shù)據(jù)庫(kù)230。在其它實(shí)施方式中,可以使用任何數(shù)量的文本,但得到比大的文本語(yǔ)料庫(kù)更少的語(yǔ)言模式。如上所述,語(yǔ)料庫(kù)語(yǔ)言分析器180對(duì)文本語(yǔ)料庫(kù)170執(zhí)行基本語(yǔ)言分析。為了實(shí)現(xiàn)前述內(nèi)容,例如,圖1-3的語(yǔ)義處理器100可作為或結(jié)合語(yǔ)料庫(kù)語(yǔ)言分析器180來(lái)執(zhí)行這些功能。標(biāo)注文本語(yǔ)料庫(kù)生成器190在文本語(yǔ)料庫(kù)170的基本語(yǔ)言分析期間基于語(yǔ)料庫(kù)語(yǔ)言分析器180(或語(yǔ)義處理器100)的輸出生成包含詞性標(biāo)記、句法標(biāo)記和語(yǔ)義標(biāo)簽的句子的語(yǔ)料庫(kù)。關(guān)系識(shí)別器200執(zhí)行識(shí)別一些特定情況的語(yǔ)義關(guān)系(例如,C-E關(guān)系)的過(guò)程,該特定情況的語(yǔ)義關(guān)系可在包含特定語(yǔ)義關(guān)系的標(biāo)注句子的列表中指示。例如,專(zhuān)家可通過(guò)例如經(jīng)由計(jì)算機(jī)顯示器指示由標(biāo)注文本語(yǔ)料庫(kù)生成器190輸出的具有所關(guān)注的語(yǔ)義關(guān)系的標(biāo)注句子來(lái)指示所關(guān)注的特定語(yǔ)義關(guān)系。模式生成器210通過(guò)使用語(yǔ)義關(guān)系的標(biāo)簽來(lái)概括特定情況的語(yǔ)義關(guān)系,以生成更一般的語(yǔ)言模式或目標(biāo)語(yǔ)義關(guān)系模式。然后,模式測(cè)試器 220使用標(biāo)注文本語(yǔ)料庫(kù)190來(lái)測(cè)試所生成的模式,并將核準(zhǔn)的模式置于模式數(shù)據(jù)庫(kù)230 中。關(guān)系識(shí)別器200的功能可由專(zhuān)家手工地執(zhí)行,即,他或她可瀏覽標(biāo)注文本語(yǔ)料庫(kù) 190并找到包含目標(biāo)語(yǔ)義關(guān)系的文本的片段,或可由適合于搜索包含目標(biāo)語(yǔ)義關(guān)系的文本的片段的計(jì)算機(jī)自動(dòng)地執(zhí)行,或者可以使用上述的某種組合。例如,用戶(hù)可指定在目標(biāo)語(yǔ)義關(guān)系中明確找到的多個(gè)概念,且關(guān)系識(shí)別器200可針對(duì)包含這些概念的文本的片段來(lái)自動(dòng)搜索標(biāo)注文本語(yǔ)料庫(kù)190。例如,如果用戶(hù)對(duì)整體-部分語(yǔ)義關(guān)系感興趣,則關(guān)系識(shí)別器 200將在標(biāo)注文本語(yǔ)料庫(kù)190中找到句子“引擎被定位在汽車(chē)內(nèi)”,其包含指定的整體-部分(即,汽車(chē)-引擎)語(yǔ)義關(guān)系。一旦找到這個(gè)句子,則語(yǔ)料庫(kù)語(yǔ)言分析器180對(duì)這個(gè)句子執(zhí)行詞性標(biāo)記、解析和語(yǔ)義分析,并設(shè)置對(duì)應(yīng)的語(yǔ)義標(biāo)簽。表1示出了對(duì)上面句子的該分析結(jié)果,其中為了清楚起見(jiàn)省略了概略、詞法、語(yǔ)法和句法標(biāo)記。
權(quán)利要求
1.一種用于自然語(yǔ)言文本的自動(dòng)標(biāo)注的方法,所述方法包括提供耦合到至少一個(gè)非瞬態(tài)存儲(chǔ)介質(zhì)的至少一個(gè)計(jì)算機(jī)處理器,所述至少一個(gè)計(jì)算機(jī)處理器執(zhí)行所述方法,包括接收來(lái)自電子形式的至少一個(gè)自然語(yǔ)言文件的文本;執(zhí)行所述文本的基本語(yǔ)言分析;將在語(yǔ)言上分析的所述文本與存儲(chǔ)的目標(biāo)語(yǔ)義關(guān)系模式相匹配;通過(guò)基于在語(yǔ)言上分析的所述文本和在語(yǔ)言上分析的所述文本與所述目標(biāo)語(yǔ)義關(guān)系模式的匹配的結(jié)果生成語(yǔ)義關(guān)系標(biāo)簽,來(lái)產(chǎn)生在語(yǔ)義上標(biāo)注的文本,其中,所述語(yǔ)義關(guān)系標(biāo)簽與來(lái)自所述文本內(nèi)的句子的詞或短語(yǔ)相關(guān)聯(lián),并且指示預(yù)定類(lèi)型的語(yǔ)義關(guān)系的成分;以及將所述在語(yǔ)義上標(biāo)注的文本存儲(chǔ)在數(shù)據(jù)庫(kù)中。
2.如權(quán)利要求1所述的方法,還包括將詞性標(biāo)記應(yīng)用于所述文本的至少部分,以生成所述文本的被標(biāo)記的部分;解析所述文本的所述被標(biāo)記的部分,以生成所述文本的被解析和標(biāo)記的部分;以及在語(yǔ)義上分析所述文本的所述被解析和標(biāo)記的部分,以生成所述文本的在語(yǔ)義上分析的、被解析和標(biāo)記的部分。
3.如權(quán)利要求2所述的方法,其中,應(yīng)用詞性標(biāo)記是對(duì)所述文本的被預(yù)格式化的部分執(zhí)行的,從而所述文本的被預(yù)格式化的部分包括非自然語(yǔ)言符號(hào)被移除的文本。
4.如權(quán)利要求2所述的方法,其中,在語(yǔ)義上分析所述文本的所述被解析和標(biāo)記的部分包括識(shí)別所述文本中的至少一個(gè)擴(kuò)展的主語(yǔ)-行動(dòng)-賓語(yǔ)(eSAO)集合的形式的一個(gè)或多個(gè)事實(shí),其中,每個(gè)eSAO集合具有至少一個(gè)eSAO成分;以及在所述文本中識(shí)別規(guī)則集合,所述規(guī)則集合反映至少一個(gè)eSAO集合中的因果關(guān)系的形式的外部領(lǐng)域和知識(shí)領(lǐng)域中的至少一個(gè)的規(guī)律性,其中,所述因果關(guān)系的至少一個(gè)因果關(guān)系包括原因eSAO和結(jié)果eSAO。
5.如權(quán)利要求4所述的方法,其中,所述至少一個(gè)eSAO成分包括與選自由主語(yǔ)、賓語(yǔ)、 行動(dòng)、形容詞、介詞、間接賓語(yǔ)和副詞所構(gòu)成的組的一個(gè)或多個(gè)元素有關(guān)的文本。
6.如權(quán)利要求4所述的方法,其中,識(shí)別所述文本中的一個(gè)或多個(gè)擴(kuò)展的主語(yǔ)_行動(dòng)-賓語(yǔ)(eSAO)集合包括識(shí)別所述文本的至少一個(gè)句子中的一個(gè)或多個(gè)主語(yǔ)、賓語(yǔ)、行動(dòng)、 形容詞、介詞、間接賓語(yǔ)和副詞。
7.如權(quán)利要求4所述的方法,其中,識(shí)別所述文本中的一個(gè)或多個(gè)擴(kuò)展的主語(yǔ)_行動(dòng)-賓語(yǔ)(eSAO)集合和因果關(guān)系包括訪問(wèn)具有定義eSAO和因果成分的模式的數(shù)據(jù)庫(kù)的語(yǔ)言知識(shí)庫(kù)。
8.如權(quán)利要求4所述的方法,其中,所述原因eSAO包括所述至少一個(gè)eSAO集合的至少一個(gè)eSAO成分,而所述結(jié)果eSAO包括所述至少一個(gè)eSAO集合的至少一個(gè)其它eSAO成分。
9.如權(quán)利要求8所述的方法,其中,所述至少一個(gè)因果關(guān)系包括順序操作符,所述順序操作符使用詞法、語(yǔ)法和/或語(yǔ)義語(yǔ)言手段使所述原因eSAO的所述至少一個(gè)eSAO成分與所述結(jié)果eSAO的所述至少一個(gè)其它eSAO成分相關(guān)。
10.如權(quán)利要求1所述的方法,其中,將在語(yǔ)言上分析的所述文本與所述目標(biāo)語(yǔ)義關(guān)系模式相匹配還包括訪問(wèn)是語(yǔ)言知識(shí)數(shù)據(jù)庫(kù)的一部分的模式數(shù)據(jù)庫(kù),其中,所述模式數(shù)據(jù)庫(kù)是通過(guò)下列操作生成的執(zhí)行文本文件的語(yǔ)料庫(kù)的基本語(yǔ)言分析;在語(yǔ)言上分析的所述語(yǔ)料庫(kù)中識(shí)別特定情況的所述目標(biāo)語(yǔ)義關(guān)系; 使用來(lái)自于所識(shí)別的特定情況的目標(biāo)語(yǔ)義關(guān)系的詞法語(yǔ)言單元以及其語(yǔ)義類(lèi)別、詞性和句法標(biāo)記、eSAO和因果標(biāo)簽,將所述特定情況的所述目標(biāo)語(yǔ)義關(guān)系概括為語(yǔ)言模式;以及存儲(chǔ)所述語(yǔ)言模式。
11.如權(quán)利要求10所述的方法,其中,將所述特定情況的目標(biāo)語(yǔ)義關(guān)系概括為語(yǔ)言模式使用eSAO格式作為上下文,并且包括使用針對(duì)所述特定情況的所述目標(biāo)語(yǔ)義關(guān)系的組成成分從所述基本語(yǔ)言分析得到的詞法、語(yǔ)法、句法、eSAO和因果標(biāo)簽,通過(guò)在文本文件的在語(yǔ)言上分析的語(yǔ)料庫(kù)中進(jìn)行搜索, 來(lái)概括所述成分。
12.如權(quán)利要求1所述的方法,其中,將在語(yǔ)言上分析的所述文本與所述目標(biāo)語(yǔ)義關(guān)系模式相匹配包括對(duì)詞、詞性標(biāo)記、句法標(biāo)記、eSAO和因果集合進(jìn)行匹配,其中,生成所述語(yǔ)義關(guān)系標(biāo)簽包括生成eSAO和因果標(biāo)簽。
13.—種包括具有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)的計(jì)算程序產(chǎn)品,所述計(jì)算機(jī)可執(zhí)行指令在由至少一個(gè)處理器執(zhí)行時(shí)執(zhí)行用于自然語(yǔ)言文本的語(yǔ)義標(biāo)注的方法,所述方法包括接收來(lái)自至少一個(gè)自然語(yǔ)言文件的文本; 執(zhí)行所述文本的基本語(yǔ)言分析;將在語(yǔ)言上分析的所述文本與存儲(chǔ)的目標(biāo)語(yǔ)義關(guān)系模式相匹配; 通過(guò)基于在語(yǔ)言上分析的所述文本和在語(yǔ)言上分析的所述文本與所述目標(biāo)語(yǔ)義關(guān)系模式的匹配的結(jié)果生成語(yǔ)義關(guān)系標(biāo)簽,來(lái)產(chǎn)生在語(yǔ)義上標(biāo)注的文本,其中,所述語(yǔ)義關(guān)系標(biāo)簽與來(lái)自所述文本內(nèi)的句子的詞或短語(yǔ)相關(guān)聯(lián),并且指示預(yù)定類(lèi)型的語(yǔ)義關(guān)系的成分;以及將所述在語(yǔ)義上標(biāo)注的文本存儲(chǔ)在數(shù)據(jù)庫(kù)中。
14.一種用于電子或數(shù)字形式的自然語(yǔ)言文本的自動(dòng)語(yǔ)義標(biāo)注的語(yǔ)義處理器,所述語(yǔ)義處理器包括預(yù)格式化器,其預(yù)格式化所接收的電子文本; 語(yǔ)言分析器,其執(zhí)行被預(yù)格式化的所述文本的基本語(yǔ)言分析; 標(biāo)注器,其將在語(yǔ)言上分析的所述文本與存儲(chǔ)的目標(biāo)語(yǔ)義關(guān)系模式相匹配,以產(chǎn)生在語(yǔ)義上標(biāo)注的文本,其中,所述在語(yǔ)義上標(biāo)注的文本包括與來(lái)自所述文本內(nèi)的句子的詞或短語(yǔ)相關(guān)聯(lián)的語(yǔ)義關(guān)系標(biāo)簽,所述語(yǔ)義關(guān)系標(biāo)簽指示預(yù)定類(lèi)型的語(yǔ)義關(guān)系的成分。
15.如權(quán)利要求14所述的語(yǔ)義處理器,其中,所述語(yǔ)言分析器包括產(chǎn)生在語(yǔ)義上分析的文本的語(yǔ)義分析器,所述語(yǔ)義分析器包括擴(kuò)展的主語(yǔ)_行動(dòng)_賓語(yǔ)(eSAO)識(shí)別器,其識(shí)別所述文本中的eSAO集合;以及因果(C-E)識(shí)別器,其識(shí)別因果關(guān)系,其中,eSAO和C-E識(shí)別是基于存儲(chǔ)在語(yǔ)言知識(shí)庫(kù)中的語(yǔ)言模式的。
16.如權(quán)利要求15所述的語(yǔ)義處理器,其中,由所述標(biāo)注器生成的所述語(yǔ)義關(guān)系標(biāo)簽包括eSAO標(biāo)簽和因果標(biāo)簽。
17.如權(quán)利要求15所述的語(yǔ)義處理器,其中,所述eSAO因果關(guān)系包括原因eSAO、結(jié)果 eSAO和使所述原因eSAO與所述結(jié)果eSAO相關(guān)的至少一個(gè)順序操作符。
18.如權(quán)利要求17所述的語(yǔ)義處理器,其中,每個(gè)eSAO集合包括eSAO成分,以及所述原因eSAO包括所述eSAO成分的至少一個(gè)eSAO成分,而所述結(jié)果eSAO包括所述eSAO成分的不同于所述原因eSAO的所述至少一個(gè)eSAO成分的至少一個(gè)eSAO成分。
19.如權(quán)利要求14所述的語(yǔ)義處理器,其中,所述eSAO成分包括與選自由主語(yǔ)、賓語(yǔ)、 行動(dòng)、形容詞、介詞、間接賓語(yǔ)和副詞所構(gòu)成的組的一個(gè)或多個(gè)元素有關(guān)的文本。
20.如權(quán)利要求15所述的語(yǔ)義處理器,其中,所述語(yǔ)言分析器還包括詞性(POS)標(biāo)記器,其接收被預(yù)格式化的所述文本并產(chǎn)生被POS標(biāo)記的文本;以及解析器,其接收所述被POS標(biāo)記的文本、產(chǎn)生被解析的文本,并向所述語(yǔ)義分析器提供所述被解析的文本,其中,所述詞性標(biāo)記器和所述解析器使用存儲(chǔ)在所述語(yǔ)言知識(shí)庫(kù)中的數(shù)據(jù)來(lái)操作。
21.如權(quán)利要求14所述的語(yǔ)義處理器,其中,所述預(yù)格式化器執(zhí)行下列操作的至少一個(gè)移除數(shù)字或電子表示的所述文本中的不形成自然語(yǔ)言文本的部分的任何符號(hào)、檢測(cè)和校正所述文本中的任何不匹配或錯(cuò)誤、以及將所述文本分割成句子和詞的結(jié)構(gòu)。
22.如權(quán)利要求14所述的語(yǔ)義處理器,其中,所述目標(biāo)語(yǔ)義關(guān)系模式是由模式生成器創(chuàng)建的,所述模式生成器包括語(yǔ)料庫(kù)語(yǔ)言分析器,其執(zhí)行文本文件的語(yǔ)料庫(kù)的基本語(yǔ)言分析;標(biāo)注文本語(yǔ)料庫(kù)生成器,其生成具有詞性標(biāo)記、句法標(biāo)記、eSAO標(biāo)簽和因果標(biāo)簽的被標(biāo)注的文本語(yǔ)料庫(kù);關(guān)系生成器,其在所述被標(biāo)注的文本語(yǔ)料庫(kù)中識(shí)別特定情況的目標(biāo)語(yǔ)義關(guān)系;模式生成器,其通過(guò)使用所述特定情況的語(yǔ)義關(guān)系的標(biāo)簽來(lái)概括所述特定情況的語(yǔ)義關(guān)系,以產(chǎn)生更一般的語(yǔ)言模式,其中,所述標(biāo)簽包括詞法語(yǔ)言單元、其語(yǔ)義類(lèi)別、詞性和句法標(biāo)記、以及eSAO和因果標(biāo)簽;以及模式測(cè)試器,其用于測(cè)試所述模式生成器的所述一般語(yǔ)言模式。
23.如權(quán)利要求22所述的語(yǔ)義處理器,其中,當(dāng)將所述特定情況的目標(biāo)語(yǔ)義關(guān)系概括為語(yǔ)言模式時(shí),所述模式生成器使用eSAO格式作為上下文,以使用在所述基本語(yǔ)言分析的水平上針對(duì)組成成分得到的詞性、句法以及eSAO和因果標(biāo)簽,作為在文本文件的在語(yǔ)言上分析的語(yǔ)料庫(kù)中進(jìn)行搜索的結(jié)果,來(lái)概括所述成分。
24.如權(quán)利要求14所述的語(yǔ)義處理器,其中,所述標(biāo)注器通過(guò)對(duì)詞、詞性標(biāo)記、句法標(biāo)記、eSAO和因果集合進(jìn)行匹配來(lái)將在語(yǔ)言上分析的所述文本與目標(biāo)語(yǔ)義關(guān)系模式相匹配。
全文摘要
用于以電子或數(shù)字形式提供的自然語(yǔ)言文件的自動(dòng)語(yǔ)義標(biāo)注的系統(tǒng)和方法包括執(zhí)行文本的基本語(yǔ)言分析的語(yǔ)義處理器,包括在文本中識(shí)別賓語(yǔ)類(lèi)型和/或賓語(yǔ)類(lèi)別、事實(shí)和因果關(guān)系的語(yǔ)義關(guān)系;將在語(yǔ)言上分析的文本與通過(guò)概括特定情況的目標(biāo)語(yǔ)義關(guān)系而創(chuàng)建目標(biāo)語(yǔ)義關(guān)系模式相匹配;以及基于在語(yǔ)言上分析的文本和匹配的結(jié)果來(lái)生成語(yǔ)義關(guān)系標(biāo)簽。
文檔編號(hào)G06F17/26GK102439590SQ201080020558
公開(kāi)日2012年5月2日 申請(qǐng)日期2010年3月12日 優(yōu)先權(quán)日2009年3月13日
發(fā)明者D·帕斯塔諾豪, I·索夫佩爾, J·托德亨特 申請(qǐng)人:發(fā)明機(jī)器公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
东光县| 樟树市| 息烽县| 利川市| 垣曲县| 彭阳县| 沈阳市| 剑河县| 曲松县| 桦甸市| 文成县| 乐安县| 阿巴嘎旗| 文山县| 绥中县| 盘锦市| 云阳县| 安阳市| 抚顺县| 白山市| 右玉县| 阳高县| 垫江县| 札达县| 海门市| 临泽县| 基隆市| 涿州市| 兴化市| 日喀则市| 宁武县| 响水县| 留坝县| 东台市| 鹤壁市| 徐汇区| 湘潭市| 太白县| 长武县| 贡嘎县| 四会市|