一種中文事件聯(lián)合推理方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出篇章級(jí)別的中文事件聯(lián)合推理方法和系統(tǒng),該方法和系統(tǒng)能利用論元抽取中有價(jià)值的信息來(lái)反過(guò)來(lái)幫助觸發(fā)詞抽取,減少傳統(tǒng)管道模型中的級(jí)聯(lián)錯(cuò)誤。在實(shí)現(xiàn)方法上,本發(fā)明采用機(jī)器學(xué)習(xí)和推理相結(jié)合的方法,利用各種語(yǔ)言知識(shí)來(lái)識(shí)別中文事件時(shí)序關(guān)系。本發(fā)明的方法和系統(tǒng),與現(xiàn)有方法和系統(tǒng)相比,識(shí)別性能得到了一定提升。
【專利說(shuō)明】
一種中文事件聯(lián)合推理方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,特別是涉及事件抽取的系統(tǒng)和方法?!颈尘凹夹g(shù)】[00〇2]作為信息表示的一種主要形式,事件(Event)是一種特定人、物、事在特定時(shí)間和特定地點(diǎn)相互作用的客觀事實(shí)(也稱“自然事件”),如人的受傷、死亡事件和食品的添加劑事件等。事件抽取的目標(biāo)是抽取文本中的事件實(shí)例并識(shí)別其類(lèi)型,再為每個(gè)抽取的事件實(shí)例抽取論元并賦予相應(yīng)的角色,如何人、何地借助何物做了何事,這是從文本中獲取有價(jià)值信息的基礎(chǔ)研究工作。
[0003]事件抽取作為信息抽取的重要研究課題,具有深遠(yuǎn)的理論意義和廣泛的應(yīng)用價(jià)值。在理論方面,事件抽取涉及到自然語(yǔ)言處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)等多個(gè)學(xué)科的技術(shù)和方法,因此本文的研究不僅對(duì)解決事件抽取任務(wù)有幫助,而且對(duì)于相關(guān)學(xué)科理論完善和發(fā)展也將產(chǎn)生積極的促進(jìn)作用。在應(yīng)用方面,事件抽取已被廣泛應(yīng)用于問(wèn)答系統(tǒng)、自動(dòng)文摘和信息檢索等領(lǐng)域。
[0004]國(guó)外對(duì)事件抽取的研究起步較早且取得了較多成果。如Grishman使用基于規(guī)則的方法進(jìn)行事件信息抽取,這些方法根據(jù)某一特定領(lǐng)域內(nèi)事件描述的規(guī)則,通過(guò)領(lǐng)域?qū)<覙?gòu)建大規(guī)模的知識(shí)庫(kù),利用這些規(guī)則來(lái)提取事件信息。國(guó)外的學(xué)者也開(kāi)展了基于模式匹配的信息抽取研究,并研發(fā)了一些系統(tǒng),例如PALKA、AutoSlog-TS、ExDisco和HMES等?;谀J狡ヅ涞姆椒ㄊ窃谝恍┠J降闹笇?dǎo)下進(jìn)行,首先獲取模式,再利用獲取的模式來(lái)抽取事件信息??梢钥闯?,模式獲取是信息抽取領(lǐng)域的核心步驟。Chun等在醫(yī)藥文獻(xiàn)的事件抽取中,采用自舉(Bootstrapping)方法獲取事件模式,首先定義一些簡(jiǎn)單的模式,通過(guò)這些模式抽取出的事件信息,然后再泛化模式,利用泛化后的模式再抽取事件,直到滿足終止條件。
[0005]基于機(jī)器學(xué)習(xí)的方法是目前主流的事件抽取策略,該方法將事件抽取分為幾個(gè)子任務(wù),并且將這些子任務(wù)作為分類(lèi)問(wèn)題來(lái)處理?;跈C(jī)器學(xué)習(xí)方法的關(guān)鍵是分類(lèi)器構(gòu)建和特征發(fā)現(xiàn)和選擇。英文事件抽取一般分為兩個(gè)不同類(lèi)別:基于句子的事件抽取和基于文檔的事件抽取。早期的研究聚焦于句子級(jí)別的事件抽取。例如,Chieu首次在事件抽取中引入最大熵分類(lèi)器,用于事件論元角色的識(shí)別。Ahn結(jié)合MegaM和Timbl兩種機(jī)器學(xué)習(xí)方法分別實(shí)現(xiàn)了事件抽取任務(wù)中事件觸發(fā)詞及其類(lèi)別識(shí)別和事件元素識(shí)別這兩個(gè)主要步驟,完成了一個(gè)簡(jiǎn)單的事件抽取系統(tǒng)。Grishman在ACE2005評(píng)測(cè)的基礎(chǔ)上,提出了一個(gè)考慮多種特征進(jìn)行事件抽取的方法。Hardy等利用各種表象的特征進(jìn)行事件抽取。Chen和Ji采用自舉方法分別在英文和中文語(yǔ)料上進(jìn)行事件抽取的聯(lián)合訓(xùn)練,嘗試從跨語(yǔ)言事件抽取中利用聯(lián)合訓(xùn)練來(lái)提高中文和英文事件抽取性能。
[0006]近年來(lái),在ACE英文語(yǔ)料上出現(xiàn)了較多使用更高級(jí)別的信息進(jìn)行事件抽取的研究。 例如,Ji和Grishman受“一個(gè)段落,一種主題”思想的啟發(fā),將主題相似的文檔聚集成類(lèi),并采用規(guī)則方法實(shí)現(xiàn)句子和文檔級(jí)別的事件和論元的一致性。Patwardhan和Riloff提出一個(gè)事件抽取模型,該模型由句子和文檔級(jí)別事件識(shí)別模塊和角色填充模塊兩部分組成,并采用一個(gè)概率模型將這兩個(gè)模塊統(tǒng)一并聯(lián)合作出最后的決策。Liao和Grishman提出了單文檔跨事件推理方法,認(rèn)為同一文檔中事件類(lèi)型分別具有一致性。Ji基于平行語(yǔ)料庫(kù)和跨語(yǔ)言信息,提出了一個(gè)歸納學(xué)習(xí)框架。Hong等則根據(jù)實(shí)體類(lèi)別的一致性來(lái)預(yù)測(cè)事件并采用推理方法來(lái)提高事件抽取中論元識(shí)別的性能。Lu等提出了一個(gè)基于半監(jiān)督馬爾科夫隨機(jī)場(chǎng)的結(jié)構(gòu)優(yōu)先模型,并用于事件抽取。Huang等針對(duì)單一特征信息存在的局限性,提出了結(jié)構(gòu)化特征的表示方法,從詞匯、篇章和角色分布三個(gè)不同角度探索特征的組合和表示方法,從而體現(xiàn)不同論元、不同事件和不同角色之間的關(guān)聯(lián)性?;诳蚣苷Z(yǔ)義句法分析和事件抽取在結(jié)構(gòu)上是相同的任務(wù)這個(gè)猜想,Judea和Strube重新訓(xùn)練SEMAF0R(—個(gè)最先進(jìn)的框架語(yǔ)義句法分析系統(tǒng))來(lái)預(yù)測(cè)觸發(fā)詞和論元,取得了不錯(cuò)的效果。
[0007]最近幾年,深度學(xué)習(xí)模型應(yīng)用在自然語(yǔ)言處理取得了不錯(cuò)的效果。例如,Chen等引入字表示模型來(lái)獲取詞匯語(yǔ)義線索,提出動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)(DMCNN)獲取句子級(jí)別線索,從純文本中抽取詞匯和句子級(jí)別特征。Nguyen和Grishman使用卷積神經(jīng)網(wǎng)絡(luò)克服了傳統(tǒng)的特征工程方法的兩個(gè)局限:在大量特征上的特征工程和錯(cuò)誤傳播。
[0008]中文事件抽取研究起步較晚,但也取得了一些成果。周劍輝采用機(jī)器學(xué)習(xí)的方法獲取規(guī)則集,并對(duì)金融領(lǐng)域的收購(gòu)、分紅和貸款三類(lèi)金融事件進(jìn)行了事件抽取。姜吉發(fā)提出了模式自動(dòng)學(xué)習(xí)方法GenPAM,該方法定義了事件模式、事件觸發(fā)模式以及事件抽取模式三種模式,根據(jù)這三種模式來(lái)定義事件框架,利用關(guān)鍵詞定位事件的候選描述句來(lái)抽取事件信息。梁晗等提出了一種基于框架的信息抽取模式并建立了統(tǒng)一的災(zāi)難事件框架,利用框架的繼承歸納性質(zhì)概括事件信息,并提出了按時(shí)間順序的線索性事件抽取的輸出方式。
[0009]針對(duì)ACE中文事件抽取任務(wù),就研究方法而言,目前國(guó)際上的研究主要從特征選擇和觸發(fā)詞擴(kuò)展兩個(gè)方面入手。在特征選擇方面,Tan等以句子為驅(qū)動(dòng),先檢測(cè)出事件句,再根據(jù)一定的特征判定其類(lèi)型,將觸發(fā)詞的檢測(cè)建立在事件類(lèi)型已知的基礎(chǔ)上,通過(guò)構(gòu)建模板來(lái)反映事件論元角色和觸發(fā)詞之間的關(guān)系,并探討了基于多層模板和條件隨機(jī)場(chǎng) (Condit1nal Random Fie Id, CRF)模型的事件論元角色識(shí)別方法。Chen和Ji根據(jù)中文觸發(fā)詞可能位于某個(gè)詞內(nèi)的特點(diǎn),從詞匯、句法、語(yǔ)義和相鄰信息等多個(gè)角度抽取特征,用于中文事件抽取。Fu等提出了一個(gè)特征加權(quán)方法,用于對(duì)各種特征進(jìn)行權(quán)重的重新分配,并用于觸發(fā)詞的識(shí)別和事件分類(lèi)。Wang把各種特征,如項(xiàng)頻度、句子位置和長(zhǎng)度、標(biāo)題詞覆蓋率、語(yǔ)義角色標(biāo)注等組合起來(lái)選擇信息化最大的句子作為事件的候選。Chen和Ng把字符信息、語(yǔ)義角色標(biāo)注信息、觸發(fā)詞概率信息、零指代信息、觸發(fā)詞一致性信息和論元一致性信息等特征用于中文事件抽取。在觸發(fā)詞擴(kuò)展方面,Chen和Ji采用自舉方法分別在英文和中文語(yǔ)料上進(jìn)行事件抽取的聯(lián)合訓(xùn)練,嘗試從跨語(yǔ)言事件抽取中利用聯(lián)合訓(xùn)練來(lái)提高中文和英文事件抽取性能。Ji從平行語(yǔ)料庫(kù)入手,從英文中利用中英翻譯來(lái)擴(kuò)展中文觸發(fā)詞。Qin等則用 “同義詞詞林”來(lái)擴(kuò)展中文事件觸發(fā)詞。Li等根據(jù)中文詞組的組合語(yǔ)義學(xué)原理,分別從動(dòng)詞構(gòu)詞結(jié)構(gòu)和形態(tài)結(jié)構(gòu)兩個(gè)方面入手,識(shí)別在訓(xùn)練語(yǔ)料中沒(méi)出現(xiàn)的未知觸發(fā)詞,并結(jié)合篇章級(jí)別的一致性信息進(jìn)行事件識(shí)別。
[0010]近幾年,聯(lián)合學(xué)習(xí)模型在自然語(yǔ)言處理中已成為一個(gè)研究熱點(diǎn),該方法可以很好地協(xié)同多個(gè)任務(wù)。
[0011]在英文事件抽取的聯(lián)合學(xué)習(xí)方面,Riedel和Chun利用馬爾科夫邏輯構(gòu)建一個(gè)通用的聯(lián)合學(xué)習(xí)框架來(lái)抽取生物醫(yī)學(xué)中的事件實(shí)例。P〇〇n和Vanderwende用馬爾科夫邏輯來(lái)聯(lián)合預(yù)測(cè)生物信息學(xué)中事件及其論元。Riedel和McCallum提出了面向生物醫(yī)學(xué)事件抽取的3 個(gè)聯(lián)合模型。Li等提出了一個(gè)基于結(jié)構(gòu)預(yù)測(cè)的事件抽取聯(lián)合學(xué)習(xí)架構(gòu),并利用Beam Search 來(lái)獲得較優(yōu)解。[〇〇12]在中文事件抽取的聯(lián)合學(xué)習(xí)方面,Li等提出了一種中文事件觸發(fā)詞識(shí)別和分類(lèi)的聯(lián)合學(xué)習(xí)模型,該模型不僅有效地促進(jìn)了觸發(fā)詞識(shí)別和分類(lèi)這兩個(gè)模型的互動(dòng),也融入了很多有效的約束條件。Li等提出了一個(gè)事件論元識(shí)別和角色分配的聯(lián)合學(xué)習(xí)模型,該模型利用各種約束來(lái)保證論元在事件內(nèi)和事件間的一致性。Li等針對(duì)事件論元語(yǔ)義信息難以獲取以及部分貧信息事件實(shí)例難以抽取的問(wèn)題,提出了基于語(yǔ)義的中文事件觸發(fā)詞抽取聯(lián)合學(xué)習(xí)模型。
[0013]當(dāng)前,絕大多數(shù)的事件抽取方法存在兩個(gè)問(wèn)題:1)現(xiàn)有的事件抽取大多采用機(jī)器學(xué)習(xí)方法,將事件實(shí)例看成是孤立的個(gè)體,進(jìn)而進(jìn)行分類(lèi),普遍沒(méi)有考慮一個(gè)篇章中的多個(gè)事件實(shí)例間的內(nèi)在聯(lián)系;2)現(xiàn)有的事件抽取大多采用管道模型,但這種方法的最大問(wèn)題是后面任務(wù)的結(jié)果無(wú)法反饋到前面任務(wù),不僅會(huì)造成級(jí)聯(lián)錯(cuò)誤,而且丟失很多有價(jià)值的信息。
[0014]為更好地理解本發(fā)明,下面首先對(duì)相關(guān)名詞作相應(yīng)介紹:[0〇15]事件實(shí)例(Event Ment1n):文中具體描述事件的句子或片段;[0〇16] 觸發(fā)詞(Trigger):又稱為錨(Anchor),最能表現(xiàn)事件發(fā)生的詞語(yǔ),同時(shí)也能表現(xiàn)事件類(lèi)型,抽取事件也就是抽取事件的觸發(fā)詞;[〇〇17]事件類(lèi)型(Event Type):根據(jù)觸發(fā)詞類(lèi)型的不同,事件分為8大類(lèi)和33小類(lèi);
[0018]事件范圍(Event Extent):事件實(shí)例所在的子句;
[0019]實(shí)體(Entity):語(yǔ)義類(lèi)別中的對(duì)象或?qū)ο蟮募希糠N實(shí)體具有相應(yīng)類(lèi)別,如人物 (PER)、地點(diǎn)(L0C)和時(shí)間(HME)等;
[0020]論元(Argument):在事件中擔(dān)任某類(lèi)角色的實(shí)體、數(shù)值或時(shí)間,主要包括時(shí)間參與者以及與事件相關(guān)的屬性;
[0021]角色(Role):表述論元和事件的關(guān)系,每類(lèi)事件對(duì)應(yīng)的論元角色有所不同, ACE2005語(yǔ)料庫(kù)中共有35種角色,一個(gè)事件實(shí)例往往涉及多個(gè)論元角色,每個(gè)事件類(lèi)型有其對(duì)應(yīng)的論元角色;
[0022] 依存關(guān)系(Dependency Relat1n):依存句法是由法國(guó)語(yǔ)言學(xué)家L.Tesniere提出, 通過(guò)分析語(yǔ)言各成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中謂語(yǔ)動(dòng)詞是支配其它成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者,依存關(guān)系由支配者(Government )、受支配者(Dependent)和它們之間的語(yǔ)法關(guān)系(Relat1n)組成的三元組,如“nsubj(購(gòu)買(mǎi),他)”,表示支配者“他”是受支配者“購(gòu)買(mǎi)” 的nsubj (形式主語(yǔ));[〇〇23]準(zhǔn)確率(Precis1n):測(cè)試數(shù)據(jù)中被正確分類(lèi)的正例樣本數(shù)目占被分為正例樣本數(shù)目的比例,反映的是系統(tǒng)的準(zhǔn)確程度;[〇〇24]召回率(Recall):測(cè)試數(shù)據(jù)中被正確分類(lèi)的正例樣本數(shù)目占正例樣本數(shù)目的比例,反映的是系統(tǒng)的完備性;
[0025] F-Measure:準(zhǔn)確率和召回率的幾何加權(quán)平均值,用于判別系統(tǒng)的整體性能。
【發(fā)明內(nèi)容】
[0026]為解決上述技術(shù)問(wèn)題,本發(fā)明的目的是提供一種基于馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logic Networks,MLN)的篇章級(jí)別的中文事件聯(lián)合推理方法和系統(tǒng)。[〇〇27]本發(fā)明的中文事件聯(lián)合推理方法,包括步驟:
[0028]S10、對(duì)需要識(shí)別事件時(shí)序關(guān)系的原始文本中每個(gè)文檔分別調(diào)用分詞工具、句法分析工具、依存關(guān)系分析工具和事件抽取工具進(jìn)行詞語(yǔ)切分、實(shí)體識(shí)別、句法分析、依存關(guān)系分析和事件抽取,得到測(cè)試語(yǔ)料事件集合;
[0029]S20、分別從預(yù)先標(biāo)注了各類(lèi)信息的標(biāo)注語(yǔ)料集合和測(cè)試語(yǔ)料事件集合中抽取所有觸發(fā)詞抽取和論元抽取的特征信息,得到標(biāo)注語(yǔ)料特征集合和測(cè)試語(yǔ)料特征集合;
[0030]S30、根據(jù)標(biāo)注語(yǔ)料特征集合中觸發(fā)詞抽取的特征,訓(xùn)練一個(gè)最大熵觸發(fā)詞識(shí)別模型和一個(gè)觸發(fā)詞分類(lèi)模型,接著根據(jù)標(biāo)注語(yǔ)料特征集合中論元抽取的特征,訓(xùn)練一個(gè)最大熵論元識(shí)別模型,再利用所述最大熵事件觸發(fā)詞識(shí)別模型識(shí)別測(cè)試語(yǔ)料特征集合中每個(gè)候選觸發(fā)詞,利用觸發(fā)詞分類(lèi)模型給測(cè)試語(yǔ)料特征集合中每個(gè)候選觸發(fā)詞進(jìn)行分類(lèi),利用論元識(shí)別模型識(shí)別測(cè)試預(yù)料特征集合中每個(gè)候選論元,最后得到事件聯(lián)合推理第一集合;
[0031]S40、對(duì)事件聯(lián)合推理第一集合中的所有候選觸發(fā)詞,利用觸發(fā)詞與論元信息推理、論元數(shù)量推理和論元同指一致性推理規(guī)則進(jìn)行觸發(fā)詞推理,得到事件聯(lián)合推理集合。 [〇〇32] 進(jìn)一步的,所述步驟S10還包括:[〇〇33]S101、對(duì)需要識(shí)別觸發(fā)詞的原始文本中的每個(gè)文檔調(diào)用分詞工具切分詞語(yǔ),得到用空格分隔詞語(yǔ)的第一文檔集合;
[0034]S102、對(duì)第一文檔集合中每個(gè)文檔調(diào)用句法分析工具進(jìn)行句法分析,得到第二文檔集合;[〇〇35]S103、對(duì)第二文檔集合中每個(gè)文檔調(diào)用依存關(guān)系分析工具進(jìn)行依存關(guān)系分析,得到測(cè)試語(yǔ)料事件集合。
[0036]進(jìn)一步的,所述步驟S20中所述標(biāo)注語(yǔ)料集合是標(biāo)注了實(shí)體、句法結(jié)構(gòu)、依存結(jié)構(gòu)和事件信息的文檔集合。[〇〇37] 進(jìn)一步的,所述步驟S20還包括:
[0038]S201、從標(biāo)注語(yǔ)料集合中抽取觸發(fā)詞識(shí)別和分類(lèi)時(shí)的特征,構(gòu)成標(biāo)注語(yǔ)料觸發(fā)詞抽取特征集合,從測(cè)試語(yǔ)料集合中抽取觸發(fā)詞識(shí)別和分類(lèi)時(shí)的特征,構(gòu)成測(cè)試語(yǔ)料觸發(fā)詞抽取特征集合;[〇〇39]S202、從標(biāo)注語(yǔ)料集合中抽取論元識(shí)別時(shí)的特征,構(gòu)成標(biāo)注語(yǔ)料論元識(shí)別特征集合,從測(cè)試語(yǔ)料集合中抽取論元識(shí)別時(shí)的特征,構(gòu)成測(cè)試語(yǔ)料論元識(shí)別特征集合。
[0040]進(jìn)一步的,所述步驟S201中觸發(fā)詞識(shí)別和分類(lèi)的特征如下:
[0041]〈1 =候選觸發(fā)詞>〈2 =候選觸發(fā)詞的詞性>〈3 =候選觸發(fā)詞的前一詞+候選觸發(fā)詞 >〈4 =候選觸發(fā)詞+候選觸發(fā)詞的后一詞>〈5 =候選觸發(fā)詞的前一詞詞性+候選觸發(fā)詞詞性〉 〈6 =候選觸發(fā)詞詞性+候選觸發(fā)詞的后一詞的詞性>〈7 =候選觸發(fā)詞在句法樹(shù)中的深度>〈8 =候選觸發(fā)詞在句法樹(shù)中的短語(yǔ)結(jié)構(gòu)>〈9 =候選觸發(fā)詞左邊的句法上最近的實(shí)體類(lèi)型和實(shí)體>〈10 =候選觸發(fā)詞右邊的句法上最近的實(shí)體類(lèi)型和實(shí)體>〈11=候選觸發(fā)詞左邊的物理上最近的實(shí)體類(lèi)型和實(shí)體>〈12 =候選觸發(fā)詞右邊的物理上最近的實(shí)體類(lèi)型和實(shí)體>〈13 = 候選觸發(fā)詞是否是中文Propbank中的謂詞(0或1)>〈14 =候選觸發(fā)詞在中文同義詞詞典中的入口編號(hào)〉。
[0042] 進(jìn)一步的,所述步驟S202中論元識(shí)別的特征如下:[〇〇43]〈1 =觸發(fā)詞>〈2 =觸發(fā)詞詞性>〈3 =事件類(lèi)型>〈4 =實(shí)體中心詞>〈5 =實(shí)體類(lèi)型>〈6=實(shí)體前一詞和詞性>〈7 =實(shí)體后一詞和詞性>〈8 =觸發(fā)詞前一詞和詞性>〈9 =觸發(fā)詞后一詞和詞性>〈10 =觸發(fā)詞和當(dāng)前實(shí)體(或?qū)嶓w中心詞)之間的依存路徑>〈11 =實(shí)體和觸發(fā)詞在樹(shù)中的深度差)>〈12 =實(shí)體到觸發(fā)詞的最短路徑>〈13 =實(shí)體與觸發(fā)詞的相對(duì)位置(前或后)〉;
[0044]其中,事件類(lèi)型為觸發(fā)詞分類(lèi)后的結(jié)果。
[0045]進(jìn)一步的,所述步驟S30還包括:
[0046]S301、把標(biāo)注語(yǔ)料特征集合中的特征作為輸入,調(diào)用最大熵分類(lèi)工具訓(xùn)練得到一個(gè)最大熵觸發(fā)詞識(shí)別模型和一個(gè)觸發(fā)詞分類(lèi)模型,所述最大熵觸發(fā)詞識(shí)別模型包括標(biāo)注語(yǔ)料特征集合、訓(xùn)練得到的參數(shù)和最大熵分類(lèi)工具;[〇〇47]S302、把測(cè)試語(yǔ)料特征集合中每個(gè)觸發(fā)詞的特征作為輸入,調(diào)用最大熵觸發(fā)詞識(shí)別模型進(jìn)行觸發(fā)詞識(shí)別,得到觸發(fā)詞識(shí)別第一集合;[〇〇48] S303、在識(shí)別后的結(jié)果集中設(shè)置一個(gè)閾值y,概率大于等于y的候選觸發(fā)詞實(shí)例認(rèn)為可信,小于T認(rèn)為不可信,分別構(gòu)成可信集合和不可信集合;
[0049]S304、用訓(xùn)練好的觸發(fā)詞分類(lèi)模型對(duì)可信集合和不可信集合上的所有候選觸發(fā)詞進(jìn)行觸發(fā)詞分類(lèi),即每個(gè)候選觸發(fā)詞對(duì)應(yīng)一個(gè)事件類(lèi)型,得到觸發(fā)詞分類(lèi)集合;
[0050]S305、把標(biāo)注語(yǔ)料特征集合中的特征作為輸入,調(diào)用最大熵分類(lèi)工具訓(xùn)練得到一個(gè)最大熵論元識(shí)別模型,所述最大熵論元識(shí)別模型包括標(biāo)注語(yǔ)料特征集合、訓(xùn)練得到的參數(shù)和最大熵分類(lèi)工具;
[0051]S306、把測(cè)試語(yǔ)料特征集合中經(jīng)過(guò)S304中分類(lèi)得到的事件類(lèi)型作為論元識(shí)別基準(zhǔn)系統(tǒng)的輸入,得到論元識(shí)別測(cè)試集;[〇〇52]S307、調(diào)用訓(xùn)練好的最大熵論元識(shí)別模型對(duì)論元識(shí)別測(cè)試集進(jìn)行論元識(shí)別,得到論元識(shí)別結(jié)果集。[〇〇53] 進(jìn)一步的,所述步驟S40還包括:[〇〇54]S401、找出觸發(fā)詞識(shí)別第一集合中分類(lèi)為不可信集合且識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論元集合,其中論元集合為測(cè)試預(yù)料特征集合中被最大熵論元識(shí)別模型識(shí)別為真論元的那部分集合,利用觸發(fā)詞與論元信息推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別出來(lái),得到觸發(fā)詞識(shí)別第二集合,其中,觸發(fā)詞與論元信息推理規(guī)則如下:
[0055]通過(guò)論元的類(lèi)型、觸發(fā)詞的詞性、觸發(fā)詞與論元的相對(duì)位置關(guān)系和觸發(fā)詞與論元之間的依存關(guān)系路徑來(lái)推理該觸發(fā)詞是否是真觸發(fā)詞,觸發(fā)詞與論元之間的依存關(guān)系路徑中有兩個(gè)相鄰的依存關(guān)系相同,則去掉其中一個(gè),去掉相鄰的重復(fù)依存關(guān)系后,如果依存路徑中的依存關(guān)系數(shù)量大于N,則該依存路徑為NULL;[〇〇56]S402、在觸發(fā)詞識(shí)別第二集合中設(shè)置一個(gè)閾值,將集合分為可信集合和不可信集合,找出觸發(fā)詞識(shí)別第二集合中分類(lèi)為不可信集合且識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論元集合,利用論元數(shù)量推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別出來(lái),得到觸發(fā)詞識(shí)別第三集合,其中,論元數(shù)量推理規(guī)則如下:
[0057]通過(guò)論元的數(shù)量來(lái)推理對(duì)應(yīng)的觸發(fā)詞是否是真觸發(fā)詞,在進(jìn)行論元識(shí)別時(shí),一個(gè)候選觸發(fā)詞可對(duì)應(yīng)多個(gè)候選論元,如果這些候選論元中沒(méi)有識(shí)別為真論元或者識(shí)別為真論元的數(shù)量很少,則該候選觸發(fā)詞是假觸發(fā)詞的概率很大,反之,如果這些候選論元中有多個(gè)候選論元被識(shí)別為了真論元,則該候選觸發(fā)詞是真觸發(fā)詞的概率就很大;
[0058]S403、在觸發(fā)詞識(shí)別第三集合中設(shè)置一個(gè)閾值,將集合分為可信集合和不可信集合,找出觸發(fā)詞識(shí)別第三集合中識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論元集合,利用論元同指一致性推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別出來(lái),得到最終的觸發(fā)詞識(shí)別集合,其中,論元同指一致性推理規(guī)則如下:[〇〇59]利用可信集合產(chǎn)生的論元,與不可信集合產(chǎn)生的論元建立聯(lián)系,作為推理的證據(jù), 在同一文檔中,有兩個(gè)候選觸發(fā)詞對(duì)應(yīng)的論元同指,其中一個(gè)候選觸發(fā)詞是真觸發(fā)詞,則另一個(gè)候選觸發(fā)詞也很有可能是真觸發(fā)詞;
[0060]S404、用最大熵觸發(fā)詞分類(lèi)模型對(duì)推理出來(lái)為真觸發(fā)詞的最終觸發(fā)詞識(shí)別集合進(jìn)行觸發(fā)詞分類(lèi)。
[0061]本發(fā)明的中文事件聯(lián)合推理系統(tǒng),包括事件預(yù)處理模塊(10)、事件特征抽取模塊 (20)、事件分類(lèi)模塊(30)和事件聯(lián)合推理模塊(40),所述事件預(yù)處理模塊(10)包括分詞單元(101)、句法分析單元(102)和依存分析單元(103);所述事件特征抽取模塊(20)包括觸發(fā)詞識(shí)別和分類(lèi)特征抽取單元(201)和論元識(shí)別特征抽取單元(202);所述事件分類(lèi)模塊(30) 包括觸發(fā)詞抽取模型訓(xùn)練單元(301)、觸發(fā)詞識(shí)別單元(302)、觸發(fā)詞識(shí)別結(jié)果集分類(lèi)單元 (303)、觸發(fā)詞分類(lèi)單元(304)、論元識(shí)別模型訓(xùn)練單元(305)、論元識(shí)別測(cè)試集抽取單元 (306)和論元識(shí)別單元(307);所述事件聯(lián)合推理模塊(40)包括觸發(fā)詞與論元信息推理單元 (401)、論元數(shù)量推理單元(402)、論元同指一致性推理單元(403)和觸發(fā)詞分類(lèi)單元(404)。 [〇〇62]借由上述方案,本發(fā)明采用機(jī)器學(xué)習(xí)和推理相結(jié)合的方法,利用各種語(yǔ)言知識(shí)來(lái)識(shí)別中文事件觸發(fā)詞,可以充分利用事件論元之間的關(guān)系及其篇章知識(shí)對(duì)中文事件觸發(fā)詞進(jìn)行推理,從而提高了事件中觸發(fā)詞識(shí)別和分類(lèi)的性能,與現(xiàn)有方法和系統(tǒng)相比,識(shí)別性能得到了一定程度的提升;本發(fā)明在基于中文ACE( Automatic Context Extract 1n )2005語(yǔ)料庫(kù)標(biāo)注的中文事件語(yǔ)料庫(kù)中的測(cè)試結(jié)果表明,和基準(zhǔn)系統(tǒng)相比,本發(fā)明的系統(tǒng)在觸發(fā)詞識(shí)別和觸發(fā)詞分類(lèi)上性能分別提高了 1.68%和1.63%。
[0063]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 并可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說(shuō)明如后?!靖綀D說(shuō)明】
[0064]圖1是本發(fā)明中文事件時(shí)序關(guān)系識(shí)別方法的流程圖;[〇〇65]圖2是本發(fā)明預(yù)處理的流程圖;
[0066]圖3是本發(fā)明抽取事件對(duì)及其特征的流程圖;[〇〇67]圖4是本發(fā)明事件分類(lèi)的流程圖;
[0068]圖5是本發(fā)明事件聯(lián)合推理的流程圖;
[0069]圖6是本發(fā)明中文事件聯(lián)合推理系統(tǒng)的結(jié)構(gòu)圖;
[0070]圖7是本發(fā)明事件預(yù)處理模塊的結(jié)構(gòu)圖;
[0071]圖8是本發(fā)明事件特征抽取模塊的結(jié)構(gòu)圖;
[0072]圖9是本發(fā)明事件分類(lèi)模塊的結(jié)構(gòu)圖;
[0073]圖10是本發(fā)明事件聯(lián)合推理模塊的結(jié)構(gòu)圖?!揪唧w實(shí)施方式】[〇〇74]下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。[〇〇75] 一種中文事件聯(lián)合推理方法,如圖1所示,包括:
[0076]S10、對(duì)需要識(shí)別事件時(shí)序關(guān)系的原始文本中每個(gè)文檔分別調(diào)用分詞工具、句法分析工具、依存關(guān)系分析工具和事件抽取工具進(jìn)行詞語(yǔ)切分,實(shí)體識(shí)別、句法分析、依存關(guān)系分析和事件抽取,得到測(cè)試語(yǔ)料事件集合。[〇〇77]其中,如圖2所示,S10的具體過(guò)程如下:[〇〇78]S101、對(duì)需要識(shí)別觸發(fā)詞的原始文本中的每個(gè)文檔調(diào)用分詞工具切分詞語(yǔ),得到用空格分隔詞語(yǔ)的第一文檔集合;
[0079]例如:文檔中句子“另?yè)?jù)報(bào)道,佛州議會(huì)將于8號(hào)舉行參眾兩院聯(lián)席特別會(huì)議,直接認(rèn)命該州的25名選舉人,由于共和黨在佛州議會(huì)總?cè)藬?shù)中占優(yōu)勢(shì),任命結(jié)果很可能對(duì)布什有利?!苯?jīng)過(guò)詞語(yǔ)切分后為:
[0080]例1:另?yè)?jù)報(bào)道,佛州議會(huì)將于8號(hào)舉行參眾兩院聯(lián)席特別會(huì)議,直接認(rèn)命該州的25 名選舉人,由于共和黨在佛州議會(huì)總?cè)藬?shù)中占優(yōu)勢(shì),任命結(jié)果很可能對(duì)布什有利。中央臺(tái)編譯報(bào)道。
[0081]S102、對(duì)第一文檔集合中每個(gè)文檔調(diào)用句法分析工具進(jìn)行句法分析,得到第二文檔集合;[〇〇82]例1經(jīng)過(guò)句法分析后為:
[0083]例2: ((IP(ADVP(AD另))(PP(P據(jù))(NP(NN報(bào)道)))(PU,)(NP(NR佛州)(NN議會(huì)))(VP (VP(ADVP(AD將))(PP(P于)(NP(NT 8號(hào))))(VP(VP(W舉行))(VP(VV參)(NP(QP(CD眾))(NP (NP(QP(CD兩))(NP(麗院)))(NP(QP(CD 聯(lián))(CLP(M席)))(ADJP(JJ特別))(NP(NN會(huì)議))))))))(PU,)(VP(ADVP(AD直接))(VP(VV認(rèn)命)(NP(DNP(NP(DP(DT該))(NP(NN州))) (DEG的))(QP(CD 25) (CLP(M名)))(NP(NN選舉人)))))(PU,)(VP(PP(P由于)(IP(NP(NR共和黨))(VP(PP(P在)(LCP(NP(NP(NR佛州)(NN議會(huì)))(ADJP( JJ總))(NP(NN人數(shù))))(LC中))) (VP(W占)(NP(NN優(yōu)勢(shì)))))))(PU,)(VP(VV任命)(NP(NN結(jié)果))(IP(VP(ADVP(AD很))(VP(W 可能)(VP(PP(P 對(duì))(NP(NN 布什)))(VP(W 有利)))))))))(PU。)))[〇〇84]其中,句法分析是指對(duì)句子中的詞語(yǔ)語(yǔ)法功能進(jìn)行分析。“NT”、“NR”、“P”、“NN”、 “VV”、“PU”、“AD”、“AS”、“DEG”、“PN”、和“LC”是句法分析的標(biāo)簽,分別表示時(shí)間詞、專用名詞、介詞、普通名詞、普通動(dòng)詞、標(biāo)點(diǎn)符號(hào)、副詞、時(shí)態(tài)詞、詞“的”、代詞和方位詞;“LCP”、 “DNP”、“ADVP”、“NP”、“VP”、“PP”和“IP”分別表示方位詞短語(yǔ)、所屬關(guān)系短語(yǔ)、副詞性短語(yǔ)、 名詞性短語(yǔ)、動(dòng)詞性短語(yǔ)、介詞性短語(yǔ)和子句。
[0085]S103、對(duì)第二文檔集合中每個(gè)文檔調(diào)用依存關(guān)系分析工具進(jìn)行依存關(guān)系分析,得到測(cè)試語(yǔ)料事件集合。[〇〇86]例2經(jīng)過(guò)依存分析后:
[0087]例3: advmod (舉行-10,另-1 )prep (舉行-10,據(jù) _2)pob j (據(jù)-2,報(bào)道 _3)nn (議會(huì)-6, 佛州-5 )nsub j (舉行-10,議會(huì) _6)advmod (舉行-10,將-7 )prep (舉行-10,于_8)pob j (于-8,8號(hào)-9)con j (參-1 I,舉行-10)dep(舉行-10,參-11 )nummod(會(huì)議-18,眾_12)nummod(院-14,兩-13)nn(會(huì)議-18,院_14)nummod(席-16,聯(lián)_15)clf (會(huì)議-18,席 _16)amod(會(huì)議-18,特別-17)dobj (參-11,會(huì)議-18)advmod(認(rèn)命-21,直接-20)dep(舉行-10,認(rèn)命-21)det (州-23,該-22)assmod(選舉人-27,州-23)assm(州-23,的-24)nummod(名-26,25-25)clf (選舉人_27,名-26) dob j (認(rèn)命-21,選舉人_27) prep (任命-40,由于-29 )nsub j (占-37,共和黨_30)pr印(占-37,在-31)nn(議會(huì)-33,佛州-32)nn(人數(shù)-35,議會(huì)-33)amod(人數(shù)-35,總-34)1bj (中-36,人數(shù)-35) P Imod (在_31,中 _36)pccomp(由于-29,占-37) dob j (占-37,優(yōu)勢(shì)-38)dep (舉行-10,任命-40) dob j (任命-40,結(jié)果_41) advmod (有利-46,很-42 )mmod (有利-46,可能-43) prep (有利-46,對(duì)-44) pobj (對(duì)-44,布什-45) dep (任命-40,有利-46)
[0088]其中,“tmod,,,“advmod,,、“l(fā)ccomp,,、“assmod,,、“assm”、“nn,,,“nsubj,,、“dobj,,、“asp”、“ccomp”、“dep”、“pobj”和“prep”是Standford依存分析工具輸出的關(guān)系標(biāo)簽,分別表示時(shí)間修飾、副詞修飾、位置補(bǔ)語(yǔ)、關(guān)聯(lián)修飾、關(guān)聯(lián)標(biāo)記、并列名詞、主謂關(guān)系、直接賓語(yǔ)、時(shí)態(tài)標(biāo)詞、從句補(bǔ)語(yǔ)、其它關(guān)系、介詞賓語(yǔ)和介詞關(guān)系。依存關(guān)系由支配者(Government)、受支配者(Dependent)和它們之間的語(yǔ)法關(guān)系(Relat1n)組成的三元組,如“nsubj (舉行-10,會(huì)議-6)”,表示支配者“會(huì)議”是受支配者“舉行”的nsubj(形式主語(yǔ))。詞語(yǔ)后面的數(shù)字表示該詞語(yǔ)在句子中的序號(hào)。
[0089]S20、分別從預(yù)先標(biāo)注了各類(lèi)信息的標(biāo)注語(yǔ)料集合和測(cè)試語(yǔ)料事件集合中抽取所有觸發(fā)詞抽取和論元抽取的特征信息,得到標(biāo)注語(yǔ)料特征集合和測(cè)試語(yǔ)料特征集合。其中,所述標(biāo)注語(yǔ)料集合是已經(jīng)標(biāo)注了實(shí)體、句法結(jié)構(gòu)、依存結(jié)構(gòu)和事件信息的文檔集合,是本發(fā)明進(jìn)行學(xué)習(xí)和推理的基礎(chǔ)。
[0090]其中,如圖3所示,S20的具體過(guò)程如下:
[0091]S201、從標(biāo)注語(yǔ)料集合中抽取觸發(fā)詞識(shí)別和分類(lèi)時(shí)的特征,構(gòu)成標(biāo)注語(yǔ)料觸發(fā)詞抽取特征集合,從測(cè)試語(yǔ)料集合中抽取觸發(fā)詞識(shí)別和分類(lèi)時(shí)的特征,構(gòu)成測(cè)試語(yǔ)料觸發(fā)詞抽取特征集合;其中,觸發(fā)詞識(shí)別和分類(lèi)的特征如下:
[0092]〈1 =候選觸發(fā)詞>〈2 =候選觸發(fā)詞的詞性>〈3 =候選觸發(fā)詞的前一詞+候選觸發(fā)詞>〈4 =候選觸發(fā)詞+候選觸發(fā)詞的后一詞>〈5 =候選觸發(fā)詞的前一詞詞性+候選觸發(fā)詞詞性〉〈6 =候選觸發(fā)詞詞性+候選觸發(fā)詞的后一詞的詞性>〈7 =候選觸發(fā)詞在句法樹(shù)中的深度>〈8=候選觸發(fā)詞在句法樹(shù)中的短語(yǔ)結(jié)構(gòu)>〈9 =候選觸發(fā)詞左邊的句法上最近的實(shí)體類(lèi)型和實(shí)體>〈10 =候選觸發(fā)詞右邊的句法上最近的實(shí)體類(lèi)型和實(shí)體Xll=候選觸發(fā)詞左邊的物理上最近的實(shí)體類(lèi)型和實(shí)體>〈12 =候選觸發(fā)詞右邊的物理上最近的實(shí)體類(lèi)型和實(shí)體>〈13 =候選觸發(fā)詞是否是中文Propbank中的謂詞(O或1)>〈14 =候選觸發(fā)詞在中文同義詞詞典中的入口編號(hào)〉
[0093]沒(méi)有的特征不寫(xiě)出來(lái)。其中,觸發(fā)詞類(lèi)型共有33種,分別用數(shù)字1-33編號(hào)。中文同義詞詞林為《同義詞詞林》。
[0094]例如,例I中候選觸發(fā)詞“任命”對(duì)應(yīng)的特征如下:
[0095]例4:〈1=任命>〈2= ”>〈3=。+任命>〈4 =任命+結(jié)果>〈5 =卩1]+”>〈6 = ”+顧>〈7 =4>〈8 = VP>〈9 = 0RG共和黨>〈10 = PER布什>〈11=0RG議會(huì)>〈12 = PER布什>〈13 = 1>〈14 =Hc25>
[0096]以上特征可以從例1-例3中得到。
[0097]S202、從標(biāo)注語(yǔ)料集合中抽取論元識(shí)別時(shí)的特征,構(gòu)成標(biāo)注語(yǔ)料論元識(shí)別特征集合,從測(cè)試語(yǔ)料集合中抽取論元識(shí)別時(shí)的特征,構(gòu)成測(cè)試語(yǔ)料論元識(shí)別特征集合;其中,論元識(shí)別的特征如下:
[0098]〈I =觸發(fā)詞>〈2 =觸發(fā)詞詞性>〈3 =事件類(lèi)型>〈4 =實(shí)體中心詞>〈5 =實(shí)體類(lèi)型>〈6=實(shí)體前一詞和詞性>〈7 =實(shí)體后一詞和詞性>〈8 =觸發(fā)詞前一詞和詞性>〈9 =觸發(fā)詞后一詞和詞性>〈1 =觸發(fā)詞和當(dāng)前實(shí)體(或?qū)嶓w中心詞)之間的依存路徑>〈11 =實(shí)體和觸發(fā)詞在樹(shù)中的深度差)>〈12 =實(shí)體到觸發(fā)詞的最短路徑>〈13 =實(shí)體與觸發(fā)詞的相對(duì)位置(前或后)>
[0099]其中,事件類(lèi)型為觸發(fā)詞分類(lèi)后的結(jié)果。
[0100]例如,例I中候選觸發(fā)詞“任命”對(duì)應(yīng)的候選論元“議會(huì)”的特征如下:
[0101]例5:〈1=任命>〈2 = VVX3 = 14>〈4 =議會(huì) >〈5 = 0RG>〈6 =在+PX7 =總+JJX8=。+
?11>〈9 =結(jié)果+剛>〈10 =卩代卩、。。011^)~卩代卩、11]10(1~1013_].~1111>〈11=6>
[0102]<12 = NP~NP~NP~LCP~PP~VP~IP~PP~VP>〈13 =前〉
[0103]以上特征可以從例1-例3中得到。
[0104]S30、根據(jù)標(biāo)注語(yǔ)料特征集合中觸發(fā)詞抽取的特征,訓(xùn)練一個(gè)最大熵觸發(fā)詞識(shí)別識(shí)別模型和一個(gè)觸發(fā)詞分類(lèi)模型,接著根據(jù)標(biāo)注語(yǔ)料特征集合中論元抽取的特征,訓(xùn)練一個(gè)最大熵論元識(shí)別模型,再利用所述最大熵事件觸發(fā)詞識(shí)別模型識(shí)別測(cè)試語(yǔ)料特征集合中每個(gè)候選觸發(fā)詞,利用觸發(fā)詞分類(lèi)模型給測(cè)試語(yǔ)料特征集合中每個(gè)候選觸發(fā)詞進(jìn)行分類(lèi)(每個(gè)候選觸發(fā)詞對(duì)一個(gè)一個(gè)事件類(lèi)型),利用論元識(shí)別模型識(shí)別測(cè)試預(yù)料特征集合中每個(gè)候選論元,最后得到事件聯(lián)合推理第一集合。
[0105]其中,如圖4所示,S30的具體過(guò)程如下:
[0106]S301、把標(biāo)注語(yǔ)料特征集合中的特征作為輸入,調(diào)用最大熵分類(lèi)工具訓(xùn)練得到一個(gè)最大熵觸發(fā)詞識(shí)別模型和一個(gè)觸發(fā)詞分類(lèi)模型,所述最大熵觸發(fā)詞識(shí)別(或分類(lèi))模型包括標(biāo)注語(yǔ)料(訓(xùn)練集)特征集合、訓(xùn)練得到的參數(shù)和最大熵分類(lèi)工具;
[0107]標(biāo)注語(yǔ)料特征集合中的特征的例子如例4所示,每個(gè)候選觸發(fā)詞實(shí)例帶有相應(yīng)的事件類(lèi)別。利用最大熵分類(lèi)工具,如Mallet,Maxent,Stanford Classifier等,可以訓(xùn)練得到一個(gè)最大熵觸發(fā)詞識(shí)別模型和一個(gè)最大熵觸發(fā)詞分類(lèi)模型。
[0108]S302、把測(cè)試語(yǔ)料特征集合中每個(gè)觸發(fā)詞的特征作為輸入,調(diào)用最大熵觸發(fā)詞識(shí)別模型進(jìn)行觸發(fā)詞識(shí)別,得到觸發(fā)詞識(shí)別第一集合;每個(gè)候選觸發(fā)詞實(shí)例識(shí)別后的格式如下:
[0109]〈特征集,標(biāo)準(zhǔn)類(lèi)型,識(shí)別的結(jié)果,置信度〉
[0110]置信度為一個(gè)0-1之間的分類(lèi)結(jié)果,表不概率。
[0111]例如:以下是對(duì)例I中的候選觸發(fā)詞實(shí)例“任命”識(shí)別后的輸出結(jié)果:
[0112]例6:
[0113]I =任命 2 = VV3 =。+任命4 =任命+結(jié)果 5 = PU+VV6 = VV+NN7 = 48 = VP9 = ORG 共和黨1 = PER布什Il=ORG議會(huì) 12 = PER布什 13 = 114 = Hc25>l O 0.6273886874310958
[0114]S303、在識(shí)別后的結(jié)果集中設(shè)置一個(gè)閾值γ,概率大于等于γ的候選觸發(fā)詞實(shí)例認(rèn)為可信,小于γ認(rèn)為不可信,分別構(gòu)成可信集合和不可信集合;
[0115]S304、用訓(xùn)練好的觸發(fā)詞分類(lèi)模型對(duì)可信集合和不可信集合上的所有候選觸發(fā)詞進(jìn)行觸發(fā)詞分類(lèi),即每個(gè)候選觸發(fā)詞對(duì)應(yīng)一個(gè)事件類(lèi)型,得到觸發(fā)詞分類(lèi)集合;每個(gè)候選觸發(fā)詞實(shí)例分類(lèi)后的格式如下:
[0116]〈特征集,標(biāo)準(zhǔn)類(lèi)型,分類(lèi)的結(jié)果,置信度〉
[0117]置信度為一個(gè)0-1之間的分類(lèi)結(jié)果,表示概率。
[0118]例如:以下是對(duì)例I中的候選觸發(fā)詞實(shí)例“任命”分類(lèi)后的輸出結(jié)果:
[0119]例7:
[0120]1 =任命2 = ”3=。+任命4 =任命+結(jié)果5 = ?1]+”6 = ”+顧7 = 48 = ¥?9 = 01^共和黨1 = PER布什ll=0RG議會(huì)12 = PER布什13 = 114 = Hc25>14 14 0.7993876431508394
[0121]S305、把標(biāo)注語(yǔ)料特征集合中的特征作為輸入,調(diào)用最大熵分類(lèi)工具訓(xùn)練得到一個(gè)最大熵論元識(shí)別模型,所述最大熵論元識(shí)別模型包括標(biāo)注語(yǔ)料(訓(xùn)練集)特征集合、訓(xùn)練得到的參數(shù)和最大熵分類(lèi)工具;
[0122]標(biāo)注語(yǔ)料特征集合中的特征的例子如例5所示,每個(gè)候選論元實(shí)例帶有相應(yīng)的論元類(lèi)別(O或I)。
[0123]S306、把測(cè)試語(yǔ)料特征集合中經(jīng)過(guò)S304中分類(lèi)得到的事件類(lèi)型作為論元識(shí)別基準(zhǔn)系統(tǒng)的輸入,得到論元識(shí)別測(cè)試集;
[0124]例如例5中的一個(gè)特征〈3= 14>這個(gè)14就是候選論元實(shí)例“議會(huì)”對(duì)應(yīng)的觸發(fā)詞“任命”在S304中分類(lèi)的結(jié)果。
[0125]S307、調(diào)用訓(xùn)練好的最大熵論元識(shí)別模型對(duì)論元識(shí)別測(cè)試集進(jìn)行論元識(shí)別,得到論元識(shí)別結(jié)果集。每個(gè)候選論元實(shí)例識(shí)別后的格式如下:
[0126]〈特征集,標(biāo)準(zhǔn)類(lèi)型,識(shí)別的結(jié)果,置信度〉
[0127]置信度為一個(gè)0-1之間的分類(lèi)結(jié)果,表示概率。
[0128]例如:以下是對(duì)例5中的候選論元實(shí)例“議會(huì)”識(shí)別后的輸出結(jié)果:
[0129]例8:
[0130]1 =任命2 = W 3 = 14 4 =議會(huì)5 = 0RG 6 =在+P 7 =總+JJ 8=0+PU 9 =結(jié)果+NN10 = prep'pccomp'prep'plmod'lob j'nn 11=6
[0131]12 = NP'NP'NP'LCP'PP'VP'IP'PP'VP 13 =前I O 0.8170714403750499
[0132]S40、對(duì)事件聯(lián)合推理第一集合中的所有候選觸發(fā)詞,利用觸發(fā)詞與論元信息推理、論元數(shù)量推理和論元同指一致性推理規(guī)則進(jìn)行觸發(fā)詞推理,得到事件聯(lián)合推理集合。由于本部分只使用論元數(shù)量推理中的例子來(lái)具體說(shuō)明推理規(guī)則,所以只有S402和S404。
[0133]其中,如圖5所示,S40的具體過(guò)程如下:
[0134]S402、找出觸發(fā)詞識(shí)別第一集合中分類(lèi)為不可信集合且識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論元集合,其中論元集合為測(cè)試預(yù)料特征集合中被最大熵論元識(shí)別模型識(shí)別為真論元的那部分集合,利用論元數(shù)量推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別出來(lái),得到觸發(fā)詞識(shí)別第二集合。其中,論元數(shù)量推理規(guī)則如下:
[0135]通過(guò)論元的數(shù)量來(lái)推理對(duì)應(yīng)的觸發(fā)詞是否是真觸發(fā)詞。在事件抽取任務(wù)中,傳統(tǒng)的做法是先進(jìn)行觸發(fā)詞識(shí)別,然后是觸發(fā)詞分類(lèi);分類(lèi)完成后,該觸發(fā)詞對(duì)應(yīng)的事件類(lèi)型就已知,接著再進(jìn)行論元識(shí)別和論元分類(lèi)。在ACE2005中文語(yǔ)料庫(kù)中,觸發(fā)詞和論元有緊密的聯(lián)系,如果一個(gè)觸發(fā)詞觸發(fā)了事件,則該觸發(fā)詞在絕大部分情況下有其對(duì)應(yīng)的論元,觸發(fā)詞和論元共同構(gòu)成了一個(gè)完整的事件。所以,論元的數(shù)量可作為觸發(fā)詞推理的依據(jù)。在進(jìn)行論元識(shí)別時(shí),一個(gè)候選觸發(fā)詞可對(duì)應(yīng)多個(gè)候選論元,如果這些候選論元中沒(méi)有識(shí)別為真論元或者識(shí)別為真論元的數(shù)量很少,則該候選觸發(fā)詞是假觸發(fā)詞的概率很大;反之,如果這些候選論元中有多個(gè)候選論元被識(shí)別為了真論元,則該候選觸發(fā)詞是真觸發(fā)詞的概率就很大。例如例9:
[0136]例9:另?yè)?jù)報(bào)道,佛州議會(huì)將于8號(hào)舉行參眾兩院聯(lián)席特別會(huì)議,直接認(rèn)命該州的25名選舉人,由于共和黨在佛州議會(huì)(Entity)總?cè)藬?shù)中占優(yōu)勢(shì),任命(Personne1: Start-Posit1n)結(jié)果很可能對(duì)布什有利。
[0137]在例9中的其中一個(gè)事件實(shí)例中,觸發(fā)詞是“任命”,論元是“佛州議會(huì)”。在論元識(shí)別中,模型將“議會(huì)”、“8號(hào)”、“警方”這些候選論元識(shí)別成了真論元,論元數(shù)量為2,所以有很有可能將候選觸發(fā)詞“任命”推理成真觸發(fā)詞。
[0138]S404、用最大熵觸發(fā)詞分類(lèi)模型對(duì)推理出來(lái)為真觸發(fā)詞的最終觸發(fā)詞識(shí)別集合進(jìn)行觸發(fā)詞分類(lèi)。
[0139]例如,將S402中推理出來(lái)的真觸發(fā)詞“任命”重新進(jìn)行觸發(fā)詞分類(lèi),所用的特征和之前的一樣。結(jié)果如下:
[0140]例10:
[0141]I =任命 2 = VV3 =。+任命4 =任命+結(jié)果 5 = PU+VV6 = VV+NN7 = 48 = VP9 = ORG 共和黨1 = PER布什ll=0RG議會(huì)12 = PER布什13 = 114 = Hc25>14 14 0.7993876431508394
[0142]一種中文事件聯(lián)合推理系統(tǒng),如圖6所示,包括事件預(yù)處理模塊10、事件特征抽取模塊20、事件分類(lèi)模塊30和事件聯(lián)合推理模塊40。
[0143]事件預(yù)處理模塊10,用于對(duì)需要識(shí)別事件時(shí)序關(guān)系的原始文本中每個(gè)文檔分別調(diào)用分詞工具、句法分析工具、依存關(guān)系分析工具和事件抽取工具進(jìn)行詞語(yǔ)切分,實(shí)體識(shí)別、句法分析、依存關(guān)系分析和事件抽取,得到測(cè)試語(yǔ)料事件集合;
[0144]事件特征抽取模塊20,用于分別從預(yù)先標(biāo)注了各類(lèi)信息的標(biāo)注語(yǔ)料集合和測(cè)試語(yǔ)料事件集合中抽取所有觸發(fā)詞抽取和論元抽取的特征信息,得到標(biāo)注語(yǔ)料特征集合和測(cè)試語(yǔ)料特征集合;其中,所述標(biāo)注語(yǔ)料集合是已經(jīng)標(biāo)注了實(shí)體、句法結(jié)構(gòu)、依存結(jié)構(gòu)和事件信息的文檔集合,是本發(fā)明進(jìn)行學(xué)習(xí)和推理的基礎(chǔ);
[0145]事件分類(lèi)模塊30,用于根據(jù)標(biāo)注語(yǔ)料特征集合中觸發(fā)詞抽取的特征,訓(xùn)練一個(gè)最大熵觸發(fā)詞識(shí)別識(shí)別模型和一個(gè)觸發(fā)詞分類(lèi)模型;接著根據(jù)標(biāo)注語(yǔ)料特征集合中論元抽取的特征,訓(xùn)練一個(gè)最大熵論元識(shí)別模型;再利用所述最大熵事件觸發(fā)詞識(shí)別模型識(shí)別測(cè)試語(yǔ)料特征集合中每個(gè)候選觸發(fā)詞,利用觸發(fā)詞分類(lèi)模型給測(cè)試語(yǔ)料特征集合中每個(gè)候選觸發(fā)詞進(jìn)行分類(lèi)(每個(gè)候選觸發(fā)詞對(duì)一個(gè)一個(gè)事件類(lèi)型),利用論元識(shí)別模型識(shí)別測(cè)試預(yù)料特征集合中每個(gè)候選論元;最后得到事件聯(lián)合推理第一集合;
[0146]事件聯(lián)合推理模塊40,用于對(duì)事件聯(lián)合推理第一集合中的所有候選觸發(fā)詞,利用觸發(fā)詞與論元信息推理、論元數(shù)量推理和論元同指一致性推理規(guī)則進(jìn)行觸發(fā)詞推理,得到事件聯(lián)合推理集合。
[0147]其中,如圖7所示,事件預(yù)處理模塊10包括分詞單元101、句法分析單元102、依存分析單元103。
[0148]分詞單元101,對(duì)需要識(shí)別觸發(fā)詞的原始文本中的每個(gè)文檔調(diào)用分詞工具切分詞語(yǔ),得到用空格分隔詞語(yǔ)的第一文檔集合;
[0149]句法分析單元102,對(duì)第一文檔集合中每個(gè)文檔調(diào)用句法分析工具進(jìn)行句法分析,得到第二文檔集合;
[0150]依存分析單元103,對(duì)第二文檔集合中每個(gè)文檔調(diào)用依存關(guān)系分析工具進(jìn)行依存關(guān)系分析,得到測(cè)試語(yǔ)料事件集合。
[0151]其中,如圖8所示,事件特征抽取模塊20包括觸發(fā)詞識(shí)別和分類(lèi)特征抽取單元201和論元識(shí)別特征抽取單元202。
[0152]觸發(fā)詞識(shí)別和分類(lèi)特征抽取單元201,從標(biāo)注語(yǔ)料集合中抽取觸發(fā)詞識(shí)別和分類(lèi)時(shí)的特征,構(gòu)成標(biāo)注語(yǔ)料觸發(fā)詞抽取特征集合;從測(cè)試語(yǔ)料集合中抽取觸發(fā)詞識(shí)別和分類(lèi)時(shí)的特征,構(gòu)成測(cè)試語(yǔ)料觸發(fā)詞抽取特征集合。其中,觸發(fā)詞識(shí)別和分類(lèi)的特征如下:
[0153]〈1 =候選觸發(fā)詞>〈2 =候選觸發(fā)詞的詞性>〈3 =候選觸發(fā)詞的前一詞+候選觸發(fā)詞>〈4 =候選觸發(fā)詞+候選觸發(fā)詞的后一詞>〈5 =候選觸發(fā)詞的前一詞詞性+候選觸發(fā)詞詞性〉〈6 =候選觸發(fā)詞詞性+候選觸發(fā)詞的后一詞的詞性>〈7 =候選觸發(fā)詞在句法樹(shù)中的深度>〈8=候選觸發(fā)詞在句法樹(shù)中的短語(yǔ)結(jié)構(gòu)>〈9 =候選觸發(fā)詞左邊的句法上最近的實(shí)體類(lèi)型和實(shí)體>〈10 =候選觸發(fā)詞右邊的句法上最近的實(shí)體類(lèi)型和實(shí)體Xll=候選觸發(fā)詞左邊的物理上最近的實(shí)體類(lèi)型和實(shí)體>〈12 =候選觸發(fā)詞右邊的物理上最近的實(shí)體類(lèi)型和實(shí)體>〈13 =候選觸發(fā)詞是否是中文Propbank中的謂詞(O或1)>〈14 =候選觸發(fā)詞在中文同義詞詞典中的入口編號(hào)〉
[0154]沒(méi)有的特征不寫(xiě)出來(lái)。其中,觸發(fā)詞類(lèi)型共有33種,分別用數(shù)字1-33編號(hào)。中文同義詞詞林為《同義詞詞林》。
[0155]論元識(shí)別特征抽取單元202,從標(biāo)注語(yǔ)料集合中抽取論元識(shí)別時(shí)的特征,構(gòu)成標(biāo)注語(yǔ)料論元識(shí)別特征集合;從測(cè)試語(yǔ)料集合中抽取論元識(shí)別時(shí)的特征,構(gòu)成測(cè)試語(yǔ)料論元識(shí)別特征集合。其中,論元識(shí)別的特征如下:
[0156]〈I =觸發(fā)詞>〈2 =觸發(fā)詞詞性>〈3 =事件類(lèi)型>〈4 =實(shí)體中心詞>〈5 =實(shí)體類(lèi)型>〈6=實(shí)體前一詞和詞性>〈7 =實(shí)體后一詞和詞性>〈8 =觸發(fā)詞前一詞和詞性>〈9 =觸發(fā)詞后一詞和詞性>〈1 =觸發(fā)詞和當(dāng)前實(shí)體(或?qū)嶓w中心詞)之間的依存路徑>〈11 =實(shí)體和觸發(fā)詞在樹(shù)中的深度差)>〈12 =實(shí)體到觸發(fā)詞的最短路徑>〈13 =實(shí)體與觸發(fā)詞的相對(duì)位置(前或后)>
[0157]其中,事件類(lèi)型為觸發(fā)詞分類(lèi)后的結(jié)果。
[0158]其中,如圖9所示,事件分類(lèi)模塊30包括觸發(fā)詞抽取模型訓(xùn)練單元301、觸發(fā)詞識(shí)別單元302、觸發(fā)詞識(shí)別結(jié)果集分類(lèi)單元303、觸發(fā)詞分類(lèi)單元304、論元識(shí)別模型訓(xùn)練單元305、論元識(shí)別測(cè)試集抽取單元306和論元識(shí)別單元307。
[0159]觸發(fā)詞抽取模型訓(xùn)練單元301,把標(biāo)注語(yǔ)料特征集合中的特征作為輸入,調(diào)用最大熵分類(lèi)工具訓(xùn)練得到一個(gè)最大熵觸發(fā)詞識(shí)別模型和一個(gè)觸發(fā)詞分類(lèi)模型;所述最大熵觸發(fā)詞識(shí)別(或分類(lèi))模型包括標(biāo)注語(yǔ)料(訓(xùn)練集)特征集合、訓(xùn)練得到的參數(shù)和最大熵分類(lèi)工具;
[0160]觸發(fā)詞識(shí)別單元302,把測(cè)試語(yǔ)料特征集合中每個(gè)觸發(fā)詞的特征作為輸入,調(diào)用最大熵觸發(fā)詞識(shí)別模型進(jìn)行觸發(fā)詞識(shí)別,得到觸發(fā)詞識(shí)別第一集合;
[0161]觸發(fā)詞識(shí)別結(jié)果集分類(lèi)單元303,在識(shí)別后的結(jié)果集中設(shè)置一個(gè)閾值γ,概率大于等于γ的候選觸發(fā)詞實(shí)例認(rèn)為可信,小于γ認(rèn)為不可信,分別構(gòu)成可信集合和不可信集合;
[0162]觸發(fā)詞分類(lèi)單元304,用訓(xùn)練好的觸發(fā)詞分類(lèi)模型對(duì)可信集合和不可信集合上的所有候選觸發(fā)詞進(jìn)行觸發(fā)詞分類(lèi),即每個(gè)候選觸發(fā)詞對(duì)應(yīng)一個(gè)事件類(lèi)型,得到觸發(fā)詞分類(lèi)集合;
[0163]論元識(shí)別模型訓(xùn)練單元305,把標(biāo)注語(yǔ)料特征集合中的特征作為輸入,調(diào)用最大熵分類(lèi)工具訓(xùn)練得到一個(gè)最大熵論元識(shí)別模型;所述最大熵論元識(shí)別模型包括標(biāo)注語(yǔ)料(訓(xùn)練集)特征集合、訓(xùn)練得到的參數(shù)和最大熵分類(lèi)工具;
[0? 64] 論元識(shí)別測(cè)試集抽取單元306,把測(cè)試語(yǔ)料特征集合中經(jīng)過(guò)S304中分類(lèi)得到的事件類(lèi)型作為論元識(shí)別基準(zhǔn)系統(tǒng)的輸入,得到論元識(shí)別測(cè)試集;
[0165]論元識(shí)別單元307,調(diào)用訓(xùn)練好的最大熵論元識(shí)別模型對(duì)論元識(shí)別測(cè)試集進(jìn)行論元識(shí)別,得到論元識(shí)別結(jié)果集。
[0166]其中,如圖10所示,事件聯(lián)合推理模塊40包括觸發(fā)詞與論元信息推理單元401、論元數(shù)量推理單元402、論元同指一致性推理單元403和觸發(fā)詞分類(lèi)單元404。
[0167]觸發(fā)詞與論元信息推理單元401,找出觸發(fā)詞識(shí)別第一集合中分類(lèi)為不可信集合且識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論元集合,其中論元集合為測(cè)試預(yù)料特征集合中被最大熵論元識(shí)別模型識(shí)別為真論元的那部分集合,利用觸發(fā)詞與論元信息推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別出來(lái),得到觸發(fā)詞識(shí)別第二集合。其中,觸發(fā)詞與論元信息推理規(guī)則如下:
[0168]通過(guò)論元的類(lèi)型、觸發(fā)詞的詞性、觸發(fā)詞與論元的相對(duì)位置關(guān)系和觸發(fā)詞與論元之間的依存關(guān)系路徑來(lái)推理該觸發(fā)詞是否是真觸發(fā)詞。其中,論元的類(lèi)型就是實(shí)體的類(lèi)型,有PER、GPE和LOC等;觸發(fā)詞詞性主要有VV (動(dòng)詞)和NN (名詞);觸發(fā)詞與論元相對(duì)位置有前或后(O或I來(lái)表示)。值得一提的是觸發(fā)詞與論元之間的依存關(guān)系路徑,依存路徑的稀疏性造成模型效果不好,所以不能用原始的依存路徑。具體做法如下:如果依存路徑中有兩個(gè)相鄰的依存關(guān)系相同,則去掉其中一個(gè)。去掉相鄰的重復(fù)依存關(guān)系后,如果依存路徑中的依存關(guān)系數(shù)量大于N,則該依存路徑為NULL。例如某個(gè)依存路徑dep_dep_dobj_assmod_nn,去除重復(fù)后依存路徑為dep_dob j_assmod_nn,如果N= 3,而依存路徑中的依存關(guān)系數(shù)量為4,則最終的依存路徑為NULL,如果N=4,則依存路徑為cbp_dobj_assmod_nn。以句子I為例:
[0169]例11:警方發(fā)言人周二表示,甘達(dá)拉在被調(diào)查過(guò)程中表現(xiàn)不合作,警員已
[0170]—再警告如果他不伏下,便會(huì)向他發(fā)射胡椒彈,但甘達(dá)拉沒(méi)有聽(tīng)命,警員(Attacker)于是發(fā)射(Conf Iict: Attack)胡椒彈。
[0171 ]在上面的例11中有一個(gè)事件實(shí)例,觸發(fā)詞是“發(fā)射”,論元是“警員”和“胡椒彈” ο當(dāng)候選觸發(fā)詞“發(fā)射”是否是真觸發(fā)詞未知時(shí),由于已知“警員”和“胡椒彈”是論元,“發(fā)射”的詞性為動(dòng)詞,“警員”在“發(fā)射”之前,且該論元的類(lèi)型為PER,“警員”與“發(fā)射”之間的依存關(guān)系路徑是nsubj,“胡椒彈”在“發(fā)射”之后,且該論元的類(lèi)型為WEA,“發(fā)射”與“胡椒彈”之前的依存關(guān)系路徑是dobj,容易推理出候選觸發(fā)詞“發(fā)射”是真觸發(fā)詞。
[0172]論元數(shù)量推理單元402,在觸發(fā)詞識(shí)別第二集合中設(shè)置一個(gè)閾值,將集合分為可信集合和不可信集合。找出觸發(fā)詞識(shí)別第二集合中分類(lèi)為不可信集合且識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論元集合,利用論元數(shù)量推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別出來(lái),得到觸發(fā)詞識(shí)別第三集合。其中,論元數(shù)量推理規(guī)則如下:
[0173]通過(guò)論元的數(shù)量來(lái)推理對(duì)應(yīng)的觸發(fā)詞是否是真觸發(fā)詞。在事件抽取任務(wù)中,傳統(tǒng)的做法是先進(jìn)行觸發(fā)詞識(shí)別,然后是觸發(fā)詞分類(lèi);分類(lèi)完成后,該觸發(fā)詞對(duì)應(yīng)的事件類(lèi)型就已知,接著再進(jìn)行論元識(shí)別和論元分類(lèi)。在ACE2005中文語(yǔ)料庫(kù)中,觸發(fā)詞和論元有緊密的聯(lián)系,如果一個(gè)觸發(fā)詞觸發(fā)了事件,則該觸發(fā)詞在絕大部分情況下有其對(duì)應(yīng)的論元,觸發(fā)詞和論元共同構(gòu)成了一個(gè)完整的事件。所以,論元的數(shù)量可作為觸發(fā)詞推理的依據(jù)。在進(jìn)行論元識(shí)別時(shí),一個(gè)候選觸發(fā)詞可對(duì)應(yīng)多個(gè)候選論元,如果這些候選論元中沒(méi)有識(shí)別為真論元或者識(shí)別為真論元的數(shù)量很少,則該候選觸發(fā)詞是假觸發(fā)詞的概率很大;反之,如果這些候選論元中有多個(gè)候選論元被識(shí)別為了真論元,則該候選觸發(fā)詞是真觸發(fā)詞的概率就很大。例如例12:
[0174]例12:而在警方(Attacker)和安全部隊(duì)(Attacker)突擊伊斯坦堡的溫拉尼約監(jiān)獄的時(shí)候,射(Conf lict: Attack)死第3名朝著軍警沖去的自焚囚犯(Target),同時(shí)目擊者也看到了黑傭從監(jiān)獄里傳出來(lái)。
[0175]在例12中的其中一個(gè)實(shí)例中,觸發(fā)詞是“射”,論元是“警方”、“部隊(duì)”和“囚犯”。在論元識(shí)別中,模型將“溫拉尼約監(jiān)獄”、“部隊(duì)”、“警方”和“伊斯坦堡”這些候選論元識(shí)別成了真論元,論元數(shù)量為4,所以有很高的概率將候選觸發(fā)詞“射”推理成真觸發(fā)詞。
[0176]論元同指一致性推理單元403,在觸發(fā)詞識(shí)別第三集合中設(shè)置一個(gè)閾值,將集合分為可信集合和不可信集合。找出觸發(fā)詞識(shí)別第三集合中識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論元集合,利用論元同指一致性推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別出來(lái),得到最終的觸發(fā)詞識(shí)別集合。其中,論元同指一致性推理規(guī)則如下:
[0177]和上面兩條推理規(guī)則不同,該推理規(guī)則需要可信集合產(chǎn)生的論元,因?yàn)檫@部分集合可以與不可信集合產(chǎn)生的論元建立聯(lián)系,作為推理的證據(jù);而且該推理規(guī)則不局限于句子級(jí)別信息,還使用到了篇章級(jí)信息。由于中文作為主題結(jié)構(gòu)的語(yǔ)言,同一篇文檔往往講述同一話題。從標(biāo)注語(yǔ)料集合中,容易觀察到這樣的現(xiàn)象:在同一文檔中,有兩個(gè)候選觸發(fā)詞對(duì)應(yīng)的論元同指,其中一個(gè)候選觸發(fā)詞是真觸發(fā)詞,則另一個(gè)候選觸發(fā)詞也很有可能是真觸發(fā)詞。以例句13和例句14為例:
[0178]例13:位在高雄縣阿蓮鄉(xiāng)(Place)的盧姓夫婦和17歲的女兒一家三口(Attacker,Target)在昨天深夜(T ime)集體喝下了除草劑自殺(Conf lict: Attack)。
[0179]例14:而家屬在院外焦急的等候,經(jīng)過(guò)醫(yī)師的努力三個(gè)人(Victim)總算是穩(wěn)住的病情(Life:1njure) ο
[0180]在例13的事件實(shí)例中,觸發(fā)詞是“自殺”,論元是“高雄縣阿蓮鄉(xiāng)”、“一家三口”和“昨天深夜”。在例14的事件實(shí)例中,觸發(fā)詞是“病情”,論元是“三個(gè)人”。在例13中的觸發(fā)詞“自殺”由于在訓(xùn)練集中經(jīng)常被標(biāo)注為真觸發(fā)詞,所以很容易被識(shí)別出來(lái)。而在例14中的觸發(fā)詞“病情”由于在訓(xùn)練集中不常見(jiàn),而且缺少上下文信息所以很難被識(shí)別出來(lái)。但是,例13中的論元“一家三口”和例14中的論元“三個(gè)人”是同指的,而又已知“自殺”是真觸發(fā)詞,所以可以推理出“病情”也是真觸發(fā)詞。
[0181]觸發(fā)詞分類(lèi)單元404,用最大熵觸發(fā)詞分類(lèi)模型對(duì)推理出來(lái)為真觸發(fā)詞的最終觸發(fā)詞識(shí)別集合進(jìn)行觸發(fā)詞分類(lèi)。
[0182]本發(fā)明提出篇章級(jí)別的中文事件聯(lián)合推理方法和系統(tǒng),該方法和系統(tǒng)能利用論元抽取中有價(jià)值的信息來(lái)反過(guò)來(lái)幫助觸發(fā)詞抽取,減少傳統(tǒng)管道模型中的級(jí)聯(lián)錯(cuò)誤。在實(shí)現(xiàn)方法上,本發(fā)明采用機(jī)器學(xué)習(xí)和推理相結(jié)合的方法,利用各種語(yǔ)言知識(shí)來(lái)識(shí)別中文事件時(shí)序關(guān)系。本發(fā)明的方法和系統(tǒng),與現(xiàn)有方法和系統(tǒng)相比,識(shí)別性能得到了一定提升。
[0183]以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,并不用于限制本發(fā)明,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和變型,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種中文事件聯(lián)合推理方法,用于識(shí)別從原始文本中抽取事件實(shí)例,其特征在于包 括步驟:S10、對(duì)需要識(shí)別事件時(shí)序關(guān)系的原始文本中每個(gè)文檔分別調(diào)用分詞工具、句法分析工 具、依存關(guān)系分析工具和事件抽取工具進(jìn)行詞語(yǔ)切分、實(shí)體識(shí)別、句法分析、依存關(guān)系分析 和事件抽取,得到測(cè)試語(yǔ)料事件集合;S20、分別從預(yù)先標(biāo)注了各類(lèi)信息的標(biāo)注語(yǔ)料集合和測(cè)試語(yǔ)料事件集合中抽取所有觸 發(fā)詞抽取和論元抽取的特征信息,得到標(biāo)注語(yǔ)料特征集合和測(cè)試語(yǔ)料特征集合;S30、根據(jù)標(biāo)注語(yǔ)料特征集合中觸發(fā)詞抽取的特征,訓(xùn)練一個(gè)最大熵觸發(fā)詞識(shí)別模型和 一個(gè)觸發(fā)詞分類(lèi)模型,接著根據(jù)標(biāo)注語(yǔ)料特征集合中論元抽取的特征,訓(xùn)練一個(gè)最大熵論 元識(shí)別模型,再利用所述最大熵事件觸發(fā)詞識(shí)別模型識(shí)別測(cè)試語(yǔ)料特征集合中每個(gè)候選觸 發(fā)詞,利用觸發(fā)詞分類(lèi)模型給測(cè)試語(yǔ)料特征集合中每個(gè)候選觸發(fā)詞進(jìn)行分類(lèi),利用論元識(shí) 別模型識(shí)別測(cè)試預(yù)料特征集合中每個(gè)候選論元,最后得到事件聯(lián)合推理第一集合;S40、對(duì)事件聯(lián)合推理第一集合中的所有候選觸發(fā)詞,利用觸發(fā)詞與論元信息推理、論 元數(shù)量推理和論元同指一致性推理規(guī)則進(jìn)行觸發(fā)詞推理,得到事件聯(lián)合推理集合。2.根據(jù)權(quán)利要求1所述的中文事件聯(lián)合推理方法,其特征在于,所述步驟S10還包括:5101、對(duì)需要識(shí)別觸發(fā)詞的原始文本中的每個(gè)文檔調(diào)用分詞工具切分詞語(yǔ),得到用空 格分隔詞語(yǔ)的第一文檔集合;5102、對(duì)第一文檔集合中每個(gè)文檔調(diào)用句法分析工具進(jìn)行句法分析,得到第二文檔集 合;5103、對(duì)第二文檔集合中每個(gè)文檔調(diào)用依存關(guān)系分析工具進(jìn)行依存關(guān)系分析,得到測(cè) 試語(yǔ)料事件集合。3.根據(jù)權(quán)利要求1所述的中文事件聯(lián)合推理方法,其特征在于:所述步驟S20中所述標(biāo) 注語(yǔ)料集合是標(biāo)注了實(shí)體、句法結(jié)構(gòu)、依存結(jié)構(gòu)和事件信息的文檔集合。4.根據(jù)權(quán)利要求3所述的中文事件聯(lián)合推理方法,其特征在于,所述步驟S20還包括:5201、從標(biāo)注語(yǔ)料集合中抽取觸發(fā)詞識(shí)別和分類(lèi)時(shí)的特征,構(gòu)成標(biāo)注語(yǔ)料觸發(fā)詞抽取 特征集合,從測(cè)試語(yǔ)料集合中抽取觸發(fā)詞識(shí)別和分類(lèi)時(shí)的特征,構(gòu)成測(cè)試語(yǔ)料觸發(fā)詞抽取 特征集合;5202、從標(biāo)注語(yǔ)料集合中抽取論元識(shí)別時(shí)的特征,構(gòu)成標(biāo)注語(yǔ)料論元識(shí)別特征集合,從 測(cè)試語(yǔ)料集合中抽取論元識(shí)別時(shí)的特征,構(gòu)成測(cè)試語(yǔ)料論元識(shí)別特征集合。5.根據(jù)權(quán)利要求4所述的中文事件聯(lián)合推理方法,其特征在于,所述步驟S201中觸發(fā)詞 識(shí)別和分類(lèi)的特征如下:〈1=候選觸發(fā)詞>〈2 =候選觸發(fā)詞的詞性>〈3 =候選觸發(fā)詞的前一詞+候選觸發(fā)詞>〈4 =候選觸發(fā)詞+候選觸發(fā)詞的后一詞>〈5 =候選觸發(fā)詞的前一詞詞性+候選觸發(fā)詞詞性>〈6 =候選觸發(fā)詞詞性+候選觸發(fā)詞的后一詞的詞性>〈7 =候選觸發(fā)詞在句法樹(shù)中的深度>〈8 = 候選觸發(fā)詞在句法樹(shù)中的短語(yǔ)結(jié)構(gòu)>〈9 =候選觸發(fā)詞左邊的句法上最近的實(shí)體類(lèi)型和實(shí)體 >〈1〇 =候選觸發(fā)詞右邊的句法上最近的實(shí)體類(lèi)型和實(shí)體>〈11 =候選觸發(fā)詞左邊的物理上 最近的實(shí)體類(lèi)型和實(shí)體>〈12 =候選觸發(fā)詞右邊的物理上最近的實(shí)體類(lèi)型和實(shí)體>〈13 =候 選觸發(fā)詞是否是中文Propbank中的謂詞(0或1)>〈14 =候選觸發(fā)詞在中文同義詞詞典中的 入口編號(hào)〉。6.根據(jù)權(quán)利要求4所述的中文事件聯(lián)合推理方法,其特征在于,所述步驟S202中論元識(shí) 別的特征如下:〈1 =觸發(fā)詞>〈2 =觸發(fā)詞詞性>〈3 =事件類(lèi)型>〈4 =實(shí)體中心詞>〈5 =實(shí)體類(lèi)型>〈6 =實(shí) 體前一詞和詞性>〈7 =實(shí)體后一詞和詞性>〈8 =觸發(fā)詞前一詞和詞性>〈9 =觸發(fā)詞后一詞和 詞性>〈10 =觸發(fā)詞和當(dāng)前實(shí)體(或?qū)嶓w中心詞)之間的依存路徑>〈11 =實(shí)體和觸發(fā)詞在樹(shù) 中的深度差)>〈12 =實(shí)體到觸發(fā)詞的最短路徑>〈13 =實(shí)體與觸發(fā)詞的相對(duì)位置(前或后)>;其中,事件類(lèi)型為觸發(fā)詞分類(lèi)后的結(jié)果。7.根據(jù)權(quán)利要求1所述的中文事件聯(lián)合推理方法,其特征在于,所述步驟S30還包括:5301、把標(biāo)注語(yǔ)料特征集合中的特征作為輸入,調(diào)用最大熵分類(lèi)工具訓(xùn)練得到一個(gè)最 大熵觸發(fā)詞識(shí)別模型和一個(gè)觸發(fā)詞分類(lèi)模型,所述最大熵觸發(fā)詞識(shí)別模型包括標(biāo)注語(yǔ)料特 征集合、訓(xùn)練得到的參數(shù)和最大熵分類(lèi)工具;5302、把測(cè)試語(yǔ)料特征集合中每個(gè)觸發(fā)詞的特征作為輸入,調(diào)用最大熵觸發(fā)詞識(shí)別模 型進(jìn)行觸發(fā)詞識(shí)別,得到觸發(fā)詞識(shí)別第一集合;5303、在識(shí)別后的結(jié)果集中設(shè)置一個(gè)閾值y,概率大于等于y的候選觸發(fā)詞實(shí)例認(rèn)為 可信,小于T認(rèn)為不可信,分別構(gòu)成可信集合和不可信集合;5304、用訓(xùn)練好的觸發(fā)詞分類(lèi)模型對(duì)可信集合和不可信集合上的所有候選觸發(fā)詞進(jìn)行 觸發(fā)詞分類(lèi),即每個(gè)候選觸發(fā)詞對(duì)應(yīng)一個(gè)事件類(lèi)型,得到觸發(fā)詞分類(lèi)集合;5305、把標(biāo)注語(yǔ)料特征集合中的特征作為輸入,調(diào)用最大熵分類(lèi)工具訓(xùn)練得到一個(gè)最 大熵論元識(shí)別模型,所述最大熵論元識(shí)別模型包括標(biāo)注語(yǔ)料特征集合、訓(xùn)練得到的參數(shù)和 最大熵分類(lèi)工具;5306、把測(cè)試語(yǔ)料特征集合中經(jīng)過(guò)S304中分類(lèi)得到的事件類(lèi)型作為論元識(shí)別基準(zhǔn)系統(tǒng) 的輸入,得到論元識(shí)別測(cè)試集;5307、調(diào)用訓(xùn)練好的最大熵論元識(shí)別模型對(duì)論元識(shí)別測(cè)試集進(jìn)行論元識(shí)別,得到論元識(shí)別結(jié)果集。8.根據(jù)權(quán)利要求1所述的中文事件聯(lián)合推理方法,其特征在于,所述步驟S40還包括:5401、找出觸發(fā)詞識(shí)別第一集合中分類(lèi)為不可信集合且識(shí)別為假觸發(fā)詞的觸發(fā)詞集合 及對(duì)應(yīng)的論元集合,其中論元集合為測(cè)試預(yù)料特征集合中被最大熵論元識(shí)別模型識(shí)別為真 論元的那部分集合,利用觸發(fā)詞與論元信息推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā) 詞的觸發(fā)詞重新識(shí)別出來(lái),得到觸發(fā)詞識(shí)別第二集合,其中,觸發(fā)詞與論元信息推理規(guī)則如 下:通過(guò)論元的類(lèi)型、觸發(fā)詞的詞性、觸發(fā)詞與論元的相對(duì)位置關(guān)系和觸發(fā)詞與論元之間 的依存關(guān)系路徑來(lái)推理該觸發(fā)詞是否是真觸發(fā)詞,觸發(fā)詞與論元之間的依存關(guān)系路徑中有 兩個(gè)相鄰的依存關(guān)系相同,則去掉其中一個(gè),去掉相鄰的重復(fù)依存關(guān)系后,如果依存路徑中 的依存關(guān)系數(shù)量大于N,則該依存路徑為NULL;5402、在觸發(fā)詞識(shí)別第二集合中設(shè)置一個(gè)閾值,將集合分為可信集合和不可信集合,找 出觸發(fā)詞識(shí)別第二集合中分類(lèi)為不可信集合且識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論 元集合,利用論元數(shù)量推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別 出來(lái),得到觸發(fā)詞識(shí)別第三集合,其中,論元數(shù)量推理規(guī)則如下:通過(guò)論元的數(shù)量來(lái)推理對(duì)應(yīng)的觸發(fā)詞是否是真觸發(fā)詞,在進(jìn)行論元識(shí)別時(shí),一個(gè)候選觸發(fā)詞可對(duì)應(yīng)多個(gè)候選論元,如果這些候選論元中沒(méi)有識(shí)別為真論元或者識(shí)別為真論元的 數(shù)量很少,則該候選觸發(fā)詞是假觸發(fā)詞的概率很大,反之,如果這些候選論元中有多個(gè)候選 論元被識(shí)別為了真論元,則該候選觸發(fā)詞是真觸發(fā)詞的概率就很大;5403、在觸發(fā)詞識(shí)別第三集合中設(shè)置一個(gè)閾值,將集合分為可信集合和不可信集合,找 出觸發(fā)詞識(shí)別第三集合中識(shí)別為假觸發(fā)詞的觸發(fā)詞集合及對(duì)應(yīng)的論元集合,利用論元同指 一致性推理規(guī)則將在最大熵論元識(shí)別時(shí)識(shí)別為假觸發(fā)詞的觸發(fā)詞重新識(shí)別出來(lái),得到最終 的觸發(fā)詞識(shí)別集合,其中,論元同指一致性推理規(guī)則如下:利用可信集合產(chǎn)生的論元,與不可信集合產(chǎn)生的論元建立聯(lián)系,作為推理的證據(jù),在同 一文檔中,有兩個(gè)候選觸發(fā)詞對(duì)應(yīng)的論元同指,其中一個(gè)候選觸發(fā)詞是真觸發(fā)詞,則另一個(gè) 候選觸發(fā)詞也很有可能是真觸發(fā)詞;5404、用最大熵觸發(fā)詞分類(lèi)模型對(duì)推理出來(lái)為真觸發(fā)詞的最終觸發(fā)詞識(shí)別集合進(jìn)行觸 發(fā)詞分類(lèi)。9.一種中文事件聯(lián)合推理系統(tǒng),其特征在于:包括事件預(yù)處理模塊(10)、事件特征抽取 模塊(20)、事件分類(lèi)模塊(30)和事件聯(lián)合推理模塊(40),所述事件預(yù)處理模塊(10)包括分 詞單元(101 )、句法分析單元(102)和依存分析單元(103);所述事件特征抽取模塊(20)包括 觸發(fā)詞識(shí)別和分類(lèi)特征抽取單元(201)和論元識(shí)別特征抽取單元(202);所述事件分類(lèi)模塊 (30)包括觸發(fā)詞抽取模型訓(xùn)練單元(301)、觸發(fā)詞識(shí)別單元(302)、觸發(fā)詞識(shí)別結(jié)果集分類(lèi) 單元(303)、觸發(fā)詞分類(lèi)單元(304)、論元識(shí)別模型訓(xùn)練單元(305)、論元識(shí)別測(cè)試集抽取單 元(306)和論元識(shí)別單元(307);所述事件聯(lián)合推理模塊(40)包括觸發(fā)詞與論元信息推理單 元(401 )、論元數(shù)量推理單元(402)、論元同指一致性推理單元(403)和觸發(fā)詞分類(lèi)單元 (404)〇
【文檔編號(hào)】G06F17/27GK106055536SQ201610333246
【公開(kāi)日】2016年10月26日
【申請(qǐng)日】2016年5月19日
【發(fā)明人】朱少華, 李培峰, 朱巧明, 周?chē)?guó)棟, 朱曉旭
【申請(qǐng)人】蘇州大學(xué)