两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用來識別并分類命名實體的系統(tǒng)的制作方法

文檔序號:6378390閱讀:306來源:國知局
專利名稱:用來識別并分類命名實體的系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及命名實體識別(Named Entity Recognition-----NER),特別是自動的模式學(xué)習(xí)。

背景技術(shù)
命名實體識別用于自然語言處理及信息提取中從而識別出文本中的名稱(命名實本——Named Entitied----NEs),并將這些名稱分到預(yù)定的類目中,如“人員名稱”、“位置名稱”、“組織名稱”、“日期”、“時間”、“百分比”、“錢數(shù)”等(其通常還有一個雜類“其它”,用于那些不適于放入任何一個特定類目中的詞。在計算機語言中,NER是信息提取的一個部分,其從一文檔中提取特定種類的信息。采用命名實體識別,該特定的信息就是實體名稱,其構(gòu)成對文檔分析的主要部分,例如數(shù)據(jù)庫檢索。因此,精確的命名非常重要。
通過句子中問題的形式如“who”、“where”、“how much”、“what”、“how”可部分地看出句子的成分。命名實體識別對文本進行表面地語法分析,并對那些回答了其中一些問題的符標序列進行劃界,如“who”、“where”和“how much”。為此,一符標有可能是一個詞,一個詞的序列、一個表意字符,也有可能是一個表意字符的序列。使用命名實體識別有可能僅僅是處理鏈中的第一步,下一步有可能會涉及兩個或者是多個NE,甚至有可能是用一個動詞給出其中關(guān)系的含意。然后,進一步的處理就能發(fā)現(xiàn)更難回答的問題,如“what”、“how”。
構(gòu)造一個具有性能不高的命名實體識別系統(tǒng)非常簡單。然而,這里仍有許多不準確以及不明確的情況(如,“June”是一個人還是一個月份?“pound”是一個重量單位還是一種貨幣的名稱?“Washington”是一個人的名字還是美國的一個州,亦或是英國的一個城鎮(zhèn)或美國的一個市?)。其最終的目的是達到人的能力,甚至是更好。
前面的內(nèi)容接近于命名實體識別人工構(gòu)造的有限狀態(tài)模式。人們通過這種系統(tǒng)試圖將這些模式與一序列詞進行匹配,其方式與一種通用的規(guī)則語法匹配器非常一致。這種系統(tǒng)主要是基于規(guī)則并且不能處理移植性問題并且非常費力。每一個新文本源都要求規(guī)則有所變化從而保持其性能不變,因此這種系統(tǒng)需要大量的維護工作。然而,當該系統(tǒng)維護地很好時,它們的工作是理想的。
最近的方法更趨于使用機器學(xué)習(xí)。機器學(xué)習(xí)系統(tǒng)是可訓(xùn)練的并具有自適應(yīng)能力。在機器學(xué)習(xí)方式中,有許多種不同的方法,如(i)最大一致性;(ii)基于轉(zhuǎn)換的學(xué)習(xí)規(guī)則;(iii)決策樹;以及(iv)隱藏馬爾可夫模型。
在這些方法中,隱藏馬爾可夫模型比其它的方法具有更好的性能。其主要原因可能是隱藏馬爾可夫模型能夠捕獲現(xiàn)象的位置,該位置表示的是文本中的名稱。此外,隱藏馬爾可夫模型在對NE級狀態(tài)序列進行解碼時具有Viterbi算法高效的優(yōu)點。
下面這些現(xiàn)有技術(shù)中描述了隱藏馬爾可夫模型 Bikel Daniel M.、Schwarz R.and Weischedel Ralph M.于1999年發(fā)表的An algorithm that learns what′s in a name。Machine Learning(Special Issueon NLP)(機器學(xué)習(xí)——NLP???; Miller S.、Crystal M.、Fox H.、Ramshaw L.、Schwartz R.、Stone R.、Weischedel R.and the Annotation Group(說明工作組)于1998年發(fā)表的BBNDescription of the SIFT system as used for MUC-7.MUC-7.Fairfax,Virginia; Miller S等人的美國專利6,052,682,其授權(quán)日為2000年4月18日,發(fā)明名稱為Method of and apparatus for recognizing and labeling instances ofname classes in textual environments(其涉及上面所述Bikel和Miller文章中的系統(tǒng)); Yu Shihong,Bai Shuanhu and Wu Paul于1998年發(fā)表的Description ofthe Kent Ridge Digital Labs system used for MUC-7.MUG7.Fairfax,Virginia; Bai Shuanhu等人的美國專利6,311,152,其授權(quán)日為2001年10月30日,發(fā)明名稱為System for Chinese tokenization and named entity recognition,which resolves named entity recognition as a part of word segmentation(其涉及上面所述Yu文章中的系統(tǒng));和 Zhou GuoDong和Su Jian于2002年發(fā)表的Named Entity Recognitionusing an HMM-based Chunk Tagger。出處為Proceedings of the 40thAnnual Meeting of the Association for Computational Linguistics(ACL),Philadelphia,2002年7月,第473-480頁。
在這些采用了隱藏馬爾可夫模型的方法中,有一種方法需依賴于兩種線索來解決模糊性、穩(wěn)定性以及移植性的問題。第一種線索是詞以及/或詞組本身的內(nèi)在線索。第二種是從詞以及/或詞組上下文采集到的外在線索。該方法在前述Zhou GuoDong和Su Jian于2002年發(fā)表的Named EntityRecognition using an HMM-based Chunk Tagger中進行了描述。


發(fā)明內(nèi)容
本發(fā)明的一個方面是提供一種對文本進行命名實體識別中使用的回退定模方法,其包含,對于一個來自文本的初始模式入口放松對初始模式入口的一個或多個限制;確定模式入口在限制放松之后是否具有一個有效的形式;以及如果模式入口在限制放松之后被確定為不具有有效的形式,那么就使該限制的語義層級反復(fù)上移。
本發(fā)明的另一方面是提供一種在一模式詞典中誘導(dǎo)模式的方法,其中的模式詞典中包含有多個帶有其出現(xiàn)頻率的初始模式入口,該方法包含確定出該詞典中具有較低出現(xiàn)頻率的一個或多個初始模式入口;以及放松所確定出的一個或多個初始模式入口中每一個入口的一個或多個限制從而拓寬所確定出的一個或多個初始模式入口所含蓋的范圍。
本發(fā)明的另一方面是提供一種識別并分類一文本中命名實體的系統(tǒng),其包含特征提取裝置,其用來從該文檔中提取各個特征;識別內(nèi)核裝置,其用一隱藏馬爾可夫模式來對命名實體進行識別并分類;以及回退定模裝置,其通過限制松馳來回退定模從而處理一富特征空間中的數(shù)據(jù)稀疏。
本發(fā)明的另一方面是提供一特征組,在命名識別過程中,其用在一隱藏馬爾可夫模式中的回退定模中,其中的特征組在層級布置上允許數(shù)據(jù)稀疏。



下面將參考附圖以非限定性示例的方式來描述本發(fā)明,其中 圖1是本發(fā)明一實施例的命名實體識別系統(tǒng)的示意圖; 圖2是圖1中命名實體識別系統(tǒng)一操作示例的流程圖; 圖3是本發(fā)明一實施例中一隱藏馬爾可夫模型的操作流程圖; 圖4是本發(fā)明一實施例中隱藏馬爾可夫模型中用來確定一詞匯成分的流程圖; 圖5是在確定本發(fā)明一實施例中隱藏馬爾可夫模型中的詞匯成分中松馳限制的流程圖;以及 圖6是在本發(fā)明一實施例中一模式詞典中誘導(dǎo)模式的流程圖。

具體實施例方式 在下述的一個實施例中,一隱藏馬爾可夫模型會用在命名實體識別(NER)中。采用限制松馳原理,在訓(xùn)練過程中會用到一模式誘導(dǎo)算法來誘導(dǎo)出有效的模式。然后通過回退定模算法來將所誘導(dǎo)出的模式用于該識別過程從而解決數(shù)據(jù)稀疏的問題。各個特征分級構(gòu)造以便于限制松馳處理。由此,命名實體識別中的數(shù)據(jù)稀疏問題就能得到有效地解決,同時能使命名實體識別系統(tǒng)具有更好的性能以及更好的移植性。
圖1是本發(fā)明一實施例的命名實體識別系統(tǒng)10的示意性塊圖。其中命名實體識別系統(tǒng)10包括一存儲器12,該存儲器用來接收并保存一文本14,該文本14通過一個進/出口16從一掃描儀、互聯(lián)網(wǎng)或者是其它某種網(wǎng)絡(luò)或其它某種外部裝置來輸入。該存儲器還能直接從一用戶接口18接收文本。該命名實體識別系統(tǒng)10采用一個其中包括有一隱藏馬爾可夫模型模塊22的命名實體處理器20從而在一詞典(lexicon)24、一特征組確定模塊26以及一模式字典(dictionary)28的幫助下來識別所接收文本中的命名實體。在本實施例中,上述這些部分均以總線的形式互聯(lián)。
在命名實體識別的過程中,所分析的文檔要輸入到一個命名實體(NE)處理器20中從而被處理并根據(jù)相關(guān)的分類標上標簽。該命名實體處理器20使用來自一詞典24的統(tǒng)計信息以及一個第n語法模型來給一隱藏馬爾可夫模型22提供參數(shù)。然后,該命名實體處理器20就用隱藏馬爾可夫模型22來識別并標記文本中不同類目的實例。
圖2是圖1中命名實體識別系統(tǒng)10一操作示例的流程圖。一包括有一個詞序列的文本被輸入并保存到存儲器中(步驟S42)。由一文本生成一特征組F(步驟S44),詞序列中每一個詞的特征,該特征組反過來再生成這些詞以及與這些詞相關(guān)的那些特征的一符標序列G(步驟S46)。將該符標序列G送到隱藏馬爾可夫模型(步驟48),其用Viterbi算法來輸出一個結(jié)果,該結(jié)果在形式上是一個最佳標簽序列T(步驟S50)。
本發(fā)明的上述實施例采用基于HMM的標簽方式來對一文本分塊處理進行定模,其中會涉及到將句子分成不交疊的多個區(qū)段,此時其為名詞短語。
用于特征組的特征的確定 符標序列G(G1n=g1g2....gn)是提供給隱藏馬爾可夫模型的判斷序列,其中任易一個gi均表示一個由一詞wi及其相關(guān)特征組figi=<fi,wi>所組成的順序組。該特征組通過對單詞和/或單詞串的簡單確定計算采集得到,其中要像查尋詞典或加到上下文一樣適當?shù)乜紤]上下文。
一單詞的特征組包括有多個特征,其被分為內(nèi)在特征和外部特征。內(nèi)在特征就在單詞和/或單詞串中從而捕捉內(nèi)在線索,而外部特征則由上下文導(dǎo)出從而捕捉外部線索。此外,所有的內(nèi)在特征和外部特征,包括這些單詞自身,均按層級劃分以便能處理任何的數(shù)據(jù)稀疏問題,同時其能由分級結(jié)構(gòu)中的任一結(jié)點(單詞/特征類)來表示。在本實施例中使用的是兩級或三級結(jié)構(gòu)。然而,該分級結(jié)構(gòu)可以任意的深度。
(A)內(nèi)在特征 本模型實施例捕捉三類內(nèi)在特征 i)f1單詞的簡單確定內(nèi)在特征; ii)f2重要觸發(fā)符的內(nèi)在語義特征;以及 iii)f3內(nèi)在索引特征。
i)f1是本模型開發(fā)出的基本特征,其被分成兩級如表1所示,低級中的小類被進一步集合成高級中的大類(如“Digitalisation”(數(shù)字)和“Capitalisation”(大寫))。
表1特征f1單詞的簡單確定內(nèi)在特征 該特征的基本原理是a)數(shù)字符號可被歸到不同的類目中;以及b)在羅馬以及其它字體語言中,大寫能夠很好地給出命名實體的線索。對于表意語言來說,如中文和日文,其中沒有大寫,因此表1中的f1可以刪除不存在的“FirstWord”、“AllCaps”、“InitialCaps”,其它的各“ContainCapPeriod”子類、“FirstWord”和“LowerCase”可歸入一個新的類“表意”,其包括所有標準的表彰字符/單詞,而“Other”則包括所有的符號和標點。
ii)f2被組成兩級如表2所示,低級中的小類進一步集合成高級中的大類。
表2特征f2重要觸發(fā)符的內(nèi)在語義特征 在下面隱藏馬爾可夫模型中的f2是基于這樣原理,即,重要的觸發(fā)符非常適用于命名實體識別,并且還能根據(jù)它們的語義進行分類。這一特征適既用于單個的詞又適用于多個詞。本組觸發(fā)符能夠從命名實體本身以及訓(xùn)練數(shù)據(jù)中的局部上下文半自動地收集得到。該特征適用于羅馬語以及表意語言。觸發(fā)符的作用是用作特征組g中的一個特征。
iii)f3被組成兩級。如表3所示,低級由命名實體的類型以及候選命名實體的長度來確定,而高級則僅由命名實體的類型來確定。
表3特征f3內(nèi)在索引特征 (G全局索引;以及n匹配的命名實體的長度) f3由各個查尋索引采集得到人、機構(gòu)、地點以及其它類命名實體的名稱列表。本特征確定一候選的命名實體是否以及如何出現(xiàn)在索引中的。本特征適用于羅馬語以及表意語言。
(B)外部特征 本模型實施例用來捕捉一類外部特征 iv)f4外部論述特征 iv)f4是本模型實施例中所捕捉的唯一一個外部線索特征。f4用來確定一候選的命名實體是否以及如何出現(xiàn)在已從文檔識別出的命名實體列表中的。
如表4所示,該f4被組成三級 1)低級由命名實體的類型、候選命名實體的長度、識別列表中匹配的命名實體的長度以及匹配類型來確定。
2)中級由命名實體的類型以及是否是完全匹配來確定。
3)高級則僅由命名實體的類型來確定。
表4特征f4外部論述特征(那些在詞典中沒有的特征) (L局部文檔;n所識別列表中匹配上的命名實體的長度;m候選命名實體的長度;Ident完全一致;以及Acro首字母縮寫詞) f4對下面的隱藏馬爾可夫模型來說是唯一的。該特征后面的原理是名字混淆(name aliases)的現(xiàn)象,與應(yīng)用有關(guān)的實體通過這種現(xiàn)象在一給定的文本中會以多種方式提及。正是因為該現(xiàn)象,命名實體識別任務(wù)成功的條件在于成功地確定一個名詞短語何時提及與另一個名詞短語相同的實體。在本實施例中,名稱混淆是按下面復(fù)雜性升序排列的方式解決的 1)最簡單的情況是識別出一字符串的完全表述。所有類型的命名實體都有可能出現(xiàn)這種情況。
2)下一種最簡單的情況是識別出各種形式的地名。正常情況下,使用的是各種首字母縮寫,如“NY”對應(yīng)于“New York”以及“N.Y.”對應(yīng)于“New York”。有時也會使用部分使用的方式,如“Washington”對應(yīng)于“Washington D.C.”。
3)第三種情況是識別出各種形式的人名。由此,在Microsoft(微軟)上的一篇文章可能會包括″Bill Gates″、″Bill″以及″Mr.Gates″。正常情況下,在一篇文檔中首先提到的是一個完整的人名,后面在提到同一個人時會用各種簡單的形式如首字母縮寫、其姓等來代替,有時也會用名或者是全稱。
4)最難的情況是識別出各種形式的機構(gòu)名稱。對于各種形式的公司名稱來說,要考慮a)“International Business Machines Corp.”、“International Business Machines”和“IBM”;b)“Atlantic RichfieldCompany”和“ARCO”兩種情況。正常情況下,會使用各種縮寫形式(如縮寫或首字母縮寫),同時/或省掉公司后綴或附綴。對于其它各種形式的機構(gòu)名稱來說,我們考慮a)“National University ofSingapore”、“National Univ.Of Singapore”和“NUS”;b)“Ministry ofEducation”、“MOE”這兩種情況。正常情況下,會出現(xiàn)某些長詞串的首字母縮寫和縮寫。
在解碼過程中,即在命名實體處理器進行處理的過程中,已從文檔中識別出來的命名實體保存在一個列表中。如果系統(tǒng)遇到了一個候選的命名實體(如首字母大寫的單詞或單詞序列),就調(diào)用上述名稱混淆算法從而動態(tài)地確定出候選的命名實體是否可能是已識別列表中前面識別出的一個名稱的別名,以及兩者之間的關(guān)系。該特征適用于羅馬語和表意語言。
例如,如果在解碼過程遇到了單詞″UN″,就將該單詞″UN″用作一個候選實體名稱,并且調(diào)用名稱混淆算法通過獲取一個已識別出的實體名稱的首字母來核對該單詞″UN″是否是一個已經(jīng)識別出的實體名稱的別名。如果″United Nations″是文檔中早先識別出的一個機構(gòu)的實體名稱,那么就用外部宏(external macro)上下文特征ORG2L2來確定該單詞″UN″就是″UnitedNations″的一個別名。
隱藏馬爾可夫模型(HMM) 隱藏馬爾可夫模型的輸入包括一個序列觀察符標序列G。隱藏馬爾可夫模型的目的是對一隱藏標簽序列T給定的觀察序列G進行解碼。因此,給定一個符標序列G1n=g1g2...gn,目標就是,用塊標簽,來找到一個隨機的最佳標簽序列T1n=t1t2...tn,其使下式最大化 符標序列G1n=g1g2...gn,是提供給隱藏馬爾可夫模型的觀察序列,其中g(shù)i=<fi,wi>,wi是最初第i個輸入的單詞,并且fi是確定出的與該單詞wi相關(guān)的一組特征。標簽用來括出并區(qū)別出各種塊。
公式(1)右手側(cè)第二個項(term),

是T1n和G1n之間的共有信息。為了簡化該項的計算,可將該共有信息的獨立性(即一個單獨的標簽僅依賴于符標序列G1n以及標簽序列T1n中其它標簽的獨立性)假定為 即, 將公式(3)用于公式(1),得到 由此, 由此,其目的就是使公式(4)最大化。
本模型的基本前提是解碼時遇到的是原文本,就像該文本已通過一噪聲通道,該文本在這里已被初臺標上了命名實體標簽。這樣生成的模型的目的是直接由噪聲通道輸出的單詞生成原始的命名實體標簽。即所生成的模型就像現(xiàn)有技術(shù)中某些隱藏馬爾可夫模型那樣反過來使用。傳統(tǒng)的隱藏馬爾可夫模型假定條件可能的獨立性。然而,公式(2)的假定條件要松于傳統(tǒng)的假定。這就使這里所用的模型能用更多的文本信息來確定當前符標的標簽。
圖3是本發(fā)明一實施例中一隱藏馬爾可夫模型的操作流程圖。在步驟S102中,用ngram定模來計算公式(4)右手側(cè)的第一個項。在步驟S104中,ngram定模,其中n=1,用來計算公式(4)右手側(cè)的第二個項。在步驟S106中,用模式誘導(dǎo)來訓(xùn)練一模型以便在公式(4)右手側(cè)第三個項的確定中使用。在步驟S108中,回退定模用來計算公式(4)右手側(cè)的第三個項。
在公式(4)中,右手側(cè)第一個項,logP(T1n)可通過應(yīng)用鏈規(guī)則計算出來。在ngram定模中,每一個標簽均假定有可能依賴于前面第N-1個標簽。
在公式(4)中,右手側(cè)第二個項,

是所有標簽對數(shù)可能性的和。該項可用一uni-gram模型來確定。
在公式(4)中,右手側(cè)第二個項,

對應(yīng)于標簽的“詞匯”組成(字典)。
假定采用上述隱藏馬爾可夫模型,對于NE塊標簽, 符標gi=<fi,wi>, 其中,w1n=w1w2...wn單詞序列,F(xiàn)1n=f1f2...fn是特征組序列,并且fi是與單詞wi相關(guān)的一組特征。
此外,NE塊標簽,ti是結(jié)構(gòu)化標簽,其包括三個部分 1)邊界種類B={0,1,2,3}。這里0表示當前的單詞wi是一個完整的實體,1/2/3表示當前的單詞,wi,分別處于一實體名稱的開始/中間/最后。
2)實體種類E。E用來表示實體名稱的類別。
3)特征組F。由于邊界種類和實體種類的數(shù)目有限,因此將特征組引到結(jié)構(gòu)化的命名實體塊標簽以表示更為精確的模型。
例如,在初臺輸入的文本“...Institute for Infocomm Research...”中,存在一個隱藏的標簽序列(其由命名實體處理器來解碼)″...1_ORG_*2_ORG_*2_ORG_*3_ORG_*(這里*表示特征組F)。這里,″Institute for InfocommResearch″是實體名稱(其像是由隱藏標簽序列構(gòu)成的那樣),″Institute″/″for″/″Infocomm″/″Research″分別處于實體名稱的開始/中間/中間/后端,其中實體名稱具有實體種類ORG。
邊界種類BC以及實體種類EC中序列標簽ti-1和ti之間有多個限制。這些限制如表5所示,其中“Valid”表示該標簽序列ti-1ti是有效的,“Invalid”表示該標簽序列ti-1ti是無效的,并且″Valid on″表示只要ECi-1=ECI(即ti-1的EC與ti的EC相同)該標簽序列ti-1ti就是有效的。
表5——簽ti-1和ti之間的限制 回退定模 在上述模型和富特征的情況下,有一個問題是如何在信息不足時計算出

即前面所述公式(4)右手側(cè)第三個項。理想情況下,對于每一種我們希望計算出條件可能性的情況最好都有足夠的訓(xùn)練數(shù)據(jù)。不幸地是,在解碼新的數(shù)據(jù)時,特別是在考慮到上述的復(fù)雜特征組時,通常很少有足夠的訓(xùn)練數(shù)據(jù)來計算出精確的可能性。因此,回退定模就作為一個識別程序用在這種情況下。
在給定G1n的情況下,標簽ti的可能性就是logP(G1n)。為了高效,我們假定P(ti/G1n)≈P(ti|Ei),其中模式入口Ei=gi-2gi-1gigi+1gi+2并且P(ti|Ei)用作與Ei相關(guān)的標簽ti的可能性。由此,模式入口Ei就是一限制長度的符標串,本實施例中就是五個連續(xù)的符標。由于每一個符標僅僅是一個單詞,因此這種假定僅考慮到一個有限尺寸窗口中的上下文,這里是五個單詞。如上所述,gi=<fi,wi>,其中wi是當前單詞本身,同時f=<fi1,fi2,fi3,fi4>就是上述的內(nèi)在和外部特征組,在本實施例中有四個特征。為了方便,用P(·|Ei)來表示與模型入口Ei相關(guān)的各個NE塊標簽的可能性分布。
計算P(·|Ei)就成了一個尋找最佳的頻繁出現(xiàn)的模式入口Ei0的問題,其可用來以P(·|Ei0)可靠地代替P(·|Ei)。為此,本實施例通過限制放松而采用一回退定模方法。這里,限制包括所有的f1,f2,f3,f4,以及Ei中的w(其下標省略)。面對大量的限制放松的方法,其挑戰(zhàn)就是如何避免處理難的情況從而保證高效性。本實施例中應(yīng)用三個限制來使松馳過程容易處理并能控制 (1)通過反復(fù)地上移限制的語義級別來進行限制松馳。如果到達根級語義,那么就將一限制從模式入口完全降下來。
(2)模式入口在松馳后應(yīng)具有一個有效的形式,其定義如下 ValidentryForm={fi-2fi-1fiwi,fi-1fiwifi+1,fiwifi+1fi+2,fi-1fiwi,fiwifi+1,fi-1wi-1fi,fifi+1wi+1,fi-2fi-1fi,fi-1fifi+1,fifi+1fi+2,fiwi,fi-1fi,fifi+1,fi}。
(3)模式入口中每一個fk在松馳之后均應(yīng)具有一個有效的形式,其定義如下ValidFeatureForm={<fk1,fk2,fk3,fk4>,<fk1,Θ,fk3,Θ}>,<fk1,Θ,Θ,fk4>,<fk1,fk2,Θ,Θ>,<fk1,Θ,Θ,Θ>},其中Θ意味著空(降下或者未獲得)。
這里嵌入的處理是通過反復(fù)放松初始模式入口Ei中的一個限制直至其接近最佳的頻繁出現(xiàn)的模式入口Ei0來解決計算P(ti/G1n)的問題。
下面參照圖4的流程圖來描述計算P(ti/G1n)的程序。該程序?qū)?yīng)于圖3中的步驟S108。圖4的程序以步驟S202開始,即為G1n中的所有wi是確定出特征組f=<fi1,fi2,fi3,fi4>。盡管本實施例的這一步驟出現(xiàn)在計算P(ti/G1n)的步驟中,即圖3的步驟S108中,但步驟S202也能出現(xiàn)在圖3中處理過程更早一起的位置,或者完全分開來。
在步驟S204,對當前的這個單詞wi,即正在被處理從而被識別并命名的這個單詞來說,假定一模式入口Ei=gi-2gi-1gigi+1gi+2,其中g(shù)i=<fi,wi>并且f=<fi1,fi2,fi3,fi4>。
在步驟S206,程序確定Ei是否是一個頻繁出現(xiàn)的模式入口。即確定Ei是否具有一個至少為N的出現(xiàn)頻率。例如N可以等于10,參照一FrequentEntryDictionary。如果Ei是一個頻率出現(xiàn)的模式入口(Y),那么在步驟S208程序就設(shè)定Ei0=Ei,并且在步驟S210算法返回P(ti/G1n)=P(ti/Ei0)。在步驟S212,“i”累加1,同時在步驟S214確定是否已到文本的未尾,即是否為i=n。如果已到達文本的未尾(Y),那么該算法就結(jié)束。否則,程序返回到步驟S204,并基于步驟S212中“i”的變化來假定一個新的初始模式入口。
如果在步驟S206,Ei不是一個頻繁出現(xiàn)的模式入口(N),那么在步驟S216就通過初始模式入口中一個Ei限制的放松來生成一組有效的模式入口C1(Ei)。步驟S218確定在限制松馳的該組模式入口中是否有頻繁出現(xiàn)的模式入口。在步驟S220,如果有一個這樣的入口,那么該入口就選為Ei0,并且如果有多個頻繁出現(xiàn)的模式入口,那么這些頻繁出現(xiàn)的模式入口中能使可能性結(jié)果最大的模式入口被選為Ei0。程序返回到步驟S210,其中該算法返回P(ti/G1n)=P(ti/Ei0)。
如果步驟S218確定C1(Ei)中沒有頻繁出現(xiàn)的模式入口,那么程序就返回到步驟S216,這里通過C1(Ei)每一個模式入口中一個限制的放松來生成另一組有效的模式入口C2(Ei)。程序繼續(xù)直至在限制松馳的一組模式入口中找到一頻繁出現(xiàn)的模式入口Ei0。
圖5詳細展示了P(ti/G1n)計算中的限制松馳算法,特別是涉及上述步驟S216、S218和S220的算法。
圖5的程序好象是從圖4中步驟S206開始的,其中Ei不是一個頻繁出現(xiàn)的模式入口。在步驟S302,程序在限制松馳CIN={<Ei,likelihood(Ei)>}之前初始化一模式入口組,并在COUT={}之后初始化一模式入口組(這里,likelihood(Ei)=0)。
在步驟S304,對于CIN中的第一個模式入口Ej來說,即<Ej,likelihood(Ei)>∈CIN,放松下一個限制Cjk(對于任一個入口來說,其是步驟S304第一次重復(fù)時的第一個限制)。模式入口Ej在限制松馳之后變?yōu)镋j’。開始,CIN中僅有一個這樣的入口Ej。然而,這會隨著后面的重復(fù)而變化。
在步驟S306,程序確定Ej’是否是ValidFeatureForm中一個有效的入口形式,其中ValidFeatureForm={fi-2fi-1fiwi,fi-1fiwifi+1,fiwifi+1fi+2,fi-1fiwi,fiwifi+1,fi-1wi-1fi,fifi+1wi+1,fi-2fi-1fi,fi-1fifi+1,fifi+1fi+2,fiwi,fi-1fi,fifi+1,fi}。如果Ej’不是一個有效的入口形式,那么程序就返回到步驟S304,并且放松下一個限制。如果Ej’是一個有效的入口形式,那么程序就前進到步驟S308。
在步驟S308,程序確定Ej’中的每一個特征是否為一個有效的特征組形式,其中ValidFeatureForm={<fk1,fk2,fk3,fk4>,<fk1,Θ,fk3,Θ}>,<fk1,Θ,Θ,fk4>,<fk1,fk2,Θ,Θ>,<fk1,Θ,Θ,Θ>}。如果Ej’不是一個有效的特征組形式,那么程序就返回到步驟S304,并且放松下一個限制。如果Ej’是一個有效的入口形式,那么程序就前進到步驟S310。
在步驟S310,程序確定Ej’是否存在于一個字典中。如果Ej’存在于字典中(Y),就在步驟S312按下式計算出Ej’的可能性。

如果Ej’不存在于字典中(N),那么在步驟S314,Ej’的可能性就被設(shè)定為likelihood(Ej’)=0。
一旦在步驟S312或S314中設(shè)定了Ej’的可能性,那么程序前進到步驟S316,其中模式入口組在限制松馳COUT之后被改變,COUT=COUT+{<Ej’,likelihood(Ej’)>}。
步驟S318確定最近的Ej是否為CIN中最后一個模式入口Ej。如果不是,那么步驟S320中j累加1,即“j=j(luò)+1”,并且程序返回到步驟304以便限制松馳CIN中下一個模式入口Ej。
如果在步驟S318確定Ej是CIN中最后一個模式入口Ej,這就表明是一個有效的模式入口組[即上述的C1(Ei),C2(Ei)或者是另一個限制松馳后的組]。在步驟S322 Ei0根據(jù)下式從有效的模式入口組中選取 在步驟S324確定是否likelihood(Ei0)==0。如果在步驟S324確定為正(即,likelihood(Ei0)==0),那么在步驟S326就設(shè)定限制松馳之前的模式入口組以及限制松馳之后的模式入口組,由此CIN=COUT并且COUT={}。然后程序回到步驟S304,這里算法開始通過模式入口Ej’,好象它們就是Ej’,在重新設(shè)定的CIN中,開始于第一個模式入口。如果步驟S324確定為負,那么該算法離開圖5的程序并返回到圖4中的步驟S210,這里算法返回P(ti/G1n)=P(ti/Ei0)。
在步驟S312是通過模式入口中特征f2、f3、f4的數(shù)目來確定模式入口的可能性。其原理來自于下面的事實,即重要觸發(fā)符(f2)、內(nèi)在索引特征(f3)以及外部論述特征(f4)在確定命名實體中比數(shù)字及大寫的內(nèi)在特征(f1)以及單詞自身(w)具有更多的信息。如果一模式入口頻繁出現(xiàn),那么步驟S312中將數(shù)字0.1加到模式入口的可能性計算中從而確保該可能性大于零。這個數(shù)值可變。
例如存在如下的句子 “Mrs.Washington said there were 20 students in her class”。
在本示例中為了簡單起見,該模式入口的窗口尺寸僅為三(而不是上述的五),同時根據(jù)它們的可能性僅保留頂上的三個模式入口。假定當前的單詞是“Washington”,初始模式入口為E2=g1g2g3,其中 g1=<f11=CapOtherPeriod,f12=PrefixPersonl,f13=Θ,f14=Θ,w1=Mrs.> g2=<f21=InitialCap,f22=Θ,f23=PER2L1,f24=LOC1G1,w2=Washington> g3=<f31=LowerCase,f32=Θ,f33=Θ,f34=Θ,W3=said> 首先,算法查尋FrequentEntryDictionary中的入口E2。如果找到了這個入口,那么入口E2就是頻繁出現(xiàn)在訓(xùn)練材料中,并且該入口作為頻繁出現(xiàn)的最佳模式入口返回。然而,如果在中沒有找到E2,那么通用化程序就開始放松限制,其每次重復(fù)均下降一個限制。對于入口E2來說,有九個可能的通用化入口,因為其中有九個非空的限制。然而,根據(jù)ValidFeatureForm,其中只有六個是有效的。然后計算出這六個有效入口的可能性,并保留頂上的三個通用化入口可能性為0.34的E2-w1,可能性為0.34的E2-w2以及可能性為0.34的E2-w3。然后核對這三個通用化入口從而確定它們是否存在于FrequentEntryDictionary。然而,假定沒有找到這三個入口,那么對這三個通用化入口中的每一個入口均繼續(xù)上述通用化程序。在五個通用化程序之后,有一個具有頂級可能性0.5的通用化入口E2-w1-w2-w3f13-f24。如果在FrequentEntryDictionary中找到了這個入口,那么通用化入口E2-w1-w2-w3f13-f24就作為頻繁出現(xiàn)的最佳模式入口返回,其具有各種NE塊標簽的可能性分布。
模式誘導(dǎo) 本實施例誘導(dǎo)一大小合適的模式字典,其中如果不是每一個那么就是大多數(shù)模式入口均以各個NE塊標簽的相應(yīng)可能性分布頻繁出現(xiàn),以便與上述的回退定模方法一起使用。字典的入口優(yōu)選足夠通用以便覆蓋前面未看到或者很少看到的情況,但其同時又限制地足夠嚴從而避免過分通用。本模式誘導(dǎo)用來訓(xùn)練回退模型。
由訓(xùn)練材料很容易就能生成初始的模式字典。然而,大多數(shù)入口也有可能并不頻繁出現(xiàn),因此不能用來可靠地評估各個NE塊標簽的可能性分布。該實施例逐級放松這些初始入口上的限制,從而拓寬它們的覆蓋范圍,同時合并類似的入口從而形成一個更為緊湊的模式字典。最終模式字典中的入口均在一給定的相似限度內(nèi)通用化。
該系統(tǒng)通過定位并比較那些類似的入口能夠找到有用的通用化初始入口。這一點是通過反復(fù)通用化模式字典中出現(xiàn)頻率最少的入口來實現(xiàn)的。在面對大量的對限制進行放松的方式時,對一個給定入口可能有一個指數(shù)級的大量通用化方法。其中的挑戰(zhàn)是如何產(chǎn)生一個接近最佳的模式字典,同時避免其難處理的問題并保持其入口的富裕表現(xiàn)性。所用方式類似于回退定模中所用的方式。在本實施例中需用三個限制來保持通用化程序易于處理并能管理 (1)通過反復(fù)地上移一限制的語義級別來完成通用化。如果到達根級語義,那么就將一限制從模式入口完全降下來。
(2)入口在通用后應(yīng)具有一個有效的形式,其定義如下 ValidentryForm={fi-2fi-1fiwi,fi-1fiwifi+1,fiwifi+1fi+2,fi-1fiwi,fiwifi+1,fi-1wi-1fi,fifi+1wi+1,fi-2fi-1fi,fi-1fifi+1,fifi+1fi+2,fiwi,fi-1fi,fifi+1,fi}。
(3)入口中每一個fk在通用化之后均應(yīng)具有一個有效的形式,其定義如下ValidFeatureForm={<fk1,fk2,fk3,fk4>,<fk1,Θ,fk3,Θ}>,<fk1,Θ,Θ,fk4>,<fk1,fk2,Θ,Θ>,<fk1,Θ,Θ,Θ>},其中Θ意味著一個降下或者不可獲得的特征。
模式誘導(dǎo)算法將限制松馳表面難于處理的問題降低成查找最佳的一組類似入口的簡單問題。該模式誘導(dǎo)算法自動地確定并準確地放松該限制,使出現(xiàn)頻率最少的入口與一組類似的入口統(tǒng)一起來。放松該限制從而將一入口與一組類似入口統(tǒng)一的作用是保留與一組入口共享的信息,并降低其差異性。該算法在模式字典中每一個入口的頻率均大于某閾值(如10)時終止。
下面參照圖6的流程圖來描述用于模式誘導(dǎo)的程序。
圖6的程序以步驟S402開始,接著初始化模式字典。盡管本步驟按圖所示緊挨著模式誘導(dǎo)在其之前出現(xiàn),但其也能分開單獨進行。
在步驟S404中查找字典中頻率出現(xiàn)最少的入口E,其頻率小于預(yù)定值如<10。在步驟S406,將當前入口E中的限制Ei(在任何入口第一次重復(fù)步驟S406中均為第一限制)放松一步,由此E’就變?yōu)樗岢龅哪J饺肟?。步驟S408確定所提出的限制松馳的模式入口E’是否按ValidEntryForm采用了一個有效的入口形式。如果所提出的限制松馳的模式入口E’未采用有效的入口形式,那么算法就返回到步驟S406,這里該限制Ei再放松一步。如果所提出的限制松馳的模式入口E’采用的是一個有效的入口形式,那么該算法就前進到步驟S410。步驟S410確定松馳的限制Ei是否按ValidFeatureForm采用了一個有效的特征形式。如果松馳后的限制Ei不是有效的,那么該算法就返回到步驟S406,這里同樣的限制Ei再放松一步。如果松馳后的限制Ei是有效的,那么該算法就前進到步驟S412。
步驟S412確定當前的限制是否是當前入口E中最后一個限制。如果當前的限制不是當前入口E中最后一個限制,程序就過到步驟S414,這里當前級數(shù)“i”累加1,即“i=i+1”。在此之后,程序返回到步驟S406,這里一個新的當前限制被放松到第一級。
如果步驟S412確定當前的限制是當前入口E中最后一個限制,就有完整的一組松馳入口C(Ei),其可通過Ei的松馳來與E統(tǒng)一起來。程序前進到步驟S416,這里對C(Ei)中的每一個入口E’來說,該算法采用它們NE塊標簽的可能性分布來計算Similarity(E,E’),其為E和E’之間的相似性 在步驟S418中,E和C(Ei)之間的相似性是按照E和C(Ei)中任易E’之間的最小的相似性來設(shè)定的 在步驟S420中,程序也確定E中任何可能的限制Ei的能使E和C(Ei)之間相似性最大的限制E0在步驟S422中,程序在字典中生成一個新的入口U,其帶有一個剛被放松的限制E0,從而統(tǒng)一入口E和C(E0)中每一個入口,并計算出入口U的NE塊標簽可能性分布。在步驟S424將入口E和C(E0)中的每一個入口刪除。
在步驟S426,程序確定字典中是否有一入口的頻率小于閾值,在本實施例中為小于10。如果沒有這樣的入口,那么程序就結(jié)束。如果字典中有一個其頻率小于閾值的入口,那么程序就返回到步驟S404,這里再次為下一個不頻繁的入口啟動通用化程序。
與現(xiàn)有的系統(tǒng)相比,每一個內(nèi)在特征和外部特征,包括重要觸發(fā)符的內(nèi)在語義特征和外部論述特征以及單詞本身,均被分級構(gòu)成。
上述實施例有效地集合了機器學(xué)習(xí)系統(tǒng)中的各個內(nèi)在特征和外部特征。所述實施例在處理一富特征空間中的數(shù)據(jù)稀疏問題時還通過限制松馳提供一模式誘導(dǎo)算法以及一有效地回退定模方法。
本實施例給出了一個隱藏馬爾可夫模型、一機器學(xué)習(xí)方法,同時還提出一種基于該隱藏馬爾可夫模型的命名實體識別系統(tǒng)。通過該隱藏馬爾可夫模型,以一種通過限制松馳來處理數(shù)據(jù)稀疏問題的模式誘導(dǎo)算法和一種有效地回退定模方法,本系統(tǒng)能夠有效地應(yīng)用并集合各種內(nèi)在和外部特征。除了單詞自身之外,還要開發(fā)四類線索1)單詞所具有的簡單的確定性的內(nèi)在特征,如大寫和數(shù)字;2)重要觸發(fā)符單詞的唯一的以及有效地內(nèi)在語義特征;3)內(nèi)在索引特征,其確定當前的單詞串是否以及是如何出現(xiàn)在所提供的索引列表中的;以及4)獨特并有效的外部論述特征,其用來處理使命名混淆現(xiàn)象。此外,每一個內(nèi)在以及外部特征,包括這些單詞自身,分級組合從而處理數(shù)據(jù)稀疏問題。由此,命名實體識別問題就得到了有效地解決。
在上述說明中,圖1系統(tǒng)的各個部件描述為模塊。一個模塊,特別是其功能,可以硬件或軟件的方式來實現(xiàn)。在以軟件實現(xiàn)時,一模塊可以是一處理過程、程序、或者是其部分,其通常用來實現(xiàn)特定的功能或相關(guān)的功能。在以硬件來實現(xiàn)時,一模塊可以是一功能硬件單元,其在設(shè)計上與其它部件或模塊一起使用。例如,一模塊可以用具體的電子元件來實現(xiàn),或者是形成一個完整電路如特定用途集成電路(ASIC)的一個部分。當然還存在其它多種可能。本領(lǐng)域技術(shù)人員都清楚本系統(tǒng)還可用作硬件模塊和軟件模塊的組合。
權(quán)利要求
1、一種對文本進行命名實體識別中使用的回退定模方法,其包含,對于一個來自文本的初始模式入口
放松對初始模式入口的一個或多個限制;
確定模式入口在限制放松之后是否具有一個有效的形式;以及
如果模式入口在限制放松之后被確定為不具有有效的形式,那么就使該限制的語義層級反復(fù)上移。
2、如權(quán)利要求1的方法,其中如果模式入口在限制放松之后被確定為不具有有效的形式那么就使該限制的語義層級反復(fù)上移的操作包含
上移該限制的語義層級;
進一步放松該限制;以及
返回從而確定模式入口在限制放松之后是否具有一個有效的形式。
3、如權(quán)利要求1或2的方法,其進一步包含
確定模式入口中的一個限制在松馳之后是否還具有一有效形式;以及
如果模式入口中的該限制在限制放松之后被確定為不具有有效的形式那么就使該限制的語義層級反復(fù)上移。
4、如權(quán)利要求3的方法,其中如果模式入口中的該限制在限制放松之后被確定為不具有有效的形式那么就使該限制的語義層級反復(fù)上移的操作包含
上移該限制的語義層級;
進一步放松該限制;以及
返回從而確定模式入口中的一個限制在限制放松之后是否具有一個有效的形式。
5、如前述任一權(quán)利要求的方法,其中如果一限制被放松,那么如果該放松達到語義層級的根級就將該限制從模式入口完全降下來。
6、如前述任一權(quán)利要求的方法,其進一步包含如果達到一個接近最佳出現(xiàn)頻率的模式入口,就終止從而代替初始模式入口。
7、如前述任一權(quán)利要求的方法,其進一步包含如果不是一字典中頻繁出現(xiàn)的模式入口那么就為回退定模選擇初始模式入口。
8、一種在一模式詞典中誘導(dǎo)模式的方法,其中的模式詞典中包含有多個帶有其出現(xiàn)頻率的初始模式入口,該方法包含
確定出該詞典中具有較低出現(xiàn)頻率的一個或多個初始模式入口;以及
放松所確定出的一個或多個初始模式入口中每一個入口的一個或多個限制從而拓寬所確定出的一個或多個初始模式入口的含蓋范圍。
9、如權(quán)利要求8的方法,其進一步包含由一訓(xùn)練材料生成初始模式入口的模式詞典。
10、如權(quán)利要求8或9的方法,其進一步包含將限制放松后的各個初始模式入口與詞典中類似的模式入口合并從而形成一個更為緊湊的模式詞典。
11、如權(quán)利要求9或10的方法,其中該緊湊模式詞典中的入口盡可能在一給定的相似性閾值范圍內(nèi)通用化。
12、如權(quán)利要求8至11之一的方法,其進一步包含
確定模式入口在限制放松之后是否具有一有效的形式;以及
如果模式入口在限制放松之后被確定為不具有有效的形式那么就使該限制的語義層級反復(fù)上移。
13、如權(quán)利要求12的方法,其中如果模式入口在限制放松之后被確定為不具有有效的形式那么就使該限制的語義層級反復(fù)上移的操作包含
上移該限制的語義層級;
進一步放松該限制;以及
返回從而確定該模式入口在限制放松之后是否具有一個有效的形式。
14、如權(quán)利要求12或13的方法,其進一步包含
確定模式入口中的一個限制在松馳之后是否還具有一有效形式;以及
如果模式入口中的該限制在限制放松之后被確定為不具有有效的形式那么就使該限制的語義層級反復(fù)上移。
15、如權(quán)利要求14的方法,其中如果模式入口中的該限制在限制放松之后被確定為不具有有效的形式那么就使該限制的語義層級反復(fù)上移的操作包含
上移該限制的語義層級;
進一步放松該限制;以及
返回從而確定模式入口中的一個限制在限制放松之后是否具有一個有效的形式。
16、一種在一富特征空間中的解碼過程,其包含權(quán)利要求1-7之一的方法。
17、一種在一富特征空間中的訓(xùn)練過程,其包含權(quán)利要求8-15之一的方法。
18、一種識別并分類一文本中命名實體的系統(tǒng),其包含
特征提取裝置,其用來從該文檔中提取各個特征;
識別內(nèi)核裝置,其用一隱藏馬爾可夫模式來對命名實體進行識別并分類;以及
回退定模裝置,其通過限制松馳來回退定模從而處理一富特征空間中的數(shù)據(jù)稀疏。
19、如權(quán)利要求18的系統(tǒng),其中回退定模裝置在操作上用來提供一種如權(quán)利要求1-7之一的回退定模方法。
20、如權(quán)利要求18或19的系統(tǒng),其進一步包含一模式誘導(dǎo)裝置以便誘導(dǎo)頻繁出現(xiàn)的模式。
21、如權(quán)利要求20的系統(tǒng),其中的模式誘導(dǎo)裝置在操作上提供一種如權(quán)利要求8至15之一的誘導(dǎo)模式的方法。
22、如權(quán)利要求18至21之一的系統(tǒng),其中所述各個特征從文本以及文本論述中的單詞提取出來,并且其包含下面的一個或多個特征
a.單詞的確定性特征,這包含大寫或數(shù)字;
b.觸發(fā)單詞的語義特征;
c.索引特征,其用來確定當前單詞串是否以及如何出現(xiàn)在一索引列表中的;
d.論述特征,其用來處理命名混淆的現(xiàn)象;以及
e.單詞自身。
23、一特征組,在命名識別過程中,其用在一隱藏馬爾可夫模式中的回退定模中,其中的特征組在層級布置上應(yīng)允許數(shù)據(jù)稀疏。
全文摘要
一種一隱藏馬爾可夫模型用于命名實體識別NER中。采用限制松弛原理,在訓(xùn)練過程中會有一模式誘導(dǎo)算法以便誘導(dǎo)出有效的模式。然后,用一回退定模算法將誘導(dǎo)出的模式用于識別處理中從而解決數(shù)據(jù)稀疏問題。各個特征分級構(gòu)造從而有助于限制松弛處理。由此,命名實體識別中的數(shù)據(jù)稀疏問題就能得到有效地解決,并且所獲得的命名實體識別系統(tǒng)具有更好的性能以及更佳的移值性。
文檔編號G06F17/27GK1910573SQ20038011105
公開日2007年2月7日 申請日期2003年12月31日 優(yōu)先權(quán)日2003年12月31日
發(fā)明者周國棟, 蘇儉 申請人:新加坡科技研究局
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
沛县| 英吉沙县| 藁城市| 怀仁县| 鞍山市| 丽江市| 包头市| 威宁| 民丰县| 濮阳市| 武清区| 金阳县| 神农架林区| 前郭尔| 壤塘县| 孙吴县| 墨竹工卡县| 镇平县| 庐江县| 焉耆| 五峰| 房产| 威海市| 呼伦贝尔市| 乐至县| 溧水县| 郎溪县| 黑山县| 巴东县| 丰顺县| 六盘水市| 中卫市| 棋牌| 三穗县| 中超| 余江县| 广州市| 河东区| 沙田区| 湄潭县| 清丰县|