一種基于本體的中文人名消歧方法
【專利摘要】本發(fā)明提供了一種基于本體的中文人名消歧方法,包括以下步驟:定義人物屬性,定義出人物本體中涉及的概念、屬性和關(guān)系;構(gòu)建人物本體,根據(jù)人物的屬性信息,定義一個底層、詳細的應(yīng)用本體,將人物本體定義為一個四元組PO={C,P,R,I},其中,C代表概念或類的集合,P代表數(shù)據(jù)屬性或?qū)ο髮傩缘募?,R代表概念之間、概念與概念的實例之間、概念與屬性之間的關(guān)系集合,I代表實例集合,R代表四類核心關(guān)系:種類關(guān)系、部分關(guān)系、實例關(guān)系和屬性關(guān)系,基于本發(fā)明的一種基于本體的中文人名消歧方法,可以有效解決中文人名的實體鏈接問題,較好的解決了人名誤匹的問題,提高了識別效果。
【專利說明】一種基于本體的中文人名消歧方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理領(lǐng)域,具體地是通過構(gòu)建人物本體將中文人名和其擁有的屬性信息建立聯(lián)系,實現(xiàn)人名與真實實體之間的鏈接,以消解人名關(guān)鍵詞的歧義的技術(shù)。
【背景技術(shù)】
[0002]人名消歧逐漸成為搜索資源的熱點,人名歧義給人名查詢、人物關(guān)系挖掘、敏感人物的信息過濾等應(yīng)用上帶來了眾多不利的影響,當進行檢索時,搜索引擎會返回大量包含該人名的網(wǎng)頁,而且這些網(wǎng)頁可能描述多個實體,同時人名有很高的歧義性,多人同名或者非人名。因此,近年來國內(nèi)外開始逐步關(guān)注于人名消歧任務(wù)的研究。目前現(xiàn)有的方法大都是利用文檔中的特征信息對出現(xiàn)人名的文檔進行聚類,即將指向同一個人的文檔集聚成一個個單獨的類。然而,如何確定文檔中出現(xiàn)的歧義人名所指向的現(xiàn)實生活當中的特定的人,仍然是一個亟待解決的問題。
[0003]本發(fā)明是基于斯坦福大學(xué)開發(fā)SUMO (Suggested Upper Merged Ontology)的本體構(gòu)建“七步法”,以及人物的各種屬性名稱(如國籍、職業(yè)等),來對人物本體中的概念及其層次結(jié)構(gòu)等方面進行定義,創(chuàng)建一個人體實例的知識庫,主要針對人名詞條在百度百科中的百科名片半結(jié)構(gòu)(例如:姚明這樣的名人)和人物簡介非結(jié)構(gòu)(例如:王偉這樣的普通人)這兩類信息,分別研究出基于HTML結(jié)構(gòu)特征、基于自然語言理解和規(guī)則相結(jié)合這兩類方式來對人物屬性信息進行抽取,再利用Jena對抽取的信息本體實例化,建立一個樹結(jié)構(gòu),從人物本體的概念層級和屬性值層級上來研究人物本體實例之間的相似性,再結(jié)合人物實例的總體相似度衡量。
[0004]有鑒于此,發(fā)明人提供了一種基于本體的中文人名消歧方法。
【發(fā)明內(nèi)容】
[0005]針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種基于本體的中文人名消歧方法,克服了現(xiàn)有技術(shù)的困難,根據(jù)網(wǎng)絡(luò)信息先構(gòu)建人物本體,當有人物信息時,提取其信息模塊,創(chuàng)建人物實例,并與本體里的信息進行匹配,名字與目標實體列表中的相應(yīng)實體的定義進行鏈接。例如,“姚明周圍的文本,如“《前門情思大碗茶》”、“劉曉慶”等與當前人名有關(guān)的信息”,可以確定其是作曲家姚明,而不是鎖定在籃球運動員姚明。
[0006]根據(jù)本發(fā)明的一個方面,提供一種基于本體的中文人名消歧方法,包括以下步驟:
[0007]定義人物屬性,定義出人物本體中涉及的概念、屬性和關(guān)系;
[0008]定義人物本體的概念及其結(jié)構(gòu),創(chuàng)建實體這個頂層類,再在其下層添加抽象和物質(zhì)兩大子類;
[0009]定義人物本體的屬性,屬性包括兩個部分:數(shù)據(jù)屬性和對象屬性;
[0010]抽取人物屬性;
[0011 ] 人名實例化,將人物本體中所有的概念創(chuàng)建相應(yīng)的實例,主要是對本體中的概念所關(guān)聯(lián)的屬性進行賦值;
[0012]人物本體實例樹匹配,通過在本體的概念層級上度量人物實例間的相似度以及在本體的屬性值層級上度量人物實例間的相似度來衡量人物實例間的總體相似度;
[0013]相似度排序;以及
[0014]鏈接人名到最相似的人物實例。
[0015]優(yōu)選地,所述人物屬性為人物所具有的特征集合,包含人物名稱屬性、人物基本屬性、人物介紹性屬性、人物社會。
[0016]優(yōu)選地,物質(zhì)類下層定義人物這個概念實體,代表人物自身;
[0017]抽象類下層繼續(xù)構(gòu)建屬性類,并在其下層,即中間層級上,繼續(xù)添加人物名稱、基本屬性、介紹性信息、聯(lián)系方式、值類、個人關(guān)系這六大概念類,將人物本體組織成一個具有上下位關(guān)系的樹狀結(jié)構(gòu)。
[0018]優(yōu)選地,所述抽取人物屬性包括半結(jié)構(gòu)文本的屬性抽取,從網(wǎng)頁中的所有百科名片中抽取出人物的基本信息,并轉(zhuǎn)換為一種自定義的有結(jié)構(gòu)的可擴展標記語言頁面,主要將超文本標記語言結(jié)構(gòu)的方式和半結(jié)構(gòu)化文本抽取方式結(jié)合,搜集由人名對應(yīng)的百科頁面,對源碼解析,確定所抽取的信息塊,分析信息塊的特征及超文本標記語言特征標簽,歸納總結(jié)信息項的抽取規(guī)則,用于后續(xù)的大批量的百科頁面的信息抽取。
[0019]優(yōu)選地,所述抽取人物屬性包括非結(jié)構(gòu)文本的屬性抽取,通過非結(jié)構(gòu)的人物簡介來描述人物的相關(guān)信息。
[0020]優(yōu)選地,從三個方面來定義每個屬性的抽取規(guī)則:屬性信息的前后觸發(fā)詞、屬性信息的自身特征以及屬性信息的左右邊界。
[0021]優(yōu)選地,在本體的概念層級上度量人物實例間的相似度的計算公式如下:
[0022]
【權(quán)利要求】
1.一種基于本體的中文人名消歧方法,其特征在于,包括以下步驟: 定義人物屬性,定義出人物本體中涉及的概念、屬性和關(guān)系; 定義人物本體的概念及其結(jié)構(gòu),創(chuàng)建實體這個頂層類,再在其下層添加抽象和物質(zhì)兩大子類; 定義人物本體的屬性,屬性包括兩個部分:數(shù)據(jù)屬性和對象屬性; 抽取人物屬性; 人名實例化,將人物本體中所有的概念創(chuàng)建相應(yīng)的實例,主要是對本體中的概念所關(guān)聯(lián)的屬性進行賦值; 人物本體實例樹匹配,通過在本體的概念層級上度量人物實例間的相似度以及在本體的屬性值層級上度量人物實例間的相似度來衡量人物實例間的總體相似度; 相似度排序;以及 鏈接人名到最相似的人物實例。
2.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述人物屬性為人物所具有的特征集合,包含人物名稱屬性、人物基本屬性、人物介紹性屬性、人物社
O
3.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述物質(zhì)類下層定義人物這個概念實體,代表人物自身; 抽象類下層繼續(xù)構(gòu)建屬性類,并在其下層,即中間層級上,繼續(xù)添加人物名稱、基本屬性、介紹性信息、聯(lián)系方式、值類、個人關(guān)系這六大概念類,將人物本體組織成一個具有上下位關(guān)系的樹狀結(jié)構(gòu)。
4.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述抽取人物屬性包括半結(jié)構(gòu)文本的屬性抽取,從網(wǎng)頁中的所有百科名片中抽取出人物的基本信息,并轉(zhuǎn)換為一種自定義的有結(jié)構(gòu)的可擴展標記語言頁面,主要將超文本標記語言結(jié)構(gòu)的方式和半結(jié)構(gòu)化文本抽取方式結(jié)合,搜集由人名對應(yīng)的百科頁面,對源碼解析,確定所抽取的信息塊,分析信息塊的特征及超文本標記語言特征標簽,歸納總結(jié)信息項的抽取規(guī)則,用于后續(xù)的大批量的百科頁面的信息抽取。
5.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述抽取人物屬性包括非結(jié)構(gòu)文本的屬性抽取,通過非結(jié)構(gòu)的人物簡介來描述人物的相關(guān)信息。
6.如權(quán)利要求5所述的一種基于本體的中文人名消歧方法,其特征在于:從三個方面來定義每個屬性的抽取規(guī)則:屬性信息的前后觸發(fā)詞、屬性信息的自身特征以及屬性信息的左右邊界。
7.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:在所述本體的概念層級上度量人物實例間的相似度的計算公式如下:
I[ 分別表示Cl, C2集合中的任意概念節(jié)點;sim (cj_,(4)表示概念節(jié)點對之間的相似性Aimc^P1, P2)表示兩個人物實例Pl和P2在本體的概念層級上的相似性。
8.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:在所述本體的屬性值層級上度量人物實例間的相似度的計算公式如下:
ξ, g分別表示I1, I2集合中的任意屬性值節(jié)點;ν?ρ, vlq分別巧,g這兩個任意屬性值節(jié)點中的某個值;wv為賦予給某個屬性值的權(quán)重;SVlp,SV2q分別表示屬性值Vlp和V2q中包含的詞的集合。
9.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述衡量人物實例間的總體相似度包括設(shè)P1與P2之間的一個匹配對為M = (P1, P2),最終兩個人物實例之間的總體相似度的計算公式如下:
Simp (P1, P2) = ffc*Simc (P1, P2) + (1-Wc) ^Simi (P1, P2) 若兩樹之間的相似度超過一個預(yù)設(shè)的閾值,則判定這兩個樹是相似的。
【文檔編號】G06F17/30GK104182420SQ201310202444
【公開日】2014年12月3日 申請日期:2013年5月27日 優(yōu)先權(quán)日:2013年5月27日
【發(fā)明者】呂釗, 羅年潔 申請人:華東師范大學(xué)