一種本體中概念雙向語義相似度度量方法
【專利摘要】本發(fā)明公開了一種本體中概念雙向語義相似度度量方法,該方法包括以下步驟:對樹狀知識結(jié)構(gòu)進行改進,將樹狀結(jié)構(gòu)中的每條邊分解為兩條方向相反的有向邊;分別為每條有向邊賦權(quán)值,每條邊的權(quán)值根據(jù)情況而定,每一種關(guān)系的權(quán)值相同或不同,如果兩種關(guān)系的權(quán)值相同,那么求解的語義相似度就是對稱的,具體權(quán)值的計算可采用已有的計算方法;求解兩概念間雙向語義相似度,設(shè)第一概念到第二概念間的語義相似度為正向語義相似度,則從第二概念到第一概念的語義相似度為反向語義相似度。本發(fā)明使得語義相似度的計算更為細化,也使得計算機在理解人類的自然語言時更為精準。
【專利說明】
一種本體中概念雙向語義相似度度量方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,涉及一種本體中概念雙向語義相似度度量方法。
【背景技術(shù)】
[0002]信息技術(shù)正在向智能化方向發(fā)展,智能搜索、自動問答等應(yīng)用需要計算機有著良好的語義理解能力,而理解能力離不開語義相似度技術(shù)的支撐,語義相似度是比較語義之間的相似程度,也可以理解為成分學(xué)上的接近程度,而語義指的是數(shù)據(jù)所反映的信息和它具體所代表客觀事物的含義。本體中概念間的語義相似度是計算機理解自然語言的基礎(chǔ)。計算機在對文本進行理解時,首先將文本等進行分詞、去掉停用詞得到詞語向量,再根據(jù)詞語在本體中找到對應(yīng)的概念,然后分別計算概念間的語義相似度來理解文本的語義。
[0003]目前,幾乎所有求解概念間語義相似度的方法是對稱的,即概念A(yù)和概念B的相似度值與概念B與概念A(yù)的相似度值是相同的。不區(qū)別它們的先后關(guān)系。然而,在日常生活中,兩個概念的相似度值并不是對稱的,如:概念“荔枝”與概念“水果”相似度值要比概念“水果”與概念“荔枝”的相似度值大,這是因為“荔枝”是一種“水果”,但是“水果”并不一定是“荔枝”。由此可見,如果把詞語的語義相似度看成對稱的、相同的,勢必會影響計算機對自然語言的理解能力。
【發(fā)明內(nèi)容】
[0004]為了克服現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明提供一種本體中概念雙向語義相似度度量方法,雙向語義相似度的提出比目前的語義相似度更為細化,是將概念間的關(guān)系分解為兩個關(guān)系,即關(guān)系和它的逆關(guān)系,在語義相似度計算過程中,這兩個關(guān)系具有不同的權(quán)值。在本發(fā)明的具體實施例中,還給出了一種基于信息熵的求解本體中概念間雙向語義相似度的方法。
[0005]其技術(shù)方案如下:
[0006]一種本體中概念雙向語義相似度度量方法,包括以下步驟:
[0007]步驟I:對樹狀知識結(jié)構(gòu)進行改進,將樹狀結(jié)構(gòu)中的每條邊分解為兩條方向相反的有向邊;
[0008]步驟2:分別為每條有向邊的賦權(quán)值,每條邊的權(quán)值根據(jù)情況而定,每一種關(guān)系的權(quán)值相同或不同,如果兩種關(guān)系的權(quán)值都相同,那么求解的語義相似度就是對稱的,權(quán)值的計算可采用已有的計算方法;
[0009]步驟3:求解兩概念間雙向語義相似度,設(shè)第一概念到第二概念間的語義相似度為正向語義相似度,則從第二概念到第一概念的語義相似度為反向語義相似度。
[0010]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
[0011](I)第一次提出了雙向語義相似度的概念。該概念的提出可以使語義相似度的度量更為精確,有利于提高自然語言理解等相關(guān)技術(shù)的性能。
[0012](2)該雙向語義相似度的度量方法基于本體結(jié)構(gòu),與語言類型無關(guān),即不只是適合中文詞語的度量,還適用于英文、法文等其它語言的概念間雙向語義相似度的度量。
[0013](3)該方法不僅適用于樹狀的結(jié)構(gòu)化知識庫,還適用于圖狀的結(jié)構(gòu)化知識庫,因此,不僅可以適用于度量雙向語義相似度,還可以用于雙向語義相關(guān)度的度量,即,不只是考慮上下位關(guān)系,還考慮其它關(guān)系。
[0014](4)在實施方法中提出了一種基于信息熵的求解本體中概念間雙向語義相似度的方法。
[0015](5)在該發(fā)明方法的基礎(chǔ)上,還可以求解詞語間的雙向語義相似度以及雙向語義相關(guān)度。
【附圖說明】
[0016]圖1是本體樹狀結(jié)構(gòu)圖;
[0017]圖2是關(guān)系分解后本體結(jié)構(gòu)圖;
[0018]圖3是概念c5與概念c3語義相似度求解路徑;
[0019]圖4是概念c3與概念c5語義相似度求解路徑;
[0020]圖5是各邊權(quán)值不意圖。
【具體實施方式】
[0021]下面結(jié)合附圖和實施例進一步說明本發(fā)明的技術(shù)方案。
[0022]本發(fā)明所提出的本體中概念間雙向語義相似度是對具有樹狀結(jié)構(gòu)的知識架構(gòu)中的概念進行求解。
[0023]在本體中,語義相似度是考慮了本體中的is_a關(guān)系,基于is_a關(guān)系,本體中的概念是形成一個樹狀結(jié)構(gòu),如圖1所示。
[0024]實際上,在圖1中的每條邊包含了兩個關(guān)系,即is_a關(guān)系和superclass_of關(guān)系。因此,可以將圖1中的邊分解成兩條有向邊,分別對應(yīng)本體中的is_a關(guān)系和superclass_of關(guān)系。如圖2所示,
[0025]這兩個關(guān)系具有不同的語義,在進行語義相似度計算時,應(yīng)該將其分開。目前幾乎所有的求解概念間語義相似度的算法忽略了這一點。
[0026]如圖3,在求解概念c5與c3的語義相似度時,所考慮的路徑由粗線所表示,路徑中包含了兩條is_a關(guān)系邊和一條superclass_of關(guān)系邊。
[0027]求解c3與c5間語義相似度時,所考慮的路徑為如圖4所示粗線表示,其中包含了一條is_a關(guān)系邊和兩條superclass_of關(guān)系邊。
[0028]由圖3,圖4,在兩條關(guān)系邊的權(quán)值不相同的情況下,c5到c3和c3到c5的語義相似度是不相同的。
[0029]實施例
[0030]本發(fā)明提供了一種本體中概念雙向語義相似度度量方法,如圖1所示,為本發(fā)明數(shù)據(jù)拓撲結(jié)構(gòu)示意圖,圖中cl、c2、c3...為本體中的概念。
[0031]本發(fā)明針對該數(shù)據(jù)拓撲結(jié)構(gòu)圖,提出了一種本體中概念雙向語義相似度度量方法,具體步驟如下:
[0032](I)、對圖1中數(shù)據(jù)拓撲結(jié)構(gòu)圖進行細化,將其中的邊分解為兩條方向相反的有向邊,見圖2。
[0033]( 2)、分別為每條有向邊賦權(quán)值w( c2,cl),w(c3,cl),...,v (cl,c2),v( c I,c3),...。見圖5<^(.)表示兩概念間is_a關(guān)系的權(quán)值,v(.)表示兩概念間superclass_of關(guān)系的權(quán)值。
[0034]本發(fā)明中求解權(quán)值的方法為:
[0035]I )、權(quán)值計算:
[0036]a)分別基于結(jié)構(gòu)得到每個概念的信息內(nèi)容值IC(c),根據(jù)IC值得到每個概念的概率p(c),p(c)=e—IC(c)。
[0037]b)父概念ci指向子概念cj的superclass_of關(guān)系的權(quán)值用轉(zhuǎn)移概率p(c j/ci)表*0v(ci,cj)=p(cj/ci)=p(cj)/p(ci)
[0038]c)子概念c j指向父概念c i的i s_a*系的權(quán)值記為w(c j,c i) = (I +p (c j/c i)) /2[0039 ] (3)概念間雙向語義相似度計算:
[0040]1)C5 與 c3 的正向語義相似度 SP(c5,c3)=H(k(c5,c2),k(c2,cl),k(cl,c3)),其
*,k(c5,c2)=w(c5,c2)/n,k(c2,cl)=w(c2,cl)/n,k(cl,c3)=v(cl,c3)/n
[0041 ] n=w(c5,c2)+w(c2,cl)+v(cl,c3)
[0042]H(.)為信息熵。
[0043]2)c3 與 c5 的反向語義相似度 SN(c3,c5)=H(k(c3,cl),k(cl,c2),k(c2,c5)),其*,k(c3,cl)=w(c3,cl)/n,k(cl,c2)=v(cl,c2)/n,k(c2,c5)=v(c2,c5)/n
[0044]n=w(c3,cl)+v(cl,c2)+v(c2,c5)
[0045]H(.)為信息熵。
[0046]以上所述,僅為本發(fā)明最佳實施方式,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可顯而易見地得到的技術(shù)方案的簡單變化或等效替換均落入本發(fā)明的保護范圍內(nèi)。
【主權(quán)項】
1.一種本體中概念雙向語義相似度度量方法,其特征在于,包括以下步驟: 步驟1:對樹狀知識結(jié)構(gòu)進行改進,將樹狀結(jié)構(gòu)中的每條邊分解為兩條方向相反的有向邊; 步驟2:分別為每條有向邊的賦權(quán)值,每條邊的權(quán)值根據(jù)情況而定,每一種關(guān)系的權(quán)值相同或不同,如果兩種關(guān)系的權(quán)值都相同,那么求解的語義相似度就是對稱的,具體權(quán)值的計算采用已有的計算方法; 步驟3:求解兩概念間雙向語義相似度,設(shè)第一概念到第二概念間的語義相似度為正向語義相似度,則從第二概念到第一概念的語義相似度為反向語義相似度。
【文檔編號】G06F17/27GK106021221SQ201610288276
【公開日】2016年10月12日
【申請日】2016年4月29日
【發(fā)明人】周子力, 王艷娜, 顧君忠, 張景虎, 種曉陽, 吳玲玲, 李萬萬
【申請人】曲阜師范大學(xué)