專利名稱:一種多策略組合的本體或?qū)嵗ヅ浞椒?br>
技術(shù)領(lǐng)域:
本發(fā)明涉及語義萬維網(wǎng)技術(shù)領(lǐng)域,特別涉及一種多策略組合的本體或?qū)嵗ヅ浞椒ā?br>
背景技術(shù):
語義萬維網(wǎng)是當前萬維網(wǎng)的擴展,信息的語義在其中被準確定義,從而使機算計能夠理解數(shù)據(jù)的語義信息,使得其對信息的處理更加智能化。萬維網(wǎng)之父Tim Berners-Lee 提出了在萬維網(wǎng)上發(fā)布和鏈接結(jié)構(gòu)化數(shù)據(jù)的基本準則(1)使用URI (統(tǒng)一資源定位符)命名所有事物;( 使用HTTP (超文本傳輸協(xié)議)URI ;C3)在URI指向的位置用標準格式提供有用信息;(4)建立指向其他URI的鏈接。通過這些準則發(fā)布的數(shù)據(jù)被稱為鏈接數(shù)據(jù)。由于萬維網(wǎng)上數(shù)據(jù)由不同機構(gòu)發(fā)布,導致了數(shù)據(jù)模式層和實例層的異構(gòu)性。本體匹配和實例匹配是分別解決鏈接數(shù)據(jù)模式層和實例層異構(gòu)問題的關(guān)鍵技術(shù)。本體匹配的目的是發(fā)現(xiàn)不同的模式之間相互等價的元素(概念、屬性),實例匹配的目的則是發(fā)現(xiàn)不同數(shù)據(jù)集中指代同一事物的URI。目前國內(nèi)外已有很多本體匹配方面的研究,大部分研究集中在如何利用多種本體信息計算元素之間的相似度,從而得到本體間等價的元素。已有的本體匹配策略包括基于實體名稱的方法、基于本體結(jié)構(gòu)的方法、基于本體實例的方法和基于外部知識庫的方法等。為了獲得滿意的匹配結(jié)果,一種有效的方法是組合多個匹配策略的結(jié)果?,F(xiàn)有的組合方法都是基于相似度操作的方法,先將各個策略得到相似度進行聚合,然后根據(jù)聚合的相似度決定匹配結(jié)果。常用的相似度聚合方法包括平均值法、最大值法、最小值和加權(quán)平均值法等。但是,最近有研究表明,這些組合方法得到的結(jié)果高度依賴于所選用的匹配策略,最終所得匹配結(jié)果的準確度無法保證。目前實例匹配方法大多借助本體匹配的相關(guān)技術(shù),同樣存在如何更好的組合多個匹配策略的問題。
發(fā)明內(nèi)容
(一 )要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何提供一種多策略組合的本體或?qū)嵗ヅ浞椒ǎ?以便更好的解決鏈接數(shù)據(jù)模式層和實例層的異構(gòu)問題。( 二 )技術(shù)方案為解決上述技術(shù)問題,本發(fā)明提供一種多策略組合的本體或?qū)嵗ヅ浞椒ǎ浒ú襟EA 對于兩個本體元素或兩個實例元素集合,基于本體元素或?qū)嵗氐牟煌谋拘畔?zhí)行多個匹配策略,得到多組匹配結(jié)果,對所述多組匹配結(jié)果中的每個匹配結(jié)果進行投票,根據(jù)投票結(jié)果對所述多組匹配結(jié)果進行過濾,得到初始匹配結(jié)果;B 根據(jù)所述初始匹配結(jié)果,以及本體元素或者實例元素之間的鏈接關(guān)系,獲得新匹配結(jié)果,所述初始匹配結(jié)果和所述新匹配結(jié)果合并后得到最終匹配結(jié)果。優(yōu)選地,所述步驟A包括步驟
5
Al 對于兩個本體元素或兩個實例元素的集合,基于本體元素或?qū)嵗氐牟煌谋拘畔?zhí)行多個匹配策略,得到對應(yīng)的多個相似度矩陣;A2:從所述多個相似度矩陣中,分別抽取相似度大于等于第一閾值的一組匹配結(jié)果,得到所述多組匹配結(jié)果;A3 對所述多組匹配結(jié)果中的每個匹配結(jié)果進行投票,得到每個匹配結(jié)果的得票數(shù);A4 查找所述多組匹配結(jié)果中互相沖突的匹配結(jié)果,在所述互相沖突的匹配結(jié)果中,保留得票數(shù)最多的匹配結(jié)果,刪除其余的匹配結(jié)果;A5 重復執(zhí)行所述步驟A4,直至剩余的匹配結(jié)果中沒有互相沖突的匹配結(jié)果,將最終剩余的匹配結(jié)果作為所述初始匹配結(jié)果。優(yōu)選地,所述步驟A2具體包括A21 設(shè)定對應(yīng)某個相似度矩陣的相應(yīng)組匹配結(jié)果的集合R初始為空集;A22 查找所述相似度矩陣中的最大相似度Hiij ;A23 判斷Hiij是否大于等于第一閾值ο 1,如果是,將Hiij對應(yīng)的匹配結(jié)果并入所述集合R后執(zhí)行A24,否則,執(zhí)行A26 ;A24 刪除所述相似度矩陣中第i行和第j列的所有相似度;A25:判斷所述相似度矩陣是否為空矩陣,如果是,執(zhí)行A26,否則,執(zhí)行所述步驟 A22 ;A26 將集合R中的所有匹配結(jié)果作為對應(yīng)所述相似度矩陣的一組匹配結(jié)果;A27 重復執(zhí)行所述步驟A21至A26,直至得到對應(yīng)所述多個相似度矩陣的所述多組匹配結(jié)果。優(yōu)選地,所述步驟Al中,對于本體元素,所述不同文本信息包括名稱信息、描述信息和實例信息中的至少兩種;所述多個匹配策略與所述不同文本信息對應(yīng),其包括基于名稱的匹配策略、基于描述的匹配策略和基于實例的匹配策略中的至少兩種;對于實例元素,所述不同文本信息包括名稱信息、描述信息和屬性信息中的至少兩種;所述多個匹配策略與所述不同文本信息對應(yīng),其包括基于名稱的匹配策略、基于描述的匹配策略和基于屬性的匹配策略中的至少兩種。優(yōu)選地,所述基于名稱的匹配策略通過計算本體元素或者實例元素的名稱間的編輯距離得到元素間的相似度,元素ei、%間的相似度1 >1; e2)的計算公式如下Mname (e1 e2) = S6(IabeKe1), label(e2)),其中,IabeKe1)為元素ej々名稱,label (e2)為元素%的名稱,S6(IabeKe1), IabeKe2))表示label (e》所對應(yīng)的字符串與label (e2)所對應(yīng)的字符串之間的編輯距離, 并且Se (label (θι),label (e2))的計算公式如下
IWI
權(quán)利要求
1.一種多策略組合的本體或?qū)嵗ヅ浞椒?,其特征在于,包括步驟A 對于兩個本體元素或兩個實例元素集合,基于本體元素或?qū)嵗氐牟煌谋拘畔?zhí)行多個匹配策略,得到多組匹配結(jié)果,對所述多組匹配結(jié)果中的每個匹配結(jié)果進行投票, 根據(jù)投票結(jié)果對所述多組匹配結(jié)果進行過濾,得到初始匹配結(jié)果;B 根據(jù)所述初始匹配結(jié)果,以及本體元素或者實例元素之間的鏈接關(guān)系,獲得新匹配結(jié)果,所述初始匹配結(jié)果和所述新匹配結(jié)果合并后得到最終匹配結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟A包括步驟Al 對于兩個本體元素或兩個實例元素的集合,基于本體元素或?qū)嵗氐牟煌谋拘畔?zhí)行多個匹配策略,得到對應(yīng)的多個相似度矩陣;A2 從所述多個相似度矩陣中,分別抽取相似度大于等于第一閾值的一組匹配結(jié)果,得到所述多組匹配結(jié)果;A3 對所述多組匹配結(jié)果中的每個匹配結(jié)果進行投票,得到每個匹配結(jié)果的得票數(shù); A4 查找所述多組匹配結(jié)果中互相沖突的匹配結(jié)果,在所述互相沖突的匹配結(jié)果中,保留得票數(shù)最多的匹配結(jié)果,刪除其余的匹配結(jié)果;A5:重復執(zhí)行所述步驟A4,直至剩余的匹配結(jié)果中沒有互相沖突的匹配結(jié)果,將最終剩余的匹配結(jié)果作為所述初始匹配結(jié)果。
3.如權(quán)利要求2所述的方法,其特征在于,所述步驟A2具體包括A21 設(shè)定對應(yīng)某個相似度矩陣的相應(yīng)組匹配結(jié)果的集合R初始為空集; A22 查找所述相似度矩陣中的最大相似度Hiij ;A23 判斷Hiij是否大于等于第一閾值ο 1,如果是,將Hiij對應(yīng)的匹配結(jié)果并入所述集合 R后執(zhí)行A24,否則,執(zhí)行A26 ;A24 刪除所述相似度矩陣中第i行和第j列的所有相似度;A25 判斷所述相似度矩陣是否為空矩陣,如果是,執(zhí)行A26,否則,執(zhí)行所述步驟A22 ; A26 將集合R中的所有匹配結(jié)果作為對應(yīng)所述相似度矩陣的一組匹配結(jié)果; A27 重復執(zhí)行所述步驟A21至A26,直至得到對應(yīng)所述多個相似度矩陣的所述多組匹配結(jié)果。
4.如權(quán)利要求2所述的方法,其特征在于,所述步驟Al中,對于本體元素,所述不同文本信息包括名稱信息、描述信息和實例信息中的至少兩種;所述多個匹配策略與所述不同文本信息對應(yīng),其包括基于名稱的匹配策略、基于描述的匹配策略和基于實例的匹配策略中的至少兩種;對于實例元素,所述不同文本信息包括名稱信息、描述信息和屬性信息中的至少兩種;所述多個匹配策略與所述不同文本信息對應(yīng),其包括基于名稱的匹配策略、基于描述的匹配策略和基于屬性的匹配策略中的至少兩種。
5.如權(quán)利要求4所述的方法,其特征在于,所述基于名稱的匹配策略通過計算本體元素或者實例元素的名稱間的編輯距離得到元素間的相似度,元素eph間的相似度Mnanre (e1; e2)的計算公式如下Mname (e1; e2) = Se (label (e^ , label (e2)),其中,IabeKe1)為元素e:的名稱,label (e2)為元素%的名稱,S6(IabeKe1), IabeKe2))表示label (e》所對應(yīng)的字符串與label (e2)所對應(yīng)的字符串之間的編輯距離,并且Se (label (e1),label (e2))的計算公式如下
6.如權(quán)利要求4所述的方法,其特征在干,所述基于描述的匹配策略通過計算向量空 間模型下本體元素或者實例元素的描述信息之間的余玄夾角得到元素11111111間的相似 度,元素も、e2間的基于描述信息的相似度Mmeta(も,e2)的計算公式如下
7.如權(quán)利要求4所述的方法,其特征在干,所述基于實例的匹配策略通過計算向量空 間模型下本體元素實例信息之間的余玄夾角得到元素間的相似度,元素ei、e2間基于實例 信息的相似度Minst (e” e2)的計算公式如下
8.如權(quán)利要求4所述的方法,其特征在干,所述基于屬性的匹配策略通過計算向量空 間模型下實例元素屬性值之間的余玄夾角得到元素間的相似度,元素e” e2間基于屬性的 相似度MaM(ei,e2)的計算公式如下
9.如權(quán)利要求1所述的方法,其特征在于,所述步驟B具體包括步驟Bl 根據(jù)所述初始匹配結(jié)果,將第一本體元素或者實例元素集合E1中未匹配元素構(gòu)成集合^ ,第二本體元素或者實例元素集合氏中未匹配元素構(gòu)成集合& ,所述初始匹配結(jié)果構(gòu)成集合R ;B2 對于每一個候選匹配結(jié)果<e,e' >,ee ;^ ,e'e ,計算e和e ‘之間的相似度 sim(e,e‘);B3 判斷所述相似度sim(e,e')是否大于等于第二閾值σ 2,如果是,將所述候選匹配結(jié)果<e,e' >并入集合R;B4 重復步驟Bi、B2、B3,直至達到預先設(shè)定的最大重復次數(shù)k。
10.如權(quán)利要求9所述的方法,其特征在于,所述e和e'之間的相似度sim(e,e')的計算公式如下
全文摘要
本發(fā)明公開了一種多策略組合的本體或?qū)嵗ヅ浞椒?,涉及語義萬維網(wǎng)領(lǐng)域。所述方法包括步驟對于兩個本體元素或兩個實例元素集合,基于本體元素或?qū)嵗氐牟煌谋拘畔?zhí)行多個匹配策略,得到多組匹配結(jié)果,對所述多組匹配結(jié)果中的每個匹配結(jié)果進行投票,根據(jù)投票結(jié)果對所述多組匹配結(jié)果進行過濾,得到初始匹配結(jié)果;根據(jù)所述初始匹配結(jié)果,以及本體元素或者實例元素之間的鏈接關(guān)系,獲得新匹配結(jié)果,所述初始匹配結(jié)果和所述新匹配結(jié)果合并后得到最終匹配結(jié)果。所述方法提高了最終匹配結(jié)果的準確度,有利于更好的解決鏈接數(shù)據(jù)模式層和實例層的異構(gòu)問題。
文檔編號G06F17/30GK102306177SQ20111024726
公開日2012年1月4日 申請日期2011年8月25日 優(yōu)先權(quán)日2011年8月25日
發(fā)明者侯磊, 唐杰, 張嘯, 李涓子, 王志春, 趙越 申請人:清華大學