基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法
【專利摘要】本發(fā)明提供一種基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,先對(duì)源本體進(jìn)行劃分,然后利用源本體的劃分結(jié)果確定目標(biāo)本體中的相似概念塊,最后通過NSGA-II算法獲取的不同概念塊之間的映射結(jié)果并通過貪心算法獲取最終的本體映射結(jié)果。本發(fā)明采用通用的基于面向映射的分塊技術(shù)來處理大規(guī)模本體映射問題,提高本體映射過程的效率與映射結(jié)果的質(zhì)量。將大規(guī)模的本體劃分成小的分塊,映射過程只需關(guān)注分塊與分塊之間的比較,而不需要考慮整個(gè)本體,從而提高了匹配的效率。
【專利說明】基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法。
【背景技術(shù)】
[0002]在醫(yī)學(xué)、農(nóng)林學(xué)和環(huán)境科學(xué)等眾多領(lǐng)域中的研究者都要用到生物醫(yī)學(xué)的數(shù)據(jù)源和工具來從事像藥物發(fā)明或是從事環(huán)境對(duì)人體健康的影響因素等研究。因此在近十年內(nèi),產(chǎn)生了數(shù)量眾多的分布在網(wǎng)絡(luò)上的生物醫(yī)學(xué)數(shù)據(jù)源。然而,隨著在線的生物醫(yī)學(xué)數(shù)據(jù)和相應(yīng)的檢索工具的數(shù)量的增長(zhǎng),研究者想在網(wǎng)上檢索所需的生物醫(yī)學(xué)信息(如通過某個(gè)病理?xiàng)l件下的一種基因來檢索相關(guān)的疾病),這一過程不僅速度緩慢而且容易出錯(cuò)。因此集成不同的生物醫(yī)學(xué)資源被認(rèn)為是解決同時(shí)訪問多個(gè)異質(zhì)數(shù)據(jù)源的有效方案。然而大部分的生物醫(yī)學(xué)系統(tǒng)的開發(fā)過程都是彼此獨(dú)立的,并沒有共同的數(shù)據(jù)結(jié)構(gòu)和共享的數(shù)據(jù)字典,這就使得數(shù)據(jù)模式的異質(zhì)性問題成為了數(shù)據(jù)資源集成的主要障礙。隨著生物醫(yī)學(xué)語義網(wǎng)的出現(xiàn),很大程度上緩解了生物醫(yī)學(xué)數(shù)據(jù)源間數(shù)據(jù)異質(zhì)性問題。生物醫(yī)學(xué)語義網(wǎng)的關(guān)鍵就是生物醫(yī)學(xué)本體的開發(fā)。近些年來,生物醫(yī)學(xué)領(lǐng)域的專家開發(fā)了數(shù)量眾多的生物醫(yī)學(xué)本體(如關(guān)于疾病、解剖學(xué)和遺傳基因的本體),其中有不少本體中的信息是有交叉的(如兩個(gè)本體中的一些實(shí)體在語義上是等價(jià)的)。
[0003]由于本體可以有效地共享與復(fù)用知識(shí)和數(shù)據(jù)而被廣泛地應(yīng)用在語義網(wǎng)的異質(zhì)數(shù)據(jù)源的交互中。然而由于人的主觀性,同一個(gè)應(yīng)用領(lǐng)域的不同本體可能用不同的方式定義同一個(gè)實(shí)體對(duì)象,產(chǎn)生了本體異質(zhì)問題。解決該問題的方法是找出不同本體中實(shí)體間的對(duì)應(yīng)關(guān)系,這一過程被稱為本體映射。對(duì)于擁有上百萬個(gè)概念實(shí)體的大規(guī)模的本體而言,通過人為的方式來完成本體映射是不現(xiàn)實(shí)的。因此,需要開發(fā)高效的本體映射系統(tǒng)來自動(dòng)完成大規(guī)模本體映射任務(wù)。
[0004]另外,近年來,地理信息受到了越來越多的關(guān)注。對(duì)于全球定位系統(tǒng)的構(gòu)建、全新的可視化技術(shù)、用于獲取地理數(shù)據(jù)的設(shè)備以及開發(fā)出可以集成不同的已有技術(shù)和設(shè)備的可存儲(chǔ)和使用地理信息的系統(tǒng)的需求正不斷增加。此外,由于地理空間語義網(wǎng)的成功,出現(xiàn)了越來越多的地理空間本體,這些本體可以用于描述地理空間科學(xué)領(lǐng)域的地理概念以及概念間的關(guān)系。隨著這些地理空間本體的上層應(yīng)用的發(fā)展,本體中的數(shù)據(jù)數(shù)量也在飛速增加??墒怯捎诘乩砜臻g領(lǐng)域的數(shù)據(jù)具有模糊性、不確定性以及粒度級(jí)別眾多等特點(diǎn),同一個(gè)地理位置在不同的本體中可能具有不同的文件格式、表示類型、坐標(biāo)參考系統(tǒng)、自然語言描繪等,這種快速的數(shù)據(jù)增長(zhǎng)導(dǎo)致不同的地理空間本體之間的異質(zhì)性問題變得越來越嚴(yán)重。如何集成這些地理空間本體,并在此基礎(chǔ)上實(shí)現(xiàn)不同的上層的應(yīng)用系統(tǒng)間的協(xié)作具有重大的現(xiàn)實(shí)意義。
[0005]對(duì)于大規(guī)模本體映射技術(shù)而言,如何縮小待處理的數(shù)據(jù)規(guī)模是找出正確實(shí)體映射的關(guān)鍵。將待映射的本體劃分為小規(guī)模的分塊,通過映射相似的分塊并集成多個(gè)映射結(jié)果是當(dāng)前主流的技術(shù)。當(dāng)前采用分塊技術(shù)的大規(guī)模本體映射系統(tǒng)有COMA++、Falcon-AO,Anchor-Flood, Lily、GOMMA, LogMAP等,然而這些映射系統(tǒng)中采用的分塊技術(shù)都沒有考慮到分塊過程中的映射目的,即對(duì)本體執(zhí)行分塊的過程與后續(xù)的映射過程是相對(duì)獨(dú)立的兩個(gè)步驟,這樣就無法保證最終的本體映射結(jié)果的質(zhì)量。針對(duì)這一問題,本發(fā)明提出采用面向映射的分塊技術(shù)并將分塊間的映射過程視為一個(gè)多目標(biāo)優(yōu)化問題,并通過多目標(biāo)進(jìn)化算法NSGA-1I求解該問題,獲取本體映射結(jié)果。
[0006]在已有的技術(shù)方案中,F(xiàn)alcon-AOl, 2同樣也是通過基于分塊的技術(shù)來實(shí)現(xiàn)大規(guī)模本體映射,同本發(fā)明的方案最為近似。Falcon-AO采用的是基于結(jié)構(gòu)的相似度度量方法來形成分塊,不同的本體分塊之間的外部相似度和內(nèi)部相似度采用以下公式計(jì)算:
【權(quán)利要求】
1.一種基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:包括: 步驟10、對(duì)源本體進(jìn)行劃分,包括概念塊初始化步驟和劃分算法執(zhí)行步驟,所述概念塊初始化步驟中,本體中的每一個(gè)概念獨(dú)自構(gòu)成一個(gè)概念塊,所述劃分算法執(zhí)行步驟中,根據(jù)概念塊的大小和概念塊之間的鄰近概念相似度值來迭代地歸并不同的概念塊,形成一個(gè)臨時(shí)概念塊集; 如果形成的臨時(shí)概念塊集合中的概念塊規(guī)模同當(dāng)前概念塊集合的規(guī)模相同,算法終止,否則,算法將臨時(shí)概念塊集合取代當(dāng)前概念塊集合,并繼續(xù)歸并更多的概念塊;如果概念塊的規(guī)模為I或生成的臨時(shí)概念塊集合的內(nèi)部相似度值小于某個(gè)閾值e,則算法終止;步驟20、對(duì)目標(biāo)本體進(jìn)行劃分,包括: 步驟21、比較目標(biāo)本體和源本體概念塊中不同概念的名稱、標(biāo)簽和備注信息的相似程度,從目標(biāo)本體中選取同源本體概念塊對(duì)應(yīng)的候選概念集; 步驟22、通過計(jì)算候選概念集中每個(gè)概念同源本體概念塊間的關(guān)聯(lián)值來進(jìn)一步確定目標(biāo)本體同源本體概念塊對(duì)應(yīng)的相關(guān)概念集; 步驟30、映射本體概念塊,包括: 步驟31、提出基于無參考映射的本體映射結(jié)果評(píng)價(jià)體系,該本體映射結(jié)果評(píng)價(jià)體系采用兩種不依賴于標(biāo)準(zhǔn)映射結(jié)果的指標(biāo),即MatchCoverage和Frequency來分別近似地獲取映射結(jié)果的查全率和查準(zhǔn)率,給定兩個(gè)本體概念塊S1和S2, MatchCoverage和Frequency分別由以下兩個(gè)公式計(jì)算:
2.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述步驟10是采用基于鄰近概念的相似度度量技術(shù),本體中不同概念塊間的鄰近概念相似度取決于共同的鄰近概念數(shù)量,給定兩個(gè)概念塊Cl和C2,它們的鄰近概念相似度由以下公式計(jì)算:
3.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于: 所述步驟21的具體實(shí)現(xiàn)過程是:所述比較目標(biāo)本體和源本體概念塊中不同概念的名稱、標(biāo)簽和備注信息的相似程度是通過SMOA距離來比較,對(duì)于目標(biāo)本體Otgt中的每一個(gè)概念Ci, Ci同Segsrc之間的相似度值Si等于Ci同Ssm中每一個(gè)概念Cj的相似度Sij之和,只對(duì)大于閾值a的Sij求和, 如果得到的Si大于閾值P,則將Ci加入候選概念集C ; 所述步驟22的具體實(shí)現(xiàn)過程是:在所述候選概念集C中,概念Ck對(duì)概念Ci的影響值定義如下:
4.根據(jù)權(quán)利要求3所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述步驟22的具體實(shí)現(xiàn)過程中,和不同源本體概念塊對(duì)應(yīng)的目標(biāo)本體概念塊的確定過程采取并發(fā)方式執(zhí)行。
5.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述先確定群體中個(gè)體的編碼方案具體是: 個(gè)體編碼信息既包括用于集成不同相似度度量的映射結(jié)果的權(quán)重和用于過濾本體映射結(jié)果的閾值,采用的是加權(quán)平均的方法集成不同的相似度度量產(chǎn)生的映射結(jié)果,具體描述如下:
6.根據(jù)權(quán)利要求5所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述編碼方案是通過在區(qū)間[O,I]中定義分割點(diǎn)來間接地表示不同的權(quán)重,假設(shè)p是所需的權(quán)重個(gè)數(shù),則分割點(diǎn)集合表示為:
7.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述確定算法的遺傳算子包括: a.選擇算子的確定,采用的選擇算子首先根據(jù)群體中不同個(gè)體的擁擠度進(jìn)行降序排序,并選擇排在前半部分的個(gè)體,從中隨機(jī)復(fù)制一個(gè)個(gè)體直到形成新的群體; b.交叉算子的確定,采用的是單點(diǎn)交叉算子,首先在父?jìng)€(gè)體中隨機(jī)確定一個(gè)分割點(diǎn),該分割點(diǎn)將兩個(gè)父?jìng)€(gè)體分割為兩個(gè)部分:左邊部分和右邊部分,然后通過交換兩個(gè)父?jìng)€(gè)體右邊部分的編碼以產(chǎn)生新的兩個(gè)子個(gè)體; c.變異算子的確定,采用的是位點(diǎn)變異算子,首先根據(jù)變異概率確定對(duì)個(gè)體會(huì)產(chǎn)生變異的編碼位,然后將這些編碼位的值從I修改為O,或是從O修改為I。
8.根據(jù)權(quán)利要求1所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于:所述根據(jù)群體更新策略生成下一代個(gè)體具體是: 首先通過將當(dāng)前代種群與新生成的種群放在一起,消除冗余的個(gè)體; 通過快速非支配排序算法并根據(jù)不同個(gè)體間的擁擠度來選出新的群體; 當(dāng)算法終止后,從pareto前沿中選出三個(gè)拐點(diǎn)解作為代表,由于pareto前沿的拐點(diǎn)區(qū)域代表了 pareto前沿中不同目標(biāo)間的最大權(quán)衡,所述三個(gè)拐點(diǎn)解分別是擁有最好的MatchCoverage, Frequency以及二者間最好的權(quán)衡。
9.根據(jù)權(quán)利要求8所述的基于面向映射的分塊技術(shù)的大規(guī)模本體映射方法,其特征在于: 所述擁有最好的MatchCoverage具體是指在pareto前沿中擁有最好MatchCoverage的解中選出一個(gè)Frequency最高的解; 所述擁有最好的Frequency具體是指在pareto前沿中擁有最好Frequency的解中選出一個(gè)MatchCoverage最高的解; 所述MatchCoverage, Frequency 二者間最好的權(quán)衡,具體是通過二者的和諧均值MatchFmeasure 來度量:
【文檔編號(hào)】G06F19/00GK103810388SQ201410055311
【公開日】2014年5月21日 申請(qǐng)日期:2014年2月19日 優(yōu)先權(quán)日:2014年2月19日
【發(fā)明者】薛醒思, 王金水 申請(qǐng)人:福建工程學(xué)院