復雜網(wǎng)絡(luò)中2-club社團的高效挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是復雜網(wǎng)絡(luò)中的社團挖掘方法,可用于挖掘 復雜網(wǎng)絡(luò)中的社團,方便深度分析復雜網(wǎng)絡(luò)。
【背景技術(shù)】
[0002] 把復雜系統(tǒng)建模為復雜網(wǎng)絡(luò)并從中挖掘功能、地位相似的一組對象作為社團是理 解復雜系統(tǒng)的一種非常重要的方法。復雜網(wǎng)絡(luò)中的社團挖掘方法在過去的十多年里得到了 長足的發(fā)展。
[0003] 當前社團挖掘算法主要通過檢測網(wǎng)絡(luò)中的稠密子圖來挖掘社團,其原理在于,挖 掘社團時同一社團中的對象之間具有功能、地位相似、聯(lián)系緊密的特性,在網(wǎng)絡(luò)中表現(xiàn)為稠 密子圖,因此通過檢測稠密子圖,可得到具備一定準確性的結(jié)果。但是,此類挖掘技術(shù)存在 復雜性高、準確性低、拓展性差的不足,而且會遺漏稀疏卻功能顯著的社團。例如:
[0004] Newman提出的GN算法依據(jù)邊的介數(shù)中心性迭代地刪去介數(shù)最大的一條邊,并通 過計算模塊度函數(shù)來評判當前網(wǎng)絡(luò)劃分情況,最終找出模塊度函數(shù)最大時對應(yīng)的網(wǎng)絡(luò)劃分 作為社團檢測的結(jié)果。由于邊介數(shù)中心性的計算復雜度較高,該方法僅適用于中小規(guī)模的 網(wǎng)絡(luò)。
[0005] Filippo Radicchi等人提出依據(jù)邊的聚集系數(shù)迭代地刪去邊聚集系數(shù)最小的一 條邊,并計算模塊度函數(shù)來評判當前網(wǎng)絡(luò)劃分情況,最終找出模塊度函數(shù)最大時對應(yīng)的網(wǎng) 絡(luò)劃分作為社團檢測的結(jié)果。該方法依賴于模塊度函數(shù),因此不能廣泛適用于各類網(wǎng)絡(luò)。
[0006] Spirin V等人在網(wǎng)絡(luò)中使用隨機游走的方法提取社團,把整個網(wǎng)絡(luò)當做一個狀 態(tài),從當前一個狀態(tài)出發(fā)經(jīng)過迭代最終收斂于稠密的區(qū)域,將收斂的區(qū)域所在的連通分支 作為社團檢測的結(jié)果。該方法的準確性有待提高。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提出一種復雜網(wǎng)絡(luò)中2-club社團的高效挖掘方法,以解決上 述已有技術(shù)復雜性高、準確性低、拓展性差的不足,提高社團檢測的效率和準確性,并深度 挖掘網(wǎng)絡(luò)中潛藏的稀疏社團。
[0008] 本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
[0009] 一、技術(shù)原理
[0010] 復雜網(wǎng)絡(luò)中,社團是指具有相似功能的對象集合。2-Club社團定義為直徑小于等 于2的社團,簡稱為二倶樂部社團。本發(fā)明將富含相互連接的三元組的區(qū)域建模為二倶樂 部社團,因此從復雜網(wǎng)絡(luò)中提取社團的任務(wù)就簡化為在網(wǎng)絡(luò)中檢測二倶樂部社團。通過挖 掘二倶樂部社團,挖掘復雜網(wǎng)絡(luò)中的社團。
[0011] 二、技術(shù)方案
[0012] 根據(jù)上述原理,本發(fā)明的技術(shù)方案包括:
[0013] (1)設(shè)小生境中心性是區(qū)分復雜網(wǎng)絡(luò)中社團內(nèi)、外邊的指標,設(shè)二步重疊點集是重 疊二倶樂部社團的部分節(jié)點;
[0014] (2)計算復雜網(wǎng)絡(luò)中各邊的小生境中心性:
[0015] 2. 1)定義復雜網(wǎng)路中由三條順序連接的邊組成的無環(huán)路徑為P4結(jié)構(gòu),設(shè)G = (V,E)為無權(quán)無向網(wǎng)絡(luò),V為節(jié)點集合,E為邊集合;
[0016] 2.2)使用以下三種延伸方法,將無權(quán)無向網(wǎng)絡(luò)中任意邊'參與構(gòu)成的P4結(jié)構(gòu)分為三種類型:
[0017] 從第j個節(jié)點出發(fā),連續(xù)延伸兩步后與邊形成無環(huán)或含環(huán)路徑,定義其中的 無環(huán)路徑為第一類P4結(jié)構(gòu),其個數(shù)為其中xne N(j) - {i},N(j) n亡ι
表示第j個節(jié)點的鄰居節(jié)點集合,\表示第Xn個節(jié)點的度,?:,表示第一種延伸方法中與 邊產(chǎn)生的含環(huán)路徑的個數(shù);
[0018] 分別從第i、j個節(jié)點出發(fā)各延伸一步后與邊可形成無環(huán)或含環(huán)路徑,定義其 中的無環(huán)路徑為第二類匕結(jié)構(gòu),其個數(shù)為:
,其中,分別表 示第i、j個節(jié)點的度,表示第二種延伸方法中與邊/產(chǎn)生的含環(huán)路徑的個數(shù);
[0019] 從第i個節(jié)點出發(fā)連續(xù)延伸兩步后與邊〗^_/可形成無環(huán)或含環(huán)路徑,定義其中的 無環(huán)路徑為第三類P4結(jié)構(gòu),其個數(shù)為:
1其中zne N(i)-{j},N(i) 表示第i個節(jié)點的鄰居節(jié)點集合,&表示第Zn個節(jié)點的度,表示第三種延伸方法中與 邊/ G /產(chǎn)生的含環(huán)路徑的個數(shù);
[0020] 2.3)計算無權(quán)無向網(wǎng)絡(luò)中任意邊參與構(gòu)成的三角形結(jié)構(gòu)個數(shù)為:
[0021] 2.4)根據(jù)步驟2. 2)和2.3)的結(jié)果,將無權(quán)無向網(wǎng)絡(luò)中任意邊/<->./£/:的小生境 中心性定義為:
[0022] (3)計算當前網(wǎng)絡(luò)中各連通分支的直徑;
[0023] (4)判斷是否存在直徑大于2的連通分支,若存在,則刪除直徑大于2的連通分支 中具有最大小生境中心性的邊,重新計算該邊影響范圍內(nèi)各邊的小生境中心性,重復步驟 ⑶;否則,執(zhí)行步驟(5);
[0024] (5)根據(jù)用戶需要,判斷是否需要計算重疊二倶樂部社團,若需要,執(zhí)行步驟(6), 否則,執(zhí)行步驟(7);
[0025] (6)計算各連通分支的二步重疊點集,并將其加入相應(yīng)的連通分支;
[0026] 6. 1)設(shè)無權(quán)無向網(wǎng)絡(luò)的任意連通分支M= (VM,EM),其中VM、EM分別表示連通分支 Μ的節(jié)點和邊集合;
[0027] 6. 2)定義連通分支Μ的鄰域為: 其中u表 示復雜網(wǎng)絡(luò)中的第U個節(jié)點,V表示連通分支Μ中的第V個節(jié)點;
[0028] 6. 3)定義連通分支Μ的二步重疊點集為:
'其 中,y表示連通分支Μ的領(lǐng)域中的第y個節(jié)點,gd(v, y)表示第y個節(jié)點和第ν個節(jié)點之間 的最短距離;
[0030] (7)輸出當前各連通分支作為無權(quán)無向網(wǎng)絡(luò)G的二倶樂部社團。
[0031] 本發(fā)明中具有如下優(yōu)點:
[0032] 1)由于本發(fā)明的技術(shù)原理中對網(wǎng)絡(luò)社團的假設(shè)直觀、合理,因此本發(fā)明的方法簡 單、高效、無參數(shù)限制、可拓展性強,且可以檢測稀疏二倶樂部社團;
[0033] 2)由于本發(fā)明提出的邊小生境中心性融合了復雜網(wǎng)路中最基本的模式:P4結(jié)構(gòu)和 三角形結(jié)構(gòu),因此小生境中心性具有較強的可移植性;
[0034] 3)本發(fā)明由于使用了二步重疊點集,可實現(xiàn)對重疊社團的檢測。
【附圖說明】
[0035] 圖1是本發(fā)明的實現(xiàn)流程圖;
[0036] 圖2是本發(fā)明中的邊小生境中心性原理圖;
[0037] 圖3是本發(fā)明中的二步重疊點集原理圖;
[0038] 圖4是本發(fā)明在示例網(wǎng)絡(luò)上的仿真圖;
[0039] 具體實施方法
[0040] 下面結(jié)合附圖和實施例對本發(fā)明做進一步說明。
[0041] 本發(fā)明將富含相互連接的三元組的區(qū)域建模為二倶樂部社團,因此從復雜網(wǎng)絡(luò)中 提取社團的任務(wù)就簡化為在網(wǎng)絡(luò)中檢測二倶樂部社團。通過挖掘二倶樂部社團,挖掘復雜 網(wǎng)絡(luò)中的功能社團。小生境中心性是區(qū)分復雜網(wǎng)絡(luò)中二倶樂部社團內(nèi)、外邊的指標,二步重 疊點集是重疊二倶樂部社團的部分節(jié)點。
[0042] 參照圖1,本發(fā)明的實現(xiàn)步驟如下:
[0043] 步驟1,輸入無權(quán)無向網(wǎng)絡(luò)G = (V,E),其中V表示G中的節(jié)點集合,E表示G中的 邊集合,G中不存在自回路和重復邊,即不存在連接相同節(jié)點的邊,任意兩個節(jié)點之間至多 只存在一條邊。
[0044] 步驟2,計算G中各邊的小生境中心性。
[0045] 無權(quán)無向網(wǎng)絡(luò)G的邊集合E中各邊的小生境中心性涉及各邊所構(gòu)成的P4結(jié)構(gòu)、三 角形結(jié)構(gòu)數(shù)量,其中?4結(jié)構(gòu)可由三種方法延伸產(chǎn)生。
[0046] (2a)定義無權(quán)無向網(wǎng)絡(luò)中由三條順序連接的邊組成的無環(huán)路徑為P4結(jié)構(gòu);
[0047] (2b)使用以下三種延伸方法,將無權(quán)無向網(wǎng)絡(luò)G中任意邊參與構(gòu)成的P4結(jié)構(gòu)分為三種類型,并分別進行延伸:
[0048] 參照圖2,本步驟的具體實現(xiàn)如下:
[0049] (2bl)從第j個節(jié)點出發(fā),連續(xù)延伸兩步后與邊M-> /形成無環(huán)或含環(huán)路徑,定義 其中的無環(huán)路徑為第一類P4結(jié)構(gòu),該第一類P4結(jié)構(gòu)個數(shù)為:
,其 中Xne N(j)-{i},N(j)表示第j個節(jié)點的鄰居節(jié)點集合,表示第xn個節(jié)點的度,<^,:;表 示第一種延伸方法中與邊產(chǎn)生的含環(huán)路徑的個數(shù);
[0050] 其延伸步驟如下:
[0051] 2bll)從第j個節(jié)點出發(fā),向N(j)與{i}的差集N(j)_{i}中的任意節(jié)點延伸,其 中U}表示僅包含第i個節(jié)點的集合;
[0052] 2bl2)設(shè)步驟2bll)所延伸的節(jié)點為qi,如圖2(al)所示;
[0053] 2bl3)從第qi個節(jié)點出發(fā),向N(q J與{j}的差集中的任意節(jié)點延伸, 其中NQD表示第qi個節(jié)點的鄰居節(jié)點集合,{j}表示僅包含第j個節(jié)點的集合;
[0054] 2bl4)設(shè)2bl3)步所延伸的節(jié)點為q2,如圖2 (bl)所示;
[0055] 2bl5)若第i個節(jié)點與第qi個節(jié)點不存在連邊,且滿足如下三個附屬條件:
[0056] 第j個節(jié)點與第q/h節(jié)點不存在連邊,
[0057] 第i個節(jié)點與第q/h節(jié)點不存在連邊,
[0058] 第i個節(jié)點與第q2個節(jié)點重合,
[0059] 則路徑,〇 % G辦為