節(jié)點(diǎn)i的集 合,Ad_T (i)表示網(wǎng)絡(luò)中節(jié)點(diǎn)i指向其他節(jié)點(diǎn)的集合;Ad j+(j)表示原始網(wǎng)絡(luò)G中與節(jié)點(diǎn)j相連, 且指向節(jié)點(diǎn)j的所有節(jié)點(diǎn)的集合,Ad _Γ (j)表示原始網(wǎng)絡(luò)G中與節(jié)點(diǎn)j相連,且被節(jié)點(diǎn)j指向的 所有節(jié)點(diǎn)的集合。
[0052] cc表示共引,tr表示親合,br表示傳遞,共引、親合和傳遞三種節(jié)點(diǎn)的相似度計(jì)算 公式如下所示:
[0053] (1-1)
[0054] (12)
[0055] (1-3)
[0056] 分別計(jì)算節(jié)點(diǎn)對(duì)(i,j)的三種相似度關(guān)系后,按照下式1-4所示計(jì)算節(jié)點(diǎn)間絕對(duì)相 似度,得到Sim(i,j);
[0057] .. ,Λ (1-4)
[0058] 設(shè)G為原始網(wǎng)絡(luò),el和e2為控制網(wǎng)絡(luò)化簡(jiǎn)程度的調(diào)節(jié)參數(shù),取值范圍為(0,1),< 和分別表示節(jié)點(diǎn)i的入度和出度,通過網(wǎng)絡(luò)化簡(jiǎn),將網(wǎng)絡(luò)中的非重要連邊刪除。化簡(jiǎn)流程 步驟如下所示:
[0059] (1)輸入原始網(wǎng)絡(luò)6;
[0060] (2)循環(huán)遍歷原始網(wǎng)絡(luò)G,從中依次選取節(jié)點(diǎn)i;
[0061 ] (3)計(jì)算節(jié)點(diǎn)i的入度式 +和出度弈;
[0062] (4)計(jì)算節(jié)點(diǎn)i保留的入邊?Γ和出邊數(shù)量
[0063] (5)循環(huán)指向節(jié)點(diǎn)i的集合Ad j+(i),從中依次選取節(jié)點(diǎn)j;
[0064 ] (6)按照公式1 -4計(jì)算節(jié)點(diǎn)j和i的相似度;
[0065] (7)對(duì)每一個(gè)節(jié)點(diǎn)i的所有入邊的相似度進(jìn)行從高到低排序,對(duì)每一節(jié)點(diǎn)i均保留 前(4 Γ條入邊;
[0066] (8)循環(huán)節(jié)點(diǎn)i所指向的其他節(jié)點(diǎn)的集合Ad_T(i),從中依次選取節(jié)點(diǎn)j;
[0067 ] (9)按照公式1 -4計(jì)算節(jié)點(diǎn)j和i的相似度;
[0068] (10)對(duì)每一個(gè)節(jié)點(diǎn)i的所有出邊的相似度進(jìn)行從高到低排序,對(duì)每一節(jié)點(diǎn)i均保留 前(CT1條出邊;
[0069] (11)結(jié)束后生成化簡(jiǎn)后的網(wǎng)絡(luò)。
[0070]偽代碼流程如下,用for循環(huán)表示嵌套關(guān)系。
[0071]
[0072]
[0073] 以圖3為例,左邊為原始圖,右邊為化簡(jiǎn)后的圖??梢钥闯雒黠@的社團(tuán)結(jié)構(gòu)。
[0074] 通常網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法的時(shí)間空間復(fù)雜度都與網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)和連邊數(shù)相關(guān),網(wǎng)絡(luò) 進(jìn)行化簡(jiǎn)后,總結(jié)點(diǎn)數(shù)不變,而連邊減少,且較好的保留了網(wǎng)絡(luò)的局部特性,因此可以在不 損失較多精度的情況下,大大提高后續(xù)社團(tuán)發(fā)現(xiàn)算法的效率。
[0075] 本發(fā)明技術(shù)方案帶來的有益效果為:
[0076] 1、傳統(tǒng)化簡(jiǎn)方法通常以采樣的方式,會(huì)造成節(jié)點(diǎn)丟失,網(wǎng)絡(luò)信息不全。本方法保留 節(jié)點(diǎn),只刪除網(wǎng)絡(luò)中的非重要連邊,可最大限度保留網(wǎng)絡(luò)特性;
[0077] 2、全網(wǎng)化簡(jiǎn)的方法雖然會(huì)保留所有節(jié)點(diǎn),但是將所有節(jié)點(diǎn)都統(tǒng)一對(duì)待,不考慮節(jié) 點(diǎn)的局部特性,會(huì)導(dǎo)致化簡(jiǎn)后的網(wǎng)絡(luò)產(chǎn)生離群節(jié)點(diǎn),影響后期社團(tuán)發(fā)現(xiàn)的準(zhǔn)確度。本方法在 化簡(jiǎn)時(shí)考慮節(jié)點(diǎn)的局部特性-出度和入度。不會(huì)導(dǎo)致離群節(jié)點(diǎn)出現(xiàn),對(duì)后期社團(tuán)發(fā)現(xiàn)的準(zhǔn) 確度影響較小。
[0078] 3、本算法為社團(tuán)發(fā)現(xiàn)前的預(yù)處理算法,可以處理有向和無向網(wǎng)絡(luò),并且可與其他 圖變換算法和社團(tuán)發(fā)現(xiàn)算法結(jié)合,具有較高的擴(kuò)展性;并且化簡(jiǎn)方法本身復(fù)雜度不高,具有 較高的效率。
[0079] 本領(lǐng)域技術(shù)人員可以理解,實(shí)現(xiàn)上述實(shí)施例方法的全部或部分流程,可以通過計(jì) 算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。其中,所 述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)為磁盤、光盤、只讀存儲(chǔ)記憶體或隨機(jī)存儲(chǔ)記憶體等。
[0080] 以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于節(jié)點(diǎn)相似度的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于,包括如下步驟: (1) 循環(huán)遍歷原始網(wǎng)絡(luò)G,計(jì)算原始網(wǎng)絡(luò)G中每一節(jié)點(diǎn)i的入邊相似度及出邊相似度; (2) 對(duì)每一節(jié)點(diǎn)i的所有入邊相似度進(jìn)行從高到低排序,保留相似度大于闊值的連邊; (3) 對(duì)每一節(jié)點(diǎn)i的所有出邊相似度進(jìn)行從高到低排序,保留相似度大于闊值的連邊; (4) 輸出化簡(jiǎn)后的網(wǎng)絡(luò)。2. 根據(jù)權(quán)利要求1所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:所述步驟(1)中的計(jì)算原始 網(wǎng)絡(luò)G中每一節(jié)點(diǎn)i的入邊相似度包括: 在原始網(wǎng)絡(luò)G選擇節(jié)點(diǎn)i,循環(huán)遍歷集合Adj+(i),從中依次選取節(jié)點(diǎn)j,計(jì)算節(jié)點(diǎn)j和i的 相似度;其中Adj+(i)表示原始網(wǎng)絡(luò)G中指向所選節(jié)點(diǎn)i的所有節(jié)點(diǎn)的集合。3. 根據(jù)權(quán)利要求2所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:所述步驟(2)中的闊值與控 制網(wǎng)絡(luò)化簡(jiǎn)程度的調(diào)節(jié)參數(shù)ei有關(guān),保留相似度大于闊值的連邊具體為: (2.1) 計(jì)算節(jié)點(diǎn)i的入度私; (2.2) 計(jì)算節(jié)點(diǎn)i保留的入邊數(shù)量W r . (2.3) 對(duì)所有入邊的相似度進(jìn)行從高到低排序,保留排序靠前的(奪r條邊。4. 根據(jù)權(quán)利要求1所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:所述步驟(1)中的計(jì)算原始 網(wǎng)絡(luò)G中每一節(jié)點(diǎn)i的出邊相似度包括如下步驟:在原始網(wǎng)絡(luò)G選擇節(jié)點(diǎn)i,循環(huán)遍歷集合 Adr(i),從中依次選取節(jié)點(diǎn)j,計(jì)算節(jié)點(diǎn)j和i的相似度;其中,AdHi)表示原始網(wǎng)絡(luò)G中所選 節(jié)點(diǎn)i所指向的其他節(jié)點(diǎn)的集合。5. 根據(jù)權(quán)利要求4所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:所述步驟(3)中的闊值與控 制網(wǎng)絡(luò)化簡(jiǎn)程度的調(diào)節(jié)參數(shù)62有關(guān),保留相似度大于闊值的連邊具體為: (3.1) 計(jì)算節(jié)點(diǎn)i的出度 (3.2) 計(jì)算節(jié)點(diǎn)i保留的入邊數(shù)量的 (3.3) 對(duì)所有入邊的相似度進(jìn)行從高到低排序,保留排序靠前的睞尸條邊。6. 根據(jù)權(quán)利要求1或2或4所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:相似度采用下式計(jì) 算:其中,Simcc(i,j)為具有共引關(guān)系節(jié)點(diǎn)的相似度、SimtrQ J)為具有禪合關(guān)系節(jié)點(diǎn)的相 似度、Simbr (i,j)為具有傳遞關(guān)系節(jié)點(diǎn)的相似度。7. 根據(jù)權(quán)利要求6所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:所述具有共引關(guān)系節(jié)點(diǎn)的相 似度計(jì)算公式為:式中,Ad j + (i)表示原始網(wǎng)絡(luò)G中指向節(jié)點(diǎn)i的所有節(jié)點(diǎn)的集合;Ad j + (j)表示原始網(wǎng)絡(luò)G 中與節(jié)點(diǎn)j相連,且指向節(jié)點(diǎn)j的所有節(jié)點(diǎn)的集合。8. 根據(jù)權(quán)利要求6所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:所述具有禪合關(guān)系節(jié)點(diǎn)的相 似度計(jì)算公式為:式中,Ad j + (i)表示原始網(wǎng)絡(luò)G中指向節(jié)點(diǎn)i的所有節(jié)點(diǎn)的集合,Ad_T (i)表示原始網(wǎng)絡(luò)G 中節(jié)點(diǎn)i所指向的其他節(jié)點(diǎn)的集合;Adj+(j)表示原始網(wǎng)絡(luò)G中與節(jié)點(diǎn)j相連,且指向節(jié)點(diǎn)j的 所有節(jié)點(diǎn)的集合,AdHj)表示原始網(wǎng)絡(luò)G中與節(jié)點(diǎn)j相連,且被節(jié)點(diǎn)j指向的所有節(jié)點(diǎn)的集 厶 1=1 O9. 根據(jù)權(quán)利要求6所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:所述具有傳遞關(guān)系節(jié)點(diǎn)的相 似度計(jì)算公式為:式中,Adr(i)表示原始網(wǎng)絡(luò)G中節(jié)點(diǎn)i所指向的其他節(jié)點(diǎn)的集合;Adr(j)表示原始網(wǎng)絡(luò) G中與節(jié)點(diǎn)j相連,且被節(jié)點(diǎn)j指向的所有節(jié)點(diǎn)的集合。10. 根據(jù)權(quán)利要求3或5所述的有向網(wǎng)絡(luò)化簡(jiǎn)方法,其特征在于:控制網(wǎng)絡(luò)化簡(jiǎn)程度的調(diào) 節(jié)參數(shù)ei、62的取值范圍為(0,1)。
【專利摘要】本發(fā)明涉及一種基于節(jié)點(diǎn)相似度的有向網(wǎng)絡(luò)化簡(jiǎn)方法,用于有向網(wǎng)絡(luò)化簡(jiǎn),包括(1)循環(huán)遍歷原始網(wǎng)絡(luò)G,計(jì)算原始網(wǎng)絡(luò)G中每一節(jié)點(diǎn)i的入邊相似度及出邊相似度;(2)對(duì)每一節(jié)點(diǎn)i的所有入邊相似度從高到低排序,保留相似度大于閾值的連邊;(3)對(duì)每一節(jié)點(diǎn)i的所有出邊相似度進(jìn)行從高到低排序,保留相似度大于閾值的連邊;(4)輸出化簡(jiǎn)后的網(wǎng)絡(luò)。該方法用以解決大規(guī)模有向網(wǎng)絡(luò)的網(wǎng)絡(luò)化簡(jiǎn)、不損失節(jié)點(diǎn)信息,且不會(huì)因刪除連邊產(chǎn)生離散節(jié)點(diǎn)。
【IPC分類】G06Q50/00
【公開號(hào)】CN105654389
【申請(qǐng)?zhí)枴?br>【發(fā)明人】張峰, 張德, 劉光宏, 王鳳華
【申請(qǐng)人】中國(guó)電子科技集團(tuán)公司信息科學(xué)研究院
【公開日】2016年6月8日
【申請(qǐng)日】2015年12月29日