一種基于節(jié)點(diǎn)相似度的有向網(wǎng)絡(luò)化簡(jiǎn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及復(fù)雜網(wǎng)絡(luò)計(jì)算技術(shù)領(lǐng)域,具體涉及一種基于節(jié)點(diǎn)相似度的有向網(wǎng)絡(luò)化 簡(jiǎn)方法。
【背景技術(shù)】
[0002] 在現(xiàn)實(shí)生活中,包括生物、基因、社交、通信等個(gè)體和個(gè)體之間通常會(huì)以有向的方 式建立聯(lián)系,形成復(fù)雜的有向網(wǎng)絡(luò)。社團(tuán)發(fā)現(xiàn)是復(fù)雜網(wǎng)絡(luò)研究的一個(gè)分支,通過分析網(wǎng)絡(luò)特 征,發(fā)現(xiàn)網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)及其相互作用的關(guān)聯(lián)性,從而打開了理解群體性復(fù)雜行為的新 視角。其成果可用于用戶群體行為分析、推薦系統(tǒng)和基因功能關(guān)聯(lián)性挖掘等相關(guān)領(lǐng)域。
[0003] 然而,隨著科技的發(fā)展,大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)規(guī)模呈現(xiàn)出爆炸性增長(zhǎng)趨勢(shì),網(wǎng) 絡(luò)規(guī)模越來(lái)越大,而通常社團(tuán)發(fā)現(xiàn)算法的時(shí)間和空間復(fù)雜度較高,很難直接應(yīng)用于大規(guī)模 復(fù)雜網(wǎng)絡(luò)的社團(tuán)發(fā)現(xiàn)。
[0004] 針對(duì)大規(guī)模網(wǎng)絡(luò)的社團(tuán)發(fā)現(xiàn)問題,目前有兩個(gè)解決思路:
[0005] (1)利用主流的并行計(jì)算技術(shù)和大數(shù)據(jù)分析平臺(tái),將算法進(jìn)行并行化,利用多部計(jì) 算機(jī)的計(jì)算資源執(zhí)行計(jì)算任務(wù)。
[0006] (2)大型網(wǎng)絡(luò)中的節(jié)點(diǎn)和連邊重要性不同,可以通過不同的策略算法將大型網(wǎng)絡(luò) 進(jìn)行化簡(jiǎn),來(lái)避免針對(duì)整個(gè)數(shù)據(jù)集進(jìn)行采集和測(cè)量,只保留網(wǎng)絡(luò)主干,從而提高下一步社團(tuán) 發(fā)現(xiàn)的效率;
[0007] 利用并行計(jì)算提高算法效率的方法需要有并行計(jì)算環(huán)境的支撐,并且算法必須是 可被并行化的,這兩個(gè)缺點(diǎn)使得該方法門檻和成本較高,且適用性不高;
[0008] 目前主流的網(wǎng)絡(luò)化簡(jiǎn)方法以采樣算法為主,如基于圖遍歷的采樣算法和基于隨機(jī) 游走的采樣算法。采樣算法主要考慮保證整個(gè)網(wǎng)絡(luò)宏觀層面在采樣前后不丟失屬性信息, 但是會(huì)造成網(wǎng)絡(luò)局部節(jié)點(diǎn)的丟失,即產(chǎn)生離群節(jié)點(diǎn)。有研究人員提出了一個(gè)根據(jù)節(jié)點(diǎn)相似 度排序的網(wǎng)絡(luò)化簡(jiǎn)方法,將網(wǎng)絡(luò)中的非重要連邊剔除,已到達(dá)減少網(wǎng)絡(luò)規(guī)模的目的,但是只 能用于無(wú)向網(wǎng)絡(luò)的化簡(jiǎn)。
【發(fā)明內(nèi)容】
[0009] 鑒于上述的分析,本發(fā)明旨在提供一種有向網(wǎng)絡(luò)化簡(jiǎn)方法,用以解決大規(guī)模有向 網(wǎng)絡(luò)的網(wǎng)絡(luò)化簡(jiǎn);該方法不損失節(jié)點(diǎn)信息,且不會(huì)因刪除連邊產(chǎn)生離散節(jié)點(diǎn)。
[0010] 本發(fā)明的目的主要是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0011] -種基于節(jié)點(diǎn)相似度的網(wǎng)絡(luò)化簡(jiǎn)方法,用于有向網(wǎng)絡(luò)化簡(jiǎn),包括如下步驟:
[0012] (1)循環(huán)遍歷原始網(wǎng)絡(luò)G,計(jì)算原始網(wǎng)絡(luò)G中每一節(jié)點(diǎn)i的入邊相似度及出邊相似 度;
[0013] (2)對(duì)每一節(jié)點(diǎn)i的所有入邊相似度進(jìn)行從高到低排序,保留相似度大于閾值的連 邊;
[0014] (3)對(duì)每一節(jié)點(diǎn)i的所有出邊相似度進(jìn)行從高到低排序,保留相似度大于閾值的連 邊;
[0015] (4)輸出化簡(jiǎn)后的網(wǎng)絡(luò)。
[0016] 進(jìn)一步,所述步驟(1)中的計(jì)算原始網(wǎng)絡(luò)G中每一節(jié)點(diǎn)i的入邊相似度包括:選擇節(jié) 點(diǎn)i,循環(huán)遍歷集合Ad j+(i),從中依次選取節(jié)點(diǎn)j,計(jì)算節(jié)點(diǎn)j和i的相似度;其中Ad j+(i)表示 原始網(wǎng)絡(luò)G中指向節(jié)點(diǎn)i的集合。
[0017] 進(jìn)一步,所述步驟(2)中的閾值與控制網(wǎng)絡(luò)化簡(jiǎn)程度的調(diào)節(jié)參數(shù)ei有關(guān),保留相似 度大于閾值的連邊具體為:
[0018] (2.1)計(jì)算節(jié)點(diǎn)i的入度
[0019] (2.2)計(jì)算節(jié)點(diǎn)i保留的入邊數(shù)量⑷)%
[0020] (2.3)對(duì)所有入邊的相似度進(jìn)行從高到低排序,保留排序靠前的((Γ條邊。
[0021] 進(jìn)一步,所述步驟(1)中的計(jì)算原始網(wǎng)絡(luò)G中每一節(jié)點(diǎn)i的出邊相似度包括如下步 驟:選擇節(jié)點(diǎn)i,循環(huán)遍歷集合Adjli),從中依次選取節(jié)點(diǎn)j,計(jì)算節(jié)點(diǎn)j和i的相似度;其中, Ad Γ (i)表示原始網(wǎng)絡(luò)G中節(jié)點(diǎn)i所指向的其他節(jié)點(diǎn)的集合。
[0022]進(jìn)一步,所述步驟(3)中的閾值與控制網(wǎng)絡(luò)化簡(jiǎn)程度的調(diào)節(jié)參數(shù)e2有關(guān),保留相似 度大于閾值的連邊具體為:
[0023] (3.1)計(jì)算節(jié)點(diǎn):1的出度劣;:
[0024] (3.2)計(jì)算節(jié)點(diǎn)i保留的入邊數(shù)量(C)' i
[0025] (3.3)對(duì)所有入邊的相似度進(jìn)行從高到低排序,保留排序靠前的(<)~條邊。。 [0026]進(jìn)一步,相似度采用下式計(jì)算:
[0027]
[0028]其中,Simcc(i,j)為共引關(guān)系節(jié)點(diǎn)的相似度、Simtr(i,j)為具有耦合關(guān)系節(jié)點(diǎn)的相 似度、Simbr(i,j)為具有傳遞關(guān)系節(jié)點(diǎn)的相似度。
[0029]
[0030]
[0031]
[0032] 式中,Adj+(i)表示原始網(wǎng)絡(luò)G中指向節(jié)點(diǎn)i的集合,Adjli)表示原始網(wǎng)絡(luò)G中節(jié)點(diǎn)i 所指向的其他節(jié)點(diǎn)的集合;Adj+(j)表示原始網(wǎng)絡(luò)G中與節(jié)點(diǎn)j相連,且指向節(jié)點(diǎn)j的所有節(jié) 點(diǎn)的集合,Adjl j)表示原始網(wǎng)絡(luò)G中與節(jié)點(diǎn)j相連,且被節(jié)點(diǎn)j指向的所有節(jié)點(diǎn)的集合。
[0033]本發(fā)明有益效果如下:
[0034] (1)該方法適用于大規(guī)模有向網(wǎng)絡(luò)的網(wǎng)絡(luò)化簡(jiǎn);
[0035] (2)該方法不損失節(jié)點(diǎn)信息,且不會(huì)因刪除連邊產(chǎn)生離散節(jié)點(diǎn);
[0036] (3)經(jīng)該方法化簡(jiǎn)的網(wǎng)絡(luò),在進(jìn)行社團(tuán)發(fā)現(xiàn)時(shí),其結(jié)果與不經(jīng)處理就進(jìn)行社團(tuán)發(fā)現(xiàn) 的網(wǎng)絡(luò)精度偏差不大;
[0037] (4)通過該方法處理后的網(wǎng)絡(luò),在進(jìn)行社團(tuán)發(fā)現(xiàn)時(shí)能極大的提高計(jì)算效率。
[0038] 本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書中闡述,并且,部分的從說(shuō)明書中變 得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說(shuō)明 書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
【附圖說(shuō)明】
[0039] 附圖僅用于示出具體實(shí)施例的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制,在整個(gè)附圖 中,相同的參考符號(hào)表不相同的部件。
[0040] 圖1為社團(tuán)發(fā)現(xiàn)過程圖;
[0041 ]圖2(a)為共引關(guān)系節(jié)點(diǎn)示意圖;
[0042]圖2(b)為耦合關(guān)系節(jié)點(diǎn)示意圖;
[0043]圖2(c)為傳遞關(guān)系節(jié)點(diǎn)示意圖;
[0044]圖3為采用本發(fā)明進(jìn)行化簡(jiǎn)前后對(duì)比示意圖。
【具體實(shí)施方式】
[0045]下面結(jié)合附圖來(lái)具體描述本發(fā)明的優(yōu)選實(shí)施例,其中,附圖構(gòu)成本申請(qǐng)一部分,并 與本發(fā)明的實(shí)施例一起用于闡釋本發(fā)明的原理。
[0046] 本發(fā)明的目的是提供一種基于節(jié)點(diǎn)相似性計(jì)算的網(wǎng)絡(luò)化簡(jiǎn)方法,作為復(fù)雜網(wǎng)絡(luò)社 團(tuán)發(fā)現(xiàn)的預(yù)處理階段,使用該方法可以在對(duì)有向網(wǎng)絡(luò)進(jìn)行化簡(jiǎn)的同時(shí),保證社團(tuán)發(fā)現(xiàn)精確 度,從而提升網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)的效率,該方法具有良好的擴(kuò)展性,可以和主流的社團(tuán)發(fā)現(xiàn)算法 相結(jié)合使用,從而提高社團(tuán)發(fā)現(xiàn)過程的整體效率。其整個(gè)過程如圖1所示。本發(fā)明的主要內(nèi) 容涵蓋從流程1至5,為社團(tuán)發(fā)現(xiàn)的預(yù)處理部分,6至8部分為目前現(xiàn)有的成果,主要為表明整 個(gè)流程的完整性和化簡(jiǎn)方法的通用擴(kuò)展性。
[0047] 通過一系列的計(jì)算,得出網(wǎng)絡(luò)中連邊關(guān)系的重要性,然后根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的特性將 部分非重要連邊刪除,從而達(dá)到網(wǎng)絡(luò)化簡(jiǎn)的效果。
[0048] 本方法的輸入為一張有向網(wǎng)絡(luò),例如現(xiàn)實(shí)中的微博網(wǎng)絡(luò),存在關(guān)注、非關(guān)注和雙向 關(guān)注,通話網(wǎng)絡(luò)中,也存在通話發(fā)起方和接聽方。以此形成的關(guān)系網(wǎng)絡(luò)被稱為有向網(wǎng)絡(luò)。而 例如同事同學(xué)關(guān)系,不存在單向關(guān)系,故屬于無(wú)向網(wǎng)絡(luò)。
[0049] 本方法第一步是對(duì)輸入的網(wǎng)絡(luò)中的節(jié)點(diǎn)對(duì)進(jìn)行相似性計(jì)算。以節(jié)點(diǎn)對(duì)相似性來(lái)度 量節(jié)點(diǎn)間連邊的重要性。例如網(wǎng)絡(luò)中有相連的節(jié)點(diǎn)i和節(jié)點(diǎn)j,則根據(jù)相似性計(jì)算得出的數(shù) 值較高,表明節(jié)點(diǎn)i和節(jié)點(diǎn)j有著較強(qiáng)的聯(lián)系,即他們之間的邊很重要,那么在后續(xù)的化簡(jiǎn) 中,將不會(huì)剔除兩節(jié)點(diǎn)間的連邊。
[0050] 在無(wú)向網(wǎng)絡(luò)中,節(jié)點(diǎn)間的連接沒有方向性。而在有向網(wǎng)絡(luò)中,兩個(gè)節(jié)點(diǎn)間的關(guān)系傳 統(tǒng)上歸納為共引、耦合和傳遞.如圖2所示。
[0051] Ad j+(i)表示有向網(wǎng)絡(luò)G中指向節(jié)點(diǎn)i的節(jié)點(diǎn)的集合,該集合中元素個(gè)數(shù)等于節(jié)點(diǎn)i 的入度丨4+。設(shè)i和j分別表示網(wǎng)絡(luò)中節(jié)點(diǎn)對(duì)中的節(jié)點(diǎn),Ad j + (i)表示網(wǎng)絡(luò)中指向