一種基于子模優(yōu)化的并行異常子圖檢測方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種基于子模優(yōu)化的并行異常子圖檢測方 法與系統(tǒng)。
【背景技術(shù)】
[0002] 目前,隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,人類進入了信息爆炸時代,但在人們享受到巨 大方便的同時,也不得不面對信息安全問題的嚴峻考驗。因此,在處理擁有海量、多維度數(shù) 據(jù)的數(shù)據(jù)集合時,異常檢測成為至關(guān)重要的過程。
[0003] 異常檢測(anomalydetection)或者異常值檢測(outlierdetection)被定義為 在數(shù)據(jù)集中檢測識別不符合被廣泛驗證的數(shù)據(jù)模式的記錄、實體或事件的過程。一般來說, 異常檢測可以應(yīng)用到很多類實際問題的解決過程中,例如銀行詐騙檢測、結(jié)構(gòu)評估、藥物作 用分析,以及文本糾錯處理等等。而在這些應(yīng)用場景中,異常項可以被靈活地定義為異常數(shù) 據(jù)值、噪聲數(shù)據(jù)、異常誤差或者異常期望等不同形式。
[0004] 現(xiàn)有技術(shù)中,通常采用串行的方法實現(xiàn)異常檢測,但是隨著數(shù)據(jù)的飛速增長,現(xiàn)有 的方法已不再適用。因此,對于擁有海量數(shù)據(jù)的數(shù)據(jù)集合,如何實現(xiàn)快速準確的異常檢測, 是本領(lǐng)域技術(shù)人員亟需解決的問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供一種基于子模優(yōu)化的并行異常子圖檢測方法與系統(tǒng),以實現(xiàn)快速準確 的求解異常子圖。
[0006] 第一方面,本發(fā)明提供一種基于子模優(yōu)化的并行異常子圖檢測方法,包括:
[0007] 對需要異常子圖檢測的圖建立非參數(shù)化的異常子圖檢測模型;
[0008] 將所述異常子圖檢測模型轉(zhuǎn)換為具有子模性質(zhì)的異常子圖檢測模型;
[0009] 對所述具有子模性質(zhì)的異常子圖檢測模型進行并行迭代,確定所述圖中的異常子 圖。
[0010] 第二方面,本發(fā)明提供一種基于子模優(yōu)化的并行異常子圖檢測系統(tǒng),包括:
[0011] 模型建立模塊,用于對需要異常子圖檢測的圖建立非參數(shù)化的異常子圖檢測模 型;
[0012] 轉(zhuǎn)換模塊,用于將所述異常子圖檢測模型轉(zhuǎn)換為具有子模性質(zhì)的異常子圖檢測模 型;
[0013] 處理模塊,用于對所述具有子模性質(zhì)的異常子圖檢測模型進行并行迭代,確定所 述圖中的異常子圖。
[0014] 本發(fā)明一種基于子模優(yōu)化的并行異常子圖檢測方法與系統(tǒng),通過對需要異常子圖 檢測的圖建立非參數(shù)化的異常子圖檢測模型,并將所述異常子圖檢測模型轉(zhuǎn)換為具有子模 性質(zhì)的異常子圖檢測模型,最終對所述具有子模性質(zhì)的異常子圖檢測模型進行并行迭代, 確定所述圖中的異常子圖,由于采用了具有子模性質(zhì)的異常子圖檢測模型,而且采用并行 迭代方式,因此針對包含大量節(jié)點的需要檢測的圖來說,可以快速準確的得到其中的異常 子圖。
【附圖說明】
[0015] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0016] 圖1為本發(fā)明基于子模優(yōu)化的并行異常子圖檢測方法一實施例的流程示意圖;
[0017] 圖2為本發(fā)明基于子模優(yōu)化的并行異常子圖檢測系統(tǒng)一實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0018] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0019] 圖1為本發(fā)明基于子模優(yōu)化的并行異常子圖檢測方法一實施例的流程示意圖。如 圖1所示,本實施例的基于子模優(yōu)化的并行異常子圖檢測方法,包括:
[0020] 步驟101、對需要異常子圖檢測的圖建立非參數(shù)化的異常子圖檢測模型;
[0021] 步驟102、將所述異常子圖檢測模型轉(zhuǎn)換為具有子模性質(zhì)的異常子圖檢測模型;
[0022] 步驟103、對所述具有子模性質(zhì)的異常子圖檢測模型進行并行迭代,確定所述圖中 的異常子圖。
[0023] 具體來說,對于異常子圖檢測問題來說,首先需要建立異常子圖檢測模型,而實際 應(yīng)用中,異常子圖檢測問題可以用于多種應(yīng)用中,根據(jù)是否對數(shù)據(jù)進行前提的分布假設(shè),其 方法可以分為參數(shù)化模型方法和非參數(shù)化模型方法。由于在現(xiàn)實中,對數(shù)據(jù)進行參數(shù)的估 計很難,并且不恰當?shù)膮?shù)會直接影響到問題求解的準確度,因此在本發(fā)明中采取非參數(shù) 化的異常子圖檢測模型進行求解。
[0024] 其次,由于子模優(yōu)化算法對于很多NP問題,可以給出可接受時間內(nèi)的近似解,求 解能力強,并且子模優(yōu)化算法可以給出最壞情形下的近似度,而且非參數(shù)化的異常子圖檢 測模型的函數(shù)可能并不具有子模函數(shù)的性質(zhì)。因此,我們需要將所述異常子圖檢測模型轉(zhuǎn) 換為近似的子模優(yōu)化模型,即具有子模性質(zhì)的異常子圖檢測模型。
[0025] 本發(fā)明中可以將該非參數(shù)化的異常子圖檢測模型的函數(shù)轉(zhuǎn)換成兩個子模函數(shù)之 差,并進行近似從而得到該函數(shù)的一個具有子模性質(zhì)的下界函數(shù)。
[0026] 對大規(guī)模數(shù)據(jù)的并行算法的設(shè)計
[0027] 子模優(yōu)化算法通過將機器學習的問題轉(zhuǎn)化成子模優(yōu)化問題,應(yīng)用子模最大化算法 來進行求解時,可以為該問題提供一種理論上最差情況可保證的解決方案。盡管很多算法 都能夠在理論上達到最后的效果,但是在實際中,這些算法并不能應(yīng)用到大規(guī)模的數(shù)據(jù)處 理中。因此,本發(fā)明中采用并行化的方法對具有子模性質(zhì)的異常子圖檢測模型進行求解。
[0028] 在實際應(yīng)用中,可選地,作為一種可實施的方式,步驟101具體可以通過如下方式 實現(xiàn):
[0029] 根據(jù)BJ統(tǒng)計模型對所述需要異常子圖檢測的圖建立所述異常子圖檢測模型 FJS),如公式⑴所示:
[0030] Fbj(S) = r(S)-g(S) (1)
[0031]其中,r⑶=-N⑶l〇gN⑶;
[0032]
[0033] 其中,Να⑶=|Vl,Vies,p(vJ彡a|,N(S) = |S| ;sy,s表示異常子圖 G(S,Es,p)的節(jié)點集合,示所述G(S,Es,p)中邊的集合,p表示節(jié)點與[0, 1]之間的值 的映射函數(shù),V表示所述需要異常子圖檢測的圖的節(jié)點集合;α表示預(yù)設(shè)的臨界值;|S|表 示所述S中節(jié)點的總數(shù);p(Vi)表示節(jié)點¥;在所述映射函數(shù)P下的映射值。
[0034] 具體來說,假設(shè)存在圖G= {V,E,p},其中V= {VdV2, . . .,Vk}代表著圖中的節(jié)點 集合,k= |V|代表著節(jié)點的總數(shù),E代表著邊的集合,p代表著一個映射函數(shù),該函數(shù)將節(jié) 點v與[0, 1]之間的值映射起來。異常子圖檢測的目的是找到圖的一個子集S,使得SeP, 且S為一個連通的子圖,并且整個子集S的異常值最高。在本發(fā)明中利用非參數(shù)化的異常 子圖檢測模型對異常子圖檢測問題進行求解。其中非參數(shù)化的異常子圖檢測模型可以形式 化的定義為:
[0035]
[0036] 其中Να⑶=|Vl,VlEhpWJ冬α|,N⑶=|S| ;公瓦⑶f甲的α代表了指 定的臨界值;公式(a)中的函數(shù)辦為一個非參數(shù)化的模型函數(shù),在假設(shè)ρ值分布服從于 [0,1]之間的均勻分布下,它比較在檢驗水平為α時可觀測到的ρ值與期望的ρ值個數(shù)。
[0037] 非參數(shù)的統(tǒng)計模型可以有多重定義形式,例如Berk-Jones(BJ)統(tǒng)計形式,Higher Criticism(HC)統(tǒng)計形式,Kolmogorov-Smirnov(KS)統(tǒng)計形式等。在本發(fā)明中我們利用BJ 統(tǒng)計模型。BJ統(tǒng)計模型被定義為:
[0038]
[0039]其中KL代表了KL散度(Killback-Lieblerdivergence):
[0040]
[0041] 通過公式(b)和公式(c)得到異常子圖檢測問題模型FB;(S),如公式⑴所示:
[0042] Fbj(S) = r(S)-g(S) (1)
[0043]其中,r⑶=-N⑶logN⑶;
[0044]
[0045] 在買際應(yīng)用中,口」選地,作為一柙口」買施的萬式,步驟102具體π」以通過如下方式 實現(xiàn):
[0046]將連通分量作為懲罰因子生成所述異常子圖檢測模型的目標函數(shù),如公式(2)所 示:
[0047] FASD (S) =r(S)-g(S) +λφ⑶(2)
[0048] 將所述目標函數(shù)中的g(S)用子模函數(shù)代替,生成具有子模性質(zhì)的目標函數(shù),將所 述目標函數(shù)作為所述異常子圖檢測模型,如公式(3)所示:
[0049]
[0050]其中,Φ(S) =-[c(S)-(|V|-|S|)-l]表示懲罰因子,c(S)表示所述G(V,Es,p)中 的連通分量的數(shù)目,以|-|3|表示子圖6(>\33