基于指數(shù)平滑、集成學(xué)習(xí)模型的多級異常檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種對異常模式建模的檢測方法,尤其包含適用于海量數(shù)據(jù)場景下常 駐快速篩選的指數(shù)平滑、統(tǒng)計(jì)檢測技術(shù)和適用于并行檢測的集成學(xué)習(xí)分類技術(shù)。
【背景技術(shù)】
[0002] 利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)可以智能發(fā)掘大數(shù)據(jù)中的異常模式。異常檢測也是 數(shù)據(jù)挖掘中有著廣泛實(shí)用場景的熱點(diǎn)問題,例如網(wǎng)絡(luò)環(huán)境中的入侵檢測、金融行業(yè)中的信 用卡欺詐檢測、電信行業(yè)中的業(yè)務(wù)違規(guī)檢測、醫(yī)療健康行業(yè)中的新型流行病發(fā)現(xiàn)等,合理有 效的應(yīng)用異常檢測可以為相關(guān)組織或個人挽回高額的資金損失甚至保護(hù)人的生命安全。
[0003] 常用的異常檢測技術(shù)主要有如下幾大類:基于分類的異常檢測、基于聚類的異常 檢測、基于統(tǒng)計(jì)理論的異常檢測、基于信息論的異常檢測和基于譜方法的異常檢測。其中基 于統(tǒng)計(jì)的方法依賴于理想化的概率分布假設(shè),雖然計(jì)算速度最快,但是很多情形下,由于假 設(shè)不能很好的刻畫應(yīng)用問題的本質(zhì)結(jié)構(gòu),導(dǎo)致準(zhǔn)確性不高,尤其是假警報(bào)的比例過高?;?分類、聚類、信息論等方式的異常檢測算法可以使用較為復(fù)雜的機(jī)器學(xué)習(xí)模型,預(yù)測的準(zhǔn)確 性能得到模型泛化能力的保障,但是多數(shù)模型訓(xùn)練過程計(jì)算復(fù)雜度較高,無法適用于在線 實(shí)時(shí)的檢測。
[0004] 集成學(xué)習(xí)是近年來機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn),也是實(shí)際應(yīng)用中最為強(qiáng)大工具之一。作 為最為有名的數(shù)據(jù)挖掘競賽KDD-Cup,從1997年開始,每年舉辦一屆,而從2009年至今, 每年至少前兩名都使用了集成學(xué)習(xí)的思想;另外一個同樣著名的推薦算法競賽Netflix Prize,成為冠軍并獲得100萬美金獎勵的PragmaticChaos團(tuán)隊(duì)就使用了集成學(xué)習(xí)的方 法,而屈居亞軍的團(tuán)隊(duì)隊(duì)名就是TheEnsemble(集成學(xué)習(xí)的英文名)。集成學(xué)習(xí)的思想是就 是訓(xùn)練多個預(yù)測模型,通過對多個預(yù)測模型預(yù)測結(jié)果的合成來得到最終結(jié)果。理論和實(shí)踐 兩方面都能證明,多個弱分類器集成學(xué)習(xí)的效果甚至可以大大超過一個強(qiáng)分類器。
[0005] 隨機(jī)森林就是應(yīng)用集成學(xué)習(xí)思想的一個分類器模型,它通過將多個子決策樹的集 成得到一個強(qiáng)分類器。集成學(xué)習(xí)效果一方面取決于子分類器本身的能力強(qiáng)弱,另一方面取 決于子分類器之間的關(guān)聯(lián)程度。提高子分類器的預(yù)測能力、減少子分類器之間的關(guān)聯(lián)性都 可以優(yōu)化集成學(xué)習(xí)的效果。隨機(jī)森林模型通過
[0006] ①有放回的隨機(jī)構(gòu)造每個子決策樹的訓(xùn)練集合,
[0007] ②隨機(jī)選取屬性子集來劃分每個子決策樹的內(nèi)部節(jié)點(diǎn),這兩種方式來降低子決策 樹之間的關(guān)聯(lián)性,因此該模型具有良好的泛化能力。不僅如此,子分類器的獨(dú)立性使得多個 子決策樹的構(gòu)造可以利用并行計(jì)算方式提高訓(xùn)練速度,隨機(jī)選取特征子集的做法進(jìn)一步減 少了子決策樹的訓(xùn)練時(shí)間。
[0008] 本發(fā)明將異常檢測的過程分為粗粒度和細(xì)粒度兩個層次進(jìn)行,第一級采用統(tǒng)計(jì)的 方式,快速篩選潛在異常記錄,該層次的處理技術(shù)可以做到實(shí)時(shí)和常駐,第二級,將上述的 潛在異常記錄輸入到用給定訓(xùn)練數(shù)據(jù)集訓(xùn)練出來的隨機(jī)森林模型,進(jìn)行細(xì)粒度的檢測,輸 出最終的判定結(jié)果。其中第二級的模型訓(xùn)練能以較長的周期進(jìn)行離線更新,當(dāng)新檢測出的 異常記錄超過一定數(shù)目后,可以再次訓(xùn)練。兩級結(jié)合的建模和預(yù)測方式,在實(shí)時(shí)性和準(zhǔn)確性 兩個方面做了平衡,打破了傳統(tǒng)異常檢測方法的單一性,并行訓(xùn)練的方式可以更有效的運(yùn) 用當(dāng)今多核處理器的運(yùn)算能力,提高異常檢測的速度。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明所要解決的技術(shù)問題是,大數(shù)據(jù)異常檢測建模,并在該模型下實(shí)現(xiàn)具有在 線常駐能力兼顧準(zhǔn)確性的異常檢測方法。
[0010] 為解決上述問題,本發(fā)明的技術(shù)方案,基于指數(shù)平滑、滑動窗口分布統(tǒng)計(jì)和集成學(xué) 習(xí)模型的多級異常檢測方法,包括如下步驟:
[0011] 1)統(tǒng)計(jì)檢測階段:
[0012] a根據(jù)應(yīng)用場景確定關(guān)鍵特征集合;
[0013]b對離散特征,用滑動窗口分布直方圖建模,對連續(xù)特征,用指數(shù)平滑建模;
[0014]c實(shí)時(shí)監(jiān)測并輸入各個關(guān)鍵特征的觀測值,以閾值規(guī)則判定潛在異常樣例,并作標(biāo) 記輸出;
[0015]d結(jié)束。
[0016] 2)集成學(xué)習(xí)訓(xùn)練階段:
[0017] a利用已經(jīng)標(biāo)記正常和異常樣例,組成訓(xùn)練數(shù)據(jù)集合;
[0018]b訓(xùn)練構(gòu)造隨機(jī)森林分類模型;
[0019]c結(jié)束。
[0020]3)集成學(xué)習(xí)分類階段:
[0021] a獲取步驟1-c階段得到的潛在異常樣例;
[0022] b將每一個異常樣例輸入到2階段得到的隨機(jī)森林分類模型中;
[0023]c模型給出針對每個樣例的預(yù)測;
[0024]d結(jié)束。
[0025] 步驟I) _a中所述的關(guān)鍵特征為抽取數(shù)據(jù)樣例中與異常檢測相關(guān)的維度,即電信 違規(guī)業(yè)務(wù)檢測中的用戶類型、入網(wǎng)、過戶、停復(fù)機(jī)、補(bǔ)卡、銷戶、積分兌換、賬戶消費(fèi)、國際長 途、漫游、資料變更以及各項(xiàng)操作的時(shí)間等關(guān)鍵特征。
[0026] 步驟l)_b中所述的離散特征指的是取值為離散數(shù)值或類別名稱的特征(例如用 戶類型這個特征可以有普通號、預(yù)配號、吉祥號、非吉祥號等幾個類別),所述的連續(xù)特征指 的是取值為連續(xù)無界數(shù)值的特征(例如賬本消費(fèi)記錄)。
[0027] 進(jìn)一步,滑動窗口分布統(tǒng)計(jì)和指數(shù)平滑的建模具體過程如下:
[0028] 1)對關(guān)鍵特征集合中的每項(xiàng)特征XiE{xs|s<N},判斷其所屬類型,如果是離散 特征,則執(zhí)行2),如果是連續(xù)特征,則執(zhí)行3);
[0029] 2)指定時(shí)間窗口[h,tfk],在該時(shí)間窗口上統(tǒng)計(jì)其在各個取值上的概率分布 Pp^clxt.),這里CeR(Xi),并統(tǒng)計(jì)時(shí)間窗口內(nèi)所包含樣例的總數(shù)目
[0030] 3)讀取對應(yīng)的時(shí)序數(shù)據(jù)序列Ics(Xi)Is<k},采用指數(shù)平滑公式對未來取值進(jìn)行 建模:
[0031] Ct(Xi)=E/=〇cf(l"a)J >k),
[0032] 其中a為平滑參數(shù);
[0033] 4)結(jié)束。
[0034] 步驟I)-c的具體過程如下:
[0035] 1)實(shí)時(shí)監(jiān)測新的記錄,讀入每條新記錄rnOT,迭代監(jiān)測rnOT的每項(xiàng)關(guān)鍵特征 XiGIxs IS彡N},若Xi為離散特征,則執(zhí)行2),否則,執(zhí)行3);
[0036] 2)對離散特征取值rnew(Xi),進(jìn)行閾值判定p