專利名稱:基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)異常檢測(cè)方法,特別是涉及一種基于多尺 度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法。背景技術(shù):
在當(dāng)今的因特網(wǎng)環(huán)境下,各種異常行為(如拒絕服務(wù)攻擊、蠕蟲、 突發(fā)流等)頻繁發(fā)生。有效地檢測(cè)異常行為對(duì)于保證網(wǎng)絡(luò)的可靠運(yùn)行具有重要意義。由于 網(wǎng)絡(luò)異常行為通常具有不同的模式,且隱藏在復(fù)雜的背景流量中,因此網(wǎng)絡(luò)異常檢測(cè)是一 件極具挑戰(zhàn)性的任務(wù)。由于網(wǎng)絡(luò)異常行為大都伴隨著網(wǎng)絡(luò)流量的顯著變化,所以大部分研究都是通過被 動(dòng)監(jiān)測(cè)和分析單條鏈路流量的變化來檢測(cè)異常。例如,Barford等人利用小波變換方法分 析IP流和SNMP數(shù)據(jù),從而揭示四種不同的流量異常特征。這類方法利用鏈路流量的時(shí)間 相關(guān)性(temporal correlation),采用多尺度(multiscale)分析方法,取得了較好的檢測(cè) 效果。然而,這類方法僅僅考慮單條鏈路的流量,其異常檢測(cè)能力是有限的,原因在于許多 異常行為影響網(wǎng)絡(luò)中多條鏈路和路徑,其在單條鏈路和路徑上呈現(xiàn)的異常現(xiàn)象有時(shí)并不明 顯。針對(duì)這一問題,Lakhina等人首次采用流量矩陣作為數(shù)據(jù)源,提出了一種基于主成分分 析(PCA)的全網(wǎng)絡(luò)(network-wide)異常檢測(cè)方法。這類方法利用多條鏈路流量之間的空 間相關(guān)性(spatial correlation),將流量矩陣高維數(shù)據(jù)映射到正常子空間和異常子空間, 然后在異常子空間中檢測(cè)凸顯的異常行為模式。然而,基于PCA的網(wǎng)絡(luò)異常檢測(cè)方法屬于 單尺度(single-scale)分析方法,它僅僅考慮了流量矩陣數(shù)據(jù)的空間相關(guān)性,并沒有考慮 流量矩陣數(shù)據(jù)的時(shí)間相關(guān)性。自1987年Derming提出異常檢測(cè)統(tǒng)計(jì)模型以來,網(wǎng)絡(luò)異常檢測(cè)方法的研究就一直 受到學(xué)術(shù)界的廣泛關(guān)注。根據(jù)異常檢測(cè)范圍的不同,我們可以將這些方法分為三類基于主 機(jī)的異常檢測(cè)方法、基于單鏈路流量的網(wǎng)絡(luò)異常檢測(cè)方法和基于流量矩陣的全網(wǎng)絡(luò)異常檢 測(cè)方法?;谥鳈C(jī)的異常檢測(cè)方法的基本思想是采用主機(jī)系統(tǒng)的系統(tǒng)日志或?qū)徲?jì)記錄作 為異常檢測(cè)數(shù)據(jù)源,應(yīng)用機(jī)器學(xué)習(xí)等方法建立用戶的正常行為模式,然后以某種測(cè)度來度 量用戶偏離正常行為模式的程度,從而檢測(cè)網(wǎng)絡(luò)入侵行為?;趩捂溌妨髁康木W(wǎng)絡(luò)異常檢測(cè)方法是通過被動(dòng)監(jiān)測(cè)和分析單條鏈路流量的變 化來檢測(cè)異常。這類方法的基本思想是利用鏈路流量的時(shí)間相關(guān)性,采用小波變換等多分 辨率分析方法對(duì)流量數(shù)據(jù)進(jìn)行多尺度分析,將確定性信號(hào)和隨機(jī)性信號(hào)分離,從而揭示各 種異常行為?;诹髁烤仃嚨娜W(wǎng)絡(luò)異常檢測(cè)是近年來興起的一種網(wǎng)絡(luò)異常檢測(cè)新方法,它主 要針對(duì)單鏈路流量異常檢測(cè)方法的局限性,利用流量矩陣的空間相關(guān)性和時(shí)間相關(guān)性,應(yīng) 用各種多元統(tǒng)計(jì)分析方法或信號(hào)處理方法,從全網(wǎng)絡(luò)的視角檢測(cè)異常行為。Lakhina等人采 用流量矩陣作為數(shù)據(jù)源,首次揭示了流量矩陣具有低維度特性,分析了特征流的特性,并以 此為基礎(chǔ)提出了一種基于PCA的全網(wǎng)絡(luò)異常檢測(cè)方法,試驗(yàn)表明該方法的檢測(cè)性能明顯優(yōu) 于傳統(tǒng)的單鏈路流量時(shí)間序列方法;Ringberg等人進(jìn)一步指出PCA異常檢測(cè)器面臨的四個(gè) 挑戰(zhàn),其中包括正常子空間中主成分?jǐn)?shù)對(duì)檢測(cè)性能的影響、流量聚合級(jí)別對(duì)算法有效性的影響、異常流 量對(duì)正常子空間的毒害等;Rubinstein等人則利用了 PCA異常檢測(cè)器的缺陷, 提出了 4種數(shù)據(jù)毒害機(jī)制,并提出一種基于健壯PCA的異常檢測(cè)方法,有效地抵御毒害攻 擊。這類方法的基本思想都是利用多條鏈路流量之間的空間相關(guān)性,采用PCA方法獲得流 量矩陣高維數(shù)據(jù)的主成分,分別建立正常子空間和異常子空間,然后在異常子空間中檢測(cè) 凸顯的異常行為模式。這類方法的不足之處在于僅僅利用了流量矩陣的空間相關(guān)性,而沒 有利用流量矩陣的時(shí)間相關(guān)性。為此,Brauckhoff等人同時(shí)考慮流量矩陣的空間相關(guān)性和 時(shí)間相關(guān)性,將PCA推廣到Karhunen-Loveve變換展開式(KLE),提出了一種基于Galerkin 的KLE計(jì)算方法,然后使用KLE建立一種預(yù)測(cè)模型并用于異常檢測(cè),試驗(yàn)證實(shí)KLE方法取得 了優(yōu)于PCA的檢測(cè)性能。但是,KLE方法僅僅利用了固定時(shí)間間隔的測(cè)量數(shù)據(jù)之間的時(shí)間 相關(guān)性,不具有小波變換具有多分辨率分析能力;此外,KLE方法同樣屬于離線算法,無法 實(shí)時(shí)地檢測(cè)異常。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的缺陷,提供一種基于多尺度主成分 分析的網(wǎng)絡(luò)異常檢測(cè)方法及網(wǎng)絡(luò)異常在線檢測(cè)方法,該方法利用流量矩陣的時(shí)空相關(guān)性, 結(jié)合小波變換的多尺度建模能力和主成分分析的降維能力對(duì)網(wǎng)絡(luò)的異常情況進(jìn)行檢測(cè),其 檢測(cè)性優(yōu)于PCA算法和KLE算法,而且網(wǎng)絡(luò)異常在線檢測(cè)方法的單步執(zhí)行時(shí)間短,完全滿足 實(shí)時(shí)檢測(cè)的需要。本發(fā)明的技術(shù)方案一種基于多尺度主成分分析(MSPCA)的網(wǎng)絡(luò)異常檢測(cè)方法,利用流量矩陣的時(shí)空 相關(guān)性,結(jié)合小波變換的多尺度建模能力和主成分分析(Principal Component Analysis, PCA)的降維能力,對(duì)流量矩陣中的正常流量進(jìn)行建模,然后對(duì)殘余流量進(jìn)行分析,從而實(shí)現(xiàn) 網(wǎng)絡(luò)的異常檢測(cè)。定義1:流量矩陣流量矩陣是指一個(gè)網(wǎng)絡(luò)中所有源節(jié)點(diǎn)和目的節(jié)點(diǎn)對(duì)(即OD對(duì))之間的流量需求 (traffic demand)。根據(jù)選擇的網(wǎng)絡(luò)節(jié)點(diǎn)類型的不同,可以定義不同粒度的流量矩陣鏈路 級(jí)、路由級(jí)和PoP級(jí)(Point of Presence)流量矩陣。定義2:PoP級(jí)流量矩陣假設(shè)某自治系統(tǒng)(Autonomous System, AS)有η個(gè)PoP點(diǎn),以一定的時(shí)間間隔(周 期)連續(xù)地被動(dòng)測(cè)量任意一對(duì)PoP點(diǎn)之間的流量,然后將獲得的測(cè)量值排列成一個(gè)TXp的 矩陣X,它表示所有這些流量測(cè)量值的時(shí)間序列。其中,T表示測(cè)量的周期數(shù),ρ表示每個(gè)周 期內(nèi)測(cè)量獲得的流量測(cè)量值的個(gè)數(shù),即ρ = ηΧη ;第t行表示在第t個(gè)周期內(nèi)流量測(cè)量值 的向量,通常用^表示,第j列表示第j個(gè)PoP點(diǎn)對(duì)之間流量測(cè)量值的時(shí)間序列。矩陣χ稱 為AS的PoP級(jí)流量矩陣,簡稱為流量矩陣。本發(fā)明采用流量大小(字節(jié)數(shù)、分組數(shù)和流數(shù)) 作為流量測(cè)度,因此流量矩陣的任一元素~表示第t個(gè)間隔時(shí)間內(nèi)第j個(gè)OD對(duì)之間的流 量大小。對(duì)流量矩陣中的正常流量進(jìn)行建模的方法含有以下步驟第1步流量矩陣的小波分解首先采用標(biāo)準(zhǔn)正交小波變換對(duì)流量矩陣⑴進(jìn)行 多尺度分解,獲得各個(gè)尺度的小波系數(shù)矩陣(ZyYmOii= 1,...,L)),然后采用中位絕對(duì)偏差(Median Absolute Deviation, MAD)方法對(duì)各個(gè)尺度的小波系數(shù)矩陣(ZL, Ym(m = 1,…, L))進(jìn)行過濾,獲得過濾后的各個(gè)尺度的小波系數(shù)矩陣(尾無(m = 1,. . .,L)); 第2步小波系數(shù)矩陣的主成分分析和重構(gòu)首先對(duì)過濾后的各個(gè)尺度的小波系 數(shù)矩陣(足,fm (m = 1,. . .,L))進(jìn)行主成分分析(PCA);然后根據(jù)碎石圖(scree plot)方 法選擇PC的數(shù)目;最后重構(gòu)出各個(gè)尺度的重構(gòu)小波系數(shù)矩陣(之,之(m = 1,...,L));第3步流量矩陣的小波重構(gòu)根據(jù)各個(gè)尺度的重構(gòu)小波系數(shù)矩陣(之,t (m = 1,. . .,L)),采用小波逆變換(Wt)重構(gòu)出第一重構(gòu)流量矩陣;第4步流量矩陣的主成分分析和重構(gòu)首先對(duì)第一重構(gòu)流量矩陣進(jìn)行主成分分 析(PCA);然后根據(jù)碎石圖(scree plot)方法選擇PC的數(shù)目;最后重構(gòu)出第二重構(gòu)流量矩 陣(I)0對(duì)流量矩陣(X)中的正常流量進(jìn)行建模后,殘余流量主要由兩部分組成噪聲流 量和突發(fā)流量,其中,噪聲流量主要是由正常流量的模型的誤差引起的,而突發(fā)流量主要是 由各種異常行為引起的;所述殘余流量分析采用兩種控制圖方法來實(shí)現(xiàn),兩種控制圖方法 為Shewart控制圖方法和EWMA控制圖方法;Shewart控制圖方法可快速檢測(cè)出流量的急劇 變化,而在檢測(cè)緩慢變化的異常流量時(shí)速度較慢;在選擇合適的參數(shù)后,EWMA控制圖方法 可檢測(cè)變化緩慢但持續(xù)時(shí)間較長的異常流量。EWMA控制圖方法適合于檢測(cè)較小的異常流量,而Shewart控制圖方法適合于檢測(cè) 較大的異常流量。Shewart控制圖方法直接對(duì)平方預(yù)測(cè)誤差(Squared Prediction Error, SPE)的
時(shí)間序列進(jìn)行檢測(cè),平方預(yù)測(cè)誤差記作Qi,Qi的計(jì)算公式為 ρ
權(quán)利要求
1.一種基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法,其特征是利用流量矩陣的時(shí)空 相關(guān)性,結(jié)合小波變換的多尺度建模能力和主成分分析的降維能力,對(duì)流量矩陣中的正常 流量進(jìn)行建模,然后對(duì)殘余流量進(jìn)行分析,從而實(shí)現(xiàn)網(wǎng)絡(luò)的異常檢測(cè)。
2.根據(jù)權(quán)利要求1所述的基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法,其特征是對(duì) 流量矩陣中的正常流量進(jìn)行建模的方法含有以下步驟第1步流量矩陣的小波分解首先采用標(biāo)準(zhǔn)正交小波變換對(duì)流量矩陣(X)進(jìn)行多尺 度分解,獲得各個(gè)尺度的小波系數(shù)矩陣(4,Ym(m= 1,...,L)),然后采用中位絕對(duì)偏差方法 對(duì)各個(gè)尺度的小波系數(shù)矩陣(h,Ym(m= 1,...,L))進(jìn)行過濾,獲得過濾后的各個(gè)尺度的小 波系數(shù)矩陣(瓦龍(111=1,...,0);第2步小波系數(shù)矩陣的主成分分析和重構(gòu)首先對(duì)過濾后的各個(gè)尺度的小波系數(shù)矩 陣(足,Fm (m = 1,. . .,L))進(jìn)行主成分分析;然后根據(jù)碎石圖方法選擇PC的數(shù)目;最后重 構(gòu)出各個(gè)尺度的重構(gòu)小波系數(shù)矩陣(之,之(m = 1,...,L));第3步流量矩陣的小波重構(gòu)根據(jù)各個(gè)尺度的重構(gòu)小波系數(shù)矩陣(之,之(m= 1,..., L)),采用小波逆變換重構(gòu)出第一重構(gòu)流量矩陣;第4步流量矩陣的主成分分析和重構(gòu)首先對(duì)第一重構(gòu)流量矩陣進(jìn)行主成分分析 ’然 后根據(jù)碎石圖方法選擇PC的數(shù)目;最后重構(gòu)出第二重構(gòu)流量矩陣(1)。
3.根據(jù)權(quán)利要求2所述的基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法,其特征是對(duì) 流量矩陣(X)中的正常流量進(jìn)行建模后,殘余流量主要由兩部分組成噪聲流量和突發(fā)流 量,其中,噪聲流量主要是由正常流量的模型的誤差引起的,而突發(fā)流量主要是由各種異常 行為引起的;所述殘余流量分析采用兩種控制圖方法來實(shí)現(xiàn),兩種控制圖方法為Shewart 控制圖方法和EWMA控制圖方法;Shewart控制圖方法可快速檢測(cè)出流量的急劇變化,而在 檢測(cè)緩慢變化的異常流量時(shí)速度較慢;在選擇合適的參數(shù)后,EWMA控制圖方法可檢測(cè)變化 緩慢但持續(xù)時(shí)間較長的異常流量。
4.根據(jù)權(quán)利要求3所述的基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法,其特征是所 述Shewart控制圖方法直接對(duì)平方預(yù)測(cè)誤差的時(shí)間序列進(jìn)行檢測(cè),平方預(yù)測(cè)誤差記作Qi,Qi的計(jì)算公式為
5.根據(jù)權(quán)利要求4所述的基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法,其特征是所 述5 2表示置信度為1-α?xí)r平方預(yù)測(cè)誤差的閾值,所述α為0. 001,所述L等于j。
6.根據(jù)權(quán)利要求3所述的基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法,其特征是所 述EWMA控制圖方法根據(jù)最近的歷史數(shù)據(jù)預(yù)測(cè)時(shí)間序列下一時(shí)刻的值,在第t-Ι時(shí)刻殘余流 量的預(yù)測(cè)值記作i,第時(shí)刻殘余流量的實(shí)際值記作Qw,第t時(shí)刻殘余流量的預(yù)測(cè)值 記作4,則
7.根據(jù)權(quán)利要求6所述的基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法,其特征是當(dāng)t =O時(shí),殘余流量的預(yù)測(cè)值可根據(jù)經(jīng)驗(yàn)預(yù)置,預(yù)置的標(biāo)準(zhǔn)是使I Q1 -Q01< VCL成立。
8.一種含有所述基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法的網(wǎng)絡(luò)異常在線檢測(cè)方 法,其特征是采用滑動(dòng)窗口機(jī)制,并將檢測(cè)過程分為兩個(gè)階段初始化階段和滑動(dòng)階段, 在初始化階段,選取前WIN個(gè)測(cè)量數(shù)據(jù)構(gòu)成流量矩陣,針對(duì)該流量矩陣,應(yīng)用所述基于多尺 度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法進(jìn)行網(wǎng)絡(luò)異常檢測(cè);在滑動(dòng)階段,每隔一個(gè)測(cè)量間隔時(shí) 間,將最新的測(cè)量數(shù)據(jù)加入到滑動(dòng)窗口并將最舊的測(cè)量數(shù)據(jù)剔除,保持滑動(dòng)窗口的長度不變,滑動(dòng)窗口的長度為WIN,選取滑動(dòng)窗口內(nèi)的WIN個(gè)測(cè)量數(shù)據(jù)構(gòu)成流量矩陣,針對(duì)該流量 矩陣,應(yīng)用所述基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法進(jìn)行網(wǎng)絡(luò)異常檢測(cè),WIN為自然 數(shù)。
9.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)異常在線檢測(cè)方法,其特征是所述最新的測(cè)量數(shù)據(jù)為 流量矩陣中位于滑動(dòng)窗口內(nèi)行序號(hào)最大的行向量數(shù)據(jù),最舊的測(cè)量數(shù)據(jù)為流量矩陣中位于 滑動(dòng)窗口內(nèi)行序號(hào)最小的行向量數(shù)據(jù)。
10.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)異常在線檢測(cè)方法,其特征是所述WIN為2的倍數(shù)。
全文摘要
本發(fā)明涉及一種基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法;該方法為利用流量矩陣的時(shí)空相關(guān)性,結(jié)合小波變換的多尺度建模能力和主成分分析的降維能力,對(duì)流量矩陣中的正常流量進(jìn)行建模,然后對(duì)殘余流量進(jìn)行分析,從而實(shí)現(xiàn)網(wǎng)絡(luò)的異常檢測(cè);對(duì)流量矩陣中的正常流量進(jìn)行建模的方法含有流量矩陣的小波分解、小波系數(shù)矩陣的主成分分析和重構(gòu)、流量矩陣的小波重構(gòu)、流量矩陣的主成分分析和重構(gòu);對(duì)殘余流量的分析采用Shewart控制圖方法和EWMA控制圖方法來實(shí)現(xiàn);本發(fā)明提供一種基于多尺度主成分分析的網(wǎng)絡(luò)異常檢測(cè)方法及網(wǎng)絡(luò)異常在線檢測(cè)方法,其檢測(cè)性優(yōu)于PCA算法和KLE算法,而且在線檢測(cè)方法的單步執(zhí)行時(shí)間短。
文檔編號(hào)H04L12/26GK102111312SQ20111007566
公開日2011年6月29日 申請(qǐng)日期2011年3月28日 優(yōu)先權(quán)日2011年3月28日
發(fā)明者劉鳳榮, 商文忠, 姜關(guān)勝, 尹鋒, 左軍, 郝強(qiáng), 錢葉魁 申請(qǐng)人:錢葉魁