本發(fā)明涉及對(duì)網(wǎng)絡(luò)異常進(jìn)行檢測(cè)的技術(shù)領(lǐng)域,特別是一種基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法。
背景技術(shù):
當(dāng)前,因特網(wǎng)環(huán)境中經(jīng)常會(huì)出現(xiàn)各種網(wǎng)絡(luò)異常事件,如僵尸網(wǎng)絡(luò),僵尸網(wǎng)絡(luò)構(gòu)成一個(gè)攻擊平臺(tái),利用這個(gè)平臺(tái)可以有效地發(fā)起各種各樣的攻擊行為,可以導(dǎo)致整個(gè)基礎(chǔ)信息網(wǎng)絡(luò)或者重要應(yīng)用系統(tǒng)癱瘓,還可以導(dǎo)致大量機(jī)密或個(gè)人隱私泄漏;如蠕蟲(chóng)病毒爆發(fā),通過(guò)漏洞傳播的蠕蟲(chóng),往往會(huì)在爆發(fā)初期形成較為嚴(yán)重的危害,大量的攻擊和網(wǎng)絡(luò)探測(cè),會(huì)嚴(yán)重影響網(wǎng)絡(luò)的運(yùn)行速度甚至造成網(wǎng)絡(luò)癱瘓;又如網(wǎng)絡(luò)擁塞,當(dāng)網(wǎng)絡(luò)發(fā)生擁塞時(shí),一般會(huì)出現(xiàn)數(shù)據(jù)丟失、時(shí)延增加、吞吐量下降,嚴(yán)重時(shí)甚至?xí)?dǎo)致?lián)砣罎ⅰ?/p>
為解決這些問(wèn)題,通常需要檢測(cè)網(wǎng)絡(luò)異常流,然后對(duì)其識(shí)別、分類,但是,現(xiàn)有技術(shù)中的許多網(wǎng)絡(luò)異常流識(shí)別方法都只能針對(duì)單條鏈路的各條IP流進(jìn)行分析,例如,現(xiàn)有技術(shù)中有一種方法是基于關(guān)聯(lián)規(guī)則的異常流識(shí)別方法,以及采用非監(jiān)督根源分析的方法提出的一種異常流識(shí)別和分類方法,這兩種方法不適于布設(shè)在大規(guī)模的骨干網(wǎng)上,而對(duì)于ISP(Internet Service Provider,網(wǎng)絡(luò)服務(wù)提供商),必須動(dòng)態(tài)的監(jiān)視網(wǎng)絡(luò)流量變化,并需要對(duì)網(wǎng)絡(luò)流量具有全局性的視野,而隨著網(wǎng)絡(luò)規(guī)模和數(shù)據(jù)傳輸量的快速增長(zhǎng),對(duì)于骨干網(wǎng)上的每條流進(jìn)行監(jiān)控是項(xiàng)極為困難的任務(wù)。
而目前,對(duì)于適合對(duì)全網(wǎng)絡(luò)的每條流都進(jìn)行監(jiān)控的方法,許多研究都主要關(guān)注異常檢測(cè)問(wèn)題,而針對(duì)異常識(shí)別的研究卻比較少,但是如何從海量的IP流中識(shí)別出異常流并進(jìn)行異常分類往往比異常檢測(cè)對(duì)解決網(wǎng)絡(luò)問(wèn)題更為重要。例如,現(xiàn)有技術(shù)中有一種方法是將一部分流聚集起來(lái),采用流聚合模型進(jìn)行異常檢測(cè),雖然這種方法可以發(fā)現(xiàn)異常,但是流量聚集后卻難以保留網(wǎng)絡(luò)流量數(shù)據(jù)的許多關(guān)鍵信息,如IP地址、端口號(hào)等,由于信息的缺失,網(wǎng)絡(luò)管理者雖然能檢測(cè)到異常,但是卻無(wú)法確定異常流的IP地址、端口號(hào)等流量特征值,也不能對(duì)異常流集進(jìn)行分類,所以無(wú)法進(jìn)行異常原因的分析,結(jié)果并不能解決檢測(cè)到的網(wǎng)絡(luò)問(wèn)題。
基于上述原因,有必要提供一種基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明主要解決的技術(shù)問(wèn)題是提供一種基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法,解決現(xiàn)有技術(shù)中難以對(duì)全網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)異常流檢測(cè)、不能對(duì)全網(wǎng)絡(luò)中的異常流進(jìn)行識(shí)別,以及不能確定造成網(wǎng)絡(luò)異常的原因的問(wèn)題。
為解決上述技術(shù)問(wèn)題,本發(fā)明采用的一個(gè)技術(shù)方案是:提供一種基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法,該方法包括:
步驟S1,對(duì)全網(wǎng)絡(luò)中的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行粗粒度的異常識(shí)別,從該全網(wǎng)絡(luò)中提取出存在異常流量的節(jié)點(diǎn)對(duì),并確定該異常流量的特征類別;
步驟S2,基于該步驟S1提取的異常節(jié)點(diǎn)對(duì)以及所確定的異常流量特征類別進(jìn)行細(xì)粒度的異常識(shí)別,確定該異常節(jié)點(diǎn)對(duì)中的異常流量的特征值。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,還包括步驟S3,該步驟S3基于該步驟S2確定的異常流量特征值從該步驟S1確定的異常節(jié)點(diǎn)對(duì)采集異常流集,并根據(jù)流量特征信息對(duì)該異常流集中的異常流進(jìn)行分類。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,該步驟S1包括以下步驟:
步驟S101,從該全網(wǎng)絡(luò)中測(cè)量任意兩個(gè)節(jié)點(diǎn)之間的測(cè)度為流量特征熵的流量值,由該流量特征熵建立多維流量特征熵矩陣;
步驟S102,根據(jù)該多維流量特征熵矩陣檢測(cè)并提取出異常節(jié)點(diǎn)對(duì),并識(shí)別該異常節(jié)點(diǎn)對(duì)中異常流量的特征類別。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,該步驟S101中測(cè)量的流量特征熵包括網(wǎng)絡(luò)數(shù)據(jù)流的源IP地址、目的IP地址、源端口號(hào)和目的端口號(hào)這四種流量特征的流量特征熵;
該多維流量特征熵矩陣中包括源IP地址的熵的矩陣、目的IP地址的熵的矩陣、源端口號(hào)的熵的矩陣和目的端口號(hào)的熵的矩陣,并對(duì)該多維流量特征熵矩陣降維及歸一化處理,具體包括:將該多維流量特征熵矩陣中的源IP地址的熵的矩陣、目的IP地址的熵的矩陣、源端口號(hào)的熵的矩陣和目的端口號(hào)的熵的矩陣這4個(gè)特征子矩陣依次排列合并成一個(gè)多元矩陣,該多元矩陣的一個(gè)行向量作為一個(gè)樣本;然后對(duì)該多元矩陣中的該4個(gè)特征子矩陣分別進(jìn)行歸一化處理。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,采用多屬性聯(lián)合異常識(shí)別的方法在該歸一化處理后的多元矩陣中檢測(cè)并確定異常流量的特征類別以及該異常流量所對(duì)應(yīng)的異常節(jié)點(diǎn)對(duì),該多屬性聯(lián)合異常識(shí)別的方法具體包括如下步驟:
步驟D1,建立用于計(jì)算該多元矩陣中的一個(gè)樣本的馬氏距離的常態(tài)模型;
步驟D2,利用該常態(tài)模型從該多元矩陣中識(shí)別出異常樣本;
步驟D3,采用重構(gòu)分析的方法從該異常樣本中識(shí)別出異常流量特征類別和對(duì)應(yīng)的異常節(jié)點(diǎn)對(duì)。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,該步驟D2中識(shí)別出該異常樣本的方法具體包括以下步驟:
步驟D201,計(jì)算該多元矩陣中所有樣本的馬氏距離的均值;
步驟D202,依次將該多元矩陣中的樣本的馬氏距離與該均值進(jìn)行比對(duì),從該多元矩陣中識(shí)別出所有的異常樣本。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,該步驟D3中重構(gòu)分析的方法包括以下步驟:
步驟D301,將異常樣本中的任一元素修改;
步驟D302,計(jì)算重構(gòu)誤差,即計(jì)算該異常樣本中的元素被修改前后該異常樣本的馬氏距離與該均值的差值,通過(guò)該差值判斷該被替換的元素是否為異常流量特征熵,并抽取出該異常樣本中的異常流量特征熵;
步驟D303,對(duì)該異常樣本中的元素依次修改,按照該步驟D302的方法迭代的進(jìn)行運(yùn)算,不斷抽取出該異常樣本中的異常流量特征熵,直至該異常樣本的馬氏距離小于異常判別的閾值;
步驟D304,根據(jù)抽取出的該異常流量特征熵在該多元矩陣中對(duì)應(yīng)的位置識(shí)別出該異常流量特征熵的流量特征類別,以及該異常流量特征熵對(duì)應(yīng)的節(jié)點(diǎn)對(duì)。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,該步驟S2包括以下步驟:
步驟S201,根據(jù)該異常流量特征類別從對(duì)應(yīng)的異常節(jié)點(diǎn)對(duì)之間采集一個(gè)固定時(shí)間段內(nèi)的網(wǎng)絡(luò)數(shù)據(jù)流的流量特征值,該固定時(shí)間段作為一個(gè)周期,該固定時(shí)間段內(nèi)采集的網(wǎng)絡(luò)數(shù)據(jù)流的流量特征值作為一個(gè)樣本;
步驟S202,根據(jù)該步驟S201的方法采集多個(gè)樣本建立流量特征分布矩陣,每個(gè)樣本作為該流量特征分布矩陣的一個(gè)行向量,并從該流量特征分布矩陣中識(shí)別出異常流量特征值。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,該步驟S202中從確定異常流量特征值的方法具體包括以下步驟:
步驟F1,將該流量特征分布矩陣中的每個(gè)樣本中的一個(gè)元素替換為相鄰的前一個(gè)樣本的對(duì)應(yīng)位置的元素,計(jì)算該元素被替換前后對(duì)應(yīng)的樣本的馬氏距離的差值;
步驟F2,判讀該被替換的元素是否異常;
步驟F3,迭代的計(jì)算抽取出該流量特征分布矩陣中的一個(gè)樣本中的異常流量特征值;
步驟F4,通過(guò)該步驟F1、步驟F2和步驟F3對(duì)該流量特征分布矩陣中的所有樣本中的元素進(jìn)行判斷,抽取出該流量特征分布矩陣中所有的該異常流量特征值。
在本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法的另一個(gè)實(shí)施例中,
該步驟S3中具體通過(guò)采用流量特征圖法對(duì)該異常流集中的異常流進(jìn)行分類,該流量特征圖法包括:
步驟一,將用于代表異常流的流量特征信息的標(biāo)示符用線段連接起來(lái)建立數(shù)學(xué)模型;
步驟二,通過(guò)該數(shù)學(xué)模型對(duì)該異常流集中的異常流的流量特征信息進(jìn)行統(tǒng)計(jì)和顯示,該線段采用兩種不同的顏色代表具有該線段兩端流量特征信息的異常流的增加和減少,且該線段的粗細(xì)表示網(wǎng)絡(luò)異常發(fā)生時(shí)具有該線段兩端流量特征信息的異常流的變化量;
步驟三,通過(guò)對(duì)該數(shù)學(xué)模型進(jìn)行分析,推斷造成網(wǎng)絡(luò)異常的原因。
本發(fā)明的有益效果是:本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法首先對(duì)全網(wǎng)絡(luò)中的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行粗粒度的異常識(shí)別,從全網(wǎng)絡(luò)中提取出存在異常流量的節(jié)點(diǎn)對(duì),并確定異常流量的特征類別,然后基于提取的異常節(jié)點(diǎn)對(duì)進(jìn)行細(xì)粒度的異常識(shí)別,確定異常流量特征值,最后再基于前述確定的異常流量特征值從異常節(jié)點(diǎn)對(duì)采集異常流集。本發(fā)明采用分層次的方法對(duì)全網(wǎng)絡(luò)中的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行異常流識(shí)別,即先進(jìn)行粗粒度的識(shí)別,然后再進(jìn)行細(xì)粒度的識(shí)別,既提高了準(zhǔn)確率,又不會(huì)帶來(lái)巨大的測(cè)量和計(jì)算的工作量;精確的對(duì)全網(wǎng)絡(luò)中的異常節(jié)點(diǎn)對(duì)進(jìn)行定位,以及獲取該異常節(jié)點(diǎn)對(duì)中異常流量的IP地址、端口號(hào)等流量特征值。本方法還可基于流量特征圖法對(duì)采集的異常流集進(jìn)行分類,并確定造成網(wǎng)絡(luò)異常的原因,為解決網(wǎng)絡(luò)異常問(wèn)題提供支持。
附圖說(shuō)明
圖1是本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法實(shí)施例1的流程圖;
圖2是本發(fā)明實(shí)施例1提供的步驟S1的具體的流程圖;
圖3是本發(fā)明實(shí)施例1利用仿真平臺(tái)建立的的網(wǎng)絡(luò)拓?fù)渑渲檬疽鈭D;
圖4是本發(fā)明實(shí)施例1提供的步驟S101中的多維流量特征熵矩陣的示意圖;
圖5是本發(fā)明實(shí)施例1中的采用的多屬性聯(lián)合異常識(shí)別的方法具體流程圖;
圖6是本發(fā)明實(shí)施例1中仿真平臺(tái)上的異常檢測(cè)結(jié)果;
圖7是本發(fā)明實(shí)施例1中仿真平臺(tái)上多屬性聯(lián)合異常識(shí)別結(jié)果;
圖8是本發(fā)明實(shí)施例1提供的步驟S202中確定異常流量特征值的方法的具體流程圖;
圖9是本發(fā)明實(shí)施例1中目的端口號(hào)這一流量特征分布的馬氏距離的一階差分的時(shí)間序列;
圖10是本發(fā)明實(shí)施例1中對(duì)網(wǎng)絡(luò)異常流進(jìn)行分類的流量特征圖。
具體實(shí)施方式
為了便于理解本發(fā)明,下面結(jié)合附圖和具體實(shí)施例,對(duì)本發(fā)明進(jìn)行更詳細(xì)的說(shuō)明。附圖中給出了本發(fā)明的較佳的實(shí)施例。但是,本發(fā)明可以以許多不同的形式來(lái)實(shí)現(xiàn),并不限于本說(shuō)明書所描述的實(shí)施例。相反地,提供這些實(shí)施例的目的是使對(duì)本發(fā)明的公開(kāi)內(nèi)容的理解更加透徹全面。
需要說(shuō)明的是,除非另有定義,本說(shuō)明書所使用的所有的技術(shù)和科學(xué)術(shù)語(yǔ)與屬于本發(fā)明的技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。在本發(fā)明的說(shuō)明書中所使用的術(shù)語(yǔ)只是為了描述具體的實(shí)施例的目的,不是用于限制本發(fā)明。下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
實(shí)施例1
請(qǐng)參閱圖1,圖1是本發(fā)明基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法實(shí)施例1的流程圖,如圖1所示,該方法包括:
步驟S1,對(duì)全網(wǎng)絡(luò)中的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行粗粒度的異常識(shí)別,從全網(wǎng)絡(luò)中提取出存在異常流量的節(jié)點(diǎn)對(duì),并確定異常流量的特征類別。
一個(gè)ISP(Internet Service Provider,網(wǎng)絡(luò)服務(wù)提供商)的全網(wǎng)絡(luò)包括骨干網(wǎng)以及與該骨干網(wǎng)相連接的局域網(wǎng),網(wǎng)絡(luò)范圍大且流量數(shù)據(jù)多,要想直接識(shí)別出異常流量以及確定該異常流量的特征值,需要采集的數(shù)據(jù)量會(huì)十分龐大,且如何從如此龐大的數(shù)據(jù)量中識(shí)別出異常流量和異常流量的特征值也是一個(gè)難以攻克的問(wèn)題。
通信傳送網(wǎng)絡(luò)中的節(jié)點(diǎn),是指信號(hào)的交叉連接點(diǎn),包括業(yè)務(wù)分插交匯點(diǎn)、網(wǎng)絡(luò)管理系統(tǒng)的切入點(diǎn)、信號(hào)功率的放大點(diǎn)以及傳輸中的數(shù)字信號(hào)的再生點(diǎn)等等。異常節(jié)點(diǎn)對(duì)是指兩個(gè)節(jié)點(diǎn),但是該兩個(gè)節(jié)點(diǎn)之間存在異常流量的傳輸。
本發(fā)明提供的方法首先從全網(wǎng)絡(luò)中識(shí)別出異常流量的特征類別,同時(shí)識(shí)別出該異常流量來(lái)源于哪一對(duì)異常節(jié)點(diǎn)對(duì),并抽取出全網(wǎng)絡(luò)中的異常節(jié)點(diǎn)對(duì),以及記錄該該異常節(jié)點(diǎn)對(duì)中的異常流量的特征類別。
步驟S2,基于步驟S1提取的異常節(jié)點(diǎn)對(duì)進(jìn)行細(xì)粒度的異常識(shí)別,確定異常節(jié)點(diǎn)對(duì)中的異常流量的特征值。
由步驟S1中提取出的異常流量的特征類別以及產(chǎn)生該異常流量的節(jié)點(diǎn)對(duì)只是全網(wǎng)絡(luò)粗粒度的異常流識(shí)別,這種程度的識(shí)別不能夠?yàn)榻鉀Q網(wǎng)絡(luò)異常問(wèn)題提供支持,還需在此基礎(chǔ)上進(jìn)一步確定異常流量的流量特征值,比如,確定異常流量的源IP地址、目的IP地址、源端口號(hào)和目的端口號(hào)等流量特征的流量特征值。
步驟S3,基于步驟S2確定的異常流量特征值從步驟S1確定的異常節(jié)點(diǎn)對(duì)中采集異常流集,對(duì)該異常流集進(jìn)行分類即可查找出全網(wǎng)絡(luò)中存在異常的原因。
圖2是本發(fā)明實(shí)施例1提供的步驟S1的具體的流程圖。如圖2所示,具體包括:
步驟S101,從全網(wǎng)絡(luò)中測(cè)量任意兩個(gè)節(jié)點(diǎn)之間的測(cè)度為流量特征熵的流量值,由流量特征熵建立多維(包含多種流量特征類別)流量特征熵矩陣。
為便于說(shuō)明,先介紹本發(fā)明使用的一些定義及概念如下。
定義1:流量特征熵
假定隨機(jī)地觀察網(wǎng)絡(luò)數(shù)據(jù)流的流量特征Y,觀察的樣本總數(shù)為S,樣本特征值的取值個(gè)數(shù)為Q,其中特征值i出現(xiàn)了Si次,那么流量特征熵定義為:
其中,
樣本熵是用來(lái)衡量樣本分布聚散程度的一種測(cè)度,當(dāng)樣本聚集程度最大時(shí),即樣本觀察值相同時(shí),流量特征熵取得最小值為0,當(dāng)樣本分散程度最大時(shí),流量特征熵取得最大值為log2Q。
本發(fā)明采用的流量測(cè)度為流量特征熵,基于熵的方法相對(duì)于基于流量特征值的大小的方法對(duì)數(shù)據(jù)采樣率不會(huì)過(guò)于敏感,即使由于使用采樣的測(cè)量方法而導(dǎo)致異常流量采集的稀疏了,但仍然能夠發(fā)現(xiàn)異常流量,并保持較高的檢測(cè)率和較低的誤報(bào)率。
定義2:流量矩陣
假設(shè)某自治系統(tǒng)有n個(gè)節(jié)點(diǎn),以一定的周期連續(xù)地被動(dòng)測(cè)量任意一對(duì)節(jié)點(diǎn)之間的流量,流量的流出節(jié)點(diǎn)為源節(jié)點(diǎn),流入節(jié)點(diǎn)為目的節(jié)點(diǎn),這樣測(cè)量的流量特征值就可記為源-目的流量特征值,然后將測(cè)量的流量特征值排列成一個(gè)N*D的矩陣X,矩陣X就稱為該自治系統(tǒng)的流量矩陣。其中,N表示測(cè)量的周期數(shù),通常將每個(gè)周期的測(cè)量值作為一個(gè)樣本,因此N為樣本數(shù),D表示測(cè)量的流量特征值的個(gè)數(shù)。流量矩陣第i行表示由第i個(gè)周期測(cè)量獲得的所有流量特征值組成的向量;第j列表示各個(gè)測(cè)量周期在第j對(duì)節(jié)點(diǎn)之間測(cè)量的流量值組成的向量。
這里,被動(dòng)測(cè)量是指一種在鏈路或設(shè)備(如路由器,交換機(jī)等)上對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)測(cè),而不需要產(chǎn)生流量的測(cè)量方法。被動(dòng)測(cè)量在測(cè)量時(shí)并不增加網(wǎng)絡(luò)上的流量,測(cè)量的是網(wǎng)絡(luò)上的實(shí)際業(yè)務(wù)流量,不會(huì)增加網(wǎng)絡(luò)的負(fù)擔(dān)。
下面對(duì)多維流量特征熵矩陣進(jìn)行說(shuō)明。
多維流量特征熵矩陣也是一種流量矩陣,只是它包含了多種流量特征類別的流量特征熵,比如,該多維流量特征熵矩陣包括源IP地址、目的IP地址、源端口號(hào)和目的端口號(hào)這四種流量特征的流量特征熵。
由于網(wǎng)絡(luò)異常往往會(huì)造成多種流量特征分布發(fā)生顯著的改變,為了能夠在網(wǎng)絡(luò)數(shù)據(jù)流中檢測(cè)出異常并進(jìn)行異常節(jié)點(diǎn)對(duì)的定位和異常流量的特征值的確認(rèn),就必須對(duì)多種流量特征進(jìn)行分析以識(shí)別出相應(yīng)的發(fā)生改變的流量特征,而如果孤立的只使用一種流量特征或一個(gè)節(jié)點(diǎn)對(duì)的數(shù)據(jù)可能會(huì)因?yàn)楫惓L卣鞑粔蛲怀龆l(fā)生漏報(bào)。所以本發(fā)明方法采用多維流量特征熵矩陣作為進(jìn)行異常流識(shí)別的數(shù)據(jù)源。
采用一個(gè)方案對(duì)步驟S101進(jìn)行具體說(shuō)明。比如,采用仿真平臺(tái)進(jìn)行實(shí)驗(yàn),選擇并搭建美國(guó)南加州大學(xué)提出的DETERLab(cyber-defense technology experimental research laboratory testbed)安全實(shí)驗(yàn)平臺(tái)。實(shí)驗(yàn)設(shè)置8個(gè)PoP節(jié)點(diǎn)(全網(wǎng)絡(luò)中遠(yuǎn)遠(yuǎn)多于8個(gè)PoP節(jié)點(diǎn),由于實(shí)驗(yàn)條件的限制,這里僅設(shè)置8個(gè)PoP節(jié)點(diǎn)),并為各PoP節(jié)點(diǎn)增設(shè)一個(gè)采集設(shè)備,采集設(shè)備和PoP節(jié)點(diǎn)都是網(wǎng)絡(luò)中的節(jié)點(diǎn),每一臺(tái)采集設(shè)備都可采集所有8個(gè)PoP節(jié)點(diǎn)的流量,這樣就形成了64個(gè)節(jié)點(diǎn)對(duì),這64個(gè)節(jié)點(diǎn)對(duì)之間存在異常流量的節(jié)點(diǎn)對(duì)被稱為異常節(jié)點(diǎn)對(duì)。在計(jì)算機(jī)網(wǎng)絡(luò)中,POP(pop-point-of-presence)節(jié)點(diǎn)是指入網(wǎng)點(diǎn),通常包括路由器、數(shù)字模擬電話集合器、服務(wù)器、幀中繼或ATM交換機(jī)。
節(jié)點(diǎn)的拓?fù)渑渲萌鐖D3所示,圖3是本發(fā)明實(shí)施例1利用仿真平臺(tái)建立的的網(wǎng)絡(luò)拓?fù)渑渲檬疽鈭D。圖3中包括POP1、POP2、POP3、POP4、POP5、POP6、POP7、POP8共8個(gè)POP節(jié)點(diǎn),每個(gè)POP節(jié)點(diǎn)均連接一臺(tái)采集設(shè)備,POP節(jié)點(diǎn)是源節(jié)點(diǎn),即輸出流量的節(jié)點(diǎn),采集設(shè)備是目的節(jié)點(diǎn),即接收流量的節(jié)點(diǎn),圖中的OD流表示由源節(jié)點(diǎn)到目的節(jié)點(diǎn)的流量,OD流即采集設(shè)備所采集的流量數(shù)據(jù)。
實(shí)驗(yàn)時(shí)間持續(xù)1個(gè)星期,每5分鐘采集一次數(shù)據(jù),記為一個(gè)采集周期,共采集2016個(gè)周期,該采集的流量數(shù)據(jù)的測(cè)度為流量特征熵。
依次在選定的1至8個(gè)節(jié)點(diǎn)對(duì)上注入多種不同類型的異常流量,注入異常的時(shí)間、位置和類型如表1所示,表1中的“OD”代表節(jié)點(diǎn)對(duì)。
表1仿真實(shí)驗(yàn)設(shè)置
步驟S102,根據(jù)多維流量特征熵矩陣檢測(cè)并提取出異常節(jié)點(diǎn)對(duì),并識(shí)別異常節(jié)點(diǎn)對(duì)中異常流量的特征類別。
多維流量特征熵矩陣采用的是流量特征的聚合統(tǒng)計(jì)量,只能識(shí)別全網(wǎng)絡(luò)中粗粒度的異常流量,即進(jìn)行異常流量特征類別的確定和異常節(jié)點(diǎn)對(duì)的定位,但是由于全網(wǎng)絡(luò)的網(wǎng)絡(luò)范圍太廣且網(wǎng)絡(luò)數(shù)據(jù)流龐大,直接采集全網(wǎng)絡(luò)中的網(wǎng)絡(luò)數(shù)據(jù)流的流量特征值,可能會(huì)由于采集的數(shù)據(jù)稀疏而檢測(cè)不出異常,而本發(fā)明采用的流量測(cè)度為流量特征熵,基于熵的方法相對(duì)于基于流量特征值的大小的方法能夠保持較高的檢測(cè)率和較低的誤報(bào)率。
圖4是本發(fā)明實(shí)施例1提供的步驟S101中的多維流量特征熵矩陣的示意圖。步驟S101中測(cè)量的流量特征熵包括網(wǎng)絡(luò)數(shù)據(jù)流的源IP地址、目的IP地址、源端口號(hào)和目的端口號(hào)這四種流量特征類別的流量特征熵;如圖4所示,多維流量特征熵矩陣中包括H(dstIP)、H(srcIP)、H(srcPort)和H(dstPort)這四個(gè)矩陣,其中,SrcIP(Source IP)是指網(wǎng)絡(luò)數(shù)據(jù)流的源IP地址,dstIP(destination IP)是指網(wǎng)絡(luò)數(shù)據(jù)流的目的IP地址,SrcPort(Source Port)是指網(wǎng)絡(luò)數(shù)據(jù)流的源端口號(hào),dstPort(destination Port)是指網(wǎng)絡(luò)數(shù)據(jù)流的目的端口號(hào)。
每個(gè)流量特征對(duì)應(yīng)一個(gè)流量特征熵矩陣,每個(gè)矩陣包含一段時(shí)間內(nèi)測(cè)量的多個(gè)周期,每個(gè)周期包含多個(gè)測(cè)量值。四個(gè)矩陣分別對(duì)應(yīng)為:源IP地址的熵的矩陣101-1,該矩陣是測(cè)量網(wǎng)絡(luò)數(shù)據(jù)流的源IP地址的熵作為該矩陣的元素;目的IP地址的熵的矩陣101-2,該矩陣是測(cè)量網(wǎng)絡(luò)數(shù)據(jù)流的目的IP地址的熵作為該矩陣的元素;源端口號(hào)的熵的矩陣101-3,該矩陣是測(cè)量網(wǎng)絡(luò)數(shù)據(jù)流的源端口號(hào)的熵作為該矩陣的元素;目的端口號(hào)的熵的矩陣101-4,該矩陣是測(cè)量中網(wǎng)絡(luò)數(shù)據(jù)流的目的端口號(hào)的熵作為該矩陣的元素。
建立多維流量特征熵矩陣后,需要對(duì)該多維流量特征熵矩陣降維及歸一化處理,具體包括:將多維流量特征熵矩陣中的源IP地址的熵的矩陣、目的IP地址的熵的矩陣、源端口號(hào)的熵的矩陣和目的端口號(hào)的熵的矩陣這4個(gè)特征子矩陣依次排列合并成一個(gè)多元矩陣,多元矩陣的一個(gè)行向量作為一個(gè)樣本;然后對(duì)多元矩陣中的4個(gè)特征子矩陣分別進(jìn)行歸一化處理,這里的歸一化處理是指對(duì)矩陣中的數(shù)據(jù)進(jìn)行處理,使每一種流量特征所對(duì)應(yīng)的數(shù)據(jù)在該矩陣中占比相差不大。
將多元矩陣中的數(shù)據(jù)進(jìn)行歸一化處理是為了使檢測(cè)均衡全面,如果該多元矩陣的4種流量特征類別的數(shù)據(jù)中的一種或幾種在該多元矩陣中的數(shù)據(jù)占比過(guò)多,則會(huì)偏重于該流量特征熵?cái)?shù)據(jù)的檢測(cè),造成檢測(cè)不全面,所以進(jìn)行歸一化處理之后才能對(duì)該多元矩陣進(jìn)行分析以確定異常的流量特征熵以及該流量特征熵所對(duì)應(yīng)的節(jié)點(diǎn)對(duì)。
對(duì)于歸一化處理后的多元矩陣,需要在該多元矩陣中檢測(cè)并確定異常流量的特征類別以及異常流量所對(duì)應(yīng)的異常節(jié)點(diǎn)對(duì),本發(fā)明采用多屬性聯(lián)合異常識(shí)別的方法。
圖5是本發(fā)明實(shí)施例1中的采用的多屬性聯(lián)合異常識(shí)別的方法具體的流程圖,如圖5所示,多屬性聯(lián)合異常識(shí)別的方法具體包括如下步驟:
步驟D1,建立用于計(jì)算所述多元矩陣中的一個(gè)樣本的馬氏距離的常態(tài)模型;
這里的常態(tài)模型是一個(gè)隱變量概率模型,通過(guò)該常態(tài)模型能夠計(jì)算多元矩陣中的樣本的馬氏距離,并通過(guò)馬氏距離判別多元矩陣中的樣本是否異常。
步驟D2,利用所述常態(tài)模型從所述多元矩陣中識(shí)別出異常樣本;
步驟D3,采用重構(gòu)分析的方法從所述異常樣本中識(shí)別出異常流量特征類別和對(duì)應(yīng)的異常節(jié)點(diǎn)對(duì)。
因?yàn)閷⒖赡艽嬖诋惓A髁刻卣黛氐亩嘣仃嚺c常態(tài)模型進(jìn)行對(duì)比,才能夠識(shí)別出異常的測(cè)量值,所以這里建立常態(tài)模型。常態(tài)模型是不含有異常流量的用來(lái)與進(jìn)行對(duì)比的數(shù)據(jù)源。
其中,步驟D2中識(shí)別出異常樣本的方法具體包括以下步驟:
步驟D201,計(jì)算多元矩陣中所有樣本的馬氏距離的均值;
步驟D202,依次將多元矩陣中的樣本的馬氏距離與均值進(jìn)行比對(duì),從多元矩陣中識(shí)別出所有的異常樣本。
其中,馬氏距離是用來(lái)衡量?jī)蓚€(gè)數(shù)據(jù)樣本之間的相似度的,如果這兩個(gè)樣本用兩個(gè)樣本矩陣表示,其中一個(gè)樣本矩陣中的數(shù)據(jù)的協(xié)方差就是該樣本矩陣的馬氏距離,同樣,另一個(gè)樣本矩陣也有對(duì)應(yīng)的馬氏距離,如果算出來(lái)的兩個(gè)馬氏距離越接近,那么可以認(rèn)為這兩個(gè)樣本的相似度越高。通過(guò)采用控制圖來(lái)判讀多元矩陣中的樣本是否異常,這里,控制圖(Control chart)是一種對(duì)樣本中的數(shù)據(jù)的一些特性值進(jìn)行記錄并評(píng)估該樣本是否處于正常狀態(tài)的圖形方法,主要用于發(fā)現(xiàn)樣本是否出現(xiàn)了異常情況。觀察控制圖,當(dāng)多元矩陣的樣本的馬氏距離值偏離常態(tài)模型的馬氏距離的均值超過(guò)3倍標(biāo)準(zhǔn)差時(shí),即判斷多元矩陣的該樣本異常,記為異常樣本。對(duì)于前述的仿真實(shí)驗(yàn),圖6是本發(fā)明實(shí)施例1中仿真平臺(tái)上的異常檢測(cè)結(jié)果圖,該圖即為控制圖,橫坐標(biāo)代表周期,縱坐標(biāo)代表馬氏距離。如圖6所示,其中的虛線對(duì)應(yīng)的值3100為檢測(cè)閾值,即常態(tài)模型的馬氏距離的均值,馬氏距離超過(guò)該閾值3100即判定該時(shí)間點(diǎn)檢測(cè)的流量數(shù)據(jù)存在異常,圖中顯示存在8個(gè)異常樣本,與表1中設(shè)定的相符合。
對(duì)多元矩陣中的所有樣本進(jìn)行判斷,抽取出所有的異常樣本。接下來(lái),從多元矩陣中抽取出異常樣本后,還需要進(jìn)一步確定該樣本的哪些流量特征發(fā)生了異常,以及對(duì)發(fā)生異常的節(jié)點(diǎn)對(duì)進(jìn)行定位,該步采用步驟D3中重構(gòu)分析的方法進(jìn)行異常樣本的異常流量特征類別的確定和異常節(jié)點(diǎn)對(duì)的定位。
步驟D3中重構(gòu)分析的方法包括以下步驟:
步驟D301,將異常樣本中的任一元素修改,這里的修改是指對(duì)異常樣本中的任一元素進(jìn)行替換為其他流量特征熵的值,然后再進(jìn)行計(jì)算,以確定被替換的元素是否異常。
步驟D302,計(jì)算重構(gòu)誤差,即計(jì)算異常樣本中的元素被修改前后異常樣本的馬氏距離與均值的差值,通過(guò)差值判斷被替換的元素是否為異常流量特征熵,并抽取出異常樣本中的異常流量特征熵。
步驟D303,對(duì)異常樣本中的元素依次修改,按照步驟D302的方法迭代的進(jìn)行運(yùn)算,不斷抽取出異常樣本中的異常流量特征熵,直至異常樣本的馬氏距離小于異常判別的閾值。
步驟D304,根據(jù)抽取出的異常流量特征熵在多元矩陣中對(duì)應(yīng)的位置識(shí)別出異常流量特征熵的流量特征類別,以及異常流量特征熵對(duì)應(yīng)的節(jié)點(diǎn)對(duì)。
對(duì)于前述的仿真實(shí)驗(yàn),圖7是本發(fā)明實(shí)施例1中仿真平臺(tái)上多屬性聯(lián)合異常識(shí)別結(jié)果,采用檢測(cè)出的異常進(jìn)行異常節(jié)點(diǎn)對(duì)的定位和異常特征類別的識(shí)別。圖7中的橫坐標(biāo)是元素在矩陣中的列數(shù),縱坐標(biāo)中的“重建誤差”是指異常樣本中的元素被替換前后異常樣本的馬氏距離的差值,該差值超過(guò)閾值即說(shuō)明該元素對(duì)應(yīng)的OD對(duì)存在異常。
如圖7所示,圖7僅對(duì)檢測(cè)得到的第1個(gè)和第4個(gè)異常的識(shí)別結(jié)果進(jìn)行了表示:圖7(a)中對(duì)應(yīng)于橫坐標(biāo)69的重構(gòu)誤差超過(guò)了閾值,由于流量特征熵聯(lián)合矩陣是按照srcIP,dstIP,srcPort,dstPort橫向排列的,且每個(gè)子矩陣都是64列(由于該仿真實(shí)驗(yàn)有64個(gè)OD對(duì),所以每個(gè)子矩陣都是64列),故橫坐標(biāo)69實(shí)際對(duì)應(yīng)于流量特征dstIP上的OD5(節(jié)點(diǎn)對(duì)),識(shí)別結(jié)果與實(shí)驗(yàn)設(shè)定相符;圖7(b)中無(wú)單個(gè)節(jié)點(diǎn)對(duì)的重構(gòu)誤差超過(guò)閾值,需要進(jìn)行多異常節(jié)點(diǎn)對(duì)定位,輸出為橫坐標(biāo)201,203,205,207,即存在4個(gè)異常節(jié)點(diǎn)對(duì),分別對(duì)應(yīng)于流量特征dstPort上的OD9,OD11,OD13,OD15,也與設(shè)定相符。
從全網(wǎng)絡(luò)中提取出異常流特征類別和異常節(jié)點(diǎn)對(duì)后,需由步驟S2確定異常流的細(xì)粒度的流量特征值,包括以下步驟:
步驟S201,根據(jù)所述異常流量特征類別從對(duì)應(yīng)的異常節(jié)點(diǎn)對(duì)之間采集一個(gè)固定時(shí)間段內(nèi)的網(wǎng)絡(luò)數(shù)據(jù)流的流量特征值,所述固定時(shí)間段作為一個(gè)周期,所述固定時(shí)間段內(nèi)采集的網(wǎng)絡(luò)數(shù)據(jù)流的流量特征值作為一個(gè)樣本。
為便于理解,下面對(duì)“流量特征分布矩陣”這一概念進(jìn)行解釋。
定義3:流量特征分布矩陣
以一定的周期連續(xù)地對(duì)流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)流按某種流量特征進(jìn)行測(cè)量統(tǒng)計(jì),然后將該測(cè)量值排列成一個(gè)N’×D’的矩陣X’,矩陣X’稱為流量特征分布矩陣,其中,N’表示測(cè)量的周期數(shù),通常我們將每個(gè)周期的測(cè)量值作為一個(gè)樣本,因此N’為樣本數(shù),D’表示某種流量特征的取值個(gè)數(shù),矩陣X’中的每一個(gè)元素都是一個(gè)流量特征值。
步驟S202,根據(jù)所述步驟S201的方法采集多個(gè)樣本建立流量特征分布矩陣,每個(gè)樣本作為所述流量特征分布矩陣的一個(gè)行向量,并從所述流量特征分布矩陣中識(shí)別出異常流量特征值。
本發(fā)明使用的流量特征包括源端口和目的端口以及源IP地址和目的IP地址,由于全網(wǎng)絡(luò)中總的端口號(hào)數(shù)目為2^16,而IP地址的數(shù)目為2^32,在進(jìn)行流量特征分布的統(tǒng)計(jì)時(shí),采集的數(shù)據(jù)會(huì)占用大量的存儲(chǔ)空間。但網(wǎng)絡(luò)數(shù)據(jù)流的流量特征分布并不是均勻的,流量特征分布矩陣也是稀疏的,所以可以采用緊縮的數(shù)據(jù)表示方法建立模型。
圖8是本發(fā)明實(shí)施例1提供的步驟S202中確定異常流量特征值的方法的具體流程圖,如圖8所示,步驟S202中從確定異常流量特征值的方法具體包括以下步驟:
步驟S202中從流量特征分布矩陣中確定異常流量特征值的方法具體包括以下步驟:
步驟F1,將流量特征分布矩陣中的每個(gè)樣本中的一個(gè)元素替換為相鄰的前一個(gè)樣本的對(duì)應(yīng)位置的元素,計(jì)算元素被替換前后對(duì)應(yīng)的樣本的馬氏距離的差值;
步驟F2,判讀被替換的元素是否異常;
步驟F3,迭代的計(jì)算抽取出流量特征分布矩陣中的一個(gè)樣本中的異常流量特征值;
步驟F4,通過(guò)步驟F1、步驟F2和步驟F3對(duì)流量特征分布矩陣中的所有樣本中的元素進(jìn)行判斷,抽取出流量特征分布矩陣中所有的異常流量特征值。也就是迭代的抽取出樣本上造成其異常的對(duì)應(yīng)的成分,直至該樣本的馬氏距離小于異常判別的閾值。
對(duì)于前述仿真實(shí)驗(yàn),結(jié)合步驟S202將確定的異常流量特征屬性上的節(jié)點(diǎn)對(duì)抽取出來(lái),采用細(xì)粒度的異常流識(shí)別算法確定異常流集。這里僅列舉一例,如圖9,圖9是本發(fā)明實(shí)施例1中目的端口號(hào)這一流量特征分布的馬氏距離的一階差分的時(shí)間序列。圖9顯示的是采用流級(jí)檢測(cè)器對(duì)上文確定的OD9,OD11,OD13,OD15的dstPort的特征分布進(jìn)行異常檢測(cè)所得結(jié)果,方法是對(duì)相鄰周期特征分布直方圖間的馬氏距離的一階差分進(jìn)行判讀。該方法只在異常開(kāi)始和結(jié)束時(shí)產(chǎn)生警報(bào),如圖上所示的在800時(shí)刻和839時(shí)刻超出了檢測(cè)閾值。采用重構(gòu)誤差分析的方法可以確定異常流特征值為dstPort:445,將OD9,OD11,OD13,OD15上所有目的端口為445的IP流抽取出來(lái),即構(gòu)成一個(gè)異常流集。
最后,確定了異常流量的特征值以及產(chǎn)生該異常流量的節(jié)點(diǎn)對(duì)后,根據(jù)抽取出的異常流量特征值從對(duì)應(yīng)的所述異常節(jié)點(diǎn)對(duì)之間采集異常流集,完成異常流集的采集后,再通過(guò)對(duì)異常進(jìn)行分類,確定造成網(wǎng)絡(luò)異常的原因,網(wǎng)絡(luò)管理者就可以有針對(duì)性的應(yīng)對(duì)網(wǎng)絡(luò)異常問(wèn)題了。
所以,本發(fā)明還包括步驟S3,步驟S3基于步驟S2確定的異常流量特征值從步驟S1確定的異常節(jié)點(diǎn)對(duì)采集異常流集,并根據(jù)流量特征信息對(duì)該異常流集中的異常流進(jìn)行分類。
請(qǐng)參閱圖10,圖10是本發(fā)明實(shí)施例1中對(duì)網(wǎng)絡(luò)異常流進(jìn)行分類的流量特征圖。
從全網(wǎng)絡(luò)中采集異常流集,并記錄每條異常流的以下流量特征信息:源端口號(hào)(srcPort)和目的端口號(hào)(dstPort)、源IP地址(srcIP)和目的IP地址(dstIP)、源自治系統(tǒng)號(hào)(srcAS)和目的自治系統(tǒng)號(hào)(dstAS)、輸入接口(input interface)和輸出接口(output interface)、以及協(xié)議類型(protocol),共9個(gè)流量特征。
為了便于理解該分類方法,下面對(duì)本申請(qǐng)中的一些概念進(jìn)行解釋。
自治系統(tǒng)號(hào)(srcAS),互聯(lián)網(wǎng)由無(wú)數(shù)個(gè)AS(autonomous system,自治系統(tǒng))組成,每個(gè)AS對(duì)應(yīng)一個(gè)唯一的16位號(hào)碼,這個(gè)號(hào)碼即自治系統(tǒng)號(hào)。源自治系統(tǒng)號(hào)(srcAS)是指產(chǎn)生該異常流的自治系統(tǒng)的號(hào)碼,目的自治系統(tǒng)號(hào)(dstAS)是指接收該異常流的自治系統(tǒng)的號(hào)碼。
IP地址,IP地址被用來(lái)給互聯(lián)網(wǎng)上的電腦一個(gè)編號(hào),每臺(tái)聯(lián)網(wǎng)的電腦上都需要有IP地址,才能正常通信。源IP地址(srcIP)是指產(chǎn)生該異常流的電腦的IP地址,目的IP地址(dstIP)是指接收該異常流的電腦的IP地址。
端口,端口是通過(guò)端口號(hào)來(lái)標(biāo)記的,范圍是從0到65535。端口就是特定軟件或程序的接口,數(shù)據(jù)發(fā)送時(shí)計(jì)算機(jī)會(huì)在數(shù)據(jù)段上添上本機(jī)端口號(hào)(源端口號(hào))和目的主機(jī)接收數(shù)據(jù)的端口號(hào)(目的端口號(hào)),數(shù)據(jù)包通過(guò)網(wǎng)絡(luò)設(shè)備走的時(shí)候,第一個(gè)檢查的就是這個(gè)數(shù)據(jù)包的目的地址在什么地方。
接口,電腦中的芯片都有一個(gè)或幾個(gè)接口,一個(gè)接口對(duì)應(yīng)于接口芯片內(nèi)部的一個(gè)寄存器或一組寄存器,計(jì)算機(jī)系統(tǒng)要為每個(gè)接口分配一個(gè)地址,各個(gè)接口的地址是唯一的,不能重復(fù)。輸入接口(input interface)是指產(chǎn)生該異常流的電腦中的接口的地址,輸出接口(output interface)是指接收該異常流的電腦中的接口的地址。在信息傳送過(guò)程中,接口起著數(shù)據(jù)鎖存、數(shù)據(jù)緩沖、輸入/輸出、聯(lián)絡(luò)、數(shù)據(jù)轉(zhuǎn)換、中斷管理、時(shí)序控制、可編程、電器特征匹配等作用。
如圖10所示,采用流量特征圖法對(duì)過(guò)濾篩選后的異常流進(jìn)行分類,流量特征圖用以表示流量從源節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)到目的節(jié)點(diǎn)的各種流量特征的信息。建立流量特征圖的具體過(guò)程如下:
步驟一,將用于代表異常流的流量特征信息的標(biāo)示符用線段連接起來(lái)建立數(shù)學(xué)模型,圖10中采用三角形的標(biāo)示符代表每種流量特征信息,當(dāng)然,也可以采用圓形、長(zhǎng)方形等其他形狀的符號(hào)來(lái)進(jìn)行標(biāo)示。
步驟二,通過(guò)數(shù)學(xué)模型對(duì)異常流集中的異常流的流量特征信息進(jìn)行統(tǒng)計(jì)和顯示,線段采用兩種不同的顏色代表具有該線段兩端流量特征信息的異常流的增加和減少,且線段的粗細(xì)表示網(wǎng)絡(luò)異常發(fā)生時(shí)具有線段兩端流量特征信息的異常流的變化量。
該數(shù)學(xué)模型中的每根線段連接兩個(gè)流量特征信息標(biāo)示符,線段的顏色為紅色(圖中未示)則表示具有該線段兩端流量特征信息的異常流增加,線段為藍(lán)色則表示具有該線段兩端流量特征信息的異常流減少。線段越粗則表示流量變化越大,即線段為紅色且越粗則表示異常流增加越多,線段為藍(lán)色且越粗表示異常流減少越多。
步驟三,通過(guò)對(duì)該數(shù)學(xué)模型進(jìn)行分析,推斷造成網(wǎng)絡(luò)異常的原因。如圖10,圖中除了虛線部分,其余線段均為紅色(圖中未示)且線段變粗,所以,從圖中可以看出具有圖中流量特征信息的異常流量大量增加。圖中的數(shù)字“1323”代表有1323個(gè)目的IP地址(dstIP),但卻只有一個(gè)目的端口(dstPort),因此可以推測(cè)該異常為攻擊者正在對(duì)多臺(tái)計(jì)算機(jī)進(jìn)行掃描,以尋找攻擊對(duì)象。
基于以上實(shí)施例,本發(fā)明提供的基于流量特征分布的全網(wǎng)絡(luò)異常流識(shí)別方法首先對(duì)全網(wǎng)絡(luò)中的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行粗粒度的異常識(shí)別,從全網(wǎng)絡(luò)中提取出存在異常流量的節(jié)點(diǎn)對(duì),并確定異常流量的特征類別,然后基于提取的異常節(jié)點(diǎn)對(duì)進(jìn)行細(xì)粒度的異常識(shí)別,確定異常流量特征值,最后再基于前述確定的異常流量特征值從異常節(jié)點(diǎn)對(duì)采集異常流集。本發(fā)明采用分層次的方法對(duì)全網(wǎng)絡(luò)中的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行異常流識(shí)別,即先進(jìn)行粗粒度的識(shí)別,然后再進(jìn)行細(xì)粒度的識(shí)別,既提高了準(zhǔn)確率,又不會(huì)帶來(lái)巨大的測(cè)量和計(jì)算的工作量;精確的對(duì)全網(wǎng)絡(luò)中的異常節(jié)點(diǎn)對(duì)進(jìn)行定位,以及獲取該異常節(jié)點(diǎn)對(duì)中異常流量的IP地址、端口號(hào)等流量特征值,且本發(fā)明提供的方法還可以對(duì)該異常流集進(jìn)行分類,從而判斷造成網(wǎng)絡(luò)異常的原因。
以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說(shuō)明書及附圖內(nèi)容所作的等效變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均包括在本發(fā)明的專利保護(hù)范圍內(nèi)。