專利名稱:一種載荷無關(guān)的檢測網(wǎng)絡(luò)濫用行為的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種檢測網(wǎng)絡(luò)濫用行為的方法,尤其涉及一種載荷無關(guān)的檢測網(wǎng)絡(luò)濫用行 為的方法,屬于計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)通信技術(shù)領(lǐng)域。
背景技術(shù):
隨著P2P應(yīng)用范圍越來越廣,使用越來越普及,消耗著大量的網(wǎng)絡(luò)資源,其對網(wǎng)絡(luò)的 危害日益增加,從而使得對網(wǎng)絡(luò)濫用行為的檢測工作越來越得到關(guān)注。網(wǎng)絡(luò)濫用行為表現(xiàn)出來的危害主要有兩點(diǎn) 一是會占用很大的流量,消耗大量的網(wǎng)絡(luò)帶寬;二是建立大量的TCP/UDP連接,具有高發(fā)散度性,而且其中很多是一些僅僅傳輸 了幾個(gè)數(shù)據(jù)報(bào)文的短連接。由于在網(wǎng)絡(luò)邊界配置有網(wǎng)關(guān),防火墻等設(shè)備,這些網(wǎng)絡(luò)邊界設(shè) 備必須維持或者監(jiān)控本地網(wǎng)絡(luò)機(jī)器同外部機(jī)器的所有連接,是整個(gè)網(wǎng)絡(luò)的性能瓶頸。網(wǎng)絡(luò) 濫用行為建立的大量的連接會降低這些設(shè)備的性能,嚴(yán)重干擾甚至中斷網(wǎng)絡(luò)的正常應(yīng)用。傳統(tǒng)的特征碼匹配方法檢測網(wǎng)絡(luò)濫用行為具有較好的檢測率和實(shí)時(shí)性,然而該方法需 要分析TCP流中每個(gè)數(shù)據(jù)包的有效載荷(應(yīng)用層內(nèi)容),提取每種應(yīng)用協(xié)議的特征碼進(jìn)行 匹配,計(jì)算量大,部署運(yùn)行時(shí)占用系統(tǒng)資源較多。另外由于現(xiàn)在的很多應(yīng)用協(xié)議在數(shù)據(jù)的 傳輸上采取了加密措施,使得協(xié)議特征碼的提取和驗(yàn)證工作也隨之越來越困難。最后,提 取數(shù)據(jù)的載荷信息,也在一定程度上涉及到侵犯用戶隱私的法律問題。發(fā)明內(nèi)容本發(fā)明的目的在于提供一種載荷無關(guān)的檢測網(wǎng)絡(luò)濫用行為的方法,即基于流量信息檢 測網(wǎng)絡(luò)濫用行為?;诹髁啃畔⑻卣鳈z測網(wǎng)絡(luò)濫用行為的方法只需要提取出流量日志信息里面的一些 特征,這些特征能很好的刻畫網(wǎng)絡(luò)濫用行為。從而利用機(jī)器學(xué)習(xí)算法(如決策樹、神經(jīng) 網(wǎng)絡(luò)等)對這些流量信息特征進(jìn)行監(jiān)督學(xué)習(xí),得到一個(gè)分類器。然后就可以利用該分類器 再對流量日志信息進(jìn)行在線檢測,從中發(fā)現(xiàn)網(wǎng)絡(luò)濫用行為。本發(fā)明提供的技術(shù)方案如下一種載荷無關(guān)的檢測網(wǎng)絡(luò)濫用行為的方法,其步驟為1 )采集正常流量日志和有網(wǎng)絡(luò)濫用行為的流量日志組成流量日志信息訓(xùn)練集;2)從流量日志信息訓(xùn)練集中提取出對網(wǎng)絡(luò)濫用行為檢測有用的特征向量組成特征向量集,提取的特征如下基準(zhǔn)特征a) 某個(gè)時(shí)間區(qū)間內(nèi)與目標(biāo)主機(jī)通信的IP總數(shù);b) 某個(gè)時(shí)間區(qū)間內(nèi)與目標(biāo)主機(jī)相關(guān)的TCP/UDP連接的總數(shù)量; C)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送和接收的總流量;輔助候選特征d) 某個(gè)時(shí)間區(qū)間內(nèi)與目標(biāo)主機(jī)相關(guān)的TCP/UDP短連接的總數(shù)量;e) 某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送的流量;f) 某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)接收的流量;g) 某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送流量與接收流量比率,即e)與f)的比值;h) 某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送的TCP/UDP總流量;i) 某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)接收的TCP/UDP總流量; j)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送的數(shù)據(jù)包總數(shù)量;k)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送的TCP/UDP數(shù)據(jù)包總數(shù)量;1)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)接收的數(shù)據(jù)包總數(shù)量;m)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)接收的TCP/UDP數(shù)據(jù)包總數(shù)量;n)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送和接收的數(shù)據(jù)包總數(shù)量;o)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送和接收的TCP/UDP數(shù)據(jù)包總數(shù)量;p)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送數(shù)據(jù)包的頻率;q)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)接收數(shù)據(jù)包的頻率;r)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)發(fā)送數(shù)據(jù)包的平均大小,即e)與j)的商; s)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)接收數(shù)據(jù)包的平均大小,即f)與l)的商; t)某個(gè)時(shí)間區(qū)間內(nèi)目標(biāo)主機(jī)收發(fā)數(shù)據(jù)包的平均大小,即c)與j) +1)的商; u)某個(gè)時(shí)間區(qū)間內(nèi)與目標(biāo)主機(jī)相關(guān)、且與HTTP/FTP服務(wù)端口 (80/20/21)相關(guān)的 連接總數(shù);v)某個(gè)時(shí)間區(qū)間內(nèi)與HTTP/FTP服務(wù)端口 (80/20/21)相關(guān)的、目標(biāo)主機(jī)的發(fā)送總 流量;w)某個(gè)時(shí)間區(qū)間內(nèi)與HTTP/FTP服務(wù)端口 (80/20/21)相關(guān)的、目標(biāo)主機(jī)的接收 總流量;本步驟提取出的基準(zhǔn)特征是檢測必須的特征,根據(jù)實(shí)際網(wǎng)絡(luò)情況和需要,還可以 選擇部分或者全部輔助候選特征來提供檢測準(zhǔn)確率。另外也不局限于這里所列出的特 征,可以根據(jù)檢測需要進(jìn)行增減基準(zhǔn)特征或者輔助候選特征來提供分類的準(zhǔn)確性。3) 通過步驟2)可以得到有標(biāo)定類別的流量日志特征向量訓(xùn)練集,然后利用機(jī)器學(xué)習(xí) 算法(如決策樹、神經(jīng)網(wǎng)絡(luò)等)對其進(jìn)行學(xué)習(xí),得到濫用行為檢測分類器。4) 為了保證步驟3)得到的分類器的有效性,可以利用另一組(即不同于訓(xùn)練集合的) 已知標(biāo)定類別的流量日志對步驟3)得到的分類器進(jìn)行測試,并根據(jù)測試結(jié)果重復(fù) 第l) 4)步,直至得到分類器的檢測誤差控制在較小的范圍之內(nèi)。5) 布置網(wǎng)絡(luò)濫用行為檢測分類器,對流量日志進(jìn)行在線檢測,檢測網(wǎng)絡(luò)濫用行為。相對傳統(tǒng)的特征碼匹配的方法,本發(fā)明具有如下的優(yōu)勢1. 計(jì)算量小,占用的計(jì)算資源少,比如無需在網(wǎng)關(guān)等網(wǎng)絡(luò)設(shè)備上監(jiān)聽數(shù)據(jù)報(bào)文;2. 基于主機(jī)的行為特征進(jìn)行分類,不需要提取應(yīng)用協(xié)議數(shù)據(jù)報(bào)文的載荷信息,因此 不受數(shù)據(jù)加密的影響以及面臨侵犯隱私的法律問題。3. 通過網(wǎng)絡(luò)濫用的本質(zhì)行為特征進(jìn)行分類,可以及時(shí)和準(zhǔn)確地發(fā)現(xiàn)網(wǎng)絡(luò)濫用行為, 不依賴具體的應(yīng)用協(xié)議,無需了解協(xié)議實(shí)現(xiàn)細(xì)節(jié)和變化以及提取特征碼;
圖l為本發(fā)明方法的流程圖;圖2為網(wǎng)絡(luò)濫用檢測分類器的邏輯示意圖。
具體實(shí)施方式
以下參照附圖對本發(fā)明的基于流量信息檢測網(wǎng)絡(luò)濫用行為的方法進(jìn)行詳細(xì)說明,但本 發(fā)明不局限于下面的實(shí)施方式。本發(fā)明方法的流程如圖l所示,其工作過程如下-(1)流量日志采集。采用防火墻等網(wǎng)關(guān)設(shè)施采集網(wǎng)絡(luò)的流量日志信息。該步驟包括兩 方面的工作, 一是采集正常流量日志,二是采集各種網(wǎng)絡(luò)濫用行為類型主機(jī)的流量日志。在采集的過程中對每種類型都標(biāo)注好類型標(biāo)簽,然后將采集正常流量日志和有網(wǎng)絡(luò)濫用行 為的流量日志組成流量日志信息訓(xùn)練集。 流量日志樣例2007-10-19 00:00:04 Local7.Debug 172.31.4.44 id=firewall time="2007-10-19 00:01:17"fw=FSG1000-test type=sessionflux pri=6 duration=30 proto=17src=172.31.5.80 dst=221.5.250.169 src_port=2393 dst_port=8000 rcvd=53 sent=47 rcvd_pkt=l sent_pkt=l rule=l action=ACCEPT流量日志相關(guān)字段介紹time:"YYYY—MM—DDHH: MM: SSproto:協(xié)議src:源地址dst:目的地址src_port:源端口dst_port:目的端口rcvd:接收流量sent:發(fā)送流量rcvd_pkt:接收數(shù)據(jù)包個(gè)數(shù)sent_pkt:發(fā)送數(shù)據(jù)包個(gè)數(shù)(2)特征提取/特征選取本次實(shí)施方式以子網(wǎng)內(nèi)的每一臺主機(jī)為單位,統(tǒng)計(jì)的時(shí)間長度是5分鐘,選取以下特征進(jìn)行特征提取a) 5分鐘內(nèi)與目標(biāo)主機(jī)通信的IP總數(shù);b) 5分鐘內(nèi)與目標(biāo)主機(jī)相關(guān)的TCP/UDP連接的總數(shù)量;C) 5分鐘內(nèi)目標(biāo)主機(jī)發(fā)送和接收的總流量;d) 5分鐘內(nèi)目標(biāo)主機(jī)發(fā)送的流量;e) 5分鐘內(nèi)目標(biāo)主機(jī)接收的流量;f) 5分鐘內(nèi)目標(biāo)主機(jī)相關(guān)的TCP/UDP短連接的總數(shù)量;g) 5分鐘內(nèi)目標(biāo)主機(jī)發(fā)送數(shù)據(jù)包的平均大??;h) 5分鐘內(nèi)目標(biāo)主機(jī)接收數(shù)據(jù)包的平均大??;i) 5分鐘內(nèi)目標(biāo)主機(jī)發(fā)送數(shù)據(jù)包的頻率;j) 5分鐘內(nèi)目標(biāo)主機(jī)接收數(shù)據(jù)包的頻率;k) 5分鐘內(nèi)與目標(biāo)主機(jī)相關(guān)的TCP連接總數(shù);1) 5分鐘內(nèi)與目標(biāo)主機(jī)相關(guān)的UDP連接總數(shù);m) 5分鐘內(nèi)目標(biāo)主機(jī)TCP發(fā)送流量; n) 5分鐘內(nèi)目標(biāo)主機(jī)TCP接收流量; o) 5分鐘內(nèi)目標(biāo)主機(jī)UDP發(fā)送流量; P) 5分鐘內(nèi)目標(biāo)主機(jī)UDP接收流量; q) 5分鐘內(nèi)目標(biāo)主機(jī)HTTP端口發(fā)送流量; r) 5分鐘內(nèi)目標(biāo)主機(jī)HTTP端口接收流量; s) 5分鐘內(nèi)目標(biāo)主機(jī)發(fā)送、接收流量比值; t) 5分鐘內(nèi)目標(biāo)主機(jī)FTP端口發(fā)送流量; u) 5分鐘內(nèi)目標(biāo)主機(jī)FTP端口接收流量;針對每臺主機(jī),根據(jù)5分鐘內(nèi)的流量信息(根據(jù)實(shí)際情況需要,可以改變統(tǒng)計(jì)窗口的 時(shí)間長度)計(jì)算出以上特征值,將會得到一個(gè)特征向量〈a, b, c, d, e, d, f, g, h, i, j, k, 1, m, n, o, p,q,r,s,t,u〉,其中a、 b、 c……分別對應(yīng)特征a)、特征b)、特征c)……的統(tǒng)計(jì)值。如某一臺運(yùn)行著pplive軟件(在線電視軟件, 一種網(wǎng)絡(luò)濫用類型)的主機(jī),對某5分 鐘時(shí)間窗口計(jì)算以上特征,得到相應(yīng)的特征向量實(shí)例為<73, 158, 23445851, 17563554.0, 5882297.0, 66, 931, 380, 0, 0, 147, 11, 17559788.0, 5881454.0, 3766.0, 843.0, 0, 0,, 2.98583257527, 0, 0>。每隔5分鐘針對統(tǒng)計(jì)窗口進(jìn)行一次滑動(dòng)(根據(jù)實(shí)際情況需要,可以改變統(tǒng)計(jì)窗口的滑 動(dòng)長度)。對流量日志中的所有主機(jī)IP進(jìn)行持續(xù)的統(tǒng)計(jì)可以得到一個(gè)特征向量列表。 (3)機(jī)器學(xué)習(xí)過程采集正常網(wǎng)絡(luò)流量日志,對流量日志經(jīng)過"特征提取/特征選取"的處理,得到一個(gè) 特征向量列表A,對A標(biāo)定類別為正常;為某種需要檢測的網(wǎng)絡(luò)濫用類型單獨(dú)采集主機(jī)流 量日志,對其進(jìn)行"特征提取/特征選取"的處理,得到一個(gè)特征向量列表,并對將給特 征向量列表標(biāo)定類別為對應(yīng)的類型,比如為網(wǎng)絡(luò)濫用類型C采集流量日志,得到特征向量 列表CList,然后把CList標(biāo)定為C。同樣的,可以為其他需要檢測的網(wǎng)絡(luò)濫用類型得到一 個(gè)對應(yīng)的特征向量列表。這樣可以得到一系列的特征向量列表,將所有的這些特征向量列 表進(jìn)行合并得到一個(gè)大的特征向量列表,就可以組成帶有類別標(biāo)定的特征向量集合組成的 訓(xùn)練集。這就是機(jī)器學(xué)習(xí)所需的訓(xùn)練集X。任意采用一種有監(jiān)督的機(jī)器學(xué)習(xí)算法(如決策樹、神經(jīng)網(wǎng)絡(luò)等)就可以從訓(xùn)練集X中學(xué)習(xí)得到一個(gè)分類器。本發(fā)明采用通用的C4.5決策樹算法(參考文獻(xiàn)J.Ross Quinlan. C4.5:Programs for Machine Learning. Morgan Kaufman, 1993.)對訓(xùn)練集X進(jìn)行訓(xùn)練,得到網(wǎng)絡(luò)濫用行為檢測 分類器X—tree。使用過程(2)中描述的特征向量〈a, b, c, d, e, d, f, g, h, i, j, k, 1, m, n, o, p, q, r, s, t, u>, 得到的網(wǎng)絡(luò)濫用行為檢測分類器X—tree的邏輯示意圖,如圖2所示。分類器以決策樹的形 式表現(xiàn)出來,樹的首節(jié)點(diǎn)(稱為根節(jié)點(diǎn))顯示在最上端,節(jié)點(diǎn)向下有序地與其他節(jié)點(diǎn)相連, 直至到達(dá)沒有后續(xù)的終端節(jié)點(diǎn)(稱為葉節(jié)點(diǎn))。決策樹分類過程第一步要從根節(jié)點(diǎn)開始, 首先對模式的某一屬性的取值進(jìn)行判斷,與根節(jié)點(diǎn)相連的不同節(jié)點(diǎn)對應(yīng)不同的屬性取值。 繼續(xù)這一判斷過程直到葉節(jié)點(diǎn)。每一個(gè)葉節(jié)點(diǎn)都標(biāo)有一個(gè)相應(yīng)的類別標(biāo)記,測試樣本就被 標(biāo)記為它所到達(dá)的葉節(jié)點(diǎn)的類別標(biāo)記。其中圖2中的A、 B、 C、 D、 E、 F、 G表示決策樹 建立時(shí)采用的一些屬性,ai, h、 Cl、山,ei, ft, gl為相應(yīng)屬性上的取值,表示實(shí)際中的判斷標(biāo) 準(zhǔn)。這些取值是通過機(jī)器學(xué)習(xí)的方法學(xué)習(xí)到的。(4) 采集網(wǎng)絡(luò)中另一組流量日志,得到己知標(biāo)定類別的特征向量列表,并輸入步驟3) 得到的分類器進(jìn)行測試。若測試結(jié)果沒有達(dá)到設(shè)定的準(zhǔn)確率(如設(shè)定準(zhǔn)確率為90%),則 將這些特征向量列表加入步驟3)的訓(xùn)練集中,重新生成分類器。反復(fù)進(jìn)行這一步驟,直 至得到分類器的準(zhǔn)確率控制在設(shè)定的準(zhǔn)確率范圍之內(nèi)。(5) 布置分類器進(jìn)行網(wǎng)絡(luò)濫用行為的在線檢測。本實(shí)施例中,將網(wǎng)絡(luò)濫用行為檢測分類器X—tree部署到在局域網(wǎng)網(wǎng)關(guān)處,利用接收到 的網(wǎng)絡(luò)流量日志信息進(jìn)行網(wǎng)絡(luò)濫用行為檢測。檢測步驟包括1) 定時(shí)接收網(wǎng)絡(luò)的流量信息,針對局域網(wǎng)內(nèi)各主機(jī)進(jìn)行特征向量提取。對局域網(wǎng)內(nèi)各主機(jī)計(jì)算特征向量〈a, b, c, d, e, d, f, g, h, i, j, k, 1, m, n, o, p, q, r, s, t, u>,得 到特征向量列表H。2) 利用網(wǎng)絡(luò)濫用行為檢測分類器判斷局域網(wǎng)內(nèi)各主機(jī)的網(wǎng)絡(luò)濫用行為。 如上所述,本發(fā)明可以通過網(wǎng)絡(luò)濫用行為檢測分類器判斷局域網(wǎng)內(nèi)的各主機(jī)是否存在網(wǎng)絡(luò)濫用行為。網(wǎng)絡(luò)濫用行為檢測分類器可以部署在內(nèi)部網(wǎng)絡(luò)的子網(wǎng)范圍內(nèi),根據(jù)實(shí)際部 署網(wǎng)絡(luò)的大小和實(shí)際流量,計(jì)算特征向量時(shí)的統(tǒng)計(jì)窗口大小可以進(jìn)行相應(yīng)調(diào)整;根據(jù)實(shí)際 網(wǎng)絡(luò)濫用行為種類的擴(kuò)充,使用的候選特征也可以進(jìn)行相應(yīng)的增減。另外,用于機(jī)器學(xué)習(xí) 的算法也并不局限于C4.5決策樹算法。盡管為說明目的公開了本發(fā)明的具體實(shí)施例和附圖,其目的在于幫助理解本發(fā)明的內(nèi)容并據(jù)以實(shí)施,但是本領(lǐng)域的技術(shù)人員可以理解在不脫離本發(fā)明及所附的權(quán)利要求的精 神和范圍內(nèi),各種替換、變化和修改都是可能的。本發(fā)明不應(yīng)局限于本說明書最佳實(shí)施例 和附圖所公開的內(nèi)容,本發(fā)明要求保護(hù)的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。
權(quán)利要求
1. 一種載荷無關(guān)的檢測網(wǎng)絡(luò)濫用行為的方法,其步驟為1)采集正常流量日志和有網(wǎng)絡(luò)濫用行為的流量日志組成流量日志信息訓(xùn)練集;2)從流量日志信息訓(xùn)練集中提取出網(wǎng)絡(luò)濫用行為的特征向量,組成特征向量集;所述特征向量包括設(shè)定時(shí)間內(nèi)與目標(biāo)主機(jī)通信的IP總數(shù)、與目標(biāo)主機(jī)相關(guān)的TCP和/或UDP連接的總數(shù)量、目標(biāo)主機(jī)發(fā)送和接收的總流量;3)利用機(jī)器學(xué)習(xí)算法對特征向量集進(jìn)行學(xué)習(xí),得到濫用行為檢測分類器;4)布置網(wǎng)絡(luò)濫用行為檢測分類器,對流量日志進(jìn)行在線檢測,檢測網(wǎng)絡(luò)濫用行為。
2. 如權(quán)利要求1所述的方法,其特征在于采用網(wǎng)關(guān)設(shè)施在設(shè)定時(shí)間內(nèi)采集網(wǎng)絡(luò)的所述流 量日志并標(biāo)注所述流量日志的類型。
3. 如權(quán)利要求2所述的方法,其特征在于所述特征向量還包括在設(shè)定時(shí)間內(nèi)與目標(biāo)主 機(jī)相關(guān)的TCP/UDP短連接的總數(shù)量、目標(biāo)主機(jī)發(fā)送的流量、目標(biāo)主機(jī)接收的流量、目 標(biāo)主機(jī)發(fā)送流量與接收流量比率、目標(biāo)主機(jī)發(fā)送的TCP/UDP總流量、目標(biāo)主機(jī)接收的 TCP/UDP總流量、與目標(biāo)主機(jī)相關(guān)且與HTTP/FTP服務(wù)端口 (80/20/21)相關(guān)的連接總 數(shù)、與HTTP/FTP服務(wù)端口 (80/20/21)相關(guān)的目標(biāo)主機(jī)的發(fā)送總流量、與HTTP/FTP 服務(wù)端口 (80/20/21)相關(guān)的目標(biāo)主機(jī)的接收總流量。
4. 如權(quán)利要求3所述的方法,其特征在于所述特征向量還包括但不限于下列特征向量的 一種或幾種在設(shè)定時(shí)間內(nèi)目標(biāo)主機(jī)發(fā)送的數(shù)據(jù)包總數(shù)量、目標(biāo)主機(jī)發(fā)送的TCP/UDP 數(shù)據(jù)包總數(shù)量、目標(biāo)主機(jī)接收的數(shù)據(jù)包總數(shù)量、目標(biāo)主機(jī)接收的TCP/UDP數(shù)據(jù)包總數(shù) 量、目標(biāo)主機(jī)發(fā)送和接收的數(shù)據(jù)包總數(shù)量、目標(biāo)主機(jī)發(fā)送和接收的TCP/UDP數(shù)據(jù)包總 數(shù)量、目標(biāo)主機(jī)發(fā)送數(shù)據(jù)包的頻率、目標(biāo)主機(jī)接收數(shù)據(jù)包的頻率、目標(biāo)主機(jī)發(fā)送數(shù)據(jù) 包的平均大小、目標(biāo)主機(jī)接收數(shù)據(jù)包的平均大小、目標(biāo)主機(jī)收發(fā)數(shù)據(jù)包的平均大小。
5. 如權(quán)利要求4所述的方法,其特征在于所述特征向量集的建立方法為-1) 對正常網(wǎng)絡(luò)流量日志進(jìn)行特征提取,得到一特征向量列表,并將其類別標(biāo)定為正常;2) 對某種網(wǎng)絡(luò)濫用類型的主機(jī)流量日志單獨(dú)進(jìn)行特征提取,得到一個(gè)特征向量列表, 并將其類別標(biāo)定為對應(yīng)的網(wǎng)絡(luò)濫用類型;3) 將所有的上述特征向量列表進(jìn)行合并得到一有類別標(biāo)定的特征向量集。
6. 如權(quán)利要求l所述的方法,其特征在于所述機(jī)器學(xué)習(xí)算法為決策樹算法。
7. 如權(quán)利要求1所述的方法,其特征在于利用所述流量日志對所述分類器進(jìn)行測試,其 方法為1)采集網(wǎng)絡(luò)中另一組流量日志,得到已知標(biāo)定類別的特征向量列表;2) 將特征向量列表輸入到所述分類器,得到一類型分類結(jié)果;3) 判斷得到的類型分類結(jié)果準(zhǔn)確率是否達(dá)到設(shè)定值,如果沒有達(dá)到,則將上述己知標(biāo) 定類別的特征向量列表加入到所述特征向量集重新生成分類器;4) 重復(fù)步驟l)到3)直到所述分類器的測試結(jié)果準(zhǔn)確率達(dá)到設(shè)定值。
8. 如權(quán)利要求1所述的方法,其特征在于在內(nèi)部網(wǎng)絡(luò)的子網(wǎng)范圍內(nèi)布置所述網(wǎng)絡(luò)濫用行 為檢測分類器。
9. 如權(quán)利要求1所述的方法,其特征在于所述對流量日志進(jìn)行在線檢測的方法為定時(shí) 接收網(wǎng)絡(luò)的流量信息,對局域網(wǎng)內(nèi)各主機(jī)進(jìn)行特征向量提取,標(biāo)定各主機(jī)的類型。
10. 如權(quán)利要求l所述的方法,其特征在于所述機(jī)器學(xué)習(xí)算法為神經(jīng)網(wǎng)絡(luò)算法。
全文摘要
本發(fā)明公開了一種載荷無關(guān)的檢測網(wǎng)絡(luò)濫用行為的方法,屬于計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)通信技術(shù)領(lǐng)域。本發(fā)明的方法為首先采集正常流量日志和有網(wǎng)絡(luò)濫用行為的流量日志組成流量日志信息訓(xùn)練集;從流量日志信息訓(xùn)練集中提取出網(wǎng)絡(luò)濫用行為的特征向量組成特征向量集;然后利用機(jī)器學(xué)習(xí)算法對特征向量集進(jìn)行學(xué)習(xí),得到濫用行為檢測分類器;最后布置網(wǎng)絡(luò)濫用行為檢測分類器,對流量日志進(jìn)行在線檢測,檢測網(wǎng)絡(luò)濫用行為。與現(xiàn)有技術(shù)相比本發(fā)明具有計(jì)算量小、占用的計(jì)算資源少,不受數(shù)據(jù)加密的影響以及面臨侵犯隱私的法律問題,同時(shí)可以及時(shí)和準(zhǔn)確地發(fā)現(xiàn)網(wǎng)絡(luò)濫用行為。
文檔編號H04L29/06GK101267353SQ20081010480
公開日2008年9月17日 申請日期2008年4月24日 優(yōu)先權(quán)日2008年4月24日
發(fā)明者平夏雨, 樸愛花, 斌 陳, 昱 陳, 黃春芳, 龔曉銳 申請人:北京大學(xué)