一種基于維納過程的異常入侵檢測集成學(xué)習(xí)方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種基于維納過程的異常入侵檢測集成學(xué)習(xí)方法,包括以下步驟:選擇網(wǎng)絡(luò)流量數(shù)據(jù)集;將每個(gè)網(wǎng)絡(luò)流量樣本及其樣本概率分布輸入到未初始化的神經(jīng)網(wǎng)絡(luò)分類器或者經(jīng)過上次訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)弱分類器中,判斷神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布;反復(fù)執(zhí)行步驟2,得到多個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器;分別確定每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重;根據(jù)每個(gè)弱分類器及每個(gè)弱分類器對(duì)應(yīng)的權(quán)重,得到強(qiáng)分類器;將待檢測網(wǎng)絡(luò)數(shù)據(jù)流輸入到強(qiáng)分類器中,得到入侵檢測結(jié)果;重復(fù)執(zhí)行步驟6,直至所有待檢測網(wǎng)絡(luò)數(shù)據(jù)流檢測完畢。本發(fā)明能夠解決不平衡數(shù)據(jù)集的分類問題、得到分類正確率較高的無偏分類器。
【專利說明】一種基于維納過程的異常入侵檢測集成學(xué)習(xí)方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種入侵檢測技術(shù),特別涉及一種基于維納過程的異常入侵檢測集成學(xué)習(xí)方法及裝置。
【背景技術(shù)】
[0002]入侵檢測通過監(jiān)視網(wǎng)絡(luò)系統(tǒng)的運(yùn)行狀態(tài),對(duì)網(wǎng)絡(luò)流量和系統(tǒng)審計(jì)記錄分析等,從中提取系統(tǒng)的各種行為模式及行為特征,進(jìn)而檢測出系統(tǒng)中存在的某些入侵行,主要分成兩大類型:異常入侵檢測和誤用入侵檢測。異常入侵檢測是目前入侵檢測系統(tǒng)的主要研究方向,能夠根據(jù)異常行為和使用計(jì)算機(jī)資源情況檢測出來的入侵,異常入侵檢測試圖用定量方式描述可接受的行為特征,以區(qū)分非正常的潛在的入侵性行為。異常入侵檢測首先定義一組系統(tǒng)“正?!鼻闆r的數(shù)值,如網(wǎng)絡(luò)數(shù)據(jù)流、CPU利用率、內(nèi)存利用率、文件校驗(yàn)和、系統(tǒng)日志等,然后將系統(tǒng)運(yùn)行時(shí)的各種特征與所定義的“正?!鼻闆r特征比較,從而識(shí)別出網(wǎng)絡(luò)內(nèi)是否存在攻擊及何種攻擊。
[0003]近年來,許多學(xué)者從各種角度對(duì)入侵檢測技術(shù)進(jìn)行了研究,自90年代起,人工智能逐漸被引入到入侵檢測研究中,一些新的入侵檢測的體系結(jié)構(gòu)應(yīng)運(yùn)而生。入侵檢測的核心是異常識(shí)別,本質(zhì)上屬于分類問題,但采用傳統(tǒng)的分類算法得到的性能不佳:一方面,單一的分類算法往往存在一定的局限性,如神經(jīng)網(wǎng)絡(luò)算法的泛化能力差、收斂速度慢等;另一反面,只有極少數(shù)的用戶行為是惡意非法的入侵行為,入侵檢測行為可以看做不平衡數(shù)據(jù)集分類問題,傳統(tǒng)的分類算法假設(shè)數(shù)據(jù)分布是均衡的,并且主要以數(shù)據(jù)整體正確率作為其性能的評(píng)價(jià)標(biāo)準(zhǔn),有時(shí)即使把少數(shù)類樣例全部錯(cuò)分仍能保證較高的整體準(zhǔn)確率。研究表明,將集成學(xué)習(xí)和過采樣技術(shù)相結(jié)合是解決上述問題的一種可行辦法,但是目前的存在的相關(guān)研究仍然存在一定問題。
[0004]集成學(xué)習(xí)技術(shù)采用若干個(gè)預(yù)測精度略好于隨機(jī)猜測的弱學(xué)習(xí)器,對(duì)同一問題進(jìn)行學(xué)習(xí),學(xué)習(xí)的輸出結(jié)果由參與集成的所有弱學(xué)習(xí)器共同表決確定,得到的集成學(xué)習(xí)器的預(yù)測精度優(yōu)于單個(gè)弱學(xué)習(xí)器。集成學(xué)習(xí)中的弱學(xué)習(xí)器可以涵蓋,如決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等主流的機(jī)器學(xué)習(xí)算法。其中典型的是AdaBoost (Adaptive Boost)集成算法,是基于boosting算法改進(jìn)的一種重要的集成學(xué)習(xí)技術(shù)。但是AdaBoost集成算法的訓(xùn)練數(shù)據(jù)集權(quán)重更新規(guī)則沒有考慮數(shù)據(jù)集的分布,對(duì)于誤分類或者正確分類的樣本,權(quán)重增大或減小的幅度是相同的。但不均衡數(shù)據(jù)集的少數(shù)類的樣本比較少,即使這些少數(shù)樣本權(quán)重增大,被抽樣的樣本數(shù)量相對(duì)于多數(shù)類樣本還是較少,抽取的新的訓(xùn)練數(shù)據(jù)集仍然是不均衡的。
【發(fā)明內(nèi)容】
[0005]本發(fā)明所要解決的技術(shù)問題是提供一種集成維納過程與Adaboost集成學(xué)習(xí)方法、解決不平衡數(shù)據(jù)集的分類問題、得到分類正確率較高的無偏分類器的基于維納過程的異常入侵檢測集成學(xué)習(xí)方法及裝置。
[0006]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種基于維納過程的異常入侵檢測集成學(xué)習(xí)方法,包括以下步驟:
[0007]步驟1:選擇包含多個(gè)網(wǎng)絡(luò)流量樣本的網(wǎng)絡(luò)流量數(shù)據(jù)集,所述網(wǎng)絡(luò)流量樣本分為入侵網(wǎng)絡(luò)流量樣本和正常網(wǎng)絡(luò)流量樣本;
[0008]步驟2:將每個(gè)網(wǎng)絡(luò)流量樣本及其樣本概率分布輸入到未初始化的神經(jīng)網(wǎng)絡(luò)分類器或者經(jīng)過上次訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)弱分類器中,得到新的神經(jīng)網(wǎng)絡(luò)弱分類器,判斷神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,得到該神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,根據(jù)分類錯(cuò)誤率分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布;
[0009]步驟3:反復(fù)執(zhí)行步驟2直至迭代次數(shù)達(dá)到預(yù)定次數(shù),每次迭代得到一個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器,最終得到多個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器,所述神經(jīng)網(wǎng)絡(luò)弱分類器的數(shù)量與預(yù)定次數(shù)的數(shù)量相同;
[0010]步驟4:根據(jù)每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,分別確定每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重;
[0011]步驟5:根據(jù)每個(gè)弱分類器及每個(gè)弱分類器對(duì)應(yīng)的權(quán)重,計(jì)算得到強(qiáng)分類器;
[0012]步驟6:將待檢測網(wǎng)絡(luò)數(shù)據(jù)流輸入到強(qiáng)分類器中,得到入侵檢測結(jié)果;
[0013]步驟7:重復(fù)執(zhí)行步驟6,直至所有待檢測網(wǎng)絡(luò)數(shù)據(jù)流檢測完畢。
[0014]本發(fā)明的有益效果是:本發(fā)明在某些假設(shè)條件成立的情況下,基于維納過程的過采樣技術(shù)生成的人造訓(xùn)練樣本的期望值和方差與原始少數(shù)類數(shù)據(jù)的期望值和方差相同;并且比傳統(tǒng)過采樣方法更好擴(kuò)展少數(shù)類的邊界;本發(fā)明能夠?qū)蓪W(xué)習(xí)算法泛化能力進(jìn)行極大提升,在訓(xùn)練集樣本有限的條件下,能夠保證測試集對(duì)獨(dú)立,相比單一分類器能獲得更小的誤差;此外,將基于維納過程的過采樣技術(shù)融入到集成學(xué)習(xí)中,以應(yīng)對(duì)不平衡數(shù)據(jù)集的分類問題,期望得到分類正確率較高的無偏分類器,從而使得入侵檢測系統(tǒng)具有較好的檢測性能。
[0015]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0016]進(jìn)一步,所述步驟2中,分類器具體為Adaboost集成分類器。
[0017]進(jìn)一步,所述步驟2中根據(jù)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布具體為:
[0018]當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器將入侵網(wǎng)絡(luò)流量樣本錯(cuò)誤的分類為正常網(wǎng)絡(luò)流量樣本時(shí),將入侵網(wǎng)絡(luò)流量樣本利用維納過程進(jìn)行處理,來增加分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的數(shù)量,并增大入侵網(wǎng)絡(luò)流量樣本的樣本概率分布;
[0019]當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器將正常網(wǎng)絡(luò)流量樣本正確的分類為正常網(wǎng)絡(luò)流量樣本時(shí),減小該正常網(wǎng)絡(luò)流量樣本的樣本概率分布。
[0020]進(jìn)一步,步驟4中所述每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率與每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重成反比。
[0021]進(jìn)一步,所述步驟5具體為將每個(gè)弱分類器按照其對(duì)應(yīng)的權(quán)重進(jìn)行疊加運(yùn)算,得到強(qiáng)分類器。
[0022]進(jìn)一步,一種基于維納過程的異常入侵檢測集成學(xué)習(xí)裝置,包括選擇模塊,輸入調(diào)整模塊,迭代模塊,確定權(quán)重模塊,計(jì)算強(qiáng)分類器模塊,輸入檢測模塊和重復(fù)輸入模塊;
[0023]所述選擇模塊,用于選擇包含多個(gè)網(wǎng)絡(luò)流量樣本的網(wǎng)絡(luò)流量數(shù)據(jù)集,所述網(wǎng)絡(luò)流量樣本分為入侵網(wǎng)絡(luò)流量樣本和正常網(wǎng)絡(luò)流量樣本;[0024]所述輸入調(diào)整模塊,用于將每個(gè)網(wǎng)絡(luò)流量樣本及其樣本概率分布輸入到未初始化的神經(jīng)網(wǎng)絡(luò)分類器或者經(jīng)過上次訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)弱分類器中,得到新的神經(jīng)網(wǎng)絡(luò)弱分類器,判斷神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,得到該神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,根據(jù)分類錯(cuò)誤率分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布;
[0025]所述迭代模塊,反復(fù)執(zhí)行輸入調(diào)整模塊直至迭代次數(shù)達(dá)到預(yù)定次數(shù),每次迭代得至IJ 一個(gè)新的神經(jīng)網(wǎng)絡(luò)弱分類器,最終得到多個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器,所述神經(jīng)網(wǎng)絡(luò)弱分類器的數(shù)量與預(yù)定次數(shù)的數(shù)量相同;
[0026]所述確定權(quán)重模塊,根據(jù)每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,分別確定每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重;
[0027]所述計(jì)算強(qiáng)分類器模塊,根據(jù)每個(gè)弱分類器及每個(gè)弱分類器對(duì)應(yīng)的權(quán)重,計(jì)算得到強(qiáng)分類器;
[0028]所述輸入檢測模塊,用于將待檢測網(wǎng)絡(luò)數(shù)據(jù)流輸入到強(qiáng)分類器中,得到入侵檢測結(jié)果;
[0029]所述重復(fù)輸入模塊,用于重復(fù)執(zhí)行輸入檢測模塊,直至所有待檢測網(wǎng)絡(luò)數(shù)據(jù)流檢測完畢。
[0030]進(jìn)一步,所述輸入調(diào)整模塊中,分類器具體為Adaboost集成分類器。
[0031]進(jìn)一步,所述輸入調(diào)整模塊根據(jù)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)網(wǎng)絡(luò)流量樣本分類錯(cuò)誤率,調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布具體為:當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)網(wǎng)絡(luò)流量樣本分類錯(cuò)誤時(shí),將分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本利用維納過程進(jìn)行處理,來增加分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的數(shù)量,并增大分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的樣本概率分布,否則,減小分類正確的網(wǎng)絡(luò)流量樣本的樣本概率分布。
[0032]進(jìn)一步,所述確定權(quán)重模塊中所述每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率與每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重成反比。
[0033]所述計(jì)算強(qiáng)分類器模塊具體為將每個(gè)弱分類器按照其對(duì)應(yīng)的權(quán)重進(jìn)行疊加運(yùn)算,得到強(qiáng)分類器。
【專利附圖】
【附圖說明】
[0034]圖1為本發(fā)明方法步驟流程圖;
[0035]圖2為本發(fā)明裝置結(jié)構(gòu)圖。
[0036]附圖中,各標(biāo)號(hào)所代表的部件列表如下:
[0037]1、選擇模塊,2、輸入調(diào)整模塊,3、迭代模塊,4、確定權(quán)重模塊,5、計(jì)算強(qiáng)分類器模塊,6、輸入檢測模塊,7、重復(fù)輸入模塊。
【具體實(shí)施方式】
[0038]以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
[0039]如圖1所示,為本發(fā)明方法步驟流程圖;圖2為本發(fā)明裝置結(jié)構(gòu)圖。
[0040]實(shí)施例1
[0041]一種基于維納過程的異常入侵檢測集成學(xué)習(xí)方法,包括以下步驟:[0042]步驟1:選擇包含多個(gè)網(wǎng)絡(luò)流量樣本的網(wǎng)絡(luò)流量數(shù)據(jù)集,所述網(wǎng)絡(luò)流量樣本分為入侵網(wǎng)絡(luò)流量樣本和正常網(wǎng)絡(luò)流量樣本;
[0043]步驟2:將每個(gè)網(wǎng)絡(luò)流量樣本及其樣本概率分布輸入到未初始化的神經(jīng)網(wǎng)絡(luò)分類器或者經(jīng)過上次訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)弱分類器中,得到新的神經(jīng)網(wǎng)絡(luò)弱分類器,判斷神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,得到該神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,根據(jù)分類錯(cuò)誤率分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布;
[0044]步驟3:反復(fù)執(zhí)行步驟2直至迭代次數(shù)達(dá)到預(yù)定次數(shù),每次迭代得到一個(gè)新的神經(jīng)網(wǎng)絡(luò)弱分類器,最終得到多個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器,所述神經(jīng)網(wǎng)絡(luò)弱分類器的數(shù)量與預(yù)定次數(shù)的數(shù)量相同;
[0045]步驟4:根據(jù)每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,分別確定每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重;
[0046]步驟5:根據(jù)每個(gè)弱分類器及每個(gè)弱分類器對(duì)應(yīng)的權(quán)重,計(jì)算得到強(qiáng)分類器;
[0047]步驟6:將待檢測網(wǎng)絡(luò)數(shù)據(jù)流輸入到強(qiáng)分類器中,得到入侵檢測結(jié)果;
[0048]步驟7:重復(fù)執(zhí)行步驟6,直至所有待檢測網(wǎng)絡(luò)數(shù)據(jù)流檢測完畢。
[0049]所述步驟2中,分類器具體為Adaboost集成分類器。
[0050]所述步驟2中根據(jù)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布具體為:
[0051]當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器將入侵網(wǎng)絡(luò)流量樣本錯(cuò)誤的分類為正常網(wǎng)絡(luò)流量樣本時(shí),將入侵網(wǎng)絡(luò)流量樣本利用維納過程進(jìn)行處理,來增加分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的數(shù)量,并增大入侵網(wǎng)絡(luò)流量樣本的樣本概率分布;
[0052]當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器將正常網(wǎng)絡(luò)流量樣本正確的分類為正常網(wǎng)絡(luò)流量樣本時(shí),減小該正常網(wǎng)絡(luò)流量樣本的樣本概率分布。
[0053]步驟4中所述每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率與每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重成反比。
[0054]所述步驟5具體為將每個(gè)弱分類器按照其對(duì)應(yīng)的權(quán)重進(jìn)行疊加運(yùn)算,得到強(qiáng)分類器。
[0055]一種基于維納過程的異常入侵檢測集成學(xué)習(xí)裝置,包括選擇模塊1,輸入調(diào)整模塊2,迭代模塊3,確定權(quán)重模塊4,計(jì)算強(qiáng)分類器模塊5,輸入檢測模塊6和重復(fù)輸入模塊7 ;
[0056]所述選擇模塊1,用于選擇包含多個(gè)網(wǎng)絡(luò)流量樣本的網(wǎng)絡(luò)流量數(shù)據(jù)集,所述網(wǎng)絡(luò)流量樣本分為入侵網(wǎng)絡(luò)流量樣本和正常網(wǎng)絡(luò)流量樣本;
[0057]所述輸入調(diào)整模塊2,用于將每個(gè)網(wǎng)絡(luò)流量樣本及其樣本概率分布輸入到未初始化的神經(jīng)網(wǎng)絡(luò)分類器或者經(jīng)過上次訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)弱分類器中,得到新的神經(jīng)網(wǎng)絡(luò)弱分類器,判斷神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,得到該神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,根據(jù)分類錯(cuò)誤率分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布;
[0058]所述迭代模塊3,反復(fù)執(zhí)行輸入調(diào)整模塊2直至迭代次數(shù)達(dá)到預(yù)定次數(shù),每次迭代得到一個(gè)新的神經(jīng)網(wǎng)絡(luò)弱分類器,最終得到多個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器,所述神經(jīng)網(wǎng)絡(luò)弱分類器的數(shù)量與預(yù)定次數(shù)的數(shù)量相同;
[0059]所述確定權(quán)重模塊4,根據(jù)每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,分別確定每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重;[0060]所述計(jì)算強(qiáng)分類器模塊5,根據(jù)每個(gè)弱分類器及每個(gè)弱分類器對(duì)應(yīng)的權(quán)重,計(jì)算得到強(qiáng)分類器;
[0061]所述輸入檢測模塊6,用于將待檢測網(wǎng)絡(luò)數(shù)據(jù)流輸入到強(qiáng)分類器中,得到入侵檢測
結(jié)果;
[0062]所述重復(fù)輸入模塊7,用于重復(fù)執(zhí)行輸入檢測模塊6,直至所有待檢測網(wǎng)絡(luò)數(shù)據(jù)流檢測完畢。
[0063]所述輸入調(diào)整模塊2中,分類器具體為Adaboost集成分類器。
[0064]所述輸入調(diào)整模塊2根據(jù)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)網(wǎng)絡(luò)流量樣本分類錯(cuò)誤率,調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布具體為:當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)網(wǎng)絡(luò)流量樣本分類錯(cuò)誤時(shí),將分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本利用維納過程進(jìn)行處理,來增加分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的數(shù)量,并增大分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的樣本概率分布,否則,減小分類正確的網(wǎng)絡(luò)流量樣本的樣本概率分布。
[0065]所述確定權(quán)重模塊4中所述每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率與每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重成反比。
[0066]所述計(jì)算強(qiáng)分類器模塊5具體為將每個(gè)弱分類器按照其對(duì)應(yīng)的權(quán)重進(jìn)行疊加運(yùn)算,得到強(qiáng)分類器。
[0067]在具體實(shí)施 中,本發(fā)明具體由以下部分組成:
[0068]1.入侵檢測數(shù)據(jù)集選擇
[0069]本專利是面向入侵檢測網(wǎng)絡(luò)數(shù)據(jù)流,在實(shí)際應(yīng)用中,入侵網(wǎng)絡(luò)數(shù)據(jù)流的選擇依具體場景而形式各異。為了客觀的衡量本專利的性能,選取了由哥倫比亞大學(xué)IDS實(shí)驗(yàn)室整理形成的安全審計(jì)數(shù)據(jù)集KDDCUP’ 99。KDDCUP’ 99僅包含了網(wǎng)絡(luò)流量數(shù)據(jù),比MITLL數(shù)據(jù)集更適于數(shù)據(jù)挖掘處理,是目前為止學(xué)術(shù)界最有影響力的入侵檢測評(píng)測研究數(shù)據(jù)集。
[0070]實(shí)驗(yàn)部分選擇KDDCUP’ 99數(shù)據(jù)集中10%數(shù)據(jù)集,包括訓(xùn)練數(shù)據(jù)集kddcup.data_10_percent, gz (含攻擊標(biāo)記),2.1M ;測試數(shù)據(jù)集 kddcup.newtestdata.unlabeled_10_percent, gz (不含攻擊標(biāo)記),1.4M。其中,未標(biāo)注的測試數(shù)據(jù)集用于評(píng)估測試入侵檢測算法,帶有標(biāo)注的數(shù)據(jù)集是用來驗(yàn)證算法的性能。在兩種10%數(shù)據(jù)集中,上述4大類攻擊各含攻擊行為數(shù)量不同。10%數(shù)據(jù)集中包含四大類攻擊行為:拒絕服務(wù)攻擊(Denial-Of-Service)、端口或漏洞掃描(Probe)、權(quán)限提升(User to Root)和遠(yuǎn)程權(quán)限獲取(Remote to Local )。這四大類攻擊的數(shù)量不盡相同,訓(xùn)練數(shù)據(jù)集包含23種攻擊行為,測試數(shù)據(jù)集包含38中攻擊行為。選擇該數(shù)據(jù)集的原因是數(shù)據(jù)分布比較分散,每個(gè)類的數(shù)量和類型分布明顯不均衡,是一個(gè)典型的不平衡數(shù)據(jù)集。
[0071]2.輸入數(shù)據(jù)集的集成學(xué)習(xí)訓(xùn)練
[0072]在選擇完入侵檢測集之后,需要將這些作為集成學(xué)習(xí)的訓(xùn)練結(jié)合作為集成學(xué)習(xí)方法的輸入。假設(shè)輸入訓(xùn)練集樣本的個(gè)數(shù)為m,每個(gè)樣本的初始權(quán)重是l/n,Tr_S為每次新的輸入訓(xùn)練集,r表示Tr_S包含樣本的個(gè)數(shù)。原始訓(xùn)練集F = KX^Yi) |i e (I, 2,..., m)} ,Xi是一組訓(xùn)練樣本值。Yfa是少數(shù)類,Yfb是多數(shù)類。少數(shù)類樣本的總數(shù)為n,樣本的總數(shù)為m,其中n〈〈m-n。Xi包含k個(gè)屬性,Xu是Xi的第j個(gè)屬性值。集合ο存放每次迭代被錯(cuò)分的少數(shù)類樣本。是Xu做維納過程生成的新樣本。集合ο存儲(chǔ)訓(xùn)練中被錯(cuò)分的少數(shù)類樣本,P表示集合O中元素的個(gè)數(shù)。維納過程中令c=l,At=O//P。E是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度,M是設(shè)定的神經(jīng)網(wǎng)絡(luò)訓(xùn)練的最大次數(shù)。Q表示每個(gè)樣例被用來生成人造訓(xùn)練樣本的次數(shù)。弱分類器采用三層BP神經(jīng)網(wǎng)絡(luò),輸出層包含兩個(gè)神經(jīng)元+1和-1,分別表示正常行為和異常行為。
[0073]在選取的KDDCUP’ 99樣本中,初始化每個(gè)樣本的分布D1 (Yi),將樣本和樣本分布D1(Yi)作為輸入,迭代訓(xùn)練出一組反向傳播的神經(jīng)網(wǎng)絡(luò)弱分類器,。每次迭代時(shí),對(duì)于分類錯(cuò)誤的所有樣本,加大其對(duì)應(yīng)的權(quán)重;對(duì)其中的少數(shù)類樣本,采用基于維納過程的過采樣方法,即算法中第15-23行,集合ο存儲(chǔ)的就是每一次迭代分錯(cuò)的少數(shù)類樣本。而對(duì)于分類正確的樣本,依據(jù)算法中第38-41行,重新計(jì)算樣本分布D1 (Yi)降低其權(quán)重。這樣的處理既能將分錯(cuò)的樣本突顯出來,又能均衡的樣本分布,從而提高少數(shù)類的分類性能。依次類推,經(jīng)過T次迭代,得到T個(gè)弱分類器,把這T個(gè)弱分類器按一定的權(quán)重疊加起來(算法第44行),融合得到最終的強(qiáng)分類器。
【權(quán)利要求】
1.一種基于維納過程的異常入侵檢測集成學(xué)習(xí)方法,其特征在于,包括以下步驟: 步驟1:選擇包含多個(gè)網(wǎng)絡(luò)流量樣本的網(wǎng)絡(luò)流量數(shù)據(jù)集,所述網(wǎng)絡(luò)流量樣本分為入侵網(wǎng)絡(luò)流量樣本和正常網(wǎng)絡(luò)流量樣本; 步驟2:將每個(gè)網(wǎng)絡(luò)流量樣本及其樣本概率分布輸入到未初始化的神經(jīng)網(wǎng)絡(luò)分類器或者經(jīng)過上次訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)弱分類器中,得到新的神經(jīng)網(wǎng)絡(luò)弱分類器,判斷神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,得到該神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,根據(jù)分類錯(cuò)誤率分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布; 步驟3:反復(fù)執(zhí)行步驟2直至迭代次數(shù)達(dá)到預(yù)定次數(shù),每次迭代得到一個(gè)新的神經(jīng)網(wǎng)絡(luò)弱分類器,最終得到多個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器,所述神經(jīng)網(wǎng)絡(luò)弱分類器的數(shù)量與預(yù)定次數(shù)的數(shù)量相同; 步驟4:根據(jù)每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,分別確定每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重; 步驟5:根據(jù)每個(gè)弱分類器及每個(gè)弱分類器對(duì)應(yīng)的權(quán)重,計(jì)算得到強(qiáng)分類器; 步驟6:將待檢測網(wǎng)絡(luò)數(shù)據(jù)流輸入到強(qiáng)分類器中,得到入侵檢測結(jié)果; 步驟7:重復(fù)執(zhí)行步驟6,直至所有待檢測網(wǎng)絡(luò)數(shù)據(jù)流檢測完畢。
2.根據(jù)權(quán)利要求1所述的異常入侵檢測集成學(xué)習(xí)方法,其特征在于:所述步驟2中,分類器具體為Adaboost集成分類器。
3.根據(jù)權(quán)利要求1所述的異常入侵檢測集成學(xué)習(xí)方法,其特征在于:所述步驟2中根據(jù)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)·絡(luò)流量樣本是否分類錯(cuò)誤,分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布具體為: 當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器將入侵網(wǎng)絡(luò)流量樣本錯(cuò)誤的分類為正常網(wǎng)絡(luò)流量樣本時(shí),將入侵網(wǎng)絡(luò)流量樣本利用維納過程進(jìn)行處理,來增加分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的數(shù)量,并增大入侵網(wǎng)絡(luò)流量樣本的樣本概率分布; 當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器將正常網(wǎng)絡(luò)流量樣本正確的分類為正常網(wǎng)絡(luò)流量樣本時(shí),減小該正常網(wǎng)絡(luò)流量樣本的樣本概率分布。
4.根據(jù)權(quán)利要求1所述的異常入侵檢測集成學(xué)習(xí)方法,其特征在于:步驟4中所述每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率與每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重成反比。
5.根據(jù)權(quán)利要求1所述的異常入侵檢測集成學(xué)習(xí)方法,其特征在于:所述步驟5具體為將每個(gè)弱分類器按照其對(duì)應(yīng)的權(quán)重進(jìn)行疊加運(yùn)算,得到強(qiáng)分類器。
6.一種基于維納過程的異常入侵檢測集成學(xué)習(xí)裝置,其特征在于:包括選擇模塊(1),輸入調(diào)整模塊(2),迭代模塊(3),確定權(quán)重模塊(4),計(jì)算強(qiáng)分類器模塊(5),輸入檢測模塊(6)和重復(fù)輸入模塊(7); 所述選擇模塊(I ),用于選擇包含多個(gè)網(wǎng)絡(luò)流量樣本的網(wǎng)絡(luò)流量數(shù)據(jù)集,所述網(wǎng)絡(luò)流量樣本分為入侵網(wǎng)絡(luò)流量樣本和正常網(wǎng)絡(luò)流量樣本;所述輸入調(diào)整模塊(2),用于將每個(gè)網(wǎng)絡(luò)流量樣本及其樣本概率分布輸入到未初始化的神經(jīng)網(wǎng)絡(luò)分類器或者經(jīng)過上次訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)弱分類器中,得到新的神經(jīng)網(wǎng)絡(luò)弱分類器,判斷神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)每個(gè)網(wǎng)絡(luò)流量樣本是否分類錯(cuò)誤,得到該神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,根據(jù)分類錯(cuò)誤率分別調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布;所述迭代模塊(3),反復(fù)執(zhí)行輸入調(diào)整模塊(2)直至迭代次數(shù)達(dá)到預(yù)定次數(shù),每次迭代得到新的一個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器,最終得到多個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器,所述神經(jīng)網(wǎng)絡(luò)弱分類器的數(shù)量與預(yù)定次數(shù)的數(shù)量相同; 所述確定權(quán)重模塊(4),根據(jù)每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率,分別確定每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重; 所述計(jì)算強(qiáng)分類器模塊(5),根據(jù)每個(gè)弱分類器及每個(gè)弱分類器對(duì)應(yīng)的權(quán)重,計(jì)算得到強(qiáng)分類器; 所述輸入檢測模塊(6),用于將待檢測網(wǎng)絡(luò)數(shù)據(jù)流輸入到強(qiáng)分類器中,得到入侵檢測結(jié)果; 所述重復(fù)輸入模塊(7),用于重復(fù)執(zhí)行輸入檢測模塊(6),直至所有待檢測網(wǎng)絡(luò)數(shù)據(jù)流檢測完畢。
7.根據(jù)權(quán)利要求6所述的異常入侵檢測集成學(xué)習(xí)裝置,其特征在于:所述輸入調(diào)整模塊(2)中,分類器具體為Adaboost集成分類器。
8.根據(jù)權(quán)利要求6所述的異常入侵檢測集成學(xué)習(xí)裝置,其特征在于:所述輸入調(diào)整模塊(2)根據(jù)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)網(wǎng)絡(luò)流量樣本分類錯(cuò)誤率,調(diào)整每個(gè)網(wǎng)絡(luò)流量樣本的數(shù)量及樣本概率分布具體為:當(dāng)神經(jīng)網(wǎng)絡(luò)弱分類器對(duì)網(wǎng)絡(luò)流量樣本分類錯(cuò)誤時(shí),將分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本利用維納過程進(jìn)行處理,來增加分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的數(shù)量,并增大分類錯(cuò)誤的網(wǎng)絡(luò)流量樣本的樣本概率分布,否則,減小分類正確的網(wǎng)絡(luò)流量樣本的樣本概率分布。
9.根據(jù)權(quán)利要求6所述的異常入侵檢測集成學(xué)習(xí)裝置,其特征在于:所述確定權(quán)重模塊(4)中所述每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的分類錯(cuò)誤率與每個(gè)神經(jīng)網(wǎng)絡(luò)弱分類器的權(quán)重成反比。
10.根據(jù)權(quán)利要求6所述的異常入侵檢測集成學(xué)習(xí)裝置,其特征在于:所述計(jì)算強(qiáng)分類器模塊(5)具體為將每個(gè)弱分類器按照其對(duì)應(yīng)的權(quán)重進(jìn)行疊加運(yùn)算,得到強(qiáng)分類器。
【文檔編號(hào)】G06N3/02GK103716204SQ201310712975
【公開日】2014年4月9日 申請(qǐng)日期:2013年12月20日 優(yōu)先權(quán)日:2013年12月20日
【發(fā)明者】李倩, 牛溫佳, 管洋洋, 黃超, 劉萍, 郭莉 申請(qǐng)人:中國科學(xué)院信息工程研究所