两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法

文檔序號(hào):6354646閱讀:770來(lái)源:國(guó)知局
專利名稱:一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明涉及基于支持向量機(jī)的檢測(cè)方法。
背景技術(shù)
計(jì)算機(jī)互聯(lián)網(wǎng)的快速發(fā)展給人類社會(huì)帶來(lái)了巨大的變化。但由于網(wǎng)絡(luò)的開(kāi)放性、 復(fù)雜性、信息共享、以及網(wǎng)絡(luò)協(xié)議設(shè)計(jì)中存在的安全缺陷等原因,計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展面臨著嚴(yán)峻的安全威脅。網(wǎng)絡(luò)安全體系的構(gòu)建不論從理論上還是從應(yīng)用上,都成為了計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域的研究重點(diǎn)。入侵檢測(cè)技術(shù)是針對(duì)計(jì)算機(jī)和網(wǎng)絡(luò)信息資源的惡意行為的識(shí)別和響應(yīng), 它不僅可以檢測(cè)自外部的入侵行為,同時(shí)也能夠指出內(nèi)部合法用戶的未授權(quán)的活動(dòng)。入侵檢測(cè)技術(shù)是實(shí)現(xiàn)網(wǎng)絡(luò)安全中主動(dòng)防御環(huán)節(jié)的主要技術(shù)手段。當(dāng)檢測(cè)出入侵行為后,入侵檢測(cè)系統(tǒng)會(huì)通過(guò)響應(yīng)模塊改變系統(tǒng)的防護(hù)措施,提高系統(tǒng)的防火能力,從而達(dá)到主動(dòng)防御的目標(biāo)。入侵檢測(cè)技術(shù)主要可以分為異常檢測(cè)和誤用檢測(cè)兩類,其中,異常檢測(cè)方法由于能夠檢測(cè)出未知的攻擊,因此成為目前入侵家側(cè)系統(tǒng)研究的熱點(diǎn)。支持向量機(jī)(Support Vector Machine, SVM)是Vapnik等人在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出的一種新的模式識(shí)別方法,是一種能在訓(xùn)練樣本數(shù)很少的情況下達(dá)到較好分類推廣能力的學(xué)習(xí)算法,在解決有限樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì),同時(shí)具有很好的分類精度和泛化能力。目前支持向量機(jī)技術(shù)在網(wǎng)絡(luò)數(shù)據(jù)的異常檢測(cè)應(yīng)用中有了很大的進(jìn)步,但仍然存在一些因素制約著SVM的廣泛應(yīng)用,比如大規(guī)模樣本集的訓(xùn)練導(dǎo)致系統(tǒng)資源占用過(guò)多(計(jì)算復(fù)雜度和空間復(fù)雜度高)。近年來(lái)人們根據(jù)支持向量機(jī)本身的特點(diǎn),如解得稀疏性、優(yōu)化問(wèn)題的凸性等,設(shè)計(jì)了許多方法來(lái)解決對(duì)偶尋優(yōu)問(wèn)題, 比如SMO方法,分快法等。但是這些方法都不能直接減少參與訓(xùn)練的樣本總數(shù),因而實(shí)際使用中訓(xùn)練算法的復(fù)雜度仍然很高,對(duì)于大樣本情況下仍然難有較好的表現(xiàn)。另外,在實(shí)際的網(wǎng)絡(luò)異常檢測(cè)應(yīng)用中,足夠的訓(xùn)練數(shù)據(jù)能夠使入侵檢測(cè)系統(tǒng)獲得更好的檢測(cè)性能,但搜索網(wǎng)絡(luò)攻擊數(shù)據(jù)并對(duì)其進(jìn)行類別標(biāo)注用于構(gòu)建訓(xùn)練集,是一件困難且人力和物力耗費(fèi)相當(dāng)大的工作,需要安全技術(shù)領(lǐng)域?qū)<业膮⑴c。因此,對(duì)基于支持向量機(jī)的入侵檢測(cè)系統(tǒng)而言,如何保證在具有良好分類特性的同時(shí),有效的減少所需的訓(xùn)練樣本數(shù),并為一個(gè)研究的重點(diǎn)問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明為了解決現(xiàn)有在網(wǎng)絡(luò)數(shù)據(jù)的異常檢測(cè)方法中支持向量機(jī)方法中所存在的訓(xùn)練樣本多、復(fù)雜度高、難以有良好分類特性的問(wèn)題,而提出了一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法。本發(fā)明的一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法的步驟如下步驟一在候選未標(biāo)注樣本集A的未標(biāo)注樣本中選擇C個(gè)點(diǎn)作為候選聚類中心,將候選未標(biāo)注樣本集A進(jìn)行迭代優(yōu)化聚類運(yùn)算,選取疊代聚類結(jié)果中的代表性樣本構(gòu)建訓(xùn)練樣本集B;
步驟二 支持向量機(jī)在上述構(gòu)建的訓(xùn)練樣本集B上訓(xùn)練得到訓(xùn)練超平面;步驟三根據(jù)樣本選擇準(zhǔn)則從候選未標(biāo)注樣本集A中選擇最能提升分類性能的樣本,標(biāo)注類別后加入訓(xùn)練樣本集B中;步驟四支持向量機(jī)在更新后的訓(xùn)練樣本集B上重新訓(xùn)練;步驟五若檢測(cè)精度達(dá)到設(shè)定值,則結(jié)束,否則返回步驟三。通過(guò)對(duì)傳統(tǒng)SVM基礎(chǔ)理論的分析,可知SVM訓(xùn)練得到的分類器,只和分類超平面上支持向量(SV)所對(duì)應(yīng)的訓(xùn)練樣本有關(guān),支持向量包含了分類器所需的信息,與其他樣本無(wú)關(guān),也就是說(shuō)離分類超平面越近的樣本最能影響分類器(分類超平面),而離分類超平面距離越遠(yuǎn)的樣本對(duì)分類器的影響不是很大。因此,采取主動(dòng)學(xué)習(xí)思想的詢問(wèn)機(jī)制為每次只需要把距離分類超平面最近的未標(biāo)記的樣本,加入到訓(xùn)練樣本集中,進(jìn)行訓(xùn)練。采用這種策略,每次選擇進(jìn)行學(xué)習(xí)的樣本部是不確定性最大的樣本,它對(duì)分類器的影響也是最大。將基于支持向量機(jī)的主動(dòng)學(xué)習(xí)算法應(yīng)用于異常檢測(cè)研究中,能夠有效地降低學(xué)習(xí)樣本的復(fù)雜度。針對(duì)支持向量機(jī)的主動(dòng)學(xué)習(xí)算法中存在的隨機(jī)構(gòu)造的初始訓(xùn)練樣本質(zhì)量不高和容易陷入次優(yōu)等問(wèn)題,本文提出了一種結(jié)合迭代優(yōu)化聚類(IS0DATA)的初始訓(xùn)練集構(gòu)建方法,同時(shí),在距離準(zhǔn)則的基礎(chǔ)上,提出了相應(yīng)的主動(dòng)學(xué)習(xí)算法的系統(tǒng)構(gòu)架。該算法所需的學(xué)習(xí)樣本更少,該系統(tǒng)構(gòu)架提供了完備的主動(dòng)學(xué)習(xí)模型。


圖1是本發(fā)明的流程示意圖。
具體實(shí)施例方式具體實(shí)施方式
一結(jié)合圖1說(shuō)明本實(shí)施方式,在主動(dòng)學(xué)習(xí)方式下,訓(xùn)練樣本是根據(jù)學(xué)習(xí)進(jìn)程主動(dòng)選擇的,其學(xué)習(xí)過(guò)程為初始化階段和循環(huán)學(xué)習(xí)階段,具體步驟如下候選未標(biāo)注樣本集A,訓(xùn)練樣本集B,初始訓(xùn)練集樣本數(shù)N,當(dāng)前訓(xùn)練樣本數(shù)η。步驟一在候選未標(biāo)注樣本集A的未標(biāo)注樣本中選擇C個(gè)點(diǎn)作為候選聚類中心,將候選未標(biāo)注樣本集A進(jìn)行迭代優(yōu)化聚類運(yùn)算,選取疊代聚類結(jié)果中的代表性樣本構(gòu)建訓(xùn)練樣本集B;支持向量機(jī)的分類函數(shù)面為核空間的一個(gè)超平面H,設(shè)在初始訓(xùn)練集上訓(xùn)練得到的超平面為Hs,實(shí)際最優(yōu)的超平面為Hr,則SVM主動(dòng)學(xué)習(xí)過(guò)程就是H從Hs向Hr優(yōu)化調(diào)整的過(guò)程。如果Hs與扎之間差異較小,則可以減少后即學(xué)習(xí)過(guò)程中所需的樣本數(shù)。在初始訓(xùn)練樣本集規(guī)模相同情況下,如果初始樣本在核空間分布的比較緊密,則學(xué)習(xí)得到Hs—般只能反映出該局部區(qū)域的分類信息,難以較高的概率保證Hs和扎的全局近似性。相反,如果初始樣本在核空間分布比較分散并具有一定的代表性,則學(xué)習(xí)所得Hs就綜合了較多的分類信息,使得Hs與^的相近性有了進(jìn)一步的提高。于是本步驟中采用迭代優(yōu)化聚類運(yùn)算構(gòu)建初始訓(xùn)練樣本集,步驟如下步驟1 將候選未標(biāo)注樣本集A進(jìn)行初始化,在多維空間中選擇C個(gè)點(diǎn)作為候選聚類中心,將這些點(diǎn)記為m^i,i = 1,2,... ,C;步驟2 在聚類的未標(biāo)注的樣本中,檢驗(yàn)每一個(gè)未標(biāo)注樣本的位置X,指定未標(biāo)注樣本到最近的候選類中,這種指定方式是根據(jù)歐式距離度量進(jìn)行;步驟3:根據(jù)上一步驟得到的分組,計(jì)算得到一組新的均值,記作Hii, i = 1, 2 9 · · · j C 5步驟4 如果對(duì)于全部i有叫=Mi,則迭代處理停止,否則,利用當(dāng)前的Hii值來(lái)更新值,返回步驟2。步驟二 支持向量機(jī)在上述構(gòu)建的訓(xùn)練樣本集B上訓(xùn)練得到訓(xùn)練超平面;步驟三根據(jù)樣本選擇準(zhǔn)則從候選未標(biāo)注樣本集A中選擇最能提升分類性能的樣本,標(biāo)注類別后加入訓(xùn)練樣本集B中;支持向量機(jī)主動(dòng)學(xué)習(xí)機(jī)采取樣本選擇準(zhǔn)則是從候選未標(biāo)注樣本集A中選擇應(yīng)該標(biāo)注的樣本;本步驟中采用的樣本選擇準(zhǔn)則是每次選擇離分類面最近的一個(gè)或者幾個(gè)樣本作為新樣本進(jìn)行訓(xùn)練;采用這個(gè)準(zhǔn)則,每次選擇進(jìn)行學(xué)習(xí)的樣本部是不確定性最大的樣本, 它對(duì)分類器的影響也最大,對(duì)分類器的影響也是最大的;步驟四支持向量機(jī)在更新后的訓(xùn)練樣本集B上重新訓(xùn)練;步驟五若檢測(cè)精度達(dá)到設(shè)定值,則結(jié)束,否則返回步驟三。所述的檢測(cè)精度是指正確分類的樣本總數(shù)除以總的樣本數(shù)的比率,在本實(shí)施方式中,檢測(cè)率設(shè)定為85%。
權(quán)利要求
1.一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法,其特征在于它步驟如下步驟一在候選未標(biāo)注樣本集A的未標(biāo)注樣本中選擇C個(gè)點(diǎn)作為候選聚類中心,將候選未標(biāo)注樣本集A進(jìn)行迭代優(yōu)化聚類運(yùn)算,選取疊代聚類結(jié)果中的代表性樣本構(gòu)建訓(xùn)練樣本集B;步驟二 支持向量機(jī)在上述構(gòu)建的訓(xùn)練樣本集B上訓(xùn)練得到訓(xùn)練超平面;步驟三根據(jù)樣本選擇準(zhǔn)則從候選未標(biāo)注樣本集A中選擇最能提升分類性能的樣本, 標(biāo)注類別后加入訓(xùn)練樣本集B中;步驟四支持向量機(jī)在更新后的訓(xùn)練樣本集B上重新訓(xùn)練;步驟五若檢測(cè)精度達(dá)到設(shè)定值,則結(jié)束,否則返回步驟三。
2.根據(jù)權(quán)利要求1所述的一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法,其特征在于步驟一中采用迭代優(yōu)化聚類運(yùn)算構(gòu)建訓(xùn)練樣本集B的步驟如下步驟1 將候選未標(biāo)注樣本集A進(jìn)行初始化,在多維空間中選擇C個(gè)點(diǎn)作為候選聚類中心,將這些點(diǎn)記為i = 1,2, ... ,C;步驟2 在聚類的未標(biāo)注的樣本中,檢驗(yàn)每一個(gè)未標(biāo)注樣本的位置X,指定未標(biāo)注樣本到最近的候選類中,這種指定方式是根據(jù)歐式距離度量進(jìn)行;步驟3 根據(jù)上一步驟得到的分組,計(jì)算得到一組新的均值,記作ιν i = 1,2,...,C;步驟4 如果對(duì)于全部1有% ,則迭代處理停止,否則,利用當(dāng)前的Hii值來(lái)更新%值, 返回步驟2。
3.根據(jù)權(quán)利要求1所述的一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法,其特征在于步驟三中采用的樣本選擇準(zhǔn)則是每次選擇離分類面最近的一個(gè)或者幾個(gè)樣本作為新樣本進(jìn)行訓(xùn)練。
全文摘要
一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)方法,它涉及基于支持向量機(jī)的檢測(cè)方法。它解決了現(xiàn)有在網(wǎng)絡(luò)數(shù)據(jù)的異常檢測(cè)方法中支持向量機(jī)中所存在的訓(xùn)練樣本多、復(fù)雜度高、難以有良好分類特性的問(wèn)題。步驟如下一、在未標(biāo)注樣本中選擇C個(gè)點(diǎn)作為候選聚類中心,將候選未標(biāo)注樣本集A進(jìn)行迭代優(yōu)化聚類運(yùn)算,選取疊代聚類結(jié)果中的代表性樣本構(gòu)建訓(xùn)練樣本集B;二、支持向量機(jī)在訓(xùn)練樣本集B上訓(xùn)練得到訓(xùn)練超平面;三、根據(jù)樣本選擇準(zhǔn)則從候選未標(biāo)注樣本集A中選擇最能提升分類性能的樣本,標(biāo)注類別后加入訓(xùn)練樣本集B中;四、支持向量機(jī)在更新后的訓(xùn)練樣本集B上重新訓(xùn)練;五、若檢測(cè)精度達(dá)到設(shè)定值,則結(jié)束,否返回三。將該算法應(yīng)用于異常檢測(cè)研究中可以有效降低復(fù)雜度。
文檔編號(hào)G06K9/62GK102176701SQ20111004067
公開(kāi)日2011年9月7日 申請(qǐng)日期2011年2月18日 優(yōu)先權(quán)日2011年2月18日
發(fā)明者何淼, 張曄, 張鈞萍, 陳雨時(shí) 申請(qǐng)人:哈爾濱工業(yè)大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
喀喇沁旗| 固镇县| 巴东县| 万州区| 正蓝旗| 乐亭县| 叶城县| 肥东县| 吴旗县| 景谷| 波密县| 肥城市| 沾益县| 乐陵市| 盐亭县| 洞头县| 卢氏县| 藁城市| 吴旗县| 大冶市| 额尔古纳市| 股票| 巢湖市| 景德镇市| 肇源县| 彩票| 长阳| 华坪县| 蓬安县| 湖南省| 河北省| 陇南市| 余干县| 武威市| 沙坪坝区| 保山市| 新乐市| 顺昌县| 客服| 陈巴尔虎旗| 容城县|