專利名稱:基于svm的網(wǎng)絡(luò)代理行為檢測系統(tǒng)及檢測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及是ー種應(yīng)用于對網(wǎng)絡(luò)代理行為的檢測,尤其涉及基于SVM的網(wǎng)絡(luò)代理行為檢測系統(tǒng)及檢測方法。
背景技術(shù):
隨著科學(xué)技術(shù)和Internet的發(fā)展,網(wǎng)絡(luò)代理技術(shù)作為目前廣泛使用的一種有效地緩解IPv4地址資源匱乏、提高網(wǎng)絡(luò)接入性能的網(wǎng)絡(luò)接入技術(shù)已經(jīng)得到越來越多的應(yīng)用。但網(wǎng)絡(luò)代理的應(yīng)用,應(yīng)建立在規(guī)范化的網(wǎng)絡(luò)管理的基礎(chǔ)之上,否則網(wǎng)絡(luò)代理的行為也會對網(wǎng)絡(luò)安全構(gòu)成了威脅。從網(wǎng)絡(luò)管理上來講,網(wǎng)絡(luò)代理的使用,屏蔽了上網(wǎng)用戶的真實信息,給網(wǎng)絡(luò)管理増加了很大難度和負擔(dān),不僅嚴(yán)重妨礙網(wǎng)絡(luò)故障的追蹤、定位,干擾對網(wǎng)絡(luò)安全問題的分析、處理,同時使得計費系統(tǒng)也受到很大的挑戰(zhàn)。因此,必須在網(wǎng)絡(luò)代理服務(wù)器處設(shè)立必要的網(wǎng)管系統(tǒng),授權(quán)進行網(wǎng)絡(luò)代理服務(wù),否則難以保障網(wǎng)絡(luò)安全,在某種程度上講還難以保證網(wǎng)絡(luò)資源的合理分配和使用。同吋,從網(wǎng)絡(luò)安全管理的角度講,網(wǎng)絡(luò)代理是必須經(jīng)授權(quán)后按規(guī)范進行工作的,但實際上網(wǎng)絡(luò)中存在著大量的未經(jīng)授權(quán)或者不按規(guī)范進行工作的網(wǎng)絡(luò)代理,這些非法的網(wǎng)絡(luò)代理行為不僅大大消耗了網(wǎng)絡(luò)資源,而且影響了網(wǎng)絡(luò)安全,因此必須對網(wǎng)絡(luò)中的代理服務(wù)行為進行有效的監(jiān)控。目前檢測網(wǎng)絡(luò)代理行為主要有兩種手段一是通過端ロ掃描、流量分析、SESSION分析,ニ是通過改進的802. Ix客戶端程序檢測。但每種方法各有弊端,都不是ー個全局的解決方案。例如,通過端ロ掃描僅僅對于查找使用了標(biāo)準(zhǔn)服務(wù)端ロ的代理服務(wù)器較為有效。如果把代理服務(wù)的端ロ設(shè)置為ー個特殊的數(shù)值(端ロ取值范圍可設(shè)在I 65536之間),通過端ロ掃描將是ー個漫長且無效的過程,同時這種方法以嚴(yán)重影響網(wǎng)絡(luò)正常運行為代價。而802. Ix客戶端方式需要解決對舊設(shè)備的支持、對不同廠家網(wǎng)絡(luò)設(shè)備混用的統(tǒng)ー支持、對新興的代理服務(wù)程序的監(jiān)控等技術(shù)問題。
發(fā)明內(nèi)容
針對上述技術(shù)缺陷,本發(fā)明提出基于SVM的網(wǎng)絡(luò)代理行為檢測系統(tǒng)及檢測方法。為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下;基于SVM的網(wǎng)絡(luò)代理行為檢測系統(tǒng),包括網(wǎng)絡(luò)數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、SVM學(xué)習(xí)機、網(wǎng)絡(luò)行為決策系統(tǒng);所述網(wǎng)絡(luò)數(shù)據(jù)采集模塊從所監(jiān)控的目標(biāo)網(wǎng)絡(luò)段中收集原始的網(wǎng)絡(luò)數(shù)據(jù),并獲取少量可以準(zhǔn)確標(biāo)記的樣本,該少量可以準(zhǔn)確標(biāo)記的樣本在網(wǎng)絡(luò)代理行為檢測前期,進行行為分析實驗得到;所述數(shù)據(jù)預(yù)處理模塊從所述網(wǎng)絡(luò)數(shù)據(jù)采集模塊采集的網(wǎng)絡(luò)數(shù)據(jù)進行標(biāo)記、提取特征信息并將特征信息進行聚類處理,并把特征信息轉(zhuǎn)化為SVM分類器能夠處理的維數(shù)相同的數(shù)字向量,所述特征信息包括網(wǎng)絡(luò)訪問的方式、類型、訪問的對象標(biāo)識、獲取結(jié)果的類型、數(shù)據(jù)包附加的特征字所述網(wǎng)絡(luò)行為決策系統(tǒng)包含SVM分類器,所述SVM分類器將所述數(shù)據(jù)預(yù)處理模塊處理后的樣本進行檢測,并將所述少量可以準(zhǔn)確標(biāo)記的樣本和未標(biāo)記樣本組成訓(xùn)練樣本集,傳輸給所述SVM學(xué)習(xí)機進行訓(xùn)練;根據(jù)SVM分類器分類的結(jié)果作出是否屬于網(wǎng)絡(luò)代理行為的判斷;所述SVM學(xué)習(xí)機接受所述SVM分類器傳輸?shù)挠?xùn)練樣本集,將訓(xùn)練后的數(shù)據(jù)再次傳輸至所述SVM分類器進行檢測,反復(fù)檢測、訓(xùn)練,直到達到未標(biāo)記樣本的最小分類誤差。基于SVM的網(wǎng)絡(luò)代理行為檢測方法,包括如下步驟21)在網(wǎng)絡(luò)代理行為檢測前期進行行為分析實驗,得到少量可以準(zhǔn)確標(biāo)記的網(wǎng)絡(luò)數(shù)據(jù)樣本,所述網(wǎng)絡(luò)數(shù)據(jù)采集模塊從所監(jiān)控的目標(biāo)網(wǎng)絡(luò)段中收集原始的網(wǎng)絡(luò)數(shù)據(jù)及少量可以準(zhǔn)確標(biāo)記的網(wǎng)絡(luò)數(shù)據(jù)樣本;22)所述數(shù)據(jù)預(yù)處理模塊在給定的一個時間段內(nèi),按照網(wǎng)絡(luò)代理行為的特征,從原始采集的網(wǎng)絡(luò)訪問數(shù)據(jù)中針對數(shù)據(jù)包,分別提取特征信息,該特征信息包括網(wǎng)絡(luò)訪問的方式、類型、訪問的對象標(biāo)識、獲取結(jié)果的類型、數(shù)據(jù)包附加的特征字;將該特征信息進行聚類處理,并把特征信息轉(zhuǎn)化為SVM分類器能夠處理的維數(shù)相同的數(shù)字向量;23)對行為分析實驗采集到的網(wǎng)絡(luò)數(shù)據(jù)樣本處理時,將網(wǎng)絡(luò)代理行為的網(wǎng)絡(luò)數(shù)據(jù)樣本規(guī)定為負樣本,標(biāo)記為“-1”,正常的網(wǎng)絡(luò)數(shù)據(jù)樣本規(guī)定為正樣本,標(biāo)記為“+I” ;而對非行為分析實驗采集到的網(wǎng)絡(luò)數(shù)據(jù)樣本,規(guī)定為未標(biāo)記樣本,標(biāo)記為“O”;經(jīng)過數(shù)據(jù)預(yù)處理模塊處理后的樣本就送往SVM分類器進行檢測,將少量正樣本和負樣本,以及ー些未標(biāo)記樣本組成訓(xùn)練樣本集,對SVM學(xué)習(xí)機進行訓(xùn)練;24) SVM學(xué)習(xí)機根據(jù)指定的懲罰因子C和C%利用訓(xùn)練數(shù)據(jù)中包含的正負標(biāo)記的網(wǎng)絡(luò)數(shù)據(jù)進行歸納式學(xué)習(xí),得到一個比較原始的樣本分類器;隨后,SVM學(xué)習(xí)機假定訓(xùn)練集中無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)樣本中正負樣本的比例為I : I,并指定一個訓(xùn)練集中無標(biāo)記樣本的臨時懲罰因子Cftemp ;SVM學(xué)習(xí)機用得到的比較原始的樣本分類器對訓(xùn)練集中的無標(biāo)記樣本進行重新分類,根據(jù)該樣本分類器對無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)記錄的判別結(jié)果,對無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)作出正負分類判決,并將判決值較大的一半樣本標(biāo)記為正標(biāo)記,另外一半樣本標(biāo)記為負標(biāo)記;25)用步驟24)得到的經(jīng)過重新標(biāo)記的訓(xùn)練集網(wǎng)絡(luò)數(shù)據(jù)對SVM學(xué)習(xí)機進行重新訓(xùn)練,得到新的樣本分類器;然后,按一定的規(guī)則交換ー對標(biāo)記值不同的訓(xùn)練樣本的標(biāo)記符號,即把起初標(biāo)記為正樣本的未標(biāo)記樣本標(biāo)記為重新負樣本,起初標(biāo)記為負樣本的未標(biāo)記樣本標(biāo)記為重新正樣本,計算目標(biāo)函數(shù)的值,使得目標(biāo)函數(shù)的值獲得最大下降;反復(fù)執(zhí)行訓(xùn)練樣本標(biāo)記的變換,直到找不出滿足交換條件的樣本為止;26)當(dāng)SVM終止學(xué)習(xí)后,用學(xué)習(xí)得到的最終樣本分類器對測試樣本進行分類判別,網(wǎng)絡(luò)代理行為檢測決策系統(tǒng)根據(jù)最終樣本分類器分類的結(jié)果作出是否屬于網(wǎng)絡(luò)代理行為的判斷。進ー步的,所述步驟22)具體包括如下步驟31)用長度為At的時間戳窗ロ在采集得到的網(wǎng)絡(luò)數(shù)據(jù)集上滑動得到它的各數(shù)據(jù)包的特征信息序列,得到的時間戳長度為At的數(shù)據(jù)包的特征信息序列為M —PiF11F12... Flm,P2F21F22…F2m,P3F31F32…F3m,...,PnFnlFnfFnm通過聚類操作將IT劃分成K大類,記為,其中,Mf, j = 1,2, ···, k, Pi, i = I, 2, ···, η 為數(shù)據(jù)包序列,F(xiàn)ij, i = I, 2, ···, n, j = I, 2, .",m 為對應(yīng)的
特征值信息;采用ー個文本轉(zhuǎn)換方法,將M&t轉(zhuǎn)換為數(shù)字結(jié)果,該文本轉(zhuǎn)換方法包括如下步驟對于聚類后中符號類型的特征量采用數(shù)字編號后線性歸一化處理,對于聚類后中數(shù)值類型的數(shù)據(jù),在處理時采用了將特征值右移10位再開平方的方法,對于聚類后進行數(shù)值化以后,聚類結(jié)果的方差為
權(quán)利要求
1.基于SVM的網(wǎng)絡(luò)代理行為檢測系統(tǒng),其特征在于,包括網(wǎng)絡(luò)數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、SVM學(xué)習(xí)機、網(wǎng)絡(luò)行為決策系統(tǒng); 所述網(wǎng)絡(luò)數(shù)據(jù)采集模塊從所監(jiān)控的目標(biāo)網(wǎng)絡(luò)段中收集原始的網(wǎng)絡(luò)數(shù)據(jù),并獲取少量可以準(zhǔn)確標(biāo)記的樣本,該少量可以準(zhǔn)確標(biāo)記的樣本在網(wǎng)絡(luò)代理行為檢測前期,進行行為分析實驗得到; 所述數(shù)據(jù)預(yù)處理模塊從所述網(wǎng)絡(luò)數(shù)據(jù)采集模塊采集的網(wǎng)絡(luò)數(shù)據(jù)進行標(biāo)記、提取特征信息并將特征信息進行聚類處理,并把特征信息轉(zhuǎn)化為SVM分類器能夠處理的維數(shù)相同的數(shù)字向量,所述特征信息包括網(wǎng)絡(luò)訪問的方式、類型、訪問的對象標(biāo)識、獲取結(jié)果的類型、數(shù)據(jù)包附加的特征字; 所述網(wǎng)絡(luò)行為決策系統(tǒng)包含SVM分類器,所述SVM分類器將所述數(shù)據(jù)預(yù)處理模塊處理后的樣本進行檢測,并將所述少量可以準(zhǔn)確標(biāo)記的樣本和未標(biāo)記樣本組成訓(xùn)練樣本集,傳輸給所述SVM學(xué)習(xí)機進行訓(xùn)練;根據(jù)SVM分類器分類的結(jié)果作出是否屬于網(wǎng)絡(luò)代理行為的判斷; 所述SVM學(xué)習(xí)機接受所述SVM分類器傳輸?shù)挠?xùn)練樣本集,將訓(xùn)練后的數(shù)據(jù)再次傳輸至所述SVM分類器進行檢測,反復(fù)檢測、訓(xùn)練,直到達到未標(biāo)記樣本的最小分類誤差。
2.一種利用權(quán)利要求I所述系統(tǒng)的檢測方法,其特征在于,包括如下步驟 .21)在網(wǎng)絡(luò)代理行為檢測前期進行行為分析實驗,得到少量可以準(zhǔn)確標(biāo)記的網(wǎng)絡(luò)數(shù)據(jù)樣本,所述網(wǎng)絡(luò)數(shù)據(jù)采集模塊從所監(jiān)控的目標(biāo)網(wǎng)絡(luò)段中收集原始的網(wǎng)絡(luò)數(shù)據(jù)及少量可以準(zhǔn)確標(biāo)記的網(wǎng)絡(luò)數(shù)據(jù)樣本; .22)所述數(shù)據(jù)預(yù)處理模塊在給定的一個時間段內(nèi),按照網(wǎng)絡(luò)代理行為的特征,從原始采集的網(wǎng)絡(luò)訪問數(shù)據(jù)中針對數(shù)據(jù)包,分別提取特征信息,該特征信息包括網(wǎng)絡(luò)訪問的方式、類型、訪問的對象標(biāo)識、獲取結(jié)果的類型、數(shù)據(jù)包附加的特征字;將該特征信息進行聚類處理,并把特征信息轉(zhuǎn)化為SVM分類器能夠處理的維數(shù)相同的數(shù)字向量; .23)對行為分析實驗采集到的網(wǎng)絡(luò)數(shù)據(jù)樣本處理時,將網(wǎng)絡(luò)代理行為的網(wǎng)絡(luò)數(shù)據(jù)樣本規(guī)定為負樣本,標(biāo)記為“-1”,正常的網(wǎng)絡(luò)數(shù)據(jù)樣本規(guī)定為正樣本,標(biāo)記為“+I” ;而對非行為分析實驗采集到的網(wǎng)絡(luò)數(shù)據(jù)樣本,規(guī)定為未標(biāo)記樣本,標(biāo)記為“0”;經(jīng)過數(shù)據(jù)預(yù)處理模塊處理后的樣本就送往SVM分類器進行檢測,將少量正樣本和負樣本,以及一些未標(biāo)記樣本組成訓(xùn)練樣本集,對SVM學(xué)習(xí)機進行訓(xùn)練; .24)SVM學(xué)習(xí)機根據(jù)指定的懲罰因子C和Cf,利用訓(xùn)練數(shù)據(jù)中包含的正負標(biāo)記的網(wǎng)絡(luò)數(shù)據(jù)進行歸納式學(xué)習(xí),得到一個比較原始的樣本分類器;隨后,SVM學(xué)習(xí)機假定訓(xùn)練集中無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)樣本中正負樣本的比例為I : 1,并指定一個訓(xùn)練集中無標(biāo)記樣本的臨時懲罰因子Cftraip ;SVM學(xué)習(xí)機用得到的比較原始的樣本分類器對訓(xùn)練集中的無標(biāo)記樣本進行重新分類,根據(jù)該樣本分類器對無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)記錄的判別結(jié)果,對無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)作出正負分類判決,并將判決值較大的一半樣本標(biāo)記為正標(biāo)記,另外一半樣本標(biāo)記為負標(biāo)記; .25)用步驟24)得到的經(jīng)過重新標(biāo)記的訓(xùn)練集網(wǎng)絡(luò)數(shù)據(jù)對SVM學(xué)習(xí)機進行重新訓(xùn)練,得到新的樣本分類器;然后,按一定的規(guī)則交換一對標(biāo)記值不同的訓(xùn)練樣本的標(biāo)記符號,即把起初標(biāo)記為正樣本的未標(biāo)記樣本標(biāo)記為重新負樣本,起初標(biāo)記為負樣本的未標(biāo)記樣本標(biāo)記為重新正樣本,計算目標(biāo)函數(shù)的值,使得目標(biāo)函數(shù)的值獲得最大下降;反復(fù)執(zhí)行訓(xùn)練樣本標(biāo)記的變換,直到找不出滿足交換條件的樣本為止;26)當(dāng)SVM終止學(xué)習(xí)后,用學(xué)習(xí)得到的最終樣本分類器對測試樣本進行分類判別,網(wǎng)絡(luò)代理行為檢測決策系統(tǒng)根據(jù)最終樣本分類器分類的結(jié)果作出是否屬于網(wǎng)絡(luò)代理行為的判斷。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟22)具體包括如下步驟 31)用長度為At的時間戳窗口在采集得到的網(wǎng)絡(luò)數(shù)據(jù)集上滑動得到它的各數(shù)據(jù)包的特征信息序列,得到的時間戳長度為At的數(shù)據(jù)包的特征信息序列為
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述SVM學(xué)習(xí)機的訓(xùn)練過程包括如下步驟 41)SVM學(xué)習(xí)機根據(jù)指定的懲罰因子C和C%利用訓(xùn)練數(shù)據(jù)中包含的正負標(biāo)記的網(wǎng)絡(luò)數(shù)據(jù)進行歸納式學(xué)習(xí),得到一個比較原始的樣本分類器,隨后,SVM學(xué)習(xí)機假定訓(xùn)練集中無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)樣本中正負樣本的比例為I : 1,并指定一個訓(xùn)練集中無標(biāo)記樣本的臨時懲罰因子; 42)SVM學(xué)習(xí)機用得到的比較原始的樣本分類器對訓(xùn)練集中的無標(biāo)記樣本進行重新分類,根據(jù)樣本分類器對無標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)記錄的判別結(jié)果,對無標(biāo)記數(shù)據(jù)作出正負分類判決,并將判決值較大的一半樣本標(biāo)記為正標(biāo)記,另外一半標(biāo)記為負樣本; 43)用得到的經(jīng)過重新標(biāo)記的訓(xùn)練集數(shù)據(jù)對SVM學(xué)習(xí)機進行重新訓(xùn)練,得到新的樣本分類器,然后,按一定的規(guī)則交換一對標(biāo)記值不同的訓(xùn)練樣本的標(biāo)記符號,即把起初標(biāo)記為正樣本的未標(biāo)記樣本中標(biāo)記為重新負樣本,起初標(biāo)記為負樣本的標(biāo)記為重新正樣本,計算目標(biāo)函數(shù)的值,使得目標(biāo)函數(shù)的值獲得最大下降,反復(fù)執(zhí)行訓(xùn)練樣本標(biāo)記的變換,直到找不出滿足交換條件的樣本為止,所述規(guī)則為對線性可分的樣本集(Xi, Yi), i = 1,2,…,n,Xi G Rd, Yi G U,-I},滿足條件
全文摘要
本發(fā)明公開了基于SVM的網(wǎng)絡(luò)代理行為檢測系統(tǒng)及檢測方法,將SVM主動學(xué)習(xí)算法應(yīng)用于網(wǎng)絡(luò)代理行為的檢測,通過SVM的有效學(xué)習(xí),將普通數(shù)據(jù)和網(wǎng)絡(luò)代理行為數(shù)據(jù)正確地區(qū)分。然后建立以SVM為主動學(xué)習(xí)機的智能檢測機制,對網(wǎng)絡(luò)訪問行為進行有效地檢測,從中識別網(wǎng)絡(luò)代理行為,通過有效地識別網(wǎng)絡(luò)代理行為,準(zhǔn)確及時地定位網(wǎng)絡(luò)代理行為源,完成對其網(wǎng)絡(luò)通信量的監(jiān)控。
文檔編號H04L12/26GK102664771SQ20121012393
公開日2012年9月12日 申請日期2012年4月25日 優(yōu)先權(quán)日2012年4月25日
發(fā)明者任午令, 姜國新 申請人:浙江工商大學(xué)