一種基于統(tǒng)計特征的有噪網絡流量分類建模方法
【技術領域】
[0001] 本發(fā)明屬于網絡流量分類技術,尤其設及一種基于統(tǒng)計特征的有噪網絡流量分類 建模方法。
【背景技術】
[0002] 網絡的資源管理和安全控制對國民經濟和國家安全的影響巨大,日益受到國家政 府的重視。我國也將信息管理和網絡安全為優(yōu)先研究領域發(fā)展。網絡流量分類是解決網絡 資源管理和安全控制中一系列重要問題的基礎技術。為了實施正確的管理和控制策略,網 絡管理者通常需要采用流量分類來清楚的了解當前的網絡狀態(tài)。為了實現(xiàn)服務質量(QoS) 控制,不同的應用將被賦予不同的優(yōu)先級化合理分配有限的網絡帶寬。在網絡安全方面,根 據(jù)流量分類的結果,入侵檢測系統(tǒng)對不同流量類別采取細粒度的檢測方案,可W更有效的 識別可疑網絡流。
[0003]網絡流量分類技術隨著網絡的演變也不斷發(fā)展。最初的技術是根據(jù)互聯(lián)網地址指 派機構IANA規(guī)定的端口映射表,將特定端口的網絡流量劃分到相應的網絡應用。然而,越 來越多的網絡應用使用動態(tài)隨機端口,導致該技術不再可靠?,F(xiàn)有商用系統(tǒng)主要使用基于 負載的流量分類技術,通過分析數(shù)據(jù)分組的應用層負載,檢測不同應用的特征字段來劃分 網絡流量。運類技術的問題是,分析完整的應用層負載計算開銷大,可能帶來的用戶隱私權 糾紛,而且無法識別使用負載加密技術或者特征字段保密的網絡應用。在當前的大數(shù)據(jù)時 代,網絡流量數(shù)據(jù)量龐大且結構復雜,不可避免的會存在一些噪聲數(shù)據(jù)。特別是在對網絡流 量數(shù)據(jù)進行標注或獲取的過程中,難免會引入大量噪聲,導致大量樣本內容與所標記的類 別不符等。運些噪聲樣本會使訓練樣本中類別概念模糊,其提供的分類經驗知識不足,導致 分類器構建的分類決策不明確,從而對測試樣本所屬類別進行誤判,影響最終的分類性能。 由此說明,提高有噪網絡流量分類的精度勢在必行。
【發(fā)明內容】
[0004] 本發(fā)明要解決的技術問題:提供一種基于統(tǒng)計特征的有噪網絡流量分類建模方 法,W解決現(xiàn)有技術對大數(shù)據(jù)網絡流量分類存在的大量樣本內容與所標記的類別不符,也 就是網絡流量中存在大量類別噪聲的問題,運些噪聲樣本會使訓練樣本中類別概念模糊, 其提供的分類經驗知識不足,導致分類器構建的分類決策不明確,從而對測試樣本所屬類 別進行誤判,影響最終的分類性能等技術問題。
[000引本發(fā)明技術方案: 一種基于統(tǒng)計特征的有噪網絡流量分類建模方法,它包括: 步驟1、網絡數(shù)據(jù)采集處理,從網絡流量監(jiān)測站實時提取網絡流量數(shù)據(jù),并對網絡流量 數(shù)據(jù)進行預處理; 步驟2、建立網絡流量噪聲判斷模型并清除網絡流量數(shù)據(jù)中的噪聲,所述網絡流量噪聲 判斷模型為:
,式中::%代表第j條網絡流量的噪聲網絡流量判斷結 果,代表第j條網絡流量被第i個分類器判斷為噪聲的結果;步驟3、建立網絡流量噪聲 容忍模型,所述網絡流量噪聲容忍模型包括: 疑似噪聲數(shù)據(jù)的噪聲等級表達式:
和疑似噪聲數(shù)據(jù)的權重表達式:
式中:代表第j條網絡流量的噪聲等級,胃代表權重分數(shù),代表第t種噪 聲等級的值; 步驟4、根據(jù)步驟2和步驟3所述的網絡流量噪聲判斷模型和網絡流量噪聲容忍模型, 建立魯棒的分類模型:
,式中:1代表網絡流量數(shù)據(jù)中噪聲等級為 t的數(shù)據(jù),代表魯棒的訓練集的集合; 步驟5、采用隨機森林的分類方法,把在線網絡流量數(shù)據(jù)作為測試集,利用魯棒的分類 模型進行分類。
[0006] 所述的對網絡流量數(shù)據(jù)進行預處理,其處理方法包括:步驟1、集成從網絡流量數(shù) 據(jù)中收集的IP數(shù)據(jù)包,并將IP數(shù)據(jù)包組成網絡流;步驟2、將網絡流轉換為統(tǒng)一的數(shù)據(jù)格 式;步驟3、清除存在缺失值的數(shù)據(jù);步驟4、提取每條網絡流的特征,步驟5、利用特征選擇 算法清除網絡流特征中冗余和不相關的特征。
[0007] 本發(fā)明的有益效果: 本發(fā)明利用網絡流的統(tǒng)計特征和機器學習的技術來分類識別不同的網絡流量?;诮y(tǒng) 計特征的流量分類技術由于避免了分析負載,具有一系列的優(yōu)點:(1)不依賴于端口匹配, 可W處理使用動態(tài)端口的網絡應用;(2)使用簡單的網絡流統(tǒng)計特征,計算開銷小,分類速 度快;(3)使用的統(tǒng)計特征與負載無關,可W識別使用負載加密技術的網絡應用;(4)不設 及用戶私密數(shù)據(jù),避免了用戶隱私糾紛。
[0008] 本發(fā)明基于統(tǒng)計特征的網絡流量提供噪聲判斷、噪聲清除和噪聲容忍的建模,如 果僅僅單純的網絡流量噪聲清除極有可能會清除掉一些非噪聲的網絡流量,運樣也會影響 精度,所W需要在確切的網絡流量噪聲數(shù)據(jù)清除之后,對剩余的疑似噪聲數(shù)據(jù)進行容忍計 算,W提高分類精度,本發(fā)明主要具有下述特點: (1)針對網絡流量數(shù)據(jù)進行了集成IP數(shù)據(jù)包、組成網絡流、提取特征、特征選擇的預處 理操作。
[0009] (2)分析確切網絡流量噪聲數(shù)據(jù)的特點,結合其特點提出了去除網絡流量噪聲的 模型。
[0010] (3)在清除網絡流量噪聲基礎上,提出容忍疑似的網絡流量噪聲的模型。
[0011] 本發(fā)明通過噪聲鑒別和清除、噪聲容忍的建模方法,能夠更好的建立精準的分類 決策,為網絡流量分類提供技術保障,提高了在有噪情況下網絡流量的分類性能,滿足了當 前網絡流量大數(shù)據(jù)分類的迫切需求,解決了現(xiàn)有技術對大數(shù)據(jù)網絡流量分類存在的大量樣 本內容與所標記的類別不符,運些噪聲樣本會使訓練樣本中類別概念模糊,其提供的分類 經驗知識不足,導致分類器構建的分類決策不明確,從而對測試樣本所屬類別進行誤判,影 響最終的分類性能等技術問題。
【附圖說明】
[0012] 圖1為本發(fā)明分類建模方法總體框架圖。
【具體實施方式】
[0013] 一種基于統(tǒng)計特征的有噪網絡流量分類建模方法,它包括: 步驟1、網絡數(shù)據(jù)采集處理,從網絡流量監(jiān)測站實時提取網絡流量數(shù)據(jù),并對網絡流量 數(shù)據(jù)進行預處理; 所述的對網絡流量數(shù)據(jù)進行預處理,其處理方法包括:步驟1、集成從網絡流量數(shù)據(jù)中 收集的IP數(shù)據(jù)包,并將IP數(shù)據(jù)包組成網絡流;步驟2、將網絡流轉換為統(tǒng)一的數(shù)據(jù)格式;步 驟3、清除存在缺失值的數(shù)據(jù);步驟4、提取每條網絡流的特征,步驟5、利用特征選擇算法清 除網絡流特征中冗余和不相關的特征。
[0014] 所述的對網絡流量數(shù)據(jù)進行預處理即在多個網絡流