將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法
【技術領域】
[0001] 本發(fā)明設及一種將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)帖的方法。
【背景技術】
[0002] 在當前信息戰(zhàn)場景下,被敵方通過進口器件或特種木馬進行竊密的威脅日益嚴 峻,此類竊密其途徑通常是通過無線通信方式發(fā)送設密信息,且該種通信所采用的協(xié)議均 為非常規(guī)的專用未知協(xié)議,而現(xiàn)有的防范措施基本只針對已知協(xié)議,大多采用基于端口映 射或靜態(tài)特征匹配等方法,無法對該類竊密渠道進行監(jiān)測和檢測。本課題針對上述問題,擬 提出一種基于數(shù)據(jù)報指紋關系的未知協(xié)議發(fā)現(xiàn)方法,為該類竊密渠道的監(jiān)測手段奠定技術 基礎。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種將未知單協(xié)議數(shù)據(jù)流分離為不 同類型的數(shù)據(jù)帖的方法。
[0004] 本發(fā)明的目的是通過W下技術方案來實現(xiàn)的;將未知單協(xié)議數(shù)據(jù)流分離為不同類 型的數(shù)據(jù)帖的方法,它包括W下步驟:
[0005] S1 ;n-gram的產(chǎn)生:將原始的數(shù)據(jù)帖切分成長度為n的字節(jié),為特征候選集的拼接 做準備;在二進制協(xié)議的環(huán)境下,將gram定義為字節(jié),n為字節(jié)的長度,該步驟能夠將原始 的數(shù)據(jù)帖切分成長度為n的字節(jié),為特征候選集的拼接做準備;
[0006] S11 ;利用n-gram技術對數(shù)據(jù)帖進行分割,輸入的是在雙方通信中所使用的單協(xié) 議數(shù)據(jù)帖,根據(jù)齊夫分布,選擇曲線圖中最接近直線的n值作為所求;
[0007] S12 ;利用化ccard參數(shù)對非頻繁字節(jié)進行過濾,通過改變不同的闊值得到其最優(yōu) 解對n-gram進行過濾,得到出現(xiàn)次數(shù)多于闊值的n-gram集合;
[000引 S2 ;特征候選集的拼接;形成頻繁長串,產(chǎn)生特征候選集;
[0009] S3 ;特征選擇;將步驟S3中得到的特征候選集作為輸入,利用滴值中的互信息作 為特征選擇算法,根據(jù)最大相關-最小冗余的特征選擇標準,得到不同類型消息的特征,W 此作為特征向量用于步驟S4的聚類中;
[0010] S4 ;聚類;利用聚類算法實現(xiàn)協(xié)議消息的識別,將具有相同格式的消息聚在一起。
[0011] 所述的S1包括W下子步驟:
[0012] S101 ;利用n-gram技術對數(shù)據(jù)帖進行分割:對n取不同值時分別對原始數(shù)據(jù)集進 行切分,對每個n-gram按其出現(xiàn)的次數(shù)進行排序,用X軸表示n-gram的排序,y軸表示對 應n-gram出現(xiàn)的次數(shù),兩個坐標軸都用對數(shù)來表示,產(chǎn)生相應的齊夫分布曲線圖;
[0013] S102 ;選擇曲線圖中最接近直線的n值作為所求的n值得大??;
[0014] S103 ;對產(chǎn)生的n-grams進行篩選,采用化ccard參數(shù)對非頻繁字節(jié)進行過濾,通 過改變不同的闊值得到其最優(yōu)解對n-gram進行過濾,得到出現(xiàn)次數(shù)多于闊值的n-gram集 合,其中,Jaccard參數(shù)的計算公式如下;
[0015]
【主權項】
1. 將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法,其特征在于:它包括以下步 驟: 51 :n-gram的產(chǎn)生:將原始的數(shù)據(jù)幀切分成長度為η的字節(jié),為特征候選集的拼接做準 備; 52 :特征候選集的拼接:形成頻繁長串,產(chǎn)生特征候選集; 53 :特征選擇:將步驟S3中得到的特征候選集作為輸入,利用熵值中的互信息作為特 征選擇算法,根據(jù)最大相關-最小冗余的特征選擇標準,得到不同類型消息的特征,以此作 為特征向量用于步驟S4的聚類中; 54 :聚類:利用聚類算法實現(xiàn)協(xié)議消息的識別,將具有相同格式的消息聚在一起。
2. 根據(jù)權利要求1所述的將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法,其特 征在于:所述的Sl包括以下子步驟: 5101 :利用n-gram技術對數(shù)據(jù)幀進行分割:對η取不同值時分別對原始數(shù)據(jù)集進行 切分,對每個n-gram按其出現(xiàn)的次數(shù)進行排序,用X軸表示n-gram的排序,y軸表示對應 n-gram出現(xiàn)的次數(shù),兩個坐標軸都用對數(shù)來表示,產(chǎn)生相應的齊夫分布曲線圖; 5102 :選擇曲線圖中最接近直線的η值作為所求的η值得大?。? 5103 :對產(chǎn)生的n-grams進行篩選,采用Jaccard參數(shù)對非頻繁字節(jié)進行過濾,通過改 變不同的閾值得到其最優(yōu)解對n-gram進行過濾,得到出現(xiàn)次數(shù)多于閾值的n-gram集合,其 中,Jaccard參數(shù)的計算公式如下:
式中,A和B分別表示兩個用字節(jié)表示的特征向量,Tli和T2i分別表示A和B中的第 i個特征;對閾值進行改變,記錄閾值與Jaccard值的變化曲線,選擇第一次達到最高點的 Jaccard值所對應的閾值作為所求。
3. 根據(jù)權利要求2所述的將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法,其特 征在于:步驟SlOl中所述的η取不同值包括η取1、η取2、和η取3。
4. 根據(jù)權利要求1所述的將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法,其特 征在于:步驟S2所述的特征候選集的拼接依據(jù)是判斷n-grams在每一幀數(shù)據(jù)中是否連續(xù)出 現(xiàn):如果有兩個或兩個以上的n-grams在一幀數(shù)據(jù)中是連續(xù)出現(xiàn)的,就將他們拼接在一起 形成頻繁長串。
5. 根據(jù)權利要求1所述的將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法,其特 征在于:所述的S3包括以下子步驟:根據(jù)互信息中最大相關-最小冗余的特征選擇標準, 進行評判,公式如下:
式中,特征候選集的拼接模塊所得到的特征候選集用集合U= (F1, F2,…F1J表示,實驗 中選擇出來的特征用集合F表示,其中含有m個特征A為步驟S2中特征候選集中的第i 個特征,每個特征的取值只有4和^,分別表示特征匕出現(xiàn)和不出現(xiàn);Gt為已選特征,屬于 已選擇的特征集合;Rel (Fi)表示一個特征匕的相關度,即與整個特征集合的平均互信息; RecKFi, Gt) -個特征Fi與已選特征G t的冗余度;表示公式如下:
Red (Fi, Gt) = Rel (Gt)-Rel (Gt I Fi);
式中Rel(GtIFi)表示一個特征Gt對特征條件相關度,H(F i)表示特征匕所包含的 信息量,H(Fi)越大,表示特征Fi能夠給學習算法帶來越多的信息:
表示有 了特征Fi之后其它特征信息的減少量,其值越大表示其它的特征能給學習算法帶來的"新" 知識越少;公式如下:
式中,表示隨機變量Fi中&出現(xiàn)的概率。
6. 根據(jù)權利要求1所述的將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法,其特 征在于:所述的S4包括以下步驟:采用聚類算法k-means來對數(shù)據(jù)幀進行聚類,該算法采 用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。
7. 根據(jù)權利要求6所述的將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法,其特 征在于:所述的采用聚類算法k-means來對數(shù)據(jù)幀進行聚類實用weka中自帶的聚類算法 k-means〇
【專利摘要】本發(fā)明公開了一種將未知單協(xié)議數(shù)據(jù)流分離為不同類型的數(shù)據(jù)幀的方法,首先利用n-gram技術對數(shù)據(jù)幀進行分割,根據(jù)齊夫分布,選擇曲線圖中最接近直線的n值作為所求,然后利用Jaccard參數(shù)對非頻繁字節(jié)進行過濾,通過改變不同的閾值得到其最優(yōu)解對n-gram進行過濾,得到出現(xiàn)次數(shù)多于閾值的n-gram集合;然后利用無監(jiān)督的特征選擇算法提取特征串集合,特征選擇中將上一步得到的特征候選集作為輸入,根據(jù)最大相關-最小冗余的特征選擇標準,得到能更好的表征該協(xié)議不同類型消息的特征,以此作為特征向量用于聚類中;最后利用聚類算法實現(xiàn)協(xié)議消息的識別,將具有相同格式的消息聚在一起。本發(fā)明在ICMP上對該方法進行評估,消息識別的準確率和召回率均可達到90%以上。
【IPC分類】H04L29-06
【公開號】CN104767736
【申請?zhí)枴緾N201510127295
【發(fā)明人】王勇, 周洪川, 張鳳荔, 張俊嬌, 劉淵
【申請人】電子科技大學
【公開日】2015年7月8日
【申請日】2015年3月23日