一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法
【專利摘要】本發(fā)明公開了一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法,本方法是基于DNS訪問日志檢測(cè)出攻擊活動(dòng)中使用的域名。本發(fā)明方法首先從DNS訪問日志中提取出域名字段,然后依據(jù)13維特征向量對(duì)域名字段可讀性特征進(jìn)行提取,并采用C4.5的生成算法對(duì)特征向量進(jìn)行檢測(cè),得到可疑域名,最后對(duì)可疑域名解析行為進(jìn)行檢測(cè),得到惡意域名。在本發(fā)明中,在域名可讀性檢測(cè)時(shí)引入對(duì)拼音域名的檢測(cè),從而降低對(duì)中文拼音域名檢測(cè)的誤報(bào);但是會(huì)有大量的拼音或單詞首字母組合的域名被誤報(bào)為可疑域名,為了降低對(duì)該域名類型的誤報(bào)率,對(duì)可疑域名再進(jìn)行解析行為的再檢測(cè),最終獲得DNS查詢?nèi)罩局袇⑴c攻擊活動(dòng)的域名。
【專利說明】
-種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種基于域名的檢測(cè)方法,更特別地說,是指一種基于域名可讀性及 域名解析行為的可疑性檢測(cè)方法,本發(fā)明方法是基于域名系統(tǒng)(DNS,Domain name server) 訪問日志檢測(cè)出攻擊活動(dòng)中使用的域名。
【背景技術(shù)】
[0002] 當(dāng)今社會(huì)互聯(lián)網(wǎng)在人類的工作、生活和學(xué)習(xí)中扮演著重要的角色。然而,隨著互聯(lián) 網(wǎng)技術(shù)的發(fā)展,W木馬、蠕蟲、間碟和僵尸網(wǎng)絡(luò)為代表的惡意軟件日益獵獄,對(duì)公民隱私、社 會(huì)經(jīng)濟(jì)和國家安全構(gòu)成嚴(yán)重的威脅。運(yùn)些惡意軟件通常會(huì)依賴于網(wǎng)絡(luò)中的基礎(chǔ)設(shè)施一一域 名解析系統(tǒng)來實(shí)施惡意活動(dòng),攻擊者也正是利用域名來管理惡意軟件之間的通信,W便發(fā) 起攻擊和隱藏自己。每天有幾百萬的域名注冊(cè),然而運(yùn)其中有些域名設(shè)及到惡意活動(dòng)。由于 域名的數(shù)量相當(dāng)大,所W靠人工檢測(cè)運(yùn)些域名是否合法是不現(xiàn)實(shí)的。合法的域名通常是由 英文單詞、拼音或有意義的字母序列組成,并且容易被人類理解和記憶;而惡意域名通常隨 機(jī)產(chǎn)生,不包含有意義的單詞或者可讀性較差,并且與正常域名中字母的分布規(guī)律也不盡 相同。正常域名與惡意活動(dòng)中使用的域名也有很大差異。
[0003] 在各類惡意軟件中,僵尸網(wǎng)絡(luò)(Botnet)對(duì)互聯(lián)網(wǎng)的運(yùn)行構(gòu)成最大的威脅。僵尸網(wǎng) 絡(luò)是攻擊者利用命令和控制(C&C,Command and Control)信道組織起來的大量受控主機(jī), 常被用于發(fā)起分布式拒絕服務(wù)(DDoS)攻擊,或者大量發(fā)送垃圾信息。僵尸網(wǎng)絡(luò)是異常域名 產(chǎn)生的重災(zāi)區(qū),通常會(huì)利用域名生成算法產(chǎn)生大量的域名,從中選取合適的域名作為僵尸 節(jié)點(diǎn)和控制器通信的域名。
[0004] 域名系統(tǒng)DNS是網(wǎng)絡(luò)基礎(chǔ)設(shè)施的關(guān)鍵部分,主要用來做域名與IP間的轉(zhuǎn)換。目前對(duì) 可疑域名的檢測(cè)主要有通過域名白名單的檢測(cè)、基于域名字符分布規(guī)律的檢測(cè)W及基于行 為的檢測(cè)。隨著攻擊者技術(shù)的提高,其可W劫持一個(gè)域名在其下生成一些子域名來實(shí)施攻 擊活動(dòng),很好的繞過了域名白名單的檢測(cè)。
[0005] 通過域名的字符分布規(guī)律來檢測(cè)可疑域名方法中也存在一些問題,可疑域名檢測(cè) 方法中采用的標(biāo)簽數(shù)據(jù)集,白名單多數(shù)采用Alexa網(wǎng)站上公布的top 10萬的域名,惡意的域 名采用安全公司或者一些安全類網(wǎng)站上公布的黑名單,白名單中域名一般是由英文單詞組 成,而算法生成的域名可能是隨機(jī)字符串或者類似英文單詞的域名。采用標(biāo)簽數(shù)據(jù)集訓(xùn)練 出的分類器對(duì)域名進(jìn)行分類。
【發(fā)明內(nèi)容】
[0006] 為了解決現(xiàn)有惡意域名檢測(cè)方法中存在對(duì)正常的拼音和/或單詞首字母組合域名 的誤報(bào),本發(fā)明提出了一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法。本發(fā)明方 法是基于DNS訪問日志檢測(cè)出攻擊活動(dòng)中使用的域名。該發(fā)明主要從域名的可讀性和DNS解 析行為兩個(gè)方面進(jìn)行檢測(cè)。對(duì)于域名可讀性方面檢測(cè)除了使用賭、長度W及字符出現(xiàn)頻率 的特征外首次加入了域名是否為拼音的特征,目前現(xiàn)有的域名可讀性檢測(cè)主要是識(shí)別域名 是否為英文單詞組合來判斷,運(yùn)導(dǎo)致將大量的中文全拼域名誤報(bào)為可疑域名,加入拼音可 讀性檢測(cè)后能夠降低對(duì)拼音域名的誤報(bào)率。本發(fā)明對(duì)通過字符分布及可讀性檢測(cè)出的可疑 域名進(jìn)行行為檢測(cè)。運(yùn)樣做的優(yōu)點(diǎn)不用對(duì)每一個(gè)域名進(jìn)行行為檢測(cè),減少計(jì)算量。
[0007] 在本發(fā)明中,現(xiàn)在很多網(wǎng)絡(luò)設(shè)備都使用白名單對(duì)域名進(jìn)行過濾,但是有很多黑客 去劫持一些正常域名,并在其下面產(chǎn)生隨機(jī)的子域名進(jìn)行攻擊活動(dòng),運(yùn)將會(huì)導(dǎo)致白名單失 效;所W本發(fā)明不僅對(duì)域名的二級(jí)域進(jìn)行可讀性檢測(cè),也會(huì)對(duì)域名中的主機(jī)名進(jìn)行可讀性 檢測(cè),運(yùn)可避免繞過白名單的惡意域名。
[0008] 本發(fā)明是一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法,其特征在于包 括有下列步驟:
[0009] 第一步:域名集合提??;
[0010] 到域名;
[0011]
[001。 巧^少:巧)^石叫吸-|王'巧化:化巧C;
[0013] 步驟2-1,從域名集合輯。"。;。1^^。1。。中提取出所有域名字段〇〇111日111化1116的主機(jī)名 Host Name,構(gòu)成主機(jī)名集
[0014] 從域名集合巧。胃bjjantt中提取出所有域名字段Domain Name的二級(jí)域SLD (second-level domain),構(gòu)成二級(jí)域集 ;
[0017] 步驟2-2,依據(jù) 13維特征向量X二{X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12,X13}X^ AALt伽M中的各個(gè)元素進(jìn)行主機(jī)名特征向量提取,得到可讀性主機(jī)名向量集
[0015] }
[0016] I
[001引依據(jù)13維特征向量乂={對(duì),抵,枯,材,枯,祐,巧,顆,枯,祖日,祉,對(duì)2,祖3}對(duì)88<!^1^中的各個(gè)元 素進(jìn)行二級(jí)域特征向量提取,得到可讀性二級(jí)域向量i
[0019] 第=步:可讀性檢測(cè);
志的域名字段中主機(jī)名和二級(jí)域的可讀性數(shù)字量化,即賦值為[0,1],"〇"為可讀,"r為不 可讀;
[0021] 第四步,檢測(cè)可疑域名;
[0022] 將DNS que巧IogT= Uogi, l〇g2,…,logn}中含有可疑主域名的所有DNS查詢?nèi)罩?提取出來,然后對(duì)可疑主域名W任意一天中間隔為1秒進(jìn)行域名訪問量計(jì)算,最后采用切比 雪夫不等式來判斷訪問次數(shù)是否屬于正常的訪問次數(shù)區(qū)間,從而結(jié)束對(duì)DNS查詢?nèi)罩镜目?疑檢測(cè)。
[0023] 本發(fā)明方法的優(yōu)點(diǎn)在于:
[0024] ①本發(fā)明方法對(duì)DNS查詢?nèi)罩局械挠蛎侄尾捎糜蛎目勺x性及域名的解析行為 來判斷域名是否為惡意域名,能夠降低對(duì)拼音或單詞首字母組合域名的檢測(cè)的誤報(bào)率,并 發(fā)現(xiàn)參與惡意活動(dòng)的域名。
[0025] ②本發(fā)明對(duì)域名字符串的可讀性進(jìn)行檢測(cè)時(shí)采用有監(jiān)督的C4.5生成算法檢測(cè),并 且引入對(duì)拼音域名的可讀性檢測(cè),運(yùn)有別于現(xiàn)有域名的檢測(cè)方法。
[0026] ③本發(fā)明對(duì)域名的解析行為檢測(cè)采用了切比雪夫不等式對(duì)域名每分鐘的訪問量 進(jìn)行檢測(cè),有利于發(fā)現(xiàn)有異常行為的域名。
[0027] ④本發(fā)明方法能夠?qū)χ鳈C(jī)名和主域名進(jìn)行檢測(cè),可W有效彌補(bǔ)域名白名單檢測(cè)方 法的缺陷,能夠檢測(cè)出繞過白名單的域名。
[00%]⑤經(jīng)本發(fā)明方法檢測(cè)出的惡意域名傳送給DNS服務(wù)器,DNS服務(wù)器可W中斷對(duì)惡意 域名的解析,從而減輕或終止惡意攻擊活動(dòng)。
【附圖說明】
[0029] 圖1是DNS服務(wù)器與運(yùn)行S孤RB模型的計(jì)算機(jī)的連接示意圖。
[0030] 圖2是本發(fā)明基于域名可讀性及域名解析行為的可疑性檢測(cè)方法的流程圖。
[0031] 圖3是提取出的13維域名可讀性特征向量列表圖。
[0032] 圖4是可疑域名每分鐘查詢次數(shù)的表征圖。
[0033] 圖5是正常域名每分鐘查詢次數(shù)的表征圖。
【具體實(shí)施方式】
[0034] 下面將結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明。
[0035] 參見圖1所示,DNS服務(wù)器將DNS查詢?nèi)罩据敵鼋o計(jì)算機(jī),DNS查詢?nèi)罩驹谟?jì)算機(jī)中 依據(jù)S孤RB模型進(jìn)行處理,輸出惡意域名給DNS服務(wù)器。DNS服務(wù)器相應(yīng)的對(duì)惡意域名進(jìn)行屏 蔽。DNS服務(wù)器和計(jì)算機(jī)是一種能夠按照事先存儲(chǔ)的程序,自動(dòng)、高速地進(jìn)行大量數(shù)值計(jì)算 和各種信息處理的現(xiàn)代化智能電子設(shè)備。計(jì)算機(jī)最低配置為CPU 2GHz,內(nèi)存2GB,硬盤 180GB;操作系統(tǒng)為windows2000/2003/XP及W上版本。
[0036] 被檢測(cè)對(duì)象
[0037] 本發(fā)明方法是對(duì)DNS運(yùn)營商的DNS查詢?nèi)罩具M(jìn)行分析,檢測(cè)DNS查詢?nèi)罩局惺欠裼?攻擊活動(dòng)和參與攻擊活動(dòng)的域名。將DNS運(yùn)營商的運(yùn)行時(shí)間記為T,一個(gè)T內(nèi)存在有m個(gè)天數(shù) day,-天可W分了多個(gè)時(shí)間段,運(yùn)行時(shí)間的集合形式記為T= {dayi,days,…,daym}。一個(gè)T 內(nèi)存在有n條DNS查詢?nèi)罩居涗洠蠨NS查詢?nèi)罩镜募闲问接洖镈NS query IogT= {Iogi, l〇g2,…,logn}。任意一條DNS查詢?nèi)罩綢ogn中包括的元素記文
[0038] dayi表示運(yùn)行時(shí)間T內(nèi)的第一天;
[0039] days表示運(yùn)行時(shí)間T內(nèi)的第二天;
[0040] daym表示運(yùn)行時(shí)間T內(nèi)的第m天,為了方便說明,所述daym也稱為任意一天;任意一 天daym中至少包含有3個(gè)時(shí)間段。
[0041] Iogi表示第一條DNS查詢?nèi)罩荆?br>[0042] log2表示第二條DNS查詢?nèi)罩荆?br>[0043] Iogn表示第n條DNS查詢?nèi)罩?,為了方便說明,所述Iogn也稱為任意一條DNS查詢?nèi)?志;
[0044] Src IP表示源IP地址;
[0045] DNS Server IP表示DNS服務(wù)器的IP地址;
[0046] Response IP表示應(yīng)答的IP地址;
[0047] Domain Name表示域名字段;
[004引 Request type表示查詢類型;
[0049] TTL value表示生存時(shí)間;
[00加]Time stamp表示時(shí)間戳,格式為YYYY年MM月孤日時(shí)分秒。
[0051 ] 在本發(fā)明中,域名字段Domain Name中包含有主機(jī)名、L級(jí)域、級(jí)域、……、二級(jí) 域、頂級(jí)域。其中二級(jí)域與頂級(jí)域構(gòu)成主域名,記為MDN。
[0052]例如 DNS 查詢?nèi)罩荆?96. 168. 1 . 10 218.85. 157.99www.baidu.com a 218.85.148.250 128YYYY 年 MM 月DD 日 100036;其中,"196.168.1. 10"為源IP 地址、 "218.85.157.99"為DNS服務(wù)器的IP地址、"WWW. baidu. com"為域名字段、V'為查詢類型、 "218.85.148.250"為應(yīng)答的IP地址、"12滬為生存時(shí)間、叮YYY年MM月DD日10003護(hù)為時(shí)間 戳。"baidu"為域名字段中的二級(jí)域,"WWW"為域名字段中的主機(jī)名,"baidu.com"為主域名。 [005;3]例如 DNS 查詢?nèi)罩荆?96.168.1.10 218.85.157.99cwc.buaa.edu.cn a 218.85.148.250 128YYYY 年 MM 月DD 日 083106;其中,"196.168.1. 10"為源IP 地址、 "218.85.157.9滬為DNS服務(wù)器的IP地址、"CWC. buaa. edu. cn"為域名字段、V'為查詢類型、 "218.85.148.250"為應(yīng)答的IP地址、"12滬為生存時(shí)間、叮YYY年MM月DD日08310護(hù)為時(shí)間 戳。"buaa"為域名字段中的二級(jí)域,"CWC"為域名字段中的主機(jī)名,"buaa. edu. cn"為主域 名。
[0化4]例如DNS查詢?nèi)罩荆?96.168.1.10218.85.157.99noc化fguiwxlz.WWW.hncgj. gov. cn a 218.85.148.250 128YYYY 年 MM 月 DD 日 180048;其中,"196.168. I . 10"為源IP 地址、 "218.85.157.99"為DNS服務(wù)器的IP地址、"noc化fguiwxlz . www.hncgj . gov. cn"為域名字 段、V為查詢類型、"218.85.148.250"為應(yīng)答的IP地址、"12滬為生存時(shí)間、"YYYY年MM月孤 日180048"為時(shí)間戳。"hncgj"為域名字段中的二級(jí)域,"WW"為域名字段中的S級(jí)域, "noc化fguiwxlz"為域名字段中的主機(jī)名,"hncg j . gov. cn"為主域名。
[0055] 被檢測(cè)對(duì)象的特征表示
[0056] 對(duì)于域名可讀性檢測(cè)采用的特征如表1所示。
[0057] 表1域名可讀性檢測(cè)的特征 [0化引
[0059] 在本發(fā)明中,將表1中的"特征名稱"組成一個(gè)13維特征向量,即X={X1,X2,X3,X4, X已,X6 , X7 , X8 ,抽,Xio , Xll, X12 , X13 }。
[0060] Xi的計(jì)算請(qǐng)參考清華大學(xué)出版社2012年3月第1版,李航著《統(tǒng)計(jì)學(xué)習(xí)方法》第60 頁。即字符串的概率分布為字符串中任意一字符出現(xiàn)的頻率;
[0061 ] X2的計(jì)算為字符串的長度,如字符串"baidu"中字符總數(shù)為5,則長度為5;
[0062] X3的計(jì)算為字符串中元音字母的個(gè)數(shù)除W字符串的長度,如字符串"baidu"中元 音字母的比例為3除W5;
[0063] X4的計(jì)算為字符串中數(shù)字的個(gè)數(shù)除W字符串的長度,如字符串"amdc517"中數(shù)字 的比例為3除W7;
[0064] X日計(jì)算為字符串中重復(fù)出現(xiàn)的字符數(shù)除W字符串的長度,如字符串"buaaxue"中 重復(fù)字符的比例為4除W7;
[0065] X6是采用馬爾可夫模型計(jì)算出基于英文語料的隨機(jī)矩陣的轉(zhuǎn)移概率Penglish和基于 拼音語料的隨機(jī)矩陣的轉(zhuǎn)移概率Ppinyin,并判斷是否有語義特征;請(qǐng)參考電子工業(yè)出版社 2005年1月第1版,ChriSto地er D.Manning等著,苑春法等譯《統(tǒng)計(jì)自然語言處理基礎(chǔ)》第 200頁;若Penglish> 0english表明是英文單詞的組合,若Ppinyin〉0pinyin表明是拼音的組合,兩個(gè) 條件有一個(gè)成立,則認(rèn)為字符串是有語義的。0english是區(qū)別英文單詞組合和非英文單詞組 合的邊界值,運(yùn)是由英文語料訓(xùn)練所得;0pinyin是區(qū)別拼音組合和非拼音組合的邊界值,運(yùn) 是由拼音語料訓(xùn)練所得;若Penglish含目english并且Ppinyin含目Pinyin則認(rèn)為字符串是沒有語義的。
[0066] X7是采用馬爾可夫模型計(jì)算出字符串的轉(zhuǎn)移概率,請(qǐng)參考電子工業(yè)出版社2005年 1月第1版,化ristopher D.Manning等著,苑春法等譯《統(tǒng)計(jì)自然語言處理基礎(chǔ)》第200頁。馬 爾科夫模型中的隨機(jī)矩陣是由域名白名單統(tǒng)計(jì)所得;
[0067] X8的計(jì)算為每個(gè)字母出現(xiàn)頻率的平均值;
[0068] X9的計(jì)算為每相鄰兩個(gè)字母出現(xiàn)頻率的平均值;
[0069] Xio的計(jì)算為每相鄰=個(gè)字母出現(xiàn)頻率的平均值;
[0070] Xii的計(jì)算為每個(gè)字母出現(xiàn)頻率的標(biāo)準(zhǔn)差;
[0071 ] X12的計(jì)算為每相鄰兩個(gè)字母出現(xiàn)頻率的標(biāo)準(zhǔn)差;
[0072] X13的計(jì)算為每相鄰=個(gè)字母出現(xiàn)頻率的標(biāo)準(zhǔn)差。
[0073] 參見圖2所示,本發(fā)明是一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法 (簡稱為S孤RB模型),所述S孤RB模型運(yùn)行在計(jì)算機(jī)中,本發(fā)明方法包括有下列步驟:
[0074] 第一步:域名集合提??;
[00巧]從DNS queiT IogT= Uogi, l〇g2,, logn}中提取出所有域名字段Domain 化me, 得到域名集合。
[0076]
[0077] 在本發(fā)明中,是W "域名字段"作為捜索運(yùn)行時(shí)間T內(nèi)的DNS查詢?nèi)罩镜谋粰z對(duì)象, 運(yùn)樣有利于針對(duì)特定的被檢對(duì)象進(jìn)行提取所需處理的對(duì)象。也充分體現(xiàn)了本發(fā)明方法是針 對(duì)拼音和/或單詞首字母組合域名進(jìn)行的。
[0078] 第二步:域名可讀性特征提??;
[0079] 步驟2-1,從域名集合8;^胃。1。^1。。中提取出所有域名字段0〇111曰111化1116的主機(jī)名 Host Name,構(gòu)成主機(jī)名集AAName;
[0080] 從域名集合中提取出所有域名字段Dom曰in Name的二級(jí)域SLD(second-Ievel domain),構(gòu)成二級(jí)域集投B;ld;
[0083] 步驟2-2,依據(jù) 13維特征向量X= { Xl , X2,X3,X4,X5,X6,X7,X8,X9,Xio,Xll,X12,X13 }對(duì) AAjfost Mume中自勺各個(gè)元素進(jìn)行±機(jī)名特征向量提取,得到可讀'性±機(jī)名向量集
[0081]
[0082]
[0084] 依據(jù) 13維特征向量X = { Xl , X2 , X3 , X4 , M , X6 , X7 , X8 , X9 , Xio , Xll , X12 , X13 }對(duì)BB立D 中的 各個(gè)元素進(jìn)行二級(jí)域特征向量提取,得到可讀性二級(jí)域向量集6語。=^{\'抵1,V庶v-,V^};
[0085] 在本發(fā)明中,對(duì)特征向量的提取具體地為:
[0086] 依據(jù)13維特征向量X= {義1,義2,義3,義4,義5,義6,義7,義8,義9,義1〇,義11,義12,義13}對(duì)肪31 胃。進(jìn)行特征向量提取,得到第一條DNS查詢?cè)恢綢ogl中域名的主機(jī)名向量,記 為第一條可讀性主機(jī)名向量\^。昔^。胃。
[0087] 依據(jù) 13維特征向量X= {xl,X2,X3,X4,X5,X6,X7,X8,X9,Xl0,Xll,Xl2,Xl3}對(duì)Host Name;^忘。。W。。,。進(jìn)行特征向量提取,得到第二條DNS掛旬曰志l〇g2中域名的主機(jī)名向量,記 為第二條可讀性主機(jī)名向量。
[008引依據(jù)13維特征向量X= {義1,義2,義3,義4,義5,義6,義7,義8,義9,義10,義11,義12,義13}對(duì)肪31 Nameg;;ghMame進(jìn)行特征向量提取,得到第n條DNS查詢?cè)恢綢ogn中域名的主機(jī)名向量,記 為第n條可讀性主機(jī)名向量VtS 。
[0089] 步驟2-3,依據(jù) 13維特征向量X= { Xl , X2,X3,X4,X5,X6,X7,X8,X9,Xio , Xll , X12,X13 }對(duì) SLD;3°S^>j。,。。進(jìn)行特征向量提取,得到第一條DNS查詢?cè)恢綢ogi中域名的二級(jí)域向量,記為 第一條可讀性二級(jí)域向量\4君。
[0090] 依據(jù)13維特征向量X= {義1,義2,義3,義4,義5,義6,義7,義8,義9,義1〇,義11,義12,義13}對(duì) SLD;3°^^ihw。,。。進(jìn)行特征向量提取,得到第二條DNS查詢?cè)恢緇〇g2中域名的二級(jí)域向量,記為 第二條可讀性二級(jí)域向量^?g。
[0091 ] 依據(jù)13維特征向量X= {義1,義2,義3,義4,義5,義6,義7,義8,義9,義10,義11,義12,義13}對(duì) SLDj^Df;胃Ww"e進(jìn)行特征向量提取,得到第n條DNS掛旬曰志Iogn中域名的二級(jí)域向量,記為 第n條可讀性二級(jí)域向量Vgl。
[0092] 第S步:可讀性檢測(cè);
[0093] 在本發(fā)明中,采用C4.5的生成算法對(duì)
租
巧行同一條DNS查詢?nèi)罩九鋵?duì)檢測(cè),得到同一條DNS查詢 日志的域名字段中主機(jī)名和二級(jí)域的可讀性數(shù)字量化,即賦值為[0,1],"〇"為可讀,"r為 不可讀;不可讀的域名字段被稱為可疑域名。
[0094] 在本發(fā)明中,對(duì)域名字段中主機(jī)名和二級(jí)域的可讀性[0,1]判斷具體地為:
[00M]步驟3-1,采用C4.5的生成算法對(duì)和ViS進(jìn)行檢測(cè),得到域名字段中主機(jī) 名和二級(jí)域的可讀性[0,1 ];若賦值為0且窓賦值為0,則DomainName^gi為可 讀,即DomainName^gi為正常域名;
[0096]若Vi篇Wame賦值為0且V遮賦值為1,則DomainNameiGgi為不可讀,即Domain NameI心為可疑域名,記為s_D〇mainNamekgi;
[0097]若Vi°。^ W。胃賦值為I且賦值為0,則DomainNamel啤為不可讀,即Domain NameiWi為可疑域名,記為s_D〇mainNa四e^gi;
[009引若\^。肯^胃賦值為1且¥盛賦值為1,則00111日111風(fēng)畑161°&為不可讀,即00111日王11 NameiGgi為可疑域名,記為S_D0mainNamekgi。
[0099] 采用C4.5的生成算法對(duì)和進(jìn)行檢測(cè),得到域名字段中主機(jī)名和二級(jí) 域的可讀性[0,1 ];若Vji;^賦值為0且武值為0,則Domain種ame&g2為可讀,即 DomainNamei°&為正常域名;
[0100] 若V;1°直Swame賦值為0且Vfi):賦值為1,則DomainName賄為不可讀,即Domain .Name^g2為可疑域名,記為S_D〇mainNamebg:
[0101] 若V^t 賦值為1且賦值為0,則Domain Namehg:為不可讀,即Domain Name^g。為可疑域名,記為s_D〇mainl%mebg2 J
[0102] 若Wame賦值為1且V盛賦值為1,則D oma i n Name^g:為不可讀,即Domain Name^g2為可疑域名,記為S_D〇mainHamei°g 2。
[0103] 采用C4.5的生成算法對(duì)和VgtS;'進(jìn)行檢測(cè),得到域名字段中主機(jī)名和二 級(jí)域的可讀性[0,1 ];若賦值為0且賦值為0,則Domain Name^g。為可讀,即 DomainNamek^為正常域名;
[0104] 若Wffiie賦值為0且賦值為1,則Doma i n Name^g。為不可讀,即0〇111日111 Name^g。為可疑域名,記為 s_D〇ma i n Namei°g*v;
[010引若J^。,。。賦值為1且賦值為0,則DomainName^s"為不可讀,即Doma in 內(nèi)注拍.日心。為可疑域名,記為5_00111曰;[]1]^]3.姐61°8。;:
[0106] 賦值為1且Vft賦值為1,則DomainName^g。為不可讀,即Domain Name^g。.為可疑域名,記為S_D〇mainNamei°g。。
[0107] 步驟3-2,從5_0〇111日111^汪姐61哨中提取出主域名,記為S_MDNi0gi ;;^S_Domain Name心中提取出主域名,記為S_MDNi°g-' ^S_D〇mainNamebg。中提取出主域名,記為 S_MDN峰。;將可疑域名的主域名用集合形式表達(dá)為S_SMDN=^(S_MDN咕,S_MD.N咕V'.,S_M;DNbg。!。
司的主域名,則相 只保留一份,將 :{S_MD 化,S_MD 化, L,S_MDNg},S_MD化表示第一個(gè)可疑的主域名,S_MD化表示第二個(gè)可疑的主域名,S_MDNg表示 第g個(gè)可疑的主域名,也稱為任意一個(gè)可疑的主域名。
[0108] 在本發(fā)明中,對(duì)域名字段中主機(jī)名和二級(jí)域的可讀性采用二進(jìn)制表示為,可讀記 為0,不可讀記為1。
[0109] C4.5的生成算法請(qǐng)參考清華大學(xué)出版社2012年3月第1版,李航著《統(tǒng)計(jì)學(xué)習(xí)方法》 第65頁。在本發(fā)明中,"C4.5的生成算法"的訓(xùn)練數(shù)據(jù)集是指正常域名的白名單和惡意域名 的黑名單按照X = { Xl, X2,X3,X4,肚,X6,X7,X8,X9,Xio , Xll, X12,X13 }處理后的特征向量集。
[0110] 第四步,檢測(cè)可疑域名;
[0111]在本發(fā)明中,將DNS query IogT= Uogi, l〇g2,.'',logn}中含有可疑主域名的所有 DNS查詢?nèi)罩咎崛〕鰜恚缓髮?duì)可疑主域名W任意一天中間隔為1秒進(jìn)行域名訪問量計(jì)算, 最后采用切比雪夫不等式來判斷訪問次數(shù)是否屬于正常的訪問次數(shù)區(qū)間,從而結(jié)束對(duì)DNS 查詢?nèi)罩镜目梢蓹z測(cè)。具體地:
[0112] 步驟 4-1,將 DNS que 巧 logT=U〇gi,l〇g2,...,logn}中含有 S_MD 化的所有 DNS 查詢 日志提取出來,記為含有S_MD化的可疑日志集看
[0113] Al表示含有5_10化的第一條DNS查詢?nèi)罩荆?br>[0114] A2表示含有5_10化的第二條DNS查詢?nèi)罩荆?br>[0115] Aa表示含有5_10化的第a條DNS查詢?nèi)罩?,也稱為最后一條DNS查詢?nèi)罩荆?br>[0116] 在本發(fā)明中,將DNS query IogT= Uogi Jo趴...JoeU由含有S MDNq的所有DNS查 詢?nèi)罩咎崛〕鰜?,記為含有S_MD化的可疑日志集?。海?br>[0117] Bi表示含有5_10化的第一條DNS查詢?nèi)罩荆?br>[011引 B2表示含有5_10化的第二條DNS查詢?nèi)罩荆?br>[0119] 化表示含有S_MD化的第b條DNS查詢?nèi)罩?,也稱為最后一條DNS查詢?nèi)罩荆?br>[0120] 在本發(fā)明中,將DNS query IogT= Uogi,1〇的,…,1〇扣}中含有S MDNg的所有DNS查 詢?nèi)罩咎崛〕鰜?,記為含有S_MDNg的可疑日志集^
;
[0121] Cl表示含有5_10成的第一條DNS查詢?nèi)罩荆?br>[0122] C2表示含有5_10成的第二條DNS查詢?nèi)罩荆?br>[0123] C。表示含有5_10成的第C條DNS查詢?nèi)罩荆卜Q為最后一條DNS查詢?nèi)罩荆?br>[0124] 步驟4-2, W任意一天山 ,并Wl分鐘為間隔進(jìn)行 域名訪問量計(jì)算,獲得基^ 每分鐘的訪問次數(shù) CoimtS--LS^胃1鱗后采用切比雪夫不等式對(duì)。。,…盧_15胃1進(jìn)行檢測(cè),得到廠。IinfS 是 否屬于正常的訪問次數(shù)區(qū)間
接-胃1為第i個(gè)時(shí)間段內(nèi)主域名的每分鐘訪問量的平均值,皆MDMi為第i個(gè)時(shí)間段內(nèi)主域名 的每分鐘訪問量的標(biāo)準(zhǔn)差;i為daym中時(shí)間段的標(biāo)識(shí)號(hào),i的取值至少為3個(gè)時(shí)間段;
[0125] 若Courts I.'胃I屬于正常的訪問次數(shù)區(qū)間內(nèi),則S_MD化為正常,賦值為0;
[0126] 若C0uiltS-LS-M?i不屬于正常的訪問次數(shù)區(qū)間內(nèi),則S_MD化為惡意的域名,賦值為1。
CoimtS-LS-然后采用切tt雪夫不等式對(duì) cauntS-LS-行檢測(cè),得到Comits-Ls-是
[0127] 在本發(fā)明中,W任意一天da ,并Wl分鐘為間隔進(jìn) 行域名訪問量計(jì)算,獲得基于 t分鐘的訪問次數(shù)
否屬于正常的訪問次數(shù)區(qū)I'目 .,:乂 S-胃吻第i個(gè)時(shí)間段內(nèi)主域名的每分鐘訪問量的平均值,耐-MDK嘴第i個(gè)時(shí)間段內(nèi)主域名 的每分鐘訪問量的標(biāo)準(zhǔn)差;i為daym中時(shí)間段的標(biāo)識(shí)號(hào),i的取值至少為3個(gè)時(shí)間段;[012引若CwmtS-LS-屬于正常的訪問次數(shù)區(qū)間內(nèi),則S_MD化為正常,賦值為0;[0129] 若仇umSL'w\^不屬于正常的訪問次數(shù)區(qū)間內(nèi),則S_MDN2為惡意的域名,賦值為1。
[0130] 在本發(fā)明中,W任意一天 ,并Wl分鐘為間隔進(jìn) 行域名訪問量計(jì)算,獲得基3 專分鐘的訪問次數(shù)C〇imt'S-LS-胃%然后采用切比雪夫不等式對(duì)TnimtS-LS-MWe進(jìn)行檢測(cè),得到rni,ntS_LS-"?e是
否屬于正常的訪問次數(shù)區(qū) . ,. 乂S-MDW巧第i個(gè)時(shí)間段內(nèi)主域名的每分鐘訪問量的平均值,"巧第i個(gè)時(shí)間段內(nèi)主域名 的每分鐘訪問量的標(biāo)準(zhǔn)差;i為daym中時(shí)間段的標(biāo)識(shí)號(hào),i的取值至少為3個(gè)時(shí)間段;
[0131] 若?^胃g屬于正常的訪問次數(shù)區(qū)間內(nèi),則S_MDNg為正常,賦值為0;
[om]若CauiitS L>-胃8不屬于正常的訪問次數(shù)區(qū)間內(nèi),則s_MDNg為惡意的域名,賦值為1。 [。。引實(shí)施例1
[0134] 原始DNS查詢?nèi)罩镜母袷絽⒖急?。表2中編號(hào)為1、2、3、4、5、6、8、13和15中主域名 為拼音組合;編號(hào)為7、9、10、11和12中主域名為英文單詞組合;編號(hào)16、17、18、19、20、21、22 和23中二級(jí)域?yàn)闈h語拼音首字母組合(陜西管理職業(yè)學(xué)院:WWW. SXgky巧.com. cn,淮南市 城管局:WWW. hncg j . gov. cn,黑龍江交警網(wǎng):WWW. hi j j j . gov. cn),主機(jī)名為隨機(jī)字符串;編 號(hào)為26和27中域名為英文單詞首字母組合(WWW .ccf.org.cn:china computer federation,WWW.ieee.org:Institute of Electrical and Electronic Engineers);編 號(hào)為14中的域名hqu為拼音首字母和英文單詞首字母組合化ua qiao university)。
[0135] 表2為原始的DNS查詢?nèi)罩?,?dāng)特征向量X6中未加入拼音語料進(jìn)行檢測(cè)時(shí),編號(hào)I、 2、3、4、8、13和15被檢測(cè)為可疑的域名,如表3所示。而加入拼音語料后1、2、3、4和15被檢測(cè) 為正常域名,而8、13和15被檢測(cè)為可疑域名,如表4所示;說明加入拼音語料確實(shí)可W降低 對(duì)域名的誤報(bào),但不能避免誤報(bào)。表5為對(duì)域名可讀性檢測(cè)出可疑的域名進(jìn)一步做解析行為 檢測(cè)后所得到的惡意域名所對(duì)應(yīng)的DNS查詢?nèi)罩尽?br>[0136] 本發(fā)明方法利用域名可讀性分類器檢測(cè)出域名特征,對(duì)26000多個(gè)域名檢測(cè),有 900多個(gè)域名被檢測(cè)為不可讀域名。部分檢測(cè)結(jié)果如圖3所示。
[0137] 在實(shí)施例1中解析行為主要是指每分鐘請(qǐng)求域名的次數(shù),對(duì)第一步檢測(cè)為可疑的 域名進(jìn)行解析行為特征的檢測(cè)。正常的域名每天的解析行為比較相似,而木馬通信使用的 隨機(jī)生成域名的解析行為比較異常,可能會(huì)有突發(fā)性的DNS請(qǐng)求或者僅有一次請(qǐng)求之后便 不再使用。采用切比雪夫不等式檢測(cè)突發(fā)性的域名請(qǐng)求,切比雪夫不等式中的平均值表示 某域名每分鐘的請(qǐng)求次數(shù),方差表示一段時(shí)間內(nèi),域名請(qǐng)求次數(shù)的波動(dòng)情況。為了更精確的 表示域名解析行為的模式,將一天分為=個(gè)時(shí)間段分別訓(xùn)練每個(gè)時(shí)間段平均值y和方差〇 2, 并且闊值a(經(jīng)驗(yàn)值設(shè)為0.05)。判斷域名每分鐘的訪問量是否在給定的區(qū)間中,若在區(qū)間內(nèi) 則判定該域名的解析行為正常,否則判定域名為可疑域名。
[013引參見圖4、圖5所示,對(duì)YYYY年MM月DD日的2604066條DNS日志進(jìn)行了檢測(cè),檢測(cè)出 938個(gè)不可讀主域名,進(jìn)一步對(duì)解析行為分析,檢測(cè)出一個(gè)解析行為異常的域名 hncgj.gov.cn(即淮南城管局)。統(tǒng)計(jì)其相鄰前兩天和后一天(即孤-2日、孤-1日、DD日、孤+1 日)的DNS請(qǐng)求次數(shù)如圖4(橫軸表示從零點(diǎn)開始到24點(diǎn)共1440分鐘,縱軸表示為每分鐘的訪 問量)所示,發(fā)現(xiàn)除了 DD日11時(shí)到16時(shí)的域名請(qǐng)求量較大外,其它時(shí)間訪問量很小。正常的 域名解析行為模式如圖5所示:在00:00~08:00期間訪問量較小,每分鐘的請(qǐng)求次數(shù)在20左 右;08:00~16:00時(shí)間段內(nèi)每分鐘的請(qǐng)求次數(shù)在100左右;16:00~24:00間每分鐘的訪問次 數(shù)在40次左右。
[0139] 提取了含有hncgj.gov.cn的所有DNS查詢?nèi)罩镜挠蛎l(fā)現(xiàn)該主域名(即 hncgj .gov.cn)下生成了大量的子域名,如下表所示:hncgj .gov.cn是正常的有備案的域 名,但是其子域名被用來實(shí)施攻擊活動(dòng)。
[0140]
[0141]
[0142] 本發(fā)明是基于DNS訪問日志檢測(cè)出網(wǎng)絡(luò)中的攻擊活動(dòng)。該發(fā)明主要從域名的字符 分布規(guī)律及可讀性和DNS解析行為兩個(gè)方面進(jìn)行檢測(cè)。1)對(duì)于域名可讀性方面的檢測(cè)除了 使用賭、長度W及字符出現(xiàn)頻率的特征外首次加入了域名是否拼音的特征,目前現(xiàn)有的域 名可讀性檢測(cè)主要是識(shí)別域名是否為英文單詞組合來判斷,運(yùn)導(dǎo)致將大量的中文全拼域名 誤報(bào)為可疑域名,加入拼音可讀性檢測(cè)后降低誤報(bào)率。2)現(xiàn)在很多安全產(chǎn)品都使用白名單 對(duì)域名進(jìn)行過濾,但是有很多黑客去劫持一些正常域名,并在其下面產(chǎn)生隨機(jī)的子域名進(jìn) 行攻擊活動(dòng),運(yùn)將會(huì)導(dǎo)致白名單失效;所W本發(fā)明不只對(duì)域名的一級(jí)域進(jìn)行字符可讀性檢 ,也會(huì)對(duì)域名下的最小的子域名進(jìn)行字符可讀性檢測(cè),運(yùn)可避免繞過白名單的惡意域名。 3)對(duì)上述通過字符分布及可讀性檢測(cè)出的可疑域名進(jìn)行行為檢測(cè),行為檢測(cè)只是對(duì)可疑域 名的。運(yùn)樣做的優(yōu)點(diǎn)不用對(duì)每一個(gè)域名進(jìn)行行為檢測(cè),減少大量的計(jì)算。
[0143] 表2原始DNS查詢?nèi)罩镜牧斜?「01441
[0145」 "a"28代巧UNS魚巧H志的魚巧類型。
Response iP項(xiàng)甲"nui廠代巧至但,列蘋/ |WJ 址處為舉例說明,無特定指代。表2省略了Src IP、DNS Server IP和Time stamp項(xiàng)的內(nèi)容。
[0146]表3未加入拼音可讀性時(shí)檢測(cè)出的可疑DNS查詢?nèi)罩镜牧斜?br>[0147]
[0148] 表4加入拼音可讀性后檢測(cè)出的可疑DNS查詢?nèi)罩镜牧斜?br>[0149]
[0150] 巧O做傾觀U m的Kl鄭Ui心宜THJ 口芯>的少[]巧
【主權(quán)項(xiàng)】
1. 一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法,其特征在于包括有下列步 驟: 第一步:域名集合提取; 從 DNS query logT={logi,log2,.",logn}中提取出所有域名字段 Domain Name,得到域 O ^Domain Nanie *第二步:域名可讀性特征提?。? 步驟2-1,從域名集合S^mainNarae中提取出所有域名字段Domain Name的主機(jī)名Host Name,構(gòu)成主機(jī)名集ΑΑ^Ν·; 從域名集合碎___中提取出所有域名字段Domain Name的二級(jí)域SLD(second-level domain),構(gòu)成二級(jí)域集 BB' i:);步驟2-2,依據(jù) 13維特征向量X= {xi,X2,X3,X4,X5,X6,X7,X8,X9,XI。,Xll,X12,X13}對(duì) 中的各個(gè)元素進(jìn)行t機(jī)名特征向量提取,得到可讀性t機(jī)名向量集依據(jù)13維特征向量X= {叉1,叉243,叉445,叉647,叉849,叉10,叉11,叉12,叉13}對(duì)136113中的各個(gè)元素進(jìn)行二級(jí)域特征向量提取,得到可讀性二級(jí)域向量集 第三步:可讀性檢測(cè);采用C4.5的生成算法對(duì)進(jìn)行同一條DNS查詢?nèi)罩九鋵?duì)檢測(cè),得到同一條DNS查詢?nèi)? 志的域名字段中主機(jī)名和二級(jí)域的可讀性數(shù)字量化,即賦值為[〇,1],"〇"為可讀,"Γ為不 可讀; 第四步,檢測(cè)可疑域名; 將DNS query logT= {logi,log2,···,logn}中含有可疑主域名的所有DNS查詢?nèi)罩咎崛?出來,然后對(duì)可疑主域名以任意一天中間隔為1秒進(jìn)行域名訪問量計(jì)算,最后采用切比雪夫 不等式來判斷訪問次數(shù)是否屬于正常的訪問次數(shù)區(qū)間,從而結(jié)束對(duì)DNS查詢?nèi)罩镜目梢蓹z 測(cè) 。2. 根據(jù)權(quán)利要求1所述的一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法,其 特征在于對(duì)特征向量的提取具體地為: 依據(jù) 13 維特征向量 X={xi,X2,X3,X4,X5,X6,X7,X8,X9,X10,Xll,X12,X13})^H〇St 進(jìn)行特征向量提取,得到第一條DNS查詢?nèi)罩緇ogi中域名的主機(jī)名向量,記 為第一條可讀性主機(jī)名向量vi=Name 依據(jù) 13 維特征向量 X={xi,X2,X3,X4,X5,X6,X7,X8,X9,Xl0,Xll,Xl2,Xl3})($H〇St Namej^^ainName進(jìn)行特征向量提取,得到第二條DNS查詢?nèi)罩緇〇g2中域名的主機(jī)名向量,記 為第二條可讀性主機(jī)名向量V;^Name; 依據(jù) 13 維特征向量 X={xi,X2,X3,X4,X5,X6,X7,X8,X9,Xl0,Xll,Xl2,Xl3})($H〇St Name〇f^ani N_進(jìn)行特征向量提取,得到第η條DNS查詢?nèi)罩? 〇 gn中域名的主機(jī)名向量,記 為第η條可讀性主機(jī)名向量V^^N3me ; 步驟2-3,依據(jù) 13維特征向量X= {xi,X2,X3,X4,X5,X6,X7,X8,X9,XlQ,Xll,Xl2,Xl3]^t SLD^ainName進(jìn)行特征向量:提取,得到第一條DNS查i旬曰志log沖±或名的二級(jí)±或向量:,記為 第一條可讀性二級(jí)域向量; 依據(jù) 13維特征向量X = { XI,X2,X3,X4,X5,X6,X7,X8,X9,Χ?ο,XII,X12,X13 }對(duì) 進(jìn)行特征向量提取,得到第二條DNS查詢?nèi)罩緇og2中域名的二級(jí)域向量,記為第二條可讀性 二級(jí)域向量^^; 依據(jù) 13維特征向量X= {xi,X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12,X13 _LDHme: 進(jìn)行特征向量提取,得到第η條DNS查詢?nèi)罩緇ogn中域名的二級(jí)域向量,記為第η條可讀性二 級(jí)域向量\?&。3.根據(jù)權(quán)利要求1所述的一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法,其 特征在于:對(duì)域名字段中主機(jī)名和二級(jí)域的可讀性[〇,1]判斷具體地為: 步驟3-1,采用C4.5的生成算法對(duì)Ν_和¥@.進(jìn)行檢測(cè),得到域名字段中主機(jī)名和 二級(jí)域的可讀性[〇,1 ];若Name賦值為0且vg賦值為0,則Domain Name1%為可讀, 即.Domain Name1,為正常域名; 若NamJ武值為0且賦值為1,則DomainName1%1為不可讀,即Domain Narne^1 為可疑域名,記為S_Domain Name1#1 若賦值為1且V;S賦值為〇,則Etomdn Naine1%為不可讀,即Domain Name1%1 為可疑域名,記為SJDornain Namek>g| ; 若 V]^tN_ 賦值為 1 且 賦值為 1,則Eiorndn Namelc>gl 為不可讀,即 I)OTiaiii Name1<3gl 為可疑域名,記為S_Domain Namek>g| ; 采用C4.5的生成算法對(duì)進(jìn)行檢測(cè),得到域名字段中主機(jī)名和二級(jí) 域的可讀性[ο,1 ];若Name賦值為ο且Vjg賦值為ο,則Domain Name11582為可讀,即 Domain Name1#:為正常域名; 若¥為_ 賦值為〇且 Vg 賦值為 1,則_?){).ηι?ι 不可讀,即 Domain. Nam.el0g2_ 為可疑域名,記為S_E)omain Nameli>y:; 若 vi^SNmw 賦值為 1 且'賦值為0,則 Domain Namelf>g2 為不可讀,即 Domain Name1<>g2 為可疑域名,記為S_Domain Name1(>g2_ 若Name賦值為1且賦值為1,則Domain Nametog_2為不可讀,即Domain Name1% 為可疑域名,記為S_Domain Name1?!?; 采用C4.5的生成算法對(duì)V;^Name和\^1;進(jìn)行檢測(cè),得到域名字段中主機(jī)名和二級(jí)域的 可讀性[〇,1 ];若N_賦值為0且VtgD"賦值為0,則Domain Name1%為可讀,即 Domain Namelt>gl^正常域名; 若ViSiime賦值為0且賦值為1,則Domain Name1%為不可讀,即Domain NamelGgn 為可疑域名,記為S_D_omain Name1% ; 若賦值為1且Vj;-賦值為〇,則Domam Namelflg*^不可讀,即Domain Name^ 為可疑域名,記為S_Domain Name1% ; 若 Vid !}_;賦值為1 且 V^n 賦值為 1,則 Domain ifemel0£_n 為不可讀,即 Domain Name1%11 為可疑域名,記為S_Domain Namek>y『_ ; 步驟3-2,US_Domain Namek>gi 中提取出主域名,記為S_MI3Nlegi;從S_Domain Name1% 中提取出主域名,記為S+MDN1%2;從S_Etomain Namelag。中提取出主域名,記為 S+MDN1% ;將可疑域名的主域名用集合形式表達(dá)為S_SMDN=|S_MDN'S_MDN氣…,S_MDNil^ ; SS_SMD:N={s_MD:Ni('gl J+MDNWv-vS+MDN1^ j中存在有相同的主域名,則相同 主域名在 S_SMDN^S_MDN1<5gl SJVIDN%,"'SJVIDN^j 中只保留一份,將 S_SMDN={s_MDNtog) 'S-MDN】1'..,,S_MD:Nto& }更改為S_SMDN= {S_MD~,S_MDN2, L,S_MDNg},S_MDNi表示第一個(gè)可疑的主域名,S_MDN2表示第二個(gè)可疑的主域名,S_MDNg表示 第g個(gè)可疑的主域名,也稱為任意一個(gè)可疑的主域名。4.根據(jù)權(quán)利要求1所述的一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法,其 特征在于:可疑域名被檢測(cè)出的步驟為: 步驟4-1,將DNS query logT= {logl,log2,…,logn}中含有S_MDN^所有DNS查詢?nèi)罩?提取出來,記為含有S_MDNi的可疑日志集合8_15-MI)Nl = {,A2,· · ·,Α^; Ai表示含有3_1?沁的第一條DNS查詢?nèi)罩荆? A2表示含有3_1?沁的第二條DNS查詢?nèi)罩荆? Aa表示含有3_1?沁的第a條DNS查詢?nèi)罩?,也稱為最后一條DNS查詢?nèi)罩荆? 將DNS query logT = {logl,log2,…,logn}中含有S_MDN2的所有DNS查詢?nèi)罩咎崛〕鰜恚? 記為含有3_1?吣的可疑日志集合S_Ls-MDNz = ,B2,…,;; Bi表示含有3_1?吣的第一條DNS查詢?nèi)罩荆? B2表示含有3_1?吣的第二條DNS查詢?nèi)罩荆? Bb表示含有3_1?吣的第b條DNS查詢?nèi)罩?,也稱為最后一條DNS查詢?nèi)罩荆? 將DNS query logT = {logl,log2,…,logn}中含有S_MDN^所有DNS查詢?nèi)罩咎崛〕鰜恚? 記為含WS_MDN^可疑曰志集合S_LS-,C2,…,Ce}; &表示含有3_1?心的第一條DNS查詢?nèi)罩荆? C2表示含有3_1?心的第二條DNS查詢?nèi)罩荆? C。表示含的第c條DNS查詢?nèi)罩?,也稱為最后一條DNS查詢?nèi)罩荆? 步驟4-2,以任意一天day^S_LS-MDNl=ph,A2,…,A H},并以1分鐘為間隔進(jìn)行域名 訪問量計(jì)算,獲得基于8_1^-¥01^=^1.,灰2:,_",八 (?1的每分鐘的訪問次數(shù)(^()11111^1·;. 然后采用切比雪夫不等式對(duì)進(jìn)行檢測(cè),得到Gc)unts-LSLMDNl是否屬于正常的訪時(shí)間段內(nèi)主域名的每分鐘訪問量的平均值,of-MDN'為第i個(gè)時(shí)間段內(nèi)主域名的每分鐘訪問 量的標(biāo)準(zhǔn)差;i為daym中時(shí)間段的標(biāo)識(shí)號(hào),i的取值至少為3個(gè)時(shí)間段;^Gounts-lS>Wl 1? ? , MS.MDNi^iHS , ; .//廠^為第沖 , 若amms lS MDNl不屬于正常的訪問次數(shù)區(qū)間內(nèi),則s」?Νι為惡意的域名,賦值為1; 以任意一天(1&5^的8_1^1^=>1,:8 2,-3^,并以1分鐘為間隔進(jìn)行域名訪問量計(jì) 算,獲得基于,…3?^的每分鐘的訪問次數(shù)Count8 l:M_~;然后采用切 比雪夫不等式對(duì)進(jìn)行檢測(cè),得到是否屬于正常的訪問次數(shù)區(qū)間主域名的每分鐘訪問量的平均值,W-MD&為第i個(gè)時(shí)間段內(nèi)主域名的每分鐘訪問量的標(biāo)準(zhǔn) 差;i為daym中時(shí)間段的標(biāo)識(shí)號(hào),i的取值至少為3個(gè)時(shí)間段; .^―_2為第i個(gè)時(shí)間段內(nèi) , 若^ 屬于正常的訪問次數(shù)區(qū)間內(nèi),則S_MDN2為正常,賦值為0; 老?οιιηΓ丨5」麵2不屬f 1常白勺訪丨句次數(shù)K丨、司內(nèi),則S_MDN2^/I;t白勺域$,賦值為1; 以任意一天(^屬8_1^1^={€:1,€:2,~,(^,并以1分鐘為間隔進(jìn)行域名訪問量計(jì) 算,獲得基于,…,的每分鐘的訪問次數(shù)Gmmts』s_%然后采用切 比雪夫不等式對(duì)^^^力_g進(jìn)行檢測(cè),得到否屬于正常的訪問次數(shù)區(qū)間.y-_g為第i個(gè)時(shí)間段內(nèi)主 > 域名的每分鐘訪問量的平均值,為第i個(gè)時(shí)間段內(nèi)主域名的每分鐘訪問量的標(biāo)準(zhǔn)差; i為daym中時(shí)間段的標(biāo)識(shí)號(hào),i的取值至少為3個(gè)時(shí)間段; 若C:mmts lS-MM:g屬于正常的訪問次數(shù)區(qū)間內(nèi),則S_MDNg為正常,賦值為0; 老Ommts-lS__s不屬+1常白勺訪丨句次數(shù)E丨司內(nèi),則S_ MDNg為$胃白勺域$,賦值為1。5. 根據(jù)權(quán)利要求1所述的一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法,其 特征在于:所述方法適用于對(duì)拼音和/或單詞首字母組合的域名。6. 根據(jù)權(quán)利要求1所述的一種基于域名可讀性及域名解析行為的可疑性檢測(cè)方法,其 特征在于:所述方法安裝在計(jì)算機(jī)中運(yùn)行,且計(jì)算機(jī)與DNS服務(wù)器通過網(wǎng)絡(luò)連接。
【文檔編號(hào)】H04L29/06GK105827594SQ201610131461
【公開日】2016年8月3日
【申請(qǐng)日】2016年3月8日
【發(fā)明人】李巍, 李麗輝, 李云春
【申請(qǐng)人】北京航空航天大學(xué)