两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種軟件識別特征的獲取方法和裝置與流程

文檔序號:11138609閱讀:502來源:國知局
一種軟件識別特征的獲取方法和裝置與制造工藝

本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,尤其涉及一種軟件識別特征的獲取方法和裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)安全問題逐步凸顯,以木馬、病毒、后門程序、廣告軟件等為代表的非法軟件,即惡意軟件,在數(shù)量、更新速度和使用技術(shù)等方面較之前也有了突飛猛進(jìn)的發(fā)展,惡意軟件給互聯(lián)網(wǎng)用戶造成的影響和損失逐年增加。

目前,主要采用的對惡意軟件網(wǎng)絡(luò)流量中識別特征進(jìn)行鑒別的方法識別惡意軟件,針對惡意軟件網(wǎng)絡(luò)流量的識別特征獲取方法主要有兩種:

1)針對惡意軟件文件的靜態(tài)及沙盒分析識別方法,如文件軟件哈希等;通過反向工程分析惡意軟件運(yùn)行邏輯,并通過沙盒運(yùn)行獲取實(shí)際的惡意軟件網(wǎng)絡(luò)行為,獲取可用的識別特征;

2)采用傳統(tǒng)的互聯(lián)網(wǎng)協(xié)議(IP,Internet Protocol)地址、端口及深度包檢測(DPI,Deep Packet Inspection)技術(shù)的識別方法,通過對惡意軟件網(wǎng)絡(luò)流量抓包樣本進(jìn)行分析,提取識別特征。

以上兩種傳統(tǒng)的識別方法存在共同的問題:

1)需要獲取到惡意軟件樣本進(jìn)行分析,而樣本及變種數(shù)量龐大,更新迅速;

2)需要投入大量的人力進(jìn)行樣本分析,資源需求量大,效率較低;

3)惡意軟件如綁定在正常軟件上,流量樣本中的包含大量正常流量,造成區(qū)分困難;

4)惡意軟件變種較多較快,現(xiàn)有方案不能滿足及時性需求。

以上情況使得傳統(tǒng)的以軟件文件哈希及其他靜態(tài)分析方法為代表的惡意軟件檢測方法越來越難以應(yīng)對,建立可以有效識別新型惡意軟件的識別和控制體系成為當(dāng)前網(wǎng)絡(luò)安全最迫切的工作。

因此,如何在沒有非法軟件樣本的情況下,獲取非法軟件的識別特征,適應(yīng)非法軟件及其變種過多、變化過快帶來的無法及時獲取非法軟件識別特征的問題,是亟待解決的問題。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例期望提供一種軟件識別特征的獲取方法和裝置,能在沒有非法軟件樣本的情況下,獲取非法軟件的識別特征,適應(yīng)非法軟件及其變種過多、變化過快帶來的無法及時獲取非法軟件識別特征的問題。

為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:

本發(fā)明實(shí)施例提供了一種軟件識別特征的獲取方法,所述方法包括:

根據(jù)預(yù)設(shè)合法網(wǎng)絡(luò)標(biāo)識樣本和非法網(wǎng)絡(luò)標(biāo)識樣本,確定所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識各自對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值;

根據(jù)各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,以及所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識分別對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性;

獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的指定通信信息,將不同合法性網(wǎng)絡(luò)標(biāo)識對應(yīng)的所述指定通信信息確定為不同合法性軟件對應(yīng)的識別特征。

上述方案中,所述網(wǎng)絡(luò)標(biāo)識,包括:互聯(lián)網(wǎng)協(xié)議IP地址;

所述網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,包括:IP地址關(guān)聯(lián)信息的向量值。

上述方案中,所述IP地址關(guān)聯(lián)信息的向量值,包括:IP地址關(guān)聯(lián)域名生成算法(DGA,Domain Generation Algorithm)域名所占比例、和/或IP地址關(guān)聯(lián)DGA主域名所占比例、和/或IP地址關(guān)聯(lián)域名集中度、和/或IP地址關(guān)聯(lián)域名數(shù)量、和/或IP地址關(guān)聯(lián)主域名數(shù)量、和/或IP地址關(guān)聯(lián)統(tǒng)一資源定位器(URL,Uniform Resource Locator)數(shù)量、和/或IP地址關(guān)聯(lián)URL類型均值、和/或IP地址關(guān)聯(lián)URL類型方差、和/或已檢測為非法的URL檢測結(jié)果均值;和/或已檢測為非法的URL檢測結(jié)果方差、和/或與所述IP地址通信的樣本數(shù)量、和/或與所述IP地址通信的樣本殺毒軟件識別結(jié)果均值、和/或與所述IP地址通信的樣本殺毒軟件識別結(jié)果均方差;和/或從所述IP地址下載的樣本數(shù)量、和/或從所述IP地址下載的樣本殺毒軟件識別結(jié)果均值、和/或從所述IP地址下載的樣本殺毒軟件識別結(jié)果方差。

上述方案中,所述確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性之前,所述方法還包括,不檢測滿足預(yù)設(shè)篩選規(guī)則的所述待檢測網(wǎng)絡(luò)標(biāo)識;所述篩選規(guī)則包括:無關(guān)聯(lián)信息的IP地址;無域名關(guān)聯(lián)的IP地址;無軟件關(guān)聯(lián)的IP地址;關(guān)聯(lián)知名網(wǎng)站的IP地址。

上述方案中,所述獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的預(yù)設(shè)通信信息,包括:獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的網(wǎng)絡(luò)通信協(xié)議、和/或網(wǎng)絡(luò)通信端口、和/或超文本傳輸協(xié)議(HTTP,HyperText Transfer Protocol)請求URL、和/或域名、和/或用戶代理(User Agent)。

上述方案中,所述確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性,包括:采用分類器確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性。

上述方案中,所述采用分類器確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性,包括:采用支持向量機(jī)(SVM,Support Vector Machine)分類器、和/或隨機(jī)森林、和/或決策樹確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性。

本發(fā)明實(shí)施例還提供了一種軟件識別特征的獲取裝置,所述裝置包括:確定模塊、檢測模塊和獲取模塊;其中,

所述確定模塊,用于根據(jù)預(yù)設(shè)合法網(wǎng)絡(luò)標(biāo)識樣本和非法網(wǎng)絡(luò)標(biāo)識樣本,確定所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識各自對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值;

所述檢測模塊,用于根據(jù)各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,以及所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識分別對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性;

所述獲取模塊,用于獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的指定通信信息,將不同合法性網(wǎng)絡(luò)標(biāo)識對應(yīng)的所述指定通信信息確定為不同合法性軟件對應(yīng)的識別特征。

上述方案中,所述網(wǎng)絡(luò)標(biāo)識,包括:IP地址。

所述網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,包括:IP地址關(guān)聯(lián)信息的向量值。

上述方案中,所述IP地址關(guān)聯(lián)信息的向量值,包括:IP地址關(guān)聯(lián)DGA域名所占比例、和/或IP地址關(guān)聯(lián)DGA主域名所占比例、和/或IP地址關(guān)聯(lián)域名集中度、和/或IP地址關(guān)聯(lián)域名數(shù)量、和/或IP地址關(guān)聯(lián)主域名數(shù)量、和/或IP地址關(guān)聯(lián)URL數(shù)量、和/或IP地址關(guān)聯(lián)URL類型均值、和/或IP地址關(guān)聯(lián)URL類型方差、和/或已檢測為非法的URL檢測結(jié)果均值;和/或已檢測為非法的URL檢測結(jié)果方差、和/或與所述IP地址通信的樣本數(shù)量、和/或與所述IP地址通信的樣本殺毒軟件識別結(jié)果均值、和/或與所述IP地址通信的樣本殺毒軟件識別結(jié)果均方差;和/或從所述IP地址下載的樣本數(shù)量、和/或從所述IP地址下載的樣本殺毒軟件識別結(jié)果均值、和/或從所述IP地址下載的樣本殺毒軟件識別結(jié)果方差。

上述方案中,所述檢測模塊,還用于:不檢測滿足預(yù)設(shè)篩選規(guī)則的所述待檢測網(wǎng)絡(luò)標(biāo)識;所述篩選規(guī)則包括:無關(guān)聯(lián)信息的IP地址;無域名關(guān)聯(lián)的IP地址;無軟件關(guān)聯(lián)的IP地址;關(guān)聯(lián)知名網(wǎng)站的IP地址。

上述方案中,所述獲取模塊,具體用于:獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的網(wǎng)絡(luò)通信協(xié)議、和/或網(wǎng)絡(luò)通信端口、和/或HTTP請求URL、和/或域名、和/或User Agent。

上述方案中,所述檢測模塊,具體用于:采用分類器確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性.

上述方案中,所述檢測模塊,具體用于:采用SVM分類器、和/或隨機(jī)森林、和/或決策樹確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性。

本發(fā)明實(shí)施例所提供的軟件識別特征的獲取方法和裝置,根據(jù)預(yù)設(shè)合法網(wǎng)絡(luò)標(biāo)識樣本和非法網(wǎng)絡(luò)標(biāo)識樣本,確定所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識各自對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值;根據(jù)各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,以及所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識各自對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性;獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的預(yù)設(shè)通信信息,將不同合法性網(wǎng)絡(luò)標(biāo)識對應(yīng)的所述預(yù)設(shè)通信信息確定為不同合法性軟件對應(yīng)的識別特征。這樣,先對與非法軟件進(jìn)行通信的基礎(chǔ)設(shè)施的網(wǎng)絡(luò)標(biāo)識進(jìn)行識別,進(jìn)而獲取非法軟件與非法網(wǎng)絡(luò)標(biāo)識對應(yīng)的基礎(chǔ)設(shè)施的通信信息,即非法軟件的識別特征;如此,能在沒有非法軟件樣本的情況下,獲取非法軟件的識別特征,適應(yīng)非法軟件及其變種過多、變化過快帶來的無法及時獲取非法軟件識別特征的問題。

附圖說明

圖1為本發(fā)明實(shí)施例軟件識別特征的獲取方法的流程示意圖;

圖2為本發(fā)明實(shí)施例非法軟件網(wǎng)絡(luò)流量識別系統(tǒng)的組成結(jié)構(gòu)示意圖;

圖3為本發(fā)明實(shí)施例非法軟件識別特征的獲取方法的流程示意圖;

圖4為本發(fā)明實(shí)施例軟件識別特征的獲取裝置組成結(jié)構(gòu)示意圖。

具體實(shí)施方式

本發(fā)明實(shí)施例中,根據(jù)預(yù)設(shè)合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識樣本,確定所述各合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值;根據(jù)各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,以及所述各合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,采用分類器確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性;獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的通信信息,將不同合法性網(wǎng)絡(luò)標(biāo)識的對應(yīng)的所述通信信息確定為不同合法性軟件對應(yīng)的識別特征。

下面結(jié)合實(shí)施例對本發(fā)明再作進(jìn)一步詳細(xì)的說明。

本發(fā)明實(shí)施例提供的軟件識別特征的獲取方法,如圖1所示,所述方法包括:

步驟101:根據(jù)預(yù)設(shè)合法網(wǎng)絡(luò)標(biāo)識樣本和非法網(wǎng)絡(luò)標(biāo)識樣本,確定所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識各自對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值;

這里,本發(fā)明實(shí)施例以收集的大量威脅情報(bào)為基礎(chǔ),對海量威脅情報(bào)進(jìn)行過濾及挖掘,對威脅情報(bào)進(jìn)行量化處理,并創(chuàng)建模型,通過合法和非法樣本的訓(xùn)練,實(shí)現(xiàn)自動化提取準(zhǔn)確的非法網(wǎng)絡(luò)標(biāo)識情報(bào),進(jìn)而與非法軟件進(jìn)行關(guān)聯(lián)并生成識別特征,實(shí)現(xiàn)對非法軟件的網(wǎng)絡(luò)流量識別;可以預(yù)先收集大量網(wǎng)絡(luò)標(biāo)識及與所述網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)的信息作為威脅情報(bào);可以在威脅情報(bào)中,根據(jù)已知合法性的網(wǎng)絡(luò)標(biāo)識確定用于作為樣本的合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識,并確定所述各合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值;其中,所述網(wǎng)絡(luò)標(biāo)識包括:IP地址。

也可以以實(shí)時獲取的網(wǎng)絡(luò)標(biāo)識威脅情報(bào)為基礎(chǔ)進(jìn)行處理;非法軟件通常會將獲取的非法信息上傳至非法軟件預(yù)設(shè)的一些IP地址等網(wǎng)絡(luò)標(biāo)識對應(yīng)的設(shè)備,如服務(wù)器等,或從這些設(shè)備上獲取非法軟件更新信息,這些設(shè)備通常稱為非法軟件的基礎(chǔ)設(shè)施,非法軟件的變種仍然是和這些基礎(chǔ)設(shè)施進(jìn)行通信,通常非法軟件的基礎(chǔ)設(shè)施在網(wǎng)絡(luò)中的網(wǎng)絡(luò)標(biāo)識是固定的;因此,可以通過先確定非法軟件的基礎(chǔ)設(shè)施的網(wǎng)絡(luò)標(biāo)識,再確定與確定出的網(wǎng)絡(luò)標(biāo)識進(jìn)行通信的非法軟件。

目前,常用的威脅情報(bào)主要是針對IP地址、域名、URL及軟件哈希等安全觀察對象的情報(bào)信息,如IP地址威脅情報(bào)中包含以下信息:IP地址的地理信息、自治系統(tǒng)(AS,Autonomous System)信息、IP地址關(guān)聯(lián)過的域名歷史、與該IP地址通信過的非法軟件及正常軟件的文件哈希列表、該IP地址關(guān)聯(lián)的非法網(wǎng)頁網(wǎng)址等于IP地址相關(guān)聯(lián)的信息;域名的威脅情報(bào)包含:域名的whois(查詢域名的IP地址以及所有者等信息的傳輸協(xié)議)信息、域名的工信部備案信息、域名的關(guān)聯(lián)IP地址信息等;軟件哈希的威脅情報(bào)主要是沙盒運(yùn)行的結(jié)果,包括:軟件的靜態(tài)分析信息,如文件大小、引用庫,運(yùn)行系統(tǒng)、簽名、各種哈希算法值,軟件運(yùn)行時的文件操作信息,如創(chuàng)建、讀、寫、修改等,軟件運(yùn)行時的創(chuàng)建的進(jìn)程及服務(wù)等,軟件運(yùn)行時的的網(wǎng)絡(luò)行為,如HTTP訪問、域名系統(tǒng)(DNS,Domain Name System)查詢、傳輸控制協(xié)議(TCP,Transmission Control Protocol)/用戶數(shù)據(jù)報(bào)協(xié)議(UDP,User Datagram Protocol)連接等;

海量的威脅情報(bào)并不能直接作為識別非法軟件和網(wǎng)站的識別特征,原因主要包括:非法軟件也會與正常的網(wǎng)站、IP地址及DNS等服務(wù)器進(jìn)行連接,此流量不應(yīng)識別為非法流量;非法軟件如綁定在正常軟件上,則會產(chǎn)生正常軟件的網(wǎng)絡(luò)流量,需要與非法流量區(qū)分處理;同一IP地址上可能關(guān)聯(lián)多個網(wǎng)站及服務(wù),此IP地址的部分流量為非法流量,另一部分則為正常流量,需要區(qū)分識別;

對威脅情報(bào)中的信息進(jìn)行處理,可以采用統(tǒng)計(jì)學(xué)方法計(jì)算該IP地址關(guān)聯(lián)信息,得到IP地址關(guān)聯(lián)信息的向量值,包括:

IP地址關(guān)聯(lián)DGA域名所占比例,可以用dga_fqdn_ratio表示;

IP地址關(guān)聯(lián)DGA主域名所占比例,可以用dga_domain_ratio表示;

IP地址關(guān)聯(lián)域名集中度,可以用domain_concentration表示,domain_concentration可以是域名數(shù)量除以主域名數(shù)量之商;

IP地址關(guān)聯(lián)域名數(shù)量,可以用fqdn_count表示;

IP地址關(guān)聯(lián)主域名數(shù)量,可以用domain_count表示;

IP地址關(guān)聯(lián)URL數(shù)量,可以用urls_count表示;

IP地址關(guān)聯(lián)URL類型均值,可以用urls_type_mean表示,其中,當(dāng)urls_type_mean為0,可以表示無端口,無文件exe后綴;當(dāng)urls_type_mean為1,可以表示有exe文件后綴;當(dāng)urls_type_mean為2,可以表示有端口,有exe文件后綴;

IP地址關(guān)聯(lián)URL類型方差,可以用urls_type_variance表示;

已檢測為非法的IP地址關(guān)聯(lián)URL檢測結(jié)果均值,可以用urls_pos_ratio_mean表示;

已檢測為非法的IP地址關(guān)聯(lián)URL檢測結(jié)果方差,可以用urls_pos_ratio_variance表示;

與IP地址通信的樣本數(shù)量,可以用communicating_sample_count表示;

與IP地址通信的樣本殺毒軟件識別結(jié)果均值,可以用cs_pos_ratio_mean表示;

與IP地址通信的樣本殺毒軟件識別結(jié)果均方差,可以用cs_pos_ratio_variance表示;

從IP地址下載的樣本數(shù)量,可以用downloaded_sample_count表示;

從IP地址下載的樣本殺毒軟件識別結(jié)果均值,可以用ds_pos_ratio_mean表示;

從IP地址下載的樣本殺毒軟件識別結(jié)果方差,可以用ds_pos_ratio_variance表示。

步驟102:根據(jù)各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,以及所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識分別對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性;

基于以上IP地址關(guān)聯(lián)信息的向量值數(shù)據(jù),可以采用其中的一種或多種數(shù)據(jù),以合法網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值作為正向樣本,以非法網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值作為反向樣本,采用機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練分類器;機(jī)器學(xué)習(xí)分類器可采用支持向量機(jī)(SVM,Support Vector Machine)分類器、隨機(jī)森林、決策樹等;分類器確定后分析各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性;其中所述各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息可以是從已有的威脅情報(bào)庫中獲取,也可以在網(wǎng)絡(luò)的實(shí)時流量中獲取,并通過分類器分類;

分類器采用的數(shù)據(jù)分類是指在已有分類的訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,根據(jù)某種原理,經(jīng)過訓(xùn)練形成一個分類器;然后使用分類器判斷沒有分類的數(shù)據(jù)的類別。數(shù)據(jù)都是以向量形式出現(xiàn)的,如<0.4,0.123,0.323>。如SVM分類器采用一種基于分類邊界的方法。其基本原理是:如果訓(xùn)練數(shù)據(jù)分布在二維平面上的點(diǎn),它們按照其分類聚集在不同的區(qū)域?;诜诸愡吔绲姆诸愃惴ǖ哪繕?biāo)是,通過訓(xùn)練,找到這些分類之間的邊界(直線的稱為線性劃分,曲線的稱為非線性劃分)。對于多維數(shù)據(jù)(如N維),可以將它們視為N維空間中的點(diǎn),而分類邊界就是N維空間中的面,稱為超面(超面比N維空間少一維)。線性分類器使用超平面類型的邊界,非線性分類器使用超曲面;

通過合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息向量值樣本訓(xùn)練過的分類器,可以對待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息向量值進(jìn)行識別,并確定所述待檢測網(wǎng)絡(luò)標(biāo)識的合法性,其中所述網(wǎng)絡(luò)標(biāo)識包括IP地址。

進(jìn)一步的,由于并非每個待檢測的IP地址的關(guān)聯(lián)信息都是完整的,因此,可以在檢測前進(jìn)行篩選,對滿足預(yù)設(shè)篩選規(guī)則的IP地址不進(jìn)行處理;所述預(yù)設(shè)規(guī)則包括:無關(guān)聯(lián)信息的IP地址;無域名關(guān)聯(lián)IP地址;無軟件關(guān)聯(lián)IP地址;關(guān)聯(lián)知名網(wǎng)站網(wǎng)址IP地址等。

步驟103:獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的指定通信信息,將不同合法性網(wǎng)絡(luò)標(biāo)識對應(yīng)的所述指定通信信息確定為不同合法性軟件對應(yīng)的識別特征;

這里,分類器確定所述待檢測網(wǎng)絡(luò)標(biāo)識的合法性分類后,可以從已有的威脅情報(bào)或?qū)崟r威脅情報(bào)中確定與所述網(wǎng)絡(luò)標(biāo)識進(jìn)行通信的軟件,并獲取所述網(wǎng)絡(luò)標(biāo)識與軟件的指定通信信息;如果所述網(wǎng)絡(luò)標(biāo)識為非法網(wǎng)絡(luò)標(biāo)識,則對應(yīng)的指定通信信息為用于識別非法軟件的識別特征;如果所述網(wǎng)絡(luò)標(biāo)識為合法網(wǎng)絡(luò)標(biāo)識,則對應(yīng)的指定通信信息為用于識別合法軟件的識別特征;也可以僅獲取非法網(wǎng)絡(luò)標(biāo)識與軟件的指定通信信息。其中所述指定通信信息可以包括:網(wǎng)絡(luò)通信協(xié)議、網(wǎng)絡(luò)通信端口、HTTP請求URL、域名、用戶代理(User Agent)等;

進(jìn)一步的,可以對所述指定通信信息進(jìn)行格式化,成為常用的軟件識別特征;其中,對所述指定通信信息進(jìn)行格式化可以采用Java描述語言對象表示法(JSON,JavaScript Object Notation)格式輸出;可以采用生成的非法軟件的識別特征對非法軟件及其變種進(jìn)行識別。

下面結(jié)合具體示例對本發(fā)明產(chǎn)生的積極效果作進(jìn)一步詳細(xì)的描述;

圖2為本發(fā)明實(shí)施例的非法軟件網(wǎng)絡(luò)流量識別系統(tǒng)的組成結(jié)構(gòu)圖,所述非法軟件網(wǎng)絡(luò)流量識別系統(tǒng)包括:客戶設(shè)備21、非法軟件流量識別設(shè)備22、非法軟件識別特征存儲單元23、威脅情報(bào)挖掘單元24、威脅情報(bào)存儲單元25和威脅情報(bào)收集單元26;其中,

威脅情報(bào)收集單元26,用于收集網(wǎng)絡(luò)威脅情報(bào)及本地沙盒運(yùn)行非法樣本獲取情報(bào),將收集到的情報(bào)存儲于威脅情報(bào)存儲單元25,威脅情報(bào)挖掘單元24基于威脅情報(bào)存儲單元25存儲的威脅情報(bào)進(jìn)行過濾和挖掘,生成非法軟件識別特征,并將輸出的非法軟件識別特征存儲于非法軟件識別特征存儲單元23;

客戶設(shè)備21為用戶日常使用的PC、服務(wù)器及移動設(shè)備等,通過非法軟件流量識別設(shè)備22與互聯(lián)網(wǎng)進(jìn)行網(wǎng)絡(luò)交互訪問;非法軟件流量識別設(shè)備22讀取非法軟件識別特征存儲單元23中存儲的識別特征對客戶設(shè)備21與互聯(lián)網(wǎng)之間通信的網(wǎng)絡(luò)流量進(jìn)行識別和監(jiān)控。當(dāng)非法軟件產(chǎn)生的網(wǎng)絡(luò)流量流經(jīng)非法軟件流量識別設(shè)備22時,非法軟件流量識別設(shè)備22將網(wǎng)絡(luò)流量與非法軟件識別特征存儲單元23中的非法軟件識別特征進(jìn)行匹配,以完成非法軟件流量的識別。

圖3為本發(fā)明實(shí)施例的非法軟件識別特征的獲取方法流程圖。

首先,建立威脅請報(bào)庫,并訓(xùn)練分類器,包括:

步驟3001:收集網(wǎng)絡(luò)威脅情報(bào)并存儲在威脅情報(bào)庫D101。

步驟3002:將確認(rèn)的非法IP地址及合法IP地址的威脅情報(bào)分別進(jìn)行量化處理,獲取非法IP地址及合法IP地址關(guān)聯(lián)信息的向量值,形成非法IP地址訓(xùn)練樣本D103及合法IP地址訓(xùn)練樣本D104,以D103及D104作為訓(xùn)練樣本訓(xùn)練機(jī)器學(xué)習(xí)分類器D105,機(jī)器學(xué)習(xí)分類器可采用SVM分類器、隨機(jī)森林、決策樹等。

然后,對威脅請報(bào)庫中的IP地址進(jìn)行鑒別并獲取與非法IP地址通信的非法軟件的識別特征

步驟3101:流程開始;

步驟3102:從威脅情報(bào)庫讀取一條IP地址的威脅情報(bào);

步驟3103:根據(jù)預(yù)設(shè)篩選規(guī)則D102對數(shù)據(jù)進(jìn)行篩選,如果匹配規(guī)則放棄該條IP地址的威脅情報(bào)的后續(xù)判斷邏輯,并進(jìn)入3109判斷情報(bào)是否處理完畢;

步驟3104:如果未匹配清洗規(guī)則,則對情報(bào)進(jìn)行量化計(jì)算,確定IP地址關(guān)聯(lián)信息的向量值;

步驟3105:通過情報(bào)分類器D105對量化后的情報(bào)進(jìn)行分類,分類結(jié)果為合法IP地址則進(jìn)入步驟3109判斷情報(bào)是否處理完畢;

步驟3106:分類結(jié)果為非法IP地址,則根據(jù)該情報(bào)確認(rèn)該IP地址關(guān)聯(lián)的非法軟件;

步驟3107:通過對IP地址關(guān)聯(lián)非法軟件情報(bào)進(jìn)行分析,獲取非法軟件與該IP地址的網(wǎng)絡(luò)通信細(xì)節(jié),數(shù)據(jù)包括但不限于:網(wǎng)絡(luò)通信協(xié)議;網(wǎng)絡(luò)通信端口;HTTP請求URL、域名、User-Agent等;

步驟3108:將以上通信細(xì)節(jié)形成格式化識別特征,以JSON格式輸出至非法軟件識別特征庫D106;

步驟3109:確認(rèn)是否仍然有未處理的IP地址威脅情報(bào),如果有則進(jìn)入步驟3102讀取并處理下一條情報(bào),如果全部情報(bào)處理完成則進(jìn)入步驟3110結(jié)束流程;

步驟3110:流程結(jié)束。

本發(fā)明實(shí)施例提供的軟件識別特征的獲取裝置,如圖4所示,所述裝置包括:確定模塊41、檢測模塊42和獲取模塊43;其中,

所述確定模塊41,用于根據(jù)預(yù)設(shè)合法網(wǎng)絡(luò)標(biāo)識樣本和非法網(wǎng)絡(luò)標(biāo)識樣本,確定所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識各自對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值;

這里,本發(fā)明實(shí)施例以收集的大量威脅情報(bào)為基礎(chǔ),對海量威脅情報(bào)進(jìn)行過濾及挖掘,對威脅情報(bào)進(jìn)行量化處理,并創(chuàng)建模型,通過合法和非法樣本的訓(xùn)練,實(shí)現(xiàn)自動化提取準(zhǔn)確的非法網(wǎng)絡(luò)標(biāo)識情報(bào),進(jìn)而與非法軟件進(jìn)行關(guān)聯(lián)并生成識別特征,實(shí)現(xiàn)對非法軟件的網(wǎng)絡(luò)流量識別;可以預(yù)先收集大量網(wǎng)絡(luò)標(biāo)識及與所述網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)的信息作為威脅情報(bào);可以在威脅情報(bào)中,根據(jù)已知合法性的網(wǎng)絡(luò)標(biāo)識確定用于作為樣本的合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識,并確定所述各合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值;其中,所述網(wǎng)絡(luò)標(biāo)識包括:IP地址。

也可以以實(shí)時獲取的網(wǎng)絡(luò)標(biāo)識威脅情報(bào)為基礎(chǔ)進(jìn)行處理;非法軟件通常會將獲取的非法信息上傳至非法軟件預(yù)設(shè)的一些IP地址等網(wǎng)絡(luò)標(biāo)識對應(yīng)的設(shè)備,如服務(wù)器等,或從這些設(shè)備上獲取非法軟件更新信息,這些設(shè)備通常稱為非法軟件的基礎(chǔ)設(shè)施,非法軟件的變種仍然是和這些基礎(chǔ)設(shè)施進(jìn)行通信,通常非法軟件的基礎(chǔ)設(shè)施在網(wǎng)絡(luò)中的網(wǎng)絡(luò)標(biāo)識是固定的;因此,可以通過先確定非法軟件的基礎(chǔ)設(shè)施的網(wǎng)絡(luò)標(biāo)識,再確定與確定出的網(wǎng)絡(luò)標(biāo)識進(jìn)行通信的非法軟件。

目前,常用的威脅情報(bào)主要是針對IP地址、域名、URL及軟件哈希等安全觀察對象的情報(bào)信息,如IP地址威脅情報(bào)中包含以下信息:IP地址的地理信息、AS信息、IP地址關(guān)聯(lián)過的域名歷史、與該IP地址通信過的非法軟件及正常軟件的文件哈希列表、該IP地址關(guān)聯(lián)的非法網(wǎng)頁網(wǎng)址等于IP地址相關(guān)聯(lián)的信息;域名的威脅情報(bào)包含:域名的whois(查詢域名的IP地址以及所有者等信息的傳輸協(xié)議)信息,域名的工信部備案信息,域名的關(guān)聯(lián)IP地址信息等;軟件哈希的威脅情報(bào)主要是沙盒運(yùn)行的結(jié)果,包括:軟件的靜態(tài)分析信息,如文件大小、引用庫,運(yùn)行系統(tǒng)、簽名、各種哈希算法值,軟件運(yùn)行時的文件操作信息,如創(chuàng)建、讀、寫、修改等,軟件運(yùn)行時的創(chuàng)建的進(jìn)程及服務(wù)等,軟件運(yùn)行時的的網(wǎng)絡(luò)行為,如HTTP訪問、DNS查詢、TCP/UDP連接等;

海量的威脅情報(bào)并不能直接作為識別非法軟件和網(wǎng)站的識別特征,原因主要包括:非法軟件也會與正常的網(wǎng)站、IP地址及DNS等服務(wù)器進(jìn)行連接,此流量不應(yīng)識別為非法流量;非法軟件如綁定在正常軟件上,則會產(chǎn)生正常軟件的網(wǎng)絡(luò)流量,需要與非法流量區(qū)分處理;同一IP地址上可能關(guān)聯(lián)多個網(wǎng)站及服務(wù),此IP地址的部分流量為非法流量,另一部分則為正常流量,需要區(qū)分識別;

對威脅情報(bào)中的信息進(jìn)行處理,可以采用統(tǒng)計(jì)學(xué)方法計(jì)算該IP地址關(guān)聯(lián)信息,得到IP地址關(guān)聯(lián)信息的向量值,包括:

IP地址關(guān)聯(lián)DGA域名所占比例,可以用dga_fqdn_ratio表示;

IP地址關(guān)聯(lián)DGA主域名所占比例,可以用dga_domain_ratio表示;

IP地址關(guān)聯(lián)域名集中度,可以用domain_concentration表示,domain_concentration可以是域名數(shù)量除以主域名數(shù)量之商;

IP地址關(guān)聯(lián)域名數(shù)量,可以用fqdn_count表示;

IP地址關(guān)聯(lián)主域名數(shù)量,可以用domain_count表示;

IP地址關(guān)聯(lián)URL數(shù)量,可以用urls_count表示;

IP地址關(guān)聯(lián)URL類型均值,可以用urls_type_mean表示,其中,當(dāng)urls_type_mean為0,可以表示無端口,無文件exe后綴;當(dāng)urls_type_mean為1,可以表示有exe文件后綴;當(dāng)urls_type_mean為2,可以表示有端口,有exe文件后綴;

IP地址關(guān)聯(lián)URL類型方差,可以用urls_type_variance表示;

已檢測為非法的IP地址關(guān)聯(lián)URL檢測結(jié)果均值,可以用urls_pos_ratio_mean表示;

已檢測為非法的IP地址關(guān)聯(lián)URL檢測結(jié)果方差,可以用urls_pos_ratio_variance表示;

與IP地址通信的樣本數(shù)量,可以用communicating_sample_count表示;

與IP地址通信的樣本殺毒軟件識別結(jié)果均值,可以用cs_pos_ratio_mean表示;

與IP地址通信的樣本殺毒軟件識別結(jié)果均方差,可以用cs_pos_ratio_variance表示;

從IP地址下載的樣本數(shù)量,可以用downloaded_sample_count表示;

從IP地址下載的樣本殺毒軟件識別結(jié)果均值,可以用ds_pos_ratio_mean表示;

從IP地址下載的樣本殺毒軟件識別結(jié)果方差,可以用ds_pos_ratio_variance表示。

所述檢測模塊42,用于根據(jù)各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,以及所述各合法網(wǎng)絡(luò)標(biāo)識和各非法網(wǎng)絡(luò)標(biāo)識分別對應(yīng)的網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性;

基于以上IP地址關(guān)聯(lián)信息的向量值數(shù)據(jù),可以采用其中的一種或多種數(shù)據(jù),以合法網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值作為正向樣本,以非法網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值作為反向樣本,采用機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練分類器;機(jī)器學(xué)習(xí)分類器可采用支持向量機(jī)(SVM,Support Vector Machine)分類器、隨機(jī)森林、決策樹等;分類器確定后分析各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息的向量值,確定所述各待檢測網(wǎng)絡(luò)標(biāo)識的合法性;其中所述各待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息可以是從已有的威脅情報(bào)庫中獲取,也可以在網(wǎng)絡(luò)的實(shí)時流量中獲取,并通過分類器分類;

分類器采用的數(shù)據(jù)分類是指在已有分類的訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,根據(jù)某種原理,經(jīng)過訓(xùn)練形成一個分類器;然后使用分類器判斷沒有分類的數(shù)據(jù)的類別。數(shù)據(jù)都是以向量形式出現(xiàn)的,如<0.4,0.123,0.323>。如SVM分類器采用一種基于分類邊界的方法。其基本原理是:如果訓(xùn)練數(shù)據(jù)分布在二維平面上的點(diǎn),它們按照其分類聚集在不同的區(qū)域?;诜诸愡吔绲姆诸愃惴ǖ哪繕?biāo)是,通過訓(xùn)練,找到這些分類之間的邊界(直線的稱為線性劃分,曲線的稱為非線性劃分)。對于多維數(shù)據(jù)(如N維),可以將它們視為N維空間中的點(diǎn),而分類邊界就是N維空間中的面,稱為超面(超面比N維空間少一維)。線性分類器使用超平面類型的邊界,非線性分類器使用超曲面;

通過合法網(wǎng)絡(luò)標(biāo)識和非法網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息向量值樣本訓(xùn)練過的分類器,可以對待檢測網(wǎng)絡(luò)標(biāo)識關(guān)聯(lián)信息向量值進(jìn)行識別,并確定所述待檢測網(wǎng)絡(luò)標(biāo)識的合法性,其中所述網(wǎng)絡(luò)標(biāo)識包括IP地址。

進(jìn)一步的,由于并非每個待檢測的IP地址的關(guān)聯(lián)信息都是完整的,因此,可以在檢測前進(jìn)行篩選,對滿足預(yù)設(shè)篩選規(guī)則的IP地址不進(jìn)行處理;所述預(yù)設(shè)規(guī)則包括:無關(guān)聯(lián)信息的IP地址;無域名關(guān)聯(lián)IP地址;無軟件關(guān)聯(lián)IP地址;關(guān)聯(lián)知名網(wǎng)站網(wǎng)址IP地址等;

所述獲取模塊43,用于獲取所述確定合法性的網(wǎng)絡(luò)標(biāo)識與關(guān)聯(lián)軟件之間的指定通信信息,將不同合法性網(wǎng)絡(luò)標(biāo)識對應(yīng)的所述指定通信信息確定為不同合法性軟件對應(yīng)的識別特征;

這里,分類器確定所述待檢測網(wǎng)絡(luò)標(biāo)識的合法性分類后,可以從已有的威脅情報(bào)或?qū)崟r威脅情報(bào)中確定與所述網(wǎng)絡(luò)標(biāo)識進(jìn)行通信的軟件,并獲取所述網(wǎng)絡(luò)標(biāo)識與軟件的指定通信信息;如果所述網(wǎng)絡(luò)標(biāo)識為非法網(wǎng)絡(luò)標(biāo)識,則對應(yīng)的指定通信信息為用于識別非法軟件的識別特征;如果所述網(wǎng)絡(luò)標(biāo)識為合法網(wǎng)絡(luò)標(biāo)識,則對應(yīng)的指定通信信息為用于識別合法軟件的識別特征;也可以僅獲取非法網(wǎng)絡(luò)標(biāo)識與軟件的指定通信信息。其中所述指定通信信息可以包括:網(wǎng)絡(luò)通信協(xié)議;網(wǎng)絡(luò)通信端口;HTTP請求URL、域名、用戶代理(User Agent)等;

進(jìn)一步的,可以對所述指定通信信息進(jìn)行格式化,成為常用的非法軟件的識別特征;其中,對所述指定通信信息進(jìn)行格式化可以采用JSON格式輸出;可以采用生成的非法軟件的識別特征對非法軟件及其變種進(jìn)行識別。

在實(shí)際應(yīng)用中,所述確定模塊41、檢測模塊42和獲取模塊43均可由網(wǎng)絡(luò)安全設(shè)備中的中央處理器(CPU)、微處理器(MPU)、數(shù)字信號處理器(DSP)、或現(xiàn)場可編程門陣列(FPGA)等實(shí)現(xiàn)。

以上所述,僅為本發(fā)明的最佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
邻水| 利津县| 宝应县| 馆陶县| 平乐县| 张家界市| 合肥市| 永平县| 凤阳县| 巴林左旗| 新和县| 瓦房店市| 汝阳县| 堆龙德庆县| 唐河县| 临洮县| 修水县| 榕江县| 桓仁| 徐州市| 梁山县| 饶平县| 永宁县| 景宁| 马关县| 阿勒泰市| 乌兰察布市| 霍邱县| 明溪县| 东海县| 闸北区| 东宁县| 彰武县| 金门县| 四子王旗| 饶河县| 奉新县| 明溪县| 龙里县| 宁明县| 漳平市|