两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法及裝置與流程

文檔序號(hào):11216780閱讀:399來(lái)源:國(guó)知局
惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法及裝置與流程

本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,特別是涉及一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法及裝置。



背景技術(shù):

為了保護(hù)用戶的計(jì)算機(jī)免受惡意網(wǎng)站攻擊,現(xiàn)有技術(shù)中瀏覽器往往采用內(nèi)置惡意網(wǎng)址列表的方法為用戶提供安全服務(wù)。這類安全服務(wù)的原理簡(jiǎn)單且易于實(shí)現(xiàn),因此在工業(yè)界被廣泛應(yīng)用。然而,隨著互聯(lián)網(wǎng)的發(fā)展和網(wǎng)絡(luò)攻擊方式的層出不窮,這種方法逐漸面臨一些新的挑戰(zhàn),包括:在大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)環(huán)境下,由于惡意網(wǎng)址列表的更新速度遠(yuǎn)遠(yuǎn)跟不上惡意網(wǎng)頁(yè)的更新速度,容易出現(xiàn)漏判的情況;隨著惡意網(wǎng)頁(yè)隱匿技術(shù)的逐步應(yīng)用,惡意網(wǎng)頁(yè)的發(fā)現(xiàn)難度也越來(lái)越大;由于不均衡數(shù)據(jù)集特點(diǎn),少量惡意網(wǎng)頁(yè)往往淹沒(méi)在海量的正常網(wǎng)頁(yè)中,如果對(duì)每個(gè)網(wǎng)頁(yè)都進(jìn)行分析,資源利用率將十分低下。因此,如何快速準(zhǔn)確地從大量正常網(wǎng)頁(yè)中篩選出新出現(xiàn)的惡意網(wǎng)頁(yè)成為一個(gè)迫切需要解決的問(wèn)題。

而針對(duì)惡意網(wǎng)頁(yè)分類問(wèn)題,隨著存儲(chǔ)技術(shù)的不斷提升,惡意網(wǎng)頁(yè)的檢測(cè)方法也不斷發(fā)展。按照檢測(cè)思路可以大致分為:基于黑名單的方法、基于深度包檢測(cè)的方法和基于機(jī)器學(xué)習(xí)的方法等三種思路?;诤诿麊蔚姆椒ㄏ鄬?duì)比較簡(jiǎn)單,易于實(shí)現(xiàn)。它首先對(duì)惡意網(wǎng)頁(yè)url進(jìn)行標(biāo)注,然后利用字符串匹配等技術(shù)惡意網(wǎng)頁(yè)url的識(shí)別。而惡意網(wǎng)頁(yè)url的人工標(biāo)注需要標(biāo)注人員有專業(yè)的領(lǐng)域知識(shí),且耗時(shí)較長(zhǎng),只適合低速、小規(guī)模的網(wǎng)絡(luò)環(huán)境。自動(dòng)標(biāo)注多利用啟發(fā)式的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行標(biāo)注,可以進(jìn)行并行化處理,但不夠準(zhǔn)確。為了解決基于黑名單方法存在的網(wǎng)站漏判問(wèn)題,w.pak等提出基于深度包檢測(cè)的分類方法。但在執(zhí)行內(nèi)容檢測(cè)時(shí),由于分析處理的網(wǎng)頁(yè)內(nèi)容較多,數(shù)據(jù)格式復(fù)雜,這一方法需要消耗很多計(jì)算資源和時(shí)間。為了降低計(jì)算資源的消耗和減少對(duì)領(lǐng)域知識(shí)的依賴,justin.ma等利用機(jī)器學(xué)習(xí)方法以惡意網(wǎng)頁(yè)url詞匯特征和主機(jī)特征為基礎(chǔ)建立統(tǒng)一的分類模型(例如,svm模型等),進(jìn)而根據(jù)已有標(biāo)注集合識(shí)別惡意網(wǎng)頁(yè)url。但該方法的分類準(zhǔn)確性依賴于樣本集的選取,且部分主機(jī)特征受網(wǎng)絡(luò)延遲影響較大。



技術(shù)實(shí)現(xiàn)要素:

為了克服上述現(xiàn)有技術(shù)的缺陷,本發(fā)明要解決的技術(shù)問(wèn)題是提供一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法及裝置,用以解決現(xiàn)有惡意網(wǎng)頁(yè)分類技術(shù)易漏判、準(zhǔn)確率低和效率低的問(wèn)題。

為解決上述技術(shù)問(wèn)題,本發(fā)明中的一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法,包括:

確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合;

從確定的訪問(wèn)集合中確定出所有低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)交集;

對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè)。

可選地,所述確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合,包括:

從訪問(wèn)日志中提取用戶與網(wǎng)頁(yè)資源之間訪問(wèn)關(guān)系;

根據(jù)所述訪問(wèn)關(guān)系,確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合。

可選地,所述對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),包括:

根據(jù)預(yù)先獲取的非惡意網(wǎng)頁(yè)資源,對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行過(guò)濾;

對(duì)過(guò)濾后的網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè)。

可選地,所述確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合之前,還包括:

對(duì)訪問(wèn)種子的各用戶進(jìn)行用戶行為可信度計(jì)算;所述種子為預(yù)先獲得的惡意網(wǎng)頁(yè)集合;

根據(jù)計(jì)算結(jié)果,按照從小到大的順序,從最低用戶行為可信度開(kāi)始,選取預(yù)設(shè)數(shù)量的低可信度用戶。

具體地,所述用戶行為可信度的計(jì)算方式包括:

在預(yù)設(shè)的計(jì)算時(shí)間區(qū)間確定用戶訪問(wèn)網(wǎng)頁(yè)資源的訪問(wèn)次數(shù);

根據(jù)每次訪問(wèn)的網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)頁(yè)類型,確定每次訪問(wèn)評(píng)價(jià)值;

根據(jù)各訪問(wèn)評(píng)價(jià)值和訪問(wèn)次數(shù),確定用戶行為可信度。

為解決上述技術(shù)問(wèn)題,本發(fā)明中的一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)裝置,其特征在于,所述裝置包括:

低可信度用戶追蹤模塊,用于確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合;

可疑url收集模塊,用于從確定的訪問(wèn)集合中確定出所有低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)交集;

分析模塊,用于對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè)。

可選地,所述低可信度用戶追蹤模塊,具體用于從訪問(wèn)日志中提取用戶與網(wǎng)頁(yè)資源之間訪問(wèn)關(guān)系;

根據(jù)所述訪問(wèn)關(guān)系,確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合。

可選地,所述分析模塊,具體用于根據(jù)預(yù)先獲取的非惡意網(wǎng)頁(yè)資源,對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行過(guò)濾;

對(duì)過(guò)濾后的網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè);

根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè)。

可選地,所述低可信度用戶追蹤模塊,還用于對(duì)訪問(wèn)種子的各用戶進(jìn)行用戶行為可信度計(jì)算;所述種子為預(yù)先獲得的惡意網(wǎng)頁(yè)集合;

根據(jù)計(jì)算結(jié)果,按照從小到大的順序,從最低用戶行為可信度開(kāi)始,選取預(yù)設(shè)數(shù)量的低可信度用戶。

具體地,所述用戶行為可信度的計(jì)算方式包括:

在預(yù)設(shè)的計(jì)算區(qū)間確定用戶訪問(wèn)網(wǎng)頁(yè)資源的訪問(wèn)次數(shù);

根據(jù)每次訪問(wèn)的網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)頁(yè)類型,確定每次訪問(wèn)評(píng)價(jià)值;

根據(jù)各訪問(wèn)評(píng)價(jià)值和訪問(wèn)次數(shù),確定用戶行為可信度。

本發(fā)明有益效果如下:

本發(fā)明中發(fā)現(xiàn)方法及裝置,通過(guò)確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合,從確定的訪問(wèn)集合中確定出所有低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)交集,然后對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè),從而可以有效解決現(xiàn)有惡意網(wǎng)頁(yè)分類技術(shù)易漏判、準(zhǔn)確率低和效率低的問(wèn)題。

附圖說(shuō)明

圖1是本發(fā)明實(shí)施例中一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法的流程圖;

圖2是實(shí)施本發(fā)明實(shí)施例中訪問(wèn)關(guān)系示意圖;

圖3是本發(fā)明實(shí)施例中惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法的系統(tǒng)架構(gòu)示意圖;

圖4是本發(fā)明實(shí)施例中濃度、擴(kuò)展度實(shí)驗(yàn)對(duì)比示意圖;

圖5是本發(fā)明實(shí)施例中一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了至少解決現(xiàn)有惡意網(wǎng)頁(yè)分類技術(shù)易漏判、準(zhǔn)確率低和效率低的問(wèn)題,本發(fā)明提供了一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法及裝置,以下結(jié)合附圖以及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不限定本發(fā)明。

如圖1所示,本發(fā)明第一實(shí)施例提出一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)方法,包括:

s101,確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合;

s102,從確定的訪問(wèn)集合中確定出所有低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)交集;

s103,對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè)。

其中,惡意網(wǎng)頁(yè)是一類以網(wǎng)頁(yè)木馬、釣魚(yú)網(wǎng)站為代表的網(wǎng)頁(yè)。不同于正常網(wǎng)頁(yè),惡意網(wǎng)頁(yè)通過(guò)偽裝成合法網(wǎng)站或在頁(yè)面中嵌入惡意腳本等方式,在用戶訪問(wèn)時(shí)對(duì)其網(wǎng)絡(luò)安全構(gòu)成威脅。通常惡意網(wǎng)頁(yè)的表單內(nèi)容和url會(huì)呈現(xiàn)出很強(qiáng)的特征,如表1所示。

表1

如圖2所示,其中訪問(wèn)集合是指訪問(wèn)者所訪問(wèn)的所有網(wǎng)頁(yè)資源所構(gòu)成的集合,它包含了訪問(wèn)者訪問(wèn)過(guò)的所有網(wǎng)頁(yè)資源。訪問(wèn)者a的訪問(wèn)集合ua={p1,p2}。

訪問(wèn)交集是指兩個(gè)或多個(gè)訪問(wèn)集合的交集。一般地,對(duì)于給定的兩個(gè)訪問(wèn)集合a和b的交集是指含有所有既屬于a又屬于b的元素,而沒(méi)有其他元素的訪問(wèn)集合。

訪問(wèn)關(guān)系是一種建立在訪問(wèn)者和網(wǎng)頁(yè)資源之間的關(guān)系,是訪問(wèn)者通過(guò)訪問(wèn)網(wǎng)頁(yè)資源產(chǎn)生的一種對(duì)應(yīng)關(guān)系。訪問(wèn)者a和網(wǎng)頁(yè)資源p1的訪問(wèn)關(guān)系r=<a,p1>。

本發(fā)明實(shí)施例通過(guò)確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合,從確定的訪問(wèn)集合中確定出所有低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)交集,然后對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè),從而可以有效解決現(xiàn)有惡意網(wǎng)頁(yè)分類技術(shù)易漏判、準(zhǔn)確率低和效率低的問(wèn)題。

簡(jiǎn)述本發(fā)明實(shí)施原理。

針對(duì)現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明第一實(shí)施例提出了一種基于用戶訪問(wèn)行為的惡意網(wǎng)頁(yè)發(fā)現(xiàn)uvbm(uservisitbehaviorminingapproach)方法。本方法將存儲(chǔ)在訪問(wèn)日志中的訪問(wèn)關(guān)系引入網(wǎng)頁(yè)信譽(yù)評(píng)價(jià)問(wèn)題中,以彌補(bǔ)惡意網(wǎng)頁(yè)漏判和錯(cuò)判可能產(chǎn)生的不良影響。

詳細(xì)說(shuō),如圖3所示,uvbm方法可以包括:

步驟1,可以預(yù)先確定一些種子;種子為預(yù)先獲得的惡意網(wǎng)頁(yè)集合。在具體實(shí)現(xiàn)時(shí),可以通過(guò)直接讀取現(xiàn)有的惡意網(wǎng)頁(yè)集合,也可以通過(guò)預(yù)先檢測(cè)獲得惡意網(wǎng)頁(yè)集合。例如,采用分析技術(shù)對(duì)日志中出現(xiàn)的每個(gè)網(wǎng)頁(yè)進(jìn)行深入分析,如dpi(deeppacketinspection)深度包檢測(cè)、關(guān)鍵詞掃描等檢測(cè)方式,基于此積累一些惡意網(wǎng)頁(yè)作為“種子”。

步驟2,從這些“種子”出發(fā),對(duì)訪問(wèn)過(guò)這些已知惡意網(wǎng)頁(yè)的用戶的可信度進(jìn)行打分。對(duì)這些用戶進(jìn)行分類篩選出一部分可信度較低的用戶,利用他們的訪問(wèn)日志以發(fā)現(xiàn)潛在的惡意網(wǎng)頁(yè)。

也就是說(shuō),在本發(fā)明的一個(gè)實(shí)施例中,在s101之前還可以包括:

對(duì)訪問(wèn)種子的各用戶進(jìn)行用戶行為可信度計(jì)算;所述種子為預(yù)先獲得的惡意網(wǎng)頁(yè)集合;

根據(jù)計(jì)算結(jié)果,按照從小到大的順序,從最低用戶行為可信度開(kāi)始,選取預(yù)設(shè)數(shù)量的低可信度用戶。

其中,所述用戶行為可信度的計(jì)算方式包括:

在預(yù)設(shè)的計(jì)算時(shí)間區(qū)間確定用戶訪問(wèn)網(wǎng)頁(yè)資源的訪問(wèn)次數(shù);

根據(jù)每次訪問(wèn)的網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)頁(yè)類型,確定每次訪問(wèn)評(píng)價(jià)值;

根據(jù)各訪問(wèn)評(píng)價(jià)值和訪問(wèn)次數(shù),確定用戶行為可信度。

具體說(shuō),用戶行為可信度是指惡意網(wǎng)頁(yè)識(shí)別系統(tǒng)對(duì)訪問(wèn)用戶根據(jù)用戶此前訪問(wèn)記錄而產(chǎn)生的信任程度。通常來(lái)說(shuō),從不訪問(wèn)惡意網(wǎng)頁(yè)的用戶行為可信度較高,經(jīng)常訪問(wèn)惡意網(wǎng)頁(yè)的用戶行為可信度較低。

因此,可以通過(guò)用戶過(guò)去一段時(shí)間內(nèi)的訪問(wèn)記錄來(lái)預(yù)測(cè)用戶未來(lái)行為的可信任程度。例如在計(jì)算時(shí)間區(qū)間t(t視具體應(yīng)用而定,如3個(gè)月)內(nèi),假設(shè)用戶i的訪問(wèn)次數(shù)為n,則用戶i行為可信度可通過(guò)公式(1)進(jìn)行計(jì)算:

其中,v(i,pk)表示用戶i第k次訪問(wèn)的網(wǎng)頁(yè)p的評(píng)價(jià)結(jié)果,它通過(guò)公式(2)進(jìn)行計(jì)算:

進(jìn)一步說(shuō),為了獲取種子集合,可以在網(wǎng)絡(luò)流量捕包平臺(tái)中設(shè)置表1中的url(uniformresourcelocator,統(tǒng)一資源定位符)特征,然后,通過(guò)特征匹配從流量中獲取對(duì)應(yīng)的url并進(jìn)行過(guò)濾、去重處理,獲得疑似惡意網(wǎng)頁(yè)url。接著,采用webdriver自動(dòng)化驗(yàn)證工具模擬訪問(wèn)這些疑似惡意網(wǎng)頁(yè),并根據(jù)訪問(wèn)返回結(jié)果判定其有效性。將有效的惡意網(wǎng)頁(yè)加入到種子集合中,并通過(guò)分析這些低可信度用戶的訪問(wèn)日志,發(fā)現(xiàn)潛在的惡意網(wǎng)頁(yè)。

步驟3,確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合。

具體說(shuō),低可信度用戶往往訪問(wèn)過(guò)已知的惡意網(wǎng)頁(yè)并且具有較高概率訪問(wèn)類似網(wǎng)頁(yè)。因此,將低可信度用戶集合提交至可疑url收集器(也稱之為可疑url收集器)中。通過(guò)在網(wǎng)絡(luò)流量中標(biāo)識(shí)低可信度的用戶,uvbm方法就有可能發(fā)現(xiàn)它們的訪問(wèn)歷史并識(shí)別出其他惡意網(wǎng)頁(yè)。

通過(guò)在設(shè)置的低可信度用戶追蹤器(也稱之為低可信度用戶追蹤模塊)輸入種子(包含惡意網(wǎng)頁(yè)的集合)以及“多對(duì)多”的訪問(wèn)關(guān)系。

基于對(duì)已知惡意網(wǎng)頁(yè)和訪問(wèn)關(guān)系的分析,低可信度用戶追蹤器產(chǎn)生低可信度用戶的集合,如圖3所示的過(guò)程①。用戶的可信度可以通過(guò)公式(1)計(jì)算得到。

也就是說(shuō),在本發(fā)明的一個(gè)實(shí)施例中,所述確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合,包括:

從訪問(wèn)日志中提取用戶與網(wǎng)頁(yè)資源之間訪問(wèn)關(guān)系;

根據(jù)所述訪問(wèn)關(guān)系,確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合。

步驟4,從確定的訪問(wèn)集合中確定出所有低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)交集。

例如,通過(guò)設(shè)置的可疑url收集器基于低可信度用戶集合對(duì)他們的訪問(wèn)交集進(jìn)行收集,即只有多個(gè)低可信度的用戶訪問(wèn)的url才會(huì)被收集從而產(chǎn)生一個(gè)可疑url的集合,并將它們發(fā)送給一組分析器。

步驟5,對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè)。

在具體實(shí)現(xiàn)時(shí),可以選擇由google提供的safebrowsing黑名單組成的分析器(分析模塊)。這個(gè)黑名單已經(jīng)被google用來(lái)實(shí)時(shí)處理數(shù)以億計(jì)的網(wǎng)頁(yè),并有api提供給外部調(diào)用者使用。此外,它不斷更新并且其誤判率很低。

當(dāng)然,在本步驟中也可以對(duì)輸入分析器的url中的已知非惡意網(wǎng)頁(yè)資源進(jìn)行過(guò)濾,從而進(jìn)一步提高發(fā)現(xiàn)效率。

也就是說(shuō),所述對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),包括:

根據(jù)預(yù)先獲取的非惡意網(wǎng)頁(yè)資源,對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行過(guò)濾;

對(duì)過(guò)濾后的網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè)。

本發(fā)明實(shí)施例通過(guò)用戶惡意網(wǎng)頁(yè)訪問(wèn)日志中訪問(wèn)關(guān)系的概念,提出了一種新的惡意網(wǎng)頁(yè)發(fā)現(xiàn)uvbm方法。uvbm方法從已有的惡意網(wǎng)頁(yè)集合出發(fā),自動(dòng)發(fā)現(xiàn)可信度低的用戶和對(duì)應(yīng)的訪問(wèn)關(guān)系,從而進(jìn)一步利用低可信度用戶對(duì)其他網(wǎng)頁(yè)的訪問(wèn)關(guān)系來(lái)發(fā)現(xiàn)未知的惡意網(wǎng)頁(yè)集合。

本發(fā)明實(shí)施例通過(guò)混合使用惡意網(wǎng)頁(yè)黑名單以及“用戶-網(wǎng)站”間的訪問(wèn)關(guān)系,實(shí)現(xiàn)了惡意網(wǎng)頁(yè)的輕量級(jí)分類,并且有效提高黑名單的可擴(kuò)展性,使其能夠應(yīng)用于動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境中。主要包含兩個(gè)方面:一是從已有的惡意網(wǎng)頁(yè)集合出發(fā),自動(dòng)發(fā)現(xiàn)可信度低的用戶和對(duì)應(yīng)的訪問(wèn)關(guān)系;二是利用低可信度用戶對(duì)其他網(wǎng)頁(yè)的訪問(wèn)關(guān)系來(lái)發(fā)現(xiàn)未知的惡意網(wǎng)頁(yè)集合。

本發(fā)明實(shí)施例與人工報(bào)告和啟發(fā)式爬蟲(chóng)相比,提供了一種更好的動(dòng)態(tài)黑名單的產(chǎn)生方法。一方面,它通過(guò)使用訪問(wèn)關(guān)系,限制了惡意網(wǎng)頁(yè)的檢測(cè)范圍,避免了對(duì)訪問(wèn)流中所有未知urls的詳細(xì)檢測(cè)。另一方面,和人工報(bào)告相比,它避免了更多的人為干預(yù)。此外,該方法通過(guò)保存部分訪問(wèn)日志,可以有效地縮小內(nèi)容檢測(cè)范圍并幫助發(fā)現(xiàn)潛在的惡意網(wǎng)頁(yè)。

基于上述的uvbm方法,在中國(guó)網(wǎng)站排名上選取了10類共6353個(gè)網(wǎng)址,并將它們作為網(wǎng)頁(yè)訪問(wèn)的代表。本發(fā)明設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)來(lái)分別驗(yàn)證uvbm方法的濃度、擴(kuò)展度和時(shí)間性能。

第一個(gè)實(shí)驗(yàn)通過(guò)和傳統(tǒng)檢查方法進(jìn)行對(duì)比來(lái)驗(yàn)證uvbm方法發(fā)現(xiàn)惡意網(wǎng)頁(yè)url的能力。首先,對(duì)很小的一部分網(wǎng)址進(jìn)行深入分析和檢查,得到一部分惡意網(wǎng)頁(yè)url(又稱“種子”,下同,本文中為67個(gè)url)。其次,充分使用“種子”來(lái)識(shí)別可信度低的用戶并繼續(xù)產(chǎn)生新的惡意網(wǎng)頁(yè)url,如表2所示實(shí)驗(yàn)組別1-3。最后,將uvbm方法同其他傳統(tǒng)檢測(cè)半數(shù)檢查和全面檢查方法進(jìn)行比較,見(jiàn)實(shí)驗(yàn)組別4-5。其中半數(shù)檢查是指檢查一半的訪問(wèn)日志以發(fā)現(xiàn)惡意網(wǎng)頁(yè)網(wǎng)址,全面檢查是指檢查全部訪問(wèn)日志以發(fā)現(xiàn)惡意網(wǎng)頁(yè)網(wǎng)址。

表2

如表2所示,初始階段,uvbm從濃度為1.06%的url庫(kù)里,分析并識(shí)別出67個(gè)惡意網(wǎng)頁(yè)url作為“種子”。在對(duì)“種子”分析的基礎(chǔ)上,uvbm提交了18440條url給分析器,其中254條url被最終認(rèn)定為惡意網(wǎng)頁(yè)。由表2可知,其濃度由1.29%提高到1.94%。此外,與全面檢查訪問(wèn)記錄相比,只對(duì)可信度低的用戶的訪問(wèn)日志進(jìn)行分析,其惡意網(wǎng)頁(yè)url濃度分別上升7.1%-51.14%。即用戶的可信度越低,其訪問(wèn)日志中包含濃度更高的惡意網(wǎng)頁(yè)url。

擴(kuò)展度實(shí)驗(yàn)。如表2和濃度擴(kuò)展度實(shí)驗(yàn)對(duì)比圖4所示,只分析低可信度用戶的日志,其實(shí)際產(chǎn)生惡意網(wǎng)頁(yè)url的數(shù)量初始惡意網(wǎng)頁(yè)url數(shù)量的3.25倍以上。

表3比較了不同方法的時(shí)間性能。

表3

如表3所示,檢查低可信度用戶訪問(wèn)記錄是發(fā)現(xiàn)惡意網(wǎng)頁(yè)url的一種有效方法。采用這種方法可以減少約33.89%的平均檢測(cè)時(shí)間。特別地,如果系統(tǒng)選取惡意用戶的比例較小,其用于發(fā)現(xiàn)一個(gè)惡意網(wǎng)頁(yè)url的平均時(shí)間將大大縮短。這種情況出現(xiàn)的可能原因是每次實(shí)驗(yàn)進(jìn)行前,將用戶按照可信度從低到高進(jìn)行了排序。

實(shí)驗(yàn)結(jié)果顯示,相比于全部檢查,uvbm方法可以顯著提高惡意網(wǎng)頁(yè)url的濃度,從而大大降低平均檢測(cè)時(shí)間。此外,給定一定數(shù)量的惡意網(wǎng)頁(yè),uvbm方法能夠發(fā)現(xiàn)大量額外的惡意網(wǎng)頁(yè)。相比全面檢查,檢查同樣數(shù)量的url,uvbm可以發(fā)現(xiàn)3倍以上的惡意網(wǎng)頁(yè)。這一對(duì)比結(jié)果顯示,uvbm在提高url濃度,降低平均檢測(cè)時(shí)間方面具有較大優(yōu)勢(shì)。同時(shí),該方法需要部分惡意網(wǎng)頁(yè)作為“種子”以產(chǎn)生更多的惡意網(wǎng)頁(yè)。因此可以擴(kuò)大“種子”惡意網(wǎng)頁(yè)的選取范圍,或者提升“種子”惡意網(wǎng)頁(yè)質(zhì)量,即可更進(jìn)一步解決現(xiàn)有惡意網(wǎng)頁(yè)分類技術(shù)易漏判、準(zhǔn)確率低和效率低的問(wèn)題。

基于本發(fā)明提出的uvbm方法,本發(fā)明進(jìn)一步提出一種惡意網(wǎng)頁(yè)發(fā)現(xiàn)裝置,所述裝置包括:

低可信度用戶追蹤模塊510,用于確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合;

可疑url收集模塊520,用于從確定的訪問(wèn)集合中確定出所有低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)交集;

分析模塊530,用于對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè)。

在本發(fā)明的一個(gè)實(shí)施例中,所述低可信度用戶追蹤模塊510,具體用于從訪問(wèn)日志中提取用戶與網(wǎng)頁(yè)資源之間訪問(wèn)關(guān)系;

根據(jù)所述訪問(wèn)關(guān)系,確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合。

在本發(fā)明的另一個(gè)實(shí)施例中,所述分析模塊530,具體用于根據(jù)預(yù)先獲取的非惡意網(wǎng)頁(yè)資源,對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行過(guò)濾;

對(duì)過(guò)濾后的網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè);

根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè)。

在本發(fā)明的又一個(gè)實(shí)施例中,所述低可信度用戶追蹤模塊510,還用于對(duì)訪問(wèn)種子的各用戶進(jìn)行用戶行為可信度計(jì)算;所述種子為預(yù)先獲得的惡意網(wǎng)頁(yè)集合;

根據(jù)計(jì)算結(jié)果,按照從小到大的順序,從最低用戶行為可信度開(kāi)始,選取預(yù)設(shè)數(shù)量的低可信度用戶。

進(jìn)一步說(shuō),所述用戶行為可信度的計(jì)算方式包括:

在預(yù)設(shè)的計(jì)算區(qū)間確定用戶訪問(wèn)網(wǎng)頁(yè)資源的訪問(wèn)次數(shù);

根據(jù)每次訪問(wèn)的網(wǎng)頁(yè)資源對(duì)應(yīng)的網(wǎng)頁(yè)類型,確定每次訪問(wèn)評(píng)價(jià)值;

根據(jù)各訪問(wèn)評(píng)價(jià)值和訪問(wèn)次數(shù),確定用戶行為可信度。

本發(fā)明實(shí)施例通過(guò)確定每個(gè)預(yù)先選取的低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)集合,從確定的訪問(wèn)集合中確定出所有低可信度用戶的網(wǎng)頁(yè)資源訪問(wèn)交集,然后對(duì)所述訪問(wèn)交集中網(wǎng)頁(yè)資源進(jìn)行惡意網(wǎng)頁(yè)檢測(cè),根據(jù)檢測(cè)結(jié)果,確定惡意網(wǎng)頁(yè),從而可以有效解決現(xiàn)有惡意網(wǎng)頁(yè)分類技術(shù)易漏判、準(zhǔn)確率低和效率低的問(wèn)題。

雖然本申請(qǐng)描述了本發(fā)明的特定示例,但本領(lǐng)域技術(shù)人員可以在不脫離本發(fā)明概念的基礎(chǔ)上設(shè)計(jì)出來(lái)本發(fā)明的變型。

本領(lǐng)域技術(shù)人員在本發(fā)明技術(shù)構(gòu)思的啟發(fā)下,在不脫離本發(fā)明內(nèi)容的基礎(chǔ)上,還可以對(duì)本發(fā)明做出各種改進(jìn),這仍落在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
广德县| 德州市| 盐池县| 资中县| 盐亭县| 陈巴尔虎旗| 汤阴县| 双柏县| 敦化市| 洛浦县| 鄂温| 剑川县| 荣成市| 保德县| 克东县| 望谟县| 长丰县| 南溪县| 荥阳市| 大田县| 商河县| 巫山县| 滨海县| 长顺县| 沈阳市| 安塞县| 金坛市| 嘉兴市| 新宁县| 松潘县| 滕州市| 安远县| 鸡西市| 乌兰察布市| 从化市| 科技| 开原市| 昭平县| 乌鲁木齐市| 五寨县| 嘉定区|