本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及網(wǎng)頁(yè)暗鏈檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
暗鏈,又稱(chēng)“黑鏈”、“隱鏈”,是指看不見(jiàn)但可以被搜索引擎識(shí)別并計(jì)算權(quán)重的外鏈,入侵者通過(guò)非法技術(shù)在網(wǎng)頁(yè)中植入暗鏈,能夠達(dá)到提高暗鏈所指網(wǎng)站的搜索引擎排名并從中盈利的目的,暗鏈的植入不僅影響了網(wǎng)站的正常運(yùn)行,而且向公眾傳播了大量非法信息,危害巨大。目前網(wǎng)頁(yè)暗鏈檢測(cè)主要有以下兩種方法:
1)基于規(guī)則的暗鏈檢測(cè):利用隱藏技術(shù)的識(shí)別并結(jié)合特征黑名單來(lái)判定網(wǎng)頁(yè)是否被植入暗鏈。這種方法對(duì)于暗鏈的某些隱藏方式識(shí)別較弱,同時(shí)也會(huì)由于黑名單關(guān)鍵字本身的限制而導(dǎo)致漏報(bào)、誤報(bào)。
2)基于二分類(lèi)機(jī)器學(xué)習(xí)的暗鏈檢測(cè):收集真實(shí)的網(wǎng)頁(yè)源碼數(shù)據(jù)形成包含暗鏈和不包含暗鏈的兩類(lèi)數(shù)據(jù)的訓(xùn)練集,通過(guò)對(duì)檢測(cè)頁(yè)面的網(wǎng)頁(yè)源碼中的文本進(jìn)行特征選擇處理,然后結(jié)合訓(xùn)練集進(jìn)行二分判定。這種方法對(duì)樣本數(shù)據(jù)的分類(lèi)過(guò)于粗糙,噪聲影響較大,容易出現(xiàn)誤報(bào)。例如,網(wǎng)絡(luò)中存在一類(lèi)醫(yī)療類(lèi)別的暗鏈植入,這些鏈接的錨文本大多數(shù)為“牛皮癬”等醫(yī)學(xué)術(shù)語(yǔ),對(duì)于正例樣本,醫(yī)療類(lèi)網(wǎng)站應(yīng)該會(huì)包含這類(lèi)詞匯,而對(duì)于負(fù)例樣本,很多已探測(cè)的暗鏈也是醫(yī)療類(lèi)別暗鏈植入,此時(shí)二分類(lèi)的技術(shù)容易造成誤判。此外,這種方法忽略了暗鏈的隱藏特性,很容易將一些明鏈(如“友情鏈接”)判定為暗鏈,造成誤報(bào)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提出一種網(wǎng)頁(yè)暗鏈檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),旨在提高網(wǎng)頁(yè)暗鏈檢測(cè)的準(zhǔn)確率。
為實(shí)現(xiàn)上述目的,本發(fā)明提供一種網(wǎng)頁(yè)暗鏈檢測(cè)方法,所述方法包括如下步驟:
獲取預(yù)設(shè)網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集,所述訓(xùn)練集中的網(wǎng)頁(yè)根據(jù)所述網(wǎng)頁(yè)分類(lèi)模型被劃分為表示不含有暗鏈的正例樣本和表示含有暗鏈的負(fù)例樣本,且所述正例樣本和所述負(fù)例樣本分別被劃分為若干網(wǎng)頁(yè)類(lèi)型;
獲取待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量;
基于鄰近算法從所述訓(xùn)練集中選取若干個(gè)與所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量符合預(yù)設(shè)相似條件的網(wǎng)頁(yè)的文本特征向量,作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量,并根據(jù)所述網(wǎng)頁(yè)分類(lèi)模型確定所述鄰近向量對(duì)應(yīng)的網(wǎng)頁(yè)類(lèi)型,作為所述待檢測(cè)網(wǎng)頁(yè)的候選網(wǎng)頁(yè)類(lèi)型;
分別計(jì)算所述待檢測(cè)網(wǎng)頁(yè)屬于每個(gè)候選網(wǎng)頁(yè)類(lèi)型的概率;
判斷概率最大值對(duì)應(yīng)的候選網(wǎng)頁(yè)類(lèi)型屬于所述正例樣本還是所述負(fù)例樣本,若屬于所述負(fù)例樣本,則判定所述待檢測(cè)網(wǎng)頁(yè)中含有暗鏈。
優(yōu)選地,所述獲取待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量的步驟包括:
獲取待檢測(cè)網(wǎng)頁(yè)的文本特征集和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集,其中,所述待檢測(cè)網(wǎng)頁(yè)的文本特征集和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集包含相同的關(guān)鍵詞;
根據(jù)所述關(guān)鍵詞在所述待檢測(cè)網(wǎng)頁(yè)的文本特征集中的詞頻和權(quán)重進(jìn)行計(jì)算,得到所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量;
根據(jù)所述關(guān)鍵詞在所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集中的詞頻和權(quán)重進(jìn)行計(jì)算,得到所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量。
優(yōu)選地,所述獲取待檢測(cè)網(wǎng)頁(yè)的文本特征集和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集的步驟包括:
獲取所述訓(xùn)練集中的網(wǎng)頁(yè)的文本;
對(duì)獲取到的所述文本進(jìn)行分詞和去停用詞處理;
從處理結(jié)果中提取若干關(guān)鍵詞,得到所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集;
將得到的所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征集。
優(yōu)選地,所述基于鄰近算法從所述訓(xùn)練集中選取若干個(gè)與所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量符合預(yù)設(shè)相似條件的網(wǎng)頁(yè)的文本特征向量,作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量的步驟包括:
根據(jù)獲取到的所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量,計(jì)算所述待檢測(cè)網(wǎng)頁(yè)與所述訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度;
若計(jì)算得到的所述文本相似度大于或等于預(yù)設(shè)閾值,則將對(duì)應(yīng)的所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量。
優(yōu)選地,所述根據(jù)獲取到的所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量,計(jì)算所述待檢測(cè)網(wǎng)頁(yè)與所述訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度的步驟包括:
計(jì)算所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量之間的夾角的余弦值;
將計(jì)算結(jié)果作為所述待檢測(cè)網(wǎng)頁(yè)和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度。
優(yōu)選地,所述分別計(jì)算所述待檢測(cè)網(wǎng)頁(yè)屬于每個(gè)候選網(wǎng)頁(yè)類(lèi)型的概率的步驟包括:
基于所述候選網(wǎng)頁(yè)類(lèi)型將計(jì)算得到的所述文本相似度進(jìn)行劃分;
分別計(jì)算每個(gè)候選網(wǎng)頁(yè)類(lèi)型下的文本相似度的平均值,作為所述待檢測(cè)網(wǎng)頁(yè)屬于對(duì)應(yīng)候選網(wǎng)頁(yè)類(lèi)型的概率。
優(yōu)選地,所述獲取待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量的步驟之前,還包括:
通過(guò)爬蟲(chóng)程序定時(shí)爬取預(yù)設(shè)的待檢測(cè)網(wǎng)頁(yè);
或者,當(dāng)偵測(cè)到網(wǎng)絡(luò)訪(fǎng)問(wèn)請(qǐng)求時(shí),將所述網(wǎng)絡(luò)訪(fǎng)問(wèn)請(qǐng)求的響應(yīng)網(wǎng)頁(yè)作為待檢測(cè)網(wǎng)頁(yè)。
優(yōu)選地,所述方法還包括:
將所述待檢測(cè)網(wǎng)頁(yè)作為負(fù)例樣本保存至所述訓(xùn)練集中。
此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種網(wǎng)頁(yè)暗鏈檢測(cè)裝置,所述裝置包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的網(wǎng)頁(yè)暗鏈檢測(cè)程序,所述網(wǎng)頁(yè)暗鏈檢測(cè)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的網(wǎng)頁(yè)暗鏈檢測(cè)方法的步驟。
此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有網(wǎng)頁(yè)暗鏈檢測(cè)程序,所述網(wǎng)頁(yè)暗鏈檢測(cè)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的網(wǎng)頁(yè)暗鏈檢測(cè)方法的步驟。
本發(fā)明提出的一種網(wǎng)頁(yè)暗鏈檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),通過(guò)建立包含有若干網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)分類(lèi)模型,相對(duì)于現(xiàn)有的二分類(lèi)機(jī)器學(xué)習(xí)技術(shù)提高了訓(xùn)練集中網(wǎng)頁(yè)樣本的分類(lèi)粒度,同時(shí),引入鄰近算法從訓(xùn)練集中確定候選網(wǎng)頁(yè)類(lèi)型,很大程度排除了訓(xùn)練集中的誤差項(xiàng),從而提高了網(wǎng)頁(yè)暗鏈檢測(cè)的準(zhǔn)確率。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例方案涉及的硬件運(yùn)行環(huán)境的終端結(jié)構(gòu)示意圖;
圖2為本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第一實(shí)施例的流程示意圖;
圖3為本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第二實(shí)施例的流程示意圖;
圖4為圖3中步驟s21的細(xì)化步驟示意圖;
圖5為圖3中步驟s40的細(xì)化步驟示意圖。
本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說(shuō)明。
具體實(shí)施方式
應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明實(shí)施例的主要解決方案是:獲取預(yù)設(shè)網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集,所述訓(xùn)練集中的網(wǎng)頁(yè)根據(jù)所述網(wǎng)頁(yè)分類(lèi)模型被劃分為表示不含有暗鏈的正例樣本和表示含有暗鏈的負(fù)例樣本,且所述正例樣本和所述負(fù)例樣本分別被劃分為若干網(wǎng)頁(yè)類(lèi)型;獲取待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量;基于鄰近算法從所述訓(xùn)練集中選取若干個(gè)與所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量符合預(yù)設(shè)相似條件的網(wǎng)頁(yè)的文本特征向量,作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量,并根據(jù)所述網(wǎng)頁(yè)分類(lèi)模型確定所述鄰近向量對(duì)應(yīng)的網(wǎng)頁(yè)類(lèi)型,作為所述待檢測(cè)網(wǎng)頁(yè)的候選網(wǎng)頁(yè)類(lèi)型;分別計(jì)算所述待檢測(cè)網(wǎng)頁(yè)屬于每個(gè)候選網(wǎng)頁(yè)類(lèi)型的概率;判斷概率最大值對(duì)應(yīng)的候選網(wǎng)頁(yè)類(lèi)型屬于所述正例樣本還是所述負(fù)例樣本,若屬于所述負(fù)例樣本,則判定所述待檢測(cè)網(wǎng)頁(yè)中含有暗鏈。
本發(fā)明通過(guò)建立包含有若干網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)分類(lèi)模型,相對(duì)于現(xiàn)有的二分類(lèi)機(jī)器學(xué)習(xí)技術(shù)提高了訓(xùn)練集中網(wǎng)頁(yè)樣本的分類(lèi)粒度,同時(shí),引入鄰近算法從訓(xùn)練集中確定候選網(wǎng)頁(yè)類(lèi)型,很大程度排除了訓(xùn)練集中的誤差項(xiàng),從而提高了網(wǎng)頁(yè)暗鏈檢測(cè)的準(zhǔn)確率。
本發(fā)明提供一種網(wǎng)頁(yè)暗鏈檢測(cè)方法。
如圖1所示,圖1是本發(fā)明實(shí)施例方案涉及的硬件運(yùn)行環(huán)境的終端結(jié)構(gòu)示意圖。
本發(fā)明實(shí)施例終端可以是pc,也可以是智能手機(jī)、平板電腦、便攜計(jì)算機(jī)等具有顯示功能的終端設(shè)備。
如圖1所示,該終端可以包括:處理器1001,例如cpu,網(wǎng)絡(luò)接口1004,用戶(hù)接口1003,存儲(chǔ)器1005,通信總線(xiàn)1002。其中,通信總線(xiàn)1002用于實(shí)現(xiàn)這些組件之間的連接通信。用戶(hù)接口1003可以包括顯示屏(display)、輸入單元比如鍵盤(pán)(keyboard),可選用戶(hù)接口1003還可以包括標(biāo)準(zhǔn)的有線(xiàn)接口、無(wú)線(xiàn)接口。網(wǎng)絡(luò)接口1004可選的可以包括標(biāo)準(zhǔn)的有線(xiàn)接口、無(wú)線(xiàn)接口(如wi-fi接口)。存儲(chǔ)器1005可以是高速ram存儲(chǔ)器,也可以是穩(wěn)定的存儲(chǔ)器(non-volatilememory),例如磁盤(pán)存儲(chǔ)器。存儲(chǔ)器1005可選的還可以是獨(dú)立于前述處理器1001的存儲(chǔ)裝置。
優(yōu)選地,終端還可以包括攝像頭、rf(radiofrequency,射頻)電路,傳感器、音頻電路、wifi模塊等等。其中,傳感器比如光傳感器、運(yùn)動(dòng)傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線(xiàn)的明暗來(lái)調(diào)節(jié)顯示屏的亮度,接近傳感器可在移動(dòng)終端移動(dòng)到耳邊時(shí),關(guān)閉顯示屏和/或背光。作為運(yùn)動(dòng)傳感器的一種,重力加速度傳感器可檢測(cè)各個(gè)方向上(一般為三軸)加速度的大小,靜止時(shí)可檢測(cè)出重力的大小及方向,可用于識(shí)別移動(dòng)終端姿態(tài)的應(yīng)用(比如橫豎屏切換、相關(guān)游戲、磁力計(jì)姿態(tài)校準(zhǔn))、振動(dòng)識(shí)別相關(guān)功能(比如計(jì)步器、敲擊)等;當(dāng)然,移動(dòng)終端還可配置陀螺儀、氣壓計(jì)、濕度計(jì)、溫度計(jì)、紅外線(xiàn)傳感器等其他傳感器,在此不再贅述。
本領(lǐng)域技術(shù)人員可以理解,圖1中示出的終端結(jié)構(gòu)并不構(gòu)成對(duì)終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
如圖1所示,作為一種計(jì)算機(jī)存儲(chǔ)介質(zhì)的存儲(chǔ)器1005中可以包括操作系統(tǒng)、網(wǎng)絡(luò)通信模塊、用戶(hù)接口模塊以及網(wǎng)頁(yè)暗鏈檢測(cè)程序。
在圖1所示的終端中,網(wǎng)絡(luò)接口1004主要用于連接后臺(tái)服務(wù)器,與后臺(tái)服務(wù)器進(jìn)行數(shù)據(jù)通信;用戶(hù)接口1003主要用于連接客戶(hù)端(用戶(hù)端),與客戶(hù)端進(jìn)行數(shù)據(jù)通信;而處理器1001可以用于調(diào)用存儲(chǔ)器1005中存儲(chǔ)的網(wǎng)頁(yè)暗鏈檢測(cè)程序,并執(zhí)行以下操作:
獲取預(yù)設(shè)網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集,所述訓(xùn)練集中的網(wǎng)頁(yè)根據(jù)所述網(wǎng)頁(yè)分類(lèi)模型被劃分為表示不含有暗鏈的正例樣本和表示含有暗鏈的負(fù)例樣本,且所述正例樣本和所述負(fù)例樣本分別被劃分為若干網(wǎng)頁(yè)類(lèi)型;
獲取待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量;
基于鄰近算法從所述訓(xùn)練集中選取若干個(gè)與所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量符合預(yù)設(shè)相似條件的網(wǎng)頁(yè)的文本特征向量,作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量,并根據(jù)所述網(wǎng)頁(yè)分類(lèi)模型確定所述鄰近向量對(duì)應(yīng)的網(wǎng)頁(yè)類(lèi)型,作為所述待檢測(cè)網(wǎng)頁(yè)的候選網(wǎng)頁(yè)類(lèi)型;
分別計(jì)算所述待檢測(cè)網(wǎng)頁(yè)屬于每個(gè)候選網(wǎng)頁(yè)類(lèi)型的概率;
判斷概率最大值對(duì)應(yīng)的候選網(wǎng)頁(yè)類(lèi)型屬于所述正例樣本還是所述負(fù)例樣本,若屬于所述負(fù)例樣本,則判定所述待檢測(cè)網(wǎng)頁(yè)中含有暗鏈。
進(jìn)一步地,處理器1001可以調(diào)用存儲(chǔ)器1005中存儲(chǔ)的網(wǎng)頁(yè)暗鏈檢測(cè)程序,還執(zhí)行以下操作:
獲取待檢測(cè)網(wǎng)頁(yè)的文本特征集和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集,其中,所述待檢測(cè)網(wǎng)頁(yè)的文本特征集和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集包含相同的關(guān)鍵詞;
根據(jù)所述關(guān)鍵詞在所述待檢測(cè)網(wǎng)頁(yè)的文本特征集中的詞頻和權(quán)重進(jìn)行計(jì)算,得到所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量;
根據(jù)所述關(guān)鍵詞在所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集中的詞頻和權(quán)重進(jìn)行計(jì)算,得到所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量。
進(jìn)一步地,處理器1001可以調(diào)用存儲(chǔ)器1005中存儲(chǔ)的網(wǎng)頁(yè)暗鏈檢測(cè)程序,還執(zhí)行以下操作:
獲取所述訓(xùn)練集中的網(wǎng)頁(yè)的文本;
對(duì)獲取到的所述文本進(jìn)行分詞和去停用詞處理;
從處理結(jié)果中提取若干關(guān)鍵詞,得到所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集;
將得到的所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征集。
進(jìn)一步地,處理器1001可以調(diào)用存儲(chǔ)器1005中存儲(chǔ)的網(wǎng)頁(yè)暗鏈檢測(cè)程序,還執(zhí)行以下操作:
根據(jù)獲取到的所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量,計(jì)算所述待檢測(cè)網(wǎng)頁(yè)與所述訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度;
若計(jì)算得到的所述文本相似度大于或等于預(yù)設(shè)閾值,則將對(duì)應(yīng)的所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量。
進(jìn)一步地,處理器1001可以調(diào)用存儲(chǔ)器1005中存儲(chǔ)的網(wǎng)頁(yè)暗鏈檢測(cè)程序,還執(zhí)行以下操作:
計(jì)算所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量之間的夾角的余弦值;
將計(jì)算結(jié)果作為所述待檢測(cè)網(wǎng)頁(yè)和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度。
進(jìn)一步地,處理器1001可以調(diào)用存儲(chǔ)器1005中存儲(chǔ)的網(wǎng)頁(yè)暗鏈檢測(cè)程序,還執(zhí)行以下操作:
基于所述候選網(wǎng)頁(yè)類(lèi)型將計(jì)算得到的所述文本相似度進(jìn)行劃分;
分別計(jì)算每個(gè)候選網(wǎng)頁(yè)類(lèi)型下的文本相似度的平均值,作為所述待檢測(cè)網(wǎng)頁(yè)屬于對(duì)應(yīng)候選網(wǎng)頁(yè)類(lèi)型的概率。
進(jìn)一步地,處理器1001可以調(diào)用存儲(chǔ)器1005中存儲(chǔ)的網(wǎng)頁(yè)暗鏈檢測(cè)程序,還執(zhí)行以下操作:
通過(guò)爬蟲(chóng)程序定時(shí)爬取預(yù)設(shè)的待檢測(cè)網(wǎng)頁(yè);
或者,當(dāng)偵測(cè)到網(wǎng)絡(luò)訪(fǎng)問(wèn)請(qǐng)求時(shí),將所述網(wǎng)絡(luò)訪(fǎng)問(wèn)請(qǐng)求的響應(yīng)網(wǎng)頁(yè)作為待檢測(cè)網(wǎng)頁(yè)。
進(jìn)一步地,處理器1001可以調(diào)用存儲(chǔ)器1005中存儲(chǔ)的網(wǎng)頁(yè)暗鏈檢測(cè)程序,還執(zhí)行以下操作:
將所述待檢測(cè)網(wǎng)頁(yè)作為負(fù)例樣本保存至所述訓(xùn)練集中。
基于上述硬件結(jié)構(gòu),提出本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法實(shí)施例。
參照?qǐng)D2,圖2為本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第一實(shí)施例的流程示意圖,所述方法包括:
步驟s10,獲取預(yù)設(shè)網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集,所述訓(xùn)練集中的網(wǎng)頁(yè)根據(jù)所述網(wǎng)頁(yè)分類(lèi)模型被劃分為表示不含有暗鏈的正例樣本和表示含有暗鏈的負(fù)例樣本,且所述正例樣本和所述負(fù)例樣本分別被劃分為若干網(wǎng)頁(yè)類(lèi)型;
在本實(shí)施例中,可由設(shè)置在web瀏覽器和web服務(wù)器之間的應(yīng)用防火墻進(jìn)行網(wǎng)頁(yè)暗鏈檢測(cè)。
為保證本發(fā)明正常實(shí)施,需預(yù)先設(shè)置一個(gè)網(wǎng)頁(yè)分類(lèi)模型以對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)進(jìn)行類(lèi)別劃分,在該模型下,互聯(lián)網(wǎng)網(wǎng)頁(yè)被劃分為含有暗鏈的網(wǎng)頁(yè)和不含有暗鏈的網(wǎng)頁(yè)兩大類(lèi),在這兩大類(lèi)下互聯(lián)網(wǎng)網(wǎng)頁(yè)又被劃分為若干不同的網(wǎng)頁(yè)類(lèi)型。比如,含有暗鏈的網(wǎng)頁(yè)類(lèi)型包括網(wǎng)游外掛、醫(yī)療廣告、色情賭博、辦證培訓(xùn)、商業(yè)廣告等,不含有暗鏈的網(wǎng)頁(yè)類(lèi)型包括正常的游戲咨詢(xún)網(wǎng)頁(yè)、醫(yī)療機(jī)構(gòu)網(wǎng)頁(yè)、高校主頁(yè)、購(gòu)物網(wǎng)頁(yè)、新聞咨詢(xún)網(wǎng)頁(yè)等,其中,劃分的具體網(wǎng)頁(yè)類(lèi)型和劃分粒度可根據(jù)實(shí)際需要進(jìn)行靈活設(shè)置。
在進(jìn)行網(wǎng)頁(yè)暗鏈檢測(cè)時(shí),首先,獲取網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集,即根據(jù)網(wǎng)頁(yè)分類(lèi)模型獲取若干網(wǎng)頁(yè)樣本作為網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集??梢岳斫獾氖?,上述網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集中的網(wǎng)頁(yè)可以劃分為正例樣本和負(fù)例樣本,其中,正例樣本表示不含有暗鏈的網(wǎng)頁(yè)樣本,負(fù)例樣本表示含有暗鏈的網(wǎng)頁(yè)樣本,且正例樣本和負(fù)例樣本又分別可以劃分為若干網(wǎng)頁(yè)類(lèi)型。
步驟s20,獲取待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量;
該步驟中,應(yīng)用防火墻獲取待檢測(cè)網(wǎng)頁(yè)的文本特征向量和訓(xùn)練集中的每個(gè)網(wǎng)頁(yè)的文本特征向量,從而建立向量空間模型。
向量空間模型中存在多個(gè)文本特征向量,其中,文本(document,用d表示)泛指各種機(jī)器可讀的記錄,特征項(xiàng)(term,用t表示)是指出現(xiàn)在文本d中且能夠代表該文本內(nèi)容的基本語(yǔ)言單位,主要是由詞或者短語(yǔ)構(gòu)成。文本可以用特征項(xiàng)集表示為d(t1,t2,…,tn),其中tk是特征項(xiàng),1<=k<=n,例如一篇文檔中有a、b、c、d四個(gè)特征項(xiàng),那么這篇文檔就可以以特征向量d(a,b,c,d)進(jìn)行表示。
對(duì)于一個(gè)網(wǎng)頁(yè),其初始文本可以是該網(wǎng)頁(yè)的網(wǎng)頁(yè)源碼數(shù)據(jù),通過(guò)對(duì)網(wǎng)頁(yè)源碼數(shù)據(jù)進(jìn)行預(yù)處理和特征提取,再將特征進(jìn)行向量化,即可得到該網(wǎng)頁(yè)的文本特征向量。
步驟s30,基于鄰近算法從所述訓(xùn)練集中選取若干個(gè)與所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量符合預(yù)設(shè)相似條件的網(wǎng)頁(yè)的文本特征向量,作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量,并根據(jù)所述網(wǎng)頁(yè)分類(lèi)模型確定所述鄰近向量對(duì)應(yīng)的網(wǎng)頁(yè)類(lèi)型,作為所述待檢測(cè)網(wǎng)頁(yè)的候選網(wǎng)頁(yè)類(lèi)型;
該步驟中,鄰近算法又稱(chēng)k-nn(k-nearestneighbor)算法或k-鄰近算法,k-nn算法的核心思想是:如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別,并具有這個(gè)類(lèi)別中樣本的特性。根據(jù)這個(gè)思想,利用k-nn算法可以從訓(xùn)練集中選取若干個(gè)與待檢測(cè)網(wǎng)頁(yè)的文本特征向量相似的網(wǎng)頁(yè)的文本特征向量,作為該待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量,然后根據(jù)預(yù)先設(shè)置的網(wǎng)頁(yè)分類(lèi)模型可以確定鄰近向量的對(duì)應(yīng)的網(wǎng)頁(yè)類(lèi)型,該網(wǎng)頁(yè)類(lèi)型可以作為待檢測(cè)網(wǎng)頁(yè)的候選網(wǎng)頁(yè)類(lèi)型。
比如,預(yù)先設(shè)置的網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集中收錄的樣本包括網(wǎng)游外掛c1、商業(yè)廣告c2兩類(lèi)負(fù)例樣本和游戲資訊網(wǎng)頁(yè)c3、新聞資訊網(wǎng)頁(yè)c4兩類(lèi)正例樣本,針對(duì)一個(gè)待檢測(cè)網(wǎng)頁(yè)的文本特征向量,通過(guò)k-nn算法從訓(xùn)練集中找到了k個(gè)與之鄰近的向量,然后按照預(yù)先設(shè)置的網(wǎng)頁(yè)分類(lèi)模型,可以確定這k個(gè)鄰近向量對(duì)應(yīng)的網(wǎng)頁(yè)屬于c1、c2或c3類(lèi),則此時(shí)應(yīng)將c1、c2和c3類(lèi)作為該待檢測(cè)網(wǎng)頁(yè)的候選網(wǎng)頁(yè)類(lèi)型,而c4類(lèi)則作為噪聲排除,對(duì)應(yīng)地,此時(shí)待檢測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)類(lèi)型可能為網(wǎng)游外掛、商業(yè)廣告或游戲資訊網(wǎng)頁(yè)。
步驟s40,分別計(jì)算所述待檢測(cè)網(wǎng)頁(yè)屬于每個(gè)候選網(wǎng)頁(yè)類(lèi)型的概率;
在得到待檢測(cè)網(wǎng)頁(yè)的候選網(wǎng)頁(yè)類(lèi)型后,再分別計(jì)算待檢測(cè)網(wǎng)頁(yè)屬于每個(gè)候選網(wǎng)頁(yè)類(lèi)型的概率。
作為一種實(shí)施方式,可以根據(jù)屬于某一類(lèi)的鄰近向量的數(shù)量得到待檢測(cè)網(wǎng)頁(yè)屬于該類(lèi)的概率。具體地,可以統(tǒng)計(jì)上述k個(gè)鄰近向量分別屬于c1、c2和c3類(lèi)的數(shù)量,比如,在k個(gè)鄰近向量中,若有k1個(gè)屬于c1類(lèi),k2個(gè)屬于c2類(lèi),k3個(gè)屬于c3類(lèi),且k1>k2>k3,則可以判定待檢測(cè)網(wǎng)頁(yè)屬于c1類(lèi)的概率最大。
步驟s50,判斷概率最大值對(duì)應(yīng)的候選網(wǎng)頁(yè)類(lèi)型屬于所述正例樣本還是所述負(fù)例樣本,若屬于所述負(fù)例樣本,則判定所述待檢測(cè)網(wǎng)頁(yè)中含有暗鏈。
在進(jìn)行上述概率計(jì)算后,取概率最大值對(duì)應(yīng)的候選網(wǎng)頁(yè)類(lèi)型作為待檢測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)類(lèi)型,然后判斷該網(wǎng)頁(yè)類(lèi)型屬于正例樣本還是負(fù)例樣本,若屬于負(fù)例樣本,則判定待檢測(cè)網(wǎng)頁(yè)中含有暗鏈,若屬于正例樣本,則判定待檢測(cè)網(wǎng)頁(yè)中不含有暗鏈。比如,上述待檢測(cè)網(wǎng)頁(yè)屬于c1類(lèi)的概率最大,而c1類(lèi)為網(wǎng)游外掛類(lèi)網(wǎng)頁(yè),屬于含有暗鏈的負(fù)例樣本,此時(shí)可以判定待檢測(cè)網(wǎng)頁(yè)中也含有暗鏈,由此實(shí)現(xiàn)了對(duì)待檢測(cè)網(wǎng)頁(yè)暗鏈的檢測(cè)。
需要說(shuō)明的是,為使網(wǎng)頁(yè)的最終判定結(jié)果更加準(zhǔn)確,減少誤報(bào)、漏報(bào)的情況發(fā)生,本實(shí)施例還可以結(jié)合現(xiàn)有的修正技術(shù)(如結(jié)合黑白名單特征庫(kù))對(duì)上述已經(jīng)進(jìn)行判定的網(wǎng)頁(yè)進(jìn)行進(jìn)一步檢測(cè)判定,具體實(shí)施例時(shí)可進(jìn)行靈活設(shè)置。
本實(shí)施例提出的一種網(wǎng)頁(yè)暗鏈檢測(cè)方法,通過(guò)建立包含有若干網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)分類(lèi)模型,相對(duì)于現(xiàn)有的二分類(lèi)機(jī)器學(xué)習(xí)技術(shù)提高了訓(xùn)練集中網(wǎng)頁(yè)樣本的分類(lèi)粒度,同時(shí),引入鄰近算法從訓(xùn)練集中確定候選網(wǎng)頁(yè)類(lèi)型,很大程度排除了訓(xùn)練集中的誤差項(xiàng),從而提高了網(wǎng)頁(yè)暗鏈檢測(cè)的準(zhǔn)確率。
進(jìn)一步地,參照?qǐng)D3,圖3為本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第二實(shí)施例的流程示意圖?;谏鲜鰣D2所示的實(shí)施例,步驟s20可以包括:
步驟s21,獲取待檢測(cè)網(wǎng)頁(yè)的文本特征集和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集,其中,所述待檢測(cè)網(wǎng)頁(yè)的文本特征集和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集包含相同的關(guān)鍵詞;
步驟s22,根據(jù)所述關(guān)鍵詞在所述待檢測(cè)網(wǎng)頁(yè)的文本特征集中的詞頻和權(quán)重進(jìn)行計(jì)算,得到所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量;
步驟s23,根據(jù)所述關(guān)鍵詞在所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集中的詞頻和權(quán)重進(jìn)行計(jì)算,得到所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量。
在本實(shí)施例中,以文本特征向量中的特征項(xiàng)為關(guān)鍵詞進(jìn)行說(shuō)明。首先,獲取待檢測(cè)網(wǎng)頁(yè)的文本特征集和訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集,為保證這兩個(gè)文本特征集具有可比性,這兩個(gè)文本特征集包含相同的關(guān)鍵詞。比如,獲取訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集為d(t1,t2,…,tm),則獲取待檢測(cè)網(wǎng)頁(yè)的文本特征集也應(yīng)該為d(t1,t2,…,tm),其中t1,t2,…,tm為特征項(xiàng),即關(guān)鍵詞,m為關(guān)鍵詞的數(shù)量。
在獲取到關(guān)鍵詞后,再根據(jù)關(guān)鍵詞的詞頻和權(quán)重分別進(jìn)行計(jì)算,得到待檢測(cè)網(wǎng)頁(yè)的文本特征向量和訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量。作為一種實(shí)施方式,可通過(guò)tf-idf(termfrequency–inversedocumentfrequency,詞頻--逆向文本頻率)技術(shù)計(jì)算得到文本特征向量,其原理為:詞頻計(jì)算參照tf公式tf=n/m,即在在一篇m個(gè)詞的文章中有n個(gè)該關(guān)鍵詞,則tf=n/m為該關(guān)鍵詞在這篇文章中的詞頻;逆向文本頻率是用于衡量關(guān)鍵詞權(quán)重的指數(shù),可由公式idf=log(d/dw)計(jì)算而得,其中d為語(yǔ)料庫(kù)的文檔總數(shù),dw為關(guān)鍵詞出現(xiàn)過(guò)的文檔數(shù),dw越大,說(shuō)明該關(guān)鍵詞在越多的文檔中出現(xiàn)過(guò),該關(guān)鍵詞就越不足以成為本文檔的區(qū)別特征項(xiàng),因而其權(quán)重越小。計(jì)算基于idf的加權(quán)詞頻,即用關(guān)鍵詞tx的詞頻乘以tx的逆向文本頻率(wx=tf(tx)*idf(tx)),即可得到文本特征集d(t1,t2,…,tm)對(duì)應(yīng)的文本特征向量d(w1,w2,…,wm)。
根據(jù)上述原理計(jì)算待檢測(cè)網(wǎng)頁(yè)的文本特征向量的過(guò)程為:獲取待檢測(cè)網(wǎng)頁(yè)的文本dk,根據(jù)關(guān)鍵詞在dk中出現(xiàn)的次數(shù)和dk中詞語(yǔ)總數(shù)計(jì)算各個(gè)關(guān)鍵詞在dk中的詞頻,再將計(jì)算得到的詞頻基于idf進(jìn)行加權(quán),最終得到待檢測(cè)網(wǎng)頁(yè)的文本特征向量dk(wk1,wk2,…,wkm)。同理,可以計(jì)算得到訓(xùn)練集中的每個(gè)網(wǎng)頁(yè)的文本特征向量。
進(jìn)一步地,參照?qǐng)D4,圖4為圖3中步驟s21的細(xì)化步驟示意圖,所述步驟s21可以包括:
步驟s211,獲取所述訓(xùn)練集中的網(wǎng)頁(yè)的文本;
步驟s212,對(duì)獲取到的所述文本進(jìn)行分詞和去停用詞處理;
步驟s213,從處理結(jié)果中提取若干關(guān)鍵詞,得到所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集;
步驟s214,將得到的所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征集作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征集。
以訓(xùn)練集中的一個(gè)網(wǎng)頁(yè)為例,獲取該網(wǎng)頁(yè)的文本特征集的方式可以為:首先,獲取該網(wǎng)頁(yè)的文本,該文本可以是網(wǎng)頁(yè)源碼數(shù)據(jù),然后,對(duì)獲取到的文本進(jìn)行分詞和去停用詞處理,分詞是將一個(gè)文字序列切分成一個(gè)一個(gè)單獨(dú)的詞,去停用詞是按照停用詞表中的詞語(yǔ)將語(yǔ)料中對(duì)文本內(nèi)容識(shí)別意義不大但出現(xiàn)頻率很高的詞、符號(hào)、標(biāo)點(diǎn)及亂碼等去掉,如“的,和,要,是,這”等詞幾乎出現(xiàn)在任何一篇中文文本中,但是它們對(duì)文本所表達(dá)的意思幾乎沒(méi)有任何貢獻(xiàn),將這些詞設(shè)置在停用詞表中,就可以根據(jù)停用詞表將文本中這些沒(méi)有實(shí)際意義的詞去掉。由此,得到了該網(wǎng)頁(yè)文本的預(yù)處理結(jié)果。
之后,可以計(jì)算預(yù)處理結(jié)果中的詞語(yǔ)的詞頻,若某詞語(yǔ)的詞頻達(dá)到一預(yù)設(shè)值,則將該詞語(yǔ)作為文本關(guān)鍵詞,由此提取文本的所有關(guān)鍵詞,進(jìn)而得到網(wǎng)頁(yè)的文本特征集d(t1,t2,…,tm),該文本特征集同時(shí)作為待檢測(cè)網(wǎng)頁(yè)的文本特征集。
進(jìn)一步地,基于上述圖3所示的本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第二實(shí)施例,提出本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第三實(shí)施例。
在本實(shí)施例中,所述基于鄰近算法從所述訓(xùn)練集中選取若干個(gè)與所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量符合預(yù)設(shè)相似條件的網(wǎng)頁(yè)的文本特征向量,作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量的步驟可以包括:
步驟s31,根據(jù)獲取到的所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量,計(jì)算所述待檢測(cè)網(wǎng)頁(yè)與所述訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度;
步驟s32,若計(jì)算得到的所述文本相似度大于或等于預(yù)設(shè)閾值,則將對(duì)應(yīng)的所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量作為所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量。
本實(shí)施例通過(guò)k-nn算法計(jì)算待檢測(cè)網(wǎng)頁(yè)與訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度,進(jìn)而確定待檢測(cè)網(wǎng)頁(yè)的文本特征向量的鄰近向量。作為一種實(shí)施方式,上述步驟s31可以包括:
步驟s311,計(jì)算所述待檢測(cè)網(wǎng)頁(yè)的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量之間的夾角的余弦值;
步驟s312,將計(jì)算結(jié)果作為所述待檢測(cè)網(wǎng)頁(yè)和所述訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度。
設(shè)訓(xùn)練集中某一網(wǎng)頁(yè)的文本特征向量為d0(w01,w02,…,w0m),待檢測(cè)網(wǎng)頁(yè)的文本特征向量為dk(wk1,wk2,…,wkm),則待檢測(cè)網(wǎng)頁(yè)和訓(xùn)練集中的該網(wǎng)頁(yè)的文本相似度的計(jì)算公式為:
其中,x表示待檢測(cè)網(wǎng)頁(yè)樣本,xi表示訓(xùn)練集中的第i個(gè)網(wǎng)頁(yè)樣本,θ表示向量dk和d0的夾角。
將上述余弦值作為待檢測(cè)網(wǎng)頁(yè)和訓(xùn)練集中的第i個(gè)網(wǎng)頁(yè)的文本相似度值,該值越大,則θ越小,表示待檢測(cè)網(wǎng)頁(yè)與訓(xùn)練集中的第i個(gè)網(wǎng)頁(yè)的文本相似度越高;該值越小,則θ越大,表示待檢測(cè)網(wǎng)頁(yè)與訓(xùn)練集中的第i個(gè)網(wǎng)頁(yè)的文本相似度越低。由此可以計(jì)算待檢測(cè)網(wǎng)頁(yè)與訓(xùn)練集中的每個(gè)網(wǎng)頁(yè)的文本相似度。
本實(shí)施例通過(guò)計(jì)算待檢測(cè)網(wǎng)頁(yè)的文本特征向量與訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量之間的夾角的余弦值,能夠?qū)崿F(xiàn)定量分析待檢測(cè)網(wǎng)頁(yè)和訓(xùn)練集中的網(wǎng)頁(yè)的文本相似度,分析方式較為合理可靠。當(dāng)然,計(jì)算文本相似度并不限于上述算法,比如,還可以計(jì)算向量待檢測(cè)網(wǎng)頁(yè)的文本特征向量與訓(xùn)練集中的網(wǎng)頁(yè)的文本特征向量之間的歐式距離作為文本相似度的衡量標(biāo)準(zhǔn)等,具體實(shí)施時(shí)可進(jìn)行靈活設(shè)置。
進(jìn)一步地,基于本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第三實(shí)施例,提出本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第四實(shí)施例。
參照?qǐng)D5,圖5為圖3中步驟s40的細(xì)化步驟示意圖。基于本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法第三實(shí)施例,步驟s40可以包括:
步驟s41,基于所述候選網(wǎng)頁(yè)類(lèi)型將計(jì)算得到的所述文本相似度進(jìn)行劃分;
步驟s42,分別計(jì)算每個(gè)候選網(wǎng)頁(yè)類(lèi)型下的文本相似度的平均值,作為所述待檢測(cè)網(wǎng)頁(yè)屬于對(duì)應(yīng)候選網(wǎng)頁(yè)類(lèi)型的概率。
在本實(shí)施例中,在計(jì)算所述待檢測(cè)網(wǎng)頁(yè)屬于每個(gè)候選網(wǎng)頁(yè)類(lèi)型的概率時(shí),首先基于預(yù)設(shè)候選網(wǎng)頁(yè)類(lèi)型將之前計(jì)算得到的若干個(gè)文本相似度進(jìn)行劃分,然后分別計(jì)算每個(gè)候選網(wǎng)頁(yè)類(lèi)型下的文本相似度的平均值,作為待檢測(cè)網(wǎng)頁(yè)屬于對(duì)應(yīng)候選網(wǎng)頁(yè)類(lèi)型的概率。具體地,計(jì)算待檢測(cè)網(wǎng)頁(yè)屬于某一候選網(wǎng)頁(yè)類(lèi)型ci的概率可參照如下公式:
其中,x表示待檢測(cè)網(wǎng)頁(yè)樣本,xi表示訓(xùn)練集中的第i個(gè)網(wǎng)頁(yè)樣本,ci表示knn模型中的第i個(gè)候選類(lèi),sim(x,xi)表示樣本x和xi的相似度,xi∈knn表示樣本xi屬于knn模型中的某一候選類(lèi),y(xi,ci)為類(lèi)別歸屬函數(shù),取值范圍為0或1(當(dāng)xi屬于ci時(shí)取1,當(dāng)xi不屬于ci時(shí)取0),ki表示訓(xùn)練集中屬于ci類(lèi)別的樣本個(gè)數(shù)。
比如,在k個(gè)鄰近向量中有k1個(gè)向量屬于c1類(lèi),則將之前計(jì)算得到的k1個(gè)文本相似度取平均值,即得到待檢測(cè)網(wǎng)頁(yè)屬于c1類(lèi)的概率。
進(jìn)一步地,基于上述圖2所示的實(shí)施例,在步驟s10之前,還可以包括:
步驟s60,通過(guò)爬蟲(chóng)程序定時(shí)爬取預(yù)設(shè)的待檢測(cè)網(wǎng)頁(yè);
或者步驟s70,當(dāng)偵測(cè)到網(wǎng)絡(luò)訪(fǎng)問(wèn)請(qǐng)求時(shí),將所述網(wǎng)絡(luò)訪(fǎng)問(wèn)請(qǐng)求的響應(yīng)網(wǎng)頁(yè)作為待檢測(cè)網(wǎng)頁(yè)。
獲取待檢測(cè)網(wǎng)頁(yè)的方式包括主動(dòng)獲取和被動(dòng)獲取。主動(dòng)獲取即通過(guò)爬蟲(chóng)程序定時(shí)爬取預(yù)設(shè)網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)內(nèi)容,其中,爬蟲(chóng)程序的抓取目標(biāo)可以為與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),也可以根據(jù)需要擴(kuò)大抓取范圍,具體實(shí)施中可由網(wǎng)絡(luò)管理人員預(yù)先進(jìn)行設(shè)置;被動(dòng)獲取即在偵測(cè)到網(wǎng)絡(luò)訪(fǎng)問(wèn)請(qǐng)求時(shí),將該網(wǎng)絡(luò)訪(fǎng)問(wèn)請(qǐng)求的響應(yīng)網(wǎng)頁(yè)作為待檢測(cè)網(wǎng)頁(yè),這樣,當(dāng)用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的流量通過(guò)應(yīng)用防火墻時(shí),就可以實(shí)時(shí)檢測(cè)出用戶(hù)當(dāng)前訪(fǎng)問(wèn)的網(wǎng)頁(yè)是否存在暗鏈。
主動(dòng)獲取無(wú)需人工干預(yù),且可以進(jìn)行遠(yuǎn)程的大規(guī)模檢測(cè),而被動(dòng)獲取則實(shí)現(xiàn)了網(wǎng)頁(yè)暗鏈檢測(cè)的實(shí)時(shí)性。
進(jìn)一步地,在步驟s50之后,還可以包括:
步驟s80,將所述待檢測(cè)網(wǎng)頁(yè)作為負(fù)例樣本保存至所述訓(xùn)練集中。
若待檢測(cè)網(wǎng)頁(yè)被判定為含有暗鏈,則可將該待檢測(cè)網(wǎng)頁(yè)進(jìn)行標(biāo)記,并作為負(fù)例樣本保存至網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集中,若待檢測(cè)網(wǎng)頁(yè)被判定為不含有暗鏈若訓(xùn)練集中的樣本,則可將待檢測(cè)網(wǎng)頁(yè)作為正例樣本保存至網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集中,如此將使得網(wǎng)頁(yè)分類(lèi)模型的訓(xùn)練集更為優(yōu)化,為后續(xù)檢測(cè)網(wǎng)頁(yè)暗鏈的準(zhǔn)確性提供了保證。
本發(fā)明還提供一種網(wǎng)頁(yè)暗鏈檢測(cè)裝置。
本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)裝置包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的網(wǎng)頁(yè)暗鏈檢測(cè)程序,所述網(wǎng)頁(yè)暗鏈檢測(cè)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的網(wǎng)頁(yè)暗鏈檢測(cè)方法的步驟。
其中,在所述處理器上運(yùn)行的網(wǎng)頁(yè)暗鏈檢測(cè)程序被執(zhí)行時(shí)所實(shí)現(xiàn)的方法可參照本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法各個(gè)實(shí)施例,此處不再贅述。
本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
本發(fā)明計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有網(wǎng)頁(yè)暗鏈檢測(cè)程序,所述網(wǎng)頁(yè)暗鏈檢測(cè)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的網(wǎng)頁(yè)暗鏈檢測(cè)方法的步驟。
其中,在所述處理器上運(yùn)行的網(wǎng)頁(yè)暗鏈檢測(cè)程序被執(zhí)行時(shí)所實(shí)現(xiàn)的方法可參照本發(fā)明網(wǎng)頁(yè)暗鏈檢測(cè)方法各個(gè)實(shí)施例,此處不再贅述。
需要說(shuō)明的是,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者系統(tǒng)不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者系統(tǒng)所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過(guò)程、方法、物品或者系統(tǒng)中還存在另外的相同要素。
上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在如上所述的一個(gè)存儲(chǔ)介質(zhì)(如rom/ram、磁碟、光盤(pán))中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專(zhuān)利范圍,凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專(zhuān)利保護(hù)范圍內(nèi)。