基于頁(yè)面特征和url特征的釣魚(yú)app檢測(cè)方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種基于頁(yè)面特征和URL特征的釣魚(yú)APP檢測(cè)方法及系統(tǒng),所述方法包括:S1、對(duì)所要檢測(cè)的APP進(jìn)行反編譯,得到XML文本、XML圖像和smali文件;S2、對(duì)XML文本進(jìn)行XML文本特征提取,采用源代碼檢測(cè)器對(duì)XML文本特征進(jìn)行分類檢測(cè);S3、對(duì)XML圖像進(jìn)行XML圖像特征提取,采用頁(yè)面檢測(cè)器對(duì)XML圖像特征進(jìn)行分類檢測(cè);S4、對(duì)所有的smali文件進(jìn)行掃描,提取smali文件中的URL,然后采用URL檢測(cè)器對(duì)URL進(jìn)行檢測(cè)。本發(fā)明不需要大量的釣魚(yú)APP數(shù)據(jù)進(jìn)行匹配,不要求APP的安裝,不需要手機(jī)用戶觸發(fā)事件,對(duì)用戶完全沒(méi)有任何要求,已經(jīng)將釣魚(yú)APP危害扼殺在搖籃之中。
【專利說(shuō)明】基于頁(yè)面特征和URL特征的釣魚(yú)APP檢測(cè)方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)軟件安全【技術(shù)領(lǐng)域】,尤其設(shè)及一種基于頁(yè)面特征和U化特征的 釣魚(yú)APP檢測(cè)方法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來(lái),隨著手機(jī)終端的迅速發(fā)展,尤其是安卓系統(tǒng),手機(jī)平臺(tái)上的釣魚(yú)攻擊呈爆 炸式的增長(zhǎng),因此,釣魚(yú)式攻擊的檢測(cè)技術(shù)的研究變得更加重要。事實(shí)上,對(duì)比手機(jī)上的惡 意軟件,手機(jī)終端的釣魚(yú)式攻擊顯得更加危險(xiǎn),原因之一是手機(jī)終端的某些缺陷,W及手機(jī) 用戶的習(xí)慣所導(dǎo)致的,原因之二是現(xiàn)有的臺(tái)式電腦/筆記本電腦上的釣魚(yú)式攻擊檢測(cè)技術(shù) 不能應(yīng)用到手機(jī)終端上。
[0003] 釣魚(yú)式攻擊主要目的是盜取用戶的隱私信息,比如用戶登錄名、密碼W及用戶信 用卡信息等。盡管已有很多的研究者提出了許多的反釣魚(yú)技術(shù),但是釣魚(yú)式攻擊沒(méi)有得到 一絲緩和。一方面,釣魚(yú)式攻擊層出不窮,根據(jù)世界反釣魚(yú)工作聯(lián)盟報(bào)告,每一種釣魚(yú)式攻 擊存活的平均時(shí)間大概是4. 5天。另一方面,攻擊者持續(xù)地改進(jìn)攻擊技術(shù),W致能逃脫現(xiàn)有 的檢測(cè)工具。
[0004] 手機(jī)終端上的釣魚(yú)式攻擊主要涌現(xiàn)在在線購(gòu)物、社交網(wǎng)絡(luò)W及金融機(jī)構(gòu)等。對(duì)手 機(jī)終端發(fā)起釣魚(yú)式攻擊的趨勢(shì)在于手機(jī)硬件的限制,如屏幕過(guò)小、用戶輸入的不方便、各個(gè) 手機(jī)應(yīng)用的切換較麻煩,除此之外,手機(jī)用戶容易被假冒的登錄界面所欺騙。
[0005] 隨著經(jīng)濟(jì)的發(fā)展,為了提升它們的服務(wù)W及業(yè)績(jī),很多公司企業(yè)都研發(fā)了自己的 手機(jī)應(yīng)用,如淘寶手機(jī)客戶端、京東手機(jī)客戶端等。該為攻擊者提供了新的一塊釣魚(yú)式攻擊 的領(lǐng)域:一些攻擊者會(huì)運(yùn)用開(kāi)發(fā)出假冒APP,或者向合法APP中注入代碼,并將改制后的APP 上傳到非官方的手機(jī)應(yīng)用市場(chǎng)。對(duì)比釣魚(yú)網(wǎng)址,釣魚(yú)APP的檢測(cè)難度遠(yuǎn)高于釣魚(yú)網(wǎng)址的檢 巧。,之所W該樣,是因?yàn)闆](méi)法識(shí)別用戶的信任證書(shū)是發(fā)送到了合法的服務(wù)器上,還是釣魚(yú)式 攻擊的服務(wù)器上。
[0006] 現(xiàn)有技術(shù)中針對(duì)于釣魚(yú)APP目前檢測(cè)技術(shù)還很匿乏,只有少數(shù)研究關(guān)于此。
[0007] 坦普爾大學(xué)的吳龍飛等提出一種通過(guò)監(jiān)控?cái)?shù)據(jù)向外傳送的各種路徑來(lái)檢測(cè)是否 是釣魚(yú)APP。具體思想如下;
[000引收集大量可疑釣魚(yú)APP數(shù)據(jù),建立一個(gè)包含應(yīng)用程序名稱、化d(應(yīng)用程序編號(hào))、 啟動(dòng)時(shí)間和應(yīng)用程序登陸界面的文本信息的數(shù)據(jù)庫(kù);
[0009] 在某個(gè)APP啟動(dòng)的時(shí)候,提取其名稱,并在數(shù)據(jù)庫(kù)中捜索,如果存在,則證明此APP 不是釣魚(yú)的APP ;如果存在,則通過(guò)光學(xué)字符識(shí)別技術(shù)提取APP登陸界面的文本信息,記錄 APP的啟動(dòng)時(shí)間和獲取APP的化d,然后進(jìn)入APP的認(rèn)證階段,先將APP的Uid與數(shù)據(jù)庫(kù)進(jìn) 行比較,若不存在,則證明不是釣魚(yú)APP,反之,同時(shí)進(jìn)行啟動(dòng)時(shí)間的比較和登陸界面的文本 信息的比較,若啟動(dòng)時(shí)間相同,則切斷Socket/SMS通信,若文本信息相同,則切斷HTTP的連 接;
[0010] 通過(guò)W上的通信路徑的實(shí)時(shí)檢測(cè),W此達(dá)到檢測(cè)釣魚(yú)APP的目的。
[0011] 然而上述方法存在W下幾個(gè)缺陷:
[0012] 該種技術(shù)是建立在大量釣魚(yú)APP數(shù)據(jù)基礎(chǔ)之上的,然而釣魚(yú)式APP攻擊剛出現(xiàn)不 久,現(xiàn)存的數(shù)據(jù)量較少,W上技術(shù)的成功檢測(cè)率大大減低;
[0013] 要求APP安裝在手機(jī)上,如果APP是釣魚(yú)APP,由于W上的成功檢測(cè)率的低下,該就 導(dǎo)致了隱患的存在;
[0014] 要求手機(jī)用戶觸發(fā)數(shù)據(jù)傳輸事件,才能進(jìn)行檢測(cè),如果手機(jī)用戶沒(méi)有連接網(wǎng)絡(luò),沒(méi) 法進(jìn)行數(shù)據(jù)庫(kù)匹配的話,該樣就造成了釣魚(yú)式攻擊的形成;
[0015] 用戶的要求過(guò)高,要用戶時(shí)刻引起懷疑才可W成功的阻擋釣魚(yú)式攻擊,然而由于 用戶的習(xí)慣和缺乏極強(qiáng)的安全意識(shí),該就會(huì)導(dǎo)致該種技術(shù)面臨著窘境。
[0016] 因此,針對(duì)上述技術(shù)問(wèn)題,有必要提供一種基于頁(yè)面特征和U化特征的釣魚(yú)APP檢 測(cè)方法及系統(tǒng),其不需要大量的釣魚(yú)APP數(shù)據(jù)進(jìn)行匹配,不要求APP的安裝,不需要手機(jī)用 戶觸發(fā)事件,對(duì)用戶完全沒(méi)有任何要求,能夠?qū)⒃摲N危害扼殺在搖籃之中。
【發(fā)明內(nèi)容】
[0017] 有鑒于此,本發(fā)明的目的在于提供一種基于頁(yè)面特征和U化特征的釣魚(yú)APP檢測(cè) 方法及系統(tǒng)。
[001引為了達(dá)到上述目的,本發(fā)明實(shí)施例提供的技術(shù)方案如下:
[0019] 一種基于頁(yè)面特征和U化特征的釣魚(yú)APP檢測(cè)方法,所述方法包括:
[0020] S1、對(duì)所要檢測(cè)的APP進(jìn)行反編譯,得到XML文本、XML圖像和smali文件;
[0021] S2、對(duì)XML文本進(jìn)行XML文本特征提取,采用源代碼檢測(cè)器對(duì)XML文本特征進(jìn)行分 類檢測(cè),若檢測(cè)結(jié)果為釣魚(yú)APP,則提示用戶將此APP安裝包刪除,若否執(zhí)行步驟S3 ;
[0022] S3、對(duì)XML圖像進(jìn)行XML圖像特征提取,采用頁(yè)面檢測(cè)器對(duì)XML圖像特征進(jìn)行分類 檢測(cè),若檢測(cè)結(jié)果為釣魚(yú)APP,則提示用戶將此APP安裝包刪除,若否執(zhí)行步驟S4 ;
[0023] S4、對(duì)所有的smali文件進(jìn)行掃描,提取smali文件中的U化,然后采用U化檢測(cè) 器對(duì)U化進(jìn)行檢測(cè),若檢測(cè)到U化是釣魚(yú)的U化,則停止剩余U化的檢測(cè),提示用戶將此APP 安裝包刪除,若所有的smali文件均未檢測(cè)到U化是釣魚(yú)的U化,則提示用于該APP為正常 APP。
[0024] 作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟S2中"對(duì)XML文本進(jìn)行XML文本特征提取"具 體為:
[0025] 根據(jù)標(biāo)記樹(shù)模型提取XML文本特征,標(biāo)記樹(shù)T = (IV Vt,^ t),其中:
[0026] 14 C JV是節(jié)點(diǎn)集合,Vt中的節(jié)點(diǎn)分為元素節(jié)點(diǎn)、屬性節(jié)點(diǎn)和文本節(jié)點(diǎn),
[0027] V t是標(biāo)記樹(shù)T的根節(jié)點(diǎn),
[0028] 島C 14 X Ft為邊的集合,每條邊代表了標(biāo)記樹(shù)T中兩個(gè)節(jié)點(diǎn)間的父子關(guān)系,
[0029] A: : Ff W E為節(jié)點(diǎn)的標(biāo)記映射函數(shù),E是節(jié)點(diǎn)標(biāo)簽集合;
[0030] 根據(jù)標(biāo)記樹(shù)及全路徑提取特征方法,將XML文本向量化:
[00川 T是XML文本集合,對(duì)于其中每一個(gè)文本TiG T,用文本向量di表示;di=化_ pathTvi),表示中可W用全路徑表示,且滿足條件:
[0032]
【權(quán)利要求】
1. 一種基于頁(yè)面特征和URL特征的釣魚(yú)APP檢測(cè)方法,其特征在于,所述方法包括: 51、 對(duì)所要檢測(cè)的APP進(jìn)行反編譯,得到XML文本、XML圖像和smali文件; 52、 對(duì)XML文本進(jìn)行XML文本特征提取,采用源代碼檢測(cè)器對(duì)XML文本特征進(jìn)行分類檢 測(cè),若檢測(cè)結(jié)果為釣魚(yú)APP,則提示用戶將此APP安裝包刪除,若否執(zhí)行步驟S3 ; 53、 對(duì)XML圖像進(jìn)行XML圖像特征提取,采用頁(yè)面檢測(cè)器對(duì)XML圖像特征進(jìn)行分類檢 測(cè),若檢測(cè)結(jié)果為釣魚(yú)APP,則提示用戶將此APP安裝包刪除,若否執(zhí)行步驟S4 ; 54、 對(duì)所有的smali文件進(jìn)行掃描,提取smali文件中的URL,然后采用URL檢測(cè)器對(duì)URL進(jìn)行檢測(cè),若檢測(cè)到URL是釣魚(yú)的URL,則停止剩余URL的檢測(cè),提示用戶將此APP安裝 包刪除,若所有的smali文件均未檢測(cè)到URL是釣魚(yú)的URL,則提示用于該APP為正常APP。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中"對(duì)XML文本進(jìn)行XML文 本特征提取"具體為: 根據(jù)標(biāo)記樹(shù)模型提取XML文本特征,標(biāo)記樹(shù)T= (rt,Vt,Et,At),其中:gI是節(jié)點(diǎn)集合,Vt中的節(jié)點(diǎn)分為元素節(jié)點(diǎn)、屬性節(jié)點(diǎn)和文本節(jié)點(diǎn), rtGVt是標(biāo)記樹(shù)T的根節(jié)點(diǎn), 焉SFtX14為邊的集合,每條邊代表了標(biāo)記樹(shù)T中兩個(gè)節(jié)點(diǎn)間的父子關(guān)系, Xt'V(I-^ 為~p點(diǎn)的標(biāo)記映射函數(shù),E是~P點(diǎn)標(biāo)簽集合; 根據(jù)標(biāo)記樹(shù)及全路徑提取特征方法,將XML文本向量化: T是XML文本集合,對(duì)于其中每一個(gè)文本TiGT,用文本向量di表示:di= {H_pathTvi},表示Cli可以用全路徑表示,且滿足條件:
式中:i= 1,2, . . .,n,j= 1,2, . . .,m,n表示文本集合中的文本個(gè)數(shù),m表示標(biāo)記樹(shù) T中出現(xiàn)的所有的全部路徑數(shù)目。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S2中"采用源代碼檢測(cè)器對(duì)XML 文本特征進(jìn)行分類檢測(cè)"具體為: 根據(jù)提取出的文本向量,檢測(cè)全路徑信息中含有元素節(jié)點(diǎn)中的文本節(jié)點(diǎn),對(duì)文本節(jié)點(diǎn) 出現(xiàn)"invisible"的次數(shù)設(shè)定一個(gè)閾值,若檢測(cè)到的文本向量中含有"invisible"且對(duì)應(yīng) 的出現(xiàn)次數(shù)大于閾值,則表示此XML文本是來(lái)自釣魚(yú)APP。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述閾值設(shè)置為2。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3中"對(duì)XML圖像進(jìn)行XML圖 像特征提取"具體為: XML圖像特征由向量P〈Pl,p2,p3,p4>表示,設(shè)當(dāng)前處理的XML圖像為S,Shash表示圖片S指紋的集合,Ssiz彥示圖片S的大小,S^表示圖片S的顏色直方圖集合,SgMy表示圖片S 的灰度直方圖集合,則向量P中各分量為: P1:記數(shù)據(jù)庫(kù)D中圖片指紋為D(hash),則pi表示在Shash集合所有元素中能夠在D(hash)中找到相同記錄的元素?cái)?shù)量占Shash集合的百分比; P2:記數(shù)據(jù)庫(kù)D中圖片大小為D(size),則p2表示在Ssize集合所有元素中能夠在D(Size)中找到相同記錄的元素?cái)?shù)量占匕^集合的百分比; P3:記數(shù)據(jù)庫(kù)D中所有圖片的彩色直方圖集合為D(hsv),則p3表示Shsv集合的所有元 素中能夠在D(hsv)中找到和其歐氏距離大于0. 9的元素?cái)?shù)量占5^集合的百分比; P4:記數(shù)據(jù)庫(kù)D中所有圖片的彩色直方圖集合為D(grey),則p4表示Sg,ey集合的所有元 素中能夠在D(grey)中找到和其歐氏距離大于0. 9的元素?cái)?shù)量占SgMy集合的百分比。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述歐氏距離的計(jì)算方法為: 向量a= (Xl,x2, . . .,xn)和向量|3 = (y:,y2, . . .,yn)的歐氏距離為
7. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述所述步驟S3中"采用頁(yè)面檢測(cè)器對(duì) XML圖像特征進(jìn)行分類檢測(cè)"具體為: 根據(jù)XML圖像特征提取得到的向量P〈Pl,p2,p3,p4>,與服務(wù)器上的釣魚(yú)頁(yè)面圖像模板 庫(kù)進(jìn)行相似度的對(duì)比,若兩個(gè)圖像特征的歐氏距離小于〇. 5,則認(rèn)為是近似圖像。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4包括: 依次遍歷smali文件內(nèi)容,提取smali文件中的URL; 根據(jù)URL域名是否有IP、URL中是否含有16進(jìn)制、URL域名級(jí)數(shù)是否超過(guò)5級(jí)、URL路 徑是否帶點(diǎn)、URL路徑中是否有被入侵特征、URL路徑中是否含有根域名6個(gè)特征作為URL 特征檢測(cè)的特征部分,并將這6個(gè)特征部分轉(zhuǎn)換成bool型的特征值; 根據(jù)以上特征提取得到向量X= (Xl,x2, ...,xn)T,且向量中的變量相互獨(dú)立,計(jì)算URL二分分類的概率:
其中,條件概率P(y= 11X) =P是釣魚(yú)URL的概率; 通過(guò)計(jì)算result,進(jìn)行是否是釣魚(yú)URL的判斷。
9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述步驟S4還包括: 將result的閾值設(shè)定為0. 5,若URL的result超過(guò)0. 5,則認(rèn)為是釣魚(yú)URL,否則,則認(rèn) 為是正常URL。
10. -種基于頁(yè)面特征和URL特征的釣魚(yú)APP檢測(cè)系統(tǒng),其特征在于,所述系統(tǒng)包括: 反編譯模塊,用于對(duì)所要檢測(cè)的APP進(jìn)行反編譯,得到XML文本、XML圖像和smali文 件; 檢測(cè)模塊,包括XML文本檢測(cè)模塊、XML圖像檢測(cè)模塊和smali文件檢測(cè)模塊,其中:XML文本檢測(cè)模塊,用于對(duì)XML文本進(jìn)行XML文本特征提取,采用源代碼檢測(cè)器對(duì)XML 文本特征進(jìn)行分類檢測(cè); XML圖像檢測(cè)模塊,用于對(duì)XML圖像進(jìn)行XML圖像特征提取,采用頁(yè)面檢測(cè)器對(duì)XML圖 像特征進(jìn)行分類檢測(cè); smali文件檢測(cè)模塊,用于對(duì)所有的smali文件進(jìn)行掃描,提取smali文件中的URL,然 后采用URL檢測(cè)器對(duì)URL進(jìn)行檢測(cè)。
【文檔編號(hào)】G06F21/56GK104504335SQ201410817371
【公開(kāi)日】2015年4月8日 申請(qǐng)日期:2014年12月24日 優(yōu)先權(quán)日:2014年12月24日
【發(fā)明者】任環(huán), 張巍, 姜青山 申請(qǐng)人:中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院