基于棧式稀疏自編碼器的托攻擊檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息安全領(lǐng)域,特別涉及一種托攻擊檢測方法,可用于檢測互聯(lián)網(wǎng)系 統(tǒng)中的惡意攻擊用戶。
【背景技術(shù)】
[0002] 20世紀(jì)末,互聯(lián)網(wǎng)開始萌芽,隨著網(wǎng)上信息量的飛速增長,人們在網(wǎng)上尋找自己所 需的信息需耗費(fèi)較大精力,正是這個(gè)需求催生了雅虎公司的成立,其將網(wǎng)上的信息分門別 類創(chuàng)立了門戶網(wǎng)站,為人們帶來了福祉。然而未經(jīng)多久,全社會的信息量開始呈現(xiàn)指數(shù)級增 長,門戶網(wǎng)站開始難以處理如此規(guī)模龐大的內(nèi)容。谷歌應(yīng)運(yùn)而生,搜索業(yè)務(wù)較完美的解決了 在海量信息中查找自己所需內(nèi)容的問題,開始了其黃金發(fā)展時(shí)期。進(jìn)入21世紀(jì),世界范圍 內(nèi)隨著互聯(lián)網(wǎng)的進(jìn)一步普及與移動(dòng)設(shè)備的興起,每時(shí)每刻產(chǎn)生的信息量令人難以想象,這 一切都促使著大數(shù)據(jù)時(shí)代的到來。
[0003] 尤其以電子商務(wù)為代表,它的產(chǎn)生極大的促進(jìn)了社會的進(jìn)步與人民的生活水平。 但是隨著用戶與產(chǎn)品數(shù)量的爆炸式增加,使人們難以實(shí)時(shí)的發(fā)現(xiàn)自己感興趣的物品,所以, 推薦系統(tǒng)概念的提出是時(shí)代的必然要求。
[0004] 推薦系統(tǒng)是利用用戶與系統(tǒng)之間的交互信息、個(gè)人與項(xiàng)目屬性信息和用戶與系統(tǒng) 之間發(fā)生交互時(shí)的環(huán)境信息,比如時(shí)間、地點(diǎn)和天氣等等,為用戶主動(dòng)推薦其可能感興趣的 項(xiàng)目列表。例如用戶在進(jìn)行搜索時(shí),搜索引擎如何在上億級數(shù)量的網(wǎng)頁中進(jìn)行篩選,在首頁 展示該用戶最可能感興趣的網(wǎng)頁?現(xiàn)在其中所包含的算法除了傳統(tǒng)的搜索技術(shù)更是囊括 了推薦算法。國內(nèi)具體的成功案例如豆瓣FM,其可以根據(jù)用戶的收聽歷史為用戶推薦其可 能喜歡的曲目,增強(qiáng)了用戶黏性,以穩(wěn)固商業(yè)地位為其帶來營收。國外案例如Amazon利用 用戶的購物歷史,主動(dòng)為用戶推薦列表,減少物品的長尾分布特性;Netflix的策略和上述 兩家企業(yè)大致相同,為其用戶推薦影片等等。然而,由于商業(yè)利益與用戶屬性不穩(wěn)定性的驅(qū) 動(dòng),使其推薦列表的精度大大限制,這是學(xué)術(shù)界與業(yè)界亟需解決的問題。
[0005] 首先簡要闡述用戶屬性特征的不穩(wěn)定性,對推薦系統(tǒng)造成的影響。第一,因?yàn)橛脩?興趣是隨時(shí)間變化的,所以其對相近屬性項(xiàng)目的評價(jià)會出現(xiàn)前后差別較大的現(xiàn)象,加大了 推薦算法的設(shè)計(jì)難度;第二,用戶對相同項(xiàng)目的評價(jià),會因?yàn)楫?dāng)時(shí)環(huán)境的差異而出現(xiàn)偏差, 比如在風(fēng)和日麗的早晨,也許會對厭惡的項(xiàng)目給予好評,反之如果心情恰好不悅,也許會對 心儀的產(chǎn)品差評;第三,以Netflix為例,很多家庭中,其家庭成員是共享一個(gè)賬號的,所以 其對影片的借閱與觀看歷史會出現(xiàn)龐雜而無特定模式的現(xiàn)象。以上所述為最常見的自然噪 聲現(xiàn)象,本因在于人的屬性的不穩(wěn)定性與社會現(xiàn)象的復(fù)雜性。但是人為噪聲卻具有一定的 模式,某些個(gè)人或者企業(yè)由于利益的驅(qū)動(dòng),在系統(tǒng)中注入大量的虛假交互數(shù)據(jù),其目的不是 為了表達(dá)個(gè)人的喜好,而是為了操控推薦系統(tǒng)的推薦結(jié)果向著其利益傾斜,或者只是為了 擾亂推薦系統(tǒng)的工作,使用戶對其失望,從而造成用戶的流失。所以近年來眾多學(xué)者一直在 此領(lǐng)域努力,致力于提高推薦系統(tǒng)的魯棒性。目前有兩種思路解決該問題。其一,不對原始 數(shù)據(jù)集做修改,設(shè)計(jì)魯棒性推薦算法,降低噪聲對推薦系統(tǒng)性能的擾動(dòng),但是目前實(shí)踐證明 該策略泛化能力強(qiáng),但始終推薦精度不高。所以另外一種解決策略是托攻擊檢測,即在數(shù)據(jù) 預(yù)處理中,根據(jù)一定的甄別方法剔除被認(rèn)為是托的用戶。由于這種方法,可以根據(jù)托攻擊行 為的變化,從而對分類器進(jìn)行相對應(yīng)的訓(xùn)練,使其保持著一定的分類精度的同時(shí),也可以維 持其對新類型攻擊的適應(yīng)性,所以一直是學(xué)術(shù)領(lǐng)域內(nèi)研究的熱點(diǎn)。
[0006] 托攻擊檢測領(lǐng)域最常用的方法是有監(jiān)督與無監(jiān)督算法。例如現(xiàn)有的基于決策樹 (C4. 5)的有監(jiān)督托攻擊檢測算法,該算法需要知道托攻擊類型,以提取相對應(yīng)的托用戶特 征數(shù)據(jù)作為輸入特征以訓(xùn)練分類器,所以缺點(diǎn)是需要實(shí)時(shí)的掌握新的托攻擊類型以提取相 對應(yīng)的用戶特征,缺乏適應(yīng)性。還有基于主成分分析(PCA)的無監(jiān)督托攻擊檢測算法,該算 法表現(xiàn)優(yōu)異的前提是提前預(yù)知托攻擊用戶數(shù)量,否則性能一般,但是現(xiàn)實(shí)世界中很多時(shí)候 是無法確定具體的托攻擊用戶數(shù)量的。而ZhiangWu等人在"HySAD:ASemi-Supervised HybridShillingAttackDetectorforTrustworthyProductRecommendation',(《The ACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining》,2012,pages 985-993)提出的HySAD半監(jiān)督算法,其認(rèn)為在現(xiàn)實(shí)世界中,是可以人為的辨別出少量托攻 擊用戶,雖然數(shù)量相對于真實(shí)的用戶數(shù)目很少,但是其參考價(jià)值彌足珍貴。所以,無監(jiān)督方 式?jīng)]有利用已知的先驗(yàn)知識是不妥當(dāng)?shù)模粲糜斜O(jiān)督的方式進(jìn)行訓(xùn)練也是不妥的,因?yàn)楦?據(jù)少量的已知數(shù)據(jù),難以泛化到整個(gè)數(shù)據(jù)集,而且他們在AmazonChina數(shù)據(jù)集上做了測試, 證明了半監(jiān)督方式對推薦精度有顯著的提升。
[0007] 然而,在以分類為基本策略的托攻擊檢測算法中,無論是有監(jiān)督、無監(jiān)督或者半監(jiān) 督方式,其特征的提取與選擇一直以來是重點(diǎn)。目前學(xué)術(shù)界已經(jīng)提出且被驗(yàn)證了的用戶評 分向量的屬性特征有用戶評分向量的熵、用戶模型與其K近鄰的平均相似度、用戶評分向 量的長度變化、用戶模型評過分項(xiàng)目與其平均值之間的一階矩關(guān)系WDA、用戶模型評過分 項(xiàng)目與其平均值之間的二階矩關(guān)系FMV、評最高分項(xiàng)目集合與剩余項(xiàng)目集合的平均分偏差 FMTD和用戶模型對目標(biāo)項(xiàng)目的關(guān)注度TMF。之所以眾多學(xué)者提出這么多檢測用戶評分向量 的屬性特征,就在于托攻擊類型的多變。而在傳統(tǒng)的分類托攻擊檢測算法中,其難以應(yīng)對更 多類型的托攻擊。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的在于針對上述已有技術(shù)的不足,提出一種基于棧式稀疏自編碼器的 托攻擊檢測方法,以提升對用戶屬性特征提取的通用性,可以檢測出更多類型的托攻擊用 戶。
[0009] 本發(fā)明的技術(shù)方案是:將每個(gè)原始用戶評分?jǐn)?shù)據(jù)作為輸入,用棧式稀疏自編碼器 對每個(gè)用戶提取特征數(shù)據(jù),然后將獲得的特征數(shù)據(jù)作為輸入,以半監(jiān)督的方式訓(xùn)練樸素貝 葉斯分類器,最終對未知類型的用戶進(jìn)行分類,找出托攻擊用戶。其實(shí)現(xiàn)步驟包括如下: [0010] ⑴輸入用戶對項(xiàng)目的評分?jǐn)?shù)據(jù):R= |D|X|I|,其中R是指規(guī)模為|D|X|I 的評分矩陣,d是指全體用戶,I是指全體項(xiàng)目,|d|與|ι|分別指d與I的數(shù)量,且d= DuU…UDqU…UD%其中Du是指未知類型的用戶集合,D1是指已知的正常用戶集 合,Dq是指已知的q類型托攻擊用戶集合,2彡q彡c,c是指已知的用戶類型總數(shù);
[0011] (2)初始化評分矩陣R:歸一化每個(gè)用戶的評分?jǐn)?shù)據(jù),使評分在0~1之間;
[0012] (3)以歸一化后的評分?jǐn)?shù)據(jù)作為輸入,訓(xùn)練棧式稀疏自編碼器;
[0013] (4)用棧式稀疏自編碼器提取的用戶特征數(shù)據(jù)作為輸入,訓(xùn)練樸素貝葉斯分類 器;
[0014] (5)根據(jù)樸素貝葉斯分類器計(jì)算每個(gè)未知類型用戶屬于每個(gè)類型的概率,再對其 進(jìn)行分類找出托攻擊用戶。
[0015] 本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):
[0016] 第一,本發(fā)明利用棧式稀疏自編碼器直接對用戶的初始評分?jǐn)?shù)據(jù)進(jìn)行特征提取, 克服了針對特定類型的托攻擊用戶時(shí)需要提取特定的特征數(shù)據(jù)的問題。
[0017] 第二,由于本發(fā)明引入了用棧式稀疏自編碼器對用戶進(jìn)行特征提取的方法,克服 了現(xiàn)有技術(shù)對用戶進(jìn)行特征提取時(shí)缺乏適應(yīng)性的問題,從而在檢測不同類型的托攻擊用戶 時(shí)表現(xiàn)均衡。
【附圖說明】
[0018] 圖1為本發(fā)明的實(shí)現(xiàn)流程圖;
[0019] 圖2為本發(fā)明與現(xiàn)有SNB算法對平均多尺度托攻擊檢測效果比較圖;
[0020] 圖3為本發(fā)明與現(xiàn)有SNB算法對隨機(jī)多尺度托攻擊檢測效果比較圖。
【具體實(shí)施方式】
[0021 ] 參照圖1,本發(fā)明的實(shí)現(xiàn)步驟如下:
[0022] 步驟1,輸入評分?jǐn)?shù)據(jù)集。
[0023] 評分?jǐn)?shù)據(jù)集分為大量未知類型的用戶和少量已知類型的用戶,兩部分均包含托攻 擊用戶與正常用戶,全部評分?jǐn)?shù)據(jù)為R= |D|X|I|,其中R是指規(guī)模為|D