本發(fā)明屬于社交網(wǎng)絡(luò)安全,更為具體地講,涉及一種基于用戶行為知識圖譜的社交網(wǎng)絡(luò)異常行為檢測方法。
背景技術(shù):
1、社交網(wǎng)絡(luò)基于互聯(lián)網(wǎng)為用戶提供服務(wù),已經(jīng)成為了人們?nèi)粘I畹闹匾M成部分,為人們分享、獲取和傳播信息提供了一個重要平臺。近年來,隨著人工智能、大數(shù)據(jù)等新興技術(shù)的高速發(fā)展,網(wǎng)絡(luò)安全風險不斷泛化,用戶隱私和財產(chǎn)竊取、虛假信息傳播等網(wǎng)絡(luò)行為對用戶人身安全、社會和諧穩(wěn)定帶來威脅,甚至可能威脅國家或地區(qū)安全。一方面,社交網(wǎng)絡(luò)服務(wù)的時效性、快捷性導致在社交網(wǎng)絡(luò)中傳播的信息能夠在極短的時間內(nèi)引發(fā)大量網(wǎng)絡(luò)用戶的關(guān)注,在這些特性的催化下可能會出現(xiàn)網(wǎng)絡(luò)熱點事件和公共輿情事件而造成網(wǎng)絡(luò)安全威脅;另一方面,異常用戶在社交平臺上發(fā)布垃圾、詐騙信息等侵犯公民網(wǎng)絡(luò)權(quán)力的行為,對社交網(wǎng)絡(luò)安全造成嚴重影響。因此,如何從海量的網(wǎng)絡(luò)社交信息中準確發(fā)掘這些由用戶產(chǎn)生的多個異常行為,如何感知其中隱含的安全威脅是亟須解決的網(wǎng)絡(luò)空間安全問題。
2、在過去幾年中,研究人員已經(jīng)提出許多方法用于識別社交網(wǎng)絡(luò)中的異常行為,這些方法包括基于規(guī)則匹配的算法、基于統(tǒng)計的算法以及基于機器學習的算法等?;谝?guī)則的方法主要通過分析用戶的行為模式、活動內(nèi)容、社交關(guān)系等信息,與預先定義的規(guī)則或者行為模式進行匹配對比,以識別可能存在的異常行為。例如,用戶在短時間內(nèi)進行了異常數(shù)量的登錄嘗試,則可能涉及到賬號被盜;或者用戶在短時間內(nèi)發(fā)布了過多的相似內(nèi)容,可能是垃圾信息或者濫用行為等。然而該方法受限于領(lǐng)域?qū)<业慕?jīng)驗知識,對于復雜或新型的異常行為模式,規(guī)則可能不夠靈活,無法捕捉未知的異常?;诮y(tǒng)計的方法使用統(tǒng)計學方法來分析數(shù)據(jù),并通過識別與正常行為不一致的模式來檢測異常,常見的方法有3σ準則、箱型圖以及時間序列建模等。比如可以分析用戶的在線活躍度隨時間的變化,異常行為就可能表現(xiàn)為在極短時間內(nèi)發(fā)布大量內(nèi)容或者在平常不活躍的事件段內(nèi)異常活躍。該方法適合處理低維數(shù)據(jù),但面對復雜的異常行為模式,統(tǒng)計方法不夠靈活,無法捕捉用戶行為的非線性關(guān)系,并且統(tǒng)計方法的計算成本較高?;跈C器學習的方法則是通過訓練模型從大量歷史數(shù)據(jù)中自動學習正常的行為模式,然后通過比較新的數(shù)據(jù)與已學習的模式,識別出其中的異常行為。相較于前兩種檢測方法,基于機器學習的檢測算法能夠處理復雜的非線性關(guān)系,適用于各種類型的異常模式;同時,該方法可以通過訓練來適應(yīng)新的數(shù)據(jù)和新的異常模式,對未知的異常有一定的泛化能力。因此,基于機器學習的檢測算法已成為異常檢測研究領(lǐng)域中的主流方向。
3、針對社交網(wǎng)絡(luò)異常行為的檢測,上述三種方法都同樣面臨社交網(wǎng)絡(luò)信息爆炸、可用知識缺乏的挑戰(zhàn)。當前,大量社交網(wǎng)絡(luò)用戶在社交平臺上產(chǎn)生的點贊、評論、轉(zhuǎn)發(fā)和關(guān)注等網(wǎng)絡(luò)行為,其復雜多樣的數(shù)據(jù)類型及結(jié)構(gòu),對于獲取其中的可用的用戶行為知識造成一定的困難;并且社交網(wǎng)絡(luò)中用戶行為數(shù)據(jù)規(guī)模龐大,難以發(fā)現(xiàn)其中復雜多樣、高度隱蔽的異常行為??傊?,社交網(wǎng)絡(luò)異常行為檢測的關(guān)鍵在于針對網(wǎng)絡(luò)上存在的大量非結(jié)構(gòu)化數(shù)據(jù),構(gòu)建高效用戶行為知識體系,從而實現(xiàn)從海量的社交網(wǎng)絡(luò)信息中準確發(fā)現(xiàn)用戶的異常行為。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于用戶行為知識圖譜的社交網(wǎng)絡(luò)異常行為檢測方法,基于社交網(wǎng)絡(luò)用戶行為數(shù)據(jù)構(gòu)建基于用戶行為知識圖譜,將知識圖譜張量化后從中提取用戶行為嵌入向量進行異常行為檢測,從而提高異常行為檢測的準確率。
2、為了實現(xiàn)上述發(fā)明目的,本發(fā)明基于用戶行為知識圖譜的社交網(wǎng)絡(luò)異常行為檢測方法包括以下步驟:
3、s1:整合社交網(wǎng)絡(luò)中的用戶行為數(shù)據(jù)構(gòu)成用戶行為知識圖譜,具體方法為:
4、s1.1:從社交網(wǎng)絡(luò)中收集用戶行為數(shù)據(jù),包括用戶發(fā)布的內(nèi)容、互動記錄、社交關(guān)系以及個人資料信息,從用戶行為數(shù)據(jù)中篩選中正常用戶行為并進行標注;
5、s1.2:進行用戶行為知識抽取,具體方法為:
6、從步驟s1.1獲取的用戶行為數(shù)據(jù)中識別出實體,包括用戶、地點和事件;抽取任意兩個用戶實體之間的社交關(guān)系;從用戶行為數(shù)據(jù)中抽取事件,得到事件的結(jié)構(gòu)化信息,包括參與事件的用戶實體、事件實體、地點實體和行為關(guān)系;
7、s1.3:構(gòu)建用戶行為知識圖譜,具體方法為:根據(jù)步驟s1.2中識別得到的實體對象以及實體對象間的關(guān)系,將每條用戶行為知識表示為四元組形式{h,r,t,d},其中h、t分別表示頭實體和尾實體,r表示兩個實體之間的關(guān)系,d表示時間;將實體作為節(jié)點,用戶實體間的邊根據(jù)兩個用戶實體之間的社交關(guān)系生成,用戶實體和事件實體或地點實體之間的邊根據(jù)用戶實體的行為生成,每條邊的屬性為關(guān)系形成或做出行為的時間;
8、s2:記用戶行為知識圖譜包含n個實體、m種關(guān)系和d個時間段,構(gòu)建一個維度為n×n×m×d的四階張量χ用于存儲用戶行為知識,其中第一維表示頭實體,第二維表示尾實體,第三維表示實體之間關(guān)系類型,第四維表示關(guān)系發(fā)生的時間;將用戶行為知識圖譜中的每個四元組轉(zhuǎn)換為張量中的一個元素,每個元素χi×j×m×d表示頭實體i和尾實體j在時間段d內(nèi)是否存在關(guān)系類型m,如果關(guān)系存在則該χi×j×m×d=1,不存在則χi×j×m×d=0,其中i,j=1,2,…,n,m=1,2,…,m,d=1,2,…,d;
9、s3:對用戶行為知識圖譜張量χ進行張量分解,得到頭實體矩陣尾實體矩陣關(guān)系矩陣其中表示實體i在頭實體因子中的嵌入向量、表示實體j在尾實體因子中的嵌入向量,表示關(guān)系m在關(guān)系因子中的嵌入向量,表示時間d在時間因子中的嵌入向量,k表示分解的秩;
10、采用如下公式根據(jù)張量分解結(jié)果計算得到行為嵌入向量xi,j,m,d:
11、
12、其中,表示向量的拼接操作;
13、s4:根據(jù)步驟s1.1中標注的正常用戶行為,從所有行為嵌入向量中篩選出正常用戶行為對應(yīng)的行為嵌入向量構(gòu)成正常行為訓練樣本集;
14、s5:根據(jù)實際需要構(gòu)建行為重構(gòu)模型,其輸入為行為嵌入向量,輸出為重構(gòu)的行為嵌入向量,然后采用步驟s4得到的正常行為訓練樣本集對行為重構(gòu)模型進行訓練;
15、s6:將社交網(wǎng)絡(luò)中待檢測行為嵌入向量輸入步驟s5訓練好的行為重構(gòu)模型,計算重構(gòu)行為嵌入向量與待檢測行為嵌入向量之間的重構(gòu)誤差,判斷是否大于預設(shè)的閾值α,如果大于,則該待檢測行為嵌入向量對應(yīng)的行為是異常行為,否則該待檢測行為嵌入向量對應(yīng)的行為是正常行為。
16、本發(fā)明基于用戶行為知識圖譜的社交網(wǎng)絡(luò)異常行為檢測方法,整合社交網(wǎng)絡(luò)中的用戶行為數(shù)據(jù)構(gòu)成用戶行為知識圖譜,然后根據(jù)用戶行為知識圖譜構(gòu)建四階張量,對用戶行為知識圖譜張量進行張量分解,再計算得到各個行為嵌入向量,將正常用戶行為對應(yīng)的行為嵌入向量構(gòu)成訓練樣本集并對構(gòu)建的行為重構(gòu)模型進行訓練,最后將待檢測行為嵌入向量輸入訓練好的行為重構(gòu)模型,根據(jù)重構(gòu)誤差與閾值的大小比較得到異常行為檢測結(jié)果。
17、本發(fā)明具有以下有益效果:
18、1)本發(fā)明通過構(gòu)建用戶行為知識圖譜,將社交網(wǎng)絡(luò)中的用戶、事件、地點、時間、關(guān)系等多元信息整合在一起,形成一個多層次、動態(tài)的知識結(jié)構(gòu)。通過圖結(jié)構(gòu)的方式來標識社交網(wǎng)絡(luò)中不同實體及其關(guān)系,能夠捕捉到復雜的用戶行為和社交互動模式;
19、2)本發(fā)明在知識體系構(gòu)建的基礎(chǔ)上,采用張量分解進一步優(yōu)化了大規(guī)模社交網(wǎng)絡(luò)數(shù)據(jù)的處理和分析;通過將用戶行為數(shù)據(jù)表示為張量進行存儲,有效捕捉不同維度之間的關(guān)聯(lián)性,保留用戶行為的特征信息;
20、3)本發(fā)明通過張量分解提取的核心行為特征,行為重構(gòu)模型能夠更加精確識別與常規(guī)模式下顯著不同的異常行為,有助于及時發(fā)現(xiàn)其中可能存在的異常行為,提升社交網(wǎng)絡(luò)平臺的安全性和可信度。