本發(fā)明屬于社交網(wǎng)絡(luò)安全,具體涉及一種基于多特征序列的社會(huì)搜索熱點(diǎn)傳播預(yù)測方法、系統(tǒng)、程序、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在日常生活中存在很多事件序列數(shù)據(jù)[zuo?s,jiang?h,li?z,et?al.transformerhawkes?process[j].2020:437-457.]。例如,在twitter和facebook等社交媒體網(wǎng)站中,每個(gè)用戶都有一系列事件,如推文和互動(dòng),人們分享經(jīng)驗(yàn)并回應(yīng)其他用戶的信息。數(shù)以億計(jì)的用戶生成大量的推文,這些推文本質(zhì)上形成不同時(shí)間戳的事件序列。事件序列數(shù)據(jù)顯示出對其歷史數(shù)據(jù)的依賴性,用戶過去的社交行為(例如發(fā)帖、評論、分享等)會(huì)對當(dāng)前行為產(chǎn)生影響。除了社交媒體平臺(tái)的分享轉(zhuǎn)發(fā),在其他(非社交媒體)環(huán)境中也能發(fā)現(xiàn)類似的事件序列數(shù)據(jù),像論文引用、博客空間和電子郵件轉(zhuǎn)發(fā)等。事件序列預(yù)測的核心挑戰(zhàn)是如何對信息的潛在擴(kuò)散過程進(jìn)行建模,也就是模擬其傳播趨勢。
2、在社交網(wǎng)絡(luò)上一起惡性事件能引起公眾廣泛討論,并釀成輿論風(fēng)波。為了避免此類問題的發(fā)生,本研究希望提出一種模型來模擬社會(huì)搜索熱點(diǎn)傳播的趨勢,用于預(yù)測從當(dāng)前觀察時(shí)間開始下一社會(huì)搜索熱點(diǎn)事件的發(fā)生時(shí)間和事件類型,以及從當(dāng)前觀測時(shí)間開始的一段時(shí)間內(nèi)社會(huì)搜索熱點(diǎn)事件序列的傳播大小。
3、社會(huì)搜索熱點(diǎn)傳播數(shù)據(jù)也是一種時(shí)間序列數(shù)據(jù),因此需要捕捉其時(shí)間上的變化和依賴關(guān)系。hawkes過程可以對此類事件序列數(shù)據(jù)進(jìn)行建模[hawkesag.spectra?ofsomeself-exciting?and?mutually?exciting?pointprocesses[j].biometrika,1971:83-90.],但該過程假設(shè)過去的事件的發(fā)生對當(dāng)前事件的發(fā)生具有積極的影響力,這簡化了現(xiàn)實(shí)中的復(fù)雜情況,因?yàn)檫^去事件對當(dāng)前事件的影響可以是增強(qiáng)的,也可以是抑制的。隨著深度學(xué)習(xí)理論的發(fā)展,mei等人提出neural?hawkes模型[mei?h,eisner?j.the?neuralhawkes?process:a?neurally?self-modulating?multivariate?point?process[j].conference?and?workshop?on?neural?information?processing?systems,2017:6754-6764.],利用lstm重新設(shè)計(jì)條件強(qiáng)度函數(shù),它的一個(gè)顯著缺陷是無法捕獲事件之間復(fù)雜的長期依賴關(guān)系。受自然語言處理領(lǐng)域發(fā)展的啟發(fā),simiao等人[zuo?s,jiang?h,li?z,etal.transformer?hawkes?process[j].2020:437-457.]提出了基于注意力的hawkes模型—transformer?hawkes模型,它能夠捕捉序列中復(fù)雜的長短期依賴,但是該模型并沒有考慮轉(zhuǎn)發(fā)信息的用戶以及用戶屬性信息。因此,本發(fā)明擬借鑒transformer?hawkes模型,綜合考慮社會(huì)搜索熱點(diǎn)事件序列中的多種特征,包括時(shí)間特征、事件類型特征、用戶節(jié)點(diǎn)特征與用戶屬性特征,提出結(jié)合多特征序列的社會(huì)搜索熱點(diǎn)傳播預(yù)測模型(multi-featuresequence?public?opinionpropagation?predictionmodel,簡稱mfspop),提高社會(huì)搜索熱點(diǎn)數(shù)據(jù)建模和預(yù)測的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于多特征序列的社會(huì)搜索熱點(diǎn)傳播預(yù)測方法、系統(tǒng)、程序、設(shè)備及存儲(chǔ)介質(zhì)。
2、本發(fā)明的目的通過如下技術(shù)方案來實(shí)現(xiàn):
3、一種基于多特征序列的社會(huì)搜索熱點(diǎn)傳播預(yù)測方法,包括以下步驟:
4、步驟1.事件流分析探測
5、定義事件流,在連續(xù)時(shí)間內(nèi)發(fā)生的離散事件序列,每個(gè)事件由三元組表示,包括時(shí)間戳、事件類型和用戶信息;對事件序列進(jìn)行分析與建模能夠預(yù)測下一個(gè)事件的類型和發(fā)生時(shí)間;
6、步驟2.事件序列編碼
7、輸入序列經(jīng)過多頭自注意力機(jī)制和全連接層處理,生成包含全局語義信息的編碼器輸出,解碼器將編碼器輸出和先前生成的符號解碼為新的輸出序列并提取每個(gè)事件的隱藏狀態(tài),包含了事件的長短期依賴關(guān)系;并通過多層機(jī)制依次實(shí)現(xiàn)序列的關(guān)聯(lián)性編碼、輸入序列的加權(quán)編碼;
8、步驟3.事件表示學(xué)習(xí)
9、通過初始編碼和多頭注意力機(jī)制后,結(jié)果輸入進(jìn)前饋神經(jīng)網(wǎng)絡(luò),進(jìn)一步生成輸入事件序列的隱藏層表示,完成事件序列的表示學(xué)習(xí)向量的生成過程;
10、步驟4.社會(huì)搜索熱點(diǎn)預(yù)測
11、將得到的歷史事件序列作為此過程的輸入,描述隨時(shí)間變化的事件序列,將時(shí)間點(diǎn)過程的動(dòng)態(tài)變化用連續(xù)的條件強(qiáng)度函數(shù)來描述,捕捉事件之間的相互影響關(guān)系,預(yù)測未來事件的發(fā)生。
12、進(jìn)一步地,所述步驟1包括以下步驟:
13、步驟1.1.其中每個(gè)事件(tj,kj,uj)是一個(gè)三元組,表示用戶uj在時(shí)間tj轉(zhuǎn)發(fā)了kj類型的信息;設(shè)表示一個(gè)事件序列,其中kj表示序列中的第j個(gè)事件,tj表示該事件的時(shí)間戳;uj表示該事件所對應(yīng)的用戶;
14、步驟1.2.在時(shí)間區(qū)間[ta,te]之間,存在一個(gè)轉(zhuǎn)發(fā)推文的序列(ta,k1,ua),(tb,k1,ub),(tf,k2,uf),(tc,k1,uc),…,(th,k2,uh),(te,k1,ue);
15、步驟1.3.給定一個(gè)社會(huì)搜索熱點(diǎn)事件序列進(jìn)行短期預(yù)測與長期預(yù)測,短期預(yù)測是指預(yù)測下一事件的發(fā)生時(shí)間與事件類型長期預(yù)測是指在給定時(shí)間間隔tp-ti,預(yù)測社會(huì)搜索熱點(diǎn)事件的傳播大小
16、進(jìn)一步地,所述步驟2包括以下步驟:
17、步驟2.1.假設(shè)給定事件長度為l的社會(huì)搜索熱點(diǎn)傳播事件序列其中tj表示事件(tj,kj,uj)發(fā)生的時(shí)間戳;給出以下時(shí)間編碼定義:
18、
19、步驟2.2.給定對每個(gè)事件類型學(xué)習(xí)得到一個(gè)嵌入矩陣u∈rm*k,m表示嵌入維度,k表示事件類型的個(gè)數(shù),其中u的第j列表示事件類型kj的m維嵌入;
20、步驟2.3.在得到事件時(shí)間編碼、事件類型編碼、節(jié)點(diǎn)信息編碼以及用戶屬性編碼后,事件序列的嵌入為x=(e+z+h+g)t。
21、進(jìn)一步地,所述步驟3包括以下步驟:
22、步驟3.1.通過自注意力模塊來獲取序列間的長短期依賴;計(jì)算注意力輸出s=
23、
24、步驟3.2.社會(huì)搜索熱點(diǎn)傳播事件序列s通過初始編碼和多頭自注意力機(jī)制后,注意力輸出sout通過前饋神經(jīng)網(wǎng)絡(luò),生成輸入事件序列s的隱藏表示及h(tj)=h(j,:)。
25、進(jìn)一步地,所述步驟4包括以下步驟:
26、步驟4.1.對于每個(gè)k∈{1,2,…,k},將λk(t|ht)定義為k類型事件的條件強(qiáng)度函數(shù),整個(gè)社會(huì)搜索熱點(diǎn)事件序列的條件強(qiáng)度函數(shù)為
27、步驟4.2.每種事件類型的特定強(qiáng)度采用
28、步驟4.3.下一個(gè)社會(huì)搜索熱點(diǎn)事件在任意時(shí)刻發(fā)生的可能性表示為
29、步驟4.4.下一事件的時(shí)間戳預(yù)測與下一事件的事件類型預(yù)測表示為及
30、步驟4.5.社會(huì)搜索熱點(diǎn)事件序列在tp-ti這段時(shí)間內(nèi)的預(yù)計(jì)傳播大小預(yù)測表示為
31、一種多約束引導(dǎo)的中文謠言對抗樣本生成系統(tǒng),包括事件流分析裝置、事件序列編碼裝置、事件表示學(xué)習(xí)裝置及社會(huì)搜索熱點(diǎn)預(yù)測裝置;
32、所述事件流分析裝置捕獲社交網(wǎng)絡(luò)在連續(xù)時(shí)間內(nèi)發(fā)生的事件流,包括時(shí)間戳、事件類型和用戶信息;
33、所述事件序列編碼裝置成編碼并將時(shí)間編碼、事件類型編碼、節(jié)點(diǎn)信息編碼、用戶屬性編碼信息合成事件序列編碼;
34、所述事件表示學(xué)習(xí)裝置捕捉獲取并形成事件之間的長短期依賴信息,完成事件序列的表示學(xué)習(xí)向量的生成過程;
35、所述社會(huì)搜索熱點(diǎn)預(yù)測裝置捕捉歷史事件之間的相互影響關(guān)系,預(yù)測未來事件的發(fā)生。
36、一種計(jì)算機(jī)裝置/設(shè)備/系統(tǒng),包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)一種基于多特征序列的社會(huì)搜索熱點(diǎn)傳播預(yù)測方法的步驟。
37、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,其特征在于:該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述一種基于多特征序列的社會(huì)搜索熱點(diǎn)傳播預(yù)測方法的步驟。
38、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)一種基于多特征序列的社會(huì)搜索熱點(diǎn)傳播預(yù)測方法的步驟。
39、本發(fā)明的有益效果在于:
40、本發(fā)明可以對社交網(wǎng)絡(luò)中社會(huì)搜索熱點(diǎn)的傳播進(jìn)行有效地預(yù)測,并能夠利用數(shù)據(jù)擬合靈活模擬事件發(fā)展趨勢。本發(fā)明通過多特征序列以及表示向量完成表示過程,使其更好的捕捉事件之間的相互影響關(guān)系,依據(jù)歷史事件的強(qiáng)度函數(shù)完成對事件序列進(jìn)行預(yù)測。