網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測方法及裝置。
【背景技術(shù)】
[0002] 我國微博應(yīng)用于2009年正式發(fā)布,正是發(fā)布以來,迅速以其內(nèi)容簡潔、交互便捷 和快速傳播等特點,發(fā)展成為人們表達(dá)觀點、抒發(fā)情緒、傳遞信息的重要社會媒體。截至 2014年6月底,我國微博用戶規(guī)模為2. 75億,用戶之間結(jié)成復(fù)雜的關(guān)注關(guān)系,每天發(fā)送微博 近1億條,信息沿著用戶間的關(guān)注關(guān)系進(jìn)行傳播,形成傳播網(wǎng)絡(luò)。
[0003] 微博轉(zhuǎn)發(fā)是消息在微博網(wǎng)絡(luò)中得到持續(xù)傳播的重要方式,微博轉(zhuǎn)發(fā)預(yù)測能夠有效 估計消息是否能獲得轉(zhuǎn)發(fā)及其轉(zhuǎn)發(fā)規(guī)模,及早發(fā)現(xiàn)可能引發(fā)大規(guī)模爆發(fā)的微博,對微博突 發(fā)性檢測和微博影響力評估具有重要意義。
[0004] 針對微博轉(zhuǎn)發(fā)問題的代表性方法包括以下兩類,一是以Suh為代表的針對某些 消息具有更高的轉(zhuǎn)發(fā)性這一現(xiàn)象,基于Twitter數(shù)據(jù)分析多種微博轉(zhuǎn)發(fā)的影響因素,提取 URL、標(biāo)簽、關(guān)注人數(shù)、粉絲人數(shù)等內(nèi)容和統(tǒng)計特征,通過主成分分析和廣義線性模型的分析 方法,建立各影響因素與微博轉(zhuǎn)發(fā)之間的函數(shù)關(guān)系,以此對微博轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測。二是以 Yang為代表的基于微博轉(zhuǎn)發(fā)樹的方法,通過截取Twitter消息中的RTOusername提取微博 轉(zhuǎn)發(fā)關(guān)系建立微博轉(zhuǎn)發(fā)樹,然后基于因子圖模型建立轉(zhuǎn)發(fā)預(yù)測模型,以用戶為節(jié)點,轉(zhuǎn)發(fā)關(guān) 系為連邊,將用戶轉(zhuǎn)發(fā)和不轉(zhuǎn)發(fā)作為兩種節(jié)點狀態(tài),該模型將節(jié)點屬性、前一時刻節(jié)點狀態(tài) 以及前后兩個時刻的鄰居節(jié)點狀態(tài)作為訓(xùn)練數(shù)據(jù)獲得模型參數(shù),最終實現(xiàn)節(jié)點狀態(tài)預(yù)測。
[0005] 以高轉(zhuǎn)發(fā)率微博屬性提取的方法主要針對用戶靜態(tài)屬性或消息特征來預(yù)測消息 是否會被轉(zhuǎn)發(fā),沒有充分考慮待預(yù)測用戶的個體差異性和知識背景對轉(zhuǎn)發(fā)決策的影響。用 戶在閱讀到一條微博時,會根據(jù)自己已有相關(guān)知識對微博價值和新穎性進(jìn)行判斷,然后決 定是否進(jìn)行轉(zhuǎn)發(fā)。用戶具有哪些相關(guān)知識可以從用戶歷史所發(fā)微博中分析獲得,但通過用 戶歷史微博來獲取用戶所掌握的知識具有時間和內(nèi)容局限性。時間局限性是指用戶歷史微 博反映的都是用戶以往感興趣的內(nèi)容,而用戶的興趣是隨時間和外部事件影響而動態(tài)變化 的,在面對一些新發(fā)生的熱點事件時,無法通過分析歷史微博判斷用戶對熱點事件的感興 趣程度,往往造成預(yù)測準(zhǔn)確性低。內(nèi)容局限性是指微博只是用戶進(jìn)行網(wǎng)絡(luò)交互的一種方式, 難以期望用戶將自己所有的生活、學(xué)習(xí)和工作的方方面面信息完整的反映在微博里。所以 僅依靠用戶歷史微博來計算用戶興趣,進(jìn)而計算用戶興趣與待轉(zhuǎn)發(fā)微博內(nèi)容的相似程度, 據(jù)此判斷用戶是否會轉(zhuǎn)發(fā)某條微博是不準(zhǔn)確的。
[0006] 基于轉(zhuǎn)發(fā)關(guān)系的因子圖模型方法需要建立完整的微博轉(zhuǎn)發(fā)樹、前一時刻節(jié)點狀態(tài) 以及前后兩個時刻的鄰居節(jié)點狀態(tài),這需要獲得完整的轉(zhuǎn)發(fā)關(guān)系和歷史轉(zhuǎn)發(fā)日志數(shù)據(jù),但 是在實際轉(zhuǎn)發(fā)預(yù)測問題中,大部分情況下只能獲取到部分用戶轉(zhuǎn)發(fā)數(shù)據(jù)和局部日志數(shù)據(jù), 建立完整的轉(zhuǎn)發(fā)樹和節(jié)點狀態(tài)是很困難的,并且計算復(fù)雜度較高。
【發(fā)明內(nèi)容】
[0007] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測方法及裝置。
[0008] 本發(fā)明提供一種網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測方法,包括:
[0009] 計算待預(yù)測用戶的轉(zhuǎn)發(fā)行為與熱點事件趨勢的第一匹配度,并計算待預(yù)測微博與 熱點事件的第二匹配度;
[0010] 將第一匹配度、第二匹配度、以及待預(yù)測用戶的信息輸入到預(yù)先訓(xùn)練好的分類器 中,輸出待預(yù)測用戶對待預(yù)測微博的動作類型。
[0011] 優(yōu)選地,計算待預(yù)測用戶的轉(zhuǎn)發(fā)行為與熱點事件趨勢的第一匹配度具體包括:
[0012] 通過提取待預(yù)測微博的話題標(biāo)簽,判斷話題標(biāo)簽內(nèi)容是否命中熱點事件,如果命 中,則確定待預(yù)測微博屬于該熱點事件,如果未命中,則計算待預(yù)測微博的關(guān)鍵詞與熱點事 件匹配度,將匹配度最高的熱點事件判定為待預(yù)測微博所屬的熱點事件。
[0013] 優(yōu)選地,計算待預(yù)測微博的關(guān)鍵詞與熱點事件匹配度具體包括:
[0014] 根據(jù)公式1計算待預(yù)測微博的關(guān)鍵詞與熱點事件匹配度pf;
[0016] 其中,m表示待預(yù)測微博,S表示熱點事件,Vm表示待預(yù)測微博的特征詞集合,V5表 示熱點事件的特征詞集合。
[0017] 優(yōu)選地,計算待預(yù)測微博與熱點事件的第二匹配度具體包括:
[0018] 在熱點事件發(fā)生周期內(nèi),計算熱點事件相關(guān)微博在熱點事件發(fā)生周期內(nèi)每天的積 累轉(zhuǎn)發(fā)量,并計算待預(yù)測微博的用戶在熱點事件發(fā)生周期內(nèi)每天轉(zhuǎn)發(fā)相關(guān)微博的數(shù)量;
[0019] 根據(jù)公式2計算待預(yù)測微博的用戶轉(zhuǎn)發(fā)行為與熱點事件趨勢的匹配度;
[0021] 其中,s表示熱點事件,u表示待預(yù)測微博的用戶,t表示熱點事件發(fā)生周期,<表 示第i天與熱點事件S相關(guān)的微博轉(zhuǎn)發(fā)總量,^^表示ivf的平均值。況^/;)表示第i天用 戶U所轉(zhuǎn)發(fā)的與熱點事件S相關(guān)的微博數(shù)量,允表示的平均值。
[0022] 優(yōu)選地,對分類器進(jìn)行訓(xùn)練具體包括:
[0023] 選取預(yù)訂時段內(nèi)的熱點事件列表,根據(jù)熱點事件列表在網(wǎng)絡(luò)上爬取相關(guān)信息,針 對信息進(jìn)行內(nèi)容提取,對提取的內(nèi)容進(jìn)行分詞和詞頻統(tǒng)計,形成由關(guān)鍵詞組成的特征詞集 合,并獲取與熱點事件列表中的熱點事件相關(guān)的微博用戶作為訓(xùn)練樣本集,并在訓(xùn)練樣本 集中標(biāo)識用戶、微博、以及動作類型之間的關(guān)系;
[0024] 基于訓(xùn)練樣本集,通過提取微博的話題標(biāo)簽,判斷話題標(biāo)簽內(nèi)容是否命中熱點事 件,如果命中,則確定微博屬于該熱點事件,如果未命中,則根據(jù)公式1計算微博的關(guān)鍵詞 與熱點事件匹配度/>,t,將匹配度最高的熱點事件判定為待預(yù)測微博所屬的熱點事件;
[0026] 其中,m表示微博,s表示熱點事件,表示微博的特征詞集合,¥3表示熱點事件的 特征詞集合;
[0027] 基于訓(xùn)練樣本集,在熱點事件發(fā)生周期內(nèi),計算熱點事件相關(guān)微博在熱點事件發(fā) 生周期內(nèi)每天的積累轉(zhuǎn)發(fā)量,并計算微博用戶在熱點事件發(fā)生周期內(nèi)每天轉(zhuǎn)發(fā)相關(guān)微博的 數(shù)量;
[0028] 根據(jù)公式2計算微博用戶轉(zhuǎn)發(fā)行為與熱點事件趨勢的匹配度Af ? ,
[0030] 其中,s表示熱點事件,u表示待預(yù)測微博的用戶,t表示熱點事件發(fā)生周期,iVf表 示第i天與熱點事件S相關(guān)的微博轉(zhuǎn)發(fā)總量,# S表示iVf的平均值。]<(/;)表示第i天用 戶U所轉(zhuǎn)發(fā)的與熱點事件S相關(guān)的微博數(shù)量,允表示的平均值;
[0031] 基于訓(xùn)練樣本集,將微博的關(guān)鍵詞與熱點事件匹配度微博用戶轉(zhuǎn)發(fā)行為與熱 點事件趨勢的匹配度A)、以及動作類型輸入到分類器,對分類器進(jìn)行訓(xùn)練。
[0032] 本發(fā)明還提供了一種網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測裝置,包括:
[0033] 計算模塊,用于計算待預(yù)測用戶的轉(zhuǎn)發(fā)行為與熱點事件趨勢的第一匹配度,并計 算待預(yù)測微博與熱點事件的第二匹配度;
[0034] 預(yù)測模塊,用于將第一匹配度、第二匹配度、以及待預(yù)測用戶的信息輸入到訓(xùn)練模 塊預(yù)先訓(xùn)練好的分類器中,輸出待預(yù)測用戶對待預(yù)測微博的動作類型。
[0035] 優(yōu)選地,計算模塊具體用于:
[0036] 通過提取待預(yù)測微博的話題標(biāo)簽,判斷話題標(biāo)簽內(nèi)容是否命中熱點事件,如果命 中,則確定待預(yù)測微博屬于該熱點事件,如果未命中,則計算待預(yù)測微博的關(guān)鍵詞與熱點事 件匹配度,將匹配度最高的熱點事件判定為待預(yù)測微博所屬的熱點事件。
[0037] 優(yōu)選地,計算模塊具體用于:
[0038] 根據(jù)公式1計算待預(yù)測微博的關(guān)鍵詞與熱點事件匹配度pf ;
[0040]其中,m表示待預(yù)測微博,s表示熱點事件,Vm表示待預(yù)測微博的特征詞集合,V 5表 示熱點事件的特征詞集合。
[0041] 優(yōu)選地,計算模塊具體用于:
[0042] 在熱點事件發(fā)生周期內(nèi),計算熱點事件相關(guān)微博在熱點事件發(fā)生周期內(nèi)每天的積 累轉(zhuǎn)發(fā)量,并計算待預(yù)測微博的用戶在熱點事件發(fā)生周期內(nèi)每天轉(zhuǎn)發(fā)相關(guān)微博的數(shù)量;
[0043] 根據(jù)公式2計算待預(yù)測微博的用戶轉(zhuǎn)發(fā)行為與熱點事件趨勢的匹配度Pf ;
[0045] 其中,s表示熱點事件,u表示待預(yù)測微博的用戶,t表示熱點事件發(fā)生周期,If 表示第i天與熱點事件S相關(guān)的微博轉(zhuǎn)發(fā)總量,分s表示iVf的平均值。ivf的表示第i天 用戶U所轉(zhuǎn)發(fā)的與熱點事件S相關(guān)的微博數(shù)量,&表示<的的平均值。
[0046] 優(yōu)選地,訓(xùn)練模塊具體用于:
[0047] 選取預(yù)訂時段內(nèi)的熱點事件列表,根據(jù)熱點事件列表在網(wǎng)絡(luò)上爬取相關(guān)信息,針 對信息進(jìn)行內(nèi)容提取,對提取的內(nèi)容進(jìn)行分詞和詞頻統(tǒng)計,形成由關(guān)鍵詞組成的特征詞集 合,并獲取與熱點事件列表中的熱點事件相關(guān)的微博用戶作為訓(xùn)練樣本集,并在訓(xùn)練樣本 集中標(biāo)識用戶、微博、以及動作類型之間的關(guān)系;
[0048] 基于訓(xùn)練樣本集,通過提取微博的話題標(biāo)簽,判斷話題標(biāo)簽內(nèi)容是否命中熱點事 件,如果命中,則確定微博屬于該熱點事件,如果未命中,則根據(jù)公式1計算