基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及社交網(wǎng)絡(luò)信息分析技術(shù)領(lǐng)域,特別是一種基于高斯混合模型的社交網(wǎng) 絡(luò)用戶興趣預(yù)測方法。
【背景技術(shù)】
[0002] 信息的快速擴散和社交網(wǎng)絡(luò)的便利方便大量用戶分享他們的日?;顒?,交換意 見,或與他人建立友誼。一份報告顯示,在2017年底,全球社交網(wǎng)絡(luò)用戶的數(shù)量估計有23. 3 億。因此,有效的特征學(xué)習(xí)和興趣預(yù)測不僅對用戶(如尋找有相似興趣的用戶),還同樣對 服務(wù)提供者(如在一組應(yīng)用場景中分析用戶行為從而進行個性化推薦)具有重要的意義。
[0003] 然而,鑒于社交數(shù)據(jù)的特征(如數(shù)量巨大、多樣性、數(shù)據(jù)價值高低不一等),高精度 地預(yù)測用戶興趣,同時保證計算復(fù)雜性和延遲在可接受的范圍內(nèi)是很困難的。此外,用戶興 趣特征中,短期興趣可能會動態(tài)改變(如受朋友影響)。因此,提出基于高斯混合模型的社 交網(wǎng)絡(luò)用戶興趣預(yù)測方法,它能夠有效預(yù)測用戶的短期興趣。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明的目的是提供一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測 方法,W實現(xiàn)更高的預(yù)測精度,縮短使用時間,有效預(yù)測用戶的短期興趣。 陽〇化]本發(fā)明采用W下方案實現(xiàn):一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測方 法,包括W下步驟:
[0006] 步驟S1 :從社交網(wǎng)絡(luò)中獲取用戶數(shù)據(jù);
[0007] 步驟S2 :對獲取的用戶數(shù)據(jù)進行特征向量提取,生成一系列的特征向量;
[0008] 步驟S3 :采用高斯混合模型構(gòu)建預(yù)測模型;
[0009] 步驟S4 :采用EM算法優(yōu)化參數(shù)并計算預(yù)測結(jié)果。
[0010] 進一步地,所述步驟S1具體為:獲取P個微博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息作為訓(xùn) 練數(shù)據(jù),獲取q個微博用戶發(fā)表或者轉(zhuǎn)發(fā)的微博信息作為測試數(shù)據(jù),獲取r個熱口微博類別 W及每個熱口微博類別中的S條熱口微博。
[0011] 進一步地,所述步驟S2具體為:對熱口微博進行預(yù)處理,所述預(yù)處理包括分詞、詞 頻統(tǒng)計和去重,可得出t個熱口關(guān)鍵詞作為熱口微博類的興趣特征值,從而生成r個t維的 熱口微博特征向量;同時W微博用戶為單位,對所述訓(xùn)練數(shù)據(jù),測試數(shù)據(jù)進行預(yù)處理,包括 中文分詞、停用詞處理W及詞頻統(tǒng)計;再根據(jù)所述r個t維的熱口微博特征向量,從微博用 戶發(fā)表或轉(zhuǎn)發(fā)的微博信息中提取該用戶對應(yīng)的t個興趣特征值,轉(zhuǎn)換為該微博用戶的特征 向量。
[0012] 較佳的,所述中文分詞的方法為:采用中文分詞系統(tǒng),結(jié)合自定義用戶詞典對微博 星系進行分詞;所述停用詞處理的方法為:采用化shMap快速索引查表法對無用信息進行 過濾降低微博信息的噪音。
[0013] 進一步地,所述步驟S3中的高斯混合模型的定義表示為一個線性疊加的高斯模 型,如公式(1)所示:
[0014]
(1) 陽015] 其中,高斯密度N(x|iik,Sk)為一混合組件,其均值為iik,其協(xié)方差為Sk,Kk為 混合系數(shù);對公式(1)的兩邊關(guān)于X求積分,并標(biāo)準(zhǔn)化p(x)和單個高斯組件,可得公式(2) 如下:
[0016]
(2)
[0017]由于要求p(x) >0,N(x|jik,Xk)>0,則0;
[0018] 結(jié)合公式(2),可到得到公式(3):
[0019] 0《3ik《l做
[0020] 因此,混合系數(shù)滿足成為概率的條件,根據(jù)加乘原理,可得到邊際密度如公式(4) 所示:
(如
[00巧所述公式(4)相當(dāng)于公式(1),其中,3ik=p(k),是第k個元素的先驗概率,密度N(x|iik,Sk) =p(x|k)是k條件下X的概率;因此,根據(jù)貝葉斯定理,生成下列公式巧):
[0023] (5)
[0024] 假定需要進行預(yù)測的特征向量數(shù)據(jù)集為1x1,……,xj,將所述數(shù)據(jù)集表示為一個 NXD矩陣X,其中,x"T表示第N行湘應(yīng)的隱形隨機變量采用一個用z"T表示行的NXK矩陣 Z表不;
[0025] 則高斯混合分布的形可由參數(shù)31,y和S控制的,其中31S{>1,…,31J, y= {>1,…,yj,S= (Si,…,2,};執(zhí)行最大似然估計后,所述公式(1)轉(zhuǎn)化為如下公 式化):
[0026] ^6) 陽027]其中X= {xi,......,XfJ。
[0028] 進一步地,所述步驟S4具體包括W下步驟:
[0029] 步驟S41 :采用EM算法,初始化均值yk,協(xié)方差Sknk和混合系數(shù)nk,并評估初 始對數(shù)似然估計函數(shù)值;
[0030] 步驟S42 :采用W下公式(7)估計隱含類別變量:
[0031]
巧)
[0032] 步驟S43:采用W下公式(8)、公式巧)、公式(10)W及公式(12)進行參數(shù)更新:
[0038] 步驟S44 :采用W下公式(12)評估對數(shù)似然估計函數(shù)值
[0039] (12) W40] 若所述公式不滿足收斂準(zhǔn)則,則返回所述步驟S42。
[0041] 與現(xiàn)有技術(shù)相比,本發(fā)明采用高斯混合模型,對社交網(wǎng)絡(luò)用戶興趣可實現(xiàn)更高的 預(yù)測精度,縮短使用時間,有效預(yù)測用戶的短期興趣。
【附圖說明】
[0042] 圖1為本發(fā)明的方法流程圖。
[0043] 圖2為本發(fā)明中的興趣預(yù)測的系統(tǒng)框架圖。
【具體實施方式】
[0044] 下面結(jié)合附圖及實施例對本發(fā)明做進一步說明。
[0045] 本實施例提供一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測方法,如圖1和圖 2所示,包括W下步驟:
[0046] 步驟S1 :從社交網(wǎng)絡(luò)中獲取用戶數(shù)據(jù);
[0047] 步驟S2:對獲取的用戶數(shù)據(jù)進行特征向量提取,生成一系列的特征向量;
[0048] 步驟S3 :采用高斯混合模型構(gòu)建預(yù)測模型;
[0049] 步驟S4 :采用EM算法優(yōu)化參數(shù)并計算預(yù)測結(jié)果。
[0050] 在本實施例中,所述步驟S1具體為:獲取P個微博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息作 為訓(xùn)練數(shù)據(jù),獲取q個微博用戶發(fā)表或者轉(zhuǎn)發(fā)的微博信息作為測試數(shù)據(jù),獲取r個熱口微博 類別W及每個熱口微博類別中的S條熱口微博。
[0051] 在本實施例中,所述步驟S2具體為:對熱口微博進行預(yù)處理,所述預(yù)處理包括分 詞、詞頻統(tǒng)計和去重,可得出t個熱口關(guān)鍵詞作為熱口微博類的興趣特征值,從而生成r個t 維的熱口微博特征向量;同時W微博用戶為單位,對所述訓(xùn)練數(shù)據(jù),測試數(shù)據(jù)進行預(yù)處理, 包括中文分詞、停用詞處理W及詞頻統(tǒng)計;再根據(jù)所述r個t維的熱口微博特征向量,從微 博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息中提取該用戶對應(yīng)的t個興趣特征值,轉(zhuǎn)換為該微博用戶的 特征向量。
[0052] 在本實施例中,較佳的,所述中文分詞的方法為:采用中文分詞系統(tǒng),結(jié)合自定義 用戶詞典對微博星系進行分詞;所述停用詞處理的方法為:采用化shMap快速索引