一種基于社會網(wǎng)絡(luò)的移動終端用戶分組方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及移動通信技術(shù)與數(shù)據(jù)挖掘領(lǐng)域,更具體的說,本發(fā)明涉及一種基于社 會網(wǎng)絡(luò)的移動終端用戶分組方法,可以有效挖掘用戶屬性以及用戶之間的關(guān)系,進行合理 的分組。
【背景技術(shù)】
[0002] 由于真實世界中大數(shù)據(jù)的堆積生成,對于網(wǎng)絡(luò)的研究成果越來越多的被人們發(fā)掘 并利用,為人們更為深入認(rèn)識現(xiàn)實世界中的各類復(fù)雜的網(wǎng)絡(luò)系統(tǒng),并對這些系統(tǒng)控制或應(yīng) 用提供了有效幫助。社會網(wǎng)絡(luò)能夠反映社會成員及其相互關(guān)系,而如何通過對社會網(wǎng)絡(luò)的 分析,挖掘出隱藏在表面關(guān)系之下的隱形關(guān)系,并根據(jù)這些關(guān)系對用戶進行分組,對于優(yōu)化 現(xiàn)有通信網(wǎng)絡(luò)資源分配、提高用戶通信體驗、同時給社會帶來巨大經(jīng)濟效益等方面具有十 分重大的意義。這就需要從用戶之間形成的錯綜復(fù)雜的社會關(guān)系中得到一種合理有效的用 戶分組方案。
[0003] 而社會網(wǎng)絡(luò)的形成主要來源于人與人之間客觀存在的相互聯(lián)系,與此同時,人們 主觀上對于事物的偏好程度也影響著社會網(wǎng)絡(luò)的形成,于是需要結(jié)合用戶之間存在的客觀 聯(lián)系以及用戶自身的特點,才能更加有效地挖掘用戶之間的潛在關(guān)系,進行合理的社區(qū)分 組。
[0004] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn):
[0005] 現(xiàn)有的技術(shù)方案中,并沒有根據(jù)終端用戶之間在移動通信網(wǎng)絡(luò)場景中表現(xiàn)出的用 戶歷史行為設(shè)置用戶之間的權(quán)重,用戶之間的影響力不能很好的體現(xiàn)出來,同時對于用戶 的屬性預(yù)測不夠全面,無法預(yù)測出用戶不喜歡某一事物,并且在傳統(tǒng)社區(qū)分組方法中根據(jù) 隨機游走模型產(chǎn)生的用戶之間轉(zhuǎn)移概率矩陣運算復(fù)雜度較高,大大降低了終端用戶分組方 法的可行性和實用性。
【發(fā)明內(nèi)容】
[0006] 針對現(xiàn)有技術(shù)的不足,提出了一種降低了運算復(fù)雜度、提高了分組準(zhǔn)確度的基于 社會網(wǎng)絡(luò)的移動終端用戶分組方法。本發(fā)明的技術(shù)方案如下:一種基于社會網(wǎng)絡(luò)的移動終 端用戶分組方法,其包括以下步驟:
[0007] A、輸入終端用戶數(shù)據(jù),根據(jù)終端用戶之間的通信關(guān)系建立社會關(guān)系圖STGjPGi = {VI,El},其中,| VI | = η代表終端用戶數(shù),其中η代表代表終端用戶數(shù),El代表圖中兩個終 端用戶之間通信的關(guān)聯(lián)度,生成不同的社會關(guān)系分類,為處在不同類的用戶分配相應(yīng)的類 權(quán)值'(〃>,〃/),并根據(jù)類權(quán)值計算終端用戶之間的親密度ws(Ui, aj ;
[0008] B、建立屬性關(guān)系圖ARGJPG2= {¥232一},其中,以|=11,11代表終端用戶數(shù), |A| =m,m為屬性數(shù),E2代表圖中用戶對屬性存在關(guān)聯(lián)度,建立社會屬性-關(guān)系增廣圖 (SARG),采用社會關(guān)系-屬性鏈路預(yù)測(SAPLA)算法對不存在關(guān)聯(lián)度的用戶以及屬性進行 預(yù)測,同時根據(jù)社會關(guān)系圖(STG)中存在聯(lián)系的終端用戶之間的親密度,對已存在關(guān)聯(lián)度 的用戶與屬性之間的偏好程度進行調(diào)整,終端用戶W對于屬性&]之間的偏好程度表示為權(quán) M Wa (ui; aj);
[0009] C.利用社會關(guān)系-屬性合并(SARA)算法,獲得終端用戶之間的轉(zhuǎn)移概率矩陣P, 給出隨機行走距離矩陣R1;
[0010] D.根據(jù)隨機行走距離矩陣R1以及聚類算法,設(shè)定目標(biāo)函數(shù),確定社區(qū)分組中心點, 對終端用戶進行分組,直至目標(biāo)函數(shù)收斂,完成移動終端用戶分組
[0011] 進一步的,所述終端用戶數(shù)據(jù)包括:終端用戶集U = {Ul,u2,…un},終端用戶屬性 集A = {a^ a2,…,am},其中η ;個值,即竭=丨《,1,》,2,"鳴》,),3_$表示第」個屬性的取值 為值域中第k個值。
[0012] 進一步的,所述步驟A中,通過統(tǒng)計終端用戶基于通信時段CS、通信頻率CF、 通信間隔CI、信道占用率C0的通信歷史,對用戶進行分類并分配給每一類用戶類權(quán)值 在類內(nèi)通過通信頻率CF和信道占用率C0量化用戶通信聯(lián)系,從而獲得終端用戶 之間親密度Ws(Ui, Uj)。
[0013] 進一步的,所述步驟B中,根據(jù)社會關(guān)系-屬性鏈路預(yù)測(SAPLA)算法對終端用戶 與屬性之間的wa(Ul,a])進行預(yù)測,如果wa( Ul,a]) < 0,表示該用戶對此屬性的態(tài)度消極,即 用戶與屬性之間不可達,將pO^a,)置為0。
[0014] 進一步的,所述步驟C中,根據(jù)社會關(guān)系-屬性合并(SARA)算法,即分別利用社會 關(guān)系圖STG中得到的終端用戶之間轉(zhuǎn)移概率PU,ARG中的到的用戶-屬性轉(zhuǎn)移概率Pua和屬 性-用戶轉(zhuǎn)移概率Pau,調(diào)用公式
,其中c e (〇,1) 為隨機游走的起始概率,獲得終端用戶之間的1步隨機游走距離矩陣R1。
[0015] 進一步的,所述步驟D中,根據(jù)已獲得的1步隨機游走距離矩陣R1,確定與其他用 戶聯(lián)系較為緊密的k個用戶節(jié)點,計算聚類系數(shù)%,將的值進行排列選取最大的k個 值,即為k個中心點?. + ···,4卜并將所有節(jié)點+e | V|分配給離它具有最大行走距離的 中心點,直至目標(biāo)函數(shù)收斂。
[0016] 進一步的,根據(jù)ARG中的到的用戶-屬性轉(zhuǎn)移概率Pua和屬性-用戶轉(zhuǎn)移概率P au, Pua · Pau代表任意兩個用戶中是否存在共同的屬性,式
表明如果兩個用 戶具有共同屬性且已存在通信聯(lián)系,則這兩名用戶之間轉(zhuǎn)移的概率更大,即兩名用戶具有 更高的親密度。
[0017] 本發(fā)明的優(yōu)點及有益效果如下:
[0018] 本發(fā)明應(yīng)用于移動通信網(wǎng)絡(luò)中移動終端用戶的分組問題。與現(xiàn)有技術(shù)相比,提出 的SAPLA算法可以對終端用戶的偏好屬性進行預(yù)測;SARA算法可以充分利用終端用戶之間 的屬性特征,同時降低了運算復(fù)雜度以及實現(xiàn)難度。隨著移動終端設(shè)備的不斷普及,伴隨著 移動網(wǎng)絡(luò)服務(wù)已被廣泛應(yīng)用于人們?nèi)粘I钪?,因此針對如何解決移動用戶需求個性化以 及實時準(zhǔn)確的為用戶提供他們所感興趣的移動網(wǎng)絡(luò)服務(wù)的問題,使得終端用戶分組具有越 來越廣泛的應(yīng)用前景,本專利將可能帶來巨大的經(jīng)濟效益。
【附圖說明】
[0019] 圖1是本發(fā)明提供優(yōu)選實施例利用社會網(wǎng)絡(luò)在移動網(wǎng)絡(luò)場景下對終端用戶進行 分組的方法示意圖;
[0020] 圖2為在社會關(guān)系圖STG中將用戶關(guān)系分成四類示意圖;
[0021 ] 圖3為本發(fā)明的SAPLA算法示意圖。
【具體實施方式】
[0022] 以下結(jié)合附圖,對本發(fā)明作進一步說明:
[0023] 通過終端用戶之間已經(jīng)客觀存在的通信聯(lián)系,可以建立基于此的社會關(guān)系圖STG, 與此同時,終端用戶之間的轉(zhuǎn)移過程特性滿足馬爾可夫特性,所以根據(jù)η步轉(zhuǎn)移概率,可以 挖掘用戶之間看似不存在直接聯(lián)系下的隱含關(guān)系。而隨著移動終端設(shè)備的不斷普及,伴隨 著移動網(wǎng)絡(luò)服務(wù)已被廣泛應(yīng)用于人們?nèi)粘I钪?,如何解決移動用戶需求個性化以及實時 準(zhǔn)確的為用戶提供他們所感興趣的移動網(wǎng)絡(luò)服務(wù),使得社區(qū)分組的重要性日益突顯。同時 區(qū)別于傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)絡(luò),移動網(wǎng)絡(luò)具有自己的特性,即其社會網(wǎng)絡(luò)較為稀疏,因此將終端用 戶的屬性引入至社區(qū)分組,可以使更加準(zhǔn)確合理的社區(qū)分組成為可能。
[0024] 本發(fā)明中具體包含如下:
[0025] Α.首先根據(jù)終端用戶的通信歷史,建立社會關(guān)系圖STG,圖2所示為在社會關(guān)系圖 STG中將用戶關(guān)系分成四類示意圖。其中,定義四個指標(biāo)如下:
[0026] 1)通信頻率CF :即用戶Ui在時間Δ t內(nèi)與該用戶聯(lián)系次數(shù)N u占與所有用戶的 聯(lián)系次數(shù)的比值,因此CF可表示為
[0027] 2)通信時段CS :將通話時段分為兩個時段segment = {working, leisure},其中 {9:00-12:00, 13:00-18:00}定義為工作時段,其他時間定義為閑暇時間。該指標(biāo)描述用戶 Ul在時間At內(nèi)與該用戶聯(lián)系時段hu占工作時段的比例,因此CS可表示為
[0028] 3)信道占用率C0:即用戶Ul在時間At內(nèi)與該用戶通話時長Xu占與所有用戶 通話時長的比例,因此C0可表示為
[0029] 4)通信間隔CI :8卩Ul在時間At內(nèi)與該用戶聯(lián)系距離上一次與聯(lián)系的時間間隔 占與所有用戶聯(lián)系的時間間隔的比值,因此CI可表示為
[0030] B.考慮以上指標(biāo),可以生成不同的社會關(guān)系分類,為處在不同的類的用 戶分配相應(yīng)的類權(quán)值% 。調(diào)用公式
'并計算用戶 之間的親密度ws(Ul,Uj),可以表示為
,其中
[0031 ] 圖3所示為本發(fā)明的SAPLA算法示意圖。SAPLA算法具體過程為:
[0032] A.首先定義Np(Ul)表示與終端用戶Ul相連的用戶,Na( Ul)表示與終端用戶化相 連的屬