基于人群畫像技術(shù)的用戶相似度計(jì)算方法與流程

文檔序號(hào)：12177137閱讀：3458來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于信息識(shí)別技術(shù)領(lǐng)域，特別涉及一種基于人群畫像技術(shù)的用戶相似度計(jì)算方法。

背景技術(shù)：

微博是現(xiàn)階段最熱門的社交媒體，以新浪、騰訊為代表的國(guó)內(nèi)微博網(wǎng)站的用戶規(guī)模在近幾年得到飛速增長(zhǎng)。以新浪微博為例，截止到12年底，其注冊(cè)用戶數(shù)已經(jīng)超過5億，而每天的活躍用戶數(shù)就已經(jīng)突破4620萬(wàn)人。隨著微博行業(yè)的快速發(fā)展，和其相關(guān)的各種應(yīng)用和服務(wù)正在創(chuàng)造越來(lái)越多的商業(yè)價(jià)值。

讓用戶使用個(gè)性標(biāo)簽是新浪和騰訊等主流網(wǎng)站提供的一個(gè)重要服務(wù)，用戶可以使用這些標(biāo)簽來(lái)描述自己的身份、職業(yè)、興趣、宗教信仰等個(gè)人屬性，甚至是表達(dá)自己的某些觀點(diǎn)。作為用戶個(gè)人屬性描述的重要補(bǔ)充，用戶的標(biāo)簽連同個(gè)人信息頁(yè)面的其它內(nèi)容都能作為瀏覽者詳細(xì)了解該用戶的重要信息來(lái)源。而深入了解一個(gè)用戶則對(duì)很多現(xiàn)實(shí)的應(yīng)用有所幫助，如特殊用戶搜索、好友推薦、在線廣告和企業(yè)的客戶關(guān)系管理等等。因此，為每個(gè)微博用戶推薦一組能夠準(zhǔn)確描述用戶相關(guān)屬性的標(biāo)簽對(duì)于刻畫不同用戶群體的特征，或稱作用戶人群畫像，具有重要意義。同時(shí)，基于用戶標(biāo)簽的用戶相似度計(jì)算，在好友推薦，內(nèi)容推薦方面都有廣泛的應(yīng)用。

已有的社會(huì)標(biāo)簽推薦系統(tǒng)使用的方法并不能直接應(yīng)用于微博用戶標(biāo)簽的場(chǎng)景，這是因?yàn)椋含F(xiàn)有的社會(huì)標(biāo)注系統(tǒng)大都針對(duì)網(wǎng)絡(luò)物體的標(biāo)注，如Flickr網(wǎng)站中的圖片或者URL鏈接資源。這些系統(tǒng)都是為用戶提供標(biāo)簽來(lái)標(biāo)注物體，而非用戶本身。像很多以協(xié)同過濾(collaborative filtering)[1]為基本推薦機(jī)制的推薦算法都是建立在這樣一個(gè)假設(shè)之上。假設(shè)用戶A和用戶B之前已經(jīng)對(duì)很多物體對(duì)象的標(biāo)注使用了相同或相似的標(biāo)簽，就說(shuō)明A和B對(duì)事物的認(rèn)知非常相似，那么A對(duì)于一個(gè)新物體的標(biāo)注則很有可能使用B對(duì)該物體用過的相同標(biāo)簽。但是，在對(duì)微博用戶的標(biāo)注中，這種假設(shè)并不成立，因?yàn)橛脩糁粫?huì)對(duì)自己標(biāo)注，甚至很多用戶對(duì)自己都沒有使用任何標(biāo)簽。

社會(huì)標(biāo)注更看重大多數(shù)人對(duì)某一物體對(duì)象的集體偏好來(lái)做標(biāo)簽推薦，而標(biāo)注微博用戶卻要考慮如何真實(shí)地刻畫被標(biāo)注用戶的個(gè)人偏好。顯然，發(fā)掘用戶的個(gè)人特性和偏好要比尋找大眾的偏好更難，因?yàn)槊總€(gè)人都有自己獨(dú)特的個(gè)性。

冷啟動(dòng)(cold start)問題，尤其考慮到新浪微博用戶中有將近一半的人是沒有任何標(biāo)簽的。所謂冷啟動(dòng)，是指在向一個(gè)用戶推薦某個(gè)新出現(xiàn)的物體(如某件商品)時(shí)，由于對(duì)于該物體沒有歷史的推薦記錄可以參考，使得推薦算法無(wú)法起作用。一個(gè)真實(shí)的人遠(yuǎn)比一個(gè)物體復(fù)雜，他可以使用很多個(gè)標(biāo)簽來(lái)分別描述自己各個(gè)方面的特性，例如教育背景、興趣愛好，甚至是崇拜的明星等等。怎樣才能找出一組多樣化的標(biāo)簽是非常具有挑戰(zhàn)性的工作。標(biāo)簽中存在的語(yǔ)義冗余問題。如新浪微博只允許一個(gè)用戶最多使用10個(gè)標(biāo)簽，那么每個(gè)用戶自然希望每個(gè)標(biāo)簽都盡可能地描述自己，對(duì)于同義詞或者近義詞一般來(lái)說(shuō)是不會(huì)同時(shí)放入自己的標(biāo)簽列的。

[1]T.Hofmann.Collaborative filtering via Gaussian probabilistic latent semantic analysis.In Proc.of SIGIR,2003.

技術(shù)實(shí)現(xiàn)要素：

發(fā)明目的：本發(fā)明提供一種基于人群畫像技術(shù)的用戶相似度計(jì)算方法，利用微博用戶標(biāo)簽來(lái)對(duì)互聯(lián)網(wǎng)用戶做人群畫像；利用中文知識(shí)圖譜來(lái)識(shí)別標(biāo)簽中的語(yǔ)義冗余；將信息檢索中對(duì)關(guān)鍵詞的tf-rw(詞頻-相關(guān)權(quán)重)打分機(jī)制應(yīng)用于微博標(biāo)簽的挖掘，并對(duì)算法做相應(yīng)改進(jìn)提高標(biāo)簽推薦準(zhǔn)確率；將LDA文本主題模型應(yīng)用于微博用戶的標(biāo)簽集合，從而刻畫出每個(gè)微博用戶的主題分布，為準(zhǔn)確的人群畫像服務(wù)；利用微博標(biāo)簽以及微博主題分布來(lái)計(jì)算用戶相似度。從而解決上述現(xiàn)有技術(shù)中出現(xiàn)冷啟動(dòng)、不能多樣化刻畫人物、語(yǔ)句冗余等問題。

技術(shù)方案：為實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案為：

基于人群畫像技術(shù)的用戶相似度計(jì)算方法，包括標(biāo)簽推薦模塊、標(biāo)簽主題類聚模塊、用戶相似度計(jì)算模塊；

其中，所述標(biāo)簽推薦模塊算法步驟包括：同質(zhì)性推薦、共現(xiàn)性擴(kuò)展和消除語(yǔ)義冗余；

其中，所述標(biāo)簽主題類聚模塊用于對(duì)標(biāo)簽推薦模塊產(chǎn)生的標(biāo)簽信息進(jìn)行聚類分析；

其中，所述用戶相似度計(jì)算模塊用于對(duì)標(biāo)簽主題類聚模塊產(chǎn)生的用戶標(biāo)簽以及聚類分析的結(jié)果，進(jìn)行用戶的相似度的計(jì)算。

進(jìn)一步，所述同質(zhì)性推薦的具體算法步驟包括：

步驟(A)，從目標(biāo)用戶u的互粉好友群體中選出最頻繁使用的標(biāo)簽tag作為目標(biāo)用戶u的候選標(biāo)簽；

步驟(B)，通過評(píng)分函數(shù)score(tag)對(duì)候選的標(biāo)簽tag進(jìn)行排序，評(píng)分函數(shù)score(tag)是候選的標(biāo)簽tag的分值，利用tf-rw詞頻打分機(jī)制來(lái)計(jì)算評(píng)分函數(shù)score(tag)，score(tag)＝tf(tag)×rw(tag)，tf(tag)和rw(tag)的計(jì)算公式如公式(1)和(2)所示

其中，在公式(1)中，Ngb(u)表示目標(biāo)用戶u的微博互粉對(duì)象集合，n(Ngb(u),tag)是集合Ngb(u)中的用戶使用了標(biāo)簽tag的人次，而(Ngb(u))則表示目標(biāo)用戶u的微博互粉對(duì)象Ngb(u)使用的全體標(biāo)簽集合；

公式(2)中，N是所有微博用戶總數(shù)，n(tag)是所有微博用戶中使用了標(biāo)簽tag的人數(shù)。

進(jìn)一步，所述步驟(A)前增加標(biāo)簽傳播算法對(duì)候選的標(biāo)簽t的計(jì)算，其具體步驟包括：

步驟(A1)，對(duì)于目標(biāo)用戶u的微博互粉好友中沒有標(biāo)簽的用戶v，使用的tf-rw方法利用用戶v的互粉好友的最頻繁使用的標(biāo)簽來(lái)生成用戶v的標(biāo)簽集合；

步驟(A2)，生成目標(biāo)用戶u的ego網(wǎng)絡(luò)，該ego網(wǎng)絡(luò)的所有結(jié)點(diǎn)為目標(biāo)用戶u和他所有互粉好友，互粉關(guān)系編為所有節(jié)點(diǎn)之間的連接邊，后續(xù)的標(biāo)簽傳播都局限在該ego網(wǎng)絡(luò)中。

進(jìn)一步，所述共現(xiàn)性擴(kuò)展用于利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽，使得最終推薦給用戶的標(biāo)簽有足夠的多樣性，多方面刻畫用戶的屬性。

進(jìn)一步，所述共現(xiàn)性擴(kuò)展的具體操作步驟包括：

步驟(C)，對(duì)候選集合C中每一個(gè)候選的標(biāo)簽tag，對(duì)其進(jìn)行共現(xiàn)標(biāo)簽挖掘，然后選出與tag共現(xiàn)關(guān)系最強(qiáng)的前k個(gè)標(biāo)簽，作為擴(kuò)展標(biāo)簽。該標(biāo)簽tag為擴(kuò)展標(biāo)簽的父標(biāo)簽，共現(xiàn)關(guān)系的計(jì)算公式score(tag,tag’)如公式(3)所示：

score(tag,tag′)＝tf(tag)×rw(tag,tag′) (3)

步驟(D)，用C′來(lái)表示共現(xiàn)性擴(kuò)展結(jié)束后得到的候選推薦標(biāo)簽集合，那么C′-C則代表了這一步中新擴(kuò)展出來(lái)的標(biāo)簽，由于C′是通過兩種方式推薦排序機(jī)制得到的，因此需要對(duì)C′中的標(biāo)簽進(jìn)行統(tǒng)一重新排序，重新排序的核心思路就是要保證C′-C中的新增標(biāo)簽的排序評(píng)分和之前一步得到的C集合中的標(biāo)簽既有競(jìng)爭(zhēng)力，又小于其父標(biāo)簽的排序評(píng)分，新的排序評(píng)分函數(shù)newScore(tag)如公式(5)所示：

其中，p(tag)是tag的父標(biāo)簽，即該tag是由p(tag)通過共現(xiàn)性擴(kuò)展方法擴(kuò)展而來(lái)；λ∈(0,1)是一個(gè)懲罰因子，Z則是標(biāo)準(zhǔn)化因子，一般設(shè)為在tag的共現(xiàn)標(biāo)簽中的得分最大值。

進(jìn)一步，所述消除語(yǔ)義冗余用于鑒別標(biāo)簽列表中的同義標(biāo)簽或近義標(biāo)簽，消除候選標(biāo)簽組中存在的同義標(biāo)簽或近義標(biāo)簽，消除冗余。

進(jìn)一步，所述消除語(yǔ)義冗余的具體操作為：從在線百科網(wǎng)站上獲取的語(yǔ)義實(shí)體數(shù)據(jù)構(gòu)建中文知識(shí)圖譜，通過將候選標(biāo)簽組中的所有標(biāo)簽映射到圖譜網(wǎng)絡(luò)中，度量出兩個(gè)標(biāo)簽之間的語(yǔ)義距離，該距離為兩詞之間的相似程度，郵箱此誠(chéng)不判斷是否為近義詞或同義詞，刪除該近義詞或同義詞，刪除后的候選標(biāo)簽組為用戶預(yù)估標(biāo)簽。

進(jìn)一步，所述語(yǔ)義距離具體計(jì)算方式如下，用u和v來(lái)表示兩個(gè)在語(yǔ)義網(wǎng)絡(luò)中的標(biāo)簽，圖譜網(wǎng)絡(luò)是一個(gè)有向網(wǎng)絡(luò)，用In(u)和In(v)來(lái)分別表示指向標(biāo)簽u和標(biāo)簽v的結(jié)點(diǎn)，而用Out(u)和Out(v)來(lái)分別表示標(biāo)簽u和標(biāo)簽v指向的結(jié)點(diǎn)。每個(gè)標(biāo)簽的權(quán)值weight(u)計(jì)算如公式(6)所示：

這里的N是整個(gè)語(yǔ)義網(wǎng)絡(luò)的結(jié)點(diǎn)總數(shù)。那么兩個(gè)標(biāo)簽的相似度利用帶權(quán)值的Jaccard相似度系數(shù)計(jì)算，公式如(7)所示：

進(jìn)一步，所述標(biāo)簽主題類聚模塊將標(biāo)簽推薦模塊中產(chǎn)生的用戶預(yù)估標(biāo)簽進(jìn)行聚類分析，每一個(gè)類可以代表一個(gè)主題或一個(gè)用戶群體，從而判斷出每位用戶所屬的類，得到的標(biāo)簽主體分布。

進(jìn)一步，所述標(biāo)簽主題類聚模塊的聚類方法為利用LDA工具對(duì)用戶預(yù)估標(biāo)簽的主題分布進(jìn)行聚類分析。

進(jìn)一步，所述用戶相似度計(jì)算通過利用cosine距離或者Kullback-Leibler距離或者Jensen-Shannon距離來(lái)計(jì)算兩個(gè)用戶的用戶標(biāo)簽和標(biāo)簽主題分布的相似度，利用Noisy-Or模型綜合兩個(gè)用戶相似度，得到最終的兩個(gè)用戶的相似度。

有益效果：與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點(diǎn)：

1、采用同質(zhì)性推薦方法，將他的互粉好友最常使用而且信息量豐富的標(biāo)簽推薦給他，解決了冷啟動(dòng)問題，尤其考慮到新浪微博用戶中有將近一半的人是沒有任何標(biāo)簽的；

2、采用了共線性擴(kuò)展方法利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽，從而使得最終推薦給用戶的標(biāo)簽有足夠的多樣性，解決了多樣化刻畫用戶多方面的屬性；

3、從在線百科網(wǎng)站上爬取的數(shù)據(jù)構(gòu)建了一個(gè)中文語(yǔ)義網(wǎng)絡(luò)。通過將微博標(biāo)簽映射到語(yǔ)義網(wǎng)中的實(shí)體，能夠度量?jī)蓚€(gè)標(biāo)簽之間的語(yǔ)義距離，即相似程度，將相似標(biāo)簽刪除，解決了推薦的標(biāo)簽中存在的語(yǔ)義冗余問題。

附圖說(shuō)明

圖1是本發(fā)明的模塊示意圖。

具體實(shí)施方式

基于人群畫像技術(shù)的用戶相似度計(jì)算方法，包括標(biāo)簽推薦模塊、標(biāo)簽主題類聚模塊、用戶相似度計(jì)算模塊；其中，所述標(biāo)簽推薦模塊算法步驟包括：同質(zhì)性推薦、共現(xiàn)性擴(kuò)展和消除語(yǔ)義冗余；其中，所述標(biāo)簽主題類聚模塊用于對(duì)標(biāo)簽推薦模塊產(chǎn)生的標(biāo)簽信息進(jìn)行聚類分析；其中，所述用戶相似度計(jì)算模塊用于對(duì)標(biāo)簽主題類聚模塊產(chǎn)生的用戶標(biāo)簽以及聚類分析的結(jié)果，進(jìn)行用戶的相似度的計(jì)算。

前述同質(zhì)性推薦的具體算法步驟包括：

步驟(A)，從目標(biāo)用戶u的互粉好友群體中選出最頻繁使用的標(biāo)簽tag作為目標(biāo)用戶u的候選標(biāo)簽；

公式(2)中，N是所有微博用戶總數(shù)，n(tag)是所有微博用戶中使用了標(biāo)簽tag的人數(shù)。

前述步驟(A)前增加標(biāo)簽傳播算法對(duì)候選的標(biāo)簽t的計(jì)算，其具體步驟包括：

前述共現(xiàn)性擴(kuò)展用于利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽，使得最終推薦給用戶的標(biāo)簽有足夠的多樣性，多方面刻畫用戶的屬性。

進(jìn)一步，所述共現(xiàn)性擴(kuò)展的具體操作步驟包括：

score(tag,tag′)＝tf(tag)×rw(tag,tag′) (3)

其中，p(tag)是tag的父標(biāo)簽，即該tag是由p(tag)通過共現(xiàn)性擴(kuò)展方法擴(kuò)展而來(lái)；λ∈(0,1)是一個(gè)懲罰因子，Z則是標(biāo)準(zhǔn)化因子，一般設(shè)為在tag的共現(xiàn)標(biāo)簽中的score(tag,tag’)最大值。

前述消除語(yǔ)義冗余用于鑒別標(biāo)簽列表中的同義標(biāo)簽或近義標(biāo)簽，消除候選標(biāo)簽組中存在的同義標(biāo)簽或近義標(biāo)簽，消除冗余。

前述消除語(yǔ)義冗余的具體操作為：從在線百科網(wǎng)站上獲取的語(yǔ)義實(shí)體數(shù)據(jù)構(gòu)建中文知識(shí)圖譜，通過將候選標(biāo)簽組中的所有標(biāo)簽映射到圖譜網(wǎng)絡(luò)中，度量出兩個(gè)標(biāo)簽之間的語(yǔ)義距離，該距離為兩詞之間的相似程度，郵箱此誠(chéng)不判斷是否為近義詞或同義詞，刪除該近義詞或同義詞，刪除后的候選標(biāo)簽組為用戶預(yù)估標(biāo)簽。

前述語(yǔ)義距離具體計(jì)算方式如下，用u和v來(lái)表示兩個(gè)在語(yǔ)義網(wǎng)絡(luò)中的標(biāo)簽，圖譜網(wǎng)絡(luò)是一個(gè)有向網(wǎng)絡(luò)，用In(u)和In(v)來(lái)分別表示指向標(biāo)簽u和標(biāo)簽v的結(jié)點(diǎn)，而用Out(u)和Out(v)來(lái)分別表示標(biāo)簽u和標(biāo)簽v指向的結(jié)點(diǎn)。每個(gè)標(biāo)簽的權(quán)值weight(u)計(jì)算如公式(6)所示：

前述標(biāo)簽主題類聚模塊將標(biāo)簽推薦模塊中產(chǎn)生的用戶預(yù)估標(biāo)簽進(jìn)行聚類分析，每一個(gè)類可以代表一個(gè)主題或一個(gè)用戶群體，從而判斷出每位用戶所屬的類，得到的標(biāo)簽主體分布。

前述標(biāo)簽主題類聚模塊的聚類方法為利用LDA工具對(duì)用戶預(yù)估標(biāo)簽的主題分布進(jìn)行聚類分析。

前述用戶相似度計(jì)算通過利用cosine距離或者Kullback-Leibler距離或者Jensen-Shannon距離來(lái)計(jì)算兩個(gè)用戶的用戶標(biāo)簽和標(biāo)簽主題分布的相似度，利用Noisy-Or模型綜合兩個(gè)用戶相似度，得到最終的兩個(gè)用戶的相似度。

下面結(jié)合實(shí)施例對(duì)本發(fā)明作更進(jìn)一步的說(shuō)明。

如圖1所示，針對(duì)上述背景技術(shù)中提及的技術(shù)難題和研究目的，本技術(shù)在以往相關(guān)研究技術(shù)的基礎(chǔ)上，融入全新的算法思想，并借助海量的互聯(lián)網(wǎng)語(yǔ)義實(shí)體信息(中文知識(shí)圖譜)實(shí)現(xiàn)了準(zhǔn)確的微博用戶人群畫像技術(shù)。本技術(shù)涵蓋的技術(shù)內(nèi)容主要分為微博用戶的標(biāo)簽推薦和標(biāo)簽主題聚類兩大模塊，其中標(biāo)簽推薦模塊中涉及的推薦算法又涵蓋三個(gè)主要的工作步驟。算法的每一步正好應(yīng)對(duì)了上述每一個(gè)挑戰(zhàn)中的難題。同時(shí)基于標(biāo)簽推薦的結(jié)果，我們實(shí)現(xiàn)了用戶相似度計(jì)算的模塊。

模塊一：標(biāo)簽推薦：涉及的標(biāo)簽推薦算法三個(gè)步驟簡(jiǎn)述如下：

同質(zhì)性推薦:這一步是為了解決冷啟動(dòng)問題。核心思想是對(duì)于一個(gè)微博用戶，將他的微博好友最常使用的標(biāo)簽推薦給他。在對(duì)候選標(biāo)簽進(jìn)行篩選排序時(shí)，可以使用frequency(使用頻率最多的標(biāo)簽)、tf-idf(詞頻-倒文檔頻率)和tf-rw三種打分機(jī)制。經(jīng)過實(shí)證研究，優(yōu)選地采用tf-rw打分機(jī)制，該機(jī)制同樣基于tf-idf思想，能夠更進(jìn)一步地去除那些過于被全體用戶廣泛使用的標(biāo)簽，而保留那些對(duì)目標(biāo)用戶具有個(gè)性刻畫能力的標(biāo)簽。除了這幾種標(biāo)簽打分機(jī)制外，同時(shí)我們還實(shí)現(xiàn)了一種局部的多標(biāo)簽傳播算法來(lái)為目標(biāo)用戶生成推薦的標(biāo)簽。

共現(xiàn)性擴(kuò)展:本模塊還利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽，從而使得最終推薦給用戶的標(biāo)簽有足夠的多樣性，盡可能地刻畫用戶多方面的屬性。

消除語(yǔ)義冗余:為了消除候選標(biāo)簽組中存在的語(yǔ)義冗余，從在線百科網(wǎng)站上爬取的語(yǔ)義實(shí)體數(shù)據(jù)構(gòu)建了一個(gè)龐大的中文知識(shí)圖譜(Chinese knowledge base)。通過將微博標(biāo)簽映射到圖譜網(wǎng)絡(luò)中的實(shí)體，度量出兩個(gè)標(biāo)簽之間的語(yǔ)義距離，即相似程度。最后，系統(tǒng)利用這種語(yǔ)義相似度來(lái)鑒別推薦標(biāo)簽列表中的同義標(biāo)簽或近義標(biāo)簽。

模塊二：標(biāo)簽主題聚類：本模塊將上一模塊產(chǎn)生的微博用戶標(biāo)簽用LDA工具進(jìn)行聚類分析，每一個(gè)類可以代表一個(gè)主題或一個(gè)用戶群體，從而判斷出每位用戶所屬的類(人群)。特別要指出的是，在本說(shuō)明書中描述的微博好友指代一個(gè)微博用戶的“粉絲”、“關(guān)注”和“互粉對(duì)象”三種好友關(guān)系，一般在算法中優(yōu)選地使用“互粉對(duì)象”作為微博好友。

模塊三：用戶相似度計(jì)算：本模塊利用上面模塊產(chǎn)生的用戶標(biāo)簽以及LDA聚類分析的結(jié)果，來(lái)計(jì)算用戶的相似度

模塊一：標(biāo)簽推薦：

1、基于同質(zhì)性的標(biāo)簽推薦

同質(zhì)性是指具體相同或相似屬性的人之間相比其他人更容易產(chǎn)生社會(huì)交往行為，如成為好友、主題跟隨行為等等。同質(zhì)性已經(jīng)被看作是各類社交媒體中的一種廣泛存在的現(xiàn)象，甚至在如Twitter用戶組成的社會(huì)網(wǎng)絡(luò)中。例如，互相關(guān)注的Twitter用戶中表現(xiàn)出更多相似的興趣愛好、地理位置或者是影響力等等。實(shí)驗(yàn)證明，在微博社會(huì)網(wǎng)絡(luò)中，具有親密社會(huì)關(guān)系(微博好友)的用戶之間使用的標(biāo)簽具有很大程度的相似性。這個(gè)結(jié)果為基于同質(zhì)性的標(biāo)簽打分機(jī)制提供了事實(shí)依據(jù)，即從用戶的好友群體中按照某種排序機(jī)制選出最頻繁使用的標(biāo)簽來(lái)推薦給目標(biāo)用戶u的候選標(biāo)簽組。這一步產(chǎn)生的候選標(biāo)簽集合標(biāo)記為C，它將作為下一個(gè)推薦步驟的輸入。在此需要一個(gè)評(píng)分函數(shù)s(t)來(lái)對(duì)候選的標(biāo)簽t進(jìn)行排序，同時(shí)也要保證選出的標(biāo)簽具有一定的描述性，即不能是被大多數(shù)用戶過于廣泛使用的標(biāo)簽。

a)標(biāo)簽打分機(jī)制：利用tf-rw打分機(jī)制來(lái)計(jì)算s(t)的分值，即s(t)＝tf(t)×rw(t)。tf(t)和rw(t)的具體計(jì)算參考以下公式1和2，其核心思想與文檔關(guān)鍵詞檢索使用的tf-idf思想一致。公式1中，Ngb(u)表示u的鄰居(即微博互粉對(duì)象)集合，r(t)是集合Ngb(u)中的用戶使用了標(biāo)簽t的人次，而T(Ngb(u))則表示Ngb(u)人群使用的全體標(biāo)簽集合。公式2中，n(t)是全體用戶中使用了標(biāo)簽t的人數(shù)，N則是全體用戶數(shù)。

b)局部多標(biāo)簽傳播：步驟B除了上述的tf-rw打分機(jī)制來(lái)對(duì)排序出要推薦給目標(biāo)用戶的候選標(biāo)簽，我們還提出一種基于經(jīng)典標(biāo)簽傳播算法(簡(jiǎn)稱LPA)的算法來(lái)生成候選標(biāo)簽組。該算法基本過程為，對(duì)于一個(gè)目標(biāo)用戶u首先生成他的ego網(wǎng)絡(luò)，該網(wǎng)絡(luò)的所有結(jié)點(diǎn)為u和他所有互粉好友，邊即是這些點(diǎn)之間存在的互粉關(guān)系邊，后續(xù)的標(biāo)簽傳播都局限在該ego網(wǎng)絡(luò)中。首先，對(duì)于u的互粉好友中沒有標(biāo)簽的用戶v，使用上述的tf-rw方法來(lái)生成v的標(biāo)簽組，然后再對(duì)u應(yīng)用tf-rw方法生成其推薦的標(biāo)簽組，這個(gè)過程為一次傳播迭代。由于每次迭代都可能改變ego網(wǎng)絡(luò)中的部分結(jié)點(diǎn)(那些沒有初始標(biāo)簽的用戶)的標(biāo)簽，因此該算法可以多次迭代，直到為u生成的候選標(biāo)簽組不再改變，即收斂。已經(jīng)有前人的研究成果證明該算法是能在有限迭代次數(shù)內(nèi)收斂的?？紤]到我們提出的改進(jìn)LPA算法只局限于目標(biāo)用戶的ego網(wǎng)絡(luò)，并能產(chǎn)生多個(gè)標(biāo)簽，因此稱為局部多標(biāo)簽傳播算法。

2.基于共現(xiàn)性擴(kuò)展的標(biāo)簽推薦

對(duì)于C中每一個(gè)標(biāo)簽t，對(duì)其進(jìn)行共現(xiàn)性標(biāo)簽的關(guān)聯(lián)挖掘，然后選出與t共現(xiàn)關(guān)系最強(qiáng)的前q個(gè)標(biāo)簽，標(biāo)記為ti。這里，用st(ti)分值表示與標(biāo)簽t有共現(xiàn)關(guān)聯(lián)的標(biāo)簽tj的共現(xiàn)性強(qiáng)度，具體計(jì)算公式仍然參考公式2。在與t有共現(xiàn)性關(guān)聯(lián)的所有標(biāo)簽中，選取st(ti)分值排在前q位的ti加入t的擴(kuò)展列表中。這里t被稱作ti的父標(biāo)簽，用p(ti)表示。如果擴(kuò)展出來(lái)的標(biāo)簽ti已經(jīng)存在于C中則可以直接忽略。經(jīng)過這一步擴(kuò)展，最多可以增加k×q個(gè)標(biāo)簽到C中。如果用C′來(lái)表示這一步工作結(jié)束后得到的候選推薦標(biāo)簽集合，那么C′-C則代表了這一步中新擴(kuò)展出來(lái)的標(biāo)簽。有了C′以后，還需要對(duì)C′中的每一個(gè)標(biāo)簽重新排序，因?yàn)樗蓛煞N推薦排序機(jī)制得到的標(biāo)簽。重新排序的核心思路就是要保證C′-C中的新增標(biāo)簽的排序評(píng)分和之前一步得到的C集合中的標(biāo)簽既有競(jìng)爭(zhēng)力，又小于其父標(biāo)簽的的排序評(píng)分。因此，需要對(duì)每一個(gè)ti∈C′定義一個(gè)新的排序評(píng)分函數(shù)s^(ti)。

3、消除標(biāo)簽的語(yǔ)義冗余

本步驟簡(jiǎn)言之，首先是利用從在線的中文百科網(wǎng)站獲取的詞條和詞條鏈接信息構(gòu)造出一個(gè)中文知識(shí)圖譜(也包含不少英文詞條)，該圖譜又可以看作是一個(gè)語(yǔ)義網(wǎng)絡(luò)，網(wǎng)絡(luò)中每一個(gè)結(jié)點(diǎn)代表一個(gè)詞條描述的語(yǔ)義實(shí)體，正好對(duì)應(yīng)一個(gè)標(biāo)簽，而每一條邊則代表詞條之間的超鏈接關(guān)系。因此，一個(gè)詞條對(duì)應(yīng)結(jié)點(diǎn)的鄰居群體能夠在很大程度上反映出該詞條的語(yǔ)義內(nèi)容。結(jié)合該語(yǔ)義網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)，本技術(shù)涵蓋一種精確度量?jī)蓚€(gè)標(biāo)簽(結(jié)點(diǎn))之間語(yǔ)義距離的計(jì)算方法，從而判別出兩個(gè)標(biāo)簽在語(yǔ)義上是否足夠接近，是則將其中一個(gè)移除推薦的候選標(biāo)簽列表。

模塊二：標(biāo)簽主題聚類：經(jīng)過上述步驟推薦出的標(biāo)簽既然能夠準(zhǔn)確、豐富地刻畫微博用戶的各種屬性特征，那么對(duì)所有用戶的標(biāo)簽集合進(jìn)行主題分析后則能判斷出該微博用戶的用戶群體分布。我們?cè)诖怂玫木唧w算法為利用LDA工具對(duì)標(biāo)簽集合中的主題分布進(jìn)行聚類分析，為每個(gè)微博用戶生產(chǎn)一個(gè)對(duì)應(yīng)的主題分布向量[v1,v2,…vk]。其中，k是主題總數(shù)，向量的每一維0<＝vi<＝1,代表用戶屬于主題i的概率。利用用戶的主題分布向量，既判斷用戶所屬的人群或興趣愛好等特征，也可以量化地計(jì)算出任意用戶之間的差異性距離，從而完成人群畫像的目標(biāo)。

模塊三：用戶相似度計(jì)算：經(jīng)過前兩個(gè)步驟，我們可以得到為用戶推薦的標(biāo)簽集合以及用戶的主題分布，然后我們可以使用cosine距離，Kullback-Leibler距離或者Jensen-Shannon距離來(lái)分別計(jì)算基于標(biāo)簽集合的和基于主題分布的用戶之間的距離，然后對(duì)兩個(gè)距離采取noisy-or模型計(jì)算最后的相似度值，得到最終的用戶相似度。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出：對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：秦謙;肖仰華;王飛;
技術(shù)所有人：江蘇名通信息科技有限公司;
我是此專利的發(fā)明人

上一篇：一種轉(zhuǎn)子翻轉(zhuǎn)吊裝機(jī)構(gòu)的制作方法與工藝
上一篇：一種垃圾處理站的推拉箱裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

人群畫像相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于人群畫像技術(shù)的用戶相似度計(jì)算方法與流程