本發(fā)明屬于信息識(shí)別技術(shù)領(lǐng)域,特別涉及一種基于人群畫像技術(shù)的用戶相似度計(jì)算方法。
背景技術(shù):
微博是現(xiàn)階段最熱門的社交媒體,以新浪、騰訊為代表的國(guó)內(nèi)微博網(wǎng)站的用戶規(guī)模在近幾年得到飛速增長(zhǎng)。以新浪微博為例,截止到12年底,其注冊(cè)用戶數(shù)已經(jīng)超過5億,而每天的活躍用戶數(shù)就已經(jīng)突破4620萬(wàn)人。隨著微博行業(yè)的快速發(fā)展,和其相關(guān)的各種應(yīng)用和服務(wù)正在創(chuàng)造越來(lái)越多的商業(yè)價(jià)值。
讓用戶使用個(gè)性標(biāo)簽是新浪和騰訊等主流網(wǎng)站提供的一個(gè)重要服務(wù),用戶可以使用這些標(biāo)簽來(lái)描述自己的身份、職業(yè)、興趣、宗教信仰等個(gè)人屬性,甚至是表達(dá)自己的某些觀點(diǎn)。作為用戶個(gè)人屬性描述的重要補(bǔ)充,用戶的標(biāo)簽連同個(gè)人信息頁(yè)面的其它內(nèi)容都能作為瀏覽者詳細(xì)了解該用戶的重要信息來(lái)源。而深入了解一個(gè)用戶則對(duì)很多現(xiàn)實(shí)的應(yīng)用有所幫助,如特殊用戶搜索、好友推薦、在線廣告和企業(yè)的客戶關(guān)系管理等等。因此,為每個(gè)微博用戶推薦一組能夠準(zhǔn)確描述用戶相關(guān)屬性的標(biāo)簽對(duì)于刻畫不同用戶群體的特征,或稱作用戶人群畫像,具有重要意義。同時(shí),基于用戶標(biāo)簽的用戶相似度計(jì)算,在好友推薦,內(nèi)容推薦方面都有廣泛的應(yīng)用。
已有的社會(huì)標(biāo)簽推薦系統(tǒng)使用的方法并不能直接應(yīng)用于微博用戶標(biāo)簽的場(chǎng)景,這是因?yàn)椋含F(xiàn)有的社會(huì)標(biāo)注系統(tǒng)大都針對(duì)網(wǎng)絡(luò)物體的標(biāo)注,如Flickr網(wǎng)站中的圖片或者URL鏈接資源。這些系統(tǒng)都是為用戶提供標(biāo)簽來(lái)標(biāo)注物體,而非用戶本身。像很多以協(xié)同過濾(collaborative filtering)[1]為基本推薦機(jī)制的推薦算法都是建立在這樣一個(gè)假設(shè)之上。假設(shè)用戶A和用戶B之前已經(jīng)對(duì)很多物體對(duì)象的標(biāo)注使用了相同或相似的標(biāo)簽,就說(shuō)明A和B對(duì)事物的認(rèn)知非常相似,那么A對(duì)于一個(gè)新物體的標(biāo)注則很有可能使用B對(duì)該物體用過的相同標(biāo)簽。但是,在對(duì)微博用戶的標(biāo)注中,這種假設(shè)并不成立,因?yàn)橛脩糁粫?huì)對(duì)自己標(biāo)注,甚至很多用戶對(duì)自己都沒有使用任何標(biāo)簽。
社會(huì)標(biāo)注更看重大多數(shù)人對(duì)某一物體對(duì)象的集體偏好來(lái)做標(biāo)簽推薦,而標(biāo)注微博用戶卻要考慮如何真實(shí)地刻畫被標(biāo)注用戶的個(gè)人偏好。顯然,發(fā)掘用戶的個(gè)人特性和偏好要比尋找大眾的偏好更難,因?yàn)槊總€(gè)人都有自己獨(dú)特的個(gè)性。
冷啟動(dòng)(cold start)問題,尤其考慮到新浪微博用戶中有將近一半的人是沒有任何標(biāo)簽的。所謂冷啟動(dòng),是指在向一個(gè)用戶推薦某個(gè)新出現(xiàn)的物體(如某件商品)時(shí),由于對(duì)于該物體沒有歷史的推薦記錄可以參考,使得推薦算法無(wú)法起作用。一個(gè)真實(shí)的人遠(yuǎn)比一個(gè)物體復(fù)雜,他可以使用很多個(gè)標(biāo)簽來(lái)分別描述自己各個(gè)方面的特性,例如教育背景、興趣愛好,甚至是崇拜的明星等等。怎樣才能找出一組多樣化的標(biāo)簽是非常具有挑戰(zhàn)性的工作。標(biāo)簽中存在的語(yǔ)義冗余問題。如新浪微博只允許一個(gè)用戶最多使用10個(gè)標(biāo)簽,那么每個(gè)用戶自然希望每個(gè)標(biāo)簽都盡可能地描述自己,對(duì)于同義詞或者近義詞一般來(lái)說(shuō)是不會(huì)同時(shí)放入自己的標(biāo)簽列的。
[1]T.Hofmann.Collaborative filtering via Gaussian probabilistic latent semantic analysis.In Proc.of SIGIR,2003.
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:本發(fā)明提供一種基于人群畫像技術(shù)的用戶相似度計(jì)算方法,利用微博用戶標(biāo)簽來(lái)對(duì)互聯(lián)網(wǎng)用戶做人群畫像;利用中文知識(shí)圖譜來(lái)識(shí)別標(biāo)簽中的語(yǔ)義冗余;將信息檢索中對(duì)關(guān)鍵詞的tf-rw(詞頻-相關(guān)權(quán)重)打分機(jī)制應(yīng)用于微博標(biāo)簽的挖掘,并對(duì)算法做相應(yīng)改進(jìn)提高標(biāo)簽推薦準(zhǔn)確率;將LDA文本主題模型應(yīng)用于微博用戶的標(biāo)簽集合,從而刻畫出每個(gè)微博用戶的主題分布,為準(zhǔn)確的人群畫像服務(wù);利用微博標(biāo)簽以及微博主題分布來(lái)計(jì)算用戶相似度。從而解決上述現(xiàn)有技術(shù)中出現(xiàn)冷啟動(dòng)、不能多樣化刻畫人物、語(yǔ)句冗余等問題。
技術(shù)方案:為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
基于人群畫像技術(shù)的用戶相似度計(jì)算方法,包括標(biāo)簽推薦模塊、標(biāo)簽主題類聚模塊、用戶相似度計(jì)算模塊;
其中,所述標(biāo)簽推薦模塊算法步驟包括:同質(zhì)性推薦、共現(xiàn)性擴(kuò)展和消除語(yǔ)義冗余;
其中,所述標(biāo)簽主題類聚模塊用于對(duì)標(biāo)簽推薦模塊產(chǎn)生的標(biāo)簽信息進(jìn)行聚類分析;
其中,所述用戶相似度計(jì)算模塊用于對(duì)標(biāo)簽主題類聚模塊產(chǎn)生的用戶標(biāo)簽以及聚類分析的結(jié)果,進(jìn)行用戶的相似度的計(jì)算。
進(jìn)一步,所述同質(zhì)性推薦的具體算法步驟包括:
步驟(A),從目標(biāo)用戶u的互粉好友群體中選出最頻繁使用的標(biāo)簽tag作為目標(biāo)用戶u的候選標(biāo)簽;
步驟(B),通過評(píng)分函數(shù)score(tag)對(duì)候選的標(biāo)簽tag進(jìn)行排序,評(píng)分函數(shù)score(tag)是候選的標(biāo)簽tag的分值,利用tf-rw詞頻打分機(jī)制來(lái)計(jì)算評(píng)分函數(shù)score(tag),score(tag)=tf(tag)×rw(tag),tf(tag)和rw(tag)的計(jì)算公式如公式(1)和(2)所示
其中,在公式(1)中,Ngb(u)表示目標(biāo)用戶u的微博互粉對(duì)象集合,n(Ngb(u),tag)是集合Ngb(u)中的用戶使用了標(biāo)簽tag的人次,而(Ngb(u))則表示目標(biāo)用戶u的微博互粉對(duì)象Ngb(u)使用的全體標(biāo)簽集合;
公式(2)中,N是所有微博用戶總數(shù),n(tag)是所有微博用戶中使用了標(biāo)簽tag的人數(shù)。
進(jìn)一步,所述步驟(A)前增加標(biāo)簽傳播算法對(duì)候選的標(biāo)簽t的計(jì)算,其具體步驟包括:
步驟(A1),對(duì)于目標(biāo)用戶u的微博互粉好友中沒有標(biāo)簽的用戶v,使用的tf-rw方法利用用戶v的互粉好友的最頻繁使用的標(biāo)簽來(lái)生成用戶v的標(biāo)簽集合;
步驟(A2),生成目標(biāo)用戶u的ego網(wǎng)絡(luò),該ego網(wǎng)絡(luò)的所有結(jié)點(diǎn)為目標(biāo)用戶u和他所有互粉好友,互粉關(guān)系編為所有節(jié)點(diǎn)之間的連接邊,后續(xù)的標(biāo)簽傳播都局限在該ego網(wǎng)絡(luò)中。
進(jìn)一步,所述共現(xiàn)性擴(kuò)展用于利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽,使得最終推薦給用戶的標(biāo)簽有足夠的多樣性,多方面刻畫用戶的屬性。
進(jìn)一步,所述共現(xiàn)性擴(kuò)展的具體操作步驟包括:
步驟(C),對(duì)候選集合C中每一個(gè)候選的標(biāo)簽tag,對(duì)其進(jìn)行共現(xiàn)標(biāo)簽挖掘,然后選出與tag共現(xiàn)關(guān)系最強(qiáng)的前k個(gè)標(biāo)簽,作為擴(kuò)展標(biāo)簽。該標(biāo)簽tag為擴(kuò)展標(biāo)簽的父標(biāo)簽,共現(xiàn)關(guān)系的計(jì)算公式score(tag,tag’)如公式(3)所示:
score(tag,tag′)=tf(tag)×rw(tag,tag′) (3)
步驟(D),用C′來(lái)表示共現(xiàn)性擴(kuò)展結(jié)束后得到的候選推薦標(biāo)簽集合,那么C′-C則代表了這一步中新擴(kuò)展出來(lái)的標(biāo)簽,由于C′是通過兩種方式推薦排序機(jī)制得到的,因此需要對(duì)C′中的標(biāo)簽進(jìn)行統(tǒng)一重新排序,重新排序的核心思路就是要保證C′-C中的新增標(biāo)簽的排序評(píng)分和之前一步得到的C集合中的標(biāo)簽既有競(jìng)爭(zhēng)力,又小于其父標(biāo)簽的排序評(píng)分,新的排序評(píng)分函數(shù)newScore(tag)如公式(5)所示:
其中,p(tag)是tag的父標(biāo)簽,即該tag是由p(tag)通過共現(xiàn)性擴(kuò)展方法擴(kuò)展而來(lái);λ∈(0,1)是一個(gè)懲罰因子,Z則是標(biāo)準(zhǔn)化因子,一般設(shè)為在tag的共現(xiàn)標(biāo)簽中的得分最大值。
進(jìn)一步,所述消除語(yǔ)義冗余用于鑒別標(biāo)簽列表中的同義標(biāo)簽或近義標(biāo)簽,消除候選標(biāo)簽組中存在的同義標(biāo)簽或近義標(biāo)簽,消除冗余。
進(jìn)一步,所述消除語(yǔ)義冗余的具體操作為:從在線百科網(wǎng)站上獲取的語(yǔ)義實(shí)體數(shù)據(jù)構(gòu)建中文知識(shí)圖譜,通過將候選標(biāo)簽組中的所有標(biāo)簽映射到圖譜網(wǎng)絡(luò)中,度量出兩個(gè)標(biāo)簽之間的語(yǔ)義距離,該距離為兩詞之間的相似程度,郵箱此誠(chéng)不判斷是否為近義詞或同義詞,刪除該近義詞或同義詞,刪除后的候選標(biāo)簽組為用戶預(yù)估標(biāo)簽。
進(jìn)一步,所述語(yǔ)義距離具體計(jì)算方式如下,用u和v來(lái)表示兩個(gè)在語(yǔ)義網(wǎng)絡(luò)中的標(biāo)簽,圖譜網(wǎng)絡(luò)是一個(gè)有向網(wǎng)絡(luò),用In(u)和In(v)來(lái)分別表示指向標(biāo)簽u和標(biāo)簽v的結(jié)點(diǎn),而用Out(u)和Out(v)來(lái)分別表示標(biāo)簽u和標(biāo)簽v指向的結(jié)點(diǎn)。每個(gè)標(biāo)簽的權(quán)值weight(u)計(jì)算如公式(6)所示:
這里的N是整個(gè)語(yǔ)義網(wǎng)絡(luò)的結(jié)點(diǎn)總數(shù)。那么兩個(gè)標(biāo)簽的相似度利用帶權(quán)值的Jaccard相似度系數(shù)計(jì)算,公式如(7)所示:
進(jìn)一步,所述標(biāo)簽主題類聚模塊將標(biāo)簽推薦模塊中產(chǎn)生的用戶預(yù)估標(biāo)簽進(jìn)行聚類分析,每一個(gè)類可以代表一個(gè)主題或一個(gè)用戶群體,從而判斷出每位用戶所屬的類,得到的標(biāo)簽主體分布。
進(jìn)一步,所述標(biāo)簽主題類聚模塊的聚類方法為利用LDA工具對(duì)用戶預(yù)估標(biāo)簽的主題分布進(jìn)行聚類分析。
進(jìn)一步,所述用戶相似度計(jì)算通過利用cosine距離或者Kullback-Leibler距離或者Jensen-Shannon距離來(lái)計(jì)算兩個(gè)用戶的用戶標(biāo)簽和標(biāo)簽主題分布的相似度,利用Noisy-Or模型綜合兩個(gè)用戶相似度,得到最終的兩個(gè)用戶的相似度。
有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
1、采用同質(zhì)性推薦方法,將他的互粉好友最常使用而且信息量豐富的標(biāo)簽推薦給他,解決了冷啟動(dòng)問題,尤其考慮到新浪微博用戶中有將近一半的人是沒有任何標(biāo)簽的;
2、采用了共線性擴(kuò)展方法利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽,從而使得最終推薦給用戶的標(biāo)簽有足夠的多樣性,解決了多樣化刻畫用戶多方面的屬性;
3、從在線百科網(wǎng)站上爬取的數(shù)據(jù)構(gòu)建了一個(gè)中文語(yǔ)義網(wǎng)絡(luò)。通過將微博標(biāo)簽映射到語(yǔ)義網(wǎng)中的實(shí)體,能夠度量?jī)蓚€(gè)標(biāo)簽之間的語(yǔ)義距離,即相似程度,將相似標(biāo)簽刪除,解決了推薦的標(biāo)簽中存在的語(yǔ)義冗余問題。
附圖說(shuō)明
圖1是本發(fā)明的模塊示意圖。
具體實(shí)施方式
基于人群畫像技術(shù)的用戶相似度計(jì)算方法,包括標(biāo)簽推薦模塊、標(biāo)簽主題類聚模塊、用戶相似度計(jì)算模塊;其中,所述標(biāo)簽推薦模塊算法步驟包括:同質(zhì)性推薦、共現(xiàn)性擴(kuò)展和消除語(yǔ)義冗余;其中,所述標(biāo)簽主題類聚模塊用于對(duì)標(biāo)簽推薦模塊產(chǎn)生的標(biāo)簽信息進(jìn)行聚類分析;其中,所述用戶相似度計(jì)算模塊用于對(duì)標(biāo)簽主題類聚模塊產(chǎn)生的用戶標(biāo)簽以及聚類分析的結(jié)果,進(jìn)行用戶的相似度的計(jì)算。
前述同質(zhì)性推薦的具體算法步驟包括:
步驟(A),從目標(biāo)用戶u的互粉好友群體中選出最頻繁使用的標(biāo)簽tag作為目標(biāo)用戶u的候選標(biāo)簽;
步驟(B),通過評(píng)分函數(shù)score(tag)對(duì)候選的標(biāo)簽tag進(jìn)行排序,評(píng)分函數(shù)score(tag)是候選的標(biāo)簽tag的分值,利用tf-rw詞頻打分機(jī)制來(lái)計(jì)算評(píng)分函數(shù)score(tag),score(tag)=tf(tag)×rw(tag),tf(tag)和rw(tag)的計(jì)算公式如公式(1)和(2)所示
其中,在公式(1)中,Ngb(u)表示目標(biāo)用戶u的微博互粉對(duì)象集合,n(Ngb(u),tag)是集合Ngb(u)中的用戶使用了標(biāo)簽tag的人次,而(Ngb(u))則表示目標(biāo)用戶u的微博互粉對(duì)象Ngb(u)使用的全體標(biāo)簽集合;
公式(2)中,N是所有微博用戶總數(shù),n(tag)是所有微博用戶中使用了標(biāo)簽tag的人數(shù)。
前述步驟(A)前增加標(biāo)簽傳播算法對(duì)候選的標(biāo)簽t的計(jì)算,其具體步驟包括:
步驟(A1),對(duì)于目標(biāo)用戶u的微博互粉好友中沒有標(biāo)簽的用戶v,使用的tf-rw方法利用用戶v的互粉好友的最頻繁使用的標(biāo)簽來(lái)生成用戶v的標(biāo)簽集合;
步驟(A2),生成目標(biāo)用戶u的ego網(wǎng)絡(luò),該ego網(wǎng)絡(luò)的所有結(jié)點(diǎn)為目標(biāo)用戶u和他所有互粉好友,互粉關(guān)系編為所有節(jié)點(diǎn)之間的連接邊,后續(xù)的標(biāo)簽傳播都局限在該ego網(wǎng)絡(luò)中。
前述共現(xiàn)性擴(kuò)展用于利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽,使得最終推薦給用戶的標(biāo)簽有足夠的多樣性,多方面刻畫用戶的屬性。
進(jìn)一步,所述共現(xiàn)性擴(kuò)展的具體操作步驟包括:
步驟(C),對(duì)候選集合C中每一個(gè)候選的標(biāo)簽tag,對(duì)其進(jìn)行共現(xiàn)標(biāo)簽挖掘,然后選出與tag共現(xiàn)關(guān)系最強(qiáng)的前k個(gè)標(biāo)簽,作為擴(kuò)展標(biāo)簽。該標(biāo)簽tag為擴(kuò)展標(biāo)簽的父標(biāo)簽,共現(xiàn)關(guān)系的計(jì)算公式score(tag,tag’)如公式(3)所示:
score(tag,tag′)=tf(tag)×rw(tag,tag′) (3)
步驟(D),用C′來(lái)表示共現(xiàn)性擴(kuò)展結(jié)束后得到的候選推薦標(biāo)簽集合,那么C′-C則代表了這一步中新擴(kuò)展出來(lái)的標(biāo)簽,由于C′是通過兩種方式推薦排序機(jī)制得到的,因此需要對(duì)C′中的標(biāo)簽進(jìn)行統(tǒng)一重新排序,重新排序的核心思路就是要保證C′-C中的新增標(biāo)簽的排序評(píng)分和之前一步得到的C集合中的標(biāo)簽既有競(jìng)爭(zhēng)力,又小于其父標(biāo)簽的排序評(píng)分,新的排序評(píng)分函數(shù)newScore(tag)如公式(5)所示:
其中,p(tag)是tag的父標(biāo)簽,即該tag是由p(tag)通過共現(xiàn)性擴(kuò)展方法擴(kuò)展而來(lái);λ∈(0,1)是一個(gè)懲罰因子,Z則是標(biāo)準(zhǔn)化因子,一般設(shè)為在tag的共現(xiàn)標(biāo)簽中的score(tag,tag’)最大值。
前述消除語(yǔ)義冗余用于鑒別標(biāo)簽列表中的同義標(biāo)簽或近義標(biāo)簽,消除候選標(biāo)簽組中存在的同義標(biāo)簽或近義標(biāo)簽,消除冗余。
前述消除語(yǔ)義冗余的具體操作為:從在線百科網(wǎng)站上獲取的語(yǔ)義實(shí)體數(shù)據(jù)構(gòu)建中文知識(shí)圖譜,通過將候選標(biāo)簽組中的所有標(biāo)簽映射到圖譜網(wǎng)絡(luò)中,度量出兩個(gè)標(biāo)簽之間的語(yǔ)義距離,該距離為兩詞之間的相似程度,郵箱此誠(chéng)不判斷是否為近義詞或同義詞,刪除該近義詞或同義詞,刪除后的候選標(biāo)簽組為用戶預(yù)估標(biāo)簽。
前述語(yǔ)義距離具體計(jì)算方式如下,用u和v來(lái)表示兩個(gè)在語(yǔ)義網(wǎng)絡(luò)中的標(biāo)簽,圖譜網(wǎng)絡(luò)是一個(gè)有向網(wǎng)絡(luò),用In(u)和In(v)來(lái)分別表示指向標(biāo)簽u和標(biāo)簽v的結(jié)點(diǎn),而用Out(u)和Out(v)來(lái)分別表示標(biāo)簽u和標(biāo)簽v指向的結(jié)點(diǎn)。每個(gè)標(biāo)簽的權(quán)值weight(u)計(jì)算如公式(6)所示:
這里的N是整個(gè)語(yǔ)義網(wǎng)絡(luò)的結(jié)點(diǎn)總數(shù)。那么兩個(gè)標(biāo)簽的相似度利用帶權(quán)值的Jaccard相似度系數(shù)計(jì)算,公式如(7)所示:
前述標(biāo)簽主題類聚模塊將標(biāo)簽推薦模塊中產(chǎn)生的用戶預(yù)估標(biāo)簽進(jìn)行聚類分析,每一個(gè)類可以代表一個(gè)主題或一個(gè)用戶群體,從而判斷出每位用戶所屬的類,得到的標(biāo)簽主體分布。
前述標(biāo)簽主題類聚模塊的聚類方法為利用LDA工具對(duì)用戶預(yù)估標(biāo)簽的主題分布進(jìn)行聚類分析。
前述用戶相似度計(jì)算通過利用cosine距離或者Kullback-Leibler距離或者Jensen-Shannon距離來(lái)計(jì)算兩個(gè)用戶的用戶標(biāo)簽和標(biāo)簽主題分布的相似度,利用Noisy-Or模型綜合兩個(gè)用戶相似度,得到最終的兩個(gè)用戶的相似度。
下面結(jié)合實(shí)施例對(duì)本發(fā)明作更進(jìn)一步的說(shuō)明。
如圖1所示,針對(duì)上述背景技術(shù)中提及的技術(shù)難題和研究目的,本技術(shù)在以往相關(guān)研究技術(shù)的基礎(chǔ)上,融入全新的算法思想,并借助海量的互聯(lián)網(wǎng)語(yǔ)義實(shí)體信息(中文知識(shí)圖譜)實(shí)現(xiàn)了準(zhǔn)確的微博用戶人群畫像技術(shù)。本技術(shù)涵蓋的技術(shù)內(nèi)容主要分為微博用戶的標(biāo)簽推薦和標(biāo)簽主題聚類兩大模塊,其中標(biāo)簽推薦模塊中涉及的推薦算法又涵蓋三個(gè)主要的工作步驟。算法的每一步正好應(yīng)對(duì)了上述每一個(gè)挑戰(zhàn)中的難題。同時(shí)基于標(biāo)簽推薦的結(jié)果,我們實(shí)現(xiàn)了用戶相似度計(jì)算的模塊。
模塊一:標(biāo)簽推薦:涉及的標(biāo)簽推薦算法三個(gè)步驟簡(jiǎn)述如下:
同質(zhì)性推薦:這一步是為了解決冷啟動(dòng)問題。核心思想是對(duì)于一個(gè)微博用戶,將他的微博好友最常使用的標(biāo)簽推薦給他。在對(duì)候選標(biāo)簽進(jìn)行篩選排序時(shí),可以使用frequency(使用頻率最多的標(biāo)簽)、tf-idf(詞頻-倒文檔頻率)和tf-rw三種打分機(jī)制。經(jīng)過實(shí)證研究,優(yōu)選地采用tf-rw打分機(jī)制,該機(jī)制同樣基于tf-idf思想,能夠更進(jìn)一步地去除那些過于被全體用戶廣泛使用的標(biāo)簽,而保留那些對(duì)目標(biāo)用戶具有個(gè)性刻畫能力的標(biāo)簽。除了這幾種標(biāo)簽打分機(jī)制外,同時(shí)我們還實(shí)現(xiàn)了一種局部的多標(biāo)簽傳播算法來(lái)為目標(biāo)用戶生成推薦的標(biāo)簽。
共現(xiàn)性擴(kuò)展:本模塊還利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)擴(kuò)充推薦給微博用戶的候選標(biāo)簽,從而使得最終推薦給用戶的標(biāo)簽有足夠的多樣性,盡可能地刻畫用戶多方面的屬性。
消除語(yǔ)義冗余:為了消除候選標(biāo)簽組中存在的語(yǔ)義冗余,從在線百科網(wǎng)站上爬取的語(yǔ)義實(shí)體數(shù)據(jù)構(gòu)建了一個(gè)龐大的中文知識(shí)圖譜(Chinese knowledge base)。通過將微博標(biāo)簽映射到圖譜網(wǎng)絡(luò)中的實(shí)體,度量出兩個(gè)標(biāo)簽之間的語(yǔ)義距離,即相似程度。最后,系統(tǒng)利用這種語(yǔ)義相似度來(lái)鑒別推薦標(biāo)簽列表中的同義標(biāo)簽或近義標(biāo)簽。
模塊二:標(biāo)簽主題聚類:本模塊將上一模塊產(chǎn)生的微博用戶標(biāo)簽用LDA工具進(jìn)行聚類分析,每一個(gè)類可以代表一個(gè)主題或一個(gè)用戶群體,從而判斷出每位用戶所屬的類(人群)。特別要指出的是,在本說(shuō)明書中描述的微博好友指代一個(gè)微博用戶的“粉絲”、“關(guān)注”和“互粉對(duì)象”三種好友關(guān)系,一般在算法中優(yōu)選地使用“互粉對(duì)象”作為微博好友。
模塊三:用戶相似度計(jì)算:本模塊利用上面模塊產(chǎn)生的用戶標(biāo)簽以及LDA聚類分析的結(jié)果,來(lái)計(jì)算用戶的相似度
模塊一:標(biāo)簽推薦:
1、基于同質(zhì)性的標(biāo)簽推薦
同質(zhì)性是指具體相同或相似屬性的人之間相比其他人更容易產(chǎn)生社會(huì)交往行為,如成為好友、主題跟隨行為等等。同質(zhì)性已經(jīng)被看作是各類社交媒體中的一種廣泛存在的現(xiàn)象,甚至在如Twitter用戶組成的社會(huì)網(wǎng)絡(luò)中。例如,互相關(guān)注的Twitter用戶中表現(xiàn)出更多相似的興趣愛好、地理位置或者是影響力等等。實(shí)驗(yàn)證明,在微博社會(huì)網(wǎng)絡(luò)中,具有親密社會(huì)關(guān)系(微博好友)的用戶之間使用的標(biāo)簽具有很大程度的相似性。這個(gè)結(jié)果為基于同質(zhì)性的標(biāo)簽打分機(jī)制提供了事實(shí)依據(jù),即從用戶的好友群體中按照某種排序機(jī)制選出最頻繁使用的標(biāo)簽來(lái)推薦給目標(biāo)用戶u的候選標(biāo)簽組。這一步產(chǎn)生的候選標(biāo)簽集合標(biāo)記為C,它將作為下一個(gè)推薦步驟的輸入。在此需要一個(gè)評(píng)分函數(shù)s(t)來(lái)對(duì)候選的標(biāo)簽t進(jìn)行排序,同時(shí)也要保證選出的標(biāo)簽具有一定的描述性,即不能是被大多數(shù)用戶過于廣泛使用的標(biāo)簽。
a)標(biāo)簽打分機(jī)制:利用tf-rw打分機(jī)制來(lái)計(jì)算s(t)的分值,即s(t)=tf(t)×rw(t)。tf(t)和rw(t)的具體計(jì)算參考以下公式1和2,其核心思想與文檔關(guān)鍵詞檢索使用的tf-idf思想一致。公式1中,Ngb(u)表示u的鄰居(即微博互粉對(duì)象)集合,r(t)是集合Ngb(u)中的用戶使用了標(biāo)簽t的人次,而T(Ngb(u))則表示Ngb(u)人群使用的全體標(biāo)簽集合。公式2中,n(t)是全體用戶中使用了標(biāo)簽t的人數(shù),N則是全體用戶數(shù)。
b)局部多標(biāo)簽傳播:步驟B除了上述的tf-rw打分機(jī)制來(lái)對(duì)排序出要推薦給目標(biāo)用戶的候選標(biāo)簽,我們還提出一種基于經(jīng)典標(biāo)簽傳播算法(簡(jiǎn)稱LPA)的算法來(lái)生成候選標(biāo)簽組。該算法基本過程為,對(duì)于一個(gè)目標(biāo)用戶u首先生成他的ego網(wǎng)絡(luò),該網(wǎng)絡(luò)的所有結(jié)點(diǎn)為u和他所有互粉好友,邊即是這些點(diǎn)之間存在的互粉關(guān)系邊,后續(xù)的標(biāo)簽傳播都局限在該ego網(wǎng)絡(luò)中。首先,對(duì)于u的互粉好友中沒有標(biāo)簽的用戶v,使用上述的tf-rw方法來(lái)生成v的標(biāo)簽組,然后再對(duì)u應(yīng)用tf-rw方法生成其推薦的標(biāo)簽組,這個(gè)過程為一次傳播迭代。由于每次迭代都可能改變ego網(wǎng)絡(luò)中的部分結(jié)點(diǎn)(那些沒有初始標(biāo)簽的用戶)的標(biāo)簽,因此該算法可以多次迭代,直到為u生成的候選標(biāo)簽組不再改變,即收斂。已經(jīng)有前人的研究成果證明該算法是能在有限迭代次數(shù)內(nèi)收斂的??紤]到我們提出的改進(jìn)LPA算法只局限于目標(biāo)用戶的ego網(wǎng)絡(luò),并能產(chǎn)生多個(gè)標(biāo)簽,因此稱為局部多標(biāo)簽傳播算法。
2.基于共現(xiàn)性擴(kuò)展的標(biāo)簽推薦
對(duì)于C中每一個(gè)標(biāo)簽t,對(duì)其進(jìn)行共現(xiàn)性標(biāo)簽的關(guān)聯(lián)挖掘,然后選出與t共現(xiàn)關(guān)系最強(qiáng)的前q個(gè)標(biāo)簽,標(biāo)記為ti。這里,用st(ti)分值表示與標(biāo)簽t有共現(xiàn)關(guān)聯(lián)的標(biāo)簽tj的共現(xiàn)性強(qiáng)度,具體計(jì)算公式仍然參考公式2。在與t有共現(xiàn)性關(guān)聯(lián)的所有標(biāo)簽中,選取st(ti)分值排在前q位的ti加入t的擴(kuò)展列表中。這里t被稱作ti的父標(biāo)簽,用p(ti)表示。如果擴(kuò)展出來(lái)的標(biāo)簽ti已經(jīng)存在于C中則可以直接忽略。經(jīng)過這一步擴(kuò)展,最多可以增加k×q個(gè)標(biāo)簽到C中。如果用C′來(lái)表示這一步工作結(jié)束后得到的候選推薦標(biāo)簽集合,那么C′-C則代表了這一步中新擴(kuò)展出來(lái)的標(biāo)簽。有了C′以后,還需要對(duì)C′中的每一個(gè)標(biāo)簽重新排序,因?yàn)樗蓛煞N推薦排序機(jī)制得到的標(biāo)簽。重新排序的核心思路就是要保證C′-C中的新增標(biāo)簽的排序評(píng)分和之前一步得到的C集合中的標(biāo)簽既有競(jìng)爭(zhēng)力,又小于其父標(biāo)簽的的排序評(píng)分。因此,需要對(duì)每一個(gè)ti∈C′定義一個(gè)新的排序評(píng)分函數(shù)s^(ti)。
3、消除標(biāo)簽的語(yǔ)義冗余
本步驟簡(jiǎn)言之,首先是利用從在線的中文百科網(wǎng)站獲取的詞條和詞條鏈接信息構(gòu)造出一個(gè)中文知識(shí)圖譜(也包含不少英文詞條),該圖譜又可以看作是一個(gè)語(yǔ)義網(wǎng)絡(luò),網(wǎng)絡(luò)中每一個(gè)結(jié)點(diǎn)代表一個(gè)詞條描述的語(yǔ)義實(shí)體,正好對(duì)應(yīng)一個(gè)標(biāo)簽,而每一條邊則代表詞條之間的超鏈接關(guān)系。因此,一個(gè)詞條對(duì)應(yīng)結(jié)點(diǎn)的鄰居群體能夠在很大程度上反映出該詞條的語(yǔ)義內(nèi)容。結(jié)合該語(yǔ)義網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),本技術(shù)涵蓋一種精確度量?jī)蓚€(gè)標(biāo)簽(結(jié)點(diǎn))之間語(yǔ)義距離的計(jì)算方法,從而判別出兩個(gè)標(biāo)簽在語(yǔ)義上是否足夠接近,是則將其中一個(gè)移除推薦的候選標(biāo)簽列表。
模塊二:標(biāo)簽主題聚類:經(jīng)過上述步驟推薦出的標(biāo)簽既然能夠準(zhǔn)確、豐富地刻畫微博用戶的各種屬性特征,那么對(duì)所有用戶的標(biāo)簽集合進(jìn)行主題分析后則能判斷出該微博用戶的用戶群體分布。我們?cè)诖怂玫木唧w算法為利用LDA工具對(duì)標(biāo)簽集合中的主題分布進(jìn)行聚類分析,為每個(gè)微博用戶生產(chǎn)一個(gè)對(duì)應(yīng)的主題分布向量[v1,v2,…vk]。其中,k是主題總數(shù),向量的每一維0<=vi<=1,代表用戶屬于主題i的概率。利用用戶的主題分布向量,既判斷用戶所屬的人群或興趣愛好等特征,也可以量化地計(jì)算出任意用戶之間的差異性距離,從而完成人群畫像的目標(biāo)。
模塊三:用戶相似度計(jì)算:經(jīng)過前兩個(gè)步驟,我們可以得到為用戶推薦的標(biāo)簽集合以及用戶的主題分布,然后我們可以使用cosine距離,Kullback-Leibler距離或者Jensen-Shannon距離來(lái)分別計(jì)算基于標(biāo)簽集合的和基于主題分布的用戶之間的距離,然后對(duì)兩個(gè)距離采取noisy-or模型計(jì)算最后的相似度值,得到最終的用戶相似度。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。