本發(fā)明屬于微博數(shù)據(jù)屬于微博數(shù)據(jù)挖掘領(lǐng)域,尤其涉及針對微博數(shù)據(jù)的網(wǎng)絡(luò)表示學習方法。
背景技術(shù):
web2.0時代的互聯(lián)網(wǎng)正逐步演變?yōu)闊o處不在的信息傳播平臺,twitter、微博等面向社會性網(wǎng)絡(luò)服務(wù)(socialnetworkingservices,簡稱sns)的社交新媒體迅速得到大眾的青睞。最新的統(tǒng)計數(shù)據(jù)顯示,twitter的月活躍用戶達到3.1億,新浪微博的月活躍用戶達到2.97億。人們借助社交媒體表達觀點、分享信息、交流互動,社交媒體依靠社交網(wǎng)絡(luò)傳播和擴散消息,在政治、經(jīng)濟、文化、教育等領(lǐng)域產(chǎn)生深刻影響。于是,在線社交網(wǎng)絡(luò)數(shù)據(jù)規(guī)模龐大、形式多樣、結(jié)構(gòu)復(fù)雜、動態(tài)變化等特性,以及熱點輿情深遠的導(dǎo)向作用,使得在線社交網(wǎng)絡(luò)分析具有重要的研究價值。以新浪微博為例,用戶可以發(fā)布140字以內(nèi)的原創(chuàng)博文,可以是圖片、超鏈接、視頻、音頻等多種形式,也可以瀏覽、轉(zhuǎn)發(fā)、評論所關(guān)注好友的博文。微博數(shù)據(jù)呈現(xiàn)多源異構(gòu)的特點,用戶生成文本、用戶屬性列表、網(wǎng)絡(luò)拓撲關(guān)系等都是重要的數(shù)據(jù)源,如何融合多源微博信息計算用戶節(jié)點的特征表示變得至關(guān)重要。
表示學習是機器學習領(lǐng)域一個重要的研究問題,通過自動學習一個從原始輸入數(shù)據(jù)到新的特征表示的變換,得到有效的特征表示。網(wǎng)絡(luò)表示學習就是學習網(wǎng)絡(luò)節(jié)點在低維空間的特征表示,實現(xiàn)量化特征和降維表示的目的。
目前,在網(wǎng)絡(luò)表示學習領(lǐng)域已經(jīng)出現(xiàn)了很多的研究成果。傳統(tǒng)的流行學習方法從高維數(shù)據(jù)中恢復(fù)出低維流形結(jié)構(gòu),找到高維網(wǎng)絡(luò)數(shù)據(jù)的低維嵌入表示。比如,isomap算法基于mds理論框架,將任意兩點的測地線距離作為流形的幾何描述,lle算法(locallylinearembedding)認為一個流形在很小的局部鄰域上可以近似看成局部線性的,將這個線性擬合的系數(shù)作為這個流形局部幾何性質(zhì)的刻畫,le算法(laplacianeigenmaps)的基本思想是用一個無向有權(quán)圖來描述一個流形,然后用圖嵌入來尋找低維表示,即保持圖的局部鄰接關(guān)系,把圖從高維空間重新畫到低維空間。
近些年,深度學習為網(wǎng)絡(luò)表示學習提供了新的思路,針對大規(guī)模網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)和豐富的網(wǎng)絡(luò)節(jié)點信息,基于深度學習的網(wǎng)絡(luò)表示模型不斷出現(xiàn)。
受word2vec模型的啟發(fā),deepwalk模型只考慮網(wǎng)絡(luò)的拓撲結(jié)構(gòu),將網(wǎng)絡(luò)中的節(jié)點對應(yīng)語料庫中的詞,節(jié)點生成的序列對應(yīng)語料庫中的句子,采用隨機游走的方法產(chǎn)生標準的輸入序列,然后使用skip-gram模型對序列建模從而得到網(wǎng)絡(luò)節(jié)點的向量表示。但是,deepwalk算法沒有建立目標函數(shù),不能學習帶權(quán)有向圖的節(jié)點表示,且節(jié)點序列是隨機產(chǎn)生的,受噪聲影響大。
line模型同時考慮網(wǎng)絡(luò)拓撲結(jié)構(gòu)的一階和二階相似性,一階相似性表示網(wǎng)絡(luò)中兩個節(jié)點之間的點對相似性,即為節(jié)點之間邊的權(quán)重,二階相似性建立在“如果節(jié)點間共享相似的鄰居節(jié)點,則兩者趨于相似”的假設(shè),利用兩個節(jié)點的共同鄰居來刻畫二階相似性?;谝浑A相似性和二階相似性的模型建好后,采用基于邊的負采樣方法來得到網(wǎng)絡(luò)的節(jié)點表示。grarep模型考慮更高階的相似性信息,對每一階的局部信息分別建模,采用svd矩陣分解方法得到網(wǎng)絡(luò)節(jié)點的向量表示,適用于大規(guī)模的網(wǎng)絡(luò)結(jié)構(gòu)。
針對deepwalk算法節(jié)點序列生成的隨機性,node2vec模型改進尋找鄰居節(jié)點的方式,認為網(wǎng)絡(luò)中的節(jié)點存在內(nèi)容相似性和結(jié)構(gòu)相似性,其中內(nèi)容相似性主要是相鄰節(jié)點之間的相似性,通過寬度優(yōu)先搜索具有同質(zhì)性的鄰居節(jié)點,而結(jié)構(gòu)相似性的節(jié)點并不一定相鄰,通過深度優(yōu)先搜索具有結(jié)構(gòu)同質(zhì)性的鄰居節(jié)點,對得到的節(jié)點序列采用skip-grim方法抽取節(jié)點的向量表示。
上述研究只是從網(wǎng)絡(luò)結(jié)構(gòu)的角度出發(fā),但是以新浪微博為代表的在線社交網(wǎng)絡(luò)不只有網(wǎng)絡(luò)拓撲關(guān)系,節(jié)點還包含著大量其他形式的信息。鑒于網(wǎng)絡(luò)節(jié)點信息的多樣性,tadw(text-associateddeepwalk)方法采用誘導(dǎo)矩陣填充算法,同時對文本特征和網(wǎng)絡(luò)結(jié)構(gòu)建模,得到更好的網(wǎng)絡(luò)節(jié)點表示。gene模型考慮到在線社交網(wǎng)絡(luò)用戶可以自行建組及選擇加入其他人建的組,且同一組的節(jié)點即使沒有直接相連的邊,也會存在一些內(nèi)在關(guān)系的事實,將組的信息考慮到網(wǎng)絡(luò)表示學習中。multi-facetedrepresentations模型考慮用戶生成文本、節(jié)點屬性信息及網(wǎng)絡(luò)拓撲結(jié)構(gòu)三種信息,得到網(wǎng)絡(luò)節(jié)點更真實的表示。
然而,現(xiàn)實世界中的網(wǎng)絡(luò)通常是稀疏的,即網(wǎng)絡(luò)中直接相連的邊數(shù)太少,僅僅利用網(wǎng)絡(luò)最初的有限結(jié)構(gòu)信息很難學習到準確的網(wǎng)絡(luò)表示。對于在線社交網(wǎng)絡(luò)中的用戶而言,生成文本所反映出的相似性特征可以暗示二者有著共同的關(guān)注興趣,那么,可能存在潛在的好友關(guān)系。目前的研究尚未從節(jié)點的文本信息來擴展網(wǎng)絡(luò)的拓撲結(jié)構(gòu),從而增強網(wǎng)絡(luò)表示學習的效果。
技術(shù)實現(xiàn)要素:
本發(fā)明針對網(wǎng)絡(luò)結(jié)構(gòu)稀疏性的特征,基于上述假設(shè)事實,建立了一種結(jié)合用戶生成文本信息的網(wǎng)絡(luò)用戶增強表示學習方法,并就用戶的特征表示,實現(xiàn)了用戶性別和年齡的推理任務(wù)。
本發(fā)明的具體實現(xiàn)步驟如下:
步驟一、結(jié)合現(xiàn)有的微博短文本處理方法,對用戶生成博文進行預(yù)處理,從而消除噪聲數(shù)據(jù)的影響;
步驟二、參照相關(guān)自然語言處理技術(shù),生成預(yù)處理后的用戶博文文本的特征向量,參照相似度度量函數(shù)計算博文向量之間的相似度,基于用戶生成文本的潛在好友關(guān)系提取,構(gòu)建潛在的好友關(guān)系網(wǎng)絡(luò);
步驟三、考慮網(wǎng)絡(luò)結(jié)構(gòu)的一階和二階相似性,整合原始網(wǎng)絡(luò)結(jié)構(gòu)信息并擴充原始的微博網(wǎng)絡(luò)拓撲關(guān)系網(wǎng)絡(luò);
步驟四、將從博文信息提取到的潛在好友關(guān)系網(wǎng)絡(luò)融合到整合后的網(wǎng)絡(luò)拓撲結(jié)構(gòu)上,修正原始的網(wǎng)絡(luò)結(jié)構(gòu)信息,包括增加部分連邊以及增大部分連邊的權(quán)重值兩種修正方式;
步驟五、參照現(xiàn)有的網(wǎng)絡(luò)表示學習技術(shù),學習增強后的微博網(wǎng)絡(luò)用戶的特征表示;
步驟六、為了對比增強網(wǎng)絡(luò)的表示向量與原始網(wǎng)絡(luò)的表示向量之間的效果差異,將上述表示學習結(jié)果應(yīng)用到性別和年齡推理任務(wù)上,與基準方法對比推理結(jié)果的準確率。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:本發(fā)明針對網(wǎng)絡(luò)拓撲結(jié)構(gòu)的稀疏性問題,考慮到“在線社交網(wǎng)絡(luò)中發(fā)表相似博文的兩個用戶具有相似的興趣愛好”的事實,提出一種結(jié)合用戶生成文本的網(wǎng)絡(luò)增強表示學習方法,更加精準地刻畫在線社交網(wǎng)絡(luò)的用戶特征,提高微博用戶屬性推理任務(wù)的準確率。
附圖說明
圖1是結(jié)合用戶生成文本的網(wǎng)絡(luò)增強表示方法流程圖
圖2是本發(fā)明實施例的網(wǎng)絡(luò)增強表示示意圖
圖3是本發(fā)明實施例中l(wèi)da提取的文本特征的分布圖
圖4是本發(fā)明實施例中從用戶生成文本提取到的潛在網(wǎng)絡(luò)結(jié)構(gòu)的可視化效果圖
圖5是本發(fā)明實施例中增強網(wǎng)絡(luò)拓撲結(jié)構(gòu)的可視化效果圖
圖6是本發(fā)明實施例中年齡推理任務(wù)的實驗結(jié)果對比圖
具體實施方式:
本發(fā)明針對網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性特征,基于上述假設(shè)事實,建立了一種結(jié)合用戶生成文本信息的網(wǎng)絡(luò)用戶增強表示學習方法,并就用戶的特征表示,實現(xiàn)了用戶性別和年齡的推理任務(wù)。
下面結(jié)合附圖和具體實施方式對本發(fā)明加以說明。首先,給出如下形式化定義:
社交網(wǎng)絡(luò)中,節(jié)點即對應(yīng)用戶,每個節(jié)點對應(yīng)大量的文本信息,表示對應(yīng)用戶的歷史博文信息。假定用g表示網(wǎng)絡(luò),則g=(v,e,t),其中,v={vi}是用戶節(jié)點集合,e={(vi,vj)}是二值邊集,每條邊對應(yīng)權(quán)重w,其中w∈{0,1},t={ti}是用戶生成的博文集合。于是,本發(fā)明的研究目標是從用戶生成博文中捕獲文本的特征信息并對原始網(wǎng)絡(luò)進行修正,從而學習修正網(wǎng)絡(luò)g″中每個節(jié)點的低維表示
微博短文本預(yù)處理,新浪微博的博文是字數(shù)不超過140字的短文本,首先,將每個用戶的歷史博文整合成一個文本段落。博文口語化的表達方式使得微博文本存在大量的噪聲數(shù)據(jù),針對微博短文本的預(yù)處理操作,通過過濾停用詞,替換異常詞,分詞等過程,剔除文本信息中的噪聲數(shù)據(jù),從而更有利于文本特征的提取。本發(fā)明針對微博文本所采用的具體預(yù)處理操作有以下幾點:
1)新浪微博中規(guī)定兩“#”之間文本內(nèi)容是對應(yīng)博文的話題信息,可以反映用戶的關(guān)注興趣,于是,兩“#”之間的文本內(nèi)容直接抽取作為關(guān)鍵詞使用,無需再次切分;
2)“@”表示提及某用戶,故“@”后的文本內(nèi)容是用戶昵稱,無需進一步切分;
3)過濾掉原始文本中的標點符號等特殊符號;
4)對照奇異詞表,替換文本中的所有奇異詞。奇異詞是一些被網(wǎng)民普遍接受的常用網(wǎng)絡(luò)用語,包括縮略詞,拼接詞。比如,如果你想表達“謝謝你”,可以使用“3q”或“3q”;還有,“和諧”有可能出于某些表達目的會拆分成“禾口言皆”來表達;
5)對照繁簡詞表,將所有繁體字替換成對應(yīng)的簡體字;
6)使用hanlp分詞工具對保留的微博文本進行分詞處理;
7)過濾停用詞表中的停用詞;
8)統(tǒng)計所有詞的tf-idf值,并過濾掉其中的低頻詞匯;
基于用戶生成文本的潛在好友關(guān)系提取,考慮到相似的博文信息可以反映用戶間共同的關(guān)注興趣,也即是說相似博文對應(yīng)的用戶之間存在潛在好友關(guān)系的可能性比較大,于是,從用戶生成文本中提取的用戶關(guān)系被稱為潛在好友關(guān)系。
潛在好友關(guān)系的抽取實質(zhì)上可以劃歸到文本相似性計算問題。首先,采用lda話題模型生成用戶微博文本的特征向量,然后,計算任意兩用戶博文向量間的余弦相似度表征對應(yīng)的潛在關(guān)系邊的權(quán)重大小,從而構(gòu)建潛在好友關(guān)系網(wǎng)絡(luò)。
lda是一個生成概率模型,涉及文檔、話題和詞三個層級。我們認為一篇文檔可以表示為k個潛在話題的隨機混合,其中每個話題服從詞的多項式分布,每篇文檔服從k個話題的多項式分布。于是,對于語料庫
1)對于每一篇文檔mi,選擇θ~dir(α),其中dir(α)是參數(shù)α的狄利克雷分布,θ是一個話題向量,向量中的每個元素表示每個話題出現(xiàn)在該文檔中的概率;
2)對于第i篇文檔中的第j個詞wij,通過條件概率p(zi|θ),從話題向量θ中選擇一個潛在話題zi,然后通過條件概率p(wj|zi,β)生成單詞wj.
3)給定參數(shù)α和參數(shù)β,模型的聯(lián)合分布是,
其中,w是觀測變量,θ是隱藏變量,然后我們使用最大期望算法(em)學習參數(shù)α和參數(shù)β。
假定保留前t個話題,則每個文本段落被嵌入到向量
最后,每個特征向量表示與每個用戶生成文本關(guān)聯(lián)的話題,換句話說,表示用戶發(fā)表的博文中提取的關(guān)注興趣。于是,我們采用余弦相似度計算方法,從這些表示向量中提取潛在好友關(guān)系。當然,其他的相似度函數(shù)也可以用于計算不同向量之間的相似度。給定兩個表示向量
因此,從用戶生成文本中提取的潛在的鄰接矩陣可以描述為矩陣
整合原始網(wǎng)絡(luò)結(jié)構(gòu)信息,現(xiàn)實世界的社交網(wǎng)絡(luò)通常是稀疏的,因為只有部分用戶之間有直接的關(guān)注關(guān)系。而且,直接的好友關(guān)系通常是用戶根據(jù)自己的喜好自愿添加的,所以,直接關(guān)注關(guān)系在僅考慮網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)嵌入問題中扮演著重要的角色。然而,直接好友關(guān)系不足以描述整個網(wǎng)絡(luò)結(jié)構(gòu),可能不是好友的兩個人,也具有某些共性特征。事實上,社交網(wǎng)絡(luò)中具有共同好友的兩用戶趨近于有相同的興趣和特征。
于是,line考慮上述兩個事實,首先提出了一階和二階相似性的概念來充分刻畫網(wǎng)絡(luò)結(jié)構(gòu)的局部和全局信息。
1)一階相似性:
給定邊集e,對于其中的每個節(jié)點對,對應(yīng)邊的權(quán)重值表示一階相似度。
2)二階相似性:
任意節(jié)點對的共同鄰居數(shù)用來定義二階相似度,來描述社交網(wǎng)絡(luò)中兩個用戶的鄰居結(jié)構(gòu)的相似性。分別給定用戶vi和用戶vj的鄰居節(jié)點集合
現(xiàn)在,我們綜合考慮一階和二階相似性,融合到從網(wǎng)絡(luò)結(jié)構(gòu)提取的鄰接矩陣中。因此,我們引入w,表示整合后的鄰居矩陣,矩陣的每個元素由兩個相似度值構(gòu)成,
其中,λ和μ是歸一化系數(shù),具體取值通過實驗不斷調(diào)整來確定。
用潛在好友關(guān)系修正網(wǎng)絡(luò)結(jié)構(gòu),首先從文本提取的潛在好友關(guān)系來修正網(wǎng)絡(luò)結(jié)構(gòu),然后使用line模型來學習擴展后網(wǎng)絡(luò)結(jié)構(gòu)的潛在表示。這種擴展可以帶來兩種改變:第一,權(quán)重由無到有,即從0變成1;第二,權(quán)重由小變大。附圖1所示,灰色節(jié)點張成的子圖是原始的網(wǎng)絡(luò)結(jié)構(gòu)圖,此時的彩色節(jié)點是孤立節(jié)點,即彩色節(jié)點與網(wǎng)絡(luò)中的其他節(jié)點無關(guān)聯(lián)關(guān)系。當用潛在好友關(guān)系修正完網(wǎng)絡(luò)結(jié)構(gòu)后,新產(chǎn)生的虛線邊是從微博文本提取的新的好友關(guān)系,加粗的實線邊則表示原始網(wǎng)絡(luò)結(jié)構(gòu)中的邊權(quán)重值增大,即好友關(guān)系增強。附圖3和附圖4分別為網(wǎng)絡(luò)結(jié)構(gòu)修正前后的微博好友關(guān)系拓撲圖。
令w″為修正網(wǎng)絡(luò)的鄰接矩陣,其中,每個元素w″ij為,
然而,修正后的鄰接矩陣中的某些元素太小,所以需要設(shè)定閾值,刪除所有小于該閾值的元素。于是,我們把最后的修正鄰接矩陣作為line的輸入,來計算低維表示。line首先引入一階和二階相似度,并分別基于一階相似性和二階相似性,為每個節(jié)點學習對應(yīng)的表示向量,然后,介紹如何將這兩個向量表示融合為一個最終的節(jié)點表示。
本質(zhì)上,一階相似性表示的是網(wǎng)絡(luò)中節(jié)點對的邊的權(quán)重值。為了建模一階相似度,line模型利用直接權(quán)重來建立經(jīng)驗概率,然后使用由表示向量構(gòu)造聯(lián)合概率,采用k-l散度來描述經(jīng)驗概率和聯(lián)合概率之間的誤差,從而建立目標函數(shù)。同樣地,二階相似性也可以建立類似的目標函數(shù),采用負采樣優(yōu)化算法分別得到兩個相似度下的節(jié)點向量表示
微博用戶的性別推理任務(wù)可以看成是一個基于用戶特征表示的有監(jiān)督的二值分類問題。于是,我們采用線性核的svm模型,并把最終的表示向量作為提取到的特征來訓(xùn)練性別分類器。與基準方法的實驗結(jié)果如表1,本發(fā)明的方法如表2所示。
表1性別推理任務(wù)的實驗結(jié)果(基準方法)
表2性別推理任務(wù)的實驗結(jié)果(本發(fā)明的方法)
從表中數(shù)據(jù)可以看出,平均準確率提高了大約4個百分點。而且,隨著測試集樣本量的增加,準確率有所提高,對此我們可以這樣解釋,訓(xùn)練樣本數(shù)越多,svm訓(xùn)練得到的分類器更準確。
年齡推理則是一個有監(jiān)督的多分類問題。為了更準確地推理測試樣本的年齡,我們根據(jù)用戶信息中出生日期的分布,將用戶年齡劃分到4個區(qū)間。統(tǒng)計數(shù)據(jù)可以發(fā)現(xiàn),大多數(shù)的用戶是處于18歲到30歲之間的青年人。于是,我們基于“一對一”和“一對其余”兩種svm拓展算法對用戶年齡進行推理。實驗結(jié)果如表3和表4所示。
表3年齡推理任務(wù)的實驗結(jié)果(基準方法)
表4年齡推理任務(wù)的實驗結(jié)果(本發(fā)明的方法)
兩表中準確率的第一行為采用“一對一”的方式擴展的svm分類器實現(xiàn)年齡推理的結(jié)果,第二行為采用“一對其余”的方式擴展的svm分類器實現(xiàn)年齡推理的實驗結(jié)果。從表中數(shù)據(jù)可以看出,網(wǎng)絡(luò)增強表示所得到的表示向量比基準方案得到的表示向量的分類性能有了很大的提高,比如,對應(yīng)percentage為10%左右時,第一種擴展方案的準確率從69.03%提高到76.25%。附圖6顯示年齡推理的結(jié)果對比曲線圖,可見網(wǎng)絡(luò)增強表示所得的向量表示確實得到了比基準方法的向量表示更好的分類結(jié)果。
總的來說,我們針對現(xiàn)實世界中在線社交網(wǎng)絡(luò)的稀疏性問題,基于發(fā)表博文相似的兩個用戶之間具有潛在的好友關(guān)系的事實,提出了一種融合節(jié)點文本信息的網(wǎng)絡(luò)增強表示學習方法,具體而言,利用從用戶生成文本中提取潛在的好友關(guān)系網(wǎng)絡(luò),修正原始的網(wǎng)絡(luò)拓撲結(jié)構(gòu),從而得到更準確的網(wǎng)絡(luò)節(jié)點表示。相比于只考慮網(wǎng)絡(luò)拓撲結(jié)構(gòu)的網(wǎng)絡(luò)表示學習,在性別和年齡推理兩個任務(wù)上,準確率有了明顯的提高。
因此,本發(fā)明所提出的基于微博的網(wǎng)絡(luò)增強表示方法在網(wǎng)絡(luò)用戶特征表示和后續(xù)分類及推理任務(wù)中,具有很重要的實際應(yīng)用價值。
為了說明本發(fā)明的內(nèi)容及實施方法,本說明書給出了一個具體實施例。在實施例中引入細節(jié)的目的不是限制權(quán)利要求書的范圍,而是幫助理解本發(fā)明所述方法。本領(lǐng)域的技術(shù)人員應(yīng)理解:在不脫離本發(fā)明及其所附權(quán)利要求的精神和范圍內(nèi),對最佳實施例步驟的各種修改、變化或替換都是可能的。因此,本發(fā)明不應(yīng)局限于最佳實施例及附圖所公開的內(nèi)容。