一種計(jì)算微博用戶影響力的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種計(jì)算微博用戶影響力的方法。
【背景技術(shù)】
[0002]目前微博內(nèi)容發(fā)布量巨大,已成為中國(guó)最大的輿論平臺(tái);微博信息的轉(zhuǎn)發(fā)和評(píng)論量,對(duì)輿情事件的傳播起到巨大推波助瀾的作用。然而,對(duì)于微博中存在的諸多虛假或惡意信息肆意傳播的現(xiàn)象,給監(jiān)管部門帶來巨大挑戰(zhàn),而這些消息的傳播往往都是借助網(wǎng)絡(luò)中影響力較大的節(jié)點(diǎn)用戶。此外,對(duì)于微博上關(guān)于商品和服務(wù)的推廣,通過選擇影響力較大的用戶作為首選推廣人群,借助他們的明星效應(yīng),能夠?qū)a(chǎn)品或服務(wù)傳播到更多人。因此,識(shí)別和利用影響力較大的用戶,對(duì)于促進(jìn)網(wǎng)絡(luò)安全和網(wǎng)絡(luò)經(jīng)濟(jì)的發(fā)展有重要意義。
[0003]針對(duì)目前學(xué)術(shù)界評(píng)估用戶影響力的方法主要是基于鏈接分析和用戶行為權(quán)值。鏈接分析方法比較直觀反映影響的人群,但對(duì)于全網(wǎng)用戶的計(jì)算,其時(shí)間和空間復(fù)雜度是不能承受的?;谟脩粜袨闄?quán)值分析方法依賴于用戶的粉絲數(shù)、發(fā)布數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和提及(@)數(shù),基于完善的指標(biāo)體系能夠很好的反映出用戶影響力水平。因此,本發(fā)明選擇基于用戶行為權(quán)值的方法,即統(tǒng)計(jì)分析用戶的交互行為,評(píng)估用戶影響力大小。
[0004]基于用戶行為權(quán)值的方法需要評(píng)估用戶影響力指標(biāo)體系,目前市場(chǎng)上實(shí)際使用的指標(biāo)體系包括新浪微博自身的指數(shù)和新媒體指數(shù)。新浪微博的指標(biāo)體系公布信息不是很完全,提供的排行榜往往是根據(jù)轉(zhuǎn)發(fā)總數(shù)、評(píng)論總數(shù)得到的熱門人物。新媒體指數(shù)公布的細(xì)節(jié)比較完善,但其指標(biāo)體系中存在諸多缺陷。諸如沒有考慮影響力傳播的廣度和速度,但其最大缺陷在于從某種意義上說,微博發(fā)布者數(shù)量越大,其影響力越大,這顯然與事實(shí)是不相符合的。因此,在總結(jié)目前關(guān)于評(píng)估用戶影響力指標(biāo)體系的缺陷的基礎(chǔ)上,有針對(duì)性的提出一套完整的指標(biāo)體系,和完善的微博流數(shù)據(jù)處理流程,以實(shí)現(xiàn)更準(zhǔn)確的用戶影響力評(píng)估。
【發(fā)明內(nèi)容】
[0005]本發(fā)明針對(duì)大數(shù)據(jù)環(huán)境下微博用戶影響力難以定量評(píng)估的問題,構(gòu)建了一種計(jì)算微博用戶影響力的方法,對(duì)影響力較大的用戶進(jìn)行識(shí)別和利用。
[0006]具體步驟如下:
[0007]步驟一、收集每日的微博流數(shù)據(jù);
[0008]微博流數(shù)據(jù)可分為原創(chuàng)微博、轉(zhuǎn)發(fā)微博和評(píng)論微博三類,每條流數(shù)據(jù)含有I個(gè)標(biāo)識(shí);每條流數(shù)據(jù)的信息包括:uid,mid, root_mid,root_uid,用戶粉絲數(shù),新增粉絲數(shù),時(shí)間,ip地址和微博內(nèi)容;
[0009]uid為當(dāng)前微博的用戶id ;mid為當(dāng)前微博的id ;
[0010]root_mid分為三種情況:如果是原創(chuàng)微博,root_mid為空;如果是轉(zhuǎn)發(fā)微博,root_mid為被轉(zhuǎn)發(fā)微博id ;如果是評(píng)論微博,root_mid為被評(píng)論微博id ;
[0011]root_uid分為三種情況:如果是原創(chuàng)微博,root_uid為空;如果是轉(zhuǎn)發(fā)微博,root_uid為被轉(zhuǎn)發(fā)用戶id ;如果是評(píng)論微博,root_uid為被評(píng)論用戶id ;
[0012]時(shí)間為當(dāng)前微博的發(fā)布時(shí)間;ip地址為當(dāng)前微博的用戶ip地址;
[0013]新增粉絲數(shù)是與前一天粉絲數(shù)的差值,粉絲數(shù)降低時(shí)設(shè)為O ;
[0014]微博內(nèi)容分為三種情況:如果是原創(chuàng)微博,微博內(nèi)容即用戶發(fā)布內(nèi)容;如果是轉(zhuǎn)發(fā)微博,微博內(nèi)容是用戶轉(zhuǎn)發(fā)時(shí)附加評(píng)論信息與上級(jí)轉(zhuǎn)發(fā)用戶昵稱、被轉(zhuǎn)發(fā)微博的發(fā)布內(nèi)容;如果是評(píng)論微博,微博內(nèi)容即被評(píng)論微博的發(fā)布內(nèi)容。
[0015]步驟二、服務(wù)器利用ZMQ中的pull-push方案將每日的微博流數(shù)據(jù)平均分發(fā)到服務(wù)器的多個(gè)端口上;
[0016]步驟三、對(duì)服務(wù)器端口接收的流數(shù)據(jù)進(jìn)行特征提取和并行計(jì)算;
[0017]具體過程如下:
[0018]根據(jù)每條微博流數(shù)據(jù),根據(jù)標(biāo)識(shí)判斷微博流數(shù)據(jù)屬于哪一類,分別進(jìn)行增量計(jì)算:
[0019]對(duì)于原創(chuàng)微博,記錄該條微博的uid,mid,粉絲數(shù),發(fā)布時(shí)間和ip地址,對(duì)該uid的原創(chuàng)微博數(shù)自增1,如果ip未曾使用過,則ip地址個(gè)數(shù)自增I ;
[0020]對(duì)于轉(zhuǎn)發(fā)微博,記錄該條微博的uid,mid,粉絲數(shù),發(fā)布時(shí)間,ip地址,root_uid,以及root_mid ;并對(duì)該uid的轉(zhuǎn)發(fā)微博數(shù)自增1,如果ip未曾使用過,則ip地址個(gè)數(shù)自增I ;對(duì)root_uid的root_mid被轉(zhuǎn)發(fā)量即自增I ;將0_24h按照每15分鐘間隔劃分為96個(gè)區(qū)間,將該mid的發(fā)布時(shí)間映射到96個(gè)區(qū)間之一;對(duì)root_uid相應(yīng)的區(qū)間上的微博轉(zhuǎn)發(fā)量自增I作為微博轉(zhuǎn)發(fā)的爆發(fā)度;
[0021]對(duì)于評(píng)論微博,記錄該條微博的uid,mid,發(fā)布時(shí)間,ip地址,root_uid以及root_mid ;并對(duì)該uid的微博評(píng)論數(shù)自增1,如果ip未曾使用過,則ip地址個(gè)數(shù)自增I ;root_uid的root_mid微博被評(píng)論量自增I ;將0-24h按照每15分鐘間隔劃分為96個(gè)區(qū)間,將該mid的發(fā)布時(shí)間映射到96個(gè)區(qū)間之一;對(duì)root_uid相應(yīng)的區(qū)間上的微博評(píng)論量自增I作為微博評(píng)論的爆發(fā)度。
[0022]步驟四、將從每一條流數(shù)據(jù)中提取得到的特征存儲(chǔ)到內(nèi)存數(shù)據(jù)庫(kù)集群redis中,作為用戶影響力多維屬性特征。
[0023]具體為:以redis內(nèi)存數(shù)據(jù)庫(kù)中的hash表為基本存儲(chǔ)單元,hash表包括命名空間、鍵和值三部分;以u(píng)id或root_uid為命名空間,用戶影響力的多維屬性為鍵,值為多維屬性對(duì)應(yīng)的數(shù)值,使得對(duì)每條微博流數(shù)據(jù)進(jìn)行統(tǒng)計(jì)時(shí)能夠?qū)ο鄳?yīng)用戶的影響力的多維屬性進(jìn)行增量累加。
[0024]用戶影響力多維屬性特征包括:原創(chuàng)微博數(shù),轉(zhuǎn)發(fā)微博數(shù),用戶粉絲數(shù)和新增粉絲數(shù),原創(chuàng)微博轉(zhuǎn)發(fā)的總評(píng)論數(shù),平均評(píng)論數(shù),最高評(píng)論數(shù)和爆發(fā)度;原創(chuàng)微博評(píng)論的總評(píng)論數(shù),平均評(píng)論數(shù),最高評(píng)論數(shù)和爆發(fā)度;轉(zhuǎn)發(fā)微博轉(zhuǎn)發(fā)的總評(píng)論數(shù),平均評(píng)論數(shù),最高評(píng)論數(shù)和爆發(fā)度;轉(zhuǎn)發(fā)微博評(píng)論的總評(píng)論數(shù),平均評(píng)論數(shù),最高評(píng)論數(shù)和爆發(fā)度。
[0025]步驟五、用戶自定義過濾規(guī)則過濾不關(guān)心用戶;
[0026]步驟六、利用用戶影響力多維屬性特征計(jì)算用戶影響力;
[0027]用戶影響力的具體計(jì)算方法如下:
[0028]用戶活躍度d_active為:
[0029]d_active = 0.5 X In (x!+l) +0.3 X In (x2+l) +0.1 X In (x3+l) +0.1 X In (x4+l)
[0030]^為原創(chuàng)微博數(shù),X 2為轉(zhuǎn)發(fā)微博數(shù),X 3為用戶粉絲數(shù)和X 4為新增粉絲數(shù);
[0031]微博影響力d_weibo為:
[0032]d_weibo = 0.3 X x5+0.3 X x6+0.2 X x7+0.2 X X8
[0033]其中,&為原創(chuàng)微博轉(zhuǎn)發(fā)權(quán)重,X 6為原創(chuàng)微博評(píng)論權(quán)重,X 7為轉(zhuǎn)發(fā)微博轉(zhuǎn)發(fā)權(quán)重和X8為轉(zhuǎn)發(fā)微博評(píng)論權(quán)重;計(jì)算方法如下:
[0034]X5= 0.4 X In (x 51+1) +0.2 X In (x52+l) +0.15 X In (x53+l) +0.25 X In (x54+l)
[0035]X6= 0.4 X In (x 61+1) +0.2 X In (x62+l) +0.15 X In (x63+l) +0.25 X In (x64+l)
[0036]X7= 0.4 X In (x 71+1) +0.2 X In (x72+l) +0.15 X In (x73+l) +0.25 X In (x74+l)
[0037]X8= 0.4 X In (x 81+1) +0.2 X In (x82+l) +0.15 X In (x83+l) +0.25 X In (x84+l)
[0038]X51為原創(chuàng)微博總轉(zhuǎn)發(fā)數(shù)、X52為原創(chuàng)微博平均轉(zhuǎn)發(fā)數(shù)、X53為原創(chuàng)微博最高轉(zhuǎn)發(fā)數(shù)和X54為原創(chuàng)微博被轉(zhuǎn)發(fā)的爆發(fā)度61為原創(chuàng)微博總評(píng)論數(shù)、X 62為原創(chuàng)微博平均評(píng)論數(shù)、X 63為原創(chuàng)微博最高評(píng)論數(shù)和X64為原創(chuàng)微博被評(píng)論的爆發(fā)度;x 71為轉(zhuǎn)發(fā)微博總轉(zhuǎn)發(fā)數(shù)、X 72為轉(zhuǎn)發(fā)微博平均轉(zhuǎn)發(fā)數(shù)、X73為轉(zhuǎn)發(fā)微博最高轉(zhuǎn)發(fā)數(shù)和X 74為轉(zhuǎn)發(fā)微博被轉(zhuǎn)發(fā)的爆發(fā)度81為轉(zhuǎn)發(fā)微博總評(píng)論數(shù)、X82為轉(zhuǎn)發(fā)微博平均評(píng)論數(shù)、X83為轉(zhuǎn)發(fā)微博最高評(píng)論數(shù)和X84為轉(zhuǎn)發(fā)微博被評(píng)論的爆發(fā)度;
[0039]用戶影響力index為:
[0040]index = 0.2 X d_active+0.8 X d_weibo
[0041]步驟七、計(jì)算每日每個(gè)用戶的影響力,結(jié)果存儲(chǔ)到集群數(shù)據(jù)庫(kù)elasticsearch并應(yīng)用。
[0042]本發(fā)明的優(yōu)點(diǎn)在于:
[0043]I)、一種計(jì)算微博用戶影響力的方法,完善的用戶影響力指標(biāo)體系的建立;在綜合國(guó)內(nèi)外研究現(xiàn)狀的基礎(chǔ)上,基于用戶的粉絲數(shù)、微博數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)等微博行為屬性,提出了新的用戶影響力指標(biāo)體系。該指標(biāo)體系新增加了平均數(shù)、最高數(shù)和爆發(fā)度的指標(biāo),平均數(shù)要求用戶發(fā)布的每條微博的平均影響力都比較高,而避免出現(xiàn)大微博數(shù)造成大轉(zhuǎn)發(fā)量或評(píng)論量的現(xiàn)象,最高數(shù)和爆發(fā)度分別刻畫影響力傳播的范圍和速度,是刻畫影響力較為重要的兩個(gè)指標(biāo)。因此,新增加的指標(biāo)克服以往指標(biāo)中存在單一總數(shù)不能完整刻畫用戶影響力的缺陷,能夠更深入的解釋用戶影響力高的原因