專利名稱:一種博客信息傳播中識別關鍵博客集的方法
技術領域:
本發(fā)明涉及博客信息傳播中關鍵博客節(jié)點集合的快速識別問題,特別針對互聯(lián)網時代博客網站(尤其是微博)越來越普及,已經成為新聞和評論等信息傳播的主流平臺之一,需要有效監(jiān)督以幫助互聯(lián)網上信息的鑒別和控制。
背景技術:
博客(Weblog或blog)是以互聯(lián)網為載體、同時由個人管理的信息共享平臺。一個博客是一組包含文字、鏈接、圖像等的網頁集合,由博主(即注冊在博客網站的用戶)個人管理,不定期粘貼新文章(Posts)供人們?yōu)g覽或轉載。隨著大量博客網站(如國外著名的Twitter,國內的新浪微博等)的涌現(xiàn),博客已成為人們日常獲取信息的主流平臺之一。 微博(Micro-Blog)的出現(xiàn)更降低了博客對用戶技術和知識背景的要求,使得越來越多的人們主動加入到博客信息平臺,共享新聞和自己的見解?;ヂ?lián)網上各種信息真假莫辯,這要求對博客信息傳播做適當的監(jiān)督和引導;由于博客數量龐大且更新迅速,不可能對每一個博客隨時進行跟蹤,這就增加了監(jiān)督的難度。解決信息傳播領域影響最大化問題,需要給定信息傳播的網絡圖,設定信息傳播模型,以尋找影響力最大的關鍵節(jié)點集合集合中的節(jié)點數量給定,且節(jié)點上的信息可以傳播到圖中最多的節(jié)點上。目前解決影響最大化問題的主流技術有兩類其一是啟發(fā)式方法; 其二是隨機模擬方法。啟發(fā)式方法根據節(jié)點的拓撲特征,包括度數和到其他節(jié)點的平均最短距離等,選擇度數大或者平均最短距離小的節(jié)點作為影響力大的節(jié)點。啟發(fā)式方法的優(yōu)點是執(zhí)行性能較高;缺點是所識別的節(jié)點準確率低,即實際不能達到最大的影響力,而且所適用的傳播模型過于簡單,與實際網絡中的信息傳播方式不相符合。隨機模擬方法基于設定的信息傳播模型,運用蒙特卡洛隨機模擬,在模擬足夠多次(如10000次以上)的基礎上確定節(jié)點或節(jié)點集合所能夠影響的范圍,再基于貪婪方法選擇邊際增益最高(即額外影響的節(jié)點數量最多)的節(jié)點作為關鍵節(jié)點。模擬方法的優(yōu)點是可以適用于不同的信息傳播模型,且識別的關鍵節(jié)點集準確率較高;缺點是執(zhí)行性能過低,適用于相對靜態(tài)的信息傳播網絡。博客信息傳播網絡信息量大,更新迅速,信息傳播形式多樣,現(xiàn)有方法尚不能滿足博客信息傳播的關鍵節(jié)點集識別要求。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種可以快速識別博客信息傳播中關鍵博客節(jié)點集合的方法,該方法能夠以較高的執(zhí)行性能更準確的識別關鍵節(jié)點集,適于博客信息平臺數據量大更新快的特點,計算簡單,具有擴展性和適應性,可以有效輔助博客信息平臺的監(jiān)督。為實現(xiàn)上述目的,本發(fā)明采用如下的步驟1)以博客為單位收集和確定博主間的關聯(lián);2)以博客為節(jié)點構建博客網絡圖,圖的邊為博客間的關聯(lián),對應博客間的鏈接關系或者博主之間的關注關系;3)根據信息傳播模型確定博客網絡圖中博客間的關聯(lián)的權重;4)基于博客網絡圖和關聯(lián)權重的設置計算每個博客對其他博客信息傳播影響力的期望值;5)根據博客間信息傳播影響力的期望值,識別博客網絡圖中信息傳播影響力最大的關鍵節(jié)點集合,即關鍵博客集。上述步驟1)中的關聯(lián)包括關注關系以及博客中文章間的鏈接關系;而收集和確定博客間的關聯(lián)的過程為首先從博客網站獲取博客數據,為每一個博客(博主)賦予唯一標識,如Bi。然后獲取博主的好友列表或關注列表;好友列表確定博主間雙向的好友關系; 關注列表確定博主間單向的關注關系;好友關系可以表示為兩個互為反向的關注關系;如果博主A關注博主Bj,則兩者之間的關注關系標記為<Bj; Bi, f>。接下來獲取博客&在1 日內粘貼的文章,參數t可設為20。對博客Bi中的每一篇文章Pix,如果Pix鏈接(引用) 了博客Bj中的文章Bjy,則認為博客Bi與博客Bj之間存在鏈接關系,標記為<Bj; Bi, At>, 其中At表示文章Bix粘貼日期與當前日期的差值。如果博客&多次引用博客h中文章, 則At為其中的最小值。上述步驟2)中構建博客網絡圖的流程是首先定義博客網絡圖G = E)為有向圖,其中 = {歷,戰(zhàn),...,仄}為博客集合,每個博客作為圖中節(jié)點;E為博客之間關聯(lián)(有向邊)的集合。然后對博客群IB中任意兩個博客Bi和Bp如果Bi和&間存在關注關系Bi, f>,或者存在鏈接關系At>,則在Bi和B」之間定義有向邊 =Bj - Bi ;同理如果是 <Bi; Bj, f> 或者 <Bi; Bj, At〉,則定義有向邊 e。=Bi — B」。上述步驟幻中確定博客網絡圖中邊的權重。對邊集E中的每一條有向邊,分析 對應的關聯(lián)關系。如果是鏈接關系<Bi; Bp At〉,則采用獨立級聯(lián)模型為邊賦權重(其中鏈接關系權重的初始值λ可設為0. 1,指數參數α可設為0. 5)Wij = λe-a Δt如果是關注關系<Β” Bj, f>,則采用加權級聯(lián)模型為邊賦權重(其中集合Fj是博主h的關注集,|F」指集合的規(guī)模;關注關系權重的最大值δ可設為0.6)
權利要求
1.一種博客信息傳播中識別關鍵博客集的方法,其特征在于包含以下步驟1)以博客為單位收集和確定博主間的關聯(lián);2)以博客為節(jié)點構建博客網絡圖,圖的邊為博客間的關聯(lián),對應博客間的鏈接關系或者博主之間的關注關系;3)根據信息傳播模型確定博客網絡圖中博客間的關聯(lián)的權重;4)基于博客網絡圖和關聯(lián)權重的設置計算每個博客對其他博客信息傳播影響力的期望值;5)根據博客間信息傳播影響力的期望值,識別博客網絡圖中信息傳播影響力最大的關鍵節(jié)點集合,即關鍵博客集。
2.根據權利要求1所述的博客信息傳播中識別關鍵博客集的方法,其特征在于步驟1) 中的關聯(lián)包括關注關系以及博客中文章間的鏈接關系;而收集和確定博客間的關聯(lián)過程為首先從博客網站獲取博客數據,為每一個博客,即博主,賦予唯一標識,如Bi ;然后獲取博主的好友列表或關注列表;好友列表確定博主間雙向的好友關系;關注列表確定博主間單向的關注關系;好友關系可以表示為兩個互為反向的關注關系;如果博主Bi關注博主Bj, 則兩者間的關注關系標記為<BpBi,f> ;接下來獲取博客Bi在1日內粘貼的文章,對博客Bi 中的每一篇文章批Pix,如果Pix鏈接了博客B」中的文章ΡΛ,則認為博客Bi與博客B」之間存在鏈接關系,標記為Bi, At>,其中At表示文章Pix粘貼日期與當前日期的差值;如果博客Bi多次引用博客h中文章,則At為其中的最小值。
3.根據權利要求2所述的的博客信息傳播中識別關鍵博客集的方法,其特征在于步驟2)中構建博客網絡圖的流程是首先定義博客網絡圖G= (B,均為有向圖,其中 B = {Bu B2,..., 為博客集合,每個博客作為圖中節(jié)點;E為博客之間關聯(lián)的集合,即圖中有向邊的集合;然后對博客群B中任意兩個博客Bi和Bp如果Bi和&間存在關注關系 〈BpByf〉,或者存在鏈接關系<Β」,Βρ At>,則在Bi和Bj之間定義有向邊eji =Bj — Bi ;同理如果是<Bi; B」,0或者仂^8」,At〉,則定義有向邊eij =Bi — B」。
4.根據權利要求3所述的的博客信息傳播中識別關鍵博客集的方法,其特征在于步驟3)中所述確定博客網絡圖中博客間的關聯(lián)的權重,即確定博客網絡圖中有向邊的權重,其分三種情況對邊集E中的每一條有向邊,分析6。.對應的關聯(lián)關系;其中情況1,關聯(lián)關系為鏈接關系<Β” Bj, Δ t>,此時采用獨立級聯(lián)模型為邊賦權重,即Wij =λθ-α·、其中鏈接關系權重的初始值λ設為0. 1,指數參數α設為0. 5 ;情況2,關聯(lián)關系為關注關系KBi, Bj, f>,此時采用加權級聯(lián)模型為邊賦權重,即
5.根據權利要求4所述的的博客信息傳播中識別關鍵博客集的方法,其特征在于步驟4)中計算每個博客對其他博客信息傳播影響力的期望值分三種情況,對于博客節(jié)點Bi和Bj,標記p(i,j)為節(jié)點的信息影響力期望值,等同于信息傳播影響的概率;其中情況1,j = i,則P(i,i) = 1,表示節(jié)點肯定影響自己;情況2,若j興i,且節(jié)點Bi到節(jié)點Bj不可達,則ρ (i,j) = 0 ;情況3,若j興i,且節(jié)點Bi到節(jié)點Bj可達,則尋找網絡圖中節(jié)點Bi到節(jié)點Bj的最短路徑,標記為I^ath1 (Bi, Bj),指節(jié)點間所有簡單路徑(路徑上節(jié)點不重復出現(xiàn))中權值最大的路徑。P(i,j)等于最短路徑I^ath1 (Bi, Bp的權值,即路徑中所包含邊權重的乘積
6.根據權利要求5所述的的博客信息傳播中識別關鍵博客集的方法,其特征在于步驟 5)中識別博客網絡圖中信息傳播影響力最大的關鍵節(jié)點集合的過程是首先確定集合S的規(guī)模,定義ο ( 為網絡圖中受集合S中博客節(jié)點影響的節(jié)點數量的期望值;然后選擇網絡圖中影響范圍最大的單個節(jié)點構成初始集合S= {Bmax},對應的σ ({Bmax})計算如下
全文摘要
本發(fā)明公開了一種可以快速、準確在博客信息傳播中識別關鍵博客集的方法,其步驟是1)以博客為單位收集和確定博客之間的關注關系和鏈接關系;2)以博客為節(jié)點構建博客網絡圖,圖的邊為博客間的關聯(lián);3)根據信息傳播模型確定博客間關聯(lián)(有向邊)的權重;4)基于博客網絡圖計算每個博客對其他博客傳播影響力的期望值;5)識別博客網絡圖中信息傳播影響力最大的關鍵節(jié)點集合。本發(fā)明結合信息傳播模型,應用博客之間的關聯(lián)關系,通過計算信息傳播期望,快速識別博客信息傳播中關鍵的博客集合,以方便博客信息的監(jiān)督。
文檔編號G06F17/30GK102262681SQ20111023914
公開日2011年11月30日 申請日期2011年8月19日 優(yōu)先權日2011年8月19日
發(fā)明者張堯, 湯九斌, 陳道蓄, 顧慶 申請人:南京大學