两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法

文檔序號:6398526閱讀:1068來源:國知局
專利名稱:社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種識別方法,具體涉及一種社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法。
背景技術(shù)
隨著Web2.0技術(shù)的發(fā)展,社交網(wǎng)絡(luò)(SNS)已成為互聯(lián)網(wǎng)中非常流行的網(wǎng)絡(luò)應(yīng)用。目前,一些大規(guī)模在線社交網(wǎng)站,如Facebook的訪問量已經(jīng)超過谷歌,成為美國第一大網(wǎng)站,而國內(nèi)深受大學(xué)生歡迎的人人網(wǎng),目前注冊用戶已達I億,日登陸2200萬人次(2009年10月27日人人網(wǎng)公布的數(shù)據(jù)),2009年12月alexa網(wǎng)站的數(shù)據(jù)顯示國內(nèi)外網(wǎng)站訪問量前15名中社交網(wǎng)站已分別占到4個和6個。社交網(wǎng)站每天都有數(shù)百萬在線用戶,這包含著巨大潛在的商機,比如一些公司可以利用社交網(wǎng)站在線用戶來推銷他們的產(chǎn)品。在社交網(wǎng)絡(luò)中,種子節(jié)點的影響力對推動信息傳播是非常重要的。一些通過病毒式市場營銷方式來推銷其產(chǎn)品、服務(wù)的公司或用戶對如何選擇具有影響力的種子節(jié)點懷有很大的興趣。比如A公司想在社交網(wǎng)站為其產(chǎn)品做廣告,由于廣告費用有限,只能投放K個用戶,A公司希望這些最初的用戶能夠喜歡其產(chǎn)品,并以他們作為種子節(jié)點,在社交網(wǎng)絡(luò)中以口碑相傳方式來影響他們的朋友,讓他們的朋友也喜歡其產(chǎn)品,而他們的朋友又通過社交網(wǎng)絡(luò)進一步影響更多的朋友,使更多的用戶都能喜歡其產(chǎn)品。A公司當然希望最初選擇的用戶(即種子節(jié)點)都具有較大影響力,所影響的人數(shù)盡可能地多,從而花費少量的費用就可達到最大的廣告效益??梢?,種子節(jié)點在網(wǎng)絡(luò)信息傳播過程中發(fā)揮了重要的作用,他們相當于意見領(lǐng)袖,通過他們的引導(dǎo)和影響,局部意見可能演化為網(wǎng)絡(luò)輿論。統(tǒng)計數(shù)據(jù)顯示,網(wǎng)絡(luò)中的大部分用戶不經(jīng)常參與信息的制造與傳播,他們做出的決定往往跟隨意見領(lǐng)袖。有效地識別網(wǎng)絡(luò)意見領(lǐng)袖,通過意見領(lǐng)袖發(fā)表引導(dǎo)性信息來影響所在網(wǎng)絡(luò)用戶而非直接說服他們,可以有效地觸發(fā)整個網(wǎng)絡(luò)或社會的影響力,對于推動信息傳播,提高廣告效應(yīng)具有重要的現(xiàn)實意義。人們從不同角度研究了社交網(wǎng)絡(luò)意見領(lǐng)袖發(fā)現(xiàn)和識別問題,通過檢測社交網(wǎng)絡(luò)中影響力最大的種子節(jié)點來識別意見領(lǐng)袖是其中的一種重要方法,并引起業(yè)界的關(guān)注和重視,將此類問題歸結(jié)為影響力最大化問題。對于影響力最大化問題,目前求解算法主要分為兩類:⑴復(fù)雜網(wǎng)絡(luò)算法,比如基于節(jié)點度和基于中心的算法等,這類算法存在的主要問題是所得到的種子節(jié)點影響力偏低;(2)貪婪算法,其主要問題是計算效率較低、計算時間不穩(wěn)定以及可擴展性較差等。Kempe 等在文獻“Maximizing the spread of influence through a socialnetwork (SIGKDD,pages 137-146, 2003)”中,將影響力最大化問題作為一個離散優(yōu)化問題,證明了影響力最大化問題是一個NP難題,并提出一個近似的貪婪算法,其核心思想是每次選取影響力增值最大的節(jié)點作為種子節(jié)點,證明了貪婪算法得到種子節(jié)點的影響力不低于最優(yōu)算法的(l-1/e),并研究了三種不同離散的信息傳播模型以及在模型中如何尋找具有最大影響力的種子節(jié)點。實驗結(jié)果顯示,貪婪算法得到種子節(jié)點影響力明顯地高于傳統(tǒng)的基于節(jié)點度和基于中心的算法,但該貪婪算法有一個嚴重的缺點,就是計算效率問題,比如在適度規(guī)模社交網(wǎng)絡(luò)中(約15000節(jié)點)搜索最大影響力的種子節(jié)點需要在一臺服務(wù)器上計算數(shù)天時間,而在大規(guī)模社交網(wǎng)絡(luò)中有數(shù)百萬計的節(jié)點,計算時間將可能成指數(shù)倍增長。Leskovec 等在文獻“Cost-effective outbreak detection in networks(SIGKDD,pages420-429, 2007)” 中,提出一個 CELF(Cost-Effective Lazy Forwardselection)優(yōu)化貪婪方法,該方法是基于影響力具有子模函數(shù)特征提出的,即所有節(jié)點的影響力隨著種子節(jié)點集合中節(jié)點數(shù)目增加在減弱,具有單調(diào)遞減性。該方法分為兩個步驟:第一個步驟用于選擇第一個種子節(jié)點,在全部節(jié)點中搜索種子節(jié)點,選擇影響力最大節(jié)點加入到種子節(jié)點集合中;第二個步驟用于選擇余下種子節(jié)點,利用影響力具有單調(diào)遞減性這一性質(zhì)在部分影響力較大節(jié)點中搜索種子節(jié)點。由于在第二個步驟中此方法搜索種子節(jié)點空間的減少,因此計算效率有了較大提高。實驗結(jié)果顯示,在搜索結(jié)果相同的情況下,CELF算法比原始貪婪算法的計算速度提高了近700倍,但對于大規(guī)模的社交網(wǎng)絡(luò),它的計算效率依然比較低。Wei Chen 等在文獻“Efficient influence maximization in socialnetworks (SIGKDD, pp.199-208, 2009) ” 中,提出了一個新的貪婪算法(NewGreedy),基本思想是在社交網(wǎng)絡(luò)圖中,以節(jié)點間影響因子P選擇相關(guān)邊,建立一個全新的子圖,然后選擇子圖中度數(shù)最大的節(jié)點作為種子節(jié)點,并且還提出一個MixGreedy算法,它分為兩部分,第一部分采用NewGreedy算法思想選取第一個種子節(jié)點,第二部分采用CELF算法思想選取余下種子節(jié)點。MixGreedy算法結(jié)合了 NewGreedy算法和CELF算法的優(yōu)點,其計算效率比CELF算法有所提高。由于在線性閾值模型中節(jié)點間并不以影響因子P來相互激活,MixGreedy算法需要從獨立級聯(lián)模型或帶權(quán)級聯(lián)模型中求得種子節(jié)點,再在線性閾值模型中計算它們的影響力,因此其搜索結(jié)果與其他貪婪算法有時相差較大,在線性閾值模型中可擴展性較差。

發(fā)明內(nèi)容
為了克服現(xiàn)有的社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法效率低的不足,本發(fā)明提供一種社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法。該方法通過檢測社交網(wǎng)絡(luò)中影響力最大的種子節(jié)點來發(fā)現(xiàn)和識別意見領(lǐng)袖,在檢測社交網(wǎng)絡(luò)中種子節(jié)點影響力時,根據(jù)社交網(wǎng)絡(luò)節(jié)點的度分布以及節(jié)點的度數(shù)與影響力的關(guān)聯(lián)性等因素,采用在具有高度數(shù)的部分節(jié)點中檢測種子節(jié)點并其計算影響力,只需在少部分影響力較大的節(jié)點中進行檢測和計算,因此可以節(jié)省大量的盲目檢測時間,降低種子節(jié)點影響力計算復(fù)雜度,提高了社交網(wǎng)絡(luò)意見領(lǐng)袖識別效率。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法,其特點是包括以下步驟:(I)利用網(wǎng)絡(luò)爬蟲工具,從互聯(lián)網(wǎng)中采集實際的社交網(wǎng)絡(luò)數(shù)據(jù)。(2)根據(jù)社交網(wǎng)絡(luò)特性,使用獨立級聯(lián)模型等信息傳播模型對社交網(wǎng)絡(luò)的信息傳播過程進行建模分析。在信息傳播模型中,輸入社交網(wǎng)絡(luò)數(shù)據(jù)以及r參數(shù),其中r (O<r ^ I)為高度數(shù)節(jié)點占所有節(jié)點的百分比。(3)根據(jù)信息傳播模型以及社交網(wǎng)絡(luò)拓撲等信息,計算每個節(jié)點度數(shù),并由大到小進行排序,選擇排序前r的節(jié) 點形成新的節(jié)點集合。(4)在新的節(jié)點集合中檢測種子節(jié)點,并使用子模函數(shù)計算種子節(jié)點影響力,將其中影響力最大的節(jié)點作為第一個種子節(jié)點。
(5)在新的節(jié)點集合中檢測余下的種子節(jié)點,同樣使用子模函數(shù)計算種子節(jié)點影響力,在每次選擇種子節(jié)點的過程中,只計算部分影響力大的節(jié)點,直到所有的種子節(jié)點選取完畢,形成一個按影響力大到小排列的種子節(jié)點集合。(6)從影響力排序的種子節(jié)點集合中,選取前η個種子節(jié)點,構(gòu)成意見領(lǐng)袖集合,識別出社交網(wǎng)絡(luò)中具有不同影響力或號召力的意見領(lǐng)袖。式中,O < η <集合中種子節(jié)點數(shù)目。所述r參數(shù)取值在0.01至0.2之間。本發(fā)明的有益效果是:由于通過檢測社交網(wǎng)絡(luò)中影響力最大的種子節(jié)點來發(fā)現(xiàn)和識別意見領(lǐng)袖,在檢測社交網(wǎng)絡(luò)中種子節(jié)點影響力時,根據(jù)社交網(wǎng)絡(luò)節(jié)點的度分布以及節(jié)點的度數(shù)與影響力的關(guān)聯(lián)性等因素,采用在具有高度數(shù)的部分節(jié)點中檢測種子節(jié)點并其計算影響力,只需在少部分影響力較大的節(jié)點中進行檢測和計算,因此可以節(jié)省大量的盲目檢測時間,降低種子節(jié)點影響力計算復(fù)雜度,提高了社交網(wǎng)絡(luò)意見領(lǐng)袖識別效率。通過實驗驗證和實際測試表明,本發(fā)明與背景技術(shù)相比,在影響力不受損失的情況下,識別效率提高了 50 90%,并且具有良好的可擴展性,適合于在大規(guī)模社交網(wǎng)絡(luò)中檢測最大影響力的種子節(jié)點,從而識別出意見領(lǐng)袖。下面結(jié)合附圖和實施例對本發(fā)明作詳細說明。


圖1是本發(fā)明社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法的流程圖。
具體實施例方式本發(fā)明所涉 及的基本概念解釋如下:(I)信息傳播模型:社交網(wǎng)絡(luò)是一種復(fù)雜網(wǎng)絡(luò),科技界通常采用數(shù)學(xué)建模方法對復(fù)雜網(wǎng)絡(luò)特性進行分析,以描述網(wǎng)絡(luò)信息傳播特性和內(nèi)在規(guī)律。對于社交網(wǎng)絡(luò),通常采用獨立級聯(lián)模型、帶權(quán)級聯(lián)模型和線性閾值模型等三種信息傳播模型對社交網(wǎng)絡(luò)種子節(jié)點影響力進行建模分析。這樣,社交網(wǎng)絡(luò)種子節(jié)點影響力最大化求解問題就轉(zhuǎn)換成在信息傳播模型中如何檢測和識別最大影響力種子節(jié)點問題。(2)影響力函數(shù):定義σ (.)為影響力函數(shù),S為種子節(jié)點集合,U為搜索節(jié)點集合。σ⑶是種子節(jié)點集合S的影響力,即集合S影響節(jié)點數(shù)目大小。(3)子模函數(shù)性質(zhì):定義1:如果對于任何元素x,y e RK有f(x V y)+f (X Λ y) ( f (x) +f (y),則函數(shù)f:Rk —R是子模函數(shù)。由定義I可以得出如下結(jié)論。結(jié)論1:如果f是子模函數(shù),貝丨J WAcBcN , V/e N\B,有f(A+j)-f(A)彡f(B+j)-f(B)??梢?,任何子模函數(shù)具有單調(diào)、非負等性質(zhì)。結(jié)論2:在獨立級聯(lián)模型、帶權(quán)級聯(lián)模型和線性閾值模型的任何一個實例中,影響力函數(shù)σ (.)是一個子模函數(shù)。參照圖1。本發(fā)明社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法具體步驟如下:1.獲取社交網(wǎng)絡(luò)數(shù)據(jù)。
利用網(wǎng)絡(luò)爬蟲工具,從互聯(lián)網(wǎng)中采集實際的社交網(wǎng)絡(luò)數(shù)據(jù),提取其中的節(jié)點、連接等網(wǎng)絡(luò)拓撲信息存入數(shù)據(jù)庫待處理。2.建立信息傳播模型。根據(jù)社交網(wǎng)絡(luò)特性,使用獨立級聯(lián)模型等信息傳播模型對社交網(wǎng)絡(luò)的信息傳播過程進行建模分析。在信息傳播模型中,輸入社交網(wǎng)絡(luò)數(shù)據(jù)以及r等參數(shù),其中K0<r< I)為高度數(shù)節(jié)點占所有節(jié)點的百分比,根據(jù)社交網(wǎng)絡(luò)中的節(jié)點數(shù)目、種子節(jié)點數(shù)目以及網(wǎng)絡(luò)拓撲等參數(shù)來確定,一般在0.01至0.2之間。3.計算節(jié)點度數(shù)。根據(jù)信息傳播模型以及社交網(wǎng)絡(luò)拓撲信息,計算每個節(jié)點度數(shù),并由大到小進行排序,選擇排序前r的節(jié)點形成新的節(jié)點集合。4.選擇第一個種子節(jié)點。在新的節(jié)點集合中檢測種子節(jié)點,并使用子模函數(shù)計算種子節(jié)點影響力,將其中影響力最大的節(jié)點作為第一個種子節(jié)點。5.選擇余下的種子節(jié)點。在新的節(jié)點集合中檢測余下的種子節(jié)點,同樣使用子模函數(shù)計算種子節(jié)點影響力,在每次選擇種子節(jié)點的過程中,只計算部分影響力大的節(jié)點,直到所有的種子節(jié)點選取完畢,形成一個按影響力大到小排序的種子節(jié)點集合。6.識別意見領(lǐng)袖。從影響力排序的種子節(jié)點集合中,選取前η (O < η <集合中種子節(jié)點數(shù)目)個種子節(jié)點,構(gòu)成意見領(lǐng)袖集合,從而識別出社交網(wǎng)絡(luò)中具有了不同影響力或號召力的意見領(lǐng)袖。使用偽代碼描述本發(fā)明的具體算法如下:
權(quán)利要求
1.一種社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法,其特征在于包括以下步驟: (1)利用網(wǎng)絡(luò)爬蟲工具,從互聯(lián)網(wǎng)中采集實際的社交網(wǎng)絡(luò)數(shù)據(jù); (2)根據(jù)社交網(wǎng)絡(luò)特性,使用獨立級聯(lián)模型等信息傳播模型對社交網(wǎng)絡(luò)的信息傳播過程進行建模分析;在信息傳播模型中,輸入社交網(wǎng)絡(luò)數(shù)據(jù)以及r參數(shù),其中r (0<r^ I)為高度數(shù)節(jié)點占所有節(jié)點的百分比; (3)根據(jù)信息傳播模型以及社交網(wǎng)絡(luò)拓撲等信息,計算每個節(jié)點度數(shù),并由大到小進行排序,選擇排序前r的節(jié)點形成新的節(jié)點集合; (4)在新的節(jié)點集合中檢測種子節(jié)點,并使用子模函數(shù)計算種子節(jié)點影響力,將其中影響力最大的節(jié)點作為第一個種子節(jié)點; (5)在新的節(jié)點集合中檢測余下的種子節(jié)點,同樣使用子模函數(shù)計算種子節(jié)點影響力,在每次選擇種子節(jié)點的過程中,只計算部分影響力大的節(jié)點,直到所有的種子節(jié)點選取完畢,形成一個按影響力大到小排列的種子節(jié)點集合; (6)從影響力排序的種子節(jié)點集合中,選取前η個種子節(jié)點,構(gòu)成意見領(lǐng)袖集合,識別出社交網(wǎng)絡(luò)中具有不 同影響力或號召力的意見領(lǐng)袖;式中,O < η<集合中種子節(jié)點數(shù)目。
2.根據(jù)權(quán)利要求1所述的社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法,其特征在于:所述r參數(shù)取值在0.0l至0.2之間。
全文摘要
本發(fā)明公開了一種社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法,用于解決現(xiàn)有的社交網(wǎng)絡(luò)意見領(lǐng)袖識別方法效率低的技術(shù)問題。技術(shù)方案是首先獲取社交網(wǎng)絡(luò)數(shù)據(jù);再根據(jù)社交網(wǎng)絡(luò)特性建立信息傳播模型;然后根據(jù)信息傳播模型以及社交網(wǎng)絡(luò)拓撲信息,計算每個節(jié)點度數(shù);將其中影響力最大的節(jié)點作為第一個種子節(jié)點;在新的節(jié)點集合中檢測余下的種子節(jié)點,形成一個按影響力大到小排序的種子節(jié)點集合;從影響力排序的種子節(jié)點集合中,選取前n個種子節(jié)點,構(gòu)成意見領(lǐng)袖集合,從而識別出社交網(wǎng)絡(luò)中具有不同影響力或號召力的意見領(lǐng)袖。由于通過檢測社交網(wǎng)絡(luò)中影響力最大的種子節(jié)點來識別意見領(lǐng)袖,節(jié)省了大量的盲目檢測時間,提高了識別效率。與背景技術(shù)相比,識別效率提高了50~90%。
文檔編號G06F17/30GK103116611SQ201310028159
公開日2013年5月22日 申請日期2013年1月25日 優(yōu)先權(quán)日2013年1月25日
發(fā)明者張璐, 蔡皖東, 蔡霖, 彭冬, 王塑, 葉三成 申請人:西安市煙草專賣局, 西北工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
泽普县| 五华县| 马尔康县| 城步| 隆回县| 准格尔旗| 泸西县| 女性| 芜湖市| 阆中市| 克东县| 金山区| 依安县| 乐至县| 龙州县| 江口县| 宁波市| 忻城县| 青海省| 黄浦区| 永兴县| 龙门县| 明水县| 哈密市| 广昌县| 安平县| 宾川县| 广丰县| 嘉黎县| 沁水县| 宁陵县| 长岛县| 进贤县| 平武县| 安阳县| 象山县| 宜章县| 曲周县| 甘泉县| 德昌县| 阿城市|