一種面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法
【專利摘要】本發(fā)明涉及互聯(lián)網(wǎng)信息管理領(lǐng)域,尤其涉及一種面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法。本發(fā)明包括:實(shí)時(shí)采集微博數(shù)據(jù),針對(duì)實(shí)時(shí)微博數(shù)據(jù)流建立基于動(dòng)態(tài)滑動(dòng)窗口機(jī)制的消息會(huì)話模型;從消息會(huì)話模型中抽取用戶信任屬性,根據(jù)設(shè)定的信任窗口大小構(gòu)建動(dòng)態(tài)信任模型,計(jì)算用戶的信任度;根據(jù)設(shè)定的消息窗口大小對(duì)實(shí)時(shí)微博消息流進(jìn)行切分,融合用戶信任度計(jì)算每個(gè)時(shí)間窗口中關(guān)鍵詞的權(quán)重,形成突發(fā)關(guān)鍵詞的權(quán)重序列;針對(duì)突發(fā)關(guān)鍵詞的權(quán)重序列,采用基于動(dòng)力學(xué)模型的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法計(jì)算關(guān)鍵詞的突發(fā)權(quán)值,如果關(guān)鍵詞的突發(fā)權(quán)值大于系統(tǒng)設(shè)定的突發(fā)閾值則該詞為突發(fā)關(guān)鍵詞。此方法能夠降低人類作息時(shí)間的影響,提高檢測(cè)突發(fā)關(guān)鍵詞的準(zhǔn)確度。
【專利說(shuō)明】一種面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息管理領(lǐng)域,尤其涉及一種面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法。
【背景技術(shù)】
[0002]隨著2006年Twitter正式上線以及Web2.0技術(shù)的快速發(fā)展,以互聯(lián)網(wǎng)為載體的各種社交網(wǎng)絡(luò)平臺(tái)成為Web2.0時(shí)代最具代表性的應(yīng)用,其中微博客(以下簡(jiǎn)稱微博)作為其中主要的平臺(tái)得到了廣大網(wǎng)民的關(guān)注。國(guó)內(nèi)包括新浪、騰訊、搜狐和網(wǎng)易等主要網(wǎng)絡(luò)媒體平臺(tái)自2009年開始分別推出各自的微博服務(wù),微博正式進(jìn)入中文上網(wǎng)主流人群視野。
[0003]目前微博以及成為網(wǎng)民獲取信息的重要途徑之一,微博從滿足人們?nèi)蹶P(guān)系的社交需求上逐漸演變成為大眾化的輿論平臺(tái),越來(lái)越多機(jī)構(gòu)及公眾人物都通過(guò)微博來(lái)發(fā)布或傳播信息。由于微博的即時(shí)性、自主性以及互動(dòng)性,使得許多非常規(guī)突發(fā)事件發(fā)生后,微博作為人們信息發(fā)布的主要載體為突發(fā)事件提供了第一傳播平臺(tái),包括“2013年吉林省松原地震”以及“青島石油管線爆炸”等突發(fā)事件,微博都是最早的信息來(lái)源。
[0004]微博中對(duì)于社會(huì)突發(fā)事件的報(bào)道和討論對(duì)于危機(jī)應(yīng)對(duì)和態(tài)勢(shì)感知是有積極意義的,但是由于用戶參與微博的技術(shù)門檻較低,用戶自身素質(zhì)良莠不齊,特別是微博用戶中存在一些僵尸粉絲為了自身利益以人為外力作用的方式協(xié)同推動(dòng)對(duì)消費(fèi)者有蠱惑的虛假突發(fā)話題,這類話題一旦通過(guò)微博在短時(shí)間內(nèi)不斷被轉(zhuǎn)發(fā)擴(kuò)散,將會(huì)助長(zhǎng)虛假突發(fā)話題的傳播并產(chǎn)生極為不良的影響。微博已經(jīng)成為互聯(lián)網(wǎng)輿情形成的主要網(wǎng)絡(luò)媒體之一,其中對(duì)突發(fā)話題的檢測(cè)是網(wǎng)絡(luò)輿情管理的重要目標(biāo)之一,因此,突發(fā)關(guān)鍵詞檢測(cè)作為突發(fā)話題檢測(cè)最重要的一個(gè)步驟顯得尤為重要。
[0005]現(xiàn)有的微博突發(fā)關(guān)鍵詞發(fā)現(xiàn)方法中未考慮僵尸粉絲在突發(fā)話題形成過(guò)程中的推動(dòng)作用以及人類生活作息對(duì)突發(fā)關(guān)鍵詞檢測(cè)方法的準(zhǔn)確度的影響,應(yīng)用到實(shí)際微博輿情監(jiān)管中可能將僵尸粉絲推動(dòng)以及受人類生活作息影響較大的關(guān)鍵詞誤判為突發(fā)關(guān)鍵詞從而導(dǎo)致較大的誤報(bào)率、較低的檢測(cè)率。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是提供一種提高突發(fā)關(guān)鍵詞檢測(cè)率和準(zhǔn)確度的面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法。
[0007]本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0008](I)實(shí)時(shí)采集微博數(shù)據(jù),針對(duì)實(shí)時(shí)微博數(shù)據(jù)流建立基于動(dòng)態(tài)滑動(dòng)窗口機(jī)制的消息會(huì)話模型;
[0009](2)從消息會(huì)話模型中抽取用戶信任屬性,根據(jù)設(shè)定的信任窗口大小構(gòu)建動(dòng)態(tài)信任模型,計(jì)算用戶的信任度;
[0010](3)根據(jù)設(shè)定的消息窗口大小對(duì)實(shí)時(shí)微博消息流進(jìn)行切分,融合用戶信任度計(jì)算每個(gè)時(shí)間窗口中關(guān)鍵詞的權(quán)重,形成突發(fā)關(guān)鍵詞的權(quán)重序列;
[0011](4)針對(duì)突發(fā)關(guān)鍵詞的權(quán)重序列,采用基于動(dòng)力學(xué)模型的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法計(jì)算關(guān)鍵詞的突發(fā)權(quán)值,如果關(guān)鍵詞的突發(fā)權(quán)值大于系統(tǒng)設(shè)定的突發(fā)閾值則該詞為突發(fā)關(guān)鍵
ο
[0012]動(dòng)態(tài)滑動(dòng)窗口機(jī)制為動(dòng)態(tài)滑動(dòng)信任窗口和動(dòng)態(tài)滑動(dòng)消息窗口。
[0013]消息會(huì)話模型中包括:
[0014]微博消息、微博用戶以及關(guān)鍵詞的關(guān)聯(lián)操作;
[0015]針對(duì)實(shí)時(shí)消息流消息會(huì)話模型的更新以及刪除操作。
[0016]在抽取用戶信任屬性之前還包括:
[0017]根據(jù)用戶交互行為定義用戶交互動(dòng)作以及用戶交互指數(shù);
[0018]根據(jù)信任窗口內(nèi)的用戶交互動(dòng)作建立用戶交互圖。
[0019]用戶信任屬性包括:
[0020]用戶交互度以及用戶交互質(zhì)量。
[0021]在計(jì)算關(guān)鍵詞的權(quán)重之前還包括:
[0022]對(duì)微博消息內(nèi)容進(jìn)行預(yù)處理,包括中文分詞、標(biāo)簽的識(shí)別與提取、去停用詞、提取名詞和動(dòng)詞作為關(guān)鍵詞。
[0023]在生成關(guān)鍵詞的權(quán)重序列之前還包括:
[0024]根據(jù)用戶作息時(shí)間以及關(guān)鍵詞的歷史權(quán)重值消除用戶作息時(shí)間對(duì)突發(fā)關(guān)鍵詞檢測(cè)的影響。
[0025]基于動(dòng)力學(xué)模型的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法包括:
[0026]定義與形式化基于動(dòng)力學(xué)的趨勢(shì)分析指標(biāo)對(duì)關(guān)鍵詞權(quán)重序列進(jìn)行處理。
[0027]本發(fā)明的有益效果在于:
[0028]1、本發(fā)明提出一個(gè)基于用戶交互行為的信任模型,利用兩個(gè)信任屬性評(píng)估用戶的信任度,融合此信任模型的突發(fā)關(guān)鍵詞發(fā)現(xiàn)方法能夠避免發(fā)現(xiàn)由僵尸粉絲推動(dòng)的偽突發(fā)關(guān)鍵詞。
[0029]2、本發(fā)明提出一個(gè)基于動(dòng)力學(xué)模型的突發(fā)關(guān)鍵詞發(fā)生方法,此方法能夠降低人類作息時(shí)間的影響,提高檢測(cè)突發(fā)關(guān)鍵詞的準(zhǔn)確度。
【專利附圖】
【附圖說(shuō)明】
[0030]圖1是本發(fā)明提供的微博突發(fā)關(guān)鍵詞檢測(cè)的方法的流程圖。
【具體實(shí)施方式】
[0031]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
[0032]此方法利用信任模型對(duì)微博用戶的交互行為進(jìn)行可信度評(píng)估從而獲取用戶可信度,只有用戶信任度高于設(shè)定信任閾值的可信用戶的微博消息才可以作為基于動(dòng)力學(xué)的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法的輸入,結(jié)合信任模型以及基于動(dòng)力學(xué)的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法檢測(cè)微博中的突發(fā)關(guān)鍵詞從而降低微博中僵尸粉絲以及人類生活作息時(shí)間的影響,快速準(zhǔn)確的檢測(cè)微博中的突發(fā)關(guān)鍵詞。
[0033]為實(shí)現(xiàn)上訴發(fā)明目的,本發(fā)明提供一種面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法,該方法包括:
[0034]實(shí)時(shí)采集微博數(shù)據(jù),針對(duì)實(shí)時(shí)微博數(shù)據(jù)流建立基于動(dòng)態(tài)滑動(dòng)窗口機(jī)制的消息會(huì)話模型;
[0035]從消息會(huì)話模型中抽取用戶信任屬性,根據(jù)設(shè)定的信任窗口大小構(gòu)建動(dòng)態(tài)信任模型,計(jì)算用戶的信任度;
[0036]根據(jù)設(shè)定的消息窗口大小對(duì)實(shí)時(shí)微博消息流進(jìn)行切分,融合用戶信任度計(jì)算每個(gè)消息窗口中關(guān)鍵詞的權(quán)重,形成突發(fā)關(guān)鍵詞的權(quán)重序列;
[0037]針對(duì)突發(fā)關(guān)鍵詞的權(quán)重序列,采用基于動(dòng)力學(xué)模型的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法計(jì)算關(guān)鍵詞的突發(fā)權(quán)值,如果關(guān)鍵詞的突發(fā)權(quán)值大于系統(tǒng)設(shè)定的突發(fā)閾值則該詞為突發(fā)關(guān)鍵詞。
[0038]進(jìn)一步地,所述動(dòng)態(tài)滑動(dòng)窗口機(jī)制為動(dòng)態(tài)滑動(dòng)信任窗口和動(dòng)態(tài)滑動(dòng)消息窗口,并且根據(jù)突發(fā)關(guān)鍵詞的檢測(cè)精度和實(shí)時(shí)性角度考慮設(shè)定信任窗口以及消息窗口的大小。
[0039]進(jìn)一步地,在所述的消息會(huì)話模型中包括:
[0040]微博消息、微博用戶以及關(guān)鍵詞的關(guān)聯(lián)操作;
[0041]針對(duì)實(shí)時(shí)消息流消息會(huì)話模型的更新以及刪除操作。
[0042]進(jìn)一步地,在抽取用戶信任屬性之前還包括:
[0043]根據(jù)用戶交互行為定義用戶交互動(dòng)作以及用戶交互指數(shù);
[0044]根據(jù)信任窗口內(nèi)的用戶交互動(dòng)作建立用戶交互圖。
[0045]進(jìn)一步地,所述用戶信任屬性包括:
[0046]用戶交互度以及用戶交互質(zhì)量。
[0047]進(jìn)一步地,在計(jì)算關(guān)鍵詞的權(quán)重之前還包括:
[0048]對(duì)微博消息內(nèi)容進(jìn)行預(yù)處理,包括中文分詞、標(biāo)簽的識(shí)別與提取、去停用詞、提取名詞和動(dòng)詞作為關(guān)鍵詞。
[0049]進(jìn)一步地,在生成關(guān)鍵詞的權(quán)重序列之前還包括:
[0050]根據(jù)用戶作息時(shí)間以及關(guān)鍵詞的歷史權(quán)重值消除用戶作息時(shí)間對(duì)突發(fā)關(guān)鍵詞檢測(cè)的影響。
[0051]進(jìn)一步地,所述基于動(dòng)力學(xué)模型的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法包括:
[0052]定義與形式化基于動(dòng)力學(xué)的趨勢(shì)分析指標(biāo)對(duì)關(guān)鍵詞權(quán)重序列進(jìn)行處理。
[0053]圖1是本發(fā)明實(shí)施例提供的面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法的實(shí)現(xiàn)流程圖,該方法詳述如下:
[0054]在步驟101中,實(shí)時(shí)采集微博數(shù)據(jù),針對(duì)實(shí)時(shí)微博數(shù)據(jù)流建立基于動(dòng)態(tài)滑動(dòng)窗口機(jī)制的消息會(huì)話模型。
[0055]針對(duì)采集到的微博實(shí)時(shí)消息流的微博消息,對(duì)消息內(nèi)容進(jìn)行切分處理,并對(duì)切分結(jié)果進(jìn)行處理,便于添加和刪除,同時(shí)進(jìn)行微博消息、用戶和消息內(nèi)容關(guān)聯(lián)操作。由于微博消息流中微博消息更新速度快,方案中通過(guò)增量更新方法更新二部圖中已有的邊的權(quán)值,考慮不同窗口下的流特征模式增加淘汰機(jī)制,針對(duì)超過(guò)閾值時(shí)間沒(méi)有更新的節(jié)點(diǎn)或者權(quán)值衰退為O的邊進(jìn)行刪除操作。
[0056]在步驟102中,從消息會(huì)話模型中抽取用戶信任屬性,根據(jù)設(shè)定的滑動(dòng)信任窗口大小構(gòu)建動(dòng)態(tài)社會(huì)信任模型,計(jì)算用戶的信任度。
[0057]示例性地,在信任模型中從用戶交互度以及用戶交互質(zhì)量?jī)蓚€(gè)信任屬性對(duì)微博用戶的可信度進(jìn)行評(píng)估,在抽取用戶信任屬性之前,根據(jù)用戶交互行為定義用戶交互動(dòng)作、用戶交互圖以及用戶交互指數(shù):
[0058]用戶交互動(dòng)作:對(duì)于用戶Ui和Up如果Ui與+主動(dòng)交互(評(píng)論、轉(zhuǎn)發(fā)等行為)則稱單向交互為主動(dòng)交互,其中Ui主動(dòng)用戶,+為被動(dòng)用戶。當(dāng)+回應(yīng)Ui的主動(dòng)交互(回復(fù)),則稱其為被動(dòng)交互,單向用戶交互轉(zhuǎn)變?yōu)殡p向用戶交互。
[0059]用戶交互圖:用戶交互圖定義為無(wú)向有權(quán)圖G = (U,E,W),用戶交互圖中U表示用戶集合,E表不頂點(diǎn)之間有雙向交互關(guān)系的邊的集合,對(duì)于任意的Wij e ff, Wij表不用戶Ui和Uj的交互次數(shù)。
[0060]用戶交互指數(shù):如果用戶Ui在用戶交互圖G中的至少有r個(gè)鄰居節(jié)點(diǎn),每個(gè)鄰居節(jié)點(diǎn)至少有r次交互,則稱用戶Ui的交互指數(shù)為r。
[0061]示例性地,在社會(huì)信任模型中利用滑動(dòng)信任窗口機(jī)制根據(jù)被動(dòng)交互的時(shí)間將用戶的歷史交互劃分成M個(gè)信任窗口,每個(gè)窗口大小為Tt。用戶動(dòng)態(tài)社會(huì)信任模型主要由三部分構(gòu)成:用戶交互度、用戶交互質(zhì)量以及用戶交互演變,其量化指標(biāo)如下:
[0062]⑴用戶交互度
[0063]假設(shè)用戶Ui在信任窗口 m的用戶交互圖表示為Gi,,用戶Ui的雙向交互數(shù)的計(jì)算公式如下:
[0064]N(i,m)= ^ Wij
jeU1.m
[0065]其中Ui,為用戶Ui的鄰居節(jié)點(diǎn)集合,用戶Ui的交互度定義如下:
0N(i,m) = O
[0066]D(ijn) = < 0.5 O < A1(Ijn) < 5
1N(i,m) > 5
[0067]⑵用戶交互質(zhì)量
[0068]用戶Ui的交互質(zhì)量計(jì)算公式如下:
0/(/,m) = O
[0069]R(i,m) = < 0.5 O << 5
1/(/,"?) >5
[0070]其中I (i,m)表示用戶Ui在信任窗口 m的交互指數(shù)。用戶Ui的交互質(zhì)量在一定程度上反應(yīng)了與用戶Ui有交互關(guān)系的用戶質(zhì)量。結(jié)合用戶交互度和交互質(zhì)量,用戶在信任窗口 m的信任值計(jì)算公式如下:
[0071]T(i,m) = λ R(i, m) + (1-λ )D(i, m)
[0072]其中λ (O < λ < I)為調(diào)節(jié)因子,表示用戶交互度和用戶交互質(zhì)量在計(jì)算用戶信任值的不同權(quán)重。
[0073]⑶用戶交互演變
[0074]由于用戶的信任會(huì)隨著時(shí)間不斷變化,因此需要基于歷史信任窗口的信任值建立長(zhǎng)期動(dòng)態(tài)信任模型。假設(shè)用戶Ui的歷史信任值為T (i,m),其中I < m < M,M為最近的歷史信任窗口數(shù),歷史信任窗口的信任值可以表示如下:
【權(quán)利要求】
1.一種面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法,其特征在于,包括: (1)實(shí)時(shí)采集微博數(shù)據(jù),針對(duì)實(shí)時(shí)微博數(shù)據(jù)流建立基于動(dòng)態(tài)滑動(dòng)窗口機(jī)制的消息會(huì)話模型; (2)從消息會(huì)話模型中抽取用戶信任屬性,根據(jù)設(shè)定的信任窗口大小構(gòu)建動(dòng)態(tài)信任模型,計(jì)算用戶的信任度; (3)根據(jù)設(shè)定的消息窗口大小對(duì)實(shí)時(shí)微博消息流進(jìn)行切分,融合用戶信任度計(jì)算每個(gè)時(shí)間窗口中關(guān)鍵詞的權(quán)重,形成突發(fā)關(guān)鍵詞的權(quán)重序列; (4)針對(duì)突發(fā)關(guān)鍵詞的權(quán)重序列,采用基于動(dòng)力學(xué)模型的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法計(jì)算關(guān)鍵詞的突發(fā)權(quán)值,如果關(guān)鍵詞的突發(fā)權(quán)值大于系統(tǒng)設(shè)定的突發(fā)閾值則該詞為突發(fā)關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的一種面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法,其特征在于:所述動(dòng)態(tài)滑動(dòng)窗口機(jī)制為動(dòng)態(tài)滑動(dòng)信任窗口和動(dòng)態(tài)滑動(dòng)消息窗口。
3.根據(jù)權(quán)利要求1所述的一種面向微博文本流的突發(fā)關(guān)鍵詞檢測(cè)方法,其特征在于,在所述的消息會(huì)話模型中包括: 微博消息、微博用戶以及關(guān)鍵詞的關(guān)聯(lián)操作; 針對(duì)實(shí)時(shí)消息流消息會(huì)話模型的更新以及刪除操作。
4.根據(jù)權(quán)利要求1所述的微博突發(fā)關(guān)鍵詞檢測(cè)方法,其特征在于,在抽取用戶信任屬性之前還包括: 根據(jù)用戶交互行為定義用戶交互動(dòng)作以及用戶交互指數(shù); 根據(jù)信任窗口內(nèi)的用戶交互動(dòng)作建立用戶交互圖。
5.根據(jù)權(quán)利要求1所述的微博突發(fā)關(guān)鍵詞檢測(cè)方法,其特征在于,所述用戶信任屬性包括: 用戶交互度以及用戶交互質(zhì)量。
6.根據(jù)權(quán)利要求1所述的微博突發(fā)關(guān)鍵詞檢測(cè)方法,其特征在于,在計(jì)算關(guān)鍵詞的權(quán)重之前還包括: 對(duì)微博消息內(nèi)容進(jìn)行預(yù)處理,包括中文分詞、標(biāo)簽的識(shí)別與提取、去停用詞、提取名詞和動(dòng)詞作為關(guān)鍵詞。
7.根據(jù)權(quán)利要求1所述的微博突發(fā)關(guān)鍵詞檢測(cè)方法,其特征在于,在生成關(guān)鍵詞的權(quán)重序列之前還包括: 根據(jù)用戶作息時(shí)間以及關(guān)鍵詞的歷史權(quán)重值消除用戶作息時(shí)間對(duì)突發(fā)關(guān)鍵詞檢測(cè)的影響。
8.根據(jù)權(quán)利要求1所述的微博突發(fā)關(guān)鍵詞檢測(cè)方法,其特征在于,所述基于動(dòng)力學(xué)模型的突發(fā)關(guān)鍵詞發(fā)現(xiàn)算法包括: 定義與形式化基于動(dòng)力學(xué)的趨勢(shì)分析指標(biāo)對(duì)關(guān)鍵詞權(quán)重序列進(jìn)行處理。
【文檔編號(hào)】G06F17/30GK104166726SQ201410424542
【公開日】2014年11月26日 申請(qǐng)日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】楊武, 董國(guó)忠, 王巍, 苘大鵬, 玄世昌 申請(qǐng)人:哈爾濱工程大學(xué)