两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種微博關(guān)鍵事件獲取方法和裝置制造方法

文檔序號:6501839閱讀:173來源:國知局
一種微博關(guān)鍵事件獲取方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種微博關(guān)鍵事件獲取方法,包括:根據(jù)預(yù)設(shè)條件搜索微博;根據(jù)搜索到的微博提取熱詞;根據(jù)提取的熱詞,提取每個熱詞對應(yīng)的每天的關(guān)鍵事件,并生成相應(yīng)的事件標(biāo)題;統(tǒng)計每個熱詞的每日熱度值,保存每個熱詞的每日熱度值排名前N位的日期,并保存對應(yīng)的關(guān)鍵事件的事件標(biāo)題,所述N為預(yù)設(shè)值。本發(fā)明還公開了一種微博關(guān)鍵事件獲取裝置。通過本發(fā)明能夠?qū)崿F(xiàn)微博關(guān)鍵時間點的關(guān)鍵事件的獲取。
【專利說明】一種微博關(guān)鍵事件獲取方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及微博搜索技術(shù),特別是指一種微博關(guān)鍵事件獲取方法和裝置。

【背景技術(shù)】
[0002] 網(wǎng)絡(luò)即時通訊(IM,Instant Messenger)工具發(fā)展到今天已經(jīng)被大多數(shù)的網(wǎng)民所 接受,成為用戶必不可少的通信工具,不僅在平時的休閑娛樂中,而且在用戶的工作中得到 廣泛的使用。特別是微博,由于其信息傳遞效率非常高,已經(jīng)成為主流的頂工具。
[0003] 微博的用戶群龐大,微博傳遞的信息量也非常巨大。基于這巨大的信息量,可以統(tǒng) 計出一段時間內(nèi)網(wǎng)民關(guān)注度較高的事件和詞語等。目前有兩種統(tǒng)計關(guān)注度較高的事件和詞 語的方式:
[0004] 一是、根據(jù)關(guān)鍵詞的搜索頻次的時間趨勢可統(tǒng)計得到熱詞;對每日每條微博采用 切詞工具切詞,統(tǒng)計出每日每個熱詞的詞頻,據(jù)此可繪制出熱詞的時間趨勢圖。其中,所述 的熱詞即為關(guān)注度1?的關(guān)鍵詞。
[0005] -是,根據(jù)關(guān)鍵詞的搜索頻次的時間趨勢可統(tǒng)計得到熱詞;獲取重要官方媒體發(fā) 布的每日微博或文章,統(tǒng)計出每日微博或文章標(biāo)題中包含特定熱詞的微博或文章數(shù)量,該 數(shù)值就是當(dāng)天該熱詞的關(guān)注熱度,據(jù)此可繪制出一段時間內(nèi)特定熱詞的時間趨勢圖。
[0006] 上述技術(shù)方案存在問題有:
[0007] -、上述方案中,由于微博內(nèi)容出現(xiàn)的隨機(jī)性會有大量的噪音熱詞。
[0008] 二、根據(jù)微博轉(zhuǎn)評數(shù)及瀏覽數(shù)確定的關(guān)鍵事件有可能是跟對應(yīng)熱詞不相關(guān)的,也 就是說帶有指定熱詞的熱門微博或文章并不一定是圍繞該熱詞展開的;
[0009] 三、上述兩種方案只能統(tǒng)計出一段時間內(nèi)熱詞的時間趨勢圖,而無法獲取關(guān)鍵時 間點發(fā)生的關(guān)鍵事件。


【發(fā)明內(nèi)容】

[0010] 有鑒于此,本發(fā)明的主要目的在于提供一種微博關(guān)鍵事件獲取方法和裝置,以實 現(xiàn)微博系統(tǒng)中關(guān)鍵時間點的關(guān)鍵事件的獲取。
[0011] 為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
[0012] 一種微博關(guān)鍵事件獲取方法,該方法包括:
[0013] 根據(jù)預(yù)設(shè)條件搜索微博;
[0014] 根據(jù)搜索到的所述微博提取熱詞;
[0015] 根據(jù)所述熱詞,提取每個熱詞對應(yīng)的每天的關(guān)鍵事件,并生成相應(yīng)的事件標(biāo)題;
[0016] 統(tǒng)計每個所述熱詞的每日熱度值,保存每個所述熱詞的每日熱度值排名前N位的 日期,并保存對應(yīng)的所述關(guān)鍵事件的事件標(biāo)題,所述N為預(yù)設(shè)值。
[0017] 較佳的,所述預(yù)設(shè)條件包括微博用戶和微博發(fā)表時間;所述微博發(fā)表時間指示為 預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段;所述微博用戶指示為微博注冊用戶;
[0018] 所述根據(jù)預(yù)設(shè)條件搜索微博為:搜索所述微博注冊用戶在所述預(yù)設(shè)的第一時間段 和預(yù)設(shè)的第二時間段發(fā)表的微博。
[0019] 較佳的,所述根據(jù)搜索到的微博提取熱詞,包括:
[0020] 采用切詞工具對搜索到的所述微博的文本內(nèi)容進(jìn)行切詞;
[0021] 對切詞后所述微博的文本內(nèi)容中的各個詞語進(jìn)行詞性標(biāo)注;
[0022] 選擇候選詞性,并統(tǒng)計屬于所述候選詞性的詞語的詞頻,將詞頻達(dá)到閾值的詞語 確定為候選詞;
[0023] 對所述候選詞進(jìn)行熱度值計算,將熱度值大于閾值的所述候選詞作為熱詞。
[0024] 較佳的,所述統(tǒng)計屬于候選詞性的詞語的詞頻,將詞頻達(dá)到閾值的詞語確定為候 選詞,包括:
[0025] 統(tǒng)計每個屬于候選詞性的詞語在所述預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段內(nèi) 出現(xiàn)的次數(shù),將所述出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)次數(shù)的屬于候選詞性的詞語作為候選詞;或者,
[0026] 統(tǒng)計每個屬于候選詞性的詞語在所述預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段內(nèi) 出現(xiàn)的天數(shù),當(dāng)一天中至少Μ篇微博包含屬于候選詞性的詞語時統(tǒng)計為一天,將所述出現(xiàn) 的天數(shù)達(dá)到預(yù)設(shè)天數(shù)的屬于候選詞性的詞語作為候選詞,所述Μ為預(yù)設(shè)值。
[0027] 較佳的,所述對候選詞進(jìn)行熱度值Η計算為:
[0028] H=wl*f1(Al)+w2*f2(A1/A2)+w3*f3(Bl)+w4*f4(B1/B2);
[0029] 所述Al為候選詞在所述第一時間段內(nèi)出現(xiàn)的天數(shù),當(dāng)一天中至少M篇微博包含候 選詞時統(tǒng)計為一天;所述Μ為預(yù)設(shè)值;
[0030] 所述Α2為候選詞在所述第二時間段內(nèi)出現(xiàn)的天數(shù),當(dāng)一天中至少Μ篇微博包含特 定候選詞時統(tǒng)計為一天;所述Μ為預(yù)設(shè)值;
[0031] 所述Β1為所述預(yù)設(shè)的第一時間段內(nèi)包含候選詞的所有微博的總轉(zhuǎn)評數(shù);
[0032] 所述Β2為所述預(yù)設(shè)的第二時間段內(nèi)包含候選詞的所有微博的總轉(zhuǎn)評數(shù);
[0033] 所述¥1、¥2、¥3、¥4分別為所述4132、81』2的權(quán)重;
[0034] 所述€^233、€4分別為將所述六1、42、81、82歸約到0-1的函數(shù)。
[0035] 較佳的,對候選詞進(jìn)行熱度值計算,將熱度值大于閾值的候選詞作為熱詞之后,該 方法還包括:
[0036] 按照預(yù)設(shè)的分類,對包含特定熱詞的微博采用分類工具進(jìn)行分類,基于分類結(jié)果 計算所述特定熱詞的信息熵,將所述信息熵高于閾值的熱詞作為噪音熱詞進(jìn)行過濾;
[0037] 所述特定熱詞對應(yīng)的所述分類結(jié)果包括:各個分類對應(yīng)的包含所述特定熱詞的微 博條數(shù)。
[0038] 較佳的,所述特定熱詞的信息熵Η采用如下公式計算:
[0039] Η=- Σ ρ⑴logp⑴(i=l,2, · · η),其中,所述ρ⑴=si/S,所述S為包含所述特定 熱詞的微博總條數(shù);si為第i個分類對應(yīng)的包含所述特定熱詞的微博條數(shù)。
[0040] 較佳的,所述根據(jù)熱詞,提取每個熱詞對應(yīng)的每天的鍵事件包括:
[0041] 將包含特定熱詞的、且在特定日內(nèi)微博熱度值最高的微博作為所述特定熱詞對應(yīng) 的特定日的關(guān)鍵事件;所述特定日屬于所述預(yù)設(shè)的第一件時間段或預(yù)設(shè)的第二時間段。
[0042] 較佳的,所述微博熱度值01采用如下公式計算:01=w5*f5+w6*f6 ;
[0043] 其中:所述w5為C的權(quán)重;所述w6為D的權(quán)重;所述f5為C歸約到0-1的函數(shù); 所述f6為D歸約到0-1的函數(shù);所述C為包含特定熱詞的特定微博在特定日的轉(zhuǎn)評數(shù);D 為包含特定熱詞的特定微博在特定日的內(nèi)容聚焦度。
[0044] 較佳的,所述每日熱度值02采用如下公式計算:02=w7*f7+w8*f8 ;
[0045] 其中,所述w7為E的權(quán)重;所述w8為F的權(quán)重;所述f7為E歸約到0-1的函數(shù); 所述f8為F歸約到0-1的函數(shù);所述E為所述特定日包含熱定熱詞的微博數(shù);F為特定日 包含特定熱詞的微博的總轉(zhuǎn)評數(shù)。
[0046] 較佳的,該方法還包括:根據(jù)所述特定熱詞的每日熱度值排名前N位的日期以及 對應(yīng)的關(guān)鍵事件的事件標(biāo)題,繪制關(guān)鍵事件時間脈絡(luò)曲線圖,所述N為預(yù)設(shè)值。
[0047] -種微博關(guān)鍵事件獲取裝置,包括:
[0048] 搜索模塊,用于根據(jù)預(yù)設(shè)條件搜索微博;
[0049] 熱詞提取模塊,用于根據(jù)搜索到的所述微博提取熱詞;
[0050] 關(guān)鍵事件提取模塊,用于根據(jù)所述熱詞,提取每個熱詞對應(yīng)的每天的關(guān)鍵事件,并 生成相應(yīng)的事件標(biāo)題;
[0051] 關(guān)鍵時間獲取模塊,用于統(tǒng)計每個所述熱詞的每日熱度值,保存每個所述熱詞的 每日熱度值排名前N位的日期,并保存對應(yīng)的所述關(guān)鍵事件的事件標(biāo)題,所述N為預(yù)設(shè)值。
[0052] 較佳的,所述預(yù)設(shè)條件包括微博用戶和微博發(fā)表時間;所述微博發(fā)表時間指示為 預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段;所述微博用戶指示為微博注冊用戶;
[0053] 所述搜索模塊,還用于搜索所述微博注冊用戶在所述預(yù)設(shè)的第一時間段和預(yù)設(shè)的 第二時間段發(fā)表的微博。
[0054] 較佳的,所述熱詞提取模塊,還用于采用切詞工具對搜索到的所述微博的文本內(nèi) 容進(jìn)行切詞,對切詞后所述微博的文本內(nèi)容中的各個詞語進(jìn)行詞性標(biāo)注;還用于選擇候選 詞性,并統(tǒng)計屬于所述候選詞性的詞語的詞頻,將詞頻達(dá)到閾值的詞語確定為候選詞,對所 述候選詞進(jìn)行熱度值計算,將熱度值大于閾值的所述候選詞作為熱詞。
[0055] 較佳的,所述熱詞提取模塊,還用于按照預(yù)設(shè)的分類,對包含特定熱詞的微博采用 分類工具進(jìn)行分類,基于分類結(jié)果計算所述特定熱詞的信息熵,將所述信息熵高于閾值的 熱詞過濾;
[0056] 所述特定熱詞對應(yīng)的所述分類結(jié)果包括:各個分類對應(yīng)的包含所述特定熱詞的微 博條數(shù)。
[0057] 較佳的,所述關(guān)鍵事件提取模塊,還用于將包含特定熱詞的、且在特定日內(nèi)微博熱 度值最高的微博作為所述特定熱詞對應(yīng)的特定日的關(guān)鍵事件;所述特定日屬于所述預(yù)設(shè)的 第一件時間段或預(yù)設(shè)的第二時間段。
[0058] 本發(fā)明所提供的一種微博關(guān)鍵事件獲取方法和裝置,根據(jù)預(yù)設(shè)條件搜索微博;根 據(jù)搜索到的微博提取熱詞;根據(jù)熱詞,提取每個熱詞對應(yīng)的每天的關(guān)鍵事件,并生成相應(yīng)的 事件標(biāo)題;統(tǒng)計每個熱詞的每日熱度值,保存每個熱詞的每日熱度值排名前N(為預(yù)設(shè)值) 位的日期,并保存對應(yīng)的關(guān)鍵事件的事件標(biāo)題。如此,根據(jù)熱詞的每日熱度值排名,可以獲 取熱詞的關(guān)鍵時間點(如上述每日熱度值排名前N位的日期),再通過提取每個熱詞對應(yīng)的 每天的關(guān)鍵事件,就可以得到每個熱詞在關(guān)鍵時間點的關(guān)鍵事件,幫助用戶更便捷的了解 微博熱點事件發(fā)展的時間脈絡(luò),提升了用戶體驗。

【專利附圖】

【附圖說明】
[0059] 圖1為本發(fā)明實施例的微博關(guān)鍵事件獲取方法的流程示意圖一;
[0060] 圖2為本發(fā)明實施例的熱詞提取流程示意圖;
[0061] 圖3為本發(fā)明實施例提供的關(guān)鍵事件的時間脈絡(luò)圖;
[0062] 圖4為本發(fā)明實施例的微博關(guān)鍵事件獲取方法的流程示意圖二;
[0063] 圖5為本發(fā)明實施例的微博關(guān)鍵事件獲取裝置的結(jié)構(gòu)示意圖。

【具體實施方式】
[0064] 下面結(jié)合附圖和具體實施例對本發(fā)明的技術(shù)方案進(jìn)一步詳細(xì)闡述。
[0065] 如圖1所示,本發(fā)明實施例的微博關(guān)鍵事件獲取方法流程包括:
[0066] 步驟101,根據(jù)預(yù)設(shè)條件搜索微博。
[0067] 較佳地,預(yù)設(shè)條件包括兩個參數(shù):微博用戶和微博發(fā)表時間。在本發(fā)明實施例提供 的關(guān)鍵事件獲取方案中,微博用戶指示為微博注冊用戶;較佳地為微博名人用戶;微博發(fā) 表時間指示為預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段。進(jìn)一步地,預(yù)設(shè)的第一時間段和預(yù) 設(shè)的第二時間段為時間上相鄰的兩個時間段。其中,預(yù)設(shè)條件中的微博發(fā)表時間的單位與 系統(tǒng)中記錄的微博的發(fā)表時間的單位保持一致,例如兩者均精確到秒。
[0068] 例如,將微博用戶設(shè)定為通過微博認(rèn)證的一個或多個行業(yè)的微博名人用戶;通過 微博認(rèn)證的行業(yè),例如:媒體、體育、財經(jīng)、科技、教育等。本實施例中將微博用戶設(shè)定為 體育、財經(jīng)行業(yè)的微博名人用戶;將微博發(fā)表時間設(shè)定為:2012年10月1日0時0分0 秒-2012年10月31日24時59分59秒和2012年11月1日0時0分0秒-2012年11月 30日24時59分59秒。根據(jù)該預(yù)設(shè)條件,需要搜索從2012年10月1日0時0分0秒-2012 年10月31日24時59分59秒和2012年11月1日0時0分0秒-2012年11月30日24 時59分59秒這兩段時間內(nèi)、體育和財經(jīng)行業(yè)的微博名人用戶發(fā)表的微博。優(yōu)選地,本發(fā)明 實施例中搜索的微博為原創(chuàng)微博。
[0069] 為了避免一些時間跨度較大的熱詞被過濾掉,可以將微博發(fā)表時間所指示的時間 段設(shè)置的更長。
[0070] 較佳地,上述預(yù)設(shè)條件通過客戶端定制,基于該預(yù)設(shè)條件客戶端通過微博平臺的 開放接口從微博服務(wù)器中獲取符合條件的微博數(shù)據(jù)??蛻舳烁鶕?jù)搜索到的微博執(zhí)行后續(xù)操 作。
[0071] 步驟102,根據(jù)搜索到的微博提取熱詞。
[0072] 該步驟的實現(xiàn)如圖2所示,包括:
[0073] 步驟1021、采用切詞工具對微博的文本內(nèi)容進(jìn)行切詞;該步驟的實現(xiàn)為現(xiàn)有技 術(shù),此處不再贅述。
[0074] 步驟1022、對切詞后微博的文本內(nèi)容中的各個詞語進(jìn)行詞性標(biāo)注。所述的詞性包 括:名詞、動詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、連詞、助詞、擬聲詞和嘆詞。
[0075] 步驟1023、選擇候選詞性,并統(tǒng)計屬于候選詞性的詞語的詞頻,將詞頻達(dá)到閾值的 詞語確定為候選詞。
[0076] 具體地,統(tǒng)計每個屬于候選詞性的詞語在預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段 內(nèi)出現(xiàn)的次數(shù),將該出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)次數(shù)的屬于候選詞性的詞語作為候選詞;或者,統(tǒng) 計每個屬于候選詞性的詞語在預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段內(nèi)出現(xiàn)的天數(shù),當(dāng)一 天中至少Μ(為預(yù)設(shè)值)篇微博包含屬于候選詞性的詞語時統(tǒng)計為一天,將該出現(xiàn)的天數(shù)達(dá) 到預(yù)設(shè)天數(shù)的屬于候選詞性的詞語作為候選詞。
[0077] 假設(shè)將名詞選擇為候選詞性,那么,統(tǒng)計搜索到的微博中每個名詞的詞頻;將詞頻 達(dá)到閾值的一個或多個名詞確定為候選詞。例如:統(tǒng)計每個名詞出現(xiàn)的次數(shù),這里出現(xiàn)的 次數(shù)即為詞頻,將出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)次數(shù)(即閾值)的一個或多個名詞作為候選詞。再 例如:統(tǒng)計每個名詞在微博發(fā)表時間所指示的時間段內(nèi)出現(xiàn)的天數(shù),進(jìn)一步地,一天中至少 Μ(為預(yù)設(shè)值)篇微博包含該名詞才統(tǒng)計為一天,這里出現(xiàn)的天數(shù)即為詞頻,將出現(xiàn)的天數(shù) 達(dá)到預(yù)設(shè)天數(shù)(即閾值)的一個或多個名詞作為候選詞。
[0078] 在實際應(yīng)用中,詞頻的統(tǒng)計并不限于上述兩種方式,只要能夠表示在一段時間內(nèi) 詞語出現(xiàn)的頻率的方式均可用作詞頻的統(tǒng)計。
[0079] 步驟1024、對候選詞進(jìn)行熱度值計算,將熱度值大于閾值的候選詞作為熱詞。
[0080] 本發(fā)明中采用如下的公式計算候選詞的熱度值(Η):
[0081] H=wl*fl(Al)+w2*f2(Al/A2)+w3*f3(Bl)+w4*f4(Bl/B2)。
[0082] 熱度值的計算需要依據(jù)四個指標(biāo),分別是:
[0083] A1 :特定候選詞在第一時間段內(nèi)出現(xiàn)的天數(shù)(當(dāng)一天中至少Μ(預(yù)設(shè)值)篇微博包 含特定候選詞時統(tǒng)計為一天);
[0084] Α2 :特定候選詞在第二時間段內(nèi)出現(xiàn)的天數(shù)(當(dāng)一天中至少Μ(預(yù)設(shè)值)篇微博包 含特定候選詞時統(tǒng)計為一天);
[0085] Β1 :第一時間段內(nèi)包含候選詞的所有微博的總轉(zhuǎn)評數(shù);
[0086] Β2 :第二時間段內(nèi)包含候選詞的所有微博的總轉(zhuǎn)評數(shù)。
[0087] 其中,¥1、界2、¥3、¥4分別為六1、六2、81、82的權(quán)重;
[0088] €1、€2、€3、€4分別為將六1、八2、81、82歸約到0-1的函數(shù)。
[0089] 需要指出的是,本發(fā)明實施例基于兩個時間段的微博進(jìn)行熱詞的提取可以達(dá)到熱 詞提取的最佳效果。當(dāng)采用一個時間段時,僅僅是根據(jù)詞頻進(jìn)行熱詞的提取,其中含有噪音 熱詞的機(jī)率很高;而采用更多的時間段時,不僅計算的復(fù)雜度大大地增加,而且提取熱詞的 效果基本和兩個時間段相同,在特別情況下甚至效果不及兩個時間段的方式。
[0090] 例如,本實施例提供的候選詞以及對應(yīng)的四個指標(biāo)如表1所示:
[0091]
[0092] 表 1

【權(quán)利要求】
1. 一種微博關(guān)鍵事件獲取方法,其特征在于,該方法包括: 根據(jù)預(yù)設(shè)條件搜索微博; 根據(jù)搜索到的所述微博提取熱詞; 根據(jù)所述熱詞,提取每個熱詞對應(yīng)的每天的關(guān)鍵事件,并生成相應(yīng)的事件標(biāo)題; 統(tǒng)計每個所述熱詞的每日熱度值,保存每個所述熱詞的每日熱度值排名前N位的日 期,并保存對應(yīng)的所述關(guān)鍵事件的事件標(biāo)題,所述N為預(yù)設(shè)值。
2. 根據(jù)權(quán)利要求1所述微博關(guān)鍵事件獲取方法,其特征在于,所述預(yù)設(shè)條件包括微博 用戶和微博發(fā)表時間;所述微博發(fā)表時間指示為預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段; 所述微博用戶指示為微博注冊用戶; 所述根據(jù)預(yù)設(shè)條件搜索微博為:搜索所述微博注冊用戶在所述預(yù)設(shè)的第一時間段和預(yù) 設(shè)的第二時間段發(fā)表的微博。
3. 根據(jù)權(quán)利要求2所述微博關(guān)鍵事件獲取方法,其特征在于,所述根據(jù)搜索到的微博 提取熱詞,包括: 采用切詞工具對搜索到的所述微博的文本內(nèi)容進(jìn)行切詞; 對切詞后所述微博的文本內(nèi)容中的各個詞語進(jìn)行詞性標(biāo)注; 選擇候選詞性,并統(tǒng)計屬于所述候選詞性的詞語的詞頻,將詞頻達(dá)到閾值的詞語確定 為候選詞; 對所述候選詞進(jìn)行熱度值計算,將熱度值大于閾值的所述候選詞作為熱詞。
4. 根據(jù)權(quán)利要求3所述微博關(guān)鍵事件獲取方法,其特征在于,所述統(tǒng)計屬于候選詞性 的詞語的詞頻,將詞頻達(dá)到閾值的詞語確定為候選詞,包括: 統(tǒng)計每個屬于候選詞性的詞語在所述預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段內(nèi)出現(xiàn) 的次數(shù),將所述出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)次數(shù)的屬于候選詞性的詞語作為候選詞;或者, 統(tǒng)計每個屬于候選詞性的詞語在所述預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二時間段內(nèi)出現(xiàn) 的天數(shù),當(dāng)一天中至少Μ篇微博包含屬于候選詞性的詞語時統(tǒng)計為一天,將所述出現(xiàn)的天 數(shù)達(dá)到預(yù)設(shè)天數(shù)的屬于候選詞性的詞語作為候選詞,所述Μ為預(yù)設(shè)值。
5. 根據(jù)權(quán)利要求3所述微博關(guān)鍵事件獲取方法,其特征在于,所述對候選詞進(jìn)行熱度 值Η計算為: H = wl*f1 (Al)+w2*f2(A1/A2)+w3*f3(Bl)+w4*f4(B1/B2); 所述A1為候選詞在所述第一時間段內(nèi)出現(xiàn)的天數(shù),當(dāng)一天中至少M篇微博包含候選詞 時統(tǒng)計為一天;所述Μ為預(yù)設(shè)值; 所述Α2為候選詞在所述第二時間段內(nèi)出現(xiàn)的天數(shù),當(dāng)一天中至少Μ篇微博包含特定候 選詞時統(tǒng)計為一天;所述Μ為預(yù)設(shè)值; 所述Β1為所述預(yù)設(shè)的第一時間段內(nèi)包含候選詞的所有微博的總轉(zhuǎn)評數(shù); 所述Β2為所述預(yù)設(shè)的第二時間段內(nèi)包含候選詞的所有微博的總轉(zhuǎn)評數(shù); 所述¥1、《2、¥3、《4分別為所述41、42、81、82的權(quán)重; 所述Π、f 2、f 3、f 4分別為將所述A1、Α2、Β1、Β2歸約到0-1的函數(shù)。
6. 根據(jù)權(quán)利要求4或5所述微博關(guān)鍵事件獲取方法,其特征在于,對候選詞進(jìn)行熱度值 計算,將熱度值大于閾值的候選詞作為熱詞之后,該方法還包括: 按照預(yù)設(shè)的分類,對包含特定熱詞的微博采用分類工具進(jìn)行分類,基于分類結(jié)果計算 所述特定熱詞的信息熵,將所述信息熵高于閾值的熱詞作為噪音熱詞進(jìn)行過濾; 所述特定熱詞對應(yīng)的所述分類結(jié)果包括:各個分類對應(yīng)的包含所述特定熱詞的微博條 數(shù)。
7. 根據(jù)權(quán)利要求6所述微博關(guān)鍵事件獲取方法,其特征在于,所述特定熱詞的信息熵Η 采用如下公式計算: Η = - Σ P(i) logp(i) (i = 1,2, · · η),其中,所述 p(i) = si/S,所述 S 為包含所述特 定熱詞的微博總條數(shù);si為第i個分類對應(yīng)的包含所述特定熱詞的微博條數(shù)。
8. 根據(jù)權(quán)利要求7所述微博關(guān)鍵事件獲取方法,其特征在于,所述根據(jù)熱詞,提取每個 熱詞對應(yīng)的每天的鍵事件包括: 將包含特定熱詞的、且在特定日內(nèi)微博熱度值最高的微博作為所述特定熱詞對應(yīng)的特 定日的關(guān)鍵事件;所述特定日屬于所述預(yù)設(shè)的第一件時間段或預(yù)設(shè)的第二時間段。
9. 根據(jù)權(quán)利要求8所述微博關(guān)鍵事件獲取方法,其特征在于,所述微博熱度值01采用 如下公式計算:01 = w5*f5+w6*f6 ; 其中:所述w5為C的權(quán)重;所述w6為D的權(quán)重;所述f5為C歸約到0-1的函數(shù);所述 f6為D歸約到0-1的函數(shù);所述C為包含特定熱詞的特定微博在特定日的轉(zhuǎn)評數(shù);D為包含 特定熱詞的特定微博在特定日的內(nèi)容聚焦度。
10. 根據(jù)權(quán)利要求9所述微博關(guān)鍵事件獲取方法,其特征在于,所述每日熱度值02采用 如下公式計算:02 = w7*f7+w8*f8 ; 其中,所述w7為E的權(quán)重;所述w8為F的權(quán)重;所述Γ7為E歸約到0-1的函數(shù);所述 f8為F歸約到0-1的函數(shù);所述E為所述特定日包含熱定熱詞的微博數(shù);F為特定日包含特 定熱詞的微博的總轉(zhuǎn)評數(shù)。
11. 根據(jù)權(quán)利要求10所述微博關(guān)鍵事件獲取方法,其特征在于,該方法還包括:根據(jù)所 述特定熱詞的每日熱度值排名前N位的日期以及對應(yīng)的關(guān)鍵事件的事件標(biāo)題,繪制關(guān)鍵事 件時間脈絡(luò)曲線圖,所述N為預(yù)設(shè)值。
12. -種微博關(guān)鍵事件獲取裝置,其特征在于,包括: 搜索模塊,用于根據(jù)預(yù)設(shè)條件搜索微博; 熱詞提取模塊,用于根據(jù)搜索到的所述微博提取熱詞; 關(guān)鍵事件提取模塊,用于根據(jù)所述熱詞,提取每個熱詞對應(yīng)的每天的關(guān)鍵事件,并生成 相應(yīng)的事件標(biāo)題; 關(guān)鍵時間獲取模塊,用于統(tǒng)計每個所述熱詞的每日熱度值,保存每個所述熱詞的每日 熱度值排名前N位的日期,并保存對應(yīng)的所述關(guān)鍵事件的事件標(biāo)題,所述N為預(yù)設(shè)值。
13. 根據(jù)權(quán)利要求12所述微博關(guān)鍵事件獲取裝置,其特征在于, 所述預(yù)設(shè)條件包括微博用戶和微博發(fā)表時間;所述微博發(fā)表時間指示為預(yù)設(shè)的第一時 間段和預(yù)設(shè)的第二時間段;所述微博用戶指示為微博注冊用戶; 所述搜索模塊,還用于搜索所述微博注冊用戶在所述預(yù)設(shè)的第一時間段和預(yù)設(shè)的第二 時間段發(fā)表的微博。
14. 根據(jù)權(quán)利要求13所述微博關(guān)鍵事件獲取裝置,其特征在于, 所述熱詞提取模塊,還用于采用切詞工具對搜索到的所述微博的文本內(nèi)容進(jìn)行切詞, 對切詞后所述微博的文本內(nèi)容中的各個詞語進(jìn)行詞性標(biāo)注;還用于選擇候選詞性,并統(tǒng)計 屬于所述候選詞性的詞語的詞頻,將詞頻達(dá)到閾值的詞語確定為候選詞,對所述候選詞進(jìn) 行熱度值計算,將熱度值大于閾值的所述候選詞作為熱詞。
15. 根據(jù)權(quán)利要求14所述微博關(guān)鍵事件獲取裝置,其特征在于, 所述熱詞提取模塊,還用于按照預(yù)設(shè)的分類,對包含特定熱詞的微博采用分類工具進(jìn) 行分類,基于分類結(jié)果計算所述特定熱詞的信息熵,將所述信息熵高于閾值的熱詞過濾; 所述特定熱詞對應(yīng)的所述分類結(jié)果包括:各個分類對應(yīng)的包含所述特定熱詞的微博條 數(shù)。
16. 根據(jù)權(quán)利要求15所述微博關(guān)鍵事件獲取裝置,其特征在于, 所述關(guān)鍵事件提取模塊,還用于將包含特定熱詞的、且在特定日內(nèi)微博熱度值最高的 微博作為所述特定熱詞對應(yīng)的特定日的關(guān)鍵事件;所述特定日屬于所述預(yù)設(shè)的第一件時間 段或預(yù)設(shè)的第二時間段。
【文檔編號】G06F17/30GK104102681SQ201310130690
【公開日】2014年10月15日 申請日期:2013年4月15日 優(yōu)先權(quán)日:2013年4月15日
【發(fā)明者】陽云, 李維剛 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
洮南市| 孟连| 石泉县| 宿松县| 绿春县| 监利县| 登封市| 崇左市| 万荣县| 襄城县| 佳木斯市| 中牟县| 麻江县| 许昌县| 宣汉县| 项城市| 宁陵县| 白银市| 溆浦县| 海原县| 东山县| 罗江县| 浮梁县| 横山县| 犍为县| 兴山县| 平谷区| 平塘县| 阿拉善右旗| 泰宁县| 福贡县| 垫江县| 突泉县| 钟祥市| 襄垣县| 霍林郭勒市| 阳春市| 河曲县| 佛坪县| 龙岩市| 定结县|