一種獲取熱點話題的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種獲取熱點話題的方法及裝置,屬于互聯(lián)網(wǎng)通信領域。所述方法包括:根據(jù)一個周期內(nèi)的社區(qū)數(shù)據(jù)獲取第一詞匯集合,所述第一詞匯集合包括所述社區(qū)數(shù)據(jù)中包含的詞匯;根據(jù)所述第一詞匯集合包括的詞匯在離當前最近的預設第一數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,從所述第一詞匯集合中選取詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合;根據(jù)所述第二詞匯集合從社區(qū)話題集合中選取社區(qū)話題,并將所述選取的社區(qū)話題確定為熱點話題。本發(fā)明通過周期性的獲取社區(qū)數(shù)據(jù),在社區(qū)數(shù)據(jù)中獲取熱點詞匯,并根據(jù)當前周期內(nèi)的熱點詞匯來選取熱點話題,避免了人工查詢熱點話題效率低,準確性差的缺陷,提高了獲取熱點話題的時效性。
【專利說明】一種獲取熱點話題的方法及裝置
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)通信領域,特別涉及一種獲取熱點話題的方法及裝置。
【背景技術】
[0002]隨著社區(qū)技術的發(fā)展,社區(qū)已得到用戶廣泛地應用,用戶可以在社區(qū)中發(fā)表話題、查看話題或參與話題討論等方式進行互動。一般情況下,為了方便用戶獲取信息,社區(qū)管理者會將一些突發(fā)的熱點事件或用戶參與度較高的話題作為熱點話題放在社區(qū)首頁的導航欄中,以便用戶在進入社區(qū)首頁時直接通過鏈接進行查看。
[0003]現(xiàn)有技術中,收集突發(fā)的熱點事件或用戶參與度較高的話題,是通過人工查詢的方式得到的。管理員通過查詢各網(wǎng)站中的新聞的訪問量,或查詢社區(qū)中話題的訪問量來確定放入社區(qū)導航欄中的熱點話題。
[0004]在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術至少存在以下問題:
[0005]通過人工查詢的方式,耗費人力資源較大并且對于熱點話題發(fā)掘的準確性和時效性較低。
【發(fā)明內(nèi)容】
[0006]為了解決現(xiàn)有技術的問題,本發(fā)明實施例提供了一種獲取熱點話題的方法及裝置。所述技術方案如下:
[0007]—方面,提供了一種獲取熱點話題的方法,所述方法包括:
[0008]根據(jù)一個周期內(nèi)的社區(qū)數(shù)據(jù)獲取第一詞匯集合,所述第一詞匯集合包括所述社區(qū)數(shù)據(jù)中包含的詞匯,其中所述社區(qū)數(shù)據(jù)包括微博博文、搜索引擎搜索關鍵詞、新聞標題和/或社區(qū)話題;
[0009]根據(jù)所述第一詞匯集合包括的詞匯在離當前最近的預設第一數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,從所述第一詞匯集合中選取詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合;
[0010]根據(jù)所述第二詞匯集合從社區(qū)話題集合中選取社區(qū)話題,并將所述選取的社區(qū)話題確定為熱點話題。
[0011]另一方面,提供了一種獲取熱點話題的裝置,所述裝置包括:
[0012]第一獲取模塊,用于根據(jù)一個周期內(nèi)的社區(qū)數(shù)據(jù)獲取第一詞匯集合,所述第一詞匯集合包括所述社區(qū)數(shù)據(jù)中包含的詞匯,其中所述社區(qū)數(shù)據(jù)包括微博博文、搜索引擎搜索關鍵詞、新聞標題和/或社區(qū)話題;
[0013]第一選取模塊,用于根據(jù)所述第一詞匯集合包括的詞匯在離當前最近的預設第一數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,從所述第一詞匯集合中選取詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合;
[0014]第二選取模塊,用于根據(jù)所述第二詞匯集合從社區(qū)話題集合中選取社區(qū)話題,并將所述選取的社區(qū)話題確定為熱點話題。[0015]本發(fā)明實施例提供的技術方案帶來的有益效果是:
[0016]通過周期性的獲取社區(qū)數(shù)據(jù),在社區(qū)數(shù)據(jù)中獲取熱點詞匯,并根據(jù)當前周期內(nèi)的熱點詞匯來選取熱點話題,避免了人工查詢熱點話題效率低,準確性差的缺陷,提高了獲取熱點話題的時效性。
【專利附圖】
【附圖說明】
[0017]為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1是本發(fā)明實施例一提供的獲取熱點話題的方法流程圖;
[0019]圖2是本發(fā)明實施例二提供的獲取熱點話題的方法流程圖;
[0020]圖3是本發(fā)明實施例三提供的獲取熱點話題的裝置結構示意圖。
【具體實施方式】
[0021]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方式作進一步地詳細描述。
[0022]實施例一
[0023]本發(fā)明實施例提供了一種獲取熱點話題的方法,參見圖1,方法流程包括:
[0024]101:根據(jù)一個周期內(nèi)的社區(qū)數(shù)據(jù)獲取第一詞匯集合,所述第一詞匯集合包括所述社區(qū)數(shù)據(jù)中包含的詞匯,其中所述社區(qū)數(shù)據(jù)包括微博博文、搜索引擎搜索關鍵詞、新聞標題和/或社區(qū)話題;
[0025]102:根據(jù)所述第一詞匯集合包括的詞匯在離當前最近的預設第一數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,從所述第一詞匯集合中選取詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合;
[0026]103:根據(jù)所述第二詞匯集合從社區(qū)話題集合中選取社區(qū)話題,并將所述選取的社區(qū)話題確定為熱點話題。
[0027]本發(fā)明實施例通過周期性的獲取社區(qū)數(shù)據(jù),在社區(qū)數(shù)據(jù)中獲取熱點詞匯,并根據(jù)當前周期內(nèi)的熱點詞匯來選取熱點話題,避免了人工查詢熱點話題效率低,準確性差的缺陷,提高了獲取熱點話題的時效性。
[0028]實施例二
[0029]本發(fā)明實施例提供了一種獲取熱點話題的方法。
[0030]需要說明的是,在執(zhí)行獲取熱點話題的方法步驟之前,首先需要通過數(shù)據(jù)挖掘的方式獲取語義相同或者相近的詞匯,組成一顆相關詞匯樹。相關詞匯樹的挖掘工作是通過將大量的文本進行包含但不限于相近詞匯、同義詞匯、關聯(lián)詞匯的挖掘,并把這些具備相關性的詞匯通過聚類算法分類進行聚合,將組織成一個知識庫。其中,相近詞匯指具有近似意義的詞,但又不完全相同。例如“固定”和“靜止”,“聰明”和“靈巧”具有近似意義,但又含義不同。同義詞匯指名稱不同但表達的詞條意思相同的詞匯,例如“湖南省”和“湖南”是同義詞。[0031]關聯(lián)詞匯指具有父子關系、兄弟關系或者相關聯(lián)的詞匯。父子關系是指一個詞匯對另一個詞匯有包含關系,比如,“果樹”和“蘋果樹”,“果樹”包含了 “蘋果樹”所以這兩個詞匯為具有父子關系的詞匯。兄弟關系是指兩個詞匯同屬于同一個具有父子關系的詞匯,t匕如“蘋果樹”的父關系詞匯“果樹”,“梨樹”的父關系詞匯也為“果樹”,所以“梨樹”和“蘋果樹”為兄弟關系詞匯。
[0032]語義樹的挖掘方式可以為以下方式:
[0033]方式一:
[0034]高頻共現(xiàn)的方式:高頻貢獻是挖掘知識圖譜的一種常用的方法。通過計算在大規(guī)模文本庫中具有相同概念的文本窗口中A1、A2兩個詞匯共同出現(xiàn)的次數(shù)。詞匯Al和A2的高頻共現(xiàn)概率為:
[0035]P (Al, A2)=(同時包含Al、A2的論文數(shù))/ (包含Al的論文數(shù)+包含A2的論文數(shù));
[0036]當Ρ(Α1,Α2)>α時,貝U認為Al和Α2是相關詞匯,其中α為閾值,取值范圍為(O,I]。
[0037]方式二:
[0038]采用相似度計算的方式:先抽取特征向量,然后計算兩個詞匯的特征向量的夾角余弦值。詞匯Al和Α2的夾角余弦值的計算方式為:
[0039]R (Al, Α2) =Cos (VI,V2),其中 V1、V2 分別為詞 Al、Α2 的特征向量。
[0040]當R(Al,A2)>i3時,則認為Al和A2是相關詞匯,β為閾值,取值范圍為(0,I]。
[0041]詞匯的特征向量抽取目前已有較多的研究方法,包含但不限于采用詞的上下文包含的詞匯作為特征向量,采用詞匯所在的文檔id、采用文檔的屬性、出處等等。
[0042]方式三:
[0043]采用LDA (Linear Discriminant Analysis,線性判別分析)主題模型的方式:目前已有開源的LDA算法代碼,可以直接使用。基于LDA的語義樹可以在離線計算好模型然后在線上使用,或者直接使用通過LDA計算出來的語義樹。
[0044]通過上述三種方式單獨或互相結合,挖掘得到詞匯之間的相關性關系,匯集所有詞匯之間的相關性關系構建出相關性詞匯樹。其中,在相關性詞匯樹中各個相關詞匯是通過數(shù)值的方式,即相似度建立起的相關性關系,因此相關詞匯之間的相似性關系可以通過相似度來表達。
[0045]構建成相關詞匯樹后,可以利用本發(fā)明實施例提供的方法來獲取熱點話題,參見圖2,該方法流程包括:
[0046]201:根據(jù)一個周期內(nèi)的社區(qū)數(shù)據(jù)獲取第一詞匯集合,所述第一詞匯集合包括所述社區(qū)數(shù)據(jù)中包含的詞匯,其中所述社區(qū)數(shù)據(jù)包括微博博文、搜索引擎搜索關鍵詞、新聞標題和/或社區(qū)話題。
[0047]步驟201可以具體為:
[0048]2011:周期性的獲取社區(qū)數(shù)據(jù),得到一個周期內(nèi)的社區(qū)數(shù)據(jù)。
[0049]2012:對所述一個周期內(nèi)的社區(qū)數(shù)據(jù)進行分詞得到所述一個周期內(nèi)的社區(qū)數(shù)據(jù)中包括的詞匯,并將分詞得到的詞匯組成第三詞匯集合。
[0050]通過預設的分詞包,對社區(qū)數(shù)據(jù)中的語句進行分詞,得到社區(qū)數(shù)據(jù)中包括的詞匯。[0051]2013:從所述第三詞匯集合中去除預設過濾詞匯集合中包括的詞匯得到第一詞匯
隹A
口 O
[0052]其中,預設過濾詞匯集合是通過人工方式建立的包含了副詞、助詞詞表,臟話、色情詞、政治敏感詞等詞匯的集合。
[0053]202:對于所述第二詞匯集合中的任意熱點詞匯,根據(jù)預先通過文本聚類算法建立的相關詞匯樹,獲取與所述熱點詞匯具備相關性的詞匯以及所述詞匯的相關度。
[0054]在相關詞匯樹中,獲取與熱點詞匯相關的詞匯的相關度。
[0055]203:根據(jù)所述熱點詞匯對應的熱度值和所述詞匯的相關度,計算與所述詞匯的熱度值。
[0056]根據(jù)熱點詞匯的熱度值與熱點詞匯相關的詞匯的相關度的乘積,計算得到與熱點詞匯相關的詞匯的熱度值。
[0057]例如,詞匯A的熱度值為10,與詞匯A相關的詞匯B的相關度為0.8,那么詞匯B的熱度值為10*0.8=8。
[0058]204:將所述詞匯作為熱點詞匯,添加入所述第二詞匯集合中。
[0059]進一步的,將第二詞匯集合中的其他熱點詞匯,執(zhí)行步驟202至步驟203的過程。
[0060]205:根據(jù)文本聚類算法,對所述第二詞匯集合中的熱點詞匯進行分類。
[0061]第二詞匯集合中的熱點詞匯根據(jù)詞匯之間的相關性,被分成多個詞匯集合。
[0062]206:根據(jù)所述第一詞匯集合包括的詞匯在離當前最近的預設第一數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,從所述第一詞匯集合中選取詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合。
[0063]選取熱點詞匯,需要根據(jù)當前的詞匯出現(xiàn)頻次和歷史數(shù)據(jù)中該詞匯出現(xiàn)的頻次共同來確定詞匯的一個熱度值,并根據(jù)該熱度值來確定熱點詞匯。因此,步驟206可以具體為:
[0064]2061:根據(jù)所述第一詞匯集合包括的詞匯在當天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和預設第一數(shù)值天內(nèi)除當天以外其他每天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第一比值。
[0065]步驟2061可以具體為:
[0066]20611:在所述預設第一數(shù)值天內(nèi)選取除當天以外的第二數(shù)值天,根據(jù)所述第一詞匯集合包括的詞匯在所述第二數(shù)值天中每天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和第二數(shù)值,計算所述第一詞匯集合包括的詞匯的第一平均頻次。
[0067]第一平均頻次為選取的歷史數(shù)據(jù)第一數(shù)值天數(shù)中的第二數(shù)值天數(shù)的各時間段詞匯在社區(qū)數(shù)據(jù)中出現(xiàn)的頻次的平均值。
[0068]例如選取的第一數(shù)值天為離當前最近的兩個月的時間,第二數(shù)值天選取的為離當前最近的兩個月的時間內(nèi)的某段連續(xù)日期,選取的第一時段可以為每天的10點至11點,選取第二數(shù)值天中每天10點至11點的社區(qū)數(shù)據(jù)作為歷史數(shù)據(jù)。
[0069]20612:根據(jù)所述第一詞匯集合包括的詞匯在當天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和所述第一詞匯集合包括的詞匯的第一平均頻次,計算所述第一詞匯集合包括的詞匯對應的第一比值。
[0070]第一比值的具體計算過程為:
【權利要求】
1.一種獲取熱點話題的方法,其特征在于,所述方法包括: 根據(jù)一個周期內(nèi)的社區(qū)數(shù)據(jù)獲取第一詞匯集合,所述第一詞匯集合包括所述社區(qū)數(shù)據(jù)中包含的詞匯,其中所述社區(qū)數(shù)據(jù)包括微博博文、搜索引擎搜索關鍵詞、新聞標題和/或社區(qū)話題; 根據(jù)所述第一詞匯集合包括的詞匯在離當前最近的預設第一數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,從所述第一詞匯集合中選取詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合; 根據(jù)所述第二詞匯集合從社區(qū)話題集合中選取社區(qū)話題,并將所述選取的社區(qū)話題確定為熱點話題。
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)一個周期內(nèi)的社區(qū)數(shù)據(jù)獲取第一詞匯集合,包括: 周期性的獲取社區(qū)數(shù)據(jù),得到一個周期內(nèi)的社區(qū)數(shù)據(jù); 對所述一個周期內(nèi)的社區(qū)數(shù)據(jù)進行分詞得到所述一個周期內(nèi)的社區(qū)數(shù)據(jù)中包括的詞匯,并將分詞得到的詞匯組成第三詞匯集合; 從所述第三詞匯集合中去除預設過濾詞匯集合中包括的詞匯得到第一詞匯集合。
3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述第一詞匯集合包括的詞匯在離當前最近的預設第一 數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,從所述第一詞匯集合中選取詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合,包括: 根據(jù)所述第一詞匯集合包括的詞匯在當天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和預設第一數(shù)值天內(nèi)除當天以外其他每天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第一比值; 獲取當天的星期日期,根據(jù)所述第一詞匯集合包括的詞匯在當天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和所述預設天數(shù)包括的所述星期日期除當天以外其他每天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第二比值; 從預設第一天數(shù)中除當天以外的天數(shù)中選擇預設天數(shù);根據(jù)所述第一詞匯集合包括的詞匯在當天內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和所述預設天數(shù)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第三比值; 根據(jù)所述第一詞匯集合包括的詞匯對應的第一比值,第二比值和第三比值,計算所述第一詞匯集合中包括的詞匯的熱度值; 從所述第一詞匯集合中選取熱度值最大的第一預設個數(shù)個的詞匯,或者從所述詞匯集合中選取熱度值超過第一預設熱度值的詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合。
4.根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)所述第一詞匯集合包括的詞匯在當天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和預設天數(shù)內(nèi)除當天以外其他每天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第一比值,包括: 在所述預設第一數(shù)值天內(nèi)選取除當天以外的第二數(shù)值天,根據(jù)所述第一詞匯集合包括的詞匯在所述第二數(shù)值天中每天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和第二數(shù)值,計算所述第一詞匯集合包括的詞匯的第一平均頻次; 根據(jù)所述第一詞匯集合包括的詞匯在當天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和所述第一詞匯集合包括的詞匯的第一平均頻次,計算所述第一詞匯集合包括的詞匯對應的第一比值。
5.根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)所述第一詞匯集合包括的詞匯在當天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和所述預設天數(shù)包括的所述星期日期除當天以外其他每天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第二比值,包括: 根據(jù)所述第一詞匯集合包括的詞匯在所述預設第一數(shù)值天內(nèi)包括的所述星期日期除當天以外其他每天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和第三數(shù)值,計算所述第一詞匯集合包括的詞匯的第二平均頻次,所述第三數(shù)值為所述預設第一數(shù)值天內(nèi)包括的所述星期日期的天數(shù)與I的差值; 根據(jù)所述第一詞匯集合包括的詞匯在當天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和所述第一詞匯集合包括的詞匯的第二平均頻次,計算所述第一詞匯集合包括的詞匯對應的第二比值。
6.根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)所述第一詞匯集合包括的詞匯在當天內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和所述預設天數(shù)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第三比值,包括: 在所述預設第一數(shù)值天內(nèi)選取除當天以外的第四數(shù)值天,根據(jù)所述第一詞匯集合包括的詞匯在所述第四數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和所述第四數(shù)值,計算所述第一詞匯集合包括的詞匯的第三平均頻次; 所述根據(jù)所述第一詞匯集合包括的詞匯在當天內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和所述第一詞匯集合包括的詞匯的 第三平均頻次,計算所述第一詞匯集合包括的詞匯對應的第三比值。
7.根據(jù)權利要求2所述的方法,其特征在于,所述從所述第三詞匯集合中去除預設過濾詞匯集合中包括的詞匯得到第一詞匯集合之后,所述方法還包括: 對于所述第二詞匯集合中的任意熱點詞匯,根據(jù)預先通過文本聚類算法建立的相關詞匯樹,獲取與所述熱點詞匯具備相關性的詞匯以及所述詞匯的相關度; 根據(jù)所述熱點詞匯對應的熱度值和所述詞匯的相關度,計算所述詞匯的熱度值; 將所述詞匯作為熱點詞匯,添加入所述第二詞匯集合中; 根據(jù)文本聚類算法,對所述第二詞匯集合中的熱點詞匯進行分類。
8.根據(jù)權利要求7所述的方法,其特征在于,所述根據(jù)所述第二詞匯集合從社區(qū)話題集合中選取社區(qū)話題,并將所述選取的社區(qū)話題確定為熱點話題,包括: 對于社區(qū)話題集合中任意一個社區(qū)話題,獲取所述社區(qū)話題包括的所述第二詞匯集合中的詞匯,將獲取的詞匯對應的熱度值進行累加,得到所述社區(qū)話題的熱度值; 從所述社區(qū)話題集合中選取熱度值最大的第二預設個數(shù)個的社區(qū)話題,或者從所述社區(qū)話題集合中選取熱度值超過第二預設熱度值的社區(qū)話題,將所述選取的社區(qū)話題確定為熱點話題。
9.根據(jù)權利要求7所述的方法,其特征在于,所述根據(jù)所述第二詞匯集合從社區(qū)話題集合中選取社區(qū)話題,包括: 根據(jù)所述第二詞匯集合中包括的熱點詞匯的熱度值,計算社區(qū)話題集合中包括的每一個社區(qū)話題的熱度值; 從所述社區(qū)話題集合中選取熱度值最大的第三預設個數(shù)個的社區(qū)話題,或者從所述社區(qū)話題集合中選取熱度值超過第三預設熱度值的社區(qū)話題,將所述選取的社區(qū)話題確定為熱點話題。
10.根據(jù)權利要求9所述的方法,其特征在于,所述根據(jù)所述第二詞匯集合中包括的熱點詞匯的熱度值,計算社區(qū)話題集合中包括的每一個社區(qū)話題的熱度值,包括: 對于社區(qū)話題集合中任意一個社區(qū)話題,獲取所述社區(qū)話題分別包括所述第二詞匯集合中每一個分類中的熱點詞匯個數(shù),選取熱點詞匯個數(shù)最多的一個分類; 根據(jù)所述社區(qū)話題包括的所述選擇的分類的熱點詞匯的熱度值,計算所述社區(qū)話題的第一熱度值; 所述選擇的分類的熱點詞匯中去除所述社區(qū)話題包括的所述選擇的分類的熱點詞匯,根據(jù)所述選擇的分類中剩下的熱點詞匯的熱度值,計算所述社區(qū)話題的第二熱度值; 獲取所述社區(qū)話題包括的所述第二詞匯集合中的熱點詞匯并組成第四詞匯集合,在所述第四詞匯集合中去除所述社區(qū)話題包括的所述選擇的分類的熱點詞匯并組成第五詞匯集合,根據(jù)所述第五詞匯集合中包括的每個熱點詞匯的熱度值,計算所述社區(qū)話題的第三熱度值; 根據(jù)所述社區(qū)話題的第一熱度值,第二熱度值和第三熱度值,計算所述社區(qū)話題的熱度值。
11.一種獲取熱點話題的裝置,其特征在于,所述裝置包括: 第一獲取模塊,用于根據(jù)一個周期內(nèi)的社區(qū)數(shù)據(jù)獲取第一詞匯集合,所述第一詞匯集合包括所述社區(qū)數(shù)據(jù)中包含的詞匯,其中所述社區(qū)數(shù)據(jù)包括微博博文、搜索引擎搜索關鍵詞、新聞標題和/或社區(qū)話題; 第一選取模塊,用于根據(jù)所述第一詞匯集合包括的詞匯在離當前最近的預設第一數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,從所述第一詞匯集合中選取詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合; 第二選取模塊,用于根據(jù)所述第二詞匯集合從社區(qū)話題集合中選取社區(qū)話題,并將所述選取的社區(qū)話題確定為熱點話題。
12.根據(jù)權利要求11所述的裝置,其特征在于,所述第一獲取模塊,包括: 第一獲取單元,用于周期性的獲取社區(qū)數(shù)據(jù),得到一個周期內(nèi)的社區(qū)數(shù)據(jù); 分詞單元,用于對所述一個周期內(nèi)的社區(qū)數(shù)據(jù)進行分詞得到所述一個周期內(nèi)的社區(qū)數(shù)據(jù)中包括的詞匯,并將分詞得到的詞匯組成第三詞匯集合; 過濾單元,用于從所述第三詞匯集合中去除預設過濾詞匯集合中包括的詞匯得到第一詞匯集合。
13.根據(jù)權利要求11所述的裝置,其特征在于,所述第一選取模塊,包括: 第一計算單元,用于根據(jù)所述第一詞匯集合包括的詞匯在當天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和預設第一數(shù)值天內(nèi)除當天以外其他每天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第一比值; 第二計算單元,用于獲取當天的星期日期,根據(jù)所述第一詞匯集合包括的詞匯在當天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和所述預設天數(shù)包括的所述星期日期除當天以外其他每天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第二比值; 第三計算單元,用于從預設第一天數(shù)中除當天以外的天數(shù)中選擇預設天數(shù);根據(jù)所述第一詞匯集合包括的詞匯在當天內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和所述預設天數(shù)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次,計算所述第一詞匯集合包括的詞匯對應的第三比值; 第四計算單元,用于根據(jù)所述第一詞匯集合包括的詞匯對應的第一比值,第二比值和第三比值,計算所述第一詞匯集合中包括的詞匯的熱度值; 第一選取單元,用于從所述第一詞匯集合中選取熱度值最大的第一預設個數(shù)個的詞匯,或者從所述詞匯集合中選取熱度值超過第一預設熱度值的詞匯,將所述選取的詞匯確定為熱點詞匯并組成第二詞匯集合。
14.根據(jù)權利要求13所述的裝置,其特征在于,所述第一計算單元,包括: 第一計算子單元,用于在所述預設第一數(shù)值天內(nèi)選取除當天以外的第二數(shù)值天,根據(jù)所述第一詞匯集合包括的詞匯在所述第二數(shù)值天中每天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和第二數(shù)值,計算所述第一詞匯集合包括的詞匯的第一平均頻次; 第二計算子單元,用于根據(jù)所述第一詞匯集合包括的詞匯在當天的第一時段內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和所述第一詞匯集合包括的詞匯的第一平均頻次,計算所述第一詞匯集合包括的詞匯對應的第一比值。
15.根據(jù)權利要求13所述的裝置,其特征在于,所述第二計算單元,包括: 第三計算子單元,用于根據(jù)所述第一詞匯集合包括的詞匯在所述預設第一數(shù)值天內(nèi)包括的所述星期日期除當天以外其他每天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和第三數(shù)值,計算所述第一詞匯集合包括的詞匯的第二平均頻次,所述第三數(shù)值為所述預設第一數(shù)值天內(nèi)包括的所述星期日期的天數(shù)與I的差值; 第四計算子單元,用于根據(jù)所述第一詞匯集合包括的詞匯在當天的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和所述第一詞匯集合包括的詞匯的第二平均頻次,計算所述第一詞匯集合包括的詞匯對應的第二比值。
16.根據(jù)權利要求13所述的裝置,其特征在于,所述第三計算單元,包括: 第五計算子單元,用于在所述預設第一數(shù)值天內(nèi)選取除當天以外的第四數(shù)值天,根據(jù)所述第一詞匯集合包括的詞匯在所述第四數(shù)值天內(nèi)的社區(qū)數(shù)據(jù)中出現(xiàn)的頻次和所述第四數(shù)值,計算所述第一詞匯集合包括的詞匯的第三平均頻次; 第六計算子單元,用于所述根據(jù)所述第一詞匯集合包括的詞匯在當天內(nèi)社區(qū)數(shù)據(jù)出現(xiàn)的頻次和所述第一詞匯集合包括的詞匯的第三平均頻次,計算所述第一詞匯集合包括的詞匯對應的第三比值。
17.根據(jù)權利要求12所述的裝置,其特征在于,所述裝置還包括: 第二獲取模塊,用于對于所述第二詞匯集合中的任意熱點詞匯,根據(jù)預先通過文本聚類算法建立的相關詞匯樹,獲取與所述熱點詞匯具備相關性的詞匯以及所述詞匯的相關度; 計算模塊,用于根據(jù)所述熱點詞匯對應的熱度值和所述詞匯的相關度,計算與所述詞匯的熱度值; 添加模塊,用于將所述詞匯作為熱點詞匯,添加入所述第二詞匯集合中; 分類模塊,用于根據(jù)文本聚類算法,對所述第二詞匯集合中的熱點詞匯進行分類。
18.根據(jù)權利要求17所述的裝置,其特征在于,所述第二選取模塊,包括: 第二獲取單元,用于對于社區(qū)話題集合中任意一個社區(qū)話題,獲取所述社區(qū)話題包括的所述第二詞匯集合中的詞匯,將獲取的詞匯對應的熱度值進行累加,得到所述社區(qū)話題的熱度值; 第二選取單元,用于從所述社區(qū)話題集合中選取熱度值最大的第二預設個數(shù)個的社區(qū)話題,或者從所述社區(qū)話題集合中選取熱度值超過第二預設熱度值的社區(qū)話題,將所述選取的社區(qū)話題確定為熱點話題。
19.根據(jù)權利要求17所述的裝置,其特征在于,所述第二選取模塊,包括: 第五計算單元,用于根據(jù)所述第二詞匯集合中包括的熱點詞匯的熱度值,計算社區(qū)話題集合中包括的每一個社區(qū)話題的熱度值; 第三選取單元,用于從所述社區(qū)話題集合中選取熱度值最大的第三預設個數(shù)個的社區(qū)話題,或者從所述社區(qū)話題集合中選取熱度值超過第三預設熱度值的社區(qū)話題,將所述選取的社區(qū)話題確定為熱點話題。
20.根據(jù)權利要求19所述的裝置,其特征在于,所述第五計算單元,包括: 獲取子單元,用于對于社區(qū)話題集合中任意一個社區(qū)話題,獲取所述社區(qū)話題分別包括所述第二詞匯集合中每一個分類中的熱點詞匯個數(shù),選取熱點詞匯個數(shù)最多的一個分類; 第七計算子單元,用于根據(jù)所述社區(qū)話題包括的所述選擇的分類的熱點詞匯的熱度值,計算所述社區(qū)話題的第一熱度值; 第八計算子單元,用 于所述選擇的分類的熱點詞匯中去除所述社區(qū)話題包括的所述選擇的分類的熱點詞匯,根據(jù)所述選擇的分類中剩下的熱點詞匯的熱度值,計算所述社區(qū)話題的第二熱度值; 第九計算子單元,用于獲取所述社區(qū)話題包括的所述第二詞匯集合中的熱點詞匯并組成第四詞匯集合,在所述第四詞匯集合中去除所述社區(qū)話題包括的所述選擇的分類的熱點詞匯并組成第五詞匯集合,根據(jù)所述第五詞匯集合中包括的每個熱點詞匯的熱度值,計算所述社區(qū)話題的第三熱度值; 第十計算子單元,用于根據(jù)所述社區(qū)話題的第一熱度值,第二熱度值和第三熱度值,計算所述社區(qū)話題的熱度值。
【文檔編號】G06F17/30GK104008106SQ201310058887
【公開日】2014年8月27日 申請日期:2013年2月25日 優(yōu)先權日:2013年2月25日
【發(fā)明者】程剛 申請人:騰訊科技(深圳)有限公司