一種中文微博突發(fā)熱點(diǎn)話題檢測(cè)方法
【專利摘要】本發(fā)明提供了一種中文微博突發(fā)熱點(diǎn)話題檢測(cè)方法,該方法包括以下步驟:通過(guò)微博站點(diǎn)的數(shù)據(jù)接口獲取所述微博站點(diǎn)的微博帖,所述微博帖包括提取的正文和發(fā)表時(shí)間;根據(jù)所述微博帖建立參考微博帖集合;確定檢測(cè)微博帖集合;運(yùn)用二元覆蓋法進(jìn)行切詞;確定突發(fā)詞,建立突發(fā)詞聚類;確定熱點(diǎn)話題,對(duì)所述熱點(diǎn)話題排序。該方法針對(duì)海量中文微博帖中的突發(fā)話題檢測(cè),利用突發(fā)話題在微博帖中出現(xiàn)的特征,采用檢測(cè)突發(fā)詞和突發(fā)詞聚類相結(jié)合的方法,能夠準(zhǔn)確的檢測(cè)出突發(fā)話題。
【專利說(shuō)明】一種中文微博突發(fā)熱點(diǎn)話題檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種互聯(lián)網(wǎng)數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】的方法,具體講涉及一種中文微博突發(fā) 熱點(diǎn)話題檢測(cè)方法。
【背景技術(shù)】
[0002] 中文微博用戶數(shù)量巨大、信息即時(shí)性強(qiáng)、消息傳播速度快,從海量的中文微博帖中 快速、準(zhǔn)確地檢測(cè)突發(fā)話題對(duì)政府決策和商業(yè)推廣有重要意義。
[0003] 突發(fā)話題是指發(fā)生在某個(gè)時(shí)間的事件,通常有一個(gè)持續(xù)時(shí)間短、被大量網(wǎng)民熱烈 討論時(shí)間段。
[0004] 中文微博突發(fā)熱點(diǎn)話題檢測(cè)與傳統(tǒng)的話題檢測(cè)與跟蹤項(xiàng)目(TDT)中采用的話題 檢測(cè)方法主要有三個(gè)區(qū)別。
[0005] 首先,中文話題檢測(cè)中的需要對(duì)中文進(jìn)行分詞,而TDT項(xiàng)目中大多數(shù)研究針對(duì)英 文文檔,不需要進(jìn)行分詞處理。對(duì)中文的處理一般需要進(jìn)行中文分詞,目前普遍采用的是基 于分詞詞表的中文分詞?;诜衷~詞表的方法無(wú)法檢測(cè)出微博中的新詞,也稱未登錄詞,即 沒(méi)有被收錄在分詞詞表中但必須切分出來(lái)的詞。未登錄詞包括各類專有名詞(人名、地名、 企業(yè)名等)、縮寫(xiě)詞、新增詞匯等。若無(wú)法檢測(cè)出未登錄詞,將會(huì)降低突發(fā)話題檢測(cè)效果。
[0006] 其次,微博是短文本形式,而TDT中是對(duì)長(zhǎng)文本進(jìn)行分析。短文本中只有少量的字 可以被分析使用,很難準(zhǔn)確地抽取有效的語(yǔ)言特征。
[0007] 再次,待檢測(cè)的微博帖集合中有大量的非事件類文檔,而TDT中假設(shè)每個(gè)文檔都 討論某個(gè)話題。在該假設(shè)下,采用文本聚類的方法檢測(cè)話題,當(dāng)遇到非事件性文檔時(shí),也會(huì) 將該文檔聚類到某個(gè)話題中,這樣會(huì)造成話題檢測(cè)結(jié)果的不準(zhǔn)確。
[0008] 目前,并沒(méi)有中文微博的突發(fā)話題的檢測(cè)方法。
【發(fā)明內(nèi)容】
[0009] 為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種中文微博突發(fā)熱點(diǎn)話題檢測(cè)方 法。
[0010] 實(shí)現(xiàn)上述目的所采用的解決方案為:
[0011] 一種中文微博突發(fā)熱點(diǎn)話題檢測(cè)方法,其改進(jìn)之處在于:所述方法包括以下步 驟:
[0012] I、通過(guò)微博站點(diǎn)的數(shù)據(jù)接口獲取所述微博站點(diǎn)的微博帖,所述微博帖包括提取的 正文和發(fā)表時(shí)間;
[0013] II、根據(jù)所述微博帖建立參考微博帖集合;
[0014] III、確定檢測(cè)微博帖集合;
[0015] IV、運(yùn)用二元覆蓋法進(jìn)行切詞;
[0016] V、確定突發(fā)詞,建立突發(fā)詞聚類;
[0017] VI、確定熱點(diǎn)話題,對(duì)所述熱點(diǎn)話題排序。
[0018] 進(jìn)一步的,所述步驟II包括:設(shè)定所述熱點(diǎn)話題的時(shí)間窗[tp t2];
[0019] 根據(jù)所述微博帖的發(fā)表時(shí)間從所述微博帖的集合中提取發(fā)表時(shí)間在所述時(shí)間窗 [h,t2]內(nèi)的微博帖,構(gòu)建所述熱點(diǎn)話題的所述參考微博帖集合。
[0020] 進(jìn)一步的,所述步驟III包括:設(shè)定所述熱點(diǎn)話題的檢測(cè)時(shí)間窗[ts,tj ;
[0021] 根據(jù)所述微博帖的發(fā)表時(shí)間從所述微博帖的集合中提取發(fā)表時(shí)間在所述時(shí)間窗 [ts,tj內(nèi)的微博帖,構(gòu)建所述熱點(diǎn)話題的所述檢測(cè)微博帖集合。
[0022] 進(jìn)一步的,所述步驟IV包括:對(duì)所述參考微博帖集合和所述檢測(cè)微博帖集合中的 正文進(jìn)行二元切詞,將所述正文中任意相鄰的兩個(gè)字組成一個(gè)詞,構(gòu)成所述參考微博帖集 合和所述檢測(cè)微博帖集合的索引文件。
[0023] 進(jìn)一步的,所述步驟V包括:將在所述檢測(cè)微博帖集合中的出現(xiàn)率大于在所述參 考微博帖集中的出現(xiàn)率T b倍的詞確定為突發(fā)詞;所述Tb的范圍為2. 5-10 ;
[0024] 對(duì)檢測(cè)出的所述突發(fā)詞進(jìn)行聚類。
[0025] 進(jìn)一步的,所述步驟VI包括:
[0026] 將所述突發(fā)詞連接成有向加權(quán)圖G,所述有向加權(quán)圖的頂點(diǎn)為所述突發(fā)詞,兩詞之 間連接一條邊,確定兩詞間的Tversky指數(shù)作為邊的權(quán)重,所述Tversky指數(shù)的取值范圍為 [0,1];
[0027] 移除所述有向加權(quán)圖G中權(quán)重小于0. 3的邊,形成圖4 ;
[0028] 將所述圖4劃分為若干強(qiáng)連通子圖,節(jié)點(diǎn)數(shù)大于等于3的強(qiáng)連通子圖中的節(jié)點(diǎn)組 成一個(gè)突發(fā)詞的有效聚類,形成話題;
[0029] 在所述檢測(cè)微博帖集合中,若所述話題對(duì)應(yīng)的突發(fā)詞聚類中出現(xiàn)3個(gè)或以上的突 發(fā)詞時(shí),則所述微博帖與所述話題相關(guān);
[0030] 獲得每個(gè)所述話題的相關(guān)微博帖并根據(jù)微博帖數(shù)對(duì)話題進(jìn)行排序;
[0031] 進(jìn)一步的,選取與話題相關(guān)度最大的微博帖作為所述話題的語(yǔ)義標(biāo)簽,提高可讀 性。
[0032] 進(jìn)一步的,所述語(yǔ)義標(biāo)簽通過(guò)相關(guān)度確定,包括以下步驟:
[0033] 將與話題相關(guān)的微博帖根據(jù)相關(guān)度排序;相關(guān)度以微博帖中包含的話題對(duì)應(yīng)的突 發(fā)詞聚類的突發(fā)詞個(gè)數(shù)表征;
[0034] 選取相關(guān)度最高的微博帖為所述話題的語(yǔ)義標(biāo)簽。
[0035] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0036] 1、本發(fā)明提供的方法可自動(dòng)對(duì)檢測(cè)出的話題進(jìn)行語(yǔ)義標(biāo)注,即選取與某話題相關(guān) 度最大的微博帖作為該話題的語(yǔ)義標(biāo)簽。這種方法客服了在權(quán)利要求1中采用二元分詞方 法產(chǎn)生大量無(wú)確切語(yǔ)義的詞造成的可讀性差的缺點(diǎn),如"北京首都機(jī)場(chǎng)"所切分的"京首"和 "都機(jī)",而采用含有該詞的整條微博表示話題的語(yǔ)義,如"北京首都機(jī)場(chǎng)首推通程行李直掛 服務(wù)"。
[0037] 2、在突發(fā)詞檢測(cè)階段,由于采用了二元分詞,可檢測(cè)出微博帖中出現(xiàn)的新詞,而非 傳統(tǒng)的基于分詞詞表的分詞方法。二元分詞可檢測(cè)出微博中的新詞,也稱未登錄詞,即沒(méi)有 被收錄在分詞詞表中但必須切分出來(lái)的詞,提高突發(fā)話題檢測(cè)效果。
[0038] 3、首先,突發(fā)話題出現(xiàn)時(shí),某些原先不出現(xiàn)的詞會(huì)在文本中頻繁出現(xiàn),本發(fā)明的方 法通過(guò)詞頻比較的方法檢測(cè)出這些詞。其次,同一個(gè)話題的突發(fā)詞往往出現(xiàn)在相同的微博 帖中,通過(guò)對(duì)突發(fā)詞圖劃分為若干強(qiáng)連通子圖將相同話題的突發(fā)詞聚類,從而檢測(cè)出微博 帖集合中突發(fā)的且不重復(fù)的話題。
[0039] 4、本發(fā)明提供的方法針對(duì)海量中文微博帖中的突發(fā)話題檢測(cè),性能優(yōu)于已有的基 于文檔聚類方法。
[0040] 5、利用突發(fā)話題在微博帖中出現(xiàn)的特征,采用檢測(cè)突發(fā)詞和突發(fā)詞聚類相結(jié)合的 方法,能夠準(zhǔn)確地檢測(cè)出突發(fā)話題。
[0041] 6、本發(fā)明是在線算法,對(duì)t時(shí)刻的話題檢測(cè)僅需當(dāng)期文檔集和參考文檔集,適用 實(shí)時(shí)性很強(qiáng)的微博話題檢測(cè)應(yīng)用。
[0042] 7、本發(fā)明的方法是非監(jiān)督的方法,采用的參考文檔集無(wú)需人工標(biāo)定,效率更高。
[0043] 8、可將通過(guò)該方法檢測(cè)到的熱點(diǎn)話題撰寫(xiě)成檢測(cè)報(bào)告提交給政府部門、新聞單位 或企業(yè)的相關(guān)部門,也可以作為后續(xù)科學(xué)研究如突發(fā)話題趨勢(shì)分析、話題演變追蹤等的已 知信息。
【專利附圖】
【附圖說(shuō)明】
[0044] 圖1為本發(fā)明的中文微博突發(fā)熱門話題檢測(cè)方法總體示意圖;
[0045] 圖2為本發(fā)明的方法應(yīng)用實(shí)施例示意圖;
[0046] 圖3為本發(fā)明的話題檢索顯示實(shí)施例示意圖。
【具體實(shí)施方式】
[0047] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】做進(jìn)一步的詳細(xì)說(shuō)明。
[0048] 如圖1所示,圖1為本發(fā)明的中文微博突發(fā)熱門話題檢測(cè)方法總體示意圖;本發(fā)明 提供的一種中文微博突發(fā)熱點(diǎn)話題檢測(cè)方法包括以下步驟:
[0049] 步驟一、通過(guò)微博站點(diǎn)的數(shù)據(jù)接口獲取所述微博站點(diǎn)的微博帖,所述微博帖包括 提取的正文和發(fā)表時(shí)間;
[0050] 步驟二、根據(jù)所述微博帖建立參考微博帖集合;
[0051] 步驟三、確定檢測(cè)微博帖集合;
[0052] 步驟四、運(yùn)用二元覆蓋法進(jìn)行切詞;
[0053] 步驟五、確定突發(fā)詞,建立突發(fā)詞聚類;
[0054] 步驟六、確定熱點(diǎn)話題,對(duì)所述熱點(diǎn)話題排序。
[0055] 步驟一中,從新浪微博、騰訊微博等各個(gè)中文微博站點(diǎn),通過(guò)網(wǎng)站提供的基礎(chǔ)數(shù)據(jù) 接口 API采集微博帖并保存。
[0056] 微博帖的信息包括:提取的本微博帖的正文內(nèi)容和發(fā)表時(shí)間。
[0057] 所有采集到的微博帖構(gòu)成微博話題檢測(cè)的數(shù)據(jù)集D。設(shè)一個(gè)微博帖集合D = {dt} 是一個(gè)大小為|D|的微博帖的集合;運(yùn)算符| · |表示集合的大小,dt表示一個(gè)在t時(shí)刻發(fā) 表的微博帖。
[0058] 微博帖正文dt為一個(gè)在字典Ω = h,…,w|£2|}上的二進(jìn)制向量dt = {dt (w),… ,dt(w|£2|)};其中,dt(w) = 1表示詞w在dt中出現(xiàn),dt(w) = 0表示未出現(xiàn)。
[0059] 所述字典指,將本次采集的所有微博帖的微博正文以二分覆蓋法進(jìn)行切詞,獲得 的所有不重復(fù)詞作為一個(gè)字典。
[0060] 步驟二中,根據(jù)微博帖建立參考微博帖集合。
[0061] 設(shè)定微博突發(fā)熱門話題檢測(cè)的參考時(shí)間窗[懷t2];從獲取的微博帖集合中,提取 發(fā)表時(shí)間在[ti,t 2]內(nèi)的微博帖,作為話題檢測(cè)的參考微博帖集合。
[0062] 設(shè)參考微博帖集合Dr = {dt | dt e D,心彡t彡t2},為一個(gè)大小為| Dr |的微博帖集 合。
[0063] 步驟三中,構(gòu)造檢測(cè)微博帖集合。
[0064] 設(shè)定微博突發(fā)熱門話題檢測(cè)時(shí)間窗[ts,tj ;如步驟二的方法,從步驟一獲取的微 博帖集合中,提取發(fā)表時(shí)間在[ts,te]內(nèi)的微博帖,作為話題檢測(cè)的檢測(cè)微博帖集合。
[0065] 設(shè)檢測(cè)微博帖集合Dd = {dt I dt e D,ts彡t彡tj,是一個(gè)大小為I Dd I的微博帖集 合,通常ts彡t2。
[0066] 本實(shí)施例中,假設(shè)檢測(cè)某一天的微博突發(fā)話題,可將ts設(shè)為當(dāng)天的0:00,設(shè)為當(dāng) 天的24:00, tl設(shè)為30天前的0:00, t2設(shè)為當(dāng)天的0:00。
[0067] 步驟四中,采用二元覆蓋法進(jìn)行中文切詞。
[0068] 對(duì)上述參考微博帖集合和檢測(cè)微博帖集合中的正文進(jìn)行二元切詞,切詞方法為: 將文本中任意相鄰的兩個(gè)字可組成一個(gè)詞,例如"北京首都機(jī)場(chǎng)"將被切分為"北京I京首 首都I都機(jī)I機(jī)場(chǎng)"五個(gè)詞;將分詞后獲得詞構(gòu)成相應(yīng)索引文件。
[0069] 步驟五中,確定突發(fā)詞,建立突發(fā)詞聚類。
[0070] 針對(duì)檢測(cè)微博帖集合中得到的所有詞,檢測(cè)出突發(fā)詞。檢測(cè)方法為:若某個(gè)詞在檢 測(cè)微博帖集合中的出現(xiàn)率大于該詞在參考微博帖集中的出現(xiàn)率的一定倍數(shù)T b時(shí),則判為突 發(fā)詞,Tb的取值范圍為2. 5-10。
[0071] 確定詞在微博帖集中的出現(xiàn)率的方法為:通過(guò)微博帖集合中包含該詞的微博帖數(shù) 除以微博帖集合大小計(jì)算獲得。
[0072] 在通過(guò)上述檢測(cè)方法確定突發(fā)詞后,對(duì)檢測(cè)出的突發(fā)詞進(jìn)行聚類。
[0073] 上述檢測(cè)方法的步驟包括:
[0074] S501、遍歷檢測(cè)微博帖集合中的詞w e Ω& 為檢測(cè)微博帖中所有非重復(fù)二元詞 組成的集合;
[0075] S502、計(jì)算w在檢測(cè)微博帖集中的出現(xiàn)率Xd(w) = |Dd(w) |/|Dd| ;
[0076] 其中,Dd (w)表示檢測(cè)微博帖集合Dd中含有詞w的微博帖集合,即Dd (w)= {dt|dt e Dd, dt(w) = 1};
[0077] S503、計(jì)算w在參考文檔集中的平均出現(xiàn)率Xr(w) = |Dr(w) |/|Dr| ;
[0078] 其中,Djw)表示參考微博帖集合比中含有詞w的微博帖集合,即Djw)= {dt|d t e Dr, dt(w) = 1};
[0079] 5504、計(jì)算界的突發(fā)性9卜)=4卜)/為.(州);當(dāng)且僅當(dāng)供卜')>2;時(shí),將其判為突 發(fā)詞,T b的取值范圍為2. 5-10。
[0080] 步驟六中,確定熱點(diǎn)話題,對(duì)所述熱點(diǎn)話題排序。
[0081] 確定熱點(diǎn)話題,具體包括以下步驟:
[0082] S601、將步驟五中確定的突發(fā)詞連接成有向加權(quán)圖G,該圖的頂點(diǎn)是突發(fā)詞,兩 個(gè)有序突發(fā)詞之間連接一條有向邊,通過(guò)Tversky指數(shù)(Tversky index)度量邊的權(quán)重, Tversky指數(shù)的取值范圍是[0, 1];
[0083] 由于當(dāng)兩個(gè)詞屬于同一個(gè)話題時(shí),傾向于出現(xiàn)在相同的文檔集合中;同時(shí),不同詞 對(duì)于描述話題的重要性不同,如果兩個(gè)詞都比較重要,他們之間雙向的邊都會(huì)較大;如果兩 個(gè)詞中一個(gè)或兩個(gè)詞對(duì)描述話題不重要時(shí),他們之間單向或雙向的邊則較小,使用Tversky 指數(shù)可以較好地體現(xiàn)邊兩端節(jié)點(diǎn)的不對(duì)稱性。
[0084] S602、移除圖G中權(quán)重小于0. 3的邊,原圖變?yōu)镚,。
[0085] S603、將4劃分為若干強(qiáng)連通子圖;每一個(gè)節(jié)點(diǎn)數(shù)不小于3的強(qiáng)連通子圖中的節(jié) 點(diǎn)組成一個(gè)突發(fā)詞的有效聚類,代表一個(gè)話題。
[0086] S604、根據(jù)聚類結(jié)果對(duì)檢測(cè)微博帖集合進(jìn)行判別:當(dāng)一條微博帖中出現(xiàn)某個(gè)話題 對(duì)應(yīng)的突發(fā)詞聚類中的3個(gè)或以上的突發(fā)詞時(shí),將該條微博帖判定為與該話題相關(guān);從而 確定每個(gè)話題的所有相關(guān)微博帖;
[0087] S605、通過(guò)相關(guān)微博帖的數(shù)量對(duì)話題進(jìn)行排序,以話題包含的微博帖數(shù)看作該話 題的熱度;
[0088] S606、確定熱點(diǎn)話題。
【權(quán)利要求】
1. 一種中文微博突發(fā)熱點(diǎn)話題檢測(cè)方法,其特征在于:所述方法包括以下步驟:
1. 通過(guò)微博站點(diǎn)的數(shù)據(jù)接口獲取所述微博站點(diǎn)的微博帖,所述微博帖包括提取的正文 和發(fā)表時(shí)間; II、 根據(jù)所述微博帖建立參考微博帖集合; III、 確定檢測(cè)微博帖集合; IV、 運(yùn)用二元覆蓋法進(jìn)行切詞; V、 確定突發(fā)詞,建立突發(fā)詞聚類; VI、 確定熱點(diǎn)話題,對(duì)所述熱點(diǎn)話題排序。
2. 如權(quán)利要求1所述的方法,其特征在于:所述步驟II包括:設(shè)定所述熱點(diǎn)話題的時(shí) 間窗[t!,t2]; 根據(jù)所述微博帖的發(fā)表時(shí)間從所述微博帖的集合中提取發(fā)表時(shí)間在所述時(shí)間窗 [ti,t2]內(nèi)的微博帖,構(gòu)建所述熱點(diǎn)話題的所述參考微博帖集合。
3. 如權(quán)利要求1所述的方法,其特征在于:所述步驟III包括:設(shè)定所述熱點(diǎn)話題的檢 測(cè)時(shí)間窗[ts,tj ; 根據(jù)所述微博帖的發(fā)表時(shí)間從所述微博帖的集合中提取發(fā)表時(shí)間在所述時(shí)間窗 [ts,tj內(nèi)的微博帖,構(gòu)建所述熱點(diǎn)話題的所述檢測(cè)微博帖集合。
4. 如權(quán)利要求1所述的方法,其特征在于:所述步驟IV包括:對(duì)所述參考微博帖集合 和所述檢測(cè)微博帖集合中的正文進(jìn)行二元切詞,將所述正文中任意相鄰的兩個(gè)字組成一個(gè) 詞,構(gòu)成所述參考微博帖集合和所述檢測(cè)微博帖集合的索引文件。
5. 如權(quán)利要求1所述的方法,其特征在于:所述步驟V包括:將在所述檢測(cè)微博帖集合 中的出現(xiàn)率大于在所述參考微博帖集中的出現(xiàn)率T b倍的詞確定為突發(fā)詞;所述Tb的范圍為 2. 5-10 ; 對(duì)檢測(cè)出的所述突發(fā)詞進(jìn)行聚類。
6. 如權(quán)利要求1所述的方法,其特征在于:所述步驟VI包括: 將所述突發(fā)詞連接成有向加權(quán)圖G,所述有向加權(quán)圖的頂點(diǎn)為所述突發(fā)詞,兩詞之間連 接一條邊,確定兩詞間的Tversky指數(shù)作為邊的權(quán)重,所述Tversky指數(shù)的取值范圍為[0, 1]; 移除所述有向加權(quán)圖G中權(quán)重小于0. 3的邊,形成圖4 ; 將所述圖4劃分為若干強(qiáng)連通子圖,節(jié)點(diǎn)數(shù)大于等于3的強(qiáng)連通子圖中的節(jié)點(diǎn)組成一 個(gè)突發(fā)詞的有效聚類,形成話題; 在所述檢測(cè)微博帖集合中,若所述話題對(duì)應(yīng)的突發(fā)詞聚類中出現(xiàn)3個(gè)或以上的突發(fā)詞 時(shí),則所述微博帖與所述話題相關(guān); 獲得每個(gè)所述話題的相關(guān)微博帖并根據(jù)微博帖數(shù)對(duì)話題進(jìn)行排序。
7. 如權(quán)利要求6所述的方法,其特征在于:選取與話題相關(guān)度最大的微博帖作為所述 話題的語(yǔ)義標(biāo)簽,提高可讀性。
8. 如權(quán)利要求7所述的方法,其特征在于:所述語(yǔ)義標(biāo)簽通過(guò)相關(guān)度確定,包括以下步 驟: 將與話題相關(guān)的微博帖根據(jù)相關(guān)度排序;相關(guān)度以微博帖中包含的話題對(duì)應(yīng)的突發(fā)詞 聚類的突發(fā)詞個(gè)數(shù)表征; 選取相關(guān)度最高的微博帖為所述話題的語(yǔ)義標(biāo)簽。
【文檔編號(hào)】G06F17/30GK104063428SQ201410251473
【公開(kāi)日】2014年9月24日 申請(qǐng)日期:2014年6月9日 優(yōu)先權(quán)日:2014年6月9日
【發(fā)明者】趙麗, 劉欣然, 李焱 申請(qǐng)人:國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心