微博熱點(diǎn)話題分析方法
【專利摘要】本發(fā)明公開了一種微博熱點(diǎn)話題分析方法,其包括以下步驟:微博采集模塊根據(jù)采集策略,使用網(wǎng)絡(luò)爬蟲與微博第三方api技術(shù)相結(jié)合的方式獲取微博數(shù)據(jù);利用分詞處理技術(shù)從詞庫中調(diào)用關(guān)鍵詞和敏感詞,從微博文本數(shù)據(jù)中分析出關(guān)鍵詞和敏感詞;依據(jù)分析出的關(guān)鍵詞、敏感詞以及情感傾向詞對微博網(wǎng)頁文本數(shù)據(jù)進(jìn)行過濾;熱點(diǎn)話題模塊通過聚類分析技術(shù)將##與[]符號之間括住的內(nèi)容,標(biāo)記為一個(gè)話題,以統(tǒng)計(jì)微博評論數(shù);熱點(diǎn)人物模塊通過聚類分析技術(shù)以分析微博粉絲數(shù)量、評論數(shù)量;微博預(yù)警模塊從網(wǎng)絡(luò)微博中分析出與關(guān)鍵字和敏感詞有關(guān)的微博信息;分析統(tǒng)計(jì)模塊對系統(tǒng)中分析出的相關(guān)數(shù)據(jù)自動生成簡報(bào)。本發(fā)明提高了話題分析的準(zhǔn)確性,提高了檢測效率。
【專利說明】微博熱點(diǎn)話題分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分析方法,特別是涉及一種微博熱點(diǎn)話題分析方法。。
【背景技術(shù)】
[0002]微博是一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取平臺,用戶可以通過WEB、WAP以及各種客戶端組件,以140字左右的文字更新信息,并實(shí)現(xiàn)即時(shí)分享。微博作為快速分享和傳播的網(wǎng)絡(luò)平臺,具有信息量龐大、信息分散多樣等特點(diǎn)。在國內(nèi),新浪微博和騰訊微博是最熱門的微博系統(tǒng),據(jù)公開數(shù)據(jù),新浪有超過2億的注冊用戶,騰訊微博有超過3億的注冊用戶?;谖⒉┥缃痪W(wǎng)絡(luò)的輿情分析系統(tǒng)應(yīng)當(dāng)能聚集出微博言論中的熱門話題,并進(jìn)行追蹤和分析,提供輿情預(yù)警的功能。目前,微博平臺上發(fā)現(xiàn)討論熱點(diǎn)的主要方式包括:基于詞頻的熱點(diǎn)話題發(fā)現(xiàn)方法和文本分類方法。其中,
詞頻統(tǒng)計(jì)是當(dāng)前微博平臺上發(fā)現(xiàn)討論熱點(diǎn)的主要方式。該方法來源于傳統(tǒng)的了 tf-1df索引方法。在一定的時(shí)間范圍內(nèi),平臺對所有用戶發(fā)布的微博進(jìn)行分詞、詞語篩選并建立倒排索引,之后將這些詞語按照頻率排序,頻率排序較高的詞語就成為微博上的熱點(diǎn)話題,用戶可以使用平臺提供的這些詞語,通過內(nèi)部的反向索引在微博平臺上找到相關(guān)的微博條目。傳統(tǒng)的熱點(diǎn)詞語發(fā)現(xiàn)系統(tǒng)工作流程圖頻率統(tǒng)計(jì)方法簡單易行,在人工干預(yù)下具有較好的工作效率,目前在服務(wù)商中被廣泛采用。然而,頻率統(tǒng)計(jì)方法對于同義詞和一詞多義這兩種對其干擾很大的語義現(xiàn)象基本無法處理。單純基于詞語匹配的方法在文本匹配中存在著誤報(bào)或漏報(bào)結(jié)果這樣的現(xiàn)象。在微博平臺上,由于內(nèi)容量大,用戶個(gè)性強(qiáng),這使得基于文本匹配的熱點(diǎn)話題發(fā)現(xiàn)工作準(zhǔn)確性不能得到很好的保證。另外,單獨(dú)的熱點(diǎn)詞語只能帶給用戶片面的信息,對于用戶來說更像是提供了一個(gè)信息索引而非信息本身。為了提高用戶體驗(yàn)必須增加一定數(shù)量的人工篩選工作,減低了系統(tǒng)的效率;而且,針對日益升高的用戶個(gè)性化推薦需求的滿足,頻率統(tǒng)計(jì)方法幾乎不能給予有效的協(xié)助。
[0003]傳統(tǒng)的文本分類方法也可以應(yīng)用在微博平臺上進(jìn)行熱點(diǎn)信息篩選,目前被廣泛使用的自動分類器有貝葉斯分類器,基于實(shí)例的kNN分類器,以及支持向量機(jī)等。由于微博客用戶數(shù)量十分大,用戶關(guān)注的話題極為廣泛,用戶之間又存在著明顯的相互影響的關(guān)系,整個(gè)用戶網(wǎng)絡(luò)對熱點(diǎn)事件的捕捉是十分迅速的。如果能設(shè)計(jì)一種切合當(dāng)前熱點(diǎn)事件的分類器,那么就能夠?qū)崟r(shí)地檢測到這一類別的信息的變化趨勢。然而熱點(diǎn)事件和話題在其出現(xiàn)之前是未知的,因此問題轉(zhuǎn)變?yōu)榱藢σ恍┨囟ǖ?、敏感的話題的固定性監(jiān)測。分類器方法在針對特定話題的篩選上有著良好的效果,然而,由于微博上的文本內(nèi)容分布范圍十分廣,這使得設(shè)計(jì)一個(gè)完備的詞典式分類器從而讓所有的信息都落在特定的類別中變得幾乎不可能。熱點(diǎn)話題發(fā)現(xiàn)需要迅速地捕捉到多個(gè)不同話題,一般的分類器難以勝任這樣的任務(wù)。另夕卜,由于新聞信息的突發(fā)性和不確定性,如果要完成對于微博上熱點(diǎn)信息變化趨勢的追蹤,必須花費(fèi)不小的代價(jià)對分類器的結(jié)果進(jìn)行監(jiān)測。
[0004]如上所述,傳統(tǒng)的微博熱點(diǎn)話題分析算法存在以下兩個(gè)方面的問題:
第一,傳統(tǒng)的微博熱點(diǎn)話題分析方法不關(guān)注搜索結(jié)果的詞語準(zhǔn)確性——傳統(tǒng)方法受限于其本質(zhì)上的割裂詞語之間相互聯(lián)系,因此對于同義詞和一詞多義這兩種對其干擾很大的現(xiàn)象基本無法處理,從而很大程度上影響了用戶體驗(yàn)。由于人類在進(jìn)行敘述時(shí)所采用的文字有很高的隨機(jī)性、不確定性,這使得用戶在面對海量信息進(jìn)行查詢時(shí)經(jīng)常被文本相近而內(nèi)容實(shí)質(zhì)上不相關(guān)的結(jié)果所困擾。微博熱點(diǎn)話題分析必須要考慮搜索結(jié)果的詞語準(zhǔn)確性,搜索結(jié)果必須要考慮到相近詞匯的區(qū)別。
[0005]第二,傳統(tǒng)的微博熱點(diǎn)話題分析方法不關(guān)注搜索結(jié)果的實(shí)時(shí)性——熱點(diǎn)話題分析的結(jié)果的產(chǎn)生時(shí)間對結(jié)果排名沒有影響或者影響很小。然而,微博消息具有很強(qiáng)的實(shí)時(shí)性,是由微博用戶動態(tài)生成的,其內(nèi)容往往涉及實(shí)時(shí)的消息和內(nèi)容,因此微博熱點(diǎn)話題分析方法必須要考慮搜索結(jié)果的實(shí)時(shí)性,搜索結(jié)果的產(chǎn)生時(shí)間必須作為排名的依據(jù)。
[0006]然而,微博熱點(diǎn)話題分析方法相關(guān)領(lǐng)域的研究還比較有限,目前的研究工作主要集中在已知話題的被動數(shù)據(jù)采集,無法保證微博輿情發(fā)現(xiàn)的時(shí)效性。進(jìn)行輿情分析、預(yù)警的工作經(jīng)常需要大量網(wǎng)絡(luò)爬蟲采集回來的海量數(shù)據(jù)的讀入、寫出,傳統(tǒng)的文件存儲或者數(shù)據(jù)庫存儲已經(jīng)滿足不了輿情分析工作的性能需求。
【發(fā)明內(nèi)容】
[0007]本發(fā)明所要解決的技術(shù)問題是提供一種微博熱點(diǎn)話題分析方法,其解決上述技術(shù)問題。
[0008]本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:一種微博熱點(diǎn)話題分析方法,其特征在于,其包括以下步驟:
步驟一,微博采集模塊根據(jù)采集策略,使用網(wǎng)絡(luò)爬蟲與微博第三方api技術(shù)相結(jié)合的方式獲取微博數(shù)據(jù);
步驟二,利用分詞處理技術(shù)從詞庫中調(diào)用關(guān)鍵詞和敏感詞,從微博文本數(shù)據(jù)中分析出關(guān)鍵詞和敏感詞;
步驟三,依據(jù)分析出的關(guān)鍵詞、敏感詞以及情感傾向詞對微博網(wǎng)頁文本數(shù)據(jù)進(jìn)行過濾,存儲過濾記錄;
步驟四,熱點(diǎn)話題模塊通過聚類分析技術(shù)將##與[]符號之間括住的內(nèi)容,標(biāo)記為一個(gè)話題,以統(tǒng)計(jì)微博評論數(shù)和轉(zhuǎn)發(fā)次數(shù)等為依據(jù),分析出當(dāng)前的熱點(diǎn)話題,大大提高了話題分析的準(zhǔn)確性;
步驟五,熱點(diǎn)人物模塊通過聚類分析技術(shù)以分析微博粉絲數(shù)量、評論數(shù)量,確定指定條件的熱點(diǎn)人物;
步驟六,微博預(yù)警模塊從網(wǎng)絡(luò)微博中分析出與關(guān)鍵字和敏感詞有關(guān)的微博信息,及時(shí)為用戶作出預(yù)警通知;
步驟七,分析統(tǒng)計(jì)模塊對系統(tǒng)中分析出的相關(guān)數(shù)據(jù)自動生成簡報(bào),供用于分析使用。
[0009]優(yōu)選地,所述步驟一中采集的數(shù)據(jù)不僅僅包含國內(nèi)的新浪和騰訊微博,還包含國外的twitter微博的數(shù)據(jù)。
[0010]優(yōu)選地,所述步驟二中的關(guān)鍵字除了國家相關(guān)法律法規(guī)所規(guī)定的敏感詞外,用戶自己定義關(guān)鍵詞和敏感詞。
[0011]優(yōu)選地,所述步驟四中對于感興趣的熱點(diǎn)話題不僅可以查看內(nèi)容,還可以查看其來源以及傳播趨勢。
[0012]優(yōu)選地,所述步驟六中預(yù)警通知的發(fā)送通過郵箱、網(wǎng)站提示、手機(jī)途徑發(fā)送。
[0013]優(yōu)選地,所述步驟七中在分析完所需的信息之后,微博系統(tǒng)用戶通過微博賬號與系統(tǒng)綁定。
[0014]優(yōu)選地,所述微博熱點(diǎn)話題分析方法應(yīng)用于微博預(yù)警系統(tǒng),微博預(yù)警系統(tǒng)包括微博采集模塊、微博分析模塊、微博服務(wù)模塊、微博數(shù)據(jù)倉庫。
[0015]本發(fā)明的積極進(jìn)步效果在于:本發(fā)明提出基于時(shí)間判斷的廣度優(yōu)先網(wǎng)頁采集技術(shù)。通過在網(wǎng)頁采集流程中添加時(shí)間分析器,判斷一個(gè)將被采集的頁面中的時(shí)間是否均早于預(yù)設(shè)的時(shí)間點(diǎn),從而決定是否對該頁面只進(jìn)行廣度采集。該方法既避免了采集過早的無用信息,提高了采集效率,又保證了采集的覆蓋率。提出基于凝聚式層次聚類算法用于話題檢測。根據(jù)微博中用語靈活的特點(diǎn),本發(fā)明用聚類分析模型分析出當(dāng)前的熱點(diǎn)話題,大大提高了話題分析的準(zhǔn)確性,提高了檢測效率,提高了話題檢測質(zhì)量。提出一種微博預(yù)警系統(tǒng)實(shí)現(xiàn)微博信息監(jiān)控的方法,本發(fā)明通過微博數(shù)據(jù)采集技術(shù)對互聯(lián)網(wǎng)上的新浪、騰訊、twitter這三大微博系統(tǒng)進(jìn)行數(shù)據(jù)采集,對獲取的海量數(shù)據(jù)進(jìn)行分詞處理,敏感詞處理,文本聚類分析,分析出當(dāng)前的熱點(diǎn)話題,使用戶能夠及時(shí)并且方便的瀏覽最新的微博熱點(diǎn),追蹤微博來源,查看敏感微博,趨勢分析,并且對有危險(xiǎn)情報(bào)的進(jìn)行預(yù)警,最后可以自己定置所關(guān)心的內(nèi)容顯示統(tǒng)計(jì)報(bào)表。本發(fā)明將網(wǎng)頁采集、文本分析和挖掘的技術(shù)應(yīng)用于微博信息輿情分析,研究了網(wǎng)絡(luò)熱點(diǎn)話題的發(fā)現(xiàn)模型、實(shí)現(xiàn)了一個(gè)基于微博社交網(wǎng)絡(luò)的輿情分析系統(tǒng),滿足了當(dāng)前微博輿情分析的需要,填補(bǔ)了一個(gè)重要輿情源挖掘的空白。
【專利附圖】
【附圖說明】
[0016]圖1為本發(fā)明微博熱點(diǎn)話題分析方法的流程圖。
【具體實(shí)施方式】
[0017]下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說明本發(fā)明的技術(shù)方案。
[0018]如圖1所示,本發(fā)明微博熱點(diǎn)話題分析方法包括以下步驟:
步驟一,微博采集模塊根據(jù)采集策略,使用網(wǎng)絡(luò)爬蟲與微博第三方api技術(shù)相結(jié)合的方式獲取微博數(shù)據(jù);
步驟二,利用分詞處理技術(shù)從詞庫中調(diào)用關(guān)鍵詞和敏感詞,從微博文本數(shù)據(jù)中分析出關(guān)鍵詞和敏感詞;
步驟三,依據(jù)分析出的關(guān)鍵詞、敏感詞以及情感傾向詞對微博網(wǎng)頁文本數(shù)據(jù)進(jìn)行過濾,存儲過濾記錄;
步驟四,熱點(diǎn)話題模塊通過聚類分析技術(shù)將##與[]符號之間括住的內(nèi)容,標(biāo)記為一個(gè)話題,以統(tǒng)計(jì)微博評論數(shù)和轉(zhuǎn)發(fā)次數(shù)等為依據(jù),分析出當(dāng)前的熱點(diǎn)話題,大大提高了話題分析的準(zhǔn)確性;
步驟五,熱點(diǎn)人物模塊通過聚類分析技術(shù)以分析微博粉絲數(shù)量、評論數(shù)量,確定指定條件的熱點(diǎn)人物;
步驟六,微博預(yù)警模塊從網(wǎng)絡(luò)微博中分析出與關(guān)鍵字和敏感詞有關(guān)的微博信息,及時(shí)為用戶作出預(yù)警通知;
步驟七,分析統(tǒng)計(jì)模塊對系統(tǒng)中分析出的相關(guān)數(shù)據(jù)自動生成簡報(bào),供用于分析使用。
[0019]上述步驟一中采集的數(shù)據(jù)不僅僅包含國內(nèi)的新浪和騰訊微博,還包含國外的twitter微博的數(shù)據(jù)。
[0020]上述步驟二中,關(guān)鍵字除了國家相關(guān)法律法規(guī)所規(guī)定的敏感詞外,用戶自己可以定義關(guān)鍵詞和敏感詞。
[0021]上述步驟四中對于感興趣的熱點(diǎn)話題不僅可以查看內(nèi)容,還可以查看其來源以及傳播趨勢。
[0022]上述步驟六中預(yù)警通知的發(fā)送可以通過郵箱、網(wǎng)站提示、手機(jī)等多種途徑發(fā)送。
[0023]上述步驟七中在分析完所需的信息之后,微博系統(tǒng)用戶可以通過微博賬號與系統(tǒng)綁定,進(jìn)行相類似于在新浪,騰訊,twitter微博上的一些操作,如關(guān)注,評論,發(fā)表微博等。
[0024]根據(jù)微博信息時(shí)效性強(qiáng),信息更新和傳播速度快,用戶互動性強(qiáng)的特點(diǎn),本發(fā)明設(shè)計(jì)了一種基于時(shí)間判斷的廣度優(yōu)先網(wǎng)頁采集技術(shù)。這種采集技術(shù)的核心思想包括兩個(gè)方面,一是通過微博客各個(gè)網(wǎng)頁之間的鏈接關(guān)系,從網(wǎng)頁中自動獲取鏈接信息,并根據(jù)鏈接自動獲取原始網(wǎng)頁,經(jīng)過這樣不斷循環(huán),采集到整個(gè)微博客中的原始網(wǎng)頁;二是如果一個(gè)頁面信息時(shí)間均早于預(yù)設(shè)的時(shí)間則不進(jìn)行深度采集,只通過這個(gè)頁面進(jìn)行廣度采集。
[0025]本發(fā)明可應(yīng)用于微博預(yù)警系統(tǒng),通過系統(tǒng)用戶接口設(shè)置為高校微博預(yù)警監(jiān)控系統(tǒng),監(jiān)控所有與該高校相關(guān)的微博信息,關(guān)注高校大學(xué)生的熱點(diǎn)話題,熱點(diǎn)人物,對高校相關(guān)的突發(fā)事件及時(shí)的進(jìn)行跟蹤,對指定高校有負(fù)面影響的微博內(nèi)容作出預(yù)警,維護(hù)高校的形象,提高教育質(zhì)量,維護(hù)社會和諧穩(wěn)定。
[0026]本發(fā)明應(yīng)用于的微博預(yù)警系統(tǒng)包括微博采集模塊、微博分析模塊、微博服務(wù)模塊、微博數(shù)據(jù)倉庫等模塊。
[0027](一)微博采集模塊:負(fù)責(zé)對互聯(lián)網(wǎng)上的新浪、騰訊、twitter這三大微博系統(tǒng)進(jìn)行實(shí)時(shí)采集、跟蹤、監(jiān)控,微博采集模塊中的一項(xiàng)關(guān)鍵技術(shù)是智能信息采集技術(shù),采用智能分布式協(xié)同爬蟲,可動態(tài)配置爬蟲服務(wù)器數(shù)量以及爬蟲數(shù)量,在不同的采集需求下動態(tài)增減使用在采集上的計(jì)算資源,通過網(wǎng)頁采集子系統(tǒng)中的爬蟲模塊在Internet上獲取微博信息,可對爬蟲模塊設(shè)置爬蟲的數(shù)量、抓取速度、起始URL、符合采集要求的URL的正則表達(dá)式、爬蟲線程終止條件等約束,來獲取相關(guān)的網(wǎng)頁信息,對獲取的網(wǎng)頁信息通過網(wǎng)頁清洗模塊清除廣告、圖片、版權(quán)說明等噪聲數(shù)據(jù),萃取出相關(guān)網(wǎng)頁中的微博正文、鏈接地址、采集時(shí)間等數(shù)據(jù)。
[0028](二)微博分析模塊:將經(jīng)過微博采集模塊得到的信息,經(jīng)過微博分析模塊進(jìn)行信息去重、傳播鏈分析、趨勢分析等獲取到有價(jià)值的微博情報(bào),實(shí)時(shí)的分析出輿論熱點(diǎn),把握微博情報(bào)的一些動向。微博分析模塊具體包括:
頁面過濾,可對微博網(wǎng)頁進(jìn)行內(nèi)容分析和過濾,自動去除無用信息,精確獲取目標(biāo)內(nèi)容主體信息;
傳播鏈分析,對某一個(gè)熱點(diǎn)話題的來源、轉(zhuǎn)載量、發(fā)布者等相關(guān)信息元素進(jìn)行一段時(shí)間的跟蹤,并最終形成傳播鏈分析圖;
自動分類,根據(jù)用戶定義的關(guān)鍵詞規(guī)則,遍歷掃描微博內(nèi)容,識別出關(guān)鍵詞所在的這些微博并自動分類標(biāo)識,還可以根據(jù)樣本訓(xùn)練得出分類特征向量空間模型,然后根據(jù)微博的特征向量實(shí)現(xiàn)對微博的自動分類標(biāo)識;
多重聚類,采用多重聚類算法,對微博的內(nèi)容進(jìn)行多重聚類分析,對海量的微博信息進(jìn)行智能化的分類處理;
熱點(diǎn)、關(guān)鍵詞發(fā)現(xiàn),采用熱點(diǎn)權(quán)重計(jì)算模型來分析微博熱度,自動發(fā)現(xiàn)微博中的熱點(diǎn)詞匯,幫助用戶直觀地了解網(wǎng)絡(luò)熱點(diǎn);
趨勢分析,對于微博引起的高關(guān)注度事件,可以及時(shí)掌握該微博的爆發(fā)點(diǎn)和事態(tài),提供不同時(shí)段的熱點(diǎn)事件;
傾向性分析,采用文本聚類和褒貶分析技術(shù),對微博的網(wǎng)民評論進(jìn)行聚類分析和褒貶分析,分析和歸納網(wǎng)民的主要觀點(diǎn),并統(tǒng)計(jì)網(wǎng)民的褒貶傾向分布情況;
輿情研判,在以上分析功能的基礎(chǔ)上,進(jìn)行來源分析、真?zhèn)畏治?、歸類分析、指向分析、矯正分析等,從整體上及時(shí)、全面了解和把握各種熱點(diǎn)與輿情動向,靈活應(yīng)對各類社會突發(fā)事件與輿論危機(jī)。
[0029](三)微博服務(wù)模塊,是用戶能夠直觀體驗(yàn)的,能夠清楚的了解到該微博預(yù)警系統(tǒng)的功能,通過用戶的操作更加具體、方便的了解整個(gè)微博的最新熱點(diǎn),并且可以對自己關(guān)注的事項(xiàng)進(jìn)行關(guān)鍵詞設(shè)置,關(guān)鍵詞搜索,及時(shí)獲取需要的一些信息。微博服務(wù)模塊具體包括:
監(jiān)控設(shè)置,可以通過關(guān)鍵詞設(shè)置,重點(diǎn)人物,關(guān)鍵人物設(shè)置,地區(qū)設(shè)置,重點(diǎn)監(jiān)控詞設(shè)置來監(jiān)控微博用戶的相關(guān)信息;
話題追蹤,微博系統(tǒng)根據(jù)從網(wǎng)絡(luò)獲取的微博分析出熱點(diǎn)話題;
熱點(diǎn)人物,微博系統(tǒng)根據(jù)從網(wǎng)絡(luò)獲取的微博分析出熱點(diǎn)人物;
突發(fā)事件,短時(shí)間內(nèi)發(fā)生(24小時(shí)之內(nèi))的在網(wǎng)上引起很大反響的事件;
微博搜索,用戶可以對微博系統(tǒng)抓取的所有微博進(jìn)行搜索,來獲取自己想要的微博數(shù)據(jù);
統(tǒng)計(jì)分析,統(tǒng)計(jì)分析微博系統(tǒng)的相應(yīng)模塊如:標(biāo)注統(tǒng)計(jì),標(biāo)注報(bào)告,話題統(tǒng)計(jì),話題報(bào)告,監(jiān)控詞統(tǒng)計(jì),用戶行為統(tǒng)計(jì);
微博預(yù)警,微博系統(tǒng)根據(jù)用戶設(shè)置的關(guān)鍵詞分析出微博,并在微博預(yù)警頁面顯示;
線上微博,微博系統(tǒng)用戶可以通過這個(gè)模塊進(jìn)行相類似于在新浪,騰訊,twitter微博上的一些操作,如關(guān)注,評論,發(fā)表微博等。
[0030](四)微博數(shù)據(jù)倉庫,能夠存儲海量的非結(jié)構(gòu)化的信息,并采用實(shí)時(shí)動態(tài)索引技術(shù),數(shù)據(jù)的增加、刪除、修改時(shí)快速同步更新索引,無需重建整個(gè)索引以及局部重建索引,即數(shù)據(jù)變化后馬上能檢索出來,保證了信息搜索的實(shí)時(shí)性和有效性,滿足輿情應(yīng)用的核心檢索需求。微博數(shù)據(jù)倉庫具體包括:
數(shù)據(jù)庫存儲服務(wù),其能夠存儲海量的非結(jié)構(gòu)化信息,并能夠隨時(shí)調(diào)取數(shù)據(jù)庫的信息; 數(shù)據(jù)索引服務(wù),采用實(shí)時(shí)動態(tài)索引技術(shù),保證了信息搜索的實(shí)時(shí)性和有效性。
[0031]本發(fā)明微博預(yù)警系統(tǒng)具體的功能如下:
(I)采集微博信息,對互聯(lián)網(wǎng)上的新浪、騰訊、twitter這三大微博系統(tǒng)進(jìn)行數(shù)據(jù)采集,將采集的數(shù)據(jù)送至(2)環(huán)節(jié)進(jìn)行分析。
[0032](2)微博分析,對采集來的信息進(jìn)行信息去重、傳播鏈分析、趨勢分析等。提取出有效的情報(bào)數(shù)據(jù),然后將這個(gè)情報(bào)數(shù)據(jù)傳送至(3)進(jìn)行情報(bào)挖掘與分析。
[0033](3)情報(bào)挖掘,更近一步的對該情報(bào)進(jìn)行信息挖掘,如目標(biāo)的信息、動態(tài)的挖掘,然后將這些情報(bào)通過給(4)和(5)作進(jìn)一步的處理。
[0034](4)微博服務(wù),根據(jù)用戶的需求,通過界面顯示用戶需要得到的信息,用戶可使用的功能有監(jiān)控設(shè)置,話題追蹤,熱點(diǎn)人物,突發(fā)事件,微博搜索,統(tǒng)計(jì)分析,線上微博,微博預(yù)警等功能。
[0035](5)微博數(shù)據(jù)倉庫,將挖掘出的情報(bào)存儲在微博數(shù)據(jù)倉庫中,隨時(shí)等候用戶的搜索和使用,保證信息搜索的實(shí)時(shí)性和有效性。
[0036]本發(fā)明相對于現(xiàn)有技術(shù)的優(yōu)點(diǎn)和有益效果如下:微博采集模塊對互聯(lián)網(wǎng)上的新浪、騰訊、twitter這三大微博系統(tǒng)進(jìn)行數(shù)據(jù)采集,然后將數(shù)據(jù)傳送至微博分析模塊進(jìn)行信息去重、趨勢分析等。提取出有效的信息后,然后將這些情報(bào)通過界面顯示給用戶,用戶可使用的功能有監(jiān)控設(shè)置,話題追蹤,熱點(diǎn)人物,突發(fā)事件,微博搜索,統(tǒng)計(jì)分析,線上微博,微博預(yù)警等功能。用戶在界面的操作上更加的人性化,而且實(shí)現(xiàn)的功能很多,能全方位的對微博系統(tǒng)進(jìn)行監(jiān)控,實(shí)時(shí)的反饋熱點(diǎn)話題,對于一些過激的言論進(jìn)行追蹤和預(yù)警。本發(fā)明采用智能信息采集技術(shù),智能分布式協(xié)同爬蟲,可動態(tài)配置爬蟲服務(wù)器數(shù)量以及爬蟲數(shù)量,在不同的采集需求下動態(tài)增減使用在采集上的計(jì)算資源。系統(tǒng)通過網(wǎng)頁采集子系統(tǒng)中的爬蟲模塊在Internet上獲取微博信息,可對爬蟲模塊設(shè)置爬蟲的數(shù)量、抓取速度、起始URL、符合采集要求的URL的正則表達(dá)式、爬蟲線程終止條件等約束,來獲取相關(guān)的網(wǎng)頁信息。對獲取的網(wǎng)頁,通過網(wǎng)頁清洗模塊清除網(wǎng)頁中的廣告、導(dǎo)航信息、圖片、版權(quán)說明等噪聲數(shù)據(jù),萃取出相關(guān)網(wǎng)頁中的微博正文、鏈接地址、采集時(shí)間等數(shù)據(jù),存儲在數(shù)據(jù)庫中。
[0037]對經(jīng)微博搜索引擎采集到的每條微博數(shù)據(jù)進(jìn)行如下操作:
步驟1-1)數(shù)據(jù)采集到的數(shù)據(jù)主要分兩類數(shù)據(jù)進(jìn)行存儲,一類為用戶數(shù)據(jù)User,另一類為微博數(shù)據(jù)Tweet ;
步驟1-2)使用關(guān)系型數(shù)據(jù)庫存儲User和Tweet數(shù)據(jù),供后續(xù)關(guān)聯(lián)查詢。
[0038]步驟2-1)使用中文分詞技術(shù),對Tweet數(shù)據(jù)中的微博內(nèi)容content進(jìn)行分詞; 步驟2-2)使用全文檢索技術(shù)建立倒排索引,為數(shù)據(jù)分析做好查詢索引;
步驟2-3)對content字段建立索引的同時(shí),提取content中由“#”號和“【】”號括住的內(nèi)容tag ;
步驟2-4)并對該tag字段建立倒排索引;
步驟3-1)建立一個(gè)定時(shí)器程序,每隔I小時(shí)對Tweet數(shù)據(jù)進(jìn)行查詢,統(tǒng)計(jì)出一小時(shí)內(nèi)所有采集到的 tag 數(shù)據(jù),查詢條件為 time=[now()_lh TO now() ]&facet.field=tag ;
步驟3-2)按照tag的數(shù)據(jù)量tag_count進(jìn)行逆序排序,取出前100條tag ;
步驟4-1)遍歷中步驟3-2)取出的100條tag,使用中文分詞技術(shù)進(jìn)行分詞,分詞后的每一項(xiàng)為term ;
步驟4-2)繼續(xù)查詢?nèi)臋z索服務(wù)器。當(dāng)term小于3時(shí),要求所有term都必須匹配,如果term大于3,則要求至少75%的term必須匹配。term數(shù)小于等于3,則查詢條件為(content=terml AND term2 AND term3) &time= [now () -24h TO now ()] ; term 數(shù)大與 3,則查詢條件應(yīng)為(content= (terml AND term2 AND term3) OR (term4 OR term5...) &time= [now () -24h TO now ()];
步驟4-3)使用該方法,查詢出100條tag所對應(yīng)當(dāng)前的微博數(shù)據(jù),然后按照此100條tag對應(yīng)的微博數(shù)t_count進(jìn)行逆序排序,就可以得出100條當(dāng)天的熱點(diǎn)話題了。
[0039]本發(fā)明的優(yōu)點(diǎn)在于:通過聚類分析技術(shù),提高了當(dāng)前微博檢索結(jié)果的精確度。而且分析統(tǒng)計(jì)的計(jì)算的方法簡單高效,實(shí)時(shí)性有了顯著提高,可以及時(shí)的對微博系統(tǒng)進(jìn)行全方位監(jiān)控,實(shí)時(shí)的反饋熱點(diǎn)話題,對于一些過激的言論進(jìn)行智能追蹤和預(yù)警。
[0040]在一個(gè)實(shí)施例中,采集器可以周期性的對微博消息進(jìn)行采集。但是周期性地對所有用戶進(jìn)行采集,這使得采集器效率十分低下,因?yàn)槲⒉┯脩糁泻艽笠徊糠职l(fā)帖周期較長,比如幾天才更新一次,如果當(dāng)這部分用戶很多時(shí),采集器對這部分用戶例如3分鐘采集一次將帶來效率的極大下降。
[0041]本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改型和改變。因此,本發(fā)明覆蓋了落入所附的權(quán)利要求書及其等同物的范圍內(nèi)的各種改型和改變。
【權(quán)利要求】
1.一種微博熱點(diǎn)話題分析方法,其特征在于,所述微博熱點(diǎn)話題分析方法包括以下步驟: 步驟一,微博采集模塊根據(jù)采集策略,使用網(wǎng)絡(luò)爬蟲與微博第三方api技術(shù)相結(jié)合的方式獲取微博數(shù)據(jù); 步驟二,利用分詞處理技術(shù)從詞庫中調(diào)用關(guān)鍵詞和敏感詞,從微博文本數(shù)據(jù)中分析出關(guān)鍵詞和敏感詞; 步驟三,依據(jù)分析出的關(guān)鍵詞、敏感詞以及情感傾向詞對微博網(wǎng)頁文本數(shù)據(jù)進(jìn)行過濾,存儲過濾記錄; 步驟四,熱點(diǎn)話題模塊通過聚類分析技術(shù)將##與[]符號之間括住的內(nèi)容,標(biāo)記為一個(gè)話題,以統(tǒng)計(jì)微博評論數(shù)和轉(zhuǎn)發(fā)次數(shù)等為依據(jù),分析出當(dāng)前的熱點(diǎn)話題,大大提高了話題分析的準(zhǔn)確性; 步驟五,熱點(diǎn)人物模塊通過聚類分析技術(shù)以分析微博粉絲數(shù)量、評論數(shù)量,確定指定條件的熱點(diǎn)人物; 步驟六,微博預(yù)警模塊從網(wǎng)絡(luò)微博中分析出與關(guān)鍵字和敏感詞有關(guān)的微博信息,及時(shí)為用戶作出預(yù)警通知; 步驟七,分析統(tǒng)計(jì)模塊對系統(tǒng)中分析出的相關(guān)數(shù)據(jù)自動生成簡報(bào),供用于分析使用。
2.如權(quán)利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟一中采集的數(shù)據(jù)不僅僅包含國內(nèi)的新浪和騰訊微博,還包含國外的twitter微博的數(shù)據(jù)。
3.如權(quán)利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟二中的關(guān)鍵字除了國家相關(guān)法律法規(guī)所規(guī)定的敏感詞外,用戶自己定義關(guān)鍵詞和敏感詞。
4.如權(quán)利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟四中對于感興趣的熱點(diǎn)話題不僅可以查看內(nèi)容,還可以查看其來源以及傳播趨勢。
5.如權(quán)利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟六中預(yù)警通知的發(fā)送通過郵箱、網(wǎng)站提示、手機(jī)途徑發(fā)送。
6.如權(quán)利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟七中在分析完所需的信息之后,微博系統(tǒng)用戶通過微博賬號與系統(tǒng)綁定。
7.如權(quán)利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述微博熱點(diǎn)話題分析方法應(yīng)用于微博預(yù)警系統(tǒng),微博預(yù)警系統(tǒng)包括微博采集模塊、微博分析模塊、微博服務(wù)模塊、微博數(shù)據(jù)倉庫。
【文檔編號】G06F17/30GK104281607SQ201310284081
【公開日】2015年1月14日 申請日期:2013年7月8日 優(yōu)先權(quán)日:2013年7月8日
【發(fā)明者】肖江, 嚴(yán)時(shí)浪, 肖倫文 申請人:上海銳英軟件技術(shù)有限公司