專利名稱:網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法
技術(shù)領(lǐng)域:
本發(fā)明屬于智能信息處理領(lǐng)域,涉及一種實(shí)時(shí)的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法。
背景技術(shù):
當(dāng)前互聯(lián)網(wǎng)已深入千家萬戶,具有使用面廣、傳播面廣、傳播迅速、不受時(shí)空限制等特征,能象放大鏡一樣將信息影響力成倍放大,尤其是一些負(fù)面的焦點(diǎn)事件、敏感話題, 在互聯(lián)網(wǎng)上一出現(xiàn)可能會(huì)一夕之間家喻戶曉,給相關(guān)主體造成信任缺失、品牌失信、形象受損、民眾反對(duì)等不利影響,因此需要開發(fā)高效的網(wǎng)絡(luò)輿情自動(dòng)處理技術(shù),幫助輿情工作者及時(shí)采取措施有效疏導(dǎo)網(wǎng)民情緒、引導(dǎo)輿論走向。我們認(rèn)為,為實(shí)現(xiàn)以上目標(biāo),對(duì)網(wǎng)絡(luò)輿情的處理模式應(yīng)由“事后危機(jī)處理”轉(zhuǎn)變?yōu)椤笆虑拔C(jī)預(yù)警”,而只有實(shí)現(xiàn)對(duì)網(wǎng)上熱點(diǎn)話題發(fā)展趨勢(shì)的正確判斷才能真正實(shí)現(xiàn)輿情危機(jī)的自動(dòng)預(yù)警。在輿情危機(jī)預(yù)警方面,現(xiàn)有技術(shù)手段還不多,現(xiàn)有輿情處理系統(tǒng)的一般做法是將熱點(diǎn)話題或敏感話題的排行與變化情況以日?qǐng)?bào)、周報(bào)或快報(bào)等方式提交給輿情工作者,然后由人工來作預(yù)警判斷,如Goonie網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)、TRS互聯(lián)網(wǎng)輿情管理系統(tǒng)、方正智思互聯(lián)網(wǎng)信息監(jiān)控分析系統(tǒng)等。在自動(dòng)預(yù)警技術(shù)方面,李弼程等在論文“基于直覺模糊推理的網(wǎng)絡(luò)輿情預(yù)警方法”(計(jì)算機(jī)應(yīng)用研究,2010年第9期)中提出借鑒戰(zhàn)場(chǎng)態(tài)勢(shì)分析思想, 選取了適合計(jì)算機(jī)實(shí)現(xiàn)的七個(gè)網(wǎng)絡(luò)輿情態(tài)勢(shì)分析模式對(duì)預(yù)警等級(jí)進(jìn)行判斷。但這種方法需要的多個(gè)參數(shù)不易獲得,需人工干預(yù),無法完全自動(dòng)化實(shí)現(xiàn)。丁菊玲等在論文“一種面向網(wǎng)絡(luò)輿情危機(jī)預(yù)警的觀點(diǎn)柔性挖掘模型”(情報(bào)雜志,2009年第10期)中初步探討了構(gòu)建觀點(diǎn)柔性挖掘模型,模擬危機(jī)中觀點(diǎn)演化過程來預(yù)測(cè)觀點(diǎn)演化趨勢(shì),以實(shí)現(xiàn)輿情危機(jī)預(yù)警的可行性。張玨在碩士論文“網(wǎng)絡(luò)輿情預(yù)測(cè)模型與平臺(tái)的研究”(北京交通大學(xué),2009年)中提出采用經(jīng)濟(jì)領(lǐng)域的預(yù)測(cè)模型,如ARIMA模型和BP神經(jīng)網(wǎng)絡(luò)模型,來對(duì)網(wǎng)絡(luò)輿情進(jìn)行預(yù)測(cè)。 以上幾種方法還處于探索階段,還未在實(shí)際的網(wǎng)絡(luò)輿情處理系統(tǒng)中得到應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有輿情處理技術(shù)的不足,提出一種基于網(wǎng)絡(luò)輿情內(nèi)容和網(wǎng)絡(luò)輿情演化規(guī)律的網(wǎng)絡(luò)輿情發(fā)展趨勢(shì)挖掘與危機(jī)自動(dòng)預(yù)警方法。網(wǎng)絡(luò)輿情具有突發(fā)性、破壞性、緊迫性等特點(diǎn),面對(duì)海量的網(wǎng)絡(luò)輿情信息,如何在最短的時(shí)間內(nèi)作出分析、研判與決策是至關(guān)重要的?,F(xiàn)有的基于統(tǒng)計(jì)的熱點(diǎn)詞提取方法需要大量的在線計(jì)算,而基于文本分類/聚類的熱點(diǎn)話題發(fā)現(xiàn)方法計(jì)算復(fù)雜度過高,直接導(dǎo)致系統(tǒng)實(shí)時(shí)性難以保證。本發(fā)明的基本思想是盡量減少在線計(jì)算量,并采用新的熱點(diǎn)話題檢測(cè)、跟蹤與趨勢(shì)挖掘方法,實(shí)現(xiàn)網(wǎng)絡(luò)輿情危機(jī)的實(shí)時(shí)預(yù)警。本發(fā)明的技術(shù)方案分為離線部分和在線部分兩塊。離線部分以一個(gè)大規(guī)模網(wǎng)絡(luò)語料庫(時(shí)間跨度6年的200萬篇新浪網(wǎng)頁新聞)和一個(gè)輿情語料庫(從天涯論壇采集整理)為依托,采用統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)方法,分別獲取非主題詞庫和趨勢(shì)挖掘規(guī)則庫,為網(wǎng)絡(luò)熱點(diǎn)詞提取和熱點(diǎn)話題趨勢(shì)挖掘提供支撐。在線部分首先將實(shí)時(shí)采集的輿情信息進(jìn)行預(yù)處理, 提取純文本信息,然后在非主題詞庫支持下,采用兩級(jí)過濾方法快速提取出熱點(diǎn)詞。熱點(diǎn)詞提取后,采用基于共詞分析的詞聚類方法獲取熱點(diǎn)話題,接著計(jì)算連續(xù)時(shí)段熱點(diǎn)話題之間的相似度,量化熱點(diǎn)話題隨時(shí)間推移而產(chǎn)生的變化情況,實(shí)現(xiàn)熱點(diǎn)話題的自動(dòng)跟蹤。最后在趨勢(shì)挖掘規(guī)則庫支持下,引入模糊推理技術(shù)對(duì)熱點(diǎn)話題進(jìn)行趨勢(shì)挖掘操作,獲取反映輿情未來發(fā)展方向的趨勢(shì)信息,若滿足預(yù)警條件則進(jìn)行自動(dòng)報(bào)警,輔助輿情工作者作出輿情危機(jī)處置決策。本發(fā)明的技術(shù)方案可解決現(xiàn)有的基于在線統(tǒng)計(jì)的熱點(diǎn)詞獲取方法在面對(duì)海量網(wǎng)絡(luò)文本時(shí)效率不高的問題,可解決現(xiàn)有的基于文本分類/聚類的熱點(diǎn)話題發(fā)現(xiàn)方法計(jì)算復(fù)雜度過高的問題,同時(shí)可實(shí)現(xiàn)熱點(diǎn)話題的自動(dòng)跟蹤和自動(dòng)預(yù)警,以減輕輿情工作者的工作量。本發(fā)明提出的方法經(jīng)過試驗(yàn)被證明可靠有效,可在輿情信息采集下載后的3分鐘內(nèi)完成對(duì)熱點(diǎn)話題的檢測(cè)與趨勢(shì)挖掘,并給出輿情警示信息。
圖1為本發(fā)明流程框圖。圖2為熱點(diǎn)詞提取流程圖。圖3為熱點(diǎn)話題發(fā)現(xiàn)流程圖。圖4為熱點(diǎn)話題熱度變化語言值隸屬函數(shù)圖。圖5為置信度語言值隸屬函數(shù)圖。圖6為熱點(diǎn)話題跟蹤與趨勢(shì)挖掘流程圖。圖7a是熱點(diǎn)話題趨勢(shì)圖。圖7b是輿情危機(jī)預(yù)警圖。
具體實(shí)施例方式為更好理解本發(fā)明的技術(shù)方案,以下結(jié)合附圖詳細(xì)說明本發(fā)明的實(shí)施方式,本發(fā)明總的流程框圖見圖1。(1)基于統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)的非主題詞庫和趨勢(shì)挖掘規(guī)則庫獲取。(2)基于兩級(jí)過濾的網(wǎng)絡(luò)輿情熱點(diǎn)詞快速提取。(3)基于共詞分析和詞聚類的網(wǎng)絡(luò)輿情熱點(diǎn)話題檢測(cè)。(4)基于連續(xù)時(shí)段熱點(diǎn)話題相似度計(jì)算的熱點(diǎn)話題自動(dòng)跟蹤。(5)基于模糊推理的網(wǎng)絡(luò)輿情趨勢(shì)知識(shí)挖掘。(6)基于多媒體展示技術(shù)的網(wǎng)絡(luò)輿情危機(jī)自動(dòng)預(yù)警。1.輿情熱點(diǎn)詞獲取是輿情信息處理的基礎(chǔ)步驟,現(xiàn)有的輿情熱點(diǎn)詞獲取方法主要是識(shí)別的方法,本發(fā)明采用兩級(jí)過濾方法(見附圖2),分為以下幾個(gè)步驟
(1)對(duì)輿情文本進(jìn)行預(yù)處理、分詞與詞性標(biāo)注之后,獲取輿情文本詞語序列;
(2)停用詞過濾,即將輿情文本詞語序列中的停用詞刪除掉。停用詞表采用如下方法構(gòu)建離線分析一個(gè)大規(guī)模網(wǎng)絡(luò)語料庫(時(shí)間跨度6年的200萬篇新浪網(wǎng)頁新聞),進(jìn)行分詞與詞性標(biāo)注,提取出并列連詞,連詞,嘆詞,介詞,人稱代詞,處所疑問代詞,時(shí)間疑問代詞,謂詞性疑問代詞,疑問代詞,處所指示代詞,時(shí)間指示代詞,謂詞性指示代詞,指示代詞,代詞, 助詞,語氣詞獲得一個(gè)詞表。然后取哈工大信息檢索實(shí)驗(yàn)室的停用詞表(含767個(gè)詞語與符號(hào))與上述詞表的并集作為停用詞表(含1176個(gè)詞語與符號(hào))。(3)非主題詞過濾,即將輿情文本詞語序列中的非主題詞刪除掉。非主題詞庫采用如下方法構(gòu)建將一個(gè)大規(guī)模網(wǎng)絡(luò)語料庫(時(shí)間跨度6年的200萬篇新浪網(wǎng)頁新聞)按月劃分為72個(gè)子集,提取每一子集內(nèi)的實(shí)詞(動(dòng)詞、名詞、形容詞)并計(jì)算TF*IDF的值,然后用公式(1)計(jì)算每一實(shí)詞的方差。方差體現(xiàn)的是實(shí)詞的分布特征,方差越小,該詞的分布越穩(wěn)定,越不可能成為熱點(diǎn)詞,可將方差小于一個(gè)閾值(0. 07314133)的實(shí)詞作為非主題詞。
權(quán)利要求
1.網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于該方法包括如下步驟(1)基于統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)的非主題詞庫和趨勢(shì)挖掘規(guī)則庫獲??;(2)基于兩級(jí)過濾的網(wǎng)絡(luò)輿情熱點(diǎn)詞快速提取;(3)基于共詞分析和詞聚類的網(wǎng)絡(luò)輿情熱點(diǎn)話題檢測(cè);(4)基于連續(xù)時(shí)段熱點(diǎn)話題相似度計(jì)算的熱點(diǎn)話題自動(dòng)跟蹤;(5)基于模糊推理的網(wǎng)絡(luò)輿情趨勢(shì)知識(shí)挖掘;(6)基于多媒體展示技術(shù)的網(wǎng)絡(luò)輿情危機(jī)自動(dòng)預(yù)警。
2.如權(quán)利要求1所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述非主題詞庫獲取包括如下步驟2-1.計(jì)算語料庫中每一實(shí)詞的分布特征;2-2.將分布穩(wěn)定的實(shí)詞作為非主題詞。
3.如權(quán)利要求2所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述實(shí)詞的分布特征采用詞語的TFX IDF值在全時(shí)段上的方差,分布穩(wěn)定是指方差小于0. 07314133。
4.如權(quán)利要求1所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述趨勢(shì)挖掘規(guī)則庫獲取包括以下步驟4-1.將時(shí)序性輿情語料庫前n-1個(gè)時(shí)間窗口作為預(yù)測(cè)條件,第η個(gè)時(shí)間窗口作為預(yù)測(cè)結(jié)果,構(gòu)成樣本數(shù)據(jù);4-2.采用基于決策樹的示例學(xué)習(xí)算法,獲取趨勢(shì)挖掘規(guī)則。
5.如權(quán)利要求4所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述趨勢(shì)挖掘規(guī)則采用如下形式,置信度的值采用語言值;趨勢(shì)挖掘規(guī)則形式IF-THEN +置信度。
6.如權(quán)利要求1所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述基于兩級(jí)過濾的網(wǎng)絡(luò)輿情熱點(diǎn)詞快速提取包括如下步驟6-1.停用詞過濾;6-2.非主題詞過濾。
7.如權(quán)利要求1所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述基于共詞分析和詞聚類的網(wǎng)絡(luò)輿情熱點(diǎn)話題檢測(cè)包括如下步驟7-1.構(gòu)建熱點(diǎn)詞共現(xiàn)矩陣;7-2.采用蟻群聚類算法實(shí)現(xiàn)熱點(diǎn)詞聚類;7-3.用基于熱點(diǎn)詞類團(tuán)的模糊集合表達(dá)熱點(diǎn)話題。
8.如權(quán)利要求1所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述基于連續(xù)時(shí)段熱點(diǎn)話題相似度計(jì)算的熱點(diǎn)話題自動(dòng)跟蹤包括如下步驟8-1.采用模糊集語義距離計(jì)算方法計(jì)算熱點(diǎn)話題之間的相似度,模糊集語義距離計(jì)算采用ifo^orii距離,并將語義距離映射到一個(gè)語言值集合;8-2.繪制每一熱點(diǎn)話題的熱度變化曲線,對(duì)熱點(diǎn)話題進(jìn)行跟蹤。
9.如權(quán)利要求1所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述基于模糊推理的網(wǎng)絡(luò)輿情趨勢(shì)知識(shí)挖掘包括如下步驟9-1.實(shí)時(shí)采集輿情信息,提取熱點(diǎn)話題;9-2.采用模糊邏輯進(jìn)行推理,獲取熱點(diǎn)話題趨勢(shì)知識(shí)。
10.如權(quán)利要求1所述的網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法,其特征在于所述基于多媒體展示技術(shù)的網(wǎng)絡(luò)輿情危機(jī)自動(dòng)預(yù)警為對(duì)于熱度預(yù)測(cè)為迅速增長(zhǎng)的話題,采用語音、圖形、動(dòng)畫方式給出警示信息。
全文摘要
本發(fā)明涉及一種網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法。本發(fā)明包括非主題詞庫和趨勢(shì)挖掘規(guī)則獲??;網(wǎng)絡(luò)輿情熱點(diǎn)詞提?。痪W(wǎng)絡(luò)輿情熱點(diǎn)話題檢測(cè);熱點(diǎn)話題相似度計(jì)算與自動(dòng)跟蹤;熱點(diǎn)話題趨勢(shì)挖掘;網(wǎng)絡(luò)輿情危機(jī)自動(dòng)預(yù)警。本發(fā)明分為離線技術(shù)和在線技術(shù)兩部分。離線部分采用統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)方法,獲取非主題詞庫和趨勢(shì)挖掘規(guī)則庫。在線部分首先采用兩級(jí)過濾方法快速提取輿情熱點(diǎn)詞;然后采用基于共詞分析的詞聚類方法獲取輿情熱點(diǎn)話題;接著計(jì)算連續(xù)時(shí)段熱點(diǎn)話題的相似度,量化熱點(diǎn)話題隨時(shí)間推移而產(chǎn)生的變化,實(shí)現(xiàn)熱點(diǎn)話題的自動(dòng)跟蹤;最后采用模糊推理技術(shù)挖掘網(wǎng)絡(luò)輿情趨勢(shì)知識(shí),并實(shí)現(xiàn)輿情危機(jī)的自動(dòng)預(yù)警。本發(fā)明可幫助輿情工作者及時(shí)作出輿情危機(jī)處置決策。
文檔編號(hào)G06F17/30GK102194001SQ201110127509
公開日2011年9月21日 申請(qǐng)日期2011年5月17日 優(yōu)先權(quán)日2011年5月17日
發(fā)明者姚金良, 王榮波, 諶志群 申請(qǐng)人:杭州電子科技大學(xué)