專利名稱:網(wǎng)絡輿情預測方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡信息安全分析和預測技術(shù),更具體地,尤其涉及一種網(wǎng)絡輿情 預測方法及系統(tǒng)。
背景技術(shù):
近幾年來,隨著信息網(wǎng)絡技術(shù)在世界范圍內(nèi)的極速發(fā)展,網(wǎng)絡媒體已成為是繼 報紙、廣播、電視等大眾傳播方式和人際傳播方式之外的新興傳播勢力,網(wǎng)絡成為反映 社會民意的主要載體之一。2010年7月15日,中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布的 統(tǒng)計報告顯示,截止2010年6月底,中國網(wǎng)民數(shù)量已經(jīng)突破了 4億大關(guān),總量達到了 4.2 億,互聯(lián)網(wǎng)普及率攀升至31.8%,高居世界第一??梢钥闯?,在國內(nèi)越來越多的人聚集 于互聯(lián)網(wǎng)中,獲取并更新互聯(lián)網(wǎng)中的信息?;ヂ?lián)網(wǎng)中的個體可以自由的發(fā)表觀點,并與其他個體的觀點進行交互。網(wǎng)絡中 觀點的宏觀表現(xiàn)可看作是網(wǎng)絡輿情(networkconsensus)。更為嚴格的定義如下網(wǎng)絡輿情是由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對于該事件的 所有認知、態(tài)度、情感和行為傾向的集合。在網(wǎng)絡環(huán)境中,輿情信息的主要載體包括 新聞、BBS、Blog等。網(wǎng)絡輿情具有表達快捷、信息多元化和方式互動等特點,這是傳 統(tǒng)媒體所無法比擬的?;诰W(wǎng)絡內(nèi)容的網(wǎng)絡輿情發(fā)展呈現(xiàn)出以下幾個特點1、突發(fā)性,極短時間內(nèi)網(wǎng)絡中會產(chǎn)生大量的討論;2、話題傳播速度的迅猛 性,話題會經(jīng)過網(wǎng)民很快地傳播到各個網(wǎng)站;3、熱點話題持久性,一般性的熱點話題會 有大量網(wǎng)民反復地參與討論;4、影響范圍廣,網(wǎng)絡輿情在一定程度上影響了人們的日常 生活。網(wǎng)絡輿情的突發(fā)性和快速傳播的特性使其成為了社會輿論的一種快速的反應形 式,網(wǎng)絡輿情已經(jīng)開始對現(xiàn)實社會產(chǎn)生一定的影響,由于網(wǎng)絡的開放性與虛擬性,給互 聯(lián)網(wǎng)監(jiān)管工作帶來了很大的不便。網(wǎng)絡中的個體可隨意表達觀點,如果該觀點是以某一 熱點事件為存在基礎(chǔ),在主觀情緒化的作用下,該觀點會迅速擴散。在現(xiàn)實生活中某些 個體遇到挫折,對社會問題片面認識等等,都會利用網(wǎng)絡得以宣泄。因此在網(wǎng)絡上更容 易出現(xiàn)庸俗、灰色的言論。因此,對網(wǎng)絡輿情的研究是很有必要的。從網(wǎng)絡安全的角度來看,提前預測網(wǎng)絡輿情的發(fā)展趨勢,并對網(wǎng)絡輿情的發(fā)展 加以引導,這對于社會和諧穩(wěn)定有著重要的意義。網(wǎng)絡熱點話題的持續(xù)性決定了這些熱 點話題有一定的時間連續(xù)性,因此從時間的角度出發(fā),以網(wǎng)絡輿情內(nèi)容的數(shù)量為單位對 網(wǎng)絡熱點話題的后續(xù)發(fā)展趨勢進行預測。目前國內(nèi)市場主要的輿情產(chǎn)品具有的功能有1、輿情分析功能。這是輿情產(chǎn)品的核心功能,主要內(nèi)容包括(1)熱點話題發(fā) 現(xiàn)、敏感話題識別,可以根據(jù)新聞出處權(quán)威度、評論數(shù)量、發(fā)言時間密集程度等參數(shù), 識別出給定時間段內(nèi)的熱門話題。利用關(guān)鍵字布控和語義分析,識別敏感話題;(2)話 題傾向性分析。對于每個話題,對每個個體發(fā)表的觀點、傾向性進行分析與統(tǒng)計;(3)主題跟蹤。分析新發(fā)表文章、帖子的話題是否與已有主題相同;(4)自動摘要。對各類 主題能夠自動形成摘要,以報告的形式呈現(xiàn);(5)突發(fā)事件分析。對突發(fā)事件進行跨時 間、跨空間綜合分析,獲知事件發(fā)生發(fā)展的歷程,并預測事件未來發(fā)展的趨勢;(7)報 警系統(tǒng)。對突發(fā)事件、涉及內(nèi)容安全的敏感話題及時發(fā)現(xiàn)并報警;(8)統(tǒng)計報告,根據(jù) 輿情分析引擎處理后的結(jié)果庫生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能, 根據(jù)指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內(nèi)容,提供決策支持。2、網(wǎng)絡信息自動采集。根據(jù)用戶信息需求,設定主題目標,通過網(wǎng)絡頁面之間 的鏈接關(guān)系,從網(wǎng)上自動獲取頁面信息,并且通過鏈接不斷向整個網(wǎng)絡擴展,最終完成 定制范圍的信息收集任務。3、數(shù)據(jù)清理功能。對收集到的信息進行預處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理,數(shù)據(jù) 統(tǒng)計。對于新聞評論,該功能可濾除無關(guān)信息,保存新聞的標題、源地址、發(fā)布時間、 內(nèi)容、點擊次數(shù)、參與評論人、評論內(nèi)容、評論數(shù)量等信息。對于論壇BBS,記錄帖子 的標題、發(fā)言人、發(fā)布時間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等,最后形成格式化信息。綜上,現(xiàn)有的網(wǎng)絡輿情分析方法僅針對已出現(xiàn)的網(wǎng)絡輿情進行分析,并沒有一 種較為有效地對網(wǎng)絡輿情的發(fā)展趨勢進行預測的算法,因此存在這樣一種技術(shù)需求, 即,需要一種快速可靠的網(wǎng)絡輿情預測方法來預測網(wǎng)絡輿情的發(fā)展趨勢。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種網(wǎng)絡輿情預測方法及系統(tǒng),基于本發(fā)明,能夠更為 有效地對網(wǎng)絡輿情的發(fā)展趨勢進行預測。一方面,本發(fā)明一種網(wǎng)絡輿情預測方法,包括預處理步驟,網(wǎng)絡輿情信息進 行預處理,獲取進行預測所需的時間序列;預測模型建立步驟,根據(jù)經(jīng)預處理獲得的所 述時間序列,建立相應的預測模型;預測步驟,基于所述預測模型預測網(wǎng)絡輿情的發(fā)展 趨勢。上述網(wǎng)絡輿情預測方法中,優(yōu)選所述預處理步驟進一步包括數(shù)據(jù)采集及聚類 步驟,采集網(wǎng)絡輿情信息并對所述網(wǎng)絡輿情信息進行聚類;熱點獲取步驟,依據(jù)聚類結(jié) 果,獲取熱點網(wǎng)絡輿情信息;時間序列獲取步驟,對所述熱點網(wǎng)絡輿情信息進行數(shù)據(jù)聚 合,獲得進行預測所需的時間序列。上述網(wǎng)絡輿情預測方法中,優(yōu)選所述預測模型建立步驟中,依據(jù)所述時間序 列,建立的預測模型為逆向誤差傳播人工神經(jīng)網(wǎng)絡模型。上述網(wǎng)絡輿情預測方法中,優(yōu)選所述預測模型建立步驟中,所述逆向誤差傳播 人工神經(jīng)網(wǎng)絡模型包括輸入層、隱蔽層和輸出層;該模型建立步驟進一步包括人工神 經(jīng)網(wǎng)絡結(jié)構(gòu)建立步驟,建立逆向誤差傳播人工神經(jīng)網(wǎng)絡結(jié)構(gòu),確定所述輸入層、所述隱 蔽層、所述輸出層的神經(jīng)元個數(shù);參數(shù)值確定步驟,確定所述時間序列中參數(shù)的取值; 預估算步驟,通過訓練,預估算學習率、動量項兩個參數(shù)的值;檢測步驟,檢驗所述預 測模型的有效性。另一方面,本發(fā)明一種網(wǎng)絡輿情預測系統(tǒng),包括預處理模塊、預測模型建立 模塊和預測模塊。其中,預處理模塊用于網(wǎng)絡輿情信息進行預處理,獲取進行預測所需 的時間序列;預測模型建立模塊用于根據(jù)經(jīng)預處理獲得的所述時間序列,建立相應的預測模型;預測模塊用于基于所述預測模型預測網(wǎng)絡輿情的發(fā)展趨勢。上述網(wǎng)絡輿情預測系統(tǒng),優(yōu)選所述預處理模塊進一步包括數(shù)據(jù)采集及聚類單 元、熱點獲取單元和時間序列獲取單元。其中,數(shù)據(jù)采集及聚類單元用于采集網(wǎng)絡輿情 信息并對所述網(wǎng)絡輿情信息進行聚類;熱點獲取單元用于依據(jù)聚類結(jié)果,獲取熱點網(wǎng)絡 輿情信息;時間序列獲取單元用于對所述熱點網(wǎng)絡輿情信息進行數(shù)據(jù)聚合,獲得進行預 測所需的時間序列。上述網(wǎng)絡輿情預測系統(tǒng),優(yōu)選所述預測模型建立模塊中,依據(jù)所述時間序列, 建立的預測模型為逆向誤差傳播人工神經(jīng)網(wǎng)絡模型。上述網(wǎng)絡輿情預測系統(tǒng),優(yōu)選所述預測模型建立模塊中,所述逆向誤差傳播人 工神經(jīng)網(wǎng)絡模型包括輸入層、隱蔽層和輸出層;該預測模型建立模塊進一步包括人工 神經(jīng)網(wǎng)絡結(jié)構(gòu)建立單元、參數(shù)值確定單元、預估算單元和檢測單元。其中,人工神經(jīng)網(wǎng) 絡結(jié)構(gòu)建立單元用于建立逆向誤差傳播人工神經(jīng)網(wǎng)絡結(jié)構(gòu),確定所述輸入層、所述隱蔽 層、所述輸出層的神經(jīng)元個數(shù);參數(shù)值確定單元用于確定所述時間序列中參數(shù)的取值; 預估算單元用于通過訓練,預估算學習率、動量項兩個參數(shù)的值;檢測單元用于檢驗所 述預測模型的有效性。相對于現(xiàn)有技術(shù)而言,本發(fā)明具有以下優(yōu)點對于網(wǎng)絡上的各個熱點話題,能 夠在最短的時間預測出其在未來短期內(nèi)(一般為一天)的發(fā)展趨勢,便于通過輿情的引導 手段,繼續(xù)保持那些促進社會穩(wěn)定的話題,而對于那些破壞社會和諧的話題,則要加以 引導,使其逐漸消亡。
圖1為本發(fā)明網(wǎng)絡輿情預測方法實施例的步驟流程圖;圖2是按照本發(fā)明的一個實施方式的基于人工神經(jīng)網(wǎng)絡和時間序列的網(wǎng)絡輿情 預測方法的BP神經(jīng)網(wǎng)絡結(jié)構(gòu)圖;圖3是按照本發(fā)明的一個實施方式的網(wǎng)絡輿情預測方法6組預測值示例;圖4為本發(fā)明網(wǎng)絡輿情預測系統(tǒng)實施例的結(jié)構(gòu)框圖;圖5為本發(fā)明網(wǎng)絡輿情預測系統(tǒng)實施例中,預處理模塊的結(jié)構(gòu)框圖;圖6為本發(fā)明網(wǎng)絡輿情預測系統(tǒng)實施例中,預測模型建立模塊的結(jié)構(gòu)框圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體 實施方式對本發(fā)明作進一步詳細的說明。參照圖1,圖1為本發(fā)明網(wǎng)絡輿情預測方法實施例的步驟流程圖,包括如下步 驟預處理步驟S110,網(wǎng)絡輿情信息進行預處理,獲取進行預測所需的時間序列;預測 模型建立步驟S120,根據(jù)經(jīng)預處理獲得的所述時間序列,建立相應的預測模型;預測步 驟S130,基于所述預測模型預測網(wǎng)絡輿情的發(fā)展趨勢。圖2是按照本發(fā)明的一個實施方式的基于人工神經(jīng)網(wǎng)絡和時間序列的網(wǎng)絡輿情 預測方法的示意流程圖。本發(fā)明的一個實施方式涉及對網(wǎng)絡輿情的預測,其預測對象 為未來一段時間內(nèi)網(wǎng)絡中出現(xiàn)的關(guān)于這個主題的新聞、論壇帖子、博客等(以下統(tǒng)稱為“帖子”)的數(shù)量,其中只包括主帖子數(shù)量,并不包括回復數(shù)量。
由于網(wǎng)絡上的各種文字信息數(shù)量眾多而且沒有規(guī)律,因此首先要對所有的帖子進行預處理,將其轉(zhuǎn)換為預測所需的時間序列的格式。
本算法的實驗環(huán)節(jié)采用的數(shù)據(jù)來源于論壇。
預處理過程分為以下三個步驟
l、對網(wǎng)絡上的帖子進行聚類。
由于單個帖子在時間上具有突發(fā)性,不具有普遍的規(guī)律,因此需要對網(wǎng)絡上所有討論同一個話題的帖子總量進行預測。
聚類過程就是將所有描述同一個話題的帖子聚合到同一個類別中。
聚類的方法可采用現(xiàn)有技術(shù),比如參考文獻2(參考文獻2文檔聚類綜述,劉遠超,王曉龍,徐志明等. 《中文信息學報》.2005,20(3)55—62)中的技術(shù)。
2、獲得熱點話題。
網(wǎng)絡上的帖子數(shù)量很多,并且所對應的話題也不盡相同,而大部分話題涉及的范圍很小,持續(xù)時間很短,對于這種話題沒有預測的必要,因此需要找到網(wǎng)絡中的熱點話題進行預測。
具體的獲取熱點話題的方法可采用現(xiàn)有技術(shù),比如參考文獻3(參考文獻3流量內(nèi)容詞語相關(guān)度的網(wǎng)絡熱點話題提取,周亞東,孫欽東,管曉宏等. 《西安交通大學學報》.2007.4l(10)1142—1145,1150)中的技術(shù)。
3、對網(wǎng)絡上的帖子進行數(shù)據(jù)聚合。
由于本發(fā)明的一個實施方式使用時間序列模型進行預測,其輸入為時間序列,因此需要將網(wǎng)絡上的帖子進行數(shù)據(jù)聚合,得到一個時間序列,每個時刻的值是到當前時刻為止網(wǎng)絡上所有關(guān)于某個話題的帖子及其回復的總量。
數(shù)據(jù)聚合的方法可采用現(xiàn)有技術(shù)。
上述預處理過程得到的結(jié)果就是使用基于人工神經(jīng)網(wǎng)絡和時間序列模型預測所需要的時間序列。
假設,前期的預處理工作得到的時間序列為[X真],X真一X(t),t—o,l,2…。
時間序列的現(xiàn)在或未來值在時間序列分析中被認為與其前面的m個值之間有某種函數(shù)關(guān)系,即X。+,一F(X。,Xn一1, …,Xn—m+,)。
因此,基于人工神經(jīng)網(wǎng)絡和時間序列的網(wǎng)絡輿情預測算法就是來擬合函數(shù)F,從而找出Xn/1和X。,Xn一1, …,Xn—m+,之間的關(guān)系,然后用于該時間序列未來值的預測。
根據(jù)本發(fā)明的一個實施方式,優(yōu)選采用三層BP神經(jīng)網(wǎng)絡對時間序列進行預測。
在上述預處理過程的基礎(chǔ)上,根據(jù)預處理過程得到的時間序列,采用上述三層結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡模型進行預測。
一般情況下,三層BP神經(jīng)網(wǎng)絡的結(jié)構(gòu)如圖l所示,分別是輸入層、輸出層和隱蔽層。
每一層內(nèi)神經(jīng)元的輸出均傳達到下一層,這種傳送由聯(lián)接權(quán)來達到增強、減弱或抑制這些輸出地作用。
除了輸入層的神經(jīng)元外,隱蔽層和輸出層神經(jīng)元的淨輸入是前一層神經(jīng)元輸出的加權(quán)和。
每個神經(jīng)元均由它的輸入、活化函數(shù)和閡值來決定它的活化程度。
為了便于描述,輸入神經(jīng)元以i編號,隱蔽層神經(jīng)元以j編號,輸出層神經(jīng)元以k編號。
其他需要說明的符號如下
0j輸入層第i個神經(jīng)元的輸出;
0j隱蔽層第j個神經(jīng)元的輸出;
0+輸出層第k個神經(jīng)元你的輸出;
wji輸入層第i個神經(jīng)元與隱蔽層第j個神經(jīng)元之間的聯(lián)接權(quán)重;
wb隱蔽層第j個神經(jīng)元與輸出層第k個神經(jīng)元之間的聯(lián)接權(quán)重;
權(quán)利要求
1.一種網(wǎng)絡輿情預測方法,其特征在于,包括預處理步驟,對網(wǎng)絡輿情信息進行預處理,獲取進行預測所需的時間序列; 預測模型建立步驟,根據(jù)經(jīng)預處理獲得的所述時間序列,建立相應的預測模型; 預測步驟,基于所述預測模型預測網(wǎng)絡輿情的發(fā)展趨勢。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡輿情預測方法,其特征在于,所述預處理步驟進一步包括數(shù)據(jù)采集及聚類步驟,采集網(wǎng)絡輿情信息并對所述網(wǎng)絡輿情信息進行聚類; 熱點獲取步驟,依據(jù)聚類結(jié)果,獲取熱點網(wǎng)絡輿情信息;時間序列獲取步驟,對所述熱點網(wǎng)絡輿情信息進行數(shù)據(jù)聚合,獲得進行預測所需的 時間序列。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡輿情預測方法,其特征在于,所述預測模型建立步驟 中,依據(jù)所述時間序列,建立的預測模型為逆向誤差傳播人工神經(jīng)網(wǎng)絡模型。
4.根據(jù)權(quán)利要求3所述的網(wǎng)絡輿情預測方法,其特征在于,所述預測模型建立步驟 中,所述逆向誤差傳播人工神經(jīng)網(wǎng)絡模型包括輸入層、隱蔽層和輸出層;該模型建立步 驟進一步包括人工神經(jīng)網(wǎng)絡結(jié)構(gòu)建立步驟,建立逆向誤差傳播人工神經(jīng)網(wǎng)絡結(jié)構(gòu),確定所述輸入 層、所述隱蔽層、所述輸出層的神經(jīng)元個數(shù);參數(shù)值確定步驟,確定所述時間序列中參數(shù)的取值; 預估算步驟,通過訓練,預估算學習率、動量項兩個參數(shù)的值; 檢測步驟,檢驗所述預測模型的有效性。
5.—種網(wǎng)絡輿情預測系統(tǒng),其特征在于,包括預處理模塊,用于網(wǎng)絡輿情信息進行預處理,獲取進行預測所需的時間序列; 預測模型建立模塊,用于根據(jù)經(jīng)預處理獲得的所述時間序列,建立相應的預測模型;預測模塊,用于基于所述預測模型預測網(wǎng)絡輿情的發(fā)展趨勢。
6.根據(jù)權(quán)利要求5所述的網(wǎng)絡輿情預測系統(tǒng),其特征在于,所述預處理模塊進一步包括數(shù)據(jù)采集及聚類單元,用于采集網(wǎng)絡輿情信息并對所述網(wǎng)絡輿情信息進行聚類; 熱點獲取單元,用于依據(jù)聚類結(jié)果,獲取熱點網(wǎng)絡輿情信息; 時間序列獲取單元,用于對所述熱點網(wǎng)絡輿情信息進行數(shù)據(jù)聚合,獲得進行預測所 需的時間序列。
7.根據(jù)權(quán)利要求6所述的網(wǎng)絡輿情預測系統(tǒng),其特征在于,所述預測模型建立模塊 中,依據(jù)所述時間序列,建立的預測模型為逆向誤差傳播人工神經(jīng)網(wǎng)絡模型。
8 .根據(jù)權(quán)利要求7所述的網(wǎng)絡輿情預測系統(tǒng),其特征在于,所述預測模型建立模塊 中,所述逆向誤差傳播人工神經(jīng)網(wǎng)絡模型包括輸入層、隱蔽層和輸出層;該預測模型建 立模塊進一步包括人工神經(jīng)網(wǎng)絡結(jié)構(gòu)建立單元,用于建立逆向誤差傳播人工神經(jīng)網(wǎng)絡結(jié)構(gòu),確定所述 輸入層、所述隱蔽層、所述輸出層的神經(jīng)元個數(shù);參數(shù)值確定單元,用于確定所述時間序列中參數(shù)的取值;預估算單元,用于通過訓練,預估算學習率、動量項兩個參數(shù)的值; 檢測單元,用于檢驗所述預測模型的有效性。
全文摘要
本發(fā)明公開了一種網(wǎng)絡輿情預測方法及系統(tǒng)。該方法包括對網(wǎng)絡輿情信息進行預處理,獲取進行預測所需的時間序列;根據(jù)經(jīng)預處理獲得的所述時間序列,建立相應的預測模型;基于所述預測模型預測網(wǎng)絡輿情的發(fā)展趨勢。本發(fā)明對于網(wǎng)絡上的各個熱點話題,能夠在最短的時間內(nèi)預測出其在未來短期內(nèi)的發(fā)展趨勢,便于通過輿情的引導手段,繼續(xù)保持那些促進社會穩(wěn)定的話題,而對于那些破壞社會和諧的話題,則要加以引導,使其逐漸消亡。
文檔編號G06F17/30GK102012929SQ201010568299
公開日2011年4月13日 申請日期2010年11月26日 優(yōu)先權(quán)日2010年11月26日
發(fā)明者劉云, 司夏萌, 張彥超, 張振江, 程軍軍, 程輝 申請人:北京交通大學