一種網(wǎng)絡(luò)輿論趨勢(shì)預(yù)測(cè)分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)信息分析技術(shù)領(lǐng)域,特別是一種網(wǎng)絡(luò)輿論趨勢(shì)預(yù)測(cè)分析方法。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)輿情是以網(wǎng)絡(luò)為載體,以事件為核心,是廣大網(wǎng)民情感、態(tài)度、意見(jiàn)、觀點(diǎn)的表 達(dá),傳播與互動(dòng),以及后續(xù)影響力的集合。隨著信息時(shí)代的發(fā)展與普及,網(wǎng)絡(luò)已滲入到社會(huì) 的各個(gè)層次。截至2014年12月,我國(guó)網(wǎng)民規(guī)模達(dá)6.49億。網(wǎng)民可以通過(guò)多種途徑迅速地從網(wǎng) 絡(luò)上獲取社會(huì)各類信息,并將自己的主觀意見(jiàn)發(fā)布與互聯(lián)網(wǎng)上,與他人進(jìn)行交流。通過(guò)這種 快速以及廣泛的信息交流,事件得以擴(kuò)張形成輿情。特別是微博的發(fā)展,增加了社會(huì)事件的 透明度,加快了熱點(diǎn)事件的傳播速度。在這種輿論自由的環(huán)境下,不良的謠言或者攻擊性的 評(píng)論很容易激發(fā)社會(huì)矛盾,進(jìn)一步導(dǎo)致重大社會(huì)事件,因此輿情監(jiān)控顯得尤為重要。
[0003] 輿情監(jiān)控能幫助有關(guān)部門(mén)及時(shí)了解熱點(diǎn)輿情信息,提高對(duì)于輿情的應(yīng)對(duì)能力,根 據(jù)輿情發(fā)展趨勢(shì)采取相應(yīng)措施避免網(wǎng)絡(luò)暴力帶來(lái)的負(fù)面影響,從而構(gòu)建和諧的網(wǎng)絡(luò)言論環(huán) 境。
[0004] 目前國(guó)內(nèi)市場(chǎng)主要的輿情產(chǎn)品具有的功能有:熱點(diǎn)識(shí)別能力、傾向性分析與統(tǒng)計(jì)、 主題跟蹤、信息自動(dòng)摘要功能、趨勢(shì)分析、突發(fā)事件分析、統(tǒng)計(jì)報(bào)告等。
[0005] 趨勢(shì)分析是在歷史輿情發(fā)展的基礎(chǔ)上對(duì)未來(lái)發(fā)展進(jìn)行預(yù)測(cè)。目前有效的預(yù)測(cè)方 法包括大致3類:
[0006] 1)通過(guò)輿情的歷史數(shù)據(jù)預(yù)測(cè)熱點(diǎn)的爆發(fā)。
[0007] 2)對(duì)歷史事件進(jìn)行聚類,獲取同類別熱點(diǎn)的發(fā)展變化趨勢(shì)。
[0008] 3)對(duì)輿論數(shù)進(jìn)行數(shù)據(jù)挖掘如時(shí)間序列分析、人工神經(jīng)網(wǎng)絡(luò)等,預(yù)測(cè)未來(lái)輿論數(shù)。
[0009] 這些方法在一定程度上能夠預(yù)測(cè)輿情的發(fā)展,但也存在各自的局限性。前兩種方 法對(duì)于熱點(diǎn)的爆發(fā)能夠有預(yù)見(jiàn)性,但是對(duì)于特定輿情的未來(lái)發(fā)展趨勢(shì)并不能做出解釋。類 二的分析也只是考慮了單純的時(shí)間序列,并沒(méi)有結(jié)合考慮影響輿論發(fā)展的推動(dòng)因素。同時(shí) 均方誤差最小的判斷標(biāo)準(zhǔn)也不適用于預(yù)測(cè)輿情的發(fā)展波動(dòng)趨勢(shì)。因此需要一種快速可靠的 網(wǎng)絡(luò)輿情預(yù)測(cè)方法來(lái)預(yù)測(cè)輿情事件的發(fā)展波動(dòng)趨勢(shì)。
[0010]中國(guó)發(fā)明專利申請(qǐng)CN 103198078 A公開(kāi)了一種互聯(lián)網(wǎng)新聞事件報(bào)道趨勢(shì)分析方 法,包括以下步驟:
[0011] (1)根據(jù)配置的新聞事件的特征信息,實(shí)時(shí)采集互聯(lián)網(wǎng)中的新聞信息;
[0012] (2)預(yù)處理所述新聞信息,篩選出發(fā)布時(shí)間在設(shè)置的新聞事件的統(tǒng)計(jì)周期內(nèi)的新 聞信息;
[0013] (3)分析篩選出的新聞信息的征文信息,得到新聞信息的主題及主題信息;所述主 題包括存在主題信息的主題和不存在主題信息的源主題;
[0014] (4)分析當(dāng)前統(tǒng)計(jì)周期與前一統(tǒng)計(jì)周期的主題,得出當(dāng)前統(tǒng)計(jì)周期與前一統(tǒng)計(jì)周 期之間的相同主題以及各相同主題的關(guān)聯(lián)信息數(shù);
[0015] (5)根據(jù)所述關(guān)聯(lián)信息數(shù),得出轉(zhuǎn)化主題;所述轉(zhuǎn)化主題是指當(dāng)前統(tǒng)計(jì)周期該相同 主題的關(guān)聯(lián)信息數(shù)大于或等于前一統(tǒng)計(jì)周期該相同主題的關(guān)聯(lián)信息數(shù);
[0016] (6)獲取設(shè)定時(shí)間段內(nèi)的源主題和轉(zhuǎn)化主題的關(guān)聯(lián)信息數(shù),并展現(xiàn)源主題和轉(zhuǎn)化 主題的關(guān)聯(lián)信息數(shù)隨時(shí)間的分布趨勢(shì)。
【發(fā)明內(nèi)容】
[0017] 本發(fā)明需要解決的技術(shù)問(wèn)題是提供一種微博輿論趨勢(shì)分析方法。
[0018] 為解決上述的技術(shù)問(wèn)題,本發(fā)明的一種微博輿論趨勢(shì)分析方法,包括以下步驟,
[0019] 步驟S101:確定指標(biāo)體系,爬取網(wǎng)絡(luò)輿論信息,通過(guò)預(yù)處理獲得所需指標(biāo)的時(shí)間序 列;
[0020] 步驟S102:建立模型,在獲取得到的時(shí)間序列上建立候選模型;
[0021] 步驟S103:選取最優(yōu)算法,從建立的候選模型中比較選取最優(yōu)模型;
[0022]步驟S104:網(wǎng)絡(luò)輿論趨勢(shì)預(yù)測(cè)分析,基于選擇的最優(yōu)模型對(duì)網(wǎng)絡(luò)輿論趨勢(shì)進(jìn)行預(yù) 測(cè)分析。
[0023] 進(jìn)一步的,步驟S101還包括以下步驟,
[0024]步驟S1011:確定指標(biāo)體系;
[0025]步驟S1012:爬取網(wǎng)絡(luò)輿論信息,抽樣爬取網(wǎng)絡(luò)輿情數(shù)據(jù);
[0026] 步驟S1013:關(guān)鍵字匹配網(wǎng)絡(luò)輿情;
[0027] 步驟S1014:數(shù)據(jù)預(yù)處理;
[0028]步驟S1015:獲取相關(guān)指標(biāo)時(shí)間序列,整理出符合標(biāo)準(zhǔn)的以每小時(shí)信息為單位的各 指標(biāo)時(shí)間序列:日期、時(shí)點(diǎn)、原創(chuàng)帖評(píng)論數(shù)、原創(chuàng)帖轉(zhuǎn)發(fā)數(shù)、轉(zhuǎn)發(fā)貼評(píng)論數(shù)、轉(zhuǎn)發(fā)貼轉(zhuǎn)發(fā)數(shù)、平 均活躍度、平均影響力、綜合貼數(shù),并將上述指標(biāo)作為建模的自變量。
[0029]更進(jìn)一步的,所述步驟S1015中同時(shí)納入根據(jù)歷史數(shù)據(jù)折算的作者活躍度和影響 力指標(biāo)作為建模的自變量。
[0030] 更進(jìn)一步的,步驟S102中根據(jù)步驟S101獲得所需指標(biāo)的時(shí)間序列作為自變量,另 外將當(dāng)前時(shí)刻為止,根據(jù)關(guān)鍵字索引出的輿論的評(píng)論文數(shù)作為因變量;根據(jù)滯后參數(shù)和選 擇的算法得到相應(yīng)的映射,具體表示如下:
[0031]
[0032]其中n:n個(gè)時(shí)間點(diǎn)m:m個(gè)自變量t:滯后參數(shù)。
[0033]更進(jìn)一步的,所述步驟S102中的算法包括為簡(jiǎn)單線性回歸、決策樹(shù)回歸、隨機(jī)森林 回歸、支持向量機(jī)、bagg i ng回歸算法中的一種。
[0034]更進(jìn)一步的,所述步驟S102中的簡(jiǎn)單線性回歸、決策樹(shù)回歸、隨機(jī)森林回歸、支持 向量機(jī)、bagg ing回歸算法中引入MVE來(lái)作為算法選擇的判斷標(biāo)準(zhǔn)。
[0035]更進(jìn)一步的,所述步驟S103中選擇隨機(jī)森林回歸算法建立的模型為最優(yōu)模型。
[0036]更進(jìn)一步的,所述步驟S102中隨機(jī)森林回歸算法中采取基尼不純度作為隨機(jī)森林 節(jié)點(diǎn)分割的標(biāo)準(zhǔn)。
[0037] 進(jìn)一步的,步驟S103之后還包括步驟S104模型修正,當(dāng)有新的時(shí)點(diǎn)數(shù)據(jù)出現(xiàn)時(shí),可 將其納入指標(biāo)體系作為參數(shù),進(jìn)行模型修正。
[0038]采用上述方法后,本發(fā)明活躍度與影響力作為間接獲取的指標(biāo),能從側(cè)面上反映 輿情事件的擴(kuò)張潛能,對(duì)預(yù)測(cè)有較大幫助。滯后參數(shù)的可調(diào)性能夠靈活的適應(yīng)實(shí)際需求,同 時(shí)引入MVE(平均誤差方差)來(lái)作為模型選擇的判斷標(biāo)準(zhǔn),提高了對(duì)特定輿情發(fā)展趨勢(shì)波動(dòng) 的預(yù)測(cè)能力。最終,可通過(guò)新的數(shù)據(jù)對(duì)模型進(jìn)行修正,為長(zhǎng)期追蹤預(yù)測(cè)創(chuàng)造了可能。
【附圖說(shuō)明】
[0039]下面將結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
[0040]圖1為本發(fā)明一種網(wǎng)絡(luò)輿論趨勢(shì)預(yù)測(cè)分析方法的流程圖。
[0041 ]圖2為本發(fā)明建立最優(yōu)模型的選擇過(guò)程。
[0042]圖3a為本發(fā)明通過(guò)簡(jiǎn)單線性回歸算法模擬得到的走勢(shì)圖。
[0043]圖3b為本發(fā)明通過(guò)隨機(jī)森林算法模擬得到的走勢(shì)圖。
[0044]圖3c為本發(fā)明通過(guò)bagging回歸算法模擬得到的走勢(shì)圖。
[0045]圖3d為本發(fā)明通過(guò)決策樹(shù)回歸算法模擬得到的走勢(shì)圖。
[0046]圖3e為本發(fā)明通過(guò)支持向量機(jī)算法模擬得到的走勢(shì)圖。
[0047]圖4a為本發(fā)明隨機(jī)森林回歸算法中采取基尼不純度作為隨機(jī)森林節(jié)點(diǎn)分割標(biāo)準(zhǔn) 的示意圖。
[0048]圖4b為本發(fā)明將新時(shí)點(diǎn)數(shù)據(jù)納入指標(biāo)體系進(jìn)行模型修正的示意圖。
【具體實(shí)施方式】
當(dāng)前第1頁(yè)
1 
2