在進(jìn)行信息分析和發(fā)布的時(shí)候,人們通常不清楚要發(fā)布什么內(nèi)容才能引起讀者的興趣,讀者對于哪種類型的具體信息內(nèi)容具有較高的傳播熱情。例如:明天要開記者招待會(huì)了,記者和觀眾會(huì)問哪些相關(guān)的主題;在新聞門戶、社交媒體平臺(tái)上,哪些主動(dòng)設(shè)置的議程會(huì)成為傳播的熱點(diǎn);特定時(shí)間,哪些主題會(huì)成為當(dāng)前的輿論熱點(diǎn);對于特定人物,民眾經(jīng)常關(guān)注和討論該人物的什么事項(xiàng)。對于這類信息的預(yù)測通常依賴于人的知識(shí)與經(jīng)驗(yàn),現(xiàn)提出通過計(jì)算機(jī)技術(shù)進(jìn)行大數(shù)據(jù)的計(jì)算,幫助預(yù)測針對某個(gè)時(shí)間、對象、部門、人物、事件預(yù)測什么主題會(huì)變成人們關(guān)注、討論和傳播的輿論熱點(diǎn)。
背景技術(shù):
針對上述需求,現(xiàn)有的預(yù)測方法通常預(yù)測方法為人工的預(yù)測方案,其過程和結(jié)果嚴(yán)重依賴用戶的知識(shí)與經(jīng)驗(yàn),準(zhǔn)確性及可重復(fù)性存在不穩(wěn)定狀態(tài)。因此本發(fā)明提出一種基于大數(shù)據(jù)的輿論熱點(diǎn)預(yù)測方法,幫助預(yù)測在某個(gè)時(shí)間節(jié)點(diǎn)對于輿論熱點(diǎn)進(jìn)行預(yù)測,以便做出針對性的議程設(shè)置和準(zhǔn)備應(yīng)對措施。本發(fā)明涉及信息傳播、計(jì)算機(jī)基數(shù)、大數(shù)據(jù)挖掘算法、用戶內(nèi)容傾向模型建模。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明說要解決的技術(shù)問題是:人們?nèi)绾瓮ㄟ^大數(shù)據(jù)分析發(fā)現(xiàn)用戶信息需求和信息傳播規(guī)律,并預(yù)測某個(gè)主題會(huì)成為輿論熱點(diǎn)。
預(yù)測的對象包含兩種:一種是通過大數(shù)據(jù)分析從海量歷史數(shù)據(jù)中發(fā)掘主題,對于歷史數(shù)據(jù)中抽取出的主題成為輿論熱點(diǎn)的可能性進(jìn)行預(yù)測,判斷該主題在某個(gè)時(shí)間節(jié)點(diǎn)或者時(shí)間段是否可以成為輿論熱點(diǎn);另外一種是在當(dāng)前主動(dòng)確定的主題,根據(jù)用戶信息需求模型、信息傳播模式的關(guān)聯(lián)關(guān)系,通過對歷史數(shù)據(jù)的大數(shù)據(jù)挖掘分析,來計(jì)算該主題與用戶的內(nèi)容傾向和信息傳播規(guī)律的匹配程度,最終判斷該主題是否能夠在某個(gè)時(shí)間節(jié)點(diǎn)或者時(shí)間段成為輿論熱點(diǎn)。
本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案是:
1.構(gòu)建大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),利用爬蟲技術(shù)、文件格式解析、數(shù)據(jù)庫及其他數(shù)據(jù)采集技術(shù),對信息和信息傳播數(shù)據(jù)進(jìn)行采集、去重、格式解析、并結(jié)構(gòu)化存儲(chǔ)。
2.利用語義分析技術(shù)對數(shù)據(jù)進(jìn)行分詞、詞頻統(tǒng)計(jì)、情感計(jì)算、主題抽取等預(yù)處理過程。
3.通過統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、時(shí)間序列分析、聚類、分類分析等大數(shù)據(jù)挖掘方法,分析歷史數(shù)據(jù)中用戶對于內(nèi)容的需求偏好、輿論熱點(diǎn)的傳播特征、內(nèi)容特征和時(shí)間特征,用戶情感指數(shù)等維度,并建立大數(shù)據(jù)分析模型,模型名稱為用戶內(nèi)容傾向分析模型。
4.在第3步中,對預(yù)處理過的歷史數(shù)據(jù)進(jìn)行挖掘,通過時(shí)間序列分析,將歷史相同時(shí)間節(jié)點(diǎn)和時(shí)間段的主題進(jìn)行統(tǒng)計(jì)和聚類,得出一定時(shí)間節(jié)點(diǎn)和時(shí)間段內(nèi)具有較高傳播熱度的主題,并與用戶內(nèi)容傾向的時(shí)間序列進(jìn)行匹配,計(jì)算該主題與用戶的當(dāng)前內(nèi)容傾向及傳播特征匹配度,達(dá)到或者超過一定閾值,則從歷史數(shù)據(jù)中抽取出該主題能夠成為輿論熱點(diǎn)。
5.建立數(shù)據(jù)輸入接口,用戶將主動(dòng)設(shè)置的主題輸入,并對主題進(jìn)行特征詞的輸入。
6.從海量歷史數(shù)據(jù)中進(jìn)行主題特征詞的全文檢索與相似度計(jì)算,抽取歷史數(shù)據(jù)中該主題相似的內(nèi)容、傳播數(shù)據(jù)及信息發(fā)布時(shí)間,通過時(shí)間序列的分析,計(jì)算主題在歷史中特定時(shí)間節(jié)點(diǎn)或者時(shí)間段中周期性傳播的熱度值,如果存在周期性的傳播熱度超過一定閾值現(xiàn)象,則與用戶內(nèi)容傾向和傳播特征進(jìn)行匹配,達(dá)到一定閾值時(shí),再與預(yù)測時(shí)間進(jìn)行匹配,如果時(shí)間重合度超過一定值,判定該主題可以成為輿論熱點(diǎn)。
7.將主動(dòng)設(shè)置的主題與歷史數(shù)據(jù)進(jìn)行相似度計(jì)算,如果在同一類中相似度達(dá)到一定閾值,則與用戶內(nèi)容傾向進(jìn)行匹配,判斷與當(dāng)前用戶的內(nèi)容傾向及傳播特征重合程度,如果超過一定閾值,則判斷該主題會(huì)成為輿論熱點(diǎn)。
8.上一步中判斷相似度較低的主題,抽取歷史數(shù)據(jù)中相關(guān)主題進(jìn)行聚類分析,計(jì)算該主題與歷史主題是否同屬類似主題,并分析在原有主題上是否增加了新的話題和新細(xì)節(jié),如果有,則將新的話題和細(xì)節(jié)與用戶信息內(nèi)容傾向及傳播特征匹配,超過一定閾值,則判定該主題會(huì)成為輿論熱點(diǎn)。
9.對歷史數(shù)據(jù)中用戶的輿論熱點(diǎn)進(jìn)行大跨度時(shí)間的內(nèi)容挖掘,計(jì)算用戶當(dāng)前內(nèi)容傾向的演變規(guī)律及時(shí)間變化規(guī)律,對輸入的主題及其特征詞與用戶內(nèi)容傾向及傳播特征進(jìn)行對比,如果重合度超過一定閾值,則判定該主題能夠成為輿論熱點(diǎn)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
1.本方法克服了現(xiàn)有人工方法效率低下,準(zhǔn)確度嚴(yán)重依賴知識(shí)經(jīng)驗(yàn)的弊端,通過大數(shù)據(jù)及語義分析技術(shù),使用計(jì)算機(jī)算法實(shí)現(xiàn),大大提升速度、效率及其適用場景。
2.本方法通過大數(shù)據(jù)技術(shù),采集和分析海量數(shù)據(jù),極大擴(kuò)大了分析的樣本數(shù)據(jù)及案例,充分利用歷史積累的大量案例,對于用戶內(nèi)容傾向和輿論熱點(diǎn)傳播的各方面特征進(jìn)行挖掘,模型更為科學(xué)合理,分析結(jié)果不斷得到改善,并達(dá)到一定準(zhǔn)確度。
3.本方法通過語義分析技術(shù),對歷史數(shù)據(jù)進(jìn)行細(xì)粒度的切分與主題抽取,對于輿論熱點(diǎn)的更多細(xì)節(jié)予以覆蓋,更為全面的分析輿論熱點(diǎn)中用戶的內(nèi)容傾向,對于預(yù)測的精細(xì)度有更好的掌握。
4、數(shù)據(jù)來源可以用爬蟲技術(shù)及其他數(shù)據(jù)來源,覆蓋網(wǎng)絡(luò)及其他類型數(shù)據(jù),通過計(jì)算機(jī)技術(shù)對數(shù)據(jù)進(jìn)行自動(dòng)采集、智能解析、全能結(jié)構(gòu)化及海量存儲(chǔ),解決了信息源的海量覆蓋及分析案例的充分積累。為預(yù)測的不斷改善儲(chǔ)備數(shù)據(jù)和算法學(xué)習(xí)迭代基礎(chǔ)
5、預(yù)測過程以用戶內(nèi)容傾向模型為基礎(chǔ),結(jié)合輿論熱點(diǎn)傳播中的時(shí)間、內(nèi)容、傳播、用戶反饋等各個(gè)維度,對于輿論熱點(diǎn)的廣泛傳播特征進(jìn)行全面分析,提升預(yù)測判斷的多因素作用及共同作用綜合分析,預(yù)測結(jié)果更為準(zhǔn)確和貼近實(shí)際。
附圖說明
附圖1是本方法的計(jì)算流程圖。
具體實(shí)施方式
本發(fā)明基于大數(shù)據(jù)的輿論熱點(diǎn)預(yù)測方法,其方法要點(diǎn)包括:
a.建立用于供用戶輸入主題和該主題的相關(guān)特征的交互窗口,接受用戶提交的文本或者文件。
b.對于不同的歷史數(shù)據(jù)源,可以由爬蟲、文件格式解析模塊、數(shù)據(jù)庫等對進(jìn)入的海量數(shù)據(jù)進(jìn)行預(yù)處理,并形成結(jié)構(gòu)化的存儲(chǔ),并能夠更多的細(xì)粒度的人工標(biāo)引,引入大數(shù)據(jù)體系架構(gòu),形成海量數(shù)據(jù)的存儲(chǔ),自動(dòng)化的數(shù)據(jù)抽取,流式計(jì)算,提供高性能的輿論熱點(diǎn)預(yù)測。
c.對于歷史數(shù)據(jù)進(jìn)行細(xì)粒度的切分與標(biāo)簽化。預(yù)測的基礎(chǔ)在于用戶的內(nèi)容傾向模型,輿論傳播的時(shí)間特征、內(nèi)容特征、傳播特征,因此數(shù)據(jù)包含信息本身、時(shí)間、發(fā)布平臺(tái)、用戶評論、回復(fù)、點(diǎn)贊、閱讀數(shù)及傳播過程中產(chǎn)生的其他數(shù)據(jù)結(jié)合,如:發(fā)布平臺(tái)的用戶覆蓋、轉(zhuǎn)發(fā)者的傳播力、轉(zhuǎn)發(fā)者的內(nèi)容傾向、平臺(tái)的傳播模式、當(dāng)前用戶整體情緒傾向等。
d.使用統(tǒng)計(jì)和語義分析算法,對歷史數(shù)據(jù)進(jìn)行分詞、詞性識(shí)別、主題抽取,對數(shù)據(jù)進(jìn)行預(yù)處理,形成后繼大數(shù)據(jù)分析基礎(chǔ)。
e.通過時(shí)序分析,內(nèi)容分析、主題挖掘、聚類等技術(shù),對歷史輿論熱點(diǎn)及其傳播過程進(jìn)行細(xì)粒度分析,形成輿論熱點(diǎn)傳播影響因素體系,包括用戶內(nèi)容傾向、時(shí)間特征、傳播特征、內(nèi)容特征構(gòu)建預(yù)測的整體框架,并形成一定的規(guī)律與規(guī)則,作為預(yù)測的計(jì)算的標(biāo)準(zhǔn)。
f.在大數(shù)據(jù)時(shí)序分析過程中,就可以從歷史數(shù)據(jù)中發(fā)現(xiàn)一定時(shí)間周期反復(fù)出現(xiàn)的符合用戶特定內(nèi)容傾向的主題,該主題一旦符合當(dāng)前傳播的時(shí)間特征、廣泛傳播特征,則會(huì)成為輿論的熱點(diǎn),在一定時(shí)間內(nèi)爆發(fā)。
g.周期性輿論熱點(diǎn)判斷。用戶設(shè)置的主題,可以從周期性時(shí)間規(guī)律方面進(jìn)行吻合度的計(jì)算,把待預(yù)測主題與歷史數(shù)據(jù)中周期性出現(xiàn)的輿論熱點(diǎn)進(jìn)行吻合度計(jì)算,超過一點(diǎn)閾值(c),并提取該主題的傳播特征與時(shí)間特征、內(nèi)容特征,能夠與一定時(shí)間內(nèi)熱點(diǎn)吻合度(k),則該主題是符合周期性輿論熱點(diǎn)特征,將會(huì)在一定時(shí)間內(nèi)發(fā)生并成為熱點(diǎn)
h.內(nèi)容性輿論熱點(diǎn)判斷。用戶輸入主題及相關(guān)特征,與一定時(shí)間用戶內(nèi)容傾向特征進(jìn)行吻合度計(jì)算,一種情況是與熱點(diǎn)吻合度較高(c),則容易成為輿論熱點(diǎn),另外一種情況是吻合度達(dá)到一定閾值(c),聚類分析之后,與熱點(diǎn)主題同為相同主題,但有新的特征(p),具有傳播的新穎性,能夠吸引用戶關(guān)注與討論,并與傳播特征吻合,則可以成為輿論熱點(diǎn)。
i.傳播性輿論熱點(diǎn)判斷。社會(huì)不斷發(fā)展,用戶不斷改變,需求也隨著演變,信息傳播模式可以根據(jù)不斷補(bǔ)充進(jìn)來的數(shù)據(jù)進(jìn)行實(shí)時(shí)的分析,挖掘符合用戶內(nèi)容傾向的新傳播規(guī)律、新現(xiàn)象、新事物的主題及其演變規(guī)律,對于用戶輸入的主題與傳播特征進(jìn)行比較,計(jì)算其吻合度(d),并分析其新穎度、創(chuàng)新度、吸引力、傳播力,判斷其是否能夠依靠其新鮮的特質(zhì),獲得用戶的關(guān)注與討論,成為輿論熱點(diǎn)。