基于SparkStreaming的財經(jīng)信息情感趨勢分析方法

文檔序號：9922106閱讀：790來源：國知局

基于Spark Streaming的財經(jīng)信息情感趨勢分析方法
【技術領域】
[0001 ]本發(fā)明涉及以Spark Streaming為基礎，對財經(jīng)信息文本進行情感趨勢分析、情感值計算的方法。
【背景技術】
[0002] 目前，在許多的應用中需要對文本進行情感趨勢分析，比如微博中的語義分析，在金融市場中的投資者或者新聞的情感趨勢分析等，尤其是在財經(jīng)新聞等大文本信息的情感趨勢分析中，由于要求對文章根據(jù)詞庫進行分詞，而詞庫又相對較大，因此實現(xiàn)時就要求進行多次循環(huán)，使用普通的設備已經(jīng)無法滿足強大的計算要求。此外，信息時代的到來，數(shù)據(jù) 的迅猛增加，使得網(wǎng)絡文本信息大量涌現(xiàn)，如何快速而又及時地處理該類文本信息，成為一個難點。而在當今大數(shù)據(jù)時代，大數(shù)據(jù)處理技術得到了快速發(fā)展，其中Hadoop、Spark等大數(shù) 據(jù)處理框架得到了快速發(fā)展。但是Hadoop目前只能處理批數(shù)據(jù)，無法處理實時數(shù)據(jù)。Spark 是一個分布式的實時數(shù)據(jù)處理的優(yōu)秀框架，由于相比Hadoop，它是基于內(nèi)存的計算框架，避免了傳統(tǒng)的MapReduce編程模型帶來的巨大的1/0通信開銷瓶頸，目前的大數(shù)據(jù)處理性能在內(nèi)存中可達到Hadoop的100倍，在硬盤中的速度也可達到Hadoop的10倍。
[0003] Spark有兩個關鍵概念:彈性分布數(shù)據(jù)集(RDD)和有向無環(huán)圖（DAG)執(zhí)行引擎。RDD 是一個分布式的內(nèi)存抽象。它允許在大型分布式集群上進行高容錯的內(nèi)存計算。Spark有兩種RDD:基于現(xiàn)有編程集合(如map，1 ist等）的并行集合和存儲在HDFS中的文件。對RDD的操作分兩種:轉換和動作。轉換是把輸入的RDD或現(xiàn)存的RDD創(chuàng)建出一個新的數(shù)據(jù)集，動作是在執(zhí)行對數(shù)據(jù)集的計算后返回一個值。相比而言，轉換只是定義一個新的RDD，是一個惰性操作，而動作執(zhí)行真正的計算，它能計算出結果或寫入外部存儲介質(zhì)。每當用戶對RDD進行動作，一個有向無環(huán)圖會在考慮所有轉換的依賴關系后生成，它消除了傳統(tǒng)MapReduce的多步執(zhí)行模型且提升了性能。
[0004] Spark也有對流的實現(xiàn)。它具有高可擴展和高容錯的特點。Spark Streaming是將流式計算分解成一系列短小的批處理作業(yè)。這里的批處理引擎是Spark，也就是把Spark Streaming的輸入數(shù)據(jù)按照batch size(如1秒）分成一段一段的數(shù)據(jù)（Discretized Stream)，每一段數(shù)據(jù)都轉換成Spark中的RDD(Resilient Distributed Dataset)，然后將 Spark Streaming中對DStream的Transformation操作變?yōu)獒槍park中對RDD的 Transformation操作，將RDD經(jīng)過操作變成中間結果保存在內(nèi)存中。整個流式計算根據(jù)業(yè)務的需求可以對中間的結果進行疊加，或者存儲到外部設備。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術問題是，針對網(wǎng)絡財經(jīng)新聞信息以及各微博、論壇內(nèi)網(wǎng)評信息文本信息數(shù)據(jù)量大，分析過程復雜，計算要求高等問題，將Spark Streaming技術應用到文本信息的情感趨勢處理過程，并根據(jù)財經(jīng)新聞、微博評論等文本信息的文章結構特點，將文章進行分句，分詞，應用自定義的基于語義規(guī)則的分析方法，獲得文章情感值信息，以達到快速有效獲得金融文本情感趨勢的目的。
[0006] 本發(fā)明的技術方案是：在財經(jīng)信息文本的情感趨勢獲取處理過程中，以Spark Streaming基礎，引入時間窗的方法，實現(xiàn)每個時間實時獲取網(wǎng)絡財經(jīng)信息情感趨勢，并在獲取情感趨勢的文本分析過程中，使用自定義的情感值量化辦法，獲取大文本類財經(jīng)信息所表現(xiàn)的情感趨勢，包括數(shù)據(jù)獲取模塊、預處理模塊、Spark數(shù)據(jù)處理模塊、數(shù)據(jù)存儲模塊，數(shù)據(jù)獲取模塊獲取指定網(wǎng)站的相關財經(jīng)信息，并將財經(jīng)信息提交到預處理模塊;預處理模塊對采集到的財經(jīng)信息文本進行初步處理，存入數(shù)據(jù)存儲模塊;Spark數(shù)據(jù)處理模塊對預處理的結果進行分析，針對財經(jīng)信息文本內(nèi)容進行處理，獲取文本的情感值信息;數(shù)據(jù)存儲模塊主要存儲、并提供預處理和Spark處理過程中所產(chǎn)生以及所需要的信息。
[0007] 所述數(shù)據(jù)獲取模塊，為實現(xiàn)實時性的網(wǎng)絡文本情感趨勢分析，采用間隔時間（30分鐘或者1小時，甚至更?。┑姆椒▽δ繕司W(wǎng)站進行定時數(shù)據(jù)爬取，獲取最新的網(wǎng)絡文本信息，提交至預處理模塊，目標網(wǎng)站包括金融財經(jīng)新聞網(wǎng)站、微博金融評論、論壇留言等。
[0008] 所述預處理模塊對采集到的財經(jīng)信息文本進行初步處理包括進行打標簽、去重、去冗余等處理。即通過匹配財經(jīng)信息文本標題或內(nèi)容的方式，對財經(jīng)信息文本所屬金融品種分類進行鑒定，并為每篇文章建立分類字段，將財經(jīng)信息文本存入存儲系統(tǒng)的過程中，通過標簽在一定時間段內(nèi)的查詢進行去重處理，去冗余，去掉文章內(nèi)的網(wǎng)頁標簽?目息，最終，財經(jīng)信息文本存儲到存儲模塊，存儲模塊包含財經(jīng)信息文本的題目、文章編號aid、所屬分類fid、發(fā)表時間posttime、文章內(nèi)容content。
[0009] 在現(xiàn)實的網(wǎng)絡中，往往會出現(xiàn)某篇財經(jīng)信息被多家財經(jīng)新聞網(wǎng)站進行轉載或者一篇評論被其他人引用的現(xiàn)象，因此，首先需要對采集過來的信息進行去重處理，這里使用的文本去重處理，主要使用循環(huán)匹配的方式(新聞匹配標題，微博評論匹配內(nèi)容)實現(xiàn)，然后對每一篇文章指定文章編號aid;然后通過自定義的金融類的詞庫，對每一篇財經(jīng)信息文本進行分類，確定所歸屬的金融品種fid，文章標題內(nèi)含有多個金融品種信息的，歸屬到多個金融品種下;此外，由于采集過來的信息內(nèi)容，多是含有網(wǎng)頁標簽，對于文本后期處理，造成更多的資源開銷，這里也進行去冗余處理，最終確定的財經(jīng)文本信息以（aid，fid， posttime，content)的格式存入數(shù)據(jù)存儲模塊，content為文本內(nèi)容，posttime為財經(jīng)文本信息發(fā)布時間。
[0010] 所述Spark數(shù)據(jù)處理模塊對預處理的結果進行分析包括，對于預處理得到的財經(jīng) 信息文本使用Spark Streaming對數(shù)據(jù)進行讀取處理，在本發(fā)明中，由于爬取的財經(jīng)信息數(shù) 量大，每一天的信息發(fā)布時間統(tǒng)一，因此對于一天中的文本信息(財經(jīng)新聞、微博評論），使用滑動窗口機制進行讀取處理，這里面每一個時間單元time定義為10分鐘，每個窗口大小 (window size)是3倍時間單元(time unit)，也就是每個時間窗口是半個小時，而我們使得窗口每隔一個單位時間，向前滑動一次。這樣，就在一天實時的動態(tài)獲得了文本信息對金融市場所表現(xiàn)出的情感趨勢，可以準確的展示出一天中網(wǎng)絡文本信息所表現(xiàn)出的情感趨勢。 [0011 ] 在使用spark streaming處理財經(jīng)文本信息的過程中，本發(fā)明使用posttime、fid 作為信息聚攏的key，由于spark并行處理信息的特性，所以這里不需要像在往常的信息一樣，需要先將打好標簽的信息進行分類，并依照時間排序，因此，spark使用key處理內(nèi)容的方式為文本處理過程提供相當大的便利。
[0012]所述自定義的情感值量化辦法，具體內(nèi)容如下：在處理財經(jīng)文本信息、獲取情感值的過程中所使用的情感值獲取方式，本發(fā)明中使用自定義的中文情感詞詞庫進行分詞。由于主要獲取文章的情感值信息，因此，僅需要將文章按找規(guī)則所需要的幾個詞庫進行分詞，積極情感詞庫、消極情感詞庫以及否定詞詞庫，而本發(fā)明中主要針對的文本信息是金融信息文本(如財經(jīng)新聞，財經(jīng)評論，財經(jīng)論壇留言等），所以，在積極和消極情感詞詞庫中還需加入金融類的漲跌詞，比如："漲停"、"利多"、"跌停" 等，這樣，就構建出所需要的中文詞庫，不僅可以獲得相同效果，而且大大提高處理過程中的分詞、匹配性能。
[0013] 本發(fā)明應用自定義的語義規(guī)則處理文本信息，獲得每一篇財經(jīng)文本信息和每一天的情感傾向值信息。由于篇幅較大，一篇文章的情感傾向不好直接衡量，因此，本發(fā)明中將一篇文章按照標點符號（句號、逗號、分號、問好等)進行截斷，提取每一個單句中的情感詞匯，句子中的每一個情感詞構成一個情感單元，然后基于語義規(guī)則，獲取每一個情感單元的情感值信息，將每一個句子中的情感單元的情感值進行累加并求平均，獲得每一個句子的情感值傾向，將所有句子的情感值進行累加并求平均，則獲得整篇文章的情感值信息。對于沒有情感詞的單句，情感傾向值為〇,而對于含有情感詞的句子，對于句子中的情感單元的情感值信息定義如下規(guī)則：積極情感詞:0.9 否定詞+消極情感詞:0.8 否定詞+積極情感詞:-〇 · 8 消極情感詞：-0.9 每個句子中的情感單元依據(jù)上述方式獲得情感值后，通過上面的說明，定義一個時間段內(nèi)的關于某一金融品種的情感值為，其情感值為：
式中，表示每個情感單元的值，夂:表示每個單句中的情感詞數(shù)量，
代表每個單句的情感值，#表示一篇文章中的單句數(shù)量。
[0014] 使用本發(fā)明能達到以下有益效果：針對整篇文本文章信息情感趨勢分析難的問題，將文章按標點符號進行截斷，逐句逐個情感單元獲取情感值信息，從而獲得通篇文章情感值信息，處理方式簡單而有效。
[0015] 針對文本信息處理過程中，分詞、循環(huán)匹配計算速度慢的問題，提出使用Spark Streaming方法處理情感信息獲取流程，大程度提高文本信息情感值的獲取速度，增加了財經(jīng)信息文本情感傾向值信息提取的時效性。
【附圖說明】
[0016] 圖1是本發(fā)明實現(xiàn)的帶有spark應用的文本情感趨勢分析技術總體結構圖；圖2是本發(fā)明在預處理過程中的流程圖；圖3是本發(fā)明所使用當?shù)膕park streaming構架圖；圖4是本發(fā)明應用的spark技術中時間窗機制示意圖；圖5是本發(fā)明在spark數(shù)據(jù)處理模塊文本處理流程示意圖；圖6是本發(fā)明在存儲模塊采用的存儲結構示意圖。
【具體實施方式】
[0017] 以下結合附圖對本發(fā)明做進一步詳細說明。
[0018] 如圖1所示，帶有Sp

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：蔡志平;陳海文;
技術所有人：中國人民解放軍國防科學技術大學;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！