基于Spark Streaming的財經(jīng)信息情感趨勢分析方法
【技術領域】
[0001 ]本發(fā)明涉及以Spark Streaming為基礎,對財經(jīng)信息文本進行情感趨勢分析、情感 值計算的方法。
【背景技術】
[0002] 目前,在許多的應用中需要對文本進行情感趨勢分析,比如微博中的語義分析,在 金融市場中的投資者或者新聞的情感趨勢分析等,尤其是在財經(jīng)新聞等大文本信息的情感 趨勢分析中,由于要求對文章根據(jù)詞庫進行分詞,而詞庫又相對較大,因此實現(xiàn)時就要求進 行多次循環(huán),使用普通的設備已經(jīng)無法滿足強大的計算要求。此外,信息時代的到來,數(shù)據(jù) 的迅猛增加,使得網(wǎng)絡文本信息大量涌現(xiàn),如何快速而又及時地處理該類文本信息,成為一 個難點。而在當今大數(shù)據(jù)時代,大數(shù)據(jù)處理技術得到了快速發(fā)展,其中Hadoop、Spark等大數(shù) 據(jù)處理框架得到了快速發(fā)展。但是Hadoop目前只能處理批數(shù)據(jù),無法處理實時數(shù)據(jù)。Spark 是一個分布式的實時數(shù)據(jù)處理的優(yōu)秀框架,由于相比Hadoop,它是基于內(nèi)存的計算框架,避 免了傳統(tǒng)的MapReduce編程模型帶來的巨大的1/0通信開銷瓶頸,目前的大數(shù)據(jù)處理性能在 內(nèi)存中可達到Hadoop的100倍,在硬盤中的速度也可達到Hadoop的10倍。
[0003] Spark有兩個關鍵概念:彈性分布數(shù)據(jù)集(RDD)和有向無環(huán)圖(DAG)執(zhí)行引擎。RDD 是一個分布式的內(nèi)存抽象。它允許在大型分布式集群上進行高容錯的內(nèi)存計算。Spark有兩 種RDD:基于現(xiàn)有編程集合(如map,1 ist等)的并行集合和存儲在HDFS中的文件。對RDD的操 作分兩種:轉換和動作。轉換是把輸入的RDD或現(xiàn)存的RDD創(chuàng)建出一個新的數(shù)據(jù)集,動作是在 執(zhí)行對數(shù)據(jù)集的計算后返回一個值。相比而言,轉換只是定義一個新的RDD,是一個惰性操 作,而動作執(zhí)行真正的計算,它能計算出結果或寫入外部存儲介質(zhì)。每當用戶對RDD進行動 作,一個有向無環(huán)圖會在考慮所有轉換的依賴關系后生成,它消除了傳統(tǒng)MapReduce的多步 執(zhí)行模型且提升了性能。
[0004] Spark也有對流的實現(xiàn)。它具有高可擴展和高容錯的特點。Spark Streaming是將 流式計算分解成一系列短小的批處理作業(yè)。這里的批處理引擎是Spark,也就是把Spark Streaming的輸入數(shù)據(jù)按照batch size(如1秒)分成一段一段的數(shù)據(jù)(Discretized Stream),每一段數(shù)據(jù)都轉換成Spark中的RDD(Resilient Distributed Dataset),然后將 Spark Streaming中對DStream的Transformation操作變?yōu)獒槍park中對RDD的 Transformation操作,將RDD經(jīng)過操作變成中間結果保存在內(nèi)存中。整個流式計算根據(jù)業(yè)務 的需求可以對中間的結果進行疊加,或者存儲到外部設備。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術問題是,針對網(wǎng)絡財經(jīng)新聞信息以及各微博、論壇內(nèi)網(wǎng)評 信息文本信息數(shù)據(jù)量大,分析過程復雜,計算要求高等問題,將Spark Streaming技術應用 到文本信息的情感趨勢處理過程,并根據(jù)財經(jīng)新聞、微博評論等文本信息的文章結構特點, 將文章進行分句,分詞,應用自定義的基于語義規(guī)則的分析方法,獲得文章情感值信息,以 達到快速有效獲得金融文本情感趨勢的目的。
[0006] 本發(fā)明的技術方案是:在財經(jīng)信息文本的情感趨勢獲取處理過程中,以Spark Streaming基礎,引入時間窗的方法,實現(xiàn)每個時間實時獲取網(wǎng)絡財經(jīng)信息情感趨勢,并在 獲取情感趨勢的文本分析過程中,使用自定義的情感值量化辦法,獲取大文本類財經(jīng)信息 所表現(xiàn)的情感趨勢,包括數(shù)據(jù)獲取模塊、預處理模塊、Spark數(shù)據(jù)處理模塊、數(shù)據(jù)存儲模塊, 數(shù)據(jù)獲取模塊獲取指定網(wǎng)站的相關財經(jīng)信息,并將財經(jīng)信息提交到預處理模塊;預處 理模塊對采集到的財經(jīng)信息文本進行初步處理,存入數(shù)據(jù)存儲模塊;Spark數(shù)據(jù)處理模塊對 預處理的結果進行分析,針對財經(jīng)信息文本內(nèi)容進行處理,獲取文本的情感值信息;數(shù)據(jù)存 儲模塊主要存儲、并提供預處理和Spark處理過程中所產(chǎn)生以及所需要的信息。
[0007] 所述數(shù)據(jù)獲取模塊,為實現(xiàn)實時性的網(wǎng)絡文本情感趨勢分析,采用間隔時間(30分 鐘或者1小時,甚至更?。┑姆椒▽δ繕司W(wǎng)站進行定時數(shù)據(jù)爬取,獲取最新的網(wǎng)絡文本信息, 提交至預處理模塊,目標網(wǎng)站包括金融財經(jīng)新聞網(wǎng)站、微博金融評論、論壇留言等。
[0008] 所述預處理模塊對采集到的財經(jīng)信息文本進行初步處理包括進行打標簽、去重、 去冗余等處理。即通過匹配財經(jīng)信息文本標題或內(nèi)容的方式,對財經(jīng)信息文本所屬金融品 種分類進行鑒定,并為每篇文章建立分類字段,將財經(jīng)信息文本存入存儲系統(tǒng)的過程中,通 過標簽在一定時間段內(nèi)的查詢進行去重處理,去冗余,去掉文章內(nèi)的網(wǎng)頁標簽?目息,最終, 財經(jīng)信息文本存儲到存儲模塊,存儲模塊包含財經(jīng)信息文本的題目、文章編號aid、所屬分 類fid、發(fā)表時間posttime、文章內(nèi)容content。
[0009] 在現(xiàn)實的網(wǎng)絡中,往往會出現(xiàn)某篇財經(jīng)信息被多家財經(jīng)新聞網(wǎng)站進行轉載或者一 篇評論被其他人引用的現(xiàn)象,因此,首先需要對采集過來的信息進行去重處理,這里使用的 文本去重處理,主要使用循環(huán)匹配的方式(新聞匹配標題,微博評論匹配內(nèi)容)實現(xiàn),然后對 每一篇文章指定文章編號aid;然后通過自定義的金融類的詞庫,對每一篇財經(jīng)信息文本 進行分類,確定所歸屬的金融品種fid,文章標題內(nèi)含有多個金融品種信息的,歸屬到多個 金融品種下;此外,由于采集過來的信息內(nèi)容,多是含有網(wǎng)頁標簽,對于文本后期處理,造成 更多的資源開銷,這里也進行去冗余處理,最終確定的財經(jīng)文本信息以(aid,fid, posttime,content)的格式存入數(shù)據(jù)存儲模塊,content為文本內(nèi)容,posttime為財經(jīng)文本 信息發(fā)布時間。
[0010] 所述Spark數(shù)據(jù)處理模塊對預處理的結果進行分析包括,對于預處理得到的財經(jīng) 信息文本使用Spark Streaming對數(shù)據(jù)進行讀取處理,在本發(fā)明中,由于爬取的財經(jīng)信息數(shù) 量大,每一天的信息發(fā)布時間統(tǒng)一,因此對于一天中的文本信息(財經(jīng)新聞、微博評論),使 用滑動窗口機制進行讀取處理,這里面每一個時間單元time定義為10分鐘,每個窗口大小 (window size)是3倍時間單元(time unit),也就是每個時間窗口是半個小時,而我們使得 窗口每隔一個單位時間,向前滑動一次。這樣,就在一天實時的動態(tài)獲得了文本信息對金融 市場所表現(xiàn)出的情感趨勢,可以準確的展示出一天中網(wǎng)絡文本信息所表現(xiàn)出的情感趨勢。 [0011 ] 在使用spark streaming處理財經(jīng)文本信息的過程中,本發(fā)明使用posttime、fid 作為信息聚攏的key,由于spark并行處理信息的特性,所以這里不需要像在往常的信息一 樣,需要先將打好標簽的信息進行分類,并依照時間排序,因此,spark使用key處理內(nèi)容的 方式為文本處理過程提供相當大的便利。
[0012]所述自定義的情感值量化辦法,具體內(nèi)容如下: 在處理財經(jīng)文本信息、獲取情感值的過程中所使用的情感值獲取方式,本發(fā)明中使用 自定義的中文情感詞詞庫進行分詞。由于主要獲取文章的情感值信息,因此,僅需要將文章 按找規(guī)則所需要的幾個詞庫進行分詞,積極情感詞庫、消極情感詞庫以及否定詞詞庫,而本 發(fā)明中主要針對的文本信息是金融信息文本(如財經(jīng)新聞,財經(jīng)評論,財經(jīng)論壇留言等),所 以,在積極和消極情感詞詞庫中還需加入金融類的漲跌詞,比如:"漲停"、"利多"、"跌停" 等,這樣,就構建出所需要的中文詞庫,不僅可以獲得相同效果,而且大大提高處理過程中 的分詞、匹配性能。
[0013] 本發(fā)明應用自定義的語義規(guī)則處理文本信息,獲得每一篇財經(jīng)文本信息和每一天 的情感傾向值信息。由于篇幅較大,一篇文章的情感傾向不好直接衡量,因此,本發(fā)明中將 一篇文章按照標點符號(句號、逗號、分號、問好等)進行截斷,提取每一個單句中的情感詞 匯,句子中的每一個情感詞構成一個情感單元,然后基于語義規(guī)則,獲取每一個情感單元的 情感值信息,將每一個句子中的情感單元的情感值進行累加并求平均,獲得每一個句子的 情感值傾向,將所有句子的情感值進行累加并求平均,則獲得整篇文章的情感值信息。對于 沒有情感詞的單句,情感傾向值為〇,而對于含有情感詞的句子,對于句子中的情感單元的 情感值信息定義如下規(guī)則: 積極情感詞:0.9 否定詞+消極情感詞:0.8 否定詞+積極情感詞:-〇 · 8 消極情感詞:-0.9 每個句子中的情感單元依據(jù)上述方式獲得情感值后,通過上面的說明,定義一個時間 段內(nèi)的關于某一金融品種的情感值為,其情感值為:
式中,表示每個情感單元的值,夂:表示每個單句中的情感詞數(shù)量,
代表每個單句的情感值,#表示一篇文章中的單句數(shù)量。
[0014] 使用本發(fā)明能達到以下有益效果: 針對整篇文本文章信息情感趨勢分析難的問題,將文章按標點符號進行截斷,逐句逐 個情感單元獲取情感值信息,從而獲得通篇文章情感值信息,處理方式簡單而有效。
[0015] 針對文本信息處理過程中,分詞、循環(huán)匹配計算速度慢的問題,提出使用Spark Streaming方法處理情感信息獲取流程,大程度提高文本信息情感值的獲取速度,增加了財 經(jīng)信息文本情感傾向值信息提取的時效性。
【附圖說明】
[0016] 圖1是本發(fā)明實現(xiàn)的帶有spark應用的文本情感趨勢分析技術總體結構圖; 圖2是本發(fā)明在預處理過程中的流程圖; 圖3是本發(fā)明所使用當?shù)膕park streaming構架圖; 圖4是本發(fā)明應用的spark技術中時間窗機制示意圖; 圖5是本發(fā)明在spark數(shù)據(jù)處理模塊文本處理流程示意圖; 圖6是本發(fā)明在存儲模塊采用的存儲結構示意圖。
【具體實施方式】
[0017] 以下結合附圖對本發(fā)明做進一步詳細說明。
[0018] 如圖1所示,帶有Sp