本發(fā)明涉及自然語言理解與處理,尤其涉及一種基于加權(quán)l(xiāng)da(latentdirichletallocation)主題模型的金融輿情感知方法,屬于網(wǎng)絡(luò)輿論的自然語言理解與處理技術(shù)領(lǐng)域。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及,來自于互聯(lián)網(wǎng)的信息與日劇增,尤其是在以互動交流為主要特點的web2.0模式下,微博、bbs(bulletinboardsystem)等社交平臺飛速發(fā)展,網(wǎng)民通過微博、bbs等可以實時對社會生活各個領(lǐng)域中的新聞事件,熱點話題,關(guān)注焦點等發(fā)表自己的意見,表達個性化的觀點。網(wǎng)民之間互動交流所產(chǎn)生的網(wǎng)絡(luò)輿論中蘊含著豐富客觀的民眾意愿和情緒。深入挖掘這些海量的網(wǎng)絡(luò)輿論信息,可以輔助決策者敏銳地感知到社會生活各個領(lǐng)域中的民情民意,為各種相關(guān)決策提供有力支持。
對于金融投資領(lǐng)域來說,目前的投資者,尤其是廣大中小投資者,越來越傾向于借助于互聯(lián)網(wǎng)來搜集關(guān)于宏觀經(jīng)濟政策,企業(yè)經(jīng)營狀況,股票市場走勢等信息,并通過微博、股吧等積極參與討論,參與者之間的相互情緒感染和行為模仿,形成共振現(xiàn)象,會悄然形成一種具有群體性的“投資者情緒”,這種投資情緒對股票市場的影響力很強。在實際的股票投資市場中,常常是大部分投資者都看好的上市公司的股票會有越來越多的投資者追隨,反之會遭到投資者的拋售。從這個意義上講,基于金融相關(guān)的網(wǎng)絡(luò)輿論來捕獲投資者情緒,感知金融輿情的研究非常具有應(yīng)用價值。
早期基于網(wǎng)絡(luò)輿論捕獲投資者情緒的研究只是使用股吧帖子的點擊數(shù)或評論數(shù),微博的轉(zhuǎn)發(fā)數(shù)或評論數(shù)這些客觀數(shù)據(jù)來間接計算投資者情緒,而不關(guān)注真正體現(xiàn)投資者情緒的主觀數(shù)據(jù):帖子的文本內(nèi)容。后來有越來越多的研究開始致力從帖子的文本內(nèi)容中來提取投資者情緒,也就是對非結(jié)構(gòu)化的網(wǎng)絡(luò)文本信息進行情感分析,這類研究主要是借助于情感詞典分析技術(shù)或文本分類技術(shù)來實現(xiàn)。這兩種主流技術(shù)共同的缺點就是都只停留在文本中所出現(xiàn)的詞匯信息這個層面上,沒有深入到文本的語義層面,這會使得最終對文本的理解有偏差。我們還注意到現(xiàn)有的很多研究在計算投資者情緒時,將股吧帖子的點擊數(shù)或評論數(shù),亦或是微博的轉(zhuǎn)發(fā)數(shù)或評論數(shù)這些客觀數(shù)據(jù),和帖子的文本內(nèi)容這一主觀數(shù)據(jù)進行結(jié)合來計算投資者情緒,但是,這種結(jié)合也只是簡單地將這兩種數(shù)據(jù)加總,沒有實現(xiàn)兩者的緊密結(jié)合。
因此,為了克服上述現(xiàn)有技術(shù)的缺陷,有必要提供一種新型的金融輿情感知方法,使用此方法所計算的投資者情緒不僅源自于文本中所出現(xiàn)的詞匯信息,而且能深入到文本的語義層面,還能同時將網(wǎng)絡(luò)輿論相關(guān)的客觀數(shù)據(jù)也引入進來。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是實現(xiàn)從語義層面上對網(wǎng)絡(luò)輿論文本的準確理解,同時還能夠?qū)⒕W(wǎng)絡(luò)輿論的主客觀數(shù)據(jù)有機地結(jié)合在一起,提出了一種基于加權(quán)l(xiāng)da主題模型的金融輿情感知方法。該方法的具體實現(xiàn)步驟如下:
步驟(1)從歷史的微博數(shù)據(jù)中挑選出一定數(shù)量的樣本,并人工標注類別,建立訓(xùn)練樣本集;
其中,微博數(shù)據(jù),也可以是股吧數(shù)據(jù),也可以是其他類型的數(shù)據(jù);
步驟(1),具體為:
根據(jù)一個預(yù)設(shè)與金融領(lǐng)域相關(guān)的關(guān)鍵詞集合,來檢索出一個歷史時間段內(nèi)微博金融數(shù)據(jù),將每個文本的內(nèi)容和其評論數(shù)與轉(zhuǎn)發(fā)數(shù),以及人工標注的情感類別信息存入數(shù)據(jù)庫中;
其中,關(guān)鍵詞集合是結(jié)合金融領(lǐng)域知識和金融專家經(jīng)驗獲得;人工標注的情感類別信息主要包括正向、中立和負向三個類別;
步驟(2)對步驟(1)輸出的訓(xùn)練樣本集進行數(shù)據(jù)預(yù)處理,將每個微博博文的文本轉(zhuǎn)換為詞項的集合;
其中,數(shù)據(jù)預(yù)處理主要是對每個博文的文本內(nèi)容進行中文分詞以及去除停用詞為主的操作;
步驟(3)對步驟(2)的輸出使用改進的tfidf-da(termfrequencyinversedocumentfrequency-documentattention)特征權(quán)重計算方法計算每個詞項的權(quán)重,取topn個詞項,形成一個重要詞項表;
其中,步驟(3)中的tfidf-da特征權(quán)重計算方法是基于tfidf的改進方法,此方法改進的核心思想是為了突出“出現(xiàn)在重要文本的詞項更重要”;重要文本是指關(guān)注度高的熱帖;
因為傳統(tǒng)的tfidf特征權(quán)重計算方法視樣本集中的每個文本是同等重要的,但是,事實上熱帖中出現(xiàn)的詞項要更重要些,在計算詞項的權(quán)重時,應(yīng)該將其所在文本的重要性也要考慮進去;
步驟(3),具體為:
步驟(3.1)采用原始文本關(guān)注度的對數(shù)函數(shù)與樣本集中的最大文本關(guān)注度的比值來歸一化文本的關(guān)注度;
其中,文本即博文,每個文本的關(guān)注度da(documentattention)的直接表征數(shù)據(jù)是其轉(zhuǎn)發(fā)數(shù)和評論數(shù)的加和,歸一化文本的計算公式為下式(1):
其中,dat,d表示詞項t所在的文本d的關(guān)注度,log為以2為底的對數(shù)操作;maxd∈d(dad)表示樣本集d中的最大文本關(guān)注度;
步驟(3.2)在傳統(tǒng)的tfidf中加入公式(1)這一因子,新的詞項權(quán)重(tfidf-da)的計算如下式(2):
其中,tft表示詞項t在當(dāng)前文本中出現(xiàn)的次數(shù),dft表示詞項t在樣本集d中的文本頻率,n為樣本集d的總文本數(shù),
步驟(4)基于步驟(1)的訓(xùn)練樣本集和步驟(3)輸出的重要詞項表學(xué)習(xí)訓(xùn)練加權(quán)l(xiāng)da主題模型,建立隱主題特征空間;
其中,步驟(4)中的加權(quán)l(xiāng)da主題模型的核心思想是將lda參數(shù)估計中的詞頻統(tǒng)計改為詞項的權(quán)重加和,即“主題-詞項”概率
其中,
步驟(5)將訓(xùn)練樣本集的每個文本在隱主題特征空間上進行文本表示;
步驟(6)基于訓(xùn)練樣本集的主題向量表示學(xué)習(xí)構(gòu)建svm(supportvectormachines)分類器,輸出分類文本;
步驟(7)對待步驟(6)輸出的分類文本進行文本預(yù)處理,轉(zhuǎn)化為特征詞集合,再將其在隱主題空間上進行文本表示,由svm分類器對其進行分類;
步驟(8)將所要研究的一個歷史時間段的博文按天劃分,再基于每個帖子的情感類別計算每日金融輿情綜合指數(shù);
其中,步驟(8)中的每日輿情綜合指數(shù)是一天中正向帖子(+1),中性帖子(0)和負向帖子(-1)情緒值的加權(quán)平均;
至此,從步驟(1)到步驟(8),完成了一種基于加權(quán)l(xiāng)da主題模型的金融輿情感知方法。
有益效果
一種基于加權(quán)l(xiāng)da主題模型的金融輿情感知方法,與現(xiàn)有技術(shù)相比,具有如下有益效果:
1.將間接體現(xiàn)投資者情緒的客觀數(shù)據(jù)(微博的評論數(shù)和轉(zhuǎn)發(fā)數(shù))和直接體現(xiàn)投資者情緒的客觀數(shù)據(jù)(微博的文本內(nèi)容)通過加權(quán)l(xiāng)da主題模型有機地結(jié)合在一起,進而基于加權(quán)l(xiāng)da主題模型可以實現(xiàn)從語義層面上深入挖掘文本的隱含特征,將傳統(tǒng)的基于詞項的特征空間變換為基于語義關(guān)聯(lián)的隱主題空間,在隱主題空間上進行文本的特征表示,從而可以極大地提升文本情感分類的效果;
2.詞項權(quán)重計算方法采用改進的tfidf-da特征權(quán)重計算方法,此方法是在傳統(tǒng)的tfidf的方法基礎(chǔ)上加入一個文本關(guān)注度因子da,此因子基于博文的評論數(shù)和轉(zhuǎn)發(fā)數(shù)這些客觀數(shù)據(jù)進行量化,從而可以實現(xiàn)“根據(jù)詞項所在文本的重要性來區(qū)別對待每個詞項”,使得出現(xiàn)在熱帖中的詞項的權(quán)重更高;并且這個權(quán)重在主題模型的詞項表建立之初就開始發(fā)揮作用,直至將其引入到主題模型的參數(shù)估計計算中;
3.每日金融輿情綜合指數(shù)是當(dāng)天全部博文的情緒值(文本情感分類的結(jié)果)的加權(quán)平均,這種基于文本分類的情緒值計算方法相比傳統(tǒng)的基于情感詞典的情緒值計算方法更準確更有效。
附圖說明
圖1為本發(fā)明一種基于加權(quán)l(xiāng)da主題模型的金融輿情感知方法的處理過程。
具體實施方式
為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖通過具體實施例對本發(fā)明做進一步詳細說明。
如圖1,本實施例基于加權(quán)l(xiāng)da主題模型的金融輿情感知方法,包括如下步驟:
步驟1,按照預(yù)先設(shè)定的一個金融領(lǐng)域相關(guān)的關(guān)鍵詞表來檢索歷史微博數(shù)據(jù),再從這個檢索出的子集中人工挑選一個規(guī)模適度的訓(xùn)練樣本集,并對此樣本集進行人工類別標注(+1代表正向情緒,0代表中立情緒,-1代表負向情緒)和數(shù)據(jù)預(yù)處理(中文分詞,去停用詞等),將形成的初始訓(xùn)練樣本集存入數(shù)據(jù)庫,其中三個重要數(shù)據(jù)字段是以詞集合形式呈現(xiàn)的博文的文本內(nèi)容,該博文的情感類別,該博文的關(guān)注度(評論數(shù)與轉(zhuǎn)發(fā)數(shù)之和)。
步驟2,使用tfidf-da特征權(quán)重計算方法計算訓(xùn)練樣本集中的每個詞項的權(quán)重,取topn個詞項形成一個重要詞項表。
步驟3,對于初始訓(xùn)練樣本集,使用上一步構(gòu)建的重要詞項表,學(xué)習(xí)訓(xùn)練加權(quán)l(xiāng)da主題模型,即進行加權(quán)l(xiāng)da主題模型的參數(shù)估計,建立隱主題特征空間。
步驟4,將初始訓(xùn)練數(shù)據(jù)集的每個文本在隱主題空間上進行文本表示,使得每個文本表示為主題向量:(topic1,topic2,…,topicn)。
步驟5,基于有隱主題的訓(xùn)練樣本集,使用libsvm工具包學(xué)習(xí)訓(xùn)練svm分類器。
步驟6,對待分類的文本進行中文分詞,去停用詞等預(yù)處理,將文本轉(zhuǎn)換為特征詞的集合,再將其在隱主題空間上進行文本表示,由分類器對其進行情感分類。
步驟7,將所要研究的一個歷史時間段的博文按天劃分,計算每天的全部博文的情緒值(文本情感分類的結(jié)果)的加權(quán)平均來作為每日金融輿情綜合指數(shù)。
以上內(nèi)容是結(jié)合具體的實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施方式僅限于此,在本發(fā)明的上述指導(dǎo)下,本領(lǐng)域技術(shù)人員可以在上述實施例的基礎(chǔ)上進行各種改進和變形,而這些改進或者變形落在本發(fā)明的保護范圍內(nèi)。