一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法
【專利摘要】本發(fā)明是一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法,用于互聯(lián)網(wǎng)數(shù)據(jù)分析。本方法是:獲取電商行業(yè)商品的評論數(shù)據(jù);對評論數(shù)據(jù)進行預(yù)處理;建立初始的行業(yè)情感詞庫,利用1-gram和2-gram分別計算詞在不同情感極性下的分布;對評論數(shù)據(jù)進行中文分詞;分別基于1-gram、2-gram構(gòu)建的情感詞庫,使用聯(lián)合情緒模型對詞進行建模,獲取詞在不同情感分布下,屬于不同主題的概率分布;利用上下文信息重新確定句子中情感詞的情感傾向值;利用條件隨機場進行命名實體識別,抽取評論特征,計算評論特征評價詞的情感傾向值。本發(fā)明通過主題、情感兩個維度計算評論詞的情感,實現(xiàn)行業(yè)評論數(shù)據(jù)的細粒度情感分析,分析結(jié)果精度高且更加可解釋。
【專利說明】一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)數(shù)據(jù)分析領(lǐng)域,涉及評論數(shù)據(jù)的情感分析技術(shù),具體涉及一種 行業(yè)評論數(shù)據(jù)細粒度情感分析方法。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時代的到來,越來越多的信息通過網(wǎng)友的群智群力,以眾包的方式出 現(xiàn),越來越多的人喜歡在網(wǎng)上交流他們的意見,因而在網(wǎng)絡(luò)上出現(xiàn)大量包含傾向性的評論 信息,比如豆瓣的影評、書評,電商網(wǎng)站上產(chǎn)品的評論。商家希望通過信息處理手段來獲取 這些電子信息中包含的情感傾向性,以此來獲得消費者反饋,修正市場決策。例如,在購買 電子商品之前,人們希望先得知別人對于該商品的評價,優(yōu)點是什么,缺點是什么,以此作 為購買的重要參考。近年來情感分析成為了信息處理領(lǐng)域中的一個研究熱點,但是由于其 自身特點,導(dǎo)致研究進展較為緩慢。
[0003] -般的情感分析技術(shù)主要是采用監(jiān)督的方式對互聯(lián)網(wǎng)文本中的情感進行分,通過 提取文本中包含的情感詞,對其進行極性判斷,找出文本中對應(yīng)的情感詞特征向量。為計算 文本情感傾向性,通過對這些已知樣本進行訓(xùn)練,建立分類模型,對新的評論進行情感傾向 的判斷?,F(xiàn)有的技術(shù)一般分為兩種:監(jiān)督和非監(jiān)督。監(jiān)督模型一般采用K最鄰近結(jié)點算法 (KNN)、樸素貝葉斯和支持向量機(SVM)、最大熵的情感分類模型,其中涉及到情感詞的提取 和極性判斷,這種方法與情感詞詞典的構(gòu)建有很大關(guān)系,需要完備的情感詞詞典。所建立的 分類模型和特定領(lǐng)域有很大關(guān)系,對某一個領(lǐng)域構(gòu)建的模型很可能對另外一個領(lǐng)域不太適 用。同時,構(gòu)建情感詞詞典費時費力。由于評論中存在大量的噪音,對訓(xùn)練樣本的質(zhì)量有一 定的影響,使得訓(xùn)練出來的模型受到影響,影響分類的準(zhǔn)確度和召回率。非監(jiān)督模型一般基 于主題模型進行的改進,這種模型的優(yōu)點是泛化能力較強,并不局限于某一個領(lǐng)域,但是結(jié) 果精度往往比較差,缺乏有監(jiān)督的指導(dǎo)。
[0004] -般的情感分析主要研究的是評論的整體態(tài)度,但在實際中這種分析粒度較大, 比如汽車評論中,商家不僅希望知道針對一款車型,好評差評分別占比,他更希望知道好在 明隊差在哪。因此一般的情感分析不再適用于這個場景。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明針對現(xiàn)有非監(jiān)督模型的分析結(jié)果精度差,領(lǐng)域針對性強,所用的情感分析 結(jié)果粗糙的問題,提出了一種非監(jiān)督結(jié)合情感詞表的行業(yè)評論數(shù)據(jù)細粒度情感分析方法, 旨在實現(xiàn)以比較高的可解釋度和精確度來分析普通用戶對于研究對象的情感傾向性。
[0006] 本發(fā)明提供的一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法,包括如下步驟:
[0007] 步驟1 :獲取電商行業(yè)商品的評論數(shù)據(jù);
[0008] 步驟2 :對步驟1得到的評論數(shù)據(jù)進行預(yù)處理,包括:根據(jù)評論數(shù)據(jù)長度進行清洗, 去除垃圾廣告信息,去除評論數(shù)據(jù)中的網(wǎng)址,去除自動評論數(shù)據(jù);將預(yù)處理后的評論數(shù)據(jù)用 于下面步驟;
[0009] 步驟3 :建立初始的行業(yè)情感詞庫,利用1-gram和2-gram分別計算詞在不同情感 極性下的分布,獲得l-gram構(gòu)建的情感詞庫和2-gram構(gòu)建的情感詞庫;
[0010] 步驟4 :對評論數(shù)據(jù)進行中文分詞,去除停用詞,獲取詞集合;
[0011] 步驟5 :為詞集合中的所有詞建立和對應(yīng)文檔的索引,分別基于Ι-gram構(gòu)建的情 感詞庫和2-gram構(gòu)建的情感詞庫,使用聯(lián)合情緒模型對詞進行建模,獲取詞在不同情感分 布下,屬于不同主題的概率分布;
[0012] 其中使用聯(lián)合情緒模型對詞進行建模,具體是:
[0013] 對于每一個文檔d,選擇一個分布π d,JI d定義為Dir u );
[0014] 對于文檔d下的每一個情感標(biāo)記la,選擇一個分布0dla,0d, la定義為Dir(a);
[0015] 對于文檔d中的每一個詞Wy選擇一個情感標(biāo)記和主題Zy 定義為π d,Zi 定義為θ d,la ;
[0016] 從主題Zi和情感標(biāo)記1?所定義的詞分布里面選擇一個詞Wi定義為
[0017] 其中,超參數(shù)α、β和Υ使用吉布斯抽樣方法獲??;
[0018] 步驟6 :利用上下文信息重新確定句子中情感詞的情感傾向值;
[0019] 步驟7 :利用條件隨機場進行命名實體識別,抽取評論特征,對評論特征中的評價 詞進行統(tǒng)計,計算評價詞的情感傾向值。
[0020] 本發(fā)明的優(yōu)點與積極效果在于:
[0021] (1)本發(fā)明的行業(yè)評論數(shù)據(jù)細粒度情感分析方法,通過主題、情感兩個維度計算 評論詞的情感,對行業(yè)評論數(shù)據(jù)進行細粒度的情感分析,使得分析結(jié)果精度較高、更加可解 釋;
[0022] (2)利用Bloom filter和給定的規(guī)則集合對海量數(shù)據(jù)進行預(yù)處理,數(shù)據(jù)處理效率 1?,有效精減了數(shù)據(jù)量;
[0023] (3)引入情感因子隱變量,使用改進的主題模型(聯(lián)合情緒模型)對文檔中的詞進 行建模,融合情感分析領(lǐng)域最常用的兩種模型,結(jié)合兩者優(yōu)點,提升結(jié)果性能;并分布采用 Ι-gram和2-gram兩種方式分別構(gòu)建行業(yè)情感詞典,進行主題模型聚類,獲得進行對比分析 的結(jié)果,以利于綜合獲取更加準(zhǔn)確的聚類結(jié)果;
[0024] (4)利用條件隨機場進行命名實體識別,實體識別結(jié)果好;通過詞性等制定規(guī)則 挖掘?qū)嶓w及其屬性,提高抽取商品特征的準(zhǔn)確率。
【專利附圖】
【附圖說明】
[0025] 圖1是本發(fā)明的行業(yè)評論數(shù)據(jù)細粒度情感分析方法的整體流程圖;
[0026] 圖2是本發(fā)明方法的步驟1和3中利用爬蟲程序所進行操作的示意圖;
[0027] 圖3是本發(fā)明方法步驟5的實現(xiàn)流程圖;
[0028] 圖4是本發(fā)明的JST使用Gibbs Sampling進行參數(shù)推斷的示意圖;
[0029] 圖5是本發(fā)明方法步驟6和7的流程不意圖;
[0030] 圖6是對某個商品的評論數(shù)據(jù)運用本發(fā)明方法進行情感分析的結(jié)果示意圖。
【具體實施方式】
[0031] 下面將結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。
[0032] 細粒度分析可分兩種,一種是句子級別,一種是屬性(aspect)級別。由于產(chǎn)品評 論一句話里面往往包含對多個屬性的評價,如"質(zhì)量很好,外觀美觀,但是很貴",因此本發(fā) 明的技術(shù)方案中的細粒度針對的是屬性層次的細粒度。
[0033] 本發(fā)明以非監(jiān)督方式對電商行業(yè)評論數(shù)據(jù)進行細粒度情感分析,提出來一種引入 隱變量的改進的主題模型方法,采用Ι-gram和2-gram的方式分別建立行業(yè)情感詞典,同時 采用中文分詞技術(shù)、命名實體識別技術(shù)對評論中的實體特征進行抽取,基于商品屬性和實 體特征進行細粒度情感分析,給出商品在細粒度維度下的多維度情感分析結(jié)果。
[0034] 本發(fā)明提供的行業(yè)評論數(shù)據(jù)細粒度情感分析方法,基于一種引入隱變量的改進主 題模型聚類的技術(shù)進行情感聚類,利用中文分詞、命名實體識別技術(shù)提取物品細粒度的特 征,然后結(jié)合電商行業(yè)評論數(shù)據(jù)進行情感分析,本發(fā)明方法流程如圖1所示。
[0035] 步驟1 :構(gòu)建爬蟲程序,抓取電商行業(yè)的商品的評論數(shù)據(jù)。本發(fā)明實施例中主要從 京東、淘寶和亞馬遜抓取數(shù)據(jù)。如圖1和2所示,本步驟包括步驟101和102。
[0036] 步驟101 :構(gòu)建分布式爬蟲程序,對電商網(wǎng)站數(shù)據(jù)進行頁面抓取。
[0037] 步驟102 :根據(jù)抓取到的html頁面生成頁面的dom樹結(jié)構(gòu),根據(jù)標(biāo)簽提取爬到頁 面中包含的評論數(shù)據(jù)并存儲。
[0038] 步驟2 :對步驟1得到的評論數(shù)據(jù)進行預(yù)處理。(1)利用布隆濾波(Bloom filter) 方法對海量數(shù)據(jù)進行處理,Bloom filter處理速度很快,適合處理海量數(shù)據(jù)。(2)利用下面 的規(guī)則集對評論數(shù)據(jù)進一步預(yù)處理,去除符合規(guī)則1?3的評論數(shù)據(jù):規(guī)則1:評論數(shù)據(jù)長 度小于5個字;規(guī)則2 :評論數(shù)據(jù)中含有特定的廣告詞;規(guī)則3 :基于網(wǎng)絡(luò)特定回復(fù)模板的自 動回復(fù);規(guī)則4 :評論中含有網(wǎng)址的,去除網(wǎng)址后再重新判斷是否符合規(guī)則1?3。
[0039] 步驟201 :根據(jù)評論長度進行清洗,利用正則表達式和制定的規(guī)則集去除垃圾廣 告信息。
[0040] 步驟202 :利用Bloom filter方法去除重復(fù)的評論數(shù)據(jù),首先對評論數(shù)據(jù)利用N個 hash函數(shù)映射到位數(shù)組中,再對后面的評論計算N個hash值,然后判斷該評論數(shù)據(jù)是否已 經(jīng)存在,如果后面的評論計算出的hash值存在位數(shù)組中,則說明該評論數(shù)據(jù)已經(jīng)存在,并 將其過濾掉。
[0041] 步驟203 :設(shè)計匹配網(wǎng)址的正則表達式,去除評論數(shù)據(jù)中的網(wǎng)址,再次計算句子的 長度,然后在此基礎(chǔ)上進行二次清洗,主要清洗長度不滿足規(guī)則中設(shè)置條件的評論。
[0042] 步驟204 :觀察評論數(shù)據(jù),統(tǒng)計網(wǎng)絡(luò)自動評論模板,根據(jù)自動評論模板去除評論中 包含的自動評論數(shù)據(jù)。
[0043] 步驟3 :建立初始行業(yè)情感詞庫。如圖2所示,本步驟包括步驟301?步驟303。
[0044] 步驟301 :利用爬蟲程序抓取情感領(lǐng)域的專有詞匯和百度百科的數(shù)據(jù),建立初始 的行業(yè)情感詞庫。
[0045] 步驟302 :利用Ι-gram計算詞在不同情感極性下的分布,得到Ι-gram構(gòu)建的情感 詞庫。
[0046] 步驟303 :利用2-gram計算詞在不同情感極性下的分布,得到2-gram構(gòu)建的情感 詞庫。
[0047] 步驟4 :對步驟2預(yù)處理后的評論數(shù)據(jù)進行中文分詞處理,獲取對應(yīng)的詞集合。對 所有評論數(shù)據(jù)進行中文分詞,去除停用詞,獲取分詞結(jié)果。
[0048] 步驟401 :調(diào)用中文分詞程序分詞,然后根據(jù)停用詞表去除停用詞,對其中包含的 英文詞進行形態(tài)變換,轉(zhuǎn)換到統(tǒng)一的表達形式。
[0049] 步驟402 :計算詞的文檔頻率df,詞頻tf,以及逆向文件頻率idf,對詞使用計算公 式i〇g(tf7(idf+i)+i)計算權(quán)值,然后與設(shè)定的權(quán)值閾值比較,進行詞集篩選,獲取權(quán)值大 于權(quán)值閾值的詞組成的詞集,從而得到能夠體現(xiàn)評論特征的詞集合,同時詞集篩選后也適 當(dāng)?shù)亟档土嗽u論數(shù)據(jù)對應(yīng)的詞集合的維度。
[0050] 步驟5 :引入情感因子隱變量,使用改進的主題模型對文檔中的詞進行聚類,首次 將改進的聯(lián)合情緒模型(Joint Sentiment/Topic Model, JST)應(yīng)用到中文情感分析。如圖 3所示,步驟5包括如下四個子步驟。
[0051] 步驟501 :首先處理文檔中的詞,對所有詞建立和對應(yīng)文檔的索引,然后創(chuàng)建文檔 和詞對應(yīng)的數(shù)據(jù)文件。每條評論數(shù)據(jù)作為一個文檔。
[0052] 步驟502 :調(diào)用利用Ι-gram構(gòu)建的情感詞庫和利用2-gram構(gòu)建的情感詞庫,兩個 詞庫將分別應(yīng)用到下面的聯(lián)合情緒模型的聚類過程。
[0053] 步驟503 :JST通過引入隱變量,對隱含狄利克雷分布(latent dirichlet allocation)主題模型進行改進,對詞建模,進行聚類。
[0054] JST模型的建?;具^程如下:
[0055] For each document d, choose a distribution π d ?Dir ( γ )· \\ 對于每一個文 檔d,選擇一個分布3id,定義為Dir〇));
[0056] For each sentiment label la under document d,choose a distribution Θ d,la?Dir(a ). \\對于文檔d下的每一個情感標(biāo)記la,選擇一個分布Θ d,la, 定義為Dir(a );
[0057] For each word Wi in document d\\ 對于文檔 d 中的每一個詞
[0058] Choose a sentiment label lai ?π d\\ 選擇一個情感標(biāo)記 la" 定義為 π d
[0059] Choose a topic Zi ?Θ d,la\\ 選擇一個主題 Zi,定義為 Θ d,la
[0060] Choose a word wi from the distribution over words defined by the topic zi and sentiment label lap中$_\\選擇一個從主題zJP情感標(biāo)記]^所定義的所有詞 分布里面的詞&定義為cpt,
[0061] 其中,聯(lián)合情緒模型JST包含的超參數(shù)α、β和Y可以看作主題在情感標(biāo)簽中出 現(xiàn)次數(shù)和單詞在主題下出現(xiàn)次數(shù)的先驗分布。
[0062] 本發(fā)明改進的JST使用吉布斯抽樣方法(Gibbs Sampling)進行超參數(shù)推斷。假 設(shè)給定α,β,Y,吉布斯抽樣方法的流程是積出變量θ,φ,π,然后根據(jù)這三個變量從后 驗概率P(z |w, 1,d, α,β,γ )中抽樣主題ζ。如圖4所示,D表示文檔空間向量,nd表示某 個文檔d的詞空間向量,z表示主題,1表示情感標(biāo)記,T表示β的因子,S表示α的懲罰 因子,V表示γ的懲罰因子。在抽樣的每一輪過程中,根據(jù)以下公式來抽樣:
[0063]
【權(quán)利要求】
1. 一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法,其特征在于,包括如下步驟: 步驟1:獲取電商行業(yè)商品的評論數(shù)據(jù); 步驟2 :對評論數(shù)據(jù)進行預(yù)處理,包括:根據(jù)評論數(shù)據(jù)長度進行清洗,去除垃圾廣告,去 除評論數(shù)據(jù)中的網(wǎng)址,去除自動評論數(shù)據(jù);將預(yù)處理后的評論數(shù)據(jù)用于下面步驟; 步驟3 :建立初始的行業(yè)情感詞庫,獲得1-gram構(gòu)建的情感詞庫和2-gram構(gòu)建的情感 詞庫; 步驟4 :對評論數(shù)據(jù)進行中文分詞,去除停用詞,獲取詞集合; 步驟5 :為詞集合中的所有詞建立和對應(yīng)文檔的索引,分別基于1-gram構(gòu)建的情感詞 庫和2-gram構(gòu)建的情感詞庫,使用聯(lián)合情緒模型對詞進行建模,獲取詞在不同情感分布 下,屬于不同主題的概率分布; 其中使用聯(lián)合情緒模型對詞進行建模具體是: 對于每一個文檔d,選擇一個分布d,Jid定義為Dir(Y)); 對于文檔d下的每一個情感標(biāo)記la,選擇一個分布0d,la,0d,la定義為Dir(Ci); 對于文檔d中的每一個詞Wi,選擇一個情感標(biāo)記Iai和主題Zi,Iai定義為d,Zi定義 為 0d,ia; 從主題Zi和情感標(biāo)記Iai所定義的詞分布里面選擇一個詞Wi定義為cpt; 其中,超參數(shù)a、0和Y使用吉布斯抽樣方法得到; 步驟6 :利用上下文信息重新確定句子中出現(xiàn)的情感詞的情感傾向值; 步驟7 :利用條件隨機場進行命名實體識別,抽取評論特征,對評論特征中的評價詞進 行統(tǒng)計,計算評價詞的情感傾向值。
2. 根據(jù)權(quán)利要求1所述的一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法,其特征在于,所述 的步驟2,利用下面的規(guī)則集對評論數(shù)據(jù)進行預(yù)處理,去除符合規(guī)則1?3的評論數(shù)據(jù): 規(guī)則1:評論數(shù)據(jù)的長度小于5個字; 規(guī)則2 :評論數(shù)據(jù)中含有特定的廣告詞; 規(guī)則3 :基于網(wǎng)絡(luò)特定回復(fù)模板的自動回復(fù); 規(guī)則4 :評論數(shù)據(jù)中含有網(wǎng)址,去除網(wǎng)址后再重新判斷是否符合規(guī)則1?3。
3. 根據(jù)權(quán)利要求1所述的一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法,其特征在于,所述 的步驟4獲取詞集合時,計算詞的逆向文件頻率idf和詞頻tf,確定詞的權(quán)值為log(tf/ (idf+1) +1),將權(quán)值與設(shè)定的權(quán)值閾值比較,進行詞集篩選,保留權(quán)值大于權(quán)值閾值的詞。
4. 根據(jù)權(quán)利要求1所述的一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法,其特征在于,所述 的步驟5具體包括如下子步驟: 步驟501 :對詞集合中的所有詞,建立和對應(yīng)文檔的索引; 步驟502 :分布調(diào)用利用1-gram構(gòu)建的情感詞庫和利用2-gram構(gòu)建的情感詞庫,進行 步驟503 ; 步驟503 :使用聯(lián)合情緒模型對詞進行建模,最后得到〈情感,主題,詞索引〉模型; 步驟504:對所得到的〈情感,主題,詞索引〉模型中的詞索引,轉(zhuǎn)換為詞本身,得到 詞在不同情感分布下,屬于不同主題的概率分布。
5. 根據(jù)權(quán)利要求1所述的一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法,其特征在于,所述 的步驟6具體是: 步驟601 :選取滑動窗口范圍W,對以當(dāng)前情感詞為中心的前W/2及后W/2范圍內(nèi)的詞 集合,選出其中的情感詞、否定詞、程度副詞和轉(zhuǎn)折連詞,分別計算所選出的詞對當(dāng)前情感 詞的影響; 步驟60 2 :將當(dāng)前情感詞在不同主題中的情感傾向,與文檔中出現(xiàn)的主題的概率對當(dāng) 前情感詞的情感傾向,進行權(quán)值加權(quán)求和,獲得當(dāng)前情感詞在句子中的最終情感傾向。
6.根據(jù)權(quán)利要求1所述的一種行業(yè)評論數(shù)據(jù)細粒度情感分析方法,其特征在于,所述 的步驟7在抽取評論特征時,根據(jù)命名實體識別結(jié)果,采用基于規(guī)則的抽取方式進行抽取, 評論特征表征為〈特征,評價詞〉,具體是:首先人工標(biāo)注種子特征和種子評價詞,然后利用 規(guī)則挖掘和種子評價詞相關(guān)的特征詞,統(tǒng)計〈新特征,種子評價詞〉的頻度,利用規(guī)則挖掘 和種子特征詞相關(guān)的評價詞,統(tǒng)計〈種子特征,新評價詞〉的頻度,直至挖掘不到新的〈特 征,評價詞〉對產(chǎn)生。
【文檔編號】G06F17/27GK104268197SQ201410486635
【公開日】2015年1月7日 申請日期:2014年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】鄧攀, 袁偉, 余雷, 閆碧瑩, 趙鑫, 萬安格 申請人:中科嘉速(北京)并行軟件有限公司