一種面向雙語微博文本的多類情感分析方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種面向雙語微博文本的多類情感分析方法與系統(tǒng),屬于微博文本情感分析【技術(shù)領(lǐng)域】,包括以下步驟:(1)雙語詞典構(gòu)建:首先收集一定規(guī)模具有情感傾向的語料,并從語料中提取出具有情感傾向的高頻詞匯;然后用已有知識庫和詞匯相似度計(jì)算模型對情感詞典進(jìn)行擴(kuò)展;最后在情感詞典中加入網(wǎng)絡(luò)語言和表情符號;(2)文本預(yù)處理:對待識別文本進(jìn)行分詞并去除停用詞以及英文詞形規(guī)范化處理;(3)文本特征空間表示:利用所述雙語情感詞典對文本進(jìn)行向量化;(4)利用多情感分類模型實(shí)現(xiàn)語料文本的情感識別任務(wù)。本發(fā)明方法的準(zhǔn)確率和F1值高于傳統(tǒng)的分類方法,特別是半監(jiān)督高斯混合模型分類算法在小規(guī)模訓(xùn)練集下的分類效果明顯優(yōu)于其他方法。
【專利說明】-種面向雙語微博文本的多類情感分析方法與系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種情感分析方法與系統(tǒng),特別涉及一種面向雙語微博文本的多類情 感分析方法與系統(tǒng),屬于微博文本情感分析【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 隨著社交媒體平臺的興起與移動設(shè)備的廣泛使用,人們已經(jīng)習(xí)慣用140個(gè)字符來 傳情達(dá)意表達(dá)訴求。發(fā)布微博已成為個(gè)體表達(dá)情感的重要手段,因此針對微博文本進(jìn)行情 感傾向分析具有重要的現(xiàn)實(shí)意義。目前,新浪微博已成為國內(nèi)網(wǎng)絡(luò)輿論的主要載體,大量用 戶通過微博進(jìn)行信息交互和情感表達(dá)。針對用戶微博文本進(jìn)行情感分類系統(tǒng)的開發(fā)進(jìn)而完 成情感辨識,在輿情監(jiān)測、產(chǎn)品測評等領(lǐng)域都有著重要的參考意義。
[0003] 現(xiàn)有情感分析系統(tǒng)多將微博文本分為正向情感和負(fù)向情感兩類。但是人類的情感 是復(fù)雜多樣的,正向情感包括如信任、感激、慶幸等情緒,負(fù)向情感則包括如痛苦、鄙視、仇 恨、嫉妒等。簡單的將情感分為兩類不能夠保證情感辨別的準(zhǔn)確度。目前尚缺少能撲捉群 體關(guān)注的細(xì)粒度情感分類系統(tǒng)。目前的微博情感分析系統(tǒng)的主要針對單一語種文本即中文 情感傾向進(jìn)行統(tǒng)計(jì)分析,然而近年來由于中國大陸地區(qū)教育水平的提高,W及國際化趨勢 的影響,中英文搭配使用或純英文書寫已逐漸成為個(gè)體情感表達(dá)的重要形式。該種中英文 混搭的微博文本也為微博情感分析帶來新的挑戰(zhàn)。基于單語情感分析方法的情感分類系統(tǒng) 不再適合越來越復(fù)雜的微博語言環(huán)境。
[0004] 此外,目前情感詞匯的辨別工作大部分采用機(jī)器翻譯的方法獲取情感詞匯,但對 于微博文本,由于其短文本、140字的限制,詞匯構(gòu)成比較復(fù)雜,英文但語、網(wǎng)絡(luò)流行短語數(shù) 目與日俱增,機(jī)器翻譯的質(zhì)量無法得到保證。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是為解決現(xiàn)有微博情感分析方法分類粒度粗、對于中英文混搭的微 博文本分析質(zhì)量不高、情感詞匯的辨別方法滯后的問題,在微博文本情感領(lǐng)域提供一種基 于微博語料的中英雙語情感詞典構(gòu)造方法W及一種基于雙語詞典的微博多類情感分析方 法和雙語微博文本多類情感分析系統(tǒng),從而針對微博文本進(jìn)行多類情感分析。
[0006] 本發(fā)明技術(shù)方案的思想是通過收集大量具有情感傾向的微博文本語料,構(gòu)建中英 情感詞典庫,采用半監(jiān)督與全監(jiān)督的混合模型構(gòu)建多種情感分類器,在對雙語文本進(jìn)行文 本處理之后根據(jù)詞匯情感類別對文本進(jìn)行空間特征表示,從而利用構(gòu)建的多種情感分類器 實(shí)現(xiàn)微博文本的情感識別任務(wù)。
[0007] 本發(fā)明的具體實(shí)現(xiàn)步驟如下:
[0008] -種中英雙語情感詞典構(gòu)造方法,該方法包括W下步驟:
[0009] 步驟一、抓取微博網(wǎng)頁,從網(wǎng)頁中收集具有情感傾向的中英文語料,并從語料集中 提取出具有情感傾向的高頻詞匯加入情感詞典庫;
[0010] 步驟二、應(yīng)用已有知識庫對所述情感詞典進(jìn)行擴(kuò)展;
[0011] 步驟H、分析抓取的微博語料,將網(wǎng)絡(luò)新興語言和表情符號加入所述情感詞典。
[0012] 較優(yōu)的,所述情感傾向包括社會關(guān)愛、高興、悲傷、憤怒和恐懼五類。
[0013] 較優(yōu)的,所述知識庫包括WordNet、NTUSD和化wNet。
[0014] 較優(yōu)的,所述步驟二的擴(kuò)展是通過分別計(jì)算各知識庫中情感詞匯與情感詞典中各 情感傾向詞匯的平均相似度,并將情感詞擴(kuò)充到相似度最大的情感傾向分類中。
[0015] 較優(yōu)的,對所述網(wǎng)絡(luò)新興語言和表情符號采用多人舉手投票的方式對其情感傾向 進(jìn)行分類。
[0016] 一種基于雙語詞典的多類情感分析方法,該方法包括W下步驟:
[0017] 步驟一、對語料文本進(jìn)行預(yù)處理;
[0018] 步驟二、依照所述中英雙語情感詞典對所述語料文本進(jìn)行特征空間表示;
[0019] 步驟H、根據(jù)已建立的文本情感分類器模型對語料文本進(jìn)行情感分類。
[0020] 較優(yōu)的,所述預(yù)處理包括分詞和去停用詞,對于英文文本還包括詞形規(guī)范化。
[0021] 較優(yōu)的,所述文本特征空間表示是將語料中每一條文本表示成五維向量,向量中 每個(gè)元素分別代表包含的所述中英雙語情感詞典中對應(yīng)類別的情感詞的個(gè)數(shù)。
[0022] 較優(yōu)的,所述情感分類器模型為半監(jiān)督高斯混合模型分類算法(Semi-GMM)或基 于對稱相對賭的K近鄰算法(KNN-KL)。
[0023] 較優(yōu)的,所述半監(jiān)督高斯混合模型分類算法是通過已標(biāo)記的訓(xùn)練語料集學(xué)習(xí)高斯 混合模型,然后W該模型參數(shù)和已標(biāo)記樣本的概率分布作為高斯混合模型的參數(shù)初值對已 標(biāo)記的測試語料集進(jìn)行迭代學(xué)習(xí),直至算法收斂或未標(biāo)注集合為空。
[0024] 較優(yōu)的,所述基于對稱相對賭的K近鄰算法是采用相對賭對文本情感相似性進(jìn)行 度量W表達(dá)文本的距離,依據(jù)鄰近樣本的類別來決定待分類樣本所屬類別。
[0025] 較優(yōu)的,所述相對賭采用如下公式進(jìn)行計(jì)算:
[0026]
【權(quán)利要求】
1. 一種中英雙語情感詞典構(gòu)造方法,其特征在于:包括以下步驟: 步驟一、抓取微博網(wǎng)頁,從網(wǎng)頁中收集具有情感傾向的中英文語料,并從語料集中提取 出具有情感傾向的1?頻詞匯加入情感詞典庫; 步驟二、應(yīng)用已有知識庫對所述情感詞典進(jìn)行擴(kuò)展; 步驟三、分析抓取的微博語料,將網(wǎng)絡(luò)新興語言和表情符號加入所述情感詞典。
2. 根據(jù)權(quán)利要求1所述的一種中英雙語情感詞典構(gòu)造方法,其特征在于:所述情感傾 向包括社會關(guān)愛、高興、悲傷、憤怒和恐懼5類。
3. 根據(jù)權(quán)利要求1所述的一種中英雙語情感詞典構(gòu)造方法,其特征在于:步驟二的擴(kuò) 展是通過分別計(jì)算各知識庫中情感詞匯與情感詞典中各情感傾向詞匯的平均相似度,并將 情感詞擴(kuò)充到相似度最大的情感傾向分類中;所述知識庫包括WordNet、NTUSD和HowNet。
4. 根據(jù)權(quán)利要求1-3任一所述的一種中英雙語情感詞典構(gòu)造方法,其特征在于:對所 述網(wǎng)絡(luò)語言和表情符號采用多人舉手投票的方式對其情感傾向進(jìn)行分類。
5. -種基于雙語詞典的多類情感分析方法,該方法包括以下步驟: 步驟一、對語料文本進(jìn)行預(yù)處理; 步驟二、依照所述中英雙語情感詞典對所述語料文本進(jìn)行特征空間表示; 步驟三、根據(jù)已建立的文本情感多分類模型對語料文本進(jìn)行情感分類。
6. 根據(jù)權(quán)利要求5所述的一種基于雙語詞典的微博多類情感分析方法,其特征在于: 所述預(yù)處理進(jìn)一步包括分詞和去停用詞,對于英文文本還包括詞形規(guī)范化。
7. 根據(jù)權(quán)利要求5所述的一種基于雙語詞典的微博多類情感分析方法,其特征在于: 所述文本特征空間表示是將語料中每一條文本表示成五維向量,向量中每個(gè)元素分別代表 包含的所述中英雙語情感詞典中對應(yīng)類別的情感詞的個(gè)數(shù)。
8. 根據(jù)權(quán)利要求5所述的一種基于雙語詞典的微博多類情感分析方法,其特征在于: 所述情感多分類模型為半監(jiān)督高斯混合模型分類算法或基于對稱相對熵的K近鄰算 法; 所述半監(jiān)督高斯混合模型分類算法是通過已標(biāo)記的訓(xùn)練語料集學(xué)習(xí)高斯混合模型, 然后以該模型參數(shù)和已標(biāo)記樣本的概率分布作為高斯混合模型的參數(shù)初值對已標(biāo)記的測 試語料集進(jìn)行迭代學(xué)習(xí),直至算法收斂或未標(biāo)注集合為空; 所述基于對稱相對熵的K近鄰算法是采用相對熵對文本情感相似性進(jìn)行度量以表達(dá) 文本的距離,依據(jù)鄰近樣本的類別來決定待分類樣本所屬類別。
9. 根據(jù)權(quán)利要求8所述的一種基于雙語詞典的微博多類情感分析方法,其特征在于: 所述相對熵采用如下公式進(jìn)行計(jì)算:
其中,Ti為已標(biāo)記文本的歸一化向量表不,Tj為未標(biāo)記文本的歸一化向量表不,to ik、 ?jk分別表示凡、L的第k項(xiàng),k為1到5之間的整數(shù)。
10. -種面向雙語微博文本的多類情感分析系統(tǒng),其特征在于:包括中英雙語情感詞 典,語料預(yù)處理模塊,語料文本特征空間表示模塊和情感分類器識別模塊四個(gè)模塊; 中英雙語情感詞典采用如權(quán)利要求1所述中英雙語情感詞典構(gòu)造方法構(gòu)建; 語料預(yù)處理模塊用于對待分析的語料本文進(jìn)行分詞和去停用詞處理,對于英文文本還 要進(jìn)行詞形規(guī)范化處理; 語料文本特征空間表示模塊用于對經(jīng)語料預(yù)處理模塊處理后的文本進(jìn)行向量化表示, 將文本處理為五維向量,向量中的五個(gè)元素分別表示文本中包含在所述中英雙語情感詞典 中社會關(guān)愛、高興、悲傷、憤怒和恐懼五類情感詞的個(gè)數(shù); 情感分類器識別模塊用于采用如權(quán)利要求8所述情感分類器模型對語料文本向量進(jìn) 行情感識別,確定語料文本所屬的情感類別。
【文檔編號】G06F17/27GK104331506SQ201410670909
【公開日】2015年2月4日 申請日期:2014年11月20日 優(yōu)先權(quán)日:2014年11月20日
【發(fā)明者】禮欣, 栗雨晴, 韓煦, 宋丹丹, 廖樂健 申請人:北京理工大學(xué)