基于微博情感的實體識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及到網(wǎng)絡(luò)中大數(shù)據(jù)的采集與分析領(lǐng)域,具體涉及一種基于微博情感的實 體識別方法。 技術(shù)背景
[0002] 在國內(nèi),由于微博是近幾年才發(fā)展起來的新型社交媒體平臺,所以國內(nèi)針對微博 短文本的情感分析研究起步較晚。比較早的研究是葉強、張紫瓊和羅振雄三位學者建立在 普遍使用的N-P0S語言模型的基礎(chǔ)上進行中文詞組的特征提取,提出了中文雙詞主觀詞組 模型2-P0S,為漢字文本內(nèi)容的情感識別墊定基礎(chǔ)。在此之后,徐軍用樸素貝葉斯以及最大 熵等機器學習的方法來進行文本情感挖掘分類,其研究結(jié)果表明,在基于情感的中文文本 內(nèi)容分類中利用機器學習方法可以取得比較滿意的效果,準確率可以達到90%以上。對 于電影評論,胡熠應(yīng)用N-Gram語言模型、樸素貝葉斯分類方法和支持向量機(SVM)進行 情感分類研究,發(fā)現(xiàn)在文本訓練樣本有限不足的情況下,N-Gram語言模型的分類準確率更 高,而且具有良好的擴展性。在這些研究的基礎(chǔ)上,基于情感的文本挖掘的研究不斷增加, 相關(guān)研究領(lǐng)域得到擴展,如龐磊等學者通過樸素貝葉斯、SVM和最大熵三種分類方法,對新 浪微博中的股票評論內(nèi)容進行看漲和看跌的正負態(tài)度分類。傅向華、孫先和馮時通過不同 的角度對中文博客進行情感分析研究,并提出一種基于文檔主題生成模型與知網(wǎng)詞典的中 文博客多方面話題情感挖掘方法;將基于詞典統(tǒng)計的情感分析方法引入微博情感分析;提 出一種基于句法依存分析技術(shù)的算法SOAD(sentimentorientationanalysisbasedon syntacticdependency)對博文搜索結(jié)果進行情感傾向性分析。
[0003]總體而言,隨著互聯(lián)網(wǎng)的不斷發(fā)展,近年來,國外很多學者開始在更加廣泛的領(lǐng)域 進行情感挖掘研究,包括旅游博客、法律博客、影視評論等。情感挖掘旨在根據(jù)特殊的分類 方法從消費者對特定產(chǎn)品或者服務(wù)的評論中提取積極或者消極的態(tài)度,利用情感分類的結(jié) 果,消費者可以了解到做出購買決策的必要信息,商家可以獲悉用戶的反應(yīng)以及其競爭者 的表現(xiàn)。隨著計算機技術(shù)的廣泛使用,評論內(nèi)容的情感挖掘已經(jīng)成為近來研究的趨勢,廣泛 應(yīng)用于各個領(lǐng)域。
[0004]命名實體識別,同時也被稱之為實體識別或者Named-Entity-Recognition,是指 在一串文本中具有特定意義的實體,主要是指人名、地名、機構(gòu)名、專有名詞等。近些年來, 隨著計算機信息檢索技術(shù)以及搜索引擎技術(shù)得到了極速的發(fā)展,基于中文的命名實體識別 技術(shù)已經(jīng)成為自然語言處理研究界的熱點課題,根據(jù)國內(nèi)的研究現(xiàn)狀,目前基于中文的命 名實體識別的技術(shù)方法主要有以下四種:基于統(tǒng)計的識別方法、基于規(guī)則的識別方法、規(guī)則 和統(tǒng)計相結(jié)合的識別方法、基于機器學習的識別方法。
[0005] (1)基于統(tǒng)計的方法
[0006]中文的命名實體識別采用的統(tǒng)計模型主要有:隱馬爾科夫模型、決策樹模型、支持 向量機模型、最大熵模型和條件隨機場模型。Asahara通過采用支持向量機的方法對中國的 人名及組織機構(gòu)的進行了自動識別,取得了比較好的結(jié)果。
[0007] ⑵基于規(guī)則的方法
[0008] 基于規(guī)則的命名實體識別技術(shù)主要是利用兩種信息:限制性成分和命名實體用 詞。Tan采取的是基于轉(zhuǎn)換錯誤驅(qū)動的方法從而獲取命名實體地名的上下文的聯(lián)系規(guī)則,然 后使用這些規(guī)則實現(xiàn)對中文地名的自動識別,經(jīng)過一定的數(shù)據(jù)測試表明,該識別方法的準 確率可以達到97%。
[0009] ⑶規(guī)則與統(tǒng)計相結(jié)合的方法
[0010] 目前主流的一些中文命名實體自動識別系統(tǒng)將規(guī)則以及統(tǒng)計相結(jié)合起來,它先 采用統(tǒng)計學的方法對實體進行鏡像識別,然后利用規(guī)則對其進行校正過濾。黃德根利用從 大量的真實文本數(shù)據(jù)中得到的大量的統(tǒng)計數(shù)據(jù),并計算出每個人名的持續(xù)構(gòu)詞可信度和構(gòu) 詞可信度,然后結(jié)合一定的規(guī)則對中國人名進行自動識別。
[0011] (4)基于機器學習的方法
[0012] 在英文中的命名實體識別技術(shù)比中文的命名實體識別技術(shù)要簡單很多,因為英文 沒有分詞帶來的麻煩,而中文的分詞準確率是影響中文命名實體識別技術(shù)的關(guān)鍵因素。英 文里的命名實體識別技術(shù)已經(jīng)比較成熟,利用支持向量機的機器學習方法對英文單詞進行 分類,可以達到99%以上的地名和人名識別準確率。
[0013] 微博作為一種社交網(wǎng)站的主要媒體形式,越來越受到人們的青睞。人們傾向于從 微博上獲取新聞、評論、娛樂等信息,不知不覺間,微博對網(wǎng)絡(luò)輿情傳播的影響越來越嚴重。 微博信息中包含不同趨向的情感特征,挖掘這些特征對于輿情監(jiān)控、市場營銷、謠言控制都 有重要意義。大多數(shù)的情感分析都只是把文本情感分成正中負3類,如果直接將這種粗粒 度的情感分析應(yīng)用到微博這個社交媒體,對人們的理解幫助有限,不足以達到真正的聆聽 社會脈動,傾聽社會情感的目的。
【發(fā)明內(nèi)容】
[0014] 針對現(xiàn)有技術(shù)的不足,本發(fā)明設(shè)計出了一種基于微博情感的實體分析技術(shù),本發(fā) 明識別精度高,處理速度快,適用于大規(guī)模數(shù)據(jù)的精確識別。
[0015] 為實現(xiàn)上述目的,本發(fā)明采用了如下的技術(shù)方案,一種基于微博情感的實體識別 方法,包括以下幾個步驟:
[0016] 步驟1.訓練階段,選取最優(yōu)機器學習算法;
[0017] 步驟1. 1根據(jù)Circumplex環(huán)形情感模型,構(gòu)造四類情感詞詞典;
[0018] 所述的四類情感詞詞典映射到一個二維坐標系之中,這四個維度的坐標軸分別 是:快樂并活躍,快樂但不活躍,不快樂但活躍和不快樂不活躍;
[0019] 步驟1. 2使用網(wǎng)絡(luò)API采集技術(shù),以四類情感詞為關(guān)鍵詞從微博上獲取微博數(shù)據(jù), 作為訓練數(shù)據(jù)。
[0020] 步驟1. 3對采集到的訓練數(shù)據(jù)進行預(yù)處理,生成規(guī)范的訓練數(shù)據(jù)集;
[0021] 步驟1. 4對訓練數(shù)據(jù)提取關(guān)鍵字,依據(jù)向量空間模型對訓練數(shù)據(jù)集進行向量化;
[0022] 將標點符號和表情符號同樣作為一個標識進行向量化,可以更加有效和貼切的對 文本的情感進行分析。標點符號和表情符號的向量化是將表情符號和標點符號替換成相應(yīng) 的英文單詞,然后再進行單詞向量化的,例如:笑臉替換為happy,happy的詞向量(1,0,0, 1,1,2)〇
[0023] 步驟1. 5依據(jù)預(yù)設(shè)的機器學習算法,分別對向量化的訓練數(shù)據(jù)集進行情感分類和 5重交叉驗證;
[0024] 步驟1. 6計算每個機器學習算法5次交叉驗證的準確率和召回率,挑選出準確率 和召回率平均值最高的機器學習算法作為最優(yōu)機器學習分類算法。
[0025] 步驟2.實驗階段,根據(jù)步驟1得到的最優(yōu)機器學習分類算法,得到被識別的情感 實體。
[0026] 步驟2. 1按照步驟1中步驟1. 1至步驟1. 4相同的方法獲取向量化的實驗數(shù)據(jù) 集;
[0027] 步驟2. 2使用步驟1中的得到的最優(yōu)機器學習分類算法,對實驗數(shù)據(jù)集進行分類, 得到四類情感數(shù)據(jù)集;
[0028] 步驟2. 3對四類情感數(shù)據(jù)集分別進行一次實體抽取,得到被識別的情感實體。
[0029] 進一步的,所述的步驟1. 3中的預(yù)處理,包括修正錯誤詞組、刪除無關(guān)詞組、修正 錯誤詞組、刪除歧義的微博和同義詞轉(zhuǎn)換;所述的修正錯誤詞組是指對拼寫錯誤的單詞進 行修正;刪除無關(guān)詞組指對情感分析沒有任何益處的單詞進行刪除;刪除歧義的微博指在 一個文本卻屬于不同的情感類別的微博;同義詞轉(zhuǎn)換是指把相同意思的詞用另一個詞代 替。
[0030] 優(yōu)選的,所述的步驟1. 4中使用TF-IDF算法提取關(guān)鍵詞,如果包含表情和標點符 號,則將常用的表情符號和表示語氣的標點符號轉(zhuǎn)化為相應(yīng)的單詞。
[0031] 優(yōu)選的,所述的步驟1. 4中使用word2vec開源工具構(gòu)建詞向量,依據(jù)向量空間模 型對訓練數(shù)據(jù)集進行向量化。
[0032] 優(yōu)選的,所述的步驟2.3中,使用SENNA深度學習工具包,對四類情感數(shù)據(jù)集分別 進行一次實體抽取。
[0033] 優(yōu)選的,所述的步驟1.5中,預(yù)設(shè)的機器學習算法包括樸素貝葉斯、邏輯回歸、支 持向量機和K近鄰算法4種機器學習算法。
[0034] 本發(fā)明通過機器深度學習進行分類和實體識別,對微博的情感進行更加細粒度的 實體識別,識別的精確度高,效果好。會產(chǎn)生如下的益處:
[0035] 1.將數(shù)據(jù)處理和分析后可以進行更加細的粒度的情感分析;
[0036] 2.通過獲得的細粒度情感分析,可以反應(yīng)人們對微博這個群體的情緒狀況;
[0037] 3.有利于政府,組織,個體對社會情感的理解和把握。
【附圖說明】
[0038] 圖1是本發(fā)明的流程圖;
【具體實施方式】
[0039] 為使本發(fā)明的技術(shù)手段,創(chuàng)作特征,達成目的與功效易于明白了解,下面結(jié)合具體 實施方式,進一步闡述本發(fā)明。
[0040] 微博中的數(shù)據(jù)很大,依靠人工的方法對其進行分類,將花費大量的人力物力財力, 因此使用微博中提供的Hashtag主題標簽作為該微博的情感。我們認為若一個微博被該情 感類別標簽標記,則該微博屬于這個情感類別。
[0041] 一種基于微博情感的實體識別方法,包括以下幾個步驟:
[0042] 步驟1.訓練階段,選取最優(yōu)機器學習算法;
[0043] 步驟1. 1根據(jù)Circumplex環(huán)形情感模型,構(gòu)造四類情感詞詞典;所述的四類情感 詞詞典映射到一個二維坐標系之中,這四個維度的坐標軸分別是:快樂并活躍,快樂但不活 躍,不快樂但活躍和不快樂不活躍;
[0044] 步驟1. 2使用網(wǎng)絡(luò)API采集技術(shù),以四類情感詞為關(guān)鍵詞從微博上獲取微博數(shù)據(jù), 作為訓練數(shù)據(jù)。
[0045] 步驟1. 3對采集到的訓練數(shù)據(jù)進行預(yù)處理,生成規(guī)范的訓練數(shù)據(jù)集;對數(shù)據(jù)的預(yù) 處理包括:修正錯誤詞組,刪除無關(guān)詞組,刪除歧義數(shù)據(jù),同義詞轉(zhuǎn)換。
[0046] 修正錯誤詞組是指對拼寫錯誤的單詞進行修正,例如:eta修正為eat,刪除無關(guān) 詞組指那些對情感分析沒有任何益處的單詞進行刪除,例如the,of等無實際意義的單詞, 刪除歧義的微博指那些一個文本卻屬于不同的情感類別的微博。同義詞轉(zhuǎn)換是指把相同意 思的詞用一個詞代替。