两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于微博的情感詞提取收集方法

文檔序號:6432320閱讀:392來源:國知局
專利名稱:基于微博的情感詞提取收集方法
技術領域
本發(fā)明屬于自然語言處理技術領域,具體地說,是涉及一種基于微博的情感詞提取收集方法。
背景技術
隨著互聯(lián)網的不斷發(fā)展,人們越來越習慣于在網絡上表達自己的觀點和情感。在網絡上存在大量的帶有情感傾向性的文本,這些帶有情感傾向性文本往往以商品評論、論壇評論、博客的形式存在。為了自動獲取和分析此類主觀信息,文本情感分析(Sentiment Analysis)的研究得到了迅速發(fā)展,受到學術界和商業(yè)界的密切關注。情感詞典構建是情感分析任務中的一個基礎任務。情感詞典有助于幫助自動分類句子級別或者篇章級別的情感極性(例如,正和負,褒和貶等),是眾多情感分類方法的基礎資源。情感詞典的構建的任務可以理解為將詞語按照情感傾向分為褒義、中性或者貶義, 它是文本情感分析研究中的一個重要的基礎任務。目前,微博是《吐2. 0時代新興起的一種集成化、開放化的互聯(lián)網社交服務。它打通了移動通信網和互聯(lián)網的界限,用戶可以通過手機、IM軟件和外部API接口等途徑,即時向外發(fā)布140字以內的文本,越來越受到互聯(lián)網用戶的青睞。數(shù)據顯示,截止到2011年5 月底,僅在Twitter網上的微博注冊用戶就已達3億。以新浪微博為例,從2009年8月新浪微博開始發(fā)布到2011年4月,僅20個月的時間,新浪微博注冊用戶便達到1. 42億,用戶平均每天要發(fā)布近5000萬條微博內容。隨著微博用戶的迅速增長,微博的發(fā)布量也在急速增長。重要的是,如此大規(guī)模的微博文本中包含了大量的評論文本,這些評論文本中包含的大量情感詞,都能很好的反映人們對該微博文本的看法和意見,為文本情感分析的研究提供了豐富的資源。可是在實際收集工作中,大部分都是基于人工的收集方法,即給定詞后,人工判斷詞語的情感極性。這種方法一個明顯的不足就是人工對情感極性的標注代價比較大,不管是時間和經濟方面,都需要付出很多。除了人工標注的方法外,也有些是使用自動判斷的方法,例如使用HowNet資源的方法進行自動獲取詞語的情感傾向。但是,這些方法兩個共同的不足,一是由于情感詞的極性分類效果欠佳,獲得的情感詞極性正確率不高,二是由于資源的有限性,不能夠及時對情感詞進行更新。

發(fā)明內容
鑒于以上不足,本發(fā)明實施例提供了一種基于微博的情感詞提取收集方法,即以微博為數(shù)據來源,結合情感圖標收集評論文本,并使用特征提取方法收集情感詞,實現(xiàn)情感詞極性的正確率的提高。本發(fā)明提供的一種基于微博的情感詞提取收集方法,其包括步驟接收情緒圖標, 并獲取與所述情緒圖標相對應的情緒圖標極性;利用所述情緒圖標以及主題關鍵詞搜索并收集微博語料;根據所述情緒圖標極性對微博語料進行情感分類;對所述微博語料進行分
4詞,并獲取所述詞的詞性標注;從使用特征提取方法所述微博語料中提取情感詞,并收集。從以上技術方案可以看出,本發(fā)明實施例提供的情感詞提取收集方法,主要是以微博為資源來源,利用少量情緒圖標及其極性收集大量的情感語料,再結合特征提取方法抽取情感詞,由于微博的文本資源極性豐富,牽涉的領域非常多,并且內容更新速度快,這樣收集有利于保障提取收集的情感詞的規(guī)模和時效性;而且由于情感圖標表達情感極性的歧義小,結合特征提取方法,大大提高了收集的情感詞的正確率。


圖1為本發(fā)明提供的一種基于微博的情感詞提取收集方法中一實施例的方法流程圖;圖2為圖1所述的提取收集方法中另一實施例的方法流程圖。
具體實施例方式下面結合附圖,對本發(fā)明實施例提供了一種基于微博的情感詞提取收集方法作詳細說明。本發(fā)明實施例提供的一種基于微博的情感詞提取收集方法,請參考圖1,其步驟包括101、接收情緒圖標,并獲取與情緒圖標相對應的情緒圖標極性;接收從至少一個微博文本中收集到的情緒圖標,其中,情緒圖標(Emotion Image) 是指微博文本中用來表達用戶情緒的圖標,接著,在接收這些收集到的情緒圖標之后,根據預置的情緒圖標及其情感極性的對應關系表,獲取與收集到的情緒圖標相對應的情緒圖標極性。需要提出的是,情緒圖標包括正面情緒圖標和負面情緒圖標,同樣,所述情緒圖標極性包括正面和負面。可以理解的是,在中文微博中會經常出現(xiàn)一些情緒圖標,這些情緒圖標用于表達用戶的情緒,在一些評論博客文本中,這些情緒圖標還可以表達明顯的情感極性信息。例如表示失望的圖標,在評論文本中出現(xiàn)這個圖標同時也表示強烈的負面情感極性。由于這些情緒圖標在不同領域都會出現(xiàn),而且表達的情感信息一般比較一致,使用它們對文本情感極性進行分類具有領域獨立性。為便于理解,本發(fā)明在預置的情緒圖標及其情感極性的對應關系表中,從大量的情緒圖標里選取了正面表情與負面表情各八種情緒傾向比較明確的情緒圖標,具體如表1 中圖標所示。表 權利要求
1.一種基于微博的情感詞提取收集方法,其特征在于,包括步驟接收情緒圖標,并獲取與所述情緒圖標相對應的情緒圖標極性;利用所述情緒圖標以及主題關鍵詞搜索并收集微博語料;根據所述情緒圖標極性對微博語料進行情感分類;對所述微博語料進行分詞,并獲取所述詞的詞性標注;使用特征提取方法從所述微博語料中提取情感詞,并收集。
2.根據權利要求1所述的提取收集方法,其特征在于,所述接收情緒圖標,并獲取與所述情緒圖標相對應的情緒圖標極性具體包括接收從微博文本中收集到的情緒圖標,根據預置的情緒圖標及其情感極性的對應關系表,獲取與所述情緒圖標相對應的情緒圖標極性。
3.根據權利要求1所述的提取收集方法,其特征在于,所述利用所述情緒圖標以及主題關鍵詞搜索并收集微博語料包括利用所述情緒圖標以及主題關鍵詞,并借助微博搜索平臺,搜索并收集包含所述情緒圖標以及主題關鍵詞的微博語料。
4.根據權利要求1所述的提取收集方法,其特征在于所述情緒圖標包括正面情緒圖標和負面情緒圖標;所述情緒圖標極性包括正面和負面。
5.根據權利要求4所述的提取收集方法,其特征在于,所述根據所述情緒圖標極性對微博語料進行情感分類包括根據所述情緒圖標極性,若微博語料中僅出現(xiàn)了正面情緒圖標,則將該微博語料分為正類微博語料;若僅出現(xiàn)負面情緒圖標,則將該微博語料分為負類微博語料。
6.根據權利要求1所述的提取收集方法,其特征在于,所述對所述微博語料進行分詞, 并獲取所述詞的詞性標注具體包括使用最大概率法或最大匹配法或條件隨機場方法,對已分類的微博語料進行分詞,并獲取所述詞的詞性標注,使得所述微博語料包含了詞序列信息和詞性信息。
7.根據權利要求1所述的提取收集方法,其特征在于,所述使用特征提取方法從所述微博語料中提取情感詞包括使用基于互信息特征提取方法中的抽取規(guī)則,從已分詞的微博語料中提取情感詞。
8.根據權利要求7所述的提取收集方法,其特征在于,所述互信息特征提取方法包括
9.根據權利要求7所述的提取收集方法,其特征在于,所述抽取規(guī)則包括抽取互信息值I (t,Ci)大于閥值ο = 0. 15的詞,且其詞性為形容詞或副詞或動詞中的一種。
10.根據權利要求1所述的提取收集方法,其特征在于,所述使用特征提取方法從所述微博語料中提取情感詞之后包括判斷提取的情感詞的極性。
11.根據權利要求10所述的提取收集方法,其特征在于,所述判斷提取的情感詞的極性包括若提取的情感詞在正類微博語料比在負類微博語料出現(xiàn)的次數(shù)多,則將其極性視為正若提取的情感詞在負類微博語料比在正類微博語料出現(xiàn)的次數(shù)多,則將其極性視為負
12.根據權利要求10所述的提取收集方法,其特征在于,所述判斷提取的情感詞的極性之后包括對提取的情感詞的極性的正確性進行判定。
13.根據權利要求12所述的提取收集方法,其特征在于,所述對提取的情感詞的極性的正確性進行判定包括在預置的情感詞與情感詞對應表中,獲取提取的情感詞相對應的情感詞的極性,并與提取的情感詞的極性相比較,若極性一致,則提取的情感詞的極性正確;若極性不一致,則提取的情感詞的極性不正確。
全文摘要
本發(fā)明實施例公開了一種基于微博的情感詞提取收集方法,其步驟包括接收情緒圖標,并獲取與所述情緒圖標相對應的情緒圖標極性;利用所述情緒圖標以及主題關鍵詞搜索并收集微博語料;根據所述情緒圖標極性對微博語料進行情感分類;對所述微博語料進行分詞,并獲取所述詞的詞性標注;使用特征提取方法從所述微博語料中提取情感詞,并收集;本實施例提供的提取收集方法利于保障提取收集的情感詞的規(guī)模和時效性,同時也大大提高了收集的情感詞的正確率。
文檔編號G06F17/27GK102279890SQ20111025887
公開日2011年12月14日 申請日期2011年9月2日 優(yōu)先權日2011年9月2日
發(fā)明者周國棟, 李壽山, 王紅玲 申請人:蘇州大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
天等县| 阿鲁科尔沁旗| 铁力市| 抚远县| 浪卡子县| 扶风县| 怀仁县| 永定县| 土默特右旗| 阳原县| 勐海县| 武强县| 武宣县| 区。| 大丰市| 湟中县| 汉川市| 鄂温| 宁化县| 贺兰县| 乌什县| 丰县| 祁阳县| 深水埗区| 阜南县| 钟山县| 壶关县| 永川市| 周至县| 灵武市| 石棉县| 乌苏市| 池州市| 深圳市| 嘉祥县| 平原县| 吉水县| 修武县| 商丘市| 田林县| 沁水县|