两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種情感詞傾向性的分析方法

文檔序號(hào):6599795閱讀:227來(lái)源:國(guó)知局
專利名稱:一種情感詞傾向性的分析方法
技術(shù)領(lǐng)域
本發(fā)明涉及情感詞的分類技術(shù),更具體地,本發(fā)明涉及一種情感詞傾向性的分析
方法。
背景技術(shù)
隨著web2.0技術(shù)的快速發(fā)展與廣泛應(yīng)用,網(wǎng)絡(luò)上出現(xiàn)了越來(lái)越多的用戶原創(chuàng)內(nèi) 容(UGC, User Generated Content),例如BBS系統(tǒng)上發(fā)布的內(nèi)容,網(wǎng)上商店中用戶對(duì)商品 或者賣家的評(píng)論,現(xiàn)在的網(wǎng)絡(luò)視頻及其評(píng)論信息,以及諸如博客和微博客系統(tǒng)的各種讓網(wǎng) 絡(luò)用戶能夠暢談自己想法的系統(tǒng)。隨著人們上網(wǎng)的便利性和手機(jī)上網(wǎng)的普及性,用戶原創(chuàng) 內(nèi)容迅速膨脹,各個(gè)方面對(duì)這種信息的關(guān)注也逐漸增多。例如廠家希望通過(guò)分析買家對(duì)商 品的評(píng)論信息,來(lái)獲知人們對(duì)該商品的期望以及該商品存在的優(yōu)點(diǎn)和缺點(diǎn),從而更好的對(duì) 該產(chǎn)品進(jìn)行改進(jìn)和促銷,以增加該產(chǎn)品的銷售。人們可以通過(guò)對(duì)電影評(píng)論的情感傾向性的 分析,來(lái)獲知觀眾對(duì)該電影的認(rèn)可程度。政府可以通過(guò)對(duì)網(wǎng)絡(luò)上的評(píng)論進(jìn)行情感傾向性的 分析,來(lái)了解群眾對(duì)某一政策或者事件所持的觀點(diǎn),從而更好地實(shí)施政策或者處理事件。
當(dāng)前對(duì)情感詞的傾向性的計(jì)算,比較經(jīng)典的有Turney的PMI-IR(PointMutual Information-Information Retrieval)算法,該算法需要非常大量的語(yǔ)料庫(kù),通過(guò)計(jì)算當(dāng) 前情感詞與正反向種子情感詞之間的相關(guān)性,得到情感詞的傾向性。該算法非常依賴種子 情感詞的選擇和語(yǔ)料庫(kù)的質(zhì)量,并且很難獲取到大規(guī)模的帶有情感的語(yǔ)料庫(kù),另外該算法 沒(méi)有考慮到情感詞所依賴的詞的上下文環(huán)境,只是簡(jiǎn)單的從詞的共現(xiàn)頻數(shù)方面進(jìn)行計(jì)算。
此外,還存在利用同義詞的方法來(lái)計(jì)算情感詞的傾向性,該方法需要找到一個(gè)同 義詞詞典,并且該同義詞詞典中,必須對(duì)每個(gè)詞的同義詞集合按照關(guān)聯(lián)緊密程度進(jìn)行了排 序。在計(jì)算同義詞的相關(guān)性時(shí),必須要考慮到一個(gè)詞在經(jīng)過(guò)一定的跳轉(zhuǎn)后,可能與意義相反 的兩個(gè)詞的詞義均相同,這使得在計(jì)算一個(gè)詞的情感傾向性時(shí),既要求種子情感詞的選擇 很嚴(yán)格,同時(shí)又要求同義詞詞典能夠符合上述要求。由于部分情感詞的傾向性依賴于上下 文,這又使得同義詞詞典中同義詞集合的排序可能對(duì)某些領(lǐng)域中該詞的情感傾向性計(jì)算有 利,而對(duì)其它的領(lǐng)域來(lái)說(shuō)可能會(huì)得到該詞錯(cuò)誤的情感傾向性。

發(fā)明內(nèi)容
為克服現(xiàn)有情感詞的傾向性計(jì)算中詞庫(kù)難以獲取、準(zhǔn)確性差以及人工影響的缺 陷,本發(fā)明提出 一種情感傾向性的分析方法。 根據(jù)本發(fā)明的一個(gè)方面,提出了一種情感詞傾向性的分析方法,包括
步驟10)、抓取網(wǎng)絡(luò)上帶有星級(jí)的評(píng)論信息;
步驟20)、抽取評(píng)論信息中的情感詞; 步驟30)、通過(guò)將利用星級(jí)數(shù)值化計(jì)算得到的情感詞傾向性、利用構(gòu)建的種子情 感詞基于PMI-IR算法獲取的情感詞傾向性以及基于連詞性質(zhì)計(jì)算的情感詞傾向性加權(quán)求 和,獲取情感詞的傾向性。
該方法還包括步驟40)、將具有傾向性的情感詞的列表歸類,對(duì)于傾向性值大于 閾值的情感詞作為正向情感詞,對(duì)于傾向性值小于閾值的情感詞作為負(fù)向情感詞,其它的 作為中性的情感詞,獲取情感詞詞典。
其中,步驟10)還包括根據(jù)網(wǎng)頁(yè)內(nèi)容的布局來(lái)設(shè)置不同的抽取模板與規(guī)則,抓取
網(wǎng)頁(yè)中的評(píng)論信息及其對(duì)應(yīng)的星級(jí)信息。 其中,步驟10)包括 步驟110)、按照評(píng)論信息的來(lái)源不同,基于網(wǎng)站定制對(duì)應(yīng)的評(píng)論信息和星級(jí)信息 抽取模板; 步驟120)、下載整個(gè)網(wǎng)頁(yè)的內(nèi)容; 步驟130)、根據(jù)抽取模板以及網(wǎng)頁(yè)內(nèi)容的源代碼,抽取所述網(wǎng)頁(yè)內(nèi)容中的評(píng)論信 息以及對(duì)應(yīng)的星級(jí)信息,構(gòu)成評(píng)論信息語(yǔ)料庫(kù)。 其中,在步驟20)中,抽取所述評(píng)論信息中的形容詞、動(dòng)詞、副詞或者名詞作為情 感詞。
其中,步驟20)進(jìn)一步包括 步驟210)、定義情感詞,并將情感詞劃分為正向、反向和中性;
步驟220)、將評(píng)論信息分詞; 步驟230)、將分詞后的評(píng)論信息中的所有情感詞與該評(píng)論信息所對(duì)應(yīng)的星級(jí)組成 二元對(duì),構(gòu)成情感詞和星級(jí)二元對(duì)列表。
其中,步驟30)還包括 步驟310)、將星級(jí)數(shù)值化,計(jì)算所述二元對(duì)列表中情感詞的傾向性;
步驟320)、構(gòu)建種子情感詞集合; 步驟330)、基于所述種子情感詞集合,利用PMI-IR算法計(jì)算二元對(duì)列表中情感詞 的傾向性; 步驟340)、創(chuàng)建連詞處理規(guī)則,基于種子情感詞集合,循環(huán)迭代計(jì)算與種子情感詞 共同出現(xiàn)過(guò)的情感詞的傾向性; 步驟350)、將上述三種傾向性進(jìn)行加權(quán)求和。 其中,步驟310)還包括將所述情感詞的所有傾向性值進(jìn)行平均,將該情感詞平 均值作為該情感詞的傾向性。 其中,步驟320)包括選擇不受上下文以及領(lǐng)域影響的強(qiáng)烈的情感詞作為種子情 感詞,其中,對(duì)于面向單一領(lǐng)域的情感分析系統(tǒng),選擇該領(lǐng)域的強(qiáng)烈的情感詞作為種子情感 詞。
根據(jù)本發(fā)明的另一方面,提供一種情感詞詞典的構(gòu)建方法,包括
步驟10)、抓取網(wǎng)絡(luò)上帶有星級(jí)的評(píng)論信息;
步驟20)、抽取所述評(píng)論信息中的情感詞; 步驟30)、通過(guò)將利用所述星級(jí)數(shù)值化計(jì)算得到的情感詞傾向性、利用構(gòu)建的種子 情感詞基于PMI-IR算法獲取的情感詞傾向性以及基于連詞性質(zhì)計(jì)算的情感詞傾向性加權(quán) 求和,獲取所述情感詞的傾向性; 步驟40)、將具有傾向性的情感詞的列表歸類,輸出情感詞詞典。 其中,步驟40)還包括將具有傾向性的所述情感詞的列表歸類,對(duì)于傾向性的值
5大于閾值的情感詞作為正向情感詞,對(duì)于傾向性的值小于閾值的情感詞作為負(fù)向情感詞, 其它的作為中性的情感詞,獲取情感詞詞典。 通過(guò)應(yīng)用本發(fā)明的方法,減少了人工對(duì)情感語(yǔ)料庫(kù)的標(biāo)注,很大程度上減輕了情 感分析系統(tǒng)構(gòu)建的工作量;利用網(wǎng)絡(luò)上的星級(jí)評(píng)論,最小程度地減少人工標(biāo)注中人的主觀 因素對(duì)情感詞的標(biāo)注的影響;通過(guò)多種算法的結(jié)合,對(duì)情感詞的傾向性進(jìn)行加權(quán)求和,降低 了種子情感詞選擇不當(dāng)所帶來(lái)的影響以及語(yǔ)料庫(kù)質(zhì)量對(duì)情感詞傾向性計(jì)算的影響。而且, 高質(zhì)量的種子情感詞和情感語(yǔ)料庫(kù)可以進(jìn)一步提高情感詞傾向性計(jì)算的準(zhǔn)確性。使得本發(fā) 明公開(kāi)的方法能夠快速、準(zhǔn)確的構(gòu)建一個(gè)情感詞詞典,加快情感分析系統(tǒng)的構(gòu)建。


圖1示出根據(jù)本發(fā)明實(shí)施例的一種情感詞傾向性分析方法的流程圖;
圖2示出根據(jù)本發(fā)明實(shí)施例的信息抽取模板的樣式圖。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明提供的一種情感詞傾向性的分析方法進(jìn)行 詳細(xì)描述。 本發(fā)明提出了一種獨(dú)立于應(yīng)用領(lǐng)域的情感詞傾向性的分析方法,該方法可以應(yīng)用 或者移植到多個(gè)具體領(lǐng)域中,包括但不限于網(wǎng)絡(luò)視頻的情感分析,新聞、博客、微博客及其 評(píng)論的情感分析,電影評(píng)論的情感分析,商品評(píng)論的情感分析等。 參考圖l,示出并描述根據(jù)本發(fā)明實(shí)施例的一種情感詞傾向性的分析方法。如圖1 所示,該方法包括步驟10)、抓取網(wǎng)絡(luò)上帶有星級(jí)的評(píng)論信息;步驟20)、抽取評(píng)論信息中 的情感詞;步驟30)、通過(guò)將星級(jí)數(shù)值化計(jì)算得到的情感詞傾向性、利用構(gòu)建的種子情感詞 基于PMI-IR算法獲取的情感詞傾向性以及基于連詞性質(zhì)計(jì)算的情感詞傾向性加權(quán)求和, 獲取情感詞的傾向性。本發(fā)明還包括步驟40)、將具有傾向性的情感詞的列表歸類,輸出情 感詞詞典。也就是說(shuō),基于上述情感詞的傾向性分析結(jié)果,可以獲取情感詞詞典。
進(jìn)一步參考圖l,對(duì)本發(fā)明方法的各個(gè)步驟進(jìn)行詳細(xì)描述。在步驟10)中,根據(jù) 網(wǎng)頁(yè)內(nèi)容的布局來(lái)設(shè)置不同的抽取模板與規(guī)則,抓取網(wǎng)頁(yè)中的評(píng)論信息及其對(duì)應(yīng)的星級(jí)信 息;包括步驟110)、按照評(píng)論信息的來(lái)源不同,基于網(wǎng)站定制對(duì)應(yīng)的評(píng)論信息和星級(jí)信息 抽取模板。步驟120)、下載整個(gè)網(wǎng)頁(yè)的內(nèi)容(例如,網(wǎng)頁(yè)源代碼)。步驟130)、根據(jù)抽取模 板以及網(wǎng)頁(yè)源代碼的內(nèi)容,抽取步驟120中下載的網(wǎng)頁(yè)內(nèi)容中的評(píng)論文本信息以及相對(duì)應(yīng) 的星級(jí)信息,構(gòu)成評(píng)論信息語(yǔ)料庫(kù)。包括如下具體操作步驟 在步驟110)中,對(duì)于評(píng)論信息的不同來(lái)源,比如豆瓣網(wǎng)上的評(píng)論信息,時(shí)光網(wǎng)上 的評(píng)論信息或者其它帶有這種星級(jí)信息的網(wǎng)站的評(píng)論信息,都可以作為數(shù)據(jù)的來(lái)源。通常, 大部分網(wǎng)站都是由通過(guò)模板來(lái)生成網(wǎng)頁(yè)數(shù)據(jù)的,具有相同或者相似語(yǔ)義內(nèi)容的網(wǎng)頁(yè)具有相 同或者相似的HTML語(yǔ)法結(jié)構(gòu)。通過(guò)提取網(wǎng)站中包含有評(píng)論信息和星級(jí)信息的網(wǎng)頁(yè)所有共 有的語(yǔ)法結(jié)構(gòu)來(lái)構(gòu)建信息抽取的正則表達(dá)式。 在一個(gè)具體實(shí)例中,根據(jù)要抽取評(píng)論信息和星級(jí)信息的網(wǎng)站,分別制定信息抽取 的模板,信息抽取模板的樣式如圖2所示。進(jìn)一步,利用開(kāi)源工具HTMLParser對(duì)頁(yè)面的HTML 文本內(nèi)容進(jìn)行分析,并制定信息抽取的正則表達(dá)式。
在步驟20中,抽取評(píng)論語(yǔ)句中的形容詞作為情感詞。情感的表達(dá)可以使用形容 詞、動(dòng)詞、副詞或者名詞,但大部分情感的表達(dá)還是通過(guò)形容詞,在此處為了簡(jiǎn)化情感分析 的構(gòu)建,具體以形容詞為例,但本方法還可以考慮評(píng)論語(yǔ)句中的動(dòng)詞、名詞或者副詞。
步驟20)包括步驟210)、定義情感詞;步驟220)、評(píng)論信息的分詞;步驟230)、將 情感詞與星級(jí)進(jìn)行對(duì)應(yīng);和步驟240)、得到情感詞和星級(jí)對(duì)列表。 在步驟210中,一般的情感定義有喜、怒、哀、樂(lè)等幾種情感分類,本發(fā)明的方法將 情感分為正向、反向和中性,比如說(shuō)"偉大"、"和藹"、"美好"等認(rèn)為是正向情感詞,"悲哀"、 "低俗"、"惡劣"等認(rèn)為反向情感詞,對(duì)于那些既不屬于正向情感詞的,又不屬于反向情感詞 的,則認(rèn)為屬于中性的情感詞。在一個(gè)實(shí)施例中,定義一個(gè)情感分值區(qū)間[l,-l],以及一個(gè) 閾值t,對(duì)于一個(gè)情感詞w,w的情感分值v,如果|v| <=仁則認(rèn)為該情感詞為中性情感詞, 如果v〉 t,則認(rèn)為是正向情感詞,否則為反向情感詞。其中,分值區(qū)間是分值v的取值范 圍,閾值也是分值區(qū)間的一個(gè)大于O的值,分值區(qū)間可以有其它定義。這里可以對(duì)得到的分 值進(jìn)行歸一化處理,使它在[1, -1]間,閾值的選擇主要還是依據(jù)經(jīng)驗(yàn)值,一般選擇大約在 0. 15-0. 20之間的一個(gè)值。 在步驟220中,使用帶有詞性標(biāo)注的中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的分詞系統(tǒng) ictclas的開(kāi)源版本對(duì)評(píng)論信息進(jìn)行分詞。該系統(tǒng)的分詞速度和準(zhǔn)確性都可以滿足本發(fā)明 的需要,并且該系統(tǒng)的開(kāi)源版本可以從網(wǎng)絡(luò)上任意下載獲取。 在步驟230中,依據(jù)分詞后所提取的內(nèi)容和該內(nèi)容對(duì)應(yīng)的星級(jí),將分詞后的評(píng)論 文本信息中的所有情感詞抽取出來(lái),與該評(píng)論信息所對(duì)應(yīng)的星級(jí)組成二元對(duì){〈Wi, p>|i = 1到該評(píng)論文本信息中包含的情感詞的個(gè)數(shù)),構(gòu)成一個(gè)二元對(duì)列表,例如表1。
表1
情感詞傾向性值
難看-0.9047619047619047
沒(méi)意思-0. 25
好奇0.1282051282051283
積極0.4285714285714286 在步驟30)中,計(jì)算情感詞傾向性的步驟包括步驟310)、將星級(jí)數(shù)值化;步驟 320)、計(jì)算二元對(duì)列表中情感詞的傾向性;步驟330)、構(gòu)建種子情感詞集合;步驟340)、利 用PMI-IR算法計(jì)算二元對(duì)列表中情感詞的傾向性;步驟350)、創(chuàng)建連詞處理規(guī)則;步驟 360)、循環(huán)迭代計(jì)算與種子情感詞共同出現(xiàn)過(guò)的情感詞的傾向性;步驟370)將三種計(jì)算傾 向性進(jìn)行加權(quán)求和。 在步驟310中,當(dāng)前網(wǎng)絡(luò)上的各種星級(jí)評(píng)論大部分都是5星級(jí)評(píng)論,即最低是1顆 星,最高是5顆星,這樣將這這些星級(jí)評(píng)論分別與[-2, 2]中的5個(gè)數(shù)值進(jìn)行對(duì)應(yīng),負(fù)數(shù)代表 反向評(píng)論,正數(shù)代表正向評(píng)論,O則認(rèn)為是中性評(píng)論。當(dāng)然,還存在其它的評(píng)論方式,有的網(wǎng)站是直接打分,例如淘寶是從星到鉆,但這樣的打分都有一個(gè)從低到高的順序,將由低到高 構(gòu)成的區(qū)間均分為多個(gè)等級(jí),分別與數(shù)值進(jìn)行對(duì)應(yīng)。這樣,所有的評(píng)論信息相當(dāng)于已經(jīng)進(jìn)行 了人工標(biāo)注,而且這種方法相對(duì)與那些人工對(duì)語(yǔ)料庫(kù)進(jìn)行的標(biāo)注來(lái)說(shuō),存在的一個(gè)優(yōu)點(diǎn)就 是這些所謂的"標(biāo)注"是通過(guò)大量的網(wǎng)民進(jìn)行的,很大程度上降低了人工標(biāo)注中由于人少而 導(dǎo)致的標(biāo)注偏置問(wèn)題。 在步驟320中,對(duì)一個(gè)情感詞的傾向性的計(jì)算,將該詞的出現(xiàn)的所有傾向性值進(jìn) 行一個(gè)平均,將該平均值作為該情感詞的傾向性值,假設(shè)情感詞W的所有的標(biāo)注值為K, ..,Vn。則該情感詞W的情感傾向性值SO為
V2,…,
通過(guò)步驟320可以得到情感詞列表中所有情感詞的情感傾向性值,由于網(wǎng)絡(luò)數(shù)據(jù) 的隨意性,星級(jí)評(píng)論是網(wǎng)民給評(píng)論做的一個(gè)總體打分,但一個(gè)評(píng)論中并不代表只有一種觀 點(diǎn),有可能存在兩種截然相反的兩種觀點(diǎn)在一個(gè)評(píng)論中,這就可能對(duì)情感詞的傾向性分析 造成誤判。為了降低這種風(fēng)險(xiǎn),進(jìn)一步添加了后面兩種算法,對(duì)情感詞的傾向性進(jìn)行進(jìn)一步 的確定。 步驟330中,種子情感詞的選擇會(huì)受到領(lǐng)域的影響,比如"長(zhǎng)"這個(gè)詞,在電影領(lǐng)域 里面可能不是一個(gè)正向的詞,但對(duì)某些商品來(lái)說(shuō),"長(zhǎng)"又是一個(gè)正向詞。為了使得該發(fā)明 能夠盡量獨(dú)立于領(lǐng)域,選擇的種子情感詞盡量是那些不受上下文以及領(lǐng)域影響的強(qiáng)烈的情 感詞。對(duì)于面向單一領(lǐng)域的情感分析系統(tǒng),可以選擇該領(lǐng)域的強(qiáng)烈的情感詞作為種子情感
詞。根據(jù)經(jīng)驗(yàn),一般選擇正反向種子情感詞各io個(gè),這既考慮了準(zhǔn)確性,同時(shí)又考慮了計(jì)算
速度問(wèn)題。 在步驟340中,根據(jù)步驟330中得到的種子情感詞集合,對(duì)情感詞列表中的情感詞 基于PMI-IR算法進(jìn)行傾向性計(jì)算,可以不需要很大的利于PMI-IR算法的情感語(yǔ)料庫(kù),而可 以利用搜索引擎的幫助,來(lái)計(jì)算情感詞的傾向性。該算法的計(jì)算公式如下 /(w, w,) = log( ,、 / )
SO(咖t"w,《)-£,,^) 其中I (w, w》表示情感詞w和情感詞Wi之間的互信息,p (w, w》表示兩個(gè)詞直接 間的共現(xiàn)概率,Pi表示正向種子情感詞,K表示反向種子情感詞,S0(w)表示情感詞w的情 感傾向性值。由于計(jì)算兩個(gè)詞的共現(xiàn)頻數(shù)是通過(guò)搜索引擎,則認(rèn)為詞的總數(shù)都是一樣的,這 樣,將搜索結(jié)果的hits (搜索結(jié)果數(shù))作為兩個(gè)詞之間的共現(xiàn)概率,簡(jiǎn)化計(jì)算過(guò)程。
對(duì)于一個(gè)情感詞w,如果SO(w)的值的絕對(duì)值小于閾值,認(rèn)為該情感詞為中性詞, 如果SO(w)的值大于閾值,則認(rèn)為該情感詞為正向的,否則,則為反向情感詞(該閾值即為 前述閾值)。這樣,通過(guò)PMI-IR算法得到情感詞列表中所有情感詞的傾向性。
在步驟350)中,本發(fā)明考慮了并列關(guān)系連詞和轉(zhuǎn)折關(guān)系連詞兩個(gè)連詞集合,比如 并列關(guān)系連詞"和","與","以及"等,同時(shí),本發(fā)明也將遞進(jìn)關(guān)系連詞也認(rèn)為是并列連詞,如 "并且","而且"等。對(duì)于由并列連詞連接起來(lái)的情感詞,認(rèn)為是具有相同情感傾向性。而轉(zhuǎn)折關(guān)系連詞,如"但是","但","然而"等,對(duì)于有轉(zhuǎn)折關(guān)系連詞連接起來(lái)的情感詞,認(rèn)為是具 有相反情感傾向性。同樣,利用操作步驟330中所選擇的種子情感詞,通過(guò)在情感語(yǔ)料庫(kù)中 使用并列關(guān)系連詞和轉(zhuǎn)折關(guān)系連詞不斷的進(jìn)行循環(huán)迭代,對(duì)情感詞詞典進(jìn)行擴(kuò)展,直到情 感詞詞典沒(méi)有增加為止。這樣,可以得到部分或者全部情感詞列表中情感詞的傾向性。對(duì)
于那些在情感詞列表中但是通過(guò)關(guān)系連詞沒(méi)有擴(kuò)展到的情感詞的傾向性值認(rèn)為是o。其中,
該種子情感詞集合可以根據(jù)需要和不同的應(yīng)用領(lǐng)域進(jìn)行擴(kuò)大,因?yàn)檫@一步利用現(xiàn)有的情感 語(yǔ)料庫(kù)進(jìn)行計(jì)算,不用實(shí)時(shí)地從網(wǎng)上獲取數(shù)據(jù),所以速度方面不會(huì)因?yàn)榉N子情感詞的適度 增大而有所影響。 在步驟370中,將以上三種方式得到的情感詞列表中情感詞的傾向性值進(jìn)行歸一 化,進(jìn)行加權(quán)求和。SO =-^-^~~
max(so(w,.)) - min(so(w;)) so (w)表示情感詞w的情感傾向性值,min (so (w》)則表示所有情感詞中情感傾向
性最小的值,max(so(Wi))則表示所有情感詞中情感傾向性最大的值,so (w)則表示情感詞
w的情感傾向性。SO' (w)則表示w進(jìn)行歸一化后的傾向性值,并且符號(hào)保持與原先的符號(hào)
一樣。這樣,在進(jìn)行了歸一化后,每個(gè)情感詞都有三個(gè)傾向性值(即上述利用三種算法分別
得到的該情感詞的傾向性值),對(duì)它們進(jìn)行加權(quán)求和,得到該情感詞最終的情感傾向性值SO = 2 ",S0, ,=
S0"(w)表示進(jìn)行加權(quán)求和后情感詞w的傾向性值,a t表示權(quán)重系數(shù)(權(quán)重的選擇 主要還是根據(jù)經(jīng)驗(yàn)值,對(duì)所處理的語(yǔ)料的質(zhì)量和語(yǔ)料的領(lǐng)域的不同,權(quán)重可以有所不同), S0i' (w)表示列表i中w的傾向性值,這里n = 3。 在步驟40)中,將得到的帶有情感傾向性值的情感詞列表進(jìn)行歸類,設(shè)置一個(gè)閾 值,對(duì)于傾向性值大于閾值的情感詞作為正向情感詞,對(duì)于傾向性值小于閾值的情感詞作 為負(fù)向情感詞,其它的作為中性的情感詞,構(gòu)成無(wú)監(jiān)督的情感詞詞典。 最后應(yīng)說(shuō)明的是,以上實(shí)施例僅用以描述本發(fā)明的技術(shù)方案而不是對(duì)本技術(shù)方法 進(jìn)行限制,本發(fā)明在應(yīng)用上可以延伸為其它的修改、變化、應(yīng)用和實(shí)施例,并且因此認(rèn)為所 有這樣的修改、變化、應(yīng)用、實(shí)施例都在本發(fā)明的精神和教導(dǎo)范圍內(nèi)。
權(quán)利要求
一種情感詞傾向性的分析方法,包括步驟10)、抓取網(wǎng)絡(luò)上帶有星級(jí)的評(píng)論信息;步驟20)、抽取所述評(píng)論信息中的情感詞;步驟30)、通過(guò)將利用所述星級(jí)數(shù)值化計(jì)算得到的情感詞傾向性、利用構(gòu)建的種子情感詞基于PMI-IR算法獲取的情感詞傾向性以及基于連詞性質(zhì)計(jì)算的情感詞傾向性加權(quán)求和,獲取所述情感詞的傾向性。
2. 權(quán)利要求1所述的方法,還包括步驟40)、將具有傾向性的所述情感詞的列表歸類,對(duì)于傾向性的值大于閾值的情感詞 作為正向情感詞,對(duì)于傾向性的值小于閾值的情感詞作為負(fù)向情感詞,其它的作為中性的 情感詞,獲取情感詞詞典。
3. 權(quán)利要求1的所述的方法,其中,步驟10)還包括根據(jù)網(wǎng)頁(yè)內(nèi)容的布局來(lái)設(shè)置不同的抽取模板與規(guī)則,抓取網(wǎng)頁(yè)中的評(píng)論信息及其對(duì)應(yīng)的星級(jí)信息。
4. 權(quán)利要求3所述的方法,其中,步驟10)包括步驟110)、按照所述評(píng)論信息的來(lái)源不同,基于網(wǎng)站定制對(duì)應(yīng)的評(píng)論信息和星級(jí)信息 抽取模板;步驟120)、下載整個(gè)網(wǎng)頁(yè)的內(nèi)容;步驟130)、根據(jù)抽取模板以及網(wǎng)頁(yè)內(nèi)容的源代碼,抽取所述網(wǎng)頁(yè)內(nèi)容中的評(píng)論信息以 及對(duì)應(yīng)的星級(jí)信息,構(gòu)成評(píng)論信息語(yǔ)料庫(kù)。
5. 權(quán)利要求1所述的方法,其中,在步驟20)中,抽取所述評(píng)論信息中的形容詞、動(dòng)詞、 副詞或者名詞作為情感詞。
6. 權(quán)利要求5所述的方法,其中,步驟20)進(jìn)一步包括 步驟210)、定義情感詞,并將情感詞劃分為正向、反向和中性;步驟220)、將評(píng)論信息分詞;步驟230)、將分詞后的評(píng)論信息中的所有情感詞與該評(píng)論信息所對(duì)應(yīng)的星級(jí)組成二元 對(duì),構(gòu)成情感詞和星級(jí)二元對(duì)列表。
7. 權(quán)利要求6所述的方法,其中,步驟30)還包括步驟310)、將星級(jí)數(shù)值化,計(jì)算所述二元對(duì)列表中情感詞的傾向性; 步驟320)、構(gòu)建種子情感詞集合;步驟330)、基于所述種子情感詞集合,利用PMI-IR算法計(jì)算二元對(duì)列表中情感詞的傾 向性;步驟340)、創(chuàng)建連詞處理規(guī)則,基于種子情感詞集合,循環(huán)迭代計(jì)算與種子情感詞共同 出現(xiàn)過(guò)的情感詞的傾向性;步驟350)、將上述三種傾向性進(jìn)行加權(quán)求和。
8. 權(quán)利要求7所述的方法,其中,步驟310)還包括將所述情感詞所有的傾向性值進(jìn) 行平均,將該情感詞平均值作為該情感詞的傾向性。
9. 權(quán)利要求7所述的方法,其中,步驟320)包括選擇不受上下文以及領(lǐng)域影響的強(qiáng) 烈的情感詞作為種子情感詞,其中,對(duì)于面向單一領(lǐng)域的情感分析系統(tǒng),選擇該領(lǐng)域的強(qiáng)烈 的情感詞作為種子情感詞。
10. 權(quán)利要求7的所述的方法,其中,步驟330)包括根據(jù)所述種子情感詞集合,基于PMI-IR算法,利用搜索引擎的獲取的搜索結(jié)果,計(jì)算情感詞的傾向性,即 <formula>formula see original document page 3</formula>其中,I (w, Wi)表示情感詞w和情感詞Wi之間的互信息,p (w, Wi)表示兩個(gè)詞直接間的 共現(xiàn)概率,Pi表示正向種子情感詞,Ni表示反向種子情感詞,S0(w)表示情感詞w的情感傾 向性值。
11. 權(quán)利要求7所述的方法,其中,步驟340)還包括根據(jù)所述種子情感詞集合,通過(guò) 在情感語(yǔ)料庫(kù)中使用并列關(guān)系連詞和轉(zhuǎn)折關(guān)系連詞進(jìn)行循環(huán)迭代,對(duì)情感詞詞典進(jìn)行擴(kuò) 展,得到部分或者全部情感詞列表中情感詞的傾向性。
12. —種情感詞詞典的構(gòu)建方法,包括步驟10)、抓取網(wǎng)絡(luò)上帶有星級(jí)的評(píng)論信息; 步驟20)、抽取所述評(píng)論信息中的情感詞;步驟30)、通過(guò)將利用所述星級(jí)數(shù)值化計(jì)算得到的情感詞傾向性、利用構(gòu)建的種子情 感詞基于PMI-IR算法獲取的情感詞傾向性以及基于連詞性質(zhì)計(jì)算的情感詞傾向性加權(quán)求 和,獲取所述情感詞的傾向性;步驟40)、將具有傾向性的情感詞的列表歸類,輸出情感詞詞典。
13. 權(quán)利要求12所述的方法,其中,步驟40)還包括將具有傾向性的所述情感詞的列 表歸類,對(duì)于傾向性的值大于閾值的情感詞作為正向情感詞,對(duì)于傾向性的值小于閾值的 情感詞作為負(fù)向情感詞,其它的作為中性的情感詞,獲取情感詞詞典。
全文摘要
本發(fā)明提供一種情感詞傾向性的分析方法,包括抓取網(wǎng)絡(luò)上帶有星級(jí)的評(píng)論信息;抽取評(píng)論信息中的情感詞;通過(guò)將利用星級(jí)數(shù)值化計(jì)算得到的情感詞傾向性、利用構(gòu)建的種子情感詞基于PMI-IR算法獲取的情感詞傾向性以及基于連詞性質(zhì)計(jì)算的情感詞傾向性加權(quán)求和,獲取情感詞的傾向性。通過(guò)應(yīng)用本方法,減輕了情感分析系統(tǒng)構(gòu)建的工作量;利用網(wǎng)絡(luò)上的星級(jí)評(píng)論,減少人工標(biāo)注中人的主觀因素對(duì)情感詞的標(biāo)注的影響;通過(guò)多種算法的結(jié)合,對(duì)情感詞的傾向性進(jìn)行加權(quán)求和,降低了種子情感詞選擇不當(dāng)所帶來(lái)的影響以及語(yǔ)料庫(kù)質(zhì)量對(duì)情感詞傾向性計(jì)算的影響。
文檔編號(hào)G06F17/30GK101782898SQ201010133149
公開(kāi)日2010年7月21日 申請(qǐng)日期2010年3月25日 優(yōu)先權(quán)日2010年3月25日
發(fā)明者張勇東, 蔣喻新, 郭俊波 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
武宣县| 盐城市| 抚顺市| 张北县| 夏河县| 大余县| 城步| 巴林左旗| 大关县| 宁陵县| 明溪县| 马尔康县| 琼结县| 保山市| 铜鼓县| 甘孜| 湘潭县| 宜宾县| 新密市| 潞城市| 贺州市| 噶尔县| 乃东县| 夏津县| 故城县| 巢湖市| 永嘉县| 香港| 太保市| 南澳县| 江华| 潜江市| 固始县| 社旗县| 温州市| 齐齐哈尔市| 舞钢市| 怀仁县| 秭归县| 罗源县| 广德县|