文本情感傾向判斷方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域中的用戶文本情感傾向判斷。更具體而言,本發(fā)明 涉及一種基于用戶性格特征的文本情感傾向判斷方法與系統(tǒng)。
【背景技術(shù)】
[0002] 隨著SNS (Social Networking Services,社會(huì)性網(wǎng)絡(luò)服務(wù))不斷流行,人們通過(guò)微 博、論壇等平臺(tái),對(duì)人物、事件、產(chǎn)品發(fā)布各種各樣的觀點(diǎn)。為了有效處理這些信息,發(fā)現(xiàn)人 們的態(tài)度意見(jiàn),就需要進(jìn)行文本情感分析。文本情感傾向,表達(dá)了人們對(duì)某事件、某產(chǎn)品的 喜好。
[0003] 然而,在個(gè)性化時(shí)代的今天,每個(gè)人表達(dá)情感的方式和程度都是不一樣的。比如對(duì) 于"還好"這個(gè)詞,對(duì)一些人表示"好的"而對(duì)另一些人則表示"一般"而已。因此如何能根 據(jù)每個(gè)人不同的性格特征、表達(dá)特點(diǎn)去做情感判斷才客觀真實(shí)。
[0004] 為了解決上面提到的問(wèn)題。我們首先來(lái)看看現(xiàn)有技術(shù)方法,以及該方法的不足。
[0005] 在專利文獻(xiàn)1中公開(kāi)了一種情感分析系統(tǒng)及方法,該系統(tǒng)包括語(yǔ)料庫(kù)建立模組, 用于建立觀點(diǎn)句識(shí)別及情感傾向分析所需的訓(xùn)練集;數(shù)據(jù)預(yù)處理模組,用于對(duì)訓(xùn)練集中的 句子進(jìn)行預(yù)處理;觀點(diǎn)句識(shí)別模組,采用支持向量機(jī)分類器與貝葉斯分類器分別對(duì)預(yù)處理 后的句子進(jìn)行觀點(diǎn)句識(shí)別,并對(duì)兩分類器的結(jié)果進(jìn)行集成處理,得到最終的分類結(jié)果;以及 情感傾向分析模組,基于支持向量機(jī)分類器及貝葉斯分類器分別直接將預(yù)處理后的句子分 為正面、負(fù)面和無(wú)觀點(diǎn)三類,并通過(guò)一集成公式將該支持向量機(jī)分類器和貝葉斯分類器的 分類結(jié)果集成,得到當(dāng)前句子的分類結(jié)果
[0006] 在專利文獻(xiàn)2中公開(kāi)了一種面向微博短文本的情感分析方法,該方法包括:步驟 1,采集包含指定關(guān)鍵字詞的微博數(shù)據(jù)存入數(shù)據(jù)庫(kù);步驟2,對(duì)微博數(shù)據(jù)進(jìn)行預(yù)處理;步驟3, 加載相關(guān)字典;步驟4,進(jìn)行分句,過(guò)濾掉不包含用戶配置關(guān)鍵字的句子;步驟5,對(duì)包含關(guān) 鍵字的句子進(jìn)行分詞,詞性標(biāo)注;步驟6,利用句法分析工具對(duì)包含主題的句子進(jìn)行依存句 法分析;步驟7,對(duì)包含主題詞的每個(gè)句子的極性進(jìn)行判斷;步驟8,判斷完所有包含主題詞 的句子的極性后,判斷整條微博的情感傾向性。
[0007] 然而,在現(xiàn)有技術(shù)中都存在一個(gè)共同問(wèn)題:忽略了人本身的性格特征和表達(dá)方式, 情感分析按照統(tǒng)一的無(wú)差別的方式進(jìn)行標(biāo)準(zhǔn)化計(jì)算,得出的情感傾向必然失真。
[0008] 現(xiàn)有技術(shù)文獻(xiàn)
[0009] 專利文獻(xiàn)
[0010] 專利文獻(xiàn) I :CNl〇3〇34626A
[0011] 專利文獻(xiàn) 2 :CN102663046A
【發(fā)明內(nèi)容】
[0012] 本發(fā)明鑒于上述問(wèn)題而研發(fā),目的在于提供一種考慮了用戶性格特征的文本情感 傾向判斷方法與系統(tǒng),提高文本情感傾向判斷的準(zhǔn)確性。
[0013] 本發(fā)明的一個(gè)方面涉及一種文本情感傾向判斷方法,其特征在于包括:語(yǔ)料取得 步驟,取得一定時(shí)間窗口內(nèi)的用戶歷史文本信息作為語(yǔ)料;用戶性格特征判斷步驟,根據(jù)所 述語(yǔ)料判斷用戶的性格特征;情感詞匯權(quán)重調(diào)整步驟,利用情感詞匯詞典獲取需要判斷的 用戶文本中的情感詞匯以及初始權(quán)重形成情感詞匯列表,并且根據(jù)所述用戶性格特征判斷 步驟中判斷出的用戶的性格特征對(duì)所述情感詞匯列表中的詞匯權(quán)重進(jìn)行調(diào)整;以及文本情 感傾向判斷步驟,根據(jù)所述情感詞匯列表中每個(gè)詞匯的極性及其被調(diào)整過(guò)的權(quán)重,判斷所 述需要判斷的用戶文本的情感傾向。
[0014] 另外,在本發(fā)明中優(yōu)選:還包括文本處理步驟,在所述文本處理步驟中,對(duì)所述語(yǔ) 料或者所述需要判斷的用戶文本進(jìn)行分詞、詞性判斷,并且利用情感詞匯詞典獲取所述語(yǔ) 料或者所述需要判斷的用戶文本中的情感詞匯,在所述用戶性格特征判斷步驟中,根據(jù)所 述語(yǔ)料中的情感詞匯來(lái)判斷用戶的性格特征。
[0015] 另外,在本發(fā)明中優(yōu)選:所述用戶性格特征判斷步驟包括:將所述語(yǔ)料按照文本 發(fā)布的時(shí)間進(jìn)行排序的步驟;按照時(shí)間對(duì)所述語(yǔ)料進(jìn)行聚類,并將不同的聚類分別保存在 不同的語(yǔ)料集合中的步驟;對(duì)每一個(gè)所述語(yǔ)料集合中的語(yǔ)料進(jìn)行分析,判斷對(duì)于當(dāng)前語(yǔ)料 集合的用戶性格特征的步驟;以及對(duì)全部所述語(yǔ)料集合的用戶性格特征進(jìn)行綜合計(jì)算,從 而得到最終的用戶的性格特征的步驟。
[0016] 另外,在本發(fā)明中優(yōu)選:在對(duì)全部所述語(yǔ)料集合的用戶性格特征進(jìn)行綜合計(jì)算時(shí), 利用下述數(shù)學(xué)式調(diào)整用戶性格特征的權(quán)重W,
[0017]
[0018] 其中,T為表示衰減周期的常數(shù),t為時(shí)間間隔,e為規(guī)定常數(shù)。
[0019] 在本發(fā)明中優(yōu)選:在所述情感詞匯權(quán)重調(diào)整步驟中,利用下述數(shù)學(xué)式對(duì)情感詞匯 的權(quán)重S進(jìn)行調(diào)整,
[0020] a
[0021] 其中,a是大于1的經(jīng)驗(yàn)參數(shù),S。是情感詞匯的初始權(quán)重,X是量化后的用戶性格 特征,y是情感詞匯的極性。
[0022] 另外,在本發(fā)明中優(yōu)選:在所述文本情感傾向判斷步驟中,當(dāng)所述情感詞匯列表中 的所有正向詞匯的貢獻(xiàn)率與所有負(fù)向詞匯的貢獻(xiàn)率之差的絕對(duì)值不大于給定閾值β時(shí), 將所述需要判斷的用戶文本的情感傾向判斷為中性,當(dāng)所述情感詞匯列表中的所有正向詞 匯的貢獻(xiàn)率與所有負(fù)向詞匯的貢獻(xiàn)率之差大于β時(shí),將所述需要判斷的用戶文本的情感 傾向判斷為正性,當(dāng)所述情感詞匯列表中的所有正向詞匯的貢獻(xiàn)率與所有負(fù)向詞匯的貢獻(xiàn) 率之差小于-β時(shí),將所述需要判斷的用戶文本的情感傾向判斷為負(fù)性。
[0023] 本發(fā)明的另一方面涉及一種文本情感傾向判斷系統(tǒng),其特征在于包括:語(yǔ)料取得 單元,取得一定時(shí)間窗口內(nèi)的用戶歷史文本信息作為語(yǔ)料;用戶性格特征判斷單元,根據(jù)所 述語(yǔ)料判斷用戶的性格特征;情感詞匯權(quán)重調(diào)整單元,利用情感詞匯詞典獲取需要判斷的 用戶文本中的情感詞匯以及初始權(quán)重形成情感詞匯列表,并且根據(jù)由所述用戶性格特征判 斷單元判斷出的用戶的性格特征對(duì)所述情感詞匯列表中的詞匯權(quán)重進(jìn)行調(diào)整;以及文本情 感傾向判斷單元,根據(jù)所述情感詞匯列表中每個(gè)詞匯的極性及其被調(diào)整過(guò)的權(quán)重,判斷所 述需要判斷的用戶文本的情感傾向。
[0024] 另外,在本發(fā)明中優(yōu)選:還包括文本處理單元,在所述文本處理單元中,對(duì)所述語(yǔ) 料或者所述需要判斷的用戶文本進(jìn)行分詞、詞性判斷,并且利用情感詞匯詞典獲取所述語(yǔ) 料或者所述需要判斷的用戶文本中的情感詞匯,所述用戶性格特征判斷單元根據(jù)所述語(yǔ)料 中的情感詞匯來(lái)判斷用戶的性格特征。
[0025] 發(fā)明效果
[0026] 根據(jù)本發(fā)明,能夠根據(jù)用戶的歷史語(yǔ)料判斷出用戶的性格、情緒、表達(dá)風(fēng)格(即用 戶性格特征)再進(jìn)行情感分析。根據(jù)此方法能夠進(jìn)行準(zhǔn)確的信息推薦(如商品、好友、新聞 等等)、評(píng)價(jià)等工作。
【附圖說(shuō)明】
[0027] 附圖用來(lái)對(duì)本發(fā)明做進(jìn)一步理解,構(gòu)成說(shuō)明書(shū)的一部分,與優(yōu)選實(shí)施例一起用于 對(duì)本發(fā)明進(jìn)行詳細(xì)的解釋,并不構(gòu)成對(duì)本發(fā)明的限制。其中:
[0028] 圖1是本發(fā)明涉及的文本情感傾向判斷系統(tǒng)的示意框圖。
[0029] 圖2是本發(fā)明涉及的文本情感傾向判斷方法的主流程圖。
[0030] 圖3是本發(fā)明用于判斷用戶性格特征的流程圖。
[0031] 圖4是本發(fā)明用于調(diào)整情感詞匯權(quán)重的流程圖。
【具體實(shí)施方式】
[0032] 下面將參考附圖來(lái)對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)說(shuō)明,但本發(fā)明并不限于該實(shí)施 方式。此外,在本發(fā)明的下列描述中,將省略對(duì)已知功能和配置的具體描述,以避免使本發(fā) 明的主題不清楚。
[0033] 如圖1所示,本實(shí)施方式的文本情感傾向判斷系統(tǒng)包括:語(yǔ)料取得單元101、用戶 性格特征判斷單元102、情感詞匯權(quán)重調(diào)整單元103、文本情感傾向判斷單元104、用戶接口 單元105、以及文本處理單元106。
[0034] 語(yǔ)料取得單元101收集在一定時(shí)間窗口內(nèi)用戶的歷史文本信息作為語(yǔ)料。時(shí)間窗 口可以是天、月等單位,也可以是用戶自行設(shè)置的時(shí)間單位。通過(guò)網(wǎng)站提供的API進(jìn)行內(nèi)容 抓取,也可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行文本收集。將獲得到的網(wǎng)絡(luò)文本信息保存至本地存儲(chǔ)作為 語(yǔ)料庫(kù)。將語(yǔ)料按照文本發(fā)布的時(shí)間進(jìn)行排序,再按照時(shí)間對(duì)文本進(jìn)行聚類,聚類的規(guī)則是 將相近時(shí)間段發(fā)布的文本聚為一類,把不同時(shí)間聚類的文本存放在不同的集合中。