專利名稱::一種跨領(lǐng)域的文本情感分類器的訓(xùn)練方法和分類方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及模式識別領(lǐng)域,具體涉及應(yīng)用該分類器進(jìn)行的文本分類方法。種跨領(lǐng)域的文本情感分類器的訓(xùn)練方法和
背景技術(shù):
:文本情感分類,是指根據(jù)對文本的分析確定該文本對某個對象的態(tài)度是正面還是負(fù)面?,F(xiàn)有的文本情感分類方法具有很強的領(lǐng)域或主題依賴性。例如,在教育領(lǐng)域訓(xùn)練的情感分類器在教育領(lǐng)域中表現(xiàn)很好,但是在電影領(lǐng)域或其它領(lǐng)域分類精度就會很差。也就是說,現(xiàn)有的文本情感分類方法在情感挖掘中進(jìn)行領(lǐng)域移植比較困難。其客觀原因主要有兩個方面首先,不同領(lǐng)域之間的詞語空間存在很大差距,例如"便攜的"、"快速的"常常出現(xiàn)在筆記本電腦的評論中,但幾乎不會出現(xiàn)在房產(chǎn)評論中;其次,一些情感詞語的極性也會發(fā)生變化,例如,房產(chǎn)評論中的"這套房子的客廳太小,讓人感覺有點憋悶"中的"小"是負(fù)面的,但手機(jī)評論中的"諾基亞N3100非常小,很適合攜帶"的"小"是正面的。因此,要想在新領(lǐng)域也取得很好的性能,根據(jù)現(xiàn)有技術(shù)就不得不為該新領(lǐng)域人工標(biāo)注一個較大的訓(xùn)練集,并采用這個訓(xùn)練集重新訓(xùn)練一個分類器。但是在實踐中,因為這非常耗費精力與時間所以這種做法效率很低,甚至有時不可實現(xiàn)。所以說,研究一種具備移植能力的文本情感分類方法具有重要的現(xiàn)實意義。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問題是提供一種跨領(lǐng)域的并且精度較高的文本情感分類方法。根據(jù)本發(fā)明的一個方面,提供了一種跨領(lǐng)域的文本情感分類器訓(xùn)練方法,包括下列步驟1)在源領(lǐng)域和新領(lǐng)域樣本的關(guān)鍵詞中挑選通用情感特征;2)根據(jù)源領(lǐng)域的樣本,計算特征wt屬于類別ck的樣本的概率P(tIck),以及類別Ck的概率P(Ck),進(jìn)而計算新領(lǐng)域的樣本&屬于類別Ck的概率P(CkIdi);3)基于EM迭代方法訓(xùn)練所述分類器,其中在M步根據(jù)源領(lǐng)域和新領(lǐng)域樣本以及所述通用情感特征重新計算所述P(tIck)和所述P(ck),在E步根據(jù)重新計算的所述P(tIck)和所述P(ck)重新計算所述P(ckIeg。其中,上述步驟3)還包括判斷所述P(ckId》在此迭代步驟中是否發(fā)生改變,如果發(fā)生了改變,轉(zhuǎn)M步,如果未發(fā)生改變,則存儲結(jié)果P(tIck)。其中,上述步驟3)的E步包括31)根據(jù)公式尸"W)^")n(^^)r重新計算所述P(Ckldi);其中,|V|表示整個詞空間V中所包含的詞個數(shù),Ni,t表示樣本&中特征wt的出現(xiàn)次數(shù)。其中,所述步驟2)還包括將所述P(Ckldi)離散化的步驟;所述步驟3)的所述E步還包括將所述P(Ckldi)離散化的步驟。其中,所述步驟3)的所述M步包括(卜2).2尸(cj《)+義-i;p(cj《)32)根據(jù)公式尸(^)=-^_^-計算所述P(Ck);其中入=(卜;1)'|"。|+/1'|""|min{St,1},t表示當(dāng)前迭代步數(shù),S是控制因子;D。和Dn分別表示源領(lǐng)域與新領(lǐng)域的樣本集合;lD。1和|Dn|分別表示D。和Dn中所包含的樣本個數(shù)。其中,所述步驟3)的所述M步包括33)根據(jù)公式尸(化)Y".g^^)+ig(^)+w計算所述Palck);其中,A=>11=1min{St,1},t表示當(dāng)前迭代步數(shù),S是控制因子;iV;;,表示樣本di中特征Wt的出現(xiàn)次數(shù)且樣本&屬于新領(lǐng)域;A^,表示樣本&中特征wt的出現(xiàn)次數(shù)且樣本&屬于源領(lǐng)域;IV|表示整個詞空間V中所包含的詞個數(shù);7,°=K"g,VrcE表示挑選出來的通用情感特征。其中,所述步驟2)的所述計算特征Wt屬于類別Ck的樣本的概率P(tlck)包括根據(jù)如下公式計算所包含的樣本個數(shù);A^表示樣本di中特征Wt的出現(xiàn)次數(shù)且樣本di屬于源領(lǐng)域;|V|表示整個詞空間V中所包含的詞個數(shù)。其中,所述步驟2)的所述計算類別Ck的概率P(Ck)包括根據(jù)如下公式計算—.....——.,其中,|D°|表示源領(lǐng)域的樣本的集合D。中尸(q^"',二i;其中,|D°|表示源領(lǐng)域的樣本的集合D。中所包含的樣本水"。其中,所述步驟l)包括ii)根據(jù)公式y(tǒng);4og確定所述高頻領(lǐng)域特征,其中e是非零參數(shù),P。(t)和pjt)分別表示特征Wt在源領(lǐng)域和新領(lǐng)域的樣本中的出現(xiàn)概率。其中,所述步驟ll)中所述p。(t)根據(jù)如下公式計算,A(O=i:"(^+^,其中N。和Nn分別表示源領(lǐng)域和新領(lǐng)域的樣本總數(shù),N。(t)和Njt)分別表示特征Wt在源領(lǐng)域和新領(lǐng)域的樣本中出現(xiàn)的樣本數(shù)目,a為平滑因子。其中,所述步驟ll)中所述Pn(t)根據(jù)如下公式計算,^(0=,其中N。禾口Nn分別表示源領(lǐng)域和新領(lǐng)域的樣本總數(shù),N。(t)和Njt)分別表示特征Wt在源領(lǐng)域和新領(lǐng)域的樣本中出現(xiàn)的樣本數(shù)目,a為平滑因子。根據(jù)本發(fā)明的另一方面,還提供了一種跨領(lǐng)域的文本情感分類方法,包括根據(jù)上述訓(xùn)練方法所計算的結(jié)果P(tICk)對新領(lǐng)域測試集內(nèi)的文本進(jìn)行分類。本發(fā)明的有益效果在于,根據(jù)本發(fā)明的文本情感分類方法對新領(lǐng)域的文本進(jìn)行分類的精度較高。圖1是根據(jù)本發(fā)明的優(yōu)選實施例的跨領(lǐng)域的文本情感分類方法的流程圖。具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖,對根據(jù)本發(fā)明一個實施例的跨領(lǐng)域的文本情感分類方法進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明基本思想是尋找領(lǐng)域之間的通用情感特征,并把通用情感詞作為源領(lǐng)域通向新領(lǐng)域的一座橋梁,其中通用情感特征為不但在源領(lǐng)域和新領(lǐng)域頻繁出現(xiàn)而且出現(xiàn)頻率相似的詞語。例如財經(jīng)類例子"招商銀行是一家非常優(yōu)秀的上市公司",電子類例子"HpCompaq(商用筆記本)的性能非常優(yōu)秀",則"優(yōu)秀"就可以作為財經(jīng)類與電子類之間的"通用情感特征"。然后逐步加大新領(lǐng)域的權(quán)重,使分類器模型與新領(lǐng)域達(dá)到最佳匹配。本發(fā)明即利用了源領(lǐng)域的部分可用信息,又充分吸收了新領(lǐng)域的全部信息。根據(jù)上述基本思想,如圖1所示,本發(fā)明一個實施例的跨領(lǐng)域的文本情感分類方法的具體流程如下首先,在源領(lǐng)域和新領(lǐng)域的樣本的關(guān)鍵詞中,挑選通用情感特征,此過程可以人工實現(xiàn),也可以通過計算實現(xiàn)。優(yōu)選的,根據(jù)本發(fā)明的具體實施例依據(jù)頻繁共現(xiàn)熵(FrequentlyCo-occurringEntropy,FCE)/w,來挑選通用情感特征,即頻率共現(xiàn)熵較高的詞語即為通用情感特征,其中乂氣+&其中p。(t),pn(t)分別表示特征wt在源領(lǐng)域與新領(lǐng)域的樣本中的出現(xiàn)概率在公式(2)和公式(3)中,N。和Nn分別表示源領(lǐng)域與新領(lǐng)域的樣本總數(shù)。N。(t)和Njt)分別表示特征Wt在源領(lǐng)域與新領(lǐng)域的樣本中出現(xiàn)的樣本數(shù)目,即含有該特征Wt的樣本數(shù)目。a為平滑因子,根據(jù)本發(fā)明的一個具體實施例a=0.0001。當(dāng)然,不進(jìn)行平滑同樣可以實現(xiàn)本發(fā)明的基本技術(shù)目的。本領(lǐng)域內(nèi)普通技術(shù)人員可以理解,上述公式(1)僅是能夠確定通用情感特征的一個例子,也可以對該公式進(jìn)行適應(yīng)性修改或采用其它方式確定通用情感特征。例如P是為了防止出現(xiàn)分母為O的情況而采用的非零參數(shù),在本發(fā)明的一個實施例中13=1.0。本領(lǐng)域技術(shù)人員可以理解,如果能夠確定該特征Wt在源領(lǐng)域和新領(lǐng)域的樣本中出現(xiàn)的概率并6非完全相等,則在該公式中也可以不采用該參數(shù)P。然后,根據(jù)上述通用情感特征初始化貝葉斯分類器,亦即計算新領(lǐng)域的樣本&屬于類別Ck的概率P(Ckldi)的初始值。詳細(xì)的計算步驟如下根據(jù)源領(lǐng)域的樣本計算特征wt屬于類別ck的樣本的概率P(tIck),以及類別ck的概率P(Ck):<formula>formulaseeoriginaldocumentpage7</formula><formula>formulaseeoriginaldocumentpage7</formula>其中,DO表示源領(lǐng)域的樣本的集合,|D°|表示DO中所包含的樣本個數(shù),A^,表示樣本A中特征wt的出現(xiàn)次數(shù)且樣本&屬于源領(lǐng)域,P(Ckld》表示樣本&屬于類別ck的概率,對于源領(lǐng)域的樣本,其或者為l或者為O,V表示整個詞空間,|V|表示V中所包含的詞個數(shù)。本領(lǐng)域普通技術(shù)人員可以理解,上述公式(4)和(5)僅是可以采用以實現(xiàn)本發(fā)明的目的的一個例子,也可以對該公式進(jìn)行適應(yīng)性修改或采用其它方式進(jìn)行計算。例如,|V|是保證分母不為0的參數(shù),可以在其前面添加系數(shù)。則公式(4)可以是<formula>formulaseeoriginaldocumentpage7</formula>隨后根據(jù)如下公式計算新領(lǐng)域的樣本&屬于類別ck的概率P(ckIeg的初始值,并進(jìn)行離散化。離散化具體為取最大值的類別所對應(yīng)的P(Ckldi)賦值為l,而其它類別所對應(yīng)的P(Ckldi)賦值為O,即樣本di屬于P(Ckldi)取最大值的那個類別。本領(lǐng)域技術(shù)人員可以理解,在本發(fā)明中也可以不進(jìn)行離散化,認(rèn)為當(dāng)P(Ckldi)取最大值時其所對應(yīng)的類別即為樣本di所屬類別。<formula>formulaseeoriginaldocumentpage7</formula>其中Ni,t表示樣本&中特征wt的出現(xiàn)次數(shù)。隨后基于EM迭代方法來訓(xùn)練分類器,EM算法是一種公知的迭代算法,在每一次迭代循環(huán)過程中交替執(zhí)行E步和M步兩個步驟,當(dāng)兩次迭代之間的參數(shù)變化小于預(yù)先給定的閾值時算法終止。下述訓(xùn)練分類器的基本思想是對源領(lǐng)域只使用通用情感特征,而對新領(lǐng)域則使用所有特征。隨著迭代步數(shù)的增加,公式不斷增加新領(lǐng)域樣本在模型訓(xùn)練中的權(quán)重。這樣訓(xùn)練出來的分類模型將會與新領(lǐng)域樣本達(dá)到最大匹配。訓(xùn)練分類器的具體步驟如下根據(jù)如下公式(6)、(7)和(8)針對新領(lǐng)域的樣本的每個類別循環(huán)交替計算EM迭代算法的E步和M步,其中通過在M步中調(diào)整控制新舊兩個領(lǐng)域的相對權(quán)重的因子A來更新P(Ckldi)的值。在E步計算P(Ckldi)的數(shù)值后,對其進(jìn)行離散化。如果某E步所計算的P(Ckldi)與其上個E步所計算的P(Ckldi)的結(jié)果不相同,則根據(jù)公式(7)、(8)和(6)更新P(Ckldi)的值,再進(jìn)行類似判斷;如果某E步所計算的P(Ckldi)與其上個E步所計算的P(ckId》的結(jié)果相同,則算法結(jié)束,存儲訓(xùn)練所得分類器的P(tIck)。<formula>formulaseeoriginaldocumentpage7</formula><formula>formulaseeoriginaldocumentpage8</formula>其中<formula>formulaseeoriginaldocumentpage8</formula>如果如果w,e^e£其中Ni,t表示樣本&中特征wt的出現(xiàn)次數(shù);A^,表示樣本&中特征wt的出現(xiàn)次數(shù)且樣本&屬于新領(lǐng)域;D°和Dn分別表示源領(lǐng)域與新領(lǐng)域的樣本集合;A。和A。分別表示源領(lǐng)域與新領(lǐng)域的Ck類別的樣本中出現(xiàn)特征wt的概率;A用來控制新舊兩個領(lǐng)域的相對權(quán)重;t表示當(dāng)前迭代步數(shù);S是控制因子,其根據(jù)本發(fā)明的一個實施例取O.2;V^表示挑選出來的通用情感特征。與公式(4)類似,本領(lǐng)域普通技術(shù)人員可以理解,上述公式(6)、(7)和(8)僅是可以采用以實現(xiàn)本發(fā)明的目的的一個例子,也可以對該公式進(jìn)行適應(yīng)性修改或采用其它方式進(jìn)行計算。根據(jù)訓(xùn)練所得分類器的P(tlck),利用公式(6)即可計算新領(lǐng)域的文本的P(Ckldi),進(jìn)行離散化后,該P(Ckldi)取值為l所對應(yīng)的類別即為該文本所述類別。本發(fā)明對三個中文情感語料集教育評論(Edu)、財經(jīng)評論(Sto)和電腦評論(Comp)進(jìn)行了實驗?zāi)M。教育評論中含有1012篇負(fù)面評論與254篇正面評論;財經(jīng)評論中含有683篇負(fù)面評論與364篇正面評論;電腦評論中含有390篇負(fù)面評論與544篇正面評論。在該實施例中通用情感詞設(shè)定為200個,S設(shè)定為0.2。評價指標(biāo)采用精度。對比方法采用貝葉斯情感分類方法。實驗?zāi)M結(jié)果如表1所示,其中Edu->Sto表示在教育評論上進(jìn)行訓(xùn)練,在財經(jīng)評論上進(jìn)行測試,O.6704表示貝葉斯方法測試結(jié)果的精度,也就是采樣貝葉斯方法的正確率。實驗結(jié)果表明本發(fā)明的情感分類方法具有較高移植能力。在對新領(lǐng)域測試集進(jìn)行測試時,本發(fā)明的平均精度達(dá)到了82.6%,要高出貝葉斯情感分類方法22個百分點。<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>應(yīng)該注意到并理解,在不脫離后附的權(quán)利要求所要求的本發(fā)明的精神和范圍的情況下,能夠?qū)ι鲜鲈敿?xì)描述的本發(fā)明做出各種修改和改進(jìn)。因此,要求保護(hù)的技術(shù)方案的范圍不受所給出的任何特定示范教導(dǎo)的限制。權(quán)利要求一種跨領(lǐng)域的文本情感分類器的訓(xùn)練方法,包括下列步驟1)在源領(lǐng)域和新領(lǐng)域樣本的關(guān)鍵詞中挑選通用情感特征;2)根據(jù)源領(lǐng)域的樣本,計算特征wt屬于類別ck的樣本的概率P(t|ck),以及類別ck的概率P(ck),進(jìn)而計算新領(lǐng)域的樣本di屬于類別ck的概率P(ck|di);3)基于EM迭代方法訓(xùn)練所述分類器,其中在M步根據(jù)源領(lǐng)域和新領(lǐng)域樣本以及所述通用情感特征重新計算所述P(t|ck)和所述P(ck),在E步根據(jù)重新計算的所述P(t|ck)和所述P(ck)重新計算所述P(ck|di)。2.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其特征在于,所述步驟3)還包括判斷所述P(ckId》在此迭代步驟中是否發(fā)生改變,如果發(fā)生了改變,轉(zhuǎn)M步,如果未發(fā)生改變,則存儲結(jié)果P(tlck)。3.根據(jù)權(quán)利要求1或2所述的訓(xùn)練方法,其特征在于,所述步驟3)的所述E步包括31)根據(jù)公式p"w)^")n(i"r"重新計算所述p(Ckidi);其中,|V|表示整個詞空間V中所包含的詞個數(shù),Ni,t表示樣本&中特征Wt的出現(xiàn)次數(shù)。4.根據(jù)權(quán)利要求1或2所述的訓(xùn)練方法,其特征在于,所述步驟2)還包括將所述P(Ckldi)離散化的步驟;所述步驟3)的所述E步還包括將所述P(Ckldi)離散化的步驟。5.根據(jù)權(quán)利要求1或2所述的訓(xùn)練方法,其特征在于,所述步驟3)的所述M步包括32)根據(jù)公式戶(^)=_^^-計算所述P(Ck);其中A=min{St,1},t表示當(dāng)前迭代步數(shù),S是控制因子;D°和Dn分別表示源領(lǐng)域與新領(lǐng)域的樣本集合;D°|和Dl分別表示D。和Dn中所包含的樣本個數(shù)。6.根據(jù)權(quán)利要求1或2所述的訓(xùn)練方法,其特征在于,所述步驟3)的所述M步包括、_G-".(化。.w,)+義.(w;;)+i33)根據(jù)公式,"、—".^?!?+;^K)+w計算所述P(tl。;'=1,-=1其中,A=min{St,1},t表示當(dāng)前迭代步數(shù),S是控制因子;^;;表示樣本&中特征wt的出現(xiàn)次數(shù)且樣本&屬于新領(lǐng)域;《。表示樣本&中特征wt的出現(xiàn)次數(shù)且樣本&屬于源領(lǐng)域;V|表示整個詞空間V中所包含的詞個數(shù);=fw'^,Vfce表示挑逸出來的通用情感特征。7.根據(jù)權(quán)利要求1或2所述的訓(xùn)練方法,其特征在于,所述步驟2)的所述計算特征Wt屬于類別ck的樣本的概率P(tlck)包括根據(jù)如下公式計算其中,|D°|表示源領(lǐng)域的樣本的集合DO中所包含的樣本個數(shù);M')表示樣本di中特征wt的出現(xiàn)次數(shù)且樣本&屬于源領(lǐng)域;V|表示整個詞空間V中所包含的詞個數(shù)。8.根據(jù)權(quán)利要求1或2所述的訓(xùn)練方法,其特征在于,所述步驟2)的所述計算類別ck的概率P(Ck)包括根據(jù)如下公式計算|Z)。|其中,|D°|表示源領(lǐng)域的樣本的集合0°中所包含的樣本個數(shù)。9.根據(jù)權(quán)利要求1或2所述的訓(xùn)練方法,其特征在于,所述步驟1)包括11)根據(jù)公式乂=1尸確定所述高頻領(lǐng)域特征,其中e是非零參數(shù),P。(t)和pjt)分別表示特征Wt在源領(lǐng)域和新領(lǐng)域的樣本中的出現(xiàn)概率。10.根據(jù)權(quán)利要求9所述的訓(xùn)練方法,其特征在于,所述步驟11)中所述p。(t)根據(jù)如下公式計算,《W-^^,其中N。和Nn分別表示源領(lǐng)域和新領(lǐng)域的樣本總數(shù),N。(t)和Nn分別表示特征Wt在源領(lǐng)域和新領(lǐng)域的樣本中出現(xiàn)的樣本數(shù)目,a為平滑因子。11.根據(jù)權(quán)利要求9所述的訓(xùn)練方法,其特征在于,所述步驟11)中所述Pn(t)根據(jù)如下公式計算,《(0=|^^,其中^和1分別表示源領(lǐng)域和新領(lǐng)域的樣本總數(shù),N。a)和Nn(t)分別表示特征Wt在源領(lǐng)域和新領(lǐng)域的樣本中出現(xiàn)的樣本數(shù)目,a為平滑因子。12.—種跨領(lǐng)域的文本情感分類方法,包括根據(jù)權(quán)利要求1或2所述的訓(xùn)練方法所計算的結(jié)果P(tlck)對新領(lǐng)域的文本進(jìn)行分類。全文摘要本發(fā)明提供一種跨領(lǐng)域的文本情感分類器的訓(xùn)練方法,包括下列步驟1)在源領(lǐng)域和新領(lǐng)域樣本的關(guān)鍵詞中挑選通用情感特征;2)根據(jù)源領(lǐng)域的樣本,計算特征wt屬于類別ck的樣本的概率P(t|ck),以及類別ck的概率P(ck),進(jìn)而計算新領(lǐng)域的樣本di屬于類別ck的概率P(ck|di);3)基于EM迭代方法訓(xùn)練所述分類器,其中在M步根據(jù)源領(lǐng)域和新領(lǐng)域樣本以及所述通用情感特征重新計算所述P(t|ck)和所述P(ck),在E步根據(jù)重新計算的所述P(t|ck)和所述P(ck)重新計算所述P(ck|di)。根據(jù)本發(fā)明的文本情感分類方法對新領(lǐng)域的文本進(jìn)行分類的精度較高。文檔編號G06K9/62GK101770580SQ200910076428公開日2010年7月7日申請日期2009年1月4日優(yōu)先權(quán)日2009年1月4日發(fā)明者程學(xué)旗,譚松波申請人:中國科學(xué)院計算技術(shù)研究所