两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于隨機特征子空間的半監(jiān)督文本情感分類方法與流程

文檔序號:11804723閱讀:265來源:國知局
一種基于隨機特征子空間的半監(jiān)督文本情感分類方法與流程
本發(fā)明屬于自然語言處理技術(shù)與模式識別領(lǐng)域,具體地說是一種基于隨機特征子空間的半監(jiān)督文本情感分類方法。

背景技術(shù):
近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的互聯(lián)網(wǎng)用戶樂于在互聯(lián)網(wǎng)上發(fā)表自己的觀點和評論,產(chǎn)生了大量源于用戶創(chuàng)造的主觀性文本。這類主觀性文本包含著用戶觀點、意見和態(tài)度等情感信息,因此,分析主觀性文本中所表達的情感信息,識別出其情感傾向,對于互聯(lián)網(wǎng)用戶有著重要的作用。對文本情感進行分析,需要大量的有標(biāo)記樣本,但在實際應(yīng)用中,收集大量的無標(biāo)記樣本相當(dāng)容易,對這些無標(biāo)記樣本進行樣本標(biāo)記需要花費大量的人力和物力,從而利用大量的無標(biāo)記樣本和少量的有標(biāo)記樣本進行學(xué)習(xí)的半監(jiān)督學(xué)習(xí)方法得到廣泛應(yīng)用。傳統(tǒng)協(xié)同訓(xùn)練方法作為半監(jiān)督學(xué)習(xí)方法中最常用的方法之一,其主要思想是利用交叉驗證的方式進行協(xié)同訓(xùn)練,利用兩個基分類器相互協(xié)同完成分類,但是在協(xié)同訓(xùn)練過程中存在大量誤分的樣本,隨著訓(xùn)練樣本中誤分樣本的增加,各個基分類器的分類精度逐漸降低,從而導(dǎo)致傳統(tǒng)協(xié)同訓(xùn)練方法的分類準(zhǔn)確性不高。而通過多個基分類器來幫助一個基分類器進行訓(xùn)練,已被廣泛應(yīng)用于圖像識別等領(lǐng)域,但是目前還沒有研究將多個基分類器來幫助一個基分類器的思想應(yīng)用到半監(jiān)督文本情感分類領(lǐng)域中。此外,現(xiàn)有的半監(jiān)督學(xué)習(xí)方法主要通過Bootstrapping的方式產(chǎn)生多個基分類器,而對于文本情感分類問題來說,文本數(shù)據(jù)存在高維特性,通過Bootstrapping的方式產(chǎn)生的分類器間差異性較小而影響分類精度,同時也會影響分類器的訓(xùn)練速度。

技術(shù)實現(xiàn)要素:
本發(fā)明為了克服現(xiàn)有技術(shù)存在的不足之處,提出了一種基于隨機子空間的半監(jiān)督文本情感分類方法,以期能解決傳統(tǒng)協(xié)同訓(xùn)練算法訓(xùn)練過程中存在大量誤分樣本,以及半監(jiān)督文本情感分類方法中各基分類器差異性小的問題,從而進一步提高文本情感分類方法的準(zhǔn)確性。本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案:本發(fā)明一種基于隨機特征子空間的半監(jiān)督文本情感分類方法的特點是按如下步驟進行:步驟1、構(gòu)建全局特征集合T:步驟1.1、獲取n條評論文本構(gòu)成評論文本集合D,記為D={d1,d2,…di…,dn},di表示所述評論文本集合D中的第i個評論文本;1≤i≤n;n表示所述評論文本集合D中的評論文本總數(shù);步驟1.2、去除所述評論文本集合D中所有停用詞,并用N-gram的方法來表示第i個評論文本di的特征,從而獲得第i個評論文本di的特征集合表示第i個特征集合Ti中第si個特征詞,ri表示所述第i個特征集合Ti中的特征總數(shù),1≤si≤ri;步驟1.3、將n個評論文本的特征集合取并集,從而構(gòu)成所述評論文本集合D的全局特征集合T={t1,t2,…,tc,…,tm},tc表示所述全局特征集合T中第c個特征詞,m表示所述全局特征集合T的特征詞總數(shù),1≤c≤m;步驟2、將所述評論文本集合D表示成向量形式:步驟2.1、將所述評論文本集合D中的所有評論文本映射到所述全局特征集合T上,并利用TF-IDF計算第i個評論文本di中第c個特征詞tc的權(quán)值wc,i;步驟2.2、重復(fù)步驟2.1,從而獲得第i個評論文本di中m個特征詞在所述全局特征集合T上的權(quán)值Wi={w1,i,w2,i,…,wc,i,…,wm,i},從而獲得n條評論文本的權(quán)值{W1,W2,…,Wi,…,Wn};步驟2.3、將第i個評論文本di表示成向量形式:xi={(t1,w1,i),(t2,w2,i),...,(tc,wc,i),…,(tm,wm,i)};從而獲得n條評論文本的向量形式:{x1,x2,…,xi,…,xn};步驟3、對所述評論文本集D中l(wèi)個評論文本進行情感極性標(biāo)注,獲得標(biāo)記樣本集,記為L={(x1,y1),(x2,y2),…,(xq,yq),…,(xl,yl)},xq表示所述標(biāo)記樣本集L中第q個評論文本的向量形式;yq表示所述標(biāo)記樣本集L中第q個評論文本的向量形式xq的情感標(biāo)記,并有yq∈Y={Ω1,Ω2,…,Ωλ,…,Ωτ},Y表示標(biāo)記樣本集L的情感標(biāo)記總集,Ωλ表示第λ個情感標(biāo)記;τ表示所述情感標(biāo)記的總數(shù),τ≥2;l表示所述標(biāo)記樣本集L的評論文本總數(shù),1≤q≤l≤n,1≤λ≤τ;則所述評論文本集D中剩余的n-l個文本作為未標(biāo)記樣本集,記為U={xl+1,xl+2,…,xl+b,…,xl+u},xl+b表示所述未標(biāo)記樣本集U中的第b個評論文本的向量形式,u表示所述未標(biāo)記樣本集U中的評論文本總數(shù),1≤b≤u;步驟4、計算全局特征集合T中的所有特征詞的特征權(quán)重:步驟4.1、根據(jù)所述標(biāo)記樣本集L,使用Lasso方法計算所述全局特征集合T中第c個特征詞tc與所述類別標(biāo)記總集Y中每個情感標(biāo)記的關(guān)聯(lián)性強度,獲得第c個特征詞tc的重要性得分γc;從而獲得m個特征詞的重要性得分集合γ={γ1,γ2,…,γc,…,γm};步驟4.2、利用式(1)對所述第c個特征詞tc的重要性得分γc進行歸一化處理,獲得第c個特征詞tc的特征權(quán)重δc,從而獲得m個特征詞的特征權(quán)重集合δ={δ1,δ2,…,δc,…,δm},γθ表示第θ個特征詞tθ的重要性得分,1≤θ≤m:步驟5、構(gòu)建r維的隨機子空間:步驟5.1、定義抽出次數(shù)為z,定義隨機子空間總數(shù)為Z;并初始化z=1;步驟5.2、以第c個特征權(quán)重δc作為所述第c個特征詞tc的抽取概率,從所述全局特征集合T中隨機抽取r個特征詞,構(gòu)成第z次抽取的投影矩陣表示第z次抽取的第g個特征詞;1≤g≤r≤m;步驟5.3、分別將所述標(biāo)記樣本集L和未標(biāo)記樣本集U分別投影到所述第z次抽取的投影矩陣Vz上,從而分別構(gòu)成第z個標(biāo)記樣本的隨機子空間和第z個未標(biāo)記樣本的隨機子空間表示所述第z個標(biāo)記樣本的隨機子空間中第q個評論文本的向量形式;并有表示所述第z個未標(biāo)記樣本的隨機子空間中第b個評論文本的向量形式,并有:步驟5.4、將z+1賦值給z,并重復(fù)步驟5.2和步驟5.3,直到z=Z為止;從而獲得Z個標(biāo)記樣本集L的隨機子空間集合和Z個未標(biāo)記樣本集U的隨機子空間集合步驟6、利用所述未標(biāo)記樣本集U進行學(xué)習(xí),得到最終的分類器集合步驟6.1、定義迭代次數(shù)為j,最大迭代次數(shù)為J;并初始化j=1;步驟6.2、以SVM作為基分類器,以第j次迭代的Z個標(biāo)記樣本集L的隨機子空間集合作為第j次訓(xùn)練樣本,并在所述第j次訓(xùn)練樣本上進行訓(xùn)練,獲得第j次迭代的Z個分類器集合表示第j次迭代的第z個分類器;步驟6.3、定義被幫助分類器為fa,并初始化a=1;步驟6.4、選取第j次迭代的第a個分類器作為被幫助分類器,則除第j次迭代的第a個分類器以外的(Z-1)個分類器,作為幫助分類器;步驟6.5、利用所述(Z-1)個幫助分類器對第j次迭代的(Z-1)個未標(biāo)記樣本集U的隨機子空間集合中每個元素的第b個樣本組成的集合進行預(yù)測;從而獲得第j次迭代的第b個樣本的情感標(biāo)記集合,記為表示第j次迭代的第z個未標(biāo)記樣本的隨機子空間中的第b個樣本的向量形式的情感標(biāo)記;并有步驟6.6、利用式(2)獲得所述情感標(biāo)記集合y(l+b),j中為第λ個情感標(biāo)記Ωλ的置信度從而獲得所述第b個樣本的情感標(biāo)記集合y(l+b),j中分別為τ個情感標(biāo)記的置信度集合式(2)中,表示第λ個情感標(biāo)記Ωλ在情感標(biāo)記集合y(l+b),j中出現(xiàn)的次數(shù);步驟6.7、重復(fù)步驟6.5和步驟6.6,從而分別獲得第j次迭代的u個樣本的情感標(biāo)記集合,記為{y(l+1),j,y(l+2),j,…,y(l+b),j,…y(l+u),j}以及第j次迭代的u個樣本的情感標(biāo)記的置信度集合,記為步驟6.8、從所述第j次迭代的置信度集合中選取前ψλ個置信度最高的第λ個情感標(biāo)記Ωλ所對應(yīng)的樣本;并判斷所選取的ψλ個樣本的置信度是否均大于置信度閾值σ,若均大于,則將所選取的ψλ個樣本加入第j次迭代的第a個候選樣本集合中;否則,從所選取的ψλ個樣本中刪除置信度小于所述置信度閾值σ的樣本,獲得剩余的ψλ′個樣本,并將ψλ′賦值給ψλ,從而將ψλ個樣本加入第j次迭代的第a個候選樣本集合中;步驟6.9、重復(fù)步驟6.8,從而使得τ個情感標(biāo)記所對應(yīng)的個樣本均加入所述第j次迭代的第a個選樣本集合中;步驟6.10、將所述第j次迭代的第a個候選樣本集合中所有樣本以及與其相對應(yīng)的τ個情感標(biāo)記,均加入到所述第j次迭代的第a個標(biāo)記樣本的隨機子空間中,從而獲得更新的第a個標(biāo)記樣本的隨機子空間步驟6.11、將a+1賦值給a,并返回步驟6.4順序執(zhí)行,直到a=Z;從而獲得第j次迭代的Z個候選樣本集合以及第j次迭代的更新的Z個標(biāo)記樣本集L的隨機子空間集合步驟6.12、將第j次迭代的Z個候選樣本集合取并集,獲得優(yōu)化的第j次迭代的候選樣本集合Φj,并將所述優(yōu)化的第j次迭代的候選樣本集合Φj從所述第j次迭代的Z個未標(biāo)記樣本集U的隨機子空間集合中刪除,獲得更新的第j+1次迭代的Z個未標(biāo)記樣本集U的隨機子空間集合并重新計算未標(biāo)記樣本集U的未標(biāo)記樣本數(shù)為u′,并將u′賦值給u;步驟6.12、判斷均為空集或Z次所添加的樣本數(shù)量均為零是否滿足,若滿足,則結(jié)束第j+1次迭代,并將第j次迭代的Z個分類器作為最終的分類器集合若沒有滿足,則將j+1賦值給j;并返回步驟6.2,直至j=J,并將第J次迭代的Z個分類器作為最終的分類器集合步驟7、利用式(3),以主投票的方式將Z個分類器進行集成,從而獲得最終的集成分類器F(xε);式(3)中,xε表示任意需要標(biāo)記樣本的向量表示,βλ表示分類器是否將任意需要標(biāo)記樣本的向量表示xε的情感標(biāo)記預(yù)測為Ωλ,其值可根據(jù)式(4)計算得到;式(4)中,表示分類器對任意需要標(biāo)記樣本的向量表示xε進行預(yù)測的結(jié)果。與已有技術(shù)相比,本發(fā)明有益效果體現(xiàn)在:1、本發(fā)明通過改進RandomSubspace方式產(chǎn)生多個基分類器,并通過多個基分類器幫助一個基分類器進行協(xié)同訓(xùn)練,進而獲得分類準(zhǔn)確性高的文本情感分類方法,從而克服了傳統(tǒng)協(xié)同訓(xùn)練算法協(xié)同訓(xùn)練過程中存在大量誤分的樣本的問題,同時也解決了文本數(shù)據(jù)維度高的情況下,各個分類器間差異性小和分類器訓(xùn)練速度慢的問題,進而提高了文本情感分類方法的準(zhǔn)確性和學(xué)習(xí)效率。2、本發(fā)明通過基于Lasso方法的改進RandomSubspace的方式來產(chǎn)生多個隨機子空間,并在隨機子空間上訓(xùn)練得到多個基分類器,增大了各個基分類器間的差異性,同時通過改進RandomSubspace的方式降低了文本數(shù)據(jù)的維度,克服了Bootstrapping方式產(chǎn)生的基分類器間差異性小和數(shù)據(jù)維度高的情況下學(xué)習(xí)效率低的問題,減少了訓(xùn)練時間并提高了學(xué)習(xí)效率。3、本發(fā)明將多個基分類器幫助一個基分類器的思想應(yīng)用到文本情感分類領(lǐng)域中,采用多個基分類器投票的方式來估計未標(biāo)記樣本的置信度,同時設(shè)定置信度閾值和選取置信度最高的樣本來減小未標(biāo)記樣本的誤分,克服了傳統(tǒng)協(xié)同訓(xùn)練算法協(xié)同訓(xùn)練過程中存在大量誤分樣本的問題,進而提高了分類準(zhǔn)確性。4、本發(fā)明能夠利用未標(biāo)記樣本的信息,在實際應(yīng)用中只需少量的有標(biāo)記樣本,無需人工對樣本進行標(biāo)注,通過對訓(xùn)練樣本的合理選取,在有標(biāo)記樣本數(shù)量很少的情況下,本發(fā)明方法同樣可以取得很高的準(zhǔn)確性。5、本發(fā)明可以用于對互聯(lián)網(wǎng)上的用戶評論進行分析與決策,還可以用于輿情監(jiān)控和信息預(yù)測等領(lǐng)域,本發(fā)明應(yīng)用范圍廣泛。附圖說明圖1是本發(fā)明流程示意圖;圖2是本發(fā)明DatasetV1.0上分類精度實驗結(jié)果;圖3是本發(fā)明DatasetV2.0上分類精度實驗結(jié)果。具體實施方式本發(fā)明對評論文本進行預(yù)處理操作來構(gòu)建全局特征集合,并將所有評論文本表示成向量形式,再對部分評論文本的情感極性進行標(biāo)記,得到標(biāo)記樣本集和未標(biāo)記樣本集;然后利用Lasso方法計算全局特征集合中所有特征詞的特征權(quán)重,并以特征權(quán)重為概率抽取部分特征詞構(gòu)建隨機子空間,將標(biāo)記樣本集映射到隨機子空間上并訓(xùn)練分類器,同時利用未標(biāo)記樣本集進行協(xié)同訓(xùn)練,得到最終的分類器;最后以主投票的方式集成Z個分類器,并獲得最終的集成分類器F(xε)。具體地說,如圖1所示,本發(fā)明方法包括以下步驟:步驟1、構(gòu)建全局特征集合T:步驟1.1、獲取n條評論文本構(gòu)成評論文本集合D,記為D={d1,d2,…di…,dn},di表示評論文本集合D中的第i個評論文本;1≤i≤n;n表示評論文本集合D中的評論文本總數(shù);步驟1.2、去除評論文本集合D中所有停用詞,并用N-gram的方法來表示第i個評論文本di的特征,從而獲得第i個評論文本di的特征集合表示第i個特征集合Ti中第si個特征詞,ri表示第i個特征集合Ti中的特征總數(shù),1≤si≤ri;N-gram模型假設(shè)第N個詞的出現(xiàn)只與前面(N-1)個詞相關(guān),N根據(jù)具體情況自行設(shè)定,本實施例中,選取N=3;步驟1.3、將n個評論文本的特征集合取并集,從而構(gòu)成評論文本集合D的全局特征集合T={t1,t2,…,tc,…,tm},tc表示全局特征集合T中第c個特征詞,m表示全局特征集合T的特征詞總數(shù),1≤c≤m;步驟2、將評論文本集合D表示成向量形式:步驟2.1、將評論文本集合D中的所有評論文本映射到全局特征集合T上,并利用TF-IDF計算第i個評論文本di中第c個特征詞tc的權(quán)值wc,i;TF-IDF公式如下:式(1)中,hc,i表示第i個評論文本di中第c個特征詞tc在第i個評論文本di中出現(xiàn)的次數(shù),hp,i表示第i個評論文本di中第p個特征詞tp在第i個評論文本di中出現(xiàn)的次數(shù),1≤p≤m;表示出現(xiàn)過特征詞tc的文檔數(shù);步驟2.2、重復(fù)步驟2.1,從而獲得第i個評論文本di中m個特征詞在全局特征集合T上的權(quán)值Wi={w1,i,w2,i,…,wc,i,…,wm,i},從而獲得n條評論文本的權(quán)值{W1,W2,…,Wi,…,Wn};步驟2.3、將第i個評論文本di表示成向量形式:xi={(t1,w1,i),(t2,w2,i),...,(tc,wc,i),…,(tm,wm,i)};從而獲得n條評論文本的向量形式:{x1,x2,…,xi,…,xn};步驟3、對評論文本集D中l(wèi)個評論文本進行情感極性標(biāo)注,獲得標(biāo)記樣本集,記為L={(x1,y1),(x2,y2),…,(xq,yq),…,(xl,yl)},xq表示標(biāo)記樣本集L中第q個評論文本的向量形式;yq表示標(biāo)記樣本集L中第q個評論文本的向量形式xq的情感標(biāo)記,并有yq∈Y={Ω1,Ω2,…,Ωλ,…,Ωτ},Y表示標(biāo)記樣本集L的情感標(biāo)記總集,Ωλ表示第λ個情感標(biāo)記;τ表示情感標(biāo)記的總數(shù),τ≥2;l表示標(biāo)記樣本集L的評論文本總數(shù),1≤q≤l≤n,1≤λ≤τ;則評論文本集D中剩余的n-l個文本作為未標(biāo)記樣本集,記為U={xl+1,xl+2,…,xl+b,…,xl+u},xl+b表示未標(biāo)記樣本集U中的第b個評論文本的向量形式,u表示未標(biāo)記樣本集U中的評論文本總數(shù),1≤b≤u;步驟4、計算全局特征集合T中的所有特征詞的特征權(quán)重:步驟4.1、根據(jù)標(biāo)記樣本集L,使用Lasso方法計算全局特征集合T中第c個特征詞tc與類別標(biāo)記總集Y中每個情感標(biāo)記的關(guān)聯(lián)性強度,獲得第c個特征詞tc的重要性得分γc;從而獲得m個特征詞的重要性得分集合γ={γ1,γ2,…,γc,…,γm};Lasso方法具體為:將獲得的數(shù)據(jù)表示成一個樣本矩陣xp=(xp1,xp2,…,xpc,…,xpm)T,其中xp為預(yù)測變量,yp為因變量,假設(shè)個體間相互獨立或給定預(yù)測變量xpc的條件下,yp是相互獨立的,則Lasso估計可以定義為:式(2),μ≥0為懲罰參數(shù),當(dāng)μ的值取較大時,某些相關(guān)度低的變量系數(shù)就會被壓縮為0,從而將這些變量刪除,以達到特征選擇的目的;當(dāng)μ的值很小時,不再具有約束作用,此時所有的屬性將被選擇并形成一個變量選擇序列,μ可根據(jù)具體情況設(shè)定,本實施例中設(shè)定μ=10-6,計算各特征量對應(yīng)的回歸系數(shù);步驟4.2、利用式(3)對第c個特征詞tc的重要性得分γc進行歸一化處理,獲得第c個特征詞tc的特征權(quán)重δc,從而獲得m個特征詞的特征權(quán)重集合δ={δ1,δ2,…,δc,…,δm},γθ表示第θ個特征詞tθ的重要性得分,1≤θ≤m:步驟5、構(gòu)建r維的隨機子空間:步驟5.1、定義抽出次數(shù)為z,定義隨機子空間總數(shù)為Z;并初始化z=1;隨機子空間總數(shù)Z可根據(jù)具體情況進行確定,本實施例設(shè)置Z=20;步驟5.2、以第c個特征權(quán)重δc作為第c個特征詞tc的抽取概率,從全局特征集合T中隨機抽取r個特征詞,構(gòu)成第z次抽取的投影矩陣表示第z次抽取的第g個特征詞;1≤g≤r≤m;r表示隨機子空間中的特征詞總數(shù),可根據(jù)具體情況自行設(shè)定,本實施例設(shè)置步驟5.3、分別將標(biāo)記樣本集L和未標(biāo)記樣本集U分別投影到第z次抽取的投影矩陣Vz上,從而分別構(gòu)成第z個標(biāo)記樣本的隨機子空間和第z個未標(biāo)記樣本的隨機子空間表示第z個標(biāo)記樣本的隨機子空間中第q個評論文本的向量形式;并有表示第z個未標(biāo)記樣本的隨機子空間中第b個評論文本的向量形式,并有:步驟5.4、將z+1賦值給z,并重復(fù)步驟5.2和步驟5.3,直到z=Z為止;從而獲得Z個標(biāo)記樣本集L的隨機子空間集合和Z個未標(biāo)記樣本集U的隨機子空間集合步驟6、利用未標(biāo)記樣本集U進行學(xué)習(xí),得到最終的分類器集合步驟6.1、定義迭代次數(shù)為j,最大迭代次數(shù)為J;并初始化j=1;J可根據(jù)具體情況設(shè)定,本實施例中,設(shè)定J=200;步驟6.2、以SVM作為基分類器,以第j次迭代的Z個標(biāo)記樣本集L的隨機子空間集合作為第j次訓(xùn)練樣本,并在第j次訓(xùn)練樣本上進行訓(xùn)練,獲得第j次迭代的Z個分類器集合表示第j次迭代的第z個分類器;步驟6.3、定義被幫助分類器為fa,并初始化a=1;步驟6.4、選取第j次迭代的第a個分類器作為被幫助分類器,則除第j次迭代的第a個分類器以外的(Z-1)個分類器,作為幫助分類器;步驟6.5、利用(Z-1)個幫助分類器對第j次迭代的(Z-1)個未標(biāo)記樣本集U的隨機子空間集合中每個元素的第b個樣本組成的集合進行預(yù)測;從而獲得第j次迭代的第b個樣本的情感標(biāo)記集合,記為表示第j次迭代的第z個未標(biāo)記樣本的隨機子空間中的第b個樣本的向量形式的情感標(biāo)記;并有步驟6.6、利用式(4)獲得情感標(biāo)記集合y(l+b),j中為第λ個情感標(biāo)記Ωλ的置信度從而獲得第b個樣本的情感標(biāo)記集合y(l+b),j中分別為τ個情感標(biāo)記的置信度集合式(4)中,表示第λ個情感標(biāo)記Ωλ在情感標(biāo)記集合y(l+b),j中出現(xiàn)的次數(shù);步驟6.7、重復(fù)步驟6.5和步驟6.6,從而分別獲得第j次迭代的u個樣本的情感標(biāo)記集合,記為{y(l+1),j,y(l+2),j,…,y(l+b),j,…y(l+u),j}以及第j次迭代的u個樣本的情感標(biāo)記的置信度集合,記為步驟6.8、從第j次迭代的置信度集合中選取前ψλ個置信度最高的第λ個情感標(biāo)記Ωλ所對應(yīng)的樣本;并判斷所選取的ψλ個樣本的置信度是否均大于置信度閾值σ,若均大于,則將所選取的ψλ個樣本加入第j次迭代的第a個候選樣本集合中;否則,從所選取的ψλ個樣本中刪除置信度小于置信度閾值σ的樣本,獲得剩余的ψλ′個樣本,并將ψλ′賦值給ψλ,從而將ψλ個樣本加入第j次迭代的第a個候選樣本集合中;ψλ表示第λ個情感標(biāo)記Ωλ添加的樣本數(shù),可根據(jù)具體情況設(shè)定,本發(fā)明實驗設(shè)定τ個情感標(biāo)記添加的樣本數(shù)均為5;置信度閾值σ可根據(jù)具體情況設(shè)定,本實施例中設(shè)定σ=0.8;步驟6.9、重復(fù)步驟6.8,從而使得τ個情感標(biāo)記所對應(yīng)的個樣本均加入第j次迭代的第a個選樣本集合中;步驟6.10、將第j次迭代的第a個候選樣本集合中所有樣本以及與其相對應(yīng)的τ個情感標(biāo)記,均加入到第j次迭代的第a個標(biāo)記樣本的隨機子空間中,從而獲得更新的第a個標(biāo)記樣本的隨機子空間步驟6.11、將a+1賦值給a,并返回步驟6.4順序執(zhí)行,直到a=Z;從而獲得第j次迭代的Z個候選樣本集合以及第j次迭代的更新的Z個標(biāo)記樣本集L的隨機子空間集合步驟6.12、將第j次迭代的Z個候選樣本集合取并集,獲得優(yōu)化的第j次迭代的候選樣本集合Φj,并將優(yōu)化的第j次迭代的候選樣本集合Φj從第j次迭代的Z個未標(biāo)記樣本集U的隨機子空間集合中刪除,獲得更新的第j+1次迭代的Z個未標(biāo)記樣本集U的隨機子空間集合并重新計算未標(biāo)記樣本集U的未標(biāo)記樣本數(shù)為u′,并將u′賦值給u;步驟6.12、判斷均為空集或Z次所添加的樣本數(shù)量均為零是否滿足,若滿足,則結(jié)束第j+1次迭代,并將第j次迭代的Z個分類器作為最終的分類器集合若沒有滿足,則將j+1賦值給j;并返回步驟6.2,直至j=J,并將第J次迭代的Z個分類器作為最終的分類器集合步驟7、利用式(5),以主投票的方式將Z個分類器進行集成,從而獲得最終的集成分類器F(xε);式(5)中,xε表示任意需要標(biāo)記樣本的向量表示,βλ表示分類器是否將任意需要標(biāo)記樣本的向量表示xε的情感標(biāo)記預(yù)測為Ωλ,其值可根據(jù)式(6)計算得到;式(6)中,表示分類器對任意需要標(biāo)記樣本的向量表示xε進行預(yù)測的結(jié)果。針對本發(fā)明方法進行實驗論證,具體包括:1、標(biāo)準(zhǔn)數(shù)據(jù)集:本發(fā)明使用SentencePolarityDatasetV1.0和SentencePolarityDatasetV2.0兩個數(shù)據(jù)集作為標(biāo)準(zhǔn)數(shù)據(jù)集驗證基于隨機子空間的半監(jiān)督文本情感分類方法的有效性,SentencePolarityDatasetV1.0數(shù)據(jù)集包含5331個正情感類文本和5331個負情感類文本,SentencePolarityDatasetV2.0數(shù)據(jù)集包含1000個正情感類文本和1000個負情感類文本,以上兩個數(shù)據(jù)集的文本內(nèi)容均是對電影的評價;2、評價指標(biāo)本發(fā)明使用目前文本情感分類領(lǐng)域常用的評價指標(biāo):平均分類精度(AverageAccuracy)作為本實施例的評價指標(biāo),其計算公式如式(7):式(7)中,TP(TruePositive)表示分類模型正確預(yù)測的正樣本數(shù),TN(TrueNegative)表示分類模型正確預(yù)測的負樣本數(shù),F(xiàn)P(FalsePositive)表示分類模型錯誤預(yù)測的正樣本數(shù),F(xiàn)N(FalseNegative)表示分類模型錯誤預(yù)測的負樣本數(shù);3、實驗流程為了驗證本發(fā)明所提方法的有效性,本發(fā)明選用文本情感分類領(lǐng)域常用的分類器SVM作為基分類器,對比實驗選用四種常見的半監(jiān)督學(xué)習(xí)方法進行比較:Self-training、Co-training、Tri-training和Co-forest方法,Self-training、Co-training、Tri-training方法均以SVM作為基分類器,Co-forest采用RandomTree作為基礎(chǔ)分類器。SVM算法通過WEKA下的SMO模塊來實現(xiàn),Tri-training和Co-forest方法借鑒了其他研究者的源代碼,Self-training和Co-training方法通過自行編程來實現(xiàn)。實驗選取了10%、20%、40%、60%、80%樣本作為初始訓(xùn)練集,采用平均分類精度為評價指標(biāo)對四種半監(jiān)督學(xué)習(xí)方法和本發(fā)明方法的性能進行分析比較,隨機子空間總數(shù)取20。為了提高實驗結(jié)果的可信度和有效性,實驗過程使用10次10倍交叉驗證法,本發(fā)明的實驗結(jié)果均為10次10倍交叉驗證的平均值。4、實驗結(jié)果為了驗證本發(fā)明所提方法的有效性,本發(fā)明在SentencePolarityDatasetV1.0和SentencePolarityDatasetV2.0兩個數(shù)據(jù)集上進行實驗,并將本發(fā)明方法的分類結(jié)果與SVM、Self-training、Co-training、Tri-training和Co-forest方法取得的結(jié)果進行了比較。實驗結(jié)果如圖2和圖3所示,圖2和圖3中橫坐標(biāo)表示抽樣率,縱坐標(biāo)表示平均分類精度。由圖2和圖3可以看出,在抽樣率分別為10%、20%、40%、60%和80%的情況下,本發(fā)明方法在兩個數(shù)據(jù)集上取得的平均分類精度均高于SVM、Self-training、Co-training、Tri-training和Co-forest方法取得的平均分類精度;并且隨著抽樣率的增加,本發(fā)明方法取得的平均分類精度也越來越高,實驗結(jié)果驗證了本發(fā)明方法的有效性。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
英德市| 绥阳县| 故城县| 黄陵县| 沂源县| 贡山| 黄石市| 利津县| 桑日县| 常山县| 岳池县| 泰安市| 东海县| 红原县| 汾西县| 昌黎县| 乌兰察布市| 临西县| 当雄县| 钟祥市| 科技| 马龙县| 清涧县| 错那县| 体育| 和龙市| 博白县| 东宁县| 凤庆县| 汕头市| 博湖县| 山西省| 龙泉市| 镇江市| 开江县| 琼海市| 彭山县| 丹凤县| 江孜县| 广灵县| 旅游|