一種基于投票的跨語言主客觀情感分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種跨語言主客觀情感分類方法,尤其涉及一種基于投票的跨語言主 客觀情感分類方法,屬于計(jì)算機(jī)自然語言處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著微博等社交網(wǎng)絡(luò)平臺(tái)的快速發(fā)展,文本情感分類技術(shù)已成為文本信息處理的 熱點(diǎn)。有標(biāo)注的情感資源為文本情感識(shí)別研究提供了基礎(chǔ)。目前,英文領(lǐng)域的語料資源有 SentiWordNet、細(xì)粒度情感分析語料MPQA等;中文領(lǐng)域有HowNet (知網(wǎng))、同義詞詞林等。 然而,有標(biāo)注的語料在不同語言下的分布是不均衡的。當(dāng)缺乏某種語言的有標(biāo)注語料時(shí),利 用其它語言的有標(biāo)注語料來輔助進(jìn)行情感識(shí)別已成為一個(gè)熱門課題。
[0003] 跨語言情感分析(Cross Lingual Sentiment Analysis,CLSA)是指利用已有語言 的有標(biāo)注語料,輔助另一種語言來進(jìn)行情感傾向性分析。現(xiàn)有的CLSA技術(shù)有一種方式是利 用雙語詞典或?qū)R語料庫建立兩種語言的對(duì)應(yīng)關(guān)系,再運(yùn)用相似技術(shù)進(jìn)行目標(biāo)語言的情感 分析。也有一種方式是利用機(jī)器翻譯技術(shù),先將不同語言翻譯成同一種語言,再在單語上應(yīng) 用情感分析方法。Wan等人利用機(jī)器翻譯技術(shù)將有標(biāo)注的英文文本與未標(biāo)注的中文文本互 譯,再運(yùn)用Co-Training算法進(jìn)行中文情感識(shí)別。徐軍針對(duì)機(jī)器翻譯的不準(zhǔn)確性問題提出 了 一種迀移自學(xué)習(xí)算法,通過自動(dòng)標(biāo)記訓(xùn)練集中的高置信度翻譯樣本,對(duì)分類器進(jìn)行迭代 訓(xùn)練。上述研究都是基于不同語料背景的。當(dāng)已有語料資源的背景不同時(shí),CLSA策略也有 所區(qū)別。而且,現(xiàn)今可使用的語料資源絕大部分為英文語料,而其他語言的語料質(zhì)量參差不 齊,數(shù)量也相對(duì)稀少,很難達(dá)到英文語料的質(zhì)量水平。如果特定語言相關(guān)的情感資源缺乏, 跨語言情感分析的準(zhǔn)確率會(huì)受到很大的影響。
[0004] 為了解決上述問題,在公開號(hào)為CN 103530286A的中國發(fā)明專利申請(qǐng)文件中公開 了一種跨語言情感分類方法,包括以下步驟:S1,從語料庫獲取預(yù)設(shè)數(shù)目的已標(biāo)注英文語料 以及未標(biāo)注的中文語料,將已標(biāo)注的英文語料翻譯成中文語料,并進(jìn)行標(biāo)注。S2,從所述中 文語料中提取已標(biāo)注部分,將所述中文語料中剩余的未標(biāo)注部分進(jìn)行情感分類。S3,根據(jù)已 標(biāo)注中文語料中正類分類正確的樣本數(shù)P、已標(biāo)注中文語料中負(fù)類分類正確的樣本數(shù)N,以 及中文語料的總樣本數(shù)A,計(jì)算分類準(zhǔn)確率。
[0005] 但是,由于中英文語言的特點(diǎn)以及使用習(xí)慣上與其他國家的巨大差異,直接將已 標(biāo)注的英文語料使用中英雙語詞典或機(jī)器翻譯系統(tǒng)翻譯成中文語料,并進(jìn)行標(biāo)注,則會(huì)出 現(xiàn)諸多問題。如一詞多義以及詞語境用法不一致等。通過此種方法得到的情感詞典是不準(zhǔn) 確的,不能滿足跨語言情感分析對(duì)準(zhǔn)確性的要求。
【發(fā)明內(nèi)容】
[0006] 針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明所要解決的技術(shù)問題在于提供一種基于投票的跨語 言主客觀情感分類方法。
[0007] 為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用下述的技術(shù)方案:
[0008] -種基于投票的跨語言主客觀情感分類方法,包括如下步驟:
[0009] S1,根據(jù)源語言的情感詞典構(gòu)建目標(biāo)語言的情感詞典;
[0010] S2,采用規(guī)則算法、機(jī)器翻譯與統(tǒng)計(jì)機(jī)器學(xué)習(xí)相結(jié)合的算法、極性特征值計(jì)算算法 三種算法分別從待標(biāo)注文本中的句子中提取詞,根據(jù)構(gòu)建的目標(biāo)語言的情感詞典,判斷所 述詞的情感極性,進(jìn)而進(jìn)行句子的主客觀性質(zhì)判斷;
[0011] S3,獲得根據(jù)三種算法得到的句子的主客觀性質(zhì)的判斷結(jié)果,通過投票對(duì)句子的 主客觀性質(zhì)進(jìn)行判定。
[0012] 其中較優(yōu)地,在步驟Sl中,根據(jù)源語言的情感詞典構(gòu)建目標(biāo)語言的情感詞典,包 括如下步驟:
[0013] S11,獲取源語言的情感詞典中的強(qiáng)情感詞,使用雙語詞典將所述強(qiáng)情感詞翻譯為 目標(biāo)語言,得到初始的強(qiáng)正向情感詞集合以及初始的強(qiáng)負(fù)向情感詞集合;
[0014] S12,根據(jù)語料的使用情況,采用雙篩選機(jī)制,對(duì)兩個(gè)初始的情感詞集合分別進(jìn)行 篩選,得到強(qiáng)正向情感詞集合和強(qiáng)負(fù)向情感詞集合;
[0015] S13,通過類似點(diǎn)互信息的方式對(duì)得到的強(qiáng)正向情感詞集合和強(qiáng)負(fù)向情感詞集合 進(jìn)行擴(kuò)展,將情感詞典中的情感極性擴(kuò)展成5級(jí)。
[0016] 其中較優(yōu)地,在步驟Sll中,獲取源語言的情感詞典中的強(qiáng)情感詞,使用雙語詞典 將所述強(qiáng)情感詞翻譯為目標(biāo)語言,在翻譯過程中,采用詞典使用頻率最高的翻譯作為目標(biāo) 語言中的詞語意思。
[0017] 其中較優(yōu)地,在步驟S12中,采用雙篩選機(jī)制,對(duì)兩個(gè)初始的情感詞集合分別進(jìn)行 篩選,包括如下步驟:
[0018] 篩選出在中文大規(guī)模未標(biāo)注料中出現(xiàn)次數(shù)少的翻譯;
[0019] 把不是情感詞或翻譯錯(cuò)誤的詞從集合中刪除,得到強(qiáng)正向情感詞集合和強(qiáng)負(fù)向情 感詞集合。
[0020] 其中較優(yōu)地,在步驟S13中,通過類似點(diǎn)互信息的方式對(duì)得到的強(qiáng)正向情感詞集 合和強(qiáng)負(fù)向情感詞集合進(jìn)行擴(kuò)展,包括如下步驟:
[0021] S131,將SO-PMI值的大小設(shè)置5個(gè)區(qū)間,每個(gè)區(qū)間對(duì)應(yīng)一個(gè)分值,使用SO-PMI算 法對(duì)分詞器從翻譯成目標(biāo)語言的已標(biāo)注語料中分出來的所有詞進(jìn)行打分,根據(jù)分值的分布 來確定其情感極性;
[0022] S132,在情感極性的每級(jí)中,找出SO-PMI值的絕對(duì)值最高的前十個(gè)詞,加入情感 詞典,將情感詞典中的情感極性擴(kuò)展成5級(jí)。
[0023] 其中較優(yōu)地,步驟S131包括如下步驟:
[0024] S1311,計(jì)算兩個(gè)詞之間的點(diǎn)互信息PMI,采用如下公式:
[0026] 其中,P(wordl&word2)為兩個(gè)詞wordl和word2同時(shí)在句子中出現(xiàn)的概率;
[0027] S1312,根據(jù)兩個(gè)詞之間的點(diǎn)互信息計(jì)算一個(gè)詞的SO-PMI,采用如下公式:
[0028] SO-PMI (word)=
[0030] 其中,SetP為正向情感詞集,SetN為負(fù)向情感詞集;pword為正向情感詞集中的 詞,nword為負(fù)向情感詞集中的詞;word為獲取的分詞器從翻譯成目標(biāo)語言的已標(biāo)注語料 中分出來的詞;
[0031] S1313,將SO-PMI值的大小設(shè)置5個(gè)區(qū)間,每個(gè)區(qū)間對(duì)應(yīng)一個(gè)分值,根據(jù)獲得的每 個(gè)詞的SO-PMI值,對(duì)所述詞進(jìn)行打分,根據(jù)分值的分布來確定其情感傾向。
[0032] 其中較優(yōu)地,在步驟S13中,對(duì)情感詞典進(jìn)行擴(kuò)展過程中,進(jìn)行擴(kuò)展的詞還包括給 定語料中的新詞,發(fā)現(xiàn)給定語料中的新詞,包括如下步驟:
[0033] S1311,將源語料切分成n-gram片段;其中,n-gram片段為將文本中任何相鄰的η 個(gè)字組成一個(gè)片段,η取大于1的整數(shù);
[0034] S1312,計(jì)算每個(gè)n-gram片段的凝固度與自由度;
[0035] 記片段w = abc,片段w的凝固度Coh (w)計(jì)算公式如下:
[0037] 其中,p (X)表示X出現(xiàn)的概率;
[0038] 自由度Free (w)計(jì)算公式如下:
[0041] 其中,Is表示片段w的左鄰字集,rs表示片段w的右鄰字集;
[0042] S1313,將凝固度、自由度和詞頻數(shù)都滿足閾值條件的片段篩選出來,作為候選新 詞集;
[0043] S1314,從候選新詞集中移除給定詞典中存在的詞,輸出新詞集合。
[0044] 其中較優(yōu)地,在步驟S2中,所述規(guī)則算法,包括如下步驟:
[0045] 對(duì)待標(biāo)注文本中的句子進(jìn)行分詞處理;
[0046] 將分詞處理后產(chǎn)生的詞帶入情感詞典以及主題相關(guān)情感詞典進(jìn)行比較,判斷句子 中的詞是否滿足以下規(guī)則:
[0047] 規(guī)則1 :句中包含一個(gè)或一個(gè)以上的強(qiáng)情感極性的情感詞;
[0048] 規(guī)則2 :句中包含兩個(gè)或兩個(gè)以上的弱情感詞;
[0049] 如果同時(shí)滿足規(guī)則1和規(guī)則2,則所述句子是主觀句,否則,判定所述句子為客觀 句。
[0050] 其中較優(yōu)地,在步驟S2中,所述機(jī)器翻譯與統(tǒng)計(jì)機(jī)器學(xué)習(xí)相結(jié)合的算法,包括如 下步驟:
[0051] 將源語言的標(biāo)注語料通過機(jī)器翻譯翻譯為目標(biāo)語言語料;
[0052] 對(duì)翻譯的目標(biāo)語言語料抽取分類特征,根據(jù)情感詞典和主題相關(guān)情感詞典構(gòu)建特 征列表;
[0053] 將源語言的標(biāo)注信息通過標(biāo)注投影的方式標(biāo)注到目標(biāo)語料,補(bǔ)充到特征列表中, 根據(jù)特征列表訓(xùn)練目標(biāo)語言的SVM分類器;
[0054] 采用SVM分類器對(duì)待標(biāo)注文本中的句子進(jìn)行主客觀情感分類。
[0055] 其中較優(yōu)地,所述主題相關(guān)情感詞典是評(píng)價(jià)對(duì)象和情感詞組成的情感詞典,通過 對(duì)主題相關(guān)文本做主題聚類之后,抽取評(píng)價(jià)對(duì)象和情感詞獲得。
[0056] 其中較優(yōu)地,在步驟S2中,所述極性特征值計(jì)算算法,包括如下步驟:
[0057] 計(jì)算待標(biāo)注文本中句子的極性特征值,采用如下計(jì)算公式:
[0059] 其中,c表示所述句子中出現(xiàn)了情感詞典中的情感詞;Pos和Neg分別表示情感詞 典中的正負(fù)向情感詞集合;Θ 1和Θ2用于數(shù)據(jù)平滑,#為情感詞典的平衡因子;
[0060] 設(shè)定閾值f,根據(jù)設(shè)定的閾值對(duì)得到的極性特征值進(jìn)行判斷;
[0061] 如果得到的極性特征值在區(qū)間[_f,+f]之內(nèi),則所述句子為客觀句;否則,所述句 子為主觀句。
[0062] 其中較優(yōu)地,在步驟S3中,包括如下步驟:
[0063] 根據(jù)三種算法獲得句子的主客觀性質(zhì)的判斷結(jié)果;
[0064] 判斷三種算法獲得的句子的主客觀性質(zhì)的判斷結(jié)果是否相同;
[0065] 如果相同,則判斷結(jié)果即為句子的主客觀性質(zhì);
[0066] 如果不同,則選擇其中兩種算法認(rèn)定的判斷結(jié)果作為所述句子的主客觀性質(zhì)的判 斷結(jié)果。
[0067] 本發(fā)明所提供的基于投票的跨語言主客觀情感分類方法,首先,根據(jù)源語言的情 感詞典構(gòu)建目標(biāo)語言的情感詞典;可以在一定準(zhǔn)確度的前提下,充分考慮中文的語境