一種基于決策樹(shù)的屬性加權(quán)方法及文本分類(lèi)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于決策樹(shù)的屬性加權(quán)方法及文本分類(lèi)方法,屬于人工智能數(shù)據(jù) 挖掘分類(lèi)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 樸素貝葉斯文本分類(lèi)器因?yàn)槠浜?jiǎn)單性和高效性經(jīng)常被用來(lái)處理文本分類(lèi)問(wèn)題,但 是它的屬性獨(dú)立假設(shè)在使它變得高效的同時(shí)在一定程度上影響了它的分類(lèi)性能。給定一篇 文檔山該文檔被表示成單詞向量的形式<Wl,w2,…,w,,多項(xiàng)式樸素貝葉斯(MNB),補(bǔ)集樸 素貝葉斯(CNB)和兩者的結(jié)合模型(0VA)分別用公式1,2和3來(lái)分類(lèi)文檔d。
【主權(quán)項(xiàng)】
1. 一種基于決策樹(shù)的屬性加權(quán)方法,其特征在于包括以下步驟: (1) 對(duì)于一個(gè)已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞向量 形式d =〈w。w2, . . . wm>,其中Wi為文檔d中的第i個(gè)單詞,m為文檔d中單詞的數(shù)目; 利用以下公式計(jì)算該訓(xùn)練文檔集D中的各個(gè)屬性的信息增益率:
其中,GainRatio (D, Wi)表示單詞力劃分訓(xùn)練文檔集D的信息增益率,Gain(D^i)表示 單詞力劃分訓(xùn)練文檔集D的信息增益,SplitInfo (D, w D表示訓(xùn)練文檔集D關(guān)于單詞力的 分裂信息; Gain(Dji)通過(guò)以下公式計(jì)算:
其中,|DV|是訓(xùn)練文檔集D中單詞~的取值為V的文檔數(shù)目,V E {〇,〇}; Entropy (D) 是訓(xùn)練文檔集D的熵,通過(guò)以下公式計(jì)算:
其中,C是類(lèi)標(biāo)記的集合,c是C中的一個(gè)類(lèi)標(biāo)記,p(C)是訓(xùn)練文檔集D中類(lèi)別為c的 概率;P (c)通過(guò)以下公式計(jì)算得到:
其中,n是訓(xùn)練文檔集D中的文檔數(shù)目,s是文檔的類(lèi)別的數(shù)目,(^是第j篇文檔的類(lèi) 標(biāo)記,S (h c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ; SplitInfo(Dji)通過(guò)以下公式計(jì)算得到:
(2) 用信息增益率作為劃分標(biāo)準(zhǔn)建立決策樹(shù),所述決策樹(shù)為二叉樹(shù),二叉樹(shù)在生長(zhǎng)的 每一步選擇具有最大信息增益率的單詞作為測(cè)試屬性,單詞出現(xiàn)的頻率為〇或者非〇作為 測(cè)試結(jié)果; (3) 遍歷決策樹(shù),記錄每個(gè)單詞^在決策樹(shù)中測(cè)試的的最小深度d i; (4) 對(duì)于訓(xùn)練文檔集D中的每個(gè)單詞Wi,若其在決策樹(shù)中出現(xiàn),則將它的權(quán)值Wi設(shè)置為
2. -種依托于權(quán)利要求1所述基于決策樹(shù)的屬性加權(quán)方法的多項(xiàng)式樸素貝葉斯文本 分類(lèi)方法,其特征在于:通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
其中,fi表示單詞W i在文檔d中出現(xiàn)的頻率,為已知量;P (w i I C)表示條件概率,通過(guò)以 下公式計(jì)算得到:
其中,G表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞W 4勺頻率,n為訓(xùn)練文檔集D中 文檔的數(shù)目,G和n均為已知量。
3. -種依托于權(quán)利要求1所述基于決策樹(shù)的屬性加權(quán)方法的補(bǔ)集樸素貝葉斯文本分 類(lèi)方法,其特征在于:通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
其中,fi表示單詞Wi在文檔d中出現(xiàn)的頻率,為已知量;p(幻通過(guò)以下公式計(jì)算得到:
其中,S(C|,幻表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ; P(W, I幻表示條件概率,通過(guò)以下公式計(jì)算得到:
4. 一種依托于權(quán)利要求1所述基于決策樹(shù)的屬性加權(quán)方法的多項(xiàng)式與補(bǔ)集相結(jié)合的 樸素貝葉斯文本分類(lèi)方法,其特征在于:通過(guò)以下公式對(duì)文檔d進(jìn)行分類(lèi):
其中,fi表示單詞w i在文檔d中出現(xiàn)的頻率,為已知量;p(幻通過(guò)以下公式計(jì)算得到:
其中,KU)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為丄否則為〇 ;p (Wi |c)表 示條件概率,通過(guò)以下公式計(jì)算得到:
其中,G表示訓(xùn)練文檔集D中第j篇文檔中出現(xiàn)單詞w ^勺頻率,n為訓(xùn)練文檔集D中 文檔的數(shù)目,G和n均為已知量;p(w, I幻表示條件概率,通過(guò)以下公式計(jì)算得到:
【專(zhuān)利摘要】本發(fā)明提供了一種基于決策樹(shù)的屬性加權(quán)方法,首先用信息增益率標(biāo)準(zhǔn)構(gòu)建決策樹(shù),然后根據(jù)各屬性在決策樹(shù)中測(cè)試的最小深度來(lái)計(jì)算權(quán)值。本發(fā)明同時(shí)提供了依托于該基于決策樹(shù)的屬性加權(quán)方法的多項(xiàng)式樸素貝葉斯文本分類(lèi)方法、依托于該基于決策樹(shù)的屬性加權(quán)方法的補(bǔ)集樸素貝葉斯文本分類(lèi)方法,以及依托于該基于決策樹(shù)的屬性加權(quán)方法的多項(xiàng)式與補(bǔ)集相結(jié)合的樸素貝葉斯文本分類(lèi)方法。本發(fā)明改善了原來(lái)的樸素貝葉斯文本分類(lèi)器分類(lèi)精度,同時(shí)維持了原來(lái)樸素貝葉斯算法的簡(jiǎn)潔性和時(shí)間復(fù)雜度。
【IPC分類(lèi)】G06F17-30
【公開(kāi)號(hào)】CN104820702
【申請(qǐng)?zhí)枴緾N201510237748
【發(fā)明人】蔣良孝, 張倫干, 李超群
【申請(qǐng)人】中國(guó)地質(zhì)大學(xué)(武漢)
【公開(kāi)日】2015年8月5日
【申請(qǐng)日】2015年5月12日