一種基于改進(jìn)互信息和熵的文本分類特征提取方法
【專利摘要】本發(fā)明提供一種用于文本分類的特征提取方法,用于解決文本分類存在的準(zhǔn)確率和召回率有待進(jìn)一步提高的問題。本發(fā)明是一種策略性方法。考慮到統(tǒng)計(jì)熱力學(xué)中熵的概念,熵用來(lái)描述體系的混亂程度,它在控制論、概率論、數(shù)論、天體物理、生命科學(xué)、信息論等領(lǐng)域都有重要應(yīng)用。本發(fā)明認(rèn)為熵同樣可以用在文本分類中,可以將特征看成是一個(gè)事件,文本的類集就是一個(gè)系統(tǒng),這樣熵就可以衡量特征和類別的混亂程度,進(jìn)而轉(zhuǎn)化為它們之間關(guān)系的緊密程度。本發(fā)明在改進(jìn)互信息的基礎(chǔ)上,結(jié)合熵的概念,提出一種新的特征評(píng)估函數(shù),并基于該函數(shù)進(jìn)行特征提取,能選取更優(yōu)特征子集,用以表示文本和構(gòu)建分類器,以提高文本分類的準(zhǔn)確率與召回率。
【專利說明】一種基于改進(jìn)互信息和熵的文本分類特征提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本挖掘【技術(shù)領(lǐng)域】,特別涉及一種基于改進(jìn)互信息和熵的文本分類特征提取方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)的發(fā)展以及網(wǎng)絡(luò)的普及,我們處在一個(gè)信息化的時(shí)代,網(wǎng)絡(luò)文本的數(shù)量在急劇增長(zhǎng),以前人工方法篩選文本進(jìn)行分類的方法已經(jīng)不適合了,迫切地需要一種快速高效的收集資料并整理所需信息的技術(shù),這樣就產(chǎn)生了文本分類技術(shù)。文本分類是指在給定分類體系下,根據(jù)文本的內(nèi)容將其分到相應(yīng)預(yù)定義類別中的過程。文本分類過程實(shí)際上是對(duì)文本的模式特征進(jìn)行識(shí)別,其中的關(guān)鍵技術(shù)包括文本預(yù)處理、特征提取、分類模型等。文本特征提取是文本分類的基本步驟,過大的文本空間將導(dǎo)致此后文本分類過程耗費(fèi)更多的時(shí)間和空間資源,因此從原始的特征集中選取最具代表性的特征是十分必要的。 [0003]文本分類中的特征選擇一般是利用評(píng)估函數(shù)對(duì)原始的特征進(jìn)行評(píng)估并計(jì)算得分,并對(duì)得分的大小進(jìn)行排序,選取一定數(shù)目的高分值特征組成特征子集,以此來(lái)代替原特征。目前常見的幾種特征評(píng)估函數(shù)是來(lái)自信息論與統(tǒng)計(jì)學(xué)原理的,有信息增益、互信息、期望交
叉熵、Z2統(tǒng)計(jì)、文本證據(jù)權(quán)等。雖然互信息是一種常用的特征評(píng)估函數(shù),在實(shí)際的應(yīng)用中也很廣泛,但其文本的分類準(zhǔn)確率和召回率一直比較低,本發(fā)明就是在互信息的改進(jìn)基礎(chǔ)上提出一種新的特征評(píng)估函數(shù),提高文本分類的準(zhǔn)確率和召回率。
[0004]互信息是信息論中的一種信息度量,它度量?jī)蓚€(gè)事件間的相關(guān)性。兩個(gè)事件的互信息定義為:
【權(quán)利要求】
1.一種基于改進(jìn)互信息和熵的文本分類特征提取方法,其特征在于,包含如下步驟: 步驟I)將數(shù)據(jù)集中的訓(xùn)練文本進(jìn)行預(yù)處理,分詞后去掉一些停用詞,得到特征詞,計(jì)算每個(gè)特征詞在文檔中出現(xiàn)的頻度,統(tǒng)計(jì)全部的文檔數(shù),包含每個(gè)特征詞的文檔數(shù),根據(jù)公式(5)計(jì)算每個(gè)特征的權(quán)重,并將文本表示為向量:
2.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)互信息和熵的文本分類特征提取方法,其特征在于:該方法將改進(jìn)的互信息和熵結(jié)合起來(lái),用于文本分類的特征評(píng)估函數(shù)。
3.一種基于改進(jìn)互信息和熵的文本分類特征提取方法,其特征在于:該方法基于訓(xùn)練文本集,利用特征評(píng)估函數(shù)TFMIIE對(duì)每個(gè)特征詞t進(jìn)行評(píng)分; 計(jì)算含有特征t的文檔數(shù),及其與整個(gè)訓(xùn)練集文檔數(shù)的比值; 對(duì)每個(gè)類別Ci,分別計(jì)算訓(xùn)練文本集中Ci類文檔數(shù)、含有特征t的Ci類文檔數(shù)與整個(gè)訓(xùn)練集文檔數(shù)的比值,計(jì)算訓(xùn)練文本集中含有特征t的Ci類文檔數(shù)與含有特征t的文檔數(shù)的比值; 按公式(8)計(jì)算特征詞t的評(píng)分,公式(8)為:
【文檔編號(hào)】G06F17/27GK103678274SQ201310129008
【公開日】2014年3月26日 申請(qǐng)日期:2013年4月15日 優(yōu)先權(quán)日:2013年4月15日
【發(fā)明者】成衛(wèi)青, 唐旋, 范恒亮, 楊庚, 梁勝 申請(qǐng)人:南京郵電大學(xué)