文本中特征詞選擇方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明提供了一種文本中特征詞選擇方法及裝置,其中該方法包括利用評(píng)價(jià)函數(shù)FCD確定總文本中候選特征詞的重要性值,其中,該評(píng)價(jià)函數(shù)FCD為根據(jù)候選特征詞的平均頻度ATF、候選特征詞的隸屬度μ計(jì)算得到的,平均頻度ATF為候選特征詞在預(yù)定文本類(lèi)別中平均出現(xiàn)的次數(shù),隸屬度μ為候選特征詞對(duì)預(yù)定文本類(lèi)別的隸屬度;根據(jù)確定的候選特征詞的重要性值,從候選特征詞中選擇預(yù)定數(shù)量的特征詞。通過(guò)本發(fā)明,解決了相關(guān)技術(shù)中存在的文本分類(lèi)系統(tǒng)在非均衡數(shù)據(jù)集情況下分類(lèi)性能較差的問(wèn)題,進(jìn)而達(dá)到了提高文本分類(lèi)器的性能的效果。
【專(zhuān)利說(shuō)明】文本中特征詞選擇方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種文本中特征詞選擇方法及裝置。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的發(fā)展,大量的信息開(kāi)始以計(jì)算機(jī)可讀的文字形式存 在,并且其數(shù)量與日俱增。如何從這些海量數(shù)據(jù)中獲取用戶所需的信息成為關(guān)鍵問(wèn)題。自動(dòng) 文本分類(lèi)是組織和處理大規(guī)模文本數(shù)據(jù)的關(guān)鍵技術(shù)之一,廣泛應(yīng)用于搜索引擎、Web分類(lèi)、 信息推介和信息過(guò)濾等領(lǐng)域。自動(dòng)文本分類(lèi)是根據(jù)內(nèi)容把文本劃分到一個(gè)或多個(gè)預(yù)先定義 的類(lèi)別,是一種有監(jiān)督的學(xué)習(xí),涉及預(yù)處理、文本表示、特征降維、分類(lèi)方法等關(guān)鍵技術(shù)。文 本特征的高維性及文本向量數(shù)據(jù)的稀疏性是影響文本分類(lèi)效率的主要瓶頸,因而特征降維 是自動(dòng)文本分類(lèi)中的一個(gè)重要環(huán)節(jié),對(duì)分類(lèi)的準(zhǔn)確性和效率起決定性作用。特征選擇是其 中一種有效的特征降維方法,也是目前的研究熱點(diǎn)。
[0003] 特征選擇是指從特征全集中選取一部分對(duì)于分類(lèi)有貢獻(xiàn)的特征子集,不同的特征 選取方法按不同的評(píng)估函數(shù)對(duì)特征進(jìn)行評(píng)價(jià)。常用的特征選擇方法有文本頻率(DF)、信息 增益(IG)、互信息(MI)、x2統(tǒng)計(jì)量(CHI)、期望交叉熵(ECE)、文本證據(jù)權(quán)(WET)和幾率 比(OR)等。隨著機(jī)器學(xué)習(xí)、信息檢索從發(fā)展到成熟,非均衡數(shù)據(jù)集(imbalance)或類(lèi)偏斜 (skewed)問(wèn)題成為文本分類(lèi)技術(shù)發(fā)展面臨的重要難題之一。非均衡數(shù)據(jù)集問(wèn)題,即數(shù)據(jù)集 中各個(gè)類(lèi)別包含的樣本數(shù)或者文本長(zhǎng)度存在很大差異,是導(dǎo)致文本分類(lèi)效果不理想的一個(gè) 重要原因。傳統(tǒng)特征選擇方法都是基于數(shù)據(jù)集均衡假設(shè)而提出,而現(xiàn)實(shí)應(yīng)用中數(shù)據(jù)集往往 是不均衡的。相關(guān)研究表明,雖然傳統(tǒng)特征選擇方法在均衡語(yǔ)料上效果不錯(cuò),但是它們?cè)诜?均衡語(yǔ)料上效果并不理想;這是因?yàn)檫@些方法一般傾向于選擇高頻詞,在數(shù)據(jù)集非均衡情 況下,大類(lèi)中文本數(shù)量遠(yuǎn)遠(yuǎn)多于稀有類(lèi)別(小類(lèi)),在大類(lèi)中出現(xiàn)次數(shù)較少的詞由于文本數(shù) 量較多其頻率可能遠(yuǎn)遠(yuǎn)大于稀有類(lèi)別中出現(xiàn)次數(shù)較多的詞,因此特征選擇方法傾向于選擇 大類(lèi)中出現(xiàn)的詞,那些對(duì)稀有類(lèi)別判別具有重要作用的特征可能被去掉,導(dǎo)致分類(lèi)器預(yù)測(cè) 容易偏向于大類(lèi)而忽略稀有類(lèi)別,稀有類(lèi)別的分類(lèi)誤差大。因此,在相關(guān)技術(shù)中存在著文本 分類(lèi)系統(tǒng)在非均衡數(shù)據(jù)集情況下分類(lèi)性能較差的問(wèn)題。
[0004] 針對(duì)相關(guān)技術(shù)中存在的文本分類(lèi)系統(tǒng)在非均衡數(shù)據(jù)集情況下分類(lèi)性能較差的問(wèn) 題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種文本中特征詞選擇方法及裝置,以至少解決相關(guān)技術(shù)中存在的 文本分類(lèi)系統(tǒng)在非均衡數(shù)據(jù)集情況下分類(lèi)性能較差的問(wèn)題。
[0006] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種文本中特征詞選擇方法,包括:利用評(píng)價(jià)函數(shù) FCD確定總文本中候選特征詞的重要性值,其中,所述評(píng)價(jià)函數(shù)FCD為根據(jù)所述候選特征詞 的平均頻度ATF、所述候選特征詞的隸屬度y計(jì)算得到的,所述平均頻度ATF為所述候選特 征詞在預(yù)定文本類(lèi)別中平均出現(xiàn)的次數(shù),所述隸屬度U為所述候選特征詞對(duì)所述預(yù)定文 本類(lèi)別的隸屬度;根據(jù)確定的所述候選特征詞的重要性值,從所述候選特征詞中選擇預(yù)定 數(shù)量的特征詞。
[0007] 優(yōu)選地,所述候選特征詞的所述隸屬度U為根據(jù)所述候選特征詞的類(lèi)間集中度 和所述候選特征詞的類(lèi)內(nèi)分散度確定的,其中,所述候選特征詞的類(lèi)間集中度為所述候選 特征詞在所述預(yù)定文本類(lèi)別中集中出現(xiàn)的程度,所述候選特征詞的類(lèi)內(nèi)分散度為所述候選 特征詞在所述預(yù)定文本類(lèi)別的所有文檔中出現(xiàn)的均勻程度。
[0008] 優(yōu)選地,在利用所述評(píng)價(jià)函數(shù)確定所述候選特征詞的重要性值之前,還包括:對(duì) 文本進(jìn)行預(yù)處理,所述預(yù)處理包括以下處理至少之一:刪除已損壞文本、刪除重復(fù)文本、去 除格式標(biāo)記、進(jìn)行中文分詞、利用預(yù)定算法進(jìn)行詞干化、將英文大寫(xiě)字母轉(zhuǎn)換為英文小寫(xiě)字 母、去除停用詞和非法字符、去除詞頻小于預(yù)訂數(shù)量的詞語(yǔ);選擇所述文本中經(jīng)過(guò)所述預(yù)處 理后剩余的詞語(yǔ)作為候選特征詞。
[0009] 優(yōu)選地,所述評(píng)價(jià)函數(shù)TOD關(guān)于候選特征詞L類(lèi)Cj的計(jì)算公式為:
【權(quán)利要求】
1. 一種文本中特征詞選擇方法,其特征在于,包括: 利用評(píng)價(jià)函數(shù)FCD確定總文本中候選特征詞的重要性值,其中,所述評(píng)價(jià)函數(shù)FCD為根 據(jù)所述候選特征詞的平均頻度ATF、所述候選特征詞的隸屬度μ計(jì)算得到的,所述平均頻 度ATF為所述候選特征詞在預(yù)定文本類(lèi)別中平均出現(xiàn)的次數(shù),所述隸屬度μ為所述候選特 征詞對(duì)所述預(yù)定文本類(lèi)別的隸屬度; 根據(jù)確定的所述候選特征詞的重要性值,從所述候選特征詞中選擇預(yù)定數(shù)量的特征 。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述候選特征詞的所述隸屬度μ為根據(jù) 所述候選特征詞的類(lèi)間集中度和所述候選特征詞的類(lèi)內(nèi)分散度確定的,其中,所述候選特 征詞的類(lèi)間集中度為所述候選特征詞在所述預(yù)定文本類(lèi)別中集中出現(xiàn)的程度,所述候選特 征詞的類(lèi)內(nèi)分散度為所述候選特征詞在所述預(yù)定文本類(lèi)別的所有文檔中出現(xiàn)的均勻程度。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在利用所述評(píng)價(jià)函數(shù)確定所述候選特征 詞的重要性值之前,還包括: 對(duì)文本進(jìn)行預(yù)處理,所述預(yù)處理包括以下處理至少之一:刪除已損壞文本、刪除重復(fù)文 本、去除格式標(biāo)記、進(jìn)行中文分詞、利用預(yù)定算法進(jìn)行詞干化、將英文大寫(xiě)字母轉(zhuǎn)換為英文 小寫(xiě)字母、去除停用詞和非法字符、去除詞頻小于預(yù)訂數(shù)量的詞語(yǔ); 選擇所述文本中經(jīng)過(guò)所述預(yù)處理后剩余的詞語(yǔ)作為候選特征詞。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述評(píng)價(jià)函數(shù)FCD關(guān)于候選特征詞4、類(lèi) Cj的計(jì)算公式為:
,其中,所述ATF(fi,Cp表示 候選特征詞A在類(lèi)4中的頻度;C為文本預(yù)定類(lèi)別的集合,所述C= IC1, C2, C3,……,C|c|}; 所述R為候選特征詞集合F到C上的模糊關(guān)系,所述F = {f\,f2, f3,……,fm};所述I c」為 類(lèi)h中的文本總數(shù),所述I C|為總文本數(shù),所M
表示總文本數(shù)|C|與類(lèi)內(nèi)的文本數(shù) 的比例,所述μ K(fi,cP為R的隸屬度,表示所述fi與所述h的相關(guān)關(guān)系,其中,所述R為 FXC上的模糊集,用于表示所述F到所述C上的一個(gè)模糊關(guān)系。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述候選特征詞&在類(lèi)中的頻度 ATF況,Cj)的計(jì)算公式為:
其中,所述TF(fi,dk)表示候選特 7 征詞fi在文本dk中出現(xiàn)的詞頻,所述dk為類(lèi)Cj內(nèi)的文本,所述DF (fi,Cj)表示候選特征詞 A在類(lèi)Cj中出現(xiàn)的文本頻率,M表示在文本dk中出現(xiàn)的候選特征詞的種類(lèi)之和。
6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述候選特征詞&在類(lèi)中的隸屬度 μ K(fi,Cj)的計(jì)算公式為: μ ^fi, Cj) = DAC(fi; Cj) X010(^, Cj), ψ, I^iiDAC(fi; Cj) ^ Cj 中的類(lèi)間集中度,所述DIC(fi,Cp為候選特征詞&在類(lèi)&中的類(lèi)內(nèi)分散度。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述候選特征詞&在類(lèi)中的類(lèi)間集中
度 其中,所述CF(A)表示出現(xiàn)候 ? 選特征詞fi的類(lèi)別數(shù),所述DF (A)表示候選特征詞&平均在每個(gè)類(lèi)別中出現(xiàn)的文本頻率; 所述TF(A)表示候選特征詞&在總文本數(shù)中出現(xiàn)的詞頻。
8. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述候選特征詞&在類(lèi)中的類(lèi)內(nèi)分散
度j 其中,所述|c」為類(lèi)h中的文本總數(shù),所述 ? TF(f,Cj)表示類(lèi)Cj中總的詞頻數(shù)。
9. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述R為候選特征詞集合F到類(lèi)集 合C上的模糊集,其中,所述F = {匕匕匕,……,fm},所述C = IC1, C2, C3,……,C|c|},
7所述候選特征詞fi在類(lèi)Cj中的隸屬度μ Jfi, Cj) :FXC - [0, 1]。
10. -種文本中特征詞選擇裝置,其特征在于,包括: 確定模塊,用于利用評(píng)價(jià)函數(shù)FCD確定總文本中候選特征詞的重要性值,其中,所述評(píng) 價(jià)函數(shù)為根據(jù)所述候選特征詞的平均頻度ATF、所述候選特征詞的隸屬度μ計(jì)算得到的, 所述頻度為所述候選特征詞在預(yù)定文本類(lèi)別中平均出現(xiàn)的次數(shù),所述隸屬度μ為所述候 選特征詞對(duì)所述預(yù)定文本類(lèi)別的隸屬度; 第一選擇模塊,用于根據(jù)確定的所述候選特征詞的重要性值,從所述候選特征詞中選 擇預(yù)定數(shù)量的特征詞。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,還包括: 處理模塊,用于對(duì)文本進(jìn)行預(yù)處理,所述預(yù)處理包括以下處理至少之一:刪除已損壞文 本、刪除重復(fù)文本、去除格式標(biāo)記、進(jìn)行中文分詞、利用預(yù)定算法進(jìn)行詞干化、將英文大寫(xiě)字 母轉(zhuǎn)換為英文小寫(xiě)字母、去除停用詞和非法字符、去除詞頻小于預(yù)訂數(shù)量的詞語(yǔ); 第二選擇模塊,用于選擇所述文本中經(jīng)過(guò)所述預(yù)處理后剩余的詞語(yǔ)作為候選特征詞。
【文檔編號(hào)】G06F17/27GK104391835SQ201410521030
【公開(kāi)日】2015年3月4日 申請(qǐng)日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】陳曉紅, 胡東濱, 徐麗華, 劉詠梅 申請(qǐng)人:中南大學(xué)