两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于chi特征選取的文本事件分類方法

文檔序號(hào):9249267閱讀:532來源:國(guó)知局
基于chi特征選取的文本事件分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于地理信息的數(shù)據(jù)挖掘領(lǐng)域,具體公開了一種基于CHI特征選取的文本 事件分類方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)資源爆炸式的增長(zhǎng),分類技術(shù)已經(jīng)成為倍受關(guān)注的領(lǐng)域和研究的熱 點(diǎn)。全球技術(shù)研究和咨詢公司相關(guān)調(diào)查報(bào)告顯示,未來10年中至少95%的人機(jī)交互信息是 文本語言,其中事件是人們認(rèn)知和理解世界的基本單位,包含著人類對(duì)事件信息描述的時(shí) 空與屬性要素信息W及事件各要素之間的語義關(guān)聯(lián)關(guān)系。
[0003] 然而,文本中事件信息的有效利用和知識(shí)的發(fā)現(xiàn)成為了現(xiàn)今文本數(shù)據(jù)挖掘領(lǐng)域亟 待面對(duì)的問題。文本分類既能夠?yàn)樾畔⑴c知識(shí)的抽取奠定基礎(chǔ),又能夠有效降低文本中事 件信息的挖掘利用難度。目前,分類體系、模式匹配與機(jī)器學(xué)習(xí)等方法大部分應(yīng)用于文本的 分類,而缺乏完整的文本中事件的分類方法。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于;依據(jù)中文文本事件描述特點(diǎn),提出一種基于CHI特征選取的 文本事件分類方法,有效改進(jìn)中文文本自然語言處理中事件類型的分類,提升了中文文本 事件的分類精度和效率,為文本數(shù)據(jù)挖掘提供基礎(chǔ)性分類依據(jù)。
[0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明通過分析中文文本事件的語言描述特征,選取CHI值 作為主題特征向量,針對(duì)選取的訓(xùn)練語料形成特征文件和訓(xùn)練模版,最終實(shí)現(xiàn)文本事件信 息的分類,具體的過程如下;
[0006] 基于CHI特征選取的文本事件分類方法,其特征在于,包括如下過程:
[0007](一)分類模型訓(xùn)練過程:
[000引步驟11 ;文本訓(xùn)練語料選取,即從網(wǎng)絡(luò)文本中篩選文本訓(xùn)練語料,選取的語料包 括多種類別的主題事件,每類包括多篇語料文本;
[0009] 步驟12 ;對(duì)篩選的文本訓(xùn)練語料進(jìn)行預(yù)處理,具體方法如下:
[0010] a)數(shù)據(jù)轉(zhuǎn)碼處理,將原始篩選文本中各種類別的中文編碼格式統(tǒng)一轉(zhuǎn)換為UTF-8 編碼格式,
[0011] b)將原始語料的格式內(nèi)容進(jìn)行初步篩選,過濾無效字符,刪除低特征文本,
[0012]C)文本分詞,使用ICTCLAS工具包對(duì)文本進(jìn)行分詞處理,建立停用詞表,對(duì)文本特 征進(jìn)行初步篩選,并建立每篇語料文本的特征表;
[0013] 步驟13;訓(xùn)練語料類別特征選??;對(duì)于每一類別主題事件,對(duì)每篇語料的每個(gè)特 征根據(jù)其對(duì)主題類別的貢獻(xiàn)率W及對(duì)所在語料的貢獻(xiàn)率進(jìn)行特征的篩選,使用卡方統(tǒng)計(jì)量 CHI值作為特征選擇的指標(biāo),最終每個(gè)類別提取一定數(shù)量的特征,并合并所有事件類別的特 征形成特征集合文件;
[0014] 步驟14;文本特征向量生成;使用步驟13中生成的特征集合文件,遍歷每一篇訓(xùn) 練語料,抽取其中包含的特征,計(jì)算相應(yīng)的特征值,生成特征向量文件,并進(jìn)行歸一化處理, 最終生成SVM訓(xùn)練文件;
[00巧]步驟15;SVM分類模型訓(xùn)練:使用生成的訓(xùn)練文件訓(xùn)練SVM模型,同時(shí)通過交叉檢 驗(yàn)工具調(diào)整參數(shù)對(duì)模型進(jìn)行優(yōu)化;
[0016](二)文本分類過程:
[0017] 步驟21;對(duì)待分類的文本進(jìn)行預(yù)處理,生成待分類文本的特征表;
[0018] 步驟22;使用步驟13生成的特征集合文件抽取待分類文本中的類別特征;
[0019] 步驟23 ;待分類文本的文本特征向量生成;使用詞頻值生成文本的特征向量,并 將特征向量進(jìn)行歸一化處理;
[0020] 步驟24 ;文本分類:使用步驟15訓(xùn)練生成的SVM分類模型,對(duì)歸一化的待分類文 本特征向量進(jìn)行分類,得到待分類文本主題類別的預(yù)測(cè)結(jié)果。
[0021] 本發(fā)明基于CHI特征選取的文本事件分類方法,利用中文文本事件的語言描述特 征,選取CHI值作為主題特征向量,結(jié)合機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)了有效的文本事件分類。其 優(yōu)點(diǎn)是分類模型中蘊(yùn)含所有類型的主題特征信息,因此可W更加準(zhǔn)確的實(shí)現(xiàn)事件文本的分 類。本發(fā)明所采用的方法可成功地應(yīng)用于中文文本數(shù)據(jù)挖掘的識(shí)別、分類、解析與監(jiān)測(cè)過 程,能夠有效提升中文文本自然語言處理的解析效率與解析精度。此外,基于CHI特征選取 的文本事件分類方法還能夠?yàn)樾畔⒌倪M(jìn)一步抽取奠定有效的技術(shù)基礎(chǔ)。
【附圖說明】
[0022] 圖1是本發(fā)明中文文本事件分類方法流程圖;
[0023] 圖2是訓(xùn)練語料類別1特征集合示意圖;
[0024]圖3是訓(xùn)練語料生成的特征集合文件示意圖;
[002引圖4是歸一化處理后的SVM訓(xùn)練文件;
[0026] 圖5是基于SVM模型形成的分類模型文件;
[0027] 圖6是文本分類結(jié)果。
【具體實(shí)施方式】
[002引下面結(jié)合附圖和實(shí)施例,做進(jìn)一步詳細(xì)說明。
[0029] 本方法總體流程參見圖1。本實(shí)例選取網(wǎng)絡(luò)新聞報(bào)道文稿作為模型訓(xùn)練的原始語 料,共選取9類主題包括;汽車、財(cái)經(jīng)、IT、健康、體育、旅游、教育、招聘、文化W及軍事的文 本,每類文本2000篇共18000篇語料,語料類別涵蓋了社會(huì)生活中絕大多數(shù)事件主題,覆蓋 度高,特征豐富,語料規(guī)模適中,可W提供足夠的訓(xùn)練、測(cè)試用語料。待分類文本語料選取 "暴雨"事件的網(wǎng)絡(luò)新聞報(bào)道20篇為例,作為實(shí)施示例。
[0030](一)分類模型訓(xùn)練過程:
[0031] 步驟11 ;文本訓(xùn)練語料選?。患磸木W(wǎng)絡(luò)文本中篩選文本訓(xùn)練語料。
[0032] 步驟12;文本語料預(yù)處理;
[0033] 將篩選的文本訓(xùn)練語料進(jìn)行預(yù)處理,具體方法如下:
[0034]a)數(shù)據(jù)轉(zhuǎn)碼處理,將原始篩選文本中各種類別的中文編碼格式統(tǒng)一轉(zhuǎn)換為UTF-8 編碼格式。
[0035] b)將原始語料的格式內(nèi)容進(jìn)行初步篩選,過濾無效字符,刪除低特征文本。
[0036]C)文本分詞,使用中科院ICTCLAS工具包對(duì)文本進(jìn)行分詞處理,建立停用詞表,對(duì) 文本特征進(jìn)行初步篩選,并建立每篇語料文本的特征表。
[0037] 步驟13;訓(xùn)練語料類別特征選??;
[003引選取每類語料的特征,并生成特征集合文件,對(duì)于每一類別主題事件,并非每篇語 料的所有特征都是有用特征,需要對(duì)每個(gè)特征針對(duì)其對(duì)主題類別的貢獻(xiàn)率W及對(duì)所在語料 的貢獻(xiàn)率進(jìn)行特征的篩選,最終每個(gè)類別提取一定數(shù)量的特征,并合并所有事件類別的特 征形成特征集合文件,具體方法如下:
[0039] a)計(jì)算CHI指標(biāo),使用CHI值作為特征選擇的指標(biāo),即卡方統(tǒng)計(jì)量。某個(gè)特征的 CHI值依據(jù)W下公式計(jì)算:
[0040]
[0041] 其中,公式中各個(gè)參數(shù)的含義,說明如下;
[0042]t;表示文本特征,
[00創(chuàng) C;表示類別,
[0044]X2 (t,C);表示文本特征t與類另UC之間的相關(guān)關(guān)系,
[0045]N;訓(xùn)練數(shù)據(jù)集文檔總數(shù),
[0046] A;在一個(gè)類別中,包含某個(gè)詞的文檔的數(shù)量,
[0047] B;在一個(gè)類別中,排除該類別,其他類別包含某個(gè)詞的文檔的數(shù)量,
[0048] C;在一個(gè)類別中,不包含某個(gè)詞的文檔的數(shù)量,
[0049] D;在一個(gè)類別中,不包含某個(gè)詞也不在該類別中的文檔的數(shù)量,
[0050]b)特征集合選擇,計(jì)算每個(gè)類別每個(gè)特征的CHI值,按照CHI值降序排列,此處選 擇前200個(gè)特征作為該類別的特征集合,該集合的特征可W最大限度反映類別文本的領(lǐng)域 描述特性,特征集合將作為分類模型的重要依據(jù),W類型一特征的特征集合為例,參見圖2。 [0化1]C)合并所有類別特征集合生成用W模型訓(xùn)練的特征集合文件,參見圖3。
[0化2] 步驟14;文本特征向量生成;
[0化3] 使用步驟13中生成的特征集合文件,遍歷每一篇訓(xùn)練語料,抽取其中包含的特 征,計(jì)算相應(yīng)的特征值,生成特征向量文件,并進(jìn)行歸一化處理。具體步驟包括:
[0化4]a)通過TF-IDF值計(jì)算文本特征值,TF-IDF用W評(píng)估字詞對(duì)于一個(gè)文件集或一個(gè) 語料庫(kù)中的其中一份文件的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增 加,但同時(shí)會(huì)隨著它在語料庫(kù)
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
武穴市| 福清市| 武城县| 二手房| 万山特区| 东莞市| 青河县| 仙居县| 琼海市| 泾源县| 延寿县| 潍坊市| 南川市| 鄂尔多斯市| 临泽县| 米脂县| 高淳县| 上杭县| 许昌市| 夹江县| 宁晋县| 滕州市| 开化县| 浦东新区| 永康市| 莆田市| 镶黄旗| 莲花县| 阿拉善右旗| 东安县| 洞头县| 南皮县| 延寿县| 涪陵区| 天全县| 富宁县| 潞西市| 雅江县| 梁平县| 乃东县| 田林县|