一種基于數(shù)據(jù)特征的智能信息分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,設(shè)及一種基于數(shù)據(jù)特征的智能信息分類方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息呈爆炸式增長。面對如此海量的Web信息,如何 快速、準(zhǔn)確地獲取有用信息,是當(dāng)今互聯(lián)網(wǎng)技術(shù)面臨的挑戰(zhàn)之一。網(wǎng)頁自動分類是高效處理 海量Web信息的一種重要技術(shù)。它是指對于待分類網(wǎng)頁,根據(jù)其內(nèi)容由計算機(jī)根據(jù)某種自動 分類算法,把網(wǎng)頁分為預(yù)先定義好的類別。
[0003] 目前,已經(jīng)出現(xiàn)了多種基于統(tǒng)計理論和機(jī)器學(xué)習(xí)方法的文本自動分類算法。但是 與普通文本文檔相比,網(wǎng)頁具有W下特點(diǎn):(1)網(wǎng)頁采用超文本設(shè)計,網(wǎng)頁內(nèi)包含HTML標(biāo)簽, 運(yùn)使得它比普通文本表現(xiàn)能力更強(qiáng),可W利用的結(jié)構(gòu)化信息和編輯信息更多;(2)Web上的 網(wǎng)頁之間通過超鏈接互相關(guān)聯(lián),超鏈接所蘊(yùn)含的內(nèi)容推薦與內(nèi)容相關(guān)關(guān)系給網(wǎng)頁分類帶來 很多啟發(fā)信息;(3)網(wǎng)頁通常包含大量噪音,如廣告、導(dǎo)航條、推薦欄、作者信息等與主題內(nèi) 容無關(guān)的信息;(4)中文網(wǎng)頁使用中文表達(dá),不像英語那樣使用空白符間隔每個單詞,中文 網(wǎng)頁需要分詞處理。正是上面運(yùn)些原因使得網(wǎng)頁分類比普通文本分類要復(fù)雜得多。
【發(fā)明內(nèi)容】
[0004] 針對上述問題,本發(fā)明在深入研究中文網(wǎng)頁的特點(diǎn)之后,根據(jù)網(wǎng)頁標(biāo)題、關(guān)鍵字等 部分對分類結(jié)果有較高權(quán)重的特點(diǎn),提出了根據(jù)數(shù)據(jù)特征W預(yù)置關(guān)鍵詞表和標(biāo)題內(nèi)容為知 識庫來進(jìn)行預(yù)先分類,再將網(wǎng)頁轉(zhuǎn)化成特征向量結(jié)合SVM算法作為補(bǔ)充的分類方法。該方法 極大地提高了分類器的綜合性能。
[0005] 具體技術(shù)方案如下:一種基于數(shù)據(jù)特征的智能信息分類方法,包括訓(xùn)練和分類兩 個階段:
[0006] 訓(xùn)練階段具體按照如下步驟進(jìn)行:步驟一、對待訓(xùn)練網(wǎng)頁進(jìn)行預(yù)處理,去除與網(wǎng)頁 分類無關(guān)的html標(biāo)記,從中抽取出正文文本。步驟二、對抽取的文本進(jìn)行中文分詞處理,并 去掉分詞后對網(wǎng)頁分類沒有多大意義的停止詞。例如'的'、'了'等在漢語中沒有實(shí)際意義 的字或詞,此外還有一些生僻字和特殊符號,都必須作為停止詞去掉。步驟Ξ、對分詞和去 停止詞后的結(jié)果進(jìn)行詞頻統(tǒng)計。步驟四、對詞頻統(tǒng)計后的結(jié)果進(jìn)行特征選擇。具體做法是設(shè) 置詞頻闊值,過濾掉詞頻低于闊值的詞。步驟五、對余下的高頻詞進(jìn)行權(quán)重值計算,生成特 征向量。步驟六、創(chuàng)建行業(yè)知識庫,為每個待訓(xùn)練類別預(yù)置該領(lǐng)域的關(guān)鍵詞表。步驟屯、創(chuàng)建 SVM分類器。
[0007] 分類階段具體按照如下步驟進(jìn)行:步驟一、對待分類練網(wǎng)頁進(jìn)行預(yù)處理,去除與網(wǎng) 頁分類無關(guān)的html標(biāo)記,從中抽取出正文文本。步驟二、對抽取后的文本進(jìn)行中文分詞和去 停止詞處理,具體實(shí)施方法和訓(xùn)練時一樣。步驟Ξ、預(yù)分類。提取待分類網(wǎng)頁的標(biāo)題類容,與 預(yù)置行業(yè)知識庫中的關(guān)鍵詞表進(jìn)行對比,確定網(wǎng)頁的所屬類別。若預(yù)分類成功,則直接返回 分類結(jié)果;若預(yù)分類失敗,則繼續(xù)W下步驟。步驟四、將網(wǎng)頁文本分詞和去停止詞后的文本 轉(zhuǎn)成特征向量。步驟五、使用SVM分類器對該特征向量進(jìn)行分類,并返回分類結(jié)果。
[0008] 基于W上技術(shù)方案的公開,本發(fā)明具備如下有益效果:
[0009] 1、本發(fā)明中根據(jù)網(wǎng)頁標(biāo)題、關(guān)鍵字等部分對分類結(jié)果有較高權(quán)重的特點(diǎn),提出W 預(yù)置關(guān)鍵詞表和標(biāo)題內(nèi)容作為知識庫來進(jìn)行預(yù)先分類,大大提高了對中文網(wǎng)頁的分類速 度。
[0010] 2、本發(fā)明中提出W數(shù)據(jù)特征建立知識庫進(jìn)行預(yù)分類,再結(jié)合SVM算法作為補(bǔ)充的 分類方法,極大地提高了分類器的綜合性能。
【附圖說明】
[0011] 圖1是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的系統(tǒng)流程圖。
[0012] 圖2是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的訓(xùn)練階段流程圖。
[0013] 圖3是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的分類階段流程圖。
【具體實(shí)施方式】
[0014] 如圖1所示,為本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的系統(tǒng)流程 圖。參照圖1,本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法包括:步驟S1,對已經(jīng)標(biāo) 記好的網(wǎng)頁進(jìn)行訓(xùn)練;步驟S2,對待分類的網(wǎng)頁進(jìn)行分類。
[0015] 參照圖2,步驟S1中所述對已經(jīng)標(biāo)記好的網(wǎng)頁進(jìn)行訓(xùn)練包括:
[0016] 步驟S11,對待訓(xùn)練網(wǎng)頁進(jìn)行預(yù)處理,去除與網(wǎng)頁分類無關(guān)的html標(biāo)記,從中抽取 出正文文本。首先,除去〈style〉、〈script〉、〈applet〉等標(biāo)記所嵌的html源碼;其次,將< title〉、<meta>標(biāo)簽中內(nèi)容提取出來,單獨(dú)保存;最后,過濾掉上述html標(biāo)簽后,提取出網(wǎng)頁 正文文本。
[0017] 步驟S12,對抽取的網(wǎng)頁正文文本進(jìn)行中文分詞處理,并去掉分詞后對網(wǎng)頁分類沒 有多大意義的停止詞。例如'的'、'了'等在漢語中沒有實(shí)際意義的字或詞,此外還有一些生 僻字和特殊符號,都必須作為停止詞去掉。
[0018] 步驟S13,對分詞和去停止詞后的結(jié)果進(jìn)行詞頻統(tǒng)計。
[0019] 步驟S14,對詞頻統(tǒng)計后的結(jié)果進(jìn)行特征選擇。具體做法是設(shè)置詞頻闊值,過濾掉 詞頻低于闊值的詞。
[0020] 步驟S15,使用空間向量模型(Vector Space Model)將待訓(xùn)練網(wǎng)頁正文文本轉(zhuǎn)換 成特征向量。在該模型中,每個文本文檔被表示成如下的特征向量:
[0021] V(d) = (ti,ω 1(d); t2, ω 2(d);···; tn,Wn(d);)
[0022] 其中ti為特征項,〇i(d)為ti在文檔中的權(quán)重。
[0023] 根據(jù)步驟S15所述,為了便于后續(xù)計算,需要減小特征向量的維度。步驟S12、S13、 S14減少了特征項的個數(shù),即減少了特征向量的維度。
[0024] 根據(jù)步驟S15所述,特征項在文檔中的權(quán)重〇i(d)可W使用基于TF-IDF的傳統(tǒng)權(quán) 重算法進(jìn)行計算,計算公式如下:
[0025]
[0026] 其中,tfi (d)為ti在文檔d中出現(xiàn)的頻率,N為文檔集中的總文檔數(shù),ηκ為出現(xiàn)特征 項tK的文檔數(shù)。
[0027] 根據(jù)步驟S15所述,在網(wǎng)頁表示中,有兩個因素影響特征項的權(quán)重值:一是特征項 在文檔中出現(xiàn)的頻率,一是特征項在文檔中出現(xiàn)的位置。采用對不同位置特征詞賦予不同 權(quán)重因子的方法,權(quán)重因子計算公式如下:
[002引
[0029] 其中,而表示核屯、詞平均詞頻,而表示非核屯、詞平均詞頻,dK和Νκ分別為核屯、詞詞 頻和核屯、詞數(shù),do和No分別為非核屯、詞詞頻和非核屯、詞詞數(shù)。核屯、詞包括<*^16〉內(nèi)的詞和< meta〉標(biāo)記中keywords,desc;ription位置出現(xiàn)的詞,其余為非核屯、詞。
[0030] 可選的,一般來說,核屯、詞的詞數(shù)少而出現(xiàn)次數(shù)多,且較為集中,所Κλ含1,當(dāng)遇到 小于1的情況時就取λ= 1。對于核屯、詞,特征向量公式就變?yōu)椋?br>[0031 ] ω ' i(d) =λΧ ω i(d)
[0032] 步驟S16,創(chuàng)建知識庫,為每個待訓(xùn)練類別預(yù)置該領(lǐng)域的關(guān)鍵詞表。
[0033] 根據(jù)步驟S16所述,知識庫的具體創(chuàng)建方法為:首先按各個類別提取訓(xùn)練集中所有 網(wǎng)頁的〈title〉標(biāo)記包含的內(nèi)容,并對其進(jìn)行分詞處理,然后分別統(tǒng)計詞頻,并按