两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法

文檔序號:6547080閱讀:202來源:國知局
基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法
【專利摘要】本發(fā)明的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,包括樣本訓(xùn)練階段和文檔分類階段,樣本訓(xùn)練階包括:a).樣本采集;b).文本分詞;c).詞性分析;d).去除虛詞和人名;e).統(tǒng)計(jì)詞頻;f).構(gòu)建特征集合;g).構(gòu)建特征網(wǎng)絡(luò)的頂點(diǎn);h).構(gòu)建特征網(wǎng)絡(luò)的邊;i).計(jì)算平均度;j).計(jì)算聚類系數(shù);k).計(jì)算特征路徑長度;l).獲取網(wǎng)絡(luò)度量指標(biāo)的取值區(qū)間;文檔分類包括:m).待分類文檔處理;n).文檔分類的判斷。本發(fā)明的文檔分類方法,分類準(zhǔn)確、效率高,解決了現(xiàn)有分類方法無法將科技文獻(xiàn)、小說和散文區(qū)分開來的問題,為文檔在這三類中的自動區(qū)分提出了科學(xué)的分類方法、奠定了理論基礎(chǔ)。
【專利說明】基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,更具體的說,尤其涉及一種根據(jù)不同文檔的用詞特點(diǎn)所決定的其特征網(wǎng)絡(luò)的度量指標(biāo)不同來區(qū)分文檔種類的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法。
【背景技術(shù)】
[0002]著Internet技術(shù)的發(fā)展進(jìn)步,網(wǎng)絡(luò)中的文檔資源不斷豐富,這其中既有豐富人們精神生活的小說、散文等文學(xué)作品,也有為人們提供知識為科研奠定基礎(chǔ)的科技文獻(xiàn),這些數(shù)字資源既是人們智慧和技術(shù)的結(jié)晶,更是人類文明的寶貴財(cái)富。然而隨著大數(shù)據(jù)時(shí)代的到來,呈指數(shù)級增長的海量資源為文檔的有效組織和管理提出了挑戰(zhàn)。文檔分類是指按照文檔或內(nèi)容的屬性,對文檔集合中的每一個文檔指定一個或多個類別,通過類別的劃定可以采用“分而治之”的思想對文檔進(jìn)行組織,從而有效地降低類別中文檔資源的數(shù)量,提高文檔的檢索效率,進(jìn)而提升文檔管理的能力。近年來,文檔分類研究已成為圖書情報(bào)、數(shù)據(jù)挖掘以及智能信息檢索等多個學(xué)科領(lǐng)域關(guān)注的熱點(diǎn)。
[0003]當(dāng)前文檔分類一般是采用統(tǒng)計(jì)學(xué)習(xí)方法,基于文本分類技術(shù)通過對文本內(nèi)容的分析,將文檔歸入一個或多個合適的類別,實(shí)現(xiàn)文檔的自動分類。目前最常用的文檔分類算法模型主要有K近鄰算法(Κ-Nearest Neighbor, KNN)、貝葉斯算法(Bayes)、支持向量機(jī)(Support Vector Machine, SVM)算法和決策樹算法。
[0004]其中,KNN算法通過計(jì)算待分類文檔的特征值與訓(xùn)練樣本集中每個文檔特征值的相似度,找出K個與待分類文檔最相似的文檔,根據(jù)待分類文檔與相似文檔的加權(quán)距離,判斷待分類文檔的類別。Bayes算法是一類基于概率模型的分類算法,其中最簡單的樸素貝葉斯算法在估計(jì)分類條件概率時(shí)假設(shè)文檔的各特征值之間是相互獨(dú)立的。而作為文檔特征值的高頻詞在實(shí)際情況中并不滿足獨(dú)立性假設(shè),因此出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法。SVM算法建立在VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小理論上,通過訓(xùn)練樣本的學(xué)習(xí),找出能夠較好區(qū)分不同類樣本點(diǎn)的超平面,以此對待分類文檔的類別進(jìn)行判斷。決策樹算法以歸納學(xué)習(xí)算法為基礎(chǔ),從一組無序、無規(guī)則的樣本集合中找出類似于樹形的分類規(guī)則。樹中的每個內(nèi)節(jié)點(diǎn)表示特征,而葉節(jié)點(diǎn)表示特定的類別,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就表示一條合取規(guī)則,整棵樹就是文檔的分類規(guī)則。
[0005]隨著理論研究的成熟,上述算法模型已廣泛應(yīng)用于各類文檔的分類中,如科技文獻(xiàn)、電子郵件、web頁面、技術(shù)專利等。這些算法通過對所提取的文檔特征值進(jìn)行訓(xùn)練,找出最能代表主題的特征值構(gòu)建分類模型,有效地實(shí)現(xiàn)了給定領(lǐng)域中不同主題文檔的分類。然而脫離了主題的依賴,在未確定領(lǐng)域之前,這些分類算法則無法從宏觀上對無主題限制的文檔建立有效的分類模型。上述問題便存在于文學(xué)作品與科技文獻(xiàn)的區(qū)分中,也即無法有效地分類一篇文檔屬于一篇科技文獻(xiàn)還是一篇小說或是一篇散文。因?yàn)槲膶W(xué)作品和科技文獻(xiàn)所涉及的領(lǐng)域和主題無限,并且不同類文檔所涉及的領(lǐng)域和主題還存在交叉的現(xiàn)象時(shí),無法在訓(xùn)練階段提供準(zhǔn)確的類別定義,也就無法抽取能夠表征類別的特征值集合,因此難以為此種分類問題構(gòu)建分類模型。

【發(fā)明內(nèi)容】

[0006]本發(fā)明為了克服上述技術(shù)問題的缺點(diǎn),提供了一種基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法。
[0007]本發(fā)明的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,包括樣本訓(xùn)練階段和文檔分類階段,其特征在于,
所述樣本訓(xùn)練階段通過以下步驟來實(shí)現(xiàn):
a).樣本采集,從現(xiàn)有多類文檔庫中采集足夠數(shù)量的、已明確類別的科技文獻(xiàn)、小說和散文,作為訓(xùn)練樣本;并獲取樣本的文本內(nèi)容;b).文本分詞,采用現(xiàn)有基于詞典的分詞方法對每篇文檔進(jìn)行分詞,獲取文檔所包含的詞匯;c).詞性分析,在分詞的過程中,同時(shí)為文檔的每個句子構(gòu)建語法樹,分析句子中每個分詞的詞性,并對分詞的詞性進(jìn)行標(biāo)注;
d).去除虛詞和人名,為了突出文檔所要表達(dá)的語義,將詞匯中的虛詞和人名去除,以獲取不包含虛詞和人名的文檔詞匯;e).統(tǒng)計(jì)詞頻,統(tǒng)計(jì)步驟d)中所獲取的不包含虛詞和人名的詞匯中每個分詞出現(xiàn)的次數(shù),獲取分詞的詞頻,將分詞和對應(yīng)的詞頻作為文檔的特征;f).構(gòu)建特征集合G,為了盡可能多的涵蓋文本內(nèi)容并減小構(gòu)建網(wǎng)絡(luò)的計(jì)算量,對每篇文檔按詞頻數(shù)量從多至少選取前25%~45%的分詞作為文檔的特征集合^ ;g).構(gòu)建特征網(wǎng)絡(luò)的頂點(diǎn),設(shè)-是一篇文檔,S是文擋的句子集合,乙是文擋^的特征集合=(--4 =,其中,勺為文檔公中的句子,I≤I≤f ;Vi為文檔
D中的分詞,I (?η ;以文檔的特征集合G中的每個分詞為網(wǎng)絡(luò)頂點(diǎn)構(gòu)建特征網(wǎng)絡(luò),形成特征網(wǎng)絡(luò)的頂點(diǎn)集合4 ={v1,v2--,vi,---vj ;h).構(gòu)建特征網(wǎng)絡(luò)的邊,任意選取網(wǎng)絡(luò)頂點(diǎn)集合^的兩個頂點(diǎn)Vi和巧.,如果其同時(shí)出現(xiàn)于文檔fi句子集合J中的任意一個句子中,則為這兩個頂點(diǎn)之間建立一條網(wǎng)絡(luò)直至所有任意兩個網(wǎng)絡(luò)頂點(diǎn)判斷完畢,所形成的網(wǎng)絡(luò)邊集合為5s =通過頂點(diǎn)和邊的建立,就形成了頂點(diǎn)為
4、邊為式?的文檔特征網(wǎng)絡(luò);i).計(jì)算網(wǎng)絡(luò)的平均度,通過公式(I)計(jì)算出文檔特征網(wǎng)絡(luò)的網(wǎng)絡(luò)平均度^胃_ Ifegfw:1 H
【權(quán)利要求】
1.一種基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,包括樣本訓(xùn)練階段和文檔分類階段,其特征在于, 所述樣本訓(xùn)練階段通過以下步驟來實(shí)現(xiàn): a).樣本采集,從現(xiàn)有多類文檔庫中采集足夠數(shù)量的、已明確類別的科技文獻(xiàn)、小說和散文,作為訓(xùn)練樣本;并獲取樣本的文本內(nèi)容; b).文本分詞,采用現(xiàn)有基于詞典的分詞方法對每篇文檔進(jìn)行分詞,獲取文檔所包含的詞匯; c).詞性分析,在分詞的過程中,同時(shí)為文檔的每個句子構(gòu)建語法樹,分析句子中每個分詞的詞性,并對分詞的詞性進(jìn)行標(biāo)注; d).去除虛詞和人名,為了突出文檔所要表達(dá)的語義,將詞匯中的虛詞和人名去除,以獲取不包含虛詞和人名的文檔詞匯; e).統(tǒng)計(jì)詞頻,統(tǒng)計(jì)步驟d)中所獲取的不包含虛詞和人名的詞匯中每個分詞出現(xiàn)的次數(shù),獲取分詞的詞頻,將分詞和對應(yīng)的詞頻作為文檔的特征; f).構(gòu)建特征集合G,為了盡可能多的涵蓋文本內(nèi)容并減小構(gòu)建網(wǎng)絡(luò)的計(jì)算量,對每篇文檔按詞頻數(shù)量從多至少選取前25%~45%的分詞作為文檔的特征集合F3 ; g).構(gòu)建特征網(wǎng)絡(luò)的頂點(diǎn),設(shè)£)是一篇文檔,C是文擋I的句子集合,4是文擋T的特征集合,S = (?-? '-sf],Vd =〖V丨.為,V,},其中,Sj為文檔J中的句子,I ((<i 為文檔?中的分詞,I;以文檔的特征集合G中的每個分詞為網(wǎng)絡(luò)頂點(diǎn)構(gòu)建特征網(wǎng)絡(luò),形成特征網(wǎng)絡(luò)的頂點(diǎn)集合4 = h,V3 I h).構(gòu)建特征網(wǎng)絡(luò)的邊,任意選取網(wǎng)絡(luò)頂點(diǎn)集合4的兩個頂點(diǎn)V,和力,如果其同時(shí)出現(xiàn)于文檔D句子集合,7中的任意一個句子%中,則為這兩個頂點(diǎn)之間建立一條網(wǎng)絡(luò)直至所有任意兩個網(wǎng)絡(luò)頂點(diǎn)判斷完畢,所形成的網(wǎng)絡(luò)邊集合為 ;通過頂點(diǎn)和邊的建立,就形成了頂點(diǎn)為4、邊為4的文檔特征網(wǎng)絡(luò);
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,其特征在于:步驟a)中所述的獲取樣本的文本內(nèi)容包括抽取文檔文本和預(yù)處理,在抽取文檔文本的過程中,對pdf、doc和html格式的文檔分別采用F1DFBox插件、javadoc插件和HTMlParser解析文檔以獲取文檔文本;預(yù)處理為將獲取的文檔文本中的無關(guān)信息進(jìn)行去除,對于html文檔應(yīng)將與主題無關(guān)的廣告、友情鏈接、同類推薦垃圾信息過濾掉。
3.根據(jù)權(quán)利要求1或2所述的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,其特征在于:步驟b)中所采用的分詞方法為采用最大匹配法從文檔中獲取其所包含的詞匯;步驟C)中所述的詞性分析為使用ICTCLAS2008漢語詞性標(biāo)記集中的99個詞性標(biāo)記符號,對獲取的分詞進(jìn)行詞性標(biāo)注;步驟f)中所獲取的文檔特征集合G中的分詞為從多至少選取的前35%的分詞。
4.根據(jù)權(quán)利要求1或2所述的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,其特征在于:步驟I)中所獲取的科技文獻(xiàn)、小說和散文的網(wǎng)絡(luò)平均度的參考取值區(qū)間分別為[8,24)、[25,110)、[0,5.33),聚類系數(shù)的參考取值分別為[0.7,1)、[0.3,0.7)、[0,0),網(wǎng)絡(luò)平均度的參考取值分別為[1,1.4)、[IAU)、[00,00)。
【文檔編號】G06F17/30GK103970888SQ201410215328
【公開日】2014年8月6日 申請日期:2014年5月21日 優(yōu)先權(quán)日:2014年5月21日
【發(fā)明者】魏墨濟(jì), 楊子江, 朱世偉, 于俊鳳, 李晨, 蔡斌雷, 王蕾, 馮海洲, 王彥 申請人:山東省科學(xué)院情報(bào)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
淄博市| 桐城市| 会同县| 海盐县| 依安县| 崇文区| 郑州市| 清丰县| 丹东市| 开远市| 江华| 延川县| 韶关市| 延庆县| 安阳市| 子长县| 江达县| 杭州市| 贵州省| 合水县| 巴塘县| 定安县| 静海县| 武鸣县| 怀来县| 苍梧县| 肥乡县| 扎赉特旗| 姚安县| 双鸭山市| 湖北省| 繁昌县| 大洼县| 禄丰县| 翁牛特旗| 林口县| 桂林市| 秦安县| 义马市| 嘉黎县| 河西区|