本發(fā)明涉及一種文本聚類方法,具體涉及一種能夠提高文本查找效率的文本聚類方法。
背景技術(shù):
::由于internet在全球范圍內(nèi)快速發(fā)展,信息技術(shù)日新月異,人們使用的各種的數(shù)據(jù)正在以爆炸性速度不斷增長。大量的數(shù)據(jù)存儲在數(shù)據(jù)庫中,可以應(yīng)用于政府辦公、商業(yè)智能、科學(xué)研究和項(xiàng)目開發(fā)等,但是要想真正地使用這些數(shù)據(jù)不是件容易的事情。理解數(shù)據(jù)庫中海量數(shù)據(jù)已經(jīng)不是人們能力范圍之內(nèi)的事情,如果我們不借助于自動分析手段,那么存儲在數(shù)據(jù)中大量的數(shù)據(jù)就變成了“數(shù)據(jù)墳?zāi)埂薄茈y再次訪問的數(shù)據(jù)存檔。因?yàn)闆Q策者無法從海量數(shù)據(jù)中人工發(fā)掘出有用的知識,其做出的重要決策也就并非基于數(shù)據(jù)庫中的數(shù)據(jù),而是基于直覺或者經(jīng)驗(yàn)。此外,目前的專家系統(tǒng)主要是依靠領(lǐng)域?qū)I(yè)人員或者用戶將數(shù)據(jù)手工地輸入到目標(biāo)知識數(shù)據(jù)庫中。令人遺憾的是,這一過程往往會出現(xiàn)誤差,并且增加了時(shí)間及其他方面的投入成本。因此,人們迫切地需要強(qiáng)有力的數(shù)據(jù)挖掘技術(shù)來解決“數(shù)據(jù)豐富而知識貧乏”這一消極現(xiàn)象,用以幫助人們從海量的數(shù)據(jù)中挖掘出有用的知識,發(fā)現(xiàn)其中事先存在的關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)決策的自動化和智能化,并最終在經(jīng)濟(jì)、社會等多個層面獲得巨大的價(jià)值。在此情況下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并且顯示出強(qiáng)大的生命力。在分析數(shù)據(jù)的基礎(chǔ)上,數(shù)據(jù)挖掘手段可以自動發(fā)現(xiàn)有趣的知識模式,在商業(yè)智能、政府辦公、知識庫和科學(xué)研究等領(lǐng)域中均有望做出巨大貢獻(xiàn)。聚類分析是數(shù)據(jù)挖掘領(lǐng)域最重要的研究方向之一,通過數(shù)據(jù)分析能夠發(fā)現(xiàn)有用的信息,其廣泛地應(yīng)用于市場研究、數(shù)據(jù)分析、模式識別、圖像處理、人工智能和web文檔分類等領(lǐng)域。在商業(yè)智能應(yīng)用中,聚類分析能夠幫助數(shù)據(jù)挖掘人員分析顧客的購買模式,刻畫不同顧客群體的特征,從顧客消費(fèi)信息數(shù)據(jù)庫發(fā)現(xiàn)特殊的顧客。在生物學(xué)應(yīng)用中,聚類分析可以用于推測物種的類別信息,根據(jù)功能的相關(guān)性對基因進(jìn)行分門別類,從而可以獲得對種群原有結(jié)構(gòu)的認(rèn)識。聚類分析還有助于在識別衛(wèi)星監(jiān)測數(shù)據(jù)庫中對使用相關(guān)的區(qū)域進(jìn)行識別,根據(jù)房屋的價(jià)值、類型和具體地理位置對城市中存在的房屋分組識別。與使用其它數(shù)據(jù)挖掘方法不同,用戶在運(yùn)用聚類分析算法之前并不知道數(shù)據(jù)集的內(nèi)容和類別等特征信息,也即聚類分析不需要基于先驗(yàn)知識,是一種無監(jiān)督的機(jī)器學(xué)習(xí)。目前,大部分?jǐn)?shù)據(jù)是以標(biāo)準(zhǔn)文本的格式存儲的,在海量但未知信息中如何挖掘出事先未知的有用的知識已經(jīng)成為學(xué)術(shù)研究和人們關(guān)注的熱點(diǎn)問題之一。文本聚類挖掘是在沒有先驗(yàn)學(xué)習(xí)的條件下對文本文檔集合進(jìn)行組織或劃分的過程,其基本思想是將相似度較近的文本文檔劃分到同一個簇中。文本聚類挖掘可以廣泛應(yīng)用于信息檢索與文本挖掘等多個方面,在大數(shù)量文檔集合的查看、組織和自動生成文檔集的層次歸類等都具有很重要的應(yīng)用價(jià)值。文本聚類效果的好壞會大大影響檢索用戶目標(biāo)信息的效率,如與對文檔進(jìn)行順序組織的方法相比,對文檔進(jìn)行隨機(jī)聚類的方法并不會提高查找效率而是降低了速度。所以,如何提高文本聚類的有效性成為當(dāng)前研究的熱點(diǎn)問題。技術(shù)實(shí)現(xiàn)要素:針對上述技術(shù)問題,本發(fā)明提供一種能夠提高文本查找準(zhǔn)確率的文本聚類方法。本發(fā)明采用的技術(shù)方案為:本發(fā)明的實(shí)施例提供一種文本聚類方法,包括:s100:文本預(yù)處理對待聚類的文本文檔進(jìn)行預(yù)處理,包括文本去噪、中文分詞、去停用詞、特征提取以及文本表示;s200:文本聚類利用預(yù)設(shè)聚類方法將經(jīng)預(yù)處理后的文本文檔進(jìn)行聚類,并給出聚類結(jié)果;s300:聚類結(jié)果評估利用預(yù)設(shè)評估標(biāo)準(zhǔn)對所述聚類結(jié)果進(jìn)行評估??蛇x地,步驟s100具體包括:s110:去除原始文本文檔中跟文本文檔實(shí)際內(nèi)容無關(guān)的標(biāo)記;s111:通過中文分詞器對經(jīng)去噪的文檔進(jìn)行分詞處理;s112:基于預(yù)設(shè)的中文停用詞表對分詞后文檔中的停用詞進(jìn)行替換;s113:對去停用詞后的每個文檔中的每個詞的ti-idf值,選取ti-idf值大于特定閾值的特征作為該文檔的特征項(xiàng),每個文檔中的每個詞的ti-idf值wi通過下述公式(1)確定:wi=fi*log(n/dfi)(1)其中,fi是指詞頻率,表示第i個詞在該文檔中出現(xiàn)的次數(shù),dfi是指文檔頻率,表示文本文檔中出現(xiàn)第i個詞的文檔數(shù)目;s114:利用預(yù)設(shè)模型將經(jīng)提取特征項(xiàng)后的文本文檔表示成特征向量集??蛇x地,在提取特征之前使用兩個變量對文檔中的詞頻信息進(jìn)行保存,以及利用向量空間模型將經(jīng)預(yù)處理后的文本文檔表示成特征向量集??蛇x地,步驟s200具體包括:利用帶孤立點(diǎn)檢測改進(jìn)的k-means算法對所述特征向量集進(jìn)行聚類,并給出聚類結(jié)果的準(zhǔn)確率,包括以下步驟:(1)輸入包含n個文檔的特征向量集x和聚類簇的個數(shù)k;(2)采用預(yù)設(shè)孤立點(diǎn)檢測條件對特征向量集中的孤立點(diǎn)進(jìn)行檢測并提取檢測到的孤立點(diǎn);(3)采用預(yù)設(shè)初始聚類中心確定規(guī)則對提取孤立點(diǎn)后的向量集x’中選擇k個文檔作為初始聚類中心;(4)計(jì)算剩余的每個文檔與k個簇的相似度,并將其分派到最相似的簇中;(5)重新計(jì)算已得到的各個簇的初始聚類中心;(6)重復(fù)步驟(4)和(5)直至新的初始聚類中心與原初始聚類中心相等或小于指定閾值,聚類過程結(jié)束;(7)計(jì)算提取的孤立點(diǎn)與各個簇的相似程度,將每個孤立點(diǎn)放入與其相似程度高的簇中;可選地,所述預(yù)設(shè)孤立點(diǎn)檢測條件為,如果某個文檔的標(biāo)準(zhǔn)分?jǐn)?shù)的絕對值大于2,則該文檔被檢測為孤立點(diǎn),具體的處理過程如下所示:設(shè)point[i][k]表示特征向量集x中的序號為i的文檔樣本點(diǎn)的第k維度上的值,則樣本點(diǎn)i和樣本點(diǎn)j之間的歐式距離表示為樣本點(diǎn)i到其它所有樣本點(diǎn)的距離之和表示為其中d是指樣本點(diǎn)的維數(shù);定義1:樣本點(diǎn)i的標(biāo)準(zhǔn)分?jǐn)?shù)其中可選地,所述預(yù)設(shè)初始聚類中心確定規(guī)則包括:(1)遍歷提取孤立點(diǎn)后的向量集x’中的樣本點(diǎn)i到其它樣本點(diǎn)的距離之和最大點(diǎn),記為oi1;(2)找出距離點(diǎn)oi1最遠(yuǎn)的點(diǎn)oi2;(3)把距oi2點(diǎn)距離小于等于第n/k個小元素的點(diǎn)(也就是距離oi2點(diǎn)較近的n/k個點(diǎn))劃分為簇i;(4)從特征向量集x’中刪除已歸為簇i的數(shù)據(jù)對象,并求出i簇的中心點(diǎn);(5)把特征向量集x’中剩下的樣本歸到簇k中,同時(shí)也求出簇k的聚類中心。可選地,在步驟s300中,基于目標(biāo)函數(shù)的評估標(biāo)準(zhǔn)和基于人工判定的評估標(biāo)準(zhǔn)來對所述聚類結(jié)果進(jìn)行評估??蛇x地,所述基于目標(biāo)函數(shù)的評估標(biāo)準(zhǔn)通過計(jì)算標(biāo)準(zhǔn)誤差指標(biāo)sse來對所述聚類結(jié)果進(jìn)行評估,所述標(biāo)準(zhǔn)誤差指標(biāo)sse通過下述公式(2)來確定:其中,pij是指屬于簇j的文檔i,cj是指簇j的聚類中心,nj是指簇j中文檔的數(shù)目,k是指簇的數(shù)目??蛇x地,基于人工判定的評估標(biāo)準(zhǔn)來對所述聚類結(jié)果進(jìn)行評估包括:(1)掃描數(shù)據(jù)集,把類標(biāo)號相同的數(shù)據(jù)集中放一起,記錄類標(biāo)號不同的分割點(diǎn);(2)對聚類后的類標(biāo)號按照步驟(1)的分隔點(diǎn)進(jìn)行分隔;(3)統(tǒng)計(jì)每個類中的眾數(shù);(4)分別統(tǒng)計(jì)每個簇中分類號與該簇眾數(shù)不相同的文檔,然后對這些文檔數(shù)目進(jìn)行求和,計(jì)為errornum;(5)計(jì)算準(zhǔn)確率correctrate=(n-errornum)/n,其中n表示整個數(shù)據(jù)集中文檔的數(shù)目。本發(fā)明的文本聚類方法包括對文本進(jìn)行預(yù)處理,在預(yù)處理后采用改進(jìn)的k-means算法對文本進(jìn)行聚類,并對聚類結(jié)果盡量評估,能夠提高聚類結(jié)果的準(zhǔn)確率,便于快速查找,從而提高了文本聚類的有效性。附圖說明圖1為本發(fā)明的文本聚類方法的流程示意圖。圖2為本發(fā)明的文本聚類系統(tǒng)的流程示意圖。圖3為本發(fā)明實(shí)施例中選取的特征項(xiàng)的示意圖。圖4為本發(fā)明實(shí)施例中的文本文檔數(shù)值化的示意圖。圖5為本發(fā)明實(shí)施例中使用原k-means算法和改進(jìn)的k-means隨機(jī)運(yùn)行5次的準(zhǔn)確率的比較示意圖。圖6為本發(fā)明實(shí)施例中使用原k-means算法和改進(jìn)的k-means隨機(jī)運(yùn)行5次的循環(huán)次數(shù)的比較示意圖。具體實(shí)施方式為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述?!镜谝粚?shí)施例】圖1為本發(fā)明的一實(shí)施例提供的文本聚類方法的流程示意圖。如圖1所示,本實(shí)施例提供的文本聚類方法包括以下步驟:s100:文本預(yù)處理對待聚類的文本文檔進(jìn)行預(yù)處理,包括文本去噪、中文分詞、去停用詞、特征提取以及文本表示;s200:文本聚類利用預(yù)設(shè)聚類方法將經(jīng)預(yù)處理后的文本文檔進(jìn)行聚類,并給出聚類結(jié)果;s300:聚類結(jié)果評估利用預(yù)設(shè)評估標(biāo)準(zhǔn)對所述聚類結(jié)果進(jìn)行評估。以下,對上述各步驟進(jìn)行詳細(xì)說明。s100:文本預(yù)處理該步驟主要包括:s110:去除原始文本文檔中跟文本文檔實(shí)際內(nèi)容無關(guān)的標(biāo)記,以節(jié)約計(jì)算量?;ヂ?lián)網(wǎng)上的文檔大部分是有結(jié)構(gòu)的文檔,如html和xml,文本去除噪聲主要是把文檔中跟文本挖掘無關(guān)的標(biāo)記(如<html>、<table>和<xml>等)去除,一般這些標(biāo)記只用于顯示而沒有實(shí)際的意義,因此去除這些標(biāo)記并不會影響整個文本文檔意思的完整性。最后將去除無關(guān)標(biāo)記的文本文檔以標(biāo)準(zhǔn)的txt文本存儲在文件系統(tǒng)中。s111:通過中文分詞器對經(jīng)去噪的文檔進(jìn)行分詞處理。。本發(fā)明釆用中國科學(xué)院計(jì)算機(jī)研究所研制的漢語詞法分析系統(tǒng)ictclas(instituteofcomputingtechnology,chineselexicalanalysissystem)。ictclas主要包括的功能有:中文分詞、詞性標(biāo)注、命名實(shí)體識別、新詞識別和支持用戶詞典。ictclas的分詞速度單機(jī)996kb/s,分詞精度98.45%,api不超過200kb,各種詞典數(shù)據(jù)壓縮后不到3m。本發(fā)明主要利用ictclas的分詞功能,分完詞的文檔中詞與詞之間以空格分割。例如,對如下所示出的txt格式的原始原檔a進(jìn)行分詞后,得到文檔b。原始文檔a:{近日,國內(nèi)一項(xiàng)調(diào)查結(jié)果表明:10%的人喜歡開轎車,13%的人喜歡開面包車,22%的人喜歡開越野車,55%的人喜歡多功能車。他們對愛車的選擇標(biāo)準(zhǔn)從以前的感性轉(zhuǎn)為務(wù)實(shí)、審慎和理性。對于中國廣大消費(fèi)者而言,一輛既能作為日常家庭用車又兼具部分商務(wù)功能的多功能轎車,理所當(dāng)然是他們的首選。由世界頂級汽車設(shè)計(jì)師justynnorek操刀設(shè)計(jì),呈現(xiàn)我們眼前的陸風(fēng)風(fēng)尚造型既不乏東方的質(zhì)樸含蓄,又彰顯了西方的尊榮大方,是東方文化和西方風(fēng)韻碰撞的智慧的結(jié)晶。配置上非常豐富,完全達(dá)到目前國內(nèi)中檔轎車水平;而在安全性上,該車型為駕乘者提供全面的呵護(hù),先進(jìn)而完善的裝備提供了最佳的主被動安全保障。陸風(fēng)風(fēng)尚(報(bào)價(jià);圖片)作為一款設(shè)計(jì)理念先進(jìn)、功能完蕃、品質(zhì)優(yōu)良的車型,歷時(shí)四年開發(fā),向國家專利部門申請了133項(xiàng)專利,另一款具有歐洲血統(tǒng)的“全球資源車”。憑借陸風(fēng)的強(qiáng)勢品牌形象和完善服務(wù)網(wǎng)絡(luò),陸風(fēng)今后將極有可能成為多功能轎車市場上的領(lǐng)導(dǎo)者}分完詞文檔b:{近日,國內(nèi)一項(xiàng)調(diào)查結(jié)果表明:10%的人喜歡開轎車,13%的人喜歡開面包車,22%的人喜歡開越野車,55%的人喜歡多功能車。他們對愛車的選擇標(biāo)準(zhǔn)從以前的感性轉(zhuǎn)為務(wù)實(shí)、審慎和理性。對于中國廣大消費(fèi)者而言,一輛既能作為日常家庭用車又兼具部分商務(wù)功能的多功能轎車,理所當(dāng)然是他們的首選。由世界頂級汽車設(shè)計(jì)師justynnorek操刀設(shè)計(jì),呈現(xiàn)我們眼前的陸風(fēng)風(fēng)尚造型既不乏東方的質(zhì)樸含蓄,又彰顯了西方的尊榮大方,是東方文化和西方風(fēng)韻碰撞的智慧的結(jié)晶。配置上非常豐富,完全達(dá)到目前國內(nèi)中檔轎車水平;而在安全性上,該車型為駕乘者提供全面的呵護(hù),先進(jìn)而完善的裝備提供了最佳的主被動安全保障。陸風(fēng)風(fēng)尚(報(bào)價(jià);圖片)作為一款設(shè)計(jì)理念先進(jìn)、功能完蕃、品質(zhì)優(yōu)良的車型,歷時(shí)四年開發(fā),向國家專利部門申請了133項(xiàng)專利,另一款具有歐洲血統(tǒng)的“全球資源車”。憑借陸風(fēng)的強(qiáng)勢品牌形象和完善服務(wù)網(wǎng)絡(luò),陸風(fēng)今后將極有可能成為多功能轎車市場上的領(lǐng)導(dǎo)者}s112:基于預(yù)設(shè)的中文停用詞表對分詞后文檔中的停用詞進(jìn)行替換,以節(jié)省存儲空間和提高程序執(zhí)行效率。本發(fā)明中選用哈工大信息檢索研究中心論壇提供的中文停用詞表,該此表有1208個字或詞語,在利用該中文體用詞表去除停用詞時(shí),去除的方法是用空字符串替換分完詞文檔中的停用詞。s113:對去停用詞后的每個文檔中的每個詞的ti-idf值,選取ti-idf值大于特定閾值的特征作為該文檔的特征項(xiàng),每個文檔中的每個詞的ti-idf值wi通過下述公式(1)確定:wi=fi*log(n/dfi)(1)其中,fi是指詞頻率,表示第i個詞在該文檔中出現(xiàn)的次數(shù),dfi是指文檔頻率,表示文本文檔中出現(xiàn)第i個詞的文檔數(shù)目。ti-idf值的特定閾值可根據(jù)實(shí)際情況來進(jìn)行確定。根據(jù)公式(1),在計(jì)算某個詞的值的時(shí)候需要計(jì)算這個詞在本文檔出現(xiàn)過幾次和有多少個文檔出現(xiàn)過這個詞,原始的方法在計(jì)算一個詞就要掃描一遍文檔。另外在隨后建立向量空間模型的時(shí)候,計(jì)算每篇文檔對應(yīng)特征項(xiàng)的tf-idf的時(shí)候也是需要詞頻信息的,如果不用變量先保存這些信息而每次都掃描文檔是相當(dāng)耗時(shí)的。故本發(fā)明在特征選取之前用兩個變量termfreq1和termfreq2來保存詞頻信息,采用“空間換時(shí)間”的算法思想來實(shí)現(xiàn)。s114:利用預(yù)設(shè)模型將經(jīng)提取特征項(xiàng)后的文本文檔表示成特征向量集。具體地,根據(jù)步驟s113選取出的特征項(xiàng)對每篇文檔進(jìn)行計(jì)算對應(yīng)特征項(xiàng)上的值,每篇文檔就生成一個和特征項(xiàng)數(shù)目相同維度的向量,整個文檔集合就生和文檔數(shù)目一致的向量集合。具體地,文本表示單元利用向量空間模型(vsm:vectorspacemodel)將經(jīng)預(yù)處理后的文本文檔表示成特征向量集。在進(jìn)行文本表示時(shí),本發(fā)明將根據(jù)上述公式(1)選取出的特征項(xiàng)作為維度屬性,用上述公式(1)對每篇文章所對應(yīng)的各個維度計(jì)算其相應(yīng)的權(quán)值,最后對n篇文檔計(jì)算后得出n個向量,每個向量的維度等于特征的個數(shù),每個維度的值就是ti-idf的值,這樣,對于給定的文檔d,其可表示成d=(w1,w2,…,wn),其中w1,w2,…,wn為每個維度的權(quán)重值。s200:文本聚類在n個文本文檔用vsm向量空間模型表示成的特征向量集x后,利用帶孤立點(diǎn)檢測改進(jìn)的k-means算法對所述特征向量集進(jìn)行聚類,最后給出聚類結(jié)果的準(zhǔn)確率。聚類模塊的處理流程包括以下步驟:(1)輸入包含n個文檔的特征向量集x和聚類簇的個數(shù)k(劃分參數(shù));(2)采用預(yù)設(shè)孤立點(diǎn)檢測條件對特征向量集中的孤立點(diǎn)進(jìn)行檢測并提取檢測到的孤立點(diǎn);(3)采用預(yù)設(shè)初始聚類中心確定規(guī)則對提取孤立點(diǎn)后的向量集x’中選擇k個文檔作為初始聚類中心;(4)計(jì)算剩余的每個文檔與k個簇的相似度,并將其分派到最相似的簇中;(5)重新計(jì)算已得到的各個簇的初始聚類中心;(6)重復(fù)步驟(4)和(5)直至新的初始聚類中心與原初始聚類中心相等或小于指定閾值,聚類過程結(jié)束;(7)在聚類過程完成后,計(jì)算提取的孤立點(diǎn)與各個簇的相似程度,將每個孤立點(diǎn)放入與其相似程度高的簇中;在本發(fā)明中,孤立點(diǎn)分析可以這樣描述:對于包含n個樣本點(diǎn)數(shù)據(jù)集合和期望發(fā)現(xiàn)的孤立點(diǎn)個數(shù)i,發(fā)現(xiàn)與剩余的樣本點(diǎn)相比是例外的或者是不一致的程度最高的i個樣本點(diǎn),這些與數(shù)據(jù)集中的其它數(shù)據(jù)對象點(diǎn)有著很大的差異的樣本點(diǎn)被稱為孤立點(diǎn)。本發(fā)明采用“標(biāo)準(zhǔn)分?jǐn)?shù)的絕對值大于的樣本點(diǎn)視為孤立點(diǎn)來處理”的實(shí)現(xiàn)來對數(shù)據(jù)集進(jìn)行預(yù)處理,即預(yù)設(shè)孤立點(diǎn)檢測條件為,如果某個文檔的標(biāo)準(zhǔn)分?jǐn)?shù)的絕對值大于2,則該文檔被檢測為孤立點(diǎn),具體的處理過程描述如下:設(shè)point[i][k]表示特征向量集x中的序號為i的文檔(以下將特征向量集中的文檔簡稱為樣本點(diǎn))的第k維度上的值,則樣本點(diǎn)i和樣本點(diǎn)j之間的歐式距離可以表示為樣本點(diǎn)i到其它所有樣本點(diǎn)的距離之和可表示為其中d是指樣本點(diǎn)的維數(shù)。定義1:樣本點(diǎn)i的標(biāo)準(zhǔn)分?jǐn)?shù)其中本發(fā)明的預(yù)設(shè)初始聚類中心確定規(guī)則的思想是每次都把相對集中的數(shù)據(jù)先劃分出來,這樣就可以保證每個簇劃分出的樣本點(diǎn)有著較高的相似性,主要包括以下步驟:(1)遍歷提取孤立點(diǎn)后的向量集x’中的樣本點(diǎn)i到其它樣本點(diǎn)的距離之和最大點(diǎn),記為oi1;(2)找出距離點(diǎn)oi1最遠(yuǎn)的點(diǎn)oi2;(3)把距oi2點(diǎn)距離小于等于第n/k個小元素的點(diǎn)(也就是距離oi2點(diǎn)較近的n/k個點(diǎn))劃分為簇i;(4)從特征向量集x’中刪除已歸為簇i的數(shù)據(jù)對象,并求出i簇的中心點(diǎn);(5)把特征向量集x’中剩下的樣本歸到簇k中,同時(shí)也求出簇k的聚類中心。s300:聚類結(jié)果評估在本發(fā)明中,聚類結(jié)果評估模塊3基于目標(biāo)函數(shù)的評估標(biāo)準(zhǔn)和基于人工判定的評估標(biāo)準(zhǔn)來對所述聚類結(jié)果進(jìn)行評估。其中,基于目標(biāo)函數(shù)的評估標(biāo)準(zhǔn)通過計(jì)算標(biāo)準(zhǔn)誤差指標(biāo)sse來對所述聚類結(jié)果進(jìn)行評估,所述標(biāo)準(zhǔn)誤差指標(biāo)sse通過下述公式(2)來確定:其中,pij是指屬于簇j的文檔i,cj是指簇j的聚類中心,nj是指簇j中文檔的數(shù)目,k是指簇的數(shù)目。基于人工判定的評估標(biāo)準(zhǔn)來對所述聚類結(jié)果進(jìn)行評估包括:(1)掃描數(shù)據(jù)集,把類標(biāo)號相同的數(shù)據(jù)集中放一起,記錄類標(biāo)號不同的分割點(diǎn);對于iris數(shù)據(jù)集,其分割點(diǎn)為1,51,102。(2)對聚類后的類標(biāo)號按照步驟(1)的分隔點(diǎn)進(jìn)行分隔;對于iris數(shù)據(jù)集,會得出1-50,51-100,101-150分別屬于一類。(3)統(tǒng)計(jì)每個類中的眾數(shù);例如,1-50那個簇中的眾數(shù)為0。(4)分別統(tǒng)計(jì)每個簇中分類號與該簇眾數(shù)不相同的文檔,然后對這些文檔數(shù)目進(jìn)行求和,計(jì)為errornum;(5)計(jì)算準(zhǔn)確率correctrate=(n-errornum)/n,其中n表示整個數(shù)據(jù)集中文檔的數(shù)目?!緦?shí)施例】以下通過實(shí)施例對本發(fā)明的文本聚類方法進(jìn)行描述。本實(shí)施例所采用的實(shí)驗(yàn)數(shù)據(jù)來自”實(shí)驗(yàn)室的“文本分類語料庫”,該語料庫涉及為基于搜狐分類目錄手工編輯的網(wǎng)頁分類結(jié)果組織成的網(wǎng)頁、分類結(jié)果及基準(zhǔn)分類算法在內(nèi)的綜合數(shù)據(jù)集合。該語料庫中每篇文檔內(nèi)容如上述原始文檔a所示。以下利用改進(jìn)的k-means算法對上述介紹的文本文檔進(jìn)行聚類挖掘,并對挖掘的結(jié)果進(jìn)行分析。在進(jìn)行聚類挖掘之前,首先要對文本文檔進(jìn)行數(shù)據(jù)預(yù)處理,其中主要包括以下幾步:(1)采用中文分詞器ictclas進(jìn)行中文文本分詞,結(jié)果例如前述的文檔b所示;(2)采用哈爾濱工業(yè)大學(xué)信息檢索研究中心論壇提供的停用詞列表進(jìn)行去停用詞。(3)對文本文檔集進(jìn)行特征選取,本實(shí)施例采用“tf-idf值大于等于2作為重要特征項(xiàng)”的思想,選取的特征項(xiàng)如圖3所示。為了便于顯示,本實(shí)施例中只選取開始和結(jié)束的幾條記錄用于展示,中間省略部分用省略號表示,其中共2918條記錄。圖3中的特征項(xiàng)后面的tf-idf數(shù)值供分析使用。(4)用步驟選取的特征項(xiàng)和vsm模型對原始的文本文檔進(jìn)行數(shù)值化,結(jié)果如圖4所示。其中,每條記錄的最后一個屬性是帶類標(biāo)號的文件名稱,如c00007-10.txt是屬于類c00007的。對原始文本文檔a進(jìn)行數(shù)據(jù)預(yù)處理得到的數(shù)據(jù)集(下文稱vsm數(shù)據(jù)集)的信息:維數(shù)2902,樣本數(shù)目1800,最后一維為類標(biāo)號,其中c00007對應(yīng)“汽車”欄目,c00008對應(yīng)“財(cái)經(jīng)”欄目,c000010對應(yīng)“it”欄目,c000013對應(yīng)“健康”欄目,c000014對應(yīng)“體育”欄目,c000016對應(yīng)“旅游”欄目,c000020對應(yīng)“教育”,c000022對應(yīng)“招聘”模塊,c000023對應(yīng)“文化”模塊,c000024對應(yīng)“軍事”模塊。為了驗(yàn)證改進(jìn)算法在實(shí)際應(yīng)用環(huán)境中的有效性,用vsm數(shù)據(jù)集對原k-means算法和改進(jìn)的k-means算法分別進(jìn)行5次測試,在算法總體準(zhǔn)確率方面如圖5所示,在循環(huán)次數(shù)方面如圖6所示。原算法的準(zhǔn)確率在58.6%~73.2%之間波動、循環(huán)次數(shù)在35次~11次之間波動、平均耗時(shí)1256882ms,而改進(jìn)的算法準(zhǔn)確率維持75.7%不變、循環(huán)次數(shù)維持8次不變、平均耗時(shí)366217ms。k-means算法在聚類過程完成后,會生成聚類中心,這里的聚類中心可以代表所屬簇的信息。對于上述實(shí)驗(yàn)稍加改造,不難得到聚類中心對應(yīng)的中文關(guān)鍵詞信息。為了描述方便,本實(shí)施例只選擇兩個簇(記為簇9和簇10)的聚類中心加以說明。選擇簇10聚類中心數(shù)值大小前10映射到特征項(xiàng)關(guān)鍵字為“黃繼光軍徽右翼董存瑞威猛侵略軍陸海航母巡邏東海”,簇9聚類中心數(shù)值大小前10映射到特征值關(guān)鍵字為“故宮樂器徐志摩張岱年汪曾祺尼安德特波茨坦妓顏如玉世博園”。對關(guān)鍵字觀察不難發(fā)現(xiàn),簇10應(yīng)該是對應(yīng)到“軍事”類別,簇9應(yīng)該對應(yīng)到“文化”類別,這個結(jié)果和實(shí)際數(shù)據(jù)集的分類是相符合的?!镜诙?shí)施例】圖2為本發(fā)明的另一實(shí)施例提供的文本聚類系統(tǒng)的結(jié)構(gòu)示意圖。如圖2所示,本實(shí)施例提供的一種文本聚類系統(tǒng),包括文本預(yù)處理模塊1、文本聚類模塊2和聚類結(jié)果評估模塊3。其中,文本預(yù)處理模塊1用于對待聚類的文本文檔進(jìn)行預(yù)處理,包括文本去噪、中文分詞、去停用詞、特征提取以及文本表示;文本聚類模塊2利用預(yù)設(shè)聚類方法將經(jīng)預(yù)處理后的文本文檔進(jìn)行聚類,并給出聚類結(jié)果;聚類結(jié)果評估模塊3利用預(yù)設(shè)評估標(biāo)準(zhǔn)對所述聚類結(jié)果進(jìn)行評估。以下,對上述各模塊分別進(jìn)行介紹。<文本預(yù)處理模塊>本發(fā)明的文本預(yù)處理模塊主要包括文本去噪單元、中文分詞單元、去停用詞單元、特征提取單元和文本表示單元。其中,文本去噪單元用于去除原始文本文檔中跟文本文檔實(shí)際內(nèi)容無關(guān)的標(biāo)記,以節(jié)約計(jì)算量?;ヂ?lián)網(wǎng)上的文檔大部分是有結(jié)構(gòu)的文檔,如html和xml,文本去除噪聲主要是把文檔中跟文本挖掘無關(guān)的標(biāo)記(如<html>、<table>和<xml>等)去除,一般這些標(biāo)記只用于顯示而沒有實(shí)際的意義,因此去除這些標(biāo)記并不會影響整個文本文檔意思的完整性。最后將去除無關(guān)標(biāo)記的文本文檔以標(biāo)準(zhǔn)的txt文本存儲在文件系統(tǒng)中。中文分詞單元用于通過中文分詞器對經(jīng)去噪的文檔進(jìn)行分詞處理。本發(fā)明釆用中國科學(xué)院計(jì)算機(jī)研究所研制的漢語詞法分析系統(tǒng)ictclas(instituteofcomputingtechnology,chineselexicalanalysissystem)。ictclas主要包括的功能有:中文分詞、詞性標(biāo)注、命名實(shí)體識別、新詞識別和支持用戶詞典。ictclas的分詞速度單機(jī)996kb/s,分詞精度98.45%,api不超過200kb,各種詞典數(shù)據(jù)壓縮后不到3m。本發(fā)明主要利用ictclas的分詞功能,分完詞的文檔中詞與詞之間以空格分割。例如,對如下所示出的txt格式的原始原檔a進(jìn)行分詞后,得到文檔b。原始文檔a:{近日,國內(nèi)一項(xiàng)調(diào)查結(jié)果表明:10%的人喜歡開轎車,13%的人喜歡開面包車,22%的人喜歡開越野車,55%的人喜歡多功能車。他們對愛車的選擇標(biāo)準(zhǔn)從以前的感性轉(zhuǎn)為務(wù)實(shí)、審慎和理性。對于中國廣大消費(fèi)者而言,一輛既能作為日常家庭用車又兼具部分商務(wù)功能的多功能轎車,理所當(dāng)然是他們的首選。由世界頂級汽車設(shè)計(jì)師justynnorek操刀設(shè)計(jì),呈現(xiàn)我們眼前的陸風(fēng)風(fēng)尚造型既不乏東方的質(zhì)樸含蓄,又彰顯了西方的尊榮大方,是東方文化和西方風(fēng)韻碰撞的智慧的結(jié)晶。配置上非常豐富,完全達(dá)到目前國內(nèi)中檔轎車水平;而在安全性上,該車型為駕乘者提供全面的呵護(hù),先進(jìn)而完善的裝備提供了最佳的主被動安全保障。陸風(fēng)風(fēng)尚(報(bào)價(jià);圖片)作為一款設(shè)計(jì)理念先進(jìn)、功能完蕃、品質(zhì)優(yōu)良的車型,歷時(shí)四年開發(fā),向國家專利部門申請了133項(xiàng)專利,另一款具有歐洲血統(tǒng)的“全球資源車”。憑借陸風(fēng)的強(qiáng)勢品牌形象和完善服務(wù)網(wǎng)絡(luò),陸風(fēng)今后將極有可能成為多功能轎車市場上的領(lǐng)導(dǎo)者}分完詞文檔b:{近日,國內(nèi)一項(xiàng)調(diào)查結(jié)果表明:10%的人喜歡開轎車,13%的人喜歡開面包車,22%的人喜歡開越野車,55%的人喜歡多功能車。他們對愛車的選擇標(biāo)準(zhǔn)從以前的感性轉(zhuǎn)為務(wù)實(shí)、審慎和理性。對于中國廣大消費(fèi)者而言,一輛既能作為日常家庭用車又兼具部分商務(wù)功能的多功能轎車,理所當(dāng)然是他們的首選。由世界頂級汽車設(shè)計(jì)師justynnorek操刀設(shè)計(jì),呈現(xiàn)我們眼前的陸風(fēng)風(fēng)尚造型既不乏東方的質(zhì)樸含蓄,又彰顯了西方的尊榮大方,是東方文化和西方風(fēng)韻碰撞的智慧的結(jié)晶。配置上非常豐富,完全達(dá)到目前國內(nèi)中檔轎車水平;而在安全性上,該車型為駕乘者提供全面的呵護(hù),先進(jìn)而完善的裝備提供了最佳的主被動安全保障。陸風(fēng)風(fēng)尚(報(bào)價(jià);圖片)作為一款設(shè)計(jì)理念先進(jìn)、功能完蕃、品質(zhì)優(yōu)良的車型,歷時(shí)四年開發(fā),向國家專利部門申請了133項(xiàng)專利,另一款具有歐洲血統(tǒng)的“全球資源車”。憑借陸風(fēng)的強(qiáng)勢品牌形象和完善服務(wù)網(wǎng)絡(luò),陸風(fēng)今后將極有可能成為多功能轎車市場上的領(lǐng)導(dǎo)者}去停用詞單元用于基于預(yù)設(shè)的中文停用詞表對分詞后文檔中的停用詞進(jìn)行替換,以節(jié)省存儲空間和提高程序執(zhí)行效率。本發(fā)明中選用哈工大信息檢索研究中心論壇提供的中文停用詞表,該此表有1208個字或詞語,在利用該中文體用詞表去除停用詞時(shí),去除的方法是用空字符串替換分完詞文檔中的停用詞。特征提取單元用于對去停用詞后的每個文檔中的每個詞的ti-idf值,選取ti-idf值大于特定閾值的特征作為該文檔的特征項(xiàng),每個文檔中的每個詞的ti-idf值wi通過下述公式(3)確定:wi=fi*log(n/dfi)(3)其中,fi是指詞頻率,表示第i個詞在該文檔中出現(xiàn)的次數(shù),dfi是指文檔頻率,表示文本文檔中出現(xiàn)第i個詞的文檔數(shù)目。ti-idf值的特定閾值可根據(jù)實(shí)際情況來確定。根據(jù)公式(1),在計(jì)算某個詞的值的時(shí)候需要計(jì)算這個詞在本文檔出現(xiàn)過幾次和有多少個文檔出現(xiàn)過這個詞,原始的方法在計(jì)算一個詞就要掃描一遍文檔。另外在隨后建立向量空間模型的時(shí)候,計(jì)算每篇文檔對應(yīng)特征項(xiàng)的tf-idf的時(shí)候也是需要詞頻信息的,如果不用變量先保存這些信息而每次都掃描文檔是相當(dāng)耗時(shí)的。故本發(fā)明在特征選取之前用兩個變量termfreq1和termfreq2來保存詞頻信息,采用“空間換時(shí)間”的算法思想來實(shí)現(xiàn)。文本表示單元用于利用預(yù)設(shè)模型將經(jīng)提取特征項(xiàng)后的文本文檔表示成特征向量集。文本表示單元根據(jù)特征提取單元選取出的特征項(xiàng)對每篇文檔進(jìn)行計(jì)算對應(yīng)特征項(xiàng)上的值,每篇文檔就生成一個和特征項(xiàng)數(shù)目相同維度的向量,整個文檔集合就生和文檔數(shù)目一致的向量集合。具體地,文本表示單元利用向量空間模型(vsm:vectorspacemodel)將經(jīng)預(yù)處理后的文本文檔表示成特征向量集。在進(jìn)行文本表示時(shí),本發(fā)明將根據(jù)上述公式(1)選取出的特征項(xiàng)作為維度屬性,用上述公式(1)對每篇文章所對應(yīng)的各個維度計(jì)算其相應(yīng)的權(quán)值,最后對n篇文檔計(jì)算后得出n個向量,每個向量的維度等于特征的個數(shù),每個維度的值就是ti-idf的值,這樣,對于給定的文檔d,其可表示成d=(w1,w2,…,wn),其中w1,w2,…,wn為每個維度的權(quán)重值。<文本聚類模塊>在n個文本文檔用vsm向量空間模型表示成的特征向量集x后,文本聚類模塊2利用帶孤立點(diǎn)檢測改進(jìn)的k-means算法對所述特征向量集進(jìn)行聚類,最后給出聚類結(jié)果的準(zhǔn)確率。聚類模塊的處理流程包括以下步驟:(1)輸入包含n個文檔的特征向量集x和聚類簇的個數(shù)k(劃分參數(shù));(2)采用預(yù)設(shè)孤立點(diǎn)檢測條件對特征向量集中的孤立點(diǎn)進(jìn)行檢測并提取檢測到的孤立點(diǎn);(3)采用預(yù)設(shè)初始聚類中心確定規(guī)則對提取孤立點(diǎn)后的向量集x’中選擇k個文檔作為初始聚類中心;(4)計(jì)算剩余的每個文檔與k個簇的相似度,并將其分派到最相似的簇中;(5)重新計(jì)算已得到的各個簇的初始聚類中心;(6)重復(fù)步驟(4)和(5)直至新的初始聚類中心與原初始聚類中心相等或小于指定閾值,聚類過程結(jié)束;(7)在聚類過程完成后,計(jì)算提取的孤立點(diǎn)與各個簇的相似程度,將每個孤立點(diǎn)放入與其相似程度高的簇中;在本發(fā)明中,孤立點(diǎn)分析可以這樣描述:對于包含n個樣本點(diǎn)數(shù)據(jù)集合和期望發(fā)現(xiàn)的孤立點(diǎn)個數(shù)i,發(fā)現(xiàn)與剩余的樣本點(diǎn)相比是例外的或者是不一致的程度最高的i個樣本點(diǎn),這些與數(shù)據(jù)集中的其它數(shù)據(jù)對象點(diǎn)有著很大的差異的樣本點(diǎn)被稱為孤立點(diǎn)。本發(fā)明采用“標(biāo)準(zhǔn)分?jǐn)?shù)的絕對值大于的樣本點(diǎn)視為孤立點(diǎn)來處理”的實(shí)現(xiàn)來對數(shù)據(jù)集進(jìn)行預(yù)處理,即預(yù)設(shè)孤立點(diǎn)檢測條件為,如果某個文檔的標(biāo)準(zhǔn)分?jǐn)?shù)的絕對值大于2,則該文檔被檢測為孤立點(diǎn),具體的處理過程描述如下:設(shè)point[i][k]表示特征向量集x中的序號為i的文檔(以下將特征向量集中的文檔簡稱為樣本點(diǎn))的第k維度上的值,則樣本點(diǎn)i和樣本點(diǎn)j之間的歐式距離可以表示為樣本點(diǎn)i到其它所有樣本點(diǎn)的距離之和可表示為其中d是指樣本點(diǎn)的維數(shù)。定義1:樣本點(diǎn)i的標(biāo)準(zhǔn)分?jǐn)?shù)其中本發(fā)明的預(yù)設(shè)初始聚類中心確定規(guī)則的思想是每次都把相對集中的數(shù)據(jù)先劃分出來,這樣就可以保證每個簇劃分出的樣本點(diǎn)有著較高的相似性,主要包括以下步驟:(1)遍歷提取孤立點(diǎn)后的向量集x’中的樣本點(diǎn)i到其它樣本點(diǎn)的距離之和最大點(diǎn),記為oi1;(2)找出距離點(diǎn)oi1最遠(yuǎn)的點(diǎn)oi2;(3)把距oi2點(diǎn)距離小于等于第n/k個小元素的點(diǎn)(也就是距離oi2點(diǎn)較近的n/k個點(diǎn))劃分為簇i;(4)從特征向量集x’中刪除已歸為簇i的數(shù)據(jù)對象,并求出i簇的中心點(diǎn);(5)把特征向量集x’中剩下的樣本歸到簇k中,同時(shí)也求出簇k的聚類中心。<聚類結(jié)果評估模塊>在本發(fā)明中,聚類結(jié)果評估模塊3基于目標(biāo)函數(shù)的評估標(biāo)準(zhǔn)和基于人工判定的評估標(biāo)準(zhǔn)來對所述聚類結(jié)果進(jìn)行評估。其中,基于目標(biāo)函數(shù)的評估標(biāo)準(zhǔn)通過計(jì)算標(biāo)準(zhǔn)誤差指標(biāo)sse來對所述聚類結(jié)果進(jìn)行評估,所述標(biāo)準(zhǔn)誤差指標(biāo)sse通過下述公式(4)來確定:其中,pij是指屬于簇j的文檔i,cj是指簇j的聚類中心,nj是指簇j中文檔的數(shù)目,k是指簇的數(shù)目?;谌斯づ卸ǖ脑u估標(biāo)準(zhǔn)來對所述聚類結(jié)果進(jìn)行評估包括:(1)掃描數(shù)據(jù)集,把類標(biāo)號相同的數(shù)據(jù)集中放一起,記錄類標(biāo)號不同的分割點(diǎn);對于iris數(shù)據(jù)集,其分割點(diǎn)為1,51,102。(2)對聚類后的類標(biāo)號按照步驟(1)的分隔點(diǎn)進(jìn)行分隔;對于iris數(shù)據(jù)集,會得出1-50,51-100,101-150分別屬于一類。(3)統(tǒng)計(jì)每個類中的眾數(shù);例如,1-50那個簇中的眾數(shù)為0。(4)分別統(tǒng)計(jì)每個簇中分類號與該簇眾數(shù)不相同的文檔,然后對這些文檔數(shù)目進(jìn)行求和,計(jì)為errornum;(5)計(jì)算準(zhǔn)確率correctrate=(n-errornum)/n,其中n表示整個數(shù)據(jù)集中文檔的數(shù)目。以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域:
:的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁12當(dāng)前第1頁12