專利名稱:基于網(wǎng)絡流和分層知識庫的動態(tài)文本聚類方法
技術領域:
本發(fā)明屬于信息處理和網(wǎng)絡內容安全技術領域,具體涉及一種基于網(wǎng)絡流和分層知識庫的動態(tài)文本聚類方法。
背景技術:
今天生活在信息爆炸的時代,據(jù)有關資料顯示,到2003年全世界互聯(lián)網(wǎng)網(wǎng)頁總數(shù)達到了131億。有專家預測,中文將成為互聯(lián)網(wǎng)上最大的語種之一。互聯(lián)網(wǎng)也已經(jīng)成為人們發(fā)布和獲取信息的重要渠道。新聞、論壇和博客等網(wǎng)絡媒體在中國已發(fā)展成為洞察社會輿論的重要窗口,網(wǎng)絡輿論對公眾思想和政府決策發(fā)揮著越來越大的影響。中國互聯(lián)網(wǎng)覆蓋范圍不斷擴大,中國網(wǎng)民言論之活躍已達前所未有的程度,互動式的網(wǎng)絡評論以其快捷、尖銳的特點,已顯示了其不可忽視的力量。網(wǎng)絡輿論正在發(fā)揮其強大的威力。
在網(wǎng)絡輿論蓬勃發(fā)展的同時,由于網(wǎng)絡信息發(fā)布具有無地域性和匿名性等特點,各種信息難以進行有效的監(jiān)督和管理?;ヂ?lián)網(wǎng)上充斥著虛假廣告信息和各種非法言論,對網(wǎng)絡輿論導向造成了嚴重的影響。如何在互聯(lián)網(wǎng)這個信息的“汪洋大?!敝小按蠛漆槨保绾慰旖轀蚀_地獲取感興趣的信息成為當前及今后相當一個時期急待解決的重要課題。由此引發(fā)的許多工作,特別是中文和漢語環(huán)境下的信息處理和自然語言處理應用的諸多技術難題等待著人們去解決。
本發(fā)明擬解決的問題是通過結合網(wǎng)絡流和分層知識庫的方法來實現(xiàn)網(wǎng)絡動態(tài)文本聚類。網(wǎng)絡文本聚類是數(shù)據(jù)對象劃分的一個過程,也是尋找等價集合的一個過程。聚類是一個無指導的學習過程[1,2],目標是將隨機分布的樣本點劃分到已經(jīng)存在或還未存在的集合當中。一般而言,文本聚類方法可以分為1.劃分方法K-平均、K-中心等。
2.層次方法CURE等。
3.基于密度的方法DBSCAN、OPTICS等。
4.基于網(wǎng)格的方法STING等。
5.基于模型的方法神經(jīng)網(wǎng)絡等。
Web文檔有著最明顯的兩個特點,第一是數(shù)量龐大,第二是更新迅速。因此,要求聚類算法的復雜度不能過高,一個時間復雜度高于0(n2)的聚類算法是很難在短時間完成上萬個文檔聚類的。同時,要求算法對于單文檔的增加或刪除所花費的代價不能太大。上述經(jīng)典的聚類算法都難以同時滿足這兩點要求,許多算法對于一篇文章的增加必須將n篇文章全部重新計算,所花費的時間是難以承受的。
參考文獻[1]Jiawei Han,Kamber M數(shù)據(jù)挖掘概念與技術[M].北京機械工業(yè)出版社.2005[2]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京水利水電出版社.2003[3]卜東波.聚類/分類理論研究及其在文本挖掘中的應用[D].北京中國科學院.2000[4]Gruber M,Neuner P,Puchinger J.Klassi-kation der Min Cost Flow Algorithmen[EB/OL].[2006-5-13]http//www.ads.tuwien.ac.at/teaching/ws04/AlgoGraph/solutionU2A5.pdf[5]WANG JM.Text Clustering II[EB/OL].[2006-5-13]http//net.pku.edu.cn/~wbia/2004/public_html/slides/Week10-Text%20Clustering%20II.pdf[6]魯松,李曉黎,白碩,王實.文檔中詞語權重計算方法的改進[J].中文信息學報,2000(6)8-13,20[7]鄭宗漢,鄭曉明.算法設計與分析[M].北京清華大學出版社.2005[8]http//wordnet.princeton.edu/符號表(在本發(fā)明的全部文檔中所采用符號的含義)Wi文檔中的單詞(經(jīng)過分詞和過濾后余下)。
Sim(Wi,Wj)單詞Wi與Wj的相似度。
TF一個詞在一篇文檔中出現(xiàn)的頻率。
t文檔集中的單詞數(shù)量。
N文檔集中的文檔數(shù)量。
DFi文檔集中包含單詞i的文檔數(shù)。
L表征一篇文檔的向量維度。
Lc文檔類別的向量維度。
f(Wi)關鍵詞權重。
θ預定義的相似度閾值,可人工調整以干預聚類的程度。
LCA(A,B)樹中兩個節(jié)點A,B的最近公共祖先,為從兩個節(jié)點到根結點的路徑中首次交匯的節(jié)點,Dist(x,y)同義詞詞林中兩個節(jié)點x,y之間的距離長度,|LCA(A,B)|=Dist(LCA(A,B),A)+Dist(LCA(A,B),B)樹中兩個節(jié)點A,B的最短距離,TF·IDF詞頻/反轉文檔頻率公式,描述文檔中單詞權重。
發(fā)明內容
本發(fā)明的目的是提供一種無監(jiān)督的基于網(wǎng)絡流和分層知識庫的動態(tài)文本聚類方法。
本發(fā)明提出的動態(tài)文本聚類方法,首先,提取文本動態(tài)特征向量用詞頻/反轉文檔頻率公式TF·IDF和歸一化的方法提取文章的特征,包括從文本中提取關鍵詞和計算權重,并建立類別特征向量和文本特征向量;然后把文檔樣本和類別映射成網(wǎng)絡流圖,這樣就把類別歸并的方法變成網(wǎng)絡流的最大費用流的問題,并進行類別歸并;在計算的過程中,通過定義5層詞典結構的詞群距離來計算文檔和類別的相似度。然后進行類別合并由于聚類(即類別合并)的過程是一個開放的,不斷形成的過程,類別的關鍵字隨著類別的變化并不能完美地反映類的特點。因此對新加入的文檔,類別的關鍵詞和權重需要進行調整更新。即根據(jù)TF、IDF公式計算新加入的文本特征和類別文本特征,進行加權調整,將不斷地剔除掉那些權重小于一定閾值(預先設定)的關鍵字,保留語義合并后權重最高的特征,并作為該類新的表示向量,進而建立新的類別。
本發(fā)明的優(yōu)點在于,首先根據(jù)分層知識庫所提供的語義信息進行聚類而非關鍵詞聚類;其次可以動態(tài)去除噪音數(shù)據(jù);第三,相似度采用網(wǎng)絡流算法計算,以保證求得最優(yōu)匹配。利用該方法,可使?jié)M足Web文本實時更新聚類的需求,而且是無監(jiān)督型,無須預先指定類別集合。另外,該方法極大降低過程中用戶的參與度,應用系統(tǒng)無須像在ISODATA算法中那樣有多達6個參數(shù)需要調整。
本發(fā)明不僅可以用于海量文本的語義分析與處理系統(tǒng),也可以應用于信息處理和網(wǎng)絡內容安全等其它領域。
下面對本發(fā)明的各個步驟作進一步說明。整個方法的包括如下幾個步驟(算法流程圖見說明書附圖1)動態(tài)特征向量提取、類別歸并、距離求解、類別合并和建立新類等。
1、動態(tài)特征向量提取特征向量的提取是針對于單篇分詞后文章的,使用經(jīng)典的TF·IDF公式提取文章特征,并進行歸一化處理TF·IDF(Wi)=TF·log2(N/DFi)Σj=1tTF·log2(N/DFj)---(1)]]>TF·IDF公式的使用需要語料庫的支持(需要一個參照詞頻),語料庫可以利用現(xiàn)有的某些Web文檔構成。去除停用詞,并按照計算出的權重倒排序,選取一個維數(shù)較低的向量(設為L維)即可以代表整篇文章。該方法取得的向量忽略了一些不太重要的詞匯,提高了算法對噪聲的處理能力。完成單篇文章的處理以后,得到類別特征向量 Ci→=∪j=1Lc{(Wj,f(Wj)}---(2)]]>文本特征向量 如下表示Di→=∪j=1L{(Wj,TF·IDF(Wj)}---(3)]]>度量文本特征向量和類別特征向量的相似度,可采用圖論算法中的距離來度量。
2.把文檔樣本和類別映射成網(wǎng)絡流圖。
建立文章到類別的一個網(wǎng)絡流(見附圖2),包括一個源點和一個匯點,將任意文章單詞到類別單詞建立一條邊,其容量為1,費用為Sim(Wi,Wj)×TF·IDF(Wi),并將源點和任意文章單詞建立一條邊,費用為0,容量為1。任意類別單詞到匯點建立一條邊,費用為0,容量為1。這樣就把求類別是否歸并的問題轉化為求網(wǎng)絡流的最大費用流的問題。
3.類別歸并設所求得的最大費用為γ,并記
Total=Σi=1LTF·IDF(Wi)---(4)]]>則文章屬于該類別當且僅當γTotal≥θ.]]>閾值θ根據(jù)實際情況選定。網(wǎng)絡流的最大費用流問題是圖論的經(jīng)典問題,常見的算法為匈牙利算法,其時間復雜度為O(V3),對于稀疏圖而言,也有一些相關的改進,并且由于容量為1,使復雜度可以達到O(V(E+Vlog2V))2。
這里涉及到文本特征向量和類別特征向量相似度的度量,即計算單詞Wi與Wj的相似度Sim(Wi,Wj),將中文詞匯按照樹狀結構組織,把詞匯分成大、中、小三類,大類有12個,中類有97個,小類有1,400個。根據(jù)其對于小類內部分標記,將小類進一步劃分,進而得到一共五層的詞典結構。
Sim(Wi,Wj)的計算可以根據(jù)|LCA(A,B)|來度量,具體的數(shù)值可以根據(jù)試驗的效果選取,根據(jù)實驗同義詞可以取Sim(Wi,Wj)=1,近義詞取Sim(Wi,Wj)=α。α可取0.6-0.9之間,例如可取α=0.8,具體根據(jù)實際情況判斷決定。若同義詞詞林(加強版)沒有包括Wi或Wj,那么再采用如下方法計算 4.合并類別當滿足條件γTotal≥θ]]>時,將當前文檔與匹配成功的類進行合并。合并所產生的另一個問題就是,該類以前的關鍵字并不總能完美地反映類的特點。也就是說,根據(jù)新加入的文檔,類別的關鍵詞和權重需要進行調整更新。在合并過程中不斷地淘汰掉那些權重較小的關鍵字,這也能提高算法對噪聲的適應能力。
調整的方法為設目前該類中已經(jīng)存在了N個文檔,類別的向量 維數(shù)為Lc3。分兩種情況討論類別原關鍵詞的更新,若新關鍵詞到該類別原關鍵詞存在近義詞、同義詞匹配時,用下式表示的f(Wi)替代原f(Wi)
f(Wi)=NN+1f(Wi)+1N+1TF·IDF(Wk)---(6)]]>否則將原關鍵詞的權重下調,即f(Wi)=NN+1f(Wi);---(7)]]>最后再結合該文檔向量中的未匹配關鍵詞與調整后的類別原關鍵詞統(tǒng)一進行排序,選出最大的Lc個關鍵詞,作為該類新的表示向量。
5.建立新類別若當前文檔不能與已知的任意類進行合并時,就需要建立新的類。建立過程很簡單,就是將當前文檔的特征向量作為該類的特征向量。
在實踐過程中,該算法的時間復雜度與類的數(shù)量相關,假設類的數(shù)量為O(log2n),則該算法總時間復雜度為O(nlog2n),若類的數(shù)量為O(n/log2n)級別,算法的時間復雜度為O(n2/log2n),是一個比較高效的增量算法。
由于聚類算法不同于分類算法有一個已經(jīng)標注的文檔集進行指導學習,所以聚類的效果評測不是很容易(根據(jù)粒度選擇的不同,會得到不同的等價集)。為了本算法聚類的效果具有說服力并便于評測,使用“多文檔文摘語料”測試。該語料具有從各地采集的40個主題共197條新聞,同一個主題的一般具有3至7篇相關新聞,其中同主題任意兩篇文檔稱為一個人工關聯(lián)文檔對。并定義如下的一些數(shù)據(jù)以θ作為調整閾值的試驗結果如下表和附圖4所示
一般可取θ在0.3-0.5之間。
圖1本方法采用的聚類流程。
圖2聚類網(wǎng)絡流構成圖例。
圖3五層同義詞詞林詞典結構。
圖4測試結果圖示。
具體實施例方式
下面通過舉例進一步描述本發(fā)明方法。
在本例子中,待處理的文檔數(shù)量N=3,設相似度閾值θ=0.5,文檔類別的向量維數(shù)Lc=4,其中文本向量分別為D1、D2、D3,向量中每個詞語后面是文章通過TF·IDF計算而得的權重信息D1={(電腦,0.4),(游戲,0.3),(下載,0.3)}D2={(最新,0.2),(軟件,0.5),(下載,0.3)}D3={(計算機,0.4),(游戲,0.3),(攻略,0.3)}則開始聚類時,首先處理D1,因為沒有其他類別可以比較,故將其本身建立為一個新的類別,為C1,其中C1={(電腦,0.4),(游戲,0.3),(下載,0.3)}。
然后處理D2,將D2與類別C1相比較,構建網(wǎng)絡流圖,并且僅有從D2中的“(下載,0.3)”到C1中的“(下載,0.3)”兩個節(jié)點的邊費用非零,因為Sim(下載,下載)=1,則該邊的權值為0.3*1.0=0.3。對該圖求其最大費用流(可以采用Ford算法每次求一條費用最大的路徑增廣),得到F*=0.3,因為Total=0.2+0.5+0.3=1,F(xiàn)*/Total=0.3<θ,則該文檔不能歸并入C1中。
由于檢查了所有存在的類別都無法進行歸并,則D2也將獨立為一類,為C2,其中C2=D2={(最新,0.2),(軟件,0.5),(下載0.3)}。
處理文檔D3,首先比較D3與類別C1的相似情況由于“電腦”和“計算機”在分層知識庫中屬于同義詞,則Sim(電腦,計算機)=0.8,并且Sim(游戲,游戲)=1,則構建的網(wǎng)絡流圖有這兩條邊費用非零,其權值分別為0.8*0.4=0.32和1.0*0.3=0.3。因為該兩條邊頂點相異。對于此圖求最大費用流可以得到F*=0.32+03=0.62>θ,則D3可以歸并于類別C1中。
歸并的過程如下計算所有可能特征的權重。由于(計算機,電腦)特征匹配成功,故將其視為一個特征
由于Lc=4,則上述特征項會被保留作為新的C1的特征和權重。這三篇文章最終形成了兩個不同的類別。
權利要求
1.一種基于網(wǎng)絡流和分層知識庫的動態(tài)文本聚類方法,其特征在于首先,提文本取動態(tài)特征向量用詞頻/反轉文檔頻率公式TF·IDF和歸一化的方法提取文章的特征,包括從文本中提取關鍵詞和計算權重,并建立類別特征向量和文本特征向量;然后把文檔樣本和類別映射成網(wǎng)絡流圖,把類別歸并的方法變成網(wǎng)絡流的最大費用流的問題,并進行類別歸并;在計算的過程中,通過定義5層詞典結構的詞群距離來計算文本和類別特征向量的相似度;然后進行類別合并,對新加入的文檔,根據(jù)TF、IDF公式計算新加入的文本特征和類別文本特征,調整類別的關鍵詞和權重,不斷地剔除掉那些權重小于一定閾值的關鍵字,保留語義合并后權重最高的特征,并作為該類新的表示向量,進而建立新的類別。
2.根據(jù)權利要求1所述的動態(tài)文本聚類方法,其特征在于所述提取文本動態(tài)特征向量步驟如下針對單篇分詞后的文章,使用TF·IDF公式提取文章特征,并進一步歸一化處理TF·IDF(Wi)=TF·log2(N/DFi)Σj=1tTF·log2(N/DFj)---(1)]]>得到類別特征向量 如下C→i=∪j=1Lc{(Wj,f(Wj)}---(2)]]>文本特征向量 如下表示D→i=∪j=1L{(Wj,TF·IDF(Wj)}---(3)]]>并用圖論算法中距離來度量文本特征向量和類別特征向量的相似度;其中,Wj為文檔中的單詞,N為文檔集中文檔的數(shù)量,TF為一個詞在一篇文檔中的頻率,DFi為文檔集中包含單詞i的文檔數(shù),L為一篇文檔的向量維度,Lc為文檔類別的向量維度,f(Wj)為關鍵詞權重。
3.根據(jù)權利要求1所述的動態(tài)文本聚類方法,其特征在于所述把文檔樣本和類別映射成網(wǎng)絡流圖的步驟如下建立文章到類別的一個網(wǎng)絡流,包括一個源點和一個匯點,將任意文章單詞到類別單詞建立一條邊,其容量為1,費用為Sim(Wi,Wj)×TF·IDF(Wi),并將源點和任意文章單詞建立一條邊,費用為0,容量為1;任意類別單詞到匯點建立一條邊,費用為0,容量為1,這樣就把求類別是否歸并的問題轉化為求網(wǎng)絡流的最大費用流的問題;這里Sim(Wi、Wj)為單詞Wi和Wj的相似度。
4.根據(jù)權利要求1所述的動態(tài)文本聚類方法,其特征在于所述類別歸并,是設所求得的最大費用為γ,并記Total=Σi=1LTF·IDF(Wi)---(4)]]>則文章屬于該類別當且僅當γTotal≥θ,]]>θ根據(jù)實際情況選定。
5.根據(jù)權利要求3所述的動態(tài)文本聚類方法,其特征在于所述文本特征向量和類別特征向量相似度的度量,即計算單詞Wi與Wj的相似度Sim(Wi,Wj),先將中文詞匯按照樹狀結構組織,把詞匯分成大、中、小三類,大類有12個,中類有97個,小類有1,400個;根據(jù)其對于小類內部分標記,將小類進一步劃分,進而得到一共五層的詞典結構;這樣相似度Sim(Wi,Wj)的計算就根據(jù)|LCA(A,B)|來度量,具體的數(shù)值可以根據(jù)試驗的效果選取根據(jù)實驗同義詞取Sim(Wi,Wj)=1,近義詞取Sim(Wi,Wj)=α,α取0.6-0.9之間,若同義詞詞林沒有包括Wi或Wj,那么再采用如下方法計算 這里LCA(A,B)樹中兩個節(jié)點A,B的最近公共祖先,為從兩個節(jié)點到根結點的路徑中首次交匯的節(jié)點;Dist(x,y)同義詞詞林中兩個節(jié)點x,y之間的距離長度;|LCA(A,B)|=Dist(LCA(A,B),A)+Dist(LCA(A,B),B)樹中兩個節(jié)點A,B的最短距離。
全文摘要
本發(fā)明屬于信息處理和網(wǎng)絡安全技術領域,具體為一種基于網(wǎng)絡流和分層知識庫的動態(tài)文本聚類方法。本發(fā)明首先假設存在分好的文檔類別具有向量型的特征,對單篇分詞后的文章通過TFIDF方式提取特征并歸一化,用知識庫中定義語義距離的方法來計算文章和類別的距離,并對新增加文檔的類別不斷調整更新關鍵詞和權重;若當前文檔不能與已知的任意類進行合并時,就需要建立新的類。算法的過程包括動態(tài)特征向量提取、類別歸并、距離求解、類別合并和建立新類等。本發(fā)明的特點是根據(jù)分層知識庫所提供的語義信息進行聚類而非關鍵詞聚類;可以動態(tài)去除噪音數(shù)據(jù);相似度采用網(wǎng)絡流算法計算,以保證求得最優(yōu)匹配。利用該方法,可以滿足Web文本實時更新聚類的需求,而且是無監(jiān)督型,無須預先指定類別集合。
文檔編號G06F17/00GK101059805SQ20071003863
公開日2007年10月24日 申請日期2007年3月29日 優(yōu)先權日2007年3月29日
發(fā)明者閔可銳, 劉昕, 劉百祥, 閆華 申請人:復旦大學