專利名稱:一種基于近鄰傳播的xml文檔譜聚類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于Web數(shù)據(jù)管理技術(shù)領(lǐng)域,尤其涉及一種基于近鄰傳播的XML文檔譜聚類方法。
背景技術(shù):
由于XML格式數(shù)據(jù)在web上的大量出現(xiàn)和廣泛應(yīng)用,對(duì)XML文檔的搜索需求也越來(lái)越迫切。對(duì)于Internet上大量存在的自由XML文檔,基于關(guān)鍵詞的XML文檔搜索技術(shù)不需要用戶學(xué)習(xí)和掌握復(fù)雜的查詢語(yǔ)言,也不需要用戶了解XML的模式,因此適用于普通用戶的檢索需求。但由于XML文檔中元素標(biāo)簽、元素內(nèi)容存在同義詞、多義詞等現(xiàn)象,基于XML關(guān)鍵詞搜索返回的檢索結(jié)果集中會(huì)存在大量與用戶檢索語(yǔ)義需求不相關(guān)的文檔,檢索結(jié)果精度低,用戶需要浪費(fèi)大量時(shí)間從這些結(jié)果中瀏覽自己感興趣的XML文檔。使用XML文檔聚類技術(shù)對(duì)搜索結(jié)果進(jìn)行自動(dòng)分組,便于用戶只在感興趣的少數(shù)組中查找和選取所關(guān)心的 文檔,大大方便了用戶對(duì)信息的瀏覽。對(duì)web下XML文檔的聚類研究目前主要是應(yīng)用擴(kuò)展的向量模型表示XML的特征,用JACCARD系數(shù)、CSM余弦相似度等計(jì)算XML文檔之間的相似度,再利用傳統(tǒng)的聚類算法實(shí)現(xiàn)聚類。傳統(tǒng)的聚類算法需要輸入聚類個(gè)數(shù),而對(duì)于XML檢索結(jié)果的聚類預(yù)先不知道聚類個(gè)數(shù),需要自動(dòng)確定聚類的個(gè)數(shù)。譜聚類技術(shù)根據(jù)樣本間的相似關(guān)系建立相似度矩陣,通過(guò)求解拉普拉斯矩陣的特征向量找出數(shù)據(jù)樣本間的內(nèi)在聯(lián)系,其中利用kiay劃分準(zhǔn)則的多路譜聚類方法NJW由于穩(wěn)定性好,成為最常用的譜聚類方法之一。對(duì)于多路譜聚類方法NJff,如果由樣本構(gòu)造的相似度矩陣偏離理想的相似度矩陣的擾動(dòng)很小,則拉普拉斯矩陣L的前k個(gè)特征值Xk接近1,第k+1個(gè)特征值入,+1遠(yuǎn)遠(yuǎn)偏離1,或是入,+1與Xk之間的差值最大,此時(shí)可以自動(dòng)確定聚類個(gè)數(shù)為k,直接選擇前k個(gè)特征值對(duì)應(yīng)的特征向量進(jìn)行求解,可以得到準(zhǔn)確的劃分結(jié)果。在實(shí)際情況下,由于web上XML文檔表示的任意性及XML文檔中元素標(biāo)簽存在同義詞等現(xiàn)象,使得兩篇隱含相似的XML文檔dl和d2根據(jù)已有的特征向量表示法和相似度計(jì)算方法計(jì)算出的相似度很小或?yàn)?,影響了多路譜聚類方法中相似度矩陣的真實(shí)性,從而影響了聚類個(gè)數(shù)的正確性和聚類結(jié)果的準(zhǔn)確合理性。
發(fā)明內(nèi)容
針對(duì)上述背景技術(shù)中提到Web數(shù)據(jù)管理中XML檢索存在的檢索精度低的不足,本發(fā)明提出了一種基于近鄰傳播的XML文檔譜聚類方法。本發(fā)明的技術(shù)方案是,一種基于近鄰傳播的XML文檔譜聚類方法,其特征是該方法包括以下步驟步驟I :將XML文檔用XML路徑構(gòu)成的特征向量表示;步驟2 :計(jì)算特征向量?jī)蓛芍g的初始相似度,得到初始相似度矩陣W,進(jìn)而確定初始近鄰關(guān)系矩陣N ;
步驟3 :用近鄰傳播算法修正特征向量?jī)蓛芍g的相似度,得到相似度矩陣A ;步驟4 :根據(jù)相似度矩陣A,應(yīng)用第一指定方法確定I文檔的聚類個(gè)數(shù)及聚類結(jié)果。所述特征向量?jī)蓛芍g的初始相似度的計(jì)算公式為
Ik n^Jsim{diyd ,) = 1--4-
"卜 c/,|其中simWi,(Ij)為特征向量?jī)蓛芍g的初始相似度; Cli H Clj為XML文檔Cli和Clj共同包含的路徑數(shù);Cli U Clj為XML文檔Cli和Clj中提取出的所有路徑數(shù)。所述初始近鄰關(guān)系矩陣N的確定方法為當(dāng)初始相似度矩陣W中的元素大于設(shè)定值時(shí),將該元素在初始近鄰關(guān)系矩陣N中對(duì)應(yīng)位置的元素值修改為I ;否則修改為O。所述近鄰傳播算法具體為a :將初始近鄰關(guān)系矩陣N中的行向量,按其所含有的I的數(shù)量,從多到少進(jìn)行排列;進(jìn)而得到排序后的XML文檔集,并置換初始相似度矩陣W和初始近鄰關(guān)系矩陣N中的對(duì)應(yīng)的行和列,得到相似度矩陣W'和近鄰關(guān)系矩陣N';b :從排序后的XML文檔集中的第一個(gè)XML文檔開(kāi)始,確定第一個(gè)XML文檔與排序后的XML文檔集中其余文檔的隱含相似關(guān)系;隱含相似關(guān)系是指若兩個(gè)XML文檔之間不是近鄰關(guān)系,但這兩個(gè)XML文檔同時(shí)和另一個(gè)XML文檔是近鄰關(guān)系,則這兩個(gè)XML文檔是隱含相似關(guān)系;若這兩個(gè)XML文檔是隱含相似關(guān)系,則修改近鄰關(guān)系矩陣N'中對(duì)應(yīng)這兩個(gè)XML文檔的元素為I ;修改相似度矩陣W'中對(duì)應(yīng)這兩個(gè)XML文檔的元素為這兩個(gè)XML文檔分別和另一個(gè)XML文檔的對(duì)應(yīng)元素中小的元素;重復(fù)上述步驟,直至最后一個(gè)XML文檔。所述第一指定方法為多路譜聚類方法。本發(fā)明通過(guò)用近鄰傳播算法修正了使用傳統(tǒng)的相似度計(jì)算方法得到的XML文檔間的初始相似度矩陣,使其能反映隱含相似的XML文檔之間的相似度,在此基礎(chǔ)上應(yīng)用多路譜聚類方法NJW得到正確的聚類個(gè)數(shù)和聚類結(jié)果。本發(fā)明與XML文檔的順序無(wú)關(guān),適用于任意順序排列的XML文檔檢索結(jié)果的聚類。
圖I為本發(fā)明方法的流程圖。
具體實(shí)施例方式下面結(jié)合附圖1,對(duì)優(yōu)選實(shí)施例作詳細(xì)說(shuō)明。應(yīng)該強(qiáng)調(diào)的是,下述說(shuō)明僅僅是示例性的,而不是為了限制本發(fā)明的范圍及其應(yīng)用。I.抽取XML路徑,對(duì)其中元素標(biāo)簽進(jìn)行處理,統(tǒng)一用詞的原型表示,并去掉包含于其他路徑中的路徑,然后將XML文檔用XML路徑構(gòu)成的特征向量表示。若XML文檔集有如下信息〈persons〉
〈person〉
-name-zhang staK/mme》
<books>
<book>visual c++ 6.0</book>
</ books〉
<papers><paper> A new clustering method</paper>
〈/papers〉
〈courses》
<course> visual c++ 6,0 Progmming</course>
</ courses〉
</persoti>
〈/persons〉
(a)XML 文檔 dl
<persons>
〈person〉
<name>zliaiig shan</name>
〈articles〉
權(quán)利要求
1.一種基于近鄰傳播的XML文檔譜聚類方法,其特征是該方法包括以下步驟 步驟I :將XML文檔用XML路徑構(gòu)成的特征向量表示; 步驟2:計(jì)算特征向量?jī)蓛芍g的初始相似度,得到初始相似度矩陣W,進(jìn)而確定初始近鄰關(guān)系矩陣N ; 步驟3 :用近鄰傳播算法修正特征向量?jī)蓛芍g的相似度,得到相似度矩陣A ; 步驟4 :根據(jù)相似度矩陣A,應(yīng)用第一指定方法確定XML文檔的聚類個(gè)數(shù)及聚類結(jié)果。
2.根據(jù)權(quán)利要求I所述的一種基于近鄰傳播的XML文檔譜聚類方法,其特征是所述特征向量?jī)蓛芍g的初始相似度的計(jì)算公式為
3.根據(jù)權(quán)利要求I所述的一種基于近鄰傳播的XML文檔譜聚類方法,其特征是所述初始近鄰關(guān)系矩陣N的確定方法為當(dāng)初始相似度矩陣W中的元素大于設(shè)定值時(shí),將該元素在初始近鄰關(guān)系矩陣N中對(duì)應(yīng)位置的元素值修改為I ;否則修改為O。
4.根據(jù)權(quán)利要求I所述的一種基于近鄰傳播的XML文檔譜聚類方法,其特征是所述近鄰傳播算法具體為 a :將初始近鄰關(guān)系矩陣N中的行向量,按其所含有的I的數(shù)量,從多到少進(jìn)行排列;進(jìn)而得到排序后的XML文檔集,并置換初始相似度矩陣W和初始近鄰關(guān)系矩陣N中的對(duì)應(yīng)的行和列,得到相似度矩陣W'和近鄰關(guān)系矩陣N'; b :從排序后的XML文檔集中的第一個(gè)XML文檔開(kāi)始,確定第一個(gè)XML文檔與排序后的XML文檔集中其余文檔的隱含相似關(guān)系; 隱含相似關(guān)系是指若兩個(gè)XML文檔之間不是近鄰關(guān)系,但這兩個(gè)XML文檔同時(shí)和另一個(gè)XML文檔是近鄰關(guān)系,則這兩個(gè)XML文檔是隱含相似關(guān)系; 若這兩個(gè)XML文檔是隱含相似關(guān)系,則修改近鄰關(guān)系矩陣N'中對(duì)應(yīng)這兩個(gè)XML文檔的元素為I ;修改相似度矩陣W'中對(duì)應(yīng)這兩個(gè)XML文檔的元素為這兩個(gè)XML文檔分別和另一個(gè)XML文檔的對(duì)應(yīng)元素中小的元素;重復(fù)上述步驟,直至最后一個(gè)XML文檔。
5.根據(jù)權(quán)利要求I所述的一種基于近鄰傳播的XML文檔譜聚類方法,其特征是所述第一指定方法為多路譜聚類方法。
全文摘要
本發(fā)明公開(kāi)了Web數(shù)據(jù)管理技術(shù)領(lǐng)域中的一種基于近鄰傳播的XML文檔譜聚類方法。本發(fā)明將XML文檔用XML路徑構(gòu)成的特征向量表示;然后計(jì)算XML文檔向量?jī)蓛芍g的初始相似度,得到初始相似度矩陣W,進(jìn)而確定初始近鄰關(guān)系矩陣N;之后用近鄰傳播算法修正隱含相似的XML文檔向量?jī)蓛芍g的相似度,得到最終的相似度矩陣A;最后根據(jù)最終的相似度矩陣A,應(yīng)用第一指定方法確定XML文檔的聚類個(gè)數(shù)及聚類結(jié)果。本發(fā)明通過(guò)用近鄰傳播算法修正了使用傳統(tǒng)的相似度計(jì)算方法得到的XML文檔間的初始相似度矩陣,使其能反映隱含相似的XML文檔之間的相似度;本發(fā)明與XML文檔的順序無(wú)關(guān),適用于任意順序排列的XML文檔檢索結(jié)果的聚類。
文檔編號(hào)G06F17/30GK102799680SQ20121025700
公開(kāi)日2012年11月28日 申請(qǐng)日期2012年7月24日 優(yōu)先權(quán)日2012年7月24日
發(fā)明者李新葉 申請(qǐng)人:華北電力大學(xué)(保定)