本發(fā)明涉及一種基于融合Kendall Tau距離度量的譜聚類方法,涉及到距離度量、相似性融合、譜聚類分析等方面,旨在通過(guò)對(duì)樣本之間距離度量方法的改善,進(jìn)而譜聚類算法的聚類精度,多應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域。
二、
背景技術(shù):
隨著信息化時(shí)代的迅速發(fā)展,大數(shù)據(jù)以及與其相關(guān)的數(shù)據(jù)分析受到了越來(lái)越多的關(guān)注。為了從海量數(shù)據(jù)中挖掘出有用的信息,數(shù)據(jù)分析探索中最常使用的技術(shù)之一---聚類分析再次成為了各界討論的焦點(diǎn)。目前,聚類分析已經(jīng)在諸如商務(wù)智能、圖像處理、網(wǎng)頁(yè)搜索、生物學(xué)和安全保障等領(lǐng)域得到了成功地應(yīng)用。近年來(lái),譜聚類成為了當(dāng)今最受歡迎的聚類算法之一,是國(guó)際機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)新的研究熱點(diǎn)。
譜聚類算法建立在譜圖理論的基礎(chǔ)上,與傳統(tǒng)的聚類算法,如:K-means、期望最大化(EM)算法相比,它具有能夠在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解的優(yōu)點(diǎn)。近年來(lái),有很多學(xué)者在研究譜聚類算法。其中一些學(xué)者的研究著重于在特定條件下優(yōu)化譜聚類算法以期望算法在特定的場(chǎng)合下獲得更加優(yōu)越的效果,如:X.Wang等人提出的帶約束性的譜聚類以及應(yīng)用,Rohe等人研究的譜聚類和高維隨機(jī)塊模型,A.Kumar等人提出的多視圖譜聚類的聯(lián)合訓(xùn)練法,W.Chen等人提出的在分布式環(huán)境中的譜聚類算法的應(yīng)用,Smith等人提出的譜聚類在疫情擴(kuò)散情景中的應(yīng)用等。另一些學(xué)者則希望獲取一個(gè)最佳參數(shù)從而更加合理地計(jì)算數(shù)據(jù)樣本點(diǎn)之間的相似性,如:L.Li等人提出的在子空間的譜聚類算法的跳躍線性模型的參數(shù)估計(jì),Dhanjal等人提出的高效率更新特征值的譜聚類方法。譜聚類的成功應(yīng)用一方面說(shuō)明該算法對(duì)聚類數(shù)據(jù)集的原始分布沒(méi)有嚴(yán)格的限制和過(guò)多的假設(shè),另一方面也說(shuō)明對(duì)譜聚類進(jìn)行研究和改進(jìn)具有重要意義。
距離度量對(duì)聚類來(lái)說(shuō)非常重要。傳統(tǒng)的距離度量一般采用歐幾里得距離。但是用歐氏距離計(jì)算兩個(gè)樣本之間的相似性時(shí),一般只考慮這兩個(gè)樣本之間的距離信息。但現(xiàn)實(shí)世界中,事物之間的聯(lián)系是錯(cuò)綜復(fù)雜的,僅僅考慮兩個(gè)樣本之間的歐氏距離是不夠全面的。近年來(lái),很多學(xué)者研究新的距離度量方法來(lái)評(píng)估數(shù)據(jù)樣本點(diǎn)之間的相似性。但是不同的距離度量可能產(chǎn)生完全不同的聚類結(jié)果,那么在實(shí)際應(yīng)用中到底應(yīng)該選擇哪種度量方法呢?
本發(fā)明基于上述問(wèn)題,提出一種新的基于融合Kendall Tau距離的譜聚類方法。該方法首先融合了傳統(tǒng)的具有局部性質(zhì)的歐幾里得距離和就我們所知,還沒(méi)有應(yīng)用到聚類分析的距離度量的新的具有全性質(zhì)的Kendall Tau距離。然后將新的距離度量方法構(gòu)建的相似性矩陣應(yīng)用到譜聚類中,可以有效提高聚類精度。
三、
技術(shù)實(shí)現(xiàn)要素:
為解決傳統(tǒng)譜聚類算法中普遍使用歐幾里得距離,一般只考慮這兩個(gè)樣本之間的距離信息而忽略周?chē)渌麡颖拘畔⒌膯?wèn)題,本發(fā)明提出一種新的基于融合Kendall Tau距離的譜聚類方法,具體步驟如下:
(1)計(jì)算樣本之間的歐幾里得距離和Kendall Tau距離
歐幾里得距離是使用最為廣泛、最簡(jiǎn)單的距離度量,而且具有平移和旋轉(zhuǎn)不變性。Kendall Tau距離一般可以用來(lái)測(cè)量?jī)蓚€(gè)由相同元素組成,只是元素的排列順序不同的兩個(gè)序列之間的相關(guān)性。假設(shè)有兩個(gè)這樣的序列:L1=(L11,L21,...,Ln1)和L2=(L12,L22,...,Ln2),序列中的元素為1到N的整數(shù)。那么這兩個(gè)序列之間的差異性可以被定義為:
KT(L1,L2)=|{(i,j):i<j,(Li1<Lj1∧Li2>Lj2)or(Li1>Lj1∧Li2<Lj2)}| (1)
公式(1)中的Li1和Li2分別表示第i個(gè)樣本在L1和L2兩個(gè)序列中的排列次序。符號(hào)|·|表示一個(gè)集合中的元素?cái)?shù)量。如果兩個(gè)序列中的元素的排列次數(shù)是完全相同的,那么K(L1,L2)=0。如果兩個(gè)序列中的元素的排列次數(shù)是完全不同的,那么K(L1,L2)=n(n-1)/2。為了方便計(jì)算,可以將Kendall Tau距離除以n(n-1)/2進(jìn)行歸一化處理。這樣Kendall Tau距離應(yīng)該在區(qū)間[0,1]。本發(fā)明中所提到的Kendall Tau距離都是歸一化之后的距離。
具體的,在本發(fā)明提供的方法中,使用樣本之間的歐幾里得距離對(duì)樣本進(jìn)行排序,這樣每一個(gè)樣本對(duì)可以得到兩個(gè)以其余樣本為元素,但是排列順序不一定相同的兩個(gè)序列,然后可以計(jì)算得到兩個(gè)序列之間的相似度,最后將這個(gè)相似度定義為該樣本對(duì)之間的Kendall Tau距離;
(2)利用歐幾里得距離和Kendall Tau距離分別計(jì)算對(duì)應(yīng)的相似性矩陣
計(jì)算對(duì)應(yīng)的相似性矩陣時(shí),本發(fā)明提供的方法中使用高斯核函數(shù)來(lái)計(jì)算樣本之間的相似性,但是其中的σ核函數(shù)是自適應(yīng)的;
(3)通過(guò)非線性的迭代更新方法計(jì)算融合的相似性矩陣
不同的距離度量方法可以從不同的角度挖掘數(shù)據(jù)之間的結(jié)構(gòu)信息,那么把多種方法融合應(yīng)該可以實(shí)現(xiàn)從多個(gè)角度反映數(shù)據(jù)之間的綜合性結(jié)構(gòu)信息,更有利于后續(xù)的數(shù)據(jù)分析。距離度量方法的融合可以從多個(gè)角度反映數(shù)據(jù)結(jié)構(gòu)信息,相比較線性融合方法對(duì)權(quán)重系數(shù)的敏感性,非線性融合不需要設(shè)置不同度量方法的權(quán)重,可以通過(guò)迭代更新的方法逐步加強(qiáng)數(shù)據(jù)之間的強(qiáng)關(guān)聯(lián)性,弱化弱關(guān)聯(lián)性;
(4)將相似性矩陣作為輸入,進(jìn)行譜聚類分析
構(gòu)建的相似性矩陣作為輸入,進(jìn)行譜聚類分析。
本發(fā)明提供的方法能夠更加全面地反映樣本之間的結(jié)構(gòu)性信息,而且不容易受噪聲數(shù)據(jù)的影響,并提高譜聚類算法的聚類精度。
四、附圖說(shuō)明
附圖1基于融合Kendall Tau距離的譜聚類方法流程圖
五、具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明的技術(shù)內(nèi)容作進(jìn)一步說(shuō)明,本具體實(shí)施方式中實(shí)驗(yàn)數(shù)據(jù)均來(lái)自UCI標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中的真實(shí)數(shù)據(jù)集。
附圖1展示了本發(fā)明提到的基于融合Kendall Tau距離的譜聚類方法的具體流程圖,包括如下步驟:
第一步,計(jì)算樣本之間的歐幾里得距離和Kendall Tau距離。
給定樣本X={x1,x2,..,xn}∈RD,那么樣本xi和xj之間的歐幾里得距離為:
公式(2)中xim表示第i個(gè)樣本的第m個(gè)屬性。距離矩陣E是一個(gè)對(duì)稱矩陣。將矩陣的第i列中的除了Ei,i和Ej,i之外到的元素進(jìn)行排序,可以得到一個(gè)序列:Listi=(List1i,List2i,...,Listmi,...,Listni)m≠i;m≠j,其中Listmi表示樣本xi和xm之間的距離在與其余樣本相比的情況下的排列次序。同樣的方法,我們也可以得到Listj。然后我們計(jì)算序列Listi和Listj之間的Kendall Tau距離,并將其定義為樣本xi和xj之間的Kendall Tau距離:
這樣我們得到了一個(gè)對(duì)稱的Kendall Tau距離矩陣KT。
第二步,利用歐幾里得距離和Kendall Tau距離分別計(jì)算對(duì)應(yīng)的相似性矩陣。
樣本之間的相似性與它們之間的距離是成負(fù)相關(guān)的。本發(fā)明提供的方法中使用高斯核函數(shù)來(lái)計(jì)算樣本之間的相似性。樣本xi和xj之間,基于歐幾里得距離的相似性可以定義為:
公式(4)中的εij是一個(gè)自適應(yīng)的高斯函數(shù),具體定義為:
其中,mean(d(xi,Ni))表示樣本xi和它的近鄰之間的距離的平均值。
基于Kendall Tau距離的相似性可以定義為:
第三步,通過(guò)非線性的迭代更新方法計(jì)算融合的相似性矩陣。
基于歐幾里得距離的相似性矩陣可以反映樣本對(duì)之間的幾何信息,基于Kendall Tau距離的相似性矩陣可以反映樣本對(duì)之間的拓?fù)湫畔?。為了避免僅僅使用一種度量方法得到的相似性的不完整性,本發(fā)明提出的方法使用一種基于消息傳遞原理的非線性迭代更新融合方法。為了計(jì)算融合的加強(qiáng)型相 似性矩陣,首先需要為每種度量方法定義兩個(gè)相似性矩陣,一個(gè)是歸一化的全局性相似性矩陣,一個(gè)是稀疏化的局部性相似性矩陣。
基于歐幾里得距離的全局性相似性矩陣定義為:
假定KNN(xi)表示樣本xi的近鄰。本發(fā)明方法中使用K近鄰方法計(jì)算稀疏的近鄰矩陣。那么基于歐幾里得距離的局部性相似性矩陣定義為:
同樣的方法,可以將基于Kendall Tau距離的全局性相似性矩陣定義為:
基于Kendall Tau距離的局部性相似性矩陣定義為:
接著,使得作為初始狀態(tài),相似性融合的關(guān)鍵性步驟如下:
這樣,是經(jīng)過(guò)h步迭代之后的基于歐幾里得距離的相似性矩陣,是經(jīng)過(guò)h步迭代之后的基于Kendall Tau距離的相似性矩陣。經(jīng)過(guò)h步迭代之后,可以得到一個(gè)最終的相似性矩陣W定義為:
因?yàn)榫植啃韵嗨菩跃仃囀褂昧薑NN局部性信息,可以減少噪聲的影響。這樣融合之后得到的相似性矩陣對(duì)噪聲是魯棒的。
第四步,將相似性矩陣作為輸入,進(jìn)行譜聚類分析。
得到融合之后的加強(qiáng)型相似性矩陣W,可以將其作為輸入,應(yīng)用到譜聚類分析中。接下來(lái)的步驟如下:
(1)計(jì)算拉普拉斯矩陣L=D-1/2WD-1/2,其中D是一個(gè)對(duì)角矩陣,Dii=∑jwij;
(2)對(duì)拉普拉斯矩陣進(jìn)行特征值分解,找到其前k個(gè)最大的特征值對(duì)應(yīng)的特征向量,然后構(gòu)造一個(gè)n×k的矩陣U;
(3)對(duì)矩陣U的行向量進(jìn)行再歸一化,得到矩陣V;
(4)把矩陣V的每一行看作一個(gè)樣本,然后將這些樣本用K-means算法進(jìn)行聚類;
(5)最后,把最初的樣本xi劃分為第j個(gè)聚類當(dāng)且僅當(dāng)矩陣V的第i行被劃分為第j個(gè)聚類。
為了驗(yàn)證本發(fā)明提出方法的有效性,結(jié)合本發(fā)明的實(shí)施方案進(jìn)行實(shí)驗(yàn)分析,將所提方法與三種方法,也就是K-means、傳統(tǒng)譜聚類和基于單一Kendall Tau距離的譜聚類方法進(jìn)行對(duì)比。驗(yàn)證數(shù)據(jù)集為UCI標(biāo)準(zhǔn)數(shù)據(jù)集,如表1所示。
表1 UCI數(shù)據(jù)集描述
通過(guò)對(duì)比實(shí)驗(yàn)的聚類精度結(jié)果可知,經(jīng)過(guò)融合的距離度量方法確實(shí)有效,使得聚類性能得到了提升,驗(yàn)證了本發(fā)明提出的聚類方法有效。