一種針對(duì)大數(shù)據(jù)的分解組合聚類方法
【專利摘要】本發(fā)明公開了一種基于分解組合的大數(shù)據(jù)聚類方法,將數(shù)據(jù)集進(jìn)行橫向切分,獲得若干數(shù)據(jù)子集;再將橫向數(shù)據(jù)子集進(jìn)行縱向切分,獲得若干縱向數(shù)據(jù)子集;然后使用基礎(chǔ)聚類算法,獲得經(jīng)過橫向和縱向切分后數(shù)據(jù)子集的類別標(biāo)簽。將若干個(gè)縱向數(shù)據(jù)子集的類別標(biāo)簽進(jìn)行組合聚類獲得橫向數(shù)據(jù)子集的類別標(biāo)簽;再將若干個(gè)橫向數(shù)據(jù)子集的類別標(biāo)簽再次進(jìn)行組合聚類得到完整數(shù)據(jù)集的類別標(biāo)簽。本發(fā)明將大數(shù)據(jù)聚類問題轉(zhuǎn)化為組合聚類問題,具有高效性,魯棒性和可并行化等優(yōu)點(diǎn)。適用于大數(shù)據(jù)聚類,特別適用在文檔分類、客戶分群、信息檢索等領(lǐng)域。
【專利說明】一種針對(duì)大數(shù)據(jù)的分解組合聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,涉及一種數(shù)據(jù)劃分的聚類方法,具體的說是一種針對(duì) 大數(shù)據(jù)的組合聚類方法。
【背景技術(shù)】
[0002] 大數(shù)據(jù)給人們帶來了前所未有的沖擊和挑戰(zhàn),大數(shù)據(jù)的特點(diǎn):Volume(大量)、 Velocity (高速)、Variety (多樣)、veracity (真實(shí)性)。如何挖掘大數(shù)據(jù)中蘊(yùn)含的潛在價(jià) 值信息成為工業(yè)界和學(xué)術(shù)界的熱點(diǎn)問題。大數(shù)據(jù)具有數(shù)據(jù)量大,維度高的特點(diǎn),這使得傳統(tǒng) 的數(shù)據(jù)分析方法在大數(shù)據(jù)面前束手無策,力不從心;并且大數(shù)據(jù)中存在噪聲屬性和噪聲樣 本點(diǎn)也讓挖掘大數(shù)據(jù)的內(nèi)在模式難上加難。
【發(fā)明內(nèi)容】
[0003] 鑒于大數(shù)據(jù)聚類中的海量高維難題,本發(fā)明的目的是提供一種針對(duì)大數(shù)據(jù)的分解 組合聚類方法,本發(fā)明采用"分解-組合"的方法,首先將大數(shù)據(jù)分別進(jìn)行橫向和縱向切分, 得到若干數(shù)據(jù)子集,再利用快速聚類法獲得數(shù)據(jù)子集的類別標(biāo)簽,再利用組合聚類法將若 干數(shù)據(jù)子集的類別標(biāo)簽進(jìn)行組合,得到完整的數(shù)據(jù)類別標(biāo)簽。
[0004] 本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:
[0005] -種針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:該方法首先將大數(shù)據(jù)分解,針 對(duì)每個(gè)數(shù)據(jù)子集聚類,再使用組合聚類的方法求得最后的完整類別標(biāo)簽,具體步驟如下:
[0006] 1)對(duì)大數(shù)據(jù)的樣本點(diǎn)進(jìn)行隨機(jī)抽樣,得到若干橫向數(shù)據(jù)子集;
[0007] 進(jìn)一步:將大數(shù)據(jù)D進(jìn)行橫向切分,獲得r個(gè)數(shù)據(jù)子集Dp 1彡i彡r,使得r個(gè)數(shù) 據(jù)子集的全集為D,r個(gè)數(shù)據(jù)子集的樣本總數(shù)為D的樣本數(shù)量的5倍以上。
[0008] 進(jìn)一步:利用隨機(jī)抽樣的方式,對(duì)大數(shù)據(jù)進(jìn)行橫向切分,隨機(jī)抽取10%的樣本量 獲得數(shù)據(jù)子集以,有放回的重復(fù)抽樣r = 100次,使得100個(gè)數(shù)據(jù)子集的全集為D。
[0009] 2)對(duì)得到的橫向數(shù)據(jù)子集的屬性進(jìn)行隨機(jī)抽樣,得到若干規(guī)模較小的縱向數(shù)據(jù) 子集;
[0010] 進(jìn)一步:對(duì)每個(gè)數(shù)據(jù)子集〇,進(jìn)行縱向切分,獲得c個(gè)數(shù)據(jù)子集Du,l < j < c,使得 c個(gè)數(shù)據(jù)子集的全集為Dp c個(gè)數(shù)據(jù)子集的屬性總數(shù)為Di的屬性數(shù)量的5倍以上。
[0011] 進(jìn)一步:利用隨機(jī)抽樣的方式,對(duì)每個(gè)數(shù)據(jù)子集Di進(jìn)行縱向切分,隨機(jī)抽取10% 的屬性獲得數(shù)據(jù)子集D#有放回的重復(fù)抽樣c = 100次,使得100個(gè)數(shù)據(jù)子集的全集為 Di〇
[0012] 3)對(duì)得到的縱向數(shù)據(jù)子集,進(jìn)行基礎(chǔ)聚類,得到若干基礎(chǔ)聚類結(jié)果;
[0013] 利用K均值對(duì)每個(gè)數(shù)據(jù)集子集Du進(jìn)行聚類,得到π u ;K均值算法如下,其中K均 值聚類距離函數(shù)為平方歐式距離或者余弦相似度;只需要運(yùn)行Κ均值算法一次即可:
[0014] (31)選擇Κ個(gè)點(diǎn)作為初始中心;
[0015] (32)重復(fù);
[0016] (33)將每個(gè)點(diǎn)指派到最近的中心,形成K個(gè)簇;
[0017] (34)重新計(jì)算每個(gè)簇的中心;
[0018] (35)直到中心不發(fā)生變化。
[0019] 4)對(duì)縱向數(shù)據(jù)子集的基礎(chǔ)聚類結(jié)果進(jìn)行組合聚類,得到橫向數(shù)據(jù)子集的類別標(biāo) 簽;
[0020] 進(jìn)一步:利用基于Κ均值的一致性聚類方法對(duì)c個(gè)%進(jìn)行組合聚類,得到π i作 為Di的類別標(biāo)簽。
[0021] 利用基于K均值的組合聚類方法對(duì)100個(gè)π U,1彡j彡C進(jìn)行組合聚類,得到^ 作為Di的類別標(biāo)簽;基于K均值的組合聚類方法如下:
[0022] (41)將100個(gè)基礎(chǔ)聚類結(jié)果π y轉(zhuǎn)化為〇-1矩陣,其轉(zhuǎn)換方式如下:
[0023] 用U
【權(quán)利要求】
1. 一種針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:該方法首先將大數(shù)據(jù)分解,針 對(duì)每個(gè)數(shù)據(jù)子集聚類,再使用組合聚類的方法求得最后的完整類別標(biāo)簽,具體步驟如下: 1) 對(duì)大數(shù)據(jù)的樣本點(diǎn)進(jìn)行隨機(jī)抽樣,得到若干橫向數(shù)據(jù)子集; 2) 對(duì)得到的橫向數(shù)據(jù)子集的屬性進(jìn)行隨機(jī)抽樣,得到若干規(guī)模較小的縱向數(shù)據(jù)子集; 3) 對(duì)得到的縱向數(shù)據(jù)子集,進(jìn)行基礎(chǔ)聚類,得到若干基礎(chǔ)聚類結(jié)果; 4) 對(duì)縱向數(shù)據(jù)子集的基礎(chǔ)聚類結(jié)果進(jìn)行組合聚類,得到橫向數(shù)據(jù)子集的類別標(biāo)簽; 5) 將未出現(xiàn)在橫向數(shù)據(jù)子集的數(shù)據(jù)點(diǎn)的類別標(biāo)簽標(biāo)記為0 ; 6) 對(duì)橫向數(shù)據(jù)子集的類別標(biāo)簽進(jìn)行組合聚類,得到整個(gè)數(shù)據(jù)集的類別標(biāo)簽; 7) 模式輸出,得到完整數(shù)據(jù)集的類別標(biāo)簽,完成大數(shù)據(jù)的分解組合聚類。
2. 根據(jù)權(quán)利要求1所述的針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:步驟1)中, 將大數(shù)據(jù)D進(jìn)行橫向切分,獲得r個(gè)數(shù)據(jù)子集Dy 1 < i < r,使得r個(gè)數(shù)據(jù)子集的全集為D, r個(gè)數(shù)據(jù)子集的樣本總數(shù)為D的樣本數(shù)量的5倍以上。
3. 根據(jù)權(quán)利要求2所述的針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:利用隨機(jī)抽 樣的方式,對(duì)大數(shù)據(jù)進(jìn)行橫向切分,隨機(jī)抽取10%的樣本量獲得數(shù)據(jù)子集Dp有放回的重復(fù) 抽樣r = 100次,使得100個(gè)數(shù)據(jù)子集的全集為D。
4. 根據(jù)權(quán)利要求1所述的針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:步驟2)中, 對(duì)每個(gè)數(shù)據(jù)子集Di進(jìn)行縱向切分,獲得c個(gè)數(shù)據(jù)子集Dy 1 < j < c,使得c個(gè)數(shù)據(jù)子集的 全集為Dp c個(gè)數(shù)據(jù)子集的屬性總數(shù)為Di的屬性數(shù)量的5倍以上。
5. 根據(jù)權(quán)利要求4所述的針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:利用隨機(jī)抽 樣的方式,對(duì)每個(gè)數(shù)據(jù)子集Di進(jìn)行縱向切分,隨機(jī)抽取10 %的屬性獲得數(shù)據(jù)子集Dy有放 回的重復(fù)抽樣c = 100次,使得100個(gè)數(shù)據(jù)子集的全集為Dp
6. 根據(jù)權(quán)利要求1所述的針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:步驟3)中, 利用K均值對(duì)每個(gè)數(shù)據(jù)集子集進(jìn)行聚類,得到π u ;K均值算法如下,其中K均值聚類距 離函數(shù)為平方歐式距離或者余弦相似度;只需要運(yùn)行Κ均值算法一次即可: (31) 選擇Κ個(gè)點(diǎn)作為初始中心; (32) 重復(fù); (33) 將每個(gè)點(diǎn)指派到最近的中心,形成Κ個(gè)簇; (34) 重新計(jì)算每個(gè)簇的中心; (35) 直到中心不發(fā)生變化。
7. 根據(jù)權(quán)利要求1所述的針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:步驟4)中, 利用基于Κ均值的一致性聚類方法對(duì)c個(gè)π υ進(jìn)行組合聚類,得到π i作為Di的類別標(biāo)簽。
8. 根據(jù)權(quán)利要求7所述的針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:利用基于K 均值的組合聚類方法對(duì)
進(jìn)行組合聚類,得到^作為Di的類別標(biāo)簽; 基于K均值的組合聚類方法如下: (41)將100個(gè)基礎(chǔ)聚類結(jié)果π y轉(zhuǎn)化為0-1矩陣,其轉(zhuǎn)換方式如下: 用1廣={1廣|1</<?,.}表示由上述基礎(chǔ)聚類結(jié)果得到的〇-1二元矩陣,叫為〇1樣本個(gè) 數(shù),其生成方式如下所示:
X,點(diǎn)在%中的類別為g 其他 ; 其中
因此,_
是一<
的矩陣,其中&為的31 υ簇個(gè)數(shù),并且
; (42) 選擇組合聚類效用函數(shù)U,并從中分解 如果效用函數(shù)U可以進(jìn)行如下所示的分解,則可利用基于快速一致性聚類的框架進(jìn)行 求解;
其中,Pk表示第k個(gè)類占所有數(shù)據(jù)的比例,表示π u的第k個(gè)類的中心,且上式中 滬為凸函數(shù); (43) 基于,生成快速聚類法的距離函數(shù),利用K均值聚類法的距離范式,
其中
經(jīng)驗(yàn)結(jié)果表明,基于熵的效用函數(shù)收斂速度快,并且還能夠得到較好的聚類結(jié)果,其表 達(dá)式如下:
其對(duì)應(yīng)的K均值距離函數(shù)為加和的KL散度,形式如下:
(44) 最后利用K均值聚類算法,在0-1矩陣上運(yùn)用聚類函數(shù)f進(jìn)行組合聚類,得到數(shù)據(jù) 子集Di的類別標(biāo)簽π it)
9.根據(jù)權(quán)利要求1所述的針對(duì)大數(shù)據(jù)的分解組合聚類方法,其特征在于:步驟6)中, 利用基于K均值的一致性聚類方法對(duì)1*個(gè)^進(jìn)行組合聚類,得到π作為D的類別標(biāo)簽, 方法與步驟4)相同。
【文檔編號(hào)】G06F17/30GK104063518SQ201410334542
【公開日】2014年9月24日 申請(qǐng)日期:2014年7月14日 優(yōu)先權(quán)日:2014年7月14日
【發(fā)明者】吳俊杰, 伍之昂, 曹杰 申請(qǐng)人:南京弘數(shù)信息科技有限公司