數(shù)據(jù)挖掘及分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘及分類方法,更具體地,涉及基于聚類技術(shù)的數(shù)據(jù)挖掘及分類方法。
【背景技術(shù)】
[0002]目前,隨著計(jì)算機(jī)和網(wǎng)絡(luò)應(yīng)用的日益廣泛以及不同領(lǐng)域的業(yè)務(wù)種類的日益豐富,對(duì)特定的對(duì)象進(jìn)行有效的分類以便針對(duì)不同類別的對(duì)象實(shí)施不同的處理方案。
[0003]在現(xiàn)有的技術(shù)方案中,通常根據(jù)與目標(biāo)對(duì)象相關(guān)聯(lián)的單一屬性數(shù)據(jù)來對(duì)目標(biāo)對(duì)象進(jìn)行分類,即基于每個(gè)目標(biāo)對(duì)象的某個(gè)特定的屬性數(shù)據(jù)的值對(duì)目標(biāo)對(duì)象進(jìn)行分類。
[0004]然而,現(xiàn)有的技術(shù)方案存在如下問題:由于僅僅基于單一屬性數(shù)據(jù)對(duì)目標(biāo)對(duì)象進(jìn)行分類,故分類結(jié)果的精確度較低。
[0005]因此,存在如下需求:提供能夠根據(jù)目標(biāo)對(duì)象的多個(gè)屬性數(shù)據(jù)的值來挖掘和分類目標(biāo)對(duì)象的基于聚類技術(shù)的數(shù)據(jù)挖掘及分類方法。
【發(fā)明內(nèi)容】
[0006]為了解決上述現(xiàn)有技術(shù)方案所存在的問題,本發(fā)明提出了能夠根據(jù)目標(biāo)對(duì)象的多個(gè)屬性數(shù)據(jù)的值來挖掘和分類目標(biāo)對(duì)象的基于聚類技術(shù)的數(shù)據(jù)挖掘及分類方法。
[0007]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種數(shù)據(jù)挖掘及分類方法,所述數(shù)據(jù)挖掘及分類方法包括下列步驟:
(Al)基于預(yù)定規(guī)則從目標(biāo)數(shù)據(jù)集中收集目標(biāo)對(duì)象的至少一個(gè)屬性數(shù)據(jù)的值,并且隨之針對(duì)每個(gè)目標(biāo)對(duì)象,將與該目標(biāo)對(duì)象對(duì)應(yīng)的至少一個(gè)屬性數(shù)據(jù)的值表示為屬性向量;
(A2)針對(duì)所述屬性向量執(zhí)行基于聚類處理的分類操作,以獲得所述屬性向量的分類結(jié)果,所述分類結(jié)果指示每個(gè)屬性向量所對(duì)應(yīng)的目標(biāo)對(duì)象的分類。
[0008]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進(jìn)一步包括:(BI)規(guī)范化初始的屬性向量,以消除屬性向量中的不同屬性的取值差異所引入的數(shù)據(jù)偏移。
[0009]在上面所公開的方案中,優(yōu)選地,所述步驟(BI)進(jìn)一步包括:使用z-score規(guī)范化過程對(duì)初始的屬性向量進(jìn)行規(guī)范化,其包括:針對(duì)屬性向量中的任一屬性值A(chǔ),使得規(guī)范化后的值A(chǔ)nrat是該屬性值A(chǔ)與該屬性值的均值之差除以該屬性值的標(biāo)準(zhǔn)差而得到的商值。
[0010]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進(jìn)一步包括:(B2)針對(duì)規(guī)范化后的屬性向量進(jìn)行2-類聚類處理,其包括:(Cl)確定兩個(gè)類別的“種子”向量以將其作為聚類中心;(C2)利用所確定的聚類中心并以Kmeans聚類處理過程對(duì)所述規(guī)范化后的屬性向量進(jìn)行迭代聚類。
[0011]在上面所公開的方案中,優(yōu)選地,所述步驟(Cl)進(jìn)一步包括:將所有已知的第一類目標(biāo)對(duì)象所對(duì)應(yīng)的屬性向量在向量空間中的幾何中心作為第一聚類中心,并且將所有已知的第二類目標(biāo)對(duì)象所對(duì)應(yīng)的屬性向量在向量空間中的幾何中心作為第二聚類中心。
[0012]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進(jìn)一步包括:(B3)從被聚類到第一聚類中心的屬性向量群中挑選出其所對(duì)應(yīng)的目標(biāo)對(duì)象原本屬于第二類目標(biāo)對(duì)象的屬性向量,以構(gòu)成第一部分的潛在對(duì)應(yīng)于第一類目標(biāo)對(duì)象的屬性向量。
[0013]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進(jìn)一步包括:(B4)對(duì)被聚類到第二聚類中心的屬性向量進(jìn)行離群點(diǎn)分析,所述離群點(diǎn)分析包括:(1)將距所述第二聚類中心的距離大于預(yù)定的離群距離閾值的屬性向量確定為離群點(diǎn);(2)以如下方式篩選所確定的離群點(diǎn):將位于以第一聚類中心和第二聚類中心之間的距離為直徑并且所述第一聚類中心和第二聚類中心在其表面上的向量空間內(nèi)的離群點(diǎn)構(gòu)成第二部分的潛在對(duì)應(yīng)于第一類目標(biāo)對(duì)象的屬性向量。
[0014]在上面所公開的方案中,優(yōu)選地,所述基于聚類處理的分類操作進(jìn)一步包括:(B5)合并所述第一部分的潛在對(duì)應(yīng)于第一類目標(biāo)對(duì)象的屬性向量和所述第二部分的潛在對(duì)應(yīng)于第一類目標(biāo)對(duì)象的屬性向量以獲得分類結(jié)果。
[0015]在上面所公開的方案中,優(yōu)選地,所述數(shù)據(jù)挖掘及分類方法以分布式計(jì)算的方式被實(shí)現(xiàn)。
[0016]本發(fā)明所公開的基于聚類技術(shù)的數(shù)據(jù)挖掘及分類方法具有以下優(yōu)點(diǎn):能夠根據(jù)目標(biāo)對(duì)象的多個(gè)屬性數(shù)據(jù)的值來挖掘和分類目標(biāo)對(duì)象并且具有良好地可擴(kuò)展性,從而顯著的提高了分類準(zhǔn)確性。
【附圖說明】
[0017]結(jié)合附圖,本發(fā)明的技術(shù)特征以及優(yōu)點(diǎn)將會(huì)被本領(lǐng)域技術(shù)人員更好地理解,其中:
圖1是根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)挖掘及分類方法的流程圖。
[0018]圖2是根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)挖掘及分類方法中的離群點(diǎn)分析及篩選基本原理的示意圖。
【具體實(shí)施方式】
[0019]圖1是根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)挖掘及分類方法的流程圖。如圖1所示,本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法包括下列步驟:(Al)基于預(yù)定規(guī)則從目標(biāo)數(shù)據(jù)集(例如金融領(lǐng)域中的交易記錄集合)中收集目標(biāo)對(duì)象(例如金融卡用戶)的至少一個(gè)屬性數(shù)據(jù)(例如消費(fèi)金額、消費(fèi)次數(shù)、消費(fèi)場(chǎng)景等等)的值,并且隨之針對(duì)每個(gè)目標(biāo)對(duì)象,將與該目標(biāo)對(duì)象對(duì)應(yīng)的至少一個(gè)屬性數(shù)據(jù)的值表示為屬性向量(例如,屬性向量的每一位代表可以描述金融卡消費(fèi)行為的不同含義,如金融卡的消費(fèi)金額、消費(fèi)次數(shù)、消費(fèi)時(shí)間等等,并且屬性向量的位數(shù)可以任意定制和擴(kuò)展,即可以采用任意多的指標(biāo)來描述金融卡的消費(fèi)行為);(A2)針對(duì)所述屬性向量執(zhí)行基于聚類處理的分類操作,以獲得所述屬性向量的分類結(jié)果,所述分類結(jié)果指示每個(gè)屬性向量所對(duì)應(yīng)的目標(biāo)對(duì)象的分類。
[0020]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述屬性向量的位數(shù)能夠根據(jù)實(shí)際需求而被任意擴(kuò)展。
[0021]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述基于聚類處理的分類操作進(jìn)一步包括:(BI)規(guī)范化初始的屬性向量,以消除屬性向量中的不同屬性的取值差異所引入的數(shù)據(jù)偏移(這也可以提高后續(xù)處理步驟的迭代速率)。
[0022]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述步驟(BI)進(jìn)一步包括:使用Z-score規(guī)范化過程對(duì)初始的屬性向量進(jìn)行規(guī)范化,其包括:針對(duì)屬性向量中的任一屬性值A(chǔ),使得規(guī)范化后的值A(chǔ)nrat是該屬性值A(chǔ)與該屬性值的均值之差除以該屬性值的標(biāo)準(zhǔn)差而得到的商值(其中,所述均值和所述標(biāo)準(zhǔn)差是針對(duì)所有屬性向量中對(duì)應(yīng)該屬性值的位的值而言的)。
[0023]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述基于聚類處理的分類操作進(jìn)一步包括:(B2)針對(duì)規(guī)范化后的屬性向量進(jìn)行2-類聚類處理,其包括:(C1)確定兩個(gè)類別的“種子”向量以將其作為聚類中心;(C2)利用所確定的聚類中心并以Kmeans聚類處理過程對(duì)所述規(guī)范化后的屬性向量進(jìn)行迭代聚類。
[0024]優(yōu)選地,在本發(fā)明所公開的數(shù)據(jù)挖掘及分類方法中,所述步驟(Cl)進(jìn)一步包括:將所有已知的第一類目標(biāo)對(duì)象(例如金融領(lǐng)域中的高端持卡人,諸如白金卡持卡人)所對(duì)應(yīng)