一、所屬技術(shù)領(lǐng)域:
本發(fā)明提供一種能保證k-眾數(shù)(即k-modes)聚類(lèi)得到最優(yōu)解的方法,解決了傳統(tǒng)k-modes聚類(lèi)算法對(duì)初始解敏感和難以獲得全局最優(yōu)解。本方法屬于數(shù)據(jù)分析與挖掘領(lǐng)域,能使從事數(shù)據(jù)處理人員取得更加優(yōu)化的聚類(lèi)效果。
二、
背景技術(shù):
:
現(xiàn)在正處于數(shù)據(jù)的時(shí)代,每天來(lái)自各方面的數(shù)據(jù)都在涌入我們的計(jì)算機(jī)、網(wǎng)絡(luò)以及各類(lèi)數(shù)據(jù)儲(chǔ)存設(shè)備。而且現(xiàn)在數(shù)據(jù)規(guī)模的急劇增加以及對(duì)數(shù)據(jù)的廣泛使用,都使我們需要一種功能強(qiáng)大和通用的工具,能夠高效得處理所面臨的的爆炸式的數(shù)據(jù)。為了應(yīng)對(duì)處理各類(lèi)數(shù)據(jù)問(wèn)題,然后把不同的數(shù)據(jù)轉(zhuǎn)化成有用的知識(shí),數(shù)據(jù)挖掘方法由此孕育而生。
聚類(lèi)分析是上面提到的數(shù)據(jù)挖掘方法中最基礎(chǔ)同時(shí)也是最重要的技術(shù)之一。聚類(lèi)技術(shù)是指數(shù)據(jù)對(duì)象的集合根據(jù)最大化類(lèi)內(nèi)相似性、最小化類(lèi)間相似性的原則組成多個(gè)類(lèi)的過(guò)程。也就是說(shuō),最終處于同一個(gè)簇中的數(shù)據(jù)對(duì)象具有較高相似性,而與其他簇中的對(duì)象很不相似。現(xiàn)目前基本的聚類(lèi)算法可劃分為如下幾類(lèi):劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法。劃分方法是一種最基本也是最實(shí)用的聚類(lèi)算法,也是后續(xù)分析的基礎(chǔ)環(huán)節(jié)。我們常用的k-modes算法是處理分類(lèi)型數(shù)據(jù)的一種經(jīng)典劃分方法。但是它是一種基于非線性整數(shù)規(guī)劃模型,這就帶來(lái)了兩個(gè)很難解決的問(wèn)題,(1)因?yàn)樾枰O(shè)置初始值,所以對(duì)于初始值選擇的不同會(huì)影響到最后的聚類(lèi)結(jié)果,使得整個(gè)聚類(lèi)算法不具有穩(wěn)定性。(2)算法過(guò)程經(jīng)常會(huì)陷入局部最優(yōu)解,難以得到全局最優(yōu)解。
本發(fā)明基于整數(shù)規(guī)劃(即ip)模型將k-modes聚類(lèi)問(wèn)題轉(zhuǎn)化成線性規(guī)劃模型,并省去初始解設(shè)置的過(guò)程,而且因?yàn)檎麄€(gè)過(guò)程是線性的,所以也能夠得出全局最優(yōu)解。從而完美解決了之前提到的兩個(gè)問(wèn)題。該方法通過(guò)一種描述并求解大規(guī)模復(fù)雜數(shù)學(xué)問(wèn)題的建模語(yǔ)言(amathematicalprogramminglanguage即ampl),然后調(diào)用混合整數(shù)規(guī)劃(即mip)求解器(如cplex、lingo)來(lái)完成中等規(guī)模的聚類(lèi)計(jì)算。本發(fā)明是一種改進(jìn)的全局最優(yōu)化聚類(lèi)方法,本方法首先提出了一種新的分類(lèi)型數(shù)據(jù)集表達(dá)形式,然后利用新的表達(dá)形式建立了k-modes的整數(shù)線性規(guī)劃模型。
三、
技術(shù)實(shí)現(xiàn)要素:
:
3.1發(fā)明目的
本發(fā)明的目的在于解決傳統(tǒng)k-modes方法一直所面臨的缺點(diǎn),提出一種能得到全局最優(yōu)解且穩(wěn)定的聚類(lèi)方法,為從事數(shù)據(jù)挖掘和大數(shù)據(jù)分析的相關(guān)人員提供能取得更好聚類(lèi)效果方案。
3.2技術(shù)方案
對(duì)所面對(duì)的問(wèn)題抽象如下:假設(shè)數(shù)據(jù)集x包含n個(gè)數(shù)據(jù)對(duì)象x={x1,x2,…,xn}。每個(gè)數(shù)據(jù)對(duì)象被m個(gè)屬性a1,a2…,am描述。這樣每個(gè)數(shù)據(jù)對(duì)象xi能被表達(dá)成xi={xi1,xi2,…,xim},因?yàn)閗-modes算法針對(duì)的是分類(lèi)型屬性值,所以這里每個(gè)分類(lèi)屬性aj有一個(gè)值域
下面將給出技術(shù)方案中用到的數(shù)學(xué)符號(hào),如下:
本發(fā)明一種改進(jìn)的全局最優(yōu)化k-modes聚類(lèi)方法,其步驟如下:
步驟一:數(shù)據(jù)預(yù)處理
對(duì)需要被聚類(lèi)分組的n個(gè)物體進(jìn)行編號(hào),編號(hào)值從1到n;用yij表示數(shù)據(jù)對(duì)象i的第j屬性的取值;這里的分類(lèi)型數(shù)據(jù)采用1,2,3…數(shù)字型分別進(jìn)行代替;比如屬性aj,值域?yàn)関j,具有qj個(gè)分類(lèi)型數(shù)據(jù),這時(shí)用{1,2,3…qj}分別表示各分類(lèi)型屬性值;記錄需要聚類(lèi)的數(shù)目;
步驟二:建立線性化的k-modes數(shù)學(xué)規(guī)劃模型
根據(jù)k-modes算法思想把數(shù)據(jù)對(duì)象x聚集成l(l≤n)個(gè)簇。其聚類(lèi)標(biāo)準(zhǔn)就是找出l個(gè)聚類(lèi)中心{c1,c2,…,cl},使得每個(gè)數(shù)據(jù)對(duì)象與它最近的聚類(lèi)中心的距離之和最小,并將這個(gè)組內(nèi)距離和稱(chēng)之為目標(biāo)函數(shù)。本發(fā)明建立了一個(gè)線性規(guī)劃模型完成了k-modes計(jì)算過(guò)程過(guò)程;其中所述的“建立了一個(gè)線性規(guī)劃模型”,其建立做法如下:
a)因?yàn)閗-mdoes是使每個(gè)數(shù)據(jù)對(duì)象與它最近的聚類(lèi)中心的距離之和最小,并將這個(gè)組內(nèi)距離和稱(chēng)之為目標(biāo)函數(shù)??梢砸赃@個(gè)為目標(biāo)建立線性規(guī)劃模型的目標(biāo)函數(shù),即把每個(gè)數(shù)據(jù)對(duì)象i和它簇中心k在每個(gè)屬性j之間的距離進(jìn)行加和。由此可建立目標(biāo)函數(shù),參見(jiàn)如下建立的目標(biāo)函數(shù)。
b)為保證目標(biāo)函數(shù)所建立的距離dikj滿足要求,即在屬性aj上數(shù)據(jù)項(xiàng)目i與簇中心k的距離計(jì)算上,每個(gè)對(duì)象i當(dāng)且僅當(dāng)在屬于簇中心k的類(lèi)時(shí),存在對(duì)象i與簇中心該屬性的取值不同,距離dikj=1。建立約束條件(1)。
(1)
c)規(guī)定簇中心的屬性值的取值能要求:即簇中心每個(gè)屬性只能取一個(gè)唯一確定的屬性值。建立約束條件(2)
(2)
d)規(guī)定聚類(lèi)分組的規(guī)則:根據(jù)每個(gè)數(shù)據(jù)對(duì)象i都必須且只能分配到一個(gè)類(lèi)別里,建立約束條件(3);根據(jù)聚類(lèi)結(jié)果需要被分成預(yù)先規(guī)定的l類(lèi),建立約束條件(4)
(3)
(4)
e)因?yàn)檩斎氲臄?shù)據(jù)是以yij的形式表達(dá)對(duì)象i的第j屬性的取值。但是這樣的表達(dá)方法難以建立線性化模型。所以需要轉(zhuǎn)化成一種新的形式,如決策變量xijt為一個(gè)取值0或1的參數(shù),當(dāng)數(shù)據(jù)對(duì)象i的第j屬性取第t個(gè)分類(lèi)屬性值(即yij=t)時(shí),xijt=1。由此建立約束條件(6);而且因?yàn)閷?duì)象i的第j屬性只能取一個(gè)值,所以
(5)
(6)
因此可以總結(jié)得出線性規(guī)劃模型如下所示:
目標(biāo)函數(shù):
約束條件:
(1)
(2)
(3)
(4)
(5)
(6)
以上所涉及到的符號(hào),其含意全部可從符號(hào)表中查得。
步驟三:模型求解
對(duì)上述模型進(jìn)行求解,考慮利用商業(yè)軟件進(jìn)行模型求解,如lingo,cplex等,進(jìn)行求解;由于本數(shù)學(xué)規(guī)劃模型是線性的,完全具備最優(yōu)解求解可行性;
其中,所述的“模型”,是指在步驟二所建立的目標(biāo)函數(shù)與約束條件(1)~(6)所組成的線性規(guī)劃模型;
其中,所述的“模型求解”,選擇利用ampl語(yǔ)言調(diào)用cplex求解器求解模型,其求解具體做法如下:
(1)輸入所需要聚類(lèi)的數(shù)據(jù)以及聚類(lèi)基本參數(shù),建立ampl數(shù)據(jù)文件xxx.dat;
(2)建立ampl模型文件xxx.mod,建立線性規(guī)劃模型;
(3)建立ampl批處理文件xxx.sh;
(4)使用ampl調(diào)用批處理文件xxx.sh,開(kāi)始求解;
步驟四:結(jié)果輸出
通過(guò)模型求解,會(huì)得到最優(yōu)的目標(biāo)函數(shù)值。同時(shí)也會(huì)得到相應(yīng)于該目標(biāo)函數(shù)值的決策變量值wik和ukjt;依據(jù)定義可以由決策變量ukjt和wik確定了各個(gè)數(shù)據(jù)對(duì)象的聚類(lèi)分組情況以及各類(lèi)的簇中心;
(1)對(duì)于所有i∈n觀察wik,如果wik=1,則表示對(duì)象i隸屬于k類(lèi);
(2)如果ukjt=1,則第k簇的類(lèi)中心的第j屬性取第t個(gè)分類(lèi)屬性值;
通過(guò)以上步驟,完成了k-modes算法聚類(lèi)的目的。同時(shí)因?yàn)槭蔷€性的數(shù)學(xué)模型,所以到能求得全局最優(yōu)解的效果,而且不用設(shè)置初始解,也避免的對(duì)于初始解敏感的問(wèn)題,解決了傳統(tǒng)k-modes計(jì)算常見(jiàn)的兩個(gè)問(wèn)題。
3.3本發(fā)明的優(yōu)點(diǎn)和功效
本發(fā)明在以往研究的成果上,總結(jié)k-modes一直存在的缺點(diǎn),提出了一種的k-mode算法的線性模型。該方法通過(guò)定義新的二元決策變量使得原問(wèn)題轉(zhuǎn)換為線性整數(shù)規(guī)劃問(wèn)題,解決了傳統(tǒng)k-modes算法難以得到全局最優(yōu)解和易受初始解影響的問(wèn)題。通過(guò)對(duì)uci數(shù)據(jù)庫(kù)算例進(jìn)行求解可看出,本發(fā)明提出的模型是可行且有效的。
四、附圖說(shuō)明
圖1本發(fā)明所述方法的實(shí)施流程圖。
五、具體實(shí)施方式
本節(jié)用一組已經(jīng)在uci上發(fā)布的標(biāo)桿數(shù)據(jù)集lenses來(lái)具體說(shuō)明該發(fā)明方法的具體過(guò)程。該數(shù)據(jù)集有24個(gè)數(shù)據(jù)對(duì)象,每個(gè)對(duì)象被4個(gè)屬性值描述a1,a2,a3,a4。每個(gè)屬性都為分類(lèi)型屬性,所以各個(gè)屬性分類(lèi)值得個(gè)數(shù)分別為{3,2,2,2}。預(yù)先設(shè)定將整個(gè)數(shù)據(jù)集劃分為3個(gè)簇。具體的數(shù)據(jù)值如下表所示:
表1lenses數(shù)據(jù)表
本發(fā)明一種改進(jìn)的全局最優(yōu)化k-modes聚類(lèi)方法,見(jiàn)圖1所示,其具體實(shí)施步驟如下:
步驟一:數(shù)據(jù)預(yù)處理準(zhǔn)備
因?yàn)楂@得的數(shù)據(jù)已經(jīng)是用數(shù)字表達(dá)的分類(lèi)型數(shù)據(jù),則直接對(duì)每個(gè)數(shù)據(jù)項(xiàng)目編號(hào)即可完成數(shù)據(jù)預(yù)處理。記該數(shù)據(jù)集需要聚成3類(lèi)。見(jiàn)表2
表2
步驟二:建立線性化的k-modes數(shù)學(xué)規(guī)劃模型
目標(biāo)函數(shù):
約束條件:
(1)
(2)
(3)
(4)
(5)
(6)
步驟三:模型求解
根據(jù)表2的數(shù)據(jù)以及所規(guī)定的3類(lèi)的聚類(lèi)數(shù)目,編寫(xiě)ampl數(shù)據(jù)文件,并命名為lenses.dat。
根據(jù)步驟二建立的數(shù)學(xué)規(guī)劃模型,編寫(xiě)ampl模型文件,并命名為lenses.mod。
由于本數(shù)學(xué)模型是線性的,完全具備最優(yōu)解求解可行性。建立批處理文件lenses.sh。
最后利用ampl調(diào)用批處理文件lenses.sh開(kāi)始進(jìn)行求解。
步驟四:結(jié)果輸出
通過(guò)求解計(jì)算會(huì)得到如下的計(jì)算結(jié)果
觀察wik,如果wik=1,則表示對(duì)象i隸屬于k類(lèi)。通過(guò)決策變量劃分出各個(gè)數(shù)據(jù)對(duì)象的聚類(lèi)分組,{1,5,6,7,8,13,15,21,22}{2,4,9,10,12,14,16,18}{3,11,17,19,20,23,24};求得最優(yōu)的目標(biāo)函數(shù)值為27,即最小組內(nèi)距離。
我們將同樣的數(shù)據(jù)集,代入傳統(tǒng)k-modes方法的模型中對(duì)其進(jìn)行聚類(lèi)求解,可得出最小組內(nèi)距離為32.3,大于本方法得到的最小組內(nèi)距離。故本方法,即基于線性整數(shù)規(guī)劃的k-modes聚類(lèi)優(yōu)化方法,較于傳統(tǒng)的k-modes聚類(lèi)方法能得到更佳的聚類(lèi)結(jié)果。