一種改進(jìn)的全局最優(yōu)化k?modes聚類(lèi)方法與流程

文檔序號(hào)：11408280閱讀：1071來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一、所屬技術(shù)領(lǐng)域：

本發(fā)明提供一種能保證k-眾數(shù)(即k-modes)聚類(lèi)得到最優(yōu)解的方法，解決了傳統(tǒng)k-modes聚類(lèi)算法對(duì)初始解敏感和難以獲得全局最優(yōu)解。本方法屬于數(shù)據(jù)分析與挖掘領(lǐng)域，能使從事數(shù)據(jù)處理人員取得更加優(yōu)化的聚類(lèi)效果。

二、

背景技術(shù)：
：

現(xiàn)在正處于數(shù)據(jù)的時(shí)代，每天來(lái)自各方面的數(shù)據(jù)都在涌入我們的計(jì)算機(jī)、網(wǎng)絡(luò)以及各類(lèi)數(shù)據(jù)儲(chǔ)存設(shè)備。而且現(xiàn)在數(shù)據(jù)規(guī)模的急劇增加以及對(duì)數(shù)據(jù)的廣泛使用，都使我們需要一種功能強(qiáng)大和通用的工具，能夠高效得處理所面臨的的爆炸式的數(shù)據(jù)。為了應(yīng)對(duì)處理各類(lèi)數(shù)據(jù)問(wèn)題，然后把不同的數(shù)據(jù)轉(zhuǎn)化成有用的知識(shí)，數(shù)據(jù)挖掘方法由此孕育而生。

聚類(lèi)分析是上面提到的數(shù)據(jù)挖掘方法中最基礎(chǔ)同時(shí)也是最重要的技術(shù)之一。聚類(lèi)技術(shù)是指數(shù)據(jù)對(duì)象的集合根據(jù)最大化類(lèi)內(nèi)相似性、最小化類(lèi)間相似性的原則組成多個(gè)類(lèi)的過(guò)程。也就是說(shuō)，最終處于同一個(gè)簇中的數(shù)據(jù)對(duì)象具有較高相似性，而與其他簇中的對(duì)象很不相似。現(xiàn)目前基本的聚類(lèi)算法可劃分為如下幾類(lèi)：劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法。劃分方法是一種最基本也是最實(shí)用的聚類(lèi)算法，也是后續(xù)分析的基礎(chǔ)環(huán)節(jié)。我們常用的k-modes算法是處理分類(lèi)型數(shù)據(jù)的一種經(jīng)典劃分方法。但是它是一種基于非線性整數(shù)規(guī)劃模型，這就帶來(lái)了兩個(gè)很難解決的問(wèn)題，(1)因?yàn)樾枰O(shè)置初始值，所以對(duì)于初始值選擇的不同會(huì)影響到最后的聚類(lèi)結(jié)果，使得整個(gè)聚類(lèi)算法不具有穩(wěn)定性。(2)算法過(guò)程經(jīng)常會(huì)陷入局部最優(yōu)解，難以得到全局最優(yōu)解。

本發(fā)明基于整數(shù)規(guī)劃(即ip)模型將k-modes聚類(lèi)問(wèn)題轉(zhuǎn)化成線性規(guī)劃模型，并省去初始解設(shè)置的過(guò)程，而且因?yàn)檎麄€(gè)過(guò)程是線性的，所以也能夠得出全局最優(yōu)解。從而完美解決了之前提到的兩個(gè)問(wèn)題。該方法通過(guò)一種描述并求解大規(guī)模復(fù)雜數(shù)學(xué)問(wèn)題的建模語(yǔ)言(amathematicalprogramminglanguage即ampl)，然后調(diào)用混合整數(shù)規(guī)劃(即mip)求解器(如cplex、lingo)來(lái)完成中等規(guī)模的聚類(lèi)計(jì)算。本發(fā)明是一種改進(jìn)的全局最優(yōu)化聚類(lèi)方法，本方法首先提出了一種新的分類(lèi)型數(shù)據(jù)集表達(dá)形式，然后利用新的表達(dá)形式建立了k-modes的整數(shù)線性規(guī)劃模型。

三、

技術(shù)實(shí)現(xiàn)要素：
：

3.1發(fā)明目的

本發(fā)明的目的在于解決傳統(tǒng)k-modes方法一直所面臨的缺點(diǎn)，提出一種能得到全局最優(yōu)解且穩(wěn)定的聚類(lèi)方法，為從事數(shù)據(jù)挖掘和大數(shù)據(jù)分析的相關(guān)人員提供能取得更好聚類(lèi)效果方案。

3.2技術(shù)方案

對(duì)所面對(duì)的問(wèn)題抽象如下：假設(shè)數(shù)據(jù)集x包含n個(gè)數(shù)據(jù)對(duì)象x＝{x1,x2,…,xn}。每個(gè)數(shù)據(jù)對(duì)象被m個(gè)屬性a1,a2…,am描述。這樣每個(gè)數(shù)據(jù)對(duì)象xi能被表達(dá)成xi＝{xi1,xi2,…,xim}，因?yàn)閗-modes算法針對(duì)的是分類(lèi)型屬性值，所以這里每個(gè)分類(lèi)屬性aj有一個(gè)值域pj是分類(lèi)值的數(shù)目。這里假定簇個(gè)數(shù)k已經(jīng)預(yù)先給定，k-modes算法就是把提到的數(shù)據(jù)對(duì)象x聚集成l(l≤n)個(gè)簇。k-modes算法思想就是先找出l個(gè)聚類(lèi)中心{c1,c2,…,cl},使得每個(gè)數(shù)據(jù)對(duì)象與它最近的聚類(lèi)中心的距離dxicj之和最小,并將這個(gè)組內(nèi)距離和稱(chēng)之為目標(biāo)函數(shù)，這里的dxicj也可稱(chēng)為兩個(gè)對(duì)象之間的不相似度度量。然后根據(jù)分組情況重新定義每組的聚類(lèi)中心。之后重復(fù)前一步的分組步驟，最后反復(fù)這兩個(gè)步驟直到收斂。聚類(lèi)的目標(biāo)即為使各組組內(nèi)距離之和最小。

下面將給出技術(shù)方案中用到的數(shù)學(xué)符號(hào)，如下：

本發(fā)明一種改進(jìn)的全局最優(yōu)化k-modes聚類(lèi)方法，其步驟如下：

步驟一：數(shù)據(jù)預(yù)處理

對(duì)需要被聚類(lèi)分組的n個(gè)物體進(jìn)行編號(hào)，編號(hào)值從1到n；用yij表示數(shù)據(jù)對(duì)象i的第j屬性的取值；這里的分類(lèi)型數(shù)據(jù)采用1,2,3…數(shù)字型分別進(jìn)行代替；比如屬性aj，值域?yàn)関j，具有qj個(gè)分類(lèi)型數(shù)據(jù)，這時(shí)用{1,2,3…qj}分別表示各分類(lèi)型屬性值；記錄需要聚類(lèi)的數(shù)目；

步驟二：建立線性化的k-modes數(shù)學(xué)規(guī)劃模型

根據(jù)k-modes算法思想把數(shù)據(jù)對(duì)象x聚集成l(l≤n)個(gè)簇。其聚類(lèi)標(biāo)準(zhǔn)就是找出l個(gè)聚類(lèi)中心{c1,c2,…,cl},使得每個(gè)數(shù)據(jù)對(duì)象與它最近的聚類(lèi)中心的距離之和最小,并將這個(gè)組內(nèi)距離和稱(chēng)之為目標(biāo)函數(shù)。本發(fā)明建立了一個(gè)線性規(guī)劃模型完成了k-modes計(jì)算過(guò)程過(guò)程；其中所述的“建立了一個(gè)線性規(guī)劃模型”，其建立做法如下：

a)因?yàn)閗-mdoes是使每個(gè)數(shù)據(jù)對(duì)象與它最近的聚類(lèi)中心的距離之和最小,并將這個(gè)組內(nèi)距離和稱(chēng)之為目標(biāo)函數(shù)?？梢砸赃@個(gè)為目標(biāo)建立線性規(guī)劃模型的目標(biāo)函數(shù)，即把每個(gè)數(shù)據(jù)對(duì)象i和它簇中心k在每個(gè)屬性j之間的距離進(jìn)行加和。由此可建立目標(biāo)函數(shù)，參見(jiàn)如下建立的目標(biāo)函數(shù)。

b)為保證目標(biāo)函數(shù)所建立的距離dikj滿足要求，即在屬性aj上數(shù)據(jù)項(xiàng)目i與簇中心k的距離計(jì)算上，每個(gè)對(duì)象i當(dāng)且僅當(dāng)在屬于簇中心k的類(lèi)時(shí)，存在對(duì)象i與簇中心該屬性的取值不同，距離dikj＝1。建立約束條件(1)。

(1)

c)規(guī)定簇中心的屬性值的取值能要求：即簇中心每個(gè)屬性只能取一個(gè)唯一確定的屬性值。建立約束條件(2)

(2)

d)規(guī)定聚類(lèi)分組的規(guī)則:根據(jù)每個(gè)數(shù)據(jù)對(duì)象i都必須且只能分配到一個(gè)類(lèi)別里，建立約束條件(3)；根據(jù)聚類(lèi)結(jié)果需要被分成預(yù)先規(guī)定的l類(lèi)，建立約束條件(4)

(3)

(4)

e)因?yàn)檩斎氲臄?shù)據(jù)是以yij的形式表達(dá)對(duì)象i的第j屬性的取值。但是這樣的表達(dá)方法難以建立線性化模型。所以需要轉(zhuǎn)化成一種新的形式，如決策變量xijt為一個(gè)取值0或1的參數(shù)，當(dāng)數(shù)據(jù)對(duì)象i的第j屬性取第t個(gè)分類(lèi)屬性值(即yij＝t)時(shí)，xijt＝1。由此建立約束條件(6)；而且因?yàn)閷?duì)象i的第j屬性只能取一個(gè)值，所以由此建立約束條件(5)；

(5)

(6)

因此可以總結(jié)得出線性規(guī)劃模型如下所示：

目標(biāo)函數(shù)：

約束條件:

(1)

(2)

(3)

(4)

(5)

(6)

以上所涉及到的符號(hào)，其含意全部可從符號(hào)表中查得。

步驟三：模型求解

對(duì)上述模型進(jìn)行求解，考慮利用商業(yè)軟件進(jìn)行模型求解，如lingo，cplex等，進(jìn)行求解；由于本數(shù)學(xué)規(guī)劃模型是線性的，完全具備最優(yōu)解求解可行性；

其中，所述的“模型”，是指在步驟二所建立的目標(biāo)函數(shù)與約束條件(1)～(6)所組成的線性規(guī)劃模型；

其中，所述的“模型求解”，選擇利用ampl語(yǔ)言調(diào)用cplex求解器求解模型，其求解具體做法如下：

(1)輸入所需要聚類(lèi)的數(shù)據(jù)以及聚類(lèi)基本參數(shù)，建立ampl數(shù)據(jù)文件xxx.dat；

(2)建立ampl模型文件xxx.mod，建立線性規(guī)劃模型；

(3)建立ampl批處理文件xxx.sh；

(4)使用ampl調(diào)用批處理文件xxx.sh，開(kāi)始求解；

步驟四：結(jié)果輸出

通過(guò)模型求解，會(huì)得到最優(yōu)的目標(biāo)函數(shù)值。同時(shí)也會(huì)得到相應(yīng)于該目標(biāo)函數(shù)值的決策變量值wik和ukjt；依據(jù)定義可以由決策變量ukjt和wik確定了各個(gè)數(shù)據(jù)對(duì)象的聚類(lèi)分組情況以及各類(lèi)的簇中心；

(1)對(duì)于所有i∈n觀察wik，如果wik＝1，則表示對(duì)象i隸屬于k類(lèi)；

(2)如果ukjt＝1，則第k簇的類(lèi)中心的第j屬性取第t個(gè)分類(lèi)屬性值；

通過(guò)以上步驟，完成了k-modes算法聚類(lèi)的目的。同時(shí)因?yàn)槭蔷€性的數(shù)學(xué)模型，所以到能求得全局最優(yōu)解的效果，而且不用設(shè)置初始解，也避免的對(duì)于初始解敏感的問(wèn)題，解決了傳統(tǒng)k-modes計(jì)算常見(jiàn)的兩個(gè)問(wèn)題。

3.3本發(fā)明的優(yōu)點(diǎn)和功效

本發(fā)明在以往研究的成果上，總結(jié)k-modes一直存在的缺點(diǎn)，提出了一種的k-mode算法的線性模型。該方法通過(guò)定義新的二元決策變量使得原問(wèn)題轉(zhuǎn)換為線性整數(shù)規(guī)劃問(wèn)題，解決了傳統(tǒng)k-modes算法難以得到全局最優(yōu)解和易受初始解影響的問(wèn)題。通過(guò)對(duì)uci數(shù)據(jù)庫(kù)算例進(jìn)行求解可看出，本發(fā)明提出的模型是可行且有效的。

四、附圖說(shuō)明

圖1本發(fā)明所述方法的實(shí)施流程圖。

五、具體實(shí)施方式

本節(jié)用一組已經(jīng)在uci上發(fā)布的標(biāo)桿數(shù)據(jù)集lenses來(lái)具體說(shuō)明該發(fā)明方法的具體過(guò)程。該數(shù)據(jù)集有24個(gè)數(shù)據(jù)對(duì)象，每個(gè)對(duì)象被4個(gè)屬性值描述a1，a2，a3，a4。每個(gè)屬性都為分類(lèi)型屬性，所以各個(gè)屬性分類(lèi)值得個(gè)數(shù)分別為{3,2,2,2}。預(yù)先設(shè)定將整個(gè)數(shù)據(jù)集劃分為3個(gè)簇。具體的數(shù)據(jù)值如下表所示：

表1lenses數(shù)據(jù)表

本發(fā)明一種改進(jìn)的全局最優(yōu)化k-modes聚類(lèi)方法，見(jiàn)圖1所示，其具體實(shí)施步驟如下：

步驟一：數(shù)據(jù)預(yù)處理準(zhǔn)備

因?yàn)楂@得的數(shù)據(jù)已經(jīng)是用數(shù)字表達(dá)的分類(lèi)型數(shù)據(jù)，則直接對(duì)每個(gè)數(shù)據(jù)項(xiàng)目編號(hào)即可完成數(shù)據(jù)預(yù)處理。記該數(shù)據(jù)集需要聚成3類(lèi)。見(jiàn)表2

表2

步驟二：建立線性化的k-modes數(shù)學(xué)規(guī)劃模型

目標(biāo)函數(shù):

約束條件：

(1)

(2)

(3)

(4)

(5)

(6)

步驟三：模型求解

根據(jù)表2的數(shù)據(jù)以及所規(guī)定的3類(lèi)的聚類(lèi)數(shù)目，編寫(xiě)ampl數(shù)據(jù)文件，并命名為lenses.dat。

根據(jù)步驟二建立的數(shù)學(xué)規(guī)劃模型，編寫(xiě)ampl模型文件，并命名為lenses.mod。

由于本數(shù)學(xué)模型是線性的，完全具備最優(yōu)解求解可行性。建立批處理文件lenses.sh。

最后利用ampl調(diào)用批處理文件lenses.sh開(kāi)始進(jìn)行求解。

步驟四：結(jié)果輸出

通過(guò)求解計(jì)算會(huì)得到如下的計(jì)算結(jié)果

觀察wik，如果wik＝1，則表示對(duì)象i隸屬于k類(lèi)。通過(guò)決策變量劃分出各個(gè)數(shù)據(jù)對(duì)象的聚類(lèi)分組，{1,5,6,7,8,13,15,21,22}{2,4,9,10,12,14,16,18}{3,11,17,19,20,23,24}；求得最優(yōu)的目標(biāo)函數(shù)值為27，即最小組內(nèi)距離。

我們將同樣的數(shù)據(jù)集，代入傳統(tǒng)k-modes方法的模型中對(duì)其進(jìn)行聚類(lèi)求解，可得出最小組內(nèi)距離為32.3，大于本方法得到的最小組內(nèi)距離。故本方法，即基于線性整數(shù)規(guī)劃的k-modes聚類(lèi)優(yōu)化方法，較于傳統(tǒng)的k-modes聚類(lèi)方法能得到更佳的聚類(lèi)結(jié)果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃昌浩;肖依永
技術(shù)所有人：北京航空航天大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種AC/DC的裝置的制造方法
上一篇：換向電路，電力轉(zhuǎn)換器，和具有電力轉(zhuǎn)換器的布置的制造方法與工藝

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

全局最優(yōu)化算法相關(guān)技術(shù)

聚類(lèi)算法改進(jìn)相關(guān)技術(shù)