两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法

文檔序號(hào):6568274閱讀:1357來(lái)源:國(guó)知局
專利名稱:一種用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法。
背景技術(shù)
聚類是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中一種常見(jiàn)的多元統(tǒng)計(jì)分析方法,它討論的對(duì)象是大量的樣品,要求能按各自的特性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。目前,作為一種有效地?cái)?shù)據(jù)分析手段,聚類方法被廣泛應(yīng)用于各大領(lǐng)域在商業(yè)上,聚類分析被用來(lái)發(fā)現(xiàn)不同的客戶群,并且通過(guò)購(gòu)買模式刻畫不同的客戶群的特征;在生物上,聚類分析被用來(lái)動(dòng)植物分類和基因進(jìn)行分類,獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí);在地理上,聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫(kù)上趨于的相似性;在保險(xiǎn)行業(yè)上,聚類分析通過(guò)一個(gè)高的平均消費(fèi)來(lái)鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類型, 價(jià)值,地理位置來(lái)鑒定一個(gè)城市的房產(chǎn)分組;在互聯(lián)網(wǎng)應(yīng)用中,聚類分析被用來(lái)對(duì)網(wǎng)絡(luò)中的文檔進(jìn)行歸類,對(duì)虛擬社區(qū)中的用戶進(jìn)行分組。常見(jiàn)的聚類分析方法主要包括如下幾種(1)分裂法,又稱劃分方法,首先創(chuàng)建K個(gè)劃分,K為要?jiǎng)?chuàng)建的劃分的個(gè)數(shù);然后利用一個(gè)循環(huán)定位的技術(shù)通過(guò)將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來(lái)改善劃分質(zhì)量。典型的劃分方法有κ均值聚類算法(Kmeans)、K中心聚類算法(Kmedoids)和聚類大應(yīng)用程序算法 (CLARA, Clustering LARge Application)等。(2)層次法,通過(guò)創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下 (分解)和自下而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的層次方法有基于平衡迭代降低的層次聚類算法(BIRCH, Balanced Iterative Reducing andClustering using Hierarchies)、基于表達(dá)的聚類算法(CURE,Clustering UsingREprisentatives)和基于動(dòng)態(tài)模型的層次聚類算法(CHEMAL0EN)等。(3)基于密度的方法,根據(jù)密度完成對(duì)象的聚類。它根據(jù)對(duì)象周圍的密度不斷增長(zhǎng)聚類。典型的基于密度的方法有基于密度的聚類算法(DBSCAN,Densit-based Spatial Clustering of Application with Noise)和基于對(duì)象排序識(shí)別聚類結(jié)構(gòu)的聚類算法 (OPTICS, Ordering Points To Identify the Clustering Structure)。(4)基于網(wǎng)格的方法,首先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu),然后利用網(wǎng)格結(jié)構(gòu)完成聚類。(5)基于模型的方法,它假設(shè)每個(gè)聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。這些傳統(tǒng)的聚類方法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問(wèn)題,但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多高維數(shù)據(jù)時(shí)經(jīng)常失效。因?yàn)閭鹘y(tǒng)聚類方法對(duì)高維數(shù)據(jù)集中進(jìn)行聚類時(shí),主要遇到兩個(gè)問(wèn)題(1)高維數(shù)據(jù)集中存在大量無(wú)關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零;( 高維帶來(lái)的維度災(zāi)難使得某些聚類算法的實(shí)用性幾乎為零。針對(duì)以上兩個(gè)問(wèn)題,也就是為了解決維數(shù)災(zāi)難和消除數(shù)據(jù)中對(duì)于聚類來(lái)說(shuō)不必要的冗余信息,在進(jìn)行聚類之前,先進(jìn)行數(shù)據(jù)降維是非常必要的。目前主要的降維方法有(1)主成分分析(Principal Component Analysis, PCA)經(jīng)典的無(wú)監(jiān)督線性降維方法。其是一種掌握事物主要特征的方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質(zhì),簡(jiǎn)化復(fù)雜的問(wèn)題。(2)線性判別分析(Linear Discriminant Analysis, LDA)經(jīng)典的有監(jiān)督降維方法。這種方法能夠在低維子空間中保持類的相關(guān)結(jié)構(gòu),適用于以分類和識(shí)別為目的的降維, 但重構(gòu)效果不如PCA方法。(3)非負(fù)矩陣分解(Nonnegative Matrix Factorization, NMF)非負(fù)矩陣分解法通過(guò)將數(shù)據(jù)矩陣分解為基矩陣V和系數(shù)矩陣H來(lái)達(dá)到降維的目的,在矩陣分解過(guò)程中非負(fù)矩陣分解保持了基矩陣和系數(shù)矩陣的非負(fù)性。PCA是傳統(tǒng)而經(jīng)典的無(wú)監(jiān)督降維方法,目前已經(jīng)廣泛應(yīng)用于各種應(yīng)用,該方法可以有效地找出數(shù)據(jù)的主要特征,但是不能有效地提取出數(shù)據(jù)的類別特征;LDA作為一種有監(jiān)督的降維方法,盡管效果不錯(cuò),但該方法需要大量的含有標(biāo)簽信息的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),故其只適合于作為分類的降維手段,并不適合于作為聚類分析的降維手段;NMF作為一種基本的降維框架,其降維得到的數(shù)據(jù)具有良好的可解釋性而成為目前的熱點(diǎn),但其降維后進(jìn)行聚類分析,效果并不理想,聚類分析時(shí)的判別能力仍有提高的空間。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)所存在的上述技術(shù)缺陷,本發(fā)明提供了一種用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法,能夠改善聚類分析的效果,提高聚類分析的判別能力。一種用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法,包括如下步驟(1)獲取樣本集合以及樣本集合中ρ個(gè)樣本的類別信息;構(gòu)建樣本集合的樣本特征矩陣;所述的樣本特征矩陣為mXn維矩陣,η為樣本個(gè)數(shù),m為樣本的特征個(gè)數(shù),樣本特征矩陣中的元素值為樣本各特征的特征值。(2)根據(jù)ρ個(gè)樣本的類別信息,構(gòu)建約束矩陣A = (g ?)其中A為nX (n-p+k)維的約束矩陣;C為ρ個(gè)樣本的ρXk維的類別響應(yīng)矩陣,k 為聚類個(gè)數(shù);I為(n-p) X (n-p)維的單位矩陣。(3)根據(jù)所述的約束矩陣和樣本特征矩陣,構(gòu)建以下迭代方程組并進(jìn)行迭代,當(dāng)?shù)諗炕蜻_(dá)到最大迭代次數(shù),輸出對(duì)應(yīng)的第二過(guò)渡矩陣;
(KAZH)aj) w\w = Wjyj aj)= [ATAZt-KWt-^TKWt-1]^)CN 102411610 A
說(shuō)明書
3/5其中#為t次迭代后的第一過(guò)渡矩陣,Zt為t次迭代后的第二過(guò)渡矩陣,1°和Z° 分別為隨機(jī)初始化的nXr維的第一過(guò)渡矩陣和(n-p+k) Xr維的第二過(guò)渡矩陣,t為迭代
次數(shù),r為給定降維后樣本的特征個(gè)數(shù);W&)為t次迭代后第一過(guò)渡矩陣中第i行第j列的元素值,Zfij)為t次迭代后第二過(guò)渡矩陣中第i行第j列的元素值;K = XTX,X為樣本特征矩陣;A為約束矩陣。(4)根據(jù)所述的約束矩陣和第二過(guò)渡矩陣,計(jì)算出降維后的樣本特征矩陣。所述的步驟(3)中,迭代收斂條件如下Ot = I I X-Xfft (Zt) tAt 112 Ot-1 - Ot
權(quán)利要求
1.一種用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法,包括如下步驟(1)獲取樣本集合以及樣本集合中P個(gè)樣本的類別信息;構(gòu)建樣本集合的樣本特征矩陣;(2)根據(jù)ρ個(gè)樣本的類別信息,構(gòu)建約束矩陣 ?)其中C為P個(gè)樣本的類別響應(yīng)矩陣,I為單位矩陣;(3)根據(jù)所述的約束矩陣和樣本特征矩陣,構(gòu)建以下迭代方程組并進(jìn)行迭代,當(dāng)?shù)諗炕蜻_(dá)到最大迭代次數(shù),輸出對(duì)應(yīng)的第二過(guò)渡矩陣;
2.根據(jù)權(quán)利要求1所述的用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法,其特征在于所述的步驟(3)中,迭代收斂條件如下
3.根據(jù)權(quán)利要求2所述的用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法,其特征在于在計(jì)算所述的重構(gòu)誤差前,對(duì)第一過(guò)渡矩陣和第二過(guò)渡矩陣進(jìn)行歸一化處理;所述的歸一化處理的過(guò)程為使
4.根據(jù)權(quán)利要求1所述的用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法,其特征在于所述的步驟(4)中,根據(jù)公式H = AZ計(jì)算出降維后的樣本特征矩陣;其中H為降維后的樣本特征矩陣,A為約束矩陣,Z為第二過(guò)渡矩陣。
全文摘要
本發(fā)明公開(kāi)了一種用于高維數(shù)據(jù)聚類的半監(jiān)督降維方法,包括(1)構(gòu)建樣本特征矩陣;(2)構(gòu)建約束矩陣;(3)構(gòu)建迭代方程組,迭代輸出過(guò)渡矩陣;(4)求得降維后的樣本特征矩陣。本發(fā)明通過(guò)在樣本特征矩陣分解的過(guò)程中加入部分已知類別信息作為約束,并應(yīng)用了概念分解的理念,使分解得到的系數(shù)矩陣作為高維樣本特征矩陣的低維表示,將該低維矩陣用于聚類分析,可使得聚類分析變得簡(jiǎn)單而有效;同時(shí)本發(fā)明降維后的數(shù)據(jù)具有良好的可解釋性,且相對(duì)于現(xiàn)有技術(shù)的降維方法,能夠使得聚類分析的判別能力得到進(jìn)一步的提高。
文檔編號(hào)G06F17/30GK102411610SQ201110308490
公開(kāi)日2012年4月11日 申請(qǐng)日期2011年10月12日 優(yōu)先權(quán)日2011年10月12日
發(fā)明者劉海風(fēng), 吳朝暉, 楊政 申請(qǐng)人:浙江大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
布尔津县| 青田县| 金山区| 博湖县| 增城市| 富裕县| 侯马市| 景洪市| 黄山市| 揭阳市| 汝南县| 扶风县| 新化县| 磐安县| 黄冈市| 盐亭县| 镇沅| 诏安县| 庄河市| 兰西县| 和顺县| 思茅市| 靖宇县| 邵阳市| 新郑市| 高台县| 瑞昌市| 丰宁| 桦川县| 怀仁县| 阿拉善左旗| 芜湖市| 崇仁县| 两当县| 香河县| 津市市| 聊城市| 会泽县| 阿巴嘎旗| 海原县| 来安县|