两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種可伸縮的自適應(yīng)多核分類方法

文檔序號(hào):6483697閱讀:126來源:國知局
專利名稱:一種可伸縮的自適應(yīng)多核分類方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)分類方法,特別是關(guān)于一種可伸縮的自適應(yīng)多核分類方法,屬于人工智能領(lǐng)域,具體屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。

背景技術(shù)
核方法(Kernel Methods)是目前廣為流行的數(shù)據(jù)分類方法,在很多領(lǐng)域都被廣泛的應(yīng)用。當(dāng)數(shù)據(jù)分類任務(wù)比較簡單,使用基于單個(gè)核函數(shù)的傳統(tǒng)的支持向量機(jī)(Support Vector Machine,SVM)能夠在預(yù)先選定合適的核函數(shù)的情況下,通過學(xué)習(xí)分類器參數(shù)來有效地進(jìn)行數(shù)據(jù)分類。但在數(shù)據(jù)類別繁多且特征分布復(fù)雜的數(shù)據(jù)集中,相同類別的不同實(shí)例間存在特征表現(xiàn)的多樣性,而不同類別的實(shí)例間存在特征相關(guān)性。如圖1所示,其中左框內(nèi)的六幅圖像是屬于“橋”這個(gè)類別的不同樣例。從圖1中可以看到,即使屬于同一個(gè)類別,不同實(shí)例也存在不同的視覺外觀,從而在特征屬性上有較大差異。例如,第一行的兩幅圖更傾向用“形狀”特征對(duì)橋進(jìn)行刻畫;中間一行的兩幅石橋更傾向用“紋理”特征;最下面一行的兩幅更傾向用“顏色”和“形狀”來描述。因此,同一類別的圖像存在視覺特征的多樣性,稱之為“類內(nèi)多樣性(Intra-class diversity)”。再看圖1中最右邊的兩幅圖像,右上是屬于“建筑物”這個(gè)類別的圖像,右下是屬于“城市夜景”這個(gè)類別的圖像??梢钥吹讲煌悇e的圖像也有可能在某些特征屬性上具有一定的相似性。例如石橋和建筑物在“形狀”和“紋理”上有一定的相似性;而城市夜景和橋的夜景在顏色上有一定的相似性。這種不同類的樣本在特征上的相似性稱為“類間相關(guān)性(Inter-class correlation)”。因此,在進(jìn)行圖像分類時(shí),需要考慮到類內(nèi)多樣性和類間相關(guān)性,并需從不同的側(cè)面對(duì)圖像類別進(jìn)行描述與刻畫。而當(dāng)所有的圖像都使用相同的特征集來進(jìn)行描述時(shí),一個(gè)好的分類方法應(yīng)對(duì)不同類別的圖像使用不同的特征權(quán)重。顯然,在這種情況下,使用單一的核函數(shù)方法對(duì)所有的特征屬性等權(quán)重看待,忽略了某些屬性的特殊性,因此分類性能較差。
基于多個(gè)支持向量機(jī)融合的方法通過分別訓(xùn)練多個(gè)基于不同核函數(shù)的支持向量機(jī),再對(duì)訓(xùn)練好的多個(gè)支持向量機(jī)進(jìn)行加權(quán)融合構(gòu)成最終的分類器。該方法比基于單核的支持向量機(jī)的分類性能更好。但由于需要分別學(xué)習(xí)多個(gè)支持向量機(jī)的參數(shù),且這些參數(shù)和融合時(shí)的權(quán)值不能在統(tǒng)一的框架下進(jìn)行優(yōu)化,因此不僅訓(xùn)練效率較低,而且不能獲得全局最優(yōu)的參數(shù)組合。在處理較為復(fù)雜的分類任務(wù)時(shí),分類性能較差。
基于多核的分類方法(Multiple Kernel Learning)通過學(xué)習(xí)多個(gè)核函數(shù)的最優(yōu)權(quán)值將數(shù)據(jù)映射到更可分的特征空間中,并在統(tǒng)一的框架下對(duì)分類器的參數(shù)及多核權(quán)值參數(shù)進(jìn)行學(xué)習(xí),通過凸規(guī)劃可獲得全局最優(yōu)解,從而可以獲得比基于單一核函數(shù)的支持向量機(jī)或者多個(gè)支持向量機(jī)融合的分類方法更好的分類性能。然而,由于其對(duì)所有的數(shù)據(jù)采用全局統(tǒng)一的加權(quán)策略,在面對(duì)類別繁多且數(shù)據(jù)分布復(fù)雜的任務(wù)時(shí),很難有效地訓(xùn)練一個(gè)泛化性強(qiáng)的決策函數(shù),從而導(dǎo)致仍然不能獲得較好的分類性能。
在申請?zhí)枮?0808062.3、名稱為“使用多個(gè)支持向量機(jī)從多個(gè)數(shù)據(jù)組中提升知識(shí)發(fā)現(xiàn)”中國專利申請中,提出在多個(gè)數(shù)據(jù)組中采用多個(gè)支持向量機(jī)的分類方法。該方法強(qiáng)調(diào)多個(gè)基于單個(gè)核函數(shù)的支持向量機(jī)的使用,需要首先分別在多個(gè)數(shù)據(jù)組中依次訓(xùn)練多個(gè)支持向量機(jī),再用訓(xùn)練好的多個(gè)支持向量機(jī)測試其對(duì)應(yīng)數(shù)據(jù)組的測試數(shù)據(jù),比較其多個(gè)支持向量機(jī)的測試輸出以便決定哪一個(gè)測試輸出表示一個(gè)最佳解。本發(fā)明與該方法的不同點(diǎn)在本發(fā)明中,不是對(duì)多個(gè)基于單核的支持向量機(jī)分別進(jìn)行訓(xùn)練及測試比較最優(yōu)解,而是將多個(gè)核函數(shù)引入同一個(gè)自適應(yīng)多核分類器中,只需對(duì)唯一的分類器進(jìn)行訓(xùn)練,不僅提高分類準(zhǔn)確率,同時(shí)提高訓(xùn)練效率。
從2004年開始,機(jī)器學(xué)習(xí)領(lǐng)域出現(xiàn)對(duì)多核學(xué)習(xí)的研究,并用于數(shù)據(jù)分類。此類研究通過核函數(shù)組合的方式(常用的權(quán)值約束是所有核函數(shù)權(quán)值之和為1),隱式地將數(shù)據(jù)映射到更可分的特征空間進(jìn)行分類處理。論文Multiple kernellearning,conic duality,and the SMO algorithm(F.R.Bach,G.R.G.Lanckriet,andM.I.Jordan的論文“多核學(xué)習(xí),圓錐對(duì)偶及順序最小化優(yōu)化算法”,發(fā)表于2004年7月4日的國際機(jī)器學(xué)習(xí)會(huì)議ICML)提出了一種改進(jìn)的順序最小的優(yōu)化算法提高求解多核學(xué)習(xí)問題的效率;論文Large scale multiple kernel learning(S.Sonnenburg,G.Raetsch,C.Schaefer,B.Scholkopf.的論文“大規(guī)模的多核學(xué)習(xí)”,2006年7月發(fā)表于機(jī)器學(xué)習(xí)研究雜志Journal of Machine Learning Research)采用將多核學(xué)習(xí)問題轉(zhuǎn)化為一個(gè)半無限線性規(guī)劃問題進(jìn)行求解,可適用于大規(guī)模的多核學(xué)習(xí)問題;論文More Efficiency in Multiple Kernel Learning(ARakotomamonjy,F(xiàn) Bach,S Canu,Y Grandvalet的論文“更有效的多核學(xué)習(xí)”,2007年6月20日發(fā)表于國際機(jī)器學(xué)習(xí)會(huì)議ICML)提出用即約梯度下降法對(duì)多核權(quán)值進(jìn)行快速優(yōu)化。以上研究者雖然提出多種不同的方法對(duì)多核權(quán)值進(jìn)行優(yōu)化,但仍然是對(duì)多個(gè)核函數(shù)采用全局統(tǒng)一的加權(quán)策略。本發(fā)明與這些方法的不同點(diǎn)在本發(fā)明中,采用自適應(yīng)的多核權(quán)值策略,其多核權(quán)值不僅與核函數(shù)有關(guān),而且與樣本相關(guān)。使得對(duì)特征表現(xiàn)差異較大的樣本采用不同的多核加權(quán)策略,以提升處理類別繁多且分布復(fù)雜的數(shù)據(jù)分類性能。
在專利申請?zhí)枮?00710177097.3、名稱為“一種多核支持向量機(jī)分類方法”的中國專利申請中,提出通過多個(gè)核函數(shù)來提高支持向量機(jī)處理復(fù)雜數(shù)據(jù)的能力。該方法中分類器采用唯一的一組多核權(quán)值,即多核權(quán)值與樣本完全獨(dú)立。本發(fā)明與該方法的不同點(diǎn)在本發(fā)明中,分類器不是采用完全相同的多核權(quán)值對(duì)所有數(shù)據(jù)進(jìn)行分類處理,而是采取多核權(quán)值與樣本相關(guān)的策略,自適應(yīng)的學(xué)習(xí)多組多核權(quán)值。使得分類器面對(duì)不同復(fù)雜程度的數(shù)據(jù)時(shí)均保持較高的數(shù)據(jù)分類性能。


發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種可伸縮的自適應(yīng)多核分類方法。
本發(fā)明要解決的技術(shù)問題是面對(duì)類別繁多且特征表現(xiàn)復(fù)雜的數(shù)據(jù)分類問題,如何從不同側(cè)面和不同粒度對(duì)數(shù)據(jù)類別進(jìn)行建模,以解決類間相關(guān)性和類內(nèi)多樣性帶來的數(shù)據(jù)混疊問題,并有效地提高分類準(zhǔn)確性。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種可伸縮的自適應(yīng)多核分類方法,其中自適應(yīng)是指分類器采用簇相關(guān)多核加權(quán)策略;可伸縮是指在一定情況下,本發(fā)明的多核分類方法可轉(zhuǎn)化為傳統(tǒng)的多核分類方法或基于標(biāo)本的多核分類方法。
本發(fā)明包括以下步驟 1)預(yù)處理階段利用特征對(duì)所有訓(xùn)練樣本進(jìn)行無監(jiān)督聚類,將相似性大的的樣本聚類到同一個(gè)“簇”中,并計(jì)算訓(xùn)練集中所有樣本對(duì)的多個(gè)核函數(shù)值,得到多核矩陣; 2)建模階段構(gòu)建一個(gè)簇相關(guān)的自適應(yīng)多核分類模型; 3)參數(shù)學(xué)習(xí)階段對(duì)多核分類器的參數(shù)及多組多核權(quán)值參數(shù)進(jìn)行統(tǒng)一優(yōu)化; 4)數(shù)據(jù)分類階段對(duì)待分類的樣本,首先確定其屬于哪一個(gè)簇,再利用學(xué)習(xí)好的分類器進(jìn)行數(shù)據(jù)分類。
所述預(yù)處理階段包括兩個(gè)步驟無監(jiān)督聚類及計(jì)算多個(gè)核函數(shù)矩陣。
(1)利用特征對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行無監(jiān)督聚類,將相似性大的樣本聚到同一個(gè)簇中,并記錄每個(gè)樣本對(duì)應(yīng)的簇的編號(hào)。由于類間相關(guān)性和類內(nèi)多樣性造成的數(shù)據(jù)混疊現(xiàn)象,使得相同類別的樣本由于特征表現(xiàn)的差異可能被分到不同的簇;不同類別的樣本由于特征相關(guān)性強(qiáng)也可能被分到同一個(gè)簇。簇的數(shù)目可通過實(shí)驗(yàn)進(jìn)行選擇。本發(fā)明的聚類方法可采用多種無監(jiān)督聚類方法,包含且不限于K-means(k均值聚類算法)、Mean Shift(均值漂移算法)或pLSA(概率潛在語義分析算法)。
(2)選擇不同的核函數(shù),分別計(jì)算其訓(xùn)練集中所有樣本對(duì)的核函數(shù)值,最終得到多個(gè)核函數(shù)矩陣。本發(fā)明中可采用多種核函數(shù)來作為基本核函數(shù),包含且不限于通用的核函數(shù),例如高斯核函數(shù)(Gaussian kernel)、多項(xiàng)式核函數(shù)(polynomial kernel)、Sigmoid核函數(shù)(Sigmoid kernel)等;或者領(lǐng)域知識(shí)相關(guān)的核函數(shù),例如多媒體領(lǐng)域中的空間金字塔核函數(shù)(Spatial Pyramid Kernel,SPK)、近鄰分布核函數(shù)(Proximity Distribution Kernel,PDK)等。不同的核函數(shù)還可以選擇不同的參數(shù),例如高斯核函數(shù)中不同的寬度σ。同時(shí),在計(jì)算樣本對(duì)的核函數(shù)值時(shí),可以使用樣本的所有特征,也可以使用其部分特征,例如在多媒體領(lǐng)域分別計(jì)算圖像的顏色、紋理或形狀特征對(duì)應(yīng)的核函數(shù)的值。
所述建模階段為同一個(gè)簇內(nèi)的樣本賦予相同的多核權(quán)值,而對(duì)不同的簇賦予不同的多核權(quán)值,從而構(gòu)建對(duì)簇相關(guān)的多核分類器。當(dāng)所有數(shù)據(jù)聚成唯一的一個(gè)簇時(shí),所述簇相關(guān)的自適應(yīng)多核分類模型回歸到傳統(tǒng)的多核分類模型;當(dāng)每個(gè)簇只有一個(gè)訓(xùn)練樣本時(shí),所述簇相關(guān)的自適應(yīng)多核分類模型等同于單樣本的多核分類模型。
所述參數(shù)學(xué)習(xí)階段將分類器參數(shù)及多組多核權(quán)值參數(shù)放在統(tǒng)一的框架中,通過求解一個(gè)最大最小的鞍點(diǎn)問題來進(jìn)行學(xué)習(xí),從而得到類別特定的判別函數(shù)。
所述求解最大最小的鞍點(diǎn)問題包括如下步驟 31)給定自適應(yīng)多核權(quán)值參數(shù),用已有的支持向量機(jī)求解方法學(xué)習(xí)分類器參數(shù); 32)給定分類器參數(shù),用二次規(guī)劃來學(xué)習(xí)自適應(yīng)多核權(quán)值參數(shù); 33)迭代執(zhí)行31)步驟和32)步驟,直至滿足迭代的終止條件。
所述參數(shù)學(xué)習(xí)階段的迭代的終止條件包括且不限于連續(xù)兩次迭代參數(shù)的變化閾值、迭代次數(shù)上限。
所述數(shù)據(jù)分類階段包括如下步驟 41)利用無監(jiān)督聚類判斷待分類數(shù)據(jù)所屬簇的編號(hào); 42)計(jì)算待分類數(shù)據(jù)對(duì)所有類別對(duì)應(yīng)的判別函數(shù)的響應(yīng)值,選出響應(yīng)值中的最大值所對(duì)應(yīng)的類別為該待分類數(shù)據(jù)所屬的數(shù)據(jù)類別。
本發(fā)明的優(yōu)點(diǎn)包括 (1)引入中間表達(dá)“簇”挖掘復(fù)雜數(shù)據(jù)集的類間相關(guān)性和類內(nèi)多樣性。
(2)建立了簇相關(guān)的多核分類模型,該分類模型具有自適應(yīng)及可伸縮的特性。其中自適應(yīng)體現(xiàn)在該分類器為每一個(gè)簇內(nèi)的樣本學(xué)習(xí)一組最佳的多核權(quán)值,其多核權(quán)值參數(shù)局部相關(guān)(非全局統(tǒng)一);可伸縮體現(xiàn)在隨著簇的數(shù)目的變化,本發(fā)明的多核分類模型可以轉(zhuǎn)化為傳統(tǒng)的多核分類模型和基于標(biāo)本的多核分類模型。
(3)在統(tǒng)一的學(xué)習(xí)框架下優(yōu)化分類器參數(shù)和多組多核權(quán)值參數(shù)。
本發(fā)明的有益效果利用本發(fā)明所提供的可伸縮的自適應(yīng)多核分類方法,面對(duì)類別繁多且特征表現(xiàn)復(fù)雜的數(shù)據(jù)分類問題,能較好的解決類間相關(guān)性和類內(nèi)多樣性帶來的數(shù)據(jù)混疊問題,提高了分類準(zhǔn)確率,而且分類效果更為魯棒。



圖1是本發(fā)明所提到的類內(nèi)相關(guān)性和類間相似性的示意圖; 圖2是按照本發(fā)明的一個(gè)實(shí)施方式的工作流程圖; 圖3是按照本發(fā)明的一個(gè)實(shí)施方式的可伸縮的自適應(yīng)多核分類模型圖; 圖4是按照本發(fā)明的一個(gè)實(shí)施方式的自適應(yīng)多核分類器的判別函數(shù)的參數(shù)學(xué)習(xí)流程圖; 圖5是應(yīng)用本發(fā)明所述分類方法到Caltech256數(shù)據(jù)集上的分類結(jié)果。

具體實(shí)施例方式 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)一步說明。
圖2是按照本發(fā)明的一個(gè)實(shí)施方式的工作流程圖。利用本發(fā)明解決復(fù)雜圖像分類問題,以Caltech256圖像數(shù)據(jù)集為例,該數(shù)據(jù)集包含257個(gè)類別的圖像數(shù)據(jù),其中每類圖像包含80幅以上的圖像樣本。在實(shí)施過程中,每類選擇30個(gè)樣本作為訓(xùn)練和校正,剩余樣本用于測試。在所有圖像樣本進(jìn)行顏色、紋理、形狀等特征提取后,利用本發(fā)明實(shí)現(xiàn)圖像分類的步驟如下(工作流程圖見圖2) 步驟1、預(yù)處理階段 采用PLSA(概率潛在語義分析)方法對(duì)特征提取后的圖像數(shù)據(jù)進(jìn)行啟發(fā)式的無監(jiān)督聚類,將視覺相關(guān)性較強(qiáng)的圖像聚到同一個(gè)簇中,并記錄每副圖像對(duì)應(yīng)的簇的編號(hào)。相同類別的圖像由于視覺表現(xiàn)的差異可能被分到不同的簇;不同類別的圖像由于視覺相關(guān)性強(qiáng)也可能被分到同一個(gè)簇。通過校正實(shí)驗(yàn),選擇最佳的簇的數(shù)目為600。本實(shí)施例將在后面的步驟中進(jìn)一步為每個(gè)簇學(xué)習(xí)相應(yīng)的多核權(quán)值參數(shù),并用于構(gòu)建圖像類別的分類器。
按照本發(fā)明的一個(gè)具體實(shí)施方式
,采用三種與圖像領(lǐng)域知識(shí)相關(guān)的核函數(shù)空間金字塔核函數(shù)(SPK)、近似分布核函數(shù)(PDK)、多分辨率立方圖核(multi-resolution histogram kernel)。分別計(jì)算訓(xùn)練集中所有樣本對(duì)的如上三種核函數(shù)值,構(gòu)建成多個(gè)核函數(shù)矩陣。
步驟2、建模階段 構(gòu)建可伸縮的自適應(yīng)多核分類模型。圖3是按照本發(fā)明的一個(gè)實(shí)施方式的可伸縮的自適應(yīng)多核分類模型圖。
圖3的左側(cè)是傳統(tǒng)的多核分類器模型,包括輸入數(shù)據(jù)(即待分類樣本)、多核模型(統(tǒng)一的多核組合權(quán)值)、支持向量集合(來自于全體訓(xùn)練樣本),以及判別函數(shù)fMKL(*)。其中支持向量是SVM中對(duì)分類起關(guān)鍵作用的樣本;而判別函數(shù)fMKL(*)用于計(jì)算待分類樣本屬于某個(gè)類別的響應(yīng)(Score),通過選擇響應(yīng)值最大所對(duì)應(yīng)的類別為該樣本所屬的類別。傳統(tǒng)多核分類器模型的基本分類流程如下輸入類別未知的待分類樣本,其特征被輸入到具有統(tǒng)一多核權(quán)值的多核模型中,并與來自全體訓(xùn)練樣本的支持向量進(jìn)行比對(duì),最后通過判別函數(shù)fMKL(*)來輸出該樣本所屬的類別。
圖3的右側(cè)是基于標(biāo)本的多核分類器模型,包括輸入數(shù)據(jù)(即待分類樣本)、多核模型(與標(biāo)本相關(guān)的多核組合,即多個(gè)核函數(shù)的加權(quán)組合與每個(gè)訓(xùn)練樣本相關(guān),不同的訓(xùn)練樣本有不同的多核權(quán)值)、支持向量(即每個(gè)訓(xùn)練樣本都是支持向量,故稱為標(biāo)本),以及判別函數(shù)fPS-MKL(*)。其基本分類流程如下輸入類別未知的待分類樣本,其特征被輸入到不同標(biāo)本對(duì)應(yīng)的多核模型中,并分別進(jìn)行比對(duì),最后通過判別函數(shù)fPS-MKL(*)來綜合不同標(biāo)本的比對(duì)結(jié)果后輸出該樣本所屬的類別。
圖3的中間是本發(fā)明的自適應(yīng)多核分類器模型,包括輸入數(shù)據(jù)(即待分類樣本)、多核模型(簇相關(guān)的多核組合,即同一簇內(nèi)所有圖像賦予相同的多核權(quán)值而不同簇圖像采用不同的多核權(quán)值)、支持向量集合(不同簇有不同的支持向量集合,分別來自于該簇的訓(xùn)練樣本),以及判別函數(shù)fAMKL(*)。其基本分類流程如下輸入類別未知的待分類樣本,其特征被輸入到不同簇的多核模型中,并與來自每個(gè)簇的支持向量分別進(jìn)行比對(duì),最后通過判別函數(shù)fAMKL(*)來綜合不同簇的比對(duì)結(jié)果后輸出該樣本所屬的類別。
因此,按照本發(fā)明的一個(gè)具體實(shí)施方式
,多核權(quán)值不僅與步驟1中的三種核函數(shù)形式有關(guān),同時(shí)與核函數(shù)的圖像對(duì)所屬的簇的編號(hào)有關(guān),其多核組合形式表達(dá)如下 其中K1(xi,xj)、K2(xi,xj)、K3(xi,xj)分別為步驟1中選擇的三種基本核函數(shù),

為自適應(yīng)多核權(quán)值,g(xi)為用于訓(xùn)練的圖像xi所屬的簇的編號(hào)。
步驟3、學(xué)習(xí)階段 通過參數(shù)聯(lián)合學(xué)習(xí)的方式對(duì)分類器參數(shù)αi及多組多核權(quán)值參數(shù)

進(jìn)行優(yōu)化,按照本發(fā)明的一個(gè)具體實(shí)施方式
,將此參數(shù)學(xué)習(xí)轉(zhuǎn)化為一個(gè)最大最小的鞍點(diǎn)問題,包括優(yōu)化分類器參數(shù)及多組多核權(quán)值參數(shù)、計(jì)算給定類別的判決函數(shù)。其優(yōu)化過程如下 (1)優(yōu)化分類器參數(shù)及多組多核權(quán)值參數(shù) 首先,給定自適應(yīng)多核權(quán)值參數(shù)β,求解分類器參數(shù)α 其中給定自適應(yīng)多核權(quán)值β,最小化目標(biāo)函數(shù)J求解α等價(jià)于標(biāo)準(zhǔn)的SVM對(duì)偶問題,可以用已有的SVM解決方法進(jìn)行求解。
其次,給定分類器參數(shù)α,求解自適應(yīng)多核權(quán)值參數(shù)β 為了便于求解β,目標(biāo)函數(shù)可以重寫為 其中Cg表示簇編號(hào)為g。
相應(yīng)地,給定分類器參數(shù)α,最大化目標(biāo)函數(shù)J求解β簡化為如下形式 上述最大化目標(biāo)函數(shù)求解自適應(yīng)多核權(quán)值參數(shù)β可以用二次規(guī)劃進(jìn)行求解。
按照本發(fā)明的一個(gè)具體實(shí)施方式
,設(shè)置迭代的終止條件可采用且不限于連續(xù)兩次迭代參數(shù)的變化閾值、迭代次數(shù)。在迭代滿足終止條件后,分類器參數(shù)α及自適應(yīng)多核權(quán)值β優(yōu)化完成。最終二值分類器的判別函數(shù)如下 其中

為優(yōu)化后的分類器參數(shù),

為優(yōu)化后的自適應(yīng)多核權(quán)值,b*為偏置項(xiàng)。
參數(shù)聯(lián)合學(xué)習(xí)的流程圖見圖4,參數(shù)優(yōu)化的具體過程如下 (a)初始化自適應(yīng)多核權(quán)值參數(shù) 設(shè)置g=1,...,600,m=1,2,3 (b)最小化目標(biāo)函數(shù)優(yōu)化分類器參數(shù) 利用多核組合形式用標(biāo)準(zhǔn)的SVM方法求解分類器參數(shù)α. (c)最大化目標(biāo)函數(shù)優(yōu)化自適應(yīng)多核權(quán)值參數(shù) 求解自適應(yīng)多核權(quán)值β,用二次規(guī)劃方法求解如下問題 (d)參數(shù)更新 更新分類器參數(shù)及自適應(yīng)多核權(quán)值參數(shù)。
(e)判斷其終止條件(迭代次數(shù)=20)是否滿足 若滿足,結(jié)束參數(shù)優(yōu)化步驟,進(jìn)入(2)計(jì)算給定類別的判別函數(shù) 若不滿足,用優(yōu)化后的參數(shù)更新目標(biāo)函數(shù),進(jìn)入(b)繼續(xù)優(yōu)化分類器參數(shù)。
(2)計(jì)算給定類別的判別函數(shù) (a)保存最佳的分類器參數(shù)α及多核權(quán)值參數(shù)β (b)計(jì)算判別函數(shù)的偏置b (c)對(duì)給定類別的二值分類器的判決函數(shù)如下 步驟4、數(shù)據(jù)分類階段 具體包括如下兩部分 (1)首先通過步驟1中的基于PLSA的無監(jiān)督聚類方法,判斷待分類圖像x所屬的簇的編號(hào)g(x)。
(2)計(jì)算待分類圖像x對(duì)步驟3中學(xué)習(xí)得到的給定圖像類別的判別函數(shù)f(x)的響應(yīng)。順序求得所有257個(gè)圖像類別的判別函數(shù)的響應(yīng)值,選取響應(yīng)值中的最大值所對(duì)應(yīng)的類別作為該待分類圖像所屬的圖像類別。
圖5給出了應(yīng)用本發(fā)明的多核分類方法在Caltech256數(shù)據(jù)集上的分類結(jié)果,橫軸是每個(gè)類別選取的圖像數(shù)目,縱軸是平均識(shí)別準(zhǔn)確率。當(dāng)對(duì)每個(gè)類別選取50幅圖像作為訓(xùn)練,剩下的圖像作為測試。通過本發(fā)明的自適應(yīng)多核分類方法獲得了74.4%的分類準(zhǔn)確率,比目前報(bào)道出的最好的分類準(zhǔn)確率提高了7%左右。
上述僅為本發(fā)明的較佳實(shí)施例,并不用來限定本發(fā)明的實(shí)施范圍。也就是說,任何依照本發(fā)明的權(quán)利要求范圍所做的同等變化與修改,皆為本發(fā)明的權(quán)利要求范圍所涵蓋。
權(quán)利要求
1、一種可伸縮的自適應(yīng)多核分類方法,其特征在于,該方法包括以下步驟
1)預(yù)處理階段利用樣本的特征對(duì)所有訓(xùn)練樣本進(jìn)行無監(jiān)督聚類,將相關(guān)性強(qiáng)的樣本聚到同一個(gè)簇中,并計(jì)算訓(xùn)練集中所有樣本對(duì)的多個(gè)核函數(shù)值,得到多核矩陣;
2)建模階段構(gòu)建簇相關(guān)的自適應(yīng)多核分類器模型;
3)學(xué)習(xí)階段對(duì)多核分類器的參數(shù)及多組多核權(quán)值參數(shù)進(jìn)行優(yōu)化;
4)數(shù)據(jù)分類階段利用學(xué)習(xí)好的多核分類器對(duì)待分類的樣本進(jìn)行數(shù)據(jù)分類。
2、根據(jù)權(quán)利要求1所述的可伸縮的自適應(yīng)多核分類方法,其特征在于,所述預(yù)處理階段包括對(duì)提取特征后的數(shù)據(jù)進(jìn)行無監(jiān)督聚類,其聚類方法采用K均值聚類算法或均值漂移算法或概率潛在語義分析算法。
3、根據(jù)權(quán)利要求1所述的可伸縮的自適應(yīng)多核分類方法,其特征在于,所述預(yù)處理階段計(jì)算訓(xùn)練集中所有樣本對(duì)的多個(gè)核函數(shù)值,所使用的基本核函數(shù)包含通用的高斯、多項(xiàng)式或Sigmoid核函數(shù),或者空間金字塔核函數(shù)、近鄰分布核函數(shù)。
4、根據(jù)權(quán)利要求1所述的可伸縮的自適應(yīng)多核分類方法,其特征在于,所述建模階段為同一個(gè)簇內(nèi)的樣本賦予相同的多核權(quán)值,而對(duì)不同的簇賦予不同的多核權(quán)值,從而構(gòu)建簇相關(guān)的多核分類器。
5、根據(jù)權(quán)利要求1所述的可伸縮的自適應(yīng)多核分類方法,其特征在于,在所述建模階段所有數(shù)據(jù)聚成唯一的一個(gè)簇時(shí),所述簇相關(guān)的自適應(yīng)多核分類模型回歸到傳統(tǒng)的多核分類模型;當(dāng)每個(gè)簇只有一個(gè)訓(xùn)練樣本時(shí),所述簇相關(guān)的自適應(yīng)多核分類模型等同于單樣本的多核分類模型。
6、根據(jù)權(quán)利要求1所述的可伸縮的自適應(yīng)多核分類方法,其特征在于,所述學(xué)習(xí)階段將多核分類器參數(shù)及多組多核權(quán)值參數(shù)統(tǒng)一進(jìn)行優(yōu)化,通過求解最大最小的鞍點(diǎn)問題來進(jìn)行學(xué)習(xí),從而得到判別函數(shù)。
7、根據(jù)權(quán)利要求1所述的可伸縮的自適應(yīng)多核分類方法,其特征在于,所述學(xué)習(xí)階段中求解最大最小的鞍點(diǎn)問題包括如下步驟
31)給定自適應(yīng)多核權(quán)值參數(shù),用支持向量機(jī)求解方法進(jìn)學(xué)習(xí)分類器參數(shù);
32)給定分類器參數(shù),用二次規(guī)劃來學(xué)習(xí)自適應(yīng)多核權(quán)值參數(shù);
33)迭代執(zhí)行31)步驟和32)步驟,直至滿足迭代的終止條件。
8、根據(jù)權(quán)利要求7所述的可伸縮的自適應(yīng)多核分類方法,其特征在于,所述迭代終止條件包括連續(xù)兩次迭代參數(shù)的變化閾值、迭代次數(shù)上限。
9、根據(jù)權(quán)利要求1所述的可伸縮的自適應(yīng)多核分類方法,其特征在于,所述數(shù)據(jù)分類階段包括如下步驟
41)利用無監(jiān)督聚類判斷待分類數(shù)據(jù)所屬簇的編號(hào);
42)計(jì)算待分類數(shù)據(jù)對(duì)所有類別對(duì)應(yīng)的判別函數(shù)的響應(yīng)值,選出響應(yīng)值中的最大值所對(duì)應(yīng)的類別作為該待分類數(shù)據(jù)所屬的數(shù)據(jù)類別。
全文摘要
一種可伸縮的自適應(yīng)多核分類方法,涉及人工智能領(lǐng)域,特別是數(shù)據(jù)挖掘技術(shù)。預(yù)處理階段,得到多核矩陣;建模階段,構(gòu)建一個(gè)簇相關(guān)的多核分類器;參數(shù)學(xué)習(xí)階段,在統(tǒng)一的框架內(nèi)對(duì)分類器參數(shù)及多組多核權(quán)值參數(shù)進(jìn)行優(yōu)化;數(shù)據(jù)分類階段,對(duì)待分類的樣本,首先確定其屬于哪一個(gè)簇,再利用學(xué)習(xí)好的分類器進(jìn)行數(shù)據(jù)分類。本發(fā)明通過引入中間表達(dá)“簇”挖掘復(fù)雜數(shù)據(jù)集的類間相關(guān)性和類內(nèi)多樣性,建立了簇相關(guān)的自適應(yīng)和可伸縮多核分類器,并通過迭代的方式在統(tǒng)一的學(xué)習(xí)框架下優(yōu)化分類器參數(shù)和多組多核權(quán)值參數(shù)。面對(duì)類別繁多且特征表現(xiàn)復(fù)雜的數(shù)據(jù)分類問題,解決類間相關(guān)性和類內(nèi)多樣性帶來的數(shù)據(jù)混疊問題,提高了分類準(zhǔn)確率,且分類效果更為魯棒。
文檔編號(hào)G06K9/62GK101482926SQ20091007736
公開日2009年7月15日 申請日期2009年2月19日 優(yōu)先權(quán)日2009年2月19日
發(fā)明者田永鴻, 楊晶晶, 李遠(yuǎn)寧, 段凌宇, 黃鐵軍, 文 高 申請人:北京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
潮安县| 古交市| 钟祥市| 桐乡市| 远安县| 武山县| 宁明县| 当雄县| 青岛市| 金乡县| 玉门市| 永德县| 盐津县| 谢通门县| 定结县| 锡林浩特市| 福建省| 景宁| 高碑店市| 孟村| 榆社县| 根河市| 邻水| 顺平县| 陆丰市| 大城县| 仪陇县| 安化县| 阆中市| 灵璧县| 顺昌县| 孟连| 两当县| 醴陵市| 新巴尔虎右旗| 榆树市| 东莞市| 灵宝市| 凤翔县| 临颍县| 淅川县|