范數(shù)最小化的監(jiān)督多視圖特征選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基于自動視圖生成和聯(lián)合Ili2范數(shù)最小化的監(jiān)督多視圖特征選擇方 法,屬于遙感圖像數(shù)據(jù)處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著成像技術(shù)的發(fā)展,遙感圖像應(yīng)用越來越廣泛,例如災(zāi)害和環(huán)境等的勘察與檢 測、基礎(chǔ)地理數(shù)據(jù)的更新等很多的領(lǐng)域。這些遙感圖像可提取的特征很多,高維特征給遙感 圖像的應(yīng)用帶來兩大挑戰(zhàn):第一個(gè)是高維特征將引發(fā)維數(shù)災(zāi)難。該問題可以用特征選擇方 法解決,該方法也受到越來越多的關(guān)注。隨機(jī)森林將特征選擇和分類綁定在一起,可以用于 滑坡制圖。局部加權(quán)判別投影可以處理類別不平衡問題對分類和特征選擇的潛在威脅。這 些特征選擇方法是面向高分辨率遙感影像的,取得了較好的效果。相對于面向高光譜影像 的方法,面向高分辨率遙感影像的特征選擇方法數(shù)量較少。
[0003] 第二個(gè)問題是特征空間實(shí)際上由異質(zhì)的特征子空間組成。該異質(zhì)性增加了探索特 征空間的復(fù)雜性。該特征空間的異質(zhì)性未知,且常常被現(xiàn)有的特征選擇方法所忽略。在其 他領(lǐng)域,如超光譜圖像處理中可以采用多視圖學(xué)習(xí)方法探索異質(zhì)的特征空間。多視圖方法 比傳統(tǒng)的單視圖方法更好。其原因是可以在不同的視圖中利用互補(bǔ)性的信息。
[0004] 為了在降維的同時(shí)探索異質(zhì)的特征空間,有必要發(fā)展多視圖特征選擇方法。目前, 模型遙感圖像的多視圖特征選擇方法不多。無監(jiān)督多視圖特征選擇方法(Unsupervised multiview feature selection,MVFS)面向社交媒體數(shù)據(jù),定義了面向多視圖數(shù)據(jù)的特征 選擇方法。還可以基于分布式編碼方法,提出面向多視圖圖像數(shù)據(jù)集的識別和索引任務(wù)的 無監(jiān)督特征選擇方法。自適應(yīng)無監(jiān)督多視圖特征選擇Adaptive Unsupervised Multi-view Feature Selection(AUMFS)基于I2il范數(shù)懲罰項(xiàng),將數(shù)據(jù)聚類空間、數(shù)據(jù)相似性和不同 視圖之間的相關(guān)性聯(lián)合起來選擇特征?;趶埩康亩嘁晥D特征選擇方法Tensor-based multi-view feature selection (DUAL-TMFS)是一個(gè)針對大腦疾病的封裝器模型,該 模型基于SVM-RFE在張量空間中求解一個(gè)整數(shù)二次規(guī)劃問題。面向多視圖迀移學(xué)習(xí)的 判別式特征選擇方法 Discriminative feature Selection for MUlti-View Transfer IEarning(DISMUTE)基于I2,i范數(shù),利用數(shù)據(jù)的多視圖信息的同時(shí),提取代表性的跨領(lǐng)域特 征以增強(qiáng)無監(jiān)督學(xué)習(xí)的性能。這些方法中,特征的結(jié)構(gòu)相對簡單,或者特征視圖天然可用。
[0005] 這些方法可能不適于高分辨率遙感圖像,因?yàn)楦叻直媛蔬b感圖像的特征非常復(fù) 雜。例如,譜特征的均值與灰度共生矩陣Gray Level Co-occurrence Matrix(GLCM)紋理 特征中的均值很相似,與光譜特征中的方差不相似。實(shí)際上,特征基于它們的定義相似,而 不是基于它們的簡單分類,如光譜、紋理和形狀。該例子還告訴我們兩個(gè)教訓(xùn):1)特征復(fù)雜 關(guān)聯(lián);2)特征的不同視圖表達(dá)了不同的信息,可能在不同方向起作用。因此,1)視圖應(yīng)該自 適應(yīng)地產(chǎn)生;2)為了用盡可能少的特征保留信息,應(yīng)該在每個(gè)視圖中都保留少數(shù)特征。有 三種方法可以用于第一點(diǎn)的視圖生成。第一是隨機(jī)子空間方法。該方法難以產(chǎn)生滿意的結(jié) 果。第二是重構(gòu)和分解原始的單視圖成多視圖,如矩陣分解和核函數(shù)法。第三是特征集合 自動分割。第三種方法一般與固定分類器或者視圖數(shù)量的先驗(yàn)知識有關(guān)。
[0006] 第二點(diǎn)與幾個(gè)最新的方法有關(guān)。組套索Group lasso采用12」范數(shù)正則化在組層 面而不是個(gè)體層面上稀疏。稀疏組套索Sparse group lasso在group lasso上加了一個(gè) I1范數(shù)最小化,使得組和個(gè)體層面上都稀疏。相對于I2il范數(shù),I li2范數(shù)能帶來組內(nèi)稀疏。 因此,I1,2范數(shù)更適合多視圖問題。在有序子空間聚類Ordered Subspace Clustering中, 在視頻數(shù)據(jù)的重構(gòu)誤差項(xiàng)上加上Ili2約束,其他項(xiàng)采用Frobenius范數(shù)或者1范數(shù)。排他 式組套索Exclusive group lasso在正則化項(xiàng)上采用Ili2最小化,在損失函數(shù)上I2范數(shù)最 小化。采用I 2范數(shù)或者Frobenius范數(shù)最小化的項(xiàng)容易受噪聲干擾。
[0007] 2、特征空間的復(fù)雜性增加了算法應(yīng)用的難度。第一個(gè)問題可以通過特征選擇方法 自動選擇特征解決,如ReliefF和mRMR等。最近興起的基于I 2il范數(shù)正則化的最優(yōu)化特征 選擇方法,如mcLogisticC產(chǎn)生了比傳統(tǒng)特征選擇方法更好的性能。第二個(gè)問題在算法應(yīng) 用中常常提及,但是很少針對性地探索特征空間的同質(zhì)性和異質(zhì)性,并充分利用該特性選 擇特征。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明目的是為了解決高分辨率遙感圖像在特征選擇過程中存在的信息丟失的 問題,提供了一種基于自動視圖生成和聯(lián)合I li2范數(shù)最小化的監(jiān)督多視圖特征選擇方法。
[0009] 本發(fā)明所述基于自動視圖生成和聯(lián)合Ili2范數(shù)最小化的監(jiān)督多視圖特征選擇方 法,它包括以下步驟:
[0010] 步驟一:采集遙感圖像數(shù)據(jù),對遙感圖像數(shù)據(jù)進(jìn)行預(yù)處理;然后進(jìn)行特征提取,獲 得特征向量集合;再將特征向量集合中所有特征向量歸一化,獲得原始特征向量集合;
[0011] 步驟二:采用affinity propagation算法將步驟一中獲得的原始特征向量集合 生成特征多視圖;
[0012] 步驟三:基于Ili2范數(shù)對步驟二中生成的特征多視圖進(jìn)行監(jiān)督多視圖特征選擇。
[0013] 步驟一中所述對遙感圖像數(shù)據(jù)進(jìn)行預(yù)處理包括對遙感圖像數(shù)據(jù)依次進(jìn)行幾何精 校正與圖像配準(zhǔn)、圖像鑲嵌與裁剪、大氣校正和壞帶去除。
[0014] 步驟一中所述獲得特征向量集合的具體方法為:提取預(yù)處理后的遙感圖像數(shù)據(jù)的 特征值獲得特征數(shù)據(jù),所有特征數(shù)據(jù)由m維特征空間中的η個(gè)樣本X 1組成,特征數(shù)據(jù)記為 其中樣本X, Y1是標(biāo)記,yie {l,...,c},c是類別數(shù)量;將η個(gè)樣本X1 '9 :, 的行向量記為樣本集X
,樣本集X對應(yīng)的標(biāo)記向量為y,將η個(gè)樣 本Xi的列向量形成的m個(gè)特征向量記為
[0015] 步驟一中獲得原始特征向量集合的方法為:將特征數(shù)據(jù)[&,.V^1中所有特征值 映射到[0-1]之間,獲得原始特征向量集合。
[0016] 步驟二中生成特征多視圖的方法為:利用affinity propagation算法,度量特征 向量仁和。之間的相似性S(i,j) :S(i,j) =-|| frA ||2,其中j = 1,2,3……η;
[0017] 再根據(jù)f種f ,之間的相似性S (i,j)計(jì)算獲得自相似性S (t,t):
[0019] 其中1彡t彡η ;
[0020] 特征向量發(fā)送響應(yīng)r (i, j)給f y fj發(fā)送可用性a(i, j)給f ;,其中r (i, j)為:
[0024] 由響應(yīng)r(i, j)和可用性a (i, j)獲得特征值聚類中心:
[0026] 式中 k=l,2,3......η;
[0027] 根據(jù)特征值聚類中心對原始特征向量集合中所有特征向量進(jìn)行聚類生成特征多 視圖,該多視圖包括L個(gè)特征子集,令F 1為第1個(gè)特征子集,其中每個(gè)視圖對應(yīng)一個(gè)特征子 集,每個(gè)特征子集對應(yīng)不同的數(shù)據(jù)特點(diǎn),1 = 1,2,3……L。
[0028] 步驟三中進(jìn)行監(jiān)督多視圖特征選擇的具體方法為:
[0029] 確定監(jiān)督多視圖特征選擇的目標(biāo)函數(shù)為
[0030] 式中特征選擇的系數(shù)矢量β為:β = [ β D β 2, . . .,β J,β i為特征子集F i所對 應(yīng)的系數(shù)矢量,λ 正則化參數(shù),
[0031] 令E = y-Χβ,使Ee,xl:>則監(jiān)督多視圖特征選擇的問題變形為:
[0037] 令V是一個(gè)各元素都為正數(shù)的矢量,則獲得:
[0038] 再對上式進(jìn)行變形獲得最終的監(jiān)督多視圖特征選擇的目標(biāo)函數(shù)及其約束為:
[0042] V 彡 〇
[0043] 式中,1是一個(gè)各個(gè)元素都為1的矩陣,其下標(biāo)表示特征視圖的序號;取U的前m行 作為多視圖特征所對應(yīng)的系數(shù)矢量β,根據(jù)β的大小選擇遙感圖像數(shù)據(jù)多視圖的最佳特 征。
[0044] 本發(fā)明的優(yōu)點(diǎn):本發(fā)明涉及到遙感圖像特征空間的同質(zhì)性和異質(zhì)性構(gòu)成,并通過 深入分析特征空間的構(gòu)成選擇少量互補(bǔ)性強(qiáng)的特征。它針對遙感圖像特征空間的同質(zhì)性和 異質(zhì)性,提出了基于I li2范數(shù)最小化的監(jiān)督多視圖特征選擇方法,將特征空間自動分解為多 個(gè)不獨(dú)立相交但有物理意義的異質(zhì)特征子空間,即特征視圖,然后在每個(gè)視圖中選擇最能 代表該視圖的少量同質(zhì)特征,以在降低特征冗余性的同時(shí)克服可能引起信息丟失的弊端, 使不同子空間選出的特征互補(bǔ)性強(qiáng),最好地表征原始特征空間的特性。
[0045] 本發(fā)明通過近鄰傳播affinity propagation算法生成多個(gè)不獨(dú)立相交但有物理 意義的異質(zhì)子空間或特征視圖,在保證特征空間顯著特點(diǎn)的同時(shí),提升了整體性能。
【附圖說明】
[0046] 圖1是本發(fā)明方法的流程圖;
[0047] 圖2是基于監(jiān)督多視圖特征選擇的特征空間同質(zhì)性和異質(zhì)性分析方法原理框圖;
[0048] 圖3a為針對悉尼圖像采用SVM時(shí)的總體分類精度隨特征數(shù)量的變化曲線;
[0049] 圖3b為針對悉尼圖像采用SVM時(shí)的Kappa系數(shù)隨特征數(shù)量的變化曲線;
[0050] 圖3c為針對悉尼圖像采用Bayes分類器時(shí)的總體分類精度隨特征數(shù)量的變化曲 線;
[0051] 圖3d為針