基于鄰域相似度的數(shù)據(jù)降維方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)降維方法,可用于數(shù)據(jù)與計算 機圖像識別。
【背景技術(shù)】
[0002] 近年來科學(xué)技術(shù)的飛速發(fā)展使得原始數(shù)據(jù)的數(shù)量增多和可用性增強以爆炸的速 度發(fā)生。隨著傳感器和計算機技術(shù)的發(fā)展,出現(xiàn)了越來越多可用的原始數(shù)據(jù),如何從如此海 量的數(shù)據(jù)中提取出有用的信息成為人們非常關(guān)注的焦點。數(shù)據(jù)降維是機器學(xué)習(xí)的一個重要 研宄領(lǐng)域。通過適當(dāng)?shù)慕稻S技術(shù)來獲取一種有效的表示方式,在多元數(shù)據(jù)分析中已經(jīng)成為 一個重要的、必要的和具有挑戰(zhàn)性的問題。降維應(yīng)該滿足兩個基本性質(zhì):第一,原始數(shù)據(jù)的 尺寸應(yīng)該減??;第二,找出并保留數(shù)據(jù)的主成分、隱藏的概念、突出的特性或潛在的變量,使 得降維后的數(shù)據(jù)能有效地用于識別。在許多情況下,原始數(shù)據(jù)集或觀察數(shù)據(jù)會被構(gòu)成數(shù)據(jù) 矩陣或張量,會被描述為線性或多重線性組合模型,所以,從代數(shù)的角度來看,降維可以被 看做:將原始數(shù)據(jù)矩陣分解為兩個因子矩陣。經(jīng)典的降維方法,如主成分分析PCA,線性判 別分析LDA,獨立分量分析ICA,矢量量化VQ等都是一些低秩近似的范本。這些方法的統(tǒng)計 特性各不相同,是因為它們對因子矩陣及其底層結(jié)構(gòu)有不同的約束條件,它們也有一些共 性:對因子矩陣中的元素沒有任何約束。換句話說,在這些方法中,允許出現(xiàn)負數(shù)因子矩陣 和減法運算。相比之下,非負矩陣分解NMF,它包含非負約束,具有局部表示特性,同時加強 了相應(yīng)問題的可解釋性。這種方法及模型最早由Paatero和Tapper提出,在Lee和Seung 之后引起了廣泛的關(guān)注。
[0003] 非負矩陣分解有兩個互補的優(yōu)點一一非負約束和加性結(jié)合。一方面,在現(xiàn)實世界 的許多種數(shù)據(jù),如圖像、光譜和基因數(shù)據(jù)的分析任務(wù)中,不管是表面還是潛在的結(jié)構(gòu),負值 都是缺乏物理意義的。而原型通常都與特定的語義解釋相對應(yīng)。例如在人臉識別中,基圖 像通常是局部的而非整體的,類似人臉的一部分,如眼睛、鼻子、嘴巴或臉頰。另一方面,人 們最感興趣的地方自然是構(gòu)成物體的局部特點,加性結(jié)合意味著這些感興趣的局部可以組 裝在一起拼湊出整體。于是NMF在真實環(huán)境的場景和任務(wù)中取得了極大的成功。如在文本 聚類中,不管是在提高精度還是在潛在語義識別上,NMF已經(jīng)超越了譜聚類等經(jīng)典的方法。 目前,NMF已經(jīng)成功地應(yīng)用于人臉識別、文本挖掘聚類、社區(qū)發(fā)現(xiàn)、基因數(shù)據(jù)分析等問題中。
[0004] 非負矩陣分解的基本模型如下:給定一個M維隨機向量X,X的所有元素非負,它的 N個觀察值被記作\ ( j = 1,2,. . .,N),構(gòu)成矩陣I = [X1,X2,…,χΛ Xfλ。NMF算法將X分解 為兩個非負矩陣以二卜心…義^"和廠:^~心…七^^的乘積^之滿足)^-。 其中矩陣U稱為基矩陣,矩陣V稱為系數(shù)矩陣或特征矩陣,Kf v表示M行乘以N列的非負矩 陣,疋Γ表示M行乘以L列的非負矩陣,iCV表示L行乘以N列的非負矩陣。非負矩陣分 解也可以被寫為:A = Σ//;?。明顯地,V j是觀察值X j在U的列向量上的權(quán)值系數(shù),U可 以被稱為X的基矩陣或潛在的特征矩陣。因此,NMF分解算法轉(zhuǎn)化為基向量的線性組合問 題,它是一個加性模型。由于初始條件L〈〈min(M,N),在原始向量空間獲得的基向量是不完 整的,換句話說,這種方法嘗試著用更少的基表示了高維隨機模型,所以如果U能夠表示內(nèi) 在的特征,則這種分解就可以成功地實現(xiàn)完美的近似。
[0005] 蔡登等人于2011年提出了圖正則非負矩陣分解GNMF方法。在GNMF中作者構(gòu)造 了一個近鄰圖來表示樣本的幾何信息,要在矩陣分解的過程中保持這種幾何結(jié)構(gòu)。該方法 是建立在局部不變性假設(shè)的基礎(chǔ)上的:如果兩個數(shù)據(jù)點的內(nèi)在幾何分布是緊密的,則這兩 個點在新基下的映射也應(yīng)當(dāng)是彼此靠近。這個假設(shè)在降維算法和流形學(xué)習(xí)理論中扮演著重 要的角色。
[0006] 李子青等人為了學(xué)習(xí)視覺模型的局部子空間表示提出了一種局部非負矩陣分解 方法LNMF。它在標(biāo)準NMF的非負約束的基礎(chǔ)上在目標(biāo)函數(shù)中添加了局部約束:(1)基向量個 數(shù)應(yīng)盡可能的少,(2)為了使不同基向量間的冗余最小,不同的基向量應(yīng)當(dāng)盡可能的正交, (3)應(yīng)當(dāng)只保留包含重要信息的成分。
[0007] 上述LNMF與GNMF這兩種方法存在的共同缺點是,僅采用歐氏距離來衡量樣本鄰 域結(jié)構(gòu),其對距離相等但密度不同及類別分布不均勻的鄰域結(jié)構(gòu)不能合理的描述和保持結(jié) 構(gòu)信息,導(dǎo)致降維后數(shù)據(jù)的分類識別效果不理想。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的地在于針對上述已有技術(shù)的不足,提出一種基于鄰域相似度的數(shù)據(jù) 降維方法,以在數(shù)據(jù)結(jié)構(gòu)分布不均衡的情況下,有效地實現(xiàn)了對數(shù)據(jù)的特征提取及降維,提 高分類識別效果。
[0009] 本發(fā)明的技術(shù)思路是:通過在非負矩陣分解中引入鄰域樣本相似度和鄰域類標(biāo)相 似度,對于鄰域結(jié)構(gòu)相似和類標(biāo)分布相似的樣本點,其分解所得的系數(shù)矩陣的約束項被賦 予較高的權(quán)值,以此兼顧樣本密度和類別分布不均衡的情況,同時考慮基向量的正交性,有 效地實現(xiàn)對數(shù)據(jù)的特征提取及降維。
[0010] 本發(fā)明的技術(shù)方案包括如下步驟:
[0011] (1)輸入n = FXP幅原始圖像,并對這些圖像進行校準和對齊,裁剪為相同尺寸, 其中F為原始圖像類別數(shù),P為每一類圖像的張數(shù);
[0012] (2)將每幅圖像像素點的灰度特征值按列取出并順序排列形成一個m維列向量, 組成一個mXn的矩陣,對該矩陣的每一列進行歸一化,得到原始矩陣X ;
[0013] (3)對原始矩陣X進行基于鄰域相似度的非負矩陣分解得到基矩陣U和系數(shù)矩陣 V :
[0014] (3. 1)選取特征維數(shù)r = 3XF,隨機非負初始化基矩陣U的大小為mXr和系數(shù)矩 陣V的大小為r Xn ;
[0015] (3. 2)將原始矩陣X的每一列為一個樣本點,計算每個樣本點Xi與其近鄰點X』間 的鄰域樣本相似度Ws (Xi, Xj);
[0016] (3. 3)計算每個樣本點Xi與其近鄰點X」間的鄰域類標(biāo)相似度w i (Xi, Xj);
[0017] (3. 4)計算每個樣本點Xi與其近鄰點X』間的鄰域相似度w (X i, Xj)
[0018]
【主權(quán)項】
1. 一種基于鄰域相似度的數(shù)據(jù)降維方法,包括如下步驟: (1) 輸入n = FXP幅原始圖像,并對這些圖像進行校準和對齊,裁剪為相同尺寸,其中 F為原始圖像類別數(shù),P為每一類圖像的張數(shù); (2) 將每幅圖像像素點的灰度特征值按列取出并順序排列形成一個m維列向量,組成 一個mXn的矩陣,對該矩陣的每一列進行歸一化,得到原始矩陣X ; (3) 對原始矩陣X進行基于鄰域相似度的非負矩陣分解得到基矩陣U和系數(shù)矩陣V : (3. 1)選取特征維數(shù)r = 3XF,隨機非負初始化基矩陣U的大小為mXr和系數(shù)矩陣V 的大小為rXn ; (3. 2)將原始矩陣X的每一列為一個樣本點,計算每個樣本點Xi與其近鄰點X彡司的鄰 域樣本相似度Ws (Xi, Xj); (3. 3)計算每個樣本點Xi與其近鄰點X j間的鄰域類標(biāo)相似度w Jxi, Xj); (3. 4)計算每個樣本點Xi與其近鄰點X j間的鄰域相似度w (X i, Xj)
以w (Xi,Xj)作為鄰域相似度矩陣ff的第(i,j)項元素,構(gòu)成鄰域相似度矩陣ff; (3. 5)根據(jù)鄰域相似度矩陣W計算拉普拉斯矩陣L = D-W,D為對角矩陣,該對角矩陣 的第j行第j列元素
(3.6)通過乘法法則更新,利用公式
代求解系數(shù)矩陣V和基矩陣U,達到預(yù)設(shè)最大迭代次數(shù)后退出循環(huán),得到r Xn的系數(shù)矩陣 V,r〈〈m,實現(xiàn)對原始矩陣X的降維,其中,.*表示矩陣按元素項相乘,I e礦~是全部元素 為1的矩陣,λ是系數(shù)矩陣V的非負正則化系數(shù),γ是基矩陣U的非負正則化系數(shù),L+ = (abs (L)+L)/2, L-= (abs (L)-L)/2, abs (L)表示對拉普拉斯矩陣L的所有元素計算絕對值。
2. 根據(jù)權(quán)利要求1所述的基于鄰域相似度的數(shù)據(jù)降維方法,其特征在于,步驟(3. 2)計 算每個樣本點Xi與其近鄰點X j間的鄰域樣本相似度W s (Xi, Xj),按如下步驟進行: (3. 2a)選取最近鄰系數(shù)Q,計算每一個樣本點Xi的鄰域協(xié)方差矩陣C i:
其中,(^是樣本點X Q個最近鄰樣本組成的集合, (3.2b)利用鄰域協(xié)方差矩陣Ci,計算樣本點Xi與其近鄰點Xj間的KL離散度 〇kl (Xi) Xj) ·
其中,tr( ·)表示矩陣的跡, (3. 2c)利用KL離散度Dia (Xi,Xj),計算每個樣本點Xi與其近鄰點X」間的鄰域樣本相 似度 Ws (Xi, Xj):
其中,Os是鄰域樣本相似度平滑因子,其取值范圍為〇〈σ s〈l〇〇。
3.根據(jù)權(quán)利要求1所述的基于鄰域相似度的數(shù)據(jù)降維方法,其特征在于,步驟(3. 3)計 算每個樣本點Xi與其近鄰點X j間的鄰域類標(biāo)相似度W i (Xi, Xj),按如下步驟進行: (3. 3a)將未知類標(biāo)的樣本類標(biāo)記為"0",得到每個樣本點\的鄰域類標(biāo)分布矩陣H(Xi) 為:
其中,hi,f是類標(biāo)同為f的樣本個數(shù),f = 0, 1,…,F(xiàn) ; (3. 3b)利用鄰域類標(biāo)分布矩陣H(Xi),計算每個樣本點Xi與其近鄰點X」司的鄰域類標(biāo) 相似度 W1 (Xi, Xj):
其中,O1是鄰域類標(biāo)相似度平滑因子,其取值范圍為〇〈σ '100。
【專利摘要】本發(fā)明公開了一種基于鄰域相似度的數(shù)據(jù)降維方法,主要解決現(xiàn)有方法僅用歐氏距離來衡量樣本鄰域結(jié)構(gòu)從而導(dǎo)致數(shù)據(jù)結(jié)構(gòu)不均衡時識別結(jié)果不理想的問題。其實現(xiàn)步驟是:(1)輸入數(shù)據(jù)并歸一化,隨機初始化基矩陣和系數(shù)矩陣;(2)計算樣本的對角協(xié)方差矩陣;(3)由對角協(xié)方差矩陣計算KL離散度;(4)由KL離散度計算鄰域樣本相似度;(5)計算樣本的鄰域類標(biāo)分布矩陣;(6)由鄰域類標(biāo)分布矩陣計算鄰域類標(biāo)相似度;(7)由鄰域樣本相似度和鄰域類標(biāo)相似度計算鄰域相似度;(8)根據(jù)鄰域相似度應(yīng)用于迭代準則,得到降維后的基矩陣和系數(shù)矩陣。本發(fā)明準確率高,能有效地對數(shù)據(jù)進行特征提取與降維,可用于數(shù)據(jù)與圖像處理。
【IPC分類】G06K9-62
【公開號】CN104680179
【申請?zhí)枴緾N201510102212
【發(fā)明人】王磊, 姬紅兵, 范笑宇, 王家俊, 張文博
【申請人】西安電子科技大學(xué)
【公開日】2015年6月3日
【申請日】2015年3月9日