本發(fā)明屬于圖像分類,具體涉及一種基于類內差異抑制性字典學習的圖像分類方法。
背景技術:
1、隨著計算機視覺的快速發(fā)展,圖像分類技術在各個領域被廣泛應用,例如醫(yī)學影像分析、智能安防、人臉識別、圖像搜索引擎、智能交通、手勢識別等領域。圖像分類作為計算機視覺的重要任務之一,它的任務核心在于如何訓練出一個分類模型,并且通過該模型將輸入的圖片分配到正確的類別中。在過去的幾十年里,支持向量機(support?vectormachine,svm)、k最近鄰(knearest?neighbor,knn)、決策樹(decision?tree)、邏輯回歸(logistic?regression)等簡單分類器在簡單的分類任務中均取得良好的分類結果。然而應用場景的特殊性,可能導致采集的圖像數(shù)據(jù)存在一些不確定因素,例如噪聲干擾、光照干擾、低分辨率、特征差異較大、數(shù)據(jù)不平衡等,這些因素可能導致簡單的分類器無法學習到良好的分類模型,從而使分類精度下降。
2、稀疏表示(sparse?representation,sr)作為一種新興技術,它最早的研究被用來從有限的觀測數(shù)據(jù)中恢復原始信號,也就是說,原始信號可以由少量的非零系數(shù)表示。在稀疏表示的框架下,原始信號可以通過一個稀疏系數(shù)向量和一個字典(或者稱為基)的線性組合進行表示。大量實驗證明稀疏后的圖像在圖像重構、目標檢測、圖像去噪和圖像分類等算法上有良好的表現(xiàn),但良好表現(xiàn)的前提是圖像的稀疏系數(shù)具有特定的性質。
3、字典學習(dictionary?learning,dl)作為稀疏表示理論的優(yōu)化擴展,在信號處理、圖像處理、模式識別、自然語言處理以及數(shù)據(jù)壓縮等領域都有著廣泛的應用。字典的類型通常被分為兩種:原子字典和數(shù)據(jù)驅動式字典。字典學習的核心思想是從給定的數(shù)據(jù)中學習一個特定性質的字典,以字典原子的線性組合可以更好更稀疏地表示圖像。
4、隨著計算機視覺的發(fā)展,圖像分類在神經(jīng)網(wǎng)絡中越來越受學者的重視。神經(jīng)網(wǎng)絡的優(yōu)秀分類性能讓更多學者深入探索,但是神經(jīng)網(wǎng)絡巨大假設空間可能導致模型過擬合而變得耗時和不穩(wěn)定。除此之外,神經(jīng)網(wǎng)絡需要大量的數(shù)據(jù)樣本來擬合其復雜的模型。針對這些問題,字典學習模型不僅很好的解決了小規(guī)模數(shù)據(jù)集擬合問題,在分類準確率和分類效率上也獲得了令人滿意的性能?;谧值鋵W習的圖像分類,是從給定的少量圖像數(shù)據(jù)中學習一個具有判別能力的字典,該字典能夠較好地捕獲數(shù)據(jù)的內在特征與聯(lián)系,從而提供判別能力和表達能力更強的稀疏表示。最后,根據(jù)稀疏表示實現(xiàn)高精度、高效率的分類。合適的字典有助于分類更準確、更高效,然而字典學習模型在面對不同圖像分類任務時,將面臨圖像背景復雜、噪聲干擾、同類型圖像數(shù)據(jù)集特征相似、不同類型圖像數(shù)據(jù)集特征多樣化等問題。這些問題都可能導致字典無法捕獲較好的數(shù)據(jù)內在結構和特征關系,從而影響模型的分類性能。
5、基于此,本發(fā)明提出了一種基于類內差異抑制性字典學習的圖像分類方法,稱為ivs-dl方法,能夠有效提升圖像的分類準確率。
技術實現(xiàn)思路
1、針對上述現(xiàn)狀,本發(fā)明提出了一種基于類內差異抑制性字典學習的圖像分類方法。首先,本發(fā)明在監(jiān)督式字典學習的基礎上構建標簽矩陣,將訓練樣本的類別標簽信息與稀疏系數(shù)相關聯(lián),使同一類別的稀疏系數(shù)屬于類別標簽所張成的子空間。其次,利用訓練樣本構建拉普拉斯矩陣,并將拉普拉斯矩陣對稀疏系數(shù)進行特征映射約束,使得原始數(shù)據(jù)的局部特征關系在稀疏系數(shù)中得以保留。除此之外,通過最小化稀疏系數(shù)之間的類內偏差,鼓勵來自同一類別的目標向類中心聚集,從而提高字典的判別性。最后,利用knn分類器對待測圖像的稀疏系數(shù)進行分類。采用本發(fā)明技術方案進行圖像分類,相較于現(xiàn)有的圖像分類技術,在分類準確率和分類效率上都有顯著提升,能很好地滿足實際場景中的應用要求。
2、為實現(xiàn)上述目的,本發(fā)明采取如下技術方案:
3、一種基于類內差異抑制性字典學習的圖像分類方法,包括如下步驟:
4、s1、選取圖像數(shù)據(jù)集;
5、s2、采用特征提取方法對步驟s1選取的圖像進行預處理,生成圖像樣本集;
6、s3、構建監(jiān)督式字典學習模型;
7、s4、根據(jù)步驟s2的圖像樣本集和步驟s3中的字典學習模型構建類別標簽矩陣;
8、s5、利用樣本數(shù)據(jù)構建拉普拉斯矩陣;
9、s6、對訓練樣本采用拉普拉斯特征映射進行正則化;
10、s7、構建類內差異抑制性字典,計算類內稀疏均向量;
11、s8、利用最小化稀疏系數(shù)之間的類內偏差對字典模型進行優(yōu)化,生成目標函數(shù);
12、s9、采用解析法對目標函數(shù)進行求解,對稀疏系數(shù)和字典進行迭代更新;
13、s10、根據(jù)更新的稀疏系數(shù)和字典計算誤差;
14、s11、判斷是否滿足迭代收斂條件,若滿足,則輸出最優(yōu)的判別字典dlen,否則返回執(zhí)行步驟s7;
15、s12、采用knn分類器進行圖像分類。
16、優(yōu)選的,步驟s2,采用不同的特征提取法對物體、人臉、場景和紋理四種類型的數(shù)據(jù)集進行預處理,生成圖像樣本集。
17、優(yōu)選的,步驟s3,構建字典學習模型,具體如下:
18、設定樣本數(shù)據(jù)為字典為
19、其中,n表示數(shù)據(jù)的維度,n表示樣本y個數(shù),k表示字典原子d的個數(shù),表示實數(shù)集。
20、因此,得到l2范數(shù)下的的字典學習模型為:
21、其中,為稀疏系數(shù),λ(λ>0)是一個非負正則參數(shù)。因此字典學習的目標函數(shù)可以表示為:
22、
23、其中,d*和s*分別表示更新后的字典矩陣和稀疏系數(shù)矩陣。
24、優(yōu)選的,步驟s4,根據(jù)步驟s2中的圖像樣本集和步驟s3中的字典學習模型,構建類別標簽矩陣a,具體如下:
25、假設樣本表示為y=[y1,y2,y3,y4,y5,y6,y7,y8,y9],當樣本y1、y2和y3來自第1類,y4、y5和y6來自第2類,y7、y8和y9來自第3類,因此標簽矩陣可以定義為:
26、
27、其中,矩陣a中的每個對角塊表示每個類的一個子空間,擴展到n個樣本中,矩陣a定義為設置字典的原子數(shù)量等于樣本數(shù)量,即k=n,因此監(jiān)督式字典學習的目標函數(shù)可以重新表示為:
28、
29、其中,字典稀疏系數(shù)α(α>0)為標簽約束項的正則參數(shù)。
30、優(yōu)選的,步驟s5,利用樣本數(shù)據(jù)構建拉普拉斯矩陣:l=m-w。
31、其中,為拉普拉斯矩陣。表示權重矩陣。表示度矩陣,且m為對角矩陣。采用高斯函數(shù)來計算權重矩陣w中的權值wij:
32、
33、其中,σ(σ>0)為高斯核函數(shù)的帶寬參數(shù),<yi,yj>表示yi和yj之間存在連通路徑,即連通無向圖。度矩陣m的對角元素mii可以表示為:
34、優(yōu)選的,步驟s6,對訓練樣本采用拉普拉斯特征映射進行降維,利用拉普拉斯矩陣l,將訓練樣本之間局部特征關系強制化為稀疏系數(shù)s之間的局部特征關系(y=ds)。拉普拉斯特征映射優(yōu)化的目標函數(shù)如下:
35、
36、其中,tr(·)是求·矩陣的跡。將拉普拉斯特征映射約束作為正則項加入字典的目標函數(shù)中得到:
37、
38、其中,β(β>0)為拉普拉斯特征映射約束項的正則參數(shù)。
39、優(yōu)選的,步驟s7,構建類內差異抑制性字典,計算類內稀疏均向量:
40、假設訓練樣本y包含n個樣本,c個不同的類別,每個類別的樣本數(shù)量為xc=(1,2,…,c),則令每類訓練樣本對應的稀疏系數(shù)子矩陣為
41、其中,同一類別中不同稀疏系數(shù)si擁有不同的類內稀疏均向量μi,類內稀疏均向量μi可以表示為:
42、
43、其中,t表示迭代次數(shù)。
44、優(yōu)選的,步驟s8,通過最小化稀疏表示的類內稀疏均方差對字典模型進行優(yōu)化,生成目標函數(shù):
45、
46、其中,γ(γ>0)為類內差異抑制性約束項的正則參數(shù),d(t)和s(t)表示第t次迭代更新得到的字典矩陣和稀疏系數(shù)矩陣。
47、優(yōu)選的,步驟s9,采用解析法對目標函數(shù)進行求解,對稀疏系數(shù)s和字典d進行迭代更新,即對稀疏系數(shù)和字典分別進行求偏導,得到:
48、
49、其中,i是單位矩陣;θ(θ>0)為較小的一個常量,保證字典d的更新公式為非奇異函數(shù)。
50、優(yōu)選的,步驟s10,根據(jù)更新的稀疏系數(shù)s(t)和字典d(t)計算誤差ε(t):
51、
52、其中,f表示f范數(shù)。
53、優(yōu)選的,步驟s11,判斷字典d(t)是否滿足迭代收斂條件,若滿足,則輸出最優(yōu)的判別字典:dlen=d(t);若不滿足,則執(zhí)行步驟s7。迭代收斂條件表示為:
54、|ε(t)-ε(t-1)|<ε0或maxd|d(t)-d(t-1)|<ε0。
55、其中,ε0表示迭代終止參數(shù)。
56、優(yōu)選的,步驟s12,采用knn分類器對測試樣本y的稀疏系數(shù)s進行分類,樣本y的稀疏系數(shù)s的更新公式如下:
57、
58、在訓練樣本和待測樣本對應的稀疏系數(shù)之間使用knn分類器,計算測試樣本稀疏系數(shù)與訓練樣本稀疏系數(shù)之間的距離,并對測試樣本稀疏系數(shù)進行標簽預測,從而實現(xiàn)最終的分類。
59、本發(fā)明的有益效果是:
60、(1)、本發(fā)明在目標函數(shù)中引入了標簽矩陣,加強了字典的判別性。利用拉普拉斯特征映射,保留了原始數(shù)據(jù)的局部不變性,保留了稀疏編碼中局部流形結構;并通過最小化稀疏編碼之間的偏差,使來自同一類的目標更緊密地聚在一起,進一步增強了字典的判別能力;從而解決了稀疏編碼中類內離散和局部結構不穩(wěn)定的問題。
61、(2)、相較于現(xiàn)有技術的圖像分類法,本發(fā)明的分類準確率更高。