一種基于類內差異抑制性字典學習的圖像分類方法

文檔序號：40606749發(fā)布日期：2025-01-07 20:47閱讀：13來源：國知局

本發(fā)明屬于圖像分類，具體涉及一種基于類內差異抑制性字典學習的圖像分類方法。

背景技術：

1、隨著計算機視覺的快速發(fā)展，圖像分類技術在各個領域被廣泛應用，例如醫(yī)學影像分析、智能安防、人臉識別、圖像搜索引擎、智能交通、手勢識別等領域。圖像分類作為計算機視覺的重要任務之一，它的任務核心在于如何訓練出一個分類模型，并且通過該模型將輸入的圖片分配到正確的類別中。在過去的幾十年里，支持向量機(support?vectormachine,svm)、k最近鄰(knearest?neighbor,knn)、決策樹(decision?tree)、邏輯回歸(logistic?regression)等簡單分類器在簡單的分類任務中均取得良好的分類結果。然而應用場景的特殊性，可能導致采集的圖像數(shù)據(jù)存在一些不確定因素，例如噪聲干擾、光照干擾、低分辨率、特征差異較大、數(shù)據(jù)不平衡等，這些因素可能導致簡單的分類器無法學習到良好的分類模型，從而使分類精度下降。

2、稀疏表示(sparse?representation,sr)作為一種新興技術，它最早的研究被用來從有限的觀測數(shù)據(jù)中恢復原始信號，也就是說，原始信號可以由少量的非零系數(shù)表示。在稀疏表示的框架下，原始信號可以通過一個稀疏系數(shù)向量和一個字典(或者稱為基)的線性組合進行表示。大量實驗證明稀疏后的圖像在圖像重構、目標檢測、圖像去噪和圖像分類等算法上有良好的表現(xiàn)，但良好表現(xiàn)的前提是圖像的稀疏系數(shù)具有特定的性質。

3、字典學習(dictionary?learning,dl)作為稀疏表示理論的優(yōu)化擴展，在信號處理、圖像處理、模式識別、自然語言處理以及數(shù)據(jù)壓縮等領域都有著廣泛的應用。字典的類型通常被分為兩種：原子字典和數(shù)據(jù)驅動式字典。字典學習的核心思想是從給定的數(shù)據(jù)中學習一個特定性質的字典，以字典原子的線性組合可以更好更稀疏地表示圖像。

4、隨著計算機視覺的發(fā)展，圖像分類在神經(jīng)網(wǎng)絡中越來越受學者的重視。神經(jīng)網(wǎng)絡的優(yōu)秀分類性能讓更多學者深入探索，但是神經(jīng)網(wǎng)絡巨大假設空間可能導致模型過擬合而變得耗時和不穩(wěn)定。除此之外，神經(jīng)網(wǎng)絡需要大量的數(shù)據(jù)樣本來擬合其復雜的模型。針對這些問題，字典學習模型不僅很好的解決了小規(guī)模數(shù)據(jù)集擬合問題，在分類準確率和分類效率上也獲得了令人滿意的性能?；谧值鋵W習的圖像分類，是從給定的少量圖像數(shù)據(jù)中學習一個具有判別能力的字典，該字典能夠較好地捕獲數(shù)據(jù)的內在特征與聯(lián)系，從而提供判別能力和表達能力更強的稀疏表示。最后，根據(jù)稀疏表示實現(xiàn)高精度、高效率的分類。合適的字典有助于分類更準確、更高效，然而字典學習模型在面對不同圖像分類任務時，將面臨圖像背景復雜、噪聲干擾、同類型圖像數(shù)據(jù)集特征相似、不同類型圖像數(shù)據(jù)集特征多樣化等問題。這些問題都可能導致字典無法捕獲較好的數(shù)據(jù)內在結構和特征關系，從而影響模型的分類性能。

5、基于此，本發(fā)明提出了一種基于類內差異抑制性字典學習的圖像分類方法，稱為ivs-dl方法，能夠有效提升圖像的分類準確率。

技術實現(xiàn)思路

1、針對上述現(xiàn)狀，本發(fā)明提出了一種基于類內差異抑制性字典學習的圖像分類方法。首先，本發(fā)明在監(jiān)督式字典學習的基礎上構建標簽矩陣，將訓練樣本的類別標簽信息與稀疏系數(shù)相關聯(lián)，使同一類別的稀疏系數(shù)屬于類別標簽所張成的子空間。其次，利用訓練樣本構建拉普拉斯矩陣，并將拉普拉斯矩陣對稀疏系數(shù)進行特征映射約束，使得原始數(shù)據(jù)的局部特征關系在稀疏系數(shù)中得以保留。除此之外，通過最小化稀疏系數(shù)之間的類內偏差，鼓勵來自同一類別的目標向類中心聚集，從而提高字典的判別性。最后，利用knn分類器對待測圖像的稀疏系數(shù)進行分類。采用本發(fā)明技術方案進行圖像分類，相較于現(xiàn)有的圖像分類技術，在分類準確率和分類效率上都有顯著提升，能很好地滿足實際場景中的應用要求。

2、為實現(xiàn)上述目的，本發(fā)明采取如下技術方案：

3、一種基于類內差異抑制性字典學習的圖像分類方法，包括如下步驟：

4、s1、選取圖像數(shù)據(jù)集；

5、s2、采用特征提取方法對步驟s1選取的圖像進行預處理，生成圖像樣本集；

6、s3、構建監(jiān)督式字典學習模型；

7、s4、根據(jù)步驟s2的圖像樣本集和步驟s3中的字典學習模型構建類別標簽矩陣；

8、s5、利用樣本數(shù)據(jù)構建拉普拉斯矩陣；

9、s6、對訓練樣本采用拉普拉斯特征映射進行正則化；

10、s7、構建類內差異抑制性字典，計算類內稀疏均向量；

11、s8、利用最小化稀疏系數(shù)之間的類內偏差對字典模型進行優(yōu)化，生成目標函數(shù)；

12、s9、采用解析法對目標函數(shù)進行求解，對稀疏系數(shù)和字典進行迭代更新；

13、s10、根據(jù)更新的稀疏系數(shù)和字典計算誤差；

14、s11、判斷是否滿足迭代收斂條件，若滿足，則輸出最優(yōu)的判別字典dlen，否則返回執(zhí)行步驟s7；

15、s12、采用knn分類器進行圖像分類。

16、優(yōu)選的，步驟s2，采用不同的特征提取法對物體、人臉、場景和紋理四種類型的數(shù)據(jù)集進行預處理，生成圖像樣本集。

17、優(yōu)選的，步驟s3，構建字典學習模型，具體如下：

18、設定樣本數(shù)據(jù)為字典為

19、其中，n表示數(shù)據(jù)的維度，n表示樣本y個數(shù)，k表示字典原子d的個數(shù)，表示實數(shù)集。

20、因此，得到l2范數(shù)下的的字典學習模型為：

21、其中，為稀疏系數(shù)，λ(λ>0)是一個非負正則參數(shù)。因此字典學習的目標函數(shù)可以表示為：

22、

23、其中，d*和s*分別表示更新后的字典矩陣和稀疏系數(shù)矩陣。

24、優(yōu)選的，步驟s4，根據(jù)步驟s2中的圖像樣本集和步驟s3中的字典學習模型，構建類別標簽矩陣a，具體如下：

25、假設樣本表示為y＝[y1,y2,y3,y4,y5,y6,y7,y8,y9]，當樣本y1、y2和y3來自第1類，y4、y5和y6來自第2類，y7、y8和y9來自第3類，因此標簽矩陣可以定義為：

26、

27、其中，矩陣a中的每個對角塊表示每個類的一個子空間，擴展到n個樣本中，矩陣a定義為設置字典的原子數(shù)量等于樣本數(shù)量，即k＝n，因此監(jiān)督式字典學習的目標函數(shù)可以重新表示為：

28、

29、其中，字典稀疏系數(shù)α(α>0)為標簽約束項的正則參數(shù)。

30、優(yōu)選的，步驟s5，利用樣本數(shù)據(jù)構建拉普拉斯矩陣：l＝m-w。

31、其中，為拉普拉斯矩陣。表示權重矩陣。表示度矩陣，且m為對角矩陣。采用高斯函數(shù)來計算權重矩陣w中的權值wij：

32、

33、其中，σ(σ>0)為高斯核函數(shù)的帶寬參數(shù)，<yi,yj>表示yi和yj之間存在連通路徑，即連通無向圖。度矩陣m的對角元素mii可以表示為：

34、優(yōu)選的，步驟s6，對訓練樣本采用拉普拉斯特征映射進行降維，利用拉普拉斯矩陣l，將訓練樣本之間局部特征關系強制化為稀疏系數(shù)s之間的局部特征關系(y＝ds)。拉普拉斯特征映射優(yōu)化的目標函數(shù)如下：

35、

36、其中，tr(·)是求·矩陣的跡。將拉普拉斯特征映射約束作為正則項加入字典的目標函數(shù)中得到：

37、

38、其中，β(β>0)為拉普拉斯特征映射約束項的正則參數(shù)。

39、優(yōu)選的，步驟s7，構建類內差異抑制性字典，計算類內稀疏均向量：

40、假設訓練樣本y包含n個樣本，c個不同的類別，每個類別的樣本數(shù)量為xc＝(1,2,…,c)，則令每類訓練樣本對應的稀疏系數(shù)子矩陣為

41、其中，同一類別中不同稀疏系數(shù)si擁有不同的類內稀疏均向量μi，類內稀疏均向量μi可以表示為：

42、

43、其中，t表示迭代次數(shù)。

44、優(yōu)選的，步驟s8，通過最小化稀疏表示的類內稀疏均方差對字典模型進行優(yōu)化，生成目標函數(shù)：

45、

46、其中，γ(γ>0)為類內差異抑制性約束項的正則參數(shù)，d(t)和s(t)表示第t次迭代更新得到的字典矩陣和稀疏系數(shù)矩陣。

47、優(yōu)選的，步驟s9，采用解析法對目標函數(shù)進行求解，對稀疏系數(shù)s和字典d進行迭代更新，即對稀疏系數(shù)和字典分別進行求偏導，得到：

48、

49、其中，i是單位矩陣；θ(θ>0)為較小的一個常量，保證字典d的更新公式為非奇異函數(shù)。

50、優(yōu)選的，步驟s10，根據(jù)更新的稀疏系數(shù)s(t)和字典d(t)計算誤差ε(t)：

51、

52、其中，f表示f范數(shù)。

53、優(yōu)選的，步驟s11，判斷字典d(t)是否滿足迭代收斂條件，若滿足，則輸出最優(yōu)的判別字典：dlen＝d(t)；若不滿足，則執(zhí)行步驟s7。迭代收斂條件表示為：

54、|ε(t)-ε(t-1)|<ε0或maxd|d(t)-d(t-1)|<ε0。

55、其中，ε0表示迭代終止參數(shù)。

56、優(yōu)選的，步驟s12，采用knn分類器對測試樣本y的稀疏系數(shù)s進行分類，樣本y的稀疏系數(shù)s的更新公式如下：

57、

58、在訓練樣本和待測樣本對應的稀疏系數(shù)之間使用knn分類器，計算測試樣本稀疏系數(shù)與訓練樣本稀疏系數(shù)之間的距離，并對測試樣本稀疏系數(shù)進行標簽預測，從而實現(xiàn)最終的分類。

59、本發(fā)明的有益效果是：

60、(1)、本發(fā)明在目標函數(shù)中引入了標簽矩陣，加強了字典的判別性。利用拉普拉斯特征映射，保留了原始數(shù)據(jù)的局部不變性，保留了稀疏編碼中局部流形結構；并通過最小化稀疏編碼之間的偏差，使來自同一類的目標更緊密地聚在一起，進一步增強了字典的判別能力；從而解決了稀疏編碼中類內離散和局部結構不穩(wěn)定的問題。

61、(2)、相較于現(xiàn)有技術的圖像分類法，本發(fā)明的分類準確率更高。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：呂文濤,靳文哲
技術所有人：浙江理工大學
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！