專利名稱:一種基于自適應核函數(shù)選擇的支持向量機自動分類方法
技術領域:
本發(fā)明涉及圖像信息處理技術領域中關于圖像分類的方法,尤其是ー種通過自適應地選擇核函數(shù)來實現(xiàn)對多類場景圖像進行分類的方法。
背景技術:
圖像分類是指在對圖像總體認識的基礎上,根據(jù)情景信息將多幅圖像標記為不同類別的過程。隨著圖像內容的復雜化和數(shù)據(jù)量的増大,傳統(tǒng)的依靠人工目視對圖像進行分類標注的方式逐漸受到挑戰(zhàn),如何自動準確地完成圖像分類,已成為信息處理領域的研究
ハ、、ハ、、°支持向量機(Support Vector machine, SVM)是由Vapnik等人在1992年提出的一種新的機器學習方法。該方法通過引入核方法,將原空間中線性不可分的數(shù)據(jù)映射到高維特征空間,在克服傳統(tǒng)機器學習存在的維數(shù)災難和局部最小問題的同吋,實現(xiàn)了數(shù)據(jù)的線性分類,并在圖像分類中取得了一定的效果。模型選擇直接決定支持向量機方法的性能。它主要包括核函數(shù)類型的選擇、核函數(shù)參數(shù)以及權衡最大化分類邊界和最小化分類誤差的懲罰因子C的優(yōu)化,C可以并入核函數(shù)中作為核函數(shù)的參數(shù)之一。因此,支持向量機模型選擇就是核函數(shù)類型及其參數(shù)的選擇。 不少學者先后提出若干支持向量機模型選擇的方法。ー類方法通過網(wǎng)格算法選擇支持向量機模型。由于其實際上是一種窮舉搜索算法,當核函數(shù)較復雜(參數(shù)超過兩個)時,時間開銷較大,在復雜分類問題中的應用受到限制。另ー類方法基于分類器性能評估準則采用迭代尋優(yōu)選擇支持向量機模型。如 Olivier等計算了類器性能評估準則T對于核函數(shù)參數(shù)的梯度,并采用梯度下降法求解最優(yōu)模型。Carl等引入了貝葉斯證據(jù)理論作為支持向量機分類器性能的評估準則,并采用蒙特卡羅算法推斷貝葉斯證據(jù)的梯度值。雖然這類方法可以快速得到較好的模型,但是對于初始值較敏感,容易收斂到局部最優(yōu)值,且要求分類器性能評估準則和核函數(shù)對于支持向量機模型參數(shù)均為可導。由于以上兩類方法的局限性,ー種新的進化方法被用于支持向量機模型的選擇。 該類方法可以在復雜參數(shù)空間進行高效的搜索,主要包括遺傳算法、進化程序和進化策略等。Friedrichs等采用遺傳策略優(yōu)化帶有尺度因子和旋轉因子的高斯核函數(shù),實驗表明遺傳策略對于參數(shù)較多的問題在搜索效率上具有很大的優(yōu)勢。類似的,Ana等在其研究中證明了遺傳算法用于復雜參數(shù)空間搜索可以獲得全局最優(yōu)值。然而,進化方法仍然存在以下若干問題(1)進化方法自身的控制參數(shù)是根據(jù)經驗設定的,沒有針對具體問題在進化過程中進行動態(tài)調整,這會導致算法不穩(wěn)定以及收斂速度較慢等問題;( 采用進化方法對支持向量機模型進行選擇,優(yōu)化的核函數(shù)類型較単一,核函數(shù)的參數(shù)也較少,進化算法對于復雜參數(shù)空間的高效搜索優(yōu)勢沒有得到充分利用;C3)之前的大多研究只把重點放在對核函數(shù)參數(shù)的選擇上,并沒有提出有效的核函數(shù)類型的選擇方法。
發(fā)明內容
本發(fā)明的目的是提供一種基于自適應核函數(shù)選擇的支持向量機自動分類方法,以解決不同場景圖像的分類問題。為實現(xiàn)上述目的,本發(fā)明的技術方案如下一種基于自適應核函數(shù)選擇的支持向量機自動分類方法,其包括以下步驟第一歩,建立分類圖像代表集;第二歩,依多類圖像代表集計算所有訓練圖像的灰度均值、標準偏差、平滑度、三階矩、一致性、熵,得到所有訓練圖像的特征向量;第三步,結合數(shù)據(jù)驅動下的機器學習處理思想,提出核函數(shù)的原型;第四歩,基于自適應的遺傳算法實現(xiàn)核函數(shù)類型及參數(shù)的最優(yōu)選擇;第五歩,重復第二歩,計算得到待分類圖像的特征向量;第六歩,使用學習得到的分類器進行處理,得到待分類圖像所屬的類別。所述的自動分類方法,其所述第一歩,包括(1)根據(jù)需要定義J個類別的圖像或數(shù)據(jù),類別編號為1 J,J為自然數(shù);(2)對每類圖像標記出實際所屬的類別,選取其中數(shù)量為L的圖像數(shù)據(jù)作為訓練集,其余圖像作為測試集;(3)將所有J類圖像代表合并為多類圖像代表集。所述的自動分類方法,其所述第三歩,方法是(A)構造滿足核函數(shù)性質的基本核函數(shù),具體步驟是Al、構造多項式核Kp。ly,定義為Kpoly (xi Xj) = (a (Xi ‘ Xj)+b)d(1)A2、構造徑向基核Krbf,定義為Krbf (Xi, Xj) = exp (- γ | | XiIj | |2) (2)A3、構造神經網(wǎng)絡核Ksig,定義為Ksig(Xi,Xj) = tanh(a(Xi · Xj) + β) (3)以上三式中,a,b, α, β, y為核函數(shù)系數(shù),χ為核函數(shù)中的數(shù)據(jù)向量。(B)基于㈧步所得基本核函數(shù),構建核函數(shù)原型,定義如下
權利要求
1.一種基于自適應核函數(shù)選擇的支持向量機自動分類方法,其特征在于包括以下步驟第一歩,建立分類圖像代表集;第二歩,依多類圖像代表集計算所有訓練圖像的灰度均值、標準偏差、平滑度、三階矩、 一致性、熵,得到所有訓練圖像的特征向量;第三步,結合數(shù)據(jù)驅動下的機器學習處理思想,提出核函數(shù)的原型; 第四歩,基于自適應的遺傳算法實現(xiàn)核函數(shù)類型及參數(shù)的最優(yōu)選擇; 第五歩,重復第二歩,計算得到待分類圖像的特征向量; 第六歩,使用學習得到的分類器進行處理,得到待分類圖像所屬的類別。
2.如權利要求1所述的自動分類方法,其特征在于所述第一歩,包括(1)根據(jù)需要定義J個類別的圖像或數(shù)據(jù),類別編號為1 J,J為自然數(shù);(2)對每類圖像標記出實際所屬的類別,選取其中數(shù)量為L的圖像數(shù)據(jù)作為訓練集,其余圖像作為測試集;(3)將所有J類圖像代表合并為多類圖像代表集。
3.如權利要求1所述的自動分類方法,其特征在于所述第三歩,方法是(A)構造滿足核函數(shù)性質的基本核函數(shù),具體步驟是 八し構造多項式核ら徹,定義為Kpoly (xi Xj) = (a (Xi ‘ Xj)+b)d(1)A2、構造徑向基核KAf,定義為Krbf (Xi, Xj) = exp (- y I I Xi-Xj I 12) (2)A3、構造神經網(wǎng)絡核Ksig,定義為Ksig (xi Xj) = tanh (a Ui * Xj) + β ) ⑶以上三式中,a,b,α, β, y分別為核函數(shù)系數(shù),χ為核函數(shù)中的數(shù)據(jù)向量。(B)基于(A)步所得基本核函數(shù),構建核函數(shù)原型,定義如下κ (X, = AKpoly (x,zf + A2Krbf (x,zf + A3Ksig (x,zf( 4 )其中,λ” θ, e R+,i = 1,2,3,χ和ζ分別為數(shù)據(jù)向量;根據(jù)多項式核與徑向基核的表達式,指數(shù)因子Q1和θ 2可以分別并入核函數(shù)自身參數(shù)中,使核函數(shù)原型簡化為如下的普適形式K (χ, ζ) = λ JKpoly (χ, ζ) + λ 2Krbf (χ, ζ) + λ 3Ksig (χ, ζ) (5)。
4.如權利要求3所述的自動分類方法,其特征在于所述(A)步中,基本核函數(shù)應滿足以下性質假設K1, K2是XXX上的核函數(shù),;T Ci ", a e R+,則下面的函數(shù)也是核函數(shù)(1)K(x,ζ)= K1 (x,ζ)+K2 (χ, ζ)(2)K (χ, ζ) = K1 (χ,ζ) K2 (χ, ζ)(3)K (χ, ζ) = aK^ (χ, ζ) ο其中,χ和Ζ分別為數(shù)據(jù)向量。
5.如權利要求1所述的自動分類方法,其特征在于所述第四步中,為了使用自適應遺傳算法對核函數(shù)的類型和參數(shù)進行選擇,必須將核函數(shù)類型參數(shù)和各基本核函數(shù)的參數(shù)以基因的方式編碼到染色體中;染色體編碼方式為,λ (21位)和パ4位)為核函數(shù)類型參數(shù), a(7位)、b(7位)、Υ(12位)、α (12位)和β (12位)為核函數(shù)參數(shù),C(15位)為懲罰因子。
6.如權利要求3所述的自動分類方法,其特征在干所述公式(5)的核函數(shù)原型中存在兩類參數(shù),分別是核函數(shù)類型參數(shù)λ i和ei,及核函數(shù)原型的各基本核函數(shù)的參數(shù);基于自適應核函數(shù)選擇的支持向量機分類方法針對具體問題,選擇出最優(yōu)的ΛΚ,然后將ス廣和 ぐ代入核函數(shù)原型中得到適合該問題的最優(yōu)的核函數(shù)類型。
7.如權利要求1或6所述的自動分類方法,其特征在于所述第四歩,方法是(1)采用最佳隨機初始化算法形成初始種群,首先隨機生成一定數(shù)量的個體,然后計算其適應度,從中選擇適應度最高的個體加入初始種群,循環(huán)這個操作,直到初始種群的大小達到要求為止;(2)對種群中個體的染色體進行解碼形成一組支持向量機模型,在訓練集上對這組支持向量機模型進行訓練得到一組支持向量機分類器;(3)采用交叉驗證方法對每個支持向量機分類器進行性能評估,將交叉驗證準確率作為遺傳算法中的適應度函數(shù),而每個個體的適應度值就是每個支持向量機模型對應的交叉驗證準確率與所有支持向量機模型交叉驗證準確率總和的比值,其值在0 1之間,由此得到種群中每個個體的適應度;(4)通過自適應方法動態(tài)調整種群中個體的交叉概率和變異概率,并據(jù)此對種群中的個體進行選擇、交叉和變異操作,形成下一代種群;(5)如果算法的進化代數(shù)達到設定的最大值,或者種群中已經產生了最優(yōu)解,則算法結束;否則重復步驟⑵至G)。
8.如權利要求7所述的自動分類方法,其特征在干所述第四步的步驟0),支持向量機分類器的訓練方法如下假定訓練數(shù)據(jù)集為KXi,yi)}m,其中,Xi是輸入向量的第i個樣本,Xi e R,m是樣本容量,Ji e {-1,+1}是第i個樣本的類別;目標是尋找ー個最優(yōu)的分類超平面wTx+b = 0,使其將訓練數(shù)據(jù)線性分開,并能獲得最大分類間隔,其中,w是分類超平面的法向量,b為超平面的偏移量;求解最優(yōu)分類超平面的問題,被轉化成下面的二次最優(yōu)化問題
9.如權利要求7所述的自動分類方法,其特征在于所述第四步的步驟G),步驟為 4a、從種群中選擇適應度最高的個體,并采用經典的輪盤賭算法選擇出適應度較高的個體,這些個體經過繁殖形成下一代種群,使得在維持種群規(guī)模不變的同吋,保證種群中出現(xiàn)的最佳個體是歷史最優(yōu)的;4b、交叉操作使得種群中個體的基因進行重組,產生出新的基因型,采用自適應交叉算子根據(jù)個體的適應度對其交叉概率進行動態(tài)調整,保證新的基因型獲得更好的解;4c、變異算子用于恢復種群進化過程中丟失的遺傳信息,與構造上述自適應交叉算子的原理類似,采用自適應變異算子動態(tài)調整種群的變異概率。
10.如權利要求9所述的自動分類方法,其特征在干所述第四步的步驟中,自適應交叉算子的計算方式如下
11.如權利要求9所述的自動分類方法,其特征在于所述第四步的步驟中,自適應變異算子的計算方式如下
全文摘要
本發(fā)明公開了一種基于自適應核函數(shù)選擇的支持向量機自動分類方法,涉及圖像信息處理技術,步驟為建立分類圖像代表集;統(tǒng)計訓練圖像的特征向量;結合數(shù)據(jù)驅動下的機器學習處理思想,提出核函數(shù)的原型;基于自適應的遺傳算法實現(xiàn)核函數(shù)類型及參數(shù)的最優(yōu)選擇;使用學習得到的分類器對待分類圖像進行分類處理。本發(fā)明的自動分類方法,克服了傳統(tǒng)的支持向量機模型選擇方法中人為指定核函數(shù)類型導致模型不能達到最優(yōu)性能的缺點,能夠滿足不同場景圖像的分類需求。
文檔編號G06K9/66GK102567742SQ20101058883
公開日2012年7月11日 申請日期2010年12月15日 優(yōu)先權日2010年12月15日
發(fā)明者付琨, 孫顯, 王宏琦, 陳剛 申請人:中國科學院電子學研究所