本發(fā)明涉及機器學習和模式識別技術領域,特別是一種基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法。
背景技術:
在真實世界中,用一個標記難以確切地描述一些復雜的對象,學習對象可能與多個標記有關,如,在文本分類中,一則關于上海踩踏事件的新聞報道可能同時包含“上?!薄ⅰ巴鉃?、“陳毅廣場”、“踩踏事件”和“跨年夜活動”等多個概念類別標記;在圖像分類中,一幅關于校園的圖像可能同時與“草地”、“操場”、“建筑物”、“藍天”和“白云”等多個語義概念標記有關。可見,同時具有多個標記的對象無處不在,而傳統(tǒng)的監(jiān)督學習方法難以很好地處理同時包含多個語義概念的對象,致使多標記學習成為機器學習、模式識別等領域中一個重要的研究熱點。同時,在許多情況下,獲得一個樣本所屬的完全標記是比較困難的,相反,獲得部分標記卻相對來說更容易些,即有部分標記缺失。在缺失標記的情況下,由于有些標記信息是缺失的,故難以通過計算標記的共現(xiàn)性或構建基于標記的鄰接圖來事先獲得標記之間的標記性,也事先難以準確的給出先驗知識來刻畫標記之間的相關性。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是克服現(xiàn)有技術的不足,而提供一種基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法,以此來有效地提高多標記數(shù)據(jù)的分類精度。
本發(fā)明為解決上述技術問題采用以下技術方案:
根據(jù)本發(fā)明提出的一種基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法,包括以下步驟:
步驟1、初始化標記相關性矩陣,對多標記數(shù)據(jù)的各個特征做歸一化處理;
步驟2、運用特征選擇和標記相關性聯(lián)合學習算法學習得到標記相關性矩陣和分類器參數(shù):交替迭代更新標記相關性矩陣和分類器參數(shù),直到滿足迭代終止條件輸出學習得到的標記相關性矩陣和分類器參數(shù);具體如下:
首先給出基于特征選擇和標記相關性聯(lián)合學習算法jlfllc的模型如下所示:
s.t.sq,q=1,q=1,...,q
其中,xi表示第i個樣本,xi∈rd,q表示標記個數(shù),rd為d維特征空間,d為特征個數(shù),yiq=+1表示第i個樣本隸屬于第q個標記,yiq=-1表示第i個樣本不隸屬于第q個標記,yiq=0表示第i個樣本關于第q個標記的信息是缺失的,b表示偏差向量,b=[b1,...,bq]∈r1×q,bq為第q個偏差項,r1×q為1×q維的實數(shù)空間,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,q]t∈rq,rq為q維的實數(shù)空間,sq,m為第q個標記與第m個標記的相關性大小,1≤m≤q、m為整數(shù)且m≠q,t為轉置,w為權重矩陣,α和β為正則化參數(shù),λ為懲罰參數(shù);
固定s,更新w和b,分類器參數(shù)包括w和b;將jlfllc的模型的優(yōu)化問題轉化為如下等價的約束光滑凸優(yōu)化問題,定義函數(shù)g(u,w)如下:
其中,u=[u1,...,ud]t,
采用基于nesterov的加速梯度求解方法來求解問題(1),從而得到分類器參數(shù);
固定w和b,更新s;w和b固定時,將jlfllc的模型的優(yōu)化問題退化為如下問題:
s.t.sq,q=1,q=1,...,q
進一步,上式進一步分解成q個獨立的子優(yōu)化問題,其中,第q個子優(yōu)化問題表示為:
s.t.sq,q=1
該問題是個光滑的凸優(yōu)化問題,利用最優(yōu)化方法直接求解得到s;
步驟3、運用學習得到的標記相關性矩陣和分類器參數(shù)進行標記預測,得到分類結果;根據(jù)該分類結果獲得多標記數(shù)據(jù)的分類模型,并根據(jù)該多標記數(shù)據(jù)的分類模型預測所有待分類的多標記數(shù)據(jù)的標記,輸出多標記數(shù)據(jù)的分類結果。
作為本發(fā)明所述的一種基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法進一步優(yōu)化方案,步驟1中初始化標記相關性矩陣,即假設初始化時同一標記之間是相關的,而不同標記之間不相關。
作為本發(fā)明所述的一種基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法進一步優(yōu)化方案,初始化標記相關性矩陣為單位矩陣,歸一化處理是使每個特征對應的特征向量的2范數(shù)為1。
作為本發(fā)明所述的一種基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法進一步優(yōu)化方案,所述步驟2具體如下:
首先給出基于特征選擇和標記相關性聯(lián)合學習算法的模型如下所示:
s.t.sq,q=1,q=1,...,q
其中,xi表示第i個訓練集樣本,xi∈rd,q表示標記個數(shù),rd為d維特征空間,d為特征個數(shù),yiq=+1表示第i個樣本隸屬于第q個標記,yiq=-1表示第i個樣本不隸屬于第q個標記,yiq=0表示第i個樣本關于第q個標記的信息是缺失的,b表示偏差向量,b=[b1,...,bq]∈r1×q,bq為第q個偏差項,r1×q為1×q維的實數(shù)空間,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,q]t∈rq,rq為q維的實數(shù)空間,sq,m為第q個標記與第m個標記的相關性大小,1≤m≤q、m為整數(shù)且m≠q,t為轉置,w為權重矩陣,α和β為正則化參數(shù),λ為懲罰參數(shù);
固定s,更新w和b,分類器參數(shù)包括w和b;
當標記相關矩陣s已知時,上式的模型的優(yōu)化問題退化為:
該式為一個非光滑的凸問題,設數(shù)據(jù)矩陣x和標記矩陣y已經(jīng)中心化,此時所有的偏差項{bq}為0,該式改寫為:
其中,η為折中因子,
其中,u=[u1,...,ud]t,
采用基于nesterov的加速梯度求解方法來求解對問題(1),具體步驟如下:
a、初始化:設初始化步長γ0>0,初始解(u0,w0),設置最大迭代次數(shù);
b、令(u1,w1)=(u0,w0),初始迭代步數(shù)t=1,β-1=0以及β0=1;
c、執(zhí)行以下步驟,直到滿足停止準則,停止準則為收斂或迭代次數(shù)t達到最大迭代次數(shù);
(3.1)令
(3.2)(vt,zt)=(ut+αt(ut-ut-1),wt+αt(wt-wt-1)),其中,ut、wt、vt、zt分別是第t次迭代的參數(shù),αt為連接系數(shù);
(3.3)循環(huán)執(zhí)行步驟3.3.1-3.3.2,直到
(3.3.1)
(3.3.2)
(3.4)
(3.5)若滿足停止準則,則(u,w)=(ut,wt);
其中,γt表示第t次迭代步長,πω(v,z)表示(v,z)到凸集ω上的歐式投影,其定義為:
固定w和b,更新s;
w和b固定時,優(yōu)化問題退化為如下問題:
s.t.sq,q=1,q=1,...,q
進一步,上式進一步分解成q個獨立的子優(yōu)化問題,其中,第q個子優(yōu)化問題表示為:
s.t.sq,q=1
該問題是個光滑的凸優(yōu)化問題,利用最優(yōu)化方法直接求解得到s。
作為本發(fā)明所述的一種基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法進一步優(yōu)化方案,采用nesterov方法求解優(yōu)化問題(1)的時間復雜度為
作為本發(fā)明所述的一種基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法進一步優(yōu)化方案,步驟3中所述得到分類結果是指計算出未知樣本xu的預測值
本發(fā)明采用以上技術方案與現(xiàn)有技術相比,具有以下技術效果:
(1)設計了將多標記數(shù)據(jù)的標記相關性和特征選擇策略融合,構建聯(lián)合的多標記數(shù)據(jù)分類學習模型;對構建的非光滑凸函數(shù)采用基于nesterov的加速梯度求解方法進行有效求解;融合標記相關性和特征選擇策略的學習模型可有效獲得標記相關矩陣和分類器參數(shù),進而可有效提高多標記數(shù)據(jù)的分類效果,本發(fā)明可直接用于多標記數(shù)據(jù)的分類;
(2)本發(fā)明能夠通過嵌入標記相關性和特征選擇策略可得到標記相關性矩陣和更有判別能力的分類器,以此來提高多標數(shù)據(jù)的分類精度,此外,本發(fā)明中通過挖掘標記之間的相關性,進而估計出缺失標記,適用于標記缺失情況下的多標記數(shù)據(jù)的分類,因此具有較高的使用價值;針對缺失標記的情況,通過學習來獲得高階非對稱的標記相關性,并且同時學習分類模型以及對特征空間進行降維,可有效改進有標記缺失情況下的多標記數(shù)據(jù)分類精度。
附圖說明
圖1是本發(fā)明流程圖。
圖2是本發(fā)明中運用jlfllc學習得到標記相關性矩陣和分類器步驟子流程圖。
圖3是本發(fā)明中分類步驟子流程圖。
具體實施方式
下面結合附圖對本發(fā)明的技術方案做進一步的詳細說明:
如圖1所示,本發(fā)明公開了本發(fā)明公開了基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類算法,包含如下步驟:
步驟1,標記相關性矩陣初始化為單位矩陣,即假設初始化時同一標記之間是相關的,而不同標記之間不相關,不同標記之間的相關性通過步驟2的學習得到;
步驟2,運用特征選擇和標記相關性聯(lián)合學習算法jlfllc學習得到標記相關性矩陣和分類器參數(shù):交替迭代更新標記相關性矩陣和分類器參數(shù),直到滿足迭代終止條件輸出學習得到的標記相關性矩陣和分類器參數(shù);
步驟3,模型預測:運用學習得到的標記相關性矩陣和分類器參數(shù)進行標記預測,得到分類結果;根據(jù)多標記數(shù)據(jù)的分類模型預測所有待分類的多標記數(shù)據(jù)的標記;輸出多標記數(shù)據(jù)的分類結果。
需要說明的是本發(fā)明的核心步驟是運用jlfllc學習得到標記相關性矩陣和分類器,并給出各步驟的具體實施方法。
如圖2所示,標記相關性矩陣初始化及特征并歸一化處理的具體實施步驟如下:
步驟4,標記相關性矩陣s=iq,其中,iq為單位矩陣;步驟5,歸一化處理,使每個特征對應的特征向量的2范數(shù)為1。
如圖2所示,運用jlfllc學習得到標記相關性矩陣和分類器具體實施步驟如下:
對有缺失標記情況的多標記數(shù)據(jù)分類,挖掘標記之間的相關性才能有效克服標記缺失的情況。提出的模型同時考慮多標記分類,標記相關性以及特征選擇,這樣可以聯(lián)合學習分類模型參數(shù),標記相關性矩陣,并且可以進行特征選擇。同時,為了考慮標記之間的相關性,構建了一個條件依賴網(wǎng)絡,將輸入向量和其他標記變量作為每個節(jié)點的父親節(jié)點,然而其他標記變量不是一個固定的值,而是一個變量。此外,通過引入權重矩陣的l2,1范數(shù)選擇多個兩類分類任務之間共享的稀疏特征結構。由此,構建了一個聯(lián)合學習模型,包括一個損失項(考慮缺失標記),兩個正則化項:分別控制模型復雜度和標記相關性大小,以及權重矩陣的l2,1范數(shù)
綜上可見,提出的模型具有以下特點:(1)提出了一個新的多標記分類算法,同時考慮了標記之間的相關性,缺失標記問題以及特征選擇;(2)標記之間的相關性不是事先計算得到,而是通過學習得到,而且標記之間的相關性可以是負的,非對稱的;(3)提出的模型不僅可以處理缺失標記的多標記數(shù)據(jù)集,也可以處理完全標記的多標記數(shù)據(jù)集。
先給出一些符號說明:
假設
其中,wq∈rd和bq∈r分別表示第q個預測函數(shù)所對應的權重向量和偏差,
其中,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,q]t∈rq,權重矩陣w=[w1,...,wq]∈rd×q,偏差向量b=[b1,...,bq]∈r1×q。為了便于表示,令標記相關矩陣s=[s1,...,sq]∈rq×q。
首先給出jlfllc的模型如下:
s.t.sq,q=1,q=1,...,q
式中:第一項為損失項,當且僅當樣本所對應的標記為已知標記時才發(fā)生,第二項控制模型的復雜度,第三項用來控制標記相關性的大小,a和β為正則化參數(shù),用來平衡這三項,約束項用來約束標記自身的相關性為1。yiq=+1表示第i個樣本隸屬于第q個標記,yiq=-1表示第i個樣本不隸屬于第q個標記,yiq=0表示第i個樣本關于第q個標記的信息是缺失的。b表示偏差向量,b=[b1,...,bq]∈r1×q,bq為第q個偏差項,r1×q為1×q維的實數(shù)空間,sq=[sq,1,...,sq,q-1,1,sq,q+1,...,sq,q]t∈rq,rq為q維的實數(shù)空間,sq,m為第q個標記與第m個標記的相關性大小,1≤m≤q、m為整數(shù)且m≠q,t為轉置,w為權重矩陣,α和β為正則化參數(shù),λ為懲罰參數(shù);
上述問題可以分解為2個子問題進行求解,固定s,更新w和b;固定w和b,更新s,jlfllc的具體求解方法如下:
步驟5,固定s,更新w和b;改寫模型,計算替代模型的優(yōu)化參數(shù):
固定s,更新w和b。當標記相關矩陣s已知時,模型中的第三項為常量,可以忽略,
同時約束項也可以忽略,因此模型的優(yōu)化問題可退化為:
上式為一個非光滑的凸問題,直接求解困難。為了方便討論,假設數(shù)據(jù)矩陣x和標記矩陣y已經(jīng)中心化,此時所有的偏差項{bq}為0。上式可改寫為:
其中,
其中,u=[u1,...,ud]t,
對問題(1),采用基于nesterov(y.nesterov,i.u.enesterov,introductorylecturesonconvexoptimization:abasiccourse,kluweracademicpublishers,holland,2004.)的加速梯度求解方法來求解,主要步驟如下:
(1)初始化:設γ0>0表示初始化步長,初始解(u0,w0),最大迭代次數(shù)為max_iter;
(2)令(u1,w1)=(u0,w0),t=1,β-1=0以及β0=1;
(3)反復執(zhí)行以下步驟,直到收斂或迭代步數(shù)t為max_iter
(3.1)令
(3.2)(vt,zt)=(ut+αt(ut-ut-1),wt+αt(wt-wt-1)),其中ut、wt、vt、zt分別是第t次迭代的參數(shù),αt為連接系數(shù)。
(3.3)循環(huán)執(zhí)行下列步驟直到
(3.3.1)
(3.3.2)
(3.4)
(3.5)若滿足停止準則,則(u,w)=(ut,wt),轉(4)。
(4)結束.
其中,(3.3.2)中的γt表示第t次迭代步長,πω(v,z)表示(v,z)到凸集ω上的歐式投影,其定義為:
步驟6,由改寫模型的解決得到原模型的解,即得到原模型中分類器參數(shù)。
步驟7,固定w和b,更新s:
w和b固定時,模型中的第四項為常數(shù)項,故可以忽略。因此,優(yōu)化問題退化為如下問題:
s.t.sq,q=1,q=1,...,q
進一步,上式可以進一步分解成q個獨立的子優(yōu)化問題,其中第q個子優(yōu)化問題表示為:
s.t.sq,q=1
該問題是個光滑的凸優(yōu)化問題,利用最優(yōu)化方法可直接求解得到s。
步驟8,若不滿足終止條件,則轉步驟5;否則轉步驟9;
步驟9,得到標記相關性矩陣和分類器。
如圖3所示,模型預測具體實施步驟如下:
步驟10,對未標記樣本進行歸一化處理;
步驟11,計算未知樣本xu的預測值
步驟12,計算未知樣本xu的類別標記向量h(xu)=sgn(f1(xu),...,fq(xu))。
步驟13,輸出每個樣本對應的標記集。
對所有待分類的多標記數(shù)據(jù)按上述方法進行分類,得到最終的多標記數(shù)據(jù)的分類結果。
以上對本發(fā)明所提供的基于特征選擇和標記相關性聯(lián)合學習的多標記數(shù)據(jù)分類方法進行了詳細介紹。值得注意的是,具體實現(xiàn)該技術方案的方法和途徑有很多,以上所述僅是本發(fā)明的優(yōu)選實施方式,只用于幫助理解本發(fā)明的方法及核心思想;同時,對于本領域的一般技術人員,在本發(fā)明核心思想的基礎上,做出的修改和調整都將視為本發(fā)明的保護范圍。綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制,本發(fā)明的保護范圍應由所附的權利要求來限定。