一種基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類圖像分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及模式識(shí)別、機(jī)器學(xué)習(xí)技術(shù),尤其涉及一種融合主動(dòng)學(xué)習(xí)和半監(jiān)督極限 學(xué)習(xí)機(jī)的多類圖像分類方法。
【背景技術(shù)】
[0002] 近年來(lái),隨著多媒體技術(shù)和互聯(lián)網(wǎng)通信的快速發(fā)展,圖像分類問(wèn)題受到了很多研 宄者的關(guān)注,各種圖像分類算法也層出不窮。然而,很多傳統(tǒng)的圖像分類算法都是基于監(jiān)督 學(xué)習(xí)來(lái)進(jìn)行研宄的,這需要在訓(xùn)練前采集到大量有標(biāo)記的樣本才能建立準(zhǔn)確的分類器模型 并達(dá)到正確分類的目的。而這種重復(fù)性的標(biāo)記工作既費(fèi)時(shí)又耗財(cái),但收集大量未標(biāo)記樣本 卻很容易。例如在計(jì)算機(jī)輔助醫(yī)學(xué)圖像分析中,可以從醫(yī)院獲得大量的醫(yī)學(xué)圖像作為訓(xùn)練 例,但如果要求醫(yī)學(xué)專家把這些圖像中的病灶都標(biāo)記出來(lái),則往往是不現(xiàn)實(shí)的。再者,隨著 現(xiàn)在大數(shù)據(jù)的發(fā)展,要想對(duì)海量的網(wǎng)頁(yè)信息進(jìn)行分類,人工對(duì)其一個(gè)個(gè)標(biāo)記則更是難上加 難。
[0003] 基于這樣的問(wèn)題,研宄者開(kāi)始只使用少量的有價(jià)值的已標(biāo)記樣本進(jìn)行訓(xùn)練,并通 過(guò)利用大量的未標(biāo)記樣本逐步改善分類器的學(xué)習(xí)性能。這就是目前機(jī)器學(xué)習(xí)研宄中很熱門(mén) 的未標(biāo)記學(xué)習(xí)技術(shù)。
[0004] 目前主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)是這一領(lǐng)域的熱門(mén)算法。
[0005] 主動(dòng)學(xué)習(xí)不再是被動(dòng)接受用戶提供的訓(xùn)練樣本,而是主動(dòng)從中選取對(duì)當(dāng)前分類器 模型的構(gòu)建具有最優(yōu)價(jià)值的樣本進(jìn)行人工標(biāo)注并通過(guò)迭代的方式對(duì)分類器模型進(jìn)行重新 訓(xùn)練和更新。DasguptaS等證明了在獲得相似分類性能的情況下,主動(dòng)樣本選擇比隨機(jī)選 擇顯著減少了所需的標(biāo)記示例,這從一定程度上減小了訓(xùn)練樣本對(duì)標(biāo)簽的依賴程度。Tong 等在基于svm的分類和檢索中根據(jù)樣本到當(dāng)前svm分類面的距離對(duì)樣本進(jìn)行采樣(MS),選 擇最靠近分類面的樣本進(jìn)行人工標(biāo)記的方法,SeungHS,DaganI等的基于委員會(huì)的采樣 方法,基于熵的不確定性采樣方法,都是比較經(jīng)典的主動(dòng)學(xué)習(xí)算法。然而這些算法對(duì)二分類 問(wèn)題能取得較好的分類效果,當(dāng)遇到多類圖像分類問(wèn)題時(shí),則呈現(xiàn)出較差的分類性能。于是 Joshi等提出來(lái)基于最優(yōu)標(biāo)號(hào)和次優(yōu)標(biāo)號(hào)的主動(dòng)學(xué)習(xí)方法(BvSB),這種方法能很好的表示 樣本的不確定性,并且對(duì)多類分類問(wèn)題分析更合適。
[0006] 半監(jiān)督學(xué)習(xí)中,學(xué)習(xí)器自動(dòng)利用未標(biāo)記樣本,整個(gè)過(guò)程中無(wú)需人工干預(yù),僅僅需要 將分類結(jié)果最準(zhǔn)確的未標(biāo)注樣本及其預(yù)測(cè)得到的標(biāo)簽加入已標(biāo)記訓(xùn)練集中。目前有很多自 學(xué)習(xí)技術(shù)以及它的改進(jìn)算法都是比較經(jīng)典的半監(jiān)督學(xué)習(xí)。
[0007] 此外,以往的分類器大多采用經(jīng)典的支持向量機(jī)(SVM),它在二分類問(wèn)題中所向披 靡,然而當(dāng)遇到多類分類問(wèn)題時(shí),加上如果訓(xùn)練樣本集比較龐大時(shí),SVM雖然也能獲得較好 的分類性能,但是生成大量的支持向量使得SVM的學(xué)習(xí)速度遠(yuǎn)遠(yuǎn)達(dá)不到我們預(yù)期的那樣。 故引入了黃廣斌的極限學(xué)習(xí)機(jī)(ELM),它使用起來(lái)簡(jiǎn)單明了,學(xué)習(xí)速度很快,在獲得與SVM 相當(dāng)?shù)姆诸愋阅芮樾蜗拢珽LM的學(xué)習(xí)速度卻要快上幾十倍甚至上百倍。
[0008] 針對(duì)相關(guān)技術(shù)中圖像分類存在分類正確率低和學(xué)習(xí)速度低的問(wèn)題,目前尚未提出 有效的技術(shù)方案。
【發(fā)明內(nèi)容】
[0009] 發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的圖像分類正確率低和學(xué)習(xí)速度低的問(wèn)題, 本發(fā)明提供一種基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類圖像分類方法,采用未標(biāo)記學(xué)習(xí)技術(shù)中融合 半監(jiān)督極限學(xué)習(xí)機(jī)SS-ELM和最優(yōu)標(biāo)記和次優(yōu)標(biāo)記算法BvSB的主動(dòng)學(xué)習(xí)算法,運(yùn)用多分類 器融合并進(jìn)行投票委員會(huì)QBC選擇的方法,對(duì)多類圖像進(jìn)行分類;與傳統(tǒng)監(jiān)督學(xué)習(xí)算法相 比,該算法能更準(zhǔn)確、快速而穩(wěn)定地處理多類圖像分類問(wèn)題。
[0010] 技術(shù)方案:為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
[0011] 一種基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類圖像分類方法,該方法融合了主動(dòng)學(xué)習(xí)技術(shù)和 半監(jiān)督學(xué)習(xí)技術(shù),使用半監(jiān)督極限學(xué)習(xí)機(jī)(Semi-supervisedExtremeLearningMachine, SS-ELM)進(jìn)行分類,同時(shí)使用多分類器融合方法和投票委員會(huì)(Querybycommittee,QBC) 選擇方法;單次迭代過(guò)程為:首先,將訓(xùn)練樣本集分為已標(biāo)注樣本集L、未標(biāo)注樣本集U和測(cè) 試樣本集T;然后,基于未標(biāo)注樣本集U構(gòu)建N個(gè)差異的訓(xùn)練子集,N為大于1的整數(shù);接著, 將N個(gè)訓(xùn)練子集分別與已標(biāo)注樣本集L進(jìn)行訓(xùn)練,形成N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī);同時(shí)設(shè)計(jì)一 個(gè)融合半監(jiān)督極限學(xué)習(xí)機(jī),對(duì)N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的輸出進(jìn)行加和取平均,并作歸一化 處理;對(duì)未標(biāo)注樣本集U中每一個(gè)樣本在N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的對(duì)應(yīng)輸出節(jié)點(diǎn)的輸出進(jìn) 行加和取平均,即可得到融合半監(jiān)督極限學(xué)習(xí)機(jī)對(duì)應(yīng)節(jié)點(diǎn)的輸出;接著,應(yīng)用最優(yōu)標(biāo)記和次 優(yōu)標(biāo)記算法(Bestvssecond_best,BvSB)的主動(dòng)學(xué)習(xí)進(jìn)行不確定性評(píng)估,將未標(biāo)注樣本集 U中最不確定的r個(gè)樣本進(jìn)行人工標(biāo)注并轉(zhuǎn)移到已標(biāo)注樣本集L中;最后,根據(jù)更新后的已 標(biāo)注樣本集L和未標(biāo)注樣本集U進(jìn)行下一次的迭代,直至迭代結(jié)束。
[0012] 優(yōu)選的,在對(duì)訓(xùn)練樣本集進(jìn)行分類時(shí),首先在訓(xùn)練樣本集中選取樣本形成已標(biāo)注 樣本集L,然后在去除已標(biāo)注樣本集L的訓(xùn)練樣本集中選取樣本形成未標(biāo)注樣本集U,初始 時(shí)要求已標(biāo)注樣本集L中樣本的數(shù)量小于未標(biāo)注樣本集U中樣本的數(shù)量。
[0013] 優(yōu)選的,該方法具體包括如下:
[0014] (1)初始化實(shí)驗(yàn)次數(shù)為K,i=1 ;
[0015] (2)隨機(jī)將訓(xùn)練樣本集分為已標(biāo)注樣本集L、未標(biāo)注樣本集U和測(cè)試樣本集T,已標(biāo) 注樣本集L中樣本的數(shù)量小于未標(biāo)注樣本集U中樣本的數(shù)量;
[0016] (3)初始化迭代次數(shù)為M,j=1 ;
[0017] (4)基于未標(biāo)注樣本集U構(gòu)建N個(gè)差異的訓(xùn)練子集,N為大于1的整數(shù);
[0018] (5)將N個(gè)訓(xùn)練子集分別與已標(biāo)注樣本集L進(jìn)行訓(xùn)練,形成N個(gè)半監(jiān)督極限學(xué)習(xí) 機(jī);同時(shí)設(shè)計(jì)一個(gè)融合半監(jiān)督極限學(xué)習(xí)機(jī),對(duì)N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的輸出進(jìn)行加和取平 均和歸一化處理;半監(jiān)督極限學(xué)習(xí)機(jī)和融合半監(jiān)督極限學(xué)習(xí)機(jī)均有S個(gè)輸出節(jié)點(diǎn),表示總 共有S個(gè)類別;
[0019] (6)將未標(biāo)記樣本集U中第u個(gè)樣本在第n個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的第s個(gè)輸出節(jié) 點(diǎn)的輸出記為fns(u);然后對(duì)N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的第s個(gè)輸出節(jié)點(diǎn)的輸出進(jìn)行加和取 平均,得到融合半監(jiān)督極限學(xué)習(xí)機(jī)第s個(gè)輸出節(jié)點(diǎn)的輸出為表示 ^n^N 第U個(gè)樣本在第S個(gè)輸出節(jié)點(diǎn)的后驗(yàn)概率,歸一化得到
{ph|u),p(y21u),…,p(ysIu)},p(ysIu)表示第u個(gè)樣本屬于第s個(gè)類別的概率;
[0020] (7)計(jì)算第u個(gè)樣本屬于最大概率類別的概率和次大概率類別的概率的差值,并 在未標(biāo)注樣本集U中選出該差值最小的樣本:
[0021]
[0022] 其中:p(ybest |u)表示第u個(gè)樣本屬于最大概率類別的概率值,p(yse_d_best |u)表示 第u個(gè)樣本屬于次大概率類別的概率;在未標(biāo)注樣本集U中選取差值最小的r個(gè)樣本進(jìn)行 人工標(biāo)注并轉(zhuǎn)移到已標(biāo)注樣本集L中;
[0023] (8)判斷j=M是否成立:若成立,則進(jìn)入步驟(9);否則,j=j+1,返回步驟⑷;
[0024] (9)輸出第i次實(shí)驗(yàn)最終的圖像分類正確率的結(jié)果和對(duì)應(yīng)曲線,判斷i=K是否成 立:若成立,則結(jié)束;否則,i=i+1,返回步驟(2)。
[0025] 優(yōu)選的,基于未標(biāo)注樣本集U構(gòu)建N個(gè)差異的訓(xùn)練子集時(shí)考慮樣本的特征數(shù):若特 征數(shù)小于閾值,對(duì)未標(biāo)注樣本集U采用有放回重采樣的方式構(gòu)建N個(gè)差異的訓(xùn)練子集;若特 征數(shù)大于閾值,對(duì)特征進(jìn)行隨機(jī)采樣以構(gòu)建N個(gè)差異的訓(xùn)練子集,以使得最終得到的N個(gè)半 監(jiān)督極限學(xué)習(xí)機(jī)差異明顯。
[0026] 有益效果:本發(fā)明提供的基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類圖像分類方法,相對(duì)于現(xiàn) 有技術(shù),具有如下優(yōu)勢(shì):1、采用融合BvSB主動(dòng)學(xué)習(xí)和半監(jiān)督極限學(xué)習(xí)機(jī)的分類方法,既適 合二類分類問(wèn)題,也適合解決多類分類問(wèn)題;2、半監(jiān)督極限學(xué)習(xí)機(jī),將半監(jiān)督方法嵌入極限 學(xué)習(xí)機(jī)之中,雖不能自動(dòng)標(biāo)記樣本,卻為分類器分類面的確立提供了更加準(zhǔn)確的依據(jù),提高 了分類的準(zhǔn)確性和魯棒性;3、在取得相似分類性能的情況下,與SVM相比,采用極限學(xué)習(xí)機(jī) 的本發(fā)明方法在學(xué)習(xí)速度上要快幾十倍甚至上百倍(這與訓(xùn)練樣本的數(shù)量有關(guān));4、本發(fā) 明解決了相關(guān)技術(shù)中圖像分類存在分類正確率低和學(xué)習(xí)速度低的問(wèn)題,為準(zhǔn)確、快速、穩(wěn)定 的圖像分類奠定了一定的基礎(chǔ)。
【附圖說(shuō)明】
[0027] 圖1為本發(fā)明的算法框架;
[0028] 圖2為整個(gè)方法的算法流程圖;
[0029] 圖3為分類器輸出值與分類不確定性的關(guān)系;
[0030] 圖4為單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)的基本框架;
[0031] 圖5為為optidigits手寫(xiě)體數(shù)據(jù)集的示意圖;
[0032] 圖6為Caltech-101數(shù)據(jù)集的示意圖;
[0033] 圖7為在optidigits庫(kù)上的分類結(jié)果對(duì)比圖;
[0034] 圖8為在Caltech-101庫(kù)上的分類結(jié)果對(duì)比圖。
【具體實(shí)施方式】
[0035] 下面結(jié)合附圖對(duì)本發(fā)明作更進(jìn)一步的說(shuō)明。
[0036] 如圖1、圖2所示為一種基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類圖像分類方法,該方法具體 包括如下:
[0037] (1)初始化實(shí)驗(yàn)次數(shù)為K,i= 1 ;
[0038] (2)將訓(xùn)練樣本集中的樣本順序打亂并重排,取排在最前面的一定比例的樣本 (通常比例較低)作為已標(biāo)注樣本集L,取其后一定比例的樣本(通常比例較高)作為未標(biāo) 注樣本集U,剩余的樣本作為測(cè)試樣本集T,已標(biāo)注樣本集L中樣本的數(shù)量小于未標(biāo)注樣本 集U中樣本的數(shù)量;
[0039] (3)初始化迭代次數(shù)為M,j= 1;
[0040] (4)基于未標(biāo)注樣本集U構(gòu)建N個(gè)差異的訓(xùn)練子集,N為大于1的整數(shù);
[0041] (5)將N個(gè)訓(xùn)練子集分別與已標(biāo)注樣本集L進(jìn)行訓(xùn)練,形成N個(gè)半監(jiān)督極限學(xué)習(xí) 機(jī);同時(shí)設(shè)計(jì)一個(gè)融合半監(jiān)督極限學(xué)習(xí)機(jī),對(duì)N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的輸出進(jìn)行加和取平 均和歸一化處理;半監(jiān)督極限學(xué)習(xí)機(jī)和融合半監(jiān)督極限學(xué)習(xí)機(jī)均有S個(gè)輸出節(jié)點(diǎn),表示總 共有S個(gè)類別;
[0042] (6)將未標(biāo)記樣本集U中第u個(gè)樣本在第n個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的第s個(gè)輸出節(jié) 點(diǎn)的輸出記為fns(u);然后對(duì)N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的第s個(gè)輸出節(jié)點(diǎn)的輸出進(jìn)行加和取 平均,得到融合半監(jiān)督極限學(xué)習(xí)機(jī)第s個(gè)輸出節(jié)點(diǎn)的輸出為.
((《)表示 第u個(gè)樣本在第s個(gè)輸出節(jié)點(diǎn)的后驗(yàn)概率,歸一化得到
p(Y|u)= {ph|u),p(y21u),…,p(ys |u)},p(ys |u)表示第u個(gè)樣本屬于第s個(gè)類別的概率;
[0043] (7)計(jì)算第u個(gè)樣本屬于最大概率類別的概率和次大概率類別的概率的差值,并 在未標(biāo)注樣本集U中選出該差值最小的樣本:
[0044]
[0045] 其中:p(ybest|u)表示第u個(gè)樣本屬于最大概率類別的概率值,p(yse_d_best|u)表示 第u