個(gè)樣本屬于次大概率類(lèi)別的概率;在未標(biāo)注樣本集U中選取差值最小的r個(gè)樣本進(jìn)行 人工標(biāo)注并轉(zhuǎn)移到已標(biāo)注樣本集L中;
[0046] (8)判斷j=M是否成立:若成立,則進(jìn)入步驟(9);否則,j=j+1,返回步驟⑷;
[0047] (9)輸出第i次實(shí)驗(yàn)最終的圖像分類(lèi)正確率的結(jié)果和對(duì)應(yīng)曲線,判斷i=K是否成 立:若成立,則結(jié)束;否則,i=i+1,返回步驟(2)。
[0048]所述步驟(2),選取已標(biāo)注樣本集L和未標(biāo)注樣本集U的比例可以根據(jù)實(shí)際情況做 調(diào)整,直到達(dá)到最佳分類(lèi)性能。在選取樣本集之前,需要對(duì)圖像進(jìn)行包括Dense-SIFT特征 提取、Histogramencoding編碼方式和pooling進(jìn)行特征的詞頻統(tǒng)計(jì),以得到圖像的特征。
[0049]所述步驟(4),若特征數(shù)小于閾值,對(duì)未標(biāo)注樣本集U采用有放回重采樣的方式構(gòu) 建N個(gè)差異的訓(xùn)練子集;若特征數(shù)大于閾值,對(duì)特征進(jìn)行隨機(jī)采樣以構(gòu)建N個(gè)差異的訓(xùn)練子 集,以使得最終得到的N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)差異明顯。
[0050] 所述步驟(5),主要是為了在構(gòu)建差異的半監(jiān)督極限學(xué)習(xí)機(jī)后,通過(guò)融合使得得到 的分類(lèi)器穩(wěn)定性能增強(qiáng);在每一次迭代過(guò)程中都是通過(guò)這一步重新更新分類(lèi)器的。
[0051] 所述步驟(6),包括了輸出標(biāo)準(zhǔn)化的處理,是為了保證得到的結(jié)果一致并且不會(huì)影 響最終的分類(lèi)結(jié)果。
[0052]所述步驟(7),將未標(biāo)注樣本集U中的每個(gè)節(jié)點(diǎn)輸出的最大值和最小值作差,這個(gè) 差值是用來(lái)衡量樣本的分類(lèi)不確定性,這比相對(duì)于通過(guò)求信息熵的方法更準(zhǔn)確,因?yàn)闃颖?中那些不重要的類(lèi)別不會(huì)對(duì)其產(chǎn)生影響。分類(lèi)器輸出值與分類(lèi)不確定性的關(guān)系如圖3所 不〇
[0053] 下面結(jié)合實(shí)施例對(duì)本發(fā)明做出進(jìn)一步的說(shuō)明。
[0054] 以UCI數(shù)據(jù)庫(kù)中的手寫(xiě)體數(shù)據(jù)集optidigits與penbased和場(chǎng)景圖片庫(kù) Caltech-101與15natural scene categories作為實(shí)驗(yàn)的數(shù)據(jù)庫(kù)來(lái)源。optidigits的圖 像信息如圖5所示,Caltech-101的圖像信息如6所示。
[0055] 通過(guò)Dense-SIFT特征提取、Histogramencoding編碼方式和pooling進(jìn)行特征 的詞頻統(tǒng)計(jì)得到圖像的表征之后,采用有放回重采樣bootstrap對(duì)未標(biāo)記樣本構(gòu)造多個(gè)差 異子集。然后利用半監(jiān)督極限學(xué)習(xí)機(jī)構(gòu)造分類(lèi)器,得到更加準(zhǔn)確的、穩(wěn)定的分類(lèi)面。半監(jiān)督 極限學(xué)習(xí)機(jī)是在極限學(xué)習(xí)機(jī)的基礎(chǔ)上嵌入半監(jiān)督學(xué)習(xí)算法,也是一種基于單隱層前饋神經(jīng) 網(wǎng)絡(luò)(SLFN)的分類(lèi)算法,簡(jiǎn)單的單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)的結(jié)構(gòu)如圖4所示。按照本 發(fā)明的方法,該案的實(shí)施過(guò)程如下:
[0056] (1)將已標(biāo)注訓(xùn)練樣本用bootstrap方法構(gòu)建多個(gè)差異的訓(xùn)練子集,并在各個(gè)子 集上分別訓(xùn)練一個(gè)半監(jiān)督ELM;
[0057] (2)針對(duì)每一個(gè)未標(biāo)注樣本,根據(jù)各個(gè)ELM各輸出節(jié)點(diǎn)的輸出值進(jìn)行后驗(yàn)概率轉(zhuǎn) 換,采f
i一公式,其中fs(u)表示第u個(gè)樣本在第s個(gè)輸出節(jié)點(diǎn)的后 驗(yàn)概率,歸一化得到
3(Y|u) = {phluhphlu), ???,p(ys|u)}, P(ysIu)表示第u個(gè)樣本屬于第s個(gè)類(lèi)別的概率;
[0058] (4)初始化具有nh個(gè)隱層結(jié)點(diǎn)的ELM神經(jīng)網(wǎng)絡(luò),隨機(jī)設(shè)置輸入權(quán)值和隱層偏置,并 通過(guò)Moore-Penrose廣義逆計(jì)算隱層輸出矩陣H;
[0059] (5)設(shè)定初始補(bǔ)償系數(shù)Q和折衷參數(shù)入^
[0060] (6)如果隱層節(jié)點(diǎn)數(shù)nh小于已標(biāo)注訓(xùn)練樣本數(shù),計(jì)算輸出權(quán)重
果隱層節(jié)點(diǎn)數(shù)nh大于等于已標(biāo)注訓(xùn)練樣本數(shù),計(jì) 算輸出權(quán)I
,返回匹配函數(shù)f(x) =h(x)f3,即得到半監(jiān)督 極限學(xué)習(xí)機(jī)的輸出;其中,及為維數(shù)為nh的單位矩陣,C為是一個(gè)(1+k)X(1+k)維對(duì)角矩 陣,其前1個(gè)對(duì)角線上的元素為Ci,其余元素為0 ;Ci為第i個(gè)輸入節(jié)點(diǎn)上的補(bǔ)償系數(shù),1為 已標(biāo)注樣本數(shù),k為未標(biāo)注樣本數(shù);F是前1行等于t,其余為0的(1+k)X%維的增廣矩 陣。1為1個(gè)已標(biāo)注樣本的標(biāo)簽組成的矩陣,n^為初始隱層節(jié)點(diǎn)數(shù),L是(1+k)X(1+k)維 的基于已標(biāo)注樣本集和未標(biāo)注樣本集的拉普拉斯算子,A為折衷參數(shù)組成的矩陣,H為隱 層輸出矩陣,HT為隱層輸出矩陣的轉(zhuǎn)置。
[0061] (8)最后根據(jù)各個(gè)分類(lèi)器輸出求和并算平均值得到最終的分類(lèi)器輸出。
[0062] 對(duì)于每個(gè)未標(biāo)注樣本,將它們各自在分類(lèi)器中的結(jié)點(diǎn)輸出的最大值與次大值作 差。以這個(gè)差值作為該樣本的分類(lèi)不確定度。公式為:
[0063]
[0064] 其中,p(ytest |u)表示第u個(gè)樣本屬于最大概率類(lèi)別的概率值,p(ys_d_bJu)表示 第u個(gè)樣本屬于次大概率類(lèi)別的概率;差值越小,分類(lèi)不確定性越大,樣本越難分,信息量 越大。對(duì)于這樣的樣本我們需要提取出來(lái)由人工標(biāo)注,這樣避免了錯(cuò)分,也在一定程度上改 善了分類(lèi)面。然后所有未標(biāo)注樣本按照不確定度由大到小排列,取前r個(gè)最不確定、信息量 最大的樣本進(jìn)行人工標(biāo)注并從未標(biāo)注樣本集中剔除,加入到已標(biāo)注樣本集當(dāng)中。
[0065] 至此,一次迭代結(jié)束,重新更新分類(lèi)器模型,進(jìn)行下一次的迭代。
[0066] 由于每次實(shí)驗(yàn)過(guò)程中,半監(jiān)督極限學(xué)習(xí)機(jī)的輸入權(quán)重和因曾偏置都是隨機(jī)確定 的,故每次的結(jié)果也略有不同。所以需要采取連續(xù)進(jìn)行多次實(shí)驗(yàn)取平均的方式得到最終的 圖像分類(lèi)結(jié)果,這樣得到的結(jié)果更具有魯棒性和一般性。
[0067] 在以上所提到的optidigits、Caltech-101兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),均能得到比 單純使用主動(dòng)學(xué)習(xí)、隨機(jī)抽取的方法更好的分類(lèi)性能。圖7、圖8分別為兩個(gè)數(shù)據(jù)庫(kù)上本發(fā) 明與其它兩種方法的性能對(duì)照。同時(shí),在取得同等分類(lèi)性能的情況下,本發(fā)明比使用SVM分 類(lèi)在學(xué)習(xí)速度上要快很多,表1為在optidigits上本發(fā)明和SVM的分類(lèi)性能對(duì)照。
[0068] 表loptidigits庫(kù)上本發(fā)明與SVM分類(lèi)性能對(duì)比圖
[0069]
[0070] 以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人 員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng) 視為本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類(lèi)圖像分類(lèi)方法,其特征在于:該方法融合了主動(dòng) 學(xué)習(xí)技術(shù)和半監(jiān)督學(xué)習(xí)技術(shù),使用半監(jiān)督極限學(xué)習(xí)機(jī)進(jìn)行分類(lèi),同時(shí)使用多分類(lèi)器融合方 法和投票委員會(huì)選擇方法;單次迭代過(guò)程為:首先,將訓(xùn)練樣本集分為已標(biāo)注樣本集L、未 標(biāo)注樣本集U和測(cè)試樣本集T;然后,基于未標(biāo)注樣本集U構(gòu)建N個(gè)差異的訓(xùn)練子集,N為大 于1的整數(shù);接著,將N個(gè)訓(xùn)練子集分別與已標(biāo)注樣本集L進(jìn)行訓(xùn)練,形成N個(gè)半監(jiān)督極限 學(xué)習(xí)機(jī);同時(shí)設(shè)計(jì)一個(gè)融合半監(jiān)督極限學(xué)習(xí)機(jī),對(duì)N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的輸出進(jìn)行加和 取平均,并作歸一化處理;對(duì)未標(biāo)注樣本集U中每一個(gè)樣本在N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的對(duì)應(yīng) 輸出節(jié)點(diǎn)的輸出進(jìn)行加和取平均,即可得到融合半監(jiān)督極限學(xué)習(xí)機(jī)對(duì)應(yīng)節(jié)點(diǎn)的輸出;接著, 應(yīng)用最優(yōu)標(biāo)記和次優(yōu)標(biāo)記算法的主動(dòng)學(xué)習(xí)進(jìn)行不確定性評(píng)估,將未標(biāo)注樣本集U中最不確 定的r個(gè)樣本進(jìn)行人工標(biāo)注并轉(zhuǎn)移到已標(biāo)注樣本集L中;最后,根據(jù)更新后的已標(biāo)注樣本集 L和未標(biāo)注樣本集U進(jìn)行下一次的迭代,直至迭代結(jié)束。2. 根據(jù)權(quán)利要求1所述的基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類(lèi)圖像分類(lèi)方法,其特征在于: 在對(duì)訓(xùn)練樣本集進(jìn)行分類(lèi)時(shí),首先在訓(xùn)練樣本集中選取樣本形成已標(biāo)注樣本集L,然后在去 除已標(biāo)注樣本集L的訓(xùn)練樣本集中選取樣本形成未標(biāo)注樣本集U,初始時(shí)要求已標(biāo)注樣本 集L中樣本的數(shù)量小于未標(biāo)注樣本集U中樣本的數(shù)量。3. 根據(jù)權(quán)利要求1所述的基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類(lèi)圖像分類(lèi)方法,其特征在于: 該方法具體包括如下: (1) 初始化實(shí)驗(yàn)次數(shù)為K,i= 1 ; (2) 隨機(jī)將訓(xùn)練樣本集分為已標(biāo)注樣本集L、未標(biāo)注樣本集U和測(cè)試樣本集T,已標(biāo)注樣 本集L中樣本的數(shù)量小于未標(biāo)注樣本集U中樣本的數(shù)量; (3) 初始化迭代次數(shù)為M,j= 1 ; (4) 基于未標(biāo)注樣本集U構(gòu)建N個(gè)差異的訓(xùn)練子集,N為大于1的整數(shù); (5) 將N個(gè)訓(xùn)練子集分別與已標(biāo)注樣本集L進(jìn)行訓(xùn)練,形成N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī);同 時(shí)設(shè)計(jì)一個(gè)融合半監(jiān)督極限學(xué)習(xí)機(jī),對(duì)N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的輸出進(jìn)行加和取平均和歸 一化處理;半監(jiān)督極限學(xué)習(xí)機(jī)和融合半監(jiān)督極限學(xué)習(xí)機(jī)均有S個(gè)輸出節(jié)點(diǎn),表示總共有S個(gè) 類(lèi)別; (6) 將未標(biāo)記樣本集U中第u個(gè)樣本在第n個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的第s個(gè)輸出節(jié)點(diǎn) 的輸出記為fns(u);然后對(duì)N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)的第s個(gè)輸出節(jié)點(diǎn)的輸出進(jìn)行加和取平 均,得到融合半監(jiān)督極限學(xué)習(xí)機(jī)第s個(gè)輸出節(jié)點(diǎn)的輸出為fs(u)表示 第u個(gè)樣本在第s個(gè)輸出節(jié)點(diǎn)的后驗(yàn)概率,歸一化得到.,p(Y|u)= {ph|u),p(y21u),…,p(ys |u)},p(ys |u)表示第u個(gè)樣本屬于第s個(gè)類(lèi)別的概率; (7) 計(jì)算第u個(gè)樣本屬于最大概率類(lèi)別的概率和次大概率類(lèi)別的概率的差值,并在未 標(biāo)注樣本集U中選出該差值最小的樣本:其中斤汰」幻表示第11個(gè)樣本屬于最大概率類(lèi)別的概率值4(7%_"^|11)表示第11 個(gè)樣本屬于次大概率類(lèi)別的概率;在未標(biāo)注樣本集U中選取差值最小的r個(gè)樣本進(jìn)行人工 標(biāo)注并轉(zhuǎn)移到已標(biāo)注樣本集L中; (8) 判斷j=M是否成立:若成立,貝1」進(jìn)入步驟(9);否則,j=j+1,返回步驟(4); (9) 輸出第i次實(shí)驗(yàn)最終的圖像分類(lèi)正確率的結(jié)果和對(duì)應(yīng)曲線,判斷i=K是否成立: 若成立,則結(jié)束;否則,i=i+1,返回步驟(2)。4.根據(jù)權(quán)利要求1所述的基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類(lèi)圖像分類(lèi)方法,其特征在于: 基于未標(biāo)注樣本集U構(gòu)建N個(gè)差異的訓(xùn)練子集時(shí)考慮樣本的特征數(shù):若特征數(shù)小于閾值,對(duì) 未標(biāo)注樣本集U采用有放回重采樣的方式構(gòu)建N個(gè)差異的訓(xùn)練子集;若特征數(shù)大于閾值,對(duì) 特征進(jìn)行隨機(jī)采樣以構(gòu)建N個(gè)差異的訓(xùn)練子集,以使得最終得到的N個(gè)半監(jiān)督極限學(xué)習(xí)機(jī) 差異明顯。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于半監(jiān)督極限學(xué)習(xí)機(jī)的多類(lèi)圖像分類(lèi)方法,將訓(xùn)練樣本集分為已標(biāo)注樣本集L、未標(biāo)注樣本集U和測(cè)試集T;把U中的樣本進(jìn)行有放回重采樣構(gòu)建N個(gè)差異的訓(xùn)練子集;然后在各個(gè)子集上與已標(biāo)記訓(xùn)練樣本L分別訓(xùn)練一個(gè)半監(jiān)督極限學(xué)習(xí)機(jī)模型,共N個(gè)分類(lèi)器;將這N次極限學(xué)習(xí)機(jī)對(duì)應(yīng)節(jié)點(diǎn)的輸出求和取平均;將輸出作歸一化處理后,應(yīng)用最優(yōu)標(biāo)記和次優(yōu)標(biāo)記算法BvSB的主動(dòng)學(xué)習(xí)技術(shù)對(duì)樣本進(jìn)行不確定性評(píng)估,從U中取最不確定的樣本進(jìn)行人工標(biāo)注并轉(zhuǎn)移到L中;重新更新分類(lèi)器模型,直至迭代結(jié)束。通過(guò)本發(fā)明,解決了相關(guān)技術(shù)中圖像分類(lèi)存在分類(lèi)正確率低和學(xué)習(xí)速度低的問(wèn)題,為準(zhǔn)確、快速、穩(wěn)定的圖像分類(lèi)奠定了一定的基礎(chǔ)。
【IPC分類(lèi)】G06K9/62
【公開(kāi)號(hào)】CN104992184
【申請(qǐng)?zhí)枴緾N201510381792
【發(fā)明人】孫長(zhǎng)銀, 劉金花, 于化龍, 楊萬(wàn)扣
【申請(qǐng)人】東南大學(xué)
【公開(kāi)日】2015年10月21日
【申請(qǐng)日】2015年7月2日