本發(fā)明涉及計(jì)算機(jī)圖像處理技術(shù)領(lǐng)域,具體涉及一種基于多特征融合的圖像場(chǎng)景分類方法。
背景技術(shù):
圖像理解(image understanding,IU)就是對(duì)圖像的語義理解。它是以圖像為對(duì)象,知識(shí)為核心,研究圖像中有什么目標(biāo)、目標(biāo)之間的相互關(guān)系、圖像是什么場(chǎng)景以及如何應(yīng)用場(chǎng)景的一門學(xué)科。其中,圖像場(chǎng)景分類是圖像理解的一個(gè)分支。所謂圖像場(chǎng)景分類,就是自動(dòng)判別一個(gè)語義類別集中的一幅圖像屬于哪個(gè)場(chǎng)景類(如海灘、森林和街道)。圖像場(chǎng)景分類技術(shù)一直以來備受人們的研究關(guān)注。已經(jīng)在很多方面得到應(yīng)用。雖然人們?cè)谔崛√卣鞣矫嫒〉煤艽蟮倪M(jìn)步,但是由于光照、角度、尺度以及空間位置的影響,圖像場(chǎng)景分類仍然是一項(xiàng)具有挑戰(zhàn)的任務(wù)。
根據(jù)圖像描述方式的不同,當(dāng)前圖像場(chǎng)景分類大體可分為基于全局特征和基于局部特征的分類。然而,由于圖像中包含的各種物體信息非常豐富,但彼此之間的空間分布錯(cuò)綜復(fù)雜,基于全局特征或者基于局部特征的描述方法都會(huì)造成不可避免的錯(cuò)分、誤分等現(xiàn)象。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是現(xiàn)有圖像場(chǎng)景分類方法存在錯(cuò)分、誤分的問題,提供一種基于多特征融合的圖像場(chǎng)景分類方法,其能夠在提升分類精度的同時(shí),保證分類效率。
為解決上述問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
基于多特征融合的圖像場(chǎng)景分類方法,包括如下步驟:
步驟1)樣本圖像的訓(xùn)練階段;
1.1)同時(shí)提取樣本圖像的GIST特征、SIFT特征和PHOG特征;
1.2)對(duì)樣本圖像的SIFT特征進(jìn)行局部約束線性編碼,得到樣本圖像的SIFT特征稀疏編碼;
1.3)樣本圖像的SIFT特征稀疏編碼經(jīng)池化處理后得到樣本圖像的SIFT特征稀疏向量;
1.4)將樣本圖像的GIST特征、SIFT特征稀疏向量和PHOG特征進(jìn)行級(jí)聯(lián)后形成樣本圖像的最終特征表示,并將樣本圖像的最終特征表示輸入線性分類器訓(xùn)練;
步驟2)待分類圖像的分類階段;
2.1)同時(shí)提取待分類圖像的GIST特征、SIFT特征和PHOG特征;
2.2)對(duì)待分類圖像的SIFT特征進(jìn)行局部約束線性編碼,得到待分類圖像的SIFT特征稀疏編碼;
2.3)待分類圖像的SIFT特征稀疏編碼經(jīng)池化處理后得到待分類圖像的SIFT特征稀疏向量;
2.4)將待分類圖像的GIST特征、SIFT特征稀疏向量和PHOG特征進(jìn)行級(jí)聯(lián)后形成待分類圖像的最終特征表示,將待分類圖像的最終特征表示輸入步驟1.4)訓(xùn)練好的線性分類器進(jìn)行判別,確定該幅待分類圖像屬于哪一類。
上述步驟1.3)和步驟2.3)中,所述池化處理是基于基于空間金字塔匹配框架的池化處理。
上述步驟1.1)和步驟2.1)中,GIST特征提取的過程為:首先將圖像和不同方向與不同尺度的Gabor濾波器組進(jìn)行濾波,然后把濾波后的圖像劃分成網(wǎng)格,在每一個(gè)網(wǎng)格內(nèi)部取平均值,最后按行組合把所有的網(wǎng)格均值級(jí)聯(lián)起來。
上述步驟1.1)和步驟2.1)中,SIFT特征提取的過程包括:構(gòu)建尺度空間,極值點(diǎn)檢測(cè),特征點(diǎn)定位,計(jì)算特征點(diǎn)方向,以及生成SIFT特征描述符這5個(gè)步驟。
上述步驟1.1)和步驟2.1)中,PHOG特征提取的過程為:首先得到圖像的部分或全部輪廓;然后計(jì)算輪廓點(diǎn)處的梯度模和梯度方向,并再將梯度方向轉(zhuǎn)換成以度為單位后分成K個(gè)區(qū)間,在各區(qū)間上累加梯度模的值作為該區(qū)間的權(quán)值,得到梯度方向直方圖;接著將一幅圖像逐級(jí)分割細(xì)化;最后計(jì)算每一級(jí)各塊所含邊緣點(diǎn)對(duì)應(yīng)的梯度方向直方圖,將所有這些梯度方向直方圖連接起來;上述K為正整數(shù)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下特點(diǎn):
(1)利用GIST特征對(duì)圖像產(chǎn)生一個(gè)綜合的認(rèn)知,綜合描述了自然度、開放度、粗略度、展開度和崎嶇度五種自然屬性,相比較傳統(tǒng)的場(chǎng)景分類方法可以避免了根據(jù)各種實(shí)際情況設(shè)置各種參數(shù)和門限。
(2)在特征學(xué)習(xí)過程中融合了GIST、SIFT跟PHOG特征的各自的優(yōu)點(diǎn),能夠起到特征之間的優(yōu)勢(shì)互補(bǔ),因而能夠在一種特征不能詳細(xì)描述圖像的情況下,取得更好的分類精度。
(3)對(duì)于輸入圖像視覺特征的學(xué)習(xí)采用稀疏編碼,對(duì)于圖像的特征之間空間關(guān)系采用SPM框架進(jìn)行池化,能夠?qū)Ω呔S向量起到有效的降維作用。
(4)LLC的編碼速度快,效率高,為線性分類提供了基礎(chǔ)。分類時(shí)使用線性分類器能大大縮短訓(xùn)練時(shí)間。在提高分類精度的同時(shí),又增強(qiáng)了系統(tǒng)的魯棒性。
附圖說明
圖1為基于多特征融合的圖像場(chǎng)景分類方法的原理框圖。
具體實(shí)施方式
針對(duì)圖像當(dāng)中的不同對(duì)象,各種特征的優(yōu)勢(shì)各不相同,彼此之間存在互補(bǔ)現(xiàn)象,多特征融合能夠解決單特征描述的不足。本發(fā)明提出一種基于多特征融合的圖像場(chǎng)景分類方法,首先,提取出圖像的GIST特征、SIFT特征和PHOG特征。由于GIST特征屬于稀疏網(wǎng)格劃分,所以一個(gè)網(wǎng)格中可能包含不同的場(chǎng)景特征,里面的具體細(xì)節(jié)目標(biāo)可能會(huì)被忽略。SIFT特征是圖像場(chǎng)景分類中被廣泛使用的一種局部特征,實(shí)現(xiàn)對(duì)特征點(diǎn)的精確定位。PHOG特征是一種空間形狀描述,它表征一副圖像的局部形狀以及其形狀的空間關(guān)系。三者組合起來描述圖像場(chǎng)景能夠提供更豐富的信息,特征之間能夠達(dá)到優(yōu)勢(shì)互補(bǔ)。然后,對(duì)SIFT特征進(jìn)行局部約束線性編碼(Locality-constrained linear coding,LLC),LLC在基于稀疏編碼的空間金字塔匹配(spatial pyramid matching using sparse coding,ScSPM)的基礎(chǔ)上引入了局部約束的概念,認(rèn)為圖像特征不僅要滿足稀疏性,同時(shí)還要兼顧局部性,進(jìn)一步提高了計(jì)算效率和準(zhǔn)確性;緊接著,進(jìn)行向量的最大池化。最后,采用線性SVM分類器對(duì)空間金字塔特征集進(jìn)行分類。
具體來說,基于多特征融合的圖像場(chǎng)景分類方法,如圖1所示,包括以下步驟:
步驟1)樣本圖像的訓(xùn)練階段。
1.1)同時(shí)提取樣本圖像的GIST特征、SIFT特征和PHOG特征。
1.2)對(duì)樣本圖像的SIFT特征進(jìn)行局部約束線性編碼,得到樣本圖像的SIFT特征稀疏編碼。
1.3)樣本圖像的SIFT特征稀疏編碼經(jīng)池化處理后得到樣本圖像的SIFT特征稀疏向量。所述池化處理是基于空間金字塔匹配框架的池化處理。
1.4)將樣本圖像的GIST特征、SIFT特征稀疏向量和PHOG特征進(jìn)行級(jí)聯(lián)后形成樣本圖像的最終特征表示,并將樣本圖像的最終特征表示輸入線性分類器訓(xùn)練。
步驟2)待分類圖像的分類階段。
2.1)同時(shí)提取待分類圖像的GIST特征、SIFT特征和PHOG特征待。
2.2)對(duì)待分類圖像的SIFT特征進(jìn)行局部約束線性編碼,得到待分類圖像的SIFT特征稀疏編碼待。
2.3)待分類圖像的SIFT特征稀疏編碼經(jīng)池化處理后得到待分類圖像的SIFT特征稀疏向量待。所述池化處理是基于基于空間金字塔匹配框架的池化處理。
2.4)將待分類圖像的GIST特征、SIFT特征稀疏向量和PHOG特征進(jìn)行級(jí)聯(lián)后形成待分類圖像的最終特征表示,將待分類圖像的最終特征表示輸入步驟1.4)訓(xùn)練好的線性分類器進(jìn)行判別,確定該幅待分類圖像屬于哪一類。
稀疏表示是近幾年來圖像處理和計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一,它是一種無監(jiān)督學(xué)習(xí)方法,用來尋找一組“超完備”基向量來更高效地表示樣本數(shù)據(jù)。在圖像處理領(lǐng)域中,圖像的稀疏表示是在SPM框架內(nèi),將圖像各個(gè)區(qū)域內(nèi)池化后的向量A級(jí)聯(lián)起來,從而表示一幅圖像的過程。
本發(fā)明中采用LLC對(duì)底層特征進(jìn)行編碼,LLC編碼側(cè)重于局部約束,而不是稀疏性,局部性可以帶來稀疏性,但稀疏性未必滿足局部性。從這方面而言,局部性約束比稀疏性約束更為重要。LLC的編碼滿足下式的約束:
式(1)可以按照加號(hào)的前后分成兩部分:加號(hào)前的項(xiàng)最小化是為了減少量化誤差,學(xué)習(xí)字典B并確認(rèn)投影系數(shù);加號(hào)后的項(xiàng)則是做出假設(shè)約束。其中,X=[x1,x2,…,xN]∈RD×N,是一個(gè)包含N個(gè)D維局部特征的矩陣,xi為待編碼的向量。B=[b1,b2,...,bM]∈RD×M,是一個(gè)包含M個(gè)視覺詞匯的詞典。LLC編碼把所有X映射到B定義的編碼空間,ui為經(jīng)過LLC得到的編碼。λ為正則項(xiàng)平衡加號(hào)前后兩項(xiàng),并確保ui的稀疏性。||di·ui||是向量元素di和ui維度的相乘,體現(xiàn)了編碼的局部性。di為不同編碼的權(quán)重,用于權(quán)衡編碼中每個(gè)元素ui和詞典B中相應(yīng)列的關(guān)系。di可用下式計(jì)算:
其中,dist(xi,B)=[dist(ai,b1),…,dist(ai,bM)]T,dist(ai,bj)是局部特征ai到視覺詞匯bj的歐氏距離。每個(gè)元素代表向量xi與詞典B中每列向量的歐氏距離。σ為可調(diào)整的參數(shù),用于控制di的大小,即控制局部衰減性速度。
由于加入局部性的約束,LLC編碼相對(duì)于稀疏編碼而言更為平滑。ScSPM稀疏編碼時(shí),為滿足編碼的稀疏性,相似的像素塊經(jīng)過編碼后得到的結(jié)果有可能差異較大,因此導(dǎo)致丟失其大部分相似性信息。LLC編碼能保證相似的像素塊得到相近的編碼,從而保證重建出的像素塊的相似性,保證局部平滑。
ScSPM稀疏編碼時(shí)需要采取優(yōu)化算法進(jìn)行迭代,帶來較高的計(jì)算量,而LLC算法有解析解,能夠降低運(yùn)算消耗,加快運(yùn)算速度。在實(shí)驗(yàn)部分,則采用最大池化跟L2正則化。
max-pooling:max-pooling為池化方式的一種。在本發(fā)明中,我們利用基于LLC編碼的SIFT得到圖像稀疏向量表示,并結(jié)合線性SVM分類器進(jìn)行分類。U是描述符集X利用公式(1)稀疏編碼之后的結(jié)果。假設(shè)碼本B是提前訓(xùn)練好的。我們定義池化函數(shù):
Z=F(U) (3)
其中,U=[u1,u2,…,uM]T,z=[z1,z2,…,zM],zj=max{|u1j|,|u2j|,…,|uMj|},M為圖像特征描述子的個(gè)數(shù),zj是z的第j個(gè)元素,uij是矩陣U的第i行第j列的元素。每個(gè)ui就是一個(gè)特征描述子的稀疏編碼。最大池化技術(shù)是根據(jù)人腦視覺皮層V1區(qū)中生物學(xué)方面來建立的,自然圖像經(jīng)過稀疏編碼后得到的基函數(shù)類似V1區(qū)簡(jiǎn)單細(xì)胞感受野的反應(yīng)特性,綜合了圖像空間局部性、空間方向性、信息選擇性的特點(diǎn),因此比直方圖統(tǒng)計(jì)的平均池化具有更好的魯棒性。
如圖1所示,圖像場(chǎng)景分類方法的算法,包含以下步驟:
步驟1:在D類圖像中,每類隨機(jī)選取C幅圖像作為訓(xùn)練圖像。
步驟2:生成GIST特征
將一幅大小為r×c的灰度圖像f(x,y)劃分為np×np的規(guī)則網(wǎng)格,則網(wǎng)格塊數(shù)為ng=np×np。各網(wǎng)格塊按行依次記作pi,其中i=1,…,ng;每個(gè)網(wǎng)格塊大小為r’×c’,r’,=r/np,c’=c/np。分別用nc個(gè)通道的濾波器對(duì)圖像進(jìn)行卷積濾波,其中nc=m×n,m為濾波器尺度數(shù),n濾波器方向數(shù),則每個(gè)網(wǎng)格塊各通道濾波后,級(jí)聯(lián)結(jié)果稱為塊GIST(PG)特征,對(duì)Gp(Gp表示每個(gè)網(wǎng)格塊的GIST(PG)特征)各通道濾波結(jié)果取均值后按行組合的結(jié)果稱為全局GIST(GG)特征,即(GG是全局GIST(GG)特征)
其中,GG的維數(shù)是nc×ng。
本發(fā)明將圖像劃分為4×4的規(guī)則網(wǎng)格,用4個(gè)尺度8個(gè)方向共32個(gè)Gabor濾波器處理每一小塊圖像,再將經(jīng)過處理過后的每一小塊圖像所得到的塊圖像GIST(PG)特征進(jìn)行級(jí)聯(lián)就可以得到全局GIST(GG)特征,這樣就可以得到一個(gè)32×16大小的特征向量組,此一維特征向量組即為所需要求取的全局GIST(GG)特征向量。將整個(gè)圖像的所有圖像塊的GIST向量級(jí)聯(lián)得到整幅場(chǎng)景圖像的GIST特征共計(jì)512維的特征向量組,用A1表示。
步驟3:生成SIFT特征
傳統(tǒng)的SIFT特征提取主要包括五個(gè)步驟:構(gòu)建尺度空間,極值點(diǎn)檢測(cè),特征點(diǎn)定位,計(jì)算特征點(diǎn)方向,生成SIFT特征描述符。
(1)構(gòu)建尺度空間。圖像尺度空間是由一個(gè)變尺度的高斯卷積核G(x,y,σ)和圖像I(x,y)卷積生成,定義為:
L(x,y,σ)=G(x,y,σ)*I(x,y) (5)
其中,G(x,y,σ)是尺度可變高斯函數(shù):
其中,(x,y)是空間坐標(biāo),是尺度坐標(biāo)。σ表示尺度因子,大尺度對(duì)應(yīng)圖像的概貌特征,小尺度對(duì)應(yīng)圖像的細(xì)節(jié)特征。大的σ值對(duì)應(yīng)粗糙尺度(低分辨率),反之,對(duì)應(yīng)精細(xì)尺度(高分辨率)。為了有效的在尺度空間檢測(cè)到穩(wěn)定的關(guān)鍵點(diǎn),提出了高斯差分(DOG)尺度空間。利用不同尺度的高斯差分核與圖像卷積生成。
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y) (7)
(2)極值點(diǎn)檢測(cè)。建立尺度空間后,為了尋找尺度空間的極值點(diǎn),每一個(gè)采樣點(diǎn)要和它所有的相鄰點(diǎn)比較,看其是否比它的圖像域和尺度域的相鄰點(diǎn)大或者小。DOG圖像中的像素點(diǎn)需要與同一尺度的8個(gè)相鄰點(diǎn)和上下相鄰尺度對(duì)應(yīng)的9×2個(gè)點(diǎn)共26個(gè)點(diǎn)比較,以確保在尺度空間和二維圖像空間都檢測(cè)到極值點(diǎn)。
(3)精確定位極值點(diǎn)。利用泰勒展開式對(duì)尺度空間函數(shù)D(x,y,σ)展開,實(shí)現(xiàn)對(duì)特征點(diǎn)的精確定位:計(jì)算D(x)的導(dǎo)數(shù)并令其為零,得到特征點(diǎn)的偏移量其與原圖像中的x相加即為特征點(diǎn)的位置。
(4)計(jì)算特征點(diǎn)方向。上一步中確定了每幅圖中的特征點(diǎn),為每個(gè)特征點(diǎn)計(jì)算一個(gè)方向,依照這個(gè)方向做進(jìn)一步的計(jì)算,利用關(guān)鍵點(diǎn)鄰域像素的梯度方向分布特性為每個(gè)關(guān)鍵點(diǎn)指定方向參數(shù),使算子具備旋轉(zhuǎn)不變性。
(5)生成SIFT特征描述符。以特征點(diǎn)為中心計(jì)算4×4小塊上8個(gè)方向的梯度方向直方圖,將采樣點(diǎn)與特征點(diǎn)的相對(duì)方向通過高斯濾波后歸入8個(gè)方向的直方圖,計(jì)算每個(gè)梯度方向的累加值,形成一個(gè)種子點(diǎn)。一個(gè)特征點(diǎn)由4×4共16個(gè)種子點(diǎn)組成,使得每個(gè)特征點(diǎn)都能成生4×4×8=128個(gè)數(shù)據(jù),進(jìn)而形成128維的SIFT特征描述符。
步驟4:生成PHOG特征
PHOG是一種空間形狀描述,它表征一副圖像的局部形狀以及其形狀的空間關(guān)系。PHOG的形狀描述是用直方圖來表示的。得到圖像的部分或全部輪廓后,計(jì)算輪廓點(diǎn)處的梯度模和梯度方向,再將梯度方向轉(zhuǎn)換成以度為單位,范圍為[0,180°]或[0,360°]。并分成K個(gè)區(qū)間,在各區(qū)間上累加梯度模的值作為該區(qū)間的權(quán)值,得到梯度方向直方圖。本文梯度方向范圍取為[0,360°],取K=40,即1個(gè)區(qū)間9度。為了表示圖像的形狀布局,將一幅圖像逐級(jí)分割細(xì)化。分割一般是按橫縱坐標(biāo)均分兩段,前一級(jí)分割的每塊在下一級(jí)中就被分成4塊。計(jì)算每一級(jí)各塊所含邊緣點(diǎn)對(duì)應(yīng)的梯度方向直方圖,將所有這些梯度方向直方圖連接起來就得到最終的PHOG形狀描述特征,用A3表示。
步驟5:采用LLC技術(shù)對(duì)SIFT特征進(jìn)行稀疏表示。
對(duì)SIFT特征進(jìn)行稀疏編碼生成SIFT稀疏表示需要以下操作:
1)構(gòu)建視覺詞匯庫(kù)
從所有圖像集中隨機(jī)選取若干圖像,并提取SIFT特征,形成SIFT特征向量集L=[l1,l2,…li,…,lN]。其中l(wèi)i∈R128,N為SIFT特征向量的個(gè)數(shù)。L=[l1,l2,…li,…,lN]即對(duì)應(yīng)式(1)中的訓(xùn)練向量集X=[x1,x2,…,xN]。利用迭代算法求解SIFT特征向量集L=[l1,l2,…li,…,lN]的視覺詞匯庫(kù)Q∈R128×K,K表示視覺詞匯庫(kù)的大小,Q對(duì)應(yīng)(1)中的過完備字典B。
2)LLC稀疏編碼
本發(fā)明采用目前使用最有效的圖像特征,圖像塊特征采用密集的SIFT描述子,提取的規(guī)則網(wǎng)格大小為16×16,間隔為8。對(duì)每幅圖像的SIFT特征描述子L=[l1,l2,…li,…,lN]利用字典B進(jìn)行LLC編碼,這樣就得到每幅圖像的編碼矩陣H=[h1,h2,…,hs]T。其中hi是每個(gè)特征描述子的編碼,s是描述子的個(gè)數(shù)。
3)采用SPM框架進(jìn)行池化
采用SPM框架進(jìn)行池化。將圖像分成3層,第0層將整幅圖像作為一個(gè)區(qū)域,對(duì)應(yīng)編碼矩陣H,對(duì)H的每一列應(yīng)用最大池化技術(shù),得到向量y0。然后,第1層將整幅圖像均勻劃分為4個(gè)區(qū)域。按從左往右、從上到下對(duì)應(yīng)的編碼矩陣分別為H00、H01、H10、H11,同樣對(duì)每個(gè)編碼矩陣按列運(yùn)用最大池化技術(shù),得到向量y1,y2,y3,y4。同樣地,第2層將整幅圖像均勻劃分為16個(gè)區(qū)域,池化后得到y(tǒng)5,y6,…,y20。
4)級(jí)聯(lián)
將y0,y1,…,y20加權(quán)后級(jí)聯(lián)起來,得到圖像SIFT特征表示向量A2。按第0層權(quán)值為1/4,第1層權(quán)值為1/4,第2層權(quán)值為1/2。
步驟6:將A1,A2、A3級(jí)聯(lián)起來得到最終訓(xùn)練圖像表示A。
步驟7:將所有的訓(xùn)練圖像輸入線性SVM分類器進(jìn)行訓(xùn)練。
之后,對(duì)于待分類的圖像也使用上述方法提取圖像表示后輸入已經(jīng)訓(xùn)練好的線性SVM分類器完成分類。
基于采用單一特征對(duì)所有類別進(jìn)行分類時(shí),容易出現(xiàn)某一類場(chǎng)景圖像顯著特征丟失的情況,本發(fā)明將GIST特征、SIFT特征稀疏向量和PHOG特征三者組合起來共同描述圖像場(chǎng)景,融合的特征能夠提供更豐富的信息,特征之間能達(dá)到優(yōu)勢(shì)互補(bǔ)。分類時(shí)使用線性分類器能大大縮短訓(xùn)練時(shí)間。在提高分類精度的同時(shí),又增強(qiáng)了系統(tǒng)的魯棒性。