本發(fā)明屬于圖像處理領(lǐng)域,涉及深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化,尤其對(duì)淺層深層網(wǎng)絡(luò)相結(jié)合的改進(jìn)。
背景技術(shù):
卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,cnn)在各種計(jì)算機(jī)視覺(jué)領(lǐng)域呈現(xiàn)出優(yōu)異的性能,如圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割和動(dòng)作識(shí)別等。在很多領(lǐng)域中,我們都對(duì)高畫(huà)質(zhì)的圖像有所需求。單幀圖像的超分辨率(singleimagesuperresolution,sisr)重建是指對(duì)已知單幅低分辨率的圖像重構(gòu)出具有更高像素密度、更細(xì)膩的畫(huà)質(zhì)和包含更多細(xì)節(jié)的高分辨率圖像,從而滿足較高畫(huà)面質(zhì)量的需求。圖像超分辨率重建技術(shù)在視頻監(jiān)控、醫(yī)學(xué)成像、遙感衛(wèi)星成像等各個(gè)領(lǐng)域有著廣泛的應(yīng)用。然而由于根據(jù)有限的輸入信息重構(gòu)出更多信息圖像的過(guò)程是一個(gè)典型的病態(tài)反過(guò)程,圖像超分辨率重建始終是一個(gè)極具挑戰(zhàn)的任務(wù)。
早期的sisr方法基于插值技術(shù),如最近鄰插值、雙線性插值、雙三次插值、樣條插值、分形插值和lanczos重采樣,該技術(shù)比較簡(jiǎn)單,易于實(shí)現(xiàn)。但是會(huì)因放大因子的增大而出現(xiàn)立即下降的情況。1993年,m.irani等人提出了迭代反投影法(iterativeback-projectionibp)。該算法不但計(jì)算量小,而且收斂快。1995年,schulte和stevenson提出了最大后驗(yàn)概率方法(applicationofmaximumaposteriori,map),重建圖像質(zhì)量得以提升。根據(jù)集投影理論,之后改進(jìn)的凸集投影法(projectionontoconvexsets,pocs),速度獲得了進(jìn)一步地提升。elad和feuerm等人在schulte和stevenson的基礎(chǔ)上,發(fā)展出了一種通用的最大似然估計(jì)和凸集投影混合的超分辨率算法。該方法集合了兩者自身的優(yōu)點(diǎn),不但能穩(wěn)定的收斂,還充分利用了先驗(yàn)知識(shí)。
之后,基于學(xué)習(xí)方法被廣泛應(yīng)用于超分辨率恢復(fù)。基本思想為獲取低分辨率圖像塊和高分辨率塊之間的共同的先驗(yàn)知識(shí),并建立兩者之間的映射模型。2004年chang等人提出了鄰居嵌入和局部線性嵌入(ne+lle)的超分辨重建方法,將低分辨率圖像塊的空間局部幾何映射到高分辨率當(dāng)中,再用映射產(chǎn)生的鄰域的線性組合來(lái)生成高分辨圖像塊。2010年,yang等人基于稀疏表達(dá)(sparecoding,sc)提出了新的超分辨率重建的方法,從高分辨率信號(hào)之間的低維投影可以精準(zhǔn)地恢復(fù)它們的線性關(guān)系。所以,通過(guò)學(xué)習(xí)一種簡(jiǎn)潔的圖像塊對(duì)表達(dá)方式去去獲取對(duì)應(yīng)的高、低分辨率圖像塊之間共同的先驗(yàn)知識(shí),而不是從圖像中直接提取它們的圖像塊對(duì)。后來(lái),zeyde等人對(duì)此方法做了些許改進(jìn):用k-svd法訓(xùn)練低分辨率字典,對(duì)高分辨率字典直接采用偽逆的方法;并且通過(guò)主成分分析技術(shù)和正交匹配追蹤算法進(jìn)行降維?;谙∈杈幋a的網(wǎng)絡(luò)(scn)相比于通用sc模型實(shí)現(xiàn)顯著的改進(jìn),scn的級(jí)聯(lián)(cscn)也受益于具有特殊設(shè)計(jì)的多尺度成本函數(shù)的深度網(wǎng)絡(luò)的端到端訓(xùn)練。但大多數(shù)人依靠手工設(shè)計(jì)表征lr圖像的特征。
傳統(tǒng)重建技術(shù)恢復(fù)圖像的速度是緩慢的,該技術(shù)主要包含三個(gè)步驟:預(yù)處理、配準(zhǔn)和重建。它們中的大多數(shù)是計(jì)算復(fù)雜度高,不能實(shí)現(xiàn)端到端直接放大。其中,dongetal.提出了基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建(learningadeepconvolutionalnetworkforimagesuper-resolution),成功地將深度學(xué)習(xí)技術(shù)引用到sr領(lǐng)域中,該算法簡(jiǎn)稱(chēng)為srcnn。其主要特征是學(xué)習(xí)插值后lr與hr圖像塊之間的映射,相較于先前的學(xué)習(xí)算法省去了很多的預(yù)處理及后期整合。但srcnn仍有一些局限性。第一,該網(wǎng)絡(luò)學(xué)習(xí)到的特征少且單一。第二,作為一個(gè)預(yù)處理步驟,原lr圖像需要上采樣到目標(biāo)圖像的大小做為網(wǎng)絡(luò)的輸入。第三,在大的圖像處理速度上還需提高。
技術(shù)實(shí)現(xiàn)要素:
為了降低惡意節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)的影響、提高網(wǎng)絡(luò)安全性,本發(fā)明提出了一種基于淺層和深層卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率重建算法,結(jié)合淺層和深層卷積神經(jīng)網(wǎng)絡(luò)算法(shallowanddeepconvolutionalnetworksforimagesuper-resolution,簡(jiǎn)稱(chēng)sdsr),旨在通過(guò)將淺層和深層的卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,cnn)相結(jié)合提取低分辨率樣例圖像塊和高分辨率樣例圖像塊的圖像特征,然后學(xué)習(xí)它們之間的非線性映射關(guān)系,用反卷積層實(shí)現(xiàn)上采樣,從而還原出高分辨率圖像。
本發(fā)明提出了一種基于淺層和深層卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率重建算法,該方法包括以下步驟:
步驟一、選取訓(xùn)練樣本和測(cè)試樣本,包括91幅圖像數(shù)據(jù)集和包含100幅bmp格式的無(wú)壓縮圖像的general-100數(shù)據(jù)集;
步驟二、對(duì)深層網(wǎng)絡(luò)特征進(jìn)行提取、映射、上采樣和多尺度變換,其中:
特征提取:在原始lr圖像上提取特征,對(duì)每個(gè)提取的特征設(shè)置了3個(gè)卷積層,每層包含64個(gè)3×3大小的濾波器,使用了快捷連接;將卷積層表示為:
fl(y)=prelu(wl*fl-1(y)+bl)
其中,wl和bl分別表示l層的濾波器和偏置;fl表示輸出的特征圖;*表示卷積操作;wl包括了nl個(gè)濾波器參數(shù)個(gè)數(shù)為nl-1×fl×fl,fl表示卷積核的空間大?。?/p>
在原始lr圖像y通道卷積前三層;在除了最后一層卷積層以外的每個(gè)卷積層后面都設(shè)置一個(gè)prelu激活函數(shù),使用參數(shù)修正線性單元(prelu);prelu激活函數(shù)定義為:
prelu(xi)=max(xi,0)+aimin(0,xi)
其中,xi是第i個(gè)通道上激活函數(shù)的輸入信號(hào),ai是負(fù)數(shù)部分的系數(shù);
映射:首先使用12×1×1卷積層由64維映射到低維12維(降低維度提高了計(jì)算效率),然后使用4個(gè)12×3×3卷積層增加映射的非線性;在該步驟學(xué)習(xí)一個(gè)端到端的原lr和目標(biāo)hr圖像之間的映射關(guān)系;
上采樣:使用反卷積層實(shí)現(xiàn),在映射部分的后面先將維度增加到64維,使用caffe工具箱,當(dāng)訓(xùn)練一個(gè)fsub×fsub大小的lr子圖像時(shí),放大因子為n,反卷積層的只能輸出(nfsub-n+1)2大小的hr圖像作為目標(biāo)hr大??;
多尺度變換:將開(kāi)始的4個(gè)64維3×3卷積層用于提取高維特征,同樣也用到快捷連接;之后16維1×1卷積層用于降低維度;然后一系列的多尺度卷積層由4個(gè)卷積層并列組成,卷積核大小分別為7×7、5×5、3×3、1×1;每個(gè)組成多尺度卷積曾的卷積核;輸出4個(gè)特征圖,然后連接成16個(gè)特征圖,這樣不同大小的特征被提取出來(lái);最后設(shè)置一個(gè)1×1的卷積層用于權(quán)重連接多尺度的特征;
步驟3、進(jìn)行淺層網(wǎng)絡(luò)特征提?。簻\層網(wǎng)絡(luò)由簡(jiǎn)單的2個(gè)卷積層和1個(gè)反卷積層組成,實(shí)現(xiàn)對(duì)圖像粗略特征的提?。?/p>
步驟4、進(jìn)行淺層深層網(wǎng)絡(luò)的結(jié)合:將淺層和深層網(wǎng)絡(luò)的輸出相結(jié)合,淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)各自輸出一張高分辨圖像,最后通過(guò)一個(gè)卷積層進(jìn)行連接,得到最終的高分辨率圖像。
與現(xiàn)有技術(shù)相比,本發(fā)明的一種基于淺層和深層卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率重建算法(sdsr)具有以下積極效果:
1、在單幅圖像重建以及視頻序列重建方面,建立能準(zhǔn)確有效地重建高分辨率圖像的模型,取得了很好的重建效果;
2、特征提取多尺度細(xì)節(jié),結(jié)果明顯優(yōu)于現(xiàn)有其他算法;
3、且重建速度較快;為圖像視頻增強(qiáng)打下了基礎(chǔ),具有實(shí)際可行性。
4、可以更好地保持結(jié)果圖像中的邊緣信息,減弱結(jié)果中的振鈴現(xiàn)象;
5、可以很好地適用于自然場(chǎng)景圖像的超分辨率增強(qiáng)任務(wù),時(shí)間復(fù)雜度較低,且重建效果明顯優(yōu)于現(xiàn)存算法;
6、為自然場(chǎng)景圖像增強(qiáng)實(shí)時(shí)環(huán)境及系統(tǒng)的推廣提供了有效途徑。
附圖說(shuō)明
圖1為淺層和深層卷積神經(jīng)網(wǎng)絡(luò)框架圖;
圖2為不同算法下lenna圖像超分辨率恢復(fù)結(jié)果比較圖,其中放大因子為3;其中,(2a)、原始lenna圖像;(2b)、bicubic算法;(2c)、a+算法;(2d)、srcnn算法;(2e)、fsrcnn算法;(2f)、本發(fā)明的sdsr算法;
圖3為不同算法下lenna圖像超分辨率恢復(fù)壞點(diǎn)比較圖,其中放大因子為3,白色部分為壞點(diǎn);(2a)、原始lenna圖像;(2b)、bicubic算法;(2c)、a+算法;(2d)、srcnn算法;(2e)、fsrcnn算法;(2f)、本發(fā)明的sdsr算法;
圖4為不同算法在set5數(shù)據(jù)集上測(cè)試收斂曲線圖;
圖5為高速路視頻序列圖像重建結(jié)果圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
本發(fā)明提供一種淺層和深層網(wǎng)絡(luò)相結(jié)合的卷積神經(jīng)網(wǎng)絡(luò),提取低分辨率樣例圖像塊和高分辨率樣例圖像塊的圖像特征,學(xué)習(xí)它們之間的非線性映射關(guān)系,對(duì)cnn網(wǎng)絡(luò)進(jìn)行訓(xùn)練、測(cè)試。該模型加寬了網(wǎng)絡(luò),增加了參數(shù)個(gè)數(shù),并有效地防止了過(guò)擬合現(xiàn)象。同時(shí)設(shè)計(jì)不同的兩路網(wǎng)絡(luò)結(jié)構(gòu)捕獲不同的有效特征,更多的有效特征有利于提高重建效果。本文模型是由深層殘差支路淺層支路組成的并列模型。該并列網(wǎng)絡(luò)的兩路輸入為相同的lr圖像,通過(guò)本文模型最終獲得hr圖像。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的基本框架如圖1所示。同時(shí)也比較了本發(fā)明算法與相關(guān)算法在超分辨率重建圖像質(zhì)量方面的性能優(yōu)劣。
具體步驟如下:
步驟1、選取訓(xùn)練樣本和測(cè)試樣本:其中,訓(xùn)練樣本選取了被廣泛用作基于學(xué)習(xí)的超分辨率重建方法91幅圖像數(shù)據(jù)集(該圖像數(shù)據(jù)集來(lái)自j.yang,j.wright,t.s.huang,andy.ma,“imagesuper-resolutionviasparserepresentation,”ieeetransactionsonimageprocessing,vol.19,no.11,pp.2861–2873,2010.)和包含100幅bmp格式的無(wú)壓縮圖像的general-100數(shù)據(jù)集;前者廣泛用作基于學(xué)習(xí)的超分辨率重建方法,后者非常適合超分學(xué)習(xí)訓(xùn)練。因此,原始數(shù)據(jù)是191張圖片。為了使數(shù)據(jù)更有效,對(duì)原始圖像進(jìn)行旋轉(zhuǎn)變換。因此最后的訓(xùn)練數(shù)據(jù)集是20倍的原始數(shù)據(jù)。也就是說(shuō),將總共191×20=3820幅圖像用于訓(xùn)練;測(cè)試樣本則選取set5圖像、set14圖片和bsd100共100幅圖像作為測(cè)試數(shù)據(jù)集,用來(lái)評(píng)估放大因素為×2、×3和×4時(shí)的圖片質(zhì)量;采用psnr和ssim指標(biāo)用于定量評(píng)價(jià)。采取只對(duì)ycbcr通道中的y通道進(jìn)行實(shí)驗(yàn),而另外2個(gè)通道則是直接采取bicubic插值的方法進(jìn)行放大的通道數(shù)選擇方式,即c=1,ne十lle,sc,a+和anr這些方法都是,以便下文比較重建質(zhì)量;
步驟2、對(duì)深層網(wǎng)絡(luò)特征進(jìn)行提取、映射、上采樣和多尺度變換,特征映射多次從而可提取出準(zhǔn)確的細(xì)節(jié)信息;
(2-1)、特征提?。涸谠糽r圖像上提取特征,對(duì)對(duì)每個(gè)提取的特征設(shè)置了3個(gè)卷積層對(duì)原始lr圖像進(jìn)行特征提取,每層包含64個(gè)3×3大小的濾波器。為了抑制網(wǎng)絡(luò)衰減,使用了快捷連接,實(shí)現(xiàn)殘差網(wǎng)絡(luò),即通過(guò)在一個(gè)網(wǎng)絡(luò)基礎(chǔ)上疊加前向連接的層(稱(chēng)identitymappings,恒等映射),可以讓網(wǎng)絡(luò)隨深度增加而不退化,從而加速了網(wǎng)絡(luò)收斂。
將卷積層表示為:
fl(y)=prelu(wl*fl-1(y)+bl)
其中,wl和bl分別表示l層的濾波器和偏置;fl表示輸出的特征圖;*表示卷積操作;wl包括了nl個(gè)濾波器參數(shù)個(gè)數(shù)為nl-1×fl×fl,fl表示卷積核的空間大小。
具體為:首先在原始lr圖像y通道卷積前三層;每個(gè)卷積層的輸出作為激活函數(shù)的輸入,本發(fā)明激活函數(shù)使用參數(shù)修正線性單元(parametricrectifiedlinearunit,prelu),prelu激活函數(shù)定義為:
prelu(xi)=max(xi,0)+aimin(0,xi)
其中,xi是第i個(gè)通道上激活函數(shù)的輸入信號(hào),ai是負(fù)數(shù)部分的系數(shù);如果ai=0,那么prelu退化為relu。prelu只增加了極少量的參數(shù),也就意味著網(wǎng)絡(luò)的計(jì)算量以及過(guò)擬合的危險(xiǎn)性都只增加了一點(diǎn)。特別的,當(dāng)不同通道使用相同的ai時(shí),參數(shù)就更少了。采用prelu主要為了避免在relu中造成的“死特性”,即未提取到特征造成的特征圖全黑。在每個(gè)卷積層(除了最后一層卷積層)后面都設(shè)置了激活函數(shù)。
該步驟在原始lr圖像上提取特征,沒(méi)有像srcnn先進(jìn)行雙立方插值圖像的預(yù)處理,從而實(shí)現(xiàn)針對(duì)性地學(xué)習(xí)一個(gè)端到端的映射,
(2-2)、映射:首先使用12×1×1卷積層由64維映射到低維12維(降低維度提高了計(jì)算效率),然后使用4個(gè)12×3×3卷積層增加映射的非線性;在該步驟學(xué)習(xí)一個(gè)端到端的原lr和目標(biāo)hr圖像之間的映射關(guān)系;
(2-3)、上采樣:發(fā)生在高維,因此在映射部分的后面先將維度增加到64維。不同于傳統(tǒng)方法手動(dòng)內(nèi)插上采樣,本發(fā)明使用反卷積層實(shí)現(xiàn)上采樣,即使用caffe工具箱,當(dāng)訓(xùn)練一個(gè)fsub×fsub大小的lr子圖像時(shí),放大因子為n,反卷積層的只能輸出(nfsub-n+1)2大小的hr圖像作為目標(biāo)hr大?。?/p>
(2-4)、多尺度變換:考慮到高分辨率圖像復(fù)原通常依賴(lài)于大小不同的索引信息,本步驟提出用多尺度的卷積核提取圖片多尺度的索引信息。步驟1提取的特征經(jīng)多尺度重建后得到的特征部分由16層卷積層組成,開(kāi)始的4個(gè)64維3×3卷積層用于提取高維特征,其作用類(lèi)似于步驟1的特征提取部分,同樣也用到快捷連接;之后16維1×1卷積層用于降低維度;然后一系列的多尺度卷積層由4個(gè)卷積層并列組成,卷積核大小分別為7×7、5×5、3×3、1×1;每個(gè)組成多尺度卷積層的卷積核輸出4個(gè)特征圖,然后連接成16個(gè)特征圖,這樣從大小卷積核提取不同尺度的特征;最后設(shè)置一個(gè)1×1的卷積層用于權(quán)重連接多尺度的特征;
步驟3、進(jìn)行淺層網(wǎng)絡(luò)特征提取:淺層網(wǎng)絡(luò)由簡(jiǎn)單的2個(gè)卷積層和1個(gè)反卷積層組成,實(shí)現(xiàn)對(duì)圖像粗略特征的提取;
步驟4、進(jìn)行淺層深層網(wǎng)絡(luò)的結(jié)合:根據(jù)步驟3所述的淺層網(wǎng)絡(luò)只有3個(gè)卷積層,能復(fù)原圖像的大致信息,缺乏高頻細(xì)節(jié)信息;與之相反,深層網(wǎng)絡(luò)可以更準(zhǔn)確恢復(fù)出高頻細(xì)節(jié)信息。最后,將淺層和深層網(wǎng)絡(luò)的輸出相結(jié)合,淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)各自輸出一張高分辨圖像,最后通過(guò)一個(gè)卷積層進(jìn)行連接,得到最終的高分辨率圖像。
本發(fā)明的網(wǎng)絡(luò)訓(xùn)練實(shí)例說(shuō)明如下:
本發(fā)明采用的最小化歐式距離來(lái)優(yōu)化模型參數(shù)。給定訓(xùn)練數(shù)據(jù)集
表1、不同數(shù)據(jù)集下不同算法在不同放大因子時(shí)的超分結(jié)果比較
表2、不同算法在不同視頻集超分恢復(fù)結(jié)果比較