本發(fā)明涉及卷積神經(jīng)網(wǎng)絡,具體指一種功能強大的輕量卷積神經(jīng)網(wǎng)絡模型-mobileconv。
背景技術:
1、眾所周知,卷積神經(jīng)網(wǎng)絡模型[1]具有較快的推理速度,良好的空間歸納偏置,易于遷移,訓練方便等優(yōu)點。但是目前輕量級卷積神經(jīng)網(wǎng)絡的性能卻難以符合某些移動端設備的需求。雖然transformer模型的識別精度較高[2-3],但是多頭自注意(mhsa)的二次計算量[2]卻消耗大量的計算和存儲資源。而基于transformer[2-3]或者mlp[4]的混合模型,往往也需要設計較為復雜的結(jié)構(gòu),這對于模型的優(yōu)化和應用都非常不利(而且并且基于mlp的模型在輕量級應用中欠佳)。那么,如何設計一個基于卷積神經(jīng)網(wǎng)絡的高效模型來保留卷積神經(jīng)網(wǎng)絡的這些優(yōu)點?
2、根據(jù)metaformer[5]的分析,當具備類似transformer編碼器[5]的核心算子和雙殘差結(jié)構(gòu)(包含核心算子)時,基于卷積神經(jīng)網(wǎng)絡的基礎模型也可以實現(xiàn)與混合的高效模型相當甚至更好的性能。
3、分析transformer編碼器[5],從兩個方面總結(jié)了它的優(yōu)勢。
4、(1)在核心算子層面,通常transformer的多頭自注意力(mhsa)能夠?qū)W習全局表征,兼具通道變換的能力[2][5]?;诖?,transformer或者基于transformer的混合模型就能夠從海量的數(shù)據(jù)數(shù)據(jù)中學習到強大的和魯棒的特征表示。
5、(2)從雙殘差的結(jié)構(gòu)角度來看,transformer編碼器包含前饋網(wǎng)絡[2],layernormalized(ln)[2]等組件。這些組合能讓transformer和類似transformer的混合模型在性能上明顯地增長。
技術實現(xiàn)思路
1、本發(fā)明提供一種輕量卷積神經(jīng)網(wǎng)絡模型-mobileconv,其結(jié)構(gòu)簡單,高效,通用,非常容易被訓練。
2、本發(fā)明所采用的技術方案為:
3、一種輕量卷積神經(jīng)網(wǎng)絡模型-mobileconv,基于transformer編碼器為所述輕量卷積神經(jīng)網(wǎng)絡模型的基本塊:mobileconv?block;綜合卷積塊:comprehensive?convolutionattention,cca作為第一級殘差結(jié)構(gòu)中的核心算子,第二級殘差結(jié)構(gòu)的前饋網(wǎng)絡采用反向殘差塊inverted?residual?blocks,irb,選擇layer?norm,ln歸一化;所述輕量卷積神經(jīng)網(wǎng)絡模型設置一個stem和stage1、stage2、stage3、stage4的四個stage;該stem設置一個卷積+irb模塊組成;一個卷積的核為3×3,步長為2,所述irb模塊中3×3卷積的步長設置為2;所述mobileconv?block和irb都作為所述輕量卷積神經(jīng)網(wǎng)絡模型的基本塊使用,在stage2、stage3、stage4中,基本塊為所述mobileconv?block,stage1的基本塊選用所述irb模塊。
4、所述綜合卷積塊:comprehensive?convolution?attention,cca同時兼具通道注意力和空間注意力;其中獲取通道注意力組件,稱之為channels-atten,獲取空間注意力組件,稱之為spatial-atten;該綜合卷積塊將輸入特征圖沿著通道方向分為兩部分,表示為公式(1):
5、x=[x1,x2]??(1)
6、x1學習通道注意力,x2學習空間注意力;
7、輸入特征圖中c表示輸入特征圖的通道,h、w則表示輸入特征圖的高和寬;
8、對于通道注意力,channels-atten,先分別使用全局平均池化gap和全局最大池化gmp對x第c個通道的擠壓步得到y(tǒng)c1和yc2,見公式(2)和公式(3);再使用公式(4)對于yc1和yc2融合得到y(tǒng)c;其中,yc是與第c個通道相關的輸出;公式(4)中的系數(shù)默認值a=1,b=0.25;
9、
10、yc=ayc1+byc2??(4)
11、在空間注意力方面,spatial-atten,使用h-swish函數(shù);并使用s_atten符號代替算法描述,表述如公式(5);
12、y′2(.)=s_atten(.)???(5)
13、最后,獲取的cca表達如公式(6):
14、y′=[y1×y′1,y2×y′2]???(6)
15、公式6中的[-,-]表示拼接,y'為最終的輸出注意力。
16、所述輕量卷積神經(jīng)網(wǎng)絡模型-mobileconv設有3個超參數(shù),分別是:基本塊在每個stage中的重復次數(shù),稱為nbc;每個stage的輸出通道數(shù),稱為oc;每個stage中irb的擴展系數(shù),稱為er;根據(jù)3個超參數(shù)的具體設置,分為mobileconv-s,mobileconv-xs和mobileconv-xxs三個模型。
17、所述mobileconv-s模型的超參數(shù)為:nbc為[3,2,4,3],oc為[64,128,192,256],er為[6,6,6,6]。
18、所述mobileconv-xs模型的超參數(shù)為:nbc為[3,2,4,3],oc為[64,96,128,160],er為[2,2,4,4]。
19、所述mobileconv-xxs模型的超參數(shù)為:nbc為[3,2,4,3],oc為[48,64,80,112],er為[2,2,4,4]。
20、本發(fā)明首先設計一個基于卷積的注意力核心算子,稱之為綜合卷積塊(comprehensive?convolution?attention,cca)?;赾ca和反向殘差塊(irb)[6],再推導出一個魯棒并強大的類似transformer編碼器的基本塊,稱為mobileconv?block。最后以定制塊級和架構(gòu)級設計相結(jié)合[1],構(gòu)建一個全新的高效的基于卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)的mobileconv模型。
21、如圖1(b)所示,cca作為本發(fā)明的核心算子,它結(jié)構(gòu)簡單,非常高效。(1)針對特征圖的目標區(qū)域,它能夠從特征圖的垂直方向和水平方向?qū)W習全局表征;(2)由于采用strippooling[7]和高效一維卷積交互[8],它避免了內(nèi)存和計算開銷的浪費;(3)因其采用卷積,故綜合卷積塊保留了獨有的空間歸納偏置,當然為后續(xù)設計基本塊省去位置嵌入[2];(4)因綜合卷積塊同時獲取特征圖的通道注意力和空間注意,故它如多頭注意力機制(和窗口多頭自注意力機制)、mlp一樣可以獲取通道特征。
22、根據(jù)convnext的研究[9],反向殘差塊(irb)比起mlp更適合作為前饋網(wǎng)絡(ffn)。故此,以綜合卷積塊和反向殘差塊為核心,結(jié)合layer?normalized(ln)和gelu,構(gòu)建了新的基本塊。根據(jù)mobilevitv1[1]的參數(shù)標度規(guī)則,設計了本發(fā)明的mobileconv主干網(wǎng)絡模型。
23、綜上所述,本發(fā)明的主要貢獻如下:
24、(1)分析多頭注意力機制(或者窗口多頭自注意力機制)和mlp的優(yōu)勢,設計一個新的注意力機制綜合卷積塊(comprehensive?convolution?attention,cca),它能夠?qū)W習全局表征,計算和內(nèi)存開銷非常小,加上自身帶有歸納偏置[10],非常適合被放置在基本塊中。
25、(2)結(jié)合綜合卷積塊和反向殘差塊(irb),設計了一種新的基本塊結(jié)構(gòu),稱為mobileconv?block,它結(jié)構(gòu)非常簡單,易于擴展。根據(jù)mobileconv?block,設計一種全新的移動網(wǎng)絡的主干,命名為mobileconv。
26、(3)在常用的計算機視覺任務(包括imagenet圖像分類[11]、mscoco[12]和pascalvoc[13]目標檢測和ade20k[14]語義分割)上對該模型進行了評價。對比目前最先進的卷積神經(jīng)網(wǎng)絡、transformer和mlp模型,本發(fā)明提出的mobileconv僅僅使用單張gpu,以及其簡單的訓練就取得了非常有競爭力的結(jié)果,在圖1可以看到。例如,本發(fā)明的mobileconv-s/xs/xxs在imagenet?top-1精度取得78.6%,75.7%以及72.2%,但僅用5.6m/1.4gflops,2.3m/0.5gflops和1.2m/0.3gflops,這顯著地超過了當前其他主流的網(wǎng)絡模型。