一種輕量卷積神經(jīng)網(wǎng)絡模型-MobileConv的制作方法

文檔序號：40653706發(fā)布日期：2025-01-10 19:02閱讀：8來源：國知局

本發(fā)明涉及卷積神經(jīng)網(wǎng)絡，具體指一種功能強大的輕量卷積神經(jīng)網(wǎng)絡模型-mobileconv。

背景技術：

1、眾所周知，卷積神經(jīng)網(wǎng)絡模型[1]具有較快的推理速度，良好的空間歸納偏置，易于遷移，訓練方便等優(yōu)點。但是目前輕量級卷積神經(jīng)網(wǎng)絡的性能卻難以符合某些移動端設備的需求。雖然transformer模型的識別精度較高[2-3]，但是多頭自注意(mhsa)的二次計算量[2]卻消耗大量的計算和存儲資源。而基于transformer[2-3]或者mlp[4]的混合模型，往往也需要設計較為復雜的結(jié)構(gòu)，這對于模型的優(yōu)化和應用都非常不利(而且并且基于mlp的模型在輕量級應用中欠佳)。那么，如何設計一個基于卷積神經(jīng)網(wǎng)絡的高效模型來保留卷積神經(jīng)網(wǎng)絡的這些優(yōu)點？

2、根據(jù)metaformer[5]的分析，當具備類似transformer編碼器[5]的核心算子和雙殘差結(jié)構(gòu)(包含核心算子)時，基于卷積神經(jīng)網(wǎng)絡的基礎模型也可以實現(xiàn)與混合的高效模型相當甚至更好的性能。

3、分析transformer編碼器[5]，從兩個方面總結(jié)了它的優(yōu)勢。

4、(1)在核心算子層面，通常transformer的多頭自注意力(mhsa)能夠?qū)W習全局表征，兼具通道變換的能力[2][5]?；诖?，transformer或者基于transformer的混合模型就能夠從海量的數(shù)據(jù)數(shù)據(jù)中學習到強大的和魯棒的特征表示。

5、(2)從雙殘差的結(jié)構(gòu)角度來看，transformer編碼器包含前饋網(wǎng)絡[2]，layernormalized(ln)[2]等組件。這些組合能讓transformer和類似transformer的混合模型在性能上明顯地增長。

技術實現(xiàn)思路

1、本發(fā)明提供一種輕量卷積神經(jīng)網(wǎng)絡模型-mobileconv，其結(jié)構(gòu)簡單，高效，通用，非常容易被訓練。

2、本發(fā)明所采用的技術方案為：

3、一種輕量卷積神經(jīng)網(wǎng)絡模型-mobileconv，基于transformer編碼器為所述輕量卷積神經(jīng)網(wǎng)絡模型的基本塊：mobileconv?block；綜合卷積塊：comprehensive?convolutionattention，cca作為第一級殘差結(jié)構(gòu)中的核心算子，第二級殘差結(jié)構(gòu)的前饋網(wǎng)絡采用反向殘差塊inverted?residual?blocks，irb，選擇layer?norm，ln歸一化；所述輕量卷積神經(jīng)網(wǎng)絡模型設置一個stem和stage1、stage2、stage3、stage4的四個stage；該stem設置一個卷積+irb模塊組成；一個卷積的核為3×3，步長為2，所述irb模塊中3×3卷積的步長設置為2；所述mobileconv?block和irb都作為所述輕量卷積神經(jīng)網(wǎng)絡模型的基本塊使用，在stage2、stage3、stage4中，基本塊為所述mobileconv?block，stage1的基本塊選用所述irb模塊。

4、所述綜合卷積塊：comprehensive?convolution?attention，cca同時兼具通道注意力和空間注意力；其中獲取通道注意力組件，稱之為channels-atten，獲取空間注意力組件，稱之為spatial-atten；該綜合卷積塊將輸入特征圖沿著通道方向分為兩部分，表示為公式(1)：

5、x＝[x1,x2]??(1)

6、x1學習通道注意力，x2學習空間注意力；

7、輸入特征圖中c表示輸入特征圖的通道，h、w則表示輸入特征圖的高和寬；

8、對于通道注意力，channels-atten，先分別使用全局平均池化gap和全局最大池化gmp對x第c個通道的擠壓步得到y(tǒng)c1和yc2，見公式(2)和公式(3)；再使用公式(4)對于yc1和yc2融合得到y(tǒng)c；其中，yc是與第c個通道相關的輸出；公式(4)中的系數(shù)默認值a＝1，b＝0.25；

9、

10、yc＝ayc1+byc2??(4)

11、在空間注意力方面，spatial-atten，使用h-swish函數(shù)；并使用s_atten符號代替算法描述，表述如公式(5)；

12、y′2(.)＝s_atten(.)???(5)

13、最后，獲取的cca表達如公式(6)：

14、y′＝[y1×y′1,y2×y′2]???(6)

15、公式6中的[-,-]表示拼接，y'為最終的輸出注意力。

16、所述輕量卷積神經(jīng)網(wǎng)絡模型-mobileconv設有3個超參數(shù)，分別是：基本塊在每個stage中的重復次數(shù)，稱為nbc；每個stage的輸出通道數(shù)，稱為oc；每個stage中irb的擴展系數(shù)，稱為er；根據(jù)3個超參數(shù)的具體設置，分為mobileconv-s，mobileconv-xs和mobileconv-xxs三個模型。

17、所述mobileconv-s模型的超參數(shù)為：nbc為[3,2,4,3]，oc為[64,128,192,256]，er為[6,6,6,6]。

18、所述mobileconv-xs模型的超參數(shù)為：nbc為[3,2,4,3]，oc為[64,96,128,160]，er為[2,2,4,4]。

19、所述mobileconv-xxs模型的超參數(shù)為：nbc為[3,2,4,3]，oc為[48,64,80,112]，er為[2,2,4,4]。

20、本發(fā)明首先設計一個基于卷積的注意力核心算子，稱之為綜合卷積塊(comprehensive?convolution?attention，cca)?；赾ca和反向殘差塊(irb)[6]，再推導出一個魯棒并強大的類似transformer編碼器的基本塊，稱為mobileconv?block。最后以定制塊級和架構(gòu)級設計相結(jié)合[1]，構(gòu)建一個全新的高效的基于卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)的mobileconv模型。

21、如圖1(b)所示，cca作為本發(fā)明的核心算子，它結(jié)構(gòu)簡單，非常高效。(1)針對特征圖的目標區(qū)域，它能夠從特征圖的垂直方向和水平方向?qū)W習全局表征；(2)由于采用strippooling[7]和高效一維卷積交互[8]，它避免了內(nèi)存和計算開銷的浪費；(3)因其采用卷積，故綜合卷積塊保留了獨有的空間歸納偏置，當然為后續(xù)設計基本塊省去位置嵌入[2]；(4)因綜合卷積塊同時獲取特征圖的通道注意力和空間注意，故它如多頭注意力機制(和窗口多頭自注意力機制)、mlp一樣可以獲取通道特征。

22、根據(jù)convnext的研究[9]，反向殘差塊(irb)比起mlp更適合作為前饋網(wǎng)絡(ffn)。故此，以綜合卷積塊和反向殘差塊為核心，結(jié)合layer?normalized(ln)和gelu，構(gòu)建了新的基本塊。根據(jù)mobilevitv1[1]的參數(shù)標度規(guī)則，設計了本發(fā)明的mobileconv主干網(wǎng)絡模型。

23、綜上所述，本發(fā)明的主要貢獻如下：

24、(1)分析多頭注意力機制(或者窗口多頭自注意力機制)和mlp的優(yōu)勢，設計一個新的注意力機制綜合卷積塊(comprehensive?convolution?attention，cca)，它能夠?qū)W習全局表征，計算和內(nèi)存開銷非常小，加上自身帶有歸納偏置[10]，非常適合被放置在基本塊中。

25、(2)結(jié)合綜合卷積塊和反向殘差塊(irb)，設計了一種新的基本塊結(jié)構(gòu)，稱為mobileconv?block，它結(jié)構(gòu)非常簡單，易于擴展。根據(jù)mobileconv?block，設計一種全新的移動網(wǎng)絡的主干，命名為mobileconv。

26、(3)在常用的計算機視覺任務(包括imagenet圖像分類[11]、mscoco[12]和pascalvoc[13]目標檢測和ade20k[14]語義分割)上對該模型進行了評價。對比目前最先進的卷積神經(jīng)網(wǎng)絡、transformer和mlp模型，本發(fā)明提出的mobileconv僅僅使用單張gpu，以及其簡單的訓練就取得了非常有競爭力的結(jié)果，在圖1可以看到。例如，本發(fā)明的mobileconv-s/xs/xxs在imagenet?top-1精度取得78.6％,75.7％以及72.2％，但僅用5.6m/1.4gflops，2.3m/0.5gflops和1.2m/0.3gflops，這顯著地超過了當前其他主流的網(wǎng)絡模型。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：徐偉,趙冬,王開源,萬毅
技術所有人：北京三獅科技有限公司
我是此專利的發(fā)明人

上一篇：一種基于光纖傳感器的林區(qū)風控方法及系統(tǒng)與流程
上一篇：融合標簽混淆和拼音信息的中文文本分類方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！