两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于狀態(tài)空間模型知識蒸餾的輕量化遙感目標實例分割模型的構建方法

文檔序號:40638640發(fā)布日期:2025-01-10 18:44閱讀:10來源:國知局
一種基于狀態(tài)空間模型知識蒸餾的輕量化遙感目標實例分割模型的構建方法

本發(fā)明涉及一種基于狀態(tài)空間模型知識蒸餾的輕量化遙感目標實例分割模型的構建方法,屬于衛(wèi)星網(wǎng)絡領域。


背景技術:

1、狀態(tài)空間模型(state?space?model,ssm)是一種通過描述模型之前的狀態(tài)并根據(jù)當前的輸入預測其下一時刻狀態(tài)的模型。ssm最早被應用于控制領域,將連續(xù)序列作為輸入并預測輸出序列,模型具有兩個方程,狀態(tài)方程和輸出方程,狀態(tài)方程用于描述矩陣與輸入相乘之后,再加上矩陣與前一個狀態(tài)相乘的結果。輸出方程則描述了狀態(tài)通過矩陣如何轉換為輸出,以及輸入如何通過矩陣影響輸出。

2、albert?gu等人為了同時解決transformer架構中注意力機制的二次復雜度和rnn的序列遺忘問題,以獲得一個具有二者優(yōu)勢的模型,設計了s4模型,將最初的ssm模型離散化即可使用離散序列作為輸入。s4模型引入了時間步長和hippo的記憶機制。當每次收到離散信號時,保留信號數(shù)值,直到收到新的離散信號,操作的處理間隔即為一個新的可學習參數(shù),稱為時間步長。通過這種方式使模型階段性保持,根據(jù)學習的時間步長對輸入信號采樣,便可以生成最終的輸出。在離散化操作上則具有零階保持和歐拉離散化兩種方式,但后者使用較多。同時,離散化的狀態(tài)空間模型具有著類卷積表達,在經(jīng)典的圖像識別任務中,用卷積核聚合特征,通過表達式展開,可寫成類似卷積的形式,從而可在訓練時是用卷積模式訓練,測試時使用循環(huán)模式推理,大幅度提升表示效率。

3、而對于長距離問題,hippo被引入其中,這也是albert?gu等人在之前提出的概念,它將當前看到的所有輸入信號壓縮為系數(shù)向量,可以很好地捕獲最近的token并衰減舊的token狀態(tài)表示,通過函數(shù)逼近產(chǎn)生狀態(tài)矩陣的最優(yōu)解。

4、albert?gu等人在前人的基礎上,又提出了集前人之大成的曼巴(mamba)模型。mamba受到了序列建模的簡化狀態(tài)空間層(simplified?state?space?layers?forsequence?modeling,s5)的啟發(fā),采用了硬件感知算法,用以減少計算機層級間的io訪問;同時引入了結構化ssm(簡稱s6)的選擇性信息處理,其底層邏輯表示為可學習的輸入映射函數(shù),會對不同的輸入產(chǎn)生不同的計算參數(shù);同時mamba也借鑒了lstm與門電路的概念,將ssm結構與transformer的門控mlp塊合并為一個層,來簡化過去的深度序列模型架構。而在任務表現(xiàn)上,mamba在語言、音頻、dna序列模態(tài)上都實現(xiàn)超過sota,在語言任務上則超越同等規(guī)模的transformer,并與兩倍大的transformer接近。

5、mamba模型在被提出之后引起了廣泛關注,被諸多學者延伸到了其余方向上,視覺曼巴模型(vision?mamba,vim)由此而來。vim模型與視覺transformer(visiontransformer,vit)類似,首先將輸入圖像切分成多個小塊,然后將小patch展平為序列后映射成token,之后經(jīng)過位置編碼和增加類別張量統(tǒng)一輸入vim的堆疊層。在每層中前后經(jīng)歷兩次不同的線性映射,并在中間向前和向后雙向處理序列,最終使用sigmoid線性單元(silu)激活函數(shù),需要注意的是,針對非分類任務,不需要加入額外的可學習分類標記。最終,vim在imagenet分類、coco目標檢測和ade20k語義分割等基準測試中,具有更好的結果和效率,且針對高分辨率圖像,相比于比deit在減少86%gpu內存的情況下加速2.8倍。

6、在近幾個月,mamba按照通用的骨干網(wǎng)絡的發(fā)展,可大致分為第1階段和第2階段,albert?gu等人提出的原始的mamba,引入了選擇性狀態(tài)空間模型,可堆疊的狀態(tài)空間塊(state?space?model?block)等概念,實現(xiàn)了s6與門控多層感知機(multilayerperceptrons,mlp)的融合,并提供了可供使用的開源網(wǎng)絡層級;而受其啟發(fā),三個月后出現(xiàn)的vision?mamba和vmamba,兩者分別從不同的角度對其進行了改進,成為了后續(xù)研究者的主要的兩類改進思路。前者由l.zhu等人在2024年1月提出,它結合了transformer的思想,將原本的mamba層替換了transformer的堆疊層,并使用圖像切片和編碼來處理,實現(xiàn)了視覺上效果好的vision?mamba;而后者則與其幾乎同時間被y.liu等人提出,主要的考慮是mamba缺少圖像切片的觀看順序,原本的切片方式可能會使相隔較近的圖片卻被分割得較遠,由此他們提出了掃描快的思想,通過ss2d?block進行多種掃描方式,配合內部的vssblock進行堆疊運算。需要注意的是,vss?block和vim?block有所相似,因為他們都是在曼巴的基礎之上發(fā)展出來的,但核心的區(qū)別在于,vss?block并沒有mamba內部的雙向掃描結構,這是他把掃描順序提到最前面的ss2d?block中導致的。而在后續(xù),人們針對視覺上的mamba提出了mamba?mixer,而針對傳統(tǒng)的mamba則提出了mamba2,構建出了mamba與transformer之間的數(shù)學聯(lián)系。

7、模型輕量化(distributed?computing)是指通過輕量化方法,在允許范圍內不影響模型性能的情況下,降低模型存儲、加快推理速度,以獲得更高效的模型的方法,在許多實際應用場景能起到不錯的實際左右。例如在衛(wèi)星遙感場景中,遙感衛(wèi)星目前已被應用于多種場景,新型的低軌巨星星座網(wǎng)絡則彌補了傳統(tǒng)的高軌道衛(wèi)星分辨率或實時檢測難的缺點,也成為各國的研究熱點。然而,遙感目標檢測,特別是低軌星上檢測中,實時性與速度準確率之間存在矛盾,衛(wèi)星空間資源有限,復雜深度學習模型難以部署,而簡單模型則難以應對復雜的遙感場景,因此設計適合遙感場景下的輕量化目標檢測算法至關重要。

8、接著縱觀過去20年的目標檢測領域,無論是12年后產(chǎn)生的單階段和兩階段方法,抑或是20年從nlp領域被引入的vision?transformer,人們始終在追求更快更好的方法。近年來的視覺基礎模型又稱大模型,通過數(shù)據(jù)和模型規(guī)模的大幅度拓展,在各種視覺任務中取得了優(yōu)異的表現(xiàn)和良好的拓展性與泛化性,成為了目前的一大研究熱點。但視覺大模型性能固然好,推理速度慢,參數(shù)量也過于龐大,例如目標分割sam大模型使用了超過10億的參數(shù)。而目標就是在保證精度、大幅度壓縮參數(shù)和功耗的前提下,使用輕量化方法,為基礎模型部署在星上提供基礎。

9、模型輕量化方法具體包含三種:將知識從大型老師模型轉移到小型學生模型的知識蒸餾、以網(wǎng)絡稀疏化為核心思想的模型剪枝、和從存儲角度入手將浮點算法轉換為定點的模型量化。但剪枝無法從根本上加速模型推理,量化則一般難以實現(xiàn)夸量級的提升,因此從知識蒸餾的角度入手研究。

10、本發(fā)明提出了一種基于狀態(tài)空間模型知識蒸餾的輕量化遙感目標實例分割模型的構建方法,通過根據(jù)狀態(tài)空間模型構建具有強學習能力的骨干網(wǎng)絡,使用知識蒸餾并以vit為老師模型學習大型網(wǎng)絡的復雜知識,通過狀態(tài)空間網(wǎng)絡層的可展開性,快速計算多層堆疊后的結果以加快推理速度,而構建的學生網(wǎng)絡本身又大幅度降低存儲,頸部網(wǎng)絡則理論上一定程度緩解小目標的丟失情況。大幅降低了模型推理總流程的時間和模型存儲占用的空間,可大幅度降低模型運行所需要的時間成本和空間成本,針對星載資源受限與模型性能要求高的矛盾,提出了切實可行的解決方法。本發(fā)明針對航天遙感問題,構建了一套基于狀態(tài)空間模型知識蒸餾的遙感實例分割模型的輕量化構建方式,在檢測目標的同時可分割出掩碼,并且提供了可參考的配置方式。除此之外,本技術也可以輕松遷移到其他需要進行輕量化的任務場景當中,如車載檢測、農(nóng)業(yè)監(jiān)測、航空對地檢測等領域。


技術實現(xiàn)思路

1、本發(fā)明的目的在于設計一種基于狀態(tài)空間模型知識蒸餾的輕量化遙感目標實例分割模型的構建方法。使用該方法可以讓網(wǎng)絡模型相比于未蒸餾的常規(guī)模型具有更快的速度和更小的存儲,且在常規(guī)圖形處理器(graphics?processing?unit,gpu)上高效訓練、測試和使用,并達到與常規(guī)模型持平的效果。具體來講,本發(fā)明是通過以下技術方案實現(xiàn)的:

2、本發(fā)明是一種基于狀態(tài)空間模型知識蒸餾的輕量化遙感目標實例分割模型的構建方法,本質上屬于“預訓練+微調”的策略,該方法通過構建輕量化編碼骨干學習大型模型的知識作為預訓練權重;然后連接上頸部與檢測頭,并設置全部參數(shù)為可訓練,再在遙感數(shù)據(jù)集上做微調的方式,達到預期的效果。第一次訓練出的骨干網(wǎng)絡本質上是一種高緯度特征提取器,負責提取多層次的圖像信息;第二次訓練出的頸部網(wǎng)絡用于多層次特征融合,頭部則負責處理具體任務,將骨干網(wǎng)絡依舊參數(shù)不凍結,是保證其在遙感任務上特化,以達到更好的效果。該方法的具體步驟如下:

3、步驟一:計算機讀取數(shù)據(jù)。使用計算機讀取無標注的sa-1b數(shù)據(jù)集和有標注的遙感圖像數(shù)據(jù),并分別對圖像數(shù)據(jù)進行預處理。

4、步驟二:構造基于狀態(tài)空間模型知識蒸餾網(wǎng)絡和輕量化遙感目標實例分割網(wǎng)絡。

5、本發(fā)明提出了基于狀態(tài)空間模型知識蒸餾網(wǎng)絡和輕量化遙感目標實例分割網(wǎng)絡的構建方法。基于狀態(tài)空間模型知識蒸餾網(wǎng)絡由老師網(wǎng)絡和學生網(wǎng)絡兩個部分組成,輕量化遙感目標實例分割網(wǎng)絡由骨干、頸部、頭部三個部分組成。其中,老師網(wǎng)絡是sam基礎模型的圖像編碼器,使用官方提供的參數(shù),訓練時不進行參數(shù)調整;骨干網(wǎng)絡即為基于狀態(tài)空間模型知識蒸餾網(wǎng)絡訓練后得到的學生網(wǎng)絡,負責提取多層次的圖像信息,本質上是一種高緯度特征提取器;頸部網(wǎng)絡用于多層次特征融合;頭部則負責處理具體任務。

6、步驟三:訓練神經(jīng)網(wǎng)絡。利用pytorch深度學習框架構造好基于狀態(tài)空間模型知識蒸餾網(wǎng)絡后,利用無標簽數(shù)據(jù)訓練此網(wǎng)絡,保存訓練參數(shù)結果,導入基于狀態(tài)空間模型知識蒸餾網(wǎng)絡的學生網(wǎng)絡之后,將其作為輕量化遙感目標實例分割網(wǎng)絡的骨干網(wǎng)絡,連接上頸部和頭部之后,再使用有標簽的遙感數(shù)據(jù)對輕量化遙感目標實例分割網(wǎng)絡(即骨干、頸部和頭部網(wǎng)絡)進行訓練。具體訓練方式為:在第一次訓練時,通過狀態(tài)空間模型構造骨干,隨后將其作為學生模型使用知識蒸餾的輕量化方法訓練,使之學習大型老師模型的復雜知識,然后保留骨干的訓練結果作為預訓練權重,連接上頸部與頭部,并將全部參數(shù)在遙感數(shù)據(jù)集上做微調,保證其在遙感任務上特化,使之最終達到預期的效果,而在訓練的過程中,根據(jù)測試數(shù)據(jù)選擇最優(yōu)的輕量化遙感目標實例分割網(wǎng)絡參數(shù),保存此時的輕量化遙感目標實例分割網(wǎng)絡參數(shù)作為最終訓練結果。

7、步驟四:遙感圖像實例分割,利用步驟三訓練好的輕量化遙感目標實例分割網(wǎng)絡模型,可在測試集或實際圖像上實現(xiàn)高質量的遙感圖像實例分割。

8、本發(fā)明的優(yōu)點在于:本發(fā)明使用知識蒸餾的方式,大幅度降低了模型需要的參數(shù)量,而選擇的狀態(tài)空間模型則保證了推理和訓練的速度。訓練時采用的“預訓練+微調”的策略,避免了學生模型在學習時因為與老師模型的微小差異,導致特征融合后產(chǎn)生較大偏差的可能性,同時可根據(jù)具體的任務和對象,選擇需要的數(shù)據(jù)集進行專門的訓練,保證了模型在具體任務下的適配性,增加了在實際應用中的價值。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
广丰县| 黄浦区| 绥江县| 安岳县| 新宁县| 松原市| 沧州市| 获嘉县| 慈溪市| 四会市| 华宁县| 阿荣旗| 玉环县| 汕头市| 安乡县| 阳春市| 重庆市| 府谷县| 台中市| 红河县| 墨竹工卡县| 涿鹿县| 阿勒泰市| 石柱| 峨眉山市| 青浦区| 清水河县| 延寿县| 吴江市| 洱源县| 荆门市| 阿巴嘎旗| 太白县| 崇阳县| 涞源县| 麦盖提县| 龙陵县| 翁牛特旗| 和硕县| 霍山县| 轮台县|