本說(shuō)明書涉及計(jì)算機(jī),尤其涉及面向遙感場(chǎng)景非對(duì)稱跨模態(tài)的大模型知識(shí)遷移方法和裝置。
背景技術(shù):
1、遙感圖像場(chǎng)景分類旨在將不同場(chǎng)景下的圖像根據(jù)各自的語(yǔ)義信息確定每個(gè)圖像所對(duì)應(yīng)的場(chǎng)景分類,在地質(zhì)勘探,國(guó)防安全等領(lǐng)域均有著重要的作用。常見的遙感圖像分類手段往往是基于可見光圖像的,通過(guò)設(shè)計(jì)深度特征提取網(wǎng)絡(luò)對(duì)rgb圖像的特征進(jìn)行提取并進(jìn)行分類。近年來(lái),隨著大語(yǔ)言模型的發(fā)展,也有研究者提出利用多模態(tài)大語(yǔ)言模型進(jìn)行遙感圖像的分類,但是由于rgb圖像光譜波段較少、信息密度較低,分類結(jié)果的準(zhǔn)確性無(wú)法得到保證。
2、基于上述原因,有研究者提出使用多光譜(multi-spectral,ms)圖像來(lái)提高輸入信息的信息密度進(jìn)而提升識(shí)別性能。雖然ms圖像相比于rgb圖像會(huì)在整體識(shí)別性能上有顯著的提高,但是在實(shí)際應(yīng)用中利用ms圖像進(jìn)行分類存在ms圖像的獲取成本高、計(jì)算內(nèi)存開銷大、推理速度慢等問(wèn)題。
3、為解決上述問(wèn)題,有研究者提出使用跨模態(tài)蒸餾技術(shù),在訓(xùn)練階段將以ms圖像為輸入的教師模型去教授以rgb圖像為輸入的學(xué)生模型。在推理階段,只需使用以rgb圖像為輸入的學(xué)生模型即可。但是,上述蒸餾技術(shù)實(shí)施的前提在于ms圖像與rgb圖像需要具有嚴(yán)格的語(yǔ)義一致性,也即需要一對(duì)ms圖像與rgb圖像均是針對(duì)同一目標(biāo)采集得到的,由于ms數(shù)據(jù)短缺的問(wèn)題,利用該蒸餾技術(shù)進(jìn)行訓(xùn)練,難以獲取足夠的訓(xùn)練樣本,影響了學(xué)生模型的訓(xùn)練效率。
4、由此,本發(fā)明提供面向遙感場(chǎng)景非對(duì)稱跨模態(tài)的大模型知識(shí)遷移方法和裝置。
技術(shù)實(shí)現(xiàn)思路
1、本說(shuō)明書提供面向遙感場(chǎng)景非對(duì)稱跨模態(tài)的大模型知識(shí)遷移方法和裝置,以部分的解決現(xiàn)有技術(shù)存在的上述問(wèn)題。
2、本說(shuō)明書采用下述技術(shù)方案:
3、本說(shuō)明書提供了一種面向遙感場(chǎng)景非對(duì)稱跨模態(tài)的大模型知識(shí)遷移方法,包括:
4、獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對(duì),所述樣本rgb圖像和所述樣本ms圖像對(duì)應(yīng)同一場(chǎng)景分類;
5、將所述樣本ms圖像輸入預(yù)先訓(xùn)練完成的教師模型,確定所述教師模型從所述樣本ms圖像提取出的第一圖像特征,并確定所述教師模型根據(jù)所述第一圖像特征得到的第一場(chǎng)景分類,作為偽標(biāo)注;
6、將所述樣本rgb圖像輸入學(xué)生模型,確定所述學(xué)生模型從所述樣本rgb圖像提取出的第二圖像特征,并確定所述學(xué)生模型根據(jù)所述第二圖像特征得到的第二場(chǎng)景分類;
7、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場(chǎng)景分類與所述偽標(biāo)注的差異,對(duì)所述學(xué)生模型進(jìn)行訓(xùn)練。
8、可選的,還包括:
9、確定至少一個(gè)正樣本對(duì)與若干負(fù)樣本對(duì)作為樣本組,將所述樣本組輸入待訓(xùn)練匹配模型,確定所述待訓(xùn)練匹配模型輸出的針對(duì)所述樣本組的匹配判斷結(jié)果,其中,所述正樣本對(duì)包括針對(duì)同一目標(biāo)的一個(gè)rgb圖像和一個(gè)ms圖像,所述負(fù)樣本對(duì)包括對(duì)應(yīng)場(chǎng)景分類不同的一個(gè)rgb圖像和一個(gè)ms圖像;
10、根據(jù)所述匹配判斷結(jié)果與所述樣本組中各樣本對(duì)的實(shí)際匹配情況,對(duì)所述待訓(xùn)練匹配模型進(jìn)行訓(xùn)練;
11、獲取待匹配rgb圖像組以及待匹配ms圖像組,針對(duì)所述待匹配rgb圖像組中的任一rgb圖像,所述待匹配ms圖像組中均有與該rgb圖像相同場(chǎng)景分類的ms圖像;
12、針對(duì)所述待匹配rgb圖像組中的任一rgb圖像,利用訓(xùn)練完成的匹配模型,在所述待匹配ms圖像組中確定與該rgb圖像匹配的ms圖像作為目標(biāo)圖像,將所述目標(biāo)圖像與該rgb圖像匹配為一對(duì)訓(xùn)練樣本對(duì)。
13、可選的,預(yù)先訓(xùn)練教師模型,具體包括:
14、獲取預(yù)訓(xùn)練ms圖像;
15、將所述預(yù)訓(xùn)練ms圖像輸入待訓(xùn)練教師模型,確定所述待訓(xùn)練教師模型輸出的第三場(chǎng)景分類;
16、根據(jù)所述第三場(chǎng)景分類以及所述預(yù)訓(xùn)練ms圖像的場(chǎng)景標(biāo)注之間的差異,對(duì)所述待訓(xùn)練教師模型進(jìn)行訓(xùn)練。
17、可選的,所述第一圖像特征與所述第二圖像特征的數(shù)據(jù)結(jié)構(gòu)相同;
18、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場(chǎng)景分類與所述偽標(biāo)注的差異,對(duì)所述學(xué)生模型進(jìn)行訓(xùn)練,具體包括:
19、根據(jù)跨模態(tài)注意力機(jī)制,確定所述第一圖像特征對(duì)應(yīng)的第一特征圖以及所述第二圖像特征對(duì)應(yīng)的第二特征圖;
20、根據(jù)所述第一特征圖與所述第二特征圖之間的域偏移損失,確定所述第一圖像特征與所述第二圖像特征之間的差異;
21、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場(chǎng)景分類與所述偽標(biāo)注的差異,對(duì)所述學(xué)生模型進(jìn)行訓(xùn)練。
22、可選的,至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場(chǎng)景分類與所述偽標(biāo)注的差異,對(duì)所述學(xué)生模型進(jìn)行訓(xùn)練,具體包括:
23、根據(jù)所述第二圖像特征與所述第一圖像特征的差異、根據(jù)所述第二場(chǎng)景分類與所述偽標(biāo)注的差異以及所述第二場(chǎng)景分類與所述樣本rgb圖像所對(duì)應(yīng)的真實(shí)場(chǎng)景標(biāo)注的差異,對(duì)所述學(xué)生模型進(jìn)行訓(xùn)練。
24、可選的,獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對(duì),具體包括:
25、從訓(xùn)練樣本集中獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對(duì),所述訓(xùn)練樣本集包括若干訓(xùn)練樣本對(duì);
26、在至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場(chǎng)景分類與所述偽標(biāo)注的差異,對(duì)所述學(xué)生模型進(jìn)行訓(xùn)練之后,還包括:
27、從所述訓(xùn)練樣本集中重新獲取訓(xùn)練樣本對(duì),并根據(jù)重新獲取的訓(xùn)練樣本對(duì)所述學(xué)生模型繼續(xù)進(jìn)行訓(xùn)練,直至訓(xùn)練次數(shù)達(dá)到訓(xùn)練閾值,利用所述學(xué)生模型重新確定所述訓(xùn)練樣本集中每個(gè)樣本rgb圖像對(duì)應(yīng)的第二場(chǎng)景分類,根據(jù)各第二場(chǎng)景分類以及每個(gè)樣本ms圖像對(duì)應(yīng)的第一場(chǎng)景分類,更新每個(gè)樣本rgb圖像所匹配的樣本ms圖像,根據(jù)更新的各訓(xùn)練樣本對(duì),繼續(xù)對(duì)所述學(xué)生模型進(jìn)行訓(xùn)練。
28、可選的,根據(jù)各第二場(chǎng)景分類以及每個(gè)教師樣本對(duì)應(yīng)的第一場(chǎng)景分類,更新每個(gè)學(xué)生樣本所匹配的教師樣本,具體包括:
29、針對(duì)所述訓(xùn)練樣本集中任一樣本rgb圖像,確定與該樣本rgb圖像的第二場(chǎng)景分類差異最小的第一場(chǎng)景分類所對(duì)應(yīng)的樣本ms圖像,作為該樣本rgb圖像所匹配的教師樣本。
30、本說(shuō)明書提供一種面向遙感場(chǎng)景非對(duì)稱跨模態(tài)的大模型知識(shí)遷移裝置,包括:
31、獲取模塊,獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對(duì),所述樣本rgb圖像和所述樣本ms圖像對(duì)應(yīng)同一場(chǎng)景分類;
32、教師模塊,將所述樣本ms圖像輸入預(yù)先訓(xùn)練完成的教師模型,確定所述教師模型從所述樣本ms圖像提取出的第一圖像特征,并確定所述教師模型根據(jù)所述第一圖像特征得到的第一場(chǎng)景分類,作為偽標(biāo)注;
33、學(xué)生模塊,將所述樣本rgb圖像輸入學(xué)生模型,確定所述學(xué)生模型從所述樣本rgb圖像提取出的第二圖像特征,并確定所述學(xué)生模型根據(jù)所述第二圖像特征得到的第二場(chǎng)景分類;
34、訓(xùn)練模塊,至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場(chǎng)景分類與所述偽標(biāo)注的差異,對(duì)所述學(xué)生模型進(jìn)行訓(xùn)練。
35、本說(shuō)明書提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述面向遙感場(chǎng)景非對(duì)稱跨模態(tài)的大模型知識(shí)遷移方法。
36、本說(shuō)明書提供了一種設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述面向遙感場(chǎng)景非對(duì)稱跨模態(tài)的大模型知識(shí)遷移方法。
37、本說(shuō)明書采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:
38、從上述方法中可以看出,本方法可在保證訓(xùn)練精度的前提下,降低對(duì)訓(xùn)練樣本的語(yǔ)義一致性需求,利用更少量的ms訓(xùn)練樣本對(duì)更多的rgb樣本進(jìn)行訓(xùn)練,進(jìn)而提升學(xué)生模型性能。