本發(fā)明涉及遙感圖像智能解譯領域,尤其涉及一種基于提示學習的遙感圖像分類方法。
背景技術:
1、遙感圖像分類是遙感技術應用的一項關鍵任務,其對農業(yè)和環(huán)境監(jiān)測、城市規(guī)劃、搶險救災和軍事偵察等領域的發(fā)展具有重要意義。由于遙感成像技術的快速發(fā)展和遙感衛(wèi)星的增加,遙感圖像數(shù)據(jù)的數(shù)量和質量不斷提升,研究人員基于此開發(fā)了大量表現(xiàn)出色的遙感圖像分類方法。其中,基于卷積神經網絡和基于注意力的深度學習方法獲得了驚人的表現(xiàn)。基于卷積神經網絡的遙感圖像分類方法利用局部和全局空間特征學習遙感圖像的特征表示,提高遙感圖像的分類性能。卷積神經網絡由輸入層、卷積層、池化層、全連接層和輸出層構成,在卷積神經網絡最后通過一個全連接層獲得圖像的抽象特征,然后輸入到分類器中進行分類。如vgg、resnet等?;谧⒁饬C制的遙感圖像分類方法使得模型關注圖像的特定區(qū)域來提高遙感圖像的分類性能,如vit等。雖然這些方法獲得了性能的提升,但是這些方法都只關注視覺上的表示,忽略了圖像語義的理解,從而阻礙了遙感圖像分類方法的性能提升。
技術實現(xiàn)思路
1、為解決上述現(xiàn)有技術中存在的技術問題,本發(fā)明提供一種基于提示學習的遙感圖像分類方法,包括以下步驟:
2、步驟s1、獲取遙感圖像樣本及其真實類別標簽,并進行預處理,形成遙感圖像數(shù)據(jù)集;
3、步驟s2、根據(jù)遙感圖像數(shù)據(jù)集,通過圖像編碼器和文本編碼器,獲得遙感圖像樣本的圖像特征向量和文本特征向量;
4、步驟s3、計算遙感圖像樣本的圖像特征向量和文本特征向量之間的相似性,得到遙感圖像樣本的預測類別標簽;
5、步驟s4、計算分類損失和對比損失,重復執(zhí)行所述步驟s1至s4,訓練并輸出分類模型;
6、步驟s5、利用所述分類模型進行遙感圖像分類。
7、根據(jù)本發(fā)明的一個技術方案,在所述步驟s1中,所述數(shù)據(jù)預處理包括:
8、步驟s11、根據(jù)所述真實類別標簽,確定所述遙感圖像數(shù)據(jù)集所包含的類別的類別信息描述及類別數(shù)量;
9、步驟s12、設置提示模板,所述提示模板的結構為”this?is?aphoto?ofthe{pro}{cls}used?forthe?classificationtask”,pro為遙感圖像樣本的屬性信息描述,cls為遙感圖像樣本的類別信息描述;
10、步驟s13、根據(jù)所述真實類別標簽和所述提示模板,為所述遙感圖像數(shù)據(jù)集中的每個遙感圖像樣本生成一個提示。
11、根據(jù)本發(fā)明的一個技術方案,在所述步驟s13中,具體包括:
12、步驟s131、定義類別信息描述列表和屬性信息描述列表,所述類別信息描述列表的元素分別為與所述遙感圖像數(shù)據(jù)集所包含的類別對應的類別信息描述,所述屬性信息描述列表的元素分別為與所述類別信息描述一一對應的屬性信息描述,所述類別信息描述列表和所述屬性信息描述列表的長度與所述遙感圖像數(shù)據(jù)集的類別數(shù)量相等;
13、步驟s122、根據(jù)所述真實類別標簽,查找所述類別信息描述列表和所述屬性信息描述列表,獲取與所述真實類別標簽對應的類別信息描述和屬性信息描述,并分別放入所述提示模板的pro和cls位置,形成遙感圖像樣本的提示。
14、根據(jù)本發(fā)明的一個技術方案,在所述步驟s2中,具體包括:
15、步驟s21、通過所述圖像編碼器獲得遙感圖像的圖像特征向量,所述圖像編碼器的網絡結構為clip圖像分支的vision?transformer結構;
16、步驟s22、通過所述文本編碼器獲得遙感圖像樣本的提示的文本特征向量,所述文本編碼器的網絡結構為clip文本分支的transformer結構。
17、根據(jù)本發(fā)明的一個技術方案,在步驟s3中,計算所述圖像特征向量與所述文本特征向量的相似性,得到遙感圖像樣本屬于每一類別的概率,取概率值最大的類別為預測類別標簽,遙感圖像樣本屬于類別k的概率的計算公式如下:
18、
19、其中,<·>為余弦相似度,f(·)為圖像編碼器,g(·)為文本編碼器,f(xi)表示第i張遙感圖像標簽xi的圖像特征向量,g(tj)表示標簽為j的對應提示tj的文本特征向量,k和j的范圍為[1,k],k為所述遙感圖像數(shù)據(jù)集的類別數(shù)量,τ為溫度超參。
20、根據(jù)本發(fā)明的一個技術方案,在所述步驟s4中,具體包括:
21、步驟s41、根據(jù)步驟s3得到的類別概率,計算分類損失lcls;
22、步驟s42、根據(jù)步驟s2得到的圖像特征向量和文本特征向量,計算對比損失lcon;
23、步驟s43、構建總損失ltotal=lcls+λlcon,其中λ為平衡系數(shù),用于調節(jié)損失之間的權重,lcls為分類損失,lcon為對比損失。
24、根據(jù)本發(fā)明的一個技術方案,在所述步驟s41中,使用遙感圖像樣本的真實類別標簽yi和在所述步驟s3中得到的預測類別標簽是真實類別標簽yi的概率計算分類損失lcls,表示為:
25、
26、其中,b為batch的大小。
27、根據(jù)本發(fā)明的一個技術方案,在所述步驟s422中,具體包括:
28、步驟s4221、根據(jù)遙感圖像樣本的真實類別標簽構建監(jiān)督矩陣gt,gt形狀為b×b,b為batch的大小,其元素為:
29、
30、其中,yp和yq分別表示該batch圖像中序號為p和q的圖像的標簽,p和q的范圍為[0,b-1];
31、步驟s4222、根據(jù)所述步驟s2得到的圖像特征向量和文本特征向量,計算圖像文本相似度矩陣i2t_logit和文本圖像相似度矩陣t2i_logit,利用所述步驟s4221得到的監(jiān)督矩陣gt,計算對比損失lcon=(li2t+lt2i)/2,其中,li2t和lt2i都是bcewithlogitsloss損失函數(shù),表示為:
32、bcewithlogitsloss={l1,...,ln},ln=-[yn·log(σ(xn))+(1-yn)·log(1-σ(xn))]
33、其中,n代表batch的數(shù)量,n代表每個batch預測的標簽數(shù)量,σ(·)代表sigmoid函數(shù),表示為:
34、
35、根據(jù)本發(fā)明的一個技術方案,在所述步驟s422中,具體包括:
36、步驟s4221、計算遙感圖像樣本的圖像文本相似度矩陣i2t_logit,表示為:
37、i2t_logit=i·tτ
38、其中,表示矩陣乘法,i為一組batch遙感圖像樣本的圖像特征矩陣,t為一組batch遙感圖像樣本對應的提示的文本特征矩陣;
39、步驟s4222、計算文本圖像相似度矩陣t2i_logit:
40、t2i_logit=t·iτ;
41、步驟s4223、根據(jù)所述步驟s421得到的監(jiān)督矩陣gt和所述步驟s4221得到的圖像文本相似度矩陣i2t_logit計算對比損失li2t:
42、li2t=bcewithlogitsloss(i2t_logit,gt);
43、步驟s4224、根據(jù)所述步驟s421得到的監(jiān)督矩陣gt和所述步驟s4222得到的文本圖像相似度矩陣t2i_logit計算對比損失lt2i:
44、lt2i=bcewithlogitsloss(t2i_logit,gt)。
45、本發(fā)明與現(xiàn)有技術相比,具有如下有益效果:
46、本發(fā)明提出了一種基于提示學習的遙感圖像分類方法,基于提示學習的遙感圖像分類方法,基于clip模型框架將分類任務轉換成圖像文本匹配任務,設計反映遙感圖像屬性和上下文信息的提示模板將分類標簽轉換為文本提示,使用對比損失解決正樣本對過少的問題。本發(fā)明通過提示學習,同時利用圖像和文本兩種模態(tài)信息,可以為模型提供更加豐富的語義和上下文信息,緩解了遙感圖像分類方法只關注視覺表示而忽略語義信息挖掘導致的分類精度不高的問題,提高了遙感圖像分類準確性。本發(fā)明,充分利用視覺語言模型的先驗知識,并通過對比學習,將分類任務轉換成圖像和文本的匹配任務,進一步提高了模型的分類精度。