本發(fā)明涉及遙感圖像壓縮方法。
背景技術(shù):
::1、遙感圖像具有諸多獨特的地物特性,如地表覆蓋、地形、地貌及溫度等,這些特性在自然圖像中通常不會展現(xiàn)。因此,遙感圖像在環(huán)境監(jiān)測、氣象學、地質(zhì)科學等眾多領(lǐng)域得到了廣泛應(yīng)用[1][2][3][4]([1]tang?w,he?f,bashir?ak,et?al.aremote?sensing?imagerotationobject?detection?approach?for?real-time?environmental?monitoring[j].sustainable?energytechnologies?and?assessments,2023,57:103270.[2]gama?p?h?t,oliveira?h?n,marcato?j,etal.weakly?supervised?few-shot?segmentation?via?meta-learning[j].ieee?transactions?onmultimedia,2022.[3]han?w,zhang?x,wang?y,etal.asurvey?of?machine?learning?and?deeplearning?in?remote?sensing?ofgeological?environment:challenges,advances,andopportunities[j].isprs?journalof?photogrammetry?and?remote?sensing,2023,202:87-113.[4]wang?x,wang?c,jin?x,et?al.coordinated?analysis?of?county?geological?environment?carryingcapacityand?sustainabledevelopment?under?remote?sensing?interpretation?combinedwithintegrated?model[j].ecotoxicology?and?environmental?safety,2023,257:114956.)。然而,遙感圖像通常由高空中的衛(wèi)星透過大氣層所捕獲,不可避免地有著較多的背景噪聲[5]([5]kang?j,fernandez-beltran?r,kang?x,et?al.noise-tolerant?deepneighborhood?embedding?forremotely?sensed?images?with?label?noise[j].ieeejournal?ofselected?topics?in?applied?earthobservations?and?remote?sensing,2021,14:2551-2562.)。此外,遙感圖像因高空拍攝,常包含完整物體或場景信息。相較于自然圖像,其全局上下文特征更為豐富,即包含了顯著的全局上下文信息[6]([6]zheng?p,jiang?j,zhang?y,et?al.cgc-net:acontext-guidedconstrained?network?for?remote-sensing?image?super?resolution[j].remote?sensing,2023,15(12):3171.)。這種信息對紋理特征和全局上下文特征的壓縮有著重要的影響。其次,隨著遙感技術(shù)的快速發(fā)展,遙感圖像的空間分辨率和光譜分辨率不斷提高,數(shù)據(jù)量也隨之幾何級增長[7]([7]j,fors?o,otazu?x,et?al.awavelet-based?method?for?the?determinationof?therelative?resolution?between?remotely?sensed?images[j].ieee?transactions?ongeoscienceand?remote?sensing,2006,44(9):2539-2548.)?;谏鲜鲈?,適合遙感圖像特性的專門的壓縮方法是迫切需要的。2、目前,常見的傳統(tǒng)圖像壓縮方法取得了一些成果[8][9]([8]sun?c,fan?x,zhaod.lossless?recompression?of?jpeg?images?using?transform?domain?intraprediction[j].ieeetransactions?on?image?processing,2022,32:88-99.[9]de?cea-dominguez?c,moure-lopez?jc,bartrina-rapesta?j,et?al.gpu-oriented?architecturefor?an?end-to-end?image/video?codecbased?on?jpeg2000[j].ieee?access,2020,8:68474-68487.)。例如,báscones等人提出了一種將主成分分析和jpeg2000結(jié)合起來壓縮高光譜圖像數(shù)據(jù)的方法[10]([10]báscones?d,gonzález?c,mozos?d.hyperspectral?imagecompression?using?vector?quantization,pcaandjpeg2000[j].remote?sensing,2018,10(6):907.)。經(jīng)典的jpeg[11]([11]wallace?g?k.thejpeg?still?picture?compressionstandard[j].communications?of?the?acm,1991,34(4):30-44.)和jpeg2000[12]([12]jpeg2000?official?softwareopenjpeg,https://jpeg.org/jpeg2000/software.html)主要由圖像變換、量化和熵編碼三部分構(gòu)成。首先,對圖像進行變換和去量化;接著,通過量化保留重要信息;最后,利用熵編碼壓縮解相關(guān)系數(shù)。此外,有著更優(yōu)越性能的bpg[13][14]([13]kovalenko?b,lukin?v,kryvenkos,et?al.bpg-based?automatic?lossy?compression?ofnoisy?images?with?the?prediction?of?anoptimal?operation?existence?and?itsparameters[j].applied?sciences,2022,12(15):7555.[14]li?f,lukin?v,ieremeiev?o,et?al.quality?control?for?the?bpg?lossy?compression?ofthree-channel?remotesensing?images[j].remote?sensing,2022,14(8):1824.)和webp[15]([15]maldonado?m,webp?j.a?new?web?oriented?image?format.universitat?oberta?de?catalunya,2010[j])在圖像壓縮領(lǐng)域也隨之誕生。li等人利用mdsi作為質(zhì)量評價指標,針對bpg壓縮算法進行改進,通過兩步壓縮策略來提供更準確的遠程感應(yīng)圖像質(zhì)量控制,實現(xiàn)了壓縮效率和圖像質(zhì)量的一致性[14]。傳統(tǒng)的圖像壓縮方法可歸為基于矢量量化[16]([16]wang?z,nasrabadin?m,huang?t?s.spatial-spectral?classification?of?hyperspectral?imagesusingdiscriminative?dictionary?designed?by?learning?vector?quantization[j].ieee?transactions?ongeoscience?and?remote?sensing,2013,52(8):4808-4822.)、基于預測編碼[17]([17]hu?y,yangw,ma?z,et?al.learning?end-to-end?lossy?imagecompression:abenchmark[j].ieeetransactions?on?pattern?analysis?and?machineintelligence,2021,44(8):4194-4211.)和基于變換編碼的算法[18]([18]aulí-llinàs?f,marcellin?m?w,serra-sagrista?j,et?al.lossy-to-lossless3d?image?coding?throughprior?coefficient?lookup?tables[j].information?sciences,2013,239:266-282.)。qian針對多光譜圖像提出了一種快速的矢量量化壓縮算法,其核心在于將輸入向量替換為與碼本匹配的碼字索引,進而優(yōu)化數(shù)據(jù)的傳輸與存儲效率[19]([19]qian?se.hyperspectral?data?compression?using?a?fast?vector?quantization?algorithm[j].ieeetransactions?on?geoscience?and?remote?sensing,2004,42(8):1791-1798.)。3d-mblp則運用了預測技術(shù),首先消除圖像中的空間冗余信息,再對當前頻帶進行預測,最后借助熵譯碼器對預測殘差進行編碼[20]([20]pizzolante?r,carpentieri?b.multibandand?losslesscompression?of?hyperspectral?images[j].algorithms,2016,9(1):16.)。此外,3d-spiht作為一種針對三維圖像的變換壓縮方法,通過在空間域和頻譜域應(yīng)用3d小波變換,實現(xiàn)了高效的圖像壓縮[21]([21]thornton?l,soraghan?j,kutil?r,etal.unequally?protected?spihtvideo?codec?for?low?bit?rate?transmission?overhighly?error-prone?mobile?channels[j].signalprocessing:image?communication,2002,17(4):327-335.)。然而,傳統(tǒng)的圖像壓縮方法存在一定的局限性。如jpeg、jpeg2000和bpg等,設(shè)計時并沒有考慮遙感圖像的特性,故對遙感圖像壓縮時壓縮性能較為受限。其次,在高壓縮比下,多數(shù)傳統(tǒng)圖像壓縮方法展現(xiàn)出相對較差的率失真性能。最后,對于遙感圖像信息熵高,背景噪聲繁雜,全局上下文信息豐富等特點,常見的傳統(tǒng)方法并不能做出高效的自適應(yīng)調(diào)整。因此,對于遙感圖像,采用傳統(tǒng)壓縮方法難以提供較好的壓縮性能。為了尋求突破,研究人員專注于近年來火熱的深度學習技術(shù)。經(jīng)典的基于深度學習的圖像壓縮框架,主要包括自動編碼器(autoencoder,ae)[22][23]([22]la?grassa?r,re?c,cremoneseg,et?al.hyperspectral?data?compression?usingfully?convolutional?autoencoder[j].remote?sensing,2022,14(10):2472.[23]liu?j,yuan?f,xue?c,et?al.an?efficientand?robust?underwater?image?compression?scheme?based?onautoencoder[j].ieeejournal?of?oceanic?engineering,2023.)和變分自動編碼器(variationalautoencoder,vae)[24][25]([24]alves?de?oliveira?v,chabert?m,oberlin?t,et?al.reduced-complexity?end-to-end?variational?autoencoder?for?on?board?satelliteimagecompression[j].remote?sensing,2021,13(3):447.[25]xu?q,xiang?y,di?z,etal.syntheticaperture?radar?image?compression?based?on?a?variationalautoencoder[j].ieee?geoscience?andremote?sensing?letters,2021,19:1-5.)。riccardo等人提出了一種基于深度卷積自編碼器的壓縮網(wǎng)絡(luò)(sscnet),用于解決空間科學和衛(wèi)星圖像領(lǐng)域中由復雜衛(wèi)星儀器產(chǎn)生的大規(guī)模數(shù)據(jù)量的處理問題。該網(wǎng)絡(luò)在壓縮比和譜信號重建方面均表現(xiàn)出優(yōu)越性,且對于大于8位的數(shù)據(jù)類型也表現(xiàn)出魯棒性[22]。alves等人設(shè)計了一個復雜度降低的變分自編碼器,旨在滿足衛(wèi)星圖像壓縮中的計算資源限制。通過減少網(wǎng)絡(luò)維度和簡化熵模型,該編碼器在保持壓縮性能的同時降低了復雜度[24]。然而,相較于基于ae的框架,基于vae的框架有著更強大的圖像重建能力。其原因在于,vae有著ae所不具備的連續(xù)映射空間,可以重建出像素間平滑過度的圖像。近年來,眾多基于vae的基線網(wǎng)絡(luò)相繼問世[26][27][28][29][30][31][32]([26]balléj,laparra?v,simoncelli?e?p.end-to-end?optimization?of?nonlinear?transform?codes?for?perceptual?quality[c]//2016picture?coding?symposium(pcs).ieee,2016:1-5.[27]minnen?d,balléj,todericig?d.joint?autoregressive?and?hierarchical?priors?for?learned?imagecompression[j].advances?in?neural?information?processing?systems,2018,31.[28]balléj,minnen?d,singh?s,et?al.variational?image?compression?with?a?scalehyperprior[j].arxiv?preprint?arxiv:1802.01436,2018.[29]cheng?z,sun?h,takeuchim,et?al.learned?image?compression?with?discretized?gaussian?mixturelikelihoods?and?attention?modules[c]//proceedings?of?the?ieee/cvf?conferenceon?computer?vision?and?pattern?recognition.2020:7939-7948.[30]guo?z,zhang?z,feng?r,et?al.causal?contextual?prediction?for?learned?image?compression[j].ieee?transactions?on?circuits?and?systems?for?video?technology,2021,32(4):2329-2341.[31]chen?t,liu?h,ma?z,et?al.end-to-end?learnt?image?compression?vianon-local?attention?optimization?and?improved?context?modeling[j].ieeetransactions?on?image?processing,2021,30:3179-3191.[32]cao?m,dai?w,li?s,etal.end-to-end?optimized?image?compression?with?deep?gaussian?processregression[j].ieeetransactions?on?circuits?and?systems?for?video?technology,2022.),展現(xiàn)出了比傳統(tǒng)圖像壓縮方法更優(yōu)越的率失真性能。這些基于vae的圖像壓縮網(wǎng)絡(luò)通常包含編碼器、熵編碼和解碼器三大組件。首先,利用神經(jīng)網(wǎng)絡(luò)對圖像數(shù)據(jù)塊進行初步壓縮;接著,將壓縮后的像素數(shù)據(jù)映射為量化表示;最后,通過傳統(tǒng)的編碼技術(shù)將這些數(shù)據(jù)進一步壓縮成比特流形式。此外,為了更精確地建模,一些壓縮模型在框架中引入了諸如拉普拉斯模型、單核高斯模型、混合高斯模型以及分層熵模型等熵模型,以充分利用先驗信息[33][34][35][36][37][38]([33]liu?d,sun?x,wu?f,et?al.edge-oriented?uniformintraprediction[j].ieee?transactions?on?image?processing,2008,17(10):1827-1836.[34]kong?f,cao?t,li?y,et?al.multi-scale?spatial-spectral?attention?networkfor?multispectral?image?compression?based?on?variational?autoencoder[j].signal?processing,2022,198:108589.[35]fu?c,du?b,zhang?l.sar?imagecompression?based?on?multi-resblock?and?global?context[j].ieee?geoscience?andremote?sensing?letters,2023,20:1-5.[36]zhang?l,hu?x,pan?t,et?al.global?priorswith?anchored-stripe?attention?and?multiscale?convolution?for?remote?sensingimages?compression[j].ieee?journal?of?selected?topics?in?applied?earthobservations?and?remote?sensing,2023.[37]gao?j,teng?q,he?x,et?al.mixedentropy?model?enhanced?residual?attention?network?for?remote?sensing?imagecompression[j].neural?processing?letters,2023,55(7):10117-10129.[38]xiang?s,liang?q,fang?l.discrete?wavelet?transform-based?gaussian?mixture?model?forremote?sensing?image?compression[j].ieee?transactions?on?geoscience?andremote?sensing,2023.)?;谏鲜隼碚?,一些學者研究出許多基于深度學習的遙感圖像壓縮網(wǎng)絡(luò),并實現(xiàn)了較好的率失真性能[39][40][41][42][43][44][45][46]([39]zhang?l,hu?x,pan?t,et?al.global?priors?with?anchored-stripe?attention?and?multiscale?convolutionfor?remote?sensing?images?compression[j].ieee?journal?ofselected?topics?inapplied?earth?observations?and?remote?sensing,2023.[40]guo?y,chong?y,ding?y,et?al.learned?hyperspectral?compression?using?a?student’s?t?hyperprior[j].remote?sensing,2021,13(21):4390.[41]zhao?m,yang?r,hu?m,et?al.deep?learning-based?technique?for?remote?sensing?image?enhancement?using?multiscale?featurefusion[j].sensors,2024,24(2):673.[42]sumbul?g,xiang?j,demir?b.towardssimultaneous?image?compression?and?indexing?for?scalable?content-basedretrieval?in?remote?sensing[j].ieee?transactions?on?geoscience?and?remotesensing,2022,60:1-12.[43]wang?h,liao?l,xiao?j,et?al.uplink-assist?downlinkremote?sensing?image?compression?via?historical?referecing[j].ieeetransactions?on?geoscience?and?remote?sensing,2023.[44]liu?m,tang?l,fan?l,etal.carnet:context-aware?residual?learning?for?jpeg-ls?compressed?remotesensing?image?restoration[j].remote?sensing,2022,14(24):6318.[45]ye?w,lei?w,zhang?w,et?al.gfscompnet:remote?sensing?image?compression?network?based?onglobal?feature-assisted?segmentation[j].multimedia?tools?and?applications,2024:1-25.[46]xiang?s,liang?q,tang?p.task-oriented?compression?framework?forremote?sensing?satellite?data?transmission[j].ieee?transactions?on?industrialinformatics,2023.)。上述方法雖然取得了較好的壓縮性能,但是,這些方法提取的全局上下文特征質(zhì)量相對較弱,即全局上下文特征作用范圍有限和全局上下文特征缺乏多層次性。這些缺點導致了模型的次優(yōu)率失真性能。3、相較于自然圖像,由于高空拍攝的影響,遙感圖像蘊含了豐富的全局上下文特征。然而,當前主流方法大多通過在主干網(wǎng)絡(luò)中引入全局特征模塊來提取全局上下文信息。這種方式存在兩個問題:首先,所獲取的全局上下文信息較為單一,缺乏多樣性;其次,全局上下文信息的作用范圍有限,僅局限于局部網(wǎng)絡(luò)的特征提取過程。因此,如何全面而有效地提取遙感圖像中的全局上下文信息,并增加全局上下文特征的多樣性和擴大全局上下文特征的作用范圍,成為遙感圖像壓縮領(lǐng)域亟待解決的嚴峻挑戰(zhàn)。技術(shù)實現(xiàn)思路1、本發(fā)明的目的是為了解決現(xiàn)有常規(guī)遙感圖像壓縮網(wǎng)絡(luò)中全局特征作用范圍小、層次性低,導致獲得的重構(gòu)圖像質(zhì)量差的問題,而提出基于全局上下文特征引導的雙分支遙感圖像壓縮方法。2、基于全局上下文特征引導的雙分支遙感圖像壓縮方法具體過程為:3、步驟一、構(gòu)建全局上下文特征引導的雙分支遙感圖像壓縮網(wǎng)絡(luò)gdrnet;4、全局上下文特征引導的雙分支遙感圖像壓縮網(wǎng)絡(luò)包括pvtcb模塊、四階壓縮分支fscb、四階重建解碼器fsrd、全局上下文特征引導模塊gvgm、傳統(tǒng)編解碼器;5、所述pvtcb模塊依次包括階段1、階段2、階段3、濾波器5;6、階段1依次包括一個補丁嵌入層和一個transformer編碼器;7、階段2依次包括一個補丁嵌入層和一個transformer編碼器;8、階段3依次包括一個補丁嵌入層和一個transformer編碼器;9、所述四階壓縮分支fscb包括壓縮模塊1、qfmr-am、壓縮模塊2、壓縮模塊3、壓縮模塊4;10、壓縮模塊1依次包括第一卷積層、第一gdn,第一卷積層的卷積核尺寸為7×7,輸入通道數(shù)為3,輸出通道數(shù)為n/4;11、壓縮模塊2依次包括第二卷積層、第二gdn,第二卷積層的卷積核尺寸為3×3,輸入通道數(shù)為n/4,輸出通道數(shù)為n/2;12、壓縮模塊3依次包括第三卷積層、第三gdn,第三卷積層的卷積核尺寸為3×3,輸入通道數(shù)為n/2,輸出通道數(shù)為3n/4;13、壓縮模塊4依次包括第四卷積層、第四gdn,第四卷積層的卷積核尺寸為3×3,輸入通道數(shù)為3n/4,輸出通道數(shù)為n;14、所述gdn代表廣義分裂歸一化函數(shù);n為通道數(shù);15、所述四階重建解碼器fsrd包括重構(gòu)模塊1、qfmr-am、重構(gòu)模塊2、重構(gòu)模塊3、重構(gòu)模塊4;16、重構(gòu)模塊1依次包括第八卷積層、第一igdn;第八卷積的卷積核尺寸為3×3,輸入通道數(shù)為n/4,輸出通道數(shù)為3;17、重構(gòu)模塊2依次包括第九卷積層、第二igdn;第九卷積的卷積核尺寸為3×3,輸入通道數(shù)為n/2,輸出通道數(shù)為n/4;18、重構(gòu)模塊3依次包括第十卷積層、第三igdn;第十卷積的卷積核尺寸為3×3,輸入通道數(shù)為3n/4,輸出通道數(shù)為n/2;19、重構(gòu)模塊4依次包括第十一卷積層、第四igdn;第十一卷積的卷積核尺寸為3×3,輸入通道數(shù)為n,輸出通道數(shù)為3n/4;20、所述igdn代表gdn逆運算;21、所述全局上下文特征引導模塊gvgm包括用于提取多通道信息的mceb,用于提取全局上下文特征的mhsa,以及用于計算compression部分和reconstruction部分之間全局上下文特征差異的損失lossgvf;22、全局上下文特征引導模塊gvgm的具體工作過程為:23、inputa輸入mceb,mceb輸出特征輸入mhsa,mhsa輸出特征outputa;24、inputb輸入mceb,mceb輸出特征輸入mhsa,mhsa輸出特征outputb;25、計算特征outputa和特征outputb間的損失lossgvf;26、inputa代表壓縮模塊3的輸出特征圖,inputb代表重構(gòu)模塊4的輸出特征圖;27、傳統(tǒng)編解碼器包含概率模型和q量化器;28、所述全局上下文特征引導的雙分支遙感圖像壓縮網(wǎng)絡(luò)gdrnet的具體工作過程為:29、遙感圖像輸入pvtcb模塊,pvtcb模塊輸出特征g;30、遙感圖像依次輸入四階壓縮分支fscb中的壓縮模塊1、qfmr-am、壓縮模塊2、壓縮模塊3,壓縮模塊3輸出特征inputa;31、壓縮模塊3輸出特征inputa依次輸入mceb、mhsa,mhsa輸出特征outputa;32、將mhsa輸出特征outputa和壓縮模塊3輸出特征inputa進行逐元素相加,得到加和后特征,加和后特征輸入壓縮模塊4,壓縮模塊4輸出特征;33、將壓縮模塊4輸出特征和pvtcb模塊輸出特征g進行逐元素相加,得到加和后特征y;34、特征y輸入概率模型probability?model,概率模型probability?model分別輸出算術(shù)編碼ae和算術(shù)解碼ad;35、特征y輸入q量化器,q量化器輸出特征特征依次輸入ae算術(shù)編碼和ad算術(shù)解碼,ad算術(shù)解碼輸出特征36、ad算術(shù)解碼輸出特征輸入重構(gòu)模塊4,重構(gòu)模塊4輸出特征inputb;37、重構(gòu)模塊4輸出特征inputb依次輸入mceb、mhsa,mhsa輸出特征outputb;38、將mhsa輸出特征outputb和重構(gòu)模塊4輸出特征inputb進行逐元素相加,得到加和后特征k;39、加和后特征k依次輸入重構(gòu)模塊3、重構(gòu)模塊2、qfmr-am、重構(gòu)模塊1,重構(gòu)模塊1輸出重構(gòu)圖像;40、計算特征outputa和特征outputb間的損失lossgvf;41、步驟二、基于全局上下文特征引導的雙分支遙感圖像壓縮網(wǎng)絡(luò)gdrnet對待測遙感圖像先進行壓縮再進行重構(gòu),得到重構(gòu)后的待測遙感圖像。42、本發(fā)明的有益效果為:43、遙感圖像因高空拍攝,常包含完整物體或場景信息,這使得其全局上下文特征相較于自然圖像而言更為豐富。因此,為了增強遙感圖像全局上下文特征的作用范圍和多層次性特征,本發(fā)明提出一種全局上下文特征引導的雙分支遙感圖像壓縮網(wǎng)絡(luò)(dual-branchremote?sensing?image?compression?network?guided?by?global?visualfeatures,gdrnet),以優(yōu)化全局特征處理,進一步提升壓縮效率與重建圖像質(zhì)量。首先,設(shè)計了一種金字塔視覺transformer壓縮分支(pyramid?vision?transformer?compressionbranch,pvtcb),該分支通過三階金字塔transformer模塊(three-stage?pyramidtransformer?module?for?imagecompression,tptc)捕獲多層次全局上下文信息,并利用濾波器精準控制pvtcb的輸出,從而優(yōu)化遙感圖像的壓縮效果。其次,在四階壓縮分支(four-stage?compression?branch,fscb)中構(gòu)建了用于降噪和增強多層次信息特征的四重濾波多核降噪注意力模塊(quadruple?filtered?multi-core?noise?reductionattention?module,qfmr-am)。最后,在fscb和四階重建解碼器(four-stagereconstruction?decoder,fsrd)中構(gòu)建了全局上下文特征引導模塊(global?visualfeature?guidance?module,gvgm)。通過gvgm計算提出的全局上下文特征損失lossgvf,并以此重構(gòu)本網(wǎng)絡(luò)的總體損失losstotal,使網(wǎng)絡(luò)更專注于全局信息的提取,本發(fā)明壓縮網(wǎng)絡(luò)中全局特征作用范圍大、層次性高,提高了獲得的重構(gòu)圖像的質(zhì)量。實驗結(jié)果表明,與一些先進的壓縮模型相比,提出的gdrnet方法,在多個壓縮評價指標上,都取得了更好的壓縮性能。44、本發(fā)明提出一種全局上下文特征引導的雙分支遙感圖像壓縮網(wǎng)絡(luò)(dual-branchremote?sensing?image?compression?network?guided?by?global?visualfeatures,gdrnet)。通過增加全局上下文信息的多層次性和擴大全局信息作用范圍,來增強遙感圖像中的全局上下文特征,進而提升重建圖像質(zhì)量。gdrnet主要由以下部分組成:一個雙分支的壓縮結(jié)構(gòu),包括金字塔視覺transformer壓縮分支(pyramid?visiontransformer?compression?branch,pvtcb)和四階壓縮分支(four-stage?compressionbranch,fscb);熵編碼;以及四階重建解碼器(four-stage?reconstruction?decoder,fsrd)。gdrnet主要從三個方面進行分析和優(yōu)化。第一,遙感圖像通常由太空中的衛(wèi)星透過復雜的云層與大氣層捕獲,因此不可避免地會帶有較多的背景噪聲。針對這個問題,本發(fā)明提出用于降噪和增強多層次信息特征的四重濾波多核降噪注意力模塊(quadruplefiltered?multi-core?noise?reduction?attentionmodule,qfmr-am)。其通過多重的濾波器和不同尺度的卷積,實現(xiàn)了對復雜的背景噪聲有效的削弱和對不同尺度特征高效的提取、增強、融合。第二,常見的全局上下文特征增強模塊的作用范圍有限。針對這個問題,本發(fā)明在壓縮部分和重建部分中間構(gòu)建了全局上下文特征引導模塊(global?visualfeature?guidance?module,gvgm),通過它計算出提出的全局上下文特征損失lossgvf,并以此重構(gòu)了本網(wǎng)絡(luò)的總體損失losstotal。這一設(shè)計讓全局上下文特征通過損失的形式高效的作用于整個網(wǎng)絡(luò),從而有力地增強了全局上下文特征的質(zhì)量。第三,采用單個方法來增強全局上下文信息的提取會導致全局特征的單一化。因此,本發(fā)明引入了金字塔視覺transformer壓縮分支。該分支通過三階金字塔transformer模塊(three-stage?pyramidtransformer?module?for?image?compression,tptc)捕獲多層次全局上下文信息,并利用濾波器以精準控制pvtcb的輸出,從而優(yōu)化遙感圖像的壓縮效果。綜上,本發(fā)明基于提出的pvtcb、fscb、fsrd、qfmr-am、gvgm,以及重構(gòu)的總體損失losstotal,構(gòu)建了高性能的gdrnet。本發(fā)明在san?francisco[47]([47]https://resources.maxar.com/product-samples/analysis-ready-data-san-francisco-california)nwpu-resisc45[48]([48]cheng?g,hanj,lu?x.remote?sensing?image?scene?classification:benchmark?and?state?of?theart[j].proceedings?of?the?ieee,2017,105(10):1865-1883.)和uc-merced[49]([49]y.yang?and?s.newsam,“bag-of-visual-words?and?spatial?extensions?forland-useclassification,”in?acmsigspatial?international?conference?on?advancesingeographic?information?systems(acm?gis),2010.)等遙感圖像數(shù)據(jù)集上進行了充分實驗。實驗結(jié)果表明,相比于傳統(tǒng)的圖像壓縮方法jpeg2000[12]、bpg[50]([50]f.bellard.bpgimage?format.[online].available:http://bellard.org/bpg/)和webp[51]([51]maldonado?m,webpj.a?new?web?oriented?image?format.universitat?obertade?catalunya,2010[j].)、以及基于深度學習的圖像壓縮方法minnen?ta?al.[27]、minnenet?al.(mean)[27]、balle?et?al.(hyperprior)[28]、balle?et?al.(factorized-relu)[28]、tong2023[52]([52]tong?k,wu?y,li?y,et?al.qvrf:aquantization-error-awarevariable?rate?framework?for?learned?image?compression[j].arxivpreprint?arxiv:2303.05744,2023.),本發(fā)明提出的gdrnet在峰值信噪比(peaksignal-to-noise?ratio,psnr)、多尺度結(jié)構(gòu)相似性指數(shù)度量(multiscale?structural?similarityindex?metric,ms-ssim)等評價指標上表現(xiàn)更為優(yōu)越。45、綜上所述,本發(fā)明的主要貢獻如下:46、1)本發(fā)明提出了一種四重濾波多核降噪注意力模塊(quadruple?filteredmulti-core?noisereduction?attention?module,qfmr-am),旨在實現(xiàn)降噪與多層次信息特征的增強。該模塊通過運用多重濾波器和多尺度卷積技術(shù),有效削弱復雜的背景噪聲,并高效提取、增強和融合不同尺度的特征信息。2)本發(fā)明設(shè)計了一種全局上下文特征引導模塊(global?visualfeature?guidance?module,gvgm),其通過計算壓縮部分和重建部分之間的全局上下文特征損失lossgvf,來重構(gòu)提出網(wǎng)絡(luò)的總體損失losstotal,從而將全局上下文特征通過損失的形式高效作用于整個網(wǎng)絡(luò)。3)本發(fā)明構(gòu)建了一種金字塔視覺transformer壓縮分支(pyramid?vision?transformer?compression?branch,pvtcb),該分支通過三階金字塔transformer模塊(three-stage?pyramid?transformer?module?for?imagecompression,tptc)捕獲多層次全局上下文信息,并利用濾波器以精準控制pvtcb的輸出,從而增強了遙感圖像中全局特征的多層次性。4)本發(fā)明將pvtcb、fscb、fsrd、qfmr-am、gvgm、重構(gòu)的總體損失losstotal和factorized?entropy?model有效嵌在一起,構(gòu)建了一種高性能的全局上下文特征引導的雙分支遙感圖像壓縮網(wǎng)絡(luò)(dual-branch?remote?sensingimagecompression?network?guided?by?global?visual?features,gdrnet)。通過在sanfrancisco、nwpu-resisc45和uc-merced數(shù)據(jù)集上的大量實驗,證明了gdrnet在多項評價指標上的優(yōu)越性能。當前第1頁12當前第1頁12