本發(fā)明涉及圖像壓縮領(lǐng)域,尤其是涉及一種基于自監(jiān)督學習的機器視覺編碼方法和系統(tǒng)。
背景技術(shù):
1、圖像壓縮是實現(xiàn)視覺交互、處理和內(nèi)容分析的前端技術(shù),同時也是支撐信息時代高速發(fā)展的基礎(chǔ)技術(shù)。圖像壓縮旨在通過算法消除圖像中的空域和統(tǒng)計冗余信息,以達到信號壓縮的目的,從而以更加高效的方式存儲和傳輸數(shù)據(jù)。現(xiàn)有針對圖像壓縮的方法以面向人眼視覺的信號保真度優(yōu)化為主。傳統(tǒng)混合編碼框架中各個手工設(shè)計的模塊相互獨立,其最優(yōu)性很難得到保證,并且傳統(tǒng)編碼標準以均方誤差為優(yōu)化目標,退化了語義信息,導致壓縮圖像難以高效地執(zhí)行機器視覺內(nèi)容分析。不同于傳統(tǒng)的編碼技術(shù),基于端對端的圖像壓縮方法不依賴于塊劃分,打破傳統(tǒng)編碼工具間的耦合性約束,以更完善的非線性變換編碼和更高效的熵模型來估計碼率,使得率失真性能獲得了極大的提升。但現(xiàn)有基于端對端的圖像壓縮方法旨在高效地存儲和降低傳輸帶寬,為人眼視覺的信號保真度進行優(yōu)化,仍未改變編碼重建難以用于高級語義分析的局面。
2、綜上,現(xiàn)有的圖像壓縮方法從離散信號層面入手,以統(tǒng)計知識為先驗來優(yōu)化人眼視覺,這些方法仍然面臨編碼重建的語義分析不可靠性、魯棒性差以及遠距離目標之間的長程依賴關(guān)系無法得到充分壓縮等挑戰(zhàn)。因此需要在降低傳輸帶寬的條件下,研究如何避免解碼復雜度,使壓縮特征直接服務(wù)于多個機器視覺任務(wù)極具現(xiàn)實的意義。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在語義分析不可靠、復雜度高的缺陷而提供一種基于自監(jiān)督學習的機器視覺編碼方法和系統(tǒng)。
2、本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
3、一種基于自監(jiān)督學習的機器視覺編碼方法,包括以下步驟:
4、將圖像信息經(jīng)數(shù)據(jù)增強后,隨機采樣成子塊,其中有語義內(nèi)容的子塊為正樣本,無語義內(nèi)容的子塊為負樣本,將正樣本和負樣本輸入骨干網(wǎng)絡(luò)頭部提取和變換特征通道,得到第一特征;
5、使用冗余消除編碼器變換第一特征得到低維空間的特征,通過第一量化器對低維空間的特征增加均勻噪聲得到量化后的特征,通過算數(shù)編解碼將量化后的特征傳遞至冗余消除解碼器,重建壓縮特征,得到第二特征;
6、采用編碼器將第二特征變換至低維空間,再通過第二量化器增加均勻噪聲降低冗余,超先驗編碼器提取和編碼降低冗余后的第二特征的邊信息,通過算數(shù)編解碼將邊信息傳遞至超先驗解碼器解碼,之后采用基于混合高斯熵模型預測第二特征的概率分布參數(shù)以及碼率,再使用解碼器重建出編碼特征的維度,得到第三特征;
7、使用卷積神經(jīng)網(wǎng)絡(luò)提取和變換第三特征的維度,同時提取卷積特征加權(quán)為熱力圖,通過熱力圖引導選擇輸入圖像的有效正樣本,得到編碼結(jié)果。
8、進一步地,第一量化器和第二量化器添加的均勻噪聲的噪聲值均為-0.5至0.5開區(qū)間內(nèi)。
9、本發(fā)明的第二方面,一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),包括依次連接的骨干網(wǎng)絡(luò)頭部、冗余消除模塊、壓縮網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)尾部,系統(tǒng)運行時實現(xiàn)如上任一的一種基于自監(jiān)督學習的機器視覺編碼方法。
10、進一步地,骨干網(wǎng)絡(luò)頭部包括兩部分殘差網(wǎng)絡(luò),第一部分為殘差卷積網(wǎng)絡(luò)resnet50中的stem層,第二部分為殘差卷積網(wǎng)絡(luò)resnet50中的第一層網(wǎng)絡(luò)。
11、進一步地,骨干網(wǎng)絡(luò)頭部接收熱力圖作為語義引導選擇輸入圖像的有效正樣本。
12、進一步地,冗余消除模塊包括冗余消除編碼器、第一量化器、第一算數(shù)編碼器、第一算術(shù)解碼器和冗余消除解碼器,冗余消除編碼器和冗余消除解碼器為鏡像網(wǎng)絡(luò),第一量化器用于對低維空間的特征增加噪聲,第一算數(shù)編碼器和第一算術(shù)解碼器用于將數(shù)據(jù)壓縮為碼流進行存儲和傳輸。
13、進一步地,壓縮網(wǎng)絡(luò)包括編碼器、超先驗編碼器、超先驗解碼器、第二量化器、第二算數(shù)編碼器、第二算術(shù)解碼器和解碼器,超先驗編碼器和超先驗解碼器用于配合混合高斯熵模型,預測編碼器輸出特征的概率分布,解碼器與編碼器是一對鏡像網(wǎng)絡(luò),均包括兩層門控循環(huán)卷積網(wǎng)絡(luò)。
14、進一步地,骨干網(wǎng)絡(luò)尾部包括殘差卷積網(wǎng)絡(luò)resnet50的第二層、第三層和第四層卷積神經(jīng)網(wǎng)絡(luò),骨干網(wǎng)絡(luò)尾部接收第三特征,并提取語義內(nèi)容特征,作為輸出。
15、進一步地,骨干網(wǎng)絡(luò)尾部中的最后一層卷積特征沿著通道維度進行求和以獲得熱力圖,該熱力圖作為語義引導反饋至輸入圖像去選擇具有語義內(nèi)容的正樣本。
16、進一步地,系統(tǒng)訓練時,整個系統(tǒng)以對比學習的自監(jiān)督形式進行端對端訓練,共分為三個階段,在第一階段中,僅訓練骨干網(wǎng)絡(luò)頭部和骨干網(wǎng)絡(luò)尾部,在第二階段中,固定骨干網(wǎng)絡(luò)頭部和骨干網(wǎng)絡(luò)尾部的權(quán)重,僅訓練冗余消除模塊,在第三階段中,固定骨干網(wǎng)絡(luò)頭部、骨干網(wǎng)絡(luò)尾部和冗余消除模塊的權(quán)重,僅訓練壓縮網(wǎng)絡(luò),訓練時的損失函數(shù)為壓縮特征的碼率和機器視覺分析任務(wù)的預測準確率進行加權(quán)求和。
17、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
18、1)本發(fā)明設(shè)計的冗余消除模塊能在自監(jiān)督學習的過程中提高特征的緊湊性,同時本發(fā)明涉及的壓縮網(wǎng)絡(luò)充分考慮了遠距離目標之間的依賴關(guān)系,能充分壓縮圖像空域信號的全局冗余,降低了編碼復雜度,在編碼圖像信號的過程中能充分保留語義內(nèi)容,增強了編碼特征在機器視覺任務(wù)分析中的可靠性。
19、2)本發(fā)明在圖像分類、目標檢測和實例分割三個機器視覺任務(wù)上獲得優(yōu)越的預測效果,證實了本方法能夠僅訓練一次模型就能應用于多個機器視覺分析任務(wù)。
1.一種基于自監(jiān)督學習的機器視覺編碼方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于自監(jiān)督學習的機器視覺編碼方法,其特征在于,所述第一量化器和第二量化器添加的均勻噪聲的噪聲值均為-0.5至0.5開區(qū)間內(nèi)。
3.一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),其特征在于,包括依次連接的骨干網(wǎng)絡(luò)頭部、冗余消除模塊、壓縮網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)尾部,所述系統(tǒng)運行時實現(xiàn)如權(quán)利要求1-2任一所述的一種基于自監(jiān)督學習的機器視覺編碼方法。
4.根據(jù)權(quán)利要求3所述的一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),其特征在于,所述骨干網(wǎng)絡(luò)頭部包括兩部分殘差網(wǎng)絡(luò),第一部分為殘差卷積網(wǎng)絡(luò)resnet50中的stem層,第二部分為殘差卷積網(wǎng)絡(luò)resnet50中的第一層網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求4所述的一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),其特征在于,所述骨干網(wǎng)絡(luò)頭部接收熱力圖作為語義引導選擇輸入圖像的有效正樣本。
6.根據(jù)權(quán)利要求3所述的一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),其特征在于,所述冗余消除模塊包括冗余消除編碼器、第一量化器、第一算數(shù)編碼器、第一算術(shù)解碼器和冗余消除解碼器,所述冗余消除編碼器和冗余消除解碼器為鏡像網(wǎng)絡(luò),所述第一量化器用于對低維空間的特征增加噪聲,所述第一算數(shù)編碼器和第一算術(shù)解碼器用于將數(shù)據(jù)壓縮為碼流進行存儲和傳輸。
7.根據(jù)權(quán)利要求3所述的一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),其特征在于,所述壓縮網(wǎng)絡(luò)包括編碼器、超先驗編碼器、超先驗解碼器、第二量化器、第二算數(shù)編碼器、第二算術(shù)解碼器和解碼器,所述超先驗編碼器和超先驗解碼器用于配合混合高斯熵模型,預測編碼器輸出特征的概率分布,所述解碼器與編碼器是一對鏡像網(wǎng)絡(luò),均包括兩層門控循環(huán)卷積網(wǎng)絡(luò)。
8.根據(jù)權(quán)利要求3所述的一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),其特征在于,所述骨干網(wǎng)絡(luò)尾部包括殘差卷積網(wǎng)絡(luò)resnet50的第二層、第三層和第四層卷積神經(jīng)網(wǎng)絡(luò),所述骨干網(wǎng)絡(luò)尾部接收第三特征,并提取語義內(nèi)容特征,作為輸出。
9.根據(jù)權(quán)利要求8所述的一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),其特征在于,所述骨干網(wǎng)絡(luò)尾部中的最后一層卷積特征沿著通道維度進行求和以獲得熱力圖,該熱力圖作為語義引導反饋至輸入圖像去選擇具有語義內(nèi)容的正樣本。
10.根據(jù)權(quán)利要求3所述的一種基于自監(jiān)督學習的機器視覺編碼系統(tǒng),其特征在于,所述系統(tǒng)訓練時,整個系統(tǒng)以對比學習的自監(jiān)督形式進行端對端訓練,共分為三個階段,在第一階段中,僅訓練骨干網(wǎng)絡(luò)頭部和骨干網(wǎng)絡(luò)尾部,在第二階段中,固定骨干網(wǎng)絡(luò)頭部和骨干網(wǎng)絡(luò)尾部的權(quán)重,僅訓練冗余消除模塊,在第三階段中,固定骨干網(wǎng)絡(luò)頭部、骨干網(wǎng)絡(luò)尾部和冗余消除模塊的權(quán)重,僅訓練壓縮網(wǎng)絡(luò),訓練時的損失函數(shù)為壓縮特征的碼率和機器視覺分析任務(wù)的預測準確率進行加權(quán)求和。