本發(fā)明涉及計算機視覺與圖像處理,特別涉及基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法與系統(tǒng)。
背景技術(shù):
1、在計算機視覺與圖像處理領(lǐng)域,視覺跟蹤是許多基礎(chǔ)應(yīng)用的核心部分,例如在自動駕駛、視頻監(jiān)控、交通車輛監(jiān)控以及人機交互等方面。因此,隨著跟蹤技術(shù)的實用性和實時性的增強,越來越多的跟蹤相關(guān)應(yīng)用在現(xiàn)實生活中變得越來越普遍,這使得視頻跟蹤技術(shù)的研究變得更加有價值。
2、通常來說,由于外觀變化、形變、快速運動以及遮擋等諸多原因,視覺跟蹤仍然是一個具有挑戰(zhàn)性的任務(wù),設(shè)計一個魯棒的跟蹤器仍然是一個具有挑戰(zhàn)性的問題。近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的視覺跟蹤器被廣泛應(yīng)用于視覺跟蹤領(lǐng)域。具體來說,將基于卷積神經(jīng)網(wǎng)絡(luò)模型的特征信息引入到模板和搜索分支中,通過互關(guān)操作得到的一個或多個響應(yīng)圖用于解碼提取信息。其中,典型的卷積神經(jīng)網(wǎng)絡(luò)模型包括alexnet、vgg和resnet等。目前,大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型主要使用多個卷積算子,可以有效地捕捉空間局部信息,從而建模圖像內(nèi)容的全局關(guān)系。然而,這種方法削弱了模型在處理復(fù)雜場景時獲得重要全局上下文信息的功能。
3、此外,transformer的使用讓計算機視覺領(lǐng)域得到了飛速發(fā)展。對于很多計算機視覺任務(wù),如目標(biāo)跟蹤,如何提高模型的表現(xiàn)能力和提高模型的性能仍然是一個非常重要的問題,且transformer本身就是用低效率的成本為代價的,故并不希望提高性能的代價是更低的效率。如何在只增加很少參數(shù)或不增加參數(shù)的前提下,也能夠有效地探索連續(xù)幀之間的上下文且不丟失局部信息,并能夠提高跟蹤器的性能,設(shè)計一個魯棒性高的跟蹤器,成為了目標(biāo)跟蹤的重要問題。
技術(shù)實現(xiàn)思路
1、鑒于上述狀況,本發(fā)明的主要目的是為了提出基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法與系統(tǒng),以解決上述技術(shù)問題。
2、本發(fā)明提出一種基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,所述方法包括如下步驟:
3、步驟1、基于transformer網(wǎng)絡(luò)和分組注意力模塊構(gòu)建雙分支特征提取網(wǎng)絡(luò),雙分支特征提取網(wǎng)絡(luò)的兩個分支權(quán)重共享,基于自注意力機制構(gòu)建特征融合網(wǎng)絡(luò),雙分支特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和預(yù)測頭構(gòu)成目標(biāo)跟蹤模型;
4、步驟2、將模板圖像和搜索圖像依次輸入目標(biāo)跟蹤模型,并通過分組注意力機制依次對模板圖像和搜索圖像進行特征提取,得到模板特征和搜索特征;
5、步驟3、利用緩存技術(shù)對提取的模板特征進行緩存,并與提取的搜索特征通過拼接模板進行拼接和交互以得到拼接結(jié)果,將拼接結(jié)果通過多頭自注意力機制進行特征融合以得到融合結(jié)果;
6、步驟4、將融合結(jié)果送入中心頭進行預(yù)測以得到中心度得分圖,根據(jù)中心度得分圖中置信值最高的位置,并通過相應(yīng)的回歸坐標(biāo)計算邊界框以得到最終預(yù)測結(jié)果;
7、步驟5、以迭代的形式重復(fù)步驟2至步驟4,對目標(biāo)跟蹤模型進行訓(xùn)練,當(dāng)達到預(yù)設(shè)次數(shù)后停止訓(xùn)練,得到訓(xùn)練后的目標(biāo)跟蹤模型;
8、步驟6、訓(xùn)練后的目標(biāo)跟蹤模型更新最終的預(yù)測結(jié)果,并利用所述更新最終的預(yù)測結(jié)果中最大相似度得分的目標(biāo)候選塊進行精確的目標(biāo)跟蹤。
9、本發(fā)明還提出一種基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤系統(tǒng),所述系統(tǒng)包括:
10、構(gòu)建模塊,用于:
11、基于transformer網(wǎng)絡(luò)和分組注意力模塊構(gòu)建雙分支特征提取網(wǎng)絡(luò),雙分支特征提取網(wǎng)絡(luò)的兩個分支權(quán)重共享,基于自注意力機制構(gòu)建特征融合網(wǎng)絡(luò),雙分支特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和預(yù)測頭構(gòu)成目標(biāo)跟蹤模型;
12、提取模塊,用于:
13、將模板圖像和搜索圖像依次輸入目標(biāo)跟蹤模型,并通過分組注意力機制依次對模板圖像和搜索圖像進行特征提取,得到模板特征和搜索特征;
14、融合模塊,用于:
15、利用緩存技術(shù)對提取的模板特征進行緩存,并與提取的搜索特征通過拼接模板進行拼接和交互以得到拼接結(jié)果,將拼接結(jié)果通過多頭自注意力機制進行特征融合以得到融合結(jié)果;
16、預(yù)測模塊,用于:
17、將融合結(jié)果送入中心頭進行預(yù)測以得到中心度得分圖,根據(jù)中心度得分圖中置信值最高的位置,并通過相應(yīng)的回歸坐標(biāo)計算邊界框以得到最終預(yù)測結(jié)果;
18、訓(xùn)練模塊,用于:
19、以迭代的形式重復(fù)步提取模塊至預(yù)測模塊,對目標(biāo)跟蹤模型進行訓(xùn)練,當(dāng)達到預(yù)設(shè)次數(shù)后停止訓(xùn)練以得到訓(xùn)練后的目標(biāo)跟蹤模型;
20、跟蹤模塊,用于:
21、訓(xùn)練后的目標(biāo)跟蹤模型更新最終的預(yù)測結(jié)果,并利用所述更新最終的預(yù)測結(jié)果中最大相似度得分的目標(biāo)候選塊進行精確的目標(biāo)跟蹤。
22、與現(xiàn)有技術(shù)相比,本發(fā)明有益效果如下:
23、1、本發(fā)明采用分組注意力的方法,該方法通過窗口標(biāo)記嵌入,以微乎其微的成本計算窗口之間的注意力關(guān)系,在多個窗口間建立長距離的信息交互,捕獲更多的上下文信息,并獲得更好的跟蹤性能。
24、2、本發(fā)明采用將分組注意力技術(shù)集成到了特征提取模塊的每個編碼器中,使模型在處理目標(biāo)圖像和搜索圖像時,能夠更加精確地進行窗口內(nèi)部和窗口間的順序局部和全局信息交互,實現(xiàn)性能與速度之間的最佳平衡。
25、3、本發(fā)明不僅優(yōu)化了特征提取過程,還為圖像識別和搜索任務(wù)提供更為高效和精確的解決方案。
26、本發(fā)明的附加方面與優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實施例了解到。本發(fā)明的附加方面與優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實施例了解到。
1.一種基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,其特征在于,在基于transformer網(wǎng)絡(luò)和分組注意力模塊構(gòu)建雙分支特征提取網(wǎng)絡(luò)的步驟中,分組注意力模塊的計算過程對應(yīng)存在的關(guān)系式為:
3.根據(jù)權(quán)利要求2所述的基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,其特征在于,在分組注意力模塊的計算過程包括深度自注意力機制處理及分離自注意力機制處理;
4.根據(jù)權(quán)利要求3所述的基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,其特征在于,分組注意力模塊的計算過程包括深度自注意力機制處理及分離自注意力機制;
5.根據(jù)權(quán)利要求4所述的基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,其特征在于,在所述步驟2中,將模板圖像和搜索圖像依次輸入目標(biāo)跟蹤模型,并通過分組注意力機制依次對模板圖像和搜索圖像進行特征提取,得到模板特征和搜索特征的步驟具體包括如下子步驟:
6.根據(jù)權(quán)利要求5所述的基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,其特征在于,在所述步驟3中,利用緩存技術(shù)對提取的模板特征進行緩存,并與提取的搜索特征通過拼接模板進行拼接和交互以得到拼接結(jié)果,將拼接結(jié)果通過多頭自注意力機制進行特征融合以得到融合結(jié)果的步驟具體包括如下子步驟:
7.根據(jù)權(quán)利要求6所述的基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,其特征在于,在將模板圖像的特征表示與搜索圖像的特征表示進行拼接,并通過多頭自注意力機制進行特征融合得到融合結(jié)果的步驟中,多頭自注意力機制進行特征融合的計算過程對應(yīng)存在的關(guān)系式為:
8.一種基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤系統(tǒng),其特征在于,所述系統(tǒng)應(yīng)用如權(quán)利要求1至7任意一項所述的基于分組注意力特征提取網(wǎng)絡(luò)的目標(biāo)跟蹤方法,所述系統(tǒng)包括: