本發(fā)明屬于機(jī)器學(xué)習(xí)算法和計(jì)算機(jī)視覺,具體地涉及一種基于語義增強(qiáng)的海洋船舶定位方法。
背景技術(shù):
1、海洋船舶定位是給定一張包含海洋船舶的圖像,定位圖像中語言表達(dá)所指示的船舶目標(biāo)對(duì)象。這一過程在人類語言和物理世界的視覺內(nèi)容之間建立了一座橋梁,具有智能導(dǎo)航和自然人機(jī)交互的巨大潛力。傳統(tǒng)的目標(biāo)檢測(cè)方法局限于數(shù)據(jù)集中預(yù)定義的類別,而海洋船舶定位將自然語言與船舶圖像結(jié)合起來,實(shí)現(xiàn)更靈活的船舶定位。視覺信息提供了對(duì)形狀、顏色和紋理等屬性的直觀描述,而語言信息提供了對(duì)象、事件和關(guān)系間的抽象描述。
2、海洋船舶定位的主要挑戰(zhàn)在于對(duì)多模態(tài)信息進(jìn)行有效的融合和推理,以準(zhǔn)確理解和響應(yīng)給定表達(dá)所指示的船舶目標(biāo)。現(xiàn)有的方法主要采用被動(dòng)的語義感知方式提取視覺特征,導(dǎo)致特征內(nèi)部的語義表示不足,并且直接將多模態(tài)特征融合與視覺推理相結(jié)合,增加了模型訓(xùn)練的難度。因此,如何有效進(jìn)行細(xì)粒度的交互來提取更具判別性的視覺特征,探索更有效的解碼框架,進(jìn)而最終實(shí)現(xiàn)更高效的目標(biāo)定位成為了海洋船舶定位非常重要的一個(gè)任務(wù)。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)背景技術(shù)中存在的不足之處,本發(fā)明的目的是提出一種基于語義增強(qiáng)的海洋船舶定位方法,基于語義感知的視覺編碼來生成準(zhǔn)確的特征,并基于漸進(jìn)式兩階段解碼模塊有效定位目標(biāo),通過引入信息樣本學(xué)習(xí)模塊,促進(jìn)模型對(duì)復(fù)雜多模態(tài)關(guān)系的理解,提高視覺定位的效率和準(zhǔn)確率,包括如下步驟:
2、步驟s1,收集視覺定位數(shù)據(jù)集,采用vrsbench、opt-rsvg和dior-rsvg及其他常用數(shù)據(jù)集進(jìn)行模型訓(xùn)練;
3、步驟s2,構(gòu)建基于語義增強(qiáng)的海洋船舶定位方法的視覺定位模型,所述模型包括:特征編碼模塊、漸進(jìn)式兩階段解碼模塊和信息樣本學(xué)習(xí)模塊;
4、步驟s3,將步驟s1中數(shù)據(jù)集中的樣本輸入視覺定位模型中,計(jì)算總的損失函數(shù)值,進(jìn)行反向傳播,通過優(yōu)化器和相應(yīng)參數(shù)對(duì)連接權(quán)重進(jìn)行優(yōu)化,訓(xùn)練多輪后得到最終的語義增強(qiáng)的海洋船舶定位模型;
5、步驟s4,基于訓(xùn)練好的語義增強(qiáng)的海洋船舶定位模型,輸入待定位的文本圖像信息,輸出給定表達(dá)所指示的目標(biāo)預(yù)測(cè)框。
6、優(yōu)選地,所述步驟s2的特征編碼模塊包括:
7、步驟s21,視覺信息提取模塊;所述視覺信息提取模塊,對(duì)輸入視覺圖像進(jìn)行采樣,使用restnet提取視覺特征;
8、步驟s22,語言信息提取模塊;所述語言信息提取模塊,對(duì)輸入語義文本信息進(jìn)行采樣,使用bert提取語義特征;
9、步驟s23,動(dòng)態(tài)語義感知模塊;所述動(dòng)態(tài)語義感知模塊,將視覺特征以及語義特征作為輸入,實(shí)現(xiàn)視覺和語言特征之間的全局細(xì)粒度交互,生成語義增強(qiáng)特征;
10、步驟s24,語義推動(dòng)transformer模塊;所述語義推動(dòng)transformer模塊,將語義增強(qiáng)特征以及語義特征作為輸入,生成重復(fù)增強(qiáng)特征。
11、優(yōu)選地,所述步驟s23中動(dòng)態(tài)語義感知模塊生成語義增強(qiáng)特征的過程如下:
12、步驟sa1,將視覺特征和語義特征映射到維數(shù)為的公共特征空間,動(dòng)態(tài)注意力矩陣公式如下:
13、
14、其中,conv表示1×1卷積,mlp表示多層感知器,為比例因子;
15、步驟sa2,使用視覺特征和語義特征通過msdi公式和mlp計(jì)算后得到特征向量,再將和1×1卷積后的視覺特征串聯(lián)成序列,公式如下:
16、,
17、
18、步驟sa3,使用[cls]token?來引導(dǎo)序列的維數(shù)從2降至,通過動(dòng)態(tài)文本引導(dǎo)得到語義增強(qiáng)特征,公式如下:
19、
20、優(yōu)選地,所述步驟s24中的語義推動(dòng)transformer模塊生成重復(fù)增強(qiáng)特征的過程如下:
21、步驟sb1,為了適應(yīng)transformer的體系結(jié)構(gòu),將扁平化為 ,使用全局特征和語義增強(qiáng)特征通過點(diǎn)積生成重要系數(shù),將全局特征通過sigmoid函數(shù)對(duì)系數(shù)進(jìn)行縮放,得到視覺增強(qiáng)特征,公式如下:
22、,
23、
24、步驟sb2,語義推動(dòng)transformer模塊中的語言特征增強(qiáng)的語義推動(dòng)使用平均策略得到全局語言統(tǒng)計(jì)量,并通過點(diǎn)積生成語義增強(qiáng)特征和全局語言統(tǒng)計(jì)量之間的重要系數(shù),隨后,通過對(duì)生成的重要性系數(shù)使用sigmoid函數(shù)進(jìn)行縮放,將映射到多頭自注意力層以獲得語義增強(qiáng)的查詢,具體計(jì)算公式如下:
25、,
26、
27、優(yōu)選地,所述步驟s2中的漸進(jìn)式兩階段解碼模塊,對(duì)編碼器輸出的重復(fù)增強(qiáng)特征和語義特征進(jìn)行關(guān)聯(lián)整合,輸出用于預(yù)測(cè)目標(biāo)對(duì)象的邊界框,具體步驟如下:
28、步驟sc1,第一階段解碼層,編碼器利用和的注意力機(jī)制輸出重復(fù)增強(qiáng)特征和語義特征,將這兩個(gè)特征連接成序列,將輸入到標(biāo)準(zhǔn)多模態(tài)transformers變壓器中,并在漸進(jìn)式兩級(jí)解碼器的輸入中增加了一個(gè)可學(xué)習(xí)位置嵌入,第一階段過程如下:
29、,
30、,
31、
32、上述中的表示查詢,表示鍵,表示值,對(duì)其進(jìn)行初始化為,mha(?)為多頭自注意力,ln(?)為層歸一化,ffn(?)表示前饋神經(jīng)網(wǎng)絡(luò),初始化后對(duì)其進(jìn)行多頭注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)和層歸一化處理輸出,其中,為第(-1)層的輸出序列,為第一層的輸入序列;
33、步驟sc2,第二階段解碼層,輸出序列被分成視覺特征和語言特征,同時(shí),將位置嵌入分為視覺位置嵌入和語言位置嵌入,以語言特征作為查詢,視覺特征作為鍵和值,之后,將這些劃分的特征進(jìn)一步饋送到第二階段,對(duì)目標(biāo)物體的位置進(jìn)行逐級(jí)解碼,過程如下:
34、,
35、,
36、
37、其中,將初始化為,表示第h-1層的輸出,當(dāng)為0時(shí),;
38、步驟sc3,將每一層的特征輸入到具有relu激活函數(shù)的三層mlp中,以預(yù)測(cè)目標(biāo)物體的邊界框。
39、優(yōu)選地,所述步驟s2中的信息樣本學(xué)習(xí)模塊,平滑損耗值和giou損耗值分別記為和,計(jì)算損耗函數(shù)和giou損耗函數(shù)的權(quán)重,公式如下:
40、,
41、
42、其中,是一個(gè)可學(xué)習(xí)的參數(shù),用于調(diào)整對(duì)信息樣本的關(guān)注。
43、優(yōu)選地,所述步驟s3中的計(jì)算模型總損失函數(shù)值 ,在漸進(jìn)式兩階段解碼器的第二階段,對(duì)所有層的預(yù)測(cè)邊界框進(jìn)行監(jiān)督,各層預(yù)測(cè)框與真實(shí)框之間的總損失計(jì)算如下:
44、
45、其中,為權(quán)重函數(shù),表示第個(gè)邊界框的損失,表示邊界框回歸損失,表示第個(gè)邊界框的損失,表示邊界框位置損失,最后對(duì)所有邊界框的損失進(jìn)行求和。
46、本發(fā)明的另一目的是提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述一種基于語義增強(qiáng)的海洋船舶定位方法。
47、本發(fā)明與現(xiàn)有技術(shù)相比,提出了一種基于語義增強(qiáng)的海洋船舶定位方法,該方法基于語義感知的視覺編碼來生成更準(zhǔn)確的特征,并基于漸進(jìn)式兩階段解碼來有效精準(zhǔn)地定位目標(biāo),此外,該方法引入了信息樣本學(xué)習(xí),以促進(jìn)模型對(duì)復(fù)雜多模態(tài)關(guān)系的理解。具體地,首先設(shè)計(jì)動(dòng)態(tài)語義感知門和語義升壓變壓器,通過主動(dòng)感知語義來改善視覺特征的語義表示,從而提高視覺特征的合理性和準(zhǔn)確性;同時(shí),基于增強(qiáng)的視覺特征,開發(fā)漸進(jìn)式兩級(jí)解碼器,在語言線索的引導(dǎo)下進(jìn)行更準(zhǔn)確的視覺場(chǎng)景解析,最終實(shí)現(xiàn)更高效的目標(biāo)定位;在此基礎(chǔ)上,引入信息樣本學(xué)習(xí)來驅(qū)動(dòng)模型自適應(yīng)地優(yōu)先考慮信息樣本,從而促進(jìn)對(duì)多模態(tài)關(guān)系的理解。