一種基于語義增強(qiáng)的海洋船舶定位方法

文檔序號(hào)：40570885發(fā)布日期：2025-01-03 11:31閱讀：13來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于機(jī)器學(xué)習(xí)算法和計(jì)算機(jī)視覺，具體地涉及一種基于語義增強(qiáng)的海洋船舶定位方法。

背景技術(shù)：

1、海洋船舶定位是給定一張包含海洋船舶的圖像，定位圖像中語言表達(dá)所指示的船舶目標(biāo)對(duì)象。這一過程在人類語言和物理世界的視覺內(nèi)容之間建立了一座橋梁，具有智能導(dǎo)航和自然人機(jī)交互的巨大潛力。傳統(tǒng)的目標(biāo)檢測(cè)方法局限于數(shù)據(jù)集中預(yù)定義的類別，而海洋船舶定位將自然語言與船舶圖像結(jié)合起來，實(shí)現(xiàn)更靈活的船舶定位。視覺信息提供了對(duì)形狀、顏色和紋理等屬性的直觀描述，而語言信息提供了對(duì)象、事件和關(guān)系間的抽象描述。

2、海洋船舶定位的主要挑戰(zhàn)在于對(duì)多模態(tài)信息進(jìn)行有效的融合和推理，以準(zhǔn)確理解和響應(yīng)給定表達(dá)所指示的船舶目標(biāo)。現(xiàn)有的方法主要采用被動(dòng)的語義感知方式提取視覺特征，導(dǎo)致特征內(nèi)部的語義表示不足，并且直接將多模態(tài)特征融合與視覺推理相結(jié)合，增加了模型訓(xùn)練的難度。因此，如何有效進(jìn)行細(xì)粒度的交互來提取更具判別性的視覺特征，探索更有效的解碼框架，進(jìn)而最終實(shí)現(xiàn)更高效的目標(biāo)定位成為了海洋船舶定位非常重要的一個(gè)任務(wù)。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)背景技術(shù)中存在的不足之處，本發(fā)明的目的是提出一種基于語義增強(qiáng)的海洋船舶定位方法，基于語義感知的視覺編碼來生成準(zhǔn)確的特征，并基于漸進(jìn)式兩階段解碼模塊有效定位目標(biāo)，通過引入信息樣本學(xué)習(xí)模塊，促進(jìn)模型對(duì)復(fù)雜多模態(tài)關(guān)系的理解，提高視覺定位的效率和準(zhǔn)確率，包括如下步驟：

2、步驟s1，收集視覺定位數(shù)據(jù)集，采用vrsbench、opt-rsvg和dior-rsvg及其他常用數(shù)據(jù)集進(jìn)行模型訓(xùn)練；

3、步驟s2，構(gòu)建基于語義增強(qiáng)的海洋船舶定位方法的視覺定位模型，所述模型包括：特征編碼模塊、漸進(jìn)式兩階段解碼模塊和信息樣本學(xué)習(xí)模塊；

4、步驟s3，將步驟s1中數(shù)據(jù)集中的樣本輸入視覺定位模型中，計(jì)算總的損失函數(shù)值，進(jìn)行反向傳播，通過優(yōu)化器和相應(yīng)參數(shù)對(duì)連接權(quán)重進(jìn)行優(yōu)化，訓(xùn)練多輪后得到最終的語義增強(qiáng)的海洋船舶定位模型；

5、步驟s4，基于訓(xùn)練好的語義增強(qiáng)的海洋船舶定位模型，輸入待定位的文本圖像信息，輸出給定表達(dá)所指示的目標(biāo)預(yù)測(cè)框。

6、優(yōu)選地，所述步驟s2的特征編碼模塊包括：

7、步驟s21，視覺信息提取模塊；所述視覺信息提取模塊，對(duì)輸入視覺圖像進(jìn)行采樣，使用restnet提取視覺特征；

8、步驟s22，語言信息提取模塊；所述語言信息提取模塊，對(duì)輸入語義文本信息進(jìn)行采樣，使用bert提取語義特征；

9、步驟s23，動(dòng)態(tài)語義感知模塊；所述動(dòng)態(tài)語義感知模塊，將視覺特征以及語義特征作為輸入，實(shí)現(xiàn)視覺和語言特征之間的全局細(xì)粒度交互，生成語義增強(qiáng)特征；

10、步驟s24，語義推動(dòng)transformer模塊；所述語義推動(dòng)transformer模塊，將語義增強(qiáng)特征以及語義特征作為輸入，生成重復(fù)增強(qiáng)特征。

11、優(yōu)選地，所述步驟s23中動(dòng)態(tài)語義感知模塊生成語義增強(qiáng)特征的過程如下：

12、步驟sa1，將視覺特征和語義特征映射到維數(shù)為的公共特征空間，動(dòng)態(tài)注意力矩陣公式如下：

13、

14、其中，conv表示1×1卷積，mlp表示多層感知器，為比例因子；

15、步驟sa2，使用視覺特征和語義特征通過msdi公式和mlp計(jì)算后得到特征向量，再將和1×1卷積后的視覺特征串聯(lián)成序列，公式如下：

16、，

17、

18、步驟sa3，使用[cls]token?來引導(dǎo)序列的維數(shù)從2降至，通過動(dòng)態(tài)文本引導(dǎo)得到語義增強(qiáng)特征，公式如下：

19、

20、優(yōu)選地，所述步驟s24中的語義推動(dòng)transformer模塊生成重復(fù)增強(qiáng)特征的過程如下：

21、步驟sb1，為了適應(yīng)transformer的體系結(jié)構(gòu)，將扁平化為，使用全局特征和語義增強(qiáng)特征通過點(diǎn)積生成重要系數(shù)，將全局特征通過sigmoid函數(shù)對(duì)系數(shù)進(jìn)行縮放，得到視覺增強(qiáng)特征，公式如下：

22、，

23、

24、步驟sb2，語義推動(dòng)transformer模塊中的語言特征增強(qiáng)的語義推動(dòng)使用平均策略得到全局語言統(tǒng)計(jì)量，并通過點(diǎn)積生成語義增強(qiáng)特征和全局語言統(tǒng)計(jì)量之間的重要系數(shù)，隨后，通過對(duì)生成的重要性系數(shù)使用sigmoid函數(shù)進(jìn)行縮放，將映射到多頭自注意力層以獲得語義增強(qiáng)的查詢，具體計(jì)算公式如下：

25、，

26、

27、優(yōu)選地，所述步驟s2中的漸進(jìn)式兩階段解碼模塊，對(duì)編碼器輸出的重復(fù)增強(qiáng)特征和語義特征進(jìn)行關(guān)聯(lián)整合，輸出用于預(yù)測(cè)目標(biāo)對(duì)象的邊界框，具體步驟如下：

28、步驟sc1，第一階段解碼層，編碼器利用和的注意力機(jī)制輸出重復(fù)增強(qiáng)特征和語義特征，將這兩個(gè)特征連接成序列，將輸入到標(biāo)準(zhǔn)多模態(tài)transformers變壓器中，并在漸進(jìn)式兩級(jí)解碼器的輸入中增加了一個(gè)可學(xué)習(xí)位置嵌入，第一階段過程如下：

29、，

30、，

31、

32、上述中的表示查詢，表示鍵，表示值，對(duì)其進(jìn)行初始化為，mha(?)為多頭自注意力，ln(?)為層歸一化，ffn(?)表示前饋神經(jīng)網(wǎng)絡(luò)，初始化后對(duì)其進(jìn)行多頭注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)和層歸一化處理輸出，其中，為第（－1）層的輸出序列，為第一層的輸入序列；

33、步驟sc2，第二階段解碼層，輸出序列被分成視覺特征和語言特征，同時(shí)，將位置嵌入分為視覺位置嵌入和語言位置嵌入，以語言特征作為查詢，視覺特征作為鍵和值，之后，將這些劃分的特征進(jìn)一步饋送到第二階段，對(duì)目標(biāo)物體的位置進(jìn)行逐級(jí)解碼，過程如下：

34、，

35、,

36、

37、其中，將初始化為，表示第h－1層的輸出，當(dāng)為0時(shí)，；

38、步驟sc3，將每一層的特征輸入到具有relu激活函數(shù)的三層mlp中，以預(yù)測(cè)目標(biāo)物體的邊界框。

39、優(yōu)選地，所述步驟s2中的信息樣本學(xué)習(xí)模塊，平滑損耗值和giou損耗值分別記為和，計(jì)算損耗函數(shù)和giou損耗函數(shù)的權(quán)重，公式如下：

40、，

41、

42、其中，是一個(gè)可學(xué)習(xí)的參數(shù)，用于調(diào)整對(duì)信息樣本的關(guān)注。

43、優(yōu)選地，所述步驟s3中的計(jì)算模型總損失函數(shù)值，在漸進(jìn)式兩階段解碼器的第二階段，對(duì)所有層的預(yù)測(cè)邊界框進(jìn)行監(jiān)督，各層預(yù)測(cè)框與真實(shí)框之間的總損失計(jì)算如下：

44、

45、其中，為權(quán)重函數(shù)，表示第個(gè)邊界框的損失，表示邊界框回歸損失，表示第個(gè)邊界框的損失，表示邊界框位置損失，最后對(duì)所有邊界框的損失進(jìn)行求和。

46、本發(fā)明的另一目的是提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述一種基于語義增強(qiáng)的海洋船舶定位方法。

47、本發(fā)明與現(xiàn)有技術(shù)相比，提出了一種基于語義增強(qiáng)的海洋船舶定位方法，該方法基于語義感知的視覺編碼來生成更準(zhǔn)確的特征，并基于漸進(jìn)式兩階段解碼來有效精準(zhǔn)地定位目標(biāo)，此外，該方法引入了信息樣本學(xué)習(xí)，以促進(jìn)模型對(duì)復(fù)雜多模態(tài)關(guān)系的理解。具體地，首先設(shè)計(jì)動(dòng)態(tài)語義感知門和語義升壓變壓器，通過主動(dòng)感知語義來改善視覺特征的語義表示，從而提高視覺特征的合理性和準(zhǔn)確性；同時(shí)，基于增強(qiáng)的視覺特征，開發(fā)漸進(jìn)式兩級(jí)解碼器，在語言線索的引導(dǎo)下進(jìn)行更準(zhǔn)確的視覺場(chǎng)景解析，最終實(shí)現(xiàn)更高效的目標(biāo)定位；在此基礎(chǔ)上，引入信息樣本學(xué)習(xí)來驅(qū)動(dòng)模型自適應(yīng)地優(yōu)先考慮信息樣本，從而促進(jìn)對(duì)多模態(tài)關(guān)系的理解。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳亞雄,張懌,龔騰飛,孫欽婷,熊盛武
技術(shù)所有人：武漢理工大學(xué)三亞科教創(chuàng)新園
我是此專利的發(fā)明人

上一篇：一種可調(diào)節(jié)溫度的香菇烘干室的制作方法
上一篇：一種電動(dòng)清潔刷的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

船舶定位實(shí)時(shí)查詢系統(tǒng)相關(guān)技術(shù)