一種基于國(guó)產(chǎn)化昇騰AI處理器的前視聲吶視頻目標(biāo)檢測(cè)方法和裝置

文檔序號(hào)：40650536發(fā)布日期：2025-01-10 18:57閱讀：2來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及海洋聲學(xué)探測(cè)，尤其涉及一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法和裝置。

背景技術(shù)：

1、隨著海洋聲學(xué)應(yīng)用技術(shù)發(fā)展，前視聲吶成像技術(shù)與光、電、磁等其他水下探測(cè)技術(shù)相比，具備探測(cè)距離遠(yuǎn)、穿透能力強(qiáng)、適用于渾濁水域等優(yōu)點(diǎn)，在水下救援，水下考古、能源勘探、航線規(guī)劃、地形勘探、反蛙人、海底電纜鋪設(shè)與檢修等方面有著廣泛的應(yīng)用。然而高性能聲吶成像系統(tǒng)中，cpu處理器等核心技術(shù)的自主創(chuàng)新是保障國(guó)家海洋安全和可持續(xù)發(fā)展的關(guān)鍵。昇騰atlas200i?a2加速模塊是一款高性能的國(guó)產(chǎn)化ai智能計(jì)算模塊，集成海思ascend310b?ai處理器，包含4核泰山cpu和達(dá)芬奇ai?core，最大可提供20tops(int8)的ai算力，其性能和兼容性為在國(guó)產(chǎn)化平臺(tái)上實(shí)現(xiàn)前視聲吶視頻的邊緣ai目標(biāo)檢測(cè)提供了有力支持。

2、目前，在水下目標(biāo)檢測(cè)領(lǐng)域，聲吶圖像水下目標(biāo)的探測(cè)仍然以人工模式判斷為主，主要依靠操作員的長(zhǎng)期積累的經(jīng)驗(yàn)來辨別聲吶圖像上的目標(biāo)，而在環(huán)境惡劣、時(shí)間跨度大、檢測(cè)面積廣的作業(yè)場(chǎng)景時(shí)，極大可能會(huì)因?yàn)椴僮鲉T持續(xù)作業(yè)的操作水平有限、經(jīng)驗(yàn)缺乏和視覺疲勞等因素導(dǎo)致目標(biāo)的遺漏、誤判和作業(yè)暫停等問題，影響作業(yè)的進(jìn)度和效率。大量研究工作證實(shí)深度學(xué)習(xí)在自然圖像目標(biāo)檢測(cè)任務(wù)上非常有效，許多自然圖像處理的方法被用來解決聲吶目標(biāo)檢測(cè)問題。

3、然而，與自然圖像不同，前視聲吶圖像存在大量背景噪聲干擾、運(yùn)動(dòng)模糊和目標(biāo)隱蔽等挑戰(zhàn)，使得一般的單幀檢測(cè)器難以在前視聲吶圖像目標(biāo)檢測(cè)任務(wù)中取得較好的效果。連續(xù)多幀圖像序列包含著豐富的運(yùn)動(dòng)特征和空間特征，因此，如何挖掘多幀聲吶圖像的時(shí)空信息并提高檢測(cè)精度成為前視聲吶圖像目標(biāo)檢測(cè)中非常重要的任務(wù)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要克服現(xiàn)有技術(shù)的上述缺點(diǎn)，提供一種基于國(guó)產(chǎn)化昇騰?ai?處理器的聲吶視頻目標(biāo)檢測(cè)方法和裝置。

2、本發(fā)明通過提供一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法，解決現(xiàn)有技術(shù)中前視聲吶圖像目標(biāo)運(yùn)動(dòng)模糊、目標(biāo)遮擋的問題，提高前視聲吶圖像目標(biāo)檢準(zhǔn)確性，推動(dòng)國(guó)產(chǎn)化ai處理器在前視聲吶檢測(cè)技術(shù)中的應(yīng)用與發(fā)展。

3、本發(fā)明的第一個(gè)方面提供了一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法，具體過程如下：

4、s1、搭建基于國(guó)產(chǎn)化昇騰ai處理器的邊端智能硬件系統(tǒng)，由主控芯片、調(diào)試接口、hdmi接口、千兆以太網(wǎng)接口、usb3.0接口、sdio接口和wifi模塊組成；

5、s2、設(shè)計(jì)用于前視聲吶視頻目標(biāo)檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)，所述模型中的輸入為連續(xù)的圖像序列，其中n為序列長(zhǎng)度，所述模型中的主干網(wǎng)絡(luò)為具備運(yùn)動(dòng)激勵(lì)的me-cspdarknet53，主干網(wǎng)絡(luò)提取的特征經(jīng)過pafpn模塊特征融合后饋送到檢查頭，獲得預(yù)測(cè)的基礎(chǔ)特征，進(jìn)一步利用特征篩選模塊篩選特征f，將篩選特征線性映射后輸入自注意力特征聚合模塊，在不同尺度上聚合分類和回歸特征進(jìn)行最終分類；

6、s3、使用兩階段訓(xùn)練法訓(xùn)練聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)，保存訓(xùn)練完的網(wǎng)絡(luò)權(quán)重和結(jié)構(gòu)為onnx框架模型文件，并使用非對(duì)稱量化法對(duì)onnx模型的權(quán)重進(jìn)行量化；

7、s4、使用昇騰cann異構(gòu)推理框架部署步驟s2設(shè)計(jì)的聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)至步驟s1搭建的邊端智能硬件系統(tǒng)。

8、優(yōu)選地，步驟s2包括：

9、s21.?設(shè)計(jì)所述的前視聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)的me-cspdarknet53主干網(wǎng)絡(luò)結(jié)構(gòu)；

10、s22.?設(shè)計(jì)前視聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)的特征篩選模塊；

11、s23.?設(shè)計(jì)前視聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)的自注意力特征聚合模塊。

12、其中步驟s21具體包括：通過在主干網(wǎng)絡(luò)中引入運(yùn)動(dòng)激勵(lì)模塊，通過對(duì)幀間存在的運(yùn)動(dòng)敏感信息進(jìn)行激勵(lì)，來增強(qiáng)運(yùn)動(dòng)信息，該方法不必訓(xùn)練高成本的光流網(wǎng)絡(luò)。對(duì)于給定的輸入特征，其中n表示批大小，t表示時(shí)間步大小，其值等于n，c表示特征通道，h表示特征高度，w表示特征寬度，首先使用1*1卷積來減少通道數(shù)以提高效率，公式如下：

13、????（1）

14、其中表示信道縮減后的特征，*?表示卷積運(yùn)算，r為縮放因子。

15、對(duì)于t時(shí)刻的運(yùn)動(dòng)特征可以近似表示為兩個(gè)相鄰幀和之間的差，因此t時(shí)刻的運(yùn)動(dòng)特征可以表示為:

16、????(2)

17、其中，將時(shí)間步長(zhǎng)結(jié)束時(shí)的運(yùn)動(dòng)特征記為0，即，并將所有的運(yùn)動(dòng)特征記為,然后使用全局平均池化來總結(jié)空間信息：

18、????(3)

19、利用一個(gè)1*1卷積層將運(yùn)動(dòng)特征的通道數(shù)擴(kuò)展到原始通道維度c，利用sigmoid(·)函數(shù)獲得運(yùn)動(dòng)注意力權(quán)重a公式如下：

20、????(4)

21、最后采用殘差連接增強(qiáng)運(yùn)動(dòng)信息的同時(shí)保留場(chǎng)景信息，具體公式如下：

22、????(5)

23、其中為運(yùn)動(dòng)激勵(lì)模塊的輸出，表示哈達(dá)瑪積（hadamard?product）。

24、其中步驟s22具體包括：從預(yù)測(cè)頭輸出的特征圖中選擇高質(zhì)量的特征，使用topk算法，根據(jù)置信度分?jǐn)?shù)由高到低排序，挑選出前k個(gè)預(yù)測(cè)特征。使用非最大抑制（non-maximumsuppression,?nms）算法，通過不斷檢索分類置信度最高的檢測(cè)框，使用交并比來表示兩個(gè)邊界框之間的聯(lián)系，選出固定數(shù)量a的預(yù)測(cè)，以減少冗余。定義篩選后圖像的分類和回歸特征為：

25、

26、

27、其中n為輸入圖像序列號(hào)，為感興趣區(qū)域（region?of?interest,?roi）的特征維度。

28、其中步驟s23具體包括：識(shí)別的過程通常觀察一定時(shí)間序列的信息，結(jié)合空間信息和時(shí)間運(yùn)動(dòng)信息，獲得識(shí)別結(jié)果，并將有把握的結(jié)果傳播到信心不足的案例，作為transformer的關(guān)鍵部分，多頭自注意力機(jī)制適合用于這種用途，它增強(qiáng)了遠(yuǎn)距離建模的能力。

29、將篩選的置信度高的分類和回歸特征作為查詢，定義式為：

30、

31、

32、其中l(wèi)p(·)是線性投影算子，將維度投影到d維。

33、計(jì)算類別和回歸特征的自注意力權(quán)重，公式為：

34、??????(6)

35、其中為q和k中每個(gè)特征的維度，除以可以使得符合n(0,1)分布。

36、由于主要的目的是完善分類的結(jié)果，因此和將共享相同的矩陣。進(jìn)一步將與公式(6)的結(jié)果串聯(lián)起來，公式如下：

37、????（7）

38、其中表示拼接操作，然后將輸入平均池化層后進(jìn)行最終的分類。

39、優(yōu)選地，步驟s3具體包括：

40、s31.?采用兩階段訓(xùn)練法訓(xùn)練聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)；

41、s32.?采用非對(duì)稱量化法對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行量化。

42、其中步驟s31具體包括：第一階段使用前視聲吶數(shù)據(jù)訓(xùn)練集訓(xùn)練包括me-cspdarknet53主干網(wǎng)絡(luò)、pafpn模塊和檢測(cè)頭部分的網(wǎng)絡(luò)結(jié)構(gòu)，特征篩選模塊和自注意力特征聚合模塊不參與訓(xùn)練；

43、加載第一階段訓(xùn)練權(quán)重初始化網(wǎng)絡(luò)，凍結(jié)me-cspdarknet53主干網(wǎng)絡(luò)、pafpn模塊和檢測(cè)頭模塊的權(quán)重，不參與反向傳播，此階段微調(diào)自注意力特征聚合模塊的網(wǎng)絡(luò)權(quán)重；

44、其中步驟s32具體包括：將原始32bit的網(wǎng)絡(luò)權(quán)重以非對(duì)稱量化的方式量化到8bit；原始高精度數(shù)據(jù)和量化后unsigned?int8數(shù)據(jù)的轉(zhuǎn)換公式為：

45、????（8）

46、其中scale是float32的浮點(diǎn)數(shù)，為unsigned?int8定點(diǎn)數(shù)，offset是int8定點(diǎn)數(shù)；待量化數(shù)據(jù)的范圍為，則scale和offset的計(jì)算方式如下：

47、?????（9）

48、?????（10）

49、則原始高精度數(shù)據(jù)計(jì)算得到unsigned?int8數(shù)據(jù)的轉(zhuǎn)換，即為如下公式所示：

50、????（11）

51、優(yōu)選地，步驟s4具體包括：使用張量編譯器atc將onnx框架下的模型解析為中間態(tài)ir?graph，進(jìn)一步經(jīng)過圖準(zhǔn)備、圖拆分、圖優(yōu)化、圖編譯的操作后，轉(zhuǎn)成適配昇騰ai處理器的om離線模型，最后通過ascendcl接口加載模型文件實(shí)現(xiàn)推理過程。

52、本發(fā)明的第二個(gè)方面涉及一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)裝置，包括存儲(chǔ)器和一個(gè)或多個(gè)處理器，所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼，所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí)，用于實(shí)現(xiàn)本發(fā)明的一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法。

53、本發(fā)明的第三個(gè)方面涉及一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有程序，該程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)本發(fā)明的一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法。

54、本發(fā)明的工作原理是：

55、為了提高前視聲吶圖像目標(biāo)檢測(cè)網(wǎng)絡(luò)處理運(yùn)動(dòng)模糊、目標(biāo)隱匿等情況的性能，本發(fā)明提出新的具有運(yùn)動(dòng)激勵(lì)的主干網(wǎng)絡(luò)，充分挖掘幀間潛在運(yùn)動(dòng)特征。此外，本發(fā)明還提出一種自注意力特征聚合模塊，充分利用圖像序列時(shí)間上下文的豐富特征信息緩解不自信、運(yùn)動(dòng)模糊、隱匿目標(biāo)的識(shí)別漏檢、誤檢，以實(shí)現(xiàn)更精確的目標(biāo)檢測(cè)。本發(fā)明利用國(guó)產(chǎn)化昇騰atlas200?ai平臺(tái)部署前視聲吶視頻目標(biāo)檢測(cè)器，實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)離線處理分析。

56、本發(fā)明具有以下有益收益：

57、1.搭建一套基于國(guó)產(chǎn)化昇騰atlas200i?a2的前視聲吶視頻目標(biāo)檢測(cè)智能硬件系統(tǒng)，不僅提升了深度神經(jīng)網(wǎng)絡(luò)部署的靈活性和性能，還推動(dòng)國(guó)產(chǎn)化ai處理器在前視聲吶檢測(cè)技術(shù)中的應(yīng)用與發(fā)展。

58、2.針對(duì)傳統(tǒng)單幀檢測(cè)器處理前視聲吶圖像中運(yùn)動(dòng)模糊、目標(biāo)隱匿等情況誤檢漏檢的問題，提出一種利用圖像序列時(shí)間上下文的視頻目標(biāo)檢測(cè)器，挖掘幀間運(yùn)動(dòng)特征，聚合圖像時(shí)間上下文豐富特征的方法，具有較好的前視聲吶圖像目標(biāo)檢測(cè)準(zhǔn)確率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳朋,周鴻超,趙冬冬,王海霞
技術(shù)所有人：浙江工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種水封除塵水槽自循環(huán)過濾裝置的制作方法
上一篇：一種涂料過濾裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于國(guó)產(chǎn)化昇騰AI處理器的前視聲吶視頻目標(biāo)檢測(cè)方法和裝置