本發(fā)明涉及海洋聲學(xué)探測(cè),尤其涉及一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法和裝置。
背景技術(shù):
1、隨著海洋聲學(xué)應(yīng)用技術(shù)發(fā)展,前視聲吶成像技術(shù)與光、電、磁等其他水下探測(cè)技術(shù)相比,具備探測(cè)距離遠(yuǎn)、穿透能力強(qiáng)、適用于渾濁水域等優(yōu)點(diǎn),在水下救援,水下考古、能源勘探、航線規(guī)劃、地形勘探、反蛙人、海底電纜鋪設(shè)與檢修等方面有著廣泛的應(yīng)用。然而高性能聲吶成像系統(tǒng)中,cpu處理器等核心技術(shù)的自主創(chuàng)新是保障國(guó)家海洋安全和可持續(xù)發(fā)展的關(guān)鍵。昇騰atlas200i?a2加速模塊是一款高性能的國(guó)產(chǎn)化ai智能計(jì)算模塊,集成海思ascend310b?ai處理器,包含4核泰山cpu和達(dá)芬奇ai?core,最大可提供20tops(int8)的ai算力,其性能和兼容性為在國(guó)產(chǎn)化平臺(tái)上實(shí)現(xiàn)前視聲吶視頻的邊緣ai目標(biāo)檢測(cè)提供了有力支持。
2、目前,在水下目標(biāo)檢測(cè)領(lǐng)域,聲吶圖像水下目標(biāo)的探測(cè)仍然以人工模式判斷為主,主要依靠操作員的長(zhǎng)期積累的經(jīng)驗(yàn)來辨別聲吶圖像上的目標(biāo),而在環(huán)境惡劣、時(shí)間跨度大、檢測(cè)面積廣的作業(yè)場(chǎng)景時(shí),極大可能會(huì)因?yàn)椴僮鲉T持續(xù)作業(yè)的操作水平有限、經(jīng)驗(yàn)缺乏和視覺疲勞等因素導(dǎo)致目標(biāo)的遺漏、誤判和作業(yè)暫停等問題,影響作業(yè)的進(jìn)度和效率。大量研究工作證實(shí)深度學(xué)習(xí)在自然圖像目標(biāo)檢測(cè)任務(wù)上非常有效,許多自然圖像處理的方法被用來解決聲吶目標(biāo)檢測(cè)問題。
3、然而,與自然圖像不同,前視聲吶圖像存在大量背景噪聲干擾、運(yùn)動(dòng)模糊和目標(biāo)隱蔽等挑戰(zhàn),使得一般的單幀檢測(cè)器難以在前視聲吶圖像目標(biāo)檢測(cè)任務(wù)中取得較好的效果。連續(xù)多幀圖像序列包含著豐富的運(yùn)動(dòng)特征和空間特征,因此,如何挖掘多幀聲吶圖像的時(shí)空信息并提高檢測(cè)精度成為前視聲吶圖像目標(biāo)檢測(cè)中非常重要的任務(wù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要克服現(xiàn)有技術(shù)的上述缺點(diǎn),提供一種基于國(guó)產(chǎn)化昇騰?ai?處理器的聲吶視頻目標(biāo)檢測(cè)方法和裝置。
2、本發(fā)明通過提供一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法,解決現(xiàn)有技術(shù)中前視聲吶圖像目標(biāo)運(yùn)動(dòng)模糊、目標(biāo)遮擋的問題,提高前視聲吶圖像目標(biāo)檢準(zhǔn)確性,推動(dòng)國(guó)產(chǎn)化ai處理器在前視聲吶檢測(cè)技術(shù)中的應(yīng)用與發(fā)展。
3、本發(fā)明的第一個(gè)方面提供了一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法,具體過程如下:
4、s1、搭建基于國(guó)產(chǎn)化昇騰ai處理器的邊端智能硬件系統(tǒng),由主控芯片、調(diào)試接口、hdmi接口、千兆以太網(wǎng)接口、usb3.0接口、sdio接口和wifi模塊組成;
5、s2、設(shè)計(jì)用于前視聲吶視頻目標(biāo)檢測(cè)的深度神經(jīng)網(wǎng)絡(luò),所述模型中的輸入為連續(xù)的圖像序列,其中n為序列長(zhǎng)度,所述模型中的主干網(wǎng)絡(luò)為具備運(yùn)動(dòng)激勵(lì)的me-cspdarknet53,主干網(wǎng)絡(luò)提取的特征經(jīng)過pafpn模塊特征融合后饋送到檢查頭,獲得預(yù)測(cè)的基礎(chǔ)特征,進(jìn)一步利用特征篩選模塊篩選特征f,將篩選特征線性映射后輸入自注意力特征聚合模塊,在不同尺度上聚合分類和回歸特征進(jìn)行最終分類;
6、s3、使用兩階段訓(xùn)練法訓(xùn)練聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò),保存訓(xùn)練完的網(wǎng)絡(luò)權(quán)重和結(jié)構(gòu)為onnx框架模型文件,并使用非對(duì)稱量化法對(duì)onnx模型的權(quán)重進(jìn)行量化;
7、s4、使用昇騰cann異構(gòu)推理框架部署步驟s2設(shè)計(jì)的聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)至步驟s1搭建的邊端智能硬件系統(tǒng)。
8、優(yōu)選地,步驟s2包括:
9、s21.?設(shè)計(jì)所述的前視聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)的me-cspdarknet53主干網(wǎng)絡(luò)結(jié)構(gòu);
10、s22.?設(shè)計(jì)前視聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)的特征篩選模塊;
11、s23.?設(shè)計(jì)前視聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò)的自注意力特征聚合模塊。
12、其中步驟s21具體包括:通過在主干網(wǎng)絡(luò)中引入運(yùn)動(dòng)激勵(lì)模塊,通過對(duì)幀間存在的運(yùn)動(dòng)敏感信息進(jìn)行激勵(lì),來增強(qiáng)運(yùn)動(dòng)信息,該方法不必訓(xùn)練高成本的光流網(wǎng)絡(luò)。對(duì)于給定的輸入特征,其中n表示批大小,t表示時(shí)間步大小,其值等于n,c表示特征通道,h表示特征高度,w表示特征寬度,首先使用1*1卷積來減少通道數(shù)以提高效率,公式如下:
13、????(1)
14、其中表示信道縮減后的特征,*?表示卷積運(yùn)算,r為縮放因子。
15、對(duì)于t時(shí)刻的運(yùn)動(dòng)特征可以近似表示為兩個(gè)相鄰幀和之間的差,因此t時(shí)刻的運(yùn)動(dòng)特征可以表示為:
16、????(2)
17、其中,將時(shí)間步長(zhǎng)結(jié)束時(shí)的運(yùn)動(dòng)特征記為0,即,并將所有的運(yùn)動(dòng)特征記為,然后使用全局平均池化來總結(jié)空間信息:
18、????(3)
19、利用一個(gè)1*1卷積層將運(yùn)動(dòng)特征的通道數(shù)擴(kuò)展到原始通道維度c,利用sigmoid(·)函數(shù)獲得運(yùn)動(dòng)注意力權(quán)重a公式如下:
20、????(4)
21、最后采用殘差連接增強(qiáng)運(yùn)動(dòng)信息的同時(shí)保留場(chǎng)景信息,具體公式如下:
22、????(5)
23、其中為運(yùn)動(dòng)激勵(lì)模塊的輸出,表示哈達(dá)瑪積(hadamard?product)。
24、其中步驟s22具體包括:從預(yù)測(cè)頭輸出的特征圖中選擇高質(zhì)量的特征,使用topk算法,根據(jù)置信度分?jǐn)?shù)由高到低排序,挑選出前k個(gè)預(yù)測(cè)特征。使用非最大抑制(non-maximumsuppression,?nms)算法,通過不斷檢索分類置信度最高的檢測(cè)框,使用交并比來表示兩個(gè)邊界框之間的聯(lián)系,選出固定數(shù)量a的預(yù)測(cè),以減少冗余。定義篩選后圖像的分類和回歸特征為:
25、
26、
27、其中n為輸入圖像序列號(hào),為感興趣區(qū)域(region?of?interest,?roi)的特征維度。
28、其中步驟s23具體包括:識(shí)別的過程通常觀察一定時(shí)間序列的信息,結(jié)合空間信息和時(shí)間運(yùn)動(dòng)信息,獲得識(shí)別結(jié)果,并將有把握的結(jié)果傳播到信心不足的案例,作為transformer的關(guān)鍵部分,多頭自注意力機(jī)制適合用于這種用途,它增強(qiáng)了遠(yuǎn)距離建模的能力。
29、將篩選的置信度高的分類和回歸特征作為查詢,定義式為:
30、
31、
32、其中l(wèi)p(·)是線性投影算子,將維度投影到d維。
33、計(jì)算類別和回歸特征的自注意力權(quán)重,公式為:
34、??????(6)
35、其中為q和k中每個(gè)特征的維度,除以可以使得符合n(0,1)分布。
36、由于主要的目的是完善分類的結(jié)果,因此和將共享相同的矩陣。進(jìn)一步將與公式(6)的結(jié)果串聯(lián)起來,公式如下:
37、????(7)
38、其中表示拼接操作,然后將輸入平均池化層后進(jìn)行最終的分類。
39、優(yōu)選地,步驟s3具體包括:
40、s31.?采用兩階段訓(xùn)練法訓(xùn)練聲吶視頻目標(biāo)檢測(cè)網(wǎng)絡(luò);
41、s32.?采用非對(duì)稱量化法對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行量化。
42、其中步驟s31具體包括:第一階段使用前視聲吶數(shù)據(jù)訓(xùn)練集訓(xùn)練包括me-cspdarknet53主干網(wǎng)絡(luò)、pafpn模塊和檢測(cè)頭部分的網(wǎng)絡(luò)結(jié)構(gòu),特征篩選模塊和自注意力特征聚合模塊不參與訓(xùn)練;
43、加載第一階段訓(xùn)練權(quán)重初始化網(wǎng)絡(luò),凍結(jié)me-cspdarknet53主干網(wǎng)絡(luò)、pafpn模塊和檢測(cè)頭模塊的權(quán)重,不參與反向傳播,此階段微調(diào)自注意力特征聚合模塊的網(wǎng)絡(luò)權(quán)重;
44、其中步驟s32具體包括:將原始32bit的網(wǎng)絡(luò)權(quán)重以非對(duì)稱量化的方式量化到8bit;原始高精度數(shù)據(jù)和量化后unsigned?int8數(shù)據(jù)的轉(zhuǎn)換公式為:
45、????(8)
46、其中scale是float32的浮點(diǎn)數(shù),為unsigned?int8定點(diǎn)數(shù),offset是int8定點(diǎn)數(shù);待量化數(shù)據(jù)的范圍為,則scale和offset的計(jì)算方式如下:
47、?????(9)
48、?????(10)
49、則原始高精度數(shù)據(jù)計(jì)算得到unsigned?int8數(shù)據(jù)的轉(zhuǎn)換,即為如下公式所示:
50、????(11)
51、優(yōu)選地,步驟s4具體包括:使用張量編譯器atc將onnx框架下的模型解析為中間態(tài)ir?graph,進(jìn)一步經(jīng)過圖準(zhǔn)備、圖拆分、圖優(yōu)化、圖編譯的操作后,轉(zhuǎn)成適配昇騰ai處理器的om離線模型,最后通過ascendcl接口加載模型文件實(shí)現(xiàn)推理過程。
52、本發(fā)明的第二個(gè)方面涉及一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)裝置,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)本發(fā)明的一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法。
53、本發(fā)明的第三個(gè)方面涉及一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)本發(fā)明的一種基于國(guó)產(chǎn)化昇騰ai處理器的前視聲吶視頻目標(biāo)檢測(cè)方法。
54、本發(fā)明的工作原理是:
55、為了提高前視聲吶圖像目標(biāo)檢測(cè)網(wǎng)絡(luò)處理運(yùn)動(dòng)模糊、目標(biāo)隱匿等情況的性能,本發(fā)明提出新的具有運(yùn)動(dòng)激勵(lì)的主干網(wǎng)絡(luò),充分挖掘幀間潛在運(yùn)動(dòng)特征。此外,本發(fā)明還提出一種自注意力特征聚合模塊,充分利用圖像序列時(shí)間上下文的豐富特征信息緩解不自信、運(yùn)動(dòng)模糊、隱匿目標(biāo)的識(shí)別漏檢、誤檢,以實(shí)現(xiàn)更精確的目標(biāo)檢測(cè)。本發(fā)明利用國(guó)產(chǎn)化昇騰atlas200?ai平臺(tái)部署前視聲吶視頻目標(biāo)檢測(cè)器,實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)離線處理分析。
56、本發(fā)明具有以下有益收益:
57、1.搭建一套基于國(guó)產(chǎn)化昇騰atlas200i?a2的前視聲吶視頻目標(biāo)檢測(cè)智能硬件系統(tǒng),不僅提升了深度神經(jīng)網(wǎng)絡(luò)部署的靈活性和性能,還推動(dòng)國(guó)產(chǎn)化ai處理器在前視聲吶檢測(cè)技術(shù)中的應(yīng)用與發(fā)展。
58、2.針對(duì)傳統(tǒng)單幀檢測(cè)器處理前視聲吶圖像中運(yùn)動(dòng)模糊、目標(biāo)隱匿等情況誤檢漏檢的問題,提出一種利用圖像序列時(shí)間上下文的視頻目標(biāo)檢測(cè)器,挖掘幀間運(yùn)動(dòng)特征,聚合圖像時(shí)間上下文豐富特征的方法,具有較好的前視聲吶圖像目標(biāo)檢測(cè)準(zhǔn)確率。