两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

文檔序號:40655211發(fā)布日期:2025-01-10 19:05閱讀:2來源:國知局
多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

本技術(shù)涉及人工智能,尤其涉及一種多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備。


背景技術(shù):

1、人工智能(artificial?intelligence,ai)是一個快速發(fā)展的領(lǐng)域,它利用計算機科學和數(shù)據(jù)來模仿人類智能。人工智能的應用非常廣泛,從日常生活中的虛擬助手和推薦系統(tǒng),到醫(yī)療、金融和制造業(yè)等專業(yè)領(lǐng)域。

2、在自動化目標檢測和識別領(lǐng)域,圖像標注技術(shù)已成為不可或缺的關(guān)鍵環(huán)節(jié)。相關(guān)技術(shù)中的圖像標注方法主要依賴于人工操作,通過手動選擇圖像中的特定區(qū)域來標注物體的名稱和位置。

3、然而,相關(guān)技術(shù)中的標注方法只能自動標注固定的物體類別,出現(xiàn)新的類別需要人工標注并重新訓練,并且,缺乏處理多模態(tài)數(shù)據(jù)的能力,即不能同時處理圖像和文本信息,不僅標注成本高,也限制了其在復雜場景中的應用。


技術(shù)實現(xiàn)思路

1、本技術(shù)的目的是提供一種多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備,用于從文本描述中自動提取信息并將其轉(zhuǎn)換為圖像標注,不僅極大地提高了圖像標注的效率和準確性,還降低了人力成本。

2、本技術(shù)提供一種多模態(tài)自動標注方法,包括:

3、獲取待處理文本和待處理圖像,并通過所述自然語言處理單元對所述待處理文本進行特征提取,得到待處理文本特征,以及通過所述圖像處理單元對所述待處理圖像進行處理,得到待處理圖像特征;將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中,對所述待處理文本特征和所述待處理圖像特征進行特征增強,得到增強文本特征和增強圖像特征,并利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分;基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,選定出與所述增強文本特征相關(guān)性最高的增強圖像特征,并生成每個被選定的圖像特征對應的查詢信息;將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元,得到每個查詢信息對應的標注信息。

4、可選地,所述將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中,對所述待處理文本特征和所述待處理圖像特征進行特征增強,得到增強文本特征和增強圖像特征,包括:將所述待處理圖像特征輸入到所述跨模態(tài)解碼器的多個注意力分支單元中,得到各個注意力分支單元輸出的區(qū)域圖像特征;將各個注意力分支單元輸出的區(qū)域圖像特征進行融合后,得到所述增強圖像特征;其中,所述待處理圖像被劃分為多個圖像區(qū)域,一個注意力分支單元對應一個圖像區(qū)域。

5、可選地,所述利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,包括:將所述待處理圖像特征作為查詢、所述待處理文本特征作為鍵和值,利用交叉注意力機制計算不同圖像區(qū)域?qū)膱D像特征和文本特征之間的第一相關(guān)性得分。

6、可選地,所述利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,包括:將所述待處理文本特征作為查詢、所述待處理圖像特征作為鍵和值,利用交叉注意力機制計算文本特征和不同圖像區(qū)域?qū)膱D像特征之間的第二相關(guān)性得分。

7、可選地,所述利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,包括:基于所述第一相關(guān)性得分和所述第二相關(guān)性得分,計算所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分。

8、可選地,所述基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,選定出與所述增強文本特征相關(guān)性最高的增強圖像特征,并生成每個被選定的圖像特征對應的查詢信息,包括:基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,從所述多個圖像區(qū)域中篩選出與所述增強文本特征相關(guān)性最高的至少一個圖像區(qū)域,并生成所述至少一個圖像區(qū)域中每個圖像區(qū)域?qū)牟樵冃畔ⅲ黄渲?,所述查詢信息包括:特征參?shù)和位置信息;所述特征參數(shù)在訓練階段通過反向傳播的方式進行更新。

9、可選地,所述多模態(tài)目標檢測單元包括:預測頭和多個解碼器;每個解碼器均包含;圖像到文本的交叉注意力,文本到圖像的交叉注意力;所述將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元,得到每個查詢信息對應的標注信息,包括:將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息依次輸入到所述多個解碼器中,得到多模態(tài)特征;將所述多模態(tài)特征輸入到所述預測頭中,得到每個查詢信息對應的標注信息;其中,所述多個解碼器按順序連接、且在前解碼器的輸出作為在后解碼器的輸入。

10、本技術(shù)還提供一種多模態(tài)自動標注裝置,包括:

11、特征提取模塊,用于獲取待處理文本和待處理圖像,并通過所述自然語言處理單元對所述待處理文本進行特征提取,得到待處理文本特征,以及通過所述圖像處理單元對所述待處理圖像進行處理,得到待處理圖像特征;特征融合模塊,用于將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中,對所述待處理文本特征和所述待處理圖像特征進行特征增強,得到增強文本特征和增強圖像特征,并利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分;查詢信息生成模塊,用于基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,選定出與所述增強文本特征相關(guān)性最高的增強圖像特征,并生成每個被選定的圖像特征對應的查詢信息;標注信息生成模塊,用于將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元,得到每個查詢信息對應的標注信息。

12、可選地,所述特征融合模塊,具體用于將所述待處理圖像特征輸入到所述跨模態(tài)解碼器的多個注意力分支單元中,得到各個注意力分支單元輸出的區(qū)域圖像特征;所述特征融合模塊,具體還用于將各個注意力分支單元輸出的區(qū)域圖像特征進行融合后,得到所述增強圖像特征;其中,所述待處理圖像被劃分為多個圖像區(qū)域,一個注意力分支單元對應一個圖像區(qū)域。

13、可選地,所述特征融合模塊,具體用于將所述待處理圖像特征作為查詢、所述待處理文本特征作為鍵和值,利用交叉注意力機制計算不同圖像區(qū)域?qū)膱D像特征和文本特征之間的第一相關(guān)性得分。

14、可選地,所述特征融合模塊,具體用于將所述待處理文本特征作為查詢、所述待處理圖像特征作為鍵和值,利用交叉注意力機制計算文本特征和不同圖像區(qū)域?qū)膱D像特征之間的第二相關(guān)性得分。

15、可選地,所述特征融合模塊,具體用于基于所述第一相關(guān)性得分和所述第二相關(guān)性得分,計算所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分。

16、可選地,所述查詢信息生成模塊,具體用于基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,從所述多個圖像區(qū)域中篩選出與所述增強文本特征相關(guān)性最高的至少一個圖像區(qū)域,并生成所述至少一個圖像區(qū)域中每個圖像區(qū)域?qū)牟樵冃畔?;其中,所述查詢信息包括:特征參?shù)和位置信息;所述特征參數(shù)在訓練階段通過反向傳播的方式進行更新。

17、可選地,所述標注信息生成模塊,具體用于將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息依次輸入到所述多個解碼器中,得到多模態(tài)特征;所述標注信息生成模塊,具體還用于將所述多模態(tài)特征輸入到所述預測頭中,得到每個查詢信息對應的標注信息;其中,所述多個解碼器按順序連接、且在前解碼器的輸出作為在后解碼器的輸入。

18、本技術(shù)還提供一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

19、本技術(shù)還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

20、本技術(shù)還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

21、本技術(shù)提供的多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備,獲取待處理文本和待處理圖像,并通過所述自然語言處理單元對所述待處理文本進行特征提取,得到待處理文本特征,以及通過所述圖像處理單元對所述待處理圖像進行處理,得到待處理圖像特征;將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中,對所述待處理文本特征和所述待處理圖像特征進行特征增強,得到增強文本特征和增強圖像特征,并利用交叉注意力機制進行特征融合,得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分;基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分,選定出與所述增強文本特征相關(guān)性最高的增強圖像特征,并生成每個被選定的圖像特征對應的查詢信息;將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元,得到每個查詢信息對應的標注信息。如此,可以從文本描述中自動提取信息并將其轉(zhuǎn)換為圖像標注,不僅極大地提高了圖像標注的效率和準確性,還降低了人力成本。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
翁源县| 扎鲁特旗| 肇州县| 盈江县| 松桃| 神木县| 屯留县| 罗源县| 双峰县| 长丰县| 九寨沟县| 绍兴市| 囊谦县| 宜城市| 莲花县| 长泰县| 邳州市| 长春市| 兴山县| 和硕县| 石棉县| 玛多县| 青川县| 册亨县| 昌图县| 临沭县| 铜梁县| 罗源县| 家居| 新泰市| 正安县| 竹北市| 长岭县| 永泰县| 体育| 通许县| 射阳县| 克东县| 黔江区| 孟州市| 台江县|