多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

文檔序號：40655211發(fā)布日期：2025-01-10 19:05閱讀：2來源：國知局

本技術(shù)涉及人工智能，尤其涉及一種多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備。

背景技術(shù)：

1、人工智能（artificial?intelligence，ai）是一個快速發(fā)展的領(lǐng)域，它利用計算機科學和數(shù)據(jù)來模仿人類智能。人工智能的應用非常廣泛，從日常生活中的虛擬助手和推薦系統(tǒng)，到醫(yī)療、金融和制造業(yè)等專業(yè)領(lǐng)域。

2、在自動化目標檢測和識別領(lǐng)域，圖像標注技術(shù)已成為不可或缺的關(guān)鍵環(huán)節(jié)。相關(guān)技術(shù)中的圖像標注方法主要依賴于人工操作，通過手動選擇圖像中的特定區(qū)域來標注物體的名稱和位置。

3、然而，相關(guān)技術(shù)中的標注方法只能自動標注固定的物體類別，出現(xiàn)新的類別需要人工標注并重新訓練，并且，缺乏處理多模態(tài)數(shù)據(jù)的能力，即不能同時處理圖像和文本信息，不僅標注成本高，也限制了其在復雜場景中的應用。

技術(shù)實現(xiàn)思路

1、本技術(shù)的目的是提供一種多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備，用于從文本描述中自動提取信息并將其轉(zhuǎn)換為圖像標注，不僅極大地提高了圖像標注的效率和準確性，還降低了人力成本。

2、本技術(shù)提供一種多模態(tài)自動標注方法，包括：

3、獲取待處理文本和待處理圖像，并通過所述自然語言處理單元對所述待處理文本進行特征提取，得到待處理文本特征，以及通過所述圖像處理單元對所述待處理圖像進行處理，得到待處理圖像特征；將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中，對所述待處理文本特征和所述待處理圖像特征進行特征增強，得到增強文本特征和增強圖像特征，并利用交叉注意力機制進行特征融合，得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分；基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，選定出與所述增強文本特征相關(guān)性最高的增強圖像特征，并生成每個被選定的圖像特征對應的查詢信息；將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元，得到每個查詢信息對應的標注信息。

4、可選地，所述將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中，對所述待處理文本特征和所述待處理圖像特征進行特征增強，得到增強文本特征和增強圖像特征，包括：將所述待處理圖像特征輸入到所述跨模態(tài)解碼器的多個注意力分支單元中，得到各個注意力分支單元輸出的區(qū)域圖像特征；將各個注意力分支單元輸出的區(qū)域圖像特征進行融合后，得到所述增強圖像特征；其中，所述待處理圖像被劃分為多個圖像區(qū)域，一個注意力分支單元對應一個圖像區(qū)域。

5、可選地，所述利用交叉注意力機制進行特征融合，得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，包括：將所述待處理圖像特征作為查詢、所述待處理文本特征作為鍵和值，利用交叉注意力機制計算不同圖像區(qū)域?qū)膱D像特征和文本特征之間的第一相關(guān)性得分。

6、可選地，所述利用交叉注意力機制進行特征融合，得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，包括：將所述待處理文本特征作為查詢、所述待處理圖像特征作為鍵和值，利用交叉注意力機制計算文本特征和不同圖像區(qū)域?qū)膱D像特征之間的第二相關(guān)性得分。

7、可選地，所述利用交叉注意力機制進行特征融合，得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，包括：基于所述第一相關(guān)性得分和所述第二相關(guān)性得分，計算所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分。

8、可選地，所述基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，選定出與所述增強文本特征相關(guān)性最高的增強圖像特征，并生成每個被選定的圖像特征對應的查詢信息，包括：基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，從所述多個圖像區(qū)域中篩選出與所述增強文本特征相關(guān)性最高的至少一個圖像區(qū)域，并生成所述至少一個圖像區(qū)域中每個圖像區(qū)域?qū)牟樵冃畔ⅲ黄渲?，所述查詢信息包括：特征參?shù)和位置信息；所述特征參數(shù)在訓練階段通過反向傳播的方式進行更新。

9、可選地，所述多模態(tài)目標檢測單元包括：預測頭和多個解碼器；每個解碼器均包含；圖像到文本的交叉注意力，文本到圖像的交叉注意力；所述將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元，得到每個查詢信息對應的標注信息，包括：將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息依次輸入到所述多個解碼器中，得到多模態(tài)特征；將所述多模態(tài)特征輸入到所述預測頭中，得到每個查詢信息對應的標注信息；其中，所述多個解碼器按順序連接、且在前解碼器的輸出作為在后解碼器的輸入。

10、本技術(shù)還提供一種多模態(tài)自動標注裝置，包括：

11、特征提取模塊，用于獲取待處理文本和待處理圖像，并通過所述自然語言處理單元對所述待處理文本進行特征提取，得到待處理文本特征，以及通過所述圖像處理單元對所述待處理圖像進行處理，得到待處理圖像特征；特征融合模塊，用于將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中，對所述待處理文本特征和所述待處理圖像特征進行特征增強，得到增強文本特征和增強圖像特征，并利用交叉注意力機制進行特征融合，得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分；查詢信息生成模塊，用于基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，選定出與所述增強文本特征相關(guān)性最高的增強圖像特征，并生成每個被選定的圖像特征對應的查詢信息；標注信息生成模塊，用于將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元，得到每個查詢信息對應的標注信息。

12、可選地，所述特征融合模塊，具體用于將所述待處理圖像特征輸入到所述跨模態(tài)解碼器的多個注意力分支單元中，得到各個注意力分支單元輸出的區(qū)域圖像特征；所述特征融合模塊，具體還用于將各個注意力分支單元輸出的區(qū)域圖像特征進行融合后，得到所述增強圖像特征；其中，所述待處理圖像被劃分為多個圖像區(qū)域，一個注意力分支單元對應一個圖像區(qū)域。

13、可選地，所述特征融合模塊，具體用于將所述待處理圖像特征作為查詢、所述待處理文本特征作為鍵和值，利用交叉注意力機制計算不同圖像區(qū)域?qū)膱D像特征和文本特征之間的第一相關(guān)性得分。

14、可選地，所述特征融合模塊，具體用于將所述待處理文本特征作為查詢、所述待處理圖像特征作為鍵和值，利用交叉注意力機制計算文本特征和不同圖像區(qū)域?qū)膱D像特征之間的第二相關(guān)性得分。

15、可選地，所述特征融合模塊，具體用于基于所述第一相關(guān)性得分和所述第二相關(guān)性得分，計算所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分。

16、可選地，所述查詢信息生成模塊，具體用于基于增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，從所述多個圖像區(qū)域中篩選出與所述增強文本特征相關(guān)性最高的至少一個圖像區(qū)域，并生成所述至少一個圖像區(qū)域中每個圖像區(qū)域?qū)牟樵冃畔?；其中，所述查詢信息包括：特征參?shù)和位置信息；所述特征參數(shù)在訓練階段通過反向傳播的方式進行更新。

17、可選地，所述標注信息生成模塊，具體用于將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息依次輸入到所述多個解碼器中，得到多模態(tài)特征；所述標注信息生成模塊，具體還用于將所述多模態(tài)特征輸入到所述預測頭中，得到每個查詢信息對應的標注信息；其中，所述多個解碼器按順序連接、且在前解碼器的輸出作為在后解碼器的輸入。

18、本技術(shù)還提供一種計算機程序產(chǎn)品，包括計算機程序/指令，該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

19、本技術(shù)還提供一種電子設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

20、本技術(shù)還提供一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述多模態(tài)自動標注方法的步驟。

21、本技術(shù)提供的多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備，獲取待處理文本和待處理圖像，并通過所述自然語言處理單元對所述待處理文本進行特征提取，得到待處理文本特征，以及通過所述圖像處理單元對所述待處理圖像進行處理，得到待處理圖像特征；將所述待處理文本特征和所述待處理圖像特征輸入到所述跨模態(tài)解碼器中，對所述待處理文本特征和所述待處理圖像特征進行特征增強，得到增強文本特征和增強圖像特征，并利用交叉注意力機制進行特征融合，得到所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分；基于所述增強文本特征與不同圖像區(qū)域?qū)脑鰪妶D像特征之間的相關(guān)性得分，選定出與所述增強文本特征相關(guān)性最高的增強圖像特征，并生成每個被選定的圖像特征對應的查詢信息；將所述增強文本特征、所述增強圖像特征以及每個被選定的圖像特征對應的查詢信息輸入到所述多模態(tài)目標檢測單元，得到每個查詢信息對應的標注信息。如此，可以從文本描述中自動提取信息并將其轉(zhuǎn)換為圖像標注，不僅極大地提高了圖像標注的效率和準確性，還降低了人力成本。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：汪順利,熊釗,吳曉宇,徐旺,李建明,陳蕾,葛威
技術(shù)所有人：商飛智能技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

多模態(tài)自動標注方法、裝置、存儲介質(zhì)及電子設(shè)備與流程