本申請涉及人工智能,尤其涉及一種基于統(tǒng)一表征模型的數據處理方法、裝置、設備及介質。
背景技術:
1、隨著人工智能(ai)技術的迅猛發(fā)展,多模態(tài)學習在諸多領域(如計算機視覺、自然語言處理和語音識別等)中表現卓越。多模態(tài)學習模型能夠同時處理和融合來自不同模態(tài)(如圖像、文本、音頻等)的數據,從而提高模型的性能和應用效果。然而,現有的多模態(tài)學習方法在實際應用中仍面臨諸多挑戰(zhàn),特別是在信息融合效率、計算資源需求以及模型整體性能方面還存在不足。
2、現有的多模態(tài)數據處理方法通常采用直接地獨立處理各原始模態(tài)數據,并在網絡模型的高層對獨立處理后的多模態(tài)數據進行簡單融合的方法。例如,在圖像與文本匹配中,圖像數據和文本數據分別經過卷積神經網絡和預訓練語言模型(如bert語言模型)提取特征,然后將這些特征簡單拼接或僅通過全連接層進行簡單的融合。
3、因此,這種方法存在信息融合效率低下,從而導致訓練和推理效率低等問題。
4、申請內容
5、本申請實施例的主要目的在于提供一種基于統(tǒng)一表征模型的數據處理方法、裝置、設備及介質,旨在解決相關技術中的多模態(tài)學習方法在實際應用中存在的信息融合效率低下、導致訓練和推理效率低、泛化能力和適應不同任務的能力方面表現不足等問題中的至少一個問題。
6、第一方面,本申請實施例提供一種基于統(tǒng)一表征模型的多模態(tài)數據處理方法,所述方法包括:獲取多模態(tài)特征數據;在第一基于注意力的融合層,將所述多模態(tài)特征數據分別轉化為查詢向量、鍵向量和值向量;計算所述查詢向量和所述鍵向量之間的第一注意力權重;基于所述第一注意力權重對所述值向量進行加權處理,獲取加權后的值向量;將所述加權后的值向量與所述查詢向量進行初始融合,獲取初始融合特征數據;在全連接融合層,對所述初始融合特征數據進行二次融合,以形成二次融合特征數據;在第二基于注意力的融合層,計算出所述二次融合特征數據與所述初始融合特征數據之間的相似度;基于所述相似度生成第二注意力權重;基于所述第二注意力權重對所述初始融合特征數據進行加權,獲取加權后的初始融合特征數據;以及將所述加權后的初始融合特征數據與所述二次融合特征數據融合,以生成多模態(tài)數據的統(tǒng)一多模態(tài)表示。
7、可選的,所述獲取多模態(tài)特征數據,包括:獲取預處理后的多模態(tài)數據,其中,所述預處理后的多模態(tài)數據包括第一模態(tài)數據、第二模態(tài)數據以及第三模態(tài)數據;以及基于不同的特征提取模型,分別對所述第一模態(tài)數據、所述第二模態(tài)數據以及所述第三模態(tài)數據進行特征提取,獲取所述多模態(tài)特征數據。
8、可選的,所述預處理包括:對所述多模態(tài)數據進行對齊處理,以確保同一場景下的所述第一模態(tài)數據、所述第二模態(tài)數據以及所述第三模態(tài)數據彼此對應;以及對所述多模態(tài)數據進行標準化處理,以消除所述多模態(tài)數據之間的差異。
9、可選的,所述第一模態(tài)數據為圖像數據,所述第二模態(tài)數據為文本數據,所述第三模態(tài)數據為音頻數據。
10、可選的,在全連接融合層,對所述初始融合特征數據進行二次融合,以形成二次融合特征數據,包括:對所述初始融合特征數據中的每個單模態(tài)特征數據進行拼接,獲取拼接后的初始融合特征數據;以及在所述全連接融合層,將拼接后的所述初始融合特征數據映射到一個不同維的表示空間,以形成二次融合特征數據。
11、可選的,所述方法通過將所述多模態(tài)數據輸入預設統(tǒng)一表征模型,得到所述多模態(tài)數據的統(tǒng)一多模態(tài)表示,其中,所述統(tǒng)一表征模型包括編碼器、第一基于注意力的融合層、全連接融合層、第二基于注意力的融合層以及輸出層,所述第一基于注意力的融合層、所述全連接融合層以及第二基于注意力的融合層按順序依次連接。
12、可選的,所述預設統(tǒng)一表征模型通過以下方式預先訓練得到:獲取訓練的多模態(tài)數據,將所述多模態(tài)數據輸入所述統(tǒng)一表征模型,得到多模態(tài)數據的統(tǒng)一多模態(tài)表示;分別計算所述多模態(tài)數據中的單模態(tài)數據與所述多模態(tài)數據的統(tǒng)一多模態(tài)表示中的單模態(tài)數據之間的一致性損失值;將所有的所述一致性損失值按特定的權重系數加權求和,獲取聯合損失值;根據所述聯合損失值更新所述統(tǒng)一表征模型的模型參數值,直至所述聯合損失值收斂;以及將所述聯合損失值收斂時的統(tǒng)一表征模型,作為所述預設統(tǒng)一表征模型。
13、第二方面,本申請實施例提供一種多模態(tài)數據處理裝置,具有實現對應于上述第一方面提供的基于統(tǒng)一表征模型的多模態(tài)數據處理方法的功能。所述功能可以通過硬件實現,也可以通過硬件執(zhí)行相應的軟件實現。硬件或軟件包括一個或多個與上述功能相對應的模塊,所述模塊可以是軟件和/或硬件。
14、在一個實施方式中,所述多模態(tài)數據處理裝置包括:獲取模塊,被配置為獲取多模態(tài)特征數據;第一融合模塊,被配置為對所述多模態(tài)特征數據進行初始融合,獲取初始融合特征數據;第二融合模塊,被配置為對所述初始融合特征數據進行二次融合,以形成二次融合特征數據;第三融合模塊,被配置為計算出所述二次融合特征數據與所述初始融合特征數據之間的相似度;基于所述相似度生成第二注意力權重;基于所述第二注意力權重對所述初始融合特征數據進行加權,獲取加權后的初始融合特征數據,將所述加權后的初始融合特征數據與所述二次融合特征數據進行融合;以及表示模塊,被配置為基于所述加權后的初始融合特征數據與所述二次融合特征數據的融合,以生成多模態(tài)數據的統(tǒng)一多模態(tài)表示。
15、第三方面,本申請實施例提供一種計算機可讀存儲介質,其包括指令,當其在計算機上運行時,使得計算機執(zhí)行如第一方面所述的基于統(tǒng)一表征模型的多模態(tài)數據處理方法。
16、第四方面,本申請實施例提供一種計算設備,包括存儲器,處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,所述處理器執(zhí)行所述計算機程序時實現第一方面所述的基于統(tǒng)一表征模型的多模態(tài)數據處理方法。
17、相對于現有技術的對多模態(tài)數據直接進行特征提取,本申請的實施例在進行特征提取之前,首先對多模態(tài)數據進行了預處理,以確保數據的一致性和質量。此外,針對多模態(tài)數據的融合,現有技術采用獨立處理各模態(tài)數據并在高層進行簡單融合的方式,而簡單的特征拼接或全連接層融合無法充分捕捉不同模態(tài)數據之間的關聯信息,進而影響了模型的性能。
18、與之不同的是,本申請實施例中,首先對多模態(tài)特征數據進行對齊和初始融合處理,在此基礎上,再對經過初始融合處理后的多模態(tài)特征數據進行多層次融合。由于本申請實施例是采用跨模態(tài)注意力機制和多層次融合網絡結合的方式對多模態(tài)特征數據進行融合,而不是現有技術中的簡單融合的方式,并且在初始融合特征數據的基礎上,通過將低級特征和高級特征進行融合,可以獲得高分辨率和語意強的圖文特征,該模型提高了信息融合效率以及信息融合的準確性和全面性,從而提高了模型在圖文生成應用方面的準確性。
19、綜上所述,本申請實施例可以充分地利用多模態(tài)數據的豐富信息,提高了信息融合效率以及信息融合的準確性和全面性,從而可以提高模型在ai字幕生成以及圖文生成應用中的準確性。
技術實現思路
1.一種基于統(tǒng)一表征模型的多模態(tài)數據處理方法,所述方法包括:
2.如權利要求1所述的方法,其中,所述獲取多模態(tài)特征數據,包括:
3.如權利要求2所述的方法,其中,所述預處理包括:
4.如權利要求2所述的方法,其中,所述第一模態(tài)數據為圖像數據,所述第二模態(tài)數據為文本數據,所述第三模態(tài)數據為音頻數據。
5.如權利要求1所述的方法,其中,在全連接融合層,對所述初始融合特征數據進行二次融合,以形成二次融合特征數據,包括:
6.如權利要求1所述的方法,其中,所述方法通過將所述多模態(tài)數據輸入預設統(tǒng)一表征模型,得到所述多模態(tài)數據的統(tǒng)一多模態(tài)表示,其中,所述統(tǒng)一表征模型包括編碼器、第一基于注意力的融合層、全連接融合層、第二基于注意力的融合層以及輸出層,所述第一基于注意力的融合層、所述全連接融合層以及第二基于注意力的融合層按順序依次連接。
7.如權利要求1所述的方法,其中,所述預設統(tǒng)一表征模型通過以下方式預先訓練得到:
8.一種多模態(tài)數據處理裝置,包括:
9.一種計算設備,包括存儲器,處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,所述處理器執(zhí)行所述計算機程序時實現如權利要求1-7中任一項所述的方法。
10.一種計算機可讀存儲介質,其包括指令,當其在計算機上運行時,使得計算機執(zhí)行如權利要求1-7中任一項所述的方法。