本發(fā)明涉及計算機,尤其涉及一種圖文數(shù)據(jù)的比對校驗方法和裝置。
背景技術(shù):
1、目前,在需要進(jìn)行圖文比對、校驗的場景中,在進(jìn)行圖片內(nèi)容和文本內(nèi)容的比對校驗時,校驗方式多是由人工進(jìn)行文本屬性及圖片內(nèi)容的比對;或者配置一些文本屬性的校驗規(guī)則,并基于校驗規(guī)則進(jìn)行部分屬性的自動比對;或者基于多模態(tài)大語言模型來進(jìn)行文本及圖片內(nèi)容比對,等等。
2、然而,這些校驗方式均未能充分利用圖文數(shù)據(jù)的多維度信息來進(jìn)行圖文比對校驗,使得圖文比對校驗的效率和準(zhǔn)確性都較低。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明實施例提供一種圖文數(shù)據(jù)的比對校驗方法和裝置,能夠通過采用優(yōu)化的自注意力機制加殘差網(wǎng)絡(luò)相融合的特征提取網(wǎng)絡(luò),并結(jié)合屬性實體信息提取及對比模型來進(jìn)行圖文數(shù)據(jù)的特征提取和比對,可以充分利用圖文數(shù)據(jù)的多維度信息來進(jìn)行圖文比對校驗,提高了圖文比對校驗的效率和準(zhǔn)確性。
2、為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種圖文數(shù)據(jù)的比對校驗方法,包括:
3、獲取待進(jìn)行比對校驗的第一圖文數(shù)據(jù)和第二圖文數(shù)據(jù),所述第一圖文數(shù)據(jù)包括第一圖片數(shù)據(jù)和第一文本數(shù)據(jù),所述第二圖文數(shù)據(jù)包括第二圖片數(shù)據(jù)和第二文本數(shù)據(jù);
4、使用第一孿生網(wǎng)絡(luò)對所述第一圖片數(shù)據(jù)和所述第二圖片數(shù)據(jù)進(jìn)行特征提取和比對,得到圖片比對結(jié)果,所述第一孿生網(wǎng)絡(luò)包括殘差網(wǎng)絡(luò)模塊和自注意力機制模塊;
5、使用第二孿生網(wǎng)絡(luò)對所述第一文本數(shù)據(jù)和所述第二本身數(shù)據(jù)進(jìn)行特征提取和比對,得到文本比對結(jié)果,所述第二孿生網(wǎng)絡(luò)用于進(jìn)行屬性實體信息提取和對齊轉(zhuǎn)換;
6、基于所述圖片比對結(jié)果和所述文本比對結(jié)果得到圖文數(shù)據(jù)的比對校驗結(jié)果。
7、可選地,使用第一孿生網(wǎng)絡(luò)對所述第一圖片數(shù)據(jù)和所述第二圖片數(shù)據(jù)進(jìn)行特征提取和比對,包括:使用第一孿生網(wǎng)絡(luò)中的殘差網(wǎng)絡(luò)模塊分別對所述第一圖片數(shù)據(jù)和所述第二圖片數(shù)據(jù)進(jìn)行特征提取,得到第一圖片特征和第二圖片特征;使用第一孿生網(wǎng)絡(luò)中的自注意力機制模塊分別對所述第一圖片數(shù)據(jù)和所述第二圖片數(shù)據(jù)進(jìn)行特征提取,得到第三圖片特征和第四圖片特征;對所述第一圖片特征和所述第三圖片特征進(jìn)行特征融合得到第一融合特征,對所述第二圖片特征和所述第四圖片特征進(jìn)行特征融合得到第二融合特征;基于所述第一融合特征和所述第二融合特征進(jìn)行特征比對。
8、可選地,對所述第一圖片特征和所述第三圖片特征進(jìn)行特征融合得到第一融合特征,包括:對所述第一圖片特征和所述第三圖片特征進(jìn)行前向計算,得到用于后續(xù)加權(quán)的第一加權(quán)圖片特征和第三加權(quán)圖片特征;在所述第一加權(quán)圖片特征和所述第三加權(quán)圖片特征的維度不一致的情況下,對所述第一加權(quán)圖片特征和所述第三加權(quán)圖片特征進(jìn)行特征維度對齊;對已對齊的第一加權(quán)圖片特征和第三加權(quán)圖片特征進(jìn)行加權(quán)求和,以進(jìn)行特征融合得到第一融合特征;對所述第二圖片特征和所述第四圖片特征進(jìn)行特征融合得到第二融合特征,包括:對所述第二圖片特征和所述第四圖片特征進(jìn)行前向計算,得到用于后續(xù)加權(quán)的第二加權(quán)圖片特征和第四加權(quán)圖片特征;在所述第二加權(quán)圖片特征和所述第四加權(quán)圖片特征的維度不一致的情況下,對所述第二加權(quán)圖片特征和所述第四加權(quán)圖片特征進(jìn)行特征維度對齊;對已對齊的第二加權(quán)圖片特征和第四加權(quán)圖片特征進(jìn)行加權(quán)求和,以進(jìn)行特征融合得到第二融合特征。
9、可選地,所述第一孿生網(wǎng)絡(luò)的損失函數(shù)為三元組損失函數(shù),且其中引入了邊界參數(shù),通過動態(tài)調(diào)整所述邊界參數(shù)和樣本權(quán)重,得到所述損失函數(shù)。
10、可選地,使用第二孿生網(wǎng)絡(luò)對所述第一文本數(shù)據(jù)和所述第二本身數(shù)據(jù)進(jìn)行特征提取和比對,包括:使用第二孿生網(wǎng)絡(luò)對所述第一文本數(shù)據(jù)和所述第二本身數(shù)據(jù)進(jìn)行屬性實體提取,得到第一文本屬性實體和第二文本屬性實體;基于屬性別名庫,將所述第一文本屬性實體和所述第二文本屬性實體進(jìn)行對齊轉(zhuǎn)換,得到同一維度的第一文本屬性特征和第二文本屬性特征;基于所述第一文本屬性特征和所述第二文本屬性特征進(jìn)行特征比對。
11、可選地,基于所述圖片比對結(jié)果和所述文本比對結(jié)果得到圖文數(shù)據(jù)的比對校驗結(jié)果,包括:對所述圖片比對結(jié)果和所述文本比對結(jié)果進(jìn)行合并,得到圖文數(shù)據(jù)的比對校驗結(jié)果。
12、根據(jù)本發(fā)明實施例的另一方面,提供了一種圖文數(shù)據(jù)的比對校驗裝置,包括:
13、數(shù)據(jù)獲取模塊,用于獲取待進(jìn)行比對校驗的第一圖文數(shù)據(jù)和第二圖文數(shù)據(jù),所述第一圖文數(shù)據(jù)包括第一圖片數(shù)據(jù)和第一文本數(shù)據(jù),所述第二圖文數(shù)據(jù)包括第二圖片數(shù)據(jù)和第二文本數(shù)據(jù);
14、圖片比對模塊,用于使用第一孿生網(wǎng)絡(luò)對所述第一圖片數(shù)據(jù)和所述第二圖片數(shù)據(jù)進(jìn)行特征提取和比對,得到圖片比對結(jié)果,所述第一孿生網(wǎng)絡(luò)包括殘差網(wǎng)絡(luò)模塊和自注意力機制模塊;
15、文本比對模塊,用于使用第二孿生網(wǎng)絡(luò)對所述第一文本數(shù)據(jù)和所述第二本身數(shù)據(jù)進(jìn)行特征提取和比對,得到文本比對結(jié)果,所述第二孿生網(wǎng)絡(luò)用于進(jìn)行屬性實體信息提取和對齊轉(zhuǎn)換;
16、結(jié)果匯總模塊,用于基于所述圖片比對結(jié)果和所述文本比對結(jié)果得到圖文數(shù)據(jù)的比對校驗結(jié)果。
17、根據(jù)本發(fā)明實施例的又一方面,提供了一種電子設(shè)備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明實施例所提供的圖文數(shù)據(jù)的比對校驗方法。
18、根據(jù)本發(fā)明實施例的又一方面,提供了一種計算機可讀介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例所提供的圖文數(shù)據(jù)的比對校驗方法。
19、根據(jù)本發(fā)明實施例的再一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例所提供的圖文數(shù)據(jù)的比對校驗方法。
20、上述發(fā)明中的一個實施例具有如下優(yōu)點或有益效果:通過獲取待進(jìn)行比對校驗的第一圖文數(shù)據(jù)和第二圖文數(shù)據(jù),第一圖文數(shù)據(jù)包括第一圖片數(shù)據(jù)和第一文本數(shù)據(jù),第二圖文數(shù)據(jù)包括第二圖片數(shù)據(jù)和第二文本數(shù)據(jù);使用第一孿生網(wǎng)絡(luò)對第一圖片數(shù)據(jù)和第二圖片數(shù)據(jù)進(jìn)行特征提取和比對,得到圖片比對結(jié)果,第一孿生網(wǎng)絡(luò)包括殘差網(wǎng)絡(luò)模塊和自注意力機制模塊;使用第二孿生網(wǎng)絡(luò)對第一文本數(shù)據(jù)和第二本身數(shù)據(jù)進(jìn)行特征提取和比對,得到文本比對結(jié)果,第二孿生網(wǎng)絡(luò)用于進(jìn)行屬性實體信息提取和對齊轉(zhuǎn)換;基于圖片比對結(jié)果和文本比對結(jié)果得到圖文數(shù)據(jù)的比對校驗結(jié)果的技術(shù)方案,通過采用優(yōu)化的自注意力機制加殘差網(wǎng)絡(luò)相融合的特征提取網(wǎng)絡(luò),并結(jié)合屬性實體信息提取及對比模型來進(jìn)行圖文數(shù)據(jù)的特征提取和比對,可以充分利用圖文數(shù)據(jù)的多維度信息來進(jìn)行圖文比對校驗,提高了圖文比對校驗的效率和準(zhǔn)確性。
21、上述的非慣用的可選方式所具有的進(jìn)一步效果將在下文中結(jié)合具體實施方式加以說明。
1.一種圖文數(shù)據(jù)的比對校驗方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,使用第一孿生網(wǎng)絡(luò)對所述第一圖片數(shù)據(jù)和所述第二圖片數(shù)據(jù)進(jìn)行特征提取和比對,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,對所述第一圖片特征和所述第三圖片特征進(jìn)行特征融合得到第一融合特征,包括:
4.根據(jù)權(quán)利要求1-3中任一項所述的方法,其特征在于,所述第一孿生網(wǎng)絡(luò)的損失函數(shù)為三元組損失函數(shù),且其中引入了邊界參數(shù),通過動態(tài)調(diào)整所述邊界參數(shù)和樣本權(quán)重,得到所述損失函數(shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,使用第二孿生網(wǎng)絡(luò)對所述第一文本數(shù)據(jù)和所述第二本身數(shù)據(jù)進(jìn)行特征提取和比對,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述圖片比對結(jié)果和所述文本比對結(jié)果得到圖文數(shù)據(jù)的比對校驗結(jié)果,包括:
7.一種圖文數(shù)據(jù)的比對校驗裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括:
9.一種計算機可讀介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-6中任一所述的方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-6中任一所述的方法。