本申請涉及電數(shù)字處理,具體而言,涉及一種基于復(fù)合運算的多模態(tài)知識圖譜補全方法。
背景技術(shù):
1、在大語言模型盛行的時代,各個方面都開始對大模型的更深刻的探索與挖掘。眾所周知,知識圖譜作為大語言模型的訓(xùn)練集,為大語言模型提供了豐富的語料知識,使得大模型在處理眾多專業(yè)領(lǐng)域中的任務(wù)有專業(yè)的數(shù)據(jù)支持,從而能夠更好的適應(yīng)領(lǐng)域以及背景的變化。伴隨著大模型的發(fā)展,知識圖譜也開始變得越來越多樣化;從一開始單一的圖片或者單一的文本知識圖譜,轉(zhuǎn)變成了圖片和文本混合的多模態(tài)知識圖譜,甚至更有可能會出現(xiàn)圖片、文本和語音混合的多模態(tài)知識圖譜。多模態(tài)知識圖譜的出現(xiàn)也誕生了不同的多模態(tài)任務(wù),其中包括了圖像分類、視覺問答、多模態(tài)知識圖譜補全和實體對齊等等。
2、對于多模態(tài)知識圖譜中的各種任務(wù),多模態(tài)知識圖譜領(lǐng)域中也衍生出了適用于自己特定領(lǐng)域的模型和方法,將多模態(tài)的數(shù)據(jù)整合在一起進行訓(xùn)練,這種做法在一定程度上保持了文本和圖片的高度一致性;但另一方面也忽略了文本和圖片不同數(shù)據(jù)中所包含的獨特的特性。這兩種的數(shù)據(jù)表達(dá)方式各有自己的優(yōu)點和缺點,比如說文本表達(dá):“花盆里埋著一顆月季花的種子”,或者一幅“同學(xué)正在演講”的圖片;從這兩個例子中可以想象出,圖片很難表示出花盆里埋著一顆種子,更別說是月季花的種子了。然而,同學(xué)正在演講的圖片應(yīng)當(dāng)比文字描述會展示更多的結(jié)果,比如說演講熱的外貌,穿著,頭發(fā)顏色等等,這些特征可以通過圖像的信息進一步的豐富。
3、在多模態(tài)知識圖譜中,圖片和文本有各自的優(yōu)缺點,那么在進行知識圖譜補全的過程中,如何利用這些特征預(yù)測最佳的缺失實體,是本申請主要解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本申請的目的在于提供一種基于復(fù)合運算的多模態(tài)知識圖譜補全方法,以在多模態(tài)知識圖譜中進行高精度的特征表達(dá),進而完成多模態(tài)知識圖譜的補齊。
2、為了實現(xiàn)上述目的,本申請采用以下技術(shù)方案:
3、本申請?zhí)峁┝艘环N基于復(fù)合運算的多模態(tài)知識圖譜補全方法,包括:
4、獲取多模態(tài)知識圖譜,所述多模態(tài)知識圖譜包括由頭實體、時間、關(guān)系和尾實體構(gòu)成的多模態(tài)四元組,所述頭實體、尾實體和關(guān)系為圖片或者文本;
5、通過將圖片生成文本描述,將所述多模態(tài)知識圖譜轉(zhuǎn)換為包括純文本四元組的文本知識圖譜;
6、基于知識圖譜嵌入模型,學(xué)習(xí)所述純文本四元組的第一嵌入表示;
7、基于前饋神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)所述多模態(tài)四元組的第二嵌入表示;
8、將當(dāng)前頭實體、當(dāng)前時間和當(dāng)前關(guān)系輸入到所述知識圖譜嵌入模型和前饋神經(jīng)網(wǎng)絡(luò)模型中,得到預(yù)測尾實體;并根據(jù)所述預(yù)測尾實體對所述多模態(tài)知識圖譜進行補全。
9、與現(xiàn)有技術(shù)相比,本申請的有益效果為:
10、本申請首先從多模態(tài)知識圖譜中提取出文本知識圖譜,從而對文本信息進行單獨學(xué)習(xí);通過知識圖譜嵌入模塊和前饋神經(jīng)網(wǎng)絡(luò)模型,分別學(xué)習(xí)純文本的第一嵌入表示,和多模態(tài)的第二嵌入表示。通過對知識圖譜嵌入模塊和前饋神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程能夠更好的表示出文本信息內(nèi)容的獨有特性,之后在進行尾實體預(yù)測的過程中,可以將文本信息內(nèi)容和多模態(tài)信息進行融合,以更好地預(yù)測尾實體,從而達(dá)到知識圖譜補全的目的。
1.一種基于復(fù)合運算的多模態(tài)知識圖譜補全方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過將圖片生成文本描述,將所述多模態(tài)知識圖譜轉(zhuǎn)換為包括純文本四元組的文本知識圖譜,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于知識圖譜嵌入模型,學(xué)習(xí)所述純文本四元組的第一嵌入表示,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述頭實體的向量表示上作用時間與關(guān)系的平移縮放混合操作,得到預(yù)測尾實體的向量表示,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)預(yù)測尾實體與真實尾實體的語義相似性,構(gòu)建所述知識圖譜嵌入模型的第一損失函數(shù),包括:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,基于前饋神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)所述多模態(tài)四元組的第二嵌入表示,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,從多模態(tài)四元組的頭實體、時間和關(guān)系中提取圖片特征向量和文本特征向量,包括:
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述前饋神經(jīng)網(wǎng)絡(luò)模型包括輸入層、三個隱藏層和一個輸出層。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,將當(dāng)前頭實體、當(dāng)前時間和當(dāng)前關(guān)系輸入到所述知識圖譜嵌入模型和前饋神經(jīng)網(wǎng)絡(luò)模型中,得到預(yù)測尾實體之前,還包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,將當(dāng)前頭實體、當(dāng)前時間和當(dāng)前關(guān)系輸入到所述知識圖譜嵌入模型和前饋神經(jīng)網(wǎng)絡(luò)模型中,得到預(yù)測尾實體,包括: