本發(fā)明屬于視頻檢測,具體涉及一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置。
背景技術(shù):
1、深度偽造技術(shù)是一種基于人工智能和深度學(xué)習(xí)的技術(shù),可通過模擬和偽造人類的面部特征、聲音和行為,生成高度逼真的虛假影像、視頻和語音等。當(dāng)前,視頻換臉、換聲等技術(shù)不僅在影視制作等領(lǐng)域得到廣泛應(yīng)用,也被濫用于制造虛假新聞、惡意視頻等,對個人隱私、社會穩(wěn)定及國家安全方面帶來了嚴重的安全威脅。
2、目前,常見的深度偽造檢測技術(shù)主要包括:基于傳統(tǒng)數(shù)字取證技術(shù)和基于深度學(xué)習(xí)模型的檢測技術(shù)。
3、(1)基于傳統(tǒng)數(shù)字取證技術(shù),對于音頻部分,主要是對聲音的音頻、波形、頻譜等聲音信號進行特征分析;對于視頻和圖形部分,通常利用視頻和圖像的元數(shù)據(jù)、色彩分布、像素排列和壓縮痕跡等特征來判斷圖像和視頻是否經(jīng)過編輯和偽造。但該技術(shù)主要依賴對視頻或圖像內(nèi)容的靜態(tài)分析,但由于視頻在被壓縮后,幀數(shù)會產(chǎn)生嚴重的退化現(xiàn)象,且視頻幀之間的時序特征存在一定的變化,故多數(shù)基于靜態(tài)特征的深度偽造圖像檢測方法無法直接用于深度偽造視頻的檢測。
4、(2)基于深度學(xué)習(xí)模型的檢測技術(shù),通過使用訓(xùn)練的檢測模型對深度偽造內(nèi)容進行自動檢測。然而,隨著深度偽造技術(shù)的進步,單一模態(tài)的檢測方式在應(yīng)對復(fù)雜、高度逼真的深度偽造視頻時有較大的局限性,尤其是在偽造內(nèi)容經(jīng)過壓縮、傳輸或編輯后,單一模態(tài)的檢測方法準確性顯著下降。此外,經(jīng)過壓縮、傳輸或編輯后的深度偽造視頻中的多模態(tài)信息往往存在不一致性,單一模態(tài)的檢測方法無法充分捕捉這些跨模態(tài)的不一致性,導(dǎo)致檢測精度不高。
5、有鑒于此,特提出本發(fā)明。
技術(shù)實現(xiàn)思路
1、本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置,用以解決現(xiàn)有的深度偽造視頻檢測技術(shù)依賴單一模態(tài)的檢測手段,導(dǎo)致其對復(fù)雜、高度逼真的深度偽造視頻檢測精度低的問題。
2、第一方面,本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測方法,包括:
3、s1.將待檢測視頻進行預(yù)處理,得到多個視頻幀;所述待檢測視頻包括音頻,所述每個視頻幀包括所述音頻;
4、s2.獲取所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖;
5、s3.針對所述多個視頻幀的每個視頻幀,提取所述每個視頻幀的特征向量,對所述每個視頻幀的特征向量進行融合得到所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a;
6、s4.將所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a分別進行線性變換,分別映射到查詢(query,?q)、鍵(key,?k)和值(value,?v)空間中,得到所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a的注意力機制的特征維度 d k 、所述待檢測視頻的視頻幀特征向量 x v的查詢向量 q v、鍵向量 k v、值向量 v v及所述音頻mel頻譜圖的音頻特征向量 x a的查詢向量 q a、鍵向量 k a、值向量 v a,具體為:
7、;
8、其中, wq v ,wk v ,wv v是對所述待檢測視頻的視頻幀特征向量 x v進行線性變換的權(quán)重矩陣, wq a ,wk a ,wv a是對所述音頻mel頻譜圖的音頻特征向量 x a進行變換的權(quán)重矩陣;
9、s5.采用多頭自注意力機制分別處理所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a,計算所述待檢測視頻的視頻幀特征向量 x v的注意力權(quán)重矩陣 attention v和所述音頻mel頻譜圖的音頻特征向量 x a的注意力權(quán)重矩陣 attention a ,具體為:
10、;
11、其中, d k用以對 q* k t乘積結(jié)果進行歸一化;
12、s6.引入模態(tài)間交互注意力機制,比較所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a之間的相似性來增強模態(tài)間的交互,具體為:
13、;
14、s7.將所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a的兩種模態(tài)的特征加權(quán)融合,得到最終的多模態(tài)融合特征 f,具體為:
15、;
16、其中,是超參數(shù);
17、s8.將所述多模態(tài)融合特征 f輸入由批量歸一化層、全連接層、激活函數(shù)和輸出層構(gòu)成的多層全連接神經(jīng)網(wǎng)絡(luò) d得到降維后的多模態(tài)融合特征 f’,具體為:
18、;
19、其中, w是權(quán)重, f是所述多模態(tài)融合特征, b是偏差;
20、s9.將所述降維后的多模態(tài)融合特征 f’輸入分類器得到分類結(jié)果,得到所述待檢測視頻為真實類別和偽造類別的概率,通過比較所述待檢測視頻真實類別和偽造類別的概率值,判定所述待檢測視頻是否為偽造視頻,具體為:
21、;
22、s10.當(dāng)所述待檢測視頻為偽造類別的概率大于真實類別的概率時,判斷所述待檢測視頻為偽造視頻;否則,判斷所述待檢測視頻為偽造視頻。
23、進一步地,s1中所述將待檢測視頻進行預(yù)處理,得到多個視頻幀,包括:
24、s101.使用計算機視覺庫opencv中的videocapture函數(shù)讀取所述待檢測視頻,確定所述待檢測視頻的總幀數(shù);
25、s102.根據(jù)所述待檢測視頻的總幀數(shù),計算要提取視頻幀的間隔,均勻地從所述將待檢測視頻中提取多個視頻幀;
26、s103.將所述多個視頻幀進行數(shù)據(jù)歸一化處理,變成浮點型數(shù)據(jù)。
27、進一步地,s2中獲取所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖,包括:
28、s201.通過調(diào)用視頻處理庫moviepy中的videofileclip函數(shù)讀取所述待檢測視頻文件,獲取所述待檢測視頻文件中的音頻文件,并將所述音頻文件保存為wav格式;
29、s202.通過調(diào)用音頻處理庫librosa庫加載所述wav音頻文件,以時間序列的形式存儲所述wav音頻文件中的音頻數(shù)據(jù);
30、s203.通過調(diào)用音頻處理庫librosa庫中的melspectrogram函數(shù),將所述wav音頻文件中的音頻數(shù)據(jù)轉(zhuǎn)換為mel頻譜圖,將所述mel頻譜圖的浮點型數(shù)據(jù)歸一化處理為整數(shù)值數(shù)據(jù);
31、s204.對所述歸一化處理后mel頻譜圖進行尺寸調(diào)整,將所述歸一化處理后mel頻譜圖縮放到指定的目標(biāo)大小。
32、進一步地,s3中獲取所述檢測視頻的視頻幀特征向量 x v,包括:
33、s301.將輸入video?swin?transforme模型中所述多個視頻幀的每個視頻幀劃分為多個小的圖像塊,通過所述video?swin?transforme模型中線性嵌入層將所述多個小的圖像塊轉(zhuǎn)換為高維特征向量;
34、s302.引入時序編碼,將所述多個視頻幀之間的時間順序信息嵌入到所述高維特征向量中,經(jīng)所述video?swin?transforme模型處理后,得到所述檢測視頻的視頻幀特征向量 x v。
35、進一步地,s3中獲取所述音頻mel頻譜圖的音頻特征向量 x a ,包括:
36、s303.將所述音頻mel頻譜圖輸入到預(yù)訓(xùn)練resnet18模型中,通過resnet18模型的多個卷積層和殘差模塊對所述音頻mel頻譜圖進行深層次特征提取;
37、s304.通過resnet18模型的全局平均池化層,所述音頻mel頻譜圖被壓縮為音頻特征向量 x a,所述音頻特征向量 x a包含音頻信號的時頻信息。
38、進一步地,s8中所得到述降維后的多模態(tài)融合特征 f’,包括:
39、s801.將所述多模態(tài)融合特征 f輸入所述批量歸一化層得到多模態(tài)融合特征 f1,確保所述多模態(tài)融合特征 f1具有零均值和單位方差;
40、s802.將所述多模態(tài)融合特征 f1輸入到全連接層,對所述多模態(tài)融合特征 f1進行降維處理得到多模態(tài)融合特征 f2;
41、s803.將所述多模態(tài)融合特征 f2輸入所述批量歸一化層得到多模態(tài)融合特征 f3;
42、s804.將所述多模態(tài)融合特征 f3通過tanh激活函數(shù)進行非線性變換,得到多模態(tài)融合特征 f4,其中:
43、;
44、s805.將所述多模態(tài)融合特征 f4輸入到輸出層,將所述多模態(tài)融合特征 f4壓縮為多模態(tài)融合特征 f’,其中所述多模態(tài)融合特征 f’是二維向量 。
45、第二方面,本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測裝置,采用了如第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法,包括:
46、數(shù)據(jù)處理模塊210:將待檢測視頻進行預(yù)處理,獲取所述待檢測視頻的多個視頻幀及所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖;
47、特征向量提取模塊220:根據(jù)所述待檢測視頻的多個視頻幀及所述音頻文件轉(zhuǎn)換為mel頻譜圖獲取所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a;
48、多模態(tài)注意力融合模塊230:根據(jù)所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a,對所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a進行多模態(tài)交叉注意力特征融合,得到多模態(tài)融合特征 f;
49、視頻偽造檢測模塊240:將所述多模態(tài)融合特征 f輸入多層全連接神經(jīng)網(wǎng)絡(luò) d得到降維后的多模態(tài)融合特征 f’,將所述降維后的多模態(tài)融合特征 f’輸入分類器得到分類結(jié)果,判斷所述待檢測視頻是否是偽造視頻。
50、第三方面,本發(fā)明還提供了一種電子設(shè)備,包括:存儲器和處理器;
51、其中,存儲器存儲計算機執(zhí)行指令;
52、處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,使得處理器執(zhí)行本發(fā)明第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法。
53、第四方面,本發(fā)明還提供了一種計算機可讀存儲介質(zhì),其中存儲有多條指令,指令由處理器加載,使處理器執(zhí)行本發(fā)明發(fā)明第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法。
54、本發(fā)明的有益效果是:本技術(shù)方案提出的融合多模態(tài)信息的深度偽造視頻檢測方法及裝置,能解決偽造內(nèi)容在經(jīng)過壓縮、傳輸或編輯后,通過結(jié)合視頻中的視覺信息、音頻信息及其跨模態(tài)之間的關(guān)系,全面分析偽造內(nèi)容中的不一致性,進而提高偽造視頻檢測的準確性和魯棒性。