本技術(shù)涉及金融科技和人工智能,尤其涉及一種基于多模態(tài)的風(fēng)險(xiǎn)診斷方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、目前,通常通過人工對(duì)用戶數(shù)據(jù)進(jìn)行用戶資質(zhì)審查,從而對(duì)用戶進(jìn)行風(fēng)險(xiǎn)評(píng)估。例如,在金融科技場景的信貸審批中,往往會(huì)涉及到對(duì)用戶身份信息的驗(yàn)證及對(duì)用戶資質(zhì)的審查,以對(duì)用戶在信貸審批過程進(jìn)行反欺詐檢測。但是,人工審查過程中,往往只能通過經(jīng)驗(yàn)進(jìn)行用戶風(fēng)險(xiǎn)評(píng)估,并且診斷員的不同也會(huì)產(chǎn)生風(fēng)險(xiǎn)診斷的主觀判斷結(jié)果不同,導(dǎo)致用戶風(fēng)險(xiǎn)診斷的準(zhǔn)確率較低,因此,如何提高用戶風(fēng)險(xiǎn)診斷的準(zhǔn)確率成為了亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種基于多模態(tài)的風(fēng)險(xiǎn)診斷方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),旨在提高用戶風(fēng)險(xiǎn)診斷的準(zhǔn)確率。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種基于多模態(tài)的風(fēng)險(xiǎn)診斷方法,所述方法包括:
3、獲取目標(biāo)對(duì)象的多模態(tài)用戶數(shù)據(jù);其中,所述多模態(tài)用戶數(shù)據(jù)包括原始用戶圖像數(shù)據(jù)、原始用戶視頻數(shù)據(jù)及原始業(yè)務(wù)文本數(shù)據(jù);
4、利用預(yù)訓(xùn)練的基于多模態(tài)的風(fēng)險(xiǎn)診斷模型對(duì)所述原始用戶圖像數(shù)據(jù)進(jìn)行人臉屬性檢測,得到人臉屬性特征;
5、對(duì)所述原始用戶視頻數(shù)據(jù)進(jìn)行臉部動(dòng)作檢測,得到臉部動(dòng)作特征;
6、對(duì)所述原始業(yè)務(wù)文本數(shù)據(jù)進(jìn)行文本特征提取,得到業(yè)務(wù)文本特征;
7、將所述人臉屬性特征、所述臉部動(dòng)作特征及所述業(yè)務(wù)文本特征進(jìn)行融合,得到目標(biāo)風(fēng)險(xiǎn)特征;
8、對(duì)所述目標(biāo)風(fēng)險(xiǎn)特征進(jìn)行風(fēng)險(xiǎn)診斷,得到用戶風(fēng)險(xiǎn)等級(jí)。
9、在一些實(shí)施例,所述基于多模態(tài)的風(fēng)險(xiǎn)診斷模型還包括注意力融合網(wǎng)絡(luò),所述將所述人臉屬性特征、所述臉部動(dòng)作特征及所述業(yè)務(wù)文本特征進(jìn)行融合,得到目標(biāo)風(fēng)險(xiǎn)特征,包括:
10、利用所述注意力融合網(wǎng)絡(luò)將所述人臉屬性特征及所述臉部動(dòng)作特征進(jìn)行融合,得到人臉視覺風(fēng)險(xiǎn)特征;
11、將所述人臉視覺風(fēng)險(xiǎn)特征與所述業(yè)務(wù)文本特征進(jìn)行融合,得到所述目標(biāo)風(fēng)險(xiǎn)特征。
12、在一些實(shí)施例,所述將所述人臉視覺風(fēng)險(xiǎn)特征與所述業(yè)務(wù)文本特征進(jìn)行融合,得到所述目標(biāo)風(fēng)險(xiǎn)特征,包括:
13、對(duì)所述業(yè)務(wù)文本特征進(jìn)行深層特征提取,得到深層業(yè)務(wù)文本特征;對(duì)所述人臉視覺風(fēng)險(xiǎn)特征進(jìn)行深層特征提取,得到深層人臉視覺風(fēng)險(xiǎn)特征;
14、利用所述注意力融合網(wǎng)絡(luò)對(duì)所述人臉視覺風(fēng)險(xiǎn)特征及所述深層業(yè)務(wù)文本特征進(jìn)行線性增強(qiáng)處理,得到文本增強(qiáng)視覺特征;利用所述注意力融合網(wǎng)絡(luò)對(duì)所述深層人臉視覺風(fēng)險(xiǎn)特征及所述業(yè)務(wù)文本特征進(jìn)行線性增強(qiáng)處理,得到視覺增強(qiáng)文本特征;
15、基于預(yù)設(shè)的注意力權(quán)重對(duì)所述文本增強(qiáng)視覺特征及所述視覺增強(qiáng)文本特征進(jìn)行融合,得到所述目標(biāo)風(fēng)險(xiǎn)特征。
16、在一些實(shí)施例,所述利用所述注意力融合網(wǎng)絡(luò)對(duì)所述人臉視覺風(fēng)險(xiǎn)特征及所述深層業(yè)務(wù)文本特征進(jìn)行線性增強(qiáng)處理,得到文本增強(qiáng)視覺特征,包括:
17、利用所述注意力融合網(wǎng)絡(luò)對(duì)所述人臉視覺風(fēng)險(xiǎn)特征及所述深層業(yè)務(wù)文本特征進(jìn)行注意力交互處理,得到初始文本視覺交互特征;
18、對(duì)所述初始文本視覺交互特征進(jìn)行歸一化處理,得到標(biāo)準(zhǔn)文本視覺交互特征;
19、對(duì)所述標(biāo)準(zhǔn)文本視覺交互特征進(jìn)行線性增強(qiáng)處理,得到所述文本增強(qiáng)視覺特征。
20、在一些實(shí)施例,所述利用所述注意力融合網(wǎng)絡(luò)將所述人臉屬性特征及所述臉部動(dòng)作特征進(jìn)行融合,得到人臉視覺風(fēng)險(xiǎn)特征,包括:
21、利用所述注意力融合網(wǎng)絡(luò)獲取所述人臉屬性特征的屬性風(fēng)險(xiǎn)分?jǐn)?shù);利用所述注意力融合網(wǎng)絡(luò)獲取所述臉部動(dòng)作特征的臉部風(fēng)險(xiǎn)分?jǐn)?shù);
22、根據(jù)所述屬性風(fēng)險(xiǎn)分?jǐn)?shù)及所述臉部風(fēng)險(xiǎn)分?jǐn)?shù)對(duì)所述人臉屬性特征及所述臉部動(dòng)作特征進(jìn)行融合,得到所述人臉視覺風(fēng)險(xiǎn)特征。
23、在一些實(shí)施例,所述基于多模態(tài)的風(fēng)險(xiǎn)診斷模型還包括臉部動(dòng)作檢測網(wǎng)絡(luò),所述對(duì)所述原始用戶視頻數(shù)據(jù)進(jìn)行臉部動(dòng)作檢測,得到臉部動(dòng)作特征,包括:
24、利用所述臉部動(dòng)作檢測網(wǎng)絡(luò)對(duì)所述原始用戶視頻數(shù)據(jù)進(jìn)行臉部表情提取,得到臉部表情特征;
25、對(duì)所述原始用戶視頻數(shù)據(jù)進(jìn)行臉部關(guān)鍵點(diǎn)檢測,得到臉部關(guān)鍵點(diǎn)坐標(biāo);
26、根據(jù)所述臉部關(guān)鍵點(diǎn)坐標(biāo)對(duì)所述原始用戶視頻數(shù)據(jù)進(jìn)行臉部運(yùn)動(dòng)特征提取,得到臉部運(yùn)動(dòng)特征;
27、將所述臉部表情特征及所述臉部運(yùn)動(dòng)特征進(jìn)行融合,得到所述臉部動(dòng)作特征。
28、在一些實(shí)施例,所述基于多模態(tài)的風(fēng)險(xiǎn)診斷模型包括人臉屬性檢測網(wǎng)絡(luò),所述利用預(yù)訓(xùn)練的基于多模態(tài)的風(fēng)險(xiǎn)診斷模型對(duì)所述原始用戶圖像數(shù)據(jù)進(jìn)行人臉屬性檢測,得到人臉屬性特征,包括:
29、利用所述人臉屬性檢測網(wǎng)絡(luò)對(duì)所述原始用戶圖像數(shù)據(jù)進(jìn)行人臉檢測,得到用戶人臉圖像;
30、對(duì)所述用戶人臉圖像進(jìn)行屬性檢測,得到所述人臉屬性特征。
31、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種基于多模態(tài)的風(fēng)險(xiǎn)診斷裝置,所述裝置包括:
32、多模態(tài)數(shù)據(jù)獲取模塊,用于獲取目標(biāo)對(duì)象的多模態(tài)用戶數(shù)據(jù);其中,所述多模態(tài)用戶數(shù)據(jù)包括原始用戶圖像數(shù)據(jù)、原始用戶視頻數(shù)據(jù)及原始業(yè)務(wù)文本數(shù)據(jù);
33、人臉屬性檢測模塊,用于利用預(yù)訓(xùn)練的基于多模態(tài)的風(fēng)險(xiǎn)診斷模型對(duì)所述原始用戶圖像數(shù)據(jù)進(jìn)行人臉屬性檢測,得到人臉屬性特征;
34、臉部動(dòng)作檢測模塊,用于對(duì)所述原始用戶視頻數(shù)據(jù)進(jìn)行臉部動(dòng)作檢測,得到臉部動(dòng)作特征;
35、文本特征提取模塊,用于對(duì)所述原始業(yè)務(wù)文本數(shù)據(jù)進(jìn)行文本特征提取,得到業(yè)務(wù)文本特征;
36、特征融合模塊,用于將所述人臉屬性特征、所述臉部動(dòng)作特征及所述業(yè)務(wù)文本特征進(jìn)行融合,得到目標(biāo)風(fēng)險(xiǎn)特征;
37、風(fēng)險(xiǎn)診斷模塊,用于對(duì)所述目標(biāo)風(fēng)險(xiǎn)特征進(jìn)行風(fēng)險(xiǎn)診斷,得到用戶風(fēng)險(xiǎn)等級(jí)。
38、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
39、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
40、本技術(shù)提出的基于多模態(tài)的風(fēng)險(xiǎn)診斷方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過獲取目標(biāo)對(duì)象的多模態(tài)用戶數(shù)據(jù);其中,多模態(tài)用戶數(shù)據(jù)包括原始用戶圖像數(shù)據(jù)、原始用戶視頻數(shù)據(jù)及原始業(yè)務(wù)文本數(shù)據(jù);利用預(yù)訓(xùn)練的基于多模態(tài)的風(fēng)險(xiǎn)診斷模型對(duì)原始用戶圖像數(shù)據(jù)進(jìn)行人臉屬性檢測,得到人臉屬性特征;對(duì)原始用戶視頻數(shù)據(jù)進(jìn)行臉部動(dòng)作檢測,得到臉部動(dòng)作特征;對(duì)原始業(yè)務(wù)文本數(shù)據(jù)進(jìn)行文本特征提取,得到業(yè)務(wù)文本特征;將人臉屬性特征、臉部動(dòng)作特征及業(yè)務(wù)文本特征進(jìn)行融合,得到目標(biāo)風(fēng)險(xiǎn)特征;對(duì)目標(biāo)風(fēng)險(xiǎn)特征進(jìn)行風(fēng)險(xiǎn)診斷,得到用戶風(fēng)險(xiǎn)等級(jí)。本技術(shù)首先利用預(yù)訓(xùn)練的基于多模態(tài)的風(fēng)險(xiǎn)診斷模型對(duì)原始用戶圖像數(shù)據(jù)進(jìn)行人臉屬性檢測,能夠提取出用戶的人臉屬性信息,并對(duì)原始用戶視頻數(shù)據(jù)進(jìn)行臉部動(dòng)作檢測,能夠分析用戶在視頻中的臉部動(dòng)態(tài)行為,為評(píng)估用戶風(fēng)險(xiǎn)提供了重要線索,便于后續(xù)提高用戶風(fēng)險(xiǎn)診斷的準(zhǔn)確率;其次,對(duì)原始業(yè)務(wù)文本數(shù)據(jù)進(jìn)行文本特征提取,能夠?yàn)轭A(yù)測用戶的行為模式和潛在風(fēng)險(xiǎn)提供進(jìn)一步的線索;最后,將人臉屬性特征、臉部動(dòng)作特征及業(yè)務(wù)文本特征進(jìn)行融合,得到目標(biāo)風(fēng)險(xiǎn)特征,并對(duì)目標(biāo)風(fēng)險(xiǎn)特征進(jìn)行風(fēng)險(xiǎn)診斷,模型能夠捕捉到文本、圖像及視頻數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,避免了因診斷員差異導(dǎo)致的對(duì)同一用戶的主觀評(píng)級(jí)誤差,從而提高了用戶風(fēng)險(xiǎn)診斷的準(zhǔn)確率。