本發(fā)明涉及人工智能,具體涉及一種消費(fèi)金融信貸中介處理方法以及裝置。
背景技術(shù):
1、在機(jī)器學(xué)習(xí)領(lǐng)域,消費(fèi)金融信貸中介識(shí)別模型通過(guò)獲取消費(fèi)金融信貸申請(qǐng)人(以下簡(jiǎn)稱(chēng)客戶)的設(shè)備、位置、影像等信息,結(jié)合客戶歷史信貸和公共信用等信息,輸入相關(guān)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,并針對(duì)信貸中介識(shí)別任務(wù)的特性,對(duì)模型進(jìn)行精調(diào),以達(dá)到提高信貸中介識(shí)別精度的目的。
2、現(xiàn)有技術(shù):現(xiàn)有技術(shù)為了最大程度地對(duì)信貸中介進(jìn)行識(shí)別,通常會(huì)采集客戶的設(shè)備、位置、影像等信息,包括設(shè)備基本信息、設(shè)備安裝app信息、設(shè)備上儲(chǔ)存的通話、短信、通訊錄等信息,以及設(shè)備位置信息和活體影像信息等,并通過(guò)自然語(yǔ)言識(shí)別以及關(guān)聯(lián)網(wǎng)絡(luò)分析等技術(shù)對(duì)上述信息進(jìn)行處理,再通過(guò)模型或規(guī)則將上述信息轉(zhuǎn)換為評(píng)分或名單,達(dá)到對(duì)信貸中介高風(fēng)險(xiǎn)客戶的識(shí)別。
3、現(xiàn)有技術(shù)缺陷:采集客戶設(shè)備信息時(shí),存在過(guò)度采集信息的風(fēng)險(xiǎn),并且對(duì)于設(shè)備信息的可獲取性具有較高要求,在無(wú)法采集設(shè)備信息的情況下,相關(guān)數(shù)據(jù)會(huì)全部缺失,極大影響到中介識(shí)別模型的效果;同時(shí),一些方法采用黑名單+關(guān)聯(lián)網(wǎng)絡(luò)分析的形式,在進(jìn)行關(guān)聯(lián)網(wǎng)絡(luò)計(jì)算時(shí),需要較高的計(jì)算資源,且消耗的計(jì)算資源會(huì)隨著整體樣本量的增加呈指數(shù)級(jí)上升,從而大大提升了中介識(shí)別模型的開(kāi)發(fā)與維護(hù)成本。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問(wèn)題是解決上述現(xiàn)有技術(shù)的不足,提供一種消費(fèi)金融信貸中介處理方法以及裝置。
2、為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案為:
3、一種消費(fèi)金融信貸中介處理方法,其特征在于,包括如下步驟:
4、s1、對(duì)識(shí)別模型的特征進(jìn)行處理,處理方法如下:
5、s11、數(shù)據(jù)獲取步驟:從歷史數(shù)據(jù)庫(kù)中進(jìn)行歸納提取客戶貸款申請(qǐng)整個(gè)流程的多個(gè)維度的數(shù)據(jù),在客戶進(jìn)行貸款操作過(guò)程中,系統(tǒng)自動(dòng)獲取當(dāng)前貸款客戶相關(guān)信息數(shù)據(jù),并傳入數(shù)據(jù)庫(kù)進(jìn)行結(jié)構(gòu)化儲(chǔ)存;
6、s12、數(shù)據(jù)處理步驟:通過(guò)統(tǒng)計(jì)轉(zhuǎn)換,將獲取到的數(shù)據(jù)信息進(jìn)行處理,并匯總至客戶維度,對(duì)應(yīng)所述中介識(shí)別模型的輸入;
7、s13、樣本選取步驟:提取歷史被確認(rèn)為通過(guò)中介辦理的的客戶樣本和上述樣本的對(duì)應(yīng)特征,作為后續(xù)模型訓(xùn)練樣本中的正樣本,同時(shí)從正常進(jìn)件的客戶樣本中選取數(shù)量為上述正樣本數(shù)量一定比例的樣本,作為后續(xù)模型訓(xùn)練樣本中的負(fù)樣本,同時(shí)將異常樣本剔除?;
8、s14、將正負(fù)樣本合并,得到樣本集1,所述樣本集1包含的所有特征作為特征池1;
9、s2、對(duì)識(shí)別模型進(jìn)行訓(xùn)練,訓(xùn)練方法如下:
10、s21、樣本處理:對(duì)樣本集1按客戶申請(qǐng)貸款的時(shí)間進(jìn)行劃分?,分為訓(xùn)練樣本和時(shí)間外驗(yàn)證樣本兩部分,并分別計(jì)算特征池1中的特征在訓(xùn)練樣本和時(shí)間外驗(yàn)證樣本上的iv值、缺失率、最大單一值占比以及psi指標(biāo);
11、s22、特征初篩?:根據(jù)上述指標(biāo),對(duì)特征池1的特征進(jìn)行篩選,剔除iv<0.01、缺失率>95%或最大單一值占比>95%的特征,得到特征池2;
12、s23、特征精篩?:剔除風(fēng)險(xiǎn)表現(xiàn)與業(yè)務(wù)經(jīng)驗(yàn)不符合、訓(xùn)練樣本和時(shí)間外驗(yàn)證樣本上風(fēng)險(xiǎn)表現(xiàn)不一致或psi>0.1的特征,得到特征池3;
13、s24、模型訓(xùn)練?:將包含特征池3特征的訓(xùn)練樣本輸入lightgbm二分類(lèi)模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的模型文件;在此過(guò)程中,通過(guò)模型參數(shù)調(diào)節(jié)、輸入特征調(diào)整模型效果,并且在時(shí)間外驗(yàn)證樣本上進(jìn)行打分驗(yàn)證;
14、s3、取包含模型最終使用特征的最新客戶申請(qǐng)樣本,使用前述模型進(jìn)行打分,進(jìn)行客戶評(píng)分分布分析?;基于不同分?jǐn)?shù)的風(fēng)險(xiǎn)分布,確定中介識(shí)別模型分?jǐn)?shù)閾值;
15、s4、對(duì)所有信貸申請(qǐng)客戶進(jìn)行識(shí)別模型打分,對(duì)于評(píng)分結(jié)果超過(guò)風(fēng)險(xiǎn)閾值的客戶,認(rèn)為存在風(fēng)險(xiǎn);對(duì)于閾值內(nèi)的客戶,進(jìn)入正常審核流程,最終得出審核結(jié)果。
16、進(jìn)一步的,在步驟s11中提取的數(shù)據(jù)包括于證件號(hào)、手機(jī)號(hào)、自填聯(lián)系人信息、客戶征信信息、歷史借貸行為信息。
17、進(jìn)一步的,在步驟s11中提取的數(shù)據(jù)還包括聯(lián)系人數(shù)量、聯(lián)系人與本人關(guān)系、聯(lián)系人手機(jī)號(hào)核驗(yàn)、聯(lián)系人手機(jī)號(hào)歸屬地與申請(qǐng)人手機(jī)號(hào)歸屬地對(duì)比、借貸歷史、還款行為、申請(qǐng)后是否有對(duì)應(yīng)貸后行為、近一個(gè)月信貸申請(qǐng)次數(shù)和機(jī)構(gòu)數(shù)、在不同層級(jí)機(jī)構(gòu)申請(qǐng)次數(shù)和趨勢(shì)。
18、進(jìn)一步的,所述正樣本和負(fù)樣本數(shù)量均大于2000,正樣本和負(fù)樣本比例為1:20。
19、進(jìn)一步的,在步驟s24中,使用python調(diào)用lightgbm模塊進(jìn)行模型訓(xùn)練,決策樹(shù)構(gòu)造方式選擇“gbdt”,目標(biāo)函數(shù)選擇“binary”,評(píng)價(jià)指標(biāo)選擇“auc”。
20、進(jìn)一步的,參數(shù)調(diào)節(jié):使用hyperopt模塊進(jìn)行自動(dòng)超參數(shù)選擇;特征調(diào)整時(shí)剔除對(duì)于模型預(yù)測(cè)能力無(wú)增益或有負(fù)增益的特征。
21、進(jìn)一步的,在時(shí)間外驗(yàn)證樣本上進(jìn)行打分驗(yàn)證,以模型評(píng)分psi不超過(guò)0.25,且ks和auc在訓(xùn)練和驗(yàn)證樣本上的變化不超過(guò)0.03為準(zhǔn)。
22、此外本發(fā)明還提供了一種消費(fèi)金融信貸中介處理裝置,包括如下:
23、一個(gè)或者多個(gè)處理器或者處理單元,可以通過(guò)執(zhí)行計(jì)算機(jī)可執(zhí)行指令,進(jìn)行數(shù)據(jù)處理、特征計(jì)算、機(jī)器學(xué)習(xí)模型訓(xùn)練;
24、一個(gè)或者多個(gè)存儲(chǔ)器,包括內(nèi)部存儲(chǔ)器和外部存儲(chǔ)器,所述內(nèi)部存儲(chǔ)器用于暫時(shí)存放cpu中的運(yùn)算數(shù)據(jù),以及與外部存儲(chǔ)器交換的數(shù)據(jù);所述外部存儲(chǔ)器用于存儲(chǔ)數(shù)據(jù)特征和用于執(zhí)程序代碼,具有相應(yīng)存儲(chǔ)空間;
25、輸入/輸出設(shè)備,使得用戶能與該計(jì)算機(jī)設(shè)備進(jìn)行交互,并可視化輸出中介識(shí)別模型評(píng)分結(jié)果以及對(duì)應(yīng)的客戶標(biāo)簽等信息。
26、從上述技術(shù)可以看出本發(fā)明具有以下優(yōu)點(diǎn):其數(shù)據(jù)處理和模型訓(xùn)練的資源消耗低、中介風(fēng)險(xiǎn)評(píng)分使用簡(jiǎn)單,降低了整個(gè)系統(tǒng)的使用門(mén)檻,對(duì)于相關(guān)軟硬件資源有限的中小型金融機(jī)構(gòu)十分友好。
1.一種消費(fèi)金融信貸中介處理方法消費(fèi)金融信貸中介處理方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的消費(fèi)金融信貸中介處理方法,其特征在于,在步驟s11中提取的數(shù)據(jù)包括于證件號(hào)、手機(jī)號(hào)、自填聯(lián)系人信息、客戶征信信息、歷史借貸行為信息。
3.根據(jù)權(quán)利要求2所述的消費(fèi)金融信貸中介處理方法以及裝置,其特征在于,在步驟s11中提取的數(shù)據(jù)還包括聯(lián)系人數(shù)量、聯(lián)系人與本人關(guān)系、聯(lián)系人手機(jī)號(hào)核驗(yàn)、聯(lián)系人手機(jī)號(hào)歸屬地與申請(qǐng)人手機(jī)號(hào)歸屬地對(duì)比、借貸歷史、還款行為、申請(qǐng)后是否有對(duì)應(yīng)貸后行為、近一個(gè)月信貸申請(qǐng)次數(shù)和機(jī)構(gòu)數(shù)、在不同層級(jí)機(jī)構(gòu)申請(qǐng)次數(shù)和趨勢(shì)。
4.根據(jù)權(quán)利要求1所述的消費(fèi)金融信貸中介處理方法,其特征在于,所述正樣本和負(fù)樣本數(shù)量均大于2000,正樣本和負(fù)樣本比例為1:20。
5.根據(jù)權(quán)利要求1所述的消費(fèi)金融信貸中介處理方法,其特征在于,在步驟s24中,使用python調(diào)用lightgbm模塊進(jìn)行模型訓(xùn)練,決策樹(shù)構(gòu)造方式選擇“gbdt”,目標(biāo)函數(shù)選擇“binary”,評(píng)價(jià)指標(biāo)選擇“auc”。
6.根據(jù)權(quán)利要求5所述的消費(fèi)金融信貸中介處理方法,其特征在于:參數(shù)調(diào)節(jié):使用hyperopt模塊進(jìn)行自動(dòng)超參數(shù)選擇;特征調(diào)整時(shí)剔除對(duì)于模型預(yù)測(cè)能力無(wú)增益或有負(fù)增益的特征。
7.根據(jù)權(quán)利要求1所述的消費(fèi)金融信貸中介處理方法,其特征在于:在時(shí)間外驗(yàn)證樣本上進(jìn)行打分驗(yàn)證,以模型評(píng)分psi不超過(guò)0.25,且ks和auc在訓(xùn)練和驗(yàn)證樣本上的變化不超過(guò)0.03為準(zhǔn)。
8.一種消費(fèi)金融信貸中介處理裝置,采用如權(quán)利要求1-7任一所述的方法,包括如下