本發(fā)明涉及信用評估領(lǐng)域,特別涉及一種基于多源異構(gòu)數(shù)據(jù)的用戶信用評估模型。
背景技術(shù):
用戶信用評估是指信用評估機構(gòu)使用專家判斷或數(shù)學(xué)分析方法,對個人和企業(yè)履約各種承諾能力和信譽程度進行全面評價,并用簡單明了的符號或文字表達出來,以滿足社會需要的市場行為。信用評估現(xiàn)已廣泛應(yīng)用于金融領(lǐng)域。傳統(tǒng)的金融機構(gòu)評估信用依賴于對用戶在該機構(gòu)的用戶財務(wù)記錄以及行為記錄。隨著大數(shù)據(jù)的深入發(fā)展,傳統(tǒng)的信用評估所利用的數(shù)據(jù)局限性也面臨著更新替代。
隨著互聯(lián)網(wǎng)的深度發(fā)展,用戶的各種行為記錄每天都在網(wǎng)絡(luò)中產(chǎn)生。這些數(shù)據(jù)是用戶真實行為的表現(xiàn),當然也是用戶信用評估的重要數(shù)據(jù)。如何利用用戶多源異構(gòu)的數(shù)據(jù)進行用戶信用評估成為新的趨勢。我們提出深度利用以下幾個維度的數(shù)據(jù)進行用戶信用評估:
1)基礎(chǔ)信息:用戶年齡、籍貫、目前工作地址等人口統(tǒng)計基本信息;
2)網(wǎng)絡(luò)行為信息:指的是用戶瀏覽網(wǎng)頁、瀏覽網(wǎng)頁使用的工具、瀏覽分布與時長等信息;
3)學(xué)籍學(xué)歷信息:用戶教育狀況信息;
4)社交網(wǎng)絡(luò)信息:用戶在公共社交網(wǎng)絡(luò),如微博,知乎等行為與社交信息;
5)第三方支付信息:用戶在第三方支付平臺的消費記錄信息。
6)網(wǎng)上調(diào)查問卷信息:調(diào)查問卷征收征信相關(guān)信息與基本信息。
以上的6個維度的基本數(shù)據(jù)全部來自于互聯(lián)網(wǎng),這與傳統(tǒng)的信用評估數(shù)據(jù)有明顯的差別?;ヂ?lián)網(wǎng)用戶的數(shù)據(jù)維度達到上千維,并且這些數(shù)據(jù)來源不同,能從各個方面評估用戶信用,更多維度的數(shù)據(jù)可以更加全面地描述一個用戶的信用狀況;
但是,數(shù)據(jù)維度從幾十維度上升為成千上萬維,同時也給模型的構(gòu)造帶來挑戰(zhàn)。模型面臨的挑戰(zhàn)可以概括為:
1.數(shù)據(jù)高維度問題。傳統(tǒng)的信用評估模型因為是在幾十維的特征上建立的模型,模型訓(xùn)練的時間較短,所以沒有過多的考慮數(shù)據(jù)維度的問題。而目前依賴互聯(lián)網(wǎng)信息來評估用戶信息,考慮的用戶信息不僅僅是用戶交易相關(guān)的信息,還有用戶社交網(wǎng)絡(luò)、行為偏好等維度信息,數(shù)據(jù)的維度可達到上千維,如此高維的數(shù)據(jù),需要一個良好的特征選擇方式在不降低模型評估效果的情況下減少特征維度,讓模型的訓(xùn)練速度和實效性更加強;
2.數(shù)據(jù)缺失值與異常值的問題。由于考慮的用戶維度很多,所以用戶不可能在每個維度上都有值存在,很多情況下用戶的數(shù)據(jù)缺失值較多,而且由于一些數(shù)據(jù)是通過隱性的方式獲得的,所以數(shù)據(jù)在收集或傳輸過程中不能保證完全正確,數(shù)據(jù)也伴隨著一些異常值存在。目前的模型也很少詳細針對這個問題去提出具體的解決方案;但缺失值與異常值的處理對模型評估的效果提升具體重要的意義。
技術(shù)實現(xiàn)要素:
本發(fā)明為解決上述問題,提出了一種基于多源異構(gòu)數(shù)據(jù)的用戶信用評估模型,其包括以下步驟:
(1)多源異構(gòu)數(shù)據(jù)的獲取及合并;
(2)用戶特征的處理;
(3)模型的訓(xùn)練。
進一步的,所述多源異構(gòu)數(shù)據(jù)的獲取包括:
采用爬蟲技術(shù),爬取網(wǎng)頁中與用戶相關(guān)的信息;
用戶自提供,用戶獲得征信報告的前提是提供適量的個人基本信息;
用戶授權(quán)第三方機構(gòu)的數(shù)據(jù)的接入。
進一步的,所述多源異構(gòu)數(shù)據(jù)的合并:
對用戶授權(quán)信息與用戶提供數(shù)據(jù)進行郵箱號、手機號、身份證ID的任一匹配;
對網(wǎng)上爬取信息進行郵箱號、用戶名、用戶授權(quán)合并。
進一步的,用戶特征的處理包括缺失值異常性特征處理、類別特征離散編碼、時序特征深度挖掘、獲取統(tǒng)計性特征。
進一步的,所述模型的訓(xùn)練包括線性模型訓(xùn)練、決策樹模型訓(xùn)練。
進一步的,所述多源異構(gòu)數(shù)據(jù)包括用戶的基本信息、學(xué)業(yè)信息、支付信息、社交網(wǎng)絡(luò)信息、操作信息、網(wǎng)絡(luò)行為信息。
進一步的,所述缺失值異常性特征處理具體包括:
a.缺失率在20%以下的進行特征填充,對于數(shù)值型特征,填充均值,對于類別型特征填充眾數(shù);
b.缺失率在97%以上進行丟棄處理和離散編碼轉(zhuǎn)換,丟棄處理是去掉缺失占有率超過97%的特征,而缺失率很多的情況下,對這些特征進行離散編碼;
c.缺失值統(tǒng)計矩陣:將用戶特征矩陣,缺失的置為1,不缺失的置為0。
進一步的,所述類別特征離散編碼具體包括:將一個可能的取值有N種情況的特征,將其編碼為N個二元特征,這些特征互斥,每次都只有一個激活,使數(shù)據(jù)變得稀疏。
進一步的,所述時序特征深度挖掘具體包括:
1、對相鄰時期進行相減處理,表示不同時期或間段的差值變換;
2、對相鄰時期相除處理,表示不同時期或間段的環(huán)比/斜率變換;
3、進行累積處理,表示和值變化;
進一步的,所述獲取統(tǒng)計性特征具體包括:統(tǒng)計用戶信息的缺失率,用戶是否為大額交易記錄用戶,用戶活躍時間統(tǒng)計,用戶地點變動率,統(tǒng)計方法包括全局統(tǒng)計或分箱統(tǒng)計。
進一步的,所述線性模型訓(xùn)練包括LASSO、Liblinear、Linear-SVM;決策樹模型訓(xùn)練包括Boosting、XGBoost。
本發(fā)明的有益效果是:本發(fā)明提出的模型框架在下面特征擴展與選擇中,先對用戶的數(shù)據(jù)維度進行擴展,然后再對有用的特征進行選擇,從而減低特征的維度,減低模型的時間復(fù)雜性;同時在特征處理中對數(shù)據(jù)缺失與異常的情況進行處理,提供模型對缺失值的魯棒性。
附圖說明
圖1為一種基于多源異構(gòu)數(shù)據(jù)的用戶信用評估圖;
圖2為缺失值統(tǒng)計矩陣圖;
圖3為地址型特征構(gòu)造方式圖;
圖4為相除方式映射圖。
具體實施方式
以下對本發(fā)明進行詳細的說明:
基于多源異構(gòu)數(shù)據(jù)的用戶信用評估包含如圖1所示三大步驟:
(1)多源異構(gòu)數(shù)據(jù)的獲取及合并;
(2)用戶特征的處理;
(3)模型的訓(xùn)練。
其中:
(1)數(shù)據(jù)基礎(chǔ)層
數(shù)據(jù)基礎(chǔ)層包含有網(wǎng)絡(luò)環(huán)境下用戶的基本信息、學(xué)業(yè)信息、支付信息、社交網(wǎng)絡(luò)信息、操作信息、網(wǎng)絡(luò)行為信息等等。這些信息都來自于不同的數(shù)據(jù)源,能夠有效表達用戶各個方面的信息。這也是使得模型能夠更加準確把握用戶信用狀況的關(guān)鍵。這些信息通過用戶ID、身份證ID、郵箱號及手機號中的任一信息連接。將多源數(shù)據(jù)連接至用戶,為下一步用戶多維度信用的評估做數(shù)據(jù)準備。
具體的,其中多源異構(gòu)數(shù)據(jù)的獲?。?/p>
1)爬蟲技術(shù),爬取網(wǎng)頁中與用戶相關(guān)的信息。
2)用戶自提供,用戶獲得征信報告的前提是提供適量的個人基本信息。
3)用戶授權(quán)第三方機構(gòu)的數(shù)據(jù)的接入。
多源異構(gòu)數(shù)據(jù)的合并:
1)對用戶授權(quán)信息與用戶提供數(shù)據(jù)進行郵箱號、手機號、身份證ID的任一匹配。
2)對網(wǎng)上爬取信息進行郵箱號、用戶名、IP(用戶授權(quán))合并。
(2)數(shù)據(jù)處理層
數(shù)據(jù)處理層包含有多種數(shù)據(jù)的處理方式??偨Y(jié)來說就是在雜亂、無序的數(shù)據(jù)中找到有序、結(jié)構(gòu)化的特征。從而更加明確的表述用戶的信息。這一層的工作包含有:
1.缺失值異常性特征處理
多源數(shù)據(jù)的合并必會引起大量缺失數(shù)據(jù)。造成缺失的原因有很多,比如說,用戶沒有某個銀行的支付記錄,或者沒有收集到該用戶的基本信息,甚至是某些用戶填寫時就沒有寫某些信息。對于不同的缺失狀況,應(yīng)進行不同形式的數(shù)據(jù)預(yù)處理。
缺失值出現(xiàn)的形式如數(shù)值型特征中的“-1”,或者類別型特征中的空字符串,“NULL”等。我們可以對不同缺失率的特征進行處理:
a.缺失率在0.2以下的進行特征填充,對于數(shù)值型特征,填充均值。對于類別型特征填充眾數(shù)。這樣的填充比例和填充方式在試驗中得到最優(yōu)效果;
b.缺失率在97%以上進行丟棄處理和離散編碼轉(zhuǎn)換。丟棄處理是去掉缺失占有率超過97%的特征。而缺失率很多的情況下,該特征更傾向于離散化,我們也對這些特征進行了離散編碼。
c.缺失值統(tǒng)計矩陣:如圖2表述將用戶特征矩陣,缺失的置為1,不缺失的置為0。做這方面的特征是因為我們認為缺失值也是一種信息。
2.類別特征離散編碼
離散編碼的主要操作是將一個可能的取值有N種情況的特征,將其編碼為N個二元特征,這些特征互斥,每次都只有一個激活,這樣會使數(shù)據(jù)變得稀疏。這樣編碼的好處是對于樹模型對特征的識別能力更加強,同時也起到擴充特征的作用。在特征構(gòu)建過程中,我們將類別型的數(shù)據(jù)(除去地址)特征和數(shù)值型特征中取值不超過12個值的特征進行離散編碼。除去地址的原因是如果將地址直接編碼,得到的特征維度會過大,增加模型的復(fù)雜度卻沒有得到很好的提升。地址的特征將如圖3進行更加細致的變換。
3.時序特征深度挖掘
收集到的數(shù)據(jù)會有明顯的與時間有關(guān)的數(shù)據(jù)。比如說,一個人的支付記錄中有不同時期的交付信息、不同時期行為記錄的差異性。這些時序的趨勢特征能夠有效的把握一個人的信用趨勢狀況。所以,我們進行了對不同時期的特征進行更加細致的處理:
1、對相鄰時期進行相減處理,表示不同時期或間段的差值變換;
2、對相鄰時期相除處理,表示不同時期或間段的環(huán)比/斜率變換;
3、進行累積處理,表示和值變化;
其中,對于除法運算,由于一些列有缺失值(統(tǒng)一表述為-1),不能對該列特征直接除。我們采取以下方式對不能直接除的情況進行如圖4形式處理:
4.統(tǒng)計性特征
統(tǒng)計性特征能夠有效的把握全局的信息,比如說某個人的銀行存款是5萬,整體樣本如果都是幾千。那么這個人是算作相對富有。那么,如果整體樣本存款都是10萬,那么這個人算作相對貧窮。在沒有全局統(tǒng)計之前,這些信息我們是難以把握的。所以,統(tǒng)計型特征也是用戶評估的重要指標。
在上述特征構(gòu)造之外,我們提出了一些統(tǒng)計性特征,比如說統(tǒng)計用戶信息的缺失率,用戶是否為大額交易記錄用戶,用戶活躍時間統(tǒng)計,用戶地點變動率等等。都為定義用戶信用度有很大的貢獻。除了全局統(tǒng)計之外,還可以分箱統(tǒng)計。
(3)模型訓(xùn)練層
在模型訓(xùn)練的過程中我們綜合利用了線性模型和樹模型。這樣利用不同的模型對特征進行全方位的訓(xùn)練。從而更有效的利用特征進而得到更加準確的結(jié)果。模型訓(xùn)練層所用的模型有:
1.線性模型:
線性模型是一類統(tǒng)計模型的總稱,它包括了線性回歸模型、方差分析模型、協(xié)方差分析模型和線性混合效應(yīng)模型(或稱方差分量模型)等。許多生物、醫(yī)學(xué)、經(jīng)濟、管理、地質(zhì)、氣象、農(nóng)業(yè)、工業(yè)、工程技術(shù)等領(lǐng)域的現(xiàn)象都可以用線性模型來近似描述。因此線性模型成為了現(xiàn)代統(tǒng)計學(xué)中應(yīng)用最為廣泛的模型之一。
本發(fā)明采用的線性模型包括:
LASSO
線性改進算法,本質(zhì)也是線性分類器的一種,不過它集成了特征選擇以及正則化的功能;提高了統(tǒng)計模型的準確率和可解釋性。
Liblinear
算法的簡單和高效,在實際中應(yīng)用非常廣泛、快速、可以承載大數(shù)據(jù)量;可以有效處理離散化過的連續(xù)值數(shù)據(jù)、特征自我解釋性等;Liblinear是在數(shù)據(jù)的擬合度和模型解釋度都能兼顧,而且兼顧得比較好的算法。
Linear-SVM
它沒有使用kernel matrix,所以它比LIBSVM快速很多;如果訓(xùn)練集做了大量特征工程,維數(shù)很高,用linear-SVM更合適,同時也減少過擬合風(fēng)險。
2.決策樹模型:
決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風(fēng)險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學(xué)習(xí)中,決策樹是一個預(yù)測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。
我們利用了決策樹模型中的Boosting模型;該模型在訓(xùn)練目標函數(shù)的過程中對訓(xùn)練損失做了二階的泰勒展開,并在目標函數(shù)之外加入了正則項約束就能整體求最優(yōu)解;XGBoost還有速度快,可移植,少寫代碼,克容錯的優(yōu)點。
上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護范圍之內(nèi)。