步驟S3-3,從MISortList中取出最小互信息MI_,將其從MISortList中刪除,并 從D中刪除MI_所對應的非信用表現(xiàn)屬性隨機變量及其數(shù)據(jù)。
[0061 ] 步驟S3-4,基于D中剩余的客戶數(shù)據(jù)使用爬山算法來構建一個貝葉斯網絡BNlb,并 計算其貝葉斯信息準則值BIC (BNlb)。
[0062] 步驟S3-5,若比值BIC(BNlb)/BIC(BNla)小于閾值s,則令BN la= BNlb,并返回步驟 S3-3進行重復處理;否則,將當前貝葉斯網絡BNla作為初始貝葉斯網絡輸出。
[0063] 步驟S4,從初始貝葉斯網絡中抽取客戶信用表現(xiàn)屬性結點的馬爾科夫毯,并對其 結構進行必要調整,得到最終貝葉斯網絡作為客戶信用評分模型的網絡結構,具體包括:
[0064] 步驟S4-1,從初始貝葉斯網絡中抽取客戶信用表現(xiàn)屬性結點的馬爾科夫毯作為中 間貝葉斯網絡,具體如下:
[0065] 如圖3所示,矩形框中是一個初始貝葉斯網絡,該網絡中客戶信用表現(xiàn)屬性結點 X的馬爾科夫毯(Markov blanket)是如下所有結點所構成的子網絡(即圖中虛線圓中部 分):結點X ;X的父結點和子結點;X的子結點的其他父結點。
[0066] 步驟S4-2,對中間貝葉斯網絡使用基于互信息的貝葉斯網絡結構調整算法進行必 要調整,得到最終貝葉斯網絡作為客戶信用評分模型的網絡結構,具體如下:
[0067] 如果中間貝葉斯網絡中客戶信用表現(xiàn)屬性結點的父結點個數(shù)較少,那么使用基于 互信息的貝葉斯網絡結構調整算法來增加客戶信用表現(xiàn)屬性結點的父結點,如圖4所示, 該算法由如下步驟S4-2-1至步驟S4-2-4所組成:
[0068] 步驟S4-2-1,輸入中間貝葉斯網絡BN2、客戶信用表現(xiàn)隨機變量與其他客戶數(shù)據(jù)屬 性隨機變量之間的互信息排序表MISortList、擬增加的客戶信用表現(xiàn)屬性結點的父結點數(shù) 量n〇
[0069] 步驟S4-2-2,從MISortList中取出最大互信息MIniax,并將其從MISortList中刪 除。
[0070] 步驟S4-2-3,判斷MIniax所對應的非信用表現(xiàn)屬性結點是否已在ΒΝ 2ψ :若是,則返 回步驟S4-2-2進行重復處理;否則,在BN2中創(chuàng)建MI _所對應的非信用表現(xiàn)屬性結點,并 添加從該結點到客戶信用表現(xiàn)屬性結點的有向邊,且η值減1。
[0071] 步驟S4-2-4,判斷η值是否大于0 :若是,則返回步驟S4-2-2進行重復處理;否則, 即η值等于0,將當前貝葉斯網絡BN2作為最終貝葉斯網絡輸出,該貝葉斯網絡就是客戶信 用評分模型的網絡結構。
[0072] 步驟S5,使用最大似然估計對客戶信用評分模型的網絡結構進行參數(shù)學習,得到 客戶信用評分模型的參數(shù),具體如下:
[0073] 針對已獲得的客戶信用評分模型的網絡結構(即最終貝葉斯網絡),基于相應的 客戶數(shù)據(jù)(即:該貝葉斯網絡中全部隨機變量所表示的所有客戶數(shù)據(jù)屬性及其值),使用最 大似然估計(maximum-likelihood estimation)進行參數(shù)學習,得到該網絡結構(即最終 貝葉斯網絡)的條件概率表(conditional probability table)。至此,形成了一個完整的 客戶信用評分模型(包括它的網絡結構和參數(shù)),可用來預測客戶的未來信用表現(xiàn)。
[0074] 步驟S6,使用所得的客戶信用評分模型來預測客戶的未來信用表現(xiàn),具體如下:
[0075] 將預測客戶數(shù)據(jù)集中所有客戶數(shù)據(jù)屬性值(不包括客戶的未來信用表現(xiàn)屬性數(shù) 據(jù))輸入到客戶信用評分模型中,使用該模型來計算出客戶未來信用表現(xiàn)隨機變量的概率 值(概率值越高,表明客戶的信用級別越低)。
[0076] 在實際應用中,可根據(jù)金融機構的金融安全(即市場活動風險)特定需求來設置 特定的概率值區(qū)間,以評估客戶的信用。例如,如果某客戶的概率值屬于區(qū)間[0. 5, 1],那么 可認為該客戶的未來信用表現(xiàn)不佳;如果某客戶的概率值屬于區(qū)間[0, 0. 5),那么可認為 該客戶的未來信用表現(xiàn)較佳,等等。
[0077] 下面以一個具體實施例來進一步說明本發(fā)明技術方案的【具體實施方式】,并給出本 發(fā)明技術方案與其他典型的客戶信用評分方法(決策樹方法、神經網絡方法、初始貝葉斯 網絡方法)的性能(預測準確性與精度)比較結果。
[0078] 在以下具體實施例中,客戶數(shù)據(jù)及客戶未來信用表現(xiàn)結果數(shù)據(jù)均取自于kaggle 網站(網址:https://www. kaggle.com/)中 Give Me Some Credit 數(shù)據(jù)集 cs-training. csv(網址:https://www. kaggle. com/c/GiveMeSomeCredit/data)。該數(shù)據(jù)集是 2011 年 9 月19日-12月15日期間用于客戶信用評分國際競賽的基準(benchmark)數(shù)據(jù)集。該數(shù) 據(jù)集中共包含了 150, 000個客戶數(shù)據(jù)(實證屬性和客戶信用屬性數(shù)據(jù)),其中的全部11個 客戶數(shù)據(jù)屬性(用離散型隨機變量來表示)及其含義見表1。表中,隨機變量Yl - Y7表示 的是客戶的7個實證屬性,Y8 - YlO表示的是客戶的信用歷史屬性;而X用來表示客戶的未 來信用表現(xiàn)。
[0079] 表1具體實施例中的隨機變量符號、客戶數(shù)據(jù)屬性及其含義清單
[0080]
[0082] 我們將以上150, 000個客戶數(shù)據(jù)分成兩個部分:前125, 000個客戶數(shù)據(jù)(X和Yl - YlO的屬性值)作為訓練樣本用于學習出一個客戶信用評分模型(即最終貝葉斯網絡);后 25, 000個客戶數(shù)據(jù)(其中的Yl - YlO的屬性值)作為預測客戶數(shù)據(jù)集(即客戶信用評分模 型的輸入)用于預測客戶的未來信用表現(xiàn)(即X屬性的預測值),并將其與客戶數(shù)據(jù)集中的 真實X屬性值進行比較,以便評價客戶信用評分方法的實際效果(性能)。在下文的描述 中,為行文簡潔起見,不再特別說明"客戶數(shù)據(jù)"是訓練樣本還是預測客戶數(shù)據(jù)集,讀者根據(jù) 上下文很容易區(qū)分它們。
[0083] 本發(fā)明技術方案已用R語言進行實現(xiàn)。針對這個具體實施例,本發(fā)明技術方案的
【具體實施方式】如下:
[0084] 如圖1所示,一種基于貝葉斯網絡和互信息的客戶信用評分方法,包括如下步驟:
[0085] 步驟Sl,客戶數(shù)據(jù)預處理,并用離散型隨機變量來描述全部客戶數(shù)據(jù)屬性,具體包 括:
[0086] 步驟S1-1,客戶數(shù)據(jù)清洗,具體如下:
[0087] 對客戶數(shù)據(jù)進行必要的數(shù)據(jù)清洗(data cleansing),包括:殘缺數(shù)據(jù)的補齊,無效 數(shù)據(jù)的刪除,錯誤數(shù)據(jù)的糾正,不一致數(shù)據(jù)(如:單位不一致的量)的統(tǒng)一,等。
[0088] 本具體實施例中,由于該客戶數(shù)據(jù)集是國際競賽的基準數(shù)據(jù)集,其中的客戶數(shù)據(jù) 已完成了清洗,本步驟不需做處理。
[0089] 步驟S1-2,客戶數(shù)據(jù)中連續(xù)值的離散化,具體如下:
[0090] 采用等頻分箱法(equal-frequency binning)對客戶數(shù)據(jù)中所有連續(xù)值進行離散 化。
[0091] 本具體實施例中,分別對Y3表示的DebtRatio屬性值和Y5表示的RevolvingUti IizationOfUnsecuredLines 屬性值進行離散化。
[0092] 步驟S1-3,用離散型隨機變量來描述全部客戶數(shù)據(jù)屬性,具體如下:
[0093] 對其值已清洗的、離散化的每個客戶數(shù)據(jù)屬性,分別用一個離散型隨機變量來描 述。
[0094] 本具體實施例中,如表1所示,對該客戶數(shù)據(jù)集中的全部11個客戶數(shù)據(jù)屬性用離 散型隨機變量X和Yl - YlO來表示。
[0095] 步驟S2,計算客戶信用表現(xiàn)隨機變量與其他客戶數(shù)據(jù)屬性隨機變量之間的互信 息,并對互信息進行排序,具體包括:
[0096] 步驟S2-1,計算客戶信用表現(xiàn)隨機變量與其他客戶數(shù)據(jù)屬性隨機變量之間的互信 息,具體如下:
[0097] 本具體實施例中,計算客戶信用表現(xiàn)隨機變量X與其他客戶數(shù)據(jù)屬性隨機變量 Yl - YlO 之間的互信息 MI (X ;Y1),MI (X ;Y2),· · ·,MI (X ;Y10)。
[0098] 步驟S2-2,對客戶信用表現(xiàn)隨機變量與其他客戶數(shù)據(jù)屬性隨機變量之間的互信息 進行排序,形成互信息排序表。
[0099] 本具體實施例中,所產生的客戶信用表現(xiàn)隨機變量與其他客戶數(shù)據(jù)屬性隨機變量 之間的互信息排序表MISortList見表2。
[0100] 表2互信息排序表MISortList
[0101]
[0102] 步驟S3,使用基于互信息的貝葉斯網絡創(chuàng)建算法來構建一個初始貝葉斯網絡,具 體如下:
[0103] 如圖2所示,基于互信息的貝葉斯網絡創(chuàng)建算法由如下步驟S3-1至步驟S3-5所 組成:
[0104] 步驟S3-1,輸入預處理過的客戶數(shù)據(jù)集D、閾值s (本具體實施例中,s = 0. 9)、客 戶信用表現(xiàn)隨機變量與其他客戶數(shù)據(jù)屬性隨機變量之間的互信息排序表MISortList。
[0105] 步驟S3-2,基于客戶數(shù)據(jù)集D使用爬山(hill climbing)算法來構建一個貝葉斯 網絡 BNla,并計算其貝葉斯信息準則(Bayesian information criterion)值 BIC (BNla)。
[0106] 步驟S3-3,從MISortList中取出最小互信息MI_,將其從MISortList中刪除,并 從D中刪除MI_所對應的非信用表現(xiàn)屬性隨機變量及其數(shù)據(jù)。
[0107] 步驟S3-4,基于D中剩余的客戶數(shù)據(jù)使用爬山算法來構建一個貝葉斯網絡BNlb,并 計算其貝葉斯信息準則值BIC (BNlb)。
[0108] 步驟S3-5,若比值BIC(BNlb)/BIC(BNla)小于閾值s,則令BN la= BNlb,并返回步驟 S3-3進行重復處理;否則,將當前貝葉斯網絡BNla作為初始貝葉斯網絡輸出。
[0109] 本具體實施例中,第1次計算出的比值BIC(BNlb)/BIC(BNla