本發(fā)明涉及電力風(fēng)險概率分類與預(yù)測領(lǐng)域,具體涉及基于特征選擇改進的LR-Bagging算法。
背景技術(shù):
我國電力體制的深化改革為電力行業(yè)引入了市場機制,在有效實現(xiàn)電力資源優(yōu)化配置,提高電力資源生產(chǎn)和傳輸?shù)男实耐瑫r,也帶給電力企業(yè)更大的市場風(fēng)險,而客戶欠費而產(chǎn)生的電費回收風(fēng)險一直是電力營銷中存在的重大風(fēng)險之一。電費作為電力企業(yè)實現(xiàn)資金回籠的有效方式,維系著電力系統(tǒng)供、產(chǎn)、銷的經(jīng)濟鏈條的正常運轉(zhuǎn),但拖欠電費的現(xiàn)象卻層出不窮??蛻羟焚M風(fēng)險的切實防范和規(guī)避對電力企業(yè)十分重要。
國內(nèi)學(xué)術(shù)界專業(yè)人士對于電力欠費問題的研究起步較晚,主要集中于對電費回收風(fēng)險的現(xiàn)狀、影響因素、評價、有效性措施等內(nèi)容的理論研究,缺乏以現(xiàn)實數(shù)據(jù)為基礎(chǔ)量化模型支撐;雖然也有許多文獻通過對電力客戶信用等級建模對其欠費風(fēng)險進行預(yù)測,但模型不夠直接;隨著大數(shù)據(jù)挖掘行業(yè)的蓬勃發(fā)展,近幾年出現(xiàn)了基于邏輯回歸、決策樹的數(shù)據(jù)挖掘算法的電力客戶欠費違約概率預(yù)測模型,但前者選取特征均為二分類變量,適用性較低,變量的個數(shù)也較少;后者選擇的模型變量雖較為多樣性,但模型的預(yù)測結(jié)果差強人意。而在實際應(yīng)用中,影響電力客戶的影響因素很多,如何借助電力客戶屬性數(shù)據(jù)和歷史行為特征數(shù)據(jù),盡可能挖掘每一個變量與欠費風(fēng)險的相關(guān)信息,建立一個更為準確、使用范圍更廣的客戶欠費風(fēng)險預(yù)測模型是十分重要的。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是:提出一種改進的LR-Bagging算法,通過特征選擇與循環(huán)迭代來提升變量信息的提取度與預(yù)測分類結(jié)果的準確性。
本發(fā)明所要解決的技術(shù)問題是根據(jù)眾多的影響因素,進行概率風(fēng)險群體的預(yù)測與分類。因此,本發(fā)明的基于特征選擇改進的LR-Bagging(即以LR為基分類器的Bagging集成學(xué)習(xí))方法的思路是,首先從原始數(shù)據(jù)中確定初始數(shù)據(jù)集,要求自變量與因變量的相關(guān)程度不能過低;其次,對初始數(shù)據(jù)集中的離散型自變量進行WEO編碼;然后利用隨機抽樣獲得一定數(shù)目的記錄和特征字段組成訓(xùn)練例,將訓(xùn)練例進行LR((Logistic Regression)模型訓(xùn)練并做系數(shù)的正態(tài)顯著性檢驗,若不顯著,則剔除,反之,加入組合模型。進行循環(huán)迭代,直到組合模型較優(yōu)。最后,則可以采用較優(yōu)組合模型做預(yù)測與分群。
具體的,本發(fā)明采用的技術(shù)方案是構(gòu)建一個基于特征選擇改進的LR-Bagging組合模型,利用該組合模型做預(yù)測與分類。因此,本發(fā)明的基于特征選擇改進的LR-Bagging(即以LR為基分類器的Bagging集成學(xué)習(xí))方法包括以下步驟:
步驟1:從原始數(shù)據(jù)中確定初始數(shù)據(jù)集,自變量與因變量的相關(guān)程度不能過低;
步驟2:對離散型自變量進行WEO編碼;
步驟3:基LR模型的訓(xùn)練與檢驗,集成組合模型;
步驟4:進行步驟三的循環(huán)迭代,直到組合模型較優(yōu);
步驟5:利用較優(yōu)組合模型的預(yù)測與分群。
其中,步驟1中初始數(shù)據(jù)集的確定,是需要自變量與因變量相關(guān)性的大小進行特征的初步篩選來提高循環(huán)過程獲得顯著LR分類器的效率,具體方式為:對于連續(xù)型自變量,采用非參數(shù)統(tǒng)計量spearman相關(guān)系數(shù),對于離散型變量,則采用卡方檢驗。表示第i個含有j個特征變量的自變量樣本,即S包含n個記錄p個特征字段。
其中,步驟2中對離散型自變量的WEO編碼的計算公式為:
其中,Pbi和Pgi分別表示離散變量取第i個類值時,二分類因變量中“壞”樣本占比和“好”樣本占比。
進一步的,步驟3中基LR模型的訓(xùn)練與檢驗,并集成組合模型的過程包含以下四個步驟:
(1)利用隨機抽樣獲得一定數(shù)目的記錄和特征字段組成訓(xùn)練例
(2)基于極大似然法采用訓(xùn)練例進行LR模型訓(xùn)練;
(3)模型系數(shù)的正態(tài)顯著性檢驗,若不顯著,則剔除,反之,加入組合模型;
(4)組合模型是每一個顯著的LR模型相同權(quán)重的線性相加,即若假設(shè)h1,h2,……,ht為t個顯著的LR模型,有:
更進一步的,步驟4中較優(yōu)組合模型的確定是根據(jù)AUC統(tǒng)計量的變化程度來決定的,即對比加入新的顯著的LR模型的組合模型與未加入時的組合模型的分類評價標準——AUC變化比率,即當滿足:
時,認為組合模型t較優(yōu),而組合模型t的AUCt為預(yù)測初始數(shù)據(jù)集S分類結(jié)果的ROC曲線的面積。
本發(fā)明具有如下有益效果:
本發(fā)明的算法可提升分類結(jié)果的多樣性,變量信息的提取度與預(yù)測結(jié)果的準確率,也能有效減少基LR模型由于變量過多而導(dǎo)致多重共線與“過擬合”的可能性,為較多影響因素的風(fēng)險概率預(yù)測與分群提供一種技術(shù)手段。
附圖說明
圖1是本發(fā)明的方法步驟示意圖;
圖2是基于特征選擇改進的LR-Bagging算法流程圖;
圖3是本發(fā)明模型與傳統(tǒng)單一逐步邏輯回歸的ROC曲線比較圖;
圖4是本發(fā)明模型與傳統(tǒng)單一逐步邏輯回歸的提升度曲線比較圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。
如圖1所示,本發(fā)明的技術(shù)方案,首先從原始數(shù)據(jù)中確定初始數(shù)據(jù)集(步驟1),其次,對初始數(shù)據(jù)集中的離散型自變量進行WEO編碼(步驟2),然后利用隨機抽樣獲得一定數(shù)目的記錄和特征字段組成訓(xùn)練例(步驟3),將訓(xùn)練例進行LR((Logistic Regression)模型訓(xùn)練并做系數(shù)的正態(tài)顯著性檢驗,若不顯著,則剔除,反之,加入組合模型(步驟4)。進行循環(huán)迭代,直到組合模型較優(yōu)(步驟5)。最后,則可以采用較優(yōu)組合模型做預(yù)測與分群(步驟6)。
實施例1:
本實施例為基于本說明改進算法對貴陽電力欠費高風(fēng)險居民客戶做出預(yù)測,結(jié)合圖2的模型建立與求解過程,具體步驟如下:
步驟1:從原始數(shù)據(jù)中確定初始數(shù)據(jù)集,自變量與因變量的相關(guān)程度不能過低;
步驟2:對離散型自變量進行WEO編碼;
步驟3:基LR模型的訓(xùn)練與檢驗,集成組合模型;
步驟4:進行步驟三的循環(huán)迭代,直到組合模型較優(yōu);
步驟5:利用較優(yōu)組合模型的預(yù)測與評價。
其中,步驟1具體說明如下:
本發(fā)明涉及的應(yīng)用數(shù)據(jù)來源于2015年8月至2015年9月廣州省貴陽市電網(wǎng)居民客戶欠費數(shù)據(jù),共包含包括客戶性別、年齡、合同容量等基本屬性與欠費金額、欠費時長等歷史行為屬性在內(nèi)的30多個變量2000000多萬條數(shù)據(jù)。本過程在對原始數(shù)據(jù)的探索分析的基礎(chǔ)上,發(fā)現(xiàn)與分析目標無關(guān)或模型需要處理的數(shù)據(jù),并針對此類數(shù)據(jù)進行數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)變換等處理;同時初步篩選出與電力客戶欠費風(fēng)險相關(guān)程度的較高的變量集合,最終得到完整的,無噪音的,適合改進算法的初始樣本集。整個子過程可以表述為:
S1.1:數(shù)據(jù)預(yù)處理。對于含有NA值的記錄,由于所占的樣本比例不及整體數(shù)據(jù)的0.01%,不影響整體數(shù)據(jù)規(guī)模,可直接刪除;對于噪聲數(shù)據(jù),采用3倍標準差進行檢測,即當滿足|xi-u|≥3σ時,認為xi在變量x中是異常的。由于數(shù)量較少,也采取直接刪除處理的方式。
S1.2:無關(guān)變量處理,例如,家庭住址,電話號碼等信息,直接刪除。
S1.3:特征變量的初步篩選,是根據(jù)其與因變量“是否為欠費風(fēng)險客戶”的相關(guān)程度展開的,對于連續(xù)型自變量,采用非參數(shù)統(tǒng)計量spearman相關(guān)系數(shù),保留其值大于0.5的變量;對于離散型變量,則采用卡方檢驗,在顯著性水平為0.05的條件下,保留通過變量。
S1.4:隨機抽取1%的記錄與S1.3中初步篩選的變量組成初始數(shù)據(jù)集
步驟2具體說明如下:
對離散型自變量做WEO編碼,主要是為了克服邏輯回歸模型對分類變量的解釋能力較差的缺點;且相對于啞變量的處理方法,本步驟也解決了特征選擇過程中啞變量被部分剔除而無法保證其自身完整性的問題。若WEOi表示離散變量的第i個類值的證據(jù)權(quán)重,則有:
其中,Pbi和Pgi分別表示離散變量取第i個類值時,風(fēng)險樣本占比和非風(fēng)險樣本的占比。例如,變量“城鄉(xiāng)標志”有如下取值:
則變量“城鄉(xiāng)標志”為1時,有:
將WEOi代替初始數(shù)據(jù)集中該離散變量的第i個類值,用于建模。
步驟3具體說明如下:
步驟2為基LR模型的訓(xùn)練過程,其子步驟可以表述為:
S2.1:從初始數(shù)據(jù)集中隨機抽取包含m條記錄k個特征字段的訓(xùn)練例
S2.2:利用訓(xùn)練例訓(xùn)練LR模型;
S2.3:模型系數(shù)的顯著性檢驗,采用標準正態(tài)分布統(tǒng)計量:
其中為的漸進標準差,任意不通過0.05的顯著水平,則直接刪除該模型。
S2.4:重復(fù)上述過程,通過權(quán)重相同的加權(quán)平均得到顯著模型組合,即若假設(shè)h1,h2,……,ht為t個顯著的LR模型,則組合模型H為每一個基LR分類器的線性相加,有:
步驟4具體說明如下:
較優(yōu)組合模型的確定是根據(jù)AUC統(tǒng)計量的變化程度來決定的,即對比加入新的顯著的LR模型的組合模型與未加入時的組合模型的分類評價標準——AUC變化比率,即當滿足:
時,認為組合模型t較優(yōu),而組合模型t的AUCt為預(yù)測初始數(shù)據(jù)集S分類結(jié)果的ROC曲線的面積。
步驟5具體說明如下:
利用步驟三與步驟四過程得到的較優(yōu)組合模型對初始數(shù)據(jù)集S做欠費風(fēng)險預(yù)測,并從利用ROC曲線與提升度曲線衡量模型的分類效果的準確性與有效性,驗證改進算法的優(yōu)越性。
ROC曲線是衡量一個分類模型分類效果高低的標準,一般情況下,ROC曲線包含的面積越大,準確性越高;提升度是指對問題(客戶識別等)判斷效率的提升幅度。在本算法中,設(shè)Ri-1,i為預(yù)測的概率風(fēng)險在前百分之i-1到前百分之i的居民客戶中“壞客戶”的提升度,則Ri-1,i的計算公式為:
r為全量居民樣本中風(fēng)險客戶的原始比例,ni-1,i和Ni-1,i分別表示概率風(fēng)險在前百分之i-1到前百分之i的居民客戶記錄總數(shù)與風(fēng)險客戶的個數(shù)。本發(fā)明施行方案的具體結(jié)果如下圖3,圖4,表1所示。
表1算法提升度比較
圖3,圖4中本發(fā)明算法所代表的ROC曲線與提升度曲線均為列單一逐步LR算法的上方,證明了其準確定與有效性較優(yōu)。
綜合以上分析,本發(fā)明中基于LR分類器的Bagging算法得到的組合模型,一方面,能預(yù)測出具體的概率值,最終分類結(jié)果能更為多樣化,另一方面循環(huán)迭代過程也提高了變量信息的提取度與預(yù)測結(jié)果的準確率。同時,特征選擇這一改進,不僅能有效減少每個基LR模型由于變量過多而導(dǎo)致多重共線與“過擬合”的可能性,保障了每一個基分類器的有效性,也提高了基分類器的多樣性。模型的提升度和準確性優(yōu)于單一的LR模型。
當然,以上只是本發(fā)明的具體應(yīng)用范例,本發(fā)明還有其他的實施方式,凡采用等同替換或等效變換形成的技術(shù)方案,均落在本發(fā)明所要求的保護范圍之內(nèi)。