對無序分類變量信息無損分組的方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種對無序分類變量信息無損分組的方法及裝置,包括步驟:在二值型目標(biāo)變量的監(jiān)督下,對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值;將所述證據(jù)權(quán)重值進行等深分組,劃分為M個區(qū)間,并將所述M個區(qū)間作為無序分類變量的分組。本發(fā)明中公開的對無序分類變量信息無損分組的方法及裝置,分組過程簡單易理解,運算速度快,能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力。
【專利說明】
對無序分類變量信息無損分組的方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及無序分類變量的分組領(lǐng)域,特別涉及一種對無序分類變量信息無損分 組的方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,帶來了各行業(yè)中數(shù)據(jù)量的爆發(fā)式增 長,在這些數(shù)據(jù)中,無序型的分類變量占有很大一部分,針對這些無序分類變量,需要有快 速有效的方法進行數(shù)據(jù)的預(yù)處理,從而快速的發(fā)現(xiàn)數(shù)據(jù)中的價值。
[0003] 目前對于數(shù)據(jù)預(yù)處理中的變量分組問題,絕大多數(shù)人研究的都是對連續(xù)型變量的 分組或者說分箱。對于無序型的分類變量怎么實現(xiàn)有效信息無損的分組,基本會采取兩種 處理方式:一種是通過經(jīng)驗去進行分組,這種方式效率極其低下,而且不能保證有效果;另 一種是不進行分組直接拿來使用,這種方式,對于無序分類變量的值分布很廣泛時,在后續(xù) 的建模等應(yīng)用時效果往往會很差。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的主要目的為提供一種對無序分類變量信息無損分組的方法及裝置,分組 過程簡單易理解,運算速度快,能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力。
[0005] 本發(fā)明提出一種對無序分類變量信息無損分組的方法,包括步驟:
[0006] 在二值型目標(biāo)變量的監(jiān)督下,對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重 值;
[0007] 將所述證據(jù)權(quán)重值進行等深分組,劃分為Μ個區(qū)間,并將所述Μ個區(qū)間作為無序分 類變量的分組。
[0008] 進一步地,所述計算證據(jù)權(quán)重值的計算公式為:
[0010] 其中,Ν*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,Ν1為全體無序分類 變量樣本中目標(biāo)變量為1的樣本數(shù)量,ii= tribute為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量, nim.ibute為某類別數(shù)目下目標(biāo)z變量為1的樣本數(shù)量,WOKtUute為i正據(jù)權(quán)重:i十算結(jié)果值。
[0011] 進一步地,所述將Μ個區(qū)間作為無序分類變量的分組的步驟之后還可以包括:
[0012] 計算分組后的無序分類變量對目標(biāo)變量的信息值。
[0013] 進一步地,所述計算分組后的無序分類變量對目標(biāo)變量的信息值的計算公式為:
[0015]其中,Ν*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,Ν 1為全體無序分類 變量樣本中目標(biāo)變量為1的樣本數(shù)量,n;;unbuu,為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量, nittribme為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量,W0Eattribute為分組·后每組·無序分類變量對· 應(yīng)的證據(jù)權(quán)重計算結(jié)果值,IV為信息值。
[0016] 本發(fā)明還提供了一種對無序分類變量信息無損分組的裝置,包括:
[0017] 證據(jù)權(quán)重計算單元,在二值型目標(biāo)變量的監(jiān)督下,對無序分類變量中每個類別的 值分別計算證據(jù)權(quán)重值;所述無序分類變量具有任意多個類別;
[0018] 等深分組單元,將所述證據(jù)權(quán)重值進行等深分組,劃分為Μ個區(qū)間,并將所述Μ個區(qū) 間作為無序分類變量的分組。
[0019] 進一步地,所述證據(jù)權(quán)重計算單元的計算公式為:
[0021]其中,#為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,Ν1為全體無序分類 變量樣本中目標(biāo)變量為1的樣本數(shù)量,n=ribute.為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量, 為某類別數(shù)目下目標(biāo)z變量為1的樣本數(shù)量,TOEattnbutdi正據(jù)權(quán)重:i十算結(jié)果值。
[0022] 進一步地,還包括:
[0023]信息值計算單元,計算分組后的無序分類變量對目標(biāo)變量的信息值。
[0024]進一步地,所述信息值計算單元的計算公式為:
[0026] 其中,N*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,N1為全體無序分類 變量樣本中目標(biāo)變量為1的樣本數(shù)量,n;; ttribute為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量, nLribUte為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量,W0Eattribute為分組·后每組·無序分類變量 對應(yīng)的證據(jù)權(quán)重計算結(jié)果值,IV為信息值。
[0027] 本發(fā)明中提出的對無序分類變量信息無損分組的方法及裝置,具有以下有益效 果:
[0028] 本發(fā)明中提出的對無序分類變量信息無損分組的方法及裝置,通過將無序分類變 量轉(zhuǎn)換為一一對應(yīng)的有大小區(qū)分的WOE值,再對WOE值進行區(qū)間的等深劃分,并將劃分結(jié)果 作為該無序分類變量的最終分組結(jié)果。本發(fā)明中的方法及裝置可以適用于各行業(yè)中對無序 分類變量的分組,分組過程簡單易理解,運算速度快,而且能夠很好的保留無序分類變量對 目標(biāo)變量的區(qū)分能力,實現(xiàn)信息無損分組。通過計算分組后的每組無序分類變量對目標(biāo)變 量的信息值,對本發(fā)明中分組結(jié)果進行效果驗證。
【附圖說明】
[0029] 圖1是本發(fā)明一實施例中對無序分類變量信息無損分組的方法示意圖;
[0030]圖2是本發(fā)明另一實施例中對無序分類變量信息無損分組的方法示意圖;
[0031] 圖3是本發(fā)明一實施例中對無序分類變量信息無損分組的裝置結(jié)構(gòu)示意圖;
[0032] 圖4是本發(fā)明另一實施例中對無序分類變量信息無損分組的裝置結(jié)構(gòu)示意圖。
[0033] 本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
【具體實施方式】
[0034] 應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0035] 參照圖1,為本發(fā)明一實施例中對無序分類變量信息無損分組的方法步驟示意 圖。
[0036] 本發(fā)明一實施例中提出一種對無序分類變量信息無損分組的方法,包括:
[0037] 步驟S1,在二值型目標(biāo)變量的監(jiān)督下,對無序分類變量中每個類別的值分別計算 證據(jù)權(quán)重值;
[0038]步驟S2,將上述證據(jù)權(quán)重值進行等深分組,劃分為Μ個區(qū)間,并將上述Μ個區(qū)間作為 無序分類變量的分組。
[0039]目前,對于無序型分類變量實現(xiàn)有效信息無損的分組,基本會采取兩種處理方式: 一種是通過經(jīng)驗去進行分組,這種方式效率極其低下,而且不能保證有效果;另一種是不進 行分組直接拿來使用,這種方式,對于無序分類變量的值分布很廣泛時,在后續(xù)的建模等應(yīng) 用時效果往往會很差。在本實施例中,通過將無序分類變量轉(zhuǎn)換為一一對應(yīng)的有大小區(qū)分 的 W0E值,再對W0E值進行區(qū)間的等深劃分,并將劃分結(jié)果作為該無序分類變量的最終分組 結(jié)果。本實施例中的方法可以適用于各行業(yè)中對無序分類變量的分組,分組過程簡單易理 解,運算速度快,而且能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力,實現(xiàn)信息無損 分組。
[0040] 進一步地,上述步驟S1中,計算證據(jù)權(quán)重值的計算公式為:
[0042] 其中,N*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,N1為全體無序分類 變量樣本中目標(biāo)變量為1的樣本數(shù)量,i^ ttHbute為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量, nittnbute為某類別數(shù)目下目標(biāo)z變量為1的樣本數(shù)量,正據(jù)權(quán)重計算:結(jié)果值。
[0043] 進一步地,參照圖2,上述將Μ個區(qū)間作為無序分類變量的分組的步驟之后還可以 包括:
[0044] 步驟S3,計算分組后的無序分類變量對目標(biāo)變量的信息值。
[0045] 為了驗證上一實施例中對無序分類變量信息無損分組的方法的效果,在本實施例 中通過計算分組后的無序分類變量對目標(biāo)變量的信息值,對分組進行效果驗證。本實施例 中的效果驗證,可采用實驗的方式進行對比驗證。對照組采用不對無序分類變量進行分組 或按照業(yè)務(wù)經(jīng)驗等方式進行分組,按照業(yè)務(wù)經(jīng)驗進行分組往往會需要大量的時間進行人工 分組;實驗組采用上一實施例中的方案進行分組。對比實驗組和對照組對目標(biāo)變量的信息 值貢獻,即可進行效果驗證。信息值是衡量一個變量對目標(biāo)變量區(qū)分能力的大小,在正常 情況下無序分類變量分組后對目標(biāo)變量的信息值越大,效果越好。
[0046]進一步地,上述計算分組后的無序分類變量對目標(biāo)變量的信息值的計算公式為:
[0048] 其中,N*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,N1為全體無序分類 變量樣本中目標(biāo)變量為1的樣本數(shù)量,n= rtnbute為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量, 為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量,W0Eattribute為分組后每組無序分類變量 對應(yīng)的證據(jù)權(quán)重計算結(jié)果值,IV為信息值。
[0049] 在一具體實施例中,通過對某一真實的數(shù)據(jù)集來進行驗證,數(shù)據(jù)條數(shù)為9650452 條,目標(biāo)變量為二值型,設(shè)為Y,取值為〇、1,其對應(yīng)的數(shù)量分別為9468561和181891,無序分 類變量(X)的類別對應(yīng)為211個國家和地區(qū),設(shè)為K。其中,Ke{ x|x彡l〇〇,x為整數(shù)}。
[0050] 采用上述分組方法對無序分類變量的處理流程如下:
[0051] 1.對無序分類變量X的211個國家和地區(qū)(即K = 211),在目標(biāo)變量Y的監(jiān)督下計算 其每一個值對應(yīng)的W0E值:
[0053] 2.對無序分類變量X的211個國家和地區(qū)對應(yīng)的W0E值進行Μ個區(qū)間的等深分組,其 中,Me {χ | 5彡X彡20,χ為整數(shù)}。
[0054] 本實施例中進行了分組數(shù)為5組和10組的實驗,即Μ = 5和Μ = 10。
[0055] 3.將無序分類變量X的211個國家和地區(qū)對應(yīng)的W0E值分組后的結(jié)果作為無序分類 變量X的最終分組結(jié)果。
[0056] 4.對無序分類變量X分組后的結(jié)果重新計算每組的W0E值。
[0057] 分為5組時:
[0060] 分為10組時:
[0062] 5.計算分組后的無序分類變量對目標(biāo)變量的信息值(IV值)。
[0063]劃分為5組時的信息值:
[0065]劃分為10組時的信息值:
[0067] 6.為了對比分組效果,本實例分別計算了無序分類變量在完全不分組、按洲分組 及按地域進行分組的情況下對目標(biāo)變量的信息值(IV值)。
[0068] 本實施例實例中計算的結(jié)果參照表一以及表二,其中表一為對照組數(shù)據(jù)結(jié)果,其 采用不對無序分類變量進行分組或按照業(yè)務(wù)經(jīng)驗等方式進行分組:表二為實驗組數(shù)據(jù)結(jié) 果,采用本發(fā)明實施例中分組方法。
[0072] 表二
[0073] 通過對比表一和表二,可以發(fā)現(xiàn)本發(fā)明實施例中提供的方法能夠在實現(xiàn)對無序分 類變量進行快速分組的同時,保證了該無序分類變量對目標(biāo)變量的區(qū)分能力不會下降,即 表二中在劃分為10組和5組的情況下的IV值比表一中不分組和按業(yè)務(wù)經(jīng)驗分組后的IV值要 大,而IV值越大,分組效果越好。
[0074]參照圖3,為本發(fā)明一實施例中對無序分類變量信息無損分組的裝置結(jié)構(gòu)示意圖。
[0075] 本發(fā)明一實施例中還提供了一種對無序分類變量信息無損分組的裝置,包括:
[0076] 證據(jù)權(quán)重計算單元10,在二值型目標(biāo)變量的監(jiān)督下,對無序分類變量中每個類別 的值分別計算證據(jù)權(quán)重值;上述無序分類變量具有任意多個類別;
[0077] 等深分組單元20,將上述證據(jù)權(quán)重值進行等深分組,劃分為Μ個區(qū)間,并將上述Μ個 區(qū)間作為無序分類變量的分組。
[0078]目前,對于無序型分類變量實現(xiàn)有效信息無損的分組,基本會采取兩種處理方式: 一種是通過經(jīng)驗去進行分組,這種方式效率極其低下,而且不能保證有效果;另一種是不進 行分組直接拿來使用,這種方式,對于無序分類變量的值分布很廣泛時,在后續(xù)的建模等應(yīng) 用時效果往往會很差。在本實施例中,通過證據(jù)權(quán)重計算單元10將無序分類變量轉(zhuǎn)換為一 一對應(yīng)的有大小區(qū)分的WOE值,再通過等深分組單元20對WOE值進行區(qū)間的等深劃分,并將 劃分結(jié)果作為該無序分類變量的最終分組結(jié)果。本實施例中的裝置可以適用于各行業(yè)中對 無序分類變量的分組,分組過程簡單易理解,運算速度快,而且能夠很好的保留無序分類變 量對目標(biāo)變量的區(qū)分能力,實現(xiàn)信息無損分組。
[0079] 進一步地,上述證據(jù)權(quán)重計算單元10的計算公式為:
[0081] 其中,N*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,N1為全體無序分類 變量樣本中目標(biāo)變量為1的樣本數(shù)量,為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量, nittribute為某類別數(shù)目下目標(biāo)z變量為1的樣本數(shù)量,正據(jù)權(quán)重:i十算結(jié)果值。
[0082] 進一步地,參照圖4,上述對無序分類變量信息無損分組的裝置還包括:
[0083] 信息值計算單元30,計算分組后的無序分類變量對目標(biāo)變量的信息值。
[0084] 為了驗證上一實施例中對無序分類變量信息無損分組的方法的效果,在本實施例 中通過計算分組后的無序分類變量對目標(biāo)變量的信息值,對分組進行效果驗證。本實施例 中的效果驗證,可采用實驗的方式進行對比驗證。對照組采用不對無序分類變量進行分組 或按照業(yè)務(wù)經(jīng)驗等方式進行分組,按照業(yè)務(wù)經(jīng)驗進行分組往往會需要大量的時間進行人工 分組;實驗組采用上一實施例中的方案進行分組。對比實驗組和對照組對目標(biāo)變量的信息 值貢獻,即可進行效果驗證。信息值是衡量一個變量對目標(biāo)變量區(qū)分能力的大小,在通常情 況下,無序分類變量分組后對目標(biāo)變量的信息值越大,效果越好。在具體實施例中進行效果 驗證的方法步驟可參考上述的一個具體實施例。
[0085] 進一步地,上述信息值計算單元的計算公式為:
[0087] 其中,#為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,N1為全體無序分類 變量樣本中目標(biāo)變量為1的樣本數(shù)量,n^. ibute為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量, nitmbute為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量,W0Eattribute為分組后每組無序分類變量 對應(yīng)的證據(jù)權(quán)重計算結(jié)果值,IV為信息值。
[0088] 綜上所述,為本發(fā)明實施例中提出的對無序分類變量信息無損分組的方法及裝 置,通過將無序分類變量轉(zhuǎn)換為一一對應(yīng)的有大小區(qū)分的W0E值,再對W0E值進行多個區(qū)間 的等深劃分,并將劃分結(jié)果作為該無序分類變量的最終分組結(jié)果。本發(fā)明實施例中的方法 及裝置可以適用于各行業(yè)中對無序分類變量的分組,分組過程簡單易理解,運算速度快,而 且能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力,實現(xiàn)信息無損分組。通過計算分 組后的每組無序分類變量對目標(biāo)變量的信息值,對本發(fā)明實施例中的分組結(jié)果進行效果驗 證。
[0089]以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用 本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān) 的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。
【主權(quán)項】
1. 一種對無序分類變量信息無損分組的方法,其特征在于,包括步驟: 在二值型目標(biāo)變量的監(jiān)督下,對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值; 將所述證據(jù)權(quán)重值進行等深分組,劃分為Μ個區(qū)間,并將所述Μ個區(qū)間作為無序分類變 量的分組。2. 根據(jù)權(quán)利要求1所述的對無序分類變量信息無損分組的方法,其特征在于,所述計算 證據(jù)權(quán)重值的計算公式為:其中,滬為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,Ni為全體無序分類變量 樣本中目標(biāo)變量為1的樣本數(shù)量,nlihut。為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量,n^ttubub 為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量,WOEattribute為證據(jù)權(quán)重計算結(jié)果值。3. 根據(jù)權(quán)利要求1所述的對無序分類變量信息無損分組的方法,其特征在于,所述將Μ 個區(qū)間作為無序分類變量的分組的步驟之后還可W包括: 計算分組后的無序分類變量對目標(biāo)變量的信息值。4. 根據(jù)權(quán)利要求3所述的對無序分類變量信息無損分組的方法,其特征在于,所述計算 分組后的無序分類變量對目標(biāo)變量的信息值的計算公式為:其中,滬為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,ni為全體無序分類變量 樣本中目標(biāo)變量為1的樣本數(shù)量,為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量,TlltWbute 為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量,WOEattribute為分組后每組無序分類變量對應(yīng)的證 據(jù)權(quán)重計算結(jié)果值,IV為信息值。5. -種對無序分類變量信息無損分組的裝置,其特征在于,包括: 證據(jù)權(quán)重計算單元,在二值型目標(biāo)變量的監(jiān)督下,對無序分類變量中每個類別的值分 別計算證據(jù)權(quán)重值;所述無序分類變量具有任意多個類別; 等深分組單元,將所述證據(jù)權(quán)重值進行等深分組,劃分為Μ個區(qū)間,并將所述Μ個區(qū)間作 為無序分類變量的分組。6. 根據(jù)權(quán)利要求5所述的對無序分類變量信息無損分組的裝置,其特征在于,所述證據(jù) 權(quán)重計算單元的計算公式為:其中,滬為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,Ni為全體無序分類變量 樣本中目標(biāo)變量為1的樣本數(shù)量,lifibute為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量, 為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量,WOEattribute為證據(jù)權(quán)重計算結(jié)果值。7. 根據(jù)權(quán)利要求5所述的對無序分類變量信息無損分組的裝置,其特征在于,還包括: 信息值計算單元,計算分組后的無序分類變量對目標(biāo)變量的信息值。8.根據(jù)權(quán)利要求7所述的對無序分類變量信息無損分組的裝置,其特征在于,所述信息 值計算單元的計算公式為:其中,滬為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量,ni為全體無序分類變量 樣本中目標(biāo)變量為1的樣本數(shù)量,為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量,nlttrihute 為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量,WOEattribute為分組后每組無序分類變量對應(yīng)的證 據(jù)權(quán)重計算結(jié)果值,IV為信息值。
【文檔編號】G06F19/00GK106096224SQ201610309708
【公開日】2016年11月9日
【申請日】2016年5月10日
【發(fā)明人】梁猛, 王界兵, 張偉, 李 杰, 韋輝華, 郭宇翔
【申請人】深圳前海信息技術(shù)有限公司