對無序分類變量信息無損分組的方法及裝置的制造方法

文檔序號：10725342閱讀：566來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

對無序分類變量信息無損分組的方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種對無序分類變量信息無損分組的方法及裝置，包括步驟：在二值型目標(biāo)變量的監(jiān)督下，對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值；將所述證據(jù)權(quán)重值進行等深分組，劃分為M個區(qū)間，并將所述M個區(qū)間作為無序分類變量的分組。本發(fā)明中公開的對無序分類變量信息無損分組的方法及裝置，分組過程簡單易理解，運算速度快，能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力。
【專利說明】
對無序分類變量信息無損分組的方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及無序分類變量的分組領(lǐng)域，特別涉及一種對無序分類變量信息無損分組的方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)等技術(shù)的發(fā)展，帶來了各行業(yè)中數(shù)據(jù)量的爆發(fā)式增長，在這些數(shù)據(jù)中，無序型的分類變量占有很大一部分，針對這些無序分類變量，需要有快速有效的方法進行數(shù)據(jù)的預(yù)處理，從而快速的發(fā)現(xiàn)數(shù)據(jù)中的價值。
[0003] 目前對于數(shù)據(jù)預(yù)處理中的變量分組問題，絕大多數(shù)人研究的都是對連續(xù)型變量的分組或者說分箱。對于無序型的分類變量怎么實現(xiàn)有效信息無損的分組，基本會采取兩種處理方式:一種是通過經(jīng)驗去進行分組，這種方式效率極其低下，而且不能保證有效果；另一種是不進行分組直接拿來使用，這種方式，對于無序分類變量的值分布很廣泛時，在后續(xù) 的建模等應(yīng)用時效果往往會很差。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的主要目的為提供一種對無序分類變量信息無損分組的方法及裝置，分組過程簡單易理解，運算速度快，能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力。
[0005] 本發(fā)明提出一種對無序分類變量信息無損分組的方法，包括步驟：
[0006] 在二值型目標(biāo)變量的監(jiān)督下，對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值；
[0007] 將所述證據(jù)權(quán)重值進行等深分組，劃分為Μ個區(qū)間，并將所述Μ個區(qū)間作為無序分類變量的分組。
[0008] 進一步地，所述計算證據(jù)權(quán)重值的計算公式為：
[0010] 其中，Ν*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，Ν1為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，ii= tribute為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量， nim.ibute為某類別數(shù)目下目標(biāo)z變量為1的樣本數(shù)量，WOKtUute為i正據(jù)權(quán)重:i十算結(jié)果值。
[0011] 進一步地，所述將Μ個區(qū)間作為無序分類變量的分組的步驟之后還可以包括：
[0012] 計算分組后的無序分類變量對目標(biāo)變量的信息值。
[0013] 進一步地，所述計算分組后的無序分類變量對目標(biāo)變量的信息值的計算公式為：
[0015]其中，Ν*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，Ν 1為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，n；；unbuu,為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量， nittribme為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量，W0Eattribute為分組·后每組·無序分類變量對· 應(yīng)的證據(jù)權(quán)重計算結(jié)果值，IV為信息值。
[0016] 本發(fā)明還提供了一種對無序分類變量信息無損分組的裝置，包括：
[0017] 證據(jù)權(quán)重計算單元，在二值型目標(biāo)變量的監(jiān)督下，對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值;所述無序分類變量具有任意多個類別；
[0018] 等深分組單元，將所述證據(jù)權(quán)重值進行等深分組，劃分為Μ個區(qū)間，并將所述Μ個區(qū) 間作為無序分類變量的分組。
[0019] 進一步地，所述證據(jù)權(quán)重計算單元的計算公式為：
[0021]其中，#為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，Ν1為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，n=ribute.為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量，為某類別數(shù)目下目標(biāo)z變量為1的樣本數(shù)量，TOEattnbutdi正據(jù)權(quán)重:i十算結(jié)果值。
[0022] 進一步地，還包括：
[0023]信息值計算單元，計算分組后的無序分類變量對目標(biāo)變量的信息值。
[0024]進一步地，所述信息值計算單元的計算公式為：
[0026] 其中，N*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，N1為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，n；； ttribute為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量， nLribUte為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量，W0Eattribute為分組·后每組·無序分類變量對應(yīng)的證據(jù)權(quán)重計算結(jié)果值，IV為信息值。
[0027] 本發(fā)明中提出的對無序分類變量信息無損分組的方法及裝置，具有以下有益效果：
[0028] 本發(fā)明中提出的對無序分類變量信息無損分組的方法及裝置，通過將無序分類變量轉(zhuǎn)換為一一對應(yīng)的有大小區(qū)分的WOE值，再對WOE值進行區(qū)間的等深劃分，并將劃分結(jié)果作為該無序分類變量的最終分組結(jié)果。本發(fā)明中的方法及裝置可以適用于各行業(yè)中對無序分類變量的分組，分組過程簡單易理解，運算速度快，而且能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力，實現(xiàn)信息無損分組。通過計算分組后的每組無序分類變量對目標(biāo)變量的信息值，對本發(fā)明中分組結(jié)果進行效果驗證。
【附圖說明】
[0029] 圖1是本發(fā)明一實施例中對無序分類變量信息無損分組的方法示意圖；
[0030]圖2是本發(fā)明另一實施例中對無序分類變量信息無損分組的方法示意圖；
[0031] 圖3是本發(fā)明一實施例中對無序分類變量信息無損分組的裝置結(jié)構(gòu)示意圖；
[0032] 圖4是本發(fā)明另一實施例中對無序分類變量信息無損分組的裝置結(jié)構(gòu)示意圖。
[0033] 本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例，參照附圖做進一步說明。
【具體實施方式】
[0034] 應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0035] 參照圖1，為本發(fā)明一實施例中對無序分類變量信息無損分組的方法步驟示意圖。
[0036] 本發(fā)明一實施例中提出一種對無序分類變量信息無損分組的方法，包括：
[0037] 步驟S1，在二值型目標(biāo)變量的監(jiān)督下，對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值；
[0038]步驟S2，將上述證據(jù)權(quán)重值進行等深分組，劃分為Μ個區(qū)間，并將上述Μ個區(qū)間作為無序分類變量的分組。
[0039]目前，對于無序型分類變量實現(xiàn)有效信息無損的分組，基本會采取兩種處理方式：一種是通過經(jīng)驗去進行分組，這種方式效率極其低下，而且不能保證有效果；另一種是不進行分組直接拿來使用，這種方式，對于無序分類變量的值分布很廣泛時，在后續(xù)的建模等應(yīng) 用時效果往往會很差。在本實施例中，通過將無序分類變量轉(zhuǎn)換為一一對應(yīng)的有大小區(qū)分的 W0E值，再對W0E值進行區(qū)間的等深劃分，并將劃分結(jié)果作為該無序分類變量的最終分組結(jié)果。本實施例中的方法可以適用于各行業(yè)中對無序分類變量的分組，分組過程簡單易理解，運算速度快，而且能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力，實現(xiàn)信息無損分組。
[0040] 進一步地，上述步驟S1中，計算證據(jù)權(quán)重值的計算公式為：
[0042] 其中，N*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，N1為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，i^ ttHbute為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量， nittnbute為某類別數(shù)目下目標(biāo)z變量為1的樣本數(shù)量，正據(jù)權(quán)重計算:結(jié)果值。
[0043] 進一步地，參照圖2,上述將Μ個區(qū)間作為無序分類變量的分組的步驟之后還可以包括：
[0044] 步驟S3,計算分組后的無序分類變量對目標(biāo)變量的信息值。
[0045] 為了驗證上一實施例中對無序分類變量信息無損分組的方法的效果，在本實施例中通過計算分組后的無序分類變量對目標(biāo)變量的信息值，對分組進行效果驗證。本實施例中的效果驗證，可采用實驗的方式進行對比驗證。對照組采用不對無序分類變量進行分組或按照業(yè)務(wù)經(jīng)驗等方式進行分組，按照業(yè)務(wù)經(jīng)驗進行分組往往會需要大量的時間進行人工分組;實驗組采用上一實施例中的方案進行分組。對比實驗組和對照組對目標(biāo)變量的信息值貢獻，即可進行效果驗證。信息值是衡量一個變量對目標(biāo)變量區(qū)分能力的大小，在正常情況下無序分類變量分組后對目標(biāo)變量的信息值越大，效果越好。
[0046]進一步地，上述計算分組后的無序分類變量對目標(biāo)變量的信息值的計算公式為：
[0048] 其中，N*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，N1為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，n= rtnbute為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量，為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量，W0Eattribute為分組后每組無序分類變量對應(yīng)的證據(jù)權(quán)重計算結(jié)果值，IV為信息值。
[0049] 在一具體實施例中，通過對某一真實的數(shù)據(jù)集來進行驗證，數(shù)據(jù)條數(shù)為9650452 條，目標(biāo)變量為二值型，設(shè)為Y，取值為〇、1，其對應(yīng)的數(shù)量分別為9468561和181891，無序分類變量(X)的類別對應(yīng)為211個國家和地區(qū)，設(shè)為K。其中，Ke{ x|x彡l〇〇，x為整數(shù)}。
[0050] 采用上述分組方法對無序分類變量的處理流程如下：
[0051] 1.對無序分類變量X的211個國家和地區(qū)（即K = 211)，在目標(biāo)變量Y的監(jiān)督下計算其每一個值對應(yīng)的W0E值：
[0053] 2.對無序分類變量X的211個國家和地區(qū)對應(yīng)的W0E值進行Μ個區(qū)間的等深分組，其中，Me {χ | 5彡X彡20，χ為整數(shù)}。
[0054] 本實施例中進行了分組數(shù)為5組和10組的實驗，即Μ = 5和Μ = 10。
[0055] 3.將無序分類變量X的211個國家和地區(qū)對應(yīng)的W0E值分組后的結(jié)果作為無序分類變量X的最終分組結(jié)果。
[0056] 4.對無序分類變量X分組后的結(jié)果重新計算每組的W0E值。
[0057] 分為5組時：
[0060] 分為10組時：
[0062] 5.計算分組后的無序分類變量對目標(biāo)變量的信息值(IV值）。
[0063]劃分為5組時的信息值：
[0065]劃分為10組時的信息值：
[0067] 6.為了對比分組效果，本實例分別計算了無序分類變量在完全不分組、按洲分組及按地域進行分組的情況下對目標(biāo)變量的信息值(IV值）。
[0068] 本實施例實例中計算的結(jié)果參照表一以及表二，其中表一為對照組數(shù)據(jù)結(jié)果，其采用不對無序分類變量進行分組或按照業(yè)務(wù)經(jīng)驗等方式進行分組:表二為實驗組數(shù)據(jù)結(jié) 果，采用本發(fā)明實施例中分組方法。
[0072] 表二
[0073] 通過對比表一和表二，可以發(fā)現(xiàn)本發(fā)明實施例中提供的方法能夠在實現(xiàn)對無序分類變量進行快速分組的同時，保證了該無序分類變量對目標(biāo)變量的區(qū)分能力不會下降，即表二中在劃分為10組和5組的情況下的IV值比表一中不分組和按業(yè)務(wù)經(jīng)驗分組后的IV值要大，而IV值越大，分組效果越好。
[0074]參照圖3,為本發(fā)明一實施例中對無序分類變量信息無損分組的裝置結(jié)構(gòu)示意圖。
[0075] 本發(fā)明一實施例中還提供了一種對無序分類變量信息無損分組的裝置，包括：
[0076] 證據(jù)權(quán)重計算單元10,在二值型目標(biāo)變量的監(jiān)督下，對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值;上述無序分類變量具有任意多個類別；
[0077] 等深分組單元20，將上述證據(jù)權(quán)重值進行等深分組，劃分為Μ個區(qū)間，并將上述Μ個區(qū)間作為無序分類變量的分組。
[0078]目前，對于無序型分類變量實現(xiàn)有效信息無損的分組，基本會采取兩種處理方式：一種是通過經(jīng)驗去進行分組，這種方式效率極其低下，而且不能保證有效果；另一種是不進行分組直接拿來使用，這種方式，對于無序分類變量的值分布很廣泛時，在后續(xù)的建模等應(yīng) 用時效果往往會很差。在本實施例中，通過證據(jù)權(quán)重計算單元10將無序分類變量轉(zhuǎn)換為一一對應(yīng)的有大小區(qū)分的WOE值，再通過等深分組單元20對WOE值進行區(qū)間的等深劃分，并將劃分結(jié)果作為該無序分類變量的最終分組結(jié)果。本實施例中的裝置可以適用于各行業(yè)中對無序分類變量的分組，分組過程簡單易理解，運算速度快，而且能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力，實現(xiàn)信息無損分組。
[0079] 進一步地，上述證據(jù)權(quán)重計算單元10的計算公式為：
[0081] 其中，N*3為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，N1為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量， nittribute為某類別數(shù)目下目標(biāo)z變量為1的樣本數(shù)量，正據(jù)權(quán)重:i十算結(jié)果值。
[0082] 進一步地，參照圖4,上述對無序分類變量信息無損分組的裝置還包括：
[0083] 信息值計算單元30,計算分組后的無序分類變量對目標(biāo)變量的信息值。
[0084] 為了驗證上一實施例中對無序分類變量信息無損分組的方法的效果，在本實施例中通過計算分組后的無序分類變量對目標(biāo)變量的信息值，對分組進行效果驗證。本實施例中的效果驗證，可采用實驗的方式進行對比驗證。對照組采用不對無序分類變量進行分組或按照業(yè)務(wù)經(jīng)驗等方式進行分組，按照業(yè)務(wù)經(jīng)驗進行分組往往會需要大量的時間進行人工分組;實驗組采用上一實施例中的方案進行分組。對比實驗組和對照組對目標(biāo)變量的信息值貢獻，即可進行效果驗證。信息值是衡量一個變量對目標(biāo)變量區(qū)分能力的大小，在通常情況下，無序分類變量分組后對目標(biāo)變量的信息值越大，效果越好。在具體實施例中進行效果驗證的方法步驟可參考上述的一個具體實施例。
[0085] 進一步地，上述信息值計算單元的計算公式為：
[0087] 其中，#為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，N1為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，n^. ibute為某類別數(shù)目下目標(biāo)變量為〇的樣本數(shù)量， nitmbute為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量，W0Eattribute為分組后每組無序分類變量對應(yīng)的證據(jù)權(quán)重計算結(jié)果值，IV為信息值。
[0088] 綜上所述，為本發(fā)明實施例中提出的對無序分類變量信息無損分組的方法及裝置，通過將無序分類變量轉(zhuǎn)換為一一對應(yīng)的有大小區(qū)分的W0E值，再對W0E值進行多個區(qū)間的等深劃分，并將劃分結(jié)果作為該無序分類變量的最終分組結(jié)果。本發(fā)明實施例中的方法及裝置可以適用于各行業(yè)中對無序分類變量的分組，分組過程簡單易理解，運算速度快，而且能夠很好的保留無序分類變量對目標(biāo)變量的區(qū)分能力，實現(xiàn)信息無損分組。通過計算分組后的每組無序分類變量對目標(biāo)變量的信息值，對本發(fā)明實施例中的分組結(jié)果進行效果驗證。
[0089]以上所述僅為本發(fā)明的優(yōu)選實施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運用在其他相關(guān) 的技術(shù)領(lǐng)域，均同理包括在本發(fā)明的專利保護范圍內(nèi)。
【主權(quán)項】
1. 一種對無序分類變量信息無損分組的方法，其特征在于，包括步驟：在二值型目標(biāo)變量的監(jiān)督下，對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值；將所述證據(jù)權(quán)重值進行等深分組，劃分為Μ個區(qū)間，并將所述Μ個區(qū)間作為無序分類變量的分組。2. 根據(jù)權(quán)利要求1所述的對無序分類變量信息無損分組的方法，其特征在于，所述計算證據(jù)權(quán)重值的計算公式為：其中，滬為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，Ni為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，nlihut。為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量，n^ttubub 為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量，WOEattribute為證據(jù)權(quán)重計算結(jié)果值。3. 根據(jù)權(quán)利要求1所述的對無序分類變量信息無損分組的方法，其特征在于，所述將Μ 個區(qū)間作為無序分類變量的分組的步驟之后還可W包括：計算分組后的無序分類變量對目標(biāo)變量的信息值。4. 根據(jù)權(quán)利要求3所述的對無序分類變量信息無損分組的方法，其特征在于，所述計算分組后的無序分類變量對目標(biāo)變量的信息值的計算公式為：其中，滬為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，ni為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量，TlltWbute 為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量，WOEattribute為分組后每組無序分類變量對應(yīng)的證據(jù)權(quán)重計算結(jié)果值，IV為信息值。5. -種對無序分類變量信息無損分組的裝置，其特征在于，包括：證據(jù)權(quán)重計算單元，在二值型目標(biāo)變量的監(jiān)督下，對無序分類變量中每個類別的值分別計算證據(jù)權(quán)重值;所述無序分類變量具有任意多個類別；等深分組單元，將所述證據(jù)權(quán)重值進行等深分組，劃分為Μ個區(qū)間，并將所述Μ個區(qū)間作為無序分類變量的分組。6. 根據(jù)權(quán)利要求5所述的對無序分類變量信息無損分組的裝置，其特征在于，所述證據(jù) 權(quán)重計算單元的計算公式為：其中，滬為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，Ni為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，lifibute為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量，為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量，WOEattribute為證據(jù)權(quán)重計算結(jié)果值。7. 根據(jù)權(quán)利要求5所述的對無序分類變量信息無損分組的裝置，其特征在于，還包括：信息值計算單元，計算分組后的無序分類變量對目標(biāo)變量的信息值。8.根據(jù)權(quán)利要求7所述的對無序分類變量信息無損分組的裝置，其特征在于，所述信息值計算單元的計算公式為：其中，滬為全體無序分類變量樣本中目標(biāo)變量為0的樣本數(shù)量，ni為全體無序分類變量樣本中目標(biāo)變量為1的樣本數(shù)量，為某類別數(shù)目下目標(biāo)變量為0的樣本數(shù)量，nlttrihute 為某類別數(shù)目下目標(biāo)變量為1的樣本數(shù)量，WOEattribute為分組后每組無序分類變量對應(yīng)的證據(jù)權(quán)重計算結(jié)果值，IV為信息值。
【文檔編號】G06F19/00GK106096224SQ201610309708
【公開日】2016年11月9日
【申請日】2016年5月10日
【發(fā)明人】梁猛, 王界兵, 張偉, 李杰, 韋輝華, 郭宇翔
【申請人】深圳前海信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁猛;王界兵;張偉;李杰;韋輝華;郭宇翔;
技術(shù)所有人：深圳前海信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

彈性吊索無損檢測裝置相關(guān)技術(shù)

無損水帶緊固裝置相關(guān)技術(shù)