一種用于電信潛在換機用戶發(fā)現(xiàn)的數(shù)據挖掘方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據集構建方法、類別不均衡問題解決方法,以及在數(shù)據集上采用決 策樹算法挖掘出電信潛在換機用戶的技術。
【背景技術】
[0002] 利用數(shù)據挖掘技術可以智能分析電信用戶數(shù)據,發(fā)現(xiàn)潛在的用戶換機規(guī)律。常用 的電信潛在換機用戶數(shù)據挖掘中有一類應用是決策樹分類算法,其基于用戶的消費數(shù)據、 換機信息等對用戶未來的換機行為進行預測。本發(fā)明也使用了KNN算法和聚類算法對類別 不均衡數(shù)據進行了欠采樣處理,構造數(shù)據平衡、分布均勻的數(shù)據集。同時在數(shù)據進行預處理 時使用信息增益率進行屬性選擇,選擇合適的屬性。也嘗試用數(shù)據處理技術去除干擾性噪 音數(shù)據。
[0003] 電信行業(yè)的運營商幾乎每分每秒都在產生大量的業(yè)務數(shù)據,這些實時海量的數(shù)據 對于運營商就像一座含有無數(shù)礦藏的礦山,本身并不能產生價值,但如果開采得當,就可以 得到想象不到的價值,而數(shù)據挖掘無疑就是最好的開采工具。在激烈的運營商競爭中,運用 數(shù)據挖掘去分析海量的業(yè)務數(shù)據,對理解商業(yè)行為、了解客戶需求、把握產品和服務的走向 等等無疑有著不可估量的價值。
[0004] 基于數(shù)據挖掘進行潛在換機用戶定位這一思路打破了傳統(tǒng)經驗總結的換機模型 的慣例,采用數(shù)據挖掘中的決策樹算法可以深入挖掘用戶換機的信息,發(fā)現(xiàn)用戶更換手機 的特點以及用戶換機的規(guī)律,克服了傳統(tǒng)地人為經驗總結不能更具針對性同時高精確性的 不足。
[0005] 近期以來,隨著大數(shù)據時代的來臨,將數(shù)據挖掘技術用于電信行業(yè)進行商業(yè)價值 提升逐漸成為一種趨勢。
【發(fā)明內容】
[0006] 本發(fā)明的目的,構造預測用戶換機行為所需的訓練數(shù)據集和預測數(shù)據集,并在訓 練數(shù)據集上采用KNN和聚類算法,以處理類別不均衡的數(shù)據集。最后在數(shù)據集上實施決策 樹算法,以快速有效地發(fā)現(xiàn)潛在換機用戶。
[0007] 為解決上述問題,本發(fā)明的技術方案是,用于電信潛在換機用戶發(fā)現(xiàn)的數(shù)據挖掘 方法,包括如下步驟:
[0008] 1)數(shù)據集構造階段:
[0009]a收集用戶消費信息、用戶歷史換機信息、用戶信息、終端信息;
[0010] b數(shù)據預處理,同時產生數(shù)據集;
[0011] c處理類別不均衡的數(shù)據集,形成最終的訓練集和預測集;
[0012] d結束。
[0013] 2)挖掘階段:
[0014]a獲取步驟l)-c中處理生成的數(shù)據集;
[0015] b實施數(shù)據挖掘算法發(fā)現(xiàn)潛在換機用戶;
[0016] c保存結果;
[0017] d結束。
[0018]步驟l)_a中所說的收集數(shù)據為收集電信客戶的消費信息等相關數(shù)據。
[0019]步驟l)_b中所說的數(shù)據預處理具體過程如下:
[0020] 1)選擇用戶狀態(tài)表中狀態(tài)正常的用戶作為我們的預測用戶,每個用戶都有一個唯 一的user_id;
[0021] 2)以時間點為分割,規(guī)劃出每個用戶在該時間點之前的消費信息、換機信息等,并 通過uSer_id關聯(lián)起來,以當前月為時間分割點的是預測數(shù)據集,以前的其他月為時間分 割點的是訓練數(shù)據集;
[0022] 3)求出每個屬性的信息增益率,選擇信息增益率大的屬性,摒棄信息增益率小的
【主權項】
1.用于電信潛在換機用戶發(fā)現(xiàn)的數(shù)據挖掘方法,其特征是包括如下步驟: 1) 數(shù)據集構造階段: a收集用戶的消費信息、用戶歷史換機信息、用戶信息、終端信息;b數(shù)據預處理,同時產生數(shù)據集; C處理類別不均衡的數(shù)據集,形成最終的訓練集和預測集;d結束; 2) 挖掘階段: a獲取步驟1)-C中處理生成的數(shù)據集;b實施數(shù)據挖掘算法發(fā)現(xiàn)潛在換機用戶; C保存結果;d結束; 步驟1)-a中所說的收集數(shù)據為收集電信客戶的消費信息等相關數(shù)據; 步驟l)-b中所說的數(shù)據預處理具體過程如下: 1)選擇用戶狀態(tài)表中狀態(tài)正常的用戶作為我們的預測用戶,每個用戶都有一個唯一的user_id; 。則寸間點為分割,規(guī)劃出每個用戶在該時間點之前的消費信息、換機信息等,并通過user_id關聯(lián)起來,W當前月為時間分割點的是預測數(shù)據集,W前的其他月為時間分割點的 是訓練數(shù)據集; 3) 求出每個屬性的信息增益率,選擇信息增益率大的屬性,擬棄信息增益率小的屬性
其中S表示數(shù)據集,n表示數(shù)據集的類標中值的個數(shù),Pi表示第i個值出現(xiàn)的概率,E(S) 表示數(shù)據集S的滴
屬性A有n個取值Cl,C2. . .C。,將數(shù)據集S分為n個不相交的子集Si,S2. . .S。,ISI為數(shù) 據集的實例數(shù),ISiI為數(shù)據集的第i個子集的實例數(shù),E(S,A)表示數(shù)據集S由屬性A分裂 后的滴計算公式 InfoGain化A) =E做-E(S,A) In化Gain化A)表示屬性A的信息增益;
n。 。 4) 過濾掉消費屬性值為空的數(shù)據; 5) 過濾掉用機時間屬性值小于15天的數(shù)據; 6) 過濾掉歷史用機個數(shù)屬性值超于50個的數(shù)據; 7) 過濾掉手機imei重復的數(shù)據; 8) 為訓練數(shù)據集的每一條記錄添加類標; 9) 結束; 步驟1)-C具體過程如下: 1) 基于KNN算法對訓練數(shù)據集中的邊界數(shù)據進行過濾; 2) 對訓練數(shù)據集中大類數(shù)據進行聚類; 3) 對聚類后的大類數(shù)據進行分層抽樣; 4) 結合小類數(shù)據組合成最終的訓練集; 5) 結束; 步驟2)-b中數(shù)據挖掘決策樹算法的一次構建過程具體如下: 1) 創(chuàng)建一個根節(jié)點N; 2) 若訓練數(shù)據集集為空,則標記節(jié)點N為空,并將其返回; 3) 若訓練數(shù)據集屬于同一個類標C,則將節(jié)點N標記為C,并將其作為葉子節(jié)點返回; 4) 若屬性集合A為空,則將節(jié)點N標記為訓練集中最多的那個類標M,并將其作為葉子 節(jié)點返回; 5) 對屬性集合A中的每個屬性進行離散型判斷; 6) 將連續(xù)型屬性離散化處理; 7) 選擇屬性集合A中信息增益最高的屬性a; 8) 根據屬性a的取值a=di對結點N進行分支劃分,確定每個分支的子數(shù)據集; 9) 建立a=di的分支,并且節(jié)點N按該分支建立子結點N 10. WNi為根節(jié)點,屬性aW外的屬性為屬性集,遞歸構建決策樹。
【專利摘要】本發(fā)明提供用于電信潛在換機用戶發(fā)現(xiàn)的數(shù)據挖掘方法,包括如下步驟:1)數(shù)據集構造階段:a收集用戶的消費信息、用戶歷史換機信息、用戶信息、終端信息;b數(shù)據預處理,同時產生數(shù)據集;c處理類別不均衡的數(shù)據集,形成最終的訓練集和預測集;挖掘階段:a)獲取步驟1-c中處理生成的數(shù)據集;b)實施決策樹算法發(fā)現(xiàn)潛在換機用戶;c)結束。本發(fā)明是基于數(shù)據挖掘的技術在電信用戶中找出潛在的換機用戶。和傳統(tǒng)的方法相比更精確、更高效,具有實現(xiàn)簡單、代價低等一系列的優(yōu)點。
【IPC分類】G06F17-30
【公開號】CN104794195
【申請?zhí)枴緾N201510186319
【發(fā)明人】張雷, 張奎亮, 資帥, 彭岳, 蔡洋, 王崇駿, 李寧
【申請人】南京大學
【公開日】2015年7月22日
【申請日】2015年4月17日