針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法
【專利摘要】本發(fā)明公開一種針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法,其首先從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)和流量數(shù)據(jù)倉(cāng)庫(kù)中獲取快遞員用戶基本信息、通信信息和位置信息,并關(guān)聯(lián)形成事實(shí)寬表;對(duì)事實(shí)寬表中的多個(gè)樣本數(shù)據(jù)進(jìn)行正負(fù)樣本分類,然后以相同正負(fù)樣本比例將事實(shí)寬表中數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集;再對(duì)訓(xùn)練集正、負(fù)樣本數(shù)據(jù)進(jìn)行預(yù)處理,進(jìn)而利用DTRA算法,生成快遞員用戶特征規(guī)則集,并依據(jù)特征規(guī)則驗(yàn)證驗(yàn)證集中的正、負(fù)樣本用戶;再利用DTRA算法生成潛在快遞員數(shù)據(jù);最后進(jìn)行模型效果評(píng)估。本發(fā)明通過(guò)利用機(jī)器學(xué)習(xí)替代傳統(tǒng)人工經(jīng)驗(yàn)挖掘,提高數(shù)據(jù)挖掘的準(zhǔn)確度,并基于分布式大數(shù)據(jù)處理平臺(tái),實(shí)現(xiàn)從傳統(tǒng)數(shù)據(jù)庫(kù)(Oracle)的抽樣挖掘到全量數(shù)據(jù)挖掘,提升數(shù)據(jù)挖掘性能。
【專利說(shuō)明】針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),特別是一種在針對(duì)快遞員周邊人群進(jìn)行營(yíng)銷活動(dòng)過(guò)程 中,快遞員數(shù)據(jù)的識(shí)別方法。
【背景技術(shù)】
[0002] 在針對(duì)快遞員周邊人群進(jìn)行營(yíng)銷活動(dòng)時(shí),首先要對(duì)快遞員數(shù)據(jù)進(jìn)行挖掘,進(jìn)而得 到其周邊營(yíng)銷目標(biāo)人群數(shù)據(jù),其中快遞員數(shù)據(jù)的識(shí)別挖掘方法一般為,從A 口信令(在基站 控制器BSC和移動(dòng)業(yè)務(wù)交互中也MSC之間傳送的控制面信令數(shù)據(jù),例如:尋呼事件、位置更 新事件、漫游事件等)中獲取用戶位置信息,從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)獲取用戶語(yǔ)音話單、短信話單 和用戶基礎(chǔ)資料,在傳統(tǒng)化acle數(shù)據(jù)庫(kù)中通過(guò)用戶手機(jī)號(hào)碼將用戶位置信息、語(yǔ)音話單信 息、短信話單信息和用戶基礎(chǔ)資料關(guān)聯(lián)起來(lái),根據(jù)下面的算法識(shí)別出快遞人員: W "人為發(fā)現(xiàn),經(jīng)驗(yàn)挖掘"的方式,通過(guò)統(tǒng)計(jì)方法識(shí)別快遞人員,具體為, 1、 連續(xù)5天工作時(shí)間(早上8點(diǎn)到下午6點(diǎn))在固定地點(diǎn)短時(shí)間內(nèi)跟大量用戶(闊值 暫定20 W上)發(fā)生短時(shí)間通話(小于一分鐘)或者短信行為,確定問(wèn)疑似快遞人員; 2、 小于18歲的或者大于50歲的不太可能是快遞人員,排除; 3、 人工方式錄入快遞人員,移動(dòng)公司員工有網(wǎng)行為得到的快遞人員可W錄入到系統(tǒng) 中; 4、 對(duì)疑似快遞人員通過(guò)外呼的方式確認(rèn); 上述數(shù)據(jù)挖掘方式,在傳統(tǒng)數(shù)據(jù)庫(kù)的racle)上識(shí)別快遞人員的過(guò)程中,準(zhǔn)確度、處理 性能上具有如下缺陷: 1、識(shí)別準(zhǔn)確度低,且無(wú)法把控:人為的制定規(guī)則來(lái)識(shí)別快遞員,是通過(guò)經(jīng)驗(yàn)一點(diǎn)一點(diǎn)積 累,個(gè)人業(yè)務(wù)能力有限,無(wú)法保證較高的識(shí)別準(zhǔn)確度;另外,人與人之間經(jīng)驗(yàn)不同,靠經(jīng)驗(yàn)去 進(jìn)行快遞員識(shí)別,缺乏統(tǒng)一的、標(biāo)準(zhǔn)的算法,準(zhǔn)確度無(wú)法保障。
[0003] 2、性能低,且無(wú)法進(jìn)行大數(shù)據(jù)挖掘;隨著數(shù)據(jù)量的增加,數(shù)據(jù)間關(guān)聯(lián)操作較多,通 過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)的racle)無(wú)法滿足基本的數(shù)據(jù)挖掘分析。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術(shù)問(wèn)題為;通過(guò)利用機(jī)器學(xué)習(xí)替代傳統(tǒng)人工經(jīng)驗(yàn)挖掘,提高數(shù) 據(jù)挖掘的準(zhǔn)確度,并基于分布式大數(shù)據(jù)處理平臺(tái),實(shí)現(xiàn)從傳統(tǒng)數(shù)據(jù)庫(kù)的racle)的抽樣挖掘 到全量數(shù)據(jù)挖掘,提升數(shù)據(jù)挖掘性能。
[0005] 本發(fā)明采取的技術(shù)手段具體為;一種針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí) 別方法,包括W下步驟: 1) 從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)中獲取疑似快遞員用戶基本信息和通信信息;從流量數(shù)據(jù)倉(cāng)庫(kù)中 獲取疑似快遞員用戶位置信息,并關(guān)聯(lián)形成一張包含多個(gè)疑似快遞員用戶信息的事實(shí)寬 表; 2) 將事實(shí)寬表中多個(gè)疑似快遞員信息數(shù)據(jù)隨機(jī)分為兩部分:一部分為訓(xùn)練集,一部分 為驗(yàn)證集,其中, 訓(xùn)練集中的樣本數(shù)據(jù)按正、負(fù)樣本比例1 :2輸入,所述正樣本數(shù)據(jù)為已確定為快遞員 的用戶,負(fù)樣本數(shù)據(jù)為已確定非快遞員的用戶; 4) 對(duì)訓(xùn)練集正、負(fù)樣本數(shù)據(jù)進(jìn)行預(yù)處理,清除其中的異常值、錯(cuò)值、空值; 5) W訓(xùn)練集中正、負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的快遞員用戶特征為基礎(chǔ)數(shù)據(jù),利用分類算法中的 決策樹推理DTRA算法,生成快遞員用戶特征規(guī)則集,并找到判定是否為快遞員的因素組 合; 6) 根據(jù)判定是否為快遞員的影響因素確定驗(yàn)證集中的正、負(fù)樣本用戶; 7) 利用DTRA算法,結(jié)合步驟5)中得到的因素組合,生成驗(yàn)證集中的潛在快遞員數(shù)據(jù)標(biāo) 識(shí); 8) 模型效果評(píng)估;對(duì)原驗(yàn)證集中正負(fù)樣本數(shù)據(jù)和步驟6)得到的驗(yàn)證集中正負(fù)樣本數(shù) 據(jù),利用混淆矩陣方法公式: 真正率=步驟6)驗(yàn)證結(jié)果中的正樣本數(shù)目/原驗(yàn)證集中正樣本的數(shù)目; 真負(fù)率=步驟6)驗(yàn)證結(jié)果中的負(fù)樣本數(shù)目/原驗(yàn)證集中負(fù)樣本的數(shù)目; 評(píng)估真正率與真負(fù)率整體準(zhǔn)確度是否達(dá)到要求:如準(zhǔn)確度達(dá)到設(shè)定百分比則對(duì)步驟 7)生成的潛在快遞員數(shù)據(jù)標(biāo)識(shí)進(jìn)行輸出;如準(zhǔn)確度不能達(dá)到要求,則調(diào)整步驟5)中得到 的因素組合中各因素相對(duì)應(yīng)的參數(shù)值,然后重復(fù)步驟6)至步驟8),直至模型準(zhǔn)確度達(dá)到要 求,輸出最終潛在快遞員數(shù)據(jù)標(biāo)識(shí)。真正率與真負(fù)率整體準(zhǔn)確度可定義為真正率與真負(fù)率 的平均數(shù),或真正率與真負(fù)率的乘積。
[0006] 本發(fā)明中經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)是通過(guò)獲取綜合營(yíng)帳、計(jì)費(fèi)、客服和結(jié)算等系統(tǒng)的數(shù)據(jù)源, 構(gòu)建一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,為移動(dòng)管理決策提 供支持;經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)與流量數(shù)據(jù)倉(cāng)庫(kù)皆為移動(dòng)系統(tǒng)的現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)。
[0007] DTRA算法為現(xiàn)有算法,其與其它分類算法如統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)等比較起來(lái)有如 下優(yōu)點(diǎn);產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確度較高。DTRA算法適于能夠駐留于內(nèi)存的數(shù)據(jù)集, 當(dāng)訓(xùn)練集無(wú)法在內(nèi)存中容納時(shí),將報(bào)出異常。
[0008] DTRA算法分為訓(xùn)練和測(cè)試兩個(gè)階段,在構(gòu)造模型之前,要求將數(shù)據(jù)集隨機(jī)地分為 訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。在訓(xùn)練階段,使用訓(xùn)練數(shù)據(jù)集,通過(guò)分析由屬性描述的數(shù)據(jù)庫(kù)元 組來(lái)構(gòu)造模型,假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)稱作類標(biāo)號(hào)屬性的屬性來(lái)確定。 訓(xùn)練數(shù)據(jù)集中的單個(gè)元組也稱作訓(xùn)練樣本,一個(gè)具體樣本的形式可為;(ul,u2,……un;c); 其中Ui表示屬性值,C表示類別。由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào),該階段也稱為有指 導(dǎo)的學(xué)習(xí),通常,模型用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供。在測(cè)試階段,使用測(cè)試數(shù) 據(jù)集來(lái)評(píng)估模型的分類準(zhǔn)確度,如果認(rèn)為模型的準(zhǔn)確度可W接受,就可W用該模型對(duì)其它 數(shù)據(jù)元組進(jìn)行分類。本發(fā)明利用DTRA算法生成驗(yàn)證集和訓(xùn)練集中快遞員用戶特征或數(shù)據(jù) 標(biāo)識(shí)的步驟為現(xiàn)有技術(shù)。
[0009] 在DTRA算法運(yùn)用中重點(diǎn)關(guān)注自變量處理方法,包括;選取并評(píng)價(jià)自變量;通過(guò)RFM 算法分析自變量與目標(biāo)變量的關(guān)系,得出各自變量對(duì)因變量的重要程度,選取對(duì)因變量影 響大的自變量,去除無(wú)影響的自變量;對(duì)自變量的相關(guān)性進(jìn)行分析;W及通過(guò)相關(guān)性分析 得出哪些自變量是強(qiáng)相關(guān)的,識(shí)別出兀余變量。
[0010] 本發(fā)明在進(jìn)行事實(shí)寬表數(shù)據(jù)獲取時(shí),所需獲取的具體數(shù)據(jù)指標(biāo)參考表1所示: 表I
【權(quán)利要求】
1. 針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法,其特征是,包括以下步驟: 1) 從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)中獲取疑似快遞員用戶基本信息和通信信息;從流量數(shù)據(jù)倉(cāng)庫(kù)中 獲取疑似快遞員用戶位置信息,并關(guān)聯(lián)形成一張包含多個(gè)疑似快遞員用戶信息的事實(shí)寬 表; 2) 將事實(shí)寬表中多個(gè)疑似快遞員信息數(shù)據(jù)隨機(jī)分為兩部分:一部分為訓(xùn)練集,一部分 為驗(yàn)證集; 3) 訓(xùn)練集中的樣本數(shù)據(jù)按正、負(fù)樣本比例1 :2輸入,所述正樣本數(shù)據(jù)為已確定為快遞 員的用戶,負(fù)樣本數(shù)據(jù)為已確定非快遞員的用戶; 4) 對(duì)訓(xùn)練集正、負(fù)樣本數(shù)據(jù)進(jìn)行預(yù)處理,清除其中的異常值、錯(cuò)值、空值; 5) 以訓(xùn)練集中正、負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的快遞員用戶特征為基礎(chǔ)數(shù)據(jù),利用分類算法中的 決策樹推理DTRA算法,生成快遞員用戶特征規(guī)則集,并找到判定是否為快遞員的因素組 合; 6) 根據(jù)判定是否為快遞員的影響因素確定驗(yàn)證集中的正、負(fù)樣本用戶; 7) 利用DTRA算法,結(jié)合步驟5)中得到的因素組合,生成驗(yàn)證集中的潛在快遞員數(shù)據(jù)標(biāo) 識(shí); 8) 模型效果評(píng)估:對(duì)原驗(yàn)證集中正負(fù)樣本數(shù)據(jù)和步驟6)得到的驗(yàn)證集中正負(fù)樣本數(shù) 據(jù),利用混淆矩陣方法公式: 真正率=步驟6)驗(yàn)證結(jié)果中的正樣本數(shù)目/原驗(yàn)證集中正樣本的數(shù)目; 真負(fù)率=步驟6)驗(yàn)證結(jié)果中的負(fù)樣本數(shù)目/原驗(yàn)證集中負(fù)樣本的數(shù)目; 評(píng)估真正率與真負(fù)率整體準(zhǔn)確度是否達(dá)到要求:如準(zhǔn)確度達(dá)到設(shè)定百分比則對(duì)步驟 7)生成的潛在快遞員數(shù)據(jù)標(biāo)識(shí)進(jìn)行輸出;如準(zhǔn)確度不能達(dá)到要求,則調(diào)整步驟5)中得到 的因素組合中各因素相對(duì)應(yīng)的參數(shù)值,然后重復(fù)步驟6)至步驟8),直至模型準(zhǔn)確度達(dá)到要 求。
2. 根據(jù)權(quán)利要求1所述的方法,其特征是,從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)中獲取的用戶基本信息包 括用戶編碼、年齡、地市、區(qū)縣、時(shí)段、品牌、套餐、手機(jī)號(hào)碼和對(duì)端手機(jī)號(hào)碼信息,通信信息 包括通話次數(shù)和短信次數(shù)信息;從流量數(shù)據(jù)倉(cāng)庫(kù)中獲取的位置信息包括LAC和CELL軌跡數(shù) 據(jù)信息。
3. 根據(jù)權(quán)利要求1所述的方法,其特征是,步驟8)中,設(shè)定模型準(zhǔn)確度百分比為85%。
【文檔編號(hào)】G06F17/30GK104331502SQ201410666023
【公開日】2015年2月4日 申請(qǐng)日期:2014年11月19日 優(yōu)先權(quán)日:2014年11月19日
【發(fā)明者】劉雷 申請(qǐng)人:亞信科技(南京)有限公司