本發(fā)明涉及大數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于固網(wǎng)大數(shù)據(jù)挖掘用戶聯(lián)系電話的方法,還涉及一種實(shí)現(xiàn)所述基于固網(wǎng)大數(shù)據(jù)挖掘用戶聯(lián)系電話的方法的系統(tǒng)。
背景技術(shù):
寬帶運(yùn)營商在各個(gè)地市有不同的寬帶用戶,在這些用戶寬帶快到期的前一個(gè)月,寬帶運(yùn)營商會(huì)給到運(yùn)營部的同事一批電話號(hào)碼去聯(lián)系用戶及時(shí)續(xù)費(fèi)。但是很多用戶當(dāng)時(shí)申請(qǐng)寬帶時(shí)填寫的聯(lián)系電話號(hào)碼失效了,無法聯(lián)系上用戶,導(dǎo)致客戶的流失。目前整體續(xù)費(fèi)率一般只有50~60%;并且寬帶運(yùn)營商提供固網(wǎng)續(xù)費(fèi)聯(lián)系號(hào)碼中聯(lián)電失效占比30~40%,這一比率是相當(dāng)高。
技術(shù)實(shí)現(xiàn)要素:
為解決現(xiàn)有技術(shù)中的問題,本發(fā)明提供一種基于固網(wǎng)大數(shù)據(jù)挖掘用戶聯(lián)系電話的方法,還提供一種實(shí)現(xiàn)所述方法的系統(tǒng),用于提煉出每一個(gè)寬帶下用戶的聯(lián)系方式,從而提高了用戶的續(xù)費(fèi)量。
本發(fā)明基于固網(wǎng)大數(shù)據(jù)挖掘用戶聯(lián)系電話的方法包括如下步驟:
s1:采集用戶的上網(wǎng)日志;
s2:上網(wǎng)日志預(yù)處理,清洗出包含電話號(hào)碼的上網(wǎng)日志;
s3:抓取電話號(hào)碼,并對(duì)電話號(hào)碼進(jìn)行準(zhǔn)確性建模分析,提取出符合要求的電話號(hào)碼;
s4:對(duì)提取的電話號(hào)碼建立積分模型,獲取最終與用戶匹配的電話號(hào)碼。
本發(fā)明作進(jìn)一步改進(jìn),在步驟s1中,通過在各個(gè)地市部署互動(dòng)采集服務(wù)器,收集各個(gè)地市上網(wǎng)的日志記錄,然后將采集的上網(wǎng)日志傳回?cái)?shù)據(jù)預(yù)處理服務(wù)器中心。
本發(fā)明作進(jìn)一步改進(jìn),步驟s2的處理過程包括:
s21:通過正則表達(dá)式清洗上網(wǎng)日志,同時(shí)滿足電話號(hào)碼前一位及后一位為非數(shù)字;
s22:將預(yù)處理的數(shù)據(jù)按照規(guī)則排版好,傳回大數(shù)據(jù)平臺(tái);
s23:大數(shù)據(jù)平臺(tái)將每天的批次數(shù)據(jù)寫進(jìn)hdfs,用hive建立外部表指向當(dāng)天所在批次的數(shù)據(jù)路徑;
s24:建立分區(qū)表對(duì)歷史數(shù)據(jù)進(jìn)行存儲(chǔ)。
本發(fā)明作進(jìn)一步改進(jìn),在步驟s3中,所述準(zhǔn)確性建模分析的分析因子包括:電話號(hào)碼出現(xiàn)時(shí)所在的主域名、電話號(hào)碼出現(xiàn)的次數(shù)、電話號(hào)碼在不同主域名出現(xiàn)的次數(shù)、同一個(gè)電話號(hào)碼在不同的寬帶用戶下出現(xiàn)的次數(shù);
處理過程包括:
非本市號(hào)碼過濾步驟:對(duì)每個(gè)地市出現(xiàn)的電話號(hào)碼按城市進(jìn)行匹配,過濾掉非本市的電話號(hào)碼;
精準(zhǔn)性排序步驟:按出現(xiàn)在不同的主域名下的電話號(hào)碼進(jìn)行精準(zhǔn)性排序,出現(xiàn)的次數(shù)越多排名越靠前;
過濾清洗步驟:對(duì)同一個(gè)電話號(hào)碼,出現(xiàn)在同一個(gè)主域名,且出現(xiàn)在不同的寬帶賬號(hào)下,進(jìn)行過濾清洗。
本發(fā)明作進(jìn)一步改進(jìn),在步驟s3執(zhí)行后,步驟s4執(zhí)行前,還包括數(shù)據(jù)驗(yàn)證步驟:將得到的號(hào)碼與確認(rèn)的正確號(hào)碼做交集,從而尋找其特征,對(duì)電話號(hào)碼進(jìn)行二次處理。
本發(fā)明作進(jìn)一步改進(jìn),所述特征包括這些正確的電話號(hào)碼經(jīng)常出現(xiàn)在哪些主域名當(dāng)中,并對(duì)這些主域名按照電話號(hào)碼正確率的高低進(jìn)行優(yōu)先級(jí)排序。
本發(fā)明作進(jìn)一步改進(jìn),在步驟s4中,所述積分模型的參數(shù)包括電話號(hào)碼歸屬地、主域名的優(yōu)先級(jí)、同一電話號(hào)碼出現(xiàn)在不同主域名的個(gè)數(shù)、同一電話號(hào)碼出現(xiàn)在不通寬帶下的次數(shù)。
本發(fā)明作進(jìn)一步改進(jìn),所述積分模型獲得的分值能夠根據(jù)機(jī)器自學(xué)習(xí)調(diào)整。
本發(fā)明還提供一種實(shí)現(xiàn)所述方法的系統(tǒng),包括:
采集模塊:用于采集用戶的上網(wǎng)日志;
上網(wǎng)日志預(yù)處理模塊:用于對(duì)上網(wǎng)日志預(yù)處理,清洗出包含電話號(hào)碼的上網(wǎng)日志;
電話號(hào)碼抓取模塊:用于抓取電話號(hào)碼,并對(duì)電話號(hào)碼進(jìn)行準(zhǔn)確性建模分析,提取出符合要求的電話號(hào)碼;
電話號(hào)碼篩選模塊:用于對(duì)提取的電話號(hào)碼建立積分模型,獲取最終與用戶匹配的電話號(hào)碼。
本發(fā)明作進(jìn)一步改進(jìn),所述采集模塊為在各個(gè)地市部署的互動(dòng)采集服務(wù)器;所述上網(wǎng)日志預(yù)處理模塊為與互動(dòng)采集服務(wù)器相連的數(shù)據(jù)預(yù)處理服務(wù)器中心;所述電話號(hào)碼抓取模塊和電話號(hào)碼篩選模塊設(shè)置在與數(shù)據(jù)預(yù)處理服務(wù)器中心相連的大數(shù)據(jù)平臺(tái)中。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:能夠有效獲取寬帶下用戶手機(jī)號(hào)碼;降低失聯(lián)用戶占比,減少客戶的流失,提高寬帶運(yùn)營商續(xù)費(fèi)率。
附圖說明
圖1為本發(fā)明方法流程圖;
圖2為數(shù)據(jù)預(yù)處理及數(shù)據(jù)驗(yàn)證處理框圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。
如圖1和圖2所示,本發(fā)明基于固網(wǎng)大數(shù)據(jù)挖掘用戶聯(lián)系電話的方法包括如下步驟:
步驟s1:采集用戶的上網(wǎng)日志;首先通過搭建ftp服務(wù)器能夠從用戶上網(wǎng)日志里面搜集到用戶上網(wǎng)日志的url,現(xiàn)在很多網(wǎng)站注冊(cè)或者登陸的時(shí)候用戶都習(xí)慣用自己的手機(jī)號(hào)碼作為用戶名登陸,然后我們抓取到這些海量電話號(hào)碼后,把各個(gè)地市的數(shù)據(jù)采集到一臺(tái)統(tǒng)一的服務(wù)器,由于數(shù)據(jù)量較大,本例目前只保留了三天的數(shù)據(jù),當(dāng)然,如果處理器及存儲(chǔ)空間允許,也可以保留更長(zhǎng)時(shí)間。
本例通過在各個(gè)地市部署互動(dòng)采集服務(wù)器,收集各個(gè)地市上網(wǎng)的日志記錄,然后將采集的上網(wǎng)日志連同現(xiàn)有的固網(wǎng)營銷清單、地市手機(jī)號(hào)段一起作為數(shù)據(jù)源傳回?cái)?shù)據(jù)預(yù)處理服務(wù)器中心。
步驟s2:上網(wǎng)日志預(yù)處理,清洗出包含電話號(hào)碼的上網(wǎng)日志。
數(shù)據(jù)預(yù)處理服務(wù)器中心收到數(shù)據(jù)源后,對(duì)日志記錄進(jìn)行預(yù)處理,其中,處理過程包括如下步驟:
s21:通過shell的正則表達(dá)式清洗上網(wǎng)日志,同時(shí)滿足電話號(hào)碼前一位及后一位為非數(shù)字;比如清晰掉無號(hào)碼的數(shù)據(jù)、清洗掉寬帶號(hào)碼、然后對(duì)余下的手機(jī)號(hào)碼進(jìn)行處理。
s22:將預(yù)處理的數(shù)據(jù)按照規(guī)則排版好,傳回大數(shù)據(jù)平臺(tái);
s23:大數(shù)據(jù)平臺(tái)將每天的批次數(shù)據(jù)寫進(jìn)hdfs(分布式文件系統(tǒng)),用hive(hive是基于hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的sql查詢功能)建立外部表指向當(dāng)天所在批次的數(shù)據(jù)路徑;其中,hadoop是一個(gè)由apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
s24:建立分區(qū)表對(duì)歷史數(shù)據(jù)進(jìn)行存儲(chǔ)。
本例采集固網(wǎng)寬帶用戶的海量上網(wǎng)日志,利用hadoop大數(shù)據(jù)技術(shù)從用戶這些上網(wǎng)日志里面挖掘出用戶的聯(lián)系方式,建立一個(gè)龐大的用戶聯(lián)系資源庫。
步驟s3:抓取電話號(hào)碼,并對(duì)電話號(hào)碼進(jìn)行準(zhǔn)確性建模分析,提取出符合要求的電話號(hào)碼。
所述準(zhǔn)確性建模分析的分析因子包括:電話號(hào)碼出現(xiàn)時(shí)所在的主域名、電話號(hào)碼出現(xiàn)的次數(shù)、電話號(hào)碼在不同主域名出現(xiàn)的次數(shù)、同一個(gè)電話號(hào)碼在不同的寬帶用戶下出現(xiàn)的次數(shù)等。
所述準(zhǔn)確性建模分析的主要包括如下處理分析步驟(以下步驟不分先后):
非本市號(hào)碼過濾步驟:對(duì)每個(gè)地市出現(xiàn)的電話號(hào)碼按城市進(jìn)行匹配,過濾掉非本市的電話號(hào)碼。每個(gè)11位的電話號(hào)碼的前七位可定位出該號(hào)碼所在的地市,建立配置表對(duì)各個(gè)地市的數(shù)據(jù)做針對(duì)性的清洗工作。
精準(zhǔn)性排序步驟:按出現(xiàn)在不同的主域名下的電話號(hào)碼進(jìn)行精準(zhǔn)性排序,出現(xiàn)的次數(shù)越多排名越靠前。
過濾清洗步驟:對(duì)同一個(gè)電話號(hào)碼,出現(xiàn)在同一個(gè)主域名,且出現(xiàn)在不同的寬帶賬號(hào)下,進(jìn)行過濾清洗,比如是某個(gè)網(wǎng)站的同一張圖片。
在步驟s3執(zhí)行后,將還包括數(shù)據(jù)驗(yàn)證步驟:將進(jìn)行準(zhǔn)確性分析的電話號(hào)碼給運(yùn)營部門進(jìn)行數(shù)據(jù)驗(yàn)證,運(yùn)營部門會(huì)統(tǒng)計(jì)號(hào)碼呼通率、號(hào)碼準(zhǔn)確性、寬帶匹配率、寬帶手機(jī)號(hào)碼匹配率、聯(lián)電失效號(hào)碼抓取率、聯(lián)電失效呼通率、聯(lián)電失效準(zhǔn)確率等數(shù)據(jù),然后再將得到的號(hào)碼與確認(rèn)的正確號(hào)碼做交集,也就是把大數(shù)據(jù)初步分析出來的電話號(hào)碼結(jié)果集,與寬帶運(yùn)營方給運(yùn)營部撥打過的正確的號(hào)碼做交集,從而可以從大數(shù)據(jù)分析出的結(jié)果中找出那一部分準(zhǔn)確的電話號(hào)碼,然后針對(duì)這一部分準(zhǔn)確的電話號(hào)碼尋找其特征,比如這些號(hào)碼經(jīng)常出現(xiàn)在哪些主域名當(dāng)中,并對(duì)這些主域名按照電話號(hào)碼正確率的高低進(jìn)行優(yōu)先級(jí)排序等等,通過這些特征對(duì)電話號(hào)碼進(jìn)行二次處理。
比如,對(duì)運(yùn)營部門反饋的結(jié)果進(jìn)行分析,如某個(gè)主域名下的電話號(hào)碼全部錯(cuò)誤,則可能是網(wǎng)站數(shù)據(jù)庫主鍵id自增長(zhǎng)剛好符合電話號(hào)碼規(guī)則,對(duì)此種網(wǎng)站進(jìn)行過濾。
又或者,對(duì)于公司集團(tuán)網(wǎng)絡(luò)中,出現(xiàn)大量電話號(hào)碼都是錯(cuò)誤的,那么就會(huì)通過數(shù)據(jù)驗(yàn)證后的結(jié)果,對(duì)其寬帶賬號(hào)進(jìn)行過濾。
然后,數(shù)據(jù)驗(yàn)證后,會(huì)根據(jù)驗(yàn)證結(jié)果對(duì)提取的電話號(hào)碼建立積分模型,獲取最終與用戶匹配的電話號(hào)碼。
所述積分模型的參數(shù)包括電話號(hào)碼歸屬地、主域名的優(yōu)先級(jí)、同一電話號(hào)碼出現(xiàn)在不同主域名的個(gè)數(shù)、同一電話號(hào)碼出現(xiàn)在不通寬帶下的次數(shù)。
比如,本地市的號(hào)碼比外省號(hào)碼分值高,出現(xiàn)在優(yōu)先級(jí)較高的主域名獲得分值高,同一個(gè)號(hào)碼出現(xiàn)在了不同的主域名獲得較高分值,同一個(gè)號(hào)碼出現(xiàn)在了不同的寬帶下次數(shù)大于20次采取過濾,然后通過我們的建模積分模型擇優(yōu)出3個(gè)最準(zhǔn)確的號(hào)碼。
當(dāng)然,本例的準(zhǔn)確性建模分析和積分模型獲得的分值,根據(jù)運(yùn)營部門驗(yàn)證的結(jié)果不斷迭代優(yōu)化,實(shí)時(shí)調(diào)整,其是一個(gè)機(jī)器自學(xué)習(xí)調(diào)整過程。
本發(fā)明還提供一種實(shí)現(xiàn)所述方法的系統(tǒng),包括:
采集模塊:用于采集用戶的上網(wǎng)日志;
上網(wǎng)日志預(yù)處理模塊:用于對(duì)上網(wǎng)日志預(yù)處理,清洗出包含電話號(hào)碼的上網(wǎng)日志;
電話號(hào)碼抓取模塊:用于抓取電話號(hào)碼,并對(duì)電話號(hào)碼進(jìn)行準(zhǔn)確性建模分析,提取出符合要求的電話號(hào)碼;
電話號(hào)碼篩選模塊:用于對(duì)提取的電話號(hào)碼建立積分模型,獲取最終與用戶匹配的電話號(hào)碼。
本發(fā)明作進(jìn)一步改進(jìn),所述采集模塊為在各個(gè)地市部署的互動(dòng)采集服務(wù)器;所述上網(wǎng)日志預(yù)處理模塊為與互動(dòng)采集服務(wù)器相連的數(shù)據(jù)預(yù)處理服務(wù)器中心;所述電話號(hào)碼抓取模塊和電話號(hào)碼篩選模塊設(shè)置在與數(shù)據(jù)預(yù)處理服務(wù)器中心相連的大數(shù)據(jù)平臺(tái)中。
本發(fā)明通過抓取各個(gè)地市用戶的海量上網(wǎng)日志,大數(shù)據(jù)建模分析,提煉出每一個(gè)寬帶下用戶的聯(lián)系方式,從而提高了用戶的續(xù)費(fèi)量;能夠有效獲取寬帶下用戶手機(jī)號(hào)碼;降低失聯(lián)用戶占比,減少客戶的流失。
以上所述之具體實(shí)施方式為本發(fā)明的較佳實(shí)施方式,并非以此限定本發(fā)明的具體實(shí)施范圍,本發(fā)明的范圍包括并不限于本具體實(shí)施方式,凡依照本發(fā)明所作的等效變化均在本發(fā)明的保護(hù)范圍內(nèi)。