本發(fā)明屬于大數(shù)據(jù)處理的技術(shù)領(lǐng)域,具體地涉及一種通過運營商數(shù)據(jù)進行移固融合的方法。
背景技術(shù):
由于各個企事業(yè)單位的數(shù)據(jù)信息不對稱,且大數(shù)據(jù)公司基本存在競爭關(guān)系,再加上涉及到數(shù)據(jù)安全和隱私問題,所以各個大的互聯(lián)網(wǎng)公司都不會完全將數(shù)據(jù)開放,只會與有限的信任度比較高的合作伙伴進行數(shù)據(jù)合作。
阿里系和京東等電商有用戶的消費數(shù)據(jù)、百度有用戶的搜索數(shù)據(jù)、騰訊和新浪微博有用戶的社交數(shù)據(jù),但是這些公司之間進行數(shù)據(jù)合作的可能非常小。
現(xiàn)有技術(shù)都是對單一屬性數(shù)據(jù)進行分析,很難全面刻畫一個人的屬性??墒窃趯θ诉M行屬性描述的時候,消費數(shù)據(jù)、搜索數(shù)據(jù)、社交數(shù)據(jù)等又是非常重要的,所以有必要對用戶的淘寶ID、京東ID、百度ID、QQ號、新浪微博ID等進行檢測、識別和映射,以便對用戶進行深入分析,這對各種精準營銷和金融征信都是非常重要的。而由于數(shù)據(jù)缺乏,目前還沒有見到對上述ID進行檢測并映射的文獻。
技術(shù)實現(xiàn)要素:
本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供一種通過運營商數(shù)據(jù)進行移固融合的方法,其能夠更準確地識別哪些ID屬于同一個用戶,全面刻畫該用戶的屬性,方便對用戶進行深入分析,對各種精準營銷和金融征信具有重要意義。
本發(fā)明的技術(shù)解決方案是:這種通過運營商數(shù)據(jù)進行移固融合的方法,其包括以下步驟:
(1)通過運營商數(shù)據(jù)提取用戶的各個賬號信息;
(2)對固定網(wǎng)絡(luò)的賬號ID進行映射,識別屬于同一個用戶的ID;
(3)對移動網(wǎng)絡(luò)的賬號ID進行映射,識別屬于同一個用戶的ID;
(4)對固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的ID進行映射,進行固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的融合。
由于本發(fā)明采用運營商數(shù)據(jù)做移固融合,并映射用戶的各個ID,因此能夠更準確地識別哪些ID屬于同一個用戶,全面刻畫該用戶的屬性,方便對用戶進行深入分析,對各種精準營銷和金融征信具有重要意義。
還提供了一種通過運營商數(shù)據(jù)進行移固融合的系統(tǒng),其包括:
數(shù)據(jù)提取器,其配置來通過運營商數(shù)據(jù)提取用戶的各個賬號信息;
固定網(wǎng)絡(luò)賬號匹配器,其配置來對固定網(wǎng)絡(luò)的賬號ID進行映射,識別屬于同一個用戶的ID;
移動網(wǎng)絡(luò)賬號匹配器,其配置來對移動網(wǎng)絡(luò)中的ID進行映射,識別屬于同一個用戶的ID;
融合器,其配置來對固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的ID進行映射,進行固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的融合。
附圖說明
圖1是根據(jù)本發(fā)明的通過運營商數(shù)據(jù)進行移固融合的方法的流程圖。
圖2是根據(jù)本發(fā)明的整體架構(gòu)圖。
圖3是根據(jù)本發(fā)明的評分矩陣的示意圖。
圖4是圖3的評分矩陣對應(yīng)的ID的示意圖。
具體實施方式
在訪問一個網(wǎng)頁時,大多數(shù)網(wǎng)頁都會嵌套廣告,例如京東、淘寶、騰訊QQ、百度等都有很大的廣告調(diào)度平臺,而在一個網(wǎng)頁中嵌套不同的廣告商的廣告的概率是很高的,每個廣告都在自已的域下,那么就可以形成一個樹型結(jié)構(gòu)即父頁下有多個不同域的廣告的情況。
可以通過在很短時間窗口內(nèi)匯聚同一固網(wǎng)帳戶下,REFER為同一網(wǎng)頁或域的ID,認為其可能是同一機器的一個ID,當(dāng)兩個ID在不同的網(wǎng)頁下,多次同時出現(xiàn),則認為這些ID是同一人的ID,同時出現(xiàn)幾率越高,可能性越大。
在手機端,如果用戶使用一個APP的時候,在與服務(wù)器進行數(shù)據(jù)傳輸時,會出現(xiàn)京東賬號、QQ號、淘寶賬號、IMEI號、手機號和IDFA等,訪問不同APP時,會出現(xiàn)不同上述ID賬號。通過IMEI號或手機號可以進行各ID的映射mapping。
如圖1所示,這種通過運營商數(shù)據(jù)進行移固融合的方法,其包括以下步驟:
(1)通過運營商數(shù)據(jù)提取用戶的各個賬號信息;
(2)對固定網(wǎng)絡(luò)的賬號ID進行映射,識別屬于同一個用戶的ID;
(3)對移動網(wǎng)絡(luò)的賬號ID進行映射,識別屬于同一個用戶的ID;
(4)對固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的ID進行映射,進行固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的融合。
由于本發(fā)明采用運營商數(shù)據(jù)做移固融合,并匹配用戶的各個ID,因此能夠更準確地識別哪些ID屬于同一個用戶,全面刻畫該用戶的屬性,方便對用戶進行深入分析,對各種精準營銷和金融征信具有重要意義。
圖2是根據(jù)本發(fā)明的整體架構(gòu)圖。IDmapingRawDatagenner:從各運營商收集的原始數(shù)據(jù),為IDmaping的數(shù)據(jù)源。HttpLogData:每天生成的原始日志。MobileIDmapingCleaner:對輸入的移動日志進行清洗,輸出ID與ID的1對1關(guān)系數(shù)據(jù),為后期數(shù)據(jù)處理提供幫助。PCAPPIDMerger:對原始IDMAPPING進行處理,并輸出PC中APPID的MAPING結(jié)果,并存放到指定位置。MobileIDmapingMergeTool:對移網(wǎng)中的數(shù)據(jù)進行mapping,對固網(wǎng)端的Mobile數(shù)據(jù)(通過wifi上網(wǎng)的數(shù)據(jù))進行mapping。PcIDmapingTool:將PC中mobiledata和PcappData進行mapping,輸入Pc的最終mapping結(jié)果。
另外,所述步驟(2)中對固定網(wǎng)絡(luò)的賬號ID進行映射包括:對pc端的ID進行映射和移動設(shè)備的ID進行映射。
另外,對PC端的ID進行映射,采用協(xié)同過濾算法,根據(jù)用戶的網(wǎng)頁行為確定用戶的相似度。通常情況下,同一個用戶網(wǎng)頁行為是相近的,只關(guān)心幾類內(nèi)容的網(wǎng)頁和網(wǎng)站。或者向同一個DSP平臺發(fā)出的時間差很小。通過對包含有不同ID的url或useragent的訪問時間作為對用戶的評分。評分矩陣如圖3所示。評分矩陣對應(yīng)的ID如圖4所示。
另外,所述步驟(2)包括以下分步驟:
(2.1)抽出在一個報文中包含的兩個或多個ID,打散成1對1的關(guān)系對;
(2.2)過濾干擾的國際移動設(shè)備身份碼IMEI(因為很多山寨手機的IMEI是批量植入的,會造成很多手機的IMEI相同);
(2.3)通過聯(lián)通子圖算法將所有相關(guān)聯(lián)的ID串聯(lián)起來,得到結(jié)果集。
另外,所述步驟(2.2)中,通過HIVE方法選出要過濾的IMSI。
另外,所述步驟(3)中,通過用戶身份證明UID聚合所有抽取的帳戶,其賬戶集為一個人的帳戶信息。
另外,所述步驟(3)包括以下分步驟:
(3.1)通過映射規(guī)約MAPREDUCE方法,將原數(shù)據(jù)打散成1對1的關(guān)系對;
(3.2)通過HIVE方法以UID維度聚合所有帳戶,得到結(jié)果。
另外,所述步驟(4)中,將移動網(wǎng)絡(luò)端的用戶各賬號ID與固定網(wǎng)絡(luò)端的用戶各賬號ID進行交叉對比,找到相同的ID號,然后進行整體映射,進行固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的融合。
還提供了一種通過運營商數(shù)據(jù)進行移固融合的系統(tǒng),其包括:
數(shù)據(jù)提取器,其配置來通過運營商數(shù)據(jù)提取用戶的各個賬號信息;
固定網(wǎng)絡(luò)賬號匹配器,其配置來對固定網(wǎng)絡(luò)的賬號ID進行映射,識別屬于同一個用戶的ID;
移動網(wǎng)絡(luò)賬號匹配器,其配置來對移動網(wǎng)絡(luò)中的ID進行映射,識別屬于同一個用戶的ID;
融合器,其配置來對固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的ID進行映射,進行固定網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的融合。
以上所述,僅是本發(fā)明的較佳實施例,并非對本發(fā)明作任何形式上的限制,凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬本發(fā)明技術(shù)方案的保護范圍。