本發(fā)明涉及一種構(gòu)建用戶畫像的系統(tǒng)。
背景技術(shù):
用戶畫像,即用戶信息標(biāo)簽化,就是通過收集與分析用戶社會屬性、生活習(xí)慣、消費行為等主要信息的數(shù)據(jù)之后,完美地抽象出一個用戶全貌是支撐個性化推薦、自動化營銷等大數(shù)據(jù)應(yīng)用的基本方式。用戶畫像為公司或企業(yè)提供了足夠的信息基礎(chǔ),能夠幫助企業(yè)快速找到精準(zhǔn)用戶群體以及用戶需求等更為廣泛的反饋信息。
然而,現(xiàn)有的用戶畫像構(gòu)建的方法中,對用戶上網(wǎng)數(shù)據(jù)分析不全面、不準(zhǔn)確,從而導(dǎo)致構(gòu)建的用戶畫像不能很好的體現(xiàn)用戶全貌,無法滿足廣告運營商或者企業(yè)找到精準(zhǔn)用戶的需求。
技術(shù)實現(xiàn)要素:
本發(fā)明主要解決的技術(shù)問題是提供一種構(gòu)建用戶畫像的系統(tǒng),通過該系統(tǒng)能夠構(gòu)建全息多維度的用戶畫像。
為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是:提供一種構(gòu)建用戶畫像的系統(tǒng),所述構(gòu)建用戶畫像的系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)應(yīng)用模塊以及數(shù)據(jù)業(yè)務(wù)模塊,其中:所述數(shù)據(jù)采集模塊用于采集所述用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù);所述數(shù)據(jù)預(yù)處理模塊用于對所述用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行預(yù)處理;所述數(shù)據(jù)分析模塊用于對預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行特征提取,得到所述用戶的屬性特征;所述數(shù)據(jù)應(yīng)用模塊用于基于已建立的多維特征庫訓(xùn)練的標(biāo)簽分類,根據(jù)所述用戶的屬性特征在所述多維特征庫中進行匹配,得到所述用戶的多維度屬性標(biāo)簽,所述多維度屬性標(biāo)簽至少包括所 述用戶的基本屬性標(biāo)簽、社會屬性標(biāo)簽、上網(wǎng)行為屬性標(biāo)簽、行為習(xí)慣屬性標(biāo)簽以及興趣特征屬性標(biāo)簽;所述數(shù)據(jù)業(yè)務(wù)模塊用于根據(jù)所述多維度屬性標(biāo)簽構(gòu)建所述用戶畫像。
其中,所述數(shù)據(jù)分析模塊用于分別通過離線和在線方式對預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行分析處理,得到所述用戶的屬性特征。
其中,所述數(shù)據(jù)分析模塊包括加載單元以及離線分析單元,其中:所述加載單元用于將預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)加載到數(shù)據(jù)存儲平臺中;所述離線分析單元用于結(jié)合數(shù)據(jù)存儲平臺中存儲的歷史數(shù)據(jù),基于Hadoop開源映射/化簡計算框架,對所述預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行離線分析處理,得到所述用戶的屬性特征。
其中,所述數(shù)據(jù)分析模塊包括分布單元以及在線分析單元,其中:所述分布單元用于將預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)均勻分布到卡夫卡集群;所述在線分析單元用于通過Spark核心流計算平臺實時從所述卡夫卡集群拉取數(shù)據(jù)并進行實時流計算分析處理,得到所述用戶的屬性特征。
其中,所述已建立的多維特征庫包括運營商基礎(chǔ)信息庫、終端類型基礎(chǔ)庫、應(yīng)用程序分類庫、統(tǒng)一資源定位符URL分類庫、訪問網(wǎng)站及行為規(guī)律統(tǒng)計特征庫、上網(wǎng)內(nèi)容聚類結(jié)果庫、用戶群體分類庫、命名實體識別內(nèi)容提取庫、動態(tài)標(biāo)簽分類管理庫、互聯(lián)網(wǎng)網(wǎng)站特征庫、歷史用戶興趣關(guān)注點庫以及終端移動軌跡變化庫中的至少一種。
其中,所述數(shù)據(jù)分析模塊還用于構(gòu)建所述多維特征庫,其中,所述數(shù)據(jù)分析模塊通過以下方式構(gòu)建所述多維特征庫:通過外圍系統(tǒng)或呼叫詳細記錄話單日志數(shù)據(jù)的接入,對所有用戶的國際用戶識別碼、所屬運營商、網(wǎng)絡(luò)類型、歸屬地、漫游地、位置中的至少一種基礎(chǔ)信息進行提取分析,累積得到所述運營商基礎(chǔ)信息庫;或通過獲取所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對所述所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中的移動終端國際身份碼、終端型號、品牌類型、終端操作系統(tǒng)中的至少一種相關(guān)信息進行提取分析,累積得到所述終端類型基礎(chǔ)庫;或通過獲取所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),過濾掉無效URL,針對有效的URL建立所述有效URL 所屬網(wǎng)站的所述URL分類庫;或通過獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),從所述所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中提取應(yīng)用程序類型,通過人工和自動相結(jié)合的方式定期對所述應(yīng)用程序類型進行分類、統(tǒng)計,以形成所述應(yīng)用程序分類庫;或通過獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),針對每個用戶的上網(wǎng)情況,對用戶的常去訪問網(wǎng)站以及行為進行累積統(tǒng)計,形成所述訪問網(wǎng)站和行為規(guī)律統(tǒng)計特征庫;或通過獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),針對每個用戶的上網(wǎng)產(chǎn)生的日志情況,對所述每個用戶常在日志中產(chǎn)生的用戶內(nèi)容形成基于用戶內(nèi)容的特征聚類,產(chǎn)生所述上網(wǎng)內(nèi)容聚類結(jié)果庫;或通過獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對具有相同特征標(biāo)簽或相同屬性或相同業(yè)務(wù)特征的用戶進行聚類合并,形成所述用戶群體分類庫;或通過結(jié)合離線存儲所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對所有用戶的上網(wǎng)行為進行分析,對產(chǎn)生的行為進行統(tǒng)計,進而對用戶關(guān)注內(nèi)容進行聚類分析以形成所述歷史用戶興趣關(guān)注點庫;或通過對所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中導(dǎo)航地圖類應(yīng)用程序進行分析,得到用戶移動變化的經(jīng)緯度位置信息,將所述經(jīng)緯度信息與地理信息系統(tǒng)展示結(jié)合,得到用戶的移動軌跡,同時對用戶位置停留時間進行統(tǒng)計,從而得到每個用戶常去地區(qū),對所有用戶常去地區(qū)進行匯總從而形成所述終端移動軌跡變化庫;或根據(jù)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),通過主流的命名實體識別算法及訓(xùn)練樣本集,對上網(wǎng)內(nèi)容中具有特定意義的實體進行提取,建立所述命名實體識別內(nèi)容提取庫;或預(yù)先根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類標(biāo)準(zhǔn),根據(jù)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志,對所述所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志中的互聯(lián)網(wǎng)網(wǎng)站進行特征收集,構(gòu)建所述互聯(lián)網(wǎng)網(wǎng)站特征庫;或基于每個特征庫訓(xùn)練的標(biāo)簽分類,將所有特征庫訓(xùn)練的標(biāo)簽分類進行匯總歸并,建立用戶偏好的所述動態(tài)標(biāo)簽分類管理庫。
其中,所述用戶的基本屬性標(biāo)簽包括用戶名、用戶標(biāo)識、性別、民族、國籍、年齡區(qū)間段、學(xué)歷、職業(yè)、收入水平、用戶終端、國際用戶識別碼、國際移動終端標(biāo)識碼、所屬運營商、網(wǎng)絡(luò)類型、歸屬地、漫游地、位置、終端品牌類型、終端型號、終端操作系統(tǒng)以及終端安裝的應(yīng) 用程序中的至少一種;所述社會屬性標(biāo)簽包括行業(yè)、職業(yè)、工作地點、居住地點、銀行卡、會員卡以及交通工具中的至少一種;所述上網(wǎng)行為屬性標(biāo)簽包括瀏覽、搜索、下載、購買以及評論中的至少一種;所述行為習(xí)慣屬性標(biāo)簽包括日均上網(wǎng)時間、常登錄網(wǎng)站以及常用應(yīng)用程序中的至少一種;所述興趣特征屬性標(biāo)簽包括體育、音樂、社交、資訊、購物、休閑、旅游、游戲以及投資理財中的至少一種。
其中,所述數(shù)據(jù)應(yīng)用模塊還用于在所述已建立的多維特征庫中找不到與所述用戶的屬性特征匹配的多維度屬性標(biāo)簽時,將所述用戶的屬性特征以及對應(yīng)的多維度屬性標(biāo)簽添加到所述多維特征庫中。
其中,所述數(shù)據(jù)采集模塊用于實時采集所述用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),以對所述用戶的多維度屬性標(biāo)簽進行更新。
其中,所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)為移動互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)。
本發(fā)明的有益效果是:區(qū)別于現(xiàn)有技術(shù)的情況,本發(fā)明提供的構(gòu)建用戶畫像的系統(tǒng),該構(gòu)建用戶畫像的系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)應(yīng)用模塊以及數(shù)據(jù)業(yè)務(wù)模塊,其中:數(shù)據(jù)采集模塊用于采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),數(shù)據(jù)預(yù)處理模塊用于對用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行預(yù)處理,數(shù)據(jù)分析模塊用于對預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行特征提取,得到用戶的屬性特征,數(shù)據(jù)應(yīng)用模塊用于基于已建立的多維特征庫訓(xùn)練的標(biāo)簽分類,根據(jù)用戶的屬性特征在多維特征庫中進行匹配,得到用戶的多維度屬性標(biāo)簽,數(shù)據(jù)業(yè)務(wù)模塊用于根據(jù)所述多維度屬性標(biāo)簽構(gòu)建所述用戶畫像。通過本發(fā)明提供的系統(tǒng),能夠?qū)τ脩舻纳暇W(wǎng)數(shù)據(jù)進行全面、準(zhǔn)確的分析從而確定用戶的多維度屬性標(biāo)簽,從而根據(jù)多維度屬性標(biāo)簽構(gòu)建用戶畫像,能夠構(gòu)建出全息的多維度用戶畫像,從而能夠滿足運營商/企業(yè)/公司快速精準(zhǔn)廣告投放和用戶群體的消費行為的推薦。
附圖說明
圖1是本發(fā)明實施例提供的一種構(gòu)建用戶畫像的系統(tǒng)的結(jié)構(gòu)示意圖;
圖2是本發(fā)明實施例提供的構(gòu)建用戶畫像的系統(tǒng)中數(shù)據(jù)分析模塊的 其中一種結(jié)構(gòu)示意圖;
圖3是本發(fā)明實施例中提供的構(gòu)建用戶畫像的系統(tǒng)中數(shù)據(jù)分析模塊的另一種結(jié)構(gòu)示意圖。
具體實施方式
請參閱圖1,圖1是本發(fā)明實施例提供的一種構(gòu)建用戶畫像的系統(tǒng)的結(jié)構(gòu)示意圖,如圖所示,本發(fā)明實施例的構(gòu)建用戶畫像的系統(tǒng)100包括數(shù)據(jù)采集模塊11、數(shù)據(jù)預(yù)處理模塊12、數(shù)據(jù)分析模塊13、數(shù)據(jù)應(yīng)用模塊14以及數(shù)據(jù)業(yè)務(wù)模塊15,其中:
數(shù)據(jù)采集模塊11用于采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)。
構(gòu)建用戶畫像的系統(tǒng)通過與外圍系統(tǒng)對接,通過數(shù)據(jù)采集模塊11采集原始數(shù)據(jù)或通過從運營商對接的分光設(shè)備,實時采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)。其中,用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)包括但不限于是移動互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)、有線無線互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)等等。
數(shù)據(jù)預(yù)處理模塊12用于對用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行預(yù)處理。
由于獲取的上網(wǎng)日志數(shù)據(jù)類型種類比較多,網(wǎng)絡(luò)通信協(xié)議種類也比較豐富,噪音垃圾信息較多。因此,需要對日志數(shù)據(jù)進行數(shù)據(jù)預(yù)處理(清洗、整合),形成規(guī)范的日志格式化,即將上網(wǎng)日志數(shù)據(jù)按照統(tǒng)一規(guī)范形成日志分析需要的基本信息。
數(shù)據(jù)預(yù)處理模塊12對獲取的用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行預(yù)處理,以使得用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)按照統(tǒng)一規(guī)范進行格式化。因為互聯(lián)網(wǎng)的信息滿足4A(Anyone,Anytime,Anywhere,Anything)特性,這些非結(jié)構(gòu)化的信息可以被統(tǒng)一標(biāo)識為何時(When),何地(Where),與誰(Who)和關(guān)于什么(What)被分享給誰(Who)。因此,數(shù)據(jù)預(yù)處理模塊12可以設(shè)計一種隱式數(shù)據(jù)的表述格式為:Who,When,Where and What to Whom?;ヂ?lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)都可以被表達為這樣的格式,從而達到了使得預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)都能統(tǒng)一格式。
數(shù)據(jù)分析模塊13用于對預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行分析處理,得到用戶的屬性特征。
通過特征提取,可以得到用戶的屬性特征。用戶的屬性特征是指能夠標(biāo)識用戶特征的關(guān)鍵信息。比如對上網(wǎng)(或呼叫詳細記錄CDR話單日志)中可解析的文本內(nèi)容進行分析,主要對文本內(nèi)容中的人名、地名、機構(gòu)名等進行識別,實現(xiàn)用戶基本信息的提取。
其中,本發(fā)明實施例中,數(shù)據(jù)分析模塊13可以通過在線(即實時)和離線相結(jié)合的方式對預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行特征提取,從而得到用戶的屬性特征。在線處理方式只能對當(dāng)前的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行處理,而離線處理方式可以結(jié)合歷史存儲數(shù)據(jù)進行分析處理,從而可以對在線處理方式?jīng)]有提取的用戶屬性特征進行補充和完善。通過在線和離線處理方式對互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行處理,從而可以將當(dāng)前數(shù)據(jù)與歷史數(shù)據(jù)進行關(guān)聯(lián)挖掘分析,使得提取的用戶屬性更加全面完整。
其中,請進一步參閱圖2,圖2是本發(fā)明實施例提供的構(gòu)建用戶畫像的系統(tǒng)中數(shù)據(jù)分析模塊的其中一種結(jié)構(gòu)示意圖,如圖所示,數(shù)據(jù)分析模塊可以包括加載單元131以及離線分析單元132,其中:
加載單元131用于將預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)加載到數(shù)據(jù)存儲平臺中。
加載單元131通過加載使得預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進入離線日志分析平臺。其中,日志數(shù)據(jù)通過加載入庫到數(shù)據(jù)存儲平臺中,數(shù)據(jù)存儲平臺支持結(jié)構(gòu)化和非結(jié)構(gòu)化的存儲方式,提供關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和檢索庫。
離線分析單元132用于結(jié)合離線存儲的歷史數(shù)據(jù),基于Hadoop開源映射/化簡計算框架,對預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行分析處理,得到用戶的屬性特征。
通過結(jié)合離線存儲的歷史數(shù)據(jù),基于Hadoop開源映射/化簡(Map/Reduce)完成日志數(shù)據(jù)的歷史關(guān)聯(lián)分析,得到用戶屬性特征。
通過離線分析單元離線處理的用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)事實上是用戶不斷變化的行為數(shù)據(jù),如瀏覽的網(wǎng)站、常去活動區(qū)域、常用的應(yīng)用程序(Application,APP)和消費習(xí)慣等,基于用戶上網(wǎng)行為和習(xí)慣 進行分析,從而可以獲取用戶喜好、行為特征的最重要的途徑。由于此部分信息的分析隨時間的變化,屬性特征有演化的趨勢。在該離線處理中,主要是從歷史用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中提取出用戶屬性特征,這里的用戶屬性特征是指從上網(wǎng)日志數(shù)據(jù)中提取出能夠標(biāo)識用戶屬性特征的關(guān)鍵信息。比如瀏覽網(wǎng)站所屬類型、常用APP所屬類型或者常去活動區(qū)域所屬地區(qū)等等。
請進一步參閱圖3,圖3是本發(fā)明實施例中提供的構(gòu)建用戶畫像的系統(tǒng)中數(shù)據(jù)分析模塊的另一種結(jié)構(gòu)示意圖,如圖所示,數(shù)據(jù)分析模塊可以包括分布單元133以及在線分析單元134,其中:
分布單元133用于將預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)均勻分布到卡夫卡集群。
卡夫卡(Kafka)是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)。其主要具有以下特性:1)通過O(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化,這種結(jié)構(gòu)對于即使數(shù)以TB的消息存儲也能夠保持長時間的穩(wěn)定性能;2)高吞吐量:即使是非常普通的硬件環(huán)境搭建kafka集群也可以支持每秒數(shù)十萬的消息;3)支持通過kafka服務(wù)器和消費機集群來分區(qū)消息;4)支持Hadoop并行數(shù)據(jù)加載。
分布單元133將預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),按照一定的規(guī)則進行分區(qū),使得日志數(shù)據(jù)能夠均勻地分布在Kafka集群的各臺機器上。通過將日志數(shù)據(jù)加載到Kafka,目的是讓日志數(shù)據(jù)以一定時序或者大小形成分布式的消息隊列。
在線分析單元用于通過Spark核心流計算平臺實時從卡夫卡集群拉取數(shù)據(jù)并進行實時流計算分析處理,得到用戶的屬性特征。
本發(fā)明中,通過Spark下的Sparking Streaming進行實時流計算,Spark Streaming屬于Spark的核心應(yīng)用程序編程接口(Application Programming Interface,api),是一種流式計算框架,它支持高吞吐量、支持容錯的實時流數(shù)據(jù)處理。
日志數(shù)據(jù)實時均勻分布到Kafka集群后,通過Sparking Streaming 實時從Kafka拉取數(shù)據(jù)并進行實時流計算處理解析,對格式化的日志數(shù)據(jù)字段進行分析得到用戶的屬性特征。
數(shù)據(jù)應(yīng)用模塊14用于基于已建立的多維特征庫訓(xùn)練的標(biāo)簽分類,根據(jù)用戶的屬性特征在多維特征庫中進行匹配,得到用戶的多維度屬性標(biāo)簽。
數(shù)據(jù)應(yīng)用模塊14主要是基于數(shù)據(jù)分析模塊的分析結(jié)果(用戶上網(wǎng)行為規(guī)律統(tǒng)計、APP使用規(guī)律、用戶上網(wǎng)內(nèi)容特征詞提取、手機終端信息)進行整合,形成多維的畫像分析特征的多維特征庫庫,并根據(jù)當(dāng)前提取的用戶屬性特征在多維特征庫中進行匹配,確定用戶的多維度屬性標(biāo)簽。
在本發(fā)明中,多維特征庫是指多個不同特征庫組合在一起的統(tǒng)稱。其中,特征庫是經(jīng)過對大數(shù)據(jù)分析統(tǒng)計,并不斷訓(xùn)練而得到的特征與不同標(biāo)簽分類對應(yīng)的特征庫。比如對所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行分析統(tǒng)計,確定所訪問網(wǎng)址中含預(yù)定字段的為旅游網(wǎng)站,將所有含該預(yù)定字段的網(wǎng)站歸并到一起作為特征,而旅游則作為該特征對應(yīng)的標(biāo)簽。在后續(xù)進行匹配時,只要用戶訪問的網(wǎng)站屬于包含該預(yù)定字段的網(wǎng)站,即通過特征庫的匹配就可以得到用戶的其中一個多維度屬性標(biāo)簽為旅游。
其中,本發(fā)明實施例中的多維特征庫包括但不限于是運營商基礎(chǔ)信息庫、終端類型基礎(chǔ)庫、應(yīng)用程序分類庫、統(tǒng)一資源定位符(Uniform Resoure Locator,URL)分類庫、訪問網(wǎng)站及行為規(guī)律統(tǒng)計特征庫、上網(wǎng)內(nèi)容聚類結(jié)果庫、用戶群體分類庫、命名實體識別內(nèi)容提取庫、動態(tài)標(biāo)簽分類管理庫、互聯(lián)網(wǎng)網(wǎng)站特征庫、歷史用戶興趣關(guān)注點以及終端移動軌跡變化庫等。
其中,本發(fā)明實施例中,用戶的多維度屬性標(biāo)簽是構(gòu)建用戶畫像的主要要素。本發(fā)明中的多維度屬性標(biāo)簽是指從多個維度反映用戶特征的屬性標(biāo)簽。其中,本發(fā)明實施例中多維度屬性標(biāo)簽包括但不限于是用戶的基本屬性標(biāo)簽、社會屬性標(biāo)簽、上網(wǎng)行為屬性標(biāo)簽、行為習(xí)慣屬性標(biāo)簽以及興趣特征屬性標(biāo)簽等。
更進一步地,用戶的基本屬性標(biāo)簽包括但不限于是用戶名、用戶標(biāo)識、性別、民族、國籍、年齡區(qū)間段、學(xué)歷、職業(yè)、收入水平、用戶終端、國際用戶識別碼、國際移動終端標(biāo)識碼、所屬運營商、網(wǎng)絡(luò)類型、歸屬地、漫游地、位置、終端品牌類型、終端型號、終端操作系統(tǒng)以及終端安裝的應(yīng)用程序中的一種或者多種。而社會屬性標(biāo)簽包括但不限于是行業(yè)、職業(yè)、工作地點、居住地點、銀行卡、會員卡以及交通工具中的一種或多種。上網(wǎng)行為屬性標(biāo)簽包括但不限于是瀏覽、搜索、下載、購買以及評論等,而行為習(xí)慣屬性標(biāo)簽包括但不限于是日均上網(wǎng)時間、常登錄網(wǎng)站以及常用應(yīng)用程序等。興趣特征屬性標(biāo)簽包括但不限于是體育、音樂、社交、資訊、購物、休閑、旅游、游戲以及投資理財?shù)取?/p>
其中,用戶的基本屬性標(biāo)簽是通常體現(xiàn)的是用戶靜態(tài)屬性,是相對穩(wěn)定的信息,例如性別、年齡等。而社會屬性、上網(wǎng)行為屬性、行為習(xí)慣屬性、興趣特征屬性所體現(xiàn)的是用戶的動態(tài)屬性,是隨時間不斷變化的屬性。而正是這些不斷變化的動態(tài)屬性才可以真正體現(xiàn)用戶群體差異化特征。
在具體實現(xiàn)時,可以通過以下方式綜合分析確定用戶的動態(tài)屬性:
1)通過統(tǒng)計用戶的日均上網(wǎng)時間、用戶常去登錄上網(wǎng)的網(wǎng)站(類型)、用戶常用應(yīng)用程序APP以及使用常用的APP的時間,從而對用戶的行為習(xí)慣特征屬性進行分析。
2)從用戶內(nèi)容偏好/碎片化上網(wǎng)時間偏好/用戶業(yè)務(wù)偏好等方面來綜合分析用戶的興趣特征屬性。比如根據(jù)用戶上網(wǎng)的不同行為動作行為(例如,瀏覽、搜索、下載、購買和評論等)、或者用戶使用的APP類型(例如,包含各種APP應(yīng)用、常去訪問的網(wǎng)站類型等)、或者用戶上網(wǎng)產(chǎn)生的內(nèi)容數(shù)據(jù):購買商品類型、瀏覽網(wǎng)頁內(nèi)容、搜索內(nèi)容、下載內(nèi)容的類型等進行綜合分析得到用戶的興趣特征屬性。就比如一個用戶的上網(wǎng)日志數(shù)據(jù)中,其搜索、瀏覽的大都是購物網(wǎng)站或者使用的應(yīng)用程序大多是購物類應(yīng)用,可以確定購物為該用戶的一個興趣特征屬性,又或者一個用戶搜索、瀏覽以及評論的大多是旅游網(wǎng)站或者最常使用的應(yīng)用程序為旅游類應(yīng)用,那么可以確定旅游為該用戶的一個興趣特征屬性, 以此類推。
以下以用戶屬性相關(guān)的標(biāo)簽確定作為舉例進行說明:
基于多維特征庫訓(xùn)練的標(biāo)簽分類,建立用戶偏好的動態(tài)標(biāo)簽管理。具體可以通過如下方面來進行綜合考慮,根據(jù)不同因子所占權(quán)重分配,制定統(tǒng)一的動態(tài)屬性相關(guān)的標(biāo)簽分類標(biāo)準(zhǔn):
比如基于URL分類庫:分析用戶上網(wǎng)行為日志,提取內(nèi)容與URL分類庫進行匹配,輸出用戶訪問網(wǎng)頁的類型,同時通過統(tǒng)計用戶訪問內(nèi)容的、訪問時間和頻率等信息,以刻畫出用戶偏好,確定興趣特征屬性標(biāo)簽。
又比如基于應(yīng)用程序分類庫:分析用戶上網(wǎng)行為日志,提取APP類型與應(yīng)用程序分類庫進行匹配,輸出用戶使用APP類型,同時通過統(tǒng)計APP用戶使用時長、使用頻率等信息,對用戶興趣進行歸并考慮。
又比如基于歷史用戶興趣關(guān)注點庫:分析用戶上網(wǎng)行為日志,對其中的動作行為(瀏覽/下載/搜索/評論等)進行提取并統(tǒng)計,結(jié)合歷史用戶興趣關(guān)注點庫,實現(xiàn)對用戶關(guān)注內(nèi)容的聚類,以刻畫出用戶的上網(wǎng)行為屬性標(biāo)簽。
而基于用戶群體分類庫:分析用戶上網(wǎng)行為日志,根據(jù)用戶的業(yè)務(wù)需求、或者業(yè)務(wù)屬性、或者用戶特征,與用戶群體分類庫進行匹配,確定用戶基本屬性標(biāo)簽。
基于終端移動軌跡變化庫:分析用戶上網(wǎng)行為日志,對用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中導(dǎo)航地圖類應(yīng)用程序進行分析,得到用戶移動變化的經(jīng)緯度位置信息,將經(jīng)緯度信息與地理信息系統(tǒng)展示結(jié)合,得到用戶的移動軌跡,同時對用戶位置停留時間進行統(tǒng)計,從而得到每個用戶常去地區(qū),與終端移動軌跡變化庫進行匹配,分析用戶常去地區(qū)活躍度信息,確定用戶的社會屬性標(biāo)簽。
數(shù)據(jù)業(yè)務(wù)模塊15用于根據(jù)所述多維度屬性標(biāo)簽構(gòu)建所述用戶畫像。
標(biāo)簽通常是人為規(guī)定的高度精煉的特征標(biāo)識,如年齡段標(biāo)簽:25~35歲,地域標(biāo)簽:北京,標(biāo)簽呈現(xiàn)出兩個重要特征:1、語義化,人能很方便地理解每個標(biāo)簽含義。這也使得用戶畫像模型具備實際意義。能夠 較好的滿足業(yè)務(wù)需求。如,判斷用戶偏好。2、短文本,每個標(biāo)簽通常只表示一種含義,標(biāo)簽本身無需再做過多文本分析等預(yù)處理工作,這為利用機器提取標(biāo)準(zhǔn)化信息提供了便利。所以從這個意義上理解,用戶畫像即是用戶標(biāo)簽的總和。
通過以上多個多維特征庫匹配得到的多維度標(biāo)簽,數(shù)據(jù)業(yè)務(wù)模塊15將用戶的所有多維度標(biāo)簽進行關(guān)聯(lián)融合,為用戶打上多維度標(biāo)簽,或者對已經(jīng)打上的多維度標(biāo)簽進行更新和補充,以完成用戶畫像的構(gòu)建。
在實際應(yīng)用過程中,數(shù)據(jù)采集模塊11采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)是實時的,從而通過實時獲取的用戶上網(wǎng)日志數(shù)據(jù),進行分析處理得到最新的用戶多維度標(biāo)簽,以對用戶畫像上已有多維度標(biāo)簽進行更新或補充,從而刻畫出最新的含有時空特性的全息多維用戶畫像。
另外,數(shù)據(jù)應(yīng)用模塊14還用于在已建立的多維特征庫中找不到與用戶的屬性特殊匹配的多維度屬性標(biāo)簽時,將用戶的屬性特征以及對應(yīng)的多維度屬性標(biāo)簽添加到多維度特征庫中。通過這樣的方式,以不斷更新和完善多維特征庫。
其中,在本發(fā)明實施例中,多維特征庫是實現(xiàn)本發(fā)明方法的基礎(chǔ)和關(guān)鍵,因此,本發(fā)明實施例的系統(tǒng),通過數(shù)據(jù)分析模塊13構(gòu)建多維特征庫,數(shù)據(jù)分析模塊13通過以下方式構(gòu)建多維特征庫。
通過外圍系統(tǒng)或呼叫詳細記錄話單日志數(shù)據(jù)的接入,對國際用戶識別碼、所屬運營商、網(wǎng)絡(luò)類型、歸屬地、漫游地、位置中的一種或多種基礎(chǔ)信息進行提取分析,累積得到運營商基礎(chǔ)信息庫。運營商基礎(chǔ)信息庫包括運營商標(biāo)識以及對應(yīng)的運營商信息特征?;?/p>
或通過獲取所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中的移動終端國際身份碼、終端型號、品牌類型、終端操作系統(tǒng)中的至少一種相關(guān)信息進行提取分析,累積得到終端類型基礎(chǔ)庫。由于目前移動互聯(lián)網(wǎng)中應(yīng)用種類較多,各個協(xié)議的運行中對用戶代理(User-Agent)字段填寫的不規(guī)范,因此在實際提取過程中,需要對有分歧的特征字段信息進行統(tǒng)一和校驗(例如,終端型號部分填的是iphone,而也有填的是IOS;有些只是填的GT900,需要從外網(wǎng)收集收 集型號和品牌的對應(yīng)的標(biāo)記信息)。
或通過獲取所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),過濾掉無效URL,針對有效的URL建立有效URL所屬網(wǎng)站的分類庫。針對用戶的上網(wǎng)日志數(shù)據(jù),過濾掉廣告、功能頁面、導(dǎo)航頁面、錯誤頁面等無效URL后,對剩余的有效URL所屬網(wǎng)站的URL分類庫。
或通過獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),從所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中提取APP類型,通過人工和自動相結(jié)合的方式定期對APP類型進行分類、統(tǒng)計,以形成應(yīng)用程序分類庫。由于APP應(yīng)用種類比較豐富,功能比較突出,用戶使用和依賴性較強,因此利用已識別的APP應(yīng)用庫,參照APP Store下載和安卓市場的第三方下載的APP分類建議,通過人工和自動相結(jié)合的方式定期對APP應(yīng)用統(tǒng)一分類,以形成APP分類庫。
或通過獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),針對每個用戶的上網(wǎng)情況,對用戶的常去訪問網(wǎng)站以及行為進行累積統(tǒng)計,形成訪問網(wǎng)站和行為規(guī)律統(tǒng)計特征庫。
或通過獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),針對每個用戶的上網(wǎng)產(chǎn)生的日志情況,對每個用戶常在日志中產(chǎn)生的用戶內(nèi)容形成基于用戶內(nèi)容的特征聚類,產(chǎn)生上網(wǎng)內(nèi)容聚類結(jié)果庫。針對每個用戶的上網(wǎng)產(chǎn)生的日志情況,對該用戶常在日志中產(chǎn)生的用戶內(nèi)容(瀏覽新聞或帖子,發(fā)表或評論內(nèi)容,購買內(nèi)容等),形成基于用戶內(nèi)容的特征聚類,產(chǎn)生用戶上網(wǎng)內(nèi)容聚類結(jié)果特征庫。
或通過獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對具有相同特征標(biāo)簽或相同屬性或相同業(yè)務(wù)特征的用戶進行特征合并,對用戶群體進行分類,因此形成用戶群體分類庫??梢愿鶕?jù)實際的業(yè)務(wù)需求定義聚類指標(biāo)參數(shù),對累積的所有用戶進行細分分群并歸并從而得到用戶群體分類庫。
或通過結(jié)合離線存儲所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對所有用戶的上網(wǎng)行為進行分析,對產(chǎn)生的行為進行統(tǒng)計,進而對用戶關(guān)注內(nèi)容進行聚類分析以形成歷史用戶興趣關(guān)注點庫。結(jié)合歷史上網(wǎng)行為分析,對 產(chǎn)生的動作行為(瀏覽/下載/搜索/評論等)進行統(tǒng)計,進而對用戶關(guān)注內(nèi)容利用傳統(tǒng)聚類分析實現(xiàn)歷史用戶興趣關(guān)注點庫的建立。
或通過對所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中導(dǎo)航地圖類應(yīng)用程序進行分析,得到用戶移動變化的經(jīng)緯度位置信息,將經(jīng)緯度信息與地理信息系統(tǒng)(Geographic Information System,GIS)展示結(jié)合,得到用戶的移動軌跡,同時對用戶位置停留時間進行統(tǒng)計,從而得到每個用戶常去地區(qū),對所有用戶常去地區(qū)進行匯總從而形成終端移動軌跡變化庫。通過對上網(wǎng)日志中導(dǎo)航地圖類APP分析,可以得到手機用戶移動變化的經(jīng)緯度位置信息。因此,一方面,將此信息和GIS展示結(jié)合,可以將手機用戶的移動軌跡完整實時呈現(xiàn);另一方面,可以在不同時間段對手機用戶位置停留時間進行統(tǒng)計,根據(jù)統(tǒng)計時長可以對手機用戶常去活動地進行活躍度分析,即可得到手機用戶的常去地區(qū)分布,以形成終端移動軌跡變化庫。
或根據(jù)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),通過主流的命名實體識別算法及訓(xùn)練樣本集,對上網(wǎng)內(nèi)容中具有特定意義的實體進行提取,建立命名實體識別內(nèi)容提取庫。通過對所有用戶的互聯(lián)網(wǎng)主流的命名實體識別算法及訓(xùn)練樣本集,對上網(wǎng)內(nèi)容中具有特定意義的實體,比如主要包括人名、地名、機構(gòu)名、專有名詞等進行提取,建立針對特定手機用戶的屬性特征庫,以豐富多維屬性標(biāo)簽。
或預(yù)先根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類標(biāo)準(zhǔn),根據(jù)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志,對所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志中的互聯(lián)網(wǎng)網(wǎng)站進行特征收集,構(gòu)建互聯(lián)網(wǎng)網(wǎng)站特征庫。即是預(yù)先根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類標(biāo)準(zhǔn),對用戶的日志數(shù)據(jù)中互聯(lián)網(wǎng)的網(wǎng)站進行特征收集(網(wǎng)站對應(yīng)的URL,名稱,建立時間,所屬網(wǎng)站分類等),構(gòu)建對應(yīng)的網(wǎng)站特征庫。
或基于每個特征庫訓(xùn)練的標(biāo)簽分類,將所有特征庫訓(xùn)練的標(biāo)簽分類進行匯總歸并,建立用戶偏好的所述動態(tài)標(biāo)簽分類管理庫。其中,在具體應(yīng)用過程中,可以綜合從多方面考慮,并根據(jù)每個特征庫訓(xùn)練的標(biāo)簽分類所占的權(quán)重,制定統(tǒng)一的標(biāo)簽分類標(biāo)準(zhǔn),結(jié)合預(yù)先定義的體育/音樂/社交/資訊/購物/休閑/旅游/游戲/投資(理財)等進行各類別累積特征實 現(xiàn)。
以上本發(fā)明實施例的構(gòu)建用戶畫像的系統(tǒng),可以用于構(gòu)建手機用戶畫像,也可以是用于構(gòu)建其他終端用戶畫像。其中,比如當(dāng)本發(fā)明實施例的構(gòu)建用戶畫像的系統(tǒng)用于構(gòu)建手機用戶畫像時,結(jié)合手機終端基本信息庫和手機用戶基本信息庫,通過手機號將手機用戶所有屬性標(biāo)簽字段關(guān)聯(lián)起來,從而構(gòu)建一個完整的含時空特性的全景用戶畫像,使得每個手機用戶都有完整的用戶畫像信息。當(dāng)然,如果是用于其他終端用戶構(gòu)建畫像時,也可以通過其他標(biāo)識比如終端設(shè)備ID、用戶ID等關(guān)聯(lián)用戶的屬性標(biāo)簽,從而將用戶的所有屬性標(biāo)簽關(guān)聯(lián)起來以構(gòu)成用戶畫像。
以上是本發(fā)明實施例提供的構(gòu)建用戶畫像的系統(tǒng)的詳細說明,可以理解,本發(fā)明提供的構(gòu)建用戶畫像的系統(tǒng),該構(gòu)建用戶畫像的系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)應(yīng)用模塊以及數(shù)據(jù)業(yè)務(wù)模塊,其中:數(shù)據(jù)采集模塊用于采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),數(shù)據(jù)預(yù)處理模塊用于對用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行預(yù)處理,數(shù)據(jù)分析模塊用于對預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進行特征提取,得到用戶的屬性特征,數(shù)據(jù)應(yīng)用模塊用于基于已建立的多維特征庫訓(xùn)練的標(biāo)簽分類,根據(jù)用戶的屬性特征在多維特征庫中進行匹配,得到用戶的多維度屬性標(biāo)簽,數(shù)據(jù)業(yè)務(wù)模塊用于根據(jù)所述多維度屬性標(biāo)簽構(gòu)建所述用戶畫像。通過這樣的方式,基于大數(shù)據(jù)分析平臺,對移動互聯(lián)網(wǎng)海量上網(wǎng)日志數(shù)據(jù)進行挖掘分析,通過對用戶上網(wǎng)的行為特征進行累積,對用戶興趣偏好標(biāo)簽標(biāo)定,進而對用戶畫像進行全景刻畫,以克服現(xiàn)有基于用戶上網(wǎng)行為分析不全面、不準(zhǔn)確等問題。本發(fā)明的構(gòu)建用戶畫像的系統(tǒng)能夠構(gòu)建出全息的多維度用戶畫像,從而為運營商/企業(yè)/公司快速精準(zhǔn)廣告投放和用戶群體的消費行為的推薦,累積用戶興趣偏好特征,掌握移動互聯(lián)網(wǎng)發(fā)展態(tài)勢提供技術(shù)手段支撐。
在本發(fā)明所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者 可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅為本發(fā)明的實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。