两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用戶點擊行為鏈的處理方法及裝置與流程

文檔序號:11133984閱讀:1364來源:國知局
用戶點擊行為鏈的處理方法及裝置與制造工藝

本發(fā)明涉及互聯(lián)網(wǎng)行為分析技術(shù)領(lǐng)域,尤其涉及一種用戶點擊行為鏈的處理方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)科技的發(fā)展,各種圍繞互聯(lián)網(wǎng)的分析和研究越來越多。例如在互聯(lián)網(wǎng)企業(yè)中,海量的用戶點擊行為日志是最重要的數(shù)據(jù)資產(chǎn)之一,通過對用戶點擊日志處理,并構(gòu)建用戶點擊行為鏈,進而挖掘用戶的行為模式、興趣點等等,可以為推薦、廣告預(yù)估等業(yè)務(wù)提供強有力的數(shù)據(jù)支持。因此,用戶點擊行為鏈的構(gòu)建在互聯(lián)網(wǎng)大數(shù)據(jù)處理中處于非常基礎(chǔ)和關(guān)鍵的位置。

隨著數(shù)據(jù)應(yīng)用和數(shù)據(jù)融合的發(fā)展,用戶點擊行為鏈分析不再局限于同一產(chǎn)品線、同一企業(yè)內(nèi)部,而往往是跨產(chǎn)品線、跨企業(yè)的融合數(shù)據(jù)。由于不同產(chǎn)品線和企業(yè)間收集的用戶點擊日志由于日志規(guī)則、用戶標識等的不兼容,現(xiàn)有技術(shù)中,通常僅能夠?qū)Ω鱾€產(chǎn)品線分別做點擊行為鏈的劃分和分析。使用時,再基于簡單的用戶標識關(guān)聯(lián)信息,分別抽取對應(yīng)于各產(chǎn)品線中的行為鏈數(shù)據(jù)。即現(xiàn)有技術(shù)的跨產(chǎn)品線的用戶點擊行為鏈,而只是把各產(chǎn)品線的數(shù)據(jù)簡單累加到一起。

但是,實際應(yīng)用中用戶的點擊行為在各產(chǎn)品線之間往往會出現(xiàn)交叉現(xiàn)象,但是現(xiàn)有技術(shù)的方案對這種交叉跳轉(zhuǎn)行為沒有進行有效處理,導(dǎo)致現(xiàn)有技術(shù)所構(gòu)建的用戶點擊行為鏈的準確性較差,不能準確的反映用戶的實際點擊行為序列。



技術(shù)實現(xiàn)要素:

本發(fā)明提供了一種用戶點擊行為鏈的處理方法的方法和裝置,用于提高構(gòu)建的用戶點擊行為鏈的準確性,以使得用戶點擊行為鏈能夠準確的反映用戶的實際點擊行為序列。

本發(fā)明提供一種用戶點擊行為鏈的處理方法,所述方法包括:

根據(jù)各用戶的點擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列;

根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇;

對各所述用戶在各所述產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈。

進一步可選地,如上所述的方法中,根據(jù)各用戶的點擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列,具體包括:

從各所述產(chǎn)品線的日志信息中,將具有相同用戶標識的點擊行為信息按照時間先后順序排列,生成各所述用戶在各所述產(chǎn)品線內(nèi)的行為序列,所述點擊行為信息包括點擊時間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前所述產(chǎn)品線內(nèi)的所述用戶標識以及通用用戶標識。

進一步可選地,如上所述的方法中,所述通用用戶標識包括IP信息、瀏覽器標識、硬件設(shè)備標識和媒體訪問控制地址中的至少一個。

進一步可選地,如上所述的方法中,根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇,具體包括:

根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,獲取各所述用戶在各所述產(chǎn)品線的鏈入點和鏈出點;

根據(jù)各所述用戶在各所述產(chǎn)品線的所述鏈入點和所述鏈出點,將同一所述用戶標識在同一所述產(chǎn)品線中的所述鏈入點,分別與在同一所述產(chǎn)品線對應(yīng)的相鄰的所述鏈出點或者在同一所述產(chǎn)品線對應(yīng)的后相鄰的所述鏈入點之間的行為序列,劃分為各所述用戶的行為簇。

進一步可選地,如上所述的方法中,對各所述用戶在各所述產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈,具體包括:

根據(jù)各所述通用用戶標識,對各所述產(chǎn)品線的所述用戶進行匹配;

將匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點和所述鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈。

進一步可選地,如上所述的方法中,根據(jù)各所述通用用戶標識,對各所述產(chǎn)品線的所述用戶進行匹配,具體包括:

將不同所述產(chǎn)品線中,所述通用用戶標識相同的用戶匹配為同一個所述用戶。

進一步可選地,如上所述的方法中,將匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點和所述鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈,具體包括:

提取匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

提取匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

根據(jù)匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個所述行為簇的所述鏈入點和所述鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈。

進一步可選地,如上所述的方法中,根據(jù)匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個所述行為簇的所述鏈入點和所述鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈,具體包括:

對于各所述鏈出點和各所述鏈入點,計算所述鏈出點當(dāng)前鏈接URL的hostname與所述鏈入點的前向鏈接的URL的hostname的第一相似度;

計算所述鏈出點后向鏈接的URL的hostname與所述鏈入點的當(dāng)前鏈接URL的hostname的第二相似度;

計算所述鏈出點當(dāng)前鏈接URL的path與所述鏈入點的前向鏈接的URL的path的第三相似度;

計算所述鏈出點后向鏈接的URL的path與所述鏈入點的當(dāng)前鏈接URL的path的第四相似度;

計算所述鏈出點的所述點擊時間戳和所述鏈入點的所述點擊時間戳的差值;

根據(jù)各所述鏈出點和各所述鏈入點對應(yīng)的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及預(yù)設(shè)的鏈入點和鏈出點的匹配模型,確定跳轉(zhuǎn)鏈接匹配的所述鏈出點和所述鏈入點;

根據(jù)所述跳轉(zhuǎn)鏈接匹配的所述鏈出點和所述鏈入點,將同一所述用戶的各個所述行為簇鏈接起來,生成對應(yīng)所述用戶的全網(wǎng)點擊行為鏈。

進一步可選地,如上所述的方法中,所述預(yù)設(shè)的鏈入點和鏈出點的匹配模型為采用機器學(xué)習(xí)方法進行訓(xùn)練得到的;所述采用機器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

本發(fā)明還提供一種用戶點擊行為鏈的處理裝置,所述裝置包括:

行為序列生成模塊,用于根據(jù)各用戶的點擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列;

行為簇劃分模塊,用于根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇;

全網(wǎng)點擊行為鏈生成模塊,用于對各所述用戶在各所述產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈。

進一步可選地,如上所述的裝置中,所述行為序列生成模塊,具體用于從各所述產(chǎn)品線的日志信息中,將具有相同用戶標識的點擊行為信息按照時間先后順序排列,生成各所述用戶在各所述產(chǎn)品線內(nèi)的行為序列,所述點擊行為信息包括點擊時間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前所述產(chǎn)品線內(nèi)的所述用戶標識以及通用用戶標識。

進一步可選地,如上所述的裝置中,所述通用用戶標識包括IP信息、瀏覽器標識、硬件設(shè)備標識和媒體訪問控制地址中的至少一個。

進一步可選地,如上所述的裝置中,所述行為簇劃分模塊,具體用于:

根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,獲取各所述用戶在各所述產(chǎn)品線的鏈入點和鏈出點;

根據(jù)各所述用戶在各所述產(chǎn)品線的所述鏈入點和所述鏈出點,將同一所述用戶標識在同一所述產(chǎn)品線中的所述鏈入點,分別與在同一所述產(chǎn)品線對應(yīng)的相鄰的所述鏈出點或者在同一所述產(chǎn)品線對應(yīng)的后相鄰的所述鏈入點之間的行為序列,劃分為各所述用戶的行為簇。

進一步可選地,如上所述的裝置中,所述全網(wǎng)點擊行為鏈生成模塊,具體包括:

用戶匹配單元,用于根據(jù)各所述通用用戶標識,對各所述產(chǎn)品線的所述用戶進行匹配;

全網(wǎng)點擊行為鏈生成單元,用于將匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點和所述鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈。

進一步可選地,如上所述的裝置中,所述用戶匹配單元,用于將不同所述產(chǎn)品線中,所述通用用戶標識相同的用戶匹配為同一個所述用戶。

進一步可選地,如上所述的裝置中,所述全網(wǎng)點擊行為鏈生成單元,具體包括:

提取子單元,用于提取匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

所述提取子單元,還用于提取匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

全網(wǎng)點擊行為鏈子單元,用于根據(jù)匹配后屬于同一所述用戶的各個所述行為簇的所述鏈出點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個所述行為簇的所述鏈入點的所述點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個所述行為簇的所述鏈入點和所述鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點擊行為鏈。

進一步可選地,如上所述的裝置中,所述全網(wǎng)點擊行為鏈子單元,具體用于:

對于各所述鏈出點和各所述鏈入點,計算所述鏈出點當(dāng)前鏈接URL的hostname與所述鏈入點的前向鏈接的URL的hostname的第一相似度;

計算所述鏈出點后向鏈接的URL的hostname與所述鏈入點的當(dāng)前鏈接URL的hostname的第二相似度;

計算所述鏈出點當(dāng)前鏈接URL的path與所述鏈入點的前向鏈接的URL的path的第三相似度;

計算所述鏈出點后向鏈接的URL的path與所述鏈入點的當(dāng)前鏈接URL的path的第四相似度;

計算所述鏈出點的所述點擊時間戳和所述鏈入點的所述點擊時間戳的差值;

根據(jù)各所述鏈出點和各所述鏈入點對應(yīng)的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及預(yù)設(shè)的鏈入點和鏈出點的匹配模型,確定跳轉(zhuǎn)鏈接匹配的所述鏈出點和所述鏈入點;

根據(jù)所述跳轉(zhuǎn)鏈接匹配的所述鏈出點和所述鏈入點,將同一所述用戶的各個所述行為簇鏈接起來,生成對應(yīng)所述用戶的全網(wǎng)點擊行為鏈。

進一步可選地,如上所述的裝置中,所述預(yù)設(shè)的鏈入點和鏈出點的匹配模型為采用機器學(xué)習(xí)方法進行訓(xùn)練得到的;所述采用機器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

本發(fā)明的用戶點擊行為鏈的處理方法及裝置,通過根據(jù)各用戶的點擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;對各用戶在各產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。通過采用本發(fā)明的技術(shù)方案生成的用戶點擊行為鏈的準確性較高,能夠準確的反映用戶的實際點擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本發(fā)明的技術(shù)方案,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個性化特征,提升數(shù)據(jù)的價值。因此,本發(fā)明的技術(shù)方案,能夠準確的串聯(lián)起用戶的真實行為序列,在全網(wǎng)session分析項目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準確性。

【附圖說明】

圖1為本發(fā)明的用戶點擊行為鏈的處理方法實施例的流程圖。

圖2為本發(fā)明實施例的匹配的鏈入點和鏈出點的關(guān)系圖。

圖3為本發(fā)明實施例的一種用戶的全網(wǎng)點擊行為鏈的示意圖。

圖4為本發(fā)明的用戶點擊行為鏈的處理裝置實施例一的結(jié)構(gòu)圖。

圖5為本發(fā)明的用戶點擊行為鏈的處理裝置實施例二的結(jié)構(gòu)圖。

【具體實施方式】

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。

圖1為本發(fā)明的用戶點擊行為鏈的處理方法實施例的流程圖。如圖1所示,本實施例的用戶點擊行為鏈的處理方法,具體可以包括如下步驟:

100、根據(jù)各用戶的點擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;

101、根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;

102、對各用戶在各產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。

本實施例的用戶點擊行為鏈的處理方法的執(zhí)行主體為戶點擊行為鏈的處理裝置,該裝置可以設(shè)置在一個網(wǎng)絡(luò)管理設(shè)備中,用于進行該公司內(nèi)或者公司內(nèi)外的全網(wǎng)session分析。例如,本實施例的技術(shù)方案可以適用于百度公司,其對應(yīng)的各產(chǎn)品線可以包括搜索、百度百科、百度貼吧、百度地圖等等百度域內(nèi)產(chǎn)品線,或者還可以包括微博、愛奇藝等域外數(shù)據(jù)。由于每個產(chǎn)品線對用戶標識的定義都不盡相同,采集的用戶日志信息也千差萬別,直接基于時間序列構(gòu)建用戶行為鏈就變的非常困難。因此,本實施例中,首先根據(jù)各用戶的點擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列。具體地,各產(chǎn)品線內(nèi)部的用戶行為日志通常會有獨立的用戶標識字段,用于標識同一用戶。在產(chǎn)品線內(nèi)部,可基于獨立而明確的用戶標識進行聚合,并按時間序列進行排序,由此得到每個產(chǎn)品線內(nèi)的基礎(chǔ)用戶的行為序列。每一個產(chǎn)品線內(nèi)可以采集到多個用戶的點擊行為信息,對應(yīng)生成多個用戶的行為序列。

本實施例中,針對不同產(chǎn)品線的用戶點擊行為信息進行融合處理,這些點擊行為信息可以從對應(yīng)產(chǎn)品線的日志數(shù)據(jù)中獲取。因此,首先需要明確若干通用的日志信息或日志字段,所謂“通用”,是指這些信息或字段在所有典型的點擊日志中都會被包含。因此,本實施例的點擊行為信息即通用日志信息或字段包括但不限于:

用戶標識:用于標識該用于在該產(chǎn)品線內(nèi)的標識;

點擊時間戳:記錄點擊行為發(fā)生時的時間戳;

當(dāng)前鏈接的統(tǒng)一資源定位符(Uniform Resoure Locator;URL):記錄點擊行為發(fā)生的當(dāng)前頁面URL;

前向鏈接的URL:記錄導(dǎo)入當(dāng)前頁面的URL,即當(dāng)前頁面的前一頁面URL,可以簡稱為前鏈的URL;

后向鏈接的URL:記錄由當(dāng)前頁面導(dǎo)出的目標頁面URL,即當(dāng)前頁面的后一頁面的URL,可以簡稱為后鏈的URL;

通用用戶標識:包括但不限于IP信息、瀏覽器標識、硬件設(shè)備信息以及媒體訪問控制(Media Access Control;MAC)地址中的至少一個。

因此,步驟100具體可以為從各產(chǎn)品線的日志信息中,將具有相同用戶標識的點擊行為信息按照時間先后順序排列,生成各用戶在各產(chǎn)品線內(nèi)的行為序列,點擊行為信息包括點擊時間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前產(chǎn)品線內(nèi)的用戶標識以及通用用戶標識。

生成各用戶在各產(chǎn)品線內(nèi)的行為序列之后,可以將同一用戶在同一各產(chǎn)品線內(nèi)具有先后時序關(guān)系的行為序列作為一個行為簇,即根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇。具體地,步驟101“根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇”,具體可以包括如下步驟:

(a1)根據(jù)各用戶在各產(chǎn)品線的行為序列,獲取各用戶在各產(chǎn)品線的鏈入點和鏈出點;

(a2)根據(jù)各用戶在各產(chǎn)品線的鏈入點和鏈出點,將同一用戶標識在同一產(chǎn)品線中的鏈入點,分別與在同一產(chǎn)品線對應(yīng)的相鄰的鏈出點或者在同一產(chǎn)品線對應(yīng)的后相鄰的鏈入點之間的行為序列,劃分為各用戶的行為簇。

具體地,在劃分用戶在每個產(chǎn)品線的行為簇時,可以根據(jù)該用戶在該產(chǎn)品線的鏈入點和鏈出點來劃分。鏈入點可以定義為當(dāng)前用戶行為日志的前鏈的URL不屬于本產(chǎn)品線,即當(dāng)前用戶行為是從其他產(chǎn)品線跳轉(zhuǎn)過來的。鏈出點定義為當(dāng)前用戶行為日志的后鏈的URL不屬于本產(chǎn)品線,即從當(dāng)前用戶行為跳轉(zhuǎn)至其他產(chǎn)品線。同一個產(chǎn)品線,同一個用戶可以包括多個鏈出點,也可以包括多個鏈入點,在劃分行為簇時,將同一用戶標識在同一產(chǎn)品線中的鏈入點與在同一產(chǎn)品線對應(yīng)的相鄰的鏈出點(包括該鏈出點)之間的行為序列,劃分為該用戶的一個行為簇。另外,對于有的用戶的行為序列,存在鏈入點,而不存在相鄰的鏈出點,然后再多一段時間,再會存在一個后相鄰的鏈入點。此時還可以將同一用戶標識在同一產(chǎn)品線中的鏈入點與在同一產(chǎn)品線對應(yīng)的后相鄰的鏈入點(不包括該鏈入點)之間的行為序列,劃分為該用戶的一個行為簇。用戶的行為簇是生成全網(wǎng)用戶行為鏈的最小不可分單元。特殊的,當(dāng)一用戶日志既是日志鏈入點,又是鏈出點時,該條日志獨立形成一用戶行為簇。也就是說,用戶的行為簇不限制有幾條用戶的點擊行為信息,可以只包括一條,也可以包括多條。

根據(jù)劃分好的行為簇,對各用戶在各產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,從而將全網(wǎng)的同一用戶的各個行為簇鏈接在一起,從而生成各用戶的全網(wǎng)點擊行為鏈。

本實施例的用戶點擊行為鏈的處理方法,通過根據(jù)各用戶的點擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;對各用戶在各產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。通過采用本實施例的技術(shù)方案生成的用戶點擊行為鏈的準確性較高,能夠準確的反映用戶的實際點擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本實施例的用戶點擊行為鏈的處理方法,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個性化特征,提升數(shù)據(jù)的價值。因此,本實施例的用戶點擊行為鏈的處理方法,能夠準確的串聯(lián)起用戶的真實行為序列,在全網(wǎng)session分析項目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準確性。

進一步可選地,在上述實施例的技術(shù)方案的基礎(chǔ)上,步驟102“對各用戶在各產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈”,具體可以包括如下步驟:

(b1)根據(jù)各通用用戶標識,對各產(chǎn)品線的用戶進行匹配;

例如該步驟具體可以包括:將不同產(chǎn)品線中,通用用戶標識相同的用戶匹配為同一個用戶。

由于跨產(chǎn)品線之間往往不存在統(tǒng)一的明確用戶標識,無法直接對某一用戶的所有行為進行聚合。另外,由于產(chǎn)品線之間日志信息采集上的差異,簡單的比較鏈入點鏈出點的URL是否相同來進行跳轉(zhuǎn)匹配,也是很難行得通的。因此,本實施例中,首先基于通用用戶標識的模糊聚合。由于各產(chǎn)品線用戶日志信息雖然沒有統(tǒng)一的明確的用戶標識,但是都會收集前述的通用用戶標識信息,包括但不限于IP信息、瀏覽器標識、硬件設(shè)備信息以及mac地址等等中的至少一個,通用用戶標識用于標識該用戶所使用的硬件的信息。可根據(jù)這些通用用戶標識對用戶行為簇進行模糊聚合,即將通用用戶標識相同的用戶作為同一用戶,可以有效縮小后續(xù)用戶跳轉(zhuǎn)行為鏈匹配的搜索范圍。

具體在根據(jù)通用用戶標識對用戶行為簇進行模糊聚合時,可以認為,不同產(chǎn)品線的點擊行為信息對應(yīng)的通用用戶標識中的IP信息、瀏覽器標識、硬件設(shè)備信息以及mac地址只要有一個相同,可以認為是同一用戶,為了提高匹配的準確性,不同產(chǎn)品線中的點擊行為信息中的通用用戶標識中的IP信息、瀏覽器標識、硬件設(shè)備信息以及mac地址中相同的越多,說明匹配的準確性越高。因此,在實施時,也可以將匹配的標準設(shè)置為:不同產(chǎn)品線的點擊行為信息對應(yīng)的通用用戶標識中的IP信息、瀏覽器標識、硬件設(shè)備信息以及mac地址中預(yù)設(shè)數(shù)值個相同,這個預(yù)設(shè)數(shù)值可以根據(jù)每個產(chǎn)品的需求,設(shè)置為一個、兩個、或者三個或者其他數(shù)值個。另外,通用用戶標識除了上述參數(shù),還可以進一步擴展包括其他標識用戶的信息。

(b2)將匹配后屬于同一用戶的各個行為簇的鏈入點和鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。

例如,該步驟(b2)“將匹配后屬于同一用戶的各個行為簇的鏈入點和鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈”,具體可以包括如下步驟:

(c1)提取匹配后屬于同一用戶的各個行為簇的鏈出點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

(c2)提取匹配后屬于同一用戶的各個行為簇的鏈入點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

(c3)根據(jù)匹配后屬于同一用戶的各個行為簇的鏈出點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個行為簇的鏈入點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個行為簇的鏈入點和鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。

通過對同一用戶的鏈出點和鏈入點的精確匹配,可以實現(xiàn)確定跨產(chǎn)品線的用戶跳轉(zhuǎn)行為鏈打通。由于日志信息記錄的偏差,直接匹配鏈出點和鏈入點的URL是否相同并不可取。為此,本實施例中通過拆解鏈入點的URL和鏈出點URL的組成子域分別比較來提升對信息偏差的容忍度。URL的一般結(jié)構(gòu)為:protocol://hostname[:port]/path/[;parameters][?query]#fragment,其中hostname和path是關(guān)鍵信息,為此,本實施例中針對各個鏈出鏈入的URL、前向鏈接的URL、后向鏈接的URL分別提取hostname及path。

然后根據(jù)提取的匹配后屬于同一用戶的各個行為簇的鏈入點和鏈出點的上述信息以及匹配后屬于同一用戶的各個行為簇的鏈入點的點擊時間戳,將各個行為簇的鏈入點和鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。

例如,步驟(c3)“根據(jù)匹配后屬于同一用戶的各個行為簇的鏈出點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個行為簇的鏈入點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個行為簇的鏈入點和鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈”,具體可以包括:

(d1)對于各鏈出點和各鏈入點,計算鏈出點當(dāng)前鏈接URL的hostname與鏈入點的前向鏈接的URL的hostname的第一相似度;

(d2)計算鏈出點后向鏈接的URL的hostname與鏈入點的當(dāng)前鏈接URL的hostname的第二相似度;

(d3)計算鏈出點當(dāng)前鏈接URL的path與鏈入點的前向鏈接的URL的path的第三相似度;

(d4)計算鏈出點后向鏈接的URL的path與鏈入點的當(dāng)前鏈接URL的path的第四相似度;

(d5)計算鏈出點的點擊時間戳和鏈入點的點擊時間戳的差值;

(d6)根據(jù)各鏈出點和各鏈入點對應(yīng)的第一相似度、第二相似度、第三相似度、第四相似度、差值以及預(yù)設(shè)的鏈入點和鏈出點的匹配模型,確定跳轉(zhuǎn)鏈接匹配的鏈出點和鏈入點;

(d7)根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點和鏈入點,將同一用戶的各個行為簇鏈接起來,生成對應(yīng)用戶的全網(wǎng)點擊行為鏈。

由于匹配的鏈入點和鏈出點具有圖2所示的關(guān)系。因此本實施例中通過步驟(d1)-(d4)計算第一相似度到第四相似度,以確定鏈出點和鏈入點是否匹配。具體計算時,可以參考兩個字符串的最長公共子串的長度與兩者中較長字符串長度的比值:

其中str1和str2分別為要比較的兩個客體,如在計算第一相似度時,str1對應(yīng)鏈出點當(dāng)前鏈接URL的hostname,str2對應(yīng)鏈入點的前向鏈接的URL的hostname。如在計算第二相似度時,str1對應(yīng)鏈出點后向鏈接的URL的hostname,str2對應(yīng)鏈入點的當(dāng)前鏈接URL的hostname。如在計算第三相似度時,str1對應(yīng)鏈出點當(dāng)前鏈接URL的path,str2對應(yīng)鏈入點的前向鏈接的URL的path。如在計算第四相似度時,str1對應(yīng)鏈出點后向鏈接的URL的path,str2對應(yīng)鏈入點的當(dāng)前鏈接URL的path。

經(jīng)上述步驟(d1)-(d5)提取特征之后,然后通過機器學(xué)習(xí)方法確定預(yù)設(shè)的鏈入點和鏈出點的匹配模型。具體地,利用人工標注的方式獲得一定量的訓(xùn)練樣本集,即對于一些確定是匹配的鏈出點和對應(yīng)鏈入點對,以及確定的一些不匹配的鏈出點和對應(yīng)鏈入點對,分別進行人工標注,從而得到大量的訓(xùn)練樣本集。然后分別利用訓(xùn)練的樣本集訓(xùn)練鏈入點和鏈出點的匹配模型,從而確定鏈入點和鏈出點的匹配模型的參數(shù),從而確定預(yù)設(shè)的鏈入點和鏈出點的匹配模型。

然后,將上述步驟(d1)-(d5)計算的第一相似度、第二相似度、第三相似度以及第四相似度點和點擊時間戳的差值,分別輸入到預(yù)設(shè)的鏈入點和鏈出點的匹配模型中,從而可以輸出對應(yīng)的鏈入點和鏈出點是否匹配的結(jié)果。通過對所有的鏈出點和鏈入點采用上述方式進行確定,可以得到所有匹配的鏈出點和鏈入點。

本實施例的機器學(xué)習(xí)方法包括但不限于邏輯回歸、決策樹或者支持向量機(Support Vector Machine;SVM)方法。

最后,根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點和鏈入點,將同一用戶的各個行為簇鏈接起來,生成對應(yīng)用戶的全網(wǎng)點擊行為鏈,即根據(jù)各行為簇的鏈入點和鏈出點的匹配結(jié)果,導(dǎo)出用戶的全網(wǎng)點擊行為鏈。例如圖3為本發(fā)明實施例的一種用戶的全網(wǎng)點擊行為鏈的示意圖。如圖3所示,首先找到具有最早時間戳的行為簇G1,假設(shè)G1具有鏈出點G1o,確定G1o的最佳匹配鏈入點為G2i,此鏈入點屬于行為簇G2,則可將行為簇G1和G2串聯(lián)起來,通過G1o—>G2i實現(xiàn)跳轉(zhuǎn)。依次進行,直至無法找到合適的鏈出鏈入匹配,或者行為簇?zé)o鏈出點時停止,由此即可獲得一條用戶的全網(wǎng)點擊行為鏈。

上述實施例的用戶點擊行為鏈的處理方法,通過采用上述技術(shù)方案生成的用戶點擊行為鏈的準確性較高,能夠準確的反映用戶的實際點擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本實施例的用戶點擊行為鏈的處理方法,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個性化特征,提升數(shù)據(jù)的價值。因此,本實施例的用戶點擊行為鏈的處理方法,能夠準確的串聯(lián)起用戶的真實行為序列,在全網(wǎng)session分析項目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準確性。

圖4為本發(fā)明的用戶點擊行為鏈的處理裝置實施例一的結(jié)構(gòu)圖。如圖4所示,本實施例的用戶點擊行為鏈的處理裝置,具體可以包括:行為序列生成模塊10、行為簇劃分模塊11和全網(wǎng)點擊行為鏈生成模塊12。

其中,行為序列生成模塊10用于根據(jù)各用戶的點擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;行為簇劃分模塊11用于根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;全網(wǎng)點擊行為鏈生成模塊12用于對行為簇劃分模塊11劃分的各用戶在各產(chǎn)品線的行為簇進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。

本實施例的用戶點擊行為鏈的處理裝置,通過采用上述模塊實現(xiàn)用戶點擊行為鏈的處理,與上述相關(guān)方法實施例的實現(xiàn)原理以及技術(shù)效果相同,詳細可以參考上述相關(guān)方法實施例的記載,在此不再贅述。

圖5為本發(fā)明的用戶點擊行為鏈的處理裝置實施例二的結(jié)構(gòu)圖。如圖5所示,本實施例的用戶點擊行為鏈的處理裝置在上述圖4所示實施例的技術(shù)方案的基礎(chǔ)上,進一步更加詳細地介紹本發(fā)明的技術(shù)方案。

本實施例的用戶點擊行為鏈的處理裝置中,行為序列生成模塊10具體用于從各產(chǎn)品線的日志信息中,將具有相同用戶標識的點擊行為信息按照時間先后順序排列,生成各用戶在各產(chǎn)品線內(nèi)的行為序列,點擊行為信息包括點擊時間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前產(chǎn)品線內(nèi)的用戶標識以及通用用戶標識。

進一步可選地,其中的通用用戶標識包括IP信息、瀏覽器標識、硬件設(shè)備標識和媒體訪問控制地址中的至少一個。

本實施例的用戶點擊行為鏈的處理裝置中,行為簇劃分模塊11具體用于:

根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線的行為序列,獲取各用戶在各產(chǎn)品線的鏈入點和鏈出點;

根據(jù)各用戶在各產(chǎn)品線的鏈入點和鏈出點,將同一用戶標識在同一產(chǎn)品線中的鏈入點,分別與在同一產(chǎn)品線對應(yīng)的相鄰的鏈出點或者在同一產(chǎn)品線對應(yīng)的后相鄰的鏈入點之間的行為序列,劃分為各用戶的行為簇。

進一步可選地,如圖5所示,本實施例的用戶點擊行為鏈的處理裝置中,全網(wǎng)點擊行為鏈生成模塊12具體包括:用戶匹配單元121和全網(wǎng)點擊行為鏈生成單元122。

其中用戶匹配單元121用于根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線內(nèi)的行為序列中的點擊行為信息中的各通用用戶標識,對各產(chǎn)品線的用戶進行匹配;

全網(wǎng)點擊行為鏈生成單元122用于將用戶匹配單元121匹配后屬于同一用戶的各個行為簇的鏈入點和鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。

例如,用戶匹配單元121用于將不同產(chǎn)品線中,通用用戶標識相同的用戶匹配為同一個用戶。

進一步可選地,如圖5所示,本實施例的用戶點擊行為鏈的處理裝置中,全網(wǎng)點擊行為鏈生成單元122具體包括:提取子單元1221和全網(wǎng)點擊行為鏈子單元1222。

其中提取子單元1221用于根據(jù)用戶匹配單元121的匹配結(jié)果,提取匹配后屬于同一用戶的各個行為簇的鏈出點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;提取子單元1221還用于提取匹配后屬于同一用戶的各個行為簇的鏈入點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;全網(wǎng)點擊行為鏈子單元1222用于根據(jù)匹配后屬于同一用戶的各個行為簇的鏈出點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個行為簇的鏈入點的點擊時間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個行為簇的鏈入點和鏈出點進行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點擊行為鏈。

進一步可選地,全網(wǎng)點擊行為鏈子單元1222具體用于:

對于各鏈出點和各鏈入點,計算鏈出點當(dāng)前鏈接URL的hostname與鏈入點的前向鏈接的URL的hostname的第一相似度;

計算鏈出點后向鏈接的URL的hostname與鏈入點的當(dāng)前鏈接URL的hostname的第二相似度;

計算鏈出點當(dāng)前鏈接URL的path與鏈入點的前向鏈接的URL的path的第三相似度;

計算鏈出點后向鏈接的URL的path與鏈入點的當(dāng)前鏈接URL的path的第四相似度;

計算鏈出點的點擊時間戳和鏈入點的點擊時間戳的差值;

根據(jù)各鏈出點和各鏈入點對應(yīng)的第一相似度、第二相似度、第三相似度、第四相似度、差值以及預(yù)設(shè)的鏈入點和鏈出點的匹配模型,確定跳轉(zhuǎn)鏈接匹配的鏈出點和鏈入點;

根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點和鏈入點,將同一用戶的各個行為簇鏈接起來,生成對應(yīng)用戶的全網(wǎng)點擊行為鏈。

進一步可選地,預(yù)設(shè)的鏈入點和鏈出點的匹配模型為采用機器學(xué)習(xí)方法進行訓(xùn)練得到的;采用機器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

本實施例的用戶點擊行為鏈的處理裝置,通過采用上述模塊實現(xiàn)用戶點擊行為鏈的處理,與上述相關(guān)方法實施例的實現(xiàn)原理以及技術(shù)效果相同,詳細可以參考上述相關(guān)方法實施例的記載,在此不再贅述。

在本發(fā)明所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。

上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory,ROM)、隨機存取存儲器(Random Access Memory,RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明保護的范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
庄浪县| 大理市| 彭山县| 凤凰县| 鹿泉市| 南平市| 谢通门县| 新丰县| 上饶市| 托里县| 洪江市| 剑阁县| 宁武县| 重庆市| 策勒县| 文山县| 长乐市| 敦煌市| 高雄市| 玉环县| 绥化市| 桃江县| 昆山市| 敖汉旗| 巴青县| 景宁| 碌曲县| 衡水市| 南岸区| 古蔺县| 格尔木市| 永善县| 丹江口市| 兴隆县| 山东省| 牙克石市| 新野县| 南乐县| 广安市| 峨山| 武功县|