專利名稱:網(wǎng)絡用戶行為信息分析系統(tǒng)及其分析方法
技術領域:
本發(fā)明屬于網(wǎng)絡信息分析領域,特別是一種網(wǎng)絡用戶行為信息分析系統(tǒng)及其分析方法。
背景技術:
隨著互聯(lián)網(wǎng)的發(fā)展和計算機的普及,網(wǎng)絡用戶的數(shù)量增長迅速,網(wǎng)絡行為逐漸成為了人類行為中最重要的社會現(xiàn)象之一。深入了解和分析網(wǎng)絡用戶的行為,才能發(fā)現(xiàn)用戶網(wǎng)站使用行為的影響因素,有助于改進和優(yōu)化基于網(wǎng)絡的信息服務,提高信息管理和服務的效率。
在行為信息的范圍內,行為指的是作為行動、操作或事件的活動以及在虛擬或實際組織中實體在特定的情境和環(huán)境下產(chǎn)生的活動序列。本發(fā)明主要研究的是在網(wǎng)絡環(huán)境下用戶行為所具有的特點。網(wǎng)絡行為可以用某些特征量的統(tǒng)計特征或特征量的關聯(lián)關系定量或定性的表示。用戶通過電子商務網(wǎng)站進行交易,在這些網(wǎng)站的運轉過程中,積累了大量有關客戶行為的數(shù)據(jù)信息,對這些行為數(shù)據(jù)進行進一步的研究,可以發(fā)現(xiàn)用戶網(wǎng)站使用行為中的一般模式和規(guī)律,進而發(fā)現(xiàn)網(wǎng)頁和網(wǎng)站功能設計中可能存在的問題,從而找到網(wǎng)站改進和完善的方向。文獻I:中國專利CN 101188521 A,寧輝,張濤.一種挖掘用戶行為數(shù)據(jù)的方法和網(wǎng)站服務器.2008. 5公開了一種挖掘用戶行為數(shù)據(jù)的方法和網(wǎng)站服務器,通過網(wǎng)站服務器保存網(wǎng)站日志數(shù)據(jù),讀取所述網(wǎng)站日志數(shù)據(jù),并對所述網(wǎng)站日志數(shù)據(jù)進行分析,這種方法不用單獨設置統(tǒng)計服務器,節(jié)省硬件資源和成本。但是這種方法無法實現(xiàn)對網(wǎng)絡用戶動態(tài)行為的分析。由于網(wǎng)站日志數(shù)據(jù)記錄的數(shù)據(jù)有一定的規(guī)范,主要記錄了用戶的訪問時間,訪問頁面,用戶ID,訪問IP等,無法獲取更多所需要的信息。例如,僅通過網(wǎng)站日志數(shù)據(jù)不能獲取在網(wǎng)站注冊失敗的用戶的行為信息。文獻2 :中國專利CN102238045 A,謝永開.一種無線互聯(lián)網(wǎng)用戶行為預測系統(tǒng).2011. 11公開了一種無線互聯(lián)網(wǎng)用戶行為的預測系統(tǒng),該系統(tǒng)通過位于客戶端的手機用戶行為數(shù)據(jù)采集模塊,收集手機用戶運行時間的用戶行為數(shù)據(jù),并發(fā)送到服務器,位于服務器端的手機用戶行為分析預測模塊,對用戶行為建模,根據(jù)客戶端的用戶行為數(shù)據(jù)采集模塊收集的用戶行為數(shù)據(jù)進行用戶行為分析及預測。該發(fā)明與本發(fā)明在思想和方法上有一定的一致性,但是也存在缺陷該發(fā)明對收集到的用戶行為數(shù)據(jù)進行聚類分析得到用戶分組,通過關聯(lián)規(guī)則建立用戶分組與對應行為間的關系,那么不同的聚類方法可能會使分組的結果不一致,造成分析結論的不準確,同時該發(fā)明主要針對手機無線上網(wǎng)用戶,并且所支持的智能手機操作系統(tǒng)有限。
發(fā)明內容
本發(fā)明的目的在于提供一種能方便快速的獲取網(wǎng)絡用戶行為信息,且能保證了用戶行為信息的完整性、連續(xù)性和有效性的網(wǎng)絡用戶行為信息分析系統(tǒng)及分析方法。實現(xiàn)本發(fā)明目的的技術解決方案為
一種網(wǎng)絡用 戶行為信息分析系統(tǒng),包括依次連接的網(wǎng)絡用戶行為數(shù)據(jù)獲取模塊,網(wǎng)絡用戶行為數(shù)據(jù)預處理模塊,網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊,網(wǎng)絡用戶行為數(shù)據(jù)分析模塊,分析結果顯示模塊。一種網(wǎng)絡用戶行為信息分析方法,包括以下步驟
步驟一網(wǎng)絡用戶行為數(shù)據(jù)獲取模塊利用集成在其中的埋點程序獲取網(wǎng)站用戶行為數(shù)據(jù),并將其記錄在網(wǎng)站日志數(shù)據(jù)中,然后對單位時間內搜集到的數(shù)據(jù)是否異常進行判斷,最后將數(shù)據(jù)同步至本地數(shù)據(jù)庫;其中埋點程序是由嵌入到瀏覽器端的收集用戶行為數(shù)據(jù)的程序代碼和后端用于監(jiān)測用戶行為數(shù)據(jù)收集結果是否異常的程序代碼組成;
步驟二 網(wǎng)絡用戶行為數(shù)據(jù)預處理模塊對網(wǎng)站日志數(shù)據(jù)進行識別,篩選出用于用戶行為信息分析的用戶行為數(shù)據(jù);
步驟三通過行為序列分析將提取的用戶行為數(shù)據(jù)轉換成面向行為特征空間的行為數(shù)據(jù),將其存儲于網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊;
步驟四網(wǎng)絡用戶行為數(shù)據(jù)分析模塊調用網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊中的用戶行為數(shù)據(jù),運用系統(tǒng)設定的用戶行為模式挖掘方法對用戶行為數(shù)據(jù)進行分析;
步驟五分析結果顯示模塊將用戶行為信息分析的結果展示于用戶終端顯示器界面。本發(fā)明與現(xiàn)有技術相比,其顯著優(yōu)點
1、方便快速的獲取網(wǎng)絡用戶行為信息,包括靜態(tài)和動態(tài)的行為信息,保證了用戶行為信息的完整性、連續(xù)性和有效性;
2、分析每一個網(wǎng)絡用戶的正向和負向行為信息,充分挖掘出網(wǎng)絡用戶行為特征和模
式;
3、數(shù)據(jù)挖掘算法離線計算,計算結果清晰、客觀,以方便企業(yè)進一步總結出業(yè)務規(guī)則,進行網(wǎng)站結構的優(yōu)化和調整。下面結合附圖對本發(fā)明作進一步詳細描述。
圖I是根據(jù)本發(fā)明的網(wǎng)絡用戶行為信息分析系統(tǒng)的結構示意圖。圖2是根據(jù)本發(fā)明實施例的網(wǎng)站用戶注冊行為信息分析系統(tǒng)的JS頁面前端埋點程序圖。圖3是根據(jù)本發(fā)明實施例的網(wǎng)站用戶注冊行為信息分析系統(tǒng)的Java后端埋點程序圖。圖4是根據(jù)本發(fā)明實施例的網(wǎng)站用戶注冊行為信息收集與存儲結構示意圖。圖5是根據(jù)本發(fā)明實施例的網(wǎng)站用戶注冊行為序列示意圖。圖6是根據(jù)本發(fā)明實施例的網(wǎng)站用戶注冊行為信息分析系統(tǒng)的流程圖。
具體實施例方式為使本發(fā)明的實施例的目的、技術方案和優(yōu)點更加清楚,下面對本發(fā)明中涉及的一些術語做簡單解釋。
埋點程序是由嵌入到瀏覽器端的收集用戶行為數(shù)據(jù)的程序代碼和后端用于監(jiān)測用戶行為數(shù)據(jù)收集結果是否異常的程序代碼組成。基礎數(shù)據(jù)是埋點程序捕獲的用于用戶行為信息分析的數(shù)據(jù)。基礎數(shù)據(jù)屬于初級數(shù)據(jù),需要經(jīng)過本系統(tǒng)根據(jù)規(guī)則抽取為中間層數(shù)據(jù)。中間層數(shù)據(jù)是從基礎數(shù)據(jù)中根據(jù)預先設定的規(guī)則抽取的為本系統(tǒng)所用的業(yè)務信息組合,中間層數(shù)據(jù)屬于半成品數(shù)據(jù),還需要經(jīng)過本系統(tǒng)根據(jù)預先設定的算法模塊求解出分析結果。用戶訪問網(wǎng)站的用戶。
目標行為指與企業(yè)的績效相關的行為。本發(fā)明一種網(wǎng)絡用戶行為信息分析系統(tǒng),該系統(tǒng)包括依次連接的網(wǎng)絡用戶行為數(shù)據(jù)獲取模塊,網(wǎng)絡用戶行為數(shù)據(jù)預處理模塊,網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊,網(wǎng)絡用戶行為數(shù)據(jù)分析模塊,分析結果顯示模塊。參見圖1,顯示了根據(jù)本發(fā)明一種網(wǎng)絡用戶行為信息分析系統(tǒng)的結構示意圖,具體包括以下模塊。用戶行為數(shù)據(jù)獲取模塊101 :在網(wǎng)頁內嵌套JavaScript腳本,當用戶訪問網(wǎng)頁時,觸發(fā)統(tǒng)計腳本獲取訪問數(shù)據(jù),后端Java程序判斷數(shù)據(jù)結構是否異常,并將兩者數(shù)據(jù)合并。網(wǎng)站用戶行為數(shù)據(jù)預處理模塊102 :根據(jù)預先設定的日志數(shù)據(jù)存儲規(guī)則對數(shù)據(jù)庫記錄的日志數(shù)據(jù)進行識別、篩選、分類和匯總。網(wǎng)站用戶行為數(shù)據(jù)存儲模塊103 :將經(jīng)過數(shù)據(jù)預處理的網(wǎng)絡用戶行為數(shù)據(jù)以標準的格式存儲到UEAM系統(tǒng)數(shù)據(jù)庫單元中。網(wǎng)站用戶行為數(shù)據(jù)分析模塊104 :根據(jù)系統(tǒng)設定的數(shù)據(jù)挖掘算法對日志數(shù)據(jù)進行分析,并將得出的用戶行為分析結果存儲于分析結果存儲單元中。分析結果顯示模塊105 :將數(shù)據(jù)分析的結果顯示于系統(tǒng)管理員終端顯示器界面。一種網(wǎng)絡用戶行為信息分析方法,包括以下步驟
步驟一網(wǎng)絡用戶行為數(shù)據(jù)獲取模塊利用集成在其中的埋點程序獲取網(wǎng)站用戶行為數(shù)據(jù),并將其記錄在網(wǎng)站日志數(shù)據(jù)中,然后對單位時間內收集到的數(shù)據(jù)是否異常進行判斷,最后將數(shù)據(jù)同步至本地數(shù)據(jù)庫;其中埋點程序是由嵌入到瀏覽器端的收集用戶行為數(shù)據(jù)的程序代碼和后端用于監(jiān)測用戶行為數(shù)據(jù)收集結果是否異常的程序代碼組成;
獲取網(wǎng)站用戶行為數(shù)據(jù)時,利用了埋點程序,當用戶登陸客戶端瀏覽器時,觸發(fā)收集用戶行為數(shù)據(jù)的程序代碼,在用戶訪問網(wǎng)站頁面時,為用戶創(chuàng)建一個會話和頁面編號;用戶按照要求填寫相關信息時,收集用戶行為數(shù)據(jù)的程序代碼會自動記錄用戶行為數(shù)據(jù);同時,系統(tǒng)設置了用戶最小輸入數(shù)據(jù)量,當收集到的用戶行為數(shù)據(jù)達到用戶最小輸入數(shù)據(jù)量時,將記錄到的頁面整體數(shù)據(jù)打包發(fā)送到Web服務器;然后將單位時間內收集到的用戶行為數(shù)據(jù)同步至本地數(shù)據(jù)庫。將單位時間內收集到的用戶行為數(shù)據(jù)同步至本地數(shù)據(jù)庫時,由后端用于監(jiān)測用戶行為數(shù)據(jù)收集結果是否異常的程序進行入庫判斷,判斷采集到的數(shù)據(jù)與平均值是否存在異常,如果存在異常,則將收集到的數(shù)據(jù)舍去,以平均值代替,否則直接將采集到的數(shù)據(jù)同步至本地數(shù)據(jù)庫中;所述異常是通過與平均值的差別率判定的,其中差別率可以進行設定;
步驟二 網(wǎng)絡用戶行為數(shù)據(jù)預處理模塊對網(wǎng)站日志數(shù)據(jù)進行識別,篩選出用于用戶行為信息分析的用戶行為數(shù)據(jù);
對網(wǎng)站日志數(shù)據(jù)進行識別、篩選,即選出有用的用戶行為數(shù)據(jù),排除無用的用戶行為數(shù)據(jù);直接收集到的網(wǎng)絡用戶行為數(shù)據(jù)會出現(xiàn)以下幾種情況(1)前端用戶界面顯示的頁面元素名和后端記錄于日志數(shù)據(jù)中的頁面元素名不一致;如頁面元素名為Full Name,而日志數(shù)據(jù)記錄的字段為userName; (2)涉及用戶安全隱私的內容無法收集記錄,而會產(chǎn)生一些無關的雜亂信息;(3) —個用戶對同一頁面元素的每次填寫都會被記錄下來,從而造成同一頁面元素信息的多次重復記錄;如用戶填寫了郵箱地址后,又更換了郵箱地址,那么用戶的兩次填寫行為都會被記錄下來,從而造成郵箱這一信息出現(xiàn)2次記錄。因此,在識別、篩選有用的用戶行為數(shù)據(jù)時排除了涉及用戶安全隱私的頁面元素,并構建了頁面元素和日志數(shù)據(jù)中記錄的頁面元素的對照表單,針對重復記錄的現(xiàn)象,采取以最后一次記錄的信息為準的原則。步驟三通過行為序列分析將提取的用戶行為數(shù)據(jù)轉換成面向行為特征空間的行為數(shù)據(jù),將其存儲于網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊;
在構建用戶行為序列時采用了正向構建行為序列的方法,即時間窗口的方法;設置一個滾動的時間窗口,根據(jù)每個目標的發(fā)生順序,將用戶行為在行為坐標里從左邊移動到右邊。步驟四網(wǎng)絡用戶行為數(shù)據(jù)分析模塊調用網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊中的用戶行為數(shù)據(jù),運用系統(tǒng)設定的用戶行為模式挖掘方法對用戶行為數(shù)據(jù)進行分析;
在對網(wǎng)絡用戶行為數(shù)據(jù)進行用戶行為模式挖掘時,主要采用了支持度計算和相關性分析這兩種方法;
支持度計算是通過計算頁面元素對目標行為的支持度,來挖掘出那些很可能導致用戶目標頻繁發(fā)生的行為模式,計算公式為
Supporliai(D) =
其中今代表用戶行為, 代表用戶行為數(shù)據(jù)集,其中包括目標數(shù)據(jù)集Dr和非目標數(shù)據(jù)集;
同時,為了捕捉到那些雖然出現(xiàn)頻率低,但會對目標行為產(chǎn)生重大影響的行為,我們還對同一行為在不同數(shù)據(jù)集中的支持度做了對比分析;
S^poriiai/Dt)
tAmirast =-------------------------
SupportiaiZBf)
其中珥是指目標數(shù)據(jù)集,馬·是指非目標數(shù)據(jù)集,!■是目標,f=是非目標,這里€kminmt>0,設置一個閾值,如果Οοιι& Β ><r,說明珥對目標Γ的影響要大于對非目標T的影響;如果,則相反;
為了衡量用戶行為之間的相關密切程度,進行了相關性分析。進行相關性分析是利用SPSS軟件,采用Pearson相關系數(shù)P來判斷頁面元素之間的相關性程度;若p〈0則認為是負相關;若0〈p〈0. 2則認為不相關;若O. 2<P<0. 4則認為是弱正相關;若O. 4〈P〈0. 6則認為是中等正相關;若O. 6〈P〈0. 8則認為是強正相關;若P>0. 8則認為是極強正相關。步驟五分析結果顯示模塊將用戶行為信息分析的結果展示于用戶終端顯示器界面。
實施例I 一種網(wǎng)絡用戶檢索行為信息分析方法
步驟一網(wǎng)絡用戶行為數(shù)據(jù)獲取模塊利用集成在其中的埋點程序獲取網(wǎng)站用戶檢索行為數(shù)據(jù),其中埋點程序是由嵌入到瀏覽器端的收集用戶行為數(shù)據(jù)的程序代碼和后端用于監(jiān)測用戶行為數(shù)據(jù)收集結果是否異常的程序代碼組成;當用戶按照需求檢索信息時,通過Java程序編寫的收集用戶行為數(shù)據(jù)的程序代碼自動記錄用戶名和用戶檢索的信息,如果用戶檢索到了所需信息,則將記錄的用戶檢索行為數(shù)據(jù)打包發(fā)送到網(wǎng)站web服務器;如果用戶沒有檢索到所需信息,當用戶離開頁面時,將記錄的用戶檢索行為數(shù)據(jù)發(fā)送到網(wǎng)站web服務器;前端Java程序收集了一周的用戶檢索行為數(shù)據(jù),向服務器發(fā)出請求,此時啟動后端由JavaScript程序編寫的用于監(jiān)測用戶行為數(shù)據(jù)收集結果是否異常的程序代碼進行數(shù)據(jù)的入庫判斷,將這一周采集的數(shù)據(jù)與之前每周的平均數(shù)據(jù)進行對比,判斷采集的數(shù)據(jù)與平均數(shù)據(jù)相比的差別率是否超出預先設定的浮動范圍,如果超出,則用平均值代替,然后將數(shù)據(jù)同步至本地數(shù)據(jù)庫,否則直接將采集到的數(shù)據(jù)同步至本地數(shù)據(jù)庫。步驟二 網(wǎng)絡用戶行為數(shù)據(jù)預處理模塊對網(wǎng)站日志數(shù)據(jù)進行識別,篩選出用于用戶行為信息分析的用戶檢索行為數(shù)據(jù);
對網(wǎng)站日志數(shù)據(jù)進行識別、篩選,即選出有用的用戶檢索行為數(shù)據(jù),排除無用的用戶檢索行為數(shù)據(jù);直接收集到的網(wǎng)絡用戶檢索行為數(shù)據(jù)會出現(xiàn)以下幾種情況(I)前端用戶界面顯示的頁面元素名和后端記錄于日志數(shù)據(jù)中的頁面元素名不一致;(2)涉及用戶安全隱私的內容無法收集記錄,而會產(chǎn)生一些無關的雜亂信息;(3)—個用戶對同一頁面元素的每次填寫都會被記錄下來,從而造成同一頁面元素信息的多次重復記錄;如用戶輸入了一個檢索詞之后,又對檢索詞進行了更改,那么用戶的兩次填寫行為都會被記錄下來,從而造成一次檢索行為的檢索信息重復記錄的情況。因此,在識別、篩選有用的用戶行為數(shù)據(jù)時排除了涉及用戶安全隱私的頁面元素,并構建了頁面元素和日志數(shù)據(jù)中記錄的頁面元素的對照表單,針對重復記錄的現(xiàn)象,采取以最后一次記錄的信息為準的原則。步驟三通過行為序列分析將提取的用戶檢索行為數(shù)據(jù)轉換成面向行為特征空間的行為數(shù)據(jù),將其存儲于網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊;
在構建用戶檢索行為序列時采用了正向構建行為序列的方法,即時間窗口的方法;設置一個滾動的時間窗口,根據(jù)每個目標的發(fā)生順序,將用戶檢索行為在行為坐標里從左邊移動到右邊。步驟四網(wǎng)絡用戶行為數(shù)據(jù)分析模塊調用網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊中的用戶檢索行為數(shù)據(jù),運用系統(tǒng)設定的用戶行為模式挖掘方法對用戶檢索行為數(shù)據(jù)進行分析;
在對網(wǎng)絡用戶檢索行為數(shù)據(jù)進行用戶行為模式挖掘時,主要采用了支持度計算和相關性分析這兩種方法;
支持度計算是通過計算檢索行為對檢索目標的支持度,來挖掘出那些很可能導致用戶目標頻繁發(fā)生的行為模式,計算公式為其中今代表用戶檢索行為, 代表用戶檢索行為數(shù)據(jù)集,其中包括目標數(shù)據(jù)集^ 1■和非目標數(shù)據(jù)集巧;
同理可以得出數(shù)據(jù)集琿和中導致用戶檢索成功和失敗的行為模式的支持度
權利要求
1.一種網(wǎng)絡用戶行為信息分析系統(tǒng),其特征在于,包括依次連接的網(wǎng)絡用戶行為數(shù)據(jù)獲取模塊,網(wǎng)絡用戶行為數(shù)據(jù)預處理模塊,網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊,網(wǎng)絡用戶行為數(shù)據(jù)分析模塊,分析結果顯示模塊。
2.—種網(wǎng)絡用戶行為信息分析方法,其特征在于,包括以下步驟 步驟一網(wǎng)絡用戶行為數(shù)據(jù)獲取模塊利用集成在其中的埋點程序獲取網(wǎng)站用戶行為數(shù)據(jù),并將其記錄在網(wǎng)站日志數(shù)據(jù)中,然后對單位時間內搜集到的數(shù)據(jù)是否異常進行判斷,最后將數(shù)據(jù)同步至本地數(shù)據(jù)庫;其中埋點程序是由嵌入到瀏覽器端的收集用戶行為數(shù)據(jù)的程序代碼和后端用于監(jiān)測用戶行為數(shù)據(jù)收集結果是否異常的程序代碼組成; 步驟二 網(wǎng)絡用戶行為數(shù)據(jù)預處理模塊對網(wǎng)站日志數(shù)據(jù)進行識別,篩選出用于用戶行為信息分析的用戶行為數(shù)據(jù); 步驟三通過行為序列分析將提取的用戶行為數(shù)據(jù)轉換成面向行為特征空間的行為數(shù)據(jù),將其存儲于網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊; 步驟四網(wǎng)絡用戶行為數(shù)據(jù)分析模塊調用網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊中的用戶行為數(shù)據(jù),運用系統(tǒng)設定的用戶行為模式挖掘方法對用戶行為數(shù)據(jù)進行分析; 步驟五分析結果顯示模塊將用戶行為信息分析的結果展示于用戶終端顯示器界面。
3.根據(jù)權利要求2所述的一種網(wǎng)絡用戶行為信息分析方法,其特征在于,步驟一中獲取網(wǎng)站用戶行為數(shù)據(jù)時,利用了埋點程序,當用戶登陸客戶端瀏覽器時,觸發(fā)收集用戶行為數(shù)據(jù)的程序代碼,在用戶訪問網(wǎng)站頁面時,為用戶創(chuàng)建一個會話和頁面編號;用戶按照要求填寫相關信息時,收集用戶行為數(shù)據(jù)的程序代碼會自動記錄用戶行為數(shù)據(jù);同時,系統(tǒng)設置了用戶最小輸入數(shù)據(jù)量,當收集到的用戶行為數(shù)據(jù)達到用戶最小輸入數(shù)據(jù)量時,將記錄到的頁面整體數(shù)據(jù)打包發(fā)送到Web服務器;然后將單位時間內收集到的用戶行為數(shù)據(jù)同步至本地數(shù)據(jù)庫。
4.根據(jù)權利要求2所述的一種網(wǎng)絡用戶行為信息分析方法,其特征在于,步驟二中對網(wǎng)站日志數(shù)據(jù)進行識別、篩選,即選出有用的用戶行為數(shù)據(jù),排除無用的用戶行為數(shù)據(jù);直接收集到的網(wǎng)絡用戶行為數(shù)據(jù)會出現(xiàn)以下幾種情況第一,前端用戶界面顯示的頁面元素名和后端記錄于日志數(shù)據(jù)中的頁面元素名不一致;第二,涉及用戶安全隱私的內容無法收集記錄,而會產(chǎn)生一些無關的雜亂信息;第三,一個用戶對同一頁面元素的每次填寫都會被記錄下來,從而造成同一頁面元素信息的多次重復記錄;因此,在識別、篩選有用的用戶行為數(shù)據(jù)時排除了涉及用戶安全隱私的頁面元素,并構建了頁面元素和日志數(shù)據(jù)中記錄的頁面元素的對照表單,針對重復記錄的現(xiàn)象,采取以最后一次記錄的信息為準的原則。
5.根據(jù)權利要求2所述的一種網(wǎng)絡用戶行為信息分析方法,其特征在于,步驟三在構建用戶行為序列時采用了正向構建行為序列的方法,即時間窗口的方法;設置一個滾動的時間窗口,根據(jù)每個目標的發(fā)生順序,將用戶行為在行為坐標里從左邊移動到右邊。
6.根據(jù)權利要求2所述的一種網(wǎng)絡用戶行為信息分析方法,其特征在于,步驟四在對網(wǎng)絡用戶行為數(shù)據(jù)進行用戶行為模式挖掘時,主要采用了支持度計算和相關性分析這兩種方法; 支持度計算是通過計算頁面元素對目標行為的支持度,來挖掘出那些很可能導致用戶目標頻繁發(fā)生的行為模式,計算公式為
7.根據(jù)權利要求3所述的一種網(wǎng)絡用戶行為信息分析方法,其特征在于,將單位時間內收集到的用戶行為數(shù)據(jù)同步至本地數(shù)據(jù)庫時,由后端用于監(jiān)測用戶行為數(shù)據(jù)收集結果是否異常的程序進行入庫判斷,判斷采集到的數(shù)據(jù)與平均值是否存在異常,如果存在異常,則將收集到的數(shù)據(jù)舍去,以平均值代替,否則直接將采集到的數(shù)據(jù)同步至本地數(shù)據(jù)庫中。
8.根據(jù)權利要求6所述的一種網(wǎng)絡用戶行為信息分析方法,其特征在于,進行相關性分析是利用SPSS軟件,采用Pearson相關系數(shù)P來判斷頁面元素之間的相關性程度;若P〈0則認為是負相關;若0〈P〈0. 2則認為不相關;若O. 2<P<0. 4則認為是弱正相關;若O.4〈P〈0. 6則認為是中等正相關;若O. 6〈P〈0. 8則認為是強正相關;若P>0. 8則認為是極強正相關。
9.根據(jù)權利要求7所述的一種網(wǎng)絡用戶行為信息分析方法,其特征在于,所述異常是通過與平均值的差別率判定的,其中差別率可以進行設定。
全文摘要
本發(fā)明公開了一種網(wǎng)絡用戶行為信息分析系統(tǒng)及其分析方法,系統(tǒng)包括依次連接的網(wǎng)絡用戶行為數(shù)據(jù)獲取模塊,網(wǎng)絡用戶行為數(shù)據(jù)預處理模塊,網(wǎng)絡用戶行為數(shù)據(jù)存儲模塊,網(wǎng)絡用戶行為數(shù)據(jù)分析模塊,分析結果顯示模塊;方法包括數(shù)據(jù)的采集,數(shù)據(jù)的預處理,數(shù)據(jù)的轉換,數(shù)據(jù)的分析和數(shù)據(jù)的顯示等步驟,本發(fā)明能方便快速的獲取網(wǎng)絡用戶行為信息,保證了用戶行為信息的完整性、連續(xù)性和有效性。
文檔編號H04L12/26GK102946319SQ20121037429
公開日2013年2月27日 申請日期2012年9月29日 優(yōu)先權日2012年9月29日
發(fā)明者李莉, 鄭一曼, 熊巍, 劉欣 申請人:焦點科技股份有限公司, 南京理工大學