處理用戶行為數(shù)據(jù)的方法和系統(tǒng)的制作方法
【專利摘要】公開了獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個屬性;根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性;當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則不匹配時,將所述用戶行為數(shù)據(jù)存儲到數(shù)據(jù)庫中,確定所述用戶行為數(shù)據(jù)異常生成第一報警消息;當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中;將所述統(tǒng)計結(jié)果與預(yù)設(shè)維度對應(yīng)的標準集進行比較;以及根據(jù)所述比較結(jié)果生成第二報警消息。本發(fā)明通過對用戶行為數(shù)據(jù)的正確性檢查以及對正確用戶行為數(shù)據(jù)的統(tǒng)計數(shù)據(jù)的檢查,實時檢測異常數(shù)據(jù),解決用戶行為數(shù)據(jù)異常檢測的時效性低的問題。
【專利說明】
處理用戶行為數(shù)據(jù)的方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體地,涉及處理用戶行為數(shù)據(jù)的方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)已經(jīng)逐漸成為人們生活中不可或缺的一部分。人們通過瀏覽網(wǎng)站獲取自己所需要的信息,例如查資料、看視頻或者購物等。由于人們點擊或者瀏覽網(wǎng)站,產(chǎn)生一些流量數(shù)據(jù)和用戶行為數(shù)據(jù),網(wǎng)站的經(jīng)營者可以通過這些數(shù)據(jù)來分析客戶的類型。這些數(shù)據(jù)的可靠程度,決定了最終分析結(jié)果的準確性。因此,對于這些數(shù)據(jù)的依次情況檢測,顯得十分重要。
[0003]目前,對于網(wǎng)站的流量數(shù)據(jù)或者用于行為數(shù)據(jù)主要依賴客戶端埋點進行收集。在整個數(shù)據(jù)收集過程中,會受以下因素影響:客戶端程序開發(fā)、網(wǎng)絡(luò)穩(wěn)定性、服務(wù)器穩(wěn)定性、系統(tǒng)架構(gòu)可靠性等。由于數(shù)據(jù)量巨大,通常問題發(fā)生后需要延遲一天以上的時間才能發(fā)現(xiàn)。排查問題、解決問題也需要時間。這樣就導(dǎo)致數(shù)據(jù)異常發(fā)生的時間會很長。
[0004]針對現(xiàn)有技術(shù)中用戶行為數(shù)據(jù)異常檢測的時效性低的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明提供一種處理用戶行為數(shù)據(jù)的方法和系統(tǒng),以解決用戶行為數(shù)據(jù)異常檢測的時效性低的問題。
[0006]根據(jù)本發(fā)明的一方面,提供一種處理用戶行為數(shù)據(jù)的方法,包括:獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個屬性;根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性;當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則不匹配時,將所述用戶行為數(shù)據(jù)存儲到數(shù)據(jù)庫中,確定所述用戶行為數(shù)據(jù)異常生成第一報警消息;當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中;將所述統(tǒng)計結(jié)果與預(yù)設(shè)維度對應(yīng)的標準集進行比較;以及根據(jù)所述比較結(jié)果生成第二報警消息。
[0007]優(yōu)選地,獲取用戶行為數(shù)據(jù)包括:接收推送的用戶行為數(shù)據(jù);以及將所述用戶行為數(shù)據(jù)添加到消息隊列中。
[0008]優(yōu)選地,當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中包括:每隔預(yù)設(shè)周期,對預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配的用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中。
[0009]優(yōu)選地,根據(jù)所述比較結(jié)果生成第二報警消息包括:獲取所述統(tǒng)計結(jié)果與所述標準集的偏離度;判斷所述偏離度是否超過預(yù)設(shè)閾值;以及當所述偏離度超過預(yù)設(shè)閾值時,生成第二報警消息。
[0010]優(yōu)選地,所述預(yù)設(shè)維度包括第一維度和第二維度,獲取的標準集為所述第一維度下的第一標準集和第二維度下的第二標準集,其中,根據(jù)所述比較結(jié)果生成第二報警消息包括:獲取所述統(tǒng)計結(jié)果與第一標準集的第一偏離度;獲取所述統(tǒng)計結(jié)果與第二標準集的第二偏離度;判斷所述第一偏離度和所述第二偏離度是否超過預(yù)設(shè)閾值;以及當所述第一偏離度和所述第二偏離度均超過所述預(yù)設(shè)閾值,則生成第二報警消息。
[0011]根據(jù)本發(fā)明的另一方面,提供一種處理用戶行為數(shù)據(jù)的系統(tǒng),包括:獲取模塊,用于獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個屬性;讀取模塊,用于根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性;第一確定模塊,用于當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則不匹配時,將所述用戶行為數(shù)據(jù)存儲到數(shù)據(jù)庫中,確定所述用戶行為數(shù)據(jù)異常生成第一報警消息;統(tǒng)計數(shù)據(jù)生成模塊,用于當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中;比較模塊,用于將所述統(tǒng)計結(jié)果與預(yù)設(shè)維度對應(yīng)的標準集進行比較;以及判斷模塊,用于根據(jù)所述比較結(jié)果生成第二報警消息。
[0012]優(yōu)選地,統(tǒng)計數(shù)據(jù)生成模塊還用于每隔預(yù)設(shè)周期,對預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配的用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中。
[0013]優(yōu)選地,判斷模塊包括:第一獲取單元,用于獲取所述統(tǒng)計結(jié)果與所述標準集的偏離度;第一判斷單元,用于判斷所述偏離度是否超過預(yù)設(shè)閾值;以及第一確定單元,用于當所述偏離度超過預(yù)設(shè)閾值時,生成第二報警消息。
[0014]優(yōu)選地,所述預(yù)設(shè)維度包括第一維度和第二維度,獲取的標準集為所述第一維度下的第一標準集和第二維度下的第二標準集,其中,根據(jù)所述比較結(jié)果生成第二報警消息包括:第二獲取單元,用于獲取所述統(tǒng)計結(jié)果與第一標準集的第一偏離度;第三獲取單元,用于獲取所述統(tǒng)計結(jié)果與第二標準集的第二偏離度;第二判斷單元,用于判斷所述第一偏離度和所述第二偏離度是否超過預(yù)設(shè)閾值;以及第二確定單元,用于當所述第一偏離度和所述第二偏離度均超過所述預(yù)設(shè)閾值,則生成第二報警消息。
[0015]根據(jù)本發(fā)明的處理用戶行為數(shù)據(jù)的方法和系統(tǒng),通過對用戶行為數(shù)據(jù)的正確性檢查以及對正確用戶行為數(shù)據(jù)的統(tǒng)計數(shù)據(jù)的檢查,實時檢測異常數(shù)據(jù),解決用戶行為數(shù)據(jù)異常檢測的時效性低的問題。
【附圖說明】
[0016]通過參照以下附圖對本發(fā)明實施例的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)點將更為清楚,在附圖中:
[0017]圖1示出了根據(jù)本發(fā)明實施例的處理用戶行為數(shù)據(jù)的系統(tǒng)的示意圖;
[0018]圖2示出了根據(jù)本發(fā)明實施例的一種優(yōu)選的處理用戶行為數(shù)據(jù)的系統(tǒng)的示意圖;
[0019]圖3示出了根據(jù)本發(fā)明實施例的處理用戶行為數(shù)據(jù)的方法的流程圖。
【具體實施方式】
[0020]以下基于實施例對本發(fā)明進行描述,但是本發(fā)明并不僅僅限于這些實施例。在下文對本發(fā)明的細節(jié)描述中,詳盡描述了一些特定的細節(jié)部分。對本領(lǐng)域技術(shù)人員來說沒有這些細節(jié)部分的描述也可以完全理解本發(fā)明。為了避免混淆本發(fā)明的實質(zhì),公知的方法、過程、流程沒有詳細敘述。另外附圖不一定是按比例繪制的。
[0021]附圖中的流程圖、框圖圖示了本發(fā)明實施例的系統(tǒng)、方法、裝置的可能的體系框架、功能和操作,流程圖和框圖上的方框可以代表一個模塊、程序段或僅僅是一段代碼,所述模塊、程序段和代碼都是用來實現(xiàn)規(guī)定邏輯功能的可執(zhí)行指令。也應(yīng)當注意,所述實現(xiàn)規(guī)定邏輯功能的可執(zhí)行指令可以重新組合,從而生成新的模塊和程序段。因此附圖的方框以及方框順序只是用來更好的圖示實施例的過程和步驟,而不應(yīng)以此作為對發(fā)明本身的限制。
[0022]圖1示出了根據(jù)本發(fā)明實施例的處理用戶行為數(shù)據(jù)的系統(tǒng)的示意圖。如圖1所示,所述數(shù)據(jù)處理系統(tǒng)包括獲取模塊10、讀取模塊20、第一確定模塊30、統(tǒng)計生成模塊40、比較模塊50和判斷模塊60。
[0023]獲取模塊10用于獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個屬性。
[0024]在本實施例中,用戶在訪問網(wǎng)站或者看視頻時,產(chǎn)生一些用戶行為數(shù)據(jù),例如,用戶的IP地址、用戶點擊網(wǎng)站或者視頻的次數(shù),用戶訪問網(wǎng)站或者看視頻產(chǎn)生的流量,用戶訪問網(wǎng)站所使用的瀏覽器、用戶看視頻的APP、用戶查找網(wǎng)站或者視頻所使用的搜索引擎等等數(shù)據(jù)。這些用戶行為數(shù)據(jù)可以從網(wǎng)站的日志文件中獲取。獲取用戶行為數(shù)據(jù)是實時獲取用戶行為數(shù)據(jù),并將所述用戶行為數(shù)據(jù)添加到消息隊列中。
[0025]讀取模塊20用于根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性。
[0026]預(yù)設(shè)維度可以是一個也可以是多個,該預(yù)設(shè)維度可以根據(jù)需要進行選擇。例如,當需要分析網(wǎng)站的用戶點擊某一視頻的播放時長時,可以選擇某一視頻的播放時長這一維度。例如,當預(yù)設(shè)維度為某一視頻的播放時長時,需要對用戶行為數(shù)據(jù)中的某一視頻的播放時長進行分類,將播放某一視頻的用戶的播放時長歸為一類。
[0027]第一確定模塊30,用于當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則不匹配時,將所述用戶行為數(shù)據(jù)存儲到數(shù)據(jù)庫中,確定所述用戶行為數(shù)據(jù)異常生成第一報警消息。
[0028]在本實施例中,每接收到一條用戶行為數(shù)據(jù)均對其屬性進行正確性檢查,例如當預(yù)設(shè)維度為某一視頻的播放時長時,需要對用戶行為數(shù)據(jù)中針對某一視頻的播放時長進行檢測,若標準規(guī)則為[0,180s],而用戶行為數(shù)據(jù)的屬性與該標準規(guī)則不匹配時,確定該數(shù)據(jù)異常,生成第一報警消息,通知業(yè)務(wù)方。
[0029]統(tǒng)計數(shù)據(jù)生成模塊40,用于當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中。
[0030]在本實施例中,用戶行為數(shù)據(jù)的屬性與該標準規(guī)則匹配時,然后對每一類的數(shù)據(jù)進行統(tǒng)計,從而計算出用戶點擊視頻的播放時長和播放時長滿足標準規(guī)則的用戶的數(shù)量,即為統(tǒng)計結(jié)果。當預(yù)設(shè)維度為搜索引擎時,對采用不同的搜索引擎的用戶進行分類,并對每一個搜索引擎的用戶數(shù)量進行統(tǒng)計,得到用戶使用的搜索引擎和使用每個搜索引擎的數(shù)量。如果預(yù)設(shè)維度包括多個維度,則按照多個維度對用戶行為數(shù)據(jù)分別進行計算。每隔預(yù)設(shè)周期,對預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配的用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中。比如每隔5分鐘進行一次統(tǒng)計,統(tǒng)計完成后再進行下一輪的統(tǒng)計。
[0031]比較模塊50,用于將所述統(tǒng)計結(jié)果與預(yù)設(shè)維度對應(yīng)的標準集進行比較。
[0032]在本實施例中,標準集可以是用于判斷用戶行為數(shù)據(jù)是否異常的標準,該標準集可以是預(yù)先創(chuàng)建好的標準集,當預(yù)設(shè)維度為多個維度時,相應(yīng)的標準集也為多個,其中,每一個維度對應(yīng)一個標準集。例如,對于視頻網(wǎng)站,由于不同國家的電視劇的受歡迎程度不同,對不同國家的電視劇的用戶點擊率也各不相同。根據(jù)預(yù)先統(tǒng)計的結(jié)果,可以得到不同國家的電視劇的用戶點擊數(shù)量的排名,通常情況下,韓劇的排名會靠前。此時,可以將國家排名作為標準集,用于判斷用戶行為數(shù)據(jù)的異常。例如,在對用戶行為數(shù)據(jù)進行計算之后,發(fā)現(xiàn)香港電視劇的用戶點擊數(shù)量最大,相當于當前香港電視劇的用戶點擊數(shù)量排名第一,而在相應(yīng)維度的標準集功能,發(fā)現(xiàn)香港電視劇的排名第15,香港電視劇的用戶點擊數(shù)量出現(xiàn)較大的波動,此時,可以認為當前用戶行為數(shù)據(jù)出現(xiàn)異常。
[0033]在本實施例中,標準集可以是通過對所有同領(lǐng)域的網(wǎng)站的用戶行為數(shù)據(jù)進行統(tǒng)計的結(jié)果,也可以是對該網(wǎng)站中的歷史用戶行為數(shù)據(jù)進行統(tǒng)計的結(jié)果。將統(tǒng)計結(jié)果與該標準集進行比較,其中比較結(jié)果可以是計算結(jié)果相對于標準集的偏離度,該偏離度用戶表示統(tǒng)計結(jié)果與標準集的偏離程度。
[0034]判斷模塊60,用于根據(jù)所述比較結(jié)果生成第二報警消息。
[0035]在得到比較結(jié)果之后,可以根據(jù)比較結(jié)果判斷用戶行為數(shù)據(jù)是否出現(xiàn)異常。如果統(tǒng)計結(jié)果與標準集比較接近或者完全相同,則可以認為用戶行為數(shù)據(jù)未出現(xiàn)異常,反之,可以認為用戶行為數(shù)據(jù)出現(xiàn)異常。當然,統(tǒng)計結(jié)果與標準集相差較大時,也可以認為用戶行為數(shù)據(jù)疑似異常,然后再根據(jù)統(tǒng)計結(jié)果相對于標準集的偏離度,判斷該偏離度是否超過預(yù)設(shè)。
[0036]根據(jù)本發(fā)明的處理用戶行為數(shù)據(jù)的方法和系統(tǒng),通過對用戶行為數(shù)據(jù)的正確性檢查以及對正確用戶行為數(shù)據(jù)的統(tǒng)計數(shù)據(jù)的檢查,實時檢測異常數(shù)據(jù),解決用戶行為數(shù)據(jù)異常檢測的時效性低的問題。
[0037]圖2示出了根據(jù)本發(fā)明實施例的一種優(yōu)選的處理用戶行為數(shù)據(jù)的系統(tǒng)的示意圖。如圖2所示,所示系統(tǒng)包括:獲取模塊10、讀取模塊20、第一確定模塊30、統(tǒng)計生成模塊40、比較模塊50和判斷模塊60。其中,判斷模塊60包括第一獲取單元601、第一判斷單元602和第一確定單元603。獲取模塊10、讀取模塊20、第一確定模塊30、統(tǒng)計生成模塊40和比較模塊50分別與圖1所示的獲取模塊10、讀取模塊20、第一確定模塊30、統(tǒng)計生成模塊40和比較模塊50功能相同,這里不做贅述。
[0038]第一獲取單元601,用于獲取所述統(tǒng)計結(jié)果與所述標準集的偏離度,偏離度用于表示統(tǒng)計結(jié)果與所述標準集的偏離程度。
[0039]偏離度用于表示統(tǒng)計結(jié)果與標準集的偏離程度,其中,偏離度的值越大,表示計算結(jié)果與標準集的偏離程度越大。例如,當對用戶行為數(shù)據(jù)進行計算之后,發(fā)現(xiàn)某一視頻點擊的用戶數(shù)量最大,相當于當前該視頻點擊的用戶數(shù)量排名第一,此為統(tǒng)計結(jié)果,而在相應(yīng)維度的標準集中,該視頻點擊的排名第二十,則統(tǒng)計結(jié)果與標準集之間的偏離度為19,獲取該偏離度,則可以判斷統(tǒng)計結(jié)果對應(yīng)的用戶行為數(shù)據(jù)是否異常。
[0040]第一判斷單元602,用于判斷所述偏離度是否超過預(yù)設(shè)閾值。
[0041]預(yù)設(shè)閾值可以是根據(jù)需要進行預(yù)先設(shè)置。不同的維度對應(yīng)的預(yù)設(shè)閾值可以相同,也可以不相同。例如,假如預(yù)設(shè)閾值為5,在上述舉例中,計算結(jié)果與訓(xùn)練集之間的偏離度為19,通過判斷19與5之間的大小就可以判斷出用戶行為數(shù)據(jù)是否出現(xiàn)異常。
[0042]第一確定單元603,用于當所述偏離度超過預(yù)設(shè)閾值時,生成第二報警消息。
[0043]例如,上述舉例中,19>5,則表明計算結(jié)果超出預(yù)設(shè)閾值,則確定用戶行為數(shù)據(jù)出現(xiàn)異常,生成第二報警消息,通知業(yè)務(wù)方。
[0044]優(yōu)選地,預(yù)設(shè)維度包括第一維度和第二維度,獲取的標準集為所述第一維度下的第一標準集和第二維度下的第二標準集,其中,根據(jù)所述比較結(jié)果生成第二報警消息包括:第二獲取單元,用于獲取所述統(tǒng)計結(jié)果與第一標準集的第一偏離度;第三獲取單元,用于獲取所述統(tǒng)計結(jié)果與第二標準集的第二偏離度;第二判斷單元,用于判斷所述第一偏離度和所述第二偏離度是否超過預(yù)設(shè)閾值;以及第二確定單元,用于當所述第一偏離度和所述第二偏離度均超過所述預(yù)設(shè)閾值,則生成第二報警消息。
[0045]需要說明的是,預(yù)設(shè)維度也可以是3個或者更多的維度。
[0046]圖3示出了根據(jù)本發(fā)明實施例的處理用戶行為數(shù)據(jù)的方法的流程圖。所述處理用戶行為數(shù)據(jù)的方法包括以下步驟S301至S306。
[0047]在步驟S301中,獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個屬性。
[0048]在本實施例中,用戶在訪問網(wǎng)站或者看視頻時,產(chǎn)生一些用戶行為數(shù)據(jù),例如,用戶的IP地址、用戶點擊網(wǎng)站或者視頻的次數(shù),用戶訪問網(wǎng)站或者看視頻產(chǎn)生的流量,用戶訪問網(wǎng)站所使用的瀏覽器、用戶看視頻的APP、用戶查找網(wǎng)站或者視頻所使用的搜索引擎等等數(shù)據(jù)。這些用戶行為數(shù)據(jù)可以從網(wǎng)站的日志文件中獲取。獲取用戶行為數(shù)據(jù)是實時獲取用戶行為數(shù)據(jù),并將所述用戶行為數(shù)據(jù)添加到消息隊列中。
[0049]在步驟S302中,根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性。
[0050]預(yù)設(shè)維度可以是一個也可以是多個,該預(yù)設(shè)維度可以根據(jù)需要進行選擇。例如,當需要分析網(wǎng)站的用戶點擊某一視頻的播放時長時,可以選擇某一視頻的播放時長這一維度。例如,當預(yù)設(shè)維度為某一視頻的播放時長時,需要對用戶行為數(shù)據(jù)中的某一視頻的播放時長進行分類,將播放某一視頻的用戶的播放時長歸為一類。
[0051]在步驟S303中,當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則不匹配時,將所述用戶行為數(shù)據(jù)存儲到數(shù)據(jù)庫中,確定所述用戶行為數(shù)據(jù)異常生成第一報警消息。
[0052]在本實施例中,每接收到一條用戶行為數(shù)據(jù)均對其屬性進行正確性檢查,例如當預(yù)設(shè)維度為某一視頻的播放時長時,需要對用戶行為數(shù)據(jù)中針對某一視頻的播放時長進行檢測,若標準規(guī)則為[0,180s],而用戶行為數(shù)據(jù)的屬性與該標準規(guī)則不匹配時,確定該數(shù)據(jù)異常,生成第一報警消息,通知業(yè)務(wù)方。
[0053]在步驟S304中,當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中。
[0054]在本實施例中,用戶行為數(shù)據(jù)的屬性與該標準規(guī)則匹配時,然后對每一類的數(shù)據(jù)進行統(tǒng)計,從而計算出用戶點擊視頻的播放時長和播放時長滿足標準規(guī)則的用戶的數(shù)量,即為統(tǒng)計結(jié)果。當預(yù)設(shè)維度為搜索引擎時,對采用不同的搜索引擎的用戶進行分類,并對每一個搜索引擎的用戶數(shù)量進行統(tǒng)計,得到用戶使用的搜索引擎和使用每個搜索引擎的數(shù)量。如果預(yù)設(shè)維度包括多個維度,則按照多個維度對用戶行為數(shù)據(jù)分別進行計算。每隔預(yù)設(shè)周期,對預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配的用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中。比如每隔5分鐘進行一次統(tǒng)計,統(tǒng)計完成后再進行下一輪的統(tǒng)計。
[0055]在步驟S305中,將所述統(tǒng)計結(jié)果與預(yù)設(shè)維度對應(yīng)的標準集進行比較。
[0056]在本實施例中,標準集可以是用于判斷用戶行為數(shù)據(jù)是否異常的標準,該標準集可以是預(yù)先創(chuàng)建好的標準集,當預(yù)設(shè)維度為多個維度時,相應(yīng)的標準集也為多個,其中,每一個維度對應(yīng)一個標準集。例如,對于視頻網(wǎng)站,由于不同國家的電視劇的受歡迎程度不同,對不同國家的電視劇的用戶點擊率也各不相同。根據(jù)預(yù)先統(tǒng)計的結(jié)果,可以得到不同國家的電視劇的用戶點擊數(shù)量的排名,通常情況下,韓劇的排名會靠前。此時,可以將國家排名作為標準集,用于判斷用戶行為數(shù)據(jù)的異常。例如,在對用戶行為數(shù)據(jù)進行計算之后,發(fā)現(xiàn)香港電視劇的用戶點擊數(shù)量最大,相當于當前香港電視劇的用戶點擊數(shù)量排名第一,而在相應(yīng)維度的標準集功能,發(fā)現(xiàn)香港電視劇的排名第15,香港電視劇的用戶點擊數(shù)量出現(xiàn)較大的波動,此時,可以認為當前用戶行為數(shù)據(jù)出現(xiàn)異常。
[0057]在本實施例中,標準集可以是通過對所有同領(lǐng)域的網(wǎng)站的用戶行為數(shù)據(jù)進行統(tǒng)計的結(jié)果,也可以是對該網(wǎng)站中的歷史用戶行為數(shù)據(jù)進行統(tǒng)計的結(jié)果。將統(tǒng)計結(jié)果與該標準集進行比較,其中比較結(jié)果可以是計算結(jié)果相對于標準集的偏離度,該偏離度用戶表示統(tǒng)計結(jié)果與標準集的偏離程度。
[0058]在步驟S306中,根據(jù)所述比較結(jié)果生成第二報警消息。
[0059]在得到比較結(jié)果之后,可以根據(jù)比較結(jié)果判斷用戶行為數(shù)據(jù)是否出現(xiàn)異常。如果統(tǒng)計結(jié)果與標準集比較接近或者完全相同,則可以認為用戶行為數(shù)據(jù)未出現(xiàn)異常,反之,可以認為用戶行為數(shù)據(jù)出現(xiàn)異常。當然,統(tǒng)計結(jié)果與標準集相差較大時,也可以認為用戶行為數(shù)據(jù)疑似異常,然后再根據(jù)統(tǒng)計結(jié)果相對于標準集的偏離度,判斷該偏離度是否超過預(yù)設(shè)。
[0060]根據(jù)本發(fā)明的處理用戶行為數(shù)據(jù)的方法和系統(tǒng),通過對用戶行為數(shù)據(jù)的正確性檢查以及對正確用戶行為數(shù)據(jù)的統(tǒng)計數(shù)據(jù)的檢查,實時檢測異常數(shù)據(jù),解決用戶行為數(shù)據(jù)異常檢測的時效性低的問題。
【主權(quán)項】
1.一種處理用戶行為數(shù)據(jù)的方法,包括: 獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個屬性; 根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性; 當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則不匹配時,將所述用戶行為數(shù)據(jù)存儲到數(shù)據(jù)庫中,確定所述用戶行為數(shù)據(jù)異常生成第一報警消息; 當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中; 將所述統(tǒng)計結(jié)果與預(yù)設(shè)維度對應(yīng)的標準集進行比較;以及 根據(jù)所述比較結(jié)果生成第二報警消息。2.根據(jù)權(quán)利要求1所述的方法,其中,獲取用戶行為數(shù)據(jù)包括: 接收推送的用戶行為數(shù)據(jù);以及 將所述用戶行為數(shù)據(jù)添加到消息隊列中。3.根據(jù)權(quán)利要求2所述的方法,其中,當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中包括: 每隔預(yù)設(shè)周期,對預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配的用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中。4.根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)所述比較結(jié)果生成第二報警消息包括: 獲取所述統(tǒng)計結(jié)果與所述標準集的偏離度; 判斷所述偏離度是否超過預(yù)設(shè)閾值;以及 當所述偏離度超過預(yù)設(shè)閾值時,生成第二報警消息。5.根據(jù)權(quán)利要求2所述的方法,其中,所述預(yù)設(shè)維度包括第一維度和第二維度,獲取的標準集為所述第一維度下的第一標準集和第二維度下的第二標準集,其中,根據(jù)所述比較結(jié)果生成第二報警消息包括: 獲取所述統(tǒng)計結(jié)果與第一標準集的第一偏離度; 獲取所述統(tǒng)計結(jié)果與第二標準集的第二偏離度; 判斷所述第一偏離度和所述第二偏離度是否超過預(yù)設(shè)閾值;以及 當所述第一偏離度和所述第二偏離度均超過所述預(yù)設(shè)閾值,則生成第二報警消息。6.—種處理用戶行為數(shù)據(jù)的系統(tǒng),包括: 獲取模塊,用于獲取用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)包括多個屬性; 讀取模塊,用于根據(jù)預(yù)設(shè)維度讀取用戶行為數(shù)據(jù)的屬性; 第一確定模塊,用于當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則不匹配時,將所述用戶行為數(shù)據(jù)存儲到數(shù)據(jù)庫中,確定所述用戶行為數(shù)據(jù)異常生成第一報警消息;統(tǒng)計數(shù)據(jù)生成模塊,用于當所述用戶行為數(shù)據(jù)的屬性與預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配時,將所述用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中; 比較模塊,用于將所述統(tǒng)計結(jié)果與預(yù)設(shè)維度對應(yīng)的標準集進行比較;以及 判斷模塊,用于根據(jù)所述比較結(jié)果生成第二報警消息。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,統(tǒng)計數(shù)據(jù)生成模塊還用于每隔預(yù)設(shè)周期,對預(yù)設(shè)維度對應(yīng)的標準規(guī)則匹配的用戶行為數(shù)據(jù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存儲到數(shù)據(jù)庫中。8.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,判斷模塊包括: 第一獲取單元,用于獲取所述統(tǒng)計結(jié)果與所述標準集的偏離度; 第一判斷單元,用于判斷所述偏離度是否超過預(yù)設(shè)閾值;以及 第一確定單元,用于當所述偏離度超過預(yù)設(shè)閾值時,生成第二報警消息。9.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述預(yù)設(shè)維度包括第一維度和第二維度,獲取的標準集為所述第一維度下的第一標準集和第二維度下的第二標準集,其中,根據(jù)所述比較結(jié)果生成第二報警消息包括: 第二獲取單元,用于獲取所述統(tǒng)計結(jié)果與第一標準集的第一偏離度; 第三獲取單元,用于獲取所述統(tǒng)計結(jié)果與第二標準集的第二偏離度; 第二判斷單元,用于判斷所述第一偏離度和所述第二偏離度是否超過預(yù)設(shè)閾值;以及第二確定單元,用于當所述第一偏離度和所述第二偏離度均超過所述預(yù)設(shè)閾值,則生成第二報警消息。
【文檔編號】G06F17/30GK105868256SQ201511001474
【公開日】2016年8月17日
【申請日】2015年12月28日
【發(fā)明人】張甲超
【申請人】樂視網(wǎng)信息技術(shù)(北京)股份有限公司