两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種流量記錄的合并方法和合并系統(tǒng)的制作方法

文檔序號:7795901閱讀:127來源:國知局
一種流量記錄的合并方法和合并系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種流量記錄的合并方法和系統(tǒng),其中,所述方法包括:從網(wǎng)絡(luò)產(chǎn)生的流量記錄中選取部分流量記錄進(jìn)行識別,確定其歸屬網(wǎng)站或應(yīng)用;將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷;將相關(guān)度高的待識別流量記錄歸屬為所述網(wǎng)站或應(yīng)用;將歸屬為所述網(wǎng)站或應(yīng)用的多條流量記錄進(jìn)行合并。本發(fā)明可簡便、準(zhǔn)確地將網(wǎng)絡(luò)中歸屬相同網(wǎng)站或應(yīng)用的流量記錄進(jìn)行合并。
【專利說明】一種流量記錄的合并方法和合并系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及流量記錄合并領(lǐng)域,尤其涉及一種流量記錄的合并方法和合并系統(tǒng)?!颈尘凹夹g(shù)】
[0002]互聯(lián)網(wǎng)中流量記錄是根據(jù)一次次單獨的會話生成的,比如由一個用戶的一次HTTP請求和響應(yīng)生成一次流量記錄;或者由一個用戶的一次流媒體會話生成一次流量記錄,如果流媒體會話時間較長,受到設(shè)備內(nèi)層的限制,通常會由幾條流量記錄表示此次流媒體會話。由此可見,互聯(lián)網(wǎng)中存儲的流量記錄不僅數(shù)據(jù)量大而且雜亂。
[0003]為了便于對流量記錄進(jìn)行分析,降低存儲的難度,需要對互聯(lián)網(wǎng)中的流量記錄進(jìn)行同類合并。
[0004]現(xiàn)有的流量記錄合并的方式,主要包括以下幾種方式:
[0005]1、根據(jù)流量記錄中包含的某個相同參數(shù),如協(xié)議類型、IP地址(或地址段)、用戶名標(biāo)識、URL等,進(jìn)行合并;
[0006]2、將統(tǒng)一用戶在時間上接續(xù)的幾條記錄進(jìn)行合并
[0007]上述流量記錄合并方式存在以下缺陷:
[0008]以流量記錄中的單一參數(shù)作為合并依據(jù),合并的數(shù)據(jù)準(zhǔn)確度不高,且可操作性差,這是因為實際的網(wǎng)頁上有很多元素,這些元素可能來自不同的域名和統(tǒng)一資源定位符(URL),因此,訪問相同網(wǎng)站或應(yīng)用生成的多個流量記錄之間記錄的IP、URL或域名等字段都不一致;
[0009]另外,用戶在上網(wǎng)時,常常會在時間上交錯地打開多個網(wǎng)站,還有可能在網(wǎng)頁瀏覽的時候打開音樂客戶端、軟件自動更新程序等,因此如果以時間先后順序合并流量記錄,難以保證合并的流量記錄屬于相同的網(wǎng)站或應(yīng)用。

【發(fā)明內(nèi)容】

[0010]本發(fā)明提供了一種流量記錄的合并方法和合并系統(tǒng),以解決如何簡便、準(zhǔn)確地將網(wǎng)絡(luò)中歸屬相同網(wǎng)站或應(yīng)用的流量記錄進(jìn)行合并的技術(shù)問題。
[0011]為解決上述技術(shù)問題,本發(fā)明提供了一種流量記錄合并方法,所述方法包括:
[0012]從網(wǎng)絡(luò)產(chǎn)生的流量記錄中選取部分流量記錄進(jìn)行識別,確定其歸屬網(wǎng)站或應(yīng)用;
[0013]將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷;
[0014]將相關(guān)度高的待識別流量記錄歸屬為所述網(wǎng)站或應(yīng)用;
[0015]將歸屬為所述網(wǎng)站或應(yīng)用的多條流量記錄進(jìn)行合并。
[0016]進(jìn)一步地,將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷,包括:
[0017]根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征;[0018]將待識別的流量記錄與所述一般特征進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷。
[0019]進(jìn)一步地,所述根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征,包括:
[0020]根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL找到的與識別出的流量記錄相關(guān)度高的流量記錄;
[0021]從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄;
[0022]將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征。
[0023]進(jìn)一步地,所述方法還包括:
[0024]在從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄后,計算挑選出的流量記錄的先驗概率,繼續(xù)從中挑選出先驗概率大于1/2的流量記錄,將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征。
[0025]進(jìn)一步地,所述方法還包括:
[0026]當(dāng)識別出多個歸屬不同網(wǎng)站或應(yīng)用的流量記錄時,若通過先驗概率判斷出待識別流量記錄可歸屬識別出的網(wǎng)站或應(yīng)用不只一個,將所述待識別流量記錄獲得最大先驗概率對應(yīng)的識別出的網(wǎng)站或應(yīng)用作為該待識別流量記錄的歸屬網(wǎng)站或應(yīng)用。
[0027]為解決上述技術(shù)問題,本發(fā)明還提供了一種流量記錄合并系統(tǒng),所述系統(tǒng)包括參考流量記錄獲取模塊,流量記錄識別模塊和流量記錄合并模塊,其中,
[0028]所述參考流量記錄獲取模塊,用于從網(wǎng)絡(luò)產(chǎn)生的流量記錄中選取部分流量記錄進(jìn)行識別,確定其歸屬網(wǎng)站或應(yīng)用,將識別出的流量記錄發(fā)送至流量記錄識別模塊;
[0029]所述流量記錄識別模塊,用于將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷;將相關(guān)度高的待識別流量記錄歸屬為所述網(wǎng)站或應(yīng)用,將歸屬相同網(wǎng)站或應(yīng)用的流量記錄發(fā)送至流量記錄合并模塊;
[0030]所述流量記錄合并模塊,用于將歸屬相同網(wǎng)站或應(yīng)用的多條流量記錄進(jìn)行合并。
[0031]進(jìn)一步地,所述流量記錄識別模塊,用于將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷,包括:
[0032]根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征;將待識別的流量記錄與所述一般特征進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷。
[0033]進(jìn)一步地,所述流量記錄識別模塊,用于根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征,包括:
[0034]根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL找到的與識別出的流量記錄相關(guān)度高的流量記錄;從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄;將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征。
[0035]進(jìn)一步地,
[0036]所述流量記錄識別模塊,還用于在從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄后,計算挑選出的流量記錄的先驗概率,繼續(xù)從中挑選出先驗概率大于1/2的流量記錄,將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征。
[0037]進(jìn)一步地,
[0038]所述流量記錄識別模塊,還用于當(dāng)從參考流量記錄獲取模塊接收到多個歸屬不同網(wǎng)站或應(yīng)用的流量記錄時,若通過先驗概率判斷出待識別流量記錄可歸屬識別出的網(wǎng)站或應(yīng)用不只一個,將所述待識別流量記錄獲得最大先驗概率對應(yīng)的識別出的網(wǎng)站或應(yīng)用作為該待識別流量記錄的歸屬網(wǎng)站或應(yīng)用。
[0039]上述技術(shù)方案根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL將待識別流量記錄與已獲知歸屬網(wǎng)站或應(yīng)用的流量記錄進(jìn)行相關(guān)度判斷,以此確定待識別流量記錄的歸屬網(wǎng)站或應(yīng)用,相對現(xiàn)有技術(shù)以單個流量記錄的特征參數(shù)或連續(xù)時間判斷待識別流量記錄的歸屬網(wǎng)站或應(yīng)用,更加準(zhǔn)確。
【專利附圖】

【附圖說明】
[0040]圖1為本實施例的流量記錄的合并方法流程圖;
[0041]圖2為本實施例的流量記錄的合并系統(tǒng)組成圖。
【具體實施方式】
[0042]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下文中將結(jié)合附圖對本發(fā)明的實施例進(jìn)行詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
[0043]圖1為本實施例的流量記錄的合并方法流程圖。
[0044]SlOl從網(wǎng)絡(luò)產(chǎn)生的流量記錄中選取部分流量記錄進(jìn)行識別,確定其歸屬網(wǎng)站或應(yīng)用;
[0045]可以通過流量記錄中的特征字段(網(wǎng)絡(luò)協(xié)議、IP地址、流量特征字符串等)進(jìn)行識另IJ,這種識別方法需判斷的特征字段多,判斷方法復(fù)雜,不適合對網(wǎng)絡(luò)中記錄的每一條流量記錄均通過這種識別方法確定其歸屬網(wǎng)站或應(yīng)用;
[0046]S102獲取待識別的流量記錄,將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷;
[0047]相關(guān)度R的計算公式可表示為:
[0048]R=aRp+bRip+cRurl,其中,Rp表示網(wǎng)絡(luò)協(xié)議的相關(guān)值,Rip表示IP地址的相關(guān)性,Rurl表示URL的相關(guān)值,上述相關(guān)值可根據(jù)字符串相似性算法計算并歸一化實現(xiàn);a,b,c是權(quán)重系數(shù),a,b和c的值可根據(jù)實際情況設(shè)定;如,當(dāng)流量記錄中沒有URL時,設(shè)a=0.6,b=0.4, c=0 ;當(dāng)流量記錄中有 URL 時,設(shè) a=0.4, b=0, c=0.6 ;
[0049]為了簡化待識別流量記錄與識別出的流量記錄的相關(guān)度判斷復(fù)雜度,可先根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站/應(yīng)用的流量記錄的一般特征,將待識別的流量記錄與所述一般特征進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷;
[0050]計算歸屬所述識別出的網(wǎng)站或應(yīng)用的流量記錄的一般特征的方法包括:
[0051]計算根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL找到的與識別出的流量記錄相關(guān)度高的流量記錄,如選取發(fā)生在識別出的流量記錄前后時間段(如200ms)的記錄,將選取的流量記錄分別與識別出的流量記錄進(jìn)行相關(guān)度判斷;從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄;將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征;
[0052]為進(jìn)一步確保挑選出的流量記錄屬于識別出的網(wǎng)站或應(yīng)用,在從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄后,可再對挑選出的流量記錄進(jìn)行先驗概率的判斷,保留其中先驗概率大于1/2的流量記錄,然后將識別出的流量記錄和保留下的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征,這樣做可將與識別出的流量記錄的網(wǎng)絡(luò)協(xié)議、IP地址和URL相關(guān)度高,但卻不屬于識別流量記錄歸屬網(wǎng)站或應(yīng)用的流量記錄剔除;
[0053]當(dāng)別出多個歸屬不同網(wǎng)站或應(yīng)用的流量記錄時,若通過先驗概率判斷出待識別流量記錄可歸屬的識別出的網(wǎng)站或應(yīng)用不只一個,可將所述待識別流量記錄獲得最大先驗概率對應(yīng)的識別出的網(wǎng)站或應(yīng)用作為該待識別流量記錄的歸屬網(wǎng)站或應(yīng)用;
[0054]S103將相關(guān)度高的待識別流量記錄歸屬為所述網(wǎng)站或應(yīng)用;
[0055]當(dāng)相關(guān)度大于預(yù)設(shè)值(如0.8)時,可認(rèn)為兩者相關(guān)度高;
[0056]如果某條流量記錄無法被歸屬為任何網(wǎng)站或應(yīng)用時,將該條流量記錄記錯;
[0057]S104將歸屬為所述網(wǎng)站或應(yīng)用的多條流量記錄進(jìn)行合并。
[0058]本實施例還提供了檢測上述流量合并方法是否有效的方法:
[0059]方法一,設(shè)置各應(yīng)用和網(wǎng)站記錄差錯流量記錄的頻度均值門限,如果實際記錄差錯記錄的頻度均值大于該門限,則說明上述流量合并方法有效性低(即流量合并結(jié)果準(zhǔn)確性低),需要對上述流量合并方法進(jìn)行修改;
[0060]方法二,計算每網(wǎng)站/應(yīng)用的流量記錄合并數(shù),將合并記錄數(shù)做正態(tài)擬合,當(dāng)擬合誤差較大時,說明上述流量合并方法有效性低,需要對上述流量合并方法進(jìn)行修改。
[0061]對上述流量合并方法進(jìn)行修改的方法包括:調(diào)整相關(guān)度R計算公式中的權(quán)重;重新挑選流量記錄樣本獲取流量記錄的一般特征等。
[0062]上述實施例根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL將待識別流量記錄與已獲知歸屬網(wǎng)站或應(yīng)用的流量記錄進(jìn)行相關(guān)度判斷,以此確定待識別流量記錄的歸屬網(wǎng)站或應(yīng)用,相對現(xiàn)有技術(shù)以單個流量記錄的特征參數(shù)或連續(xù)時間判斷待識別流量記錄的歸屬網(wǎng)站或應(yīng)用,更加準(zhǔn)確。
[0063]圖2為本實施例的流量記錄的合并系統(tǒng)組成圖。
[0064]該系統(tǒng)包括參考流量記錄獲取模塊,流量記錄識別模塊和流量記錄合并模塊,其中,
[0065]所述參考流量記錄獲取模塊,用于從網(wǎng)絡(luò)產(chǎn)生的流量記錄中選取部分流量記錄進(jìn)行識別,確定其歸屬網(wǎng)站或應(yīng)用,將識別出的流量記錄發(fā)送至流量記錄識別模塊;
[0066]所述流量記錄識別模塊,用于將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷;將相關(guān)度高的待識別流量記錄歸屬為所述網(wǎng)站或應(yīng)用,將歸屬相同網(wǎng)站或應(yīng)用的流量記錄發(fā)送至流量記錄合并模塊;
[0067]為了簡化待識別流量記錄與識別出的流量記錄的相關(guān)度判斷復(fù)雜度,上述流量記錄識別模塊在將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷時,可根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征;將待識別的流量記錄與所述一般特征進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷;[0068]計算歸屬所述識別出的網(wǎng)站或應(yīng)用的流量記錄的一般特征的方法包括:
[0069]計算根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL找到的與識別出的流量記錄相關(guān)度高的流量記錄,如選取發(fā)生在識別出的流量記錄前后時間段(如200ms)的記錄,將選取的流量記錄分別與識別出的流量記錄進(jìn)行相關(guān)度判斷;從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄;將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征;
[0070]為進(jìn)一步確保挑選出的流量記錄屬于識別出的網(wǎng)站或應(yīng)用,上述流量記錄識別模塊在從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄后,可再對挑選出的流量記錄進(jìn)行先驗概率的判斷,保留其中先驗概率大于1/2的流量記錄,然后將識別出的流量記錄和保留下的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征,這樣做可將與識別出的流量記錄的網(wǎng)絡(luò)協(xié)議、IP地址和URL相關(guān)度高,但卻不屬于識別流量記錄歸屬網(wǎng)站或應(yīng)用的流量記錄剔除;
[0071]此外,上述流量記錄識別模塊還可在從參考流量記錄獲取模塊接收到多個歸屬不同網(wǎng)站或應(yīng)用的流量記錄時,若通過先驗概率判斷出待識別流量記錄可歸屬的識別出的網(wǎng)站或應(yīng)用不只一個,將所述待識別流量記錄獲得最大先驗概率對應(yīng)的識別出的網(wǎng)站或應(yīng)用作為該待識別流量記錄的歸屬網(wǎng)站或應(yīng)用;
[0072]如果某條流量記錄無法被歸屬為任何網(wǎng)站或應(yīng)用時,上述流量識別模塊還可將該條流量記錄記錯;
[0073]所述流量記錄合并模塊,用于將歸屬相同網(wǎng)站或應(yīng)用的多條流量記錄進(jìn)行合并。
[0074]上述實施例記載的流量記錄的合并系統(tǒng)還可包括一個流量合并有效檢測模塊,用于檢測通過參考流量記錄獲取模塊,流量記錄識別模塊和流量記錄合并模塊合并的流量記錄是否有效。該模塊可設(shè)置各應(yīng)用和網(wǎng)站記錄差錯流量記錄的頻度均值門限,若判斷出實際記錄差錯記錄的頻度均值大于該門限,則檢測出合并的流量記錄準(zhǔn)確性低;或計算每網(wǎng)站/應(yīng)用的流量記錄合并數(shù),將合并記錄數(shù)做正態(tài)擬合,當(dāng)擬合誤差較大時,則檢測出合并的流量記錄準(zhǔn)確性低。
[0075]上述實施例根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL將待識別流量記錄與已獲知歸屬網(wǎng)站或應(yīng)用的流量記錄進(jìn)行相關(guān)度判斷,以此確定待識別流量記錄的歸屬網(wǎng)站或應(yīng)用,相對現(xiàn)有技術(shù)以單個流量記錄的特征參數(shù)或連續(xù)時間判斷待識別流量記錄的歸屬網(wǎng)站或應(yīng)用,更加準(zhǔn)確。
[0076]本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關(guān)硬件完成,所述程序可以存儲于計算機(jī)可讀存儲介質(zhì)中,如只讀存儲器、磁盤或光盤等??蛇x地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn),相應(yīng)地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)合。
[0077]需要說明的是,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種流量記錄合并方法,其特征在于,所述方法包括: 從網(wǎng)絡(luò)產(chǎn)生的流量記錄中選取部分流量記錄進(jìn)行識別,確定其歸屬網(wǎng)站或應(yīng)用; 將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷; 將相關(guān)度高的待識別流量記錄歸屬為所述網(wǎng)站或應(yīng)用; 將歸屬為所述網(wǎng)站或應(yīng)用的多條流量記錄進(jìn)行合并。
2.如權(quán)利要求1所述的方法,其特征在于,將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷,包括: 根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征; 將待識別的流量記錄與所述一般特征進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征,包括: 根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL找到的與識別出的流量記錄相關(guān)度高的流量記錄; 從多個找到的流量記錄 中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄; 將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征。
4.如權(quán)利要求3所述的方法,其特征在于,所述方法還包括: 從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄后,計算挑選出的流量記錄的先驗概率,繼續(xù)從中挑選出先驗概率大于1/2的流量記錄,將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征。
5.如權(quán)利要求4所述的方法,其特征在于,所述方法還包括: 當(dāng)識別出多個歸屬不同網(wǎng)站或應(yīng)用的流量記錄時,若通過先驗概率判斷出待識別流量記錄可歸屬識別出的網(wǎng)站或應(yīng)用不只一個,將所述待識別流量記錄獲得最大先驗概率對應(yīng)的識別出的網(wǎng)站或應(yīng)用作為該待識別流量記錄的歸屬網(wǎng)站或應(yīng)用。
6.一種流量記錄合并系統(tǒng),其特征在于,所述系統(tǒng)包括參考流量記錄獲取模塊,流量記錄識別模塊和流量記錄合并模塊,其中, 所述參考流量記錄獲取模塊,用于從網(wǎng)絡(luò)產(chǎn)生的流量記錄中選取部分流量記錄進(jìn)行識別,確定其歸屬網(wǎng)站或應(yīng)用,將識別出的流量記錄發(fā)送至流量記錄識別模塊; 所述流量記錄識別模塊,用于將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷;將相關(guān)度高的待識別流量記錄歸屬為所述網(wǎng)站或應(yīng)用,將歸屬相同網(wǎng)站或應(yīng)用的流量記錄發(fā)送至流量記錄合并模塊; 所述流量記錄合并模塊,用于將歸屬相同網(wǎng)站或應(yīng)用的多條流量記錄進(jìn)行合并。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述流量記錄識別模塊,用于將待識別的流量記錄與識別出的流量記錄進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷,包括: 根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征;將待識別的流量記錄與所述一般特征進(jìn)行網(wǎng)絡(luò)協(xié)議、IP地址和URL的相關(guān)度判斷。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述流量記錄識別模塊,用于根據(jù)識別出的流量記錄獲取歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征,包括:根據(jù)網(wǎng)絡(luò)協(xié)議、IP地址和URL找到的與識別出的流量記錄相關(guān)度高的流量記錄;從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄;將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于, 所述流量記錄識別模塊,還用于在從多個找到的流量記錄中挑選出兩兩相比具有同樣高相關(guān)度的流量記錄后,計算挑選出的流量記錄的先驗概率,繼續(xù)從中挑選出先驗概率大于1/2的流量記錄,將識別出的流量記錄和挑選出的流量記錄具備的共同特征作為歸屬所述識別出網(wǎng)站或應(yīng)用的流量記錄的一般特征。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于, 所述流量記錄識別模塊,還用于當(dāng)從參考流量記錄獲取模塊接收到多個歸屬不同網(wǎng)站或應(yīng)用的流量記錄時,若通過先驗概率判斷出待識別流量記錄可歸屬識別出的網(wǎng)站或應(yīng)用不只一個,將所述待識別流量記錄獲得最大先驗概率對應(yīng)的識別出的網(wǎng)站或應(yīng)用作為該待識別流量記錄的歸屬網(wǎng)站或應(yīng)用。
【文檔編號】H04L29/08GK103763320SQ201410028727
【公開日】2014年4月30日 申請日期:2014年1月21日 優(yōu)先權(quán)日:2014年1月21日
【發(fā)明者】王蓉, 王志軍 申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
天台县| 玉溪市| 尼玛县| 独山县| 巴南区| 开平市| 平阳县| 顺昌县| 温州市| 大新县| 鄂尔多斯市| 仁怀市| 长丰县| 娄底市| 石台县| 花莲市| 元氏县| 五指山市| 中阳县| 安泽县| 旌德县| 衡水市| 安乡县| 龙口市| 常宁市| 赤水市| 大足县| 定日县| 同江市| 公安县| 徐汇区| 黔南| 黔西| 北安市| 麦盖提县| 平和县| 宝山区| 屏山县| 江山市| 宜章县| 博白县|