一種手機(jī)上網(wǎng)垃圾日志的過(guò)濾方法
【專(zhuān)利摘要】本發(fā)明涉及一種手機(jī)上網(wǎng)垃圾日志的過(guò)濾方法,通過(guò)上網(wǎng)日志獲取,主動(dòng)上網(wǎng)Path信息提取,利用Parzen窗計(jì)算出各網(wǎng)站主動(dòng)獲取內(nèi)容與自動(dòng)推送內(nèi)容的時(shí)間間隔所滿足的概率分布,并依照總體均數(shù)的95%單邊置信區(qū)間將部分主動(dòng)上網(wǎng)日志中的path信息提取出來(lái),主動(dòng)上網(wǎng)模式歸納,利用關(guān)聯(lián)算法歸納出不同host下主動(dòng)上網(wǎng)path信息中的常見(jiàn)模式,并形成主動(dòng)上網(wǎng)模式庫(kù),過(guò)濾掉無(wú)用的垃圾日志信息。
【專(zhuān)利說(shuō)明】一種手機(jī)上網(wǎng)垃圾日志的過(guò)濾方法
【技術(shù)領(lǐng)域】[0001]本發(fā)明涉及一種手機(jī)上網(wǎng)垃圾日志的過(guò)濾方法,屬于數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】。
【背景技術(shù)】[0002]在基于框架的網(wǎng)頁(yè)模式下,當(dāng)用戶訪問(wèn)網(wǎng)頁(yè)時(shí),服務(wù)器通常會(huì)向用戶設(shè)備發(fā)一個(gè)包含URL鏈接的網(wǎng)頁(yè),由于該URL頁(yè)面通常隱藏著子URL頁(yè)面,因而從用戶的角度看,雖然只發(fā)起了一次URL請(qǐng)求,卻加載了多條自動(dòng)推送的URL記錄。這些自動(dòng)推送的URL記錄大量存在于用戶上網(wǎng)日志文件中,其并不能代表用戶的真實(shí)上網(wǎng)行為。為了能夠更精確的洞察用戶的上網(wǎng)行為,我們需要將這些自動(dòng)推送內(nèi)容從日志文件中過(guò)濾出來(lái)。[0003]傳統(tǒng)的垃圾日志過(guò)濾方法主要是基于匹配方式的,對(duì)于某條URL記錄,若不在主動(dòng)訪問(wèn)數(shù)據(jù)庫(kù)中,則我們認(rèn)為其為自動(dòng)推送記錄并將它過(guò)濾出來(lái)。該方法的最大困難在于,第一,對(duì)于URL信息通常包含了諸如SID安全標(biāo)示符這樣的隨機(jī)字符串,使得在利用簡(jiǎn)單匹配方式進(jìn)行匹配時(shí)的成功率較低;第二,在對(duì)主動(dòng)訪問(wèn)數(shù)據(jù)庫(kù)進(jìn)行更新時(shí)人工參與量較大,需要尋求一種自動(dòng)化的方式對(duì)主動(dòng)訪問(wèn)數(shù)據(jù)庫(kù)進(jìn)行更新。
【發(fā)明內(nèi)容】
[0004]針對(duì)以上弊端,本發(fā)明提供一種手機(jī)上網(wǎng)垃圾日志過(guò)濾方法,主要方法如下: 通過(guò)分析手機(jī)上網(wǎng)日志中主動(dòng)獲取內(nèi)容和自動(dòng)推送內(nèi)容在時(shí)序上的差異性提取出主動(dòng)上網(wǎng)日志中所包含的URL所對(duì)應(yīng)的path信息; 根據(jù)一定的拆分規(guī)則對(duì)主動(dòng)上網(wǎng)類(lèi)URL對(duì)應(yīng)的path信息進(jìn)行拆分,進(jìn)而獲取各host站點(diǎn)所對(duì)應(yīng)的特征字符串集; 利用關(guān)聯(lián)規(guī)則挖掘方式對(duì)各host站點(diǎn)對(duì)應(yīng)的特征字符串集進(jìn)行關(guān)聯(lián)分析,總結(jié)出各host站點(diǎn)對(duì)應(yīng)的常見(jiàn)主動(dòng)訪問(wèn)模式,并據(jù)此將主動(dòng)推送類(lèi)垃圾日志過(guò)濾出來(lái)。[0005]其中在獲取主動(dòng)上網(wǎng)類(lèi)日志中的URL信息時(shí),首先通過(guò)抓包的方式人工獲取自動(dòng)加載類(lèi)URL與主動(dòng)訪問(wèn)類(lèi)URL的時(shí)間間隔序列Xi (i = 1,2...N); 利用Parzen窗對(duì)該時(shí)間間隔序列的總體概率密度進(jìn)行估計(jì),落在點(diǎn)x處的概率密度函數(shù)的估計(jì)值為:
【權(quán)利要求】
1.ー種手機(jī)上網(wǎng)垃圾日志的過(guò)濾方法,其主要特征在于,主要包括以下步驟: 通過(guò)分析手機(jī)上網(wǎng)日志中主動(dòng)獲取內(nèi)容和自動(dòng)推送內(nèi)容在時(shí)序上的差異性提取出主動(dòng)上網(wǎng)日志中所包含的URL信息; 根據(jù)一定的拆分規(guī)則對(duì)主動(dòng)上網(wǎng)類(lèi)URL對(duì)應(yīng)的path信息進(jìn)行拆分,進(jìn)而獲取各host站點(diǎn)所對(duì)應(yīng)的特征字符串集; 利用關(guān)聯(lián)規(guī)則挖掘方式對(duì)各host站點(diǎn)對(duì)應(yīng)的特征字符串集進(jìn)行關(guān)聯(lián)分析,總結(jié)出各host站點(diǎn)對(duì)應(yīng)的常見(jiàn)主動(dòng)訪問(wèn)模式,并據(jù)此將主動(dòng)推送類(lèi)垃圾日志過(guò)濾出來(lái)。
2.如權(quán)利要求1所述,ー種手機(jī)上網(wǎng)垃圾日志的過(guò)濾方法,其特征在于,手機(jī)上網(wǎng)日志中主動(dòng)獲取內(nèi)容和自動(dòng)推送內(nèi)容在時(shí)序上的差異性可以通過(guò)統(tǒng)計(jì)來(lái)實(shí)現(xiàn),主要包括以下幾I K少: 針對(duì)某種類(lèi)型網(wǎng)站,首先通過(guò)抓包的方式人工獲取自動(dòng)加載類(lèi)URL與主動(dòng)訪問(wèn)類(lèi)URL的時(shí)間間隔序列Xi (i = I, 2.? ? N); 利用Parzen窗對(duì)該時(shí)間間隔序列的總體概率密度進(jìn)行估計(jì),落在點(diǎn)x處的概率密度函數(shù)的估計(jì)值為:
3.如權(quán)利要求1所述,ー種手機(jī)上網(wǎng)垃圾日志的過(guò)濾方法,其特征在于,獲取URL所對(duì)應(yīng)的的特征字符串集的方法步驟如下:首先按照path路徑進(jìn)行層次拆分得到了各級(jí)path路徑下的字符串;其次考慮ー些特殊的符合如“?”、“&”對(duì)各級(jí)path路徑同樣具有分割效果,故以此為分隔符對(duì)各級(jí)path路徑做進(jìn)ー步的拆分;最后,對(duì)于像SID安全標(biāo)示符這樣的隨機(jī)字符串,其一般以“sid=XXX”的形式存在,針對(duì)這種情況,我們只取左邊的標(biāo)示符而忽略等號(hào)右邊的隨機(jī)字符串。這樣,將分割后的字符串收集起來(lái)作為host站點(diǎn)所對(duì)應(yīng)的特征字符串。
4.如權(quán)利要求1所述,ー種手機(jī)上網(wǎng)垃圾日志的過(guò)濾方法,其特征在于,總結(jié)出各host站點(diǎn)對(duì)應(yīng)的常見(jiàn)主動(dòng)訪問(wèn)模式的方法如下:對(duì)于host站點(diǎn)下某條主動(dòng)上網(wǎng)類(lèi)型的path信息,其包括的特征字符串的個(gè)數(shù)一般小于4個(gè)而大于2個(gè),所以對(duì)該host站點(diǎn)上網(wǎng)模式進(jìn)行歸納的核心在于如何從大量的特征字符串中尋找具有強(qiáng)關(guān)聯(lián)的2-頻繁項(xiàng)字符串集,3_頻繁項(xiàng)字符串集,4-頻繁項(xiàng)字符串集,設(shè)置一定的置信度閥值及支持度閥值來(lái)尋找強(qiáng)關(guān)聯(lián)的單詞組,對(duì)對(duì)置信度(Confidence)與支持度(Surpport)的定義如下所示:
【文檔編號(hào)】G06F17/30GK103593484SQ201310633659
【公開(kāi)日】2014年2月19日 申請(qǐng)日期:2013年12月3日 優(yōu)先權(quán)日:2013年12月3日
【發(fā)明者】邵偉, 昂衛(wèi)武, 黃匯 申請(qǐng)人:南京安訊科技有限責(zé)任公司