一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)采集技術(shù)領(lǐng)域,具體地說(shuō)是一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為米集方式。
【背景技術(shù)】
[0002]目前,簡(jiǎn)單地直接從web服務(wù)器的日志文件采集web使用數(shù)據(jù)進(jìn)行web使用挖掘研究并不可取,它存在很大的弊端:
I)海量的日志對(duì)web用戶(hù)使用數(shù)據(jù)而言是海量的垃圾數(shù)據(jù)?;趙eb日志的使用挖掘就必須用數(shù)據(jù)凈化操作對(duì)這些海量數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,剩下的可用數(shù)據(jù)約為5%??梢?jiàn),龐大的web日志文件是沒(méi)有多少利用價(jià)值的,可以說(shuō)是垃圾數(shù)據(jù)。
[0003]2)用戶(hù)在瀏覽頁(yè)面的時(shí)候,頁(yè)面記錄不完整。web日志文件是對(duì)每一個(gè)到達(dá)web服務(wù)器的HTTP請(qǐng)求的記錄,Internet上存在著各種各樣的緩存機(jī)制,導(dǎo)致了 web日志文件中對(duì)用戶(hù)瀏覽頁(yè)面記錄的不完整性。
[0004]3 )無(wú)法獲取用戶(hù)準(zhǔn)確的瀏覽時(shí)間。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的技術(shù)任務(wù)是提供一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式。
[0006]本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,該采集方式包括服務(wù)器端數(shù)據(jù)采集和客戶(hù)端數(shù)據(jù)采集兩種方式,其中服務(wù)器端數(shù)據(jù)采集包括主動(dòng)式服務(wù)器端數(shù)據(jù)采集和被動(dòng)式服務(wù)器端數(shù)據(jù)采集;
將采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,形成數(shù)據(jù)倉(cāng)庫(kù);根據(jù)不同的產(chǎn)業(yè),形成不同的數(shù)據(jù)處理模式和分析模式,按照模式進(jìn)行分析,最終形成有價(jià)值的模式或規(guī)律。
[0007]所述的主動(dòng)式服務(wù)器端數(shù)據(jù)采集:將WEB服務(wù)器和代理服務(wù)器軟件自動(dòng)記錄的日志文件和用戶(hù)的使用數(shù)據(jù)收集作為數(shù)據(jù)源;
被動(dòng)式服務(wù)器端數(shù)據(jù)采集:在海量的日志文件基礎(chǔ)上進(jìn)行數(shù)據(jù)預(yù)處理,進(jìn)行數(shù)據(jù)清洗、用戶(hù)識(shí)別、會(huì)話識(shí)別、事物識(shí)別和路徑補(bǔ)充,以獲得準(zhǔn)確和完整的用戶(hù)使用數(shù)據(jù)。
[0008]所述的客戶(hù)端數(shù)據(jù)采集是通過(guò)java applet技術(shù)、javaScript技術(shù)、Plug-1n技術(shù)和頁(yè)面跟蹤幀技術(shù)來(lái)實(shí)現(xiàn)的。
[0009]所述的java applet技術(shù)的使用方法如下:
應(yīng)用java applet技術(shù)在客戶(hù)端對(duì)用戶(hù)使用信息進(jìn)行采集,客戶(hù)端瀏覽器要下載并安裝SUN SVM插件,在每個(gè)需要追蹤的網(wǎng)頁(yè)分別添加applet程序代碼。
[0010]所述的javaScript技術(shù)的使用方法如下:
客戶(hù)端可以通過(guò)應(yīng)用javaScript技術(shù)中XMLHttpRequest對(duì)象向服務(wù)器發(fā)送請(qǐng)求,當(dāng)用戶(hù)瀏覽緩存里面的頁(yè)面或者離開(kāi)網(wǎng)站時(shí),觸發(fā)頁(yè)面0NUNL0AD事件,保證用戶(hù)瀏覽記錄的完整性。
[0011]所述的頁(yè)面跟蹤幀技術(shù)的使用方法如下: 通過(guò)一個(gè)嵌入在網(wǎng)頁(yè)內(nèi)的隱含幀追蹤用戶(hù)的使用,記錄用戶(hù)的IP、訪問(wèn)頁(yè)面的使用信息,隨時(shí)將客戶(hù)端瀏覽信息以WinSockTCP的方式傳到服務(wù)器。
[0012]本發(fā)明的一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式和現(xiàn)有技術(shù)相比,可以有效的在海量垃圾數(shù)據(jù)中選取需要的用戶(hù)瀏覽數(shù)據(jù),避免了無(wú)用繁雜的存儲(chǔ)過(guò)程和后期大批量數(shù)據(jù)處理;能夠完整記錄頁(yè)面的內(nèi)容,保持頁(yè)面記錄的完整性,并且可以準(zhǔn)確地獲取用戶(hù)的瀏覽時(shí)間,在應(yīng)用服務(wù)器的內(nèi)部分別進(jìn)行識(shí)別和采集。
【附圖說(shuō)明】
[0013]附圖1為一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式的流程框圖。
【具體實(shí)施方式】
[0014]實(shí)施例1:
該采集方式包括服務(wù)器端數(shù)據(jù)采集和客戶(hù)端數(shù)據(jù)采集兩種方式,其中服務(wù)器端數(shù)據(jù)采集包括主動(dòng)式服務(wù)器端數(shù)據(jù)采集和被動(dòng)式服務(wù)器端數(shù)據(jù)采集;
將采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,形成數(shù)據(jù)倉(cāng)庫(kù);根據(jù)不同的產(chǎn)業(yè),形成不同的數(shù)據(jù)處理模式和分析模式,按照模式進(jìn)行分析,最終形成有價(jià)值的模式或規(guī)律。
[0015]所述的主動(dòng)式服務(wù)器端數(shù)據(jù)采集:將WEB服務(wù)器和代理服務(wù)器軟件自動(dòng)記錄的日志文件和用戶(hù)的使用數(shù)據(jù)收集作為數(shù)據(jù)源;
被動(dòng)式服務(wù)器端數(shù)據(jù)采集:在海量的日志文件基礎(chǔ)上進(jìn)行數(shù)據(jù)預(yù)處理,進(jìn)行數(shù)據(jù)清洗、用戶(hù)識(shí)別、會(huì)話識(shí)別、事物識(shí)別和路徑補(bǔ)充,以獲得準(zhǔn)確和完整的用戶(hù)使用數(shù)據(jù)。
[0016]所述的客戶(hù)端數(shù)據(jù)采集是通過(guò)java applet技術(shù)、javaScript技術(shù)、Plug-1n技術(shù)和頁(yè)面跟蹤幀技術(shù)來(lái)實(shí)現(xiàn)的。
[0017]所述的java applet技術(shù)的使用方法如下:
應(yīng)用java applet技術(shù)在客戶(hù)端對(duì)用戶(hù)使用信息進(jìn)行采集,客戶(hù)端瀏覽器要下載并安裝SUN SVM插件,在每個(gè)需要追蹤的網(wǎng)頁(yè)分別添加applet程序代碼。
[0018]所述的javaScript技術(shù)的使用方法如下:
IE 5.0以后及以后版本增加了對(duì)javaScript中XMLHttpRequest對(duì)象的支持,在非IE的瀏覽器中,需要用new XMLHttpRequest ()來(lái)創(chuàng)建對(duì)象??蛻?hù)端可以通過(guò)應(yīng)用javaScript技術(shù)中XMLHttpRequest對(duì)象向服務(wù)器發(fā)送請(qǐng)求,當(dāng)用戶(hù)瀏覽緩存里面的頁(yè)面或者離開(kāi)網(wǎng)站時(shí),盡管不發(fā)出HTTP請(qǐng)求,但會(huì)觸發(fā)頁(yè)面0NUNL0AD事件,保證用戶(hù)瀏覽記錄的完整性。
[0019]所述的頁(yè)面跟蹤幀技術(shù)的使用方法如下:
通過(guò)一個(gè)嵌入在網(wǎng)頁(yè)內(nèi)的隱含幀追蹤用戶(hù)的使用,記錄用戶(hù)的IP、訪問(wèn)頁(yè)面等使用信息,隨時(shí)將客戶(hù)端瀏覽信息以WinSockTCP的方式傳到服務(wù)器。為了不延遲請(qǐng)求效率,將針對(duì)服務(wù)器的操作代碼分離出來(lái),放入一個(gè)獨(dú)立的PHP文件,如Server php.在主頁(yè)面中加入一個(gè)隱藏的內(nèi)嵌頁(yè)面。將Server php放入內(nèi)嵌頁(yè)面打開(kāi),其他內(nèi)容扔放在主頁(yè)面,由于內(nèi)嵌頁(yè)面的下載并不影響主頁(yè)面的下載,這提高了速度。
[0020]名詞解釋:
JavaApplet:就是用Java語(yǔ)言編寫(xiě)的小應(yīng)用程序,可以直接嵌入到網(wǎng)頁(yè)中,并能夠產(chǎn)生特殊的效果。
[0021]JavaScript:一種直譯式腳本語(yǔ)言,是一種動(dòng)態(tài)類(lèi)型、弱類(lèi)型、基于原型的語(yǔ)言,內(nèi)置支持類(lèi)型。
[0022]Plug-1n:一種為一個(gè)較大的軟件增加特殊功能的小段程序。
[0023]通過(guò)上面【具體實(shí)施方式】,所述技術(shù)領(lǐng)域的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明并不限于上述的幾種【具體實(shí)施方式】。在公開(kāi)的實(shí)施方式的基礎(chǔ)上,所述技術(shù)領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征,從而實(shí)現(xiàn)不同的技術(shù)方案。
【主權(quán)項(xiàng)】
1.一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式,其特征在于,該采集方式包括服務(wù)器端數(shù)據(jù)采集和客戶(hù)端數(shù)據(jù)采集兩種方式,其中服務(wù)器端數(shù)據(jù)采集包括主動(dòng)式服務(wù)器端數(shù)據(jù)采集和被動(dòng)式服務(wù)器端數(shù)據(jù)采集; 將采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,形成數(shù)據(jù)倉(cāng)庫(kù);根據(jù)不同的產(chǎn)業(yè),形成不同的數(shù)據(jù)處理模式和分析模式,按照模式進(jìn)行分析,最終形成有價(jià)值的模式或規(guī)律。
2.根據(jù)權(quán)利要求1所述的一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式,其特征在于,所述的主動(dòng)式服務(wù)器端數(shù)據(jù)采集:將WEB服務(wù)器和代理服務(wù)器軟件自動(dòng)記錄的日志文件和用戶(hù)的使用數(shù)據(jù)收集作為數(shù)據(jù)源; 被動(dòng)式服務(wù)器端數(shù)據(jù)采集:在海量的日志文件基礎(chǔ)上進(jìn)行數(shù)據(jù)預(yù)處理,進(jìn)行數(shù)據(jù)清洗、用戶(hù)識(shí)別、會(huì)話識(shí)別、事物識(shí)別和路徑補(bǔ)充,以獲得準(zhǔn)確和完整的用戶(hù)使用數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式,其特征在于,所述的客戶(hù)端數(shù)據(jù)采集是通過(guò)java applet技術(shù)、javaScript技術(shù)、Plug-1n技術(shù)和頁(yè)面跟蹤幀技術(shù)來(lái)實(shí)現(xiàn)的。
4.根據(jù)權(quán)利要求3所述的一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式,其特征在于,所述的java applet技術(shù)的使用方法如下: 應(yīng)用java applet技術(shù)在客戶(hù)端對(duì)用戶(hù)使用信息進(jìn)行采集,客戶(hù)端瀏覽器要下載并安裝SUN SVM插件,在每個(gè)需要追蹤的網(wǎng)頁(yè)分別添加applet程序代碼。
5.根據(jù)權(quán)利要求3所述的一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式,其特征在于,所述的javaScript技術(shù)的使用方法如下: 客戶(hù)端可以通過(guò)應(yīng)用javaScript技術(shù)中XMLHttpRequest對(duì)象向服務(wù)器發(fā)送請(qǐng)求,當(dāng)用戶(hù)瀏覽緩存里面的頁(yè)面或者離開(kāi)網(wǎng)站時(shí),觸發(fā)頁(yè)面ONUNLOAD事件,保證用戶(hù)瀏覽記錄的完整性。
6.根據(jù)權(quán)利要求3所述的一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式,其特征在于,所述的頁(yè)面跟蹤幀技術(shù)的使用方法如下: 通過(guò)一個(gè)嵌入在網(wǎng)頁(yè)內(nèi)的隱含幀追蹤用戶(hù)的使用,記錄用戶(hù)的IP、訪問(wèn)頁(yè)面的使用信息,隨時(shí)將客戶(hù)端瀏覽信息以WinSockTCP的方式傳到服務(wù)器。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式,該采集方式包括服務(wù)器端數(shù)據(jù)采集和客戶(hù)端數(shù)據(jù)采集兩種方式,其中服務(wù)器端數(shù)據(jù)采集包括主動(dòng)式服務(wù)器端數(shù)據(jù)采集和被動(dòng)式服務(wù)器端數(shù)據(jù)采集;將采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,形成數(shù)據(jù)倉(cāng)庫(kù);根據(jù)不同的產(chǎn)業(yè),形成不同的數(shù)據(jù)處理模式和分析模式,按照模式進(jìn)行分析,最終形成有價(jià)值的模式或規(guī)律。本發(fā)明的一種基于實(shí)時(shí)更新的用戶(hù)瀏覽行為采集方式和現(xiàn)有技術(shù)相比,可以有效的在海量垃圾數(shù)據(jù)中選取需要的用戶(hù)瀏覽數(shù)據(jù),避免了無(wú)用繁雜的存儲(chǔ)過(guò)程和后期大批量數(shù)據(jù)處理;能夠完整記錄頁(yè)面的內(nèi)容,保持頁(yè)面記錄的完整性,并且可以準(zhǔn)確地獲取用戶(hù)的瀏覽時(shí)間,在應(yīng)用服務(wù)器的內(nèi)部分別進(jìn)行識(shí)別和采集。
【IPC分類(lèi)】G06F9-44, G06F11-34
【公開(kāi)號(hào)】CN104636245
【申請(qǐng)?zhí)枴緾N201510101492
【發(fā)明人】焦毓葳, 徐宏偉, 左少標(biāo)
【申請(qǐng)人】浪潮集團(tuán)有限公司
【公開(kāi)日】2015年5月20日
【申請(qǐng)日】2015年3月9日