專利名稱:網站頁面信息統(tǒng)計方法及裝置的制作方法
技術領域:
本發(fā)明涉及網站統(tǒng)計技術,尤其涉及一種網站頁面信息統(tǒng)計方法及裝置。
技術背景在網絡應用中,通常需要通過頁面信息監(jiān)測統(tǒng)計的手段,對網站所鏈接的 頁面信息的點擊率進行統(tǒng)計,其中包括對網站的頁面廣告點擊率統(tǒng)計等等。在 目前的頁面信息監(jiān)測統(tǒng)計過程中,存在各種搜索引擎的機器人等非人類活動影響統(tǒng)計準確性的問題。例如google的網頁抓取機器人,在抓取網站的過程中 也會抓取到該網站的頁面信息?,F有的頁面信息檢測手段,將機器人對網站頁 面信息的訪問也作為頁面信息點擊的有效數據統(tǒng)計在內,這樣顯然會影響對網 站頁面信息的真實統(tǒng)計結果?,F有技術中存在一種JS (JavaScript)編碼方式,可以減少網絡中的機器人 活動對網站頁面信息統(tǒng)計結果造成的影響。JS是由Netscape公司開發(fā)的一種 適用于動態(tài)網頁制作的腳本語言,如今,JS越來越廣泛的應用于網頁的制作。 所謂JS編碼方式,是通過JS的編碼函數將頁面信息素材鏈接和監(jiān)測連接進行 編碼。例如,在頁面上實現如下鏈接方式<ahref="#" onclick一'javascirpt:window. location.href='http:〃www.xxx.com'"> </a>。由于頁面鏈接通過JS代碼實現,無 法被機器人抓取,從而使得機器人的活動不會對網站頁面信息的真實統(tǒng)計結果 造成影響。但是,這種方式需要服務器端和客戶端都支持JS,實現復雜,如果 客戶端不支持JS,則會導致網站頁面信息無法點擊,從而也會造成對網站頁面 信息點擊的統(tǒng)計結果不準確。發(fā)明內容有鑒于此,本發(fā)明的主要目的在于提供一種網站頁面信息統(tǒng)計方法及裝置,以解決現有技術中網站頁面信息統(tǒng)計不準確和實現復雜的問題。 為達到上述目的,本發(fā)明的技術方案是這樣實現的 本發(fā)明提供了一種網站頁面信息統(tǒng)計方法,包括獲取所接收的超文本傳輸協(xié)議(HTTP, Hypertext Transfer Protocol)請求 中的用戶代理(UA, User Agent)字段;將所述UA字段中的操作系統(tǒng)相關信息,與預先設置的檢索樹中的機器人 禁止列表和瀏覽器允許列表分別進行匹配,生成匹配結果;將所述匹配結果為合法的UA字段所在的HTTP請求統(tǒng)計為有效請求。所述獲取所接收的HTTP請求中的UA字段之前,該方法還包括建立包 括所述機器人禁止列表和瀏覽器允許列表的檢索樹。所述生成匹配結果進一步包括根據所述匹配結果判斷,如果所述搡作系統(tǒng)相關信息對所述瀏覽器允許列 表的匹配成功,且對所述機器人禁止列表的匹配失敗,則判定所述匹配結果為 合法;否則,判定所述匹配結果為不合法。所述匹配是將所述操作系統(tǒng)相關信息中的每個字母依次與所述檢索樹中的 節(jié)點進行匹配。在所述檢索樹中采用不同的標識對所述機器人禁止列表和瀏覽器允許列表 進行區(qū)分。本發(fā)明還提供了一種網站頁面信息統(tǒng)計裝置,包括UA字段獲取單元、 檢索樹匹配單元和統(tǒng)計單元;其中,所述UA字段獲取單元,用于獲取所接收的HTTP請求中的UA字段;所述檢索樹匹配單元,用于將所述UA字段中的搡作系統(tǒng)相關信息,與檢 索樹中的機器人禁止列表和瀏覽器允許列表分別進行匹配,生成匹配結果;所述統(tǒng)計單元,用于將匹配結果為合法的UA字段所在的HTTP請求統(tǒng)計 為有效請求。所述裝置還包括檢索樹建立單元,連接所述檢索樹匹配單元,用于建立 包括所述機器人禁止列表和瀏覽器允許列表的檢索樹。5所述檢索樹匹配單元還包括相互連接的匹配子單元和結果判定子單元; 其中,所述匹配子單元,用于將所述UA字段中的操作系統(tǒng)相關信息,與檢索樹 中的機器人禁止列表和瀏覽器允許列表分別進行匹配,生成匹配結果;所述結果判定子單元,用于根據所述操作系統(tǒng)相關信息與所述瀏覽器允許 列表和機器人禁止列表的匹配結果,判定所述匹配結果為合法或不合法。本發(fā)明所提供的一種網站頁面信息統(tǒng)計方法及裝置,將機器人禁止列表和 瀏覽器允許列表的信息用檢索樹的形式進行存儲;并將所接收的HTTP請求中 的UA字段與檢索樹進行匹配,如果對瀏覽器允許列表的匹配成功,且對機器 人禁止列表的匹配失敗,則判定匹配結果為合法;然后將匹配結果為合法的UA 字段所在的HTTP請求統(tǒng)計為有效。采用本發(fā)明所提供的網站頁面信息統(tǒng)計方 法及裝置,可以屏蔽網絡中各種搜索引擎的機器人干擾,使得對網站頁面信息 的統(tǒng)計更加準確;本發(fā)明在服務器端即可實現,無需客戶端的支持;并且,本 發(fā)明的匹配效率高,使得統(tǒng)計操作具有較強的實時性,可以實現實時統(tǒng)計。
圖1為本發(fā)明一種網站頁面信息統(tǒng)計方法的流程圖;圖2為本發(fā)明實施例的檢索樹結構示意圖;圖3為本發(fā)明一種網站頁面信息統(tǒng)計裝置的組成結構示意圖。
具體實施方式
下面結合附圖和具體實施例對本發(fā)明的技術方案進一步詳細闡述。 本發(fā)明提供了 一種網站頁面信息統(tǒng)計方法,將機器人禁止列表和瀏覽器允 許列表的信息用檢索樹的形式進行存儲,并將所接收的HTTP請求中的UA字 段與檢索樹進行匹配,將匹配結果為合法的UA字段所在的HTTP請求統(tǒng)計為 有效。本發(fā)明的頁面信息包括網站廣告、網站圖片和網站視頻等等與鏈接在網 站頁面上的信息。其中,本發(fā)明的網站頁面信息統(tǒng)計是在服務器端實現的。本發(fā)明所提供的一種網站頁面信息統(tǒng)計方法的流程圖,如圖1所示,主要 包括以下步驟步驟101,服務器端獲取所接收的HTTP請求中的UA字段。服務器端接收來自用戶的HTTP請求,并從HTTP請求的head部分提取 UA字段,該UA字段中包括操作系統(tǒng)相關信息,具體包括瀏覽器信息和操作 系統(tǒng)信息。對于來自機器人的HTTP請求,其UA字段中還包括機器人信息。 例如,在如下的UA字段中包括Mozilla/4.0( compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 1.7; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506,; .NET CLR 3.5.20706 )。其中,Mozilla為瀏覽器信息,由于該UA字段中不包括機器人信息,從而 可判定該UA字段所在的HTTP請求并非來自機器人。步驟102,服務器端將UA字段中的操作系統(tǒng)相關信息,與預先設置的檢 索樹中的機器人禁止列表和瀏覽器允許列表分別進行匹配,生成匹配結果。需要指出的是,檢索樹是在上述步驟101之前根據機器人禁止列表和瀏覽 器允許列表的信息建立的,建立的檢索樹存儲在服務器端。建立檢索樹的過程, 如圖2所示,圖2為本發(fā)明實施例的檢索樹結構示意圖,檢索樹的每個節(jié)點包 括26個指針,每個指針分別對應一個從a到z的英文字母,當然,檢索樹中的節(jié)點所包括的指針數量可根據實際需要進行配置。在圖2所示實施例中,機器人禁止列表的信息包括ync、 yotta、 zealbot、 zeus、zibber和zipppbot,瀏覽器允許列表的信息包括Microsoft Internet Explorer 、 MooziUa和Mosaic,服務器端需要對上述列表的信息以檢索樹的形式進行存儲。下面以存儲ync和Mosaic為例,對檢索樹的建立過程進行詳細描述。首先,創(chuàng)建一個新節(jié)點B,使根節(jié)點A的m單元的指針指向節(jié)點B的頭指 針,并將根節(jié)點A的m單元用F0標識,以表示m單元的指針不為空;創(chuàng)建一個新節(jié)點C,使節(jié)點B的o單元的指針指向節(jié)點C的頭指針,并將 節(jié)點B的o單元用F0標識,以表示o單元的指針不為空;創(chuàng)建一個新節(jié)點D,使節(jié)點C的S單元的指針指向節(jié)點D的頭指針,并將節(jié)點C的s單元用FO標識,以表示s單元的指針不為空;創(chuàng)建一個新節(jié)點E,使節(jié)點D的a單元的指針指向節(jié)點E的頭指針,并將 節(jié)點D的a單元用FO標識,以表示a單元的指針不為空;創(chuàng)建一個新節(jié)點F,使節(jié)點E的i單元的指針指向節(jié)點F的頭指針,并將 節(jié)點E的i單元用F0標識,以表示i單元的指針不為空;最后,將節(jié)點F的c單元用Fl標識,以表示c單元的指針不為空,且節(jié)點 F為Mosaic的尾節(jié)點。存儲ync的過程為創(chuàng)建一個新節(jié)點G,使根節(jié)點A的y單元的指針指向節(jié)點G的頭指針,并 將根節(jié)點A的y單元用F0標識,以表示y單元的指針不為空;創(chuàng)建一個新節(jié)點H,使節(jié)點G的n單元的指針指向節(jié)點H的頭指針,并將 節(jié)點G的n單元用F 0標識,以表示n單元的指針不為空;最后,將節(jié)點H的c單元用F2標識,以表示c單元的指針不為空,且節(jié) 點H為ync的尾節(jié)點。需要指出的是,本發(fā)明實施例中用標識Fl和F2分別標識瀏覽器允許列表 中的信息和機器人禁止列表中的信息,以區(qū)分瀏覽器允許列表和機器人禁止列 表,即Mosaic的尾節(jié)點F用Fl標識,表示Mosaic為瀏覽器允許列表中的信息; 而ync的尾節(jié)點H用F2標識,表示ync為機器人禁止列表中的信息。機器人禁止列表和瀏覽器允許列表中的信息存儲到檢索樹中的操作,都按 照上述的操作過程進行,在此不再贅述。假設UA字段中只包括瀏覽器信息Mosaic ,則服務器端需要將Mosaic中的 每個字母依次與檢索樹中的節(jié)點進行匹配,匹配操作從檢索樹的根節(jié)點開始, 匹配過程為首先匹配字母m,從檢索樹的根節(jié)點A開始匹配,發(fā)現根節(jié)點A的m單 元的指針不為空,則匹配字母m成功;再匹配字母o,查找根節(jié)點A的m單元的指針指向了節(jié)點B,且節(jié)點B的O單元的指針不為空,則匹配字母O成功;再匹配字母s,查找節(jié)點B的o單元的指針指向了節(jié)點C,且節(jié)點C的s 單元的指針不為空,則匹配字母s成功;再匹配字母a,查找節(jié)點C的s單元的指針指向了節(jié)點D,且節(jié)點D的a 單元的指針不為空,則匹配字母a成功;再匹配字母i,查找節(jié)點D的a單元的指針指向了節(jié)點E,且節(jié)點E的i 單元的指針不為空,則匹配字母i成功;最后匹配字母c,查找節(jié)點E的i單元的指針指向了節(jié)點F,且節(jié)點F的c 單元的指針標識為Fl,表明匹配字母c成功,且節(jié)點E為尾節(jié)點,對Mosaic 的匹配操作到此結東,從而也最終成功匹配到了瀏覽器的信息Mosaic。由于上述的UA字段中只包括瀏覽器信息Mosaic,而不包括機器人信息, 因此,進行信息匹配時,UA字段對檢索樹中的瀏覽器允許列表匹配成功,而 對機器人禁止列表匹配失敗,從而判定該UA字段所在的HTTP請求為合法的 請求。假設UA字段中包括瀏覽器信息Mosaic和機器人信息ync,則對Mosaic 進行匹配的過程與前述相同,對ync進行匹配的過程為首先匹配字母y,從檢索樹的根節(jié)點A開始匹配,發(fā)現根節(jié)點A的y單元 的指針不為空,則匹配字母y成功;再匹配字母n,查找根節(jié)點A的y單元的指針指向了節(jié)點G,且節(jié)點G的 n單元的指針不為空,則匹配字母n成功;最后匹配字母c,查找節(jié)點G的n單元的指針指向了節(jié)點H,且節(jié)點H的 c單元的指針標識為F2,則匹配字母c成功,且節(jié)點H為尾節(jié)點,對ync的匹 配搡作到此結東,從而也最終成功匹配到了機器人的信息ync。由于上述的UA字段中包括瀏覽器信息Mosaic和機器人信息ync,因此, 進行信息匹配時,UA字段對檢索樹中的瀏覽器允許列表和機器人禁止列表都 能匹配成功,從而可判定該UA字段所在的HTTP請求為不合法的請求。并且, 在機器人信息匹配成功的情況下,無論瀏覽器信息匹配成功與否,都判定UA字段所在的HTTP請求為不合法的請求??偨Y上述匹配操作的各種結果,可以得知只有在操作系統(tǒng)相關信息對檢 索樹中瀏覽器允許列表的匹配成功,且對機器人禁止列表的匹配失敗的情況下, 判定匹配結果為合法;否則,判定匹配結果為不合法。步驟103,服務器端將匹配結果為合法的UA字段所在的HTTP請求統(tǒng)計 為有效請求。服務器端將匹配結果為合法的UA字段所在的HTTP請求作為有效的數據 輸出,以供后續(xù)的統(tǒng)計操作和其他處理。由上述的匹配操作可以看出,實際應用中,UA字段、瀏覽器允許列表和 機器人禁止列表中的信息都是由英文字母組成的;因此,創(chuàng)建檢索樹時,最多 采用26個節(jié)點就能將兩個列表中的所有信息都存儲進檢索樹中。而將UA字段 與檢索樹進行匹配時,對于一條操作系統(tǒng)相關信息,最多只需要執(zhí)行26次節(jié)點 的匹配操作就可完成,例如在上述圖2所示的實施例中,將Mosaic與檢索樹 進行匹配時,只需進行包括節(jié)點A、 B、 C、 D、 E、 F在內的6次節(jié)點匹配搡作 即可匹配成功;將ync與檢索樹進行匹配時,只需進行包括節(jié)點A、 G、 H在 內的3次節(jié)點匹配搡作即可匹配成功。從而,本發(fā)明的匹配操作花費的時間短, 匹配效率高,可適用于實時的匹配,進而實現網站頁面信息的實時統(tǒng)計。為實現上述網站頁面信息統(tǒng)計方法,本發(fā)明還提出了一種網站頁面信息統(tǒng) 計裝置,該裝置應用于服務器端,如圖3所示,該裝置包括檢索樹建立單元 10、 UA字段獲取單元20、檢索樹匹配單元30和統(tǒng)計單元40。其中,檢索樹 建立單元10,用于建立包括機器人禁止列表和瀏覽器允許列表的檢索樹。UA 字段獲取單元20,用于獲取所接收的HTTP請求中的UA字段。檢索樹匹配單 元30,連接檢索樹建立單元10和UA字段獲取單元20,用于將UA字段中的 操作系統(tǒng)相關信息,與檢索樹中的機器人禁止列表和瀏覽器允許列表分別進行 匹配,生成匹配結果。統(tǒng)計單元40,連接檢索樹匹配單元30,用于將匹配結果 為合法的UA字段所在的HTTP請求統(tǒng)計為有效請求。其中,檢索樹匹配單元30進一步包括匹配子單元31和結果判定子單元32。匹配子單元31,連接檢索樹建立單元10和UA字段獲取單元20,用于將 UA字段中的操作系統(tǒng)相關信息,與檢索樹中的機器人禁止列表和瀏覽器允許 列表分別進行匹配,生成匹配結果。結果判定子單元32,連接匹配子單元31 和統(tǒng)計單元40,用于根據匹配結果,如果瀏覽器信息匹配成功,且操作系統(tǒng)信 息匹配失敗,則判定匹配結果為合法,否則,判定匹配結果為不合法;并將匹 配結果為合法的UA字段所在的HTTP請求提供給統(tǒng)計單元40。需要指出的是,本發(fā)明的網站頁面信息統(tǒng)計方法及裝置,不僅僅用于減弱 或消除機器人的活動對統(tǒng)計結果的干擾,并且通過匹配包含禁止列表和允許列 表的檢索樹的方法,也可適用于減弱或消除其他非人類活動對統(tǒng)計結果造成的 干擾。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。
權利要求
1. 一種網站頁面信息統(tǒng)計方法,其特征在于,包括獲取所接收的超文本傳輸協(xié)議HTTP請求中的用戶代理UA字段;將所述UA字段中的操作系統(tǒng)相關信息,與預先設置的檢索樹中的機器人禁止列表和瀏覽器允許列表分別進行匹配,生成匹配結果;將所述匹配結果為合法的UA字段所在的HTTP請求統(tǒng)計為有效請求。
2、 根據權利要求l所述網站頁面信息統(tǒng)計方法,其特征在于,所述獲取所 接收的HTTP請求中的UA字段之前,該方法還包括建立包括所述機器人禁 止列表和瀏覽器允許列表的檢索樹。
3、 根據權利要求l所述網站頁面信息統(tǒng)計方法,其特征在于,所述生成匹 配結果進一步包括根據所述匹配結果判斷,如果所述操作系統(tǒng)相關信息對所述瀏覽器允許列 表的匹配成功,且對所述機器人禁止列表的匹配失敗,則判定所述匹配結果為 合法;否則,判定所述匹配結果為不合法。
4、 根據權利要求1或3所述網站頁面信息統(tǒng)計方法,其特征在于,所述匹 配是將所述操作系統(tǒng)相關信息中的每個字母依次與所述檢索樹中的節(jié)點進行匹 配。
5、 根據權利要求l所述網站頁面信息統(tǒng)計方法,其特征在于,在所述檢索 樹中采用不同的標識對所述機器人禁止列表和瀏覽器允許列表進行區(qū)分。
6、 一種網站頁面信息統(tǒng)計裝置,其特征在于,包括UA字段獲取單元、 檢索樹匹配單元和統(tǒng)計單元;其中,所述UA字段獲取單元,用于獲取所接收的HTTP請求中的UA字段; 所述檢索樹匹配單元,用于將所述UA字段中的操作系統(tǒng)相關信息,與檢索樹中的機器人禁止列表和瀏覽器允許列表分別進行匹配,生成匹配結果; 所述統(tǒng)計單元,用于將匹配結果為合法的UA字段所在的HTTP請求統(tǒng)計為有效請求。
7、 根據權利要求6所述網站頁面信息統(tǒng)計裝置,其特征在于,所述裝置還包括檢索樹建立單元,連接所述檢索樹匹配單元,用于建立包括所述機器人禁止列表和瀏覽器允許列表的檢索樹。
8、 根據權利要求6或7所述網站頁面信息統(tǒng)計裝置,其特征在于,所述檢 索樹匹配單元還包括相互連接的匹配子單元和結果判定子單元;其中,所述匹配子單元,用于將所述UA字段中的操作系統(tǒng)相關信息,與檢索樹 中的機器人禁止列表和瀏覽器允許列表分別進行匹配,生成匹配結果;所述結果判定子單元,用于根據所述操作系統(tǒng)相關信息與所述瀏覽器允許 列表和機器人禁止列表的匹配結果,判定所述匹配結果為合法或不合法。
全文摘要
本發(fā)明公開了一種網站頁面信息統(tǒng)計方法,包括獲取所接收的超文本傳輸協(xié)議(HTTP)請求中的用戶代理(UA)字段;將UA字段中的操作系統(tǒng)相關信息,與預先設置的檢索樹中的機器人禁止列表和瀏覽器允許列表分別進行匹配,生成匹配結果;將匹配結果為合法的UA字段所在的HTTP請求統(tǒng)計為有效請求。本發(fā)明還提供了一種網站頁面信息統(tǒng)計裝置,將所接收的HTTP請求中的UA字段與檢索樹進行匹配,并將匹配結果為合法的HTTP請求統(tǒng)計為有效請求。本發(fā)明可以屏蔽網絡中各種搜索引擎的機器人干擾,對網站頁面信息的統(tǒng)計更準確;本發(fā)明在服務器端實現,無需客戶端的支持;且本發(fā)明的匹配效率高,統(tǒng)計操作具有較強的實時性,可以實現實時統(tǒng)計。
文檔編號G06F17/30GK101261643SQ200810094108
公開日2008年9月10日 申請日期2008年5月4日 優(yōu)先權日2008年5月4日
發(fā)明者雙 吳 申請人:騰訊科技(深圳)有限公司