專利名稱:基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與測(cè)試診斷系統(tǒng)構(gòu)造方法
基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與測(cè)試診斷系統(tǒng)構(gòu)造方法 駄鵬
本發(fā)明涉及網(wǎng)站的文檔管理、安全防護(hù)與測(cè)試的自動(dòng)化技術(shù)。
背景技術(shù):
爬蟲(chóng)Spider是現(xiàn)代Internet上普遍使用的技術(shù),但主要用于內(nèi)容檢索,實(shí) 際上爬蟲(chóng)技術(shù)也可以用在網(wǎng)站文檔管理自動(dòng)化、網(wǎng)站信息安全防護(hù)和網(wǎng)站測(cè) 試診斷這三個(gè)方面。目前,還沒(méi)有看見(jiàn)將爬蟲(chóng)技術(shù)應(yīng)用于這三個(gè)方面的系統(tǒng) 和方法。
第一、爬蟲(chóng)技^t應(yīng)用于網(wǎng)站文檔管理自動(dòng)化?;ヂ?lián)網(wǎng)站內(nèi)容由一系列的 靜態(tài)和動(dòng)態(tài)文件,通過(guò)超文本鏈接構(gòu)成系統(tǒng)。隨著網(wǎng)站系統(tǒng)的不斷修改,文 件會(huì)越來(lái)越多,鏈接結(jié)構(gòu)也在不斷變化,如何知道最后的系統(tǒng)結(jié)構(gòu)、鏈接關(guān) 系和文件清單?雖然,通過(guò)人工的系統(tǒng)設(shè)計(jì)文檔,可以保存記錄,但由于很 多網(wǎng)站開(kāi)始建設(shè)時(shí)就缺少規(guī)范化的設(shè)計(jì)和規(guī)劃,再加上人員變動(dòng)和內(nèi)容變化, 系統(tǒng)到底有多少文件?那些是已經(jīng)廢棄無(wú)效的?哪些是有用的?都存放在什 么路徑下?這些重要的技術(shù)資料很難動(dòng)態(tài)地準(zhǔn)確掌握。因此,需要有一種方 法,來(lái)實(shí)現(xiàn)自動(dòng)化地跟蹤、記錄網(wǎng)內(nèi)的文件、鏈接的變化情況。本發(fā)明的爬 蟲(chóng),不搜索內(nèi)容,而是專門(mén)來(lái)自動(dòng)化地獲取網(wǎng)站文檔信息和網(wǎng)頁(yè)之間的鏈接 關(guān)系,建立網(wǎng)站文檔資料檔案,從而實(shí)現(xiàn)網(wǎng)站文檔管理自動(dòng)化。
第二、爬蟲(chóng)技術(shù)應(yīng)用于網(wǎng)站安全防護(hù)。經(jīng)常看到"網(wǎng)站被黑"消息,甚至政府網(wǎng)站被篡改成"黃色"內(nèi)容、連接到"黃色網(wǎng)站",這樣的后果是非常 嚴(yán)重的。目前,雖然防火墻和反病毒軟件對(duì)服務(wù)器有一定的保護(hù)能力,但由 于防護(hù)機(jī)理的緣故,防火墻、和反病毒軟件對(duì)于"網(wǎng)站被黑"的保護(hù)能力還
是有限的。防火墻主要是基于通信IP地址、端口、協(xié)議的管理;反病毒軟件 主要是基于對(duì)可執(zhí)行文件、注冊(cè)表、內(nèi)存進(jìn)程監(jiān)測(cè)的保護(hù)。網(wǎng)頁(yè)被黑的主要 問(wèn)題是網(wǎng)頁(yè)內(nèi)容被篡改,或者是增加了額外"鏈接",目前還沒(méi)有專門(mén)針對(duì)"網(wǎng) 站被黑"的防護(hù)方法。本發(fā)明通過(guò)爬蟲(chóng)實(shí)現(xiàn)網(wǎng)站文檔管理自動(dòng)化,在為網(wǎng)站 上的網(wǎng)頁(yè)建立了檔案的同時(shí),保存了文檔的原始信息,包括URL (全球資 源定位)、Server (服務(wù)器)、Content-type (內(nèi)容類型)、Last-modified (最后 修改時(shí)間)、Content-length (內(nèi)容長(zhǎng)度)和上級(jí)鏈接URL (哪些網(wǎng)頁(yè)鏈接到本 URL),任何試圖修改網(wǎng)頁(yè)內(nèi)容或篡改鏈的行為,通過(guò)與網(wǎng)頁(yè)檔案信息比較, 都會(huì)被發(fā)現(xiàn)。另外,本發(fā)明通過(guò)爬蟲(chóng)對(duì)網(wǎng)站上存在的"敏感詞語(yǔ)"進(jìn)行匹配, 也可以發(fā)現(xiàn)可能的"泄密"或"網(wǎng)站被黑"進(jìn)行排査。
第三、爬蟲(chóng)技術(shù)應(yīng)用于測(cè)試與診斷。網(wǎng)站有多少"空鏈接"?都處在什 么位置?每個(gè)URL訪問(wèn)請(qǐng)求速度是多少?雖然這些可以通過(guò)手工操作進(jìn)行測(cè) 試,但當(dāng)網(wǎng)站規(guī)模較大時(shí),顯然,手工測(cè)試已經(jīng)很難完成。而且,人工目測(cè) 的準(zhǔn)確性和完備性也不能得到保障。因此,需要有一種方法,來(lái)測(cè)試URL請(qǐng) 求質(zhì)量和"空鏈接"情況。本發(fā)明在爬蟲(chóng)對(duì)網(wǎng)站上的網(wǎng)頁(yè)進(jìn)行遍歷的過(guò)程中, 自動(dòng)化地完成測(cè)試與診斷,為網(wǎng)站技術(shù)管理和內(nèi)容管理提供幫助。
本發(fā)明的目的,就是采用一系列的技術(shù)手段,自動(dòng)化地實(shí)現(xiàn)上述功能和 進(jìn)行自動(dòng)化報(bào)警的系統(tǒng)與方法
發(fā)明內(nèi)容
本發(fā)明將采用爬蟲(chóng)技術(shù),提供一套自動(dòng)化的方法來(lái)解決網(wǎng)站文檔管理 自動(dòng)化、網(wǎng)站內(nèi)容安全防護(hù)自動(dòng)化和網(wǎng)站測(cè)試與診斷,當(dāng)發(fā)現(xiàn)問(wèn)題時(shí),自動(dòng)
化地向有關(guān)人員發(fā)送手機(jī)短信和E"MAIL進(jìn)行報(bào)警。 本發(fā)明通過(guò)下面技術(shù)方案實(shí)現(xiàn)-
系統(tǒng)主要由"初始化測(cè)試診斷"、"日常測(cè)試診斷"和"標(biāo)記報(bào)警"三個(gè) 執(zhí)行部分和三個(gè)數(shù)據(jù)表"網(wǎng)站URL鏈接表"、"URL測(cè)試表"和"敏感詞語(yǔ)表" 所組成。
第一、三個(gè)執(zhí)行部分為
1、 初始化測(cè)試診斷,通過(guò)爬蟲(chóng)技術(shù),自動(dòng)化地建立"網(wǎng)站URL鏈接表", 來(lái)跟蹤和保存網(wǎng)站文檔信息;
2、 日常測(cè)試診斷,通過(guò)爬蟲(chóng)技術(shù),在規(guī)定時(shí)間內(nèi),定時(shí)遍歷測(cè)試網(wǎng)站的 網(wǎng)頁(yè),與原始檔案"網(wǎng)站URL鏈接表"進(jìn)行比較,發(fā)現(xiàn)異常進(jìn)行提示和報(bào)警。
3、 標(biāo)記報(bào)警,標(biāo)記錯(cuò)誤信息,同時(shí),采用手機(jī)短信和E-MAIL兩種形式 i進(jìn)行自動(dòng)化報(bào)警。
第二、三個(gè)數(shù)據(jù)表為
1、 網(wǎng)站URL鏈接表,是網(wǎng)站文件和鏈接原始檔案,內(nèi)容為URL (全 球資源定位)、Server (服務(wù)器)、Content-type (內(nèi)容類型)、Last-modified (文 檔最后修改時(shí)間)、Content-length (文檔長(zhǎng)度)、上級(jí)鏈接URL (哪些網(wǎng)頁(yè)鏈 接到本URL);
2、 URL測(cè)試表,內(nèi)容為包含"網(wǎng)站URL鏈接表"所有內(nèi)容,增加"URL 存在否"、"鏈接狀態(tài)"、"URL信息正確否"、"域名匹配否"、"敏感詞語(yǔ)存在 否"、"上級(jí)鏈接正確否"和"測(cè)試響應(yīng)時(shí)間"這7審計(jì)結(jié)果內(nèi)容。3、敏感詞語(yǔ)表,內(nèi)容為敏感詞語(yǔ)文本。 第三、具體步驟為
基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu)造方法,步驟如下
(1) 初始化測(cè)試診斷建立一個(gè)爬蟲(chóng)程序,從請(qǐng)求網(wǎng)站域名開(kāi)始,得到 首頁(yè)的html內(nèi)容,分析鏈接標(biāo)記,找出所有鏈接,再査找下一級(jí)連接,直至 遍歷網(wǎng)站的所有鏈接,得到網(wǎng)站鏈接的所有URL,保存到"網(wǎng)站URL鏈接表" 中。在爬行過(guò)程中,通過(guò)http響應(yīng)頭Head中信息,獲得該URL的URL (全 球資源定位)、Server (服務(wù)器)、Content-type (內(nèi)容類型)、Last-modified (文 檔最后修改時(shí)間)、Content-length (文檔長(zhǎng)度),作為每個(gè)URL的基本信息保 留在"網(wǎng)站URL鏈接表"中。
(2) 日常測(cè)試診斷設(shè)置一個(gè)規(guī)定時(shí)間,如12小時(shí)、24小時(shí)、48小 時(shí)等。同上述的步驟(1),建立一個(gè)爬蟲(chóng)程序,定時(shí)遍歷網(wǎng)站的所有網(wǎng)頁(yè)。
(3) 異常URL報(bào)警在(2)中,爬蟲(chóng)每爬到一個(gè)URL,在(1)中已 經(jīng)建立的"網(wǎng)站URL鏈接表"中尋找這個(gè)URL,如果沒(méi)有,說(shuō)明是本來(lái)沒(méi)有 的URL,甚至可能是黑客所為,傳遞報(bào)警類型并進(jìn)行標(biāo)注報(bào)警。
(4) 錯(cuò)誤鏈接報(bào)警在(2)中,每爬到一個(gè)URL,請(qǐng)求這個(gè)URL,從 返回響應(yīng)http頭的第一行"狀態(tài)行"中判斷狀態(tài)碼,如果是4xxx開(kāi)頭的,說(shuō) 明是客戶端錯(cuò)誤;如果是5xxx開(kāi)頭的,說(shuō)明是服務(wù)器端錯(cuò)誤,傳遞報(bào)警類型 并進(jìn)行標(biāo)注報(bào)警。
(5) 記錄測(cè)試響應(yīng)時(shí)間在(2)中,每爬到一個(gè)URL,請(qǐng)求這個(gè)URL, 在請(qǐng)求開(kāi)始時(shí)記錄一個(gè)時(shí)間,響應(yīng)結(jié)束、接受完所有響應(yīng)http請(qǐng)求后,再記 錄一個(gè)時(shí)間,用結(jié)束時(shí)間減去開(kāi)始時(shí)間,得到響應(yīng)時(shí)間,在"URL測(cè)試表"中添寫(xiě)"測(cè)試響應(yīng)時(shí)間"。
(6) URL基本信息識(shí)別在(2)中,每爬到一個(gè)URL,在"網(wǎng)站URL 鏈接表"尋找這個(gè)URL,比較URL (全球資源定位)、Server (服務(wù)器)、 Content-type (內(nèi)容類型)、Last-modified (文檔最后修改時(shí)間)、Content-length
(文檔長(zhǎng)度)、信息,如果不符合,說(shuō)明該URL被篡改,傳遞報(bào)警類型并進(jìn) 行標(biāo)注報(bào)警。
(7) 外站域名報(bào)警在(2)中,每爬到一個(gè)URL,判斷該URL主域名 是否為本網(wǎng)站的域名,如果不是,則為鏈接到外站,傳遞報(bào)警類型并進(jìn)標(biāo)注 行報(bào)警。
(8) 上級(jí)鏈接審計(jì)與"網(wǎng)站URL鏈接表"比較,判斷URL的上一級(jí) 鏈接,是否正確。如果不正確,說(shuō)明鏈接關(guān)系被篡改,傳遞報(bào)警類型并進(jìn)行 標(biāo)注報(bào)警。
(9) 敏感詞語(yǔ)過(guò)濾在(2)中,每爬到一個(gè)URL,逐字節(jié)匹配HTML 內(nèi)容,看是否與"敏感詞語(yǔ)表"中記錄文本相匹配,如果與某條"敏感詞語(yǔ)" 相匹配,修改HTML該敏感處的顯示字體、顏色,在磁盤(pán)上盤(pán)存HTML文件, 進(jìn)行標(biāo)注報(bào)警。
其中的標(biāo)記報(bào)警方法步驟如下
(1) 標(biāo)記根據(jù)傳遞報(bào)警類型,在"URL測(cè)試表"中,分別標(biāo)注"URL 存在否"、"鏈接狀態(tài)"、"URL信息正確否"、"域名匹配否"、"敏感詞語(yǔ)存在 否"、"上級(jí)鏈接正確否"和"測(cè)試響應(yīng)時(shí)間"這7審計(jì)結(jié)果內(nèi)容。
(2) 短信報(bào)警根據(jù)所設(shè)定的短信報(bào)警規(guī)則和報(bào)警性質(zhì),向指定的短 信網(wǎng)關(guān)和指定的手機(jī)號(hào)碼發(fā)送短信,提示報(bào)警信息。(3) E-MAIL報(bào)警根據(jù)所設(shè)定的E-MAIL報(bào)警規(guī)則和報(bào)警性質(zhì),向 指定的E-MAIL信箱發(fā)送報(bào)警郵件,提示報(bào)警信息。
Internet發(fā)展和應(yīng)用非常迅速,但在技術(shù)體系和各種應(yīng)用基礎(chǔ)工具上還很 不完備,還有相當(dāng)大的發(fā)展空間。爬蟲(chóng)Spider是現(xiàn)代Internet上普遍使用的技 術(shù),但目前主要用于內(nèi)容搜索,本發(fā)明將爬蟲(chóng)技術(shù)應(yīng)用到網(wǎng)站文檔管理自動(dòng) 化、網(wǎng)站信息安全防護(hù)和網(wǎng)站測(cè)試診斷方面,提供了一種自動(dòng)化系統(tǒng)構(gòu)造的 方法,其簡(jiǎn)單易行,有著廣泛的適用性與極大的應(yīng)用價(jià)值。主要表現(xiàn)為
第一、網(wǎng)站文檔自動(dòng)化管理網(wǎng)站各種文檔繁多、變化頻繁,靠手工登 記顯然遠(yuǎn)遠(yuǎn)不能滿足需要,自動(dòng)化的文檔管理是網(wǎng)站運(yùn)維管理不可缺少的技 術(shù)手段,本發(fā)明提供了有效的自動(dòng)化網(wǎng)站文檔管理方法。
第二、網(wǎng)頁(yè)防黑審計(jì)方法網(wǎng)頁(yè)被"黑"、"掛馬"是網(wǎng)站的最大危害之 一,網(wǎng)頁(yè)通常有太多的"漏洞"可以被"黑掉"或植入"木馬"。雖然可以通 過(guò)防火墻、殺毒等等技術(shù)來(lái)進(jìn)行一定程度的預(yù)防,但還是難徹底根除,究其 實(shí)質(zhì),都是通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行篡改或增加"外鏈"所實(shí)現(xiàn)的。本發(fā)明對(duì)網(wǎng) 站所有網(wǎng)頁(yè)建立了檔案,當(dāng)發(fā)現(xiàn)網(wǎng)頁(yè)關(guān)鍵檔案信息被改變,或網(wǎng)頁(yè)間連接關(guān) 系被篡改時(shí),可以迅速判斷網(wǎng)頁(yè)被"黑"或"掛馬",及時(shí)進(jìn)行報(bào)警。
第三、敏感詞語(yǔ)發(fā)現(xiàn)為了防止"泄密"和不良內(nèi)容發(fā)布,本發(fā)明提供 了一種"敏感詞語(yǔ)"發(fā)現(xiàn)方法,可以找到"敏感詞語(yǔ)"出現(xiàn)網(wǎng)頁(yè)和具體位置。
第四、網(wǎng)站測(cè)試診斷自動(dòng)化地測(cè)試和診斷無(wú)效鏈接、網(wǎng)頁(yè)請(qǐng)求響應(yīng)效果。
第五、自動(dòng)報(bào)警網(wǎng)頁(yè)被"黑"可能是非常嚴(yán)重的問(wèn)題,如果被篡改成"黃色"或者是政治性較強(qiáng)的內(nèi)容,回產(chǎn)生嚴(yán)重影響。被發(fā)明采用自動(dòng)手機(jī)
短信和E-MAIL進(jìn)行提示,以便即使采取措施,可增強(qiáng)防范措施。
圖1是"初始化測(cè)試診斷"方法流程圖; 圖2是"日常測(cè)試診斷"方法流程圖; 圖3是"標(biāo)注報(bào)警"方法流程圖;
具體實(shí)施例方式
基于爬蟲(chóng)技術(shù)的網(wǎng)站文檔管理、安全防護(hù)與測(cè)試診斷系統(tǒng)構(gòu)造方法,包 括如下步驟
(1) 初始化測(cè)試診斷
圖1為"初始化測(cè)試診斷"流程圖。首先在101單元輸入網(wǎng)站的域名,
102單元通過(guò)域名向網(wǎng)站發(fā)出http請(qǐng)求,得到網(wǎng)站首頁(yè)的URL和html,通過(guò) http響應(yīng)Head信息,得到首頁(yè)的URL (全球資源定位)、Server (服務(wù)器)、 Content-type (內(nèi)容類型)、Last-modified (文檔最后修改時(shí)間)、Content-length
(文檔長(zhǎng)度)信息,保存到"網(wǎng)站URL鏈接表"中。103單元分析html中的 鏈接標(biāo)記,建立爬蟲(chóng),采用"深度優(yōu)先"或"廣度優(yōu)先"等任何方法,開(kāi)始 遍歷網(wǎng)站所有鏈接的URL,將每個(gè)URL上級(jí)URL以及http響應(yīng)head中的 URL (全球資源定位)、Server(服務(wù)器)、Content-type (內(nèi)容類型)、Last-modified
(文檔最后修改時(shí)間)、Content-length (文檔長(zhǎng)度),保存到104單元"網(wǎng)站 URL鏈接表"中。
(2) 日常測(cè)試診斷
設(shè)定測(cè)試診斷周期(如12小時(shí)、242小時(shí)、48小時(shí)等)。(3)遍歷網(wǎng)站鏈接URL
圖2為日常測(cè)試診斷爬蟲(chóng)遍歷URL處理流程。單元爬蟲(chóng)程序從首頁(yè)開(kāi)始, 遍歷網(wǎng)站中所有鏈接URL,在爬行過(guò)程中,每爬行到一個(gè)URL,保存到104 單元"URL測(cè)試表"中,并進(jìn)行以下測(cè)試和檢驗(yàn)
URL合法性判斷
201單元在步驟(1)已經(jīng)建立的"網(wǎng)站URL鏈接表"104單元中查找這 個(gè)URL,看是否存在?如果不存在,傳遞標(biāo)記類型到202單元,執(zhí)行標(biāo)記報(bào) 警;
判斷鏈接錯(cuò)誤
204單元提交鏈接URL的http請(qǐng)求,判斷http響應(yīng)head第一行"狀態(tài)行" 中判斷狀態(tài)碼,如果狀態(tài)碼為4xx或5xx為錯(cuò)誤,傳遞標(biāo)記類型到202單元, 執(zhí)行標(biāo)記報(bào)警;
記錄測(cè)試響應(yīng)時(shí)間
212單元根據(jù)發(fā)出http請(qǐng)求到接收到響應(yīng)時(shí)間,計(jì)算出測(cè)試響應(yīng)時(shí)間,保 存到"URL測(cè)試表"203單元中; URL基本信息判別
205單元從http請(qǐng)求響應(yīng)中,取http返回head部分的URL (全球資源定 位)、Server (服務(wù)器)、Content-type (內(nèi)容類型)、Last-modified (文檔最后 修改時(shí)間)、Content-length (文檔長(zhǎng)度),與單元104 "網(wǎng)站URL鏈接表"中 相同URL的信息比較,看是否有錯(cuò)誤,如果不匹配,傳遞標(biāo)記類型到202單 元,執(zhí)行標(biāo)記報(bào)警;
域名審計(jì)206單元判斷給URL的主域名是否為本站域名,如果不是,傳遞標(biāo)記類 型到202單元,執(zhí)行標(biāo)記報(bào)警; 上級(jí)鏈接檢査
207單元檢査URL的鏈接上級(jí),與"網(wǎng)站URL鏈接表"中信息進(jìn)行比較, 如果不是,傳遞標(biāo)記類型到202單元,執(zhí)行標(biāo)記報(bào)警; 敏感詞語(yǔ)匹配
209單元逐個(gè)字節(jié)匹配h鄰響應(yīng)Body內(nèi)容,看是否與208單元中某個(gè)"敏 感詞語(yǔ)"匹配,如果匹配,210單元將匹配的詞語(yǔ)用區(qū)別顏色加下劃線進(jìn)行標(biāo) 記,并保存給URL的html文件到磁盤(pán)上,傳遞標(biāo)記類型到202單元,執(zhí)行標(biāo) 記報(bào)警;
顯示URL測(cè)試表
爬蟲(chóng)遍歷全部網(wǎng)站網(wǎng)頁(yè)后,211單元顯示"URL測(cè)試表"內(nèi)容,當(dāng)用戶 鼠標(biāo)雙擊"敏感詞語(yǔ)存在否"為"是"的記錄時(shí),用瀏覽器顯示緩存在磁盤(pán) 上的html文件。
(4)標(biāo)記報(bào)警
圖3是"標(biāo)注報(bào)警"方法流程圖,具體執(zhí)行步驟如下
標(biāo)記
根據(jù)傳遞過(guò)來(lái)的"標(biāo)記類型",在"URL測(cè)試表"中,分別標(biāo)注"URL 存在否"、"鏈接狀態(tài)"、"URL正確否"、"域名匹配否"、"敏感詞語(yǔ)存在否"、 "上級(jí)鏈接正確否"和"測(cè)試響應(yīng)時(shí)間"這7審計(jì)結(jié)果內(nèi)容。 短信報(bào)警
根據(jù)所設(shè)定的短信報(bào)警規(guī)則和報(bào)警性質(zhì),向指定的短信網(wǎng)關(guān)和指定的手E-MAIL報(bào)警
根據(jù)所設(shè)定的E-MAIL報(bào)警規(guī)則和報(bào)警性質(zhì),向指定的E-MAIL信箱發(fā) 送報(bào)警郵件,提示報(bào)警信息。
權(quán)利要求
1、基于爬蟲(chóng)技術(shù)的網(wǎng)站文檔管理、安全防護(hù)與測(cè)試診斷系統(tǒng)構(gòu)造方法,其特征在于系統(tǒng)由“初始化測(cè)試診斷”、“日常測(cè)試診斷”和“標(biāo)記報(bào)警”三個(gè)執(zhí)行部分和三個(gè)數(shù)據(jù)表“網(wǎng)站URL鏈接表”、“URL測(cè)試表”和“敏感詞語(yǔ)表”所組成。初始化測(cè)試診斷,通過(guò)爬蟲(chóng)技術(shù),自動(dòng)化地建立“網(wǎng)站URL鏈接表”,來(lái)跟蹤和保存網(wǎng)站文件和鏈接信息;日常測(cè)試診斷,通過(guò)爬蟲(chóng)技術(shù),在規(guī)定時(shí)間內(nèi),定時(shí)遍歷測(cè)試網(wǎng)站的網(wǎng)頁(yè),與原始檔案“網(wǎng)站URL鏈接表”進(jìn)行比較,發(fā)現(xiàn)異常進(jìn)行提示和報(bào)警。標(biāo)記報(bào)警,標(biāo)記錯(cuò)誤信息,同時(shí),采用手機(jī)短信和E-MAIL兩種形式進(jìn)行自動(dòng)化報(bào)警。網(wǎng)站URL鏈接表,是網(wǎng)站文件和鏈接原始檔案,內(nèi)容為URL(全球資源定位)、Server(服務(wù)器)、Content-type(內(nèi)容類型)、Last-modified(最后修改時(shí)間)、Content-length(內(nèi)容長(zhǎng)度)、上級(jí)鏈接URL(哪些網(wǎng)頁(yè)鏈接到本URL)URL測(cè)試表,是測(cè)試診斷數(shù)據(jù)表,內(nèi)容為包含“網(wǎng)站URL鏈接表”所有內(nèi)容,增加“URL存在否”、“鏈接狀態(tài)”、“URL指紋正確否”、“域名匹配否”、“敏感詞語(yǔ)存在否”、“上級(jí)鏈接正確否”和“測(cè)試響應(yīng)時(shí)間”這7審計(jì)結(jié)果內(nèi)容。敏感詞語(yǔ)表,包含敏感詞語(yǔ)文本。
2、 基于爬蟲(chóng)技術(shù)的網(wǎng)站文檔管理、安全防護(hù)與測(cè)試診斷系統(tǒng)構(gòu)造方法,其特征在,于實(shí)現(xiàn)網(wǎng)站文檔管理方法為通過(guò)爬蟲(chóng)對(duì)網(wǎng)站上的網(wǎng)頁(yè)進(jìn)行遍歷,獲得網(wǎng)站文檔的基礎(chǔ)信息,包括URL (全球資源定位)、Server (服務(wù)器)、 Content-type (內(nèi)容類型)、Last-modified (文檔最后修改時(shí)間)、Content-length (文檔長(zhǎng)度)、上級(jí)鏈接URL (哪些網(wǎng)頁(yè)鏈接到本URL),作為網(wǎng)頁(yè)檔案,保 存到"網(wǎng)站URL鏈接表",實(shí)現(xiàn)網(wǎng)站文檔管理自動(dòng)化。
3、 基于爬蟲(chóng)技術(shù)的網(wǎng)站文檔管理、安全防護(hù)與測(cè)試診斷系統(tǒng)構(gòu)造方法, 其特征在于,實(shí)現(xiàn)網(wǎng)頁(yè)被黑的防護(hù)方法為通過(guò)設(shè)置定時(shí)裝置,讓爬蟲(chóng)定時(shí) 對(duì)網(wǎng)站上的網(wǎng)頁(yè)進(jìn)行遍歷,每次爬行得到URL (全球資源定位)、Server (服 務(wù)器)、Content-type (內(nèi)容類型)、Last-modified (文檔最后修改時(shí)間)、 Content-length (文檔長(zhǎng)度)、上級(jí)鏈接URL (哪些網(wǎng)頁(yè)鏈接到本URL),與權(quán) 利2中所產(chǎn)生的"網(wǎng)站URL鏈接表"進(jìn)行比較,如果發(fā)現(xiàn)有某項(xiàng)發(fā)生改變, 可判定網(wǎng)頁(yè)內(nèi)容被篡改或增加了額外鏈接,來(lái)防止網(wǎng)站被黑。
4、 基于爬蟲(chóng)技術(shù)的網(wǎng)站文檔管理、安全防護(hù)與測(cè)試診斷系統(tǒng)構(gòu)造方法, 其特征在于,實(shí)現(xiàn)網(wǎng)站測(cè)試與診斷的自動(dòng)化方法為由權(quán)利3所述的定時(shí)爬 蟲(chóng)在爬行過(guò)程中,對(duì)網(wǎng)頁(yè)響應(yīng)時(shí)間和鏈接關(guān)系進(jìn)行測(cè)試和診斷,進(jìn)而實(shí)現(xiàn)鏈接響應(yīng)和錯(cuò)誤連接測(cè)試診斷的自動(dòng)化。
5、 基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu)造方法,其特征在于,流 程如下(1) 初始化測(cè)試診斷;(2) 日常測(cè)試診斷;(3) 標(biāo)記報(bào)警;
6、 如權(quán)利要求5中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu)造 方法,其特征在于,所述的"初始化測(cè)試診斷"方法是建立一個(gè)爬蟲(chóng)程序,從請(qǐng)求網(wǎng)站域名開(kāi)始,得到首頁(yè)的html內(nèi)容,分析鏈接標(biāo)記,找出所有鏈接, 再査找下一級(jí)連接,直至遍歷網(wǎng)站的所有鏈接,得到網(wǎng)站鏈接的所有URL, 保存到"網(wǎng)站URL鏈接表"中。在爬行過(guò)程中,通過(guò)http響應(yīng)頭Head中信 息,獲得該URL的URL (全球資源定位)、Server (服務(wù)器)、Content-type (內(nèi)容類型)、Last-modified (文檔最后修改時(shí)間)、Content-length (文檔長(zhǎng)度) 信息,作為每個(gè)URL的基本存檔信息,保留在"網(wǎng)站URL鏈接表"中,同 時(shí)記錄上一級(jí)鏈接,來(lái)保存鏈接關(guān)系。
7、 如權(quán)利要求5中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu)造 方法,其特征在于,所述的"日常測(cè)試診斷"包括以下內(nèi)容為"異常URL 報(bào)警"、"錯(cuò)誤鏈接報(bào)警"、"記錄測(cè)試響應(yīng)時(shí)間"、"URL基本信息判別"、"外 站鏈接報(bào)警"、"上級(jí)鏈接審計(jì)"和"敏感詞語(yǔ)過(guò)濾"。
8、 如權(quán)利要求5中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu)造 方法,其特征在于,所述的"日常測(cè)試診斷"方法包括設(shè)置一個(gè)規(guī)定時(shí)間, 如12小時(shí)、24小時(shí)、48小時(shí)等。建立一個(gè)爬蟲(chóng)程序,從網(wǎng)站首頁(yè)開(kāi)始,得 到首頁(yè)的HTML內(nèi)容,分析鏈接標(biāo)記,找出所有鏈接,再査找下一級(jí)連接, 直至遍歷網(wǎng)站的所有鏈接,得到網(wǎng)站所有鏈接的URL。在爬行過(guò)程中,通過(guò) http響應(yīng)頭Head中信息,獲得該URL的Server (服務(wù)器)、Content-type (內(nèi) 容類型)、Last-modified (文檔最后修改時(shí)間)、Content-length (文檔長(zhǎng)度)信 息。
9、 如權(quán)利要求7中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu)造 方法內(nèi)容中的"異常URL報(bào)警"方法,其特征在于在爬蟲(chóng)爬行過(guò)程中,每 爬到一個(gè)URL,在"網(wǎng)站URL鏈接表"尋找這個(gè)URL,如果沒(méi)有,進(jìn)行報(bào)警,說(shuō)明是本來(lái)沒(méi)有的URL,甚至是黑客所為。
10、 如權(quán)利要求7中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu) 造方法內(nèi)容中的"外站鏈接報(bào)警"方法,其特征在于在爬蟲(chóng)爬行過(guò)程中, 每爬到一個(gè)URL,判斷該URL主域名是否為本網(wǎng)站的域名,如果不是,則為 鏈接到外站,進(jìn)行報(bào)警。
11、 如權(quán)利要求7中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu) 造方法內(nèi)容中的"URL基本信息判別"方法,其特征在于在爬蟲(chóng)爬行過(guò)程 中,每爬到一個(gè)URL,在"網(wǎng)站URL鏈接表"尋找這個(gè)URL,比較Server(服務(wù)器)、Content-type (內(nèi)容類型)、Last-modified (文檔最后修改時(shí)間)、 Content-length (文檔長(zhǎng)度)信息,如果不符合,說(shuō)明該URL被篡改,進(jìn)行報(bào)
12、 如權(quán)利要求7中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu) 造方法內(nèi)容中的"敏感詞語(yǔ)過(guò)濾"方法,其特征在于在爬蟲(chóng)爬行過(guò)程中, 每爬到一個(gè)URL,逐字節(jié)匹配HTML內(nèi)容,看是否與"敏感詞語(yǔ)表"中記錄 文本想符合,如果與某條"敏感詞語(yǔ)"相符合,將修改HTML該敏感處的顯 示字體、顏色,在屏幕上顯示該HTML,并進(jìn)行報(bào)警。
13、 如權(quán)利要求7中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu) 造方法內(nèi)容中的"錯(cuò)誤鏈接報(bào)警"方法,其特征在于在爬蟲(chóng)爬行過(guò)程中, 每爬到一個(gè)URL,請(qǐng)求這個(gè)URL,從返回響應(yīng)http頭的第一行"狀態(tài)行"中 判斷狀態(tài)碼,如果是4xxx開(kāi)頭的,說(shuō)明是客戶端錯(cuò)誤;如果是5xxx開(kāi)頭的, 說(shuō)明是服務(wù)器端錯(cuò)誤,進(jìn)行報(bào)警。
14、 如權(quán)利要求7中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu)造方法內(nèi)容中的"記錄測(cè)試響應(yīng)時(shí)間"測(cè)試方法,其特征在于在爬蟲(chóng)爬行過(guò)程中,每爬到一個(gè)URL,請(qǐng)求這個(gè)URL,在請(qǐng)求開(kāi)始時(shí)記錄一個(gè)時(shí)間,響 應(yīng)結(jié)束、接受完所有響應(yīng)http請(qǐng)求后,再記錄一個(gè)時(shí)間,用結(jié)束時(shí)間減去開(kāi) 始時(shí)間,得到響應(yīng)時(shí)間。
15、 如權(quán)利要求7中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu) 造方法內(nèi)容中的"上級(jí)鏈接審計(jì)"測(cè)試方法,其特征在于在爬蟲(chóng)爬行過(guò)程 中,每爬到一個(gè)URL,判斷URL的上一級(jí)鏈接,是否正確。如果不正確,說(shuō) 明鏈接關(guān)系被篡改,進(jìn)行標(biāo)注報(bào)警
16、 如權(quán)利要求1中所述的基于爬蟲(chóng)技術(shù)的網(wǎng)站安全防護(hù)與診斷系統(tǒng)構(gòu) 造方法中包括"標(biāo)記報(bào)警",其特征在于標(biāo)記報(bào)警方法如下根據(jù)傳遞報(bào)警 類型,在"URL測(cè)試表"中,分別標(biāo)注"URL存在否"、"鏈接狀態(tài)"、"URL 基本信息正確否"、"域名匹配否"、"敏感詞語(yǔ)存在否"、"上級(jí)鏈接正確否" 和"測(cè)試響應(yīng)時(shí)間"這7審計(jì)結(jié)果內(nèi)容,根據(jù)審計(jì)結(jié)果內(nèi)容予以如下方式的 短信或E-mail報(bào)警。(1) 短信報(bào)警根據(jù)所設(shè)定的短信報(bào)警規(guī)則和報(bào)警性質(zhì),向指定的短信 網(wǎng)關(guān)和指定的手機(jī)號(hào)碼發(fā)送短信,提示報(bào)警信息。(2) E-MAIL報(bào)警根據(jù)所設(shè)定的E-MAIL報(bào)警規(guī)則和報(bào)警性質(zhì),向 指定的E-MAIL信箱發(fā)送報(bào)警郵件,提示報(bào)警信息。
全文摘要
基于爬蟲(chóng)技術(shù)的網(wǎng)站文檔管理、安全防護(hù)與測(cè)試診斷系統(tǒng)構(gòu)造方法,可以自動(dòng)化地為網(wǎng)站建立文件和URL鏈接的管理檔案,以此作為基本依據(jù),可以審計(jì)網(wǎng)頁(yè)是否被黑,鏈接關(guān)系是否被篡改,發(fā)現(xiàn)網(wǎng)站錯(cuò)誤鏈接,可以自動(dòng)化全面測(cè)試網(wǎng)站所包含的URL響應(yīng)時(shí)間,發(fā)現(xiàn)非法鏈接,發(fā)現(xiàn)網(wǎng)頁(yè)中的“敏感詞語(yǔ)”,可作為網(wǎng)站測(cè)試、診斷、評(píng)估和安全防護(hù)的工具。
文檔編號(hào)G06F21/00GK101510195SQ200810008270
公開(kāi)日2009年8月19日 申請(qǐng)日期2008年2月15日 優(yōu)先權(quán)日2008年2月15日
發(fā)明者峰 劉, 潔 宋 申請(qǐng)人:劉 峰;宋 潔