一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)爬蟲技術(shù)領(lǐng)域,具體地說是一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法。
【背景技術(shù)】
[0002]近年來,隨著信息技術(shù)和互聯(lián)網(wǎng)的不斷迅速發(fā)展,互聯(lián)網(wǎng)信息在社會和生活中的地位越來越顯著。
[0003]互聯(lián)網(wǎng)作為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問互聯(lián)網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運(yùn)而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。
[0004]目前,有數(shù)百臺服務(wù)器每天進(jìn)行互聯(lián)網(wǎng)采集,這就需要大量的人工進(jìn)入到每臺服務(wù)器進(jìn)行配置與采集,這無疑增加了采集的難度與消耗。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的技術(shù)任務(wù)是提供一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法。
[0006]本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址,將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理;每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序,程序中的采集項(xiàng)會根據(jù)平臺的差異,采集項(xiàng)也會對應(yīng)改變,通過http訪問資源的功能,獲取到子節(jié)點(diǎn)的采集項(xiàng),并對其操作。
[0007]所述的采集程序?yàn)榫W(wǎng)頁版操作程序。
[0008]所述的自動化采集方法的步驟如下:
[0009]步驟1:確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址;
[0010]步驟2:在管理節(jié)點(diǎn)數(shù)據(jù)中確定合適的采集節(jié)點(diǎn)地址與功能地址;
[0011]步驟3:通過聚焦網(wǎng)絡(luò)爬蟲獲取采集節(jié)點(diǎn)的功能頁面并加載到管理節(jié)點(diǎn);
[0012]步驟4:對加載到管理節(jié)點(diǎn)的各采集頁面進(jìn)行采集配置;
[0013]步驟5:對所有采集節(jié)點(diǎn)進(jìn)行一鍵采集。
[0014]所述的步驟I中,首先開啟所有采集節(jié)點(diǎn)的采集服務(wù),之后確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址。
[0015]本發(fā)明的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法和現(xiàn)有技術(shù)相比,通過采用聚焦爬蟲技術(shù),不需要大量的人工進(jìn)入到每臺服務(wù)器進(jìn)行配置與采集,不但大大減少了技術(shù)人員的工作量,有效的提高了工作效率,而且能方便采集管理,有效地提取并利用信息。
【附圖說明】
[0016]附圖1為一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法的架構(gòu)圖。
【具體實(shí)施方式】
[0017]實(shí)施例1:
[0018]該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址,將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理;每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序,程序中的采集項(xiàng)會根據(jù)平臺的差異,采集項(xiàng)也會對應(yīng)改變,通過http訪問資源的功能,獲取到子節(jié)點(diǎn)的采集項(xiàng),并對其操作。
[0019]所述的自動化采集方法的步驟如下:
[0020]步驟1:確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址;
[0021]步驟2:在管理節(jié)點(diǎn)數(shù)據(jù)中確定合適的采集節(jié)點(diǎn)地址與功能地址;
[0022]步驟3:通過聚焦網(wǎng)絡(luò)爬蟲獲取采集節(jié)點(diǎn)的功能頁面并加載到管理節(jié)點(diǎn);
[0023]步驟4:對加載到管理節(jié)點(diǎn)的各采集頁面進(jìn)行采集配置;
[0024]步驟5:對所有采集節(jié)點(diǎn)進(jìn)行一鍵采集。
[0025]實(shí)施例2:
[0026]該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址,將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理;每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序,采集程序?yàn)榫W(wǎng)頁版操作程序,程序中的采集項(xiàng)會根據(jù)平臺的差異,采集項(xiàng)也會對應(yīng)改變,通過http訪問資源的功能,獲取到子節(jié)點(diǎn)的采集項(xiàng),并對其操作。
[0027]所述的自動化采集方法的步驟如下:
[0028]步驟1:首先開啟所有采集節(jié)點(diǎn)的采集服務(wù),之后確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址;
[0029]步驟2:在管理節(jié)點(diǎn)數(shù)據(jù)中確定合適的采集節(jié)點(diǎn)地址與功能地址;
[0030]步驟3:通過聚焦網(wǎng)絡(luò)爬蟲獲取采集節(jié)點(diǎn)的功能頁面并加載到管理節(jié)點(diǎn);
[0031]步驟4:對加載到管理節(jié)點(diǎn)的各采集頁面進(jìn)行采集配置;
[0032]步驟5:啟動一鍵采集,對所有采集節(jié)點(diǎn)進(jìn)行一鍵采集。
[0033]實(shí)施例3:
[0034]對數(shù)百臺服務(wù)器每天進(jìn)行互聯(lián)網(wǎng)采集:
[0035]首先開啟所有服務(wù)器的采集節(jié)點(diǎn)的采集服務(wù),之后確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址;在管理節(jié)點(diǎn)數(shù)據(jù)中確定各服務(wù)器合適的采集節(jié)點(diǎn)地址與功能地址;然后將確定的合適的各采集頁面進(jìn)行采集配置,最后啟動一鍵采集,對所有服務(wù)器的采集節(jié)點(diǎn)進(jìn)行一鍵米集。
[0036]通過上面【具體實(shí)施方式】,所述技術(shù)領(lǐng)域的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明并不限于上述的幾種【具體實(shí)施方式】。在公開的實(shí)施方式的基礎(chǔ)上,所述技術(shù)領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征,從而實(shí)現(xiàn)不同的技術(shù)方案。
【主權(quán)項(xiàng)】
1.一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法,其特征在于,該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址,將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理;每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序,程序中的采集項(xiàng)會根據(jù)平臺的差異,采集項(xiàng)也會對應(yīng)改變,通過http訪問資源的功能,獲取到子節(jié)點(diǎn)的采集項(xiàng),并對其操作。
2.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法,其特征在于,所述的采集程序?yàn)榫W(wǎng)頁版操作程序。
3.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法,其特征在于,所述的自動化采集方法的步驟如下: 步驟1:確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址; 步驟2:在管理節(jié)點(diǎn)數(shù)據(jù)中確定合適的采集節(jié)點(diǎn)地址與功能地址; 步驟3:通過聚焦網(wǎng)絡(luò)爬蟲獲取采集節(jié)點(diǎn)的功能頁面并加載到管理節(jié)點(diǎn); 步驟4:對加載到管理節(jié)點(diǎn)的各采集頁面進(jìn)行采集配置; 步驟5:對所有采集節(jié)點(diǎn)進(jìn)行一鍵采集。
4.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法,其特征在于,所述的步驟I中,首先開啟所有采集節(jié)點(diǎn)的采集服務(wù),之后確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址。
【專利摘要】本發(fā)明公開了一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法,屬于計(jì)算機(jī)網(wǎng)絡(luò)爬蟲技術(shù)領(lǐng)域,該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址,將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理;每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序,程序中的采集項(xiàng)會根據(jù)平臺的差異,采集項(xiàng)也會對應(yīng)改變,通過http訪問資源的功能,獲取到子節(jié)點(diǎn)的采集項(xiàng),并對其操作。本發(fā)明的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法和現(xiàn)有技術(shù)相比,通過采用聚焦爬蟲技術(shù),不需要大量的人工進(jìn)入到每臺服務(wù)器進(jìn)行配置與采集,不但大大減少了技術(shù)人員的工作量,有效的提高了工作效率,而且能方便采集管理,有效地提取并利用信息。
【IPC分類】G06F17-30
【公開號】CN104866555
【申請?zhí)枴緾N201510248866
【發(fā)明人】邱繼釗, 王傳超, 徐宏偉
【申請人】浪潮軟件集團(tuán)有限公司
【公開日】2015年8月26日
【申請日】2015年5月15日