一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法

文檔序號：8543753閱讀：655來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)爬蟲技術(shù)領(lǐng)域，具體地說是一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法。
【背景技術(shù)】
[0002]近年來，隨著信息技術(shù)和互聯(lián)網(wǎng)的不斷迅速發(fā)展，互聯(lián)網(wǎng)信息在社會和生活中的地位越來越顯著。
[0003]互聯(lián)網(wǎng)作為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問互聯(lián)網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如:不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。為了解決上述問題，定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運(yùn)而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接，獲取所需要的信息。與通用爬蟲不同，聚焦爬蟲并不追求大的覆蓋，而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁，為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。
[0004]目前，有數(shù)百臺服務(wù)器每天進(jìn)行互聯(lián)網(wǎng)采集，這就需要大量的人工進(jìn)入到每臺服務(wù)器進(jìn)行配置與采集，這無疑增加了采集的難度與消耗。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的技術(shù)任務(wù)是提供一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法。
[0006]本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的，該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址，將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理；每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序，程序中的采集項(xiàng)會根據(jù)平臺的差異，采集項(xiàng)也會對應(yīng)改變，通過http訪問資源的功能，獲取到子節(jié)點(diǎn)的采集項(xiàng)，并對其操作。
[0007]所述的采集程序?yàn)榫W(wǎng)頁版操作程序。
[0008]所述的自動化采集方法的步驟如下:
[0009]步驟1:確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址；
[0010]步驟2:在管理節(jié)點(diǎn)數(shù)據(jù)中確定合適的采集節(jié)點(diǎn)地址與功能地址；
[0011]步驟3:通過聚焦網(wǎng)絡(luò)爬蟲獲取采集節(jié)點(diǎn)的功能頁面并加載到管理節(jié)點(diǎn)；
[0012]步驟4:對加載到管理節(jié)點(diǎn)的各采集頁面進(jìn)行采集配置；
[0013]步驟5:對所有采集節(jié)點(diǎn)進(jìn)行一鍵采集。
[0014]所述的步驟I中，首先開啟所有采集節(jié)點(diǎn)的采集服務(wù)，之后確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址。
[0015]本發(fā)明的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法和現(xiàn)有技術(shù)相比，通過采用聚焦爬蟲技術(shù)，不需要大量的人工進(jìn)入到每臺服務(wù)器進(jìn)行配置與采集，不但大大減少了技術(shù)人員的工作量，有效的提高了工作效率，而且能方便采集管理，有效地提取并利用信息。
【附圖說明】
[0016]附圖1為一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法的架構(gòu)圖。
【具體實(shí)施方式】
[0017]實(shí)施例1:
[0018]該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址，將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理；每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序，程序中的采集項(xiàng)會根據(jù)平臺的差異，采集項(xiàng)也會對應(yīng)改變，通過http訪問資源的功能，獲取到子節(jié)點(diǎn)的采集項(xiàng)，并對其操作。
[0019]所述的自動化采集方法的步驟如下:
[0020]步驟1:確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址；
[0021]步驟2:在管理節(jié)點(diǎn)數(shù)據(jù)中確定合適的采集節(jié)點(diǎn)地址與功能地址；
[0022]步驟3:通過聚焦網(wǎng)絡(luò)爬蟲獲取采集節(jié)點(diǎn)的功能頁面并加載到管理節(jié)點(diǎn)；
[0023]步驟4:對加載到管理節(jié)點(diǎn)的各采集頁面進(jìn)行采集配置；
[0024]步驟5:對所有采集節(jié)點(diǎn)進(jìn)行一鍵采集。
[0025]實(shí)施例2:
[0026]該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址，將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理；每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序，采集程序?yàn)榫W(wǎng)頁版操作程序，程序中的采集項(xiàng)會根據(jù)平臺的差異，采集項(xiàng)也會對應(yīng)改變，通過http訪問資源的功能，獲取到子節(jié)點(diǎn)的采集項(xiàng)，并對其操作。
[0027]所述的自動化采集方法的步驟如下:
[0028]步驟1:首先開啟所有采集節(jié)點(diǎn)的采集服務(wù)，之后確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址；
[0029]步驟2:在管理節(jié)點(diǎn)數(shù)據(jù)中確定合適的采集節(jié)點(diǎn)地址與功能地址；
[0030]步驟3:通過聚焦網(wǎng)絡(luò)爬蟲獲取采集節(jié)點(diǎn)的功能頁面并加載到管理節(jié)點(diǎn)；
[0031]步驟4:對加載到管理節(jié)點(diǎn)的各采集頁面進(jìn)行采集配置；
[0032]步驟5:啟動一鍵采集，對所有采集節(jié)點(diǎn)進(jìn)行一鍵采集。
[0033]實(shí)施例3:
[0034]對數(shù)百臺服務(wù)器每天進(jìn)行互聯(lián)網(wǎng)采集:
[0035]首先開啟所有服務(wù)器的采集節(jié)點(diǎn)的采集服務(wù)，之后確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址；在管理節(jié)點(diǎn)數(shù)據(jù)中確定各服務(wù)器合適的采集節(jié)點(diǎn)地址與功能地址；然后將確定的合適的各采集頁面進(jìn)行采集配置，最后啟動一鍵采集，對所有服務(wù)器的采集節(jié)點(diǎn)進(jìn)行一鍵米集。
[0036]通過上面【具體實(shí)施方式】，所述技術(shù)領(lǐng)域的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解，本發(fā)明并不限于上述的幾種【具體實(shí)施方式】。在公開的實(shí)施方式的基礎(chǔ)上，所述技術(shù)領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征，從而實(shí)現(xiàn)不同的技術(shù)方案。
【主權(quán)項(xiàng)】
1.一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法，其特征在于，該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址，將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理；每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序，程序中的采集項(xiàng)會根據(jù)平臺的差異，采集項(xiàng)也會對應(yīng)改變，通過http訪問資源的功能，獲取到子節(jié)點(diǎn)的采集項(xiàng)，并對其操作。
2.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法，其特征在于，所述的采集程序?yàn)榫W(wǎng)頁版操作程序。
3.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法，其特征在于，所述的自動化采集方法的步驟如下: 步驟1:確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址；步驟2:在管理節(jié)點(diǎn)數(shù)據(jù)中確定合適的采集節(jié)點(diǎn)地址與功能地址；步驟3:通過聚焦網(wǎng)絡(luò)爬蟲獲取采集節(jié)點(diǎn)的功能頁面并加載到管理節(jié)點(diǎn)；步驟4:對加載到管理節(jié)點(diǎn)的各采集頁面進(jìn)行采集配置；步驟5:對所有采集節(jié)點(diǎn)進(jìn)行一鍵采集。
4.根據(jù)權(quán)利要求1所述的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法，其特征在于，所述的步驟I中，首先開啟所有采集節(jié)點(diǎn)的采集服務(wù)，之后確定采集節(jié)點(diǎn)地址與采集項(xiàng)的功能地址。
【專利摘要】本發(fā)明公開了一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法，屬于計(jì)算機(jī)網(wǎng)絡(luò)爬蟲技術(shù)領(lǐng)域，該自動化采集方法是利用聚焦網(wǎng)絡(luò)爬蟲抓取沒采集服務(wù)器的采集功能地址，將服務(wù)器采集的功能地址加入到管理節(jié)點(diǎn)進(jìn)行統(tǒng)一采集與配置管理；每臺采集節(jié)點(diǎn)服務(wù)器中部署相應(yīng)的采集程序，程序中的采集項(xiàng)會根據(jù)平臺的差異，采集項(xiàng)也會對應(yīng)改變，通過http訪問資源的功能，獲取到子節(jié)點(diǎn)的采集項(xiàng)，并對其操作。本發(fā)明的一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法和現(xiàn)有技術(shù)相比，通過采用聚焦爬蟲技術(shù)，不需要大量的人工進(jìn)入到每臺服務(wù)器進(jìn)行配置與采集，不但大大減少了技術(shù)人員的工作量，有效的提高了工作效率，而且能方便采集管理，有效地提取并利用信息。
【IPC分類】G06F17-30
【公開號】CN104866555
【申請?zhí)枴緾N201510248866
【發(fā)明人】邱繼釗, 王傳超, 徐宏偉
【申請人】浪潮軟件集團(tuán)有限公司
【公開日】2015年8月26日
【申請日】2015年5月15日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邱繼釗;王傳超;徐宏偉;
技術(shù)所有人：浪潮軟件集團(tuán)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

自動化數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

自動化采集系統(tǒng)相關(guān)技術(shù)

工業(yè)自動化數(shù)據(jù)采集相關(guān)技術(shù)

網(wǎng)絡(luò)爬蟲相關(guān)技術(shù)

自己動手寫網(wǎng)絡(luò)爬蟲相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于網(wǎng)絡(luò)爬蟲的自動化采集方法