两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種管理爬蟲代理的方法及裝置與流程

文檔序號(hào):11250924閱讀:506來源:國(guó)知局
一種管理爬蟲代理的方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種管理爬蟲代理的方法及裝置。



背景技術(shù):

隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,為了有效地提取并利用這些信息,網(wǎng)絡(luò)爬蟲應(yīng)用而生。網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。

然而,許多網(wǎng)站為了防止網(wǎng)絡(luò)爬蟲所帶來的系統(tǒng)壓力,采取了反爬蟲技術(shù),不允許爬蟲進(jìn)行高頻率的數(shù)據(jù)采集。目前,為了應(yīng)對(duì)反爬蟲技術(shù),進(jìn)程可以向代理發(fā)起請(qǐng)求,由代理實(shí)現(xiàn)網(wǎng)頁下載,如此,網(wǎng)站則不能檢測(cè)到真正采集網(wǎng)頁的機(jī)器,其中,代理是指可以用于實(shí)現(xiàn)網(wǎng)頁下載的服務(wù)器。

現(xiàn)有技術(shù)中,為了實(shí)現(xiàn)使用代理更高效地采集所需要的信息,往往都是建立代理池,進(jìn)程通過從代理池中不斷獲取代理,并且向獲取的代理發(fā)起請(qǐng)求,來實(shí)現(xiàn)網(wǎng)頁下載,采集所需要的信息。

但是,現(xiàn)有技術(shù)并沒有對(duì)代理池中的代理進(jìn)行有效管理,在代理池中的代理改變時(shí),不能及時(shí)反饋給進(jìn)程,例如:在代理池中有新增加的代理時(shí),現(xiàn)有技術(shù)不能及時(shí)將新增加的代理反饋給進(jìn)程,進(jìn)程獲取不到新增加的代理;在代理池中有不可用的代理時(shí),進(jìn)程獲取到該不可用的代理后,不能進(jìn)行網(wǎng)頁下載。這樣就會(huì)影響進(jìn)程采集信息。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例的目的在于提供一種管理爬蟲代理的方法及裝置,以實(shí)現(xiàn)及時(shí)更新代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。具體技術(shù)方案如下:

第一方面,本發(fā)明實(shí)施例提供了一種管理爬蟲代理的方法,該方法包括:

獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的ip地址、待更新代理的名稱及待更新代理的端口,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令;

更新待更新代理的代理信息,并更新待更新代理到代理池。

可選的,所述獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,包括:

獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

相應(yīng)的,所述更新待更新代理的代理信息,并更新待更新代理到代理池,包括:

添加待新增代理的代理信息,并添加待新增代理到代理池。

可選的,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息之后,本發(fā)明實(shí)施例的管理爬蟲代理的方法還包括:

根據(jù)待新增代理的代理信息,向待新增代理發(fā)送下載第一指定內(nèi)容的第一下載指令;

在待新增代理根據(jù)第一下載指令成功下載第一指定內(nèi)容時(shí),則待新增代理為可用代理;

相應(yīng)的,所述添加待新增代理的代理信息,并添加待新增代理到代理池,包括:

在待新增代理為可用代理時(shí),添加可用代理的代理信息,并添加可用代理到代理池。

可選的,所述獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,包括:

獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

相應(yīng)的,所述更新待更新代理的代理信息,并更新待更新代理到代理池,包括:

刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

可選的,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息之前,本發(fā)明實(shí)施例的管理爬蟲代理的方法還包括:

周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理。

另一方面,本發(fā)明實(shí)施例還提供了一種管理爬蟲代理的裝置,該裝置包括:

獲取模塊,用于獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的ip地址、待更新代理的名稱及待更新代理的端口,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令;

更新模塊,用于更新待更新代理的代理信息,并更新待更新代理到代理池。

可選的,所述獲取模塊,具體用于:

獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

相應(yīng)的,所述更新模塊,具體用于:

添加待新增代理的代理信息,并添加待新增代理到代理池。

可選的,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息之后,本發(fā)明實(shí)施例的管理爬蟲代理的裝置還包括:

健康檢查模塊,用于根據(jù)待新增代理的代理信息,向待新增代理發(fā)送下載第一指定內(nèi)容的第一下載指令;

在待新增代理根據(jù)第一下載指令成功下載第一指定內(nèi)容時(shí),則待新增代理為可用代理;

相應(yīng)的,所述更新模塊,還具體用于:

在待新增代理為可用代理時(shí),添加可用代理的代理信息,并添加可用代理到代理池。

可選的,所述獲取模塊,還具體用于:

獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

相應(yīng)的,所述更新模塊,還具體用于:

刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

可選的,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息之前,本發(fā)明實(shí)施例的管理爬蟲代理的裝置還包括:

待刪除代理檢查模塊,用于周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理。

本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法及裝置,通過在有待更新代理時(shí),及時(shí)更新待更新代理的代理信息,并更新待更新代理到代理池,保證代理池中的代理都是可用代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第一種實(shí)施方式的流程圖;

圖2為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第二種實(shí)施方式的流程圖;

圖3為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第三種實(shí)施方式的流程圖;

圖4為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第四種實(shí)施方式的流程圖;

圖5為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第五種實(shí)施方式的流程圖;

圖6為本發(fā)明實(shí)施例的一種管理爬蟲代理的裝置的結(jié)構(gòu)圖;

圖7為本發(fā)明實(shí)施例的一種管理爬蟲代理的裝置的應(yīng)用系統(tǒng)圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

為了解決現(xiàn)有技術(shù)存在的問題,本發(fā)明實(shí)施例提供了一種管理爬蟲代理的方法及裝置,以實(shí)現(xiàn)及時(shí)更新代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。

下面,首先對(duì)本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法進(jìn)行介紹,如圖1所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第一種實(shí)施方式的流程圖,所述的方法可以包括:

s101,獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的ip地址、待更新代理的名稱及待更新代理的端口,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令;

代理是指可以用于實(shí)現(xiàn)網(wǎng)頁下載的服務(wù)器,

具體地,該待更新代理包括自建代理和商業(yè)購(gòu)買的代理,對(duì)于自建代理,該攜帶有待更新代理的指令來自于自建代理集群,對(duì)于商業(yè)購(gòu)買的代理,該攜帶有待更新代理的指令來自于商業(yè)購(gòu)買的代理集群,其中,自建代理的方法為現(xiàn)有技術(shù),此處不再贅述。

自建代理在建立成功以后,都是可用的,生命周期較長(zhǎng),而商業(yè)購(gòu)買的代理,在購(gòu)買后,并不能保證所有購(gòu)買的代理都是可用的,并且購(gòu)買的代理的生命周期也不同,因此,在這里將自建代理與商業(yè)購(gòu)買的代理進(jìn)行分開運(yùn)維,能夠減少運(yùn)維的復(fù)雜度。

s102,更新待更新代理的代理信息,并更新待更新代理到代理池。

具體地,在步驟s101中得到待更新代理的代理信息后,首先更新本發(fā)明實(shí)施例的待更新代理的代理信息,然后發(fā)送更新指令到代理池,更新代理池中的該待更新代理。

需要說明的是,代理池為保存有各個(gè)代理的代理信息的表項(xiàng)或集合。

本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法,通過在有待更新代理時(shí),及時(shí)更新待更新代理的代理信息,并更新待更新代理到代理池,保證代理池中的代理都是可用代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。

具體地,本發(fā)明實(shí)施例的一種管理爬蟲代理的方法,可以應(yīng)用于代理注冊(cè)中心,該代理注冊(cè)中心用于維護(hù)和管理代理池,具體地,該代理注冊(cè)中心可以使用zookeeper集群構(gòu)建。為了更好的說明本發(fā)明實(shí)施例,下面將以代理注冊(cè)中心為例進(jìn)行說明。

在第一種實(shí)施方式中,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令,那么,在待更新代理的指令為待新增代理的指令時(shí),可以通過圖2所示的實(shí)施方式進(jìn)行管理,如圖2所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第二種實(shí)施方式的流程圖;該方法可以包括:

s201,獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

在該待新增代理為自建代理時(shí),自建代理集群發(fā)送攜帶有該自建代理信息的更新指令,具體地,該待新增代理的指令中包含有該待新增代理的代理信息,因此,代理注冊(cè)中心可以獲取到該待新增代理的代理信息。

s202,添加待新增代理的代理信息,并添加待新增代理到代理池。

在代理注冊(cè)中心獲取到該待新增代理的代理信息后,將該待新增代理的代理信息注冊(cè)到代理注冊(cè)中心,具體地,注冊(cè)到代理注冊(cè)中心的方法為:將該待新增代理的代理信息添加到代理注冊(cè)中心相應(yīng)的路徑下。在注冊(cè)成功后,發(fā)送攜帶有該待新增代理的代理信息的更新指令給代理改變觸發(fā)進(jìn)程,該進(jìn)程用于發(fā)送攜帶有該待新增代理的代理信息的添加指令給代理池,將該待新增代理的代理信息也添加到代理池中。

通過本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法,能夠及時(shí)得到待新增的代理,并將該待新增代理添加到代理池,能夠使得進(jìn)程在使用代理池中的代理采集信息時(shí),能夠及時(shí)得到最新的代理,從而消除代理的改變對(duì)進(jìn)程采集信息的影響。

由于自建代理在注冊(cè)時(shí)都是可以使用的,因此,在該待新增代理為自建代理時(shí),可以使用上述實(shí)施方式。為了保證添加到代理池中的代理都是可用的,消除代理的改變對(duì)進(jìn)程采集信息的影響,下面,介紹本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法的第三種實(shí)施方式,如圖3所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第三種實(shí)施方式的流程圖,該方法可以包括:

s301,獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

s302,根據(jù)待新增代理的代理信息,向待新增代理發(fā)送下載第一指定內(nèi)容的第一下載指令;

s303,在待新增代理根據(jù)第一下載指令成功下載第一指定內(nèi)容時(shí),則待新增代理為可用代理;

s304,在待新增代理為可用代理時(shí),添加可用代理的代理信息,并添加可用代理到代理池。

需要說明的是,該第一指定內(nèi)容為在檢查該待新增代理是否為可用代理時(shí),選擇的內(nèi)容,可以包括:網(wǎng)頁、信息、視頻等內(nèi)容。

通過本發(fā)明實(shí)施例,能夠保證添加到代理池中的商用代理都是可以使用的代理,進(jìn)一步消除代理的改變對(duì)進(jìn)程采集信息的影響。

在第一種實(shí)施方式中,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令,那么,在待更新代理的指令為待刪除代理的指令時(shí),可以通過圖4所示的實(shí)施方式進(jìn)行管理,如圖4所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第四種實(shí)施方式的流程圖;該方法可以包括:

s401,獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

s402,刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

需要說明的是,該待刪除代理的指令可以來自于自建代理集群、商業(yè)購(gòu)買的代理集群或者代理池。

具體地,這里以代理注冊(cè)中心為例進(jìn)行說明,在代理注冊(cè)中心獲取到該待刪除代理的代理信息后,將該待刪除代理的代理信息從代理注冊(cè)中心刪除,具體地,刪除的方法為:從代理注冊(cè)中心的相應(yīng)路徑下刪除該待刪除代理。在代理注冊(cè)中心刪除后,發(fā)送攜帶有該待刪除代理的代理信息的更新指令給代理改變觸發(fā)進(jìn)程,該進(jìn)程用于發(fā)送攜帶有該待刪除代理的代理信息的添加指令給代理池,將該待刪除代理的代理信息從代理池中刪除。

通過本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法,能夠及時(shí)得到待刪除的代理,并將該待刪除代理從代理池中刪除,能夠使得進(jìn)程在使用代理池中的代理采集信息時(shí),不使用該待刪除的代理,從而消除代理的改變對(duì)進(jìn)程采集信息的影響。

具體地,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息之前,本發(fā)明實(shí)施例的管理爬蟲代理的方法還包括:

周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理。

需要說明的是,該第二指定內(nèi)容為在檢查第一代理是否為待刪除代理時(shí)選擇的內(nèi)容,可以包括:網(wǎng)頁、信息、視頻等內(nèi)容。為了降低實(shí)施本發(fā)明實(shí)施例的難度,該第二指定內(nèi)容可以與第一指定內(nèi)容相同。

應(yīng)當(dāng)理解的是,獲取代理池中第一代理的代理信息的周期是根據(jù)實(shí)際需要進(jìn)行設(shè)置的。

通過本發(fā)明實(shí)施例,能夠及時(shí)刪除代理池中的不可用代理,保證代理池中的代理都是可以使用的代理,進(jìn)一步消除代理的改變對(duì)進(jìn)程采集信息的影響。

需要說明的是,在該待更新代理的指令為待新增代理的指令和待刪除代理的指令時(shí),可以同時(shí)通過上述的實(shí)施方式來實(shí)現(xiàn),可以相互參考,這里不再贅述。

另外,本發(fā)明實(shí)施例還提供了一種管理爬蟲代理的方法,如圖5所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第五種實(shí)施方式的流程圖,該方法可以包括:

s501,獲取并根據(jù)攜帶有待新增代理的指令,得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

s502,添加待新增代理的代理信息,并添加待新增代理到代理池;

s503,周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

s504,在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理;

s505,獲取并根據(jù)攜帶有待刪除代理的指令,得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

s506,刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

相應(yīng)于上述方法實(shí)施例,本發(fā)明實(shí)施例提供了一種管理爬蟲代理的裝置,如圖6所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的裝置的結(jié)構(gòu)圖,該裝置可以包括:

獲取模塊601,用于獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的ip地址、待更新代理的名稱及待更新代理的端口,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令;

更新模塊602,用于更新待更新代理的代理信息,并更新待更新代理到代理池。

本發(fā)明實(shí)施例提供的一種管理爬蟲代理的裝置,通過在有待更新代理時(shí),及時(shí)更新待更新代理的代理信息,并更新待更新代理到代理池,保證代理池中的代理都是可用代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。

具體地,所述獲取模塊601,具體用于:

獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

相應(yīng)的,所述更新模塊602,具體用于:

添加待新增代理的代理信息,并添加待新增代理到代理池。

具體地,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息之后,本發(fā)明實(shí)施例的管理爬蟲代理的裝置還包括:

健康檢查模塊,用于根據(jù)待新增代理的代理信息,向待新增代理發(fā)送下載第一指定內(nèi)容的第一下載指令;

在待新增代理根據(jù)第一下載指令成功下載第一指定內(nèi)容時(shí),則待新增代理為可用代理;

相應(yīng)的,所述更新模塊602,還具體用于:

在待新增代理為可用代理時(shí),添加可用代理的代理信息,并添加可用代理到代理池。

具體地,所述獲取模塊601,還具體用于:

獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

相應(yīng)的,所述更新模塊602,還具體用于:

刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

具體地,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息之前,本發(fā)明實(shí)施例的管理爬蟲代理的裝置還包括:

待刪除代理檢查模塊,用于周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理。

如圖7所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的裝置的應(yīng)用系統(tǒng)圖,該系統(tǒng)可以包括:

代理模塊701、代理注冊(cè)中心702、健康檢查模塊703、待刪除代理檢查模塊704、代理改變觸發(fā)模塊705、代理更新模塊706,代理池707,其中代理注冊(cè)中心702包括:獲取模塊601和更新模塊602。

代理注冊(cè)中心702用于獲取代理模塊701中的自建代理,或者獲取代理模塊701中商業(yè)購(gòu)買的代理,或者獲取代理池707中的待刪除代理;在代理注冊(cè)中心702獲取代理模塊701中商業(yè)購(gòu)買的代理時(shí),為了保證添加到代理池707中的新增代理都是可用代理,通過健康檢查模塊703對(duì)商業(yè)購(gòu)買的代理進(jìn)行檢查,只有在商業(yè)購(gòu)買的代理是可用代理時(shí),才將該商業(yè)購(gòu)買的代理添加到代理池707中。

具體的添加方式為:代理注冊(cè)中心702中的更新模塊602根據(jù)獲取模塊601獲取的待添加代理的代理信息,添加該待添加代理的代理信息到代理注冊(cè)中心702中,并發(fā)送該待添加代理的代理信息到代理改變觸發(fā)模塊705,代理改變觸發(fā)模塊705產(chǎn)生并發(fā)送攜帶有該待添加代理的代理信息的添加指令到代理更新模塊706,代理更新模塊706根據(jù)該添加指令將該待添加代理的代理信息添加到代理池707中。

在將代理模塊701中的代理添加到代理池707中后,待刪除代理檢查模塊704會(huì)周期性的檢查代理池707中是否有待刪除代理,在代理池707中有待刪除代理時(shí),代理注冊(cè)中心702中的更新模塊602刪除代理注冊(cè)中心702中的該待刪除代理的代理信息,并發(fā)送該待刪除代理的代理信息給代理改變觸發(fā)模塊705,代理改變觸發(fā)模塊705產(chǎn)生并發(fā)送攜帶有該待刪除代理的代理信息的刪除指令給代理更新模塊706,代理更新模塊706根據(jù)該刪除指令將該待刪除代理的代理信息從代理池707中刪除。

需要說明的是,本發(fā)明實(shí)施例的裝置是應(yīng)用上述管理爬蟲代理的方法的裝置,則上述管理爬蟲代理的方法的所有實(shí)施例均適用于該裝置,且均能達(dá)到相同或相似的有益效果。

通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺(tái)服務(wù)端設(shè)備(可以是計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
朝阳市| 张家口市| 白银市| 太仓市| 冀州市| 宁化县| 团风县| 秦皇岛市| 台江县| 沙河市| 宁城县| 盐城市| 土默特左旗| 乌兰察布市| 衢州市| 青浦区| 临江市| 霍林郭勒市| 云林县| 临漳县| 新竹市| 永年县| 浮梁县| 南陵县| 简阳市| 乌拉特中旗| 来安县| 泰来县| 大邑县| 齐河县| 阿城市| 清远市| 大同县| 南汇区| 卢氏县| 孝感市| 高密市| 永定县| 周宁县| 离岛区| 红原县|