两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種網(wǎng)站內(nèi)鏈的部署方法及裝置的制造方法_3

文檔序號:9432740閱讀:來源:國知局
例中在檢測到爬蟲訪問目標(biāo)頁面后,對爬蟲的訪問記錄進行記錄,根據(jù)記錄的爬蟲訪問記錄更新爬蟲日志記錄,進一步利用更新后的爬蟲日志記錄來確定目標(biāo)頁面,完成目標(biāo)頁面的更新。
[0106]在本申請的又一個實施例中,公開了上述網(wǎng)站內(nèi)鏈部署方法的又一種可選方案,參見圖4,圖4為本申請實施例公開的又一種網(wǎng)站內(nèi)鏈的部署方法流程圖。
[0107]如圖4所示,該方法包括:
[0108]步驟S400、根據(jù)爬蟲日志記錄,確定網(wǎng)站內(nèi)被爬蟲訪問的次數(shù)超過閾值的目標(biāo)頁面;
[0109]通過分析爬蟲日志記錄,確定出一段時間內(nèi),網(wǎng)站內(nèi)各個網(wǎng)頁被爬蟲訪問的次數(shù)。進而,將訪問次數(shù)超過閾值的頁面確定為目標(biāo)頁面。這部分目標(biāo)頁面作為最新產(chǎn)生的鏈接地址的曝光入口。
[0110]可以理解的是,目標(biāo)頁面的個數(shù)可以是一個或多個。
[0111]步驟S410、從預(yù)置的鏈接地址存儲隊列中抽取最新產(chǎn)生的目標(biāo)數(shù)量條的鏈接地址;
[0112]其中,所述鏈接地址存儲隊列中按照鏈接地址產(chǎn)生時間的先后順序,存儲有多條鏈接地址,所述目標(biāo)數(shù)量為所述目標(biāo)頁面所能夠展示的鏈接地址的條目數(shù)。
[0113]本申請可以預(yù)先統(tǒng)計一段時間內(nèi)網(wǎng)站中新產(chǎn)生的頁面的鏈接地址,進而按照產(chǎn)生時間的先后順序,將鏈接地址存儲在鏈接地址存儲隊列中??蛇x的,隊列中靠前的可以是最新產(chǎn)生的鏈接地址。
[0114]實際應(yīng)用中,一個頁面所能夠展示的鏈接地址的條目數(shù)是有規(guī)定的,因此本申請在確定出目標(biāo)頁面后可以進一步確定出目標(biāo)頁面所能夠展示的鏈接地址的條目數(shù),進而從鏈接地址存儲隊列中抽取最新產(chǎn)生的目標(biāo)數(shù)量條的鏈接地址。
[0115]步驟S420、將抽取的目標(biāo)數(shù)量條的鏈接地址展示在所述目標(biāo)頁面上;
[0116]步驟S430、確定所述目標(biāo)頁面上,預(yù)置時間段內(nèi)未被爬蟲抓取過的X條鏈接地址;
[0117]具體地,在目標(biāo)頁面上部署鏈接地址之后,對各條鏈接地址進行監(jiān)控,確定各條鏈接地址是否被爬蟲抓取過,進而找出在預(yù)置的時間段內(nèi)存在未被爬蟲抓取過的X條鏈接地址。
[0118]在預(yù)置的時間段內(nèi)未被爬蟲抓取過的鏈接地址代表著該條鏈接地址的質(zhì)量不高,爬蟲不青睞于抓取。
[0119]步驟S440、從最新的鏈接地址存儲隊列中抽取最新產(chǎn)生的X條鏈接地址;
[0120]其中,所述最新的鏈接地址存儲隊列為上一次抽取鏈接地址后的鏈接地址存儲隊列。這里,最新的鏈接地址存儲隊列的解釋可以參照上一實施例相關(guān)解釋,本實施例不做進一步說明。
[0121]步驟S450、利用抽取的X條鏈接地址替換掉所述未被爬蟲抓取過的X條鏈接地址。
[0122]上述步驟已經(jīng)確定出爬蟲不青睞于抓取的X條鏈接地址,也即質(zhì)量不高的X條鏈接地址,為了避免這部分鏈接地址占用目標(biāo)頁面,將其從目標(biāo)頁面中刪除,并利用從最新的鏈接地址存儲隊列中抽取的X條鏈接地址進行補充。
[0123]本實施例中對目標(biāo)頁面上部署的各條鏈接地址進行監(jiān)控,找出在預(yù)置的時間段內(nèi)未被爬蟲抓取過的鏈接地址,將其從目標(biāo)頁面上刪除,并利用新的鏈接地址進行補充,避免了低質(zhì)量的鏈接地址占用目標(biāo)頁面,進一步提高了新頁面鏈接地址的曝光率。
[0124]在本申請的又一個實施例中,公開了上述網(wǎng)站內(nèi)鏈部署方法的又一種可選方案,在本實施例中,假定目標(biāo)頁面的個數(shù)為多個。參見圖5,圖5為本申請實施例公開的又一種網(wǎng)站內(nèi)鏈的部署方法流程圖。
[0125]如圖5所示,該方法包括:
[0126]步驟S500、根據(jù)爬蟲日志記錄,確定網(wǎng)站內(nèi)被爬蟲訪問的次數(shù)超過閾值的目標(biāo)頁面;
[0127]其中,目標(biāo)頁面的個數(shù)為多個。
[0128]步驟S510、從預(yù)置的鏈接地址存儲隊列中抽取最新產(chǎn)生的目標(biāo)數(shù)量條的鏈接地址;
[0129]其中,所述鏈接地址存儲隊列中按照鏈接地址產(chǎn)生時間的先后順序,存儲有多條鏈接地址,所述目標(biāo)數(shù)量為所述目標(biāo)頁面所能夠展示的鏈接地址的條目數(shù)。
[0130]本申請可以預(yù)先統(tǒng)計一段時間內(nèi)網(wǎng)站中新產(chǎn)生的頁面的鏈接地址,進而按照產(chǎn)生時間的先后順序,將鏈接地址存儲在鏈接地址存儲隊列中。可選的,隊列中靠前的可以是最新產(chǎn)生的鏈接地址。
[0131]步驟S520、將多個目標(biāo)頁面的集合確定為目標(biāo)集合;
[0132]步驟S530、從所述目標(biāo)集合中抽取一個被爬蟲訪問次數(shù)最多的目標(biāo)頁面,作為待定目標(biāo)頁面;
[0133]步驟S540、從抽取的目標(biāo)數(shù)量條的鏈接地址中抽取最新產(chǎn)生的Y條鏈接地址,Y為所述待定目標(biāo)頁面所能夠展示的鏈接地址的條目數(shù);
[0134]具體地,抽取Y條鏈接地址后,則目標(biāo)數(shù)量條的鏈接地址將會減少Y條鏈接地址,再次抽取時將會從剩余的鏈接地址中進行抽取。
[0135]步驟S550、將抽取的Y條鏈接地址展示在所述待定目標(biāo)頁面上;
[0136]步驟S560、判斷所述目標(biāo)集合內(nèi)是否還存在目標(biāo)頁面,若是,執(zhí)行步驟S570,若否,退出;
[0137]具體地,經(jīng)過上述步驟S530抽取目標(biāo)頁面后,目標(biāo)集合中將會減少一個目標(biāo)頁面,剩余的目標(biāo)頁面組成新的目標(biāo)集合。
[0138]步驟S570、將目標(biāo)頁面抽取后的目標(biāo)集合確定為新的目標(biāo)集合,返回執(zhí)行步驟S530o
[0139]本實施例公開了一種將目標(biāo)數(shù)量條的鏈接地址展示在目標(biāo)頁面上的可選實施方式,通過上述實施例的方式,將產(chǎn)生時間最近的鏈接地址展示在被爬蟲訪問次數(shù)最多的目標(biāo)頁面上,進一步提高了最新產(chǎn)生的頁面的鏈接地址的曝光率。
[0140]下面對本申請實施例提供的網(wǎng)站內(nèi)鏈的部署裝置進行描述,下文描述的網(wǎng)站內(nèi)鏈的部署裝置與上文描述的網(wǎng)站內(nèi)鏈的部署方法可相互對應(yīng)參照。
[0141]參見圖6,圖6為本申請實施例公開的一種網(wǎng)站內(nèi)鏈的部署裝置結(jié)構(gòu)示意圖。
[0142]如圖6所示,該裝置包括:
[0143]目標(biāo)頁面確定單元60,用于根據(jù)爬蟲日志記錄,確定網(wǎng)站內(nèi)被爬蟲訪問的次數(shù)超過閾值的目標(biāo)頁面;
[0144]第一鏈接地址抽取單元61,用于從預(yù)置的鏈接地址存儲隊列中抽取最新產(chǎn)生的目標(biāo)數(shù)量條的鏈接地址,所述鏈接地址存儲隊列中按照鏈接地址產(chǎn)生時間的先后順序,存儲有多條鏈接地址,所述目標(biāo)數(shù)量為所述目標(biāo)頁面所能夠展示的鏈接地址的條目數(shù);
[0145]鏈接地址展示單元62,用于將抽取的目標(biāo)數(shù)量條的鏈接地址展示在所述目標(biāo)頁面上。
[0146]本申請實施例提供的網(wǎng)站內(nèi)鏈部署裝置,首先根據(jù)爬蟲日志記錄,確定出網(wǎng)站內(nèi)被爬蟲訪問的次數(shù)超過閾值的目標(biāo)頁面,目標(biāo)頁面屬于爬蟲比較青睞訪問的頁面,然后從預(yù)置的鏈接地址存儲隊列中抽取最新產(chǎn)生的目標(biāo)數(shù)量條的鏈接地址,其中鏈接地址存儲隊列中按照新頁面的鏈接地址產(chǎn)生時間的先后順序,存儲有多條鏈接地址,而目標(biāo)數(shù)量為目標(biāo)頁面所能夠展示的鏈接地址的條目數(shù),最后將抽取出的目標(biāo)數(shù)量條的鏈接地址展示在目標(biāo)頁面上。本申請通過確定出爬蟲青睞訪問的目標(biāo)頁面,進而將最新產(chǎn)生的鏈接地址展示在目標(biāo)頁面上,使得最新產(chǎn)生的鏈接地址更加容易被爬蟲所抓取,提高了新頁面的鏈接地址的曝光率。
[0147]可選的,本申請實施例公開了上述網(wǎng)站內(nèi)鏈部署裝置的另一種可選結(jié)構(gòu),結(jié)合圖6和圖7可知,該裝置還可以包括:
[0148]爬蟲訪問響應(yīng)單元63,用于在檢測到爬蟲訪問所述目標(biāo)頁面后,確定爬蟲抓取的N條鏈接地址;
[0149]第二鏈接地址抽取單元64,用于從最新的鏈接地址存儲隊列中抽取最新產(chǎn)生的N條鏈接地址,所述最新的鏈接地址存儲隊列為上一次抽取鏈接地址后的鏈接地址存儲隊列;
[0150]第一鏈接地址替換單元65,用于利用抽取的N條鏈接地址替換掉所述爬蟲抓取的N條鏈接地址。
[0151]可選的,本申請實施例公開了上述網(wǎng)站內(nèi)鏈部署裝置的又一種可選結(jié)構(gòu),結(jié)合圖7和圖8可知,該裝置還可以包括:
[0152]爬蟲日志記錄單元66,用于在所述檢測到爬蟲訪問所述目標(biāo)頁面后,記錄爬蟲的訪問記錄,該訪問記錄用于更新所述爬蟲日志記錄。
[0153]可選的,本申請實施例公開了上述網(wǎng)站內(nèi)鏈部署裝置的又一種可選結(jié)構(gòu),結(jié)合圖6和圖9可知,該裝置還可以包括:
[0154]未訪問鏈接地址
當(dāng)前第3頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
铜鼓县| 仪陇县| 潜山县| 江油市| 白银市| 象州县| 呼玛县| 本溪市| 合川市| 镇赉县| 汶上县| 新营市| 和顺县| 永丰县| 会同县| 茌平县| 多伦县| 和林格尔县| 东明县| 宁远县| 沂源县| 梁山县| 大田县| 灌南县| 伊金霍洛旗| 淅川县| 四子王旗| 台北县| 鄯善县| 恭城| SHOW| 梧州市| 攀枝花市| 谷城县| 延吉市| 天水市| 七台河市| 内乡县| 昭平县| 元氏县| 吉首市|