一種網(wǎng)站內(nèi)鏈的部署方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種網(wǎng)站內(nèi)鏈的部署方法及裝置。
【背景技術(shù)】
[0002]作為一個(gè)互聯(lián)網(wǎng)網(wǎng)站,需要借助搜索引擎來(lái)獲取更多的流量及曝光率。網(wǎng)站內(nèi)每天都會(huì)產(chǎn)生大量的新頁(yè)面,為了提高新頁(yè)面的曝光率,以及提高搜索引擎的爬蟲(chóng)對(duì)新頁(yè)面的抓取效率,網(wǎng)站需要合理部署新頁(yè)面的鏈接地址。
[0003]現(xiàn)有技術(shù)在對(duì)新頁(yè)面的鏈接地址進(jìn)行部署時(shí),一般是隨機(jī)性的將各個(gè)新頁(yè)面的鏈接地址部署在網(wǎng)站內(nèi)的各個(gè)頁(yè)面中。但是,由于搜索引擎會(huì)給網(wǎng)站內(nèi)各個(gè)網(wǎng)頁(yè)賦予一定的權(quán)威值,權(quán)威值代表了網(wǎng)頁(yè)的重要度。爬蟲(chóng)在進(jìn)行頁(yè)面訪問(wèn)時(shí),比較青睞于訪問(wèn)權(quán)威值較大的頁(yè)面,也即爬蟲(chóng)對(duì)不同頁(yè)面的訪問(wèn)頻繁度不同。這就造成部署在權(quán)威值低的頁(yè)面中的新頁(yè)面的鏈接地址有可能一直不會(huì)被爬蟲(chóng)抓取,從而造成新頁(yè)面無(wú)法進(jìn)行曝光。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本申請(qǐng)?zhí)峁┝艘环N網(wǎng)站內(nèi)鏈的部署方法及裝置,用于解決現(xiàn)有網(wǎng)站內(nèi)鏈部署方式所存在的部分新頁(yè)面的鏈接地址被爬蟲(chóng)抓取率低,造成新頁(yè)面無(wú)法曝光的問(wèn)題。
[0005]為了實(shí)現(xiàn)上述目的,現(xiàn)提出的方案如下:
[0006]—種網(wǎng)站內(nèi)鏈的部署方法,包括:
[0007]根據(jù)爬蟲(chóng)日志記錄,確定網(wǎng)站內(nèi)被爬蟲(chóng)訪問(wèn)的次數(shù)超過(guò)閾值的目標(biāo)頁(yè)面;
[0008]從預(yù)置的鏈接地址存儲(chǔ)隊(duì)列中抽取最新產(chǎn)生的目標(biāo)數(shù)量條的鏈接地址,所述鏈接地址存儲(chǔ)隊(duì)列中按照鏈接地址產(chǎn)生時(shí)間的先后順序,存儲(chǔ)有多條鏈接地址,所述目標(biāo)數(shù)量為所述目標(biāo)頁(yè)面所能夠展示的鏈接地址的條目數(shù);
[0009]將抽取的目標(biāo)數(shù)量條的鏈接地址展示在所述目標(biāo)頁(yè)面上。
[0010]優(yōu)選地,還包括:
[0011]在檢測(cè)到爬蟲(chóng)訪問(wèn)所述目標(biāo)頁(yè)面后,確定爬蟲(chóng)抓取的N條鏈接地址;
[0012]從最新的鏈接地址存儲(chǔ)隊(duì)列中抽取最新產(chǎn)生的N條鏈接地址,所述最新的鏈接地址存儲(chǔ)隊(duì)列為上一次抽取鏈接地址后的鏈接地址存儲(chǔ)隊(duì)列;
[0013]利用抽取的N條鏈接地址替換掉所述爬蟲(chóng)抓取的N條鏈接地址。
[0014]優(yōu)選地,還包括:
[0015]確定所述目標(biāo)頁(yè)面上,預(yù)置時(shí)間段內(nèi)未被爬蟲(chóng)抓取過(guò)的X條鏈接地址;
[0016]從最新的鏈接地址存儲(chǔ)隊(duì)列中抽取最新產(chǎn)生的X條鏈接地址,所述最新的鏈接地址存儲(chǔ)隊(duì)列為上一次抽取鏈接地址后的鏈接地址存儲(chǔ)隊(duì)列;
[0017]利用抽取的X條鏈接地址替換掉所述未被爬蟲(chóng)抓取過(guò)的X條鏈接地址。
[0018]優(yōu)選地,在所述檢測(cè)到爬蟲(chóng)訪問(wèn)所述目標(biāo)頁(yè)面后,該方法還包括:
[0019]記錄爬蟲(chóng)的訪問(wèn)記錄,該訪問(wèn)記錄用于更新所述爬蟲(chóng)日志記錄。
[0020]優(yōu)選地,所述目標(biāo)頁(yè)面的個(gè)數(shù)為多個(gè),所述將抽取的目標(biāo)數(shù)量條的鏈接地址展示在所述目標(biāo)頁(yè)面上,包括:
[0021]將多個(gè)目標(biāo)頁(yè)面的集合確定為目標(biāo)集合;
[0022]從所述目標(biāo)集合中抽取一個(gè)被爬蟲(chóng)訪問(wèn)次數(shù)最多的目標(biāo)頁(yè)面,作為待定目標(biāo)頁(yè)面;
[0023]從抽取的目標(biāo)數(shù)量條的鏈接地址中抽取最新產(chǎn)生的Y條鏈接地址,Y為所述待定目標(biāo)頁(yè)面所能夠展示的鏈接地址的條目數(shù);
[0024]將抽取的Y條鏈接地址展示在所述待定目標(biāo)頁(yè)面上;
[0025]將目標(biāo)頁(yè)面抽取后的目標(biāo)集合確定為新的目標(biāo)集合,返回執(zhí)行所述從所述目標(biāo)集合中抽取一個(gè)被爬蟲(chóng)訪問(wèn)次數(shù)最多的目標(biāo)頁(yè)面,作為待定目標(biāo)頁(yè)面的步驟,直至目標(biāo)集合內(nèi)不存在目標(biāo)頁(yè)面為止。
[0026]—種網(wǎng)站內(nèi)鏈的部署裝置,包括:
[0027]目標(biāo)頁(yè)面確定單元,用于根據(jù)爬蟲(chóng)日志記錄,確定網(wǎng)站內(nèi)被爬蟲(chóng)訪問(wèn)的次數(shù)超過(guò)閾值的目標(biāo)頁(yè)面;
[0028]第一鏈接地址抽取單元,用于從預(yù)置的鏈接地址存儲(chǔ)隊(duì)列中抽取最新產(chǎn)生的目標(biāo)數(shù)量條的鏈接地址,所述鏈接地址存儲(chǔ)隊(duì)列中按照鏈接地址產(chǎn)生時(shí)間的先后順序,存儲(chǔ)有多條鏈接地址,所述目標(biāo)數(shù)量為所述目標(biāo)頁(yè)面所能夠展示的鏈接地址的條目數(shù);
[0029]鏈接地址展示單元,用于將抽取的目標(biāo)數(shù)量條的鏈接地址展示在所述目標(biāo)頁(yè)面上。
[0030]優(yōu)選地,還包括:
[0031]爬蟲(chóng)訪問(wèn)響應(yīng)單元,用于在檢測(cè)到爬蟲(chóng)訪問(wèn)所述目標(biāo)頁(yè)面后,確定爬蟲(chóng)抓取的N條鏈接地址;
[0032]第二鏈接地址抽取單元,用于從最新的鏈接地址存儲(chǔ)隊(duì)列中抽取最新產(chǎn)生的N條鏈接地址,所述最新的鏈接地址存儲(chǔ)隊(duì)列為上一次抽取鏈接地址后的鏈接地址存儲(chǔ)隊(duì)列;
[0033]第一鏈接地址替換單元,用于利用抽取的N條鏈接地址替換掉所述爬蟲(chóng)抓取的N條鏈接地址。
[0034]優(yōu)選地,還包括:
[0035]未訪問(wèn)鏈接地址確定單元,用于確定所述目標(biāo)頁(yè)面上,預(yù)置時(shí)間段內(nèi)未被爬蟲(chóng)抓取過(guò)的X條鏈接地址;
[0036]第三鏈接地址抽取單元,用于從最新的鏈接地址存儲(chǔ)隊(duì)列中抽取最新產(chǎn)生的X條鏈接地址,所述最新的鏈接地址存儲(chǔ)隊(duì)列為上一次抽取鏈接地址后的鏈接地址存儲(chǔ)隊(duì)列;
[0037]第二鏈接地址替換單元,用于利用抽取的X條鏈接地址替換掉所述未被爬蟲(chóng)抓取過(guò)的X條鏈接地址。
[0038]優(yōu)選地,還包括:
[0039]爬蟲(chóng)日志記錄單元,用于在所述檢測(cè)到爬蟲(chóng)訪問(wèn)所述目標(biāo)頁(yè)面后,記錄爬蟲(chóng)的訪問(wèn)記錄,該訪問(wèn)記錄用于更新所述爬蟲(chóng)日志記錄。
[0040]優(yōu)選地,所述目標(biāo)頁(yè)面的個(gè)數(shù)為多個(gè),所述鏈接地址展示單元包括:
[0041]第一鏈接地址展示子單元,用于將多個(gè)目標(biāo)頁(yè)面的集合確定為目標(biāo)集合;
[0042]第二鏈接地址展示子單元,用于從所述目標(biāo)集合中抽取一個(gè)被爬蟲(chóng)訪問(wèn)次數(shù)最多的目標(biāo)頁(yè)面,作為待定目標(biāo)頁(yè)面;
[0043]第三鏈接地址展示子單元,用于從抽取的目標(biāo)數(shù)量條的鏈接地址中抽取最新產(chǎn)生的Y條鏈接地址,Y為所述待定目標(biāo)頁(yè)面所能夠展示的鏈接地址的條目數(shù);
[0044]第四鏈接地址展示子單元,用于將抽取的Y條鏈接地址展示在所述待定目標(biāo)頁(yè)面上;
[0045]第五鏈接地址展示子單元,用于將目標(biāo)頁(yè)面抽取后的目標(biāo)集合確定為新的目標(biāo)集合,返回執(zhí)行所述第二鏈接地址展示子單元,直至目標(biāo)集合內(nèi)不存在目標(biāo)頁(yè)面為止。
[0046]從上述的技術(shù)方案可以看出,本申請(qǐng)實(shí)施例提供的網(wǎng)站內(nèi)鏈部署方法,首先根據(jù)爬蟲(chóng)日志記錄,確定出網(wǎng)站內(nèi)被爬蟲(chóng)訪問(wèn)的次數(shù)超過(guò)閾值的目標(biāo)頁(yè)面,目標(biāo)頁(yè)面屬于爬蟲(chóng)比較青睞訪問(wèn)的頁(yè)面,然后從預(yù)置的鏈接地址存儲(chǔ)隊(duì)列中抽取最新產(chǎn)生的目標(biāo)數(shù)量條的鏈接地址,其中鏈接地址存儲(chǔ)隊(duì)列中按照新頁(yè)面的鏈接地址產(chǎn)生時(shí)間的先后順序,存儲(chǔ)有多條鏈接地址,而目標(biāo)數(shù)量為目標(biāo)頁(yè)面所能夠展示的鏈接地址的條目數(shù),最后將抽取出的目標(biāo)數(shù)量條的鏈接地址展示在目標(biāo)頁(yè)面上。本申請(qǐng)通過(guò)確定出爬蟲(chóng)青睞訪問(wèn)的目標(biāo)頁(yè)面,進(jìn)而將最新產(chǎn)生的鏈接地址展示在目標(biāo)頁(yè)面上,使得最新產(chǎn)生的鏈接地址更加容易被爬蟲(chóng)所抓取,提高了新頁(yè)面的鏈接地址的曝光率。
【附圖說(shuō)明】
[0047]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
[0048]圖1為本申請(qǐng)實(shí)施例公開(kāi)的一種網(wǎng)站內(nèi)鏈的部署方法流程圖;
[0049]圖2為本申請(qǐng)實(shí)施例公開(kāi)的另一種網(wǎng)站內(nèi)鏈的部署方法流程圖;
[0050]圖3為本申請(qǐng)實(shí)施例公開(kāi)的又一種網(wǎng)站內(nèi)鏈的部署方法流程圖;
[0051]圖4為本申請(qǐng)實(shí)施例公開(kāi)的又一種網(wǎng)站內(nèi)鏈的部署方法流程圖;
[0052]圖5為本申請(qǐng)實(shí)施例公開(kāi)的又一種網(wǎng)站內(nèi)鏈的部署方法流程圖;
[0053]圖6為本申請(qǐng)實(shí)施例公開(kāi)的一種網(wǎng)站內(nèi)鏈的部署裝置結(jié)構(gòu)示意圖;
[0054]圖7為本申請(qǐng)實(shí)施例公開(kāi)的另一種網(wǎng)站內(nèi)鏈的部署裝置結(jié)構(gòu)示意圖;
[0055]圖8為本申請(qǐng)實(shí)施例公開(kāi)的又一種網(wǎng)站內(nèi)鏈的部署裝置結(jié)構(gòu)示意圖;
[0056]圖9為本申請(qǐng)實(shí)施例公開(kāi)的又一種網(wǎng)站內(nèi)鏈的部署裝置結(jié)構(gòu)示意圖;
[0057]圖10為本申請(qǐng)實(shí)施例公開(kāi)的一種鏈接地址