本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種獲取網(wǎng)頁(yè)更新時(shí)間的方法和裝置。
背景技術(shù):
在實(shí)際應(yīng)用中,網(wǎng)絡(luò)工作者常常需要統(tǒng)計(jì)網(wǎng)站每天的更新量,從而根據(jù)更新量來(lái)統(tǒng)計(jì)用戶在網(wǎng)站的投稿情況。
現(xiàn)有統(tǒng)計(jì)網(wǎng)站更新量的具體方法為:利用爬蟲技術(shù)爬取網(wǎng)站上的網(wǎng)頁(yè),將爬取某網(wǎng)頁(yè)時(shí)的爬取時(shí)間作為該網(wǎng)頁(yè)的更新時(shí)間,并通過更新時(shí)間來(lái)判斷該網(wǎng)頁(yè)是哪一天更新的網(wǎng)頁(yè),在獲知網(wǎng)站上每一個(gè)網(wǎng)頁(yè)的更新時(shí)間后,可通過更新時(shí)間統(tǒng)計(jì)出某一天內(nèi)網(wǎng)站上網(wǎng)頁(yè)的更新量。由此可知,統(tǒng)計(jì)網(wǎng)站更新量的關(guān)鍵在于獲知每個(gè)網(wǎng)頁(yè)的更新時(shí)間,但是,將爬取網(wǎng)頁(yè)時(shí)的爬取時(shí)間作為更新時(shí)間會(huì)存在不準(zhǔn)確的情況。例如,某網(wǎng)頁(yè)a發(fā)布到網(wǎng)上的時(shí)間(即網(wǎng)頁(yè)的創(chuàng)建時(shí)間)為2015年10月2日晚上11點(diǎn)30分,通過爬蟲技術(shù)爬取網(wǎng)頁(yè)時(shí),需要建立爬蟲隊(duì)列,并根據(jù)爬蟲隊(duì)列中的URL(Uniform Resource Locator,統(tǒng)一資源定位符)順序爬取各個(gè)URL對(duì)應(yīng)的網(wǎng)頁(yè),即需要將位于網(wǎng)頁(yè)a前面的網(wǎng)頁(yè)都爬取之后,才能爬取該網(wǎng)頁(yè)a。因此,當(dāng)位于網(wǎng)頁(yè)a前面的網(wǎng)頁(yè)的數(shù)量較多時(shí),需要在較長(zhǎng)時(shí)間后才能爬取到網(wǎng)頁(yè)a,從而可能出現(xiàn)在2015年10月3日才爬取到網(wǎng)頁(yè)a的現(xiàn)象。在這種情況下,若將爬取時(shí)間作為更新時(shí)間,則會(huì)將網(wǎng)頁(yè)a統(tǒng)計(jì)到2015年10月3日的更新量中,從而造成網(wǎng)站更新量統(tǒng)計(jì)不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述技術(shù)問題,本發(fā)明提出了一種獲取網(wǎng)頁(yè)更新時(shí)間的方法和裝置,能夠解決現(xiàn)有技術(shù)中在統(tǒng)計(jì)網(wǎng)站更新量時(shí),由于獲取的網(wǎng)頁(yè)更新時(shí)間不準(zhǔn)確,而造成網(wǎng)站更新量統(tǒng)計(jì)不準(zhǔn)確的問題。
一方面,本發(fā)明提供了一種獲取網(wǎng)頁(yè)更新時(shí)間的方法,所述方法包括:
獲取爬取的網(wǎng)頁(yè);
判斷所述網(wǎng)頁(yè)是否為內(nèi)容頁(yè),所述內(nèi)容頁(yè)為包含文章內(nèi)容的網(wǎng)頁(yè);
若所述網(wǎng)頁(yè)為內(nèi)容頁(yè),則從所述網(wǎng)頁(yè)的相關(guān)信息中提取目標(biāo)時(shí)間,所述網(wǎng)頁(yè)的相關(guān)信息包括網(wǎng)頁(yè)的頁(yè)面內(nèi)容和/或網(wǎng)頁(yè)的統(tǒng)一資源定位符URL;
將所述目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。
另一方面,本發(fā)明提供了一種獲取網(wǎng)頁(yè)更新時(shí)間的裝置,所述裝置包括:
獲取單元,用于獲取爬取的網(wǎng)頁(yè);
判斷單元,用于判斷所述獲取單元獲取的所述網(wǎng)頁(yè)是否為內(nèi)容頁(yè),所述內(nèi)容頁(yè)為包含文章內(nèi)容的網(wǎng)頁(yè);
提取單元,用于當(dāng)所述判斷單元判斷的結(jié)果為所述網(wǎng)頁(yè)為內(nèi)容頁(yè)時(shí),從所述網(wǎng)頁(yè)的相關(guān)信息中提取目標(biāo)時(shí)間,所述網(wǎng)頁(yè)的相關(guān)信息包括網(wǎng)頁(yè)的頁(yè)面內(nèi)容和/或網(wǎng)頁(yè)的統(tǒng)一資源定位符URL;
確定單元,用于將所述提取單元提取的所述目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。
借由上述技術(shù)方案,本發(fā)明提供的獲取網(wǎng)頁(yè)更新時(shí)間的方法和裝置,能夠在獲取爬取的網(wǎng)頁(yè)后,判斷該網(wǎng)頁(yè)是否為內(nèi)容頁(yè),當(dāng)該網(wǎng)頁(yè)為內(nèi)容頁(yè)時(shí),從該網(wǎng)頁(yè)的頁(yè)面內(nèi)容或者網(wǎng)頁(yè)的URL中提取目標(biāo)時(shí)間,并將提取的目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。由于頁(yè)面內(nèi)容以及URL中往往攜帶網(wǎng)頁(yè)創(chuàng)建時(shí)間,所以上述提取的目標(biāo)時(shí)間指的是網(wǎng)頁(yè)創(chuàng)建時(shí)間,網(wǎng)頁(yè)創(chuàng)建時(shí)間即為網(wǎng)頁(yè)被發(fā)布到網(wǎng)站上的時(shí)間。由此可知,將網(wǎng)頁(yè)創(chuàng)建時(shí)間作為網(wǎng)頁(yè)更新時(shí)間是準(zhǔn)確無(wú)誤的,從而將網(wǎng)頁(yè)創(chuàng)建時(shí)間作為網(wǎng)頁(yè)更新時(shí)間不會(huì)對(duì)后續(xù)統(tǒng)計(jì)網(wǎng)站更新量造成不準(zhǔn)確現(xiàn)象,進(jìn)而提高了統(tǒng)計(jì)網(wǎng)站更新量的準(zhǔn)確率。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符 號(hào)表示相同的部件。在附圖中:
圖1示出了本發(fā)明實(shí)施例提供的一種獲取網(wǎng)頁(yè)更新時(shí)間的方法的流程圖;
圖2示出了本發(fā)明實(shí)施例提供的一種獲取網(wǎng)頁(yè)更新時(shí)間的裝置的組成框圖;
圖3示出了本發(fā)明實(shí)施例提供的另一種獲取網(wǎng)頁(yè)更新時(shí)間的裝置的組成框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實(shí)施例提供了一種獲取網(wǎng)頁(yè)更新時(shí)間的方法,如圖1所示,該方法包括:
101、獲取爬取的網(wǎng)頁(yè)。
當(dāng)需要獲取網(wǎng)頁(yè)更新時(shí)間時(shí),可通過爬蟲技術(shù)爬取網(wǎng)站上的網(wǎng)頁(yè),再對(duì)爬取的網(wǎng)頁(yè)進(jìn)行分析,從中確定網(wǎng)頁(yè)更新時(shí)間。
在實(shí)際應(yīng)用中,可以先爬取網(wǎng)站上的所有網(wǎng)頁(yè),在爬取網(wǎng)站上的所有網(wǎng)頁(yè)之后,再分別對(duì)每一個(gè)網(wǎng)頁(yè)執(zhí)行如步驟101-104所述的操作;也可以每爬取一個(gè)網(wǎng)頁(yè),就對(duì)該網(wǎng)頁(yè)執(zhí)行如步驟101-104所述的操作,在執(zhí)行完后,再爬取下一個(gè)網(wǎng)頁(yè)。本發(fā)明實(shí)施例對(duì)執(zhí)行步驟101-104的時(shí)機(jī)不作限定。
102、判斷網(wǎng)頁(yè)是否為內(nèi)容頁(yè)。
其中,內(nèi)容頁(yè)為包含文章內(nèi)容的網(wǎng)頁(yè)。在實(shí)際應(yīng)用中,由于網(wǎng)站中真正更新的網(wǎng)頁(yè)是含有文章內(nèi)容的網(wǎng)頁(yè),而其他網(wǎng)頁(yè)僅僅通過文章的部分內(nèi)容引導(dǎo)用戶點(diǎn)擊進(jìn)入內(nèi)容頁(yè)(例如包含用于點(diǎn)擊進(jìn)入內(nèi)容頁(yè)的鏈接),所以其他網(wǎng)頁(yè)不包含網(wǎng)站實(shí)際更新的內(nèi)容。由此可知,在統(tǒng)計(jì)網(wǎng)站更新量時(shí),僅需要統(tǒng)計(jì)包含文章內(nèi)容的網(wǎng)頁(yè)的更新數(shù)量,而不需要統(tǒng)計(jì)不包含文章內(nèi)容的網(wǎng)頁(yè)的更新數(shù)量。因此,在獲得爬取的網(wǎng)頁(yè)后,需要先判斷該網(wǎng)頁(yè)是 否為內(nèi)容頁(yè);若該網(wǎng)頁(yè)為內(nèi)容頁(yè),則需要確定該網(wǎng)頁(yè)對(duì)應(yīng)的更新時(shí)間;若該網(wǎng)頁(yè)不是內(nèi)容頁(yè),則無(wú)需確定該網(wǎng)頁(yè)對(duì)應(yīng)的更新時(shí)間。
需要說(shuō)明的是,判斷某網(wǎng)頁(yè)是否為內(nèi)容頁(yè)的具體實(shí)現(xiàn)方法可以為:(1)先判斷該網(wǎng)頁(yè)對(duì)應(yīng)的URL是否包括文件名字段;若包含文件名字段,則該網(wǎng)頁(yè)為內(nèi)容頁(yè);若不包含文件名字段,則該網(wǎng)頁(yè)不是內(nèi)容頁(yè)。(2)先判斷該網(wǎng)頁(yè)的頁(yè)面內(nèi)容中是否包含預(yù)設(shè)字?jǐn)?shù)以上的段落;若包含,則該網(wǎng)頁(yè)為內(nèi)容頁(yè);若不包含,則該網(wǎng)頁(yè)不是內(nèi)容。
103、若網(wǎng)頁(yè)為內(nèi)容頁(yè),則從網(wǎng)頁(yè)的相關(guān)信息中提取目標(biāo)時(shí)間。
其中,網(wǎng)頁(yè)的相關(guān)信息包括網(wǎng)頁(yè)的頁(yè)面內(nèi)容和/或網(wǎng)頁(yè)的URL,目標(biāo)時(shí)間為網(wǎng)頁(yè)創(chuàng)建時(shí)間。在實(shí)際應(yīng)用中,網(wǎng)頁(yè)的頁(yè)面內(nèi)容或者網(wǎng)頁(yè)的URL常常包含網(wǎng)頁(yè)創(chuàng)建時(shí)間,因此可以從頁(yè)面內(nèi)容或者URL中提取網(wǎng)頁(yè)創(chuàng)建時(shí)間。
104、將目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。
在步驟103中提及,目標(biāo)時(shí)間為網(wǎng)頁(yè)創(chuàng)建時(shí)間,即網(wǎng)頁(yè)發(fā)布到網(wǎng)站上的時(shí)間,因此將目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間,不會(huì)對(duì)后續(xù)統(tǒng)計(jì)網(wǎng)站更新量造成不準(zhǔn)確的現(xiàn)象。
本發(fā)明實(shí)施例提供的獲取網(wǎng)頁(yè)更新時(shí)間的方法,能夠在獲取爬取的網(wǎng)頁(yè)后,判斷該網(wǎng)頁(yè)是否為內(nèi)容頁(yè),當(dāng)該網(wǎng)頁(yè)為內(nèi)容頁(yè)時(shí),從該網(wǎng)頁(yè)的頁(yè)面內(nèi)容或者網(wǎng)頁(yè)的URL中提取目標(biāo)時(shí)間,并將提取的目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。由于頁(yè)面內(nèi)容以及URL中往往攜帶網(wǎng)頁(yè)創(chuàng)建時(shí)間,所以上述提取的目標(biāo)時(shí)間指的是網(wǎng)頁(yè)創(chuàng)建時(shí)間,網(wǎng)頁(yè)創(chuàng)建時(shí)間即為網(wǎng)頁(yè)被發(fā)布到網(wǎng)站上的時(shí)間。由此可知,將網(wǎng)頁(yè)創(chuàng)建時(shí)間作為網(wǎng)頁(yè)更新時(shí)間是準(zhǔn)確無(wú)誤的,從而將網(wǎng)頁(yè)創(chuàng)建時(shí)間作為網(wǎng)頁(yè)更新時(shí)間不會(huì)對(duì)后續(xù)統(tǒng)計(jì)網(wǎng)站更新量造成不準(zhǔn)確現(xiàn)象,進(jìn)而提高了統(tǒng)計(jì)網(wǎng)站更新量的準(zhǔn)確率。
進(jìn)一步的,上述實(shí)施例中提及,可從網(wǎng)頁(yè)的頁(yè)面內(nèi)容或者網(wǎng)頁(yè)的URL中提取目標(biāo)時(shí)間,下面分別對(duì)這兩種提取目標(biāo)時(shí)間的方法進(jìn)行詳細(xì)介紹:
第一種方法:從網(wǎng)頁(yè)的頁(yè)面內(nèi)容中提取目標(biāo)時(shí)間
具體的,先獲取頁(yè)面內(nèi)容中的文章內(nèi)容,再?gòu)奈恼聝?nèi)容中提取開頭內(nèi)容或結(jié)尾內(nèi)容,最后從開頭內(nèi)容或結(jié)尾內(nèi)容中提取目標(biāo)時(shí)間。
其中,由于頁(yè)面內(nèi)容中除了包含文章內(nèi)容外,還可能包含相關(guān)鏈接、 廣告等內(nèi)容,所以需要先識(shí)別出文章內(nèi)容,才能進(jìn)行后續(xù)目標(biāo)時(shí)間提取操作。
示例性的,若某文章內(nèi)容的開頭內(nèi)容為
“如何合理飲食
某某飲食網(wǎng)站www.yinshi.com 2015-07-28 來(lái)源:某某健康網(wǎng)”,
則可從該開頭內(nèi)容中提取目標(biāo)時(shí)間 2015-07-28,并將2015-07-28確定為網(wǎng)頁(yè)更新時(shí)間。
需要說(shuō)明的是,由于開頭內(nèi)容或者結(jié)尾內(nèi)容中的時(shí)間往往與“來(lái)源:”字段相鄰且位于“來(lái)源:”字段的前面,所以在獲得開頭內(nèi)容或者結(jié)尾內(nèi)容后,可直接提取“來(lái)源:”字段前面的數(shù)字作為目標(biāo)時(shí)間。
第二種方法:從網(wǎng)頁(yè)的URL中提取目標(biāo)時(shí)間
具體的,根據(jù)正則表達(dá)式從網(wǎng)頁(yè)的URL中提取目標(biāo)時(shí)間。
其中,正則表達(dá)式為用于描述需要提取的目標(biāo)時(shí)間的格式,當(dāng)需要提取目標(biāo)時(shí)間時(shí),掃描URL中的內(nèi)容,將與正則表達(dá)式所描述的格式相同的內(nèi)容提取出來(lái),即為目標(biāo)時(shí)間。由于不同的網(wǎng)站所設(shè)置的URL中時(shí)間的格式會(huì)有所不同(例如有的時(shí)間為2015-01-02,有的時(shí)間為201501/02),所以正則表達(dá)式可能有多種。在實(shí)際應(yīng)用中,可將多種正則表達(dá)式存儲(chǔ)在本地,當(dāng)需要從URL中提取目標(biāo)時(shí)間時(shí),可分別將每一個(gè)正則表達(dá)式作為提取依據(jù)進(jìn)行提取,直至提取到目標(biāo)時(shí)間為止。
示例性的,若某網(wǎng)頁(yè)的URL為“http://www.yinshi.com/jiankang/2015-08-25/6051825-6264844.html”,則通過正則表達(dá)式可從中提取目標(biāo)時(shí)間2015-08-25。
與第二種方法相類似的,在第一種方法中,從開頭內(nèi)容或結(jié)尾內(nèi)容中提取目標(biāo)時(shí)間時(shí),也可根據(jù)第二種方法中提及的正則表達(dá)式從開頭內(nèi)容或結(jié)尾內(nèi)容中提取目標(biāo)時(shí)間。
進(jìn)一步的,在上述實(shí)施例中提及,可通過判斷網(wǎng)頁(yè)的URL中是否含有文件名字段來(lái)判斷該網(wǎng)頁(yè)是否為內(nèi)容頁(yè),即若URL中含有文件名字段,則確定該網(wǎng)頁(yè)為內(nèi)容頁(yè),若URL中沒有文件名字段,則確定該網(wǎng)頁(yè)不是內(nèi)容頁(yè)。
具體的,當(dāng)要對(duì)某網(wǎng)頁(yè)上的文章進(jìn)行展示時(shí),需要從數(shù)據(jù)庫(kù)中獲取對(duì)應(yīng)該文章的文件(常常以數(shù)字作為文件名),然后調(diào)取文件中的數(shù)據(jù)進(jìn)行展示。因此,在實(shí)際應(yīng)用中,每篇文章會(huì)對(duì)應(yīng)一個(gè)文件。由于URL表示了某網(wǎng)頁(yè)的路徑,所以當(dāng)需要調(diào)用某文章對(duì)應(yīng)的文件時(shí),URL中會(huì)攜帶該文件的文件名,從而可通過判斷URL中是否含有文件名字段來(lái)判斷該網(wǎng)頁(yè)是否為內(nèi)容頁(yè)。
進(jìn)一步的,在實(shí)際應(yīng)用中,當(dāng)需要調(diào)用網(wǎng)站主頁(yè)所對(duì)應(yīng)的文件時(shí),URL中也可能會(huì)包含文件名字段,而主頁(yè)一般包含各種鏈接,不包含文章內(nèi)容,此外,文章所對(duì)應(yīng)的文件名往往用數(shù)字命名。因此,為避免錯(cuò)將不是內(nèi)容頁(yè)的網(wǎng)頁(yè)確定為內(nèi)容頁(yè),可對(duì)上述方案做如下改進(jìn):判斷網(wǎng)頁(yè)的URL中是否含有用數(shù)字命名的文件名字段;若URL中含有用數(shù)字命名的文件名字段,則確定該網(wǎng)頁(yè)為內(nèi)容頁(yè);若URL中沒有用數(shù)字命名的文件名字段,則確定該網(wǎng)頁(yè)不是內(nèi)容頁(yè)。
進(jìn)一步的,在實(shí)際應(yīng)用中,并不是每一個(gè)內(nèi)容頁(yè)的頁(yè)面內(nèi)容中都含有目標(biāo)時(shí)間,也并不是每一個(gè)內(nèi)容頁(yè)的URL中都含有目標(biāo)時(shí)間,因此,當(dāng)頁(yè)面內(nèi)容和URL中均沒有目標(biāo)時(shí)間時(shí),可將爬取網(wǎng)頁(yè)時(shí)的爬取時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。對(duì)于一個(gè)網(wǎng)站而言,大部分內(nèi)容頁(yè)的頁(yè)面內(nèi)容或者URL中含有目標(biāo)時(shí)間,因此對(duì)于統(tǒng)計(jì)網(wǎng)站的更新量而言,將含有目標(biāo)時(shí)間的內(nèi)容頁(yè)中的目標(biāo)時(shí)間作為網(wǎng)頁(yè)更新時(shí)間,將沒有目標(biāo)時(shí)間的內(nèi)容頁(yè)對(duì)應(yīng)的爬取時(shí)間作為網(wǎng)頁(yè)更新時(shí)間,比將所有內(nèi)容頁(yè)對(duì)應(yīng)的爬取時(shí)間都作為網(wǎng)頁(yè)更新時(shí)間的準(zhǔn)確率高。
進(jìn)一步的,依據(jù)上述方法實(shí)施例,本發(fā)明的另一個(gè)實(shí)施例提供了一種獲取網(wǎng)頁(yè)更新時(shí)間的裝置,如圖2所示,該裝置包括:獲取單元21、判斷單元22、提取單元23和確定單元24。其中,
獲取單元21,用于獲取爬取的網(wǎng)頁(yè);
判斷單元22,用于判斷獲取單元21獲取的網(wǎng)頁(yè)是否為內(nèi)容頁(yè),內(nèi)容頁(yè)為包含文章內(nèi)容的網(wǎng)頁(yè);
提取單元23,用于當(dāng)判斷單元22判斷的結(jié)果為網(wǎng)頁(yè)為內(nèi)容頁(yè)時(shí),從網(wǎng)頁(yè)的相關(guān)信息中提取目標(biāo)時(shí)間,網(wǎng)頁(yè)的相關(guān)信息包括網(wǎng)頁(yè)的頁(yè)面內(nèi)容和/或 網(wǎng)頁(yè)的統(tǒng)一資源定位符URL;
確定單元24,用于將提取單元23提取的目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。
其中,目標(biāo)時(shí)間即為網(wǎng)頁(yè)創(chuàng)建時(shí)間,即網(wǎng)頁(yè)發(fā)布到網(wǎng)站上的時(shí)間,因此確定單元24將目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間,不會(huì)對(duì)后續(xù)統(tǒng)計(jì)網(wǎng)站更新量造成不準(zhǔn)確的現(xiàn)象。
本發(fā)明實(shí)施例提供的獲取網(wǎng)頁(yè)更新時(shí)間的裝置,能夠在獲取爬取的網(wǎng)頁(yè)后,判斷該網(wǎng)頁(yè)是否為內(nèi)容頁(yè),當(dāng)該網(wǎng)頁(yè)為內(nèi)容頁(yè)時(shí),從該網(wǎng)頁(yè)的頁(yè)面內(nèi)容或者網(wǎng)頁(yè)的URL中提取目標(biāo)時(shí)間,并將提取的目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。由于頁(yè)面內(nèi)容以及URL中往往攜帶網(wǎng)頁(yè)創(chuàng)建時(shí)間,所以上述提取的目標(biāo)時(shí)間指的是網(wǎng)頁(yè)創(chuàng)建時(shí)間,網(wǎng)頁(yè)創(chuàng)建時(shí)間即為網(wǎng)頁(yè)被發(fā)布到網(wǎng)站上的時(shí)間。由此可知,將網(wǎng)頁(yè)創(chuàng)建時(shí)間作為網(wǎng)頁(yè)更新時(shí)間是準(zhǔn)確無(wú)誤的,從而將網(wǎng)頁(yè)創(chuàng)建時(shí)間作為網(wǎng)頁(yè)更新時(shí)間不會(huì)對(duì)后續(xù)統(tǒng)計(jì)網(wǎng)站更新量造成不準(zhǔn)確現(xiàn)象,進(jìn)而提高了統(tǒng)計(jì)網(wǎng)站更新量的準(zhǔn)確率。
進(jìn)一步的,如圖3所示,提取單元23,包括:
獲取模塊231,用于獲取頁(yè)面內(nèi)容中的文章內(nèi)容;
第一提取模塊232,用于從獲取模塊231獲取的文章內(nèi)容中提取開頭內(nèi)容或結(jié)尾內(nèi)容;
第一提取模塊232,還用于從開頭內(nèi)容或結(jié)尾內(nèi)容中提取目標(biāo)時(shí)間。
進(jìn)一步的,如圖3所示,提取單元23,包括:
第二提取模塊233,用于根據(jù)正則表達(dá)式從網(wǎng)頁(yè)的URL中提取目標(biāo)時(shí)間。
進(jìn)一步的,如圖3所示,判斷單元22,包括:
判斷模塊221,用于判斷網(wǎng)頁(yè)的URL中是否含有文件名字段;
確定模塊222,用于當(dāng)判斷模塊221的判斷結(jié)果為URL中含有文件名字段時(shí),確定網(wǎng)頁(yè)為內(nèi)容頁(yè);當(dāng)判斷模塊221的判斷結(jié)果為URL中沒有文件名字段時(shí),確定網(wǎng)頁(yè)不是內(nèi)容頁(yè)。
進(jìn)一步的,在實(shí)際應(yīng)用中,并不是每一個(gè)內(nèi)容頁(yè)的頁(yè)面內(nèi)容中都含有目標(biāo)時(shí)間,也并不是每一個(gè)內(nèi)容頁(yè)的URL中都含有目標(biāo)時(shí)間,因此,確定 單元24,還用于當(dāng)網(wǎng)頁(yè)的相關(guān)信息中沒有目標(biāo)時(shí)間時(shí),將爬取網(wǎng)頁(yè)時(shí)的爬取時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。
該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。
所述獲取網(wǎng)頁(yè)更新時(shí)間的裝置包括處理器和存儲(chǔ)器,上述獲取單元、判斷單元、提取單元和確定單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來(lái)實(shí)現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過調(diào)整內(nèi)核參數(shù)來(lái)提高確定的網(wǎng)頁(yè)更新時(shí)間的準(zhǔn)確率。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。
本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:
獲取爬取的網(wǎng)頁(yè);
判斷網(wǎng)頁(yè)是否為內(nèi)容頁(yè),內(nèi)容頁(yè)為包含文章內(nèi)容的網(wǎng)頁(yè);
若網(wǎng)頁(yè)為內(nèi)容頁(yè),則從網(wǎng)頁(yè)的相關(guān)信息中提取目標(biāo)時(shí)間,網(wǎng)頁(yè)的相關(guān)信息包括網(wǎng)頁(yè)的頁(yè)面內(nèi)容和/或網(wǎng)頁(yè)的統(tǒng)一資源定位符URL;
將目標(biāo)時(shí)間確定為網(wǎng)頁(yè)更新時(shí)間。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流 程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀 介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。