新發(fā)布的站點(diǎn)收錄方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種新發(fā)布的站點(diǎn)收錄方法和裝置。該方法包括:判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè);解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,所述其他站點(diǎn)信息與所述時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同;驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),如果是,則將所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。本發(fā)明實(shí)施例能夠及時(shí)、有效地收錄那些無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄的新站點(diǎn),避免了人工參與帶來的滯后性,提高時(shí)間效率,為后續(xù)使用新站點(diǎn)提供便利。
【專利說明】新發(fā)布的站點(diǎn)收錄方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用【技術(shù)領(lǐng)域】,特別是涉及一種新發(fā)布的站點(diǎn)收錄方法和裝置。
【背景技術(shù)】
[0002]在計(jì)算機(jī)領(lǐng)域,站點(diǎn)(site)是指物理上具有較好的線路連接的能實(shí)現(xiàn)較快通信速率的計(jì)算機(jī)的集合(一般是指一個(gè)局域網(wǎng)),站點(diǎn)之間一般是通過慢速連接來實(shí)現(xiàn)信息通信(一般是指廣域網(wǎng)),即站點(diǎn)是對(duì)網(wǎng)上計(jì)算機(jī)的實(shí)際的物理分布的一種客觀反映。
[0003]隨著互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,互聯(lián)網(wǎng)的更新速度極快,每天甚至數(shù)小時(shí)或數(shù)分鐘均可能存在著新站點(diǎn)的“誕生”,對(duì)于搜索引擎而言及時(shí)收錄新站點(diǎn)是一項(xiàng)基本的要求。相關(guān)技術(shù)中,新站點(diǎn)啟用時(shí)可以通過其他網(wǎng)頁(yè)的超鏈鏈接出來。然而,存在一部分站點(diǎn)只是通過新聞報(bào)道、發(fā)帖、發(fā)微博等方式提及新站點(diǎn)已啟用。如圖1所示的新聞報(bào)道,報(bào)道中提及的新站點(diǎn)cloud.#在上線時(shí)很長(zhǎng)時(shí)間內(nèi)無法找到包含其的超鏈關(guān)系,此時(shí)無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄該新站點(diǎn),需要通過手工的方式收錄,而人工參與具有滯后性。
[0004]因此,如何及時(shí)、有效地收錄那些無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄的新站點(diǎn),成為目前亟需解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的新發(fā)布的站點(diǎn)收錄方法和相應(yīng)的裝置。
[0006]依據(jù)本發(fā)明的一個(gè)方面,提供了一種新發(fā)布的站點(diǎn)收錄方法,包括:判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè);解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,所述其他站點(diǎn)信息與所述時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同;驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),如果是,則將所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
[0007]可選地,所述判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè),包括:根據(jù)所述網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)所述網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè)。
[0008]可選地,所述解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,包括:解析所述時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分;獲取所述頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,所述超鏈部分的站點(diǎn)信息。
[0009]可選地,所述解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容之后,獲取其中包含的其他站點(diǎn)信息之前,還包括:所述時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí),根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,所述網(wǎng)頁(yè)包含的有效內(nèi)容與所述網(wǎng)頁(yè)的質(zhì)量成正比;選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè);在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息。
[0010]可選地,所述時(shí)效性內(nèi)容包括下列至少之一:
[0011]標(biāo)題;
[0012]正文;
[0013]相關(guān)鏈接。
[0014]可選地,驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),包括:解析所述其他站點(diǎn)信息,得到域名信息;判斷所述域名信息是否之前已被收錄;若否,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn);若是,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn)。
[0015]可選地,驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),包括:解析所述其他站點(diǎn)信息,查找互聯(lián)網(wǎng)協(xié)議IP信息;若所述其他站點(diǎn)信息具有IP,且搜索引擎中未收錄過所述其他站點(diǎn)信息,則驗(yàn)證所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn)。
[0016]依據(jù)本發(fā)明的另一個(gè)方面,還提供了一種新發(fā)布的站點(diǎn)收錄裝置,包括:
[0017]判斷模塊,適于判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè);
[0018]獲取模塊,適于解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,所述其他站點(diǎn)信息與所述時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同;
[0019]驗(yàn)證模塊,適于驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn);
[0020]收錄模塊,適于如果驗(yàn)證模塊的驗(yàn)證結(jié)果為是,則將所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
[0021]可選地,所述判斷模塊還適于:根據(jù)所述網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)所述網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè)。
[0022]可選地,所述獲取模塊還適于:解析所述時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分;獲取所述頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,所述超鏈部分的站點(diǎn)信息。
[0023]可選地,所述獲取模塊還適于:所述時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí),根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,所述網(wǎng)頁(yè)包含的有效內(nèi)容與所述網(wǎng)頁(yè)的質(zhì)量成正比;選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè);在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息。
[0024]可選地,所述時(shí)效性內(nèi)容包括下列至少之一:
[0025]標(biāo)題;
[0026]正文;
[0027]相關(guān)鏈接。
[0028]可選地,所述驗(yàn)證模塊還適于:解析所述其他站點(diǎn)信息,得到域名信息;判斷所述域名信息是否之前已被收錄;若否,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn);若是,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn)。
[0029]可選地,所述驗(yàn)證模塊還適于:解析所述其他站點(diǎn)信息,查找互聯(lián)網(wǎng)協(xié)議IP信息;若所述其他站點(diǎn)信息具有IP,且搜索引擎中未收錄過所述其他站點(diǎn)信息,則驗(yàn)證所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn)。
[0030]依據(jù)本發(fā)明的技術(shù)方案,通過解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,并驗(yàn)證獲取的其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),若是,則將其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。由此可見,本發(fā)明實(shí)施例能夠解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,并驗(yàn)證獲取的其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),而無需人工發(fā)現(xiàn)時(shí)效性網(wǎng)頁(yè)中的其他站點(diǎn)信息,也無需人工判斷其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),從而解決了現(xiàn)有技術(shù)提及的:由于只是通過新聞報(bào)道、發(fā)帖、發(fā)微博等方式提及新站點(diǎn)已啟用,因而無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄該新站點(diǎn),需要通過手工的方式收錄,而人工參與具有滯后性這一問題。因此,本發(fā)明實(shí)施例能夠及時(shí)、有效地收錄那些無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄的新站點(diǎn),避免了人工參與帶來的滯后性,提高時(shí)間效率,為后續(xù)使用新站點(diǎn)提供便利。并且,對(duì)搜索引擎而言,大大提升了其收錄站點(diǎn)的全面性和時(shí)效性,起到搜索引擎優(yōu)化的作用。
[0031]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
[0032]根據(jù)下文結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例的詳細(xì)描述,本領(lǐng)域技術(shù)人員將會(huì)更加明了本發(fā)明的上述以及其他目的、優(yōu)點(diǎn)和特征。
【專利附圖】
【附圖說明】
[0033]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0034]圖1示出了通過新聞報(bào)道提及新站點(diǎn)已啟用的示意圖;
[0035]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的新發(fā)布的站點(diǎn)收錄方法的流程圖;
[0036]圖3示出了通過發(fā)微博方式提及新站點(diǎn)已啟用的示意圖;
[0037]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于查看域名的新發(fā)布的站點(diǎn)收錄方法的流程圖;
[0038]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于查找IP的新發(fā)布的站點(diǎn)收錄方法的流程圖;以及
[0039]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的新發(fā)布的站點(diǎn)收錄裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0040]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0041]為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種新發(fā)布的站點(diǎn)收錄方法,圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的新發(fā)布的站點(diǎn)收錄方法的流程圖。如圖2所示,該方法至少包括以下步驟S202至步驟S208。
[0042]步驟S202、判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè),若是,則繼續(xù)執(zhí)行步驟S204 ;否則,結(jié)束本次流程。
[0043]步驟S204、解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,其他站點(diǎn)信息與時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同。
[0044]步驟S206、驗(yàn)證其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),若是,則繼續(xù)執(zhí)行步驟S208 ;否則,結(jié)束本次流程。
[0045]步驟S208、將其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
[0046]依據(jù)本發(fā)明的技術(shù)方案,通過解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,并驗(yàn)證獲取的其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),若是,則將其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。由此可見,本發(fā)明實(shí)施例能夠解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,并驗(yàn)證獲取的其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),而無需人工發(fā)現(xiàn)時(shí)效性網(wǎng)頁(yè)中的其他站點(diǎn)信息,也無需人工判斷其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),從而解決了現(xiàn)有技術(shù)提及的:由于只是通過新聞報(bào)道、發(fā)帖、發(fā)微博等方式提及新站點(diǎn)已啟用,因而無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄該新站點(diǎn),需要通過手工的方式收錄,而人工參與具有滯后性這一問題。因此,本發(fā)明實(shí)施例能夠及時(shí)、有效地收錄那些無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄的新站點(diǎn),避免了人工參與帶來的滯后性,提高時(shí)間效率,為后續(xù)使用新站點(diǎn)提供便利。并且,對(duì)搜索引擎而言,大大提升了其收錄站點(diǎn)的全面性和時(shí)效性,起到搜索引擎優(yōu)化的作用。
[0047]上文步驟S202中提及的時(shí)效性網(wǎng)頁(yè)是指發(fā)布時(shí)間距當(dāng)前不超過指定時(shí)長(zhǎng),且搜索引擎未收錄過的網(wǎng)頁(yè)。進(jìn)一步地,步驟S202可以采用的技術(shù)手段為:根據(jù)網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè)。例如,當(dāng)前時(shí)間為上午9:00,可以將網(wǎng)頁(yè)發(fā)布時(shí)間為上午7:00至9:00的網(wǎng)頁(yè)確認(rèn)為時(shí)效性網(wǎng)頁(yè)。又例如,若網(wǎng)頁(yè)的前鏈網(wǎng)頁(yè)是由搜索引擎利用搜索關(guān)鍵詞搜索到的搜索結(jié)果所在的網(wǎng)頁(yè),即在搜索結(jié)果中鏈接到該網(wǎng)頁(yè),則認(rèn)為該網(wǎng)頁(yè)被搜索引擎收錄過,該網(wǎng)頁(yè)不為時(shí)效性網(wǎng)頁(yè);反之,該網(wǎng)頁(yè)為時(shí)效性網(wǎng)頁(yè)。
[0048]步驟S202判斷網(wǎng)頁(yè)為時(shí)效性網(wǎng)頁(yè)后,步驟S204進(jìn)一步解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,這里的時(shí)效性內(nèi)容可以是網(wǎng)頁(yè)時(shí)效性主體內(nèi)容,如正文、標(biāo)題、相關(guān)鏈接等。步驟S204可以采用的技術(shù)手段為:解析時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分,進(jìn)而獲取頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,超鏈部分的站點(diǎn)信息。例如,在圖1中,該網(wǎng)頁(yè)為時(shí)效性網(wǎng)頁(yè),則解析該網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分,此時(shí)獲取到頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,即“cloud.#”。又例如,圖3為通過發(fā)微博方式提及新站點(diǎn)已啟用的示意圖,該條微博所在的網(wǎng)頁(yè)為時(shí)效性網(wǎng)頁(yè),則解析該網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分,此時(shí)獲取到超鏈部分的站點(diǎn)信息,即“cloud.#”。當(dāng)然,本領(lǐng)域技術(shù)人員可以理解的是,本發(fā)明實(shí)施例中獲取的站點(diǎn)信息并不限于一條站點(diǎn)信息,可以根據(jù)實(shí)際的時(shí)效性內(nèi)容提取多條站點(diǎn)信息,均屬于本發(fā)明的保護(hù)范圍。
[0049]由于低質(zhì)量的垃圾時(shí)效性網(wǎng)頁(yè)提煉出來的站點(diǎn)的質(zhì)量往往較低,本發(fā)明實(shí)施例可以進(jìn)一步將低質(zhì)量的時(shí)效性網(wǎng)頁(yè)識(shí)別出來。即步驟S204可以采用的技術(shù)手段為:時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí),根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,網(wǎng)頁(yè)包含的有效內(nèi)容與網(wǎng)頁(yè)的質(zhì)量成正比,進(jìn)而選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè),隨后在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息。
[0050]在上文步驟S204獲取到其他站點(diǎn)信息后,步驟S206進(jìn)一步驗(yàn)證其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),可以通過查看域名或查找IP(Internet Protocol,互聯(lián)網(wǎng)協(xié)議)的方式來驗(yàn)證,下面將詳細(xì)說明這兩種方式。
[0051]方式一,通過查看域名的方式進(jìn)行驗(yàn)證。
[0052]在方式一中,可以通過解析其他站點(diǎn)信息,得到域名信息,進(jìn)而判斷該域名信息是否之前已被收錄,例如判斷該域名信息是否之前已被爬蟲收錄。若該域名信息之前未被收錄,則確認(rèn)其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn);反之,則確認(rèn)其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn),可能該站點(diǎn)曾經(jīng)被使用過,后成為無效或失效站點(diǎn),現(xiàn)又重新啟用。
[0053]方式二,通過查找IP的方式進(jìn)行驗(yàn)證。
[0054]在方式二中,可以通過解析其他站點(diǎn)信息,查找IP信息。若其他站點(diǎn)信息具有IP,且搜索引擎中未收錄過其他站點(diǎn)信息,則驗(yàn)證其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn)。若其他站點(diǎn)信息具有IP,且搜索引擎中已收錄過其他站點(diǎn)信息,則驗(yàn)證其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn),可能該站點(diǎn)曾經(jīng)被使用過,后成為無效或失效站點(diǎn),現(xiàn)又重新啟用。若其他站點(diǎn)信息不具有IP,則驗(yàn)證其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn)。
[0055]以上介紹了圖2所示的實(shí)施例中各環(huán)節(jié)的多種實(shí)現(xiàn)方式,下面通過具體的優(yōu)選實(shí)施例對(duì)本發(fā)明實(shí)施例提供的新發(fā)布的站點(diǎn)收錄方法做進(jìn)一步說明。
[0056]實(shí)施例一
[0057]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于查看域名的新發(fā)布的站點(diǎn)收錄方法的流程圖。如圖4所示,該方法包括以下步驟S402至步驟S412。
[0058]步驟S402、根據(jù)網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè),若是,則繼續(xù)執(zhí)行步驟S404 ;否則,結(jié)束本次流程。這里的時(shí)效性網(wǎng)頁(yè)是指發(fā)布時(shí)間距當(dāng)前不超過指定時(shí)長(zhǎng),且搜索引擎未收錄過的網(wǎng)頁(yè)。例如,當(dāng)前時(shí)間為上午9:00,可以將網(wǎng)頁(yè)發(fā)布時(shí)間為上午7:00至9:00的網(wǎng)頁(yè)確認(rèn)為時(shí)效性網(wǎng)頁(yè)。又例如,若網(wǎng)頁(yè)的前鏈網(wǎng)頁(yè)是由搜索引擎利用搜索關(guān)鍵詞搜索到的搜索結(jié)果所在的網(wǎng)頁(yè),即在搜索結(jié)果中鏈接到該網(wǎng)頁(yè),則認(rèn)為該網(wǎng)頁(yè)被搜索引擎收錄過,該網(wǎng)頁(yè)不為時(shí)效性網(wǎng)頁(yè);反之,該網(wǎng)頁(yè)為時(shí)效性網(wǎng)頁(yè)。
[0059]步驟S404、解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,其他站點(diǎn)信息與時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同。這里的時(shí)效性內(nèi)容可以是網(wǎng)頁(yè)時(shí)效性主體內(nèi)容,如正文、標(biāo)題、相關(guān)鏈接等。例如,解析時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分,進(jìn)而獲取頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,超鏈部分的站點(diǎn)信息。
[0060]進(jìn)一步地,若時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí),可以根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,網(wǎng)頁(yè)包含的有效內(nèi)容與網(wǎng)頁(yè)的質(zhì)量成正比,進(jìn)而選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè),隨后在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息,從而可以將低質(zhì)量的時(shí)效性網(wǎng)頁(yè)識(shí)別出來。
[0061]步驟S406、通過解析其他站點(diǎn)信息,得到域名信息。
[0062]步驟S408、判斷該域名信息是否之前已被收錄,若是,則繼續(xù)執(zhí)行步驟S410;否貝U,繼續(xù)執(zhí)行步驟S412。
[0063]步驟S410、確認(rèn)其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn),并結(jié)束本次流程。
[0064]步驟S412、確認(rèn)其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn),并將其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
[0065]實(shí)施例一中,能夠解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,并基于查看域名的方式驗(yàn)證其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),而無需人工發(fā)現(xiàn)時(shí)效性網(wǎng)頁(yè)中的其他站點(diǎn)信息,也無需人工判斷其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),實(shí)現(xiàn)及時(shí)、有效地收錄那些無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄的新站點(diǎn),避免了人工參與帶來的滯后性,提高時(shí)間效率,為后續(xù)使用新站點(diǎn)提供便利。
[0066]實(shí)施例二
[0067]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于查找IP的新發(fā)布的站點(diǎn)收錄方法的流程圖。如圖5所示,該方法包括以下步驟S502至步驟S514。
[0068]步驟S502、根據(jù)網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè),若是,則繼續(xù)執(zhí)行步驟S504 ;否則,結(jié)束本次流程。這里的時(shí)效性網(wǎng)頁(yè)是指發(fā)布時(shí)間距當(dāng)前不超過指定時(shí)長(zhǎng),且搜索引擎未收錄過的網(wǎng)頁(yè)。例如,當(dāng)前時(shí)間為上午9:00,可以將網(wǎng)頁(yè)發(fā)布時(shí)間為上午7:00至9:00的網(wǎng)頁(yè)確認(rèn)為時(shí)效性網(wǎng)頁(yè)。又例如,若網(wǎng)頁(yè)的前鏈網(wǎng)頁(yè)是由搜索引擎利用搜索關(guān)鍵詞搜索到的搜索結(jié)果所在的網(wǎng)頁(yè),即在搜索結(jié)果中鏈接到該網(wǎng)頁(yè),則認(rèn)為該網(wǎng)頁(yè)被搜索引擎收錄過,該網(wǎng)頁(yè)不為時(shí)效性網(wǎng)頁(yè);反之,該網(wǎng)頁(yè)為時(shí)效性網(wǎng)頁(yè)。
[0069]步驟S504、解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,其他站點(diǎn)信息與時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同。這里的時(shí)效性內(nèi)容可以是網(wǎng)頁(yè)時(shí)效性主體內(nèi)容,如正文、標(biāo)題、相關(guān)鏈接等。例如,解析時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分,進(jìn)而獲取頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,超鏈部分的站點(diǎn)信息。
[0070]進(jìn)一步地,若時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí),可以根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,網(wǎng)頁(yè)包含的有效內(nèi)容與網(wǎng)頁(yè)的質(zhì)量成正比,進(jìn)而選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè),隨后在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息,從而可以將低質(zhì)量的時(shí)效性網(wǎng)頁(yè)識(shí)別出來。
[0071]步驟S506、通過解析其他站點(diǎn)信息,查找IP信息。
[0072]步驟S508、判斷其他站點(diǎn)信息是否具有IP,若是,則繼續(xù)執(zhí)行步驟S510 ;否則,繼續(xù)執(zhí)行步驟S512。
[0073]步驟S510、判斷搜索引擎中是否收錄過其他站點(diǎn)信息,若是,則繼續(xù)執(zhí)行步驟S512 ;否則,繼續(xù)執(zhí)行步驟S514。
[0074]步驟S512、確認(rèn)其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn),并結(jié)束本次流程。
[0075]步驟S514、確認(rèn)其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn),并將其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
[0076]實(shí)施例二中,能夠解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,并基于查找IP的方式驗(yàn)證其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),而無需人工發(fā)現(xiàn)時(shí)效性網(wǎng)頁(yè)中的其他站點(diǎn)信息,也無需人工判斷其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),實(shí)現(xiàn)及時(shí)、有效地收錄那些無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄的新站點(diǎn),避免了人工參與帶來的滯后性,提高時(shí)間效率,為后續(xù)使用新站點(diǎn)提供便利。
[0077]需要說明的是,實(shí)際應(yīng)用中,上述所有可選實(shí)施方式可以采用結(jié)合的方式任意組合,形成本發(fā)明的可選實(shí)施例,在此不再一一贅述。
[0078]基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種新發(fā)布的站點(diǎn)收錄裝置,以實(shí)現(xiàn)上述新發(fā)布的站點(diǎn)收錄方法。
[0079]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的新發(fā)布的站點(diǎn)收錄裝置的結(jié)構(gòu)示意圖。參見圖6,該裝置至少包括:判斷模塊610、獲取模塊620、驗(yàn)證模塊630以及收錄模塊640。
[0080]現(xiàn)介紹本發(fā)明實(shí)施例的新發(fā)布的站點(diǎn)收錄裝置的各組成或器件的功能以及各部分間的連接關(guān)系:
[0081]判斷模塊610,適于判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè);
[0082]獲取模塊620,與判斷模塊610相耦合,適于解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,其他站點(diǎn)信息與時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同;
[0083]驗(yàn)證模塊630,與獲取模塊620相耦合,適于驗(yàn)證其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn);
[0084]收錄模塊640,與驗(yàn)證模塊630相耦合,適于如果驗(yàn)證模塊630的驗(yàn)證結(jié)果為是,則將其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
[0085]在一個(gè)實(shí)施例中,判斷模塊610還可以適于:根據(jù)網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè)。
[0086]在一個(gè)實(shí)施例中,獲取模塊620還可以適于:解析時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分;獲取頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,超鏈部分的站點(diǎn)信息。
[0087]在一個(gè)實(shí)施例中,獲取模塊620還可以適于:時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí),根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,網(wǎng)頁(yè)包含的有效內(nèi)容與網(wǎng)頁(yè)的質(zhì)量成正比;選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè);在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息。
[0088]在一個(gè)實(shí)施例中,時(shí)效性內(nèi)容包括下列至少之一:
[0089]標(biāo)題;
[0090]正文;
[0091]相關(guān)鏈接。
[0092]在一個(gè)實(shí)施例中,驗(yàn)證模塊630還可以適于:解析其他站點(diǎn)信息,得到域名信息;判斷域名信息是否之前已被收錄;若否,則確認(rèn)其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn);若是,則確認(rèn)其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn)。
[0093]在一個(gè)實(shí)施例中,驗(yàn)證模塊630還可以適于:解析其他站點(diǎn)信息,查找IP信息;若其他站點(diǎn)信息具有IP,且搜索引擎中未收錄過其他站點(diǎn)信息,則驗(yàn)證其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn)。
[0094]根據(jù)上述任意一個(gè)優(yōu)選實(shí)施例或多個(gè)優(yōu)選實(shí)施例的組合,本發(fā)明實(shí)施例能夠達(dá)到如下有益效果:
[0095]依據(jù)本發(fā)明的技術(shù)方案,通過解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,并驗(yàn)證獲取的其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),若是,則將其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。由此可見,本發(fā)明實(shí)施例能夠解析時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,并驗(yàn)證獲取的其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),而無需人工發(fā)現(xiàn)時(shí)效性網(wǎng)頁(yè)中的其他站點(diǎn)信息,也無需人工判斷其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)是否為新發(fā)布的站點(diǎn),從而解決了現(xiàn)有技術(shù)提及的:由于只是通過新聞報(bào)道、發(fā)帖、發(fā)微博等方式提及新站點(diǎn)已啟用,因而無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄該新站點(diǎn),需要通過手工的方式收錄,而人工參與具有滯后性這一問題。因此,本發(fā)明實(shí)施例能夠及時(shí)、有效地收錄那些無法通過傳統(tǒng)網(wǎng)頁(yè)超鏈方式來收錄的新站點(diǎn),避免了人工參與帶來的滯后性,提高時(shí)間效率,為后續(xù)使用新站點(diǎn)提供便利。并且,對(duì)搜索引擎而言,大大提升了其收錄站點(diǎn)的全面性和時(shí)效性,起到搜索引擎優(yōu)化的作用。
[0096]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0097]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0098]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0099]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0100]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的新發(fā)布的站點(diǎn)收錄裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0101]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0102]至此,本領(lǐng)域技術(shù)人員應(yīng)認(rèn)識(shí)到,雖然本文已詳盡示出和描述了本發(fā)明的多個(gè)示例性實(shí)施例,但是,在不脫離本發(fā)明精神和范圍的情況下,仍可根據(jù)本發(fā)明公開的內(nèi)容直接確定或推導(dǎo)出符合本發(fā)明原理的許多其他變型或修改。因此,本發(fā)明的范圍應(yīng)被理解和認(rèn)定為覆蓋了所有這些其他變型或修改。
[0103]本發(fā)明還提供Al、一種新發(fā)布的站點(diǎn)收錄方法,包括:
[0104]判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè);
[0105]解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,所述其他站點(diǎn)信息與所述時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同;
[0106]驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),如果是,則將所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
[0107]A2、根據(jù)Al所述的方法,其中,所述判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè),包括:
[0108]根據(jù)所述網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)所述網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè)。
[0109]A3、根據(jù)Al或A2所述的方法,其中,所述解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,包括:
[0110]解析所述時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分;
[0111]獲取所述頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,所述超鏈部分的站點(diǎn)信息。
[0112]A4、根據(jù)Al至A3任一項(xiàng)所述的方法,其中,所述解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容之后,獲取其中包含的其他站點(diǎn)信息之前,還包括:
[0113]所述時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí),
[0114]根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,所述網(wǎng)頁(yè)包含的有效內(nèi)容與所述網(wǎng)頁(yè)的質(zhì)量成正比;
[0115]選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè);
[0116]在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息。
[0117]A5、根據(jù)Al至A4任一項(xiàng)所述的方法,其中,所述時(shí)效性內(nèi)容包括下列至少之一:
[0118]標(biāo)題;
[0119]正文;
[0120]相關(guān)鏈接。
[0121]A6、根據(jù)Al至A5任一項(xiàng)所述的方法,其中,驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),包括:
[0122]解析所述其他站點(diǎn)信息,得到域名信息;
[0123]判斷所述域名信息是否之前已被收錄;
[0124]若否,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn);
[0125]若是,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn)。
[0126]A7、根據(jù)Al至A6任一項(xiàng)所述的方法,其中,驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),包括:
[0127]解析所述其他站點(diǎn)信息,查找互聯(lián)網(wǎng)協(xié)議IP信息;
[0128]若所述其他站點(diǎn)信息具有IP,且搜索引擎中未收錄過所述其他站點(diǎn)信息,則驗(yàn)證所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn)。
[0129]B8、一種新發(fā)布的站點(diǎn)收錄裝置,包括:
[0130]判斷模塊,適于判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè);
[0131]獲取模塊,適于解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,所述其他站點(diǎn)信息與所述時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同;
[0132]驗(yàn)證模塊,適于驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn);
[0133]收錄模塊,適于如果驗(yàn)證模塊的驗(yàn)證結(jié)果為是,則將所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
[0134]B9、根據(jù)B8所述的裝置,其中,所述判斷模塊還適于:
[0135]根據(jù)所述網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)所述網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè)。
[0136]B10、根據(jù)B8或B9所述的裝置,其中,所述獲取模塊還適于:
[0137]解析所述時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分;
[0138]獲取所述頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,所述超鏈部分的站點(diǎn)信息。
[0139]B11、根據(jù)B8至BlO任一項(xiàng)所述的裝置,其中,所述獲取模塊還適于:
[0140]所述時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí),
[0141]根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,所述網(wǎng)頁(yè)包含的有效內(nèi)容與所述網(wǎng)頁(yè)的質(zhì)量成正比;
[0142]選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè);
[0143]在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息。
[0144]B12、根據(jù)B8至Bll任一項(xiàng)所述的裝置,其中,所述時(shí)效性內(nèi)容包括下列至少之
[0145]標(biāo)題;
[0146]正文;
[0147]相關(guān)鏈接。
[0148]B13、根據(jù)B8至B12任一項(xiàng)所述的裝置,其中,所述驗(yàn)證模塊還適于:
[0149]解析所述其他站點(diǎn)信息,得到域名信息;
[0150]判斷所述域名信息是否之前已被收錄;
[0151]若否,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn);
[0152]若是,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn)。
[0153]B14、根據(jù)B8至B13任一項(xiàng)所述的裝置,其中,所述驗(yàn)證模塊還適于:
[0154]解析所述其他站點(diǎn)信息,查找互聯(lián)網(wǎng)協(xié)議IP信息;
[0155]若所述其他站點(diǎn)信息具有IP,且搜索引擎中未收錄過所述其他站點(diǎn)信息,則驗(yàn)證所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn)。
【權(quán)利要求】
1.一種新發(fā)布的站點(diǎn)收錄方法,包括: 判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè); 解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,所述其他站點(diǎn)信息與所述時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同; 驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),如果是,則將所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè),包括: 根據(jù)所述網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)所述網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè)。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,包括: 解析所述時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分; 獲取所述頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,所述超鏈部分的站點(diǎn)信息。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其中,所述解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容之后,獲取其中包含的其他站點(diǎn)信息之前,還包括: 所述時(shí)效性網(wǎng)頁(yè)的網(wǎng)頁(yè)為多個(gè)時(shí), 根據(jù)每個(gè)網(wǎng)頁(yè)的內(nèi)容確定每個(gè)網(wǎng)頁(yè)的質(zhì)量,其中,所述網(wǎng)頁(yè)包含的有效內(nèi)容與所述網(wǎng)頁(yè)的質(zhì)量成正比; 選擇質(zhì)量超過指定閾值的多個(gè)網(wǎng)頁(yè); 在選擇的多個(gè)網(wǎng)頁(yè)中獲取其中包含的其他站點(diǎn)信息。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其中,所述時(shí)效性內(nèi)容包括下列至少之一: 標(biāo)題; 正文; 相關(guān)鏈接。
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其中,驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),包括: 解析所述其他站點(diǎn)信息,得到域名信息; 判斷所述域名信息是否之前已被收錄; 若否,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn); 若是,則確認(rèn)所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)不為新發(fā)布的站點(diǎn)。
7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法,其中,驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn),包括: 解析所述其他站點(diǎn)信息,查找互聯(lián)網(wǎng)協(xié)議IP信息; 若所述其他站點(diǎn)信息具有IP,且搜索引擎中未收錄過所述其他站點(diǎn)信息,則驗(yàn)證所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)為新發(fā)布的站點(diǎn)。
8.一種新發(fā)布的站點(diǎn)收錄裝置,包括: 判斷模塊,適于判斷網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè); 獲取模塊,適于解析判斷為時(shí)效性網(wǎng)頁(yè)中的時(shí)效性內(nèi)容,獲取其中包含的其他站點(diǎn)信息,其中,所述其他站點(diǎn)信息與所述時(shí)效性網(wǎng)頁(yè)的站點(diǎn)信息不同; 驗(yàn)證模塊,適于驗(yàn)證所述其他站點(diǎn)信息是否對(duì)應(yīng)為新發(fā)布的站點(diǎn); 收錄模塊,適于如果驗(yàn)證模塊的驗(yàn)證結(jié)果為是,則將所述其他站點(diǎn)信息對(duì)應(yīng)的站點(diǎn)作為新發(fā)布的站點(diǎn)進(jìn)行收錄。
9.根據(jù)權(quán)利要求8所述的裝置,其中,所述判斷模塊還適于: 根據(jù)所述網(wǎng)頁(yè)的網(wǎng)頁(yè)發(fā)布時(shí)間和/或前鏈網(wǎng)頁(yè)信息確認(rèn)所述網(wǎng)頁(yè)是否為時(shí)效性網(wǎng)頁(yè)。
10.根據(jù)權(quán)利要求8或9所述的裝置,其中,所述獲取模塊還適于: 解析所述時(shí)效性網(wǎng)頁(yè)的頁(yè)面內(nèi)容部分和/或超鏈部分; 獲取所述頁(yè)面內(nèi)容部分中提及的站點(diǎn)信息,和/或,所述超鏈部分的站點(diǎn)信息。
【文檔編號(hào)】G06F17/30GK104199844SQ201410389303
【公開日】2014年12月10日 申請(qǐng)日期:2014年8月8日 優(yōu)先權(quán)日:2014年8月8日
【發(fā)明者】王智廣 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司