專利名稱:網(wǎng)絡搜索方法和設備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù),尤其涉及使用爬蟲的網(wǎng)絡搜索方法和設備。
背景技術(shù):
隨著計算機和互聯(lián)網(wǎng)技術(shù)的發(fā)展,搜索引擎已經(jīng)成為Web客戶機(例如計算機) 使用者獲取信息的重要方式。如圖5所示,傳統(tǒng)的搜索引擎540包括索引服務器541、索引 數(shù)據(jù)庫542和檢索器543。搜索引擎還使用搜索器520 (WEB爬蟲或稱為蜘蛛、機器人程序) 定期地訪問通過URL定位的資源內(nèi)容站點510,提取出其中的文本信息和其它相關(guān)網(wǎng)頁屬 性,并儲存該信息以使得索引服務器541可以處理檢索到的數(shù)據(jù)。所述索引服務器解析這 些文檔并通過應用索引算法創(chuàng)建文檔索引,將其存儲在索引數(shù)據(jù)庫542中,以供用戶通過 檢索器543進行檢索。 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,已經(jīng)出現(xiàn)了尤其是論壇(BBS),博客(BLOG),社區(qū)(SNS), 新聞(NEWS)等主題頁面。針對這些主題頁面的信息,目前一般都是采用傳統(tǒng)的爬蟲進行頁 面的抓取。 傳統(tǒng)的WEB爬蟲采用深度優(yōu)先或者廣度優(yōu)先遍歷網(wǎng)頁進行抓取。廣度優(yōu)先指爬蟲 會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁繼續(xù)抓取在此網(wǎng)頁 中鏈接的所有網(wǎng)頁。深度優(yōu)先是指爬蟲會從起始頁開始逐個鏈接地爬行搜索。
實際上,由于網(wǎng)上的頁面量極其龐大,并且并不是所有的信息都是那么重要的, 因此有些爬蟲對不太重要的網(wǎng)站設置了訪問的層數(shù),從而使得只抓取部分的網(wǎng)頁(參見 US6269370)。這樣例如要抓取盡可能多的論壇頁面時卻不能很好的達到目的。而且,無論 是通過深度優(yōu)先還是通過廣度優(yōu)先的方法去獲取網(wǎng)頁的URL,都會有大量的沒有用的URL 需要去判斷和檢驗。
發(fā)明內(nèi)容
本發(fā)明提供一種搜索方法和設備互聯(lián)網(wǎng)主題頁面的URL的獲取方法,用以解決現(xiàn)
有技術(shù)在處理例如論壇這樣的網(wǎng)站時出現(xiàn)的低效率或采集不全面的問題。 根據(jù)本發(fā)明的一個方面,一種網(wǎng)絡搜索方法包括以下步驟 獲得用于預定網(wǎng)站資源的統(tǒng)一資源定位符URL的變化規(guī)則,所述變化規(guī)則定義了 所述預定網(wǎng)站資源的URL邏輯結(jié)構(gòu)中的固定參數(shù)和可變參數(shù)、以及可變參數(shù)的變化規(guī)律;
使用所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取URL ;以及
通過請求所述獲取的URL進行搜索。 優(yōu)選地,根據(jù)通過搜索所獲得的響應信息驗證所述獲取的URL是否有效。如果所 述獲取的URL經(jīng)驗證有效則保存所述URL的歷史記錄,所述獲取URL的步驟包括基于上 次保存的URL歷史記錄,按照所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取下一個新的URL。 或者可以僅在所述獲取的URL未被成功驗證的情況下,保存該未被成功驗證的URL或者上 次剛經(jīng)過驗證有效的URL,在這種情況下所述獲取URL的步驟包括從上次保存的未被成功
4驗證的URL開始,按照所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取準備用于搜索和驗證的 URL ;或者基于上次保存的剛經(jīng)過驗證有效的URL,按照所述用于預定網(wǎng)站資源URL的變化 規(guī)則獲取下一個新的URL。 以上的所述可變參數(shù)按照數(shù)字等差數(shù)列、等比數(shù)列、字母序列、日期字符串序列或 枚舉類型序列中的一種變化。在URL的邏輯結(jié)構(gòu)中可變參數(shù)可是也1個,也可以是多個;在 多個可變參數(shù)的情況下,可變參數(shù)的變化規(guī)律包括每個可變參數(shù)的變化規(guī)律以及各個可變 參數(shù)之間有關(guān)優(yōu)先變化順序的變化優(yōu)先級關(guān)系。 在多個可變參數(shù)的情況下,所述獲取URL的步驟包括在按照變化優(yōu)先級從高到 低的順序每次改變一個較高優(yōu)先級的可變參數(shù)進行循環(huán)的情況下通過僅允許最低變化優(yōu) 先級的可變參數(shù)變化來獲取所述URL,其中同時變化的可變參數(shù)屬于同一個變化優(yōu)先級。
進一步,在通過請求所述獲取的URL進行搜索的步驟后對所述獲取的URL進行驗 證,如果所述獲取的URL經(jīng)驗證有效則保存所述URL的歷史記錄, 在針對所述一個較高優(yōu)先級的循環(huán)中獲取URL的步驟包括根據(jù)上次保存的URL 歷史記錄判斷新獲取的URL是否已被驗證過,如果新獲取的URL已被成功驗證過則通過僅 允許所述最低變化優(yōu)先級的可變參數(shù)變化來獲取下一個新的URL ;如果新獲取的URL未被 成功驗證則從新獲取的URL開始進行搜索和驗證,以通過僅允許所述最低變化優(yōu)先級的可 變參數(shù)變化來獲取下一個新的URL。 可替代地,在通過請求所述獲取的URL進行搜索后對所述獲取的URL進行驗證,如 果所述獲取的URL未被成功驗證,則保存經(jīng)過驗證有效的URL或?qū)⒃撐幢怀晒︱炞C的URL 保存在下一步搜索的URL隊列中。 根據(jù)本發(fā)明的另一個方面,一種網(wǎng)絡搜索設備包括 獲得裝置,被配置成獲得用于預定網(wǎng)站資源的統(tǒng)一資源定位符URL的變化規(guī)則, 所述變化規(guī)則定義了所述預定網(wǎng)站資源的URL邏輯結(jié)構(gòu)中的固定參數(shù)和可變參數(shù)、以及可 變參數(shù)的變化規(guī)律; URL生成裝置,被配置成使用所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取URL ;以 及 搜索裝置,被配置成通過請求所述獲取的URL進行搜索。 優(yōu)選地,所述網(wǎng)絡搜索設備還包括驗證裝置,被配置成根據(jù)通過搜索所獲得的響 應信息驗證所述獲取的URL是否有效;以及存儲器,被配置成保存URL的驗證結(jié)果,
所述URL生成裝置進一步被配置成基于上次保存的URL驗證結(jié)果按照所述用于預 定網(wǎng)站資源URL的變化規(guī)則獲取待搜索的URL。
本發(fā)明的有益效果如下 (1)本發(fā)明通過利用網(wǎng)頁URL的編寫規(guī)律,來自動生成當前所爬取的網(wǎng)頁URL所對 應的下一個URL地址,從而可以通過循環(huán)控制,不斷地抓取網(wǎng)站的更多頁面,包括那些在不 斷增加或者更新的頁面。由于是按照該網(wǎng)站的URL規(guī)律進行生成,因此其可靠性高于從該 網(wǎng)站的某個網(wǎng)頁中分析所鏈接的各個URL來逐個嘗試的結(jié)果; (2)本發(fā)明不受廣度優(yōu)先遍歷或者深度優(yōu)先遍歷的層數(shù)限制,因此能夠更全面的 覆蓋整個網(wǎng)站,得到更多的即時信息; (3)凡是存在類似的URL規(guī)律的網(wǎng)站,都可以通過本發(fā)明來改變其相應模板的各個部分,從而進行頁面的爬取。
結(jié)合附圖,通過參考下列詳細的示例性實施例的描述,將會更好地理解本發(fā)明本
身、優(yōu)選的實施方式以及本發(fā)明的目標和優(yōu)點。
圖1示出本發(fā)明可被實現(xiàn)的分布式數(shù)據(jù)處理系統(tǒng)。
圖2示出了根據(jù)本發(fā)明的網(wǎng)絡搜索方法的流程圖。 圖3示出了針對包括兩個可變參數(shù)的URL的網(wǎng)絡搜索方法流程圖。 圖4示出了根據(jù)本發(fā)明的網(wǎng)絡搜索設備的框圖。 圖5示出了常規(guī)的搜索引擎的框圖。
具體實施方式
系統(tǒng)體系 現(xiàn)在參考附圖,特別是圖l,描述了可實現(xiàn)本發(fā)明的分布式數(shù)據(jù)處理系統(tǒng)的框圖。 分布式數(shù)據(jù)處理系統(tǒng)100是可實現(xiàn)本發(fā)明的計算機網(wǎng)絡。分布式數(shù)據(jù)處理系統(tǒng)100包含網(wǎng) 絡102,網(wǎng)絡102是用于在不同的設備和分布式數(shù)據(jù)處理系統(tǒng)100內(nèi)連接到一起的計算機之 間提供通信鏈接的媒介。 在所描述的例子中,服務器104與存儲器106—起連接到網(wǎng)絡102。此外,例如工 作站、個人計算機、手機、PDA等的客戶端108、 110和112也被連接到網(wǎng)絡102。在所描述的 例子中,服務器104向客戶端108、110和112提供如引導文件的數(shù)據(jù)、操作系統(tǒng)以及應用程 序。分布式數(shù)據(jù)處理系統(tǒng)100可包括另外的服務器、客戶端以及其它未顯示的設備。在所 描述的例子中,分布式數(shù)據(jù)處理系統(tǒng)100是因特網(wǎng),網(wǎng)絡102表示對使用TCP/IP協(xié)議套件 來彼此通信的網(wǎng)絡以及網(wǎng)關(guān)的集合。當然,分布式數(shù)據(jù)處理系統(tǒng)100還可被實現(xiàn)為不同類 型的網(wǎng)絡。 企圖將圖1作為例子,而不是作為本發(fā)明所述過程的結(jié)構(gòu)限制。在不偏離本發(fā)明 精神和范圍的條件下,可對圖l所示系統(tǒng)作出許多更改。 本發(fā)明可實現(xiàn)為如圖1所示的服務器104的數(shù)據(jù)處理系統(tǒng)。該數(shù)據(jù)處理系統(tǒng)可以 是包括連接到系統(tǒng)總線的多個處理器的對稱對處理器(SMP)系統(tǒng)。亦可使用單處理器系 統(tǒng)。本發(fā)明還可實現(xiàn)為圖1中客戶端計算機的數(shù)據(jù)處理系統(tǒng)。
優(yōu)選實施例 圖2示出了根據(jù)本發(fā)明的網(wǎng)絡搜索方法的流程圖。本領(lǐng)域普通技術(shù)人員熟知網(wǎng)絡 爬蟲通過采集URL實現(xiàn)搜索,URL的結(jié)構(gòu)通常由協(xié)議名稱〃主機名稱[:端口地址/存放 目錄/文件名稱]所組成,本發(fā)明主要針對URL邏輯結(jié)構(gòu)有規(guī)律地變化的預定網(wǎng)站資源,如 BBS網(wǎng)頁。
本發(fā)明的網(wǎng)絡搜索方法包括以下步驟 獲得用于預定網(wǎng)站資源的統(tǒng)一資源定位符URL的變化規(guī)則(步驟S201),所述變化 規(guī)則由設計人員事先經(jīng)過觀察研究預定網(wǎng)站的主題資源的URL變化來發(fā)現(xiàn)其URL邏輯結(jié)構(gòu) 中的固定參數(shù)和可變參數(shù)、以及可變參數(shù)的變化規(guī)律并由此設計獲得的;
使用所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取URL (步驟S202);
通過請求所述獲取的URL進行搜索(步驟S203); 獲取URL的步驟(步驟S202)可以是在搜索前獲取包括可能變化的全部URL的URL 列表,逐個進行采集;也可以在嘗試搜索完一個URL后再按照變化規(guī)則產(chǎn)生下一個新URL進 行搜索。 優(yōu)選地,為避免重復搜索可以對URL進行驗證并保存URL的驗證結(jié)果。例如可根 據(jù)通過搜索所獲得的響應信息(如響應信息的大小等)驗證所述獲取的URL是否有效(步 驟S204);保存URL的驗證結(jié)果,在此可選地是如果所述獲取的URL經(jīng)驗證有效則保存所述 URL的歷史記錄(步驟S205),則再基于上次保存的URL歷史記錄,按照所述用于預定網(wǎng)站 資源URL的變化規(guī)則獲取的下一個新的URL(步驟S202),不斷循環(huán)地進行搜索。
作為步驟S205的替代,可僅在所述獲取的URL未被成功驗證的情況下,將該未被 成功驗證的URL保存在URL隊列中或者僅保存上次剛經(jīng)過驗證有效的URL。在按照搜索器 的預定義空閑機制觸發(fā)本發(fā)明方法的下次循環(huán)的情況下,則可從上次保存的未被成功驗證 的URL開始,按照所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取準備用于搜索和驗證的URL ; 或者基于上次保存的剛經(jīng)過驗證有效的URL,按照所述用于預定網(wǎng)站資源URL的變化規(guī)則 獲取下一個新的URL。 所述可變參數(shù)可以是按照數(shù)字等差數(shù)列、等比數(shù)列、字母序列、日期字符串序列或 枚舉類型序列等等各種序列變化的。在可變參數(shù)為多個的情況下,所述可變參數(shù)的變化規(guī) 律不僅應包括每個可變參數(shù)的變化規(guī)律,而且還包括各個可變參數(shù)之間有關(guān)優(yōu)先變化順序 的變化優(yōu)先級關(guān)系。 以下以URL邏輯結(jié)構(gòu)包括兩個可變參數(shù)為例進行詳細說明。 不失一般性,假設要抓取的網(wǎng)站為BBS,且在網(wǎng)站的URL中,對應包含有對應的主 題文章的主題號碼(第一變化優(yōu)先級TopicID),以及該文章在網(wǎng)頁上顯示時的頁碼(第二 變化優(yōu)先級PageID),例如:http:〃www. xxx. com/12345_l. htm。其中12345表示TopicID, l表示PageID,即該URL對應的是來自網(wǎng)站www. xxx. com的編號為12345的主題的第1頁信 息。此處,假設TopicID和PageID均以等差數(shù)列變化,而且TopicID的變化優(yōu)先級比PageID 要高,即當改變TopicID的時候,默認PageID為第一頁,如果對應的URL沒有實際的網(wǎng)頁存 在,那么就肯定不會有第二頁對應的網(wǎng)頁存在了。 圖3示出了針對包括兩個可變參數(shù)的URL的網(wǎng)絡搜索方法流程圖
(步驟S301)從數(shù)據(jù)庫中獲得定義了上述網(wǎng)站URL邏輯結(jié)構(gòu)中的固定參數(shù)和可 變參數(shù)、以及可變參數(shù)的變化規(guī)律的變化規(guī)則,例如網(wǎng)站資源URL結(jié)構(gòu)(htW/W xxx. com/TopicID PageID. htm)以及兩個可變參數(shù)(TopicID、 PageID)從何值開始如何變化。
在步驟S302生成主ID序列(在此為第一變化優(yōu)先級TopicID),按照TopicID的 變化規(guī)律,生成本次將要進行抓取的URL中相應的TopicID的值;同時或隨后在步驟S303 生成次ID序列(在此為第二變化優(yōu)先級PageID),按照PageID的變化規(guī)律,生成本次將要 進行抓取的URL中相應的Page ID的值,如果是新生成了一個TopicID,將用從數(shù)據(jù)庫獲取的 PageID初始值對其賦值(即第一頁的序號),如果存儲器中保存了上次循環(huán)已通過使用第 一頁的序號生成的URL抓取到了有效的頁面,那么將按照PageID的變化規(guī)律,生成后續(xù)值 (即第二、第三等后續(xù)頁面的序號),由此得到一個URL(步驟S304)。顯然步驟S302-S304 構(gòu)成了使用URL變化規(guī)則獲取URL的步驟。[OO53](步驟S305)通過http協(xié)議(或者ftp協(xié)議)等從互聯(lián)網(wǎng)上請求所獲取URL對應 的頁面,并把頁面下載下來。如果沒有實際頁面的話,可能會收到相應的一些錯誤信息。
(步驟S306)驗證頁面是否有效。如果該URL經(jīng)驗證是有效的,即有實際的網(wǎng)頁 存在,則通過保持TopicID不變同時修改PageID,得到新的待搜索的URL進行搜索;如果該 URL未被成功驗證,則可以在改變TopicID的值(例如按其變化規(guī)律從12345變?yōu)?2346)的 情況下僅允許PageID變化生成新的URL,并對其進行嘗試爬取(即重復步驟S302至306)。 若針對新TopicID (12346)的循環(huán)從未有經(jīng)驗證有效的URL,則PageID從其初始默認值(第 一頁的序號)開始變化;若針對新TopicID (12346)的循環(huán)已有過經(jīng)驗證有效的URL(在此 例如存儲器中保存了第2頁已經(jīng)驗證有效或者上次第3頁未被成功驗證的信息),則獲取新 URL (http: 〃www. xxx. com/12346_3. htm)進行搜索。 優(yōu)選地,為避免重復搜索通常是要驗證URL并保存驗證結(jié)果。然而考慮到在搜索 設備(爬蟲)搜索后對下載的網(wǎng)頁進行解析并建立索引,因此本發(fā)明的方法可以省略以上 驗證URL并保存驗證結(jié)果的步驟,而直接從搜索引擎?zhèn)全@得有關(guān)URL驗證結(jié)果的信息,并利 用該信息判斷是否繼續(xù)進行本次TopicID的循環(huán),或者進行下一個TopicID的循環(huán)。
以上在對步驟S306的說明中,如果在上一次TopicID循環(huán)中所獲取的URL未被 成功驗證,則保存剛經(jīng)過驗證有效的URL或?qū)⒃撐幢怀晒︱炞C的URL保存在下一步搜索的 URL隊列中。然而也可以每次搜索和驗證后都保存經(jīng)驗證有效的URL,這樣獲取新URL的步 驟就包括根據(jù)上次保存的URL歷史記錄判斷新獲取的URL是否已被驗證過,如果新獲取的 URL已被成功驗證過則通過僅允許所述最低變化優(yōu)先級的可變參數(shù)(在此即PageID)變化 來獲取下一個新的URL ;如果新獲取的URL未被成功驗證則從新獲取的URL開始、通過僅允 許PageID變化來獲取下一個新的URL以進行搜索和驗證。 以上從改變TopicID開始逐個改變PageID進行URL請求的過程可以重復循環(huán)進 行,以完成本發(fā)明的網(wǎng)絡搜索方法。在本發(fā)明中同樣可應用空閑機制進行延時處理,以控制 對網(wǎng)站的訪問頻率,減輕訪問壓力。例如在對TopicID進行多次變化之后都得不到實際有 效的URL或者直接利用定時延時處理的情況下,在準備改變TopicID之前或者更具體地在 保存URL的驗證結(jié)果之后應用空閑機制進行延時處理,例如在圖3中在步驟S306到S302 之間插入的步驟S307 (判斷是否停止本輪嘗試)和S308 (進行空閑處理)。
在延時處理之后開始的根據(jù)URL獲取URL的步驟可以是從最近一次的一個有效 URL所對應的TopicID開始按照相應的變化規(guī)律來重新生成序列;優(yōu)選地通過將未被成功 驗證的URL保存在URL隊列中來重新開始新一輪的爬取嘗試。這樣通過利用空閑機制,可 以更有效地不間斷地自動爬取網(wǎng)站的頁面,以便及時爬取到新生成的頁面。
變型實施例 (1)雖然本實例只針對一個網(wǎng)站說明了相應的流程,但是實際上可以針對多個網(wǎng) 站使用本發(fā)明生成待搜索URL的方法進行處理,只需增加對多個網(wǎng)站分別爬取的輪換機制 即可。 (2)雖然對于例如BBS這樣的網(wǎng)站,大部分URL都只包含TopicID和PageID兩個 可變參數(shù),但是還有一些包含有3個甚至更多個可變參數(shù)。在使用本發(fā)明時,變化的策略是 類似的,只需增加幾個不同的優(yōu)先變化級的循環(huán)(同PageID的處理)即可(例如在圖3所 示的流程圖中中的生成第二變化優(yōu)先級PagelD的步驟S303處增加生成下一 (第三變化優(yōu)先級的循環(huán)處理))。
例如預定網(wǎng)站資源的URL的邏輯結(jié)構(gòu)由如下等式表示 S(URL) = Sa(l)+Sb(l)+Sa(2)+Sb(2)+. Sa(i)+Sb(i).+Sb(n_l)+Sa(n)+Sb( n) 其中,"+ "表示字符串的連接;字符串Sa(i)表示第i個固定參數(shù),也可以是空字 符串;字符串Sb(i)表示第i個可變參數(shù)。 在按照變化優(yōu)先級從高到低的順序(假設從Sb(l)至Sb(n-l))每次改變一個 較高優(yōu)先級的可變參數(shù)Sb(i)進行循環(huán)的情況下通過僅允許最低變化優(yōu)先級的可變參數(shù) (Sb(n))變化來獲取所述URL。其中各個可變參數(shù)的變化可能不一致并且有先后順序,按照 各個可變參數(shù)的變化先后順序在變化規(guī)則中設定可變參數(shù)的變化優(yōu)先級。在此如果有兩個 或兩個以上的可變參數(shù)按照變化規(guī)則要同時變化,則該需要同時編號的可變參數(shù)屬于同一 個變化優(yōu)先級。 (3)對于常見的變化策略一般是整數(shù)值的變化,例如TopicID—般是整數(shù)自動加1 的變化,而Page ID是一個等差數(shù)列,例如1, 2, 3,. . . , 0, 10, 20,...,等。除此之外,任一可變 參數(shù)均可能存在其他的變化,例如用有限個英文單詞所組成的序列([life, love, family, finance]),也可以是時間(例如20081001, 20081002, 20081003, )、其它類型的數(shù)字等 差數(shù)列、等比數(shù)列、字母序列、日期字符串序列或枚舉類型序列等等。 (4)本發(fā)明的策略不只適用于BBS等類型的網(wǎng)站,凡是在URL中存在有規(guī)律的可變 參數(shù)時,都可以使用,例如諸如其它使用自動增加號碼以標記各個頁面的網(wǎng)站資源、具有類 似URL格式的圖像文件(http:〃site/#Image-ID#. jpg)等等。
網(wǎng)絡搜索設備 圖4示出了根據(jù)本發(fā)明的網(wǎng)絡搜索設備的框圖。
根據(jù)本發(fā)明的網(wǎng)絡搜索設備,包括 獲得裝置401,被配置成獲得用于預定網(wǎng)站資源的統(tǒng)一資源定位符URL的變化規(guī) 則; URL生成裝置402,被配置成使用所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取URL; 以及 搜索裝置403,被配置成通過請求所述獲取的URL進行搜索。 驗證裝置404,被配置成根據(jù)通過搜索所獲得的響應信息驗證所述獲取的URL是 否有效;以及 存儲器405,被配置成保存URL的驗證結(jié)果, 所述URL生成裝置402進一步被配置成基于上次保存的URL驗證結(jié)果按照所述用 于預定網(wǎng)站資源URL的變化規(guī)則獲取待搜索的URL。 以上描述了本發(fā)明的優(yōu)選實施方式。本領(lǐng)域的普通技術(shù)人員知道,本發(fā)明的保護 范圍不限于這里所公開的具體細節(jié),而可以具有在本發(fā)明的精神實質(zhì)范圍內(nèi)的各種變化和 等效方案。
9
權(quán)利要求
一種網(wǎng)絡搜索方法,包括以下步驟獲得用于預定網(wǎng)站資源的統(tǒng)一資源定位符URL的變化規(guī)則,所述變化規(guī)則定義了所述預定網(wǎng)站資源的URL邏輯結(jié)構(gòu)中的固定參數(shù)和可變參數(shù)、以及可變參數(shù)的變化規(guī)律;使用所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取URL;以及通過請求所述獲取的URL進行搜索。
2. 根據(jù)權(quán)利要求1所述的網(wǎng)絡搜索方法,其中還包括根據(jù)通過搜索所獲得的響應信 息驗證所述獲取的URL是否有效。
3. 根據(jù)權(quán)利要求2所述的網(wǎng)絡搜索方法,其中,如果所述獲取的URL經(jīng)驗證有效則保存 所述URL的歷史記錄,所述獲取URL的步驟包括基于上次保存的URL歷史記錄,按照所述用于預定網(wǎng)站資源 URL的變化規(guī)則獲取下一個新的URL。
4. 根據(jù)權(quán)利要求2所述的網(wǎng)絡搜索方法,其中,僅在所述獲取的URL未被成功驗證的情 況下,保存該未被成功驗證的URL或者剛經(jīng)過驗證有效的上一個URL,所述獲取URL的步驟包括從上次保存的未被成功驗證的URL開始,按照所述用于預定 網(wǎng)站資源URL的變化規(guī)則獲取準備用于搜索和驗證的URL ;或者基于上次保存的剛經(jīng)過驗 證有效的URL,按照所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取下一個新的URL。
5. 根據(jù)權(quán)利要求1所述的網(wǎng)絡搜索方法,其中,所述可變參數(shù)按照數(shù)字等差數(shù)列、等比 數(shù)列、字母序列、日期字符串序列或枚舉類型序列中的一種變化。
6. 根據(jù)權(quán)利要求1所述的網(wǎng)絡搜索方法,其中,所述可變參數(shù)包括多個可變參數(shù),所述 可變參數(shù)的變化規(guī)律包括每個可變參數(shù)的變化規(guī)律以及各個可變參數(shù)之間有關(guān)優(yōu)先變化 順序的變化優(yōu)先級關(guān)系。
7. 根據(jù)權(quán)利要求6所述的網(wǎng)絡搜索方法,其中,所述獲取URL的步驟包括在按照變化 優(yōu)先級從高到低的順序每次改變一個較高優(yōu)先級的可變參數(shù)進行循環(huán)的情況下通過僅允 許最低變化優(yōu)先級的可變參數(shù)變化來獲取所述URL,其中同時變化的可變參數(shù)屬于同一個 變化優(yōu)先級。
8. 根據(jù)權(quán)利要求7所述的網(wǎng)絡搜索方法,其中,在通過請求所述獲取的URL進行搜索的 步驟后對所述獲取的URL進行驗證,如果所述獲取的URL經(jīng)驗證有效則保存所述URL的歷 史記錄,在針對所述一個較高優(yōu)先級的循環(huán)中獲取URL的步驟包括根據(jù)上次保存的URL歷史 記錄判斷新獲取的URL是否已被驗證過,如果新獲取的URL已被成功驗證過則通過僅允許 所述最低變化優(yōu)先級的可變參數(shù)變化來獲取下一個新的URL ;如果新獲取的URL未被成功 驗證則從新獲取的URL開始進行搜索和驗證,以便通過僅允許所述最低變化優(yōu)先級的可變 參數(shù)變化來獲取下一個新的URL。
9. 根據(jù)權(quán)利要求7所述的網(wǎng)絡搜索方法,其中,在通過請求所述獲取的URL進行搜索 后對所述獲取的URL進行驗證,如果所述獲取的URL未被成功驗證,則保存剛經(jīng)過驗證有效 的URL或?qū)⒃撐幢怀晒︱炞C的URL保存在下一步搜索的URL隊列中,并通過按照變化優(yōu)先 級從高到低的順序改變下一個較高優(yōu)先級的可變參數(shù)進行循環(huán)的情況下通過僅允許最低 變化優(yōu)先級的可變參數(shù)變化來獲取新的URL。
10. —種網(wǎng)絡搜索設備,包括獲得裝置,被配置成獲得用于預定網(wǎng)站資源的統(tǒng)一資源定位符URL的變化規(guī)則,所述 變化規(guī)則定義了所述預定網(wǎng)站資源的URL邏輯結(jié)構(gòu)中的固定參數(shù)和可變參數(shù)、以及可變參 數(shù)的變化規(guī)律;URL生成裝置,被配置成使用所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取URL ;以及 搜索裝置,被配置成通過請求所述獲取的URL進行搜索。
11.根據(jù)權(quán)利要求10所述的網(wǎng)絡搜索設備,其中還包括驗證裝置,被配置成根據(jù)通過搜索所獲得的響應信息驗證所述獲取的URL是否有效;以及存儲器,被配置成保存URL的驗證結(jié)果,所述URL生成裝置進一步被配置成基于上次保存的URL驗證結(jié)果按照所述用于預定網(wǎng) 站資源URL的變化規(guī)則獲取待搜索的URL。
全文摘要
本發(fā)明公開了一種網(wǎng)絡搜索方法和網(wǎng)絡搜索設備,網(wǎng)絡搜索方法包括以下步驟獲得用于預定網(wǎng)站資源的統(tǒng)一資源定位符URL的變化規(guī)則,所述變化規(guī)則定義了所述預定網(wǎng)站資源的URL邏輯結(jié)構(gòu)中的固定參數(shù)和可變參數(shù)、以及可變參數(shù)的變化規(guī)律;使用所述用于預定網(wǎng)站資源URL的變化規(guī)則獲取URL;以及通過請求所述獲取的URL進行搜索。
文檔編號G06F17/30GK101739401SQ20081017307
公開日2010年6月16日 申請日期2008年11月26日 優(yōu)先權(quán)日2008年11月26日
發(fā)明者于浩, 楊萌, 王主龍 申請人:富士通株式會社