專利名稱:網(wǎng)絡(luò)信息抓取方法
網(wǎng)絡(luò)信息抓取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎領(lǐng)域,特別涉及搜索引擎的網(wǎng)頁抓取技術(shù)。背景技術(shù):
隨著網(wǎng)絡(luò)通訊技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為一個巨大的蘊(yùn)藏潛在價值知識的分布式信息空間,網(wǎng)絡(luò)信息中蘊(yùn)涵著許多有用的、潛在的、但不容易被發(fā)現(xiàn)的知識和模式, 人們迫切地需要發(fā)現(xiàn)并掌握能夠獲得這些知識和模式的方法和工具?;ヂ?lián)網(wǎng)上的信息存在于一張張的網(wǎng)頁中,網(wǎng)頁之間依靠超鏈接相互聯(lián)系,形成錯綜復(fù)雜的信息網(wǎng)。早期的互聯(lián)網(wǎng)時代,人們查找信息非常不方便,導(dǎo)致了搜索引擎的出現(xiàn)。 搜索引擎在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù)。搜索引擎的原理簡單來說分為三段信息抓取、信息處理和查詢服務(wù)。其中信息抓取就是通過網(wǎng)絡(luò)爬蟲從一個或若干個初始網(wǎng)頁的網(wǎng)絡(luò)地址開始,獲得初始網(wǎng)頁上的網(wǎng)絡(luò)信息,通過不斷從當(dāng)前網(wǎng)頁上抽取新的網(wǎng)絡(luò)地址放入隊(duì)列來獲得更多的網(wǎng)頁及網(wǎng)頁上的網(wǎng)絡(luò)信息,直到滿足系統(tǒng)的一定停止條件為止。信息處理就是在獲得網(wǎng)絡(luò)信息后將其存儲在搜索引擎的數(shù)據(jù)庫內(nèi),然后對網(wǎng)絡(luò)信息進(jìn)行一定的處理以利于檢索。最后查詢服務(wù)按照用戶的需要將這些處理過后的網(wǎng)絡(luò)信息進(jìn)行反饋。但是現(xiàn)有技術(shù)中搜索引擎所處理的最小對象是一個網(wǎng)頁。請參考圖1,其示出了現(xiàn)有搜索引擎描繪互聯(lián)網(wǎng)的結(jié)構(gòu)模型100。所述現(xiàn)有搜索引擎描繪互聯(lián)網(wǎng)的結(jié)構(gòu)模型100為網(wǎng)頁圖模型。所述網(wǎng)頁圖100由若干網(wǎng)頁節(jié)點(diǎn)及超鏈接邊組成。搜索引擎在信息抓取過程中將每個網(wǎng)頁保存成一個網(wǎng)頁節(jié)點(diǎn),如圖中所示的節(jié)點(diǎn)102 ;然后將各個網(wǎng)頁節(jié)點(diǎn)通過超鏈接作為關(guān)系連接起來,如圖中所示的邊104 ;將整個互聯(lián)網(wǎng)儲存成一個網(wǎng)頁圖結(jié)構(gòu)。應(yīng)當(dāng)注意到,在一個網(wǎng)頁內(nèi)并不是所有的信息都是用戶希望得到的信息。請參考圖2,其示出了現(xiàn)有技術(shù)中的一個包含結(jié)構(gòu)化信息塊的網(wǎng)頁200,所述網(wǎng)頁200包括三個部分網(wǎng)站分類導(dǎo)航信息塊202、廣告及其他信息塊204和所述網(wǎng)頁200的主題部分206。對于絕大多數(shù)用戶來說,其希望搜索到的只是與關(guān)鍵字有關(guān)的主題部分206的信息,而對于網(wǎng)站分類導(dǎo)航信息塊202和廣告及其他信息204并不關(guān)心。類似所述網(wǎng)頁200的主題部分206這樣的網(wǎng)絡(luò)信息,我們稱之為結(jié)構(gòu)化信息塊。結(jié)構(gòu)化信息塊是指信息經(jīng)過分析后可分解為多個互相關(guān)聯(lián)的組成部分,各組成部分間有明確的層次結(jié)構(gòu),其使用和維護(hù)通過數(shù)據(jù)庫進(jìn)行管理的網(wǎng)頁信息。比如在一個有關(guān)筆記本的頁面內(nèi),其結(jié)構(gòu)化信息塊包含了筆記
本“品牌、型號、CPU、內(nèi)存、硬盤、顯示屏.......”的信息;在一個有關(guān)房產(chǎn)信息的頁面,其
結(jié)構(gòu)化信息塊包含了房產(chǎn)的“類型、地域、地址、房型、面積、裝修情況、租金、聯(lián)系人、聯(lián)系電
話.......”的信息。可以認(rèn)識到,網(wǎng)絡(luò)上類似的信息是海量的,也是用戶希望能直接獲得
的信息。如果搜索引擎在信息抓取過程中采用圖1所示的網(wǎng)頁圖結(jié)構(gòu)來描繪互聯(lián)網(wǎng),顯然會造成查詢結(jié)果含有大量無用信息,造成查準(zhǔn)率的下降。而且通過超鏈接作為關(guān)系來存儲各個網(wǎng)頁節(jié)點(diǎn)之間的關(guān)系也不具有邏輯性,由于搜索引擎都是將網(wǎng)頁地址作為搜索結(jié)果來呈現(xiàn)給用戶,而用戶點(diǎn)擊相關(guān)結(jié)果時很可能超鏈接的下個網(wǎng)站就是一個無用的廣告網(wǎng)站,與用戶的目標(biāo)期望有較大出入,浪費(fèi)用戶的時間。因此,有必要提出一種新的技術(shù)方案來解決上述缺點(diǎn)。
發(fā)明內(nèi)容本部分的目的在于概述本發(fā)明的實(shí)施例的一些方面以及簡要介紹一些較佳實(shí)施例。在本部分以及本申請的說明書摘要和發(fā)明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊,而這種簡化或省略不能用于限制本發(fā)明的范圍。本發(fā)明的一個目的在于提供一種網(wǎng)絡(luò)信息抓取方法,搜索引擎可以通過所述網(wǎng)絡(luò)信息抓取方法抓取互聯(lián)網(wǎng)中的結(jié)構(gòu)化信息。為了達(dá)到本發(fā)明的目的,根據(jù)本發(fā)明的一個方面,本發(fā)明提供一種網(wǎng)絡(luò)信息抓取方法,所述方法包括將一初始網(wǎng)址作為當(dāng)前網(wǎng)址,從所述當(dāng)前網(wǎng)址上抓取網(wǎng)頁,分析抓取到的網(wǎng)頁并提取其內(nèi)的結(jié)構(gòu)化信息,將所述結(jié)構(gòu)化信息存儲為當(dāng)前物件節(jié)點(diǎn);將抓取到的網(wǎng)頁內(nèi)的一鏈接地址作為當(dāng)前網(wǎng)址,繼續(xù)從當(dāng)前網(wǎng)址上抓取網(wǎng)頁,分析抓取到的網(wǎng)頁并提取其的結(jié)構(gòu)化信息,將所述結(jié)構(gòu)化信息存儲為當(dāng)前物件節(jié)點(diǎn),定義并存儲所述當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系,重復(fù)本操作以完成網(wǎng)絡(luò)信息的抓取。進(jìn)一步地,所述初始網(wǎng)址為一個或多個。進(jìn)一步地,所述分析抓取到的網(wǎng)頁并提取其內(nèi)的結(jié)構(gòu)化信息是指提取抓取到的網(wǎng)頁內(nèi)的結(jié)構(gòu)化信息塊或?qū)⒆ト〉降木W(wǎng)頁內(nèi)的半結(jié)構(gòu)化信息塊和非結(jié)構(gòu)化信息塊轉(zhuǎn)換為結(jié)構(gòu)化信息塊,每一個結(jié)構(gòu)化信息塊作為一個物件節(jié)點(diǎn)。進(jìn)一步地,抓取到的一個網(wǎng)頁內(nèi)可能提取到一個或多個結(jié)構(gòu)化信息塊,每一個結(jié)構(gòu)化信息塊作為一個物件節(jié)點(diǎn)。進(jìn)一步地,所述定義并存儲所述當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系是指通過當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)內(nèi)數(shù)據(jù)的邏輯或者語義關(guān)系來定義當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系并存儲。進(jìn)一步地,所述定義并存儲所述當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系是指每提取一個當(dāng)前物件節(jié)點(diǎn)都要與已有物件節(jié)點(diǎn)定義關(guān)系并存儲。進(jìn)一步地,如果抓取到的網(wǎng)頁內(nèi)無法提取到結(jié)構(gòu)化信息,則將所述抓取到的網(wǎng)頁作為一個偽物件節(jié)點(diǎn)。進(jìn)一步地,通過所述網(wǎng)絡(luò)信息抓取方法抓取到的網(wǎng)絡(luò)信息是一個物件圖。進(jìn)一步地,通過所述網(wǎng)絡(luò)信息抓取方法還包括去除獲得的物件圖中的偽物件節(jié)
點(diǎn)ο與現(xiàn)有技術(shù)相比,本發(fā)明通過物件圖來描繪互聯(lián)網(wǎng),搜索引擎所處理的最小單位是一個物件節(jié)點(diǎn)即一個結(jié)構(gòu)化信息塊,可以使用戶得到直接的有用信息,去除掉了廣告信息和無用信息;同時每個物件節(jié)點(diǎn)之間的關(guān)系是通過邏輯或者語義關(guān)系來定義的,每個物件節(jié)點(diǎn)之間的關(guān)系具有一定的邏輯或者語義關(guān)系,可以使查詢結(jié)果具有較好的查準(zhǔn)率。
結(jié)合參考附圖及接下來的詳細(xì)描述,本發(fā)明將更容易理解,其中同樣的附圖標(biāo)記對應(yīng)同樣的結(jié)構(gòu)部件,其中
圖1為現(xiàn)有搜索引擎描繪互聯(lián)網(wǎng)的結(jié)構(gòu)模型;圖2為現(xiàn)有技術(shù)中的一個包含結(jié)構(gòu)化信息塊的網(wǎng)頁;圖3為本發(fā)明中物件圖在一個實(shí)施例中的結(jié)構(gòu)示意圖;圖4為用本發(fā)明中所述的物件圖來描繪互聯(lián)網(wǎng)的示意圖;和圖5為本發(fā)明網(wǎng)絡(luò)信息抓取方法在一個實(shí)施例中的方法流程圖。
具體實(shí)施方式本發(fā)明的詳細(xì)描述主要通過程序、步驟、邏輯塊、過程或其他象征性的描述來直接或間接地模擬本發(fā)明技術(shù)方案的運(yùn)作。為透徹的理解本發(fā)明,在接下來的描述中陳述了很多特定細(xì)節(jié)。而在沒有這些特定細(xì)節(jié)時,本發(fā)明則可能仍可實(shí)現(xiàn)。所屬領(lǐng)域內(nèi)的技術(shù)人員使用此處的這些描述和陳述向所屬領(lǐng)域內(nèi)的其他技術(shù)人員有效的介紹他們的工作本質(zhì)。換句話說,為避免混淆本發(fā)明的目的,由于熟知的方法、程序、成分和電路已經(jīng)很容易理解,因此它們并未被詳細(xì)描述。此處所稱的“一個實(shí)施例”或“實(shí)施例”是指可包含于本發(fā)明至少一個實(shí)現(xiàn)方式中的特定特征、結(jié)構(gòu)或特性。在本說明書中不同地方出現(xiàn)的“在一個實(shí)施例中”并非均指同一個實(shí)施例,也不是單獨(dú)的或選擇性的與其他實(shí)施例互相排斥的實(shí)施例。此外,表示一個或多個實(shí)施例的方法、流程圖或功能框圖中的模塊順序并非固定的指代任何特定順序,也不構(gòu)成對本發(fā)明的限制。本發(fā)明中的網(wǎng)絡(luò)信息抓取方法可以利用計(jì)算機(jī)結(jié)合相關(guān)程序?qū)崿F(xiàn)成為一個信息抓取模塊,位于整個搜索引擎系統(tǒng)的信息抓取位置。在網(wǎng)絡(luò)信息抓取時將結(jié)構(gòu)化信息塊作為最小處理單位,將互聯(lián)網(wǎng)描繪成一個物件圖而不是網(wǎng)頁圖。為了突出重點(diǎn),下面僅講述與本發(fā)明有關(guān)的網(wǎng)絡(luò)信息抓取技術(shù),對于搜索引擎系統(tǒng)的其他方面,本文不再累述。請參考圖3,其示出了本發(fā)明中的物件圖在一個實(shí)施例中的結(jié)構(gòu)示意圖。物件圖 300同樣包括圖模型的兩大基本要素節(jié)點(diǎn)和邊。我們定義物件圖由若干物件節(jié)點(diǎn)(如圖所示節(jié)點(diǎn)304和節(jié)點(diǎn)310)及連接兩個物件節(jié)點(diǎn)的關(guān)系邊(如圖所示邊306)所構(gòu)成。其中物件節(jié)點(diǎn)代表互聯(lián)網(wǎng)中的一個網(wǎng)頁內(nèi)的結(jié)構(gòu)化信息塊。如圖中所示網(wǎng)頁302內(nèi)的一個結(jié)構(gòu)化信息塊304即是一個物件節(jié)點(diǎn);圖2中的網(wǎng)頁200的主題部分206即是一個物件節(jié)點(diǎn)。 在一個實(shí)施例里,物件節(jié)點(diǎn)可以代表商品的結(jié)構(gòu)化信息,其可以包括商品名稱、商品價格、 商品信息和商品產(chǎn)地等信息。在另外一個實(shí)施例中,物件節(jié)點(diǎn)可以代表公司的結(jié)構(gòu)化信息, 其可以包括公司名稱、公司規(guī)模、公司注冊日期和公司法人等信息。總之對于不同的主題, 物件節(jié)點(diǎn)可能表示不同的信息。而連接兩個物件節(jié)點(diǎn)的關(guān)系邊則是表示兩個物件節(jié)點(diǎn)的關(guān)系,通常是兩個物件節(jié)點(diǎn)所代表的結(jié)構(gòu)化信息的邏輯或者語義關(guān)系等。在一個實(shí)施例中,假如兩個物件節(jié)點(diǎn)A和B描述的主題都是學(xué)術(shù)論文,其結(jié)構(gòu)化信息可能包括論文作者、論文出版社、論文出版時間和論文摘要等,那么這兩個物件節(jié)點(diǎn)的關(guān)系可能是物件節(jié)點(diǎn)A引用了物件節(jié)點(diǎn)B、物件節(jié)點(diǎn)A與物件節(jié)點(diǎn)B為同一作者、物件節(jié)點(diǎn)A與物件節(jié)點(diǎn)B為同一出版社、 物件節(jié)點(diǎn)A與物件節(jié)點(diǎn)B為同一主題等等。請參考圖4,其示出了用本發(fā)明所述的物件圖來描繪互聯(lián)網(wǎng)的示意圖。互聯(lián)網(wǎng)400 包括很多互相關(guān)聯(lián)的物件圖。在一個實(shí)施例中,物件圖402是一個主題是關(guān)于學(xué)術(shù)論文的物件節(jié)點(diǎn)及相關(guān)關(guān)系邊的集合;在另外一個實(shí)施例中,物件圖404是代表一個學(xué)校所有人員的信息集合,其中物件節(jié)點(diǎn)代表所有學(xué)生、教師及員工的個人信息,其中的關(guān)系邊可能是班級、年齡等邏輯關(guān)系;在再一個實(shí)施例中,物件圖406是代表一個博客網(wǎng)站的所有博文, 其中物件節(jié)點(diǎn)代表博客的正文、作者、時間等信息,其中關(guān)系邊可能是作者共同的愛好、同一發(fā)表時間等。每個物件圖都可能是一個在主題上或者語義上獨(dú)立的集合,但是互相都有關(guān)系連接,比如物件圖404中的學(xué)生或者教師可能是物件圖402的學(xué)術(shù)論文的作者,物件圖 406中博客的主人就是物件圖404的員工等等??傊?,通過物件圖來描繪互聯(lián)網(wǎng)時希望每個物件節(jié)點(diǎn)包含一個邏輯上或者語義上的獨(dú)立的結(jié)構(gòu)化信息塊,每個物件節(jié)點(diǎn)之間的關(guān)系是一種邏輯上或者語義上的關(guān)系。顯然,當(dāng)通過物件圖來描繪互聯(lián)網(wǎng)時相當(dāng)于搜索引擎預(yù)先對網(wǎng)絡(luò)上的信息進(jìn)行了篩選、過濾。當(dāng)用戶搜索時可以直接反饋給予用戶最重要的或者最期望獲得的信息。請參考圖5,其示出了本發(fā)明網(wǎng)絡(luò)信息抓取方法500的方法流程圖。所述方法500 包括如下步驟。步驟502,將一初始網(wǎng)址作為當(dāng)前網(wǎng)址,從所述當(dāng)前網(wǎng)址上抓取網(wǎng)頁,分析抓取到的網(wǎng)頁并提取其內(nèi)的結(jié)構(gòu)化信息,將所述結(jié)構(gòu)化信息存儲為當(dāng)前物件節(jié)點(diǎn)。搜索引擎可以從一個或者多個初始網(wǎng)址開始抓取網(wǎng)頁,在抓取到一個網(wǎng)頁后,就要提取網(wǎng)頁中的結(jié)構(gòu)化信息出來作為物件節(jié)點(diǎn)。在一個實(shí)施例中,在從網(wǎng)頁上提取結(jié)構(gòu)化信息之前,可以定義結(jié)構(gòu)化信息模板。同樣的,如上所述,對于不同的數(shù)據(jù)主題,所述結(jié)構(gòu)化信息模板的定義可以完全不同,比如,對于商品信息這樣的主題來說,所述結(jié)構(gòu)化信息可以包括商品名稱、商品簡介、商品價格、商品信息和商品產(chǎn)地等信息欄位,再比如,對于公司信息這樣的主題來說,所述結(jié)構(gòu)化信息可以包括公司名稱、公司規(guī)模、公司注冊日期和公司法人等信息欄位。利用定義的結(jié)構(gòu)化信息模板在網(wǎng)頁內(nèi)進(jìn)行遍歷搜索,如果所述網(wǎng)頁內(nèi)的一部分?jǐn)?shù)據(jù)能夠與所述結(jié)構(gòu)化信息模板匹配,那這部分?jǐn)?shù)據(jù)就可以作為所述網(wǎng)頁內(nèi)的結(jié)構(gòu)化信息進(jìn)行提取。在另外一個實(shí)施例中,采用基于視覺的網(wǎng)絡(luò)結(jié)構(gòu)化信息提取技術(shù)來提取網(wǎng)絡(luò)上的結(jié)構(gòu)化信息塊或?qū)虢Y(jié)構(gòu)化信息塊和非結(jié)構(gòu)化信息塊轉(zhuǎn)化為結(jié)構(gòu)化信息塊,即把一個完整頁面分割為多個語義塊,提取其中的一個語義塊作為網(wǎng)頁的結(jié)構(gòu)化信息塊。在再一個實(shí)施例中,結(jié)合多種網(wǎng)絡(luò)結(jié)構(gòu)化信息塊提取技術(shù)來綜合處理網(wǎng)頁以獲得更多的結(jié)構(gòu)化信息塊作為物件節(jié)點(diǎn)。在一個實(shí)施例中,如果當(dāng)前網(wǎng)頁提取到一個結(jié)構(gòu)化信息,就將其作為當(dāng)前的一個物件節(jié)點(diǎn);如果當(dāng)前網(wǎng)頁提取到兩個結(jié)構(gòu)化信息,也將其作為當(dāng)前的兩個物件節(jié)點(diǎn),并定義當(dāng)前兩個物件節(jié)點(diǎn)的關(guān)系;如果當(dāng)前網(wǎng)頁沒有提取到結(jié)構(gòu)化信息塊,就先存儲為一個偽物件節(jié)點(diǎn)。假如圖3所示網(wǎng)頁302是一個商品導(dǎo)購頁面,其可以提取出商品的結(jié)構(gòu)化信息304, 那么就形成一個物件節(jié)點(diǎn)304 ;假如網(wǎng)頁308是一個商品的用戶使用評價頁面,那么其無法提取出結(jié)構(gòu)化信息,那么先建立一個偽物件節(jié)點(diǎn)310 ;假如圖3所示網(wǎng)頁312就包括兩個結(jié)構(gòu)化信息塊314和316,這時就形成了兩個物件節(jié)點(diǎn)。步驟504,將抓取到的網(wǎng)頁內(nèi)的一鏈接地址作為當(dāng)前網(wǎng)址,繼續(xù)從當(dāng)前網(wǎng)址上抓取網(wǎng)頁,分析抓取到的網(wǎng)頁并提取其的結(jié)構(gòu)化信息,將所述結(jié)構(gòu)化信息存儲為當(dāng)前物件節(jié)點(diǎn), 定義并存儲所述當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系,重復(fù)本操作以完成網(wǎng)絡(luò)信息的抓取。在處理完一個頁面后就按照這個頁面內(nèi)的鏈接地址繼續(xù)抓取下一個頁面,并同樣進(jìn)行結(jié)構(gòu)化信息的提取。特別地,要將這個頁面內(nèi)所有的鏈接地址都要依次按照一定策略進(jìn)行類似處理,比如,可以采用了 I^ageRank的算法的策略進(jìn)行處理。如果提取到一個結(jié)構(gòu)化信息塊時,就將其作為一個物件節(jié)點(diǎn);如果當(dāng)前網(wǎng)頁沒有提取到結(jié)構(gòu)化信息塊時,就先作為一個偽物件節(jié)點(diǎn)。在一個實(shí)施例中,每提取到一個新的物件節(jié)點(diǎn)都要和已有的物件節(jié)點(diǎn)來定義關(guān)系,所述關(guān)系通過每個物件節(jié)點(diǎn)內(nèi)的結(jié)構(gòu)化信息的有關(guān)數(shù)據(jù)或者屬性標(biāo)簽判斷是否含有相同數(shù)據(jù)或同類型數(shù)據(jù),數(shù)據(jù)之間是否具有引用和繼承關(guān)系等來確定。比如,在一個實(shí)施例中,兩個代表同一品牌食品的物件節(jié)點(diǎn),由于兩個物件節(jié)點(diǎn)的結(jié)構(gòu)化信息里包括相同的品牌數(shù)據(jù),則將兩個物件節(jié)點(diǎn)的關(guān)系定義為同一品牌。循環(huán)上述504步驟,就可以將整個互聯(lián)網(wǎng)上的網(wǎng)頁都處理一次,這時就可以得到一張物件圖,我們還可以后續(xù)將所述物件圖中的偽物件節(jié)點(diǎn)去除,然后優(yōu)化物件圖中的物件節(jié)點(diǎn)之間的關(guān)系來獲得更為精確的物件圖。在一個具體的實(shí)施例中,我們用所述的網(wǎng)絡(luò)數(shù)據(jù)抓取方法利用計(jì)算機(jī)結(jié)合相關(guān)程序?qū)崿F(xiàn)成為一個信息抓取模塊,位于一個手機(jī)搜索引擎的信息抓取位置,為用戶提供美食、 住行、商品等生活信息的檢索,用戶在輸入關(guān)鍵字“無錫咖啡館”后,就會在手機(jī)客戶端直接獲得有關(guān)無錫咖啡館的相關(guān)信息,而沒有其他廣告信息或者無用信息。不僅節(jié)省了用戶的時間而且充分利用了手機(jī)上較小的顯示屏幕顯示出了更多有用信息。本發(fā)明中的網(wǎng)絡(luò)數(shù)據(jù)抓取方法的一個特點(diǎn)、優(yōu)點(diǎn)或好處在于不是直接抓取整個網(wǎng)頁,而是對網(wǎng)頁的數(shù)據(jù)進(jìn)行分析提取,僅抓取其中的部分有用信息,這樣可以使存儲的數(shù)據(jù)量也會大大降低,同時可以保證后續(xù)的搜索更有針對性,搜索結(jié)果也更為準(zhǔn)確。通過設(shè)定不同的主題,可以對互聯(lián)網(wǎng)上的數(shù)據(jù)進(jìn)行有針對性地抓取,既保證了數(shù)據(jù)的全面性,也保證了數(shù)據(jù)的針對性。上述說明已經(jīng)充分揭露了本發(fā)明的具體實(shí)施方式
。需要指出的是,熟悉該領(lǐng)域的技術(shù)人員對本發(fā)明的具體實(shí)施方式
所做的任何改動均不脫離本發(fā)明的權(quán)利要求書的范圍。 相應(yīng)地,本發(fā)明的權(quán)利要求的范圍也并不僅僅局限于所述具體實(shí)施方式
。
權(quán)利要求
1.一種網(wǎng)絡(luò)信息抓取方法,其特征在于,其包括將一初始網(wǎng)址作為當(dāng)前網(wǎng)址,從所述當(dāng)前網(wǎng)址上抓取網(wǎng)頁,分析抓取到的網(wǎng)頁并提取其內(nèi)的結(jié)構(gòu)化信息,將所述結(jié)構(gòu)化信息存儲為當(dāng)前物件節(jié)點(diǎn);將抓取到的網(wǎng)頁內(nèi)的一鏈接地址作為當(dāng)前網(wǎng)址,繼續(xù)從當(dāng)前網(wǎng)址上抓取網(wǎng)頁,分析抓取到的網(wǎng)頁并提取其的結(jié)構(gòu)化信息,將所述結(jié)構(gòu)化信息存儲為當(dāng)前物件節(jié)點(diǎn),定義并存儲所述當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系,重復(fù)本操作以完成網(wǎng)絡(luò)信息的抓取。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抓取方法,其特征在于所述初始網(wǎng)址為一個或多個。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抓取方法,其特征在于所述分析抓取到的網(wǎng)頁并提取其內(nèi)的結(jié)構(gòu)化信息是指提取抓取到的網(wǎng)頁內(nèi)的結(jié)構(gòu)化信息塊或?qū)⒆ト〉降木W(wǎng)頁內(nèi)的半結(jié)構(gòu)化信息塊和非結(jié)構(gòu)化信息塊轉(zhuǎn)換為結(jié)構(gòu)化信息塊,每一個結(jié)構(gòu)化信息塊作為一個物件節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抓取方法,其特征在于抓取到的一個網(wǎng)頁內(nèi)可能提取到一個或多個結(jié)構(gòu)化信息塊,每一個結(jié)構(gòu)化信息塊作為一個物件節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抓取方法,其特征在于所述定義并存儲所述當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系是指通過當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)內(nèi)數(shù)據(jù)的邏輯或者語義關(guān)系來定義當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系并存儲。
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抓取方法,其特征在于所述定義并存儲所述當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系是指每提取一個當(dāng)前物件節(jié)點(diǎn)都要與已有物件節(jié)點(diǎn)定義關(guān)系并存儲。
7.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抓取方法,其特征在于如果抓取到的網(wǎng)頁內(nèi)無法提取到結(jié)構(gòu)化信息,則將所述抓取到的網(wǎng)頁作為一個偽物件節(jié)點(diǎn)。
8.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)信息抓取方法,其特征在于通過所述網(wǎng)絡(luò)信息抓取方法抓取到的網(wǎng)絡(luò)信息是一個物件圖。
9.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)信息抓取方法,其特征在于通過所述網(wǎng)絡(luò)信息抓取方法還包括去除獲得的物件圖中的偽物件節(jié)點(diǎn)。
全文摘要
本發(fā)明揭露了一種網(wǎng)絡(luò)信息抓取方法,所述方法包括將一初始網(wǎng)址作為當(dāng)前網(wǎng)址,從所述當(dāng)前網(wǎng)址上抓取網(wǎng)頁,分析抓取到的網(wǎng)頁并提取其內(nèi)的結(jié)構(gòu)化信息,將所述結(jié)構(gòu)化信息存儲為當(dāng)前物件節(jié)點(diǎn);將抓取到的網(wǎng)頁內(nèi)的一鏈接地址作為當(dāng)前網(wǎng)址,繼續(xù)從當(dāng)前網(wǎng)址上抓取網(wǎng)頁,分析抓取到的網(wǎng)頁并提取其的結(jié)構(gòu)化信息,將所述結(jié)構(gòu)化信息存儲為當(dāng)前物件節(jié)點(diǎn),定義并存儲所述當(dāng)前物件節(jié)點(diǎn)和已有物件節(jié)點(diǎn)的關(guān)系,重復(fù)本操作以完成網(wǎng)絡(luò)信息的抓取。
文檔編號G06F17/30GK102214179SQ20101014413
公開日2011年10月12日 申請日期2010年4月12日 優(yōu)先權(quán)日2010年4月12日
發(fā)明者梁久禎, 白玉昭, 胡麗娟 申請人:無錫科利德斯科技有限公司