两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法

文檔序號(hào):6463439閱讀:168來(lái)源:國(guó)知局

專利名稱::一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法
技術(shù)領(lǐng)域
:本發(fā)明涉及網(wǎng)頁(yè)數(shù)據(jù)分析領(lǐng)域,特別是解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法。
背景技術(shù)
:互聯(lián)網(wǎng)的飛速發(fā)展,己使其成為人們最重要的一個(gè)信息來(lái)源。然而,信息的膨脹卻給信息分析和處理帶來(lái)了挑戰(zhàn)。如何有效抽取用超文本標(biāo)記語(yǔ)言(HTML)或擴(kuò)展標(biāo)記語(yǔ)言(XML)編寫的網(wǎng)頁(yè)中的有關(guān)信息,己成為互聯(lián)網(wǎng)信息服務(wù)中一個(gè)重要的研宄課題。互聯(lián)網(wǎng)(Internet)是一個(gè)開(kāi)放的公共信息平臺(tái),越來(lái)越多的公司把他們的產(chǎn)品信息和服務(wù)信息發(fā)布通過(guò)網(wǎng)站服務(wù)器(Web服務(wù)器)發(fā)布到Internet上,或把整個(gè)業(yè)務(wù)搬到Web上。收集和歸類這些動(dòng)態(tài)信息,然后比較分析可以為很多增值的應(yīng)用提供關(guān)鍵的數(shù)據(jù)。例如,汽車銷售商會(huì)將所售產(chǎn)品,如車輛的品牌、型號(hào)、價(jià)格等數(shù)據(jù)以網(wǎng)頁(yè)中表格(Table)的形式,向其受眾展示出來(lái);對(duì)于消費(fèi)者來(lái)說(shuō),需要比較多個(gè)汽車銷售商所售的統(tǒng)一車型之價(jià)格后,才會(huì)從價(jià)格較低的汽車銷售商購(gòu)買車輛。因此產(chǎn)生了這樣的問(wèn)題(1)如何獲知汽車銷售商包含車輛數(shù)據(jù)表格的網(wǎng)頁(yè)的位置;(2)如何定位網(wǎng)頁(yè)中數(shù)據(jù)表格的位置;(3)如何對(duì)表格進(jìn)行分析,通過(guò)比較發(fā)現(xiàn)價(jià)格最優(yōu)惠的汽車銷售商。為此,需要從這些描述產(chǎn)品的網(wǎng)頁(yè)中的特定區(qū)域(即數(shù)據(jù)區(qū))抽取相關(guān)產(chǎn)品(即數(shù)據(jù)對(duì)象)的屬性之類信息。典型的,一個(gè)描述產(chǎn)品的網(wǎng)頁(yè)包括一個(gè)數(shù)據(jù)區(qū),其中涉及一個(gè)或多個(gè)數(shù)據(jù)對(duì)象,本發(fā)明就是要解決如何取得網(wǎng)頁(yè)、如何取得網(wǎng)頁(yè)中的特定區(qū)域的數(shù)據(jù)、如何歸類分析和比較數(shù)據(jù)的問(wèn)題。
發(fā)明內(nèi)容鑒于以上需求,本發(fā)明的目的在于提供一種取得網(wǎng)頁(yè),定位網(wǎng)頁(yè)中的特定區(qū)域的數(shù)據(jù),以及歸類分析和比較數(shù)據(jù)方法,以提供數(shù)據(jù)增值服務(wù)。本發(fā)明所采用的技術(shù)方案是一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,包括以下步驟步驟I、定義一個(gè)三維數(shù)據(jù)表,設(shè)置其第一維是網(wǎng)頁(yè)的地址,第二維是數(shù)據(jù)對(duì)象中的字段列,第三維是數(shù)據(jù)對(duì)象中的字段值;步驟2、獲取目標(biāo)網(wǎng)頁(yè)地址隊(duì)列;步驟3、對(duì)于步驟2中的每一項(xiàng)地址,檢查其是否己經(jīng)存在于步驟I的三維數(shù)據(jù)表中的第一維中;如果不存在,則將其填入三維數(shù)據(jù)表中的第一維中;如果存在,則將其刪除,并檢查下一項(xiàng)地址;步驟4、根據(jù)網(wǎng)頁(yè)地址隊(duì)列下載網(wǎng)頁(yè),將所下載的網(wǎng)頁(yè)存儲(chǔ)在網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū);步驟5、對(duì)網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū)中的網(wǎng)頁(yè)進(jìn)行表格對(duì)象檢查,提取存在表格節(jié)點(diǎn)的網(wǎng)頁(yè);步驟6、對(duì)步驟3提取出的網(wǎng)頁(yè),分析其表格節(jié)點(diǎn)的數(shù)據(jù)區(qū);將數(shù)據(jù)區(qū)中的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)對(duì)象,該數(shù)據(jù)對(duì)象由字段列和字段值構(gòu)成;步驟7、為該網(wǎng)頁(yè)的地址和從該網(wǎng)頁(yè)表格節(jié)點(diǎn)數(shù)據(jù)區(qū)中提取并轉(zhuǎn)換的數(shù)據(jù)對(duì)象建立一對(duì)一的映射關(guān)系,同時(shí)將該數(shù)據(jù)對(duì)象中的字段列和字段值填入到三維表中與第一維中地址相對(duì)應(yīng)的第二維和第三維中。本發(fā)明的有益效果是本發(fā)明一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法提供了一套程序化和自動(dòng)化的節(jié)點(diǎn)的數(shù)據(jù),實(shí)現(xiàn)分析和比較,特別是為數(shù)據(jù)增值服務(wù)提供可能。以下結(jié)合實(shí)施例及其附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明。圖I是本發(fā)明方法的流程示意圖;具體實(shí)施例方式本發(fā)明的實(shí)施例,一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,利用互聯(lián)網(wǎng)提供一種取得網(wǎng)頁(yè),定位網(wǎng)頁(yè)中的特定區(qū)域的數(shù)據(jù),以及歸類分析和比較數(shù)據(jù),本方法包括以下步驟步驟1、定義一個(gè)三維數(shù)據(jù)表,設(shè)置其第一維是網(wǎng)頁(yè)的地址,第二維是數(shù)據(jù)對(duì)象中的字段列,第三維是數(shù)據(jù)對(duì)象中的字段值;步驟2、獲取目標(biāo)網(wǎng)頁(yè)地址隊(duì)列;步驟3、對(duì)于步驟2中的每一項(xiàng)地址,檢查其是否己經(jīng)存在于步驟I的三維數(shù)據(jù)表中的第一維中;如果不存在,則將其填入三維數(shù)據(jù)表中的第一維中;如果存在,則將其刪除,并檢查下一項(xiàng)地址;步驟4、根據(jù)網(wǎng)頁(yè)地址隊(duì)列下載網(wǎng)頁(yè),將所下載的網(wǎng)頁(yè)存儲(chǔ)在網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū);步驟5、對(duì)網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū)中的網(wǎng)頁(yè)進(jìn)行表格對(duì)象檢查,提取存在表格節(jié)點(diǎn)的網(wǎng)頁(yè);步驟6、對(duì)步驟3提取出的網(wǎng)頁(yè),分析其表格節(jié)點(diǎn)的數(shù)據(jù)區(qū);將數(shù)據(jù)區(qū)中的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)對(duì)象,該數(shù)據(jù)對(duì)象由字段列和字段值構(gòu)成;步驟7、為該網(wǎng)頁(yè)的地址和從該網(wǎng)頁(yè)表格節(jié)點(diǎn)數(shù)據(jù)區(qū)中提取并轉(zhuǎn)換的數(shù)據(jù)對(duì)象建立一對(duì)一的映射關(guān)系,同時(shí)將該數(shù)據(jù)對(duì)象中的字段列和字段值填入到三其中,步驟I的目的是根據(jù)需要定義一個(gè)數(shù)據(jù)表,設(shè)置好數(shù)據(jù)保存的結(jié)構(gòu),這樣在進(jìn)行網(wǎng)頁(yè)表格解析時(shí),就可以直接將解析得到的數(shù)據(jù)對(duì)象按照設(shè)置好的規(guī)則存放在步驟I定義的數(shù)據(jù)表的相應(yīng)位置,同時(shí),通過(guò)這個(gè)預(yù)先定義的數(shù)據(jù)表,還可以將解析得到的數(shù)據(jù)對(duì)象與其原始網(wǎng)頁(yè)的地址進(jìn)行對(duì)應(yīng),方便用戶在解析后進(jìn)行其他操作,例如進(jìn)行數(shù)據(jù)校驗(yàn)、數(shù)據(jù)更新等。在本發(fā)明的實(shí)施例中,步驟2所述的獲取網(wǎng)頁(yè)地址隊(duì)列包括兩種方式,分別為直接獲取和間接獲??;所述直接獲取方式,為讀取用戶提供的網(wǎng)絡(luò)地址隊(duì)列文件,該隊(duì)列被存放于一文本文件中,每個(gè)地址占用一行,地址需符合URL格式。即用戶將需要進(jìn)行表格解析、保存數(shù)據(jù)對(duì)象的網(wǎng)頁(yè)的URL地址保存在一個(gè)文本文件中;并且在這個(gè)文本文件中,按照每個(gè)URL地址占用一行的方式存放所有需要的網(wǎng)頁(yè)地址。所述間接獲取方式,為讀取用戶進(jìn)行搜索的關(guān)鍵詞,通過(guò)關(guān)鍵詞在搜索引擎上搜索,搜索引擎以字符流的形式提供一個(gè)HTML文本,通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,將HTML文本中滿足指定模式的URL地址抽取出來(lái)組成隊(duì)列。例如,用戶為獲取某些信息,通過(guò)google、百度這樣的綜合互聯(lián)網(wǎng)搜索引擎或者一些專業(yè)領(lǐng)域的搜索引擎進(jìn)行搜索,可以利用支持本方法的中間服務(wù)讀取用戶輸入的關(guān)鍵詞,由中間服務(wù)通過(guò)該關(guān)鍵詞在指定的搜索引擎上搜索,并將搜索引擎返回的搜索結(jié)果保存下來(lái),這個(gè)搜索結(jié)果是搜索引擎以字符流的形式提供的一個(gè)HTML文本,然后再通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,將HTML文本中滿足指定模式的URL地址抽取出來(lái)組成隊(duì)列,并保存成一個(gè)文本文件,這個(gè)文本文件的格式與直接獲取方式中由用戶制作的在本實(shí)施例中,間接獲取方式里面,從HTML文本中抽取URL地址的方式,其所述指定模式為一種按照一特定規(guī)則排列的字符串,該字符串分為三部分,其中第一部分的排列模式為“<Ahref=’”,第三部分的排列模式為“’</A>”;這個(gè)字符串的形式以下表來(lái)表示則更為直觀表1、HTML文本中符合指定模式的字符串的形式<Ahref=’URL地址,></A>第一部分第二部分第三部分其中第一部分中后面的引號(hào),和第三部分中之前的引號(hào)可以是單引號(hào)(‘)或雙引號(hào)(“),但必須同時(shí)是雙引號(hào)或單引號(hào),而不能一個(gè)是雙引號(hào),另一個(gè)是單引號(hào);第三部分中的省略號(hào)代表一個(gè)標(biāo)記該A標(biāo)記的名稱或描述;在第一部分和第三部分之間的第二部分字符串即為滿足指定模式的URL地址。在本發(fā)明的實(shí)施例中,所述步驟4包括以下步驟步驟4a:設(shè)置一個(gè)計(jì)數(shù)器,計(jì)數(shù)器初始值為零,計(jì)數(shù)器最大值為地址隊(duì)列長(zhǎng)度-I;步驟4b:清除網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū);步驟4c:檢查計(jì)數(shù)器的值,如果計(jì)數(shù)器的值小于計(jì)數(shù)器最大值,則每完成前述步驟3的重復(fù)性檢查之后,計(jì)數(shù)器+1;—旦計(jì)數(shù)器的值大于計(jì)數(shù)器最大值,則結(jié)束整個(gè)流程;步驟4d:根據(jù)地址隊(duì)列之順序,下載網(wǎng)頁(yè),所下載之網(wǎng)頁(yè)存放于網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū)。步驟4的目的是將網(wǎng)頁(yè)地址隊(duì)列中列出的網(wǎng)頁(yè)下載到網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū)中,同時(shí)設(shè)置一個(gè)計(jì)數(shù)器,用來(lái)檢查網(wǎng)頁(yè)地址的重復(fù)性,如果網(wǎng)頁(yè)的URL地址與三維數(shù)據(jù)表中第一維中保存的網(wǎng)頁(yè)地址相同,則將這一URL地址從網(wǎng)頁(yè)地址隊(duì)列中刪除,并開(kāi)始檢查下一個(gè)URL地址,從而避免了將己存在的網(wǎng)頁(yè)重復(fù)下載的問(wèn)題,能夠有效提高運(yùn)行效率。同時(shí),所述步驟5包括以下步驟步驟5a:通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,確定網(wǎng)頁(yè)中是否存在表格節(jié)點(diǎn),即是否存在符合語(yǔ)義的成對(duì)出現(xiàn)的“<table>”和“</table>”,且符合文檔對(duì)象模型(DocumentObjectModel,DOM)之規(guī)范。步驟5b:如果存在,則轉(zhuǎn)至步驟6;步驟5c:如果不存在,則轉(zhuǎn)至步驟4b。執(zhí)行步驟5,目的是將存在表格節(jié)點(diǎn)的網(wǎng)頁(yè)提取出來(lái),交給步驟6進(jìn)行表格節(jié)點(diǎn)分析。所述步驟6包括以下步驟步驟6a:通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,分析表格節(jié)點(diǎn)的字段,剔除不需要的字段列,此處所謂不需要的字段列是指由用戶主觀決定的表格列;步驟6b:通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,分析表格節(jié)點(diǎn)的數(shù)據(jù)區(qū),將數(shù)據(jù)區(qū)中的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)對(duì)象,該數(shù)據(jù)對(duì)象由字段列和字段值構(gòu)成。通過(guò)步驟6進(jìn)行表格節(jié)點(diǎn)分析和剔除不需要的字段列之后,將需要保存的所述步驟7包括以下步驟步驟7a:為該網(wǎng)頁(yè)的地址和該數(shù)據(jù)對(duì)象建立一個(gè)一對(duì)一的映射關(guān)系,即以該網(wǎng)頁(yè)的地址作為鍵,以該數(shù)據(jù)對(duì)象作為值,形成一個(gè)鍵-值對(duì);步驟7b:將該數(shù)據(jù)對(duì)象中的字段列和字段值填入到步驟I中建立的三維數(shù)據(jù)表中與第一維中地址相對(duì)應(yīng)的第二維和第三維中;步驟7c:轉(zhuǎn)至步驟4b。本發(fā)明實(shí)施例中,在步驟7中的步驟7a和步驟7b將前述的數(shù)據(jù)對(duì)象建立映射關(guān)系并存儲(chǔ)在三維數(shù)據(jù)表后,即完成了本發(fā)明所述的對(duì)一個(gè)URL地址所對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行表格對(duì)象節(jié)點(diǎn)解析的工作過(guò)程。至此,就轉(zhuǎn)到步驟4b清除網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū),并讀取下一個(gè)URL地址,重新開(kāi)始整個(gè)解析過(guò)程。本發(fā)明一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,提供了一套程序化和自動(dòng)化的方法來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)表格節(jié)點(diǎn)數(shù)據(jù)分析流程。通過(guò)此流程可以有效獲取網(wǎng)頁(yè)中表格節(jié)點(diǎn)的數(shù)據(jù),實(shí)現(xiàn)分析和比較,特別是為數(shù)據(jù)增值服務(wù)提供可能。本發(fā)明所提供的方法可以幫助用戶進(jìn)行大量的網(wǎng)絡(luò)信息采集和整理,在互聯(lián)網(wǎng)信息采集領(lǐng)域具有十分廣闊的應(yīng)用前景。權(quán)利要求1.一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,利用互聯(lián)網(wǎng)提供一種取得網(wǎng)頁(yè),定位網(wǎng)頁(yè)中的特定區(qū)域的數(shù)據(jù),以及歸類分析和比較數(shù)據(jù),其特征在于本方法包括以下步驟步驟1、定義一個(gè)三維數(shù)據(jù)表,設(shè)置其第一維是網(wǎng)頁(yè)的地址,第二維是數(shù)據(jù)對(duì)象中的字段列,第三維是數(shù)據(jù)對(duì)象中的字段值;步驟2、獲取目標(biāo)網(wǎng)頁(yè)地址隊(duì)列;步驟3、對(duì)于步驟2中的每一項(xiàng)地址,檢查其是否已經(jīng)存在于步驟I的三維數(shù)據(jù)表中的第一維中;如果不存在,則將其填入三維數(shù)據(jù)表中的第一維中;如果存在,則將其刪除,并檢查下一項(xiàng)地址;步驟4、根據(jù)網(wǎng)頁(yè)地址隊(duì)列下載網(wǎng)頁(yè),將所下載的網(wǎng)頁(yè)存儲(chǔ)在網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū);步驟5、對(duì)網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū)中的網(wǎng)頁(yè)進(jìn)行表格對(duì)象檢查,提取存在表格節(jié)點(diǎn)的網(wǎng)頁(yè);步驟6、對(duì)步驟3提取出的網(wǎng)頁(yè),分析其表格節(jié)點(diǎn)的數(shù)據(jù)區(qū);將數(shù)據(jù)區(qū)中的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)對(duì)象,該數(shù)據(jù)對(duì)象由字段列和字段值構(gòu)成;步驟7、為該網(wǎng)頁(yè)的地址和從該網(wǎng)頁(yè)表格節(jié)點(diǎn)數(shù)據(jù)區(qū)中提取并轉(zhuǎn)換的數(shù)據(jù)對(duì)象建立一對(duì)一的映射關(guān)系,同時(shí)將該數(shù)據(jù)對(duì)象中的字段列和字段值填入到三維數(shù)據(jù)表中與第一維中地址相對(duì)應(yīng)的第二維和第三維中。2.根據(jù)權(quán)利要求I所述的一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,其特征在于所述步驟2獲取網(wǎng)頁(yè)地址隊(duì)列包括兩種方式,分別為直接獲取和間接獲??;所述直接獲取方式,為讀取用戶提供的網(wǎng)絡(luò)地址隊(duì)列文件,該隊(duì)列被存放于一文本文件中,每個(gè)地址占用一行,地址需符合URL格式;所述間接獲取方式,為讀取用戶進(jìn)行搜索的關(guān)鍵詞,通過(guò)關(guān)鍵詞在搜索引擎上搜索,搜索引擎以字符流的形式提供一個(gè)HTML文本,通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,將HTML文本中滿足指定模式的URL地址抽取出來(lái)組成隊(duì)列。3.根據(jù)權(quán)利要求2所述的一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,其特征在于所述指定模式為一種按照一特定規(guī)則排列的字符串,該字符串分為三部分,其中第一部分的排列模式為“<Ahref=’”,第三部分的排列模式為“’>...</A>”;其中第一部分中后面的引號(hào),和第三部分中“>”之前的引號(hào)可以是單引號(hào)(‘)或雙引號(hào)(“),但必須同時(shí)是雙引號(hào)或單引號(hào),而不能一個(gè)是雙引號(hào),另一個(gè)是單引號(hào);第三部分中的省略號(hào)代表一個(gè)標(biāo)記該A標(biāo)記的名稱或描述;在第一部分和第三部分之間的第二部分字符串即為滿足指定模式的URL地址。4.根據(jù)權(quán)利要求I所述的一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,其特征在于所述步驟4包括以下步驟步驟4a:設(shè)置一個(gè)計(jì)數(shù)器,計(jì)數(shù)器初始值為零,計(jì)數(shù)器最大值為地址隊(duì)列長(zhǎng)度-I;步驟4b:清除網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū);步驟4c:檢查計(jì)數(shù)器的值,如果計(jì)數(shù)器的值小于計(jì)數(shù)器最大值,則每完成權(quán)利要求I中的步驟3,計(jì)數(shù)器+1;—旦計(jì)數(shù)器的值大于計(jì)數(shù)器最大值,則結(jié)束整個(gè)流程;步驟4d:根據(jù)地址隊(duì)列之順序,下載網(wǎng)頁(yè),所下載之網(wǎng)頁(yè)存放于網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū)。5.根據(jù)權(quán)利要求I所述的一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,其特征在于所步驟5a:通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,確定網(wǎng)頁(yè)中是否存在表格節(jié)點(diǎn),即是否存在符合語(yǔ)義的成對(duì)出現(xiàn)的“<table>”和“</table>”,且符合文檔對(duì)象模型(DocumentObjectModel,DOM)之規(guī)范。步驟5b:如果存在,則轉(zhuǎn)至步驟6;步驟5c:如果不存在,則轉(zhuǎn)至步驟4b。6.根據(jù)權(quán)利要求I所述的一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,其特征在于所述步驟6包括以下步驟步驟6a:通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,分析表格節(jié)點(diǎn)的字段,剔除不需要的字段列,此處所謂不需要的字段列是指由用戶主觀決定的表格列;步驟6b:通過(guò)運(yùn)用模式匹配(或規(guī)則表達(dá)式)的方法,分析表格節(jié)點(diǎn)的數(shù)據(jù)區(qū),將數(shù)據(jù)區(qū)中的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)對(duì)象,該數(shù)據(jù)對(duì)象由字段列和字段值構(gòu)成。7.根據(jù)權(quán)利要求I所述的一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,其特征在于所述步驟7包括以下步驟步驟7a:為該網(wǎng)頁(yè)的地址和該數(shù)據(jù)對(duì)象建立一個(gè)一對(duì)一的映射關(guān)系,即以該網(wǎng)頁(yè)的地址作為鍵,以該數(shù)據(jù)對(duì)象作為值,形成一個(gè)鍵-值對(duì);步驟7b:將該數(shù)據(jù)對(duì)象中的字段列和字段值填入到步驟I中建立的三維數(shù)據(jù)表中與第一維中地址相對(duì)應(yīng)的第二維和第三維中;步驟7c:轉(zhuǎn)至步驟4b。全文摘要本發(fā)明涉及一種解析網(wǎng)頁(yè)表格對(duì)象節(jié)點(diǎn)的方法,包括步驟1.定義一個(gè)三維數(shù)據(jù)表;步驟2.獲取目標(biāo)網(wǎng)頁(yè)地址隊(duì)列;步驟3.對(duì)于步驟2中的每一項(xiàng)地址,檢查其是否已經(jīng)存在于步驟1的三維數(shù)據(jù)表中的第一維中;步驟4.根據(jù)網(wǎng)頁(yè)地址隊(duì)列下載網(wǎng)頁(yè),將所下載的網(wǎng)頁(yè)存儲(chǔ)在網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū);步驟5.對(duì)網(wǎng)頁(yè)臨時(shí)存儲(chǔ)區(qū)中的網(wǎng)頁(yè)進(jìn)行表格對(duì)象檢查,提取存在表格節(jié)點(diǎn)的網(wǎng)頁(yè)等7步。本發(fā)明提供了一套程序化和自動(dòng)化的方法來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)表格節(jié)點(diǎn)數(shù)據(jù)分析流程。通過(guò)此流程可以有效獲取網(wǎng)頁(yè)中表格節(jié)點(diǎn)的數(shù)據(jù),實(shí)現(xiàn)分析和比較,特別是為數(shù)據(jù)增值服務(wù)提供可能。本發(fā)明所提供的方法可以幫助用戶進(jìn)行大量的網(wǎng)絡(luò)信息采集和整理,在互聯(lián)網(wǎng)信息采集領(lǐng)域具有廣闊的應(yīng)用前景。文檔編號(hào)G06F17/30GK101576891SQ20081010588公開(kāi)日2009年11月11日申請(qǐng)日期2008年5月5日優(yōu)先權(quán)日2008年5月5日發(fā)明者晨孫申請(qǐng)人:北京瑞佳晨科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
昌江| 张家界市| 全椒县| 塔城市| 海伦市| 师宗县| 天等县| 台东市| 湘潭市| 吴江市| 浪卡子县| 苏尼特右旗| 颍上县| 那曲县| 汝州市| 赤峰市| 尼勒克县| 济南市| 弥勒县| 乐清市| 桐城市| 达日县| 前郭尔| 五莲县| 灵山县| 嘉祥县| 定日县| 德惠市| 韶关市| 海南省| 建德市| 舞阳县| 临颍县| 浦东新区| 大田县| 娱乐| 禄丰县| 孙吴县| 罗山县| 福海县| 万盛区|