两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法

文檔序號(hào):7664177閱讀:261來源:國知局
專利名稱:一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng) 采集方法。
背景技術(shù)
在現(xiàn)在的生活中,采集系統(tǒng)廣泛應(yīng)用于行業(yè)門戶網(wǎng)站,競爭情報(bào)系統(tǒng),知 識(shí)管理系統(tǒng),網(wǎng)站內(nèi)容系統(tǒng),科研等領(lǐng)域。所謂采集系統(tǒng),就是將非結(jié)構(gòu)化的 信息從各種網(wǎng)站來源頁面中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的系統(tǒng)。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提 供一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法。
本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn) 一種非結(jié)構(gòu)化網(wǎng)頁信息的自 動(dòng)采集方法,其特征在于,包括以下步驟
1) 蜘蛛采集計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)存儲(chǔ)裝置中讀取網(wǎng)址鏈接表;
2) 檢測網(wǎng)址鏈接表中是否有待采集的網(wǎng)址,若否,則采集結(jié)束;
3) 若步驟2)的檢測結(jié)果為是,則選擇對應(yīng)于待采集的網(wǎng)址的分解規(guī)則;
4) 創(chuàng)建至少一個(gè)線程,該至少一個(gè)線程通過所選的分解規(guī)則分解當(dāng)前網(wǎng) 址的頁面;
5) 分解完成后,將需保存的網(wǎng)頁信息及采集狀態(tài)信息保存到數(shù)據(jù)存儲(chǔ)裝 置,并返回步驟2)。
所述的非結(jié)構(gòu)化網(wǎng)頁信息包括名稱、描述、圖片。 所述的分解規(guī)則采用正則表達(dá)式。
所述的蜘蛛采集計(jì)算機(jī)系統(tǒng)與待采集的網(wǎng)站系統(tǒng)之間通過基于Http協(xié)議 的全球資源定位器(Url)方式相互通訊。來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的系統(tǒng),通過本發(fā)明的方法,可以在信息收集整合 方面節(jié)約大量的人力與資金。


圖1為本發(fā)明的流程圖; 圖2為本發(fā)明的原理圖。
具體實(shí)施例方式
下面結(jié)合附圖對本實(shí)用新型作進(jìn)一步說明。
如圖l、 2所示, 一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法,包括以下步驟
1) 蜘蛛采集計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)存儲(chǔ)裝置中讀取網(wǎng)址鏈接表;
2) 檢測網(wǎng)址鏈接表中是否有待采集的網(wǎng)址,若否,則采集結(jié)束;
3) 若步驟2)的檢測結(jié)果為是,則選擇對應(yīng)于待采集的網(wǎng)址的分解規(guī)則;
4) 創(chuàng)建至少一個(gè)線程,該至少一個(gè)線程通過所選的分解規(guī)則分解當(dāng)前網(wǎng) 址的頁面;
5) 分解完成后,將需保存的網(wǎng)頁信息及采集狀態(tài)信息保存到數(shù)據(jù)存儲(chǔ)裝 置,并返回步驟2)。
所述的非結(jié)構(gòu)化網(wǎng)頁信息包括名稱、描述、圖片;所述的分解規(guī)則采用正 則表達(dá)式;所述的蜘蛛采集計(jì)算機(jī)系統(tǒng)與待采集的網(wǎng)站系統(tǒng)之間通過基于Http 協(xié)議的全球資源定位器(Url)方式相互通訊。
在網(wǎng)絡(luò)服務(wù)器端建立一套蜘蛛采集計(jì)算機(jī)系統(tǒng),建立一套保存采集到的數(shù) 據(jù)存儲(chǔ)裝置;通過網(wǎng)絡(luò)針對各個(gè)網(wǎng)站采集數(shù)據(jù),蜘蛛采集計(jì)算機(jī)系統(tǒng)與需要采 集的網(wǎng)站系統(tǒng)之間通過基于超文本傳輸協(xié)議(HTTP)的全球資源定位器(URL)方 式實(shí)現(xiàn)相互之間的通訊。
其中
數(shù)據(jù)存儲(chǔ)裝置,用于存儲(chǔ)數(shù)據(jù),蜘蛛前臺(tái)采集程序從這里獲取即將采集的 鏈接列表,并且相應(yīng)的采集狀態(tài)也會(huì)在更新在這里。
蜘蛛采集計(jì)算機(jī)系統(tǒng),用于處理各個(gè)鏈接,下載連接具體頁面,判斷采用 哪組分解規(guī)則,并且真正分解。本實(shí)施例中,蜘蛛采集系統(tǒng)首先會(huì)讀入事先保存在存儲(chǔ)系統(tǒng)中的采集鏈接 列表(源列表),列表中的信息為具體需要采集的鏈接以及當(dāng)前狀態(tài),采集開 始后,首先會(huì)根據(jù)設(shè)定的線程數(shù)量以及設(shè)定的最多保存圖片數(shù)量來啟動(dòng)線程, 接著具體線程就會(huì)根據(jù)當(dāng)前采集的鏈接地址判斷應(yīng)該應(yīng)用哪組分解規(guī)則。接 著,蜘蛛采集系統(tǒng)會(huì)根據(jù)所使用的分解規(guī)則下載并分解對應(yīng)的頁面源代碼,本 實(shí)施例使用正則表達(dá)式來分解各種有必要保存的屬性,比如名稱、描述、圖 片列表等等。如此循環(huán)直到最后分解完所有鏈接。以上分解過程中,如果有圖 則保存這些圖到相應(yīng)的目錄中(在蜘蛛采集系統(tǒng)所在目錄中),并且采集下來 的數(shù)據(jù)會(huì)保存到存儲(chǔ)系統(tǒng)中。
在上述方法中,運(yùn)用到了多線程執(zhí)行。這是因?yàn)榭紤]到采集的數(shù)據(jù)量多, 占用時(shí)間長。各個(gè)線程通過委托來發(fā)出各個(gè)信號(hào),表達(dá)更新,然后主界面根據(jù) 參數(shù)更新界面中的各個(gè)元素值和統(tǒng)計(jì)信息。當(dāng)一個(gè)線程分解完一個(gè)鏈接后,會(huì) 調(diào)用主程序中的函數(shù)來獲得下一個(gè)鏈接地址,有則分解,無則停止當(dāng)前線程。 以此一直到最后。
在上述方法中,運(yùn)用了正則表達(dá)式來分解屬性。這是因?yàn)檫\(yùn)用正則表達(dá)式 可以簡化許多字符串問題。
存儲(chǔ)裝置中需要存儲(chǔ)的需要采集的網(wǎng)址鏈接,這個(gè)可以是通過其他錄入程 序來進(jìn)行,也可以是其他導(dǎo)入程序?qū)氲摹?br> 本實(shí)施例可以啟動(dòng)相應(yīng)的線程來同時(shí)處理這些鏈接,每個(gè)線程也會(huì)根據(jù)自 身完成分解情況,繼續(xù)處理后續(xù)鏈接,直到無后續(xù)鏈接為止。
權(quán)利要求
1. 一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法,其特征在于,包括以下步驟1)蜘蛛采集計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)存儲(chǔ)裝置中讀取網(wǎng)址鏈接表;2)檢測網(wǎng)址鏈接表中是否有待采集的網(wǎng)址,若否,則采集結(jié)束;3)若步驟2)的檢測結(jié)果為是,則選擇對應(yīng)于待采集的網(wǎng)址的分解規(guī)則;4)創(chuàng)建至少一個(gè)線程,該至少一個(gè)線程通過所選的分解規(guī)則分解當(dāng)前網(wǎng)址的頁面;5)分解完成后,將需保存的網(wǎng)頁信息及采集狀態(tài)信息保存到數(shù)據(jù)存儲(chǔ)裝置,并返回步驟2)。
2. 根據(jù)權(quán)利要求1所述的一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法,其特 征在于,所述的非結(jié)構(gòu)化網(wǎng)頁信息包括名稱、描述、圖片。
3. 根據(jù)權(quán)利要求1所述的一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法,其特 征在于,所述的分解規(guī)則采用正則表達(dá)式。
4. 根據(jù)權(quán)利要求1所述的一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法,其特 征在于,所述的蜘蛛采集計(jì)算機(jī)系統(tǒng)與待采集的網(wǎng)站系統(tǒng)之間通過基于Http協(xié) 議的全球資源定位器(Url)方式相互通訊。
全文摘要
本發(fā)明涉及一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法,包括以下步驟1)蜘蛛采集計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)存儲(chǔ)裝置中讀取網(wǎng)址鏈接表;2)檢測網(wǎng)址鏈接表中是否有待采集的網(wǎng)址,若否,則采集結(jié)束;3)若步驟2的檢測結(jié)果為是,則選擇對應(yīng)于待采集的網(wǎng)址的分解規(guī)則;4)創(chuàng)建至少一個(gè)線程,該至少一個(gè)線程通過所選的分解規(guī)則分解當(dāng)前網(wǎng)址的頁面;5)分解完成后,將需保存的網(wǎng)頁信息及采集狀態(tài)信息保存到數(shù)據(jù)存儲(chǔ)裝置,并返回步驟2。與現(xiàn)有技術(shù)相比,本發(fā)明將非結(jié)構(gòu)化的信息從各種網(wǎng)站來源頁面中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的系統(tǒng),通過本發(fā)明的方法,可以在信息收集整合方面節(jié)約大量的人力與資金。
文檔編號(hào)H04L29/06GK101441629SQ20071017060
公開日2009年5月27日 申請日期2007年11月19日 優(yōu)先權(quán)日2007年11月19日
發(fā)明者戴斌華, 駿 金 申請人:上海新納廣告?zhèn)髅接邢薰?
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
顺昌县| 巴中市| 乌苏市| 鞍山市| 清苑县| 兰西县| 莱阳市| 前郭尔| 石门县| 五峰| 南丰县| 汨罗市| 闵行区| 贵州省| 桐乡市| 文水县| 抚顺县| 昌乐县| 高淳县| 景德镇市| 邮箱| 道真| 临颍县| 若尔盖县| 松溪县| 龙口市| 连南| 隆尧县| 新安县| 高台县| 武川县| 闽清县| 五大连池市| 镇康县| 大邑县| 长顺县| 锡林浩特市| 池州市| 沽源县| 南澳县| 田东县|