一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法

文檔序號(hào)：7664177閱讀：261來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域，特別涉及一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng) 采集方法。
背景技術(shù)：
在現(xiàn)在的生活中，采集系統(tǒng)廣泛應(yīng)用于行業(yè)門戶網(wǎng)站，競爭情報(bào)系統(tǒng)，知識(shí)管理系統(tǒng)，網(wǎng)站內(nèi)容系統(tǒng)，科研等領(lǐng)域。所謂采集系統(tǒng)，就是將非結(jié)構(gòu)化的信息從各種網(wǎng)站來源頁面中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的系統(tǒng)。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法。
本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn) 一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法，其特征在于，包括以下步驟
1) 蜘蛛采集計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)存儲(chǔ)裝置中讀取網(wǎng)址鏈接表；
2) 檢測網(wǎng)址鏈接表中是否有待采集的網(wǎng)址，若否，則采集結(jié)束；
3) 若步驟2)的檢測結(jié)果為是，則選擇對應(yīng)于待采集的網(wǎng)址的分解規(guī)則；
4) 創(chuàng)建至少一個(gè)線程，該至少一個(gè)線程通過所選的分解規(guī)則分解當(dāng)前網(wǎng) 址的頁面；
5) 分解完成后，將需保存的網(wǎng)頁信息及采集狀態(tài)信息保存到數(shù)據(jù)存儲(chǔ)裝置，并返回步驟2)。
所述的非結(jié)構(gòu)化網(wǎng)頁信息包括名稱、描述、圖片。所述的分解規(guī)則采用正則表達(dá)式。
所述的蜘蛛采集計(jì)算機(jī)系統(tǒng)與待采集的網(wǎng)站系統(tǒng)之間通過基于Http協(xié)議的全球資源定位器(Url)方式相互通訊。來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的系統(tǒng)，通過本發(fā)明的方法，可以在信息收集整合方面節(jié)約大量的人力與資金。

圖1為本發(fā)明的流程圖；圖2為本發(fā)明的原理圖。
具體實(shí)施例方式
下面結(jié)合附圖對本實(shí)用新型作進(jìn)一步說明。
如圖l、 2所示，一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法，包括以下步驟
1) 蜘蛛采集計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)存儲(chǔ)裝置中讀取網(wǎng)址鏈接表；
2) 檢測網(wǎng)址鏈接表中是否有待采集的網(wǎng)址，若否，則采集結(jié)束；
3) 若步驟2)的檢測結(jié)果為是，則選擇對應(yīng)于待采集的網(wǎng)址的分解規(guī)則；
4) 創(chuàng)建至少一個(gè)線程，該至少一個(gè)線程通過所選的分解規(guī)則分解當(dāng)前網(wǎng) 址的頁面；
5) 分解完成后，將需保存的網(wǎng)頁信息及采集狀態(tài)信息保存到數(shù)據(jù)存儲(chǔ)裝置，并返回步驟2)。
所述的非結(jié)構(gòu)化網(wǎng)頁信息包括名稱、描述、圖片；所述的分解規(guī)則采用正則表達(dá)式；所述的蜘蛛采集計(jì)算機(jī)系統(tǒng)與待采集的網(wǎng)站系統(tǒng)之間通過基于Http 協(xié)議的全球資源定位器(Url)方式相互通訊。
在網(wǎng)絡(luò)服務(wù)器端建立一套蜘蛛采集計(jì)算機(jī)系統(tǒng)，建立一套保存采集到的數(shù) 據(jù)存儲(chǔ)裝置；通過網(wǎng)絡(luò)針對各個(gè)網(wǎng)站采集數(shù)據(jù)，蜘蛛采集計(jì)算機(jī)系統(tǒng)與需要采集的網(wǎng)站系統(tǒng)之間通過基于超文本傳輸協(xié)議(HTTP)的全球資源定位器(URL)方式實(shí)現(xiàn)相互之間的通訊。
其中
數(shù)據(jù)存儲(chǔ)裝置，用于存儲(chǔ)數(shù)據(jù)，蜘蛛前臺(tái)采集程序從這里獲取即將采集的鏈接列表，并且相應(yīng)的采集狀態(tài)也會(huì)在更新在這里。
蜘蛛采集計(jì)算機(jī)系統(tǒng)，用于處理各個(gè)鏈接，下載連接具體頁面，判斷采用哪組分解規(guī)則，并且真正分解。本實(shí)施例中，蜘蛛采集系統(tǒng)首先會(huì)讀入事先保存在存儲(chǔ)系統(tǒng)中的采集鏈接列表(源列表)，列表中的信息為具體需要采集的鏈接以及當(dāng)前狀態(tài)，采集開始后，首先會(huì)根據(jù)設(shè)定的線程數(shù)量以及設(shè)定的最多保存圖片數(shù)量來啟動(dòng)線程，接著具體線程就會(huì)根據(jù)當(dāng)前采集的鏈接地址判斷應(yīng)該應(yīng)用哪組分解規(guī)則。接著，蜘蛛采集系統(tǒng)會(huì)根據(jù)所使用的分解規(guī)則下載并分解對應(yīng)的頁面源代碼，本實(shí)施例使用正則表達(dá)式來分解各種有必要保存的屬性，比如名稱、描述、圖片列表等等。如此循環(huán)直到最后分解完所有鏈接。以上分解過程中，如果有圖則保存這些圖到相應(yīng)的目錄中(在蜘蛛采集系統(tǒng)所在目錄中)，并且采集下來的數(shù)據(jù)會(huì)保存到存儲(chǔ)系統(tǒng)中。
在上述方法中，運(yùn)用到了多線程執(zhí)行。這是因?yàn)榭紤]到采集的數(shù)據(jù)量多，占用時(shí)間長。各個(gè)線程通過委托來發(fā)出各個(gè)信號(hào)，表達(dá)更新，然后主界面根據(jù) 參數(shù)更新界面中的各個(gè)元素值和統(tǒng)計(jì)信息。當(dāng)一個(gè)線程分解完一個(gè)鏈接后，會(huì) 調(diào)用主程序中的函數(shù)來獲得下一個(gè)鏈接地址，有則分解，無則停止當(dāng)前線程。以此一直到最后。
在上述方法中，運(yùn)用了正則表達(dá)式來分解屬性。這是因?yàn)檫\(yùn)用正則表達(dá)式可以簡化許多字符串問題。
存儲(chǔ)裝置中需要存儲(chǔ)的需要采集的網(wǎng)址鏈接，這個(gè)可以是通過其他錄入程序來進(jìn)行，也可以是其他導(dǎo)入程序?qū)氲摹?br> 本實(shí)施例可以啟動(dòng)相應(yīng)的線程來同時(shí)處理這些鏈接，每個(gè)線程也會(huì)根據(jù)自身完成分解情況，繼續(xù)處理后續(xù)鏈接，直到無后續(xù)鏈接為止。
權(quán)利要求
1. 一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法，其特征在于，包括以下步驟1)蜘蛛采集計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)存儲(chǔ)裝置中讀取網(wǎng)址鏈接表；2)檢測網(wǎng)址鏈接表中是否有待采集的網(wǎng)址，若否，則采集結(jié)束；3)若步驟2)的檢測結(jié)果為是，則選擇對應(yīng)于待采集的網(wǎng)址的分解規(guī)則；4)創(chuàng)建至少一個(gè)線程，該至少一個(gè)線程通過所選的分解規(guī)則分解當(dāng)前網(wǎng)址的頁面；5)分解完成后，將需保存的網(wǎng)頁信息及采集狀態(tài)信息保存到數(shù)據(jù)存儲(chǔ)裝置，并返回步驟2)。
2. 根據(jù)權(quán)利要求1所述的一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法，其特征在于，所述的非結(jié)構(gòu)化網(wǎng)頁信息包括名稱、描述、圖片。
3. 根據(jù)權(quán)利要求1所述的一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法，其特征在于，所述的分解規(guī)則采用正則表達(dá)式。
4. 根據(jù)權(quán)利要求1所述的一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法，其特征在于，所述的蜘蛛采集計(jì)算機(jī)系統(tǒng)與待采集的網(wǎng)站系統(tǒng)之間通過基于Http協(xié) 議的全球資源定位器(Url)方式相互通訊。
全文摘要
本發(fā)明涉及一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法，包括以下步驟1)蜘蛛采集計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)存儲(chǔ)裝置中讀取網(wǎng)址鏈接表；2)檢測網(wǎng)址鏈接表中是否有待采集的網(wǎng)址，若否，則采集結(jié)束；3)若步驟2的檢測結(jié)果為是，則選擇對應(yīng)于待采集的網(wǎng)址的分解規(guī)則；4)創(chuàng)建至少一個(gè)線程，該至少一個(gè)線程通過所選的分解規(guī)則分解當(dāng)前網(wǎng)址的頁面；5)分解完成后，將需保存的網(wǎng)頁信息及采集狀態(tài)信息保存到數(shù)據(jù)存儲(chǔ)裝置，并返回步驟2。與現(xiàn)有技術(shù)相比，本發(fā)明將非結(jié)構(gòu)化的信息從各種網(wǎng)站來源頁面中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的系統(tǒng)，通過本發(fā)明的方法，可以在信息收集整合方面節(jié)約大量的人力與資金。
文檔編號(hào)H04L29/06GK101441629SQ20071017060
公開日2009年5月27日申請日期2007年11月19日優(yōu)先權(quán)日2007年11月19日
發(fā)明者戴斌華, 駿金申請人:上海新納廣告?zhèn)髅接邢薰?

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金駿;戴斌華
技術(shù)所有人：上海新納廣告?zhèn)髅接邢薰?/span>
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

非結(jié)構(gòu)化數(shù)據(jù)采集技術(shù)相關(guān)技術(shù)

非結(jié)構(gòu)化數(shù)據(jù)采集相關(guān)技術(shù)

結(jié)構(gòu)化數(shù)據(jù)采集相關(guān)技術(shù)

網(wǎng)頁結(jié)構(gòu)化相關(guān)技術(shù)

網(wǎng)頁信息采集相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種非結(jié)構(gòu)化網(wǎng)頁信息的自動(dòng)采集方法