Web信息采集系統(tǒng)的制作方法

文檔序號：6431321閱讀：224來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：Web信息采集系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息采集領(lǐng)域，尤其涉及一種Web信息采集系統(tǒng)。
背景技術(shù)：
隨著Internet的迅速發(fā)展，網(wǎng)絡(luò)正深刻地改變著人們的生活。而在網(wǎng)上發(fā)展最為迅猛WWW技術(shù)已逐漸成為Internet上最重要的信息發(fā)布和傳輸方式。然而,Web信息的急速膨脹，在給人們提供豐富的資源的同時，又使人們對它們的有效使用方面面臨一個巨大的挑戰(zhàn)。

發(fā)明內(nèi)容
針對這一情況,本發(fā)明發(fā)明了一種Web信息米集系統(tǒng),該系統(tǒng)包括URL處理器、協(xié) 議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫；
所述的URL處理器，其用于給待采集的URL排序，并根據(jù)一定的策略向協(xié)議處理器分配
URL ；
所述的協(xié)議處理器，其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集；所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ；
所述的重復(fù)內(nèi)容檢測器，其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測；
所述的URL提取器，其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析，并對鏈接進行必要的轉(zhuǎn)換；
所述的Meta信息獲取器，其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息；并對頁面中提取出來的URL的好壞給出度量，并將度量結(jié)果傳輸?shù)経RL處理器用于排序；
所述的語義信息解析器，其用于對文本內(nèi)容建立索引；
所述的數(shù)據(jù)庫，其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。本發(fā)明發(fā)明的Web信息采集系統(tǒng)提高了一般Web信息采集的能力，方便了人們對網(wǎng)絡(luò)信息資源的使用。

圖I為本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖如圖I所示，該系統(tǒng)包括URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫；
所述的URL處理器，其用于給待采集的URL排序，并根據(jù)一定的策略向協(xié)議處理器分配URL ；
所述的協(xié)議處理器，其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集；所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ；
所述的重復(fù)內(nèi)容檢測器，其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測；
所述的URL提取器，其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析，并對鏈接進行必要的轉(zhuǎn)換；
所述的Meta信息獲取器，其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息；并對頁面中提取出來的URL的好壞給出度量，并將度量結(jié)果傳輸?shù)経RL處理器用于排序；所述的語義信息解析器，其用于對文本內(nèi)容建立索引；
所述的數(shù)據(jù)庫，其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
權(quán)利要求
1.Web信息采集系統(tǒng)，其特征在于，包括 URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫；所述的URL處理器，其用于給待采集的URL排序，并根據(jù)一定的策略向協(xié)議處理器分配URL ；所述的協(xié)議處理器，其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集；所述的Web協(xié)議包括 HTTP、FTP、Gopher 以及 BBS ；所述的重復(fù)內(nèi)容檢測器，其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測；所述的URL提取器，其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析，并對鏈接進行必要的轉(zhuǎn)換；所述的Meta信息獲取器，其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息；并對頁面中提取出來的URL的好壞給出度量，并將度量結(jié)果傳輸?shù)経RL處理器用于排序；所述的語義信息解析器，其用于對文本內(nèi)容建立索引；所述的數(shù)據(jù)庫，其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
全文摘要
本發(fā)明涉及信息采集領(lǐng)域，尤其涉及一種Web信息采集系統(tǒng)。該系統(tǒng)包括用于給待采集的URL排序，并根據(jù)一定的策略向協(xié)議處理器分配URL的URL處理器；用于通過各種Web協(xié)議完成數(shù)據(jù)的采集的協(xié)議處理器；用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測的重復(fù)內(nèi)容檢測器；用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析，并對鏈接進行必要的轉(zhuǎn)換的URL提取器；用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息的Meta信息獲取器；以及用于對文本內(nèi)容建立索引的語義信息解析器；和用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要的數(shù)據(jù)庫。該系統(tǒng)提高了一般Web信息采集的能力，方便了人們對網(wǎng)絡(luò)信息資源的使用。
文檔編號G06F17/30GK102955795SQ201110243359
公開日2013年3月6日申請日期2011年8月24日優(yōu)先權(quán)日2011年8月24日
發(fā)明者丁力申請人:句容今太科技園有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：丁力
技術(shù)所有人：句容今太科技園有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

幼升小信息采集系統(tǒng)相關(guān)技術(shù)

學(xué)位信息采集系統(tǒng)相關(guān)技術(shù)

小學(xué)入學(xué)信息采集系統(tǒng)相關(guān)技術(shù)

入學(xué)信息采集系統(tǒng)相關(guān)技術(shù)

北京入學(xué)信息采集系統(tǒng)相關(guān)技術(shù)

北京信息采集系統(tǒng)相關(guān)技術(shù)

園區(qū)新生信息采集系統(tǒng)相關(guān)技術(shù)

北京市信息采集系統(tǒng)相關(guān)技術(shù)

小升初信息采集系統(tǒng)相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

Web信息采集系統(tǒng)的制作方法