两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

Web信息采集系統(tǒng)的制作方法

文檔序號:6431321閱讀:224來源:國知局
專利名稱:Web信息采集系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種Web信息采集系統(tǒng)。
背景技術(shù)
隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)正深刻地改變著人們的生活。而在網(wǎng)上發(fā)展最為迅猛WWW技術(shù)已逐漸成為Internet上最重要的信息發(fā)布和傳輸方式。然而,Web信息的急速膨脹,在給人們提供豐富的資源的同時,又使人們對它們的有效使用方面面臨一個巨大的挑戰(zhàn)。

發(fā)明內(nèi)容
針對這一情況,本發(fā)明發(fā)明了一種Web信息米集系統(tǒng),該系統(tǒng)包括URL處理器、協(xié) 議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;
所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配
URL ;
所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ;
所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測;
所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換;
所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序;
所述的語義信息解析器,其用于對文本內(nèi)容建立索引;
所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。本發(fā)明發(fā)明的Web信息采集系統(tǒng)提高了一般Web信息采集的能力,方便了人們對網(wǎng)絡(luò)信息資源的使用。


圖I為本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖如圖I所示,該系統(tǒng)包括URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;
所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL ;
所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ;
所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測;
所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換;
所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序; 所述的語義信息解析器,其用于對文本內(nèi)容建立索引;
所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
權(quán)利要求
1.Web信息采集系統(tǒng),其特征在于,包括 URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫; 所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL ; 所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括 HTTP、FTP、Gopher 以及 BBS ; 所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測; 所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換; 所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序; 所述的語義信息解析器,其用于對文本內(nèi)容建立索引; 所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
全文摘要
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種Web信息采集系統(tǒng)。該系統(tǒng)包括用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL的URL處理器;用于通過各種Web協(xié)議完成數(shù)據(jù)的采集的協(xié)議處理器;用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測的重復(fù)內(nèi)容檢測器;用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換的URL提取器;用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息的Meta信息獲取器;以及用于對文本內(nèi)容建立索引的語義信息解析器;和用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要的數(shù)據(jù)庫。該系統(tǒng)提高了一般Web信息采集的能力,方便了人們對網(wǎng)絡(luò)信息資源的使用。
文檔編號G06F17/30GK102955795SQ201110243359
公開日2013年3月6日 申請日期2011年8月24日 優(yōu)先權(quán)日2011年8月24日
發(fā)明者丁力 申請人:句容今太科技園有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
崇阳县| 娄烦县| 上饶市| 牟定县| 安西县| 浦北县| 祁连县| 博罗县| 乌兰察布市| 响水县| 壶关县| 中宁县| 阳朔县| 湖南省| 酒泉市| 千阳县| 东平县| 册亨县| 越西县| 济南市| 电白县| 土默特左旗| 锦屏县| 保德县| 万宁市| 汕尾市| 茌平县| 岳普湖县| 望奎县| 会昌县| 秦安县| 红桥区| 吉木乃县| 合水县| 茂名市| 静海县| 宁明县| 隆尧县| 南部县| 始兴县| 顺义区|