專利名稱:Web信息采集系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種Web信息采集系統(tǒng)。
背景技術(shù):
隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)正深刻地改變著人們的生活。而在網(wǎng)上發(fā)展最為迅猛WWW技術(shù)已逐漸成為Internet上最重要的信息發(fā)布和傳輸方式。然而,Web信息的急速膨脹,在給人們提供豐富的資源的同時,又使人們對它們的有效使用方面面臨一個巨大的挑戰(zhàn)。
發(fā)明內(nèi)容
針對這一情況,本發(fā)明發(fā)明了一種Web信息米集系統(tǒng),該系統(tǒng)包括URL處理器、協(xié) 議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;
所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配
URL ;
所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ;
所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測;
所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換;
所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序;
所述的語義信息解析器,其用于對文本內(nèi)容建立索引;
所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。本發(fā)明發(fā)明的Web信息采集系統(tǒng)提高了一般Web信息采集的能力,方便了人們對網(wǎng)絡(luò)信息資源的使用。
圖I為本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖如圖I所示,該系統(tǒng)包括URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;
所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL ;
所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ;
所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測;
所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換;
所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序; 所述的語義信息解析器,其用于對文本內(nèi)容建立索引;
所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
權(quán)利要求
1.Web信息采集系統(tǒng),其特征在于,包括 URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫; 所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL ; 所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括 HTTP、FTP、Gopher 以及 BBS ; 所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測; 所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換; 所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序; 所述的語義信息解析器,其用于對文本內(nèi)容建立索引; 所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
全文摘要
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種Web信息采集系統(tǒng)。該系統(tǒng)包括用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL的URL處理器;用于通過各種Web協(xié)議完成數(shù)據(jù)的采集的協(xié)議處理器;用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測的重復(fù)內(nèi)容檢測器;用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換的URL提取器;用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息的Meta信息獲取器;以及用于對文本內(nèi)容建立索引的語義信息解析器;和用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要的數(shù)據(jù)庫。該系統(tǒng)提高了一般Web信息采集的能力,方便了人們對網(wǎng)絡(luò)信息資源的使用。
文檔編號G06F17/30GK102955795SQ201110243359
公開日2013年3月6日 申請日期2011年8月24日 優(yōu)先權(quán)日2011年8月24日
發(fā)明者丁力 申請人:句容今太科技園有限公司