本發(fā)明涉及大數(shù)據(jù)云計算技術(shù)領(lǐng)域,特別涉及一種大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅速發(fā)展和日益普及,網(wǎng)絡(luò)信息平臺所能提供的內(nèi)容越發(fā)豐富多彩,用戶在搜索所需信息時面臨搜索難度增加及信息篩選所需消耗的大量時間和精力也隨之而來。搜索引擎的出現(xiàn)解決了海量信息檢索的難題。搜索引擎通過爬蟲進行資源的搜集。網(wǎng)絡(luò)爬蟲通過網(wǎng)絡(luò)連接進行網(wǎng)頁文檔的爬取和收集,即從預(yù)先給定的URL入手,利用H1vrP協(xié)議爬取所需的HTML文檔,并分析這些HTML文檔中所包含的超鏈接,再次抓取未訪問的鏈接及其包含的資源。如此反復(fù)直至沒有新的URL。
但是由于移動互聯(lián)網(wǎng)的迅猛發(fā)展,現(xiàn)在新的網(wǎng)頁內(nèi)容呈現(xiàn)爆發(fā)式增長,傳統(tǒng)的爬取系統(tǒng)已經(jīng)無法滿足大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)爬取的需求。
技術(shù)實現(xiàn)要素:
因此,有必要提供一種能夠?qū)崟r爬取大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)。
一種大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng),其包括如下模塊:
初始化種子優(yōu)化模塊,用于錄入網(wǎng)站種子鏈接;通過元搜索的方式,將最優(yōu)的結(jié)果反饋給用戶;挖掘鏈接與主題關(guān)系度靠前的鏈接;定期將符合條件的網(wǎng)頁鏈接加入到種子集合中,作為初始種子的集合;
整合模塊,用于對HTML的網(wǎng)頁文檔進行獲取,并對文本中的信息進行標(biāo)注;
網(wǎng)頁超鏈接信息整合模塊,用于對網(wǎng)頁的超鏈接的描述數(shù)據(jù)進行保存的,如果有2個頁面A和B,如果A的超鏈接指向了B,則默認(rèn)的認(rèn)為B里的信息內(nèi)容比A的信息內(nèi)容質(zhì)量高,同時如果用戶查詢信息的時候同時指向了A和B2個超鏈接,則默認(rèn)為A和B的信息質(zhì)量相同;
網(wǎng)頁相關(guān)度計算模塊,用于通過具體的數(shù)值來分析主題相關(guān)度,用具體的數(shù)值信息來表示相關(guān)度的信息;
超鏈接重要度計算模塊,用于將計算出來的數(shù)值信息作為判定相關(guān)度的一個依據(jù),也是通過具體的數(shù)值來量化分析;如果當(dāng)前頁面所包含的鏈接數(shù)目達到了一定的數(shù)值,表示這個頁面有若干個鏈接,如果包含的數(shù)目達到了預(yù)設(shè)數(shù)值表示所包含的主題資源符合了預(yù)設(shè)要求。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,所述網(wǎng)頁相關(guān)度計算模塊包括:
單次遍歷單元,用于輸入網(wǎng)頁頁面文中的字符串,定義為m-scontent;循環(huán)查找,條件是找到相應(yīng)的標(biāo)記符,標(biāo)記符定義為delimiters;搜索函數(shù)截取位置1,搜索函數(shù)定義為Find();搜索函數(shù)截取位置2,使用同一個搜索函數(shù);截取位置1、2并輸出到字符串,字符串定義為dest;遍歷結(jié)束,輸出字符串;
重復(fù)單元,用于重復(fù)執(zhí)行單次遍歷單元,直到把信息的挖掘點挖掘出來,并通過純文本分類匯聚算法提取信息挖掘點挖掘出的特征向量關(guān)鍵詞;在挖掘出的信息獲取主題相關(guān)度的算法用空間向量模型表示。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,
空間向量模型表示如下:
首先分析網(wǎng)頁頁面的文本信息,這里定義α=(w1,w2,…wn),i=l,2,...n,
對關(guān)鍵詞出現(xiàn)的次數(shù)進行統(tǒng)計,把出現(xiàn)頻率最高的關(guān)鍵詞定位標(biāo)準(zhǔn),這里把頻率定義為xi,構(gòu)建一個向量xiwi,并定義頁面主題的向量β=(x1w1,x2w2,…xnwn),i=1,2,...n,;則兩個向量的余弦函數(shù)就能夠反應(yīng)出關(guān)鍵詞所出現(xiàn)的頻率,相關(guān)度具體公式如下:
其中兩個向量的夾角越大,表示頻率越小,表明與主題的相關(guān)度越??;夾角越小表示出現(xiàn)的頻率越大,說明與主題的相關(guān)度更高;
設(shè)置當(dāng)前網(wǎng)頁與主題相關(guān)度的閾值;大于閾值表示與主題相關(guān),否則與主題不相關(guān),對于與主題相關(guān)的網(wǎng)頁進行分類保存,提交到數(shù)據(jù)庫建立索引數(shù)據(jù)。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,設(shè)置當(dāng)前網(wǎng)頁與主題相關(guān)度的閾值包括:
定期隨機采樣,獲得預(yù)設(shè)數(shù)量的原始網(wǎng)頁頁面文檔,并通過人工分析網(wǎng)頁的相關(guān)性,并計算準(zhǔn)確率;
對準(zhǔn)確率進行反復(fù)統(tǒng)計,如果預(yù)測次數(shù)統(tǒng)計的準(zhǔn)確率波動小于預(yù)設(shè)誤差值,則降低閾值用于提高爬蟲覆蓋率;如果預(yù)測次數(shù)統(tǒng)計的準(zhǔn)確率波動大于或等于預(yù)設(shè)誤差值,則提高閾值用于提高爬蟲的準(zhǔn)確率;
重復(fù)執(zhí)行對準(zhǔn)確率進行反復(fù)統(tǒng)計直至獲得想要的閾值。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,超鏈接重要度計算模塊包括:
對頁面重要度的計算公式如下:
pu=w1*cos<α,β>+w2*Hub(u),其中Hub(u)表示網(wǎng)頁的鏈接重要度,CL(u)表示搜索到的連接數(shù)定位,其最大值用Cmax表示;頁面相關(guān)度的權(quán)值用m1表示,頁面鏈接度的權(quán)值用m2表示;m1和m2滿足以下條件0<m1,m2<l且m1+m2=l。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,所述整合模塊還包括:
對HTML的網(wǎng)頁文檔進行獲取并分析是否為視頻HTML,如是,繼續(xù)判斷URL是否屬于可運行爬行域名,不屬于可運行爬行域名直接終止,屬于可運行爬行域名則獲取URL的域名,并獲取與該域名相對應(yīng)的視頻解析類;判斷視頻解析類是否為空,為空則結(jié)束,不為空繼續(xù)判斷是否為視頻HTML的播放地址,不是播放地址則結(jié)束,是播放地址則從URL和內(nèi)容中得到視頻真實下載地址列表,在視頻真實下載地址列表不為空時,返回視頻真實下載地址列表并結(jié)束;不為視頻HTML時,并對文本中的信息進行標(biāo)注并挑戰(zhàn)到網(wǎng)頁超鏈接信息整合模塊。
實施本發(fā)明提供的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)與現(xiàn)有技術(shù)相比具有以下有益效果:通過設(shè)置網(wǎng)頁相關(guān)度計算模塊用具體的數(shù)值來分析主題相關(guān)度,用具體的數(shù)值信息來表示相關(guān)度的信息;通過超鏈接重要度計算模塊將計算出來的數(shù)值信息作為判定相關(guān)度的一個依據(jù),也是通過具體的數(shù)值來量化分析;如果當(dāng)前頁面所包含的鏈接數(shù)目達到了一定的數(shù)值,表示這個頁面有若干個鏈接,如果包含的數(shù)目達到了預(yù)設(shè)數(shù)值表示所包含的主題資源符合了預(yù)設(shè)要求,能夠在海量的大數(shù)據(jù)中獲得想要的網(wǎng)絡(luò)數(shù)據(jù),并通過設(shè)置整合模塊對HTML的網(wǎng)頁文檔進行獲取并分析是否為視頻HTML,能夠區(qū)分普通網(wǎng)頁和視頻網(wǎng)頁,是的爬取的效率更高。
附圖說明
圖1是本發(fā)明實施例的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)結(jié)構(gòu)框圖。
圖2是圖1中網(wǎng)頁相關(guān)度計算模塊的結(jié)構(gòu)框圖。
具體實施方式
如圖1、2所示,一種大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng),其包括如下模塊:
初始化種子優(yōu)化模塊,用于錄入網(wǎng)站種子鏈接;通過元搜索的方式,將最優(yōu)的結(jié)果反饋給用戶;挖掘鏈接與主題關(guān)系度靠前的鏈接;定期將符合條件的網(wǎng)頁鏈接加入到種子集合中,作為初始種子的集合。
可選地,初始化種子優(yōu)化模塊中,設(shè)置最大優(yōu)先級隊列,在最大優(yōu)先級隊列所維護的集合set中,集合中每個元素對應(yīng)一個優(yōu)先級key。通過最大優(yōu)選級隊列支持如下流程:
插入隊列Insert(set,e,key):將優(yōu)選級為key的元素e插入到set中;
最高級隊列Max(set):返回集合set中優(yōu)先級最高的元素;
提取隊列Ext(set):返回集合set中優(yōu)選級最高的元素,并將其從set中刪除;
遞增隊列(set,e,key):將集合set中元素e的優(yōu)選級設(shè)置為key。
通過本實施例,可以通過最大堆實現(xiàn),具有很高的效率。
整合模塊,用于對HTML的網(wǎng)頁文檔進行獲取,并對文本中的信息進行標(biāo)注。
網(wǎng)頁超鏈接信息整合模塊,用于對網(wǎng)頁的超鏈接的描述數(shù)據(jù)進行保存的,如果有2個頁面A和B,如果A的超鏈接指向了B,則默認(rèn)的認(rèn)為B里的信息內(nèi)容比A的信息內(nèi)容質(zhì)量高,同時如果用戶查詢信息的時候同時指向了A和B2個超鏈接,則默認(rèn)為A和B的信息質(zhì)量相同。
網(wǎng)頁相關(guān)度計算模塊,用于通過具體的數(shù)值來分析主題相關(guān)度,用具體的數(shù)值信息來表示相關(guān)度的信息。
超鏈接重要度計算模塊,用于將計算出來的數(shù)值信息作為判定相關(guān)度的一個依據(jù),也是通過具體的數(shù)值來量化分析;如果當(dāng)前頁面所包含的鏈接數(shù)目達到了一定的數(shù)值,表示這個頁面有若干個鏈接,如果包含的數(shù)目達到了預(yù)設(shè)數(shù)值表示所包含的主題資源符合了預(yù)設(shè)要求。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,所述網(wǎng)頁相關(guān)度計算模塊包括:
單次遍歷單元,用于輸入網(wǎng)頁頁面文中的字符串,定義為m-scontent;循環(huán)查找,條件是找到相應(yīng)的標(biāo)記符,標(biāo)記符定義為delimiters;搜索函數(shù)截取位置1,搜索函數(shù)定義為Find();搜索函數(shù)截取位置2,使用同一個搜索函數(shù);截取位置1、2并輸出到字符串,字符串定義為dest;遍歷結(jié)束,輸出字符串。
重復(fù)單元,用于重復(fù)執(zhí)行單次遍歷單元,直到把信息的挖掘點挖掘出來,并通過純文本分類匯聚算法提取信息挖掘點挖掘出的特征向量關(guān)鍵詞;在挖掘出的信息獲取主題相關(guān)度的算法用空間向量模型表示。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,
空間向量模型表示如下:
首先分析網(wǎng)頁頁面的文本信息,這里定義α=(w1,w2,…wn),i=l,2,...n,
對關(guān)鍵詞出現(xiàn)的次數(shù)進行統(tǒng)計,把出現(xiàn)頻率最高的關(guān)鍵詞定位標(biāo)準(zhǔn),這里把頻率定義為xi,構(gòu)建一個向量xiwi,并定義頁面主題的向量β=(x1w1,x2w2,…xnwn),i=1,2,...n,;則兩個向量的余弦函數(shù)就能夠反應(yīng)出關(guān)鍵詞所出現(xiàn)的頻率,相關(guān)度具體公式如下:
其中兩個向量的夾角越大,表示頻率越小,表明與主題的相關(guān)度越?。粖A角越小表示出現(xiàn)的頻率越大,說明與主題的相關(guān)度更高。
設(shè)置當(dāng)前網(wǎng)頁與主題相關(guān)度的閾值;大于閾值表示與主題相關(guān),否則與主題不相關(guān),對于與主題相關(guān)的網(wǎng)頁進行分類保存,提交到數(shù)據(jù)庫建立索引數(shù)據(jù)。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,設(shè)置當(dāng)前網(wǎng)頁與主題相關(guān)度的閾值包括:
定期隨機采樣,獲得預(yù)設(shè)數(shù)量的原始網(wǎng)頁頁面文檔,并通過人工分析網(wǎng)頁的相關(guān)性,并計算準(zhǔn)確率。
對準(zhǔn)確率進行反復(fù)統(tǒng)計,如果預(yù)測次數(shù)統(tǒng)計的準(zhǔn)確率波動小于預(yù)設(shè)誤差值,則降低閾值用于提高爬蟲覆蓋率;如果預(yù)測次數(shù)統(tǒng)計的準(zhǔn)確率波動大于或等于預(yù)設(shè)誤差值,則提高閾值用于提高爬蟲的準(zhǔn)確率。
重復(fù)執(zhí)行對準(zhǔn)確率進行反復(fù)統(tǒng)計直至獲得想要的閾值。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,超鏈接重要度計算模塊包括:
對頁面重要度的計算公式如下:
pu=w1*cos<α,β>+w2*Hub(u),其中Hub(u)表示網(wǎng)頁的鏈接重要度,CL(u)表示搜索到的連接數(shù)定位,其最大值用Cmax表示;頁面相關(guān)度的權(quán)值用m1表示,頁面鏈接度的權(quán)值用m2表示;m1和m2滿足以下條件0<m1,m2<l且m1+m2=l。
在本發(fā)明所述的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)中,所述整合模塊還包括:
對HTML的網(wǎng)頁文檔進行獲取并分析是否為視頻HTML,如是,繼續(xù)判斷URL是否屬于可運行爬行域名,不屬于可運行爬行域名直接終止,屬于可運行爬行域名則獲取URL的域名,并獲取與該域名相對應(yīng)的視頻解析類;判斷視頻解析類是否為空,為空則結(jié)束,不為空繼續(xù)判斷是否為視頻HTML的播放地址,不是播放地址則結(jié)束,是播放地址則從URL和內(nèi)容中得到視頻真實下載地址列表,在視頻真實下載地址列表不為空時,返回視頻真實下載地址列表并結(jié)束;不為視頻HTML時,并對文本中的信息進行標(biāo)注并挑戰(zhàn)到網(wǎng)頁超鏈接信息整合模塊。
實施本發(fā)明提供的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)實時爬取系統(tǒng)與現(xiàn)有技術(shù)相比具有以下有益效果:通過設(shè)置網(wǎng)頁相關(guān)度計算模塊用具體的數(shù)值來分析主題相關(guān)度,用具體的數(shù)值信息來表示相關(guān)度的信息;通過超鏈接重要度計算模塊將計算出來的數(shù)值信息作為判定相關(guān)度的一個依據(jù),也是通過具體的數(shù)值來量化分析;如果當(dāng)前頁面所包含的鏈接數(shù)目達到了一定的數(shù)值,表示這個頁面有若干個鏈接,如果包含的數(shù)目達到了預(yù)設(shè)數(shù)值表示所包含的主題資源符合了預(yù)設(shè)要求,能夠在海量的大數(shù)據(jù)中獲得想要的網(wǎng)絡(luò)數(shù)據(jù),并通過設(shè)置整合模塊對HTML的網(wǎng)頁文檔進行獲取并分析是否為視頻HTML,能夠區(qū)分普通網(wǎng)頁和視頻網(wǎng)頁,是的爬取的效率更高。
可以理解的是,對于本領(lǐng)域的普通技術(shù)人員來說,可以根據(jù)本發(fā)明的技術(shù)構(gòu)思做出其它各種相應(yīng)的改變與變形,而所有這些改變與變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護范圍。