本發(fā)明涉及計算機技術領域,特別涉及一種數(shù)據(jù)處理的方法及裝置。
背景技術:
互聯(lián)網網頁數(shù)據(jù)具有分布廣、格式多樣、非結構化等大數(shù)據(jù)的特點,因此需要用特定的方式對互聯(lián)網頁面的數(shù)據(jù)進行采集、加工和存儲等工作?;ヂ?lián)網網頁數(shù)據(jù)采集就是一個獲取互聯(lián)網網頁內容的過程,通過分析從網頁中抽取出用戶需要的數(shù)據(jù)內容。并對抽取出來的數(shù)據(jù)內容通過內容和格式的轉換和加工處理,存儲用以滿足用戶的需求。
現(xiàn)有技術中,在獲取網頁中的數(shù)據(jù)時,用戶找到需要獲取的網頁,操作相關工具從當前網頁中提取出數(shù)據(jù)。
通過上述描述可見,現(xiàn)有技術中,獲取網頁中數(shù)據(jù)的效率較低。
技術實現(xiàn)要素:
本發(fā)明實施例提供了一種數(shù)據(jù)處理的方法及裝置,能夠提高獲取網頁中目標數(shù)據(jù)的效率。
一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理的方法,包括:
獲取至少一個目標地址;
從每個所述目標地址對應的網頁中,抽取每個所述目標地址對應的目標數(shù)據(jù);
對各個所述目標地址對應的目標數(shù)據(jù)進行排重處理。
進一步地,所述對各個所述目標地址對應的目標數(shù)據(jù)進行排重處理,包括:
針對每個目標地址對應的目標數(shù)據(jù),從當前目標數(shù)據(jù)中抽取預設數(shù)量個出現(xiàn)次數(shù)最多的關鍵詞,確定每個所述關鍵詞的出現(xiàn)次數(shù);
計算每個所述關鍵詞的哈希值;
根據(jù)公式一確定所述當前目標數(shù)據(jù)的每個所述關鍵詞的關鍵詞相似參數(shù),其中,所述公式一為:
其中,Wi為所述當前目標數(shù)據(jù)的第j個關鍵詞的第i個關鍵詞相似參數(shù),Xj,i為所述當前目標數(shù)據(jù)的所述第j個關鍵詞的哈希值從右開始的第i位的值,Nj為所述當前目標數(shù)據(jù)的所述第j個關鍵詞的出現(xiàn)次數(shù);
根據(jù)公式二確定所述當前目標數(shù)據(jù)的每個目標數(shù)據(jù)相似參數(shù),其中,所述公式二為:
其中,Ai為所述當前目標數(shù)據(jù)的第i個目標數(shù)據(jù)相似參數(shù),n為所述預設數(shù)量;
根據(jù)公式三,確定所述當前目標數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:
其中,Bi為所述當前目標數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;
根據(jù)公式四,確定每兩個所述目標地址對應的目標數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:
C=D xor F,
其中,D為第一目標數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標數(shù)據(jù)的最終相似參數(shù),C為所述第一目標數(shù)據(jù)和所述第二目標數(shù)據(jù)的綜合相似參數(shù);
判斷每兩個目標數(shù)據(jù)的綜合相似參數(shù)中1的個數(shù)是否小于等于預設個數(shù),如果是,確定當前兩個目標數(shù)據(jù)相似,否則,確定當前兩個目標數(shù)據(jù)不相似;
排除每兩個相似的目標數(shù)據(jù)中的任意一個目標數(shù)據(jù)。
進一步地,在所述獲取至少一個目標地址之前,進一步包括:
預先設置目標網站對應的地址解析規(guī)則;
所述獲取至少一個目標地址,包括:
根據(jù)所述地址解析規(guī)則,確定所述目標網站對應的至少一個目標地址。
進一步地,所述預先設置目標網站對應的地址解析規(guī)則,包括:
確定所述目標網站的地址構建規(guī)則;
根據(jù)所述地址構建規(guī)則,設置所述地址解析規(guī)則。
進一步地,所述根據(jù)所述地址解析規(guī)則,確定所述目標網站對應的至少一個目標地址,包括:
根據(jù)所述地址解析規(guī)則,解析出所述目標網址對應的至少一個待處理地址;
對所述至少一個待處理地址進行排重處理,將排重處理后剩余的待處理地址作為所述目標地址。
另一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理的裝置,包括:
獲取單元,用于獲取至少一個目標地址;
抽取單元,用于從每個所述目標地址對應的網頁中,抽取每個所述目標地址對應的目標數(shù)據(jù);
排重單元,用于對各個所述目標地址對應的目標數(shù)據(jù)進行排重處理。
進一步地,所述排重單元,具體用于:
針對每個目標地址對應的目標數(shù)據(jù),從當前目標數(shù)據(jù)中抽取預設數(shù)量個出現(xiàn)次數(shù)最多的關鍵詞,確定每個所述關鍵詞的出現(xiàn)次數(shù);
計算每個所述關鍵詞的哈希值;
根據(jù)公式一確定所述當前目標數(shù)據(jù)的每個所述關鍵詞的關鍵詞相似參數(shù),其中,所述公式一為:
其中,Wi為所述當前目標數(shù)據(jù)的第j個關鍵詞的第i個關鍵詞相似參數(shù),Xj,i為所述當前目標數(shù)據(jù)的所述第j個關鍵詞的哈希值從右開始的第i位的值,Nj為所述當前目標數(shù)據(jù)的所述第j個關鍵詞的出現(xiàn)次數(shù);
根據(jù)公式二確定所述當前目標數(shù)據(jù)的每個目標數(shù)據(jù)相似參數(shù),其中,所述公式二為:
其中,Ai為所述當前目標數(shù)據(jù)的第i個目標數(shù)據(jù)相似參數(shù),n為所述預設數(shù)量;
根據(jù)公式三,確定所述當前目標數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:
其中,Bi為所述當前目標數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;
根據(jù)公式四,確定每兩個所述目標地址對應的目標數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:
C=D xor F,
其中,D為第一目標數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標數(shù)據(jù)的最終相似參數(shù),C為所述第一目標數(shù)據(jù)和所述第二目標數(shù)據(jù)的綜合相似參數(shù);
判斷每兩個目標數(shù)據(jù)的綜合相似參數(shù)中1的個數(shù)是否小于等于預設個數(shù),如果是,確定當前兩個目標數(shù)據(jù)相似,否則,確定當前兩個目標數(shù)據(jù)不相似;
排除每兩個相似的目標數(shù)據(jù)中的任意一個目標數(shù)據(jù)。
進一步地,進一步包括:設置單元,用于設置目標網站對應的地址解析規(guī)則;
所述獲取單元,用于根據(jù)所述地址解析規(guī)則,確定所述目標網站對應的至少一個目標地址。
進一步地,所述設置單元,用于確定所述目標網站的地址構建規(guī)則,根據(jù)所述地址構建規(guī)則,設置所述地址解析規(guī)則。
進一步地,所述所述獲取單元,用于根據(jù)所述地址解析規(guī)則,解析出所述目標網址對應的至少一個待處理地址,對所述至少一個待處理地址進行排重處理,將排重處理后剩余的待處理地址作為所述目標地址。
在本發(fā)明實施例中,獲取至少一個目標地址,從每個目標地址對應的網頁中,抽取用戶所需要的目標數(shù)據(jù),對抽取的目標數(shù)據(jù)進行排重處理,無需用戶對每個網頁通過操作相關工具來抽取數(shù)據(jù),提高了獲取網頁中目標數(shù)據(jù)的效率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明一實施例提供的一種數(shù)據(jù)處理的方法的流程圖;
圖2是本發(fā)明一實施例提供的另一種數(shù)據(jù)處理的方法的流程圖;
圖3是本發(fā)明一實施例提供的一種數(shù)據(jù)處理的裝置的示意圖;
圖4是本發(fā)明一實施例提供的另一種數(shù)據(jù)處理的裝置的示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例,基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如圖1所示,本發(fā)明實施例提供了一種數(shù)據(jù)處理的方法,該方法可以包括以下步驟:
步驟101:獲取至少一個目標地址;
步驟102:從每個所述目標地址對應的網頁中,抽取每個所述目標地址對應的目標數(shù)據(jù);
步驟103:對各個所述目標地址對應的目標數(shù)據(jù)進行排重處理。
在本發(fā)明實施例中,獲取至少一個目標地址,從每個目標地址對應的網頁中,抽取用戶所需要的目標數(shù)據(jù),對抽取的目標數(shù)據(jù)進行排重處理,無需用戶對每個網頁通過操作相關工具來抽取數(shù)據(jù),提高了獲取網頁中目標數(shù)據(jù)的效率。
在本發(fā)明一實施例中,所述對各個所述目標地址對應的目標數(shù)據(jù)進行排重處理,包括:
針對每個目標地址對應的目標數(shù)據(jù),從當前目標數(shù)據(jù)中抽取預設數(shù)量個出現(xiàn)次數(shù)最多的關鍵詞,確定每個所述關鍵詞的出現(xiàn)次數(shù);
計算每個所述關鍵詞的哈希值;
根據(jù)公式一確定所述當前目標數(shù)據(jù)的每個所述關鍵詞的關鍵詞相似參數(shù),其中,所述公式一為:
其中,Wi為所述當前目標數(shù)據(jù)的第j個關鍵詞的第i個關鍵詞相似參數(shù),Xj,i為所述當前目標數(shù)據(jù)的所述第j個關鍵詞的哈希值從右開始的第i位的值,Nj為所述當前目標數(shù)據(jù)的所述第j個關鍵詞的出現(xiàn)次數(shù);
根據(jù)公式二確定所述當前目標數(shù)據(jù)的每個目標數(shù)據(jù)相似參數(shù),其中,所述公式二為:
其中,Ai為所述當前目標數(shù)據(jù)的第i個目標數(shù)據(jù)相似參數(shù),n為所述預設數(shù)量;
根據(jù)公式三,確定所述當前目標數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:
其中,Bi為所述當前目標數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;
根據(jù)公式四,確定每兩個所述目標地址對應的目標數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:
C=D xor F,
其中,D為第一目標數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標數(shù)據(jù)的最終相似參數(shù),C為所述第一目標數(shù)據(jù)和所述第二目標數(shù)據(jù)的綜合相似參數(shù);
判斷每兩個目標數(shù)據(jù)的綜合相似參數(shù)中1的個數(shù)是否小于等于預設個數(shù),如果是,確定當前兩個目標數(shù)據(jù)相似,否則,確定當前兩個目標數(shù)據(jù)不相似;
排除每兩個相似的目標數(shù)據(jù)中的任意一個目標數(shù)據(jù)。
在本發(fā)明實施例中,通過公式一、公式二和公式三確定出每個目標地址對應的目標數(shù)據(jù)的最終相似參數(shù)。根據(jù)公式四,確定出每兩個目標數(shù)據(jù)對應的綜合相似參數(shù),通過每兩個目標數(shù)據(jù)對應的綜合相似參數(shù)中1的個數(shù)來確定每兩個目標數(shù)據(jù)是否相似。每個關鍵詞的哈希值為一個二進制數(shù)。最終相似參數(shù)也是一個二進制數(shù)。每兩個目標數(shù)據(jù)對應一個綜合相似參數(shù)。預設個數(shù)可以為3。舉例來說,當前目標數(shù)據(jù)是一段文字,從中抽取出3個關鍵詞分別是:“網頁”“算法”“數(shù)據(jù)”,出現(xiàn)次數(shù)分別是:6次,3次,2次。計算出“網頁”這個關鍵詞的哈希值為:101101,根據(jù)公式一,計算出“網頁”這個關鍵詞的關鍵詞相似參數(shù)依次為:-6,6,-6,-6,6,-6。計算出“算法”這個關鍵詞的哈希值為:011001,根據(jù)公式一,計算出“算法”這個關鍵詞的關鍵詞相似參數(shù)依次為:3,-3,-3,3,3,-3。計算出“數(shù)據(jù)”這個關鍵詞的哈希值為:110001,根據(jù)公式一,計算出“數(shù)據(jù)”這個關鍵詞的關鍵詞相似參數(shù)依次為:-2,-2,2,2,2,-2。根據(jù)公式二,計算出當前目標數(shù)據(jù)的第1個目標數(shù)據(jù)相似參數(shù)為(-6)+3+(-2)=-5。其他的目標數(shù)據(jù)相似參數(shù)依次為:1,-7,-1,11,-11。根據(jù)公式三,確定當前目標數(shù)據(jù)的最終相似參數(shù)為:010010。假設計算出第一目標數(shù)據(jù)的最終相似參數(shù)為:010010,第二目標數(shù)據(jù)的最終相似參數(shù)為:110110。根據(jù)公式四,計算出第一目標數(shù)據(jù)和第二目標數(shù)據(jù)對應的綜合相似參數(shù)為:100100。當預設個數(shù)為3時,由于第一目標數(shù)據(jù)和第二目標數(shù)據(jù)對應的綜合相似參數(shù)中1的個數(shù)為2小于3,所以確定第一目標數(shù)據(jù)和第二目標數(shù)據(jù)相似。需要對第一目標數(shù)據(jù)和第二目標數(shù)據(jù)進行排重處理。排除每兩個相似的目標數(shù)據(jù)中的任意一個目標數(shù)據(jù),具體包括:刪除兩個相似的目標數(shù)據(jù)中的任意一個目標數(shù)據(jù)。以上述的第一目標數(shù)據(jù)和第二目標數(shù)據(jù)為例,可以刪除第一目標數(shù)據(jù)或第二目標數(shù)據(jù)。
在本發(fā)明一實施例中,在所述獲取至少一個目標地址之前,進一步包括:
預先設置目標網站對應的地址解析規(guī)則;
所述獲取至少一個目標地址,包括:
根據(jù)所述地址解析規(guī)則,確定所述目標網站對應的至少一個目標地址。
在本發(fā)明實施例中,一個目標網站中可能有多個網頁,每個網頁有對應的目標地址,通過設置目標網站的地址解析規(guī)則,無需知道目標網站的所有目標地址,即可通過地址解析規(guī)則解析出該目標網站的目標地址。用戶無需手動查找每個目標地址,提高了抽取網頁中目標數(shù)據(jù)的效率。
在本發(fā)明一實施例中,所述預先設置目標網站對應的地址解析規(guī)則,包括:
確定所述目標網站的地址構建規(guī)則;
根據(jù)所述地址構建規(guī)則,設置所述地址解析規(guī)則。
在本發(fā)明實施例中,地址構建規(guī)則是指目標網站中網址的格式,例如:網址由主域名、多級子域名、多級目錄構成。
在本發(fā)明一實施例中,所述根據(jù)所述地址解析規(guī)則,確定所述目標網站對應的至少一個目標地址,包括:
根據(jù)所述地址解析規(guī)則,解析出所述目標網址對應的至少一個待處理地址;
對所述至少一個待處理地址進行排重處理,將排重處理后剩余的待處理地址作為所述目標地址。
在本發(fā)明實施例中,通過地址解析規(guī)則解析出的至少一個待處理地址中可能存在重復的地址,為了避免重復抽取相同的網頁,對待處理地址進行排重處理,能夠加快目標數(shù)據(jù)的抽取速度。具體地,可以通過布隆過濾器實現(xiàn)對至少一個待處理地址的排重處理。
在獲取目標數(shù)據(jù)后,還可以對目標數(shù)據(jù)進行整合處理,也就是將獲取的目標數(shù)據(jù)通過某組關鍵字建立對應關系,其實質是關鍵字之間的匹配,使得用戶可以通過關鍵字來查找所需要的目標數(shù)據(jù)。
另外,在對各個目標地址對應的目標數(shù)據(jù)進行排重處理時,可以通過Simhash算法進行排重處理。
如圖2所示,本發(fā)明實施例提供了一種數(shù)據(jù)處理的方法,該方法可以包括以下步驟:
步驟201:獲取至少一個目標地址。
具體地,至少一個目標地址可以是至少一個url(Uniform Resource Locator,統(tǒng)一資源定位符)地址??梢詫⒅辽僖粋€url地址存儲到url隊列中??梢酝ㄟ^web爬蟲從url隊列中獲取目標地址進行處理。
步驟202:從每個目標地址對應的網頁中,抽取每個目標地址對應的目標數(shù)據(jù)。
具體地,可以通過web爬蟲從目標地址對應的網頁抽取目標數(shù)據(jù)。在抽取當前網頁的目標數(shù)據(jù)時可以根據(jù)預設的抽取規(guī)則來抽取。其中,抽取規(guī)則可以包括:根據(jù)網站中網頁的模板中,抽取模板中指定模塊中的目標數(shù)據(jù),這里的指定模塊可以是面積最大的模塊。
步驟203:分別從每個目標數(shù)據(jù)中抽取預設數(shù)量個出現(xiàn)次數(shù)最多的關鍵詞,分別確定每個目標數(shù)據(jù)中每個關鍵詞的出現(xiàn)次數(shù)。
步驟204:分別計算每個目標數(shù)據(jù)中每個關鍵詞的哈希值。
具體地,可以通過MD2、MD4、MD5和SHA-1等哈希算法計算哈希值。
步驟205:根據(jù)公式一確定每個目標數(shù)據(jù)的每個關鍵詞的關鍵詞相似參數(shù)。
其中,公式一為:
其中,Wi為當前目標數(shù)據(jù)的第j個關鍵詞的第i個關鍵詞相似參數(shù),Xj,i為當前目標數(shù)據(jù)的第j個關鍵詞的哈希值從右開始的第i位的值,Nj為第j個關鍵詞的出現(xiàn)次數(shù)。
步驟206:根據(jù)公式二確定每個目標數(shù)據(jù)的每個目標數(shù)據(jù)相似參數(shù)。
其中,公式二為:
其中,Ai為當前目標數(shù)據(jù)的第i個目標數(shù)據(jù)相似參數(shù),n為預設數(shù)量。
步驟207:根據(jù)公式三,確定每個目標數(shù)據(jù)的最終相似參數(shù)。
其中,公式三為:
其中,Bi為當前目標數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值。
步驟208:根據(jù)公式四,確定每兩個目標地址對應的目標數(shù)據(jù)的綜合相似參數(shù)。
其中,公式四為:
C=D xor F,
其中,D為第一目標數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標數(shù)據(jù)的最終相似參數(shù),C為第一目標數(shù)據(jù)和第二目標數(shù)據(jù)的綜合相似參數(shù)。
步驟209:確定每兩個目標數(shù)據(jù)的綜合相似參數(shù)中1的個數(shù),在當前兩個目標數(shù)據(jù)的綜合相似參數(shù)中1的個數(shù)小于等于預設個數(shù)時,確定當前兩個目標數(shù)據(jù)相似,在當前兩個目標數(shù)據(jù)的綜合相似參數(shù)中1的個數(shù)大于預設個數(shù)時,確定當前兩個目標數(shù)據(jù)不相似。
步驟210:排除每兩個相似的目標數(shù)據(jù)中的任意一個目標數(shù)據(jù)。
具體地,可以刪除兩個相似的目標數(shù)據(jù)中的一個。可以將排重處理后的目標數(shù)據(jù)存儲到數(shù)據(jù)庫中。
另外,周期性檢測每個目標地址對應的網頁的源代碼是否發(fā)生改變,如果是,則重新從源代碼發(fā)生改變的網頁中抽取對應的目標數(shù)據(jù)。
在本發(fā)明實施例中,可以對不同類型的目標數(shù)據(jù)進行采集,比如股票信息、電商數(shù)據(jù)、論壇博客等。用戶可自定義網頁上自己需要的數(shù)據(jù)內容,比如時間、標題、正文等。支持翻頁網頁的數(shù)據(jù)采集。網頁信息維護自動化,抓取頁面內容有所改變時系統(tǒng)會自動更新并對新內容進行采集。保證良好的兼容性,支持跨平臺
在本發(fā)明實施例中,可以依據(jù)用戶事前配置好的規(guī)則進行數(shù)據(jù)采集工作,包括網頁下載規(guī)則和地址解析規(guī)則以及抽取規(guī)則等。并采用分布式處理,由采集平臺將配置好的采集任務傳送到不同的服務器上,對網站的大量數(shù)據(jù)開始采集工作并提供實時監(jiān)控功能。同時采集平臺可以對服務器集群進行監(jiān)控、管理、分析等操作。
如圖3、圖4所示,本發(fā)明實施例提供了一種數(shù)據(jù)處理的裝置。裝置實施例可以通過軟件實現(xiàn),也可以通過硬件或者軟硬件結合的方式實現(xiàn)。從硬件層面而言,如圖3所示,為本發(fā)明實施例提供的一種數(shù)據(jù)處理的裝置所在設備的一種硬件結構圖,除了圖3所示的處理器、內存、網絡接口、以及非易失性存儲器之外,實施例中裝置所在的設備通常還可以包括其他硬件,如負責處理報文的轉發(fā)芯片等等。以軟件實現(xiàn)為例,如圖4所示,作為一個邏輯意義上的裝置,是通過其所在設備的CPU將非易失性存儲器中對應的計算機程序指令讀取到內存中運行形成的。本實施例提供的一種數(shù)據(jù)處理的裝置,包括:
獲取單元401,用于獲取至少一個目標地址;
抽取單元402,用于從每個所述目標地址對應的網頁中,抽取每個所述目標地址對應的目標數(shù)據(jù);
排重單元403,用于對各個所述目標地址對應的目標數(shù)據(jù)進行排重處理。
在本發(fā)明一實施例中,所述排重單元,具體用于:
針對每個目標地址對應的目標數(shù)據(jù),從當前目標數(shù)據(jù)中抽取預設數(shù)量個出現(xiàn)次數(shù)最多的關鍵詞,確定每個所述關鍵詞的出現(xiàn)次數(shù);
計算每個所述關鍵詞的哈希值;
根據(jù)公式一確定所述當前目標數(shù)據(jù)的每個所述關鍵詞的關鍵詞相似參數(shù),其中,所述公式一為:
其中,Wi為所述當前目標數(shù)據(jù)的第j個關鍵詞的第i個關鍵詞相似參數(shù),Xj,i為所述當前目標數(shù)據(jù)的所述第j個關鍵詞的哈希值從右開始的第i位的值,Nj為所述當前目標數(shù)據(jù)的所述第j個關鍵詞的出現(xiàn)次數(shù);
根據(jù)公式二確定所述當前目標數(shù)據(jù)的每個目標數(shù)據(jù)相似參數(shù),其中,所述公式二為:
其中,Ai為所述當前目標數(shù)據(jù)的第i個目標數(shù)據(jù)相似參數(shù),n為所述預設數(shù)量;
根據(jù)公式三,確定所述當前目標數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:
其中,Bi為所述當前目標數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;
根據(jù)公式四,確定每兩個所述目標地址對應的目標數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:
C=D xor F,
其中,D為第一目標數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標數(shù)據(jù)的最終相似參數(shù),C為所述第一目標數(shù)據(jù)和所述第二目標數(shù)據(jù)的綜合相似參數(shù);
判斷每兩個目標數(shù)據(jù)的綜合相似參數(shù)中1的個數(shù)是否小于等于預設個數(shù),如果是,確定當前兩個目標數(shù)據(jù)相似,否則,確定當前兩個目標數(shù)據(jù)不相似;
排除每兩個相似的目標數(shù)據(jù)中的任意一個目標數(shù)據(jù)。
在本發(fā)明一實施例中,該裝置進一步包括:設置單元,用于設置目標網站對應的地址解析規(guī)則;
所述獲取單元,用于根據(jù)所述地址解析規(guī)則,確定所述目標網站對應的至少一個目標地址。
在本發(fā)明一實施例中,所述設置單元,用于確定所述目標網站的地址構建規(guī)則,根據(jù)所述地址構建規(guī)則,設置所述地址解析規(guī)則。
在本發(fā)明一實施例中,所述所述獲取單元,用于根據(jù)所述地址解析規(guī)則,解析出所述目標網址對應的至少一個待處理地址,對所述至少一個待處理地址進行排重處理,將排重處理后剩余的待處理地址作為所述目標地址。
上述裝置內的各單元之間的信息交互、執(zhí)行過程等內容,由于與本發(fā)明方法實施例基于同一構思,具體內容可參見本發(fā)明方法實施例中的敘述,此處不再贅述。
本發(fā)明各個實施例至少具有如下有益效果:
1、在本發(fā)明實施例中,獲取至少一個目標地址,從每個目標地址對應的網頁中,抽取用戶所需要的目標數(shù)據(jù),對抽取的目標數(shù)據(jù)進行排重處理,無需用戶對每個網頁通過操作相關工具來抽取數(shù)據(jù),提高了獲取網頁中目標數(shù)據(jù)的效率。
2、在本發(fā)明實施例中,一個目標網站中可能有多個網頁,每個網頁有對應的目標地址,通過設置目標網站的地址解析規(guī)則,無需知道目標網站的所有目標地址,即可通過地址解析規(guī)則解析出該目標網站的目標地址。用戶無需手動查找每個目標地址,提高了抽取網頁中目標數(shù)據(jù)的效率。
3、在本發(fā)明實施例中,通過地址解析規(guī)則解析出的至少一個待處理地址中可能存在重復的地址,為了避免重復抽取相同的網頁,對待處理地址進行排重處理,能夠加快目標數(shù)據(jù)的抽取速度。
需要說明的是,在本文中,諸如第一和第二之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個〃·····”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同因素。
本領域普通技術人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲在計算機可讀取的存儲介質中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質中。
最后需要說明的是:以上所述僅為本發(fā)明的較佳實施例,僅用于說明本發(fā)明的技術方案,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所做的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內。