一種網(wǎng)頁信息排重的方法、裝置及計算機可讀存儲介質(zhì)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù),尤其涉及一種網(wǎng)頁信息排重的方法、裝置及計算機可 讀存儲介質(zhì)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)上的網(wǎng)頁信息也越來越多。搜索引擎的索引 數(shù)據(jù)通常可達百億級別的網(wǎng)頁信息,有統(tǒng)計結(jié)果表明,近似重復(fù)網(wǎng)頁信息的數(shù)量占網(wǎng)頁信 息總數(shù)的比例高達全部頁面的29%,而完全相同的頁面大約占全部頁面的22%,這意味著用 戶每次搜索得到的網(wǎng)頁信息中,有相當(dāng)大比例的內(nèi)容是完全相同或者相似的。
[0003]目前,網(wǎng)頁信息排重的方法主要有:
[0004] -、Shingling算法,包括:分別獲取當(dāng)前比對的兩個網(wǎng)頁信息中文檔的特征集 合;根據(jù)兩個網(wǎng)頁信息中文檔的特征集合比較所述兩個網(wǎng)頁信息的重疊程度。其中,所述特 征集合由文檔的全部Shingle組合構(gòu)成。但是,這種算法計算效率不高,如果網(wǎng)頁信息數(shù)量 大,運行時間會過長不實用。
[0005] 二、I-Match算法,包括:分別掃描需要去重的兩個網(wǎng)頁信息,根據(jù)全局特征詞典, 分別獲得所述兩個網(wǎng)頁信息的特征詞,對所有的特征詞進行哈希計算得到唯一的數(shù)值作為 所述網(wǎng)頁信息的信息指紋;利用兩個網(wǎng)頁信息的信息指紋判斷所述兩個網(wǎng)頁信息是否近似 重復(fù)。但是,這種算法很容易出現(xiàn)由于特征詞典覆蓋不足,導(dǎo)致很多信息被過多過濾,進而 出現(xiàn)誤判為重復(fù)內(nèi)容的情況。
[0006] 三、Simhash算法,包括:文檔指紋計算和相似文檔查找。其中,所述文檔指紋計算 為將網(wǎng)頁信息中的文本文檔轉(zhuǎn)換為固定大小的二進制數(shù)值作為文檔的信息指紋;所述相似 性查找為根據(jù)進行對比的兩個網(wǎng)頁信息的信息指紋間的海明距離來衡量兩個網(wǎng)頁信息中 文本的相似性。但是,這種算法靈敏度太高,容易導(dǎo)致漏排的情況發(fā)生。
[0007] 可見,現(xiàn)有技術(shù)中的網(wǎng)頁信息排重的方法無法提高計算效率,以及無法有效平衡 網(wǎng)頁信息相似度計算過程中的誤排和漏排問題。
【發(fā)明內(nèi)容】
[0008] 有鑒于此,本發(fā)明實施例的目的在于提供一種網(wǎng)頁信息排重的方法、裝置及計算 機可讀存儲介質(zhì),能至少解決現(xiàn)有技術(shù)存在的上述問題。
[0009] 為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
[0010] 一種網(wǎng)頁信息排重的方法,所述方法包括:
[0011] 利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進行分組,得到第一層分組;
[0012] 分別對各個第一層分組中的各個網(wǎng)頁信息進行第二層分組;
[0013] 對各個第二層分組中的網(wǎng)頁信息進行篩選,得到排重后的結(jié)果。
[0014] 優(yōu)選的,所述利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進行分組,得到第一層 分組,包括:
[0015] 獲取一個或多個網(wǎng)頁信息,分別計算各個所述網(wǎng)頁信息的正文指紋值,根據(jù)所述 正文指紋值對各個網(wǎng)頁信息進行分組,得到多個第一層分組。
[0016] 優(yōu)選的,所述分別計算各個所述網(wǎng)頁信息的正文指紋值,包括:依次提取網(wǎng)頁信息 的一個或多個特征因子,利用所述一個或多個特征因子組成所述網(wǎng)頁信息對應(yīng)的字符串; 利用MD5算法對所述字符串進行計算,得到正文指紋值。
[0017] 優(yōu)選的,所述利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進行分組之前,所述方 法還包括:分別計算各個所述網(wǎng)頁信息的綜合權(quán)重值。
[0018] 優(yōu)選的,所述分別對各個第一層分組中的各個網(wǎng)頁信息進行第二層分組,包括:依 次選取第一層分組作為當(dāng)前分組,對所述當(dāng)前分組中的一個或多個網(wǎng)頁信息進行主域分 組、和/或?qū)m椫讣y分組、和/或分析標(biāo)題simhash、和/或正文simhash分組、和/或主題 分組得到一個或多個第二層分組。
[0019] 優(yōu)選的,對各個第二層分組中的網(wǎng)頁信息進行篩選,得到排重后的結(jié)果,包括:依 次選取第二層分組作為當(dāng)前分組,對所述當(dāng)前分組中的各個網(wǎng)頁信息進行排序;根據(jù)預(yù)設(shè) 的優(yōu)選保留策略,對當(dāng)前分組中排序后的各個網(wǎng)頁信息進行篩選;從所述當(dāng)前分組中的篩 選后得到的結(jié)果中選取指定數(shù)量個的網(wǎng)頁信息作為排重后的結(jié)果。
[0020] 優(yōu)選的,所述對當(dāng)前分組中的各個網(wǎng)頁信息進行排序,包括:對所述當(dāng)前分組中的 各個網(wǎng)頁信息根據(jù)綜合權(quán)重值進行排序;或者,對所述當(dāng)前分組中的各個網(wǎng)頁信息進行主 題排序。
[0021] 一種網(wǎng)頁信息排重的裝置,所述裝置包括:第一層分組模塊、第二層分組模塊和保 留計算模塊;其中,
[0022] 第一層分組模塊,用于利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進行分組,得 到第一層分組;
[0023] 第二層分組模塊,用于分別對第一層分組模塊得到的各個第一層分組中的各個網(wǎng) 頁信息進行第二層分組;
[0024] 保留計算模塊,用于對第二層分組模塊得到的各個第二層分組中的網(wǎng)頁信息進行 篩選,得到排重后的結(jié)果。
[0025] 優(yōu)選的,所述裝置還包括:因子獲取模塊和因子預(yù)處理模塊;其中,
[0026] 因子獲取模塊,用于周期性的從云存儲平臺獲取當(dāng)前存儲的一個或多個網(wǎng)頁信 息;
[0027] 因子預(yù)處理模塊,用于獲取因子獲取模塊中的一個或多個網(wǎng)頁信息,分別計算各 個所述網(wǎng)頁信息的正文指紋值,根據(jù)所述正文指紋值對各個網(wǎng)頁信息進行分組,得到多個 第一層分組。
[0028] 優(yōu)選的,所述因子預(yù)處理模塊,具體用于依次提取網(wǎng)頁信息的一個或多個特征因 子,利用所述一個或多個特征因子組成所述網(wǎng)頁信息對應(yīng)的字符串;利用MD5算法對所述 字符串進行計算,得到正文指紋值。
[0029] 優(yōu)選的,所述裝置還包括:綜合權(quán)重計算模塊,用于分別計算各個所述網(wǎng)頁信息的 綜合權(quán)重值。
[0030] 優(yōu)選的,所述第二層分組模塊,具體用于依次選取第一層分組作為當(dāng)前分組,對所 述當(dāng)前分組中的一個或多個網(wǎng)頁信息進行主域分組、和/或?qū)m椫讣y分組、和/或分析標(biāo)題 simhash分組、和/或正文simhash分組、和/或主題分組得到一個或多個第二層分組。 [0031] 優(yōu)選的,所述裝置還包括:排序模塊,用于從第二層分組模塊中得到的一個或多個 第二層分組中,選取第二層分組作為當(dāng)前分組,對所述當(dāng)前分組中的各個網(wǎng)頁信息進行排 序;
[0032] 相應(yīng)的,所述保留計算模塊,具體用于根據(jù)預(yù)設(shè)的優(yōu)選保留策略,對排序模塊中當(dāng) 前分組中排序后的各個網(wǎng)頁信息進行篩選;從所述當(dāng)前分組中的篩選后得到的結(jié)果中選取 指定數(shù)量個的網(wǎng)頁信息作為排重后的結(jié)果。
[0033] 優(yōu)選的,所述排序模塊,具體用于對所述當(dāng)前分組中的各個網(wǎng)頁信息根據(jù)綜合權(quán) 重值進行排序;或者,對所述當(dāng)前分組中的各個網(wǎng)頁信息進行主題排序。
[0034] 一種計算機可讀存儲介質(zhì),該存儲介質(zhì)包括一組指令,當(dāng)執(zhí)行所述指令時,引起至 少一個處理器執(zhí)行包括以下的操作:
[0035] 利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進行分組,得到第一層分組;
[0036] 分別對各個第一層分組中的各個網(wǎng)頁信息進行第二層分組;
[0037] 對各個第二層分組中的網(wǎng)頁信息進行篩選,得到排重后的結(jié)果。
[0038] 優(yōu)選的,所述存儲介質(zhì)還包括引起至少一個處理器執(zhí)行以下操作的指令,所述操 作包括:
[0039] 獲取一個或多個網(wǎng)頁信息,分別計算各個所述網(wǎng)頁信息的正文指紋值,根據(jù)所述 正文指紋值對各個網(wǎng)頁信息進行分組,得到多個第一層分組。
[0040] 優(yōu)選的,所述存儲介質(zhì)還包括引起至少一個處理器執(zhí)行以下操作的指令,所述操 作包括:
[0041] 依次提取網(wǎng)頁信息的一個或多個特征因子,利用所述一個或多個特征因子組成所 述網(wǎng)頁信息對應(yīng)的字符串;利用MD5算法對所述字符串進行計算,得到正文指紋值。
[0042] 優(yōu)選的,所述存儲介質(zhì)還包括引起至少一個處理器執(zhí)行以下操作的指令,所述操 作包括:
[0043] 分別計算各個所述網(wǎng)頁信息的綜合權(quán)重值。
[0044] 優(yōu)選的,所述存儲介質(zhì)還包括引起至少一個處理器執(zhí)行以下操作的指令,所述操 作包括:
[0045] 依次選取第一層分組作為當(dāng)前分組,對所述當(dāng)前分組中的一個或多個網(wǎng)頁信息進 行主域分組、和/或?qū)m椫讣y分組、和/或分析標(biāo)題simhash、和/或正文simhash分組、和 /或主題分組得到一個或多個第二層分組。
[0046] 優(yōu)選的,所述存儲介質(zhì)還包括引起至少一個處理器執(zhí)行以下操作的指令,所述操 作包括:
[0047] 依次選取第二層分組作為當(dāng)前分組,對所述當(dāng)前分組中的各個網(wǎng)頁信息進行排 序;根據(jù)預(yù)設(shè)的優(yōu)選保留策略,對當(dāng)前分組中排序后的各個網(wǎng)頁信息進行篩選;從所述當(dāng) 前分組中的篩選后得到的結(jié)果中選取指定數(shù)量個的網(wǎng)頁信息作為排重后的結(jié)果。
[0048] 優(yōu)選的,所述存儲介質(zhì)還包括引起至少一個處理器執(zhí)行以下操作的指令,所述操 作包括:
[0049] 對所述當(dāng)