两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種網(wǎng)頁信息排重的方法、裝置及計算機(jī)可讀存儲介質(zhì)的制作方法_2

文檔序號:8258592閱讀:來源:國知局
前分組中的各個網(wǎng)頁信息根據(jù)綜合權(quán)重值進(jìn)行排序;或者,對所述當(dāng)前 分組中的各個網(wǎng)頁信息進(jìn)行主題排序。
[0050] 本發(fā)明實施例所提供的頁信息排重的方法及裝置,能利用各個網(wǎng)頁信息的正文指 紋值將網(wǎng)頁信息進(jìn)行分組,得到第一層分組;分別對各個第一層分組中的各個網(wǎng)頁信息進(jìn) 行第二層分組;對各個第二層分組中的網(wǎng)頁信息進(jìn)行篩選,得到排重后的結(jié)果。從而,能夠 通過使用正文指紋值進(jìn)行第一次分組,保證將內(nèi)容相近的網(wǎng)頁信息盡可能的放在同一個分 組中,減低漏排問題;再通過第二次分組采用降低網(wǎng)頁信息的誤排問題。
【附圖說明】
[0051] 圖1為本發(fā)明實施例一網(wǎng)頁信息排重的方法的流程示意圖;
[0052] 圖2為本發(fā)明實施例二網(wǎng)頁信息排重的裝置組成結(jié)構(gòu)示意圖。
【具體實施方式】
[0053] 本發(fā)明實施例的基本思想是:利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進(jìn)行分 組,得到第一層分組;分別對各個第一層分組中的各個網(wǎng)頁信息進(jìn)行第二層分組;對各個 第二層分組中的網(wǎng)頁信息進(jìn)行篩選,得到排重后的結(jié)果。
[0054] 下面結(jié)合附圖及具體實施例對本發(fā)明實施例再作進(jìn)一步詳細(xì)的說明。
[0055] 實施例一、
[0056] 本發(fā)明實施例提出的網(wǎng)頁信息排重的方法,如圖1所示,包括以下步驟:
[0057] 步驟101 :利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進(jìn)行分組,得到第一層分 組。
[0058] 具體的,獲取一個或多個網(wǎng)頁信息,分別計算各個所述網(wǎng)頁信息的正文指紋值,根 據(jù)所述正文指紋值對各個網(wǎng)頁信息進(jìn)行分組,得到多個第一層分組。
[0059] 這里,所述獲取一個或多個網(wǎng)頁信息可以為周期性的從云存儲平臺獲取當(dāng)前存儲 的一個或多個網(wǎng)頁信息,其獲取方法為現(xiàn)有技術(shù),這里不做贅述;所述云存儲平臺存儲網(wǎng)頁 信息也為現(xiàn)有技術(shù),這里不做贅述。其中,所述周期性可以為每24小時進(jìn)行一次。
[0060] 所述正文指紋值的計算方法為:依次提取網(wǎng)頁信息的一個或多個特征因子,利用 所述一個或多個特征因子組成所述網(wǎng)頁信息對應(yīng)的字符串;利用MD5算法對所述字符串進(jìn) 行計算,得到正文指紋值。這樣,能夠?qū)⒕W(wǎng)頁信息進(jìn)行預(yù)先處理,轉(zhuǎn)換為排重更易處理的格 式,過濾掉缺損的數(shù)據(jù),壓縮數(shù)據(jù)規(guī)模。
[0061] 其中,所述特征因子可以為各個網(wǎng)頁信息的正文內(nèi)容、標(biāo)題、分類結(jié)果、正文內(nèi)容 句子個數(shù);還可以為網(wǎng)頁信息語言類型、Dom樹等。
[0062] 所述利用一個或多個特征因子組成所述網(wǎng)頁信息對應(yīng)的字符串為:根據(jù)所述網(wǎng)頁 信息中的分隔符提取一個或多個句子;對提取的所述一個或多個句子進(jìn)行去重,去掉超過 指定長度且重復(fù)的句子,將去重后得到的一個或多個句子進(jìn)行歸一化處理后得到的一個或 多個句子作為特征因子;從所述特征因子中選取長度最長的前指定數(shù)量個特征因子,將所 述特征因子按順序進(jìn)行拼接組成所述網(wǎng)頁信息對應(yīng)的字符串;其中,所述歸一化處理為: 對句子按長度排序,對長度相同的句子按拼音排序,以及對詞語按拼音排序,所述按長度排 序以及按拼音排序均可以使用現(xiàn)有技術(shù)實現(xiàn),這里不做贅述;
[0063] 或者,根據(jù)預(yù)設(shè)的字典計算所述網(wǎng)頁信息中各個詞的權(quán)重值,選取權(quán)重值為前指 定位的詞作為特征因子,將所述特征因子按照指定的順序進(jìn)行拼接組成所述網(wǎng)頁信息對應(yīng) 的字符串;其中,所述指定的順序可以為按照預(yù)設(shè)的字典中各個分詞的排列順序;所述前 指定位可以為前10位;其中,所述預(yù)設(shè)的字典的生成方法為現(xiàn)有技術(shù),可以為利用統(tǒng)計學(xué) 和機(jī)器學(xué)習(xí)的方法計算熱點詞或者關(guān)鍵詞的重要度作為所述熱點詞或關(guān)鍵詞的權(quán)重值,將 所述特征詞或關(guān)鍵詞、及其權(quán)重值共同組成所述字典;
[0064] 或者,選取指定類型的標(biāo)題對應(yīng)的網(wǎng)頁中權(quán)重值最高的前指定位個詞作為一個或 多個特征因子,利用一個或多個特征因子組成所述網(wǎng)頁信息對應(yīng)的字符串;比如,可以為先 歸一化標(biāo)題、從網(wǎng)頁中選取權(quán)重值前5位的詞,將所述歸一化標(biāo)題、以及所述詞按照預(yù)設(shè)的 字典的順序進(jìn)行拼接組成所述網(wǎng)頁信息對應(yīng)的字符串。其中,所述歸一化標(biāo)題可以為對標(biāo) 題進(jìn)行清理,可以包括清理空白符、大寫轉(zhuǎn)小寫、清理無效的符號和不能識別的亂碼、清理 書名號等操作。
[0065] 所述根據(jù)所述正文指紋值對各個網(wǎng)頁信息進(jìn)行分組,得到一個或多個第一層分組 可以為:將相同所述正文指紋值的一個或多個網(wǎng)頁信息、分為同一個第一層分組,得到第一 層分組。
[0066] 這樣,通過所述第一層分組能把內(nèi)容重復(fù)的網(wǎng)頁信息都放在同一分組內(nèi),不同分 組里的網(wǎng)頁信息內(nèi)容肯定不一樣。
[0067] 優(yōu)選地,上述步驟101利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進(jìn)行分組之 前,還可以包括:分別計算各個所述網(wǎng)頁信息的綜合權(quán)重值。
[0068] 所述綜合權(quán)重值可以為:采用BP人工神經(jīng)網(wǎng)絡(luò)模型,輸入?yún)?shù)為網(wǎng)頁信息,輸出 參數(shù)的綜合權(quán)重值;所述綜合權(quán)重值的值域為[0, 1],用于衡量網(wǎng)頁信息的質(zhì)量好壞,數(shù)值 越大質(zhì)量越好。綜合權(quán)重值是排重組內(nèi)排序的主要決定因素,保證好網(wǎng)頁信息位置靠前,更 容易得到保留。
[0069] 步驟102 :分別對各個第一層分組中的各個網(wǎng)頁信息進(jìn)行第二層分組。
[0070] 具體的,依次選取第一層分組作為當(dāng)前分組,對所述當(dāng)前分組中的一個或多個網(wǎng) 頁信息進(jìn)行主域分組、和/或?qū)m椫讣y分組、和/或分析標(biāo)題simhash分組、和/或正文 simhash分組、和/或主題分組得到一個或多個第二層分組。
[0071] 這里,所述主域分組為:將所述當(dāng)前分組中主域ID相同的一個或多個網(wǎng)頁信息劃 分為同主域分組;
[0072] 所述主域分組可以通過mapreduce的secondary_key實現(xiàn),比如,可以把主域權(quán)重 值和主域ID加入到secondary_key,這樣網(wǎng)頁信息就按照主域權(quán)重倒序和主域ID排列。在 主域分組中按照主域權(quán)重值排序的好處是對于主域權(quán)重值低的主域可以合并為一個分組, 減少中長尾數(shù)據(jù)的保留;進(jìn)而,使主域分組有效提高召回率,豐富搜索引擎的檢索結(jié)果。
[0073] 所述專項指紋分組為:得到一個或多個所述同主域分組后,逐個選取同主域分組 為當(dāng)前同主域分組,判斷所述當(dāng)前同主域分組中是否有指定的網(wǎng)頁信息類型的網(wǎng)頁信息, 若有,則將所述網(wǎng)頁信息劃分為同專項指紋分組,依此類推。
[0074]所述分析標(biāo)題simhash分組為:從所述同主域分組中依次選取同主域分組作為當(dāng) 前同主域分組,將所述當(dāng)前同主域分組中網(wǎng)頁信息中字?jǐn)?shù)少于指定數(shù)量的網(wǎng)頁信息進(jìn)行標(biāo) 題分組,得到同標(biāo)題分組。
[0075] 所述正文simhash分組為:從同主域分組、和/或同專項指紋分組、和/或同標(biāo)題 分組中依次選取當(dāng)前分組,將所述當(dāng)前分組中正文simhash的海明距離小于指定值的網(wǎng)頁 信息劃分為同正文simhash分組。比如,可以比較各個網(wǎng)頁信息、兩兩之間的正文指紋值的 海明距離,再根據(jù)指定的海明距離門限,將網(wǎng)頁信息進(jìn)行聚類分組。如此,可以解決優(yōu)質(zhì)指 紋的誤排問題。
[0076] 所述正文simhash的計算方法為現(xiàn)有技術(shù),可以包括:先將所有網(wǎng)頁信息文檔放 置在集合A,令n=0 ;
[0077] 在集合A中取出一個doc(j),分配doc(j)的group_id為n,此時,集合A的doc 數(shù)量減1。然后,遍歷集合A,遇到海明距離小于3的doc(k)時,分配group_id為n,并從 集合A中取出doc(k),集合A的doc數(shù)減1;
[0078] 遍歷完畢后,n加1,再繼續(xù)從當(dāng)前的集合A中取出一個doc(j),直到集合A的doc 數(shù)為〇。最后,每個doc都分配到一個group_id,id相同的為同一個分組。
[0079] 所述主題分組為:依次選取同正文simhash分組作為當(dāng)前分組,將所述當(dāng)前分組 根據(jù)指定的一個或多個主題對網(wǎng)頁信息進(jìn)行劃分,得到第二層分組。所述指定的一個或多 個主題可以如互聯(lián)網(wǎng)中出現(xiàn)的百科、論壇、文庫、博客、知道等。
[0080] 步驟103 :對各個第二層分組中的網(wǎng)頁信息進(jìn)行篩選,得到排重后的結(jié)果。
[0081] 具體的,依次選取第二層分組作為當(dāng)前分組,對所述當(dāng)前分組中的各個網(wǎng)頁信息 進(jìn)行排序;根據(jù)預(yù)設(shè)的優(yōu)選保留策略,對當(dāng)前分組中排序后的各個網(wǎng)頁信息進(jìn)行篩選;從 所述當(dāng)前分組中的篩選后得到的結(jié)果中選取指定數(shù)量個的網(wǎng)頁信息作為排重后的結(jié)果。 [0082] 優(yōu)選地,所述對當(dāng)前分組中的各個網(wǎng)頁信息進(jìn)行排序,可以包括:對所述當(dāng)前分組 中的各個網(wǎng)頁信息根據(jù)綜合權(quán)重值進(jìn)行排序;或者,對所述當(dāng)前分組中的各個網(wǎng)頁信息進(jìn) 行主題排序。
[0083] 其中,所述主題排序可以為將網(wǎng)頁信息劃分為網(wǎng)頁、空間、論壇、博客、視頻等主題 之后,將各類主題的網(wǎng)頁信息分別進(jìn)行排序。
[0084] 比如:網(wǎng)頁類的主題排序包括:頁面點擊權(quán)重較大的靠前;按照指定優(yōu)先級文檔 類型排序,比如新聞優(yōu)先,其次是百科,然后是默認(rèn)類型;url較短的靠前;靜態(tài)頁面靠前; 排重綜合權(quán)重值大的靠前;
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
双桥区| 康马县| 崇州市| 承德市| 五寨县| 兴山县| 齐河县| 翁源县| 鱼台县| 大姚县| 内丘县| 班玛县| 津市市| 嵊泗县| 山东省| 漠河县| 西乡县| 波密县| 揭西县| 西乌珠穆沁旗| 七台河市| 镇雄县| 建阳市| 浪卡子县| 北川| 惠东县| 和平区| 平江县| 洛阳市| 三穗县| 达拉特旗| 保山市| 教育| 哈尔滨市| 津南区| 太保市| 阿城市| 郓城县| 潼南县| 黔西县| 阿克苏市|