一種網(wǎng)頁信息排重的方法、裝置及計算機(jī)可讀存儲介質(zhì)的制作方法_2

文檔序號：8258592閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種網(wǎng)頁信息排重的方法、裝置及計算機(jī)可讀存儲介質(zhì)的制作方法

前分組中的各個網(wǎng)頁信息根據(jù)綜合權(quán)重值進(jìn)行排序；或者，對所述當(dāng)前分組中的各個網(wǎng)頁信息進(jìn)行主題排序。
[0050] 本發(fā)明實施例所提供的頁信息排重的方法及裝置，能利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進(jìn)行分組，得到第一層分組；分別對各個第一層分組中的各個網(wǎng)頁信息進(jìn) 行第二層分組；對各個第二層分組中的網(wǎng)頁信息進(jìn)行篩選，得到排重后的結(jié)果。從而，能夠通過使用正文指紋值進(jìn)行第一次分組，保證將內(nèi)容相近的網(wǎng)頁信息盡可能的放在同一個分組中，減低漏排問題；再通過第二次分組采用降低網(wǎng)頁信息的誤排問題。
【附圖說明】
[0051] 圖1為本發(fā)明實施例一網(wǎng)頁信息排重的方法的流程示意圖；
[0052] 圖2為本發(fā)明實施例二網(wǎng)頁信息排重的裝置組成結(jié)構(gòu)示意圖。
【具體實施方式】
[0053] 本發(fā)明實施例的基本思想是：利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進(jìn)行分組，得到第一層分組；分別對各個第一層分組中的各個網(wǎng)頁信息進(jìn)行第二層分組；對各個第二層分組中的網(wǎng)頁信息進(jìn)行篩選，得到排重后的結(jié)果。
[0054] 下面結(jié)合附圖及具體實施例對本發(fā)明實施例再作進(jìn)一步詳細(xì)的說明。
[0055] 實施例一、
[0056] 本發(fā)明實施例提出的網(wǎng)頁信息排重的方法，如圖1所示，包括以下步驟：
[0057] 步驟101 :利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進(jìn)行分組，得到第一層分組。
[0058] 具體的，獲取一個或多個網(wǎng)頁信息，分別計算各個所述網(wǎng)頁信息的正文指紋值，根據(jù)所述正文指紋值對各個網(wǎng)頁信息進(jìn)行分組，得到多個第一層分組。
[0059] 這里，所述獲取一個或多個網(wǎng)頁信息可以為周期性的從云存儲平臺獲取當(dāng)前存儲的一個或多個網(wǎng)頁信息，其獲取方法為現(xiàn)有技術(shù)，這里不做贅述；所述云存儲平臺存儲網(wǎng)頁信息也為現(xiàn)有技術(shù)，這里不做贅述。其中，所述周期性可以為每24小時進(jìn)行一次。
[0060] 所述正文指紋值的計算方法為：依次提取網(wǎng)頁信息的一個或多個特征因子，利用所述一個或多個特征因子組成所述網(wǎng)頁信息對應(yīng)的字符串；利用MD5算法對所述字符串進(jìn) 行計算，得到正文指紋值。這樣，能夠?qū)⒕W(wǎng)頁信息進(jìn)行預(yù)先處理，轉(zhuǎn)換為排重更易處理的格式，過濾掉缺損的數(shù)據(jù)，壓縮數(shù)據(jù)規(guī)模。
[0061] 其中，所述特征因子可以為各個網(wǎng)頁信息的正文內(nèi)容、標(biāo)題、分類結(jié)果、正文內(nèi)容句子個數(shù)；還可以為網(wǎng)頁信息語言類型、Dom樹等。
[0062] 所述利用一個或多個特征因子組成所述網(wǎng)頁信息對應(yīng)的字符串為：根據(jù)所述網(wǎng)頁信息中的分隔符提取一個或多個句子；對提取的所述一個或多個句子進(jìn)行去重，去掉超過指定長度且重復(fù)的句子，將去重后得到的一個或多個句子進(jìn)行歸一化處理后得到的一個或多個句子作為特征因子；從所述特征因子中選取長度最長的前指定數(shù)量個特征因子，將所述特征因子按順序進(jìn)行拼接組成所述網(wǎng)頁信息對應(yīng)的字符串；其中，所述歸一化處理為：對句子按長度排序，對長度相同的句子按拼音排序，以及對詞語按拼音排序，所述按長度排序以及按拼音排序均可以使用現(xiàn)有技術(shù)實現(xiàn)，這里不做贅述；
[0063] 或者，根據(jù)預(yù)設(shè)的字典計算所述網(wǎng)頁信息中各個詞的權(quán)重值，選取權(quán)重值為前指定位的詞作為特征因子，將所述特征因子按照指定的順序進(jìn)行拼接組成所述網(wǎng)頁信息對應(yīng) 的字符串；其中，所述指定的順序可以為按照預(yù)設(shè)的字典中各個分詞的排列順序；所述前指定位可以為前10位；其中，所述預(yù)設(shè)的字典的生成方法為現(xiàn)有技術(shù)，可以為利用統(tǒng)計學(xué) 和機(jī)器學(xué)習(xí)的方法計算熱點詞或者關(guān)鍵詞的重要度作為所述熱點詞或關(guān)鍵詞的權(quán)重值，將所述特征詞或關(guān)鍵詞、及其權(quán)重值共同組成所述字典；
[0064] 或者，選取指定類型的標(biāo)題對應(yīng)的網(wǎng)頁中權(quán)重值最高的前指定位個詞作為一個或多個特征因子，利用一個或多個特征因子組成所述網(wǎng)頁信息對應(yīng)的字符串；比如，可以為先歸一化標(biāo)題、從網(wǎng)頁中選取權(quán)重值前5位的詞，將所述歸一化標(biāo)題、以及所述詞按照預(yù)設(shè)的字典的順序進(jìn)行拼接組成所述網(wǎng)頁信息對應(yīng)的字符串。其中，所述歸一化標(biāo)題可以為對標(biāo) 題進(jìn)行清理，可以包括清理空白符、大寫轉(zhuǎn)小寫、清理無效的符號和不能識別的亂碼、清理書名號等操作。
[0065] 所述根據(jù)所述正文指紋值對各個網(wǎng)頁信息進(jìn)行分組，得到一個或多個第一層分組可以為：將相同所述正文指紋值的一個或多個網(wǎng)頁信息、分為同一個第一層分組，得到第一層分組。
[0066] 這樣，通過所述第一層分組能把內(nèi)容重復(fù)的網(wǎng)頁信息都放在同一分組內(nèi)，不同分組里的網(wǎng)頁信息內(nèi)容肯定不一樣。
[0067] 優(yōu)選地，上述步驟101利用各個網(wǎng)頁信息的正文指紋值將網(wǎng)頁信息進(jìn)行分組之前，還可以包括：分別計算各個所述網(wǎng)頁信息的綜合權(quán)重值。
[0068] 所述綜合權(quán)重值可以為：采用BP人工神經(jīng)網(wǎng)絡(luò)模型，輸入?yún)?shù)為網(wǎng)頁信息，輸出參數(shù)的綜合權(quán)重值；所述綜合權(quán)重值的值域為[0, 1]，用于衡量網(wǎng)頁信息的質(zhì)量好壞，數(shù)值越大質(zhì)量越好。綜合權(quán)重值是排重組內(nèi)排序的主要決定因素，保證好網(wǎng)頁信息位置靠前，更容易得到保留。
[0069] 步驟102 :分別對各個第一層分組中的各個網(wǎng)頁信息進(jìn)行第二層分組。
[0070] 具體的，依次選取第一層分組作為當(dāng)前分組，對所述當(dāng)前分組中的一個或多個網(wǎng) 頁信息進(jìn)行主域分組、和/或?qū)ｍ椫讣y分組、和/或分析標(biāo)題simhash分組、和/或正文 simhash分組、和/或主題分組得到一個或多個第二層分組。
[0071] 這里，所述主域分組為：將所述當(dāng)前分組中主域ID相同的一個或多個網(wǎng)頁信息劃分為同主域分組；
[0072] 所述主域分組可以通過mapreduce的secondary_key實現(xiàn)，比如，可以把主域權(quán)重值和主域ID加入到secondary_key，這樣網(wǎng)頁信息就按照主域權(quán)重倒序和主域ID排列。在主域分組中按照主域權(quán)重值排序的好處是對于主域權(quán)重值低的主域可以合并為一個分組，減少中長尾數(shù)據(jù)的保留；進(jìn)而，使主域分組有效提高召回率，豐富搜索引擎的檢索結(jié)果。
[0073] 所述專項指紋分組為：得到一個或多個所述同主域分組后，逐個選取同主域分組為當(dāng)前同主域分組，判斷所述當(dāng)前同主域分組中是否有指定的網(wǎng)頁信息類型的網(wǎng)頁信息，若有，則將所述網(wǎng)頁信息劃分為同專項指紋分組，依此類推。
[0074]所述分析標(biāo)題simhash分組為：從所述同主域分組中依次選取同主域分組作為當(dāng) 前同主域分組，將所述當(dāng)前同主域分組中網(wǎng)頁信息中字?jǐn)?shù)少于指定數(shù)量的網(wǎng)頁信息進(jìn)行標(biāo) 題分組，得到同標(biāo)題分組。
[0075] 所述正文simhash分組為：從同主域分組、和/或同專項指紋分組、和/或同標(biāo)題分組中依次選取當(dāng)前分組，將所述當(dāng)前分組中正文simhash的海明距離小于指定值的網(wǎng)頁信息劃分為同正文simhash分組。比如，可以比較各個網(wǎng)頁信息、兩兩之間的正文指紋值的海明距離，再根據(jù)指定的海明距離門限，將網(wǎng)頁信息進(jìn)行聚類分組。如此，可以解決優(yōu)質(zhì)指紋的誤排問題。
[0076] 所述正文simhash的計算方法為現(xiàn)有技術(shù)，可以包括：先將所有網(wǎng)頁信息文檔放置在集合A，令n=0 ;
[0077] 在集合A中取出一個doc(j)，分配doc(j)的group_id為n，此時，集合A的doc 數(shù)量減1。然后，遍歷集合A，遇到海明距離小于3的doc(k)時，分配group_id為n，并從集合A中取出doc(k)，集合A的doc數(shù)減1;
[0078] 遍歷完畢后,n加1,再繼續(xù)從當(dāng)前的集合A中取出一個doc(j),直到集合A的doc 數(shù)為〇。最后，每個doc都分配到一個group_id，id相同的為同一個分組。
[0079] 所述主題分組為：依次選取同正文simhash分組作為當(dāng)前分組，將所述當(dāng)前分組根據(jù)指定的一個或多個主題對網(wǎng)頁信息進(jìn)行劃分，得到第二層分組。所述指定的一個或多個主題可以如互聯(lián)網(wǎng)中出現(xiàn)的百科、論壇、文庫、博客、知道等。
[0080] 步驟103 :對各個第二層分組中的網(wǎng)頁信息進(jìn)行篩選，得到排重后的結(jié)果。
[0081] 具體的，依次選取第二層分組作為當(dāng)前分組，對所述當(dāng)前分組中的各個網(wǎng)頁信息進(jìn)行排序；根據(jù)預(yù)設(shè)的優(yōu)選保留策略，對當(dāng)前分組中排序后的各個網(wǎng)頁信息進(jìn)行篩選；從所述當(dāng)前分組中的篩選后得到的結(jié)果中選取指定數(shù)量個的網(wǎng)頁信息作為排重后的結(jié)果。 [0082] 優(yōu)選地，所述對當(dāng)前分組中的各個網(wǎng)頁信息進(jìn)行排序，可以包括：對所述當(dāng)前分組中的各個網(wǎng)頁信息根據(jù)綜合權(quán)重值進(jìn)行排序；或者，對所述當(dāng)前分組中的各個網(wǎng)頁信息進(jìn) 行主題排序。
[0083] 其中，所述主題排序可以為將網(wǎng)頁信息劃分為網(wǎng)頁、空間、論壇、博客、視頻等主題之后，將各類主題的網(wǎng)頁信息分別進(jìn)行排序。
[0084] 比如：網(wǎng)頁類的主題排序包括：頁面點擊權(quán)重較大的靠前；按照指定優(yōu)先級文檔類型排序，比如新聞優(yōu)先，其次是百科，然后是默認(rèn)類型；url較短的靠前；靜態(tài)頁面靠前；排重綜合權(quán)重值大的靠前；

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

上一篇：電子錢包共享模塊的制作方法
上一篇：信息收集方法及裝置的制造方法

相關(guān)技術(shù)

信息收集方法及裝置的制造方法
一種油氣管道系統(tǒng)圖形文件的交...
信息搜索方法和裝置的制造方法
影音文件播放的系統(tǒng)及其方法
矢量圖形的處理方法及裝置的制...
學(xué)習(xí)影像的查詢系統(tǒng)及其方法
文件搜尋保護(hù)系統(tǒng)及其方法
瀏覽多媒體文件的系統(tǒng)及方法
一種分布式文檔形數(shù)據(jù)存取方法...
網(wǎng)頁信息的處理方法及裝置的制...

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

1

精彩留言，會給你點贊！

使用協(xié)議| 關(guān)于我們| 聯(lián)系X技術(shù)

? 2008-2025 【X技術(shù)】版權(quán)所有，并保留所有權(quán)利。津ICP備16005673號-2

感谢您访问我们的网站，您可能还对以下资源感兴趣：
免费的黄色国产视频网站地图

双桥区| 康马县| 崇州市| 承德市| 五寨县| 兴山县| 齐河县| 翁源县| 鱼台县| 大姚县| 内丘县| 班玛县| 津市市| 嵊泗县| 山东省| 漠河县| 西乡县| 波密县| 揭西县| 西乌珠穆沁旗| 七台河市| 镇雄县| 建阳市| 浪卡子县| 北川| 惠东县| 和平区| 平江县| 洛阳市| 三穗县| 达拉特旗| 保山市| 教育| 哈尔滨市| 津南区| 太保市| 阿城市| 郓城县| 潼南县| 黔西县| 阿克苏市|

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種網(wǎng)頁信息排重的方法、裝置及計算機(jī)可讀存儲介質(zhì)的制作方法_2

一種網(wǎng)頁信息排重的方法、裝置及計算機(jī)可讀存儲介質(zhì)的制作方法_2