網(wǎng)頁(yè)標(biāo)識(shí)確定方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明提供了一種網(wǎng)頁(yè)標(biāo)識(shí)確定方法和裝置,該方法包括聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本;對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。本發(fā)明提供的技術(shù)方案能夠提高處理效率,并且能夠提供簡(jiǎn)潔又能準(zhǔn)確、客觀地概括網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)標(biāo)識(shí)。
【專(zhuān)利說(shuō)明】網(wǎng)頁(yè)標(biāo)識(shí)確定方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別是一種網(wǎng)頁(yè)標(biāo)識(shí)確定方法和裝置。
【背景技術(shù)】
[0002]網(wǎng)頁(yè)標(biāo)識(shí)(如網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)地址等)可以用于標(biāo)識(shí)網(wǎng)頁(yè),能夠體現(xiàn)網(wǎng)頁(yè)的核心內(nèi)容。搜索算法通常會(huì)對(duì)標(biāo)識(shí)中的詞賦予更高權(quán)重,因而網(wǎng)頁(yè)標(biāo)識(shí)在SEO(Search EngineOptimizat1n,搜索引擎優(yōu)化)中非常重要,站長(zhǎng)會(huì)在網(wǎng)頁(yè)標(biāo)識(shí)中加入很多關(guān)鍵詞,如一些重復(fù)或與網(wǎng)頁(yè)內(nèi)容不相關(guān)的關(guān)鍵詞,導(dǎo)致標(biāo)識(shí)很長(zhǎng)。比如下面這個(gè)標(biāo)識(shí),“Android(安卓)開(kāi)發(fā)視頻教程-老羅Android開(kāi)發(fā)視頻教程-視頻教程-移動(dòng)開(kāi)發(fā)門(mén)戶”,實(shí)質(zhì)上該標(biāo)識(shí)中真正有價(jià)值的信息是“老羅Android開(kāi)發(fā)視頻教程”。長(zhǎng)標(biāo)識(shí)不會(huì)對(duì)用戶的瀏覽產(chǎn)生實(shí)質(zhì)性影響,對(duì)于屏幕大小有限的終端(如手機(jī))會(huì)導(dǎo)致明顯的屏幕顯示空間浪費(fèi)。
[0003]相關(guān)技術(shù)中,搜索引擎對(duì)標(biāo)識(shí)進(jìn)行截?cái)嗵幚恚欢財(cái)喙潭ㄩL(zhǎng)度效果顯然不好。因而,如何提供簡(jiǎn)潔又能概括網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)標(biāo)識(shí)成為目前亟待解決的技術(shù)問(wèn)題。
【發(fā)明內(nèi)容】
[0004]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的網(wǎng)頁(yè)標(biāo)識(shí)確定方法和相應(yīng)的裝置。
[0005]依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁(yè)標(biāo)識(shí)確定方法,包括:聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本;對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0006]可選地,所述聚合相同URL的網(wǎng)頁(yè)之前,還包括:解析網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè),獲取各個(gè)網(wǎng)頁(yè)的URL、指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本。
[0007]可選地,所述聚合相同URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,包括:對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組;對(duì)于每個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0008]可選地,對(duì)于各個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,包括:對(duì)該URL分組中的錨文本進(jìn)行聚類(lèi),生成一個(gè)或多個(gè)錨文本分組;將所述一個(gè)或多個(gè)錨文本分組各自對(duì)應(yīng)的錨文本作為各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0009]可選地,所述選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí),包括:確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí);選取指定等級(jí)的錨文本作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0010]可選地,所述確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí),包括:獲取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的參數(shù)值;根據(jù)獲取的所述每個(gè)錨文本的參數(shù)值,計(jì)算所述每個(gè)錨文本的等級(jí)。
[0011]可選地,所述每個(gè)錨文本的參數(shù)值包括下列至少之一:
[0012]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0013]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0014]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL不同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0015]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的網(wǎng)頁(yè)等級(jí)pagerank ;
[0016]每個(gè)錨文本對(duì)應(yīng)的外部鏈接被點(diǎn)擊的次數(shù)。
[0017]依據(jù)本發(fā)明的另一個(gè)方面,還提供了一種網(wǎng)頁(yè)標(biāo)識(shí)確定裝置,包括:
[0018]處理模塊,適于聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本;
[0019]選取模塊,適于對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0020]可選地,在所述處理模塊聚合相同URL的網(wǎng)頁(yè)之前,還包括:
[0021]解析模塊,適于解析網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè),獲取各個(gè)網(wǎng)頁(yè)的URL、指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本。
[0022]可選地,所述處理模塊還適于:對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組;對(duì)于每個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0023]可選地,所述處理模塊還適于:對(duì)該URL分組中的錨文本進(jìn)行聚類(lèi),生成一個(gè)或多個(gè)錨文本分組;將所述一個(gè)或多個(gè)錨文本分組各自對(duì)應(yīng)的錨文本作為各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0024]可選地,所述選取模塊還適于:確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí);選取指定等級(jí)的錨文本作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0025]可選地,所述選取模塊還適于:獲取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的參數(shù)值;根據(jù)獲取的所述每個(gè)錨文本的參數(shù)值,計(jì)算所述每個(gè)錨文本的等級(jí)。
[0026]可選地,所述每個(gè)錨文本的參數(shù)值包括下列至少之一:
[0027]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0028]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0029]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL不同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0030]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的網(wǎng)頁(yè)等級(jí)pagerank ;
[0031]每個(gè)錨文本對(duì)應(yīng)的外部鏈接被點(diǎn)擊的次數(shù)。
[0032]依據(jù)本發(fā)明提供的技術(shù)方案,通過(guò)聚合的方式得到相同URL的網(wǎng)頁(yè),解決了相關(guān)技術(shù)中通過(guò)人工或兩兩比較的方式得到相同URL的網(wǎng)頁(yè)導(dǎo)致處理效率較低的問(wèn)題。隨后根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,進(jìn)而對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。由于外部鏈接對(duì)應(yīng)的錨文本是其他網(wǎng)頁(yè)對(duì)外部鏈接所指向網(wǎng)頁(yè)的一種描述,能夠準(zhǔn)確描述所指向網(wǎng)頁(yè)的內(nèi)容。本發(fā)明選取網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí),其對(duì)該所指向網(wǎng)頁(yè)的描述在格式或字?jǐn)?shù)上體現(xiàn)為更加簡(jiǎn)潔,且不會(huì)被加入不相關(guān)的關(guān)鍵詞,使得對(duì)網(wǎng)頁(yè)的描述更為準(zhǔn)確、客觀。綜上可知,本發(fā)明提供的技術(shù)方案能夠提高處理效率,并且能夠提供簡(jiǎn)潔又能準(zhǔn)確、客觀地概括網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)標(biāo)識(shí)。
[0033]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
[0034]根據(jù)下文結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例的詳細(xì)描述,本領(lǐng)域技術(shù)人員將會(huì)更加明了本發(fā)明的上述以及其他目的、優(yōu)點(diǎn)和特征。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0035]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0036]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)標(biāo)識(shí)確定方法的流程圖;
[0037]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)標(biāo)識(shí)確定裝置的一種結(jié)構(gòu)示意圖;以及
[0038]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)標(biāo)識(shí)確定裝置的另一種結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0039]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0040]為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)標(biāo)識(shí)確定方法,圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)標(biāo)識(shí)確定方法的流程圖。如圖1所示,該方法至少包括以下步驟S102至步驟S104。
[0041]步驟S102、聚合相同URL(統(tǒng)一資源定位符)的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0042]步驟S104、對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0043]依據(jù)本發(fā)明提供的技術(shù)方案,通過(guò)聚合的方式得到相同URL的網(wǎng)頁(yè),解決了相關(guān)技術(shù)中通過(guò)人工或兩兩比較的方式得到相同URL的網(wǎng)頁(yè)導(dǎo)致處理效率較低的問(wèn)題。隨后根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,進(jìn)而對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。由于外部鏈接對(duì)應(yīng)的錨文本是其他網(wǎng)頁(yè)對(duì)外部鏈接所指向網(wǎng)頁(yè)的一種描述,能夠準(zhǔn)確描述所指向網(wǎng)頁(yè)的內(nèi)容。本發(fā)明選取網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí),其對(duì)該所指向網(wǎng)頁(yè)的描述在格式或字?jǐn)?shù)上體現(xiàn)為更加簡(jiǎn)潔,且不會(huì)被加入不相關(guān)的關(guān)鍵詞,使得對(duì)網(wǎng)頁(yè)的描述更為準(zhǔn)確、客觀。綜上可知,本發(fā)明提供的技術(shù)方案能夠提高處理效率,并且能夠提供簡(jiǎn)潔又能準(zhǔn)確、客觀地概括網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)標(biāo)識(shí)。
[0044]在步驟S102聚合相同URL的網(wǎng)頁(yè)之前,本發(fā)明還可以解析網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè),獲取各個(gè)網(wǎng)頁(yè)的URL、指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本??梢酝ㄟ^(guò)網(wǎng)頁(yè)抓取器抓取的網(wǎng)頁(yè)之間的鏈接關(guān)系,進(jìn)而確定指向各個(gè)網(wǎng)頁(yè)的外部鏈接,這里的網(wǎng)頁(yè)抓取器可以是網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人等。進(jìn)一步地,外部鏈接是指從別的網(wǎng)站導(dǎo)入到自己網(wǎng)站的鏈接,且該鏈接對(duì)應(yīng)的錨文本能夠準(zhǔn)確描述該鏈接所指向網(wǎng)頁(yè)的內(nèi)容,該錨文本的形式如文本或圖片的形式等。舉例來(lái)說(shuō),某個(gè)網(wǎng)頁(yè)為B網(wǎng)站的網(wǎng)頁(yè)b,從A網(wǎng)站的鏈接“網(wǎng)頁(yè)b”導(dǎo)入到B網(wǎng)站的網(wǎng)頁(yè)b,那么A網(wǎng)站的鏈接“網(wǎng)頁(yè)b”可以作為該網(wǎng)頁(yè)(即B網(wǎng)站的網(wǎng)頁(yè)b)的外部鏈接,這里鏈接對(duì)應(yīng)的錨文本為“網(wǎng)頁(yè)b”,準(zhǔn)確描述了 B網(wǎng)站的網(wǎng)頁(yè)b的內(nèi)容。錨文本“網(wǎng)頁(yè)b”的形式可以是以文本形式或圖片形式。
[0045]本發(fā)明提供了一種優(yōu)選的實(shí)施步驟S102的方案,在該方案中對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組,進(jìn)而對(duì)于每個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。進(jìn)一步地,對(duì)于每個(gè)URL分組,對(duì)該URL分組中的錨文本進(jìn)行聚類(lèi),生成一個(gè)或多個(gè)錨文本分組,進(jìn)而將一個(gè)或多個(gè)錨文本分組各自對(duì)應(yīng)的錨文本作為各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。舉例來(lái)說(shuō),網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè)分別為網(wǎng)頁(yè)1、網(wǎng)頁(yè)2、網(wǎng)頁(yè)3、網(wǎng)頁(yè)4,它們的URL分別為URL1、URL2、URL3、URL1。此時(shí)對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組為{網(wǎng)頁(yè)IURLl、網(wǎng)頁(yè)4URL1}、{網(wǎng)頁(yè)2URL2}、{網(wǎng)頁(yè)3URL3}。對(duì)于每個(gè)URL分組,如{網(wǎng)頁(yè)IURLl、網(wǎng)頁(yè)4URL1},指向網(wǎng)頁(yè)IURLl的外部鏈接對(duì)應(yīng)的錨文本為al、bl、cl,指向網(wǎng)頁(yè)4URL1的外部鏈接對(duì)應(yīng)的錨文本為al、dl、el。此時(shí)對(duì)URL分組{網(wǎng)頁(yè)1URL1、網(wǎng)頁(yè)4URL1}中的錨文本進(jìn)行聚類(lèi),生成錨文本分組為{al、al}、{bl}、{cl}、{dl}、{el},進(jìn)而得到網(wǎng)頁(yè)IURLl的錨文本為al、bl、cl、dl、el,網(wǎng)頁(yè)4URL1的錨文本為al、bl、cl、dl、el。同理,對(duì)于URL分組{網(wǎng)頁(yè)2URL2},指向網(wǎng)頁(yè)2URL2外部鏈接對(duì)應(yīng)的錨文本為a2、b2,此時(shí)可以得到網(wǎng)頁(yè)2URL2的錨文本為a2、b2。需要說(shuō)明的是,這里列舉的網(wǎng)頁(yè)1、網(wǎng)頁(yè)2、網(wǎng)頁(yè)3以及網(wǎng)頁(yè)4僅僅是示意性的,并不用于限制本發(fā)明。
[0046]在步驟S102得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本之后,步驟S104中對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí),可以通過(guò)多種方式來(lái)實(shí)現(xiàn),如根據(jù)錨文本的文本長(zhǎng)度或錨文本的等級(jí),下面將詳細(xì)介紹這兩種方式。
[0047]方式一,根據(jù)錨文本的文本長(zhǎng)度從一個(gè)或多個(gè)錨文本中選取一個(gè)錨文本的方式。在方式一中,可以確定一個(gè)或多個(gè)錨文本中每個(gè)錨文本的文本長(zhǎng)度,隨后從文本長(zhǎng)度小于或等于指定長(zhǎng)度的錨文本中選取一個(gè)錨文本作為該網(wǎng)頁(yè)的標(biāo)識(shí)。這里的指定長(zhǎng)度可以根據(jù)實(shí)際情況或需求來(lái)確定,如根據(jù)呈現(xiàn)搜索結(jié)果的終端的尺寸來(lái)確定或者將多個(gè)錨文本長(zhǎng)度的平均值作為指定長(zhǎng)度等等。
[0048]方式二,根據(jù)錨文本的等級(jí)從一個(gè)或多個(gè)錨文本中選取一個(gè)錨文本的方式。在方式二中,可以確定一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí),隨后選取指定等級(jí)的錨文本作為該網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)識(shí)。進(jìn)一步地,本發(fā)明提供了一種優(yōu)選的確定一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí)的方案,即可以獲取一個(gè)或多個(gè)錨文本中每個(gè)錨文本的參數(shù)值,進(jìn)而根據(jù)獲取的每個(gè)錨文本的參數(shù)值,計(jì)算每個(gè)錨文本的等級(jí)。這里,每個(gè)錨文本的參數(shù)值可以是每個(gè)錨文本對(duì)應(yīng)的外部鏈接的總數(shù),每個(gè)錨文本對(duì)應(yīng)的、與網(wǎng)頁(yè)的URL同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù),每個(gè)錨文本對(duì)應(yīng)的、與網(wǎng)頁(yè)的URL不同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù),每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的網(wǎng)頁(yè)等級(jí)PageRank,每個(gè)錨文本對(duì)應(yīng)的外部鏈接被點(diǎn)擊的次數(shù),等等。
[0049]由每個(gè)錨文本的參數(shù)值計(jì)算每個(gè)錨文本的等級(jí),可以優(yōu)選地實(shí)施為確定每個(gè)錨文本的參數(shù)值各自的權(quán)重,并對(duì)每個(gè)錨文本的參數(shù)值進(jìn)行加權(quán)處理,計(jì)算每個(gè)錨文本的等級(jí)。舉例來(lái)說(shuō),獲取一個(gè)或多個(gè)錨文本中每個(gè)錨文本的參數(shù)值為P1、P2、P3、P4、P5,分別表示每個(gè)錨文本對(duì)應(yīng)的外部鏈接的總數(shù),每個(gè)錨文本對(duì)應(yīng)的、與網(wǎng)頁(yè)的統(tǒng)一資源定位符URL同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù),每個(gè)錨文本對(duì)應(yīng)的、與網(wǎng)頁(yè)的URL不同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù),每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的網(wǎng)頁(yè)等級(jí)PageRank,每個(gè)錨文本對(duì)應(yīng)的外部鏈接被點(diǎn)擊的次數(shù)。確定每個(gè)錨文本的參數(shù)值各自的權(quán)重分別為ql、q2、q3、q4、q5,根據(jù)每個(gè)錨文本的參數(shù)值PU P2、P3、P4、P5以及每個(gè)錨文本的參數(shù)值各自的權(quán)重ql、q2、q3、q4、q5,對(duì)每個(gè)錨文本的參數(shù)值中的一個(gè)或多個(gè)進(jìn)行加權(quán)處理,得到每個(gè)錨文本的等級(jí)。
[0050]此外,可以對(duì)計(jì)算得到的每個(gè)錨文本的等級(jí)進(jìn)行排序,選取排在最前面的等級(jí)(即最高等級(jí))的錨文本作為指定等級(jí)的錨文本。
[0051]另外,還可以結(jié)合上述方式一和方式二來(lái)從一個(gè)或多個(gè)錨文本中選取一個(gè)錨文本。例如,首先確定出文本長(zhǎng)度小于或等于指定長(zhǎng)度的錨文本,然后計(jì)算確定出的錨文本的等級(jí),進(jìn)而選取指定等級(jí)的錨文本作為網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)識(shí)。又例如,將文本長(zhǎng)度作為每個(gè)錨文本的參數(shù)值,進(jìn)而計(jì)算每個(gè)錨文本的等級(jí),進(jìn)而選取指定等級(jí)的錨文本作為網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)識(shí)。當(dāng)然,上述列舉僅是示意性的,還可以有其它結(jié)合的方式均適用于本發(fā)明。
[0052]下面通過(guò)一具體實(shí)施例來(lái)詳細(xì)介紹本發(fā)明提供的網(wǎng)頁(yè)標(biāo)識(shí)確定方法。比如下面這個(gè)網(wǎng)頁(yè)標(biāo)識(shí)為“Android(安卓)開(kāi)發(fā)視頻教程-老羅Android開(kāi)發(fā)視頻教程-視頻教程-移動(dòng)開(kāi)發(fā)門(mén)戶”,采用本發(fā)明提供的技術(shù)方案得到該網(wǎng)頁(yè)的多個(gè)錨文本分別為“老羅Android開(kāi)發(fā)視頻教程”、“Android開(kāi)發(fā)視頻教程”、“Android移動(dòng)開(kāi)發(fā)門(mén)戶”,從中選取錨文本“老羅Android開(kāi)發(fā)視頻教程”作為該網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)識(shí),使得標(biāo)識(shí)更加簡(jiǎn)潔而不損失信息。若用于搜索結(jié)果中顯示的標(biāo)題或搜索引擎收錄網(wǎng)頁(yè)時(shí)記錄的標(biāo)題時(shí),可以節(jié)省終端顯示界面的顯不空間,提聞?目息的展現(xiàn)力、完整性和時(shí)效性,提聞?dòng)脩舻母惺?體驗(yàn)。
[0053]基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種網(wǎng)頁(yè)標(biāo)識(shí)確定裝置,以實(shí)現(xiàn)上述網(wǎng)頁(yè)標(biāo)識(shí)確定方法。
[0054]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)標(biāo)識(shí)確定裝置的一種結(jié)構(gòu)示意圖。參見(jiàn)圖2,該裝置至少包括:處理模塊210以及選取模塊220。
[0055]現(xiàn)介紹本發(fā)明實(shí)施例的網(wǎng)頁(yè)標(biāo)識(shí)確定裝置的各組成或器件的功能以及各部分間的連接關(guān)系:
[0056]處理模塊210,適于聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本;
[0057]選取模塊220,與處理模塊210相耦合,適于對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0058]在一個(gè)實(shí)施例中,圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁(yè)標(biāo)識(shí)確定裝置的另一種結(jié)構(gòu)示意圖。該裝置還包括解析模塊310,與處理模塊210相耦合,適于在處理模塊210聚合相同URL的網(wǎng)頁(yè)之前,解析網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè),獲取各個(gè)網(wǎng)頁(yè)的URL、指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本。
[0059]在一個(gè)實(shí)施例中,處理模塊210還適于:對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組;對(duì)于每個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0060]在一個(gè)實(shí)施例中,處理模塊210還適于:對(duì)該URL分組中的錨文本進(jìn)行聚類(lèi),生成一個(gè)或多個(gè)錨文本分組;將一個(gè)或多個(gè)錨文本分組各自對(duì)應(yīng)的錨文本作為各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0061]在一個(gè)實(shí)施例中,選取模塊220還適于:確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí);選取指定等級(jí)的錨文本作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0062]在一個(gè)實(shí)施例中,選取模塊220還適于:獲取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的參數(shù)值;根據(jù)獲取的每個(gè)錨文本的參數(shù)值,計(jì)算每個(gè)錨文本的等級(jí)。
[0063]在一個(gè)實(shí)施例中,每個(gè)錨文本的參數(shù)值包括下列至少之一:
[0064]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0065]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0066]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL不同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0067]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的網(wǎng)頁(yè)等級(jí)pagerank ;
[0068]每個(gè)錨文本對(duì)應(yīng)的外部鏈接被點(diǎn)擊的次數(shù)。
[0069]根據(jù)上述任意一個(gè)優(yōu)選實(shí)施例或多個(gè)優(yōu)選實(shí)施例的組合,本發(fā)明實(shí)施例能夠達(dá)到如下有益效果:
[0070]依據(jù)本發(fā)明提供的技術(shù)方案,通過(guò)聚合的方式得到相同URL的網(wǎng)頁(yè),解決了相關(guān)技術(shù)中通過(guò)人工或兩兩比較的方式得到相同URL的網(wǎng)頁(yè)導(dǎo)致處理效率較低的問(wèn)題。隨后根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,進(jìn)而對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。由于外部鏈接對(duì)應(yīng)的錨文本是其他網(wǎng)頁(yè)對(duì)外部鏈接所指向網(wǎng)頁(yè)的一種描述,能夠準(zhǔn)確描述所指向網(wǎng)頁(yè)的內(nèi)容。本發(fā)明選取網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí),其對(duì)該所指向網(wǎng)頁(yè)的描述在格式或字?jǐn)?shù)上體現(xiàn)為更加簡(jiǎn)潔,且不會(huì)被加入不相關(guān)的關(guān)鍵詞,使得對(duì)網(wǎng)頁(yè)的描述更為準(zhǔn)確、客觀。綜上可知,本發(fā)明提供的技術(shù)方案能夠提高處理效率,并且能夠提供簡(jiǎn)潔又能準(zhǔn)確、客觀地概括網(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)標(biāo)識(shí)。
[0071]本發(fā)明還公開(kāi)了:
[0072]Al、一種網(wǎng)頁(yè)標(biāo)識(shí)確定方法,包括:
[0073]聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本;
[0074]對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0075]A2、根據(jù)Al所述的方法,其中,所述聚合相同URL的網(wǎng)頁(yè)之前,還包括:
[0076]解析網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè),獲取各個(gè)網(wǎng)頁(yè)的URL、指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本。
[0077]A3、根據(jù)Al或A2所述的方法,其中,所述聚合相同URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,包括:
[0078]對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組;
[0079]對(duì)于每個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0080]A4、根據(jù)A1-A3任一項(xiàng)所述的方法,其中,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,包括:
[0081]對(duì)該URL分組中的錨文本進(jìn)行聚類(lèi),生成一個(gè)或多個(gè)錨文本分組;
[0082]將所述一個(gè)或多個(gè)錨文本分組各自對(duì)應(yīng)的錨文本作為各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0083]A5、根據(jù)A1-A4任一項(xiàng)所述的方法,其中,所述選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí),包括:
[0084]確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí);
[0085]選取指定等級(jí)的錨文本作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0086]A6、根據(jù)A1-A5任一項(xiàng)所述的方法,其中,所述確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí),包括:
[0087]獲取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的參數(shù)值;
[0088]根據(jù)獲取的所述每個(gè)錨文本的參數(shù)值,計(jì)算所述每個(gè)錨文本的等級(jí)。
[0089]A7、根據(jù)A1-A6任一項(xiàng)所述的方法,其中,所述每個(gè)錨文本的參數(shù)值包括下列至少之一:
[0090]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0091]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0092]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL不同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0093]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的網(wǎng)頁(yè)等級(jí)pagerank ;
[0094]每個(gè)錨文本對(duì)應(yīng)的外部鏈接被點(diǎn)擊的次數(shù)。
[0095]B8、一種網(wǎng)頁(yè)標(biāo)識(shí)確定裝置,包括:
[0096]處理模塊,適于聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本;
[0097]選取模塊,適于對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0098]B9、根據(jù)B8所述的裝置,其中,在所述處理模塊聚合相同URL的網(wǎng)頁(yè)之前,還包括:
[0099]解析模塊,適于解析網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè),獲取各個(gè)網(wǎng)頁(yè)的URL、指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本。
[0100]B10、根據(jù)B8或B9所述的裝置,其中,所述處理模塊還適于:
[0101]對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組;
[0102]對(duì)于每個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0103]B11、根據(jù)B8-B10任一項(xiàng)所述的裝置,其中,所述處理模塊還適于:
[0104]對(duì)該URL分組中的錨文本進(jìn)行聚類(lèi),生成一個(gè)或多個(gè)錨文本分組;
[0105]將所述一個(gè)或多個(gè)錨文本分組各自對(duì)應(yīng)的錨文本作為各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
[0106]B12、根據(jù)B8-B11任一項(xiàng)所述的裝置,其中,所述選取模塊還適于:
[0107]確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí);
[0108]選取指定等級(jí)的錨文本作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
[0109]B13、根據(jù)B8-B12任一項(xiàng)所述的裝置,其中,所述選取模塊還適于:
[0110]獲取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的參數(shù)值;
[0111]根據(jù)獲取的所述每個(gè)錨文本的參數(shù)值,計(jì)算所述每個(gè)錨文本的等級(jí)。
[0112]B14、根據(jù)B8-B13任一項(xiàng)所述的裝置,其中,所述每個(gè)錨文本的參數(shù)值包括下列至少之一:
[0113]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0114]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0115]每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL不同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù);
[0116]每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的網(wǎng)頁(yè)等級(jí)pagerank ;
[0117]每個(gè)錨文本對(duì)應(yīng)的外部鏈接被點(diǎn)擊的次數(shù)。
[0118]在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。
[0119]類(lèi)似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書(shū)由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0120]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
[0121]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
[0122]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁(yè)標(biāo)識(shí)的確定裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0123]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱(chēng)。
[0124]至此,本領(lǐng)域技術(shù)人員應(yīng)認(rèn)識(shí)到,雖然本文已詳盡示出和描述了本發(fā)明的多個(gè)示例性實(shí)施例,但是,在不脫離本發(fā)明精神和范圍的情況下,仍可根據(jù)本發(fā)明公開(kāi)的內(nèi)容直接確定或推導(dǎo)出符合本發(fā)明原理的許多其他變型或修改。因此,本發(fā)明的范圍應(yīng)被理解和認(rèn)定為覆蓋了所有這些其他變型或修改。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)標(biāo)識(shí)確定方法,包括: 聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本; 對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述聚合相同URL的網(wǎng)頁(yè)之前,還包括: 解析網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè),獲取各個(gè)網(wǎng)頁(yè)的URL、指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述聚合相同URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,包括: 對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組; 對(duì)于每個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其中,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本,包括: 對(duì)該URL分組中的錨文本進(jìn)行聚類(lèi),生成一個(gè)或多個(gè)錨文本分組; 將所述一個(gè)或多個(gè)錨文本分組各自對(duì)應(yīng)的錨文本作為各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其中,所述選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí),包括: 確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí); 選取指定等級(jí)的錨文本作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其中,所述確定該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的等級(jí),包括: 獲取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中每個(gè)錨文本的參數(shù)值; 根據(jù)獲取的所述每個(gè)錨文本的參數(shù)值,計(jì)算所述每個(gè)錨文本的等級(jí)。
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其中,所述每個(gè)錨文本的參數(shù)值包括下列至少之一: 每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的總數(shù); 每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù); 每個(gè)錨文本對(duì)應(yīng)的、與該網(wǎng)頁(yè)的URL不同主域的外部鏈接所在網(wǎng)頁(yè)的總數(shù); 每個(gè)錨文本對(duì)應(yīng)的外部鏈接所在網(wǎng)頁(yè)的網(wǎng)頁(yè)等級(jí)pagerank ; 每個(gè)錨文本對(duì)應(yīng)的外部鏈接被點(diǎn)擊的次數(shù)。
8.一種網(wǎng)頁(yè)標(biāo)識(shí)確定裝置,包括: 處理模塊,適于聚合相同統(tǒng)一資源定位符URL的網(wǎng)頁(yè),根據(jù)指向相同URL網(wǎng)頁(yè)的一個(gè)或多個(gè)外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本; 選取模塊,適于對(duì)于每個(gè)網(wǎng)頁(yè),選取該網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本中的一個(gè)作為該網(wǎng)頁(yè)的標(biāo)識(shí)。
9.根據(jù)權(quán)利要求8所述的裝置,其中,在所述處理模塊聚合相同URL的網(wǎng)頁(yè)之前,還包括: 解析模塊,適于解析網(wǎng)頁(yè)抓取器抓取的多個(gè)網(wǎng)頁(yè),獲取各個(gè)網(wǎng)頁(yè)的URL、指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本。
10.根據(jù)權(quán)利要求8或9所述的裝置,其中,所述處理模塊還適于: 對(duì)具備相同URL的網(wǎng)頁(yè)進(jìn)行聚類(lèi),生成多個(gè)URL分組; 對(duì)于每個(gè)URL分組,根據(jù)該URL分組中指向各個(gè)網(wǎng)頁(yè)的外部鏈接以及各個(gè)外部鏈接對(duì)應(yīng)的錨文本,得到各個(gè)網(wǎng)頁(yè)的一個(gè)或多個(gè)錨文本。
【文檔編號(hào)】G06F17/30GK104317940SQ201410602741
【公開(kāi)日】2015年1月28日 申請(qǐng)日期:2014年10月31日 優(yōu)先權(quán)日:2014年10月31日
【發(fā)明者】魏少俊 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司