一種評價網(wǎng)絡資源價值的方法及其在搜索引擎領(lǐng)域的應用
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索技術(shù),特別是涉及一種利用相關(guān)目標的一種特定指標一一人 氣指標(PeopleRank)進行檢索、歸納的方法及其在搜索引擎領(lǐng)域的應用。
【背景技術(shù)】
[0002] 目前搜索引擎一般都是通過用戶輸入一個或一組關(guān)鍵詞或文字片段,經(jīng)過檢索處 理后,向用戶回饋相當數(shù)量的包含該關(guān)鍵詞或文字片段或者與其密切相關(guān)的網(wǎng)頁,以供用 戶瀏覽、查檢所需的資訊。
[0003] 然而,互聯(lián)網(wǎng)上網(wǎng)頁數(shù)量極其巨大,而且仍然在以空前的速度高速增長,如果仍然 按照傳統(tǒng)的搜索處理模式,即搜索引擎運營商將其搜集到的數(shù)量驚人的網(wǎng)頁資源經(jīng)以簡單 地分析處理,進行歸類備用,那么按照用戶的輸入源經(jīng)搜索所得的相關(guān)網(wǎng)頁數(shù)量通常都是 極其巨大,但是其中大部分為低價值甚至無價值的網(wǎng)頁資源,這些無價值的或近似于無價 值的網(wǎng)頁大大增加了處理的難度,并將嚴重干擾處理的結(jié)果,從而有可能使得呈現(xiàn)給用戶 的往往是價值甚微的資源,這將嚴重浪費用戶的時間和精力,間接的也將造成網(wǎng)絡資源的 浪費。
[0004] 怎樣才能將那些真正的滿足客戶需要的網(wǎng)頁篩選出來優(yōu)先提供給客戶,即在提供 給客戶的反饋內(nèi)容中能夠真實反映客戶需求的內(nèi)容優(yōu)先排列,是完全符合用戶的利益的。 因此如何判斷用戶的興趣所在就成了搜索引擎運營商必須解決的問題。
[0005] 對檢索所得的網(wǎng)頁進行相關(guān)性評價,就成了搜索領(lǐng)域技術(shù)中的關(guān)鍵。目前,關(guān)于網(wǎng) 頁的相關(guān)性的評價方法很多,其大都注重某一方面能反映客戶需求或意圖的因素,如檢索 詞或句子的匹配程度、網(wǎng)頁鏈接關(guān)系等,但是,僅僅利用這樣的檢索處理方法所得到的網(wǎng)頁 往往包含了諸多的復雜因素,很難準確地提供與客戶實際需要緊密相連的搜索資源。因此, 目前還沒有一種較為完備的、成熟的可以較全面反映網(wǎng)頁價值的評價方法。
[0006] 經(jīng)過長期實踐,發(fā)現(xiàn)現(xiàn)有的大多數(shù)網(wǎng)頁中均包含有各類的與人相關(guān)的因素,而這 些人的因素對于網(wǎng)頁的質(zhì)量評價至關(guān)重要,能最大限度的反映該網(wǎng)頁對于用戶興趣、意圖 所蘊含的價值,也就是利用這些人的因素可使網(wǎng)頁的質(zhì)量評價更加貼近用戶的真實需求, 從而使得所作出的評價更加準確,本發(fā)明正是根據(jù)這些人的因素為任一網(wǎng)絡資源確定一權(quán) 值,該權(quán)值稱為PeapleRank值(簡稱為PR值)。
【發(fā)明內(nèi)容】
[0007] 針對現(xiàn)有搜索技術(shù)中存在的缺陷和不足,本發(fā)明的一個目的在于提供一種網(wǎng)絡資 源的價值評價方法,利用該方法可以有效評價網(wǎng)頁資源對搜索用戶的價值衡量,從而可以 將高質(zhì)量的、真正符合用戶搜索意圖的網(wǎng)頁資源優(yōu)先提供給用戶,以減少用戶瀏覽、查檢網(wǎng) 頁的時間,提高用戶的搜索效能。
[0008] 本發(fā)明的另一個目的在于提供一種將該網(wǎng)絡資源價值評估方法應用于網(wǎng)絡搜索 引擎的方法,利用本發(fā)明的網(wǎng)絡資源評價方法,可以使得網(wǎng)絡搜索時,給予搜索到的網(wǎng)絡資 源更為準確的權(quán)值,利用該權(quán)值,一方面可以剔出那些無價值或價值甚微的網(wǎng)絡資源,另一 方面可以將與用戶真實意圖更為貼切的資源優(yōu)先排列呈給用戶。
[0009] 本發(fā)明的技術(shù)方案如下:
[0010] 一種評價網(wǎng)絡資源價值的方法,其特征在于:
[0011] 包括以下步驟:
[0012] 1)提取數(shù)據(jù),提取網(wǎng)絡資源上所包含的特定的與人相關(guān)的基本因素;
[0013] 2)處理數(shù)據(jù),結(jié)合采樣時間計算該基本因素的變化率;
[0014] 3)確定權(quán)值,根據(jù)該基本因素及其變化率計算并賦予該網(wǎng)絡資源一確定的代表其 質(zhì)量價值的權(quán)值。
[0015] 所述提取數(shù)據(jù)步驟中的基本因素包括:發(fā)生時間因素;用戶閱讀數(shù)量因素,如該 網(wǎng)絡資源的點擊數(shù)或瀏覽數(shù);相似內(nèi)容數(shù)量因素;關(guān)聯(lián)及推薦關(guān)系因素;作者價值因素;網(wǎng) 站價值因素。
[0016] 其中,除了發(fā)生時間因素;用戶閱讀數(shù)量因素,如該網(wǎng)絡資源的點擊數(shù)或瀏覽數(shù)可 以直接獲得外,網(wǎng)絡資源的相似內(nèi)容數(shù)量因素、關(guān)聯(lián)及推薦關(guān)系因素、作者價值因素、網(wǎng)站 價值因素等都需要進一步加工才能轉(zhuǎn)換為可計算的基本因素。最后將各個基本因素按照設(shè) 定的函數(shù)關(guān)系變換為網(wǎng)絡資源的PeopleRank權(quán)值。
[0017] 所述需要進一步加工的基本因素的處理方法包括:
[0018] 1)根據(jù)網(wǎng)絡資源內(nèi)容,計算出其被轉(zhuǎn)發(fā)及與其相似的網(wǎng)絡資源的數(shù)量數(shù)據(jù),并依 據(jù)該數(shù)據(jù)計算該網(wǎng)絡資源的相似內(nèi)容數(shù)量權(quán)值。
[0019] 2)根據(jù)網(wǎng)絡資源之間的推薦或關(guān)聯(lián)關(guān)系,并基于以下特性計算該網(wǎng)絡資源的關(guān)聯(lián) 及推薦關(guān)系因素:(1) 一個網(wǎng)絡資源被他人引用的越多,則越有價值;(2)被價值高的網(wǎng)絡 資源所引用的資源,其價值也高。關(guān)聯(lián)及推薦關(guān)系因素通常以某種迭代計算算法實現(xiàn)。
[0020] 3)根據(jù)該網(wǎng)絡資源作者的相關(guān)網(wǎng)絡資源經(jīng)迭代計算,確定作者價值,并依據(jù)該作 者價值確定該網(wǎng)絡資源的權(quán)值,所述迭代計算通常為正反饋式系統(tǒng)。
[0021] 4)根據(jù)該網(wǎng)絡資源所在網(wǎng)站經(jīng)迭代計算,確定該網(wǎng)站價值,并依據(jù)該網(wǎng)站價值確 定該網(wǎng)絡資源的權(quán)值,所述迭代計算通常為正反饋式系統(tǒng)。
[0022] 所述各基本因素按照多點采樣時間計算其變化率。
[0023] 所述的評價網(wǎng)絡資源價值方法在搜索引擎領(lǐng)域的一種應用方法,其特征在于:按 照如上所述的價值評價方法,根據(jù)熱點網(wǎng)絡資源在一定時期內(nèi)變化率高的特性,結(jié)合網(wǎng)絡 資源的類別信息,可以按照權(quán)值高低排序輸出各類別的熱點網(wǎng)絡資源。
[0024] 所述的評價網(wǎng)絡資源價值方法在搜索引擎領(lǐng)域的一種應用方法,其特征在于:按 照如上所述的價值評價方法,賦予搜索到的各網(wǎng)絡資源權(quán)值,并篩選剔除權(quán)值較低的網(wǎng)絡 資源。
[0025] 所述的評價網(wǎng)絡資源相關(guān)性價值方法在搜索引擎領(lǐng)域的一種應用方法,其特征在 于:按照如上所述的價值評價方法,賦予搜索到的各網(wǎng)絡資源權(quán)值,利用該權(quán)值參與引擎查 詢結(jié)果的排序,使高質(zhì)量的網(wǎng)頁優(yōu)先提供。
[0026] 本發(fā)明的技術(shù)效果:
[0027] 本發(fā)明的評價網(wǎng)絡資源價值的方法,通過提取網(wǎng)絡資源上所包含的特定的與人相 關(guān)的基本因素,并結(jié)合采樣時間計算該基本因素的變化率,從而根據(jù)該基本因素及變化率 賦予該網(wǎng)絡資源一確定的能代表其相關(guān)性價值的權(quán)值,即PeopleRank值(簡稱PR值)。
[0028] 由于該PR值不但與網(wǎng)絡資源中抽取的特定的與人相關(guān)的因素相關(guān),而且與所提 取因素的時間因素也相關(guān),因此采用這種方法確定的PR值不但可以反映其可能符合用戶 需要的程度,而且還可以有效反應該網(wǎng)絡資源是否仍然在人們的關(guān)注期內(nèi),即可以反映出 那些曾經(jīng)引人關(guān)注而目前已無人問津的網(wǎng)絡資源。
[0029] 正是這種自網(wǎng)絡資源提取的相關(guān)因素及與該因素的采樣時間之間的相互作用,反 映出了該網(wǎng)絡資源的受人關(guān)注的變化狀態(tài),這種時間因素的作用,對于那些時效性較強的 新聞類網(wǎng)絡資源尤其重要。
[0030] People Rank就是將上述各種與人相關(guān)的因素通過一定的數(shù)學模型,合成為綜合 的價值權(quán)重。
[0031] 不同網(wǎng)頁(即網(wǎng)絡資源,以下皆簡稱網(wǎng)頁)擁有不同的人為因素,因此針對不同類 別的網(wǎng)頁,People Rank包含的因素也不同。
[0032] 對于不同的網(wǎng)絡資源而言,其包含有不同側(cè)重的人為因素,基本歸納起來,包括六 種基本因素:
[0033] 發(fā)生時間因素;
[0034] 用戶閱讀數(shù)量因素,如該網(wǎng)絡資源的點擊數(shù)或瀏覽數(shù);
[0035] 相似內(nèi)容數(shù)量因素;
[0036] 關(guān)聯(lián)及推薦關(guān)系因素;
[0037] 作者價值因素;
[0038] 網(wǎng)站價值因素等。
[0039] 其中發(fā)生時間、網(wǎng)絡資源點擊數(shù)或瀏覽數(shù)提取后即可按照一定的系數(shù)比例參與PR 值的計算,其他因素都需要故進一步分析轉(zhuǎn)換,即按照某種設(shè)定的函數(shù)關(guān)系才能變換為可 計算的基本因素。
[0040] 其中,對于相似內(nèi)容數(shù)量而言,其被轉(zhuǎn)發(fā)的數(shù)量以及網(wǎng)絡中存在的相似網(wǎng)頁的數(shù) 量反映了其受人關(guān)注的程度,因此通過計算其被轉(zhuǎn)發(fā)的數(shù)量以及存在的與其相似的網(wǎng)頁的 數(shù)量數(shù)據(jù),并依據(jù)該數(shù)據(jù)結(jié)合采樣時間因素即