一種獲取用戶和文檔個(gè)性化特征的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出了一種獲取用戶和文檔個(gè)性化特征的方法和系統(tǒng)。所述方法通過用戶訪問文檔的信號(hào),來自動(dòng)地更新用戶和文檔的個(gè)性化特征。用戶的個(gè)性化特征依據(jù)所述用戶訪問過的文檔的個(gè)性化特征進(jìn)行更新;文檔的個(gè)性化特征依據(jù)訪問過該文檔的用戶的個(gè)性化特征進(jìn)行更新。根據(jù)獲取的用戶和文檔的個(gè)性化特征,可在搜索引擎中實(shí)現(xiàn)個(gè)性化的文檔排序以及在社交網(wǎng)絡(luò)中實(shí)現(xiàn)個(gè)性化的信息過濾和篩選。本發(fā)明還提出了一種獲取用戶和文檔個(gè)性化特征的系統(tǒng)。本發(fā)明方法能夠提高搜索引擎的查準(zhǔn)率和社交網(wǎng)絡(luò)的信息檢索效率。另外,本發(fā)明方法還能夠提高網(wǎng)頁排名算法的反作弊能力。
【專利說明】一種獲取用戶和文檔個(gè)性化特征的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體來說涉及一種獲取用戶和文檔個(gè)性化特征的方法和系統(tǒng)。
【背景技術(shù)】
[0002]搜索引擎和社交網(wǎng)絡(luò)是互聯(lián)網(wǎng)上獲取信息的主要工具。這兩種工具的缺點(diǎn)是不能根據(jù)用戶的特征差異來進(jìn)行信息的過濾和篩選。例如,不同的用戶在同一個(gè)搜索引擎中輸入相同的關(guān)鍵字,其得到的搜索結(jié)果是相同的,與哪個(gè)用戶提交的搜索查詢無關(guān);不同的用戶在同一個(gè)社交網(wǎng)絡(luò)中建立相同的關(guān)系網(wǎng)絡(luò),其獲得的信息也是相同的,與哪個(gè)用戶建立的關(guān)系網(wǎng)絡(luò)無關(guān)。
[0003]在現(xiàn)有搜索技術(shù)中,核心技術(shù)是排序算法,最為有效的排序算法是超鏈分析算法,例如谷歌的PageRank算法。超鏈分析算法的輸入是由網(wǎng)頁設(shè)計(jì)者根據(jù)其主觀意愿構(gòu)建的網(wǎng)頁鏈接關(guān)系。盡管它充分反映了網(wǎng)頁設(shè)計(jì)者的個(gè)人偏好和對(duì)網(wǎng)頁鏈接關(guān)系的理解,但是它卻無法反映出搜索引擎的使用者——用戶的個(gè)人偏好。由于從事不同行業(yè)或具有不同愛好的用戶對(duì)同一個(gè)網(wǎng)頁的重要性評(píng)價(jià)通常是不同的,而PageRank等現(xiàn)有排序技術(shù)對(duì)每個(gè)網(wǎng)頁只能給出唯一的網(wǎng)頁排名,這是現(xiàn)有搜索技術(shù)的缺點(diǎn)。一個(gè)可行的技術(shù)解決方案是結(jié)合用戶和網(wǎng)頁的個(gè)性化特征來改進(jìn)搜索結(jié)果,使得每個(gè)網(wǎng)頁的排名不僅依賴于網(wǎng)頁之間的鏈接關(guān)系,而且依賴于提交搜索查詢的用戶的個(gè)性化特征和被查詢網(wǎng)頁的個(gè)性化特征。有分析表明,借助用戶和網(wǎng)頁的個(gè)性化特征,能夠提高搜索引擎的查準(zhǔn)率,減少用戶對(duì)無效信息的掃描和瀏覽。
[0004]在現(xiàn)有社交網(wǎng)絡(luò)技術(shù)中,用戶通過自己建立的關(guān)系網(wǎng)絡(luò)來獲取信息,例如通過關(guān)注(follow)他人和加好友等操作來獲取他人發(fā)布的信息。被關(guān)注的人和加為好友的人越多,用戶獲得的信息也越多。由于擔(dān)心有重要的或者有趣的信息被遺漏,用戶通常會(huì)在社交網(wǎng)絡(luò)中關(guān)注更多的人或者加入更多的好友。但是,當(dāng)關(guān)系網(wǎng)絡(luò)中的用戶數(shù)量超過鄧巴數(shù)(Dunbar) 150之后,微博和臉譜(Facebook)等社交網(wǎng)絡(luò)會(huì)逐漸成為對(duì)用戶進(jìn)行“信息轟炸”的服務(wù)。其原因是現(xiàn)有社交網(wǎng)絡(luò)技術(shù)要求用戶必須接收其關(guān)系網(wǎng)絡(luò)中的所有用戶發(fā)布的所有信息,而不能按信息類別有選擇地接收這些信息,這是現(xiàn)有社交網(wǎng)絡(luò)技術(shù)的缺點(diǎn)。一個(gè)可行的技術(shù)解決方案是讓用戶獲得的信息不僅依賴用戶建立的關(guān)系網(wǎng)絡(luò),而且依賴用戶的個(gè)性化特征和獲取的信息的個(gè)性化特征。這將有助于對(duì)社交網(wǎng)絡(luò)上的海量信息進(jìn)行有效地過濾和篩選,提高社交網(wǎng)絡(luò)的信息檢索效率。為了敘述方便,我們通常把用戶在社交網(wǎng)絡(luò)上獲得的每條信息(如一條微博),也看作一個(gè)文檔。
[0005]要實(shí)現(xiàn)上述兩個(gè)技術(shù)解決方案,其必要條件是能夠獲取用戶和網(wǎng)頁文檔的個(gè)性化特征。但是在互聯(lián)網(wǎng)上獲取用戶和網(wǎng)頁文檔的個(gè)性化特征通常是困難的,主要有以下幾個(gè)難點(diǎn)。第一是個(gè)性化信息的自動(dòng)獲取問題。據(jù)估算目前互聯(lián)網(wǎng)上有5000億個(gè)網(wǎng)頁和20億用戶,手工維護(hù)網(wǎng)頁文檔和用戶的個(gè)性化特征是不現(xiàn)實(shí)的。如何自動(dòng)獲取用戶和網(wǎng)頁文檔的個(gè)性化特征是一個(gè)難題。第二是個(gè)性化信息的更新問題。隨著時(shí)間的推移,用戶的興趣愛好、工作地點(diǎn)、從事的行業(yè)和教育程度等個(gè)人信息會(huì)發(fā)生改變,但是要求大多數(shù)用戶實(shí)時(shí)地更新其個(gè)性化信息是困難的。第三是個(gè)性化信息的語義差異問題。在用戶設(shè)置的個(gè)性化特征中,術(shù)語不同但語義相同的個(gè)性化特征,難以對(duì)其進(jìn)行有效歸類。第四是個(gè)性化信息的完備性問題。用戶在網(wǎng)站上提供的個(gè)人信息通常比較簡(jiǎn)略。例如對(duì)用戶興趣愛好的描述通常是喜歡音樂、打棒球或看書等幾項(xiàng)內(nèi)容,而要求用戶全面地描述出其感興趣的領(lǐng)域是困難的。
[0006]綜上所述,如何有效地獲取用戶和文檔的個(gè)性化特征,并根據(jù)所述個(gè)性化特征來提高搜索引擎的查準(zhǔn)率以及提高社交網(wǎng)絡(luò)的信息檢索效率,是一個(gè)亟待解決的問題。
【發(fā)明內(nèi)容】
[0007]鑒于上述現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的在于提供一種獲取用戶和文檔個(gè)性化特征的方法和系統(tǒng),來自動(dòng)獲取用戶和文檔的個(gè)性化特征,并根據(jù)所述個(gè)性化特征來幫助用戶過濾和篩選其在互聯(lián)網(wǎng)上獲得的信息。
[0008]根據(jù)以上所述的目的,本發(fā)明提出了一種獲取用戶和文檔個(gè)性化特征的方法,其特征在于,
[0009]在接入互聯(lián)網(wǎng)的服務(wù)器中,存儲(chǔ)由多個(gè)用戶標(biāo)識(shí)組成的用戶集U和由多個(gè)文檔標(biāo)識(shí)組成的文檔集D ;存儲(chǔ)由多個(gè)特征標(biāo)識(shí)組成的特征集K ; [0010]在所述服務(wù)器中,為所述用戶集U中的至少一個(gè)用戶或者所述文檔集D中的至少一個(gè)文檔設(shè)置參數(shù)向量初始值;
[0011]在所述服務(wù)器中,多次執(zhí)行如下步驟:
[0012]接收任意一個(gè)用戶m(m e U)訪問任意一個(gè)文檔n(n e D)的信號(hào);
[0013]根據(jù)所述信號(hào),讀取所述用戶m的參數(shù)向量U(m) = (uwml, uwm2,..., uwmk,...,uwmL),其中所述uwmk表示所述用戶m與特征k(k e K)的相關(guān)度;
[0014]根據(jù)所述信號(hào),讀取所述文檔η的參數(shù)向量D(n) = (dwnl, dwn2,..., (Iwnk,...,dw?L),其中所述dwnk表示所述文檔η與特征k(k e K)的相關(guān)度;
[0015]應(yīng)用參數(shù)向量更新算法,更新所述用戶m和所述文檔η的參數(shù)向量;設(shè)更新后所述用戶m的參數(shù)向量為U* (m) = (uwml*, UWm2*,..., uwmk*,..., uwmL*),更新后所述文檔η的參數(shù)向量為DiXn) = (dwnl*, dwn2*..., dwnk*,..., dwnL*),則所述參數(shù)向量更新算法包括:
[0016]U* (m) = F1 [U (m), D (η)];
[0017]D* (n) = F2 [U (m), D (η)];
[0018]其中所述匕(.)和所述F2(.)分別是以所述U(m)和所述D(n)為自變量的函數(shù)。
[0019]與現(xiàn)有技術(shù)相比,本發(fā)明可實(shí)現(xiàn)個(gè)性化的文檔排序,進(jìn)而提高了搜索引擎的查準(zhǔn)率以及提高社交網(wǎng)絡(luò)的信息檢索效率。另外,利用網(wǎng)頁文檔的個(gè)性化特征還能夠提高網(wǎng)頁排序算法的反作弊能力。
【專利附圖】
【附圖說明】
[0020]圖1為在用戶集U中每個(gè)用戶的參數(shù)向量表示方法;
[0021]圖2為在文檔集D中每個(gè)文檔的參數(shù)向量表示方法;
[0022]圖3為用戶和文檔的參數(shù)向量更新算法流程圖;[0023]圖4為在文檔集D中每個(gè)文檔的排序向量表示方法;
[0024]圖5為文檔排序向量更新算法流程圖;
[0025]圖6為基于查詢向量和排序向量的個(gè)性化文檔檢索方法流程圖;
[0026]圖7為基于查詢向量和參數(shù)向量的個(gè)性化文檔檢索方法流程圖;
[0027]圖8為一種獲取用戶和文檔個(gè)性化特征的系統(tǒng)結(jié)構(gòu)圖;
[0028]圖9為一種獲取用戶和文檔個(gè)性化特征的系統(tǒng)的信號(hào)序列圖。
【具體實(shí)施方式】
[0029]結(jié)合附圖對(duì)本發(fā)明方法作進(jìn)一步詳細(xì)說明。
[0030]本專利方法的具體實(shí)施方案說明,包括以下幾個(gè)部分。首先,說明用戶集、文檔集和特征集的含義以及用戶和文檔的參數(shù)向量表示方法;然后,說明用戶和文檔的參數(shù)向量更新算法;之后,說明文檔的排序向量表示方法以及基于文檔參數(shù)向量的文檔排序算法;再后,說明基于查詢向量的個(gè)性化文檔檢索方法;最后,說明一種獲取用戶和文檔個(gè)性化特征的系統(tǒng)。
[0031]首先說明用戶集U、文檔集D和特征集K的含義。
[0032]在接入互聯(lián)網(wǎng)的服務(wù)器中,存儲(chǔ)由多個(gè)用戶標(biāo)識(shí)組成的用戶集U和由多個(gè)文檔標(biāo)識(shí)組成的文檔集D。所述用戶標(biāo)識(shí)是用戶的唯一識(shí)別碼,例如用戶帳號(hào)、手機(jī)號(hào)碼、Cookie識(shí)別碼、IP地址、Email地址或者即時(shí)通信號(hào)碼。所述文檔標(biāo)識(shí)是文檔的唯一識(shí)別碼,例如Web網(wǎng)頁文檔的URL地址、購物網(wǎng)站上的一個(gè)產(chǎn)品編號(hào)或者一則互聯(lián)網(wǎng)廣告的編號(hào)。假設(shè)所述用戶集U含有M個(gè)元素,所述文檔集D含有N個(gè)元素。
[0033]在接入互聯(lián)網(wǎng)的服務(wù)器中,存儲(chǔ)由多個(gè)特征標(biāo)識(shí)組成的特征集K。所述多個(gè)特征既是所述用戶集U中用戶的特征,又是所述文檔集D中文檔的特征。用戶和文檔使用相同的特征集K。所述特征集K含有L個(gè)元素。若用戶具有“音樂”特征,說明用戶愛好音樂,而文檔具有“音樂”特征,說明文檔與音樂主題相關(guān)。
[0034]下面介紹用戶和文檔的參數(shù)向量的表示方法。所述參數(shù)向量表示方法與向量空間模型VSM的向量表述方法相似,即以特征項(xiàng)作為用戶特征或文檔特征的基本單位。本專利中,以用戶與各個(gè)特征的相關(guān)度的集合作為用戶的參數(shù)向量,以文檔與各個(gè)特征的相關(guān)度的集合作為文檔的參數(shù)向量。
[0035]圖1為在用戶集U中每個(gè)用戶的參數(shù)向量表示方法。在用戶集U中任意一個(gè)用戶m(m e U)的參數(shù)向量設(shè)置為U (m) = (uwml, uwm2,..., uwmk,..., uwmL),其中所述uwmk表示所述用戶m與特征k(keK)的相關(guān)度。另外,將所述用戶集U中的每個(gè)用戶與特征k的相關(guān)度匯集在一起,組成一個(gè)向量,叫做用戶集U的第k個(gè)用戶列向量(uwlk, uw2k,..., Uwtlk)。
[0036]圖2為在文檔集D中每個(gè)文檔的參數(shù)向量表示方法。在文檔集D中任意一個(gè)文檔n (n e D)的參數(shù)向量設(shè)置為 D (n) = (dwnl, dwn2,..., dwnk,..., (Iwhl),其中所述(Iwnk 表示所述文檔η與特征k(keK)的相關(guān)度。另外,將所述文檔集D中的每個(gè)文檔與特征k的相關(guān)度匯集在一起,組成一個(gè)向量,叫做文檔集D的第k個(gè)文檔列向量(dwlk, dw2k,..., dwNk)。
[0037]所述相關(guān)度是一個(gè)實(shí)數(shù)值,它表示用戶或者文檔與特征集K中的某個(gè)特征的關(guān)系緊密程度。如果一個(gè)用戶或者文檔與音樂特征關(guān)聯(lián)多一點(diǎn)與體育特征關(guān)聯(lián)少一點(diǎn),我們就說該用戶或者文檔與音樂特征的相關(guān)度高,與體育特征的相關(guān)度低。另外在特征選取時(shí),有些特征之間是具有相關(guān)性的,因此可以通過減少特征之間的相關(guān)性來降低特征集K的維度,減少對(duì)服務(wù)器存儲(chǔ)空間的需求,提高算法效率。有些特征不必直接列入特征集K中,因?yàn)檫@些特征的相關(guān)度可以通過特征集K中的一個(gè)或幾個(gè)其它特征的相關(guān)度計(jì)算出來。
[0038]下面說明用戶或文檔的參數(shù)向量初始值的設(shè)置方法。舉如下三個(gè)例子進(jìn)行說明。用戶或文檔的參數(shù)向量初始值范圍通常設(shè)置為Uwmk e [0,1]和dwnke [0,I],其中me U、n e D和k e K。如果用戶或文檔的參數(shù)向量沒有被設(shè)置初始值,其參數(shù)向量初始值缺省設(shè)為零向量。
[0039]例I是人工設(shè)置用戶m(m e U)或者文檔n (n e D)的參數(shù)向量初始值的方法。例如設(shè)置特征總數(shù)L = 5,特征集K=(科學(xué),教育,財(cái)經(jīng),音樂,體育),設(shè)置U(m) = (uwffll,Uwffl2,UWm3, Uwiii4, Uwiii5) = (O, 0.9,0,1,0)。即用戶m與“教育”特征的相關(guān)度為0.9,與“首樂”特征的相關(guān)度為1,與其它特征的相關(guān)度均為零。同理,可以設(shè)置所述文檔η的參數(shù)向量D(n)=(dwnl, (Iwn2,..., dwnk,..., dwnL)的初始值。
[0040]例2是設(shè)置用戶m(m e U)的參數(shù)向量初始值的方法。首先由所述用戶m提交一組文檔集合H={...,r,...} (He D),所述文檔 r(r e H)的參數(shù)向量為(dwrl,dwr2,..., dwrL),然后,對(duì)于每個(gè) k e K,設(shè)置 Uwmk = ( σ j/s).Σ (reH) dwrk 或者 uwmk = ( σ j/s).Σ (r e H) [dwrk/(Σ (keK)dwA)],其中s為所述集合H的元素個(gè)數(shù),01為設(shè)定正常數(shù)。使用類似方法,所述用戶m也可以在所述用戶集U中選擇一組用戶來計(jì)算所述用戶m的參數(shù)向量初始值。
[0041]例3是一種設(shè)置文檔的參數(shù)向量初始值的方法。分類目錄是一種特殊文檔,比如門戶網(wǎng)站通常包括新聞、音樂、體育、財(cái)經(jīng)和科技等分類目錄。我們假設(shè)相同分類目錄下的文檔具有某些相同的特征,例如體育目錄下的文檔都與體育相關(guān)。如果文檔n (n e D)是分類目錄h (h e D)下的一個(gè)文檔,則所述文檔η的參數(shù)向量的初始值由所述分類目錄h的參數(shù)向量來決定。例如對(duì)于每個(gè)k e K,設(shè)置dwnk = σ 2.(Iwhk,其中σ 2為設(shè)定正常數(shù)。
[0042]圖3為用戶和文檔的參數(shù)向量更新算法流程圖。具體包括在接入互聯(lián)網(wǎng)的服務(wù)器中,執(zhí)行如下步驟:
[0043]Sll.存儲(chǔ)由多個(gè)用戶標(biāo)識(shí)組成的用戶集U和由多個(gè)文檔標(biāo)識(shí)組成的文檔集D ;存儲(chǔ)由多個(gè)特征標(biāo)識(shí)組成的特征集K ;
[0044]S12.為所述用戶集U中的至少一個(gè)用戶或者所述文檔集D中的至少一個(gè)文檔設(shè)置參數(shù)向量初始值;
[0045]S13.接收任意一個(gè)用戶m(m e U)訪問任意一個(gè)文檔n(n e D)的信號(hào);
[0046]S14.根據(jù)所述信號(hào),讀取所述用戶m的參數(shù)向量U(m) = (uwml,uwm2,..., uwmk,...,uwmL),其中所述uwmk表示所述用戶m與特征k(k e K)的相關(guān)度;
[0047]S15.根據(jù)所述信號(hào),讀取所述文檔η的參數(shù)向量D (n) = (dw^^w^,..., dwnk,...,dw?L),其中所述dwnk表示所述文檔η與特征k(k e K)的相關(guān)度;
[0048]S16.應(yīng)用參數(shù)向量更新算法更新所述用戶m和所述文檔η的參數(shù)向量;設(shè)更新后所述用戶m的參數(shù)向量if (m) = (uwml*, UWm2*,..., uwmk*...,uwmL*),更新后所述文檔η的參數(shù)向量 DiXn) = (dwnl*, dwn2*,..., dwnk*,..., (Iwnl*),則所述算法包括:
[0049]U* (m) = F1 [U (m),D (η)];
[0050]D* (n) = F2 [U (m), D (η)];
[0051]在執(zhí)行完所述步驟S 16后,返回所述步驟S13。[0052]其中所述匕(.)和所述F2(.)分別是以所述U(m)和所述D(n)為自變量的函數(shù)。所述用戶m代表用戶集U中的任何一個(gè)用戶,而不特指某個(gè)用戶,所述文檔η代表文檔集D中的任何一個(gè)文檔,而不特指某個(gè)文檔。例如第η次執(zhí)行步驟S13時(shí)在所述信號(hào)中m =1023,η = 3428,而第η+1次執(zhí)行步驟S13時(shí)在所述信號(hào)中m = 33456,η = 28477 ;另外,所述步驟S12也包括同時(shí)為所述用戶集U中的至少一個(gè)用戶以及為所述文檔集D中的至少一個(gè)文檔設(shè)置參數(shù)向量初始值的情形。
[0053]在圖3所述方法的一個(gè)應(yīng)用實(shí)例中,對(duì)每個(gè)特征k e K,所述Uwmk*是所述dwnk的增函數(shù),所述dw:是所述Uwmk的增函數(shù)。
[0054]在圖3所述方法的一個(gè)應(yīng)用實(shí)例中,對(duì)每個(gè)特征k e K,所述Uwmk"'是2(keK)dwnl^3減函數(shù),所述dw:是Σ (k e K)uwmk的減函數(shù)。
[0055]在圖3所述方法的一個(gè)應(yīng)用實(shí)例中,對(duì)于每個(gè)特征k e K,所述Uwmk*和所述dw:都是所述用戶m訪問所述文檔集D的頻次的減函數(shù)。所述頻次是在一設(shè)定時(shí)間段內(nèi)所述用戶m訪問所述文檔集D中的文檔的次數(shù),除以所述設(shè)定時(shí)間段的長度。
[0056] 在圖3所述方法的一個(gè)應(yīng)用實(shí)例中,所述信號(hào)是在一設(shè)定時(shí)間段內(nèi)從用戶訪問文檔的眾多信號(hào)中隨機(jī)抽取的。在所述一設(shè)定時(shí)間段內(nèi),對(duì)所述用戶集U中的每個(gè)活躍用戶抽取相同數(shù)量的訪問信號(hào)作為圖3所述方法的輸入信號(hào)。所述活躍用戶是指在所述一設(shè)定時(shí)間內(nèi),訪問所述文檔集D達(dá)到設(shè)定次數(shù)的用戶。非活躍用戶不能使用圖3所述方法更新用戶和文檔的參數(shù)向量。
[0057]在圖3所述方法中,在執(zhí)行所述參數(shù)向量更新算法達(dá)到設(shè)定次數(shù)I1后,在每個(gè)特征k e K下,對(duì)第k個(gè)用戶列向量(uwlk,uw2k,...,uwMk)進(jìn)行歸一化處理;在執(zhí)行所述參數(shù)向量更新算法達(dá)到設(shè)定次數(shù)t2后,在每個(gè)特征k e K下,對(duì)第k個(gè)文檔列向量(dwlk, dw2k,...,dwNk)進(jìn)行歸一化處理;其中和t2為正整數(shù)。執(zhí)行一次參數(shù)向量更新算法,即執(zhí)行一次所述步驟S16。所述歸一化方法包括以下的具體應(yīng)用實(shí)例。
[0058]例1:對(duì)用戶集U中第k個(gè)用戶列向量(uwlk, uw2k,..., uwMk)進(jìn)行歸一化處理的方法如下:對(duì)于每個(gè)m e U,如果UWmPiiWAi^uwnik = 1,否則設(shè)置uwmk=uwmk/HW。其中有兩種方法設(shè)置所述.1iW,第一是對(duì)集合{uwlk,uw2k,...,uwMk}按由大到小的順序進(jìn)行排序,將排名第M1的元素賦值紿uw;第二是設(shè)所述nw.為一常數(shù),如UW =1.005。對(duì)文檔集D中第k個(gè)文檔列向量(dwlk,dw2k,...,dwNk)進(jìn)行歸一化處理的方法如下:對(duì)于每個(gè)n e D,如果dwnk>dw,則設(shè)dwnk = I,否則設(shè)置dwnk=dwnk/dw。其中有兩種方法設(shè)置所述.dw,第一是對(duì)集合{dwlk,dw2k,...,dwNk}按由大到小的順序進(jìn)行排序,將排名第N1的元素賦值紿-(1^^,第二是設(shè)所述,^為一常數(shù),如.不^=1.005。所述Μι和所述N1為設(shè)定正常數(shù)。
[0059]例2:對(duì)文檔集D中第k個(gè)文檔列向量(dwlk,dw2k,...,dwNk)進(jìn)行歸一化處理的方法如下:首先對(duì)集合{dwlk, dw2k,..., dwNk}進(jìn)行排序,以及按照排序結(jié)果將集合{dwlk,dw2k,...,dwNk}分成元素個(gè)數(shù)近似相等的r組,其中任意兩組a組和b組的關(guān)系是a組中的任何一個(gè)元素大于等于b組中的任何一個(gè)元素,或者a組中的任何一個(gè)元素小于等于b組中的任何一個(gè)元素;在每組中取出數(shù)值最小的一個(gè)數(shù)據(jù)組成集合{s1;s2,...,Sr^,且S1< S2<...< Sr ;然后,對(duì)每個(gè) n e D,如果 dwnk < S1,則設(shè)置 dwnk = O ;如果 sm ≤ dwnk < sm+1,則設(shè)置 Clwnk = gi (sm);如果 dwnk≥ Sr,則設(shè)置dwnk = I。其中 gjsj 為增函數(shù),gi (sm) e (O,1) 例如設(shè)g1(Sm) = Sm/Sr ;1≤m < r,r為設(shè)定正數(shù)。同樣方法,可對(duì)用戶集U中第k個(gè)用戶列向量進(jìn)行歸一化處理。
[0060]在圖3所述方法的一個(gè)應(yīng)用實(shí)例中,執(zhí)行完所述步驟S16之后,還包括對(duì)每個(gè)特征k G K,設(shè)直 Uwmk = Uwmk 和 dwnk = dwnk。
[0061]在圖3所述方法的一個(gè)應(yīng)用實(shí)例中,所述方法滿足對(duì)于每個(gè)特征k e K,有uwmk* ^ Uwmk 和 dw: ^ dwnk。
[0062]在圖3所述方法的一個(gè)應(yīng)用實(shí)例中,所述U*(m)和所述D*(n)分別由所述U(m)和所述D (η)唯一確定,與其它變量無關(guān)。
[0063]在圖3所述方法中,所述信號(hào)的類型至少是以下類型中的一種:Τ= I表示所述用戶m點(diǎn)擊所述文檔η的鏈接,T = 2表示所述用戶m鍵入所述文檔η的URL地址,T = 3表示所述用戶m將所述文檔η設(shè)置為喜歡(如臉譜的Like和谷歌的+1),T = 4表示所述用戶m轉(zhuǎn)發(fā)所述文檔n, T = 5表示所述用戶m評(píng)論所述文檔n, T = 6表示所述用戶m收藏所述文檔η。
[0064]應(yīng)用實(shí)例I
[0065]這是圖3所述方法的一個(gè)應(yīng)用實(shí)例,其中所述參數(shù)向量更新算法具體包括:
[0066]uwmk* =^1* Uwmk+ λ j (n, m, T).fl (dwnk)(對(duì)于每個(gè) k e K)
[0067]dw^* = β 2.dwnk+ λ 2 (m, η, T).f2 (uwmk)(對(duì)于每個(gè) k e K)
[0068]其中,所述X1O1, m, T)為在所述信號(hào)的類型T下所述文檔η對(duì)所述用戶m的影響系數(shù),所述λ2(πι,η, Τ)為在所述信號(hào)的類型T下所述用戶m對(duì)所述文檔η的影響系數(shù);^和@2為設(shè)定正常數(shù);所述Kdwnk)是所述dWnk的增函數(shù),所述f2(uwmk)是所述UWmk 的增函數(shù)。例如 (Idwnk) = O 3.dwnk, f2 (UWmk) = O 4.uwmk ;或者 ((Iwnk) = σ 5.{I/[I+exp Mwnk) ]}, f 2 (uwmk) = σ6.{I/[1+exp (_uwmk) ]},其中 σ 3、σ 4、。5和 σ 6 為設(shè)定正常數(shù)。
[0069]在所述應(yīng)用實(shí)例I中,對(duì)每個(gè)特征k e K,為第k個(gè)文檔列向量設(shè)置閥值dCk,如果(Iwnk ( dCk,則取((Iwnk) = O ;對(duì)每個(gè)特征k e K,為第k個(gè)用戶列向量設(shè)置閥值uCk,如果uwmk ( uCk,則取f2 (uwmk) =0。其中dCk和uCk為設(shè)定常數(shù),或者設(shè)置dCk等于第k個(gè)文檔列向量(dwlk, dw2k,..., dwNk)的各個(gè)分量中排名在第S1名的分量,以及設(shè)置uCk等于第k個(gè)用戶列向量(uwlk, uw2k, Uwltlk)的各個(gè)分量中排名在第a2名的分量叫和a2為設(shè)定正整數(shù)。
[0070]在所述應(yīng)用實(shí)例I中,所述λ I (n, m, T)和所述λ 2(m,n, T)的具體設(shè)置方法包括如下實(shí)例:
[0071]例1:設(shè)所述λ丨(n, m, Τ)和所述λ 2 (m, η, Τ)為預(yù)設(shè)常數(shù)。例如λ丨(n, m, T) = C1和λ 2 (m, η, Τ) = C2,其中C1和C2為預(yù)設(shè)正常數(shù),如C1 = C2 = 0.01。
[0072]例2:所述λ J (n, m, T)和所述λ 2 (m, η, Τ)分別是所述用戶m訪問所述文檔集D的頻次的減函數(shù)。如設(shè) λ !(η,ηι, T) = l/g2[freq(m)], A2(m, η,Τ) = l/g2 [freq (m)],所述g2(x)為增函數(shù)。例如g2(x)為分段函數(shù),當(dāng)X < a3時(shí),g2(x) = I ;當(dāng)X≥a3時(shí),g2(x)=l+a4(x-a3),其中a3和a4為預(yù)設(shè)正常數(shù),所述freq(m)為所述用戶m訪問所述文檔集D中的文檔的頻次。
[0073]例3:設(shè) λ j (n, m, Τ) = l/g3[ Σ (ke Kjdwnk],λ 2 (m, η, Τ) = l/g3[2 (k e K)uwmk],g3(x)為增函數(shù)。例如g3(x)為分段函數(shù),當(dāng)X < a5時(shí),g3(x) = I ;當(dāng)X > a5時(shí),g3(x)=l+a6(x-a5),其中ajPa6S預(yù)設(shè)正常數(shù)。在計(jì)算Σ (k e K)dwnk時(shí),如果dwnk≤min_dCk,貝U取dw^ = O ;在計(jì)算 Σ (k e K)uwmk 時(shí),如果 uwmk ( min_uCk,則取 uwmk = O ;其中 min_dCk 和 min_uCk是設(shè)定正常數(shù)。
[0074]例4:所述 λ I (n, m, Τ) = (I1 (η).U2 (m),所述 λ 2 (m, η, Τ) = U1 (m).d2 (η),其中Cl1(Ii)表示文檔η的參數(shù)向量是否可以用于更新用戶集U中用戶的參數(shù)向量,U2(Hi)表示用戶m的參數(shù)向量是否可以被文檔集D中文檔的參數(shù)向量更新,U1(Hi)表示用戶m的參數(shù)向量是否可以用于更新文檔集D中文檔的參數(shù)向量,d2 (η)表示文檔η的參數(shù)向量是否可以被用戶集U中用戶的參數(shù)向量更新。U1 (m),U2(m),Cl1 (η)和d2 (η)是預(yù)設(shè)參數(shù),它們的取值為O或者I。I代表是,O代表否。這個(gè)例子的含義是為防止惡意攻擊,有些文檔(或用戶)由于沒有經(jīng)過可靠性認(rèn)證,其參數(shù)向量不能對(duì)其它用戶(或文檔)的參數(shù)向量進(jìn)行更新;有些重要文檔(或用戶),其參數(shù)向量不能被其他用戶(或文檔)的參數(shù)向量所更新。
[0075]例5:所述λ I (n, m, Τ) = S1⑴,所述λ 2 (m, η, Τ) = S2⑴。其中所述T為用戶訪問文檔信號(hào)的類型,所述S1(T)和所述S2(T)分別是所述T的函數(shù)。
[0076]例6:所述λ I (n, m, T)是所述文檔η的被訪問次數(shù)或者PageRank值的增函數(shù),所述X2(m,n,T)是所述用戶m的關(guān)系網(wǎng)絡(luò)中用戶數(shù)量的增函數(shù)。
[0077]例7:所述λ I (n, m, T)和所述λ 2 (m, η, Τ)分別是所述用戶m和所述文檔η的參數(shù)向量之間的相似度sim(m, η)的增函數(shù)。例如λ j (n, m, Τ) = l+c3.sim(m, η), λ 2 (m, η,Τ) = l+c4.sim(m, η),其中C3和C4為大于等于I的設(shè)定常數(shù),且sim(m, η) = [ Σ (keK)(uwfflk.dwJ]/{[ Σ (keK) (UWfflk)2]172.[ Σ (keK) (dwj2]172}。這個(gè)例子的含義是用戶和文檔的參數(shù)向量之間的相似度越高,它們彼此“投票”的比例系數(shù)越大。在計(jì)算sim(m,n)時(shí),如果 dwnk ( min_dCk,則取 dwnk = O ;如果 uwmk ( min_uCk,則取 uwmk = O,其中 min_dCk 和 min_uCk是設(shè)定正常數(shù)。
[0078]例8:使用上述例I~7各方法中的至少兩種方法的組合,來生成所述λ Αη,πι,Τ)和所述λ 2 (m, η, Τ)。比如在freq (m) >a3時(shí),有
[0079]λ l (n, m, Τ) = C1.{l+c3 *sim(m,n)}.{I/[l+a4 (freq (m)-a3) ]}.((I1 (n).U2 (m)}.S1(T)
[0080]λ 2 (m, n, T) = C2.{l+c4.sim(m,n)}.{I/[l+a4 (freq (m)-a3) ]}.1u1(Iii).d2 (n)}.S2⑴。
[0081]在所述應(yīng)用實(shí)例I中,當(dāng)執(zhí)行所述具體的參數(shù)向量更新算法達(dá)到設(shè)定次數(shù)后,需要針對(duì)每個(gè)特征k e K,分別對(duì)第k個(gè)文檔列向量(dwlk, dw2k,..., dwNk)和第k個(gè)用戶列向量(uwlk, uw2k,..., uwMk)進(jìn)行歸一化處理。
[0082]應(yīng)用實(shí)例2
[0083]這是應(yīng)用實(shí)例I的一個(gè)具體實(shí)現(xiàn)方法。為了便于說明,假設(shè)在互聯(lián)網(wǎng)上有兩個(gè)用戶和三個(gè)文檔,每個(gè)用戶和每個(gè)文檔均有兩個(gè)特征,即用戶集U= {1,2},文檔集D= {I,
2,3},特征集K= {1,2}。用戶I和用戶2的參數(shù)向量分別為(uwn, uw12)和(uw21, uw22),文檔1、文檔2和文檔3的參數(shù)向量分別為(dwn, dw12)、(dw21, dw22)和(dw31, dw32)。其中uwmk(m e U, k e K)表示所述用戶m與特征k的相關(guān)度;dwnk(n e D, k e K)表示所述文檔η與特征k的相關(guān)度。
[0084]假設(shè)在服務(wù)器中收到了所述用戶2訪問所述文檔3的信號(hào),且信號(hào)類型T = 1,則根據(jù)如下參數(shù)向量更新算法更新所述用戶2和所述文檔3的參數(shù)向量:
[0085]Uw21* =^1* Uw21+ λ j (3, 2,1).dw31 ;
[0086]Uw22* =^1* Uw22+ λ j (3, 2,1).dw32
[0087]dw31* = β 2.dw31+ λ 2 (2,3,I).Uw21 ;
[0088]dw32* = β 2.dw32+ λ 2 (2,3,I).Uw22
[0089]其中,= β2 = i ^^3,2,1)表示在信號(hào)類型T = I時(shí)所述文檔3對(duì)所述用戶2的影響系數(shù);λ 2(2,3,I)表示在信號(hào)類型T = I時(shí)所述用戶2對(duì)所述文檔3的影響系數(shù)。例如:
[0090]λ j (3, 2,1) = C1.{l+c3 *sim(2,3)}.{I/[l+a4 (freq (2)-a3) ]}.((I1 (3).U2 (2)}.S1 (I) [0091]λ 2(2,3,1) = C2.{l+c4.sim(2, 3)}.{I/[l+a4(freq(2)-a3) ]}.(U1 (2) ^d2(3)}.S2(I)
[0092]其中,C1= C2 = 0.01, C3 = C4 = 3, sim(2, 3) = (uw21.dw31+uw22.dw32) / {[ (Uw21)2+ (Uw22)2]1/2.[ (dw31)2+ (dw32)2]1/2},a3 = 200, a4 = 0.01, Cl1 (3) = U2 (2) = U1 (2) = d2 (3)=
I,S1(I) = 2, S2(I) = I,且假設(shè) freq(2) > a3。
[0093]在執(zhí)行完上述參數(shù)向量更新算法后,進(jìn)行如下設(shè)置:uw21 = Uw21*, Uw22 = Uw22*, dw31=dw31* 和 dw32 = dw32*。
[0094]在執(zhí)行完上述參數(shù)向量更新算法后,對(duì)用戶列向量(uwn,UW21)和(uw12,UW22)進(jìn)行歸一化處理,以及對(duì)文檔列向量(dwn, dw21, dw31)和(dw12, dw22, dw32)進(jìn)行歸一化處理。
[0095]對(duì)用戶列向量的歸一化處理的算法如下:設(shè)HW =max(uwj i,uw21),則對(duì)特征 k = I 設(shè)置 UW11 = UW11Znw, UW2I =Uw2I/Uw;設(shè).nW=max(uw12,uw22),則對(duì)特征k = 2設(shè)置UW12 = UW12/UWjUW22 = UW22/nW。對(duì)文檔列向量的歸一化處理的算法如下= I 設(shè)置 dwu^dwu/dw,dw21 = dw21/dw,dw31 = dw3j/dw:?:dw =max(dw12,dw22,dw32),則對(duì)特征 k = 2 設(shè)置(Iw12 = Clw12Zdw ,dw22 = dw22/dw,
[0096]dW32 = dW32/dWo
[0097]圖4為在文檔集D中每個(gè)文檔的排序向量表示方法。
[0098]搜索引擎的核心技術(shù)是排序算法,其中最著名的是PageRank算法。標(biāo)準(zhǔn)的PageRank算法可以用如下公式表示。
,、I — d , ▽ PR(i)
[0099]P尺(P) = —N + d / | ~^7K~⑴
ieT 、J
[0100]其中,集合T(TcD)為網(wǎng)頁P(yáng)(P e D)的鏈入網(wǎng)頁集合,C(i)為網(wǎng)頁i(i e τ)的鏈出網(wǎng)頁數(shù)量;d表示用戶通過其它網(wǎng)頁的鏈接來訪問所述網(wǎng)頁P(yáng)的概率;1-d表示用戶不通過其它網(wǎng)頁的鏈接(如通過鍵入U(xiǎn)RL地址等方式)來訪問所述網(wǎng)頁P(yáng)的概率,d e (O,I) ;PR(p)表示所述網(wǎng)頁P(yáng)在所述文檔集D中的排序值,N表示文檔集D中的網(wǎng)頁數(shù)量。另外每個(gè)網(wǎng)頁的初始排序值設(shè)為1/N。這里,文檔集D中的每個(gè)元素都是一個(gè)網(wǎng)頁。
[0101]標(biāo)準(zhǔn)的PageRank算法的缺點(diǎn)是在互聯(lián)網(wǎng)上的每個(gè)網(wǎng)頁僅有唯一的一個(gè)網(wǎng)頁排序值,即該算法假設(shè)每個(gè)用戶對(duì)同一個(gè)網(wǎng)頁的重要性的評(píng)價(jià)是相同的。也就是說,PageRank算法沒有考慮到提交搜索查詢的用戶的個(gè)性化差異。因此,需要對(duì)現(xiàn)有排序算法進(jìn)行改進(jìn)。
[0102]我們把傳統(tǒng)的PageRank值進(jìn)行擴(kuò)展,即將所述文檔集D中的任意一個(gè)文檔P的一維排序值PR(P),擴(kuò)展為基于領(lǐng)域特征的多維的排序向量。設(shè)任一文檔p(peD)的排序向量為[PR (p, I), PR (P,2),…,PR (p,k),…,PR(p,L)],其中所述 PR(p,k)表示在特征k(k e K)下所述文檔P在所述文檔集D中的排序值。在特征k e K下,將每個(gè)文檔的排序值匯集在一起,組成一個(gè)向量,叫做文檔集D的第k個(gè)排序列向量,即
【權(quán)利要求】
1.一種獲取用戶和文檔個(gè)性化特征的方法,其特征在于, 在接入互聯(lián)網(wǎng)的服務(wù)器中,存儲(chǔ)由多個(gè)用戶標(biāo)識(shí)組成的用戶集U和由多個(gè)文檔標(biāo)識(shí)組成的文檔集D ;存儲(chǔ)由多個(gè)特征標(biāo)識(shí)組成的特征集K ; 在所述服務(wù)器中,為所述用戶集U中的至少一個(gè)用戶或者所述文檔集D中的至少一個(gè)文檔設(shè)置參數(shù)向量初始值; 在所述服務(wù)器中,多次執(zhí)行如下步驟: 接收任意一個(gè)用戶m(m e U)訪問任意一個(gè)文檔n(n e D)的信號(hào); 根據(jù)所述信號(hào),讀取所述用戶m的參數(shù)向量U (m) = (uwml, UWm2,..., uwmk,..., uwmL),其中所述uwmk表示所述用戶m與特征k(k e K)的相關(guān)度; 根據(jù)所述信號(hào),讀取所述文檔η的參數(shù)向量D (n) = (dwnl, (Iwn2,..., (Iwnk,..., dwnL),其中所述dwnk表示所述文檔η與特征k(k e K)的相關(guān)度; 應(yīng)用參數(shù)向量更新算法,更新所述用戶m和所述文檔η的參數(shù)向量;設(shè)更新后所述用戶m的參數(shù)向量為U*(m) = (uwml*, uwm2*..., uwmk*..., uwmL*),更新后所述文檔η的參數(shù)向量為D* (n) = (dwnl*, dwn2*, , dw^*, , dwnL*),則所述參數(shù)向量更新算法包括:
U* (m) = F1 [U (m), D (η)];
D* (n) = F2 [U (m), D (η)]; 其中所述匕(.)和所述F2(.)分別是以所述U(m)和所述D(n)為自變量的函數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)每個(gè)特征ke K,所述Uwmk*是所述dwnk的增函數(shù),所述dw:是所述Uwmk的增函數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)每個(gè)特征ke K,所述Uwmk*和所述dw:分別是所述用戶m訪問所述文檔集D的頻次的減函數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)每個(gè)特征keK,所述UWmk*是Σ (keK)(Iwnk的減函數(shù),所述dw:是Σ (k e κ)uwmk的減函數(shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,執(zhí)行所述參數(shù)向量更新算法達(dá)到設(shè)定次數(shù)tl后,針對(duì)每個(gè)特征k e K,對(duì)第k個(gè)用戶列向量(uwlk,uw2k,...,uwMk)進(jìn)行歸一化處理;執(zhí)行所述參數(shù)向量更新算法達(dá)到設(shè)定次數(shù)&后,針對(duì)每個(gè)特征k e K,對(duì)第k個(gè)文檔列向量(dwlk, dw2k, , dwNk)進(jìn)行歸一化處理。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述參數(shù)向量更新算法的一個(gè)應(yīng)用實(shí)例中,所述Uwmk*和所述dw:的具體更新方法如下:
uwmk* = β I.uwmk+ λ j (n, m, T).f1 (dwnk)(對(duì)于每個(gè) k e K)
dwnk* = β 2.(Iwnk+ λ 2(m, η, Τ).f2 (uwmk)(對(duì)于每個(gè) k e K) 其中,所述X1(I^nuT)為在所述信號(hào)的類型T下所述文檔η對(duì)所述用戶m的影響系數(shù),所述X2(m,n,T)為在所述信號(hào)的類型T下所述用戶m對(duì)所述文檔η的影響系數(shù);^和β2為設(shè)定正常數(shù);所述Kdwnk)是所述dwnk的增函數(shù),所述f2(uwmk)是所述UWmk的增函數(shù)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述X1O1,m, T)和所述λ2(πι,η, Τ)分別是所述用戶m訪問所述文檔集D的頻次的減函數(shù)。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述X1O1,m, T)和所述λ2(πι,η, Τ)分別是所述用戶m的參數(shù)向量和所述文檔η的參數(shù)向量之間的相似度的增函數(shù)。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文檔集D中至少含有兩個(gè)文檔子集,其中文檔子集S(SeD)中的每個(gè)文檔都含有至少一個(gè)鏈接指向所述文檔集D中的其它文檔,文檔子集E(EgD)中的每個(gè)文檔都被所述文檔子集S中的至少一個(gè)文檔含有的鏈接所指向;并且s UE = D,she關(guān)Φ; 所述文檔集D中的每個(gè)文檔還設(shè)有排序向量,設(shè)任一文檔p(p e D)的排序向量為[PR (p, I), PR (p, 2),...,PR(p,k),...,PR(p,L)],其中所述 PR(p,k)表示在特征 k(k e K)下所述文檔P在所述文檔集D中的排序值; 因此,排序向量更新算法如下:所述文檔集D中的任意一個(gè)文檔P在特征k(k e K)下的排序值,是所述文檔P的每個(gè)鏈入文檔在所述特征k下的排序值和所述鏈入文檔與所述特征k的相關(guān)度的函數(shù)。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,在所述方法的一個(gè)應(yīng)用實(shí)例中,在每個(gè)特征k e K下,任一文檔P e D在所述文檔集D中的排序值定義為: P/?(p, k) = —~d) + d ^ PR(i, k).dwik
ieT 其中,集合T(TcS)為所述文檔P的鏈入文檔集合,d表示用戶通過其它文檔的鏈接來訪問所述文檔P的概率,所述PR(i,k)表示文檔i在特征k(k e K)下的排序值,所述dwik表示所述文檔i與特征k(k e K)的相關(guān)度,N是所述文檔集D中的文檔個(gè)數(shù)。
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,在所述方法的一個(gè)應(yīng)用實(shí)例中,在每個(gè)特征k e K下,任一文檔P e D在所述文檔集D中的排序值定義為:
,、 (1__d) , J srPR(i,k)'dwik mP, fc) = +d I ~^ 其中,集合T(TcS)為所述文檔p的鏈入文檔集合,d表示用戶通過其它文檔的鏈接來訪問所述文檔P的概率,所述PR(i,k)表示文檔i在特征k(k e K)下的排序值,所述dwik表示所述文檔i與特征k(keK)的相關(guān)度,C(i)是所述文檔i的鏈出文檔數(shù)量,N是所述文檔集D中的文檔個(gè)數(shù)。
12.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述方法包括一個(gè)文檔排序應(yīng)用實(shí)例,所述應(yīng)用實(shí)例包括在所述服務(wù)器中執(zhí)行如下步驟: S10.根據(jù)所述參數(shù)向量更新算法,更新所述文檔集D中多個(gè)文檔的參數(shù)向量以及所述用戶集U中多個(gè)用戶的參數(shù)向量; S20.對(duì)每個(gè)特征k e K設(shè)置所述文檔集D中的第k個(gè)排序列向量的初始值; S30.對(duì)每個(gè)特征k e K,應(yīng)用所述排序向量更新算法,迭代更新所述文檔集D中第k個(gè)排序列向量,即更新所述文檔集D中每個(gè)用戶的排序向量; S40.接收用戶q(q E U)設(shè)置的查詢向量和所述用戶q提交的搜索條件,并且在所述搜索條件中提取搜索關(guān)鍵字; S50.在所述文檔集D中檢索與所述搜索關(guān)鍵字匹配的一組文檔Q ; S60.根據(jù)所述查詢向量和所述一組文檔Q中的每個(gè)文檔的排序向量,計(jì)算所述一組文檔Q中的每個(gè)文檔的個(gè)性化排序值; S70.根據(jù)所述個(gè)性化排序值,對(duì)所述一組文檔Q進(jìn)行排序,并且根據(jù)排序結(jié)果將所述一組文檔Q中的多個(gè)文檔的鏈接發(fā)送給所述用戶q。
13.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法包括一個(gè)文檔排序應(yīng)用實(shí)例,所述應(yīng)用實(shí)例包括在所述服務(wù)器中執(zhí)行如下步驟: Al0.根據(jù)所述參數(shù)向量更新算法,更新所述文檔集D中多個(gè)文檔的參數(shù)向量以及所述用戶集U中多個(gè)用戶的參數(shù)向量; A20.接收用戶q(q e U)設(shè)置的查詢向量和所述用戶q提交的搜索條件,并且在所述搜索條件中提取搜索關(guān)鍵字; A30.在所述文檔集D中檢索與所述搜索關(guān)鍵字匹配的一組文檔Q ; A40.根據(jù)所述查詢向量和所述一組文檔Q中的每個(gè)文檔的參數(shù)向量,計(jì)算所述一組文檔Q中的每個(gè)文檔的個(gè)性化排序值; A50.根據(jù)所述個(gè)性化排序值,對(duì)所述一組文檔Q進(jìn)行排序,并且根據(jù)排序結(jié)果將所述一組文檔Q中的多個(gè)文檔的鏈接發(fā)送給所述用戶q。
14.一種獲取用戶和文檔個(gè)性化特征的系統(tǒng),其特征在于,所述系統(tǒng)包括如下功能模塊: 用戶集、文檔集和特征集設(shè)置模塊:在用戶數(shù)據(jù)庫中存儲(chǔ)由多個(gè)用戶標(biāo)識(shí)組成的用戶集U,在文檔數(shù)據(jù)庫中存儲(chǔ)由多個(gè)文檔標(biāo)識(shí)組成的文檔集D ;在特征數(shù)據(jù)庫中存儲(chǔ)由多個(gè)特征標(biāo)識(shí)組成的特征集K ; 用戶和文檔初始值設(shè)置模塊:為所述用戶集U中的至少一個(gè)用戶設(shè)置參數(shù)向量初始值并將其存·儲(chǔ)于用戶數(shù)據(jù)庫;為所述文檔集D中的至少一個(gè)文檔設(shè)置參數(shù)向量初始值并將其存儲(chǔ)于文檔數(shù)據(jù)庫;為所述文檔集D中的每個(gè)文檔設(shè)置排序向量初始值;未被設(shè)置參數(shù)向量初始值的用戶和文檔,其參數(shù)向量初始值缺省為零向量; 用戶訪問文檔信號(hào)采集模塊:用于采集任意一個(gè)用戶m(m e U)訪問任意一個(gè)文檔n(n e D)的信號(hào),所述信號(hào)存儲(chǔ)于Web日志數(shù)據(jù)庫中; 用戶和文檔參數(shù)向量更新模塊:根據(jù)所述信號(hào)包含的所述用戶m和所述文檔η的標(biāo)識(shí),在所述用戶數(shù)據(jù)庫中讀取所述用戶m的參數(shù)向量以及在所述文檔數(shù)據(jù)庫中讀取所述文檔η的參數(shù)向量;然后應(yīng)用參數(shù)向量更新算法,更新所述用戶m和所述文檔η的參數(shù)向量;最后用更新后的所述用戶m的參數(shù)向量和所述文檔η的參數(shù)向量分別更新所述用戶數(shù)據(jù)庫和所述文檔數(shù)據(jù)庫; 文檔排序向量更新模塊:在所述文檔集D中,以文檔之間的鏈接關(guān)系、每個(gè)文檔的排序向量初始值以及每個(gè)文檔的參數(shù)向量作為輸入數(shù)據(jù),應(yīng)用排序向量更新算法,迭代更新在每個(gè)特征k(k e K)下所述文檔集D中每個(gè)文檔的排序值,以及應(yīng)用更新后的所述排序值更新所述文檔數(shù)據(jù)庫;所述文檔之間的鏈接關(guān)系,是由所述文檔集D中的每個(gè)文檔所包含的文檔鏈接來決定的; 用戶查詢模塊:首先,接收查詢用戶q(q e D)設(shè)置的查詢向量和所述用戶q提交的搜索條件,并且在所述搜索條件中提取搜索關(guān)鍵字;然后,在所述文檔集D中檢索與所述搜索關(guān)鍵字匹配的一組文檔Q ;之后,根據(jù)所述查詢向量和所述一組文檔Q中每個(gè)文檔的排序向量,計(jì)算所述一組文檔Q中每個(gè)文檔的個(gè)性化排序值,或者根據(jù)所述查詢向量和所述一組文檔Q中每個(gè)文檔的參數(shù)向量,計(jì)算所述一組文檔Q中每個(gè)文檔的個(gè)性化排序值;最后,根據(jù)所述個(gè)性化排序值對(duì)所述一組文檔Q進(jìn)行排序,以及按照排序結(jié)果將所述一組文檔Q中的多個(gè)文檔的鏈接發(fā)送給所述用戶q。
【文檔編號(hào)】G06F17/30GK103544190SQ201210253997
【公開日】2014年1月29日 申請(qǐng)日期:2012年7月17日 優(yōu)先權(quán)日:2012年7月17日
【發(fā)明者】祁勇 申請(qǐng)人:祁勇