專利名稱:一種在互聯(lián)網(wǎng)上確定用戶特征的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體來說涉及一種在互聯(lián)網(wǎng)中確定用戶特征的方法和系統(tǒng)。
背景技術(shù):
在互聯(lián)網(wǎng)上,搜索引擎和社交網(wǎng)絡(luò)是使用較多的獲取網(wǎng)絡(luò)信息的工具。但是這兩種工具都存在各自的問題。對搜索引擎而言,當(dāng)用戶輸入關(guān)鍵字進(jìn)行網(wǎng)頁搜索時,搜索引擎返回的網(wǎng)頁鏈接數(shù)量經(jīng)常達(dá)到幾萬甚至幾千萬,這給用戶搜索目標(biāo)網(wǎng)頁帶來很大困擾。有統(tǒng)計分析表明用戶平均查看的搜索結(jié)果不超過兩頁,因此搜索引擎得到的絕大多數(shù)的搜索結(jié)果用戶是沒有 看到的。即使是看到的部分,用戶也經(jīng)常感到搜索結(jié)果中包含很多關(guān)聯(lián)度較低或者根本不相關(guān)的網(wǎng)頁。對社交網(wǎng)絡(luò)而言,社交網(wǎng)絡(luò)每天發(fā)布的信息已達(dá)數(shù)億條。雖然在社交網(wǎng)絡(luò)中用戶可以通過個人關(guān)系網(wǎng)絡(luò)來過濾和篩選信息,例如通過“關(guān)注(follow) ”他人而獲得信息或者獲得朋友點擊了“喜歡(like)”按鈕的信息等等,但是目前在微博和臉書(Facebook)等社交網(wǎng)絡(luò)中已經(jīng)出現(xiàn)了信息過載現(xiàn)象。由于擔(dān)心有重要或者有趣信息遺漏,用戶通常會在社交網(wǎng)絡(luò)中加入過多的關(guān)系網(wǎng)絡(luò),例如關(guān)注更多的人或者加入更多的好友等等。這就使得社交網(wǎng)絡(luò)逐漸成為一種對用戶進(jìn)行“信息轟炸”的服務(wù)。美國圣何塞州立大學(xué)的研究表明,信息過載的結(jié)果是加大了用戶掃描和略讀的比重,82%的受訪者表示更多是在瀏覽和掃瞄,85 %的讀者表示更多地進(jìn)行“非線性閱讀”。上述問題的一個共同點是沒有考慮到用戶的個性化特征在信息過濾和篩選中所起到的作用。例如,在搜索引擎中不同的用戶使用相同的關(guān)鍵字進(jìn)行網(wǎng)頁搜索時得到的搜索結(jié)果是相同的,與提交搜索查詢的用戶的個性化特征無關(guān)。而在社交網(wǎng)絡(luò)中,每個用戶獲得的信息只與其關(guān)系網(wǎng)絡(luò)有關(guān),而與用戶的個性化特征無關(guān)。用戶得到的信息是來自其關(guān)系網(wǎng)絡(luò)中的每個用戶發(fā)布的所有信息,而用戶不能有選擇地接收這些信息。例如,你只要關(guān)注一個人,你將會獲得來自這個人的全部信息,無論你是否對這些信息感興趣。因此,解決上述問題的一個思路是充分利用用戶的個性化特征來對獲取的網(wǎng)絡(luò)信息進(jìn)行有效地過濾和篩選,減少用戶對無效信息的掃描和瀏覽。但是在獲取用戶個性化特征的過程中存在以下幾個問題第一是個性化信息的準(zhǔn)確性問題。用戶通常不愿意在互聯(lián)網(wǎng)上提供準(zhǔn)確的個性化信息。雖然部分用戶在臉書(Facebook)等社交網(wǎng)絡(luò)中提供了用戶年齡、教育程度、畢業(yè)學(xué)校、地理位置、專業(yè)領(lǐng)域和偏好等個人信息,但是相當(dāng)多的用戶對提供個人信息心存疑慮,很多用戶在社交網(wǎng)絡(luò)上使用假的個人信息,使得系統(tǒng)獲得的個人信息不夠準(zhǔn)確。第二是個性化信息的全面性問題。用戶通常是難以全面地表達(dá)其個性化特征的,例如在臉書(Facebook)等社交網(wǎng)絡(luò)中,用戶愛好一欄通常的描述是喜歡莫扎特、打棒球或看書等,而這些往往只代表用戶的部分特征,而要求每個用戶全面地填寫其個性化特征是困難的。第三是個性化信息的結(jié)構(gòu)化表達(dá)問題。文字表述不同但語義相同的特征,在互聯(lián)網(wǎng)上難以將他們進(jìn)行結(jié)構(gòu)化分類,比如有的用戶填寫喜歡莫扎特、有的填寫喜歡古典音樂,可能兩個用戶的愛好是相同的,但是由于文字表達(dá)的不同,因此難以把他們進(jìn)行有效歸類。第四是個性化信息的更新問題。隨著時間的推移,用戶的個人信息以及興趣愛好可能會發(fā)生改變,但是要求所有用戶動態(tài)地更新這些信息是困難的。獲得用戶個性化特征有許多有益的應(yīng)用。例如,可以實現(xiàn)用戶的聚類分析以確定具有特定特征的用戶群,包括在互聯(lián)網(wǎng)上尋找具有相同興趣愛好的個人和群組、尋找具有某項才能的專家、尋找經(jīng)銷某種產(chǎn)品的商家以及商家尋找具有特定特征的用戶群以便定向投放廣告等。另外,利用用戶的個性化特征可以對搜索到的網(wǎng)頁進(jìn)行過濾和篩選。綜上所述,如何獲得用戶的個性化特征,并根據(jù)這些個性化特征在海量的“噪聲”中過濾出有用的信息,以及根據(jù)用戶的個性化特征將合適的信息在合適的時間發(fā)送給合適的人,是當(dāng)前互聯(lián)網(wǎng)亟待解決的一個問題。
發(fā)明內(nèi)容
鑒于上述現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的在于提供一種在互聯(lián)網(wǎng)中確定用戶特征的方法和系統(tǒng)來自動確定用戶的個性化特征,并根據(jù)用戶個性化特征對在搜索引擎和社交網(wǎng)絡(luò)中獲得的信息內(nèi)容進(jìn)行有效地過濾和篩選。本發(fā)明的另一個目的在于提供一種在互聯(lián)網(wǎng)中確定用戶特征的方法和系統(tǒng)來自動確定用戶的個性化特征,以及根據(jù)用戶個性化特征在社交網(wǎng)絡(luò)中尋找具有給定特征的用戶群。根據(jù)以上所述的目的,本發(fā)明提出了一種在互聯(lián)網(wǎng)中確定用戶特征的方法,其特征在于,在服務(wù)器中存儲文檔集I = {1,2,...,M}、用戶集J= {1,2,... ,N}和特征集K ={1,2,. . .,L},其中M為文檔個數(shù),N為用戶個數(shù),L為特征個數(shù);并且執(zhí)行如下步驟接收用戶j(j e j)訪問文檔i(i e I)的信號,所述信號至少包括所述用戶j的用戶標(biāo)識和所述文檔i的文檔標(biāo)識;根據(jù)所述文檔標(biāo)識,讀取所述文檔i的文檔特征向量Kd(i) = (dwn, dwi2, ,dwik, . . . , dwiL),其中dwik表示所述文檔i與特征k(k e K)的相關(guān)度;根據(jù)所述用戶標(biāo)識,讀取所述用戶j的用戶特征向量Ku(j) = (UWj1, UWj2, ,UWjk, ... , UWjl),其中UWjk表示所述用戶j與特征k(k e K)的相關(guān)度;用如下算法更新所述文檔i的文檔特征向量和所述用戶j的用戶特征向量Kd* (i) = functionl [Kd (i), Ku (j)]Ku* (j) = function2[Kd(i), Ku(j)]其中Kd(i)和Kd\i)分別表示更新前和更新后的所述文檔i的文檔特征向量,Ku(J)和ic(j)分別表示更新前和更新后的所述用戶j的用戶特征向量;所述functionl [Kd(i), Ku(j)]和所述 function2[Kd(i), Ku(j)]均為增函數(shù)。根據(jù)以上所述的目的,本發(fā)明提出 了一種在互聯(lián)網(wǎng)中確定用戶特征的方法,其特征在于,在服務(wù)器中存儲用戶集J= {1,2,...,N}和特征集K= {1,2,...,L},其中N為用戶個數(shù),L為特征個數(shù);并且在所述服務(wù)器中執(zhí)行如下步驟接收用戶j(j e j)聯(lián)絡(luò)用戶i(i e J)的信號,所述信號至少包括所述用戶j的用戶標(biāo)識和所述用戶i的用戶標(biāo)識;根據(jù)所述用戶j的用戶標(biāo)識,讀取所述用戶j的用戶特征向量Ku(j) = (UWjl,UWj2, ... , UWjk, ... , UWjl),其中UWjk表示所述用戶j與特征k(k e K)的相關(guān)度;根據(jù)所述用戶i的用戶標(biāo)識,讀取所述用戶i的用戶特征向量Ku(i) = (uwn,UWi2, , UWik, , UWil),其中UWik表示所述用戶i與特征k(k e K)的相關(guān)度;至少使用如下算法中的一種對所述的特征向量進(jìn)行更新Ku* (i) = function3[Ku(i), Ku(j)]Ku* (j) = function4[Ku(i), Ku(j)]
其中Ku⑴和IC⑴分別表示更新前和更新后的所述用戶i的用戶特征向量,Ku(J)和Ku*(j)分別表示更新前和更新后的所述用戶j的用戶特征向量;所述function3[Ku(i), Ku(j)]和所述 function4[Ku(i), Ku(j)]均為增函數(shù)。與現(xiàn)有技術(shù)相比,本發(fā)明方法通過用戶在互聯(lián)網(wǎng)上訪問文檔的信號以及用戶在社交網(wǎng)絡(luò)上聯(lián)絡(luò)其他用戶的信號,來自動地獲取用戶的個性化特征,并根據(jù)用戶個性化特征幫助用戶對獲取的網(wǎng)絡(luò)信息進(jìn)行有效地過濾和篩選,以及根據(jù)用戶個性化特征尋找具有特定特征的用戶群。
圖I為用戶特征向量的表示方法;圖2為文檔特征向量的表示方法;圖3為廣告特征向量的表不方法;圖4為一種在互聯(lián)網(wǎng)中確定用戶特征的方法流程圖;圖5為一種在互聯(lián)網(wǎng)中確定用戶特征的方法流程圖;圖6為一種在互聯(lián)網(wǎng)中確定用戶特征的系統(tǒng)結(jié)構(gòu)圖。
具體實施例方式結(jié)合附圖對本發(fā)明方法作進(jìn)一步詳細(xì)說明。對本專利方法具體實施方案的說明包括以下幾個部分,首先說明用戶特征向量和文檔特征向量的表示及其初始值設(shè)置的方法,然后說明基于用戶訪問文檔信號的用戶特征向量和文檔特征向量的更新方法,之后說明基于用戶聯(lián)絡(luò)其他用戶信號的用戶特征向量更新方法,最后給出一種在互聯(lián)網(wǎng)中確定用戶特征的系統(tǒng)。圖I是用戶特征向量的表示方法。用戶特征向量的表示方法與Gerard Salton提出的向量空間模型VSM的向量表述方法相似,即以特征項作為用戶特征的基本單位,用特征項的集合來近似表示一個用戶的特征。所述用戶特征向量是由用戶特征和特征相關(guān)度來決定的。用戶特征包括用戶自然特征和用戶偏好特征,其中用戶自然特征包括年齡、性別、職業(yè)、學(xué)歷、身高、體重和地理位置等,用戶的個人偏好特征包括用戶關(guān)注的領(lǐng)域等抽象特征,例如科學(xué)、音樂、軍事和體育等。特征相關(guān)度表示每個用戶與特征的關(guān)系緊密程度。如果一個用戶關(guān)心音樂多一點,關(guān)心體育少一點,我們就說該用戶與音樂特征的相關(guān)度高,與體育特征的相關(guān)度低。在介紹用戶特征向量的表示方法之前,先介紹用戶編號和用戶特征的表示方法。在互聯(lián)網(wǎng)中可以通過以下標(biāo)識來表示一個用戶,包括用戶在網(wǎng)站上申請的帳號、用戶手機號碼、IP地址、Email地址和即時通信號碼等等。為了便于表述,我們把互聯(lián)網(wǎng)上的每個用戶進(jìn)行統(tǒng)一編號,并以用戶集J= {1,2,...,N}表示用戶的全體。所述用戶集J中的每個用戶具有至少一個特征,我們對用戶集J中的所有用戶的特征也進(jìn)行統(tǒng)一編號,形成用戶的特征集 K = {1,2,···,L}。在所述用戶集J中的每個用戶都設(shè)有用戶特征向量。用戶j(j e J)的用戶特征向量的表示方法是Ku(j) = (UWj1, UWj2,. . . , UWjk,. . . , UWjl),其中UWjk表示所述用戶j與特征集K的第k個特征的相關(guān)度。U%k數(shù)值越大則表示用戶j與特征k之間的相關(guān)程度越高,如果UWjk為負(fù)數(shù)則表示用戶j與特征k負(fù)相關(guān)。由于所述特征集K包括了所有用戶的特征,因此它的維度通常是巨大的,而每個用戶所具有的特征只是特征集K中很小的一部分,所以用戶特征向量中絕大多數(shù)向量分量的數(shù)值都為零或是很小的數(shù)值,這導(dǎo)致了用戶特征向量的數(shù)據(jù)稀疏現(xiàn)象的產(chǎn)生。解決方法是將所述用戶特征向量用一種簡化的形式表示,即將用戶特征向量表示為[...,(k,uwjk),...]。例如特征集K= {新聞,科技,財經(jīng),體育,娛樂,生活,旅游,文化,教育,...}, 則設(shè)置一個編號為3209的用戶的用戶特征向量=[(財經(jīng),2.4);(教育,6. 7)],其中2.4表示用戶3209與特征集K中的特征“財經(jīng)”的相關(guān)度,6. 7表示用戶3209與特征集K中的特征“教育”的相關(guān)度。在實際應(yīng)用中通常使用用戶特征向量的簡化形式[...,(k,uwJk),...],這樣可以節(jié)省存儲空間和降低計算開銷。但是為了形式化敘述方便起見,在以下敘述中所述用戶j的用戶特征向量的表述形式仍然使用Ku(j)或者(UWj1, UWj2, . . . , UWjk, . . . , UWjl)。需要說明的是使用用戶特征向量的簡化形式不影響所述方法本質(zhì)。以下是用戶特征向量的初始值設(shè)置方法的兩個例子。例I是人工設(shè)置用戶特征向量初始值的方法。以用戶j的設(shè)置方法為例。首先確定用戶j的主要特征,即在特征集K中人工選擇用戶j具有的至少一個特征,然后將用戶j與用戶集J中的其它用戶進(jìn)行比較,人工確定所述用戶j的各個選定特征的相關(guān)度。例如用戶3209的用戶特征向量為[(財經(jīng),2. 4),(教育,6. 7)]。人工設(shè)定的相關(guān)度uwjk(j e J,k e K)的取值范圍為[a,b],其中a和b為設(shè)定參數(shù)。例2是根據(jù)用戶提交的一組用戶所具有的特征來設(shè)置用戶特征向量初始值的方法。設(shè)用戶j選定了一組用戶%= {...,!!!,...!,其中用戶!!!^^^)的用戶特征向量為Ku(m) = (uwml, uwm2, . . . , UWml),則用戶j的用戶特征向量的初始值為uwJk = λ 2 (η) · Σ (m e uj) [ λ j (m) · uwmk],對于每個 k e K其中η為所述Uj的元素個數(shù);λ 2 (η)是η的減函數(shù),η越大則λ 2 (η)越?。沪斯?m)是表示用戶m在集合%中的重要程度的參數(shù)。圖2為文檔特征向量的表述方法。文檔特征向量的表示方法與用戶特征向量的表示方法相似,即以特征項作為文檔特征的基本單位,用特征項的集合來近似表示一個文檔的特征。文檔特征向量是由文檔的特征及特征相關(guān)度來決定的。文檔的特征可為科學(xué)、音樂、軍事和體育等等。特征相關(guān)度代表每個文檔與相應(yīng)特征的關(guān)系緊密程度,例如如果一個文檔與社會問題的關(guān)系多一點與軍事問題的關(guān)系少一點,我們就說該文檔與社會特征的相關(guān)度高,與軍事特征的相關(guān)度低。在介紹用戶特征向量的表示方法之前,先介紹文檔編號和文檔特征的表示方法。在互聯(lián)網(wǎng)中存在大量文檔,其內(nèi)容包括網(wǎng)頁、微博的內(nèi)容、臉書(Facebook)中的墻和廣告等,其表現(xiàn)形式包括文本、視頻、音樂和圖片等。這些文檔通常具有唯一的網(wǎng)絡(luò)地址URL。為了便于說明我們把在互聯(lián)網(wǎng)上的每個文檔進(jìn)行統(tǒng)一編號,并用文檔集I = {1,2,...,M}表示互聯(lián)網(wǎng)上的M個文檔。所述文檔集I中的每個文檔的特征可以通過傳統(tǒng)的特征提取方法來獲得,例如文檔詞頻(DF)、信息增益(IG)、互信息(MI)和X2統(tǒng)計法(CHI)等等,也可以通過人工設(shè)置的方式產(chǎn)生文檔的特征。我們對文檔集I中所有文檔的特征也進(jìn)行統(tǒng)一編號,形成文檔的特征集K = {1,2, . . . , L}。需要特別說明的是所述文檔的特征集與所述用戶的特征集是相同的。本文中提及的特征集K既表示用戶特征集,也表示文檔特征集。因此,在生成特征集K時,既要考慮到用戶的特征,也要考慮到文檔的特征。同一個特征,例如特征“計算機”,對于用戶來講表示用戶偏好“計算機”,對于文檔而言說明這個文檔與“計算機”有關(guān)。另外,有些特征之間是具有相關(guān)性的,例如物理和相對論,因此在特征選擇時,可以通過減少特征之間的相關(guān)性來提高算法效率,也可以通過本專利方法來研究兩個設(shè)定特征之間的相關(guān)性。有些特征不必直接列入特征集中,因為這些特征的相關(guān)度可以通過特征集K中的兩個或兩個以上其他特 征的相關(guān)度的加權(quán)平均算出。這樣有利于縮小特征集K的維度。在所述文檔集I中的每個文檔都設(shè)有文檔特征向量。文檔i(i e I)的文檔特征向量的表示方法是Kd (i) = (dwn, dwi2,. . . , dwik,. . . , dwiL),其中dwik表示所述文檔i與特征集K的第k個特征的相關(guān)度。所述相關(guān)度(!^,數(shù)值越大,表示文檔i與特征k之間的相關(guān)程度越高,如果dWik的數(shù)值為負(fù)數(shù),則表示文檔i與特征k負(fù)相關(guān)。與用戶特征向量情況相似,文檔特征向量也可以應(yīng)用簡化的表述形式[...,(k,dwik),...]來解決文檔特征向量數(shù)據(jù)稀疏問題。文檔特征向量初始值的一個設(shè)置方法如下以文檔i(i e I)的文檔特征向量的設(shè)置方法為例。首先確定文檔i的主要特征,即在特征集K中人工選擇文檔i具有的至少一個特征,然后將文檔i與文檔集I中的其它文檔進(jìn)行比較,人工確定所述文檔i的各個人工選定特征的相關(guān)度。例如編號為1168的文檔的文檔特征向量為[(科技,8. 4),(教育,3.2)]。人工設(shè)定的相關(guān)度dwik(i e I)的取值范圍為[a,b],其中a和b為設(shè)定常數(shù)。圖3為廣告特征向量的表示方法。廣告特征向量的表示方法與用戶特征向量的表示方法相似,即以特征項作為廣告特征的基本單位,用特征項的集合來近似表示一個廣告的特征。我們對系統(tǒng)中存儲的廣告進(jìn)行統(tǒng)一編號得到廣告集A = {1,2,...,G},廣告g(g ^ A)的廣告特征向量 Ka (g) = (awgl, awg2, ···, awgk, ···, awgI),其中 awgk 表示所述廣告g與特征k(keK)的相關(guān)度,G為廣告?zhèn)€數(shù)。廣告特征向量的簡化表示形式為[...,(k,awgk),...]。廣告特征向量的初始值可以人工設(shè)定,例如某廣告的廣告特征向量為[(食品,4.6),(學(xué)生,3. 2)],說明這個廣告與食品有關(guān),目標(biāo)客戶群是學(xué)生,與食品的相關(guān)度為4. 6,與學(xué)生的相關(guān)度為3. 2。廣告特征向量初始值,缺省為零向量。圖4為一種在互聯(lián)網(wǎng)中確定用戶特征的方法流程圖。這個方法是基于用戶訪問文檔的信號來更新所述用戶特征向量和所述文檔特征向量的。所述方法包括如下具體步驟S10.為文檔集I= {1,2,.. . ,M}中的一部分文檔設(shè)置文檔特征向量初始值,文檔特征向量缺省初始值為零向量;為用戶集J= {1,2,...,N}中的一部分用戶設(shè)置用戶特征向量初始值,用戶特征向量缺省初始值為零向量;
Sll.接收用戶j(j e J)訪問文檔i(i e I)的信號,所述信號至少包括所述用戶j的用戶標(biāo)識和所述文檔i的文檔標(biāo)識;S12.根據(jù)所述文檔標(biāo)識,讀取所述文檔i的文檔特征向量Kd(i) = (dwn,dwi2,,dwik, . . . , dwiL),其中dwik表示所述文檔i與特征k(k e K)的相關(guān)度;S13.根據(jù)所述用戶標(biāo)識,讀取所述用戶j的用戶特征向量Ku(j) = (UWjijUWj2,...,UWjk, ... , UWjl),其中UWjk表示所述用戶j與特征k(k e K)的相關(guān)度;S14.更新所述文檔i的文檔特征向量和所述用戶j的用戶特征向量;更新后的所述文檔i的文檔特征向量是更新前的所述文檔i的文檔特征向量和所述用戶j的用戶特征向量的函數(shù);更新后的所述用戶j的用戶特征向量是更新前的所述文檔i的文檔特征向量和所述用戶j的用戶特征向量的函數(shù);形式化表述如下Kd* (i) = functionl [Kd (i), Ku (j)]
Ku* (j) = function2[Kd(i), Ku(j)]其中Kd(i)和K/(i)分別表示更新前和更新后所述文檔i的文檔特征向量,Ku(J)和lC(j)分別表示更新前和更新后所述用戶j的用戶特征向量,所述funCtionl[Kd(i),Ku(J)]和function2[Kd(i),Ku(J)]均為增函數(shù)。在使用上述算法后需要對Kd (i)和Ku(j)進(jìn)行更新,即 Kd(i) = K;(i),Ku(j) = Ku*(j)。在圖4所述方法中的所述訪問,至少包括如下情形中的一種用戶瀏覽一個網(wǎng)頁、用戶點擊一個廣告、用戶創(chuàng)建一條微博、用戶轉(zhuǎn)發(fā)一條微博、用戶收藏一條微博、用戶對微博進(jìn)行評論、用戶在臉書(Facebook)中將一個文檔設(shè)為喜歡(like)、用戶瀏覽臉書(Facebook)中其他用戶的墻(wall)上的一條信息等等。例如用戶點擊了一個網(wǎng)頁我們就說用戶訪問了該網(wǎng)頁;如果用戶j轉(zhuǎn)發(fā)了文檔H例如一篇微博),我們就說用戶j訪問了文檔i。應(yīng)用實例I。應(yīng)用實例I為圖4所述方法的一個應(yīng)用實例,即當(dāng)所述用戶j (j e J)訪問所述文檔i(i e I)后,通過如下具體算法來更新所述文檔i的文檔特征向量和所述用戶j的用戶特征向量dwik* = dwik+ λ j (t) · f j (uwJk);對于每個 k e UKj, UKjC K;uwJk* = uwJk+ λ 2 (t) · f2 (dwik);對于每個 k e DKi, DKj C K;所述具體算法中,A(UWjk)和f2(dwik)均為增函數(shù)。所述具體算法中,所述t為所述訪問的類型,即所述用戶j與文檔i建立聯(lián)系的方式,例如t = 11表示在微博中所述用戶j轉(zhuǎn)發(fā)了所述文檔i,t = 12表示在微博中所述用戶j評論了所述文檔i,t = 21表示在臉書(Facebook)中的所述用戶j點擊了所述文檔i上的“喜歡(like)”按鈕,t = 31表示所述用戶j瀏覽了所述文檔i (一個網(wǎng)頁)等等。λ Jt)和 λ2( )分別為 t 的函數(shù),例如 λ 1(11) = 6, λ 1(12) = 8, λ 2(21) = 5。所述具體算法中,所述DKi是由所述文檔i的文檔特征向量Kd⑴=(dwn,dwi2, . . . , dwik, . . . , dwiL)中數(shù)值最大的Qi (i e I)個分量所對應(yīng)的特征組成的集合,所述UKj是由所述用戶j的用戶特征向量Ku(j) = (UWj1, UWj2, . . . , uwJk, . . . , uwJL)中數(shù)值最大的Pj (j e J)個分量所對應(yīng)的特征組成的集合,Qi和Pj為設(shè)定參數(shù)。例如,i = 30, Q30 =3,DK30 = {科學(xué),計算機,DNA} ; j = 265,P265 = 2,UK265 = {科學(xué),生物}。
所述具體算法中,dwik和dwik*分別表示更新前和更新后的所述文檔i的文檔特征向量的第k個分量,u%k和Uw/分別表示更新前和更新后的所述用戶j的用戶特征向量的第k個分量。在所述具體算法執(zhí)行完成之后,進(jìn)行以下賦值,即對于每個k e 1)1^有(1^1;=dwik*,對于每個 k e UKj 有 UWjk = uwjk*。在圖4所述方法和所述應(yīng)用實例1中存在以下幾個問題。第一,用戶特征向量的分量和文檔特征向量的分量在多次應(yīng)用所述算法之后,其數(shù)值會逐漸增加最后超過存儲器的存儲容量。第二,在用戶特征向量或者文檔特征向量中,其舊的特征往往具有較大的相關(guān)度,而新的特征的相關(guān)度盡管其數(shù)值增加較快而且能夠反映近期用戶或者文檔的特征,但是其數(shù)值仍然比舊的特征的相關(guān)度小,因此可能無法被選到集合DKi和UKj中。第三,某些病毒可能控制用戶進(jìn)行大量惡意的網(wǎng)頁訪問,因而使得用戶特征向量和文檔特征向量被錯誤地更新。為解決上述問題本文設(shè)計如下用戶特征向量和文檔特征向量的修正算法。針對所述第一個問題,本專利采用如下的用戶特征向量的修正算法選擇一個k e K,將數(shù)據(jù)集合Uk = Iuwjk I UWjk彡UCk, j e J}中的每個uwjk映射為區(qū)間[a,b]上一實數(shù)值gi (UWjk);當(dāng)集合Uk中的每個UWjk都被映射為對應(yīng)的gi (UWjk)后,再用所述映射得到的每個實數(shù)值gi (UWjk)分別給其對應(yīng)的UWjk賦值;其中g(shù)i (UWjk)為增函數(shù),uCk, a和b均為設(shè)定常數(shù)。該方法的舉例如下例I :對數(shù)據(jù)集合Uk = Iuwjk I UWjk彡uCk, j e J}進(jìn)行排序,得到每個uwjk的排名Rank (UWjk),并且規(guī)定 Rank (Max」uwJk) = I, Rank (Minj uwJk) = Num(Uk),其中 Num(Uk)表不集合Uk的元素個數(shù),因此所述修正算法為對于每個iwjk e Uk gi (UWjk) = a+(b_a) · [Num (Uk)-Rank (uwjk)+1]/Num (Uk),uwJk = gi (UWjk)。例2 :設(shè)maXj uwjk表示數(shù)據(jù)集合Uk = {uwjk| Uwjk彡uCk, j e J}中數(shù)值最大的若干項(如前10項)的平均值,因此所述算法為gi (UWjk) = a+(b_a) · UwjkZmaxjUwjk ;若uwJk >maXjUWjk,則取 gi (UWjk) = b ;最后對于每個 uwjk e Uk 設(shè) uwjk = gi (Uwjk)。例3 :在數(shù)據(jù)集合Uk = Iuwjk I UWjk彡uCk, j e J}中隨機抽取R個數(shù)據(jù)(SpS2,...,Sr}。對于每個 UWjk e Uk,如果 Sm 彡 UWjk ( sm+1,則設(shè) gi (UWjk) = a+(m-l) · d 或者 gi (Uwjk)=Sm (在系統(tǒng)中二者只能選用其一),最后對于每個UWjk e Uk,設(shè)UWjk = gi (UWjk),其中d =(b_a) /R, I ^ m ^ R0針對所述第一個問題,本專利采用了如下的文檔特征向量的修正算法選擇一個k e K,首先將數(shù)據(jù)集合Vk = {dwik | dwik彡dCk, i e 1}中的每個dwik映射為區(qū)間[a, b]上一實數(shù)值g2(dwik),當(dāng)集合Vk中的每個UWjk都被映射為相應(yīng)的g2(dwik)后,再用所述映射得到的每個實數(shù)值g2(dwik)分別給其對應(yīng)的dwik賦值;其中g(shù)2(dwik)為增函數(shù),dCk、a和b均為設(shè)定常數(shù)。文檔特征向量修正算法的例子與所述用戶特征向量修正算法的三個例子原理相同。在第一個問題的解決方案中,選擇了一個k進(jìn)行說明。在實際應(yīng)用中,可以對特征集K中的部分或者全部特征中的每一個使用所述方法。針對所述第二個問題,解決辦法是在用戶特征向量的修正算法中選擇a < UCk< b,在文檔特征向量的修正算法中選擇a < dCk < b。針對所述第三個問題,有兩個解決方法。一個是設(shè)定每個用戶的用戶特征向量在一個時間段內(nèi)的最大更新次數(shù),如果超過了最大更新次數(shù),則當(dāng)這個用戶再次訪問其他文檔時,停止更新其用戶特征向量和其訪問的文檔的文檔特征向量。另一個是每次更新所述用戶特征向量后,以用戶j為例,將所述用戶j的用戶特征向量的各個分量都乘以一個參數(shù)e(0 < e < I),所述e與參數(shù)[λ 3(j) · Σ (keK)uwJk]成反比,其中λ 3(j)為一個與所述用戶j相關(guān)的設(shè)定常數(shù)。應(yīng)用實例2。應(yīng)用實例2是圖4所述方法的一個應(yīng)用實例,包括在互聯(lián)網(wǎng)中查詢一組特定文檔的應(yīng)用,其步驟如下多次使用所述方法獲取所述文檔集I中的多個文檔的文檔特征向量和所述用戶集J中的多個用戶的用戶特征向量;例如通過接收多個用戶分別對不同文檔的訪問請求,來更新相應(yīng)的用戶特征向量和文檔特征向量;接收用戶m(m e J)提交的查詢條件,所述查詢條件包括被查詢文檔的至少一個特征;根據(jù)所述查詢條件,生成所述用戶m的查詢特征向量;計算所述文檔集I中每個文檔(不包括所述文檔m)的文檔特征向量與所述查詢特征向量之間的數(shù)學(xué)距離以及根據(jù)所述數(shù)學(xué)距離對所述文檔集I進(jìn)行排序;
按照所述排序結(jié)果將所述文檔集I中部分文檔的標(biāo)識發(fā)送給所述用戶m。在所述應(yīng)用實例2中,通常設(shè)置所述用戶m的查詢特征向量為Ks(m) = (swml,SWm2, . . . , SWmk, . . . , SWml),其中SWmk表示所述被查詢文檔與特征集K的第k個特征的相關(guān)度。所述用戶m提交的查詢特征向量Ks (m) = (SWml, SWm2, . . . , swmk, . . . , swmL)至少有以下三種生成方法。第一是由所述用戶m自己設(shè)置查詢特征向量各個分量的數(shù)值,例如設(shè)swJ2=2. 3, SWj6 = 6. I,所述查詢特征向量的其他各個分量為O,其中SWjk e [a,b], a和b為設(shè)定常數(shù)。第二是把所述用戶m的用戶特征向量賦值給所述查詢特征向量。第三是所述用戶m提交一組文檔標(biāo)識集合Dm = {...,r,...},其中文檔r(r e Dm)的文檔特征向量為(dwrt,dwr2, . . . , dwrL),因此所述用戶 m 的查詢特征向量 swmk = λ 2 (η) · Σ (r e Dm) [ λ i (r) · dwrk](k e K),其中n為所述集合Dm的元素個數(shù),n越大則λ2(η)越小,X1Cr)是反映用戶r在集合Dm中的重要程度的設(shè)定常數(shù)。在所述應(yīng)用實例2中,所述數(shù)學(xué)距離的算法如下;設(shè)所述用戶m的查詢特征向量為Ks (m) = (SWml, SWm2. . . , swmk, . . . , SWml),所述文檔集I中的文檔i的文檔特征向量為Kd⑴=(dwn, dwi2,. . . , dwik,. . . , (Iwil),貝U所述用戶m提交的查詢特征向量與所述文檔集I中的文檔i的文檔特征向量之間的數(shù)學(xué)距離定義為I |Ks(m), Kd(i) I I = [ Σ k (swmk · dwik) ] / {[ Σ k (swmk)2]1/2 · [ Σ k (dwik)2]1/2}其中k e K。當(dāng)所述文檔集I中的元素數(shù)量較多時,計算所述文檔集I中每個文檔的文檔特征向量與所述用戶m的所述查詢特征向量之間的數(shù)學(xué)距離需要花費較多的系統(tǒng)資源,一個簡化算法是在所述文檔集I中隨機抽取一個子集,然后計算所述子集中每個文檔的文檔特征向量與所述用戶m的所述查詢特征向量之間的數(shù)學(xué)距離,并根據(jù)所述數(shù)學(xué)距離對所述子集中每個文檔進(jìn)行排序,然后根據(jù)排序結(jié)果將所述子集的一部分文檔的標(biāo)識呈現(xiàn)給所述用戶m0
應(yīng)用實例3。應(yīng)用實例3是圖4所述方法的應(yīng)用實例,包括在互聯(lián)網(wǎng)中查詢一組特定用戶的應(yīng)用,其步驟如下多次使用所述方法獲取所述用戶集J中的多個用戶的用戶特征向量;接收用戶m(m e J)提交的查詢條件,所述查詢條件包括被查詢用戶的至少一個特征;根據(jù)所述查詢條件,生成所述用戶m的查詢特征向量;計算所述用戶集J中每個用戶(不包括所述用戶m)的用戶特征向量與所述查詢特征向量之間的數(shù)學(xué)距離以及根據(jù)所述數(shù)學(xué)距離對所述用戶集J進(jìn)行排序;按照所述排序結(jié)果將所述用戶集J中部分用戶的標(biāo)識發(fā)送給所述用戶m。 在所述應(yīng)用實例3中,通常設(shè)置所述用戶m的查詢特征向量為Ks(m) = (swml,SWm2,. . . ,SWmk,. . .,SWml),其中SWmk表示所述被查詢用戶與特征集K的第k個特征的相關(guān)度。所述查詢特征向量至少有以下三種生成方法。第一是人工設(shè)置查詢特征向量各個分量的數(shù)值,例如設(shè)SWj2 = 2.3, SWj8 = 2. 3,其他分量的數(shù)值為0,其中SWjk e [a, b],a和b為設(shè)定常數(shù);第二是把所述用戶m的用戶特征向量賦值給查詢特征向量;第三是所述用戶m提交一組用戶標(biāo)識集合Um = {. . . ,r,. . . },其中用戶r(r e Uj的用戶特征向量為Ku (r) = (uwrl,uwr2, . . . , uwrL),因此所述用戶 m 的查詢特征向量 Swmk = λ 2 (η) · Σ (r e Um) [ λ i (r) · uwrk](k e K),其中n為所述集合Um的元素個數(shù),n越大則λ2(η)越小,X1Cr)是表示用戶r在集合Um中的重要程度的設(shè)定常數(shù)。在所述應(yīng)用實例3中,所述數(shù)學(xué)距離的算法如下設(shè)所述用戶m的查詢特征向量為Ks(m) = (SWml, SWm2,. . . , swmk,. . . , SWml),所述用戶集J中的用戶i的用戶特征向量為Ku⑴=UWil, UWi2, . . . , UWik, . . . , UWil),則所述用戶m提交的查詢特征向量與所述用戶集I中的用戶i的用戶特征向量之間的數(shù)學(xué)距離定義為I IKs(m), Ku(i) I I = [ Σ k(swmk · uwik) ]/{[ Σ k(swmk)2]1/2 · [ Σ k(uwik)2]1/2}其中k e K。應(yīng)用實例4。應(yīng)用實例4是圖4所述方法在廣告發(fā)布領(lǐng)域的一個應(yīng)用實例,包括如下步驟多次使用所述方法獲取所述文檔集I中多個文檔的文檔特征向量和所述用戶集J中的多個用戶的用戶特征向量,其中所述用戶集J中的用戶m的用戶特征向量為Ku(m)=(uwml,UWm2,. . . ,UWmk,. . . ,UWml),所述文檔集I中的文檔η的文檔特征向量為Kd(n) = (dwnl,(Iwn2,. . . , dwnk,. . . , dwnL);設(shè)廣告集 A = {1,2,. . . ,G},廣告 g(g e A)的廣告特征向量1^&)=(awgl, awg2, ···, awgk, ···, awgL),其中awgk表示所述廣告g與特征k(k e K)的相關(guān)度,G為廣告?zhèn)€數(shù);然后執(zhí)行如下步驟接收用戶m(m e J)訪問文檔η (n e I)的信號,所述信號至少包括所述用戶m的用戶標(biāo)識和所述文檔η的文檔標(biāo)識;根據(jù)所述用戶m的用戶標(biāo)識,獲取所述用戶m的用戶特征向量Ku(m);根據(jù)所述文檔η的文檔標(biāo)識,獲取所述文檔η的文檔特征向量Kd(η);計算所述廣告集A中每個廣告的廣告特征向量Ka(g)與所述用戶m的用戶特征向量Ku(Hi)之間的數(shù)學(xué)距離I ;計算所述廣告集A中每個廣告的廣告特征向量Ka(g)與所述文檔η的文檔特征向量Kd (η)之間的數(shù)學(xué)距離2 ;根據(jù)所述廣告集A中每個廣告的所述數(shù)學(xué)距離I和所述數(shù)學(xué)距離2生成數(shù)學(xué)距離3,以及根據(jù)所述數(shù)學(xué)距離3對所述廣告集A中每個廣告的進(jìn)行排序;按照所述排序的結(jié)果,將所述廣告集A中的至少一個廣告放入所述文檔η并將放入廣告的所述文檔η發(fā)送給所述用戶m。在應(yīng)用實例4中數(shù)學(xué)距離的定義如下設(shè)所述數(shù)學(xué)距離I為ug(g,m),所述數(shù)學(xué)距離2為dg (g, η),所述數(shù)學(xué)距離3為distance (g, m, η),則有ug (g, m) = [ Σ k (uwmk · awgk) ] / {[ Σ k (uwmk)2]1/2 · [ Σ k (awgk)2]1/2}dg(g, n) = [ Σ ^dwnk · awgk) ] / {[ Σ Jdwnk)2]1/2 · [ Σ k (awgk)2]1/2}
distance (g, m, n) = λ 5 · ug (g, m) + λ 6 · dg (g, n)其中入5和λ 6 為設(shè)定正常數(shù),且 λ5+λ6 = l,n e l,m e j,g e A,k e K。在所述應(yīng)用實例4中,所述廣告g(g e A)的廣告特征向量Ka (g) = (awgl,awg2,...,awgk, · · ·,awgL)的初始值有兩種設(shè)置方法第一種是靜態(tài)賦值法,即根據(jù)廣告的所屬領(lǐng)域和廣告的受眾群,人工設(shè)置廣告特征向量的各個分量的初始值,例如設(shè)置awg2 = 3. 5,awg4 =3.7,其他分量數(shù)值為0,& 8,£ [a,b],其中a和b為設(shè)定常數(shù)。第二種是動態(tài)賦值法,即將廣告g(g e A)看做一個文檔h(h e I),當(dāng)一個用戶訪問了廣告文檔h后(例如點擊廣告),應(yīng)用圖4所述方法更新廣告文檔h的文檔特征向量,當(dāng)需要使用所述廣告g(g e A)的廣告特征向量時,設(shè)置Ka(g) =Kd(h)。其中所述廣告g和所述廣告文檔h是同一個廣告的兩種表現(xiàn)形式,所述廣告g是在所述廣告集A中的編號,所述廣告文檔h是在所述文檔集I中的編號。在圖4所述方法中存在用戶隱私保護問題。當(dāng)前互聯(lián)網(wǎng)平臺的一個發(fā)展趨勢是向第三方服務(wù)提供商和應(yīng)用開發(fā)商開放應(yīng)用開發(fā)接口(API),這種做法對于擴大網(wǎng)絡(luò)的影響和增加網(wǎng)絡(luò)的服務(wù)能力有好處,但是同時也帶來了用戶信息泄露的風(fēng)險。因為互聯(lián)網(wǎng)平臺往往需要與第三方公司分享用戶標(biāo)識等信息,如用戶手機號碼、QQ號碼等。而由于第三方公司往往數(shù)量龐大,其中個別公司可能會不當(dāng)利用從互聯(lián)網(wǎng)平臺獲得的用戶信息,甚至泄露用戶的個人隱私。一個可行的解決方案就是給每個用戶設(shè)置至少一個虛擬標(biāo)識。所述虛擬標(biāo)識在一段時間內(nèi)有效,而且互聯(lián)網(wǎng)平臺發(fā)給每個第三方服務(wù)提供商或應(yīng)用開發(fā)商的虛擬標(biāo)識可以不同。只有在互聯(lián)網(wǎng)平臺中,能夠找到用戶的虛擬標(biāo)識與用戶標(biāo)識的對應(yīng)關(guān)系。這樣就解決了上述用戶信息泄露問題。以用戶j為例說明保護用戶隱私的具體步驟在所述服務(wù)器中建立所述用戶j的用戶標(biāo)識與至少一個虛擬標(biāo)識之間的對應(yīng)關(guān)系,其中一個用戶標(biāo)識對應(yīng)至少一個虛擬標(biāo)識,而一個虛擬標(biāo)識對應(yīng)唯一一個用戶標(biāo)識。當(dāng)所述服務(wù)器收到所述用戶j訪問所述文檔i的信號后,首先判斷所述用戶j的標(biāo)識是否是虛擬標(biāo)識,是則在數(shù)據(jù)庫中查找所述用戶j的虛擬標(biāo)識對應(yīng)的用戶標(biāo)識,然后根據(jù)圖4所述的方法使用用戶標(biāo)識來讀取所述用戶j的用戶特征向量,然后再更新所述用戶j的用戶特征向量和文檔i的文檔特征向量。圖5為一種在互聯(lián)網(wǎng)中確定用戶特征的方法流程圖。這個方法是基于用戶聯(lián)絡(luò)其他用戶的信號來更新所述用戶特征向量的。所述方法包括如下步驟S20.為用戶集J= {1,2,... ,N}中的一部分用戶設(shè)置用戶特征向量初始值,用戶特征向量缺省初始值為零向量;S21.接收用戶j(j e J)聯(lián)絡(luò)用戶i(i e J)的信號,所述信號至少包括所述用戶j的用戶標(biāo)識和所述用戶i的用戶標(biāo)識;S22.根據(jù)所述用戶j的用戶標(biāo)識,讀取所述用戶j的用戶特征向量Ku(j) = (UWjl,UWj2, ... , UWjk, ... , UWjl),其中UWjk表示所述用戶j與特征k(k e K)的相關(guān)度;S23.根據(jù)所述用戶i的用戶標(biāo)識,讀取所述用戶i的用戶特征向量Ku(i) = (uwn,UWi2, , UWik, . O.. , UWil),其中UWik表示所述用戶i與特征k(k e K)的相關(guān)度;S24.至少更新所述用戶j的用戶特征向量和所述用戶i的用戶特征向量中的一個;更新后的所述用戶i的用戶特征向量是更新前的所述用戶i的用戶特征向量和所述用戶j的用戶特征向量的函數(shù);更新后的所述用戶j的用戶特征向量是更新前的所述用戶i的用戶特征向量和所述用戶j的用戶特征向量的函數(shù);形式化表述如下 Ku* (i) = function3[Ku(i), Ku(j)]Ku* (j) = function4[Ku(i), Ku(j)]其中Ku⑴和IC⑴分別表示更新前和更新后所述用戶i的用戶特征向量,Ku(j)和lC(j)分別表示更新前和更新后所述用戶j的用戶特征向量;所述fUnCtion3[Ku(i),Ku(J)]和function4[Ku(i),Ku(J)]均為增函數(shù)。在使用上述算法后需要對Ku(i)和Ku(j)進(jìn)行更新,即Ku(i) = IC⑴和Ku(j) = K;(j)。在圖5所述方法中提及的所述聯(lián)絡(luò),至少包括如下情形中的一種在微博中的加關(guān)注(follow)、轉(zhuǎn)發(fā)、發(fā)私信和評論,臉書(Facebook)中的加為好友、捅(poke)、送禮物和瀏覽墻(wall),即時通信中的加為好友和點對點發(fā)信。例如在微博中如果用戶j關(guān)注了用戶i,我們就說用戶j聯(lián)絡(luò)了用戶i。應(yīng)用實例5。應(yīng)用實例5為圖5所述方法的一個應(yīng)用實例。即當(dāng)所述用戶j (j e J)聯(lián)絡(luò)所述用戶i(i e j)后,通過如下具體算法來更新所述用戶i的用戶特征向量和所述用戶j的用戶特征向量uwik* = Uwik+λ 3 ⑴· f3 (UWjk);對于每個 k e UKj, UKjC K;uwJk* = uwJk+ λ 4 (t) · f4 (uwik);對于每個 k e UKi, UKj C K;在所述具體算法中,f3 (uwJk)和f4 (UWik)為增函數(shù);在所述具體算法中,所述t為所述聯(lián)絡(luò)的類型,即所述用戶j與用戶i建立聯(lián)絡(luò)的方式,例如t = 41表示微博的關(guān)注、t = 42表示微博的轉(zhuǎn)發(fā)、t = 43表示微博的評論,t = 44表示微博的發(fā)私信,t = 51表示臉書(Facebook)中的加為好友、t = 52表示臉書(Facebook)的捅(poke)等等;λ 3(t)和 λ 4(t)分別為 t 的函數(shù),例如 λ 3(41) = 9, λ 3(42)=6, λ4(51) = 5。在所述具體算法中,所述UKi是由所述用戶i的用戶特征向量Ku(i) = (uwn,uwi2, , uwik, , uwiL)中數(shù)值最大的PiQ e J)個分量所對應(yīng)的特征組成的集合,所述UKj是由所述用戶j的用戶特征向量Ku(j) = (UWj1, UWj2, . . . , uwJk, . . . , uwJL)中數(shù)值最大的P^j e J)個分量所對應(yīng)的特征組成的集合,Pi和P」為設(shè)定常數(shù)。在所述具體算法中,Wik和Wik*分別表示更新前和更新后的所述用戶i的用戶特征向量的第k個分量,Wjl^P uw/分別表示更新前和更新后的所述用戶j的用戶特征向量的第k個分量。在所述具體算法執(zhí)行完成后,進(jìn)行如下賦值,即對于每個k e UKi有Uwik =uwik*,對于每個 k e UKj 有 UWjk = uwjk*。與所述應(yīng)用實例4相似,所述應(yīng)用實例5也存在以下問題。第一,用戶特征向量的分量在多次應(yīng)用所述算法之后,其數(shù)值會逐漸增加最后超過存儲器的存儲容量。第二,在用戶特征向量中,舊的特征往往具有較大的相關(guān)度,而新的特征的相關(guān)度盡管其數(shù)值增加較快而且能夠反映當(dāng)前用戶的特征 ,但是其數(shù)值仍然比舊的特征的相關(guān)度小,因此無法被選到集合UKi和U\_中。第三,某些病毒可能控制用戶進(jìn)行大量用戶聯(lián)絡(luò)操作,因而使得用戶特征向量被錯誤地更新。上述三個問題的解決方法與所述應(yīng)用實例I中的對用戶特征向量的處理方法相同。圖5所述方法包括一個在互聯(lián)網(wǎng)中查詢一組特定用戶的應(yīng)用實例,其具體實現(xiàn)步驟與應(yīng)用實例3相同。應(yīng)用實例6。應(yīng)用實例6是圖5所述方法在廣告發(fā)布領(lǐng)域的一個應(yīng)用實例,包括如下步驟多次使用所述方法獲取所述用戶集J中的多個用戶的用戶特征向量,其中所述用戶集J中用戶m的用戶特征向量為Ku(m) = (uwml, UWm2,. . . , uwmk,. . . , uwmI),用戶η的用戶特征向量為 Ku(n) = uwnl, Uwn2, . . . , uwnk, . . . , Uw1il);設(shè)廣告集為 A= {1,2, , G},廣告g(g e Α)的廣告特征向量1^&) = (awgl, awg2, ···, awgk, ···, awgL),其中 awgk 表示所述廣告g與特征k(k e K)的相關(guān)度,G為廣告?zhèn)€數(shù);然后執(zhí)行如下步驟接收用戶m(m e J)聯(lián)絡(luò)用戶n(n e J)的信號,所述信號至少包括所述用戶m的用戶標(biāo)識和所述用戶η的用戶標(biāo)識;根據(jù)所述用戶m的用戶標(biāo)識,讀取所述用戶m的用戶特征向量Ku(m);根據(jù)所述用戶η的用戶標(biāo)識,讀取所述用戶η的用戶特征向量Ku(η);計算所述廣告集A中每個廣告的廣告特征向量Ka(g)與所述用戶m的用戶特征向量Ku(Hi)之間的數(shù)學(xué)距離4 ;計算所述廣告集A中每個廣告的廣告特征向量Ka(g)與所述用戶η的用戶特征向量Ku(η)之間的數(shù)學(xué)距離5 ;根據(jù)所述廣告集A中每個廣告的所述數(shù)學(xué)距離4和所述數(shù)學(xué)距離5生成數(shù)學(xué)距離6,以及根據(jù)所述數(shù)學(xué)距離6對所述廣告集A中每個廣告的進(jìn)行排序;按照所述排序結(jié)果將所述廣告集A中的至少一個廣告推送給所述用戶m。在應(yīng)用實例6中數(shù)學(xué)距離的定義如下設(shè)所述數(shù)學(xué)距離4為ug(g,m),所述數(shù)學(xué)距離5為ug (g, η),所述數(shù)學(xué)距離6為distance (g, m, η),則有ug(g, m) = [ Σ k(uwmk · awgk) ]/{[ Σ k(uwmk)2]1/2 · [ Σ k(awgk)2]1/2}ug(g, n) = [ Σ ,,(Uwnk · awgk) ]/{[ Σ k(Uwnk)2]1/2 · [ Σ k(awgk)2]1/2}distance (g, m, n) = λ 7 · ug (g, m) + λ 8 · ug (g, n)其中入7和λ 8 為設(shè)定正常數(shù),且 λ7+λ8 = l,n e l,m e j,g e A,k e K。在所述應(yīng)用實例6中,所述廣告g(g e A)的廣告特征向量Ka (g) = (awgl,awg2,...,awgk, · · ·,awgL)的初始值的設(shè)置方法與應(yīng)用實例4中的設(shè)置方法相同。圖5所述方法與圖4所述方法一樣,也存在一個用戶隱私保護問題。其解決方案與在圖4所述方法中的設(shè)置用戶虛擬標(biāo)識的方法相同。圖4和圖5所述的方法通常放到一起使用。這兩種方法不僅都能夠?qū)τ脩籼卣飨蛄窟M(jìn)行更新,而且兩種方法可以相互補充,使得用戶特征向量更好地反映相應(yīng)的用戶的特征。圖6為一種在互聯(lián)網(wǎng)中確定用戶特征的系統(tǒng)。所述系統(tǒng)通過兩種方式對用戶特征向量進(jìn)行更新,一種是當(dāng)用戶訪問了一個文檔后,更新所述用戶的用戶特征向量和所述文檔的文檔特征向量;另一種是當(dāng)用戶聯(lián)絡(luò)了另一個用戶后,則更新其中至少一個用戶的用戶特征向量。所述系統(tǒng)包括如下功能模塊用戶特征向量初始值設(shè)置模塊211 :根據(jù)用戶的自然特征和用戶偏好,設(shè)置用戶集J= {1,2,...,N}中的一部分用戶的用戶特征向量初始值,并將其存儲于用戶數(shù)據(jù)庫220中;文檔特征向量初始值設(shè)置模塊212:根據(jù)文檔的特征,設(shè)置文檔集I = {1,2,...,M}中的一部分文檔的文檔特征向量初始值,并且將其存儲于文檔數(shù)據(jù)庫230中;
廣告特征向量初始值設(shè)置模塊213 :根據(jù)廣告的特征,設(shè)置廣告集A = {1,2,...,G}中一部分廣告的廣告特征向量初始值,并將其存儲于廣告數(shù)據(jù)庫240中;用戶訪問文檔信號獲取模塊214 :獲取用戶j (j e J)訪問文檔i (i e I)的信號,所述信號至少包括所述文檔i的文檔標(biāo)識和所述用戶j的用戶標(biāo)識,所述信號存儲于用戶數(shù)據(jù)庫220中;用戶聯(lián)絡(luò)用戶信號獲取模塊215 :獲取用戶j (j e J)聯(lián)絡(luò)用戶i (i e J)的信號,所述信號至少包括所述用戶j的用戶標(biāo)識和所述用戶i的用戶標(biāo)識,并將所述信號存儲于用戶數(shù)據(jù)庫220中;特征向量更新模塊I (216):根據(jù)在所述用戶訪問文檔信號獲取模塊214中得到的所述文檔i的文檔標(biāo)識和所述用戶j的用戶標(biāo)識,分別讀取所述文檔i的文檔特征向量和所述用戶j的用戶特征向量,然后更新所述文檔i的文檔特征向量和所述用戶j的用戶特征向量;更新后的所述文檔i的文檔特征向量是更新前的所述文檔i的文檔特征向量和所述用戶j的用戶特征向量的函數(shù);更新后的所述用戶j的用戶特征向量是更新前的所述文檔i的文檔特征向量和所述用戶j的用戶特征向量的函數(shù);具體實現(xiàn)方法與圖4所述方法相同;特征向量更新模塊2(216):根據(jù)在所述用戶聯(lián)絡(luò)用戶信號獲取模塊215中得到的所述用戶j和所述用戶i的用戶標(biāo)識,分別讀取所述用戶j和所述用戶i的用戶特征向量,然后更新所述用戶j和所述用戶i的用戶特征向量;更新后的所述用戶i的用戶特征向量是更新前的所述用戶i的用戶特征向量和所述用戶j的用戶特征向量的函數(shù);更新后的所述用戶j的用戶特征向量是更新前的所述用戶i的用戶特征向量和所述用戶j的用戶特征向量的函數(shù);具體實現(xiàn)方法與圖5所述方法相同;廣告選擇和呈現(xiàn)模塊217 :根據(jù)在所述用戶訪問文檔信號獲取模塊214中得到的所述文檔i的文檔標(biāo)識和所述用戶j的用戶標(biāo)識,計算所述廣告集A中的每個廣告的數(shù)學(xué)距離3,以及根據(jù)所述數(shù)學(xué)距離3對所述廣告集A進(jìn)行排序,并根據(jù)所述排序結(jié)果將至少一個廣告呈現(xiàn)給所述用戶j ;根據(jù)在所述用戶聯(lián)絡(luò)用戶信號獲取模塊215中得到的所述用戶j和所述用戶i的用戶標(biāo)識,計算所述廣告集A中的每個廣告的數(shù)學(xué)距離6,以及根據(jù)所述數(shù)學(xué)距離6對所述廣告集A進(jìn)行排序,并根據(jù)所述排序結(jié)果將至少一個廣告呈現(xiàn)給所述用戶j ;所述數(shù)學(xué)距離3與應(yīng)用實例4中的數(shù)學(xué)距離3的計算方法相同,所述數(shù)學(xué)距離6與應(yīng)用實例6中的數(shù)學(xué)距離6的計算方法相同;文檔查詢模塊218 :接收用戶m(m e J)提交的查詢條件,所述查詢條件至少包括被查詢文檔的至少一個特征,根據(jù)所述查詢條件生成查詢特征向量1,然后計算所述文檔I中每個文檔的文檔特征向量與所述查詢特征向量I之間的數(shù)學(xué)距離7,以及根據(jù)所述數(shù)學(xué)距離7對所述文檔I進(jìn)行排序,并且按照所述排序結(jié)果,將所述文檔集I中的一部分文檔的標(biāo)識發(fā)送給所述用戶m ;所述查詢特征向量I與所述應(yīng)用實例2中的查詢特征向量的生成方法相同,所述數(shù)學(xué)距離7與所述應(yīng)用實例2中的所述數(shù)學(xué)距離的計算方法相同;用戶查詢模塊219 :接收用戶m(m e J)提交的查詢條件,所述查詢條件至少包括被查詢用戶的至少一個特征,根據(jù)所述查詢條件生成查詢特征向量2,然后計算所述用戶集J中每個用戶的用戶特征向量與所述查詢特征向量2之間的數(shù)學(xué)距離8,以及根據(jù)所述數(shù)學(xué)距離8對所述用戶集J進(jìn)行排序,并且按照所述排序結(jié)果將所述用戶集J中的一部分用戶的標(biāo)識發(fā)送給所述用戶m ;所述查詢特征向量2與所述應(yīng)用實例3中的查詢特征向量的生成方法相同,所述數(shù)學(xué)距離8與所述應(yīng)用實例3中的所述數(shù)學(xué)距離的計算方法相同。 上述各模塊中的所述用戶i、用戶j和用戶m,分別代表所述用戶集J中的任意一個用戶。所述文檔i和文檔n,分別代表所述文檔集I中的任意一個文檔。為了表述方便起見,在各個模塊中只列出了所述用戶i、用戶j和用戶m以及文檔i和文檔η的應(yīng)用實例。另外,所述特征向量更新模塊(216)由兩部分組成,包括所述特征向量更新模塊I和所述特征向量更新模塊2。以上所述應(yīng)用實例僅為本發(fā)明的較佳的應(yīng)用實例,并非用以限定本發(fā)明的保護范圍。
權(quán)利要求
1.一種在互聯(lián)網(wǎng)上確定用戶特征的方法,其特征在于,在服務(wù)器中存儲文檔集I= {I,2,···,M}、用戶集J= {1,2,... ,N}和特征集K= {1,2,···,L},其中M為文檔個數(shù),N為用戶個數(shù),L為特征個數(shù);并且執(zhí)行如下步驟 接收用戶j(j e J)訪問文檔i(i e I)的信號,所述信號至少包括所述用戶j的用戶標(biāo)識和所述文檔i的文檔標(biāo)識; 根據(jù)所述文檔標(biāo)識,讀取所述文檔i的文檔特征向量Kd(i) = (dwn,dwi2,. . . , dwik,...,dwiL),其中dwik表示所述文檔i與特征k(k e K)的相關(guān)度; 根據(jù)所述用戶標(biāo)識,讀取所述用戶j的用戶特征向量Ku(j) = (UWjijUWj2,. . . ,UWjk,...,UWjl),其中UWjk表示所述用戶j與特征k(k e K)的相關(guān)度; 用如下算法更新所述文檔i的文檔特征向量和所述用戶j的用戶特征向量Kd*(i) = functionl [Kd(i), Ku(j)]Ku*(j) = function2[Kd(i), Ku(j)] 其中Kd(i)和K/(i)分別表示更新前和更新后的所述文檔i的文檔特征向量,Ku(J)和lC(j)分別表示更新前和更新后的所述用戶的用戶特征向量;所述fUnCtionl[Kd(i),Ku(j)]和所述 function2[Kd(i), Ku(j)]均為增函數(shù)。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在所述算法的一個應(yīng)用實例中,用如下具體算法來更新所述文檔i的文檔特征向量和所述用戶j的用戶特征向量dwik* = dwik+ λ j (t) · f1 (UWjk);對于每個 k e UKj, UKj C K;uwJk* = uwJk+ λ 2 (t) · f2 (dwik);對于每個 k e DKi, DKj £ K; 其中Kuwjk)和f2(dwik)為增函數(shù)為所述訪問的類型,λ j(t)和X2(t)分別為t的函數(shù);所述DKi是由所述文檔i的文檔特征向量Kd(i) = (dwn, dwi2,. . . , dwik,. . . , dwiL)中數(shù)值最大的Qi個分量所對應(yīng)的特征組成的集合,所述UKj是由所述用戶j的用戶特征向量Ku (j) = (UWjijUWj2, . . . ,UWjk,. . . , UWjl)中數(shù)值最大的P」個分量所對應(yīng)的特征組成的集合,Qi和Pj為設(shè)定參數(shù);dwik和dwik*分別表示更新前和更新后的所述文檔i的文檔特征向量的第k個分量,UWjl^P uw/分別表示更新前和更新后的所述用戶j的用戶特征向量的第k個分量。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于, 所述方法還包括對所述用戶集J中的每個用戶的用戶特征向量進(jìn)行修正的算法,即選擇一個k e K,將數(shù)據(jù)集合Uk = {uwjk|uwjk≥uCk,j e J}中的每個uwjk映射為區(qū)間[a,b]上一實數(shù)值gi (UWjk);當(dāng)集合Uk中的每個UWjk都被映射為對應(yīng)的gi (UWjk)后,再用所述映射得到的每個實數(shù)值gi (UWjk)分別給其對應(yīng)的UWjk賦值;其中g(shù)i (UWjk)為增函數(shù),uCk> a和b均為設(shè)定常數(shù)。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于, 所述方法還包括對所述文檔集I中的每個文檔的文檔特征向量進(jìn)行修正的算法,即選擇一個k e K,將數(shù)據(jù)集合Vk = {dwik|dwik≥dck, i e 1}中的每個dwik映射為區(qū)間[a, b]上一實數(shù)值g2(dwik),當(dāng)集合Vk中的每個UWjk都被映射為相應(yīng)的g2(dwik)后,再用所述映射得到的每個實數(shù)值g2(dwik)分別給其對應(yīng)的dwik賦值;其中g(shù)2(dwik)為增函數(shù),dCk、a和b均為設(shè)定常數(shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法包括在互聯(lián)網(wǎng)上查詢一組特定文檔的應(yīng)用實例,其步驟如下 多次使用所述方法獲取所述文檔集I中的多個文檔的文檔特征向量和所述用戶集J中的多個用戶的用戶特征向量; 接收用戶m(m e J)提交的查詢條件,所述查詢條件包括被查詢文檔的至少一個特征; 根據(jù)所述查詢條件,生成所述用戶m的查詢特征向量; 計算所述文檔集I中每個文檔的文檔特征向量與所述查詢特征向量之間的數(shù)學(xué)距離,以及根據(jù)所述數(shù)學(xué)距離對所述文檔集I進(jìn)行排序; 按照所述排序結(jié)果將所述文檔集I中部分文檔的標(biāo)識發(fā)送給所述用戶m。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法包括在互聯(lián)網(wǎng)上查詢一組特定用戶的應(yīng)用實例,其步驟如下 多次使用所述方法獲取所述用戶集J中的多個用戶的用戶特征向量; 接收用戶m(m e J)提交的查詢條件,所述查詢條件包括被查詢用戶的至少一個特征 根據(jù)所述查詢條件,生成所述用戶m的查詢特征向量; 計算所述用戶集J中每個用戶的用戶特征向量與所述查詢特征向量之間的數(shù)學(xué)距離,以及根據(jù)所述數(shù)學(xué)距離對所述用戶集J進(jìn)行排序; 按照所述排序結(jié)果將所述用戶集J中部分用戶的標(biāo)識發(fā)送給所述用戶m。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述方法的一個應(yīng)用實例中,多次使用所述方法獲取所述文檔集I中多個文檔的文檔特征向量和所述用戶集J中的多個用戶的用戶特征向量;設(shè)置廣告集A= {1,2,···,G},廣告g(g e A)的廣告特征向量Ka (g) = (awgl,aw82, ...awgk, ···, awgI),其中awgk表示所述廣告g與特征k(k e K)的相關(guān)度,G為廣告?zhèn)€數(shù);然后執(zhí)行如下步驟 接收用戶m(m e J)訪問文檔n(n e I)的信號,所述信號至少包括所述用戶m的用戶標(biāo)識和所述文檔η的文檔標(biāo)識; 根據(jù)所述用戶m的用戶標(biāo)識,獲取所述用戶m的用戶特征向量; 根據(jù)所述文檔η的文檔標(biāo)識,獲取所述文檔η的文檔特征向量; 計算所述廣告集A中每個廣告的廣告特征向量與所述用戶m的用戶特征向量之間的數(shù)學(xué)距離1 ;計算所述廣告集A中每個廣告的廣告特征向量與所述文檔η的文檔特征向量之間的數(shù)學(xué)距離2 ; 根據(jù)所述廣告集A中每個廣告的所述數(shù)學(xué)距離I和所述數(shù)學(xué)距離2生成數(shù)學(xué)距離3,以及根據(jù)所述數(shù)學(xué)距離3對所述廣告集A中每個廣告的進(jìn)行排序; 按照所述排序的結(jié)果,將所述廣告集A中的至少一個廣告放入所述文檔η并將放入廣告的所述文檔η發(fā)送給所述用戶m。
8.—種在互聯(lián)網(wǎng)上確定用戶特征的方法,其特征在于,在服務(wù)器中存儲用戶集J= {I,.2,. . .,N}和特征集K = {1,2,. . .,L},其中N為用戶個數(shù),L為特征個數(shù);并且在所述服務(wù)器中執(zhí)行如下步驟 接收用戶j(j e J)聯(lián)絡(luò)用戶i(i e J)的信號,所述信號至少包括所述用戶j的用戶標(biāo)識和所述用戶i的用戶標(biāo)識; 根據(jù)所述用戶j的用戶標(biāo)識,讀取所述用戶j的用戶特征向量Ku(j) = (UWjl,jUWj2,...,UWjk, ... , UWjl),其中UWjk表示所述用戶j與特征k(k e K)的相關(guān)度; 根據(jù)所述用戶i的用戶標(biāo)識,讀取所述用戶i的用戶特征向量Ku(i) = (uwn,uwi2,...,UWik, ... , uwiL),其中UWik表示所述用戶i與特征k(k e K)的相關(guān)度; 至少使用如下算法中的一種對所述的特征向量進(jìn)行更新
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,在所述算法的一個應(yīng)用實例中,所述用戶i的用戶特征向量和所述用戶j的用戶特征向量的更新算法如下uwik* = uwik+ λ 3 (t) · f3 (uwJk);對于每個 k e UKj, UKjC K;uwJk* = uwJk+ λ 4 (t) · f4 (uwik);對于每個 k e UKi, UKj C K; 其中f3 (U%k) f4 (UWik)為增函數(shù),t為所述聯(lián)絡(luò)的類型,λ 3(t)和λ4α)分別為t的函數(shù),所述UKi是由所述用戶i的用戶特征向量Ku(i) = (uwn, uwi2,. . . , UWik,. . . , uwiL)中數(shù)值最大的Pi個分量所對應(yīng)的特征組成的集合,所述U\_是由所述用戶j的用戶特征向量Ku (j) = (UWjijUWj2, . . . ,UWjk,. . . , UWjl)中數(shù)值最大的P」個分量所對應(yīng)的特征組成的集合,PJPPj為設(shè)定常數(shù);UWik和UWik*分別表示更新前和更新后的所述用戶i的用戶特征向量的第k個分量,Wjl^P UW/分別表示更新前和更新后的所述用戶j的用戶特征向量的第k個分量。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于, 所述方法還包括對所述用戶集J中的每個用戶的用戶特征向量進(jìn)行修正的算法,即選擇一個k e K,將數(shù)據(jù)集合Uk = {uwjk|uwjk彡uCk,j e J}中的每個uwjk映射為區(qū)間[a,b]上一實數(shù)值gi (UWjk);當(dāng)集合Uk中的每個UWjk都被映射為對應(yīng)的gi (UWjk)后,再用所述映射得到的每個實數(shù)值gi (UWjk)分別給其對應(yīng)的UWjk賦值;其中g(shù)i (UWjk)為增函數(shù),uCk> a和b均為設(shè)定常數(shù)。
11.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述方法包括在互聯(lián)網(wǎng)上查詢一組特定用戶的應(yīng)用實例,其步驟如下 多次使用所述方法獲取所述用戶集J中的多個用戶的用戶特征向量; 接收用戶m(m e J)提交的查詢條件,所述查詢條件包括被查詢用戶的至少一個特征; 根據(jù)所述查詢條件,生成所述用戶m的查詢特征向量; 計算所述用戶集J中每個用戶的用戶特征向量與所述查詢特征向量之間的數(shù)學(xué)距離,以及根據(jù)所述數(shù)學(xué)距離對所述用戶集J進(jìn)行排序; 按照所述排序結(jié)果將所述用戶集J中部分用戶的標(biāo)識發(fā)送給所述用戶m。
12.根據(jù)權(quán)利要求8所述的方法,其特征在于,在所述方法的一個應(yīng)用實例中,多次使用所述方法獲取所述用戶集J中的多個用戶的用戶特征向量;設(shè)置廣告集A = {1,2,...,G},廣告 g(g e A)的廣告特征向量為 Ka(g) = (awgl, awg2, ···, awgk, ···, awgL),其中 awgk 表示所述廣告g與特征k(k e K)的相關(guān)度,G為廣告?zhèn)€數(shù);然后執(zhí)行如下步驟 接收用戶m(m e J)聯(lián)絡(luò)用戶n(n e J)的信號,所述信號至少包括所述用戶m的用戶標(biāo)識和所述用戶η的用戶標(biāo)識; 根據(jù)所述用戶m的用戶標(biāo)識,讀取所述用戶m的用戶特征向量; 根據(jù)所述用戶η的用戶標(biāo)識,讀取所述用戶η的用戶特征向量; 計算所述廣告集A中每個廣告的廣告特征向量與所述用戶m的用戶特征向量之間的數(shù)學(xué)距離4 ;計算所述廣告集A中每個廣告的廣告特征向量與所述用戶η的用戶特征向量之間的數(shù)學(xué)距離5 ; 根據(jù)所述廣告集A中每個廣告的所述數(shù)學(xué)距離4和所述數(shù)學(xué)距離5生成數(shù)學(xué)距離6,以及根據(jù)所述數(shù)學(xué)距離6對所述廣告集A中每個廣告的進(jìn)行排序; 按照所述排序結(jié)果將所述廣告集A中的至少一個廣告推送給所述用戶m。
13.—種在互聯(lián)網(wǎng)中確定用戶特征的系統(tǒng),其特征在于,包括以下模塊 用戶特征向量初始值設(shè)置模塊根據(jù)用戶的自然特征和用戶偏好,設(shè)置用戶集J= U,.2,...,N}中的一部分用戶的用戶特征向量初始值,并將其存儲于用戶數(shù)據(jù)庫中; 文檔特征向量初始值設(shè)置模塊根據(jù)文檔的特征,設(shè)置文檔集I = {1,2,. . .,M}中的一部分文檔的文檔特征向量初始值,并將其存儲于文檔數(shù)據(jù)庫中; 廣告特征向量初始值設(shè)置模塊根據(jù)廣告的特征,設(shè)置廣告集A= {1,2, ...,G}中部分廣告的廣告特征向量初始值,并將其存儲于廣告數(shù)據(jù)庫中; 用戶訪問文檔信號獲取模塊獲取用戶j(j e J)訪問文檔i(i e I)的信號,所述信號至少包括所述文檔i的文檔標(biāo)識和所述用戶j的用戶標(biāo)識,所述信號存儲于用戶數(shù)據(jù)庫中; 用戶聯(lián)絡(luò)用戶信號獲取模塊獲取用戶j(j e J)聯(lián)絡(luò)用戶i(i e J)的信號,所述信號至少包括所述用戶j的用戶標(biāo)識和所述用戶i的用戶標(biāo)識,并將所述信號存儲于用戶數(shù)據(jù)庫中; 特征向量更新模塊I :根據(jù)在所述用戶訪問文檔信號獲取模塊中得到的所述文檔i的文檔標(biāo)識和所述用戶j的用戶標(biāo)識,分別讀取所述文檔i的文檔特征向量和所述用戶j的用戶特征向量,然后更新所述文檔i的文檔特征向量和所述用戶j的用戶特征向量;更新后的所述文檔i的文檔特征向量是更新前的所述文檔i的文檔特征向量和所述用戶j的用戶特征向量的函數(shù);更新后的所述用戶j的用戶特征向量是更新前的所述文檔i的文檔特征向量和所述用戶j的用戶特征向量的函數(shù); 特征向量更新模塊2 :根據(jù)在所述用戶聯(lián)絡(luò)用戶信號獲取模塊中得到的所述用戶j和所述用戶i的用戶標(biāo)識,分別讀取所述用戶j和所述用戶i的用戶特征向量,然后更新所述用戶j和所述用戶i的用戶特征向量;更新后的所述用戶i的用戶特征向量是更新前的所述用戶i的用戶特征向量和所述用戶j的用戶特征向量的函數(shù);更新后的所述用戶j的用戶特征向量是更新前的所述用戶i的用戶特征向量和所述用戶j的用戶特征向量的函數(shù);廣告選擇和呈現(xiàn)模塊根據(jù)在所述用戶訪問文檔信號獲取模塊中得到的所述文檔i的文檔標(biāo)識和所述用戶j的用戶標(biāo)識,計算所述廣告集A中的每個廣告的數(shù)學(xué)距離3,以及根據(jù)所述數(shù)學(xué)距離3對所述廣告集A進(jìn)行排序,并根據(jù)所述排序結(jié)果將至少一個廣告呈現(xiàn)給所述用戶j ;根據(jù)在所述用戶聯(lián)絡(luò)用戶信號獲取模塊中得到的所述用戶j和所述用戶i的用戶標(biāo)識,計算所述廣告集A中的每個廣告的數(shù)學(xué)距離6,以及根據(jù)所述數(shù)學(xué)距離6對所述廣告集A進(jìn)行排序,并根據(jù)所述排序結(jié)果將至少一個廣告呈現(xiàn)給所述用戶j ;文檔查詢模塊接收用戶m(m e J)提交的查詢條件,所述查詢條件至少包括被查詢文檔的至少一個特征,根據(jù)所述查詢條件生成查詢特征向量1,然后計算所述文檔集I中每個文檔的文檔特征向量與所述用戶m的查詢特征向量I之間的數(shù)學(xué)距離7,以及根據(jù)所述數(shù)學(xué)距離7對所述文檔集I進(jìn)行排序,并且按照所述排序結(jié)果,將所述文檔集I中的一部分文檔的標(biāo)識發(fā)送給所述用戶m ; 用戶查詢模塊接收用戶m(m e J)提交的查詢條件,所述查詢條件至少包括被查詢用戶的至少一個特征,根據(jù)所述查詢條件 生成查詢特征向量2,然后計算所述用戶集J中每個用戶的用戶特征向量與所述查詢特征向量2之間的數(shù)學(xué)距離8,以及根據(jù)所述數(shù)學(xué)距離8對所述用戶集J進(jìn)行排序,并且按照所述排序結(jié)果將所述用戶集J中的一部分用戶的標(biāo)識發(fā)送給所述用戶m。
全文摘要
本發(fā)明提出了一種在互聯(lián)網(wǎng)上確定用戶特征的方法和系統(tǒng)。所述方法通過用戶訪問文檔的信號以及用戶聯(lián)絡(luò)其他用戶的信號來自動地更新用戶和文檔的個性化特征。如果用戶訪問了文檔,則用戶的個性化特征由文檔的個性化特征來更新,文檔的個性化特征由用戶的個性化特征來更新。如果用戶聯(lián)絡(luò)了其他用戶,則每個用戶的個性化特征由另一個用戶的個性化特征來更新。多次使用上述方法獲得多個用戶和多個文檔的個性化特征。根據(jù)用戶和文檔的個性化特征,可對搜索引擎獲得的網(wǎng)頁信息作進(jìn)一步的過濾和篩選以提高搜索的準(zhǔn)確性。根據(jù)用戶的個性化特征,可在互聯(lián)網(wǎng)中尋找具有特定特征的用戶群。
文檔編號G06F17/30GK102880622SQ20111020516
公開日2013年1月16日 申請日期2011年7月15日 優(yōu)先權(quán)日2011年7月15日
發(fā)明者祁勇 申請人:祁勇