社交網(wǎng)絡(luò)中的人物標簽推薦方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種社交網(wǎng)絡(luò)中的人物標簽推薦方法和系統(tǒng),所述方法包括:基于被推薦用戶的社交對象發(fā)布的文本內(nèi)容,將社交對象劃分為在語義空間上相似的多個類簇;其中,每個社交對象發(fā)布的文本內(nèi)容由該社交對象發(fā)布的多個短文本消息組成。所述方法還包括:對于所述多個類簇中的每個類簇,將該類簇中的社交對象所對應(yīng)的標簽進行冗余處理,得到與該類簇對應(yīng)的標簽集合以提供給被推薦用戶。本發(fā)明解決了現(xiàn)有人物標簽推薦技術(shù)中,標簽推薦質(zhì)量不高的問題,以及能使標簽推薦的結(jié)果更具個性化并且更加多樣化。
【專利說明】社交網(wǎng)絡(luò)中的人物標簽推薦方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于個性化推薦【技術(shù)領(lǐng)域】,尤其涉及一種社交網(wǎng)絡(luò)中的人物標簽推薦方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)的社會化屬性越來越明顯,新興的社交網(wǎng)絡(luò)(如國外的Facebook、Twitter、LinkedIn和國內(nèi)的新浪微博、人人網(wǎng)等)將人們更緊密地結(jié)合在一起。在這些社交網(wǎng)絡(luò)中,人們?yōu)榱吮砻髯约旱呐d趣愛好、職業(yè)特征等,常常選擇一組詞匯或者短語對自身進行標注,從而將自身與一組詞匯或者短語建立聯(lián)系,這些標注詞匯或者短語通常被稱為人物標簽(或標簽,Tag)。由于社交網(wǎng)絡(luò)中的用戶數(shù)量和數(shù)據(jù)信息日益龐大,很多用戶沒有為自身添加標簽,而個性化的推薦系統(tǒng)能夠迅速捕捉用戶的興趣愛好和行為特征、加快用戶信息獲取,因此人物標簽推薦系統(tǒng)是社交網(wǎng)絡(luò)中不可缺少的模塊。在社交網(wǎng)絡(luò)中,進行人物標簽推薦的作用包括:(I)增加用戶標注的幾率,避免用戶因為麻煩而不進行標注的情況產(chǎn)生;(2)幫助用戶減少標注時間;(3)減少系統(tǒng)中冗余標簽的產(chǎn)生;以及⑷能夠基于人物標簽進行人物搜索。
[0003]目前,社交網(wǎng)絡(luò)中的人物標簽的推薦方法主要包括:(1)基于社交關(guān)系的人物標簽推薦方法和(2)基于內(nèi)容的人物標簽推薦方法,這兩種方法均存在一些不足。其中,前者主要利用用戶之間的社交關(guān)系,通過分析標簽在社交網(wǎng)絡(luò)上的傳播來進行標簽推薦。這種方法沒有考慮推薦結(jié)果的多樣性和質(zhì)量問題,導(dǎo)致推薦結(jié)果中常常出現(xiàn)多個相似標簽或者出現(xiàn)拼寫錯誤、語義含糊等問題標簽,因此不能覆蓋用戶的興趣特征并且保證標簽推薦的質(zhì)量。后者主要依據(jù)用戶所發(fā)布的內(nèi)容,挖掘與發(fā)布內(nèi)容相關(guān)的關(guān)鍵詞作為人物標簽推薦給用戶。通過挖掘用戶關(guān)鍵詞來構(gòu)造人物標簽往往忽視了關(guān)鍵詞與標簽之間的詞匯鴻溝問題,此外,考慮到人物標簽的隨意性、標簽之間沒有具體的層次結(jié)構(gòu)以及刻畫粒度不易控制等因素,人物標簽的自動標注往往非常困難。
[0004]以上標簽推薦方法存在的問題是:無法從用戶的社交對象中獲取個性化和多樣化的標簽,此外也沒有考慮到推薦標簽的質(zhì)量問題。
【發(fā)明內(nèi)容】
[0005]為解決上述問題,本發(fā)明提供一種社交網(wǎng)絡(luò)中的人物標簽推薦方法,該方法包括:
[0006]步驟I)、基于被推薦用戶的社交對象發(fā)布的文本內(nèi)容,將社交對象劃分為在語義空間上相似的多個類簇;其中,每個社交對象發(fā)布的文本內(nèi)容由該社交對象發(fā)布的多個短文本消息組成;
[0007]步驟2)、對于所述多個類簇中的每個類簇,將該類簇中的社交對象所對應(yīng)的標簽進行冗余處理,得到與該類簇對應(yīng)的標簽集合以提供給被推薦用戶。
[0008]在一個實施例中,所述方法的步驟I)包括:
[0009]步驟11)、對每個所述社交對象發(fā)布的文本內(nèi)容進行文本特征抽取,根據(jù)抽取出的文本特征得到該社交對象發(fā)布的文本內(nèi)容的語義空間向量表示形式;
[0010]步驟12)、基于所述社交對象發(fā)布的文本內(nèi)容的語義空間向量表示形式,將所述社交對象劃分為在語義空間上相似的多個類簇。
[0011]在一個實施例中,步驟11)包括:采用LDA進行文本特征抽取,其中文本特征包括關(guān)于文本主題的信息。其中,通過EM變分法訓(xùn)練LDA中的主題發(fā)生概率參數(shù)Θ,包括:
[0012]A)、在E階段計算P(Z|X,9old);其中,χ為觀測到的變量,ζ為隱含變量;
[0013]B)、在 M 階段計算 Θ new = argmaxQ ( θ,Θ old);
[0014]其中,Q(θ,θ old) = Σ ζΡ (ζ I χ, θ old) InP (χ, ζ I θ ) ,Ρ(χ, ζ θ )是給定的聯(lián)合分布;
[0015]C)、判斷似然函數(shù)Ρ(χ| Θ)或者主題發(fā)生概率參數(shù)是否收斂;如果不收斂,則令9 old 9 new并返回步驟A)。
[0016]在一個實施例中,步驟12)包括:
[0017]在劃分所述社交對象時,根據(jù)下式度量所述社交對象在語義空間上的相似度:
【權(quán)利要求】
1.一種社交網(wǎng)絡(luò)中的人物標簽推薦方法,包括: 步驟I)、基于被推薦用戶的社交對象發(fā)布的文本內(nèi)容,將社交對象劃分為在語義空間上相似的多個類簇;其中,每個社交對象發(fā)布的文本內(nèi)容由該社交對象發(fā)布的多個短文本消息組成; 步驟2)、對于所述多個類簇中的每個類簇,將該類簇中的社交對象所對應(yīng)的標簽進行冗余處理,得到與該類簇對應(yīng)的標簽集合以提供給被推薦用戶。
2.根據(jù)權(quán)利要求1所述的方法,其中,步驟I)包括: 步驟11)、對每個所述社交對象發(fā)布的文本內(nèi)容進行文本特征抽取,根據(jù)抽取出的文本特征得到該社交對象發(fā)布的文本內(nèi)容的語義空間向量表示形式; 步驟12)、基于所述社交對象發(fā)布的文本內(nèi)容的語義空間向量表示形式,將所述社交對象劃分為在語義空間上相似的多個類簇。
3.根據(jù)權(quán)利要求2所述方法,其中,步驟11)包括: 采用LDA進行文本特征抽取,其中文本特征包括關(guān)于文本主題的信息。
4.根據(jù)權(quán)利要求3所述的方法,其中,通過EM變分法訓(xùn)練LDA中的主題發(fā)生概率參數(shù)Θ,包括: A)、在E階段計算P(Z|X,9old);其中,X為觀測到的變量,z為隱含變量;
B)、在M 階段計算 Θ new = argmaxQ ( θ,Θ old);
其中,Q( θ,Θ old) = ΣζΡ(ζ I χ, θ old) InP(χ, ζ I θ ), Ρ(χ, ζ θ )是給定的聯(lián)合分布; C)、判斷似然函數(shù)Ρ(χ|Θ)或者主題發(fā)生概率參數(shù)是否收斂;如果不收斂,則令9 old 9 new并返回步驟A)。
5.根據(jù)權(quán)利要求3所述的方法,其中,通過吉布斯采樣的方法訓(xùn)練LDA中的參數(shù)。
6.根據(jù)權(quán)利要求2-5中任何一個所述的方法,其中,步驟12)包括: 在劃分所述社交對象時,根據(jù)下式度量所述社交對象在語義空間上的相似度:
其中,與;,分別是社交對象Ui與社交對象+發(fā)布的文本內(nèi)容的語義空間向量表示形式。
7.根據(jù)權(quán)利要求1-5中任何一個所述的方法,其中,步驟2)包括: 步驟21)、在每個類簇所包括的社交對象所對應(yīng)的標簽中,將問題標簽轉(zhuǎn)換為與其語義相似的預(yù)先定義的標簽,得到與每個類簇對應(yīng)的標簽集合;其中,問題標簽包括語義相似的多個標簽、語義模糊的標簽以及有拼寫錯誤問題的標簽; 步驟22)、在每個標簽集合中,合并相同的標簽,并且記錄該標簽在所屬標簽集合中出現(xiàn)的頻率。
8.根據(jù)權(quán)利要求7所述方法,其中,通過以下步驟得到所述預(yù)先定義的標簽: 根據(jù)標簽在社交網(wǎng)絡(luò)中的使用頻率以及標簽規(guī)范性選取滿足預(yù)定規(guī)則的標簽作為預(yù)先定義的標簽。
9.根據(jù)權(quán)利要求1-5中任何一個所述的方法,還包括: 步驟3)、在每個類簇所對應(yīng)的標簽集合中,根據(jù)標簽在所屬標簽集合中出現(xiàn)的頻率以及該標簽在社交網(wǎng)絡(luò)中出現(xiàn)的頻率計算標簽的第一權(quán)重,選出第一權(quán)重大于預(yù)定第一閾值的標簽;其中,計算第一權(quán)重的公式如下:
representativeness (t) = TFt^IDFt 其中,TFt是標簽t在所屬標簽集合中出現(xiàn)的頻率,IDFt是在社交網(wǎng)絡(luò)中標簽t的用戶數(shù)和社交網(wǎng)絡(luò)全部用戶數(shù)的逆頻率對數(shù)。
10.根據(jù)權(quán)利要求9所述的方法,還包括: 步驟4)、在所有類簇所對應(yīng)的標簽集合中,根據(jù)標簽的第一權(quán)重以及被推薦用戶與該標簽所屬標簽集合所對應(yīng)的類簇的相似度計算該標簽的第二權(quán)重,選出第二權(quán)重大于預(yù)定第二閾值的標簽推薦給被推薦用戶;其中,計算第二權(quán)重的公式如下:
wt = representativeness(t)*sim(u, Cuj) 其中,representativeness (t)是標簽t的第一權(quán)重,sim(u, Cuj)是被推薦用戶u與標簽t所屬標簽集合所對應(yīng)的類簇C+_之間的相似度。
11.根據(jù)權(quán)利要求10所述的方法,其中,根據(jù)下式計算被推薦用戶與類簇之間的相似度:
其中,sim(u, Cuj)是被推薦用戶u與類簇Cuj之間的相似度,sim(u, u’)是被推薦用戶u與類簇Cuj中的社交對象U’的相似度。
12.根據(jù)權(quán)利要求1所述的方法,其中,步驟I)之前還包括: 在被推薦用戶的所有社交對象中選出滿足預(yù)定規(guī)則的社交對象。
13.一種社交網(wǎng)絡(luò)中的人物標簽推薦系統(tǒng),包括: 社交對象劃分設(shè)備,用于基于被推薦用戶的社交對象發(fā)布的文本內(nèi)容,將社交對象劃分為在語義空間上相似的多個類簇;其中,每個社交對象發(fā)布的文本內(nèi)容由該社交對象發(fā)布的多個短文本消息組成;以及 標簽冗余處理設(shè)備,用于對于所述多個類簇中的每個類簇,將該類簇中的社交對象所對應(yīng)的標簽進行冗余處理,得到與該類簇對應(yīng)的標簽集合以提供給被推薦用戶。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),所述社交對象劃分設(shè)備包括: 向量空間抽取裝置,用于對每個所述社交對象發(fā)布的文本內(nèi)容進行文本特征抽取,根據(jù)抽取出的文本特征得到該社交對象發(fā)布的文本內(nèi)容的語義空間向量表示形式;以及 社交對象聚類裝置,用于基于所述社交對象發(fā)布的文本內(nèi)容的語義空間向量表示形式,將所述社交對象劃分為在語義空間上相似的多個類簇。
15.根據(jù)權(quán)利要求13或14所述的系統(tǒng),還包括: 標簽選擇設(shè)備,用于在每個類簇所對應(yīng)的標簽集合中,根據(jù)標簽在所屬標簽集合中出現(xiàn)的頻率以及該標簽在社交網(wǎng)絡(luò)中出現(xiàn)的頻率計算標簽的第一權(quán)重,選出第一權(quán)重大于預(yù)定第一閾值的標簽。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,所述標簽選擇設(shè)備還用于: 在所有類簇所對應(yīng)的標簽集合中,根據(jù)標簽的第一權(quán)重以及被推薦用戶與該標簽所屬標簽集合所對應(yīng)的類簇的相似度計算該標簽的第二權(quán)重,選出第二權(quán)重大于預(yù)定第二閾值的標簽推薦給被推薦用戶。
17.根據(jù)權(quán)利要求13或14所述的系統(tǒng),還包括: 社交對象篩選設(shè)備,用于在被推薦用戶的所有社交對象中選出滿足預(yù)定規(guī)則的社交對象。
【文檔編號】G06F17/30GK104077417SQ201410342939
【公開日】2014年10月1日 申請日期:2014年7月18日 優(yōu)先權(quán)日:2014年7月18日
【發(fā)明者】程學(xué)旗, 熊錦華, 顓悅, 王千博, 馮凱, 許洪波, 王元卓 申請人:中國科學(xué)院計算技術(shù)研究所