本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種社交圈子的確定方法和裝置。
背景技術(shù):
社交網(wǎng)絡(luò)具有大規(guī)模、動態(tài)、內(nèi)容與數(shù)據(jù)豐富等特性,在發(fā)現(xiàn)或查找社交群體時,往往涉及到社交群體的密度設(shè)定的問題,若社交群體密度設(shè)定的太小,得到的社交群用戶間共性降低,反之,則可能會遺漏更多的用戶。
現(xiàn)有方法多是人為隨機指定社交群體聚類密度值,存在主觀性強、效率低、且不能保證聚類得到社交用戶之間的共性的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種社交圈子的確定方法和裝置,解決了現(xiàn)有技術(shù)中主觀性強、效率低、且不能保證聚類得到社交用戶之間的共性的技術(shù)問題,具有結(jié)果客觀、效率高,既滿足社交用戶之間的共性,又能達到社交群體用戶數(shù)量最大化的技術(shù)效果。
本申請實施例提供一種社交圈子的確定方法,所述方法包括:獲得第一社交圈子,所述第一社交圈子具有第一密度值d1;獲得第二社交圈子,所述第二社交圈子具有第二密度值d2,其中,所述第一社交圈子不同于所述第二社交圈子,所述第一密度值d1不同于所述第二密度值d2;獲得所述第一社交圈子的第一文檔信息;根據(jù)所述第一社交圈子和所述第一文檔信息確定所述第一社交圈子的第一相似度;獲得所述第二社交圈子的第二文檔信息;根據(jù)所述第二社交圈子和所述第二文檔信息確定所述第二社交圈子的第二相似度;判斷所述第一相似度和所述第二相似度的大??;當所述第一相似度大于所述第二相似度時,確定所述第一密度值d1作為社交圈子的選擇標準。
進一步地,所述方法還包括:當所述第一相似度不大于所述第二相似度時,確定所述第二密度值d2作為社交圈子的選擇標準。
進一步地,所述方法還包括:根據(jù)
進一步地,所述方法還包括:根據(jù)所述第一文檔信息獲得第一主題信息,其中,所述第一主題信息包括第一詞項信息;根據(jù)所述第一社交圈子、所述第一文檔信息、所述第一主題信息和所述第一詞項信息獲得第一概率分布;根據(jù)所述第一社交圈子和所述第一概率分布獲得所述第一相似度。
本申請實施例還一種社交圈子的確定裝置,所述裝置包括:第一獲得單元,所述第一獲得單元用于獲得第一社交圈子,所述第一社交圈子具有第一密度值d1;第二獲得單元,所述第二獲得單元用于獲得第二社交圈子,所述第二社交圈子具有第二密度值d2,其中,所述第一社交圈子不同于所述第二社交圈子,所述第一密度值d1不同于所述第二密度值d2;第三獲得單元,所述第三獲得單元用于獲得所述第一社交圈子的第一文檔信息;第一確定單元,所述第一確定單元用于根據(jù)所述第一社交圈子和所述第一文檔信息確定所述第一社交圈子的第一相似度;第四獲得單元,所述第四獲得單元用于獲得所述第二社交圈子的第二文檔信息;第二確定單元,所述第二確定單元用于根據(jù)所述第二社交圈子和所述第二內(nèi)容信息確定所述第二社交圈子的第二相似度;第一判斷單元,所述第二判斷單元用于判斷所述第一相似度和所述第二相似度的大??;第三確定單元,所述第三確定單元用于當所述第一相似度大于所述第二相似度時,確定所述第一密度值d1作為社交圈子的選擇標準。
進一步地,所述裝置還包括:第四確定單元,所述第四確定單元用于當所述第一相似度不大于所述第二相似度時,確定所述第二密度值d2作為社交圈子的選擇標準。
進一步地,所述裝置還包括:第五獲得單元,所述第五獲得單元用于根據(jù)
進一步地,所述裝置還包括:第六獲得單元,所述第六獲得單元用于根據(jù)所述第一文檔信息獲得第一主題信息,其中,所述第一主題信息包括第一詞項信息;第七獲得單元,所述第七獲得單元用于根據(jù)所述第一社交圈子、所述第一文檔信息、所述第一主題信息和所述第一詞項信息獲得第一概率分布;第八獲得單元,所述第八獲得單元用于根據(jù)所述第一社交圈子和所述第一概率分布獲得所述第一相似度。
本申請實施例中的上述一個或多個技術(shù)方案,至少具有如下一種或多種技術(shù)效果:
1、本申請實施例提供一種社交圈子的確定方法和裝置,所述方法包括:獲得第一社交圈子,所述第一社交圈子具有第一密度值d1;獲得第二社交圈子,所述第二社交圈子具有第二密度值d2,其中,所述第一社交圈子不同于所述第二社交圈子,所述第一密度值d1不同于所述第二密度值d2;獲得所述第一社交圈子的第一文檔信息;根據(jù)所述第一社交圈子和所述第一文檔信息確定所述第一社交圈子的第一相似度;獲得所述第二社交圈子的第二文檔信息;根據(jù)所述第二社交圈子和所述第二文檔信息確定所述第二社交圈子的第二相似度;判斷所述第一相似度和所述第二相似度的大?。划斔龅谝幌嗨贫却笥谒龅诙嗨贫葧r,確定所述第一密度值d1作為社交圈子的選擇標準。通過上述技術(shù)方案,解決了現(xiàn)有技術(shù)中主觀性強、效率低、且不能保證聚類得到社交用戶之間的共性的技術(shù)問題,具有結(jié)果客觀、效率高,既滿足社交用戶之間的共性,又能達到社交群體用戶數(shù)量最大化的技術(shù)效果。
2、本申請實施例通過根據(jù)社交圈子及其文檔信息獲得用戶感興趣的主題的分布,確定所述社交圈子用戶的相似度,比較不同社交圈子的相似度大小從而獲得選擇社交圈子的標準,具有結(jié)果客觀,滿足社交用戶之間的共性的技術(shù)效果。
附圖說明
圖1為本申請實施例提供的一種社交圈子的確定方法流程圖;
圖2為本申請實施例提供的一種第一相似度的確定方法流程圖;
圖3為本申請實施例提供的一種社交圈子的確定裝置示意圖。
具體實施方式
本申請實施例提供了一種社交圈子的確定方法和裝置,解決了現(xiàn)有方法中存在的主觀性強、效率低、且不能保證聚類得到社交用戶之間的共性的問題,具有結(jié)果客觀、效率高,既滿足社交用戶之間的共性,又能達到社交群體用戶數(shù)量最大化的技術(shù)效果。
為了解決上述技術(shù)問題,本發(fā)明提供的思路如下:
本申請實施例提供一種社交圈子的確定方法和裝置,所述方法包括:獲得第一社交圈子,所述第一社交圈子具有第一密度值d1;獲得第二社交圈子,所述第二社交圈子具有第二密度值d2,其中,所述第一社交圈子不同于所述第二社交圈子,所述第一密度值d1不同于所述第二密度值d2;獲得所述第一社交圈子的第一文檔信息;根據(jù)所述第一社交圈子和所述第一文檔信息確定所述第一社交圈子的第一相似度;獲得所述第二社交圈子的第二文檔信息;根據(jù)所述第二社交圈子和所述第二文檔信息確定所述第二社交圈子的第二相似度;判斷所述第一相似度和所述第二相似度的大??;當所述第一相似度大于所述第二相似度時,確定所述第一密度值d1作為社交圈子的選擇標準。通過上述技術(shù)方案,解決了現(xiàn)有技術(shù)中主觀性強、效率低、且不能保證聚類得到社交用戶之間的共性的技術(shù)問題,具有結(jié)果客觀、效率高,既滿足社交用戶之間的共性,又能達到社交群體用戶數(shù)量最大化的技術(shù)效果。
下面通過附圖以及具體實施例對本發(fā)明技術(shù)方案做詳細的說明,應(yīng)當理解本申請實施例以及實施例中的具體特征是對本申請技術(shù)方案的詳細的說明,而不是對本申請技術(shù)方案的限定,在不沖突的情況下,本申請實施例以及實施例中的技術(shù)特征可以相互組合。
本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,a和/或b,可以表示:單獨存在a,同時存在a和b,單獨存在b這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
實施例1:
圖1為本申請實施例提供的一種社交圈子的確定方法流程圖,所述方法包括:
步驟101:獲得第一社交圈子,所述第一社交圈子具有第一密度值d1;
在社交環(huán)境中社交用戶彼此互相關(guān)注,形成關(guān)系鏈,進而,基于這種關(guān)注關(guān)系鏈形成的關(guān)系圈,稱為社交圈子。其中,所述社交用戶是指在社交網(wǎng)絡(luò)平臺,例如微博、微信、貼吧等平臺中,具有關(guān)注其他用戶或者被其他用戶關(guān)注的平臺賬號資源;所述關(guān)注關(guān)系鏈是指社交用戶互相關(guān)注后形成的關(guān)系鏈。所述第一社交圈子由具有一定關(guān)注關(guān)系鏈的社交用戶群體構(gòu)成,可在社交網(wǎng)絡(luò)平臺上選取一定量的社交用戶構(gòu)成所述第一社交圈子。
社交圈子的密度值用于描述社交圈子內(nèi)用戶的關(guān)注緊密度,用戶互相關(guān)注的越多,則社交圈子的密度值越大,用戶之間互相關(guān)注越少,則社交圈子密度值越小。所述第一社交圈子的所述第一密度值d1可根據(jù)
步驟102:獲得第二社交圈子,所述第二社交圈子具有第二密度值d2,其中,所述第一社交圈子不同于所述第二社交圈子,所述第一密度值d1不同于所述第二密度值d2;
同理,根據(jù)上述獲得第一社交圈子和第一密度值d1的方式獲得所述第二社交圈子及所述第二密度值d2。其中,所述第一社交圈子和所述第二社交圈子為不同的社交圈子,所述第一密度值d1不同于所述第二密度值d2。
步驟103:獲得所述第一社交圈子的第一文檔信息;
具體來說,所述第一文檔信息是指所述第一社交圈子中的社交用戶在社交平臺上的瀏覽歷史及發(fā)表的文字、語音、視頻信息等內(nèi)容構(gòu)成的集合,例如所述社交用戶瀏覽及發(fā)布過的微博、帖子等。
步驟104:根據(jù)所述第一社交圈子和所述第一文檔信息確定所述第一社交圈子的第一相似度;
具體來說,所述第一相似度用于衡量所述第一社交圈子的用戶之間的相似度,即用戶的共性,所述第一相似度越大,則所述第一社交圈子的用戶的共性越大。其中,所述用戶的共性指所述用戶在興趣愛好,關(guān)注的主題等方面的共性。也就是說,第一相似度越大,則所述第一社交圈子內(nèi)的用戶在興趣愛好,關(guān)注的主題方面相似的程度越大。
步驟105:獲得所述第二社交圈子的第二文檔信息;
具體來說,所述第二文檔信息是指所述第二社交圈子中的社交用戶的瀏覽歷史及發(fā)表的文字、語音、視頻信息等內(nèi)容構(gòu)成的集合。
步驟106:根據(jù)所述第二社交圈子和所述第二文檔信息確定所述第二社交圈子的第二相似度;
具體來說,所述第二相似度用于衡量所述第二社交圈子的用戶之間的相似度,即用戶的共性,所述第二相似度越大,則所述第二社交圈子的用戶的共性越大。也就是說,第二相似度越大,則所述第二社交圈子內(nèi)的用戶在興趣愛好,關(guān)注的主題方面相似的程度越大。
步驟107:判斷所述第一相似度和所述第二相似度的大??;
具體來說,相似度用于衡量用戶之間的共性,相似度越大,則用戶共性越大,也就是說,相似度越大,則社交圈子內(nèi)的不同用戶在興趣愛好,關(guān)注的主題方面相似的程度越大。本步驟比較所述第一相似度與所述第二相似度的大小,則是為了比較所述第一社交圈子和所述第二社交圈子的用戶的共性的大小,以選取用戶共性大的社交圈子作為選擇社交圈子的標準。
步驟108:當所述第一相似度大于所述第二相似度時,確定所述第一密度值d1作為社交圈子的選擇標準。
當所述第一相似度大于所述第二相似度,則說明所述第一社交圈子的用戶共性大于所述第二社交圈子的的用戶的共性,則選擇所述第一密度值d1作為社交圈子的選擇標準。步驟101至步驟108所述方法根據(jù)社交圈子及其文檔信息獲得用戶感興趣的主題的分布,確定所述社交圈子用戶的相似度,比較不同社交圈子的相似度大小,所述方法能夠客觀的得到用戶共性較大,且用戶數(shù)量滿足需求的社交圈子,進而能夠客觀高效的獲得社交圈子的選擇標準。
進一步地,當所述第一相似度不大于所述第二相似度時,確定所述第二密度值d2作為社交圈子的選擇標準。
具體來說,當所述第一相似度小于或者等于所述第二相似度時,則說明所述第一社交圈子的用戶的共性小于或者等于所述第二社交圈子的共性,因此,選擇所述第二密度值d2作為社交圈子的選擇標準。
進一步地,本申請實施例提供一種第一相似度的確定的確定方法,如圖2所示流程圖,所述方法包括:
步驟201:根據(jù)所述第一文檔信息獲得第一主題信息,其中所述第一主題信息包括第一詞項信息;
具體來說,所述第一主題信息用來表示所述第一社交圈子的用戶的興趣偏好,所述第一詞項信息是用于描述所述第一主題信息所使用的詞語。通過建立文檔-主題-詞項模型,對用戶的瀏覽過及發(fā)布過的文檔、語音、視頻等信息進行分析,可以從大規(guī)模文檔中獲得用戶感興趣的主題信息。其中,所述文檔-主題-詞項模型是一種文檔主題的生成模型,包含詞項、主題、文檔三層結(jié)構(gòu),一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞項”這樣一個過程得到,文檔到主題服從多項式分布,主題到詞項服從多項式分布,所述文檔-主題-詞項模型可用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。
步驟202:根據(jù)所述第一社交圈子、所述第一文檔信息、所述第一主題信息和所述第一詞項信息獲得第一概率分布;
所述第一概率分布是指所述第一社交圈的用戶所感興趣的主題的概率分布。具體來說,通過所述文檔-主題-詞項模型對用戶瀏覽過及發(fā)布過的文檔、語音、視頻等信息分析后得到用戶感興趣的主題后,可計算出所述第一社交圈子中文檔對主題的概率分布p=[p1,p2,p3…pt],其中,t為主題數(shù)量。所述概率分布是一種能夠描述用戶對不同主題的感興趣的程度的分布。
步驟203:根據(jù)所述第一社交圈子和所述第一概率分布獲得所述第一相似度。
所述第一相似度用來描述所述第一社交圈的用戶的相似度。所述用戶的相似度是指在一個社交圈內(nèi)的用戶對不同主題感興趣程度的相似程度。概率分布能夠描述用戶對不同主題的感興趣的程度的分布。因此,通過概率分布的相似度,可以度量用戶的相似度,概率分布的相似度越大,則說明用戶對不同主題的感興趣程度越相似,說明用戶的相似度越大。本申請實施例通過kl距離公式作為文本相似度的度量標準,所述kl距離表示為:
其中pi、qi為不同文本的概率分布,dkl(p,q)為計算兩個不同文本的概率分布相似度。
若所述第一社交圈中有n個社交用戶,將每個社交用戶的相似度分別表示為fi,其中,i=1,2,3…n,則所述第一社交圈的平均相似度為
步驟201至步驟203根據(jù)社交圈子及其文檔信息獲得用戶感興趣的主題的分布,確定所述社交圈子用戶的相似度,相似度能夠描述用戶的對不同主題的感興趣程度,進而能夠客觀、高效的獲得滿足社交用戶之間的共性,用戶數(shù)量又能符合需求的社交圈。
本申請實施例還提供一種社交圈子的確定裝置,如圖3所示裝置示意圖,所述裝置包括:
第一獲得單元11,所述第一獲得單元用于獲得第一社交圈子,所述第一社交圈子具有第一密度值d1;
第二獲得單元12,所述第二獲得單元用于獲得第二社交圈子,所述第二社交圈子具有第二密度值d2,其中,所述第一社交圈子不同于所述第二社交圈子,所述第一密度值d1不同于所述第二密度值d2;
第三獲得單元13,所述第三獲得單元用于獲得所述第一社交圈子的第一文檔信息;
第一確定單元14,所述第一確定單元用于根據(jù)所述第一社交圈子和所述第一文檔信息確定所述第一社交圈子的第一相似度;
第四獲得單元15,所述第四獲得單元用于獲得所述第二社交圈子的第二文檔信息;
第二確定單元16,所述第二確定單元用于根據(jù)所述第二社交圈子和所述第二文檔信息確定所述第二社交圈子的第二相似度;
第一判斷單元17,所述第二判斷單元用于判斷所述第一相似度和所述第二相似度的大??;
第三確定單元18,所述第三確定單元用于當所述第一相似度大于所述第二相似度時,確定所述第一密度值d1作為社交圈子的選擇標準。
進一步地,所述裝置還包括:第四確定單元,所述第四確定單元用于當所述第一相似度不大于所述第二相似度時,確定所述第二密度值d2作為社交圈子的選擇標準。
進一步地,所述裝置還包括:第五獲得單元,所述第五獲得單元用于根據(jù)
進一步地,所述裝置還包括:第六獲得單元,所述第六獲得單元用于根據(jù)所述第一文檔信息獲得第一主題信息,其中,所述第一主題信息包括第一詞項信息;第七獲得單元,所述第七獲得單元用于根據(jù)所述第一社交圈子、所述第一文檔信息、所述第一主題信息和所述第一詞項信息獲得第一概率分布;第八獲得單元,所述第八獲得單元用于根據(jù)所述第一社交圈子和所述第一概率分布獲得所述第一相似度。
本申請實施例提供的一種社交圈子的確定方法和裝置至少具有如下技術(shù)效果:
1、本申請實施例提供一種社交圈子的確定方法和裝置,所述方法包括:獲得第一社交圈子,所述第一社交圈子具有第一密度值d1;獲得第二社交圈子,所述第二社交圈子具有第二密度值d2,其中,所述第一社交圈子不同于所述第二社交圈子,所述第一密度值d1不同于所述第二密度值d2;獲得所述第一社交圈子的第一文檔信息;根據(jù)所述第一社交圈子和所述第一文檔信息確定所述第一社交圈子的第一相似度;獲得所述第二社交圈子的第二文檔信息;根據(jù)所述第二社交圈子和所述第二文檔信息確定所述第二社交圈子的第二相似度;判斷所述第一相似度和所述第二相似度的大??;當所述第一相似度大于所述第二相似度時,確定所述第一密度值d1作為社交圈子的選擇標準。通過上述技術(shù)方案,解決了現(xiàn)有技術(shù)中主觀性強、效率低、且不能保證聚類得到社交用戶之間的共性的技術(shù)問題,具有結(jié)果客觀、效率高,既滿足社交用戶之間的共性,又能達到社交群體用戶數(shù)量最大化的技術(shù)效果。
2、本申請實施例通過根據(jù)社交圈子及其文檔信息獲得用戶感興趣的主題的分布,確定所述社交圈子用戶的相似度,比較不同社交圈子的相似度大小從而獲得選擇社交圈子的標準,具有結(jié)果客觀,滿足社交用戶之間的共性的技術(shù)效果。
盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。