社交賬號挖掘方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種社交賬號挖掘方法與裝置,屬于互聯(lián)網領域,所述方法包括:將N個社交網絡群組進行聚類,得到n個第一聚類集合;將M個網絡地址群組進行聚類,得到m個第二聚類集合;對于該n個第一聚類集合中的每個第一聚類集合,基于該n個第一聚類集合包括的社交賬號之間的關系鏈、該m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。本發(fā)明通過確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,從而使挖掘社交賬號的計算量較小,提高了挖掘社交賬號的效率。
【專利說明】
社交賬號挖掘方法及裝置
技術領域
[0001 ]本發(fā)明涉及互聯(lián)網領域,特別涉及一種社交賬號挖掘方法及裝置。
【背景技術】
[0002]隨著互聯(lián)網的普及,用戶可以通過社交應用隨時進行日常交流、信息發(fā)布等操作。通常用戶在使用社交應用進行通信時,往往需要對社交賬號進行挖掘,從而進行人際關系的擴展。
[0003]為了便于描述,將當前需要進行社交賬號挖掘的社交賬號稱為第一社交賬號,當對第一社交賬號進行社交賬號挖掘時,可以獲取與第一社交賬號具有好友關系或群組關系的多個第二社交賬號,對于該多個第二社交賬號中的每個第二社交賬號,獲取與該第二社交賬號具有好友關系或群組關系的多個第三社交賬號,且該多個第三社交賬號與第一社交賬號不存在好友關系或者群組關系,但是該多個第三社交賬號對應的用戶信息與第一社交賬號對應的用戶信息之間存在交集,將獲取的多個第三社交賬號推送給第一社交賬號。重復上述步驟,實現(xiàn)社交賬號的挖掘。
[0004]在進行社交賬號挖掘時,需要獲取與第一社交賬號具有好友關系或群組關系的第二社交賬號,然后通過第二社交賬號,獲取與該第一社交賬號對應的用戶信息存在交集的第三社交賬號,并且當第一社交賬號的數量較多時,需要進行大量的計算,不僅對時間需求較大,同時給服務器帶來負擔,降低了挖掘社交賬號的效率。
【發(fā)明內容】
[0005]為了解決上述技術的問題,本發(fā)明實施例提供了一種社交賬號挖掘方法及裝置。所述技術方案如下:
[0006]—方面,提供了一種社交賬號挖掘方法,所述方法包括:
[0007]將N個社交網絡群組進行聚類,得到η個第一聚類集合,所述N個社交網絡群組中的每個社交網絡群組為在社交應用中將多個社交賬號組成的群組,所述N和所述η均大于或等于I,且所述N大于或等于所述η;
[0008]將M個網絡地址群組進行聚類,得到m個第二聚類集合,所述M個網絡地址群組中的每個網絡地址群組為通過同一地址信息登錄所述社交應用的多個社交賬號組成的群組,所述M和所述m均大于或等于I,且所述M大于或等于所述m;
[0009]對于所述η個第一聚類集合中的每個第一聚類集合,基于所述η個第一聚類集合包括的社交賬號之間的關系鏈、所述m個第二聚類集合包括的社交賬號之間的關系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0010]另一方面,提供了一種社交賬號挖掘裝置,所述裝置包括:
[0011 ]第一聚類模塊,用于將N個社交網絡群組進行聚類,得到η個第一聚類集合,所述N個社交網絡群組中的每個社交網絡群組為在社交應用中將多個社交賬號組成的群組,所述N和所述η均大于或等于I,且所述N大于或等于所述η;
[0012]第二聚類模塊,用于將M個網絡地址群組進行聚類,得到m個第二聚類集合,所述M個網絡地址群組中的每個網絡地址群組為通過同一地址信息登錄所述社交應用的多個社交賬號組成的群組,所述M和所述m均大于或等于I,且所述M大于或等于所述m;
[0013]第一確定模塊,用于對于所述η個第一聚類集合中的每個第一聚類集合,基于所述η個第一聚類集合包括的社交賬號之間的關系鏈、所述m個第二聚類集合包括的社交賬號之間的關系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0014]本發(fā)明實施例提供的技術方案帶來的有益效果是:在本發(fā)明實施例中,服務器通過將該N個社交網絡群組進行聚類得到η個第一聚類集合,并通過將該M個社交網絡群組進行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,可以基于η個第一聚類集合包括的社交賬號之間的關系鏈、m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與第一聚類集合包括的社交賬號之間的關系鏈,從m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,從而使服務器不需要通過對每個社交賬號進行擴展計算,就可以得到一個較大的關系網,并從該關系網中可以進行社交賬號的挖掘。同時,由于服務器通過第一聚類集合、第二聚類集合以及社交賬號之間的關系鏈進行社交賬號的挖掘,對社交賬號挖掘的準確度更高。并且在該社交賬號挖掘的過程中,該服務器只進行了第一聚類集合的獲取、第二聚類集合的獲取和根據關系鏈從m個第二聚類集合包括的社交賬號中,確定挖掘得到的社交賬號這3次計算過程,該挖掘社交賬號的計算量較小,計算次數也較少,從而提高了挖掘社交賬號的效率。
【附圖說明】
[0015]為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0016]圖1是本發(fā)明實施例提供的一種社交賬號挖掘方法流程圖;
[0017]圖2A是本發(fā)明實施例提供的另一種社交賬號挖掘方法流程圖;
[0018]圖2B(a)是本發(fā)明實施例提供的一種第一聚類集合的示意圖;
[0019]圖2B(b)是本發(fā)明實施例提供的另一種第一聚類集合的示意圖;
[0020]圖2C(a)是本發(fā)明實施例提供的第一種第二聚類集合的示意圖;
[0021]圖2C(b)是本發(fā)明實施例提供的第二種第二聚類集合的示意圖;
[0022]圖2C(c)是本發(fā)明實施例提供的第三種第二聚類集合的示意圖;
[0023]圖3A是本發(fā)明實施例提供的一種社交賬號挖掘裝置結構示意圖;
[0024]圖3B是本發(fā)明實施例提供的一種第一確定模塊的結構示意圖;
[0025]圖3C是本發(fā)明實施例提供的一種第一聚類模塊的結構示意圖;
[0026]圖3D是本發(fā)明實施例提供的一種第二聚類模塊的結構示意圖;
[0027]圖4是本發(fā)明實施例提供的另一種社交賬號挖掘裝置結構示意圖。
【具體實施方式】
[0028]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方式作進一步地詳細描述。
[0029]圖1是本發(fā)明實施例提供的一種社交賬號挖掘方法的流程圖,參見圖1,該方法包括:
[0030]步驟101:將N個社交網絡群組進行聚類,得到η個第一聚類集合,該N個社交網絡群組中的每個社交網絡群組為在社交應用中將多個社交賬號組成的群組,該N和該η均大于或等于I,且該N大于或等于該η。
[0031]步驟102:將M個網絡地址群組進行聚類,得到m個第二聚類集合,該M個網絡地址群組中的每個網絡地址群組為通過同一地址信息登錄該社交應用的多個社交賬號組成的群組,該M和該m均大于或等于I,且該M大于或等于該m。
[0032]步驟103:對于該η個第一聚類集合中的每個第一聚類集合,基于該η個第一聚類集合包括的社交賬號之間的關系鏈、該m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0033]在本發(fā)明實施例中,服務器通過將該N個社交網絡群組進行聚類得到η個第一聚類集合,并通過將該M個社交網絡群組進行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,可以基于該η個第一聚類集合包括的社交賬號之間的關系鏈、m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與第一聚類集合包括的社交賬號之間的關系鏈,從m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,從而使服務器不需要通過對每個社交賬號進行擴展計算,就可以得到一個較大的關系網,并從該關系網中可以進行社交賬號的挖掘。同時,由于服務器通過第一聚類集合、第二聚類集合以及社交賬號之間的關系鏈進行社交賬號的挖掘,對社交賬號挖掘的準確度更高。并且在該社交賬號挖掘的過程中,該服務器只進行了第一聚類集合的獲取、第二聚類集合的獲取和根據關系鏈從m個第二聚類集合包括的社交賬號中,確定挖掘得到的社交賬號這3次計算過程,該挖掘社交賬號的計算量較小,計算次數也較少,從而提高了挖掘社交賬號的效率。
[0034]可選地,基于該η個第一聚類集合包括的社交賬號之間的關系鏈、該m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括:
[0035]計算該第一聚類集合分別與該m個第二聚類集合之間的相似度;
[0036]從該m個第二聚類集合中,選擇至少一個第二聚類集合,該至少一個第二聚類集合為與該第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合;
[0037]將該第一聚類集合分別與該至少一個第二聚類集合進行合并,得到至少一個第三聚類集合;
[0038]基于該至少一個第三聚類集合包括的社交賬號之間的關系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0039]可選地,基于該至少一個第三聚類集合包括的社交賬號之間的關系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括:
[0040]對于該至少一個第三聚類集合中的每個第三聚類集合,基于該第三聚類集合包括的社交賬號之間的關系鏈,確定該第三聚類集合中每個社交賬號的關聯(lián)系數,該每個社交賬號的關聯(lián)系數為與該每個社交賬號具有社交關系的社交賬號個數;
[0041]從該第三聚類集合中選擇關聯(lián)系數大于或等于系數閾值的社交賬號;
[0042]對于該第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與該社交賬號存在社交關系之外的社交賬號確定為對該社交賬號挖掘得到的社交賬號。
[0043]可選地,該將N個社交網絡群組進行聚類,得到η個第一聚類集合,包括:
[0044]將該N個社交網絡群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網絡群組;
[0045]將該η組中每組包括的至少兩個社交網絡群組進行合并,得到η個第一聚類集合。
[0046]可選地,該方法還包括:
[0047]在合并得到該η個第一聚類集合的過程中,對于該η個第一聚類集合中的每個第一聚類集合,對于構成該第一聚類集合的至少兩個社交網絡群組中的每個社交網絡群組,對該社交網絡群組與構成該第一聚類集合的至少兩個社交網絡群組中其他社交網絡群組之間存在相同社交賬號的個數進行統(tǒng)計,得到X個個數,X為該第一聚類集合中至少兩個社交網絡群組的個數減I;
[0048]將該X個個數進行相加,得到第一數值;
[0049]將該第一數值除以該社交網絡群組包括的社交賬號的個數,得到第二數值;
[0050]將該至少兩個社交網絡群組中第二數值最大的社交網絡群組的屬性信息確定為該第一聚類集合的屬性信息。
[0051 ]可選地,將M個網絡地址群組進行聚類,得到m個第二聚類集合,包括:
[0052]將該M個網絡地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網絡地址群組;
[0053]對于該m組中每組包括的至少兩個網絡地址群組進行合并,得到m個第二聚類集入口 ο
[0054]可選地,該方法還包括:
[0055]在合并得到該m個第二聚類集合的過程中,對于該m個第二聚類集合中的每個第二聚類集合,對于構成該第二聚類集合的至少兩個網絡地址群組中的每個網絡地址群組,對該網絡地址群組與構成該第二聚類集合的至少兩個網絡地址群組中其他網絡地址群組之間存在相同社交賬號的個數進行統(tǒng)計,得到Y個個數,Y為該第二聚類集合中至少兩個網絡地址群組的個數減I ;
[0056]將該Y個個數進行相加,得到第三數值;
[0057]將該第三數值除以該網絡地址群組包括的社交賬號的個數,得到第四數值;
[0058]將該構成該第一聚類集合的至少兩個網絡地址群組中第四數值最大的網絡地址群組的屬性信息確定為該第一聚類集合的屬性信息。
[0059]上述所有可選技術方案,均可按照任意結合形成本發(fā)明的可選技術方案,本發(fā)明實施例對此不再一一贅述。
[0060]圖2A是本發(fā)明實施例提供的一種社交賬號挖掘方法的流程圖,參見圖2A,該方法包括:
[0061 ]步驟201:服務器將N個社交網絡群組進行聚類,得到η個第一聚類集合,該N個社交網絡群組中的每個社交網絡群組為在社交應用中將多個社交賬號組成的群組,該N和η均大于或等于I,且該N大于或等于η。
[0062]具體地,服務器將該N個社交網絡群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網絡群組;將該η組中每組包括的至少兩個社交網絡群組進行合并,得到η個第一聚類集合。
[0063]比如,服務器將5個社交網絡群組進行聚類,該5個社交網絡群組分別為社交群組Al、社交群組B1、社交群組Cl、社交群組Dl和社交群組El,由于該社交群組Al、社交群組BI和社交群組Cl相互之間存在相同社交賬號,社交群組Dl和社交群組El之間存在相同社交賬號。因此,將社交群組Al、社交群組BI和社交群組Cl進行合并,得到第一聚類集合IDl,將該社交群組Dl和社交群組E進行合并,得到第二聚類ID2。
[0064]需要說明的是,服務器將該N個社交網絡群組進行聚類時,可以通過聚類算法將該N個社交網絡群組進行聚類,也可以通過其他方式將該N個社交網絡群組進行聚類,本發(fā)明實施例對此不做具體限定。
[0065]還需要說明的是,服務器通過聚類算法將該N個社交網絡群組進行聚類的操作可以參考相關技術,本發(fā)明實施例對此不再進行一一贅述。
[0066]其中,在合并得到該η個第一聚類集合的過程中,對于該η個第一聚類集合中的每個第一聚類集合,對于構成該第一聚類集合的至少兩個社交網絡群組中的每個社交網絡群組,服務器還可以對該社交網絡群組與構成該第一聚類集合的至少兩個社交網絡群組中其他社交網絡群組之間存在相同社交賬號的個數進行統(tǒng)計,得到X個個數,X為該第一聚類集合中至少兩個社交網絡群組的個數減I;并將該X個個數進行相加,得到第一數值;將該第一數值除以該社交網絡群組包括的社交賬號的個數,得到第二數值;將該至少兩個社交網絡群組中第二數值最大的社交網絡群組的屬性信息確定為該第一聚類集合的屬性信息。
[0067]需要說明的是,由于第二數值越大,證明該社交網絡群組中存在相同的社交賬號的個數越多,對該第一聚類集合的屬性信息的影響越大,因此,將該至少兩個社交網絡群組中第二數值最大的社交網絡群組的屬性信息確定為該第一聚類集合的屬性信息。
[0068]比如,對于構成第一聚類集合IDl中的社交網絡群組Al,該社交網絡群組Al中包括的社交賬號為10個,該社交網絡群組Al和社交網絡群組BI之間存在的相同社交賬號個數為4個,該社交網絡群組Al和社交網絡群組Cl之間存在的相同社交賬號個數為5個,將4和5相加得到第一數值9,將第一數值9除以社交網絡群組Al包括的社交賬號的個數10,得到第二數值0.9;對于構成第一聚類集合IDl中的社交網絡群組BI,該社交網絡群組BI中包括的社交賬號為8個,該社交網絡群組BI和社交網絡群組Al之間存在的相同社交賬號個數為4個,該社交網絡群組BI和社交網絡群組Cl之間存在的相同社交賬號個數為6個,將4和6相加得到第一數值10,將第一數值10除以社交網絡群組BI包括的社交賬號的個數8,得到第二數值1.25;對于構成第一聚類集合IDl中的社交網絡群組Cl,該社交網絡群組Cl中包括的社交賬號為20個,該社交網絡群組Cl和社交網絡群組Al之間存在的相同社交賬號個數為5個,該社交網絡群組Cl和社交網絡群組BI之間存在的相同社交賬號個數為6個,將5和6相加得到第一數值11,將第一數值11除以社交網絡群組Cl包括的社交賬號的個數20,得到第二數值0.55;其中,該第一聚類集合IDl中第二數值最大的社交網絡群組為社交網絡群組BI,因此,將該社交網絡群組BI的屬性信息確定為第一聚類集合IDl的屬性信息。
[0069]需要說明的是,屬性信息用于描述對應的社交網絡群組的屬性,比如,社交網絡群組A為同學群,則該社交網絡群組A的屬性信息為同學或老鄉(xiāng),本發(fā)明實施例對此不做具體限定。
[0070]還需要說明的是,對于該η個第一聚類集合中的每個第一聚類集合,對于構成該第一聚類集合的至少兩個社交網絡群組中的每個社交網絡群組,當該至少兩個社交網絡群組的第二數值均相同時,將該至少兩個社交網絡群組中的任一個社交網絡群組的屬性信息確定為該第一聚類集合的屬性信息。當然,還可以通過其他方式確定該第一聚類集合的屬性信息,本發(fā)明實施例對此不做具體限定。
[0071]另外,對于η個第一聚類集合中的每個第一聚類集合,該第一聚類集合可能包括多個社交網絡群組,也可能包括一個社交網絡群組,本發(fā)明實施例對此不做具體限定。
[0072]需要說明的是,當該第一聚類集合中只包括一個社交網絡群組時,可以直接將該社交網絡群組的屬性信息確定為該第一聚類集合的屬性信息,而無需通過上述的方法進行確定,可以減少計算量。
[0073]另外,在本發(fā)明實施例中,服務器可以將該N個社交網絡群組中的每個社交網絡群組作為一個節(jié)點,將該N個社交網絡群組轉化為η個網絡圖,從而便于對該η個網絡圖進行操作,降低了服務器的運行負擔。
[0074]比如,如圖2Β(a)所示,該節(jié)點Al為該社交網絡群組Al轉化為網絡圖后的節(jié)點,節(jié)點BI為該社交網絡群組BI轉換為網絡圖后的節(jié)點,該節(jié)點Cl為該社交網絡群組Cl轉化為網絡圖后的節(jié)點,該節(jié)點Al、節(jié)點BI和節(jié)點Cl構成一個第一聚類集合IDl。如圖2B(b),節(jié)點Dl為該社交網絡群組DI轉換為網絡圖后的節(jié)點,該節(jié)點EI為該社交網絡群組EI轉化為網絡圖后的節(jié)點,節(jié)點Dl和節(jié)點El構成另一個第一聚類集合ID2。
[0075]還需要說明的是,在本發(fā)明實施例中,服務器對步驟201和步驟202的執(zhí)行次序不分先后。也即是,在該服務器執(zhí)行上述步驟201的過程中,可以同時執(zhí)行下述步驟202的操作,或者,該服務器可以首先執(zhí)行上述步驟201的操作,然后繼續(xù)執(zhí)行下述步驟202的操作。當然,該服務器還可以首先執(zhí)行下述步驟202的操作,然后執(zhí)行上述步驟201的操作,本發(fā)明實施例對此不做具體限定。
[0076]步驟202:服務器將M個網絡地址群組進行聚類,得到m個第二聚類集合,該M個網絡地址群組中的每個網絡地址群組為通過同一地址信息登錄該社交應用的多個社交賬號組成的群組,該M和該m均大于或等于I,且該M大于或等于該m。
[OO77 ] 需要說明的是,該地址信息可以為接入點的MAC (Med i aAc ce s s Contrο I,媒體訪問控制)地址,也可以是其他地址,且該接入點可以為路由器等可以提供無線網絡的設備,該無線網絡可以為wifi(Wireless Fidelity,無線保真)等,本發(fā)明實施例對此不作具體限定。
[0078]其中,服務器將M個網絡地址群組進行聚類,得到m個第二聚類集合的操作可以為:將該M個網絡地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網絡地址群組;對于該m組中每組包括的至少兩個網絡地址群組進行合并,得到m個第二聚類集合。
[0079]比如,服務器將7個網絡地址群組進行聚類,該7個網絡地址群組分別為網絡地址群組A2、網絡地址群組B2、網絡地址群組C2、網絡地址群組D2、網絡地址群組E2、網絡地址群組F2和網絡地址群組G2,由于網絡地址群組A2、網絡地址群組B2和網絡地址群組D2之間存在相同的社交賬號,網絡地址群組C2和網絡地址群組E2之間存在相同的社交賬號,網絡地址群組F2和網絡地址群組G2之間存在相同的社交賬號。因此,將網絡地址群組A2、網絡地址群組B2和網絡地址群組C2進行合并,得到第二聚類集合IDl,將該網絡地址群組D2和網絡地址群組E2進行合并,得到第二聚類集合ID2,將該網絡地址群組F2和網絡地址群組G2進行合并,得到第三聚類集合ID3。
[0080]需要說明的是,服務器將該M個網絡地址群組進行聚類時,可以通過聚類算法將該M個網絡地址群組進行聚類,也可以通過其他方式將該M個網絡地址群組進行聚類,本發(fā)明實施例對此不做具體限定。
[0081]還需要說明的是,服務器通過聚類算法將該M個網絡地址群組進行聚類的操作可以參考相關技術,本發(fā)明實施例對此不再進行一一贅述。
[0082]其中,在合并得到該m個第二聚類集合的過程中,對于該m個第二聚類集合中的每個第二聚類集合,對于構成該第二聚類集合的至少兩個網絡地址群組中的每個網絡地址群組,服務器對該網絡地址群組與構成該第二聚類集合的至少兩個網絡地址群組中其他網絡地址群組之間存在相同社交賬號的個數進行統(tǒng)計,得到Y個個數,Y為該第二聚類集合中至少兩個網絡地址群組的個數減I;將該Y個個數進行相加,得到第三數值;并將該第三數值除以該網絡地址群組包括的社交賬號的個數,得到第四數值;將構成該第一聚類集合的至少兩個網絡地址群組中第四數值最大的網絡地址群組的屬性信息確定為該第一聚類集合的屬性信息。
[0083]需要說明的是,由于第四數值越大,證明該網絡地址群組中存在相同的社交賬號的個數越多,對該第二聚類集合的屬性信息的影響越大,因此,將該至少兩個網絡地址群組中第四數值最大的網絡地址群組的屬性信息確定為該第二聚類集合的屬性信息。
[0084]比如,對于構成第二聚類集合IDl中的網絡地址群組A2,該網絡地址群組A2中包括的社交賬號為15個,該網絡地址群組A2和網絡地址群組B2之間存在的相同社交賬號個數為10個,該網絡地址群組A2和網絡地址群組D2之間存在的相同社交賬號個數為5個,將10和5相加得到第三數值15,將第三數值15除以網絡地址群組A2包括的社交賬號的個數15,得到第四數值I;對于構成第二聚類集合IDl中的網絡地址群組B2,該網絡地址群組B2中包括的社交賬號為12個,該網絡地址群組B2和網絡地址群組A2之間存在的相同社交賬號個數為10個,該網絡地址群組B2和網絡地址群組D2之間存在的相同社交賬號個數為3個,將10和3相加得到第三數值13,將第三數值13除以網絡地址群組B包括的社交賬號的個數12,得到第四數值1.08;對于構成第二聚類集合IDl中的網絡地址群組D2,該網絡地址群組D2中包括的社交賬號為15個,該網絡地址群組D2和網絡地址群組A2之間存在的相同社交賬號個數為5個,該網絡地址群組D2和網絡地址群組B2之間存在的相同社交賬號個數為3個,將5和3相加得到第三數值8,將第三數值8除以網絡地址群組D2包括的社交賬號的個數15,得到第二數值0.53;其中,該第二聚類集合IDl中第四數值最大的網絡地址群組為網絡地址群組B2,因此,將該網絡地址群組B2的屬性信息確定為第二聚類集合IDl的屬性信息。
[0085]還需要說明的是,對于該M個第二聚類集合中的每個第二聚類集合,對于構成該第二聚類集合的至少兩個網絡地址群組中的每個網絡地址群組,當該至少兩個網絡地址群組的第四數值相同時,將該至少兩個網絡地址群組中的任一個網絡地址群組的屬性信息為該第二聚類集合的屬性信息。當然,還可以通過其他方式確定該第二聚類集合的屬性信息,本發(fā)明實施例對此不做具體限定。
[0086]另外,對于m個第二聚類集合中的每個第二聚類集合,該第二聚類集合可能包括多個網絡地址群組,也可能包括一個網絡地址群組,本發(fā)明實施例對此不做具體限定。
[0087]需要說明的是,當該第二聚類集合中只包括一個網絡地址群組時,可以直接將該網絡地址群組的屬性信息確定為該第二聚類集合的屬性信息,而無需通過上述的方法進行確定,可以減少計算量。
[0088]另外,在本發(fā)明實施例中,服務器同樣可以將該M個網絡地址群組中的每個網絡地址群組作為一個節(jié)點,并將該M個網絡地址群組轉化為m個網絡圖,從而便于對該m個網絡圖進行操作,降低了服務器的運行負擔。
[0089]比如,如圖2C(a)所示,該節(jié)點A2為該網絡地址群組A2轉化為網絡圖后的節(jié)點,節(jié)點B2為該網絡地址群組B2轉換為網絡圖后的節(jié)點,節(jié)點D2為該網絡地址群組D2轉換為網絡圖后的節(jié)點,該節(jié)點A2、節(jié)點B2和節(jié)點D2構成第一個第一聚類集合ID1。參見圖2C(b),該節(jié)點C2為該網絡地址群組C2轉化為網絡圖后的節(jié)點,該節(jié)點E2為該網絡地址群組E2轉化為網絡圖后的節(jié)點,節(jié)點C和節(jié)點E構成第二個第一聚類集合ID2。參見圖2C(c),節(jié)點F2為該網絡地址群組F2轉換為網絡圖后的節(jié)點,該節(jié)點G2為該網絡地址群組G2轉化為網絡圖后的節(jié)點。節(jié)點F2和節(jié)點G2構成第三個第一聚類集合ID2。
[0090]步驟203:對于該η個第一聚類集合中的每個第一聚類集合,服務器基于該η個第一聚類集合包括的社交賬號之間的關系鏈、該m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0091 ]具體地,對于該η個第一聚類集合中的每個第一聚類集合,服務器可以計算該第一聚類集合分別與該m個第二聚類集合之間的相似度;從該m個第二聚類集合中,選擇至少一個第二聚類集合,該至少一個第二聚類集合為與該第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合;將該第一聚類集合分別與該至少一個第二聚類集合進行合并,得到至少一個第三聚類集合;基于該至少一個第三聚類集合包括的社交賬號之間的關系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0092]其中,服務器計算該第一聚類集合分別與該m個第二聚類集合之間的相似度的操作可以為:對于該m個第二聚類集合中的每個第二聚類集合,獲取該第一聚類集合與該第二聚類集合之間存在的相同社交賬號的個數,得到第五數值,以及獲取該第一聚類集合包括的社交賬號和該第二聚類集合包括的社交賬號的總個數,將該總個數減去第五數值,得到第六數值,將第五數值除以第六數值,得到該第一聚類集合與該第二聚類集合之間的相似度。也即是,用第一聚類集合包括的社交賬號與第二聚類集合包括的社交賬號之間的交集除以第一聚類集合包括的社交賬號與第二聚類集合包括的社交賬號之間的并集,得到該第一聚類集合與該第二聚類集合之間的相似度。
[0093]需要說明的是,在本發(fā)明實施例中,服務器計算該第一聚類集合分別與該m個第二聚類集合之間的相速度的操作不僅可以包括上述方法,還可以包括其他方法,本發(fā)明實施例對此不做具體限定。
[0094]還需要說明的是,相似度閾值用于篩選可與第一聚類集合進行合并的第二聚類集合,且該相似度閾值可以事先設置,比如,該相似度閾值可以為0.4、0.5、0.6等,本發(fā)明實施例對此不做具體限定。
[0095]另外,在本發(fā)明實施例中,當該服務器獲取該至少一個第三聚類集合后,對于該至少一個第三聚類集合中的每個第三聚類集合,由于該第三聚類集合中可能包括一些與其他社交賬號只是臨時關系的社交賬號,比如當某一個用戶臨時通過某一地址信息登錄該社交應用,該用戶的社交賬號可能就與該地址信息對應的網絡地址群中的社交賬號為臨時關系。因此,該服務器可以基于該第三聚類集合包括的社交賬號之間的關系鏈,對該第三聚類集合中社交賬號之間的關系進行修正,從而從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0096]需要說明的是,在本發(fā)明實施例中,該臨時關系的社交賬號可以是為了進行一次合作而臨時加入的社交賬號,或者,通過路由器只進行一次臨時登錄的社交賬號等,本發(fā)明實施例對此不做具體限定。
[0097]其中,服務器基于該至少一個第三聚類集合包括的社交賬號之間的關系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號的操作可以為:對于該至少一個第三聚類集合中的每個第三聚類集合,基于該第三聚類集合包括的社交賬號之間的關系鏈,確定該第三聚類集合中每個社交賬號的關聯(lián)系數,該每個社交賬號的關聯(lián)系數為與該每個社交賬號具有社交關系的社交賬號個數;從該第三聚類集合中選擇關聯(lián)系數大于或等于系數閾值的社交賬號;對于該第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與該社交賬號存在社交關系之外的社交賬號確定為對該社交賬號挖掘得到的社交賬號。
[0098]需要說明的是,系數閾值用于從第三聚類集合中選擇出與其他社交賬號關系最少的社交賬號,且該系數閾值可以事先設置,比如該系數閾值可以為1、2等,本發(fā)明實施例對此不做具體限定。
[0099]由于服務器可以將該M個網絡地址群組和N個社交網絡群組轉化為網絡圖,同樣,服務器還可以將第三聚類集合中每個社交賬號作為節(jié)點,從而將該第三聚類集合轉換為網絡圖的形式,因此,該服務器可以從該網絡圖中確定每個社交賬號節(jié)點的度數,從而確定該第三聚類集合中每個社交賬號的關聯(lián)系數。
[0100]需要說明的是,度數在網絡圖中是指該網絡圖中任一節(jié)點的分支個數,由于該度數對應于本發(fā)明實施例中的關聯(lián)系數,因此,對于第三聚類集合中的每個社交賬號,該關聯(lián)系數是指與該社交賬號具有直接關系的其他社交賬號的個數。
[0101]另外,該服務器還可以通過該關聯(lián)系數,將關聯(lián)系數小于系數閾值的社交賬號從該第三聚類集合中濾除,從而保證了該第三聚類集合包括的社交賬號之間的關聯(lián)性。
[0102]還需要說明的是,在本發(fā)明實施例中,服務器不僅可以通過上述方式確定每個社交賬號的關聯(lián)系數,還可以通過其他的方式確定,本發(fā)明實施例對此不做具體限定。
[0103]再者,當該服務器獲取得到該至少一個第三聚類集合后,對于該至少一個第三聚類集合中的每個第三聚類集合,該服務器可以在指定時間段內對該第三聚類集合進行檢測,當第三聚類集合發(fā)生變化時,對該第三聚類集合進行更新。進一步地,該服務器還可以對該第三聚類集合進行檢測,當對該第三聚類集合的更新次數大于或等于指定更新次數時,停止對該第三聚類集合的檢測,本發(fā)明實施例對此不做具體限定。
[0104]由于該第三聚類集合是通過第一聚類集合和第二聚類集合合并構成,因此,當該第一聚類集合或第二聚類集合包括的社交賬號發(fā)生變化時,都可以認為該第三聚類集合發(fā)生變化。當然,在實際應用中,還可以通過其他方式判斷該第三聚類集合是否發(fā)生變化,本發(fā)明實施例對此不做具體限定。
[0105]需要說明的是,指定時間段用于限制服務器更新第三聚類集合的更新時間,且該指定時間段可以事先設置,比如,該指定時間段可以為I小時、2小時等,本發(fā)明實施例對此不做具體限定。
[0106]還需要說明的是,指定次數用于限制服務器更新第三聚類集合的更新次數,且該指定更新次數同樣可以事先設置,比如,該指定更新次數可以為5次10次等,本發(fā)明實施例對此不做具體限定。
[0107]進一步地,當該服務器將該第一聚類集合分別與該至少一個第二聚類集合進行合并,得到至少一個第三聚類集合之后,對于該至少一個第三聚類集合中的每個第三聚類集合,該服務器可以通過LDA(Latent Dirichlet Allocat1n,文檔主題生成模塊)確定該第三聚類集合的屬性信息。
[0108]其中,由于在構成第一聚類集合和第二聚類集合的過程中已經取得了該第一聚類集合和第二聚類集合的屬性信息,因此,該服務器可以獲取構成該第三聚類集合的第一聚類集合的屬性信息以及第二聚類集合的屬性信息,通過LDA對該第一聚類集合的屬性信息和第二聚類集合的屬性信息進行聚類分析,從而確定該第三聚類集合的屬性信息。
[0109]需要說明的是,服務器可以通過LDA確定該第三聚類集合的屬性信息,也可以通過其他方式確定,本發(fā)明實施例對此不做具體限定。
[0110]另外,在本發(fā)明實施例中,服務器還可以在通過N個社交網絡群組進行聚類得到η個第一聚類集合,并通過M個網絡地址群組進行聚類得到m個第二聚類集合時,不確定該η個第一聚類集合和m個第二聚類集合的屬性信息,而是在服務器確定該至少一個第三聚類集合后,通過LDA對該第三聚類集合中包括的多個社交網絡群組和多個網絡地址群組的屬性信息進行聚類分析,從而確定該第三聚類集合的屬性信息。
[0111]在本發(fā)明實施例中,服務器通過將該N個社交網絡群組進行聚類得到η個第一聚類集合,并通過將該M個社交網絡群組進行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,通過計算該第一聚類集合分別與該m個第二聚類集合之間的相似度,從而選擇與第一聚類集合之間的相似度大于相似度閾值的至少一個第二聚類集合,將該至少一個第二聚類集合分別與該第一聚類集合進行合并,得到至少一個第三聚類集合,從而提高了第三聚類集合中多個社交賬號之間的關聯(lián)性,同時,由于將該第一聚類集合和第二聚類集合進行合并得到第三聚類集合的計算量較小,計算次數也較少,從而提高了獲取至少一個第三聚類集合的效率,并且根據該第三聚類集合包括的社交賬號之間的關系鏈,可以進行賬號的挖掘,進而提高了挖掘社交賬號的效率。
[0112]圖3A是本發(fā)明實施例提供的一種社交賬號挖掘裝置的結構示意圖,參見圖3A,該裝置包括:第一聚類模塊301、第二聚類模塊302和第三聚類模塊303。
[0113]第一聚類模塊301,用于將N個社交網絡群組進行聚類,得到η個第一聚類集合,該N個社交網絡群組中的每個社交網絡群組為在社交應用中將多個社交賬號組成的群組,該N和該η均大于或等于I,且該N大于或等于該η。
[0114]第二聚類模塊302,用于將M個網絡地址群組進行聚類,得到m個第二聚類集合,該M個網絡地址群組中的每個網絡地址群組為通過同一地址信息登錄該社交應用的多個社交賬號組成的群組,該M和該m均大于或等于I,且該M大于或等于該m。
[0115]第一確定模塊303,用于對于該η個第一聚類集合中的每個第一聚類集合,基于該η個第一聚類集合包括的社交賬號之間的關系鏈、該m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0116]可選地,參見圖3B,該第一確定模塊303包括:
[0117]計算單元3031,用于計算該第一聚類集合分別與該m個第二聚類集合之間的相似度;
[0118]選擇單元3032,用于從該m個第二聚類集合中,選擇至少一個第二聚類集合,該至少一個第二聚類集合為與該第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合;
[0119]第一合并單元3033,用于將該第一聚類集合分別與該至少一個第二聚類集合進行合并,得到至少一個第三聚類集合;
[0120]確定單元3034,用于基于該至少一個第三聚類集合包括的社交賬號之間的關系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0121]可選地,該確定單元3034包括:
[0122]第一確定子單元30341,用于對于該至少一個第三聚類集合中的每個第三聚類集合,基于該第三聚類集合包括的社交賬號之間的關系鏈,確定該第三聚類集合中每個社交賬號的關聯(lián)系數,該每個社交賬號的關聯(lián)系數為與該每個社交賬號具有社交關系的社交賬號個數;
[0123]選擇子單元30342,用于從該第三聚類集合中選擇關聯(lián)系數大于或等于系數閾值的社交賬號;
[0124]第二確定子單元30343,用于對于該第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與該社交賬號存在社交關系之外的社交賬號確定為對該社交賬號挖掘得到的社交賬號。
[0125]可選地,參見圖3C,該第一聚類模塊301包括:
[0126]第一劃分單元3011,用于將該N個社交網絡群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網絡群組;
[0127]第二合并單元3012,用于將該η組中每組包括的至少兩個社交網絡群組進行合并,得到η個第一聚類集合。
[0128]可選地,該裝置還包括:
[0129]第一統(tǒng)計模塊304,用于在合并得到該η個第一聚類集合的過程中,對于該η個第一聚類集合中的每個第一聚類集合,對于構成該第一聚類集合的至少兩個社交網絡群組中的每個社交網絡群組,對該社交網絡群組與構成該第一聚類集合的至少兩個社交網絡群組中其他社交網絡群組之間存在相同社交賬號的個數進行統(tǒng)計,得到X個個數,X為該第一聚類集合中至少兩個社交網絡群組的個數減I;
[0130]第一計算模塊305,用于將該X個個數進行相加,得到第一數值;
[0131]第二計算模塊,用于將該第一數值除以該社交網絡群組包括的社交賬號的個數,得到第二數值;
[0132]第二確定模塊306,用于將該至少兩個社交網絡群組中第二數值最大的社交網絡群組的屬性信息確定為該第一聚類集合的屬性信息。
[0133]可選地,參見圖3D,該第二聚類模塊302包括:
[0134]第二劃分單元3021,用于將該M個網絡地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網絡地址群組;
[0135]第三合并單元3022,用于對于該m組中每組包括的至少兩個網絡地址群組進行合并,得到m個第二聚類集合。
[0136]可選地,該裝置還包括:
[0137]第二統(tǒng)計模塊307,用于在合并得到該m個第二聚類集合的過程中,對于該m個第二聚類集合中的每個第二聚類集合,對于構成該第二聚類集合的至少兩個網絡地址群組中的每個網絡地址群組,對該網絡地址群組與構成該第二聚類集合的至少兩個網絡地址群組中其他網絡地址群組之間存在相同社交賬號的個數進行統(tǒng)計,得到Y個個數,Y為該第二聚類集合中至少兩個網絡地址群組的個數減I;
[0138]第三計算模塊308,用于將該Y個個數進行相加,得到第三數值;
[0139]第四計算模塊309,將該第三數值除以該網絡地址群組包括的社交賬號的個數,得到第四數值;
[0140]第三確定模塊310,用于將該構成該第一聚類集合的至少兩個網絡地址群組中第四數值最大的網絡地址群組的屬性信息確定為該第一聚類集合的屬性信息。
[0141]綜上所述,在本發(fā)明實施例中,服務器通過將該N個社交網絡群組進行聚類得到η個第一聚類集合,并通過將該M個社交網絡群組進行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,通過計算該第一聚類集合分別與該m個第二聚類集合之間的相似度,從而選擇與第一聚類集合之間的相似度大于相似度閾值的至少一個第二聚類集合,將該至少一個第二聚類集合分別與該第一聚類集合進行合并,得到至少一個第三聚類集合,從而提高了第三聚類集合中多個社交賬號之間的關聯(lián)性,同時,由于將該第一聚類集合和第二聚類集合進行合并得到第三聚類集合的計算量較小,計算次數也較少,從而提高了獲取至少一個第三聚類集合的效率,并且根據該第三聚類集合包括的社交賬號之間的關系鏈,可以進行賬號的挖掘,進而提高了挖掘社交賬號的效率。
[0142]圖4是本發(fā)明實施例提供的一種社交賬號挖掘裝置的服務器結構示意圖。該服務器可以是后臺服務器集群中的服務器。具體來講:
[0143]服務器400包括中央處理單元(CPU)401、包括隨機存取存儲器(RAM)402和只讀存儲器(R0M)403的系統(tǒng)存儲器404,以及連接系統(tǒng)存儲器404和中央處理單元401的系統(tǒng)總線405。服務器400還包括幫助計算機內的各個器件之間傳輸信息的基本輸入/輸出系統(tǒng)(I/O系統(tǒng))406,和用于存儲操作系統(tǒng)413、應用程序414和其他程序模塊415的大容量存儲設備407。
[0144]基本輸入/輸出系統(tǒng)406包括有用于顯示信息的顯示器408和用于用戶輸入信息的諸如鼠標、鍵盤之類的輸入設備409。其中顯示器408和輸入設備409都通過連接到系統(tǒng)總線405的輸入輸出控制器410連接到中央處理單元401?;据斎?輸出系統(tǒng)406還可以包括輸入輸出控制器410以用于接收和處理來自鍵盤、鼠標、或電子觸控筆等多個其他設備的輸入。類似地,輸入輸出控制器410還提供輸出到顯示屏、打印機或其他類型的輸出設備。
[0145]大容量存儲設備407通過連接到系統(tǒng)總線405的大容量存儲控制器(未示出)連接到中央處理單元401。大容量存儲設備407及其相關聯(lián)的計算機可讀介質為服務器400提供非易失性存儲。也就是說,大容量存儲設備407可以包括諸如硬盤或者CD-ROM驅動器之類的計算機可讀介質(未示出)。
[0146]不失一般性,計算機可讀介質可以包括計算機存儲介質和通信介質。計算機存儲介質包括以用于存儲諸如計算機可讀指令、數據結構、程序模塊或其他數據等信息的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質。計算機存儲介質包括RAM、R0M、EPR0M、EEPR0M、閃存或其他固態(tài)存儲其技術,CD-R0M、DVD或其他光學存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設備。當然,本領域技術人員可知計算機存儲介質不局限于上述幾種。上述的系統(tǒng)存儲器404和大容量存儲設備407可以統(tǒng)稱為存儲器。
[0147]根據本發(fā)明的各種實施例,服務器400還可以通過諸如因特網等網絡連接到網絡上的遠程計算機運行。也即服務器400可以通過連接在系統(tǒng)總線405上的網絡接口單元411連接到網絡412,或者說,也可以使用網絡接口單元411來連接到其他類型的網絡或遠程計算機系統(tǒng)(未示出)。
[0148]上述存儲器還包括一個或者一個以上的程序,一個或者一個以上程序存儲于存儲器中,被配置由CPU執(zhí)行。所述一個或者一個以上程序包含用于進行本發(fā)明實施例提供的如下所述的社交賬號挖掘方法的指令,包括:
[0149]將N個社交網絡群組進行聚類,得到η個第一聚類集合,該N個社交網絡群組中的每個社交網絡群組為在社交應用中將多個社交賬號組成的群組,該N和該η均大于或等于1,且該N大于或等于該η。
[0150]將M個網絡地址群組進行聚類,得到m個第二聚類集合,該M個網絡地址群組中的每個網絡地址群組為通過同一地址信息登錄該社交應用的多個社交賬號組成的群組,該M和該m均大于或等于I,且該M大于或等于該m。
[0151]對于該η個第一聚類集合中的每個第一聚類集合,基于該m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0152]可選地,基于該m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括:
[0153]計算該第一聚類集合分別與該m個第二聚類集合之間的相似度;
[0154]從該m個第二聚類集合中,選擇至少一個第二聚類集合,該至少一個第二聚類集合為與該第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合;
[0155]將該第一聚類集合分別與該至少一個第二聚類集合進行合并,得到至少一個第三聚類集合;
[0156]基于該至少一個第三聚類集合包括的社交賬號之間的關系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0157]可選地,基于該至少一個第三聚類集合包括的社交賬號之間的關系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括:
[0158]對于該至少一個第三聚類集合中的每個第三聚類集合,基于該第三聚類集合包括的社交賬號之間的關系鏈,確定該第三聚類集合中每個社交賬號的關聯(lián)系數,該每個社交賬號的關聯(lián)系數為與該每個社交賬號具有社交關系的社交賬號個數;
[0159]從該第三聚類集合中選擇關聯(lián)系數大于或等于系數閾值的社交賬號;
[0160]對于該第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與該社交賬號存在社交關系之外的社交賬號確定為對該社交賬號挖掘得到的社交賬號。
[0161 ]可選地,將N個社交網絡群組進行聚類,得到η個第一聚類集合,包括:
[0162]將該N個社交網絡群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網絡群組;
[0163]將該η組中每組包括的至少兩個社交網絡群組進行合并,得到η個第一聚類集合。
[0164]可選地,該方法還包括:
[0165]在合并得到該η個第一聚類集合的過程中,對于該η個第一聚類集合中的每個第一聚類集合,對于構成該第一聚類集合的至少兩個社交網絡群組中的每個社交網絡群組,對該社交網絡群組與構成該第一聚類集合的至少兩個社交網絡群組中其他社交網絡群組之間存在相同社交賬號的個數進行統(tǒng)計,得到X個數值;
[0166]將該X個數值進行相加,得到第一數值;
[0167]將該第一數值除以該社交網絡群組包括的社交賬號的個數,得到第二數值;
[0168]將該至少兩個社交網絡群組中第二數值最大的社交網絡群組的屬性信息確定為該第一聚類集合的屬性信息。
[0169]可選地,將M個網絡地址群組進行聚類,得到m個第二聚類集合,包括:
[0170]將該M個網絡地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網絡地址群組;
[0171]對于該m組中每組包括的至少兩個網絡地址群組進行合并,得到m個第二聚類集入口 ο
[0172]可選地,該方法還包括:
[0173]在合并得到該m個第二聚類集合的過程中,對于該m個第二聚類集合中的每個第二聚類集合,對于構成該第二聚類集合的至少兩個網絡地址群組中的每個網絡地址群組,對該網絡地址群組與構成該第二聚類集合的至少兩個網絡地址群組中其他網絡地址群組之間存在相同社交賬號的個數進行統(tǒng)計,得到Y個數值;
[0174]將該Y個數值進行相加,得到第三數值;
[0175]將該第三數值除以該網絡地址群組包括的社交賬號的個數,得到第四數值;
[0176]將該構成該第一聚類集合的至少兩個網絡地址群組中第四數值最大的網絡地址群組的屬性信息確定為該第一聚類集合的屬性信息。
[0177]在本發(fā)明實施例中,服務器通過將該N個社交網絡群組進行聚類得到η個第一聚類集合,并通過將該M個社交網絡群組進行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,可以基于η個第一聚類集合包括的社交賬號之間的關系鏈、m個第二聚類集合包括的社交賬號之間的關系鏈和該m個第二聚類集合包括的社交賬號與第一聚類集合包括的社交賬號之間的關系鏈,從m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,從而使服務器不需要通過對每個社交賬號進行擴展計算,就可以得到一個較大的關系網,并從該關系網中可以進行社交賬號的挖掘。同時,由于服務器通過第一聚類集合、第二聚類集合以及社交賬號之間的關系鏈進行社交賬號的挖掘,對社交賬號挖掘的準確度更高。并且在該社交賬號挖掘的過程中,該服務器只進行了第一聚類集合的獲取、第二聚類集合的獲取和根據關系鏈從m個第二聚類集合包括的社交賬號中,確定挖掘得到的社交賬號這3次計算過程,該挖掘社交賬號的計算量較小,計算次數也較少,從而提高了挖掘社交賬號的效率。
[0178]需要說明的是:上述實施例提供的社交賬號挖掘裝置在挖掘社交賬號時,僅以上述各功能模塊的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分配由不同的功能模塊完成,即將裝置的內部結構劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的社交賬號挖掘裝置與社交賬號挖掘方法實施例屬于同一構思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。
[0179]本領域普通技術人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
[0180]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【主權項】
1.一種社交賬號挖掘方法,其特征在于,所述方法包括: 將N個社交網絡群組進行聚類,得到η個第一聚類集合,所述N個社交網絡群組中的每個社交網絡群組為在社交應用中將多個社交賬號組成的群組,所述N和所述η均大于或等于I,且所述N大于或等于所述η; 將M個網絡地址群組進行聚類,得到m個第二聚類集合,所述M個網絡地址群組中的每個網絡地址群組為通過同一地址信息登錄所述社交應用的多個社交賬號組成的群組,所述M和所述m均大于或等于I,且所述M大于或等于所述m; 對于所述η個第一聚類集合中的每個第一聚類集合,基于所述η個第一聚類集合包括的社交賬號之間的關系鏈、所述m個第二聚類集合包括的社交賬號之間的關系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。2.如權利要求1所述的方法,其特征在于,所述所述η個第一聚類集合包括的社交賬號之間的關系鏈、基于所述m個第二聚類集合包括的社交賬號之間的關系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括: 計算所述第一聚類集合分別與所述m個第二聚類集合之間的相似度; 從所述m個第二聚類集合中,選擇至少一個第二聚類集合,所述至少一個第二聚類集合為與所述第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合; 將所述第一聚類集合分別與所述至少一個第二聚類集合進行合并,得到至少一個第三聚類集合; 基于所述至少一個第三聚類集合包括的社交賬號之間的關系鏈,從所述至少一個第三聚類集合中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。3.如權利要求2所述的方法,其特征在于,所述基于所述至少一個第三聚類集合包括的社交賬號之間的關系鏈,從所述至少一個第三聚類集合中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括: 對于所述至少一個第三聚類集合中的每個第三聚類集合,基于所述第三聚類集合包括的社交賬號之間的關系鏈,確定所述第三聚類集合中每個社交賬號的關聯(lián)系數,所述每個社交賬號的關聯(lián)系數為與所述每個社交賬號具有社交關系的社交賬號個數; 從所述第三聚類集合中選擇關聯(lián)系數大于或等于系數閾值的社交賬號; 對于所述第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與所述社交賬號存在社交關系之外的社交賬號確定為對所述社交賬號挖掘得到的社交賬號。4.如權利要求1所述的方法,其特征在于,所述將N個社交網絡群組進行聚類,得到η個第一聚類集合,包括: 將所述N個社交網絡群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網絡群組; 將所述η組中每組包括的至少兩個社交網絡群組進行合并,得到η個第一聚類集合。5.如權利要求4所述的方法,其特征在于,所述方法還包括: 在合并得到所述η個第一聚類集合的過程中,對于所述η個第一聚類集合中的每個第一聚類集合,對于構成所述第一聚類集合的至少兩個社交網絡群組中的每個社交網絡群組,對所述社交網絡群組與構成所述第一聚類集合的至少兩個社交網絡群組中其他社交網絡群組之間存在相同社交賬號的個數進行統(tǒng)計,得到X個個數,所述X為所述第一聚類集合中至少兩個社交網絡群組的個數減I; 將所述X個個數進行相加,得到第一數值; 將所述第一數值除以所述社交網絡群組包括的社交賬號的個數,得到第二數值; 將所述至少兩個社交網絡群組中第二數值最大的社交網絡群組的屬性信息確定為所述第一聚類集合的屬性信息。6.如權利要求1所述的方法,其特征在于,所述將M個網絡地址群組進行聚類,得到m個第二聚類集合,包括: 將所述M個網絡地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網絡地址群組; 對于所述m組中每組包括的至少兩個網絡地址群組進行合并,得到m個第二聚類集合。7.如權利要求6所述的方法,其特征在于,所述方法還包括: 在合并得到所述m個第二聚類集合的過程中,對于所述m個第二聚類集合中的每個第二聚類集合,對于構成所述第二聚類集合的至少兩個網絡地址群組中的每個網絡地址群組,對所述網絡地址群組與構成所述第二聚類集合的至少兩個網絡地址群組中其他網絡地址群組之間存在相同社交賬號的個數進行統(tǒng)計,得到Y個個數,所述Y為所述第二聚類集合中至少兩個網絡地址群組的個數減I; 將所述Y個個數進行相加,得到第三數值; 將所述第三數值除以所述網絡地址群組包括的社交賬號的個數,得到第四數值; 將所述構成所述第一聚類集合的至少兩個網絡地址群組中第四數值最大的網絡地址群組的屬性信息確定為所述第一聚類集合的屬性信息。8.一種社交賬號挖掘裝置,其特征在于,所述裝置包括: 第一聚類模塊,用于將N個社交網絡群組進行聚類,得到η個第一聚類集合,所述N個社交網絡群組中的每個社交網絡群組為在社交應用中將多個社交賬號組成的群組,所述N和所述η均大于或等于I,且所述N大于或等于所述η; 第二聚類模塊,用于將M個網絡地址群組進行聚類,得到m個第二聚類集合,所述M個網絡地址群組中的每個網絡地址群組為通過同一地址信息登錄所述社交應用的多個社交賬號組成的群組,所述M和所述m均大于或等于I,且所述M大于或等于所述m; 第一確定模塊,用于對于所述η個第一聚類集合中的每個第一聚類集合,基于所述η個第一聚類集合包括的社交賬號之間的關系鏈、所述m個第二聚類集合包括的社交賬號之間的關系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。9.如權利要求8所述的方法,其特征在于,所述第一確定模塊包括: 計算單元,用于計算所述第一聚類集合分別與所述m個第二聚類集合之間的相似度; 選擇單元,用于從所述m個第二聚類集合中,選擇至少一個第二聚類集合,所述至少一個第二聚類集合為與所述第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合; 第一合并單元,用于將所述第一聚類集合分別與所述至少一個第二聚類集合進行合并,得到至少一個第三聚類集合;確定單元,用于基于所述至少一個第三聚類集合包括的社交賬號之間的關系鏈,從所述至少一個第三聚類集合中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。10.如權利要求9所述的裝置,其特征在于,所述確定單元包括: 第一確定子單元,用于對于所述至少一個第三聚類集合中的每個第三聚類集合,基于所述第三聚類集合包括的社交賬號之間的關系鏈,確定所述第三聚類集合中每個社交賬號的關聯(lián)系數,所述每個社交賬號的關聯(lián)系數為與所述每個社交賬號具有社交關系的社交賬號個數; 選擇子單元,用于從所述第三聚類集合中選擇關聯(lián)系數大于或等于系數閾值的社交賬號; 第二確定子單元,用于對于所述第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與所述社交賬號存在社交關系之外的社交賬號確定為對所述社交賬號挖掘得到的社交賬號。11.如權利要求8所述的裝置,其特征在于,所述第一聚類模塊包括: 第一劃分單元,用于將所述N個社交網絡群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網絡群組; 第二合并單元,用于將所述η組中每組包括的至少兩個社交網絡群組進行合并,得到η個第一聚類集合。12.如權利要求11所述的裝置,其特征在于,所述裝置還包括: 第一統(tǒng)計模塊,用于在合并得到所述η個第一聚類集合的過程中,對于所述η個第一聚類集合中的每個第一聚類集合,對于構成所述第一聚類集合的至少兩個社交網絡群組中的每個社交網絡群組,對所述社交網絡群組與構成所述第一聚類集合的至少兩個社交網絡群組中其他社交網絡群組之間存在相同社交賬號的個數進行統(tǒng)計,得到X個個數,所述X為所述第一聚類集合中至少兩個社交網絡群組的個數減I; 第一計算模塊,用于將所述X個個數進行相加,得到第一數值; 第二計算模塊,用于將所述第一數值除以所述社交網絡群組包括的社交賬號的個數,得到第二數值; 第二確定模塊,用于將所述至少兩個社交網絡群組中第二數值最大的社交網絡群組的屬性信息確定為所述第一聚類集合的屬性信息。13.如權利要求8所述的裝置,其特征在于,所述第二聚類模塊包括: 第二劃分單元,用于將所述M個網絡地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網絡地址群組; 第三合并單元,用于對于所述m組中每組包括的至少兩個網絡地址群組進行合并,得到m個第二聚類集合。14.如權利要求13所述的裝置,其特征在于,所述裝置還包括: 第二統(tǒng)計模塊,用于在合并得到所述m個第二聚類集合的過程中,對于所述m個第二聚類集合中的每個第二聚類集合,對于構成所述第二聚類集合的至少兩個網絡地址群組中的每個網絡地址群組,對所述網絡地址群組與構成所述第二聚類集合的至少兩個網絡地址群組中其他網絡地址群組之間存在相同社交賬號的個數進行統(tǒng)計,得到Y個個數,所述Y為所述第二聚類集合中至少兩個網絡地址群組的個數減I; 第三計算模塊,用于將所述Y個個數進行相加,得到第三數值; 第四計算模塊,將所述第三數值除以所述網絡地址群組包括的社交賬號的個數,得到第四數值; 第三確定模塊,用于將所述構成所述第一聚類集合的至少兩個網絡地址群組中第四數值最大的網絡地址群組的屬性信息確定為所述第一聚類集合的屬性信息。
【文檔編號】G06K9/62GK106095843SQ201610387718
【公開日】2016年11月9日
【申請日】2016年6月2日 公開號201610387718.X, CN 106095843 A, CN 106095843A, CN 201610387718, CN-A-106095843, CN106095843 A, CN106095843A, CN201610387718, CN201610387718.X
【發(fā)明人】李霖, 陳謙, 陳培炫
【申請人】騰訊科技(深圳)有限公司