一種挖掘知識(shí)圖譜的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種挖掘知識(shí)圖譜的方法及裝置,屬于計(jì)算機(jī)領(lǐng)域。所述方法包括:根據(jù)社區(qū)用戶的社區(qū)原始數(shù)據(jù)、所述社區(qū)用戶的用戶屬性、所述社區(qū)用戶屬于的主題論壇或所述社區(qū)用戶屬于的即時(shí)通信工作的聊天群,對(duì)所述社區(qū)用戶進(jìn)行聚類并形成社區(qū)用戶圈子,所述社區(qū)原始數(shù)據(jù)包括所述社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度信息和所述社區(qū)用戶與所述其他社區(qū)用戶共同關(guān)注的話題個(gè)數(shù);根據(jù)所述社區(qū)用戶圈子包括的社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng)建所述社區(qū)用戶圈子的知識(shí)圖譜。所述裝置包括:聚類模塊和創(chuàng)建模塊。本發(fā)明能夠提高搜索關(guān)聯(lián)詞匯的精度。
【專利說(shuō)明】一種挖掘知識(shí)圖譜的方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,特別涉及一種挖掘知識(shí)圖譜的方法及裝置。
【背景技術(shù)】
[0002] 隨著搜索引擎技術(shù)的快速發(fā)展,目前搜索引擎中出現(xiàn)了知識(shí)圖譜,用戶在搜索引 擎中輸入關(guān)鍵詞,搜索引擎根據(jù)該關(guān)鍵詞從知識(shí)圖譜中搜索出與該關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)詞 匯給用戶。
[0003] 其中,事先需要挖掘知識(shí)圖譜來(lái)供搜索引擎使用,目前現(xiàn)有技術(shù)的提供了一種挖 掘知識(shí)圖譜的方法,可以為:對(duì)文獻(xiàn)庫(kù)中包括的每篇文獻(xiàn)進(jìn)行分析,分析出文獻(xiàn)中包括的各 詞匯之間的關(guān)聯(lián)性,根據(jù)各詞匯之間的關(guān)聯(lián)性構(gòu)建一個(gè)知識(shí)圖譜。如此,當(dāng)用戶向搜索引擎 輸入一個(gè)關(guān)鍵詞時(shí),搜索引擎會(huì)從該知識(shí)圖譜中搜索出該關(guān)鍵詞的關(guān)聯(lián)詞匯。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題:
[0005] 不同詞匯在不同的人群中具有的含義可能不同,某人群的用戶搜索出的關(guān)聯(lián)詞匯 更希望搜索出的是該人群對(duì)應(yīng)的詞匯,而目前該人群的對(duì)應(yīng)的詞匯都沉沒在搜索的大量關(guān) 聯(lián)詞匯中,搜索關(guān)聯(lián)詞匯的精度不高。
【發(fā)明內(nèi)容】
[0006] 為了提高搜索關(guān)聯(lián)詞匯的精度,本發(fā)明提供了一種挖掘知識(shí)圖方法及裝置。所述 技術(shù)方案如下:
[0007] -種挖掘知識(shí)圖譜的方法,所述方法包括:
[0008] 根據(jù)社區(qū)用戶的社區(qū)原始數(shù)據(jù)、所述社區(qū)用戶的用戶屬性、所述社區(qū)用戶屬于的 主題論壇或所述社區(qū)用戶屬于的即時(shí)通信工作的聊天群,對(duì)所述社區(qū)用戶進(jìn)行聚類并形成 社區(qū)用戶圈子,所述社區(qū)原始數(shù)據(jù)包括所述社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度信息和所述 社區(qū)用戶與所述其他社區(qū)用戶共同關(guān)注的話題個(gè)數(shù);
[0009] 根據(jù)所述社區(qū)用戶圈子包括的社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng)建所述社區(qū)用戶 圈子的知識(shí)圖譜。
[0010] 一種挖掘知識(shí)圖譜的裝置,所述裝置包括:
[0011] 聚類模塊,用根據(jù)社區(qū)用戶的社區(qū)原始數(shù)據(jù)、所述社區(qū)用戶的用戶屬性、所述社區(qū) 用戶屬于的主題論壇或所述社區(qū)用戶屬于的即時(shí)通信工作的聊天群,對(duì)所述社區(qū)用戶進(jìn)行 聚類并形成社區(qū)用戶圈子,所述社區(qū)原始數(shù)據(jù)包括所述社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度 信息和所述社區(qū)用戶與所述其他社區(qū)用戶共同關(guān)注的話題個(gè)數(shù);
[0012] 創(chuàng)建模塊,用于根據(jù)所述社區(qū)用戶圈子包括的社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng) 建所述社區(qū)用戶圈子的知識(shí)圖譜。
[0013] 在本發(fā)明實(shí)施例中,根據(jù)該社區(qū)用戶的社區(qū)原始數(shù)據(jù)、用戶屬性、屬于的主題論壇 或?qū)儆诘募磿r(shí)通信工作的聊天群,對(duì)該社區(qū)用戶進(jìn)行聚類并形成社區(qū)用戶圈子,根據(jù)該社 區(qū)用戶圈子包括的社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng)建該社區(qū)用戶圈子的知識(shí)圖譜。如此, 當(dāng)某一社區(qū)用戶圈子的社區(qū)用戶需要搜索關(guān)鍵詞的關(guān)聯(lián)詞匯時(shí),可以到該社區(qū)用戶圈子對(duì) 應(yīng)的知識(shí)圖譜中搜索出該社區(qū)用戶圈子對(duì)應(yīng)的關(guān)聯(lián)詞匯,提高搜索關(guān)聯(lián)詞匯的精度。
【專利附圖】
【附圖說(shuō)明】
[0014] 圖1是本發(fā)明實(shí)施例1提供的一種挖掘知識(shí)圖譜的方法流程圖;
[0015] 圖2是本發(fā)明實(shí)施例2提供的一種挖掘知識(shí)圖譜的方法流程圖;
[0016] 圖3是本發(fā)明實(shí)施例3提供的一種挖掘知識(shí)圖譜的方法流程圖;
[0017] 圖4是本發(fā)明實(shí)施例4提供的一種挖掘知識(shí)圖譜的裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0018] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
[0019] 實(shí)施例1
[0020] 參見圖1,本發(fā)明實(shí)施例提供了一種挖掘知識(shí)圖譜的方法,包括:
[0021] 步驟101 :根據(jù)社區(qū)用戶的社區(qū)原始數(shù)據(jù)、社區(qū)用戶的用戶屬性、社區(qū)用戶屬于的 主題論壇或社區(qū)用戶屬于的即時(shí)通信工作的聊天群,對(duì)社區(qū)用戶進(jìn)行聚類并形成社區(qū)用戶 圈子;
[0022] 其中,該社區(qū)原始數(shù)據(jù)包括社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度信息和該社區(qū)用戶 與其他社區(qū)用戶共同關(guān)注的話題個(gè)數(shù)。
[0023] 步驟102 :根據(jù)該社區(qū)用戶圈子包括的社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng)建該社 區(qū)用戶圈子的知識(shí)圖譜。
[0024] 在本發(fā)明實(shí)施例中,根據(jù)社區(qū)用戶的社區(qū)原始數(shù)據(jù)、用戶屬性、屬于的主題論壇或 屬于的即時(shí)通信工作的聊天群,對(duì)社區(qū)用戶進(jìn)行聚類并形成社區(qū)用戶圈子,根據(jù)該社區(qū)用 戶圈子包括的社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng)建該社區(qū)用戶圈子的知識(shí)圖譜。如此,當(dāng)某 一社區(qū)用戶圈子的社區(qū)用戶需要搜索關(guān)鍵詞的關(guān)聯(lián)詞匯時(shí),可以到該社區(qū)用戶圈子對(duì)應(yīng)的 知識(shí)圖譜中搜索出該社區(qū)用戶圈子對(duì)應(yīng)的關(guān)聯(lián)詞匯,提高搜索關(guān)聯(lián)詞匯的精度。
[0025] 實(shí)施例2
[0026] 參見圖2,本發(fā)明實(shí)施例提供了一種挖掘知識(shí)圖譜的方法,包括:
[0027] 步驟201 :獲取社區(qū)用戶的社區(qū)原始數(shù)據(jù),該社區(qū)原始數(shù)據(jù)包括社區(qū)用戶對(duì)其他 社區(qū)用戶的關(guān)注度信息和社區(qū)用戶與其他社區(qū)用戶共同關(guān)注話題的個(gè)數(shù);
[0028] 具體地,獲取社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度信息和社區(qū)用戶與其他社區(qū)用戶 共同關(guān)注話題的個(gè)數(shù)。
[0029] 其中,社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度信息包括:社區(qū)用戶的收聽信息、社區(qū)用 戶轉(zhuǎn)發(fā)其他社區(qū)用戶發(fā)布的內(nèi)容的轉(zhuǎn)發(fā)次數(shù)、社區(qū)用戶評(píng)論其他社區(qū)用戶發(fā)布的內(nèi)容的評(píng) 論次數(shù)、社區(qū)用戶發(fā)送信息給其他社區(qū)用戶的信息發(fā)送次數(shù)和/或社區(qū)用戶發(fā)送私信給其 他社區(qū)用戶的私信發(fā)送次數(shù)。
[0030] 其中,社區(qū)用戶的收聽信息包括該社區(qū)用戶收聽的其他社區(qū)用戶的身份標(biāo)識(shí)。
[0031] 其中,在本發(fā)明實(shí)施例中,社區(qū)服務(wù)器中存儲(chǔ)有社區(qū)包括的每個(gè)社區(qū)用戶的收聽 信息、每個(gè)社區(qū)用戶轉(zhuǎn)發(fā)其他社區(qū)用戶的社區(qū)的轉(zhuǎn)發(fā)次數(shù)、每個(gè)社區(qū)用戶評(píng)論其他社區(qū)用 戶發(fā)布的內(nèi)容的評(píng)論次數(shù)、每個(gè)社區(qū)用戶發(fā)送信息給其他社區(qū)用戶的信息發(fā)送次數(shù)、每個(gè) 社區(qū)用戶發(fā)送私信給其他社區(qū)用戶的私信發(fā)送次數(shù)以及每個(gè)社區(qū)用戶關(guān)注的社區(qū)話題。
[0032] 所以,在本發(fā)明實(shí)施例中,對(duì)于任一個(gè)社區(qū)用戶,可以從社區(qū)服務(wù)器中獲取該社區(qū) 用戶的收聽信息、該社區(qū)用戶轉(zhuǎn)發(fā)其他社區(qū)用戶發(fā)布的內(nèi)容的轉(zhuǎn)發(fā)次數(shù)、該社區(qū)用戶評(píng)論 其他社區(qū)用戶發(fā)布的內(nèi)容的評(píng)論次數(shù)、該社區(qū)用戶發(fā)送信息給其他社區(qū)用戶的信息發(fā)送次 數(shù)、該社區(qū)用戶發(fā)送私信給其他社區(qū)用戶的私信發(fā)送次數(shù)和/或該社區(qū)用戶關(guān)注的社區(qū)話 題,根據(jù)該社區(qū)用戶關(guān)注的社區(qū)話題和其他社區(qū)用戶關(guān)注的社區(qū)話題,獲取該社區(qū)用戶和 其他社區(qū)用戶共同關(guān)注的社區(qū)話題。
[0033] 步驟202 :根據(jù)社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度信息,計(jì)算社區(qū)用戶對(duì)其他社 區(qū)用戶的關(guān)注度分?jǐn)?shù);
[0034] 其中,社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度分?jǐn)?shù)包括:社區(qū)用戶對(duì)其他社區(qū)用戶的 收聽信息分?jǐn)?shù)、社區(qū)用戶轉(zhuǎn)發(fā)評(píng)論其他社區(qū)用戶發(fā)布的內(nèi)容的轉(zhuǎn)發(fā)評(píng)論分?jǐn)?shù)、社區(qū)用戶發(fā) 送信息給其他社區(qū)用戶的信息發(fā)送分?jǐn)?shù)和/或社區(qū)用戶發(fā)送私信給其他社區(qū)用戶的私信 發(fā)送分?jǐn)?shù)。
[0035] 其中,根據(jù)社區(qū)用戶的收聽信息,計(jì)算社區(qū)用戶對(duì)其他社區(qū)用戶的收聽信息分?jǐn)?shù), 可以為:
[0036] 根據(jù)社區(qū)用戶收聽其他社區(qū)用戶的收聽信息和公式(1),計(jì)算社區(qū)用戶對(duì)其他社 區(qū)用戶的收聽分?jǐn)?shù);
[0037]
【權(quán)利要求】
1. 一種挖掘知識(shí)圖譜的方法,其特征在于,所述方法包括: 根據(jù)社區(qū)用戶的社區(qū)原始數(shù)據(jù)、所述社區(qū)用戶的用戶屬性、所述社區(qū)用戶屬于的主題 論壇或所述社區(qū)用戶屬于的即時(shí)通信工作的聊天群,對(duì)所述社區(qū)用戶進(jìn)行聚類并形成社區(qū) 用戶圈子,所述社區(qū)原始數(shù)據(jù)包括所述社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度信息和所述社區(qū) 用戶與所述其他社區(qū)用戶共同關(guān)注的話題個(gè)數(shù); 根據(jù)所述社區(qū)用戶圈子包括的社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng)建所述社區(qū)用戶圈子 的知識(shí)圖譜。
2. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述社區(qū)用戶的社區(qū)原始數(shù)據(jù)對(duì) 所述社區(qū)用戶進(jìn)行聚類并形成社區(qū)用戶圈子,包括: 根據(jù)所述社區(qū)用戶的社區(qū)原始數(shù)據(jù),計(jì)算所述社區(qū)用戶對(duì)其他社區(qū)用戶的親密度分 數(shù),所述親密度分?jǐn)?shù)用于標(biāo)識(shí)所述社區(qū)用戶對(duì)其他社區(qū)用戶的親密程度; 根據(jù)所述社區(qū)用戶對(duì)其他社區(qū)用戶的親密度分?jǐn)?shù),對(duì)所述社區(qū)用戶進(jìn)行聚類并形成社 區(qū)用戶圈子。
3. 如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述社區(qū)用戶的社區(qū)原始數(shù)據(jù),計(jì) 算所述社區(qū)用戶對(duì)其他社區(qū)用戶的親密度分?jǐn)?shù),包括: 根據(jù)所述社區(qū)用戶對(duì)所述其他社區(qū)用戶的關(guān)注度信息,計(jì)算所述社區(qū)用戶對(duì)所述其他 社區(qū)用戶的關(guān)注度分?jǐn)?shù); 根據(jù)所述社區(qū)用戶與所述其他社區(qū)用戶共同關(guān)注的話題個(gè)數(shù),計(jì)算所述社區(qū)用戶與所 述其他社區(qū)用戶之間的關(guān)注熱點(diǎn)分?jǐn)?shù); 根據(jù)所述社區(qū)用戶對(duì)所述其他社區(qū)用戶的關(guān)注度分?jǐn)?shù)和所述社區(qū)用戶與所述其他社 區(qū)用戶之間的關(guān)注熱點(diǎn)分?jǐn)?shù),計(jì)算所述社區(qū)用戶對(duì)所述其他社區(qū)用戶的親密度分?jǐn)?shù)。
4. 如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述社區(qū)用戶對(duì)其他社區(qū)用戶的 親密度分?jǐn)?shù),對(duì)所述社區(qū)用戶進(jìn)行聚類并形成社區(qū)用戶圈子,包括: 掃描社區(qū)用戶; 根據(jù)所述掃描的社區(qū)用戶對(duì)除所述掃描的社區(qū)用戶以外的其他社區(qū)用戶的親密度分 數(shù)和所述其他社區(qū)用戶對(duì)所述掃描的社區(qū)用戶的親密度分?jǐn)?shù),計(jì)算所述掃描的社區(qū)用戶與 所述其他社區(qū)用戶之間的用戶距離; 選取與所述掃描的社區(qū)用戶的之間的用戶距離小于預(yù)設(shè)用戶距離門限的社區(qū)用戶,將 所述掃描的社區(qū)用戶與所述選取的社區(qū)用戶聚類成一個(gè)社區(qū)用戶圈子。
5. 如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述社區(qū)用戶對(duì)其他社區(qū)用戶的 親密度分?jǐn)?shù),對(duì)所述社區(qū)用戶進(jìn)行聚類并形成社區(qū)用戶圈子,包括: 掃描社區(qū)用戶,將其他社區(qū)用戶形成第一用戶集合,根據(jù)所述掃描的社區(qū)用戶對(duì)所述 第一用戶集合包括的社區(qū)用戶的親密度分?jǐn)?shù)和所述第一用戶集合包括的社區(qū)用戶對(duì)所述 掃描的社區(qū)用戶的親密度分?jǐn)?shù),計(jì)算所述掃描的社區(qū)用戶與所述第一用戶集合包括的社區(qū) 用戶之間的用戶距離; 從第一用戶集合中選取與所述社區(qū)用戶之間的用戶距離最小的社區(qū)用戶,將所述社區(qū) 用戶和所述選取的社區(qū)用戶組成第二用戶集合,獲取第一用戶集合包括的未選擇的社區(qū)用 戶與所述第二用戶集合的邊數(shù),選取與所述第二用戶集合的邊數(shù)最多的社區(qū)用戶,統(tǒng)計(jì)所 述邊數(shù)最多的社區(qū)用戶的個(gè)數(shù); 如果所述統(tǒng)計(jì)的個(gè)數(shù)不為零,則將所述邊數(shù)最多的社區(qū)用戶添加到所述第二用戶集合 中,計(jì)算所述第二用戶集合包括的任一社區(qū)用戶與所述第二用戶集合包括的其他社區(qū)用戶 之間的邊數(shù),選取邊數(shù)最少的社區(qū)用戶,如果所述邊數(shù)最少的社區(qū)用戶的個(gè)數(shù)小于二分之 一的所述統(tǒng)計(jì)的個(gè)數(shù),則將所述邊數(shù)最少的社區(qū)用戶從所述第二用戶集合中排除; 對(duì)所述第二用戶集合包括的社區(qū)用戶的個(gè)數(shù)進(jìn)行判斷,如果所述第二用戶集合包括的 社區(qū)用戶的個(gè)數(shù)大于或等于預(yù)設(shè)第一閾值且小于或等于預(yù)設(shè)第二閾值,將所述第二用戶集 合包括的社區(qū)用戶聚類形成社區(qū)用戶圈子。
6. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述社區(qū)用戶圈子包括的社區(qū)用 戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng)建所述社區(qū)用戶圈子的知識(shí)圖譜,包括: 從所述社區(qū)用戶圈子包括的每個(gè)社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù)中將同一主題的用戶 行為數(shù)據(jù)形成文檔; 對(duì)形成的每個(gè)文檔進(jìn)行挖掘,得到所述社區(qū)用戶圈子的知識(shí)圖譜。
7. 如權(quán)利要求6所述的方法,其特征在于,所述根據(jù)形成的每個(gè)文檔,采用挖掘知識(shí)圖 譜算法進(jìn)行挖掘,得到所述社區(qū)用戶圈子的知識(shí)圖譜,包括: 對(duì)形成的每個(gè)文檔包括的數(shù)據(jù)進(jìn)行分詞,并將所述每個(gè)文檔包括的分詞分別組成每個(gè) 文檔的特征向量; 根據(jù)所述每個(gè)文檔的特征向量,對(duì)所述每個(gè)文檔進(jìn)行聚類,將同一話題的文檔聚為一 個(gè)文檔聚類; 對(duì)所述每個(gè)文檔聚類包括的文檔進(jìn)行挖掘,得到所述社區(qū)用戶圈子的知識(shí)圖譜。
8. -種挖掘知識(shí)圖譜的裝置,其特征在于,所述裝置包括: 聚類模塊,用于根據(jù)社區(qū)用戶的社區(qū)原始數(shù)據(jù)、所述社區(qū)用戶的用戶屬性、所述社區(qū)用 戶屬于的主題論壇或所述社區(qū)用戶屬于的即時(shí)通信工作的聊天群,對(duì)所述社區(qū)用戶進(jìn)行聚 類并形成社區(qū)用戶圈子,所述社區(qū)原始數(shù)據(jù)包括所述社區(qū)用戶對(duì)其他社區(qū)用戶的關(guān)注度信 息和所述社區(qū)用戶與所述其他社區(qū)用戶共同關(guān)注的話題個(gè)數(shù); 創(chuàng)建模塊,用于根據(jù)所述社區(qū)用戶圈子包括的社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù),創(chuàng)建所 述社區(qū)用戶圈子的知識(shí)圖譜。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述聚類模塊包括: 第一計(jì)算單元,用于根據(jù)所述社區(qū)用戶的社區(qū)原始數(shù)據(jù),計(jì)算所述社區(qū)用戶對(duì)其他社 區(qū)用戶的親密度分?jǐn)?shù),所述親密度分?jǐn)?shù)用于標(biāo)識(shí)所述社區(qū)用戶對(duì)其他社區(qū)用戶的親密程 度; 聚類單元,用于根據(jù)所述社區(qū)用戶對(duì)其他社區(qū)用戶的親密度分?jǐn)?shù),對(duì)所述社區(qū)用戶進(jìn) 行聚類并形成社區(qū)用戶圈子。
10. 如權(quán)利要求9所述的裝置,其特征在于,所述第一計(jì)算單元包括: 第一計(jì)算子單元,用于根據(jù)所述社區(qū)用戶對(duì)所述其他社區(qū)用戶的關(guān)注度信息,計(jì)算所 述社區(qū)用戶對(duì)所述其他社區(qū)用戶的關(guān)注度分?jǐn)?shù); 第二計(jì)算子單元,用于根據(jù)所述社區(qū)用戶與所述其他社區(qū)用戶共同關(guān)注的話題個(gè)數(shù), 計(jì)算所述社區(qū)用戶與所述其他社區(qū)用戶之間的關(guān)注熱點(diǎn)分?jǐn)?shù); 第三計(jì)算子單元,用于根據(jù)所述社區(qū)用戶對(duì)所述其他社區(qū)用戶的關(guān)注度分?jǐn)?shù)和所述社 區(qū)用戶與所述其他社區(qū)用戶之間的關(guān)注熱點(diǎn)分?jǐn)?shù),計(jì)算所述社區(qū)用戶對(duì)所述其他社區(qū)用戶 的親密度分?jǐn)?shù)。
11. 如權(quán)利要求9所述的裝置,其特征在于,所述聚類單元包括: 第四計(jì)算子單元,用于掃描社區(qū)用戶;根據(jù)所述掃描的社區(qū)用戶對(duì)除所述掃描的社區(qū) 用戶以外的其他社區(qū)用戶的親密度分?jǐn)?shù)和所述其他社區(qū)用戶對(duì)所述掃描的社區(qū)用戶的親 密度分?jǐn)?shù),計(jì)算所述掃描的社區(qū)用戶與所述其他社區(qū)用戶之間的用戶距離; 聚類子單元,用于選取與所述掃描的社區(qū)用戶的之間的用戶距離小于預(yù)設(shè)用戶距離門 限的社區(qū)用戶,將所述掃描的社區(qū)用戶與所述選取的社區(qū)用戶聚類成一個(gè)社區(qū)用戶圈子。
12. 如權(quán)利要求9所述的裝置,其特征在于,所述聚類單元包括: 掃描子單元,用于掃描社區(qū)用戶,將其他社區(qū)用戶形成第一用戶集合,根據(jù)所述掃描的 社區(qū)用戶對(duì)所述第一用戶集合包括的社區(qū)用戶的親密度分?jǐn)?shù)和所述第一用戶集合包括的 社區(qū)用戶對(duì)所述掃描的社區(qū)用戶的親密度分?jǐn)?shù),計(jì)算所述掃描的社區(qū)用戶與所述第一用戶 集合包括的社區(qū)用戶之間的用戶距離; 統(tǒng)計(jì)子單元,用于從第一用戶集合中選取與所述社區(qū)用戶之間的用戶距離最小的社區(qū) 用戶,將所述社區(qū)用戶和所述選取的社區(qū)用戶組成第二用戶集合,獲取第一用戶集合包括 的未選擇的社區(qū)用戶與所述第二用戶集合的邊數(shù),選取與所述第二用戶集合的邊數(shù)最多的 社區(qū)用戶,統(tǒng)計(jì)所述邊數(shù)最多的社區(qū)用戶的個(gè)數(shù); 排除子單元,用于如果所述統(tǒng)計(jì)的個(gè)數(shù)不為零,則將所述邊數(shù)最多的社區(qū)用戶添加到 所述第二用戶集合中,計(jì)算所述第二用戶集合包括的任一社區(qū)用戶與所述第二用戶集合包 括的其他社區(qū)用戶之間的邊數(shù),選取邊數(shù)最少的社區(qū)用戶,如果所述邊數(shù)最少的社區(qū)用戶 的個(gè)數(shù)小于二分之一的所述統(tǒng)計(jì)的個(gè)數(shù),則將所述邊數(shù)最少的社區(qū)用戶從所述第二用戶集 合中排除; 第一聚類子單元,用于對(duì)所述第二用戶集合包括的社區(qū)用戶的個(gè)數(shù)進(jìn)行判斷,如果所 述第二用戶集合包括的社區(qū)用戶的個(gè)數(shù)大于或等于預(yù)設(shè)第一閾值且小于或等于預(yù)設(shè)第二 閾值,將所述第二用戶集合包括的社區(qū)用戶聚類形成社區(qū)用戶圈子。
13. 如權(quán)利要求8所述的裝置,其特征在于,所述創(chuàng)建模塊包括: 形成單元,用于從所述社區(qū)用戶圈子包括的每個(gè)社區(qū)用戶產(chǎn)生的用戶行為數(shù)據(jù)中將同 一主題的用戶行為數(shù)據(jù)形成文檔; 挖掘單元,用于對(duì)形成的每個(gè)文檔進(jìn)行挖掘,得到所述社區(qū)用戶圈子的知識(shí)圖譜。
14. 如權(quán)利要求13所述的裝置,其特征在于,所述挖掘單元包括: 分詞子單元,用于對(duì)形成的每個(gè)文檔包括的數(shù)據(jù)進(jìn)行分詞,并將所述每個(gè)文檔包括的 分詞分別組成每個(gè)文檔的特征向量; 第二聚類子單元,用于根據(jù)所述每個(gè)文檔的特征向量,對(duì)所述每個(gè)文檔進(jìn)行聚類,將同 一話題的文檔聚為一個(gè)文檔聚類; 挖掘子單元,用于對(duì)所述每個(gè)文檔聚類包括的文檔進(jìn)行挖掘,得到所述社區(qū)用戶圈子 的知識(shí)圖譜。
【文檔編號(hào)】G06F17/30GK104102635SQ201310112407
【公開日】2014年10月15日 申請(qǐng)日期:2013年4月1日 優(yōu)先權(quán)日:2013年4月1日
【發(fā)明者】程剛 申請(qǐng)人:騰訊科技(深圳)有限公司