两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

社交媒體中用于主體特征分析的方法

文檔序號(hào):9844137閱讀:616來(lái)源:國(guó)知局
社交媒體中用于主體特征分析的方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及大數(shù)據(jù),特別涉及一種社交媒體中用于主體特征分析的方法。
【背景技術(shù)】
[0002] 近年來(lái),社交網(wǎng)絡(luò)迅速發(fā)展,用戶(hù)人數(shù)呈爆炸式增長(zhǎng)。通過(guò)社交網(wǎng)絡(luò)服務(wù),人們除 了進(jìn)行社交行為,則更多的是將社交網(wǎng)絡(luò)當(dāng)成公共的媒體平臺(tái),滿(mǎn)足社交需求和特定興趣 獲取需求。對(duì)于用戶(hù)的專(zhuān)業(yè)信息及特定興趣獲取需求,而當(dāng)前社交網(wǎng)絡(luò)產(chǎn)品則不能很好的 滿(mǎn)足該需求,各類(lèi)用戶(hù)發(fā)表的信息混雜在一起,用戶(hù)需要自己去甄別其中自己感興趣的信 息。如果對(duì)社交網(wǎng)絡(luò)特定領(lǐng)域中信息走向及分布特點(diǎn)進(jìn)行準(zhǔn)確的研究,需要對(duì)其中的影響 力用戶(hù)進(jìn)行深度的分析挖掘,而短文本無(wú)法蘊(yùn)含豐富的語(yǔ)義特征,這就使得很多在處理文 本有較好性能的算法直接用于社交網(wǎng)絡(luò)數(shù)據(jù)的處理并不能得到很好的效果。

【發(fā)明內(nèi)容】

[0003] 為解決上述現(xiàn)有技術(shù)所存在的問(wèn)題,本發(fā)明提出了一種社交媒體中用于主體特征 分析的方法,包括:
[0004] 采集社交網(wǎng)絡(luò)數(shù)據(jù),識(shí)別特定領(lǐng)域中的用戶(hù)特征,并對(duì)用戶(hù)進(jìn)行分類(lèi)。
[0005] 優(yōu)選地,所述采集社交網(wǎng)絡(luò)數(shù)據(jù),進(jìn)一步包括:
[0006] 同時(shí)采用基于拓?fù)浣Y(jié)構(gòu)和基于用戶(hù)行為內(nèi)容的算法,根據(jù)每個(gè)領(lǐng)域的相關(guān)先驗(yàn)信 息,選擇部分種子用戶(hù)作為拓?fù)湎蛲馔卣沟钠瘘c(diǎn),然后根據(jù)種子用戶(hù),結(jié)合領(lǐng)域相關(guān)先驗(yàn)信 息得到一個(gè)領(lǐng)域關(guān)鍵詞列表;根據(jù)關(guān)鍵詞列表搜索相關(guān)的用戶(hù)狀態(tài),通過(guò)解析返回內(nèi)容,得 到發(fā)表這些狀態(tài)的用戶(hù),作為候選用戶(hù),根據(jù)候選用戶(hù)獲得這些用戶(hù)的社交網(wǎng)絡(luò)數(shù)據(jù),作為 識(shí)別算法的數(shù)據(jù)源,來(lái)分析特定領(lǐng)域用戶(hù)的特征;
[0007] 其中數(shù)據(jù)獲取方式有兩種:一種方式是對(duì)指定的頁(yè)面進(jìn)行抓取,即直接訪問(wèn)Web頁(yè) 面,得到原始數(shù)據(jù),然后通過(guò)頁(yè)面解析等方式對(duì)信息進(jìn)行提取,獲取所需數(shù)據(jù);另一種方式 是通過(guò)開(kāi)放平臺(tái)提供的API獲取數(shù)據(jù);
[0008] 所述識(shí)別特定領(lǐng)域中的用戶(hù)特征,進(jìn)一步包括:
[0009] 本發(fā)明同時(shí)考慮用戶(hù)的社交網(wǎng)絡(luò)有向圖結(jié)構(gòu)關(guān)系和用戶(hù)發(fā)表的內(nèi)容信息,將判別 用戶(hù)是否是該影響力用戶(hù)的問(wèn)題映射為一個(gè)分類(lèi)的問(wèn)題,提取用戶(hù)特征以及基于提取的用 戶(hù)特征構(gòu)建分類(lèi)器過(guò)程如下:
[0010] 將用戶(hù)特征分為用戶(hù)屬性特征、用戶(hù)社交習(xí)慣特征、用戶(hù)社交內(nèi)容語(yǔ)言特征,所述 用戶(hù)屬性特征包括用戶(hù)填寫(xiě)個(gè)人相關(guān)的信息過(guò)程中系統(tǒng)會(huì)維持的動(dòng)態(tài)更新的信息,通過(guò)開(kāi) 放API服務(wù)得到,從被關(guān)注人數(shù)、發(fā)布主題數(shù)量上識(shí)別影響力用戶(hù),使用個(gè)性描述和標(biāo)簽兩 個(gè)特征來(lái)分別反映用戶(hù)個(gè)性描述部分和標(biāo)簽部分的情況,首先將訓(xùn)練集中正向樣本用戶(hù)的 所有個(gè)性描述及標(biāo)簽部分進(jìn)行詞頻統(tǒng)計(jì),得到詞頻高于預(yù)定閾值的的詞語(yǔ)集合D和T;然后, 通過(guò)如下的計(jì)算公式來(lái)得到個(gè)性描述和標(biāo)簽的記分值:
[0011] 個(gè)性描述記分值=|DinD|/|D
[0012]其中,Dl指當(dāng)前用戶(hù)i的個(gè)性描述中出現(xiàn)的詞;
[0013] 標(biāo)簽記分值=|ι\ητ|/|τ
[0014] 其中,指當(dāng)前用戶(hù)i的個(gè)人標(biāo)簽列表;
[0015] 統(tǒng)計(jì)每個(gè)主題的平均評(píng)論數(shù)和平均轉(zhuǎn)發(fā)數(shù)的值,將轉(zhuǎn)發(fā)內(nèi)容和會(huì)話內(nèi)容間的關(guān)系 添加到貝葉斯網(wǎng)絡(luò)中,將內(nèi)容主題的生成過(guò)程描述如下:
[0016] 1、隨機(jī)選擇一個(gè)主題分布0S;
[0017] 2、判斷是否是轉(zhuǎn)發(fā)內(nèi)容或者是會(huì)話內(nèi)容,如果是轉(zhuǎn)發(fā)內(nèi)容或會(huì)話內(nèi)容,則將參數(shù)π 標(biāo)記為1,隨機(jī)選擇一個(gè)文檔分布Θ。,然后,把Θ。的值賦給0S;如果不是轉(zhuǎn)發(fā)內(nèi)容或會(huì)話內(nèi)容, 則隨機(jī)選擇一個(gè)文檔分布9 S;
[0018] 3、在參數(shù)為03的多項(xiàng)分布基礎(chǔ)上,選擇特定的詞語(yǔ)w。
[0019] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
[0020] 本發(fā)明提出了一種社交媒體中用于主體特征分析的方法,通過(guò)分析特定領(lǐng)域下用 戶(hù)主題的特征,幫助用戶(hù)從海量數(shù)據(jù)中高效獲取信息。
【附圖說(shuō)明】
[0021] 圖1是根據(jù)本發(fā)明實(shí)施例的社交媒體中用于主體特征分析的方法的流程圖。
【具體實(shí)施方式】
[0022] 下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描 述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利 要求書(shū)限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以 便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無(wú)這些具體細(xì)節(jié)中的 一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書(shū)實(shí)現(xiàn)本發(fā)明。
[0023] 本發(fā)明的一方面提供了一種社交媒體中用于主體特征分析的方法。圖1是根據(jù)本 發(fā)明實(shí)施例的社交媒體中用于主體特征分析的方法流程圖。
[0024] 針對(duì)用戶(hù)在社交網(wǎng)絡(luò)上對(duì)特定領(lǐng)域信息的需求,本發(fā)明利用社交網(wǎng)絡(luò)數(shù)據(jù),準(zhǔn)確 識(shí)別特定領(lǐng)域影響力用戶(hù);在識(shí)別出的影響力用戶(hù)群基礎(chǔ)上,完成影響力用戶(hù)社交網(wǎng)絡(luò)的 構(gòu)建及關(guān)聯(lián)強(qiáng)度的估計(jì),并基于用戶(hù)關(guān)聯(lián)強(qiáng)度進(jìn)行社區(qū)劃分,為接下來(lái)挖掘影響力用戶(hù)群 內(nèi)的主題分布做準(zhǔn)備;本發(fā)明進(jìn)一步利用特定領(lǐng)域用戶(hù)社區(qū)主題挖掘方法,分析社交網(wǎng)絡(luò) 數(shù)據(jù)特征及主題分布特征的基礎(chǔ)上,高效挖掘不同領(lǐng)域社區(qū)中熱門(mén)主題;達(dá)到幫助用戶(hù)從 海量數(shù)據(jù)中高效獲取信息的目的。
[0025] 為了能盡量完整的識(shí)別目標(biāo)用戶(hù)群體,本發(fā)明同時(shí)采用基于拓?fù)浣Y(jié)構(gòu)和基于用戶(hù) 行為內(nèi)容的算法,根據(jù)每個(gè)領(lǐng)域的相關(guān)先驗(yàn)信息,選擇出部分種子用戶(hù)作為拓?fù)湎蛲馔卣?的起點(diǎn),然后根據(jù)種子用戶(hù),結(jié)合領(lǐng)域相關(guān)先驗(yàn)信息,得到一個(gè)領(lǐng)域關(guān)鍵詞列表;根據(jù)關(guān)鍵 詞列表搜索相關(guān)的用戶(hù)狀態(tài),通過(guò)解析返回內(nèi)容,得到發(fā)表這些狀態(tài)的用戶(hù),作為候選用 戶(hù)。根據(jù)候選用戶(hù)獲得這些用戶(hù)的社交網(wǎng)絡(luò)數(shù)據(jù),作為識(shí)別算法的數(shù)據(jù)源,來(lái)分析特定領(lǐng)域 用戶(hù)的特征。
[0026] 其中數(shù)據(jù)獲取方式有兩種:一是對(duì)指定的頁(yè)面進(jìn)行抓取,這種方法直接訪問(wèn)Web頁(yè) 面,得到原始數(shù)據(jù),然后通過(guò)頁(yè)面解析等方式對(duì)信息進(jìn)行提取,獲取所需數(shù)據(jù)。另一種方式 是通過(guò)開(kāi)放平臺(tái)提供的API獲取數(shù)據(jù)。
[0027]本發(fā)明同時(shí)考慮用戶(hù)的社交網(wǎng)絡(luò)有向圖結(jié)構(gòu)關(guān)系和用戶(hù)發(fā)表的內(nèi)容信息,將判別 用戶(hù)是否是該影響力用戶(hù)的問(wèn)題映射為一個(gè)分類(lèi)的問(wèn)題。以下是提取用戶(hù)特征的方法以及 基于提取的用戶(hù)特征構(gòu)建分類(lèi)器的過(guò)程。
[0028]本發(fā)明將特征分為三大類(lèi):用戶(hù)屬性特征、用戶(hù)社交習(xí)慣特征、用戶(hù)社交內(nèi)容語(yǔ)言 特征。用戶(hù)填寫(xiě)個(gè)人相關(guān)的一些信息過(guò)程中,系統(tǒng)會(huì)維持這些信息的動(dòng)態(tài)更新。可以通過(guò)開(kāi) 放API服務(wù)得到。影響力用戶(hù)往往因其作為信息提供者身份而在被關(guān)注人數(shù)、發(fā)布主題數(shù)量 上有較高值。使用個(gè)性描述、標(biāo)簽兩個(gè)特征來(lái)分別反映用戶(hù)個(gè)性描述部分和標(biāo)簽部分的情 況。首先將訓(xùn)練集中正向樣本用戶(hù)的所有個(gè)性描述及標(biāo)簽部分進(jìn)行詞頻統(tǒng)計(jì),得到詞頻高 于預(yù)定閾值的的詞語(yǔ)集合D和T。然后,通過(guò)如下的計(jì)算公式;來(lái)得到個(gè)性描述和標(biāo)簽的記分 值。
[0029] 個(gè)性描述記分值=|DinD|/|D
[0030] 其中,Di指當(dāng)前用戶(hù)i的個(gè)性描述中出現(xiàn)的詞。
[0031] 標(biāo)簽記分值=|ι\ητ|/|τ
[0032] 其中,指當(dāng)前用戶(hù)i的個(gè)人標(biāo)簽列表。
[0033] 影響力用戶(hù)發(fā)表的內(nèi)容往往具有較高的價(jià)值,這樣會(huì)引來(lái)別人的大量評(píng)論和轉(zhuǎn) 發(fā)。因此進(jìn)一步統(tǒng)計(jì)每個(gè)主題的平均評(píng)論數(shù)和平均轉(zhuǎn)發(fā)數(shù)的值,則來(lái)分析影響力用戶(hù)特征。 [0034]本發(fā)明綜合考慮了轉(zhuǎn)發(fā)內(nèi)容和會(huì)話內(nèi)容跟原始內(nèi)容在主題分布上的一致性,假定 每篇文檔是有多個(gè)主題形成的,同時(shí)每個(gè)主題是通過(guò)多個(gè)詞語(yǔ)的分布來(lái)表示的。將轉(zhuǎn)發(fā)內(nèi) 容和會(huì)話內(nèi)容間的關(guān)系添加到貝葉斯網(wǎng)絡(luò)中。
[0035]將內(nèi)容主題的生成過(guò)程描述如下:
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
芒康县| 昌图县| 原平市| 阳春市| 小金县| 合水县| 马龙县| 治多县| 临漳县| 廉江市| 新兴县| 元谋县| 闵行区| 行唐县| 阿巴嘎旗| 武乡县| 惠州市| 安顺市| 犍为县| 清远市| 同江市| 乐平市| 陵水| 舒兰市| 镇远县| 吴江市| 梨树县| 孝感市| 南江县| 万源市| 阳曲县| 天全县| 左云县| 碌曲县| 定南县| 嵊泗县| 温泉县| 周宁县| 宜兰市| 镇江市| 理塘县|