两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

社交媒體中用于主體特征分析的方法_3

文檔序號(hào):9844137閱讀:來源:國知局
代之初將原始數(shù)據(jù)的各個(gè)數(shù)據(jù)分片 分發(fā)到集群中不同的節(jié)點(diǎn)上,不同節(jié)點(diǎn)獨(dú)立的啟動(dòng)映射器任務(wù)對(duì)相應(yīng)的數(shù)據(jù)分片進(jìn)行計(jì) 算,然后將模型的狀態(tài)信息迀移到同一個(gè)規(guī)約任務(wù)上,對(duì)各個(gè)分片狀態(tài)匯總,完成模型整體 狀態(tài)的更新。
[0081] 在模型參數(shù)的訓(xùn)練過程,記錄模型主題分布的狀態(tài)以及主題下關(guān)鍵詞的分布狀 態(tài)。使用兩個(gè)矩陣來完成中間狀態(tài)的記錄:nw矩陣,記錄每個(gè)詞語在各個(gè)主題上的分布情 況;nd矩陣,記錄每個(gè)文檔在各個(gè)主題上的分布情況。在模型訓(xùn)練迭代過程中,通過不斷更 新上述兩個(gè)矩陣的狀態(tài)信息,最終使模型達(dá)到收斂。模型訓(xùn)練的過程為:
[0082] 1)將主題個(gè)數(shù)記為T,則初始化階段對(duì)原始數(shù)據(jù)中的所有詞語隨機(jī)分配一個(gè)主題 t,其中te{〇…T-1},得到模型訓(xùn)練的原始數(shù)據(jù)。
[0083] 2)按照數(shù)據(jù)分片的大小將原始數(shù)據(jù)切分成N等份,并將數(shù)據(jù)分片分發(fā)到集群中不 同的節(jié)點(diǎn)上。
[0084] 3)針對(duì)每一個(gè)數(shù)據(jù)分片,在相應(yīng)的節(jié)點(diǎn)上啟動(dòng)一個(gè)映射器任務(wù)。該映射器任務(wù)首 先本地加載一份全局的nw\nd矩陣,得到前一次迭代完成后模型的狀態(tài)信息。
[0085] 4)在本地nw\nd狀態(tài)矩陣的基礎(chǔ)上計(jì)算本映射器任務(wù)數(shù)據(jù)塊中所有詞語新的主題 分布,并將對(duì)全局nw\nd矩陣的更新迀移到一個(gè)固定的規(guī)約任務(wù)中,然后詞語及其更新的主 題分布迀移到另外的一個(gè)或多個(gè)規(guī)約任務(wù)中。
[0086] 5)啟動(dòng)一個(gè)專門用于接收nw\nd矩陣更新信息的規(guī)約任務(wù),用來集中處理來自各 個(gè)映射器任務(wù)的狀態(tài)更新信息,然后對(duì)全局的nw\nd進(jìn)行更新。另外的規(guī)約任務(wù)則將詞語及 其更新的主題分布數(shù)據(jù)寫入分布式文件系統(tǒng)中,為下一次迭代做好準(zhǔn)備。
[0087] 6)重復(fù)上述2-5的過程,直到收斂。
[0088] 社交網(wǎng)絡(luò)各領(lǐng)域社區(qū)主題挖掘體系結(jié)構(gòu)由數(shù)據(jù)采集模塊、數(shù)據(jù)運(yùn)算存儲(chǔ)模塊、算 法分析模塊、任務(wù)管理模塊、前端顯示模塊組成。數(shù)據(jù)采集模塊通過調(diào)用開放平臺(tái)API和抓 取網(wǎng)站網(wǎng)頁兩種方式,采集系統(tǒng)需要的用戶相關(guān)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行解析、處理,最終將數(shù) 據(jù)導(dǎo)入到數(shù)據(jù)存儲(chǔ)模塊。數(shù)據(jù)運(yùn)算存儲(chǔ)模塊為下層的數(shù)據(jù)采集模塊提供原始數(shù)據(jù)存儲(chǔ)服 務(wù),為上層的算法分析模塊提供算法計(jì)算結(jié)果數(shù)據(jù)存儲(chǔ)服務(wù),同時(shí)為前端顯示模塊提供顯 示數(shù)據(jù)存儲(chǔ)服務(wù)。其中分布式文件系統(tǒng)部分負(fù)責(zé)用戶相關(guān)原始數(shù)據(jù)及算法中間結(jié)果的存 儲(chǔ),MapReduce部分負(fù)責(zé)數(shù)據(jù)的處理及算法運(yùn)算,數(shù)據(jù)庫用于存儲(chǔ)算法的計(jì)算結(jié)果及前端顯 示模塊所需數(shù)據(jù)。算法分析模塊實(shí)現(xiàn)并運(yùn)行社交網(wǎng)絡(luò)各領(lǐng)域社區(qū)發(fā)現(xiàn)模型和用戶社區(qū)主題 挖掘方法,計(jì)算用戶相關(guān)數(shù)據(jù),得到數(shù)據(jù)挖掘結(jié)果。任務(wù)管理模塊負(fù)責(zé)其他各模塊任務(wù)的分 發(fā)和調(diào)度。前端顯示模塊顯示算法的計(jì)算結(jié)果,將特定領(lǐng)域用戶的社區(qū)劃分結(jié)果以及對(duì)各 個(gè)社區(qū)主題挖掘的結(jié)果進(jìn)行顯示。
[0089] 所述分布式文件系統(tǒng),用于存儲(chǔ)在社交內(nèi)容采集的用戶原始數(shù)據(jù)、模型訓(xùn)練的中 間數(shù)據(jù)以及部分算法的結(jié)果數(shù)據(jù);存儲(chǔ)用戶信息及算法的計(jì)算結(jié)果,為前端顯示模塊提供 數(shù)據(jù)庫功能支撐。分布式文件系統(tǒng)是在Linux文件系統(tǒng)基礎(chǔ)上實(shí)現(xiàn)的,因此存儲(chǔ)其中的數(shù)據(jù) 都是以純文本形式存儲(chǔ)。使用tab鍵作為各個(gè)字段的分割符。對(duì)于模型訓(xùn)練的結(jié)果在分布式 文件系統(tǒng)中也是以文本文件方式存儲(chǔ)。數(shù)據(jù)庫中存儲(chǔ)用戶信息、用戶連接關(guān)系、社交網(wǎng)絡(luò)各 領(lǐng)域社區(qū)發(fā)現(xiàn)模型對(duì)影響力用戶的社區(qū)劃分結(jié)果及特定領(lǐng)域用戶社區(qū)主題挖掘方法對(duì)影 響力用戶群主題挖掘的結(jié)果,為前端顯示模塊提供數(shù)據(jù)庫功能支撐。
[0090] 綜上所述,本發(fā)明提出了一種社交媒體中用于主體特征分析的方法,通過分析特 定領(lǐng)域下用戶主題的特征,幫助用戶從海量數(shù)據(jù)中高效獲取信息。
[0091] 顯然,本領(lǐng)域的技術(shù)人員應(yīng)該理解,上述的本發(fā)明的各模塊或各步驟可以用通用 的計(jì)算系統(tǒng)來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算系統(tǒng)上,或者分布在多個(gè)計(jì)算系統(tǒng)所組成 的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算系統(tǒng)可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ) 在存儲(chǔ)系統(tǒng)中由計(jì)算系統(tǒng)來執(zhí)行。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0092] 應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實(shí)施方式】僅僅用于示例性說明或解釋本發(fā)明的 原理,而不構(gòu)成對(duì)本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項(xiàng)】
1. 一種社交媒體中用于主體特征分析的方法,其特征在于,包括: 采集社交網(wǎng)絡(luò)數(shù)據(jù),識(shí)別特定領(lǐng)域中的用戶特征,并對(duì)用戶進(jìn)行分類。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采集社交網(wǎng)絡(luò)數(shù)據(jù),進(jìn)一步包括: 同時(shí)采用基于拓?fù)浣Y(jié)構(gòu)和基于用戶行為內(nèi)容的算法,根據(jù)每個(gè)領(lǐng)域的相關(guān)先驗(yàn)信息, 選擇部分種子用戶作為拓?fù)湎蛲馔卣沟钠瘘c(diǎn),然后根據(jù)種子用戶,結(jié)合領(lǐng)域相關(guān)先驗(yàn)信息 得到一個(gè)領(lǐng)域關(guān)鍵詞列表;根據(jù)關(guān)鍵詞列表搜索相關(guān)的用戶狀態(tài),通過解析返回內(nèi)容,得到 發(fā)表這些狀態(tài)的用戶,作為候選用戶,根據(jù)候選用戶獲得這些用戶的社交網(wǎng)絡(luò)數(shù)據(jù),作為識(shí) 別算法的數(shù)據(jù)源,來分析特定領(lǐng)域用戶的特征; 其中數(shù)據(jù)獲取方式有兩種:一種方式是對(duì)指定的頁面進(jìn)行抓取,即直接訪問Web頁面, 得到原始數(shù)據(jù),然后通過頁面解析等方式對(duì)信息進(jìn)行提取,獲取所需數(shù)據(jù);另一種方式是通 過開放平臺(tái)提供的API獲取數(shù)據(jù); 所述識(shí)別特定領(lǐng)域中的用戶特征,進(jìn)一步包括: 本發(fā)明同時(shí)考慮用戶的社交網(wǎng)絡(luò)有向圖結(jié)構(gòu)關(guān)系和用戶發(fā)表的內(nèi)容信息,將判別用戶 是否是該影響力用戶的問題映射為一個(gè)分類的問題,提取用戶特征以及基于提取的用戶特 征構(gòu)建分類器過程如下: 將用戶特征分為用戶屬性特征、用戶社交習(xí)慣特征、用戶社交內(nèi)容語言特征,所述用戶 屬性特征包括用戶填寫個(gè)人相關(guān)的信息過程中系統(tǒng)會(huì)維持的動(dòng)態(tài)更新的信息,通過開放 API服務(wù)得到,從被關(guān)注人數(shù)、發(fā)布主題數(shù)量上識(shí)別影響力用戶,使用個(gè)性描述和標(biāo)簽兩個(gè) 特征來分別反映用戶個(gè)性描述部分和標(biāo)簽部分的情況,首先將訓(xùn)練集中正向樣本用戶的所 有個(gè)性描述及標(biāo)簽部分進(jìn)行詞頻統(tǒng)計(jì),得到詞頻高于預(yù)定閾值的的詞語集合D和T;然后,通 過如下的計(jì)算公式來得到個(gè)性描述和標(biāo)簽的記分值: 個(gè)性描述記分值=|DinD|/|D 其中,Di指當(dāng)前用戶i的個(gè)性描述中出現(xiàn)的詞; 標(biāo)簽記分值=I Ti η τ | /1 τ 其中,h指當(dāng)前用戶i的個(gè)人標(biāo)簽列表; 統(tǒng)計(jì)每個(gè)主題的平均評(píng)論數(shù)和平均轉(zhuǎn)發(fā)數(shù)的值,將轉(zhuǎn)發(fā)內(nèi)容和會(huì)話內(nèi)容間的關(guān)系添加 到貝葉斯網(wǎng)絡(luò)中,將內(nèi)容主題的生成過程描述如下: 1、 隨機(jī)選擇一個(gè)主題分布9S; 2、 判斷是否是轉(zhuǎn)發(fā)內(nèi)容或者是會(huì)話內(nèi)容,如果是轉(zhuǎn)發(fā)內(nèi)容或會(huì)話內(nèi)容,則將參數(shù)4示記 為1,隨機(jī)選擇一個(gè)文檔分布Θ。,然后,把Θ。的值賦給0 S;如果不是轉(zhuǎn)發(fā)內(nèi)容或會(huì)話內(nèi)容,則隨 機(jī)選擇一個(gè)文檔分布; 3、 在參數(shù)為9S的多項(xiàng)分布基礎(chǔ)上,選擇特定的詞語w。
【專利摘要】本發(fā)明提供了一種社交媒體中用于主體特征分析的方法,該方法包括:采集社交網(wǎng)絡(luò)數(shù)據(jù),識(shí)別特定領(lǐng)域中的用戶特征,并對(duì)用戶進(jìn)行分類。本發(fā)明提出了一種社交媒體中用于主體特征分析的方法,通過分析特定領(lǐng)域下用戶主題的特征,幫助用戶從海量數(shù)據(jù)中高效獲取信息。
【IPC分類】G06Q50/00, G06K9/62, G06F17/30, G06F17/27
【公開號(hào)】CN105608194
【申請(qǐng)?zhí)枴緾N201510981855
【發(fā)明人】董政, 吳文杰, 陳露, 李學(xué)生
【申請(qǐng)人】成都陌云科技有限公司
【公開日】2016年5月25日
【申請(qǐng)日】2015年12月24日
當(dāng)前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
通州区| 成武县| 孟州市| 通渭县| 和龙市| 永丰县| 湛江市| 徐州市| 宿松县| 远安县| 濮阳县| 灵丘县| 安国市| 施甸县| 和龙市| 湖北省| 东乡族自治县| 本溪市| 北京市| 遂平县| 克拉玛依市| 泰和县| 高唐县| 忻州市| 苗栗市| 梅河口市| 炉霍县| 大兴区| 铁岭县| 大田县| 太湖县| 应城市| 昌黎县| 哈密市| 清河县| 福清市| 清丰县| 乌拉特后旗| 龙南县| 富锦市| 翁牛特旗|