两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

分布式數(shù)據(jù)處理平臺(tái)的制作方法

文檔序號(hào):8282449閱讀:544來(lái)源:國(guó)知局
分布式數(shù)據(jù)處理平臺(tái)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種分布式數(shù)據(jù)處理平臺(tái)。
【背景技術(shù)】
[0002]微博是一種典型的大數(shù)據(jù)類型,它從誕生到現(xiàn)在,發(fā)展迅速,例如,新浪微博的每日發(fā)博量已經(jīng)超過(guò)一億條,尤其在突發(fā)和熱點(diǎn)事件中,微博的影響規(guī)模和傳播速度超越了普通博客和傳統(tǒng)的新聞媒體。目前,針對(duì)微博的企業(yè)營(yíng)銷和輿情監(jiān)測(cè)是關(guān)注的熱點(diǎn),例如,微博實(shí)時(shí)查詢,統(tǒng)計(jì)分析,微博分類,熱點(diǎn)檢測(cè)等。
[0003]現(xiàn)有技術(shù)中,采用Hadoop平臺(tái)來(lái)實(shí)現(xiàn)對(duì)微博的實(shí)時(shí)查詢、統(tǒng)計(jì)分析、微博分類、熱點(diǎn)檢測(cè)等。在Hadoop平臺(tái)中,微博數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫(kù)Hbase中。Hadoop平臺(tái)對(duì)微博進(jìn)行分析時(shí),需要從關(guān)系型數(shù)據(jù)庫(kù)調(diào)取微博數(shù)據(jù),基于磁盤對(duì)微博數(shù)據(jù)進(jìn)行捕捉分析和計(jì)算,然后存儲(chǔ)至關(guān)系型數(shù)據(jù)庫(kù)中。然而現(xiàn)有技術(shù)中,從關(guān)系型數(shù)據(jù)庫(kù)調(diào)取微博數(shù)據(jù),需要根據(jù)微博數(shù)據(jù)的ID等標(biāo)識(shí)順序查詢各對(duì)應(yīng)關(guān)系,才能查詢到微博數(shù)據(jù),從而導(dǎo)致采用Hadoop平臺(tái)來(lái)對(duì)微博進(jìn)行查詢分析時(shí)的查詢速度慢,而磁盤對(duì)微博數(shù)據(jù)進(jìn)行捕捉分析和計(jì)算,分析效率低,難以滿足微博大數(shù)據(jù)的要求。

【發(fā)明內(nèi)容】

[0004]本發(fā)明提供一種分布式數(shù)據(jù)處理平臺(tái),用于解決現(xiàn)有技術(shù)中Hadoop平臺(tái)分析效率低的問(wèn)題。
[0005]本發(fā)明的第一個(gè)方面是提供一種分布式數(shù)據(jù)處理平臺(tái),包括:
[0006]存儲(chǔ)層、計(jì)算層、查詢接口與算法庫(kù),以及應(yīng)用層;
[0007]所述存儲(chǔ)層,包括:分布式文件系統(tǒng)HDFS、HBase數(shù)據(jù)庫(kù)系統(tǒng)和分布式索引系統(tǒng)ES ;所述HBase數(shù)據(jù)庫(kù)系統(tǒng)搭建在所述HDFS之上,用于存儲(chǔ)微博的標(biāo)識(shí)與微博數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系;所述分布式索引系統(tǒng)ES中建立有微博關(guān)鍵字段與微博標(biāo)識(shí)之間的對(duì)應(yīng)關(guān)系;
[0008]所述應(yīng)用層,用于接收用戶終端發(fā)送的處理指令,根據(jù)所述處理指令向所述查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求,所述查詢請(qǐng)求中攜帶微博的標(biāo)識(shí)或微博關(guān)鍵字段;
[0009]所述查詢接口與算法庫(kù),用于根據(jù)所述查詢請(qǐng)求從存儲(chǔ)層中查詢微博數(shù)據(jù);
[0010]所述計(jì)算層,用于根據(jù)所述處理指令對(duì)所述查詢接口與算法庫(kù)查詢到的微博數(shù)據(jù)進(jìn)行處理,得到處理結(jié)果,將所述處理結(jié)果反饋給所述應(yīng)用層。
[0011]進(jìn)一步地,所述應(yīng)用層包括:微博搜索組件、統(tǒng)計(jì)分析組件、微博分類組件和事件檢測(cè)組件;
[0012]所述處理指令為微博搜索指令、統(tǒng)計(jì)分析指令、微博分類指令或者事件檢測(cè)指令;
[0013]所述微博搜索組件用于從用戶終端接收所述微博搜索指令,根據(jù)所述微博搜索指令向所述查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求;
[0014]所述統(tǒng)計(jì)分析組件用于從用戶終端接收所述統(tǒng)計(jì)分析指令,根據(jù)所述統(tǒng)計(jì)分析指令向所述查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求;
[0015]所述微博分類組件用于從用戶終端接收所述微博分類指令,根據(jù)所述微博分類指令向所述查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求;
[0016]所述事件檢測(cè)組件用于從用戶終端接收所述事件檢測(cè)指令,根據(jù)所述事件檢測(cè)指令向所述查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求。
[0017]進(jìn)一步地,所述查詢接口與算法庫(kù),包括:統(tǒng)一查詢接口、Shark查詢引擎和Mahout算法集合;所述統(tǒng)一查詢接口用于從應(yīng)用層的各組件中接收查詢請(qǐng)求,根據(jù)所述查詢請(qǐng)求調(diào)用Shark查詢引擎從存儲(chǔ)層中查詢微博數(shù)據(jù)。
[0018]進(jìn)一步地,所述計(jì)算層具體用于,調(diào)用所述查詢接口與算法庫(kù)中的Mahout算法集合,根據(jù)所述各組件的處理指令對(duì)所述查詢接口與算法庫(kù)查詢到的微博數(shù)據(jù)進(jìn)行處理,得到與所述處理指令對(duì)應(yīng)的處理結(jié)果,將所述處理結(jié)果通過(guò)所述統(tǒng)一查詢接口反饋給與所述處理指令對(duì)應(yīng)的組件。
[0019]進(jìn)一步地,所述微博數(shù)據(jù)包括:微博信息數(shù)據(jù)、用戶數(shù)據(jù)、評(píng)論數(shù)據(jù)和轉(zhuǎn)發(fā)關(guān)系數(shù)據(jù)。
[0020]進(jìn)一步地,所述微博信息數(shù)據(jù)中包括:每條微博的ID、來(lái)源、創(chuàng)建時(shí)間、地理信息、微博作者ID、微博配圖、微博內(nèi)容、轉(zhuǎn)發(fā)的上一級(jí)微博的ID、轉(zhuǎn)發(fā)的根微博的ID、轉(zhuǎn)發(fā)數(shù)量、評(píng)論數(shù)量和點(diǎn)贊數(shù)量中的任意一種或多種參數(shù);
[0021]所述微博信息數(shù)據(jù)以微博ID和微博創(chuàng)建時(shí)間為標(biāo)識(shí)存儲(chǔ)在所述HBase數(shù)據(jù)庫(kù)系統(tǒng)中。
[0022]進(jìn)一步地,所述用戶數(shù)據(jù)中包括:用戶WD、微博昵稱、省份、城市、地址、個(gè)人描述、用戶博客地址、自定義圖像、性別、用戶個(gè)性化URL、粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、收藏?cái)?shù)、創(chuàng)建時(shí)間、是否微博認(rèn)證用戶、認(rèn)證類型、互粉數(shù)、備注信息、用戶語(yǔ)言版本、認(rèn)證原因;
[0023]所述用戶數(shù)據(jù)以用戶UID為標(biāo)識(shí)存儲(chǔ)在所述HBase數(shù)據(jù)庫(kù)系統(tǒng)中。
[0024]進(jìn)一步地,所述評(píng)論數(shù)據(jù)中包括:評(píng)論ID、評(píng)論針對(duì)的原始微博ID、發(fā)布評(píng)論的用戶WD、評(píng)論的內(nèi)容、評(píng)論發(fā)布時(shí)間、評(píng)論的來(lái)源;
[0025]所述評(píng)論數(shù)據(jù)以評(píng)論ID、評(píng)論針對(duì)的原始微博ID和評(píng)論發(fā)布時(shí)間為標(biāo)識(shí)存儲(chǔ)在所述HBase數(shù)據(jù)庫(kù)系統(tǒng)中。
[0026]進(jìn)一步地,所述轉(zhuǎn)發(fā)關(guān)系數(shù)據(jù)中包括:原始微博ID,原始微博的各個(gè)轉(zhuǎn)發(fā)微博的ID以及其對(duì)應(yīng)的上一級(jí)微博ID ;
[0027]所述轉(zhuǎn)發(fā)關(guān)系數(shù)據(jù)以所述原始微博ID為標(biāo)識(shí)存儲(chǔ)在所述HBase數(shù)據(jù)庫(kù)系統(tǒng)中。
[0028]本發(fā)明中,提供一種分布式數(shù)據(jù)處理平臺(tái),包括:存儲(chǔ)層、計(jì)算層、查詢接口與算法庫(kù),以及應(yīng)用層;存儲(chǔ)層,包括:分布式文件系統(tǒng)HDFS、HBase數(shù)據(jù)庫(kù)系統(tǒng)和分布式索引系統(tǒng)ES ;HBase數(shù)據(jù)庫(kù)系統(tǒng)搭建在HDFS之上,用于存儲(chǔ)微博的標(biāo)識(shí)與微博數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系;分布式索引系統(tǒng)ES中建立有微博關(guān)鍵字段與微博標(biāo)識(shí)之間的對(duì)應(yīng)關(guān)系;應(yīng)用層,用于接收用戶終端發(fā)送的處理指令,根據(jù)處理指令向查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求,查詢請(qǐng)求中攜帶微博的標(biāo)識(shí)或微博關(guān)鍵字段;查詢接口與算法庫(kù),用于根據(jù)查詢請(qǐng)求從存儲(chǔ)層中查詢微博數(shù)據(jù);計(jì)算層,用于根據(jù)處理指令對(duì)查詢接口與算法庫(kù)查詢到的微博數(shù)據(jù)進(jìn)行處理,得到處理結(jié)果,將處理結(jié)果反饋給應(yīng)用層,從而在HBase數(shù)據(jù)庫(kù)系統(tǒng)和分布式索引系統(tǒng)ES的配合使用下,提高分布式數(shù)據(jù)處理平臺(tái)查詢微博的速度和對(duì)微博進(jìn)行分析的效率,能夠滿足微博大數(shù)據(jù)的要求。
【附圖說(shuō)明】
[0029]圖1為本發(fā)明提供的分布式數(shù)據(jù)處理平臺(tái)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0031]圖1為本發(fā)明提供的分布式數(shù)據(jù)處理平臺(tái)實(shí)施例的結(jié)構(gòu)示意圖,如圖1所示,包括:
[0032]存儲(chǔ)層11、計(jì)算層12、查詢接口與算法庫(kù)13,以及應(yīng)用層14 ;
[0033]存儲(chǔ)層11,包括:分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS) 111、數(shù)據(jù)庫(kù)系統(tǒng)(Hadoop Database,HBase) 112 和分布式索引系統(tǒng)(Elastic Search,ES) 113 ;HBase數(shù)據(jù)庫(kù)系統(tǒng)112搭建在HDFS111之上,用于存儲(chǔ)微博的標(biāo)識(shí)與微博數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系;分布式索引系統(tǒng)ES113中建立有微博關(guān)鍵字段與微博標(biāo)識(shí)之間的對(duì)應(yīng)關(guān)系;
[0034]應(yīng)用層14,用于接收用戶終端發(fā)送的處理指令,根據(jù)處理指令向查詢接口與算法庫(kù)13發(fā)送對(duì)應(yīng)的查詢請(qǐng)求,查詢請(qǐng)求中攜帶微博的標(biāo)識(shí)或微博關(guān)鍵字段;
[0035]查詢接口與算法庫(kù)13,用于根據(jù)查詢請(qǐng)求從存儲(chǔ)層11中查詢微博數(shù)據(jù);
[0036]計(jì)算層12,用于根據(jù)處理指令對(duì)查詢接口與算法庫(kù)13查詢到的微博數(shù)據(jù)進(jìn)行處理,得到處理結(jié)果,將處理結(jié)果反饋給應(yīng)用層14。
[0037]其中,應(yīng)用層具體可以14包括:微博搜索組件、統(tǒng)計(jì)分析組件、微博分類組件和事件檢測(cè)組件;
[0038]對(duì)應(yīng)的,處理指令具體可以為微博搜索指令、統(tǒng)計(jì)分析指令、微博分類指令或者事件檢測(cè)指令;
[0039]微博搜索組件用于從用戶終端接收微博搜索指令,根據(jù)微博搜索指令向查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求;
[0040]統(tǒng)計(jì)分析組件用于從用戶終端接收統(tǒng)計(jì)分析指令,根據(jù)統(tǒng)計(jì)分析指令向查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求;
[0041]微博分類組件用于從用戶終端接收微博分類指令,根據(jù)微博分類指令向查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求;
[0042]事件檢測(cè)組件用于從用戶終端接收事件檢測(cè)指令,根據(jù)事件檢測(cè)指令向查詢接口與算法庫(kù)發(fā)送對(duì)應(yīng)的查詢請(qǐng)求。
[0043]具體地,微博數(shù)據(jù)包括:微博信息數(shù)據(jù)、用戶數(shù)據(jù)、評(píng)論數(shù)據(jù)和轉(zhuǎn)發(fā)關(guān)系數(shù)據(jù)。
[0044]微博信息數(shù)據(jù)中包括:每條微博的ID、來(lái)源、創(chuàng)建時(shí)間、地理信息、微博作者ID、微博配圖、微博內(nèi)容、轉(zhuǎn)發(fā)的上一級(jí)微博的ID、轉(zhuǎn)發(fā)的根微博的ID、轉(zhuǎn)發(fā)數(shù)量、評(píng)論數(shù)量和點(diǎn)贊數(shù)量中的任意一種或多種參數(shù);微博信息數(shù)據(jù)以微博ID和微博創(chuàng)建時(shí)間為標(biāo)識(shí)存儲(chǔ)在HBase數(shù)據(jù)庫(kù)系統(tǒng)中。
[0045]用戶數(shù)據(jù)中
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
页游| 华容县| 米易县| 威海市| 东港市| 贵阳市| 济源市| 上高县| 海宁市| 石阡县| 丽水市| 通州区| 临潭县| 临海市| 岫岩| 岱山县| 东城区| 嘉禾县| 安仁县| 房山区| 西安市| 松江区| 红原县| 伊金霍洛旗| 盖州市| 新化县| 蒙阴县| 葵青区| 泸溪县| 军事| 朝阳市| 乐陵市| 临汾市| 开江县| 米易县| 皋兰县| 温州市| 巨野县| 苗栗市| 安吉县| 阿拉尔市|