两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法和系統(tǒng)的制作方法

文檔序號:6525446閱讀:367來源:國知局
一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法和系統(tǒng)的制作方法【專利摘要】本發(fā)明提出了一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法和系統(tǒng),建立結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)關(guān)系,結(jié)合關(guān)系型數(shù)據(jù)庫、分布式數(shù)據(jù)庫以及內(nèi)存數(shù)據(jù)庫的各自的優(yōu)勢,整合各類數(shù)據(jù),基于數(shù)據(jù)倉庫做深層次數(shù)據(jù)分析,不斷深化數(shù)據(jù)挖掘,實(shí)現(xiàn)高效、高質(zhì)量的異構(gòu)大數(shù)據(jù)分析處理。本發(fā)明對互聯(lián)網(wǎng)應(yīng)用中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián),通過Map/Reduce分布式處理和數(shù)據(jù)挖掘處理,把處理結(jié)果和相關(guān)數(shù)據(jù)以數(shù)據(jù)庫結(jié)構(gòu)的方式寫入內(nèi)存,形成簡易內(nèi)存數(shù)據(jù)庫,便于高速計(jì)算和快速響應(yīng)?!緦@f明】一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法和系統(tǒng)【
技術(shù)領(lǐng)域
】[0001]本發(fā)明主要涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法和系統(tǒng)?!?br>背景技術(shù)
】[0002]商業(yè)智能(BI,BusinessIntelligence)綜合利用數(shù)據(jù)倉庫、ETL技術(shù)、OLAP分析以及數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行有效的整合和存儲(chǔ),并對數(shù)據(jù)進(jìn)行分析,提取出其中蘊(yùn)藏的知識,從而幫助企業(yè)進(jìn)行決策分析,在企業(yè)中得到了越來越廣泛的應(yīng)用。[0003]隨著互聯(lián)網(wǎng)的快速發(fā)展,使互聯(lián)網(wǎng)的應(yīng)用越來越豐富,這些應(yīng)用讓互聯(lián)網(wǎng)留存了海量的數(shù)據(jù)信息,包括用戶的瀏覽記錄,交易記錄、日志文件、網(wǎng)絡(luò)頁面信息以及超鏈接。如何在海量的、動(dòng)態(tài)的互聯(lián)網(wǎng)信息數(shù)據(jù)中獲取有用的知識,是商業(yè)智能的價(jià)值所在。[0004]但是傳統(tǒng)的商業(yè)智能架構(gòu)移植到互聯(lián)網(wǎng)應(yīng)用領(lǐng)域會(huì)產(chǎn)生嚴(yán)重的“水土不服”現(xiàn)象,因?yàn)槿缦聨追N情況限制了傳統(tǒng)的商業(yè)智能架構(gòu)的作用:[0005]?互聯(lián)網(wǎng)應(yīng)用中數(shù)據(jù)源多種多樣,包含各種關(guān)系型數(shù)據(jù)庫保存的數(shù)據(jù),社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù),網(wǎng)絡(luò)日志數(shù)據(jù)、圖片文件、文本文件等。但傳統(tǒng)的商業(yè)智能都是以處理各種關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)見長。[0006]籲互聯(lián)網(wǎng)數(shù)據(jù)量巨大。目前各類網(wǎng)站,特別是運(yùn)營時(shí)間比較長的電子商務(wù)網(wǎng)站,都會(huì)產(chǎn)生了巨大的網(wǎng)絡(luò)日志,而且在數(shù)據(jù)庫中也存儲(chǔ)了大量的各類數(shù)據(jù),包括產(chǎn)品數(shù)據(jù)、商情數(shù)據(jù)、詢盤數(shù)據(jù)等,另外,還有大量的各類數(shù)據(jù)文件保存在服務(wù)器中,在處理這么大規(guī)模的數(shù)據(jù)都出現(xiàn)了很多新的問題,而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫目前已經(jīng)無法滿足處理如此大規(guī)模數(shù)據(jù)的要求。[0007]?電子商務(wù)對于數(shù)據(jù)分析的實(shí)時(shí)性要求極高,有很大部分的數(shù)據(jù)只在短時(shí)間內(nèi)才能體現(xiàn)數(shù)據(jù)的價(jià)值,處理數(shù)據(jù)速度的快慢就顯得尤為重要。[0008]?用戶量巨大,互聯(lián)網(wǎng)特別是電子商務(wù)的BI應(yīng)用很大一部分是面向網(wǎng)站的用戶群體的,這個(gè)群體數(shù)目巨大。傳統(tǒng)的BI展現(xiàn)工具設(shè)計(jì)的時(shí)候是為了企業(yè)的中高層用戶設(shè)計(jì),移植到互聯(lián)網(wǎng)應(yīng)用中,無論從用戶體驗(yàn),交互效率都存在巨大差距。[0009]以上四個(gè)問題就是傳統(tǒng)的BI解決方案在互聯(lián)網(wǎng)領(lǐng)域?qū)覍沂〉母驹?。[0010]目前針對大數(shù)據(jù)的處理方法,已經(jīng)有一些研究和應(yīng)用成果。[0011]專利“一種分布式數(shù)據(jù)流處理方法及其系統(tǒng)”(專利申請?zhí)?201110378247.3),它提出的方法是:將原始數(shù)據(jù)流分割成實(shí)時(shí)數(shù)據(jù)流和歷史數(shù)據(jù)流,并行處理實(shí)時(shí)數(shù)據(jù)流和歷史數(shù)據(jù)流,并對他們的處理結(jié)果進(jìn)行整合。這種方法通過對數(shù)據(jù)按時(shí)間進(jìn)行分類,實(shí)時(shí)數(shù)據(jù)流的運(yùn)算能夠最大限度地以分布式并行處理,保證了大數(shù)據(jù)量的處理和高實(shí)時(shí)性。但這種方法沒有解決異構(gòu)數(shù)據(jù)之間關(guān)系問題,對于異構(gòu)大數(shù)據(jù)如何協(xié)調(diào)之間的關(guān)聯(lián)關(guān)系,并進(jìn)行整合處理方面,還沒有提出解決方法。[0012]專利“一種大數(shù)據(jù)量的數(shù)據(jù)查詢方式”(專利申請?zhí)?201210075512.5),此方法先定義增量數(shù)據(jù)捕獲方式,以及增量捕獲調(diào)度執(zhí)行計(jì)劃,然后執(zhí)行增量數(shù)據(jù)定期歸集,最后執(zhí)行數(shù)據(jù)統(tǒng)計(jì)結(jié)果查詢。此方法把復(fù)雜的數(shù)據(jù)統(tǒng)計(jì)查詢過程包分解成兩個(gè)過程:統(tǒng)計(jì)計(jì)算歸集和實(shí)時(shí)查詢;將統(tǒng)計(jì)計(jì)算歸集過程放在后臺運(yùn)行,并且歸集過程只歸集增量數(shù)據(jù),提高了大數(shù)據(jù)量統(tǒng)計(jì)查詢的執(zhí)行效率。此方法主要是針對關(guān)系型數(shù)據(jù)數(shù)據(jù)庫提出的,沒有涉及到異構(gòu)數(shù)據(jù)的處理。【
發(fā)明內(nèi)容】[0013]為了解決上述問題,本發(fā)明提出了一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法和系統(tǒng),建立結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)關(guān)系,結(jié)合關(guān)系型數(shù)據(jù)庫、分布式數(shù)據(jù)庫以及內(nèi)存數(shù)據(jù)庫的各自的優(yōu)勢,整合各類數(shù)據(jù),基于數(shù)據(jù)倉庫做深層次數(shù)據(jù)分析,不斷深化數(shù)據(jù)挖掘,實(shí)現(xiàn)高效、高質(zhì)量的異構(gòu)大數(shù)據(jù)分析處理。[0014]本發(fā)明技術(shù)方案如下:[0015]一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法,包括:[0016]數(shù)據(jù)源分為兩部分存儲(chǔ),一部分存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,另一部分存儲(chǔ)在文件系統(tǒng)中。其中,存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)主要是各個(gè)業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),也包括關(guān)于社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù);存儲(chǔ)在文件系統(tǒng)中的數(shù)據(jù)主要是以網(wǎng)絡(luò)日志文件為主的半結(jié)構(gòu)化數(shù)據(jù),以及各類圖片文件和文檔文件等非結(jié)構(gòu)化數(shù)據(jù)。[0017]各個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),經(jīng)過標(biāo)準(zhǔn)數(shù)據(jù)接口,通過ETL,加載到0DS,再從ODS通過ETL加載到數(shù)據(jù)倉庫中。[0018]存儲(chǔ)在文件系統(tǒng)中的各類圖片文件和文檔文件,首先加載到Hadoop分布式文件系統(tǒng)(簡稱:hdfs)中,再利用Map/Reduce對這些文件進(jìn)行處理,使之能夠被Hive所使用。[0019]Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,它將存儲(chǔ)在hdfs中的網(wǎng)絡(luò)日志文件這種半結(jié)構(gòu)化文件映射到一張數(shù)據(jù)庫表中,并提供完整的SQL語言進(jìn)行數(shù)據(jù)的查詢、處理等功能,Hive將SQL語言解析成Map/Reduce任務(wù)進(jìn)行分布式運(yùn)行處理。同時(shí),Hive將存儲(chǔ)在hdfs中的圖片文件、文檔文件等這種非結(jié)構(gòu)化文件的屬性映射到一張數(shù)據(jù)庫表中。[0020]在這些數(shù)據(jù)庫表中,包含有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),在其中存在有隱性的各種屬性數(shù)據(jù),包括隱性的行為數(shù)據(jù)等。通過將庫表中的字段與數(shù)據(jù)倉庫中的知識庫建立關(guān)聯(lián)關(guān)系,從而建立了隱性數(shù)據(jù)與數(shù)據(jù)倉庫中顯性業(yè)務(wù)數(shù)據(jù)之間的聯(lián)系,為異構(gòu)數(shù)據(jù)的整合做好準(zhǔn)備。[0021]確定與網(wǎng)絡(luò)日志、圖片文件、文檔文件等有關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)后,將他們從數(shù)據(jù)倉庫提取出來,這其中包含有注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),也包括關(guān)于社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容等文本型的非結(jié)構(gòu)化數(shù)據(jù)。[0022]使之與網(wǎng)絡(luò)日志信息、圖片文件、文檔文件中的相應(yīng)數(shù)據(jù)對應(yīng)后,存儲(chǔ)在HBase分布式數(shù)據(jù)庫中,其中,HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,HBase在Hadoop之上提供了類似于Bigtable的能力,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫。[0023]這樣在HBase存有大量的各類異構(gòu)數(shù)據(jù),根據(jù)業(yè)務(wù)需要,利用Map/Reduce對HBase中存儲(chǔ)的大量相關(guān)聯(lián)數(shù)據(jù)進(jìn)行分布式運(yùn)算處理,包括數(shù)據(jù)分組、數(shù)據(jù)排序、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)異常檢測等,從而完成對大量數(shù)據(jù)的預(yù)處理,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)間的初步整合。計(jì)算后的結(jié)果作為中間結(jié)果保存在HBase中。其中,MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。[0024]其中,Hive把一部分部分關(guān)聯(lián)數(shù)據(jù)以及計(jì)算得出的中間結(jié)果,通過ETL再加載到數(shù)據(jù)倉庫中,從而可以分享給所有的數(shù)據(jù)集市使用。另一部分按照不同數(shù)據(jù)集市的主題需要,通過ETL,加載到各個(gè)不同主題的數(shù)據(jù)集市中。[0025]那么在數(shù)據(jù)倉庫和這些數(shù)據(jù)集市中包含有:各個(gè)業(yè)務(wù)系統(tǒng)包含的注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),以及關(guān)于社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容等文本型的非結(jié)構(gòu)化數(shù)據(jù),還有網(wǎng)絡(luò)日志中的數(shù)據(jù)、圖片文件和文檔文件中包含的屬性數(shù)據(jù)、以及這些數(shù)據(jù)初步整合的中間數(shù)據(jù)結(jié)果等。[0026]這些異構(gòu)數(shù)據(jù)進(jìn)行上述處理后,以結(jié)構(gòu)化的形式存儲(chǔ)在各個(gè)數(shù)據(jù)集市和數(shù)據(jù)倉庫中。[0027]在各個(gè)不同主題的數(shù)據(jù)集市中,依照各自的數(shù)據(jù)挖掘算法對數(shù)據(jù)集市中的數(shù)據(jù)進(jìn)行挖掘計(jì)算,形成各自主題領(lǐng)域內(nèi)的局部知識結(jié)果,然后數(shù)據(jù)集市將各自的局部知識結(jié)果回寫到數(shù)據(jù)倉庫中。[0028]數(shù)據(jù)倉庫對各個(gè)業(yè)務(wù)主題的局部知識結(jié)果進(jìn)行統(tǒng)一存儲(chǔ)并整理,形成數(shù)據(jù)倉庫中的知識層,得到全局知識結(jié)果。這樣,每個(gè)數(shù)據(jù)集市就可以分享到整體業(yè)務(wù)的知識,并利用知識層的數(shù)據(jù)進(jìn)一步挖掘更多的數(shù)據(jù)知識。這個(gè)過程不斷循環(huán)進(jìn)行,形成一個(gè)有效的知識信息閉環(huán),提高了知識的重復(fù)利用以及數(shù)據(jù)挖掘的性能。[0029]在數(shù)據(jù)集市中,常用數(shù)據(jù)以類似數(shù)據(jù)庫的結(jié)構(gòu)寫入內(nèi)存,這些數(shù)據(jù)一直駐留內(nèi)存,形成了簡易便捷的內(nèi)存數(shù)據(jù)庫,網(wǎng)站活動(dòng)事務(wù)數(shù)據(jù)可以和內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行交互處理。通過內(nèi)存數(shù)據(jù)庫,用戶通過在線分析實(shí)時(shí)監(jiān)控網(wǎng)上訪問情況,詢盤數(shù)據(jù)等實(shí)時(shí)信息。由于節(jié)省了內(nèi)存中的數(shù)據(jù)和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)同步的過程,實(shí)現(xiàn)了實(shí)時(shí)查詢。另外使用了內(nèi)存數(shù)據(jù)庫技術(shù)后,整體提高了數(shù)據(jù)集市常用數(shù)據(jù)的處理速度,大大緩解了訪問磁盤數(shù)據(jù)庫的壓力,提高數(shù)據(jù)查詢,加載,修改,刪除的性能,為在線實(shí)時(shí)分析提供了可能。[0030]一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合系統(tǒng),包括:[0031]本系統(tǒng)由業(yè)務(wù)系統(tǒng)、標(biāo)準(zhǔn)數(shù)據(jù)接口模塊、ODS模塊、數(shù)據(jù)倉庫模塊、數(shù)據(jù)集市模塊、內(nèi)存數(shù)據(jù)庫模塊、通用文件系統(tǒng)、Hadoop分布式文件系統(tǒng)、Hive模塊、HBase分布式數(shù)據(jù)庫模塊組成。其中,業(yè)務(wù)系統(tǒng)、標(biāo)準(zhǔn)數(shù)據(jù)接口模塊、ODS模塊、數(shù)據(jù)倉庫模塊、數(shù)據(jù)集市模塊、內(nèi)存數(shù)據(jù)庫模塊依次連接;通用文件系統(tǒng)、Hadoop分布式文件系統(tǒng)、Hive模塊、HBase分布式數(shù)據(jù)庫模塊依次連接;數(shù)據(jù)倉庫模塊與Hive模塊連接;數(shù)據(jù)集市模塊與HBase分布式數(shù)據(jù)庫豐吳塊連接。[0032]業(yè)務(wù)系統(tǒng)模塊,用于實(shí)現(xiàn)企業(yè)的業(yè)務(wù)信息化功能,通過此模塊,收集管理大量的用戶各方面信息數(shù)據(jù),包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)等,這些數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),還有社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容等,這些數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),也保存在關(guān)系型數(shù)據(jù)庫中。[0033]標(biāo)準(zhǔn)數(shù)據(jù)接口模塊,用于對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范處理。[0034]ODS(OperationalDataStore)模塊是數(shù)據(jù)倉庫體系結(jié)構(gòu)中的一個(gè)可選部分,ODS具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù)。ODS用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與業(yè)務(wù)系統(tǒng)基本保持一致,因此在抽取過程中極大降低了數(shù)據(jù)轉(zhuǎn)化的復(fù)雜性。[0035]數(shù)據(jù)倉庫模塊,從ODS中加載數(shù)據(jù),所需數(shù)據(jù)從ODS中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫,并形成多個(gè)業(yè)務(wù)數(shù)據(jù)之間的關(guān)聯(lián),數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。[0036]數(shù)據(jù)集市模塊,數(shù)據(jù)是從數(shù)據(jù)倉庫和HBase分布式數(shù)據(jù)庫中抽取出來的。每個(gè)數(shù)據(jù)集市包括來自數(shù)據(jù)倉庫的歷史數(shù)據(jù)的子集,另外還包括與這些數(shù)據(jù)關(guān)聯(lián)的來自HBase的數(shù)據(jù)。[0037]在數(shù)據(jù)集市模塊中,可以對加載的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和OLAP分析,并把得出的局部知識結(jié)果回寫到數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫對各個(gè)業(yè)務(wù)主題的局部知識結(jié)果統(tǒng)一存儲(chǔ)并管理,形成數(shù)據(jù)倉庫中的知識層,得到全局知識結(jié)果。每個(gè)數(shù)據(jù)集市就可以分享到全局知識結(jié)果,并利用全局知識結(jié)果挖掘出更多的數(shù)據(jù)知識。這個(gè)過程不斷循環(huán)進(jìn)行,形成一個(gè)有效的知識信息閉環(huán),提高了知識的重復(fù)利用以及數(shù)據(jù)挖掘的性能,進(jìn)一步提高整個(gè)系統(tǒng)的分析質(zhì)量。[0038]內(nèi)存數(shù)據(jù)庫模塊,將數(shù)據(jù)集市中的數(shù)據(jù)及通過數(shù)據(jù)挖掘和OLAP分析得到的結(jié)果,以數(shù)據(jù)庫結(jié)構(gòu)的方式寫入內(nèi)存,快速形成便捷簡易內(nèi)存數(shù)據(jù)庫,方便對用戶的訪問進(jìn)行快速計(jì)算、快速響應(yīng)。通過內(nèi)存數(shù)據(jù)庫,網(wǎng)站活動(dòng)事務(wù)數(shù)據(jù)可以和內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行交互處理,可以實(shí)時(shí)監(jiān)控網(wǎng)上訪問及關(guān)注情況、詢盤數(shù)據(jù)等,省去了內(nèi)存中的數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)同步的過程,能夠?qū)崟r(shí)查詢,另外使用了內(nèi)存數(shù)據(jù)庫后,提高了常用數(shù)據(jù)的處理速度,緩解了訪問關(guān)系型數(shù)據(jù)庫的壓力,提高數(shù)據(jù)查詢,加載,修改,刪除的性能,提高了在線實(shí)時(shí)分析的性能和質(zhì)量。[0039]Hadoop分布式文件系統(tǒng),用于存儲(chǔ)大量的半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),其中半結(jié)構(gòu)化數(shù)據(jù)主要包括網(wǎng)絡(luò)日志,非結(jié)構(gòu)化數(shù)據(jù)主要包括圖片文件、文檔文件。[0040]Hive模塊,用于將存儲(chǔ)在Hadoop分布式文件系統(tǒng)中的半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),與存儲(chǔ)在數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行關(guān)聯(lián),并調(diào)用Map/Reduce對這些數(shù)據(jù)進(jìn)行分布式處理,得到中間計(jì)算結(jié)果。然后,把關(guān)聯(lián)的各種異構(gòu)數(shù)據(jù)以及中間計(jì)算結(jié)果,保存到HBase分布式數(shù)據(jù)庫中。同時(shí),一部分?jǐn)?shù)據(jù)通過ETL加載到數(shù)據(jù)倉庫中。[0041]HBase分布式數(shù)據(jù)庫模塊,通過ETL,把其中的各類數(shù)據(jù)按照不同的主題,加載到相應(yīng)的數(shù)據(jù)集市中。[0042]一種數(shù)據(jù)倉庫持續(xù)共享知識的方法,包括:[0043]ODS把經(jīng)過處理后的業(yè)務(wù)數(shù)據(jù)通過ETL傳送給數(shù)據(jù)倉庫,數(shù)據(jù)倉庫應(yīng)Hive的需求,把其中相關(guān)聯(lián)的數(shù)據(jù)傳遞給Hive。[0044]Hive對關(guān)聯(lián)的異構(gòu)數(shù)據(jù)進(jìn)行Map/Reduce分布式處理,通過分布式處理后,得到了處理的中間結(jié)果,在一定程度上減少了待處理的數(shù)據(jù)量。把部分關(guān)聯(lián)數(shù)據(jù)及處理的中間結(jié)果通過ETL的方式傳遞給數(shù)據(jù)倉庫。[0045]數(shù)據(jù)倉庫根據(jù)不同主題的需要,把這些數(shù)據(jù)分別傳送不同的數(shù)據(jù)集市。[0046]數(shù)據(jù)集市獲得數(shù)據(jù)倉庫的數(shù)據(jù),以及HBase傳遞過來的關(guān)聯(lián)數(shù)據(jù)及中間結(jié)果數(shù)據(jù),在數(shù)據(jù)集市中通過各自的數(shù)據(jù)挖掘算法進(jìn)行計(jì)算處理,并把得到的局部知識結(jié)果回寫到數(shù)據(jù)倉庫。[0047]數(shù)據(jù)倉庫獲得各個(gè)數(shù)據(jù)集市傳遞過來的局部知識結(jié)果,進(jìn)行整合處理,通過數(shù)據(jù)寬表形成全局知識結(jié)果,并把全局知識結(jié)果傳遞給各個(gè)數(shù)據(jù)集市進(jìn)行共享。[0048]數(shù)據(jù)集市結(jié)合獲得的數(shù)據(jù)寬表中的數(shù)據(jù),通過新的數(shù)據(jù)挖掘算法進(jìn)行計(jì)算,不斷深化知識結(jié)果,再把深化的局部知識結(jié)果回寫到數(shù)據(jù)倉庫。其中,新的數(shù)據(jù)挖掘算法是通過研發(fā)人員根據(jù)更新后的知識結(jié)果,加入到數(shù)據(jù)集市的挖掘算法。[0049]數(shù)據(jù)倉庫獲得數(shù)據(jù)集市新的局部知識結(jié)果,并不斷整合多個(gè)數(shù)據(jù)集市的局部知識結(jié)果,形成新的全局知識結(jié)果,再傳遞給各個(gè)數(shù)據(jù)集市共享,此過程不斷循環(huán)。[0050]本發(fā)明的有益效果如下:[0051](I)結(jié)合了關(guān)系型數(shù)據(jù)庫、分布式數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫的各自優(yōu)勢,優(yōu)化了異構(gòu)大數(shù)據(jù)的處理。[0052](2)運(yùn)用了分布式計(jì)算來進(jìn)行大數(shù)據(jù)分布式處理,實(shí)現(xiàn)了對大數(shù)據(jù)量、計(jì)算簡單這2個(gè)特性的需求,并且運(yùn)用了經(jīng)典的數(shù)據(jù)挖掘方式來實(shí)現(xiàn)數(shù)據(jù)的深度分析,使本方法既有大數(shù)據(jù)的廣度處理,又有對大數(shù)據(jù)的深度處理。同時(shí),通過大數(shù)據(jù)分布式處理,得到了中間結(jié)果,減少了待處理的數(shù)據(jù)量,有利于提高數(shù)據(jù)倉庫和數(shù)據(jù)集市的運(yùn)行效率。[0053](3)在數(shù)據(jù)集市中,把對數(shù)據(jù)的挖掘結(jié)果以及OLAP的分析結(jié)果形成的局部知識結(jié)果,回寫到數(shù)據(jù)倉庫,通過數(shù)據(jù)倉庫整合,形成全局知識結(jié)果,分享到各個(gè)數(shù)據(jù)集市,這個(gè)過程不斷循環(huán),可以持續(xù)提高數(shù)據(jù)的處理分析的質(zhì)量。[0054](4)研發(fā)人員根據(jù)知識結(jié)果不斷增加新的數(shù)據(jù)挖掘算法,使挖掘的知識結(jié)果更加全面,更加準(zhǔn)確,挖掘的效果更好。[0055](5)將結(jié)果數(shù)據(jù)以及相關(guān)數(shù)據(jù),以數(shù)據(jù)庫結(jié)構(gòu)的方式寫入內(nèi)存,這些數(shù)據(jù)一直駐留內(nèi)存中,能夠進(jìn)行高速計(jì)算、快速響應(yīng)用戶訪問?!緦@綀D】【附圖說明】[0056]圖1本發(fā)明實(shí)施例數(shù)據(jù)處理流程圖;[0057]圖2本發(fā)明實(shí)施例系統(tǒng)結(jié)構(gòu)示意圖;[0058]圖3本發(fā)明實(shí)施例數(shù)據(jù)倉庫持續(xù)共享知識的流程圖?!揪唧w實(shí)施方式】[0059]在本發(fā)明中,結(jié)合了關(guān)系型數(shù)據(jù)庫、分布式數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫的各自優(yōu)勢,對互聯(lián)網(wǎng)應(yīng)用中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián),通過Map/Reduce分布式處理和數(shù)據(jù)挖掘處理,把處理結(jié)果和相關(guān)數(shù)據(jù)以數(shù)據(jù)庫結(jié)構(gòu)的方式寫入內(nèi)存,形成簡易內(nèi)存數(shù)據(jù)庫,便于高速計(jì)算和快速響應(yīng)。[0060]參閱圖1所示,本發(fā)明實(shí)施例的數(shù)據(jù)處理流程,具體步驟為:[0061]步驟100:從數(shù)據(jù)源獲取數(shù)據(jù)。其中一部分結(jié)構(gòu)化數(shù)據(jù)通過各個(gè)業(yè)務(wù)系統(tǒng)中收集,存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)等。另外,業(yè)務(wù)系統(tǒng)中的社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù),也存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中;網(wǎng)絡(luò)日志文件作為半結(jié)構(gòu)化數(shù)據(jù),圖片文件和文檔文件等作為非結(jié)構(gòu)化數(shù)據(jù),都存儲(chǔ)在通用文件系統(tǒng)中。[0062]步驟101:業(yè)務(wù)數(shù)據(jù)通過ETL加載到數(shù)據(jù)倉庫中。各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)通過標(biāo)準(zhǔn)數(shù)據(jù)接口,加載到ODS中,再通過ETL加載到數(shù)據(jù)倉庫中。[0063]步驟102:通用文件系統(tǒng)中的圖片文件和文檔文件據(jù),先加載到hdfs中,并通過Map/Reduce處理,轉(zhuǎn)換成Hive模塊能夠處理的格式,Hive從存儲(chǔ)在hdfs的文件中取出半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中,網(wǎng)絡(luò)日志中包含有半結(jié)構(gòu)化數(shù)據(jù),圖片文件和文檔文件中包含有非結(jié)構(gòu)化數(shù)據(jù)。[0064]步驟103=Hive模塊對取得的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),與數(shù)據(jù)倉庫中的知識庫數(shù)據(jù)進(jìn)行關(guān)聯(lián),建立結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的對應(yīng)關(guān)系。[0065]例如,網(wǎng)絡(luò)日志中的訪問IP信息與數(shù)據(jù)倉庫中的地址信息字段建立關(guān)聯(lián)關(guān)系,地址信息里含有國家、地區(qū)等信息。另外,圖片文件的屬性信息與數(shù)據(jù)倉庫中的產(chǎn)品ID信息建立對應(yīng)的關(guān)聯(lián)關(guān)系。[0066]步驟104:建立關(guān)聯(lián)關(guān)系后,把相關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)從數(shù)據(jù)倉庫取出,與包含在圖片文件和文檔文件中的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)按照對應(yīng)關(guān)系一起存儲(chǔ)在分布式數(shù)據(jù)庫HBase中。同時(shí)對于要處理的數(shù)據(jù),用Map/Reduce進(jìn)行分布式計(jì)算處理,并把中間計(jì)算結(jié)果也保存在HBase中。其中這種分布式處理包含數(shù)據(jù)分組、數(shù)據(jù)排序、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)異常檢測等,從而完成對大量數(shù)據(jù)的預(yù)處理,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)間的初步整合。[0067]步驟105:通過ETL,把初步把部分關(guān)聯(lián)的數(shù)據(jù)及中間結(jié)果數(shù)據(jù)加載到數(shù)據(jù)倉庫中,同時(shí)按照不同的主題把關(guān)聯(lián)的數(shù)據(jù)及中間結(jié)果數(shù)據(jù)加載到各個(gè)相應(yīng)的數(shù)據(jù)集市中。[0068]步驟106:各個(gè)數(shù)據(jù)集市根據(jù)自身的數(shù)據(jù),按照數(shù)據(jù)挖掘算法進(jìn)行挖掘計(jì)算,以及根據(jù)需要進(jìn)行OLAP處理,形成局部知識結(jié)果。把這些局部知識結(jié)果回寫到數(shù)據(jù)倉庫,數(shù)據(jù)倉庫對這些局部知識結(jié)果,進(jìn)行整理,形成數(shù)據(jù)寬表,得到全局知識結(jié)果,再共享給各個(gè)數(shù)據(jù)集市,數(shù)據(jù)集市根據(jù)全局知識結(jié)果,再結(jié)合相應(yīng)的新的數(shù)據(jù)挖掘算法進(jìn)行計(jì)算,不斷深化知識,此過程不斷循環(huán)。[0069]步驟107:在數(shù)據(jù)集市中,將常用數(shù)據(jù)以數(shù)據(jù)庫結(jié)構(gòu)的形式寫入內(nèi)存,形成簡易、便捷的內(nèi)存數(shù)據(jù)庫,數(shù)據(jù)可以在內(nèi)存在進(jìn)行快速計(jì)算,以及對用戶的訪問進(jìn)行快速響應(yīng),實(shí)現(xiàn)實(shí)時(shí)查詢和實(shí)時(shí)分析。[0070]參閱圖2所示,本發(fā)明實(shí)施例的系統(tǒng)結(jié)構(gòu),包括[0071]本系統(tǒng)由業(yè)務(wù)系統(tǒng)模塊200、標(biāo)準(zhǔn)數(shù)據(jù)接口模塊201、ODS模塊202、數(shù)據(jù)倉庫模塊203、數(shù)據(jù)集市模塊204、內(nèi)存數(shù)據(jù)庫模塊205、通用文件系統(tǒng)206、Hadoop分布式文件系統(tǒng)207,Hive模塊208、HBase分布式數(shù)據(jù)庫模塊209組成。其中,業(yè)務(wù)系統(tǒng)模塊200、標(biāo)準(zhǔn)數(shù)據(jù)接口模塊201、ODS模塊202、數(shù)據(jù)倉庫模塊203、數(shù)據(jù)集市模塊204、內(nèi)存數(shù)據(jù)庫模塊205依次連接;通用文件系統(tǒng)106、Hadoop分布式文件系統(tǒng)207、Hive模塊208、HBase分布式數(shù)據(jù)庫模塊209依次連接;數(shù)據(jù)倉庫模塊203與Hive模塊208連接;數(shù)據(jù)集市模塊204與HBase分布式數(shù)據(jù)庫模塊209連接。[0072]業(yè)務(wù)系統(tǒng)模塊200,用于實(shí)現(xiàn)企業(yè)的業(yè)務(wù)信息化功能,通過此模塊,收集管理大量的用戶各方面信息數(shù)據(jù),包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)等,這些數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),以及社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容等文本型的非結(jié)構(gòu)化數(shù)據(jù),都保存在關(guān)系型數(shù)據(jù)庫中。[0073]標(biāo)準(zhǔn)數(shù)據(jù)接口模塊201,用于對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范處理。[0074]ODS(OperationalDataStore)模塊202是數(shù)據(jù)倉庫體系結(jié)構(gòu)中的一個(gè)可選部分,ODS具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù)。ODS用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與業(yè)務(wù)系統(tǒng)基本保持一致,因此在抽取過程中極大降低了數(shù)據(jù)轉(zhuǎn)化的復(fù)雜性。[0075]數(shù)據(jù)倉庫模塊203,從ODS模塊202中加載數(shù)據(jù),所需數(shù)據(jù)從ODS中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫,并形成多個(gè)業(yè)務(wù)數(shù)據(jù)之間的關(guān)聯(lián),數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。[0076]數(shù)據(jù)集市模塊204,數(shù)據(jù)是從數(shù)據(jù)倉庫模塊203和HBase分布式數(shù)據(jù)庫108中抽取出來的。它根據(jù)用戶群體的特殊需求,每個(gè)數(shù)據(jù)集市包括來自數(shù)據(jù)倉庫的歷史數(shù)據(jù)的子集,用以滿足特定部門、團(tuán)隊(duì)、客戶或應(yīng)用程序分析和報(bào)告需求。在數(shù)據(jù)集市模塊204中,可以對加載的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和OLAP分析,并把得出的知識回寫到數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫對各個(gè)業(yè)務(wù)主題的知識信息進(jìn)行統(tǒng)一存儲(chǔ)并管理,形成數(shù)據(jù)倉庫中的知識層。這樣,每個(gè)數(shù)據(jù)集市就可以分享到全局知識結(jié)果,并利用全局知識結(jié)果挖掘出更多的數(shù)據(jù)知識。這個(gè)過程不斷循環(huán)進(jìn)行,形成一個(gè)有效的知識信息閉環(huán),極大的提高了知識的重復(fù)利用以及數(shù)據(jù)挖掘的性能,進(jìn)一步提高整個(gè)系統(tǒng)的分析質(zhì)量。[0077]內(nèi)存數(shù)據(jù)庫模塊205,將數(shù)據(jù)集市中的數(shù)據(jù)及通過數(shù)據(jù)挖掘和OLAP分析得到的結(jié)果,以數(shù)據(jù)庫結(jié)構(gòu)的方式寫入內(nèi)存,快速形成便捷簡易內(nèi)存數(shù)據(jù)庫,方便對用戶的訪問進(jìn)行快速計(jì)算、快速響應(yīng),并提供內(nèi)存數(shù)據(jù)庫數(shù)據(jù)的快速修改更新。[0078]通用文件系統(tǒng)206,用于存儲(chǔ)大量的半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),其中半結(jié)構(gòu)化數(shù)據(jù)主要包括網(wǎng)絡(luò)日志,非結(jié)構(gòu)化數(shù)據(jù)主要包括圖片文件、文檔文件等。[0079]Hadoop分布式文件系統(tǒng)207,從通用文件系統(tǒng)206加載大量的半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),其中半結(jié)構(gòu)化數(shù)據(jù)主要包括網(wǎng)絡(luò)日志,非結(jié)構(gòu)化數(shù)據(jù)主要包括圖片文件、文檔文件。[0080]Hive模塊208,用于將存儲(chǔ)在Hadoop分布式文件系統(tǒng)207中的半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),與存儲(chǔ)在數(shù)據(jù)倉庫中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián),并調(diào)用Map/Reduce對這些數(shù)據(jù)進(jìn)行分布式處理,得到中間計(jì)算結(jié)果。同時(shí),Hive把部分關(guān)聯(lián)的各種異構(gòu)數(shù)據(jù)以及中間計(jì)算結(jié)果通過ETL加載到數(shù)據(jù)倉庫,然后,把關(guān)聯(lián)的各種異構(gòu)數(shù)據(jù)以及中間計(jì)算結(jié)果,保存到HBase分布式數(shù)據(jù)庫模塊209中。[0081]HBase分布式數(shù)據(jù)庫模塊209,用于保存通過ETL,把其中的各類數(shù)據(jù)及中間計(jì)算結(jié)果按照不同的主題,加載到相應(yīng)的數(shù)據(jù)集市模塊204中。[0082]參閱圖3所示,本發(fā)明實(shí)施例數(shù)據(jù)倉庫持續(xù)共享知識的流程,包括:[0083]步驟301:數(shù)據(jù)倉庫從ODS獲得業(yè)務(wù)數(shù)據(jù),其中包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)等,這些數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),以及業(yè)務(wù)系統(tǒng)中的社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容等文本型的非結(jié)構(gòu)化數(shù)據(jù)作為非結(jié)構(gòu)化數(shù)據(jù)。[0084]步驟302:根據(jù)關(guān)聯(lián)關(guān)系,數(shù)據(jù)倉庫把相關(guān)聯(lián)的數(shù)據(jù)傳遞給Hive。[0085]步驟303:Hive對關(guān)聯(lián)數(shù)據(jù)進(jìn)行Map/Reduce分布式處理,得到中間計(jì)算結(jié)果,把關(guān)聯(lián)的數(shù)據(jù)及中間計(jì)算結(jié)果通過ETL傳遞給數(shù)據(jù)倉庫。其中這些中間結(jié)果已經(jīng)融合了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、以及非結(jié)構(gòu)化數(shù)據(jù)。[0086]步驟304:數(shù)據(jù)倉庫把數(shù)據(jù)按照不同的主題,通過ETL傳遞給數(shù)據(jù)集市。[0087]步驟305:數(shù)據(jù)集市接收到數(shù)據(jù)倉庫的數(shù)據(jù),結(jié)合從HBase傳遞給數(shù)據(jù)集市的數(shù)據(jù),利用數(shù)據(jù)挖掘算法進(jìn)行計(jì)算,形成局部知識結(jié)果。這對結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、以及非結(jié)構(gòu)化數(shù)據(jù)融合后的數(shù)據(jù)又進(jìn)行了深化整合。[0088]步驟306:各個(gè)數(shù)據(jù)集市把挖掘計(jì)算后得到局部知識結(jié)果回寫到數(shù)據(jù)倉庫。[0089]步驟307:數(shù)據(jù)倉庫對各個(gè)數(shù)據(jù)集市回寫的知識結(jié)果進(jìn)行整合,形成數(shù)據(jù)寬表,得到全局知識結(jié)果,并共享給各個(gè)數(shù)據(jù)集市。這樣,每個(gè)數(shù)據(jù)集市都獲得了全局知識結(jié)果。[0090]步驟308:各個(gè)數(shù)據(jù)集市獲得全局知識結(jié)果后,根據(jù)需要,一些數(shù)據(jù)集市采用新的數(shù)據(jù)挖掘算法進(jìn)行計(jì)算,獲得進(jìn)一步的新的局部知識結(jié)果,并把這些新的局部知識結(jié)果返回給數(shù)據(jù)倉庫處理。其中,系統(tǒng)根據(jù)研發(fā)人員是否加入新的數(shù)據(jù)挖掘算法進(jìn)行循環(huán)計(jì)算。[0091]本領(lǐng)域技術(shù)人員可以對本發(fā)明的實(shí)施例進(jìn)行各種改動(dòng)和變型而不會(huì)脫離本發(fā)明的精神和范圍。倘若本發(fā)明實(shí)施例中的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同的范圍之內(nèi),則本發(fā)明中的實(shí)施例也包含這些改動(dòng)和變型在內(nèi)。【權(quán)利要求】1.一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合方法,其特征在于:數(shù)據(jù)源分為兩部分存儲(chǔ),一部分存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,另一部分存儲(chǔ)在文件系統(tǒng)中;其中,存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)是各個(gè)業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);存儲(chǔ)在文件系統(tǒng)中的數(shù)據(jù)是以網(wǎng)絡(luò)日志文件為主的半結(jié)構(gòu)化數(shù)據(jù),以及各類圖片文件和文檔文件非結(jié)構(gòu)化數(shù)據(jù);各個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),經(jīng)過標(biāo)準(zhǔn)數(shù)據(jù)接口,通過ETL,加載到ODS,再從ODS通過ETL加載到數(shù)據(jù)倉庫中;存儲(chǔ)在文件系統(tǒng)中的各類圖片文件和文檔文件,首先加載到Hadoop分布式文件系統(tǒng)中,再利用Map/Reduce對這些文件進(jìn)行處理,使之能夠被Hive所使用;確定與網(wǎng)絡(luò)日志、圖片文件、文檔文件有關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)后,將他們從數(shù)據(jù)倉庫提取出來,這其中包含結(jié)構(gòu)化數(shù)據(jù)和文本型的非結(jié)構(gòu)化數(shù)據(jù);使之與網(wǎng)絡(luò)日志信息、圖片文件、文檔文件中的相應(yīng)數(shù)據(jù)對應(yīng)后,存儲(chǔ)在HBase分布式數(shù)據(jù)庫中;在HBase存有大量的各類異構(gòu)數(shù)據(jù),根據(jù)業(yè)務(wù)需要,利用Map/Reduce對HBase中存儲(chǔ)的大量相關(guān)聯(lián)數(shù)據(jù)進(jìn)行分布式運(yùn)算處理,從而完成對大量數(shù)據(jù)的預(yù)處理,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)間的初步整合;計(jì)算后的結(jié)果作為中間結(jié)果保存在HBase中;Hive把一部分關(guān)聯(lián)數(shù)據(jù)以及計(jì)算得出的中間結(jié)果,通過ETL再加載到數(shù)據(jù)倉庫中,從而分享給所有的數(shù)據(jù)集市使用;另一部分按照不同數(shù)據(jù)集市的主題需要,通過ETL,加載到各個(gè)不同主題的數(shù)據(jù)集市中;這些異構(gòu)數(shù)據(jù)進(jìn)行處理后,以結(jié)構(gòu)化的形式存儲(chǔ)在各個(gè)數(shù)據(jù)集市和數(shù)據(jù)倉庫中;在各個(gè)不同主題的數(shù)據(jù)集市中,依照各自的數(shù)據(jù)挖掘算法對數(shù)據(jù)集市中的數(shù)據(jù)進(jìn)行挖掘計(jì)算,形成各自主題領(lǐng)域內(nèi)的局部知識結(jié)果,然后數(shù)據(jù)集市將各自的局部知識結(jié)果回寫到數(shù)據(jù)倉庫中;數(shù)據(jù)倉庫對各個(gè)業(yè)務(wù)主題的局部知識結(jié)果進(jìn)行統(tǒng)一存儲(chǔ)并整理,形成數(shù)據(jù)倉庫中的知識層,得到全局知識結(jié)果;每個(gè)數(shù)據(jù)集市能夠分享到整體業(yè)務(wù)的知識,并利用知識層的數(shù)據(jù)進(jìn)一步挖掘更多的數(shù)據(jù)知識;這個(gè)過程不斷循環(huán)進(jìn)行,形成一個(gè)有效的知識信息閉環(huán),提高了知識的重復(fù)利用以及數(shù)據(jù)挖掘的性能;在數(shù)據(jù)集市中,常用數(shù)據(jù)以類似數(shù)據(jù)庫的結(jié)構(gòu)寫入內(nèi)存,這些數(shù)據(jù)一直駐留內(nèi)存,形成簡易便捷的內(nèi)存數(shù)據(jù)庫,網(wǎng)站活動(dòng)事務(wù)數(shù)據(jù)和內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行交互處理;通過內(nèi)存數(shù)據(jù)庫,用戶通過在線分析實(shí)時(shí)監(jiān)控網(wǎng)上訪問情況,詢盤數(shù)據(jù)實(shí)時(shí)信息。2.根據(jù)權(quán)利要求1所述的方法,其特征在于:存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中數(shù)據(jù),包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),也包括關(guān)于社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容非結(jié)構(gòu)化數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的方法,其特征在于:Hive將存儲(chǔ)在Hadoop分布式文件系統(tǒng)中的圖片文件、文檔文件等這種非結(jié)構(gòu)化文件的屬性映射到一張數(shù)據(jù)庫表中;在這些數(shù)據(jù)庫表中,包含有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),在其中存在有隱性的各種屬性數(shù)據(jù),包括隱性的行為數(shù)據(jù)等。通過將數(shù)據(jù)庫表中的字段與數(shù)據(jù)倉庫中的知識庫建立關(guān)聯(lián)關(guān)系,從而建立了隱性數(shù)據(jù)與數(shù)據(jù)倉庫中顯性業(yè)務(wù)數(shù)據(jù)之間的聯(lián)系,為異構(gòu)數(shù)據(jù)的整合做好準(zhǔn)備。4.根據(jù)權(quán)利要求1所述的方法,其特征在于:分布式運(yùn)算處理,包括數(shù)據(jù)分組、數(shù)據(jù)排序、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)異常檢測。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,這些異構(gòu)數(shù)據(jù)進(jìn)行上述處理后,以結(jié)構(gòu)化的形式加載到各個(gè)數(shù)據(jù)集市和數(shù)據(jù)倉庫中,這時(shí),在數(shù)據(jù)倉庫和數(shù)據(jù)集市中包含有:各個(gè)業(yè)務(wù)系統(tǒng)包含的注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),以及關(guān)于社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容文本型的非結(jié)構(gòu)化數(shù)據(jù),還有網(wǎng)絡(luò)日志中的數(shù)據(jù)、圖片文件和文檔文件中包含的屬性數(shù)據(jù)、以及這些數(shù)據(jù)初步整合的中間數(shù)據(jù)結(jié)果。6.一種基于數(shù)據(jù)倉庫的異構(gòu)大數(shù)據(jù)整合系統(tǒng),其特征在于:它由業(yè)務(wù)系統(tǒng)模塊、標(biāo)準(zhǔn)數(shù)據(jù)接口模塊、ODS模塊、數(shù)據(jù)倉庫模塊、數(shù)據(jù)集市模塊、內(nèi)存數(shù)據(jù)庫模塊、通用文件系統(tǒng)、Hadoop分布式文件系統(tǒng)、Hive模塊、HBase分布式數(shù)據(jù)庫模塊組成;其中,業(yè)務(wù)系統(tǒng)模塊、標(biāo)準(zhǔn)數(shù)據(jù)接口模塊、ODS模塊、數(shù)據(jù)倉庫模塊、數(shù)據(jù)集市模塊、內(nèi)存數(shù)據(jù)庫模塊依次連接;通用文件系統(tǒng)、Hadoop分布式文件系統(tǒng)、Hive模塊、HBase分布式數(shù)據(jù)庫模塊依次連接;數(shù)據(jù)倉庫模塊與Hive模塊連接;數(shù)據(jù)集市模塊與HBase分布式數(shù)據(jù)庫模塊連接;業(yè)務(wù)系統(tǒng)模塊,用于實(shí)現(xiàn)企業(yè)的業(yè)務(wù)信息化功能,通過此模塊,收集管理大量的用戶各方面信息數(shù)據(jù),包括注冊數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、銷售數(shù)據(jù)、詢盤數(shù)據(jù)、商情數(shù)據(jù)、關(guān)鍵詞數(shù)據(jù),這些數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),還有社交信息、產(chǎn)品詳細(xì)描述、詢盤內(nèi)容、網(wǎng)站留言、郵件內(nèi)容,這些數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),也保存在關(guān)系型數(shù)據(jù)庫中;標(biāo)準(zhǔn)數(shù)據(jù)接口模塊,用于對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范處理;ODS模塊具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù);0DS模塊用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與業(yè)務(wù)系統(tǒng)基本保持一致;數(shù)據(jù)倉庫模塊,從ODS模塊`中加載數(shù)據(jù),所需數(shù)據(jù)從ODS模塊中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫,并形成多個(gè)業(yè)務(wù)數(shù)據(jù)之間的關(guān)聯(lián),數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性;數(shù)據(jù)集市模塊,數(shù)據(jù)是從數(shù)據(jù)倉庫和HBase分布式數(shù)據(jù)庫中抽取出來的;每個(gè)數(shù)據(jù)集市包括來自數(shù)據(jù)倉庫的歷史數(shù)據(jù)的子集,另外還包括與這些數(shù)據(jù)關(guān)聯(lián)的來自HBase的數(shù)據(jù);內(nèi)存數(shù)據(jù)庫模塊,將數(shù)據(jù)集市中的數(shù)據(jù)及通過數(shù)據(jù)挖掘和OLAP分析得到的結(jié)果,以數(shù)據(jù)庫結(jié)構(gòu)的方式寫入內(nèi)存,快速形成便捷簡易內(nèi)存數(shù)據(jù)庫,方便對用戶的訪問進(jìn)行快速計(jì)算、快速響應(yīng);通過內(nèi)存數(shù)據(jù)庫,網(wǎng)站活動(dòng)事務(wù)數(shù)據(jù)和內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行交互處理,實(shí)時(shí)監(jiān)控網(wǎng)上訪問及關(guān)注情況、詢盤數(shù)據(jù);Hadoop分布式文件系統(tǒng),用于存儲(chǔ)大量的半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),其中半結(jié)構(gòu)化數(shù)據(jù)包括網(wǎng)絡(luò)日志,非結(jié)構(gòu)化數(shù)據(jù)包括圖片文件、文檔文件;Hive模塊,用于將存儲(chǔ)在Hadoop分布式文件系統(tǒng)中的半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),與存儲(chǔ)在數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行關(guān)聯(lián),并調(diào)用Map/Reduce對這些數(shù)據(jù)進(jìn)行分布式處理,得到中間計(jì)算結(jié)果;然后,把關(guān)聯(lián)的各種異構(gòu)數(shù)據(jù)以及中間計(jì)算結(jié)果,保存到HBase分布式數(shù)據(jù)庫中;同時(shí),一部分?jǐn)?shù)據(jù)通過ETL加載到數(shù)據(jù)倉庫中;HBase分布式數(shù)據(jù)庫模塊,通過ETL,把其中的各類數(shù)據(jù)按照不同的主題,加載到相應(yīng)的數(shù)據(jù)集市中。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于:在數(shù)據(jù)集市模塊中,對加載的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和OLAP分析,并把得出的局部知識結(jié)果回寫到數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫對各個(gè)業(yè)務(wù)主題的局部知識結(jié)果統(tǒng)一存儲(chǔ)并管理,形成數(shù)據(jù)倉庫中的知識層,得到全局知識結(jié)果;每個(gè)數(shù)據(jù)集市能夠分享到全局知識結(jié)果,并利用全局知識結(jié)果挖掘出更多的數(shù)據(jù)知識;這個(gè)過程不斷循環(huán)進(jìn)行,形成一個(gè)有效的知識信息閉環(huán),提高了知識的重復(fù)利用以及數(shù)據(jù)挖掘的性能,進(jìn)一步提高整個(gè)系統(tǒng)的分析質(zhì)量。8.一種數(shù)據(jù)倉庫持續(xù)共享知識的方法,包括:ODS把經(jīng)過處理后的業(yè)務(wù)數(shù)據(jù)通過ETL傳送給數(shù)據(jù)倉庫,數(shù)據(jù)倉庫應(yīng)Hive的需求,把其中相關(guān)聯(lián)的數(shù)據(jù)傳遞給Hive;Hive對關(guān)聯(lián)的異構(gòu)數(shù)據(jù)進(jìn)行Map/Reduce分布式處理,通過分布式處理后,得到了處理的中間結(jié)果,在一定程度上減少待處理的數(shù)據(jù)量;把部分關(guān)聯(lián)數(shù)據(jù)及處理的中間結(jié)果通過ETL的方式傳遞給數(shù)據(jù)倉庫;數(shù)據(jù)倉庫根據(jù)不同主題的需要,把這些數(shù)據(jù)分別傳送不同的數(shù)據(jù)集市;數(shù)據(jù)集市獲得數(shù)據(jù)倉庫的數(shù)據(jù),以及HBase傳遞過來的關(guān)聯(lián)數(shù)據(jù)及中間結(jié)果數(shù)據(jù),在不同數(shù)據(jù)集市中通過各自的數(shù)據(jù)挖掘算法進(jìn)行計(jì)算處理,并把得到的局部知識結(jié)果回寫到數(shù)據(jù)倉庫;數(shù)據(jù)倉庫獲得各個(gè)數(shù)據(jù)集市傳遞過來的局部知識結(jié)果,進(jìn)行整合處理,通過數(shù)據(jù)寬表形成全局知識結(jié)果,并把全局知識結(jié)果傳遞給各個(gè)數(shù)據(jù)集市進(jìn)行共享;數(shù)據(jù)集市結(jié)合獲得的數(shù)據(jù)寬表中的數(shù)據(jù),通過新的數(shù)據(jù)挖掘算法進(jìn)行計(jì)算,不斷深化知識結(jié)果,再把深化的局部知識結(jié)果回寫到數(shù)據(jù)倉庫;其中,新的數(shù)據(jù)挖掘算法是根據(jù)更新后的知識結(jié)果,加入到數(shù)據(jù)集市的挖掘算法;數(shù)據(jù)倉庫獲得數(shù)據(jù)集市新的局部知識結(jié)果,并不斷整合多個(gè)數(shù)據(jù)集市的局部知識結(jié)果,形成新的全局知識結(jié)果,再傳遞給各個(gè)數(shù)據(jù)集市共享,此過程不斷循環(huán)?!疚臋n編號】G06F17/30GK103678665SQ201310723548【公開日】2014年3月26日申請日期:2013年12月24日優(yōu)先權(quán)日:2013年12月24日【發(fā)明者】徐曉冬,鄒鐵鵬,何昌桃,黃建鵬申請人:焦點(diǎn)科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
涿鹿县| 南阳市| 德化县| 上栗县| 多伦县| 施甸县| 定襄县| 吴忠市| 收藏| 洞口县| 监利县| 开阳县| 金溪县| 赣榆县| 三亚市| 远安县| 岐山县| 肥西县| 迭部县| 江西省| 金湖县| 五家渠市| 沧州市| 会昌县| 明光市| 甘孜县| 温泉县| 平度市| 河东区| 蓝田县| 莒南县| 福清市| 呼和浩特市| 南溪县| 磴口县| 高密市| 九龙坡区| 阿克陶县| 丹寨县| 逊克县| 金华市|