專利名稱:一種云數(shù)據(jù)倉庫系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)倉庫技術(shù)領(lǐng)域,特別涉及一種云數(shù)據(jù)倉庫系統(tǒng)。
技術(shù)背景
隨著處理信息量的不斷加大,企業(yè)需要多角度處理海量信息并從中獲取支持決策的信息。在此時(shí)面向事務(wù)處理的操作性數(shù)據(jù)庫顯得力不從心,面向主題集成大量數(shù)據(jù)的數(shù)據(jù)倉庫技術(shù)由此產(chǎn)生。數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策,數(shù)據(jù)倉庫會將多個(gè)系統(tǒng)的數(shù)據(jù)整合起來,然后根據(jù)不同的主題進(jìn)行數(shù)據(jù)分析,分析結(jié)果用于支持決策。
云計(jì)算技術(shù)是一種新型的商業(yè)平臺,帶來了新的信息服務(wù)模式。云計(jì)算是分布式計(jì)算、并行處理、網(wǎng)格計(jì)算等計(jì)算模式的最新發(fā)展。云計(jì)算通過將各種互聯(lián)的計(jì)算、存儲、數(shù)據(jù)、應(yīng)用等資源進(jìn)行有效整合來實(shí)現(xiàn)多層次的虛擬化與抽象。
常見的構(gòu)建數(shù)據(jù)倉庫的工具有IBM Cognos和SAP BO等。但是上述兩者都是采用集中式的單節(jié)點(diǎn)模式來構(gòu)建數(shù)據(jù)倉庫,這種類型的數(shù)據(jù)倉庫的擴(kuò)展性差。隨著目前企業(yè)數(shù)據(jù)的規(guī)模急劇擴(kuò)大,有些已經(jīng)達(dá)到TB的級別,上述傳統(tǒng)數(shù)據(jù)倉庫越發(fā)不能滿足使用需要。
另外,現(xiàn)有的數(shù)據(jù)倉庫對數(shù)據(jù)的分析大多集中在多維分析方面,對基于數(shù)據(jù)挖掘技術(shù)的知識發(fā)現(xiàn)支持有限,不能滿足企業(yè)從海量數(shù)據(jù)中挖掘有價(jià)值信息的需要。發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的是提供云數(shù)據(jù)倉庫系統(tǒng),具備良好的擴(kuò)展性,并且在提供傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)抽取、多維分析服務(wù)的同時(shí),支持?jǐn)?shù)據(jù)挖掘服務(wù)。滿足現(xiàn)階段的應(yīng)用需求。
本發(fā)明所述云數(shù)據(jù)倉庫系統(tǒng),具體技術(shù)方案如下
一種云數(shù)據(jù)倉庫系統(tǒng),其特征在于,所述系統(tǒng)云數(shù)據(jù)倉庫系統(tǒng)構(gòu)建在Hadoop平臺和操作系統(tǒng)軟件之上,Hadoop平臺內(nèi)置HBase數(shù)據(jù)庫和數(shù)據(jù)倉庫工具Hive,云數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)包括主控制模塊、數(shù)據(jù)載入模塊和數(shù)據(jù)挖掘模塊
主控制模塊,操作系統(tǒng)中定時(shí)調(diào)度服務(wù)功能體現(xiàn)的模塊,主控制模塊向數(shù)據(jù)載入模塊和數(shù)據(jù)挖掘模塊發(fā)送指令,控制數(shù)據(jù)流的流向;
數(shù)據(jù)載入模塊,一端連接外部數(shù)據(jù)庫,一端聯(lián)系HBase數(shù)據(jù)庫,并與主控制模塊連接,負(fù)責(zé)將外部數(shù)據(jù)庫中數(shù)據(jù)載入HBase數(shù)據(jù)庫,或?qū)Base數(shù)據(jù)庫中數(shù)據(jù)載入外部數(shù)據(jù)庫;
數(shù)據(jù)挖掘模塊,連接到HBase數(shù)據(jù)庫,并與主控制模塊連接,負(fù)責(zé)整合HBase中數(shù)據(jù),提供數(shù)據(jù)挖掘算法,計(jì)算和挖掘數(shù)據(jù)的規(guī)律及模式。
優(yōu)選的,所述系統(tǒng)進(jìn)一步包括
多維分析模塊,連接到HBase數(shù)據(jù)庫中的數(shù)據(jù)倉庫工具Hive,并與主控制模塊連接,用于調(diào)用HBase中的數(shù)據(jù)倉庫工具Hive進(jìn)行多維分析服務(wù)。
優(yōu)選的,所述系統(tǒng)進(jìn)一步包括
數(shù)據(jù)展示模塊,連接到HBase數(shù)據(jù)庫,并與主控制模塊連接,用于將云數(shù)據(jù)倉庫中的數(shù)據(jù)通過報(bào)表或示意圖的形式體現(xiàn)。
所述數(shù)據(jù)載入模塊具體用于
數(shù)據(jù)載入模塊接受主控制模塊的載入數(shù)據(jù)的指令,從外部數(shù)據(jù)庫中抽取數(shù)據(jù),根據(jù)HBase數(shù)據(jù)庫所需要格式設(shè)置參數(shù),并根據(jù)設(shè)置的參數(shù)將數(shù)據(jù)轉(zhuǎn)換為HBase數(shù)據(jù)庫所需格式,將符合格式的數(shù)據(jù)載入HBase數(shù)據(jù)庫。
所述數(shù)據(jù)挖掘模塊具體用于
數(shù)據(jù)挖掘模塊接受主控制模塊進(jìn)行數(shù)據(jù)挖掘分析的指令,開始整合HBase數(shù)據(jù)庫中需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù),寫入一張表中,再尋找數(shù)據(jù)挖掘模塊中的數(shù)據(jù)挖掘算法, 對經(jīng)過整合的數(shù)據(jù)進(jìn)行運(yùn)算并分析運(yùn)算結(jié)果,得到數(shù)據(jù)的規(guī)律與模式。
所述尋找數(shù)據(jù)挖掘算法具體包括
關(guān)聯(lián)分析算法、預(yù)測分析算法、聚類分析算法、分類分析算法、離群點(diǎn)分析算法或自行編寫的算法任意組合。
所述多維分析模塊具體用于
多維分析模塊接受主控制模塊進(jìn)行多維分析的指令后,再命令數(shù)據(jù)倉庫工具Hive 將HBase數(shù)據(jù)庫中基于列存儲的需要進(jìn)行多維分析的數(shù)據(jù)映射為Hive中二維表數(shù)據(jù),同時(shí)設(shè)置映射規(guī)則發(fā)送到數(shù)據(jù)倉庫工具Hive,Hive收到命令與映射規(guī)則之后,連接HBase數(shù)據(jù)庫,抽取數(shù)據(jù)并完成數(shù)據(jù)的映射。
所述數(shù)據(jù)展示模塊具體用于
數(shù)據(jù)展示模塊接受主控制模塊展示數(shù)據(jù)的指令,從HBase數(shù)據(jù)庫中提取需要展示的數(shù)據(jù),設(shè)置數(shù)據(jù)展示的樣式,再將數(shù)據(jù)通過報(bào)表或示意圖的形式體現(xiàn)。
通過以上技術(shù)方案可知,本發(fā)明存在的有益效果是基于云計(jì)算技術(shù)來構(gòu)建數(shù)據(jù)倉庫,使數(shù)據(jù)倉庫具有天然的良好擴(kuò)展性。然后通過主控制模塊控制數(shù)據(jù)載入模塊、數(shù)據(jù)挖掘模塊,多維分析模塊和數(shù)據(jù)展示模塊,支持?jǐn)?shù)據(jù)倉庫的數(shù)據(jù)抽取載入、多維分析、數(shù)據(jù)挖掘與報(bào)表制作多項(xiàng)服務(wù)。
圖1 云數(shù)據(jù)倉庫整體架構(gòu)示意圖。
圖2 用電量分類示意圖。
具體實(shí)施方式
本發(fā)明提供了一種基于云計(jì)算技術(shù)構(gòu)建數(shù)據(jù)倉庫,下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行完整描述。而所描述的實(shí)施例僅僅是本發(fā)明中部分實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有經(jīng)過創(chuàng)造性勞動情況下得出的其他實(shí)施方式,同樣屬于本發(fā)明保護(hù)的范圍。
參照圖1,本發(fā)明所述數(shù)據(jù)倉庫的結(jié)構(gòu)包括
Hadoop及其相關(guān)子項(xiàng)目組成的Hadoop生態(tài)系統(tǒng),Hadoop生態(tài)系統(tǒng)提供了一個(gè)應(yīng)用云計(jì)算技術(shù)的基礎(chǔ)平臺。在云數(shù)據(jù)倉庫的整體架構(gòu)中,HBase數(shù)據(jù)庫構(gòu)建于Hadoop之上,Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具。Hadoop實(shí)現(xiàn)了分布式文件系統(tǒng)HDFS 和MapReduce計(jì)算框架,HDFS使Hadoop具有擴(kuò)展性良好、安全、經(jīng)濟(jì)等優(yōu)點(diǎn),所以架構(gòu)在 Hadoop之上的云數(shù)據(jù)倉庫天然的繼承了這些特點(diǎn)。MapReduce采用移動計(jì)算而非移動數(shù)據(jù)的思想對分布式存儲在HDFS的海量數(shù)據(jù)進(jìn)行分布式的、并行計(jì)算,大大提高了計(jì)算的速度。
本發(fā)明中基于Hadoop生態(tài)系統(tǒng)開發(fā)出的數(shù)據(jù)載入模塊,數(shù)據(jù)挖掘模塊和數(shù)據(jù)展示模塊都是基于HBase數(shù)據(jù)庫構(gòu)建,與HBase連接,針對HBase中的數(shù)據(jù)進(jìn)行運(yùn)作。多維分析模塊基于數(shù)據(jù)倉庫工具Hive構(gòu)建,并根據(jù)具體業(yè)務(wù)需要對Hive模塊進(jìn)行調(diào)用。
系統(tǒng)的主控制模塊,實(shí)際上是基于系統(tǒng)存在的操作系統(tǒng)軟件形成,將操作系統(tǒng)軟件提供的定時(shí)調(diào)度服務(wù)抽象為模塊而體現(xiàn)。主控制模塊向各模塊發(fā)出指令,控制各模塊的運(yùn)行和數(shù)據(jù)流的走向。
數(shù)據(jù)載入模塊,即Extract TransformLoad,簡稱ETL,它提供了傳統(tǒng)關(guān)系型數(shù)據(jù)庫數(shù)據(jù)、文本格式數(shù)據(jù)等多種異構(gòu)數(shù)據(jù)與云數(shù)據(jù)倉庫之間的接口,支持多種異構(gòu)數(shù)據(jù)向云數(shù)據(jù)倉庫中的載入,以及云數(shù)據(jù)倉庫中的數(shù)據(jù)向關(guān)系型數(shù)據(jù)庫中的載入。ETL模塊一端與外部關(guān)系型數(shù)據(jù)庫連接,一端連接HBase數(shù)據(jù)庫。
ETL模塊載入數(shù)據(jù)的具體步驟如下
1、輸入外部關(guān)系型數(shù)據(jù)庫的連接參數(shù),包括IP地址、服務(wù)名、用戶名、密碼;
2、輸入ETL參數(shù),包括數(shù)據(jù)源、主鍵、增量字段、HBase中目標(biāo)數(shù)據(jù)的結(jié)構(gòu)、轉(zhuǎn)換規(guī)則、并行度、異常處理機(jī)制;
3、ETL模塊從外部關(guān)系型數(shù)據(jù)庫中抽取數(shù)據(jù),并從MapReduce計(jì)算框架的Map函數(shù)中抽取用于轉(zhuǎn)換數(shù)據(jù)的SQL語句;
4、Reduce階段數(shù)據(jù)轉(zhuǎn)換與載入,根據(jù)設(shè)置的ETL參數(shù)和Map函數(shù)中的SQL語句, 將從外部關(guān)系型數(shù)據(jù)空中抽取的數(shù)據(jù)轉(zhuǎn)換成目標(biāo)數(shù)據(jù)結(jié)構(gòu),獲得對應(yīng)的HBase表中的各個(gè)字段;然后將轉(zhuǎn)換后的數(shù)據(jù),寫入HBase ;
5、如果某條記錄的轉(zhuǎn)換過程發(fā)生異常,根據(jù)定義好的異常處理機(jī)制,將該條記錄丟棄,并寫下丟棄日志,然后繼續(xù)轉(zhuǎn)換下一條記錄,至所有記錄轉(zhuǎn)換和載入完成。
ETL模塊的實(shí)現(xiàn)充分利用了 Hadoop提供的MapReduce分布式并行計(jì)算框架,實(shí)現(xiàn)了 ETL過程的并行化;同時(shí)ETL模塊在從關(guān)系型數(shù)據(jù)庫向云數(shù)據(jù)倉庫中載入數(shù)據(jù)時(shí)采用了增量化技術(shù),從而大大提高了數(shù)據(jù)載入效率。
多維分析模塊,即On-Line Analytical Processing,簡稱為OLAP模塊,該模塊連接HBase中的數(shù)據(jù)倉庫工具Hive,負(fù)責(zé)調(diào)用數(shù)據(jù)倉庫工具Hive的工作,完成多維分析功能。
OLAP模塊具體工作過程如下
OLAP模塊首先向Hive發(fā)出指令,指示Hive抽取HBase中需要多維分析的數(shù)據(jù),并將數(shù)據(jù)在HBase中基于列存儲的格式映射為Hive中的二維表格式,同時(shí)OLAP模塊為Hive 制定映射規(guī)則。Hive接收到映射數(shù)據(jù)的指令與映射規(guī)則之后即可連接HBase數(shù)據(jù)庫,抽取數(shù)據(jù)并完成映射過程。之后OLAP模塊根據(jù)需要進(jìn)行多維分析數(shù)據(jù)的類型,指示Hive在 HBase中建立一個(gè)儲存分析結(jié)果的表格,并指示Hive將此表格也在Hive中映射為一張空白二維表。數(shù)據(jù)倉庫工具Hive對二維表中數(shù)據(jù)進(jìn)行多維分析,將分析后的數(shù)據(jù)寫入空白二維表。分析完成后,OLAP模塊指示Hive將寫入分析后數(shù)據(jù)的二維表重新轉(zhuǎn)換為HBase中基于列存儲的格式儲存在HBase中。
數(shù)據(jù)挖掘模塊,即Data Mining,簡寫為DM模塊,該模塊提供了多種類別的數(shù)據(jù)挖掘算法,支持用戶在云數(shù)據(jù)倉庫中進(jìn)行關(guān)聯(lián)分析、預(yù)測分析、聚類分析、分類分析、離群點(diǎn)分析等多種類別的知識發(fā)現(xiàn)分析,通過MapReduce計(jì)算框架實(shí)現(xiàn)數(shù)據(jù)計(jì)算分析,為用戶提供更有價(jià)值的知識,支持用戶決策。
DM模塊的具體步驟為
數(shù)據(jù)整合,首先在HBase中創(chuàng)建新的表,將HBase中需要進(jìn)行挖掘分析的數(shù)據(jù)整合到之前創(chuàng)建的表中;再尋找DM模塊中的數(shù)據(jù)挖掘算法,針對不同目的的挖掘分析,選擇相對應(yīng)的算法進(jìn)行運(yùn)算,實(shí)現(xiàn)分類、聚類、預(yù)測等不同類型的分析,發(fā)現(xiàn)數(shù)據(jù)的規(guī)律及模式。
以下針對電網(wǎng)系統(tǒng)中的實(shí)際應(yīng)用給出具體實(shí)施例說明
參照圖2所示,家庭用戶用電行為的分析以每個(gè)用電戶每小時(shí)的用電數(shù)據(jù)為基礎(chǔ),使用云數(shù)據(jù)倉庫的DM模塊中的聚類算法對其進(jìn)行聚類分析。根據(jù)算法獲得的結(jié)果將用電戶劃分為A、B、C、D、E五類,每類用電戶的用電規(guī)律各不相同,從每類用戶每天M個(gè)小時(shí)的平均用電量規(guī)律可以直觀的看出他們之間的區(qū)別。
由此可以看出,A類用戶全天用電量一直很低,這類用戶可能屬于空置房用戶,很低的用電量來自于線損;B類用戶用電量從6 00開始上升,白天用電量保持一定水平,晚上用電量上升,但下降趨勢出現(xiàn)的比較早,這類用戶可能是老年人居住的家庭;C類用戶有明顯的波峰和波谷,白天用電量很低,晚上用電高峰高于B類,且下降趨勢出現(xiàn)的也比B類晚, 這類用戶可能是上班族居住的家庭;D類基本為B、C兩類的綜合,這類用戶可能是老年人和上班族混合家庭;E類用戶全天用電量一直很高,這類用戶可能把居民住宅用作了商業(yè)用途。
數(shù)據(jù)展示模塊,該模塊與HBase相連,用于把云數(shù)據(jù)倉庫的數(shù)據(jù)通過報(bào)表的形式直觀的展現(xiàn)給用戶。數(shù)據(jù)展示模塊展現(xiàn)的數(shù)據(jù)來自于HBase,其數(shù)據(jù)展現(xiàn)形式豐富多樣,除了傳統(tǒng)的列表、交叉表外,還支持曲線圖、柱狀圖、餅圖等圖形化展現(xiàn)形式。
數(shù)據(jù)展示模塊流程如下
從HBase中提取要展示的數(shù)據(jù),設(shè)置數(shù)據(jù)展示樣式,設(shè)置曲線圖各個(gè)參數(shù),橫軸標(biāo)示、縱軸標(biāo)示、曲線格式、顏色等,最后展示數(shù)據(jù)。
本發(fā)明所述數(shù)據(jù)倉庫的處理數(shù)據(jù)流程如下
UETL模塊接受主控制模塊的指令,從關(guān)系型數(shù)據(jù)庫中載入數(shù)據(jù)到HBase數(shù)據(jù)庫;
2、主控制模塊選擇對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析或多維分析,選擇數(shù)據(jù)挖掘分析進(jìn)入步驟3,選擇多維分析進(jìn)入步驟5 ;
3、DM模塊收到主控制模塊的指令,對HBase中需要進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)整合到一張表,根據(jù)指令尋找自身帶有的挖掘算法,運(yùn)用挖掘算法對數(shù)據(jù)進(jìn)行運(yùn)算;
4、DM模塊將經(jīng)過運(yùn)算的數(shù)據(jù)返回HBase儲存,在由主控制模塊判斷數(shù)據(jù)是否需要制作報(bào)表或示意圖,若不需要,流程結(jié)束,若需要則進(jìn)入步驟8;
5、OLAP模塊收到主控制模塊的指令,指示Hive抽取HBase中需要多維分析的數(shù)據(jù),并將數(shù)據(jù)在HBase中基于列存儲的格式映射為Hive中的二維表格式,同時(shí)OLAP模塊為 Hive制定映射規(guī)則,Hive接收到映射數(shù)據(jù)的指令與映射規(guī)則之后即可連接HBase數(shù)據(jù)庫, 抽取數(shù)據(jù)并完成映射過程;
6、OLAP模塊根據(jù)需要進(jìn)行多維分析數(shù)據(jù)的類型,指示Hive在HBase中建立一個(gè)儲存分析結(jié)果的表格,并指示Hive將此表格也在Hive中映射為一張空白二維表,數(shù)據(jù)倉庫工具Hive對二維表中數(shù)據(jù)進(jìn)行多維分析,將分析后的數(shù)據(jù)寫入空白二維表;
7,OLAP模塊指示Hive將寫入分析后數(shù)據(jù)的二維表重新轉(zhuǎn)換為HBase中基于列存儲的格式儲存在HBase中,主控制模塊判斷數(shù)據(jù)是否需要制作報(bào)表或示意圖,若不需要,流程結(jié)束,若需要則進(jìn)入步驟8;
8、數(shù)據(jù)展示模塊接收主控制模塊展示數(shù)據(jù)的指令,從HBase中提取要展示的數(shù)據(jù),設(shè)置數(shù)據(jù)展示樣式,設(shè)置曲線圖各個(gè)參數(shù),橫軸標(biāo)示、縱軸標(biāo)示、曲線格式、顏色等,最后展示數(shù)據(jù)。
綜上所述,本發(fā)明提供了一種基于云計(jì)算技術(shù)構(gòu)架的數(shù)據(jù)倉庫。本發(fā)明的特點(diǎn)在于,擁有良好的擴(kuò)展性并且,能夠進(jìn)行多維分析與數(shù)據(jù)挖掘等多種類型的數(shù)據(jù)服務(wù)。滿足了現(xiàn)在業(yè)務(wù)中的需求。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方案,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)該視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種云數(shù)據(jù)倉庫系統(tǒng),其特征在于,所述系統(tǒng)云數(shù)據(jù)倉庫系統(tǒng)構(gòu)建在Hadoop平臺和操作系統(tǒng)軟件之上,Hadoop平臺內(nèi)置HBase數(shù)據(jù)庫和數(shù)據(jù)倉庫工具Hive,云數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)包括主控制模塊、數(shù)據(jù)載入模塊和數(shù)據(jù)挖掘模塊主控制模塊,操作系統(tǒng)中定時(shí)調(diào)度服務(wù)功能體現(xiàn)的模塊,主控制模塊向數(shù)據(jù)載入模塊和數(shù)據(jù)挖掘模塊發(fā)送指令,控制數(shù)據(jù)流的流向;數(shù)據(jù)載入模塊,一端連接外部數(shù)據(jù)庫,一端聯(lián)系HBase數(shù)據(jù)庫,并與主控制模塊連接, 負(fù)責(zé)將外部數(shù)據(jù)庫中數(shù)據(jù)載入HBase數(shù)據(jù)庫,或?qū)Base數(shù)據(jù)庫中數(shù)據(jù)載入外部數(shù)據(jù)庫;數(shù)據(jù)挖掘模塊,連接到HBase數(shù)據(jù)庫,并與主控制模塊連接,負(fù)責(zé)整合HBase中數(shù)據(jù),提供數(shù)據(jù)挖掘算法,計(jì)算和挖掘數(shù)據(jù)的規(guī)律及模式。
2.根據(jù)權(quán)利要求1所系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括多維分析模塊,連接到HBase數(shù)據(jù)庫中的數(shù)據(jù)倉庫工具Hive,并與主控制模塊連接,用于調(diào)用HBase中的數(shù)據(jù)倉庫工具Hive進(jìn)行多維分析服務(wù)。
3.根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括數(shù)據(jù)展示模塊,連接到HBase數(shù)據(jù)庫,并與主控制模塊連接,用于將云數(shù)據(jù)倉庫中的數(shù)據(jù)通過報(bào)表或示意圖的形式體現(xiàn)。
4.根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述數(shù)據(jù)載入模塊具體用于數(shù)據(jù)載入模塊接受主控制模塊的載入數(shù)據(jù)的指令,從外部數(shù)據(jù)庫中抽取數(shù)據(jù),根據(jù) HBase數(shù)據(jù)庫所需要格式設(shè)置參數(shù),并根據(jù)設(shè)置的參數(shù)將數(shù)據(jù)轉(zhuǎn)換為HBase數(shù)據(jù)庫所需格式,將符合格式的數(shù)據(jù)載入HBase數(shù)據(jù)庫。
5.根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘模塊具體用于數(shù)據(jù)挖掘模塊接受主控制模塊進(jìn)行數(shù)據(jù)挖掘分析的指令,開始整合HBase數(shù)據(jù)庫中需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù),寫入一張表中,再尋找數(shù)據(jù)挖掘模塊中的數(shù)據(jù)挖掘算法,對經(jīng)過整合的數(shù)據(jù)進(jìn)行運(yùn)算并分析運(yùn)算結(jié)果,得到數(shù)據(jù)的規(guī)律與模式。
6.根據(jù)權(quán)利要求5所述系統(tǒng),其特征在于,所述尋找數(shù)據(jù)挖掘算法具體包括關(guān)聯(lián)分析算法、預(yù)測分析算法、聚類分析算法、分類分析算法、離群點(diǎn)分析算法或自行編寫的算法任意組合。
7.根據(jù)權(quán)利要求2所述系統(tǒng),其特征在于,所述多維分析模塊具體用于多維分析模塊接受主控制模塊進(jìn)行多維分析的指令后,再命令數(shù)據(jù)倉庫工具Hive將 HBase數(shù)據(jù)庫中基于列存儲的需要進(jìn)行多維分析的數(shù)據(jù)映射為Hive中二維表數(shù)據(jù),同時(shí)設(shè)置映射規(guī)則發(fā)送到數(shù)據(jù)倉庫工具Hive,Hive收到命令與映射規(guī)則之后,連接HBase數(shù)據(jù)庫, 抽取數(shù)據(jù)并完成數(shù)據(jù)的映射。
8.根據(jù)權(quán)利要求3所述體統(tǒng),其特征在于,所述數(shù)據(jù)展示模塊具體用于數(shù)據(jù)展示模塊接受主控制模塊展示數(shù)據(jù)的指令,從HBase數(shù)據(jù)庫中提取需要展示的數(shù)據(jù),設(shè)置數(shù)據(jù)展示的樣式,再將數(shù)據(jù)通過報(bào)表或示意圖的形式體現(xiàn)。
全文摘要
本發(fā)明公開了一種云數(shù)據(jù)倉庫系統(tǒng),用于支持海量數(shù)據(jù)的處理,提供數(shù)據(jù)挖掘服務(wù),多維分析服務(wù),數(shù)據(jù)展示服務(wù)。本發(fā)明主要包括主控制模塊,用于向其他應(yīng)用模塊發(fā)送指令,控制數(shù)據(jù)流的流向;數(shù)據(jù)載入模塊,用于從外部數(shù)據(jù)庫中載入數(shù)據(jù);數(shù)據(jù)挖掘模塊,用于對數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘計(jì)算。另外還包括用于對數(shù)據(jù)進(jìn)行多維分析的多維分析模塊,和用于展示數(shù)據(jù)制作報(bào)表的數(shù)據(jù)展示模塊。
文檔編號G06F17/30GK102521246SQ20111035801
公開日2012年6月27日 申請日期2011年11月11日 優(yōu)先權(quán)日2011年11月11日
發(fā)明者劉建明, 呂厚雷, 張素香, 栗寧, 王繼業(yè), 王風(fēng)雨, 趙丙鎮(zhèn), 趙鋒, 閆愛梅 申請人:北京國電通網(wǎng)絡(luò)技術(shù)有限公司, 國網(wǎng)信息通信有限公司