一種分布式大數(shù)據(jù)分析方法
【技術領域】
[0001 ]本發(fā)明涉及數(shù)據(jù)分析領域,具體地說是一種分布式大數(shù)據(jù)分析方法。
【背景技術】
[0002]隨著信息時代的到來,數(shù)據(jù)的積累成幾何倍增長。為了從已有的海量數(shù)據(jù)中挖掘有效信息,出現(xiàn)了各種不同的數(shù)據(jù)分析算法。
[0003]在數(shù)據(jù)分析的實際操作過程中,無法立即確定最合適的算法,需要通過不斷的嘗試不同的算法,或者算法組合來獲得不同的計算結果。根據(jù)對不同的計算結果進行對比,從而獲得最佳的算法方案、以及最優(yōu)的分析結果,以獲得最效的數(shù)據(jù)反饋信息。
[0004]數(shù)據(jù)分析人員需要既懂算法的原理,又要懂算法的具體代碼實現(xiàn)。對技術人員要求較高,同時實現(xiàn)不同的算法組合分析數(shù)據(jù)時候,需要不斷調整編碼,較為繁瑣。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的技術任務是針對上述現(xiàn)有技術的不足,提供一種分布式大數(shù)據(jù)分析方法。該方法通過統(tǒng)一算法接口標準,使算法與算法之間可以隨機組合。僅通過算法即可實現(xiàn)完整的數(shù)據(jù)分析過程。而且,根據(jù)本發(fā)明的算法接口標準實現(xiàn)的算法,可以與工具原有算法無縫組合,對整個數(shù)據(jù)分析的流程無任何影響,方便用戶擴充算法種類、以及增加個性化算法。
[0006]本發(fā)明的技術任務是按以下方式實現(xiàn)的:一種分布式大數(shù)據(jù)分析方法,其特點是以大數(shù)據(jù)為基礎,將不同算法制定統(tǒng)一的服務標準,根據(jù)服務標準實現(xiàn)的算法隨機組合繪制成流程圖,并根據(jù)流程圖的算法節(jié)點關系,自動在spark分布式系統(tǒng)上執(zhí)行,實現(xiàn)數(shù)據(jù)分析的云計算。戶可以完全不了解代碼實現(xiàn),只關注于數(shù)據(jù)分析所需要使用的算法、如何繪制數(shù)據(jù)分析流程、以及數(shù)據(jù)分析結果準確性。同時用戶可以根據(jù)工具的算法服務標準,靈活添加自己的算法。根據(jù)工具的算法服務標準增加的算法,可以很好的與工具已有其他算法進行隨機組合,并能流暢運算,增加了算法實現(xiàn)的可擴充性。
[0007]作為優(yōu)選,本發(fā)明所述方法可采用b/s架構,用戶通過瀏覽器來實現(xiàn)對算法流程的繪制。
[0008]所述流程圖中包含算法實例節(jié)點、以及算法實例節(jié)點的關系,算法實例節(jié)點的關系通過算法之間的連線來確定。
[0009]每一個算法都對應有已經(jīng)編寫好算法的jar包,通過統(tǒng)一算法的輸入輸出參數(shù)信息,保證算法節(jié)點之間的數(shù)據(jù)流轉。
[0010]作為優(yōu)選,可通過算法節(jié)點與算法節(jié)點之間的箭頭來表示算法節(jié)點之間的關系,根據(jù)算法節(jié)點關系的描述,自動查找到算法節(jié)點的起始位置,開始執(zhí)行算法處理數(shù)據(jù);當執(zhí)行完一個算法節(jié)點的時候,再根據(jù)算法節(jié)點的描述自動執(zhí)行下一個節(jié)點的算法。
[0011]進一步的,可以以工具提供算法的服務與標準,根據(jù)算法接口與標準增加新的算法。
[0012]以工具提供流程的檢測功能,檢查流程的完整性、正確性。
[0013]與現(xiàn)有技術相比,本發(fā)明的分布式大數(shù)據(jù)分析方法具有以下有益效果:
(一)通過統(tǒng)一算法的接口和標準,能夠讓用戶自由實現(xiàn)自己的算法,并與工具的其他算法無縫組合。
[0014](二)通過繪制算法流程圖,實現(xiàn)對算法的不同順序組合來分析處理數(shù)據(jù),分析流程多樣化。
[0015](三)流程圖會自動解析運行在spark的群集上,省去了人工將算法運行在spark群集上的工作。
[0016](四)算法所運行的spark分布式系統(tǒng)是主流的云計算框架之一,運行速度較快。
[0017](五)通過繪制數(shù)據(jù)分析完整流程圖,使得分析數(shù)據(jù)無需編碼實現(xiàn)。數(shù)據(jù)分析人員只需要懂算法即可。減少了技術人員的要求,以及節(jié)省了一般數(shù)據(jù)分析中,因算法順序改變而編碼調整的時間。同時圖形化的數(shù)據(jù)分析界面,更容易查找整個數(shù)據(jù)分析流程中不適合的算法節(jié)點。
【附圖說明】
[0018]附圖1是本發(fā)明分布式大數(shù)據(jù)分析方法的流程圖。
【具體實施方式】
[0019]參照說明書附圖以具體實施例對本發(fā)明的分布式大數(shù)據(jù)分析方法作以下詳細地說明。
[0020]實施例:
本發(fā)明分布式消息轉發(fā)方法本發(fā)明采用b/s架構,使用戶可以通過瀏覽器來實現(xiàn)對算法流程的繪制。在一個完整的流程圖中包含:算法實例節(jié)點、以及算法實例節(jié)點的關系。算法實例節(jié)點的關系是通過算法之間的連線來確定。算法的運行環(huán)境是spark分布式計算系統(tǒng)中,大量縮短計算時間。
在流程圖繪制界面,增加一個算法實例節(jié)點后,可以通過算法實例節(jié)點的屬性值界面,來修改算法用到的屬性。每一個算法都會對應已經(jīng)編寫好算法的jar包。在算法中統(tǒng)一了算法的輸入輸出的參數(shù)信息,以保證算法節(jié)點之間的數(shù)據(jù)流轉。
[0021]算法節(jié)點添加完成后,需要確定算法節(jié)點之間的關系,S卩:通過算法節(jié)點與算法節(jié)點之間的箭頭來表示算法節(jié)點之間的關系。根據(jù)算法節(jié)點關系的描述,會自動查找到算法節(jié)點的起始位置,開始執(zhí)行算法處理數(shù)據(jù)。當執(zhí)行完一個算法節(jié)點的時候,會根據(jù)算法節(jié)點的描述自動執(zhí)行下一個節(jié)點的算法。
[0022]工具提供算法的服務與標準。根據(jù)算法接口與標準,用戶可以自由增加新的算法,使算法庫變得可擴充性。根據(jù)標準規(guī)范實現(xiàn)的算法可以在算法流程圖中與其他算法隨機組合,流暢的進行數(shù)據(jù)分析。
[0023]工具中,具備流程的檢測功能,檢查流程的完整性、正確性。例如:避免出現(xiàn)回路的流程等。工具通過測試功能,來驗證整個流程的完整與可執(zhí)行。
[0024]算法的運行環(huán)境采用spark分布式計算系統(tǒng)。Spark分布式計算系統(tǒng)是主流的云計算框架之一。采用云計算的方式,大幅度提高數(shù)據(jù)分析的速度與效率。
[0025]如附圖1所示,數(shù)據(jù)分析流程的創(chuàng)建以及執(zhí)行的完整過程如下:
首先是新建流程,創(chuàng)建流程以后,往流程里排放算法。已有算法可以直接添加到流程中。未有算法,根據(jù)算法統(tǒng)一接口標準,增加新的算法后,再將新增加的算法加入到流程中。增加算法到流程后,可以修改算法中所用到的屬性。編排完的流程,會在spark群集上進行運算,最終獲得分析結果。
[0026]以上述方法實現(xiàn)的大數(shù)據(jù)分析系統(tǒng)具有以下特點:
1、通過分布式架構設計,構建全生命周期的數(shù)據(jù)分析管理,采用流程化設計,提供錯誤診斷機制,內(nèi)嵌多種常用算法,為用戶提供可視化自定義數(shù)據(jù)分析解決方案;
2、具有完備的數(shù)據(jù)準備、模型構建、模型評估、模型管理和結果展示等挖掘步驟,可為用戶提供全生命周期的數(shù)據(jù)分析管理。
[0027]3、采用先進的數(shù)據(jù)流程化、可視化建模方式,使數(shù)據(jù)分析過程更加貼近用戶的業(yè)務分析過程,使操作過程流暢自然。
[0028]4、配備完善的幫助及錯誤診斷機制,提高了流程創(chuàng)建效率和結果準確性。
[0029]5、在囊括數(shù)據(jù)分析模型的基礎上,內(nèi)嵌多種國際常用算法,為用戶提供可視化自定義數(shù)據(jù)分析解決方案。
【主權項】
1.一種分布式大數(shù)據(jù)分析方法,其特征在于以大數(shù)據(jù)為基礎,將不同算法制定統(tǒng)一的服務標準,根據(jù)服務標準實現(xiàn)的算法隨機組合繪制成流程圖,并根據(jù)流程圖的算法節(jié)點關系,自動在spark分布式系統(tǒng)上執(zhí)行,實現(xiàn)數(shù)據(jù)分析的云計算。2.根據(jù)權利要求1所述的分布式大數(shù)據(jù)分析方法,其特征在于:采用b/s架構,用戶通過瀏覽器來實現(xiàn)對算法流程的繪制。3.根據(jù)權利要求1所述的分布式大數(shù)據(jù)分析方法,其特征在于:流程圖中包含算法實例節(jié)點、以及算法實例節(jié)點的關系,算法實例節(jié)點的關系通過算法之間的連線來確定。4.根據(jù)權利要求3所述的分布式大數(shù)據(jù)分析方法,其特征在于:每一個算法都對應有已經(jīng)編寫好算法的jar包,通過統(tǒng)一算法的輸入輸出參數(shù)信息,保證算法節(jié)點之間的數(shù)據(jù)流轉。5.根據(jù)權利要求1所述的分布式大數(shù)據(jù)分析方法,其特征在于:通過算法節(jié)點與算法節(jié)點之間的箭頭來表示算法節(jié)點之間的關系,根據(jù)算法節(jié)點關系的描述,自動查找到算法節(jié)點的起始位置,開始執(zhí)行算法處理數(shù)據(jù);當執(zhí)行完一個算法節(jié)點的時候,再根據(jù)算法節(jié)點的描述自動執(zhí)行下一個節(jié)點的算法。6.根據(jù)權利要求1所述的分布式大數(shù)據(jù)分析方法,其特征在于:以工具提供算法的服務與標準,根據(jù)算法接口與標準增加新的算法。7.根據(jù)權利要求6所述的分布式大數(shù)據(jù)分析方法,其特征在于,以工具提供流程的檢測功能,檢查流程的完整性、正確性。
【專利摘要】本發(fā)明公開了一種分布式大數(shù)據(jù)分析方法,屬于數(shù)據(jù)分析領域。該方法以大數(shù)據(jù)為基礎,將不同算法制定統(tǒng)一的服務標準,根據(jù)服務標準實現(xiàn)的算法隨機組合繪制成流程圖,并根據(jù)流程圖的算法節(jié)點關系,自動在spark分布式系統(tǒng)上執(zhí)行,實現(xiàn)數(shù)據(jù)分析的云計算。與現(xiàn)有技術相比,本發(fā)明方法通過自定義數(shù)據(jù)分析流程,即可實現(xiàn)完整的數(shù)據(jù)分析設計,并根據(jù)算法節(jié)點關系,自動順序在spark分布式系統(tǒng)上運算。本發(fā)明提供算法開發(fā)服務和標準,用戶可以根據(jù)自己的業(yè)務需求實現(xiàn)特定的算法。根據(jù)標準增加的算法可以很好的與其他算法進行組合并在spark上運算。最終實現(xiàn)通過云計算挖掘數(shù)據(jù)的目的。
【IPC分類】G06F17/30
【公開號】CN105608160
【申請?zhí)枴緾N201510960157
【發(fā)明人】于曉晨, 邵兵, 劉永, 王寧
【申請人】浪潮軟件股份有限公司
【公開日】2016年5月25日
【申請日】2015年12月21日