本發(fā)明涉及一種基于流計算技術(shù)的任務(wù)調(diào)度方法,具體涉及一種基于蒙特卡絡(luò)模擬法的數(shù)據(jù)流調(diào)度優(yōu)化方法。
背景技術(shù):
隨著信息通信技術(shù)的高速發(fā)展,特別是泛在物聯(lián)網(wǎng)技術(shù)的普及應用,時時刻刻產(chǎn)生著海量、實時的數(shù)據(jù)流,面對這些“無限"運動著的數(shù)據(jù),需要進行在線且精確的計算和分類,從而能夠及時挖掘出其中隱含的有價值信息。在云計算為代表的分布式流計算系統(tǒng)中,不僅包含了海量的靜態(tài)、離線、結(jié)構(gòu)化的數(shù)據(jù),還有實時傳輸、持續(xù)生成的非結(jié)構(gòu)化數(shù)據(jù)。為滿足多任務(wù)并行處理的復雜計算需要,在分布式流計算系統(tǒng)中,將進行計算的海量數(shù)據(jù)切分成若干個小塊數(shù)據(jù)流后交由多臺計算機并行處理,并將局部計算結(jié)果整合得出最終結(jié)果。針對輸入的同組數(shù)據(jù)流,其采用的調(diào)度算法不同,最終的計算效率差異非常大。
目前針對動態(tài)數(shù)據(jù)流的調(diào)度算法有很多,主要有靜態(tài)表調(diào)度(也就是heft算法);基于工作流的調(diào)度;引導搜索調(diào)度;基于聚類的調(diào)度;以及基于任務(wù)復制的調(diào)度等。但這些調(diào)度算法都僅適用于特定的應用環(huán)境下,通用性較差。
在傳統(tǒng)的分布式處理模式中,輸入的大多是靜態(tài)數(shù)據(jù),在利用有向無環(huán)圖dag(directedacyclicgraph)表示并行數(shù)據(jù)流在多處理機上進行任務(wù)調(diào)度時,其任務(wù)的執(zhí)行時間是可預知的。由于分布式流計算系統(tǒng)中輸入的是“無限"運動著的數(shù)據(jù),而且這些數(shù)據(jù)的大小也是不確定的。這種不確定性的存在,使得傳統(tǒng)的經(jīng)典靜態(tài)流據(jù)流heft調(diào)度方法將不再完全適用。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)存在的不足,本發(fā)明目的是提供一種通用性好的基于蒙特卡絡(luò)模擬法的數(shù)據(jù)流調(diào)度優(yōu)化方法,本發(fā)明在任務(wù)執(zhí)行時間隨機變化的情況下,能夠獲得一種性能較為優(yōu)秀的調(diào)度方案。
為了實現(xiàn)上述目的,本發(fā)明是通過如下的技術(shù)方案來實現(xiàn):
利用隨機數(shù)生成算法,在一定約束條件下大量模擬生成任務(wù)執(zhí)行時間,通過經(jīng)典的靜態(tài)調(diào)度算法(heft)產(chǎn)生相應的預調(diào)度方案,經(jīng)過綜合比較最終得到一種最優(yōu)的預調(diào)度方案。
本發(fā)明的一種基于蒙特卡絡(luò)模擬法的數(shù)據(jù)流調(diào)度優(yōu)化方法,具體包括以下幾個步驟:
(1)創(chuàng)建一個空的預調(diào)度方案列表l;并定義一個輸入空間lg,所述輸入空間lg是一組隨機生成各任務(wù)在各處理機上執(zhí)行時間的集合;
(2)生成階段,運用靜態(tài)調(diào)度算法heft生成預調(diào)度方案,并存入到預調(diào)度方案列表l;
(3)選擇階段,比較預調(diào)度方案列表l中每個預調(diào)度方案的完工時間,從而選出最優(yōu)預調(diào)度方案。
步驟(1)中,設(shè)g=(n,e)表示一組由節(jié)點n和一組邊e組成的dag有向無環(huán)圖,形式都為(i→j),其中i,j∈n,節(jié)點i表示對應的任務(wù),邊i→j表示任務(wù)i和j之間任務(wù)間的依賴關(guān)系。
所述輸入空間lg定義如下:lg=(eti,p:i∈n,p∈r),其中,eti,p表示任務(wù)i在處理機p上的確切執(zhí)行時間。
步驟(2)中,運用靜態(tài)調(diào)度算法heft生成預調(diào)度方案具體方法如下:
(1-1)對所述輸入空間lg中每個隨機生成的任務(wù)執(zhí)行時間進行抽樣,得到樣本pg,所述樣本為pg=(ti,p:i∈n,p∈r),其中,ti,p是從eti,p中抽取的一個隨機樣本;
(1-2)采用靜態(tài)調(diào)度算法heft對得到的樣本pg進行處理,得到一種靜態(tài)預調(diào)度方案ωg,并存儲處理結(jié)果;
(1-3)迭代執(zhí)行步驟(1-1)和步驟(1-2)m次,其中m≤1000。
所述靜態(tài)預調(diào)度方案ωg定義如下:
ωg=static_schedulingheft(g,pg),
其中,static_schedulingheft表示靜態(tài)調(diào)度算法heft。
步驟(3)中,從預調(diào)度方案中選出最優(yōu)預調(diào)度方案具體方法如下:
每次從輸入空間lg中隨機抽取一新的任務(wù)執(zhí)行時間樣本
其中,calculate_makespan表示計算每個靜態(tài)預調(diào)度方案確切的完工時間;
然后,計算每種預調(diào)度方案的完工時間平均值;
最后,選出平均值最小的預調(diào)度方案作為最優(yōu)預調(diào)度方案。
采用發(fā)明在任務(wù)執(zhí)行時間隨機變化的情況下,能夠獲得一種性能較為優(yōu)秀的平均完工時間調(diào)度方案。雖然本發(fā)明的方法其任務(wù)調(diào)度過程相對復雜,但相對那些在每個處理機上的每個任務(wù)執(zhí)行時間預測值確定后才能進行啟發(fā)式靜態(tài)調(diào)度的方法而言,其具有較大的性能提升。
附圖說明
圖1為數(shù)據(jù)流調(diào)度優(yōu)化算法流程圖。
具體實施方式
為使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結(jié)合具體實施方式,進一步闡述本發(fā)明。
本發(fā)明基于蒙特卡絡(luò)模擬法的數(shù)據(jù)流調(diào)度優(yōu)化方法,建立在傳統(tǒng)的啟發(fā)式靜態(tài)數(shù)據(jù)流任務(wù)調(diào)度方法(heft)基礎(chǔ)上,通過運用隨機數(shù)生成算法,在一定約束條件下大量生成任務(wù)執(zhí)行時間,利用heft算法,結(jié)合隨機的任務(wù)執(zhí)行時間,生成大量的預調(diào)度方案,并從這些預調(diào)度方案中選出最優(yōu)的預調(diào)度方案,并作為最優(yōu)輸出。
參見圖1,針對一個帶有(隨機生成任務(wù)執(zhí)行時間的集合)性能的dag應用g,其實現(xiàn)算法如下:
1)創(chuàng)建一個空的預調(diào)度方案列表l。
2)生成階段,運用靜態(tài)調(diào)度算法heft生成預調(diào)度方案,并存入到l:
(1a)生成階段:while不滿足生成階段的終止條件(重復m次),repeat。
(2a)在lg中取一個隨機生成的任務(wù)執(zhí)行時間樣本pg,其中包含g中各任務(wù)在不同處理機上執(zhí)行時間的一組隨機值;
(3a)應用啟發(fā)式靜態(tài)調(diào)度算法heft對任務(wù)執(zhí)行時間樣本pg進行處理,最終生成相應的一種預調(diào)度方案ωg;
(4a)把預調(diào)度方案ωg存入l中,為后續(xù)計算最優(yōu)平均完工時間做準備;
(5a)endwhile(每循環(huán)一次,就在lg中隨機抽取一個新的樣本pg)。
3)選擇階段,從預調(diào)度方案中選出最優(yōu)預調(diào)度方案
(1b)for每一次循環(huán)(重復執(zhí)行n次),do
(2b)在lg中取一個隨機生成的任務(wù)執(zhí)行時間樣本
(3b)for針對l中存入的每一種預調(diào)度方案ωg,do
(4b)假設(shè)
(5b)endfor(l中每一種預調(diào)度方案采用的任務(wù)執(zhí)行時間都是一樣的,即都為
(6b)endfor(l中每一種預調(diào)度方案都得到了n個不同的完工時間)
(7b)經(jīng)過選擇階段的循環(huán)計算后,對l中每一種預調(diào)度方案ωg的n個不同完工時間值求平均值,并把這個平均值作為平均完工時間;
(8b)return取出擁有最小平均完工時間的預調(diào)度方案ωg,作為最終要輸甩出的調(diào)度方案;
4)end。
以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術(shù)人員應該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內(nèi)。本發(fā)明要求保護范圍由所附的權(quán)利要求書及其等效物界定。