專利名稱:網(wǎng)格中基于歷史數(shù)據(jù)建模的作業(yè)性能預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及高性能網(wǎng)格中作業(yè)完成時間建模方法,屬于分布式技術(shù)與系統(tǒng)領(lǐng)域。
背景技術(shù):
現(xiàn)代科學(xué)研究中人們求解問題的領(lǐng)域在不斷擴(kuò)大,所遇到的問題也越來越復(fù)雜, 而且規(guī)模越來越大,解決這些問題所需要的計算能力也在大幅度提高,局部的計算資源已 經(jīng)無法滿足需求。隨著計算機(jī)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,很多組織和科研單位都擁有計算能 力很強(qiáng)的超級計算機(jī),但這些機(jī)器往往因?yàn)橹皇枪铝⒌臑楸締挝环?wù)而沒有充分發(fā)揮作 用,在大部分時間處于空閑狀態(tài)。因此,打破地域的限制,協(xié)同使用在網(wǎng)絡(luò)上廣泛分布的各 類資源已成為必須的要求。 網(wǎng)格技術(shù)的提出和發(fā)展正是為了滿足上述這種要求,其目標(biāo)是實(shí)現(xiàn)網(wǎng)格虛擬環(huán)境 上異構(gòu)資源的共享和協(xié)同工作,消除信息孤島和資源孤島。與它相關(guān)的技術(shù)包括網(wǎng)絡(luò)技 術(shù)、XML技術(shù)、Web服務(wù)技術(shù)(web service)、語義網(wǎng)(semantic web)、高性能計算等。隨著 網(wǎng)格技術(shù)的逐漸成熟,結(jié)合了面向服務(wù)理念的開放式網(wǎng)格服務(wù)架構(gòu)(Open Grid Services Architecture, OGSA)已成為網(wǎng)格界事實(shí)上的標(biāo)準(zhǔn),而Web服務(wù)資源框架(WS-Resource Framework, WSRF)是OGSA的最新實(shí)現(xiàn)規(guī)范。 —個遵從OGSA架構(gòu)的網(wǎng)格系統(tǒng)(也稱為網(wǎng)格環(huán)境)通常包括以下三類實(shí)體
參共享資源。真正提供計算能力、能獨(dú)立運(yùn)行的對象,如安裝了操作系統(tǒng)的計算 機(jī),網(wǎng)絡(luò),存儲系統(tǒng)等,是網(wǎng)格系統(tǒng)賴以運(yùn)行的物質(zhì)基礎(chǔ)。網(wǎng)格中的共享資源由個人/組織 (稱為"資源所有者"或"管理員")按照自身意愿所貢獻(xiàn),對外表現(xiàn)為自治的單位個體。資 源所有者可以對其貢獻(xiàn)的共享資源加以諸如"只有在機(jī)器負(fù)載不超過50 %時才能被網(wǎng)格系 統(tǒng)使用"之類的限定,用于限制網(wǎng)格系統(tǒng)對其共享資源的使用。 一般情況下,加入網(wǎng)格系統(tǒng) 的共享資源也稱為網(wǎng)格節(jié)點(diǎn)。 參網(wǎng)格服務(wù)。基于共享資源的本地運(yùn)行環(huán)境(如操作系統(tǒng))、為達(dá)到一定的功能目 的來編程開發(fā)的功能實(shí)體。網(wǎng)格服務(wù)通常按照特定的網(wǎng)格標(biāo)準(zhǔn)/規(guī)范(如WSRF)來實(shí)現(xiàn), 部署在網(wǎng)格節(jié)點(diǎn)之上,接收用戶的調(diào)用,利用共享資源的能力進(jìn)行處理之后向用戶返回結(jié) 果。將共享資源上配備的軟件、程序等實(shí)體具有的功能發(fā)布為網(wǎng)格服務(wù)的過程稱為服務(wù)包 裝??梢詫⒍鄠€網(wǎng)格服務(wù)按照一定的流程進(jìn)行組合,發(fā)布為工作流網(wǎng)格服務(wù),向用戶提供更 強(qiáng)大的功能。工作流服務(wù)和一般的網(wǎng)格服務(wù)對于用戶而言沒有區(qū)別,均為符合了特定網(wǎng)格 標(biāo)準(zhǔn)/規(guī)范的網(wǎng)格服務(wù)。 參用戶。調(diào)用網(wǎng)格服務(wù)的實(shí)體,又稱為用戶節(jié)點(diǎn)。用戶可以是網(wǎng)格系統(tǒng)中的某個 網(wǎng)格節(jié)點(diǎn)/網(wǎng)格服務(wù),也可以是網(wǎng)格系統(tǒng)之外的對象實(shí)體。 雖然網(wǎng)格技術(shù)的發(fā)展使得資源的共享逐漸成為了一種現(xiàn)實(shí),但是如何使得這些資 源得到高效率的利用仍然是一個具有挑戰(zhàn)性的問題。各種網(wǎng)格技術(shù)標(biāo)準(zhǔn)使得在網(wǎng)格中可以 更容易地集成大量的資源。但是,資源數(shù)量的增加也使得資源的選擇成為了一個不可回避 的問題。當(dāng)用戶提交一個計算請求時,系統(tǒng)需要決定應(yīng)該將這個請求調(diào)度給系統(tǒng)中的哪一
4個資源。雖然已經(jīng)有不少有關(guān)網(wǎng)格中資源調(diào)度方面的研究成果。然而,與其它系統(tǒng)中的資 源相比較,網(wǎng)格資源具有異構(gòu)性、分布式、動態(tài)性等特點(diǎn)。在網(wǎng)格中進(jìn)行資源的合理調(diào)度將 具有比其他系統(tǒng)中更大的復(fù)雜度。 平衡負(fù)載和提高作業(yè)執(zhí)行效率是網(wǎng)格調(diào)度系統(tǒng)中普遍遵循的兩個重要目標(biāo)。平 衡負(fù)載主要是從資源提供者的角度出發(fā),用戶作業(yè)負(fù)載應(yīng)該相對公平地在各個資源之間平 衡。提高作業(yè)執(zhí)行效率主要是從網(wǎng)格用戶的角度出發(fā),網(wǎng)格系統(tǒng)應(yīng)該盡可能高質(zhì)量地完成 用戶提交的作業(yè)。無論哪一個目標(biāo),網(wǎng)格系統(tǒng)在進(jìn)行調(diào)度之前都需要了解資源的軟硬件配 置、資源動態(tài)負(fù)載以及作業(yè)性能模型等三方面信息。作業(yè)性能模型主要是用來描述在特定 的軟/硬件配置和動態(tài)負(fù)載下,用戶作業(yè)的完成質(zhì)量。作業(yè)完成質(zhì)量可能包括時間開銷、資 源(cpu、內(nèi)存、帶寬、磁盤)占用量、結(jié)果的準(zhǔn)確性等。其中,作業(yè)時間開銷往往是用戶最關(guān) 心的一個指標(biāo)。在網(wǎng)格中,前兩個方面信息的取得可以依賴專門的"網(wǎng)格信息中心"和"網(wǎng) 格監(jiān)控系統(tǒng)"等子系統(tǒng)完成。但沒有一個簡單的途徑可以有效地獲取第三方面的信息。
圖1給出一個網(wǎng)格中在異構(gòu)資源之間進(jìn)行作業(yè)調(diào)度的典型場景。圖中所示橫坐標(biāo) 為時間軸,縱坐標(biāo)為一組網(wǎng)格上的可用資源。橫坐標(biāo)中給出了從T(0)到T(6)共7個不同的 時刻,且當(dāng)前處于T(l)時刻。縱坐標(biāo)中的一組資源包括了具有不同容量大小的三個資源。 同時,圖中給出了三個無色方框,分別表示三個資源上正在運(yùn)行的作業(yè)。方框的長度表示作 業(yè)執(zhí)行的時間開銷,方框的寬度表示三個資源上的容量大小。如圖所示,當(dāng)前T(l)時刻資 源1上有作業(yè)1正在運(yùn)行,資源2上有作業(yè)2正在運(yùn)行,資源3上的作業(yè)3剛剛完成。此時, 用戶提交了新的請求作業(yè)4,調(diào)度系統(tǒng)需要決定選擇三個資源中的一個來完成作業(yè)4。
參首先考慮不對作業(yè)建模的情況。由于在T(l)時刻,資源3剛剛完成作業(yè)3,事實(shí) 上處于空閑狀態(tài)。所以按照傳統(tǒng)的調(diào)度方案,作業(yè)4一定會被調(diào)度到資源3上來完成。如 圖所示,由于資源3的容量有限,作業(yè)4 一直到T(6)才能完成。 參當(dāng)采用一種足夠準(zhǔn)確的方法對作業(yè)的性能進(jìn)行建模的時候,調(diào)度系統(tǒng)就會預(yù)計
作業(yè)1會在T(2)時刻完成,而作業(yè)2會在T(3)時刻完成?;谧鳂I(yè)1、作業(yè)2和作業(yè)3的 完成時間,調(diào)度系統(tǒng)繼而可以對作業(yè)4在三個候選資源上的完成時間進(jìn)行預(yù)測。預(yù)測的結(jié) 果是作業(yè)4被調(diào)度到資源1上將會最早完成,調(diào)度到資源2上將會有最小的時間開銷。這 樣的話,對于不同的優(yōu)化目標(biāo),調(diào)度器可以將作業(yè)4調(diào)度到不同的資源上。如果以用戶響應(yīng) 速度為優(yōu)化目標(biāo),作業(yè)4應(yīng)該被調(diào)度到資源1 ;如果以時間開銷為優(yōu)化目標(biāo),作業(yè)4應(yīng)該被 調(diào)度到資源2 ;如果以平衡負(fù)載為優(yōu)化目標(biāo),作業(yè)4應(yīng)該被調(diào)度到資源3。
作業(yè)性能模型是網(wǎng)格資源調(diào)度中非常重要的一個環(huán)節(jié)。不對作業(yè)性能進(jìn)行足夠準(zhǔn) 確的預(yù)測,調(diào)度器就不能掌握資源負(fù)載在未來一段時間的變化。不了解資源負(fù)載的變化,調(diào) 度器就不能為新的作業(yè)選擇合適的資源。另一方面,資源的異構(gòu)性使得在網(wǎng)格中對作業(yè)進(jìn) 行建模并不是一件容易完成的工作。同一種應(yīng)用,相同的輸入?yún)?shù)和數(shù)據(jù),在不同的資源 上,將會導(dǎo)致不同的作業(yè)性能?,F(xiàn)有的建模方案具有如下的一些缺陷
1)建立的性能模型時靜態(tài)的,不能動態(tài)調(diào)整。性能模型被固定為某種類型,如線性 模型。 2)需要有關(guān)應(yīng)用計算軟件的內(nèi)部知識,甚至需要對源代碼進(jìn)行分析。建立性能模 型需有關(guān)程序內(nèi)部的循環(huán)、并行等結(jié)構(gòu)方面的知識,或者使用某種專門的工具對源代碼進(jìn) 行分析。而這對于大多數(shù)軟件來說往往是很難實(shí)現(xiàn)的。
5
3)不能同時適應(yīng)計算密集型和通信密集型的作業(yè)類型,只能分別針對計算密集型 和通信密集型進(jìn)行建模。 4)采用了已經(jīng)被證明誤差較大的技術(shù)手段來預(yù)測數(shù)據(jù)傳輸時間。采用了類似 麗S(NetworkWeather Service)等監(jiān)控工具來預(yù)測網(wǎng)絡(luò)帶寬。然而,已有另外的研究證明 麗S對于實(shí)際文件傳輸帶寬的預(yù)測誤差是相當(dāng)大的。 5)在模擬環(huán)境中進(jìn)行評價,將資源的負(fù)載設(shè)定為固定的狀態(tài),沒有體現(xiàn)出資源負(fù) 載的動態(tài)變化。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠不依賴于計算軟件內(nèi)部實(shí)現(xiàn),在資源負(fù)載實(shí)時變
化情況下,為計算和通信密集型作業(yè)進(jìn)行性能動態(tài)建模的方法。同時,在此建模方法的基礎(chǔ)
上,提供一種在網(wǎng)格環(huán)境下進(jìn)行資源調(diào)度的算法。 為更好地說明本發(fā)明的內(nèi)容,首先定義如下名詞和術(shù)語 1)作業(yè)。作業(yè)(Job)是指計算機(jī)系統(tǒng)中為了完成共同的目標(biāo),而被操作系統(tǒng)執(zhí)行 的一系列CPU指令。本發(fā)明中的作業(yè)是指在計算機(jī)系統(tǒng)中被啟動的一個或幾個進(jìn)程。這些 進(jìn)程之間存在一定的通信或數(shù)據(jù)傳遞。 2)作業(yè)性能。作業(yè)性能指的是作業(yè)從開始執(zhí)行到執(zhí)行結(jié)束時所占用的各種資源。 這些資源可能包括CPU、內(nèi)存、磁盤、時間。對于用戶來說,作業(yè)的時間開銷是用戶最關(guān)心 的。本專利申請中的作業(yè)性能主要是指作業(yè)的時間開銷,及作業(yè)從開始執(zhí)行到完成所經(jīng)歷 的時間。其中也包括了為作業(yè)準(zhǔn)備輸入數(shù)據(jù),以及將作業(yè)輸出數(shù)據(jù)保存所需要的時間。
3)作業(yè)性能模型。作業(yè)性能模型是指用來描述作業(yè)性能變化規(guī)律的一個或幾個數(shù) 學(xué)函數(shù)。函數(shù)的自變量包括如下全部或部分內(nèi)容資源軟/硬件配置信息,資源動態(tài)負(fù)載信 息,作業(yè)請求信息。 本發(fā)明的特征在于所述方法是在包括計算機(jī)、網(wǎng)絡(luò)、存儲系統(tǒng)在內(nèi)的作為共享資
源的網(wǎng)格節(jié)點(diǎn)上按照如下步驟實(shí)現(xiàn)的
步驟(1)初始化 在所述網(wǎng)格節(jié)點(diǎn)上設(shè)置基于Web服務(wù)資源框架OGSA的CGSP網(wǎng)格軟件和CGSV網(wǎng)
格軟件,其中CGSP網(wǎng)格軟件是中國網(wǎng)格ChinaGrid中一個為其他專業(yè)網(wǎng)格提供公共支撐平
臺的中間件,集成了中國教育科研網(wǎng)絡(luò)CERNET上的各種議購的教育和研究資源; CGSV網(wǎng)格軟件是中國網(wǎng)格ChinaGrid中的對分布式資源進(jìn)行監(jiān)控的工具,同時收
集和查詢包括硬件、系統(tǒng)、網(wǎng)絡(luò)和所述CGSP網(wǎng)格軟件在內(nèi)的共享資源的動態(tài)信息; 歷史作業(yè)信息庫HJIR,存儲有當(dāng)前的N條歷史作業(yè)信息,其中每一條歷史作業(yè)信
息的記錄格式為資源配置信息、資源負(fù)載信息、作業(yè)請求信息以及作業(yè)實(shí)際性能信息,每一
條所述歷史作業(yè)信息均由所述CGSP網(wǎng)格軟件和CGSV網(wǎng)格軟件在內(nèi)構(gòu)成,其中 資源配置信息至少包括各網(wǎng)格節(jié)點(diǎn)中的CPU個數(shù)、內(nèi)存容量、最大帶寬、操作系統(tǒng)
及其版本以及其他軟件及其版本,這些都反映了所述網(wǎng)格資源在執(zhí)行相應(yīng)作業(yè)的軟件和硬
件的配置信息; 資源負(fù)載信息至少包括執(zhí)行相應(yīng)作業(yè)時網(wǎng)格節(jié)點(diǎn)的CPU空閑率、內(nèi)存空閑率和可 用帶寬,反映了網(wǎng)格節(jié)點(diǎn)在執(zhí)行相應(yīng)作業(yè)時的負(fù)載情況;
作業(yè)請求信息至少包括作業(yè)請求的應(yīng)用類型、命令行參數(shù)及其符值、輸入數(shù)據(jù)及 其大小,反映了歷史上的同類作業(yè)請求的輸入信息; 作業(yè)實(shí)際性能信息至少包括歷史作業(yè)執(zhí)行時間開銷以及作業(yè)數(shù)據(jù)傳輸時間開銷, 反映了在作業(yè)執(zhí)行完成后,系統(tǒng)收集到的有關(guān)作業(yè)性能的實(shí)際數(shù)據(jù); 在所述網(wǎng)格節(jié)點(diǎn)上,還設(shè)置了利用前N-1個所述歷史作業(yè)信息庫中的記錄,建立 下述5個候選回歸函數(shù)的集合{線形候選回歸函數(shù)f^,、高斯候選回歸函數(shù)&自^、倒數(shù) 多重二次曲面候選回歸函數(shù)& 皿一皿(《。、多重二次曲面候選回歸函數(shù)fMultiqua(M。和多項 式候選回歸函數(shù)fp。加。miJ ;
步驟(2) 所述網(wǎng)格節(jié)點(diǎn)依次按如下步驟執(zhí)行基于歷史數(shù)據(jù)建模的作業(yè)性能預(yù)測
步驟(2. 1) 用戶對所述網(wǎng)格節(jié)點(diǎn)輸入作業(yè)的輸入數(shù)據(jù),所述作業(yè)輸入數(shù)據(jù)是指作業(yè)請求信 息,其中至少包括用戶名稱及編號、作業(yè)請求的應(yīng)用類型、命令行參數(shù)及其符值,以及輸入 數(shù)據(jù)及其大小;
步驟(2. 2) 用戶通過所述網(wǎng)格節(jié)點(diǎn)的認(rèn)證后,該網(wǎng)格節(jié)點(diǎn)把所述用戶輸入的作業(yè)編號為第
N+l個作業(yè); 步驟(2. 3) 把歷史上N個作業(yè)中記錄的資源配置信息C,、資源負(fù)載信息LN以及作業(yè)請求信息 Rw,代入步驟(1)中所述的5個候選回歸函數(shù),得到所述歷史上第N個作業(yè)的5個性能估計 借-PP P P 禾D P -
l且"Linear、 1 Gaussian、 1 InverseMultiquadric、 1 Multiquadric 1 1 Polynomial , 步驟(2. 4) 把步驟(2. 3)中所述的5個性能估計值分別與所述第N給作業(yè)的真實(shí)的作業(yè)性能 值P進(jìn)行比較,從中選出差值最小的候選回歸函數(shù)fw,從而得到了適合該種作業(yè)類型應(yīng)用的 作業(yè)性能預(yù)測函數(shù);
步驟(2. 5) 把所述第N+l個作業(yè)所記錄的資源配置信息CN+1,資源負(fù)載信息LN+1以及作業(yè)請求 信息RN+1帶入所述候選回歸函數(shù)fN計算得到第N+l個作業(yè)的性能預(yù)測值。
本方法的優(yōu)點(diǎn)如下 1)針對網(wǎng)格中資源異構(gòu)性的特點(diǎn),將資源容量特征作為性能建模的函數(shù)變量。比 如,CPU個數(shù)及主頻、內(nèi)存容量、網(wǎng)絡(luò)帶寬。 2)針對網(wǎng)格中資源動態(tài)性的特點(diǎn),將資源的動態(tài)負(fù)載作為性能建模的函數(shù)變量。 比如,CPU空閑率、內(nèi)存空閑率、可用帶寬。 3)不需要有關(guān)程序內(nèi)部結(jié)構(gòu)和源代碼的相關(guān)知識。建模方法完全基于歷史作業(yè)的 性能記錄。 4)對于數(shù)據(jù)傳輸時間的預(yù)測,采用了歷史記錄加權(quán)平均的方法來得到。 5)每當(dāng)一個新的作業(yè)完成,將性能記錄保存下來。根據(jù)新的作業(yè)性能記錄,可以動
態(tài)更新作業(yè)性能模型。
圖1 :網(wǎng)格中作業(yè)調(diào)度場景示例圖; 圖2 :網(wǎng)格中作業(yè)執(zhí)行過程描述圖; 圖3 :作業(yè)性能建模流程圖; 圖4 :性能建模及調(diào)度方案實(shí)現(xiàn)系統(tǒng)示意圖; 圖5 :作業(yè)完成時間預(yù)測實(shí)驗(yàn)結(jié)果,"&"完成時間預(yù)測相對誤差; 圖6 :基于性能建模與Round Robin兩種調(diào)度方案中,作業(yè)完成時間比較, 一完
成時間(RoundRobin)-完成時間(預(yù)測模型);
具體實(shí)施例方式
在給出本發(fā)明的主要內(nèi)容之前,需要首先說明在網(wǎng)格環(huán)境中作業(yè)執(zhí)行的過程。圖2 所示為網(wǎng)格作業(yè)執(zhí)行的過程示意圖。從圖中可以看出,網(wǎng)格作業(yè)的執(zhí)行過程可以大體分為 三個階段。 1)輸入數(shù)據(jù)準(zhǔn)備階段。作業(yè)的輸入數(shù)據(jù)從用戶傳輸?shù)綀?zhí)行作業(yè)的資源。這一階段 主要是對網(wǎng)絡(luò)帶寬的占用,對CPU周期的占用量不大。 2)數(shù)據(jù)處理階段。主要是對輸入數(shù)據(jù)進(jìn)行分析處理。這一階段占用的CPU周期相 對比較多,而對網(wǎng)絡(luò)帶寬的占用較少。 3)輸出數(shù)據(jù)取得階段。作業(yè)的輸出數(shù)據(jù)從計算資源傳輸?shù)接脩?。與第一階段類
似,主要是對網(wǎng)絡(luò)帶寬的占用,對CPU周期的占用量不大。 基于上述特征,計算網(wǎng)格中作業(yè)性能建模方法的發(fā)明內(nèi)容包括 已知一組作業(yè)性能的歷史記錄,建立關(guān)于該種類型應(yīng)用的作業(yè)性能回歸函數(shù)。假
設(shè)與當(dāng)前作業(yè)類型相同的歷史作業(yè)信息庫中記錄的總數(shù)為N,須要預(yù)測第N+l個作業(yè)的性
能。流程圖如圖3所示。 1)每一個歷史作業(yè)的性能信息作為一條記錄,將它們集合起來構(gòu)成一個歷史作業(yè) 信息庫(HJIR)。每一條記錄的格式如下〈[資源配置信息C],[資源負(fù)載信息L],[作業(yè)請求信息R],[作業(yè)實(shí)際性能信息 P]>每一條記錄包含四部分內(nèi)容資源配置信息、資源負(fù)載信息、作業(yè)信息和作業(yè)實(shí)際性能信息。 a)資源配置信息主要包括資源在執(zhí)行該作業(yè)時的軟/硬件配置信息。比如,CPU 個數(shù)、內(nèi)存容量、最大帶寬、操作系統(tǒng)及其版本、其他軟件及其版本。 b)資源負(fù)載信息主要包括資源在執(zhí)行該作業(yè)時的負(fù)載情況。比如,CPU空閑率、內(nèi) 存空閑率、可用帶寬。 c)作業(yè)請求信息主要包括用戶提交作業(yè)請求的輸入信息。比如,請求的應(yīng)用類型、 命令行參數(shù)及其賦值、輸入數(shù)據(jù)及其大小。 d)作業(yè)實(shí)際性能信息主要包括在作業(yè)執(zhí)行完成后,系統(tǒng)收集到的有關(guān)作業(yè)性能的
實(shí)際數(shù)據(jù)。比如,作業(yè)輸出結(jié)果、作業(yè)計算時間開銷、作業(yè)數(shù)據(jù)傳輸時間開銷。 2)對于5個候選函數(shù)模型,利用前N-1個歷史作業(yè)信息庫中的記錄,建立相應(yīng)的5
個"fl夷選回歸函數(shù)集合(f"unear、 fGaussian、 fl読rseMultiquadric、 fMultiquadric禾卩fp。ly謹(jǐn)iaJ 。
5個"f疾選函數(shù)
模型為Linear、Gaussian、InverseMultiquadric、Multiquadric禾卩Polynomial。 回歸函數(shù)
8的表示為P = f ([資源配置信息C],[資源負(fù)載信息L],[作業(yè)請求信息R])
其中f依次代入5個候選函數(shù)模型。 3)對于上一步中5個剛剛建立的候選回歸函數(shù),分別預(yù)測第N個記錄中的作業(yè)性 能。將第N個作業(yè)記錄的資源配置信息C、資源負(fù)載信息L和作業(yè)請求信息R帶入5個候選 回歸函數(shù),得到第N個作業(yè)的5個性能估計值{P
Linear、 PGaussian、 P工nverseMultiquadric、 P]Wultiquadric禾口
P }
1 PolynomialJ 0 4)將5個性能估計值與第N個作業(yè)的真實(shí)的作業(yè)性能P進(jìn)行比較,從5個候選回
歸函數(shù)選出差距最小的候選函數(shù)f。選出的函數(shù)f就是該種類型應(yīng)用的作業(yè)性能預(yù)測函數(shù)。 將第N+l個作業(yè)記錄的資源配置信息C、資源負(fù)載信息L和作業(yè)請求信息R帶入候
選回歸函數(shù)f,計算第N+l個作業(yè)的性能預(yù)測值。 算法的實(shí)現(xiàn)主要基于兩個網(wǎng)格軟件CGSP和CGSV。 CGSP是ChinaGrid中為其他專業(yè)網(wǎng)格提供公共支撐平臺的中間件項目。它可以被 用來集成中國教育科研網(wǎng)(CERNET)上的各種異構(gòu)的教育和研究資源。CGSP不僅支持對異 構(gòu)資源的統(tǒng)一管理,而且提供Portal建設(shè)、作業(yè)定義和應(yīng)用打包等功能。當(dāng)前CGSP的執(zhí)行 管理實(shí)現(xiàn)了一個雙層的作業(yè)調(diào)度模型。調(diào)度模型的上層是一個作業(yè)元調(diào)度器,下層是一組 作業(yè)管理器。根據(jù)作業(yè)的類型,這些作業(yè)管理器可分成四類遺留程序作業(yè)管理器、服務(wù)作 業(yè)管理器、工作流作業(yè)管理器和GridPPI作業(yè)管理器。每一個作業(yè)管理器在元調(diào)度器中都 對應(yīng)一個注冊項。當(dāng)有作業(yè)需要調(diào)度的時候,元調(diào)度器從注冊項中選擇一個合適的管理器, 將作業(yè)請求分發(fā)給它。 CGSV是ChinaGrid中的對分布式資源進(jìn)行監(jiān)控的工具。它可以收集和查詢硬件、 系統(tǒng)、網(wǎng)絡(luò)和CGSP等的動態(tài)信息。用戶可以通過圖形化的GUI或者Web Services接口訪 問這些性能數(shù)據(jù)。CGSV的可擴(kuò)展性和數(shù)據(jù)自描述使得它非常適合于對網(wǎng)格環(huán)境中動態(tài)信息 的收集。 系統(tǒng)主要由四個層次組成。圖4給出了它的總體架構(gòu)。 1)系統(tǒng)的第一層是資源監(jiān)測層。這一層主要包括四種資源狀態(tài)的監(jiān)測工具 GridFTP日志監(jiān)視器、GRS日志監(jiān)視器、CGSV主機(jī)傳感器和CGSP傳感器。CGSV主機(jī)傳感器 主要負(fù)責(zé)收集網(wǎng)格計算節(jié)點(diǎn)的資源利用率,如CPU空閑率和內(nèi)存使用率等。CGSP傳感器從 三個CGSP組件中取得CGSP的作業(yè)運(yùn)行列表、用戶列表和應(yīng)用列表等各種信息。GridFTP日 志監(jiān)視器從各個GridFTP服務(wù)器的日志數(shù)據(jù)中獲取文件傳輸?shù)臍v史信息。GRS日志監(jiān)視器 從各個計算節(jié)點(diǎn)的GRS日志文件中提取已完成的作業(yè)的實(shí)際時間開銷,包括數(shù)據(jù)傳輸開銷 和數(shù)據(jù)處理開銷。 2)資源監(jiān)測層中的傳感器和監(jiān)視器產(chǎn)生各種資源狀態(tài)和歷史記錄信息。它負(fù)責(zé)將 這些生成的信息匯總,交給作業(yè)調(diào)度層進(jìn)行分析和決策。需要匯總的信息主要包括兩大類 CGSV傳感器和日志監(jiān)測器。CGSV中傳感器產(chǎn)生的數(shù)據(jù)主要通過Target Service進(jìn)行發(fā)布, 由Generic Archiver對其進(jìn)行統(tǒng)一存檔。只需要將Target Service系統(tǒng)注冊到Registry, 就可以通過Proxy Service來對特定的性能數(shù)據(jù)進(jìn)行統(tǒng)一訪問。對于日志監(jiān)視器產(chǎn)生的數(shù) 據(jù),由信息集線器來負(fù)責(zé)收集。 3)分析決策層是核心功能層。從信息匯總層得到的各種數(shù)據(jù)在這一層進(jìn)行分析處
9理,然后根據(jù)分析的結(jié)果將作業(yè)分配給合適的節(jié)點(diǎn)進(jìn)行計算。這一層進(jìn)行的數(shù)據(jù)分析主要 是用來在調(diào)度前對作業(yè)的性能進(jìn)行預(yù)測。預(yù)測的方法主要是基于歷史作業(yè)性能數(shù)據(jù)建立作 業(yè)時間開銷模型,包括作業(yè)輸出模型、數(shù)據(jù)傳輸時間模型和數(shù)據(jù)處理時間模型。為了更準(zhǔn)確 的反映作業(yè)的性能,這些模型會根據(jù)最新的已完成作業(yè)信息動態(tài)進(jìn)行調(diào)整。作業(yè)模型建立 之后,系統(tǒng)將根據(jù)資源的當(dāng)前負(fù)載狀態(tài),預(yù)測作業(yè)在候選節(jié)點(diǎn)上的時間開銷。最后,根據(jù)預(yù) 測結(jié)果,選擇最優(yōu)的調(diào)度方案交給執(zhí)行管理層,以便真正的執(zhí)行一個作業(yè)。
4)執(zhí)行管理層根據(jù)分析決策層給出的調(diào)度方案,在被選擇的計算節(jié)點(diǎn)上啟動作業(yè) 的執(zhí)行。這一部分的功能主要是通過與CGSP的數(shù)據(jù)管理和作業(yè)管理模塊交互來完成。以 遺留程序作業(yè)中的JSDL作業(yè)為例。第一步,SSRM作業(yè)管理模塊將輸入數(shù)據(jù)上傳到CGSP數(shù) 據(jù)空間的特定目錄。第二步,JSDL作業(yè)描述文檔被動態(tài)生成。這個作業(yè)描述文檔主要給出 了應(yīng)用的名稱、作業(yè)的輸入?yún)?shù)、作業(yè)輸入數(shù)據(jù)在CGSP數(shù)據(jù)空間中的位置和輸出文件將來 在數(shù)據(jù)空間中存放的位置。最重要的是,這個文檔中給出了為該作業(yè)選擇的計算節(jié)點(diǎn)。第 三步,JSDL描述文檔被提交給CGSP的作業(yè)管理器。作業(yè)管理器將該作業(yè)分發(fā)給JSDL中指 定的計算節(jié)點(diǎn)的GRS服務(wù)。GRS下載輸入、進(jìn)行計算、上傳輸出文件。當(dāng)作業(yè)成功完成時,輸 出文件會被系統(tǒng)的作業(yè)管理模塊自動下載到本地,方便用戶查看。 為了驗(yàn)證作業(yè)性能建模的準(zhǔn)確性,我們設(shè)計了如下實(shí)驗(yàn)。100個不同輸入序列的 Tigr作業(yè)被按照隨機(jī)的時間間隔被分別提交給性能預(yù)測建模系統(tǒng)。在對100個作業(yè)的依次 調(diào)度執(zhí)行的過程中,由于不斷有作業(yè)執(zhí)行完成,作業(yè)歷史記錄的規(guī)模不斷加大。由于被作業(yè) 建模系統(tǒng)用來建模的作業(yè)樣本不斷增加,作業(yè)性能模型將會不斷被修整。從圖5可以看出, 剛開始的作業(yè)性能模型作業(yè)性能的預(yù)測準(zhǔn)確度是很差的。隨著作業(yè)編號的增加,性能模型 的預(yù)測準(zhǔn)確度整體上不斷提高。第100個作業(yè)的時候,性能預(yù)測的誤差已經(jīng)達(dá)到了 25%左 右。 為了驗(yàn)證作業(yè)調(diào)度的優(yōu)化效果,我們設(shè)計了一個實(shí)驗(yàn)與Round Robin方案進(jìn)行比 較。RoundRobin方案不考慮計算節(jié)點(diǎn)狀態(tài)變化,按照作業(yè)到達(dá)的順序依次分配下一個可用 計算資源。實(shí)驗(yàn)中,100個不同輸入序列的Tigr作業(yè)被按照隨機(jī)的時間間隔被分別提交給 基于性能建模的調(diào)度方案和Round Robin方案。當(dāng)所有作業(yè)都執(zhí)行完成后,系統(tǒng)可以得到兩 種防按下,這100個作業(yè)的分別完成時間開銷。通過計算這100個作業(yè)在兩種方案中的執(zhí) 行時間差,可以對這兩種調(diào)度方案的作業(yè)性能進(jìn)行比較。圖6的橫坐標(biāo)為100個作業(yè)的序 列號,縱坐標(biāo)表示的就是100個作業(yè)在兩種方案中的時間差??梢院苊黠@的看出,對于100 個作業(yè)中大部分的作業(yè),在Round Rob in方案中的時間開銷明顯大于在SSRM方案中的時間 開銷。這個結(jié)果說明了與Round Robin方案相比較,基于性能建模的方案考慮計算節(jié)點(diǎn)的 負(fù)載狀態(tài)可以更好的在計算節(jié)點(diǎn)之間進(jìn)行負(fù)載均衡。因此,基于性能建模的方案可以減少 計算資源負(fù)載過大而導(dǎo)致的作業(yè)時間開銷急劇增加的情況。 需要的硬件環(huán)境CPUlGHz或以上、內(nèi)存256M或以上。需要的軟件環(huán)境支持 JDK5. 0的操作系統(tǒng)、Java5. 0運(yùn)行時環(huán)境。其他軟件工具CGSP2. 0、 CGSV。
10
權(quán)利要求
網(wǎng)格中基于歷史數(shù)據(jù)建模的作業(yè)性能預(yù)測方法,其特征在于所述方法是在包括計算機(jī)、網(wǎng)絡(luò)、存儲系統(tǒng)在內(nèi)的作為共享資源的網(wǎng)格節(jié)點(diǎn)上按照如下步驟實(shí)現(xiàn)的步驟(1)初始化在所述網(wǎng)格節(jié)點(diǎn)上設(shè)置基于Web服務(wù)資源框架OGSA的CGSP網(wǎng)格軟件和CGSV網(wǎng)格軟件,其中CGSP網(wǎng)格軟件是中國網(wǎng)格ChinaGrid中一個為其他專業(yè)網(wǎng)格提供公共支撐平臺的中間件,集成了中國教育科研網(wǎng)絡(luò)CERNET上的各種議購的教育和研究資源;CGSV網(wǎng)格軟件是中國網(wǎng)格ChinaGrid中的對分布式資源進(jìn)行監(jiān)控的工具,同時收集和查詢包括硬件、系統(tǒng)、網(wǎng)絡(luò)和所述CGSP網(wǎng)格軟件在內(nèi)的共享資源的動態(tài)信息;歷史作業(yè)信息庫HJIR,存儲有當(dāng)前的N條歷史作業(yè)信息,其中每一條歷史作業(yè)信息的記錄格式為資源配置信息、資源負(fù)載信息、作業(yè)請求信息以及作業(yè)實(shí)際性能信息,每一條所述歷史作業(yè)信息均由所述CGSP網(wǎng)格軟件和CGSV網(wǎng)格軟件在內(nèi)構(gòu)成,其中資源配置信息至少包括各網(wǎng)格節(jié)點(diǎn)中的CPU個數(shù)、內(nèi)存容量、最大帶寬、操作系統(tǒng)及其版本以及其他軟件及其版本,這些都反映了所述網(wǎng)格資源在執(zhí)行相應(yīng)作業(yè)的軟件和硬件的配置信息;資源負(fù)載信息至少包括執(zhí)行相應(yīng)作業(yè)時網(wǎng)格節(jié)點(diǎn)的CPU空閑率、內(nèi)存空閑率和可用帶寬,反映了網(wǎng)格節(jié)點(diǎn)在執(zhí)行相應(yīng)作業(yè)時的負(fù)載情況;作業(yè)請求信息至少包括作業(yè)請求的應(yīng)用類型、命令行參數(shù)及其符值、輸入數(shù)據(jù)及其大小,反映了歷史上的同類作業(yè)請求的輸入信息;作業(yè)實(shí)際性能信息至少包括歷史作業(yè)執(zhí)行時間開銷以及作業(yè)數(shù)據(jù)傳輸時間開銷,反映了在作業(yè)執(zhí)行完成后,系統(tǒng)收集到的有關(guān)作業(yè)性能的實(shí)際數(shù)據(jù);在所述網(wǎng)格節(jié)點(diǎn)上,還設(shè)置了利用前N-1個所述歷史作業(yè)信息庫中的記錄,建立下述5個候選回歸函數(shù)的集合{線形候選回歸函數(shù)fLinear、高斯候選回歸函數(shù)fGaussian、倒數(shù)多重二次曲面候選回歸函數(shù)fInverseMultiquadric、多重二次曲面候選回歸函數(shù)fMultiquadric和多項式候選回歸函數(shù)fPolynomial};步驟(2)所述網(wǎng)格節(jié)點(diǎn)依次按如下步驟執(zhí)行基于歷史數(shù)據(jù)建模的作業(yè)性能預(yù)測步驟(2.1)用戶對所述網(wǎng)格節(jié)點(diǎn)輸入作業(yè)的輸入數(shù)據(jù),所述作業(yè)輸入數(shù)據(jù)是指作業(yè)請求信息,其中至少包括用戶名稱及編號、作業(yè)請求的應(yīng)用類型、命令行參數(shù)及其符值,以及輸入數(shù)據(jù)及其大?。徊襟E(2.2)用戶通過所述網(wǎng)格節(jié)點(diǎn)的認(rèn)證后,該網(wǎng)格節(jié)點(diǎn)把所述用戶輸入的作業(yè)編號為第N+1個作業(yè);步驟(2.3)把歷史上N個作業(yè)中記錄的資源配置信息CN、資源負(fù)載信息LN以及作業(yè)請求信息RN,代入步驟(1)中所述的5個候選回歸函數(shù),得到所述歷史上第N個作業(yè)的5個性能估計值PLinear、PGaussian、PInverseMultiquadric、PMultiquadric和PPolynomial;步驟(2.4)把步驟(2.3)中所述的5個性能估計值分別與所述第N給作業(yè)的真實(shí)的作業(yè)性能值P進(jìn)行比較,從中選出差值最小的候選回歸函數(shù)fN,從而得到了適合該種作業(yè)類型應(yīng)用的作業(yè)性能預(yù)測函數(shù);步驟(2.5)把所述第N+1個作業(yè)所記錄的資源配置信息CN+1,資源負(fù)載信息LN+1以及作業(yè)請求信息RN+1帶入所述候選回歸函數(shù)fN計算得到第N+1個作業(yè)的性能預(yù)測值。
全文摘要
網(wǎng)格中基于歷史數(shù)據(jù)建模的作業(yè)性能預(yù)測方法,屬于高性能網(wǎng)格中作業(yè)完成時間建模及預(yù)測方法,其特征在于在網(wǎng)格節(jié)點(diǎn)中建立基于CGSP網(wǎng)格軟件和CGSV網(wǎng)格軟件的歷史作業(yè)信息庫,內(nèi)有N個歷史作業(yè)信息,涉及資源配置、資源負(fù)載、作業(yè)請求及作業(yè)實(shí)際性能四個方面,同時建立一個由多個候選回歸函數(shù)組成的集合,在預(yù)測時用戶所提交的第N+1個作業(yè)根據(jù)第N個作業(yè)的回歸模型得到,而該第N個作業(yè)的回歸模型又根據(jù)第N個作業(yè)的作業(yè)實(shí)際性能和根據(jù)第N-1個作業(yè)的各個候選回歸模型的實(shí)際性能預(yù)測值結(jié)果之差值中選擇一個差值最小的候選回歸模型得到,仿真實(shí)驗(yàn)證明本發(fā)明可以解決資源負(fù)載過大所導(dǎo)致的作業(yè)時間開銷急劇上升的問題。
文檔編號H04L29/08GK101697141SQ20091023653
公開日2010年4月21日 申請日期2009年10月30日 優(yōu)先權(quán)日2009年10月30日
發(fā)明者楊廣文, 柳佳, 武永衛(wèi), 陳剛 申請人:清華大學(xué);