專利名稱:一種基于樹狀架構的初始化方法
技術領域:
本發(fā)明涉及一種基于樹狀傳輸架構的初始化構建方法,特別是一種用來實時聚集不同節(jié)點的性能數據的樹狀傳輸架構的初始化構建方法。
背景技術:
為了滿足科學計算大規(guī)模和長時間運行的需求,以及有效減少高性能計算領域軟硬件不斷擴大的差距,傳統的靜態(tài)和事后性能監(jiān)測和分析技術逐漸被在線的可擴展的監(jiān)測方法所取代,從而改進并行程序的性能并充分利用現有的計算資源。進而,傳統的l-η架構由于其缺乏可擴展性,已經逐漸被樹狀傳輸架構所取代。在性能監(jiān)測領域比較典型的架構為模型,其原型實現MRNet通信庫在該領域受到廣泛的使用。該架構是基于進程的,其構建過程可以并行執(zhí)行,根節(jié)點通過系統配置文件來生成其各個子節(jié)點,子節(jié)點進而鏈接其父親節(jié)點,并獲得其子樹的配置信息,從而最終并行生成該通信樹。而對于性能監(jiān)測工具來說,若想利用該樹狀傳輸架構,則需要使用附加模式,先構建內部通信樹,然后監(jiān)測進程附加到內部通信樹的葉子節(jié)點,從而初始化整個樹狀傳輸結構。然而,其前提條件就是應用進程要事先了解其需附加內部樹葉子節(jié)點的相關信息,比如ΙΡ,端口等等。雖然MRNet提供了靈活的接口,而信息識別、內部進程放置、輔助進程觸發(fā)等等仍然需要手工設計和實現,本專利就是用于解決以上問題,適用于典型的集群系統,可用于基于其上的在線性能監(jiān)測工具的數據匯聚。之前對于傳輸架構的初始化構建問題的研究主要分為兩類1)不以MRNet為基礎的進程啟動方法,包括LaunchMON,LIBI以及TDP ;2)基于MRNet的性能工具,比如TAU, Extrae, DPCL, Open | SpeedShop,等等。上述LaunchMON,LIBI以及TDP項目的共同目的都是構建一個通用的架構來啟動工具的守護進程和應用進程,但是由于其依賴于RM (資源管理器)從而增加了復雜性。另夕卜,LIBI在先前的方法 不可用的情況下,提出了另一種策略,那就是在每個節(jié)點內使用進程代理來負責執(zhí)行節(jié)點級的進程實例化(負責該節(jié)點內的所有進程)和通信服務。然而,代理本身就會增加額外的開銷并且當代理失效的時候會造成更多應用進程無法連接,錯誤恢復時間也會加長?;贛RNet的典型性能工具的傳輸網初始化方法描述如下。DPCL和MRNet/XT側重于改變原有的網絡構建方法來適應其各自特定的系統架構BG/L和Cray XT。TAU的MRNet傳輸網的構建機制要求用戶在源碼中加入TAU_ONLINE_DUMPO來自定義匯聚位置,通常需要設置在同步點、迭代點等處。這種方式對用戶要求較高,增加了用戶負擔。另外,不適用于沒有源碼的情形,且只能對輪廓數據進行匯聚分析,限制了其應用范圍。TAU是通過MPI機制本身來構建傳輸網絡。該方法要求所有參與傳輸的節(jié)點(包括匯聚節(jié)點和計算節(jié)點)啟動mpd程序。首先按照事先計劃的總進程數(包括匯聚進程,通信進程和監(jiān)測進程)使用MPI啟動probe工具,通過該工具紀錄節(jié)點和其上運行的進程信息(保存于文件);然后再使用監(jiān)測進程(計算進程)數通過MPI啟動probediff,并利用該工具記錄本次使用的節(jié)點和進程信息,并在第一次記錄的節(jié)點和進程信息表中減去監(jiān)測進程所使用的進程信息,剩余的節(jié)點和進程則用來構建MRNet內部傳輸網,進而使監(jiān)測進程掛載于內部樹葉子節(jié)點,傳輸網構建完成。這種網絡初始化構建方法,對于匯聚進程和計算進程在節(jié)點級沒有清晰分離,不利于系統維護和資源的合理利用,也不利于系統結構的改變。比如隨著分析任務的增加,單個節(jié)點已經不能滿足需求,這時需要將分析節(jié)點擴展為分布式集群(分布式數據庫)或者采用新型的分布式處理架構,比如Hadoop等,由于監(jiān)測進程和匯聚進程交織在一起,現有機制實現起來就比較復雜,缺乏靈活性。另外,該機制每一步都使用文件來保存信息,開銷較大,并且沒有考慮內部傳輸進程放置策略。其他工具比如Open I SpeedShop,Extrae,等雖然使用MRNet作為其傳輸架構,但其構建方法缺乏通用性。比如Extrae中傳輸網初始化構建機制只支持將中間內部通信進程放置于額外主機節(jié)點。
發(fā)明內容
本發(fā)明引入了一個傳輸架構的初始化構建機制并實現其原型系統來輔助開發(fā)人員快速構建在線性能工具。該機制的特性描述如下。I)該機制設計簡單,對于典型高性能集群系統具有較好的通用性,它可應用于不同的插樁方法(源碼級、二進制級、庫級等)進行數據采集以及不同的測量方法包括輪廓和蹤跡;2)它提供了內部進程的分配策略和監(jiān)測進程BE的附加方法,從而達到合理的利用昂貴計算資源之目的;3)輔助服務進程能夠伴隨著程序監(jiān)測被觸發(fā),從而可以采集全面的信息輔助進行并行應用的性能分析; 4)該機制配置靈活,對用戶透明并具有較好的效率。本發(fā)明旨在提供一種集群系統的樹狀傳輸架構的初始化構建方法,該樹狀傳輸架構在邏輯上包括匯聚節(jié)點、通信節(jié)點和計算節(jié)點,其中,計算節(jié)點承擔計算任務,監(jiān)測進程也作用于其上,匯聚節(jié)點用于匯聚性能數據;該匯聚節(jié)點包括前端進程FE,該前端進程FE負責數據匯聚和存儲;樹狀傳輸架構的通信節(jié)點包括通信進程集合,其負責數據匯聚和過濾;其特征在于該初始化方法包括如下步驟步驟一所述前端進程FE輪詢監(jiān)聽從而利用TCP/IP協議收集監(jiān)測進程集合BE的信息,并根據拓撲配置文件生成通信進程集合CP的拓撲,所述監(jiān)測進程集合BE發(fā)送所述信息給所述前端進程FE,根據系統配置文件觸發(fā)輔助服務進程集合AP協同監(jiān)測進程集合BE 一起將所述信息發(fā)送給所述前端進程FE,生成內部樹狀拓撲,進而所述監(jiān)測進程集合BE附加于內部樹終端進程集合IBE,從而建立起樹狀傳輸架構,用以傳輸性能數據;步驟二 所述監(jiān)測進程集合BE通過相應的采集監(jiān)測技術收集并行程序的性能數據,并實時提交給該樹狀傳輸架構;步驟三所述通信進程集合CP接收并轉發(fā)所述性能數據;步驟四所述錢端進程FE接收該樹狀傳輸架構的所述性能數據,并將其存儲于數據存儲載體,進行可視化展示,以實現實時和/或事后性能分析。步驟五樹狀傳輸架構自動銷毀,結束在線數據傳輸收集過程。本發(fā)明的初始化構建方法,其特征在于,在通信節(jié)點和計算節(jié)點不區(qū)分的情況下,通過內部通信進程的放置策略生成拓撲配置文件進而生成所述通信進程集合CP的拓撲,所述內部通信進程的放置策略,通過盡力而為的平均策略或綜合分配策略來實現,而將監(jiān)測進程集合BE附加于內部樹終端進程集合IBE,通過附加策略來實現。本發(fā)明的初始化構建方法進一步包括,其中,所述盡力而為的平均策略的目標是保持總進程數nt在各個主機間平均化分配,該策略包括如下步驟步驟一首先將TS容器清空;步驟二 使用sum除以m求得商quo和余數rem ;步驟三將商quo賦值給TS容器中每一個元素TSiQ e [O··· m_l]);步驟四如果rem不等于O,則將TS中的前rem個元素依次加I ;步驟五比較OS容器和TS容器中相應位置的元素,如果存在OS容器中的元素大于TS容器的情況,將OS容器中的該元素替換TS容器中相應位置的元素,并將其放入RS容器,并且sum減去該元素的值;步驟六如果RS容器不為空,則循環(huán)執(zhí)行步驟七,直到RS容器的大小不再改變?yōu)橹?;相反,如果RS容器為空,或者RS容器大小經過步驟七不再改變了,則直接執(zhí)行步驟八;步驟七計算sum除以m與RS容器的元素個數的差,所得到的商quo和余數rem ;遍歷TS容器中的每一個元素看其是否包含在RS容器中,如果不在,則相應的元素賦值為商quo ;此時,如果rem不等于0,則需要選擇TS容器中rem個值最小的元素分別增加I ;然后再次比較OS容器和TS容器中的元素,如果仍舊存在OS容器中的元素大于TS容器相應位置元素的情況,將OS容器中的該元素替換TS容器中相應位置的元素,并將其放入RS容器,并且sum減去該元素的值;
步驟八比較TS容器和OS容器的元素,如果存在TS容器的元素大于OS容器相應位置的元素的情況,則將該位置TS容器的元素減去相應位置OS容器的元素之差賦予AS容器;其中OS容器包括CN的列表以及其上所包含的BE數目;AS容器展示了每個cn所包含的cp的數目,TS容器用來記錄中間臨時分配結果;RS容器用來存儲排外的結果,η表示cp的數目,m表示cn的數目,sum初始值為be和cp的總數,容器指存放相關數據的空間,CN是計算節(jié)點集合,cn為計算節(jié)點,cp為通信進程,be為監(jiān)測進程。本發(fā)明的初始化構建方法進一步包括,其中,所述綜合分配策略包括步驟步驟一建立因素集U= [U1, U2,U3,...,Unf],其表征nf個評判因素,這里設定為主機的特性指標;步驟二 建立評判集V= [ υ υ 2, U3,..., Unif],其表征mf個評判,這里設定為可以人為識別的評判;步驟三為了評估Ui (i e [l...nf]),其對于Oe [l...mf])的隸屬度是進而對于該因素的模糊集表示為A = [rn, ri2, ri3,. . . , rimf],即f (Ui) = ri;在對因素集進行評估之后,可得模糊評估矩陣如下所示
權利要求
1.一種集群系統的樹狀傳輸架構的初始化構建方法,該樹狀傳輸架構在邏輯上包括匯聚節(jié)點、通信節(jié)點和計算節(jié)點,其中,計算節(jié)點承擔計算任務,監(jiān)測進程也作用于其上,匯聚節(jié)點用于匯聚性能數據;該匯聚節(jié)點包括前端進程FE,該前端進程FE負責數據匯聚和存儲;樹狀傳輸架構的通信節(jié)點包括通信進程集合,其負責數據匯聚和過濾;其特征在于該初始化方法包括如下步驟 步驟一所述前端進程FE輪詢監(jiān)聽從而利用TCP/IP協議收集監(jiān)測進程集合BE的信息,并根據拓撲配置文件生成通信進程集合CP的拓撲,所述監(jiān)測進程集合BE發(fā)送所述信息給所述前端進程FE,根據系統配置文件觸發(fā)輔助服務進程集合AP協同監(jiān)測進程集合BE —起將所述信息發(fā)送給所述前端進程FE,生成內部樹狀拓撲,進而所述監(jiān)測進程集合BE附加于內部樹終端進程集合IBE,從而建立起樹狀傳輸架構,用以傳輸性能數據; 步驟二 所述監(jiān)測進程集合BE通過相應的采集監(jiān)測技術收集并行程序的性能數據,并實時提交給該樹狀傳輸架構; 步驟三所述通信進程集合CP接收并轉發(fā)所述性能數據; 步驟四所述錢端進程FE接收該樹狀傳輸架構的所述性能數據,并將其存儲于數據存儲載體,進行可視化展示,以實現實時和/或事后性能分析。
步驟五樹狀傳輸架構自動銷毀,結束在線數據傳輸收集過程。
2.如權利要求1所述的樹狀傳輸架構的初始化構建方法,其特征在于,在通信節(jié)點和計算節(jié)點不區(qū)分的情況下,通過內部通信進程的放置策略生成拓撲配置文件進而生成所述通信進程集合CP的拓撲,所述內部通信進程的放置策略,通過盡力而為的平均策略或綜合分配策略來實現,而將監(jiān)測進程集合BE附加于內部樹終端進程集合IBE,通過附加策略來實現。
3.如權利要求2所述的樹狀傳輸架構的初始化構建方法,其中,所述盡力而為的平均策略的目標是保持總進程數nt在各個主機間平均化分配,該策略包括如下步驟 步驟一首先將TS容器清空; 步驟二 使用sum除以m求得商quo和余數rem ; 步驟三將商quo賦值給TS容器中每一個元素TSi (i e [O... m-1]); 步驟四如果rem不等于O,則將TS中的前rem個元素依次加I ; 步驟五比較OS容器和TS容器中相應位置的元素,如果存在OS容器中的元素大于TS容器的情況,將OS容器中的該元素替換TS容器中相應位置的元素,并將其放入RS容器,并且sum減去該元素的值; 步驟六如果RS容器不為空,則循環(huán)執(zhí)行步驟七,直到RS容器的大小不再改變?yōu)橹梗幌喾?,如果RS容器為空,或者RS容器大小經過步驟七不再改變了,則直接執(zhí)行步驟八;步驟七計算sum除以m與RS容器的元素個數的差,所得到的商quo和余數rem ;遍歷TS容器中的每一個元素看其是否包含在RS容器中,如果不在,則相應的元素賦值為商quo ;此時,如果rem不等于0,則需要選擇TS容器中rem個值最小的元素分別增加I ;然后再次比較OS容器和TS容器中的元素,如果仍舊存在OS容器中的元素大于TS容器相應位置元素的情況,將OS容器中的該元素替換TS容器中相應位置的元素,并將其放入RS容器,并且sum減去該元素的值; 步驟八比較TS容器和OS容器的元素,如果存在TS容器的元素大于OS容器相應位置的元素的情況,則將該位置TS容器的元素減去相應位置OS容器的元素之差賦予AS容器;其中OS容器包括CN的列表以及其上所包含的BE數目;AS容器展示了每個cn所包含的cp的數目,TS容器用來記錄中間臨時分配結果;RS容器用來存儲排外的結果,η表示cp的數目,m表示cn的數目,sum初始值為be和cp的總數,容器指存放相關數據的空間,CN是計算節(jié)點集合,cn為計算節(jié)點,cp為通信進程,be為監(jiān)測進程。
4.如權利要求2所述的樹狀傳輸架構的初始化構建方法,其中,所述綜合分配策略包括步驟 步驟一建立因素集U = [U1, U2,U3, ...,Unf],其表征nf個評判因素,這里設定為主機的特性指標; 步驟二 建立評判集V= [U1, υ2, U3,... , u μ],其表征mf個評判,這里設定為可以人為識別的評判; 步驟三為了評估Ui (i e [l...nf]),其對于e [l...mf])的隸屬度是1^.,進而對于該因素的模糊集表示為A = [rn,ri2,ri3,...,rimf],即MUi) =ι>在對因素集進行評估之后,可得模糊評估矩陣如下所示
5.如權利要求2所述的樹狀傳輸架構的初始化構建方法,其中,所述附加策略包括步驟 步驟一遍歷可用的監(jiān)測進程集合BE和內部樹終端進程集合IBE并將其進行匹配,其中內部樹終端進程集合IBE的分支fanout的計算是通過計算監(jiān)測進程be的數目除以內部樹終端進程ibe的數目獲得; 步驟二 為了保證監(jiān)測進程集合BE附加方法的適應性,當監(jiān)測進程be的數目等于內部樹終端進程ibe數目的整數倍時,所得的商為分支fanout ;若整除結果有余數,則分支fanout等于所得的商加1,從而可以確保內部樹終端進程ibe和監(jiān)測進程be數目關系不相互依賴,所有的監(jiān)測進程be都可以附加于該傳輸架構; 步驟三內部樹終端進程ibe和監(jiān)測進程be的匹配策略使位于同一主機的進程具有匹配優(yōu)先級,在監(jiān)測進程集合BE附加于內部樹終端進程集合IBE之后,傳輸網就構建成功。
6.如權利要求1所述的樹狀傳輸架構的初始化構建方法,進一步包括,輔助服務進程集合AP的附加方法,其可通過節(jié)點內某一進程的觸發(fā)機制實現。
7.如權利要求1所述的樹狀傳輸架構的初始化構建方法,其特征在于匯聚節(jié)點包括匯聚數據的存儲模塊及可視化和分析模塊。
全文摘要
本發(fā)明提供一種樹狀傳輸架構的初始化方法,步驟一前端進程FE輪詢監(jiān)聽并利用TCP/IP協議收集監(jiān)測進程集合BE的信息,并根據拓撲配置文件生成通信進程集合CP的拓撲,BE發(fā)送信息給FE,根據系統配置文件觸發(fā)輔助服務進程集合AP協同BE一起將所述信息發(fā)送給FE,生成內部樹狀拓撲,進而BE附加于內部樹終端進程集合IBE,從而建立起樹狀傳輸架構,用以傳輸性能數據;步驟二BE通過采集監(jiān)測技術收集并行程序的性能數據,并實時提交給該樹狀傳輸架構;步驟三CP接收并轉發(fā)性能數據;步驟四FE接收該樹狀傳輸架構的性能數據,并將其存儲于數據存儲載體,進行可視化展示,以實現實時和/或事后性能分析。步驟五樹狀傳輸架構自動銷毀,結束在線數據傳輸收集過程。
文檔編號H04L12/44GK103051509SQ20121027468
公開日2013年4月17日 申請日期2012年8月3日 優(yōu)先權日2012年8月3日
發(fā)明者胡凱, 丁毅, 趙禎龍, 吳愷 申請人:北京航空航天大學