一種對并行程序的性能進行監(jiān)測分析的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及高性能程序監(jiān)測技術(shù)領(lǐng)域,特別是涉及一種對并行程序的性能進行監(jiān)測分析的方法及裝置。
【背景技術(shù)】
[0002]并行程序優(yōu)化是當今分布式并行計算領(lǐng)域的一個重要問題。從編譯角度對并行程序進行優(yōu)化是一個重要的方法,但是編譯時無法對程序的執(zhí)行流程有一個準確的預(yù)知,例如程序的分支,以及接收用戶輸入的參數(shù)等。所以,程序運行時的反饋信息對并行程序優(yōu)化有著關(guān)鍵的意義。在并行程序的監(jiān)測方面已經(jīng)有大量的研究成果和成熟的工具,通過插粧和庫包裝的方法,采集并行程序的各維度信息。
[0003]而高性能應(yīng)用往往具有計算周期長、計算量大的特點。對于一個每秒百萬億次計算能力的高性能機群系統(tǒng)來說,一個并行任務(wù)的性能蹤跡數(shù)據(jù)非常巨大。而對于這些龐大的性能數(shù)據(jù),并不是單臺物理機的存儲系統(tǒng)能夠勝任的,而且采集時性能數(shù)據(jù)本身是分布在各節(jié)點之上的,數(shù)據(jù)在匯聚時會進行大量的通信,占用網(wǎng)絡(luò)帶寬。在中小規(guī)模機群系統(tǒng)中可以采用I對η的通信模型,當計算規(guī)模在幾十個節(jié)點以下的時候尚可以獲得較好的性能,而當計算規(guī)模擴展到幾百甚至幾千、上萬時,這樣的通信模式將無法滿足數(shù)據(jù)通信、數(shù)據(jù)存儲、數(shù)據(jù)分析的要求。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種對并行程序的性能進行監(jiān)測分析的方法及裝置,目的在于解決現(xiàn)有程序性能監(jiān)測分析過程中網(wǎng)絡(luò)通信以及分析效率較差的問題。
[0005]為解決上述技術(shù)問題,本發(fā)明提供一種對并行程序的性能進行監(jiān)測分析的方法,包括:
[0006]對分布式并行程序的運行過程進行監(jiān)測,采集所述并行程序的性能數(shù)據(jù);
[0007]將采集到的所述性能數(shù)據(jù)進行分布式存儲;
[0008]對所述性能數(shù)據(jù)進行分布式并行處理,得到反映所述并行程序的性能的分析結(jié)果
?目息O
[0009]可選地,所述采集所述并行程序的性能數(shù)據(jù)包括:
[0010]采集所述并行程序的各維度信息作為所述性能參數(shù),所述維度信息包括:函數(shù)的執(zhí)行時間、程序的硬件技術(shù)接口以及系統(tǒng)的程序信息。
[0011]可選地,所述將采集到的所述性能數(shù)據(jù)進行分布式存儲包括:
[0012]每個計算節(jié)點分別將采集到的所述性能數(shù)據(jù)異步存儲至HDFS分布式文件系統(tǒng)中。
[0013]可選地,所述對所述性能數(shù)據(jù)進行分布式并行處理包括:
[0014I計算節(jié)點利用MapReduce模型對所述性能數(shù)據(jù)進行分布式并行處理。
[0015]可選地,還包括:
[0016]對所述分析結(jié)果信息進行可視化顯示。
[0017]本發(fā)明還提供了一種對并行程序的性能進行監(jiān)測分析的裝置,包括:
[0018]采集模塊,用于對分布式并行程序的運行過程進行監(jiān)測,采集所述并行程序的性能數(shù)據(jù);
[0019]存儲模塊,用于將采集到的所述性能數(shù)據(jù)進行分布式存儲;
[0020]處理模塊,用于對所述性能數(shù)據(jù)進行分布式并行處理,得到反映所述并行程序的性能的分析結(jié)果信息。
[0021 ]可選地,所述采集模塊具體用于:
[0022]采集所述并行程序的各維度信息作為所述性能參數(shù),所述維度信息包括:函數(shù)的執(zhí)行時間、程序的硬件技術(shù)接口以及系統(tǒng)的程序信息。
[0023]可選地,所述存儲模塊具體用于:
[0024]每個計算節(jié)點分別將采集到的所述性能數(shù)據(jù)異步存儲至HDFS分布式文件系統(tǒng)中。
[0025]可選地,所述處理模塊具體用于:
[0026]計算節(jié)點利用MapReduce模型對所述性能數(shù)據(jù)進行分布式并行處理。
[0027]可選地,還包括:
[0028]顯示模塊,用于對所述分析結(jié)果信息進行可視化顯示。
[0029]本發(fā)明所提供的對并行程序的性能進行監(jiān)測分析的方法及裝置,通過對分布式并行程序的運行過程進行監(jiān)測,采集并行程序的性能數(shù)據(jù);將采集到的性能數(shù)據(jù)進行分布式存儲;對性能數(shù)據(jù)進行分布式并行處理,得到反映并行程序的性能的分析結(jié)果信息。本發(fā)明所提供的對并行程序的性能進行監(jiān)測分析的方法及裝置,通過分布式存儲、分布式處理的方式,避免了程序性能原始數(shù)據(jù)的匯聚對單節(jié)點機的存儲系統(tǒng)造成的巨大壓力,改善了以往對單個單文件的處理分析方法,大大減少了網(wǎng)絡(luò)通信量,提高了處理效率。
【附圖說明】
[0030]為了更清楚的說明本發(fā)明實施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0031]圖1為本發(fā)明所提供的對并行程序的性能進行監(jiān)測分析的方法的一種【具體實施方式】的流程圖;
[0032]圖2為本發(fā)明所提供的對并行程序的性能進行監(jiān)測分析的方法的另一種【具體實施方式】的流程圖;
[0033]圖3為本發(fā)明實施例提供的對并行程序的性能進行監(jiān)測分析的裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0034]為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步的詳細說明。顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0035]本發(fā)明所提供的對并行程序的性能進行監(jiān)測分析的方法的一種【具體實施方式】的流程圖如圖1所示,該方法包括:
[0036]步驟SlOl:對分布式并行程序的運行過程進行監(jiān)測,采集所述并行程序的性能數(shù)據(jù);
[0037]步驟S102:將采集到的所述性能數(shù)據(jù)進行分布式存儲;
[0038]步驟S103:對所述性能數(shù)據(jù)進行分布式并行處理,得到反映所述并行程序的性能的分析結(jié)果信息。
[0039]本發(fā)明所提供的對并行程序的性能進行監(jiān)測分析的方法,通過對分布式并行程序的運行過程進行監(jiān)測,采集并行程序的性能數(shù)據(jù);將采集到的性能數(shù)據(jù)進行分布式存儲;對性能數(shù)據(jù)進行分布式并行處理,得到反映并行程序的性能的分析結(jié)果信息。本發(fā)明所提供的對并行程序的性能進行監(jiān)測分析的方法,通過分布式存儲、分布式處理的方式,避免了程序性能原始數(shù)據(jù)的匯聚對單節(jié)點機的存儲系統(tǒng)造成的巨大壓力,改善了以往對單個單文件的處理分析方法,大大減少了網(wǎng)絡(luò)通信量,提高了處理效率。
[0040]并行編程模型多種多樣,其中,MP1、OpenMP、CUDA、Hadoop是并行編程模型中的代表,本發(fā)明可用于1?1、(^611103、0]04、他(10(^以及幾種混合模式中,這均不影響本發(fā)明的實現(xiàn)。具體地,本發(fā)明將并行程序性能數(shù)據(jù)多節(jié)點機分布的特點與Hadoop分布式文件系統(tǒng)的特點相結(jié)合,改善了性能數(shù)據(jù)匯聚環(huán)境,并利用MapReduce進行并行數(shù)據(jù)分析,剖析并行程序的行為,找出并行程序的瓶頸,最終為程序的優(yōu)化提出可行的解決方案。
[0041]在上述實施例的基礎(chǔ)上,本發(fā)明所提供的對并行程序的性能進行監(jiān)測分析的方法中采集所述并行程序的性能數(shù)據(jù)的步驟可以具體為:
[0042]采集所述并行程序的各維度信息作為所述性能參數(shù),所述維度信息包括:函數(shù)的執(zhí)行時間、程序的硬件技術(shù)接口以及系統(tǒng)的程序信息。
[0043]需要指出的是,本發(fā)明實施例中分析維度不僅限于函數(shù)的執(zhí)行時間,還結(jié)合程序的硬件計數(shù)器接口(如PAPI)和系統(tǒng)的proc信息,可以獲得如浮點指令數(shù),L1、L2緩存命中率、分支指令數(shù)、1數(shù)據(jù)量等重要信息,利用現(xiàn)有的蹤跡向剖析數(shù)據(jù)轉(zhuǎn)換工具可以進行多維度的統(tǒng)計。
[0044]利用這些數(shù)據(jù),可以進行應(yīng)用級和系統(tǒng)級的優(yōu)化。
[0045]其中,對于應(yīng)用級的優(yōu)化為從應(yīng)用層面尋找程序的瓶頸點,為用戶編程提供優(yōu)化方案。
[0046]首先,將各應(yīng)用領(lǐng)域的benchmark(如NPB、SH0C、SPEC等)作為訓(xùn)練數(shù)據(jù),統(tǒng)計其各維度信息,構(gòu)建支持向量機。
[0047]由于各benchmark已經(jīng)比較成熟,其應(yīng)用背景和程序結(jié)構(gòu)特點也都是已知的,可對這些benchmark進行分類。如著名的“七個小矮人”的分類方法。美國超算領(lǐng)域知名的數(shù)學(xué)算法專家Phi 11 ip Colel Ia在2004年提出了科學(xué)計算的七種算法模型,也被稱作“七個小矮人”,包括:結(jié)構(gòu)化網(wǎng)格、非結(jié)構(gòu)化網(wǎng)格、快速傅里葉變換、稠密矩陣線性代數(shù)、稀疏矩陣線性代數(shù)、粒子動力學(xué)、蒙特卡洛。這些都是高性能計算領(lǐng)域的經(jīng)典問題和算法,也是計算時的重點和難點。針對這七類問題,給出相應(yīng)的優(yōu)化方案。然后,用戶程序運行應(yīng)用程序獲得相應(yīng)的類別和相應(yīng)的優(yōu)化方案來輔助程序設(shè)計人員改進算法。
[0048]對于系統(tǒng)級的優(yōu)化為從系統(tǒng)層面尋找并行計算系統(tǒng)的瓶頸點,輔助調(diào)試,為系統(tǒng)本身的優(yōu)化提供方案。
[0049]通過Tracing向profiling數(shù)據(jù)的轉(zhuǎn)換,可以獲知函數(shù)調(diào)用中的異常信號,如最大執(zhí)行時間,最高的cache缺失率等,這些異常點往往就是程序