本實用新型涉及計算機(jī)技術(shù),特別是涉及一種GPU集群功耗監(jiān)控系統(tǒng)的技術(shù)。
背景技術(shù):
隨著大數(shù)據(jù)、云計算、人工智能等新一代互聯(lián)網(wǎng)技術(shù)的發(fā)展,大量的數(shù)據(jù)對計算機(jī)的計算速度、計算效率、計算可靠性要求不斷的增加。而且數(shù)據(jù)規(guī)模已經(jīng)達(dá)到了TB甚至PB量級,沒有萬億次以上的計算能力是無法解決的。與此同時,我們在日常應(yīng)用中面臨的圖形與數(shù)據(jù)計算也是越來越復(fù)雜,對計算速度提出了嚴(yán)峻的挑戰(zhàn)。而GPU(圖形處理器)以其高性能成為當(dāng)前高性能集群計算機(jī)系統(tǒng)主要構(gòu)成部件,GPU在處理能力和存儲器帶寬上相對CPU有明顯的優(yōu)勢,在成本上也不需要付出太大的代價,另外由于其高可靠性、計算能力強、高性價比等優(yōu)勢,從而為這些問題提供了新的解決方案。但是大規(guī)模的GPU集群同樣存在著一個功耗問題,GPU集群由多個GPU構(gòu)成,每個GPU的任務(wù)不同,功耗也是不同的,對GPU的功耗進(jìn)行監(jiān)測,可以了解不同應(yīng)用程序的對于GPU功耗的消耗,從而可以針對性的優(yōu)化GPU,進(jìn)而可以減小GPU的功耗,但是目前對于GPU集群的GPU功耗監(jiān)測還沒有行之有效的方法。
技術(shù)實現(xiàn)要素:
針對上述現(xiàn)有技術(shù)中存在的缺陷,本實用新型所要解決的技術(shù)問題是提供一種能監(jiān)測GPU集群中的各個GPU的功耗的GPU集群功耗監(jiān)控系統(tǒng)。
為了解決上述技術(shù)問題,本實用新型所提供的一種GPU集群功耗監(jiān)控系統(tǒng),其特征在于:包括主監(jiān)控終端、從監(jiān)控終端、Zigbee協(xié)調(diào)器,及多個傳感節(jié)點,由多個GPU構(gòu)成的GPU集群;
所述傳感節(jié)點包括節(jié)點控制器、霍爾電流傳感器、Zigbee通信模塊,其中的霍爾電流傳感器接到節(jié)點控制器的電流采集端口,Zigbee通信模塊通過通信線與節(jié)點控制器互聯(lián);
所述Zigbee協(xié)調(diào)器通過通信線與主監(jiān)控終端互聯(lián),各個傳感節(jié)點中的Zigbee通信模塊以Zigbee通信方式與Zigbee協(xié)調(diào)器互聯(lián);
各個傳感節(jié)點中的節(jié)點控制器通過通信線與從監(jiān)控終端互聯(lián),各個傳感節(jié)點中的霍爾電流傳感器分別套置在各個GPU的供電線路上。
本實用新型提供的GPU集群功耗監(jiān)控系統(tǒng)及其監(jiān)控方法,利用傳感節(jié)點中的霍爾電流傳感器測量GPU的供電電流,并通過Zigbee網(wǎng)絡(luò)實現(xiàn)遠(yuǎn)程實時監(jiān)控,還能利用從監(jiān)控終端實現(xiàn)本地高密度數(shù)據(jù)采集、存儲,能準(zhǔn)確測量GPU集群中的各個GPU的功耗,從而可以為GPU集群的功耗優(yōu)化提供依據(jù)。
附圖說明
圖1是本實用新型實施例的GPU集群功耗監(jiān)控系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
以下結(jié)合附圖說明對本實用新型的實施例作進(jìn)一步詳細(xì)描述,但本實施例并不用于限制本實用新型,凡是采用本實用新型的相似結(jié)構(gòu)及其相似變化,均應(yīng)列入本實用新型的保護(hù)范圍,本實用新型中的頓號均表示和的關(guān)系。
如圖1所示,本實用新型實施例所提供的一種GPU集群功耗監(jiān)控系統(tǒng),其特征在于:包括主監(jiān)控終端U1、從監(jiān)控終端(圖中未示)、Zigbee協(xié)調(diào)器U2,及多個傳感節(jié)點U3,由多個GPU(圖形處理器)U4構(gòu)成的GPU集群;
所述傳感節(jié)點U3包括節(jié)點控制器、霍爾電流傳感器、Zigbee通信模塊,其中的霍爾電流傳感器接到節(jié)點控制器的電流采集端口,Zigbee通信模塊通過通信線與節(jié)點控制器互聯(lián);
所述Zigbee協(xié)調(diào)器U2通過通信線與主監(jiān)控終端U1互聯(lián),各個傳感節(jié)點U3中的Zigbee通信模塊以Zigbee通信方式與Zigbee協(xié)調(diào)器U2互聯(lián);
各個傳感節(jié)點U3中的節(jié)點控制器通過通信線與從監(jiān)控終端互聯(lián),各個傳感節(jié)點U3中的霍爾電流傳感器分別套置在各個GPU的供電線路上。
本實用新型實施例中,Zigbee協(xié)調(diào)器采用了型號為CC2530的芯片來負(fù)責(zé)網(wǎng)絡(luò)的組建、數(shù)據(jù)包和指令的轉(zhuǎn)發(fā);傳感節(jié)點負(fù)責(zé)采集GPU功耗數(shù)據(jù),并將采集的數(shù)據(jù)打包成數(shù)據(jù)包后經(jīng)過Zigbee協(xié)調(diào)器轉(zhuǎn)到主監(jiān)控終端,由主監(jiān)控終端進(jìn)行存儲并實時顯示,傳感節(jié)點還可以將采集的數(shù)據(jù)傳送到從監(jiān)控終端,由從監(jiān)控終端進(jìn)行存儲、顯示;傳感節(jié)點中的節(jié)點控制器采用的是型號為MSP430的微處理芯片,MSP430微處理芯片內(nèi)含12個12位的模數(shù)轉(zhuǎn)換器,非常適合傳感節(jié)點的應(yīng)用;傳感節(jié)點中的Zigbee通信模塊采用的是型號為CC2530的芯片,CC2530芯片結(jié)合了RF收發(fā)器及增強型8051 CPU,CC2530芯片具有不同的運行模式,特別適合超低功耗要求的系統(tǒng),并且運行模式之間的轉(zhuǎn)換時間短,進(jìn)一步確保了低能源消耗;傳感節(jié)點中的霍爾電流傳感器的型號為WHB-LSP5S2H,霍爾電流傳感器主要測量GPU供電線路的電流,并將測得的電流值傳送給節(jié)點控制器,由節(jié)點控制器進(jìn)行模數(shù)轉(zhuǎn)換。
傳感節(jié)點負(fù)責(zé)采集GPU功耗數(shù)據(jù)的原理如下:
根據(jù)電路的基本原理,功耗=電壓×電流,由于GPU的供電電壓為固定的12V,所以只需要利用霍爾電流傳感器測量GPU的供電電流,即可算出GPU的功耗。
本實用新型實施例所提供的GPU集群功耗監(jiān)控系統(tǒng)的監(jiān)控方法,其特征在于,具體步驟如下:
為傳感節(jié)點設(shè)定兩種工作模式,其中的一種工作模式為無線模式,另一種工作模式為無線模式;
主監(jiān)控終端通過BGC數(shù)據(jù)包向Zigbee協(xié)調(diào)器下發(fā)控制指令,BGC數(shù)據(jù)包由wx、dm、ed組成,BGC數(shù)據(jù)包中的wx為工作模式指令,wx的值有兩種,wx的兩種值分別代表無線模式、有線模式,BGC數(shù)據(jù)包中的dm為傳感節(jié)點采集GPU供電電流的采樣間隔時間,ed為指令結(jié)束標(biāo)識;
傳感節(jié)點工作在無線模式時通過BGA數(shù)據(jù)包向Zigbee協(xié)調(diào)器上傳采集數(shù)據(jù),BGA數(shù)據(jù)包為無線通信數(shù)據(jù)包,BGA數(shù)據(jù)包由st、dev、val組成,BGA數(shù)據(jù)包中的st為BGA數(shù)據(jù)包的起始標(biāo)識,BGA數(shù)據(jù)包中的dev為傳感節(jié)點的節(jié)點編號,BGA數(shù)據(jù)包中的val為霍爾電流傳感器所測得的GPU供電電流數(shù)字量;
Zigbee協(xié)調(diào)器通過BGP數(shù)據(jù)包向主監(jiān)控終端上傳采集數(shù)據(jù),傳感節(jié)點工作在有線模式時通過BGP數(shù)據(jù)包向從監(jiān)控終端上傳采集數(shù)據(jù),BGP數(shù)據(jù)包為串行通信數(shù)據(jù)包,BGP數(shù)據(jù)包由st、dev、val組成,BGP數(shù)據(jù)包中的st為BGP數(shù)據(jù)包的起始標(biāo)識,BGP數(shù)據(jù)包中的dev為傳感節(jié)點的節(jié)點編號,BGP數(shù)據(jù)包中的val為霍爾電流傳感器所測得的GPU供電電流數(shù)字量;
Zigbee協(xié)調(diào)器與傳感節(jié)點組網(wǎng)成功后,如果Zigbee協(xié)調(diào)器收到主監(jiān)控終端發(fā)來的BGC數(shù)據(jù)包,則將BGC數(shù)據(jù)包發(fā)送給傳感節(jié)點;
傳感節(jié)點收到Zigbee協(xié)調(diào)器發(fā)來的BGC數(shù)據(jù)包后,對BGC數(shù)據(jù)包中的wx的值進(jìn)行判別;如果傳感節(jié)點工作在有線模式,并且BGC數(shù)據(jù)包中的wx的值代表的是無線模式,則將傳感節(jié)點的工作模式切換為無線模式;如果傳感節(jié)點工作在無線模式,并且BGC數(shù)據(jù)包中的wx的值代表的是有線模式,則將傳感節(jié)點的工作模式切換為有線模式;
傳感節(jié)點收到Zigbee協(xié)調(diào)器發(fā)來的BGC數(shù)據(jù)包后,將采集GPU供電電流的采樣間隔時間設(shè)定為BGC數(shù)據(jù)包中的dm的值;
傳感節(jié)點與Zigbee協(xié)調(diào)器組網(wǎng)成功后,根據(jù)設(shè)定的采樣間隔時間,通過節(jié)點中的霍爾電流傳感器對GPU供電電流進(jìn)行采集,并對采集到GPU供電電流模擬量進(jìn)行模數(shù)轉(zhuǎn)換;
傳感節(jié)點工作在無線模式時,將模數(shù)轉(zhuǎn)換所得的GPU供電電流數(shù)字量與傳感節(jié)點的節(jié)點編號封裝成一個BGA數(shù)據(jù)包,然后再將封裝好的BGA數(shù)據(jù)包發(fā)送給Zigbee協(xié)調(diào)器;
Zigbee協(xié)調(diào)器對接收到的通信數(shù)據(jù)包進(jìn)行檢測,如果接收到的通信數(shù)據(jù)包是傳感節(jié)點發(fā)送來的BGA數(shù)據(jù)包,則先從BGA數(shù)據(jù)包中提取dev及val,再將所提取的dev、val重新封裝為BGP數(shù)據(jù)包,并將封裝好的BGP數(shù)據(jù)包發(fā)送給主監(jiān)控終端;
主監(jiān)控終端收到BGP數(shù)據(jù)包后,先從BGP數(shù)據(jù)包中提取dev及val,再將所提取的val中的小于0的異常值剔除后存儲為M_cur,然后再將BGP數(shù)據(jù)包的接收時間、M_cur及所提取的dev封裝為一個BGS數(shù)據(jù)包存儲在本地,BGS數(shù)據(jù)包的內(nèi)容也可以根據(jù)需要輸出至數(shù)值顯示界面或描繪到圖形界面;
傳感節(jié)點工作在有線模式時,將模數(shù)轉(zhuǎn)換所得的GPU供電電流數(shù)字量與傳感節(jié)點的節(jié)點編號封裝為BGP數(shù)據(jù)包,并將封裝好的BGP數(shù)據(jù)包發(fā)送給從監(jiān)控終端;
從監(jiān)控終端收到BGP數(shù)據(jù)包后,先從BGP數(shù)據(jù)包中提取dev及val,再將所提取的val中的小于0的異常值剔除后存儲為S_cur,然后再將BGP數(shù)據(jù)包的接收時間、S_cur及所提取的dev封裝為一個BGS數(shù)據(jù)包存儲在本地,BGS數(shù)據(jù)包的內(nèi)容也可以根據(jù)需要輸出至數(shù)值顯示界面或描繪到圖形界面。