本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種gpu服務(wù)器集群系統(tǒng)及gpu調(diào)度方法。
背景技術(shù):
1、?gpu(graphics?processing?unit),即圖形處理器,是一種專(zhuān)門(mén)在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備(如平板電腦、智能手機(jī)等)上進(jìn)行圖像運(yùn)算工作的微處理器。它具有強(qiáng)大的并行計(jì)算能力,最初主要用于圖形渲染,但隨著技術(shù)的發(fā)展,如今在科學(xué)計(jì)算、人工智能、深度學(xué)習(xí)、視頻處理等眾多領(lǐng)域都發(fā)揮著至關(guān)重要的作用。
2、隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,視頻圖像處理需求也在不斷增長(zhǎng),gpu服務(wù)集群也就應(yīng)運(yùn)而生。gpu服務(wù)集群具有高并行處理能力和強(qiáng)大的擴(kuò)展性,可以高效處理大規(guī)模圖像視頻、深度學(xué)習(xí)、科學(xué)計(jì)算等多種計(jì)算密集型任務(wù)。
3、?gpu服務(wù)器集群在處理任務(wù)時(shí),由于缺乏高效的任務(wù)調(diào)度方案,可能導(dǎo)致某些gpu資源被過(guò)度使用,而其他gpu資源則處于空閑狀態(tài)。這種資源分配不均會(huì)導(dǎo)致整體性能下降,增加能源消耗和運(yùn)營(yíng)成本。
4、因此如何有效調(diào)度gpu算力,提升gpu服務(wù)器集群的性能,是一個(gè)亟需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述技術(shù)問(wèn)題和缺陷,本發(fā)明的目的是提供一種gpu服務(wù)器集群系統(tǒng)及gpu調(diào)度方法,可以有效調(diào)度gpu算力,提升gpu服務(wù)器集群的性能。
2、為實(shí)現(xiàn)上述目的,第一方面,本發(fā)明提供一種gpu服務(wù)器集群系統(tǒng),包括多個(gè)gpu服務(wù)節(jié)點(diǎn)、數(shù)據(jù)傳輸單元、任務(wù)分割單元、gpu調(diào)度單元及數(shù)據(jù)處理單元;數(shù)據(jù)傳輸單元用于從數(shù)據(jù)需求端獲取待處理的視頻圖像數(shù)據(jù)集;任務(wù)分割單元用于根據(jù)該視頻圖像數(shù)據(jù)集生成視頻圖像處理任務(wù),并將該視頻圖像處理任務(wù)分割成多個(gè)子任務(wù);gpu調(diào)度單元用于根據(jù)該gpu服務(wù)節(jié)點(diǎn)的負(fù)載性能參數(shù)確定該gpu服務(wù)節(jié)點(diǎn)的負(fù)載性能評(píng)分,基于該負(fù)載性能評(píng)分由高到低對(duì)該gpu服務(wù)節(jié)點(diǎn)進(jìn)行排序,將排序位于前n位的該gpu服務(wù)節(jié)點(diǎn)確定為目標(biāo)gpu節(jié)點(diǎn),并將該子任務(wù)分配給該目標(biāo)gpu節(jié)點(diǎn),該負(fù)載性能參數(shù)包括浮點(diǎn)運(yùn)算能力值、顯存帶寬利用率和核心時(shí)鐘頻率;該目標(biāo)gpu節(jié)點(diǎn)用于執(zhí)行該子任務(wù),得到已處理部分視頻圖像數(shù)據(jù);數(shù)據(jù)處理單元用于將多個(gè)該已處理部分視頻圖像數(shù)據(jù)合并成完整的已處理視頻圖像數(shù)據(jù)集,并通過(guò)該數(shù)據(jù)傳輸單元將該已處理視頻圖像數(shù)據(jù)集發(fā)送給該數(shù)據(jù)需求端,同時(shí)向該gpu調(diào)度單元發(fā)送視頻圖像處理任務(wù)已完成信息。
3、?本發(fā)明通過(guò)任務(wù)分割單元將視頻圖像處理任務(wù)細(xì)分為多個(gè)子任務(wù),打破了大型任務(wù)對(duì)單個(gè)?gpu?節(jié)點(diǎn)的壓力限制,使得各子任務(wù)可以并行處理,充分挖掘了?gpu?的并行計(jì)算潛力。gpu?調(diào)度單元依據(jù)浮點(diǎn)運(yùn)算能力值、顯存帶寬利用率和核心時(shí)鐘頻率等關(guān)鍵性能參數(shù)確定各?gpu?服務(wù)節(jié)點(diǎn)的負(fù)載性能評(píng)分,確保將子任務(wù)分配給最適合的目標(biāo)?gpu?節(jié)點(diǎn)。這一智能調(diào)度機(jī)制避免了因不合理分配導(dǎo)致的部分節(jié)點(diǎn)負(fù)載過(guò)重而其他節(jié)點(diǎn)閑置的情況,極大地提高了?gpu?算力的利用效率,提升了gpu服務(wù)器集群的性能表現(xiàn)。并且多個(gè)?gpu服務(wù)節(jié)點(diǎn)協(xié)同工作,可根據(jù)不同任務(wù)需求動(dòng)態(tài)調(diào)整算力分配,提升了系統(tǒng)的靈活性和適應(yīng)性。當(dāng)面對(duì)大規(guī)模視頻圖像數(shù)據(jù)處理任務(wù)時(shí),系統(tǒng)能夠高效地調(diào)度資源,快速完成任務(wù),減少了處理時(shí)間,提高了工作效率。同時(shí),數(shù)據(jù)處理單元對(duì)已處理部分視頻圖像數(shù)據(jù)的合并以及與數(shù)據(jù)傳輸單元和?gpu?調(diào)度單元的信息交互,確保了整個(gè)系統(tǒng)的穩(wěn)定運(yùn)行和高效協(xié)作,進(jìn)一步提升了?gpu?服務(wù)器集群的使用效率。
4、結(jié)合第一方面的一些實(shí)施例,在一些實(shí)施例中,該gpu調(diào)度單元具體用于根據(jù)負(fù)載性能評(píng)分公式計(jì)算得到該負(fù)載性能評(píng)分,該負(fù)載性能評(píng)分公式包括:
5、;
6、其中,s代表所述負(fù)載性能評(píng)分,f代表所述浮點(diǎn)運(yùn)算能力值,m代表所述顯存帶寬利用率,c代表所述核心時(shí)鐘頻率,α、β、γ均為實(shí)驗(yàn)參數(shù)。
7、采用上述實(shí)施例的技術(shù)方案,通過(guò)引入一個(gè)具體的負(fù)載性能評(píng)分公式,提供了一種量化gpu服務(wù)節(jié)點(diǎn)性能的方法,使得系統(tǒng)能夠更精確地評(píng)估和比較不同節(jié)點(diǎn)的性能。該公式考慮了浮點(diǎn)運(yùn)算能力、顯存帶寬利用率和核心時(shí)鐘頻率三個(gè)關(guān)鍵參數(shù),并引入實(shí)驗(yàn)參數(shù)以適應(yīng)不同場(chǎng)景,增強(qiáng)了系統(tǒng)的適應(yīng)性和靈活性。這種方法有助于更合理地分配任務(wù),優(yōu)化資源利用率,提高處理效率,從而使得gpu服務(wù)器集群系統(tǒng)在處理視頻圖像數(shù)據(jù)集時(shí)更加高效和穩(wěn)定。
8、結(jié)合第一方面的一些實(shí)施例,在一些實(shí)施例中,該gpu服務(wù)器集群系統(tǒng)還包括任務(wù)隊(duì)列單元,該任務(wù)隊(duì)列單元用于根據(jù)設(shè)定的優(yōu)先級(jí)定義規(guī)則確定各該子任務(wù)的優(yōu)先級(jí),并根據(jù)該優(yōu)先級(jí)對(duì)各該子任務(wù)進(jìn)行排序,得到子任務(wù)隊(duì)列,該gpu調(diào)度單元用于根據(jù)該子任務(wù)隊(duì)列調(diào)取該子任務(wù)。
9、采用上述實(shí)施例的技術(shù)方案,通過(guò)增加任務(wù)隊(duì)列單元,使得系統(tǒng)能夠根據(jù)預(yù)設(shè)的優(yōu)先級(jí)規(guī)則和子任務(wù)間的依賴(lài)關(guān)系,對(duì)子任務(wù)進(jìn)行排序和管理。這種機(jī)制確保了任務(wù)按照正確的順序執(zhí)行,避免了因依賴(lài)問(wèn)題導(dǎo)致的執(zhí)行延遲,提高了任務(wù)處理的準(zhǔn)確性和效率。同時(shí),它還允許系統(tǒng)在面對(duì)大量并發(fā)任務(wù)時(shí),能夠更加智能地調(diào)度資源,減少等待時(shí)間,提升整體的系統(tǒng)性能。
10、結(jié)合第一方面的一些實(shí)施例,在一些實(shí)施例中,該任務(wù)隊(duì)列單元還用于確定該子任務(wù)之間的依賴(lài)關(guān)系,并根據(jù)該優(yōu)先級(jí)和該依賴(lài)關(guān)系對(duì)各該子任務(wù)進(jìn)行排序,得到該子任務(wù)隊(duì)列。
11、采用上述實(shí)施例的技術(shù)方案,擴(kuò)展了任務(wù)隊(duì)列單元的功能,使其不僅能夠確定子任務(wù)的優(yōu)先級(jí),還能夠識(shí)別并處理子任務(wù)之間的依賴(lài)關(guān)系。這一改進(jìn)確保了在復(fù)雜的任務(wù)處理流程中,所有依賴(lài)條件得到滿(mǎn)足前,相關(guān)子任務(wù)不會(huì)過(guò)早執(zhí)行,從而避免了資源浪費(fèi)和潛在的執(zhí)行錯(cuò)誤。這種精細(xì)的任務(wù)管理能力顯著提高了系統(tǒng)的穩(wěn)定性和可靠性,尤其是在處理具有復(fù)雜依賴(lài)關(guān)系的視頻圖像處理任務(wù)時(shí)。
12、結(jié)合第一方面的一些實(shí)施例,在一些實(shí)施例中,該gpu服務(wù)器集群系統(tǒng)還包括gpu性能監(jiān)測(cè)單元,用于監(jiān)測(cè)該gpu節(jié)點(diǎn)的該負(fù)載性能參數(shù),并將該負(fù)載性能參數(shù)發(fā)送給該gpu調(diào)度單元。
13、采用上述實(shí)施例的技術(shù)方案,通過(guò)引入gpu性能監(jiān)測(cè)單元,實(shí)現(xiàn)了對(duì)gpu節(jié)點(diǎn)性能參數(shù)的實(shí)時(shí)監(jiān)控。這一單元能夠動(dòng)態(tài)收集和更新gpu的負(fù)載性能參數(shù),為gpu調(diào)度單元提供準(zhǔn)確的數(shù)據(jù)支持。這種實(shí)時(shí)性能監(jiān)測(cè)機(jī)制使得調(diào)度決策更加精確,有助于系統(tǒng)及時(shí)響應(yīng)性能變化,優(yōu)化資源分配,提高處理效率,同時(shí)也為系統(tǒng)的故障診斷和性能優(yōu)化提供了重要依據(jù)。
14、結(jié)合第一方面的一些實(shí)施例,在一些實(shí)施例中,該gpu服務(wù)器集群系統(tǒng)還包括fpga單元,該fpga單元用于從該數(shù)據(jù)傳輸單元接收該視頻圖像數(shù)據(jù)集,當(dāng)該視頻圖像數(shù)據(jù)集包含加密視頻流時(shí),對(duì)該加密視頻流進(jìn)行解碼處理,并將解碼后的視頻圖像數(shù)據(jù)集發(fā)送給該任務(wù)分割單元。
15、采用上述實(shí)施例的技術(shù)方案,采用上述實(shí)施例的技術(shù)方案,通過(guò)集成fpga單元,增強(qiáng)了系統(tǒng)對(duì)加密視頻流的處理能力。fpga單元的引入使得系統(tǒng)能夠在數(shù)據(jù)傳輸單元接收到加密視頻流后,迅速進(jìn)行解密和解碼處理,然后將解碼后的數(shù)據(jù)集發(fā)送給任務(wù)分割單元。這種硬件級(jí)別的處理能力大幅提升了系統(tǒng)處理加密視頻流的效率,降低了延遲,同時(shí)減輕了gpu節(jié)點(diǎn)的負(fù)擔(dān),提高了整個(gè)系統(tǒng)的處理能力和響應(yīng)速度。
16、結(jié)合第一方面的一些實(shí)施例,在一些實(shí)施例中,該gpu服務(wù)器集群系統(tǒng)還包括邊緣服務(wù)節(jié)點(diǎn),該gpu調(diào)度單元用于根據(jù)該多個(gè)gpu節(jié)點(diǎn)的負(fù)載性能參數(shù),將部分該子任務(wù)卸載到該邊緣服務(wù)節(jié)點(diǎn)。
17、采用上述實(shí)施例的技術(shù)方案,通過(guò)引入邊緣服務(wù)節(jié)點(diǎn),擴(kuò)展了gpu服務(wù)器集群系統(tǒng)處理能力,允許系統(tǒng)將部分子任務(wù)卸載到邊緣服務(wù)節(jié)點(diǎn)。這種分布式處理機(jī)制不僅減輕了中心數(shù)據(jù)中心的負(fù)載,還提供了更快的數(shù)據(jù)處理速度,尤其是在處理地理分布廣泛或需要低延遲響應(yīng)的應(yīng)用場(chǎng)景中。邊緣服務(wù)節(jié)點(diǎn)的引入提高了系統(tǒng)的靈活性和可擴(kuò)展性,使得系統(tǒng)能夠更有效地處理大規(guī)模的分布式數(shù)據(jù)。
18、結(jié)合第一方面的一些實(shí)施例,在一些實(shí)施例中,該gpu服務(wù)器集群系統(tǒng)還包括云服務(wù)器,該gpu調(diào)度單元用于根據(jù)該多個(gè)gpu節(jié)點(diǎn)的負(fù)載性能參數(shù),調(diào)用該云服務(wù)器的gpu資源。
19、采用上述實(shí)施例的技術(shù)方案,通過(guò)集成云服務(wù)器,提供了一種靈活的資源擴(kuò)展機(jī)制。當(dāng)gpu服務(wù)器集群系統(tǒng)面臨高負(fù)載或特定計(jì)算需求時(shí),系統(tǒng)可以動(dòng)態(tài)調(diào)用云服務(wù)器上的gpu資源,以應(yīng)對(duì)臨時(shí)的計(jì)算需求高峰。這種按需資源擴(kuò)展策略使得系統(tǒng)能夠靈活應(yīng)對(duì)不同的工作負(fù)載,提高資源利用率,同時(shí)降低了運(yùn)營(yíng)成本,增強(qiáng)了系統(tǒng)的可擴(kuò)展性和適應(yīng)性。
20、第二方面,本發(fā)明還提供一種gpu調(diào)度方法,應(yīng)用第一方面提供的gpu服務(wù)器集群系統(tǒng),該方法包括:根據(jù)gpu服務(wù)節(jié)點(diǎn)的負(fù)載性能參數(shù),確定該gpu服務(wù)節(jié)點(diǎn)的負(fù)載性能評(píng)分,該負(fù)載性能參數(shù)包括浮點(diǎn)運(yùn)算能力值、顯存帶寬利用率和核心時(shí)鐘頻率;基于該負(fù)載性能評(píng)分由高到低對(duì)該gpu服務(wù)節(jié)點(diǎn)進(jìn)行排序;將排序位于前n位的該gpu服務(wù)節(jié)點(diǎn)確定為目標(biāo)gpu節(jié)點(diǎn);在任務(wù)分割單元根據(jù)待處理的視頻圖像數(shù)據(jù)集生成視頻圖像處理任務(wù),并將該視頻圖像處理任務(wù)分割成多個(gè)子任務(wù)的情況下,將該子任務(wù)分配給該目標(biāo)gpu節(jié)點(diǎn);接收視頻圖像處理任務(wù)已完成信息,其中,該視頻圖像處理任務(wù)已完成信息,由數(shù)據(jù)處理單元將多個(gè)已處理部分視頻圖像數(shù)據(jù)合并成完整的已處理視頻圖像數(shù)據(jù)集后生成的。
21、結(jié)合第二方面的一些實(shí)施例,在一些實(shí)施例中,根據(jù)gpu服務(wù)節(jié)點(diǎn)的負(fù)載性能參數(shù),確定該gpu服務(wù)節(jié)點(diǎn)的負(fù)載性能評(píng)分的步驟,包括:
22、根據(jù)負(fù)載性能評(píng)分公式計(jì)算得到該負(fù)載性能評(píng)分,該負(fù)載性能評(píng)分公式包括:
23、;
24、其中,s代表負(fù)載性能評(píng)分,f代表浮點(diǎn)運(yùn)算能力值,m代表顯存帶寬利用率,c代表核心時(shí)鐘頻率,α、β、γ均為實(shí)驗(yàn)參數(shù),可以通過(guò)在先實(shí)驗(yàn)獲得。
25、本發(fā)明第二方面提供的方法,其技術(shù)效果參考第一方面提供的系統(tǒng),此處不再贅述。
26、本發(fā)明提供的一個(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點(diǎn):
27、1.?通過(guò)精確評(píng)估gpu服務(wù)節(jié)點(diǎn)的負(fù)載性能參數(shù),并基于這些參數(shù)進(jìn)行智能調(diào)度,顯著優(yōu)化了資源分配。系統(tǒng)能夠識(shí)別出性能最高且負(fù)載最低的gpu節(jié)點(diǎn),將視頻圖像處理任務(wù)分配給這些節(jié)點(diǎn),從而減少了任務(wù)完成時(shí)間,提高了處理效率。這種方法確保了gpu資源的充分利用,同時(shí)避免了過(guò)載情況,提升了整個(gè)gpu服務(wù)器集群系統(tǒng)的性能。
28、?2.?通過(guò)引入任務(wù)隊(duì)列單元、gpu性能監(jiān)測(cè)單元、fpga單元、邊緣服務(wù)節(jié)點(diǎn)以及云服務(wù)器,極大地增強(qiáng)了系統(tǒng)的靈活性和可擴(kuò)展性。這些組件使得系統(tǒng)能夠根據(jù)任務(wù)的優(yōu)先級(jí)和依賴(lài)關(guān)系智能排序任務(wù),實(shí)時(shí)監(jiān)控gpu性能,處理加密視頻流,以及在需要時(shí)利用邊緣計(jì)算和云資源來(lái)擴(kuò)展處理能力。這種多層次、分布式的處理架構(gòu)使得系統(tǒng)能夠適應(yīng)不斷變化的工作負(fù)載,滿(mǎn)足大規(guī)模并行處理的需求。
29、?3.?通過(guò)邊緣服務(wù)節(jié)點(diǎn)和云服務(wù)器的集成,實(shí)現(xiàn)了數(shù)據(jù)處理的地理分布和計(jì)算資源的動(dòng)態(tài)擴(kuò)展,這對(duì)于需要快速響應(yīng)的應(yīng)用場(chǎng)景至關(guān)重要。邊緣服務(wù)節(jié)點(diǎn)可以減少數(shù)據(jù)傳輸?shù)街行臄?shù)據(jù)中心的需求,降低延遲,提高響應(yīng)速度。同時(shí),云服務(wù)器提供了額外的計(jì)算資源,以應(yīng)對(duì)臨時(shí)的計(jì)算需求高峰,確保了關(guān)鍵任務(wù)即使在資源緊張時(shí)也能順利完成,從而提升了數(shù)據(jù)處理的實(shí)時(shí)性和系統(tǒng)的總體可靠性。