两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

任務(wù)部署方法、裝置、任務(wù)管理系統(tǒng)、控制器及存儲介質(zhì)與流程

文檔序號:40637717發(fā)布日期:2025-01-10 18:43閱讀:3來源:國知局
任務(wù)部署方法、裝置、任務(wù)管理系統(tǒng)、控制器及存儲介質(zhì)與流程

本技術(shù)涉及分布式數(shù)據(jù)處理領(lǐng)域,特別涉及一種任務(wù)部署方法、裝置、任務(wù)管理系統(tǒng)、控制器及存儲介質(zhì)。


背景技術(shù):

1、隨著機器學(xué)習(xí)模型的網(wǎng)絡(luò)結(jié)構(gòu)的擴大和訓(xùn)練數(shù)據(jù)的增加,分布式訓(xùn)練方式已逐漸成為機器學(xué)習(xí)模型的主流訓(xùn)練方式。參數(shù)服務(wù)器(parameter?server,ps)架構(gòu)作為一種分布式架構(gòu),將服務(wù)器集群中的服務(wù)器分為參數(shù)服務(wù)器(也可以稱為ps節(jié)點)和計算服務(wù)器(也可以稱為worker節(jié)點)兩種類型。一個模型訓(xùn)練任務(wù)通常被部署在一個參數(shù)服務(wù)器和多個計算服務(wù)器上,該參數(shù)服務(wù)器存放有待訓(xùn)練模型的模型參數(shù),該多個計算服務(wù)器從該參數(shù)服務(wù)器中獲取模型參數(shù),并基于模型參數(shù)在本地訓(xùn)練模型,將訓(xùn)練得到的梯度數(shù)據(jù)發(fā)送給參數(shù)服務(wù)器,以使參數(shù)服務(wù)器通過聚合該多個計算服務(wù)器發(fā)送的梯度數(shù)據(jù)來更新模型參數(shù)。

2、相關(guān)技術(shù)中,在ps架構(gòu)下的服務(wù)器集群部署模型訓(xùn)練任務(wù)時,根據(jù)模型訓(xùn)練任務(wù)所需的任務(wù)運行資源、各服務(wù)器的處理資源利用率,以及參數(shù)服務(wù)器與計算服務(wù)器之間的帶寬資源,確定該模型訓(xùn)練任務(wù)對應(yīng)的參數(shù)服務(wù)器和多個計算服務(wù)器,從而將該模型訓(xùn)練任務(wù)部署在該服務(wù)器集群中。對任一模型訓(xùn)練任務(wù)而言,部署該模型訓(xùn)練任務(wù)的多個計算服務(wù)器將所有的梯度數(shù)據(jù)發(fā)送至參數(shù)服務(wù)器中進行聚合運算,這種“多對一”的通信模式會導(dǎo)致網(wǎng)絡(luò)擁塞,甚至?xí)霈F(xiàn)模型訓(xùn)練任務(wù)超時的情況。為加速分布式訓(xùn)練的速度,在上述ps架構(gòu)中引入可編程交換機,該可編程交換機不僅能夠?qū)崿F(xiàn)計算服務(wù)器與參數(shù)服務(wù)器之間的數(shù)據(jù)轉(zhuǎn)發(fā)功能,還能夠?qū)υ摱鄠€計算服務(wù)器得到的梯度數(shù)據(jù)進行聚合運算,進而將聚合結(jié)果發(fā)送給參數(shù)服務(wù)器,減少參數(shù)服務(wù)器的數(shù)據(jù)處理量。

3、由于引入了可編程交換機的運算資源,且多個模型訓(xùn)練任務(wù)可以共享一個可編程交換機的運算資源,但在該多個模型訓(xùn)練任務(wù)部署不均勻而導(dǎo)致該多個模型訓(xùn)練任務(wù)同時擠占同一可編程交換機時,會嚴(yán)重影響該可編程交換機的整體性能,因此,亟需一種新的任務(wù)部署方法,以在部署模型訓(xùn)練任務(wù)時能充分考慮可編程交換機的運算資源和服務(wù)器的處理資源。


技術(shù)實現(xiàn)思路

1、本技術(shù)提供了一種任務(wù)部署方法、裝置、任務(wù)管理系統(tǒng)、控制器及存儲介質(zhì),能綜合網(wǎng)絡(luò)設(shè)備的聚合資源利用率和帶寬資源利用率,以及服務(wù)器的處理資源利用率,在服務(wù)器集群中部署數(shù)據(jù)處理任務(wù)。技術(shù)方案如下:

2、第一方面,提供了一種任務(wù)部署方法,應(yīng)用于任務(wù)管理系統(tǒng)中的控制器,任務(wù)管理系統(tǒng)還包括服務(wù)器集群和多個網(wǎng)絡(luò)設(shè)備,服務(wù)器集群包括多個服務(wù)器,每個網(wǎng)絡(luò)設(shè)備均包括由網(wǎng)絡(luò)設(shè)備的內(nèi)存資源劃分得到的多個聚合器;該方法包括:獲取每個網(wǎng)絡(luò)設(shè)備的聚合資源利用率、每個網(wǎng)絡(luò)設(shè)備的帶寬資源利用率,以及每個服務(wù)器的處理資源利用率;根據(jù)待部署的第一數(shù)據(jù)處理任務(wù)所需的任務(wù)運行資源、多個網(wǎng)絡(luò)設(shè)備的聚合資源利用率和帶寬資源利用率,以及多個服務(wù)器的處理資源利用率,確定任務(wù)部署策略和聚合資源分配策略,任務(wù)部署策略指示多個服務(wù)器中用于執(zhí)行第一數(shù)據(jù)處理任務(wù)的第一服務(wù)器,聚合資源分配策略指示多個網(wǎng)絡(luò)設(shè)備中用于對第一數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行聚合運算的第一網(wǎng)絡(luò)設(shè)備中的聚合器;基于任務(wù)部署策略和聚合資源分配策略,在第一服務(wù)器中部署第一數(shù)據(jù)處理任務(wù)。

3、由此可見,在任務(wù)管理系統(tǒng)中部署第一數(shù)據(jù)處理任務(wù)時,控制器能綜合分析每個網(wǎng)絡(luò)設(shè)備的聚合資源利用率、每個網(wǎng)絡(luò)設(shè)備的帶寬資源利用率、每個服務(wù)器的處理資源利用率,以及第一數(shù)據(jù)處理任務(wù)所需的任務(wù)運算資源,從而確定第一數(shù)據(jù)處理任務(wù)的任務(wù)部署策略和聚合資源分配策略。由于充分考慮了服務(wù)器的處理資源、網(wǎng)絡(luò)設(shè)備的帶寬資源和聚合資源的使用情況,因此,任務(wù)部署和資源分配更加合理,從而提高了第一數(shù)據(jù)處理任務(wù)的整體執(zhí)行性能,降低了任務(wù)完成時長。

4、可選地,獲取每個網(wǎng)絡(luò)設(shè)備的聚合資源利用率,包括:向網(wǎng)絡(luò)設(shè)備發(fā)送測量報文,測量報文攜帶第一測量周期的周期信息,第一測量周期為第一數(shù)據(jù)處理任務(wù)的部署時間所處的測量周期;接收網(wǎng)絡(luò)設(shè)備發(fā)送的測量回復(fù)報文,測量回復(fù)報文攜帶網(wǎng)絡(luò)設(shè)備在第一測量周期內(nèi)的已占用聚合器數(shù)量;基于已占用聚合器數(shù)量,確定網(wǎng)絡(luò)設(shè)備的聚合資源利用率。

5、也即是,控制器通過發(fā)送測量報文的方式獲取網(wǎng)絡(luò)設(shè)備在一個測量周期內(nèi)的已占用聚合器數(shù)量,從而基于已占用聚合器數(shù)量,分析計算該網(wǎng)絡(luò)設(shè)備的聚合資源利用率。如此,提高了網(wǎng)絡(luò)設(shè)備的聚合資源利用率的測量效率,便于控制器隨時按需監(jiān)測網(wǎng)絡(luò)設(shè)備的聚合資源利用情況。

6、可選地,向網(wǎng)絡(luò)設(shè)備發(fā)送測量報文,包括:從多個服務(wù)器中確定目標(biāo)服務(wù)器,目標(biāo)服務(wù)器是指與網(wǎng)絡(luò)設(shè)備連接的一個服務(wù)器,且網(wǎng)絡(luò)設(shè)備位于控制器與目標(biāo)服務(wù)器的通信鏈路上;通過控制器與目標(biāo)服務(wù)器的通信鏈路向目標(biāo)服務(wù)器發(fā)送測量報文,以使網(wǎng)絡(luò)設(shè)備接收并攔截測量報文。

7、由于控制器是通過控制器和服務(wù)器之間的通信鏈路向網(wǎng)絡(luò)設(shè)備發(fā)送測量報文的,因此,處于該通信鏈路上的網(wǎng)絡(luò)設(shè)備均可以接收到該測量報文,從而全面且有效地測量各網(wǎng)絡(luò)設(shè)備的聚合資源利用率。

8、可選地,基于已占用聚合器數(shù)量,確定網(wǎng)絡(luò)設(shè)備的聚合資源利用率,包括:根據(jù)網(wǎng)絡(luò)設(shè)備包括的聚合器總數(shù)、網(wǎng)絡(luò)設(shè)備的聚合器在第一測量周期內(nèi)的單次占用時長,以及第一測量周期的周期長度,確定網(wǎng)絡(luò)設(shè)備包括的聚合器在第一測量周期內(nèi)的最大聚合次數(shù);基于已占用聚合器數(shù)量和最大聚合次數(shù),確定網(wǎng)絡(luò)設(shè)備的聚合資源利用率。

9、其中,任務(wù)報文會占用聚合器的聚合資源,對任務(wù)報文中攜帶的處理數(shù)據(jù)完成聚合運算后,該聚合器的聚合資源會被釋放,此時該聚合器可以用于處理其他數(shù)據(jù)處理任務(wù)的任務(wù)報文。因此,對于一個聚合器而言,其單次占用時長即為網(wǎng)絡(luò)設(shè)備從接收到任務(wù)報文,到完成該任務(wù)報文中處理數(shù)據(jù)的聚合運算的時長。

10、也即是,控制器根據(jù)第一測量周期的周期長度,以及網(wǎng)絡(luò)設(shè)備的聚合器在第一測量周期內(nèi)的單次占用時長,確定每個聚合器在第一測量周期內(nèi)的占用次數(shù),然后,根據(jù)每個聚合器在第一測量周期內(nèi)的占用次數(shù),以及網(wǎng)絡(luò)設(shè)備包括的聚合器總數(shù),確定該網(wǎng)絡(luò)設(shè)備在第一測量周期內(nèi)的最大聚合次數(shù)。如此,控制器基于網(wǎng)絡(luò)設(shè)備中各聚合器在單個測量周期內(nèi)的占用情況,即可分析該網(wǎng)絡(luò)設(shè)備的聚合資源利用率,操作簡單,結(jié)果更準(zhǔn)確。

11、可選地,第一數(shù)據(jù)處理任務(wù)是指需要獨占聚合器的數(shù)據(jù)處理任務(wù);該方法還包括:確定已部署的第二數(shù)據(jù)處理任務(wù),第二數(shù)據(jù)處理任務(wù)與第一數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)均需要在第一網(wǎng)絡(luò)設(shè)備中進行聚合運算,且第二數(shù)據(jù)處理任務(wù)是指與其他數(shù)據(jù)處理任務(wù)能夠共享聚合器的數(shù)據(jù)處理任務(wù);向第二服務(wù)器發(fā)送任務(wù)暫停報文,以指示第二服務(wù)器暫停發(fā)送第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號之后的任務(wù)報文,第二服務(wù)器為多個服務(wù)器中執(zhí)行第二數(shù)據(jù)處理任務(wù)的服務(wù)器;接收第二服務(wù)器發(fā)送的暫停響應(yīng)報文,向第二服務(wù)器發(fā)送尋址重配置報文,尋址重配置報文指示在第一網(wǎng)絡(luò)設(shè)備中為第二數(shù)據(jù)處理任務(wù)重新分配的聚合器。

12、由此可見,若第一數(shù)據(jù)處理為獨占聚合器的數(shù)據(jù)處理任務(wù),在任務(wù)管理系統(tǒng)中部署第一數(shù)據(jù)處理任務(wù),且通過第一網(wǎng)絡(luò)設(shè)備對第一數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行聚合運算時,需要對與其他數(shù)據(jù)處理任務(wù)共享第一網(wǎng)絡(luò)設(shè)備聚合器的第二數(shù)據(jù)處理任務(wù)重新分配聚合器,以避免第一數(shù)據(jù)處理任務(wù)和第二數(shù)據(jù)處理任務(wù)的任務(wù)報文擠占同一聚合器,導(dǎo)致同一序號的任務(wù)報文無法有效聚合,聚合器的聚合資源無法釋放的情況。如此,通過聚合器重分配,可以保證第一網(wǎng)絡(luò)設(shè)備對各數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行有效聚合,各數(shù)據(jù)處理任務(wù)可以正常運行。其次,通過設(shè)置的目標(biāo)序號,可以統(tǒng)一第二數(shù)據(jù)處理任務(wù)的任務(wù)報文發(fā)送進度,使得執(zhí)行第二數(shù)據(jù)處理任務(wù)的多個計算服務(wù)器能在同一序號的任務(wù)報文處暫停,同時基于相同序號的任務(wù)報文重啟第二數(shù)據(jù)處理任務(wù),使得暫停前后第二數(shù)據(jù)處理任務(wù)的各序號的任務(wù)報文均能被正常聚合。

13、可選地,第二服務(wù)器包括一個參數(shù)服務(wù)器和多個計算服務(wù)器,參數(shù)服務(wù)器用于存儲第二數(shù)據(jù)處理任務(wù)的任務(wù)參數(shù),每個計算服務(wù)器用于基于任務(wù)參數(shù)執(zhí)行第二數(shù)據(jù)處理任務(wù);向第二服務(wù)器發(fā)送任務(wù)暫停報文,包括:向參數(shù)服務(wù)器發(fā)送任務(wù)暫停報文,以使參數(shù)服務(wù)器控制多個計算服務(wù)器暫停發(fā)送第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號之后的任務(wù)報文;接收第二服務(wù)器發(fā)送的暫停響應(yīng)報文,包括:接收參數(shù)服務(wù)器發(fā)送的暫停響應(yīng)報文,暫停響應(yīng)報文指示多個計算服務(wù)器均已暫停發(fā)送第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號之后的任務(wù)報文。

14、其中,任務(wù)暫停報文用于指示第二服務(wù)器暫停發(fā)送第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號之后的任務(wù)報文,避免在第一網(wǎng)絡(luò)設(shè)備為第一數(shù)據(jù)處理任務(wù)分配獨占的聚合器后,導(dǎo)致第二服務(wù)器發(fā)送的任務(wù)報文中攜帶的處理數(shù)據(jù)無法被聚合器有效聚合。第二服務(wù)器接收到任務(wù)暫停報文,且發(fā)完第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號的任務(wù)報文后,暫停向第一網(wǎng)絡(luò)設(shè)備發(fā)送第二數(shù)據(jù)處理任務(wù)的任務(wù)報文,并向控制器發(fā)送暫停響應(yīng)報文。

15、也即是,當(dāng)?shù)诙?shù)據(jù)處理任務(wù)部署在多個計算服務(wù)器上時,控制器通過與參數(shù)服務(wù)器的通信交互,以控制多個計算服務(wù)器能在相同序號的任務(wù)報文處暫停,后續(xù)也能基于相同序號的任務(wù)報文重啟第二數(shù)據(jù)處理任務(wù)。

16、可選地,根據(jù)待部署的第一數(shù)據(jù)處理任務(wù)所需的任務(wù)運行資源、多個網(wǎng)絡(luò)設(shè)備的聚合資源利用率和帶寬資源利用率,以及多個服務(wù)器的處理資源利用率,確定任務(wù)部署策略和聚合資源分配策略,包括:基于任務(wù)運行資源、多個網(wǎng)絡(luò)設(shè)備的聚合資源利用率和帶寬資源利用率,以及多個服務(wù)器的處理資源利用率,確定第一數(shù)據(jù)處理任務(wù)的部署約束條件;基于部署約束條件,確定任務(wù)部署策略和聚合資源分配策略。

17、可選地,部署約束條件包括:

18、任務(wù)運行資源小于或等于能夠執(zhí)行第一數(shù)據(jù)處理任務(wù)的服務(wù)器的可用處理資源;

19、能夠執(zhí)行第一數(shù)據(jù)處理任務(wù)的服務(wù)器的處理資源占用量小于或等于處理資源閾值;

20、能夠執(zhí)行第一數(shù)據(jù)處理任務(wù)的服務(wù)器與能夠?qū)Φ谝粩?shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行聚合運算的網(wǎng)絡(luò)設(shè)備之間的帶寬資源小于或等于帶寬閾值;

21、能夠?qū)Φ谝粩?shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行聚合運算的網(wǎng)絡(luò)設(shè)備的內(nèi)存資源占用量小于或等于內(nèi)存資源閾值。

22、其中,服務(wù)器的可用處理資源用于指示服務(wù)器是否能繼續(xù)部署數(shù)據(jù)處理任務(wù),處理資源閾值用于指示服務(wù)器是否處于超負(fù)荷狀態(tài),帶寬閾值用于指示可能發(fā)生數(shù)據(jù)丟包的帶寬資源,內(nèi)存資源閾值用于指示網(wǎng)絡(luò)設(shè)備是否處于超負(fù)荷狀態(tài)。

23、由于部署約束條件充分限制了能夠執(zhí)行第一數(shù)據(jù)處理任務(wù)的服務(wù)器應(yīng)該滿足的條件,以及能對第一數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行聚合運算的網(wǎng)絡(luò)設(shè)備應(yīng)該滿足的條件,因此,基于部署約束條件確定的任務(wù)部署策略和聚合資源分配策略更準(zhǔn)確,更合理。

24、第二方面,提供了另一種任務(wù)部署方法,應(yīng)用于任務(wù)管理系統(tǒng),任務(wù)管理系統(tǒng)包括控制器、服務(wù)器集群和多個網(wǎng)絡(luò)設(shè)備,服務(wù)器集群包括多個服務(wù)器,每個網(wǎng)絡(luò)設(shè)備中均包括由網(wǎng)絡(luò)設(shè)備的內(nèi)存資源劃分得到的多個聚合器;該方法包括:控制器獲取每個網(wǎng)絡(luò)設(shè)備的聚合資源利用率、每個網(wǎng)絡(luò)設(shè)備的帶寬資源利用率,以及每個服務(wù)器的處理資源利用率;控制器根據(jù)待部署的第一數(shù)據(jù)處理任務(wù)所需的任務(wù)運行資源、多個網(wǎng)絡(luò)設(shè)備的聚合資源利用率和帶寬資源利用率,以及多個服務(wù)器的處理資源利用率,確定任務(wù)部署策略和聚合資源分配策略,任務(wù)部署策略指示多個服務(wù)器中用于執(zhí)行第一數(shù)據(jù)處理任務(wù)的第一服務(wù)器,聚合資源分配策略指示多個網(wǎng)絡(luò)設(shè)備中用于對第一數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行聚合運算的第一網(wǎng)絡(luò)設(shè)備中的聚合器;控制器基于任務(wù)部署策略和聚合資源分配策略,在第一服務(wù)器中部署第一數(shù)據(jù)處理任務(wù);第一服務(wù)器存儲第一數(shù)據(jù)處理任務(wù)的任務(wù)數(shù)據(jù),以及為第一數(shù)據(jù)處理任務(wù)分配的聚合資源的資源信息。

25、可選地,控制器獲取每個網(wǎng)絡(luò)設(shè)備的聚合資源利用率,包括:控制器向網(wǎng)絡(luò)設(shè)備發(fā)送測量報文,測量報文攜帶第一測量周期的周期信息,第一測量周期為第一數(shù)據(jù)處理任務(wù)的部署時間所處的測量周期;網(wǎng)絡(luò)設(shè)備接收測量報文,基于第一測量周期的周期信息,確定網(wǎng)絡(luò)設(shè)備在第一測量周期內(nèi)的已占用聚合器數(shù)量,并向控制器發(fā)送測量回復(fù)報文,測量回復(fù)報文攜帶已占用聚合器數(shù)量;控制器接收測量回復(fù)報文,并基于已占用聚合器數(shù)量確定網(wǎng)絡(luò)設(shè)備的聚合資源利用率。

26、可選地,第一測量周期的周期信息為第一測量周期對應(yīng)的版本號,網(wǎng)絡(luò)設(shè)備中設(shè)置有第一狀態(tài)計數(shù)器,第一狀態(tài)計數(shù)器具有第一版本號;網(wǎng)絡(luò)設(shè)備基于第一測量周期的周期信息,確定網(wǎng)絡(luò)設(shè)備在第一測量周期內(nèi)的已占用聚合器數(shù)量,包括:響應(yīng)于第一測量周期對應(yīng)的版本號與第一版本號相同,網(wǎng)絡(luò)設(shè)備基于第一狀態(tài)計數(shù)器的計數(shù)值,確定網(wǎng)絡(luò)設(shè)備在第一測量周期內(nèi)的已占用聚合器數(shù)量。

27、其中,第一狀態(tài)計數(shù)器用于記錄當(dāng)前測量周期內(nèi)該網(wǎng)絡(luò)設(shè)備中聚合器的占用數(shù)量。網(wǎng)絡(luò)設(shè)備接收測量報文后,響應(yīng)于第一測量周期對應(yīng)的版本號與第一版本號相同,網(wǎng)絡(luò)設(shè)備基于第一狀態(tài)計數(shù)器的計數(shù)值,即可確定第一測量周期內(nèi)的已占用聚合器數(shù)量。

28、可選地,第一狀態(tài)計數(shù)器還具有第一狀態(tài)信息,網(wǎng)絡(luò)設(shè)備中還設(shè)置有第二狀態(tài)計數(shù)器,第二狀態(tài)計數(shù)器具有第二狀態(tài)信息和第二版本號;網(wǎng)絡(luò)設(shè)備向控制器發(fā)送測量回復(fù)報文之后,方法還包括:響應(yīng)于第一狀態(tài)信息指示當(dāng)前測量周期且第二狀態(tài)信息指示上一測量周期,網(wǎng)絡(luò)設(shè)備將第一狀態(tài)信息和第二狀態(tài)信息進行切換,將第二版本號更新為第二測量周期對應(yīng)的版本號,清空第二狀態(tài)計數(shù)器的計數(shù)值,以通過第二狀態(tài)計數(shù)器記錄第二測量周期內(nèi)的已占用聚合器數(shù)量,第二測量周期為與第一測量周期相鄰的下一個測量周期。

29、也即是,網(wǎng)絡(luò)設(shè)備中設(shè)置兩種狀態(tài)的計數(shù)器,分別用于記錄當(dāng)前測量周期內(nèi)已占用聚合器的數(shù)量和上一測量周期內(nèi)已占用聚合器數(shù)量。通過切換兩個計數(shù)器的狀態(tài)信息,以及更新計數(shù)器的版本號,來保證每個測量周期內(nèi)只使用一種狀態(tài)的計數(shù)器記錄已占用聚合器數(shù)量,且相鄰測量周期記錄已占用聚合器數(shù)量的計數(shù)器的狀態(tài)不同。

30、可選地,第一數(shù)據(jù)處理任務(wù)是指需要獨占聚合器的數(shù)據(jù)處理任務(wù);方法還包括:控制器確定已部署的第二數(shù)據(jù)處理任務(wù),第二數(shù)據(jù)處理任務(wù)與第一數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)均需要在第一網(wǎng)絡(luò)設(shè)備中進行聚合運算,且第二數(shù)據(jù)處理任務(wù)是指與其他數(shù)據(jù)處理任務(wù)能夠共享聚合器的數(shù)據(jù)處理任務(wù);控制器向第二服務(wù)器發(fā)送任務(wù)暫停報文,第二服務(wù)器為多個服務(wù)器中執(zhí)行第二數(shù)據(jù)處理任務(wù)的服務(wù)器;第二服務(wù)器接收任務(wù)暫停報文,在發(fā)完第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號的任務(wù)報文后暫停發(fā)送第二數(shù)據(jù)處理任務(wù)的任務(wù)報文,并向控制器發(fā)送暫停響應(yīng)報文;控制器接收暫停響應(yīng)報文,向第二服務(wù)器發(fā)送尋址重配置報文,尋址重配置報文指示在第一網(wǎng)絡(luò)設(shè)備中為第二數(shù)據(jù)處理任務(wù)重新分配的聚合器。

31、可選地,第二服務(wù)器包括一個參數(shù)服務(wù)器和多個計算服務(wù)器,參數(shù)服務(wù)器用于存儲第二數(shù)據(jù)處理任務(wù)的任務(wù)參數(shù),每個計算服務(wù)器用于基于任務(wù)參數(shù)執(zhí)行第二數(shù)據(jù)處理任務(wù);控制器向第二服務(wù)器發(fā)送任務(wù)暫停報文,包括:控制器向參數(shù)服務(wù)器發(fā)送任務(wù)暫停報文;第二服務(wù)器接收任務(wù)暫停報文,在發(fā)送發(fā)完第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號的任務(wù)報文后暫停發(fā)送第二數(shù)據(jù)處理任務(wù)的任務(wù)報文,并向控制器發(fā)送暫停響應(yīng)報文,包括:參數(shù)服務(wù)器接收任務(wù)暫停報文,確定當(dāng)前時刻已完成聚合運算的最大報文序號,并向多個計算服務(wù)器發(fā)送最大報文序號;計算服務(wù)器基于最大報文序號和報文發(fā)送窗口的大小確定目標(biāo)序號,在發(fā)送完第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號的任務(wù)報文后暫停發(fā)送第二數(shù)據(jù)處理任務(wù)的任務(wù)報文;參數(shù)服務(wù)器接收到多個計算服務(wù)器發(fā)送的第二數(shù)據(jù)處理任務(wù)的目標(biāo)序號的任務(wù)報文后,向控制器發(fā)送暫停響應(yīng)報文。

32、其中,報文發(fā)送窗口用于限制計算服務(wù)器一次性發(fā)送任務(wù)報文的數(shù)量,即在此報文發(fā)送窗口內(nèi),計算服務(wù)器無需等待參數(shù)服務(wù)器發(fā)送任務(wù)回復(fù)報文,也可以繼續(xù)發(fā)送任務(wù)報文,直至該報文發(fā)送窗口對應(yīng)數(shù)量的任務(wù)報文均已發(fā)出。

33、因此,為保證計算服務(wù)器能響應(yīng)于同一最大報文序號,停在相同的任務(wù)報文處,計算服務(wù)器接收到最大報文序號后,發(fā)送完目標(biāo)序號的任務(wù)報文后,再暫停發(fā)送第二數(shù)據(jù)處理任務(wù)的任務(wù)報文。也即是,即使各計算服務(wù)器在發(fā)送任務(wù)報文上存在時差,但最終也都能保持一致,停在相同序號的任務(wù)報文處。

34、可選地,參數(shù)服務(wù)器向計算服務(wù)器發(fā)送的最大報文序號的任務(wù)回復(fù)報文中攜帶最大報文序號和暫停標(biāo)識符;該方法還包括:若多個計算服務(wù)器中存在目標(biāo)計算服務(wù)器未接收到最大報文序號的任務(wù)回復(fù)報文,但接收到最大報文序號的下一報文序號的任務(wù)回復(fù)報文,則目標(biāo)計算服務(wù)器重新向參數(shù)服務(wù)器發(fā)送最大報文序號的任務(wù)報文;參數(shù)服務(wù)器重新向目標(biāo)計算服務(wù)器發(fā)送最大報文序號的任務(wù)回復(fù)報文。

35、通過目標(biāo)計算服務(wù)器重發(fā)最大報文序號的任務(wù)報文,可以確保各計算服務(wù)器能基于同一個最大報文序號執(zhí)行任務(wù)暫停操作。如此,即使各計算服務(wù)器接收最大報文序號的任務(wù)回復(fù)報文上存在時差,但也能基于參數(shù)服務(wù)器在相同時刻確定的最大報文序號,執(zhí)行任務(wù)暫停操作,使得最終停止時刻已發(fā)送的任務(wù)報文的報文序號相同,參數(shù)服務(wù)器可以順序?qū)υ摃r刻之前的報文進行有效聚合。

36、第三方面,提供了一種任務(wù)部署裝置,該任務(wù)部署裝置具有實現(xiàn)上述第一方面中任務(wù)部署方法行為的功能。該任務(wù)部署裝置包括一個或多個模塊,該一個或多個模塊用于實現(xiàn)上述第一方面所提供的任務(wù)部署方法。

37、第四方面,提供了一種任務(wù)管理系統(tǒng),該任務(wù)管理系統(tǒng)包括控制器、服務(wù)器集群和多個網(wǎng)絡(luò)設(shè)備,服務(wù)器集群包括多個服務(wù)器,每個網(wǎng)絡(luò)設(shè)備中均包括由網(wǎng)絡(luò)設(shè)備的內(nèi)存資源劃分得到的多個聚合器。

38、其中,控制器,用于獲取每個網(wǎng)絡(luò)設(shè)備的聚合資源利用率、每個網(wǎng)絡(luò)設(shè)備的帶寬資源利用率,以及每個服務(wù)器的處理資源利用率,根據(jù)待部署的第一數(shù)據(jù)處理任務(wù)所需的任務(wù)運行資源、多個網(wǎng)絡(luò)設(shè)備的聚合資源利用率和帶寬資源利用率,以及多個服務(wù)器的處理資源利用率,確定任務(wù)部署策略和聚合資源分配策略,任務(wù)部署策略指示多個服務(wù)器中用于執(zhí)行第一數(shù)據(jù)處理任務(wù)的第一服務(wù)器,聚合資源分配策略指示多個網(wǎng)絡(luò)設(shè)備中用于對第一數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行聚合運算的第一網(wǎng)絡(luò)設(shè)備中的聚合器,基于任務(wù)部署策略和聚合資源分配策略,在第一服務(wù)器中部署第一數(shù)據(jù)處理任務(wù);第一服務(wù)器,用于存儲第一數(shù)據(jù)處理任務(wù)的任務(wù)數(shù)據(jù),以及為第一數(shù)據(jù)處理任務(wù)分配的聚合資源的資源信息;第一網(wǎng)絡(luò)設(shè)備,用于對第一數(shù)據(jù)處理任務(wù)的處理數(shù)據(jù)進行聚合運算。

39、第五方面,提供了一種控制器,該控制器包括存儲器和處理器,存儲器存儲有計算機程序,處理器調(diào)用并執(zhí)行計算機程序時實現(xiàn)上述第一方面所示的任務(wù)部署方法的步驟。

40、第六方面,提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)中存儲有計算機程序,控制器執(zhí)行該計算機程序時實現(xiàn)上述第一方面所示的任務(wù)部署方法的步驟。

41、第七方面,提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括計算機程序,控制器執(zhí)行該計算機程序時實現(xiàn)上述第一方面所示的任務(wù)部署方法的步驟。

42、上述第二方面至第七方面所獲得的技術(shù)效果與第一方面中對應(yīng)的技術(shù)特征所達到的技術(shù)效果近似,在這里不再贅述。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
荆门市| 常州市| 弥渡县| 杭州市| 赣榆县| 邵阳市| 呼玛县| 浦江县| 胶州市| 丰原市| 若尔盖县| 承德县| 沐川县| 轮台县| 潼关县| 巴彦县| 随州市| 商丘市| 互助| 齐河县| 抚顺县| 桐乡市| 深圳市| 句容市| 台山市| 东兰县| 子长县| 合山市| 彝良县| 西平县| 长丰县| 武强县| 福泉市| 胶南市| 定襄县| 郓城县| 望城县| 盐池县| 简阳市| 鹿邑县| 曲松县|