本申請(qǐng)涉及計(jì)算機(jī),特別是涉及一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、為了改進(jìn)性能和增強(qiáng)模型的泛化能力,大規(guī)模深度學(xué)習(xí)模型的規(guī)模與所需訓(xùn)練數(shù)據(jù)集的大小持續(xù)增長(zhǎng)。這導(dǎo)致單一計(jì)算硬件的存儲(chǔ)容量難以滿足當(dāng)前模型訓(xùn)練的需求。為了解決這一問(wèn)題,已經(jīng)發(fā)展出了多種成熟且有效的數(shù)據(jù)并行與分片并行訓(xùn)練策略。數(shù)據(jù)并行方法通過(guò)在多個(gè)計(jì)算節(jié)點(diǎn)上分散數(shù)據(jù)集來(lái)實(shí)現(xiàn)模型訓(xùn)練,而分片并行則同時(shí)分割模型參數(shù)和數(shù)據(jù)集,以便在多臺(tái)設(shè)備上分布式執(zhí)行訓(xùn)練任務(wù),從而減輕單個(gè)計(jì)算節(jié)點(diǎn)的存儲(chǔ)負(fù)擔(dān)。
2、然而,現(xiàn)有的數(shù)據(jù)并行與分片并行方法中,通信成本成為制約訓(xùn)練效率的主要瓶頸。這些并行方法在訓(xùn)練過(guò)程中需要頻繁大量地進(jìn)行全局通信,然而現(xiàn)有的方法對(duì)于模型參數(shù)的劃分是粗粒度的,一次只能利用單個(gè)設(shè)備間鏈路進(jìn)行通信,而使其他鏈路空閑,導(dǎo)致通信開(kāi)銷十分龐大。因此,模型訓(xùn)練往往變得非常耗時(shí)。
技術(shù)實(shí)現(xiàn)思路
1、基于上述問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì),用以降低通信開(kāi)銷,進(jìn)而減少模型訓(xùn)練的耗時(shí)。
2、為解決上述問(wèn)題,本申請(qǐng)實(shí)施例提供的技術(shù)方案如下:
3、本申請(qǐng)第一方面提供了一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法,包括:
4、獲取集群配置,所述集群配置包括用于表征集群的鏈路連接情況、集群的鏈路帶寬情況、計(jì)算設(shè)備數(shù)量和計(jì)算節(jié)點(diǎn)類型的信息;
5、根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備;
6、基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組,所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。
7、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備,包括:
8、根據(jù)所述集群配置中的第一類鏈路和第二類鏈路,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備,所述第一類鏈路為連接計(jì)算節(jié)點(diǎn)內(nèi)計(jì)算設(shè)備的帶寬鏈路,所述第二類鏈路為連接計(jì)算節(jié)點(diǎn)間計(jì)算設(shè)備的帶寬鏈路,所述第一類鏈路和第二類鏈路是根據(jù)帶寬劃分的,同時(shí)通信時(shí)互不影響的鏈路。
9、在一種可能的實(shí)現(xiàn)方式中,所述方法還包括:
10、根據(jù)所述通信組對(duì)應(yīng)的鏈路和包括的參數(shù),并發(fā)啟動(dòng)各個(gè)通信組,以使各個(gè)通信組實(shí)現(xiàn)通信的并發(fā)執(zhí)行。
11、在一種可能的實(shí)現(xiàn)方式中,所述方法還包括:
12、獲取待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練數(shù)據(jù);
13、基于所述通信組和所述訓(xùn)練數(shù)據(jù),對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。
14、在一種可能的實(shí)現(xiàn)方式中,所述基于所述通信組和所述訓(xùn)練數(shù)據(jù),對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,包括:
15、基于所述通信組和所述訓(xùn)練數(shù)據(jù),在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的前向傳播;
16、在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播,并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合;
17、在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新,得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。
18、在一種可能的實(shí)現(xiàn)方式中,所述在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播,并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合,包括:
19、從輸出層開(kāi)始,將損失函數(shù)的梯度沿網(wǎng)絡(luò)反向傳播,逐層計(jì)算每一層的梯度值;
20、在計(jì)算得到每個(gè)計(jì)算設(shè)備的梯度值后,利用規(guī)約散射通信原語(yǔ)聚合來(lái)自所有計(jì)算設(shè)備的梯度,并在全部計(jì)算設(shè)備之間劃分整個(gè)梯度,得到各個(gè)計(jì)算設(shè)備上的參數(shù)分片對(duì)應(yīng)的梯度結(jié)果。
21、在一種可能的實(shí)現(xiàn)方式中,所述在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新,得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,包括:
22、利用全規(guī)約通信原語(yǔ)規(guī)約各個(gè)計(jì)算設(shè)備的梯度結(jié)果,進(jìn)行全局的梯度更新,得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。
23、本申請(qǐng)第二方面提供了一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分系統(tǒng),包括:
24、獲取單元,用于獲取集群配置,所述集群配置包括用于表征集群的鏈路連接情況、集群的鏈路帶寬情況、計(jì)算設(shè)備數(shù)量和計(jì)算節(jié)點(diǎn)類型的信息;
25、第一確定單元,用于根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備;
26、第二確定單元,用于基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組,所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。
27、本申請(qǐng)第三方面提供了一種電子設(shè)備,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)前述第一方面所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。
28、本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行如前述第一方面所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。
29、相較于現(xiàn)有技術(shù),本申請(qǐng)具有以下有益效果:
30、通過(guò)獲取集群配置,根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備;基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組,所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。即為模型的每個(gè)參數(shù)指定單獨(dú)的劃分方式,從而使得訓(xùn)練過(guò)程中,每個(gè)參數(shù)可以在其單獨(dú)的鏈路上進(jìn)行通信。對(duì)于分片數(shù)據(jù)并行和數(shù)據(jù)并行各自通信過(guò)程,模型不同的參數(shù)可以分別使用計(jì)算節(jié)點(diǎn)內(nèi)與節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信,將原本空閑鏈路利用起來(lái),減少了原本鏈路上的通信量,進(jìn)而減少總的通信開(kāi)銷,提高模型訓(xùn)練速度。
1.一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所述通信組和所述訓(xùn)練數(shù)據(jù),對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播,并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合,包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新,得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,包括:
8.一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分系統(tǒng),其特征在于,所述系統(tǒng)包括:
9.一種電子設(shè)備,其特征在于,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。