两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)

文檔序號(hào):40645953發(fā)布日期:2025-01-10 18:52閱讀:2來(lái)源:國(guó)知局
一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)

本申請(qǐng)涉及計(jì)算機(jī),特別是涉及一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)。


背景技術(shù):

1、為了改進(jìn)性能和增強(qiáng)模型的泛化能力,大規(guī)模深度學(xué)習(xí)模型的規(guī)模與所需訓(xùn)練數(shù)據(jù)集的大小持續(xù)增長(zhǎng)。這導(dǎo)致單一計(jì)算硬件的存儲(chǔ)容量難以滿足當(dāng)前模型訓(xùn)練的需求。為了解決這一問(wèn)題,已經(jīng)發(fā)展出了多種成熟且有效的數(shù)據(jù)并行與分片并行訓(xùn)練策略。數(shù)據(jù)并行方法通過(guò)在多個(gè)計(jì)算節(jié)點(diǎn)上分散數(shù)據(jù)集來(lái)實(shí)現(xiàn)模型訓(xùn)練,而分片并行則同時(shí)分割模型參數(shù)和數(shù)據(jù)集,以便在多臺(tái)設(shè)備上分布式執(zhí)行訓(xùn)練任務(wù),從而減輕單個(gè)計(jì)算節(jié)點(diǎn)的存儲(chǔ)負(fù)擔(dān)。

2、然而,現(xiàn)有的數(shù)據(jù)并行與分片并行方法中,通信成本成為制約訓(xùn)練效率的主要瓶頸。這些并行方法在訓(xùn)練過(guò)程中需要頻繁大量地進(jìn)行全局通信,然而現(xiàn)有的方法對(duì)于模型參數(shù)的劃分是粗粒度的,一次只能利用單個(gè)設(shè)備間鏈路進(jìn)行通信,而使其他鏈路空閑,導(dǎo)致通信開(kāi)銷十分龐大。因此,模型訓(xùn)練往往變得非常耗時(shí)。


技術(shù)實(shí)現(xiàn)思路

1、基于上述問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì),用以降低通信開(kāi)銷,進(jìn)而減少模型訓(xùn)練的耗時(shí)。

2、為解決上述問(wèn)題,本申請(qǐng)實(shí)施例提供的技術(shù)方案如下:

3、本申請(qǐng)第一方面提供了一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法,包括:

4、獲取集群配置,所述集群配置包括用于表征集群的鏈路連接情況、集群的鏈路帶寬情況、計(jì)算設(shè)備數(shù)量和計(jì)算節(jié)點(diǎn)類型的信息;

5、根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備;

6、基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組,所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。

7、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備,包括:

8、根據(jù)所述集群配置中的第一類鏈路和第二類鏈路,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備,所述第一類鏈路為連接計(jì)算節(jié)點(diǎn)內(nèi)計(jì)算設(shè)備的帶寬鏈路,所述第二類鏈路為連接計(jì)算節(jié)點(diǎn)間計(jì)算設(shè)備的帶寬鏈路,所述第一類鏈路和第二類鏈路是根據(jù)帶寬劃分的,同時(shí)通信時(shí)互不影響的鏈路。

9、在一種可能的實(shí)現(xiàn)方式中,所述方法還包括:

10、根據(jù)所述通信組對(duì)應(yīng)的鏈路和包括的參數(shù),并發(fā)啟動(dòng)各個(gè)通信組,以使各個(gè)通信組實(shí)現(xiàn)通信的并發(fā)執(zhí)行。

11、在一種可能的實(shí)現(xiàn)方式中,所述方法還包括:

12、獲取待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練數(shù)據(jù);

13、基于所述通信組和所述訓(xùn)練數(shù)據(jù),對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。

14、在一種可能的實(shí)現(xiàn)方式中,所述基于所述通信組和所述訓(xùn)練數(shù)據(jù),對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,包括:

15、基于所述通信組和所述訓(xùn)練數(shù)據(jù),在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的前向傳播;

16、在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播,并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合;

17、在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新,得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。

18、在一種可能的實(shí)現(xiàn)方式中,所述在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播,并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合,包括:

19、從輸出層開(kāi)始,將損失函數(shù)的梯度沿網(wǎng)絡(luò)反向傳播,逐層計(jì)算每一層的梯度值;

20、在計(jì)算得到每個(gè)計(jì)算設(shè)備的梯度值后,利用規(guī)約散射通信原語(yǔ)聚合來(lái)自所有計(jì)算設(shè)備的梯度,并在全部計(jì)算設(shè)備之間劃分整個(gè)梯度,得到各個(gè)計(jì)算設(shè)備上的參數(shù)分片對(duì)應(yīng)的梯度結(jié)果。

21、在一種可能的實(shí)現(xiàn)方式中,所述在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新,得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,包括:

22、利用全規(guī)約通信原語(yǔ)規(guī)約各個(gè)計(jì)算設(shè)備的梯度結(jié)果,進(jìn)行全局的梯度更新,得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。

23、本申請(qǐng)第二方面提供了一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分系統(tǒng),包括:

24、獲取單元,用于獲取集群配置,所述集群配置包括用于表征集群的鏈路連接情況、集群的鏈路帶寬情況、計(jì)算設(shè)備數(shù)量和計(jì)算節(jié)點(diǎn)類型的信息;

25、第一確定單元,用于根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備;

26、第二確定單元,用于基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組,所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。

27、本申請(qǐng)第三方面提供了一種電子設(shè)備,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)前述第一方面所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。

28、本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行如前述第一方面所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。

29、相較于現(xiàn)有技術(shù),本申請(qǐng)具有以下有益效果:

30、通過(guò)獲取集群配置,根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備;基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組,所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。即為模型的每個(gè)參數(shù)指定單獨(dú)的劃分方式,從而使得訓(xùn)練過(guò)程中,每個(gè)參數(shù)可以在其單獨(dú)的鏈路上進(jìn)行通信。對(duì)于分片數(shù)據(jù)并行和數(shù)據(jù)并行各自通信過(guò)程,模型不同的參數(shù)可以分別使用計(jì)算節(jié)點(diǎn)內(nèi)與節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信,將原本空閑鏈路利用起來(lái),減少了原本鏈路上的通信量,進(jìn)而減少總的通信開(kāi)銷,提高模型訓(xùn)練速度。



技術(shù)特征:

1.一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述集群配置中的鏈路種類,確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所述通信組和所述訓(xùn)練數(shù)據(jù),對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播,并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合,包括:

7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新,得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型,包括:

8.一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分系統(tǒng),其特征在于,所述系統(tǒng)包括:

9.一種電子設(shè)備,其特征在于,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。


技術(shù)總結(jié)
本申請(qǐng)公開(kāi)了一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì),通過(guò)獲得待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型、訓(xùn)練數(shù)據(jù)和集群配置;根據(jù)所述集群配置中的鏈路種類,確定通信組;基于所述通信組和所述訓(xùn)練數(shù)據(jù),對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。對(duì)于分片數(shù)據(jù)并行和數(shù)據(jù)并行各自通信過(guò)程,模型不同的參數(shù)可以分別使用計(jì)算節(jié)點(diǎn)內(nèi)與節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信,將原本空閑鏈路利用起來(lái),減少了原本鏈路上的通信量,進(jìn)而減少總的通信開(kāi)銷,提高模型訓(xùn)練速度。

技術(shù)研發(fā)人員:盧凱,李東升,賴志權(quán),郝彥琦,喬林波,賈孟涵
受保護(hù)的技術(shù)使用者:中國(guó)人民解放軍國(guó)防科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/9
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
南雄市| 进贤县| 霍林郭勒市| 安新县| 临桂县| 临夏县| 河西区| 东宁县| 金溪县| 嘉黎县| 乌苏市| 龙井市| 绥江县| 清流县| 平顺县| 昌都县| 五河县| 中方县| 台州市| 阿图什市| 道孚县| 剑阁县| 中超| 定陶县| 丰顺县| 汕头市| 鹿邑县| 淮南市| 洪雅县| 当阳市| 高安市| 鄂托克前旗| 黄龙县| 江川县| 得荣县| 万年县| 凉城县| 墨竹工卡县| 渝中区| 萍乡市| 巴塘县|