一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)

文檔序號(hào)：40645953發(fā)布日期：2025-01-10 18:52閱讀：2來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及計(jì)算機(jī)，特別是涉及一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)。

背景技術(shù)：

1、為了改進(jìn)性能和增強(qiáng)模型的泛化能力，大規(guī)模深度學(xué)習(xí)模型的規(guī)模與所需訓(xùn)練數(shù)據(jù)集的大小持續(xù)增長(zhǎng)。這導(dǎo)致單一計(jì)算硬件的存儲(chǔ)容量難以滿足當(dāng)前模型訓(xùn)練的需求。為了解決這一問(wèn)題，已經(jīng)發(fā)展出了多種成熟且有效的數(shù)據(jù)并行與分片并行訓(xùn)練策略。數(shù)據(jù)并行方法通過(guò)在多個(gè)計(jì)算節(jié)點(diǎn)上分散數(shù)據(jù)集來(lái)實(shí)現(xiàn)模型訓(xùn)練，而分片并行則同時(shí)分割模型參數(shù)和數(shù)據(jù)集，以便在多臺(tái)設(shè)備上分布式執(zhí)行訓(xùn)練任務(wù)，從而減輕單個(gè)計(jì)算節(jié)點(diǎn)的存儲(chǔ)負(fù)擔(dān)。

2、然而，現(xiàn)有的數(shù)據(jù)并行與分片并行方法中，通信成本成為制約訓(xùn)練效率的主要瓶頸。這些并行方法在訓(xùn)練過(guò)程中需要頻繁大量地進(jìn)行全局通信，然而現(xiàn)有的方法對(duì)于模型參數(shù)的劃分是粗粒度的，一次只能利用單個(gè)設(shè)備間鏈路進(jìn)行通信，而使其他鏈路空閑，導(dǎo)致通信開(kāi)銷十分龐大。因此，模型訓(xùn)練往往變得非常耗時(shí)。

技術(shù)實(shí)現(xiàn)思路

1、基于上述問(wèn)題，本申請(qǐng)?zhí)峁┝艘环N面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)，用以降低通信開(kāi)銷，進(jìn)而減少模型訓(xùn)練的耗時(shí)。

2、為解決上述問(wèn)題，本申請(qǐng)實(shí)施例提供的技術(shù)方案如下：

3、本申請(qǐng)第一方面提供了一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法，包括：

4、獲取集群配置，所述集群配置包括用于表征集群的鏈路連接情況、集群的鏈路帶寬情況、計(jì)算設(shè)備數(shù)量和計(jì)算節(jié)點(diǎn)類型的信息；

5、根據(jù)所述集群配置中的鏈路種類，確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備；

6、基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組，所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。

7、在一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述集群配置中的鏈路種類，確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備，包括：

8、根據(jù)所述集群配置中的第一類鏈路和第二類鏈路，確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備，所述第一類鏈路為連接計(jì)算節(jié)點(diǎn)內(nèi)計(jì)算設(shè)備的帶寬鏈路，所述第二類鏈路為連接計(jì)算節(jié)點(diǎn)間計(jì)算設(shè)備的帶寬鏈路，所述第一類鏈路和第二類鏈路是根據(jù)帶寬劃分的，同時(shí)通信時(shí)互不影響的鏈路。

9、在一種可能的實(shí)現(xiàn)方式中，所述方法還包括：

10、根據(jù)所述通信組對(duì)應(yīng)的鏈路和包括的參數(shù)，并發(fā)啟動(dòng)各個(gè)通信組，以使各個(gè)通信組實(shí)現(xiàn)通信的并發(fā)執(zhí)行。

11、在一種可能的實(shí)現(xiàn)方式中，所述方法還包括：

12、獲取待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練數(shù)據(jù)；

13、基于所述通信組和所述訓(xùn)練數(shù)據(jù)，對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。

14、在一種可能的實(shí)現(xiàn)方式中，所述基于所述通信組和所述訓(xùn)練數(shù)據(jù)，對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型，包括：

15、基于所述通信組和所述訓(xùn)練數(shù)據(jù)，在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的前向傳播；

16、在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播，并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合；

17、在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新，得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。

18、在一種可能的實(shí)現(xiàn)方式中，所述在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播，并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合，包括：

19、從輸出層開(kāi)始，將損失函數(shù)的梯度沿網(wǎng)絡(luò)反向傳播，逐層計(jì)算每一層的梯度值；

20、在計(jì)算得到每個(gè)計(jì)算設(shè)備的梯度值后，利用規(guī)約散射通信原語(yǔ)聚合來(lái)自所有計(jì)算設(shè)備的梯度，并在全部計(jì)算設(shè)備之間劃分整個(gè)梯度，得到各個(gè)計(jì)算設(shè)備上的參數(shù)分片對(duì)應(yīng)的梯度結(jié)果。

21、在一種可能的實(shí)現(xiàn)方式中，所述在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新，得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型，包括：

22、利用全規(guī)約通信原語(yǔ)規(guī)約各個(gè)計(jì)算設(shè)備的梯度結(jié)果，進(jìn)行全局的梯度更新，得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。

23、本申請(qǐng)第二方面提供了一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分系統(tǒng)，包括：

24、獲取單元，用于獲取集群配置，所述集群配置包括用于表征集群的鏈路連接情況、集群的鏈路帶寬情況、計(jì)算設(shè)備數(shù)量和計(jì)算節(jié)點(diǎn)類型的信息；

25、第一確定單元，用于根據(jù)所述集群配置中的鏈路種類，確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備；

26、第二確定單元，用于基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組，所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。

27、本申請(qǐng)第三方面提供了一種電子設(shè)備，包括：存儲(chǔ)器，處理器，及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)，實(shí)現(xiàn)前述第一方面所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。

28、本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令，當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí)，使得所述終端設(shè)備執(zhí)行如前述第一方面所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。

29、相較于現(xiàn)有技術(shù)，本申請(qǐng)具有以下有益效果：

30、通過(guò)獲取集群配置，根據(jù)所述集群配置中的鏈路種類，確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備；基于所述每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備確定通信組，所述通信組包括使用計(jì)算節(jié)點(diǎn)內(nèi)對(duì)應(yīng)鏈路與計(jì)算節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信的參數(shù)。即為模型的每個(gè)參數(shù)指定單獨(dú)的劃分方式，從而使得訓(xùn)練過(guò)程中，每個(gè)參數(shù)可以在其單獨(dú)的鏈路上進(jìn)行通信。對(duì)于分片數(shù)據(jù)并行和數(shù)據(jù)并行各自通信過(guò)程，模型不同的參數(shù)可以分別使用計(jì)算節(jié)點(diǎn)內(nèi)與節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信，將原本空閑鏈路利用起來(lái)，減少了原本鏈路上的通信量，進(jìn)而減少總的通信開(kāi)銷，提高模型訓(xùn)練速度。

技術(shù)特征：

1.一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述集群配置中的鏈路種類，確定每個(gè)參數(shù)的劃分方式以及每個(gè)鏈路對(duì)應(yīng)的計(jì)算設(shè)備，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述基于所述通信組和所述訓(xùn)練數(shù)據(jù)，對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述在每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的反向傳播，并進(jìn)行節(jié)點(diǎn)內(nèi)的梯度聚合，包括：

7.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述在計(jì)算節(jié)點(diǎn)間進(jìn)行全局梯度更新，得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型，包括：

8.一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分系統(tǒng)，其特征在于，所述系統(tǒng)包括：

9.一種電子設(shè)備，其特征在于，包括：存儲(chǔ)器，處理器，及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)，實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令，當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí)，使得所述終端設(shè)備執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述的面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法。

技術(shù)總結(jié)
本申請(qǐng)公開(kāi)了一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)，通過(guò)獲得待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型、訓(xùn)練數(shù)據(jù)和集群配置；根據(jù)所述集群配置中的鏈路種類，確定通信組；基于所述通信組和所述訓(xùn)練數(shù)據(jù)，對(duì)所述待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，直至得到訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型。對(duì)于分片數(shù)據(jù)并行和數(shù)據(jù)并行各自通信過(guò)程，模型不同的參數(shù)可以分別使用計(jì)算節(jié)點(diǎn)內(nèi)與節(jié)點(diǎn)間的對(duì)應(yīng)鏈路同時(shí)進(jìn)行通信，將原本空閑鏈路利用起來(lái)，減少了原本鏈路上的通信量，進(jìn)而減少總的通信開(kāi)銷，提高模型訓(xùn)練速度。

技術(shù)研發(fā)人員：盧凱,李東升,賴志權(quán),郝彥琦,喬林波,賈孟涵
受保護(hù)的技術(shù)使用者：中國(guó)人民解放軍國(guó)防科技大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：盧凱,李東升,賴志權(quán),郝彥琦,喬林波,賈孟涵
技術(shù)所有人：中國(guó)人民解放軍國(guó)防科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)

一種面向并行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型劃分方法、系統(tǒng)、設(shè)備及介質(zhì)