本發(fā)明涉及優(yōu)化調(diào)取,尤其涉及一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法及裝置。
背景技術(shù):
1、光纖是光纜的主要原材料,不同光纜的套管數(shù)和每個套管中的光纖數(shù)目不同,因此如何實(shí)現(xiàn)便捷、合理的光纖分配是光纜生產(chǎn)制造過程中亟需解決的重要課題。
2、相關(guān)技術(shù)中,在光纜生產(chǎn)制造過程中,通過依賴人工經(jīng)驗進(jìn)行光纖分配。但是,光纖分配時不僅要嚴(yán)格按照客戶需求搭配光纖和套管組合,還要考慮光纖的顏色搭配、庫存剩余數(shù)量、光纖長度以及入庫時間等多重目標(biāo),導(dǎo)致光纖分配的復(fù)雜性較高。因此,若僅依賴人工經(jīng)驗一一進(jìn)行光纖分配,則難以完全滿足各光纜的生產(chǎn)制造要求,由此導(dǎo)致光纖分配合理化難以得到保障。
3、因此,亟需一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法及裝置來解決上述技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法及裝置,用以解決現(xiàn)有技術(shù)中依賴人工經(jīng)驗一一進(jìn)行光纖分配,難以完全滿足各光纜的生產(chǎn)制造要求,導(dǎo)致光纖分配合理化難以得到保障的缺陷,實(shí)現(xiàn)自動優(yōu)化配纖策略,以智能化、合理化地進(jìn)行光纖優(yōu)化分配,進(jìn)而提高光纜生產(chǎn)制造性能。
2、本發(fā)明提供一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法,包括:
3、根據(jù)上一周期的光纖分配結(jié)果,確定當(dāng)前周期的光纖最大成組數(shù)和剩余待配訂單;
4、根據(jù)所述光纖最大成組數(shù)和所述剩余待配訂單,確定當(dāng)前配纖狀態(tài)信息;
5、將所述當(dāng)前配纖狀態(tài)信息輸入至決策模型,得到當(dāng)前配纖決策動作信息;
6、根據(jù)所述當(dāng)前配纖決策動作信息中的光纖長度組合分配策略,進(jìn)行光纖優(yōu)化分配,得到所述當(dāng)前周期的光纖分配結(jié)果;
7、其中,所述決策模型,是根據(jù)從經(jīng)驗池中循環(huán)獲取的各樣本數(shù)據(jù)對深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的;所述樣本數(shù)據(jù)是通過與環(huán)境模型進(jìn)行交互形成的,所述樣本數(shù)據(jù)包括樣本配纖狀態(tài)信息、所述樣本配纖狀態(tài)信息對應(yīng)的樣本配纖決策動作信息、所述樣本配纖決策動作信息對應(yīng)的獎勵值,以及所述樣本配纖決策動作信息對應(yīng)的下一配纖狀態(tài)信息;所述環(huán)境模型是基于配纖規(guī)則約束條件構(gòu)建形成的;所述配纖規(guī)則約束條件包括用于約束光纖的屬性信息的第一目標(biāo)條件和/或用于約束光纖的量化評分的第二目標(biāo)條件。
8、根據(jù)本發(fā)明提供的一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法,所述第一目標(biāo)條件是基于如下步驟構(gòu)建的:
9、根據(jù)各待分配光纖的長度與庫存光纖的最長長度之間的約束關(guān)系,構(gòu)建第一約束條件;
10、根據(jù)各所述待分配光纖的長度與各待生產(chǎn)光纜套管的大徑、小徑和管外徑之間的約束關(guān)系,構(gòu)建第二約束條件;
11、根據(jù)所述第一約束條件和所述第二約束條件,確定所述第一目標(biāo)條件。
12、根據(jù)本發(fā)明提供的一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法,所述第二目標(biāo)條件是基于如下步驟構(gòu)建的:
13、根據(jù)各待分配光纖的長度量化評分與各預(yù)設(shè)長度之間的約束關(guān)系,構(gòu)建第三約束條件;
14、根據(jù)各所述待分配光纖的顏色量化評分與各預(yù)設(shè)顏色之間的約束關(guān)系,構(gòu)建第四約束條件;
15、根據(jù)各所述待分配光纖的回庫量化評分與各預(yù)設(shè)回庫類別之間的約束關(guān)系,構(gòu)建第五約束條件;
16、根據(jù)各所述待分配光纖的時間量化評分與各所述待分配光纖的入庫時間和使用時間之間的約束關(guān)系,構(gòu)建第六約束條件;
17、根據(jù)所有所述待分配光纖的庫存評分與所述長度量化評分、所述顏色量化評分、所述回庫量化評分和所述時間量化評分之間的約束關(guān)系,構(gòu)建第七約束條件;
18、根據(jù)所述第三約束條件、所述第四約束條件、所述第五約束條件、所述第六約束條件和所述第七約束條件,確定所述第二目標(biāo)條件。
19、根據(jù)本發(fā)明提供的一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法,所述樣本配纖決策動作信息對應(yīng)的獎勵值是基于如下步驟確定的:
20、聯(lián)合所述樣本配纖決策動作信息對應(yīng)的破纖數(shù)量、配纖次數(shù)、第一庫存評分、第二庫存評分和動作狀態(tài)值,獲取所述樣本配纖決策動作信息對應(yīng)的獎勵值;
21、其中,所述第一庫存評分為利用所述樣本配纖決策動作信息進(jìn)行光纖分配之前的庫存評分,所述第二庫存評分為利用所述樣本配纖決策動作信息進(jìn)行光纖分配之后的庫存評分。
22、根據(jù)本發(fā)明提供的一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法,所述深度強(qiáng)化學(xué)習(xí)模型包括評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò);
23、所述決策模型是基于如下步驟訓(xùn)練得到的:
24、對于當(dāng)前次訓(xùn)練,若判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量未達(dá)到預(yù)設(shè)數(shù)量,則進(jìn)行樣本數(shù)據(jù)生成,并將生成的樣本數(shù)據(jù)循環(huán)存入所述經(jīng)驗池,直到判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量達(dá)到所述預(yù)設(shè)數(shù)量,則從所述經(jīng)驗池中隨機(jī)抽取多個所述樣本數(shù)據(jù),構(gòu)建得到所述當(dāng)前次訓(xùn)練的訓(xùn)練數(shù)據(jù)集;
25、根據(jù)所述訓(xùn)練數(shù)據(jù)集,對上一次訓(xùn)練后的評估網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,得到當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò);
26、在迭代訓(xùn)練次數(shù)達(dá)到第一預(yù)設(shè)步長的整數(shù)倍的情況下,基于所述當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò)的參數(shù)對上一次訓(xùn)練后的目標(biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行軟更新,得到當(dāng)前次訓(xùn)練后的目標(biāo)網(wǎng)絡(luò);
27、在所述迭代訓(xùn)練次數(shù)達(dá)到第二預(yù)設(shè)步長的整數(shù)倍的情況下,對所述當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò)的性能進(jìn)行驗證;
28、根據(jù)驗證結(jié)果,判斷所述當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò)是否收斂,在判斷獲知所述當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò)不收斂的情況下,迭代進(jìn)行下一次訓(xùn)練,直到訓(xùn)練后的評估網(wǎng)絡(luò)收斂或達(dá)到最大迭代訓(xùn)練次數(shù);
29、在多次訓(xùn)練后的評估網(wǎng)絡(luò)中,確定性能最優(yōu)的訓(xùn)練后的評估網(wǎng)絡(luò),構(gòu)建所述決策模型。
30、根據(jù)本發(fā)明提供的一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法,所述根據(jù)所述訓(xùn)練數(shù)據(jù)集,對上一次訓(xùn)練后的評估網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,得到當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò),包括:
31、將所述訓(xùn)練數(shù)據(jù)集中的各所述樣本配纖狀態(tài)信息輸入至所述上一次訓(xùn)練后的評估網(wǎng)絡(luò),得到各所述樣本配纖狀態(tài)信息對應(yīng)的樣本配纖決策動作信息的價值函數(shù)值;
32、將所述訓(xùn)練數(shù)據(jù)集中的各所述下一配纖狀態(tài)信息輸入至所述上一次訓(xùn)練后的評估網(wǎng)絡(luò),得到所述下一配纖狀態(tài)信息對應(yīng)的優(yōu)化配纖決策動作信息,所述優(yōu)化配纖決策動作信息的價值函數(shù)值最優(yōu);
33、將所述訓(xùn)練數(shù)據(jù)集中的各所述下一配纖狀態(tài)信息,輸入至所述上一次訓(xùn)練后的目標(biāo)網(wǎng)絡(luò),得到所述上一次訓(xùn)練后的目標(biāo)網(wǎng)絡(luò)的第一分支網(wǎng)絡(luò)輸出的所述優(yōu)化配纖決策動作信息的第一價值函數(shù)值,以及所述上一次訓(xùn)練后的目標(biāo)網(wǎng)絡(luò)的第二分支網(wǎng)絡(luò)輸出的所述優(yōu)化配纖決策動作信息的第二價值函數(shù)值;
34、在所述第一價值函數(shù)值和所述第二價值函數(shù)值中,確定最小價值函數(shù)值作為所述優(yōu)化配纖決策動作信息的目標(biāo)價值函數(shù)值;
35、根據(jù)所述樣本配纖決策動作信息的價值函數(shù)值、所述優(yōu)化配纖決策動作信息的目標(biāo)價值函數(shù)值,以及所述樣本配纖決策動作信息對應(yīng)的獎勵值,對所述上一次訓(xùn)練后的評估網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,得到所述當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò)。
36、根據(jù)本發(fā)明提供的一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法,所述根據(jù)所述樣本配纖決策動作信息的價值函數(shù)值、所述優(yōu)化配纖決策動作信息的目標(biāo)價值函數(shù)值,以及所述樣本配纖決策動作信息對應(yīng)的獎勵值,對所述上一次訓(xùn)練后的評估網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,得到所述當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò),包括:
37、根據(jù)所述優(yōu)化配纖決策動作信息的目標(biāo)價值函數(shù)值,以及所述樣本配纖決策動作信息對應(yīng)的獎勵值,獲取第一目標(biāo)函數(shù)值;
38、根據(jù)所述樣本配纖決策動作信息的價值函數(shù)值,獲取第二目標(biāo)函數(shù)值;
39、根據(jù)所述第一目標(biāo)函數(shù)值與所述第二目標(biāo)函數(shù)值之間的偏差,獲取損失函數(shù)值;
40、根據(jù)所述損失函數(shù)值的梯度值和預(yù)設(shè)系數(shù),獲取所述損失函數(shù)值的梯度系數(shù);
41、根據(jù)所述梯度值和所述梯度系數(shù),對所述上一次訓(xùn)練后的評估網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,得到所述當(dāng)前次訓(xùn)練后的評估網(wǎng)絡(luò)。
42、根據(jù)本發(fā)明提供的一種基于配纖規(guī)則約束的光纖優(yōu)化分配方法,所述若判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量未達(dá)到預(yù)設(shè)數(shù)量,則進(jìn)行樣本數(shù)據(jù)生成,并將生成的樣本數(shù)據(jù)循環(huán)存入所述經(jīng)驗池,直到判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量達(dá)到所述預(yù)設(shè)數(shù)量,包括:
43、若所述當(dāng)前次訓(xùn)練為初始訓(xùn)練,則根據(jù)所述樣本配纖狀態(tài)信息、配纖數(shù)量約束條件、配纖長度約束條件和配纖策略約束條件,編碼生成所述樣本配纖狀態(tài)信息對應(yīng)的樣本配纖決策動作信息;
44、若所述當(dāng)前次訓(xùn)練為除所述初始訓(xùn)練之外的其他次訓(xùn)練,則根據(jù)上一次訓(xùn)練后的評估網(wǎng)絡(luò),獲取所述樣本配纖狀態(tài)信息對應(yīng)的樣本配纖決策動作信息;
45、根據(jù)所述樣本配纖狀態(tài)信息和所述樣本配纖決策動作信息,與所述環(huán)境模型進(jìn)行交互,得到所述樣本配纖決策動作信息對應(yīng)的獎勵值和所述樣本配纖決策動作信息對應(yīng)的下一配纖狀態(tài)信息;
46、根據(jù)所述樣本配纖狀態(tài)信息、所述樣本配纖決策動作信息、所述樣本配纖決策動作信息對應(yīng)的獎勵值和所述樣本配纖決策動作信息對應(yīng)的下一配纖狀態(tài)信息進(jìn)行樣本數(shù)據(jù)的生成,并將生成的樣本數(shù)據(jù)存入所述經(jīng)驗池;
47、將所述下一配纖狀態(tài)信息作為新的樣本配纖狀態(tài)信息,迭代進(jìn)行樣本數(shù)據(jù)生成,并將生成的樣本數(shù)據(jù)循環(huán)存入所述經(jīng)驗池,直到判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量達(dá)到所述預(yù)設(shè)數(shù)量。
48、本發(fā)明還提供一種基于配纖規(guī)則約束的光纖優(yōu)化分配裝置,包括:
49、第一處理單元,用于根據(jù)上一周期的光纖分配結(jié)果,確定當(dāng)前周期的光纖最大成組數(shù)和剩余待配訂單;
50、第二處理單元,用于根據(jù)所述光纖最大成組數(shù)和所述剩余待配訂單,確定當(dāng)前配纖狀態(tài)信息;
51、優(yōu)化單元,用于將所述當(dāng)前配纖狀態(tài)信息輸入至決策模型,得到當(dāng)前配纖決策動作信息;
52、分配單元,用于根據(jù)所述當(dāng)前配纖決策動作信息中的光纖長度組合分配策略,進(jìn)行光纖優(yōu)化分配,得到所述當(dāng)前周期的光纖分配結(jié)果;
53、其中,所述決策模型,是根據(jù)從經(jīng)驗池中循環(huán)獲取的各樣本數(shù)據(jù)對深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的;所述樣本數(shù)據(jù)是通過與環(huán)境模型進(jìn)行交互形成的,所述樣本數(shù)據(jù)包括樣本配纖狀態(tài)信息、所述樣本配纖狀態(tài)信息對應(yīng)的樣本配纖決策動作信息、所述樣本配纖決策動作信息對應(yīng)的獎勵值,以及所述樣本配纖決策動作信息對應(yīng)的下一配纖狀態(tài)信息;所述環(huán)境模型是基于配纖規(guī)則約束條件構(gòu)建形成的;所述配纖規(guī)則約束條件包括用于約束光纖的屬性信息的第一目標(biāo)條件和/或用于約束光纖的量化評分的第二目標(biāo)條件。
54、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如上述任一種所述基于配纖規(guī)則約束的光纖優(yōu)化分配方法。
55、本發(fā)明還提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如上述任一種所述基于配纖規(guī)則約束的光纖優(yōu)化分配方法。
56、本發(fā)明還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如上述任一種所述基于配纖規(guī)則約束的光纖優(yōu)化分配方法。
57、本發(fā)明提供的基于配纖規(guī)則約束的光纖優(yōu)化分配方法及裝置,通過基于各種配纖規(guī)則約束條件構(gòu)建形成可滿足各種配纖需求的環(huán)境模型,并將與環(huán)境模型進(jìn)行交互形成的樣本數(shù)據(jù)填充至經(jīng)驗池,以便依據(jù)從經(jīng)驗池中循環(huán)獲取的樣本配纖狀態(tài)信息、樣本配纖決策動作信息、樣本配纖決策動作信息對應(yīng)的獎勵值,以及下一配纖狀態(tài)信息,對深度強(qiáng)化模型中的評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)進(jìn)行優(yōu)化,得到?jīng)Q策模型,以使得所得的決策模型能建立一套完整的光纖自動分配優(yōu)化的算法流程,使得光纖分配綜合考慮光纖最大成組數(shù)、剩余待配訂單、光纖屬性信息及量化評分等多重配纖規(guī)則約束條件,實(shí)現(xiàn)了光纖分配過程的自動化與智能化,顯著提升了光纖分配的準(zhǔn)確性、效率與合理性,確保了光纜生產(chǎn)制造要求的全面滿足,以有效降低整體庫存光纖存放時間、提高光纖利用率和配纖效率以及光纜生產(chǎn)效率,從而有效解決了光纖分配復(fù)雜度高及合理化難以保障的問題。