一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)的制作方法

文檔序號：6290643閱讀：391來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

專利名稱：一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機集成制造技術(shù)和自動化技術(shù)領(lǐng)域，具體地是一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)。

背景技術(shù)：
由計算機實現(xiàn)的生產(chǎn)調(diào)度是通過計算機對一個可用的加工設(shè)備集在時間上進行加工零件集的分配，以滿足一個性能指標集。具體地說，該調(diào)度的任務(wù)是在車間有限的資源約束下，確定工件在相關(guān)設(shè)備上的加工順序和加工時間，以保證生產(chǎn)任務(wù)的執(zhí)行時間或成本目標最優(yōu)。按照工件到達車間的特點、車間環(huán)境變化情況等不同因素，可以把由計算機實現(xiàn)的生產(chǎn)調(diào)度系統(tǒng)分成靜態(tài)調(diào)度系統(tǒng)和動態(tài)調(diào)度系統(tǒng)兩大類。
實際生產(chǎn)中常常為了簡化，調(diào)度模型通常只考慮靜態(tài)問題，即問題的所有環(huán)境、任務(wù)在調(diào)度中都是已知的，所有安排加工的工件均處于待加工狀態(tài)，而一次調(diào)度后，所有作業(yè)的加工就被確定了，在以后的加工過程中就不再改變。但在實際的生產(chǎn)過程中，不可避免地存在著大量的具有不確定性和隨機性的動態(tài)事件，具體地說，這些動態(tài)事件可以分為以下三類 1)與工件相關(guān)的事件，包括工件隨機到達，工件加工時間不確定，交貨期變化，定單變化，定單動態(tài)優(yōu)先級，工序延誤以及工件質(zhì)量不穩(wěn)定等。
2)與機器相關(guān)的事件，包括機器故障/修復(fù)，負載有限，機器阻塞/死鎖等。
3)其它事件，包括產(chǎn)品需求量變化、原材料有缺陷，原材料拖期，以及與操作人員有關(guān)的操作失誤等。
諸如此類動態(tài)事件發(fā)生常常導(dǎo)致實際的調(diào)度環(huán)境經(jīng)常呈現(xiàn)動態(tài)的、不穩(wěn)定的、時變的特性，然而靜態(tài)調(diào)度模型嚴重依賴于已知的調(diào)度環(huán)境和任務(wù)，因此當靜態(tài)調(diào)度模型面對這些實際生產(chǎn)中的不確定擾動時，所得到的調(diào)度結(jié)果與實際生產(chǎn)中期望值存在著較大偏差，調(diào)度效果往往不盡如人意。由此可見，對于加工任務(wù)和車間環(huán)境具有時變特點，或者制造環(huán)境具有一些不可預(yù)測擾動時，動態(tài)調(diào)度就顯得尤為重要，也更能符合實際生產(chǎn)的需求。
經(jīng)過對現(xiàn)有技術(shù)的文獻檢索發(fā)現(xiàn)，目前，解決動態(tài)調(diào)度問題的主要方法有最優(yōu)化方法、系統(tǒng)仿真方法、啟發(fā)式方法、人工智能方法及計算智能方法等。當加工設(shè)備數(shù)M≥3的N個工件的調(diào)度問題就是NP困難(NP-hard)的，至今尚未找到多項式復(fù)雜程度的方法解決此問題，且隨著調(diào)度問題規(guī)模的增大，動態(tài)調(diào)度的計算復(fù)雜性也呈指數(shù)上升。因此大多數(shù)方法都很難滿足動態(tài)調(diào)度的實時性要求，而調(diào)度規(guī)則方法作為啟發(fā)式方法的一種，具有對NP特性不敏感且實時性好等優(yōu)點，是當前實際生產(chǎn)中應(yīng)用最為廣泛的一種方法。
雖然調(diào)度規(guī)則方法具有簡單易用的特點，但其一般較難獲得調(diào)度問題的最優(yōu)解，有時滿意解也不能得到，這是因為調(diào)度規(guī)則性能受到制造系統(tǒng)狀態(tài)的影響，當制造系統(tǒng)狀態(tài)發(fā)生變化時，原來效果較好的調(diào)度規(guī)則可能會變得平庸，導(dǎo)致單個調(diào)度規(guī)則缺乏全局性。
因此，當面對系統(tǒng)參數(shù)頻繁變動的動態(tài)調(diào)度時，調(diào)度規(guī)則方法需要結(jié)合其它的方法，根據(jù)系統(tǒng)的變化情況來動態(tài)地選取合適的調(diào)度規(guī)則來進行調(diào)度，以適應(yīng)車間環(huán)境的不斷變化。Arzi等人在《IIETransactions》(31，217-230，1999)上撰文“Neural network-based adaptive production control system for aflexible manufacturing cell under a random environment(面向隨機環(huán)境下柔性制造單元的基于神經(jīng)網(wǎng)絡(luò)自適應(yīng)生產(chǎn)控制系統(tǒng))”，該文利用神經(jīng)網(wǎng)絡(luò)構(gòu)建生產(chǎn)控制系統(tǒng)，選取合適的調(diào)度規(guī)則進行調(diào)度。但該方法訓(xùn)練時間長，對結(jié)果的解釋能力較差，且隨著問題規(guī)模的增大，網(wǎng)絡(luò)結(jié)構(gòu)會變得更加復(fù)雜，也存在著訓(xùn)練樣本獲取困難的缺點。

發(fā)明內(nèi)容
本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足，提出一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)，以適應(yīng)調(diào)度環(huán)境和任務(wù)存在不可預(yù)測擾動的情況，從而可以得到比現(xiàn)有的動態(tài)調(diào)度方法更為有效的優(yōu)化技術(shù)，有效地減少工件等待時間，提高企業(yè)產(chǎn)品交貨期滿足率。
本發(fā)明思想是由計算機按照基本順序算法方案(BSAS)對系統(tǒng)狀態(tài)進行合理聚類而得到聚類狀態(tài)，引入調(diào)度目標函數(shù)并提出一種調(diào)度優(yōu)化方法，在現(xiàn)有調(diào)度規(guī)則的基礎(chǔ)上，通過學(xué)習(xí)器與制造系統(tǒng)的不斷交互而獲取有效的調(diào)度知識，用于優(yōu)化生產(chǎn)過程。通過以下技術(shù)方案實現(xiàn)的一種由計算機實現(xiàn)的白適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)，其特征在于設(shè)置包括系統(tǒng)仿真器、學(xué)習(xí)器、決策器、調(diào)度規(guī)則庫、調(diào)度知識庫、搬運小車、加工設(shè)備及其緩沖站，緩沖站設(shè)有光柵、傳感器以及檢測設(shè)備，工件到達緩沖站并被加工時，學(xué)習(xí)器檢測當前系統(tǒng)狀態(tài)進行學(xué)習(xí)，獲取系統(tǒng)的動態(tài)調(diào)度知識，進而對調(diào)度知識庫里的知識進行更新，當某加工設(shè)備需要調(diào)度時，決策器將根據(jù)檢測到的系統(tǒng)狀態(tài)，讀取調(diào)度知識庫中對應(yīng)的調(diào)度知識，通過不斷地與加工系統(tǒng)交互學(xué)習(xí)而獲取新的調(diào)度知識，面向系統(tǒng)中加工設(shè)備及工件的狀態(tài)來動態(tài)選取調(diào)度規(guī)則，選擇最優(yōu)的調(diào)度規(guī)則對該加工設(shè)備進行調(diào)度。
具體方法是通過建立調(diào)度優(yōu)化目標函數(shù)，選取系統(tǒng)的狀態(tài)特征，在定義系統(tǒng)的訐估函數(shù)Q(suc，av)及聚類狀態(tài)suc基礎(chǔ)上，采用基本順序算法方案BSAS對系統(tǒng)仿真器產(chǎn)生的狀態(tài)進行聚類，得到系統(tǒng)的聚類狀態(tài)，通過B-Q學(xué)習(xí)方法的迭代學(xué)習(xí)模型對評估函數(shù)進行迭代，根據(jù)得到的評估函數(shù)值選取最優(yōu)的調(diào)度規(guī)則對緩沖站中的工件進行實時調(diào)度。
系統(tǒng)狀態(tài)特征的選取，具體如下定義加工系統(tǒng)的相對機器負載ω，然后選取調(diào)度規(guī)則性能影響較大的四個狀態(tài)特征平均交貨因子f、系統(tǒng)利用率μ、相對機器負載ω和平均松弛時間ζ，其中，f＝∑fi/Nd，fi是到達系統(tǒng)第j個工件的交貨因子；μ是加工設(shè)備中當前非空閑加工設(shè)備數(shù)和總的加工設(shè)備數(shù)之比；若ζj，表示第j個工件的松弛時間，有其中t是當前時刻，pjq表示第j個工件的工序q所需加工時間(若工序q正在被加工，則pjq為該工序的剩余加工時間)，kd是工件正在被加工或等待加工的工序數(shù)，kj表示工件j的工序總數(shù)，則有ζ＝(∑ζj)/Nd。因此系統(tǒng)狀態(tài)si可用四元組表示，即si＝(ω，f，μ，ζ)。
系統(tǒng)聚類狀態(tài)的得到，具體如下采用比例因子法對狀態(tài)特征值進行標準化預(yù)處理，然后基于基本順序算法方案(BSAS)對系統(tǒng)狀態(tài)進行聚類，聚類過程中采用歐幾里德(Euclidean)距離法計算狀態(tài)si到聚類Cl的不相似性測度d(si，Cl)，進而得到聚類狀態(tài)suc。
評估函數(shù)Q(suc，av)及聚類狀態(tài)suc的確定，具體如下系統(tǒng)從t時刻的聚類狀態(tài)stc開始，根據(jù)某個控制策略執(zhí)行動作(調(diào)度規(guī)則)at，則此后也遵循該策略執(zhí)行所得的折算累積回報期望值，稱之為狀態(tài)一動作對(stc，at)的評估函數(shù)，記為Q(stc，at)。通過BSAS對系統(tǒng)狀態(tài)進行聚類并得到x個聚類，則把第u個聚類中所有系統(tǒng)狀態(tài)的中心稱為聚類狀態(tài)suc，故共有x個聚類狀態(tài)，記為sc＝suc(u＝1，2，…，x)。
B-Q學(xué)習(xí)方法的迭代學(xué)習(xí)模型，具體如下確定系統(tǒng)最優(yōu)評估函數(shù)Q*(suc，av)，即系統(tǒng)最大的折算累積回報期望值。B-Q學(xué)習(xí)方法的迭代學(xué)習(xí)模型為
式中γ(0≤γ＜1)是對延遲回報的折扣因子，rt+1為加工設(shè)備選擇某個調(diào)度規(guī)則后系統(tǒng)的立即回報值，立即回報值的設(shè)定是與調(diào)度目標函數(shù)相關(guān)聯(lián)的，φ(n)是循環(huán)次數(shù)n的函數(shù)，αn為步長參數(shù)，其中式中的Θ為引入的評估函數(shù)閾值。當Qn(stc，at)收斂到最優(yōu)評估函數(shù)Q*(suc，av)時停止迭代。
按如下步驟對加工設(shè)備緩沖站中的工件隊列進行動態(tài)調(diào)度 (1)按下列公式分別對平均交貨因子f、系統(tǒng)利用率μ、相對機器負載ω和平均松弛時間ζ賦值，并把這些賦值保存在計算機中 f＝∑fj/Nd μ＝Nb/Nm
ζ＝(∑ζj)/Nd (2)學(xué)習(xí)器通過基本順序算法方案BSAS得到系統(tǒng)的聚類狀態(tài)shc，賦初始值給評估函數(shù)Q0(suc，av)，置循環(huán)次數(shù)n＝1，并存儲到計算機中，決策器任意選擇調(diào)度規(guī)則庫中的調(diào)度規(guī)則對空閑加工設(shè)備緩沖站中的工件隊列進行調(diào)度； (3)學(xué)習(xí)器檢測系統(tǒng)當前時刻t的狀態(tài)st，通過計算不相似性測度d(st，Cl)并按照計算，獲得系統(tǒng)聚類狀態(tài)stc； (4)決策器根據(jù)ε-greedy法選擇調(diào)度規(guī)則av對加工設(shè)備緩沖站中的工件隊列進行調(diào)度； (5)決策器檢測并判斷工件是否已經(jīng)加工完畢，若還有待加工工件，則學(xué)習(xí)器觀察t+1時刻制造系統(tǒng)的狀態(tài)st+1，計算不相似性測度得到當前系統(tǒng)聚類狀態(tài)st+1c，此時學(xué)習(xí)器會接受到一個立即回報值rt+1’調(diào)用B-Q學(xué)習(xí)迭代模型公式計算評估函數(shù)Qn(stc，at)值并存儲在計算機中，學(xué)習(xí)器用學(xué)習(xí)到的新調(diào)度知識對調(diào)度知識庫里面的知識進行更新；若工件已經(jīng)加工完畢，則轉(zhuǎn)入步驟(10)； (6)學(xué)習(xí)器用聚類狀態(tài)st+1c替換stc，并更新循環(huán)次數(shù)n＝n+1； (7)學(xué)習(xí)器判斷所有評估函數(shù)是否已經(jīng)是最優(yōu)評估函數(shù)Q*(suc，av)，若還有評估函數(shù)未達到最優(yōu)，則轉(zhuǎn)入步驟(4)； (8)調(diào)度決策模塊檢測系統(tǒng)當前狀態(tài)，決策器調(diào)用知識庫中的對應(yīng)調(diào)度知識對加工設(shè)備緩沖站中的工件進行調(diào)度； (9)判斷制造系統(tǒng)中所有工件是否都已加工完畢，若還有剩余未加工工件，轉(zhuǎn)步驟(8)；否則轉(zhuǎn)步驟(10)； (10)結(jié)束整個生產(chǎn)調(diào)度過程。
為有效地減小學(xué)習(xí)過程中Q(stc，at)的波動，有利于提高學(xué)習(xí)效果。所述的學(xué)習(xí)器在B-Q學(xué)習(xí)過程中引入了評估函數(shù)閾值。
在給出一種由計算機實現(xiàn)的調(diào)度規(guī)則自適應(yīng)選擇及其生產(chǎn)控制之前，還需完成如下幾個步驟步驟1如何最小化產(chǎn)品拖期是制造企業(yè)非常關(guān)心的問題，為此建立最小化平均拖期的目標函數(shù)為
式中，是工件拖期完工懲罰因子，dj為第j個工件的理想交貨期，工件的實際完工時間為Cj， N是總的加工工件數(shù)，工件集合表示為J＝{J1，J2，…，JN}，每個工件都由多工序組成。
步驟2基于將要優(yōu)化的調(diào)度目標函數(shù)Obj，設(shè)定系統(tǒng)的立即回報值r。
步驟3選取對調(diào)度規(guī)則性能影響較大的四個狀態(tài)特征平均交貨因子(average flow allowance factor)f、系統(tǒng)利用率(system utilization)μ、相對機器負載(relative machine workloads)ω和平均松弛時間(average slack time)ζ，對系統(tǒng)狀態(tài)進行描述，因此狀態(tài)si是由四元組組成的，即si＝(ω，f，μ，ζ)。其中，

ωmax是機器最大負載，

為平均機器負載；f＝∑fj/Nd，fj是到達系統(tǒng)第j個工件的交貨因子；μ是加工設(shè)備中當前非空閑加工設(shè)備數(shù)和總的加工設(shè)備數(shù)之比；若ζj表示第j個工件的松弛時間，有其中t是當前時刻，pjq表示第j個工件的工序q所需加工時間(若工序q正在被加工，則pjq為該工序的剩余加工時間)，kd是工件正在被加工或等待加工的工序數(shù)，kj表示工件j的工序總數(shù)，則有ζ＝(∑ζj)/Nd。
本發(fā)明的優(yōu)點及有益效果本發(fā)明解決了背景技術(shù)中存在的問題。該調(diào)度技術(shù)是根據(jù)制造系統(tǒng)的瞬時狀態(tài)，動態(tài)地選取最有效的調(diào)度規(guī)則對緩沖站中工件進行調(diào)度，以減少工件拖期現(xiàn)象的發(fā)生。嵌入到學(xué)習(xí)器中的B-Q學(xué)習(xí)方法模塊具有很強的自學(xué)習(xí)能力，對那些因加工環(huán)境的變化或者某些不確定因素的發(fā)生而導(dǎo)致系統(tǒng)狀態(tài)變化的動態(tài)調(diào)度，本控制決策系統(tǒng)將會通過學(xué)習(xí)來獲取新的調(diào)度知識，以適應(yīng)這些調(diào)度環(huán)境的變化。在實際生產(chǎn)中，動態(tài)調(diào)度的先驗知識和精確的訓(xùn)練樣本一般是很難得到的，該控制決策系統(tǒng)在學(xué)習(xí)過程中，是不需要任何先驗知識或者精確的訓(xùn)練樣本，這就使得本發(fā)明具有更廣泛的適用性。本控制決策系統(tǒng)中學(xué)習(xí)器的學(xué)習(xí)以及對調(diào)度知識庫中的知識更新完全可以通過離線學(xué)習(xí)來完成，這對保證實際生產(chǎn)中的調(diào)度實時性要求是很有意義的。本發(fā)明可以得到比現(xiàn)有的規(guī)則調(diào)度更好的調(diào)度效果，可使所有加工工件的平均拖期時間減少10％-50％，可用于多種制造業(yè)領(lǐng)域的優(yōu)化調(diào)度。加工設(shè)備的緩沖站均帶有光柵以及傳感器等一些檢測設(shè)備，能夠?qū)崟r讀取緩沖站中工件的類型和數(shù)量，學(xué)習(xí)器和決策器具有對系統(tǒng)狀態(tài)進行實時監(jiān)控、數(shù)據(jù)采集、信息處理及決策的能力。

圖1是由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)意圖；圖2是由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)的工作原理示意圖。

具體實施例方式 結(jié)合本發(fā)明技術(shù)的內(nèi)容進一步提供以下實施例本發(fā)明提供的一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)，請參見圖1，具體包括如下幾個步驟步驟l 對系統(tǒng)狀態(tài)進行聚類，得到系統(tǒng)的聚類狀態(tài) 1.1初始化聚類數(shù)x＝1，i＝1，置最大聚類數(shù)為K，系統(tǒng)仿真器產(chǎn)生的狀態(tài)數(shù)為κ。運行系統(tǒng)仿真器，學(xué)習(xí)器得到仿真器產(chǎn)生的初始狀態(tài)s1，對s1進行特征標準化處理，得到第x個聚類 1.2 i＝i+1，對制造狀態(tài)si(2≤i≤κ)進行特征標準化處理，采用歐幾里德(Euclidean)距離法計算狀態(tài)si到聚類Cl(1≤l≤x)的不相似性測度d(si，Cl)，得到與si不相似性測度最小的聚類Ch，即 1.3如果x＜K，且d(si，Ch)＞Ω，Ω為基本順序算法方案(BSAS)的不相似性閾值，則有x＝x+1，聚類Cx＝{si}，否則將狀態(tài)sj聚類到Ch中，即有Ch＝Ch∪si，并重新計算聚類狀態(tài)shc。返回步驟1.2，直至將所有κ個狀態(tài)聚類完畢，可得到x個聚類Cl和聚類狀態(tài)suc，l＝1，2，…，x，u＝l，2，…，x。
步驟2初始化所有動作-狀態(tài)對(suc，av)的評估函數(shù)，記為Q0(suc，av)，u＝1，2，…，x，v＝1，2，…，β。置循環(huán)次數(shù)n＝1。在制造系統(tǒng)運行的初始時刻t0，從動作集(調(diào)度規(guī)則集)中任意選擇動作(調(diào)度規(guī)則)at0對空閑加工設(shè)備緩沖站中的工件隊列進行調(diào)度。
步驟3學(xué)習(xí)器檢測制造系統(tǒng)當前時刻t的狀態(tài)st，計算不相似性測度d(st，Cl)，l＝1，2，…，x，得到則t時刻的聚類狀態(tài) 步驟4決策器根據(jù)ε-greedy法選擇動作(調(diào)度規(guī)則)av對加工設(shè)備緩沖站中的工件隊列進行調(diào)度，即以概率(1-ε)選擇具有最大評估函數(shù)值

的動作(調(diào)度規(guī)則)av，以概率ε隨機選取調(diào)度規(guī)則集A中其它動作，即at＝av，av∈A，A＝{a1，a2，…，aβ}。
步驟5判斷制造系統(tǒng)中所有工件是否都已加工完畢，若還有剩余未加工工件，轉(zhuǎn)步驟6；否則停止迭代，轉(zhuǎn)步驟10。
步驟6觀察t+1時刻制造系統(tǒng)的狀態(tài)St+1，計算不相似性測度得到當前系統(tǒng)聚類狀態(tài)St+1c，此時學(xué)習(xí)器會收到一個立即回報值rt+1利用下列B-Q學(xué)習(xí)方法的迭代模型
對評估函數(shù)Qn(suc，av)進行迭代調(diào)整。上式中γ(0≤γ＜1)是對延遲回報的折扣因子，rt+1為加工設(shè)備選擇某個調(diào)度規(guī)則后系統(tǒng)的立即回報值，φ(n)是循環(huán)次數(shù)n的函數(shù)，an為步長參數(shù)，可由下式得到式中Ca是步長參數(shù)的權(quán)系數(shù)變量，visitsn(stc，at)表示在n次循環(huán)中，狀態(tài)一動作對(stc，at)被訪問的總次數(shù)。B-Q學(xué)習(xí)方法的迭代模型公式中的ΔΘ1、ΔΘ2為式中Θ為引入的評估函數(shù)閾值。
步驟7用聚類狀態(tài)st+1c替換stc，n＝n+1，循環(huán)步驟4～步驟7，直到學(xué)習(xí)到所有動作-狀態(tài)對的最優(yōu)評估函數(shù)Q*(suc，av)。
步驟8用學(xué)習(xí)到的新調(diào)度知識更新調(diào)度知識庫里的已有調(diào)度知識，用于對加工設(shè)備緩沖站中的工件進行動態(tài)調(diào)度。
步驟9判斷制造系統(tǒng)中所有工件是否都已加工完畢，若還有剩余未加工工件，轉(zhuǎn)步驟8；否則轉(zhuǎn)步驟10。
步驟10程序結(jié)束。
用于實現(xiàn)上面所述技術(shù)的控制決策系統(tǒng)主要包括系統(tǒng)仿真器、學(xué)習(xí)器、決策器、調(diào)度規(guī)則庫、調(diào)度知識庫、搬運小車、加工設(shè)備及其緩沖站等，請參見圖2，其執(zhí)行動態(tài)調(diào)度的具體方案如下學(xué)習(xí)器運用B-Q學(xué)習(xí)方法進行迭代學(xué)習(xí)，得到系統(tǒng)的動態(tài)調(diào)度知識，進而對調(diào)度決策模塊中的調(diào)度知識庫里的調(diào)度知識進行更新。當制造系統(tǒng)中有處于空閑狀態(tài)的加工設(shè)備，且其緩沖站中有等待被加工的工件時，決策器將會檢測制造系統(tǒng)當前的狀態(tài)，根據(jù)從調(diào)度知識庫中讀取到的調(diào)度知識，選擇規(guī)則庫里的調(diào)度規(guī)則對該加工設(shè)備緩沖站中工件進行調(diào)度，從而保證生產(chǎn)過程的有效執(zhí)行。
本發(fā)明實施例中工件到達車間的時間間隔服從負指數(shù)分布，平均到達率為λ。工件j的工序總數(shù)kj為集合{1，2，…，6}中隨機選取的整數(shù)，每道工序加工時間服從均勻分布U(upl，up2)。工件被隨機分配到任意機器緩沖站中等待加工，且同一工件的相鄰兩道工序不能由同一個加工設(shè)備處理，共有M臺加工設(shè)備。
圖2調(diào)度規(guī)則庫中調(diào)度規(guī)則選用最早交貨期優(yōu)先EDD、最短加工時間優(yōu)先SPT和最小松弛時間優(yōu)先MST三個常用規(guī)則。第j個工件的交貨期dj設(shè)定如下式中，pjq表示第j工件的工序q所需加工時間，kj表示工件j的工序總數(shù)，rtj是工件到達車間時刻，交貨因子fj服從均勻分布，即fj～U(uf1，uf2)。由于本發(fā)明的目標函數(shù)是最小化平均拖期，而B-Q學(xué)習(xí)方法收斂于最大值，故將目標函數(shù)乘以負數(shù)轉(zhuǎn)換成最大值問題，于是對B-Q學(xué)習(xí)方法中的立即回報值r設(shè)定如下
本發(fā)明實施例主要參數(shù)如下表所示。
定義每加工完成2400個工件稱為一個episode，共對500個episode進行實驗，考慮到車間各種隨機因素的影響，依次對50個episode平均拖期的均值進行比較。根據(jù)本發(fā)明方法中實施步驟對實施例進行調(diào)度后，得到工件平均拖期的結(jié)果如下表所示，不難看出，本發(fā)明的調(diào)度技術(shù)大部分時間都優(yōu)于其它三個調(diào)度規(guī)則，對于500個episode而言，工件平均拖期比最好的EDD規(guī)則降低改進約11.86％，比最差的SPT規(guī)則降低改進了43.17％。這樣的改進程度顯示了本發(fā)明與現(xiàn)有技術(shù)方案相比所具有顯著的創(chuàng)造性與實用性。
本發(fā)明是國家高技術(shù)研究發(fā)展計劃現(xiàn)代制造集成技術(shù)專題資助項目(2007AA04Z112)，國家自然科學(xué)基金資助項目(60574062，50475075)和高等學(xué)校博士學(xué)科點專項科研基金資助項目(20040286012)的共同成果。
權(quán)利要求
1.一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)，其特征在于設(shè)置包括系統(tǒng)仿真器、學(xué)習(xí)器、決策器、調(diào)度規(guī)則庫、調(diào)度知識庫、搬運小車、加工設(shè)備及其緩沖站，緩沖站設(shè)有光柵、傳感器以及檢測設(shè)備，工件到達緩沖站并被加工時，學(xué)習(xí)器檢測當前系統(tǒng)狀態(tài)進行學(xué)習(xí)，獲取系統(tǒng)的動態(tài)調(diào)度知識，進而對調(diào)度知識庫里的知識進行更新，當某加工設(shè)備需要調(diào)度時，決策器將根據(jù)檢測到的系統(tǒng)狀態(tài)，讀取調(diào)度知識庫中對應(yīng)的調(diào)度知識，通過不斷地與加工系統(tǒng)交互學(xué)習(xí)而獲取新的調(diào)度知識，面向系統(tǒng)中加工設(shè)備及工件的狀態(tài)來動態(tài)選取調(diào)度規(guī)則，選擇最優(yōu)的調(diào)度規(guī)則對該加工設(shè)備進行調(diào)度。
2.根據(jù)權(quán)利要求1所述由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)，其特征在于通過建立調(diào)度優(yōu)化目標函數(shù)，選取系統(tǒng)的狀態(tài)特征，在定義系統(tǒng)的評估函數(shù)及聚類狀態(tài)基礎(chǔ)上，采用基本順序算法方案BSAS對系統(tǒng)仿真器產(chǎn)生的狀態(tài)進行聚類，得到系統(tǒng)的聚類狀態(tài)，通過B-Q學(xué)習(xí)方法的迭代學(xué)習(xí)模型對評估函數(shù)進行迭代，根據(jù)得到的評估函數(shù)值選取最優(yōu)的調(diào)度規(guī)則對緩沖站中的工件進行實時調(diào)度。
3.根據(jù)權(quán)利要求2所述由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)，其特征在于，按如下步驟對加工設(shè)備緩沖站中的工件隊列進行動態(tài)調(diào)度
(1)按下列公式分別對平均交貨因子f、系統(tǒng)利用率μ、相對機器負載ω和平均松弛時間ζ賦值，并把這些賦值保存在計算機中
f＝∑fj/Nd
μ＝Nb/Nm
ζ＝(∑ζj)/Nd
(2)學(xué)習(xí)器通過基本順序算法方案BSAS得到系統(tǒng)的聚類狀態(tài)shc，賦初始值給評估函數(shù)Q0(snc，av)，置循環(huán)次數(shù)n＝1，并存儲到計算機中，決策器任意選擇調(diào)度規(guī)則庫中的調(diào)度規(guī)則對空閑加工設(shè)備緩沖站中的工件隊列進行調(diào)度；
(3)學(xué)習(xí)器檢測系統(tǒng)當前時刻t的狀態(tài)st，通過計算不相似性測度d(st，Cl)并按照計算，獲得系統(tǒng)聚類狀態(tài)Stc；
(4)決策器根據(jù)ε-greedy法選擇調(diào)度規(guī)則av對加工設(shè)備緩沖站中的工件隊列進行調(diào)度；
(5)決策器檢測并判斷工件是否已經(jīng)加工完畢，若還有待加工工件，則學(xué)習(xí)器觀察t+1時刻制造系統(tǒng)的狀態(tài)st+1，計算不相似性測度得到當前系統(tǒng)聚類狀態(tài)st+1c，此時學(xué)習(xí)器會接受到一個立即回報值rt+1，調(diào)用B-Q學(xué)習(xí)迭代模型公式計算評估函數(shù)Qn(stc，at)值并存儲在計算機中，學(xué)習(xí)器用學(xué)習(xí)到的新調(diào)度知識對調(diào)度知識庫里面的知識進行更新；若工件已經(jīng)加工完畢，則轉(zhuǎn)入步驟(10)；
(6)學(xué)習(xí)器用聚類狀態(tài)st+1c替換stc，并更新循環(huán)次數(shù)n＝n+1；
(7)學(xué)習(xí)器判斷所有評估函數(shù)是否已經(jīng)是最優(yōu)評估函數(shù)Q*(Snc，av)，若還有評估函數(shù)未達到最優(yōu)，則轉(zhuǎn)入步驟(4)；
(8)調(diào)度決策模塊檢測系統(tǒng)當前狀態(tài)，決策器調(diào)用知識庫中的對應(yīng)調(diào)度知識對加工設(shè)備緩沖站中的工件進行調(diào)度；
(9)判斷制造系統(tǒng)中所有工件是否都已加工完畢，若還有剩余未加工工件，轉(zhuǎn)步驟(8)；否則轉(zhuǎn)步驟(10)；
(10)結(jié)束整個生產(chǎn)調(diào)度過程。
4.根據(jù)權(quán)利要求2或3所述由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)，其特征在于為有效地減小學(xué)習(xí)過程中Q(stc，at)的波動，有利于提高學(xué)習(xí)效果。所述的學(xué)習(xí)器在B-Q學(xué)習(xí)過程中引入了評估函數(shù)閾值。
全文摘要
一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)，其特征在于設(shè)置包括系統(tǒng)仿真器、學(xué)習(xí)器、決策器、調(diào)度規(guī)則庫、調(diào)度知識庫、搬運小車、加工設(shè)備及其緩沖站，緩沖站設(shè)有光柵、傳感器以及檢測設(shè)備，工件到達緩沖站并被加工時，學(xué)習(xí)器檢測當前系統(tǒng)狀態(tài)進行學(xué)習(xí)，獲取系統(tǒng)的動態(tài)調(diào)度知識，進而對調(diào)度知識庫里的知識進行更新，當某加工設(shè)備需要調(diào)度時，決策器將根據(jù)檢測到的系統(tǒng)狀態(tài)，讀取調(diào)度知識庫中對應(yīng)的調(diào)度知識，通過不斷地與加工系統(tǒng)交互學(xué)習(xí)而獲取新的調(diào)度知識，面向系統(tǒng)中加工設(shè)備及工件的狀態(tài)來動態(tài)選取調(diào)度規(guī)則，選擇最優(yōu)的調(diào)度規(guī)則對該加工設(shè)備進行調(diào)度。本發(fā)明能夠適應(yīng)不穩(wěn)定的、時變的車間動態(tài)生產(chǎn)環(huán)境，可以得到比現(xiàn)有的規(guī)則調(diào)度技術(shù)更好的工件排序，有效減少工序等待時間，提高企業(yè)產(chǎn)品交貨期滿足率。
文檔編號G05B19/418GK101216710SQ20071019201
公開日2008年7月9日申請日期2007年12月28日優(yōu)先權(quán)日2007年12月28日
發(fā)明者嚴洪森, 楊宏兵申請人:東南大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：嚴洪森;楊宏兵
技術(shù)所有人：東南大學(xué)
我是此專利的發(fā)明人

上一篇：自動化藥房的控制方法
上一篇：蠶繭烘干分析控制系統(tǒng)及其工作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、王老師：電子信息處理、先進檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

計算機自適應(yīng)測驗相關(guān)技術(shù)

計算機自適應(yīng)測試相關(guān)技術(shù)

iframe動態(tài)自適應(yīng)高度相關(guān)技術(shù)

自適應(yīng)動態(tài)規(guī)劃相關(guān)技術(shù)

dcc自適應(yīng)動態(tài)懸架相關(guān)技術(shù)

自適應(yīng)動態(tài)擴頻相關(guān)技術(shù)

自適應(yīng)動態(tài)系統(tǒng)相關(guān)技術(shù)

路虎自適應(yīng)動態(tài)系統(tǒng)相關(guān)技術(shù)

自適應(yīng)動態(tài)規(guī)劃matlab相關(guān)技術(shù)