專利名稱:一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機集成制造技術(shù)和自動化技術(shù)領(lǐng)域,具體地是一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)。
背景技術(shù):
由計算機實現(xiàn)的生產(chǎn)調(diào)度是通過計算機對一個可用的加工設(shè)備集在時間上進行加工零件集的分配,以滿足一個性能指標集。具體地說,該調(diào)度的任務(wù)是在車間有限的資源約束下,確定工件在相關(guān)設(shè)備上的加工順序和加工時間,以保證生產(chǎn)任務(wù)的執(zhí)行時間或成本目標最優(yōu)。按照工件到達車間的特點、車間環(huán)境變化情況等不同因素,可以把由計算機實現(xiàn)的生產(chǎn)調(diào)度系統(tǒng)分成靜態(tài)調(diào)度系統(tǒng)和動態(tài)調(diào)度系統(tǒng)兩大類。
實際生產(chǎn)中常常為了簡化,調(diào)度模型通常只考慮靜態(tài)問題,即問題的所有環(huán)境、任務(wù)在調(diào)度中都是已知的,所有安排加工的工件均處于待加工狀態(tài),而一次調(diào)度后,所有作業(yè)的加工就被確定了,在以后的加工過程中就不再改變。但在實際的生產(chǎn)過程中,不可避免地存在著大量的具有不確定性和隨機性的動態(tài)事件,具體地說,這些動態(tài)事件可以分為以下三類 1)與工件相關(guān)的事件,包括工件隨機到達,工件加工時間不確定,交貨期變化,定單變化,定單動態(tài)優(yōu)先級,工序延誤以及工件質(zhì)量不穩(wěn)定等。
2)與機器相關(guān)的事件,包括機器故障/修復(fù),負載有限,機器阻塞/死鎖等。
3)其它事件,包括產(chǎn)品需求量變化、原材料有缺陷,原材料拖期,以及與操作人員有關(guān)的操作失誤等。
諸如此類動態(tài)事件發(fā)生常常導(dǎo)致實際的調(diào)度環(huán)境經(jīng)常呈現(xiàn)動態(tài)的、不穩(wěn)定的、時變的特性,然而靜態(tài)調(diào)度模型嚴重依賴于已知的調(diào)度環(huán)境和任務(wù),因此當靜態(tài)調(diào)度模型面對這些實際生產(chǎn)中的不確定擾動時,所得到的調(diào)度結(jié)果與實際生產(chǎn)中期望值存在著較大偏差,調(diào)度效果往往不盡如人意。由此可見,對于加工任務(wù)和車間環(huán)境具有時變特點,或者制造環(huán)境具有一些不可預(yù)測擾動時,動態(tài)調(diào)度就顯得尤為重要,也更能符合實際生產(chǎn)的需求。
經(jīng)過對現(xiàn)有技術(shù)的文獻檢索發(fā)現(xiàn),目前,解決動態(tài)調(diào)度問題的主要方法有最優(yōu)化方法、系統(tǒng)仿真方法、啟發(fā)式方法、人工智能方法及計算智能方法等。當加工設(shè)備數(shù)M≥3的N個工件的調(diào)度問題就是NP困難(NP-hard)的,至今尚未找到多項式復(fù)雜程度的方法解決此問題,且隨著調(diào)度問題規(guī)模的增大,動態(tài)調(diào)度的計算復(fù)雜性也呈指數(shù)上升。因此大多數(shù)方法都很難滿足動態(tài)調(diào)度的實時性要求,而調(diào)度規(guī)則方法作為啟發(fā)式方法的一種,具有對NP特性不敏感且實時性好等優(yōu)點,是當前實際生產(chǎn)中應(yīng)用最為廣泛的一種方法。
雖然調(diào)度規(guī)則方法具有簡單易用的特點,但其一般較難獲得調(diào)度問題的最優(yōu)解,有時滿意解也不能得到,這是因為調(diào)度規(guī)則性能受到制造系統(tǒng)狀態(tài)的影響,當制造系統(tǒng)狀態(tài)發(fā)生變化時,原來效果較好的調(diào)度規(guī)則可能會變得平庸,導(dǎo)致單個調(diào)度規(guī)則缺乏全局性。
因此,當面對系統(tǒng)參數(shù)頻繁變動的動態(tài)調(diào)度時,調(diào)度規(guī)則方法需要結(jié)合其它的方法,根據(jù)系統(tǒng)的變化情況來動態(tài)地選取合適的調(diào)度規(guī)則來進行調(diào)度,以適應(yīng)車間環(huán)境的不斷變化。Arzi等人在《IIETransactions》(31,217-230,1999)上撰文“Neural network-based adaptive production control system for aflexible manufacturing cell under a random environment(面向隨機環(huán)境下柔性制造單元的基于神經(jīng)網(wǎng)絡(luò)自適應(yīng)生產(chǎn)控制系統(tǒng))”,該文利用神經(jīng)網(wǎng)絡(luò)構(gòu)建生產(chǎn)控制系統(tǒng),選取合適的調(diào)度規(guī)則進行調(diào)度。但該方法訓(xùn)練時間長,對結(jié)果的解釋能力較差,且隨著問題規(guī)模的增大,網(wǎng)絡(luò)結(jié)構(gòu)會變得更加復(fù)雜,也存在著訓(xùn)練樣本獲取困難的缺點。
發(fā)明內(nèi)容
本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,提出一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng),以適應(yīng)調(diào)度環(huán)境和任務(wù)存在不可預(yù)測擾動的情況,從而可以得到比現(xiàn)有的動態(tài)調(diào)度方法更為有效的優(yōu)化技術(shù),有效地減少工件等待時間,提高企業(yè)產(chǎn)品交貨期滿足率。
本發(fā)明思想是由計算機按照基本順序算法方案(BSAS)對系統(tǒng)狀態(tài)進行合理聚類而得到聚類狀態(tài),引入調(diào)度目標函數(shù)并提出一種調(diào)度優(yōu)化方法,在現(xiàn)有調(diào)度規(guī)則的基礎(chǔ)上,通過學(xué)習(xí)器與制造系統(tǒng)的不斷交互而獲取有效的調(diào)度知識,用于優(yōu)化生產(chǎn)過程。通過以下技術(shù)方案實現(xiàn)的 一種由計算機實現(xiàn)的白適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng),其特征在于設(shè)置包括系統(tǒng)仿真器、學(xué)習(xí)器、決策器、調(diào)度規(guī)則庫、調(diào)度知識庫、搬運小車、加工設(shè)備及其緩沖站,緩沖站設(shè)有光柵、傳感器以及檢測設(shè)備,工件到達緩沖站并被加工時,學(xué)習(xí)器檢測當前系統(tǒng)狀態(tài)進行學(xué)習(xí),獲取系統(tǒng)的動態(tài)調(diào)度知識,進而對調(diào)度知識庫里的知識進行更新,當某加工設(shè)備需要調(diào)度時,決策器將根據(jù)檢測到的系統(tǒng)狀態(tài),讀取調(diào)度知識庫中對應(yīng)的調(diào)度知識,通過不斷地與加工系統(tǒng)交互學(xué)習(xí)而獲取新的調(diào)度知識,面向系統(tǒng)中加工設(shè)備及工件的狀態(tài)來動態(tài)選取調(diào)度規(guī)則,選擇最優(yōu)的調(diào)度規(guī)則對該加工設(shè)備進行調(diào)度。
具體方法是通過建立調(diào)度優(yōu)化目標函數(shù),選取系統(tǒng)的狀態(tài)特征,在定義系統(tǒng)的訐估函數(shù)Q(suc,av)及聚類狀態(tài)suc基礎(chǔ)上,采用基本順序算法方案BSAS對系統(tǒng)仿真器產(chǎn)生的狀態(tài)進行聚類,得到系統(tǒng)的聚類狀態(tài),通過B-Q學(xué)習(xí)方法的迭代學(xué)習(xí)模型對評估函數(shù)進行迭代,根據(jù)得到的評估函數(shù)值選取最優(yōu)的調(diào)度規(guī)則對緩沖站中的工件進行實時調(diào)度。
系統(tǒng)狀態(tài)特征的選取,具體如下 定義加工系統(tǒng)的相對機器負載ω,然后選取調(diào)度規(guī)則性能影響較大的四個狀態(tài)特征平均交貨因子f、系統(tǒng)利用率μ、相對機器負載ω和平均松弛時間ζ,其中,f=∑fi/Nd,fi是到達系統(tǒng)第j個工件的交貨因子;μ是加工設(shè)備中當前非空閑加工設(shè)備數(shù)和總的加工設(shè)備數(shù)之比;若ζj,表示第j個工件的松弛時間,有其中t是當前時刻,pjq表示第j個工件的工序q所需加工時間(若工序q正在被加工,則pjq為該工序的剩余加工時間),kd是工件正在被加工或等待加工的工序數(shù),kj表示工件j的工序總數(shù),則有ζ=(∑ζj)/Nd。因此系統(tǒng)狀態(tài)si可用四元組表示,即si=(ω,f,μ,ζ)。
系統(tǒng)聚類狀態(tài)的得到,具體如下 采用比例因子法對狀態(tài)特征值進行標準化預(yù)處理,然后基于基本順序算法方案(BSAS)對系統(tǒng)狀態(tài)進行聚類,聚類過程中采用歐幾里德(Euclidean)距離法計算狀態(tài)si到聚類Cl的不相似性測度d(si,Cl),進而得到聚類狀態(tài)suc。
評估函數(shù)Q(suc,av)及聚類狀態(tài)suc的確定,具體如下 系統(tǒng)從t時刻的聚類狀態(tài)stc開始,根據(jù)某個控制策略執(zhí)行動作(調(diào)度規(guī)則)at,則此后也遵循該策略執(zhí)行所得的折算累積回報期望值,稱之為狀態(tài)一動作對(stc,at)的評估函數(shù),記為Q(stc,at)。通過BSAS對系統(tǒng)狀態(tài)進行聚類并得到x個聚類,則把第u個聚類中所有系統(tǒng)狀態(tài)的中心稱為聚類狀態(tài)suc,故共有x個聚類狀態(tài),記為sc=suc(u=1,2,…,x)。
B-Q學(xué)習(xí)方法的迭代學(xué)習(xí)模型,具體如下 確定系統(tǒng)最優(yōu)評估函數(shù)Q*(suc,av),即系統(tǒng)最大的折算累積回報期望值。B-Q學(xué)習(xí)方法的迭代學(xué)習(xí)模型為
式中γ(0≤γ<1)是對延遲回報的折扣因子,rt+1為加工設(shè)備選擇某個調(diào)度規(guī)則后系統(tǒng)的立即回報值,立即回報值的設(shè)定是與調(diào)度目標函數(shù)相關(guān)聯(lián)的,φ(n)是循環(huán)次數(shù)n的函數(shù),αn為步長參數(shù),其中 式中的Θ為引入的評估函數(shù)閾值。當Qn(stc,at)收斂到最優(yōu)評估函數(shù)Q*(suc,av)時停止迭代。
按如下步驟對加工設(shè)備緩沖站中的工件隊列進行動態(tài)調(diào)度 (1)按下列公式分別對平均交貨因子f、系統(tǒng)利用率μ、相對機器負載ω和平均松弛時間ζ賦值,并把這些賦值保存在計算機中 f=∑fj/Nd μ=Nb/Nm
ζ=(∑ζj)/Nd (2)學(xué)習(xí)器通過基本順序算法方案BSAS得到系統(tǒng)的聚類狀態(tài)shc,賦初始值給評估函數(shù)Q0(suc,av),置循環(huán)次數(shù)n=1,并存儲到計算機中,決策器任意選擇調(diào)度規(guī)則庫中的調(diào)度規(guī)則對空閑加工設(shè)備緩沖站中的工件隊列進行調(diào)度; (3)學(xué)習(xí)器檢測系統(tǒng)當前時刻t的狀態(tài)st,通過計算不相似性測度d(st,Cl)并按照計算,獲得系統(tǒng)聚類狀態(tài)stc; (4)決策器根據(jù)ε-greedy法選擇調(diào)度規(guī)則av對加工設(shè)備緩沖站中的工件隊列進行調(diào)度; (5)決策器檢測并判斷工件是否已經(jīng)加工完畢,若還有待加工工件,則學(xué)習(xí)器觀察t+1時刻制造系統(tǒng)的狀態(tài)st+1,計算不相似性測度得到當前系統(tǒng)聚類狀態(tài)st+1c,此時學(xué)習(xí)器會接受到一個立即回報值rt+1’調(diào)用B-Q學(xué)習(xí)迭代模型公式計算評估函數(shù)Qn(stc,at)值并存儲在計算機中,學(xué)習(xí)器用學(xué)習(xí)到的新調(diào)度知識對調(diào)度知識庫里面的知識進行更新;若工件已經(jīng)加工完畢,則轉(zhuǎn)入步驟(10); (6)學(xué)習(xí)器用聚類狀態(tài)st+1c替換stc,并更新循環(huán)次數(shù)n=n+1; (7)學(xué)習(xí)器判斷所有評估函數(shù)是否已經(jīng)是最優(yōu)評估函數(shù)Q*(suc,av),若還有評估函數(shù)未達到最優(yōu),則轉(zhuǎn)入步驟(4); (8)調(diào)度決策模塊檢測系統(tǒng)當前狀態(tài),決策器調(diào)用知識庫中的對應(yīng)調(diào)度知識對加工設(shè)備緩沖站中的工件進行調(diào)度; (9)判斷制造系統(tǒng)中所有工件是否都已加工完畢,若還有剩余未加工工件,轉(zhuǎn)步驟(8);否則轉(zhuǎn)步驟(10); (10)結(jié)束整個生產(chǎn)調(diào)度過程。
為有效地減小學(xué)習(xí)過程中Q(stc,at)的波動,有利于提高學(xué)習(xí)效果。所述的學(xué)習(xí)器在B-Q學(xué)習(xí)過程中引入了評估函數(shù)閾值。
在給出一種由計算機實現(xiàn)的調(diào)度規(guī)則自適應(yīng)選擇及其生產(chǎn)控制之前,還需完成如下幾個步驟步驟1如何最小化產(chǎn)品拖期是制造企業(yè)非常關(guān)心的問題,為此建立最小化平均拖期的目標函數(shù)為
式中,是工件拖期完工懲罰因子,dj為第j個工件的理想交貨期,工件的實際完工時間為Cj, N是總的加工工件數(shù),工件集合表示為J={J1,J2,…,JN},每個工件都由多工序組成。
步驟2基于將要優(yōu)化的調(diào)度目標函數(shù)Obj,設(shè)定系統(tǒng)的立即回報值r。
步驟3選取對調(diào)度規(guī)則性能影響較大的四個狀態(tài)特征平均交貨因子(average flow allowance factor)f、系統(tǒng)利用率(system utilization)μ、相對機器負載(relative machine workloads)ω和平均松弛時間(average slack time)ζ,對系統(tǒng)狀態(tài)進行描述,因此狀態(tài)si是由四元組組成的,即si=(ω,f,μ,ζ)。其中,
ωmax是機器最大負載,
為平均機器負載;f=∑fj/Nd,fj是到達系統(tǒng)第j個工件的交貨因子;μ是加工設(shè)備中當前非空閑加工設(shè)備數(shù)和總的加工設(shè)備數(shù)之比;若ζj表示第j個工件的松弛時間,有其中t是當前時刻,pjq表示第j個工件的工序q所需加工時間(若工序q正在被加工,則pjq為該工序的剩余加工時間),kd是工件正在被加工或等待加工的工序數(shù),kj表示工件j的工序總數(shù),則有ζ=(∑ζj)/Nd。
本發(fā)明的優(yōu)點及有益效果本發(fā)明解決了背景技術(shù)中存在的問題。該調(diào)度技術(shù)是根據(jù)制造系統(tǒng)的瞬時狀態(tài),動態(tài)地選取最有效的調(diào)度規(guī)則對緩沖站中工件進行調(diào)度,以減少工件拖期現(xiàn)象的發(fā)生。嵌入到學(xué)習(xí)器中的B-Q學(xué)習(xí)方法模塊具有很強的自學(xué)習(xí)能力,對那些因加工環(huán)境的變化或者某些不確定因素的發(fā)生而導(dǎo)致系統(tǒng)狀態(tài)變化的動態(tài)調(diào)度,本控制決策系統(tǒng)將會通過學(xué)習(xí)來獲取新的調(diào)度知識,以適應(yīng)這些調(diào)度環(huán)境的變化。在實際生產(chǎn)中,動態(tài)調(diào)度的先驗知識和精確的訓(xùn)練樣本一般是很難得到的,該控制決策系統(tǒng)在學(xué)習(xí)過程中,是不需要任何先驗知識或者精確的訓(xùn)練樣本,這就使得本發(fā)明具有更廣泛的適用性。本控制決策系統(tǒng)中學(xué)習(xí)器的學(xué)習(xí)以及對調(diào)度知識庫中的知識更新完全可以通過離線學(xué)習(xí)來完成,這對保證實際生產(chǎn)中的調(diào)度實時性要求是很有意義的。本發(fā)明可以得到比現(xiàn)有的規(guī)則調(diào)度更好的調(diào)度效果,可使所有加工工件的平均拖期時間減少10%-50%,可用于多種制造業(yè)領(lǐng)域的優(yōu)化調(diào)度。加工設(shè)備的緩沖站均帶有光柵以及傳感器等一些檢測設(shè)備,能夠?qū)崟r讀取緩沖站中工件的類型和數(shù)量,學(xué)習(xí)器和決策器具有對系統(tǒng)狀態(tài)進行實時監(jiān)控、數(shù)據(jù)采集、信息處理及決策的能力。
圖1是由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)意圖; 圖2是由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng)的工作原理示意圖。
具體實施例方式 結(jié)合本發(fā)明技術(shù)的內(nèi)容進一步提供以下實施例 本發(fā)明提供的一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng),請參見圖1,具體包括如下幾個步驟 步驟l 對系統(tǒng)狀態(tài)進行聚類,得到系統(tǒng)的聚類狀態(tài) 1.1初始化聚類數(shù)x=1,i=1,置最大聚類數(shù)為K,系統(tǒng)仿真器產(chǎn)生的狀態(tài)數(shù)為κ。運行系統(tǒng)仿真器,學(xué)習(xí)器得到仿真器產(chǎn)生的初始狀態(tài)s1,對s1進行特征標準化處理,得到第x個聚類 1.2 i=i+1,對制造狀態(tài)si(2≤i≤κ)進行特征標準化處理,采用歐幾里德(Euclidean)距離法計算狀態(tài)si到聚類Cl(1≤l≤x)的不相似性測度d(si,Cl),得到與si不相似性測度最小的聚類Ch,即 1.3如果x<K,且d(si,Ch)>Ω,Ω為基本順序算法方案(BSAS)的不相似性閾值,則有x=x+1,聚類Cx={si},否則將狀態(tài)sj聚類到Ch中,即有Ch=Ch∪si,并重新計算聚類狀態(tài)shc。返回步驟1.2,直至將所有κ個狀態(tài)聚類完畢,可得到x個聚類Cl和聚類狀態(tài)suc,l=1,2,…,x,u=l,2,…,x。
步驟2初始化所有動作-狀態(tài)對(suc,av)的評估函數(shù),記為Q0(suc,av),u=1,2,…,x,v=1,2,…,β。置循環(huán)次數(shù)n=1。在制造系統(tǒng)運行的初始時刻t0,從動作集(調(diào)度規(guī)則集)中任意選擇動作(調(diào)度規(guī)則)at0對空閑加工設(shè)備緩沖站中的工件隊列進行調(diào)度。
步驟3學(xué)習(xí)器檢測制造系統(tǒng)當前時刻t的狀態(tài)st,計算不相似性測度d(st,Cl),l=1,2,…,x,得到則t時刻的聚類狀態(tài) 步驟4決策器根據(jù)ε-greedy法選擇動作(調(diào)度規(guī)則)av對加工設(shè)備緩沖站中的工件隊列進行調(diào)度,即以概率(1-ε)選擇具有最大評估函數(shù)值
的動作(調(diào)度規(guī)則)av,以概率ε隨機選取調(diào)度規(guī)則集A中其它動作,即at=av,av∈A,A={a1,a2,…,aβ}。
步驟5判斷制造系統(tǒng)中所有工件是否都已加工完畢,若還有剩余未加工工件,轉(zhuǎn)步驟6;否則停止迭代,轉(zhuǎn)步驟10。
步驟6觀察t+1時刻制造系統(tǒng)的狀態(tài)St+1,計算不相似性測度得到當前系統(tǒng)聚類狀態(tài)St+1c,此時學(xué)習(xí)器會收到一個立即回報值rt+1利用下列B-Q學(xué)習(xí)方法的迭代模型
對評估函數(shù)Qn(suc,av)進行迭代調(diào)整。上式中γ(0≤γ<1)是對延遲回報的折扣因子,rt+1為加工設(shè)備選擇某個調(diào)度規(guī)則后系統(tǒng)的立即回報值,φ(n)是循環(huán)次數(shù)n的函數(shù),an為步長參數(shù),可由下式得到 式中Ca是步長參數(shù)的權(quán)系數(shù)變量,visitsn(stc,at)表示在n次循環(huán)中,狀態(tài)一動作對(stc,at)被訪問的總次數(shù)。B-Q學(xué)習(xí)方法的迭代模型公式中的ΔΘ1、ΔΘ2為 式中Θ為引入的評估函數(shù)閾值。
步驟7用聚類狀態(tài)st+1c替換stc,n=n+1,循環(huán)步驟4~步驟7,直到學(xué)習(xí)到所有動作-狀態(tài)對的最優(yōu)評估函數(shù)Q*(suc,av)。
步驟8用學(xué)習(xí)到的新調(diào)度知識更新調(diào)度知識庫里的已有調(diào)度知識,用于對加工設(shè)備緩沖站中的工件進行動態(tài)調(diào)度。
步驟9判斷制造系統(tǒng)中所有工件是否都已加工完畢,若還有剩余未加工工件,轉(zhuǎn)步驟8;否則轉(zhuǎn)步驟10。
步驟10程序結(jié)束。
用于實現(xiàn)上面所述技術(shù)的控制決策系統(tǒng)主要包括系統(tǒng)仿真器、學(xué)習(xí)器、決策器、調(diào)度規(guī)則庫、調(diào)度知識庫、搬運小車、加工設(shè)備及其緩沖站等,請參見圖2,其執(zhí)行動態(tài)調(diào)度的具體方案如下 學(xué)習(xí)器運用B-Q學(xué)習(xí)方法進行迭代學(xué)習(xí),得到系統(tǒng)的動態(tài)調(diào)度知識,進而對調(diào)度決策模塊中的調(diào)度知識庫里的調(diào)度知識進行更新。當制造系統(tǒng)中有處于空閑狀態(tài)的加工設(shè)備,且其緩沖站中有等待被加工的工件時,決策器將會檢測制造系統(tǒng)當前的狀態(tài),根據(jù)從調(diào)度知識庫中讀取到的調(diào)度知識,選擇規(guī)則庫里的調(diào)度規(guī)則對該加工設(shè)備緩沖站中工件進行調(diào)度,從而保證生產(chǎn)過程的有效執(zhí)行。
本發(fā)明實施例中工件到達車間的時間間隔服從負指數(shù)分布,平均到達率為λ。工件j的工序總數(shù)kj為集合{1,2,…,6}中隨機選取的整數(shù),每道工序加工時間服從均勻分布U(upl,up2)。工件被隨機分配到任意機器緩沖站中等待加工,且同一工件的相鄰兩道工序不能由同一個加工設(shè)備處理,共有M臺加工設(shè)備。
圖2調(diào)度規(guī)則庫中調(diào)度規(guī)則選用最早交貨期優(yōu)先EDD、最短加工時間優(yōu)先SPT和最小松弛時間優(yōu)先MST三個常用規(guī)則。第j個工件的交貨期dj設(shè)定如下 式中,pjq表示第j工件的工序q所需加工時間,kj表示工件j的工序總數(shù),rtj是工件到達車間時刻,交貨因子fj服從均勻分布,即fj~U(uf1,uf2)。由于本發(fā)明的目標函數(shù)是最小化平均拖期,而B-Q學(xué)習(xí)方法收斂于最大值,故將目標函數(shù)乘以負數(shù)轉(zhuǎn)換成最大值問題,于是對B-Q學(xué)習(xí)方法中的立即回報值r設(shè)定如下
本發(fā)明實施例主要參數(shù)如下表所示。
定義每加工完成2400個工件稱為一個episode,共對500個episode進行實驗,考慮到車間各種隨機因素的影響,依次對50個episode平均拖期的均值進行比較。根據(jù)本發(fā)明方法中實施步驟對實施例進行調(diào)度后,得到工件平均拖期的結(jié)果如下表所示,不難看出,本發(fā)明的調(diào)度技術(shù)大部分時間都優(yōu)于其它三個調(diào)度規(guī)則,對于500個episode而言,工件平均拖期比最好的EDD規(guī)則降低改進約11.86%,比最差的SPT規(guī)則降低改進了43.17%。這樣的改進程度顯示了本發(fā)明與現(xiàn)有技術(shù)方案相比所具有顯著的創(chuàng)造性與實用性。
本發(fā)明是國家高技術(shù)研究發(fā)展計劃現(xiàn)代制造集成技術(shù)專題資助項目(2007AA04Z112),國家自然科學(xué)基金資助項目(60574062,50475075)和高等學(xué)校博士學(xué)科點專項科研基金資助項目(20040286012)的共同成果。
權(quán)利要求
1.一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng),其特征在于設(shè)置包括系統(tǒng)仿真器、學(xué)習(xí)器、決策器、調(diào)度規(guī)則庫、調(diào)度知識庫、搬運小車、加工設(shè)備及其緩沖站,緩沖站設(shè)有光柵、傳感器以及檢測設(shè)備,工件到達緩沖站并被加工時,學(xué)習(xí)器檢測當前系統(tǒng)狀態(tài)進行學(xué)習(xí),獲取系統(tǒng)的動態(tài)調(diào)度知識,進而對調(diào)度知識庫里的知識進行更新,當某加工設(shè)備需要調(diào)度時,決策器將根據(jù)檢測到的系統(tǒng)狀態(tài),讀取調(diào)度知識庫中對應(yīng)的調(diào)度知識,通過不斷地與加工系統(tǒng)交互學(xué)習(xí)而獲取新的調(diào)度知識,面向系統(tǒng)中加工設(shè)備及工件的狀態(tài)來動態(tài)選取調(diào)度規(guī)則,選擇最優(yōu)的調(diào)度規(guī)則對該加工設(shè)備進行調(diào)度。
2.根據(jù)權(quán)利要求1所述由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng),其特征在于通過建立調(diào)度優(yōu)化目標函數(shù),選取系統(tǒng)的狀態(tài)特征,在定義系統(tǒng)的評估函數(shù)及聚類狀態(tài)基礎(chǔ)上,采用基本順序算法方案BSAS對系統(tǒng)仿真器產(chǎn)生的狀態(tài)進行聚類,得到系統(tǒng)的聚類狀態(tài),通過B-Q學(xué)習(xí)方法的迭代學(xué)習(xí)模型對評估函數(shù)進行迭代,根據(jù)得到的評估函數(shù)值選取最優(yōu)的調(diào)度規(guī)則對緩沖站中的工件進行實時調(diào)度。
3.根據(jù)權(quán)利要求2所述由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng),其特征在于,按如下步驟對加工設(shè)備緩沖站中的工件隊列進行動態(tài)調(diào)度
(1)按下列公式分別對平均交貨因子f、系統(tǒng)利用率μ、相對機器負載ω和平均松弛時間ζ賦值,并把這些賦值保存在計算機中
f=∑fj/Nd
μ=Nb/Nm
ζ=(∑ζj)/Nd
(2)學(xué)習(xí)器通過基本順序算法方案BSAS得到系統(tǒng)的聚類狀態(tài)shc,賦初始值給評估函數(shù)Q0(snc,av),置循環(huán)次數(shù)n=1,并存儲到計算機中,決策器任意選擇調(diào)度規(guī)則庫中的調(diào)度規(guī)則對空閑加工設(shè)備緩沖站中的工件隊列進行調(diào)度;
(3)學(xué)習(xí)器檢測系統(tǒng)當前時刻t的狀態(tài)st,通過計算不相似性測度d(st,Cl)并按照計算,獲得系統(tǒng)聚類狀態(tài)Stc;
(4)決策器根據(jù)ε-greedy法選擇調(diào)度規(guī)則av對加工設(shè)備緩沖站中的工件隊列進行調(diào)度;
(5)決策器檢測并判斷工件是否已經(jīng)加工完畢,若還有待加工工件,則學(xué)習(xí)器觀察t+1時刻制造系統(tǒng)的狀態(tài)st+1,計算不相似性測度得到當前系統(tǒng)聚類狀態(tài)st+1c,此時學(xué)習(xí)器會接受到一個立即回報值rt+1,調(diào)用B-Q學(xué)習(xí)迭代模型公式計算評估函數(shù)Qn(stc,at)值并存儲在計算機中,學(xué)習(xí)器用學(xué)習(xí)到的新調(diào)度知識對調(diào)度知識庫里面的知識進行更新;若工件已經(jīng)加工完畢,則轉(zhuǎn)入步驟(10);
(6)學(xué)習(xí)器用聚類狀態(tài)st+1c替換stc,并更新循環(huán)次數(shù)n=n+1;
(7)學(xué)習(xí)器判斷所有評估函數(shù)是否已經(jīng)是最優(yōu)評估函數(shù)Q*(Snc,av),若還有評估函數(shù)未達到最優(yōu),則轉(zhuǎn)入步驟(4);
(8)調(diào)度決策模塊檢測系統(tǒng)當前狀態(tài),決策器調(diào)用知識庫中的對應(yīng)調(diào)度知識對加工設(shè)備緩沖站中的工件進行調(diào)度;
(9)判斷制造系統(tǒng)中所有工件是否都已加工完畢,若還有剩余未加工工件,轉(zhuǎn)步驟(8);否則轉(zhuǎn)步驟(10);
(10)結(jié)束整個生產(chǎn)調(diào)度過程。
4.根據(jù)權(quán)利要求2或3所述由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng),其特征在于為有效地減小學(xué)習(xí)過程中Q(stc,at)的波動,有利于提高學(xué)習(xí)效果。所述的學(xué)習(xí)器在B-Q學(xué)習(xí)過程中引入了評估函數(shù)閾值。
全文摘要
一種由計算機實現(xiàn)的自適應(yīng)選擇動態(tài)生產(chǎn)調(diào)度控制系統(tǒng),其特征在于設(shè)置包括系統(tǒng)仿真器、學(xué)習(xí)器、決策器、調(diào)度規(guī)則庫、調(diào)度知識庫、搬運小車、加工設(shè)備及其緩沖站,緩沖站設(shè)有光柵、傳感器以及檢測設(shè)備,工件到達緩沖站并被加工時,學(xué)習(xí)器檢測當前系統(tǒng)狀態(tài)進行學(xué)習(xí),獲取系統(tǒng)的動態(tài)調(diào)度知識,進而對調(diào)度知識庫里的知識進行更新,當某加工設(shè)備需要調(diào)度時,決策器將根據(jù)檢測到的系統(tǒng)狀態(tài),讀取調(diào)度知識庫中對應(yīng)的調(diào)度知識,通過不斷地與加工系統(tǒng)交互學(xué)習(xí)而獲取新的調(diào)度知識,面向系統(tǒng)中加工設(shè)備及工件的狀態(tài)來動態(tài)選取調(diào)度規(guī)則,選擇最優(yōu)的調(diào)度規(guī)則對該加工設(shè)備進行調(diào)度。本發(fā)明能夠適應(yīng)不穩(wěn)定的、時變的車間動態(tài)生產(chǎn)環(huán)境,可以得到比現(xiàn)有的規(guī)則調(diào)度技術(shù)更好的工件排序,有效減少工序等待時間,提高企業(yè)產(chǎn)品交貨期滿足率。
文檔編號G05B19/418GK101216710SQ20071019201
公開日2008年7月9日 申請日期2007年12月28日 優(yōu)先權(quán)日2007年12月28日
發(fā)明者嚴洪森, 楊宏兵 申請人:東南大學(xué)