本發(fā)明涉及一種線放電加工機(jī)的仿真裝置,特別涉及一種具有根據(jù)芯的形狀等環(huán)境狀態(tài)來決定芯的焊接位置和焊接數(shù)量的功能的線放電加工機(jī)的仿真裝置。
背景技術(shù):
圖9是從上方觀察到通過線放電加工機(jī)進(jìn)行了加工的被加工物的圖。
通過線放電加工機(jī)從加工開始孔31開始被加工物3的加工。通過加工槽32表示線電極(未圖示)所通過的加工路徑。在現(xiàn)有的線放電加工機(jī)的加工方法中,有以下問題,即在切斷芯33時(shí),切斷后的芯33與線電極接觸,線電極斷線,在切斷芯33時(shí)線電極和被加工物3經(jīng)由芯33短路而劃傷芯33以及被加工物3。
因此,使用以下技術(shù),即在加工被加工物3時(shí)在加工路徑上形成的加工槽32的一部分中由使線電極熔融的熔融物形成將芯33和被加工物3進(jìn)行焊接的焊接區(qū)間34,從而在加工結(jié)束時(shí)防止芯33落下。日本特開2014-024132號(hào)公報(bào)中作為為了使在放電加工中產(chǎn)生的芯33不落下而將芯33與被加工物3焊接的技術(shù),公開一種修正用于加工的程序的技術(shù),使得根據(jù)芯33的形狀在加工路徑上均勻地配置焊接區(qū)間34和焊接休止區(qū)間35。
在使用上述的現(xiàn)有技術(shù)時(shí),需要根據(jù)芯33的形狀來計(jì)算加工路徑上的焊接區(qū)間34的位置和長(zhǎng)度、焊接區(qū)間34與焊接區(qū)間34之間的間隔(焊接休止區(qū)間35的長(zhǎng)度)、設(shè)置在加工路徑上的焊接區(qū)間34的個(gè)數(shù),并且根據(jù)該計(jì)算的結(jié)果來生成焊接用程序。
例如,在圖10A所示的芯33和圖10B所示的芯3中,兩者的形狀不同,因此芯33很好地保持平衡,并且通過適當(dāng)?shù)牧Σ鹦缎?3的焊接區(qū)間34的位置和長(zhǎng)度、焊接區(qū)間34與焊接區(qū)間34之間的間隔(焊接休止區(qū)間35的長(zhǎng)度)、設(shè)置在加工路徑上的焊接區(qū)間34的個(gè)數(shù)也不同。因此,必須對(duì)在圖10A所示的形狀的芯33和圖10B所示的形狀的芯33形成不同的焊接用程序。
在計(jì)算出與芯33的形狀對(duì)應(yīng)的上述各值(焊接區(qū)間34的位置和長(zhǎng)度、焊接休止區(qū)間35的長(zhǎng)度、焊接區(qū)間34的個(gè)數(shù))時(shí),必須考慮與芯33的形狀對(duì)應(yīng)的平衡(重心等)、保持性、易脫落性、易加工性的差異。這里,考慮保持性是因?yàn)槿绻附訁^(qū)間34的長(zhǎng)度和數(shù)量少則不能夠支撐芯33,考慮易脫落性是因?yàn)槿绻附訁^(qū)間34的位置較差,或者焊接區(qū)間34的長(zhǎng)度和數(shù)量比需要的多,則從被加工物33切斷芯33需要多余的力,考慮易加工性是因?yàn)槿绻附訁^(qū)間34的數(shù)量比需要的多,則線放電加工時(shí)的加工條件的切換變多,加工時(shí)間延長(zhǎng)。
然而,在上述的日本特開2014-024132號(hào)公報(bào)中公開的技術(shù)中,停留在將加工路徑上的焊接區(qū)間34的位置和長(zhǎng)度設(shè)為均等的情況,在考慮了芯33的形狀后沒有計(jì)算焊接區(qū)間34的位置和長(zhǎng)度等,因此根據(jù)放電加工而形成的芯的形狀,會(huì)缺少平衡、保持性、易脫落性、易加工性。
技術(shù)實(shí)現(xiàn)要素:
因此本發(fā)明的目的在于提供一種具備使用機(jī)械學(xué)習(xí)或深層學(xué)習(xí)(深度學(xué)習(xí)Deep Learning)自動(dòng)決定焊接位置的功能的線放電加工機(jī)的仿真裝置。
本發(fā)明的一個(gè)實(shí)施方式的線放電加工機(jī)的仿真裝置中,該線放電加工機(jī)根據(jù)包括程序的加工的前提條件進(jìn)行從被加工物切割芯的加工,該仿真裝置具備:焊接區(qū)間計(jì)算部,其計(jì)算在從上述被加工物切割上述芯時(shí),為了使上述芯與上述被加工物焊接而在上述加工的加工路徑上形成的焊接區(qū)間的位置和長(zhǎng)度并輸出;動(dòng)作評(píng)價(jià)部,其計(jì)算用于評(píng)價(jià)由上述焊接區(qū)間計(jì)算部輸出的上述焊接區(qū)間的位置和長(zhǎng)度的評(píng)價(jià)值;以及機(jī)械學(xué)習(xí)器,其對(duì)上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整進(jìn)行機(jī)械學(xué)習(xí)。并且,上述機(jī)械學(xué)習(xí)器具有:狀態(tài)觀測(cè)部,其取得上述焊接區(qū)間的位置和長(zhǎng)度以及上述評(píng)價(jià)值作為上述焊接區(qū)間的狀態(tài)數(shù)據(jù);回報(bào)條件設(shè)定部,其設(shè)定回報(bào)條件;回報(bào)計(jì)算部,其根據(jù)上述狀態(tài)數(shù)據(jù)和上述回報(bào)條件來計(jì)算回報(bào);焊接區(qū)間調(diào)整學(xué)習(xí)部,其對(duì)上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整進(jìn)行機(jī)械學(xué)習(xí);以及焊接區(qū)間調(diào)整輸出部,其根據(jù)上述焊接區(qū)間調(diào)整學(xué)習(xí)部對(duì)上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整的機(jī)械學(xué)習(xí)結(jié)果以及上述狀態(tài)數(shù)據(jù)將上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整對(duì)象以及調(diào)整量決定為調(diào)整行為并輸出。上述焊接區(qū)間計(jì)算部根據(jù)上述焊接區(qū)間調(diào)整輸出部輸出的調(diào)整行為重新計(jì)算上述焊接區(qū)間的位置和長(zhǎng)度并輸出。上述焊接區(qū)間調(diào)整學(xué)習(xí)部構(gòu)成為,根據(jù)上述調(diào)整行為、由上述狀態(tài)觀測(cè)部基于上述焊接區(qū)間計(jì)算部重新計(jì)算的上述焊接區(qū)間的位置和長(zhǎng)度而取得的上述狀態(tài)數(shù)據(jù)、上述回報(bào)計(jì)算部基于上述狀態(tài)數(shù)據(jù)計(jì)算出的上述回報(bào),對(duì)上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整進(jìn)行機(jī)械學(xué)習(xí)。
上述評(píng)價(jià)值能夠包括根據(jù)上述焊接區(qū)間的位置和長(zhǎng)度計(jì)算出的支撐芯的力、根據(jù)上述焊接區(qū)間的位置和長(zhǎng)度計(jì)算出的使芯落下時(shí)所需要的力、根據(jù)上述焊接區(qū)間的位置和長(zhǎng)度計(jì)算出的支撐芯的位置的平衡中的至少任意一個(gè)。
上述仿真裝置還具備存儲(chǔ)上述焊接區(qū)間調(diào)整學(xué)習(xí)部學(xué)習(xí)的結(jié)果的學(xué)習(xí)結(jié)果存儲(chǔ)部,上述焊接區(qū)間調(diào)整輸出部構(gòu)成為,根據(jù)上述焊接區(qū)間調(diào)整學(xué)習(xí)部學(xué)習(xí)的上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整的學(xué)習(xí)結(jié)果、上述學(xué)習(xí)結(jié)果存儲(chǔ)部中存儲(chǔ)的上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整的學(xué)習(xí)結(jié)果來調(diào)整上述焊接區(qū)間的位置和長(zhǎng)度。
上述回報(bào)條件被設(shè)定為:當(dāng)上述焊接區(qū)間的個(gè)數(shù)少時(shí),或者支撐上述芯的位置的平衡良好時(shí),賦予正回報(bào);當(dāng)上述焊接區(qū)間的個(gè)數(shù)多時(shí)、焊接區(qū)間長(zhǎng)度比預(yù)先設(shè)定的焊接區(qū)間的最小距離短時(shí)、支撐上述芯的力的大小比預(yù)先設(shè)定的預(yù)定閾值要小時(shí)、使上述芯落下時(shí)的力的大小為大時(shí)或者支撐上述芯的位置的平衡差時(shí),賦予負(fù)的回報(bào)。
上述仿真裝置構(gòu)成為,與至少一個(gè)其它仿真裝置連接,與上述其它仿真裝置之間相互交換或共享機(jī)械學(xué)習(xí)的結(jié)果。
本發(fā)明的其它實(shí)施方式的機(jī)械學(xué)習(xí)器構(gòu)成為,對(duì)在通過根據(jù)包括程序的加工的前提條件進(jìn)行從被加工物切割芯的加工的線放電加工機(jī)從上述被加工物切割上述芯時(shí),為了使上述芯與上述被加工物焊接而在上述加工的加工路徑上形成的焊接區(qū)間的位置和長(zhǎng)度的調(diào)整進(jìn)行機(jī)械學(xué)習(xí),該機(jī)械學(xué)習(xí)器具有:狀態(tài)觀測(cè)部,其取得上述焊接區(qū)間的位置和長(zhǎng)度以及用于上述焊接區(qū)間的位置和長(zhǎng)度的評(píng)價(jià)的評(píng)價(jià)值作為上述焊接區(qū)間的狀態(tài)數(shù)據(jù);回報(bào)條件設(shè)定部,其設(shè)定回報(bào)條件;回報(bào)計(jì)算部,其根據(jù)上述狀態(tài)數(shù)據(jù)和上述回報(bào)條件來計(jì)算回報(bào);焊接區(qū)間調(diào)整學(xué)習(xí)部,其對(duì)上述焊接區(qū)間的位置和長(zhǎng)度進(jìn)行機(jī)械學(xué)習(xí);以及焊接區(qū)間調(diào)整輸出部,其根據(jù)上述焊接區(qū)間調(diào)整學(xué)習(xí)部對(duì)上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整的機(jī)械學(xué)習(xí)結(jié)果以及上述狀態(tài)數(shù)據(jù)將上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整對(duì)象以及調(diào)整量決定為調(diào)整行為并輸出。并且,上述焊接區(qū)間調(diào)整學(xué)習(xí)部構(gòu)成為,根據(jù)上述輸出的調(diào)整行為、由上述狀態(tài)觀測(cè)部根據(jù)基于該調(diào)整行為重新計(jì)算的上述焊接區(qū)間的位置和長(zhǎng)度而取得的上述狀態(tài)數(shù)據(jù)、上述回報(bào)計(jì)算部根據(jù)上述狀態(tài)數(shù)據(jù)計(jì)算出的上述回報(bào),對(duì)上述焊接區(qū)間的位置和長(zhǎng)度的調(diào)整進(jìn)行機(jī)械學(xué)習(xí)。
根據(jù)本發(fā)明,能夠自動(dòng)決定與根據(jù)使芯落下的力和位置對(duì)焊接距離和焊接個(gè)數(shù)優(yōu)化而得的芯的形狀對(duì)應(yīng)的最佳的焊接位置,能夠根據(jù)程序自動(dòng)生成焊接用程序。
附圖說明
通過參照附圖說明以下的實(shí)施方式,能夠更加明確本發(fā)明的上述以及其它目的、特征。
圖1是說明強(qiáng)化學(xué)習(xí)算法的基本概念的圖。
圖2是表示神經(jīng)元的模型的示意圖。
圖3是表示具有三層權(quán)值的神經(jīng)網(wǎng)絡(luò)的示意圖。
圖4是表示本發(fā)明一個(gè)實(shí)施方式的、導(dǎo)入了機(jī)械學(xué)習(xí)器的線放電加工機(jī)的仿真裝置的、與芯的各個(gè)焊接區(qū)間的位置和長(zhǎng)度的調(diào)整的機(jī)械學(xué)習(xí)相關(guān)的圖。
圖5是說明在圖4的仿真裝置進(jìn)行處理的各個(gè)數(shù)據(jù)的例子(焊接區(qū)間的位置和長(zhǎng)度的定義)的圖。
圖6是本發(fā)明的一個(gè)實(shí)施方式的仿真裝置的功能框圖。
圖7A是表示成為執(zhí)行仿真的對(duì)象的程序(編輯前的程序)的一例。
圖7B是表示將根據(jù)基于機(jī)械學(xué)習(xí)的結(jié)果而調(diào)整的焊接區(qū)間的位置以及長(zhǎng)度來焊接被加工物中的芯的代碼嵌入圖7A所示的程序中的編輯后的程序的一例。
圖8是表示圖6的仿真裝置中的焊接區(qū)間調(diào)整學(xué)習(xí)部進(jìn)行的機(jī)械學(xué)習(xí)的流程的流程圖。
圖9是說明通過將芯與被加工物進(jìn)行焊接而防止芯的落下的現(xiàn)有技術(shù)的圖。
圖10A以及圖10B是說明與芯的形狀對(duì)應(yīng)的焊接區(qū)間的位置差異的圖。
具體實(shí)施方式
本發(fā)明中,將成為人工智能的機(jī)械學(xué)習(xí)器導(dǎo)入加工被加工物的線放電加工機(jī)的仿真裝置。在該仿真裝置進(jìn)行的仿真中,作為加工的前提條件賦予成為加工對(duì)象的工件(芯)的形狀、工件厚度、工件素材的密度、焊接區(qū)間最小距離、每個(gè)焊接單位長(zhǎng)度的承受力、使芯落下時(shí)的力等各個(gè)值。并且,作為加工的前提條件而賦予這些各值時(shí)針對(duì)相對(duì)于被加工物的芯的各焊接區(qū)間的位置和長(zhǎng)度(‘加工狀態(tài)的數(shù)據(jù)’)進(jìn)行與芯的各焊接區(qū)間的位置和長(zhǎng)度的調(diào)整相關(guān)的機(jī)械學(xué)習(xí),由此能夠?qū)С雠c加工的前提條件對(duì)應(yīng)的最佳的芯的各個(gè)焊接區(qū)間的位置和長(zhǎng)度。
以下,簡(jiǎn)單說明本發(fā)明導(dǎo)入的機(jī)械學(xué)習(xí)。
<1.機(jī)械學(xué)習(xí)>
這里,簡(jiǎn)單說明機(jī)械學(xué)習(xí)。關(guān)于機(jī)械學(xué)習(xí)以如下方式來實(shí)現(xiàn),即通過分析從輸入到進(jìn)行機(jī)械學(xué)習(xí)的裝置(以下為機(jī)械學(xué)習(xí)器)的數(shù)據(jù)的集合提取其中有用的規(guī)則、知識(shí)表現(xiàn)、判斷基準(zhǔn)等,輸出其判斷結(jié)果,并且進(jìn)行知識(shí)的學(xué)習(xí)。機(jī)械學(xué)習(xí)的方法各種各樣,但是大致區(qū)分為“有教師學(xué)習(xí)”、“無(wú)教師學(xué)習(xí)”、“強(qiáng)化學(xué)習(xí)”。進(jìn)一步,有一種在實(shí)現(xiàn)這些方法的基礎(chǔ)上學(xué)習(xí)特征量本身的提取的被稱為“深層學(xué)習(xí)”的方法。
“有教師學(xué)習(xí)”指通過將某個(gè)輸入和結(jié)果(標(biāo)簽)的數(shù)據(jù)集大量地賦予機(jī)械學(xué)習(xí)器來學(xué)習(xí)這些數(shù)據(jù)集中的特征,并能夠根據(jù)輸入推定結(jié)果的模型、即能夠以歸納的方式獲得其相關(guān)性的方法。該方法能夠使用后述的神經(jīng)網(wǎng)絡(luò)等算法來實(shí)現(xiàn)。
“無(wú)教師學(xué)習(xí)”指通過只將輸入數(shù)據(jù)大量地賦予學(xué)習(xí)裝置,學(xué)習(xí)輸入數(shù)據(jù)如何分布,即使不賦予對(duì)應(yīng)的教師輸出輸入也學(xué)習(xí)針對(duì)輸入數(shù)據(jù)進(jìn)行壓縮、分類、整形等的裝置的方法。能夠?qū)⑦@些數(shù)據(jù)集的特征聚類到相似者之間等。使用其結(jié)果設(shè)置任意的基準(zhǔn)并且進(jìn)行使其為最佳的輸出的分配,由此能夠?qū)崿F(xiàn)輸出的預(yù)測(cè)。另外作為“無(wú)教師學(xué)習(xí)”和“有教師學(xué)習(xí)”的中間的問題設(shè)定,也有稱為“半有教師學(xué)習(xí)”的,這相當(dāng)于一部分只存在輸入和輸出的數(shù)據(jù)組,而另外的部分僅有輸入的數(shù)據(jù)的情況。在本實(shí)施方式中,通過無(wú)教師學(xué)習(xí)使用即使實(shí)際上沒有使加工機(jī)工作也能夠取得的數(shù)據(jù),能夠有效地進(jìn)行學(xué)習(xí)。
“強(qiáng)化學(xué)習(xí)”不僅指判定、分類也指通過學(xué)習(xí)行為,根據(jù)行為賦予環(huán)境的相互作用來學(xué)習(xí)適當(dāng)?shù)男袨?、即用于使將來得到的回?bào)最大的學(xué)習(xí)的方法。在該強(qiáng)化學(xué)習(xí)中,機(jī)械學(xué)習(xí)器能夠從完全不知道行為所引起的結(jié)果或者不完全知道的狀態(tài)來開始學(xué)習(xí)。另外,為了仿真人類的動(dòng)作能夠?qū)⑹孪葘W(xué)習(xí)(上述的有教師學(xué)習(xí)、逆強(qiáng)化學(xué)習(xí)的方法)的狀態(tài)設(shè)為初始狀態(tài),也能夠從良好的開始地點(diǎn)開始學(xué)習(xí)。
另外,需要考慮在針對(duì)加工機(jī)適用機(jī)械學(xué)習(xí)的情況下,加工機(jī)開始實(shí)際動(dòng)作,能夠得到其結(jié)果作為數(shù)據(jù)、即需要一邊試錯(cuò)一邊搜索最佳的行為。因此,本發(fā)明中,作為機(jī)械學(xué)習(xí)器的主要學(xué)習(xí)算法采用通過賦予回報(bào),機(jī)械學(xué)習(xí)器自動(dòng)學(xué)習(xí)用于達(dá)到目標(biāo)的行為的強(qiáng)化學(xué)習(xí)算法。
圖1是說明強(qiáng)化學(xué)習(xí)算法的基本概念的圖。
在強(qiáng)化學(xué)習(xí)中,通過成為學(xué)習(xí)的主體的智能體(機(jī)械學(xué)習(xí)器)與成為控制對(duì)象的環(huán)境(控制對(duì)象系統(tǒng))之間的交換,推進(jìn)智能體的學(xué)習(xí)和行為。更具體地說,
(1)智能體觀測(cè)某個(gè)時(shí)間點(diǎn)的環(huán)境的狀態(tài)st,
(2)根據(jù)觀測(cè)結(jié)果和過去的學(xué)習(xí)選擇自己能夠采取的行為at并執(zhí)行行為
at,
(3)根據(jù)某些規(guī)則以及行為at的執(zhí)行,環(huán)境的狀態(tài)st變化為下一個(gè)狀態(tài)st+1,
(4)智能體根據(jù)作為行為at結(jié)果的狀態(tài)變化來獲得回報(bào)rt+1,
(5)智能體根據(jù)狀態(tài)st、行為at、回報(bào)rt+1以及過去的學(xué)習(xí)結(jié)果來推進(jìn)學(xué)習(xí)的交換在智能體和環(huán)境之間進(jìn)行。
在強(qiáng)化學(xué)習(xí)的初始階段,智能體完全不知道在上述(2)的行為選擇中用于選擇針對(duì)環(huán)境的狀態(tài)st的最佳行為at的價(jià)值判斷的基準(zhǔn)。因此,智能體根據(jù)某個(gè)狀態(tài)st選擇各種行為at,根據(jù)針對(duì)此時(shí)的行為at賦予的回報(bào)rt+1,學(xué)習(xí)更佳行為的選擇、即正確的價(jià)值判斷的基準(zhǔn)。
在上述(5)的學(xué)習(xí)中,智能體獲得觀測(cè)到的狀態(tài)st、行為at、回報(bào)rt+1的映射作為成為用于判斷將來能夠取得的回報(bào)量的基準(zhǔn)的信息。例如,如果在各個(gè)時(shí)刻中能夠取得的狀態(tài)的個(gè)數(shù)為m、能夠取得的行為的個(gè)數(shù)為n,則通過重復(fù)行為來得到存儲(chǔ)針對(duì)由狀態(tài)st和行為at形成的組的回報(bào)rt+1的m×n的2維陣列。
然后,使用表示根據(jù)上述得到的映射而選擇出的狀態(tài)、行為如何好的函數(shù)即價(jià)值函數(shù)(評(píng)價(jià)函數(shù))在重復(fù)行為過程中更新價(jià)值函數(shù)(評(píng)價(jià)函數(shù)),從而學(xué)習(xí)針對(duì)狀態(tài)的最佳的行為。
狀態(tài)函數(shù)是表示某個(gè)狀態(tài)st是如何好的狀態(tài)的價(jià)值函數(shù)。該狀態(tài)價(jià)值函數(shù)表現(xiàn)為將狀態(tài)設(shè)為參數(shù)的函數(shù),并且在重復(fù)行為過程中的學(xué)習(xí)中,根據(jù)針對(duì)某個(gè)狀態(tài)中的行為而得到的回報(bào)、通過該行為而要變化的未來狀態(tài)的價(jià)值等來更新該狀態(tài)價(jià)值函數(shù)。根據(jù)強(qiáng)化學(xué)習(xí)的算法定義狀態(tài)價(jià)值函數(shù)的更新式,例如,在強(qiáng)化學(xué)習(xí)算法之一的TD學(xué)習(xí)中,通過以下的公式(1)來更新狀態(tài)價(jià)值函數(shù)。另外,在該公式(1)中α被稱為學(xué)習(xí)系數(shù),γ被稱為折扣率,將它們定義在0<α≤1、0<γ≤1的范圍內(nèi)。
V(st)←V(st)+α[rt+1+γV(st+1)-V(st)]……(1)
另外,行為價(jià)值函數(shù)是表示在某個(gè)狀態(tài)st下行為at是如何好的行為的價(jià)值函數(shù)。行為價(jià)值函數(shù)表現(xiàn)為將狀態(tài)和行為作為參數(shù)的函數(shù),并且在重復(fù)行為過程中的學(xué)習(xí)中,根據(jù)針對(duì)某個(gè)狀態(tài)的行為而得到的回報(bào)、通過該行為而要變化的未來狀態(tài)的行為價(jià)值等來更新行為價(jià)值函數(shù)。根據(jù)強(qiáng)化學(xué)習(xí)的算法定義行為價(jià)值函數(shù)的更新式,例如,在代表性的強(qiáng)化學(xué)習(xí)算法之一的Q學(xué)習(xí)中,通過以下的公式(2)來更新行為價(jià)值函數(shù)。另外,在該公式(2)中α被稱為學(xué)習(xí)系數(shù),γ被稱為折扣率,將它們定義在0<α≤1、0<γ≤1的范圍內(nèi)。
該公式表示根據(jù)返回了行為at的結(jié)果的回報(bào)rt+1來更新狀態(tài)st下的行為at的評(píng)價(jià)值Q(st、at)的方法。表示如果回報(bào)rt+1和行為at的下一個(gè)狀態(tài)的最佳行為max(a)的評(píng)價(jià)值Q(st、max(a))比狀態(tài)st下的行為at的評(píng)價(jià)值Q(st、at)大,則增大Q(st、at),相反如果小,則減小Q(st、at)。即,使某個(gè)狀態(tài)的某個(gè)行為的價(jià)值接近基于作為結(jié)果而即時(shí)返回的回報(bào)和該行為的下一個(gè)狀態(tài)的最佳行為的價(jià)值。
在Q學(xué)習(xí)中,通過重復(fù)這樣的更新,最終以Q(st、at)成為期待值E[Σtrt]為目標(biāo)(按照最佳的行為在狀態(tài)變化時(shí)取得期待值。當(dāng)然,因?yàn)椴恢肋@個(gè)情況所以必須一邊搜索一邊學(xué)習(xí))。
并且,在上述(2)的行為選擇中,使用通過過去的學(xué)習(xí)而生成的價(jià)值函數(shù)(評(píng)價(jià)函數(shù))來選擇當(dāng)前狀態(tài)st中涉及將來的回報(bào)(rt+1+rt+2+……)成為最大的行為at(在使用狀態(tài)價(jià)值函數(shù)時(shí),使用用于轉(zhuǎn)移到價(jià)值最高狀態(tài)的行為、行為價(jià)值函數(shù)時(shí),在該狀態(tài)中價(jià)值最高的行為)。另外,在智能體的學(xué)習(xí)中也有以學(xué)習(xí)的進(jìn)展為目的,在上述(2)的行為選擇中以一定的概率選擇隨機(jī)的行為的情況(ε貪婪法)。
另外,作為存儲(chǔ)作為學(xué)習(xí)結(jié)果的價(jià)值函數(shù)(評(píng)價(jià)函數(shù))的方法,有針對(duì)所有的狀態(tài)行為對(duì)(s、a)將該值保持為表(行為價(jià)值表)的方法和準(zhǔn)備近似上述價(jià)值函數(shù)那樣的函數(shù)的方法。在后者的方法中,通過隨機(jī)梯度下降法等方法調(diào)整近似函數(shù)的參數(shù),由此能夠?qū)崿F(xiàn)上述更新式。作為近似函數(shù),能夠使用神經(jīng)網(wǎng)絡(luò)等有教師學(xué)習(xí)器。
神經(jīng)網(wǎng)絡(luò)由例如模仿了圖2所示的神經(jīng)元的模型的神經(jīng)網(wǎng)絡(luò)的計(jì)算裝置以及存儲(chǔ)器等構(gòu)成。圖2是表示神經(jīng)元的模型的示意圖。
如圖2所示,神經(jīng)元輸出針對(duì)多個(gè)輸入x(這里作為一例,輸入x1~輸入x3)的輸出y。各輸入x1~輸入x3與該輸入x所對(duì)應(yīng)的權(quán)值w(w1~w3)相乘。由此,神經(jīng)元輸出通過以下的公式(3)表現(xiàn)的輸出y。另外,在該公式(3)中,輸入x、輸出y以及權(quán)值w都是向量。另外,θ是偏置,fk是激活函數(shù)。
接著,參照?qǐng)D3說明具有組合了上述神經(jīng)元的3層權(quán)值的神經(jīng)網(wǎng)絡(luò)。
圖3是表示具有D1~D3的三層權(quán)值的神經(jīng)網(wǎng)絡(luò)的示意圖。從神經(jīng)網(wǎng)絡(luò)的左側(cè)輸入多個(gè)輸入x(這里作為一例,輸入x1~輸入x3),從右側(cè)輸出結(jié)果y(這里作為一例,結(jié)果y1~結(jié)果y3)。
具體地說,輸入x1~輸入x3與對(duì)應(yīng)的權(quán)值相乘后輸入到3個(gè)神經(jīng)N11~N13中的每一個(gè)中。與這些輸入相乘的權(quán)值匯總標(biāo)記為w1。神經(jīng)元N11~N13分別輸出z11~z13。這些z11~z13被匯總標(biāo)記為特征向量z1,能夠視為提取了輸入向量的特征量的向量。該特征向量z1是權(quán)值w1和權(quán)值w2之間的特征向量。
z11~z13與對(duì)應(yīng)的權(quán)值相乘后輸入到2個(gè)神經(jīng)元N21、N22的每一個(gè)中。與這些特征向量相乘的權(quán)值被匯總標(biāo)記為w2。神經(jīng)元N21、N22分別輸出z21、z22。這些被匯總標(biāo)記為特征向量z2。該特征向量z2是權(quán)值w2和權(quán)值w3之間的特征向量。
特征向量z21、z22與對(duì)應(yīng)的權(quán)值相乘后輸入給3個(gè)神經(jīng)元N31~N33的每一個(gè)。與這些特征向量相乘的權(quán)值被匯總標(biāo)記為w3。
最后,神經(jīng)元N31~N33分別輸出結(jié)果y1~結(jié)果y3。
神經(jīng)網(wǎng)絡(luò)的動(dòng)作有學(xué)習(xí)模式和價(jià)值預(yù)測(cè)模式,在學(xué)習(xí)模式中使用學(xué)習(xí)數(shù)據(jù)集學(xué)習(xí)權(quán)值w,使用其參數(shù)在預(yù)測(cè)模式中進(jìn)行加工機(jī)的行為判斷(為了方便,寫為預(yù)測(cè),但是可以是檢測(cè)、分類、推論等多種任務(wù))。
能夠即時(shí)學(xué)習(xí)在預(yù)測(cè)模式下實(shí)際運(yùn)轉(zhuǎn)加工機(jī)而得到的數(shù)據(jù),反映到下一行為(在線學(xué)習(xí)),也能夠使用預(yù)先收集到的數(shù)據(jù)群進(jìn)行匯總后的學(xué)習(xí),以后一直通過該參數(shù)進(jìn)行檢測(cè)模式(批量學(xué)習(xí))。也能夠執(zhí)行中間的、某個(gè)程度數(shù)據(jù)滯留時(shí)的學(xué)習(xí)模式。
能夠通過誤差逆?zhèn)鬏敺?反向傳播)學(xué)習(xí)權(quán)值w1~w3。誤差的信息從右側(cè)進(jìn)入流到左側(cè)。誤差逆?zhèn)鬏敺ㄊ菍?duì)各神經(jīng)元調(diào)整各自的權(quán)值,使得輸入了輸入x時(shí)的輸出y與真正的輸出y(教師)之間的差值變小的方法。
神經(jīng)網(wǎng)絡(luò)能夠?qū)舆M(jìn)一步增加到3層以上(稱為深層學(xué)習(xí))。能夠只根據(jù)教師數(shù)據(jù)自動(dòng)獲得階段地進(jìn)行輸入的特征提取并回歸結(jié)果的計(jì)算裝置。
通過將這樣的神經(jīng)網(wǎng)絡(luò)用作近似函數(shù),能夠一邊重復(fù)上述的強(qiáng)化學(xué)習(xí)過程中的上述(1)~(5),一邊將上述價(jià)值函數(shù)(評(píng)價(jià)函數(shù))存儲(chǔ)為神經(jīng)網(wǎng)絡(luò)來推進(jìn)學(xué)習(xí)。
在某個(gè)環(huán)境中學(xué)習(xí)結(jié)束后,即使在新的環(huán)境中也能夠通過進(jìn)行追加的學(xué)習(xí)來推進(jìn)學(xué)習(xí)以便適應(yīng)該環(huán)境。因此,如本發(fā)明那樣將學(xué)習(xí)適用于線放電加工機(jī)的仿真裝置中的芯的各個(gè)焊接區(qū)間的位置和長(zhǎng)度的調(diào)整,由此即使是適用于新的加工前提條件(成為加工對(duì)象的工件形狀、工件厚度、工件素材的密度、焊接區(qū)間最小距離、每個(gè)焊接單位長(zhǎng)度的承受力、使芯落下時(shí)的力等)的情況下,在過去的芯的各焊接區(qū)間的位置和長(zhǎng)度的調(diào)整學(xué)習(xí)中進(jìn)行新的加工前提條件的追加學(xué)習(xí),由此能夠在短時(shí)間內(nèi)進(jìn)行芯的各焊接區(qū)件的位置和長(zhǎng)度的調(diào)整的學(xué)習(xí)。
另外,在強(qiáng)化學(xué)習(xí)中,作為將多個(gè)智能體經(jīng)由網(wǎng)絡(luò)等連接而成的系統(tǒng),在智能體之間共享狀態(tài)s、行為a、回報(bào)r等信息并分別用于學(xué)習(xí),由此,能夠通過進(jìn)行各自的智能體考慮其它智能體的環(huán)境來學(xué)習(xí)的分散強(qiáng)化學(xué)習(xí),而進(jìn)行高效的學(xué)習(xí)。
在本發(fā)明中,在被組裝到多個(gè)環(huán)境(線放電加工機(jī)的仿真裝置)的多個(gè)智能體(機(jī)械學(xué)習(xí)器)經(jīng)由網(wǎng)絡(luò)連接的狀態(tài)下進(jìn)行分散機(jī)械學(xué)習(xí),由此能夠高效地進(jìn)行線放電加工機(jī)的仿真裝置中的芯的各焊接區(qū)間的位置和長(zhǎng)度的調(diào)整的學(xué)習(xí)。
另外,作為強(qiáng)化學(xué)習(xí)的算法,知道有Q學(xué)習(xí)、SARSA法、TD學(xué)習(xí)、AC法等各種方法,但是作為應(yīng)用于本發(fā)明的方法也可以采用任意的強(qiáng)化學(xué)習(xí)算法。上述各強(qiáng)化學(xué)習(xí)算法是眾所周知的,所以省略本說明書中的各算法的詳細(xì)說明。
以下,根據(jù)具體的實(shí)施方式說明導(dǎo)入了機(jī)械學(xué)習(xí)器的本發(fā)明的線放電加工機(jī)的仿真裝置。
<2.實(shí)施方式>
圖4是表示在本發(fā)明一個(gè)實(shí)施方式的、導(dǎo)入了機(jī)械學(xué)習(xí)器的線放電加工機(jī)的仿真裝置中與芯的各個(gè)焊接區(qū)間的位置和長(zhǎng)度的調(diào)整的機(jī)械學(xué)習(xí)相關(guān)的圖。另外,圖4只表示在本實(shí)施方式的線放電加工機(jī)的仿真裝置的機(jī)械學(xué)習(xí)的說明所需要的結(jié)構(gòu)。
在該實(shí)施方式中,機(jī)械學(xué)習(xí)器20將基于通過仿真裝置1決定的加工的前提條件的芯的各焊接區(qū)間的位置和長(zhǎng)度作為用于確定環(huán)境(<1.機(jī)械學(xué)習(xí)>所說明的狀態(tài)st)的信息(狀態(tài)信息)來輸入。能夠取得芯的各焊接區(qū)間的位置和長(zhǎng)度的值作為通過焊接區(qū)間計(jì)算部10計(jì)算出的結(jié)果。
在本實(shí)施方式中,機(jī)械學(xué)習(xí)器20將芯的各焊接區(qū)間的位置和長(zhǎng)度的調(diào)整行為(在<1.機(jī)械學(xué)習(xí)>說明的行為at)輸出給環(huán)境。
圖5是說明在本實(shí)施方式的仿真裝置1進(jìn)行處理的各個(gè)數(shù)據(jù)的例子的圖。
在本實(shí)施方式的仿真裝置1中,將在從線放電加工的加工路徑上的被加工物3切割芯33的部分路徑內(nèi)最初進(jìn)行加工的位置設(shè)為外圍開始點(diǎn),將最后加工的位置設(shè)為外圍結(jié)束點(diǎn)時(shí),對(duì)于設(shè)置在該加工路徑上的多個(gè)(n個(gè))焊接區(qū)間1~n,通過離外圍開始點(diǎn)的距離Di來定義焊接區(qū)間i(i=1~n)的位置。能夠通過該距離Di和焊接區(qū)間i的長(zhǎng)度Li來確定加工路徑上的芯的各焊接區(qū)間的位置和長(zhǎng)度。
能夠通過由焊接區(qū)間計(jì)算部10計(jì)算出的各焊接區(qū)間的位置Di和長(zhǎng)度Li的值來定義上述的狀態(tài)信息,另外,也能夠通過機(jī)械學(xué)習(xí)器20輸出的上述值Di、Li的調(diào)整對(duì)象的選擇及其調(diào)整量來定義上述的調(diào)整行為。
另外,本實(shí)施方式中,采用焊接區(qū)間的個(gè)數(shù)大小(正回報(bào)、負(fù)回報(bào))、焊接區(qū)間長(zhǎng)度不足最小距離(負(fù)回報(bào))、使芯落下時(shí)需要的力的大小(負(fù)回報(bào))、支撐工件(芯)的平衡(正回報(bào)、負(fù)回報(bào))等作為對(duì)機(jī)械學(xué)習(xí)器20賦予的回報(bào)(在<1.機(jī)械學(xué)習(xí)>說明的回報(bào)rt)。另外,關(guān)于是否根據(jù)任意的數(shù)據(jù)決定回報(bào),作業(yè)者可以進(jìn)行適當(dāng)設(shè)定。
進(jìn)一步,在本實(shí)施方式中,機(jī)械學(xué)習(xí)器20根據(jù)上述的輸入數(shù)據(jù)、輸出數(shù)據(jù)、回報(bào)進(jìn)行機(jī)械學(xué)習(xí)。在該機(jī)械學(xué)習(xí)中,在某個(gè)時(shí)刻t,通過輸入數(shù)據(jù)的組合定義狀態(tài)st,對(duì)該定義的狀態(tài)st進(jìn)行的各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整成為行為at,另外,根據(jù)作為通過該行為at進(jìn)行了各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整的結(jié)果而新得到的輸入數(shù)據(jù)進(jìn)行了評(píng)價(jià)計(jì)算的值成為回報(bào)rt+1,如“<1.機(jī)械學(xué)習(xí)>”說明的那樣,通過將其應(yīng)用到與機(jī)械學(xué)習(xí)的算法對(duì)應(yīng)的價(jià)值函數(shù)(評(píng)價(jià)函數(shù))的更新式來推進(jìn)學(xué)習(xí)。
使用圖6的功能框圖說明本發(fā)明的一個(gè)實(shí)施方式的仿真裝置的結(jié)構(gòu)概略。
如果將圖6所示的仿真裝置的結(jié)構(gòu)與圖1所示的強(qiáng)化學(xué)習(xí)的要素對(duì)比,則圖6所示的機(jī)械學(xué)習(xí)器20與圖1所示的智能體對(duì)應(yīng),另外,圖6所示的、除去機(jī)械學(xué)習(xí)器20的焊接區(qū)間計(jì)算部10、動(dòng)作評(píng)價(jià)部11等的結(jié)構(gòu)與圖1所示的環(huán)境對(duì)應(yīng)。
圖6所示的線放電加工機(jī)的仿真裝置1具備仿真基于程序的線放電加工機(jī)的動(dòng)作的功能,包括具備了仿真功能的個(gè)人計(jì)算機(jī)和線放電加工機(jī)的數(shù)值控制裝置、CAD/CAM、仿真專用的計(jì)算機(jī)等。
該仿真裝置1所具備的焊接區(qū)間計(jì)算部10根據(jù)通過作業(yè)者設(shè)定并存儲(chǔ)在存儲(chǔ)器(未圖示)中的加工的前提條件12來計(jì)算將芯與被加工物焊接的焊接區(qū)間的位置和長(zhǎng)度。該焊接區(qū)間計(jì)算部10根據(jù)加工前提條件12中包括的程序來計(jì)算加工路徑的形狀,確定該計(jì)算出的加工路徑中的外圍開始點(diǎn)以及外圍結(jié)束點(diǎn),從而確定工件(芯)的形狀。然后,該焊接區(qū)間計(jì)算部10決定設(shè)置在該確定后的芯的外圍的各焊接區(qū)間的位置以及長(zhǎng)度。焊接區(qū)間計(jì)算部10可以使用上述日本特開2014-024132號(hào)公報(bào)所公開的現(xiàn)有技術(shù)的方法來決定機(jī)械學(xué)習(xí)開始時(shí)的各焊接區(qū)間的位置以及長(zhǎng)度,另外也可以使作業(yè)者輸入初次的各焊接區(qū)間的位置以及長(zhǎng)度。
焊接區(qū)間計(jì)算部10在存儲(chǔ)器(未圖示)中暫時(shí)存儲(chǔ)計(jì)算出的各焊接區(qū)間的位置以及長(zhǎng)度作為中間數(shù)據(jù)13,進(jìn)一步輸出給后述的動(dòng)作評(píng)價(jià)部11以及機(jī)械學(xué)習(xí)器20。
另外,焊接區(qū)間計(jì)算部10根據(jù)從機(jī)械學(xué)習(xí)器20輸出的各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整,對(duì)作為中間數(shù)據(jù)13而暫時(shí)存儲(chǔ)的各焊接區(qū)間的位置以及長(zhǎng)度進(jìn)行調(diào)整。焊接區(qū)間計(jì)算部10首先對(duì)暫時(shí)存儲(chǔ)的各焊接區(qū)間的位置以及長(zhǎng)度增加從機(jī)械學(xué)習(xí)器20輸出的各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整,接著作為其結(jié)果在產(chǎn)生焊接區(qū)間重疊等競(jìng)爭(zhēng)的情況下修正作為調(diào)整對(duì)象的焊接區(qū)間以外的焊接區(qū)間的位置或長(zhǎng)度,消除該競(jìng)爭(zhēng)。然后,將調(diào)整后的各焊接區(qū)間的位置以及長(zhǎng)度作為中間數(shù)據(jù)13進(jìn)行覆蓋,并且輸出給后述的動(dòng)作評(píng)價(jià)部11以及機(jī)械學(xué)習(xí)器20。
焊接區(qū)間計(jì)算部10只要從機(jī)械學(xué)習(xí)器20輸出各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整,就重復(fù)并執(zhí)行上述動(dòng)作。
動(dòng)作評(píng)價(jià)部11計(jì)算針對(duì)從焊接區(qū)間計(jì)算部10輸出的各焊接區(qū)間的位置以及長(zhǎng)度的評(píng)價(jià)值。作為動(dòng)作評(píng)價(jià)部11計(jì)算出的評(píng)價(jià)值的例子,列舉支撐芯的力是什么程度的值、使芯落下時(shí)所需要的力是多少,或者支撐芯的位置平衡(在芯重心位置的每個(gè)焊接區(qū)間基于承受力的旋轉(zhuǎn)力矩)為如何等。使用仿真裝置1標(biāo)準(zhǔn)具備的仿真功能來計(jì)算這些評(píng)價(jià)值。
動(dòng)作評(píng)價(jià)部11計(jì)算基于計(jì)算出的評(píng)價(jià)值的評(píng)價(jià)點(diǎn)并記錄其履歷。當(dāng)根據(jù)該履歷確認(rèn)評(píng)價(jià)點(diǎn)的收斂時(shí)(在過去預(yù)定次數(shù)期間看不到上升、維持固定的值、在預(yù)定值之間振動(dòng)等),視為在該時(shí)間點(diǎn)計(jì)算出了最佳的各焊接區(qū)間的位置以及長(zhǎng)度,在針對(duì)焊接區(qū)間計(jì)算部10、NC程序生成部14以及機(jī)械學(xué)習(xí)器20指令了機(jī)械學(xué)習(xí)動(dòng)作的結(jié)束后,輸出當(dāng)前的各焊接區(qū)間的位置以及長(zhǎng)度作為最佳的各焊接區(qū)間的位置以及長(zhǎng)度。另外,動(dòng)作評(píng)價(jià)部11在看不到評(píng)價(jià)點(diǎn)的收斂的情況下,對(duì)機(jī)械學(xué)習(xí)器20輸出計(jì)算出的評(píng)價(jià)值。
如果指令了來自動(dòng)作評(píng)價(jià)部11的機(jī)械學(xué)習(xí)動(dòng)作的結(jié)束,則NC程序生成部14根據(jù)焊接區(qū)間計(jì)算部10最終計(jì)算出的焊接區(qū)間的位置和長(zhǎng)度來生成焊接區(qū)間的輸出指令,生成將該生成后的指令嵌入到加工前提條件12中包括的(編輯前的)程序后(編輯后的)的程序并輸出。
圖7A表示成為執(zhí)行仿真的對(duì)象的程序的一例。另外,圖7B表示將根據(jù)基于機(jī)械學(xué)習(xí)的結(jié)果進(jìn)行調(diào)整的焊接區(qū)間的位置及長(zhǎng)度來焊接被加工物的芯的代碼嵌入圖7A所示的程序后的編輯后的程序的一例。
在圖7A所示的編輯前的程序中,Mxx表示線連接的M代碼,Mxy表示線切斷的M代碼。另外,在編輯前的程序中,如圖7A的右圖所示,通過N20~N70的進(jìn)給指令使線電極分別向X軸方向、Y軸方向移動(dòng)并進(jìn)行芯的切割。
另一方面,在圖7B所示的編輯后的程序中,Myy表示焊接區(qū)間開始的加工條件設(shè)定M代碼,Mzz表示焊接區(qū)間結(jié)束的加工條件設(shè)定M代碼。如圖7B所示,NC程序生成部14根據(jù)焊接區(qū)件的位置以及長(zhǎng)度劃分圖7A所示的程序的加工路徑,將焊接區(qū)件開始的加工條件設(shè)定M代碼Myy、焊接區(qū)間結(jié)束的加工條件設(shè)定M代碼Mzz嵌入到與各焊接區(qū)間的開始、結(jié)束位置對(duì)應(yīng)的地方,由此生成圖7B的右圖所示的用于進(jìn)行加工的編輯后的程序。
通過焊接區(qū)間計(jì)算部10計(jì)算并輸出各焊接區(qū)間的位置以及長(zhǎng)度,并且當(dāng)通過動(dòng)作評(píng)價(jià)部11輸出評(píng)價(jià)值時(shí),機(jī)械學(xué)習(xí)器20進(jìn)行焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整動(dòng)作及其調(diào)整動(dòng)作的學(xué)習(xí)。
該機(jī)械學(xué)習(xí)器20具備狀態(tài)觀測(cè)部21、狀態(tài)數(shù)據(jù)存儲(chǔ)部22、回報(bào)條件設(shè)定部23、回報(bào)計(jì)算部24、焊接區(qū)間調(diào)整學(xué)習(xí)部25、學(xué)習(xí)結(jié)果存儲(chǔ)部26以及焊接區(qū)間調(diào)整輸出部27。機(jī)械學(xué)習(xí)器20可以如圖6所示那樣具備在仿真裝置1內(nèi),也可以具備在仿真裝置1外的個(gè)人計(jì)算機(jī)等中。
狀態(tài)觀測(cè)部21將從焊接區(qū)間計(jì)算部10得到的各焊接區(qū)間的位置以及長(zhǎng)度、從動(dòng)作評(píng)價(jià)部11輸出的評(píng)價(jià)值觀測(cè)為狀態(tài)數(shù)據(jù),并在機(jī)械學(xué)習(xí)器20內(nèi)取得。
狀態(tài)數(shù)據(jù)存儲(chǔ)部22輸入并存儲(chǔ)狀態(tài)數(shù)據(jù),將存儲(chǔ)后的該狀態(tài)數(shù)據(jù)輸出給回報(bào)計(jì)算部24和焊接區(qū)間調(diào)整學(xué)習(xí)部25。輸入的狀態(tài)數(shù)據(jù)可以是通過仿真裝置1的最新運(yùn)行取得的數(shù)據(jù),也可以是通過過去的運(yùn)行取得的數(shù)據(jù)。另外,狀態(tài)數(shù)據(jù)存儲(chǔ)部22輸入并存儲(chǔ)其它仿真裝置1或集中管理系統(tǒng)30中存儲(chǔ)的狀態(tài)數(shù)據(jù),將狀態(tài)數(shù)據(jù)存儲(chǔ)部22存儲(chǔ)的狀態(tài)數(shù)據(jù)輸出給其它仿真裝置1或集中管理系統(tǒng)30。
回報(bào)條件設(shè)定部23設(shè)定并存儲(chǔ)賦予由作業(yè)者輸入的機(jī)械學(xué)習(xí)的回報(bào)的條件。回報(bào)有正回報(bào)和負(fù)回報(bào),能夠適當(dāng)設(shè)定。對(duì)回報(bào)條件設(shè)定部23的輸入可以是來自通過集中管理系統(tǒng)30所使用的個(gè)人計(jì)算機(jī)或平板終端等,也能夠經(jīng)由仿真裝置1所具備的MDI設(shè)備(未圖示)進(jìn)行輸入,由此能夠更簡(jiǎn)單地進(jìn)行設(shè)定。
回報(bào)計(jì)算部24根據(jù)通過回報(bào)條件設(shè)定部23設(shè)定的條件,分析從狀態(tài)觀測(cè)部21或狀態(tài)數(shù)據(jù)存儲(chǔ)部22輸入的狀態(tài)數(shù)據(jù),將計(jì)算出的回報(bào)輸出給焊接區(qū)間調(diào)整學(xué)習(xí)部25。
以下,表示通過本實(shí)施方式的回報(bào)條件設(shè)定部23進(jìn)行設(shè)定的回報(bào)條件的例子。
[回報(bào)1:焊接區(qū)間的個(gè)數(shù)大小(正回報(bào)、負(fù)回報(bào))]
當(dāng)焊接區(qū)間的個(gè)數(shù)比預(yù)先設(shè)定的閾值少時(shí),根據(jù)其程度賦予正的回報(bào)。另外,當(dāng)比預(yù)先設(shè)定的閾值多時(shí),根據(jù)其程度賦予負(fù)的回報(bào)。
[回報(bào)2:焊接區(qū)間長(zhǎng)度不足最小距離(負(fù)回報(bào))]
當(dāng)焊接區(qū)間的長(zhǎng)度比作為加工前提條件12而設(shè)定的焊接區(qū)間最小距離短時(shí),根據(jù)其程度賦予負(fù)的回報(bào)。當(dāng)有多個(gè)長(zhǎng)度比焊接區(qū)間最小距離短的焊接區(qū)間時(shí),只增加與其對(duì)應(yīng)的量的負(fù)回報(bào)。
[回報(bào)3:支撐芯的力的大小(負(fù)回報(bào))]
當(dāng)通過動(dòng)作評(píng)價(jià)部11計(jì)算出的、支撐芯的力小于根據(jù)工件形狀(程序)和工件的厚度以及工件素材的密度計(jì)算出的芯的重量時(shí),根據(jù)其程度來賦予負(fù)的回報(bào)。
[回報(bào)4:使芯落下時(shí)所需要的力的大小(負(fù)回報(bào))]
當(dāng)通過動(dòng)作評(píng)價(jià)部11計(jì)算出的、使芯落下時(shí)所需要的力大于預(yù)先設(shè)定的閾值時(shí),根據(jù)其程度來賦予負(fù)的回報(bào),
[回報(bào)5:支撐芯的平衡(正回報(bào)、負(fù)回報(bào))]
當(dāng)通過動(dòng)作評(píng)價(jià)部11計(jì)算出的、在芯重心位置的每個(gè)焊接區(qū)間基于承受力的旋轉(zhuǎn)力矩小于預(yù)先設(shè)定的閾值(接近0)時(shí),根據(jù)其程度來賦予正的回報(bào),當(dāng)大于預(yù)先設(shè)定的閾值時(shí),根據(jù)其程度賦予負(fù)的回報(bào)。
焊接區(qū)間調(diào)整學(xué)習(xí)部25根據(jù)從狀態(tài)觀測(cè)部21或狀態(tài)數(shù)據(jù)存儲(chǔ)部22輸入的狀態(tài)數(shù)據(jù)、該焊接區(qū)間調(diào)整學(xué)習(xí)部25進(jìn)行的各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整結(jié)果(焊接區(qū)間調(diào)整輸出部27輸出的調(diào)整行為)以及通過回報(bào)計(jì)算部24計(jì)算出的回報(bào)來進(jìn)行機(jī)械學(xué)習(xí)(強(qiáng)化學(xué)習(xí))。
這里,在焊接區(qū)間調(diào)整學(xué)習(xí)部25進(jìn)行的機(jī)械學(xué)習(xí)中,通過某個(gè)時(shí)刻t的狀態(tài)數(shù)據(jù)的組合來定義狀態(tài)st,根據(jù)該定義的狀態(tài)st來決定各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整動(dòng)作成為行為at。另外,通過后述的焊接區(qū)間調(diào)整輸出部27決定各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整,該決定后的各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整被輸出給焊接區(qū)間計(jì)算部10。然后,焊接區(qū)間計(jì)算部10執(zhí)行各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整并輸出新的各焊接區(qū)間的位置以及長(zhǎng)度。根據(jù)作為其結(jié)果而得到的數(shù)據(jù)(焊接區(qū)間計(jì)算部10以及動(dòng)作評(píng)價(jià)部11的輸出),通過上述回報(bào)計(jì)算部24計(jì)算出的值成為回報(bào)rt+1。
根據(jù)所應(yīng)用的學(xué)習(xí)算法來決定用于學(xué)習(xí)的價(jià)值函數(shù)。例如,當(dāng)使用Q學(xué)習(xí)時(shí),按照上面的公式(2)更新行為價(jià)值函數(shù)Q(st、at)來推進(jìn)學(xué)習(xí)即可。
使用圖8的流程圖來說明焊接區(qū)間調(diào)整學(xué)習(xí)部25所進(jìn)行的機(jī)械學(xué)習(xí)的流程。以下,按照各個(gè)步驟進(jìn)行說明。
[步驟SA01]如果開始機(jī)械學(xué)習(xí),則狀態(tài)觀測(cè)部21取得仿真裝置1的狀態(tài)數(shù)據(jù)。
[步驟SA02]焊接區(qū)間調(diào)整學(xué)習(xí)部25根據(jù)狀態(tài)觀測(cè)部21取得的狀態(tài)數(shù)據(jù)來確定當(dāng)前的狀態(tài)st。
[步驟SA03]焊接區(qū)間調(diào)整學(xué)習(xí)部25根據(jù)過去的學(xué)習(xí)結(jié)果和在步驟SA02確定的狀態(tài)st來選擇行為at(各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整)。
[步驟SA04]執(zhí)行在步驟SA03選擇出的行為at。
[步驟SA05]狀態(tài)觀測(cè)部21取得焊接區(qū)間計(jì)算部10以及動(dòng)作評(píng)價(jià)部11輸出的數(shù)據(jù)作為仿真裝置1的狀態(tài)數(shù)據(jù)。在該階段中,仿真裝置1的狀態(tài)根據(jù)從時(shí)刻t到時(shí)刻t+1的時(shí)間推移和在步驟SA04執(zhí)行的行為at而發(fā)生變化。
[步驟SA06]回報(bào)計(jì)算部24根據(jù)在步驟SA05取得的狀態(tài)數(shù)據(jù)來計(jì)算回報(bào)rt+1。
[步驟SA07]焊接區(qū)間調(diào)整學(xué)習(xí)部25根據(jù)在步驟SA02確定的狀態(tài)st、在步驟SA03選擇出的行為at以及在步驟SA06計(jì)算出的回報(bào)rt+1來推進(jìn)機(jī)械學(xué)習(xí),返回步驟SA02。
返回圖6,學(xué)習(xí)結(jié)果存儲(chǔ)部26存儲(chǔ)焊接區(qū)間調(diào)整學(xué)習(xí)部25學(xué)習(xí)的結(jié)果。另外,當(dāng)焊接區(qū)間調(diào)整學(xué)習(xí)部25再使用學(xué)習(xí)結(jié)果時(shí),學(xué)習(xí)結(jié)果存儲(chǔ)部26將該存儲(chǔ)的學(xué)習(xí)結(jié)果輸出給焊接區(qū)間調(diào)整學(xué)習(xí)部25。如上所述,對(duì)于學(xué)習(xí)結(jié)果的存儲(chǔ),通過近似函數(shù)、陣列或多值輸出的SVM和神經(jīng)網(wǎng)絡(luò)等有教師學(xué)習(xí)器等來存儲(chǔ)所使用的機(jī)械學(xué)習(xí)算法所對(duì)應(yīng)的價(jià)值函數(shù)即可。
另外,將其它仿真裝置1或集中管理系統(tǒng)30所存儲(chǔ)的學(xué)習(xí)結(jié)果輸入并存儲(chǔ)到學(xué)習(xí)結(jié)果存儲(chǔ)部26中,或者也能夠?qū)W(xué)習(xí)結(jié)果存儲(chǔ)部26所存儲(chǔ)的學(xué)習(xí)結(jié)果輸出給其它仿真裝置1或集中管理系統(tǒng)30。
焊接區(qū)間調(diào)整輸出部27根據(jù)焊接區(qū)間調(diào)整學(xué)習(xí)部25學(xué)習(xí)的結(jié)果和當(dāng)前的狀態(tài)數(shù)據(jù)來決定各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整對(duì)象及其調(diào)整量。這里所說的各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整對(duì)象及其調(diào)整量的決定相當(dāng)于用于機(jī)械學(xué)習(xí)的行為a。各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整例如將組合了成為調(diào)整對(duì)象的焊接區(qū)間和該焊接區(qū)間的位置以及長(zhǎng)度的變更量后的數(shù)據(jù)準(zhǔn)備為能夠選擇的行為(例如,將行為1=焊接區(qū)間1的長(zhǎng)度設(shè)為+0.1mm、將行為2=焊接區(qū)間1的位置設(shè)為+0.5mm、將焊接區(qū)間8的長(zhǎng)度設(shè)為0mm(刪除)、……),可以根據(jù)過去的學(xué)習(xí)結(jié)果選擇將來得到的回報(bào)為最大的行為。能夠選擇的行為可以作為同時(shí)調(diào)整多個(gè)焊接區(qū)間的行為(例如、將行為j=所有的焊接區(qū)間的長(zhǎng)度設(shè)為1mm、……),還可以設(shè)為同時(shí)調(diào)整長(zhǎng)度和位置的行為。另外,可以采用上述的ε貪婪法,以預(yù)定的概率來選擇隨機(jī)的行為,由此謀求焊接區(qū)間調(diào)整學(xué)習(xí)部25的學(xué)習(xí)進(jìn)展。另外,作為行為的選擇結(jié)果,當(dāng)不存在成為調(diào)整對(duì)象的焊接區(qū)間時(shí),不選擇該行為而選擇其它的行為。
另外,焊接區(qū)間調(diào)整輸出部27將通過行為的選擇而決定的各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整輸出給焊接區(qū)間計(jì)算部10。
之后,如上所述,焊接區(qū)間計(jì)算部10根據(jù)從焊接區(qū)間調(diào)整輸出部27輸出的各焊接區(qū)間的位置以及長(zhǎng)度的調(diào)整來計(jì)算新的各焊接區(qū)間的位置以及長(zhǎng)度,進(jìn)行動(dòng)作評(píng)價(jià)部11進(jìn)行的評(píng)價(jià)值的計(jì)算以及與狀態(tài)觀測(cè)部21的狀況相關(guān)的數(shù)據(jù)的取得,重復(fù)機(jī)械學(xué)習(xí),從而能夠得到更優(yōu)的學(xué)習(xí)結(jié)果。
當(dāng)使用上述學(xué)習(xí)結(jié)束后的學(xué)習(xí)數(shù)據(jù)實(shí)際運(yùn)行線放電加工機(jī)時(shí),機(jī)械學(xué)習(xí)器20不進(jìn)行新的學(xué)習(xí)而安裝在線放電加工機(jī)上,并直接使用學(xué)習(xí)結(jié)束時(shí)的學(xué)習(xí)數(shù)據(jù)進(jìn)行運(yùn)行。
另外,將學(xué)習(xí)結(jié)束了的機(jī)械學(xué)習(xí)器20(或者是將其它機(jī)械學(xué)習(xí)器20的結(jié)束后的學(xué)習(xí)數(shù)據(jù)復(fù)制到學(xué)習(xí)結(jié)果存儲(chǔ)部26中的機(jī)械學(xué)習(xí)器)安裝到其它線放電加工機(jī)上,直接使用學(xué)習(xí)結(jié)束時(shí)的學(xué)習(xí)數(shù)據(jù)來進(jìn)行運(yùn)行。
仿真裝置1的機(jī)械學(xué)習(xí)器20可以單獨(dú)進(jìn)行機(jī)械學(xué)習(xí),但是如果多個(gè)仿真裝置1還具備分別與外部通信的通信單元,則能夠發(fā)送接收分別由狀態(tài)數(shù)據(jù)存儲(chǔ)部22存儲(chǔ)的狀態(tài)數(shù)據(jù)和由學(xué)習(xí)結(jié)果存儲(chǔ)部26存儲(chǔ)的學(xué)習(xí)結(jié)果并共享,能夠更高效地進(jìn)行機(jī)械學(xué)習(xí)。例如,一邊使多個(gè)仿真裝置1中不同的調(diào)整量在預(yù)定的范圍內(nèi)分別變動(dòng),一邊通過在各自的仿真裝置1之間交換狀態(tài)數(shù)據(jù)和學(xué)習(xí)數(shù)據(jù)來并行地推進(jìn)學(xué)習(xí),由此能夠高效地學(xué)習(xí)。
這樣在多個(gè)仿真裝置1之間進(jìn)行交換時(shí),通信即使經(jīng)由集中管理系統(tǒng)30等主機(jī),仿真裝置1之間也可以直接通信,也可以使用云,但是會(huì)有處理大量數(shù)據(jù)的情況,因此盡量?jī)?yōu)選通信速度快的通信單元。
以上,說明了本發(fā)明的實(shí)施方式,但是本發(fā)明不限于上述實(shí)施方式的例子,能夠通過增加適當(dāng)?shù)淖兏愿鞣N方式來實(shí)施。