本說明書涉及控制環(huán)境,并且涉及確定用于控制環(huán)境的控制設(shè)置和從環(huán)境接收的環(huán)境響應(yīng)之間的因果關(guān)系。
背景技術(shù):
1、用于確定應(yīng)使用哪些控制設(shè)置來控制環(huán)境的現(xiàn)有技術(shù)通常采用基于建模的技術(shù)或依靠系統(tǒng)的主動控制。
2、在基于建模的技術(shù)中,系統(tǒng)被動地觀察數(shù)據(jù),即,控制設(shè)置到環(huán)境響應(yīng)的歷史映射,并且嘗試發(fā)現(xiàn)數(shù)據(jù)中的模式以學(xué)習(xí)可用于控制環(huán)境的模型?;诮5募夹g(shù)的示例包括決策森林、邏輯回歸、支持向量機、神經(jīng)網(wǎng)絡(luò)、內(nèi)核機和貝葉斯分類器。
3、在主動控制技術(shù)中,系統(tǒng)依靠對環(huán)境的主動控制來進行知識生成和應(yīng)用。主動控制技術(shù)的示例包括隨機化受控實驗,例如班迪特實驗。
技術(shù)實現(xiàn)思路
1、本說明書描述了用于控制環(huán)境的方法和系統(tǒng)。在一個方面,一種方法包括:基于以下各項重復(fù)選擇環(huán)境的控制設(shè)置:(i)因果模型,該因果模型識別環(huán)境中的可控元件的可能設(shè)置和反映控制系統(tǒng)在控制環(huán)境方面的性能的環(huán)境響應(yīng)之間的因果關(guān)系;以及(ii)一組內(nèi)部參數(shù)的當(dāng)前值;以及在重復(fù)選擇期間,監(jiān)測對所選擇控制設(shè)置的環(huán)境響應(yīng);基于環(huán)境響應(yīng)來確定環(huán)境的一個或多個特性已改變的指示;以及作為響應(yīng),修改內(nèi)部參數(shù)中的一個或多個內(nèi)部參數(shù)的當(dāng)前值。
2、本說明書中所述的主題的具體實施例可被實施為實現(xiàn)下述優(yōu)點中的一者或多者。
3、本說明書中所述的控制系統(tǒng)能夠以解決常規(guī)方法的許多當(dāng)前限制的方式自動生成具有受控實驗精度的因果知識(以因果模型的形式),特別是當(dāng)應(yīng)用于動態(tài)系統(tǒng)時。所述技術(shù)實現(xiàn)了對因果的實時了解和量化,同時提供了全自動操作控制和無縫集成的多目標(biāo)優(yōu)化。這種架構(gòu)的突現(xiàn)行為是合理的、穩(wěn)健的和可擴展的,并且提供適用于復(fù)雜且關(guān)鍵的現(xiàn)實世界系統(tǒng)的速度驚人的學(xué)習(xí)和優(yōu)化,即使那些系統(tǒng)受到變量之間關(guān)系的快速變化的方向、量值和空間-時間范圍的影響也是如此,無論那些變量是否處于系統(tǒng)控制下。因此,與常規(guī)技術(shù)相比,所述系統(tǒng)可更有效地控制環(huán)境,即,根據(jù)性能度量實現(xiàn)更好的系統(tǒng)性能,同時使用更少的計算資源和更少的數(shù)據(jù)。此外,系統(tǒng)可更快地對變量之間關(guān)系的變化作出響應(yīng),從而減少環(huán)境受到次優(yōu)控制的時間量,進而減輕與選擇次優(yōu)設(shè)置相關(guān)的負面后果。此外,系統(tǒng)可在選擇在可接受范圍或歷史范圍內(nèi)的控制設(shè)置的同時實現(xiàn)這一點,從而確保系統(tǒng)不偏離控制設(shè)置的安全范圍。
4、特別地,所述技術(shù)將系統(tǒng)的一些或所有內(nèi)部參數(shù)置于遞歸實驗控制下,即,在系統(tǒng)操作期間調(diào)整內(nèi)部參數(shù)的值,從而不斷調(diào)整程序?qū)嵗奶匦砸宰孕U魏五e誤的假設(shè)或先驗偏差,并且相對于性能度量、約束和因果知識的精度與粒度動態(tài)優(yōu)化控制決策。這產(chǎn)生了以下技術(shù),這些技術(shù)對統(tǒng)計分布的所有特性具有穩(wěn)健性并且在探索和利用搜索空間(包括空間-時間效應(yīng))方面在認知上有效,從而基于無偏差測量結(jié)果自動調(diào)整所獲取數(shù)據(jù)的采樣和使用以進行實時決策支持,這些無偏差測量結(jié)果是對變量之間關(guān)系跨空間和時間變化的程度并因此對該數(shù)據(jù)表示世界的當(dāng)前狀態(tài)的程度的測量結(jié)果。作為特定示例,系統(tǒng)可通過監(jiān)測當(dāng)前系統(tǒng)性能和基線系統(tǒng)性能(即,當(dāng)使用可能控制設(shè)置上的基線概率分布來控制環(huán)境時系統(tǒng)的性能)之間的差異來重復(fù)調(diào)整內(nèi)部參數(shù)中的一個或多個內(nèi)部參數(shù)的值。系統(tǒng)可使用這種差異的變化和內(nèi)部參數(shù)的不同可能值之間對這種差異的相對影響來確保內(nèi)部參數(shù)具有確保整個操作過程中的有效系統(tǒng)性能的值,即使在環(huán)境變化和先前收集的數(shù)據(jù)的特性變得不太相關(guān)時也是如此。
5、換句話講,與常規(guī)系統(tǒng)不同,所述控制系統(tǒng)可非??焖俚卣{(diào)整以適應(yīng)不同控制設(shè)置之間的相對因果效應(yīng)的變化。另外,所述系統(tǒng)不需要任何特定控制設(shè)置的有效性的先驗知識,并且事實上,可調(diào)整作為基線提供給系統(tǒng)的不正確的先驗知識。即,當(dāng)環(huán)境的特性變化時,系統(tǒng)可檢測到變化并調(diào)整內(nèi)部參數(shù)以使變化對系統(tǒng)對環(huán)境的控制的有效性的影響最小化。
6、在附圖和下文的說明中將示出本說明書中所述的主題的一個或多個實施例的細節(jié)。本發(fā)明主題的其它特征、方面、和優(yōu)點將從說明、附圖、和權(quán)利要求中變得顯而易見。
1.一種用于控制環(huán)境的方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,
3.根據(jù)權(quán)利要求1或2中任一項所述的方法,
4.根據(jù)權(quán)利要求1所述的方法,
5.根據(jù)權(quán)利要求1所述的方法,其中基于所述環(huán)境響應(yīng)來確定所述環(huán)境的一個或多個特性已改變的指示包括:
6.根據(jù)權(quán)利要求1所述的方法,其中基于所述環(huán)境響應(yīng)來確定所述環(huán)境的一個或多個特性已改變的指示包括:
7.根據(jù)權(quán)利要求6所述的方法,其中所述內(nèi)部參數(shù)包括第二組參數(shù),所述第二組參數(shù)限定生成所述因果模型中包括的先前已接收的哪些環(huán)境響應(yīng),并且
8.根據(jù)權(quán)利要求1所述的方法,其中修改所述一個或多個內(nèi)部參數(shù)的當(dāng)前值包括:修改限定可能值的范圍的一組內(nèi)部參數(shù)的當(dāng)前值,限定生成所述因果模型中包括的環(huán)境響應(yīng)的數(shù)量的參數(shù)是從所述可能值的范圍采樣的。
9.根據(jù)權(quán)利要求8所述的方法,其中修改所述當(dāng)前值包括:
10.根據(jù)權(quán)利要求8所述的方法,其中修改所述當(dāng)前值包括:
11.根據(jù)權(quán)利要求1所述的方法,所述方法還包括在所述重復(fù)選擇期間:
12.一種系統(tǒng),所述系統(tǒng)包括一個或多個計算機和一個或多個存儲裝置,所述一個或多個存儲裝置存儲指令,所述指令在由所述一個或多個計算機執(zhí)行時致使所述一個或多個計算機執(zhí)行根據(jù)權(quán)利要求1所述的方法的操作。
13.一種或多種計算機可讀存儲介質(zhì),所述一種或多種計算機可讀存儲介質(zhì)存儲指令,所述指令在由一個或多個計算機執(zhí)行時致使所述一個或多個計算機執(zhí)行根據(jù)權(quán)利要求1所述的方法的操作。