WO2019142728A1

WO2019142728A1 - 制御装置、制御方法およびプログラム記録媒体

Info

Publication number: WO2019142728A1
Application number: PCT/JP2019/000648
Authority: WO
Inventors: 峰斗佐藤; 義晴前野
Original assignee: 日本電気株式会社
Priority date: 2018-01-16
Filing date: 2019-01-11
Publication date: 2019-07-25
Also published as: JPWO2019142728A1; JP7036128B2

Abstract

制御対象が不確実性や時間変動を内包していた場合であっても、その制御対象を目的とする状態に制御するために、シミュレータに入力するシミュレータ入力条件を制御入力情報に基づいて設定し、シミュレータ入力条件とシミュレータ情報とを用いてシミュレーションを実行して、シミュレータの入出力間のデータセットを生成するデータ生成部と、制御目的情報に基づいてデータセットに含まれるいずれかのシミュレータ出力を評価指標として選択し、選択した評価指標に対応するデータセットと評価指標とを用いてシミュレータの入出力間の関係性を表す制御モデルを生成し、生成した制御モデルと最適制御条件とを用いて制御対象システムの最適制御入力を選択するモデル生成部とを備える制御装置とする。

Description

制御装置、制御方法およびプログラム記録媒体

　本発明は、システムを制御する制御装置、制御方法およびプログラムに関する。

　一般に、実環境やシステム（以降、単にシステムと記載する）に対する制御は、フィードバック方式とフィードフォワード方式とに大別される。フィードバック方式では、システムから過去の観測データを取得し、取得されたデータと所定規則とに基づいてシステムを制御する。フィードフォワード方式では、システムの次の状態を予測する予測モデルにより、将来の状態を予測してシステムを制御する。

　不確実性や時間変動を内包するシステムを制御対象とする場合、以下のような課題がある。例えば、不確実性を内包するシステムには、フィードバックまたは予測モデルの生成に不可欠な観測データが不足しているという課題がある。不確実性を内包するシステムには、不足しているデータの種類やデータの値の範囲が明らかでない場合もある。また、例えば、時間変動を内包するシステムには、制御が行われている状況では、システムの非制御時の振る舞いを特徴付ける静的または動的な特性についてデータを取得できないという課題がある。

　特許文献１には、供給地で生産した製品を需要地へ輸送するサプライチェーンを制御する制御装置について開示されている。特許文献１の装置は、予め生成された生産計画および輸送計画に基づいて生産・輸送される製品の生産量、受注量および在庫量に基づいて、生産計画を変更する。特許文献１の装置によれば、生産計画および輸送計画を変更することによって、計算負荷の高いシミュレーションを繰り返すことなく生産計画を変更できる。

　特許文献２には、１つの機能の部品から多くの部品を組み合わせた機械、さらに複数の機械を組み合わせたシステムに至るまでの動作をシミュレートするためのモデルを統一的に作成するシミュレーションモデル作成方法について開示されている。特許文献２の方法では、複数の機能再現モデルのうちいずれかのモデルが非線形特性要素を含む場合に、非線形特性要素を所定線形要素に置き換えてから複数のモデル間を統合し、統合されたモデル内の所定線形要素に非線形特性要素をリンクさせる。特許文献２の方法によれば様々な物理系から構成されるシステムの動作を統一的にシミュレーションできる。

　特許文献３には、将来の状態を予測して操作量を決定する情報処理装置について開示されている。特許文献３の装置は、情報蓄積手段と、予測式集合学習生成手段と、操作量決定手段とを含む。情報蓄積手段は、制御対象およびその周辺環境に関する情報を含む制御対象情報を蓄積する。予測式集合学習生成手段は、情報蓄積手段に蓄積された制御対象情報に基づいて制御対象に対する操作量の決定に用いる予測式集合を学習・生成する。操作量決定手段は、予測式集合と制御対象情報と入力情報とに基づいて制御対象の予測制御モデルを構築して、制御対象の制御に用いられる操作量を決定する。特許文献３の装置によれば、予測制御モデルと現実世界との間のかい離を小さくするように、予測制御モデルを自動的に構築できる。

　特許文献４には、プラント制御用のデータ処理装置について開示されている。特許文献４の装置は、物理モデルパラメータ推定部と、出力ばらつき演算部とを備える。物理モデルパラメータ推定部は、プラントの運転データに基づいて、プラントの制御対象モデルの物理モデルパラメータと当該物理モデルパラメータのばらつきとを推定する。出力ばらつき演算部は、選択された所定の制御パラメータを制御対象モデルに入力した場合における制御対象モデルからの所定の出力のばらつきを、物理モデルパラメータのばらつきに基づいて演算する。特許文献４の装置によれば、所定の出力のばらつきが小さくなるように制御パラメータを最適化できる。

　特許文献５には、シミュレーションの実行中に異なるシミュレーション条件でシミュレーションを継続可能なシミュレーションシステムについて開示されている。特許文献５のシステムは、シミュレーション条件設定部とシミュレーション制御部とを含むホストコンピュータと、通信処理部とシミュレーション実行部とを含むシミュレーション装置とを備える。シミュレーション条件設定部は、オペレータによる操作に基づいてシミュレーション条件を設定する。シミュレーション制御部は、設定されたシミュレーション条件をシミュレーション装置に送信して、シミュレーションを起動する。通信処理部は、ホストコンピュータから送信された複数のシミュレーション条件を記憶部に領域区分して格納する。シミュレーション実行部は、所定領域に記憶された第一のシミュレーション条件に基づくシミュレーションの実行中に、他の領域に記憶された第二のシミュレーション条件に基づくシミュレーションに切り替えてシミュレーションを継続する。

特開２０１４－１６４５０１号公報特開２００２－１７５３３８号公報国際公開第２０１５／０３７１６５号特開２０１６－１７０７５３号公報特開２０１０－２２４９７２号公報

　システムの振る舞いを数理的に記述したシミュレーションモデルは、その数理的な記述の際に使われた近似や、現実の時間や空間的な情報が正確に得られない不確実性、時間的に変化しうるパラメータの影響により、現実を正確に再現できるとは限らない。すなわち、現実のシステムとそのシミュレーションモデルとの間には差異があることが多いので、そのシミュレーションに基づく制御は必ずしも適切であるとは限らない。そのため、特許文献１および特許文献２に開示された技術では、不確実性や時間変動を内包するシステムを対象とする制御モデルを生成できるとは限らないという問題点があった。

　特許文献３の装置によれば、過去から現在までの制御対象情報に基づいて予測制御モデルを自動的に構築し、構築した予測制御モデルを用いて制御対象の操作量を決定できる。ところで、特許文献３の装置は、入力装置を介して入力される入力情報に基づいて操作量を決定するため、制御対象と接続されていない場合には操作量を決定できない。すなわち、特許文献３の装置には、制御対象との接続が確立されず、制御対象に不確実性が内包される場合、予測制御モデルに基づいて操作量を決定できないという問題点があった。

　特許文献４の装置によれば、プラントの制御対象モデルの物理モデルパラメータと当該物理モデルパラメータのばらつきとを推定し、推定したばらつきを考慮して制御パラメータを最適化できる。しかしながら、特許文献４の装置には、プラントの運転データに基づいて物理モデルパラメータのばらつきを推定するため、プラントが予期せぬ状態になった際に最適な制御パラメータを設定できるとは限らないという問題点があった。

　特許文献５のシステムによれば、第一のシミュレーション条件に基づくシミュレーションの実行中に、他の領域に記憶された第二のシミュレーション条件に基づくシミュレーションに切り替えてシミュレーションを継続できる。しかしながら、特許文献５のシステムは、システムの状況変化に応じてシミュレーション条件を動的に変更できないため、システムの状況変化に追従しながらシミュレーションを継続できないという問題点があった。

　本発明の目的は、上述した課題を解決するために、制御対象が不確実性や時間変動を内包していた場合であっても、その制御対象を目的とする状態に制御することが可能な制御装置を提供することにある。

　本発明の一態様の制御装置は、制御対象システムを制御するための制御入力情報と、制御対象システムのシミュレーションモデルに関するシミュレータ情報とを格納し、シミュレーションモデルに基づいたシミュレーションを実行するシミュレータに入力するシミュレータ入力条件を制御入力情報に基づいて設定し、シミュレータ入力条件とシミュレータ情報とを用いてシミュレーションを実行して、シミュレータの入出力間のデータセットを生成するデータ生成部と、データ生成部からデータセットを取得して記憶するとともに、制御対象システムに関する制御目的情報と、制御対象システムの最適制御条件とを記憶し、制御目的情報に基づいてデータセットに含まれるいずれかのシミュレータ出力を評価指標として選択し、選択した評価指標に対応するデータセットと評価指標とを用いてシミュレータの入出力間の関係性を表す制御モデルを生成し、生成した制御モデルと最適制御条件とを用いて制御対象システムの最適制御入力を選択するモデル生成部とを備える。

　本発明の一態様の制御方法においては、制御対象システムを制御するための制御入力情報に基づいて、制御対象システムのシミュレーションモデルに基づいたシミュレーションを実行するシミュレータに入力するシミュレータ入力条件を設定し、制御対象システムのシミュレーションモデルに関するシミュレータ情報とシミュレータ入力条件とを用いてシミュレーションを実行してシミュレータの入出力間のデータセットを生成し、制御対象システムに関する制御目的情報に基づいてデータセットに含まれるいずれかのシミュレータ出力を評価指標として選択し、選択した評価指標に対応するデータセットと評価指標とを用いてシミュレータの入出力間の関係性を表す制御モデルを生成し、生成した制御モデルと制御対象システムの最適制御条件とを用いて制御対象システムの最適制御入力を選択する。

　本発明の一態様のプログラムは、制御対象システムを制御するための制御入力情報に基づいて、制御対象システムのシミュレーションモデルに基づいたシミュレーションを実行するシミュレータに入力するシミュレータ入力条件を設定する処理と、制御対象システムのシミュレーションモデルに関するシミュレータ情報とシミュレータ入力条件とを用いてシミュレーションを実行してシミュレータの入出力間のデータセットを生成する処理と、制御対象システムに関する制御目的情報に基づいてデータセットに含まれるいずれかのシミュレータ出力を評価指標として選択する処理と、選択した評価指標に対応するデータセットと評価指標とを用いてシミュレータの入出力間の関係性を表す制御モデルを生成する処理と、生成した制御モデルと制御対象システムの最適制御条件とを用いて制御対象システムの最適制御入力を選択する処理とをコンピュータに実行させる。

　本発明によれば、制御対象が不確実性や時間変動を内包していた場合であっても、その制御対象を目的とする状態に制御することが可能な制御装置を提供することが可能になる。

本発明の第１の実施形態に係る制御装置の構成の一例を示すブロック図である。本発明の第１の実施形態に係る制御装置が備えるデータ生成部の構成の一例を示すブロック図である。本発明の第１の実施形態に係る制御装置が備えるモデル生成部の構成の一例を示すブロック図である。本発明の第１の実施形態に係る制御装置の動作の一例について説明するためのフローチャートである。関連技術に係るシステム制御について説明するための概念図である。本発明の第１の実施形態に係るシステム制御について説明するための概念図である。本発明の第２の実施形態に係る制御装置の構成の一例を示すブロック図である。本発明の第２の実施形態に係る制御装置の動作の一例について説明するためのフローチャートである。本発明の第３の実施形態に係る制御装置の構成の一例を示すブロック図である。本発明の第３の実施形態に係る制御装置が備えるモデル更新部の構成の一例を示すブロック図である。本発明の第３の実施形態に係る制御装置の動作の一例について説明するためのフローチャートである。本発明の第３の実施形態に係るシステム制御について説明するための概念図である。本発明の第４の実施形態に係る制御装置の構成の一例を示すブロック図である。本発明の第４の実施形態に係る制御装置の動作の一例について説明するためのフローチャートである。本発明の第５の実施形態に係るシステムの構成の一例を示すブロック図である。本発明の各実施形態に係る制御装置を実現するハードウェア構成の一例を示すブロック図である。

　以下に、本発明を実施するための形態について図面を用いて説明する。ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。なお、以下の実施形態の説明に用いる全図においては、特に理由がない限り、同様箇所には同一符号を付す。また、以下の実施形態において、同様の構成・動作に関しては繰り返しの説明を省略する場合がある。また、図面中の矢印の向きは、一例を示すものであり、構成要素間の信号の向きなどを限定するものではない。

　（第１の実施形態）
　まず、本発明の第１の実施形態に係る制御装置について図面を参照しながら説明する。以下においては、本実施形態の制御装置の制御対象として、製造ラインやサプライチェーンなどのシステムを想定して説明する。なお、本実施形態の制御装置の制御対象は、これらのシステムに限定されない。例えば、本実施形態の制御装置は、センサなどによって状態を観測データとして取得でき、制御入力に基づいて動作するシステムであれば、任意のシステムを制御対象とすることができる。

　図１は、本実施形態の制御装置１の構成の一例を示すブロック図である。図１のように、制御装置１は、データ生成部１０とモデル生成部２０とを備える。

　データ生成部１０は、制御対象システム（以下、対象システムと呼ぶ）に関する制御入力の種類や範囲などの情報（以下、制御入力情報と呼ぶ）を格納する。また、データ生成部１０は、シミュレーションモデルに関する情報（以下、シミュレータ情報とも呼ぶ）を格納する。

　データ生成部１０は、制御入力情報に基づいて、シミュレータに入力する条件（以下、シミュレータ入力条件とも呼ぶ）を設定する。データ生成部１０は、シミュレータ入力条件とシミュレータ情報とを用いてシミュレーションを実行し、シミュレータの入出力間のデータセット（以下、データセットと呼ぶ）を生成する。データセットは、シミュレータへの入力データと、その入力データを用いたシミュレーションによって得られる出力データ（シミュレータ出力とも呼ぶ）とのセットである。データ生成部１０は、生成したデータセットをモデル生成部２０に出力する。

　モデル生成部２０は、データセットをデータ生成部１０から取得する。モデル生成部２０は、データ生成部１０から取得したデータセットを記憶する。また、モデル生成部２０は、対象システムの制御の目的とする変数や値に関する情報（以下、制御目的情報とも呼ぶ）を記憶する。また、モデル生成部２０は、対象システムの最適な制御条件（以下、最適制御条件とも呼ぶ）を記憶する。

　モデル生成部２０は、制御目的情報に基づいて、データセットに含まれるいずれかのシミュレータ出力を評価指標として選択する。モデル生成部２０は、選択した評価指標に対応するデータセットとその評価指標とを用いて、シミュレータ入出力間の関係性を表す制御モデルを生成する。モデル生成部２０は、生成した制御モデルと最適制御条件とを用いて最適な制御入力（以下、最適制御入力とも呼ぶ）を選択する。最適制御入力選択部２６は、選択した最適制御入力を格納する。例えば、モデル生成部２０に格納された最適制御入力は、図示しない対象システムに送信される。

　次に、データ生成部１０およびモデル生成部２０の詳細構成について一例を挙げて説明する。

　〔データ生成部〕
　図２は、データ生成部１０の詳細構成の一例を示すブロック図である。図２のように、データ生成部１０は、制御入力情報記憶部１１、入力条件設定部１２、シミュレータ情報記憶部１３、データセット生成部１４を有する。

　制御入力情報記憶部１１には、対象システムに関する制御入力情報が記憶される。例えば、制御入力情報記憶部１１には、製造ラインにおける製造工程や製造装置、製造プロセスなどの種類に関する情報、製造量や製造頻度、製造速度などの調整項目、それらの値の範囲の情報が制御入力情報として格納される。制御入力情報記憶部１１に格納される制御入力情報は、個別の製造ラインやプロセスに関する情報であってもよいし、サプライチェーンにおける各工程やフローに関する情報であってもよい。値の範囲は、計画として設定された情報であってもよいし、装置に入力可能なデータの範囲などであってもよい。また、範囲が定まっていない場合は、適宜、特定の値から範囲を定めてもよい。なお、制御入力情報は、上述した例に限定されない。

　入力条件設定部１２は、制御入力情報記憶部１１に記憶された制御入力情報に基づいて、シミュレータ入力条件を設定する。入力条件設定部１２は、シミュレータにおける全ての変数のうち、時間発展する状態変数と、制御入力と、固定的または時間変化する特性パラメータとに分離して、任意の形式の状態空間モデルをシミュレータ入力条件として設定する。

　例えば、シミュレータ内の状態変数ｘを時刻ｔ－１から時刻ｔへ時間発展させる関数をｆ_time、時刻ｔの状態変数ベクトルをｘ_tとすると、状態空間モデルの時間発展は、時刻ｔの１時刻前の時刻ｔ－１の状態変数ベクトルをｘ_t-1を用いて、以下の式１のように表現できる。ただし、時刻ｔ－１は、前回のシミュレーションを行った時刻に相当する。

　ここで、時刻ｔの制御入力をｕ_t、時刻ｔの固定的または時間変化する特性パラメータをθ_tとする。そして、時間発展する状態変数と、制御入力と、固定的または時間変化する特性パラメータとに分離した後の状態変数をｘ_tの上に波線を付した記号で表現する。このとき、時刻ｔの時間発展する状態変数は、時刻ｔよりも１時刻前の時刻ｔ-１の時間発展する状態変数と、時刻ｔの制御入力と、時刻ｔの固定的または時間変化する特性パラメータとを用いて、以下の式２のように表現できる。

　入力条件設定部１２は、シミュレーションを実行するために、状態空間モデルへの入力変数のうち、制御入力ｕ_tと特性パラメータθ_tのそれぞれの値と範囲とを設定する。例えば、入力条件設定部１２は、制御入力として製造量を標準量の０～２倍、特性パラメータとして製造能率（効率とも呼ぶ）を標準値の０～１倍といった範囲で設定する。なお、入力条件設定部１２は、制御入力情報記憶部１１に格納された制御入力情報に関して、設定する値の粒度や刻み幅などに指定がない場合は、制御入力ｕ_tと特性パラメータθ_tのそれぞれの値と範囲とを任意に設定できる。ただし、入力条件設定部１２によるシミュレータ入力条件に関する情報は、上述した例に限定されない。

　シミュレータ情報記憶部１３には、シミュレーションモデルに関する情報（シミュレータ情報とも呼ぶ）が格納される。例えば、シミュレータ情報とは、方程式や状態変数の時間発展を表す規則や、シミュレータを実行するための実行環境、必要なデータセットに関する情報などである。前述の式１においては、シミュレータの時間発展を表す写像（関数）ｆ_timeがシミュレータ情報に相当する。

　製造ラインの例では、各製造工程をマクロ的に見るモデルを基本形とした時間発展式をシミュレーションモデルとして適用できる。例えば、各製造工程をマクロ的に見るモデルとしては、相対速度モデルや、Buffered Production lineモデル、流体モデルなどが一例として挙げられる。また、各製造工程をミクロ的に見るモデルを基本形とした時間発展式をシミュレーションモデルとして適用できる。例えば、各製造工程をミクロ的に見るモデルとしては、マルチエージェントモデルが一例として挙げられる。なお、制御入力から目的とする出力（以下、目的出力と呼ぶ）を得ることさえできれば、本実施形態で適用できるシミュレーションモデルは上述のモデルに限定されない。

　データセット生成部１４は、入力条件設定部１２からシミュレータ入力条件を取得する。また、データセット生成部１４は、シミュレーションを実行するためのシミュレータ情報をシミュレータ情報記憶部１３から取得する。さらに、データセット生成部１４は、図示しないシミュレータを含む。データセット生成部１４は、取得したシミュレータ入力条件とシミュレータ情報とを用いてシミュレーションを実行し、シミュレータの入出力間のデータセットを生成する。

　データセット生成部１４は、シミュレータ情報に相当する時間発展を表す写像（関数）ｆ_time、制御入力ｕ_tおよび特性パラメータθ_tとの少なくともいずれかに基づいて、指定の範囲および回数でシミュレーションを実行する。

　そして、データセット生成部１４は、入力した制御入力ｕ_tや特性パラメータθ_tなどの制御入力情報と、その制御入力情報を用いたシミュレーション結果である出力データとのデータセットを全て取得する。このとき、データセット生成部１４が取得するデータセットが、シミュレータの入出力間のデータセットである。そして、データセット生成部１４は、取得したデータセットをモデル生成部２０に出力する。

　例えば、時刻ｔに出力された出力データを集めた行列をｙ_t ^*と表し、シミュレータ入力条件である制御入力ｕ_tおよび特性パラメータθ_tをｘ_t ^*と表す。このとき、対象とする時間（時刻ｔ₀から時刻Ｔまで）における入出力間のデータセットは、時刻ｔにおける制御入力ｕ_tおよび特性パラメータθ_tを用いて、以下の式３で表現できる。

　以上が、シミュレーションを確定論的に実行する例についての説明である。

　ところで、制御入力情報記憶部１１に格納された制御入力情報や、シミュレータ情報記憶部１３に格納されたシミュレータ情報だけでは、シミュレーションの実行に必要な情報が不足していたり、シミュレーションの精度が低かったりする場合もある。このような場合には、データセット生成部１４においてシミュレーションを確率的に実行することも可能である。

　例えば、シミュレータに設定する変数をガウス関数などの確率密度や、複数のデルタ関数の重ね合わせで表されたアンサンブル近似などの確率的な手法を用いたシミュレーションを複数回実行する。その結果、式３で表される入出力間のデータセットを確率的に得ることができる。なお、確率密度分布の平均値を用いる場合も、上述の確定論的にシミュレーションを実行する場合と同様の手順でデータセットを生成できる。

　〔モデル生成部〕
　図３は、モデル生成部２０の詳細構成の一例を示すブロック図である。図３のように、モデル生成部２０は、データセット記憶部２１、制御目的情報記憶部２２、制御モデル生成部２３、制御モデル情報記憶部２４、最適制御条件記憶部２５、最適制御入力選択部２６、最適制御入力情報記憶部２７を有する。

　データセット記憶部２１には、データ生成部１０によって生成されるデータセットが記憶される。すなわち、データセット記憶部２１には、データ生成部１０のデータセット生成部１４が算出するデータセットが格納される。データセット記憶部２１には、式３のように、全てのシミュレータ出力に関する入出力間のデータセットが格納される。

　制御目的情報記憶部２２には、制御の目的とする変数や値に関する情報（制御目的情報とも呼ぶ）が記憶される。

　制御モデル生成部２３は、データセット記憶部２１と制御目的情報記憶部２２とを参照し、シミュレータ入出力間の関係性を表す制御モデルを生成する。

　制御モデル生成部２３は、データセット記憶部２１に格納されたデータセットに含まれるシミュレータ出力の中から評価指標として選択する。すなわち、制御モデル生成部２３は、シミュレータ出力のうち、制御目的情報記憶部２２に格納された制御の目的とする変数、すなわち目的に応じて特定の基準を満たすようにしたい出力を評価指標として選択する。

　言い換えると、制御モデル生成部２３は、制御目的情報記憶部２２に格納された制御目的情報を取得し、取得した制御目的情報に基づいてデータセット記憶部２１に格納されたいずれかのシミュレータ出力を評価指標として選択する。

　例えば、制御モデル生成部２３は、以下の式４のように、時刻ｔにおけるシミュレータ出力を集めた行列ｙ_t ^*に含まれる特定の出力値（行列ｙ_t ^*の要素ｙ^* _j,t）を時刻ｔの評価指標Ｊ_tとして選択する。

　また、例えば、制御モデル生成部２３は、以下の式５のように、時刻ｔにおけるシミュレータ出力を集めた行列ｙ_t ^*から、重み付けの係数ｗを用いて複数の出力値の重ね合わせによって表現される出力値Σｗ_kｙ^* _k,tを評価指標Ｊ_tとして選択してもよい。

　制御モデル生成部２３は、データセット記憶部２１に格納されたデータセットと、生成した評価指標Ｊとを用いて、シミュレータ入出力間の関係性を表す制御モデルを生成する。制御モデル生成部２３は、生成した制御モデルを制御モデル情報記憶部２４に記憶させる。

　制御入力ｕ_tと特性パラメータθ_tとを多次元のベクトルｘ_t ^*で表現する場合、ベクトルｘ_t ^*と評価指標Ｊ_tとの関係は、以下の式６のように表現できる。ただし、式６において、Ｈの上に波線を載せた記号は、多次元のベクトルｘ_t ^*と、１次元の評価指標Ｊ_tとを関係付けるベクトルである。また、式６において、ｅ_tは誤差項である。これ以降、式６のような関係式で表現される関係を制御モデルと呼ぶ。

　また、制御モデルは、制御入力ｕと特性パラメータθとを入力とするので、制御モデルを表す写像ｍ_cont.を用いて、以下の式７のように表現できる。

　例えば、式７に用いられる写像ｍ_cont.は、ガウス過程回帰などの手法によって得ることができる。制御入力ｕと特性パラメータθとを変数とするガウス過程回帰（ＧＰＲ：Gaussian Process Regression）を用いると、評価指標Ｊは、以下の式８のように表現される。ただし、式８において、ｍ（u，θ）は平均値（期待値）、ｋ（u，θ，u’，θ’）はカーネル関数ｋを用いて表現される分散である。

　制御モデル情報記憶部２４には、式６や式７で表現される制御モデルが格納される。言い換えると、制御モデル情報記憶部２４には、制御モデル生成部２３によって生成される制御モデルが記憶される。なお、制御モデル情報記憶部２４に格納される制御モデルの生成方法は、式６～式８の手法に限定されない。また、本実施形態においては、制御モデルの違いによる制御特性や制御の妥当性への影響については考慮しない。

　最適制御条件記憶部２５には、対象システムを最適に制御するための条件（以下、最適制御条件とも呼ぶ）が記憶される。

　最適制御入力選択部２６は、最適制御条件記憶部２５に格納された最適制御条件と、制御モデル情報記憶部２４に格納された制御モデルとを取得する。最適制御入力選択部２６は、取得した最適制御条件と制御モデルとを用いて最適な制御入力（最適制御入力とも呼ぶ）を選択する。最適制御入力選択部２６は、選択した最適制御入力を最適制御入力情報記憶部２７に格納する。

　ここで、最適制御入力選択部２６が最適制御入力を選択する一連の動作について説明する。

　制御モデル情報記憶部２４に格納された式６または式７で表される制御モデルの関係式（制御モデル式とも呼ぶ）は、制御入力ｕと特性パラメータθとを入力として評価指標Ｊを得る形式になっている。そのため、制御モデル情報記憶部２４に格納された制御モデル式は、入力された値の範囲や変動に対する評価指標Ｊの値の範囲や応答を確認する形式としては適している。しかし、対象システムの次ステップまたは任意の指定の時刻に入力すべき制御入力ｕの値や、特性パラメータθの値を算出したりするためには、評価指標Ｊを最適評価指標Ｊ_optに定める必要がある。以下の式９は、評価指標Ｊを最適評価指標Ｊ_optに定めて、制御入力ｕや特性パラメータθを算出するための式である。なお、下記の式９のΛは、逆関数内のパラメータである。式９は、式６や式７の逆関数に相当する。なお、ここでは式６や式７の関係式を求めてから、その逆関数に相当する式９を算出する手続きを説明したが、データセットと評価指標Ｊから直接に式９を求めてもよい。

　最適制御入力選択部２６は、式９を解いて、制御入力ｕや特性パラメータθを算出する。最適評価指標Ｊ_optは、最適制御条件記憶部２５に格納された情報によって規定される。制御モデル情報記憶部２４は、最適評価指標Ｊ_optを定めて算出された制御入力ｕを最適制御入力として最適制御入力情報記憶部２７に格納する。

　最適制御入力情報記憶部２７には、最適制御入力選択部２６によって導出される最適制御入力が記憶される。

　例えば、式６または式７の評価指標Ｊが製造効率を表す場合、製造効率が最大になるときの値を最適評価指標Ｊ_optに設定できる。また、評価指標Ｊが在庫量を表す場合、在庫量が最小になるときの値を最適評価指標Ｊ_optに設定できる。このように、最適評価指標Ｊ_optを設定するための制御条件は、制御対象や目的、時間などに合わせて設定すればよく、時間的に変化してもよい。なお、制御条件に関する情報は、上述した例に限定されない。

　以上が、本実施形態の制御装置１の構成についての説明である。続いて、本実施形態の制御装置１の動作について図面を参照しながら説明する。

　（動作）
　図４は、本実施形態の制御装置１の動作について説明するためのフローチャートである。なお、図４のフローチャートに沿った説明においては、制御装置１を動作の主体として説明する。

　図４において、まず、制御装置１は、制御対象である対象システムに対応する制御入力の範囲から、シミュレータに入力するデータセットを含むシミュレータ入力条件と、シミュレータの動作条件を含むシミュレータ情報とを設定する（ステップＳ１１）。

　次に、制御装置１は、シミュレータ入力条件とシミュレータ情報とを用いてシミュレーションを実行し、データセットを生成する（ステップＳ１２）。制御装置１は、生成したデータセットを格納する。なお、制御装置１は、異なるシミュレータ入力条件やシミュレータ情報を用いてシミュレーションを繰り返し実行してもよい。

　次に、制御装置１は、格納している制御目的情報に基づいて、データセットに含まれるシミュレータ出力の中から評価指標を抽出する（ステップＳ１３）。

　次に、制御装置１は、格納しているデータセットと、抽出した評価指標とを用いて、シミュレータへの制御入力情報と評価指標との関係性を満たす制御モデルを生成する（ステップＳ１４）。制御装置１は、生成した制御モデルを格納する。

　次に、制御装置１は、格納している制御条件と制御モデルとを満たす最適制御入力を算出する（ステップＳ１５）。

　以上が、図４のフローチャートに沿った制御装置１の動作に関する説明である。

　一般に、不確実性や時間変動を内包する対象システムの場合には、制御や予測のために必要となる実際のシステム（以下、実システムと呼ぶ）に関する観測データの取得に課題がある。本実施形態の制御装置は、以下に示す特徴によって、不確実性や時間変動を内包する対象システムを制御できる。

　第１の特徴は、対象システムの振る舞いを完全・高精度に再現可能なモデルを生成せず、目的の状態と制御可能な制御器の制御入力との関係をモデル化することによって、対象システムを目的とする状態に制御することである。

　第２の特徴は、対象システムのモデル化で必要な目的状態と制御入力との関係を、実システムの観測データではなく、実システムの振る舞いを模倣するシミュレータを用いて生成することである。そのため、本実施形態の制御装置は、不確実な実行条件がある場合や、精度が不十分な場合には、確率的なシミュレーションを実行することもできる。

　以上のように、本実施形態の制御装置は、シミュレータの実行結果から制御の目的に特化したモデルを生成できる。その結果、本実施形態の制御装置は、実システムの観測環境や動作状況に依存した観測データの取得に頼ることなく、シミュレーションの実行条件の設定変更のみによって制御モデルの生成や修正を実行できる。すなわち、本実施形態の制御装置によれば、不確実性や時間変動を内包する制御対象システムを、より適切に目的の状態へ制御できる。

　（関連技術）
　次に、図面を参照しながら、本発明の各実施形態と関連技術とを比較して説明する。

　図５は、関連技術による典型的なシステム制御方法について説明するための概念図である。図６は、第１の実施形態によるシステム制御方法について説明するための概念図である。

　一般に、環境またはシステム（以降、単にシステムと記載する）に対する制御方式は、図５のように、フィードバック方式とフィードフォワード方式とに大別される。フィードバック方式では、システムに関する過去の観測データをセンサなどによって取得し、取得した観測データと所定の規則とに基づいてシステムを制御する。フィードフォワード方式では、システムの次の状態を予測する予測モデルによって、将来の状態を予測してシステムを制御する。図５に示すように、いずれの制御方式においてもシステムの観測データが必要である。

　しかしながら、一般的な制御方式には、不確実性や時間変動を内包するシステムを対象とした場合、以下のような状況においては適切な制御を実行できない。

　第１の状況は、フィードバックまたは予測モデルの生成に不可欠な観測データがなかったり、明らかに不足していたりする状況である。第１の状況においては、不足しているデータの種類やデータの値の範囲が明らかでない場合もある。

　第２の状況は、制御が行われている状況である。第２の状況においては、システムを制御していないときの振る舞いを特徴付ける固定的または時間変化する特性についてのデータを取得できないという課題がある。

　図６のように、第１の実施形態の制御装置は、対象システムの目的とする状態への制御において、そのシステムの振る舞いを完全・高精度に再現可能なシミュレーションモデルまたは予測モデルを生成しない。第１の実施形態の制御装置は、対象システムの制御入力と目的出力との間の関係を表す制御モデルを生成することによって、制御可能な制御器の制御入力と目的の状態との関係を明らかにする。第１の実施形態の制御装置によれば、制御対象が不確実性や時間変動を内包し、完全・高精度なモデル化が実質的に不可能なシステムに関してもシミュレーションの制御モデルを生成できる。

　また、図５に示す関連技術によれば、実際のシステムに設置された制御器とセンサなどによって、シミュレーションに必要なデータをリアルタイムで取得できる。しかし、図５のような関連技術では、対象システムが、センサからの情報を十分に得られていない場合や、不確実性や時間変動を内包する場合は、実際のシステムから取得される観測データに信頼性が得られない場合がある。

　各実施形態の制御装置は、制御入力と、目的とする出力のデータとを、そのシステムの振る舞いを模したシミュレーションモデルによって生成する。なお、現実のシステムとシミュレーションモデルとの間には差異がある。各実施形態の制御装置は、システムの振る舞いや予測にシミュレーションモデルを用いるのではなく、可能性のある制御入力とその制御入力に対する出力とを組み合わせた複数のデータセットを得る目的のシミュレーションモデルを生成する。すなわち、各実施形態の制御装置は、関連技術においてシミュレーションに用いる観測データの代わりに、シミュレーションモデルに基づいて生成する計算データを制御に用いる。

　以上のように、第１の実施形態では、不確実性や時間変動を内包するシステムを対象とした場合の課題を解決するために、実際のシステムの入出力の関係に着目した制御モデルを生成する。そして、第１の実施形態では、制御モデルの生成に必要なデータをシミュレーションモデルによって生成する。

　（第２の実施形態）
　次に、本発明の第２の実施形態に係る制御装置について図面を参照しながら説明する。

　図７は、本実施形態の制御装置２の構成の一例を示すブロック図である。図７のように、制御装置２は、データ生成部１０とモデル生成部２０－２とを備える。モデル生成部２０－２は、データセット記憶部２１、制御目的情報記憶部２２、制御モデル生成部２３、制御モデル情報記憶部２４、最適制御条件記憶部２５、最適制御入力選択部２６、最適制御入力情報記憶部２７に加えて、妥当性判定部２８を有する。

　制御装置２は、妥当性判定部２８を含むモデル生成部２０－２を備える点で、第１の実施形態の制御装置１とは異なる。なお、制御装置２は、妥当性判定部２８を含む点以外は第１の実施形態の制御装置１と同様なので、妥当性判定部２８以外の構成については詳細な説明を省略する。

　〔妥当性判定部〕
　妥当性判定部２８は、制御モデル情報記憶部２４に制御モデルが格納されると、その制御モデルの妥当性について判定する。すなわち、妥当性判定部２８は、制御モデル生成部２３は生成した制御モデルの妥当性について判定する。妥当性判定部２８は、制御モデルが妥当でないと判定した場合、シミュレータ入力条件を修正する指示をデータ生成部１０に出力する。一方、妥当性判定部２８によって制御モデルが妥当であると判定された場合、最適制御入力選択部２６は、妥当であると判定された制御モデルと最適制御条件とを用いて最適制御入力を選択する。

　入力条件設定部１２は、妥当性判定部２８からシミュレータ入力条件を修正する指示を取得すると、シミュレータに入力された制御入力、特性パラメータの値および範囲の中から不適切または不足している値（以下、不適値とよぶ）を特定する。入力条件設定部１２は、特定した不適値に関して入力条件を修正する。

　例えば、製造ラインの例においては、入力条件設定部１２は、制御入力として新たに製造頻度を標準値の０～１倍として加えたり、特性パラメータである製造能率を標準値の０～１．５倍に変更したりする修正を加える。

　ここで、制御モデル生成部２３によって生成される制御モデルの妥当性について妥当性判定部２８が判定する例について説明する。

　妥当性判定部２８は、制御モデル情報記憶部２４に格納された制御モデルが妥当でないと判定した場合に、シミュレータへ入力された制御入力や、特性パラメータの値または範囲のうち、不適値を特定してシミュレータ入力条件を修正する。例えば、妥当性判定部２８による妥当性の判定方法については、以下の２つの観点が考えられる。

　一つ目の観点は、シミュレータに入力するデータセットに含まれる入力値の範囲である。妥当性判定部２８は、式６または式７のような制御モデル式を求めた際に、その制御モデル式で想定した関数の有効な範囲と、実際に制御対象である制御器に対して設定または設定予定の値の範囲とに関して、相違がないか判定する。ただし、制御モデル式で想定した値の範囲とは、関数の有効な範囲としての制御入力ｕおよび特性パラメータθの値の範囲である。例えば、モデル生成部２０－２は、制御モデル式における入力値の範囲が実際に設定する範囲からずれていた場合には、実際に設定する値の範囲と制御モデル式で有効であった値の差の範囲とを特定する。そして、モデル生成部２０－２は、特定した範囲に基づいた新たなシミュレータ入力条件を入力条件設定部１２に設定させる。

　二つ目の観点は、入力の変化に対する評価指標の応答特性である。この二つ目の観点は、最適な制御値を一意に決定するという第一の点と、その最適な制御値の状態を安定的に保つという第二の点とに分けられる。

　二つ目の観点のうち第一の点は、最適制御入力選択部２６が、対象システムの次ステップまたは任意の指定の時刻に入力すべき制御入力の値を決めたり、特性パラメータの値を算出したりする動作に関係する。式６または式７のような制御モデル式を用いて、一意の最適値を決定するためには、少なくとも二つの必要条件がある。一つ目の必要条件は、最適制御条件記憶部２５に適切な最適評価指標Ｊ_optが格納されていることである。二つ目の必要条件は、式６または式７の関数の形が、例えば、凸関数または単峰性を示すか、極大値または極小値を持つことである。言い換えると、式６または式７のような制御モデル式を用いて最適値を一意に決定するためには、所定の範囲の異なる制御入力ｕと特性パラメータθとの組み合わせに対して出力値が異なる必要がある。この条件が満たされない場合は、最適評価指標Ｊ_optを満たす制御入力ｕと特性パラメータθとの組み合わせが複数通り存在する可能性があるため、最適値を一意に決定することができない。すなわち、制御装置１は、上述の必要条件が満たされない場合、目的出力を生成できない。ただし、逆関数に相当する式９内のパラメータΛによって、例えば所定の範囲を指定するなどの制限を行うことで、制御入力uや特性パラメータθを複数通りの組み合わせの中から特定することもできる。これでも特定ができない、または所定の範囲についての情報が事前に無い場合は、上述の必要条件が満たされないこととなる。

　二つ目の観点のうち第二の点に関して、一般に、制御入力ｕと特性パラメータθとの組み合わせがずれた場合、またはシステムの特性がずれた場合に、出力値を最適値に戻す方向に制御入力ｕが作用する状態を安定という。例えば、式６または式７のような制御モデル式が、所定の範囲において２回連続微分可能であるとき、その２階微分値が正の値となれば、制御モデル式は下に凸な関数となり、出力値を最小化する場合において安定となる。

　妥当性判定部２８は、上記のような入力の変化に対する評価指標の応答特性の観点で制御モデルが妥当でないと判定した場合、入力条件設定部１２に設定を修正させ、制御モデル生成の元となるシミュレータへの入出力データを変更する。また、式８のようにガウス過程回帰などの手法を用いて制御モデル式を生成する際には、用いる入出力データセットの値の範囲やカーネル関数の形などに制限を加えたり、適切に選択したりすればよい。なお、制御モデルの妥当性の判定方法と、その判定結果に基づく修正方法は、上述した例に限定されない。

　以上が、本実施形態の制御装置２の構成についての説明である。続いて、本実施形態の制御装置２の動作について図面を参照しながら説明する。

　（動作）
　図８は、本実施形態の制御装置２の動作について説明するためのフローチャートである。なお、図８のフローチャートに沿った説明においては、制御装置２を動作の主体として説明する。

　図８において、まず、制御装置２は、制御対象である対象システムに対応する制御入力の範囲から、シミュレータに入力するデータセットを含むシミュレータ入力条件と、シミュレータの動作条件を含むシミュレータ情報とを設定する（ステップＳ２１）。

　次に、制御装置２は、シミュレータ入力条件とシミュレータ情報とを用いてシミュレーションを実行し、データセットを生成する（ステップＳ２２）。制御装置２は、生成したデータセットを格納する。なお、制御装置２は、異なるシミュレータ入力条件やシミュレータ情報を用いてシミュレーションを複数回繰り返し実行してもよい。

　次に、制御装置２は、格納している制御目的情報に基づいて、データセットに含まれるシミュレータ出力の中から評価指標を抽出する（ステップＳ２３）。

　次に、制御装置２は、格納しているデータセットと、抽出した評価指標とを用いて、シミュレータへの制御入力情報と評価指標との関係性を満たす制御モデルを生成する（ステップＳ２４）。制御装置２は、生成した制御モデルを格納する。

　ここで、制御装置２は、生成した制御モデルの妥当性を判定する（ステップＳ２５）。例えば、制御装置２は、前述したとおり、入力値の範囲と入力の変化に対する評価指標の応答特性を評価することによって、制御モデルの妥当性を判定する。

　制御装置２は、制御モデルが妥当ではないと判定した場合（ステップＳ２５でＮｏ）、不適値を特定し、特定した不適値に関して修正されたシミュレータ入力条件を算出する（ステップＳ２６）。そして、制御装置２は、修正されたシミュレータ入力条件を新しいシミュレーション入力条件に設定して、ステップＳ２１～ステップＳ２４の処理を再び実行して制御モデルを生成し、制御モデルの妥当性を判定する（ステップＳ２５）。

　一方、制御装置２は、制御モデルが妥当であると判定した場合（ステップＳ２５でＹｅｓ）、格納している制御条件と制御モデルとを満たす最適制御入力を算出する（ステップＳ２７）。

　以上が、図８のフローチャートに沿った制御装置２の動作に関する説明である。

　本実施形態の制御装置は、第１の実施形態の制御装置の第１および第２の特徴に加えて、以下に示す第３の特徴を有する。

　第３の特徴は、目的状態と制御入力との関係のモデル化が妥当でない場合には、シミュレータの実行条件を変更して、モデル化に用いるデータセットを修正可能なことである。その結果、本実施形態の制御装置によれば、実システムの観測環境や動作状況に依存した観測データの取得に頼ることなく、シミュレーションの実行条件の設定変更のみによって制御モデルの生成および修正を実行できる。

　以上のように、本実施形態の制御装置によれば、制御モデルの生成に必要なデータをシミュレーションモデルによって生成できるだけではなく、生成した制御モデルの妥当性を判定して制御モデルを修正できる。

　（第３の実施形態）
　次に、本発明の第３の実施形態に係る制御装置について図面を参照しながら説明する。

　図９は、本実施形態の制御装置３の構成を示すブロック図である。図９のように、制御装置３は、データ生成部１０とモデル生成部２０とに加えて、モデル更新部３０を備える。

　制御装置３は、モデル更新部３０を備える点で、第１の実施形態の制御装置１とは異なる。なお、制御装置３は、モデル更新部３０を備える点以外は第１の実施形態の制御装置１と同様なので、モデル更新部３０以外の構成については詳細な説明を省略する。

　〔モデル更新部〕
　図１０は、モデル更新部３０の構成の一例を示すブロック図である。図１０のように、モデル更新部３０は、制御モデル更新部３１と観測データ記憶部３２とを有する。

　制御モデル更新部３１は、モデル生成部２０によって算出され、制御入力として適用された最適制御入力を取得する。また、制御モデル更新部３１は、取得した最適制御入力が対象システムに入力された際のシステムの出力値を観測し、観測した出力値の少なくとも一部を観測データとして観測データ記憶部３２に格納する。

　観測データには、対象システムの出力値の一部に関する情報が少なくとも含まれる。特に、観測データには、式４または式５で表現される評価指標Ｊと同等の情報が含まれる。例えば、制御モデル更新部３１は、対象システムに設置されたセンサなどの計測器によって取得されるデータや、製造量、速度、人手または自動的に算出されるデータを観測データとして取得する。なお、観測データの種類や取得方法については、ここで挙げた例に限定されない。

　制御モデル更新部３１は、取得した最適制御入力と、観測データ記憶部３２に格納された観測データとに基づいて制御モデルを更新する。制御モデル更新部３１は、更新された制御モデルをモデル生成部２０に出力する。具体的には、制御モデル更新部３１は、更新された制御モデルをモデル生成部２０の制御モデル情報記憶部２４に格納する。

　観測データ記憶部３２には、制御モデル更新部３１によって、最適制御入力が対象システムに入力された際の出力値に関する観測データとして格納される。

　次に、制御モデル更新部３１の動作について詳細に説明する。制御モデル更新部３１は、モデル生成部２０から入力された最適制御入力と、観測データ記憶部３２に格納された観測データとに基づいて対象システムの制御モデルを更新する。例えば、対象システムに関する制御モデルの更新方法については、以下の３通りの方法がある。

　第１の更新方法は、入力された最適制御入力と観測データとの組み合わせから新たな制御モデルを生成する方法である。例えば、第１の実施形態と同様の方法によって制御モデルを生成できる。第１の実施形態では、式３で表されるシミュレータからの入出力データセットおよび制御目的に基づいた評価指標を用いて制御モデルを生成する。本実施形態では、制御に用いた制御入力の値と、その制御入力の下でのシステムの出力値を用いて制御モデルを生成する。すなわち、第１の実施形態では、シミュレーションによる仮想的なデータを用いて制御モデルを生成するのに対し、本実施形態のモデル更新では、実際に入力された制御入力値と実測された観測データを用いて制御モデルを生成する。第１の実施形態の方法と本実施形態の方法では、制御モデルを生成するためのデータの起源が異なり、データの種類は同等である。そのため、本実施形態においても、第１の実施形態と同様の方法で制御モデルを生成できる。第１の更新方法は、対象システムの制御入力に対する出力の振る舞いが、更新前のシミュレータに基づいて生成した制御モデルによる振る舞いと比べて差異が大きい場合に適用すると効果的である。

　第２の更新方法は、入力された最適制御入力と観測データとの組み合わせについてのデータセットと、データ生成部１０のシミュレーションによって得られるデータセットとに基づいて新たな制御モデルを生成する方法である。例えば、制御入力および評価指標のそれぞれに関する情報に、データ生成部１０のシミュレーションによって得られるデータセットを基本として実際の制御入力および観測データを追加し、それらを同種のデータとみなして制御モデルを生成する。すなわち、シミュレーションによって得られるデータと、実測されるデータとを合わせて制御モデルを生成する。なお、第２の更新方法は、データの起源が２つになるだけであり、制御モデルの生成に用いるデータの種類は同等であるため、第１の実施形態と同様の方法で制御モデルを生成できる。第２の更新方法は、制御開始直後などの観測データが少ないときや、観測の頻度が少ない場合などに有効である。また、第２の更新方法では、シミュレータによって生成された制御モデルを基本としながら、実測された観測データによって少しずつ制御モデルを修正できる。そのため、第２の更新方法は、対象システムの振る舞いと、更新前のシミュレータに基づいて生成した制御モデルによる振る舞いとに大差がない場合に適用すると効果的である。

　第３の更新方法は、未来の最適制御入力をこれまでの値の時間発展とみなすとともに、未来の評価指標を観測データとみなすことによって状態空間モデルを構成し、制御入力情報を観測データによってベイズ更新する方法である。例えば、式３で表現される時刻ｔにおける制御入力ｕ_tおよび特性パラメータθ_tに対する次の計算時間ステップ、すなわち未来値をそれぞれ制御入力ｕ_t+1および特性パラメータθ_t+1とする。この場合、以下の式１０のように、時刻ｔより１時刻後の時刻ｔ＋１における状態変数ベクトルｘ_t+1は、時刻ｔにおける状態変数ベクトルｘ_tから生成されるように表現できる。なお、式１０において、Mは、制御入力uと特性パラメータθ以外で表される変数以外の、状態ベクトルに含めて予測または推定する変数を表す。例えば、Ｍには、制御モデルの誤差項eの分散を調整するパラメータ（ハイパーパラメータとも言われる）などが想定される。

　一般に、式１０のように表現する場合、マルコフ性が成り立つ必要がある。しかし、値の変化が十分小さくなるように計算時間ステップを設定できれば、必ずしもマルコフ性が成り立たなくてもよい。

　式１０の時間発展を表す写像をｆとし、その時間発展における誤差、いわゆるシステムノイズをｖ_t+1とすると、式１０の表現は、以下の式１１のように一般化される。

　式１１を式６に当てはめると、制御モデルは、以下の式１２のように表現できる。

　時刻ｔ＋１の評価指標Ｊ_t+1は、計算された次時間ステップにおける制御入力ｕ_t+1が対象システムに入力された際にそのシステムから出力される値である。すなわち、評価指標Ｊ_t+1は、観測データ記憶部３２に格納される情報に基づいた値である。制御入力の次時間ステップにおける計算値、写像ｆに含まれるパラメータ、システムノイズは、以下の式１３のように各変数を確率的に扱い、観測データによって更新された事後分布として求めることができる。

　状態ベクトルｘ^*の要素である制御入力uについて説明すると、式１３の右辺第一項は、計算された制御入力ｕ_t+1の確からしさを表す尤度である。式１３の右辺第一項の値は、例えば計算された制御入力ｕ_t+1を式１２に記載された上波線付きベクトルＨを用いて評価指標に変換した結果と、実際に観測された評価指標との差に基づいて算出することができる。式１３の右辺第２項は、制御入力ｕ_t+1の事前分布、すなわち計算結果である。

　このように、第３の更新方法は、観測データ記憶部３２に格納された情報に基づいて、制御入力の値を更新する。以降、観測データ記憶部３２に観測データが格納されるたびに、式１２で示す制御モデルの更新が行われる。第３の更新方法は、得られた観測データに合わせて制御入力が自動的に更新される。そのため、第３の更新方法は、初期の制御モデルの精度が不十分である場合に適用すると効果的である。また、第３の更新方法は、実際に観測されたシステムの振る舞いと、更新前のシミュレータに基づいて生成した制御モデルによる振る舞いとの間に差異があり、何らかの規則性やトレンドがある場合に適用すると効果的である。

　以上のように、制御モデル更新部３１における対象システムに関する制御モデルの更新方法について、３種類の更新方法を挙げて説明した。これらの方法は、上述したように、観測データ記憶部３２に格納された観測データの取得量や頻度などの情報と、制御モデル生成部２３で生成された制御モデルの精度などの情報とに基づいて選択すればよい。また、上記の３つの更新方法は例示であって、制御モデルの更新手段はこれらに限定されない。

　以上が、本実施形態の制御装置３の構成についての説明である。続いて、本実施形態の制御装置３の動作について図面を参照しながら説明する。

　（動作）
　図１１は、本実施形態の制御装置３の動作について説明するためのフローチャートである。なお、図１１のフローチャートに沿った説明においては、制御装置３を動作の主体として説明する。

　図１１において、まず、制御装置３は、制御対象である対象システムに対応する制御入力の範囲から、シミュレータに入力するデータセットを含むシミュレータ入力条件と、シミュレータの動作条件を含むシミュレータ情報とを設定する（ステップＳ３１）。

　次に、制御装置３は、シミュレータ入力条件とシミュレータ情報とを用いてシミュレーションを実行し、データセットを生成する（ステップＳ３２）。制御装置３は、生成したデータセットを格納する。なお、制御装置３は、異なるシミュレータ入力条件やシミュレータ情報を用いてシミュレーションを繰り返し実行してもよい。

　次に、制御装置３は、格納している制御目的情報に基づいて、データセットに含まれるシミュレータ出力の中から評価指標を抽出する（ステップＳ３３）。

　次に、制御装置３は、格納しているデータセットと、抽出した評価指標とを用いて、シミュレータへの制御入力情報と評価指標との関係性を満たす制御モデルを生成する（ステップＳ３４）。制御装置３は、生成した制御モデルを格納する。

　次に、制御装置３は、格納している制御条件と制御モデルとを満たす最適制御入力を算出する（ステップＳ３５）。

　ここで、制御装置３は、対象システムに最適制御入力値が入力されたことによって、対象システムからの出力値が観測データとして観測されているか否かを判定する（ステップＳ３６）。

　制御装置３は、新たな観測データが観測されている場合（ステップＳ３６でＹｅｓ）、制御入力と観測データとに基づいて制御モデルを更新する（ステップＳ３７）。ステップＳ３７の後は、ステップＳ３５に戻る。

　一方、制御装置３は、新たな観測データが観測されていない場合（ステップＳ３６でＮｏ）、動作を終了とする。

　以上が、図１１のフローチャートに沿った制御装置３の動作に関する説明である。

　ここで、図１２を用いて、本実施形態の制御装置の効果について説明する。第１の実施形態のシステム制御方法については図６を用いて説明した。図６の例では、対象システムを制御するための制御入力条件をリアルタイムで取得するわけではない。それに対し、図１２の例では、制御モデルに基づいて設定された最適制御入力を対象システムに入力し、その最適制御入力によって制御された対象システムの出力値を用いて制御モデルを更新する。

　すなわち、本実施形態の制御装置は、実システムの観測データを用いない場合（以下、オフラインとも呼ぶ）と、実際の制御やセンサデータ取得を用いる場合（以下、オンラインとも呼ぶ）とで異なる処理を実行する。オフラインの場合、本実施形態の制御装置は、制御入力と目的出力との関係を特定し、その関係を得るためのシミュレーションモデルの入力条件を設定する。一方、オンラインの場合、本実施形態の制御装置は、実際の制御値やセンサデータなどの観測データを用いて、既に生成された制御モデルを更新または修正する。

　以上のように、本実施形態の制御装置によれば、制御モデルの生成に必要なデータをシミュレーションモデルによって生成できるだけではなく、実システムの観測データに基づいて制御モデルを更新できる。

　（第４の実施形態）
　次に、本発明の第４の実施形態に係る制御装置について図面を参照しながら説明する。

　図１３は、本実施形態の制御装置４の構成を示すブロック図である。図１３のように、制御装置４は、データ生成部１０と、モデル生成部２０－２と、モデル更新部３０とを備える。

　制御装置４は、第３の実施形態の制御装置３のモデル生成部２０を第２の実施形態のモデル生成部２０－２に置換させた構成を有する。なお、制御装置４の各構成要素は、第１～第３の実施形態のいずれかにおいて示した構成と同様なので、構成についての説明は省略する。

　（動作）
　図１４は、本実施形態の制御装置４の動作について説明するためのフローチャートである。なお、図１４のフローチャートに沿った説明においては、制御装置４を動作の主体として説明する。

　図１４において、まず、制御装置４は、制御対象である対象システムに対応する制御入力の範囲から、シミュレータに入力するデータセットを含むシミュレータ入力条件と、シミュレータの動作条件を含むシミュレータ情報とを設定する（ステップＳ４１）。

　次に、制御装置４は、シミュレータ入力条件とシミュレータ情報とを用いてシミュレーションを実行し、データセットを生成する（ステップＳ４２）。制御装置４は、生成したデータセットを格納する。なお、制御装置４は、異なるシミュレータ入力条件やシミュレータ情報を用いてシミュレーションを複数回繰り返し実行してもよい。

　次に、制御装置４は、格納している制御目的情報に基づいて、データセットに含まれるシミュレータ出力の中から評価指標を抽出する（ステップＳ４３）。

　次に、制御装置４は、格納しているデータセットと、抽出した評価指標とを用いて、シミュレータへの制御入力情報と評価指標との関係性を満たす制御モデルを生成する（ステップＳ４４）。制御装置４は、生成した制御モデルを格納する。

　ここで、制御装置４は、生成した制御モデルの妥当性を判定する（ステップＳ４５）。例えば、制御装置４は、入力値の範囲と入力の変化に対する評価指標の応答特性を評価することによって、制御モデルの妥当性を判定する。

　制御装置４は、制御モデルが妥当ではないと判定した場合（ステップＳ４５でＮｏ）、不適値を特定し、特定した不適値に関して修正されたシミュレータ入力条件を算出する（ステップＳ４６）。そして、制御装置４は、修正されたシミュレータ入力条件を新しいシミュレーション入力条件に設定して、ステップＳ４１～ステップＳ４４の処理を再び実行して制御モデルを生成し、制御モデルの妥当性を判定する（ステップＳ４５）。

　一方、制御装置４は、制御モデルが妥当であると判定した場合（ステップＳ４５でＹｅｓ）、格納している制御条件と制御モデルとを満たす最適制御入力を算出する（ステップＳ４７）。

　ここで、制御装置４は、対象システムに最適制御入力値が入力されたことによって、対象システムからの出力値が観測データとして観測されているか否かを判定する（ステップＳ４８）。

　制御装置４は、新たな観測データが観測されている場合（ステップＳ４８でＹｅｓ）、制御入力と観測データとに基づいて制御モデルを更新する（ステップＳ４９）。ステップＳ４７の後は、ステップＳ４５に戻る。

　一方、制御装置４は、新たな観測データが観測されていない場合（ステップＳ４８でＮｏ）、動作を終了とする。

　以上が、図１４のフローチャートに沿った制御装置４の動作に関する説明である。

　以上のように、本実施形態の制御装置によれば、制御モデルの生成に必要なデータをシミュレーションモデルによって生成できるだけではなく、生成した制御モデルの妥当性を判定して制御モデルを修正できる。さらに、本実施形態の制御装置によれば、実システムの観測データに基づいて制御モデルを更新できる。

　（第５の実施形態）
　次に、本発明の第５の実施形態に係るシステムについて図面を参照しながら説明する。図１５は、本実施形態のシステム１００の構成を示すブロック図である。図１５のように、システム１００は、制御装置１１０と制御対象システム１２０とを備える。制御装置１１０は、第１～第４の実施形態の制御装置のいずれかである。

　システム１００は、第１～第４の実施形態のいずれかに相当する制御装置１１０に加えて、制御対象システム１２０を含むものである。制御装置１１０は、自装置で生成した最適制御入力を制御対象システム１２０に送信する。制御対象システム１２０は、制御装置１１０から最適制御入力を受信する。制御対象システム１２０には、受信した最適制御入力に基づいた設定がなされ、設定された最適制御入力に基づいて動作する。

　第３および第４の実施形態の制御装置で制御装置１１０を構成する場合、制御対象システム１２０は、最適制御入力に基づいて動作した結果である出力値を制御装置１１０に送信する。制御装置１１０は、制御対象システム１２０の出力値に含まれる観測データを用いて、制御対象システム１２０の制御モデルを更新する。

　以上が、本実施形態のシステムについての説明である。本実施形態のシステムによれば、制御対象システムを目的の状態へ制御できる制御装置と、制御対象システムとを単一のシステムで構成できる。なお、制御対象システムに制御装置を含ませて、単一のシステムとして構成してもよい。

　（ハードウェア）
　ここで、本発明の各実施形態に係る制御装置を実現するハードウェア構成について、図１６のコンピュータ９０を一例として挙げて説明する。なお、図１６のコンピュータ９０は、各実施形態の制御装置の処理を実行するための構成例であって、本発明の範囲を限定するものではない。

　図１６のように、コンピュータ９０は、プロセッサ９１、主記憶装置９２、補助記憶装置９３、入出力インターフェース９５および通信インターフェース９６を備える。図１６においては、インターフェースをＩ／Ｆ（Interface）と略して表記する。プロセッサ９１、主記憶装置９２、補助記憶装置９３、入出力インターフェース９５および通信インターフェース９６は、バス９９を介して互いにデータ通信可能に接続される。また、プロセッサ９１、主記憶装置９２、補助記憶装置９３および入出力インターフェース９５は、通信インターフェース９６を介して、インターネットやイントラネットなどのネットワークに接続される。

　プロセッサ９１は、補助記憶装置９３等に格納されたプログラムを主記憶装置９２に展開し、展開されたプログラムを実行する。本実施形態においては、コンピュータ９０にインストールされたソフトウェアプログラムを用いる構成とすればよい。プロセッサ９１は、本実施形態に係る制御装置による処理を実行する。

　主記憶装置９２は、プログラムが展開される領域を有する。主記憶装置９２は、例えばＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリとすればよい。また、ＭＲＡＭ（Magnetoresistive Random Access Memory）などの不揮発性メモリを主記憶装置９２として構成・追加してもよい。

　補助記憶装置９３は、種々のデータを記憶する。補助記憶装置９３は、ハードディスクやフラッシュメモリなどのローカルディスクによって構成される。なお、種々のデータを主記憶装置９２に記憶させる構成とし、補助記憶装置９３を省略することも可能である。

　入出力インターフェース９５は、コンピュータ９０と周辺機器とを接続するためのインターフェースである。通信インターフェース９６は、規格や仕様に基づいて、インターネットやイントラネットなどのネットワークを通じて、外部のシステムや装置に接続するためのインターフェースである。入出力インターフェース９５および通信インターフェース９６は、外部機器と接続するインターフェースとして共通化してもよい。

　コンピュータ９０には、必要に応じて、キーボードやマウス、タッチパネルなどの入力機器を接続するように構成してもよい。それらの入力機器は、情報や設定の入力に使用される。なお、タッチパネルを入力機器として用いる場合は、表示機器の表示画面が入力機器のインターフェースを兼ねる構成とすればよい。プロセッサ９１と入力機器との間のデータ通信は、入出力インターフェース９５に仲介させればよい。

　また、コンピュータ９０には、情報を表示するための表示機器を備え付けてもよい。表示機器を備え付ける場合、コンピュータ９０には、表示機器の表示を制御するための表示制御装置（図示しない）が備えられていることが好ましい。表示機器は、入出力インターフェース９５を介してコンピュータ９０に接続すればよい。

　また、コンピュータ９０には、必要に応じて、ディスクドライブを備え付けてもよい。ディスクドライブは、バス９９に接続される。ディスクドライブは、プロセッサ９１と図示しない記録媒体（プログラム記録媒体）との間で、記録媒体からのデータ・プログラムの読み出し、コンピュータ９０の処理結果の記録媒体への書き込みなどを仲介する。記録媒体は、例えば、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光学記録媒体で実現できる。また、記録媒体は、ＵＳＢ（Universal Serial Bus）メモリやＳＤ（Secure Digital）カードなどの半導体記録媒体や、フレキシブルディスクなどの磁気記録媒体、その他の記録媒体によって実現してもよい。

　以上が、本発明の各実施形態に係る制御装置を可能とするためのハードウェア構成の一例である。なお、図１６のハードウェア構成は、各実施形態に係る制御装置の処理を実行するためのハードウェア構成の一例であって、本発明の範囲を限定するものではない。また、各実施形態に係る制御装置に関する処理をコンピュータに実行させるプログラムも本発明の範囲に含まれる。さらに、各実施形態に係るプログラムを記録したプログラム記録媒体も本発明の範囲に含まれる。

　各実施形態の制御装置の構成要素は、任意に組み合わせることができる。また、各実施形態の制御装置の構成要素は、ソフトウェアによって実現してもよいし、回路によって実現してもよい。

　以上、実施形態を参照して本発明を説明してきたが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１８年１月１６日に出願された日本出願特願２０１８－００４８８４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１、２、３、４　　制御装置
　１０　　データ生成部
　１１　　制御入力情報記憶部
　１２　　入力条件設定部
　１３　　シミュレータ情報記憶部
　１４　　データセット生成部
　２０　　モデル生成部
　２１　　データセット記憶部
　２２　　制御目的情報記憶部
　２３　　制御モデル生成部
　２４　　制御モデル情報記憶部
　２５　　最適制御条件記憶部
　２６　　最適制御入力選択部
　２７　　最適制御入力情報記憶部
　２８　　妥当性判定部
　３０　　モデル更新部
　３１　　制御モデル更新部
　３２　　観測データ記憶部
　１００　　システム
　１１０　　制御装置
　１２０　　制御対象システム

Claims

　制御対象システムを制御するための制御入力情報と、前記制御対象システムのシミュレーションモデルに関するシミュレータ情報とを格納し、前記シミュレーションモデルに基づいたシミュレーションを実行するシミュレータに入力するシミュレータ入力条件を前記制御入力情報に基づいて設定し、前記シミュレータ入力条件と前記シミュレータ情報とを用いて前記シミュレーションを実行して、前記シミュレータの入出力間のデータセットを生成するデータ生成手段と、
　前記データ生成手段から前記データセットを取得して記憶するとともに、前記制御対象システムに関する制御目的情報と、前記制御対象システムの最適制御条件とを記憶し、前記制御目的情報に基づいて前記データセットに含まれるいずれかのシミュレータ出力を評価指標として選択し、選択した前記評価指標に対応する前記データセットと前記評価指標とを用いて前記シミュレータの入出力間の関係性を表す制御モデルを生成し、生成した前記制御モデルと前記最適制御条件とを用いて前記制御対象システムの最適制御入力を選択するモデル生成手段とを備える制御装置。
　前記データ生成手段は、
　前記制御対象システムに関する前記制御入力情報が記憶される制御入力情報記憶手段と、
　前記制御入力情報記憶手段に記憶された制御入力情報に基づいて前記シミュレータ入力条件を設定する入力条件設定手段と、
　前記シミュレーションモデルに関する前記シミュレータ情報を記憶させるシミュレータ情報記憶手段と、
　前記入力条件設定手段から前記シミュレータ入力条件を取得するとともに、前記シミュレーションを実行するための前記シミュレータ情報を前記シミュレータ情報記憶手段から取得し、取得した前記シミュレータ入力条件と前記シミュレータ情報とを用いて前記シミュレーションを実行し、前記シミュレータの入出力間の前記データセットを生成するデータセット生成手段とを有する請求項１に記載の制御装置。
　前記データ生成手段によって生成される前記データセットが記憶されるデータセット記憶手段と、
　前記制御対象システムの前記制御目的情報が記憶される制御目的情報記憶手段と、
　前記制御目的情報記憶手段に記憶された前記制御目的情報を取得し、取得した前記制御目的情報に基づいて前記データセット記憶手段に記憶された前記データセットに含まれるいずれかのシミュレータ出力を前記評価指標として選択し、前記データセット記憶手段に記憶された前記データセットと、生成した前記評価指標とを用いて、前記シミュレータの入出力間の関係性を表す制御モデルを生成する制御モデル生成手段と、
　前記制御モデル生成手段によって生成される前記制御モデルが記憶される制御モデル情報記憶手段と、
　前記制御対象システムを最適に制御するための前記最適制御条件が記憶される最適制御条件記憶手段と、
　前記最適制御条件記憶手段に格納された前記最適制御条件と、前記制御モデル情報記憶手段に格納された前記制御モデルとを取得し、取得した前記最適制御条件と前記制御モデルとを用いて前記制御対象システムの前記最適制御入力を選択する最適制御入力選択手段と、
　前記最適制御入力選択手段によって選択される前記最適制御入力が記憶される最適制御入力情報記憶手段とを有する請求項１または２に記載の制御装置。
　前記モデル生成手段は、
　前記制御モデルの妥当性を判定する妥当性判定手段を有し、
　前記妥当性判定手段によって前記制御モデルが妥当でないと判定された場合、前記シミュレータ入力条件を修正する指示を前記データ生成手段に出力し、
　前記妥当性判定手段によって前記制御モデルが妥当であると判定された場合、妥当であると判定された前記制御モデルと前記最適制御条件とを用いて前記最適制御入力を選択する請求項１乃至３のいずれか一項に記載の制御装置。
　前記データ生成手段は、
　確率的な手法を用いた前記シミュレーションを複数回実行することによって前記シミュレータの入出力間の前記データセットを生成する請求項１乃至４のいずれか一項に記載の制御装置。
　前記モデル生成手段は、
　特定の時刻における前記シミュレータの出力を集めた行列に含まれる特定の出力値を前記評価指標として選択する請求項１乃至５のいずれか一項に記載の制御装置。
　前記モデル生成手段によって選択される前記最適制御入力を取得するとともに、前記制御対象システムに前記最適制御入力が入力された際の前記制御対象システムの出力値に関する観測データを記憶し、前記最適制御入力と前記観測データとに基づいて前記制御モデルを更新し、更新された前記制御モデルを前記モデル生成手段に出力するモデル更新手段を備え、
　前記モデル生成手段は、
　前記モデル更新手段によって前記観測データが取得された場合、前記観測データに基づいて前記モデル更新手段によって更新された前記制御モデルを用いて前記最適制御入力を選択し、
　前記モデル更新手段によって前記観測データが取得されていない場合、前記モデル生成手段が生成する前記制御モデルに基づいて前記最適制御入力を選択する請求項１乃至６のいずれか一項に記載の制御装置。
　請求項７に記載の制御装置と、
　前記制御装置によって制御される前記制御対象システムとによって構成され、
　前記制御装置は、
　前記制御対象システムの前記最適制御入力を前記制御対象システムに出力し、
　前記制御対象システムは、
　前記制御装置から取得される前記最適制御入力に基づいて動作した結果を前記観測データとして前記制御装置に出力するシステム。
　制御対象システムを制御するための制御入力情報に基づいて、前記制御対象システムのシミュレーションモデルに基づいたシミュレーションを実行するシミュレータに入力するシミュレータ入力条件を設定し、
　前記制御対象システムのシミュレーションモデルに関するシミュレータ情報と前記シミュレータ入力条件とを用いて前記シミュレーションを実行して前記シミュレータの入出力間のデータセットを生成し、
　前記制御対象システムに関する制御目的情報に基づいて前記データセットに含まれるいずれかのシミュレータ出力を評価指標として選択し、
　選択した前記評価指標に対応する前記データセットと前記評価指標とを用いて前記シミュレータの入出力間の関係性を表す制御モデルを生成し、
　生成した前記制御モデルと前記制御対象システムの最適制御条件とを用いて前記制御対象システムの最適制御入力を選択する制御方法。
　制御対象システムを制御するための制御入力情報に基づいて、前記制御対象システムのシミュレーションモデルに基づいたシミュレーションを実行するシミュレータに入力するシミュレータ入力条件を設定する処理と、
　前記制御対象システムのシミュレーションモデルに関するシミュレータ情報と前記シミュレータ入力条件とを用いて前記シミュレーションを実行して前記シミュレータの入出力間のデータセットを生成する処理と、
　前記制御対象システムに関する制御目的情報に基づいて前記データセットに含まれるいずれかのシミュレータ出力を評価指標として選択する処理と、
　選択した前記評価指標に対応する前記データセットと前記評価指標とを用いて前記シミュレータの入出力間の関係性を表す制御モデルを生成する処理と、
　生成した前記制御モデルと前記制御対象システムの最適制御条件とを用いて前記制御対象システムの最適制御入力を選択する処理とをコンピュータに実行させるプログラムを記録させたプログラム記録媒体。