WO2017195257A1

WO2017195257A1 - 電子制御装置、数式モデル構築方法

Info

Publication number: WO2017195257A1
Application number: PCT/JP2016/063777
Authority: WO
Inventors: 辰也堀口; 広津　鉄平
Original assignee: 株式会社日立製作所
Priority date: 2016-05-09
Filing date: 2016-05-09
Publication date: 2017-11-16

Abstract

本発明は、逐次的な挙動予測演算に依拠することなく、挙動予測精度を向上させることを目的とする。本発明に係る電子制御装置において、制御対象の数式モデルは、時系列に沿った複数の操作量を入力として受け取り、時系列に沿って複数の状態量を出力する関数として構成されており、前記数式モデルの入力と出力の関数として表される評価関数を最適化することにより、前記数式モデルに対して入力する操作量を最適化する（図３Ａ）。

Description

電子制御装置、数式モデル構築方法

　本発明は、電子制御装置に関するものである。

　大規模なプラント制御や非線形性の強いアクチュエータ制御で用いられるモデル予測制御、またはロボット制御や自動運転において用いられる軌道計画においては、非線形関数の数理計画に基づく状態最適化により、一定期間の将来に亘る状態最適化を含めた制御を実施する場合がある。これにより、複雑な制御対象や制約条件下で制御対象を好適に制御することができる。以下、本明細書においてこれらの制御を予測制御と呼ぶ。

　予測制御の解法としては、制御対象やその周辺環境の挙動を表す制御対象モデルを構築し、制御対象モデルの制御目的と制約条件を組み込んだ評価関数を最適化する解を探索する手法が知られている。探索手法としては、解析的探索手法やヒューリスティック探索手法が知られている。これら解法においては共通して、制御対象やその周辺環境の数式モデルを用いて、制御対象の将来挙動を予測することが知られている。

　このような制御対象モデルの構築においては、物理方程式に基づいた数式モデルが構築され、予測制御演算によって同モデルを用いて逐次的に挙動予測を実施する。この手法においては、物理方程式に対して、例えば制御系における制御周期毎に（あるいは任意の更新周期毎に）、制御対象に与える操作量と、センサ等により観測される制御対象および周辺環境の状態量を入力する。物理方程式の出力は、制御対象の挙動変化の予測結果を表している。このような演算を、以下予測更新演算と呼ぶ。

　予測制御は、このような挙動予測に基づいた状態最適化を行う制御であり、モデル精度が制御性に与える影響は大きい。そのため、モデルの高次化および実機とのフィッティング等によるモデル精度の向上が試みられる。しかし、演算時間の制約、制御対象の非線形性、センサ誤差や外乱、その他定式化困難な要素の存在により、モデル化誤差が常に発生する。

　下記特許文献１は、上述のような課題に鑑みて、制御対象の実動作データに基づく制御対象モデリング手法として、ニューラルネットワーク等の機械学習技術を用いた制御が考案されている。同文献においては、ニューラルネットワークを用いて、従来の物理方程式に基づく制御対象の挙動予測と同様に、制御対象の現在状態および制御対象に対して与える操作量を入力とし、操作量により変化する制御対象の状態量を出力とする。これにより制御対象の挙動を予測している。

特開２０１４－０３８６０９号公報

　予測制御における挙動予測は、前述のような制御対象モデルを用いた短期間の将来挙動予測を、必要とされる予測期間に達するまで繰り返し用いる。そのため、モデル化誤差の蓄積により、予測期間が長くなるのにともなって予測精度が低下し、所望の制御性が得られないという課題がある。

　予測制御においては、上述の挙動予測演算を数十から数千回繰り返すことにより最適解が探索される。挙動予測演算は先述のように直前の演算結果を基礎として新たな演算を実施する逐次的な演算であり、例えばＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）を用いた演算並列化による高速化は困難である。そのため高速化困難な挙動予測演算が律則となり、制御演算の高速化には限界がある。結果、演算コストの高い予測制御は、その適用範囲が比較的制御周期の長い制御対象に限られる。

　本発明は、上記のような課題に鑑みてなされたものであり、逐次的な挙動予測演算に依拠することなく、挙動予測精度を向上させることを目的とする。

　本発明に係る電子制御装置において、制御対象の数式モデルは、時系列に沿った複数の操作量を入力として受け取り、時系列に沿って複数の状態量を出力する関数として構成されており、前記数式モデルの入力と出力の関数として表される評価関数を最適化することにより、前記数式モデルに対して入力する操作量を最適化する。

　本発明に係る電子制御装置によれば、逐次的な挙動予測演算に依拠することなく、制御対象の挙動予測の精度を向上させることができる。

実施形態１に係る電子制御装置１とその制御対象を示す図である。電子制御装置１の内部構成を示す機能ブロック図である。制御対象モデル４の構成を示す図である。制御対象モデル４をニューラルネットワークによって構成した例を示す。最適化器３の内部構成を示すブロック図である。油圧ソレノイドシステム６の実動作データの例である。従来の制御対象モデルの構成を示す。実施形態２に係る電子制御装置１の制御対象を示す図である。実施形態２に係る電子制御装置１とその制御対象を示す図である。実施形態２における制御対象モデル４の構成を示す図である。マルチリンクアーム６１の実動作データの例である。実施形態３に係る電子制御装置１の構成図である。

＜実施の形態１＞
　図１は、本発明の実施形態１に係る電子制御装置１とその制御対象を示す図である。電子制御装置１は、入力値１０とフィードバック値１１を入力として用いて、出力値５１を演算する。油圧ソレノイドシステム６は、出力値５１を入力として用いて動作する。電子制御装置１は、出力値５１によって油圧ソレノイドシステム６を制御する。制御対象モデル４については後述する。

　入力値１０は、図示しない上位システムから与えられる。油圧ソレノイドシステム６が備えるセンサ９は、油圧ソレノイドシステム６の状態量を検出し、その検出結果をフィードバック値１１として電子制御装置１に対して出力する。出力値５１は、油圧ソレノイドシステム６に対する操作量である。

　油圧ソレノイドシステム６は、ソレノイド弁７と油圧シリンダ８を備える。油圧シリンダ８は、弁の位置を変位させる。ソレノイド弁７は、油圧回路に対して供給する油量を調整する。ソレノイド弁７は、出力値５１にしたがって油量を調整するので、出力値５１を用いて油圧ソレノイドシステム６の動作を制御することができる。

　図２は、電子制御装置１の内部構成を示す機能ブロック図である。電子制御装置１は、初期パラメータ生成部２、最適化器３、制御対象モデル４、出力選択部５を備える。初期パラメータ生成部２は、最適化器３が最適解を探索する過程における初期パラメータ２１を生成する。最適化器３は、後述する手順にしたがって最適解を探索する。制御対象モデル４は、制御対象である油圧ソレノイドシステム６の挙動を数式モデルによって記述したものである。制御対象モデル４は、例えば事前に機械学習するなどによってあらかじめ最適な数式モデルとして構築しておく。出力選択部５は、最適化器３の出力のうち、電子制御装置１の出力として最適なものを選択する。

　図３Ａは、制御対象モデル４の構成を示す図である。制御対象モデル４は、制御対象の状態量の初期値Ｘ０（時刻０における値）と、時刻０～時刻ｎ－１までの時系列に沿った操作量Ｕ０～Ｕｎ－１とを入力として受け取る。制御対象モデル４は、時刻１～時刻ｎまでの時系列に沿った状態量（予測値）ｘ１～ｘｎを出力する。すなわち制御対象モデル４は、時刻ごとの操作量と状態量を逐次的に算出するのではなく、これらを一括して入出力するように構成されている。

　図３Ｂは、制御対象モデル４をニューラルネットワークによって構成した例を示す。ニューラルネットワークは、入力層／中間層／出力層を有する。入力層は、制御対象モデル４に対する入力値をそれぞれ受け取るニューロンによって構成されている。中間層は、入力層の１以上のニューロンからの出力を受け取り、次の層（図３Ｂにおいては出力層）に対して演算結果を出力するニューロンによって構成されている。出力層は、前の層（図３Ｂにおいては中間層）の１以上のニューロンからの出力を受け取り、それぞれ状態量を出力するニューロンによって構成されている。

　図４は、最適化器３の内部構成を示すブロック図である。最適化器３は、交配制御器３０と個体群３１を備える。個体群３１内の各個体は、図３で説明した制御対象モデル４を用いて制御対象の将来の状態量を予測する。各個体はさらに、下記式１によって与えられる評価値３２（Ｆ（ｘｉ））を算出して出力する。

　Ｆ（ｘｉ）＝Σ（Ｗ１＊Ｉ＾２－Ｗ２＊ｌｎ（Ｘｓｌｉｍ－Ｘｓ）＋Ｗ３＊（Ｘｃｔｇｔ－Ｘｃ）＾２）　（式１）

　ｘｉは、ｉ番目の個体に与えられる状態量である。Ｗ１～Ｗ３は、重み係数である。Ｘｓｌｉｍは、ソレノイド弁の動作上端における衝突を防ぐために与えられる変位の上限設定値である。Ｘｃｔｇｔは、油圧シリンダ８の目標変位である。I（ｔ）は、時刻ｔにおけるソレノイド弁７の電流の予測値である。Ｘｓ（ｔ）は、時刻ｔにおけるソレノイド弁７の弁変位の予測値である。Ｘｃ（ｔ）は、時刻ｔにおける油圧シリンダ８の弁変位の予測値である。ＸｓｌｉｍとＸｃｔｇｔは、時不変な定数であってもよいし時変な変数であってもよい。

　交配制御器３０は、各個体に対して初期パラメータ２１を状態量ｘ０として与える。また、各個体に対して与える操作量を個体間で交換させることにより、各個体に対して与える操作量ｕ０～ｕｎ－１を変更する。各個体は、変更された操作量ｕ０～ｕｎ－１を用いて改めて状態量ｘ１～ｘｎと評価値３２を算出する。最適化器３は、この処理を繰り返すことにより、評価値３２が最適（式１の場合は最小）となる初期値Ｘ０／操作量ｕ０～ｕｎ－１／状態量ｘ１～ｘｎの組み合わせを探索する。

　式１の評価関数は、以下のように構成されている。第１項は、エネルギー消費量低減の観点から、電流Ｉ（ｔ）を抑える作用を有する。第２項は、ソレノイド弁７の弁体が上端に衝突することによる摩耗を抑制する作用を有する。第３項は、油圧シリンダ８の弁体を目標に追従させる作用を有する。式１の評価関数を最小化する操作量を探索することにより、エネルギー消費を抑制しつつ油圧ソレノイドシステム６を目標値に向かって動作させることができる。

　電子制御装置１の動作手順について説明する。センサ９は、油圧ソレノイドシステム６の状態量として、（ａ）ソレノイド弁７に流れる電流、（ｂ）ソレノイド弁７の弁体変位、（ｃ）油圧シリンダ８の弁体変位、を取得する。初期パラメータ生成部２は、時刻０におけるこれら状態量をＸ０として最適化器３に対して供給する。最適化器３は、評価値３２が最適となる操作量を探索する。出力選択部５は、最適な操作量を出力値５１として出力する。これらの過程において最適化器３は、図３Ａ～図３Ｂに例示したように、油圧ソレノイドシステム６の将来の状態量（例えば３２制御周期分）を得ることができる。

　図５は、油圧ソレノイドシステム６の実動作データの例である。表の左から順に、制御対象の動作データに対応する時刻ＩＤ、コントローラ指令値、ソレノイド弁７の電流値、ソレノイド弁７の弁体変位、油圧シリンダ８の弁体変位、を示す。これらは、油圧ソレノイドシステム６に対して様々なコントローラ指令値を印加した際の油圧ソレノイドシステム６の各状態量の変化を時系列に並べたものである。コントローラ指令値は、操作量ｕに対応するものである。

　制御対象モデル４は、図５に例示するような実動作データに適合するようにあらかじめ構築することができる。例えばニューラルネットワークを用いて制御対象モデル４を構築する場合、図５の実動作データを学習することにより、油圧ソレノイドシステム６の実動作とニューラルネットワークの挙動がよく合致するように制御対象モデル４を構築することができる。例えば時刻ＩＤ：１７６４を時刻０として学習する場合、太枠線で囲んだ部分をニューラルネットワークの入力とし、点線枠で囲んだ部分をニューラルネットワークの出力として、学習を実施する。これにより、時刻０～時刻ｎまでの挙動を予測するように構成された制御対象モデル４を構築することができる。

　図６は、従来の制御対象モデルの構成を示す。従来の制御対象モデルを用いた挙動予測演算は、操作量と状態量を制御対象モデルに対して制御周期毎に逐次的に入力し、各時刻における制御対象の状態量予測値を出力として得る。したがって、同じ制御対象モデルを予測期間（図６においては３２制御周期）分だけ繰り返し用いる。そうすると、制御対象モデルがモデル化誤差を有している場合、そのモデル化誤差が３２回の予測演算分だけ蓄積する。また、各時刻における状態量を演算するために要する時間をＴとすると、３２制御周期分の状態量を演算するために要する時間は３２Ｔとなるので、多くの演算時間が必要である。

　これに対し本実施形態１に係る電子制御装置１は、複数時刻における操作量を制御対象モデル４に対してまとめて入力し、複数時刻における状態量を制御対象モデル４からまとめて得ることができる。これにより、図６のように同じ制御対象モデルを繰り返し用いる必要性がなくなり、モデル化誤算の蓄積が防止される。したがって、予測制御における挙動予測精度が向上し、制御性が向上する。また、演算回数を１回のみとすることにより予測演算時間が短縮され、制御演算に要する演算時間が低減される。これにより、高速な周期で動作する制御対象に対して予測制御を適用することが可能となる。

＜実施の形態２＞
　図７は、本発明の実施形態２に係る電子制御装置１の制御対象を示す図である。本実施形態２においては、図７に示すマルチリンクアーム６１を制御対象とする。マルチリンクアーム６１は、モータ０～モータ３がリンクによって接続された構造を有する。センサ９は、各モータの回転角θ０～θ３、マルチリンクアーム６１の先端位置座標（ｘ，ｙ，ｚ）、障害物６２の位置座標（ｘｏ，ｙｏ，ｚｏ）を取得する。

　図８は、本実施形態２に係る電子制御装置１とその制御対象を示す図である。電子制御装置１は、マルチリンクアーム６１の先端位置を、入力値１０により与えられる目標位置まで移動するための軌道を計画し、その計画にしたがって各モータを制御する。電子制御装置１の構成は、制御対象モデル４がマルチリンクアーム６１に合わせて構築されていることを除けば実施形態１と同様である。

　図９は、本実施形態２における制御対象モデル４の構成を示す図である。本実施形態２における制御対象モデル４は、実施形態１で説明した入力に加えて、時刻０よりも前の過去の状態量ｘ＿－１～ｘ＿－Ｎが入力される。例えば過去の５制御周期分の状態量を入力することができる。本実施形態２における操作量は、モータ０～３に対して指示する角度変化量である。

　図１０は、マルチリンクアーム６１の実動作データの例である。表の左から順に、制御対象の動作データに対応する時刻ＩＤ、各モータ(モータ０～３)に対して与えられるコントローラ指令値（角度変化量）、各モータの回転角θ０～θ３、マルチリンクアーム６１の先端位置座標、を示す。これらは、マルチリンクアーム６１に対して様々なコントローラ指令値を印加した際のマルチリンクアーム６１の各状態量の変化を時系列に並べたものである。

　例えばニューラルネットワークを用いて制御対象モデル４を構築する場合、図１０の実動作データを学習することにより、マルチリンクアーム６１の実動作とニューラルネットワークの挙動がよく合致するように制御対象モデル４を構築することができる。例えば時刻ＩＤ：１１３６を時刻０として学習する場合、太枠線で囲んだ部分をニューラルネットワークの入力とし、点線枠で囲んだ部分をニューラルネットワークの出力として、学習を実施する。実施形態１と異なり、時刻ＩＤ：１１３１～１１３５における状態量が入力として追加されている。

　各モータはサーボモータであり、コントローラより与えられる指令値である角度変化量にしたがってサーボ制御を実施する。しかし、モータ特性や環境条件に起因して、指令値に対して瞬時に応答することは難しい。したがって図１０に示すデータにおいては、角度変化量のコントローラ指令値と実際の角度変化との間に誤差が生じている。このような誤差は実機の特性や実環境によって影響されるので、制御対象の物理モデルによってこれら誤差を表すことは困難である。これに対し図１０のような実動作データを用いて制御対象モデル４を構築することにより、このような誤差を反映することができる。

　本実施形態２において、個体群３１内の各個体は、下記式２によって与えられる評価値３２（Ｆ（ｘｉ））を算出して出力する。

　Ｆ（ｘｉ）＝Σ（Ｗ１＊（（ｘｔｇｔ－ｘ（ｔ））＾２＋（ｙｔｇｔ－ｙ（ｔ））＾２＋（ｚｔｇｔ－ｚ（ｔ））＾２）＋Ｗ２＊（Δθ＿０（ｔ）＾２＋Δθ＿１（ｔ）＾２＋Δθ＿２（ｔ）＾２＋Δθ＿３（ｔ）＾２）＋Ｆｐｅｎａｌｔｙ　（式２）

　ｘｉは、ｉ番目の固体に与えられる設定値である。Ｗ１～Ｗ２は、重み係数である。ｘｔｇｔ、ｙｔｇｔ、ｚｔｇｔは、先端位置座標の目標値である。ｘ（ｔ）、ｙ（ｔ）、ｚ（ｔ）は、時刻ｔにおける先端位置座標の予測値である。Δθ＿０（ｔ）、Δθ＿１（ｔ）、Δθ＿２（ｔ）、Δθ＿３（ｔ）は、時刻ｔにおける各モータの角度変化量である。Ｆｐｅｎａｌｔｙは、ペナルティ関数である。

　ペナルティ関数は、マルチリンクアーム６１が禁止領域を通過しないようにするために加えられる関数である。例えば産業用ロボットアームは、その動作空間内に固定障害物または移動障害物が存在し得るので、これを回避して目的位置に到達する必要がある。ペナルティ関数は、これら障害物の位置座標を禁止領域として定義し、マルチリンクアーム６１が禁止領域を通過するような操作量の評価値３２に対してペナルティを与えるように構成されている。これにより、禁止領域に対して進入することを防ぐ操作量が採択される確率を高め、マルチリンクアーム６１が障害物６２と衝突することを防ぐことができる。ペナルティ関数は、下記式３のように設定される。Ｗ３は、式２のＦｐｅｎａｌｔｙ以外の項が取り得る値に対して十分に大きい定数である。禁止領域は、センサ９が障害物６２の座標を検出した結果に基づき定めることができる。

　マルチリンクアーム６１が禁止領域を通過する場合：Ｆｐｅｎａｌｔｙ＝Ｗ３、それ以外の場合：Ｆｐｅｎａｌｔｙ＝０　（式３）

　式２～式３を評価関数として用いることにより、障害物６２を避けるようにマルチリンクアーム６１の挙動を変更しつつ目的位置まで移動させる軌道を計画することができる。また、制御演算の収束が不十分であるためペナルティが発生し得る場合は、最適化器３から出力選択部５に対して衝突危険性を通知し、出力選択部５は事前に定めた衝突回避動作を強制的に選択してもよい。本実施形態２によれば、例えば障害物６２が移動する場合などのように時間的に変化する周辺環境下においても、制御対象をその時間変化に対して適応させることができる。

＜実施の形態３＞
　図１１は、本発明の実施形態３に係る電子制御装置１の構成図である。実施形態１～２で説明した初期パラメータ生成部２、最適化器３、制御対象モデル４、出力選択部５のうち全部または一部は、これらの機能を実装した回路デバイスなどのハードウェアを用いて構成することもできるし、同様の機能を実装したソフトウェアをＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１００が実行することにより構成することもできる。図１１においては後者の構成例として、電子制御装置１がＣＰＵ１００と記憶装置１１０を備える例を示した。

　最適化器３が制御対象の将来挙動を予測する前に、制御対象モデル４をあらかじめ構築しておく必要がある。例えば、制御対象モデル４の数式モデルが有するパラメータを変数として定義しておき、その変数を実動作データにしたがって調整することにより、制御対象モデル４を制御対象の実挙動に近づけることができる。

　ＣＰＵ１００と回路デバイスを併用することもできる。例えば個体群３１をＦＰＧＡなどのハードウェアによって実装し、最適化器３本体と交配制御器３０はソフトウェアによって実装することができる。その他機能部についても同様である。

　最適化器３は、評価値３２を最適化することにより、制御対象モデル４が制御対象の将来挙動を正確に出力できるように最適化する。その最適化結果は、制御対象モデル４に対する入力と出力の対応関係を記述する制御マップデータ１１１として記憶装置１１０内に格納することができる。電子制御装置１は、制御マップデータ１１１が記述している対応関係と同様の状態量をセンサ９が検出したときは、制御マップデータ１１１の記述にしたがって操作量を定めるとともに、制御対象の将来挙動を予測することができる。制御マップデータ１１１が記述していない状態量をセンサ９が検出したときは、実施形態１～２で説明した手法にしたがって最適化を実施し、その結果を制御マップデータ１１１に対して追記すればよい。

＜本発明の変形例について＞
　本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換える事が可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について他の構成の追加・削除・置換をすることができる。

　以上の実施形態においては、時刻０～時刻ｎ－１までの操作量と状態量を入力とし、時刻１～時刻ｎまでの状態量を出力としたが、その他時刻の組み合わせを入出力するように制御対象モデル４を構築してもよい。例えば時刻０～時刻ｎ－１までの操作量と状態量を入力とし、時刻２～時刻ｎ＋１までの状態量あるいは時刻－１～時刻ｎ－１までの状態量を出力してもよい。すなわち、時系列に沿って複数の操作量を入力し、時系列に沿って複数の状態量を出力する、任意の制御対象モデル４を用いることができる。

　以上の実施形態においては、最適化器３は評価値３２を最小化することを説明したが、評価関数の構成によっては評価値３２を最大化してもよい。すなわち、評価関数の構成に応じて評価値３２を最適化すればよい。

　以上の実施形態においては、人工蜂コロニーアルゴリズムを用いて交配制御器３０が固体間の入力を交配させることを例示したが、その他最適化アルゴリズムを用いて評価値３２を最適化することもできる。例えば粒子群最適化法、遺伝的アルゴリズムなどを用いることができる。

　以上の実施形態においては、各個体が制御対象モデル４を内部的に保持していることを前提とした。制御対象モデル４は最適化器３による最適化演算の前にあらかじめ構築しておくものであるので、例えば記憶装置１１０に制御対象モデル４を定義したデータを格納しておき、各個体がこれを読み出すようにしてもよい。

　以上の実施形態において、図５に示す実動作データは、取得時に適切に規格化することもできるし、取得時ではなく学習時に規格化することもできる。処理上で必要でなければ規格化しなくてもよい。

　以上の実施形態においては、制御対象として油圧ソレノイドシステム６とマルチリンクアーム６１を例示したが、状態量と操作量の関係を数式モデルによって表すことができるのであれば、その他制御対象に対して本発明を適用することができる。

　上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

１：電子制御装置
２：初期パラメータ生成部
３：最適化器
３０：交配制御器
３１：個体群
３２：評価値
４：制御対象モデル
５：出力選択部
５１：出力値
６：油圧ソレノイドシステム
６１：マルチリンクアーム
７：ソレノイド弁
８：油圧シリンダ
９：センサ
１０：入力値
１１：フィードバック値

Claims

　制御対象の状態を表す状態量に対応する操作量を求める電子制御装置であって、
　前記電子制御装置は、前記制御対象に対して与える操作量と前記制御対象の状態量との間の関係を数式によって表した数式モデルに対して時系列に沿って与える複数の前記操作量を最適化する最適化器を備え、
　前記数式モデルは、前記複数の操作量を入力として並列に受け取り、時系列に沿って複数の前記状態量を並列に出力する関数として構成されており、
　前記最適化器は、前記数式モデルに対して入力する前記操作量、前記数式モデルが出力する前記状態量、および前記制御対象の制御目標値の関数として表される評価関数が算出する評価値が最適となる前記操作量と前記状態量の組み合わせを求めることにより、新たな前記状態量に対応して前記制御対象に対して与える前記操作量を最適化する
　ことを特徴とする電子制御装置。
　前記数式モデルは、開始時刻から終了時刻までの時系列に沿った前記操作量と、前記開始時刻における前記状態量とを入力として受け取り、前記開始時刻の次時刻から前記終了時刻の次時刻までの時系列に沿った前記状態量を出力する関数として構成されており、
　前記最適化器は、前記評価値を最適化することにより、前記開始時刻から前記終了時刻までの前記操作量を最適化する
　ことを特徴とする請求項１記載の電子制御装置。
　前記数式モデルは、開始時刻から終了時刻までの時系列に沿った前記操作量、前記開始時刻における前記状態量、および前記開始時刻の１つ前の時刻から遡った過去時刻までの時系列に沿った前記操作量を入力として受け取り、前記開始時刻の次時刻から前記終了時刻の次時刻までの時系列に沿った前記状態量を出力する関数として構成されており、
　前記最適化器は、前記評価値を最適化することにより、前記開始時刻から前記終了時刻までの前記操作量を最適化する
　ことを特徴とする請求項１記載の電子制御装置。
　前記数式モデルは、入力層、中間層、および出力層を有するニューラルネットワークとして構成されており、
　前記入力層は、前記複数の操作量を前記ニューラルネットワークに対する入力として受け取り、
　前記中間層は、前記入力層の出力を入力として受け取り、前記中間層の出力を前記出力層の入力として出力し、
　前記出力層は、前記中間層の出力を入力として受け取り、前記複数の状態量を前記ニューラルネットワークの出力として出力する
　ことを特徴とする請求項１記載の電子制御装置。
　前記電子制御装置は、
　　前記最適化器が最適化した前記操作量と前記状態量との間の対応関係を記録した制御マップ、
　　前記状態量を検出するセンサから前記状態量を取得する状態量取得部、
　を備え、
　前記電子制御装置は、前記状態量取得部が取得した前記状態量に対応する前記操作量を前記制御マップから取得し、その取得した前記操作量を用いて前記制御対象を制御する
　ことを特徴とする請求項１記載の電子制御装置。
　前記制御対象は、対象物を移動させるアクチュエータであり、
　前記評価関数は、前記対象物が障害物と衝突するとき前記評価値が低くなるように構成されており、
　前記最適化器は、前記評価値を最適化することにより、前記アクチュエータが前記障害物を避けて前記対象物を移動させるように、前記アクチュエータの動作を制御する
　ことを特徴とする請求項１記載の電子制御装置。
　制御対象に対して与える操作量と前記制御対象の状態量との間の関係を数式によって表した数式モデルを構築する方法であって、
　前記数式モデルは、時系列に沿った複数の前記操作量を入力として並列に受け取り、時系列に沿って複数の前記状態量を並列に出力する関数として構成されており、
　前記方法は、
　　前記数式モデルが出力する前記状態量と教師データとの間の差分を最小化するように前記数式モデルを修正することを繰り返すことにより、前記数式モデルに対する入力と前記数式モデルからの出力との間の対応関係を前記制御対象の挙動に近づけるステップを有する
　ことを特徴とする数式モデル構築方法。
　前記数式モデルは、入力層、中間層、および出力層を有するニューラルネットワークとして構成されており、
　前記入力層は、前記複数の操作量を前記ニューラルネットワークに対する入力として受け取り、
　前記中間層は、前記入力層の出力を入力として受け取り、前記中間層の出力を前記出力層の入力として出力し、
　前記出力層は、前記中間層の出力を入力として受け取り、前記複数の状態量を前記ニューラルネットワークの出力として出力する
　ことを特徴とする請求項７記載の数式モデル構築方法。