WO2020202316A1

WO2020202316A1 - モデル予測制御装置、モデル予測制御プログラム、モデル予測制御システムおよびモデル予測制御方法

Info

Publication number: WO2020202316A1
Application number: PCT/JP2019/014180
Authority: WO
Inventors: 秀一瀬川; 敦攝津; 正勝外山; 裕喜小中
Original assignee: 三菱電機株式会社
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2020-10-08
Also published as: DE112019006928T5; CN113614652A; US20210365033A1; JP6929488B2; JPWO2020202316A1

Abstract

操作パス生成部（２１０）が、状態センサ（１０１）から出力される計測状態量に基づいて、アクチュエータ（１１１）に対する操作量時系列を生成する。予測モデル部（２２０）が、前記計測状態量と前記操作量時系列とを入力にして予測モデルを演算することによって、状態量予測時系列を生成する。ニューラルネットワーク部（２３０）が、環境センサ（１０２）から出力される計測環境量と、前記状態量予測時系列と、を入力にしてニューラルネットワークを演算することによって、前記状態量予測時系列を補正する。状態量評価部（２４０）が、前記補正後の状態量時系列に対する評価結果を生成する。操作パス生成部が、前記評価結果が適正基準を満たす場合に前記操作量時系列の先頭の操作量を前記アクチュエータに出力する。

Description

モデル予測制御装置、モデル予測制御プログラム、モデル予測制御システムおよびモデル予測制御方法

　本発明は、モデル予測制御に関するものである。

　予測モデルを用いて制御対象を制御するモデル予測制御が知られている。
　例えば、モデル予測制御は、車両の自動運転制御に利用することができる。

　特許文献１には、外部環境に合わせて自動的にモデルを変更するモデル予測制御システムが開示されている。
　このシステムでは、天候別に用意されたモデルから予測時の天候に対応するモデルが選択され、選択されたモデルが外気温に基づいて補正され、補正後のモデルを用いてモデル予測制御が行われる。

特開２０００－９９１０７号公報

　特許文献１に開示されたシステムでは、想定外の外部環境に対応することができない。
　例えば、晴れ用モデル、曇り用モデル、雨用モデルおよび雪用モデルが用意されていても、台風のような特別な天候に対して適切なモデルを選択することができない。また、予測時の天候に適したモデルを選択することができても、予測時の外気温が想定範囲外の温度である場合、モデルを適切に補正することができない。
　その結果、モデル予測制御の精度が低下してしまう。

　本発明は、想定外の環境においてもモデル予測制御の精度を維持できるようにすることを目的とする。

　本発明のモデル予測制御装置は、
　制御対象の状態を計測する状態センサから出力される計測状態量に基づいて、前記制御対象の状態を変化させるためにアクチュエータに対する操作量時系列を生成する操作量時系列生成部と、
　前記計測状態量と前記操作量時系列とを入力にして予測モデルを演算することによって、前記制御対象の予測の状態量時系列である状態量予測時系列を生成する予測モデル部と、
　前記制御対象の動作環境を計測する環境センサから出力される計測環境量と、前記状態量予測時系列と、を入力にしてニューラルネットワークを演算することによって、前記状態量予測時系列を補正するニューラルネットワーク部と、
　補正後の状態量予測時系列を入力にして評価関数を演算することによって、前記補正後の状態量時系列に対する評価結果を生成する状態量評価部と、
　前記評価結果が適正基準を満たす場合に前記操作量時系列の先頭の操作量を前記アクチュエータに出力する操作量決定部とを備える。

　本発明によれば、予測モデルによって得られる状態量予測時系列と環境センサから出力される計測環境量とを入力にしてニューラルネットワークを演算することによって、状態量予測時系列が補正される。そのため、想定外の環境においても状態量予測時系列を補正することができる。したがって、想定外の環境においてもモデル予測制御の精度を維持することが可能である。

実施の形態１におけるモデル予測制御システム１００の構成図。実施の形態１におけるモデル予測制御装置２００の構成図。実施の形態１におけるモデル予測制御の説明図。実施の形態１におけるモデル予測制御の説明図。実施の形態１におけるモデル予測制御方法のフローチャート。実施の形態１におけるニューラルネットワーク２３１を示す図。ニューラルネットワーク２３１を使用しないモデル予測制御システム１９０の構成図。車両の自動運転制御に使用されるモデル予測制御システム１９０の構成図。モデル予測制御システム１９０による車両の自動運転制御を示す図。車両の自動運転制御の説明図。実施の形態２におけるモデル予測制御システム１００の構成図。実施の形態２におけるモデル予測制御装置２００の構成図。実施の形態２における履歴部２８０の構成図。実施の形態２における学習方法の概要図。実施の形態２における学習方法のクローチャート。実施の形態３におけるモデル予測制御システム３００の構成図。実施の形態３におけるモデル予測制御装置４００の構成図。実施の形態３におけるモデル予測制御方法のフローチャート。実施の形態３におけるニューラルネットワーク４１１を示す図。実施の形態におけるモデル予測制御装置２００のハードウェア構成図。実施の形態におけるモデル予測制御装置４００のハードウェア構成図。

　実施の形態および図面において、同じ要素または対応する要素には同じ符号を付している。説明した要素と同じ符号が付された要素の説明は適宜に省略または簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。

　実施の形態１．
　ニューラルネットワークを使用するモデル予測制御システム１００について、図１から図１０に基づいて説明する。

　モデル予測制御システム１００は、モデル予測制御（ＭＰＣ）によって制御対象を制御するためのシステムである。モデル予測制御について後述する。
　例えば、モデル予測制御システム１００は、車両の自動運転を実現するために利用することができる。

＊＊＊構成の説明＊＊＊
　図１に基づいて、モデル予測制御システム１００の構成を説明する。
　モデル予測制御システム１００は、状態センサ群と環境センサ群とアクチュエータ群とモデル予測制御装置２００とを備える。

　状態センサ群は、１つ以上の状態センサ１０１である。
　状態センサ１０１は、制御対象の状態を計測するためのセンサである。
　例えば、制御対象は車両であり、状態センサ１０１は、速度センサまたは位置センサである。速度センサは車両の速度を計測する。位置センサは車両を測位する。

　環境センサ群は、１つ以上の環境センサ１０２である。
　環境センサ１０２は、制御対象の動作環境を計測するためのセンサである。
　例えば、制御対象は車両であり、環境センサ１０２は、車重センサまたは姿勢センサである。車重センサは、車両の重量（乗員および荷物の重量を含む）を計測する。姿勢センサは車両の姿勢（傾き）を計測する。車両の姿勢は路面の傾斜に相当する。

　アクチュエータ群は、１つ以上のアクチュエータ１１１である。
　アクチュエータ１１１は、制御対象の状態を変化させる。
　例えば、制御対象は車両であり、アクチュエータ１１１はステアリング、モータまたはブレーキである。

　モデル予測制御装置２００は、モデル予測制御（ＭＰＣ）によって制御対象を制御するための装置である。モデル予測制御について後述する。
　例えば、モデル予測制御装置２００は、車両に対する自動運転制御を行う。

　モデル予測制御装置２００は、ニューラルネットワーク部２３０を備えることを特徴とする。

　図２に基づいて、モデル予測制御装置２００の構成を説明する。
　モデル予測制御装置２００は、プロセッサ２０１とメモリ２０２と補助記憶装置２０３と入出力インタフェース２０４と通信装置２０５といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。

　プロセッサ２０１は、演算処理を行うＩＣであり、他のハードウェアを制御する。例えば、プロセッサ２０１は、ＣＰＵ、ＤＳＰまたはＧＰＵである。
　ＩＣは、Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略称である。
　ＣＰＵは、Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔの略称である。
　ＤＳＰは、Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒの略称である。
　ＧＰＵは、Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔの略称である。

　メモリ２０２は揮発性の記憶装置である。メモリ２０２は、主記憶装置またはメインメモリとも呼ばれる。例えば、メモリ２０２はＲＡＭである。メモリ２０２に記憶されたデータは必要に応じて補助記憶装置２０３に保存される。
　ＲＡＭは、Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙの略称である。

　補助記憶装置２０３は不揮発性の記憶装置である。例えば、補助記憶装置２０３は、ＲＯＭ、ＨＤＤまたはフラッシュメモリである。補助記憶装置２０３に記憶されたデータは必要に応じてメモリ２０２にロードされる。
　ＲＯＭは、Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙの略称である。
　ＨＤＤは、Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅの略称である。

　入出力インタフェース２０４は、入力装置および出力装置が接続されるポートである。例えば、入出力インタフェース２０４には、状態センサ群と環境センサ群とアクチュエータ群とが接続される。
　ＵＳＢは、Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓの略称である。

　通信装置２０５はレシーバ及びトランスミッタである。例えば、通信装置２０５は通信チップまたはＮＩＣである。
　ＮＩＣは、Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄの略称である。

　モデル予測制御装置２００は、操作パス生成部２１０と予測モデル部２２０とニューラルネットワーク部２３０と状態量評価部２４０といった要素を備える。これらの要素はソフトウェアで実現される。
　操作パス生成部２１０は、操作量時系列生成部２１１と操作量決定部２１２とを備える。

　補助記憶装置２０３には、操作パス生成部２１０と予測モデル部２２０とニューラルネットワーク部２３０と状態量評価部２４０としてコンピュータを機能させるためのモデル予測制御装プログラムが記憶されている。モデル予測制御プログラムは、メモリ２０２にロードされて、プロセッサ２０１によって実行される。
　補助記憶装置２０３には、さらに、ＯＳが記憶されている。ＯＳの少なくとも一部は、メモリ２０２にロードされて、プロセッサ２０１によって実行される。
　プロセッサ２０１は、ＯＳを実行しながら、モデル予測制御プログラムを実行する。
　ＯＳは、Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍの略称である。

　モデル予測制御プログラムの入出力データは記憶部２９０に記憶される。
　メモリ２０２は記憶部２９０として機能する。但し、補助記憶装置２０３、プロセッサ２０１内のレジスタおよびプロセッサ２０１内のキャッシュメモリなどの記憶装置が、メモリ２０２の代わりに、又は、メモリ２０２と共に、記憶部２９０として機能してもよい。

　モデル予測制御装置２００は、プロセッサ２０１を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ２０１の役割を分担する。

　モデル予測制御プログラムは、光ディスクまたはフラッシュメモリ等の不揮発性の記録媒体にコンピュータ読み取り可能に記録（格納）することができる。

　図３および図４に基づいて、モデル予測制御（ＭＰＣ）について説明する。モデル予測制御は従来技術である。
　まず、図３に基づいて、モデル予測制御を説明する。
　モデル予測制御とは、制御対象の予測推定を用いて最適な制御入力を算出する制御手法の一つである。
　モデル予測制御では、予測モデルと最適化器が使用される。予測モデルは、制御対象を模倣するためのモデルである。最適化器は、予測モデルの動作を評価して最適な制御入力を算出する。
　操作パス生成部２１０と状態量評価部２４０との組が最適化器に相当する。

　次に、図４に基づいて、モデル予測制御を説明する。操作量ｕは図３の制御入力ｕ（ｔ）に相当する。
　モデル予測制御では、操作量の候補の時系列ｕｉに基づいて予測状態量の時系列ｘｉが生成され、予測状態量の良し悪しが評価関数によって判定される。この処理は、評価が高い予測状態量が得られるまで繰り返される。そして、評価が高い予測状態量に対応する操作量ｕ１が出力される。

＊＊＊動作の説明＊＊＊
　モデル予測制御システム１００の動作はモデル予測制御方法に相当する。また、モデル予測制御装置２００によるモデル予測制御方法の手順はモデル予測制御プログラムの手順に相当する。

　図５に基づいて、モデル予測制御方法を説明する。
　説明を分かりやすくするため、状態センサ群が１つの状態センサ１０１であり、環境センサ群が１つの環境センサ１０２であり、アクチュエータ群が１つのアクチュエータ１１１であるものとして説明を行う。

　状態センサ１０１は、定期的に、制御対象の状態を計測し、計測状態量を出力する。計測状態量は、制御対象の状態を計測することによって得られた状態量である。状態量は、制御対象の状態を表す。
　環境センサ１０２は、定期的に、制御対象の動作環境を計測し、計測環境量を出力する。計測環境量は、制御対象の動作環境を計測することによって得られた環境量である。環境量は、制御対象の動作環境を表す。

　ステップＳ１１０からステップＳ１６０は、繰り返し実行される。

　ステップＳ１１０において、操作量時系列生成部２１１は、状態センサ１０１から出力される計測状態量を受け付ける。
　操作量時系列生成部２１１は、受け付けた計測状態量に基づいて、操作量時系列を生成する。
　そして、操作量時系列生成部２１１は、計測状態量と操作量時系列とを出力する。

　操作量時系列は、時刻順に並んだ複数の操作量であり、従来のモデル予測制御における操作量の候補の時系列ｕｉに相当する（図４参照）。
　操作量時系列を生成する方法は、従来のモデル予測制御において操作量の候補の時系列ｕｉを生成する方法と同じである。

　ステップＳ１２０において、予測モデル部２２０は、操作量時系列生成部２１１から出力される計測状態量と操作量時系列とを受け付ける。
　予測モデル部２２０は、計測状態量と操作量時系列とを入力にして予測モデルを演算する。これにより、状態量予測時系列が生成される。
　そして、予測モデル部２２０は、状態量予測時系列を出力する。

　状態量予測時系列は、予測モデルによって予測された状態量時系列である。
　状態量時系列は、時刻順に並んだ複数の状態量であり、従来のモデル予測制御における予測状態量の時系列ｘｉに相当する（図４参照）。
　状態量予測時系列を生成する方法は、従来のモデル予測制御において予測状態量の時系列ｘｉを生成する方法と同じである。

　ステップＳ１３０において、ニューラルネットワーク部２３０は、環境センサ１０２から出力される計測環境量と、予測モデル部２２０から出力される状態量予測時系列とを受け付ける。
　ニューラルネットワーク部２３０は、計測環境量と状態量予測時系列とを入力にしてニューラルネットワーク２３１を演算する。これにより、状態量予測時系列が補正される。
　そして、ニューラルネットワーク部２３０は、補正後の状態量予測時系列を出力する。
　ニューラルネットワーク２３１について後述する。

　ステップＳ１４０において、状態量評価部２４０は、ニューラルネットワーク部２３０から出力される補正後の状態量予測時系列を受け付ける。
　ニューラルネットワーク部２３０は、補正後の状態量予測時系列を入力にして評価関数を演算する。これにより、状態量評価結果が生成される。
　そして、状態量評価部２４０は、状態量評価結果を出力する。

　状態量評価結果は、補正後の状態量予測時系列に対する評価結果であり、従来のモデル予測制御における予測状態量の時系列ｘｉに対する評価結果に相当する（図４参照）。
　状態量評価結果を生成する方法は、従来のモデル予測制御において予測状態量の時系列ｘｉに対する評価結果を生成する方法と同じである。

　ステップＳ１５０において、操作量決定部２１２は、状態量評価部２４０から出力される状態量評価結果を受け付ける。
　そして、操作量決定部２１２は、状態量評価結果が適正基準を満たすか判定する。適正基準は、予め決められた基準である。判定方法は、従来のモデル予測制御における方法と同じである。
　状態量評価結果が適正基準を満たす場合、ステップＳ１１０で生成された操作量時系列は、最適な操作量時系列、すなわち、最適解である。
　ステップＳ１１０で生成された操作量時系列が最適解である場合、処理はステップＳ１６０に進む。
　ステップＳ１１０で生成された操作量時系列が最適解でない場合、処理はステップＳ１１０に進む。そして、ステップＳ１１０において別の操作量時系列が生成される。

　ステップＳ１６０において、操作量決定部２１２は、ステップＳ１１０で生成された操作量時系列（最適解）の先頭の操作量をアクチュエータ１１１に出力する。先頭の操作量を「第１操作量」と称する。

　アクチュエータ１１１は、操作量決定部２１２から出力される第１操作量を受け付ける。そして、アクチュエータ１１１は、受け付けた第１操作量に従って動作する。その結果、制御対象の状態が変化する。

　図６に基づいて、ニューラルネットワーク２３１について説明する
　ニューラルネットワーク２３１は、モデル予測制御システム１００用のニューラルネットワークである。

　ニューラルネットワークの構成を説明する
　ニューラルネットワークは、入力層と隠れ層と出力層とを有する。
　それぞれの層は、１つ以上のノードを有する。円はノードを表している。
　層間のノードはエッジで結ばれている。破線はエッジを表している。
　それぞれのエッジには、重みが設定されている。
　前の層のノードの値とエッジに設定されている重みとに基づいて、後の層のノードの値が決定する。

　ニューラルネットワーク２３１では、状態量予測時系列（ｘ１，・・・，ｘｋ）と、計測環境量（ｙ０）が、入力層に対する入力となる。そして、補正後の状態量予測時系列（ｘ’１，・・・，ｘ’ｋ）が、出力層からの出力となる。

＊＊＊実施の形態１の効果＊＊＊
　図７から図１０に基づいて、ニューラルネットワーク２３１を使用しないモデル予測制御装置１９１の課題について説明する。

　図７に、ニューラルネットワーク２３１を使用しないモデル予測制御システム１９０の構成を示す。
　モデル予測制御システム１９０は、環境センサ群を備えない。
　また、モデル予測制御装置１９１は、ニューラルネットワーク部２３０に相当する機能を備えない。
　そのため、モデル予測制御装置１９１は、計測環境量に基づいて、状態量予測時系列を補正することができない。
　しかし、状態センサ群およびアクチュエータ群は外部環境にさらされる。そのため、状態センサ群によって計測された状態量およびアクチュエータ群によって変化した状態量が、状態量予測時系列と一致するとは限らない。

　図８に、車両の自動運転制御に利用されるモデル予測制御システム１９０の構成を示す。
　モデル予測制御システム１９０は、車速センサと位置センサといった状態センサを備える。また、モデル予測制御システム１９０は、ステアリングとモータとブレーキといったアクチュエータを備える。
　モデル予測制御装置１９１は、車両の速度と車両の位置とに基づいて、ステアリング量、モータ出力およびブレーキ出力を決定する。
　このモデル予測制御システム１９０を一般化すると、モデル予測制御システム１９０は、状態量に基づいて操作量を出力するシステムと考えることができる。

　図９に、モデル予測制御システム１９０による車両の自動運転制御の様子を示す。
　モデル予測制御装置１９１は、状態量ｘ_ｉ（車速、車両位置）を変動させるために操作量ｕ_ｉを出力する。これにより、車両の走行経路が制御される。

　図１０に基づいて、車両の自動運転制御について説明する。
　車両には、車重に基づく重力、路面からの応力および推進機による推進力などが生じる。

　車両の加速量Δ_ｖは、式（１）で表すことができる。
　「Ｍ」は車重を表す。「θ」は車両の傾きを表す。「Ｆ」は推進機の操作量を表す。「ｇ」は重力加速度を表す。
　「Ｘ_ｇａｉｎ」はゲイン補正量を表す。「Ｘ_ｓｅｎｓ」は計測状態量を表す。「Ｘ_ｏｆｓ」はオフセット補正量を表す。

　但し、各状態センサの校正を実施したうえで、他の誤差まで加味した補正を行う必要がある。また、計測状態量に非線形特性がある場合には別途考慮する必要がある。
　さらに、ゲイン補正量Ｘ_ｇａｉｎおよびオフセット補正量Ｘ_ｏｆｓは、動作環境に依存する。
　そのため、動作環境を考慮しなければ、車両に対する自動運転制御の精度が悪くなる可能性がある。

　一方、実施の形態１におけるモデル予測制御装置２００は、ニューラルネットワーク２３１を使用することにより、動作環境を考慮した制御を実現する。その結果、高い精度で各種制御を行うことが可能となる。
　例えば、車両の状態センサに対する正確なキャリブレーションを実施しなくても、精度が高い自動運転制御を実現することが可能となる。

　実施の形態２．
　ニューラルネットワーク２３１の重みパラメータを学習する形態について、主に実施の形態１と異なる点を図１１から図１５に基づいて説明する。

＊＊＊構成の説明＊＊＊
　図１１に基づいて、モデル予測制御システム１００の構成を説明する。
　モデル予測制御システム１００の構成は、モデル予測制御装置２００の構成を除いて、実施の形態１における構成と同じである（図１参照）。

　図１２に基づいて、モデル予測制御装置２００の構成を説明する。
　モデル予測制御装置２００は、さらに、学習部２５０を備える。学習部２５０は、モデル演算部２５１と重みパラメータ学習部２５２とを備える。学習部２５０は、ソフトウェアによって実現される。
　モデル予測制御プログラムは、さらに、学習部２５０としてコンピュータを機能させる。

　モデル予測制御装置２００は、さらに、履歴部２８０を備える。履歴部２８０は、メモリ２０２などの記憶装置によって実現される。

　図１３に基づいて、履歴部２８０の構成を説明する。
　履歴部２８０には、状態量履歴２８１と環境量履歴２８２と操作量履歴２８３と状態量学習履歴２８４といったデータが記憶される。
　状態量履歴２８１は、計測状態量の履歴、つまり、過去の計測状態量の集合である。過去の計測状態量を「過去状態量」と称する。過去状態量の時系列を「状態量過去時系列」と称する。
　環境量履歴２８２は、計測環境量の履歴、つまり、過去の計測環境量の集合である。過去の計測環境量を「過去環境量」と称する。
　操作量履歴２８３は、操作量の履歴、つまり、過去の操作量の集合である。過去の操作量を「過去操作量」と称する。過去操作量の時系列を「操作量過去時系列」と称する。
　状態量学習履歴２８４は、状態量学習時系列の履歴、つまり、過去の状態量学習時系列の集合である。
　状態量学習時系列は、ニューラルネットワーク２３１で使用される重みパラメータの学習用に生成される状態量学習時系列である。

＊＊＊動作の説明＊＊＊
　図１４に基づいて、学習部２５０による学習方法の概要を説明する。
　「予測」は、状態量学習時系列を生成する処理を意味する。
　状態量学習時系列は、状態量予測時系列に相当する。つまり、状態量学習時系列は、状態量予測時系列の生成に用いられる予測モデルと同じ予測モデルを演算することによって生成される。

　「予測」では、操作量過去時系列および過去状態量が使用される。
　操作量過去時系列は、過去操作量の時系列である。
　操作量過去時系列の操作量ｕ０として、第１時刻（ｔ＝１）の操作量ｕ０が使用される。
　操作量過去時系列の操作量ｕ１として、第２時刻（ｔ＝２）の操作量ｕ０が使用される。
　操作量過去時系列の操作量ｕ０として、第３時刻（ｔ＝３）の操作量ｕ０が使用される。
　過去状態量として、第１時刻（ｔ＝１）の状態量ｘ０が使用される。

　「学習」は、ニューラルネットワーク２３１で使用される重みパラメータの学習する処理を意味する。
　「学習」では、状態量学習時系列および状態量過去時系列が使用される。
　状態量過去時系列の状態量ｘ１として、第２時刻（ｔ＝２）の状態量ｘ０が使用される。
　状態量過去時系列の状態量ｘ２として、第３時刻（ｔ＝３）の状態量ｘ０が使用される。

　図１５に基づいて、学習部２５０による学習方法を説明する。
　学習方法は、繰り返し実施される。例えば、学習方法は、定期的に、または、アクチュエータ１１１へ操作量が出力される毎に実施される。

　学習方法において、履歴部２８０は、以下のように動作する。
　状態センサ１０１から計測状態量が出力される毎に、履歴部２８０は、出力された計測状態量が保存する。
　環境センサ１０２から計測環境量が出力される毎に、履歴部２８０は、出力された計測環境量を保存する。
　操作量決定部２１２からアクチュエータ１１１へ操作量が出力される毎に、履歴部２８０は、出力された操作量を保存する。

　ステップＳ２１０において、モデル演算部２５１は、履歴部２８０から、過去状態量と操作量過去時系列とを取得する。
　そして、モデル演算部２５１は、過去状態量と操作量過去時系列とを入力にして、予測モデルを演算する。モデル演算部２５１によって演算される予測モデルは、予測モデル部２２０によって演算される予測モデルと同じである。
　これにより、状態量予測時系列に相当する状態量時系列が生成される。生成される状態量時系列を「状態量学習時系列」と称する。

　モデル演算部２５１は、状態量学習時系列を履歴部２８０に保存する。

　ステップＳ２２０において、重みパラメータ学習部２５２は、履歴部２８０から、過去環境量と状態量過去時系列と状態量学習時系列とを取得する。
　そして、重みパラメータ学習部２５２は、状態量学習時系列と過去環境量と状態量過去時系列とを用いて、ニューラルネットワーク２３１の重みパラメータに対する機械学習を行う。
　具体的には、重みパラメータ学習部２５２は、状態量学習時系列と過去環境量とを入力にしてニューラルネットワーク２３１を実行することによって得られる補正後の状態量学習時系列が状態量過去時系列と一致するように、ニューラルネットワーク２３１の重みパラメータを算出する。

　ステップＳ２３０において、重みパラメータ学習部２５２は、機械学習で得られた重みパラメータ（学習結果）を評価する。

　学習結果の評価は、以下のように行われる。
　ステップＳ２１０において、モデル演算部２５１は、学習対象期間の複数の過去状態量と学習対象期間の複数の操作量過去時系列とを用いて、学習対象期間の複数の状態量学習時系列を生成する。
　ステップＳ２２０において、重みパラメータ学習部２５２は、第一期間の複数の状態量学習時系列と第一期間の複数の過去環境量と第一期間の複数の状態量過去時系列とを用いて、ニューラルネットワーク２３１の重みパラメータに対する機械学習を行う。第一期間は、学習対象期間の一部である。例えば、第一期間は、学習対象期間の前半である。
　ステップＳ２３０において、重みパラメータ学習部２５２は、機械学習で得られた重みパラメータをニューラルネットワーク２３１に仮設定する。次に、重みパラメータ学習部２５２は、第二期間の複数の状態量学習時系列と第二期間の複数の過去環境量とを入力にして、ニューラルネットワーク２３１を演算する。これにより、第二期間の複数の状態量補正時系列が得られる。第二期間は、学習対象期間の一部である。例えば、第二期間は、学習対象期間の後半である。状態量補正時系列は、補正後の状態量学習時系列である。そして、重みパラメータ学習部２５２は、第二期間の複数の状態量補正時系列と第二期間の複数の状態量過去時系列との誤差量に基づいて、学習結果を評価する。学習結果に対する評価は、ディープラーニングにおける一般的な指標を用いて行われる。

　適切な学習結果が得られたという評価結果が得られた場合、処理はステップＳ２４０に進む。
　適切な学習結果が得られなかったという評価結果が得られた場合、ステップＳ２２０で得られた重みパラメータが破棄され、学習方法の処理は終了する。この場合、ニューラルネットワーク２３１の重みパラメータは更新されない。

　ステップＳ２４０において、重みパラメータ学習部２５２は、ステップＳ２２０で得られた重みパラメータをニューラルネットワーク２３１に設定する。これにより、ニューラルネットワーク２３１の重みパラメータが更新される。
　ステップＳ２４０の後、ニューラルネットワーク部２３０は、更新後のニューラルネットワーク２３１を演算することによって、状態量予測時系列の補正を行う。

＊＊＊実施の形態２の効果＊＊＊
　ニューラルネットワーク２３１の重みパラメータを学習することができる。そのため、ニューラルネットワーク２３１による補正の精度が向上する。その結果、モデル予測制御の精度が向上する。

　実施の形態３．
　二次計画法を用いて操作量を算出するモデル予測制御システム３００について、図１６から図１９に基づいて説明する。

　モデル予測制御システム３００は、モデル予測制御（ＭＰＣ）によって制御対象を制御するためのシステムである。モデル予測制御については実施の形態１で説明した通りである。
　例えば、モデル予測制御システム３００は、車両の自動運転を実現するために利用することができる。

＊＊＊構成の説明＊＊＊
　図１６に基づいて、モデル予測制御システム３００の構成を説明する。
　モデル予測制御システム３００は、状態センサ群と環境センサ群とアクチュエータ群とモデル予測制御装置４００とを備える。

　状態センサ群は、１つ以上の状態センサ３０１である。
　状態センサ３０１は、制御対象の状態を計測するためのセンサである。
　例えば、制御対象は車両であり、状態センサ３０１は、速度センサまたは位置センサである。速度センサは車両の速度を計測する。位置センサは車両を測位する。

　環境センサ群は、１つ以上の環境センサ３０２である。
　環境センサ３０２は、制御対象の動作環境を計測するためのセンサである。
　例えば、制御対象は車両であり、環境センサ３０２は、車重センサまたは姿勢センサである。車重センサは、車両の重量（乗員および荷物の重量を含む）を計測する。姿勢センサは車両の姿勢（傾き）を計測する。車両の姿勢は路面の傾斜に相当する。

　アクチュエータ群は、１つ以上のアクチュエータ３１１である。
　アクチュエータ３１１は、制御対象の状態を変化させる。
　例えば、制御対象は車両であり、アクチュエータ３１１はステアリング、モータまたはブレーキである。

　モデル予測制御装置４００は、モデル予測制御（ＭＰＣ）によって制御対象を制御するための装置である。
　例えば、モデル予測制御装置４００は、車両に対する自動運転制御を行う。

　モデル予測制御装置４００は、ニューラルネットワーク部４１０を備えることを特徴とする。

　図１７に基づいて、モデル予測制御装置４００の構成を説明する。
　モデル予測制御装置４００は、プロセッサ４０１とメモリ４０２と補助記憶装置４０３と入出力インタフェース４０４と通信装置４０５といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。

　プロセッサ４０１は、演算処理を行うＩＣであり、他のハードウェアを制御する。例えば、プロセッサ４０１はＣＰＵ、ＤＳＰまたはＧＰＵである。
　メモリ４０２は揮発性の記憶装置である。メモリ４０２は、主記憶装置またはメインメモリとも呼ばれる。例えば、メモリ４０２はＲＡＭである。メモリ４０２に記憶されたデータは必要に応じて補助記憶装置４０３に保存される。
　補助記憶装置４０３は不揮発性の記憶装置である。例えば、補助記憶装置４０３は、ＲＯＭ、ＨＤＤまたはフラッシュメモリである。補助記憶装置４０３に記憶されたデータは必要に応じてメモリ４０２にロードされる。
　入出力インタフェース４０４は、入力装置および出力装置が接続されるポートである。例えば、入出力インタフェース４０４には、状態センサ群と環境センサ群とアクチュエータ群とが接続される。
　通信装置４０５はレシーバ及びトランスミッタである。例えば、通信装置４０５は通信チップまたはＮＩＣである。

　モデル予測制御装置４００は、ニューラルネットワーク部４１０と評価式生成部４２０とソルバ部４３０といった要素を備える。これらの要素はソフトウェアで実現される。

　補助記憶装置４０３には、ニューラルネットワーク部４１０と評価式生成部４２０とソルバ部４３０としてコンピュータを機能させるためのモデル予測制御プログラムが記憶されている。モデル予測制御プログラムは、メモリ４０２にロードされて、プロセッサ４０１によって実行される。
　補助記憶装置４０３には、さらに、ＯＳが記憶されている。ＯＳの少なくとも一部は、メモリ４０２にロードされて、プロセッサ４０１によって実行される。
　プロセッサ４０１は、ＯＳを実行しながら、モデル予測制御プログラムを実行する。

　モデル予測制御プログラムの入出力データは記憶部４９０に記憶される。
　メモリ４０２は記憶部４９０として機能する。但し、補助記憶装置４０３、プロセッサ４０１内のレジスタおよびプロセッサ４０１内のキャッシュメモリなどの記憶装置が、メモリ４０２の代わりに、又は、メモリ４０２と共に、記憶部４９０として機能してもよい。

　モデル予測制御装置４００は、プロセッサ４０１を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ４０１の役割を分担する。

　図１８に基づいて、モデル予測制御方法を説明する。
　説明を分かりやすくするため、状態センサ群が１つの状態センサ１０１であり、環境センサ群が１つの環境センサ１０２であり、アクチュエータ群が１つのアクチュエータ１１１であるものとして説明を行う。

　状態センサ３０１は、定期的に、制御対象の状態を計測し、計測状態量を出力する。計測状態量は、制御対象の状態を計測することによって得られた状態量である。状態量は、制御対象の状態を表す。
　環境センサ３０２は、定期的に、制御対象の動作環境を計測し、計測環境量を出力する。計測環境量は、制御対象の動作環境を計測することによって得られた環境量である。環境量は、制御対象の動作環境を表す。

　ステップＳ３１０からステップＳ３３０は、繰り返し実行される。

　ステップＳ３１０において、ニューラルネットワーク部４１０は、状態センサ３０１から出力される計測状態量を受け付ける。
　さらに、ニューラルネットワーク部４１０は、環境センサ３０２から出力される計測環境量を受け付ける。
　ニューラルネットワーク部４１０は、計測状態量と計測環境量とを入力にしてニューラルネットワーク４１１を演算する。これにより、制御対象の状態の変化を予測するための予測モデルに設定されるモデルパラメータが算出される。
　そして、ニューラルネットワーク部４１０は、算出したモデルパラメータを出力する。

　予測モデルは、式（２）で表すことができる。
　ｘ_ｋ＋１　＝　Ａｘ_ｋ　＋　Ｂｕ_ｋ　　　・・・（２）
　「ｘ_ｎ」は、制御対象のｎ番目の状態量である。
　「ｕ_ｎ」は、アクチュエータ３１１に対するｎ番目の操作量である。
　「Ａ」は、モデルパラメータの一つであるマトリクスである。
　「Ｂ」は、モデルパラメータの一つであるベクトルである。

　図１９に基づいて、ニューラルネットワーク４１１を説明する。
　ニューラルネットワーク４１１は、モデル予測制御システム３００用のニューラルネットワークである。
　ニューラルネットワークの構成は、実施の形態１で説明した通りである。

　ニューラルネットワーク４１１では、計測状態量ｘ０と計測環境量ｙ０が入力層に対する入力となる。そして、モデルパラメータ（Ａ，Ｂ）が出力層からの出力となる。
　（Ａ_００，・・・，Ａ_ｉｊ，・・・，Ａ_ｎｎ）は、マトリクスＡを構成する。
　（Ｂ_０，・・・，Ｂ_ｉ，・・・，Ｂ_ｎ）は、ベクトルＢを構成する。

　図１８に戻り、ステップＳ３２０から説明を続ける。
　ステップＳ３２０において、評価式生成部４２０は、算出されたモデルパラメータが設定された予測モデルに基づいて、二次計画法における評価式を生成する。生成される評価式は、アクチュエータ３１１に対する操作量時系列を評価するための式である。
　そして、評価式生成部４２０は、二次計画法における評価式を出力する。

　二次計画法における評価式について説明する。
　予測モデルに対する評価関数は、式（３）で表すことができる。
　「Ｅ_１」は、評価関数によって得られる評価値である。
　「ｘ_Ｔｋ」は、状態量の目標値である。
　「ｘ_ｋ」は、マトリクスＡとベクトルＢとが設定された予測モデルを演算することによって算出される状態量である。

　評価関数の評価値Ｅ_１を最適化する問題は、評価式の評価値Ｅ_２を最適化することに相当する。評価式は、式（４）で表すことができる。
　（ｕ_１，・・・，ｕ_ｎ）は、操作量時系列である。
　「Ｑ」は、マトリクスである。
　「Ｒ」は、ベクトルである。

　評価式生成部４２０は、マトリクスＡとベクトルＢとが設定された予測モデルに基づいて、評価式のマトリクスＱと評価式のベクトルＲとを算出する。
　そして、評価式生成部４２０は、マトリクスＱとベクトルＲとを評価式に設定する。マトリクスＱとベクトルＲとのが設定された評価式が二次計画法における評価式である。

　ステップＳ３３０において、ソルバ部４３０は、二次計画法における評価式を解くことによって、アクチュエータ３１１に与える操作量を算出する。
　具体的には、ソルバ部４３０は、最適化ソルバ（二次計画ソルバ）を実行することによって、二次計画法における評価式を解く。
　そして、ソルバ部４３０は、算出した操作量をアクチュエータ３１１に与える。

＊＊＊実施の形態３の効果＊＊＊
　二次計画法を用いて操作量を算出するモデル予測制御システム３００においても、実施の形態１と同じ効果を奏することができる。つまり、想定外の環境においても、モデル予測制御の精度を維持することが可能となる。

＊＊＊実施の形態の補足＊＊＊
　図２０に基づいて、モデル予測制御装置２００のハードウェア構成を説明する。
　モデル予測制御装置２００は処理回路２０９を備える。
　処理回路２０９は、操作パス生成部２１０と予測モデル部２２０とニューラルネットワーク部２３０と状態量評価部２４０と学習部２５０とを実現するハードウェアである。
　処理回路２０９は、専用のハードウェアであってもよいし、メモリ２０２に格納されるプログラムを実行するプロセッサ２０１であってもよい。

　処理回路２０９が専用のハードウェアである場合、処理回路２０９は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡまたはこれらの組み合わせである。
　ＡＳＩＣは、Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略称である。
　ＦＰＧＡは、Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙの略称である。

　モデル予測制御装置２００は、処理回路２０９を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路２０９の役割を分担する。

　モデル予測制御装置２００において、一部の機能が専用のハードウェアで実現されて、残りの機能がソフトウェアまたはファームウェアで実現されてもよい。

　このように、処理回路２０９はハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせで実現することができる。

　図２１に基づいて、モデル予測制御装置４００のハードウェア構成を説明する。
　モデル予測制御装置４００は処理回路４０９を備える。
　処理回路４０９は、ニューラルネットワーク部４１０と評価式生成部４２０とソルバ部４３０とを実現するハードウェアである。
　処理回路４０９は、専用のハードウェアであってもよいし、メモリ４０２に格納されるプログラムを実行するプロセッサ４０１であってもよい。

　処理回路４０９が専用のハードウェアである場合、処理回路４０９は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡまたはこれらの組み合わせである。

　モデル予測制御装置４００は、処理回路４０９を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路４０９の役割を分担する。

　モデル予測制御装置４００において、一部の機能が専用のハードウェアで実現されて、残りの機能がソフトウェアまたはファームウェアで実現されてもよい。

　このように、処理回路４０９はハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせで実現することができる。

　実施の形態は、好ましい形態の例示であり、本発明の技術的範囲を制限することを意図するものではない。実施の形態は、部分的に実施してもよいし、他の形態と組み合わせて実施してもよい。フローチャート等を用いて説明した手順は、適宜に変更してもよい。

　モデル予測制御装置（２００、４００）は、複数の装置で構成されてもよい。例えば、クラウドに設けられたサーバ装置が学習部２５０を備え、クラウドにおいて学習方法の処理が実行されてもよい。
　モデル予測制御装置（２００、４００）の要素である「部」は、「処理」または「工程」と読み替えてもよい。

　１００　モデル予測制御システム、１０１　状態センサ、１０２　環境センサ、１１１　アクチュエータ、１９０　モデル予測制御システム、１９１　モデル予測制御装置、２００　モデル予測制御装置、２０１　プロセッサ、２０２　メモリ、２０３　補助記憶装置、２０４　入出力インタフェース、２０９　処理回路、２１０　操作パス生成部、２１１　操作量時系列生成部、２１２　操作量決定部、２２０　予測モデル部、２３０　ニューラルネットワーク部、２３１　ニューラルネットワーク、２４０　状態量評価部、２５０　学習部、２５１　モデル演算部、２５２　重みパラメータ学習部、２８０　履歴部、２８１　状態量履歴、２８２　環境量履歴、２８３　操作量履歴、２８４　状態量学習履歴、２９０　記憶部、３００　モデル予測制御システム、３０１　状態センサ、３０２　環境センサ、３１１　アクチュエータ、４００　モデル予測制御装置、４０１　プロセッサ、４０２　メモリ、４０３　補助記憶装置、４０４　入出力インタフェース、４０９　処理回路、４１０　ニューラルネットワーク部、４１１　ニューラルネットワーク、４２０　評価式生成部、４３０　ソルバ部、４９０　記憶部。

Claims

　制御対象の状態を計測する状態センサから出力される計測状態量に基づいて、前記制御対象の状態を変化させるためにアクチュエータに対する操作量時系列を生成する操作量時系列生成部と、
　前記計測状態量と前記操作量時系列とを入力にして予測モデルを演算することによって、前記制御対象の予測の状態量時系列である状態量予測時系列を生成する予測モデル部と、
　前記制御対象の動作環境を計測する環境センサから出力される計測環境量と、前記状態量予測時系列と、を入力にしてニューラルネットワークを演算することによって、前記状態量予測時系列を補正するニューラルネットワーク部と、
　補正後の状態量予測時系列を入力にして評価関数を演算することによって、前記補正後の状態量時系列に対する評価結果を生成する状態量評価部と、
　前記評価結果が適正基準を満たす場合に前記操作量時系列の先頭の操作量を前記アクチュエータに出力する操作量決定部と、
を備えるモデル予測制御装置。
　前記モデル予測制御装置は、
　前記状態センサから出力された計測状態量である過去状態量と前記アクチュエータに入力された操作量の時系列である操作量過去時系列とを入力にして前記予測モデルを演算することによって、学習用の状態量時系列である状態量学習時系列を生成するモデル演算部と、
　前記状態量学習時系列と、前記環境センサから出力された計測環境量である過去環境量と、前記状態センサから出力された計測状態量の時系列である状態量過去時系列とを用いて、前記ニューラルネットワークの重みパラメータに対する機械学習を行う重みパラメータ学習部とを備え、
　前記ニューラルネットワーク部は、前記機械学習によって得られた重みパラメータが設定されたニューラルネットワークを演算する
請求項１に記載のモデル予測制御装置。
　前記制御対象が車両であり、
　前記車両の自動運転制御のために用いられる
請求項１または請求項２に記載のモデル予測制御装置。
　制御対象の状態を計測する状態センサから出力される計測状態量に基づいて、前記制御対象の状態を変化させるためにアクチュエータに対する操作量時系列を生成する操作量時系列生成処理と、
　前記計測状態量と前記操作量時系列とを入力にして予測モデルを演算することによって、前記制御対象の予測の状態量時系列である状態量予測時系列を生成する予測モデル処理と、
　前記制御対象の動作環境を計測する環境センサから出力される計測環境量と、前記状態量予測時系列と、を入力にしてニューラルネットワークを演算することによって、前記状態量予測時系列を補正するニューラルネットワーク処理と、
　補正後の状態量予測時系列を入力にして評価関数を演算することによって、前記補正後の状態量時系列に対する評価結果を生成する状態量評価処理と、
　前記評価結果が適正基準を満たす場合に前記操作量時系列の先頭の操作量を前記アクチュエータに出力する操作量決定処理と、
をコンピュータに実行させるためのモデル予測制御プログラム。
　制御対象の状態を計測する状態センサと、
　前記制御対象の動作環境を計測する環境センサと、
　前記制御対象の状態を変化させるためのアクチュエータと、
　前記状態センサから出力される計測状態量に基づいて、前記アクチュエータに対する操作量時系列を生成する操作量時系列生成部と、
　前記計測状態量と前記操作量時系列とを入力にして予測モデルを演算することによって、前記制御対象の予測の状態量時系列である状態量予測時系列を生成する予測モデル部と、
　前記環境センサから出力される計測環境量と、前記状態量予測時系列と、を入力にしてニューラルネットワークを演算することによって、前記状態量予測時系列を補正するニューラルネットワーク部と、
　補正後の状態量予測時系列を入力にして評価関数を演算することによって、前記補正後の状態量時系列に対する評価結果を生成する状態量評価部と、
　前記評価結果が適正基準を満たす場合に前記操作量時系列の先頭の操作量を前記アクチュエータに出力する操作量決定部と、
を備えるモデル予測制御システム。
　前記モデル予測制御システムは、
　前記状態センサから出力された計測状態量である過去状態量と前記アクチュエータに入力された操作量の時系列である操作量過去時系列とを入力にして前記予測モデルを演算することによって、学習用の状態量時系列である状態量学習時系列を生成するモデル演算部と、
　前記状態量学習時系列と、前記環境センサから出力された計測環境量である過去環境量と、前記状態センサから出力された計測状態量の時系列である状態量過去時系列とを用いて、前記ニューラルネットワークの重みパラメータに対する機械学習を行う重みパラメータ学習部とを備え、
　前記ニューラルネットワーク部は、前記機械学習によって得られた重みパラメータが設定されたニューラルネットワークを演算する
請求項５に記載のモデル予測制御システム。
　前記制御対象が車両であり、
　前記車両の自動運転制御のために用いられる
請求項５または請求項６に記載のモデル予測制御システム。
　状態センサが、制御対象の状態を計測し、
　環境センサが、前記制御対象の動作環境を計測し、
　操作量時系列生成部が、前記状態センサから出力される計測状態量に基づいて、前記制御対象の状態を変化させるためのアクチュエータに対する操作量時系列を生成し、
　予測モデル部が、前記計測状態量と前記操作量時系列とを入力にして予測モデルを演算することによって、前記制御対象の予測の状態量時系列である状態量予測時系列を生成し、
　ニューラルネットワーク部が、前記環境センサから出力される計測環境量と、前記状態量予測時系列と、を入力にしてニューラルネットワークを演算することによって、前記状態量予測時系列を補正し、
　状態量評価部が、補正後の状態量予測時系列を入力にして評価関数を演算することによって、前記補正後の状態量時系列に対する評価結果を生成し、
　操作量決定部が、前記評価結果が適正基準を満たす場合に前記操作量時系列の先頭の操作量を前記アクチュエータに出力する
モデル予測制御方法。
　制御対象の状態を変化させるためのアクチュエータに操作量を与えるモデル予測制御装置であって、
　前記制御対象の状態を計測する状態センサから出力される計測状態量と、前記制御対象の動作環境を計測する環境センサから出力される計測環境量と、を入力にしてニューラルネットワークを演算することによって、前記制御対象の状態の変化を予測するための予測モデルに設定されるモデルパラメータを算出するニューラルネットワーク部と、
　算出されたモデルパラメータが設定された予測モデルに基づいて、前記アクチュエータに対する操作量時系列を評価するための式として、二次計画法における評価式を生成する評価式生成部と、
　二次計画法における前記評価式を解くことによって、前記アクチュエータに与える操作量を算出するソルバ部と、
を備えるモデル予測制御装置。
　前記制御対象が車両であり、
　前記車両の自動運転制御のために用いられる
請求項９に記載のモデル予測制御装置。
　制御対象の状態を変化させるためのアクチュエータに操作量を与えるためのモデル予測制御プログラムであって、
　前記制御対象の状態を計測する状態センサから出力される計測状態量と、前記制御対象の動作環境を計測する環境センサから出力される計測環境量と、を入力にしてニューラルネットワークを演算することによって、前記制御対象の状態の変化を予測するための予測モデルに設定されるモデルパラメータを算出するニューラルネットワーク処理と、
　算出されたモデルパラメータが設定された予測モデルに基づいて、前記アクチュエータに対する操作量時系列を評価するための式として、二次計画法における評価式を生成する評価式生成処理と、
　二次計画法における前記評価式を解くことによって、前記アクチュエータに与える操作量を算出するソルバ処理と、
をコンピュータに実行させるためのモデル予測制御プログラム。
　制御対象の状態を計測する状態センサと、
　前記制御対象の動作環境を計測する環境センサと、
　前記制御対象の状態を変化させるためのアクチュエータと、
　前記制御対象の状態を計測する状態センサから出力される計測状態量と、前記制御対象の動作環境を計測する環境センサから出力される計測環境量と、を入力にしてニューラルネットワークを演算することによって、前記制御対象の状態の変化を予測するための予測モデルに設定されるモデルパラメータを算出するニューラルネットワーク部と、
　算出されたモデルパラメータが設定された予測モデルに基づいて、前記アクチュエータに対する操作量時系列を評価するための式として、二次計画法における評価式を生成する評価式生成部と、
　二次計画法における前記評価式を解くことによって、前記アクチュエータに与える操作量を算出するソルバ部と、
を備えるモデル予測制御システム。
　前記制御対象が車両であり、
　前記車両の自動運転制御のために用いられる
請求項１２に記載のモデル予測制御システム。
　制御対象の状態を変化させるためのアクチュエータに操作量を与えるモデル予測制御方法であって、
　状態センサが、前記制御対象の状態を計測し、
　環境センサが、前記制御対象の動作環境を計測し、
　ニューラルネットワーク部が、前記制御対象の状態を計測する状態センサから出力される計測状態量と、前記制御対象の動作環境を計測する環境センサから出力される計測環境量と、を入力にしてニューラルネットワークを演算することによって、前記制御対象の状態の変化を予測するための予測モデルに設定されるモデルパラメータを算出し、
　評価式生成部が、算出されたモデルパラメータが設定された予測モデルに基づいて、前記アクチュエータに対する操作量時系列を評価するための式として、二次計画法における評価式を生成し、
　ソルバ部が、二次計画法における前記評価式を解くことによって、前記アクチュエータに与える操作量を算出する
モデル予測制御方法。