WO2019176370A1

WO2019176370A1 - 将来状態推定装置および将来状態推定方法

Info

Publication number: WO2019176370A1
Application number: PCT/JP2019/003783
Authority: WO
Inventors: 勇也徳田; 吉田　卓弥; 孝保笠原; 矢敷　達朗
Original assignee: 株式会社日立製作所
Priority date: 2018-03-14
Filing date: 2019-02-04
Publication date: 2019-09-19
Also published as: JP2019159876A; JP7064356B2; EP3767560A4; EP3767560A1; US11573541B2; US20200393800A1

Abstract

有限の状態の空間内であれば無限時間先における制御対象とその周辺環境の状態を確率密度分布の形式で高速に推定することができる将来状態推定方法および将来状態推定装置を提供する。　模擬対象と模擬対象の周辺環境を模擬するモデルを保存するモデル記憶部と、有限の空間内における無限時間または時間ステップ先の模擬対象と模擬対象の周辺環境の将来状態を確率密度分布の形式で推定した情報を保存する将来状態予測結果記憶部と、模擬対象と模擬対象の周辺環境の将来状態を確率密度分布の形式で模擬するモデルを用い、級数と等価な計算を行う将来状態予測演算部を備えることを特徴とする将来状態推定装置。

Description

将来状態推定装置および将来状態推定方法

　本発明は、主として長期的な将来状態を考慮した制御則を高速に計算する将来状態推定装置および将来状態推定方法に関する。

　自動車やプラント（発電・産業）の分野で一般的に適用されているモデル予測制御は、制御対象とその周辺環境の状態をより遠い将来まで予測したいというニーズがある。

　操作象とその周辺環境の将来状態を予測するため、以下のような装置や方法が存在する。

　特許文献１は、制御対象とその周辺環境を模擬するモデルを用いて将来状態を予測し、その将来状態に適した操作量を計算する方法が開示されている。

　特許文献２には、制御対象となる工業システムの現在および将来の状態を予測し、目的関数を最大化するよう制御則を最適化する方法が開示されている。

　特許文献３には、熱反応炉プロセスのような非線形かつ動的なシステムを回帰手法によってモデル化し、モデルによって予測した将来状態を用いて最適な操作量を計算する方法が開示されている。

　特許文献４は、プラント運用上の制約条件を満たしつつ、目的に応じて制御パラメータを自動的に最適化できると共に、制御パラメータの最適化に要する計算時間を短縮できる制御パラメータ自動調整装置である。プラントモデルと強化学習などの機械学習手法を用いて将来状態を考慮した制御則を計算する方法が開示されている。

特開２０１６－２１２８７２号公報特開２０１３－１１４６６６号公報特開２００９－０７６０３６号公報特開２０１７－１５７１１２号公報

　特許文献１、２、３、４の装置や方法は、制御対象とその周辺環境を模擬するモデルを用いて将来状態を予測し、その予測した将来状態から最適な制御方法を計算する。より遠い将来状態を予測したいというニーズがあるが、繰り返し計算を用いる手法は予測したい将来状態までの時間が長いほど、予測計算に要する時間も長くなる。そこで、計算機の性能や制御周期による制約のなかで予測可能な有限時間先の将来状態まで計算することが一般的である。

　そこで、本発明は事前に定義した有限の状態の空間内であれば無限時間先における制御対象とその周辺環境の状態を確率密度分布の形式で高速に推定することができる将来状態推定装置および将来状態推定方法を提供することを目的とする。

　以上のことから本発明においては「模擬対象と模擬対象の周辺環境を模擬するモデルを保存するモデル記憶部と、有限の空間内における無限時間または時間ステップ先の模擬対象と模擬対象の周辺環境の将来状態を確率密度分布の形式で推定した情報を保存する将来状態予測結果記憶部と、模擬対象と模擬対象の周辺環境の将来状態を確率密度分布の形式で模擬するモデルを用い、級数と等価な計算を行う将来状態予測演算部を備えることを特徴とする将来状態推定装置」としたものである。

　また本発明は、「模擬対象とその周辺環境を模擬するモデルを保存するモデル記憶部と、有限の空間内における無限時間または時間ステップ先の模擬対象と模擬対象の周辺環境の将来状態を確率密度分布の形式で推定した情報を保存する将来状態予測結果記憶部と、模擬対象とその周辺環境を模擬するモデルを用いた級数と等価な計算行う手段と、状態の遷移に関する情報やデータを用いて、モデル記憶部の情報を更新するモデル更新部を備えることを特徴とする将来状態推定装置」としたものである。

　また本発明は、「模擬対象と模擬対象の周辺環境を模擬するモデルを保存し、有限の空間内における無限時間または時間ステップ先の模擬対象と模擬対象の周辺環境の将来状態を確率密度分布の形式で推定した情報を保存し、模擬対象と模擬対象の周辺環境の将来状態を確率密度分布の形式で模擬するモデルを用い、級数と等価な計算を行うことを特徴とする将来状態推定方法」としたものである。

　また本発明は、「模擬対象の挙動を模擬するモデルを用いて将来状態を推定するにあたり、状態遷移の前後における遷移元の状態と遷移先の状態について、遷移元の状態が遷移先の状態となる確率を状態遷移確率行列として記憶し、複数の遷移について将来であるほど低減する重みを加味した状態遷移確率行列の和である減衰型状態遷移行列を求めることを特徴とする将来状態推定方法」としたものである。

　本発明によれば、予測したい将来状態までの時間に依存することなく、無限時間先の制御対象とその周辺環境の将来状態を確率密度分布の形式で計算できる。

　また本発明の実施例によれば、この計算結果を用いることで、無限時間先の将来状態を考慮した最適な制御則を計算することができる。

　また本発明の実施例によれば、自動設計の分野では存在し得る全ての経路を考慮した経路の最適化方法や、ファイナンスの分野では遠い将来状態を考慮した価格決定方法、バイオエンジニアリングの分野ではモデル化可能な範囲にある全経路を考慮した代謝経路の最適化方法とすることができる。

本発明の実施例１に係る長期将来状態の高速推定方法を実装した処理装置の一例を表す構成図。モデル記憶部１３１で保存するモデルの形式が状態遷移確率行列Ｔであった場合の一例を示す図。（１）式の処理を模式的に示した図。処理装置１００が行う処理のフローを示す図。実施例１の処理装置１００をモデルベース制御の最適化に拡張した、処理装置１０１の一例を表す構成図。報酬関数がベクトル形式の場合の一例を示す図。制御則記憶部１３４に保存する制御則の一例を示す図。状態価値関数Ｖの一例を示す図。（４）式の計算結果の一例を示す図。処理装置１０１が行う処理のフローを示す図。モデル記憶部１３１で記録したモデルデータの一例として状態遷移確率行列Ｔを画面に表示した例を示す図。将来状態予測結果記憶部１３２に保存する減衰型状態遷移行列Ｄを画面に表示した例を示す図。モデル記憶部１３１で保存するモデルデータを加工したデータとして遷移確率分布Ｐを表示した例を示す図。状態のＩＤと温度、圧力、流量の関係を事前に作成した対応表を示す図。報酬関数Ｒと、制御則と、状態価値関数と、遷移元の状態ｓｉに対する状態ｓｊ^＊の表を画面に表示した一例を示す図。、制御則を用いた制御によって、制御対象とその周辺環境の状態が時間経過でどのように変化するか予測したグラフ１０５を画面に表示した例を示す図。モデル記憶部１３１で記録したモデルデータを更新する際に画面に表示される画面の一例を示す図。図１７とはモデルの更新内容（更新前後）の表示方法が異なる画面の一例を示す図。

　以下、図面を用いて実施例を説明する。

　図１は、本発明の実施例１に係る長期将来状態の高速推定方法を実装した処理装置１００の一例を表す構成図である。処理装置１００は、入力装置１１０、データ読み込み装置１１５、出力装置１２０、記憶装置１３０、演算装置１４０を主たる要素として構成されている。

　このうち入力装置１１０は、操作者の指示を受け付ける部分であり、ボタン、タッチパネルなどで構成されている。

　データ読み込み装置１１５は、処理装置１００の外部からデータを受け付ける部分であり、ＣＤドライブ、ＵＳＢ端子、ＬＡＮケーブル端子、通信装置などで構成されている。

　出力装置１２０は、操作者への指示情報、読取画像、読取結果などを出力する装置であり、ディスプレイや通信装置で構成されている。

　上記したこれらの構成は標準的なものであり、入力装置１１０、データ読み込み装置１１５、出力装置１２０のいずれかまたはすべてが処理装置１００の外部に接続される構成でも良い。

　記憶装置１３０は、各種のデータを記憶する部分であり、モデル記憶部１３１と将来状態予測結果記憶部１３２から構成されている。このうちモデル記憶部１３１は、処理装置１００で将来状態の予測対象とする物体や現象の挙動を模擬するモデルを保存する部分である。また将来状態予測結果記憶部１３２は、後述する将来状態予測演算部１４２の演算結果を保存する部分である。記憶装置１３０の詳細は後述することにし、ここでは概略機能のみを述べている。

　演算装置１４０は、入力装置１１０、データ読み込み装置１１５から入力されるデータおよび記憶装置１３０に記憶されたデータを処理し、その結果を出力装置１２０に出力または記憶装置１３０に記録するものであり、以下の処理部（入力制御部１４１、将来状態予測結果記憶部１３２、出力制御部１４３）から構成されている。

　入力制御部１４１は、入力装置１１０またはデータ読み込み装置１１５から入力されるデータを指令、モデルなどに区分し、記憶装置１３０や演算装置１４０の各部へ転送する処理を行なう部分である。

　将来状態予測演算部１４２は、モデル記憶部１３１で記憶したモデルデータから、減衰型状態遷移行列を計算し、将来状態予測結果記憶部１３２に記録する。

　出力制御部１４３は、記憶装置１３０に記憶されたデータを、出力装置１２０へ出力する部分である。出力先が画面などのときは、読み取り操作が行われる都度結果が出力されるのが好ましい。出力先が通信先などのときは、出力処理は状態遷移確率行列の更新や将来状態予測演算部１４２の演算が行われる都度でも良いし、何回かのデータをまとめる、あらかじめ定めた時間ごとにまとめるなどして処理しても良い。

　以下、図１の処理装置１００を用いて実行される処理の詳細について説明する。なお以下の説明に当たり、本発明では将来状態の予測対象とする物体や現象を模擬対象と呼ぶこととする。模擬対象の例として、機械や生物の挙動、自然や物理現象、化学反応、金銭や物価の変動、消費者の需要の変化などがあるが、本発明では模擬対象をこれらの例に限定しない。

　本発明でのモデルの入力は模擬対象の状態と時間経過や、操作、外乱などの影響因子であり、出力は影響因子の影響を受けた後の模擬対象の状態であり、本発明ではこのモデルを状態遷移モデルと呼ぶこととする。状態遷移モデルなどのモデルは、図１のモデル記憶部１３１に記憶されている。また状態遷移モデルは、有限の状態空間内において、無限時間または無限ステップ先における模擬対象とその周辺環境の状態を確率密度分布の形式で表現している。

　モデル記憶部１３１における状態遷移モデルなどの保存形式の一例として、例えば状態遷移確率行列や、ニューラルネットワーク、動径基底関数ネットワーク、またはニューラルネットワークや動径基底関数ネットワークの重みが現されている行列が考えられるが、本発明は模擬対象のモデル保存形式をこれらの例に限定しない。

　モデル記憶部１３１で保存するモデルの形式が状態遷移確率行列Ｔであった場合の一例を図２に示す。図２は、遷移元の状態ｓｉ（ｉ＝１、２、・・・ｎ）と遷移先の状態ｓｊ（ｊ＝１、２、・・・ｎ）を縦横のマトリクスにして示しており、マトリクス内には状態遷移確率Ｐ（ｓｊ｜ｓｉ）を数値表示している。遷移確率行列Ｔは一般的に制御対象の運動特性や物理現象を模擬するモデルの一種であり、すべての状態間の遷移確率を保存する関数または行列）である。ここで、表の行が遷移元の状態ｓｉ（ｉ＝１、２、・・・ｎ）、列が遷移先の状態ｓｊ（ｊ＝１、２、・・・ｎ）、要素Ｔｉｊは事前に設定した刻み時間Δｔ（またはステップ）が経過した際に、状態が状態ｓｉから状態ｓｊに遷移する確率Ｐ（ｓｊ｜ｓｉ）である。

　本発明が適用される模擬対象について、無限時間または無限ステップ先における模擬対象とその周辺環境の状態を確率密度分布の形式で推定するにあたり、推定する将来状態までの距離、時間、ステップのいずれか一つ以上に計算時間が依存しないものであってもよい。状態遷移確率Ｐ（ｓｊ｜ｓｉ）が時間に依存しない場合は、影響因子が模擬対象に干渉した量や回数を示すステップτを時間ｔの代わりに用いても良い。

　図２は、遷移元の状態ｓｉのうちｓ１に着目したとき、経過時間Δｔ後における遷移先の状態ｓｊにおいて、ｓ１となる確率Ｐ（ｓ１｜ｓ１）が０．５であり、ｓ２となる確率Ｐ（ｓ２｜ｓ１）が０．５であり、ｓ３以降となる確率Ｐ（ｓ３｜ｓ１）は０であることを表している。同様にｓ２に着目したとき、経過時間Δｔ後における遷移先の状態ｓｊにおいて、ｓ１となる確率Ｐ（ｓ１｜ｓ２）が０であり、ｓ２となる確率Ｐ（ｓ２｜ｓ２）が０．２５であり、ｓ３となる確率Ｐ（ｓ３｜ｓ２）は０．５であり、ｓ４となる確率Ｐ（ｓ４｜ｓ１）が０．２５であることを示している。なお図２の表は、遷移元の状態と遷移後に移動する移動先の確率を示しているので、この表は確率密度分布の表とみることができる。確率密度分布は、例えば山状の形状を示す。

　なお上記説明においては、状態遷移確率行列Ｔについて、経過時間Δｔの前後の一断面のみを示す表Ｔｉｊを例示しているが、実際にはさらに経過時間Δｔ刻みの表が連続的に存在して、モデル記憶部１３１で保存するモデルである状態遷移確率行列Ｔが形成されている。表Ｔｉｊの経過時間Δｔ後の表がＴｉ＋１、ｊ＋１であり、さらに経過時間Δｔ後の表がＴｉ＋２、ｊ＋２である。

　図２の例では状態ｓは全体を範囲に区切ってｎ分割した離散空間として扱っているが、ニューラルネットワーク、動径基底関数ネットワークなどを用いることで、状態ｓを連続空間としても扱うことができる。また、ニューラルネットワーク、動径基底関数ネットワークなどを用いる場合は、ニューロンへ入る入力信号の重み係数や、基底関数の重み係数を要素値とした行列で状態遷移確率行列Ｔを代用しても良い。

　図１に戻って、将来状態予測結果記憶部１３２は、将来状態予測演算部１４２の演算結果を保存する部分である。本発明では将来状態予測結果記憶部１３２に保存するデータを減衰型状態遷移行列と呼ぶこととする。減衰型状態遷移行列とその計算方法については後述する。

　将来状態予測演算部１４２は、モデル記憶部１３１で記録したモデルデータから、減衰型状態遷移行列を計算し、将来状態予測結果記憶部１３２に記録する。減衰型状態遷移行列を計算する方法の一例を、以下の（１）式に示す。なお、（１）式の例ではモデル記憶部１３１でのモデルの保存形式を状態遷移確率行列Ｔと仮定した。

　（１）式において、Ｄは減衰型状態遷移行列、γは減衰率とよぶ０以上で１未満の定数である。また、Ｔ^ｋはΔｔ×ｋの時間が経過した際の、すべての状態間の遷移確率を保存する関数（または行列）である。

　図３は、（１）式の処理を模式的に示した図であり、図２の経過時間Δｔごとの複数の状態遷移確率行列Ｔｉｊについて、経過時間Δｔごとに減衰していく重み係数γを乗じ、その合計を算出したものである。なお図３において、複数の状態遷移確率行列Ｔｉｊにおける遷移元の状態ｓｉと遷移先の状態ｓｊを示す確率分布は、例えば山状の特性群として把握されている。

　このように、減衰型状態遷移行列Ｄは、Δｔ時間経過後の状態遷移確率行列ＴからΔｔ×∞時間経過後の状態遷移確率行列Ｔ^∞までの和であり、すべての状態間の統計的な近さを保存する行列でもある。また、遠い将来に遷移する状態ほど重みを下げるため、経過時間に応じて減衰率γの分を多く掛けている。

　現時点における状態遷移確率行列Ｔから∞時間経過後における状態遷移確率行列Ｔ^∞までの計算を必要とする（１）式は、実時間以内の計算が困難である。そこで本発明は（１）式を以下の（２）式に変換したことを特徴とする。（２）式は要するに、無限時間または無限ステップ先における模擬対象とその周辺環境の状態を確率密度分布の形式で推定するにあたり、状態遷移確率行列の級数と等価な計算を行うものである。

　（２）式において、Ｅは単位行列である。（２）式は（１）式と等価の計算式である。（１）式の状態遷移確率行列Ｔから状態遷移確率行列Ｔ^∞までの和の計算を、（２）式では（Ｅ－γＴ）の逆行列に変換することによって、有限時間以内に（１）式と同じ計算結果が得られる。ここで、状態遷移確率行列Ｔが線形独立でない場合は、擬似逆行列を用いても良い。また、減衰型状態遷移行列Ｄの代わりに、減衰型状態遷移行列を各行で正規化した行列を用いても良い。

　このように本発明は、模擬対象の挙動を模擬するモデルを状態遷移モデルとすることで、Ｔ^ｋの計算でΔｔ×ｋ時間後の状態遷移確率を計算することを可能とした。また、Δｔ時間経過後の状態遷移確率行列ＴからΔｔ×∞時間経過後の状態遷移確率行列Ｔ^∞までの和をとり、経過時間によって減衰率γによる重み付けによって、Δｔ×∞時間経過後を考慮した状態遷移確率を、有限時間以内に計算することを可能とした。

　図４は、処理装置１００が行う処理のフローを示す図である。

　まず処理ステップＳ１２０１の処理により、入力制御部１４１からの指令にもとづいて、データ読み込み装置１１５から、模擬対象のモデルに関するデータが入力され、そのデータはモデル記憶部１３１に記録される。

　つぎに処理ステップＳ１２０２の処理により、モデル記憶部１３１に記録された模擬対象のモデルに関するデータが将来状態予測演算部１４２に転送され、（２）式に基づいて減衰型状態遷移行列Dが計算され、その結果は将来状態予測結果記憶部１３２に記録される。

　最後に処理ステップＳ１２０３の処理により、将来状態予測結果記憶部１３６に記録されたデータが出力制御部１４３へ転送され、出力装置１２０へ出力される。

　図５は、実施例１の処理装置１００をモデルベース制御の最適化に拡張した、処理装置１０１の一例を表す構成図である。処理装置１０１における模擬対象は、制御対象とその周辺環境の挙動であり、モデル記憶部１３１に保存するモデルも制御対象とその周辺環境の挙動を模擬する。このように実施例２では、模擬対象が制御対象を含んでいる場合を想定している。

　処理装置１０１は、入力装置１１０、データ読み込み装置１１５、出力装置１２０、記憶装置１３０、演算装置１５０を主たる要素として構成されている。

　出力装置１２０は、操作者への指示情報、読取画像、読取結果などを出力する装置であり、ディスプレイ、ＣＤドライブ、ＵＳＢ端子、ＬＡＮケーブル端子、通信装置などで構成されている。

　記憶装置１３０は、モデル記憶部１３１、将来状態予測結果記憶部１３２、報酬関数記憶部１３３、制御則記憶部１３４から構成されている。このうち将来状態予測結果記憶部１３２については実施例１とほぼ等しい機能のものである。

　モデル記憶部１３１は実施例１と等しい機能の場合もあるが、制御においては状態以外に操作量も模擬対象の挙動が変化する場合もある。操作量によって模擬対象の挙動が変化する場合は、モデルに操作量の情報を加えることで、実施例１と同じく減衰型状態遷移行列が計算できる。

　報酬関数記憶部１３３は、目標位置や目標速度などの制御目標を関数、表、ベクトル、行列などの形式で保存する部分である。本発明ではこの制御目標の情報を有する関数、表、ベクトル、行列などを報酬関数Ｒと呼ぶこととする。報酬関数がベクトル形式の場合の一例を図６に示す。図６では、遷移元の状態ＩＤごとに報酬関数Ｒを数値で表している。この図によれば、状態ｓは全体を範囲に区切ってｎ分割した離散空間として扱っており、初期の状態から状態ｓ３へ遷移することを目標とした。ここでは目標とするベクトルの要素値は、状態ｓ３を１、その他の状態を０とした。本発明では、このベクトルの要素値や、報酬関数Ｒの値を報酬と呼ぶこととする。なお制御における報酬としては、ＡＩにおける強化学習の際の希望値或は目的関数が例示される。

　図５に戻って、制御則記憶部１３４は制御目標に対して最適な制御則を保存する部分である。制御則記憶部１３４に保存する制御則の一例を図７に示す。図７では、遷移元の状態ＩＤ（ｓｉ）ごとに操作量ＩＤを数値で表している。この図によれば、状態ｓｉは全体を範囲に区切ってｎ分割した離散空間として扱っており、各状態の範囲に対して最適な操作量ａｃ（ｃ＝１、２・・・ｍ）が保存されている。最適な操作量ａの計算方法については後述する。

　図５に戻って、演算装置１５０は、入力装置１１０、データ読み込み装置１１５から入力されるデータおよび記憶装置１３０に記憶されたデータを処理し、その結果を出力装置１２０に出力または記憶装置１３０に記録するものであり、以下の処理部から構成されている。

　入力制御部１５１は、入力装置１１０またはデータ読み込み装置１１５から入力されるデータを指令、モデル、などに区分し、記憶装置や演算装置の各部へ転送する処理を行なう部分である。

　将来状態予測演算部１５２は、実施例１の将来状態予測演算部１４２と等価である。また、出力制御部１５３についても、実施例１の出力制御部１４３と等価である。

　制御則演算部１５４は、将来状態予測結果記憶部１３２で記録した減衰型状態遷移行列Ｄと、報酬関数記憶部１３３で記録した報酬関数Ｒから、最適な制御則（最適な操作量ａ）を計算し、制御則記憶部１３４に記録する。

　最適な制御則を計算する方法の一例を以下に示す。本例では、最適な制御則を求めるために以下の３段階で計算する。

　段階１：先ず、各状態ｓと報酬関数Ｒで目標とする状態ｓｇｏａｌとの近さ（または遷移しやすさを示す統計的な指標）を保存する関数を計算する。この関数を本発明では状態価値関数Ｖと呼ぶこととする。また、状態価値関数Ｖは関数以外にも表、ベクトル、行列などの形式で保存してもよく、本発明において保存形式は限定しない。状態価値関数Ｖの計算方法の一例を以下の（３）式に示す。

　上記（３）式に示すように、状態価値関数Ｖは減衰型状態遷移行列Ｄと報酬関数Ｒの積である。例えば、図２と図６に示したように、減衰型状態遷移行列Ｄがｎ×ｎの行列、報酬関数Ｒがｎ次元のベクトルの場合、状態価値関数Ｖは図８に示すようなｎ次元のベクトルとなる。状態価値関数Ｖの要素値は目標とする状態ｓｇｏａｌへ遷移しやすい状態ほど高い。本発明ではこの要素値を価値と呼ぶこととする。また、本発明の状態価値関数Ｖは、強化学習法での状態価値関数の定義と値が等価となる。

　段階２：次に、状態価値関数Ｖを用いて、遷移元の状態ｓｉから遷移できる遷移先の状態ｓｊの中で、最も目標とする状態ｓｇｏａｌへ遷移しやすい状態ｓｊ^＊を、遷移元の各状態ｓｉについて計算する。状態ｓｊ^＊の計算方法の一例を以下の（４）式に示す。

　ここでＴ（ｓｉ、ｓｊ）とは、状態遷移確率行列Ｔにおけるｓｉ行、ｓｊ列の要素値である。（４）式の計算結果の一例を図９に示す。図９では、遷移元の状態ＩＤ（ｓｉ）ごとに遷移先の状態ＩＤ（ｓｊ）を表している。この図９によれば、遷移元の状態が状態ｓ１の場合、状態遷移確率行列Ｔ（図２）において、遷移先となる得る状態は状態ｓ１か状態ｓ２の２つである。この２つの状態のうち、状態価値関数Ｖで価値が高いのは状態ｓ２である。そのため図９の例において、遷移元の状態ｓ１の遷移先の状態として状態ｓ２が保存されている。

　段階３：最後の段階では、遷移元の各状態ｓｉから、段階２で得られた状態ｓｊ^＊へ遷移するために必要な操作量ａを計算する。操作量ａの計算は、例えばモデル記憶部１３１の逆モデル（遷移元の状態ｓｉと状態ｓｊ^＊を入力として、対応する操作量ａを出力するモデル）を求めることで計算できる。段階３の計算結果としては、例えば図６に示したような制御則が得られる。

　このように上記（３）式で価値を計算することによって、各状態におけるｓｇｏａｌへの遷移し易さが評価を可能とし、上記（４）式によってΔｔ時間経過によって遷移できる状態のうち最もｓｇｏａｌへ遷移し易い状態ｓｊ^＊の特定を可能とし、逆モデルによって状態ｓｊ^＊へ遷移するための操作量ａの特定を可能としている。

　図５に戻って、モデル更新部１５５は、データ読み込み装置１１５からモデル記憶部１３１に記録したモデルデータの更新データが入力された際に、モデルデータを更新データに基づいて修正し、修正したモデルデータをモデル記憶部１３１に記録する。

　図１０は、処理装置１０１が行う処理のフローを示す図である。

　まず図１０の処理ステップＳ１３０１では、入力制御部１４１からの指令にもとづいて、データ読み込み装置１１５から、模擬対象のモデルに関するデータと報酬関数Ｒに関するデータが入力され、そのデータはモデル記憶部１３１と報酬関数記憶部１３３に記録される。

　つぎに処理ステップＳ１３０２では、モデル記憶部１３１に記録された模擬対象のモデルに関するデータが将来状態予測演算部１４２に転送され、（２）式に基づいて減衰型状態遷移行列Ｄが計算され、その結果は将来状態予測結果記憶部１３２に記録される。

　つぎに処理ステップＳ１３０３では、将来状態予測結果記憶部１３２に記録された減衰型状態遷移行列Ｄと、報酬関数記憶部１３３に記録された報酬関数Ｒが制御則演算部１５４に転送され、最適な制御則を計算し、その結果を制御則記憶部１３４に記録する。

　つぎに処理ステップＳ１３０４では、将来状態予測結果記憶部１３６と制御則記憶部１３４に記録されたデータが出力制御部１４３へ転送され、出力装置１２０へ出力される。

　つぎに処理ステップＳ１３０５では、制御対象は制御を終了するか否かを判定する。制御を継続する場合は処理ステップＳ１３０６へ進み、制御を終了する場合はフローも終了となる。

　つぎに処理ステップＳ１３０６では、出力装置１２０から制御対象に送られた制御則に基づいて、制御対象は操作量ａを計算し、操作を実行する。

　つぎに処理ステップＳ１３０７では、制御対象は操作の実行前と後に計測した制御対象およびその周辺環境の状態をデータ読み込み装置１１５に対して送信する。

　つぎに処理ステップＳ１３０８では、入力制御部１４１は、データ読み込み装置１１５が操作の実行前と後に計測した制御対象およびその周辺環境の状態のデータを受信したか否かを判定する。データを受信した場合、処理ステップＳ１３０９へ進み、データを受信しなかった場合は処理ステップＳ１３０５へ戻る。

　処理ステップＳ１３０９では、処理ステップＳ１３０８の処理においてデータ読み込み装置１１５が操作の実行前と後に計測した制御対象およびその周辺環境の状態のデータを受信した場合、受信データとモデル記憶部１３１に記録されるモデルデータがモデル更新部１５５に転送され、更新されたモデルデータがモデル記憶部１３１に記録される。その後、処理ステップＳ１３０２へ進む。

　図１１、図１２、図１３は実施例１と実施例２において、出力装置１２０に表示する画面の一例である。

　図１１は、モデル記憶部１３１で記録したモデルデータの一例として状態遷移確率行列Ｔを画面に表示したものである。図では、モデルの保存形式の一例として状態遷移確率行列Ｔを、移動元状態ｓｉと移動先状態ｓｊによるマトリクス形式により画面に表示しており、行列の要素値は本画面から入力装置１１０を通して更新できるようにしてもよい。

　図１２は、将来状態予測結果記憶部１３２に保存する減衰型状態遷移行列Ｄを画面に表示した場合の一例である。図では、減衰型状態遷移行列Ｄを、移動元状態ｓｉと移動先状態ｓｊによるマトリクス形式により画面に表示している。なお画面に表示するのは、減衰型状態遷移行列Ｄの代わりに、減衰型状態遷移行列Ｄを各行で正規化した行列でもよい。

　図１３は、モデル記憶部１３１で保存するモデルデータを加工したデータとして遷移確率分布Ｐを表示した場合の一例である。画面では、遷移先の状態ｓｊを横軸にして遷移確率Ｐを表示している。

　また画面には、遷移元ｓｉの状態設定部１０１とグラフ出力部１０３と経過時間の設定部１０２が形成されている。遷移元ｓｉの状態設定部１０１では、入力装置１１０を通して遷移元の状態を入力する。ここではｓ３を例示し、入力したものとする。入力したｓ３のときの遷移元の状態の具体例は、模擬対象の温度、圧力、流量である。ここでは状態ＩＤボタンからａ３を入力すると、状態のＩＤから模擬対象の温度、圧力、流量の各値に変換するようになっている。

　この変換は図１４に示すような状態のＩＤと温度、圧力、流量の対応表を事前に作成しておくことで実現できる。この例では、ｓ３が選択されたので、模擬対象の温度３０７度、圧力３．４ＭＰａ、流量０．４ｔ／ｈをそれぞれ表示した。

　また図１３のグラフ出力部１０３において、グラフ出力ボタンを押すと、事前に設定した状態ＩＤにあたる行の減衰型状態遷移行列の要素値をグラフ化した図が画面に表示される。

　また、経過時間の設定部１０２では、予め設定された最大最少時間の範囲内で適宜の時間間隔Δｔを設定可能である。時間の範囲を指定することで、指定した時間範囲での減衰型状態遷移行列Ｄを表示する。時間の範囲を限定した場合の減衰型状態遷移行列Ｄは、例えば以下の（５）式によって求められる。

ここで、ｔ_ｍｉｎは指定した時間範囲の最小値、ｔ_ｍａｘは指定した時間範囲の最大値、Δｔは事前に設定した刻み時間である。また、画面右のスクロールを調整することで、特定の時間経過時の減衰型状態遷移行列Ｄを画面に表示させることができる。指定した時間経過時の減衰型状態遷移行列Ｄは、例えば以下の（６）式によって求められる。

　ここで、ｔｐは指定した経過時間である。図１２の画面の例ではｔｐが５０秒である場合の減衰型状態遷移行列Ｄを表示している。本画面で表示するグラフによって、指定した経過時間ｔｐまたはｔ_ｍｉｎからｔ_ｍａｘの時間の範囲において、遷移元の状態から各状態へ遷移する確率ｐを確認することができる。

　図１５、図１６、図１７、図１８は実施例２において、出力装置１２０に表示する画面の一例である。

　図１５は、報酬関数記憶部１３３に記録した報酬関数Ｒと、制御則記憶部１３４に記録した制御則と、制御則演算部１５４で計算した状態価値関数と、制御則演算部１５４で計算した遷移元の状態ｓｉに対する状態ｓｊ^＊の表を画面に表示した場合の一例である。報酬関数の要素値は本画面から入力装置１１０を通して更新できるようにしてもよい。また、画面中の状態ＩＤはマウスカーソルを近づけることで、図１４に示したような表の例に基づいて、状態ＩＤに対応した温度、圧力、流量の値を画面上に表示してもよい。

　図１６は、制御則記憶部１３４に記録した制御則を用いた制御によって、制御対象とその周辺環境の状態が時間経過でどのように変化するか予測したグラフ１０５を画面に表示した一例である。画面上で初期状態を設定した後、挙動開始ボタン１０４を押すことで、時間経過に対する状態の遷移を確認できる。例のように、状態が温度、圧力、流量の３つに関連している場合、一ずつ表示するように表示を切り替えるボタン１０９を設定してもよい。

　図１７は、図１０の処理ステップＳ１３０９や、図１２の画面において、モデル記憶部１３１で記録したモデルデータを更新する際に画面に表示される画面の一例である。本画面には、モデルの更新内容（更新前後）と、モデルの更新に伴う制御則の更新内容（更新前後）、制御則の更新によって図１６と等価な時間経過による状態遷移予測結果の変化（更新前後）と、モデル更新の可否を指定するボタン１０６、１０７、１０８が表示される。モデル更新の許可ボタン１０６を押すと図１０の処理ステップＳ１３０９が実行され、却下ボタン１０７を押すと１３０９は実行されない。また、保留ボタン処理ステップＳを押すと処理ステップＳ１３０９は実行されないが、保留ボタン１０８を押した後でも再び同じ画面を読み出すことができる。

　図１８は、図１７とはモデルの更新内容（更新前後）の表示方法が異なる画面の一例である。図１７では更新対象となる遷移元の状態と遷移後の状態とその遷移確率が表示してあるのに対して、図１８は更新前と更新後の状態遷移行列を表示する。

　図１７と図１８の表示画面は、モデルの更新内容と、モデルの更新に伴う制御則の更新内容、制御則の更新によって図１６と等価な時間経過による状態遷移予測結果の変化を表示することで、モデルの更新が制御則や制御の結果による制御対象への影響を安易に確認することを可能としており、制御対象への影響からモデルの更新有無をスムーズに判断することが可能となる。

１００、１０１：処理装置
１１０：入力装置
１１５：データ読み込み装置
１２０：出力装置
１３０：記憶装置
１３１：モデル記憶部
１３２：将来状態予測結果記憶部
１３３：報酬関数記憶部
１３４：制御則記憶部
１４０、１５０：演算装置
１４１、１５１：入力制御部
１４２、１５２：将来状態予測演算部
１４３、１５３：出力制御部
１５４：制御則演算部
１５５：モデル更新部

Claims

　模擬対象と模擬対象の周辺環境を模擬するモデルを保存するモデル記憶部と、
　有限の空間内における無限時間または時間ステップ先の前記模擬対象と前記模擬対象の周辺環境の将来状態を確率密度分布の形式で推定した情報を保存する将来状態予測結果記憶部と、
　前記模擬対象と前記模擬対象の周辺環境の将来状態を確率密度分布の形式で模擬するモデルを用い、級数と等価な計算を行う将来状態予測演算部を備えることを特徴とする将来状態推定装置。
　請求項１に記載の将来状態推定装置であって、
　前記将来状態予測演算部は、無限時間または無限ステップ先における前記模擬対象と前記模擬対象の周辺環境の状態を確率密度分布の形式で推定するにあたり、状態遷移確率行列の級数と等価な計算を行うことを特徴とする将来状態推定装置。
　請求項１または請求項２に記載の将来状態推定装置であって、
　前記将来状態予測演算部は、無限時間または無限ステップ先における前記模擬対象と前記模擬対象の周辺環境の状態を確率密度分布の形式で推定するにあたり、推定する将来状態までの距離、時間、ステップのいずれか一つ以上に計算時間が依存しないことを特徴とする将来状態推定装置。
　請求項１から請求項３のいずれか1項に記載の将来状態推定装置であって、
　前記模擬対象は制御対象を含んでおり、前記将来状態予測演算部において推定した無限時間または無限ステップ先における前記模擬対象と前記模擬対象の周辺環境の状態の推定結果を用いて、前記制御対象の操作量を計算する制御則演算部を備えていることを特徴とする将来状態推定装置。
　模擬対象とその周辺環境を模擬するモデルを保存するモデル記憶部と、
　有限の空間内における無限時間または時間ステップ先の前記模擬対象と前記模擬対象の周辺環境の将来状態を確率密度分布の形式で推定した情報を保存する将来状態予測結果記憶部と、
　模擬対象とその周辺環境を模擬するモデルを用いた級数と等価な計算を行う手段と、
　状態の遷移に関する情報やデータを用いて、前記モデル記憶部の情報を更新するモデル更新部を備えることを特徴とする将来状態推定装置。
　前記模擬対象は制御対象を含んでいる、請求項５に記載の将来状態推定装置であって、
　前記制御対象における操作の目的と状態に応じて最適な操作を保存する制御則記憶部と、
　報酬関数や目的関数などの操作の目的に関する情報を保存する報酬関数記憶部と、
　前記将来状態予測結果記憶部と前記報酬関数記憶部に保存した情報を用いて、前記制御対象における操作の目的と状態に応じて最適な制御則を出力する制御則演算部を備えることを特徴とする将来状態推定装置。
　表示手段を備える、請求項５または請求項６に記載の将来状態推定装置であって、
　前記表示手段には、更新前のモデル、更新後のモデル、更新前と更新後のモデルの違いに関する情報のいずれか２つ以上を出力することを特徴とする将来状態推定装置。
　表示手段を備える、請求項５から請求項７のいずれか1項に記載の将来状態推定装置であって、
　前記表示手段には、指定した経過時間、経過ステップ、時間の範囲、ステップの範囲のいずれか一つ以上における遷移元の状態から各状態へ遷移する確率を表示することを特徴とする将来状態推定装置。
　表示手段を備える、請求項５から請求項８のいずれか1項に記載の将来状態推定装置であって、
　前記表示手段には、更新前のモデル、更新後のモデル、更新前と更新後のモデルの違いに関する情報のいずれか２つ以上と、
　モデル更新前の制御則、モデル更新後の制御則、モデル更新前と更新後の制御則の違いに関する情報のいずれか２つ以上と、
　モデル更新前の時間経過による状態の遷移予測結果、モデル更新後の時間経過による状態の遷移予測結果、モデル更新前と更新後の時間経過による状態の遷移予測結果の違いに関する情報のいずれか２つ以上と、
　モデル更新の可否を指定する手段を表示していることを特徴とする将来状態推定装置。
　模擬対象と模擬対象の周辺環境を模擬するモデルを保存し、
　有限の空間内における無限時間または時間ステップ先の前記模擬対象と前記模擬対象の周辺環境の将来状態を確率密度分布の形式で推定した情報を保存し、
　前記模擬対象と前記模擬対象の周辺環境の将来状態を確率密度分布の形式で模擬するモデルを用い、級数と等価な計算を行うことを特徴とする将来状態推定方法。
　請求項１０に記載の将来状態推定方法であって、
　無限時間または無限ステップ先における前記模擬対象と前記模擬対象の周辺環境の状態を確率密度分布の形式で推定するにあたり、状態遷移確率行列の級数と等価な計算を行うことを特徴とする将来状態推定方法。
　請求項１０または請求項１１に記載の将来状態推定方法であって、
　無限時間または無限ステップ先における前記模擬対象と前記模擬対象の周辺環境の状態を確率密度分布の形式で推定するにあたり、推定する将来状態までの距離、時間、ステップのいずれか一つ以上に計算時間が依存しないことを特徴とする将来状態推定方法。
　請求項１０から請求項１２のいずれか1項に記載の将来状態推定方法であって、
　前記模擬対象は制御対象を含んでおり、推定した無限時間または無限ステップ先における前記模擬対象と前記模擬対象の周辺環境の状態の推定結果を用いて、前記制御対象の操作量を計算することを特徴とする将来状態推定方法。
　模擬対象の挙動を模擬するモデルを用いて将来状態を推定するにあたり、状態遷移の前後における遷移元の状態と遷移先の状態について、遷移元の状態が遷移先の状態となる確率を状態遷移確率行列として記憶し、複数の遷移について将来であるほど低減する重みを加味した前記状態遷移確率行列の和である減衰型状態遷移行列を求めることを特徴とする将来状態推定方法。
　請求項１４に記載の将来状態推定方法であって、
　前記減衰型状態遷移行列を状態遷移確率行列の級数と等価な計算を行うことで求めることを特徴とする将来状態推定方法。