WO2024084784A1

WO2024084784A1 - プラント制御システム及びプラント制御方法

Info

Publication number: WO2024084784A1
Application number: PCT/JP2023/029069
Authority: WO
Inventors: 真琴平野; 勇也徳田; 喜治林
Original assignee: 株式会社日立製作所
Priority date: 2022-10-19
Filing date: 2023-08-09
Publication date: 2024-04-25
Also published as: JP2024060341A

Abstract

操作量の振動を抑制しつつ、被制御量を目標値へ速やかに収束させるような操作量を出力可能な制御システムを提供する。プラントの最適行動を学習により求める学習処理装置と、学習処理装置で定めた最適行動に従いプラントを制御する制御処理装置を備え、学習処理装置は、複数のプラント信号をプラントの状態に変換し、目標状態を定義する状態情報制御部と、プラントの状態、行動及び目標状態を用いて、前回操作時と今回操作時の間における状態と行動の価値である行動価値を求める行動価値更新部と、行動価値を用いて目標状態を達成する最適行動を決定する最適行動選択部を備え、プラントの操作量の振動を抑制する行動を最適行動として決定することを特徴とするプラント制御システム。

Description

プラント制御システム及びプラント制御方法

　本発明はプラント制御システム及びプラント制御方法に関する。

　プラント分野では、プロセスを安定化させる制御として、ＡＩ技術の一つである強化学習が用いられることが増えている。強化学習は、制御対象を模擬したシミュレータ等を試行錯誤的に探索することによって、最適な制御則を学習する。ここでの最適な制御則とは、速やかにプロセスを安定化させること、つまり、被制御量となるプラント信号値を目標値へ収束させるような操作量を出力可能な制御モデルである。

　強化学習では、操作量毎の価値が定義され、価値の更新式と呼ばれる数式によって更新していくことで、最適な制御則を学習することができる。ここで言う価値とは、被制御量を目標値へ収束させるために、ある操作量がその目的に対してどれくらい効果的かを表した数値である。強化学習は、被制御量を目標値へ収束させることを目的として、探索した情報の中から、前述の価値を基に最適な操作を見出すことが可能なため、高精度な制御を実現することが期待できる。

　しかし、強化学習は被制御量を速やかに目標値へ収束させることができる反面、価値やその更新式に出力値の挙動を評価する機能が備わっておらず、挙動自体に制約を設けることができない。そのため、学習によって得られた制御則の出力する操作量が振動する等の課題が生じている。実機適用の際、操作量の振動は機器故障の原因となり得るため、解決する必要がある。

　このような背景から、強化学習によって獲得される制御則の出力挙動に制約を課す方法が望まれている。

　特許文献１に開示された手法では、ある出力が多発した場合に更新する価値を減衰できるようになっている。これによって、出力の挙動を評価しつつ、最適な制御則を学習することが可能である。

特開２０２１－７７２８６号公報

　しかしながら、特許文献１に開示された強化学習手法では、プラント制御の際に故障の原因となり得る操作量が振動するという課題の解決には至っていない。特許文献１における手法では、制御プロセス全体で、ある出力値が発生する回数に制約を課している。そのため、本手法では出力値の振動頻度は考慮されておらず、制御プロセス中に含まれる出力値の振動を抑制することは困難である。

　本発明の目的は、操作量の振動を抑制しつつ、被制御量を目標値へ速やかに収束させるような操作量を出力可能な制御システム及びプラント制御方法を提供することである。

　以上のことから本発明においては、「プラントの最適行動を学習により求める学習処理装置と、学習処理装置で定めた最適行動に従いプラントを制御する制御処理装置を備え、学習処理装置は、複数のプラント信号をプラントの状態に変換し、目標状態を定義する状態情報制御部と、プラントの状態、行動及び目標状態を用いて、前回操作時と今回操作時の間における状態と行動の価値である行動価値を求める行動価値更新部と、行動価値を用いて目標状態を達成する最適行動を決定する最適行動選択部を備え、プラントの操作量の振動を抑制する行動を最適行動として決定することを特徴とするプラント制御システム」としたものである。

　また本発明においては、「プラントの最適行動を学習により求め、学習処理で定めた最適行動に従いプラントを制御するプラント制御方法であって、学習処理は、複数のプラント信号をプラントの状態に変換して目標状態を定義し、プラントの状態、行動及び目標状態を用いて、前回操作時と今回操作時の間における状態と行動の価値である行動価値を求め、行動価値を用いて目標状態を達成する最適行動を決定するとともに、プラントの操作量の振動を抑制する行動を最適行動として決定することを特徴とするプラント制御方法」としたものである。

　本発明によると、操作量の振動を抑制しつつ、被制御量を整定させるような操作量を出力可能な制御システムを提供することができる。

本発明の実施例１に係るプラント制御システムの構成例を示す図。入力情報記憶部に記憶されているユーザーが入力したデータの構成例を示す図。信号情報格納部に格納されたプラント信号値と状態番号の関係を示す図。信号情報格納部に格納されたプラントの操作量と行動番号の関係を示す図。学習処理装置で行う処理のフロー例を示す図。学習処理装置が図４のＳ２で行うエピソード処理の処理フロー例を示す図。行動価値格納部に格納された１ステップ前の状態番号と行動番号を表したデータの構成例を示す図。行動価値格納部に格納された状態番号および行動番号に応じた価値を表したデータの構成例を示す図。価値の更新式内の減衰関数（一次関数）の形状を表した概略図。価値の更新式内の減衰関数（二次関数）の形状を表した概略図。価値の更新式内の減衰関数（階段関数）の形状を表した概略図。状態番号毎の最適行動番号とそれに対応する操作量を表したデータの構成例を示す図。制御処理装置で行う処理のフロー例を示す図。制御結果格納部に格納された制御結果を表した一部のデータの構成例を示す図。制御結果格納部に格納された制御結果を表した一部のデータ（図１０ｂに示すデータを纏めたもの）の構成例を示す図。本発明の処理フロー中で必要となる情報をユーザーが入力する画面の例を示す図。目標状態への収束時間と、振動頻度の関係を表示する画面の例を示す図。

　以下本発明の実施例について説明する。

　本発明の実施例１に係るプラント制御システムについて図１を参照して説明する。図１のプラント制御システムは、ユーザー入出力装置３と、信号情報格納部２と、入力情報記憶部４と、学習処理装置１と、制御処理装置５により構成されており、入力情報記憶部４に記憶されている情報を学習処理装置１が学習して得た最適な目標を制御処理装置５に与え、これに基づいて制御処理装置５が制御対象のプラント６を最適な目標に制御するというものである。係る構成により、プラント制御システムは、プラントや産業機器などの機器を制御対象とし、対象の状態を表す信号値を目標状態に収束させつつ、振動が抑えられた最適制御操作量を出力することが可能となる。

　このうち入力情報記憶部４は、信号情報格納部２からプラント信号値と状態番号の関係などを示した変換情報Ｄ１を入手し、またユーザー入出力装置３からユーザーが入力した情報Ｄ２を受け取る。また入力情報記憶部４には、制御対象６からの各種のプロセス量が入力されている。

　図２は、ユーザーが入力して入力情報記憶部４に保存された情報Ｄ２の一例である。いずれの情報も学習処理装置１で用いられる。これらは、ユーザーが情報の候補（例えばプラントの情報Ａ，Ｂ，Ｃ）の中から選択した選択信号Ｄ２０である。またユーザーが任意に設定した割引率γ（Ｄ２１）、エピソード数Ｄ２２、減衰係数η（Ｄ２３）並びに目標値Ｄ２５についての設定数値である。あるいは選定関数Ｄ２４として例えば一次関数、二次関数、階段関数の中からユーザーが任意に設定した関数である。なお選定関数Ｄ２４、目標値Ｄ２５の欄には、指定する信号の種類が保存されている。

　なお本発明においては、ユーザーが入力した情報Ｄ２として特に減衰係数η（Ｄ２３）並びに目標値Ｄ２５についての設定数値を、予めユーザー入出力装置３から与えておく点に特徴を有するものである。またユーザー入出力装置３には、これらの入力情報Ｄ１、Ｄ２をユーザーが入力する入力部と、ユーザーがパラメータ設定を行う上で参考とするための折れ線グラフと散布図を表示する表示装置を備える。表示画面の詳細については後述する。

　これに対し信号情報格納部２は、プラント信号値と状態番号の関係などを示した変換情報Ｄ１を格納している。図３ａは、信号情報格納部２に格納されたプラント信号値Ｄ１ａの範囲と状態番号Ｄ１ｂの関係を示した表である。行には状態番号Ｄ１ｂの種類、列にはプラントが出力し得る信号値Ｄ１ａの種類すべてが記載されている。表中の数値は、信号値の範囲を表している。

　この表記事例によれば、プラントの運転状態Ｄ１ｂ（状態Ｓ１，Ｓ２，Ｓ３・・・）は、予め指定したプラント信号値Ｄ１ａ（ここでは信号Ａと信号Ｂ）の大きさによりあらかじめ定義されている。信号Ａが１から２の範囲でありかつ信号Ｂが－５から－４．５のとき状態Ｓ１、信号Ａが１から２の範囲でありかつ信号Ｂが－４．５から－４のとき状態Ｓ２、信号Ａが１から２の範囲でありかつ信号Ｂが－４から－３．５のとき状態Ｓ３、信号Ａが１から２の範囲でありかつ信号Ｂが－３．５から－３のとき状態Ｓ４、信号Ａが２から３の範囲でありかつ信号Ｂが－５から－４．５のとき状態Ｓ５のように定義されている。

　入力されたプラント信号値Ｄ１ａ（信号Ａ，Ｂ）は、図３ａの表を参照することにより状態Ｓの情報Ｄ１ｂとして取り出され、ここでプラント信号値Ｄ１ａから状態Ｓの情報Ｄ１ｂに変換されたことになる。

　この図３ａに示す変換処理により、図１の入力情報記憶部４から学習処理装置１並びに制御処理装置５に受け渡しされる情報は、数値情報としてのＤ１ａではなく、状態情報としてのＤ１ｂとされている。学習処理装置１における処理では、プラント信号値Ｄ１ａの大きさに基づいた数値学習ではなく、学習機能が得意とするプラント状態Ｄ１ｂによるパタン処理に基づいた学習の実行が可能となる。具体的には、例えばプラントの起動時に状態Ｓ１から状態Ｓ５に移行することを学習処理装置１において学習し、学習結果を制御処理装置５に反映することになる。

　また図３ｂは、信号情報格納部２に格納されたプラントの操作量Ｄ１ｃの範囲と行動番号Ｄ１ｄの関係を表した変換表である。この表記事例によれば、プラントの行動Ｄ１ｂ（行動ａ１，ａ２，ａ３・・・）は、予め指定したプラントの操作量Ｄ１ｃの大きさの範囲によりあらかじめ定義されている。操作量Ｄ１ｃが１から１．５の範囲であるとき行動ａ１、操作量Ｄ１ｃが１．５から２の範囲であるとき行動ａ２、操作量Ｄ１ｃが２から２．５の範囲であるとき行動ａ３、操作量Ｄ１ｃが２．５から３の範囲であるとき行動ａ４、操作量Ｄ１ｃが３から３．５の範囲であるとき行動ａ５のように定義されている。

　入力されたプラント操作量Ｄ１ｃは、図３ｂの表を参照することにより行動ａの情報として取り出され、ここでプラントト操作量Ｄ１ｃから行動ａの情報Ｄ１ｄに変換されたことになる。

　この図３ｂに示す変換処理により、プラント操作量Ｄ１ｃもまた、数値情報からパタンで示される行動情報Ｄ１ｄとして学習処理に適した形態に変換され提供されることになる。

　ここで状態番号Ｄ１ｂ（状態情報）について、説明しておくと、状態番号Ｄ１ｂとは、複数種類の信号値を一次元的に扱えるようにしたものである。まず、プラント動特性シミュレータ１１は、複数種類の信号値を出力する。例として、信号Ａおよび信号Ｂの２種類の信号を学習処理におけるエピソード処理で使用する場合を考える。そして、その２種類の信号値がそれぞれ１と－５だったとする。該信号値は図３ａに示す表中の１行目の状態Ｓ１が示す値の範囲に収まっているため、信号Ａおよびと信号Ｂを状態Ｓ１と定義する。
これによって、信号Ａと信号Ｂを一次元に圧縮し、後述する処理を実行することを可能とする。同様の圧縮が操作量Ｄ１ｃを行動Ｄ１ｄに変換したことでも行われている。

　図１に示す学習処理装置１は、対象プラントを模擬したシミュレータや、ＣＰＵなどの演算処理装置とメモリなどの記憶部を備え、該シミュレータとのインタラクティブな繰り返し処理を通じて、最適制御操作量を出力可能とする制御則を獲得する。学習処理装置１の機能的な構成要素として、図１の例ではプラント動特性シミュレータ１１、状態情報制御部１２、行動価値更新部１３、行動価値格納部１４、最適行動選択部１５、エピソード数記憶部１６を備える。

　また図１に示す制御処理装置５は、学習処理装置１と、制御対象６に繋がれており、学習処置装置１で獲得した制御則を基に、制御対象６である実機プラントに対して最適制御を行う装置である。制御処理装置５は、その機能的な構成要素として、学習情報制御部５１、状態情報変換部５２、入出力装置５３、制御結果格納部５４を備える。制御処理装置５の詳細な説明は後述する。

　図４および図５を用いて、図１における学習処理装置１の処理の流れを説明する。図４は学習処理装置１の全体処理を表したフロー図である。図４の処理では、最初の処理ステップＳ１において、入力情報記憶部４を介して、学習処理装置１に、ユーザーが入力した情報Ｄ２、および信号情報を取得する。ここで信号情報とは、具体的にはプラント信号値Ｄ１ａと状態番号Ｄ１ｂの関係を示した図３ａの変換後の情報（状態番号Ｄ１ｂ）、並びに操作量Ｄ１ｃと行動番号Ｄ１ｄの関係を示した図３ｂの変換後の情報（行動情報Ｄ１ｄ）である。

　次に処理ステップＳ２において、エピソード処理を実施する。エピソードとは、強化学習のアルゴリズムで使われる用語であり、エピソードを繰り返すことで学習を進める。本装置におけるエピソードとは、プラント動特性シミュレータ１１を用いた１回の制御シミュレーションを指す。

　処理ステップＳ３では、エピソード処理の都度エピソード処理実施回数を更新し、処理ステップＳ４ではユーザーが設定したエピソード数Ｄ２２とエピソード処理を実施した回数を比較し、エピソード処理を実施した回数が、ユーザーが設定したエピソード数Ｄ２２以下だった場合は、処理ステップＳ２に戻りエピソード処理を再度実施する。エピソード処理を実施した回数以上だった場合は、学習処理装置１の処理を終了する。これにより、所定回数の学習、シミュレーションを実行する。

　図５は、エピソード処理の詳細を示すフロー図である。図４の処理ステップＳ２に該当する。以下からエピソード処理について、図５を用いて詳細に説明する。以下の説明では、１エピソードを構成する各処理をステップという単位で表記する。繰り返し処理における一度目の処理を、初期ステップと表記する。

　最初の処理ステップＳ２１では、対象プラント６の挙動を模擬したプラント動特性シミュレータ１１によって、プラント６の状態を表すプラント信号値Ｄ１ａおよびプラント６に入力された操作量Ｄ１ｃを生成する。

　処理ステップＳ２２では、プラント動特性シミュレータ１１の出力値（Ｄ１ａおよびＤ１ｃ）を入力して、処理ステップＳ２３で状態情報制御部１２によって、プラント信号値Ｄ１ａを状態番号Ｄ１ｂに、操作量Ｄ１ｃを行動番号Ｄ１ｄに変換する。プラント信号値Ｄ１ａを状態番号Ｄ１ｂに変換するにあたり、図４の処理ステップＳ１で取得したユーザーが入力した選択信号（図２のＤ２０）の情報を用いる。選択信号Ｄ２０とは、プラント動特性シミュレータ１１が出力する複数種類の信号値の中で、ユーザーが選択したエピソード処理で用いる信号値の種類を示している。処理ステップＳ２３では、前述の図３で示したプラント信号値Ｄ１ａと状態番号Ｄ１ｂの関係を基に、プラント動特性シミュレータが出力したプラント信号値Ｄ１ａを状態番号Ｄ１ｂに変換する。

　処理ステップＳ２４では、状態情報制御部１２によって、目標状態を規定する。ここでは、図４の処理ステップＳ１で取得した目標値（図２のＤ２５）と、目標値として指定された信号の情報を用いる。例として、信号Ａの目標値を１．５に指定したとする。その場合、１．５は１以上２未満の範囲の数値であるため、図３ａに示す表中の状態Ｓ１、状態Ｓ２、状態Ｓ３、状態Ｓ４が目標状態として指定される。

　これはプラント内の状態を複数の信号の大きさにより複数の状態にグルーピングして定義した場合に、複数の信号の大きさで定まる複数の状態のうち、目標値として定められた信号の大きさの条件に合致する状態のみを抽出し、これを目標状態としたものである。例えばプラント起動時に、機器内の流体の状態を温度、圧力、流量の各信号によりグルーピングして定義し、主要因を圧力としてこの値を１．０まで立ち上げたいときに、複数の状態の中から圧力１．０を満たす状態のみを抽出し、この状態であれば例えば起動完了を意味する目標状態としたものである。

　なお本発明においては以後の処理において学習処理を実行するが、学習処理では数値処理よりもパターン処理を得意とするため、信号の大きさではなく状態として表現するものであり、信号の場合の目標値を状態での処理では目標状態としたものである。

　処理ステップＳ２５では、行動価値更新部１３が、状態情報制御部１２から現ステップにおける状態番号Ｄ１ｂ、行動番号Ｄ１ｄ、目標状態の情報を取得する。

　処理ステップＳ２６では、行動価値更新部１３が、行動価値格納部１４から１ステップ前の状態番号Ｄ１ｂおよび行動番号Ｄ１ｄと１ステップ前の処理ステップＳ２５で取得された状態番号Ｄ１ｂおよび行動番号Ｄ１ｄに応じた価値と、現処理ステップＳ２５で取得された状態番号Ｄ１ｂにおける最大価値を取得する。価値とは、状態番号Ｄ１ｂと行動番号Ｄ１ｄに応じて保存された値である。

　図６ａは、行動価値格納部１４に保存された状態番号Ｄ１ｂおよび行動番号Ｄ１ｄを示した表である。例として、１ステップ前の処理ステップＳ２５で取得された状態番号Ｄ１ｂが状態Ｓ１０、行動番号Ｄ１ｄが行動ａ９だった場合、図６ａの表には状態Ｓ１０、行動ａ９が保存されていることになる。図６ａの表における状態Ｓ１０と行動ａ９の関係が価値Ｑとされる。

　図６ｂは、行動価値格納部１４に格納された、状態番号Ｄ１ｂおよび行動番号Ｄ１ｄに応じて保存された価値Ｑを示した表である。処理ステップＳ２６では図６ｂの表中から、該当する価値を取得する。１ステップ前の処理ステップＳ２５で取得された状態番号Ｄ１ｂと行動番号Ｄ１ｄが先の例である場合、状態番号Ｄ１ｂおよび行動番号Ｄ１ｄに応じた価値としてＱ（Ｓ１０，ａ９）に該当する９４１を取得する。現処理ステップＳ２５で取得された状態番号Ｄ１ｂが状態Ｓ１、行動番号Ｄ１ｄが行動ａ２だった場合、状態Ｓ１における最大価値はＱ（Ｓ１，ａ１）に該当する１９９０を取得する。ここで、本処理が初期ステップであった場合、１ステップ前の状態番号Ｄ１ｂが存在しないため、取得する状態番号Ｄ１ｂはランダムに決定される。

　処理ステップＳ２７で、行動価値更新部１３によって、状態番号Ｄ１ｂおよび行動番号Ｄ１ｄに応じた価値が更新される。更新の際には、（１）式が用いられる。強化学習で一般的に用いられる価値の更新式に対して、本発明装置で用いる（１）式には、操作量の振動を抑えるために関数ｆ（Δａ）が付加されている。これが本発明のポイントである。

　（１）式による、価値の更新過程を以下詳細に説明する。（１）式は、右辺で計算された値によって、左辺に示す価値を更新するための更新計算を表している。（１）式中のｓは１ステップ前の状態番号Ｄ１ｂ、ｓ’は現ステップの状態番号Ｄ１ｂ、ａは１ステップ前の状態番号Ｄ１ｂで実施した行動番号Ｄ１ｄを表す。

　ここでは、処理ステップＳ２６で取得された値と同じく、１ステップ前の状態番号Ｄ１ｂを状態Ｓ１０、行動番号Ｄ１ｄを行動ａ９、現ステップの状態番号Ｄ１ｂを状態Ｓ１だったと仮定する。γは図２で述べた割引率Ｄ２１でありユーザーが任意に設定できる値である。

　以下の説明からはユーザーが割引率γを０．９９に設定したと仮定する。ｒ（ｓ’）は報酬と呼ばれ、ｓ’が目標状態であれば１０００、それ以外の場合は０となる関数である。ここでは、現ステップの状態Ｓ１を目標状態と仮定し、ｒ（ｓ’）を１０００とする。
Ｑ（ｓ，ａ）は１ステップ前の状態番号Ｄ１ｂと行動番号Ｄ１ｄに応じた価値、ｍａｘＱ（ｓ’）は現状態番号Ｄ１ｂに応じた最大価値を表す。ここでは、Ｑ（ｓ，ａ）を９４１、ｍａｘＱ（ｓ’）を１９９０とする。

　ｆ（｜Δａ｜）は、１ステップ前における操作量と現ステップにおける操作量の差の絶対値、つまり｜Δａ｜の関数である。Δａの算出には、１ステップ前の操作量と、現ステップにおける操作量と、処理ステップＳ１で取得した操作量と行動番号の関係を示した情報を用いる。図３ｂに示す操作量の関係を示した表における、該行動番号に当たる操作量範囲の下限値を操作量とすることで、１ステップ前の行動番号に対応する操作量と現ステップの行動番号に対応する操作量の差分Δａを計算する。

　ｆ（｜Δａ｜）は、｜Δａ｜に応じて、０から１の範囲で値が変わる関数である。本関数によって、操作量の振動が大きいほど、つまり操作量の差Δａが大きいほど価値が低下し、この結果、操作量の振動が抑制される。

　図７ａ、図７ｂ、図７ｃは関数ｆ（｜Δａ｜）の例を表している。本装置では、３パタンの関数が用意されており、この中からユーザーが選択する。さらに、減衰係数η（Ｄ２３）によって、減衰度合いが変更できる。これによって、ユーザーは減衰係数ηを調整することで、制御操作値の振動を抑える度合いを任意に設定することが可能となる。

　図７ａは、ユーザーが関数ｆ（｜Δａ｜）として一次関数を指定した場合を表している。図７ａに示す関数は、１ステップ前の操作量と現ステップにおける操作量の差が大きくなるに従い、一次関数的にｆ（｜Δａ｜）の値が減少していく。本関数においては、減衰係数ηが大きくなるに従い、負の傾きが大きくなる。図７ａに示す関数は（２）式で表される。

　図７ｂは、ユーザーが関数ｆ（｜Δａ｜）として二次関数を指定した場合を表している。図７ｂに示す関数は、１ステップ前の操作量と現ステップにおける操作量の差が大きくなるに従い、二次関数的にｆ（｜Δａ｜）の値が減少していく。本関数においては、減衰係数ηが大きくなるに従い、Δａに伴うｆ（｜Δａ｜）の減少量も大きくなる。図７ｂに示す関数は（３）式で表される。

　図７ｃは、ユーザーが関数ｆ（｜Δａ｜）として階段関数を指定した場合を表している。図７ｃに示す関数は、１ステップ前の操作量と現ステップにおける操作量の差によって、階段状にｆ（｜Δａ｜）の値が減少する。本関数においては、減衰係数ηが、階段関数の変化点Δａの値を表す。図７ｃに示す関数は（４）式で表される。

　（１）式による価値の更新計算の説明に戻る。関数ｆ（｜Δａ｜）の値が、０．５であると仮定する。（１）式の右辺に該具体数を代入すると、右辺の算出結果は１４８５．１（＝０．５×（１０００＋０．９９×１９９０））となる。よって、左辺のＱ（ｓ，ａ）の値は、９４１から１４８５．１に更新される。

　図５の処理フローの説明に戻る。以上の更新過程で用いた具体的な数値は以下処理フローの説明でも用いる。処理ステップＳ２８で、行動価値格納部１４が行動価値更新部１３で更新された価値と、現ステップの状態番号と、行動番号を取得する。先の仮定で考えると、更新された価値としてＱ（Ｓ１０，ａ９）と、現ステップの状態Ｓ１と、行動ａ２を取得し、取得した情報を行動価値格納部１４に保存する。図６ａに示す状態番号および行動番号を示した表を状態Ｓ１、行動ａ２に更新する。図６ｂに示す状態Ｓ１０および行動ａ９に対応する価値を更新する。つまり、Ｑ（Ｓ１０，ａ９）に格納されていた価値９４１を１４８５．１へ更新する。

　図８は、行動価値格納部１４に保存された状態番号毎の最適行動とそれに対応する操作量を保存した表である。最適行動とは、ある状態番号Ｄ１ｂに対して保存された各行動Ｄ１ｄの価値の中で最大値に対応する行動番号を指す。具体的には、図６ｂに示す状態Ｓ１に保存される行動番号毎の価値の中で、最大値に対応する行動番号はａ１となるため、図８の状態Ｓ１（Ｄ１ｂ）での最適行動として行動ａ１（Ｄ１ｄ）が保存される。そして、図３ｂに示す操作量Ｄ１ｃの関係を示した表における、該行動ａ１に当たる操作量範囲の下限値である１が操作量として図８の表に保存される。

　処理ステップＳ２９で、最適行動選択部１５が行動価値格納部１４から各状態番号毎の最適行動とその操作量を保存した表と現ステップの状態番号と目標状態の情報を取得し、現ステップに対応する操作量をシミュレータへ出力する。この時、４割の確率でランダムな操作量を出力する。ランダムな操作量を出力することで、探索空間を拡大し、制御精度を高めることができる。

　処理ステップＳ３０で、目標状態に到達したかどうかでエピソード処理の終了判定を行う。目標状態に到達した場合はエピソード処理を終了し、到達していない場合は処理ステップＳ２１の処理に戻る。つまり、最適行動選択部１５が行動価値格納部１４から取得した現ステップの状態番号が目標状態ならば、処理を終了する。以上がエピソード処理の説明である。

　図４の学習処理装置１の処理フロー図の説明に戻る。処理ステップＳ３で、エピソード処理が終了した後、エピソード数記憶部１６が最適行動選択部１５からエピソード処理が終了した情報を取得し、エピソード数記憶部に記憶されたエピソード処理を実施した回数に＋１する。

　処理ステップＳ４で、ユーザーが設定したエピソード数よりもエピソード数記憶部１６に記憶されたエピソード処理を実施した回数がユーザーが設定したエピソード数を上回った場合、エピソード記憶部１６がプラント動特性シミュレータ１１に停止指示を送り、学習情報制御部にも学習処理装置１の処理が終了した情報を送る。以上が学習処理装置１の処理フローである。

　次に、制御処理装置５の処理の流れを説明する。図９は制御処理装置５の処理のフロー図である。図９において、最初の処理ステップＳ５１では、入出力装置５３が制御対象６からプラント信号値を取得する。制御対象６とは、制御対象であるプラントを指す。

　処理ステップＳ５２で、状態情報変換部５２が、学習情報制御部５１を介して行動価値格納部１４からプラント信号値と状態番号の関係を表した表とユーザーが入力した情報である目標状態の情報を取得する。

　処理ステップＳ５３で、状態情報変換部５２が該プラント信号値を状態番号へ変換する。処理ステップＳ５４で、学習情報制御部５１が、状態情報変換部５２から状態番号を取得し、行動価値格納部１４から、図８に示す表を参考に該状態番号に対応する操作量を取得する。

　処理ステップＳ５５で、入出力装置５３が、学習情報制御部５１から状態番号と操作量を取得し、制御対象６に対して操作量を出力する。処理ステップＳ５６で、入出力装置５３が、制御対象６からプラント信号値を取得する。ここで取得するプラント信号値は、操作量を受けて変化したプラントの状態を表している。処理ステップＳ５７で、制御結果格納部５４が、入出力装置５３から状態番号と操作量を取得し、格納する。

　図１０ａと図１０ｂは、制御結果格納部５４に格納されているデータの構成例を示す図である。図１０ａの左端の列には、制御結果格納部５４が、入出力装置５３から状態番号Ｄ１ｂと操作量Ｄ１ｄを取得した時刻が格納されている。左から２番目の列には、時刻毎に取得した状態番号Ｄ１ｂが格納されている。左から３番目の列には時刻毎に取得した操作量Ｄ１ｄが格納されている。右端の列には、操作量変更回数が格納されている。この操作量変更回数の列における１行目には０が格納される。それ以降の行においては、前の行に格納されている操作量と現時刻で取得された操作量に差がある場合に、前の行に格納されている操作量変更回数に１を加算し、現在の行に格納する。

　図１０ｂの左端の列には、目標状態に収束した時刻が格納されている。つまり、取得した状態番号が目標状態であった時刻を表している。左から２番目の列には、最初に状態番号を取得した時刻から、目標状態を取得するまでの時間が格納されている。右端には、目標状態を取得するまでに操作量を変更した回数を格納している。

　処理ステップＳ５８で、入出力装置５３が、学習情報制御部５１から取得した状態番号が目標状態であるかどうかの条件判定を行う。取得した状態番号が目標状態ではない場合、処理ステップＳ５３の処理へ戻る。目標状態であった場合は、処理ステップＳ５９の処理へ進む。

　処理ステップＳ５９で、制御結果格納部５４が格納されている情報をユーザー入出力装置へ出力する。ここで、出力する情報は、図１０ｂに示すデータの構成例である。以上が制御処理装置５の処理フローである。

　次に、ユーザー入出力装置３で出力する表示画面の説明をする。図１１は、前記した学習処理装置１と制御処理装置５における処理を実行する上で、必要となる情報をユーザーが入力する画面の例である。

　項目３１は、制御対象であるプラント６が出力する複数種類の信号を表示する。本項目３１にある複数信号から処理に用いる信号を、ユーザーは選択する。項目３２は、学習処理装置１における更新計算に用いられる（１）式内の割引率γを、ユーザーが入力するための入力欄を表示する。割引率γは、０～１の範囲でユーザーが任意に指定し、入力する。

　項目３３は、学習処理装置１におけるエピソード処理を実施する回数を、ユーザーが入力するための入力欄を表示する。項目３４は、学習処理装置１における更新計算に用いられる（２）式、（３）式、（４）式内の減衰係数ηを、ユーザーが入力するための入力欄を表示する。

　項目３５は、学習処理装置１における更新計算に用いられる関数を（２）式、（３）式、（４）式の中からユーザーが選定するための選定欄を表示する。ユーザーは、一次関数、二次関数、階段関数の中から処理に用いる関数を選定する。項目３６は、プラント信号値の種類の中で収束させたい信号値を選定する。該信号値を選定することで、学習処理装置１で本信号を収束させることを目的とした学習が成される。項目３７は、収束させたい該信号値の値を、ユーザーが入力するための入力欄を表示する。

　図１２は、目標状態への収束時間と、振動頻度の関係を表示する画面の例である。目標への収束時間を縦軸、振動頻度を横軸にとっており、制御処理装置５における制御結果を散布図上へプロットする。

　項目３８は、マウスカーソルをプロット点に合わせると表示される補足情報を表す。補足情報には、状態番号として選定したプラント信号の数、ユーザーが入力したエピソード処理を実施する回数、目標状態への収束時間、１分あたりの振動回数、ユーザーが入力した減衰係数ηの値、ユーザーが選定した減衰係数と内包する関数（減衰関数）の種類がある。ユーザーは、本表示画面を確認しつつ最適な入力情報を決定する。ここでいう最適な入力情報とは、目標状態への収束時間が短く、振動頻度が最も少なくなるような、ユーザーが入力する情報の組み合わせ方を指す。これによって、最適な減衰係数の値等を錯誤しながらユーザーが決定することができる。

　以上に述べたように、本実施例によれば、学習処理装置１における価値の更新処理過程において、操作量の振動に対してペナルティを課す理論を付加することにより、振動を抑えた操作量を出力する制御則を獲得することができる。操作量の振動はプラント機器の故障に繋がるため、本制御則を用いてプラントを制御することは、故障リスクを大きく低減することに繋がる。

１：学習処理装置
２：信号情報格納部
３：ユーザー入出力装置
４：入力情報記憶部
５：制御処理装置
６：制御対象
１１：プラント動特性シミュレータ
１２：状態情報制御部
１３：行動価値更新部
１４：行動価値格納部
１５：最適行動選択部
１６：エピソード数記憶部
５１：学習情報制御部
５２：状態情報変換部
５３：入出力装置
５４：制御結果格納部

Claims

　プラントの最適行動を学習により求める学習処理装置と、前記学習処理装置で定めた最適行動に従い前記プラントを制御する制御処理装置を備え、
　前記学習処理装置は、複数のプラント信号をプラントの状態に変換し、目標状態を定義する状態情報制御部と、プラントの状態、行動及び目標状態を用いて、前回操作時と今回操作時の間における状態と行動の価値である行動価値を求める行動価値更新部と、前記行動価値を用いて前記目標状態を達成する最適行動を決定する最適行動選択部を備え、プラントの操作量の振動を抑制する行動を最適行動として決定することを特徴とするプラント制御システム。
　請求項１に記載のプラント制御システムであって、
　前記学習処理装置は、前回操作時と今回操作時の操作量の偏差が、与えられた操作量の減衰係数に対して、偏差が小さくかつ目標状態に近づく方向に価値を高める学習を行うことを特徴とするプラント制御システム。
　請求項１に記載のプラント制御システムであって、
　前記学習処理装置は、操作量の振動頻度や目標状態への収束時間を規定範囲内に収め、システムを安定化させるような制御則を学習することを特徴とするプラント制御システム。
　請求項１に記載のプラント制御システムであって、
　プラント制御システムは、入力部および表示部を備え、操作量の振動の度合いを示す任意の減衰係数を入力、表示できることを特徴とするプラント制御システム。
　請求項４に記載のプラント制御システムであって、
　前記表示部の表示画面に、目標状態への収束時間と振動頻度の関係を出力し、前記入力部から減衰係数を入力し、振動を抑える度合いを調整することを特徴とするプラント制御システム。
　請求項２に記載のプラント制御システムであって、
　前記偏差が大きくなるほど更新する価値が線形的に減衰する関数を用いて、前記偏差が極端に大きくならないように学習することで、操作量の振動を抑制することを特徴とするプラント制御システム。
　請求項２に記載のプラント制御システムであって、
　前記偏差が大きくなるほど更新する価値が二次関数的に減衰する関数を用いて、前記偏差が極端に大きくならないように学習することで、操作量の振動を抑制する手段を有することを特徴としたプラント制御システム。
　請求項２に記載のプラント制御システムであって、
　前記偏差が大きくなるほど更新する価値が二次関数的に減衰する関数を用いて、前記偏差が極端に大きくならないように学習することを特徴とするプラント制御システム。
　プラントの最適行動を学習により求め、学習処理で定めた最適行動に従い前記プラントを制御するプラント制御方法であって、
　前記学習処理は、複数のプラント信号をプラントの状態に変換して目標状態を定義し、プラントの状態、行動及び目標状態を用いて、前回操作時と今回操作時の間における状態と行動の価値である行動価値を求め、前記行動価値を用いて前記目標状態を達成する最適行動を決定するとともに、プラントの操作量の振動を抑制する行動を最適行動として決定することを特徴とするプラント制御方法。