WO2007116590A1

WO2007116590A1 - 運転制御方法，運転制御装置及び運転制御システム

Info

Publication number: WO2007116590A1
Application number: PCT/JP2007/050682
Authority: WO
Inventors: Takaaki Sekiai; Satoru Shimizu; Akihiro Yamada
Original assignee: Hitachi, Ltd.
Priority date: 2006-03-31
Filing date: 2007-01-18
Publication date: 2007-10-18
Also published as: CN101390024A; JP2007272498A; US20090012632A1; US8155763B2; JP4952025B2

Abstract

モデルと実機との偏差（モデル誤差）が生じた場合にも、制御対象の運転状態に悪影響を及ぼすことなく運転可能な運転制御装置、及び運転制御方法を提供することを目的とする。制御対象の制御量とその目標値との偏差である制御偏差に基づく評価値を最大または最小とする操作量を導出して制御する制御装置の運転制御方法において、前記制御対象の特性を模擬したモデルを有し、前記モデルを対象にしてモデルの制御偏差に基づく評価値を最大または最小にする操作量を算出し、前記操作量で前記制御対象を制御した場合の制御偏差に基づいて評価値を算出し、前記モデルの制御偏差の評価値と、前記制御対象の制御偏差の評価値の偏差に基づいて、現ステップの操作量と次ステップで決定する操作量との差である操作量の変化幅を決定することを特徴とする運転制御方法である。

Description

明細書

運転制御方法，運転制御装置及び運転制御システム

技術分野

[0001] 本発明は、教師なし学習を応用した運転制御装置、及び運転制御方法に関する。

背景技術

[0002] 近年、教師なし学習の分野で強化学習と呼ばれる手法が盛んに研究されている。

強化学習とは、制御対象などの環境との試行錯誤的な相互作用を通じて、環境から得られる計測信号が望ましヽものとなるように、環境への操作信号を生成する学習制御の枠組みとして知られている。強化学習では、環境力も得られる計測信号を用いて計算されるスカラー量の評価値 (強化学習では、報酬と呼ばれて、る）を手がかりに、現状態から将来までに得られる評価値の期待値が最大となるように、環境への操作信号を生成する学習機能を持つ。このような学習機能を実装する方法として、例えば Actor-Critic, Q学習，実時間 Dynamic Programmingなどのアルゴリズムがある。

[0003] また、上述の手法を発展させた強化学習の枠組みとして、 Dyna—アーキテクチャと呼ばれる枠組みがある。これは、制御対象を模擬するモデルを対象にどのような操作信号を生成するのが良いかを予め学習し、この学習結果を用いて制御対象に印加する操作信号を決定する方法である。また、制御対象とモデルの誤差を小さくするモデル調整機能を持っている。

[0004] また、強化学習を適用した技術として、特許文献 1に述べられている技術が挙げられる。これは、モデルと学習機能を有するシステムの組である強化学習モジュールを複数備えておき、各強化学習モジュールにおけるモデルと制御対象との予測誤差が小さいものほど大きな値を取る責任信号を求め、この責任信号に比例して各強化学習モジュールから生成される制御対象への操作信号を重み付けし、制御対象に印加する操作信号を決定する技術である。

[0005] 特許文献 1 :特開 2000— 35956号公報

発明の開示

発明が解決しょうとする課題 [0006] 制御対象の特性が複雑で、この特性を完全に模擬できるモデルを用いることが難しい場合には、前述の Dyna—アーキテクチャを構成するモデルと、制御対象の特性が異なる可能性がある。この場合、特許文献 1の技術を用いて、モデルに対して有効な操作方法を学習しても、この操作方法が制御対象にとっては有効とならない可能性がある。また、学習した操作方法に基づいた操作信号を制御対象に印加することによつて、制御対象の運転状態が悪化してしまう可能性もある。

[0007] 本発明では、モデルと実機との偏差 (モデル誤差)が生じた場合にも、制御対象の運転状態に悪影響を及ぼすことなく運転可能な運転制御装置、及び運転制御方法を提供することを目的とする。

課題を解決するための手段

[0008] 制御対象の制御量とその目標値との偏差である制御偏差に基づく評価値を最大または最小とする操作量を導出して制御する制御装置の運転制御方法にぉ、て、前記制御対象の特性を模擬したモデルを有し、前記モデルを対象にしてモデルの制御偏差に基づく評価値を最大または最小にする操作量を算出し、前記操作量で前記制御対象を制御した場合の制御偏差に基づ、て評価値を算出し、前記モデルの制御偏差の評価値と、前記制御対象の制御偏差の評価値の偏差に基づいて、現ステツプの操作量と次ステップで決定する操作量との差である操作量の変化幅を決定することを特徴とする運転制御方法である。

発明の効果

[0009] 本発明は、モデル誤差が生じた場合にも、制御対象の運転状態に悪影響を及ぼすことなく運転することがでさる。

発明を実施するための最良の形態

[0010] 以下、発明を実施するための一例について、添付図面を参照しながら説明する。図 1は、本発明に係る制御装置 200を制御対象 100に適用した例について説明する図である。

[0011] 制御装置 200に備え付けられている操作信号生成部 300は、制御対象に印加する操作信号 201を生成する。また、評価値計算部 500では、制御対象からの計測信号 202を用いて評価値信号 203を計算する。操作信号生成部 300は、この評価値信号 203を受信する。

[0012] 操作信号生成部 300では、現状態力も将来までの評価値信号 203の期待値の総和が最大、もしくは最小となるように、操作信号 201を生成する機能を持つ。以下では、操作信号生成部 300では、評価値信号 203の期待値の総和が最大となるように、操作信号 201を生成する場合について説明する。

[0013] 評価値計算部 500では、計測信号 202とその目標値との偏差に応じた評価値信号 203を生成する。例えば、計測信号 202が目標値と一致する場合には、評価値信号 203を「1」とし、一致しない場合には「0」と設定する。あるいは、計測信号 202とその目標値との偏差に反比例するように、評価値信号 203を設定する。つまり後述する図 5に記載するように、評価値は、 + 30の様に数値が大きいほど目標に近ぐ—30の様に数値が小さいほど目標力も遠い。この場合の評価値の算出は複数の方法をとることができる。評価値算出の一例を図 12に示す。制御量及び目標値の差と評価値を対応させた表を持ち、これを参照して評価値を生成できる。また、評価値を制御量と目標値の差の関数として設定しておいて、算出することもできる。

[0014] 操作信号生成部 300を実装する方法として、強化学習を用いる方法が挙げられる。

強化学習では、学習の初期段階においては試行錯誤的に操作信号 201を生成する。その後、学習を進めるに従って、評価値信号 203が大きくなるような操作信号 201 を生成するようになる。

[0015] このような学習アルゴリズムは、例えば Actor-Critic, Q学習などのアルゴリズムを用いることがでさる。

[0016] 図 1の制御装置は、 Dyna—アーキテクチャと呼ばれる枠組みを用いている。これは、制御対象 100の模擬するモデル部 400を持ち、操作信号生成部 300では予めモデル部 400を対象に操作信号 201の生成方法を学習しておき、その学習結果を用 V、て操作信号 201を生成する枠組みである。

[0017] 操作信号生成部 300は、モデル部 400に入力する操作信号 204を生成し、モデル部 400からの計測信号 205と評価値信号 206を受信する機能を持つ。この評価値信号 206は、評価値計算部 510において、計測信号 205を用いて計算される。評価値計算部 510は、評価値計算部 500と同様の機能を持つ。 [0018] 操作信号生成部 300は、操作信号生成パラメータ記憶部 600に保存されているデータを参照して、制御対象 100に印加する操作信号 201を決定する。

[0019] 図 2は、操作信号生成パラメータ記憶部 600に保存されているデータの様態を説明する図である。図 2のように、操作信号生成パラメータ記憶部 600には、制御対象 10 0に備え付けられている操作端の名称、その操作量の 1周期あたりの変化幅、及び単位に関するデータが保存されている。操作端は、操作量変化幅の範囲で操作量を増加 ·あるいは減少することができる。

[0020] 尚、図 2では操作端の数が複数個ある場合について記載しているが、操作端の数は 1つであってもよい。また、図 2では操作端毎に操作変化幅を記載しているが、複数の操作端を一くくりにまとめて、その操作端の変化幅の和を制限することもできる。

[0021] 図 2の操作量変化幅の制限値は、操作信号生成パラメータ更新部 700において決定する。

[0022] ノラメータ更新の処理に必要な設定値は、キーボード 30とマウス 40で構成される外部入力装置 20から入力される。これらの情報は、 CRTなどの画像表示装置 10に表示される。制御対象 100の運転員は、画像表示装置 10と外部入力装置 20を用いて、設定値 214を入力する。

[0023] 図 3は、画像表示装置 10に表示される画面の例である。この画面を通して、運転員は操作端の操作量変化幅の初期値、上限，下限、及び更新率を設定することができる。ここで設定した設定値の使用方法について、図 4を用いて説明する。図 4は、操作信号生成パラメータ更新部 700における処理を説明する図である。以下では、図 4 の各々の処理内容について説明する。

[0024] 処理 710では、ステップ数 tが 0より大きいかどうかを判定し、 0である場合 (NOの場合）は処理 720を実施し、 0より大きい場合 (YESの場合）は処理 740を実施する。ここでステップ数とは、制御対象 100に印加する操作信号を変更した回数であり、 0を初期値に、操作する度に 1ずつ増加する値である。

[0025] 処理 720では、図 3において設定した初期値を取得する。

[0026] 処理 730では、処理 720にて取得した初期値を、操作信号生成パラメータ記憶部 6 00にデータ 209として送信する。 [0027] 処理 740では、操作信号生成パラメータ記憶部 600に保存されている前回の操作信号生成パラメータをデータ 208として取得する。

[0028] 処理 750では、評価値信号 203と評価値信号 206を取得する。

[0029] 処理 760では、数 1を用いて操作量変化幅を変更する。ここで、 tはステップ数、 G(t

)はステップ tにおける操作量、 r (t)は評価値信号 203の値、 r (t)は評価値信号 206

1 2

の値、 f(r (t), r (t))は r (t)と r (t)を変数とする関数である。

1 2 1 2

(数 1)

G(t+ l) = G(t)+f(r (t), r (t))

1 2

数 1における関数 f(r (t), r (t))の例して、数 2に示す関数が挙げられる。

1 2

(数 2)

f(r (t), r (t))= a - ^ ( | r (t)-r (t) | )

1 2 1 2

処理 770では、数 1及び数 2を用いて計算した G(t+ 1)が図 3で設定した上限を超える場合には G(t+ 1)を設定した上限の値とし、下限より小さい場合には G(t+ 1)を設定した下限の値とする。

[0030] 最後に、処理 780では、処理 770によって求められた G(t+ 1)を操作信号生成パラメータ記憶部 600にデータ 209として送信する。

[0031] 尚、数式 2の様に関数の形で操作量変化幅を算出することもできるし、図 13の様に

、評価値信号 203, 206の差と、操作量変化幅 G(t+ 1)— G(t)を対応させて表として記憶させて、これを参照して操作量を決定することとしても良、。

[0032] このように、モデルの制御偏差に基づく評価値 206と制御対象を制御した場合の制御偏差に基づく評価値 203の差で操作量変化幅を算出しているので、制御対象の運転状態に悪影響を及ぼすことなく運転可能である。また、モデルと実機のズレに応じて柔軟に制御できる。

[0033] また、評価値の差が大き!/、場合は変化幅を小さく、評価値の差が小さ!、場合は変化幅を大きくすることにより、モデルとのズレが大きい場合に操作量を安全に変更でき、モデルとのズレが小さ、場合に操作量を早く変更できる。

[0034] また、操作量変化幅の上限を設定することにより、操作量変化幅を大きくすると、実機とモデルのズレが大きく影響するので、操作量を早く変更することと制御対象の運転状態に悪影響を及ぼすことのバランスをとることができる。

[0035] モデルパラメータ記憶部 800には、モデル部 400を構成するのに必要なパラメータが保存されている。モデル部 400が物理モデルである場合は、モデルパラメータ記憶部 800には物理モデルを構成するのに必要な物理定数が保存されている。例えば、制御対象 100が火力発電プラントである場合は、熱伝達率などの値が保存される。

[0036] モデルパラメータ更新部 900では、制御対象とモデルの特性が一致するように、モデルパラメータ記憶部 800に記憶されているパラメータ 212を読み出しパラメータを修正し、修正されたパラメータ 213を送信し、モデルパラメータを更新する。例えば、制御対象 100が火力発電プラントである場合は、特開 10— 214112号公報，特開 2 001— 154705号公報等に述べられている技術を用いて、モデルパラメータ 211をモデル部 400へ設定し、モデルのパラメータを更新する。

[0037] 図 5〜図 7は、従来の制御装置を制御対象 100に適用した場合に発生すると考えられる問題について説明する図である。

[0038] 図 5は、操作量の空間と得られる評価値の関係である。例えば操作量 Aの値が A

1

、操作量 Bの値が B の場合、その操作量をモデル部 400に入力したときに得られる

1

評価値が—30である。また、 A， Bの時の評価値は + 10である。

2 2

[0039] 評価値の期待値の総和が最大となるような行動は、図 5の点線のように評価値が負となる領域を避け、正である領域へ向力行動となる。

[0040] 図 6は、一回の行動で移動可能な操作量の変化幅を矢印で示した図である。この図では、操作量の変化幅を一定としている。このように、スタート地点力も評価値が +

30となる地点まで、 6ステップで到達する。

[0041] ここでは、モデルと制御対象の特性が異なる場合について考える。図 7は、モデルと制御対象の特性の違う例を示した図である。図 7のように、評価値が負となる操作量の条件が、モデルと制御対象とで異なる。この場合、モデルで学習した操作方法をたどって操作を実行すると、 1ステップ後の評価値は 30となり、望ましい状態ではない。

[0042] 図 8〜図 10は、本発明の制御装置をプラント 100に適用した時の効果について説明する図である。本発明の制御装置では、操作量変化幅を一定にせず、図 3の処理を通して操作量の変化幅を決定する。

[0043] 初期値を小さく設定することにより、 1ステップ目の操作量変化幅を小さくすることができる。その結果、図 8のように、 1ステップ後の評価値は— 10となる。これは、従来法にて 1ステップ後に得られる 30よりも、優れた値である。

[0044] このように、操作の最初の段階における操作量変化幅を小さくすることで、初期状態と近似した運転状態に移動するので、制御対象の安全性を保つことができる。

[0045] この 1ステップの操作によって、制御装置 200は制御対象 100とモデル部 400の特性が異なって!/、ると!/、う情報を入手する。制御対象 100からの計測信号 202とモデル部 400からの出力信号 205を用いて、モデルパラメータ更新部 900ではモデル部 40 0と制御対象 100の特性が一致するように、モデルパラメータ記憶部 800に保存されているパラメータを更新する。モデルと制御対象の特性が違う場合には、初期状態（図 8における Start )に戻るように、操作信号 201を戻す。このように、評価値の差が所定値より大き、場合はモデルを修正することにより、モデルと実機のズレが所定値より小さ、ときは、モデルに沿って安全に制御できる。

[0046] 図 9は、操作量の空間と、修正後のモデル力得られる評価値の関係を説明する図である。このモデルを対象に、評価値の期待値の総和が最大となるような行動は、図 9の点線のように評価値が負となる領域を避け、正である領域へ向力行動である。この操作経路は、修正前のモデルを用いた場合と修正後のモデルを用いた場合とで異なるものとなる。

[0047] 図 10は、修正後の操作経路を用いて制御対象 100を制御した時の経路である。

[0048] 本発明では、操作を実施したことによって得られる評価値が、モデルを対象としたときに得られた評価値と一致する場合に、操作量変化幅を大きくする。その結果、図 1

0のように、除々に矢印の大きさが大きくなる。

[0049] 図 11は、図 10の操作実行時におけるステップ数と操作量変化幅の関係を説明する図である。

[0050] モデルの評価値、及び制御対象からの評価値が共に 0であるので、数 2における第 2項目は 0となる。従って、操作量変化幅は、 1ステップ当たり、 αだけ大きくなる。 [0051] 図 1の CRT10には、操作信号 201が表示される。また、操作信号生成パラメータ記憶部 600に記憶されているデータ 210である操作量変化幅等のデータを表示することもできる。制御対象 100の制御量 202も表示することができる。 CRT10は、図 5〜図 10の操作量の空間と評価値の関係を画面に表示することができる。

[0052] 図 14に、操作量の空間と評価値の関係を画面に表示した場合の一例を示す。制御装置 100は、制御対象へ適用する複数の操作の操作量をそれぞれ複数の軸に設定し、制御対象へ適用した各操作の始点と到達点を表示し、 1ステップ前の操作の到達点と次のステップの操作の始点を接続して表示する画像情報を作成して CRT1 0で表示する。これにより各操作の変化量を操作全体との対比で容易に把握すること力 Sできる。尚、始点カも到達点を矢印で表示する。

[0053] また、制御装置 100は、制御対象の特性を模擬したモデル 400を有し、モデルを対象に制御した場合の制御偏差に基づいて評価値を算出するモデルの評価値計算部 510と、制御対象を制御した場合の制御偏差に基づいて評価値を算出する制御対象の評価値計算部 500を有し、各操作を行った際のモデルの評価値及び制御対象からの評価値の差を算出し、各操作の表示に対応して表示する表示データを作成し、 CRT10へ送信する。この様に、各操作を行った際のモデルの評価値及び制御対象からの評価値の差をこの各操作表示に対応して表示することにより、操作を行いな力 Sらモデル誤差を把握することができる。

[0054] 以上に述べたように、本発明の運転制御装置を制御対象に適用することによって、操作開始直後においては操作量の変化幅を小さくし、モデルを対象に学習した操作方法が、制御対象にも有効であるかどうかを確認する。その後、制御対象とモデルの特性が近ぐモデルを対象に学習した操作方法が制御対象に対しても有効であることが分かった後、除々に操作量の変化幅が大きくなる。

[0055] よって、モデルと制御対象の特性に違いがあった場合でも制御対象の運転が悪ィ匕するリスクを軽減できる。

[0056] また、モデル誤差が生じた場合にも、制御対象の運転状態に悪影響を及ぼすことなく運転可能である。

図面の簡単な説明 [0057] [図 1]本発明の制御装置を制御対象に適用した例について説明する図である。

[図 2]操作信号生成パラメータ記憶部に保存されているデータの態様を説明する図である。

[図 3]画像表示装置に表示する画面を説明する図である。

[図 4]操作信号生成パラメータ更新部の処理を説明する図である。

[図 5]モデルの特性を説明する図である。

[図 6]ステップ毎の到達点を説明する図である。

[図 7]制御対象とモデル特性の違いを説明する図である。

[図 8]本発明の操作方法を説明する図である。

[図 9]修正後のモデルの特性を説明する図である。

[図 10]を説明する図である。

[図 11]ステップ数と操作量変化幅の関係を説明する図である。

[図 12]評価値算出の一例である。

[図 13]操作量を決定するための表の一例。

[図 14]操作量の空間と評価値の関係を画面に表示した例。

符号の説明

[0058] 10· ··画像表示装置、 20…外部入力装置、 30· "キーボード、 40· "マウス、 100· ·· 制御対象、 200…制御装置、 300…操作信号生成部、 400…モデル部、 500, 510 …評価値計算部、 600…操作信号生成パラメータ記憶部、 700…操作信号生成パラメータ更新部、 800…モデルパラメータ記憶部、 900…モデルパラメータ更新部。

Claims

請求の範囲

[1] 制御対象の制御量とその目標値との偏差である制御偏差に基づく評価値を最大または最小とする操作量を導出して制御する制御装置の運転制御方法において、前記制御対象の特性を模擬したモデルを有し、

前記モデルを対象にしてモデルの制御偏差に基づく評価値を最大または最小にする操作量を算出し、

前記操作量で前記制御対象を制御した場合の制御偏差に基づいて評価値を算出し、

前記モデルの制御偏差の評価値と、前記制御対象の制御偏差の評価値の偏差に基づ、て、現ステップの操作量と次ステップで決定する操作量との差である操作量の変化幅を決定することを特徴とする運転制御方法。

[2] 請求項 1に記載の運転制御方法にぉ、て、

前記操作量の変化幅を決定する場合は、前記評価値の偏差が大き!、場合は変化幅を小さぐ前記評価値の偏差が小さい場合は変化幅を大きくすることを特徴とする運転制御方法。

[3] 請求項 1に記載の運転制御方法にぉ、て、

前記操作量の変化幅の上限を設定することを特徴とする運転制御方法。

[4] 請求項 1に記載の運転制御方法にぉ、て、

前記評価値の偏差が所定値より大き!/ヽ場合は、前記モデルを修正することを特徴とする運転制御方法。

[5] 制御対象の制御量とその目標値との偏差である制御偏差に基づく評価値を最大または最小とする操作量を導出して制御する運転制御装置において、

前記制御対象の特性を模擬したモデルを備え、

前記モデルを対象に制御した場合の制御偏差に基づいて評価値を算出するモデルの評価値計算部と、

前記モデルの評価値を最大または最小にする操作量を算出する操作信号生成部と、

前記操作量で前記制御対象を制御した場合の制御偏差に基づいて評価値を算出する制御対象の評価値計算部と、

前記モデルの制御偏差の評価値と、前記制御対象の制御偏差の評価値に基づ、て、現ステップの操作量と次ステップで決定する操作量との差である操作量の変化幅を決定する操作信号更新部を備えることを特徴とする運転制御装置。

[6] 請求項 5に記載の運転制御装置において、

前記操作信号生成部は、前記評価値の偏差が大きい場合は変化幅を小さぐ前記評価値の偏差が小さい場合は変化幅を大きくすることを特徴とする運転制御装置。

[7] 請求項 5に記載の運転制御装置において、

前記操作信号更新部は、前記操作量変化幅の上限を有することを特徴とする運転制御方法。

[8] 請求項 5に記載の運転制御装置において、

前記評価値の偏差が所定値より大きヽ場合は、モデルを修正するモデルパラメ一タ更新部を有することを特徴とする運転制御装置。

[9] 制御対象へ複数の操作を行!、制御する制御装置と、表示装置を有する運転制御システムにおいて、

前記制御装置は、前記制御対象への複数の操作の操作量をそれぞれ複数の軸に設定し、制御対象へ適用した各操作の始点と到達点を表示し、 1ステップ前の操作の到達点と次のステップの操作の始点を接続して表示する画像情報を作成し、前記表示装置へ送信することを特徴とする運転制御システム。

[10] 請求項 9に記載の運転制御システムにおいて、

前記制御装置は、前記制御対象の特性を模擬したモデルを有し、前記モデルを対象に制御した場合の制御偏差に基づいて評価値を算出するモデルの評価値計算部と、前記制御対象を制御した場合の制御偏差に基づいて評価値を算出する制御対象の評価値計算部を有し、前記各操作を行った際のモデルの評価値及び制御対象からの評価値の差を算出し、前記各操作の表示に対応して表示する表示データを作成し、前記表示装置へ送信することを特徴とする運転制御システム。