WO2020054164A1

WO2020054164A1 - 運転支援システム及び方法、自動プランナ、並びにコンピュータ可読媒体

Info

Publication number: WO2020054164A1
Application number: PCT/JP2019/024164
Authority: WO
Inventors: 駿平窪澤; 貴士大西; 慶雅鶴岡; 鷲尾　隆
Original assignee: 日本電気株式会社; 国立研究開発法人産業技術総合研究所
Priority date: 2018-09-12
Filing date: 2019-06-18
Publication date: 2020-03-19
Also published as: JPWO2020054164A1; JP7058387B2; US20220058501A1

Abstract

操作が必要な状態において、どのような操作をどのように実施すればよいかを出力可能とする。目標状態推論手段（１１）は、操作手順に基づいて運転されるシステムの第１状態、推論知識（２１）、及び定量的知識（２２）に基づいて、目標状態と、第１状態から目標状態に至る部分目標状態とを推論する。操作列推論手段（１２）は、操作導出規則（２３）に基づいて、部分目標状態に遷移させるための操作を推論する。学習設定生成手段（１３）は、学習設定導出規則（２４）に基づいて、推論された操作の学習設定を生成する。学習エージェント（１４）は、操作の学習設定に基づいて、操作における操作内容を作成する。

Description

運転支援システム及び方法、自動プランナ、並びにコンピュータ可読媒体

　本開示は、運転支援システム及び方法、自動プランナ、並びにコンピュータ可読媒体に関する。

　特許文献１は、多入出力であって、かつ非線形的特性を持つ系（システム）から所望の出力が得られるように、系への入力を適切かつ容易に調整するための調整ルールを生成する調整ルール生成装置を開示する。特許文献１に記載の調整ルール生成装置は、調整対象において、どの調整要素（操作量＝調整対象への入力）を用いてどの可調整パラメータ（制御量＝調整対象からの出力）を調整するかを選択する。また、調整ルール生成装置は、選択した操作量と制御量の組合せについて、所定の形式に従って調整ルールを生成し、出力する。

　具体的に、調整ルール生成装置は、依存特性データと制御量相関特性データとを用いて調整ルールを生成する。ここで、依存特性データは、調整対象の操作量と制御量（入力と出力）の間に依存関係があるか否かを示すデータである。また、制御量相関特性データは、各操作量に対して、制御量の変化が互いにどのようなものになるかを定性的に表すデータである。制御量相関特性データにおいて、任意の２つの制御量間の特性は、「互いに同方向に変化する」、「互いに異方向に変化する」、及び「片方の制御量だけが変化する」の３つに分類される。

　調整ルール生成装置では、上記依存特性データを用いることで、どの制御量をどの操作量を用いて調整すべきかを判断できる。調整ルール生成装置は、依存特性データを用いて着目する制御量と操作量との関係を絞り、その部分について制御量相関特性データを着目することで、調整特性を推定する。調整ルール生成装置は、例えば操作量Ｘ１が操作された場合に、制御量Ｙ２及びＹ３が同じ方向に変化するということを示す調整特性を推定する。この場合、調整ルール生成装置は、制御量Ｙ２及びＹ３がほぼ同じ偏差で共に許容偏差外であれば、これら制御量Ｙ２及びＹ３を同じ方向に変化させる操作量Ｘ１を用いてそれらの偏差を調整することができる。調整ルール生成装置は、そのような調整のルールを所定の書式で記述した調整ルールを出力する。

特開平１０－２６８９０６号公報

　特許文献１では、調整ルールを参照することで、制御量に偏差がある場合に、どの操作量を操作すればよいかを決定できる。しかしながら、特許文献１において、依存関係が複雑な場合などにおいて、複数の操作量をどのような順序で操作すればよいかは決定できない。加えて、特許文献１では、どの操作量を操作すればよいかを決定できるにとどまっており、操作における操作内容までは決定できない。

　本開示は、上記に鑑み、システムにおいて、どのような操作をどのように実施すればよいかを出力可能な運転支援システム及び方法、自動プランナ、並びにコンピュータ可読媒体を提供することを目的とする。

　上記目的を達成するために、本開示は、操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論する目標状態推論手段と、操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論する操作列推論手段と、学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成する学習設定生成手段と、前記操作の学習設定に基づいて、前記操作における操作内容を作成する学習エージェントとを備える運転支援システムを提供する。

　本開示は、また、操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論する目標状態推論手段と、操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論する操作列推論手段と、学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する学習設定生成手段とを備える自動プランナを提供する。

　本開示は、操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論し、操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論し、学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する運転支援方法を提供する。

　本開示は、操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論し、操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論し、学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する処理をコンピュータに実行させるためのプログラムを格納したコンピュータ可読媒体を提供する。

　本開示に係る運転支援システム及び方法、自動プランナ、並びにコンピュータ可読媒体は、システムにおいて、どのような操作をどのように実施すればよいかを出力することができる。

本開示に係る運転支援システムを概略的に示すブロック図。本開示の一実施形態に係る運転支援システムを示すブロック図。運転支援システムにおける動作手順を示すフローチャート。プラントの一例を示すブロック図。情報処理装置の構成例を示すブロック図。

　本開示の実施形態の説明に先立って、本開示の概要を説明する。図１は、本開示に係る運転支援システムを概略的に示す。運転支援システム１０は、目標状態推論手段１１、操作列推論手段１２、学習設定生成手段１３、及び学習エージェント１４を有する。

　目標状態推論手段１１は、操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、推論知識２１、及び定量的知識２２に基づいて、目標状態を推論する。推論知識２１は、システムの状態間の関係を含む。定量的知識２２は、システムにおける数的知識を含む。また、目標状態推論手段１１は、推論知識２１に基づいて、第１状態から目標状態に至る部分目標状態を推論する。

　操作列推論手段１２は、操作導出規則２３に基づいて、部分目標状態に遷移させるための操作を推論する。操作導出規則２３は、例えば、遷移前のシステムの状態と、実施される操作と、操作実施後に遷移するシステムの状態とを対応付けた情報を含む。学習設定生成手段１３は、学習設定導出規則２４に基づいて、推論された操作の学習設定を生成する。学習設定導出規則２４は、例えば、操作と、その操作が実施される場合の学習設定とを対応付けた情報を含む。学習エージェント１４は、学習設定生成手段１３で生成された操作の学習設定に基づいて、操作における操作内容を作成する。

　本開示では、推論知識２１及び定量的知識２２を用いて操作後の目標状態、及び目標状態に到達するまでの部分目標状態が推論される。また、操作導出規則２３を用いて各部分状態に遷移するための操作が推論され、学習設定導出規則２４を用いて操作に対する学習設定が生成される。本開示では、学習エージェント１４において、学習設定に基づいて操作の操作内容を作成することで、目標状態（又は部分目標状態）に至るまでに、どのような操作をどのように実施すればよいかをユーザなどに出力することができる。また、ユーザが出力された情報に従ってプラントなどのシステムを運転することで、システムを所望の状態に制御できる。

　以下、図面を参照しつつ、本開示の実施形態を詳細に説明する。図２は、本開示の一実施形態に係る運転支援システムを示す。運転支援システム１００は、自動プランナ１０１、学習エージェント１０２、及びシミュレータ１０３を含む。自動プランナ１０１、学習エージェント１０２、及びシミュレータ１０３は、例えばプロセッサとメモリとを含むコンピュータ装置を用いて構成される。これら要素の機能は、プロセッサがメモリから読み出したプログラムに従って動作することで実現され得る。

　本実施形態において、自動プランナ１０１、学習エージェント１０２、及びシミュレータ１０３は、必ずしも物理的に分離された装置として構成されている必要はない。例えば、自動プランナ１０１と、学習エージェント１０２及びシミュレータ１０３の少なくとも一方とが同一の装置として構成されていてもよい。また、自動プランナ１０１、学習エージェント１０２、及びシミュレータ１０３は、必ずしも同じ場所に配置されている必要はない。例えば、自動プランナ１０１は、学習エージェント１０２及びシミュレータ１０３の少なくとも一方とネットワークを介して接続され、ネットワークを通じて情報の送受信を行ってもよい。

　自動プランナ１０１は、状態判定部１１１、目標状態推論部１１２、操作列推論部１１３、及び学習設定生成部１１４を有する。状態判定部（状態判定手段）１１１は、操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるプラントなどのシステムの状態が、操作が必要な状態（第１状態）であるか否かを判定する。シミュレータ１０３は、操作手順に基づいて運転されるシステムをシミュレートする。状態判定部１１１は、シミュレータ１０３がシミュレートするシステムの状態を監視し、操作が必要な状態であるか否かを判定する。

　定性的知識２０１は、プラントなどのシステムにおける定性的知識である。定性的知識２０１は、例えばプラントにおける運転規則や、操作手順間の依存関係、ある状態から別の状態に遷移させるためにはどのような操作を行えばよいか、などといった知識を含む。定性的知識２０１は、図１の推論知識２１、操作導出規則２３、及び学習設定導出規則２４を含む。

　定量的知識２０２は、プラントなどのシステムにおける数値に関する知識である。定量的知識２０２は、判定に用いられるしきい値や、定常状態におけるセンサなどの指示値、原料の量などに関する知識を含む。定量的知識２０２は、図１の定量的知識２２に対応する。定性的知識２０１及び定量的知識２０２は、自動プランナ１０１からアクセスが可能な補助記憶装置などの装置に記憶される。

　目標状態推論部（目標状態推論部）１１２は、状態判定部１１１にて操作が必要な状態であると判定された場合に、定性的知識２０１及び定量的知識２０２と、現在のシステムの状態とに基づいて、目標状態を推論する。また、目標状態推論部１１２は、定性的知識２０１に基づいて、現在の状態から推論した目標状態に遷移させるまでの部分目標状態を推論する。

　より詳細には、定性的知識２０１は、操作前の状態と、操作後の目標状態とを対応付けて定義する第１推論知識と、状態間の状態遷移を定義する第２推論知識とを含んでいる。目標状態推論部１１２は、第１推論知識を用いて目標状態を推論する。また、目標状態推論部１１２は、第２推論知識を用いて、現在の状態から目標状態に遷移させるまでの各段階における部分目標状態を推論する。目標状態推論部１１２は、例えば第２推論知識を用い、推論した目標状態から現在の状態に遡ることで、各段階の部分目標状態を推論する。目標状態推論部１１２は、図１の目標状態推論手段１１に対応する。

　操作列推論部（操作列推論手段）１１３は、定性的知識２０１に含まれる操作導出規則に基づいて、各部分目標状態に遷移させるための操作を推論する。操作導出規則は、例えば、遷移前のシステムの状態と、実施される操作と、操作実施後に遷移するシステムの状態とを対応付けた情報を含む。操作列推論部１１３は、操作導出規則に基づいて、現在の状態又は１つ前の部分目標状態から、次の部分目標状態又は最終的な目標状態に遷移させるための操作の列を推論する。操作列推論部１１３は、図１の操作列推論手段１２に対応する。

　学習設定生成部（学習設定生成手段）１１４は、定性的知識２０１に含まれる学習設定導出規則に基づいて、操作列推論部１１３で推論された各操作の学習設定を生成する。学習設定導出規則は、例えば操作と、その操作が実施される場合の学習設定とを対応付けた情報を含む。学習設定は、例えば、学習エージェント１０２への入力変数、学習エージェント１０２の出力変数、目的関数、及び学習の種別を含む。学習設定生成部１１４は、図１の学習設定生成手段１３に対応する。

　学習エージェント１０２は、自動プランナ１０１の学習設定生成部１１４が生成した学習設定に基づいて、各操作における操作内容を学習（作成）する。このとき、学習エージェント１０２は、シミュレータ１０３からシステムの定量的な応答を取得し、取得した定量的な応答に基づいて学習を行う。学習エージェント１０２には、システムにおける操作上の制約条件などの追加的な情報が設定されていてもよい。学習エージェント１０２は、図１の学習エージェント１４に対応する。

　学習エージェント１０２は、例えば操作が必要と判断された状態を初期状態として、例えばどんなセンサ値の場合にどれだけバルブをあければよいかを学習する。学習エージェント１０２は、学習した各操作における操作内容を含む操作手順２０３を生成する。学習エージェント１０２は、生成した操作手順２０３をユーザに出力する。状態判定部１１１が操作が必要な状態を検出したことを契機に操作手順２０３が生成されることで、ユーザは、その状態においてどのような操作をどのように実施すればよいかを知ることができる。

　次いで、動作手順を説明する。図３は、運転支援システム１０における動作手順（運転支援方法）を示す。ユーザは、例えば図示しないキーボードやマウスなどの入力装置を用いて、定性的知識２０１、定量的知識２０２、及びシミュレータ１０３の環境の初期状態を入力する（ステップＳ１）。シミュレータ１０３は、ステップＳ１で入力された初期状態から動作を開始する。

　自動プランナ１０１の状態判定部１１１は、シミュレータ１０３から現在の状態（シミュレーション値）を取得し、操作対象の環境を監視する（ステップＳ２）。状態判定部１１１は、現在の状態が、操作が必要な状態であるか否かを判断する（ステップＳ３）。状態判定部１１１は、例えばあるセンサの値が異常値を示している場合は操作が必要な状態であると判断する。状態判定部１１１は、例えばセンサの値が正常値を示している場合は操作が必要な状態ではないと判断する。

　状態判定部１１１は、ステップＳ３で操作が必要な状態ではないと判断した場合は、ステップＳ２に戻り、操作対象の環境の監視を継続する。状態判定部１１１は、ステップＳ３で操作が必要な状態であると判断すると、目標状態推論部１１２に要操作状態である現在の状態を通知する。目標状態推論部１１２は、現在の状態と定性的知識２０１及び定量的知識２０２とに基づいて、操作後の目標状態を推論する（ステップＳ４）。定性的知識２０１は、要操作状態と、操作後の目標状態とを対応付けた情報を第１推論知識として含んでおり、目標状態推論部１１２は、ステップＳ４では、そのような第１推論知識を用いて、最終的な目標状態を推論する。

　目標状態推論部１１２は、現在の状態、操作後の目標状態、及び定性的知識２０１に基づいて、現在の状態から最終的な目標状態に至るまでの部分目標状態を推論する（ステップＳ５）。定性的知識２０１は、ある状態から別の状態への状態遷移（状態間の因果関係）を論理的に記述した情報を第２推論知識として含んでおり、目標状態推論部１１２は、ステップＳ５では、そのような第２推論知識を用いて、部分目標状態を推論する。なお、現在の状態から直接に操作後の目標状態に遷移することが可能な場合など、部分目標状態が存在しない場合もあり得る。

　操作列推論部１１３は、現在の状態、各部分目標状態、及び目標状態と、定性的知識２０１に含まれる操作導出規則とに基づいて、現在の状態から操作後の目的の状態に遷移させるために必要な操作の列を推論する（ステップＳ６）。操作列推論部１１３は、ステップＳ６では、例えば、次の状態に遷移させるために必要な操作の列を、操作導出規則を用いて仮説推論する。

　学習設定生成部１１４は、操作列推論部１１３で推論された操作の列に含まれる各操作について、定性的知識２０１に含まれる学習設定導出規則を用いて、学習設定を推論する（ステップＳ７）。学習設定生成部１１４は、ステップＳ７では、例えば各操作の学習設定を、学習設定導出規則を用いて仮説推論する。

　学習設定生成部１１４は、生成した学習設定を、学習エージェント１０２に渡す。学習エージェント１０２は、ステップＳ７で生成された学習設定に基づいて学習を行い、各操作の操作内容などを学習する（ステップＳ８）。学習エージェント１０２は、例えば各操作に対応した学習器を含んでおり、対応する学習器を用いて操作内容を学習する。

　学習エージェント１０２は、各操作とその操作内容とを、操作手順２０３として出力する（ステップＳ９）。学習エージェント１０２が操作手順２０３を出力するのに代えて、自動プランナ１０１が学習エージェント１０２から各操作の操作内容を取得し、操作手順２０３を出力してもよい。操作手順２０３は、例えば図示しないディスプレイ装置に表示される。ユーザは、操作手順２０３を参照することで、何をどのように操作すればよいかを知ることができる。

　以下、具体例を用いて説明する。図４は、プラントの一例を示す。ここでは、プラントとして、液体Ａ及び液体Ｂが注入されるタンク３０１を含むプラント３００を考える。タンク３０１には、注入弁３０２Ａを通じて液体Ａが注入され、注入弁３０２Ｂを通じて液体Ｂが注入される。流量計３０３Ａは、液体Ａの注入量を計測する。流量計３０３Ｂは、液体Ｂの注入量を計測する。水位計（液面計）３０５は、タンク３０１に注入された液体の液面を計測する。温度計３０６は、タンク３０１周辺の外気の温度を計測する。タンク３０１内に注入された液体Ａ及び液体Ｂは、抜出し弁３０４を通じてタンク３０１から抜き出される。プラント３００において、操作の対象となる構成要素は、注入弁３０２Ａ、注入弁３０２Ｂ、及び抜出し弁３０４である。シミュレータ１０３（図２を参照）は、このようなプラント３００における挙動をシミュレートする。

　ここでは、前提条件として下記の条件を考える。液体Ｂは液体Ａよりも軽く、タンク内で液体Ｂは液体Ａに浮かぶものとする。また、液体Ａと液体Ｂとは同時に注入できないものとする。注入の順序について、液体Ａは液体Ｂよりも先に注入されるものとする。液体Ａは、タンクに一度に注入されると大きな熱を発するものとする。液体Ｂも、同様に、タンクに一度に注入されると大きな熱を発するものとする。液体Ａ及び液体Ｂの供給量は変化するものとする。タンクの温度は６０度未満に保たれる必要があるとする。また、タンクの温度は外気で冷却されるものとする。

　上記プラント３００において、現在の状態は、タンク３０１は空であり、抜出し弁３０４は「開」であり、注入弁３０２Ａ及び３０２Ｂは「閉」であり、温度計３０６が計測する外気の温度は「暑い」であったとする。状態判定部１１１は、水位計３０５が検出する水位が０、つまり、タンク３０１が空である場合、操作が必要な状態であると判定する。

　定性的知識２０１は、タンク３０１が空であるという状態に対する操作後の目標状態として、タンク３０１に液体Ａと液体Ｂとが注入された状態という推論知識（第１推論知識）を保持している。また、定量的知識２０２は、外気が「暑い」という状態に対して、液体Ａの注入量は「２０ｋｇ」であり、液体Ｂの注入量は「３０ｋｇ」であるという情報を保持している。この場合、目標状態推論部１１２は、操作後の目標状態が、液体Ａと液体Ｂとが注入された状態であり、液体Ａの注入量は２０ｋｇであり、かつ液体Ｂの注入量は３０ｋｇであると推論する。

　定性的知識２０１は、状態間の遷移に関する情報（第２推論知識）として、「空（タンク）→抜出し停止（タンク）」、「抜出し停止（タンク）→液体Ａを注入している状態（タンク）」、及び「液体Ａを注入している状態（タンク）→液体Ａのみが注入された状態（タンク）」を保持する。「→」は、「→」の前に記載されている状態（条件、前件）から、「→」の後に記載されている状態（後件）が導出可能であることを表している。「→」は、必ずしも、論理的な導出を表していなくてもよく、たとえば、時間的な推移等を表していてもよい。また、定性的知識２０１は、「液体Ａのみが注入された状態（タンク）→液体Ｂを注入している状態（タンク）」、及び「液体Ｂを注入している状態（タンク）→液体Ａと液体Ｂとが注入された状態（タンク）」を保持する。目標状態推論部１１２は、第２推論知識を用い、例えば、目標状態「液体Ａと液体Ｂとが注入された状態」から現在の状態「空（タンク）」に遡ることで、最終目標に到達するまでの部分目標を推論する。目標状態推論部１１２は、現在の状態から目標の状態に至る推論を、現在の状態から開始してもよい。目標状態推論部１１２は、「抜出し停止（タンク）」、「液体Ａを注入している状態」、「液体Ａのみが注入された状態」、「液体Ｂを注入している状態」、及び「液体Ａと液体Ｂとが注入された状態」を、部分目標状態として推論する。

　定性的知識２０１は、「空（タンク）∧閉（抜出し弁）→抜出し停止（タンク）」という知識（情報）を操作導出規則として保持している。「∧」は、論理積を表す。操作列推論部１１３は、事実「空（タンク）及び抜出し停止（タンク）」と操作導出規則とから仮説推論を行い、現在の状態との差分から、「抜出し停止（タンク）」に遷移するための操作は、抜出し弁３０４を「開」から「閉」にする操作であると推論する。

　また、定性的知識２０１は、「抜出し停止（タンク）∧閉（抜出し弁）∧開（液体Ａ注入弁）∧閉（液体Ｂ注入弁）→液体Ａを注入している状態（タンク）」という知識を操作導出規則として保持している。操作列推論部１１３は、事実「抜出し停止（タンク）及び液体Ａを注入している状態（タンク）」と操作導出規則とから仮説推論を行う。操作列推論部１１３は、操作前の状態との差分から、「液体Ａが注入されている状態（タンク）」へ遷移するための操作は、注入弁３０２Ａを「閉」から「開」にする操作であると推論する。

　以降の部分目標状態についても、同様に、操作列推論部１１３は、定性的知識２０１に保持される操作導出規則を用いて仮説推論を行う。操作列推論部１１３は、操作前の状態との差分から、次の部分目標状態又は最終的な目標状態に遷移させるための操作を推論する。操作列推論部１１３は、目標状態に遷移させるための操作の列として、「抜出し弁を閉じる」、「液体Ａ注入弁を開く」、「液体Ａ注入弁を閉じる」、「液体Ｂ注入弁を開く」、及び「液体Ｂ注入弁を閉じる」を推論する。

　定性的知識２０１は、「閉（抜出し弁）」に対しては学習不要であるという知識を学習設定導出規則として保持している。この場合、学習設定生成部１１４は、「閉（抜出し弁）」の操作については学習不要である旨を学習エージェント１０２に出力する。

　また、定性的知識２０１は、「開（液体Ａ注入弁）∧２０ｋｇ（液体Ａ注入量）」という操作に対して、学習設定が「学習器（強化学習）∧環境（液体Ａ流量計、温度計、水位計、液体Ａ注入量）∧行動（液体Ａ注入弁の開度）∧報酬（報酬関数Ａ２０）∧終了条件（液体Ａ２０ｋｇ注入）」である知識（情報）を、学習設定導出規則として保持している。ここで、報酬関数Ａ２０は、「液体Ａを温度６０度未満で迅速に２０ｋｇ注入できるほど高得点」という別途定義された連続関数である。この場合、学習設定生成部１１４は、事実「開（液体Ａ注入弁）∧２０ｋｇ（注入量）」と学習設定導出規則とから仮説推論を行って学習設定を生成し、学習設定を学習エージェント１０２に出力する。学習設定生成部１１４は、「学習器＝強化学習、環境＝｛液体Ａ流量計、温度計、水位計、液体Ａ注入量｝、行動＝液体Ａ注入弁の開度、報酬＝ｒ（報酬関数Ａ２０）、終了条件＝液体Ａ２０ｋｇ注入」を、「開（液体Ａ注入弁）」の操作の学習設定として学習エージェント１０２に出力する。液体Ｂについても同様である。

　学習エージェント１０２は、各操作の学習設定に従って機械学習を行う。学習エージェント１０２は、例えば「開（液体Ａ注入弁）」の操作について、液体Ａを温度６０度未満で迅速に２０ｋｇ注入できる注入弁３０２Ａの開度の時系列データを学習する。学習エージェント１０２は、現在の状態から最終的な目標状態に到達するまでの操作の列と、各操作における操作内容とを、操作手順２０３として出力する。

　本実施形態では、目標状態推論部１１２は、プラントなどのシステムの状態が操作が必要な状態な場合に、定性的知識２０１及び定量的知識２０２を用いて、操作後の目標状態を推論する。操作列推論部１１３は、定性的知識２０１を用いて、システムの状態を、操作が必要な状態から推論された目標状態まで遷移させるための操作の列を推論する。また、学習設定生成部１１４は、各操作の学習設定を生成し、学習エージェント１０２は、学習設定に従って各操作の操作内容を学習し、操作とその操作内容とを含む操作手順２０３を生成する。本実施形態では、操作手順２０３は、操作だけでなく、その操作内容を含んでおり、ユーザは、操作手順２０３を参照することで、どの操作をどのように実施すればよいかを知ることができる。ユーザが、出力された操作手順２０３に従ってプラントなどのシステムを運転することで、システムを所望の状態に制御することができる。

　なお、上記実施形態では、主に学習エージェント１０２において強化学習を行う例を説明したが、学習は強化学習には限定されない。学習は、教師あり学習であってもよいし、教師なし学習であってもよい。例えば、あるセンサの予測値を他のいくつかのセンサの指示値などを用いて予測するモデルがある場合、学習エージェント１０２において教師あり学習を行い、モデルを構築してもよい。

　上記の場合、状態判定部１１１は、モデルを用いて予測した圧力センサＡの予測値と、圧力センサＡの指示値との差がしきい値より大きい場合、モデル乖離状態である判断し、操作が必要な状態であると判断する。目標状態推論部１１２は、目標状態はモデル乖離状態の解消であると推論する。操作列推論部１１３は、「モデル乖離状態∧目標はモデル乖離状態の解消」である場合、「モデルの再構築」を推論する。学習設定生成部１１４は、「入力＝｛圧力センサＢの指示値、流量センサＣの指示値｝、出力＝圧力センサＡの指示値、目標関数＝２乗誤差を最小化、学習器＝ロジスティック回帰、環境＝１分ごと観測の５０分間のシミュレーション」を学習設定として出力する。この場合、センサの予測値を、教師あり学習で学習することができる。

　上記実施形態では、学習エージェント１０２が、プラントなどのシステムの定量的な応答をシミュレータ１０３から取得して学習する例を説明したが、本開示はこれには限定されない。学習エージェント１０２は、操作が行われた場合の定量的な応答を実際のシステムから取得し、学習を行ってもよい。

　学習エージェント１０２は、上位の学習エージェントと、下位の学習エージェントとを含んでいてもよい。その場合、下位の学習エージェントで各操作の操作内容を学習し、上位の学習エージェントとで操作の順序を学習してもよい。

　図５は、自動プランナ１０１、学習エージェント１０２、及びシミュレータ１０３に用いられ得る情報処理装置（コンピュータ装置）の構成例を示す。情報処理装置５００は、制御部（ＣＰＵ：Central Processing Unit）５１０、記憶部５２０、ＲＯＭ（Read Only Memory）５３０、ＲＡＭ（Random Access Memory）５４０、通信インタフェース（ＩＦ：Interface）５５０、及びユーザインタフェース５６０を有する。

　通信インタフェース５５０は、有線通信手段又は無線通信手段などを介して、情報処理装置５００と通信ネットワークとを接続するためのインタフェースである。ユーザインタフェース５６０は、例えばディスプレイなどの表示部を含む。また、ユーザインタフェース５６０は、キーボード、マウス、及びタッチパネルなどの入力部を含む。

　記憶部５２０は、各種のデータを保持できる補助記憶装置である。記憶部５２０は、必ずしも情報処理装置５００の一部である必要はなく、外部記憶装置であってもよいし、ネットワークを介して情報処理装置５００に接続されたクラウドストレージであってもよい。ＲＯＭ５３０は、不揮発性の記憶装置である。ＲＯＭ５３０には、例えば比較的容量が少ないフラッシュメモリなどの半導体記憶装置が用いられる。ＣＰＵ５１０が実行するプログラムは、記憶部５２０又はＲＯＭ５３０に格納され得る。

　上記プログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、情報処理装置５００に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体を含む。非一時的なコンピュータ可読媒体の例は、例えばフレキシブルディスク、磁気テープ、又はハードディスクなどの磁気記録媒体、例えば光磁気ディスクなどの光磁気記録媒体、ＣＤ（compact disc）、又はＤＶＤ（digital versatile disk）などの光ディスク媒体、及び、マスクＲＯＭ、ＰＲＯＭ（programmable ROM）、ＥＰＲＯＭ（erasable PROM）、フラッシュＲＯＭ、又はＲＡＭなどの半導体メモリを含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体を用いてコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバなどの有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　ＲＡＭ５４０は、揮発性の記憶装置である。ＲＡＭ５４０には、ＤＲＡＭ（Dynamic Random Access Memory）又はＳＲＡＭ（Static Random Access Memory）などの各種半導体メモリデバイスが用いられる。ＲＡＭ５４０は、データなどを一時的に格納する内部バッファとして用いられ得る。ＣＰＵ５１０は、記憶部５２０又はＲＯＭ５３０に格納されたプログラムをＲＡＭ５４０に展開し、実行する。ＣＰＵ５１０がプログラムを実行することで、自動プランナ１０１内の各部、学習エージェント１０２、及びシミュレータ１０３の機能が実現され得る。ＣＰＵ５１０は、データなどを一時的に格納できる内部バッファを有してもよい。

　以上、本開示の実施形態を詳細に説明したが、本開示は、上記した実施形態に限定されるものではなく、本開示の趣旨を逸脱しない範囲で上記実施形態に対して変更や修正を加えたものも、本開示に含まれる。

　例えば、上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。

［付記１］
　操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論する目標状態推論手段と、
　操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論する操作列推論手段と、
　学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成する学習設定生成手段と、
　前記操作の学習設定に基づいて、前記操作における操作内容を作成する学習エージェントとを備える運転支援システム。

［付記２］
　前記推論知識は、操作前の状態と操作後の目標状態とを対応付けて定義する第１推論知識と、状態間の状態遷移を定義する第２推論知識とを含み、
　前記目標状態推論手段は、第１推論知識を用いて前記目標状態を推論し、前記第２推論知識を用いて前記部分目標状態を推論する付記１に記載の運転支援システム。

［付記３］
　前記目標状態推論手段は、前記第２推論知識を用い、前記目標状態から前記第１状態に遡ることで、前記部分目標状態を推論する付記２に記載の運転支援システム。

［付記４］
　前記学習設定は、前記学習エージェントへの入力変数、前記学習エージェントの出力変数、目的関数、及び学習の種別を含む付記１から３何れか１つに記載の運転支援システム。

［付記５］
　前記学習エージェントは、前記システムの定量的な応答に基づいて、前記操作内容を作成する付記１から４何れか１つに記載の運転支援システム。

［付記６］
　前記システムの動作をシミュレートするシミュレータを更に有し、
　前記学習エージェントは、前記シミュレータから前記システムの定量的な応答を取得する付記５に記載の運転支援システム。

［付記７］
　前記学習エージェントは、前記システムから、前記システムの定量的な応答を取得する付記５に記載の運転支援システム。

［付記８］
　前記操作導出規則は、遷移前の前記システムの状態と、実施される操作と、操作実施後に遷移する前記システムの状態とを対応付けた情報を含む付記１から７何れか１つに記載の運転支援システム。

［付記９］
　前記学習設定導出規則は、操作と、該操作が実施される場合の前記学習設定とを対応付けた情報を含む付記１から８何れか１つに記載の運転支援システム。

［付記１０］
　前記システムの状態が、前記操作が必要な状態であるか否かを判定する状態判定手段を更に有する付記１から９何れか１つに記載の運転支援システム。

［付記１１］
　前記学習エージェントは、前記作成した操作内容をユーザに出力する付記１から１０何れか１つに記載の運転支援システム。

［付記１２］
　操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論する目標状態推論手段と、
　操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論する操作列推論手段と、
　学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する学習設定生成手段とを備える自動プランナ。

［付記１３］
　前記推論知識は、操作前の状態と操作後の目標状態とを対応付けて定義する第１推論知識と、状態間の状態遷移を定義する第２推論知識とを含み、
　前記目標状態推論手段は、第１推論知識を用いて前記目標状態を推論し、前記第２推論知識を用いて前記部分目標状態を推論する付記１２に記載の自動プランナ。

［付記１４］
　前記目標状態推論手段は、前記第２推論知識を用い、前記目標状態から前記第１状態に遡ることで、前記部分目標状態を推論する付記１３に記載の自動プランナ。

［付記１５］
　前記学習設定は、前記学習エージェントへの入力変数、前記学習エージェントの出力変数、目的関数、及び学習の種別を含む付記１２から１４何れか１つに記載の自動プランナ。

［付記１６］
　前記システムの状態が、前記操作が必要な状態であるか否かを判定する状態判定手段を更に有する付記１２から１５何れか１つに記載の自動プランナ。

［付記１７］
　操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論し、
　操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論し、
　学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する運転支援方法。

［付記１８］
　操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論し、
　操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論し、
　学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する処理をコンピュータに実行させるためのプログラム。

　この出願は、２０１８年９月１２日に出願された日本出願特願２０１８－１７０８２５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０：運転支援システム
１１：目標状態推論手段
１２：操作列推論手段
１３：学習設定生成手段
１４：学習エージェント
２１：推論知識
２２：定量的知識
２３：操作導出規則
２４：学習設定導出規則
１００：運転支援システム
１０１：自動プランナ
１０２：学習エージェント
１０３：シミュレータ
１１１：状態判定部
１１２：目標状態推論部
１１３：操作列推論部
１１４：学習設定生成部
２０１：定性的知識
２０２：定量的知識
２０３：操作手順
３０１：タンク
３０２Ａ、３０２Ｂ：注入弁
３０３Ａ、３０３Ｂ：流量計
３０４：抜出し弁
３０５：水位計
３０６：温度計

Claims

　操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論する目標状態推論手段と、
　操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論する操作列推論手段と、
　学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成する学習設定生成手段と、
　前記操作の学習設定に基づいて、前記操作における操作内容を作成する学習エージェントとを備える運転支援システム。
　前記推論知識は、操作前の状態と操作後の目標状態とを対応付けて定義する第１推論知識と、状態間の状態遷移を定義する第２推論知識とを含み、
　前記目標状態推論手段は、第１推論知識を用いて前記目標状態を推論し、前記第２推論知識を用いて前記部分目標状態を推論する請求項１に記載の運転支援システム。
　前記目標状態推論手段は、前記第２推論知識を用い、前記目標状態から前記第１状態に遡ることで、前記部分目標状態を推論する請求項２に記載の運転支援システム。
　前記学習設定は、前記学習エージェントへの入力変数、前記学習エージェントの出力変数、目的関数、及び学習の種別を含む請求項１から３何れか１項に記載の運転支援システム。
　前記学習エージェントは、前記システムの定量的な応答に基づいて、前記操作内容を作成する請求項１から４何れか１項に記載の運転支援システム。
　前記システムの動作をシミュレートするシミュレータを更に有し、
　前記学習エージェントは、前記シミュレータから前記システムの定量的な応答を取得する請求項５に記載の運転支援システム。
　前記学習エージェントは、前記システムから、前記システムの定量的な応答を取得する請求項５に記載の運転支援システム。
　前記操作導出規則は、遷移前の前記システムの状態と、実施される操作と、操作実施後に遷移する前記システムの状態とを対応付けた情報を含む請求項１から７何れか１項に記載の運転支援システム。
　前記学習設定導出規則は、操作と、該操作が実施される場合の前記学習設定とを対応付けた情報を含む請求項１から８何れか１項に記載の運転支援システム。
　前記システムの状態が、前記操作が必要な状態であるか否かを判定する状態判定手段を更に有する請求項１から９何れか１項に記載の運転支援システム。
　前記学習エージェントは、前記作成した操作内容をユーザに出力する請求項１から１０何れか１項に記載の運転支援システム。
　操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論する目標状態推論手段と、
　操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論する操作列推論手段と、
　学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する学習設定生成手段とを備える自動プランナ。
　前記推論知識は、操作前の状態と操作後の目標状態とを対応付けて定義する第１推論知識と、状態間の状態遷移を定義する第２推論知識とを含み、
　前記目標状態推論手段は、第１推論知識を用いて前記目標状態を推論し、前記第２推論知識を用いて前記部分目標状態を推論する請求項１２に記載の自動プランナ。
　前記目標状態推論手段は、前記第２推論知識を用い、前記目標状態から前記第１状態に遡ることで、前記部分目標状態を推論する請求項１３に記載の自動プランナ。
　前記学習設定は、前記学習エージェントへの入力変数、前記学習エージェントの出力変数、目的関数、及び学習の種別を含む請求項１２から１４何れか１項に記載の自動プランナ。
　前記システムの状態が、前記操作が必要な状態であるか否かを判定する状態判定手段を更に有する請求項１２から１５何れか１項に記載の自動プランナ。
　操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論し、
　操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論し、
　学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する運転支援方法。
　操作要素の順序及び各操作要素の操作量を含む操作手順に基づいて運転されるシステムの第１状態、当該システムの状態間の関係を含む推論知識、及び当該システムにおける数的知識を含む定量的知識に基づいて、当該システムの目標状態と、前記第１状態から前記目標状態に至る部分目標状態とを推論し、
　操作導出規則に基づいて、前記部分目標状態に遷移させるための操作を推論し、
　学習設定導出規則に基づいて、前記推論された前記操作の学習設定を生成し、前記操作における操作内容を作成する学習エージェントに出力する処理をコンピュータに実行させるためのプログラムを格納したコンピュータ可読媒体。