WO2022091530A1

WO2022091530A1 - 推定装置、推定方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Info

Publication number: WO2022091530A1
Application number: PCT/JP2021/030250
Authority: WO
Inventors: 修長谷川; 雄一梅津; 洸輔井加田
Original assignee: Ｓｏｉｎｎ株式会社
Priority date: 2020-11-02
Filing date: 2021-08-18
Publication date: 2022-05-05

Abstract

制御対象の目的量を狙い値に維持するめに行われる操作の操作量として、人による操作に近似した操作量を推定する。第１推定部（１）は、制御対象のオペレータの操作履歴によらずに、制御対象の出力である目的量（ｙ）を将来の時点で狙い値（ｙｔｒｇ）とするため操作量である第１の操作量推定値（ｚ１）を推定する。第２推定部（２）は、制御対象のオペレータの操作履歴に基づいて、オペレータの操作を模倣した第２の操作量推定値（ｚ２）を推定する。推定値決定部（３）は、第１の操作量推定値（ｚ１）及び第２の操作量推定値（ｚ２）に基づいて、制御対象の目的量（ｙ）を狙い値（ｙｔｒｇ）とするための第３の操作量推定値（ｚ０）を決定する。

Description

推定装置、推定方法及びプログラムが格納された非一時的なコンピュータ可読媒体

　本発明は、推定装置、推定方法及びプログラムに関する。

　様々な装置やシステムを制御するために、例えば、ＰＩＤ制御や強化学習といった様々な制御方式が用いられている。こうした様々な制御方式を用いて、装置又はシステムの制御対象量である目的量を狙い値に制御するために、例えばバルブの開閉量などの操作量を自動的に制御することが広く行われている。

　例えば、研磨装置において、研磨パッドの温度を目標温度とするために、研磨パッドへ供給する加熱液及び冷却液を供給する管に取り付けられたバルブの操作量をＰＩＤ制御する手法が提案されている（特許文献１）。この手法では、研磨パッドの表面温度を測定し、測定値と目標温度との差に基づいて、加熱液の流量調整バルブの操作量及び冷却液第２流量調整バルブの操作量をＰＩＤ制御している。これにより、研磨ユニット間の研磨性能のばらつきを抑制することが可能となる。

　また、制御対象に対する操作量を出力して、制御対象の制御量を目標値に追従させる制御装置において、強化学習を導入する手法が提案されている（特許文献２）。目標値の時系列である目標値時系列と、目標値を先読みする時間幅を示す先読み長とが入力されると、目標値の時系列に含まれる複数の目標値のうち、目標値を先読みする時間幅を示す先読み長の後の目標値を示す先読み目標値が取得される。そして、先読み目標値と制御対象の現在の制御量との差である、先読み目標偏差が算出される。次いで、制御対象の応答モデルと、現在に至るまでの過去の操作量の変化量とに基づいて、先読み目標偏差を、制御量の先読み長後における予測値と先読み目標値との差へと補正した補正目標偏差が算出される。算出した補正目標偏差に基づいて、強化学習によって、新たな操作量を学習及び算出する。これにより、制御対象の制御特性を担保しつつ、深層強化学習による柔軟な制御が実現される。

特開２０２０－１０９８３９号公報特開２０２０－９５３５２号公報

　上述のようなＰＩＤ制御や強化学習といった自動的制御方式では、一般に、制御対象量、すなわち目的量を狙い値に安定させるため、継続的かつ機敏な制御が行われる。その結果、操作量が頻繁に変動する傾向がある。しかし、装置やシステムの制御においては、全自動制御だけでなく、人（例：オペレータ）が行う操作、例えば自動車の自動運転などをアシストするために、こうした自動的制御方式が用いられることが有る。このような場合には、いかなる操作を行うかを最終的に判断するのは人であるので、人が装置やシステムの挙動を把握して制御しやすいようにするため、自動的制御によって行われる操作は、人が行う操作と近似していることが望ましい。

　しかし、上述したように、ＰＩＤ制御や強化学習などの自動的制御方式では、継続的かつ機敏な制御が行われる結果、操作量が頻繁に変動する。このような操作量の変動は、比較的長い時間的スパンで、換言すればより疎なタイミングで行われる人手による操作量の変動とは異なるものである。つまり、自動的制御方式と人手による制御とは近似しているとは認められず、人の操作を適切にアシストできない場合が有る。

　本発明は、上記の事情に鑑みて成されたものであり、制御対象の目的量を狙い値に維持するために行われる操作の操作量として、人による操作に近似した操作量を推定することを目的とする。

　本発明の一実施の形態にかかる推定装置は、制御対象のオペレータの操作履歴によらずに、前記制御対象の出力である目的量を狙い値とするための操作量の判定を行うための判定情報を推定する第１推定部と、前記制御対象のオペレータの操作履歴に基づいて、前記オペレータの操作を模倣した第２の操作量推定値を推定する第２推定部と、前記判定情報及び前記第２の操作量推定値に基づいて、前記制御対象の目的量を狙い値とするための第３の操作量推定値を決定する推定値決定部と、有するものである。これにより、判定情報及び第２の操作量推定値を用いることで、第３の操作量推定値を人による操作に近似した操作量として推定することができる。

　本発明の一実施の形態にかかる推定装置は、上記の推定装置であって、前記判定情報の推定、前記第２の操作量推定値の推定及び前記第３の操作量推定値の決定を行うサイクルが繰り返し行われることが望ましい。これにより、人による操作に近似した操作量である第３の操作量推定値を逐次に得ることができる。

　本発明の一実施の形態にかかる推定装置は、上記の推定装置であって、前記第１推定部は、前記制御対象のオペレータの操作履歴によらずに、前記制御対象の出力である目的量を狙い値とするための操作量である第１の操作量推定値を推定し、前記推定値決定部は、基準となる操作量に対して、前記第１の操作量推定値及び前記第２の操作量推定値が変化した場合に、前記第１の操作量推定値を最新の前記第３の操作量推定値として出力し、前記基準となる操作量に対して、前記第１の操作量推定値又は前記第２の操作量推定値が変化しなかった場合に、前回のサイクルで決定された前記第３の操作量推定値を前記最新の第３の操作量推定値として出力することが望ましい。これにより、第１の操作量推定値及び第２の操作量推定値に応じて、第３の操作量推定値を適切な値とすることが可能となる。

　本発明の一実施の形態にかかる推定装置は、上記の推定装置であって、前記第１推定部は、推定を行う時点での前記制御対象の目的量と、前記狙い値と、の差分を算出し、前記推定値決定部は、前記基準となる操作量に対して前記第１の操作量推定値が変化し、かつ、前記基準となる操作量に対して前記第２の操作量推定値が変化しなかった場合に、前記差分が所定の範囲に収まるかを判定し、前記差分が所定の範囲に収まらない場合には、前記第３の操作量推定値として前記第１の操作量推定値を出力し、前記差分が前記所定の範囲に収まる場合には、前回のサイクルで決定された前記第３の操作量推定値を前記最新の第３の操作量推定値として出力することが望ましい。これにより、第１の操作量推定値及び第２の操作量推定値に応じて、第３の操作量推定値をより適切な値とすることが可能となる。

　本発明の一実施の形態にかかる推定装置は、上記の推定装置であって、前記第１推定部は、推定を行う時点での前記制御対象の目的量と、前記狙い値と、から、前記第１の操作量推定値を包含する、前記第２の操作量推定値の許容範囲を前記判定情報として算出し、前記推定値決定部は、基準となる操作量に対して、前記第２の操作量推定値が変化した場合に、前記第２の操作量推定値の変化量が前記許容範囲に収まるかを判定し、前記第２の操作量推定値の変化量が前記許容範囲に収まらない場合には、前記第２の操作量推定値を最新の前記第３の操作量推定値として出力し、前記第２の操作量推定値の変化量が前記許容範囲に収まる場合には、前回のサイクルで決定された前記第３の操作量推定値を最新の前記第３の操作量推定値として出力することが望ましい。これにより、第１の操作量推定値及び第２の操作量推定値に応じて、第３の操作量推定値をより適切な値とすることが可能となる。

　本発明の一実施の形態にかかる推定装置は、上記の推定装置であって、前記許容範囲は、前記第２の操作量推定値の下限値と上限値とで規定される範囲であり、前記推定値決定部は、前記第２の操作量推定値が前記下限値よりも小さい場合、又は、前記上限値よりも大きい場合に、前記第２の操作量推定値が前記許容範囲に収まらないものと判定することが望ましい。これにより、第２の操作量推定値の変化を適切に判定することができる。

　本発明の一実施の形態にかかる推定装置は、上記の推定装置であって、前記許容範囲は、前記第２の操作量推定値の変化量の下限値及び上限値で規定される範囲として規定される範囲であり、前記推定値決定部は、前記第２の操作量推定値が前記下限値よりも小さい場合、又は、前記上限値よりも大きい場合に、前記第２の操作量推定値が前記許容範囲に収まらないものと判定することが望ましい。これにより、第１の操作量推定値及び第２の操作量推定値の変化を適切に判定することができる。

　本発明の一実施の形態にかかる推定装置は、上記の推定装置であって、前記許容範囲は、前記第２の操作量推定値の変化の方向として設定され、前記推定値決定部は、前記第２の操作量推定値の変化の方向が、前記許容範囲で規定される方向と異なる場合に、前記前記第２の操作量推定値が前記許容範囲に収まらないものと判定することが望ましい。これにより、第１の操作量推定値及び第２の操作量推定値の変化を適切に判定することができる。

　本発明の一実施の形態にかかる推定方法は、制御対象のオペレータの操作履歴によらずに、前記制御対象の出力である目的量を狙い値とするための操作量の判定を行うための判定情報を推定し、前記制御対象のオペレータの操作履歴に基づいて、前記オペレータの操作を模倣した第２の操作量推定値を推定し、前記判定情報及び前記第２の操作量推定値に基づいて、前記制御対象の目的量を狙い値とするための第３の操作量推定値を決定するものである。これにより、第１の操作量推定値だけでなく第２の操作量推定値を用いることで、第３の操作量推定値を人による操作に近似した操作量として推定することができる。

　本発明の一実施の形態にかかるプログラムは、制御対象のオペレータの操作履歴によらずに、前記制御対象の出力である目的量を狙い値とするための操作量の判定を行うための判定情報を推定する処理と、前記制御対象のオペレータの操作履歴に基づいて、前記オペレータの操作を模倣した第２の操作量推定値を推定する処理と、前記判定情報及び前記第２の操作量推定値に基づいて、前記制御対象の目的量を狙い値とするための第３の操作量推定値を決定する処理と、をコンピュータに実行させるものである。これにより、第１の操作量推定値だけでなく第２の操作量推定値を用いることで、第３の操作量推定値を人による操作に近似した操作量として推定することができる。

　本発明によれば、制御対象の目的量を狙い値に維持するために行われる操作の操作量として、人による操作に近似した操作量を推定することができる。

実施の形態１にかかる推定装置を実現するためのシステム構成の一例を示す図である。実施の形態１にかかる推定装置での機械学習の概要を示す図である。実施の形態１にかかる推定装置での予測処理の概要を示す図である。実施の形態１にかかる推定装置の構成を模式的に示す図である。実施の形態１にかかる推定装置の推定処理のフローチャートである。状態量及び目的量を取得する時刻ｔと操作量が出力される時刻ｔ’との関係を示す図である。時刻ｔでの目的量ｙ（ｔ）と時刻ｔ’での操作量推定値ｚ_１（ｔ’）との関係が一次線形関数だった場合を示す図である。状態量及び目的量を取得する時刻ｔ、操作量が出力される時刻ｔ’及び次のステップの状態量及び目的量を取得する時刻ｔ_ｎの関係を示す図である。状態量及び目的量を取得する時刻ｔと、オペレータの思考時間及び操作時間を考慮した場合の操作量が出力される時刻ｔ＋ｔｑとの関係を示す図である。第２推定部の機械学習のイメージを示す図である。第２推定部での予測処理を示す図である。推定値決定部の判定ルールを示す判定表である。２次元倒立振り子の構成を模式的に示す図である。２次元倒立振り子の操作量の変動を示す図である。実施の形態１にかかる推定装置によって２次元倒立振り子を制御する場合の操作量推定値の例を示す図である。２次元倒立振り子の実験を１０回試行した結果を示す図である。図１６に示す実験における指令値の変更回数を示す図である。実施の形態２にかかる推定装置の構成を模式的に示す図である。実施の形態２にかかる推定装置の推定処理のフローチャートである。２次元倒立振り子の実験を１０回試行した結果を示す図である。図２０に示す実験における指令値の変更回数を示す図である。実施の形態２にかかる推定装置によって２次元倒立振り子を制御する場合の操作量推定値の例を示す図である。実施の形態３にかかる推定装置の構成を模式的に示す図である。実施の形態３にかかる推定装置の推定処理のフローチャートである。時刻ｔでの目的量ｙ（ｔ）と時刻ｔ’での操作量推定値ｚ_１（ｔ’）との関係の一例を示す図である。実施の形態３にかかる許容範囲算出部による許容範囲の算出方法を示す図である。２次元倒立振り子の実験を１０回試行した結果を示す図である。図２７に示す実験における指令値の変更回数を示す図である。実施の形態３にかかる推定装置によって２次元倒立振り子を制御する場合の操作量推定値の例を示す図である。

　以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。

　実施の形態１
　図１は、実施の形態１にかかる推定装置を実現するためのシステム構成の一例を示す図である。推定装置を１００は、専用コンピュータ、パーソナルコンピュータ（ＰＣ）などのコンピュータ１０により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図１に示すように、コンピュータ１０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３及びＧＰＵ（Graphics Processing Unit）２１を有し、これらがバス１４を介して相互に接続されている。尚、コンピュータを動作させるためのＯＳソフトなどは、説明を省略するが、この推定装置を構築するコンピュータも当然有しているものとする。

　バス１４には、入出力インターフェイス１５も接続されている。入出力インターフェイス１５には、例えば、キーボード、マウス、センサなどよりなる入力部１６、ＣＲＴ、ＬＣＤなどよりなるディスプレイ、並びにヘッドフォンやスピーカなどよりなる出力部１７、ハードディスクなどより構成される記憶部１８、モデム、ターミナルアダプタなどより構成される通信部１９などが接続されている。

　ＣＰＵ１１は、ＲＯＭ１２に記憶されている各種プログラム、又は記憶部１８からＲＡＭ１３にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する推定装置１００の各部の処理を実行する。ＧＰＵ２１も、ＣＰＵ１２と同様に、ＲＯＭ１２に記憶されている各種プログラム、又は記憶部１８からＲＡＭ１３にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する推定装置１００の各部の処理を実行する。なお、ＧＰＵ２１は、定型的な処理を並列的に行う用途に適しており、後述する学習処理などに適用することで、ＣＰＵ１１に比べて処理速度を向上させることも可能である。ＲＡＭ１３には又、ＣＰＵ１１及びＧＰＵ２１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　通信部１９は、例えば図示しないインターネットを介しての通信処理を行ったり、ＣＰＵ１１から提供されたデータを送信したり、通信相手から受信したデータをＣＰＵ１１、ＲＡＭ１３、記憶部１８に出力したりする。記憶部１８はＣＰＵ１１との間でやり取りし、情報の保存・消去を行う。通信部１９は又、他の装置との間で、アナログ信号又はディジタル信号の通信処理を行う。

　入出力インターフェイス１５はまた、必要に応じてドライブ２０が接続され、例えば、磁気ディスク２０Ａ、光ディスク２０Ｂ、フレキシブルディスク２０Ｃ、又は半導体メモリ２０Ｄなどが適宜装着され、それらから読み出されたコンピュータプログラムが必要に応じて記憶部１８にインストールされる。

　続いて、本実施の形態にかかる推定装置１００における各処理について説明する。推定装置１００は、ｎ（ｎは、１以上の整数）次元ベクトルで記述されるノードを有し、ノードの情報は、例えばＲＡＭ１３などの記憶部に格納されている。

　入力データは、ｎ次元の入力ベクトルとして入力される。例えば、入力ベクトルは一時記憶部（例えばＲＡＭ１３）に格納される。

　以下で説明する制御システムにおいては機械学習が適用されるが、その前提として、機械学習の概要について説明する。以下で説明する一般的な機械学習は、あくまで以下の実施の形態で説明する制御システムの理解の前提に過ぎず、制御システムに適用される機械学習がこれに限定されるものではない。

　機械学習は、教師あり学習と教師なし学習とに大別される。以下、それぞれの手法の概要について説明する。

　一般に、教師あり学習では、与えられた変数（説明変数）からある変数（目的変数）を予測するための学習が行われる。より具体的には、教師あり学習は、入力データ（説明変数）に対して正解データ（目的変数）を与えて、入力データと正解データとの関係性を学習する手法である。

　例えば、正解データが連続値である場合には回帰分析による学習が行われる。なお、連続データの学習の手法は、回帰分析（例えば、線形回帰）に限られるものではない。回帰分析においては、入力データを各種の関数によってフィッティングすることで、入力データに対応する出力を予測することが可能となる。

　また、入力データに対する正解データがラベル情報である場合には、分類による学習が行われる。分類による学習においては、例えば、回帰（ロジスティクス回帰、サポートベクターマシン）、木（決定木、ランダムフォレスト）、ニューラルネットワーク、クラスタリング（ｋ近傍法など）等の手法が用いられる。

　教師なし学習では、正解データが与えられない状態で、入力データの特徴を学習するものである。教師なし学習の手法としては、ｋ－ｍｅａｎｓ法やＳＯＩＮＮ法に代表されるクラスタリング、ＰＣＡ法などの次元削減、ホテリングのＴ^２法などの異常検知などがある。例えば、クラスタリングでは、入力データから近似し特徴を有するものを抽出してグループ化することが可能である。

　以上、機械学習の概要について説明したが、本実施の形態では、あるシステムの出力を示す目的値やシステムの状態を示す状態量から、機械学習を応用してシステムへの入力を示す操作量もしくは操作変化量を算出する推定装置について説明する。

　まず、制御対象となるシステム（以下、対象システム）１０００について説明する。図２に示すように、対象システム１０００は、状態を示す変数である状態量Ｘを保持しており、目的量Ｙを出力する。また、状態量Ｘや目的量Ｙに対応して対象システム１０００に対して行われた操作を示す変数である操作量Ｚが対象システム１０００に入力される。

　目的量は、対象システム１０００の稼働目的を定量化したものとして示され、例えば、対象システム１０００に設けられたセンサによって取得された値である。対象システム１０００は、この目的量を所定の狙い値ないしは狙い範囲に到達させ、維持するために稼働する。状態量は、目的量と直接ないしは間接的に関連するものとして示され、例えば、対象システム１０００に設けられたセンサによって取得された値である。

　操作量は、例えば、センサによって状態量や目的量が取得されたタイミングで、オペレータが対象システム１０００に対して行った操作を示す量である。なお、状態量や目的量については、対象システム１０００をモニタすることで時系列データとして取得され、操作量については状態量の時系列データに対応するものして取得可能である。ただし、対象システム１０００に対する操作は人為的に行われるものであるので、常に行われるものではなく、間欠的に行われるものである。したがって、人の操作による場合には、操作量は間欠的にしか変動しないという特徴を有する。

　例えば、対象システムが車両などの速度調整装置である場合には、速度が目的量に該当し、吸気量、燃料噴射量、エンジン回転数などが状態量に該当する。また、アクセル踏込量などが操作量に該当する。

　また、例えば、対象システムが研磨機温度調節装置である場合には、研磨パッドの温度が目的量に該当し、研磨装置の回転数や研磨パッドの荷重などが状態量に該当する。研磨パッドへ供給する加熱液及び冷却液を供給する管に取り付けられたバルブの開閉度などが操作量に該当する。

　次に、図３に、実施の形態１にかかる推定装置１００の概要を示す。推定装置１００は、出力された対象システム１０００の目的量ｙ、目的量の狙い値ｙ_ｔｒｇ、場合によって追加で状態量ｘから、操作量ｚもしくは操作変化量Δｚを予測可能に構成される。なお、状態量及び操作量は１以上の変数からなり、すなわちスカラー量であってもよいし、ベクトル量であってもよい。この推定は、対象システム１０００の稼働時に得られた目的量Ｙ、目的量狙い値Ｙ_ｔｒｇ、状態量Ｘ、操作量Ｚのデータに基づいて実行される。上記で説明した機械学習はこの推定するシステム作成時に使用される。ここで目的量狙い値Ｙ_ｔｒｇは固定値、すなわち時間に依存しない値となる場合が多いが、時間に依存していても良い。ここでは、上記の通り、区別のため、学習で用いるデータについては大文字のアルファベットで表記し、予測で用いるデータについては小文字で表記する。

　次いで、実施の形態１にかかる推定装置１００の構成について説明する。図４に、実施の形態１にかかる推定装置１００の構成を模式的に示す。図５に、実施の形態１にかかる推定装置１００の推定処理のフローチャートを示す。推定装置１００は、第１推定部１、第２推定部２及び推定値決定部３を有する。

　第１推定部１は、対象システムの目的量などを参照し、対象システムの目的量の狙い値を実現するために必要な操作量を推定するものとして構成される。第１推定部は、例えば、強化学習やＰＩＤ（Proportional-Integral-Differential）制御によって、操作量を推定する推定器として構成される。なお、以下では、目的量を参照して操作量を推定する例について説明するが、必要に応じて、現時点までの状態量や操作量など他のデータを参照して操作量を推定してもよい。このように、第１推定部１は、予め準備されたアルゴリズムに現時点での目的量及び目的量狙い値といった入力データを入力することで、現時点（推定する時点）で操作を行う場合に必要とされる操作量を推定することができる。

　第１推定部１が操作量の推定に用いるデータは、図示しない記憶部（例えば、図１に示す記憶部１８など）に格納されてもよい。第１推定部１は、必要に応じて、推定に用いるデータを記憶部から読み出し、かつ、推定結果などのデータを記憶部に書き込むことができる。

　第２推定部２は、対象システムの目的量を説明変数、オペレータによる操作履歴を目的変数として機械学習し、学習結果に基づいて、オペレータの操作を模倣した操作量を推定するものとして構成される。なお、第２推定部２は、必要に応じて、説明変数を目的量ではなく、推定を行う時点での状態量としてもよいし、目的量及び状態量の両方を説明変数としてもよい。

　第２推定部２が機械学習に用いる入力データは、図示しない記憶部（例えば、図１に示す記憶部１８など）に格納されてもよい。第２推定部２は、必要に応じて、推定に用いるデータを記憶部から読み出し、かつ、推定結果などのデータを記憶部に書き込むことができる。

　推定値決定部３は、第１推定部１が推定した第１の操作量推定値ｚ_１（ｔ）と、第２推定部２が推定した第２の操作量推定値ｚ_２（ｔ）と、に基づいて第３の操作量推定値ｚ_０（ｔ）を出力する。推定値決定部３が判定に用いるデータは、図示しない記憶部（例えば、図１に示す記憶部１８など）に格納されてもよい。推定値決定部３は、必要に応じて、判定に用いるデータを記憶部から読み出し、かつ、判定結果などを記憶部に書き込むことができる。

　次いで、推定装置１００の学習及び推定について、具体的に説明する。なお、以下では、区別のため、学習で用いる入力データでの時刻及びデータは大文字で示し、予測で用いる時刻及びデータは小文字で示す。

　第１推定部１は、オペレータによる操作履歴を正解とすることなく、目的量の狙い値を実現するための第１の操作量推定値ｚ_１を推定する（図５のステップＳ１１）。このとき、第１推定部１は、現在時刻までの情報に基づいて、例えば現在時刻に適切な操作量を推定する。しかし、実際には図６のように、状態量及び目的量を取得する時刻と操作量を出力する時刻とは同じ時刻にはならず、所定のタイムラグが発生する。

　また、第１推定部１は、現在時刻までの情報に基づいて、あらかじめ将来時刻に適切な操作量を推定してもよい。この場合も図６のように、状態量及び目的量を取得する時刻と操作量を出力する時刻との間には所定のタイムラグが発生する。

　本発明では、状態量及び目的量を取得する時刻をｔと記載し、操作量を出力する時刻をｔ’と記載する。つまり、時刻ｔ’は、時刻ｔから所定のタイムラグ分だけ進んだ時刻である。　

　第１推定部１は、時刻ｔの目的量から目的量の狙い値を実現するための操作量を推定する。以下の式［１］に示す関数ｆのように、時刻ｔでの目的量ｙ（ｔ）及び目的量狙い値ｙ_ｔｒｇから、時刻ｔよりも将来の時刻ｔ’における操作量ｚ_１（ｔ’）を推定することが可能である。ここで、目的量狙い値ｙ_ｔｒｇは固定値としたが、時間依存性を有するものとして、ｙ_ｔｒｇ（ｔ）の形式としてもよい。

　関数ｆは、例えば、「時刻ｔでの目的量ｙ（ｔ）と目的量狙い値ｙ_ｔｒｇとの差分が所定以上の場合に、時刻ｔ’での操作量ｚ_１（ｔ’）を所定の値にする」などの判定条件の形式でもよいし、連続な関数でもよい。換言すれば、ｆは、一般的な知見に基づいて設定することができる。図７に、時刻ｔでの目的量ｙ（ｔ）と時刻ｔ’に操作すべき操作量ｚ_１（ｔ’）との関係が一次線形関数である場合を示す。この関数においては、目的量ｙ（ｔ）を特定することで時刻ｔ’での操作量ｚ_１（ｔ’）を取得できる。目的量がｙ_ｔｒｇの場合の操作量ｚ_ｔｒｇは、目的量が狙い値になった場合に出力する操作量を意味する。

　なお、上述したように、時刻ｔでの目的量ｙ（ｔ）だけでなく、時刻（ｔ）までの状態量や操作量も併せて入力して、時刻（ｔ’）での操作量ｚ_１（ｔ’）を推定してもよい。状態量を含めることで、目的量の変化に先立って目的量の変化に対応する操作が可能になり、目的量とは直接結びつかない重要な事象に対応する操作が可能になる場合もある。また、操作量を含めることで、既に状況に見合った操作がされている場合に、重複した操作を防ぐことが可能となる。

　より複雑な系などで繊細な制御が求められる場合は、例えばＰＩＤ制御を利用してもよい。式［２］に、ＰＩＤ制御を使用する場合の第１の推定部１での推定を示す。

ここで、ｋ_ｐ，ｋ_Ｉ，ｋ_Ｄは、ＰＩＤ制御のパラメータである。ＰＩＤ制御のパラメータを設定することで、時刻ｔの目的量ｙ（ｔ）から目的量の狙い値ｙ_ｔｒｇを実現するための、時刻（ｔ’）の操作量ｚ_１（ｔ’）を推定する。ＰＩＤ制御のパラメータ設定は、試行錯誤的に適切な値を見つけて設定してもよいし、制御対象の数学モデルを用いて系統的にパラメータの設計を行ってもよい。

　また、操作が目的量に対して影響を与えるまでにタイムラグがある場合、将来の時刻ｔ＋ｔ_ｆの目的量を推定し、推定した時刻ｔ＋ｔ_ｆでの目的量から目的量の狙い値を実現する操作を推定する方が好ましい場合がある。ｔ_ｆは各タスクに応じて解析を行い、適切な値を設定できる。

　式［３］に時刻ｔ＋ｔ_ｆの推定目的量を使用する場合の第１推定部１を示す。関数ｆとして、式［１］や式［２］で説明したような関数を使用することができる。

　この場合には、将来の時刻ｔ＋ｔ_ｆの目的量ｙ（ｔ＋ｔ_ｆ）は、推定して求める必要がある。これは機械学習処理によって推定器を作成することで可能である。以下、推定器作成の学習処理の一例を示す。学習処理で用いられる入力データＩＮ_ｉは、式［４］で記述するように、説明変数Ｅ_ｉと、目的変数Ｐ_ｉとからなる。目的変数Ｅ_ｉは式［５］に記述するように、ある時刻Ｔ_ｉ～時刻Ｔ_ｉ－Ｔ_ｐ（Ｔ_ｐ≧０）までの所定の時間幅における状態量Ｘ、操作量Ｚ及び目的量Ｙからなり、目的変数Ｐ_ｉは、式［６］に記述するように、将来の時刻Ｔ_ｉ＋Ｔ_ｆ（Ｔｆ＞０）の目的量からなる。

ここで、入力データは複数あり、式［４］～［６］ではそのサンプルとして添字ｉを付している。例えば、入力データがＮ個（Ｎは１以上の整数）ある場合には、ｉは１以上Ｎ以下の整数となる。

　学習モデルとしては、式［７］のような関数の形になる。Ｍは学習モデルであり、様々なモデルが適応可能である。線形回帰やロジスティック回帰やランダムフォレスト、サポートベクトルマシンやニューラルネットワーク、自己組織化ニューラルネットワーク（ＳＯＩＮＮ：Ｓｅｌｆ－Ｏｒｇａｎｉｚｉｎｇ　Ｉｎｃｒｅｍｅｎｔａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）等、目的量の特性などに応じて使い分ければよい。Ｐ＾はモデルから導き出される目的変数の推定値である。

　入力データＩＮのＥを式［７］に入力した時得られる推定値Ｐ＾と目的変数であるＰとを比較し、誤差やコストが最小になるように学習モデルＭのパラメータを最適化していく。ＳＯＩＮＮの場合は、入力データＩＮを入力していくことでニューロン（ノード）を増殖させていき、様々な説明変数Ｅ_ｉに対応する目的変数Ｐ_ｉを出力できるようになっていく。

　以上の学習処理により、モデルが最適化され、式［８］のように将来の時刻ｔ＋ｔ_ｆの目的量ｙ（ｔ＋ｔ_ｆ）を推定することができる。

なお、式［８］から分かるように、時刻ｔ＋ｔ_ｆでの推定目的量ｙ（ｔ＋ｔ_ｆ）と時刻ｔでの操作量ｚ（ｔ）との関係が定められているので、この関係から、時刻ｔ＋ｔ_ｆでの推定目的値ｙ（ｔ＋ｔ_ｆ）を狙い値とするような、時刻ｔ’での操作量ｚ_１（ｔ’）を取得することも可能である。具体的には、式［８］の時刻ｔ＋ｔ_ｆでの推定目的量ｙ（ｔ＋ｔ_ｆ）に目的量狙い値ｙ_ｔｒｇを代入し、時刻ｔでの操作量ｚ（ｔ）以外の説明変数を入力して、時刻ｔでの操作量ｚ（ｔ）を時刻ｔ’での操作量ｚ_１（ｔ’）に置きかえて解くことで、時刻（ｔ’）での操作量ｚ_１（ｔ’）を求めることができる。このようにして求まる時刻（ｔ’）での操作量ｚ_１（ｔ’）は、式［９］で表される。

なお、式［９］の値を、式［３］の代わりに用いてもよい。

　さらに、第１推定部１は、目的量が最適な範囲にある場合に報酬を与え、そうでない場合は報酬を与えない、いわゆる強化学習により操作を学習させることで操作量を推定してもよい。強化学習の方法としては、例えばＱ学習などがある。Ｑ学習では、各状態の各行動に価値Ｑが設定され、価値が高い行動を取るように行動が決定される。価値Ｑは何度も動作を実行することで更新され、適切な価値行動価値関数Ｑへと更新されていく。Ｑ学習における行動価値関数の更新式は、以下の式［１０］で表される。

Ｑ（Ｘ，Ｚ）は、状態量Ｘと操作量Ｚとにおける行動価値関数、Ｒは貰える報酬、ηは学習率、γは時間割引率である。報酬Ｒは、目的量が狙い値に維持されていれば与えられる。また、状態量Ｘには目的量Ｙを含めてもよい。ｔ_ｎは、図８のように、時刻ｔの次の目的量及び状態量の取得タイミングである。より具体的に説明すると、ある時刻ｔに取得した目的量及び状態量に基づいた操作量が時刻ｔ’で出力され、出力された操作量に基づく操作の影響が状態に反映されたタイミングで、次の目的量及び状態量を取得することになる。

　以上の学習により、行動価値関数Ｑが決定され、式［１１］のように操作の推定が可能となる。

なお、本実施の形態では第１推定部１の推定量が操作量であるものとして説明したが、必要に応じて、操作量の変化量を推定してもよい。操作の変化量としては、ある時刻に出力した操作量とその前に出力した操作量の差分として定義できる。操作量の変化が目的量に対して直接的に影響を与える場合などではこちらが有効になる場合がある。

　次いで、第２推定部２での学習処理と予測処理とについて説明する。
学習処理
　第２推定部２での学習処理で用いられる入力データは、式［４］で記述したように、説明変数Ｅ_ｉと目的変数Ｐ_ｉとからなる。目的変数Ｅ_ｉは式［１２］に記述するように、ある時刻Ｔ_ｉ～時刻Ｔ_ｉ－Ｔ_ｐ２（Ｔ_ｐ２≧０）までの所定の時間幅における目的量Ｙからなり、目的変数Ｐ_ｉは式［１３］に記述するように時刻Ｔ_ｉ＋Ｔ_ｑ（Ｔ_ｑ≧０）での操作量Ｚからなる。

　状態量Ｙに対する反応としてオペレータがなす操作は、図９に示すように、思考時間や操作時間などでタイムラグが発生する。そのタイムラグを考慮してＴ_ｑを決定する。本実施の形態では、時刻Ｔ_ｉの次のステップ（つまり次の状態量取得時間）Ｔ_ｉ＋１における操作量を、式［１４］に示すように、Ｚ（Ｔ_ｉ＋１）とした。

なお、必要に応じて、説明変数を状態量Ｘや過去の操作量Ｚに変更してもよいし、状態量Ｘや過去の操作量Ｚを説明変数に追加してもよい。例えば、状態量Ｘを説明変数にした場合は、式［１５］に示すようになる。

また、必要に応じて、説明変数として目的量狙い値ｙ_ｔｒｇを追加してもよい。

　学習モデルとしては、上述と同様に、式［７］のような関数の形になる。Ｍは学習モデルであり様々なモデルが適応可能である。線形回帰やロジスティック回帰やランダムフォレスト、サポートベクトルマシンやニューラルネットワーク、自己組織化ニューラルネットワーク（ＳＯＩＮＮ：Ｓｅｌｆ－Ｏｒｇａｎｉｚｉｎｇ　Ｉｎｃｒｅｍｅｎｔａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）等、目的量の特性などに応じて使い分ければよい。Ｐ＾はモデルから導き出さる目的変数の推定値である。

　入力データＩＮを式［７］に入力した時得られる推定値Ｐ＾と正解の値であるＰとを比較し、誤差やコストが最小になるように学習モデルＭのパラメータを最適化していく。ＳＯＩＮＮの場合は、入力データＩＮを入力していくことでニューロン（ノード）を増殖させていき、様々な説明変数Ｅ_ｉに対応する目的変数Ｐ_ｉを出力できるようになっていく。

　図１０に、第２推定部２の機械学習結果のイメージを示す。図１０の例では、対象システムの状態量Ｘが時間とともに単調に増加しているため、状態量Ｘの増加を抑制するためにオペレータが操作を行った場合を想定している。この場合、オペレータは、状態量Ｘが時刻Ｔ_ａで値Ｘ_ａとなったときに操作を行うことで、操作量Ｚが値Ｚ_ａから値Ｚ_ｂに変化している。その後、操作によって状態量Ｘが減少に転じて、時刻Ｔ_ｂで値Ｘ_ａとなったときにオペレータが操作を行い、操作量を値Ｚ_ｂから値Ｚ_ａに変化させている。この場合、学習を行うことで、図１０に示すように、状態量Ｘと操作量Ｚとの関係を学習することができる。

　以上で説明した入力データを機械学習することで、オペレータの操作を模倣し、現在時刻における操作量推定値を推定可能な学習済みモデルを得ることができる。

予測処理
　図１１に、第２推定部２での予測処理を示す。第２推定部２は、推定を行う時刻（現在時刻とも称する）ｔ～時刻ｔ－ｔ_ｐ２（ｔ_ｐ２≧０）までの所定の時間幅における目的量ｙを、機械学習によって得られた学習済みモデルに入力することで、現在時刻ｔの次ステップにおける操作量を推定する（図５のステップＳ１２）。学習処理部で説明したように、人の操作のタイムラグを考慮するため、現在時刻ｔの次ステップでの操作量を推定することになっているが、実際には現在時刻の状態に反応した操作であると考えられるため、現在時刻で操作すべきものであると考えても問題ない。よって、この推定値を、第２推定部２による時刻ｔ’での第２の操作量推定値ｚ_２（ｔ’）とする。第２の操作量推定値ｚ_２（ｔ’）は、以下の式［１６］のように、関数ｈで表される。

なお、本実施の形態では第２推定部２の推定量を操作量として説明したが、操作量の変化量を推定してもよい。

　また、第２推定部２は、操作の方向性のみを推定するものとしても良い。具体的には、操作量を上げるか、下げるかなどの操作の方向を推定する推定器としてもよい。後述するように、第２推定部２に求められるのは、人が行うような操作の様に操作量の出力までにタイムラグを考慮して操作量を推定できる推定器であればよい。方向性を出力する推定器を作成するには、式［１３］に記載されている目的変数Ｐ_ｉにおいて、例えば上げる操作を０、下げる操作を１として入力し、分類問題として機械学習を実施すればよい。

　第１推定部１及び第２推定部２は、上述で説明した操作量の推定処理を、所定のタイミング、例えば分単位で逐次実行する。そして、逐次得られる第１の操作量推定値ｚ_１（ｔ’）及び第２の操作量推定値ｚ_２（ｔ’）は、例えば、図示しない記憶部（例えば、図１に示す記憶部１８など）に格納される。本実施の形態における第１の操作量推定値は、操作量の妥当性を検証するための判定情報として用いられる。本実施の形態においては第１の操作量推定値自体が、所定の判定範囲の比較対象として用いられる。

　次いで、推定値決定部３について説明する。推定値決定部３は、第１の操作量推定値ｚ_１（ｔ’）が有意に変化しているか（図５のステップＳ１３）、第２の操作量推定値ｚ_２（ｔ’）が有意に変化しているか（図５のステップＳ１４）を判定する。操作量が変化しているか否かの判定は、操作量及び操作量に基づく情報を判定範囲と比較し、判定範囲に収まるか否かを判定することで行われる。

　例えば、推定値決定部３は、時刻ｔ’での第１の操作量推定値ｚ_１（ｔ’）及び第２の操作量推定値ｚ_２（ｔ’）を、現在時刻での操作値（すなわち、判定範囲）と比較することで、これらの推定値が有意に変化しているかを判定することができる。また、例えば、推定値決定部３は、第１の操作量推定値、第２の操作量推定値が操作変化量を推定したものの場合、その絶対値と所定値（すなわち、判定範囲）との比較で有意に変化しているかを判定することができる。さらに、例えば、推定値決定部３は、第２推定部２が操作の方向性のみを出力する推定器の場合は、ある方向を所定時間連続して推定し続けているかどうかやその方向性（すなわち、判定範囲）の確率が所定値以上などの判定で有意に変化していると判定することができる。

　以下、判定結果とこれに伴う推定値決定部３の動作について、図１２の推定値決定部３の判定ルールを示す判定表を参照して説明する。

ケース１
　ケース１は、第１の操作量推定値ｚ_１及び第２の操作量推定値ｚ_２が有意に変化する場合である。つまり、この場合には、オペレータの操作履歴に基づかずに推定を行う第１推定部１と、オペレータの操作履歴に基づいて推定を行う第２推定部２とが、両方とも、操作量を変化させるべきと判断している。よって、操作量を変化させることが適正と考えられる。変化させる操作量に関しては、第１の操作量推定値ｚ_１は目的量狙い値を実現するための操作量であり、第２の操作量推定値ｚ_２はオペレータの操作履歴に基づいた操作量であるため、第１の操作量推定値ｚ_１の方が、目的量狙い値を実現する観点から適切な値であると考えられる。よって、推定値決定部３は、第３の操作量推定値ｚ_０として、第１の操作量推定値ｚ_１を出力する（図５のステップＳ１５）。

　操作量推定値が有意に変化するか否かの判定については、例えば、操作量推定値の変化量の絶対値が所定の閾値よりも大きい場合に、有意に変化するものとして判定してもよい。具体的には、第１の操作量推定値ｚ_１の変化量の絶対値が閾値ＴＨ１（ただし、閾値ＴＨ１は正の値）よりも大きな場合に、操作量推定値ｚ_１が有意に変化するものとして判定される。また、第２の操作量推定値ｚ_２の変化量の絶対値が閾値ＴＨ２（ただし、閾値ＴＨ２は正の値）よりも大きな場合に、操作量推定値ｚ_２が有意に変化するものとして判定される。

　また、例えば、操作量推定値の変化量の判定範囲を設け、操作量推定値の変化量が判定範囲から外れた場合に、有意に変化するものとして判定してもよい。具体的には、第１の操作量推定値ｚ_１の変化量が判定範囲ＶＬ１～ＶＨ１に収まらない場合、換言すれば、値ＶＬ１よりも小さいか、値ＶＨ１よりも大きな場合に、有意に変化するものとして判定される。なお、値ＶＬ１及び値ＶＨ１は正の値でも負の値でもよいが、値ＶＨ１は値ＶＬ１よりも大きな値であり、かつ、値ＶＬ１が負の値である場合には、値ＶＨ１は正の値であることが望ましい。同様に、第２の操作量推定値ｚ_２の変化量が判定範囲ＶＬ２～ＶＨ２に収まらない場合、換言すれば、値ＶＬ２よりも小さいか、値ＶＨ２よりも大きな場合に、有意に変化するものとして判定される。この場合においても、値ＶＬ２及び値ＶＨ２は正の値でも負の値でもよいが、値ＶＨ２は値ＶＬ２よりも大きな値であり、かつ、値ＶＬ２が負の値である場合には、値ＶＨ２は正の値であることが望ましい。

　なお、説明した操作量推定値が有意に変化するか否かの判定方法については、例示に過ぎず、適宜他の方法を用いてもよい。

　推定値決定部３は、ケース１以外のケース２～４の場合には、第３の操作量推定値ｚ_０を変化させる必要はないものとして、前回の推定処理で決定した目的量推定をそのまま維持する（図５のステップＳ１６）。以下、その理由について説明する。

ケース２
　ケース２は、第１の操作量推定値ｚ_１が有意な変化をせず、かつ、第２の操作量推定値ｚ_２が有意に変化した場合である。つまり、オペレータの操作履歴に基づかずに推定を行う第１推定部１は、操作量を変化させずとも目的量を狙い値とすることができると判断しているのに対し、オペレータの操作履歴に基づいて推定を行う第２推定部２は、操作量を変化させることを選択している。この場合、オペレータの操作履歴に基づく操作は、目的量狙い値の実現には寄与しないおそれが有り、操作量を変化させる必要はないものと考え得る。よって、推定値決定部３は、第３の操作量推定値ｚ_０を変化させる必要はないものとして、前回の推定処理で決定した目的量推定をそのまま維持する。

ケース３
　ケース３は、第１の操作量推定値ｚ_１が有意に変化し、かつ、第２の操作量推定値ｚ_２が有意な変化をしなかった場合である。つまり、オペレータの操作履歴に基づかずに推定を行う第１推定部１は、目的量を狙い値とするためには操作量を変化させるべきと判断しているのに対し、オペレータの操作履歴に基づいて推定を行う第２推定部２は、操作量を変化させる必要は無いと判断している。この場合、第１推定部１の推定はオペレータの経験及び感覚からは乖離しているおそれがあり、オペレータの経験及び感覚に基づけば、操作を行わずとも目的量狙い値を実現することができる可能性が有ると考え得る。推定装置１００は、人による操作に近似した操作量を推定することを目的としているため、人の経験及び感覚から乖離しているおそれの有る操作や、行わずともよい操作は、抑制すべきであると考え得る。よって、推定値決定部３は、第３の操作量推定値ｚ_０を変化させる必要はないものとして、前回の推定処理で決定した目的量推定をそのまま維持する。

ケース４
　ケース４は、第１の操作量推定値ｚ_１及び第２の操作量推定値ｚ_２の両方が有意な変化をしなかった場合である。つまり、第１推定部１及び第２推定部２の両方が、操作量を変化させる必要は無いと判断している。よって、推定値決定部３は、第３の操作量推定値ｚ_０を変化させる必要はないものとして、前回の推定処理で決定した目的量推定をそのまま維持する。

　以上説明したように、本構成によれば、オペレータの操作履歴によらない推定と、人の操作履歴に基づく推定と、が一致ないしは近似している場合にだけ操作量を変化させる旨の推定を行い、それ以外の場合には操作量を維持することができる。これにより、対象システムを制御するにあたり、オペレータの経験や感覚に近い制御状態を実現することが可能となる。

　次いで、２次元倒立振り子の実施例に基づいて、推定装置１００の利点について説明する。図１３に、２次元倒立振り子の構成を模式的に示す。２次元倒立振り子では、操作台３１の上に棒３２が直立している。操作台３１は左右に移動可能である。棒３２は操作台３１との接触部を中心として左右方向に、換言すれば接触部を通る図１３の紙面の法線方向の軸のまわりに回転可能に保持されている。

　操作量は、操作台３１の右への移動及び操作台３１の左への移動の２種類とし、右への移動の操作が出力されている限り操作台には右側へ所定の力（つまり加速度）が作用して右側への移動が助長される。左への移動の操作も同様である。目的量は、操作台３１の上面に対する棒３２の角度とする。状態量は、操作台３１の位置、操作台３１の速度、及び、棒の角速度とする。目的量狙い値は、棒３２を直立状態、例えば回転角が０°であることとする。

　図１４に、２次元倒立振り子の操作量の変動を示す。上段のＰＩＤ制御などの一般的な制御方法では、棒３２の位置を安定させるために、継続的に機敏な制御が行われ、操作量（つまり、第１の操作量推定値ｚ_１）が頻繁に変動する。これに対し、人手で制御を行う場合には、一般的な制御方法と比べて長い時間的スパンで、換言すればより疎なタイミングで操作量（つまり、第２の操作量推定値ｚ_２）が変化する。つまり、両者の制御方式は全く異なることが容易に理解できる。

　これに対し、本構成によれば、両方の操作量の推定が一致ないしは近似するときに、操作量が変化する。図１５に、実施の形態１にかかる推定装置１００によって２次元倒立振り子を制御する場合の操作量推定値の例を示す。人手で制御した場合と同様に、一般的な制御方法と比べて長い時間的スパンで操作を実施していることがわかる。

　図１６に、２次元倒立振り子の実験を１０回試行した結果を示す。図１７に、図１６に示す実験における指令値の変更回数を示す。１回の試行は１０秒とし、１０秒間棒を倒さなければ○、倒れれば×と表示している。実施の形態１の構成に対する比較例として、ＰＩＤ制御を比較例１（つまり、第１推定部のみを用いた制御）、人の操作を模倣した模倣学習による制御を比較例２（つまり、第２推定部器のみを用いた制御）として表示している。

　図１６及び図１７に示される結果から分かるように、比較例１は全ての試行において棒が倒れずに制御に成功しているが、操作の変更回数は比較的に多い。これは、図１４に示すように、継続的に機敏な制御が行われることで少しの変化にも対応しているためと想定できる。これは、制御としては申し分ないが、人による操作に近似した操作にはなっていない。

　一方、比較例２は、操作の変更回数は少なくなっている。これは、人の操作を模倣しているため、図１４に近似した制御が行われていることを示している。しかし、棒を倒してしまう事態が生じており、適切な操作を行えていない場合がある。

　これらに対して、実施の形態１にかかる推定装置１００によれば、全ての試行において棒が倒れずに制御に成功しており、かつ、指令値の変更回数（操作の回数）も比較例２と同じ程度であり、図１５に示した通り、人の操作に好適に近似した出力ができていることが理解できる。これは、第１の操作量推定値ｚ_１の出力結果と第２の操作量推定値ｚ_２の出力結果とが一致又は近似する場合にのみ操作を変更することで、操作数を抑制しながらも、好適な操作量を出力できているためと考えられる。

　以上、本構成によれば、オペレータの操作履歴によらない推定とオペレータの操作履歴に基づいた推定とを折衷して、操作量推定値を推定することができる。これにより、人の経験や感覚に反する操作量の変化を抑制し、より人が関与しやすい方式でシステムを制御することが可能となる。

　よって、システムの制御に問題が生じた場合でも、オペレータが割り込んでシステムの制御状態をより容易に是正することができる。

　実施の形態２
　実施の形態２にかかる推定装置について説明する。実施の形態２にかかる推定装置２００は、実施の形態１にかかる推定装置１００の変形例として構成される。実施の形態１では、２つの操作量推定値が有意に変化するか否かに基づき、出力すべき操作量推定値を決定した。しかし、有意な変化にのみ基づく推定では、目的量狙い値の実現には十分でない場合が想定される。例えば、オペレータが操作に熟練していない場合、目的量狙い値の実現のための適切な操作変更がなされずに放置してしまうなどの事態が発生し得る。このようなオペレータの操作履歴を第２推定部が学習してしまうと、実施の形態１にかかる推定装置１００では適切な操作量を出力できない場合がある。そこで、本実施の形態では、ケース３の場合において、より詳細な推定を行う推定装置について説明する。

　図１８に、実施の形態２にかかる推定装置２００の構成を模式的に示す。図１９に、実施の形態２にかかる推定装置２００の推定処理のフローチャートを示す。推定装置２００は、実施の形態１にかかる推定装置１００の第１推定部１及び推定値決定部３を、それぞれ第１推定部４及び推定値決定部５に置換した構成を有する。なお、図１９のステップＳ２１及びＳ２３～Ｓ２５は、図５のステップＳ１１～Ｓ１４とそれぞれ同様である。以下、構成及び動作について、実施の形態１にかかる推定装置１００と相違する点に着目して説明する。

　第１推定部４は、第１推定部１と同様に、対象システムの目的量などを参照し、対象システムの目的量の狙い値を実現するために必要な操作量を推定する操作推定器４Ａに加えて、差分算出部４Ｂを有する。

　差分算出部４Ｂは、時刻ｔでの目的量ｙ（ｔ）と目的量狙い値ｙ_ｔｒｇの差分Δｙを求める。（図１９のステップＳ２２）。本実施の構成では、目的量狙い値ｙ_ｔｒｇは固定値として差分を求めたが、時間依存していてもよい。その場合には、比較する目的量の時刻に合わせて差分を算出するなどすればよい。また、差分算出部４Ｂは、第１推定部４の一部としたが、第１推定部４とは別の部分として存在していてもよい。

　実施の形態１では、ケース３は、第１の操作量推定値ｚ_１が有意に変化し、かつ、第２の操作量推定値ｚ_２が有意な変化をしなかった場合であり、推定値決定部３は、第３の操作量推定値ｚ_０を前回の決定した値のまま維持するものとして説明した。しかし、差分算出部４Ｂが算出する差分Δｙがある程度大きな値を有するときには、操作量を変化させなければ目的量狙い値ｙ_ｔｒｇを実現できないおそれが有ると考え得る。これは、つまり、オペレータの操作履歴に基づく第２推定部２の推定が不適切な結果となっているおそれが有る。

　そこで、推定値決定部５は、ケース３の場合において、目的量の差分Δｙの絶対値が所定の閾値ｙ_ｔｈよりも大きいかを判定する（図１９のステップＳ２７）。目的量の差分Δｙの絶対値が所定の閾値ｙ_ｔｈよりも大きい場合には、推定値決定部５は、第２推定部２での推定結果に関係なく、第１の操作量推定値ｚ_１が適正な推定値であると判断して、ケース１の場合と同様に、第１の操作量推定値ｚ_１を第３の操作量推定値ｚ_０として出力する（図１９のステップＳ２６）。

　目的量の差分Δｙの絶対値が所定の閾値ｙ_ｔｈ以下の場合には、推定値決定部５は、実施の形態１におけるケース２と同様に、第３の操作量推定値ｚ_０を前回決定した値のままで維持する（図１９のステップＳ２８）。

　次いで、２次元倒立振り子の実施例に基づいて、推定装置２００の利点について説明する。図２０に、２次元倒立振り子の実験を１０回試行した結果を示す。図２１に、図２０に示す実験における指令値の変更回数を示す。実施の形態１と同様に、１回の試行は１０秒とし、１０秒間棒が倒れなければ○、１０秒以内に棒が倒れれば×を表示している。実施の形態２にかかる構成に対する比較例として、熟練していない人の操作を模倣した模倣学習による制御を比較例３（つまり、つまり第２推定部２のみの制御）として表示している。また、実施の形態１にかかる推定装置１００によって制御した場合を、比較例４として表示している。比較例４及び実施の形態２における第２推定部２は、比較例３と同様に、熟練していない人の操作を模倣した模倣学習による推定器となっている。

　図２１に示すように、比較例３は操作の変更回数としてはかなり少なく、比較例２（実施の形態１）と比べても少ない。これは、熟練していないオペレータの操作履歴を学習したため、目的量狙い値の実現のための適切な操作変更をせずに放置してしまうなどの事態が発生したためと想定し得る。実際に、想到の頻度で棒を倒してしまう事態が生じ、適切な操作とは考えられない。比較例４は、比較例３よりも良好な結果であるが、同様の理由で、棒を倒してしまう事態が生じた。

　これに対して、実施の形態２では、全ての試行において、棒が倒れることなく、倒立振り子の制御に成功していることが分かる。図２１に示した実施の形態２にかかる推定装置２００での操作回数も、比較例３や比較例４などと比べると回数は多いものの、実施の形態１の表２や比較例２とは同等であり、人の操作に近いと想定し得る。

　図２２に、実施の形態２にかかる推定装置２００によって２次元倒立振り子を制御する場合の操作量推定値の例を示す。図２２から分かるように、図１４に示した人手による制御方法と近似しており、人による操作に近似した操作が実現されていることが理解できる。

　これは、第１の操作量推定値ｚ_１の出力結果と第２の操作量推定値ｚ_２の出力結果とが一致又は近似する場合のみ操作を行うだけでなく、目的量狙い値を実現するには明らかに不適切な操作量を是正することで、操作数をなるべく抑制しながらも最適な操作を出力することに繋がっているためと考えられる。

　以上、本構成によれば、オペレータの操作履歴に基づく第２推定部２の推定が不適切であり、操作量を変化させた方がよいと考え得る場合を検出し、より精度よく、かつ、より確実に、目的量狙い値を実現することが可能となる。

　実施の形態３
　実施の形態３にかかる推定装置について説明する。実施の形態３にかかる推定装置３００は、実施の形態１にかかる推定装置１００の変形例であり、第２推定部２が出力する第２の操作量推定値ｚ_２の妥当性を検証する機能を有するものとして構成される。

　図２３に、実施の形態３にかかる推定装置３００の構成を模式的に示す。図２４に、実施の形態３にかかる推定装置３００の推定処理のフローチャートを示す。推定装置３００は、実施の形態１にかかる推定装置１００の第１推定部１及び推定値決定部３を、それぞれ第１推定部６及び推定値決定部７に置換した構成を有する。なお、図１６のステップＳ３２、Ｓ３４及びＳ３６は、図５のステップＳ１２、Ｓ１４及びＳ１６とそれぞれ同様である。以下、構成及び動作について、実施の形態１にかかる推定装置１００と相違する点に着目して説明する。

　実施の形態１では、操作が変化するのは、第１の操作量推定値ｚ_１及び第２の操作量推定値ｚ_２が有意に変化したケース１のみであり、推定値決定部３は、第１の操作量推定値ｚ_１を第３の操作量推定値ｚ_０として出力した。これに対し、本実施の形態では、第２の操作量推定値ｚ_２が有意に変化した場合に、第１推定部が出力する許容範囲との比較に基づき第３の操作量推定値ｚ_０を出力する。本実施の形態では、この許容範囲が、第２の操作量推定値ｚ_２又はこれに基づく情報比較される判定情報として用いられる。

　なお、第２の操作量推定値ｚ_２はオペレータの操作履歴に基づいて推定されたものであるが、その推定結果が常に適切であるとは限らないことが想定し得る。そこで、以下では、第２の操作量推定値ｚ_２が適切な値であるか否かを検証し、その検証結果に基づいて、第３の操作量推定値ｚ_０を出力する構成について説明する。

　第１推定部６は、許容範囲算出部６Ａを有する。許容範囲算出部６Ａは、対象システムの目的量などを参照し、対象システムの目的量の狙い値を維持するために許容される、操作の許容範囲ＡＲを決定して、出力する（図２４のステップＳ３１）。

　許容範囲ＡＲとしては、例えば、「ｙとｙ_ｔｒｇの差分が所定以上になったら、操作量範囲はａ以上ｂ以下」などの判定条件の形式でもよいし、上下限を示す連続的なｙに関する複数関数に挟まれる操作量範囲などでもよい。また、許容範囲ＡＲとしては、操作量の変化量として定義されてもよいし、「操作量を増加させる操作」など操作の方向性として定義してもよい。

　これらの判定条件や関数は、一般的な知見や実施の形態１にかかる第１推定部１について説明したようなＰＩＤ制御など種々の方法で設定してもよいし、これらを組み合わせて設定してもよい。

　また、図２５に示すように、目的量狙い値に狙いの範囲が存在する場合は、目的量と操作の相関関係から目的量の狙い範囲に対応する操作範囲を算出し、それを許容範囲ＡＲとすることも可能である。目的量と操作の相関関係は、例えば、式［１］、式［２］及び式［９］などを使用することが可能である。

　また、実施の形態１及び２のように、第１の操作量推定値ｚ_１を算出したのち、第１の操作量推定値ｚ_１が含まれる許容範囲ＡＲを決定して、出力してもよい。許容範囲ＡＲは、例えば第１の操作量推定値ｚ_１を中央値とする所定の範囲であってもよいし、下限値と上限値との間の任意の位置に第１の操作量推定値ｚ_１が含まれる範囲であってもよい。　

　なお、許容範囲算出部６Ａが許容範囲ＡＲの決定に用いる所定の範囲、下限値及び上限値などのデータは、図示しない記憶部（例えば、図１に示す記憶部１８など）に格納されてもよい。許容範囲算出部６Ａは、必要に応じて、用いるデータを記憶部から読み出し、かつ、算出した許容範囲ＡＲなどのデータを記憶部に書き込むことができる。

　次に、推定値決定部７について説明する。推定値決定部７は、第１推定部６から許容範囲ＡＲを受け取り、第２推定部２から第２の操作量推定値ｚ_２（図２４のステップＳ３２で推定される）を受け取る。そして、推定値決定部７は、第２の操作量推定値が有意に変化しているかを判定する。（図２４のステップＳ３３）。

　第２の操作量推定値ｚ_２が有意に変化していると判定された場合、第２の操作量推定値ｚ_２に基づいた操作が判定基準を満たすかを判定する（図１６のステップＳ３４）。具体的には、判定基準が操作量の範囲として規定された許容範囲として与えられる場合には、第２の操作量推定値ｚ_２が許容範囲の下限値よりも大きく、かつ、上限値よりも小さいかを判定する。判定基準が操作量の変化量の範囲で規定される許容範囲として与えられる場合には、第２の操作量推定値ｚ_２による操作の変化量（つまり、現在の操作値との差分）が許容範囲の下限値よりも大きく、かつ、上限値よりも小さいかを判定する。判定基準が操作量の方向性（すなわち、正の値であるか負の値であるか）で規定される場合には、第２の操作推定値ｚ_２による操作量の変化（つまり、現在の操作値との差分）の方向性が判定基準の方向性と合致しているかどうかを判定する。

　なお、上記では第２推定部２の推定量が操作量であるものとして説明したが、必要に応じて、操作量の変化量を推定してもよい。この場合においても、推定した操作量の変化量が判定基準を満たすかを判定すればとよい。具体的には、判定基準が操作量の範囲として規定された許容範囲として与えられる場合には、推定した時点での操作量に推定した操作量の変化量を加算した値が許容範囲の下限値よりも大きく、かつ、上限値よりも小さいかを判定する。判定基準が操作量の変化量の範囲で規定される許容範囲として与えられる場合には、推定した操作量の変化量が許容範囲の下限値よりも大きく、かつ、上限値よりも小さいかを判定する。判定基準が操作量の変化の方向性（すなわち、正の値であるか負の値であるか）で規定される場合には、推定した操作量の変化の方向性が許容範囲ＡＲの方向性と合致しているかどうかを判定する。

　また、第２推定部２の推定量として、操作量の変化の方向性を推定してもよい。具体的には、操作量を増加させる操作（プラスの方向性）であるか操作量を減少させる操作（マイナスの方向性）であるかを推定する。この場合においても、推定した操作量の変化の方向性が判定基準を満たすかを判定すればよい。具体的には、判定基準が操作量の範囲として規定された許容範囲として与えられた条件下で、推定した操作量の変化の方向性が許容範囲に近づく方向性であるかを判定すればよい。また、推定した操作量の変化の方向性が許容範囲の中心値に近づく方向性であるかを判定してもよい。判定基準が操作量の変化量の範囲で規定される許容範囲として与えられる場合、又は、判定基準が操作量の変化の方向性（すなわち、正の値であるか負の値であるか）で規定される場合には、推定した操作量の変化の方向性が、規定された許容範囲の方向性又は規定された操作量の変化の方向性と合致しているかを判定する。

　また、現在の操作値を判定に加えてもよい。すなわち、現在の操作値がすでに許容範囲ＡＲに収まっている場合は、第２の操作量推定値ｚ_２に基づいた操作は判定基準を満たさないと判断し、前回の操作のままで維持する方向に判定してもよい。これにより、不必要と考え得る操作を除外することができる。

　第２の操作量推定値ｚ_２が許容範囲ＡＲに収まる場合には、推定値決定部７は、オペレータの操作履歴によらない推定とオペレータの操作履歴に基づく推定とが許容し得る程度に近似しており、第２の操作量推定値ｚ_２が適切な操作であると判断する。この場合、推定値決定部７は、第３の操作量推定値ｚ_０として、第２の操作量推定値ｚ_２に基づいた値を出力する（図２４のステップＳ３５）。

　具体的には、第２の操作量推定値ｚ_２が操作量として推定されている場合には、第２の操作量推定値ｚ_２を第３の操作量推定値ｚ_０として出力する。第２の操作量推定値ｚ_２が操作量の変化量として推定されている場合には、現在の操作量と推定した変化量とを合算した値を、第３の操作量推定値ｚ_０として出力する。第２の操作量推定値ｚ_２が操作の方向性として推定されている場合には、許容範囲ＡＲ内の任意の値を第３の操作量推定値ｚ_０として出力する。しかし、これらは操作量推定値として出力する場合の一例であり、出力として求められている形式（操作変化量、方向性など）に適宜合わせて出力すればよい。

　これに対し、第２の操作量推定値ｚ_２が許容範囲ＡＲに収まらない場合には、推定値決定部７は、オペレータの操作履歴に基づいて推定した第２の操作量推定値ｚ_２がオペレータの操作履歴によらずに推定した第１の操作量推定値ｚ_１から許容し得ない程度に逸脱しており、不適切な値であるものと判断する。この場合、推定値決定部７は、第２の操作量推定値ｚ_２に基づいて第３の操作量推定値ｚ_０を決定することはせず、代わりに、第３の操作量推定値ｚ_０を前回の推定での値のままで維持する（図２４のステップＳ３６）。これにより、不適切な操作を除外できる。

　しかし、これに限らず、許容範囲ＡＲ内の所定の値を第３の操作量推定値ｚ_０として出力してもよい。この場合には、操作の頻度を増やさずに許容範囲内の適切な操作を行って、目的量狙い値の実現に役立つと考えられる。

　なお、実施の形態２のように、目的量の差分Δｙに基づいて現在の操作量を変化させるべきかどうかを判定し、その判定結果に基づいて、第３の操作量推定値ｚ_０を前回の推定での値のままで維持するか、又は、許容範囲ＡＲ内の所定の値を第３の操作量推定値ｚ_０として出力するかを決定してもよい。

　次いで、２次元倒立振り子の実施例に基づいて、推定装置３００の利点について説明する。図２６に、本実施の形態にかかる許容範囲算出部６Ａによる許容範囲ＡＲの算出方法を記載する。操作台の速度の絶対値ｖと角度ｄｅｇ_ｐに基づき、操作の範囲を指定する。なお、所定の将来時刻での速度ｖや角度ｄｅｇ_ｐを予測して算出してもよい。

　図２７に、２次元倒立振り子の実験を１０回試行した結果を示す。図２８に、図２７に示す実験における指令値の変更回数を示す。実施の形態１と同様に、１回の試行は１０秒とし、１０秒間棒が倒れなければ○、１０秒以内に棒が倒れれば×を表示している。

　図２７及び図２８に示される結果から分かるように、実施の形態３にかかる推定装置３００によれば、全ての試行において棒が倒れずに制御に成功しており、かつ、指令値の変更回数（操作の回数）も実施の形態１と同じ程度であり、図２９に示した通り、人の操作に好適に近似した出力ができていることが理解できる。これは、第２の操作量推定値ｚ_２の出力において、第１の推定部６により算出される推定操作の許容範囲ＡＲに収まるように操作を変更することで、人の操作の様に操作をしながら、好適な操作量を出力できているためと考えられる。

　以上、本構成によれば、オペレータの操作履歴に基づいて推定した第２の操作量推定値ｚ_２を第３の操作量推定値ｚ_０として用いることが可能である。

　また、上述したように、オペレータの操作履歴に基づいて行われた不適切な推定結果が得られ、その結果、第２の操作量推定値ｚ_２が許容範囲ＡＲに収まらない場合でも、第３の操作量推定値ｚ_０を維持又は所定の値とすることで、第３の操作量推定値ｚ_０を適切と考え得る値として推定することが可能となる。

その他の実施の形態
　なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態において、２つの値の大小判定について説明したが、これは例示に過ぎず、２つの値の大小判定において２つの値が等しい場合については、必要に応じて取り扱ってもよい。すなわち、第１の値が第２の値以上であるか又は第２の値よりも小さいかの判定と、第１の値が第２の値よりも大きいか又は第２の値以下であるかの判定とについては、必要に応じていずれを採用してもよい。第１の値が第２の値以下であるか又は第２の値よりも大きいかの判定と、第１の値が第２の値よりも小さいか又は第２の値以上であるかの判定については、いずれを採用してもよい。換言すれば、２つの値の大小判定を行って２つの判定結果を得る場合、２つの値が等しい場合については、必要に応じて２つの判定結果のいずれに含めてもよい。

　上述の実施の形態では、本発明を主にハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（ｔａｎｇｉｂｌｅ　ｓｔｏｒａｇｅ　ｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　ＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ（ｒａｎｄｏｍ　ａｃｃｅｓｓ　ｍｅｍｏｒｙ））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０２０年１１月２日に出願された日本出願特願２０２０－１８３５５６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１　第１推定部
　２　第２推定部
　３　推定値決定部
　４　第１推定部
　５　推定値決定部
　６　第１推定部
　７　推定値決定部
　４Ａ　目的量予測器
　４Ｂ　差分算出部
　６Ａ　許容範囲算出部
　１０　コンピュータ
　１１　ＣＰＵ
　１２　ＲＯＭ
　１３　ＲＡＭ
　１４　バス
　１５　入出力インターフェイス
　１６　入力部
　１７　出力部
　１８　記憶部
　１９　通信部
　２０　ドライブ
　２０Ａ　　　　　　磁気ディスク
　２０Ｂ　　　　　　光ディスク
　２０Ｃ　　　　　　フレキシブルディスク
　２０Ｄ　半導体メモリ
　２１　ＧＰＵ
　３１　操作台
　３２　棒
　１００　推定装置
　２００　推定装置
　３００　推定装置
　１０００　対象システム

Claims

　制御対象のオペレータの操作履歴によらずに、前記制御対象の出力である目的量を狙い値とするための操作量の判定を行うための判定情報を推定する第１推定部と、
　前記制御対象のオペレータの操作履歴に基づいて、前記オペレータの操作を模倣した第２の操作量推定値を推定する第２推定部と、
　前記判定情報及び前記第２の操作量推定値に基づいて、前記制御対象の目的量を狙い値とするための第３の操作量推定値を決定する推定値決定部と、を備える、
　推定装置。
　前記判定情報の推定、前記第２の操作量推定値の推定及び前記第３の操作量推定値の決定を行うサイクルが繰り返し行われる、
　請求項１に記載の推定装置。
　前記第１推定部は、前記制御対象のオペレータの操作履歴によらずに、前記制御対象の出力である目的量を狙い値とするための操作量である第１の操作量推定値を推定し、
　前記推定値決定部は、
　基準となる操作量に対して、前記第１の操作量推定値及び前記第２の操作量推定値が変化した場合に、前記第１の操作量推定値を最新の前記第３の操作量推定値として出力し、
　前記基準となる操作量に対して、前記第１の操作量推定値又は前記第２の操作量推定値が変化しなかった場合に、前回のサイクルで決定された前記第３の操作量推定値を前記最新の第３の操作量推定値として出力する、
　請求項２に記載の推定装置。
　前記第１推定部は、推定を行う時点での前記制御対象の目的量と、前記狙い値と、の差分を算出し、
　前記推定値決定部は、
　　前記基準となる操作量に対して前記第１の操作量推定値が変化し、かつ、前記基準となる操作量に対して前記第２の操作量推定値が変化しなかった場合に、前記差分が所定の範囲に収まるかを判定し、
　　前記差分が所定の範囲に収まらない場合には、前記第３の操作量推定値として前記第１の操作量推定値を出力し、
　　前記差分が前記所定の範囲に収まる場合には、前回のサイクルで決定された前記第３の操作量推定値を前記最新の第３の操作量推定値として出力する、
　請求項３に記載の推定装置。
　前記第１推定部は、推定を行う時点での前記制御対象の目的量と、前記狙い値と、から、前記第２の操作量推定値の許容範囲を前記判定情報として算出し、
　前記推定値決定部は、
　　基準となる操作量に対して、前記第２の操作量推定値が変化した場合に、前記第２の操作量推定値が前記許容範囲に収まるかを判定し、
　　　前記第２の操作量推定値が前記許容範囲に収まらない場合には、前記第２の操作量推定値を最新の前記第３の操作量推定値として出力し、
　　　前記第２の操作量推定値が前記許容範囲に収まる場合には、前回のサイクルで決定された前記第３の操作量推定値を最新の前記第３の操作量推定値として出力する、
　請求項２に記載の推定装置。
　前記許容範囲は、前記第２の操作量推定値の下限値と上限値とで規定される範囲であり、
　前記推定値決定部は、前記第２の操作量推定値が前記下限値よりも小さい場合、又は、前記上限値よりも大きい場合に、前記第２の操作量推定値が前記許容範囲に収まらないものと判定する、
　請求項５に記載の推定装置。
　前記許容範囲は、前記第２の操作量推定値の変化量の下限値及び上限値で規定される範囲として規定される範囲であり、
　前記推定値決定部は、前記第２の操作量推定値が前記下限値よりも小さい場合、又は、前記上限値よりも大きい場合に、前記第２の操作量推定値が前記許容範囲に収まらないものと判定する、
　請求項５に記載の推定装置。
　前記許容範囲は、前記第２の操作量推定値の変化の方向として設定され、
　前記推定値決定部は、前記第２の操作量推定値の変化の方向が、前記許容範囲で規定される方向と異なる場合に、前記前記第２の操作量推定値が前記許容範囲に収まらないものと判定する、
　請求項５に記載の推定装置。
　制御対象のオペレータの操作履歴によらずに、前記制御対象の出力である目的量を狙い値とするための操作量の判定を行うための判定情報を推定し、
　前記制御対象のオペレータの操作履歴に基づいて、前記オペレータの操作を模倣した第２の操作量推定値を推定し、
　前記判定情報及び前記第２の操作量推定値に基づいて、前記制御対象の目的量を狙い値とするための第３の操作量推定値を決定する、
　推定方法。
　制御対象のオペレータの操作履歴によらずに、前記制御対象の出力である目的量を狙い値とするための操作量の判定を行うための判定情報を推定する処理と、
　前記制御対象のオペレータの操作履歴に基づいて、前記オペレータの操作を模倣した第２の操作量推定値を推定する処理と、
　前記判定情報及び前記第２の操作量推定値に基づいて、前記制御対象の目的量を狙い値とするための第３の操作量推定値を決定する処理と、をコンピュータに実行させる、
　プログラムが格納された非一時的なコンピュータ可読媒体。