WO2019176655A1

WO2019176655A1 - 学習装置、学習方法、及びそのプログラム

Info

Publication number: WO2019176655A1
Application number: PCT/JP2019/008649
Authority: WO
Inventors: 高史藤井; 勇樹上山; 泰明阿部; 信幸阪谷; 和彦今竹
Original assignee: オムロン株式会社
Priority date: 2018-03-15
Filing date: 2019-03-05
Publication date: 2019-09-19
Also published as: EP3767401A4; EP3767401A1; CN111684366A; US20200372413A1; JP2019160016A; CN111684366B; JP6519896B1

Abstract

処理対象物に対して加工・組立等の処理を行う制御系の予測制御において、制御対象に与える指令値を生成するための適切な補正量を効率的に学習する技術を提供する。補正量に基づいて目標値を補正した指令値を出力するコントローラと、処理対象物に対して所定の処理をするよう制御される制御対象であって、コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、を備える制御系において、処理対象物のパラメータに基づいて、コントローラに対して所定の補正量を出力するように学習された学習済みモデルを含む調整器に対して、学習済みモデルを提供する学習装置であって、目標値、指令値及び制御量を含む動作データに基づいて、補正量候補を生成し、生成した補正量候補と、処理対象物のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新する学習部と、生成又は更新された学習済みモデルを、調整器に提供する設定部と、を備える。

Description

学習装置、学習方法、及びそのプログラム

　本発明は、学習装置、学習方法、及びそのプログラムに関する。

　プレス機械等の制御装置を用いて材料の加工・組立等を行った場合、通常、一度加工等を行った材料は元に戻せない。したがって、同一の材料に対して繰り返し加工等を行いながら、適切に制御量を調整することはできない。そのため、材料の性質と制御入力の関係を定量化し、新しく加工等を行うときに適切な制御入力を与え、適切な制御量を得ることが重要となる。

　例えば特許文献１には、プレス加工品を製造するにあたり、板厚のばらつきの影響を低減可能なプレスシステムが開示されている。特許文献１のプレスシステムは、プレス機械と、このプレス機械にワークを供給する供給装置とから構成されており、ワークの板厚情報をプレス機械によるプレス前に入手する板厚入手手段と、当該板厚入手手段からの板厚情報によりプレス機械のダイハイト(Ｈ)を設定するダイハイト設定手段とを備えている。

特開２００５－２１１９２８号公報

　ところで、特許文献１に記載されるプレスシステムでは、想定されるすべての板厚ごとに、実際のプレス機械で複数回試行錯誤することによって、設定すべき最適なダイハイトを調整する必要がある。また、実際にプレス機械等の処理対象物に対して加工・組立等の処理を行う制御系において、ダイハイト等の制御量の適性値は、板厚に限らず、処理対象物の硬度や温度、材質など、処理対象物に関する様々なパラメータの影響を受けることがある。このような様々なパラメータのすべての組み合わせに対して、実際に実機で複数回試行錯誤して適切な制御量を得るための補正量を調整するには、膨大な時間を要してしまう。

　そこで、本発明は、処理対象物に対して加工・組立等の処理を行う制御系の予測制御において、制御対象に与える指令値を生成するための適切な補正量を効率的に学習する技術を提供することを目的とする。

　本発明の一側面に係る学習装置は、補正量に基づいて目標値を補正した指令値を出力するコントローラと、処理対象物に対して所定の処理をするよう制御される制御対象であって、コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、を備える制御系において、処理対象物の特定のパラメータに基づいて、コントローラに対して所定の補正量を出力するように学習された学習済みモデルを含む調整器に対して、学習済みモデルを提供する学習装置であって、目標値、指令値及び制御量を含む動作データに基づいて、補正量候補を生成し、生成した補正量候補と、処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新する学習部と、生成又は更新された学習済みモデルを、調整器に提供する設定部と、を備える。この態様によると、学習装置は、制御対象を実際に動作させることなく補正量候補を生成するため、処理対象物を準備したり破損させたりすることなく、効率的に学習することができる。なお、「パラメータ」は、処理対象物の特徴量や物理量、その他の任意の数値情報を含む。特徴量は、例えば処理対象物の材質等であり、物理量は例えば、処理対象物の硬度や温度等である。
　上記構成において、学習部は、データ駆動制御によって補正量候補を生成してもよい。このとき、データ駆動制御としては、ＶＲＦＴ、ＦＲＩＴ又はＥＲＩＴのいずれかを用いてもよい。この態様によると、学習部は、ＶＲＦＴやＦＲＩＴ、ＥＲＩＴ等のデータ駆動制御の手法を用いることにより、制御対象の動特性モデルを求めることなく補正量候補を生成し、教師データを生成することが可能となる。これによって、学習装置は、制御対象の実際の動作を繰り返し行わせることなく補正量候補を生成することが可能になる。この結果、学習装置は、処理対象物を準備したり破損させたりすることなく、より効率的に学習を行うことができる。

　また、学習部は、生成した補正量候補が、学習済みモデルが学習に用いた教師データに含まれる補正量候補から所定の閾値以上離れた値でない場合、又は、学習済みモデルが学習に用いた教師データに含まれる補正量候補の範囲内である場合に当該補正量候補を採用するように構成されてよい。これによって、学習部が生成した補正量候補が、不適切であった場合に不要な学習を行うことを防ぐことができる。

　また、学習済みモデルが出力した補正量に基づいて目標値を補正した指令値を、制御対象に与えたときの制御量を含む動作データを取得して、制御量の品質を評価する評価部をさらに備え、学習部は、品質の評価が、許容範囲に満たない場合に、学習を行うように構成されてよい。また、学習部は、処理対象物の特定のパラメータが、教師データとしてすでに学習されたパラメータから所定の閾値以上離れた値である場合に学習を行うように構成されてよい。これによって、現在の学習済みモデルで対応可能な処理対象物に対して、学習部が不要な学習を行うことを防ぐことができる。

　本発明の一側面に係る学習方法は、補正量に基づいて目標値を補正した指令値を出力するコントローラと、処理対象物に対して所定の処理をするよう制御される制御対象であって、コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、を備える制御系において、処理対象物の特定のパラメータに基づいて、コントローラに対して所定の補正量を出力するように学習された学習済みモデルを含む調整器に対して、学習済みモデルを提供する学習装置において実行される学習方法であって、学習装置が、目標値、指令値及び制御量を含む動作データに基づいて、補正量候補を生成し、補正量候補が所定の採用基準を満たす場合は、生成した補正量候補と、処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新するステップと、生成又は更新された学習済みモデルを、前記調整器に提供するステップと、を実行する。

　本発明の一側面に係るプログラムは、補正量に基づいて目標値を補正した指令値を出力するコントローラと、処理対象物に対して所定の処理をするよう制御される制御対象であって、コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、を備える制御系において、処理対象物の特定のパラメータに基づいて、コントローラに対して所定の補正量を出力するように学習された学習済みモデルを含む調整器に対して、学習済みモデルを提供する学習装置を機能させるプログラムであって、学習装置を、目標値、指令値及び制御量を含む動作データに基づいて、補正量候補を生成し、補正量候補が所定の採用基準を満たす場合は、生成した補正量候補と、処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新する手段、及び生成又は更新された学習済みモデルを、前記調整器に提供する手段として機能させる。

　本発明によれば、処理対象物に対して加工・組立等の処理を行う制御系の予測制御において、制御対象に与える指令値を生成するための適切な補正量を効率的に学習する技術を提供することができる。

本発明の一実施形態に係る制御システムのシステム構成例を示す模式図である。本発明の一実施形態に係る学習装置の機能構成例を示すブロック図である。本発明の一実施形態に係る管理テーブルの一例を示す図である。本発明の一実施形態に係る管理図の一例を示す図である。本発明の一実施形態に係る学習装置の処理の一例を説明するためのフローチャートである。本発明の一実施形態に係る学習装置のハードウェア構成を示す模式図である。本発明の別の実施形態に係る制御システムのシステム構成例を示す模式図である。

［実施形態］
　以下、本発明の一側面に係る実施の形態（以下「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

　§１　適用例
　まず、図１を参照しながら、本発明が適用される場面の一例について説明する。図１は本発明に係る制御システム１の構成の一例を示す図である。制御システム１は、コントローラ１０と、サーボ機構２０と、調整器３０と、学習装置４０とを備えている。

　コントローラ１０は、調整器３０から出力された補正量ρに基づいて目標値ｒ（ｔ）を補正した指令値ｕ（ｔ）を生成して、サーボ機構２０に出力する。目標値ｒ（ｔ）は、コントローラ１０によって生成（記憶された目標値を用いることを含む）されてもよいし、外部からコントローラ１０に与えられてもよい。コントローラ１０の伝達関数Ｃ（ρ）とすると、コントローラ１０では、以下の式（１）に示す演算を行うことで、指令値ｕを生成する。
＜コントローラの演算式＞
ｕ（ｔ）＝Ｃ（ρ）×ｒ（ｔ）・・・式（１）

　サーボ機構２０は、コントローラ１０によって、処理対象物（以下「ワーク」ともいう。）に対して所定の処理をするように制御される。サーボ機構２０には、コントローラ１０から指令値ｕ（ｔ）が与えられ、当該入力値の応答として制御量ｙ（ｔ）が出力される。サーボ機構２０の伝達関数をＰとすると、制御量ｙ（ｔ）は、以下の式（２）で表される。
＜サーボ機構の演算式＞
ｙ（ｔ）＝Ｐ×ｕ（ｔ）　・・・式（２）

　なお、本実施形態では、サーボ機構２０は、ワークに対して所定量の圧力でプレスするプレス機械の例を示すが、これに限られない。なお、サーボ機構２０は、本発明の「制御対象」の一例である。

　調整器３０は、コントローラ１０に与える補正量ρを出力する。本実施形態において、調整器３０は、ワークが有するパラメータのうち、特定のパラメータに基づいて適切な補正量が出力されるように学習された学習済みモデルを有している。例えば、ワークの板厚の大きさを特定のパラメータとしてもよい。この学習済みモデルは、学習装置４０から提供されるものであってよい。また、調整器３０は、センサ（不図示）からワークのパラメータを取得してもよい。なお、センサは例えばサーボ機構２０が有してもよい。

　学習装置４０は、学習済みモデルを生成するにあたり、まず、あるパラメータαを有する処理対象物に対して、制御系を一度実際に動作させて、そのときの目標値ｒ（ｔ）、指令値ｕ（ｔ）、及び制御量ｙ（ｔ）の関係を取得する。次に、学習装置４０は、これら３つの値からパラメータαに対応する補正量候補ρ*を算出する。算出した補正量候補ρ*とパラメータαとに基づいて、学習装置４０は教師データを生成する。この処理を複数のパラメータについて実行することで、学習装置４０は、各パラメータとそれに対応する補正量候補とを有する教師データを複数生成することができる。そして、学習装置４０は、生成した一又は複数の教師データを用いて学習を行うことで、学習済みモデルを生成する。なお、生成された教師データを実際に学習に用いるか否かは、所定の採用基準に照らし合わせて決定されてもよい。

　補正量候補ρ*を生成するにあたり、学習装置４０は、ＶＲＦＴ（Virtual　Reference　Feedback　Tuning）やＦＲＩＴ（Fictitious　Reference　Iterative　Tuning）、ＥＲＩＴ(Estimated Response Iterative Turning）等の、データ駆動制御の手法を用いることができる。データ駆動制御は、制御対象（本実施形態の場合、サーボ機構２０である。）の動特性モデルを求めることなく、得られたデータを用いて制御パラメータを設定することができる。データ駆動制御の手法を用いることにより、反復実験を行うことなく、すなわちサーボ機構２０の実際の動作を繰り返し行うことなく、一組の動作データから補正量候補ρ*を生成し、これを教師データとして利用する。これによって、適切な教師データを生成するまでの時間を短縮し、適切な補正量を出力するための学習済みモデルの効率的な生成を可能としている。この結果、学習装置は、処理対象物を準備したり破損させたりすることなく、より効率的に学習を行うことができる。

　§２　構成例
　図２乃至図４を参照して、学習装置４０の機能構成の一例を説明する。図２は、学習装置４０の機能構成の一例を示す機能ブロック図である。図２に示すように、学習装置４０は、記憶部４１と、品質評価部４２と、学習部４３と、設定部４４とを有している。

　記憶部４１には、参照モデルＴｄと、管理テーブルとが記憶されている。
　参照モデルＴｄとは、目標値ｒ（ｔ）に対する制御量ｙ（ｔ）の理想的な応答の伝達関数を示したものである。参照モデルＴｄを用いると、目標値ｒ（ｔ）に対する理想的な制御量（以下「目標応答」ともいう。）ｙｄ（ｔ）は次式（３）で表される。
＜参照モデルＴｄの式＞
ｙｄ（ｔ）＝Ｔｄ×ｒ（ｔ）　・・・（３）

　なお、参照モデルＴｄは伝達関数に限定されず、サーボ機構２０をワークのない状態で動作させた際の、目標値ｒ（ｔ）、制御量ｙ（ｔ）に基づいて、機械学習により生成されるモデルを用いてもよい。

　管理テーブルには、学習部４３が学習に用いる教師データが管理されている。図３は、管理テーブルの一例を示す図である。教師データは、ワークごとに、入力データとして当該ワークの特定のパラメータ（図３の例では硬さ）と、出力データとして当該ワークに対して指令値を出力する際の最適な補正量（以下「最適補正量」ともいう。）と、が対応付けられたデータである。管理テーブルには、各ワークに対応付けられた最適補正量に基づいて生成された指令値に応答してサーボ機構２０が出力した制御量の評価結果（以下「品質評価」ともいう。）が対応付けられている。

　なお、管理テーブルに新たな教師データのレコードが追加された後、当該レコードに対応するワークについて、サーボ機構２０が処理をまだ行っていない場合には、管理テーブルの評価結果の欄には例えば未実施が登録されてもよい。

　このように、管理テーブルには、学習部４３が学習に用いた教師データと、当該教師データを用いて新たに生成された（又は更新された）学習済みモデルの評価の結果が管理されている。学習済みモデルの評価の結果とは、対応するレコードの教師データに含まれる最適補正量が適切であったか否かを示す指標である。より詳細には、新たに教師データとして追加されたレコードにおける最適補正量について、当該最適補正量に基づいて生成された指令値がサーボ機構２０に入力された場合に、応答として出力された制御量が、所定の許容範囲内であるか否かを示す指標である。

　さらに、記憶部４１には、学習部４３が生成した学習済みモデルＬＭが記憶されている。記憶部４１は、学習部４３が生成した学習済みモデルの複数の世代を記憶していることが好ましい。

　品質評価部４２は、コントローラ１０及びサーボ機構２０から動作データを取得して、制御量の品質を評価する。一例として、品質評価部４２は目標値ｒ（ｔ）に対して与えられた指令値ｕ（ｔ）への応答としてサーボ機構２０から制御量ｙ（ｔ）が出力された場合について説明する。このとき、品質評価部４２は、目標値ｒ（ｔ）を参照モデルＴｄに入力し、目標値ｒ（ｔ）に対する目標応答ｙｄ（ｔ）を取得する。

　次に、品質評価部４２は、目標応答ｙｄ（ｔ）、制御量ｙ（ｔ）について品質換算を行い品質の代替指標を算出する。例えば品質評価部４２は、目標応答ｙｄ（ｔ）、制御量ｙ（ｔ）に対して品質換算を行い下死点位置や整定時間を算出する。より詳細には、品質評価部４２は、目標応答ｙｄ（ｔ）、制御量ｙ（ｔ）の最大値から下死点位置を算出する。また、品質評価部４２は、目標応答ｙｄ（ｔ）が目標位置に入った時刻、及び制御量ｙ（ｔ）が目標位置に入った時刻のそれぞれから指令値が目標位置に到達した時刻を減算することで、それぞれの整定時間を算出する。なお、下死点位置は、サーボ機構２０のストローク長が最大となった位置である。また、整定時間は、サーボ機構２０のストローク長が整定幅に入ったときから、目標位置に到達するときまでの経過時間であり、整定幅は、目標位置から所定の範囲の幅（例えば目標位置±１０μｍである）をいう。

　品質評価部４２は、品質換算して算出した代替指標である下死点位置と整定時間に基づいて、制御量ｙ（ｔ）の品質評価を行う。例えば、品質評価部４２は、下死点位置が目標位置と一致しているか否かや、下死点位置が整定幅に含まれるか否かに基づいて制御量ｙ（ｔ）が所定の許容範囲内か否かを判定することで品質評価をすることができる。

　また、例えば、品質評価部４２は、Ｘ^ｂａｒ－Ｒ管理図を用いて制御量ｙ（ｔ）の品質評価を行ってもよい。Ｘ^ｂａｒ－Ｒ管理図は、品質評価対象の平均値の変化とばらつきの変化を管理するための管理図である。図４は、品質評価部４２が品質評価に用いるＸ^ｂａｒ－Ｒ管理図のうちｘ管理図の一例を示している。図４において、縦軸はストローク長を示している。グラフＬ１，Ｌ２は、複数のロット分のワークに対してサーボ機構２０が処理を行った際のそれぞれの制御量ｙ（ｔ）について品質換算して算出した下死点位置の、各ロットにおける平均値をプロットしたものの一例である。図４において、実線は規格値Ｌ３の上限及び下限を示し、破線Ｌ４は管理値の上限及び下限を示している。規格値は例えば、ワークについて加工を依頼した顧客の要求値である。管理値は、規格値を超えないように管理するための値である。グラフの中心には、品質の目標値が示されている。グラフＬ２は、品質が管理値の範囲内にある場合の一例を示すものであり、グラフＬ１は、品質が規格値内に納まらなかった場合の一例を示すものである。なお、図４の例では、ロットごとにグラフのプロットを行った例を示しているが、各プロットの値はロット単位で算出された値に限定されず、１又は複数のワークに対する処理に基づいて品質換算された値を用いてもよい。品質評価部４２は、図４に示すＸ^ｂａｒ－Ｒ管理図において、制御量ｙ（ｔ）の下死点位置が、管理値の範囲内か否かや、規格値の範囲内か否かに基づいて、制御量ｙ（ｔ）が所定の許容範囲内か否かを判定することで品質評価をしてもよい。例えば、図４に示すＸ^ｂａｒ－Ｒ管理図等を用いて品質評価を行った結果、制御量ｙ（ｔ）が所定の許容範囲内か否かに基づいて、上述した図３の管理テーブルにおける品質評価の結果が登録されてもよい。より詳細には、例えば図３の１行目のレコードに登録されている最適補正量候補（図３の例では０．５ｍｍ）に基づいて生成された指令値に応答した際に、サーボ機構２０から制御量ｙ（β）が出力されたとする。このとき、図４に示すＸ^ｂａｒ－Ｒ管理図を用いて、制御量ｙ（β）の下死点位置が管理値の範囲内か否かや、規格値の範囲内か否かに基づいて、制御量ｙ（β）の品質評価が行われた結果が、図３の管理テーブルの１行目のレコードにおける品質評価の結果として登録される。

　学習部４３は、動作データを用いて算出した補正量候補ρ*に基づいて教師データを生成し、学習済みモデルを生成する。学習部４３は、補正量候補ρ*を算出するにあたり、ＶＲＦＴやＦＲＩＴ、ＥＲＩＴ等の、データ駆動制御を用いることが好ましい。データ駆動制御は、制御対象（本実施形態の場合、サーボ機構２０である。）の動特性モデルを求めることなくデータを用いて制御パラメータを設定する手法である。ＶＲＦＴ、ＦＲＩＴ及びＥＲＩＴは、反復実験を行うことなく、一組の動作データから補正量を特定可能な手法である。一組の動作データは、目標値ｒと、当該目標値に基づいて与えられた指令値と、指令値の応答として出力された制御量である。

　学習部４３の補正量候補生成処理について、より詳細に説明する。例えば、学習部４３は、参照モデルＴｄを参照し、サーボ機構２０が任意のワーク（以下「ワークＸ」という。）に対して、任意の指令値ｕｉｎｉに基づいて動作を行った場合の動作データ（以下、ワークＸに対して任意の指令値ｕｉｎｉに基づいて動作を行った場合の動作データを特に「動作データＹ」という。）に基づいて、補正量候補ρ*を生成する例について説明する。この指令値ｕｉｎｉは、ある補正量ρｉｎｉに基づいて目標値ｒを補正して生成されるものとする。ここで、動作データＹに含まれる目標値を目標値ｒとし、指令値を指令値ｕｉｎｉとし、制御量を制御量ｙｉｎｉとすると、動作データＹは、｛ｒ，ｕｉｎｉ，ｙｉｎｉ｝で表される。

　学習部４３は、ＶＲＦＴを用いて補正量候補ρ*を算出する場合、参照モデルＴｄの逆モデルＴｄ^－１を用いて、以下の式（４）により、まず、仮想参照信号を算出する。

　さらに学習部４３は、以下の式（５）で表される評価関数Ｊｖ（ρ）を最小化する補正量候補ρ*を算出する。なお、式（５）において、Ｃ（ρ）は、上述のコントローラ１０の伝達関数を示している。

　他方、学習部４３は、ＦＲＩＴを用いて補正量候補ρ*を算出する場合、以下の式（６）により、まず、疑似参照信号を算出する。なお、式（６）において、Ｃ（ρ）^－１はコントローラ１０の逆伝達関数を示している。

　さらに学習部４３は、以下の式（７）で表される評価関数Ｊｆ（ρ）を最小化する補正量候補ρ*を算出する。

　学習部４３は、算出した補正量候補ρ*を最適補正量ρ´として、ワークＸのパラメータとを対応付けて教師データとして管理テーブルに追加する。なお、学習部４３は、補正量候補ρ*を最適補正量ρ´に採用するか否かを判定する採否判定を行う構成でもよい。この場合、学習部４３は、算出した補正量候補ρ*が所定の採用基準を満たすか否かを判定し、満たした場合に最適補正量ρ´として採用し、管理テーブルに追加する。採用基準は、例えば、算出した補正量候補ρ*が、管理テーブルに登録されている教師データに含まれる最適補正量から所定の値以上離れた値（例えば外れ値）でないか否かである。なお、採用基準は、補正量候補ρ*が、上記の教師データに含まれる最適候補量の平均値から一定値以上離れた値ではないか、最適候補量の最大値又は最小値から一定値以上離れた値ではないか、でもよい。また、例えば、採用基準は、算出した補正量候補ρ*が、管理テーブルに登録されている教師データに含まれる最適補正量の範囲に含まれるか否かでもよい。

　学習部４３は、管理テーブルに登録された教師データに基づいて学習を実行し、学習済みモデルＬＭ*を生成する。なお、学習済みモデルを生成する際に行う学習には、例えば既存のニューラルネットワークや回帰分析の技術を用いてもよい。学習部４３は、記憶部４１に今回生成した学習済みモデルＬＭ*を追加して記憶させる。なお、学習部４３は、記憶部４１に記憶されている学習済みモデルＬＭを今回生成した学習済みモデルＬＭ*で上書きする構成でもよい。

　なお、学習部４３は、補正量候補ρ*を生成するにあたり、学習要否判定を行う構成でもよい。この場合、学習部４３は、所定の学習要否判定基準を満たすか否かを判定し、満たしたときに、学習を行うために補正量候補ρ*を生成する。所定の学習要否判定基準は、例えば、動作データＹに対する品質評価部４２の結果が許容範囲内であるか否かである。また、所定の学習要否判定基準は、ワークＸのパラメータが過去に学習した、すなわち、現在、調整器３０に設定されている学習済みモデルにおいて学習したパラメータの範囲外であるか否かでもよい。他にも、所定の学習要否判定基準は、ワークＸに対して動作を行った際にサーボ機構２０の外部環境が、それ以前の外部環境から変化したか否かでもよい。この場合、学習部４３は、ユーザの任意の入力に基づいて、外部環境の変化を検出してもよいし、サーボ機構２０の外部環境を含む画像データをセンサから取得して、取得した画像データに基づいて、外部環境の変化を検出してもよい。

　設定部４４は、学習部４３が生成した学習済みモデルＬＭ*を調整器３０へ設定する。このとき設定部４４は、学習済みモデルＬＭ*を設定する前に、学習済みモデルＬＭ*の品質を評価し、評価結果に基づいて、調整器３０に設定するか否かを判定してもよい。

　学習済みモデルＬＭ*の評価とは、例えば、ワークＸのパラメータと最適補正量ρ´とを教師データとして、学習部４３が追加学習を行い、新たに学習済みモデルＬＭ*を生成したとする。このとき設定部４４は、ワークＸと同様のパラメータを有するワークがサーボ機構２０に与えられた際に、学習した最適補正量ρ´をコントローラ１０に提供する。コントローラ１０では、最適補正量ρ´に基づいて指令値ｕ（ｘ）を生成し、サーボ機構２０に出力する。サーボ機構２０が指令値ｕ（ｘ）への応答として出力した制御量ｙ（ｘ）について、品質評価部４２が品質評価を行う。品質評価の結果、制御量ｙ（ｘ）が所定の許容範囲内であれば、設定部４４は調整器３０に新たに生成された学習済みモデルＬＭ*を設定することができる。他方、所定の許容範囲に満たなかった場合には、設定部４４は、一世代前の学習済みモデルＬＭを選択して、調整器３０に設定する構成でもよい。なお、今回生成した学習済みモデルＬＭ*の品質が所定の許容範囲に満たなかった場合において、すでに調整器３０に学習済みモデルが設定されている場合には、設定部４４は学習済みモデルの更新を行わなくてもよい。

　なお、記憶部４１に評価が未実施の学習済みモデルＬＭ*が複数登録されている場合には、設定部４４は、例えば、新しく生成された順に学習済みモデルＬＭ*の評価を行い、評価の結果が最初に許容範囲内に納まった学習済みモデルＬＭ*を選択して調整器３０に設定してもよい。また例えば、設定部４４は、すべての学習済みモデルＬＭ*の評価を実施して、評価結果がもっともよかった学習済みモデルＬＭ*を選択して調整器３０に設定してもよい。

　なお、設定部４４は、評価が所定の許容範囲に満たなかった学習済みモデルＬＭ*を記憶部４１から削除してもよい。

　このように設定部４４が、新たに生成（又は更新）された学習済みモデルＬＭ*について、調整器３０に実際に設定する前に、評価を実施することで、制御システム１の処理精度が低下してしまうことを防ぐことができる。

　§３　動作フロー
　図５を参照して、本実施形態に係る制御システム１の処理フローの一例について説明する。まず、学習装置４０は、参照モデルＴｄを生成する（Ｓ１０１）。このとき、学習装置４０は、基準とする動作データ[ｒ、ｙｄ]を取得する。基準となる動作データは、例えば、ワークなし動作を行った場合の、目標値ｒと、サーボ機構２０の制御量ｙとしてよい。取得した動作データ[ｒ、ｙｄ]に基づいて、学習装置４０は、参照モデルＴｄを生成する。

　次に、ワークが与えられた場合（Ｓ１０１：ＹＥＳ）、目標値に対する補正量の初期値ρｉｎｉを設定する（Ｓ１０２）。補正量の初期値ρｉｎｉは、ユーザが手動で設定してもよい。また、すでに調整器３０に学習済みモデルが設定されている場合には、当該学習済みモデルが生成してもよい。

　コントローラ１０では、設定された補正量ρｉｎｉに基づいて指令値ｕｉｎｉが生成され、サーボ機構２０に出力される。サーボ機構２０では、指令値ｕｉｎｉへの応答として制御量ｙｉｎｉが出力される。学習装置４０は、このときの動作データ[ｒ，ｕｉｎｉ，ｙｉｎｉ]を取得する（Ｓ１０３）。

　次に、学習の要否が判定される（Ｓ１０４）。例えば、学習部４３は、取得された動作データ[ｒ，ｕｉｎｉ，ｙｉｎｉ]について、品質評価部４２が行った品質評価の結果に基づいて、要否を判定することができる。なお、学習の要否の判定基準はこれに限定されず、今回のワークのパラメータが過去に学習したパラメータの範囲内か否かや、外部環境が変化したか否かを判定基準に用いてもよい。また例えば、学習の要否は人が判定してもよい。

　学習が不要と判定された場合（Ｓ１０４：ＮＯ）には、Ｓ１０１に戻り、次のワークに対して処理が行われる。他方、学習が必要と判定された場合（Ｓ１０４：ＹＥＳ）には、学習部４３は、参照モデルＴｄを参照し、補正量候補ρ*を生成する（Ｓ１０５）。学習部４３は補正量候補ρ*を生成する際に、ＶＲＦＴやＦＲＩＴ、ＥＲＩＴ等の手法を用いることができる。

　次に、学習部４３は、生成した補正量候補ρ*と、Ｓ１０２でサーボ機構２０に与えられたワークのパラメータとを対応付けて教師データとして追加するか否かを判定する（Ｓ１０６）。追加するか否かを判定する採用基準は、例えば、算出した補正量候補ρ*が、管理テーブルに登録されている教師データに含まれる補正量から所定の値以上離れた値でないか否かである。また、例えば、採用基準は、算出した補正量候補ρ*が、管理テーブルに登録されている教師データに含まれる補正量の範囲に含まれるか否かでもよい。

　追加すると判定した場合（Ｓ１０６：ＹＥＳ）には、学習部４３は、教師データとして、生成した補正量候補ρ*を最適補正量ρ´として、Ｓ１０２でサーボ機構２０に与えられたワークのパラメータと対応付けてレコードを生成し、管理テーブルに追加する（Ｓ１０７）。他方、追加しないと判定した場合（Ｓ１０６：ＮＯ）には、Ｓ１０１に戻り、次のワークに対して処理が行われる。なお、学習部４３は、Ｓ１０６の判定を行わず、生成した補正量候補ρ*はそのまま最適補正量ρ´として、教師データを生成し、管理テーブルに追加する構成でもよい。

　教師データを追加すると、学習部４３は、追加学習を実施して、学習済みモデルを新たに生成（又は更新）する（Ｓ１０８）。

　次に、設定部４４は、生成された学習済みモデルを調整器３０に設定するか否かを判定する（Ｓ１０９）。一例として、設定部４４は、学習した最適補正量ρ´に基づいて補正された指令値を、サーボ機構２０に与えたときの制御量について、品質評価部４２の評価結果に基づいて、学習済みモデルを調整器３０に設定するか否かを判定してもよい。

　品質評価が所定の許容範囲内である場合には、設定部４４は、新たに生成された学習済みモデルを調整器３０に設定する（Ｓ１１０）。他方、品質評価が許容範囲に満たない場合には、Ｓ１０１に戻り、次のワークに対して処理が行われる。なお、設定部４４は、Ｓ１０９の処理を行わず、新たに生成された学習済みモデルを、そのまま調整器３０に設定する構成でもよい。

　§４　利点
　本実施形態に係る制御システム１では、学習装置４０が、指令値に従い処理対象に対して処理を行ったサーボ機構２０の制御量と、コントローラ１０が生成した目標値及び指令値とを含む動作データに基づいて、補正量候補を生成する。学習装置４０では、生成した補正量候補が所定の採用基準を満たした場合には、当該補正量候補を教師データとして採用し、学習済みモデルを生成を行う。学習装置４０は、補正量候補を生成するにあたり、ＶＲＦＴやＦＲＩＴ、ＥＲＩＴ等のデータ駆動制御の手法により、制御対象の動特性モデルを求めることなく補正量を調整することが好ましい。ＶＲＦＴＦＲＩＴ、ＥＲＩＴは、反復実験を行うことなく、すなわち制御対象の実際の動作を返し行うことなく、一組の動作データから補正量ρを特定可能な手法である。学習装置４０が、反復実験を行うことなく補正量候補を生成することにより、処理対象物を準備したり破損したりすることなく効率的に学習をすることができ、適切な教師データを生成するまでの時間を短縮することができる。

　§５　ハードウェア構成
　次に、図６を参照しながら、上述してきた学習装置４０をコンピュータ８００により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。

　図６に示すように、コンピュータ８００は、プロセッサ８０１、メモリ８０３、記憶装置８０５、入力Ｉ／Ｆ部８０７、データＩ／Ｆ部８０９、通信Ｉ／Ｆ部８１１、及び表示装置８１３を含む。

　プロセッサ８０１は、メモリ８０３に記憶されているプログラムを実行することによりコンピュータ８００における様々な処理を制御する。例えば、学習装置４０の品質評価部４２と、学習部４３と、設定部４４などは、メモリ８０３に一時記憶された上で、主にプロセッサ８０１上で動作するプログラムとして実現可能である。すなわち、プロセッサ８０１がメモリ８０３に一時記憶されたプログラムを解釈実行することにより、品質評価部４２と、学習部４３と、設定部４４の働きが実現される。

　メモリ８０３は、例えばＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の記憶媒体である。メモリ８０３は、プロセッサ８０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

　記憶装置８０５は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置８０５は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置８０５は、参照モデルＴｄや管理テーブルを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ８０３にロードされることにより、プロセッサ８０１から参照される。

　入力Ｉ／Ｆ部８０７は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部８０７の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力Ｉ／Ｆ部８０７は、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）等のインタフェースを介してコンピュータ８００に接続されても良い。

　データＩ／Ｆ部８０９は、コンピュータ８００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部８０９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部８０９は、コンピュータ８００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部８０９は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００へと接続される。

　通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部の装置と有線又は無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部８１１は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００に接続される。

　表示装置８１３は、各種情報を表示するためのデバイスである。表示装置８１３の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置８１３は、コンピュータ８００の外部に設けられても良い。その場合、表示装置８１３は、例えばディスプレイケーブル等を介してコンピュータ８００に接続される。

　§６　他の実施形態
　図７を参照して、本発明の他の実施形態に係る制御システム２の構成を説明する。図７は、制御システム２の構成の一例を示す図である。なお、既述の実施形態と共通の事柄についての記述は省略し、異なる点についてのみ説明する。特に、既述の構成には同様の符号を付し、同様の構成による同様の作用効果については実施形態毎には逐次言及しない。

　制御システム２は、制御システム１におけるコントローラ１０に代えて、コントローラ１１、を有している。また、調整器３０は、コントローラ１１に対して補正量ρを入力する。その他の構成、機能は既述の実施形態と同様である。

　コントローラ１１は、調整器３０から入力された補正量ρを、生成した目標値ｒ（ｔ）に加えて指令値ｕ（ｔ）を生成し、サーボ機構２０に入力する。つまり、コントローラ１１の演算式は以下の式（８）である。
ｕ（ｔ）＝ｒ（ｔ）＋ρ・・・式（８）

　コントローラ１１によると、伝達関数を用いずに、単純に目標値と補正量とを加算して指令値を算出することができる。これにより伝達関数の設計が不要になるため、制御モデルの設計が容易になる。

　以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。

　なお、前述までの説明では、学習装置４０は、学習済みモデルを新たに生成する構成として説明したが、既存の学習済みモデルを更新する構成としてもよい。学習済みモデルを新たに生成する構成の場合、学習装置４０は、既存の学習済みモデルを生成したときに用いた教師データに、今回新たに生成した教師データを加えたデータセットを用いた学習により、新たな学習済みモデルを生成することができる。他方、学習済みモデルを更新する構成の場合、学習装置４０は、既存の学習済みモデルに対して、今回新たに生成した教師データを用いて追加学習させることで、学習済みモデルを更新することができる。

　前述の実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限定されない。
（付記１）
　補正量（ρ）に基づいて目標値（ｒ）を補正した指令値（ｕ）を出力するコントローラ（１０）と、
　処理対象物に対して所定の処理をするよう制御される制御対象（２０）であって、前記コントローラ（１０）から出力される指令値（ｕ）が入力され、当該指令値（ｕ）の応答として制御量が出力される制御対象（２０）と、
を備える制御系（１）において、
　前記処理対象物の特定のパラメータに基づいて、前記コントローラ（１０）に対して所定の前記補正量（ρ）を出力するように学習された学習済みモデルを含む調整器（３０）に対して、前記学習済みモデルを提供する学習装置（４０）であって、
　前記目標値（ｒ）、前記指令値（ｕ）及び前記制御量（ｙ）を含む動作データに基づいて、補正量候補（ρ*）を生成し、生成した補正量候補（ρ*）と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新する学習部（４３）と、
　前記生成又は更新された学習済みモデルを、前記調整器（３０）に提供する設定部（４４）と、
を備える学習装置（４０）。
（付記２）
　前記学習部は、データ駆動制御によって前記補正量候補を生成する、
付記１に記載の学習装置。
（付記３）
　前記データ駆動制御は、
　ＶＲＦＴ、ＦＲＩＴ又はＥＲＩＴのいずれかである、
付記２に記載の学習装置（４０）。
（付記４）
　前記学習部（４３）は、
　生成した前記補正量候補（ρ*）が、前記学習済みモデルが学習に用いた教師データに含まれる補正量候補（ρ*）から所定の閾値以上離れた値でない場合、又は、前記学習済みモデルが学習に用いた教師データに含まれる補正量候補（ρ*）の範囲内である場合に、当該補正量候補を教師データとして採用する、
付記１乃至３の何れか一項に記載の学習装置（４０）。
（付記５）
　前記学習済みモデルが出力した補正量（ρ）に基づいて目標値（ｒ）を補正した指令値（ｕ）を、前記制御対象（２０）に与えたときの制御量（ｙ）を含む動作データを取得して、前記制御量の品質を評価する評価部（４２）
をさらに備え、
　前記学習部（４３）は、
　前記品質の評価が、許容範囲に満たない場合に、前記学習を行う、
付記１乃至４の何れか一項に記載の学習装置（４０）。
（付記項６）
　前記学習部（４３）は、
　前記処理対象物の前記特定のパラメータが、前記教師データとしてすでに学習されたパラメータから所定の閾値以上離れた値である場合に前記学習を行う、
付記１乃至５の何れか一項に記載の学習装置（４０）。
（付記７）
　補正量（ρ）に基づいて目標値（ｒ）を補正した指令値（ｕ）を出力するコントローラ（１０）と、
　処理対象物に対して所定の処理をするよう制御される制御対象（２０）であって、前記コントローラ（１０）から出力される指令値（ｕ）が入力され、当該指令値（ｕ）の応答として制御量が出力される制御対象（２０）と、
を備える制御系（１）において、
　前記処理対象物の特定のパラメータに基づいて、前記コントローラ（１０）に対して所定の前記補正量（ρ）を出力するように学習された学習済みモデルを含む調整器（３０）に対して、前記学習済みモデルを提供する学習装置（４０）において実行される学習方法であって、
　前記学習装置（４０）が、
　前記目標値（ｒ）、前記指令値（ｕ）及び前記制御量（ｙ）を含む動作データに基づいて、補正量候補（ρ*）を生成し、生成した補正量候補（ρ*）と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新するステップと、
　前記生成又は更新された学習済みモデルを、前記調整器（３０）に提供するステップと、
を実行する学習方法。
（付記８）
　補正量（ρ）に基づいて目標値（ｒ）を補正した指令値（ｕ）を出力するコントローラ（１０）と、
　処理対象物に対して所定の処理をするよう制御される制御対象（２０）であって、前記コントローラ（１０）から出力される指令値（ｕ）が入力され、当該指令値（ｕ）の応答として制御量が出力される制御対象（２０）と、
を備える制御系（１）において、
　前記処理対象物の特定のパラメータに基づいて、前記コントローラ（１０）に対して所定の前記補正量（ρ）を出力するように学習された学習済みモデルを含む調整器（３０）に対して、前記学習済みモデルを提供する学習装置（４０）を機能させるプログラムであって、
　前記学習装置（４０）を、
　前記目標値（ｒ）、前記指令値（ｕ）及び前記制御量（ｙ）を含む動作データに基づいて、補正量候補（ρ*）を生成し、生成した補正量候補（ρ*）と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新する手段（４３）、及び
　前記生成又は更新された学習済みモデルを、前記調整器（３０）に提供する手段（４４）と、
して機能させるプログラム。

Claims

　補正量に基づいて目標値を補正した指令値を出力するコントローラと、
　処理対象物に対して所定の処理をするよう制御される制御対象であって、前記コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、
を備える制御系において、
　前記処理対象物の特定のパラメータに基づいて、前記コントローラに対して所定の前記補正量を出力するように学習された学習済みモデルを含む調整器に対して、前記学習済みモデルを提供する学習装置であって、
　前記目標値、前記指令値及び前記制御量を含む動作データに基づいて、補正量候補を生成し、生成した補正量候補と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新する学習部と、
　前記生成又は更新された学習済みモデルを、前記調整器に提供する設定部と、
を備える学習装置。
　前記学習部は、データ駆動制御によって前記補正量候補を生成する、
請求項１に記載の学習装置。
　前記データ駆動制御は、ＶＲＦＴ、ＦＲＩＴ又はＥＲＩＴのいずれかである、
請求項２に記載の学習装置。
　前記学習部は、
　生成した前記補正量候補が、前記学習済みモデルが学習に用いた教師データに含まれる補正量候補から所定の閾値以上離れた値でない場合、又は、前記学習済みモデルが学習に用いた教師データに含まれる補正量候補の範囲内である場合に、当該補正量候補を教師データとして採用する、
請求項１乃至３の何れか一項に記載の学習装置。
　前記学習済みモデルが出力した補正量に基づいて目標値を補正した指令値を、前記制御対象に与えたときの制御量を含む動作データを取得して、前記制御量の品質を評価する評価部
をさらに備え、
　前記学習部は、
　前記品質の評価が、許容範囲に満たない場合に、前記学習を行う、
請求項１乃至４の何れか一項に記載の学習装置。
　前記学習部は、
　前記処理対象物の前記特定のパラメータが、前記教師データとしてすでに学習されたパラメータから所定の閾値以上離れた値である場合に前記学習を行う、
請求項１乃至４の何れか一項に記載の学習装置。
　補正量に基づいて目標値を補正した指令値を出力するコントローラと、
　処理対象物に対して所定の処理をするよう制御される制御対象であって、前記コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、
を備える制御系において、
　前記処理対象物の特定のパラメータに基づいて、前記コントローラに対して所定の前記補正量を出力するように学習された学習済みモデルを含む調整器に対して、前記学習済みモデルを提供する学習装置において実行される学習方法であって、
　前記学習装置が、
　前記目標値、前記指令値及び前記制御量を含む動作データに基づいて、補正量候補を生成し、生成した補正量候補と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新するステップと、
　前記生成又は更新された学習済みモデルを、前記調整器に提供するステップと、
を実行する学習方法。
　補正量に基づいて目標値を補正した指令値を出力するコントローラと、
　処理対象物に対して所定の処理をするよう制御される制御対象であって、前記コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、
を備える制御系において、
　前記処理対象物の特定のパラメータに基づいて、前記コントローラに対して所定の前記補正量を出力するように学習された学習済みモデルを含む調整器に対して、前記学習済みモデルを提供する学習装置を機能させるプログラムであって、
　前記学習装置を、
　前記目標値、前記指令値及び前記制御量を含む動作データに基づいて、補正量候補を生成し、生成した補正量候補と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成又は更新する手段、及び
　前記生成又は更新された学習済みモデルを、前記調整器に提供する手段、
として機能させるプログラム。