WO2021171720A1

WO2021171720A1 - 情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム

Info

Publication number: WO2021171720A1
Application number: PCT/JP2020/044442
Authority: WO
Inventors: 馨川端; 照司平林; 由樹雄小貫; 英達戴; 崇充松原; 佐々木　光
Original assignee: 日立造船株式会社; 国立大学法人奈良先端科学技術大学院大学
Priority date: 2020-02-28
Filing date: 2020-11-30
Publication date: 2021-09-02
Also published as: JP7450212B2; EP4112498A4; JP2021135940A; CN115175868A; EP4112498A1

Abstract

所望の制御結果が期待できる制御変数を決定する。情報処理装置（１Ａ）は、ごみを運搬するクレーンの制御結果データ（２０１）を用いて評価関数の予測分布を算出・更新する予測分布算出部（１０２）と、上記予測分布に基づき制御変数の最適値の候補を探索する制御変数探索部（１０３）と、更新後の予測分布に基づく評価関数を用いて制御変数を決定する制御変数決定部（１０４）と、を備える。

Description

情報処理装置、制御システム、制御変数決定方法、および制御変数決定プログラム

　本発明は、ごみを運搬するクレーンの自動制御に利用可能な情報処理装置等に関する。

　ごみ処理施設に搬入されたごみは、ピットと呼ばれる貯留設備に一時的に貯留された後、焼却炉に送り込まれて焼却される。一般的なごみ処理施設では、ピット内に貯留されているごみの移動にはクレーンが用いられている。基本的にクレーンはオペレータが手動で操作しているが、その制御を自動化する試みも従来から行われている。

　例えば、下記の特許文献１には、ごみの撹拌度合いを定量化し、定量化したごみの撹拌度合いに基づいてクレーンを自動制御する技術が開示されている。この文献に記載の技術では、撹拌度合いの定量化は撹拌回数に基づいて行い、自動制御はごみをつかむ位置と、つかみあげたごみの投下位置とを指定したクレーン制御指示を生成することで実現している。

日本国特開２０１０－２７５０６４号公報

　しかしながら、ごみピットに貯留されるごみは、材質も状態も様々なごみが入り混じったものであり、その性質が一定しない。このため、特許文献１の技術を実際のごみピットにおけるごみの撹拌に適用した場合、想定通りの撹拌ができない場合が生じると想定される。

　例えば、ごみのつかみ位置を指定するだけでは、その位置のごみの性質によっては、多量のごみをつかめる場合もあり、少量のごみしかつかめない場合もある。そして、ごみをつかめる量が安定しなければ、クレーンの自動制御期間中、実際のごみの移動量と想定した移動量との差は累積的に開く。よって、最終的には想定した撹拌効果を得ることができなくなるおそれがある。また、想定通りのごみをつかめた場合であっても、つかんだごみの性質のばらつきにより、想定した撹拌効果を得ることができなくなることも考えられる。これらは、撹拌に限られず、クレーンによるごみの持ち上げ、ばらまき、投下、等の任意の作業における制御においても同様である。

　このように、性質が一定しないごみを運搬するクレーンを自動制御する場合、所望の制御結果が得られるようにクレーンの制御変数を決定する必要があるが、従来技術ではそのような制御変数を決定することはできないという問題があった。本発明の一態様は、ごみを運搬するクレーンについて、所望の制御結果が期待できる制御変数を決定することができる情報処理装置等を実現することを目的とする。

　上記の課題を解決するために、本発明の一態様に係る情報処理装置は、予測分布算出部と、制御変数探索部と、制御変数決定部と、を備える情報処理装置であって、上記予測分布算出部は、ごみを運搬するクレーンの制御変数と、該制御変数を用いて上記クレーンを制御した制御結果とを対応付けた制御結果データを用いて、当該制御変数と当該制御結果との関係を示す関数の予測分布を算出し、上記制御変数探索部は、上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索し、上記予測分布算出部は、上記制御変数探索部が検出した上記候補制御変数と、当該候補制御変数を用いて上記クレーンを制御した制御結果と、を用いて上記予測分布を更新し、上記制御変数決定部は、上記更新後の上記予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する。

　また、上記の課題を解決するために、本発明の一態様に係る制御変数決定方法は、１または複数の情報処理装置によって実行される制御変数決定方法であって、ごみを運搬するクレーンの制御変数と、該制御変数を用いて上記クレーンを制御した制御結果とを対応付けた制御結果データを用いて、当該制御変数と当該制御結果との関係を示す関数の予測分布を算出する予測分布算出ステップと、上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索する制御変数探索ステップと、上記制御変数探索ステップで検出した上記候補制御変数と、当該候補制御変数を用いて上記クレーンを制御した制御結果と、を用いて上記予測分布を更新する更新ステップと、上記更新後の上記予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する制御変数決定ステップと、を含む。

　本発明の一態様によれば、所望の制御結果が期待できる制御変数を決定することができる。

本発明の実施形態１に係る情報処理装置の要部構成の一例を示すブロック図である。上記情報処理装置を含む制御システムの概要を示す図である。クレーンの制御変数を決定する処理の一例を示すフローチャートである。ガウス過程回帰により算出した予測分布の平均と分散に基づいて構成した関数と、ロバストガウス過程回帰により算出した予測分布の平均と分散に基づいて構成した関数を示す図である。本発明の実施形態２に係る情報処理装置の要部構成の一例を示すブロック図である。カーネル関数のパラメータを最適化する処理の一例を示すフローチャートである。上記情報処理装置の効果を検証する実験の結果を示す図である。実験１０～１２における最適化終了時のタスクカーネルを示す図である。

　〔実施形態１〕
　　（システム概要）
　本発明の一実施形態に係る制御システム９の概要を図２に基づいて説明する。図２は、制御システム９の概要を示す図である。図示のように、制御システム９には、情報処理装置１Ａと、制御装置３と、クレーン５とが含まれる。

　制御システム９は、制御装置３によりクレーン５の動作を制御するシステムである。情報処理装置１Ａは、制御装置３が実行する制御の内容を規定する制御変数を算出する。情報処理装置１Ａが適切な制御変数を算出することにより、制御装置３によるクレーン５の適切な自動制御が実現される。

　クレーン５は、ごみの運搬に用いられるクレーンであり、例えばごみ処理施設等で用いられるものである。クレーン５は、例えば、ごみをつかむ複数の爪を備えたバケット、バケットの爪を開閉させる開閉機構、バケットを昇降させる昇降機構、バケットを水平方向に移動させる移動機構等を備えていてもよい。この場合、制御装置３は、開閉機構、昇降機構、および移動機構を制御することにより、クレーン５にごみの撹拌等の動作を行わせることができる。

　制御システム９では、情報処理装置１Ａに最適な制御変数を算出させるにあたり、まず、クレーン５に実行させるタスクの設定と、そのタスクをクレーン５に実行させる際の制御変数の設定とが行われる。

　例えば、バケットでつかんだごみを持ち上げた後、バケットを水平方向に移動させながら開閉させて、バケットの移動経路上にごみをばらまくことにより、当該ごみを撹拌するタスクをクレーン５に実行させるとする。この場合、ごみを均等にばらまくことができるようにするための制御変数、つまり、バケットの開閉制御のタイミングを特定できるような制御変数を設定すればよい。

　上記の場合、ごみをつかんでいるバケットを開放する開動作の開始後、所定量のごみがバケットから落ちたときにバケットを閉じる閉動作を開始し、その所定時間後に再度開動作を開始する、という一連の制御を繰り返せばごみをばらまくことができる。よって、上記所定量と、上記所定時間とを制御変数としてもよい。

　また、例えば、バケットの開動作開始から閉動作開始までの期間に落下したごみの重量、同期間におけるバケット内のごみの残量または重量の変化率、同期間の長さ、および同期間におけるバケットの移動距離などを制御変数としてもよい。また、例えば、開動作の終了後、自動的に閉動作を開始することとして、上記期間を開動作開始から閉動作終了までの期間としてもよい。この他にも、開動作を行う時間、閉動作を行う時間等を制御変数としてもよい。

　また、制御装置３が上記制御変数を用いてクレーン５を制御する際に使用するデータも特に限定されない。例えば、つかんだごみの重量の他、水分量、種類、撹拌度合い、表面状態を示す情報（例えばごみの表面を撮影した画像）等を、クレーン５を制御する際に使用してもよい。このようなデータのデータ形式は特に限定されず、数値データであってもよいし、画像データ等であってもよい。

　制御変数が設定された後、制御装置３によりクレーン５を制御して設定されたタスクを実行させる。そして、その制御結果の適切さを評価し、その評価結果をその制御における制御変数と共に情報処理装置１Ａに入力する。例えば、ごみを均等にばらまいて撹拌するというタスクであれば、バケットの移動経路上にばらまかれたごみの量が均等であるほど評価値が高くなるように評価すればよい。

　情報処理装置１Ａは、入力された制御変数と評価値に基づいて制御変数の最適化を行い、制御装置３は最適化された制御変数を用いて再度クレーン５にタスクを実行させる。このような処理を繰り返すことにより、情報処理装置１Ａは、所望の制御結果が期待できる制御変数を決定することができる。そして、これにより、制御装置３によるクレーン５の適切な自動制御が実現される。

　　（要部構成）
　情報処理装置１Ａの構成を図１に基づいて説明する。図１は、情報処理装置１Ａの要部構成の一例を示すブロック図である。なお、以下では、情報処理装置１Ａが、ベイズ最適化（以下、ＢＯと呼ぶ）により、所望の制御結果が期待できる制御変数を決定する例、つまりＢＯで制御変数を最適化する例を説明する。

　図示のように、情報処理装置１Ａは、情報処理装置１Ａの各部を統括して制御する制御部１０Ａ、情報処理装置１Ａが使用する各種データを記憶する記憶部２０、情報処理装置１Ａに対する入力を受け付ける入力部３０、および情報処理装置１Ａがデータを出力するための出力部４０を備えている。

　制御部１０Ａには、データ取得部１０１、予測分布算出部１０２、制御変数探索部１０３、および制御変数決定部１０４が含まれる。また、記憶部２０には制御結果データ２０１が記憶されている。

　データ取得部１０１は、ＢＯによる最適化に使用する学習データを取得する。具体的には、クレーン５の制御に用いられた制御変数とその制御結果の評価値とが制御結果データ２０１として記憶されているので、データ取得部１０１は、この制御結果データ２０１を学習データとして取得する。

　制御結果データ２０１にＮ点の制御変数が含まれていた場合、それらの制御変数は、

と表され、
それに対する評価値は、

と表される。

　予測分布算出部１０２は、データ取得部１０１が取得する制御結果データ２０１を用いて、制御変数と制御結果との関係を示す関数の予測分布を算出する。なお、この関数を以下では評価関数ｆ（θ）と呼ぶ。また、制御結果データ２０１に新たなデータが追加されたときには、予測分布算出部１０２は、そのデータが反映されるように予測分布を更新する。

　制御変数と制御結果との関係を、ガウスノイズε_ｎ～Ν（０，β）を用いて

と仮定すると、ガウス過程による評価関数の予測分布として以下の分布が得られる。

　ここで、ｋ_＊＝ｋ（θ，θ）であり、Ｋ_Θは［Ｋ_Θ］_ｉ，ｊ＝ｋ（θ_ｉ，θ_ｊ）で得られるグラム行列である。また、

である。ｋ_Θ，＊は、［ｋ_Θ，＊］_ｉ＝ｋ（θ_ｉ，θ）の縦ベクトルであり、ｋ（・，・）は、カーネル関数である。ここではカーネル関数のパラメータをα_ｋとする。

　平均関数μ（θ）は、制御結果データ２０１から予測される評価関数の平均値を示す。また、分散関数σ（θ）は、制御結果データ２０１から予測される評価関数の分散である。σ（θ）は、予測の不確実性を示し、制御結果データ２０１が不足している領域ではその値が大きくなる傾向がある。なお、後述する図４の薄い灰色部分が分散σを示している。σが大きいと、この灰色部分の幅が広がり、予測が不確実であることを把握できる。すなわち、予測の確実性を上げるために必要な制御結果データが不足していることがわかる。数式（３）から明らかなように、分散関数σ（θ）に含まれるカーネル関数およびカーネル関数のパラメータα_ｋは、予測分布の算出に影響を与える。詳細は後述するが、予測分布の算出の際には、パラメータα_ｋの最適化が行われる。

　制御変数探索部１０３は、最適な制御変数を求めるために、最適な制御変数の候補（候補制御変数）を探索する。具体的には、制御変数探索部１０３は、平均関数μ（θ）と分散関数σ（θ）を用いて、下記の獲得関数ａ（θ）を最大にする制御変数を探索する。この探索で検出された制御変数が、最適な制御変数の候補となる。この探索は、ＵＣＢ（Upper Confidence Bound）戦略に基づいている。なお、数式（５）におけるκは探索と利用を調節するためのパラメータである。無論、他の方法で新たな制御変数を探索することも可能である。例えば、ＰＩ（Probability of Improvement）戦略や、ＥＩ（Expected Improvement）戦略で最適な制御変数の候補を探索してもよい。

　なお、評価関数の値を最小化する制御変数を最適な制御変数として求める場合（例えば短時間で完了させることが好ましいタスクについて、タスク完了までの所要時間を評価値とする場合等）には、獲得関数ａ（θ）を最小にする制御変数を探索すればよい。

　制御変数探索部１０３が検出した最適な制御変数の候補は、クレーン５の制御に用いられる。そして、その制御結果（より詳細には制御結果の評価値）が得られて、情報処理装置１Ａに入力される。入力されたデータ（最適な制御変数の候補と評価値）は、制御結果データ２０１に追加される。その後、当該データが追加された制御結果データ２０１を用いて予測分布の更新が行われる。なお、評価値の算出は情報処理装置１Ａが行ってもよいし、他の装置またはユーザが行ってもよい。

　制御変数決定部１０４は、予測分布算出部１０２による更新後の予測分布に基づいて構成される評価関数に基づき、制御変数の最適値を決定する。制御変数の最適値とは、更新後の予測分布からみて最適であると推論される値であり、情報処理装置１Ａが実行する、制御変数の最適化演算の解であるともいえる。クレーン５を制御する際の制御変数の値をこの最適値に設定することにより、最善の制御結果が期待できる。

　最適値の決定方法は特に限定されず、種々の方法を適用可能である。例えば、制御変数決定部１０４は、制御変数探索部１０３が検出した制御変数の候補が、既に評価済みであった場合には、その候補を最適な制御変数と決定してもよい。制御変数探索部１０３が検出した最適な制御変数の候補が、既に評価済みであった場合には、その制御変数は、評価関数の極値ではなく、最大値（または最小値）に対応している可能性が高いためである。

　以上のように、情報処理装置１Ａは、制御結果データ２０１を用いて評価関数の予測分布を算出する予測分布算出部１０２と、上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索する制御変数探索部１０３と、を備えている。また、予測分布算出部１０２は、制御変数探索部１０３が検出した新たな候補制御変数と当該候補制御変数を用いてクレーン５を制御した制御結果とを用いて予測分布を更新する。そして、情報処理装置１Ａは、上記更新後の予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する制御変数決定部１０４を備える。なお、より詳細には、上記関数は、上記更新後の予測分布の平均と分散に基づいて構成される（数式（５））。

　ここで、「発明が解決しようとする課題」で説明したように、ごみピット内のごみの性質は一定しない。このため、クレーン５の制御変数と制御結果との関係は、定式化することが困難である。

　そこで、上記の構成によれば、制御変数と制御結果とを対応付ける関数の予測分布に基づいて、制御変数の最適値を決定する構成としている。これにより、性質が一定しないごみを運搬するクレーンについて、所望の制御結果が期待できる制御変数を決定することができる。

　また、上記の構成によれば、予測分布に基づいて候補制御変数を探索するので、検出した候補制御変数が最適な制御変数ではなかったとしても、その候補制御変数は予測分布を適切に更新するための有用なデータとなる。よって、例えばクレーン５の制御変数をランダムに選定してクレーン５の制御結果を観察するという試行を繰り返して最適な制御変数を決定する場合と比べて、試行の回数を少なく抑えることが可能になる。

　　（処理の流れ）
　情報処理装置１Ａがクレーン５の制御変数を決定する処理（制御変数決定方法）の流れを図３に基づいて説明する。図３は、クレーン５の制御変数を決定する処理の一例を示すフローチャートである。

　Ｓ１では、データ取得部１０１が記憶部２０に記憶されている制御結果データ２０１を読み出して、これを初期データに設定する。この段階では、制御結果データ２０１には、少なくとも１回の試行に基づく制御結果（１つの制御変数と、その制御変数を用いた制御の結果を評価した評価値）が含まれていればよい。

　Ｓ２では、予測分布算出部１０２が、カーネル関数のパラメータを最適化する。上述のように、カーネル関数のパラメータはα_ｋである。最適化の方法は特に限定されず、例えば一般的なＢＯで適用されている最適化手法を適用することもできる。

　Ｓ３（予測分布算出ステップ）では、予測分布算出部１０２は、Ｓ１で設定された初期データと、Ｓ２で最適化したカーネル関数のパラメータとを用いて、クレーン５の制御結果を評価する評価関数の予測分布を算出する。上述のように、この予測分布は数式（１）～（３）で表される。

　Ｓ４（制御変数探索ステップ）では、制御変数探索部１０３が、獲得関数が最大となるクレーン５の制御変数θ^＊を探索する。制御変数θ^＊は、制御変数θの最適値の候補である。上述のように、この処理は上述の数式（４）（５）で表される。

　Ｓ５では、制御変数決定部１０４が、Ｓ４で特定された制御変数θ^＊が最適値であるか否かを判定する。最適値であるか否かの判定方法は特に限定されない。例えば、制御変数決定部１０４は、直近のＳ４で検出された制御変数θ^＊が、それ以前に検出された制御変数と一致した場合に、制御変数θ^＊が最適値であると判定し、一致しない場合には最適値ではないと判定してもよい。なお、それ以前に検出された制御変数とは、制御結果データ２０１に含まれている制御変数であり、その制御変数を用いたクレーン５の制御と、その制御についての評価値の算出が済んでいるものを指す。

　Ｓ５にて最適値であると判定された場合（Ｓ５でＹＥＳ）には処理はＳ１０に進む。Ｓ１０（制御変数決定ステップ）では、制御変数決定部１０４は、クレーン５の制御変数の最適値をθ^＊に決定し、これにより図３の処理は終了する。なお、Ｓ１０において、制御変数決定部１０４は、決定したθ^＊を出力部４０に出力させてもよい。

　一方、Ｓ５にて制御変数θ^＊が最適値ではないと判定した場合（Ｓ５でＮＯ）、制御変数決定部１０４は、当該制御変数θ^＊を出力部４０に出力させる等して情報処理装置１Ａのユーザに通知する。ユーザは、この通知に基づいて、当該制御変数θ^＊に従ったクレーン５の制御を制御装置３に実行させ、その制御結果を観測し、評価する。評価方法は特に限定されず、例えば理想的な制御結果と実際の制御結果との誤差を評価値として算出してもよい。評価結果は、入力部３０を介して情報処理装置１Ａに入力される。

　Ｓ６では、データ取得部１０１が、上述のようにして入力された評価結果を取得する。そして、Ｓ７では、データ取得部１０１は、Ｓ６で取得した評価結果と、直近のＳ４で決定された制御変数θ^＊とを対応付けて、制御結果データ２０１に追加する。

　Ｓ８では、予測分布算出部１０２が、Ｓ７で評価結果と制御変数θ^＊が追加された制御結果データ２０１を用いてカーネル関数のパラメータを最適化する。そして、Ｓ９（更新ステップ）では、予測分布算出部１０２は、Ｓ７で評価結果と制御変数θ^＊が追加された制御結果データ２０１と、Ｓ８で最適化したカーネル関数のパラメータとを用いて、評価関数の予測分布を算出する。この後処理はＳ４に戻り、制御変数探索部１０３による制御変数の探索が行われる。このように、制御変数の追加と予測分布の更新とを繰り返すことにより、所望の制御結果が期待できる制御変数を決定することができる。

　〔実施形態２〕
　本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

　　（装置構成）
　本実施形態に係る情報処理装置１Ｂの構成を図５に基づいて説明する。図５は、情報処理装置１Ｂの要部構成の一例を示すブロック図である。図示のように、情報処理装置１Ｂは、情報処理装置１Ｂの各部を統括して制御する制御部１０Ｂを備えている。図１に示す情報処理装置１Ａの制御部１０Ａと、制御部１０Ｂとの相違点は、制御部１０Ｂには予測分布算出部１０２の代わりに予測分布算出部３０１が含まれている点にある。

　予測分布算出部３０１は、予測分布算出部１０２と同様に、制御結果データ２０１を用いて予測分布を算出および更新するが、以下説明するように、その算出および更新の方法が予測分布算出部１０２とは異なっている。

　予測分布算出部３０１は、複数の制御結果データのそれぞれの予測分布算出における寄与度を、当該制御結果データの信頼度に応じた寄与度として、予測分布を算出または更新する。よって、予測分布の算出または更新に用いる制御結果データに信頼性の低いものが含まれていた場合であっても、そのような制御結果データが予測分布に与える影響を相対的に低くすることができる。そして、これにより妥当な制御変数を速やかに決定することが可能になる。

　なお、制御結果データの信頼度とは、その制御結果データが、予測分布の全体からみて、妥当な値であるかを示す指標である。例えば、複数の制御結果データの中からある制御結果データを除いたときに、残りの制御結果データの予測分布がガウス分布に近付くような場合には、除いた制御結果データは真の関数（評価関数）から外れた外れ値である可能性が高く、信頼度は低いといえる。逆に、複数の制御結果データの中からある制御結果データを除かない方が、除くよりも予測分布がガウス分布に近付くような場合には、その制御結果データの信頼度は高いといえる。

　実施形態１の予測分布算出部１０２はガウス過程回帰により予測分布の算出および更新を行うのに対し、本実施形態の予測分布算出部３０１はガウス過程回帰をロバスト化したロバストガウス過程回帰により予測分布の算出および更新を行う。ガウス過程回帰をロバスト化することにより、制御結果データに外れ値が含まれていても、安定して予測分布の算出および更新を行うことが可能になる。

　ロバストガウス過程回帰とガウス過程回帰との比較例を図４に示す。図４には、ガウス過程（ＧＰ）回帰により算出した予測分布の平均と分散に基づいて構成した関数と、ロバストガウス過程（ＲＧＰ）回帰により算出した予測分布の平均と分散に基づいて構成した関数を示している。

　これらの関数は何れも同じ制御結果データに基づいて構成したものである。ただし、ＧＰでは全ての制御結果データを用いて関数を構成するのに対し、ＲＧＰでは図示のような外れ値の影響を低減または除外して関数を構成する。

　外れ値を含む制御結果データを用いてガウス過程回帰を行って予測分布を算出した場合、外れ値の影響により、真の関数（評価関数）と齟齬のある予測分布が算出されることがある。ＧＰを適用する場合でも、多数の制御結果データを用いれば、予測分布を真の関数に近付けることが可能である。しかし、同数の制御結果データに基づいて関数を構成した図４の場合、ＲＧＰで構成したものは真の関数に極めてよく一致し、ＧＰで構築したものは真の関数から外れている部分が多いという結果となっている。

　そして、図４に示すように、ＧＰで構築した関数はθ＝０．４のとき最大値となるが、真の関数によればθ＝０．４のときには実際には最大値とはならない。一方、ＲＧＰでは真の関数と略一致する関数が構築されているので、ＲＧＰで構築した関数を用いることにより、評価値が最大となるθの値が２．０であると求めることができる。

　このように、同じ制御結果データに基づいて関数を構成した場合、ＧＰでは評価値が最大となるθを求めることができず、ＲＧＰでは評価値が最大となるθを求めることができる場合がある。これは、後述するように、ＲＧＰでは尤度関数としてスチューデントのｔ分布を用いており、これにより、信頼度の低い制御結果データを外れ値として、その寄与度を低くすることができるからである。

　　（予測分布の算出および更新に用いる数式について）
　実施形態１と同じく、制御結果データ２０１にＮ点の制御変数が含まれていた場合、それらの制御変数は、

と表され、
それに対する評価値は、

と表される。

　また、入出力データ間の関数は下記のように表される。

　ここで、上記関数の事前分布を下記のように設定する。

　本実施形態では、外れ値が存在しても安定して評価関数の回帰を行うことができるようにするため、ガウス過程回帰における尤度関数として、ガウス分布の代わりにより外れ値に頑健な分布を適用する。例えば、尤度関数としてスチューデントのｔ分布を用いてもよい。この場合、尤度関数は下記の数式（７）で表される。なお、数式（７）におけるａ、ｂは尤度関数のパラメータであり、Γはガンマ関数を表す。

　ここで、ガウス分布は、スチューデントのｔ分布の共役事前分布ではない。このため、事後分布を解析的に計算することはできない。そこで、事後分布の解析解を近似的に求める。例えば、以下説明するように、変分ベイズ法を用いて、事後分布の解析解を近似的に求めることができる。

　まず、スケールミクスチャーレプレゼンテーション（scale-mixture representation）により、尤度関数であるスチューデントのｔ分布を、以下のようなガウス分布とガンマ分布で表現する。

　これにより、尤度関数を、分散の逆数に事前分布としてガンマ分布を持つガウス分布とみなすことができる。なお、数式（８）～（１０）におけるτ_ｎはｎ番目の制御結果データ２０１に対するガウス分布の分散の逆数である。τ_ｎは、ｎ番目の制御結果データ２０１の信頼度を示している。

　予測分布算出部３０１は、変分推論により、このモデルの事後分布の解析解を近似的に求める。具体的には、予測分布算出部３０１は、対数周辺尤度の下界を最大化する変分分布を求める。この変分分布は事後分布の近似であるから、予測分布算出部３０１は、事後分布を近似的に求めることができる。

　ここで、

である。

　ｆ、Ｔの分布が独立であると仮定し、変分分布ｑ（ｆ）と、

を導入すれば、予測分布算出部３０１は、下記の数式（１２）により下界Ｆνを求めることができる。

　そして、予測分布算出部３０１は、上記数式（１２）を用いて周辺尤度の下界を最大化する変分分布を求める。この変分分布は上述のように事後分布の近似である。

　変分分布ｑ（ｆ）、ｑ（τ_ｎ）の更新則は、以下のように解析的に求めることができる。上述のように、τ_ｎは、ｎ番目の制御結果データ２０１の信頼度を示している。よって、予測分布算出部３０１は、下界Ｆνを最大にするｑ（τ_ｎ）すなわちτ_ｎの事後分布を導出した上で、評価関数の予測分布（平均と分散）を求めることにより、信頼度に基づいた予測分布を算出することができる。言い換えれば、制御結果データ２０１の信頼度を示すτ_ｎの事後分布が、予測分布の算出において、当該制御結果データ２０１に対する重みのように働くので、信頼度が相対的に低い制御結果データ２０１の予測分布算出への寄与度を下げることができる。これにより、信頼度が相対的に低い制御結果データ２０１が予測分布に与える影響をゼロにするかまたは低減させることができる。

　予測分布算出部３０１は、上記の数式により求めた事後分布の近似を用いて、任意の入力θ_＊に対する評価関数の予測の平均関数と分散関数を求める。具体的には、予測分布算出部３０１は、平均関数と分散関数を以下の数式（２０）（２１）で算出する。

　そして、制御変数探索部１０３は、上記の平均関数と分散関数を用いて獲得関数が最大となる点、すなわち最適な制御変数の候補を探索する。例えば、ＵＣＢ戦略を適用する場合、制御変数探索部１０３は、実施形態１と同様に数式（５）により獲得関数を計算し、この獲得関数が最大となる点を探索する。

　　（類似タスクの制御結果データの利用）
　上述のように、本実施形態におけるタスクは、クレーン５に実行させる動作あるいは作業である。タスクが変われば最適な制御変数も変わる。しかし、他のタスクであっても類似したタスク（以下、類似タスクと呼ぶ）であれば評価関数の予測分布も類似する場合がある。そのような場合には、当該類似タスクの制御結果データを利用することができる。以下では、他のタスクの制御結果データを利用して予測分布を算出または更新する方法について述べる。

　他のタスクの制御結果データを利用する場合、予測分布算出部３０１は、あるタスクについての予測分布の算出および更新において、他のタスクの制御結果データの予測分布算出における寄与度を、当該他のタスクと上記あるタスクとの類似度に応じた寄与度として、予測分布を算出または更新する。なお、上記他のタスクは類似タスクを含む。また、上記他のタスクは非類似のタスクを含んでいてもよい。

　この構成によれば、他のタスクの制御結果データを用いて予測分布の算出および更新を行うので、あるタスクの制御結果データのみを用いる場合と比べて、少ない更新回数で妥当な制御変数を決定することが可能になる。また、他のタスクの制御結果データは、あるタスクとの類似度に応じた寄与度で予測分布算出に反映されるから、複数のタスクの中から類似タスクを選別するといった手間も不要である。

　以下、他のタスクの制御結果データを利用する方法について具体的に説明する。他のタスクの制御結果データを利用する場合、予測分布算出部３０１は、これまでに探索した制御変数

と、評価値

と、データ点に対するタスクラベル

と、を学習データとして、類似タスクの評価関数を回帰する。

　Ｍ個のタスクを扱う場合、タスクラベルをｔ_ｎ∈｛１，…，Ｍ｝とする。そして、同じタスクの制御結果データのタスクラベルには、同じ実数値を割り当てる。つまり、タスクラベルは、ΘとＹの制御結果データが、何れのタスクを実行したときのデータであるかを示す。言い換えれば、タスクラベルは、同一タスクを区別するためのラベルである。

　タスクごとに評価関数を回帰するために、タスクラベルをロバストガウス過程の入力として扱う。そのため、下記の数式（２２）に示すように、入力カーネルｋ（θ，θ’）とタスクカーネルｔ_ｎ（ｔ，ｔ’）との積をカーネル関数とする。
ｋ（（θ，ｔ），（θ’，ｔ’））＝ｋ_ｔ（ｔ，ｔ’）ｋ_θ（θ，θ’）　　　（２２）
　タスクカーネルは、タスク類似度を示す関数であるが、入力であるタスクラベルｔ_ｎが同一タスクを区別するためのラベルである。このため、タスクラベルｔ_ｎの値からタスクの類似度を計算することはできない。また、タスク数がＭ個であるため、タスクカーネルの出力はＭ×Ｍ個のパターンである。そのため、Ｍ次正方行列Ｋ_ｔを用いてタスクカーネルを表現し、タスクカーネルに入力されたタスクラベルが示す要素の値を、タスクカーネルの出力とする。
ｋ_ｔ（ｔ，ｔ’）＝［Ｋ_ｔ］_ｔ，ｔ’　　　　　（２３）
　また、タスクカーネルをカーネル関数として用いるためには、Ｋ_ｔが正定行列である必要がある。そこで、コレスキー分解を利用して、Ｋ_ｔを下三角行列ＬによってＫ_ｔ＝ＬＬ^Ｔと分解する。これにより、下三角行列ＬのＭ（Ｍ＋１）／２個の要素をタスクカーネルのパラメータα_ｔとし、このパラメータα_ｔを変分推論の枠組みの中で最適化して、制御結果データからタスク間の類似度を学習することができる。なお、タスク間の類似度を学習するとは、タスク間の類似度が反映されるように（類似タスクの制御結果データの寄与度が非類似タスクの制御結果データの寄与度よりも大きくなるように）事後分布を更新することを意味する。

　このようにして最適化されたパラメータα_ｔは、他のタスクの制御結果データのそれぞれの寄与度（重みと呼ぶこともできる）を示している。よって、予測分布算出部３０１は、最適化されたパラメータα_ｔを用いて評価関数の予測分布を求めることにより、他のタスクの制御結果データの寄与度を、当該他のタスクと対象のタスクとの類似度に応じた寄与度として、予測分布を算出することができる。これは予測分布の更新においても同様である。

　　（処理の流れ）
　情報処理装置１Ｂがクレーン５の制御変数を決定する処理の流れを説明する。この処理の流れは、図３に示した情報処理装置１Ａの処理の流れと概ね同様であるが、Ｓ２およびＳ８とＳ３の処理が相違している。以下ではこの相違点を中心に説明する。

　図６は、カーネル関数のパラメータを最適化する処理の一例を示すフローチャートである。図６の処理は、図３のＳ１と同様の処理の後、すなわちデータ取得部１０１による初期データの設定後に行われる処理であり、図３のＳ２の処理に対応している。また、情報処理装置１Ｂは、図３のＳ８の処理の代わりに、図６の処理を実行する。

　Ｓ２１では、予測分布算出部３０１が、カーネル関数のパラメータを初期化する。初期化するカーネル関数のパラメータは、α_ｋとα_ｔの２つである。続いて、Ｓ２２では、予測分布算出部３０１は、変分分布ｑ（ｆ）、ｑ（τ_ｎ）を更新する。変分分布ｑ（ｆ）、ｑ（τ_ｎ）の更新則は、上記数式（１３）～（１９）のとおりである。

　Ｓ２３では、予測分布算出部３０１は、変分下界が収束したか否かを判定する。変分下界が収束したときの変分分布ｑ（ｆ）、ｑ（τ_ｎ）が、最適化された変分分布である。なお、収束条件は適宜設定すればよい。例えば、ｑ（ｆ）とｑ（τ_ｎ）の更新の前後でＦνを計算し、その差分が所定の値（例えば０．１）を下回ったときに収束したと判定してもよい。

　Ｓ２３で収束したと判定された場合（Ｓ２３でＹＥＳ）には、処理はＳ２４に進む。一方、収束していないと判定された場合（Ｓ２３でＮＯ）には、処理はＳ２２に戻り、変分分布が再度更新される。

　Ｓ２４では、予測分布算出部３０１は、変分下界が最大となるカーネル関数のパラメータα_ｋ ^＊、α_ｔ ^＊を特定する。この演算には、上述の数式（１２）が使用される。なお、数式（１２）のｑ（ｆ）、ｑ（Ｔ）、ｐ（ｆ）にはカーネル関数によって求める行列Ｋが含まれている。このため、Ｆνはα_ｋ、α_ｔをパラメータとして持つ関数として扱うことができる。よって、例えば、任意の非線形最適化手法によって最適化することができる。非線形最適化手法の一例としては勾配法が挙げられる。

　Ｓ２５では、予測分布算出部３０１は、最適化を終了するか否かを判定する。終了条件は適宜設定すればよい。例えば、Ｓ２２～Ｓ２５の処理の前後でＦνを計算し、その差分が所定の値（例えば０．１）を下回ったときに最適化を終了すると判定してもよい。

　Ｓ２５で終了すると判定された場合（Ｓ２５でＹＥＳ）には、図６の処理は終了する。この後、図３のＳ３以降と同様の処理が行われる。一方、終了しないと判定された場合（Ｓ２５でＮＯ）には、処理はＳ２２に戻り、変分分布が再度更新される。

　以上のように、図６の処理では、変分下界を最大化する変分分布の計算と、カーネル関数のパラメータの最適化が交互に行われる。これにより、事後分布の近似である変分分布を求めることができる。また、図６の処理では、カーネル関数のパラメータα_ｋが最適化されると共に、α_ｔも最適化されるので、タスク間の類似度を学習することができる。

　なお、変分下界Ｆνは、マルチタスク化を導入したロバストガウス過程が、制御結果データ２０１をうまく表現できているかを近似的に計算したものであるといえる。そのため、変分下界Ｆνを最大化するパラメータα_ｔを求めることにより、制御結果データ２０１に適した類似度を求めることができる。

　Ｓ２２～Ｓ２５の処理を繰り返すことにより、類似したタスクの制御結果データ２０１は利用され、類似していないタスクの制御結果データ２０１の寄与度は低くなるように、パラメータα_ｔが最適化される。言い換えれば、Ｓ２２～Ｓ２５の処理を繰り返すことにより、他のタスクの制御結果データは、対象のタスクとの類似度に応じて重み付けされる。

　以上の処理によれば、あるタスクについての予測分布を算出する際に、他のタスクの制御結果データを、当該他のタスクと上記あるタスクとの類似度に応じた寄与度で適切に考慮して再利用することができる。したがって、あるタスクの制御結果データの数を抑えつつ、妥当な制御変数を決定することができる。

　〔実施例〕
　情報処理装置１Ａおよび１Ｂの効果を検証するための実験を行った。その結果を図７および図８に基づいて説明する。図７は、実験結果を示す図である。図８は、実験１０～１２における最適化終了時のタスクカーネルを示す図である。

　なお、実験は、実機のクレーン５ではなく、実験室内で使用できる程度に小型の模擬クレーンを用い、模擬的なごみとしてシュレッダーによって裁断された紙と、玩具用ゴムボールを混ぜ合わせたものを用いた。

　クレーンに実行させるタスクは、クレーンでごみをつかんで持ち上げた後、所定距離を移動させながら、その間に均一にごみをばらまくというものとした。具体的には、ごみをつかんでいるバケットを開放する開動作の開始後、重量θ_１のごみがバケットから落ちたときにバケットを閉じる閉動作を開始し、その時間θ_２後に再度開動作を開始する、という動作をクレーンに実行させた。上記θ_１とθ_２が制御変数である。

　制御結果の評価においては、クレーンの移動距離が増加する間、バケットがつかんでいるごみの重量が一定の割合で減少することを理想の推移とした。そして、この理想の推移と実際の推移との差に基づいて評価値を算出した。具体的には、クレーンがつかんだごみの重量で正規化した、実際のつかみ重量の系列データｗと、理想的なつかみ重量の系列データｗ_Ｉとの差を二乗平均平方根（ＲＭＳ）で計算し、以下の数式（２４）で評価した。Ｅ（θ）＝５－１０×ＲＭＳ（ｗ（θ）－ｗ_Ｉ）　　　　（２４）
　上述のように、模擬的なごみも実際のごみピットに貯留されているごみと同様に不均質であるから、同じ動作パラメータでもｗ（θ）が大きく異なる場合があり、評価値Ｅ（θ）に影響する。

　また、最初につかむごみの重量は１２０～３００ｇとし、移動距離は４０ｃｍとした。１回の実験では、最適化後の制御変数θ_１とθ_２を適用してタスクを１０回実行し、それらの制御結果を上記数式（２４）で評価した。

　実験は１～１２の全１２回行った。このうち、実験１～３では、情報処理装置１Ａにより制御変数θ_１、θ_２の最適化を行った。また、実験４～９では、情報処理装置１Ｂにより制御変数θ_１、θ_２の最適化を行った。ただし、実験４～９では、類似タスクのデータは利用していない。そして、実験１０～１２では、情報処理装置１Ｂにより、類似タスクのデータを利用して制御変数θ_１、θ_２の最適化を行った。類似タスクは、クレーンの移動距離を３０ｃｍとしたタスクである。

　図７に示すように、実験１～１２で最適化された制御変数θ_１、θ_２にはばらつきがあるが、評価値は何れも高水準であり、妥当な最適化が行われたことが確認された。

　実験１～３と４～６の結果を比較すると、最適化に要した試行回数に差が生じていることがわかる。つまり、情報処理装置１Ｂによる最適化では、情報処理装置１Ａによる最適化と比べて、少ない試行回数で妥当な制御変数を算出できることがわかった。なお、最適化に要した試行回数とは、最適な制御変数を決定するまで（図３のＳ５でＹＥＳと判定されるまで）に、獲得関数により決定した制御変数を用いてクレーンを動作させ、新たな制御結果を取得した回数である。

　また、実験７～９と１０～１２の結果を比較しても、最適化に要した試行回数に差が生じていることがわかる。つまり、類似タスクの制御結果データを利用することにより、さらに少ない試行回数で妥当な制御変数を算出できることがわかった。

　また、図８には、実験１０～１２における最適化終了時のタスクカーネルを示している。同図の縦軸および横軸はタスクラベルを示し、数値はそれぞれのタスク間の類似度を示している。図８に示すように、移動距離が４０ｃｍのタスクと、移動距離が３０ｃｍのタスク（類似タスク）との類似度（予測分布の算出における寄与度）を示す非対角成分９－２の値（１．３５）が、対角成分９－１の値の一方（０．９６）と比べて高い数値となっている。このことから、予測分布の算出において、類似タスクの制御結果データが利用されていることがわかる。

　なお、図には示していないが、上記タスクにおけるクレーンの移動距離を２０ｃｍに変更し、類似タスクとしてクレーンの移動距離が３０ｃｍのタスクと、４０ｃｍのタスクを設定して同様の実験を行った。その結果、上述の各結果と同精度の制御変数θ_１、θ_２を１０回程度の少ない試行回数で算出することができた。この場合における最適化終了時のタスクカーネルも、図８の例と同様に非対角成分の値が大きく、類似タスクの制御結果データが利用されていることがわかった。

　また、実機のクレーン５を用いてごみピット内でごみをばらまく実験についても行った。結果は、上述の各例と同様であり、情報処理装置１Ａにより妥当な制御変数を算出できること、情報処理装置１Ｂによればより少ない試行回数で妥当な制御変数を算出できることがわかった。

　また、実機のクレーン５を用いた実験では、オペレータにもタスクを実行してもらい、その結果を上記数式（２４）で評価した。そして、情報処理装置１Ｂが最適化した制御変数を用いた制御結果の評価値と、オペレータによる制御結果の評価値とについて、ｔ検定を行ったところ有意差なしとの結果となった。つまり、情報処理装置１Ｂが最適化した制御変数を用いた制御は、オペレータによる制御と同程度の高水準な制御であったといえる。

　〔ソフトウェアによる実現例〕
　情報処理装置１Ａおよび１Ｂの制御ブロック（特に制御部１０Ａおよび制御部１０Ｂに含まれる各部）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、情報処理装置１Ａおよび１Ｂは、各機能を実現するソフトウェアであるプログラム（制御変数決定プログラム）の命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　〔変形例〕
　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

　例えば、実施形態１の情報処理装置１Ａにおいて、類似タスクの制御結果データを利用した最適化を行うこともできる。この場合、数式（２２）で示されるカーネル関数を使用し、図３のＳ２、８でカーネル関数のパラメータα_ｔについても最適化すればよい。

　また、上述の各実施形態で説明した各処理の実行主体は、適宜変更することが可能である。図３に示される制御変数算出方法は、複数の情報処理装置によって実行されてもよい。同様に、図６に示される制御変数決定方法も複数の情報処理装置によって実行されてもよい。

　また、上述の各実施形態では、ごみをばらまいて撹拌するタスクにおける制御変数を最適化する例を説明したが、タスクはごみを運搬するクレーンに実行させるものであればよく、その内容は特に限定されない。例えば、クレーンにごみをつかむ動作を行わせるタスク、つかんだごみを持ち上げる動作を行わせるタスク、持ち上げたごみを投下する動作を行わせるタスクなどの制御変数を最適化することも可能である。

１Ａ　　　　情報処理装置
１０２　　　予測分布算出部
１０３　　　制御変数探索部
１０４　　　制御変数決定部
２０１　　　制御結果データ
１Ｂ　　　　情報処理装置
３０１　　　予測分布算出部
３　　　　　制御装置
５　　　　　クレーン
９　　　　　制御システム

Claims

　予測分布算出部と、
　制御変数探索部と、
　制御変数決定部と、を備える情報処理装置であって、
　上記予測分布算出部は、ごみを運搬するクレーンの制御変数と、該制御変数を用いて上記クレーンを制御した制御結果とを対応付けた制御結果データを用いて、当該制御変数と当該制御結果との関係を示す関数の予測分布を算出し、
　上記制御変数探索部は、上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索し、
　上記予測分布算出部は、上記制御変数探索部が検出した上記候補制御変数と、当該候補制御変数を用いて上記クレーンを制御した制御結果と、を用いて上記予測分布を更新し、
　上記制御変数決定部は、上記更新後の上記予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する、情報処理装置。
　上記予測分布算出部は、複数の上記制御結果データのそれぞれの上記予測分布算出における寄与度を、当該制御結果データの信頼度に応じた寄与度として、上記予測分布を算出または更新する、請求項１に記載の情報処理装置。
　上記予測分布算出部は、上記制御変数を用いて上記クレーンに行わせるタスクとは異なる他のタスクの制御結果データの上記予測分布算出における寄与度を、当該他のタスクと上記タスクとの類似度に応じた寄与度として、上記予測分布を算出または更新する、請求項１または２に記載の情報処理装置。
　請求項１から３の何れか１項に記載の情報処理装置と、
　上記制御変数を用いて上記クレーンを制御する制御装置と、
　上記クレーンと、を含む制御システム。
　１または複数の情報処理装置によって実行される制御変数決定方法であって、
　ごみを運搬するクレーンの制御変数と、該制御変数を用いて上記クレーンを制御した制御結果とを対応付けた制御結果データを用いて、当該制御変数と当該制御結果との関係を示す関数の予測分布を算出する予測分布算出ステップと、
　上記予測分布に基づいて上記制御変数の最適値の候補である候補制御変数を探索する制御変数探索ステップと、
　上記制御変数探索ステップで検出した上記候補制御変数と、当該候補制御変数を用いて上記クレーンを制御した制御結果と、を用いて上記予測分布を更新する更新ステップと、
　上記更新後の上記予測分布に基づいて構成される関数を用いて、上記制御変数の最適値を決定する制御変数決定ステップと、を含む制御変数決定方法。
　請求項１に記載の情報処理装置としてコンピュータを機能させるための制御変数決定プログラムであって、上記予測分布算出部、上記制御変数探索部、および上記制御変数決定部としてコンピュータを機能させるための制御変数決定プログラム。