WO2021002465A1

WO2021002465A1 - 情報処理装置、ロボットシステム、および、情報処理方法

Info

Publication number: WO2021002465A1
Application number: PCT/JP2020/026254
Authority: WO
Inventors: 城志高橋; 智紀安齋
Original assignee: 株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ
Priority date: 2019-07-03
Filing date: 2020-07-03
Publication date: 2021-01-07
Also published as: US20220113724A1; JPWO2021002465A1; CN114051443A

Abstract

実施形態にかかる情報処理装置は、取得部と、推論部と、を備える。取得部は、物体の画像情報、および、物体を把持する把持部と物体との接触状態を表す触覚情報を取得する。推論部は、画像情報の第１寄与度および触覚情報の第２寄与度の少なくとも一方に基づいて、物体の位置および姿勢の少なくとも一方を示す出力データを得る。

Description

情報処理装置、ロボットシステム、および、情報処理方法

　本発明の実施形態は、情報処理装置、ロボットシステム、および、情報処理方法に関する。

　把持部（ハンド部など）により物体を把持して運搬するロボットシステムが知られている。このようなロボットシステムは、例えば、物体を撮像した画像情報などから物体の位置および姿勢などを推定し、推定した情報に基づいて物体の把持を制御する。

Jaekyum　Kim,　et　al.，　"Robust　Deep　Multi-modal　Learning　Based　on　Gated　Information　Fusion　Network"，　arXiv:　1807.06233,　2　Nov　2018. Arevalo,　John,　et　al.,　"GATED　MULTIMODAL　UNITS　FOR　INFORMATION　FUSION",[online]、　retrieved　from　the　Internet:　<URL:https://openreview.net/pdf?id=Hy-2G6ile>

　発明が解決しようとする課題は、物体の位置および姿勢の少なくとも一方をより高精度に推定可能とすることにある。

図１は、実施形態の情報処理装置を含むロボットシステムのハードウェア構成例を示す図である。図２は、ロボットの構成例を示す図である。図３は、情報処理装置のハードウェアブロック図である。図４は、情報処理装置の機能構成の一例を示す機能ブロック図である。図５は、ニューラルネットワークの構成例を示す図である。図６は、実施形態における学習処理の一例を示すフローチャートである。図７は、実施形態における制御処理の一例を示すフローチャートである。図８は、変形例における異常検出処理の一例を示すフローチャートである。

　以下、図面を参照しながら実施形態について詳細に説明する。

　図１は、本実施形態の情報処理装置１００を含むロボットシステム１のハードウェア構成例を示す図である。図１に示すように、ロボットシステム１は、情報処理装置１００と、コントローラ２００と、ロボット３００と、センサ４００と、を備えている。

　ロボット３００は、情報処理装置１００によって位置および姿勢の少なくとも一方（軌道）が制御されて移動する移動体の例である。ロボット３００は、例えば、物体を把持する把持部（把持装置）、複数のリンク、複数の関節、および、関節それぞれを駆動する複数の駆動装置（モータなど）を備える。以下では、物体を把持する把持部を少なくとも備え、把持した物体を移動させるロボット３００を例に説明する。

　図２は、このように構成されるロボット３００の構成例を示す図である。図２に示すように、ロボット３００は、把持部３１１と、撮像部（撮像装置）３０１と、触覚センサ３０２と、を備えている。把持部３１１は、移動させる物体５００を把持する。撮像部３０１は、物体５００を撮像して画像情報を出力する撮像装置である。撮像部３０１は、ロボット３００に備えられる必要はなく、ロボット３００の外部に設置されてもよい。

　触覚センサ３０２は、把持部３１１と物体５００との接触状態を表す触覚情報を取得するセンサである。触覚センサ３０２は、例えば、ゲル状の素材を物体５００に接触させ、接触により生じたゲル状の素材の変位を、撮像部３０１とは異なる撮像装置によって撮像した画像情報を触覚情報として出力するセンサである。このように、触覚情報は、接触状態を画像形式で表した情報であってもよい。触覚センサ３０２はこれに限られず、どのようなセンサであってもよい。例えば、触覚センサ３０２は、把持部３１１と物体５００との接触により生じる圧力、抵抗値、および、静電容量の少なくとも１つを用いて触覚情報を検知するセンサであってもよい。

　適用可能なロボット（移動体）はこれに限られず、どのようなロボット（移動体）であってもよい。例えば、１つの関節およびリンクを備えるロボット、モバイルマニピュレータ、および、移動台車であってもよい。また、ロボット全体を実空間内の任意の方向に平行移動させるための駆動装置を備えるロボットであってもよい。移動体は、このように全体の位置が変化する物体でもよいし、一部の位置が固定され、他の部分の位置および姿勢の少なくとも一方が変化する物体でもよい。

　図１に戻り、センサ４００は、ロボット３００の動作の制御に用いるための情報を検知する。センサ４００は、例えば、物体５００までの深度情報を検知する深度センサ（デプスセンサ）である。センサ４００は、深度センサに限られるものではない。またセンサ４００は備えられなくてもよい。センサ４００は、上記のようにロボット３００の外部に設置される撮像部３０１であってもよい。ロボット３００が深度センサなどのセンサ４００も備えるように構成してもよい。

　コントローラ２００は、情報処理装置１００からの指示に応じて、ロボット３００の駆動を制御する。例えばコントローラ２００は、情報処理装置１００から指定された回転方向および回転速度で回転するように、ロボット３００の把持部３１１、および、関節などを駆動する駆動装置（モータなど）を制御する。

　情報処理装置１００は、コントローラ２００、ロボット３００、および、センサ４００に接続され、ロボットシステム１の全体を制御する。例えば情報処理装置１００は、ロボット３００の動作を制御する。ロボット３００の動作の制御には、物体５００の位置および姿勢の少なくとも一方に基づいてロボット３００を動作（移動）させる処理が含まれる。情報処理装置１００は、ロボット３００を動作させるための動作指令を、コントローラ２００に出力する。情報処理装置１００は、物体５００の位置および姿勢の少なくとも一方を推定（推論）するためのニューラルネットワークを学習する機能を備えてもよい。この場合、情報処理装置１００は、ニューラルネットワークを学習する学習装置としても機能する。

　図３は、情報処理装置１００のハードウェアブロック図である。情報処理装置１００は、一例として、図３に示すような一般のコンピュータ（情報処理装置）と同様のハードウェア構成により実現される。情報処理装置１００は、図３に示すような１つのコンピュータにより実現されてもよいし、協働して動作する複数のコンピュータにより実現されてもよい。

　情報処理装置１００は、メモリ２０４と、１または複数のハードウェアプロセッサ２０６と、記憶装置２０８と、操作装置２１０と、表示装置２１２と、通信装置２１４とを備える。各部は、バスにより接続される。１または複数のハードウェアプロセッサ２０６は、協働して動作する複数のコンピュータに含まれてもよい。

　メモリ２０４は、例えば、ＲＯＭ２２２と、ＲＡＭ２２４とを含む。ＲＯＭ２２２は、情報処理装置１００の制御に用いられるプログラムおよび各種設定情報等を書き換え不可能に記憶する。ＲＡＭ２２４は、ＳＤＲＡＭ（Synchronous　Dynamic　Random　Access　Memory）等の揮発性の記憶媒体である。ＲＡＭ２２４は、１または複数のハードウェアプロセッサ２０６の作業領域として機能する。

　１または複数のハードウェアプロセッサ２０６は、メモリ２０４（ＲＯＭ２２２およびＲＡＭ２２４）にバスを介して接続される。１または複数のハードウェアプロセッサ２０６は、例えば、１または複数のＣＰＵ（Central　Processing　Unit）であってもよいし、１または複数のＧＰＵ（Graphics　Processing　Unit）であってもよい。また、１または複数のハードウェアプロセッサ２０６は、ニューラルネットワークを実現するための専用の処理回路を含む半導体装置等であってもよい。

　１または複数のハードウェアプロセッサ２０６は、ＲＡＭ２２４の所定領域を作業領域としてＲＯＭ２２２または記憶装置２０８に予め記憶された各種プログラムとの協働により各種処理を実行し、情報処理装置１００を構成する各部の動作を統括的に制御する。また、１または複数のハードウェアプロセッサ２０６は、ＲＯＭ２２２または記憶装置２０８に予め記憶されたプログラムとの協働により、操作装置２１０、表示装置２１２、および、通信装置２１４等を制御する。

　記憶装置２０８は、フラッシュメモリ等の半導体による記憶媒体、あるいは、磁気的または光学的に記録可能な記憶媒体等の書き換え可能な記録装置である。記憶装置２０８は、情報処理装置１００の制御に用いられるプログラムおよび各種設定情報等を記憶する。

　操作装置２１０は、マウスおよびキーボード等の入力デバイスである。操作装置２１０は、ユーザから操作入力された情報を受け付け、受け付けた情報を１または複数のハードウェアプロセッサ２０６に出力する。

　表示装置２１２は、情報をユーザに表示する。表示装置２１２は、１または複数のハードウェアプロセッサ２０６から情報等を受け取り、受け取った情報を表示する。なお、通信装置２１４または記憶装置２０８等に情報を出力する場合、情報処理装置１００は、表示装置２１２を備えなくてもよい。

　通信装置２１４は、外部の機器と通信して、ネットワーク等を介して情報を送受信する。

　本実施形態の情報処理装置１００で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Digital　Versatile　Disk）等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

　また、本実施形態の情報処理装置１００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の情報処理装置１００で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、本実施形態の情報処理装置１００で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

　本実施形態にかかる情報処理装置１００で実行されるプログラムは、コンピュータを後述する情報処理装置１００の各部として機能させうる。このコンピュータは、ハードウェアプロセッサ２０６がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

　図１に示すハードウェア構成は一例であり、これに限られるものではない。情報処理装置１００、コントローラ２００、ロボット３００、および、センサ４００のうち一部または全部を、１つの装置が備えるように構成してもよい。例えば、ロボット３００が、情報処理装置１００、コントローラ２００、および、センサ４００の機能も備えるように構成してもよい。また、情報処理装置１００が、コントローラ２００およびセンサ４００の一方または両方の機能も備えるように構成してもよい。また、図１では情報処理装置１００が学習装置としても機能しうることを記載しているが、情報処理装置１００と学習装置とを物理的に異なる装置により実現してもよい。

　次に、情報処理装置１００の機能構成について説明する。図４は、情報処理装置１００の機能構成の一例を示す機能ブロック図である。図４に示すように、情報処理装置１００は、取得部１０１と、学習部１０２と、推論部１０３と、検出部１０４と、動作制御部１０５と、出力制御部１０６と、記憶部１２１と、を備えている。

　取得部１０１は、情報処理装置１００が実行する各種処理で用いられる各種情報を取得する。例えば取得部１０１は、ニューラルネットワークを学習するための学習データを取得する。学習データの取得方法はどのような方法であってもよいが、取得部１０１は、例えば予め作成された学習データを、外部の装置からネットワークなどを介して、または、記憶媒体から取得する。

　学習部１０２は、学習データを用いてニューラルネットワークを学習する。ニューラルネットワークは、例えば、撮像部３０１により撮像された物体５００の画像情報、および、触覚センサ３０２により得られた触覚情報を入力し、物体５００の位置および姿勢の少なくとも一方である出力データを出力する。

　学習データは、例えば、画像情報と、触覚情報と、物体５００の位置および姿勢の少なくとも一方（正解データ）と、を対応づけたデータである。このような学習データを用いて学習することにより、入力された画像情報および触覚情報に対して、物体５００の位置および姿勢の少なくとも一方を示す出力データを出力するニューラルネットワークが得られる。なお、位置および姿勢の少なくとも一方を示す出力データは、位置を示す出力データ、姿勢を示す出力データ、および、位置および姿勢の両方を示す出力データ、を含む。ニューラルネットワークの構成例、および、学習方法の詳細は後述する。

　推論部１０３は、学習されたニューラルネットワークを用いた推論を実行する。例えば推論部１０３は、ニューラルネットワークに対して、画像情報および触覚情報を入力し、ニューラルネットワークが出力する、物体５００の位置および姿勢の少なくとも一方を示す出力データを得る。

　検出部１０４は、ロボット３００の動作の制御に用いる情報を検出する。例えば検出部１０４は、推論部１０３により得られた複数の出力データを用いて、物体５００の位置および姿勢の少なくとも一方の変化を検出する。検出部１０４は、物体５００の把持を開始した時点の物体５００の位置および姿勢の少なくとも一方に対する、その後に得られた物体５００の位置および姿勢の少なくとも一方の相対的な変化を検出してもよい。相対的な変化は、把持部３１１に対して、物体５００が回転または平行移動（並進）することにより生じる変化を含む。このような相対的な変化の情報は、物体５００を把持した状態で物体の位置および姿勢の少なくとも一方を制御するインハンドマニピュレーションなどに用いることができる。

　物体５００の把持を開始した時点での、絶対座標での物体５００の位置および姿勢が得られていれば、検出した相対的な変化の情報から、絶対座標での物体５００の位置および姿勢の変化も求めることができる。撮像部３０１がロボット３００の外部に設置される場合、撮像部３０１に対するロボット３００の位置情報を求めるように構成してもよい。これにより、絶対座標での物体５００の位置および姿勢をより容易に求めることができる。

　動作制御部１０５は、ロボット３００の動作を制御する。例えば動作制御部１０５は、検出部１０４により検出された物体５００の位置および姿勢の少なくとも一方の変化を参照し、物体５００を目的の位置および姿勢とするように、把持部３１１およびロボット３００の位置などを制御する。より具体的には、動作制御部１０５は、物体５００を目的の位置および姿勢とするようにロボット３００を動作させるための動作指令を生成し、動作指令をコントローラ２００に送信することにより、ロボット３００を動作させる。

　出力制御部１０６は、各種情報の出力を制御する。例えば出力制御部１０６は、表示装置２１２に情報を表示する処理、および、通信装置２１４を用いてネットワークを介して情報を送受信する処理を制御する。

　記憶部１２１は、情報処理装置１００で用いられる各種情報を記憶する。例えば記憶部１２１は、ニューラルネットワークのパラメータ（重み係数、バイアスなど）、および、ニューラルネットワークを学習するための学習データを記憶する。記憶部１２１は、例えば図３の記憶装置２０８により実現される。

　上記各部（取得部１０１、学習部１０２、推論部１０３、検出部１０４、動作制御部１０５、および、出力制御部１０６）は、例えば、１または複数のハードウェアプロセッサ２０６により実現される。例えば上記各部は、１または複数のＣＰＵにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated　Circuit）などのハードウェアプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

　次に、ニューラルネットワークの構成例について説明する。以下では、画像情報および触覚情報の２つの情報を入力して物体５００の位置および姿勢を出力するニューラルネットワークを例に説明する。図５は、ニューラルネットワークの構成例を示す図である。なお、以下ではＣＮＮ（Convolutional　Neural　Network）を含むニューラルネットワークの構成を例に説明するが、ＣＮＮ以外のニューラルネットワークを用いてもよい。また、図５に示すニューラルネットワークは一例であり、これに限られるものではない。

　図５に示すように、ニューラルネットワークは、ＣＮＮ５０１、ＣＮＮ５０２、結合器５０３、乗算器５０４、乗算器５０５、および、結合器５０６を含む。ＣＮＮ５０１および５０２は、それぞれ画像情報および触覚情報を入力するＣＮＮである。

　結合器５０３は、ＣＮＮ５０１の出力、および、ＣＮＮ５０２の出力を結合（concatenate）する。結合器５０３は、ニューラルネットワークとして構成されてもよい。例えば、結合器５０３は、全結合のニューラルネットワークとすることができるが、これに限られるものではない。結合器５０３は、例えば、ＣＮＮ５０１の出力およびＣＮＮ５０２の出力を入力し、αおよびβ（２次元の情報）を出力するニューラルネットワークである。結合器５０３は、αのみ、または、βのみ（１次元の情報）を出力するニューラルネットワークであってもよい。前者の場合、βは、例えばβ＝１－αにより算出することができる。後者の場合、αは、例えばα＝１－βにより算出することができる。結合器５０３は、例えばＲｅＬｕ関数、シグモイド（sigmoid）関数、および、ソフトマックス（softmax）関数などを用いて、出力の範囲を制御してもよい。例えば結合器５０３は、α＋β＝１を満たすようなαおよびβを出力するように構成してもよい。

　結合器５０３へ入力する情報の個数、言い換えると、センサの個数は２個に限られず、Ｎ個（Ｎは２以上の整数）であってもよい。この場合、結合器５０３は、各センサに対応するＣＮＮの出力を入力し、Ｎ次元、または、（Ｎ－１）次元の情報（α、β、γ、・・・等）を出力するように構成すればよい。

　乗算器５０４は、ＣＮＮ５０１の出力にαを乗算する。乗算器５０５は、ＣＮＮ５０２の出力にβを乗算する。αおよびβは、結合器５０３の出力に基づき算出される値（例えばベクトル）である。αおよびβは、それぞれ、ニューラルネットワークの最終的な出力データ（位置および姿勢の少なくとも一方）に対する、画像情報の寄与度（第１寄与度）、および、触覚情報の寄与度（第２寄与度）に相当する値である。例えば、結合器５０３の出力を入力し、αおよびβを出力する中間層をニューラルネットワークに含めることにより、αおよびβを算出することができる。

　αおよびβは、画像情報および触覚情報それぞれを出力データの算出のためにどの程度用いるかを示す値（使用割合）、画像情報および触覚情報それぞれの重み、および、画像情報および触覚情報それぞれの信頼度、などと解釈することもできる。

　従来のアテンション（attention）と呼ばれる技術では、例えば画像上のいずれの部分に注目するかを示す値が算出される。このような技術では、例えば入力情報（画像情報など）の信頼性（または、データの相関関係）が低い状況でも、アテンションを適用した一部のデータに注目するという問題が生じうる。

　これに対して本実施形態では、画像情報と触覚情報の出力データに対する寄与度（使用割合、重み、または、信頼度）が算出される。例えば、画像情報の信頼度が低い場合、αは０に近づく。このαの値とＣＮＮ５０１からの出力との乗算結果が、最終的な出力データの算出時に使用される。これは、画像情報が信頼できない場合は、最終的な出力データの算出時の画像情報の使用割合が低下することを意味する。このような機能により、物体の位置および姿勢などをより高精度に推定可能となる。

　なお、結合器５０３に対するＣＮＮ５０１の出力と、乗算器５０４に対するＣＮＮ５０１の出力とは、同じであってもよいし、異なっていてもよい。ＣＮＮ５０１からの各出力の次元数が相互に異なっていてもよい。同様に、結合器５０３に対するＣＮＮ５０２の出力と、乗算器５０５に対するＣＮＮ５０２の出力とは、同じであってもよいし、異なっていてもよい。ＣＮＮ５０２からの各出力の次元数が相互に異なっていてもよい。

　結合器５０６は、乗算器５０４の出力、および、乗算器５０５の出力を結合し、結合結果を、物体５００の位置および姿勢の少なくとも一方を示す出力データとして出力する。結合器５０６は、ニューラルネットワークとして構成されてもよい。例えば、結合器５０３は、全結合のニューラルネットワーク、および、ＬＳＴＭ（Long　short　term　memory）ニューラルネットワークとすることができるが、これに限られるものではない。

　上記のように結合器５０３がαのみまたはβのみを出力する場合は、αのみまたはβのみを用いて出力データが得られると解釈することもできる。すなわち、推論部１０３は、画像情報の寄与度αおよび触覚情報の寄与度βの少なくとも一方に基づいて出力データを得ることができる。

　次に、このように構成された本実施形態にかかる情報処理装置１００による学習処理について説明する。図６は、本実施形態における学習処理の一例を示すフローチャートである。

　まず、取得部１０１は、画像情報および触覚情報を含む学習データを取得する（ステップＳ１０１）。取得部１０１は、例えば外部の装置からネットワークなどを介して取得され、記憶部１２１に記憶された学習データを取得する。通常、学習処理は、複数回繰り返し実行される。取得部１０１は、複数の学習データのうち一部を、各回の学習に用いる学習データ（バッチ）として取得してもよい。

　次に学習部１０２は、取得された学習データに含まれる画像情報および触覚情報をニューラルネットワークに入力し、ニューラルネットワークが出力する出力データを得る（ステップＳ１０２）。

　学習部１０２は、出力データを用いて、ニューラルネットワークのパラメータを更新する（ステップＳ１０３）。例えば学習部１０２は、出力データと、学習データに含まれる正解データ（物体５００の位置および姿勢の少なくとも一方を示す正解データ）との誤差（Ｅ１）を最小化するようにニューラルネットワークのパラメータを更新する。学習部１０２は、どのようなアルゴリズムを学習に用いてもよいが、例えば誤差逆伝播法を用いて学習を行うことができる。

　上記のように、αおよびβは、出力データに対する画像情報および触覚情報の寄与度を表す。そこで学習部１０２は、αおよびβが、α＋β＝１を満たすように学習を行ってもよい。例えば学習部１０２は、α＋β＝１の場合に最小となるように定めた誤差Ｅ２を誤差Ｅ１に加えた誤差Ｅ（Ｅ＝Ｅ１＋Ｅ２）を最小とするように、学習を行ってもよい。

　学習部１０２は、学習を終了するか否かを判定する（ステップＳ１０４）。例えば学習部１０２は、すべての学習データを処理したか、誤差の改善の大きさが閾値より小さくなったか、または、学習の回数が上限値に達したか否か、などにより、学習の終了を判定する。

　学習が終了していない場合（ステップＳ１０４：Ｎｏ）、ステップＳ１０１に戻り、新たな学習データに対して処理が繰り返される。学習が終了したと判定された場合（ステップＳ１０４：Ｙｅｓ）、学習処理を終了する。

　以上のような学習処理により、画像情報および触覚情報を含む入力データに対して、物体５００の位置および姿勢の少なくとも一方を示す出力データを出力するニューラルネットワークが得られる。このニューラルネットワークは、出力データを出力するだけでなく、中間層から寄与度αおよびβを得るために用いることができる。

　また本実施形態によれば、学習の進度に応じて学習に寄与する学習データの種類を変更することが可能となる。例えば、学習の初期の段階では、画像情報の寄与度が上がり、途中から触覚情報の寄与度が上がることで学習しやすい部分から学習され、学習をより効率的に進めることが可能となる。これにより、複数の入力情報を入力する一般的なニューラルネットワークの学習（アテンションを用いないマルチモーダル学習など）よりも短時間で学習を行うことができる。

　次に、本実施形態にかかる情報処理装置１００によるロボット３００の制御処理について説明する。図７は、本実施形態における制御処理の一例を示すフローチャートである。

　取得部１０１は、撮像部３０１により撮像された画像情報、および、触覚センサ３０２により検出された触覚情報を入力データとして取得する（ステップＳ２０１）。推論部１０３は、取得された入力データをニューラルネットワーク入力し、ニューラルネットワークが出力する出力データを得る（ステップＳ２０２）。

　検出部１０４は、得られた出力データを用いて、物体５００の位置および姿勢の少なくとも一方の変化を検出する（ステップＳ２０３）。例えば検出部１０４は、複数の時刻に得られた複数の入力データに対する出力データの変化を検出する。動作制御部１０５は、検出された変化に応じてロボット３００の動作を制御する（ステップＳ２０４）。

　本実施形態によれば、例えば撮像部３０１の異常および撮像環境（照明など）の悪化などにより画像情報の信頼度が低くなった場合には、推論部１０３の処理により画像情報の寄与度が低くされて出力データが出力される。また、例えば触覚センサ３０２の異常などにより触覚情報の信頼度が低くなった場合には、推論部１０３の処理により触覚情報の寄与度が低くされて出力データが出力される。これにより、物体の位置および姿勢の少なくとも一方を示す出力データをより高精度に推定可能となる。

（変形例１）
　学習時と極端に異なる寄与度が頻繁に、または、継続的に出力される場合は、センサ（撮像部３０１、触覚センサ３０２）に故障または異常が発生したと判定することができる。例えば、故障によりセンサから出力される情報（画像情報、触覚情報）がノイズのみになる場合、または、値がゼロになる場合は、この情報の寄与度の値は０に近づくことになる。

　そこで、検出部１０４は、検出部１０４は、画像情報の寄与度αおよび触覚情報の寄与度βの少なくとも一方に基づいて、撮像部３０１および触覚センサ３０２の異常を検出する機能をさらに備えてもよい。寄与度に基づく異常の検出（判定）方法はどのような方法であってもよいが、例えば、以下のような方法を適用できる。
・寄与度αの変化が閾値（第１閾値）以上となった場合に撮像部３０１に異常が生じたと判定する。
・寄与度βの変化が閾値（第２閾値）以上となった場合に触覚センサ３０２に異常が生じたと判定する。
・寄与度αが閾値（第１閾値）以下となった場合に撮像部３０１に異常が生じたと判定する。
・寄与度βが閾値（第２閾値）以下となった場合に触覚センサ３０２に異常が生じたと判定する。

　例えばα＋β＝１の関係が満たされる場合は、検出部１０４は、αおよびβのうち一方が得られれば、他方も得ることができる。すなわち、検出部１０４は、αおよびβの少なくとも一方に基づいて、撮像部３０１および触覚センサ３０２の少なくとも一方の異常を検出することが可能である。

　寄与度の変化は、予め定められた期間内に得られる複数の寄与度の変化の平均値を用いてもよい。また、１回の推論で得られる寄与度の変化を用いてもよい。すなわち検出部１０４は、一度でも寄与度が異常な値を示す場合に、対応するセンサに異常が生じたと判定してもよい。

　動作制御部１０５は、異常が発生したセンサ（撮像部３０１、触覚センサ３０２）の動作を停止してもよい。例えば動作制御部１０５は、撮像部３０１の異常が検出された場合、撮像部３０１の動作を停止し、触覚センサ３０２の異常が検出された場合、触覚センサ３０２の動作を停止してもよい。

　動作を停止した場合、対応する情報（画像情報または触覚情報）が出力されなくなる場合がある。このような場合、推論部１０３は、例えば、異常時用の情報（例えばすべての画素値が０の画像情報および触覚情報）をニューラルネットワークに入力してもよい。動作を停止する場合を考慮し、学習部１０２は、異常時用の学習データを用いてニューラルネットワークを学習してもよい。これにより、１つのニューラルネットワークで、一部のセンサのみを動作させる場合、および、すべてのセンサを動作させる場合、の両方に対応可能となる。

　異常が発生したセンサ（撮像部３０１、触覚センサ３０２）の動作を停止することにより、計算コストの低減、および、消費電力の低減などが可能となる。動作制御部１０５は、異常の有無にかかわらず、センサの動作を停止可能としてもよい。例えば動作制御部１０５は、計算コストの低減が指定された場合、および、低電力モードが指定された場合などに、指定されたセンサの動作を停止してもよい。動作制御部１０５は、撮像部３０１および触覚センサ３０２のうち、寄与度が小さい方の動作を停止させてもよい。

　出力制御部１０６は、検出部１０４により異常が検出された場合、異常が検出されたことを示す情報（異常情報）を出力してもよい。異常情報の出力方法はどのような方法であってもよいが、例えば、表示装置２１２などに異常情報を表示する方法、照明装置の発光（点滅）などにより異常情報を出力する方法、スピーカなどの音出力装置を用いて異常情報を音により出力する方法、および、通信装置２１４などを用いて外部装置（管理者用端末、サーバ装置など）にネットワークを介して異常情報を送信する方法などを適用することができる。異常情報を出力することにより、例えば異常の詳細な原因は不明であっても、異常が生じたこと（通常状態とは異なる状態であること）を通知することができる。

　図８は、本変形例における異常検出処理の一例を示すフローチャートである。なお、異常検出処理では、例えば、図７に示す制御処理でニューラルネットワークを用いた推論（ステップＳ２０２）を行うときに得られる寄与度が用いられる。従って、制御処理と異常検出処理とは並列に実行されてもよい。

　検出部１０４は、推論時に得られる、画像情報の寄与度αおよび触覚情報の寄与度βを取得する（ステップＳ３０１）。検出部１０４は、寄与度α、βを用いて、撮像部３０１および触覚センサ３０２の異常の有無をそれぞれ判定する（ステップＳ３０２）。

　出力制御部１０６は、検出部１０４により異常が検出されたか否かを判定する（ステップＳ３０３）。異常が検出された場合（ステップＳ３０３：Ｙｅｓ）、出力制御部１０６は、異常が生じたことを示す異常情報を出力する（ステップＳ３０４）。異常が検出されなかった場合（ステップＳ３０３：Ｎｏ）、異常検出処理が終了する。

（変形例２）
　上記実施形態および変形例では、主に画像情報と触覚情報の２種類の情報を入力するニューラルネットワークを説明した。ニューラルネットワークの構成はこれに限られるものではなく、他の２以上の入力情報を入力するニューラルネットワークであってもよい。例えば、画像情報および触覚情報以外の１以上の入力情報をさらに入力するニューラルネットワーク、および、画像情報および触覚情報とは種類が異なる複数の入力情報を入力するニューラルネットワークを用いてもよい。入力情報が３つ以上になった場合も、α、β、γ・・・のように入力情報ごとに寄与度を定めればよい。また、このようなニューラルネットワークを用いて変形例１に示すような異常検出処理を実行してもよい。

　動作させる移動体はロボットに限られず、例えば自動車などの車両であってもよい。すなわち、本実施形態は、例えば、撮像部３０１による車両の周囲の画像情報、および、ＬＩＤＡＲ（Laser　Imaging　Detection　And　Ranging）センサによる距離情報を入力情報とするニューラルネットワークを用いた自動運転システムに適用することができる。

　入力情報は、撮像部３０１および触覚センサ３０２などのセンサから入力される情報に限られず、どのような情報であってもよい。例えば、ユーザにより入力される情報がニューラルネットワークへの入力情報として用いられてもよい。この場合、上記変形例１を適用すれば、例えば、ユーザにより不正な入力情報が入力されたことを検出することが可能となる。

　ニューラルネットワークの設計者は、複数の入力情報のいずれを用いるべきかなどを考慮する必要がなく、例えば複数の入力情報をすべて入力するようにニューラルネットワークを構築すればよい。適切に学習されたニューラルネットワークであれば、必要な入力情報の寄与度を大きくし、不要な入力情報の寄与度を小さくして、出力データを出力することができるためである。

　また、学習後に得られる寄与度を用いて、複数の入力情報のうち不要な入力情報を発見するという用途に用いることもできる。これにより、例えば、寄与度の低い入力情報を用いないようにシステムを構築（修正）することが可能となる。

　例えば複数の撮像部による画像情報を入力するニューラルネットワークを含むシステムを設計する場合を考える。まず、すべての撮像部の画像情報を入力するようにニューラルネットワークを構築し、上記実施形態に従いニューラルネットワークを学習する。学習により得られる寄与度を検証し、寄与度が低い画像情報に対応する撮像部を用いないようにシステムを設計する。このように、本実施形態は、複数の入力情報を用いたニューラルネットワークを含むシステムのシステムインテグレーションの効率化も可能となる。

　本実施形態は、例えば以下の態様を含む。
　（態様１）
　把持部により把持される物体に関する複数の入力情報をニューラルネットワークに入力し、前記物体の位置および姿勢の少なくとも一方を示す出力データを得る推論部と、
　複数の前記入力情報それぞれの前記出力データに対する寄与の度合いを表す複数の寄与度に基づいて、複数の前記入力情報それぞれの異常を検出する検出部と、
　を備える情報処理装置。
　（態様２）
　前記検出部は、前記寄与度の変化が閾値以上となった場合に、対応する前記入力情報に異常が生じたと判定する、
　態様１に記載の情報処理装置。
　（態様３）
　前記検出部は、前記寄与度が閾値以下となった場合に、対応する前記入力情報に異常が生じたと判定する、
　態様１に記載の情報処理装置。
　（態様４）
　前記入力情報の異常が検出された場合、前記入力情報を生成する検知部の動作を停止する動作制御部をさらに備える、
　態様１に記載の情報処理装置。

　本明細書において、“ａ，ｂおよびｃの少なくとも１つ（一方）”または“ａ，ｂまたはｃの少なくとも１つ（一方）”の表現は、ａ，ｂ，ｃ，ａ－ｂ，ａ－ｃ，ｂ－ｃ，ａ－ｂ－ｃのいずれかの組み合わせを含む。また、ａ－ａ，ａ－ｂ－ｂ，ａ－ａ－ｂ－ｂ－ｃ－ｃなどのいずれかの要素の複数のインスタンスとの組み合わせをカバーする。さらに、ａ－ｂ－ｃ－ｄを有するなどａ，ｂおよび／またはｃ以外の他の要素を加えることをカバーする。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１　ロボットシステム
１００　情報処理装置
１０１　取得部
１０２　学習部
１０３　推論部
１０４　検出部
１０５　動作制御部
１０６　出力制御部
１２１　記憶部
２００　コントローラ
２０４　メモリ
２０６　ハードウェアプロセッサ
２０８　記憶装置
２１０　操作装置
２１２　表示装置
２１４　通信装置
２２２　ＲＯＭ
２２４　ＲＡＭ
３００　ロボット
３０１　撮像部
３０２　触覚センサ
３１１　把持部
４００　センサ
５００　物体

Claims

　物体の画像情報、および、前記物体を把持する把持装置と前記物体との接触状態を表す触覚情報を取得する取得部と、
　前記画像情報の第１寄与度および前記触覚情報の第２寄与度の少なくとも一方に基づいて、前記物体の位置および姿勢の少なくとも一方を示す出力データを得る推論部と、
　を備える情報処理装置。
　前記触覚情報は、前記接触状態を画像形式で表した情報である、
　請求項１に記載の情報処理装置。
　複数の前記画像情報および複数の前記触覚情報をニューラルネットワークに入力して得られる複数の前記出力データに基づいて、前記物体の位置および姿勢の少なくとも一方の変化を検出する検出部をさらに備える、
　請求項１または２に記載の情報処理装置。
　前記第１寄与度は、前記画像情報および前記触覚情報に基づいて決定される、
　請求項１乃至３のいずれか１項に記載の情報処理装置。
　前記第２寄与度は、前記画像情報および前記触覚情報に基づいて決定される、
　請求項１乃至４のいずれか１項に記載の情報処理装置。
　前記第１寄与度および前記第２寄与度の少なくとも一方に基づいて、前記画像情報を検出する撮像装置および前記触覚情報を検出する触覚センサの少なくとも一方の異常を検出する検出部をさらに備える、
　請求項１乃至５のいずれか１項に記載の情報処理装置。
　前記検出部は、前記第１寄与度の変化が第１閾値以上となった場合、または、前記第２寄与度の変化が第２閾値以上となった場合に、前記撮像装置および前記触覚センサの少なくとも一方に異常が生じたと判定する、
　請求項６に記載の情報処理装置。
　前記検出部は、前記第１寄与度が第１閾値以下となった場合、または、前記第２寄与度が第２閾値以下となった場合に、前記撮像装置および前記触覚センサの少なくとも一方に異常が生じたと判定する、
　請求項６に記載の情報処理装置。
　前記撮像装置の異常が検出された場合、前記撮像装置の動作を停止し、前記触覚センサの異常が検出された場合、前記触覚センサの動作を停止する動作制御部をさらに備える、
　請求項６乃至８のいずれか一項に記載の情報処理装置。
　請求項１乃至９のいずれか一項に記載の情報処理装置と、
　コントローラと、
　前記把持装置を含むロボットと、を備えるロボットシステムであって、
　前記コントローラは、前記情報処理装置からの指示に応じて、前記ロボットの駆動を制御する、
　ロボットシステム。
　撮像装置と触覚センサとを更に備える、
　請求項１０に記載のロボットシステム。
　物体の画像情報、および、前記物体を把持する把持装置と前記物体との接触状態を表す触覚情報を取得する取得ステップと、
　前記画像情報の第１寄与度および前記触覚情報の第２寄与度の少なくとも一方に基づいて、前記物体の位置および姿勢の少なくとも一方を示す出力データを得る推論ステップと、
　を含む情報処理方法。
　前記触覚情報は、前記接触状態を画像形式で表した情報である、
　請求項１２に記載の情報処理方法。
　複数の前記画像情報および複数の前記触覚情報をニューラルネットワークに入力して得られる複数の前記出力データに基づいて、前記物体の位置および姿勢の少なくとも一方の変化を検出する検出ステップをさらに含む、
　請求項１２または１３に記載の情報処理方法。
　前記第１寄与度は、前記画像情報および前記触覚情報に基づいて決定される、
　請求項１２乃至１４のいずれか１項に記載の情報処理方法。
　前記第２寄与度は、前記画像情報および前記触覚情報に基づいて決定される、
　請求項１２乃至１５のいずれか１項に記載の情報処理方法。
　前記第１寄与度および前記第２寄与度の少なくとも一方に基づいて、前記画像情報を検出する撮像装置および前記触覚情報を検出する触覚センサの少なくとも一方の異常を検出する検出ステップをさらに含む、
　請求項１２乃至１６のいずれか１項に記載の情報処理方法。
　前記検出ステップは、前記第１寄与度の変化が第１閾値以上となった場合、または、前記第２寄与度の変化が第２閾値以上となった場合に、前記撮像装置および前記触覚センサの少なくとも一方に異常が生じたと判定する、
　請求項１７に記載の情報処理方法。
　前記検出ステップは、前記第１寄与度が第１閾値以下となった場合、または、前記第２寄与度が第２閾値以下となった場合に、前記撮像装置および前記触覚センサの少なくとも一方に異常が生じたと判定する、
　請求項１７に記載の情報処理方法。
　前記撮像装置の異常が検出された場合、前記撮像装置の動作を停止し、前記触覚センサの異常が検出された場合、前記触覚センサの動作を停止する動作制御ステップをさらに含む、
　請求項１７乃至１９のいずれか１項に記載の情報処理方法。