WO2023163219A1

WO2023163219A1 - 情報処理装置、ロボット制御システム及びプログラム

Info

Publication number: WO2023163219A1
Application number: PCT/JP2023/007351
Authority: WO
Inventors: 卓哉宮本; 祥文野; 博昭宮村; 敬之石田
Original assignee: 京セラ株式会社
Priority date: 2022-02-28
Filing date: 2023-02-28
Publication date: 2023-08-31

Abstract

情報処理装置は取得部及び生成部を備える。取得部は、複数の物体が存在する計測空間内での深度を表す深度情報を取得する。生成部は、深度情報に対して物体の物体サイズに応じたフィルタ処理を行って、計測空間内において、複数の物体のうち他よりも高い位置にある高位置部分を表す高位置情報を生成する。

Description

情報処理装置、ロボット制御システム及びプログラム

　本開示は、情報処理技術に関する。

　特許文献１には、山積み状態にある物体群の中から高い位置にある物体を特定する技術が記載されている。

特開２０１６－１４８５５８号公報

　情報処理装置、ロボット制御システム及びプログラムが開示される。一の実施の形態では、情報処理装置は取得部及び生成部を備える。取得部は、複数の物体が存在する計測空間内での深度を表す深度情報を取得する。生成部は、深度情報に対して物体の物体サイズに応じたフィルタ処理を行って、計測空間内において、複数の物体のうち他よりも高い位置にある高位置部分を表す高位置情報を生成する。

　また、一の実施の形態では、ロボット制御システムは、上記の情報処理装置が備える取得部及び生成部と、特定部と、度合取得部と、保持対象決定部と、保持姿勢決定部と、ロボット制御部とを備える。特定部は、複数の物体において、高位置部分に含まれる部分高位置部分を含む物体を対象物体とした場合、複数の対象物体のそれぞれについて、計測空間が撮影された撮影画像において当該対象物体が写る物体画像を、高位置情報に基づいて特定する。度合取得部は、複数の対象物体のそれぞれについて、当該対象物体の保持しやすさの度合を、深度情報に基づいて求める。保持対象決定部は、複数の対象物体についての度合に基づいて、複数の対象物体からロボットが保持する保持対象物体を決定する。保持姿勢決定部は、ロボットについての保持対象物体に対する保持姿勢を物体画像に基づいて決定する。ロボット制御部は、保持姿勢定部で決定された保持姿勢に基づいてロボットを制御する。

　また、一の実施の形態では、プログラムは、コンピュータ装置に、複数の物体が存在する計測空間内での深度を表す深度情報を取得することを実行させる。また、プログラムは、コンピュータ装置に、深度情報に対して物体の物体サイズに応じたフィルタ処理を行って、計測空間内において、複数の物体のうち他よりも高い位置にある高位置部分を表す高位置情報を生成することを実行させる。

ロボットシステムの一例を示す概略図である。情報処理装置の一例を示す概略図である。情報処理装置の制御部の一例を示す概略図である。情報処理装置の動作の一例を示すフローチャートである。フィルタ窓の一例を示す概略図である。フィルタ窓が深度画像に設定されている様子の一例を示す概略図である。フィルタ処理の一例を説明するための概略図である。フィルタ処理の一例を説明するための概略図である。フィルタ処理の一例を説明するための概略図である。フィルタ処理の一例を説明するための概略図である。フィルタ処理の一例を説明するための概略図である。フィルタ処理の一例を説明するための概略図である。物体画像の特定方法の一例を説明するための概略図である。保持しやすさ度合を求める方法の一例を説明するための概略図である。フィルタ窓の一例を示す概略図である。フィルタ窓の一例を示す概略図である。フィルタ窓の一例を示す概略図である。フィルタ窓の一例を示す概略図である。特定部の動作の一例を説明するための概略図である。

　図１はロボットシステム１の一例を示す概略図である。ロボットシステム１は、例えば、ロボット２と、ロボット２を制御するロボット制御システム３とを備える。ロボット制御システム３は、例えば、計測対象の空間である計測空間１００内の状態を検出するセンサ装置４と、ロボット２を制御するロボット制御部５と、情報処理装置６とを備える。情報処理装置６は、ロボット制御部５でのロボット制御に必要な情報を、センサ装置４での検出結果に基づいて生成する。

　ロボット２は、例えば、物体１０を作業開始台１１から作業目標台１２まで移動させることが可能である。物体１０は作業対象物あるいはワークとも呼ばれる。ロボット制御部５は、物体１０が作業開始台１１から作業目標台１２まで移動するようにロボット２を制御する。ロボット２は、例えば、アーム２０と、物体１０を保持するエンドエフェクタ２１とを備える。ロボット２は、エンドエフェクタ２１で物体１０を保持した状態でアーム２０を動かすことによって、物体１０を作業開始台１１から作業目標台１２まで移動させることができる。ロボット制御部５は、アーム２０及びエンドエフェクタ２１を制御することができる。エンドエフェクタ２１は、物体１０を把持して物体１０を保持してもよいし、物体１０を吸引して物体１０を保持してもよいし、他の方法で物体１０を保持してもよい。エンドエフェクタ２１は、物体１０を把持する場合、二指で物体１０を把持してもよいし、二指以上の数の指で物体１０を把持してもよい。

　作業開始台１１及び作業目標台１２には、トレー１３及び１４がそれぞれ置かれている。トレー１３には複数の物体１０がばらばらに積まれている。ロボット２は、例えば、トレー１３上の物体１０を一つずつ保持して作業目標台１２まで移動させてトレー１４内に並べる作業を行う。以後、トレー１３上の複数の物体１０をまとめて物体群１０Ａと呼ぶことがある。

　センサ装置４の計測空間１００には、トレー１３上においてばらばらに積まれた複数の物体１０が存在する。センサ装置４は、計測空間１００内での深度及び色を検出することが可能である。センサ装置４は、計測空間１００内での深度を表す深度情報７００（後述の図３参照）と、計測空間１００内での色情報７１０（後述の図３参照）とを取得することが可能である。センサ装置４は、例えば、深度情報７００を取得する深度センサ４０と、計測空間１００を撮影して計測空間１００内での色情報７１０を取得するカメラ４１とを備える。

　深度センサ４０は、例えばステレオ方式を用いて深度情報７００を生成する。深度センサ４０は、例えば、それぞれが計測空間１００を撮影する複数のカメラ４０ａから成るステレオカメラを備える。各カメラ４０ａは、トレー１３の上方から、トレー１３上の物体群１０Ａを撮影する。深度センサ４０は、複数のカメラ４０ａで得られた画像データに基づいて深度情報７００を生成する。深度センサ４０は、例えば、三角測量の原理に基づいて深度情報７００を生成する。深度センサ４０は、深度情報７００として、深度画像７０１（後述の図３参照）を表す深度画像データを生成する。深度画像７０１は、計測空間１００内の複数の計測点までの深度を表す画像である。計測点は、計測空間１００内の物体の表面に位置する。複数の計測点には、計測空間１００内の物体であるトレー１３の表面に位置する計測点及びトレー１３上の物体群１０Ａの表面に位置する計測点が含まれる。深度画像７０１は、計測空間１００内の物体までの深度を表す画像であるともいえる。深度情報７００が表す深度は、深度センサ４０（詳細にはステレオカメラ）から見た場合の計測点の深度となる。以後、深度情報７００を深度画像データ７００と呼ぶことがある。

　深度画像データ７００には、深度画像７０１を構成する複数の画素の画素値が含まれる。深度画像７０１を構成する複数の画素は、計測空間１００内の複数の計測点にそれぞれ対応している。深度画像７０１のある画素の画素値は、当該ある画素に対応する計測点に対応している。深度画像データ７００に含まれる画素値は、それに対応する計測点までの深度、言い換えれば物体１０までの深度を表す。深度画像データ７００に含まれる画素値は、一の計測点までの深度を表す深度情報であるともいえる。深度画像データ７００に含まれる画素値は、例えば零以上の値である。例えば、深度画像データ７００に含まれる画素値が大きいほど、それに対応する計測点までの深度が大きい。深度画像データ７００では、それが表す深度画像７０１を構成する複数の画素のそれぞれについて、当該画素の位置を表す画素位置情報と、当該画素の画素値とが互いに対応付けられている。

　なお、深度センサ４０は、ステレオ方式以外の方式を用いて深度情報７００を生成してもよい。深度情報７００の生成には、例えば、プロジェクター方式が使用されてもよいし、ステレオ方式とプロジェクター方式とが併用されてもよいし、ＴｏＦ（Time of Flight）方式が使用されてもよい。

　カメラ４１は、カラーカメラであって、計測空間１００内での色情報７１０として、計測空間１００が写るカラー画像７１１（後述の図３参照）を表すカラー画像データを生成する。以後、色情報７１０をカラー画像データ７１０と呼ぶことがある。カラー画像７１１は、計測空間１００が撮影された撮影画像である。

　カラー画像７１１には、例えば、トレー１３と、その上の物体群１０Ａとが写っている。カラー画像データ７１０では、それが表すカラー画像７１１を構成する複数の画素のそれぞれについて、当該画素の位置を表す画素位置情報と、当該画素の画素値とが互いに対応付けられている。カラー画像７１１を構成する複数の画素は、計測空間１００内の複数の計測点にそれぞれ対応している。カラー画像７１１のある画素の画素値は、当該ある画素に対応する計測点に対応している。カラー画像データ７１０に含まれる画素値は、それに対応する一の計測点の色を表す色情報であるといえる。カラー画像データ７１０に含まれる画素値には、例えば、Ｒ成分（赤色成分）、Ｇ成分（緑色成分）及びＢ成分（青色成分）が含まれる。カラー画像データ７１０は、ＲＧＢ画像データとも呼ばれる。

　本明細書では、画像に含まれる画素の画素位置を（ｍ，ｎ）で表す。ｍは例えば行方向（言い換えれば横方向）の位置を示し、ｎは例えば列方向（言い換えれば縦方向）の位置を示す。また、画像がＮ行Ｍ列の複数の画素で構成され、画像の一番左の列を０列目とし、画像の一番右の列を（Ｍ－１）列目とし、画像の一番上の行を０行目とし、画像の一番下の行を（Ｎ－１）行目とする。ｍは、列番号を示し、０≦ｍ＜Ｍ－１を満たす整数である。ｎは、行番号を示し、０＜ｎ＜Ｎ－１を満たす整数である。

　カラー画像７１１の画素数と深度画像７０１の画素数とは、例えば互いに一致する。つまり、カラー画像７１１を構成する複数の画素にそれぞれ対応する複数の計測点の数は、深度画像７０１を構成する複数の画素にそれぞれ対応する複数の計測点の数と一致する。そして、カラー画像７１１の画素位置（ｍ，ｎ）の画素と、深度画像７０１の画素位置（ｍ，ｎ）の画素とは、同じ計測点に対応している。カラー画像データ７１０に含まれる画素位置（ｍ，ｎ）の画素の画素値と、深度画像データ７００に含まれる画素位置（ｍ，ｎ）の画素の画素値とは、同じ計測点に対応している。カラー画像データ７１０に含まれるある計測点の色を表す画素値と、深度画像データ７００に含まれる当該ある計測点までの深度を表す画素値とは、同じ画素位置の画素に対応している。

　図２は情報処理装置６の構成の一例を示す概略図である。図２に示されるように、情報処理装置６は、例えば、制御部６０と、第１インターフェース６１と、第２インターフェース６２と、記憶部６３とを備える。情報処理装置６は、例えば情報処理回路ともいえる。情報処理装置６は、例えばコンピュータ装置の一種である。

　第１インターフェース６１は、センサ装置４と通信を行うことが可能である。第１インターフェース６１は、例えばインターフェース回路ともいえる。また、第１インターフェース６１は、例えば通信部あるいは通信回路ともいえる。

　第１インターフェース６１は、センサ装置４と有線通信を行ってもよいし、無線通信を行ってもよい。第１インターフェース６１は、少なくとも一つの通信規格に準拠してセンサ装置４と通信してもよい。第１インターフェース６１が準拠する少なくとも一つの通信規格には、例えば、ＵＳＢ（Universal Serial Bus）、Ｉ２Ｃ（Inter-Integrated Circuit）、ＣＳＩ（Clocked Serial Interface）、ＳＰＩ（Serial Peripheral Interface）、ＷｉＦｉ及びイーサーネットの少なくとも一つが含まれてもよい。また、第１インターフェース６１は、インターネットを通じてセンサ装置４と通信してもよい。

　第２インターフェース６２は、ロボットシステム１の外部の装置（単に外部装置ともいう）と通信することが可能である。第２インターフェース６２は少なくとも一つの外部装置と通信することが可能である。第２インターフェース６２は、例えばインターフェース回路ともいえる。また、第２インターフェース６２は、例えば通信部あるいは通信回路ともいえる。

　第２インターフェース６２は、外部装置と有線通信を行ってもよいし、無線通信を行ってもよい。第２インターフェース６２は、少なくとも一つの通信規格に準拠して外部装置と通信してもよい。第２インターフェース６２が準拠する少なくとも一つの通信規格には、例えば、ＵＳＢ、Ｉ２Ｃ、ＣＳＩ、ＳＰＩ、ＷｉＦｉ及びイーサーネットの少なくとも一つが含まれてもよい。また、第２インターフェース６２は、インターネットを通じて外部装置と通信してもよい。第２インターフェース６２が通信可能な少なくとも一つの外部装置には、表示装置が含まれてもよいし、コンピュータ装置が含まれてもよい。コンピュータ装置は、クラウドサーバ等のサーバであってもよいし、携帯機器であってもよい。携帯機器は、スマートフォン等の携帯電話機であってもよいし、タブレット端末であってもよいし、パーソナルコンピュータであってもよいし、ウェアラブル機器であってもよい。ウェアラブル機器は、リストバンド型あるいは腕時計型などの腕に装着するタイプであってもよいし、ヘッドバンド型あるいはメガネ型などの頭に装着するタイプであってもよいし、服型などの体に装着するタイプであってもよい。

　制御部６０は、情報処理装置６の他の構成要素を制御することによって、情報処理装置６の動作を統括的に管理することが可能である。制御部６０は、例えば制御回路ともいえる。制御部６０は、以下にさらに詳細に述べられるように、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも１つのプロセッサを含む。

　種々の実施形態によれば、少なくとも１つのプロセッサは、単一の集積回路（ＩＣ）として、又は複数の通信可能に接続された集積回路ＩＣ及び／又はディスクリート回路（discrete circuits）として実行されてもよい。少なくとも１つのプロセッサは、種々の既知の技術に従って実行されることが可能である。

　１つの実施形態において、プロセッサは、例えば、関連するメモリに記憶された指示を実行することによって１以上のデータ計算手続又は処理を実行するように構成された１以上の回路又はユニットを含む。他の実施形態において、プロセッサは、１以上のデータ計算手続き又は処理を実行するように構成されたファームウェア（例えば、ディスクリートロジックコンポーネント）であってもよい。

　種々の実施形態によれば、プロセッサは、１以上のプロセッサ、コントローラ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号処理装置、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、又はこれらのデバイス若しくは構成の任意の組み合わせ、又は他の既知のデバイス及び構成の組み合わせを含み、以下に説明される機能を実行してもよい。

　制御部６０は、例えば、プロセッサとしてのＣＰＵ（Central Processing Unit）を備えてもよい。記憶部６３は、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）などの、制御部６０のＣＰＵが読み取り可能な非一時的な記録媒体を含んでもよい。記憶部６３には、例えば、情報処理装置６を制御するためのプログラム６３０が記憶されている。制御部６０の各種機能は、例えば、制御部６０のＣＰＵが記憶部６３内のプログラム６３０を実行することによって実現される。

　なお、制御部６０の構成は上記の例に限られない。例えば、制御部６０は、複数のＣＰＵを備えてもよい。また制御部６０は、少なくとも一つのＤＳＰ（Digital Signal Processor）を備えてもよい。また、制御部６０の全ての機能あるいは制御部６０の一部の機能は、その機能の実現にソフトウェアが不要なハードウェア回路によって実現されてもよい。また、記憶部６３は、ＲＯＭ及びＲＡＭ以外の、コンピュータが読み取り可能な非一時的な記録媒体を備えてもよい。記憶部６３は、例えば、小型のハードディスクドライブ及びＳＳＤ（Solid State Drive）などを備えてもよい。

　ロボット制御部５は、例えば、コンピュータ装置の一種であり、例えば、情報処理装置６と同様の構成を有している。ロボット制御部５は、例えば、情報処理装置６の第２インターフェース６２と通信可能である。情報処理装置６の制御部６０は、ロボット制御部５でのロボット制御に必要な情報を生成する。制御部６０で生成された情報は、第２インターフェース６２からロボット制御部５に送信される。ロボット制御部５は、第２インターフェース６２から送信される情報に基づいてロボット２を制御する。ロボット制御部５は、例えば、ロボット制御回路と呼ばれてもよい。

　図３は情報処理装置６の制御部６０がプログラム６３０を実行することによって制御部６０に形成される複数の機能ブロックの一例を示す概略図である。制御部６０は、機能ブロックとして、例えば、情報取得部６００、変換部６０１、生成部６０２、特定部６０３、度合取得部６０４、保持対象決定部６０５及び保持姿勢決定部６０６を有する。なお、情報取得部６００の全ての機能あるいは情報取得部６００の一部の機能は、その機能の実現にソフトウェアが不要なハードウェア回路によって実現されてもよい。これは、生成部６０２、特定部６０３、度合取得部６０４、保持対象決定部６０５及び保持姿勢決定部６０６についても同様である。

　情報取得部６００は、第１インターフェース３１を通じて、センサ装置４から、深度情報７００及び色情報７１０を取得する取得処理を行う。取得処理において、情報取得部６００は、例えば、第１インターフェース３１を通じて、深度情報７００及び色情報７１０の取得を指示する取得指示情報をセンサ装置４に送信する。センサ装置４は、取得指示情報を受信すると、深度センサ４０及びカメラ４１を制御して、深度センサ４０のステレオカメラ及びカメラ４１にそれぞれに撮影を実行させる。センサ装置４では、深度センサ４０がステレオカメラで得られた画像データに基づいて深度情報７００（言い換えれば深度画像データ７００）を生成し、カメラ４１が色情報７１０（言い換えればカラー画像データ７１０）を生成する。その後、センサ装置４は、深度情報７００及び色情報７１０を情報処理装置６に送信する。情報処理装置６では、第１インターフェース６１がセンサ装置４から受信した深度情報７００及び色情報７１０が制御部６０に入力される。これにより、取得処理において、情報取得部６００は、取得指示情報の送信に応じて深度情報７００及び色情報７１０を取得することができる。深度情報７００及び色情報７１０は、制御部６０を通じて記憶部６３に記憶される。

　変換部６０１は、情報取得部６００で取得された深度画像データ７００を、計測点までの深度が小さいほど、それに対応する画素値が大きくなる深度画像データ７０５に変換する変換処理を行う。変換部６０１は、深度画像データ７００の各画素値に対して反転処理を行うことによって、深度画像データ７０５を生成する。ここで、画素値が取り得る範囲の最大値を画素最大値と呼ぶ。反転処理では、深度画像データ７００に含まれるある画素値を画素最大値から差し引いて得られる値が、反転処理後の当該ある画素値とされる。深度画像データ７００において各画素値が反転処理されたものが、深度画像データ７０５となる。深度画像データ７０５に含まれる画素値が大きいほど、それに対応する計測点までの深度が小さくなる。以後、深度画像データ７０５を深度情報７０５と呼ぶことがある。

　生成部６０２は、変換部６０１で得られた深度情報７０５に対して、物体１０のサイズ（単に物体サイズともいう）に応じたフィルタ処理を行って、トレー１３上の複数の物体１０において他よりも高い位置にある高位置部分を表す高位置情報７２０を生成する。高位置部分は、例えば、物体群１０Ａにおいて周囲よりも高い位置にある部分である。各物体１０について、当該物体１０が、周囲よりも高い位置にある部分を有する場合、当該部分は高位置部分に含まれる。物体群１０Ａにおいて周囲よりも高い位置にある部分は、物体群１０Ａにおいて周囲よりも深度センサ４０側に位置する部分であるともいえる。物体群１０Ａにおいて周囲よりも高い位置にあるとは、物体群１０Ａの中で必ずしも最高地点であることを意味しない。

　ここで、トレー１３上の複数の物体１０において、高位置部分に含まれる部分を含む物体１０を対象物体１０と呼ぶ。対象物体１０は、他よりも高い位置にある部分を有する物体１０である。高位置情報７２０が表す高位置部分には、少なくとも一つの対象物体１０において他よりも高い位置にある部分が含まれる。つまり、高位置部分には、少なくとも一つの対象物体１０において周囲よりも高い位置にある部分が含まれる。

　以後、一の対象物体１０において他よりも高い位置にある部分を、物体高位置部分と呼ぶことがある。また、高位置情報７２０が表す高位置部分を全体高位置部分と呼ぶことがある。全体高位置部分には、少なくとも一つの対象物体１０の物体高位置部分が含まれる。全体高位置部分に、複数の対象物体１０の物体高位置部分が含まれる場合、一の対象物体１０の物体高位置部分は、全体高位置部分の一部を構成することから、部分高位置部分とも呼ばれる。

　以下では、特に断らない限り、全体高位置部分に、複数の対象物体１０の物体高位置部分が含まれているものとして、ロボットシステム１について説明する。つまり、トレー１３上には複数の対象物体１０が存在するものとしてロボットシステム１について説明する。

　特定部６０３は、複数の対象物体１０のそれぞれについて、計測空間１００が撮影された撮影画像において当該対象物体１０が写る物体画像を、高位置情報７２０に基づいて特定する。例えば、特定部６０３は、情報取得部６００が取得したカラー画像データ７１０が表すカラー画像７１１において対象物体１０が写る物体画像を、高位置情報７２０に基づいて特定する。以後、特定部６０３で特定された物体画像を特定物体画像と呼ぶことがある。

　度合取得部６０４は、複数の対象物体１０のそれぞれについて、当該対象物体１０の保持しやすさの度合を、深度情報７０５と、当該対象物体１０が写る特定物体画像とに基づいて求める。以後、対象物体１０の保持しやすさの度合を保持しやすさ度合と呼ぶことがある。ここでの保持しやすさ度合は、対象物体１０についてのロボット２での保持しやすさの度合を意味する。

　保持対象決定部６０５は、複数の対象物体１０についての保持しやすさ度合に基づいて、複数の対象物体１０からロボット２が保持する保持対象物体１０を決定する。保持姿勢決定部６０６は、ロボット２についての保持対象物体１０に対する保持姿勢を、保持対象物体１０が写る特定物体画像に基づいて決定する。つまり、保持姿勢決定部６０６は、ロボット２がどのような姿勢で保持対象物体１０を保持するかを、保持対象物体１０が写る特定物体画像に基づいて決定する。保持姿勢決定部６０６は、例えば、特定物体画像に基づいて、それに写る保持対象物体１０についての計測空間１００内での位置及び姿勢を特定する。そして、保持姿勢決定部６０６は、保持対象物体１０について特定した位置及び姿勢に基づいて、ロボット２についての保持対象物体１０に対する保持姿勢を決定する。例えば、ロボット２のエンドエフェクタ２１が二指で物体１０を把持する場合、保持姿勢決定部６０６は、例えば、エンドエフェクタ２１が保持対象物体１０をどの方向から二指で把持するかを保持姿勢として決定する。制御部６０は、第２インターフェース６２を通じて、保持姿勢決定部６０６で決定された保持姿勢をロボット制御部５に通知する。

　ロボット制御部５は、通知された保持姿勢に基づいてロボット２を制御する。具体的には、ロボット制御部５は、通知された保持姿勢でロボット２が保持対象物体１０を保持するようにロボット２のアーム２０及びエンドエフェクタ２１を制御する。これにより、ロボット２は、トレー１３上の複数の物体１０のうち、他よりも高い位置にある部分を有する、ロボット２が保持しやすい物体１０を保持することができる。その後、ロボット制御部５は、ロボット２が保持した保持対象物体１０がトレー１４上に配置されるようにロボット２を制御する。

　図４は、深度情報７００及び色情報７１０に基づいて、ロボット２についての物体１０に対する保持姿勢が決定される保持姿勢決定処理の一例を示すフローチャートである。制御部６０は保持姿勢決定処理を繰り返し実行する。

　保持姿勢決定処理では、まずステップｓ１において、情報取得部６００がセンサ装置４から深度情報７００及び色情報７１０を取得する。次にステップｓ２において、変換部６０１が深度情報７００を深度情報７０５に変換する変換処理を行う。次にステップｓ３において、生成部６０２が深度情報７０５に対して物体サイズに応じたフィルタ処理を行って高位置情報７２０を生成する。次にステップｓ４において、特定部６０３が、複数の対象物体１０のそれぞれについて、色情報７１０が表すカラー画像７１１において当該対象物体１０が写る物体画像を、高位置情報７２０に基づいて特定する。次にステップｓ５において、度合取得部６０４が、複数の対象物体１０のそれぞれについての保持しやすさ度合を、深度情報７０５と、複数の対象物体１０がそれぞれ写る複数の特定物体画像とに基づいて求める。次にステップｓ６において、保持対象決定部６０５が、複数の対象物体１０についての保持しやすさ度合に基づいて、複数の対象物体１０から保持対象物体１０を決定する。そして、ステップｓ７において、保持姿勢決定部６０６が、ロボット２についての保持対象物体１０に対する保持姿勢を、保持対象物体１０が写る特定物体画像に基づいて決定する。

　ステップｓ７の後、上述のようにして、ロボット２がトレー１３上の保持対象物体１０を保持してトレー１４まで運ぶと、図４に示される保持姿勢決定処理が再度実行され、ロボット２についての新たな保持対象物体１０に対する保持姿勢が決定される。以後、トレー１３上の保持対象物体１０がトレー１４まで運ばれるたびに保持姿勢決定処理が実行される。

　なお、ステップｓ４において一つの物体画像だけが特定される場合、つまり、トレー１３上には一つの対象物体１０しか存在しない場合、ステップｓ５及びｓ６が実行されなくてもよい。この場合、ステップｓ７において、保持姿勢決定部６０６は、ステップｓ４で特定された物体画像に基づいて、ロボット２についての、当該物体画像に写る物体１０に対する保持姿勢を決定してもよい。

　情報処理装置６はクラウドサーバで実現されてもよい。この場合、情報処理装置６は、インターネットを通じてロボット制御部５と通信してもよい。また、情報処理装置６の制御部６０がロボット制御部５として機能してもよい。この場合、情報処理装置６がロボット制御システム３として機能する。また、ロボット制御部５はクラウドサーバで実現されてもよい。この場合、インターネットに接続された通信部をロボット２に設けて、ロボット制御部５はインターネットを通じてロボット２を制御してもよい。また、ロボット制御システム３にセンサ装置４が含まれなくてもよい。また、ロボット制御システム３は複数のロボット制御部５を備えてもよい。また、図４に示される保持姿勢決定処理の少なくとも一部の処理はロボット制御部５で実行されてもよい。例えば、ステップｓ７の処理はロボット制御部５で実行されてもよい。

　また、センサ装置４が深度情報７０５を生成して情報処理装置６に送信してもよい。この場合、変換部６０１が不要となり、生成部６０２及び度合取得部６０４では情報取得部６００で取得された深度情報７０５が使用される。

　以上のように、情報処理装置６では、複数の物体１０が存在する計測空間１００内での深度を表す深度情報７０５に対して物体サイズに応じたフィルタ処理が行われて、物体群１０Ａにおいて他よりも高い位置にある高位置部分を表す高位置情報７２０が生成される。このように、高位置情報７２０の生成に物体サイズが利用されることによって、物体群１０Ａにおいて他よりも高い位置にある高位置部分を高位置情報７２０に基づいて適切に特定することができる。

　次に生成部６０２、特定部６０３、度合取得部６０４及び保持対象決定部６０５の動作の一例について詳細に説明する。

　＜生成部の動作例＞
　生成部６０２は、例えば、物体サイズに応じた少なくとも一種類の空間フィルタ関数を用いて、深度情報７０５（言い換えれば深度画像データ７０５）が表す深度画像７０６に対してフィルタ処理を行って高位置情報７２０を生成する生成処理を行う。高位置情報７２０は、例えば、フィルタ処理後の深度画像７０６を表す画像データである。以後、高位置情報７２０が表す画像（つまりフィルタ処理後の深度画像７０６）を、高位置画像と呼ぶことがある。また、高位置情報７２０を高位置画像データ７２０と呼ぶことがある。

　高位置画像は、物体群１０Ａにおいて他よりも高い位置にある部分を表している。高位置情報７２０には、高位置画像を構成する複数の画素の画素値が含まれる。高位置情報７２０では、それが表す高位置画像を構成する複数の画素のそれぞれについて、当該画素の位置を表す画素位置情報と、当該画素の画素値とが互いに対応付けられている。

　高位置画像を構成する複数の画素は、計測空間１００内の複数の計測点にそれぞれ対応している。高位置画像のある画素の画素値は、当該ある画素に対応する計測点に対応している。高位置情報７２０に含まれる画素値は、それに対応する計測点が他よりも高い位置にある度合を示している。例えば、高位置情報７２０に含まれる画素値は、それに対応する計測点がその周囲よりも高い位置にある度合を示している。高位置情報７２０に含まれる画素値が大きいほど、それに対応する計測点が他よりも高い位置にある。

　高位置画像の画素数は、例えば、カラー画像７１１の画素数及び深度画像７０６の画素数と一致する。また、高位置画像の画素位置（ｍ，ｎ）の画素と、カラー画像７１１の画素位置（ｍ，ｎ）の画素とは、同じ計測点に対応している。高位置画像データ７２０に含まれる、画素位置（ｍ，ｎ）の画素の画素値と、カラー画像データ７１０に含まれる、画素位置（ｍ，ｎ）の画素の画素値とは、同じ計測点に対応している。また、高位置画像の画素位置（ｍ，ｎ）の画素と、深度画像７０６の画素位置（ｍ，ｎ）の画素とは、同じ計測点に対応している。高位置画像データ７２０に含まれる、画素位置（ｍ，ｎ）の画素の画素値と、深度画像データ７０５に含まれる、画素位置（ｍ，ｎ）の画素の画素値とは、同じ計測点に対応している。

　以後の説明では、複数の画像において互いに同じ画素位置の画素は互いに対応すると表現する。例えば、高位置画像の画素位置（ｍ，ｎ）の画素と、深度画像７０６の画素位置（ｍ，ｎ）の画素と、カラー画像７１１の画素位置（ｍ，ｎ）の画素とは、互いに対応する。また、複数の画像において互いに同じ画素位置の画素の画素値は互いに対応すると表現する。例えば、高位置画像の画素位置（ｍ，ｎ）の画素の画素値と、深度画像７０６の画素位置（ｍ，ｎ）の画素の画素値と、カラー画像７１１の画素位置（ｍ，ｎ）の画素の画素値とは、互いに対応する。高位置情報７２０に含まれる、ある計測点が他よりも高い位置にある度合を表す画素値と、深度情報７０５に含まれる、当該ある計測点までの深度を表す画素値と、色情報７１０に含まれる、当該ある計測点の色を表す画素値とは、互いに対応している。

　また、ある画像の一部である第１部分画像（あるいは第１領域）が、別の画像の一部である第２部分画像（あるいは第２領域）に対応するといえば、第１部分画像（あるいは第１領域）を構成する複数の画素の画素位置が、第２部分画像（あるいは第２領域）を構成する複数の画素の画素位置とそれぞれ一致することを意味する。例えば、高位置画像の一部である第１部分画像が、深度画像の一部である第２部分画像に対応するといえば、当該第１部分画像を構成する複数の画素の画素位置が、当該第２部分画像を構成する複数の画素の画素位置とそれぞれ一致する。

　また、深度画像７０６の画素を第１画素と呼び、第１画素の画素値を第１画素値と呼ぶことがある。また、高位置画像の画素を第２画素と呼び、第２画素の画素値を第２画素値と呼ぶことがある。そして、カラー画像７１１の画素を第３画素と呼び、第３画素の画素値を第３画素値と呼ぶことがある。

　図５は、生成処理で使用される第１空間フィルタ関数のフィルタ窓２００の一例を示す概略図である。図６は、深度画像データ７０５が示す深度画像７０６に対してフィルタ窓２００が設定される様子の一例を示す概略図である。

　生成処理において、生成部６０２は、深度画像７０６を構成する複数の第１画素から、注目すべき第１画素を注目第１画素として決定する。そして、生成部６０２は、注目第１画素を含むようにフィルタ窓２００を深度画像７０６に設定する（図６参照）。生成部６０２は、フィルタ窓２００内の複数の第１画素の画素値に対して所定の演算を行って、高位置画像における、注目第１画素の画素値（注目第１画素値ともいう）に対応する第２画素値を求める単位フィルタ処理を行う。生成処理において、生成部６０２は、深度画像７０６内において注目第１画素の位置を１画素単位で移動させ、注目第１画素の位置を１画素分移動させるたびに単位フィルタ処理を行う。つまり、生成部６０２は、深度画像７０６上でフィルタ窓２００を１画素単位で移動させ、フィルタ窓２００を１画素分移動させるたびに単位フィルタ処理を実行する、これにより、深度情報７０５に含まれる複数の第１画素値にそれぞれ対応する、高位置情報７２０での複数の第２画素値が求められる。

　フィルタ窓２００は、図５に示されるように、例えば、プラス部分窓２０１と、２つのマイナス部分窓２０２とを有する。プラス部分窓２０１（プラス窓２０１ともいう）は、その領域内の各画素の画素値に対して所定のプラス値が乗算される部分フィルタ窓である。マイナス部分窓２０２（マイナス窓２０２ともいう）は、その領域内の各画素の画素値に対して所定のマイナス値が乗算される部分フィルタ窓である。プラス部分窓２０１の外形は例えば四角形である。マイナス部分窓２０２の外形は例えば四角形である。プラス部分窓２０１と２つのマイナス部分窓２０２とは、例えば一方向に沿って並んでいる。プラス部分窓２０１は２つのマイナス部分窓２０２で挟まれている。所定のプラス値は例えば＋１．０であって、所定のマイナス値は例えば－０．５である。

　以後、プラス部分窓２０１とマイナス部分窓２０２とが並ぶ方向を窓並び方向と呼ぶ。また、窓並び方向に垂直な方向を窓垂直方向と呼ぶ。後述する他の種類のフィルタ窓についても同様である。

　フィルタ窓２００の窓並び方向及び窓垂直方向は、フィルタ窓２００が設定される深度画像７０６の行方向及び列方向にそれぞれ一致する。フィルタ窓２００の窓並び方向サイズ及び窓垂直方向サイズのそれぞれは複数画素分のサイズである。図５の例では、フィルタ窓２００の窓並び方向サイズ及び窓垂直方向サイズは互いに同じであり、フィルタ窓２００の外形は正方形となっている。なお、フィルタ窓２００の窓並び方向サイズ及び窓垂直方向サイズは互い異なってもよい。つまり、フィルタ窓２００の窓並び方向サイズは、フィルタ窓２００の窓垂直方向サイズよりも大きくてもよいし、小さくてもよい。

　プラス窓２０１の窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂのそれぞれは複数画素分のサイズである。また、マイナス窓２０２の窓並び方向サイズ２０２ａ及び窓垂直方向サイズ２０２ｂのそれぞれは複数画素分のサイズである。生成部６０２は、単位フィルタ処理において、例えば、プラス窓２０１の中心に注目第１画素が位置するようフィルタ窓２００を深度画像７０６に設定する。そして、生成部６０２は、単位フィルタ処理において、プラス窓２０１内の、注目第１画素を含む複数の第１画素のそれぞれの画素値に対して所定のプラス値を乗算する。そして、生成部６０２は、所定のプラス値を乗算した複数の第１画素値の総和をプラス総和値として求める。プラス総和値はプラスの値を示す。また、生成部６０２は、単位フィルタ処理において、マイナス窓２０２内の各第１画素の画素値に対してマイナス値を乗算する。そして、生成部６０２は、所定のマイナス値を乗算した複数の第１画素値の総和をマイナス総和値として求める。マイナス総和値はマイナスの値を示す。生成部６０２は、２つのマイナス部分窓２０２のそれぞれについてマイナス総和値を求める。そして、生成部６０２は、単位フィルタ処理において、プラス総和値と２つのマイナス総和値の総和を演算値として求める。生成部６０２は、求めた演算値を、高位置画像データ７２０での注目第１画素値に対応する第２画素値とする。ただし、生成部６０２は、演算値がマイナスの値である場合、注目第１画素値に対応する第２画素値を零に設定する。これにより、高位置画像の第２画素値は零以上の値となる。なお、演算値がマイナスの値であっても、演算値がそのまま第２画素値とされてもよい。

　このように、単位フィルタ処理では、フィルタ窓２００が、例えば、注目第１画素とその周囲の複数の第１画素とを含むように深度画像７０６に設定される。そして、注目第１画素とその周囲の複数の第１画素との画素値に対して所定の演算が行われて、注目第１画素値に対応する第２画素値が求められる。このような単位フィルタ処理が、注目第１画素の位置が変化しながら繰り返し実行されることによって、高位置画像を構成する複数の画素の画素値が得られる。第１空間フィルタ関数は、このような処理を表す関数である。

　生成処理では、注目第１画素の位置が、例えばラスタースキャン方向に沿って移動する。つまり、フィルタ窓２００が、深度画像７０６上において、例えばラスタースキャン方向に沿って移動する。生成処理では、例えば、最初の単位フィルタ処理において、深度画像７０６の画素位置（０，０）の第１画素が最初の注目第１画素とされる。次の単位フィルタ処理では、注目第１画素が行方向に沿って１画素分だけ移動し、画素位置（１，０）の第１画素が注目第１画素とされる。その後、注目第１画素が行方向に沿って１画素分だけ移動するたびに単位フィルタ処理が実行される。画素位置（Ｍ，０）の第１画素が注目第１画素とされると、次に、画素位置（Ｍ，１）の第１画素が注目第１画素とされる。その後、注目第１画素が行方向に沿って１画素分ずつ移動し、画素位置（Ｍ，１）の第１画素が注目第１画素とされると、次に、画素位置（Ｍ，２）の第１画素が注目第１画素とされる。以後同様にして、注目第１画素の位置が移動して、画素位置（Ｍ，Ｎ）の第１画素を注目第１画素とする単位フィルタ処理が実行されると、高位置画像を構成する複数の画素の画素値がすべて得られて、生成処理が終了する。

　プラス窓２０１のサイズは、例えば、物体サイズに応じたサイズとなっている。例えば、プラス窓２０１の窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂのそれぞれが、物体サイズに応じたサイズとなっている。具体的には、窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂは、物体１０の特定方向のサイズに応じたサイズとなっている。例えば、窓並び方向サイズ２０１ａは、物体１０の幅方向サイズに応じたサイズであってもよいし、物体１０の奥行方向サイズに応じたサイズであってもよいし、物体１０の高さ方向サイズに応じたサイズであってもよい。また、窓垂直方向サイズ２０１ｂは、物体１０の幅方向サイズに応じたサイズであってもよいし、物体１０の奥行方向サイズに応じたサイズであってもよいし、物体１０の高さ方向サイズに応じたサイズであってもよい。なお、幅方向サイズは、横方向サイズあるいは長手方向サイズに読み替えてもよいし、奥行方向サイズは、縦方向サイズあるいは短手方向のサイズに読み替えてもよいし、高さ方向サイズは厚み方向サイズに読み替えてもよい。

　窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂは、例えば、センサ装置４のカメラ４０ａあるいはカメラ４１の撮影画像上での物体１０のサイズに対応している。つまり、センサ装置４のカメラ４０ａあるいはカメラ４１の撮影画像上での物体１０のサイズが、窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂとして採用される。

　ここで、トレー１３上での物体１０の代表的な姿勢を基準姿勢とし、トレー１３上での基準姿勢の物体１０（基準物体１０と呼ぶ）がカメラ４０ａあるいはカメラ４１で撮影されたときに得られる撮影画像を基準撮影画像と呼ぶ。窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂのそれぞれは、例えば、基準撮影画像上での基準物体１０のサイズに一致している。具体的には、窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂのそれぞれは、基準撮影画像上での基準物体１０の特定方向のサイズに一致している。例えば、窓並び方向サイズ２０１ａは、基準撮影画像上での基準物体１０の幅方向サイズに一致してもよいし、基準撮影画像上での基準物体１０の奥行方向サイズに一致してもよいし、基準撮影画像上での基準物体１０の高さ方向サイズに一致してもよい。また、窓垂直方向サイズ２０１ｂは、基準撮影画像上での基準物体１０の幅方向サイズに一致してもよいし、基準撮影画像上での基準物体１０の奥行方向サイズに一致してもよいし、基準撮影画像上での基準物体１０の高さ方向サイズに一致してもよい。

　窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂは互いに異なってもよいし、互いに同じであってもよい。前者の場合、例えば、窓並び方向サイズ２０１ａは基準撮影画像上での基準物体１０の奥行方向サイズに一致し、窓垂直方向サイズ２０１ｂは基準撮影画像上での基準物体１０の幅方向サイズに一致してもよい。

　マイナス窓２０２のサイズは、プラス部分窓２０１と同様に、物体サイズに応じたサイズとなっている。例えば、プラス窓２０１と同様に、マイナス窓２０２の窓並び方向サイズ２０２ａ及び窓垂直方向サイズ２０２ｂのそれぞれは、物体サイズに応じたサイズとなっている。

　窓並び方向サイズ２０２ａ及び窓垂直方向サイズ２０２ｂのそれぞれは、窓並び方向サイズ２０１ａ及び窓垂直方向サイズ２０１ｂと同様に、例えば、基準撮影画像上での基準物体１０のサイズに一致している。窓並び方向サイズ２０２ａは、基準撮影画像上での基準物体１０の幅方向サイズに一致してもよいし、基準撮影画像上での基準物体１０の奥行方向サイズに一致してもよいし、基準撮影画像上での基準物体１０の高さ方向サイズに一致してもよい。また、窓垂直方向サイズ２０２ｂは、基準撮影画像上での基準物体１０の幅方向サイズに一致してもよいし、基準撮影画像上での基準物体１０の奥行方向サイズに一致してもよいし、基準撮影画像上での基準物体１０の高さ方向サイズに一致してもよい。窓並び方向サイズ２０２ａ及び窓垂直方向サイズ２０２ｂは互いに一致してもよいし、互いに異なっていてもよい。

　上記の例では、物体サイズに応じたサイズは、基準撮影画像上での基準物体１０のサイズに一致していたが、一致していなくてもよい。物体サイズに応じたサイズは、基準撮影画像上での基準物体１０のサイズの１／２倍以上２倍以下であってもよい。

　図５の例では、マイナス窓２０２の窓並び方向サイズ２０２ａは、プラス窓２０１の窓並び方向サイズ２０１ａと一致しているが、窓並び方向サイズ２０１ａと一致しなくてもよい。また、図５の例では、マイナス窓２０２の窓垂直方向サイズ２０２ｂは、プラス窓２０１の窓垂直方向サイズ２０１ｂと一致しているが、窓垂直方向サイズ２０１ｂと一致しなくてもよい。

　また、図５の例では、２つのマイナス窓２０２の窓並び方向サイズ２０２ａは互いに一致しているが、互いに異なってもよい。また、図５の例では、２つのマイナス窓２０２の窓垂直方向サイズ２０２ｂは互いに一致しているが、互いに異なってもよい。

　物体サイズに応じた窓並び方向サイズ２０１ａは、情報処理装置６の記憶部６３に予め記憶されてもよい。また、窓並び方向サイズ２０１ａは、ユーザによって情報処理装置６に入力されてもよい。この場合、情報処理装置６がユーザの入力を受け付ける入力部を有する場合、ユーザは、窓並び方向サイズ２０１ａを情報処理装置６に対して直接入力してもよい。また、外部装置に、ユーザの入力を受け付ける入力装置が含まれる場合、ユーザは、窓並び方向サイズ２０１ａを入力装置を通じて情報処理装置６に入力してもよい。また、情報処理装置６の制御部６０あるいはロボット制御部５が窓並び方向サイズ２０１ａを決定してもよい。この場合、制御部６０あるいはロボット制御部５は、例えば、カメラ４０ａあるいはカメラ４１で得られた、基準撮影画像を表す画像データに基づいて、基準撮影画像上での基準物体１０のサイズを算出し、算出したサイズに基づいて窓並び方向サイズ２０１ａを決定してもよい。あるいは、制御部６０あるいはロボット制御部５は、画像データを使用することなく、物体１０の外形を表すＣＡＤ（Computer Aided Design）データと、カメラ４０ａあるいはカメラ４１の特性データとに基づいて、基準撮影画像上での基準物体１０のサイズを算出し、算出したサイズに基づいて窓並び方向サイズ２０１ａを決定してもよい。窓並び方向サイズ２０１ａについて説明した上記の内容は、窓垂直方向サイズ２０１ｂ、窓並び方向サイズ２０２ａ及び窓垂直方向サイズ２０２ｂについても適用することができる。

　以上のようなフィルタ窓２００が使用されて高位置情報７２０が生成されることによって、物体群１０Ａの高位置部分を適切に表す高位置情報７２０を得ることができる。以下にこの点について詳細に説明する。

　図７及び８は単位フィルタ処理の一例を説明するための概略図である。図７及び８では、深度画像７０６のある一の行を注目した場合、その注目行の各画素位置と、その画素位置の画素の画素値（つまり第１画素値）との関係がグラフ９００に示されている。グラフ９００では、深度画像７０６の注目行の各位置が横軸に示され、縦軸に第１画素値が示されている。また図７では、深度画像７０６において注目行の一部を含む領域に対して設定されたフィルタ窓２００が、グラフ９００の横軸の位置に合わせて示されている。

　上述のように、ロボット制御システム３では、深度センサ４０のカメラ４０ａは、トレー１３の上方から撮影している。また、上述のように、計測空間１００内の物体の表面の計測点までの深度は、深度センサ４０から当該計測点までの深度である。したがって、深度が大きい計測点は、深度センサ４０から見た場合の計測空間１００の奥側からの高さが小さい計測点であるといえる。よって、深度画像７０６の第１画素値は、それに対応する計測点の高さを表していると見ることもできる。つまり、深度画像７０６は各計測点の高さを表す画像であり、深度情報７０５は各計測点の高さを表す情報であるといえる。同様に、深度情報７００も各計測点の高さを表す情報であるといえる。深度画像７０６については、第１画素値が大きいほど、それに対応する計測点までの深度が小さい。そのため、第１画素値が大きいほど、それに対応する計測点の高さが大きいことになる。

　以後、深度画像７０６において、全体高位置部分に含まれる物体高位置部分に相当する部分画像、つまり、一の対象物体１０において他よりも高い位置にある部分に相当する部分画像を、第１の物体高位置相当画像と呼ぶことがある。第１の物体高位置相当画像を構成する複数の画素にそれぞれ対応する複数の計測点は対象物体１０に位置する。第１画素値が大きいほど、それに対応する計測点の高さが大きいことから、第１の物体高位置相当画像の第１画素値は、第１の物体高位置相当画像の周囲の部分の第１画素値よりも大きい値となる。図７のグラフ９００での第１画素値を表す曲線において、値がその周囲よりも大きくなっている領域は、第１の物体高位置相当画像の第１画素値である。グラフ９００での第１画素値を示す点を結んだ線は、深度センサ４０から物体群１０Ａを見た場合の物体群１０Ａの表面の形状を表しているともいえる。

　上述のように、フィルタ窓２００は、例えば、プラス窓２０１の中心に注目第１画素が位置するように深度画像７０６に設定される。図７の例で、注目第１画素が第１の物体高位置相当画像に含まれるようにフィルタ窓２００が設定されている。図７の例では、注目第１画素に対応する計測点は、他よりも高い位置にある計測点である。一方で、図８の例では、注目第１画素が第１の物体高位置相当画像に含まれないようにフィルタ窓２００が設定されている。図８の例では、注目第１画素に対応する計測点は、他よりも高い位置にある計測点ではない。以後、他よりも高い位置にある計測点を高位置計測点と呼ぶことがある。

　図７の例では、プラス窓２０１に基づくプラス総和値の絶対値は比較的大きい値となる。また、マイナス窓２０２に基づくマイナス総和値の絶対値はそれほど大きくはならない。よって、プラス総和値と２つのマイナス総和値との総和である演算値はプラスの値を示す。これにより、第１の物体高位置相当画像に含まれる注目第１画素に対応する、高位置画像の第２画素の画素値は、プラスの値を示す。

　これに対して、図８の例では、プラス窓２０１に基づくプラス総和値の絶対値は比較的小さい値となる。また、マイナス窓２０２に基づくマイナス総和値の絶対値は比較的大きな値となる。よって、プラス総和値と２つのマイナス総和値との総和である演算値はマイナスの値を示す。これにより、第１の物体高位置相当画像には含まれない注目第１画素に対応する、高位置画像の第２画素の画素値は、零となる。

　なお、深度画像７０６において、物体群１０Ａにおける高さが均一な部分に相当する部分画像に対してフィルタ窓２００が設定された場合、演算値は例えば零となる。

　図９は、プラス窓２０１及びマイナス窓２０２のサイズが物体サイズに応じたサイズとはなっておらず、プラス窓２０１及びマイナス窓２０２のサイズが大きすぎる場合の単位フィルタ処理の一例を説明するための概略図である。図９の例では、図７の例と同様に、注目第１画素が第１の物体高位置相当画像に含まれるようにフィルタ窓２００が設定されている。図９の例では、プラス窓２０１には、注目第１画素を含む第１の物体高位置相当画像の周囲の画像が含まれることから、プラス総和値の絶対値は図７の例と比較して小さい値となる。また、マイナス窓２０２には第１画素値が大きい第１画素が含まれることから、マイナス窓２０２に基づくマイナス総和値の絶対値は図７の例と比較して大きくなる。よって、演算値は図７の例と比較して小さくなる。例えば、演算値はマイナス値となる。これにより、図７の例とは異なり、深度画像の第１の物体高位置相当画像に含まれる注目第１画素に対応する第２画素の画素値は小さくなる。

　図１０は、プラス窓２０１及びマイナス窓２０２のサイズが物体サイズに応じたサイズとはなっておらず、プラス窓２０１及びマイナス窓２０２のサイズが小さすぎる場合の単位フィルタ処理の一例を説明するための概略図である。図１０の例では、図７の例と同様に、注目第１画素が第１の物体高位置相当画像に含まれるようにフィルタ窓２００が設定されている。図１０の例では、プラス窓２０１には、注目第１画素を含む第１の物体高位置相当画像の周囲の画像は含まれていないことから、プラス総和値の絶対値は図７の例と同様に大きい値となる。一方で、マイナス窓２０２には注目第１画素を含む第１の物体高位置相当画像の第１画素が含まれることから、マイナス窓２０２に基づくマイナス総和値の絶対値は図７の例と比較して大きくなる。よって、演算値は図７の例と比較して小さくなる。これにより、図７の例とは異なり、深度画像の第１の物体高位置相当画像に含まれる注目第１画素に対応する第２画素の画素値は小さくなる。

　図７及び８の例のように、プラス窓２０１のサイズが、物体サイズに応じたサイズとなっている場合、プラス窓２０１のサイズを、深度画像の第１の物体高位置相当画像のサイズに近づけることが可能となる。これにより、図７の例のように、注目第１画素が第１の物体高位置相当画像に含まれる場合、プラス窓２０１に基づくプラス総和値の絶対値は大きくなり、かつマイナス窓２０２に基づくマイナス総和値の絶対値は小さくなる傾向となる。よって、演算値は大きくなる傾向となる。その結果、注目第１画素が第１の物体高位置相当画像に含まれる場合、高位置画像における、注目第１画素に対応する第２画素の画素値は大きくなる傾向となる。注目第１画素が第１の物体高位置相当画像に含まれる場合、注目第１画素に対応する計測点は他よりも高い位置にあることから、物体１０に位置する計測点が他よりも高い位置にある場合、当該計測点に対応する第２画素値は大きくなる傾向となる。

　一方で、図８の例のように、注目第１画素が第１の物体高位置相当画像に含まれない場合、プラス総和値の絶対値は小さくなり、かつ２つのマイナス総和値の少なくとも一方の絶対値は大きくなる傾向となる。よって、演算値は小さくなる傾向となる。注目第１画素が第１の物体高位置相当画像に含まれていない場合、注目第１画素に対応する計測点は、他よりも高い位置にはないことから、物体１０に位置する計測点が他よりも高い位置にはない場合、当該計測点に対応する第２画素値は小さくなる傾向となる。

　このように、高位置画像データ７２０では、高位置計測点に対応する第２画素値が大きくなる傾向にある。一方で、高位置計測点ではない計測点に対応する第２画素値が小さくなる傾向にある。つまり、計測点が他よりも高いか否かで、当該計測点の第２画素値が変化する。これにより、高位置情報７２０は、物体群１０Ａの高位置部分、つまり、物体群１０Ａにおいて他よりも高い位置にある部分を適切に表すことができる。よって、高位置情報７２０に基づいて高位置部分を適切に特定することができる。例えば、高位置情報７２０が表す高位置画像において第２画素値がしきい値以上である部分画像が、物体群１０Ａの高位置部分に相当する画像（第２の高位置相当画像ともいう）となる。また、高位置画像の第２の高位置相当画像において、位置が連続する複数の画素から成る連続領域を特定し、特定した連続領域を、一の対象物体１０の物体高位置部分に相当する画像（第２の物体高位置相当画像ともいう）とすることができる。これにより、高位置情報７２０から各物体高位置部分を個別に特定することができる。

　また、注目第１画素が第１の物体高位置相当画像に含まれる場合であって、マイナス窓２０２のサイズが物体サイズに応じたサイズとなっておらず大きすぎる場合には、図９の例のように、マイナス窓２０２に第１画素値が大きい画素が含まれやすくなる。これにより、注目第１画素が第１の物体高位置相当画像に含まれる場合、マイナス総和値の絶対値が大きくなる傾向になり、その結果、演算値が小さくなる傾向となる。そのため、注目第１画素に対応する計測点が高位置計測点として特定されない可能性がある。

　これに対して、マイナス窓２０２のサイズが物体サイズに応じたサイズとなっている場合、図７の例のように、マイナス窓２０２には第１画素値が大きい画素が含まれにくくなる。よって、注目第１画素が第１の物体高位置相当画像に含まれる場合、マイナス総和値の絶対値が大きくなりにくく、演算値が小さくなりにくくなる。これにより、注目第１画素に対応する計測点が高位置計測点として特定されやすくなる。

　また、マイナス窓２０２のサイズが小さすぎる場合には、マイナス窓２０２には含まれる画素の数が少なくなる。この場合、マイナス窓２０２に含まれる特定の画素の画素値に多くのノイズが含まれる場合、マイナス総和値の誤差が大きくなる可能性がある。マイナス総和値の誤差が大きくなると、演算値の誤差が大きくなる。その結果、注目第１画素に対応する計測点が高位置計測点として特定されない可能性がある。

　これに対して、マイナス窓２０２のサイズが物体サイズに応じたサイズとなっている場合には、マイナス窓２０２に含まれる特定の画素の画素値に多くのノイズが含まれる場合であっても、マイナス総和値の誤差を小さくすることができ、その結果、注目第１画素に対応する第２画素の画素値の誤差を小さくすることできる。よって、注目第１画素に対応する計測点が高位置計測点として特定されやすくなる。

　また、プラス窓２０１が２つのマイナス窓２０２で挟まれる場合には、高位置情報７２０から、周囲において両側にスペースがある物体高位置部分を特定することが可能となる。以下にこの点について説明する。

　計測空間１００において、深度画像に設定されたフィルタ窓２００の窓並び方向に相当する方向をフィルタ方向と呼ぶ。また、計測空間１００において深度画像の行方向及び列方向に相当する方向を、それぞれ、ｘ方向及びｙ方向と呼ぶ。図６の例のように、窓並び方向が深度画像の行方向と一致する場合、フィルタ方向はｘ方向と一致する。

　図７の例では、注目第１画素を含む第１の物体高位置相当画像の窓並び方向の両側には、第１画素値が小さい部分画像が位置する。よって、注目第１画素を含む第１の物体高位置相当画像に対応する物体高位置部分（注目物体高位置部分ともいう）のフィルタ方向の両側には、物体が存在しないスペースが存在する。プラス窓２０１が２つのマイナス窓２０２で挟まれたフィルタ窓２００が図７のように設定された場合、注目第１画素に対応する第２画素の画素値が大きくなる。

　これに対して、図１１の例のように、注目第１画素を含む第１の物体高位置相当画像の片側（例えば右側）だけに、第１画素値が小さい部分画像が位置する場合を考える。この場合、注目物体高位置部分の片側だけにスペースが存在する。図１１のようにフィルタ窓２００が設定された場合、左側のマイナス窓２０２に基づくマイナス総和値の絶対値が大きくなる。そのため、注目第１画素に対応する第２画素の画素値は小さくなる。

　このように、注目第１画素を含む第１の物体高位置相当画像の窓並び方向の両側に第１画素値が小さい部分画像が位置する場合と、注目第１画素を含む第１の物体高位置相当画像の窓並び方向の片側だけに第１画素値が小さい部分画像が位置する場合とで、注目第１画素に対応する第２画素の画素値が変化する。つまり、注目物体高位置部分のフィルタ方向の両側にスペースが存在する場合と、注目物体高位置部分のフィルタ方向の片側だけにスペースが存在する場合とで、注目第１画素に対応する第２画素の画素値が変化する。したがって、第２画素値と比較されるしきい値を適宜設定することによって、高位置情報７２０から、少なくともフィルタ方向の両側にスペースがある物体高位置部分が特定しやすくなる。図５の例のように、フィルタ方向が、計測空間１００での深度画像の行方向に相当するｘ方向に一致する場合、少なくともｘ方向の両側にスペースがある物体高位置部分を高位置情報７２０から特定しやすくなる。これにより、高位置情報７２０から特定された物体高位置部分を含む対象物体１０とエンドエフェクタ２１とが干渉しにくくなる。その結果、例えば、エンドエフェクタ２１は、高位置情報７２０から特定された物体高位置部分を含む対象物体１０を、フィルタ方向の両側から把持しやすくなる。

　なお、フィルタ窓２００は、２つのマイナス窓２０２の一方を備えなくてもよい。この場合、高位置情報７２０から、少なくともフィルタ方向の一方側にスペースがある物体高位置部分を特定しやすくなる。

　フィルタ窓２００が上記のようにして使用される場合、マイナス窓２０２の窓並び方向サイズ２０２ａによって、高位置情報７２０から特定される物体高位置部分の周囲のスペースの大きさが決定される。例えば、右側のマイナス窓２０２の窓並び方向サイズ２０２ａが大きい場合、高位置情報７２０から特定される物体高位置部分のフィルタ方向の右側のスペースが大きくなる。つまり、右側のマイナス窓２０２の窓並び方向サイズ２０２ａが大きい場合、フィルタ方向の右側のスペースが大きい物体高位置部分が高位置情報７２０から特定される。マイナス窓２０２の窓並び方向サイズ２０２ａを調整することによって、物体高位置部分の周囲のスペースの大きさも考慮した高位置情報７２０を取得することができる。以下にこの点について説明する。

　各マイナス窓２０２の窓並び方向サイズ２０２ａが大きい場合、図１２に示されるように、注目第１画素を含む第１の物体高位置相当画像の窓並び方向の両側に、第１画素値が小さい部分画像が広がっていれば、第１画素値が大きい第１画素が各マイナス窓２０２に含まれにくくなる。つまり、注目第１画素を含む第１の物体高位置相当画像の窓並び方向の両側に、第１画素値が小さい部分画像が広がっていれば、マイナス窓２０２の窓並び方向サイズ２０２ａが大きいときでも、注目第１画素に対応する第２画素の画素値が大きくなる。言い換えれば、計測空間１００において、注目物体高位置部分のフィルタ方向の両側に大きなスペースがあれば、窓並び方向サイズ２０２ａが大きいときでも、注目第１画素に対応する第２画素の画素値が大きくなる。よって、窓並び方向サイズ２０２ａが大きいマイナス窓２０２を使用した場合、対応する第２画素値が大きい計測点を高位置計測点とすることによって、フィルタ方向の両側のスペースが大きい物体高位置部分が高位置情報７２０から特定される。これに対して、窓並び方向サイズ２０２ａが小さいマイナス窓２０２を使用した場合、フィルタ方向の両側のスペースが小さい物体高位置部分が高位置情報７２０から特定される。

　なお、左側のマイナス窓２０２の窓並び方向サイズ２０２ａが大きく、右側のマイナス窓２０２の横並び方向サイズ２０２ａが小さい場合、フィルタ方向の左側のスペースが大きく、フィルタ方向の右側のスペースが小さい物体高位置部分が高位置情報７２０から特定される。

　このように、マイナス窓２０２の窓並び方向サイズ２０２ａを調整することによって、高位置情報７２０から特定される物体高位置部分の周囲のスペースの大きさを調整することができる。例えば、上記の例のように、窓並び方向サイズ２０２ａが物体サイズに応じたサイズに設定される場合、高位置情報７２０から、周囲のスペースのサイズが物体サイズに応じたサイズの物体高位置部分を特定することができる。

　なお、エンドエフェクタ２１が物体１０を複数の指で把持する場合、マイナス窓２０２の窓並び方向サイズ２０２ａは、エンドエフェクタ２１の指の太さに応じたサイズであってもよい。この場合、マイナス窓２０２の窓並び方向サイズ２０２ａは、上記と同様に、カメラ４０ａあるいはカメラ４１で得られる撮像画像上でのエンドエフェクタ２１の指の太さと一致させてもよい。これにより、周囲のスペースのサイズが、エンドエフェクタ２１の指の太さに応じたサイズの物体高位置部分を特定することが可能な高位置情報７２０を取得することができる。よって、エンドエフェクタ２１が複数の指で把持することが可能な物体１０を保持対象物体１０として決定することができる。

　＜特定部の動作例＞
　カラー画像７１１において対象物体１０が写る物体画像を特定する特定部６０３は、例えば、高位置情報７２０が表す高位置画像を二値化して二値化画像を生成する。特定部６０３は、例えば、高位置画像を構成する複数の第２画素の第２画素値のそれぞれについて、しきい値以上の第２画素値を“１”に変換し、しきい値未満の第２画素値を“０”に変更する。これより、高位置画像が二値化画像に変換される。二値化画像において画素値が“１”を示す領域が物体群１０Ａの高位置部分に相当する。以後、二値化画像において、画素値が“１”を示す領域を高値領域と呼び、画素値が“０”を示す領域を低値領域と呼ぶ。

　特定部６０３は、全体高位置部分に相当する高値領域に含まれる、位置が連続する複数の画素から成る連続領域を特定する。連続領域は、独立領域あるいは島領域ともいえる。高値領域に含まれる複数の連続領域は、複数の対象物体１０の物体高位置部分にそれぞれ相当する。高位置画像において、二値化画像の一の連続領域に対応する領域は、一の物体高位置部分に相当し、第２の物体高位置相当画像である。特定部６０３は、例えば、高値領域に対して４連結あるいは８連結等を用いたラベリング処理を行うことによって、高値領域に含まれる複数の連続領域を特定することができる。

　特定部６０３は、特定した各連続領域について、カラー画像７１１において当該連続領域に対応する部分画像を特定する。そして、特定部６０３は、特定した部分画像を、対象物体１０が写る物体画像とする。これにより、カラー画像７１１において、対象物体１０の物体高位置部分に相当する連続領域に対応する部分画像が、当該対象物体１０が写る物体画像とされる。カラー画像７１１において連続領域に相当する部分画像は、カラー画像７１１において物体高位置部分（言い換えれば、高位置部分の一部である部分高位置部分）に相当する部分画像（第３の物体高位置相当画像ともいう）である。したがって、カラー画像７１１に含まれる第３の物体高位置相当画像が、対象物体１０が写る物体画像とされる。第３の物体高位置相当画像に写る物体高位置部分は対象物体１０の少なくとも一部を構成することから、物体画像には対象物体１０の少なくとも一部が写る。

　なお、特定部６０３は、カラー画像７１１において第３の物体高位置相当画像から拡張した領域を物体画像としてもよい。図１３は、カラー画像７１１において第３の物体高位置相当画像７１２から拡張された範囲７１３が物体画像７１４とされる様子の一例を示す概略図である。図１３の左側では、第３の物体高位置相当画像７１２の一例が示されている。図１３の右側には、左側に示される第３の物体高位置相当画像７１２から拡張された範囲７１３が示されている。

　例えば、複数の物体１０の色が互いに異なる場合を考える。この場合、特定部６０３は、計測空間１００の色情報に基づいて第３の物体高位置相当画像７１２から拡張した範囲７１３を物体画像７１４としてもよい。例えば、特定部６０３は、カラー画像データ７１０に基づいて第３の物体高位置相当画像７１２から拡張した範囲７１３を物体画像７１４としてもよい。この場合、特定部６０３は、例えば、カラー画像７１１において、第３の物体高位置相当画像７１２と連続する領域であって、第３の物体高位置相当画像７１２の色と同じ色の領域を特定する。そして、特定部６０３は、第３の物体高位置相当画像７１２から特定した領域まで拡張した範囲７１３を物体画像７１４とする。つまり、特定部６０３は、特定した領域を第３の物体高位置相当画像７１２に付け加えた範囲を物体画像７１４とする。これにより、物体画像に写る対象物体１０の大きさが拡大される。

　また、特定部６０３は、計測空間１００のエッジ画像に基づいて第３の物体高位置相当画像７１２から拡張した範囲７１３を物体画像７１４としてもよい。この場合、特定部６０３は、例えば、計測空間１００が写るカラー画像７１１に対してエッジ検出を行って、計測空間１００のエッジ画像を生成する。エッジ画像の生成方法としては、例えば、Sobel法、Laplacian法あるいはCanny法などが使用される。次に、特定部６０３は、エッジ画像において第３の物体高位置相当画像７１２に対応する部分（対応部分エッジ画像ともいう）を特定する。そして、特定部６０３は、エッジ画像において、対応部分エッジ画像から、対象物体１０の輪郭に相当するエッジ（輝度が急激に変化する領域）まで拡張した範囲を特定する。そして、特定部６０３は、カラー画像７１１において特定した範囲に対応する部分を、エッジ画像に基づいて第３の物体高位置相当画像７１２から拡張した範囲７１３として、当該範囲７１３を物体画像７１４とする。

　＜度合取得部の動作例＞
　ここでは、複数の対象物体１０のうち注目する対象物体１０を注目対象物体１０と呼ぶ。

　度合取得部６０４は、例えば、注目対象物体１０の保持しやすさを表す評価値を求めて、求めた評価値を、注目対象物体１０の保持しやすさ度合として採用してもよい。評価値は様々な観点から求めるができる。例えば、度合取得部６０４は、深度画像７０６において、注目対象物体１０が写る特定物体画像に対応する部分画像（物体対応画像ともいう）を特定する。そして、度合取得部６０４は、特定した物体対応画像を構成する複数の第１画素の画素値の平均値あるいは最大値を求める。物体対応画像についての平均値及び最大値をそれぞれ第１平均値及び第１最大値と呼ぶ。度合取得部６０４は、第１平均値あるいは第１最大値を評価値としてもよい。深度画像７０６の第１画素値が大きいほど、それに対応する計測点が高い位置にある。したがって、第１平均値あるいは第１最大値が大きいほど、注目対象物体１０は保持しやすいといえる。

　また、度合取得部６０４は、図１４に示されるように、深度画像７０６において、物体対応画像７０７ａの周囲の部分画像７０７ｂ（周囲部分画像７０７ｂともいう）を特定し、特定した周囲部分画像７０７ｂを構成する複数の第１画素の画素値の平均値あるいは最大値を求めてもよい。周囲部分画像７０７ｂについての平均値及び最大値をそれぞれ第２平均値及び第２最大値と呼ぶ。そして、度合取得部６０４は、第１平均値及び第１最大値のどちらか一方から、第２平均値及び第２最大値のどちらか一方を差し引いて得られる差分値を評価値としてもよい。対象物体１０が周囲よりも高い位置にあるほど差分値は大きくなることから、差分値が大きいほど、注目対象物体１０は保持しやすいといえる。

　エンドエフェクタ２１が物体１０を複数の指で把持する場合、周囲部分画像７０７ｂの幅７０７ｂｂは、エンドエフェクタ２１の指の太さに応じたサイズであってもよい。この場合、幅７０７ｂｂは、カメラ４０ａあるいはカメラ４１で得られる撮像画像上でのエンドエフェクタ２１の指の太さと一致させてもよい。これにより、周りにエンドエフェクタ２１の指が入るスペースが存在する対象物体１０の保持しやすさ度合が高くになり、対象物体１０をエンドエフェクタ２１の指で把持しやすくなる。なお、図１４の例では、周囲部分画像７０７ｂは、物体対応画像７０７ａを取り囲んでいるが、物体対応画像７０７ａを取り囲んでいなくてもよい。

　また、度合取得部６０４は、深度画像７０６に基づいて、注目対象物体１０の周囲のスペースのサイズを特定し、特定したサイズに基づいて評価値を決定してもよい。この場合、度合取得部６０４は、例えば、注目対象物体１０の周囲のスペースのサイズが大きいほど評価値を大きくする。度合取得部６０４は、例えば、深度画像７０６での物体対応画像７０７ａの周囲において第１画素値が小さい範囲を特定することによって、注目対象物体１０の周囲のスペースのサイズを特定することができる。

　＜保持対象決定部の動作例＞
　保持対象決定部６０５は、例えば、複数の対象物体１０のうち、保持しやすさ度合が最も大きい対象物体１０を保持対象物体１０とする。保持対象決定部６０５は、保持しやすさ度合が最大の対象物体１０が複数存在する場合、他の情報に基づいて、保持対象物体１０を決定してもよい。例えば、保持しやすさ度合が最大の複数の対象物体１０のそれぞれについて、対象物体１０が写る特定物体画像に基づいて対象物体１０の露出面積を求める。そして、度合取得部６０４は、保持しやすさ度合が最大の複数の対象物体１０において、露出面積が最大の対象物体１０を保持対象物体１０としてもよい。

　以上のように、ロボットシステム１について説明したが、ロボットシステム１は上記の例に限られない。以下にロボットシステム１の他の例について説明する。

　＜生成部の他の動作例＞
　生成部６０２は、物体サイズに応じた複数種類の空間フィルタ関数を用いて深度画像７０６に対してフィルタ処理を行って高位置情報７２０を生成してもよい。例えば、生成部６０２は、上述の第１空間フィルタ関数と、物体サイズに応じた第２空間フィルタ関数とを用いて深度画像７０６に対してフィルタ処理を行って高位置情報７２０を生成してもよい。図１５は第２空間フィルタ関数のフィルタ窓２２０の一例を示す概略図である。

　フィルタ窓２２０は、例えば、フィルタ窓２００と同様に、プラス窓２０１と、２つのマイナス窓２０２とを有する。フィルタ窓２２０の窓並び方向及び窓垂直方向は、フィルタ窓２００とは異なり、深度画像７０６の列方向及び行方向にそれぞれ一致する。

　生成部６０２は、上記と同様にして、フィルタ窓２００を使用して深度画像をフィルタ処理する。ここでは、フィルタ窓２００が使用されて生成されたフィルタ処理後の深度画像を第１フィルタ画像と呼ぶ。また、生成部６０２は、フィルタ窓２００を使用する場合と同様にして、フィルタ窓２１０を使用して深度画像をフィルタ処理する。このフィルタ後の深度画像を第２フィルタ画像と呼ぶ。そして、生成部６０２は、第１フィルタ画像と第２フィルタ画像とを合成した合成画像を高位置画像とする。生成部６０２は、例えば、第１フィルタ画像の画素位置（ｍ，ｎ）の画素の画素値と、第２フィルタ画像の画素位置（ｍ，ｎ）の画素の画素値と足し合わせ得られる値を、合成画像の画素位置（ｍ，ｎ）の画素の画素値とする。生成部６０２は、この処理を各画素位置について行うことによって合成画像を生成する。

　このように、プラス窓２０１及びマイナス窓２０２の並び方向が互いに異なる複数種類のフィルタ窓が使用されて高位置情報７２０が生成されることによって、物体高位置部分の周囲において複数の方向のいずれにスペースがあっても、当該物体高位置部分を高位置情報７２０から特定しやすくなる。つまり、周囲において複数の方向の少なくとも一つの方向にスペースがある物体高位置部分を高位置情報７２０から特定しやすくなる。よって、保持しやすい物体１０を特定しやすくなる。フィルタ窓２００及び２１０が使用される場合、周囲においてｘ方向及びｙ方向の少なくとも一方の方向にスペースが存在する物体高位置部分を高位置情報７２０から特定しやすくなる。

　上記の例では、高位置情報７２０の生成に２種類の空間フィルタ関数が使用されているが、３種類以上の空間フィルタ関数が使用されてもよい。図１６は第３空間フィルタ関数のフィルタ窓２２０の一例と、第４空間フィルタ関数のフィルタ窓２３０の一例とを示す概略図である。

　フィルタ窓２２０及び２３０のそれぞれは、フィルタ窓２００及び２１０と同様に、プラス窓２０１と、２つのマイナス窓２０２とを有する。フィルタ窓２２０の窓並び方向は深度画像７０６の右斜め方向に設定されている。フィルタ窓２３０の窓並び方向は深度画像７０６の左斜め方向に設定されている。

　生成部６０２は、フィルタ窓２００，２１０，２２０，２３０を使用する場合、上述のように第１フィルタ画像及び第２フィルタ画像を生成する。また、生成部６０２は、フィルタ窓２２０を使用して深度画像をフィルタ処理する。このフィルタ処理後の深度画像を第３フィルタ画像と呼ぶ。また、生成部６０２は、フィルタ窓２３０を使用して深度画像をフィルタ処理する。このフィルタ処理後の深度画像を第４フィルタ画像と呼ぶ。そして、生成部６０２は、第１フィルタ画像、第２フィルタ画像、第３フィルタ画像及び第４フィルタ画像を合成した合成画像を高位置画像とする。生成部６０２は、例えば、第１フィルタ画像の画素位置（ｍ，ｎ）の画素の画素値と、第２フィルタ画像の画素位置（ｍ，ｎ）の画素の画素値と、第３フィルタ画像の画素位置（ｍ，ｎ）の画素の画素値と、第４フィルタ画像の画素位置（ｍ，ｎ）の画素の画素値とを足し合わせ得られる値を、合成画像の画素位置（ｍ，ｎ）の画素の画素値とする。生成部６０２は、この処理を各画素位置について行うことによって合成画像を生成する。このようにして生成された高位置画像を表す高位置情報７２０からは、周囲において４方向の少なくとも一つの方向にスペースがある物体高位置部分を特定しやすくなる。

　なお、生成部６０２は、窓並び方向が互いに異なる５種類以上のフィルタ窓を使用して高位置情報７２０を生成してもよい。また、生成部６０２は、フィルタ窓２００，２１０，２２０，２３０の少なくとも一つを用いて高位置情報７２０を生成してもよい。

　生成部６０２は、物体１０の複数の方向のサイズにそれぞれ応じた複数種類の空間フィルタ関数を使用して高位置情報７２０を生成してもよい。図１７は、物体１０の複数の方向のサイズにそれぞれ応じた複数種類の空間フィルタ関数のフィルタ窓の一例を示す概略図である。図１７には、物体１０の高さ方向サイズに応じた空間フィルタ関数のフィルタ窓２４０と、物体１０の奥行方向サイズに応じた空間フィルタ関数のフィルタ窓２５０と、物体１０の幅方向サイズに応じた空間フィルタのフィルタ窓２６０とが示されている。図１７には、物体１０の幅方向サイズ、奥行方向サイズ及び高さ方向サイズがこの順で大きい場合の例が示されている。

　フィルタ窓２４０，２５０，２６０のそれぞれは、フィルタ窓２００と同様の構成を有している。フィルタ窓２４０のプラス窓２０１及びマイナス窓２０２の窓並び方向サイズ及び窓垂直方向サイズは、基準撮影画像上での基準物体１０の高さ方向サイズに一致している。フィルタ窓２５０のプラス窓２０１及びマイナス窓２０２の窓並び方向サイズ及び窓垂直方向サイズは、基準撮影画像上での基準物体１０の奥行方向サイズに一致している。フィルタ窓２６０のプラス窓２０１及びマイナス窓２０２の窓並び方向サイズ及び窓垂直方向サイズは、基準撮影画像上での基準物体１０の幅方向サイズに一致している。

　生成部６０２は、フィルタ窓２４０を使用してフィルタ処理した深度画像（第５フィルタ画像ともいう）と、フィルタ窓２５０を使用してフィルタ処理した深度画像（第６フィルタ画像ともいう）と、フィルタ窓２６０を使用してフィルタ処理した深度画像（第７フィルタ画像ともいう）と準備する。そして、生成部６０２は、上記と同様にして、第５フィルタ画像、第６フィルタ画像及び第７フィルタ画像を合成した合成画像を生成し、生成した合成画像を高位置画像とする。

　このように、物体１０の複数の方向のサイズにそれぞれ応じた複数種類の空間フィルタ関数が使用されて高位置情報７２０が生成されることによって、トレー１３上の物体群１０Ａでの物体１０の姿勢のばらつきにかかわらず、物体群１０Ａの高位置部分を特定しやすくなる。つまり、センサ装置４から物体群１０Ａを見た場合の各物体１０の見え方にかかわらず、物体群１０Ａの高位置部分を特定しやすくなる。さらに言い換えれば、カメラ４０ａ及び４１で得られる撮像画像での各物体１０の写り方にかかわらず、物体群１０Ａの高位置部分を特定しやすくなる。これにより、保持しやすい物体１０を特定しやすくなる。よって、エンドエフェクタ２１は物体１０を保持しやすくなる。

　生成部６０２が使用するフィルタ窓の構成は上記の例に限られない。生成部６０２が使用する少なくとも一種類の空間フィルタ関数のフィルタ窓には、図１８の上側に示されるフィルタ窓２７０が含まれてもよいし、図１８の中ほどに示されるフィルタ窓２８０が含まれてもよいし、図１８の下側に示されるフィルタ窓２９０が含まれてもよい。フィルタ窓２７０では、プラス窓２０１がマイナス窓２０２で取り囲まれている。フィルタ窓２７０が使用される場合、周囲の全方向にスペースがある物体高位部分が特定されやすくなる。フィルタ窓２８０では、プラス窓２０１の上下と左右にマイナス窓２０２が配置されている。フィルタ窓２８０が使用される場合、周囲のｘ方向及びｙ方向にスペースがある物体高位部分が特定されやすくなる。フィルタ窓２９０の外形は円形となっている。なお、フィルタ窓の外形は四角形及び円形以外であってもよい。

　フィルタ窓が有する複数のマイナス部分窓２０２の配置は、ロボット２のエンドエフェクタ２１の指の配置に応じて決定されてもよい。例えば、エンドエフェクタ２１が二本の指で物体１０を両側から挟み込む場合には、フィルタ窓の複数のマイナス部分窓２０２は、図５のフィルタ窓２００のように配置されてもよいし、図１５のフィルタ窓２１０のように配置されてもよいし、図１８のフィルタ窓２９０のように配置されてもよい。また、エンドエフェクタ２１が４本以上の指で物体１０を周囲から把持する場合には、フィルタ窓の複数のマイナス部分窓２０２は、図１８のフィルタ窓２８０のように配置されてもよいし、図１８のフィルタ窓２７０のように配置されてもよい。

　また、プラス窓２０１に関する所定のプラス値は＋１．０以外であってもよし、マイナス窓２０２に関する所定のマイナス値は－０．５以外であってもよい。

　また、上記の例では、プラス窓２０１内の複数の第１画素の画素値に対して、所定のプラス値が乗算されているが、所定のプラス値が加算されてもよい。この場合、マイナス窓２０２内の複数の第１画素の画素値に対して所定のマイナス値が加算されてもよい。

　また、フィルタ窓では、プラス窓２０１がマイナス窓２０２に変更されるとともに、マイナス窓２０２がプラス窓２０１に変更されてもよい。例えば、図５の例においてこのような変更を行うと、マイナス窓２０２が２つのプラス窓２０１で挟まれるようになる。プラス窓２０１がマイナス窓２０２に変更されるとともに、マイナス窓２０２がプラス窓２０１に変更される場合、高位置画像データ７２０では、他よりも高い位置にある計測点に対応する第２画素値は小さくなる傾向になり、他よりも高い位置にはない計測点に対応する第２画素値は大きくなる傾向になる。よって、高位置情報７２０が表す高位置画像において第２画素値がしきい値未満である部分画像が、物体群１０Ａの高位置部分に相当する画像（つまり、第２の高位置相当画像）となる。

　また、上記の例では、複数種類のフィルタ窓にそれぞれ対応する複数のフィルタ画像が合成されていたが、合成されなくてもよい。この場合、図４に示される保持姿勢決定処理において、ある種類のフィルタ窓が使用されてフィルタ画像が生成され（ステップｓ３）、生成されたフィルタ画像が高位置画像とされてステップｓ４～ｓ７が実行されてもよい。ステップｓ４において、高位置画像の二値化画像に高値領域が含まれない場合、つまり、物体群１０Ａの高位置部分が検出されなかった場合、ステップｓ５～ｓ７が実行されずに、別の種類のフィルタ窓が使用されて保持姿勢決定処理が再度実行されてもよい。この保持姿勢決定処理のステップｓ４においても、高位置画像の二値化画像に高値領域が含まれない場合、さらに別の種類のフィルタ窓が使用されて再度保持姿勢決定処理が実行されてもよい。

　＜特定部の他の動作例＞
　上記の例では、特定部６０３は、計測空間１００のエッジ画像あるいは色情報に基づいて第３の物体高位置相当画像から拡張した範囲を物体画像としているが、深度情報７０５に基づいて第３の物体高位置相当画像から拡張した範囲を物体画像としてもよい。以下にこの例について説明する。以下の例では、生成部６０２が特定部６０３の一部として機能する。特定部６０３は、例えば、窓並び方向が互いに垂直を成す２種類のフィルタ窓を使用して深度画像７０６をフィルタ処理する。そして、特定部６０３は、カラー画像７１１において、そのフィルタ処理の結果に基づいて第３の物体高位置相当画像から拡張した範囲を物体画像とする。

　図１９は特定部６０３の動作の一例を説明するための概略図である。図１９には、物体１０が鉛筆等の細長いものである場合の深度画像７０６に含まれる部分画像７０６ａの一例が模式的に示されている。部分画像７０６ａは、一の物体１０の深度を表す画像である。図１９の例では、部分画像７０６ａに対応する物体１０の周囲には他の物体１０が存在せず、部分画像７０６ａの第１画素値は、その周囲の画像の第１画素値よりも大きくなっている。

　図１９では、部分画像７０１ａに対して、窓並び方向が互いに垂直を成す２種類のフィルタ窓が設定されている。具体的には、部分画像７０１ａに対してフィルタ窓２００とフィルタ窓２１０とが設定されている。フィルタ窓２００及び２１０のプラス窓２０１及びマイナス窓２０２の窓並び方向サイズ及び窓垂直方向サイズは、細長い物体１０の短手方向のサイズに応じて設定されている。フィルタ窓２００及び２１０は、同じ画素位置の注目第１画素を含むように設定されている。フィルタ窓２００の窓並び方向は、深度画像７０６において、部分画像７０６ａに対応する物体１０の長手方向に相当する方向に一致する。また、フィルタ窓２１０の窓並び方向は、深度画像７０６において、部分画像７０６ａに対応する物体１０の短手方向に相当する方向に一致する。

　ある物体１０の深度を表す部分画像７０６ａに対して図１９のようにフィルタ窓２００及び２１０が設定される場合、フィルタ窓２００が使用されて求められた演算値（第１演算値ともいう）は大きくなるものの、フィルタ窓２１０が使用されて求められた演算値（第２演算値ともいう）は小さくなる。したがって、第１演算値から第２演算値を差し引いて得られる差分値がしきい値以上の場合、当該ある物体１０は、計測空間１００において、フィルタ窓２１０の窓並び方向に相当する方向（第２フィルタ方向ともいう）に沿って延びている可能性が高い。

　そこで、特定部６０３は、生成部６０２においてフィルタ窓２００が用いられて深度画像７０６がフィルタ処理される場合に得られる複数の第１演算値と、生成部６０２においてフィルタ窓２１０が用いられて深度画像７０６がフィルタ処理される場合に得られる複数の第２演算値とに基づいて、第３の物体高位置相当画像に写る物体１０が延びている方向を特定する。そして、特定部６０３は、特定した方向に基づいて第３の物体高位置相当画像から拡張した範囲を物体画像とする。

　以後、注目第１画素の画素位置が画素位置（ｍ，ｎ）の場合に得られる第１演算値と画素位置（ｍ，ｎ）とは互いに対応すると表現する。同様に、注目第１画素の画素位置が画素位置（ｍ，ｎ）の場合に得られる第２演算値と画素位置（ｍ，ｎ）とは互いに対応すると表現する。

　特定部６０３は、フィルタ窓２００に基づくフィルタ処理で得られる複数の第１演算値から、第３の物体高位置相当画像を構成する複数の第３画素にそれぞれ対応する複数の第１演算値を特定する。第３画素に対応する第１演算値とは、当該第３画素の画素位置と同じ画素位置に対応する第１演算値である。また、特定部６０３は、フィルタ窓２１０に基づくフィルタ処理で得られる複数の第２演算値から、第３の物体高位置相当画像を構成する複数の第３画素にそれぞれ対応する複数の第２演算値を特定する。第３画素に対応する第２演算値とは、当該第３画素の画素位置と同じ画素位置に対応する第２演算値である。

　特定部６０３は、特定した複数の第１演算値及び複数の第２演算値に関して、同じ画素位置に対応する第１演算値と第２演算値との差分値を求める。この差分値は、第１演算値から第２演算値を差し引いて得られる差分値である。そして、特定部６０３は、求めた複数の差分値に、しきい値よりも大きい差分値が含まれる場合、第３の物体高位置相当画像に写る物体１０が第２フィルタ方向に沿って延びていると判断する。特定部６０３は、第３の物体高位置相当画像に写る物体１０が第２フィルタ方向に沿って延びていることが分かると、カラー画像７１１において第３の物体高位置相当画像からフィルタ窓２１０の窓並び方向に沿って拡張した範囲を物体画像とする。例えば、特定部６０３は、カラー画像７１１において、第３の物体高位置相当画像に対してフィルタ窓２１０の窓並び方向に位置し、第３の物体高位置相当画像の代表画素値と同程度の画素値を有する領域を特定する。そして、特定部６０３は、カラー画像７１１において第３の物体高位置相当画像から特定した領域まで拡張した範囲を物体画像とする。第３の物体高位置相当画像の代表画素値は、例えば、第３の物体高位置相当画像を構成する複数の第３画素の画素値の平均値であってもよい。

　なお、上記の処理で使用される２種類のフィルタ窓はフィルタ窓２００及び２１０に限られない。例えば、上述の図１６に示されるフィルタ窓２２０及び２３０が使用されてもよい。

　ロボットシステム１では、カラー画像７１１の代わりにグレースケール画像が使用されてもよい。この場合、特定部６０３は、グレースケール画像において対象物体１０が写る物体画像を、上記と同様にして高位置情報７２０に基づいて特定してもよい。

　また、保持姿勢決定部６０６は、保持姿勢決定処理で使用されるフィルタ窓の窓並び方向に基づいて、エンドエフェクタ２１が保持対象物体１０を把持する方向を決定してもよい。例えば、エンドエフェクタ２１が二指で物体１０を把持する場合に保持姿勢決定処理で図５のフィルタ窓２００が使用されるとき、保持姿勢決定部６０６は、フィルタ窓２００の窓並び方向に相当するフィルタ方向に平行な方向から保持対象物体１０を把持することを決定してもよい。

　また、ロボット制御部５は、保持姿勢決定処理で使用されるフィルタ窓のマイナス部分窓２０２の窓並び方向サイズ２０２ａに基づいて、エンドエフェクタ２１の指の開閉幅を制御してもよい。例えば、ロボット制御部５は、窓並び方向サイズ２０２ａが大きい場合、エンドエフェクタ２１の指の開閉幅を大きくし、窓並び方向サイズ２０２ａが小さい場合、エンドエフェクタ２１の指の開閉幅を小さくしてもよい。

　以上のように、ロボットシステム、ロボット制御システム及び情報処理装置は詳細に説明されたが、上記した説明は、全ての局面において例示であって、この開示がそれに限定されるものではない。また、上述した各種例は、相互に矛盾しない限り組み合わせて適用可能である。そして、例示されていない無数の例が、この開示の範囲から外れることなく想定され得るものと解される。

　３　ロボット制御システム
　５　ロボット制御部
　６　情報処理装置
　２００，２１０，２２０，２３０，２４０，２５０，２６０，２７０，２８０，２９０　フィルタ窓
　２０１　プラス部分窓
　２０２　マイナス部分窓
　６００　情報取得部
　６０２　生成部
　６０３　特定部
　６０４　度合取得部
　６０５　保持対象決定部
　６０６　保持姿勢決定部
　６３０　プログラム
　７０５　深度情報
　７０６　深度画像
　７１０　色情報
　７１１　カラー画像
　７１２　第３の物体高位置相当画像
　７１４　物体画像
　７２０　高位置情報

Claims

　複数の物体が存在する計測空間内での深度を表す深度情報を取得する取得部と、
　前記深度情報に対して物体の物体サイズに応じたフィルタ処理を行って、前記計測空間内において、前記複数の物体のうち他よりも高い位置にある高位置部分を表す高位置情報を生成する生成部と
を備える、情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記生成部は、前記物体サイズに応じた少なくとも一種類の空間フィルタ関数を用いて、前記深度情報が表す深度画像に対してフィルタ処理を行う、情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記少なくとも一種類の空間フィルタ関数は、第１空間フィルタ関数を含み、
　前記第１空間フィルタ関数のフィルタ窓は、
　　その領域内の各画素の画素値に対して第１の値が加算または乗算される第１部分窓と、
　　その領域内の各画素の画素値に対して、前記第１の値とは異なる符号の第２の値が加算または乗算される第２部分窓と
を有し、
　前記第１部分窓のサイズは、前記物体サイズに応じたサイズである、情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記第２部分窓のサイズは、前記物体サイズに応じたサイズである、情報処理装置。
　請求項３または請求項４に記載の情報処理装置であって、
　前記第１空間フィルタ関数のフィルタ窓は、その領域内の各画素の画素値に対して、前記第２の値と同じ符号の第３の値が加算または乗算される第３部分窓をさらに有し、
　前記第１部分窓は、前記第２部分窓と前記第３部分窓とで挟まれる、情報処理装置。
　請求項３から請求項５のいずれか一つに記載の情報処理装置であって、
　前記少なくとも一種類の空間フィルタ関数は、第２空間フィルタ関数を含み、
　前記第２空間フィルタ関数のフィルタ窓は、前記第１部分窓及び前記第２部分窓を有し、
　前記第１空間フィルタ関数及び前記第２空間フィルタ関数の間では、前記第１部分窓及び前記第２部分窓が並ぶ方向が異なる、情報処理装置。
　請求項２から請求項６のいずれか一つに記載の情報処理装置であって、
　前記物体サイズは、第１方向のサイズと、当該第１方向とは異なる第２方向のサイズと含み、
　前記少なくとも一種類の空間フィルタ関数は、前記第１方向のサイズに応じた空間フィルタ関数と、前記第２方向のサイズに応じた空間フィルタ関数とを含む、情報処理装置。
　請求項１から請求項７のいずれか一つに記載の情報処理装置であって、
　前記複数の物体において、前記高位置部分に含まれる部分高位置部分を含む物体を対象物体とした場合、複数の対象物体のそれぞれについて、前記計測空間が撮影された撮影画像において当該対象物体が写る物体画像を、前記高位置情報に基づいて特定する特定部をさらに備える、情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記特定部は、前記計測空間内での色情報、前記計測空間のエッジ画像あるいは前記深度情報に基づいて、前記撮影画像において前記部分高位置部分に相当する部分画像から拡張した範囲を前記物体画像とする、情報処理装置。
　請求項８または請求項９に記載の情報処理装置であって、
　前記複数の対象物体のそれぞれについて、当該対象物体の保持しやすさの度合を、前記深度情報に基づいて求める度合取得部をさらに備える、情報処理装置。
　請求項１０に記載の情報処理装置であって、
　前記複数の対象物体についての前記度合に基づいて、前記複数の対象物体からロボットが保持する保持対象物体を決定する保持対象決定部をさらに備える、情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記ロボットについての前記保持対象物体に対する保持姿勢を前記物体画像に基づいて決定する保持姿勢決定部をさらに備える、情報処理装置。
　請求項１２に記載の情報処理装置が備える前記取得部、前記生成部、前記特定部、前記度合取得部、前記保持対象決定部及び前記保持姿勢決定部と、
　前記保持姿勢決定部で決定された前記保持姿勢に基づいてロボットを制御するロボット制御部と
を備える、ロボット制御システム。
　コンピュータ装置に、
　複数の物体が存在する計測空間内での深度を表す深度情報を取得し、
　前記深度情報に対して物体の物体サイズに応じたフィルタ処理を行って、前記計測空間内において、前記複数の物体のうち他よりも高い位置にある高位置部分を表す高位置情報を生成することを実行させるプログラム。