WO2019176450A1

WO2019176450A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2019176450A1
Application number: PCT/JP2019/005762
Authority: WO
Inventors: 嘉典小西
Original assignee: オムロン株式会社
Priority date: 2018-03-14
Filing date: 2019-02-18
Publication date: 2019-09-19
Also published as: JP2019159901A; US11823414B2; US20200394818A1; CN111742349A; JP7161857B2; EP3767589A1; CN111742349B; EP3767589A4

Abstract

３次元位置姿勢を高い精度で認識することのできる情報処理装置等を提供する。　認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける第１入力部と、３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す２次元テンプレートを生成するテンプレート生成部と、前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報を生成する座標関係特定部と、前記認識対象物を撮影した撮影画像の入力を受ける第２入力部と、前記撮影画像と前記２次元テンプレートとをマッチングするマッチング部と、前記マッチング部による２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報を参照することにより前記認識対象物の３次元位置及び姿勢を認識する認識部とを備える。

Description

情報処理装置、情報処理方法、及びプログラム

　本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

　近年、カメラ等で対象物を撮影し、当該撮影結果に応じて部材の位置を判別した上で、アームにより当該対象物を掴んだり組み立てたりするなどの操作を行う産業ロボットが普及しつつある。ここで、例えば、組み立て工場等においては、１種類の多数の部材を、コンテナと呼ばれる箱型部材の中に入れて運搬等することが多い。このコンテナの中に入った部材を、産業ロボットのアームで持ち上げる等の操作を行うためには、アームがコンテナの縁に当たらないように制御する必要がある。

　例えば特許文献１には、複数の箱型アームを情報から撮影して全体画像を取得して箱状ワークのエッジ部分を検出し、距離センサにより複数の箱型ワーク全体の３次元形状を点群として計測することが記載されている。当該手法では、距離センサによる計測点の点群情報を抽出し、当該点群情報に基づいて、３次元形状から各箱状ワークの位置と姿勢を認識する。

特許第５４２９６１４号

　ここで、対象物である部材が入るコンテナは、一般に縁が細いことが多い。縁が細いと、箱状ワークの縁で照射光の反射が得られにくくなる等の理由により、特許文献１で記載されているような距離センサにより３次元点群情報を取得することは難しい。例えば、産業ロボットがコンテナの認識に失敗すると、当該産業ロボットのアームがコンテナの縁に当たる等の不都合が生じる場合がある。

　本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、３次元位置姿勢を高い精度で認識することのできる情報処理装置、情報処理方法、及びプログラムを提供することを目的の１つとする。

　本発明の一態様にかかる情報処理装置は、認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける第１入力部と、３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す２次元テンプレートを生成するテンプレート生成部と、前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報を生成する座標関係特定部と、前記認識対象物を撮影した撮影画像の入力を受ける第２入力部と、前記撮影画像と前記２次元テンプレートとをマッチングするマッチング部と、前記マッチング部による２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報を参照することにより前記認識対象物の３次元位置及び姿勢を認識する認識部とを備える。

　当該構成では、２次元テンプレートを生成し、撮影画像と当該２次元テンプレートとのマッチングに応じて、認識対象物の２次元位置及び姿勢を検出する。幅が細い物体や光が正反射しやすい素材でできた物体は３次元座標を計測しづらいが、２次元におけるマッチング処理に基づいて認識対象物の３次元位置及び姿勢を検出するため、高い精度で認識対象物の姿勢位置を認識することができる。これにより、例えば当該構成にかかる情報処理方法を、アームを持つ産業ロボットでの、認識対象物であるコンテナの姿勢位置の認識に適用した場合には、ロボットアームがコンテナに衝突することに伴うロボットアームおよび／またはコンテナの破損などの事態を防止することが可能である。

　本発明の一態様にかかる情報処理方法は、認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける処理と、３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す２次元テンプレートを生成する処理と、前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報を生成する処理と、前記認識対象物を撮影した撮影画像の入力を受ける処理と、前記撮影画像と前記２次元テンプレートとをマッチングする処理と、２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報を参照することにより前記認識対象物の３次元位置及び姿勢を認識する処理とを情報処理装置が行う。

　本発明の一態様にかかるプログラムは、認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける処理と、３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す２次元テンプレートを生成する処理と、前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報を生成する処理と、前記認識対象物を撮影した撮影画像の入力を受ける処理と、前記撮影画像と前記２次元テンプレートとをマッチングする処理と、２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報を参照することにより前記認識対象物の３次元位置及び姿勢を認識する処理とを情報処理装置に実行させる。

　当該構成では、２次元テンプレートを生成し、撮影画像と当該２次元テンプレートとのマッチングに応じて、認識対象物の３次元位置及び姿勢を検出する。幅が細い物体や光が正反射しやすい素材でできた物体は３次元座標を計測しづらいが、２次元におけるマッチング処理に基づいて認識対象物の３次元位置及び姿勢を検出するため、高い精度で認識対象物の姿勢位置を認識することができる。これにより、例えば当該構成にかかるプログラムを、アームを持つ産業ロボットでの、認識対象物であるコンテナの姿勢位置の認識に適用した場合には、ロボットアームがコンテナに衝突することに伴うロボットアームおよび／またはコンテナの破損などの事態を防止することが可能である。

　なお、本発明において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や「手段」、「装置」、「システム」が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や「手段」、「装置」、「システム」の機能が１つの物理的手段や装置により実現されてもよい。

実施形態にかかる情報処理装置の処理の一例を説明するための図である。実施形態にかかる情報処理装置の処理の一例を説明するための図である。実施形態にかかる情報処理装置の処理の一例を説明するための図である。実施形態にかかる情報処理装置の処理の一例を説明するための図である。実施形態にかかる情報処理装置の構成の一例を模式的に例示するための図である。実施形態にかかる情報処理装置の処理手順の一例を例示するフローチャートである。実施形態にかかる情報処理装置の処理手順の一例を例示するフローチャートである。実施形態にかかる情報処理装置の処理手順の一例を例示するフローチャートである。実施形態にかかる情報処理装置の処理手順の一例を例示するフローチャートである。

　以下、図面を参照して本発明の実施形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。即ち、本発明は、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付して表している。図面は模式的なものであり、必ずしも実際の寸法や比率等とは一致しない。図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることがある。

［１　適用例］
　まず、図１乃至図４を参照しながら、実施形態にかかる全体の概要を説明する。本実施形態にかかる情報処理装置は、例えば、アームを持つ産業ロボットの操作対象物である部材が入ったコンテナ等の３次元位置姿勢を認識するために利用することができる。コンテナの３次元位置姿勢を精度高く認識できれば、産業ロボットはアームをコンテナに衝突させないように制御することができるため、アームおよび／又はコンテナの衝突による破損を防ぐことができる。なお、実施形態にかかる情報処理装置が３次元位置姿勢を認識する認識対象物はコンテナに限られるものではないが、以下の説明ではコンテナである場合を中心に説明する。

　情報処理装置は、予めコンテナの上縁部の形状を示す２次元テンプレートを生成した上で、距離センサ等による３次元情報ではなく、カメラにより撮影されたコンテナを含む２次元画像に対して２次元テンプレートマッチングすることによりコンテナの上縁部を検出する。以下説明するように、本実施形態にかかる情報処理装置の処理は、２次元テンプレートの生成処理、及び、生成された２次元テンプレートを用いた３次元位置姿勢の認識処理とを含む。以下、当該２つの処理を説明する。

［１．１　２次元テンプレート生成処理］
　以下、図１及び図２を参照しながら２次元テンプレートの生成処理について説明する。情報処理装置は、まず、コンテナの３次元モデルに関する３次元ＣＡＤ情報の入力を受け、当該ＣＡＤ情報を解析する。これにより、図１に示すように、コンテナの３次元モデルの上縁部がどこであるかを特定した上で、当該上縁部の特徴点を抽出等することにより、図２に示すような、コンテナの３次元モデルの上縁部の形状を示す２値化２次元画像である２次元テンプレート画像を生成する。このとき生成される２次元テンプレート画像は、仮想空間内に仮想カメラとコンテナの３次元モデルを配置した際に、コンテナの３次元モデルの上縁部を撮影した上縁部画像に相当するものである。

　また情報処理装置は、コンテナの３次元モデルから上縁部以外の部分も含む特徴点を抽出した上で、それらの特徴点が、仮想空間内に配置された仮想カメラから撮影された２次元画像において、どこに位置するかを特定する。これにより、コンテナの３次元モデルの３次元座標と、仮想カメラにより撮影された２次元画像上の２次元座標との対応関係を記憶する。なお、当該対応関係は、後述する座標関係情報に相当する。

　なお、図１及び図２では、四角いコンテナを図示しているがこれに限られるものではなく、丸いコンテナや、内部に仕切りがあるコンテナ等を処理対象とすることも考えられる。

［１．２　認識処理］
　次に、実環境においてカメラ等が撮像した２次元の撮像画像に対する処理を図３及び図４を参照しながら説明する。カメラから図３に示すような撮像画像の入力を受けると、情報処理装置は当該撮像画像を輝度画像に変換した上で（或いは、入力を輝度画像としてもよい）、図４に示すように、予め生成された２次元テンプレートとのマッチングを行う。これにより情報処理装置は、２次元テンプレートが生成される元となる３次元モデルに相当するコンテナが、撮像画像上のどの位置（ｘ，ｙ座標）に、どのような回転角度で配置されているかを認識することができる。さらに情報処理装置は、撮像画像上の特徴点の位置を、マッチングした２次元テンプレートを基準として特定する。それらの特徴点の位置を、先述の座標関係情報を用いて変換することで、コンテナの３次元位置姿勢を認識する。

［２　構成例］
　以下、図５を参照しながら、本実施形態にかかる情報処理装置１００の動作構成例を説明する。情報処理装置１００は、大きく、テンプレート生成部１１０、ＤＢ（データベース）１３０、認識部１５０を含む。なお、これらの各構成は、プロセッサ上で動作するプログラムとして実現されてもよいし、或いは専用の１又は複数の半導体等のハードウェアとして実現されてもよい。また、情報処理装置１００も、物理的に１つのコンピュータ等として実現されてもよいし、或いは物理的に複数のコンピュータ等として実現されてもよい。例えば、テンプレート生成部１１０と、認識部１５０とを別のコンピュータにより実現することができる。テンプレート生成部１１０や認識部１５０をプログラムとして実現する場合のハードウェア構成やプログラムとしての動作等については、図９を参照しながら後述する。

　テンプレート生成部１１０は、モデル入力部、カメラパラメータ入力部１１３、上縁部画像生成部１１５、座標関係情報生成部１１７、及び出力部１１９を含む。

　モデル入力部１１１は、コンテナの３次元ＣＡＤモデルの入力を受ける。或いは、３次元ＣＡＤモデルの代わりに、コンテナの各寸法値が入力されてもよい。ここで、モデル入力部１１１は本発明の「第１入力部」の一例である。３次元ＣＡＤモデル及びコンテナの各寸法値は本発明の「３次元モデル情報」の一例である。なお、モデル入力部１１１で入力を受けたコンテナのＣＡＤモデル、或いは寸法値から生成されるコンテナのモデルを、総称して「３次元コンテナモデル」という。

　カメラパラメータ入力部１１３は、３次元コンテナモデルが配置される仮想空間上で当該３次元コンテナモデルを撮影する仮想カメラに関するカメラパラメータの入力を受ける。当該カメラパラメータは、３次元コンテナモデルに対する仮想カメラの相対的な位置や方向、画角等の情報を含むことができる。このとき、認識部１５０がコンテナの３次元位置姿勢を認識する際に用いる輝度画像を撮影するために配置される実環境のカメラの位置や方向等に合わせて当該カメラパラメータを設定してもよい。先述のとおり、情報処理装置１００は、３次元コンテナモデルの上縁部を仮想カメラにより撮影した結果である上縁部画像を変換して２次元テンプレート１３１を生成する。情報処理装置１００は、その上で実環境における撮影画像（後述の輝度画像に相当）と当該２次元テンプレート１３１とをマッチングする。このとき、２次元テンプレート１３１の生成の際に用いる仮想カメラの位置や角度等と、実環境における撮影画像を撮影する際に用いるカメラの位置や角度等とを略一致させておけば、テンプレート生成部１１０が生成した２次元テンプレートをそのまま用いて、撮影画像と２次元テンプレートとのマッチングを行うことができる。実環境のコンテナに対するカメラの相対的な位置や姿勢は、コンテナを設置する平面上に間隔が既知のマーカーを置き、実環境カメラで撮影した画像上においてマーカーを認識することで算出することができる。算出された実環境カメラの相対位置姿勢とコンテナの３次元モデル用いることで、コンテナを含む空間の任意平面をカメラに投影した画像を作成可能である。

　なお、もし２次元テンプレート１３１を生成する際に用いる仮想カメラの位置や方向等（カメラパラメータ）を、実環境におけるカメラの位置や方向と異なるものとして設定する場合には、テンプレート生成部１１０が２次元テンプレート１３１の生成に用いる仮想カメラの位置と、認識部１５０に入力される輝度画像の撮影に用いられるカメラとの位置や角度の相対的な情報に基づき、認識部１５０に入力される輝度画像および／又は２次元テンプレート１３１を変換すればよい。カメラの相対的な関係に応じて輝度画像および／又は２次元テンプレート１３１を変換する場合の処理については、図８を参照しながら後述する。

　上縁部画像生成部１１５は、３次元コンテナモデルを、カメラパラメータで位置等が設定される仮想カメラにより仮想空間上で撮影した場合の、コンテナの上縁部に相当する画像（以下「上縁部画像」という）を生成する。より具体的には、まず上縁部画像生成部１１５は、まず、３次元コンテナモデルを構成するメッシュの法線方向及び高さから、３次元コンテナモデルの上縁部がどこであるかを特定する。例えば、３次元コンテナモデルを構成する各メッシュのうち、法線が略鉛直方向を向いており（少なくとも水平方向よりは上方向を向いている）、かつ、周囲のメッシュよりも高い部分を上縁部として特定することが可能である。上縁部を特定した上で上縁部画像生成部１１５は、当該上縁部をカメラパラメータで位置等が特定される仮想カメラから撮影した場合に生成されることが想定される上縁部画像を生成する。上縁部画像の生成例は図２に示したとおりである。上縁部画像生成部１１５はさらに、上縁部画像を輝度により２値化及びエッジ抽出することにより、実環境で撮影された２次元画像から上縁部を特定するための２次元テンプレート１３１を生成する。なお、２次元テンプレート１３１は必ずしも２値化およびエッジ抽出されたものでなくともよいが、このような処理を行うことで２次元テンプレート１３１の情報量の低下、およびそれを用いたマッチング処理における演算量の低減を図ることが可能である。ここで、上縁部画像生成部１１５は、本発明の「テンプレート生成部」の一例である。

　なお、上縁部画像生成部１１５は、２次元テンプレート１３１、又はその元となる上縁部画像を、カメラパラメータで特定される仮想カメラの方向および／又は実環境での輝度画像の撮影に用いられるカメラの方向に応じて変換してもよい。

　座標関係情報生成部１１７は、３次元コンテナモデルから複数の特徴点を抽出した上で、当該３次元コンテナモデルの複数の特徴点の各々を、カメラパラメータにより位置などが特定される仮想カメラで撮影した場合の、仮想空間上での３次元座標と、上縁部画像上での２次元座標との関係を特定する。座標関係情報生成部１１７は、特定した当該関係（各特徴点の３次元座標と２次元座標との関係）を示す座標関係情報１３３を生成する。

　出力部１１９は、上縁部画像生成部１１５により生成された２次元テンプレート１３１、及び座標関係情報生成部１１７により生成された座標関係情報１３３を、任意の記憶媒体にＤＢ１３０として出力する。

　認識部１５０は、輝度画像入力部１５１、テンプレートマッチング部１５３、特徴点座標算出部１５５、３次元位置姿勢算出部１５７、及び出力部１５９を含む。

　輝度画像入力部１５１は、実環境において、３次元位置姿勢を特定したいコンテナが撮影された輝度画像の入力を受ける。ここで、輝度画像入力部１５１は、本発明の「第２入力部」の一例である。

　テンプレートマッチング部１５３は、輝度画像入力部１５１から入力された輝度画像に対し、２次元テンプレート１３１とのマッチングを行うことにより、輝度画像中の、コンテナの上縁部に相当する位置を特定する。これにより、輝度画像において、コンテナの上縁部がどの位置（ｘ，ｙ）に、どのような角度で配置されているかを特定することができる。なおこのときテンプレートマッチング部１５３は、テンプレートマッチングの後に、ＩＣＰ（Ｉｔｅｒａｔｉｖｅ　Ｃｌｏｓｅｓｔ　Ｐｏｉｎｔ）処理により詳細な位置合わせを行ってもよい。ここで、テンプレートマッチング部１５３は、本発明の「マッチング部」の一例である。

　特徴点座標算出部１５５は、テンプレートマッチング部１５３により特定されるコンテナの上縁部の位置および角度を基準として、輝度画像中のコンテナの特徴点の位置（座標）を特定する。

　３次元位置姿勢算出部１５７は、特徴点座標算出部１５５が算出した特徴点の座標と、座標関係情報１３３とに基づいて、コンテナの各特徴点の３次元座標を求める。これにより３次元位置姿勢算出部１５７は、輝度画像で撮影されたコンテナの実空間中の位置及び姿勢を認識することができる。ここで、３次元位置姿勢算出部１５７は、本発明の「認識部」の一例である。

　出力部１５９は、３次元位置姿勢算出部１５７が算出したコンテナの位置及び姿勢を示す３次元位置姿勢情報を出力する。例えば産業ロボットが当該３次元位置姿勢情報の入力を受けると、当該情報に応じてコンテナの位置及び姿勢を特定した上で、当該コンテナにアームが衝突しないように制御しながら、コンテナ内部に載置された部材のピックアップ等を行うことができる。

［３　処理の流れ］
　続いて、図６及び図７を参照しながら、構成例１にかかる情報処理装置１００の処理の流れを説明する。図６及び図７は、情報処理装置１００の処理の流れを示すフローチャートである。

　なお、後述の各処理ステップは、処理内容に矛盾を生じない範囲で、任意に順番を変更して若しくは並列に実行されてもよい。また、各処理ステップ間に他のステップが追加されて実行されてもよい。さらに、便宜上１つのステップとして記載されているステップは複数のステップに分けて実行されることもでき、便宜上複数に分けて記載されているステップを１ステップとして実行されることもできる。この点、後述の図８のフローチャートについても同様である。

［３．１　２次元テンプレートの生成］
　まず、図６を参照しながら、テンプレート生成部１１０が行うテンプレート生成の処理の流れを説明する。

　テンプレート生成部１１０のモデル入力部１１１は、３次元ＣＡＤモデルの入力を受ける（Ｓ６０１）。先述のとおり、モデル入力部１１１は、３次元ＣＡＤモデルの代わりに、コンテナの寸法値の入力を受けてもよい。カメラパラメータ入力部１１３は、２次元テンプレート１３１を生成するために３次元コンテナモデルを撮影する仮想カメラの位置、方向、画角等を定めるカメラパラメータの入力を受ける（Ｓ６０３）。

　上縁部画像生成部１１５は、まず、モデル入力部で入力を受けた３次元コンテナモデルに対し、３次元コンテナモデルを構成するメッシュの法線方向及び高さから上縁部に相当する部分を特定する（Ｓ６０５）。先述のとおり、上縁部画像生成部１１５は、例えば、３次元コンテナモデルを構成するメッシュの法線が少なくとも水平方向よりは上側を向いており、かつ、周囲のメッシュよりも高さにおいて高い部分を上縁部とすることができる。

　また上縁部画像生成部１１５は、当該３次元コンテナモデルの上縁部が、カメラパラメータで位置などが特定される仮想カメラにより撮影された場合の撮影結果に相当する上縁部画像を生成する（Ｓ６０７）。

　さらに上縁部画像生成部１１５は、当該上縁部画像に対して２値化及びエッジ抽出等することにより、２次元撮影画像からコンテナの上縁部を検出するための２次元テンプレート１３１を生成する（Ｓ６０９）。

　座標関係情報生成部１１７は、３次元コンテナモデルから複数の特徴点を抽出した上で、当該複数の特徴点の各々の３次元仮想空間中での座標と、それらの特徴点を上縁部画像上での２次元座標との関係を示す、座標関係情報１３３を生成する（Ｓ６１１）。
　出力部１１９は、Ｓ６０９及びＳ６１１において生成された２次元テンプレート１３１及び座標関係情報１３３を任意の記憶媒体へと出力する（Ｓ６１３）。

［３．２　位置姿勢の認識処理］
　続いて、図７を参照しながら、認識部１５０が行う、コンテナが撮影された輝度画像に対するコンテナの３次元位置姿勢の認識処理の流れを説明する。

　まず、輝度画像入力部１５１は、コンテナが撮影された輝度画像の入力を受ける（Ｓ７０１）。テンプレートマッチング部１５３は、当該輝度画像に対し、予め用意されたコンテナの２次元テンプレートとのマッチングを行うことにより、輝度画像内におけるコンテナの上縁部の位置と回転角度とを特定する（Ｓ７０３）。その上で、特徴点座標算出部１５５は、テンプレートマッチング部１５３により特定されるコンテナの上縁部を基準として、輝度画像中のコンテナの特徴点の２次元座標を算出する（Ｓ７０５）。

　３次元位置姿勢算出部１５７は、Ｓ７０５において特定された輝度画像中の各特徴点の２次元座標を、座標関係情報１３３を用いて変換することで、各特徴点の３次元座標を生成する（Ｓ７０７）。これにより３次元位置姿勢算出部１５７は、輝度画像で撮影されたコンテナの実空間中の位置及び姿勢を認識する。
　出力部１５９は、算出されたコンテナの位置及び姿勢を示す位置姿勢情報を外部へと出力する（Ｓ７０９）。

［３．３　変形例］
　なお、図６及び図７を参照しながら説明した処理では、３次元コンテナモデルから２次元テンプレートを生成するためのカメラパラメータにより特定される仮想カメラの撮影位置や方向等と、実環境でのカメラの撮影位置や方向等とを略一致させる場合を中心に説明したが、これに限られるものではない。例えば、２次元テンプレートを撮影する仮想カメラの位置や方向等と、実環境においてコンテナを撮影するカメラの位置や方向等との相対的な関係がわかっていれば、当該関係に基づいて画像を変換した上で処理することも考えられる。

　例えば、３次元コンテナモデルを真上から仮想カメラで撮影して２次元テンプレートを生成した上で、真上以外の方向からコンテナが撮影された輝度画像に認識処理を行うことが考えられる。この場合の処理を、図８を参照しながら説明する。

　輝度画像入力部１５１は、コンテナが撮影された輝度画像の入力を受ける（Ｓ８０１）。このとき、輝度画像入力部１５１は、入力された輝度画像を、２次元テンプレート１３１を生成する際に用いられた仮想カメラの位置及び方向等と、輝度画像の撮影に用いられたカメラの位置及び方向等との相対的な関係（カメラ外部パラメータ）に応じて変換する（Ｓ８０３）。当該変換処理の方法としては、例えば、平面射影変換（ホモグラフィ変換）等が考えられる。ここでは、真上からコンテナを撮影した場合の画像に変換されるものとする。また、平面射影変換パラメータは、仮想カメラ外部パラメータから算出が可能である。

　テンプレートマッチング部１５３は、当該変換後の入力輝度画像と、２次元テンプレート１３１との間でマッチングを行うことにより、変換後の入力画像内におけるコンテナの上縁部の位置と回転角度とを特定する（Ｓ８０５）。Ｓ８０７及びＳ８０９の処理は、図７を参照しながら説明したＳ７０７及びＳ７０９の処理と同様である。

［４　ハードウェア構成］
　以下、図９を参照しながら、情報処理装置１００を実現可能なハードウェア構成を説明する。図９は、本実施形態にかかる情報処理装置１００のハードウェア構成の一例を模式的に例示する。

　図９の例に示す情報処理装置１００は、制御部９０１、記憶部９０５、通信インタフェース（Ｉ／Ｆ）部９１１、入力部９１３、及び出力部９１５を含み、各部はバスライン９１７を介して相互に通信可能に選択され得る。

　制御部９０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等を含み、情報処理に応じて各構成要素の制御を行う。より具体的には、たとえば、制御部５０１に含まれ得るＣＰＵは、記憶部９０５から制御プログラム９０７をＲＡＭ５０３へ読込み、当該制御プログラム９０７を実行することで、図５に示すテンプレート生成部１１０および認識部１５０に関する上述の各種処理を実行可能である。

　記憶部９０５は、例えばハード・ディスク・ドライブ（ＨＤＤ）、ソリッド・ステート・ドライブ（ＳＳＤ）等の補助記憶装置であり制御部９０１で実行される制御プログラム９０７、及び、データベース（ＤＢ）１３０等を記憶する。ＤＢ１３０では、先述のとおり、２次元テンプレート１３１や座標関係情報１３３等を管理することができる。この他、カメラパラメータ等の情報をＤＢ１３０上に管理することも考えられる。

　制御プログラム９０７は、図１乃至図８を参照しながら説明した情報処理装置１００の処理を実行させるためのプログラムである。特に、図５に示したテンプレート生成部１１０及び認識部１５０の各構成は、制御プログラム９０７として実現しうる。

　通信Ｉ／Ｆ部９１１は、例えば、有線又は無線により他の装置と通信するための通信モジュールである。通信Ｉ／Ｆ部９１１が他の装置との通信に用いる通信方式は任意であるが、例えば、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）やＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）等が挙げられる。例えば、図示しない産業ロボットへの３次元位置姿勢情報の出力等を、通信Ｉ／Ｆ部９１１を介して行うことが考えられる。

　入力部９１３は、例えば、マウスやキーボード、タッチパネル等で実現しうる、ユーザからの各種入力操作等を受け付けるためのデバイスである。出力部９１５は、例えば、ディスプレイやスピーカ等、表示や音声等により、情報処理装置１００を利用するユーザ等へ各種情報を報知するための装置である。例えば、認識部１５０によるコンテナの位置姿勢の認識結果を出力部９１５が表示等することにより、ユーザに報知することが考えられる。

［５　実施形態にかかる効果］
　以上説明したように、本実施形態にかかる情報処理装置１００は、例えばコンテナ等の、姿勢位置の認識対象物の上縁部の形状を示す２次元テンプレートを予め生成した上で、認識対象物の撮影画像に対して当該２次元テンプレートとのマッチングを行うことによりコンテナの位置等を特定する。幅が細い物体や光が反射しやすい素材でできた物体は３次元座標を検出しづらいが、本実施形態は単に２次元画像に対するマッチング処理のみでコンテナ等の認識対象物の位置及び姿勢を検出するため、高い精度で認識対象物の姿勢位置を検出することができる。

　また、特にコンテナ等の、内部に他の部材が入り得る部材が認識対象物である場合には、他の部材が入れられているかや、入れられた部材の数に応じて、認識対象物を撮影した場合の外観が変わるため、コンテナ全体の画像によるマッチング等では検出が難しい。しかしながら本実施形態にかかる情報処理装置１００では、コンテナの上縁部の画像を用いて検出するため、内部に部材が入っているか否か等に関係なく、高い精度で対象物の姿勢位置を検出することが可能である。

　さらに、本実施形態にかかる情報処理装置１００では、２次元情報に応じたマッチングに基づきコンテナの位置及び姿勢を検出するため、３次元情報を用いてコンテナの位置及び姿勢を検出する場合よりも演算量を低減することが可能である。

［６　付記］
　以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

　（付記１）
　認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける第１入力部（１１１）と、
　３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す２次元テンプレート（１３１）を生成するテンプレート生成部（１１５）と、
　前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報（１３３）を生成する座標関係特定部（１１７）と、
　前記認識対象物を撮影した撮影画像の入力を受ける第２入力部（１５１）と、
　前記撮影画像と前記２次元テンプレート（１３１）とをマッチングするマッチング部（１５３）と、
　前記マッチング部（１５３）による２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報（１３３）を参照することにより前記認識対象物の３次元位置及び姿勢を認識する認識部（１５７）と
を備える情報処理装置（１００）。

　（付記２）
　認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける処理と、
　３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す上縁部画像に応じた２次元テンプレート（１３１）を生成する処理と、
　前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報（１３３）を生成する処理と、
　前記認識対象物を撮影した撮影画像の入力を受ける処理と、
　前記撮影画像と前記２次元テンプレート（１３１）とをマッチングする処理と、
　前記マッチング部による２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報（１３３）を参照することにより前記認識対象物の３次元位置及び姿勢を認識する処理と
を情報処理装置（１００）が行う、情報処理方法。

　（付記３）
　認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける処理と、
　３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す上縁部画像に応じた２次元テンプレート（１３１）を生成する処理と、
　前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報（１３３）を生成する処理と、
　前記認識対象物を撮影した撮影画像の入力を受ける処理と、
　前記撮影画像と前記２次元テンプレート（１３１）とをマッチングする処理と、
　前記マッチング部による２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報（１３３）を参照することにより前記認識対象物の３次元位置及び姿勢を認識する処理と
を情報処理装置（１００）に実行させるためのプログラム。

１００…情報処理装置、１１０…テンプレート生成部、１１１…モデル入力部、１１３…カメラパラメータ入力部、１１５…上縁部画像生成部、１１７…座標関係情報生成部、１１９…出力部、１３０…データベース（ＤＢ）、１３１…２次元テンプレート、１３３…座標関係情報、１５０…認識部、１５１…輝度画像入力部、１５３…テンプレートマッチング部、１５５…特徴点座標算出部、１５７…３次元位置姿勢算出部、１５９…出力部、９０１…制御部、９０５…記憶部、９０７…制御プログラム、９１１…通信インタフェース（Ｉ／Ｆ）部、９１３…入力部、９１５…出力部、９１７…バスライン

Claims

　認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける第１入力部と、
　３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す２次元テンプレートを生成するテンプレート生成部と、
　前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報を生成する座標関係特定部と、
　前記認識対象物を撮影した撮影画像の入力を受ける第２入力部と、
　前記撮影画像と前記２次元テンプレートとをマッチングするマッチング部と、
　前記マッチング部による２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報を参照することにより前記認識対象物の３次元位置及び姿勢を認識する認識部と
を備える情報処理装置。
　認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける処理と、
　３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す２次元テンプレートを生成する処理と、
　前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報を生成する処理と、
　前記認識対象物を撮影した撮影画像の入力を受ける処理と、
　前記撮影画像と前記２次元テンプレートとをマッチングする処理と、
　２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報を参照することにより前記認識対象物の３次元位置及び姿勢を認識する処理と
を情報処理装置が行う、情報処理方法。
　認識対象物の３次元モデルを生成するための３次元モデル情報の入力を受ける処理と、
　３次元モデル情報に基づき、前記認識対象物の上縁部の形状を示す２次元テンプレートを生成する処理と、
　前記３次元モデルの３次元座標と、当該３次元モデルを撮影したときの２次元座標との関係を示す座標関係情報を生成する処理と、
　前記認識対象物を撮影した撮影画像の入力を受ける処理と、
　前記撮影画像と前記２次元テンプレートとをマッチングする処理と、
　２次元マッチング結果に応じて検出される前記撮影画像の前記認識対象物に対し、前記座標関係情報を参照することにより前記認識対象物の３次元位置及び姿勢を認識する処理と
を情報処理装置に実行させるためのプログラム。