WO2023042306A1

WO2023042306A1 - 画像処理装置、部品把持システム、画像処理方法および部品把持方法

Info

Publication number: WO2023042306A1
Application number: PCT/JP2021/033962
Authority: WO
Inventors: 惇史山本
Original assignee: ヤマハ発動機株式会社
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-03-23
Also published as: JPWO2023042306A1

Abstract

一の部品Ｐに対して設定された切り出し範囲Ｒｃ（対象範囲）の画像を切り出したパッチ画像Ｉｐ（第１パッチ画像）が位置合わせネットワーク部４５に入力されると、パッチ画像Ｉｐに含まれる一の部品Ｐに対して切り出し範囲Ｒｃの位置を補正するための補正量（Δｘ，Δｙ，Δθ）が位置合わせネットワーク部４５から出力される（ステップＳ３０４）。そして、この補正量（Δｘ，Δｙ，Δθ）だけ切り出し範囲Ｒｃを補正した補正切り出し範囲Ｒｃｃの画像を合成画像Ｉｃ（収納部品画像）から切り出した、一の部品Ｐを含む補正パッチ画像Ｉｐｃ（第２パッチ画像）が生成されて（ステップＳ３０５）、この補正パッチ画像Ｉｐｃについて把持成功確率が算出される（ステップＳ３０７）。

Description

画像処理装置、部品把持システム、画像処理方法および部品把持方法

　この発明は、容器に収納された複数の部品をロボットハンドによって把持する技術に関し、特にビンピッキングに対して好適に適用できる。

　非特許文献１には、ビンピッキングにおいて、ロボットハンドによって部品を把持した場合の把持成功確率を算出する技術が開示されている。具体的には、ビン内に堆積する複数の部品を撮像したビン画像から、対象部品を含む所定サイズのパッチ画像が切り出される。そして、このパッチ画像の位置（切り出し位置）に位置するロボットハンドによって、パッチ画像に含まれる対象部品の把持を試行した場合の把持成功確率が算出される。かかる把持成功確率は、異なる対象部品のそれぞれについて算出される。

　さらに、部品を把持するロボットの位置成分としては、Ｘ方向あるいはＹ方向といった並進方向のみならず、回転方向も存在する。そこで、ロボットの回転位置の違いを反映させるために、ビン画像を回転させる演算を行うことで、互いに異なる角度に対応した複数のビン画像が生成され、複数のビン画像のそれぞれについて、パッチ画像の切り出しと、把持成功確率の算出とが実行される。

Improving DataEfficiency of Self-supervised Learning for Robotic Grasping (2019)

　上記の方法によれば、ロボットハンドの回転角度の数と対象部品の数とを乗じた枚数のパッチ画像が取得されて、各パッチ画像について把持成功確率が算出される。そのため、演算負荷が過大になるという問題があった。

　この発明は上記課題に鑑みなされたものであり、ロボットハンドによって部品の把持を試行した場合の把持成功確率の算出に要する演算負荷を低減可能とする技術の提供を目的とする。

　本発明に係る画像処理装置は、容器に収納された複数の部品を示す収納部品画像に含まれる複数の部品のうちの一の部品に対して設定された対象範囲の画像を切り出した第１パッチ画像が入力されると、第１パッチ画像に含まれる一の部品に対して対象範囲の位置を補正するための補正量を出力する位置合わせ部と、補正量だけ対象範囲を補正した範囲の画像を収納部品画像から切り出した、一の部品を含む第２パッチ画像を生成する補正画像生成部と、第２パッチ画像が設定された範囲に位置するロボットハンドにより第２パッチ画像に含まれる一の部品の把持を試行した場合の把持成功確率を算出する把持分類部とを備える。

　本発明に係る画像処理方法は、容器に収納された複数の部品を示す収納部品画像に含まれる複数の部品のうちの一の部品に対して設定された対象範囲の画像を切り出した第１パッチ画像が入力されると、第１パッチ画像に含まれる一の部品に対して対象範囲の位置を補正するための補正量を出力する工程と、補正量だけ対象範囲を補正した範囲の画像を収納部品画像から切り出した、一の部品を含む第２パッチ画像を生成する工程と、第２パッチ画像が設定された範囲に位置するロボットハンドにより第２パッチ画像に含まれる一の部品の把持を試行した場合の把持成功確率を算出する工程とを備える。

　このように構成された画像処理装置および方法では、一の部品に対して設定された対象範囲の画像を切り出した第１パッチ画像が入力されると、第１パッチ画像に含まれる一の部品に対して対象範囲の位置を補正するための補正量が出力される。そして、この補正量だけ対象範囲を補正した範囲の画像を収納部品画像から切り出した、一の部品を含む第２パッチ画像が生成されて、この第２パッチ画像について把持成功確率が算出される。したがって、高い成功確率で一の部品を把持できる位置に部品を含む第２パッチ画像を、第１パッチ画像から求めた補正量に基づき得ることができる。そのため、ロボットハンドが互いに異なる複数の位置（特に回転位置）で一の部品を把持する場合に対応する複数のパッチ画像のそれぞれについて把持成功確率を算出する必要が無い。こうして、ロボットハンドによって部品の把持を試行した場合の把持成功確率の算出に要する演算負荷を低減することが可能となっている。

　また、位置合わせ部は、対象範囲における部品の適正位置を示す位置判定マスクと、第１パッチ画像に含まれる部品との位置の差を教師データとして、第１パッチ画像と補正量との関係を学習するように、画像処理装置を構成してもよい。かかる構成では、第１パッチ画像が示す部品の適正位置からのずれを位置判定マスクによって簡便に評価しつつ学習を行うことができる。

　また、位置合わせ部は、第１パッチ画像に含まれる部品の形状に基づき位置判定マスクを生成するように、画像処理装置を構成してもよい。かかる構成では、部品の形状に即した適切な位置判定マスクを用いて学習を行うことができる。

　また、位置合わせ部は、第１パッチ画像に含まれる部品と位置判定マスクとの位置の平均二乗誤差を損失関数として誤差逆伝搬させて、第１パッチ画像と補正量との関係を規定するパラメーターを更新する学習を実行するように、画像処理装置を構成してもよい。かかる構成では、第１パッチ画像が示す部品の適正位置からのずれを平均二乗誤差によって的確に評価しつつ学習を行うことができる。

　また、位置合わせ部は、第１パッチ画像を変更しつつ学習を繰り返すように、画像処理装置を構成してもよい。かかる構成では、高精度な学習結果を得ることができる。

　なお、学習を終了する条件としては、種々想定できる。例えば、位置合わせ部は、学習を繰り返した回数が所定回数に到達すると学習を終了するように、画像処理装置を構成してもよい。あるいは、位置合わせ部は、損失関数の収束状況に応じて学習を終了するように、画像処理装置を構成してもよい。

　また、把持分類部は、畳み込みニューラルネットワークを用いて第２パッチ画像から把持成功確率を算出するように、画像処理装置を構成してもよい。これによって、第２パッチ画像から把持成功確率を的確に算出することが可能となる。

　また、把持分類部は、畳み込みニューラルネットワークから出力される特徴量マップに対してアテンションマスクを加えることで特徴量マップに重み付けを行い、アテンションマスクは、ロボットハンドが部品を把持する把持方向に延びて第２パッチ画像の中心を通る領域と、把持方向に直交して第２パッチ画像の中心を通る領域とに注目することを示すように、画像処理装置を構成してもよい。これによって、部品の向きや、部品の周囲の状況（他の部品の有無）がロボットハンドによる把持に与える影響を加味しつつ、把持成功確率を的確に算出することが可能となる。

　また、複数の部品を示す輝度画像と、複数の部品を示す深度画像とを取得する画像取得部と、画像取得部が取得した輝度画像と深度画像とを合成することで収納部品画像を生成する画像合成部と、収納部品画像から第１パッチ画像を生成して位置合わせ部に入力するパッチ画像生成部とをさらに備えるように、画像処理装置を構成してもよい。かかる構成では、複数の部品をそれぞれ示す輝度画像と深度画像とを合成することで合成画像が生成される。こうして生成された合成画像では、複数の部品のうち、比較的高い位置の部品の形状が残りやすく、かかる部品（換言すれば、把持成功確率が高い部品）を認識するのに有利となる。

　本発明にかかる部品把持システムは、上記の画像処理装置と、ロボットハンドとを備え、画像処理装置は、算出した把持成功確率に基づき決定した位置でロボットハンドに部品を把持させる。

　本発明に係る部品把持方法は、容器に収納された複数の部品を示す収納部品画像に含まれる複数の部品のうちの一の部品に対して設定された対象範囲の画像を切り出した第１パッチ画像が入力されると、第１パッチ画像に含まれる一の部品に対して対象範囲の位置を補正するための補正量を出力する工程と、補正量だけ対象範囲を補正した範囲の画像を収納部品画像から切り出した、一の部品を含む第２パッチ画像を生成する工程と、第２パッチ画像が設定された範囲に位置するロボットハンドにより第２パッチ画像に含まれる一の部品の把持を試行した場合の把持成功確率を算出する工程と、把持成功確率に基づき決定した位置でロボットハンドに部品を把持させる工程とを備える。

　このように構成された部品把持システムおよび方法では、ロボットハンドが互いに異なる複数の位置（特に回転位置）で一の部品を把持する場合に対応する複数のパッチ画像のそれぞれについて把持成功確率を算出する必要が無い。その結果、ロボットハンドによって部品の把持を試行した場合の把持成功確率の算出に要する演算負荷を低減することが可能となっている。

　本発明によれば、ロボットハンドによって部品の把持を試行した場合の把持成功確率の算出に要する演算負荷を低減することが可能となる。

本発明に係る部品把持システムの一例を模式的に示す平面図。図１の部品把持システムで部品の把持に使用されるロボットハンドを模式的に示す斜視図。制御装置が備える電気的構成の一例を示すブロック図。図１の部品把持システムで実行されるビンピッキングの一例を示すフローチャート。図４Ａのビンピッキングで実行されるパッチ画像処理の一例を示すフローチャート。図４Ａのビンピッキングで実行される把持推論の一例を示すフローチャート。図４Ｃの把持推論で実行される把持対象部品の決定の一例を示すフローチャート。図４Ｂのパッチ画像処理で実行される動作を模式的に示す図。図４Ｂのパッチ画像処理で実行される動作を模式的に示す図。図４Ｂのパッチ画像処理で実行される動作を模式的に示す図。図４Ｂのパッチ画像処理で実行される動作を模式的に示す図。図４Ｂのパッチ画像処理で実行される動作を模式的に示す図。図４Ｃの把持推論で実行される動作を模式的に示す図。図４Ｃの把持推論で実行される動作を模式的に示す図。図４Ｃの把持推論で実行される動作を模式的に示す図。図４Ｃの把持推論で実行される動作を模式的に示す図。位置合わせニューラルネットワークの学習データの収集方法の一例を示すフローチャート。パッチ画像から生成される位置判定マスクの一例を模式的に示す図。図８Ａで収集された学習データを位置合わせニューラルネットワークに学習させるフローチャートの一例。損失関数の算出にマスクの使用が有利となる一例を模式的に示す図。把持分類ニューラルネットワークに学習を実行させるフローチャートの一例。把持分類ニューラルネットワークに学習を実行させるフローチャートの一例。把持分類ニューラルネットワークに学習を実行させるフローチャートの一例。把持分類ネットワーク部の把持分類ニューラルネットワークの再学習方法の一例を示すフローチャート。把持分類ネットワーク部の把持分類ニューラルネットワークの変形例。

　図１は本発明に係る部品把持システムの一例を模式的に示す平面図であり、図２は図１の部品把持システムで部品の把持に使用されるロボットハンドを模式的に示す斜視図である。これらの図および以下の図では、水平方向であるＸ方向、Ｘ方向に直交する水平方向であるＹ方向および鉛直方向であるＺ方向を適宜示す。これらＸ方向、Ｙ方向およびＺ方向はグローバル座標系を構成する。図１に示すように、部品把持システム１は、制御装置３および作業ロボット５を備え、作業ロボット５は制御装置３による制御に基づき作業（ビンピッキング）を実行する。

　具体的には、作業ロボット５の作業スペースには、部品ビン９１と、キッティングトレイ９２とが配置される。部品ビン９１は、部品を収納する複数の区画収納９１１を有し、各区画収納９１１では多数の部品が堆積している。キッティングトレイ９２は、部品を収納する複数の区画収納９２１を有し、各区画収納９２１には所定個数の部品が載置される。そして、作業ロボット５は、部品ビン９１の区画収納９１１から部品を把持して（ビンピッキング）、キッティングトレイ９２の区画収納９２１に移載する。また、部品ビン９１とキッティングトレイ９２との間には、ゴミ箱９３が配置され、不良部品が検知された場合には、作業ロボット５は、この不良部品をゴミ箱９３に廃棄する。

　作業ロボット５は、先端に設けられたロボットハンド５１を備えたスカラーロボットであり、ロボットハンド５１によって部品を掴んでロボットハンド５１を移動させることで、部品ビン９１からキッティングトレイ９２への部品の移載や、ゴミ箱９３への部品の廃棄を実行する。このロボットハンド５１は、図２に示すように、Ｘ方向、Ｙ方向、Ｚ方向およびθ方向に自由度を有する。ここで、θ方向は、Ｚ方向に平行な回転軸を中心とする回転方向である。また、ロボットハンド５１は、把持方向Ｇに配列された２本の爪５１１を有し、各爪５１１は、把持方向Ｇに直交する平板形状を有する。ロボットハンド５１は、２本の爪５１１の間隔を把持方向Ｇに拡大・縮小させることができ、これらの爪５１１によって部品を把持方向Ｇから挟むことで部品を把持する。なお、図２では、把持方向ＧがＸ方向に平行であるが、ロボットハンド５１のθ方向への位置によっては、当然のことながら、把持方向ＧはＸ方向に対して傾きうる。

　さらに、部品把持システム１は、２台のカメラ８１、８３と、質量計８５とを備える。カメラ８１は、部品ビン９１の区画収納９１１に堆積する多数の部品をＺ方向（上方）から撮像するプランビューカメラであり、作業ロボット５の作業スペースにＺ方向から対向する。このカメラ８１は、撮像対象（部品）を輝度で示すグレースケール画像（二次元画像）と、撮像対象までの距離を示す深度画像（三次元画像）とを撮像する。深度画像を取得する具体的な方法としては、位相シフト法やステレオマッチング法を用いることができる。カメラ８３は、ロボットハンド５１に把持された部品をＹ方向から撮像するサイドビューカメラであり、ロボットハンド５１の土台に水平に取り付けられている。このカメラ８３は、撮像対象（部品）を輝度で示すグレースケール画像（二次元画像）を撮像する。また、質量計８５は、キッティングトレイ９２の区画収納９２１に載置された部品の質量を計測する。

　図３は制御装置が備える電気的構成の一例を示すブロック図である。制御装置３は、演算部３１、記憶部３５およびＵＩ(User Interface)３９を備えた例えばパーソナルコンピューターである。演算部３１は、例えばＣＰＵ(Central Processing Unit)等を備えたプロセッサーであり、主制御部３１１と画像処理部４とを有する。これら主制御部３１１および画像処理部４は、所定のプログラムを実行することで演算部３１に展開される。主制御部３１１は、上述のロボットハンド５１、カメラ８１、８３および質量計８５といったハードウェアの制御を実行し、画像処理部４は、ロボットハンド５１による把持の対象となる部品を認識するための画像処理を実行する。特に画像処理部４は、画像合成部４１、パッチ画像生成部４３、位置合わせネットワーク部４５および把持分類ネットワーク部４７を有する。これらの機能は以後に詳述する。

　記憶部３５は、ＨＤＤ(Hard Disk Drive)あるいはＳＳＤ(Solid State Drive)等の記憶装置であり、例えば、演算部３１に上記の主制御部３１１あるいは画像処理部４を展開するためのプログラムやデータを記憶する。また、ＵＩ３９は、キーボードやマウスなどの入力機器と、ディスプレイ等の出力機器とを有し、入力機器によって作業者により入力された情報を演算部３１やＵＩ３９に転送したり、演算部３１からの指令に応じた画像をディスプレイに表示したりする。

　図４Ａは図１の部品把持システムで実行されるビンピッキングの一例を示すフローチャートであり、図４Ｂは図４Ａのビンピッキングで実行されるパッチ画像処理の一例を示すフローチャートであり、図４Ｃは図４Ａのビンピッキングで実行される把持推論の一例を示すフローチャートであり、図４Ｄは図４Ｃの把持推論で実行される把持対象部品の決定の一例を示すフローチャートである。

　図４ＡのビンピッキングのステップＳ１０１では、部品ビン９１の区画収納９１１で堆積する多数の部品のプランビュー画像がカメラ８１によって撮像される。このプランビュー画像としては、上述の通りグレースケール画像Ｉｇと深度画像Ｉｄとが撮像される。主制御部３１１は、カメラ８１から取得したこれらの画像Ｉｄ、Ｉｇを画像処理部４の画像合成部４１に転送し、画像合成部４１はパッチ画像処理を実行する（ステップＳ１０２）。

　図５Ａ～図５Ｅは図４Ｂのパッチ画像処理で実行される動作を模式的に示す図である。図４Ｂのパッチ画像処理のステップＳ２０１では、画像合成部４１は、グレースケール画像Ｉｇ（図５Ａ）と深度画像Ｉｄ（図５Ｂ）とを合成することで合成画像Ｉｃ（図５Ｃ）を生成する。

　図５Ａに示すように、グレースケール画像Ｉｇは、Ｘ方向およびＹ方向に二次元的に配列された複数の画素ＰＸで構成され、画素ＰＸの輝度Ｖｇを複数の画素ＰＸのそれぞれについて示す画像データである。なお、図５Ａでは、行番号を示す「ｍ」と列番号を示す「ｎ」との組み合わせ（ｍ，ｎ）によって一の画素ＰＸを特定する表記が用いられ、グレースケール画像Ｉｇの画素ＰＸ（ｍ，ｎ）は輝度Ｖｇ（ｍ，ｎ）を有する。なお、輝度Ｖｇ（ｍ，ｎ）は、対応箇所が明るいほど大きな値を有する。

　図５Ｂに示すように、深度画像Ｉｄは、グレースケール画像Ｉｇと同様に複数の画素ＰＸで構成され、画素ＰＸの深度（距離）を複数の画素ＰＸのそれぞれについて示す画像データである。図５Ｂにおいても図５Ａと同様の表記が用いられ、深度画像Ｉｄの画素ＰＸ（ｍ，ｎ）は深度Ｖｄ（ｍ，ｎ）を有する。なお、深度Ｖｄ（ｍ，ｎ）は、対応箇所の深度が浅いほど（換言すれば、対向箇所の位置が高いほど）大きな値を有する。

　図５Ｃに示すように、合成画像Ｉｃは、グレースケール画像Ｉｇと同様に複数の画素ＰＸで構成され、画素ＰＸの合成値Ｖｃを複数の画素ＰＸのそれぞれについて示す画像データである。図５Ｃにおいても図５Ａと同様の表記が用いられ、合成画像Ｉｃの画素ＰＸ（ｍ，ｎ）は合成値Ｖｃ（ｍ，ｎ）を有する。

　かかる合成値Ｖｃ（ｍ，ｎ）は、次式
　Ｖｃ（ｍ，ｎ）＝Ｖｄ（ｍ，ｎ）×（１＋Ｖｇ（ｍ，ｎ）／ｍａｘ（Ｖｇ））
　ｍａｘ（Ｖｇ）はグレースケール画像Ｉｇに含まれる輝度Ｖｇのうちの最大輝度
に基づき算出される。つまり、合成値Ｖｃは深度Ｖｄで重み付けした輝度Ｖｇであり、合成画像Ｉｃは、深度重み付けグレースケール画像となる。なお、上の式では、最大輝度で正規化された輝度Ｖｇに深度Ｖｄ（重み）を乗じている。ただし、正規化は必須ではなく、そのままの輝度Ｖｇに深度Ｖｄ（重み）を乗じて合成値Ｖｃを算出しても構わない。要するに、輝度Ｖｇと深度Ｖｄとの両方に依存するように合成値Ｖｃを定めればよい。

　図５Ｄでは、グレースケール画像Ｉｇおよび深度画像Ｉｄから合成画像Ｉｃを生成した実験結果が示されている。グレースケール画像Ｉｇ（フィルター前）は、カメラ８１が取得した二次元画像データであり、グレースケール画像Ｉｇ（フィルター後）は、カメラ８１が取得した二次元画像データの所定成分（高周波成分）をフィルターにより除去した二次元画像データである。また、深度画像Ｉｄ（フィルター前）は、カメラ８１が取得した三次元画像データであり、深度画像Ｉｄ（フィルター前）は、カメラ８１が取得した三次元画像データの所定成分（高周波成分）をフィルターにより除去した三次元画像データである。そして、合成画像Ｉｃは、フィルター後のグレースケール画像Ｉｇと深度画像Ｉｄとを上記の式により合成した深度重み付きグレースケール画像となる。ここで、「グレースケール画像Ｉｇ（フィルター後）」および「合成画像Ｉｃ」の各欄において矢印で指定される範囲（楕円の範囲）に注目すると、グレースケール画像Ｉｇ（フィルター後）で明瞭に表れていた部品が、合成画像Ｉｃにおいて表れていない。これは、該当の部品は深度が深くて（換言すれば、高さが低くて）、該当の部品の輝度Ｖｇに対して小さな重み付けがなされた結果である。このように、グレースケール画像Ｉｇおよび深度画像Ｉｄの合成は、高い位置の部品を際立たせる効果がある。なお、図５Ｄで用いたフィルターは必須ではなく、適宜省略しても同様の効果を得ることができる。

　図４ＢのステップＳ２０１で生成された合成画像Ｉｃは、画像合成部４１からパッチ画像生成部４３に出力され、パッチ画像生成部４３は、合成画像Ｉｃに対してステップＳ２０２～Ｓ２０４の画像処理を実行する。この画像処理の具体的内容は、図５Ｅに例示されている。ステップＳ２０２では、所定の閾値で合成画像Ｉｃを二値化することで二値合成画像Ｉｃが得られる。この二値合成画像Ｉｃでは、高い輝度（白）を有する閉領域が部品に対応して表れ、換言すれば二値合成画像Ｉｃにおける閉領域を部品Ｐと認識することができる。ステップＳ２０３では、パッチ画像生成部４３は、二値合成画像Ｉｃの各部品Ｐ（閉領域Ｒｃ）に互いに異なるラベル（番号）を対応付けるラベリングを実行する。

　ステップＳ２０４では、二値合成画像Ｉｃから部品Ｐを含む画像を切り出すための切り出し範囲Ｒｃが設定される。特に、切り出し範囲Ｒｃは、部品Ｐを把持する際のロボットハンド５１の位置を表すように設定される。この切り出し範囲Ｒｃは、ロボットハンド５１が把持の対象とする範囲（把持対象範囲）に相当し、ロボットハンド５１は切り出し範囲Ｒｃに存在する部品Ｐを把持することができる。例えば、図５Ｅの「パッチ画像Ｉｐ」の欄では、部品Ｐの把持のために部品Ｐ（２）に上側から対向するロボットハンド５１の２個の爪５１１に対応する部分が切り出し範囲Ｒｃの白実線（Ｙ方向に平行）で表され、各爪５１１の両端が移動する軌跡が白破線（Ｘ方向に平行）で表される。この例から分かるように、爪５１１はＹ方向に平行であって、θ方向におけるロボットハンド５１の回転角度はゼロ度である。つまり、切り出し範囲Ｒｃの設定は、θ方向におけるロボットハンド５１の回転角度がゼロ度の状態で実行される。そして、パッチ画像生成部４３は、二値合成画像Ｉｃのうち、切り出し範囲Ｒｃの画像をパッチ画像Ｉｐとして取得する（パッチ画像生成）。このパッチ画像Ｉｐは、ステップＳ２０３でラベルが付された各部品Ｐについて生成される。

　図４Ａに示すように、ステップＳ１０２のパッチ画像処理が完了すると、ステップＳ１０３の把持推論（図４Ｃ）が実行される。図６Ａ～６Ｃおよび図７は、図４Ｃの把持推論で実行される動作を模式的に示す図である。図４Ｃの把持推論を開始するにあたっては、ステップＳ１０２でのパッチ画像処理で取得された複数のパッチ画像Ｉｐを示すパッチ画像情報（図６Ａ）が、画像合成部４１から位置合わせネットワーク部４５に出力される。図６Ａに示すように、パッチ画像情報は、パッチ画像Ｉｐと、当該パッチ画像Ｉｐのラベルの番号と、当該パッチ画像Ｉｐの切り出し範囲Ｒｃの位置とを対応付けて示す。切り出し範囲Ｒｃの形状は各パッチ画像Ｉｐで同一であり、切り出し範囲Ｒｃの位置（切り出し位置）は、切り出し範囲Ｒｃの幾何重心のＸ座標、Ｙ座標およびθ座標で特定される。

　これに対して、図４ＣのステップＳ３０１では、位置合わせネットワーク部４５は、パッチ画像情報が示す複数のパッチ画像Ｉｐのラベルをカウントするカウント値をゼロにリセットして（ステップＳ３０１）、当該カウント値をインクリメントする（ステップＳ３０２）。

　ステップＳ３０３では、位置合わせネットワーク部４５は、現カウント値のパッチ画像Ｉｐに含まれる物体（白閉領域）の面積が適切か否かを判定する。具体的には、下側閾値および当該下側閾値より大きい上側閾値のそれぞれと、物体面積とが比較される。そして、物体面積が下側閾値より小さいあるいは上側閾値より大きい場合には、物体面積は適切でないと判定され（ステップＳ３０３で「ＮＯ」）、ステップＳ３０２に戻る。一方、物体面積が下側閾値以上で上側閾値以下である場合には、物体面積は適切であると判定され（ステップＳ３０３で「ＹＥＳ」）、ステップＳ３０４に進む。

　ステップＳ３０４では、位置合わせネットワーク部４５は、現カウント値のパッチ画像Ｉｐに基づき、切り出し範囲Ｒｃの位置を補正する補正量を算出する。つまり、位置合わせネットワーク部４５は、位置合わせニューラルネットワークを有し、この位置合わせニューラルネットワークは、パッチ画像Ｉｐが入力されると、切り出し範囲Ｒｃの補正量（Δｘ，Δｙ，Δθ）を出力する。パッチ画像Ｉｐと切り出し範囲Ｒｃの補正量との関係について図６Ｃを用いて説明する。

　図６Ｃの「切り出し範囲Ｒｃ」の欄では、切り出し範囲Ｒｃと、当該切り出し範囲Ｒｃで切り出されたパッチ画像Ｉｐとが示され、「補正切り出し範囲Ｒｃｃ」の欄では、切り出し範囲Ｒｃの位置を補正量（Δｘ，Δｙ，Δθ）に応じて補正した補正切り出し範囲Ｒｃｃが、これらに重ねて示されている。切り出し範囲Ｒｃおよび補正切り出し範囲Ｒｃｃは同一の形状を有しており、次の各操作
・Ｘ方向に補正距離Δｘだけ平行移動…Ｘ方向平行操作
・Ｙ方向に補正距離Δｙだけ平行移動…Ｙ方向平行操作
・θ方向に補正角度Δθだけ回転移動…θ方向回転操作
が実行された切り出し範囲Ｒｃは、補正切り出し範囲Ｒｃｃに一致する。また、切り出し範囲Ｒｃの中心と部品Ｐとの位置ずれに比較して、補正切り出し範囲Ｒｃｃの中心と部品Ｐとの位置ずれは改善されている。つまり、切り出し範囲Ｒｃの補正は、切り出し範囲Ｒｃと部品Ｐとの位置ずれを改善する補正、さらに言えば、部品Ｐがセンタリングされるように切り出し範囲Ｒｃを補正切り出し範囲Ｒｃｃに変換する補正である。そして、位置合わせネットワーク部４５の位置合わせニューラルネットワークは、パッチ画像Ｉｐの入力に対して、当該パッチ画像Ｉｐの切り出し範囲Ｒｃを補正して補正切り出し範囲Ｒｃｃを算出するための補正量（Δｘ，Δｙ，Δθ）を出力する。ちなみに、切り出し範囲Ｒｃを当該補正量だけ補正して補正切り出し範囲Ｒｃｃに変換する演算は、θ方向にΔθだけ回転させる回転行列と、Ｘ方向にΔｘだけ平行移動させつつＹ方向にΔｙだけ平行移動させる平行移動行列との積により実行できる。また、画像の拡大・縮小を考慮する必要がある場合には、さらにスケーリング行列を乗じればよい。

　なお、図６Ｃの例のように、部品Ｐが所定方向に長い形状を有する場合には、部品Ｐの長軸方向がロボットハンド５１の把持方向Ｇに直交するように、センタリングを行うのが好適となる。これによって、部品Ｐをロボットハンド５１によって的確に把持することが可能となる。

　ステップＳ３０５では、位置合わせネットワーク部４５は、位置合わせニューラルネットワークが出力した補正量に基づき切り出し範囲Ｒｃを補正することで、補正切り出し範囲Ｒｃｃを作成して、二値合成画像Ｉｃのうち、補正切り出し範囲Ｒｃｃの画像を補正パッチ画像Ｉｐｃとして取得する（補正パッチ画像生成）。そして、パッチ画像情報に含まれる全ラベル（換言すれば、全パッチ画像Ｉｐ）についてステップＳ３０２～Ｓ３０５が完了するまで（ステップＳ３０６で「ＹＥＳ」となるまで）、ステップＳ３０２～Ｓ３０５が繰り返される。

　全ラベルについて完了すると、複数の補正パッチ画像Ｉｐｃを示す補正パッチ画像情報（図６Ｂ）が、位置合わせネットワーク部４５から把持分類ネットワーク部４７に出力される。図６Ｂに示すように、補正パッチ画像情報は、補正パッチ画像Ｉｐｃと、当該補正パッチ画像Ｉｐｃのラベルの番号と、当該補正パッチ画像Ｉｐｃの補正切り出し範囲Ｒｃｃの位置とを対応付けて示す。補正切り出し範囲Ｒｃｃの形状は各補正パッチ画像Ｉｐｃで同一であり、補正切り出し範囲Ｒｃｃの位置（切り出し位置）は、補正切り出し範囲Ｒｃｃの幾何重心のＸ座標、Ｙ座標およびθ座標で特定される。

　ステップＳ３０７では、把持分類ネットワーク部４７は、補正パッチ画像情報に示される複数の補正パッチ画像Ｉｐｃのそれぞれについて、把持成功確率を算出する。具体的には、補正切り出し範囲Ｒｃｃの位置（ｘ＋Δｘ，ｙ＋Δｙ，θ＋Δθ）にロボットハンド５１を位置させた状態で、補正切り出し範囲Ｒｃｃで切り出された補正パッチ画像Ｉｐｃが示す部品Ｐの把持を試行した場合の成功確率（把持成功確率）が算出される。つまり、把持分類ネットワーク部４７は、把持分類ニューラルネットワークを有し、この把持分類ニューラルネットワークは、補正パッチ画像Ｉｐｃが入力されると、補正パッチ画像Ｉｐｃに対応する把持成功確率を出力する。こうして、図７に示す把持成功確率情報が取得される。図７に示すように、把持成功確率情報は、補正パッチ画像Ｉｐと、当該補正パッチ画像Ｉｐｃのラベルの番号と、当該補正パッチ画像Ｉｐｃの補正切り出し範囲Ｒｃｃの位置と、当該補正パッチ画像Ｉｐｃの把持成功確率とを対応付けて示す。なお、把持成功確率は、図７の例では０～１の値により示されているが、パーセントにより示されてもよい。

　ステップＳ３０８では、主制御部３１１は、把持分類ネットワーク部４７から出力された把持成功確率情報に基づき、把持対象とする部品Ｐを決定する。図４Ｄの把持対象部品の決定では、把持成功確率情報の各補正パッチ画像Ｉｐｃが、把持成功確率に従って降順にソートされる（ステップＳ４０１）。つまり、把持成功確率が高い補正パッチ画像Ｉｐｃほど、上位にソートされる。

　また、把持成功確率が同一の補正パッチ画像Ｉｐｃについては、補正パッチ画像Ｉｐｃに含まれる物体面積に従って降順にソートされる。つまり、物体面積が大きい補正パッチ画像Ｉｐｃほど、上位にソートされる。ステップＳ４０３では、ソート順位のカウント値がゼロにリセットされ、ステップＳ４０４では、当該カウント値がインクリメントされる。

　ステップＳ４０５では、現カウント値の補正パッチ画像Ｉｐｃに含まれる部品Ｐが、部品ビン９１の区画収納９１１（容器）の端に近接しているかが判定される。具体的には、補正パッチ画像Ｉｐｃを切り出した補正切り出し範囲Ｒｃｃの位置と、区画収納９１１の壁面との距離が所定値未満であれば、容器の端に近接している（ステップＳ４０５で「ＹＥＳ」）と判定され、ステップＳ４０４に戻る。一方、当該距離が所定値以上であれば、容器の端に近接していない（ステップＳ４０５で「ＮＯ」）と判定され、ステップＳ４０６に進む。ステップＳ４０６では、現カウント値の補正パッチ画像Ｉｐｃが把持対象の部品Ｐを示す一の補正パッチ画像Ｉｐｃに選択される。そして、図４Ａのフローチャートに戻る。

　図４ＡのステップＳ１０４では、ステップＳ１０３で選択された一の補正パッチ画像Ｉｐｃに対応する補正切り出し範囲Ｒｃｃが示す位置にロボットハンド５１が移動して、一の補正パッチ画像Ｉｐｃが示す部品Ｐを把持する。ステップＳ１０５では、ロボットハンド５１に把持される部品Ｐの画像がカメラ８３によって撮像され、ステップＳ１０６では、主制御部３１１は、カメラ８３により撮像された画像から、ロボットハンド５１により把持された部品Ｐを判定する。さらに、主制御部３１１は、把持された部品Ｐの個数が１個であるかを判定し（ステップＳ１０７）、１個でない場合（ステップＳ１０７で「ＮＯ」の場合）には、ロボットハンド５１に当該部品Ｐを部品ビン９１の区画収納９１１に返却させる（ステップＳ１０８）。また、把持された部品Ｐの個数が１個である場合（ステップＳ１０７で「ＹＥＳ」の場合）には、主制御部３１１は、把持された部品Ｐが正常であるかを判定し（ステップＳ１０９）、部品Ｐを示す面積が過小である等の異常を有する場合（ステップＳ１０９で「ＮＯ」の場合）には、ロボットハンド５１に当該部品Ｐをゴミ箱９３に廃棄させる（ステップＳ１１０）。

　一方、部品Ｐが正常である場合（ステップＳ１０９で「ＹＥＳ」の場合）には、主制御部３１１は、ロボットハンド５１に当該部品Ｐをキッティングトレイ９２の区画収納９２１に載置させる（ステップＳ１１１）。続いて、主制御部３１１は、質量計８５により質量を計測して（ステップＳ１１２）、質量計８５が示す質量が適正であるかを判定する（ステップＳ１１３）。具体的には、キッティングトレイ９２に載置した部品Ｐに相当する質量が増加しているかに基づき、判定することができる。そして、質量が適正でない場合（ステップＳ１１３で「ＮＯ」の場合）には、主制御部３１１は、ＵＩ３９を用いて作業者に異常を通知する一方、質量が適正である場合（ステップＳ１１３で「ＹＥＳ」の場合）には、主制御部３１１は、ステップＳ１０１に戻る。

　以上が部品把持システム１で実行されるビンピッキングの内容である。上記の把持推論では、位置合わせネットワーク部４５が、切り出し範囲Ｒｃから切り出されたパッチ画像Ｉｐに基づき当該切り出し範囲Ｒｃを補正する補正量（Δｘ，Δｙ，Δθ）を算出する。特に、位置合わせネットワーク部４５は、位置合わせニューラルネットワークを用いて、パッチ画像Ｉｐから切り出し範囲Ｒｃの補正量を算出する。続いては、この位置合わせニューラルネットワークに、パッチ画像Ｉｐと切り出し範囲Ｒｃの補正量との関係を学習させる方法について説明する。

　図８Ａは位置合わせニューラルネットワークの学習データの収集方法の一例を示すフローチャートである。このフローチャートは、制御装置３の演算部３１によって実行される。このフローチャートの実行に際しては、演算によって仮想的に構築した部品把持システム１（以下、「仮想部品把持システム１」と適宜称する）においてビンピッキングを実行するシミュレーターが演算部３１に構成される。このシミュレーターは、重力加速度や摩擦係数等の物理的なパラメーターに基づき、ロボットハンド５１が部品ビン９１の区画収納９１１から部品Ｐを把持する動作を、演算によって仮想的に実行する。

　ステップＳ５０１では、学習に必要な数のデータが取得されたかが確認される。この必要数は、例えば作業者によって予め設定することができる。必要数のデータが取得済みの場合（ステップＳ５０１で「ＹＥＳ」の場合）には、図８Ａのフローチャートが終了する一方、取得されたデータの数が必要数未満である場合（ステップＳ５０１で「ＮＯ」の場合）には、ステップＳ５０２に進む。

　ステップＳ５０２では、仮想部品把持システム１に配置された部品ビン９１の区画収納９１１に、十分な部品Ｐが収納されているか否かが判定される。具体的には、部品Ｐの個数が所定数以上であるかに基づき判定することができる。部品ビン９１の区画収納９１１内の部品Ｐの数が所定数未満である場合（ステップＳ５０２で「ＮＯ」の場合）には、部品ビン９１の区画収納９１１内の部品Ｐの個数をリセットすることで初期値にまで増加させて（ステップＳ５０３）、ステップＳ５０１に戻る。一方、部品ビン９１の区画収納９１１内の部品Ｐの数が所定数以上である場合（ステップＳ５０２で「ＹＥＳ」の場合）には、ステップＳ５０４に進む。

　ステップＳ５０４では、上述した現実の部品把持システム１の場合と同様にして、仮想部品把持システム１において合成画像Ｉｃが生成される。続いて、この合成画像Ｉｃに対して二値化を行って二値合成画像Ｉｃが生成されて、この二値合成画像Ｉｃに含まれる各部品Ｐに対してラベリングが実行される（ステップＳ５０５）。そして、ラベリングされた各部品Ｐに対して切り出し範囲Ｒｃが設定されて、パッチ画像Ｉｐが切り出される（ステップＳ５０６）。

　ステップＳ５０７は、各パッチ画像Ｉｐをカウントするカウント値がリセットされ、ステップＳ５０８では、カウント値がインクリメントされる。そして、上記と同様にして、現カウント値のパッチ画像Ｉｐに含まれる物体（白閉領域）の面積が適切であるかが判定される（ステップＳ５０９）。物体の面積が不適切である場合（ステップＳ５０９で「ＮＯ」の場合）にはステップＳ５０８に戻る一方、物体の面積が適切である場合（ステップＳ５０９で「ＹＥＳ」の場合）には、ステップＳ５１０に進む。

　こうして物体の面積が適切である一のパッチ画像Ｉｐが選択されると、主制御部３１１は、当該一のパッチ画像Ｉｐから位置判定マスクＭｐ（図８Ｂ）を生成する（ステップＳ５１０）。図８Ｂはパッチ画像から生成される位置判定マスクの一例を模式的に示す図である。この位置判定マスクＭｐは、パッチ画像Ｉｐ（換言すれば、切り出し範囲Ｒｃ）と同一形状の輪郭を有し、位置判定マスクＭｐの中央には、パッチ画像Ｉｐに含まれる部品Ｐと同一形状の部品基準パターンＰｒが配置されている。この部品基準パターンＰｒは、パッチ画像Ｉｐに含まれる部品Ｐ（換言すれば、白閉領域）の縦・横それぞれの画素数を有するように生成される。この位置判定マスクＭｐは、部品Ｐが中央に位置する理想的なパッチ画像Ｉｐのモデルである。そして、パッチ画像Ｉｐと、当該パッチ画像Ｉｐから生成された位置判定マスクＭｐとが対応付けられて、パッチ画像リストに格納される（ステップＳ５１１）。

　こうしてステップＳ５１１までの各ステップが完了すると、ステップＳ５０１に戻る。そして、必要数のデータが取得されるまで、換言すれば、パッチ画像リストに格納されたパッチ画像Ｉｐと位置判定マスクＭｐとのペアの数が必要数に到達するまで、ステップＳ５０１～Ｓ５１１が繰り返し実行される。

　図９Ａは図８Ａで収集された学習データを位置合わせニューラルネットワークに学習させるフローチャートの一例である。このフローチャートは、制御装置３の演算部３１によって実行される。ステップＳ６０１では、学習回数が所定数に到達したかが判定される。この所定数は、例えば作業者によって予め設定することができる。

　ステップＳ６０２では、パッチ画像リストから選択した未学習のパッチ画像Ｉｐを、位置合わせネットワーク部４５の位置合わせニューラルネットワークに順伝播させる。これによって、パッチ画像Ｉｐに対応する補正量（Δｘ，Δｙ，Δθ）が、位置合わせネットワーク部４５のニューラルネットワークから出力される。さらに、位置合わせネットワーク部４５は、この補正量によって切り出し範囲Ｒｃを補正した補正切り出し範囲Ｒｃｃ内の二値合成画像Ｉｃ（ステップＳ５０５で生成）を切り出すことで、補正パッチ画像Ｉｐｃを生成する（ステップＳ６０３）。

　ステップＳ６０４では、位置合わせネットワーク部４５は、ステップＳ６０２で選択したパッチ画像Ｉｐに対応する位置判定マスクＭｐと補正パッチ画像Ｉｐｃとを、それぞれの輪郭が一致するように重ね合わせて、位置判定マスクＭｐの部品基準パターンＰｒと補正パッチ画像Ｉｐｃに含まれる部品Ｐとの平均二乗誤差を損失関数として算出する。そして、ステップＳ６０５では、位置合わせニューラルネットワークにおいてこの損失関数を逆伝播させることで（誤差逆伝播）、位置合わせニューラルネットワークのパラメーターを更新する。

　なお、損失関数の算出は、位置判定マスクＭｐを用いずとも可能である。つまり、部品Ｐの画像のモーメントから主軸角を算出して、この主軸角と所定の基準角度との平均二乗誤差を損失関数としてもよい。一方、図９Ｂに例示する場合では、位置判定マスクＭｐを用いることが有利となる。図９Ｂは損失関数の算出にマスクの使用が有利となる一例を模式的に示す図である。図９Ｂに示される補正パッチ画像Ｉｐｃに含まれる部品Ｐはジグザグの形状を有しており、この部品Ｐの画像のモーメントから主軸角を適切に求めることは困難である。したがって、多様な形状の部品Ｐに対応するという観点から、ここでは位置判定マスクＭｐが用いられている。

　ステップＳ６０６では、パッチ画像リストに格納されたパッチ画像Ｉｐうち、予めテスト用として確保されて学習に使用されないパッチ画像Ｉｐ（テストデータ）を、パラメーターが更新された位置合わせニューラルネットワークに順伝播させることで、補正量が算出される。そして、この補正量に基づき、上記のステップＳ６０３～Ｓ６０４と同じ要領で、当該テストデータに対応する位置判定マスクＭｐを用いて損失関数が計算される。

　演算部３１は、ステップＳ６０６が実行される度にステップＳ６０６で算出された損失関数を記憶するとともに、こうして記憶された複数の損失関数のうちの最小値を算出しておく。そして、演算部３１は、直近に算出された損失関数が当該最小値を更新したかを確認する。特にステップＳ６０７では、１０回連続で最小値が未更新であるか、すなわち最小値より大きな損失関数が算出されたかが判定される。そして、過去１０回のうちに最小値以下の損失関数が算出されている場合（ステップＳ６０７で「ＮＯ」の場合）には、ステップＳ６０１に戻る一方、１０回連続で最小値より大きな損失関数が算出された場合（ステップＳ６０７で「ＹＥＳ」の場合）には、図９Ａのフローチャートが終了する。なお、回数は１０回に限られず、必要に応じて適宜変更できる。

　ところで、上記の把持推論では、補正パッチ画像Ｉｐｃが把持分類ネットワーク部４７に入力されると、把持分類ネットワーク部４７は、補正パッチ画像Ｉｐｃに含まれる部品Ｐを、補正パッチ画像Ｉｐｃが示す位置のロボットハンド５１によって把持した場合の把持成功確率を算出する。特に、把持分類ネットワーク部４７は、把持分類ニューラルネットワークを用いて、補正パッチ画像Ｉｐｃから把持成功確率を算出する。続いては、この把持分類ニューラルネットワークに、補正パッチ画像Ｉｐｃと把持成功確率との関係を学習させる方法について説明する。

　図１０Ａ～図１０Ｃは把持分類ニューラルネットワークに学習を実行させるフローチャートの一例である。このフローチャートは、制御装置３の演算部３１によって実行される。把持分類ニューラルネットワークの学習においても、上記の位置合わせニューラルネットワークの学習と同様に、仮想部品把持システム１を構築するシミュレーターが用いられる。

　図１０Ａのフローチャートでは、図８Ａのそれと同様にして、学習データの収集が実行される。つまり、図１０ＡのステップＳ７０１～Ｓ７０９は、次の点を除いて、図８ＡのステップＳ５０１～Ｓ５０９と同様である。つまり、ステップＳ７０１では、データの取得数ではなく、学習回数が所定数に到達したかが判定される。この所定数は、例えば作業者によって予め設定することができる。

　そして、図１０Ａのフローチャートでは、ステップＳ７０１～Ｓ７０９の実行によって、物体の面積が適切である一のパッチ画像Ｉｐが選択されると、位置合わせネットワーク部４５が、上記の学習を完了した位置合わせニューラルネットワークを用いてパッチ画像Ｉｐに対応する補正量を算出し（ステップＳ７１０）、パッチ画像Ｉｐと補正量とを対応付けて補正量リストに格納する（ステップＳ７１１）。そして、カウント値が最大になるまで（ステップＳ７１２で「ＹＥＳ」となるまで）、ステップＳ７０８～Ｓ７１１が繰り返されて、パッチ画像Ｉｐと補正量とのペアが補正量リストに順次格納される。カウント値が最大になると（ステップＳ７１２で「ＹＥＳ」）、図１０ＢのステップＳ７１２に進む。

　ステップＳ７１２では、位置合わせネットワーク部４５は、パッチ画像Ｉｐの切り出し範囲Ｒｃを補正量に基づき補正して補正切り出し範囲Ｒｃｃを生成し、当該補正切り出し範囲Ｒｃｃに基づき補正パッチ画像Ｉｐｃを生成する処理を、補正量リストに格納されているパッチ画像Ｉｐと補正量との各ペアについて実行する。これによって、複数の補正パッチ画像Ｉｐｃが生成される。なお、補正パッチ画像Ｉｐｃを生成する具体的な手順は、上述の通りである。

　ステップＳ７１３では、学習に必要な数のデータが取得されたかが確認される。この必要数は、例えば作業者によって予め設定することができる。必要数のデータが取得済みの場合（ステップＳ７１３で「ＹＥＳ」の場合）には、後述するステップＳ７１７（図１０Ｃ）に進む一方、取得されたデータの数が必要数未満である場合（ステップＳ７１３で「ＮＯ」の場合）には、ステップＳ７１４に進む。

　ステップＳ７１４では、ステップＳ７１２で生成した複数の補正パッチ画像Ｉｐｃのうちから、一の補正パッチ画像Ｉｐｃがランダムに（例えば、乱数発生器の出力に基づき）選択される。そして、ステップＳ７１５では、仮想部品把持システム１において、当該一の補正パッチ画像Ｉｐｃに含まれる部品Ｐの把持が、当該一の補正パッチ画像Ｉｐｃの位置に位置するロボットハンド５１により試行される。なお、補正パッチ画像Ｉｐｃの位置とは、当該補正パッチ画像Ｉｐｃを切り出した補正切り出し範囲Ｒｃｃの位置に相当する。そして、把持試行の成否の結果（成功の場合は１、失敗の場合は０）が、当該一の補正パッチ画像Ｉｐｃと対応付けて、成否結果リストに格納されて（ステップＳ７１６）、図１０ＡのステップＳ７０１に戻る。

　一方、ステップＳ７１３で必要数のデータが取得済み（ＹＥＳ）と判定されると、上述の通り、図１０ＣのステップＳ７１７に進む。ステップＳ７１７では、補正パッチ画像Ｉｐｃを左右に反転させた横反転補正パッチ画像Ｉｐｃと、補正パッチ画像Ｉｐｃを上下に反転させた縦反転補正パッチ画像Ｉｐｃと、補正パッチ画像Ｉｐｃを左右上下に反転させた縦横反転補正パッチ画像Ｉｐｃとが生成される。これによって、横反転補正パッチ画像Ｉｐｃ、縦反転補正パッチ画像Ｉｐｃおよび縦横反転補正パッチ画像Ｉｐｃの３種類の画像が、成否結果リストの各補正パッチ画像Ｉｐｃについて準備される。つまり、成否結果リストに格納される補正パッチ画像Ｉｐｃの枚数の３倍の枚数の複数の補正パッチ画像Ｉｐｃが準備される。

　ステップＳ７１８では、ステップＳ７１７で生成した複数の補正パッチ画像Ｉｐｃのそれぞれが、把持分類ネットワーク部４７の把持分類ニューラルネットワークにおいて順伝播され、各補正パッチ画像Ｉｐｃについて把持成功確率が算出される。そして、ステップＳ７１９は、同一の補正パッチ画像Ｉｐｃから生成された横反転補正パッチ画像Ｉｐｃ、縦反転補正パッチ画像Ｉｐｃおよび縦横反転補正パッチ画像Ｉｐｃそれぞれの把持成功確率の平均値が算出される。これによって、成否結果リストに格納される各補正パッチ画像Ｉｐｃについて、把持成功確率の平均値が算出される。

　ステップＳ７２０では、「０」、「１」および「２」のうちの1個の値を乱数発生器により発生させる。そして、乱数発生で「０」が得られた場合には、ステップＳ７１９で把持成功確率が算出された各補正パッチ画像Ｉｐｃのうちからランダムに一の補正パッチ画像Ｉｐｃが選択され（ステップＳ７２１）、乱数発生で「１」が得られた場合には、当該各補正パッチ画像Ｉｐｃのうちから把持成功確率が「０．５」（換言すれば、５０％）に最も近い一の補正パッチ画像Ｉｐｃが選択され（ステップＳ７２２）、乱数発生で「２」が得られた場合には、当該各補正パッチ画像Ｉｐｃのうちから把持成功確率が最も高い一の補正パッチ画像Ｉｐｃが選択される（ステップＳ７２３）。

　ステップＳ７２４では、仮想部品把持システム１において、一の補正パッチ画像Ｉｐｃが示す部品Ｐの把持を、当該一の補正パッチ画像Ｉｐｃの位置に位置するロボットハンド５１によって試行する。そして、部品把持の成否結果（成功の場合は１、失敗の場合は０）と、ステップＳ７１９で当該一の補正パッチ画像Ｉｐｃについて算出された把持成功確率の平均値とに基づき損失関数が算出される。損失関数としては、例えば交差エントロピー誤差等の周知の種々の関数を使用できる。

　また、演算部３１は、ステップＳ７２５が実行される度にステップＳ７２５で算出された損失関数を記憶するとともに、こうして記憶された複数の損失関数のうちの最小値を算出しておく。そして、演算部３１は、直近に算出された損失関数が当該最小値を更新したかを確認する。特にステップＳ７２６では、１０回連続で最小値が未更新であるか、すなわち最小値より大きな損失関数が算出されたかが判定される。そして、過去１０回のうちに最小値以下の損失関数が算出されている場合（ステップＳ７２６で「ＮＯ」の場合）には、ステップＳ７２４の把持成否結果を、一の補正パッチ画像Ｉｐｃに対応付けて成否結果リストに格納する（ステップＳ７２７）。そして、ステップＳ７２８では、ステップＳ７２５で算出した損失関数を把持分類ニューラルネットワークにおいて逆伝播させることで（誤差逆伝播）、把持分類ニューラルネットワークのパラメーターを更新する。一方、ステップＳ７２６で、１０回連続で最小値より大きな損失関数が算出された場合（「ＮＯ」の場合）には、図１０ＡのステップＳ７０１に戻る。なお、回数は１０回に限られず、必要に応じて適宜変更できる。

　以上に示す実施形態では、一の部品Ｐに対して設定された切り出し範囲Ｒｃ（対象範囲）の画像を切り出したパッチ画像Ｉｐ（第１パッチ画像）が位置合わせネットワーク部４５に入力されると、パッチ画像Ｉｐに含まれる一の部品Ｐに対して切り出し範囲Ｒｃの位置を補正するための補正量（Δｘ，Δｙ，Δθ）が位置合わせネットワーク部４５から出力される（ステップＳ３０４）。そして、この補正量（Δｘ，Δｙ，Δθ）だけ切り出し範囲Ｒｃを補正した補正切り出し範囲Ｒｃｃの画像を合成画像Ｉｃ（収納部品画像）から切り出した、一の部品Ｐを含む補正パッチ画像Ｉｐｃ（第２パッチ画像）が生成されて（ステップＳ３０５）、この補正パッチ画像Ｉｐｃについて把持成功確率が算出される（ステップＳ３０７）。したがって、高い成功確率で一の部品Ｐを把持できる位置に部品Ｐを含む補正パッチ画像Ｉｐｃを、パッチ画像Ｉｐから求めた補正量（Δｘ，Δｙ，Δθ）に基づき得ることができる。そのため、ロボットハンド５１が互いに異なる複数の位置（特に回転位置）で一の部品Ｐを把持する場合に対応する複数のパッチ画像Ｉｐのそれぞれについて把持成功確率を算出する必要が無い。こうして、ロボットハンド５１によって部品Ｐの把持を試行した場合の把持成功確率の算出に要する演算負荷を低減することが可能となっている。

　また、位置合わせネットワーク部４５（位置合わせ部）は、切り出し範囲Ｒｃにおける部品Ｐの適正位置を示す位置判定マスクＭｐと、パッチ画像Ｉｐに含まれる部品Ｐとの位置の差を教師データとして、パッチ画像Ｉｐと補正量（Δｘ，Δｙ，Δθ）との関係を学習する（ステップＳ６０１～Ｓ６０７）。かかる構成では、パッチ画像Ｉｐが示す部品Ｐの適正位置からのずれを位置判定マスクＭｐによって簡便に評価しつつ学習を行うことができる。

　また、位置合わせネットワーク部４５は、パッチ画像Ｉｐに含まれる部品Ｐの形状に基づきパッチ画像Ｉｐを生成する（ステップＳ５１０）。かかる構成では、部品Ｐの形状に即した適切な位置判定マスクＭｐを用いて学習を行うことができる。

　また、位置合わせネットワーク部４５は、パッチ画像Ｉｐに含まれる部品Ｐと位置判定マスクＭｐ（の部品基準パターンＰｒ）との位置の平均二乗誤差を損失関数として誤差逆伝搬させて、パッチ画像Ｉｐと補正量（Δｘ，Δｙ，Δθ）との関係を規定するパラメーターを更新する学習を実行する（ステップＳ６０４～Ｓ６０５）。かかる構成では、パッチ画像Ｉｐが示す部品Ｐの適正位置からのずれを平均二乗誤差によって的確に評価しつつ学習を行うことができる。

　また、位置合わせネットワーク部４５は、パッチ画像Ｉｐを変更しつつ学習を繰り返す（ステップＳ６０１～Ｓ６０７）。かかる構成では、高精度な学習結果を得ることができる。

　なお、学習を終了する条件としては、種々想定できる。上記の例では、位置合わせネットワーク部４５は、学習を繰り返した回数が所定回数に到達すると学習を終了する（ステップＳ６０１）。また、位置合わせネットワーク部４５は、ステップＳ６０７で損失関数の収束状況を判定した結果に応じて学習を終了する。具体的には、所定回数（１０回）連続で損失関数の最小値が更新されない場合に、損失関数が収束したと判定されて、学習が終了する。

　また、複数の部品Ｐを示すグレースケール画像Ｉｇ（輝度画像）と、複数の部品Ｐを示す深度画像Ｉｄとを取得する主制御部３１１（画像取得部）と、主制御部３１１が取得したグレースケール画像Ｉｇと深度画像Ｉｄとを合成することで合成画像Ｉｃを生成する画像合成部４１とが設けられている。そして、パッチ画像生成部４３が、合成画像Ｉｃからパッチ画像Ｉｐを生成して位置合わせネットワーク部４５に入力する。つまり、複数の部品Ｐをそれぞれ示すグレースケール画像Ｉｇと深度画像Ｉｄとを合成することで合成画像Ｉｃが生成される。こうして生成された合成画像Ｉｃでは、複数の部品Ｐのうち、比較的高い位置の部品Ｐの形状が残りやすく、かかる部品（換言すれば、把持成功確率が高い部品）を認識するのに有利となる。

　このように上記の実施形態では、部品把持システム１が本発明の「部品把持システム」の一例に相当し、制御装置３が本発明の「画像処理装置」の一例に相当し、主制御部３１１が本発明の「画像取得部」の一例に相当し、画像合成部４１が本発明の「画像合成部」の一例に相当し、パッチ画像生成部４３が本発明の「パッチ画像生成部」の一例に相当し、位置合わせネットワーク部４５が本発明の「位置合わせ部」の一例に相当し、位置合わせネットワーク部４５が本発明の「補正画像生成部」の一例に相当し、把持分類ネットワーク部４７が本発明の「把持分類部」の一例に相当し、ロボットハンド５１が本発明の「ロボットハンド」の一例に相当し、部品ビン９１の区画収納９１１が本発明の「容器」の一例に相当し、合成画像Ｉｃが本発明の「収納部品画像」の一例に相当し、深度画像Ｉｄが本発明の「深度画像」の一例に相当し、グレースケール画像Ｉｇが本発明の「輝度画像」の一例に相当し、パッチ画像Ｉｐが本発明の「第１パッチ画像」の一例に相当し、補正パッチ画像Ｉｐｃが本発明の「第２パッチ画像」の一例に相当し、位置判定マスクＭｐが本発明の「位置判定マスク」の一例に相当し、部品Ｐが本発明の「部品」の一例に相当し、切り出し範囲Ｒｃが本発明の「対象範囲」の一例に相当し、補正量（Δｘ，Δｙ，Δθ）が本発明の「補正量」の一例に相当する。

　なお、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて上述したものに対して種々の変更を加えることが可能である。例えば、ステップＳ１０５において、ロボットハンド５１に把持される部品Ｐを、互いに異なる方向からカメラ８３によって撮像して複数のサイドビュー画像を取得してもよい。これらサイドビュー画像は、例えば、部品Ｐを把持するロボットハンド５１をθ方向に回転させつつ部品Ｐを撮像することで、取得できる。これによって、ステップＳ１０７における部品Ｐの個数の確認や、ステップＳ１０９における部品Ｐの異常（面積の過小）の確認を、複数の方向から実行することができる。

　また、把持分類ニューラルネットワークの学習に関して、図１１のフローチャートを実行してもよい。ここで、図１１は把持分類ネットワーク部の把持分類ニューラルネットワークの再学習方法の一例を示すフローチャートである。このフローチャートは、例えば、計画していたビンピッキングが終了したタイミング等に、主制御部３１１によって実行される。

　ステップＳ８０１では、主制御部３１１は、過去に実行したビンピッキングにおいて、サイドビュー画像に基づく異常（ステップＳ１０７、Ｓ１０８で「ＮＯ」）や、質量計測に基づく異常（ステップＳ１１３で「ＮＯ」）が検知された履歴を確認する。そして、異常が検知された回数が所定回数以上であると（ステップＳ８０２で「ＹＥＳ」）、把持分類ネットワーク部４７の把持分類ニューラルネットワークの再学習が実行される（ステップＳ８０３）。この再学習では、異常が検知された部品Ｐを示す補正パッチ画像Ｉｐｃと把持成否結果（すなわち、失敗）とが教師データとして使用される。具体的には、補正パッチ画像Ｉｐｃを把持分類ニューラルネットワークで順伝播して求められる把持成否確率と把持成否結果（失敗）とに基づき誤差関数が算出されて、把持分類ニューラルネットワークにおいてこの誤差関数を逆伝播させることで、把持分類ニューラルネットワークのパラメーターが更新される（再学習）。

　つまり、図１１の例では、ロボットハンド５１が把持する部品Ｐについて、把持状態情報（サイドビュー画像、質量）を取得した結果に基づき、把持分類ニューラルネットワークに再学習を実行させる。かかる構成では、補正パッチ画像Ｉｐｃについて求めた把持成功確率に基づき選択した部品Ｐの把持の実際の成否結果に応じて、把持分類ニューラルネットワークの再学習が実行され、把持分類ニューラルネットワークによる把持成功確率の算出精度を向上させることができる。

　図１２は把持分類ネットワーク部の把持分類ニューラルネットワークの変形例である。この把持分類ニューラルネットワーク４７１では、多層の畳み込みニューラルネットワーク４７２と、全結合層４７３とが直列に配列されている。また、各畳み込みニューラルネットワーク４７２の出力側には、空間アテンションモジュール４７４と、チャネルアテンションモジュール４７５とが設けられており、畳み込みニューラルネットワーク４７２から出力された特徴量マップは、空間アテンションモジュール４７４およびチャネルアテンションモジュール４７５による重み付けを経て、次段の畳み込みニューラルネットワーク４７２あるいは全結合層４７３に入力される。

　特に空間アテンションモジュール４７４が特徴量マップに加えるアテンションマスクＭａは、補正パッチ画像Ｉｐｃ（換言すれば、補正切り出し範囲Ｒｃｃ）の中心位置を通る２本の注目領域Ｐｇ、Ｐｐを有する。つまり、アテンションマスクＭａのうち、注目領域Ｐｇおよび注目領域Ｐｐの重みは、その他の領域の重みよりも大きく、これらの重みが特徴量マップに加えられる。ここで、注目領域Ｐｇは把持方向Ｇに平行であり、注目領域Ｐｐは把持方向Ｇに直交する。特に、上記の例の様に、部品Ｐの長軸方向が把持方向Ｇに直交する場合には、注目領域Ｐｐは部品Ｐの長軸方向に平行となる。つまり、このアテンションマスクＭａは、補正パッチ画像Ｉｐｃにおける部品Ｐの理想位置に対応する注目領域Ｐｐと、当該部品Ｐに対してロボットハンド５１の爪５１１がアプローチする経路に対応する注目領域Ｐｇとに注目する。

　把持分類ニューラルネットワークでは、かかる構成のアテンションマスクＭａが、畳み込みニューラルネットワーク４７２から出力される特徴量マップに加えられて、特徴量マップに重み付けが行われる。したがって、把持方向Ｇに対する部品Ｐの長軸方向の角度や、部品Ｐを把持するロボットハンド５１の移動経路の状況（他の部品の有無）を、把持分類ニューラルネットワークによる判断に的確に反映させることができる。

　つまり、この変形例では、把持分類ネットワーク部４７は、畳み込みニューラルネットワーク４７２を用いて補正パッチ画像Ｉｐｃから把持成功確率を算出する。これによって、補正パッチ画像Ｉｐｃから把持成功確率を的確に算出することが可能となる。

　また、把持分類ネットワーク部４７は、畳み込みニューラルネットワーク４７２から出力される特徴量マップに対してアテンションマスクＭａを加えることで特徴量マップに重み付けを行う。特に、アテンションマスクＭａは、ロボットハンド５１が部品Ｐを把持する把持方向Ｇに延びて補正パッチ画像Ｉｐｃの中心を通る注目領域Ｐｇと、把持方向Ｇに直交して補正パッチ画像Ｉｐｃの中心を通る注目領域Ｐｐとに注目することを示す。これによって、部品Ｐの向きや、部品Ｐの周囲の状況（他の部品Ｐの有無）がロボットハンド５１による把持に与える影響を加味しつつ、把持成功確率を的確に算出することが可能となる。

　また、合成画像Ｉｃの生成方法は、上記の式を用いた例に限られず、深度画像Ｉｄの深度Ｖｄによってグレースケール画像Ｉｇの輝度Ｖｇを重み付けすることで合成画像Ｉｃの合成値Ｖｃを算出する他の式によって合成画像Ｉｃを生成してもよい。

　また、上記の例では、グレースケール画像Ｉｇと深度画像Ｉｄとを合成して、合成画像Ｉｃを生成している。この際、グレースケール画像Ｉｇの輝度を反転させた反転グレースケール画像Ｉｇ（輝度画像）と深度画像Ｉｄとを合成して、合成画像Ｉｃを生成してもよい。特に黒メッキ処理が施された表面を有する部品Ｐを把持する場合には、反転グレースケール画像Ｉｇを用いて合成画像Ｉｃを生成するのが好適となる。

　また、二値化された合成画像Ｉｃからパッチ画像Ｉｐを切り出す必要はなく、二値化を実行せずに合成画像Ｉｃからパッチ画像Ｉｐを切り出してもよい。補正パッチ画像Ｉｐｃについても同様である。

　また、パッチ画像処理における部品Ｐに対する切り出し範囲Ｒｃの設定態様については、種々想定できる。例えば、切り出し範囲Ｒｃの設定は、切り出し範囲Ｒｃの幾何重心が部品Ｐの幾何重心に一致するように行うことができる。ただし、この例に限られず、要するに、対象の部品Ｐを含むように切り出し範囲Ｒｃを設定すればよい。

　また、ロボットハンド５１の具体的な構成は、上記の例に限られない。例えば、ロボットハンド５１の爪５１１の本数は２本に限られず、３本以上でもよい。また、負圧あるいは磁力によって吸着するロボットハンド５１を用いることもできる。これらの場合であっても、ロボットハンド５１が把持の対象とする範囲に切り出し範囲Ｒｃを設定して、パッチ画像Ｉｐを切り出し範囲Ｒｃから切り出すことができる。

　また、上記実施形態では、グレースケール画像Ｉｇと深度画像Ｉｄとを合成した合成画像Ｉｃからパッチ画像Ｉｐを作成している。しかしながら、グレースケール画像Ｉｇおよび深度画像Ｉｄの一方からパッチ画像Ｉｐを作成し、当該パッチ画像Ｉｐに基づき位置合わせネットワーク部４５による補正量（Δｘ，Δｙ，Δθ）の算出と、把持分類ネットワーク部４７による把持成功確率の算出とを実行するように構成してもよい。

　１…部品把持システム
　３…制御装置（画像処理装置）
　３１１…主制御部（画像取得部）
　４１…画像合成部
　４３…パッチ画像生成部
　４５…位置合わせネットワーク部（位置合わせ部、補正画像生成部）
　４７…把持分類ネットワーク部（把持分類部）
　５１…ロボットハンド
　９１…部品ビン
　９１１…区画収納（容器）
　Ｉｃ…合成画像（収納部品画像）
　Ｉｄ…深度画像
　Ｉｇ…グレースケール画像（輝度画像）
　Ｉｐ…パッチ画像（第１パッチ画像）
　Ｉｐｃ…補正パッチ画像（第２パッチ画像）
　Ｍｐ…位置判定マスク
　Ｐ…部品
　Ｒｃ…切り出し範囲（対象範囲）
　（Δｘ，Δｙ，Δθ）…補正量

　

Claims

　容器に収納された複数の部品を示す収納部品画像に含まれる前記複数の部品のうちの一の部品に対して設定された対象範囲の画像を切り出した第１パッチ画像が入力されると、前記第１パッチ画像に含まれる前記一の部品に対して前記対象範囲の位置を補正するための補正量を出力する位置合わせ部と、
　前記補正量だけ前記対象範囲を補正した範囲の画像を前記収納部品画像から切り出した、前記一の部品を含む第２パッチ画像を生成する補正画像生成部と、
　前記第２パッチ画像が設定された範囲に位置するロボットハンドにより前記第２パッチ画像に含まれる前記一の部品の把持を試行した場合の把持成功確率を算出する把持分類部と
を備えた画像処理装置。
　前記位置合わせ部は、前記対象範囲における前記部品の適正位置を示す位置判定マスクと、前記第１パッチ画像に含まれる前記部品との位置の差を教師データとして、前記第１パッチ画像と前記補正量との関係を学習する請求項１に記載の画像処理装置。
　前記位置合わせ部は、前記第１パッチ画像に含まれる前記部品の形状に基づき前記位置判定マスクを生成する請求項２に記載の画像処理装置。
　前記位置合わせ部は、前記第１パッチ画像に含まれる前記部品と前記位置判定マスクとの位置の平均二乗誤差を損失関数として誤差逆伝搬させて、前記第１パッチ画像と前記補正量との関係を規定するパラメーターを更新する学習を実行する請求項２または３に記載の画像処理装置。
　前記位置合わせ部は、前記第１パッチ画像を変更しつつ前記学習を繰り返す請求項４に記載の画像処理装置。
　前記位置合わせ部は、前記学習を繰り返した回数が所定回数に到達すると前記学習を終了する請求項５に記載の画像処理装置。
　前記位置合わせ部は、前記損失関数の収束状況に応じて前記学習を終了する請求項５に記載の画像処理装置。
　前記把持分類部は、畳み込みニューラルネットワークを用いて前記第２パッチ画像から前記把持成功確率を算出する請求項１ないし７のいずれか一項に記載の画像処理装置。
　前記把持分類部は、前記畳み込みニューラルネットワークから出力される特徴量マップに対してアテンションマスクを加えることで前記特徴量マップに重み付けを行い、
　前記アテンションマスクは、前記ロボットハンドが前記部品を把持する把持方向に延びて前記第２パッチ画像の中心を通る領域と、前記把持方向に直交して前記第２パッチ画像の中心を通る領域とに注目することを示す請求項８に記載の画像処理装置。
　前記複数の部品を示す輝度画像と、前記複数の部品を示す深度画像とを取得する画像取得部と、
　前記画像取得部が取得した前記輝度画像と前記深度画像とを合成することで前記収納部品画像を生成する画像合成部と、
　前記収納部品画像から前記第１パッチ画像を生成して前記位置合わせ部に入力するパッチ画像生成部と
をさらに備えた請求項１ないし９のいずれか一項に記載の画像処理装置。
　請求項１ないし１０のいずれか一項に記載の画像処理装置と、
　ロボットハンドと
を備え、
　前記画像処理装置は、算出した前記把持成功確率に基づき決定した位置で前記ロボットハンドに部品を把持させる部品把持システム。
　容器に収納された複数の部品を示す収納部品画像に含まれる前記複数の部品のうちの一の部品に対して設定された対象範囲の画像を切り出した第１パッチ画像が入力されると、前記第１パッチ画像に含まれる前記一の部品に対して前記対象範囲の位置を補正するための補正量を出力する工程と、
　前記補正量だけ前記対象範囲を補正した範囲の画像を前記収納部品画像から切り出した、前記一の部品を含む第２パッチ画像を生成する工程と、
　前記第２パッチ画像が設定された範囲に位置するロボットハンドにより前記第２パッチ画像に含まれる前記一の部品の把持を試行した場合の把持成功確率を算出する工程と
を備えた画像処理方法。
　容器に収納された複数の部品を示す収納部品画像に含まれる前記複数の部品のうちの一の部品に対して設定された対象範囲の画像を切り出した第１パッチ画像が入力されると、前記第１パッチ画像に含まれる前記一の部品に対して前記対象範囲の位置を補正するための補正量を出力する工程と、
　前記補正量だけ前記対象範囲を補正した範囲の画像を前記収納部品画像から切り出した、前記一の部品を含む第２パッチ画像を生成する工程と、
　前記第２パッチ画像が設定された範囲に位置するロボットハンドにより前記第２パッチ画像に含まれる前記一の部品の把持を試行した場合の把持成功確率を算出する工程と、
　前記把持成功確率に基づき決定した位置で前記ロボットハンドに部品を把持させる工程と
を備えた部品把持方法。