WO2019021456A1

WO2019021456A1 - 学習装置、認識装置、学習方法、認識方法及びプログラム

Info

Publication number: WO2019021456A1
Application number: PCT/JP2017/027419
Authority: WO
Inventors: 勉堀川; 大地小野
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2019-01-31
Also published as: CN110945537B; JPWO2019021456A1; CN110945537A; US11681910B2; JP6911123B2; US20200193632A1

Abstract

深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できる学習装置、認識装置、学習方法、認識方法及びプログラムを提供する。物体データ取得部（３２）は、物体を表す三次元データを取得する。学習データ生成部（３４）は、三次元データに基づいて、それぞれ互いに異なる物体の一部を表す学習データを複数生成する。学習部（３６）は、生成される学習データを物体の学習データとした機械学習モデル（３０）の学習を実行する。

Description

学習装置、認識装置、学習方法、認識方法及びプログラム

　本発明は、学習装置、認識装置、学習方法、認識方法及びプログラムに関する。

　ボクセルデータ等の三次元データに対して三次元畳み込みニューラルネットワーク等の学習済モデルを用いた認識処理を実行することで、当該三次元データが表す物体が何であるかを認識する技術が知られている。

　例えば深さ情報に関連付けられた画像に基づいて生成される三次元データを上述の学習済モデルに入力した際の出力に基づいて、当該画像が表す物体が何であるかを認識することが考えられる。

　しかし、深さ情報に関連付けられた画像に表れていない部分については、当該画像に基づいて生成される三次元データには表れない。そのためこのようにして生成される三次元データは、物体の完全な三次元形状を表すものではないこととなる。

　そのため、認識に用いられる学習済モデルが物体の完全な三次元形状を表す三次元データを学習データとした学習が実行されたものである場合は、深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できないことがあった。

　本発明は上記課題に鑑みてなされたものであって、その目的の１つは、深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できる学習装置、認識装置、学習方法、認識方法及びプログラムを提供することにある。

　上記課題を解決するために、本発明に係る学習装置は、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行する学習装置であって、物体を表す三次元データを取得する三次元データ取得部と、前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成する学習データ生成部と、生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行する学習部と、を含む。

　本発明の一態様では、前記学習データ生成部は、前記物体が配置される仮想空間内の互いに異なる複数の位置のそれぞれについて、当該位置から可視である当該物体の一部を表す学習データを生成する。

　また、本発明の一態様では、前記学習装置は、認識対象データとして深さ情報に関連付けられた画像に基づいて生成される三次元データが入力される前記機械学習モデルの学習を実行する学習装置であって、前記学習データ生成部は、三次元データである前記学習データを生成し、前記学習部は、生成される前記三次元データを前記物体の学習データとした前記機械学習モデルの学習を実行する。

　あるいは、前記学習装置は、認識対象データとして深さ情報に関連付けられた画像が入力される前記機械学習モデルの学習を実行する学習装置であって、前記学習データ生成部は、深さ情報に関連付けられた画像である前記学習データを生成し、前記学習部は、生成される前記深さ情報に関連付けられた画像を前記物体の学習データとした前記機械学習モデルの学習を実行する。

　また、本発明に係る認識装置は、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識装置であって、物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルと、前記画像に対応付けられる認識対象データを前記学習済モデルに入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識する認識部と、を含む。

　また、本発明に係る学習方法は、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行する学習方法であって、物体を表す三次元データを取得するステップと、前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成するステップと、生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行するステップと、を含む。

　また、本発明に係る認識方法は、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識方法であって、物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルに前記画像に対応付けられる認識対象データを入力するステップと、前記学習済モデルに前記認識対象データを入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識するステップと、を含む。

　また、本発明に係るプログラムは、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行するプログラムであって、物体を表す三次元データを取得する手順、前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成する手順、生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行する手順、をコンピュータに実行させる。

　また、本発明に係る別のプログラムは、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行するプログラムであって、物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルに前記画像に対応付けられる認識対象データを入力する手順、前記学習済モデルに前記認識対象データを入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識する手順、をコンピュータに実行させる。

本発明の一実施形態に係る情報処理装置の構成図である。機械学習モデルに学習させる物体が仮想空間に配置されている様子の一例を示す図である。第１部分の一例を示す図である。第２部分の一例を示す図である。第３部分の一例を示す図である。第１二次元画像の一例を示す図である。第２二次元画像の一例を示す図である。第３二次元画像の一例を示す図である。本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る情報処理装置で行われる学習処理の流れの一例を示すフロー図である。本発明の一実施形態に係る情報処理装置で行われる認識処理の流れの一例を示すフロー図である。

　以下、本発明の一実施形態について図面に基づき詳細に説明する。

　図１は、本発明の一実施形態に係る情報処理装置１０の構成図である。本実施形態に係る情報処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る情報処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

　プロセッサ１２は、例えば情報処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

　記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

　操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

　表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

　なお、情報処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ－ＲＯＭやＢｌｕ－ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

　本実施形態に係る情報処理装置１０では、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理が実行される。

　ここで認識対象となる上述の画像は、ステレオカメラや赤外線測距センサ付きのカメラなどにより撮影される、デプス画像に関連付けられた撮影画像であってもよい。

　また例えば、複数の方向から被写体を撮影した撮影画像に基づいて、撮影画像を撮影した際のカメラの位置、向き、及び、画角に対応付けられる深さ情報が生成されるようにしてもよい。

　そして本実施形態では二次元畳み込みニューラルネットワーク（二次元ＣＮＮ）や三次元畳み込みニューラルネットワーク（三次元ＣＮＮ）などの機械学習モデルを用いて、上述の画像に表された物体が何であるかの認識が実行される。

　図２は、上述の機械学習モデルに学習させる物体が仮想空間２０に配置されている様子の一例を示す図である。図２には、機械学習モデルに学習させる物体の一例として、位置とボクセル値とが対応付けられたボクセルデータで表現されたティーポット２２が示されている。ここで物体を表す三次元データの表現形式はボクセルデータに限定されない。例えばワイヤフレーム、ポリゴン、サーフェス、ソリッドなどで物体が表現されてもよい。また例えばポイントクラウド（点群）で物体が表現されてもよい。また物体を表す三次元データには、三次元空間内の位置に関連付けられた、グレースケールの階調値やＲＧＢ値などといった当該位置における色の情報が含まれていてもよい。

　そして本実施形態では、図２に示す仮想空間２０内における互いに異なる複数の位置のそれぞれから物体を見た際に可視である部分に対応付けられる学習データが生成される。例えば図２に示す仮想カメラ２４が物体を撮影した画像に表される部分に対応付けられる学習データが生成される。

　図２には、一例として３つの仮想カメラ２４（２４ａ，２４ｂ，及び２４ｃ）が示されている。ここで仮想カメラ２４ａによって、例えばティーポット２２を左から見た様子を表す画像が生成されてもよい。また仮想カメラ２４ｂによって、例えばティーポット２２を前から見た様子を表す画像が生成されてもよい。また仮想カメラ２４ｃによって、例えばティーポット２２を後ろから見た様子を表す画像が生成されてもよい。図３Ａには、仮想カメラ２４ａが物体を撮影した画像に表される部分である第１部分２６ａが示されている。図３Ｂには、仮想カメラ２４ｂが物体を撮影した画像に表される部分である第２部分２６ｂが示されている。そして図３Ｃには、仮想カメラ２４ｃが物体を撮影した画像に表される部分である第３部分２６ｃが示されている。

　そして本実施形態では、第１部分２６ａ、第２部分２６ｂ、第３部分２６ｃのそれぞれに対応付けられる学習データを物体（ここでは例えばティーポット２２）の学習データとした機械学習モデルの学習が実行される。例えば、第１部分２６ａや第２部分２６ｂや第３部分２６ｃを表すボクセルデータ等の三次元データを入力データとして含み物体の名称（例えば「ティーポット」）を教師データとして含む学習データによる機械学習モデルの学習が実行されてもよい。

　ここで物体を表すデータの表現形式と同様、学習データの表現形式は位置とボクセル値とが対応付けられたボクセルデータに限定されない。例えばワイヤフレーム、ポリゴン、サーフェス、ソリッドなどの三次元データで学習データが表現されてもよい。また例えば点群（ポイントクラウド）で学習データが表現されてもよい。また学習データには、三次元空間内の位置に関連付けられた、グレースケールの階調値やＲＧＢ値などといった当該位置における色の情報が含まれていてもよい。

　また以下で説明するように、例えば、仮想カメラ２４から物体を見た様子を表す、深さ情報に関連付けられた二次元画像２８が学習データとして用いられてもよい。ここで学習データとして用いられる二次元画像２８には、グレースケールの階調値やＲＧＢ値などといった各画素の色の情報が含まれていてもよい。

　図４Ａ～図４Ｃには、それぞれ、仮想カメラ２４ａから物体を見た様子を表す第１二次元画像２８ａ、仮想カメラ２４ｂから物体を見た様子を表す第２二次元画像２８ｂ、仮想カメラ２４ｃから物体を見た様子を表す第３二次元画像２８ｃが示されている。

　そして例えば、第１二次元画像２８ａとともに、第１二次元画像２８ａに含まれる画素のそれぞれに対応付けられる、仮想カメラ２４ａから被写体までの距離の分布を表す第１デプス画像が生成されてもよい。そして第１デプス画像に関連付けられた第１二次元画像２８ａを学習データとした機械学習モデルの学習が実行されてもよい。ここで例えば、第１二次元画像２８ａ及び第１デプス画像を入力データとして含み物体の名称を教師データとして含む学習データによる機械学習モデルの学習が実行されてもよい。

　また例えば、第２二次元画像２８ｂとともに、第２二次元画像２８ｂに含まれる画素のそれぞれに対応付けられる、仮想カメラ２４ｂから被写体までの距離の分布を表す第２デプス画像が生成されてもよい。そして第２デプス画像に関連付けられた第２二次元画像２８ｂを学習データとした機械学習モデルの学習が実行されてもよい。ここで例えば、第２二次元画像２８ｂ及び第２デプス画像を入力データとして含み物体の名称を教師データとして含む学習データによる機械学習モデルの学習が実行されてもよい。

　また例えば、第３二次元画像２８ｃとともに、第３二次元画像２８ｃに含まれる画素のそれぞれに対応付けられる、仮想カメラ２４ｃから被写体までの距離の分布を表す第３デプス画像が生成されてもよい。そして第３デプス画像に関連付けられた第３二次元画像２８ｃを学習データとした機械学習モデルの学習が実行されてもよい。ここで例えば、第３二次元画像２８ｃ及び第３デプス画像を入力データとして含み物体の名称を教師データとして含む学習データによる機械学習モデルの学習が実行されてもよい。

　そして本実施形態では例えば、複数の物体について、上述のようにして学習が実行された学習済の機械学習モデルに、認識対象データが入力された際の出力に基づいて、深さ情報に関連付けられた画像が表す物体が何であるかが認識される。ここで当該画像には、グレースケールの階調値やＲＧＢ値などといった各画素の色の情報が含まれていてもよい。

　ここで例えば、ボクセルデータなどの三次元データを学習データとした学習が実行された場合は、深さ情報に関連付けられた画像に基づいて生成される三次元データが、学習済の機械学習モデルに入力される認識対象データとして用いられてもよい。ここで認識対象データとして用いられる三次元データには、三次元空間内の位置に関連付けられた、グレースケールの階調値やＲＧＢ値などといった当該位置における色の情報が含まれていてもよい。

　また例えば、二次元画像及びデプス画像などといった、深さ情報に関連付けられた画像を学習データとした学習が実行された場合は、深さ情報に関連付けられた画像自体が、学習済の機械学習モデルに入力される認識対象データとして用いられてもよい。

　ここで本実施形態では上述のように、１の物体について複数の学習データによる学習が実行される。ここで例えば認識対象データがティーポット２２に対応付けられる複数の学習データのいずれかに類似する場合に、深さ情報に関連付けられた画像に表された物体は、ティーポット２２であると認識されるようにしてもよい。

　なお図３Ａ～図３Ｃ、及び、図４Ａ～図４Ｃでは、１の物体について３個の学習データが生成される例を説明したが、１の物体について、より多い、あるいは、より少ない数の学習データが生成されてもよい。また例えば横からや前からや後からだけでなく、上からや下からも含むあらゆる向きのそれぞれに対応する、当該向きから物体を見た際に可視である部分に対応付けられる学習データ（例えば２４個の学習データ）が生成されるようにしてもよい。

　また例えば、対称性から一部の学習データの生成が省略されるようにしてもよい。具体的には例えば、左右対称な物体については、左から見た際に可視である部分又は右から見た際に可視である部分のいずれか一方のみの学習データが生成されるようにしてもよい。また例えば、類似する学習データが複数生成された場合に、これらの学習データのうちの１つだけが機械学習モデルの学習に用いられるようにしてもよい。

　深さ情報に関連付けられた画像に対応付けられる認識対象データが表す形状と物体の完全な三次元形状との間には大きな差異がある。そのため例えば図２に示されているような物体の完全な三次元形状を表す三次元データを学習データとした学習が実行された機械学習モデルを用いると、深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できないことがあった。

　このことを踏まえ、本実施形態では上述のようにして、それぞれ互いに異なる物体の一部を表す学習データによる学習が実行された機械学習モデルを用いて、深さ情報に関連付けられた画像に表された物体が何であるかの認識が行われるようにした。このようにして本実施形態によれば、深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できることとなる。

　以下、本実施形態に係る情報処理装置１０の機能、及び、情報処理装置１０で実行される処理についてさらに説明する。

　図５は、本実施形態に係る情報処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置１０で、図５に示す機能のすべてが実装される必要はなく、また、図５に示す機能以外の機能が実装されていても構わない。

　図５に示すように、情報処理装置１０は、機能的には例えば、機械学習モデル３０、物体データ取得部３２、学習データ生成部３４、学習部３６、画像取得部３８、認識対象データ生成部４０、認識部４２、を含んでいる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。本実施形態に係る情報処理装置１０は、機械学習モデル３０の学習を実行する学習装置としての役割、及び、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識装置の役割の両方を担っている。機械学習モデル３０、物体データ取得部３２、学習データ生成部３４、及び、学習部３６が学習装置の機能に相当する。機械学習モデル３０、画像取得部３８、認識対象データ生成部４０、及び、認識部４２が、認識装置の機能に相当する。

　以上の機能は、コンピュータである情報処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して情報処理装置１０に供給されてもよい。

　機械学習モデル３０は、本実施形態では例えば、二次元畳み込みニューラルネットワーク（二次元ＣＮＮ）や三次元畳込みニューラルネットワーク（三次元ＣＮＮ）等の機械学習モデルである。

　物体データ取得部３２は、本実施形態では例えば、学習データの基礎となる、図２に例示するような物体を表す三次元データを取得する。

　学習データ生成部３４は、本実施形態では例えば、物体データ取得部３２が取得する三次元データに基づいて、それぞれ互いに異なる物体の一部を表す学習データを複数生成する。ここで例えば、物体が配置される仮想空間２０内の互いに異なる複数の位置のそれぞれについて、当該位置から可視である当該物体の一部を表す学習データが生成されるようにしてもよい。

　学習部３６は、本実施形態では例えば、学習データ生成部３４が生成する学習データを物体の学習データとした機械学習モデル３０の学習を実行する。

　画像取得部３８は、本実施形態では例えば、表された物体が何であるかを認識する対象となる深さ情報に関連付けられた画像を取得する。

　認識対象データ生成部４０は、本実施形態では例えば、画像取得部３８が取得する、深さ情報に関連付けられた画像に基づいて、学習済の機械学習モデル３０に入力される認識対象データを生成する。

　認識部４２は、本実施形態では例えば、画像取得部３８が取得する深さ情報に関連付けられた画像に対応付けられる認識対象データを学習済モデルに入力した際の出力に基づいて、当該画像に表された物体が何であるかを認識する。

　ここで例えば機械学習モデル３０が三次元ＣＮＮである場合に、学習データ生成部３４が、ボクセルデータ、ポイントクラウド、ワイヤフレーム、ポリゴン、サーフェス、ソリッド等の三次元データである学習データを生成してもよい。そしてこの場合に学習部３６が、生成される三次元データを学習データとした三次元ＣＮＮの学習を実行してもよい。

　そしてこの場合に、認識対象データ生成部４０が、画像取得部３８が取得する、深さ情報に関連付けられた画像に基づいて、ボクセルデータ、ワイヤフレーム、ポリゴン、サーフェス、ソリッド等の三次元データを生成するようにしてもよい。そして認識部４２が、三次元データである認識対象データを学習済の三次元ＣＮＮに入力した際の出力に基づいて、画像取得部３８が取得する深さ情報に関連付けられた画像に表された物体が何であるかを認識してもよい。

　また例えば機械学習モデル３０が二次元ＣＮＮである場合に、学習データ生成部３４が、深さ情報に関連付けられた二次元画像（例えば、デプス画像付き二次元画像）である学習データを生成してもよい。そしてこの場合に学習部３６が、生成される画像を学習データとした二次元ＣＮＮの学習を実行してもよい。

　そしてこの場合に、認識部４２が、画像取得部３８が取得する深さ情報に関連付けられた画像を学習済の二次元ＣＮＮに入力した際の出力に基づいて、画像取得部３８が取得する深さ情報に関連付けられた画像に表された物体が何であるかを認識してもよい。この場合は、認識対象データ生成部４０による認識対象データの生成は行われず、画像取得部３８が取得する深さ情報に関連付けられた画像自体が、当該画像に対応付けられる認識対象データとして取り扱われることとなる。すなわちこの場合は、深さ情報に関連付けられた画像自体が、当該画像に対応付けられる認識対象データとして学習済の機械学習モデル３０に入力されることとなる。

　ここで、本実施形態に係る情報処理装置１０で行われる学習処理の流れの一例を、図６に例示するフロー図を参照しながら説明する。

　まず、物体データ取得部３２が、学習データの基礎となる三次元データを取得する（Ｓ１０１）。

　そして学習データ生成部３４が、Ｓ１０１に示す処理で取得された三次元データに基づいて、当該三次元データが表す物体に対応付けられる複数の学習データを生成する（Ｓ１０２）。ここで上述のように、複数の学習データのそれぞれは、Ｓ１０１に示す処理で取得された三次元データが表す物体の互いに異なる一部を表すものである。

　そして学習部３６が、Ｓ１０２に示す処理で生成された学習データをＳ１０１に示す処理で取得された三次元データが表す物体の学習データとした、機械学習モデル３０の学習を実行する（Ｓ１０３）。

　ここで大量の物体について、当該物体を表す三次元データを用いたＳ１０１～Ｓ１０３に示す学習が実行されるようにしてもよい。

　次に、本実施形態に係る情報処理装置１０で行われる認識処理の流れの一例を、図７に例示するフロー図を参照しながら説明する。

　まず、画像取得部３８が、認識の対象となる深さ情報が関連付けられた画像を取得する（Ｓ２０１）。

　そして認識対象データ生成部４０が、Ｓ２０１に示す処理で取得された画像に基づいて、認識対象データを生成する（Ｓ２０２）。

　そして認識部４２が、Ｓ２０２に示す処理で生成された認識対象データを学習済の機械学習モデル３０に入力した際の出力に基づいて、Ｓ２０１に示す処理で取得された画像に表された物体を認識する（Ｓ２０３）。

　ここで上述のように、Ｓ２０２に示す処理が実行されなくてもよい。そしてこの場合にＳ２０３に示す処理で、Ｓ２０１に示す処理で取得された深さ情報に関連付けられた画像を当該画像に対応付けられる認識対象データとして学習済の機械学習モデル３０に入力した際の出力に基づいて、当該画像に表された物体が認識されてもよい。

　なお、本発明は上述の実施形態に限定されるものではない。

　また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

　深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行する学習装置であって、
　物体を表す三次元データを取得する三次元データ取得部と、
　前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成する学習データ生成部と、
　生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行する学習部と、
　を含むことを特徴とする学習装置。
　前記学習データ生成部は、前記物体が配置される仮想空間内の互いに異なる複数の位置のそれぞれについて、当該位置から可視である当該物体の一部を表す学習データを生成する、
　ことを特徴とする請求項１に記載の学習装置。
　前記学習装置は、認識対象データとして深さ情報に関連付けられた画像に基づいて生成される三次元データが入力される前記機械学習モデルの学習を実行する学習装置であって、
　前記学習データ生成部は、三次元データである前記学習データを生成し、
　前記学習部は、生成される前記三次元データを前記物体の学習データとした前記機械学習モデルの学習を実行する、
　ことを特徴とする請求項１又は２に記載の学習装置。
　前記学習装置は、認識対象データとして深さ情報に関連付けられた画像が入力される前記機械学習モデルの学習を実行する学習装置であって、
　前記学習データ生成部は、深さ情報に関連付けられた画像である前記学習データを生成し、
　前記学習部は、生成される前記深さ情報に関連付けられた画像を前記物体の学習データとした前記機械学習モデルの学習を実行する、
　ことを特徴とする請求項１又は２に記載の学習装置。
　深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識装置であって、
　物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルと、
　前記画像に対応付けられる認識対象データを前記学習済モデルに入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識する認識部と、
　を含むことを特徴とする認識装置。
　深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行する学習方法であって、
　物体を表す三次元データを取得するステップと、
　前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成するステップと、
　生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行するステップと、
　を含むことを特徴とする学習方法。
　深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識方法であって、
　物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルに前記画像に対応付けられる認識対象データを入力するステップと、
　前記学習済モデルに前記認識対象データを入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識するステップと、
　を含むことを特徴とする認識方法。
　深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行するプログラムであって、
　物体を表す三次元データを取得する手順、
　前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成する手順、
　生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行する手順、
　をコンピュータに実行させることを特徴とするプログラム。
　深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行するプログラムであって、
　物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルに前記画像に対応付けられる認識対象データを入力する手順、
　前記学習済モデルに前記認識対象データを入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識する手順、
　をコンピュータに実行させることを特徴とするプログラム。