JPWO2019021456A1 - 学習装置、認識装置、学習方法、認識方法及びプログラム - Google Patents

学習装置、認識装置、学習方法、認識方法及びプログラム Download PDF

Info

Publication number
JPWO2019021456A1
JPWO2019021456A1 JP2019532319A JP2019532319A JPWO2019021456A1 JP WO2019021456 A1 JPWO2019021456 A1 JP WO2019021456A1 JP 2019532319 A JP2019532319 A JP 2019532319A JP 2019532319 A JP2019532319 A JP 2019532319A JP WO2019021456 A1 JPWO2019021456 A1 JP WO2019021456A1
Authority
JP
Japan
Prior art keywords
learning
data
image
depth information
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019532319A
Other languages
English (en)
Other versions
JP6911123B2 (ja
Inventor
勉 堀川
勉 堀川
大地 小野
大地 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2019021456A1 publication Critical patent/JPWO2019021456A1/ja
Application granted granted Critical
Publication of JP6911123B2 publication Critical patent/JP6911123B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できる学習装置、認識装置、学習方法、認識方法及びプログラムを提供する。物体データ取得部(32)は、物体を表す三次元データを取得する。学習データ生成部(34)は、三次元データに基づいて、それぞれ互いに異なる物体の一部を表す学習データを複数生成する。学習部(36)は、生成される学習データを物体の学習データとした機械学習モデル(30)の学習を実行する。

Description

本発明は、学習装置、認識装置、学習方法、認識方法及びプログラムに関する。
ボクセルデータ等の三次元データに対して三次元畳み込みニューラルネットワーク等の学習済モデルを用いた認識処理を実行することで、当該三次元データが表す物体が何であるかを認識する技術が知られている。
例えば深さ情報に関連付けられた画像に基づいて生成される三次元データを上述の学習済モデルに入力した際の出力に基づいて、当該画像が表す物体が何であるかを認識することが考えられる。
しかし、深さ情報に関連付けられた画像に表れていない部分については、当該画像に基づいて生成される三次元データには表れない。そのためこのようにして生成される三次元データは、物体の完全な三次元形状を表すものではないこととなる。
そのため、認識に用いられる学習済モデルが物体の完全な三次元形状を表す三次元データを学習データとした学習が実行されたものである場合は、深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できないことがあった。
本発明は上記課題に鑑みてなされたものであって、その目的の1つは、深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できる学習装置、認識装置、学習方法、認識方法及びプログラムを提供することにある。
上記課題を解決するために、本発明に係る学習装置は、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行する学習装置であって、物体を表す三次元データを取得する三次元データ取得部と、前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成する学習データ生成部と、生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行する学習部と、を含む。
本発明の一態様では、前記学習データ生成部は、前記物体が配置される仮想空間内の互いに異なる複数の位置のそれぞれについて、当該位置から可視である当該物体の一部を表す学習データを生成する。
また、本発明の一態様では、前記学習装置は、認識対象データとして深さ情報に関連付けられた画像に基づいて生成される三次元データが入力される前記機械学習モデルの学習を実行する学習装置であって、前記学習データ生成部は、三次元データである前記学習データを生成し、前記学習部は、生成される前記三次元データを前記物体の学習データとした前記機械学習モデルの学習を実行する。
あるいは、前記学習装置は、認識対象データとして深さ情報に関連付けられた画像が入力される前記機械学習モデルの学習を実行する学習装置であって、前記学習データ生成部は、深さ情報に関連付けられた画像である前記学習データを生成し、前記学習部は、生成される前記深さ情報に関連付けられた画像を前記物体の学習データとした前記機械学習モデルの学習を実行する。
また、本発明に係る認識装置は、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識装置であって、物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルと、前記画像に対応付けられる認識対象データを前記学習済モデルに入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識する認識部と、を含む。
また、本発明に係る学習方法は、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行する学習方法であって、物体を表す三次元データを取得するステップと、前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成するステップと、生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行するステップと、を含む。
また、本発明に係る認識方法は、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識方法であって、物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルに前記画像に対応付けられる認識対象データを入力するステップと、前記学習済モデルに前記認識対象データを入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識するステップと、を含む。
また、本発明に係るプログラムは、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行するプログラムであって、物体を表す三次元データを取得する手順、前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成する手順、生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行する手順、をコンピュータに実行させる。
また、本発明に係る別のプログラムは、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行するプログラムであって、物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルに前記画像に対応付けられる認識対象データを入力する手順、前記学習済モデルに前記認識対象データを入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識する手順、をコンピュータに実行させる。
本発明の一実施形態に係る情報処理装置の構成図である。 機械学習モデルに学習させる物体が仮想空間に配置されている様子の一例を示す図である。 第1部分の一例を示す図である。 第2部分の一例を示す図である。 第3部分の一例を示す図である。 第1二次元画像の一例を示す図である。 第2二次元画像の一例を示す図である。 第3二次元画像の一例を示す図である。 本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。 本発明の一実施形態に係る情報処理装置で行われる学習処理の流れの一例を示すフロー図である。 本発明の一実施形態に係る情報処理装置で行われる認識処理の流れの一例を示すフロー図である。
以下、本発明の一実施形態について図面に基づき詳細に説明する。
図1は、本発明の一実施形態に係る情報処理装置10の構成図である。本実施形態に係る情報処理装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図1に示すように、本実施形態に係る情報処理装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
プロセッサ12は、例えば情報処理装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
なお、情報処理装置10は、ネットワークボードなどの通信インタフェース、DVD−ROMやBlu−ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
本実施形態に係る情報処理装置10では、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理が実行される。
ここで認識対象となる上述の画像は、ステレオカメラや赤外線測距センサ付きのカメラなどにより撮影される、デプス画像に関連付けられた撮影画像であってもよい。
また例えば、複数の方向から被写体を撮影した撮影画像に基づいて、撮影画像を撮影した際のカメラの位置、向き、及び、画角に対応付けられる深さ情報が生成されるようにしてもよい。
そして本実施形態では二次元畳み込みニューラルネットワーク(二次元CNN)や三次元畳み込みニューラルネットワーク(三次元CNN)などの機械学習モデルを用いて、上述の画像に表された物体が何であるかの認識が実行される。
図2は、上述の機械学習モデルに学習させる物体が仮想空間20に配置されている様子の一例を示す図である。図2には、機械学習モデルに学習させる物体の一例として、位置とボクセル値とが対応付けられたボクセルデータで表現されたティーポット22が示されている。ここで物体を表す三次元データの表現形式はボクセルデータに限定されない。例えばワイヤフレーム、ポリゴン、サーフェス、ソリッドなどで物体が表現されてもよい。また例えばポイントクラウド(点群)で物体が表現されてもよい。また物体を表す三次元データには、三次元空間内の位置に関連付けられた、グレースケールの階調値やRGB値などといった当該位置における色の情報が含まれていてもよい。
そして本実施形態では、図2に示す仮想空間20内における互いに異なる複数の位置のそれぞれから物体を見た際に可視である部分に対応付けられる学習データが生成される。例えば図2に示す仮想カメラ24が物体を撮影した画像に表される部分に対応付けられる学習データが生成される。
図2には、一例として3つの仮想カメラ24(24a,24b,及び24c)が示されている。ここで仮想カメラ24aによって、例えばティーポット22を左から見た様子を表す画像が生成されてもよい。また仮想カメラ24bによって、例えばティーポット22を前から見た様子を表す画像が生成されてもよい。また仮想カメラ24cによって、例えばティーポット22を後ろから見た様子を表す画像が生成されてもよい。図3Aには、仮想カメラ24aが物体を撮影した画像に表される部分である第1部分26aが示されている。図3Bには、仮想カメラ24bが物体を撮影した画像に表される部分である第2部分26bが示されている。そして図3Cには、仮想カメラ24cが物体を撮影した画像に表される部分である第3部分26cが示されている。
そして本実施形態では、第1部分26a、第2部分26b、第3部分26cのそれぞれに対応付けられる学習データを物体(ここでは例えばティーポット22)の学習データとした機械学習モデルの学習が実行される。例えば、第1部分26aや第2部分26bや第3部分26cを表すボクセルデータ等の三次元データを入力データとして含み物体の名称(例えば「ティーポット」)を教師データとして含む学習データによる機械学習モデルの学習が実行されてもよい。
ここで物体を表すデータの表現形式と同様、学習データの表現形式は位置とボクセル値とが対応付けられたボクセルデータに限定されない。例えばワイヤフレーム、ポリゴン、サーフェス、ソリッドなどの三次元データで学習データが表現されてもよい。また例えば点群(ポイントクラウド)で学習データが表現されてもよい。また学習データには、三次元空間内の位置に関連付けられた、グレースケールの階調値やRGB値などといった当該位置における色の情報が含まれていてもよい。
また以下で説明するように、例えば、仮想カメラ24から物体を見た様子を表す、深さ情報に関連付けられた二次元画像28が学習データとして用いられてもよい。ここで学習データとして用いられる二次元画像28には、グレースケールの階調値やRGB値などといった各画素の色の情報が含まれていてもよい。
図4A〜図4Cには、それぞれ、仮想カメラ24aから物体を見た様子を表す第1二次元画像28a、仮想カメラ24bから物体を見た様子を表す第2二次元画像28b、仮想カメラ24cから物体を見た様子を表す第3二次元画像28cが示されている。
そして例えば、第1二次元画像28aとともに、第1二次元画像28aに含まれる画素のそれぞれに対応付けられる、仮想カメラ24aから被写体までの距離の分布を表す第1デプス画像が生成されてもよい。そして第1デプス画像に関連付けられた第1二次元画像28aを学習データとした機械学習モデルの学習が実行されてもよい。ここで例えば、第1二次元画像28a及び第1デプス画像を入力データとして含み物体の名称を教師データとして含む学習データによる機械学習モデルの学習が実行されてもよい。
また例えば、第2二次元画像28bとともに、第2二次元画像28bに含まれる画素のそれぞれに対応付けられる、仮想カメラ24bから被写体までの距離の分布を表す第2デプス画像が生成されてもよい。そして第2デプス画像に関連付けられた第2二次元画像28bを学習データとした機械学習モデルの学習が実行されてもよい。ここで例えば、第2二次元画像28b及び第2デプス画像を入力データとして含み物体の名称を教師データとして含む学習データによる機械学習モデルの学習が実行されてもよい。
また例えば、第3二次元画像28cとともに、第3二次元画像28cに含まれる画素のそれぞれに対応付けられる、仮想カメラ24cから被写体までの距離の分布を表す第3デプス画像が生成されてもよい。そして第3デプス画像に関連付けられた第3二次元画像28cを学習データとした機械学習モデルの学習が実行されてもよい。ここで例えば、第3二次元画像28c及び第3デプス画像を入力データとして含み物体の名称を教師データとして含む学習データによる機械学習モデルの学習が実行されてもよい。
そして本実施形態では例えば、複数の物体について、上述のようにして学習が実行された学習済の機械学習モデルに、認識対象データが入力された際の出力に基づいて、深さ情報に関連付けられた画像が表す物体が何であるかが認識される。ここで当該画像には、グレースケールの階調値やRGB値などといった各画素の色の情報が含まれていてもよい。
ここで例えば、ボクセルデータなどの三次元データを学習データとした学習が実行された場合は、深さ情報に関連付けられた画像に基づいて生成される三次元データが、学習済の機械学習モデルに入力される認識対象データとして用いられてもよい。ここで認識対象データとして用いられる三次元データには、三次元空間内の位置に関連付けられた、グレースケールの階調値やRGB値などといった当該位置における色の情報が含まれていてもよい。
また例えば、二次元画像及びデプス画像などといった、深さ情報に関連付けられた画像を学習データとした学習が実行された場合は、深さ情報に関連付けられた画像自体が、学習済の機械学習モデルに入力される認識対象データとして用いられてもよい。
ここで本実施形態では上述のように、1の物体について複数の学習データによる学習が実行される。ここで例えば認識対象データがティーポット22に対応付けられる複数の学習データのいずれかに類似する場合に、深さ情報に関連付けられた画像に表された物体は、ティーポット22であると認識されるようにしてもよい。
なお図3A〜図3C、及び、図4A〜図4Cでは、1の物体について3個の学習データが生成される例を説明したが、1の物体について、より多い、あるいは、より少ない数の学習データが生成されてもよい。また例えば横からや前からや後からだけでなく、上からや下からも含むあらゆる向きのそれぞれに対応する、当該向きから物体を見た際に可視である部分に対応付けられる学習データ(例えば24個の学習データ)が生成されるようにしてもよい。
また例えば、対称性から一部の学習データの生成が省略されるようにしてもよい。具体的には例えば、左右対称な物体については、左から見た際に可視である部分又は右から見た際に可視である部分のいずれか一方のみの学習データが生成されるようにしてもよい。また例えば、類似する学習データが複数生成された場合に、これらの学習データのうちの1つだけが機械学習モデルの学習に用いられるようにしてもよい。
深さ情報に関連付けられた画像に対応付けられる認識対象データが表す形状と物体の完全な三次元形状との間には大きな差異がある。そのため例えば図2に示されているような物体の完全な三次元形状を表す三次元データを学習データとした学習が実行された機械学習モデルを用いると、深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できないことがあった。
このことを踏まえ、本実施形態では上述のようにして、それぞれ互いに異なる物体の一部を表す学習データによる学習が実行された機械学習モデルを用いて、深さ情報に関連付けられた画像に表された物体が何であるかの認識が行われるようにした。このようにして本実施形態によれば、深さ情報に関連付けられた画像に表された物体が何であるかを的確に認識できることとなる。
以下、本実施形態に係る情報処理装置10の機能、及び、情報処理装置10で実行される処理についてさらに説明する。
図5は、本実施形態に係る情報処理装置10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置10で、図5に示す機能のすべてが実装される必要はなく、また、図5に示す機能以外の機能が実装されていても構わない。
図5に示すように、情報処理装置10は、機能的には例えば、機械学習モデル30、物体データ取得部32、学習データ生成部34、学習部36、画像取得部38、認識対象データ生成部40、認識部42、を含んでいる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。本実施形態に係る情報処理装置10は、機械学習モデル30の学習を実行する学習装置としての役割、及び、深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識装置の役割の両方を担っている。機械学習モデル30、物体データ取得部32、学習データ生成部34、及び、学習部36が学習装置の機能に相当する。機械学習モデル30、画像取得部38、認識対象データ生成部40、及び、認識部42が、認識装置の機能に相当する。
以上の機能は、コンピュータである情報処理装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して情報処理装置10に供給されてもよい。
機械学習モデル30は、本実施形態では例えば、二次元畳み込みニューラルネットワーク(二次元CNN)や三次元畳込みニューラルネットワーク(三次元CNN)等の機械学習モデルである。
物体データ取得部32は、本実施形態では例えば、学習データの基礎となる、図2に例示するような物体を表す三次元データを取得する。
学習データ生成部34は、本実施形態では例えば、物体データ取得部32が取得する三次元データに基づいて、それぞれ互いに異なる物体の一部を表す学習データを複数生成する。ここで例えば、物体が配置される仮想空間20内の互いに異なる複数の位置のそれぞれについて、当該位置から可視である当該物体の一部を表す学習データが生成されるようにしてもよい。
学習部36は、本実施形態では例えば、学習データ生成部34が生成する学習データを物体の学習データとした機械学習モデル30の学習を実行する。
画像取得部38は、本実施形態では例えば、表された物体が何であるかを認識する対象となる深さ情報に関連付けられた画像を取得する。
認識対象データ生成部40は、本実施形態では例えば、画像取得部38が取得する、深さ情報に関連付けられた画像に基づいて、学習済の機械学習モデル30に入力される認識対象データを生成する。
認識部42は、本実施形態では例えば、画像取得部38が取得する深さ情報に関連付けられた画像に対応付けられる認識対象データを学習済モデルに入力した際の出力に基づいて、当該画像に表された物体が何であるかを認識する。
ここで例えば機械学習モデル30が三次元CNNである場合に、学習データ生成部34が、ボクセルデータ、ポイントクラウド、ワイヤフレーム、ポリゴン、サーフェス、ソリッド等の三次元データである学習データを生成してもよい。そしてこの場合に学習部36が、生成される三次元データを学習データとした三次元CNNの学習を実行してもよい。
そしてこの場合に、認識対象データ生成部40が、画像取得部38が取得する、深さ情報に関連付けられた画像に基づいて、ボクセルデータ、ワイヤフレーム、ポリゴン、サーフェス、ソリッド等の三次元データを生成するようにしてもよい。そして認識部42が、三次元データである認識対象データを学習済の三次元CNNに入力した際の出力に基づいて、画像取得部38が取得する深さ情報に関連付けられた画像に表された物体が何であるかを認識してもよい。
また例えば機械学習モデル30が二次元CNNである場合に、学習データ生成部34が、深さ情報に関連付けられた二次元画像(例えば、デプス画像付き二次元画像)である学習データを生成してもよい。そしてこの場合に学習部36が、生成される画像を学習データとした二次元CNNの学習を実行してもよい。
そしてこの場合に、認識部42が、画像取得部38が取得する深さ情報に関連付けられた画像を学習済の二次元CNNに入力した際の出力に基づいて、画像取得部38が取得する深さ情報に関連付けられた画像に表された物体が何であるかを認識してもよい。この場合は、認識対象データ生成部40による認識対象データの生成は行われず、画像取得部38が取得する深さ情報に関連付けられた画像自体が、当該画像に対応付けられる認識対象データとして取り扱われることとなる。すなわちこの場合は、深さ情報に関連付けられた画像自体が、当該画像に対応付けられる認識対象データとして学習済の機械学習モデル30に入力されることとなる。
ここで、本実施形態に係る情報処理装置10で行われる学習処理の流れの一例を、図6に例示するフロー図を参照しながら説明する。
まず、物体データ取得部32が、学習データの基礎となる三次元データを取得する(S101)。
そして学習データ生成部34が、S101に示す処理で取得された三次元データに基づいて、当該三次元データが表す物体に対応付けられる複数の学習データを生成する(S102)。ここで上述のように、複数の学習データのそれぞれは、S101に示す処理で取得された三次元データが表す物体の互いに異なる一部を表すものである。
そして学習部36が、S102に示す処理で生成された学習データをS101に示す処理で取得された三次元データが表す物体の学習データとした、機械学習モデル30の学習を実行する(S103)。
ここで大量の物体について、当該物体を表す三次元データを用いたS101〜S103に示す学習が実行されるようにしてもよい。
次に、本実施形態に係る情報処理装置10で行われる認識処理の流れの一例を、図7に例示するフロー図を参照しながら説明する。
まず、画像取得部38が、認識の対象となる深さ情報が関連付けられた画像を取得する(S201)。
そして認識対象データ生成部40が、S201に示す処理で取得された画像に基づいて、認識対象データを生成する(S202)。
そして認識部42が、S202に示す処理で生成された認識対象データを学習済の機械学習モデル30に入力した際の出力に基づいて、S201に示す処理で取得された画像に表された物体を認識する(S203)。
ここで上述のように、S202に示す処理が実行されなくてもよい。そしてこの場合にS203に示す処理で、S201に示す処理で取得された深さ情報に関連付けられた画像を当該画像に対応付けられる認識対象データとして学習済の機械学習モデル30に入力した際の出力に基づいて、当該画像に表された物体が認識されてもよい。
なお、本発明は上述の実施形態に限定されるものではない。
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (9)

  1. 深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行する学習装置であって、
    物体を表す三次元データを取得する三次元データ取得部と、
    前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成する学習データ生成部と、
    生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行する学習部と、
    を含むことを特徴とする学習装置。
  2. 前記学習データ生成部は、前記物体が配置される仮想空間内の互いに異なる複数の位置のそれぞれについて、当該位置から可視である当該物体の一部を表す学習データを生成する、
    ことを特徴とする請求項1に記載の学習装置。
  3. 前記学習装置は、認識対象データとして深さ情報に関連付けられた画像に基づいて生成される三次元データが入力される前記機械学習モデルの学習を実行する学習装置であって、
    前記学習データ生成部は、三次元データである前記学習データを生成し、
    前記学習部は、生成される前記三次元データを前記物体の学習データとした前記機械学習モデルの学習を実行する、
    ことを特徴とする請求項1又は2に記載の学習装置。
  4. 前記学習装置は、認識対象データとして深さ情報に関連付けられた画像が入力される前記機械学習モデルの学習を実行する学習装置であって、
    前記学習データ生成部は、深さ情報に関連付けられた画像である前記学習データを生成し、
    前記学習部は、生成される前記深さ情報に関連付けられた画像を前記物体の学習データとした前記機械学習モデルの学習を実行する、
    ことを特徴とする請求項1又は2に記載の学習装置。
  5. 深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識装置であって、
    物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルと、
    前記画像に対応付けられる認識対象データを前記学習済モデルに入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識する認識部と、
    を含むことを特徴とする認識装置。
  6. 深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行する学習方法であって、
    物体を表す三次元データを取得するステップと、
    前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成するステップと、
    生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行するステップと、
    を含むことを特徴とする学習方法。
  7. 深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行する認識方法であって、
    物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルに前記画像に対応付けられる認識対象データを入力するステップと、
    前記学習済モデルに前記認識対象データを入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識するステップと、
    を含むことを特徴とする認識方法。
  8. 深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理に用いられる機械学習モデルの学習を実行するプログラムであって、
    物体を表す三次元データを取得する手順、
    前記三次元データに基づいて、それぞれ互いに異なる前記物体の一部を表す学習データを複数生成する手順、
    生成される前記学習データを前記物体の学習データとした前記機械学習モデルの学習を実行する手順、
    をコンピュータに実行させることを特徴とするプログラム。
  9. 深さ情報に関連付けられた画像に表された物体が何であるかを認識する処理を実行するプログラムであって、
    物体を表す三次元データに基づいて生成されるそれぞれ互いに異なる前記物体の一部を表す学習データを前記物体の学習データとして学習した学習済モデルに前記画像に対応付けられる認識対象データを入力する手順、
    前記学習済モデルに前記認識対象データを入力した際の出力に基づいて、前記深さ情報に関連付けられた画像に表された物体が何であるかを認識する手順、
    をコンピュータに実行させることを特徴とするプログラム。
JP2019532319A 2017-07-28 2017-07-28 学習装置、認識装置、学習方法、認識方法及びプログラム Active JP6911123B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/027419 WO2019021456A1 (ja) 2017-07-28 2017-07-28 学習装置、認識装置、学習方法、認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2019021456A1 true JPWO2019021456A1 (ja) 2019-12-12
JP6911123B2 JP6911123B2 (ja) 2021-07-28

Family

ID=65040520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019532319A Active JP6911123B2 (ja) 2017-07-28 2017-07-28 学習装置、認識装置、学習方法、認識方法及びプログラム

Country Status (4)

Country Link
US (1) US11681910B2 (ja)
JP (1) JP6911123B2 (ja)
CN (1) CN110945537B (ja)
WO (1) WO2019021456A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7267068B2 (ja) * 2019-03-29 2023-05-01 三井情報株式会社 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム
JP6719168B1 (ja) * 2019-09-03 2020-07-08 裕樹 有光 教師データとしてのデプス画像にラベルを付与するプログラム、装置及び方法
CN112613551A (zh) * 2020-12-17 2021-04-06 东风汽车有限公司 汽车零部件识别方法、存储介质及系统
CN113240637B (zh) * 2021-05-11 2023-03-24 杭州钱塘智慧城投资开发有限公司 一种基于机器学习的墙面平整度信息化检测方法和系统
WO2023286847A1 (ja) * 2021-07-15 2023-01-19 京セラ株式会社 認識モデル生成方法及び認識モデル生成装置
US20230131418A1 (en) * 2021-10-22 2023-04-27 Samsung Electronics Co., Ltd. Two-dimensional (2d) feature database generation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519052A (ja) * 1991-05-08 1993-01-26 Nippon Telegr & Teleph Corp <Ntt> ニユーラルネツトワークによる3次元物体の認識方法
JP2003346152A (ja) * 2002-05-24 2003-12-05 Sony Corp 物体認識装置及び方法並びにロボット装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5249569B2 (ja) 1973-05-22 1977-12-17
DE8900142U1 (de) * 1989-01-07 1990-05-10 Robert Bosch Gmbh, 7000 Stuttgart Träger für Sensoren
EP2750382B1 (en) * 2011-08-26 2017-06-28 Panasonic Intellectual Property Management Co., Ltd. Driving assistance apparatus
KR101919831B1 (ko) 2012-01-11 2018-11-19 삼성전자주식회사 오브젝트 인식 장치, 분류 트리 학습 장치 및 그 동작 방법
US9432720B2 (en) * 2013-12-09 2016-08-30 Empire Technology Development Llc Localized audio source extraction from video recordings
US10289962B2 (en) * 2014-06-06 2019-05-14 Google Llc Training distilled machine learning models
US20160342861A1 (en) * 2015-05-21 2016-11-24 Mitsubishi Electric Research Laboratories, Inc. Method for Training Classifiers to Detect Objects Represented in Images of Target Environments
US10096151B2 (en) * 2015-07-07 2018-10-09 Varian Medical Systems International Ag Methods and systems for three-dimensional visualization of deviation of volumetric structures with colored surface structures
EP3179407B1 (en) * 2015-12-07 2022-07-13 Dassault Systèmes Recognition of a 3d modeled object from a 2d image
CN106228177A (zh) 2016-06-30 2016-12-14 浙江大学 基于卷积神经网络的日常生活物体图像识别方法
US20180136332A1 (en) * 2016-11-15 2018-05-17 Wheego Electric Cars, Inc. Method and system to annotate objects and determine distances to objects in an image
KR20180057096A (ko) * 2016-11-21 2018-05-30 삼성전자주식회사 표정 인식과 트레이닝을 수행하는 방법 및 장치
US10417781B1 (en) * 2016-12-30 2019-09-17 X Development Llc Automated data capture
US20180189228A1 (en) * 2017-01-04 2018-07-05 Qualcomm Incorporated Guided machine-learning training using a third party cloud-based system
CN117709426A (zh) * 2017-02-24 2024-03-15 渊慧科技有限公司 训练机器学习模型的方法、系统和计算机存储介质
CN115486877A (zh) * 2017-05-12 2022-12-20 深圳迈瑞生物医疗电子股份有限公司 一种超声设备及其显示三维超声图像的方法
US10169874B2 (en) * 2017-05-30 2019-01-01 International Business Machines Corporation Surface-based object identification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519052A (ja) * 1991-05-08 1993-01-26 Nippon Telegr & Teleph Corp <Ntt> ニユーラルネツトワークによる3次元物体の認識方法
JP2003346152A (ja) * 2002-05-24 2003-12-05 Sony Corp 物体認識装置及び方法並びにロボット装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
池谷 健 他: "Deep Convolutional Neural Networkを用いた物体の3軸回転に頑強な3次", VISUAL COMPUTING グラフィクスとCAD合同シンポジウム2016 予稿集, JPN6017039526, 19 June 2016 (2016-06-19), JP, pages 105 - 111, ISSN: 0004379149 *
金井 廉 他: "立体フィルタを用いた畳み込みニューラルネットワークによる三次元物体認識", 第78回(平成28年)全国大会講演論文集(2) 人工知能と認知科学, JPN6017039527, 10 March 2016 (2016-03-10), JP, pages 2 - 37, ISSN: 0004379150 *

Also Published As

Publication number Publication date
US11681910B2 (en) 2023-06-20
JP6911123B2 (ja) 2021-07-28
US20200193632A1 (en) 2020-06-18
CN110945537A (zh) 2020-03-31
WO2019021456A1 (ja) 2019-01-31
CN110945537B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
JP6911123B2 (ja) 学習装置、認識装置、学習方法、認識方法及びプログラム
US10977496B2 (en) Virtualization of tangible interface objects
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
US9652895B2 (en) Augmented reality image transformation
CN109859305B (zh) 基于多角度二维人脸的三维人脸建模、识别方法及装置
CN106663334B (zh) 通过计算装置执行的方法、移动通信装置和存储介质
CN107484428B (zh) 用于显示对象的方法
EP3992919B1 (en) Three-dimensional facial model generation method and apparatus, device, and medium
JP2018109984A5 (ja)
JP2009080578A (ja) 多視点データ生成装置、方法及びプログラム
JP4851504B2 (ja) デジタル・イメージ・キャプチャを用いて対話型エンタテインメントのためにアセットを生成する方法
JP5756322B2 (ja) 情報処理プログラム、情報処理方法、情報処理装置および情報処理システム
US20180189955A1 (en) Augumented reality (ar) method and system enhanced through efficient edge detection of image objects
US11989900B2 (en) Object recognition neural network for amodal center prediction
WO2021048985A1 (ja) 画像処理装置、画像処理方法、及び、プログラム
JP2018045608A5 (ja)
US20210056337A1 (en) Recognition processing device, recognition processing method, and program
KR20140001168A (ko) Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치
KR20130118105A (ko) 평면 기반의 3차원 공간 표현 방법 및 장치
WO2018179254A1 (ja) 画像生成装置、画像生成方法及びプログラム
JP2016168828A (ja) 印刷データ分割装置及びプログラム
JP6362401B2 (ja) 画像処理装置及び画像処理装置の制御方法
JP2023171298A (ja) 拡張現実及び複合現実のための空間とコンテンツの適合
EP3872768A1 (en) Method for processing two-dimensional image and device for executing method
JP6967150B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210707

R150 Certificate of patent or registration of utility model

Ref document number: 6911123

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150