JPWO2018173108A1 - 関節位置推定装置、関節位置推定方法及び関節位置推定プログラム - Google Patents

関節位置推定装置、関節位置推定方法及び関節位置推定プログラム Download PDF

Info

Publication number
JPWO2018173108A1
JPWO2018173108A1 JP2019506573A JP2019506573A JPWO2018173108A1 JP WO2018173108 A1 JPWO2018173108 A1 JP WO2018173108A1 JP 2019506573 A JP2019506573 A JP 2019506573A JP 2019506573 A JP2019506573 A JP 2019506573A JP WO2018173108 A1 JPWO2018173108 A1 JP WO2018173108A1
Authority
JP
Japan
Prior art keywords
dnn
region
learning
teacher data
joint position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019506573A
Other languages
English (en)
Other versions
JP6826296B2 (ja
Inventor
聡 田辺
聡 田辺
良祐 山中
良祐 山中
充 伴野
充 伴野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2018173108A1 publication Critical patent/JPWO2018173108A1/ja
Application granted granted Critical
Publication of JP6826296B2 publication Critical patent/JP6826296B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

関節の位置の推定精度を高くするために、関節位置推定装置は、メモリと、メモリと接続されるプロセッサとを有し、プロセッサは、第1の教師データの入力を入力画像、前記第1の教師データの正解データを前記入力画像内の動物の部位領域として、第1のディープニューラルネットワーク(以下DNNと称する)の学習を実行し、第2の教師データの入力を、第2の教師データの入力画像内の部位領域及び部位領域を複数結合した複数部位領域の画像とし、第2の教師データの正解データを、前記部位領域及び複数部位領域内の関節位置として、第2のDNNの学習を実行し、第1のDNNの学習で求めた第1のパラメータを設定した第1のDNNにより、処理対象の入力画像データに対する動物の部位領域を推定し、第2のDNNの学習で求めた第2のパラメータを設定した第2のDNNにより、第1のDNNにより推定した部位領域及び部位領域を複数結合した複数部位領域それぞれの第1の関節位置及び第2の関節位置とを推定する。

Description

本発明は,関節位置推定装置、関節位置推定方法及び関節位置推定プログラムに関する。
関節位置の推定装置は、人や動物の画像からその関節の位置を推定する。例えば、体操競技の機械による自動採点は、体操選手の画像からその関節の位置を推定し、各関節の角度情報から点数を評価することで行われる。
画像から人や動物さらに物体を抽出し、抽出物を認識するニューラルネットワークが以下の非特許文献に記載されている。また、人体の関節を推定する方法が、以下の特許文献1−3に記載されている。
一方、ディープラーニングは機械学習の1つの分野である。ディープラーニングでは、機械学習のモデルであるディープニューラルネットワーク(Deep Neural Network: 以下DNNと称する。)に、教師データを与えて学習をさせる。そして、学習によって最適化されたモデルであるDNNは、処理対象の入力(画像、音声、テキストなど)を与えられると、DNNによる演算を実行し、出力を算出または推定する。
特開2015−167008号公報 特開2007−307205号公報 国際公開第2012/046392号
Instance-aware Semantic Segmentation via Multi-task Network Cascades, CVPR, 2016
DNNのモデルを使って、人や動物の画像からその関節の位置を推定する場合、様々な課題に直面する。例えば、画像内の部位が障害物などにより隠れている場合、隠れた部位の関節を推定することはできない。体操競技では、特に鞍馬競技において人の部位が隠れることが多い。このようなオクルージョンの課題を解決する必要がある。
別の課題としては、入力画像に人や動物以外の予期しない画像が含まれている場合、人や動物の関節を高い精度で認識することは困難となり、関節推定の精度が上がらない。
そこで,一つの実施の形態の目的は,関節の位置の推定精度を高くした関節位置推定装置、関節位置推定方法及び関節位置推定プログラムを提供することにある。
本実施の形態の第1の側面は、メモリと、前記メモリと接続されるプロセッサとを有し、前記プロセッサは、
第1の教師データの入力を入力画像、前記第1の教師データの正解データを前記入力画像内の動物の部位領域として、第1のディープニューラルネットワーク(以下DNNと称する)の学習を実行し、
第2の教師データの入力を、第2の教師データの入力画像内の部位領域及び前記部位領域を複数結合した複数部位領域の画像とし、前記第2の教師データの正解データを、前記部位領域及び複数部位領域内の関節位置として、第2のDNNの学習を実行し、
前記第1のDNNの学習で求めた第1のパラメータを設定した第1のDNNにより、処理対象の入力画像データに対する前記動物の部位領域を推定し、
前記第2のDNNの学習で求めた第2のパラメータを設定した第2のDNNにより、前記第1のDNNにより推定した部位領域及び前記部位領域を複数結合した複数部位領域それぞれの第1の関節位置及び第2の関節位置とを推定する、関節位置推定装置である。
第1の側面によれば,入力画像内の人や動物の関節の位置の推定精度を高くできる。
本実施の形態における関節位置推定装置の構成を示す図である。 本実施の形態におけるDNNの構成例を示す図である。 各DNN_nの構成例を示す図である。 DNN_1とDNN_2による推定処理を示す図である。 DNN_3とDNN_4による推定処理を示す図である。 マスキング層を説明するための図である。 マスキング層を説明するための図である。 マスキング層が画像を単数部位領域及び複数部位領域で切り取ることを示す図である。 スケーリング層を説明するための図である。 DNNの学習とその後の処理の概略を示すフローチャート図である。 各DNN_1 - DNN_4それぞれの学習に利用する教師データを生成する処理S31を示す図である。 DNN_1の学習を説明する図である。 本実施の形態の学習方法の一つである確率的勾配降下法またはミニバッチ法の概略を示すフローチャート図である。 DNN_2に入力する人体の画像または人体の特徴量の画像を生成するマスキング層MSK_L1及びスケーリング層SC_L1の処理を示すフローチャート図である。 DNN_2の学習を説明する図である。 マスキング層MSK_L2及びスケーリング層SC_L2の処理を示すフローチャート図である。 DNN_3の学習を説明する図である。 DNN_4の学習を説明する図である。 工程S34の全DNNの学習を説明する図である。
本実施の形態の関節位置推定装置は、人間と人間以外を含む動物が含まれている画像データから、その動物の関節位置を推定する。以下簡単のために、動物の一例である人間の関節位置を推定する例について、本実施の形態を説明する。但し、本実施の形態の関節位置推定装置は、人間以外の動物の関節位置も推定することができる。
[関数位置推定装置の概略]
図1は、本実施の形態における関節位置推定装置の構成を示す図である。関節位置推定装置1は、コンピュータやサーバのような情報処理装置である。関節位置推定装置1は、プロセッサ10と、メインメモリ12と、ネットワークインタフェース14と、大容量の補助記憶装置16とを有する。補助記憶装置16には、DNNプログラム20と、DNNに設定されるDNNのパラメータ22と、DNN学習プログラム24と、DNNの学習に使用する教師データ26とが記憶される。教師データ26は、DNNに入力する入力と、正しい出力である正解値とを有する。そして、DNNプログラム20と、DNNに設定されるDNNのパラメータ22と、DNN学習プログラム24と、DNNの学習に使用する教師データ26とが、メインメモリ12内に展開され、プロセッサが各プログラムを実行する。
ネットワークインタフェース14がネットワークNWに接続され、関節位置推定装置1は、外部の端末装置30,32とネットワークNWを介して通信可能に接続される。
関節位置推定装置1は、ディープラーニングのモデルとして、ディープニューラルネットワーク(DNN)を採用する。関節位置推定装置1は、DNNへの入力データとその正解データとを有する教師データ26を提供される。そして、プロセッサ10は、DNN学習プログラム24を実行し、教師データを使用してDNNの学習を実行し、DNNの最適なパラメータを決定する。さらに、プロセッサは、最適のパラメータをDNNプログラム20に設定し、DNNプログラム20を実行して、処理対象の画像から画像内の動物(人間または人間以外の動物)の関節位置を推定する。
DNNプログラム20は、モデルのDNNの各種演算処理を実行するプログラムである。DNN学習プログラム24は、モデルのDNNの学習に伴うDNNの各種演算処理と、最適なパラメータを抽出する処理とを実行するプログラムである。DNN学習プログラムは、DNNの各種演算処理をDNNプログラム20をコールすることで実行する。DNNは教師データを使用して学習することでパラメータを最適化するので、DNNプログラム20には、DNN学習プログラム24が必ず添付または内蔵される。
図2は、本実施の形態におけるDNNの構成例を示す図である。DNNは、入力と出力の間に配置される複数のDNNである、DNN_1, DNN_2, DNN_3-1, DNN3_2, DNN_4を有する。図中、複数のDNNそれぞれに入力データと、出力データとが一点鎖線で示される。尚、DNNは、LSIにより実装することが可能であるが、本実施の形態では、DNNの各種の演算を実行するDNNプログラムをプロセッサが実行することで実現される。
DNNは、以下の4つのDNN_1〜DNN_4を有する。
(1)入力される入力画像IMG_INから、入力画像内の人体が存在する人体領域HB_Rを演算または推定する第1のDNN(DNN_1)と、
(2)入力画像IMG_INまたはDNN_1の中間層が生成する特徴画像(図示せず)を、人体領域HB_Rで切り取った人体領域の画像を入力し、部位が存在する領域である部位領域BDP_Rを演算または推定する第2のDNN(DNN_2)と、
(3)入力画像IMG_INまたは特徴画像を、単体の部位領域BFP_Rで及び複数の部位領域を結合した複数部位領域PBDP_Rでそれぞれ切り取った部位領域の画像及び複数部位領域の画像を入力し、両画像内の関節位置候補(関節座標候補)C_JT_CRDを演算または推定する第3のDNN(DNN_3)と、
(4)関節座標候補C_JT_CRDを入力し、関節座標JT_CRDを演算または推定する第4のDNN(DNN_4)。
第3のDNN(DNN_3)は、単体の部位領域の画像から画像内の第1の関節座標候補C_JT_CRD_1を演算または推定するDNN_3_1と、複数部位領域の画像から画像内の第2の関節座標候補C_JT_CRD_2を演算または推定するDNN_3_2とを有する。第1の関節座標候補C_JT_CRD_1と第2の関節座標候補C_JT_CRD_2は、同じ関節座標が重複して推定される場合がある。関節座標JT_CRDは、第1、第2の関節座標候補から重複して推定された関節座標の重複が除去されている。
DNN_2は、入力画像IMG_INまたはその特徴画像を人体領域HB_Rで切り取るマスキング層(図示せず)と、切り取られた人物領域の画像のサイズをDNN_2の入力に整合させるスケーリング層(図示せず)とを有する。
同様に、DNN_3_1とDNN_3_2も、入力画像IMG_INまたはその特徴画像を部位領域BDP_R及び複数部位領域PBDP_Rでそれぞれ切り取るマスキング層と、切り取られた部位領域の画像及び複数振り領域の画像のサイズをDNN_3の入力に整合させるスケーリング層とを有する。
各DNN_1〜DNN_4には、それぞれの重みのパラメータW1〜W4が設定される。
尚、上記の第1のDNN(DNN_1)と第2のDNN(DNN_2)とを結合したDNNが、入力画像IMG_INから人体の部位領域BDP_Rを演算または推定する構成にしても良い。
図3は、各DNN_nの構成例を示す図である。各DNN_nは、入力層INPUT_Lと、複数のDNNユニットDNN_U1〜DNN_Unと、全結合層FULCON_Lと、出力層OUTPUT_Lとを有する。各DNNユニットDNN_U1〜DNN_Unは、入力層の画像データなどをフィルタを構成する重みWで畳込み演算する畳込み層CONV_Lと、畳込み層の演算結果を活性化関数で判定する活性化関数層ACTF_Lと、例えば局所的な演算結果の最大値を抽出するプーリング層POOL_Lとを有する。DNNユニットの数は適切にチューニングされる。
[DNNの推定処理]
次に、DNNの推定処理について説明する。DNNの演算または推定処理は、前述のプロセッサがDNNのパラメータ22を設定されたDNNプログラム20を実行することで行われる。
図4は、DNN_1とDNN_2による推定処理を示す図である。まず、DNN_1は、人体が含まれる入力画像IMG_INを入力し、人体が存在する領域または人体領域Z1=HB_Rを演算または推定する(S1)。人体領域HB_Rは、例えば、左上座標及び右下座標で特定される。左上座標及び幅と高さで特定されてもよい。また、DNN_1では、その中間層が入力画像IMG_INの特徴画像FIMGを生成する。人体領域HB_Rは、例えばほとんど人体のみを含む領域であり、入力画像内の人体が存在する狭い領域である。
次に、DNN_2の入力側に設けられているマスキング層MSK_L1が、入力画像IMG_INまたはその特徴画像FIMGを、人体領域HB_Rで切り取って人体領域の画像を生成する(S2)。更に、スケーリング層SC_1が、人体領域の画像のサイズを変更(例えば拡大)して、DNN_2の入力層のサイズに整合する(S3)。マスキング層とスケーリング層については後で詳述する。
更に、DNN_2が、スケーリング層SC_L1が出力する人体領域の画像を入力し、人体の頭部、左右の上肢(腕)、左右の下肢(脚)、胴体などの部位の領域Z2=BDP_Rを演算または推定する(S4)。更に、部位結合部CNBが、単体の部位の領域Z2=BDP_Rを複数結合した複数部位の領域Z2*=PBDP_Rを生成する(S5)。複数の部位の領域の結合は、複数の部位の領域を含む矩形の領域の左上座標と右下座標を生成する処理である。
図5は、DNN_3とDNN_4による推定処理を示す図である。DNN_3は、DNN_2が出力した複数の単体部位及び複数の複数部位それぞれに対応して複数のDNN_3-1〜DNN_3-Nを有する。つまり、複数のDNN_3-1〜DNN_3-Nのうち、単体部位の数に対応した数のDNN_3が単体部位領域の画像から単体部位領域内の候補の関節の位置(座標)を演算または推定する。また、複数のDNN_3-1〜DNN_3-Nのうち、複数部位の数に対応した数のDNN_3が複数部位領域の画像から複数部位領域内の候補の関節の位置(座標)を演算または推定する。
例えば、DNN_3-1の入力側に設けられているマスキング層MSK_L2-1が、入力画像IMG_INまたはその特徴画像FIMGを、単体部位領域Z2=BDP_Rで切り取って単体部位領域の画像を生成する(S6)。更に、スケーリング層SC_L2-1が、単体部位領域の画像のサイズを変更(例えば拡大)して、DNN_3-1の入力層のサイズに整合する(S7)。
さらに、例えば、DNN_3-Nの入力側設けられているマスキング層MSK_L2-Nが、入力画像IMG_INまたはその特徴画像FIMGを、複数部位領域Z2*=PBDP_Rで切り取って複数部位領域の画像を生成する(S6)。更に、スケーリング層SC_L2-Nが、複数部位領域の画像のサイズを変更(例えば拡大)して、DNN_3-Nの入力層のサイズに整合する(S7)。
そして、例えば、DNN_3-1が、単体部位領域の画像を入力し、単体部位領域内の関節の位置(座標)の候補C_JT_CRD_1を演算または推定する(S8)。同様に、例えば、DNN_3-Nが、複数部位領域の画像を入力し、複数部位領域内の関節の位置(座標)の候補C_JT_CRD_2を演算または推定する(S8)。
最後に、DNN_4が、関節座標の候補Z3=C_JT_CRDを入力し、重複する関節座標を削除した人体の関節の位置(座標)Z4=JT_CRDを演算または推定する(S9)。
図6は、マスキング層を説明するための図である。このマスキング層MSK_Lは、図4のマスキング層の例であり、入力画像IMG_INまたは特徴画像FIMGを右腕(上肢)の部位領域Z2=BDP_Rで切り取って部位領域の画像IMG_M, FIMG_Mを出力する。マスキング層MSK_Lは、以下の演算を行う。
Figure 2018173108
即ち、部位領域BDP_Rの起点となる入力画像IMG_INまたは特徴画像FIMG内の左上座標を(p,q)とし、部位領域内の行方向と列方向の位置をそれぞれi, jとし、マスキング層に入力される入力画像IMG_INまたは特徴画像FIMGの画素をz(l-1) i+p,j+qとする。この場合、マスキング層が出力する画像IMG_M or FIMG_Mの画素z(l) i,jは、上記の数1のとおりである。つまり、出力画像の画素z(l) i,jは、位置i+p,j+qが部位領域BDP_Rの中であれば入力画像または特徴画像の画素z(l-1) i+p,j+qとなり、中でなければ0になる。
図6の例では、マスキング層MSK_Lが、入力画像IMG_INまたは特徴画像FIMGを、右腕を含む領域(部位領域BDP_R)で切り取ったマスク済み画像IMG_MまたはFIMG_Mを出力する。また、mは入力画像または特徴画像の番号である。
図7は、マスキング層を説明するための図である。このマスキング層MSK_Lは、図5のマスキング層の1つであり、入力画像IMG_INまたは特徴画像FIMGを頭部の部位Headと首の部位Neckの両領域を含む複数部位領域Z2*=PBDP_Rで切り取った複数部位領域の画像IMG_M2, FIMG_M2を出力する。複数部位領域Z2*=PBDP_Rは、2つの単体部位領域Z2=BDP_Rを含む領域である。
図8は、マスキング層が画像を単数部位領域及び複数部位領域で切り取ることを示す図である。図8に示された入力画像IMG_INまたは特徴画像FIMGは、人体の左脚と左尻が障害物OB_1,OB_2により隠れて、オクルージョンが発生している。そのため、マスキング層MSK_Lが入力画像IMG_INまたは特徴画像FIMGを単体部位領域BDP_Rで切り取ると、切り取られた画像IMG_M, FIMG_Mには部位の画像が全く含まれない、またはほとんど含まれない。その結果、次のDNN_3は単体部位領域内の関節位置を検出できない、または検出精度が低下する。
一方、マスキング層SK_Lが入力画像IMG_INまたは特徴画像FIMGを複数部位領域PBDP_Rで切り取ると、切り取られた画像IMG_M2, FIMG_M2には左脚と左尻の部位の画像は含まれないが、隣接する部位の画像は含まれる。つまり、複数部位領域PBDP_Rには、オクルージョンで隠れた部位以外の部位の画像が含まれる蓋然性が高い。その結果、次のDNN_3は隣接する部位内の関節位置を検出し、それらの関節位置からオクルージョンで隠れてしまった左脚と左尻の部位領域内の関節位置を推定できる、または推定精度を高くできる。
本実施の形態では、後述するとおり、DNNの学習工程では教師データにオクルージョンが含まれない入力画像と含まれる入力画像とを使用する。したがって、DNNは、オクルージョンが含まれない入力画像と含まれる入力画像の両方について、それぞれ関節位置を検出することができるようになる。
オクルージョンが含まれる画像を教師データに使用して学習を行うと、DNNは、オクルージョンのある画像についても関節位置を推定できる。ただし、オクルージョンの割合が高いと関節位置の推定制度は低くなる。特に、オクルージョンを含む画像の場合、単体部位領域で画像を切り取ると、切り取られた画像内に占めるオクルージョンの割合が高くなり、関節位置の推定精度は低くなる。一方、複数部位制度で画像を切り取ると、切り取られた画像内に占めるオクルージョンの割合が低下し、関節位置の推定精度はより高くなる。さらに、オクルージョンを含まない画像の場合、単体部位領域のほうが複数部位領域よりも切り取られた画像が小さく且つ単純になり、関節位置の推定精度が高くなるというメリットがある。
上記のとおり、本実施の形態では、DNNの学習工程で、オクルージョンを含む画像と含まない画像を教師データに使用し、DNN内では、単体部位領域と複数部位領域の両方で切り取った画像から関節位置を推定する。これにより、学習後のDNNは、オクルージョンを含む画像も含まない画像も関節位置を推定することができる。
さらに、本実施の形態では、DNN内のマスキング層が、入力画像IMG_INまたは特徴画像FIMGを部位領域または複数部位領域で切り取り、切り取り済みつまりマスク済み画像から、単数部位または複数部位の関節位置を演算または推定する。入力画像または特徴画像は、人体以外の背景の画像などを含むが、DNNは、入力画像または特徴画像の人体が存在する領域を切り取り、さらに人体が存在する領域の画像の単体部位及び複数部位の領域を切り取る。その結果、DNN_3は、雑音のない画像から関節位置を演算または推定する。よって、関節位置の推定精度を高くできる。
図9は、スケーリング層を説明するための図である。スケーリング層SC_Lは、入力されるマスク済み画像IMG_M,FIMG_Mを後段のDNNの入力層のサイズに整合するよう、そのサイズを変更する。つまり、次の数式のとおり、スケーリング層SC_Lは、マスク済み画像IMG_M,FIMG_Mの行方向の位置i、列方向の位置jの画素z(l-1) i,jを、スケール済み画像IMG_S,FIMG_Sの行方向の位置a*i、列方向の位置b*jの画素z(l) a*i,b*jに変換する。
Figure 2018173108
ここで、a,bは、行方向と列方向のスケーリングファクタ(拡縮係数)である。
[DNNの学習]
次に、本実施の形態におけるDNNの学習について説明する。ディープラーニングでは、DNNの構成と学習方法の改善により、より望ましいDNNを生成する。そして、本実施の形態のDNNは複数のDNN_1 - DNN_4を有するので、それぞれのDNN_1-DNN_4が所望の動作を行うことができるように、各DNN_1-DNN_4の学習を実行する。
図10は、DNNの学習とその後の処理の概略を示すフローチャート図である。DNNの学習では、図1で示したとおり、プロセッサ10が教師データ26を使用ながらDNN学習プログラム24を実行する。
図10に示したとおり、プロセッサ10は、図2に示したDNN内の各DNN_1 - DNN_4それぞれの学習に利用する教師データを生成する(S31)。与えられる教師データは、例えば、入力画像IMG_INとそれに含まれる人体の関節位置の情報である。人体の関節位置の情報が教師データの正解データである。
そこで、工程S31では、プロセッサは、与えられた教師データの正解データから、各DNN_1 - DNN_3の学習で使用する正解データを予め生成する。各DNN_1 - DNN_3の学習では、プロセッサは、教師データの集合からランダムに選択した所定数の教師データをそれぞれ使用する。したがって、与えられた教師データ全てについて、各DNN_1 - DNN_3の学習で使用する正解データを予め生成するのが望ましい。
さらに、プロセッサ10は、教師データを使用して各DNN_1 - DNN_4それぞれの学習を、順番に実行する(S32,S33)。プロセッサは、この学習により各DNN_1 - DNN_4の最適なパラメータを求める。DNN_1 - DNN_4全ての学習が終了すると(S33のYES)、プロセッサは、DNN_1 - DNN_4全てを繋いだDNNの学習を実行する(S34)。その後、プロセッサは、各DNN_1 - DNN_4に学習で求めた最適のパラメータを設定する(S35)。以上で学習工程を終了する。
そして、プロセッサは、パラメータが設定されたDNNの演算を実行し、処理対象の画像に対する関節位置の情報を演算または推定する(S36)。プロセッサは、このDNNの演算の実行S36を、処理対象の画像があるたびに繰り返す。
次に、図10の各処理について詳述する。
[教師データの生成S31]
図11は、各DNN_1 - DNN_4それぞれの学習に利用する教師データを生成する処理S31を示す図である。プロセッサ10は、DNN学習プログラムを実行して、教師データ26の正解データである関節位置の正解値Z4_CVにおける関節を中心とする正方形を定め、それらの正方形から単体部位が存在する領域の座標の正解値Z2_CVを検出する(S11)。領域の座標とは、例えば矩形領域の左上と右下の座標である。また、矩形領域の左上の座標と幅及び高さであってもよい。
同時に、プロセッサ10は、単体部位が存在する領域Z2_CV内の関節の座標を抽出し、単体部位の関節座標候補の正解値Z3_CVも生成する(S11)。
そして、プロセッサ10は、単体部位が存在する領域を複数含む領域を、複数部位が存在する領域の座標Z2*_CVとして検出する(S12)。
同時に、プロセッサ10は、複数部位が存在する領域Z2*_CV内の関節座標を抽出し、複数部位の関節座標候補の正解値Z3_CVも生成する(S12)。
さらに、プロセッサは、単数部位の領域の座標の正解値Z2_CV及び複数部位の領域の座標の正解値Z2*_CVを全て含む領域を、人体が存在する領域の座標の正解値Z1_CVとして検出する(S13)。
プロセッサ10は、全ての教師データについて、上記の工程S11,S12,S13を行い、全ての教師データそれぞれの単数部位及び複数部位の関節座標候補の正解値Z3_CV、単数部位の領域の座標Z2_CV、複数部位の領域の座標Z2*_CV、人体が存在する領域の座標Z1_CVを生成する。
そして、全ての教師データのうち、第1の集合がDNN_1の教師データに利用され、第2の集合がDNN_2の教師データに利用され、第3の集合がDNN_3の教師データに利用され、そして、第4の集合がDNN_4の教師データに利用される。
さらに、上記の人体が存在する領域の座標の正解値Z1_CVは、DNN_1の教師データの正解値データとして利用され、単体部位が存在する領域の座標の正解値Z2_CVは、DNN_2の教師データの正解値データとして利用される。更に、単体部位及び複数部位の関節座標候補の正解値Z3_CVは、DNN_3の教師データの正解値として利用される。
[DNN_1の学習]
図12は、DNN_1の学習を説明する図である。プロセッサは、第1の集合の教師データの入力を入力画像IMG_IN、正解値を人体領域の座標の正解値Z1_CVとして、DNN_1の学習を実行する(S14)。プロセッサは、この学習を、例えば確率的勾配降下法またはミニバッチ法と呼ばれる方法によって行う。この学習工程により、プロセッサは、DNN_1のパラメータ(重み値等)W1を最適化する。
さらに、プロセッサは、最適化したDNN_1のパラメータW1をDNN_1に設定し、次に使用する第2の集合の教師データの入力画像IMG_INについてDNN_1の演算を実行し、DNN_1の中間層から入力画像IMG_INの特徴画像FIMGを生成する(S15)。特徴画像FIMGは、入力画像のエッジ検出などの畳み込み演算を行う中間層から出力される。画像の特徴が強調されているので、その後のDNN_2, DNN_3のための画像として入力画像よりも好ましい場合がある。
図13は、本実施の形態の学習方法の一つである確率的勾配降下法またはミニバッチ法の概略を示すフローチャート図である。この学習法では、プロセッサは、多数の教師データから少数(例えば10個)の教師データをランダムに選択し(S41)、選択した少数の教師データの入力をDNN_nに入力しDNN_nの演算を実行して出力を得る(S42)。そして、プロセッサは、選択した少数の教師データ全てについて、DNN_nの出力と正解値との差分の二乗和の総和を算出する(S43)。プロセッサは、この二乗和の総和が基準値未満か否か判定し(S44)、基準値未満でなければ(S44のNO)、二乗和の総和の勾配に基づいて、DNN_nの新たなパラメータを求め、DNN_nに設定する(S45)。そして、プロセッサは、工程S44の判定がYESになるまで、工程S41からS44の処理を、それぞれ別の少数の教師データを使用して繰り返す。工程S44の判定がYESになると、その時のパラメータをDNN_nの最適化されたパラメータとして出力する。
上記の学習方法は、DNN_nで学習する教師データの数を抑制することができる。
[DNN_2の学習]
図14は、DNN_2に入力する人体の画像または人体の特徴量の画像を生成するマスキング層MSK_L1及びスケーリング層SC_L1の処理を示すフローチャート図である。プロセッサは、次に使用する第2の集合の教師データの入力画像IMG_INを入力し、工程S14で求めた最適化パラメータW1が設定されたDNN_1の演算を実行して、人体が存在する領域の座標Z1=HB_Rを推定する(S16_1)。
そして、プロセッサは、マスキング層MSK_L1とスケーリング層SC_L1の演算を実行し、上記の第2の集合の教師データの入力画像IMG_INまたはその特徴画像FIMGを、人体領域Z1=HB_Rで切り取り、さらに、スケール変換を行う(S16_2)。これにより、プロセッサは、第2の集合の教師データの人体の画像IMG_HBまたは人体の特徴画像FIMG_HBを生成する。これらの画像は、DNN_2の学習での教師データの入力として使用される。
上記の工程S16_1で求めた人体が存在する領域の座標Z1に代えて、図11の正解値を生成する工程で生成した、第2の集合の教師データの人体が存在する領域の座標の正解値Z1_CVを利用しても良い。
このマスキング処理により、入力画像または特徴画像から人体と関係のない背景の画像などを削除することができるので、その後の関節の推定または算出の精度を高めることができる。
図15は、DNN_2の学習を説明する図である。プロセッサは、第2の集合の教師データの入力を、図14の工程S16_2で生成した入力画像の人体の画像IMG_HBまたは特徴画像の人体の画像FIMG_HBとし、正解値を、図11のS11で求めた単体部位が存在する領域の座標の正解値Z2_CVとして、DNN_2の学習を実行する(S17)。プロセッサは、この学習を、前述の確率的勾配降下法またはミニバッチ法によって行う。この学習工程により、プロセッサは、DNN_2のパラメータ(重み値等)W2を最適化する。
[DNN_3の学習]
図16は、マスキング層MSK_L2及びスケーリング層SC_L2の処理を示すフローチャート図である。プロセッサは、第3の集合の教師データの入力画像IMG_INまたは特徴画像FIMGを入力し、最適化パラメータW1が設定されたDNN_1と最適化パラメータW2が設定されたDNN_2の演算を実行して、単体部位が存在する領域の座標Z2=BDP_Rを推定する(S18_1)。
さらに、プロセッサは、図11の工程S12と同様の方法で、単体部位領域を合体した複数部位が存在する領域の座標Z2*=PBDP_Rを生成する。
上記の工程S18_1に代えて、図11の工程S11,S12で求めた、第3の集合の教師データの単体部位が存在する領域の座標の正解値Z2_CVと、複数部位が存在する領域の座標の正解値Z2*_CVを使用しても良い。
そして、プロセッサは、マスキング層MSK_L1とスケーリング層SC_L1の演算を実行し、第3の集合の教師データの入力画像IMG_INまたはその特徴画像FIMGを、単体部位領域Z2=BDP_R及び複数部位領域Z2*=PBDP_Rで切り取り、さらに、スケール変換を行う(S18_2)。これにより、プロセッサは、第3の集合の教師データの入力画像IMG_INから抽出した単体部位画像IMG_BP、複数部位画像IMG_PBPを、または特徴画像FIMGから抽出した単体部位特徴画像FIMG_BP、複数部位特徴画像FIMG_PBP _HBを生成する。これらの画像は、DNN_3の学習での教師データの入力として使用される。
図17は、DNN_3の学習を説明する図である。プロセッサは、第3の集合の教師データの入力を、図16の工程S18_2で生成した単体部位画像IMG_BP及び複数部位画像IMG_PBP、または単体部位特徴画像FIMG_BP及び複数部位特徴画像FIMG_PBP _HBとし、正解値を、図11のS11,S12で求めた単体部位領域Z1_CV内の関節座標の正解値Z3_CV及び複数部位領域Z2*_CV内の関節座標の正解値Z3_CVとして、DNN_3の学習を実行する(S19)。プロセッサは、この学習を、前述の確率的勾配降下法またはミニバッチ法によって行う。この学習工程により、プロセッサは、DNN_3のパラメータ(重み値等)W3を最適化する。
[DNN_4の学習]
次に、プロセッサは、最適化されたパラメータW1,W2,W3を設定されたDNN_1,DNN_2, DNN_3の連結ネットワークのDNN_1に、第4の集合の教師データの入力画像IMG_INまたは特徴画像FIMGを入力し、DNN_1, DNN_2, DNN_3の演算を実行し、単数部位領域内及び複数部位領域内の関節座標の候補Z3=C_JT_CRDの集合を推定する(S20)。この関節座標の候補Z3=C_JT_CRDの集合は、DNN_4の学習の教師データの入力値として利用される。
また、工程S20に代えて、図11の工程S11,S12で求めた、第4の集合の教師データの単数部位領域内及び複数部位領域内の関節座標の候補の正解値Z3_CVを利用しても良い。
図18は、DNN_4の学習を説明する図である。プロセッサは、教師データの入力を、図17の工程S20で求めた関節座標の候補Z3=C_JT_CRDの集合とし、正解値を、図11の関節座標の正解値Z4_CVとして、DNN_4の学習を実行する(S21)。この学習も、前述の確率的勾配降下法またはミニバッチ法によって行う。この学習工程により、プロセッサは、DNN_4のパラメータ(重み値等)W4を最適化する。
[工程S34の全DNNの学習]
以上で、図10の工程S33まで終了する。次に、プロセッサは、全DNN_nであるDNN_1、DNN_2、DNN_3-1 - DNN_3-N、DNN_4を繋げた全DNNの学習を実行する(S34)。全DNNの学習は、例えばマルチタスク学習が好ましい。
図19は、工程S34の全DNNの学習を説明する図である。プロセッサは、工程S14,S17,S19,S20それぞれで最適化した重みパラメータW1,W2,W3,W4をそれぞれのDNN_nの初期値に設定し、教師データの入力を、第5の集合の教師データの入力画像X=IMG_INとし、DNN_1、DNN_2、DNN_3-1 - DNN_3-N、DNN_4及びマスキング層MSK_L1, L2、スケーリング層SC_L1,L2の演算を実行する。その結果、プロセッサは、DNN_1の演算により人体が存在する領域の座標Z1=HB_Rと、DNN_2の演算により単体部位領域の座標Z2=BDP_R及び複数部位領域の座標Z2*=PBDP_Rと、DNN_3の演算により関節候補の座標Z3=C_JT_CRDの集合と、DNN_4の演算により関節の座標Z4=JT_CRDの集合を、それぞれ算出または推定する。
次に、勾配法により各DNN_nの重みパラメータW1,W2,W3,W4を更新する。マルチタスク学習では、以下の演算により新たな重みパラメータWnewを求める。
Wnew = Wold - d * Σi=1 10 * ∂/∂W{|Z1-Z1_CV|2 + |Z2-Z2_CV|2 + |Z4-Z4_CV|2
ここで、dは学習率、iは教師データの番号である。∂/∂W{|Z1-Z1_CV|2 + |Z2-Z2_CV|2+ |Z4-Z4_CV|2 }は勾配である。Σi=1 10は偏微分∂/∂Wの括弧外にあるが括弧内にあるのと等価である。
上記のマルチタスク学習では、DNN_1, DNN_2, DNN_4それぞれの二乗和を累積して勾配∂/∂Wを算出するので、各DNN_nのパラメータの最適化までの工数を少なくすることができる。また、DNN_3のパラメータは、DNN_3の学習で最適化したパラメータのまま使用する。
一般的な学習では、次の演算により新たな重みパラメータWnewを求める。
Wnew = Wold - d * Σi=1 10 * ∂/∂W |Z4-Z4_CV|2
この方法では、DNN_1, DNN_2, DNN_3, DNN_4を繋げたDNNの出力Z4が正解値Z4_CVに近づくように重みパラメータが最適化されるので、最適化の精度が余りあがらないまたは最適化に多くの教師データと全DNNの演算を必要とする。
以上のとおり、本実施の形態によれば、動物が写されている画像から動物の関節の位置を検出するDNNを効率よく学習させ、高い精度のDNNを生成することができる。また、学習済みDNNは、動物が写されている画像から動物の関節の位置を高い精度で算出または推定することができる。
X=IMG_IN:入力画像
FIMG:特徴画像
Z1=HB_R:人体領域
Z2=BDP_R:部位領域
Z2*=PBDP_R:複数部位領域
C_JT_CRD_1:第1の関節座標候補
C_JT_CRD_2:第2の関節座標候補
Z3=C_JT_CRD:関節座標候補
Z4=JT_CRD:関節座標
DNN_1:第1のディープニューラルネットワーク、第1のDNN
DNN_2:第2のディープニューラルネットワーク、第2のDNN
DNN_3_1, DNN_3_2:第3のディープニューラルネットワーク、第3のDNN
DNN_4:第4のディープニューラルネットワーク、第4のDNN
W1:第1の重みパラメータ
W2:第2の重みパラメータ
W3:第3の重みパラメータ
W4:第4の重みパラメータ
Z1_CV:第1の正解値
Z2_CV:第2の正解値
Z3_CV:第3の正解値
Z4_CV:第4の正解値

Claims (10)

  1. メモリと、
    前記メモリと接続されるプロセッサとを有し、
    前記プロセッサは、
    第1の教師データの入力を入力画像、前記第1の教師データの正解データを前記入力画像内の動物の部位領域として、第1のディープニューラルネットワーク(以下DNNと称する)の学習を実行し、
    第2の教師データの入力を、第2の教師データの入力画像内の部位領域及び前記部位領域を複数結合した複数部位領域の画像とし、前記第2の教師データの正解データを、前記部位領域及び複数部位領域内の関節位置として、第2のDNNの学習を実行し、
    前記第1のDNNの学習で求めた第1のパラメータを設定した第1のDNNにより、処理対象の入力画像データに対する前記動物の部位領域を推定し、
    前記第2のDNNの学習で求めた第2のパラメータを設定した第2のDNNにより、前記第1のDNNにより推定した部位領域及び前記部位領域を複数結合した複数部位領域それぞれの第1の関節位置及び第2の関節位置とを推定する、関節位置推定装置。
  2. 前記プロセッサは、更に、
    前記第1のパラメータを設定した第1のDNNにより、前記第2の教師データの入力画像に対する前記動物の部位領域を推定する、請求項1に記載の関節位置推定装置。
  3. 前記プロセッサは、前記第2の教師データの入力である、前記部位領域及び複数部位領域の画像を、前記第2の教師データの入力画像内の部位領域及び複数部位領域で前記第2の教師データの入力画像を切り取って生成する、請求項1に記載の関節位置推定装置。
  4. 前記第1のDNNは、第3のDNNと第4のDNNとを有し、
    前記第1のDNNの学習を実行することは、
    第3の教師データの入力を前記第1の教師データの入力画像、前記第3の教師データの正解データを前記入力画像内の動物が存在する動物領域として、第3のDNNの学習を実行することと、
    第4の教師データの入力を、前記第4の教師データの入力画像内の動物が存在する動物領域の画像とし、前記第4の教師データの正解データを、前記動物の部位領域として、第4のDNNの学習を実行することとを有し、
    前記第1のDNNにより前記処理対象の入力画像に対する前記動物の部位領域を推定することは、
    前記第3のDNNの学習で求めた第3のパラメータを設定した第3のDNNにより、前記処理対象の入力画像に対する前記動物領域を推定することと、
    前記第4のDNNの学習で求めた第4のパラメータを設定した第4のDNNにより、前記推定した動物領域で前記処理対象の入力画像データを切り取った動物領域の画像対する前記動物の部位領域を推定することを有する、請求項1に記載の関節位置推定装置。
  5. 前記第4の教師データの入力である前記第4の教師データの入力画像内の動物領域の画像は、前記第3のパラメータを設定した前記第3のDNNにより推定した動物領域で前記入力画像を切り取って求められる、請求項4に記載の関節位置推定装置。
  6. 前記プロセッサは、更に、
    第5の教師データの入力を前記第1の関節位置と第2の関節位置とし、前記第5の教師データの正解データを前記第1の関節位置と第2の関節位置が含まれる第3の関節位置として、第5のDNNの学習を実行し、
    前記第5のDNNの学習で求めた第5のパラメータを設定した第5のDNNにより、前記第2のDNNにより推定した前記第1の関節位置と第2の関節位置に対する前記第3の関節位置を推定する、請求項1に記載の関節位置推定装置。
  7. 前記学習の実行は、
    所定数の教師データの入力に対して前記DNNが推定した出力と前記正解データとの差分の二乗和の総和を算出し、前記総和の勾配に基づいて前記パラメータを更新することを、前記総和が基準値未満になるまで繰り返すことを含む、請求項1に記載の関節位置推定装置。
  8. 前記プロセッサは、更に、
    第6の教師データの入力である入力画像に対して前記第1のパラメータを設定した第1のDNNにより前記部位領域を推定し、前記推定した部位領域及び前記複数部位領域に対して前記第2のパラメータを設定した第2のDNNにより前記第1の関節位置及び第2の関節位置を推定し、
    前記第1のDNNにより推定した部位領域と前記第1のDNNの正解データとの差分の第1の二乗和と、前記第2のDNNにより推定した第1の関節位置及び第2の関節位置と前記第2のDNNの正解データとの差分の第2の二乗和との総和を算出し、前記総和の勾配に基づいて前記第1のパラメータ及び第2のパラメータを更新することを、前記総和が基準値未満になるまで繰り返す、請求項1に記載の関節位置推定装置。(マルチタスク学習法)
  9. 第1の教師データの入力を入力画像、前記第1の教師データの正解データを前記入力画像内の動物の部位領域として、第1のディープニューラルネットワーク(以下DNNと称する)の学習を実行し、
    第2の教師データの入力を、第2の教師データの入力画像内の部位領域及び前記部位領域を複数結合した複数部位領域の画像とし、前記第2の教師データの正解データを、前記部位領域及び複数部位領域内の関節位置として、第2のDNNの学習を実行し、
    前記第1のDNNの学習で求めた第1のパラメータを設定した第1のDNNにより、処理対象の入力画像データに対する前記動物の部位領域を推定し、
    前記第2のDNNの学習で求めた第2のパラメータを設定した第2のDNNにより、前記第1のDNNにより推定した部位領域及び前記部位領域を複数結合した複数部位領域それぞれの第1の関節位置及び第2の関節位置とを推定する、処理を有する関節位置推定方法。
  10. 第1の教師データの入力を入力画像、前記第1の教師データの正解データを前記入力画像内の動物の部位領域として、第1のディープニューラルネットワーク(以下DNNと称する)の学習を実行し、
    第2の教師データの入力を、第2の教師データの入力画像内の部位領域及び前記部位領域を複数結合した複数部位領域の画像とし、前記第2の教師データの正解データを、前記部位領域及び複数部位領域内の関節位置として、第2のDNNの学習を実行し、
    前記第1のDNNの学習で求めた第1のパラメータを設定した第1のDNNにより、処理対象の入力画像データに対する前記動物の部位領域を推定し、
    前記第2のDNNの学習で求めた第2のパラメータを設定した第2のDNNにより、前記第1のDNNにより推定した部位領域及び前記部位領域を複数結合した複数部位領域それぞれの第1の関節位置及び第2の関節位置とを推定する、処理をコンピュータに実行させる関節位置推定プログラム。
JP2019506573A 2017-03-21 2017-03-21 関節位置推定装置、関節位置推定方法及び関節位置推定プログラム Active JP6826296B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/011141 WO2018173108A1 (ja) 2017-03-21 2017-03-21 関節位置推定装置、関節位置推定方法及び関節位置推定プログラム

Publications (2)

Publication Number Publication Date
JPWO2018173108A1 true JPWO2018173108A1 (ja) 2020-01-23
JP6826296B2 JP6826296B2 (ja) 2021-02-03

Family

ID=63586333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019506573A Active JP6826296B2 (ja) 2017-03-21 2017-03-21 関節位置推定装置、関節位置推定方法及び関節位置推定プログラム

Country Status (3)

Country Link
US (1) US11157796B2 (ja)
JP (1) JP6826296B2 (ja)
WO (1) WO2018173108A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871845B (zh) 2019-01-10 2023-10-31 平安科技(深圳)有限公司 证件图像提取方法及终端设备
JP2020151270A (ja) * 2019-03-20 2020-09-24 学校法人慶應義塾 関節状態値取得装置、関節状態学習装置、関節位置特定装置、関節位置学習装置、関節状態値取得方法、関節状態学習方法、関節位置特定方法、関節位置学習方法及びプログラム
JP7349288B2 (ja) * 2019-08-08 2023-09-22 セコム株式会社 対象物認識装置、対象物認識方法、及び対象物認識プログラム
JP7349290B2 (ja) * 2019-08-15 2023-09-22 セコム株式会社 対象物認識装置、対象物認識方法、及び対象物認識プログラム
JP7304235B2 (ja) * 2019-08-16 2023-07-06 セコム株式会社 学習済みモデル、学習装置、学習方法、及び学習プログラム
JP7118934B2 (ja) * 2019-09-04 2022-08-16 株式会社東芝 物体数推定装置、物体数推定方法、および物体数推定プログラム
JP7320260B2 (ja) * 2019-11-15 2023-08-03 オーアイ・イノベーション株式会社 髄位置推定装置および製材システム
CN111340030B (zh) * 2020-02-14 2021-12-21 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备、计算机可读存储介质
WO2021250854A1 (ja) * 2020-06-11 2021-12-16 Pst株式会社 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251078A (ja) * 1998-12-22 2000-09-14 Atr Media Integration & Communications Res Lab 人物の3次元姿勢推定方法および装置ならびに人物の肘の位置推定方法および装置
JP2016212688A (ja) * 2015-05-11 2016-12-15 日本電信電話株式会社 関節位置推定装置、方法、及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4855141B2 (ja) 2006-05-19 2012-01-18 富士フイルム株式会社 医用画像部位認識装置、及び、医用画像部位認識プログラム
JP5820366B2 (ja) 2010-10-08 2015-11-24 パナソニック株式会社 姿勢推定装置及び姿勢推定方法
JP6433149B2 (ja) 2013-07-30 2018-12-05 キヤノン株式会社 姿勢推定装置、姿勢推定方法およびプログラム
US9730643B2 (en) * 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization
US10679046B1 (en) * 2016-11-29 2020-06-09 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods of estimating body shape from images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251078A (ja) * 1998-12-22 2000-09-14 Atr Media Integration & Communications Res Lab 人物の3次元姿勢推定方法および装置ならびに人物の肘の位置推定方法および装置
JP2016212688A (ja) * 2015-05-11 2016-12-15 日本電信電話株式会社 関節位置推定装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FAN, X. ET AL.: "Combining Local Appearance and Holistic View: Dual-Source Deep Neural Networks for Human Pose Estima", 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) [ONLINE], JPN6020047740, June 2015 (2015-06-01), pages 1347 - 1355, XP032793588, ISSN: 0004404878, DOI: 10.1109/CVPR.2015.7298740 *
TOMPSON, J. ET AL.: "Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 27 (NIPS 2014) [ONLINE], JPN6020047739, 2014, pages 1 - 9, XP055545502, ISSN: 0004404877 *

Also Published As

Publication number Publication date
US11157796B2 (en) 2021-10-26
JP6826296B2 (ja) 2021-02-03
US20200012922A1 (en) 2020-01-09
WO2018173108A1 (ja) 2018-09-27

Similar Documents

Publication Publication Date Title
JP6826296B2 (ja) 関節位置推定装置、関節位置推定方法及び関節位置推定プログラム
CN109670474B (zh) 一种基于视频的人体姿态估计方法、装置及设备
KR102081854B1 (ko) 3d edm을 이용한 수어 또는 제스처 인식 방법 및 장치
JP6522060B2 (ja) オブジェクト認識装置、分類ツリー学習装置及びその動作方法
CN110688929B (zh) 一种人体骨架关节点定位方法及装置
KR20160053612A (ko) 영상 학습 모델을 이용한 영상 생성 방법 및 장치
JP6708260B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2019016106A (ja) 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム
JP2019220142A (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
JP7252120B2 (ja) 核心性能指数を満たすことができるハードウェア最適化が行われるように、cnnで複数のブロック内の入力イメージから特徴を抽出する学習方法及び学習装置、それを利用したテスト方法及びテスト装置
JP2017091377A (ja) 姿勢推定装置、姿勢推定方法、及び姿勢推定プログラム
CN110415322B (zh) 虚拟对象模型的动作指令的生成方法和装置
KR101586007B1 (ko) 데이터 처리 장치 및 방법
WO2019244803A1 (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
JP6921526B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6623184B2 (ja) 多層ニューラルネットの大局構造抽出装置、方法、及びプログラム
CN111339969B (zh) 人体姿势估计方法、装置、设备及存储介质
JP2020140283A (ja) 情報処理装置、情報処理方法、および、コンピュータプログラム
JP2022117766A (ja) 行動認識システム、行動認識方法およびプログラム
JP2019133331A (ja) 画像認識装置、画像認識方法、および、画像認識プログラム
JP6692271B2 (ja) マルチタスク処理装置、マルチタスクモデル学習装置、及びプログラム
JP6962450B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2018180894A (ja) 情報処理装置、情報処理方法及びプログラム
JP2022018333A (ja) プログラム、情報処理方法、情報処理装置及びモデル生成方法
JP2021117800A (ja) 信号処理装置、信号処理方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201228

R150 Certificate of patent or registration of utility model

Ref document number: 6826296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150