WO2022254644A1

WO2022254644A1 - 姿勢推定装置、姿勢推定方法、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2022254644A1
Application number: PCT/JP2021/021140
Authority: WO
Inventors: 賢太石原
Original assignee: 日本電気株式会社
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-12-08
Also published as: JPWO2022254644A1; US20240119620A1

Abstract

姿勢推定装置１０は、画像データから検出されている人物の関節それぞれについて、関節の位置、及び関節から人物の基準となる部位までの変位に基づいて、人物の仮の基準位置を算出する、位置算出部２０と、検出されている関節毎に、算出された仮の基準位置に基づいて、各関節が属する人物を決定する、姿勢推定部３０と、を備えている。

Description

姿勢推定装置、姿勢推定方法、及びコンピュータ読み取り可能な記録媒体

　本発明は、画像中の人物の姿勢を推定するための、姿勢推定装置及び姿勢推定方法、更には、これらを実現するためのコンピュータ読み取り可能な記録媒体に関する。

　近年、画像から人物の姿勢を推定する研究が注目されている。このような研究は、映像監視の分野、スポーツの分野などでの利用が期待されている。例えば、大勢の人物がいる駅等において、監視カメラの映像から各人物の姿勢を推定することで、危険な行為をする人物を特定できると考えられる。また、店舗に設置された監視カメラの映像から、店舗内での店員の動きを分析することで、効率的な商品配置を行うことができると考えられる。

　非特許文献１及び２は、人物の姿勢を推定するシステムの一例を開示している。具体的には、非特許文献１に開示されたシステムは、まず、カメラから出力されてきた画像データを取得し、取得した画像データから、画像中の人物の関節及び関節間のベクトル場を推定する。次いで、非特許文献１に開示されたシステムは、隣接する２つの関節の組毎に、関節間の方向を求める。

　次に、非特許文献１に開示されたシステムは、隣接する２つの関節の組毎に、求めた方向とその関節間について推定されたベクトル場との内積を求め、更に、内積に基づいて、関節間の結びつきの確からしさを算出する。その後、非特許文献１に開示されたシステムは、確からしさに基づいて、結びつくべき関節間を特定して、人物の姿勢を推定する。

　非特許文献２に開示されたシステムは、まず、カメラから出力されてきた画像データを取得し、取得した画像データを、検出器に入力して、画像中の人物の基準位置と各関節の基準位置からの相対位置とを出力させる。次に、非特許文献２に開示されたシステムは、出力されてきた人物の基準位置と各関節の相対位置とに基づいて、画像中の人物の姿勢を推定する。この場合の検出器は、画像と、画像中の人物の基準位置及び各関節の相対位置とを、訓練データとする、機械学習によって構築される。

Z. Cao, G. Hidalgo, T. Simon, S. -E. Wei and Y. Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 1, pp. 172-186, 1 Jan. 2021 X. Zhou, D. Wang and P. Krahenbuhl, " Objects as Points," arXiv:1904.07850, 2019.

　ところで、上述の非特許文献１及び２に開示されたシステムには、姿勢推定の対象となる人物の一部が、画像中で他の人物又は物体によって隠されると、姿勢を正確に推定できなくなるという問題がある。

　例えば、画像上で、推定対象となる人物の右膝は検出されているが、その右足首が、別の人物の右膝によって隠され、未検出であるとする。この場合、非特許文献１に開示されたシステムでは、推定対象となる人物の右膝は、別の人物の右足首に結びつけられる可能性が高く、姿勢を正確に推定できなくなる。

　また、推定対象となる人物の右足首は検出されているが、右膝が検出されていないとする。この場合、非特許文献１に開示されたシステムは、推定対象となる人物の右足首を右膝に結びつけることはできない状態となる。よって、この場合も、非特許文献１に開示されたシステムでは、姿勢を正確に推定できなくなる。

　更に、画像上で、推定対象となる人物の基準位置となる部位が、別の人物によって隠され、未検出であるとする。この場合、非特許文献２に開示されたシステムでは、検出器は、推定対象となる人物の基準位置を正確に出力できないため、姿勢を正確に推定することは困難となる。

　本発明の目的の一例は、推定対象となる人物の一部が隠れてしまっている場合における姿勢推定の精度の向上を図り得る、姿勢推定装置、姿勢推定方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

　上記目的を達成するため、本発明の一側面における姿勢推定装置は、
　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出する、位置算出部と、
　検出されている前記関節毎に、算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定する、姿勢推定部と、
を備えていることを特徴とする。

　また、上記目的を達成するため、本発明の一側面における姿勢推定方法は、
　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出する、位置算出ステップと、
　検出されている前記関節毎に、算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定する、姿勢推定ステップと、
を備えていることを特徴とする。

　更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータに、
　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出する、位置算出ステップと、
　検出されている前記関節毎に、算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定する、姿勢推定ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。

　以上のように、本発明によれば、推定対象となる人物の一部が隠れてしまっている場合における姿勢推定の精度の向上を図ることができる。

図１は、実施の形態１における姿勢推定装置の概略構成を示す構成図である。図２は、位置算出部によって算出される位置を示す図であり、図２（ａ）は関節の位置の一例を示し、図２（ｂ）は相対位置の一例を示し、図２（ｃ）は仮の基準位置の一例を示している。図３は、位置算出部の具体的な構成及び処理を示す図である。図４は、位置算出部と姿勢推定部との処理の概略を示す図である。図５は、姿勢推定部での具体的な処理を示す図である。図６は、基準位置が検出できない場合の位置算出部と姿勢推定部との処理の概略を示す図である。図７は、基準位置が検出できない場合の姿勢推定部での具体的な処理を示す図である。図８は、実施の形態１における姿勢推定装置の動作を示すフロー図である。図９は、実施の形態２においての位置算出部の具体的な構成及び処理を示す図である。図１０は、実施の形態２の変形例１においての位置算出部の具体的な構成及び処理を示す図である。図１１は、実施の形態２の変形例２においての位置算出部の具体的な構成及び処理を示す図である。図１２は、実施の形態１及び２における姿勢推定装置を実現するコンピュータの一例を示すブロック図である。

（実施の形態１）
　以下、実施の形態１における姿勢推定装置、姿勢推定方法、及びプログラムについて、図１～図８を参照しながら説明する。

［装置構成］
　最初に、実施の形態１における姿勢推定装置の概略構成について図１を用いて説明する。図１は、実施の形態１における姿勢推定装置の概略構成を示す構成図である。

　図１に示す、実施の形態１における姿勢推定装置１０は、画像中の人物の姿勢を推定する装置である。図１に示すように、姿勢推定装置１０は、位置算出部２０と、姿勢推定部３０とを備えている。

　位置算出部２０は、画像データから検出されている人物の関節それぞれについて、関節の位置と、関節から人物の基準となる部位（以下「基準部位」と表記する。）までの変位（以下「相対変位」と表記する。）と、に基づいて、人物の仮の基準位置を算出する。姿勢推定部３０は、検出されている関節毎に、算出された仮の基準位置に基づいて、関節が属する人物を決定する。

　以上のように、実施の形態１では、画像データ上で検出された各関節の位置と、各関節から人物の基準部位（例えば、腹部、首等）までの相対変位とを用いることで、関節毎の仮の基準位置が算出され、仮の基準位置によって、各関節がどの人物に属するかが決定される。つまり、画像データ上で人物の基準部位が表れていなくても、関節から基準部位までの相対変位さえ分かれば、関節と人物とを結びつけることができる。このため、実施の形態１によれば、推定対象となる人物の一部が隠れてしまっている場合においても、姿勢推定の精度を向上させることができる。

　続いて、図２及び図３を用いて、姿勢推定装置１０における位置算出部２０の構成及び機能について具体的に説明する。図２は、位置算出部によって算出される位置を示す図であり、図２（ａ）は関節の位置の一例を示し、図２（ｂ）は相対位置の一例を示し、図２（ｃ）は仮の基準位置の一例を示している。図３は、位置算出部の具体的な構成及び処理を示す図である。

　実施の形態１では、位置算出部２０は、図２（ａ）に示すように、画像データから、人物の関節及び人物の基準部位を検出する。また、位置算出部２０は、検出した関節の位置（以下「関節位置」と表記する）と、検出した基準部位の位置とを推定する。この推定された基準部位の位置は、仮ではなく、真の「基準位置」となる。

　対象となる関節は、右手首、右肘、右足首、右膝、左手首、左肘、左足首、左膝、等であり、予め設定されている。基準部位も予め設定されている。基準部位としては、例えば、みぞおち、首の付け根、等が挙げられる。図２（ａ）及び（ｂ）においては、関節位置は●で示し、基準位置は■で示す。

　更に、実施の形態１では、位置算出部２０は、関節位置及び基準位置以外にも、予め設定された部位の位置、例えば頭の位置を推定することもできる。図２（ａ）及び（ｂ）においては、頭の位置も●で示されている。実施の形態1では、関節位置には、頭の位置も含まれるものとする。位置算出部２０は、図２（ｂ）に示すように、画像データから、画像中の関節それぞれ毎に、関節から基準部位までの変位（ｘ、ｙ）も推定する。

　その後、位置算出部２０は、関節毎に、仮の基準位置を算出する。仮の基準位置は、各関節の関節位置から推定される人物の基準部位の仮の位置である。仮の基準位置は、関節毎に異なることがある。具体的には、位置算出部２０は、図２（ｃ）に示すように、画像中の関節それぞれ毎に、関節位置の座標と、関節についての相対変位とを足し合わせて、仮の基準位置を算出する。

　図２（ｃ）においては、仮の基準位置は▲で示される。なお、図２（ａ）～（ｃ）において、基準部位の位置（基準位置）と関節毎の仮の基準位置とが一致していないのは、関節位置、基準位置、及び変位それぞれは、画像処理によって推定されるからである。実施の形態１で用いられる画像処理については後述する。

　ここで、位置算出部２０の具体的構成について説明する。図３に示すように、実施の形態１では、位置算出部２０は、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）２１と、計算処理部２２とを備えている。

　ＣＮＮ２１は、人物の画像データが入力されると、人物の基準部位と各関節とのそれぞれ毎に、存在確率を示すマップ（以下「関節位置・基準位置マップ」と表記する。）２３を出力する。また、ＣＮＮ２１は、人物の画像データが入力されると、更に、人物の関節それぞれ毎に、その相対変位を示すマップ（以下「相対変位マップ」）２４も出力する。

　実施の形態１では、関節位置・基準位置マップ２３は、例えば、対象の存在確率を濃度で表す２次元のヒートマップである。相対変位マップ２４は、当該マップ上の関節位置に対応する要素において、相対変位の大きさ及び向きを格納しているマップである。ＣＮＮ２１は、抽出対象の画像と抽出対象を示すラベルとを訓練データとして、ディープラーニングを行うことによって構築されている。

　画像データ中に人物が複数存在する場合は、ＣＮＮ２１は、画像中の全ての関節毎に関節位置・基準位置マップ２３を出力する。また、関節位置・基準位置マップ２３それぞれには、関節の部位（右肘、左肘等）を示す情報、又は基準となる部位を示す情報が付与されている。相対変位マップ２４にも、対応する関節の部位を示す情報が付与されている。

　なお、画像データにおいては、人物の体の一部が物体で遮蔽されていたり、人物の一部分のみが表示されていたりして、全員又は一部の人物の基準部位が画像データ上で現れていない場合がある。この場合、位置算出部２０は、基準部位を検出できず、画像上で現れている関節のみを検出し、検出した関節の関節位置のみを推定することになる。

　計算処理部２２は、関節位置・基準位置マップ２３を用いて、関節それぞれの関節位置と、基準位置とを推定する。また、計算処理部２２は、相対変位マップ２４を用いて、関節それぞれの相対変位を推定する。

　具体的には、各関節及び基準となる部位は、複数個の画素で構成されているため、計算処理部２２は、図３に示すように、関節位置、基準位置、及び相対変位それぞれについて、それを構成する各画素の座標（ｘ、ｙ）を算出する。図３において、１画素は２つの矩形で表現されており、一方の矩形がｘ座標、他方の矩形がｙ座標に該当する。また、計算処理部２２は、図３に示すように、関節位置及び相対変位それぞれの画素毎の座標を用いて、仮の基準位置それぞれの画素毎の座標を計算する。

　続いて、図４及び図５を用いて、画像データから人物の基準部位が検出されている場合における姿勢推定部３０の機能について具体的に説明する。図４は、位置算出部と姿勢推定部との処理の概略を示す図である。図５は、姿勢推定部での具体的な処理を示す図である。

　図４に示すように、まず、位置算出部２０が、関節毎の関節位置●、基準位置■、及び関節毎の相対変位を推定し、そして、関節毎の仮の基準位置▲を算出しているとする。この場合、姿勢推定部３０は、関節毎に、仮の基準位置▲と検出された基準位置■とに基づいて、各関節が、検出された基準位置に対応する人物に属するかどうかを決定する。

　具体的には、図５に示すように、姿勢推定部３０は、まず、検出されている関節毎に、仮の基準位置と推定された基準位置との間の距離行列を求める。推定されている基準位置が複数存在する場合は、姿勢推定部３０は、各関節について、基準位置それぞれ毎に距離行列を求める。そして、姿勢推定部３０は、推定された基準位置と仮の基準位置との距離が、最小となり、且つ、一定値未満となるように、各関節をいずれかの基準位置に対応づける。これにより、関節毎に、それが属する人物が決定される。

　更に、図６及び図７を用いて、画像データから人物の基準部位が検出されていない場合における姿勢推定部３０の機能について具体的に説明する。図６は、基準位置が検出できない場合の位置算出部と姿勢推定部との処理の概略を示す図である。図７は、基準位置が検出できない場合の姿勢推定部での具体的な処理を示す図である。

　図６に示すように、画像データにおいて、１人の人物の体が物体で遮蔽され、別の人物は上半身のみが表示され、両者の基準部位は画像データ上で現れておらず、検出されていないとする。この場合、位置算出部２０は、画像データ上に表れている各関節を検出し、検出した関節についてのみ、関節位置及び相対変位を推定し、更に、仮の基準位置を算出する。

　そして、基準位置は推定されていないので、姿勢推定部３０は、検出されている関節それぞれの仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出されている関節毎に、各関節が属する人物を決定する。

　具体的には、図７に示すように、姿勢推定部３０は、検出された関節それぞれの仮の基準位置を特徴空間に展開する。この場合の特徴空間の次元数は、仮の基準位置が２次元座標で表されるので、２次元となる。そして、姿勢推定部３０は、特徴空間に展開された仮の基準位置に対して、以下の（ａ）～（ｅ）の処理によってクラスタリングを実行する。

（ａ）ランダムにクラスタ中心を決定する。
（ｂ）決定したクラスタ中心を用いてk-meansによるクラスタリングを実施する。
（ｃ）得られたクラスタ内のサンプルがガウス分布に従うかどうかを、統計的仮説検定に基づいて検証する。この検証は、クラスタ内のサンプルがガウス分布に従うという仮説に基づいて行われる。
（ｄ）上記（ｃ）の検証によって上記仮説が棄却された場合は、該当するクラスタを２つに分割する。一方、上記（ｃ）の検証によって上記仮説が棄却されなかった場合は、該当するクラスタを確定する。
（ｅ）上記（ｄ）によるクラスタの分割がなくなるまで上記（ｂ）から（ｄ）を反復する。

　また、姿勢推定部３０は、クラスタリングにおいて、同一種類の複数の関節（例えば、右手首と右手首等）についての仮の基準位置が、同じクラスタに含まれないようにする。そして、姿勢推定部３０は、同一のクラスタに含まれる仮の基準位置の関節は、同一人物に属することとする。

　また、図６及び図７に示した処理は、画像データ中の人物全てにおいて基準部位が検出されていない場合に実行される。姿勢推定部３０は、例えば、関節が複数検出されているにもかかわらず、基準部位が１つも検出されていない場合は、画像データ中の人物全てにおいて基準部位が検出されていないと判定し、図６及び図７に示した処理を実行する。なお、姿勢推定部３０は、画像データ中の人物全てにおいて基準部位が検出されている場合において、図６及び図７に示した処理を実行することもできる。

　姿勢推定部３０は、全ての関節について所属先の人物が決定されると、人物それぞれ毎に、その人物に属する関節の位置に基づいて、人物の姿勢を推定する。具体的には、姿勢推定部３０は、例えば、未検出等によって一部の関節が欠損している場合の人物の関節位置の情報から全関節位置の情報を推定する機械学習モデルを用いることによって、最終的な人物の姿勢を推定することができる。

［装置動作］
　次に、実施の形態１における姿勢推定装置１０の動作について図８を用いて説明する。図８は、実施の形態１における姿勢推定装置の動作を示すフロー図である。以下の説明においては、適宜図１～図７を参照する。また、実施の形態１では、姿勢推定装置１０を動作させることによって、姿勢推定方法が実施される。よって、実施の形態１における姿勢推定方法の説明は、以下の姿勢推定装置１０の動作説明に代える。

　図８に示すように、最初に、位置算出部２０は、画像データを取得する（ステップＡ１）。ステップＡ１における画像データは、監視カメラ等の撮像装置から直接出力されてきた画像データであっても良いし、記憶装置に格納されている画像データであっても良い。

　次に、位置算出部２０は、画像データから、人物の関節及び基準部位を検出し、関節位置、相対変位及び基準位置を推定する（ステップＡ２）具体的には、ステップＡ２では、まず、ＣＮＮ２１が、ステップＡ１で取得された画像データが入力されると、関節位置・基準位置マップ２３及び相対変位マップ２４を出力する。そして、計算処理部２２が、関節位置・基準位置マップ２３を用いて、関節位置及び基準位置を推定し、相対変位マップ２４を用いて、関節それぞれの相対変位を推定する。

　次に、位置算出部２０は、関節毎に、ステップＡ２で推定された関節位置と相対変位とを用いて、仮の基準位置を算出する（ステップＡ３）。具体的には、ステップＡ３では、位置算出部２０は、図２（ｃ）に示したように、関節毎に、関節位置の座標と、関節についての相対変位とを足し合わせて、仮の基準位置を算出する。

　次に、姿勢推定部３０は、ステップＡ２において画像データから少なくとも１人の人物について基準部位が検出されているかどうかを判定する（ステップＡ４）。具体的には、姿勢推定部３０は、ステップＡ２において少なくとも１つの基準位置が推定されている場合は、少なくとも１人の人物について基準部位が検出されていると判定する。

　ステップＡ４の判定の結果、画像データから少なくとも１人の人物について基準部位が検出されている場合は、姿勢推定部３０は、ステップＡ５～Ａ７の処理を実行する。

　ステップＡ５では、姿勢推定部３０は、検出されている関節毎に、仮の基準位置と推定された基準位置との間の距離行列を求め、更に、距離行列から距離を算出する。ステップＡ２で推定された基準位置が複数存在する場合は、姿勢推定部３０は、各関節について、基準位置それぞれ毎に距離行列を求め、距離を算出する。

　ステップＡ６では、姿勢推定部３０は、推定された基準位置と仮の基準位置との距離が、最小となり、且つ、一定値未満となるように、各関節をいずれかの基準位置に対応づけ、各関節が属する人物を決定する。また、姿勢推定部３０は、同一種類の複数の関節（例えば、右手首と右手首等）が同じ人物に属しないことも条件として、各関節が属する人物を決定する。

　ステップＡ７では、姿勢推定部３０は、基準位置に対応付けられていない関節が存在しているかどうかを判定する。ステップＡ７において、基準位置に対応付けられていない関節が存在していない場合は、姿勢推定部３０は、人物それぞれ毎に、その人物に属する関節の位置に基づいて、人物の姿勢を推定する（ステップＡ８）。ステップＡ７において、基準位置に対応付けられていない関節が存在している場合については、後述する。

　一方、ステップＡ４の判定の結果、画像データから１人の人物についても基準部位が検出されていない場合は、姿勢推定部３０は、ステップＡ９及びＡ１０の処理を実行する。

　ステップＡ９では、姿勢推定部３０は、関節毎の仮の基準位置を特徴空間に展開し、特徴空間に展開された仮の基準位置に対してクラスタリングを実行する。具体的には、姿勢推定部３０は、上述した（ａ）～（ｅ）の処理によってクラスタリングを実行する。

　ステップＡ１０では、姿勢推定部３０は、同一のクラスタに含まれる仮の基準位置の関節は、同一人物に属することとして、各関節が属する人物を決定する。

　ステップＡ９及びＡ１０の実行後も、姿勢推定部３０は、ステップＡ８を実行し、人物それぞれ毎に、その人物に属する関節の位置に基づいて、人物の姿勢を推定する。

　また、ステップＡ７において、基準位置に対応付けられていない関節が存在している場合は、姿勢推定部３０は、基準位置に対応付けられていない関節を対象にして、ステップＡ９及びＡ１０を実行する。これにより、基準位置に対応付けられていないと判定された関節についても、人物が決定され、更に、ステップ８による姿勢推定が実行される。

　このように、ステップＡ１～Ａ１０が実行されると、画像データ中の人物の姿勢が推定される。また、画像データの取得先が、監視カメラ等の撮像装置である場合は、ステップＡ１～Ａ１０は、例えば、画像データが出力される度に、又は設定時間が経過する度に、実行される。

［プログラム］
　実施の形態１におけるプログラムは、コンピュータに、図８に示すステップＡ１～Ａ１０を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態１における姿勢推定装置１０と姿勢推定方法とを実現することができる。この場合、コンピュータのプロセッサは、位置算出部２０及び姿勢推定部３０として機能し、処理を行なう。コンピュータとしては、汎用のＰＣの他に、スマートフォン、タブレット型端末装置が挙げられる。

　また、実施の形態１におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、位置算出部２０及び姿勢推定部３０のいずれかとして機能しても良い。

［実施の形態１における効果］
　以上のように、実施の形態１によれば、画像データ上で、姿勢推定の対象となる人物の一部が隠れてしまっている場合であっても、検出された関節が属する人物を正確に決定でき、姿勢推定の精度の向上が図られる。

　（実施の形態２）
　次に、実施の形態２における姿勢推定装置、姿勢推定方法、及びプログラムについて、図９～図１１を参照しながら説明する。

　実施の形態２における姿勢推定装置は、図１に示した実施の形態１における姿勢推定装置と同様に構成されており、位置算出部２０と、姿勢推定部３０とを備えている。但し、実施の形態２では、実施の形態１と異なり、検出された関節の関節位置、及び関節毎の相対変位は、３次元座標上で表現される。以下、実施の形態１との相違点を中心に説明する。

　実施の形態２における姿勢推定装置は、位置算出部２０の機能の点で、実施の形態１における姿勢推定装置と異なっている。実施の形態２では、位置算出部２０は、検出した関節それぞれの深度、及び画像データを撮影したカメラのパラメータを用いて、関節それぞれについて、関節位置を示す３次元座標、及び相対変位を示す３次元座標、を推定する。また、位置算出部２０は、推定した関節位置を示す３次元座標、及び相対変位を示す３次元座標に基づいて、人物の仮の基準位置を示す３次元座標を算出する。

　この点について図９を用いて説明する。図９は、実施の形態２においての位置算出部の具体的な構成及び処理を示す図である。図９に示すように、実施の形態２においても、位置算出部２０は、ＣＮＮ２１と、計算処理部２２とを備えている。

　実施の形態２においても、実施の形態１と同様に、ＣＮＮ２１は、人物の画像データが入力されると、人物の基準部位と各関節とのそれぞれ毎に、関節位置・基準位置マップ２３と、相対変位マップ２４とを出力する。

　但し、実施の形態２では、相対変位マップ２４は、当該マップ上の画像中の関節位置に対応する要素において、基準位置への３次元での相対変位の大きさ及び向きを格納している。また、ＣＮＮ２１は、実施の形態２では、画像データが入力されると、人物の基準部位と各関節とのそれぞれ毎に、深度マップ２５も出力する。深度マップ２５は、当該マップ上の画像中の関節位置に対応する要素において、基準部位又は関節から、画像データを撮影したカメラまでの深度（距離）を格納している。実施の形態３では、ＣＮＮ２１は、抽出対象の画像、抽出対象までの深度、及び抽出対象を示すラベルを訓練データとして、ディープラーニングを行うことによって構築されている。

　計算処理部２２は、実施の形態２では、カメラのカメラパラメータと、関節位置・基準位置マップ２３と、深度マップ２５とを用いて、関節それぞれの関節位置と、基準位置との３次元座標を推定する。また、計算処理部２２は、カメラのカメラパラメータと、関節位置・基準位置マップ２３と、カメラの相対変位マップ２４と、深度マップ２５とを用いて、関節それぞれの相対変位の３次元座標を推定する。

　カメラパラメータは、実施の形態２では、外部などから入力される。カメラパラメータは、カメラの内部パラメータと外部パラメータとで構成される。内部パラメータは、カメラの位置を原点とするカメラの３次元座標と画像の２次元座標との間の座標変換に利用されるパラメータである。内部パラメータとしては、カメラの焦点距離、画像中心の位置などが挙げられる。外部パラメータは、実世界の座標である３次元の世界座標とカメラ座標との間の座標変換に利用されるパラメータである。外部パラメータとしては、カメラの取り付け位置の高さ、カメラの俯角などが挙げられる。

　実施の形態２においても、各関節及び基準となる部位は、複数個の画素で構成されている。計算処理部２２は、図９に示すように、関節位置、基準位置、及び相対変位それぞれについて、それを構成する各画素の３次元座標（ｘ、ｙ、ｚ）を算出する。図９においては、１画素は３つの矩形で表現されており、それぞれ、ｘ座標、ｙ座標、ｚ座標に該当する。また、計算処理部２２は、図９に示すように、関節位置及び相対変位それぞれの画素毎の３次元座標を用いて、仮の基準位置それぞれの画素毎の３次元座標を計算する。

　姿勢推定部３０は、実施の形態２においても、実施の形態１と同様に、検出されている関節毎に、それぞれについて算出された仮の基準位置に基づいて、各関節が属する人物を決定する。

　但し、実施の形態２においては、基準位置及び仮の基準位置として３次元座標が求められている。このため、画像データから人物全ての基準部位が検出されている場合は、姿勢推定部３０は、３次元の距離行列を求めて、各関節が属する人物を決定する。また、画像データから人物全ての基準部位が検出されていない場合は、姿勢推定部３０は、３次元の特徴空間に仮の基準位置を展開してクラスタリングを実行し、その後、各関節が属する人物を決定する。

　また、実施の形態２においても姿勢推定装置は、図８に示したステップＡ１～Ａ７を実行する。但し、実施の形態２では、位置算出部２０は、実施の形態１と異なり、ステップＡ２において、関節毎に、関節位置を示す３次元座標、及び相対変位を示す３次元座標、を推定する。また、位置算出部２０は、実施の形態１と異なり、ステップＡ３において、人物の仮の基準位置を示す３次元座標を算出する。なお、実施の形態２においても、実施の形態２における姿勢推定装置を動作させることによって、実施の形態２における姿勢推定方法が実施される。

　更に、実施の形態２におけるプログラムも、コンピュータに、図８に示すステップＡ１～Ａ７を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態２における姿勢推定装置と姿勢推定方法とを実現することができる。

［変形例１］
　ここで、実施の形態２における変形例１について図１０を用いて説明する。図１０は、実施の形態２の変形例１においての位置算出部の具体的な構成及び処理を示す図である。図１０に示すように、変形例１においても、位置算出部２０は、ＣＮＮ２１と、計算処理部２２とを備えている。

　但し、変形例１では、ＣＮＮ２１は、人物の画像データが入力されると、関節位置・基準位置マップ２３、相対変位マップ２４、及び深度マップ２５に加えて、画像データを撮影したカメラのカメラパラメータ２６も出力する。変形例１では、ＣＮＮ２１は、抽出対象の画像、抽出対象までの深度、抽出対象を示すラベル、及びカメラパラメータを訓練データとして、ディープラーニングを行うことによって構築されている。

　このため、変形例１では、計算処理部２２は、ＣＮＮ２１が出力したパラメータを用いて、関節毎に、関節位置を示す３次元座標、及び相対変位を示す３次元座標、を推定し、更に、これらを用いて、人物の仮の基準位置を示す３次元座標を算出する。変形例２によれば、外部からカメラパラメータを入力することなく、３次元座標の推定及び算出が可能となる。

［変形例２］
　続いて、実施の形態２における変形例２について図１１を用いて説明する。図１１は、実施の形態２の変形例２においての位置算出部の具体的な構成及び処理を示す図である。図１０に示すように、変形例２においても、位置算出部２０は、位置算出部２０は、ＣＮＮ２１と、計算処理部２２とを備えている。

　変形例２においては、ＣＮＮ２１は、実施の形態１に示した例と同様に、関節位置・基準位置マップ２３と相対変位マップ２４との２つのみを出力する。但し、変形例２では、位置算出部２０には、深度情報と、カメラパラメータとが入力されている。

　深度情報は、距離計測装置４０で計測された対象の深度を特定する情報である。変形例２においては、深度情報によって、姿勢推定装置に入力される画像データの被写体の深度が特定されている。距離計測装置４０の具体例としては、ステレオカメラ、ＴＯＦ（Time Of Flight）カメラ、ＬｉＤＡＲ（Laser Imaging Detection and Ranging）といった、深度情報の取得が可能な装置が挙げられる。

　そして、変形例２では、計算処理部２２は、カメラのカメラパラメータと、関節位置・基準位置マップ２３と、深度情報とを用いて、関節それぞれの関節位置と、基準位置との３次元座標を推定する。また、計算処理部２２は、カメラのカメラパラメータと、カメラの相対変位マップ２４と、深度情報とを用いて、関節それぞれの相対変位の３次元座標を推定する。変形例２によれば、ＣＮＮ２１から物体の深度を出力させなくても、３次元座標の推定及び算出が可能となる。

［実施の形態２における効果］
　以上のように、実施の形態２によれば、仮の基準位置は３次元座標として算出されるため、姿勢推定の対象となる人物の一部が隠れてしまっている場合であっても、関節の所属先の決定をより正確に行うことができ、姿勢推定精度の更なる向上が図られる。

（物理構成）
　実施の形態１及び２におけるプログラムを実行することによって、姿勢推定装置を実現するコンピュータについて図１２を用いて説明する。図１２は、実施の形態１及び２における姿勢推定装置を実現するコンピュータの一例を示すブロック図である。

　図１２に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

　コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていても良い。この態様では、ＧＰＵ又はＦＰＧＡが、実施の形態におけるプログラムを実行することができる。

　ＣＰＵ１１１は、記憶装置１１３に格納された、コード群で構成された実施の形態におけるプログラムをメインメモリ１１２に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。

　実施の形態１及び２におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。実施の形態１及び２におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

　記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

　データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

　記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体が挙げられる。

　なお、実施の形態１及び２における姿勢推定装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェア、例えば、電子回路を用いることによっても実現可能である。更に、姿勢推定装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

　上述した実施の形態の一部又は全部は、以下に記載する（付記１）～（付記２４）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出する、位置算出部と、
　検出されている前記関節毎に、算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定する、姿勢推定部と、
を備えていることを特徴とする姿勢推定装置。

（付記２）
付記１に記載の姿勢推定装置であって、
　前記位置算出部は、前記人物の関節点それぞれについて、当該関節の位置、及び当該関節についての前記変位を推定し、推定した当該関節の位置及び当該関節についての前記変位に基づいて、前記人物の仮の基準位置を算出する、
ことを特徴とする姿勢推定装置。

（付記３）
付記１または２に記載の姿勢推定装置であって、
　前記姿勢推定部が、前記人物それぞれ毎に、当該人物に属する前記関節の位置に基づいて、当該人物の姿勢を推定する、
ことを特徴とする姿勢推定装置。

（付記４）
付記１～３のいずれかに記載の姿勢推定装置であって、
　前記画像データから、前記人物の基準となる部位が検出されている場合に、
　前記姿勢推定部が、検出されている前記関節毎に、前記仮の基準位置と検出された前記基準となる部位の位置との間の距離行列を求め、求めた前記距離行列を用いて、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定装置。

（付記５）
付記４に記載の姿勢推定装置であって、
　前記画像データ中に、前記基準となる部位が検出されていない人物が存在する場合に、
　前記姿勢推定部が、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定装置。

（付記６）
付記１～３のいずれかに記載の姿勢推定装置であって、
　前記姿勢推定部が、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定装置。

（付記７）
付記１～６のいずれかに記載の姿勢推定装置であって、
　前記関節の位置、及び前記関節についての変位は、３次元座標上で表現される、
ことを特徴とする姿勢推定装置。

（付記８）
付記２に記載の姿勢推定装置であって、
　前記位置算出部が、検出されている前記関節それぞれの深度、及び前記画像データを撮影したカメラのパラメータを用いて、前記関節それぞれについて、当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標、を推定し、推定した当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標に基づいて、前記人物の仮の基準位置を示す３次元座標を算出する、
ことを特徴とする姿勢推定装置。

（付記９）
　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出する、位置算出ステップと、
　検出されている前記関節毎に、算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定する、姿勢推定ステップと、
を備えていることを特徴とする姿勢推定方法。

（付記１０）
付記９に記載の姿勢推定方法であって、
　前記位置算出ステップにおいて、前記人物の関節点それぞれについて、当該関節の位置、及び当該関節についての前記変位を推定し、推定した当該関節の位置及び当該関節についての前記変位に基づいて、前記人物の仮の基準位置を算出する、
ことを特徴とする姿勢推定方法。

（付記１１）
付記９または１０に記載の姿勢推定方法であって、
　前記姿勢推定ステップにおいて、前記人物それぞれ毎に、当該人物に属する前記関節の位置に基づいて、当該人物の姿勢を推定する、
ことを特徴とする姿勢推定方法。

（付記１２）
付記９～１１のいずれかに記載の姿勢推定方法であって、
　前記画像データから、前記人物の基準となる部位が検出されている場合に、
　前記姿勢推定ステップにおいて、検出されている前記関節毎に、前記仮の基準位置と検出された前記基準となる部位の位置との間の距離行列を求め、求めた前記距離行列を用いて、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定方法。

（付記１３）
付記１２に記載の姿勢推定方法であって、
　前記画像データ中に、前記基準となる部位が検出されていない人物が存在する場合に、
　前記姿勢推定ステップにおいて、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定方法。

（付記１４）
付記９～１１のいずれかに記載の姿勢推定方法であって、
　前記姿勢推定ステップにおいて、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定方法。

（付記１５）
付記９～１４のいずれかに記載の姿勢推定方法であって、
　前記関節の位置、及び前記関節についての変位は、３次元座標上で表現される、
ことを特徴とする姿勢推定方法。

（付記１６）
付記１０に記載の姿勢推定方法であって、
　前記位置算出ステップにおいて、検出されている前記関節それぞれの深度、及び前記画像データを撮影したカメラのパラメータを用いて、前記関節それぞれについて、当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標、を推定し、推定した当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標に基づいて、前記人物の仮の基準位置を示す３次元座標を算出する、
ことを特徴とする姿勢推定方法。

（付記１７）
コンピュータに、
　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出する、位置算出ステップと、
　検出されている前記関節毎に、算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定する、姿勢推定ステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１８）
付記１７に記載のコンピュータ読み取り可能な記録媒体であって、
　前記位置算出ステップにおいて、前記人物の関節点それぞれについて、当該関節の位置、及び当該関節についての前記変位を推定し、推定した当該関節の位置及び当該関節についての前記変位に基づいて、前記人物の仮の基準位置を算出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１９）
付記１７または１８に記載のコンピュータ読み取り可能な記録媒体であって、
　前記姿勢推定ステップにおいて、前記人物それぞれ毎に、当該人物に属する前記関節の位置に基づいて、当該人物の姿勢を推定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２０）
付記１７～１９のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
　前記画像データから、前記人物の基準となる部位が検出されている場合に、
　前記姿勢推定ステップにおいて、検出されている前記関節毎に、前記仮の基準位置と検出された前記基準となる部位の位置との間の距離行列を求め、求めた前記距離行列を用いて、当該関節が属する人物を決定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２１）
付記２０に記載のコンピュータ読み取り可能な記録媒体であって、
　前記画像データ中に、前記基準となる部位が検出されていない人物が存在する場合に、
　前記姿勢推定ステップにおいて、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２２）
付記１７～１９のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
　前記姿勢推定ステップにおいて、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２３）
付記１７～２２のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
　前記関節の位置、及び前記関節についての変位は、３次元座標上で表現される、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２４）
付記１８に記載のコンピュータ読み取り可能な記録媒体であって、
　前記位置算出ステップにおいて、検出されている前記関節それぞれの深度、及び前記画像データを撮影したカメラのパラメータを用いて、前記関節それぞれについて、当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標、を推定し、推定した当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標に基づいて、前記人物の仮の基準位置を示す３次元座標を算出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　以上のように、本発明によれば、推定対象となる人物の一部が隠れてしまっている場合における姿勢推定の精度の向上を図ることができる。本発明は、画像データ上で人物の姿勢を推定することが求められるシステム、例えば、監視システムに有用である。

　１０　姿勢推定装置
　２０　位置算出部
　２１　ＣＮＮ
　２２　計算処理部
　２３　関節位置・基準位置マップ
　２４　相対変位マップ
　２５　深度マップ
　２６　カメラパラメータ
　３０　姿勢推定部
　４０　距離計測装置
　１１０　コンピュータ
　１１１　ＣＰＵ
　１１２　メインメモリ
　１１３　記憶装置
　１１４　入力インターフェイス
　１１５　表示コントローラ
　１１６　データリーダ／ライタ
　１１７　通信インターフェイス
　１１８　入力機器
　１１９　ディスプレイ装置
　１２０　記録媒体
　１２１　バス

Claims

　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出する、位置算出手段と、
　検出されている前記関節毎に算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定する、姿勢推定手段と、
を備えていることを特徴とする姿勢推定装置。
請求項１に記載の姿勢推定装置であって、
　前記位置算出手段は、前記人物の関節点それぞれについて、当該関節の位置、及び当該関節についての前記変位を推定し、推定した当該関節の位置及び当該関節についての前記変位に基づいて、前記人物の仮の基準位置を算出する、
ことを特徴とする姿勢推定装置。
請求項１または２に記載の姿勢推定装置であって、
　前記姿勢推定手段が、前記人物それぞれ毎に、当該人物に属する前記関節の位置に基づいて、当該人物の姿勢を推定する、
ことを特徴とする姿勢推定装置。
請求項１～３のいずれかに記載の姿勢推定装置であって、
　前記画像データから、前記人物の基準となる部位が検出されている場合に、
　前記姿勢推定手段が、検出されている前記関節毎に、前記仮の基準位置と検出された前記基準となる部位の位置との間の距離行列を求め、求めた前記距離行列を用いて、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定装置。
請求項４に記載の姿勢推定装置であって、
　前記画像データ中に、前記基準となる部位が検出されていない人物が存在する場合に、
　前記姿勢推定手段が、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定装置。
請求項１～３のいずれかに記載の姿勢推定装置であって、
　前記姿勢推定手段が、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定装置。
請求項１～６のいずれかに記載の姿勢推定装置であって、
　前記関節の位置、及び前記関節についての変位は、３次元座標上で表現される、
ことを特徴とする姿勢推定装置。
請求項２に記載の姿勢推定装置であって、
　前記位置算出手段が、検出されている前記関節それぞれの深度、及び前記画像データを撮影したカメラのパラメータを用いて、前記関節それぞれについて、当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標、を推定し、推定した当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標に基づいて、前記人物の仮の基準位置を示す３次元座標を算出する、
ことを特徴とする姿勢推定装置。
　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出し、
　検出されている前記関節毎に、算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定方法。
請求項９に記載の姿勢推定方法であって、
　前記仮の基準位置の算出において、前記人物の関節点それぞれについて、当該関節の位置、及び当該関節についての前記変位を推定し、推定した当該関節の位置及び当該関節についての前記変位に基づいて、前記人物の仮の基準位置を算出する、
ことを特徴とする姿勢推定方法。
請求項９または１０に記載の姿勢推定方法であって、
　前記人物の決定において、前記人物それぞれ毎に、当該人物に属する前記関節の位置に基づいて、当該人物の姿勢を推定する、
ことを特徴とする姿勢推定方法。
請求項９～１１のいずれかに記載の姿勢推定方法であって、
　前記画像データから、前記人物の基準となる部位が検出されている場合に、
　前記人物の決定において、検出されている前記関節毎に、前記仮の基準位置と検出された前記基準となる部位の位置との間の距離行列を求め、求めた前記距離行列を用いて、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定方法。
請求項１２に記載の姿勢推定方法であって、
　前記画像データ中に、前記基準となる部位が検出されていない人物が存在する場合に、
　前記人物の決定において、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定方法。
請求項９～１１のいずれかに記載の姿勢推定方法であって、
　前記人物の決定において、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とする姿勢推定方法。
請求項９～１４のいずれかに記載の姿勢推定方法であって、
　前記関節の位置、及び前記関節についての変位は、３次元座標上で表現される、
ことを特徴とする姿勢推定方法。
請求項１０に記載の姿勢推定方法であって、
　前記仮の基準位置の算出において、検出されている前記関節それぞれの深度、及び前記画像データを撮影したカメラのパラメータを用いて、前記関節それぞれについて、当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標、を推定し、推定した当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標に基づいて、前記人物の仮の基準位置を示す３次元座標を算出する、
ことを特徴とする姿勢推定方法。
コンピュータに、
　画像データから検出されている人物の関節それぞれについて、当該関節の位置、及び当該関節から前記人物の基準となる部位までの変位に基づいて、前記人物の仮の基準位置を算出させ、
　検出されている前記関節毎に、算出された前記仮の基準位置に基づいて、当該関節が属する人物を決定させる、
命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
請求項１７に記載のコンピュータ読み取り可能な記録媒体であって、
　前記仮の基準位置の算出において、前記人物の関節点それぞれについて、当該関節の位置、及び当該関節についての前記変位を推定し、推定した当該関節の位置及び当該関節についての前記変位に基づいて、前記人物の仮の基準位置を算出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１７または１８に記載のコンピュータ読み取り可能な記録媒体であって、
　前記人物の決定において、前記人物それぞれ毎に、当該人物に属する前記関節の位置に基づいて、当該人物の姿勢を推定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１７～１９のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
　前記画像データから、前記人物の基準となる部位が検出されている場合に、
　前記人物の決定において、検出されている前記関節毎に、前記仮の基準位置と検出された前記基準となる部位の位置との間の距離行列を求め、求めた前記距離行列を用いて、当該関節が属する人物を決定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項２０に記載のコンピュータ読み取り可能な記録媒体であって、
　前記画像データ中に、前記基準となる部位が検出されていない人物が存在する場合に、
　前記人物の決定において、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１７～１９のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
　前記人物の決定において、検出されている前記関節それぞれの前記仮の基準位置に対してクラスタリングを実行し、クラスタリングの結果に基づいて、検出された前記関節毎に、当該関節が属する人物を決定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１７～２２のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
　前記関節の位置、及び前記関節についての変位は、３次元座標上で表現される、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１８に記載のコンピュータ読み取り可能な記録媒体であって、
　前記仮の基準位置の算出において、検出されている前記関節それぞれの深度、及び前記画像データを撮影したカメラのパラメータを用いて、前記関節それぞれについて、当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標、を推定し、推定した当該関節の位置を示す３次元座標、及び当該関節についての前記変位を示す３次元座標に基づいて、前記人物の仮の基準位置を示す３次元座標を算出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。