WO2022230221A1

WO2022230221A1 - ポーズデータ生成装置、ポーズデータ生成方法、および、プログラム

Info

Publication number: WO2022230221A1
Application number: PCT/JP2021/040988
Authority: WO
Inventors: 真人松本
Original assignee: 株式会社メガチップス
Priority date: 2021-04-28
Filing date: 2021-11-08
Publication date: 2022-11-03
Also published as: JP7566683B2; JP2022170022A

Abstract

低コストで実現でき、かつ、高精度なポーズデータを取得するポーズデータ生成装置を実現する。ポーズデータ生成装置（１００）では、被写体の部位ごとに、ヒートマップ取得部により取得されたヒートマップに基づく第１信頼度と、信頼度取得部により取得された第２信頼度とを合成することで行うことで、より精度の高い信頼度である合成信頼度を部位ごとに取得することができる。そして、このポーズデータ生成装置（１００）の精密２次元ポーズデータ取得部では、合成信頼度に基づいて、精密ポーズデータを取得するので、精度の高い２次元ポーズデータを取得することができる。そして、ポーズデータ生成装置（１００）では、上記のように取得した精密２次元ポーズデータに対して、２Ｄ－３Ｄ変換を行うことで、高精度な３次元ポーズデータを取得することができる。

Description

ポーズデータ生成装置、ポーズデータ生成方法、および、プログラム

　本発明は、移動可能であり、かつ、その姿勢が可変である、人、生物、物体等のポーズを推定する技術に関する。

　近年、現実の人や物体の動きを記録する技術であるモーションキャプチャーが注目されており、高精度なモーションキャプチャーを実現するために、人のポーズを高精度に推定する技術が求められている。

　例えば、非特許文献１には、２次元の映像から２次元のキーポイントデータ（２次元映像に映っている人の２次元のキーポイントデータ）を取得し、取得した２次元キーポイントデータから３次元のポーズデータ（人のポーズデータ）を取得（推定）する技術の開示がある。しかしながら、非特許文献１の技術では、２次元の映像上（２次元画像上）で、例えば、人の所定の部位が他の部位に隠れて見えなくなった状態（オクルージョンが発生している状態）が発生すると、上記処理により取得される３次元のポーズデータ（人のポーズデータ）が正しいものではなくなってしまうことがある。つまり、このような場合、非特許文献１の技術では、オクルージョンが発生している部位について、キーポイントを検出できない、あるいは、キーポイントを誤検出してしまうという問題がある。

　これに対処するために、例えば、非特許文献２には、シリンダー・マン・モデル（Ｃｙｌｉｎｄｅｒ　Ｍａｎ　Ｍｏｄｅｌ）を用いて、隠れたキーポイント（オクルージョンが発生している部位のキーポイント）を含めた学習データを作成し、半教師あり学習を行い、取得した学習済みモデルを用いて、２次元の映像から３次元のポーズデータ（人のポーズデータ）を取得（推定）する技術の開示がある。

Dario Pavllo, Christoph Feichtenhofer, David Grangier, Michael Auli, "3D human pose estimation in video with temporal convolutions and semi-supervised training" Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 7753-7762. Yu Cheng, Bo Yang, Bo Wang, Wending Yan, and Robby T. Tan, "Occlusion-Aware Networks for 3D Human Pose Estimation in Video" Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 723-732.

　しかしながら、上記従来の技術では、２次元の映像から３次元のポーズデータ（人のポーズデータ）を取得（推定）するために、非常に複雑な処理を実行する必要がある。具体的には、上記非特許文献１の技術では、２次元の映像から２次元のキーポイントデータ（２次元映像に映っている人の２次元のキーポイントデータ）を取得することを時系列に連続的に行い、時系列に連続的に取得した２次元のキーポイントデータを入力として、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）による処理を行う必要がある。そして、このＣＮＮによる処理において、時系列データの一定期間のデータを常に入力する必要があり、演算量が多くなり、高速処理を実行できる高精度なハードウェアを用いなければ、２次元の映像を入力してから、３次元のポーズデータ（人のポーズデータ）を取得（推定）するまでの処理時間（遅延時間）を少なくすることが困難である。

　また、上記非特許文献２の技術においても、２次元の映像から２次元のキーポイントデータ（２次元映像に映っている人の２次元のキーポイントデータ）を取得することを時系列に連続的に行い、時系列に連続的に取得した２次元のキーポイントデータを入力として、２次元ポーズデータを取得するための時系列のコンボリューション処理（例えば、ＣＮＮによる処理）を行い、さらに、３次元ポーズデータを取得するための時系列のコンボリューション処理（例えば、ＣＮＮによる処理）を行う必要がある。また、非特許文献２の技術では、２次元映像上において、人の所定の部位が他の部位に隠れた状態（オクルージョンが発生している状態）を含む場合であっても、適切なキーポイントデータを取得（推定）するために、シリンダー・マン・モデル（Ｃｙｌｉｎｄｅｒ　Ｍａｎ　Ｍｏｄｅｌ）を用いて、人のポーズを規制する条件を課して、学習データを作成し、学習処理を行い、学習済みモデルを取得する必要がある。そして、非特許文献２の技術では、上記学習処理により取得した学習済みモデルを用いて、２次元の映像から３次元のポーズデータ（人のポーズデータ）を取得（推定）する。つまり、非特許文献２の技術では、上記の通り、複雑な学習処理により取得された複雑な学習済みモデルを用いて処理を行うため、２次元の映像を入力してから、３次元のポーズデータ（人のポーズデータ）を取得（推定）するための演算量が多く、また、処理時間（遅延時間）も長くなる。そのため、非特許文献２の技術を用いる場合においても、高速処理を実行できる高精度なハードウェアを用いることが必要となる。

　このように、上記従来技術（非特許文献１、２の技術）では、学習済みモデルを取得するために、複雑な学習モデルを用いて学習処理を実行する必要があり、学習済みモデルを構築のための負荷が大きい。さらに、上記従来技術（非特許文献１、２の技術）では、予測処理（３次元のポーズデータを推定する処理）において、複雑な構成の学習済みモデルを用いて処理を行うため、例えば、ハードウェアで実現する場合、当該ハードウェアの規模が大きくなり、その結果、上記従来技術（非特許文献１、２の技術）を実現するためのコストも高くなる。

　そこで、本発明は、上記課題に鑑み、低コストで実現でき、かつ、高精度なポーズデータを取得するポーズデータ生成装置、ポーズデータ生成方法、および、プログラムを実現することを目的とする。

　上記課題を解決するために、第１の発明は、２Ｄポーズ推定部と、ヒートマップ取得部と、予測データ取得部と、信頼度取得部と、精密ポーズデータ取得部と、を備えるポーズデータ生成装置である。

　２Ｄポーズ推定部は、３次元空間内の被写体を撮像することで取得される画像データまたは画像データから特徴量を抽出したデータである特徴量抽出データから、被写体の所定の部位の位置を示すデータであるキーポイントデータを取得することで、被写体の２次元ポーズデータを取得する。

　ヒートマップ取得部は、画像データまたは特徴量抽出データにより形成される２次元画像上の所定の画像領域が、被写体の所定の部位に相当する画像領域であることの確からしさを示す値である第１信頼度を取得することで、被写体の部位ごとのヒートマップを取得する。

　予測データ取得部は、２Ｄポーズ推定部により取得された２次元ポーズデータに含まれるキーポイントデータを用いて予測処理を実行することで、予測キーポイントデータを取得し、取得した予測キーポイントデータを含むデータを予測２次元ポーズデータとして取得する。

　信頼度取得部は、被写体の部位ごとに、ヒートマップにより特定される第１信頼度と、予測２次元ポーズデータに含まれるキーポイントデータの信頼度である第２信頼度とを取得するとともに、第１信頼度と第２信頼度とを合成する処理を行うことで合成信頼度を取得する。

　精密ポーズデータ取得部は、合成信頼度に基づいて、前記被写体の各部位の位置を決定することで、精密２次元ポーズデータを取得する。

　このポーズデータ生成装置では、被写体の部位ごとに、ヒートマップ取得部により取得されたヒートマップに基づく第１信頼度と、信頼度取得部により取得された第２信頼度とを合成（例えば、加算）することで行うことで、より精度の高い信頼度である合成信頼度を部位ごとに取得することができる。そして、このポーズデータ生成装置の精密２次元ポーズデータ取得部では、合成信頼度に基づいて、精密ポーズデータを取得するので、精度の高いポーズデータ（精密２次元ポーズデータ）を取得することができる。そして、このポーズデータ生成装置で、上記のように取得した精密２次元ポーズデータに対して、２Ｄ－３Ｄ変換を行うことで、高精度な３次元ポーズデータを取得することができる。

　したがって、このポーズデータ生成装置では、従来技術のような複雑な処理（例えば、時系列のコンボリューション処理（ＣＮＮにより処理）等）を行う必要がないので、低コストで実現でき、かつ、高精度なポーズデータを取得することができる。

　第２の発明は、第１の発明であって、予測データ取得部は、被写体の部位ごとに、精密ポーズデータ取得部によって現時刻よりも前に取得された精密２次元ポーズデータを用いて、予測処理を行う。

　これにより、このポーズデータ生成装置では、より精度の高い精密２次元ポーズデータを過去のデータとして用いて、予測処理を行うことができる。その結果、より精度の高い予測処理を行うことができる。

　第３の発明は、第１または第２の発明であって、
　予測データ取得部は、
　２次元ポーズデータに含まれるキーポイントデータを、第１グループおよび第２グループに分類し、
（１）第１グループに分類されたキーポイントデータについては、第１予測精度を有する予測処理である粗予測処理を実行することで、当該キーポイントデータの予測データであるキーポイント粗予測データを取得し、
（２）第２グループに分類されたキーポイントデータについては、第１予測精度よりも予測精度の高い第２予測精度を有する精密予測処理を実行することで、当該キーポイントデータの予測データであるキーポイント精密予測データを取得する。

　信頼度取得部は、
（１）第１グループに分類されたキーポイントデータに対応する部位については、キーポイント粗予測データに基づいて取得した信頼度を、第２信頼度とし、
（２）第２グループに分類されたキーポイントデータに対応する部位については、キーポイント精密予測データに基づいて取得した信頼度を、第２信頼度として、
第１信頼度と第２信頼度とを合成する処理を行うことで合成信頼度を取得する。

　このポーズデータ生成装置では、２次元ポーズデータに対して予測処理を行うときに、部位を第１グループおよび第２グループに分類し、分類したグループに応じて、予測精度の異なる予測処理を行う。つまり、このポーズデータ生成装置では、粗予測処理の対象としたい部位を第１グループに分類し、精密予測処理の対象としたい部位を第２グループとすることで、部位ごとに異なる予測処理を実行することができる。

　第４の発明は、第３の発明であって、第１グループおよび第２グループの分類方法は、所定の条件により、決定されるものであり、所定の条件は、
（１）部位の動く速度、加速度、所定の時間内における速度の変化、加速度の変化、
（２）部位の動きのランダム性、
（３）部位の動きの線形性、非線形性、および、
（４）ポーズデータ生成装置とともに実行されるアプリケーションにより一定の条件が変化しない期間および／またはステージ、
の少なくとも１つに基づくものである。

　これにより、上記条件に基づいて、部位を、第１グループおよび第２グループに分類することができ、粗予測処理の対象とする部位と、精密予測処理の対象とする部位とを適切に設定（分類）することができる。

　第５の発明は、第１または第２の発明であって、予測データ取得部は、
　２次元ポーズデータに含まれるキーポイントデータを、可動範囲が広い部位のキーポイントのデータである広可動キーポイントデータと、可動範囲が狭い部位のキーポイントのデータである狭可動キーポイントデータとに分解し、
（１）狭可動キーポイントデータについては、第１予測精度を有する予測処理である粗予測処理を実行することで、狭可動キーポイントデータの予測データである狭可動キーポイント予測データを取得し、
（２）広可動キーポイントデータについては、第１予測精度よりも予測精度の高い第２予測精度を有する精密予測処理を実行することで、広可動キーポイントデータの予測データである広可動キーポイント予測データを取得し、
　狭可動キーポイント予測データと広可動キーポイント予測データとを含むデータを予測２次元ポーズデータとして取得する。

　このポーズデータ生成装置では、２次元ポーズデータに対して予測処理を行うときに、部位の特徴に応じて、予測精度の異なる予測処理を行う。つまり、このポーズデータ生成装置では、可動範囲が広い部位のキーポイントデータ（広可動キーポイントデータ）には、高精度の予測処理を行い、可動範囲が狭い部位のキーポイントデータ（狭可動キーポイントデータ）には、精密予測処理ほど精度は高くないが演算量が少なくて済む予測処理（粗予測処理）を行う。

　つまり、このポーズデータ生成装置では、予測が難しい広可動キーポイントについては、精度の高い予測処理（精密予測処理）を行い、予測がそれほど難しくない狭可動キーポイントについては、演算量が少なくて済む予測処理（粗予測処理）を行うので、予測データ（予測２次元ポーズデータ）を取得するために必要なトータルの演算量を抑えつつ、高精度な予測データを取得することができる。

　なお、「予測精度」は、例えば、同一の処理対象に対して予測処理を行ったときに、予測データと実際の観測データとの差異に基づいて、決定（規定）される。

　第６の発明は、第３から第５のいずれかの発明であって、予測データ取得部は、
（１）第１精度を有する時系列フィルタを用いて粗予測処理を実行し、
（２）第１精度よりも高い第２精度を有する時系列フィルタを用いて精密予測処理を実行する。

　これにより、このポーズデータ生成装置では、予測精度の異なる時系列フィルタを用いて、粗予測処理および精密予測処理を実行することができる。

　第７の発明は、第６の発明であって、第１精度を有する時系列フィルタは、状態空間モデルが線形作用素により表現されるシステムモデル（線形システムモデル）を処理対象とする時系列フィルタであり、第２精度を有する時系列フィルタは、状態空間モデルが非線形作用素により表現されるシステムモデル（非線形システムモデル）を処理対象とする時系列フィルタである。

　これにより、このポーズデータ生成装置では、線形システムモデルを処理対象とする時系列を用いて粗予測処理を実行するとともに、非線形システムモデルを処理対象とする時系列を用いて精密予測処理を実行することができる。

　第８の発明は、第６の発明であって、第１精度を有する時系列フィルタは、カルマンフィルタであり、第２精度を有する時系列フィルタは、拡張カルマンフィルタ、無香料カルマンフィルタ（Ｕｎｓｃｅｎｔｅｄ　Ｋａｌｍａｎ　Ｆｉｌｔｅｒ）、およびパーティクルフィルタの中のいずれか１つである。

　これにより、このポーズデータ生成装置では、カルマンフィルタを用いて粗予測処理を実行するとともに、拡張カルマンフィルタ、無香料カルマンフィルタ、およびパーティクルフィルタの中のいずれか１つを用いて精密予測処理を実行することができる。

　第９の発明は、第１から第８までのいずれかの発明であって、精密２次元ポーズデータに対して２次元―３次元変換処理を行うことで、精密２次元ポーズデータに対応する３次元のポーズデータである精密３次元ポーズデータを取得する２Ｄ－３Ｄ変換部をさらに備える。

　これにより、このポーズデータ生成装置では、精密２次元ポーズデータに対応する３次元のポーズデータである精密３次元ポーズデータを取得することができる。

　第１０の発明は、２Ｄポーズ推定ステップと、ヒートマップ取得ステップと、予測データ取得ステップと、信頼度取得ステップと、精密ポーズデータ取得ステップと、を備えるポーズデータ生成方法である。

　２Ｄポーズ推定ステップは、３次元空間内の被写体を撮像することで取得される画像データまたは画像データから特徴量を抽出したデータである特徴量抽出データから、被写体の所定の部位の位置を示すデータであるキーポイントデータを取得することで、被写体の２次元ポーズデータを取得する。

　ヒートマップ取得ステップは、画像データまたは特徴量抽出データにより形成される２次元画像上の所定の画像領域が、被写体の所定の部位に相当する画像領域であることの確からしさを示す値である第１信頼度を取得することで、被写体の部位ごとのヒートマップを取得する。

　予測データ取得ステップは、２Ｄポーズ推定ステップにより取得された２次元ポーズデータに含まれるキーポイントデータを用いて予測処理を実行することで、予測キーポイントデータを取得し、取得した予測キーポイントデータを含むデータを予測２次元ポーズデータとして取得する。

　信頼度取得ステップは、被写体の部位ごとに、ヒートマップにより特定される第１信頼度と、予測２次元ポーズデータに含まれるキーポイントデータの信頼度である第２信頼度とを取得するとともに、第１信頼度と第２信頼度とを合成する処理を行うことで合成信頼度を取得する。

　精密ポーズデータ取得ステップは、合成信頼度に基づいて、被写体の各部位の位置を決定することで、精密２次元ポーズデータを取得する。

　これにより、第１の発明と同様の効果を奏するポーズデータ生成方法を実現することができる。

　第１１の発明は、第１０の発明であるポーズデータ生成方法をコンピュータに実行させるためのプログラムである。

　これにより、第１の発明と同様の効果を奏するポーズデータ生成方法をコンピュータに実行させるためのプログラムを実現することができる。

　本発明によれば、低コストで実現でき、かつ、高精度なポーズデータを取得するポーズデータ生成装置、ポーズデータ生成方法、および、プログラムを実現することができる。

第１実施形態に係るポーズデータ生成装置１００の概略構成図。第１実施形態に係るポーズデータ生成装置１００の精密データ取得部３の概略構成図。撮像装置Ｃａｍ１により、被写体人物Ｓｕｂ１を撮影することで取得される、時系列に連続したフレーム画像（２次元画像）（動画像を構成できる時系列に連続したフレーム画像）をデータＤｉｎとして、ポーズデータ生成装置に入力するシステム（一例）（上図）と、時間ステップｔ１（時刻ｔ１）におけるフレーム画像Ｉｍｇ０^（ｔ１）（一例）（下図）とを示す図。撮像装置Ｃａｍ１により、被写体人物Ｓｕｂ１を撮影することで取得される時系列に連続したフレーム画像（２次元画像）（動画像を構成できる時系列に連続したフレーム画像）をデータＤｉｎとして、ポーズデータ生成装置１００の特徴量抽出部ＰＰ１に入力するシステム（一例）（上図）と、時系列に連続したフレーム画像から特徴量抽出部ＰＰ１により抽出された特徴量抽出画像Ｉｍｇ１^（ｔ１）、Ｉｍｇ１^（ｔ２）、Ｉｍｇ１^（ｔ３）、・・・（一例）（下図）とを示す図。キーポイントデータを説明するための図。特徴量抽出画像Ｉｍｇ１^（ｔ１）と、特徴量抽出画像Ｉｍｇ１^（ｔ１）から取得した、（１）ヒートマップＨｅａｔｍａｐ（ｋｐ１４）（左肩のヒートマップ）、（２）ヒートマップＨｅａｔｍａｐ（ｋｐ１５）（左肘のヒートマップ）、および（３）ヒートマップＨｅａｔｍａｐ（ｋｐ１６）（左手のヒートマップ）とを示す図。信頼度取得処理を説明するための図（時間ステップｔ１）。信頼度取得処理を説明するための図（時間ステップｔ１）。信頼度取得処理を説明するための図（時間ステップｔ１）。信頼度取得処理を説明するための図（時間ステップｔ１）。信頼度取得処理を説明するための図（時間ステップｔ１）。信頼度取得処理を説明するための図（時間ステップｔ１）。精密ポーズデータ取得部３３により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｊをまとめたデータＤｏ＿ｋｐの一例を示す図（時間ステップｔ１）。精密ポーズデータ取得部３３により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｊをまとめたデータＤｏ＿ｋｐの一例を示す図（時間ステップｔ２）。信頼度取得処理を説明するための図（時間ステップｔ３）。信頼度取得処理を説明するための図（時間ステップｔ３）。信頼度取得処理を説明するための図（時間ステップｔ３）。精密ポーズデータ取得部３３により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｊをまとめたデータＤｏ＿ｋｐの一例を示す図（時間ステップｔ３）。第１実施形態の第１変形例に係るポーズデータ生成装置１００Ａの概略構成図。第１実施形態の第１変形例に係るポーズデータ生成装置１００Ａの精密データ取得部３Ａの概略構成図。第１実施形態の第２変形例に係るポーズデータ生成装置１００Ｂの概略構成図。第１実施形態の第２変形例に係るポーズデータ生成装置１００Ｂの精密データ取得部３Ｂの概略構成図。ＣＰＵバス構成を示す図。

　［第１実施形態］
　第１実施形態について、図面を参照しながら、以下、説明する。

　＜１．１：ポーズデータ生成装置の構成＞
　図１は、第１実施形態に係るポーズデータ生成装置１００の概略構成図である。

　図２は、第１実施形態に係るポーズデータ生成装置１００の精密データ取得部３の概略構成図である。

　ポーズデータ生成装置１００は、図１に示すように、特徴量抽出部ＰＰ１と、２Ｄポーズ推定部１と、ヒートマップ取得部２と、精密データ取得部３と、２Ｄ－３Ｄ変換部４と、ポスト処理部５とを備える。

　特徴量抽出部ＰＰ１は、例えば、動画撮影が可能な撮像装置（不図示）により、被写体人物を撮影することで取得される、時系列に連続したフレーム画像（２次元画像）（動画像を構成できる時系列に連続したフレーム画像）をデータＤｉｎとして入力する。そして、特徴量抽出部ＰＰ１は、データＤｉｎに対して、特徴量抽出処理（例えば、クラス分類を行いつつ、物体検出を行う処理）を実行することで、例えば、被写体人物（物体検出の対象）に相当する画像領域を抽出する。特徴量抽出部ＰＰ１は、特徴量抽出処理により取得した、物体検出の対象の画像領域についてのデータ（物体検出の対象が含まれる画像領域を含む画像データ、抽出した画像領域の座標、サイズについてのデータ等）、および、物体検出した対象のクラス分類に関するデータ（物体検出のクラス（例えば、人））等を含むデータを、特徴量抽出データＤ０として、２Ｄポーズ推定部１およびヒートマップ取得部２に出力する。

　２Ｄポーズ推定部１は、特徴量抽出部ＰＰ１から出力される特徴量抽出データＤ０を入力する。２Ｄポーズ推定部１は、特徴量抽出データＤ０に対して、２次元ポーズ推定処理を実行し、２次元キーポイントデータ（例えば、被写体人物の２次元キーポイントデータ）を取得する。そして、２Ｄポーズ推定部１は、取得した２次元キーポイントデータを含むデータを、データＤｉ＿ｋｐとして、精密データ取得部３に出力する。

　ヒートマップ取得部２は、特徴量抽出部ＰＰ１から出力される特徴量抽出データＤ０を入力する。ヒートマップ取得部２は、特徴量抽出データＤ０に対して、ヒートマップ取得処理を実行し、ヒートマップデータを取得する。そして、ヒートマップ取得部２は、取得したヒートマップデータを含むデータを、データＤ＿ｈｅａｔｍａｐとして、精密データ取得部３に出力する。

　精密データ取得部３は、図２に示すように、予測データ取得部３１と、信頼度取得部３２と、精密ポーズデータ取得部３３とを備える。

　予測データ取得部３１は、図２に示すように、データ分解部３１１と、第１メモリＭ１と、第２メモリＭ２と、粗予測処理部３１２と、精密予測処理部３１３と、を備える。

　データ分解部３１１は、２Ｄポーズ推定部１から出力されるデータＤｉ＿ｋｐを入力し、当該データＤｉ＿ｋｐに対して分解処理（キーポイントデータを人の部位ごとに分解する処理）を実行し、粗予測処理の対象とするデータＤ１＿ｋｐ＿Ｌと、精密予測処理の対象とするデータＤ１＿ｋｐ＿Ｈとを取得する。そして、データ分解部３１１は、取得したデータＤ１＿ｋｐ＿Ｌを粗予測処理部３１２および第１メモリＭ１に出力し、取得したデータＤ１＿ｋｐ＿Ｈを精密予測処理部３１３および第２メモリＭ２に出力する。

　第１メモリＭ１は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｌと、粗予測処理部３１２から出力されるデータＤ２＿ｋｐ＿Ｌとを入力し、データＤ１＿ｋｐ＿ＬとデータＤ２＿ｋｐ＿Ｌとを記憶保持する記憶部である。第１メモリＭ１に記憶保持されているデータは、粗予測処理部３１２からの読み出し命令により、読み出すことが可能である。

　第２メモリＭ２は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｈと、精密予測処理部３１３から出力されるデータＤ２＿ｋｐ＿Ｈとを入力し、データＤ１＿ｋｐ＿ＨとデータＤ２＿ｋｐ＿Ｈとを記憶保持する記憶部である。第２メモリＭ２に記憶保持されているデータは、精密予測処理部３１３からの読み出し命令により、読み出すことが可能である。

　粗予測処理部３１２は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｌを入力する。また、粗予測処理部３１２は、現時刻よりも前の時刻に取得され、第１メモリＭ１に記憶されているデータＤ１＿ｋｐ＿ＬをデータＤ１＿ｋｐ＿Ｌ＿ｐａｓｔとして、第１メモリＭ１から読み出す。粗予測処理部３１２は、データＤ１＿ｋｐ＿ＬおよびデータＤ１＿ｋｐ＿Ｌ＿ｐａｓｔを用いて、粗予測処理を実行することで、粗予測処理データＤ２＿ｋｐ＿Ｌを取得する。そして、粗予測処理部３１２は、取得した粗予測処理データＤ２＿ｋｐ＿Ｌを、信頼度取得部３２の粗予測信頼度取得部３２１および第１メモリＭ１に出力する。

　精密予測処理部３１３は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｈを入力する。また、精密予測処理部３１３は、現時刻よりも前の時刻に取得され、第２メモリＭ２に記憶されているデータＤ２＿ｋｐ＿ＨをデータＤ１＿ｋｐ＿Ｈ＿ｐａｓｔとして、第２メモリＭ２から読み出す。精密予測処理部３１３は、データＤ１＿ｋｐ＿ＨおよびデータＤ１＿ｋｐ＿Ｈ＿ｐａｓｔを用いて、精密予測処理を実行することで、精密予測処理データＤ２＿ｋｐ＿Ｈを取得する。そして、精密予測処理部３１３は、取得した精密予測処理データＤ２＿ｋｐ＿Ｈを、信頼度取得部３２の精密予測信頼度取得部３２２および第２メモリＭ２に出力する。

　信頼度取得部３２は、図２に示すように、粗予測信頼度取得部３２１と、精密予測信頼度取得部３２２と、信頼度合成部３２３と、を備える。

　粗予測信頼度取得部３２１は、粗予測処理部３１２から出力される粗予測処理データＤ２＿ｋｐ＿Ｌを入力する。粗予測信頼度取得部３２１は、粗予測処理データＤ２＿ｋｐ＿Ｌに対して、粗予測信頼度取得処理を実行することで、粗予測信頼度を取得し、取得した粗予測信頼度を含むデータをデータＤ３＿ｃｏｎｆ＿Ｌとして、信頼度合成部３２３に出力する。

　精密予測信頼度取得部３２２は、精密予測処理部３１３から出力される精密予測処理データＤ２＿ｋｐ＿Ｈを入力する。精密予測信頼度取得部３２２は、精密予測処理データＤ２＿ｋｐ＿Ｈに対して、精密予測信頼度取得処理を実行することで、精密予測信頼度を取得し、取得した精密予測信頼度を含むデータをデータＤ３＿ｃｏｎｆ＿Ｈとして、信頼度合成部３２３に出力する。

　信頼度合成部３２３は、粗予測信頼度取得部３２１から出力されるデータＤ３＿ｃｏｎｆ＿Ｌと、精密予測信頼度取得部３２２から出力されるデータＤ３＿ｃｏｎｆ＿Ｈと、ヒートマップ取得部２から出力されるデータＤ＿ｈｅａｔｍａｐとを入力する。信頼度合成部３２３は、データＤ３＿ｃｏｎｆ＿Ｌ、データＤ３＿ｃｏｎｆ＿Ｈ、および、データＤ＿ｈｅａｔｍａｐに対して、信頼度合成処理を実行することで、合成信頼度を取得し、取得した合成信頼度を含むデータをデータＤ４＿ｃｏｎｆとして精密ポーズデータ取得部３３に出力する。

　精密ポーズデータ取得部３３は、２Ｄポーズ推定部１から出力されるデータＤｉ＿ｋｐと、信頼度合成部３２３から出力されるデータＤ４＿ｃｏｎｆと、を入力する。精密ポーズデータ取得部３３は、データＤｉ＿ｋｐ、および、データＤ４＿ｃｏｎｆ（信頼度データＤ４＿ｃｏｎｆ）を用いて、精密ポーズデータ取得処理（詳細については後述）を実行することで、当該処理後のデータをデータＤｏ＿ｋｐとして取得する。そして、精密ポーズデータ取得部３３は、取得したデータＤｏ＿ｋｐを２Ｄ－３Ｄ変換部４に出力する。

　２Ｄ－３Ｄ変換部４は、精密データ取得部３から出力されるデータＤｏ＿ｋｐ（２次元のキーポイントのデータ）を入力する。２Ｄ－３Ｄ変換部４は、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）に対して、２Ｄ－３Ｄ変換処理を実行し、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）に対応する３次元データ（３次元のキーポイントのデータ）をデータＤｏ＿３Ｄ＿ｋｐとして取得する。そして、２Ｄ－３Ｄ変換部４は、取得したデータＤｏ＿３Ｄ＿ｋｐをポスト処理部５に出力する。

　ポスト処理部５は、２Ｄ－３Ｄ変換部４から出力されるデータＤｏ＿３Ｄ＿ｋｐを入力し、当該データＤｏ＿３Ｄ＿ｋｐに対してポスト処理を実行し、当該処理後のデータをデータＤｏｕｔとして取得する。

　＜１．２：ポーズデータ生成装置の動作＞
　以上のように構成されたポーズデータ生成装置１００の動作について、以下、説明する。

　図３Ａは、撮像装置Ｃａｍ１により、被写体人物Ｓｕｂ１を撮影することで取得される、時系列に連続したフレーム画像（２次元画像）（動画像を構成できる時系列に連続したフレーム画像）をデータＤｉｎとして、ポーズデータ生成装置に入力するシステム（一例）（上図）と、時間ステップｔ１（時刻ｔ１）におけるフレーム画像Ｉｍｇ０^（ｔ１）（一例）（下図）とを示す図である。なお、図３Ａにおいて、画像Ｉｍｇ１^（ｔ１）（画像領域Ｉｍｇ１^（ｔ１））は、特徴量抽出部ＰＰ１により、物体検出対象を「人」として、抽出した画像（画像領域）である。

　図３Ｂは、撮像装置Ｃａｍ１により、被写体人物Ｓｕｂ１を撮影することで取得される時系列に連続したフレーム画像（２次元画像）（動画像を構成できる時系列に連続したフレーム画像）をデータＤｉｎとして、ポーズデータ生成装置１００の特徴量抽出部ＰＰ１に入力するシステム（一例）（上図）と、時系列に連続したフレーム画像から特徴量抽出部ＰＰ１により抽出された特徴量抽出画像Ｉｍｇ１^（ｔ１）、Ｉｍｇ１^（ｔ２）、Ｉｍｇ１^（ｔ３）、・・・（一例）（下図）とを示す図である。なお、時間ステップｔｋ（ｋ：整数）における特徴量抽出画像をＩｍｇ１^（ｔｋ）と表記する。

　図４は、キーポイントデータを説明するための図である。

　図５は、フレーム画像Ｉｍｇ１^（ｔ１）と、フレーム画像Ｉｍｇ１^（ｔ１）から取得した、（１）ヒートマップＨｅａｔｍａｐ（ｋｐ_１４）（左肩のヒートマップ）、（２）ヒートマップＨｅａｔｍａｐ（ｋｐ_１５）（左肘のヒートマップ）、および（３）ヒートマップＨｅａｔｍａｐ（ｋｐ_１６）（左手のヒートマップ）とを示す図である。

　図６～図１１は、信頼度取得処理を説明するための図である（時間ステップｔ１）。

　図１２は、精密ポーズデータ取得部３３により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｊをまとめたデータＤｏ＿ｋｐの一例を示す図である（時間ステップｔ１）。

　図１３は、精密ポーズデータ取得部３３により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｊをまとめたデータＤｏ＿ｋｐの一例を示す図である（時間ステップｔ２）。

　図１４～図１６は、信頼度取得処理を説明するための図である（時間ステップｔ３）。

　図１７は、精密ポーズデータ取得部３３により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｊをまとめたデータＤｏ＿ｋｐの一例を示す図である（時間ステップｔ３）。

　以下では、説明便宜のために、被写体人物Ｓｕｂ１が所定の動作を行い、図３Ｂの下図に示す特徴量抽出画像が特徴量抽出部ＰＰ１により取得され、ポーズデータ生成装置１００でポーズデータ生成処理が実行される場合（一例）について、説明する。また、説明便宜のため、被写体人物Ｓｕｂ１の所定の動作を、図３Ｂの下図に示すように、被写体人物Ｓｕｂ１の左手がＤｉｒ１で示す方向に動き、時間ステップｔ３で、被写体人物Ｓｕｂ１の左手が被写体人物Ｓｕｂ１の体の後ろに隠れる状態（左腕、左手がオクルージョン状態）となる動作（一例）として、以下説明する。

　以下では、時間ステップｔ１、ｔ２、および、ｔ３での処理に分けて、ポーズデータ生成装置１００の動作を説明する。

　≪時間ステップｔ１の処理≫
　時間ステップｔ１において、撮像装置Ｃａｍ１により、被写体人物Ｓｕｂ１を含む３次元空間（撮像空間）を撮像することで、フレーム画像データＩｍｇ０^（ｔ１）を取得する。なお、時間ステップｔに取得されたフレーム画像データをＩｍｇ０^（ｔ）と表記する。フレーム画像データＩｍｇ０^（ｔ１）により形成される画像（フレーム画像）は、図３Ａの下図に示す画像Ｉｍｇ０^（ｔ１）であるものとする。また、「時間ステップ」とは、ポーズデータ生成装置１００において、入力から出力までの一連の処理を実行するための基準時間であり、例えば、１つの単位データ（例えば、１フレーム画像）が入力されてから、１つの処理結果の単位データ（例えば、入力された１フレーム画像から取得された３次元ポーズデータ）が出力される時間を基準とした時間である。

　ポーズデータ生成装置１００の２Ｄポーズ推定部１は、撮像装置Ｃａｍ１から出力されるフレーム画像データＩｍｇ０^（ｔ１）をデータＤｉｎとして入力し、当該フレーム画像データＩｍｇ０^（ｔ１）を用いて、２次元ポーズデータを推定（取得）する処理を実行する。具体的には、以下の処理が実行される。

　特徴量抽出部ＰＰ１は、データＤｉｎ（フレーム画像データＩｍｇ０^（ｔ１））に対して、特徴量抽出処理（例えば、クラス分類を行いつつ、物体検出を行う処理）を実行することで、被写体人物（物体検出の対象）に相当する画像領域（画像Ｉｍｇ１^（ｔ１））を抽出する。具体的には、特徴量抽出部ＰＰ１は、クラス分類を行いつつ、物体検出ができる技術（例えば、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　Ｄｅｔｅｃｔｉｏｎ）やＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ））を用いて、フレーム画像データＩｍｇ０^（ｔ１）に対して、特徴量抽出処理を実行し、被写体人物（物体検出の対象）に相当する画像領域（画像Ｉｍｇ１^（ｔ１））を抽出する。なお、本実施形態では、特徴量抽出処理において、物体検出対象を「人」に設定しているものとする。

　そして、特徴量抽出部ＰＰ１は、特徴量抽出処理により取得した、物体検出の対象の画像領域（画像Ｉｍｇ１^（ｔ１））についてのデータ（物体検出の対象が含まれる画像領域を含む画像データ、抽出した画像領域の座標、サイズについてのデータ等）、および、物体検出した対象のクラス分類に関するデータ（物体検出のクラス（本実施形態では、「人」））等を含むデータを、特徴量抽出データＤ０として、２Ｄポーズ推定部１およびヒートマップ取得部２に出力する。なお、時間ステップｔにおいて、特徴量抽出処理により抽出した画像領域のデータ（画像データ）を特徴量抽出画像データＩｍｇ１^（ｔ）（または、特徴量抽出画像Ｉｍｇ１^（ｔ））と表記する。

　２Ｄポーズ推定部１は、特徴量抽出画像データＩｍｇ１^（ｔ１）により形成されるフレーム画像（特徴量抽出画像Ｉｍｇ１^（ｔ１））上において、被写体人物Ｓｕｂ１の所定の部位の上記フレーム画像上の位置（２次元画像上の位置）を特定（推定）する。なお、ここでは、「所定の部位」は、（１）人の頭部および脊椎に含まれる所定の位置（図４のキーポイントｋｐ_１～ｋｐ_４に対応）、（２）人の左右の腕に含まれる所定の位置（図４のキーポイントｋｐ_５～ｋｐ_７、ｋｐ_１４～ｋｐ_１６に対応）、（３）人の左右の脚部に含まれる所定の位置（図４のキーポイントｋｐ_８～ｋｐ_１０、ｋｐ_１１～ｋｐ_１３に対応）であるものとする。

　２Ｄポーズ推定部は、特徴量抽出画像Ｉｍｇ１^（ｔ１）に写っている被写体人物Ｓｕｂ１の各部位のフレーム画像上の座標位置を示すキーポイントｋｐ_１～ｋｐ_１６（１６個の点ｋｐ_１～ｋｐ_１６）を取得（推定）することで、２Ｄポーズ推定処理を実行する。

　なお、２Ｄポーズ推定部１で実行される２Ｄポーズ推定処理は、以下の（Ａ）または（Ｂ）のように処理されるものであってもよい。
（Ａ）撮像装置Ｃａｍ１により被写体人物Ｓｕｂ１を撮影している３次元空間（撮像空間）の情報、および、撮像装置Ｃａｍ１の撮影パラメータの情報を取得できる場合、２Ｄポーズ推定部１は、当該撮像空間の情報と、撮像装置Ｃａｍ１の撮影パラメータの情報Ｉｎｆｏ＿ｃａｍ＿ｐｒｍとに基づいて、特徴量抽出画像Ｉｍｇ１^（ｔ１）に写っている被写体人物Ｓｕｂ１の所定の部位の当該画像上の位置（２次元画像上の位置）を特定（推定）することで、２Ｄポーズ推定処理を実行する。なお、この場合、被写体を人としており（標準的な人間の大きさが既知であり）、３次元空間内の撮像装置Ｃａｍ１の設置位置、カメラ光軸の向き、焦点距離、画角が既知であるので、撮像装置Ｃａｍ１により取得されたフレーム画像から、被写体人物Ｓｕｂ１に相当する画像領域を特徴量抽出部ＰＰ１により抽出することができ、かつ、被写体人物Ｓｕｂ１の特定の部位のフレーム画像（特徴量抽出画像Ｉｍｇ１^（ｔ１））上の位置を特定することができる。
（Ｂ）２Ｄポーズ推定部１は、時系列に連続するフレーム画像であって、被写体人物Ｓｕｂ１が写っている部分を特徴量抽出部ＰＰ１により抽出したフレーム画像（特徴量抽出画像Ｉｍｇ１^（ｔ）（ｔ＝ｔ１、ｔ２（＝ｔ１＋１）、ｔ３（＝ｔ１＋２）、・・・））を入力すると、２次元ポーズデータ（被写体人物Ｓｕｂ１の所定の各部位の２次元座標データ）を出力（推定）する機械学習済みモデル（例えば、ニューラルネットワークによる学習済みモデル）を備えており、２Ｄポーズ推定部１は、時系列に連続するフレーム画像であって、被写体人物Ｓｕｂ１が写っている部分を特徴量抽出部ＰＰ１により抽出したフレーム画像（特徴量抽出画像Ｉｍｇ１^（ｔ））を、上記機械学習済みモデルに入力し、当該機械学習済みモデルによる処理を行うことで、２次元ポーズデータ（被写体人物Ｓｕｂ１の所定の各部位の２次元座標データ）を取得（推定）する。これにより、２Ｄポーズ推定部１は、２Ｄポーズ推定処理を実行する。

　なお、上記（Ｂ）により、２Ｄポーズ推定部１において、２Ｄポーズ推定処理を実行する場合、例えば、下記先行技術文献Ａに開示されているＰｏｓｅＮｅｔモデルを用いるようにしてもよい。
（先行技術文献Ａ）：
　　Pose Detection in the Browser: PoseNet Model
　　https://github.com/tensorflow/tfjs-models/tree/master/posenet
　そして、２Ｄポーズ推定部１は、上記処理により取得した２次元キーポイントデータ（１６個の点ｋｐ_１～ｋｐ_１６の２次元座標データ）を含むデータを、データＤｉ＿ｋｐとして、精密データ取得部３に出力する。

　ポーズデータ生成装置１００のヒートマップ取得部２は、特徴量抽出画像データＩｍｇ１^（ｔ１）により形成されるフレーム画像（特徴量抽出画像Ｉｍｇ１^（ｔ１））から、ヒートマップを取得する処理を実行する。具体的には、ヒートマップ取得部２は、特徴量抽出画像データＩｍｇ１^（ｔ１）により形成されるフレーム画像の各画素において、当該画素が被写体人物Ｓｕｂ１の所定の部位である確からしさを示す値を取得する。なお、「所定の部位」は、（１）人の頭部および脊椎に含まれる所定の位置（図４のキーポイントｋｐ_１～ｋｐ_４に対応）、（２）人の左右の腕に含まれる所定の位置（図４のキーポイントｋｐ_５～ｋｐ_７、ｋｐ_１４～ｋｐ_１６に対応）、（３）人の左右の脚部に含まれる所定の位置（図４のキーポイントｋｐ_８～ｋｐ_１０、ｋｐ_１１～ｋｐ_１３に対応）であるものとする。

　つまり、ヒートマップ取得部２は、キーポイントｋｐ_１～ｋｐ_１６のそれぞれに対応する部位ごとに、特徴量抽出画像Ｉｍｇ１^（ｔ１）の各画素において、当該画素が被写体人物Ｓｕｂ１の所定の部位（対応するキーポイントに相当する部位）である確からしさを示す値を画素値とするヒートマップ（ヒートマップ画像）を取得する（キーポイントｋｐ_１～ｋｐ_１６のそれぞれについてのヒートマップ（合計１６個のヒートマップ）を取得する）。なお、ヒートマップの画素数は、特徴量抽出画像Ｉｍｇ１^（ｔ１）の画素数よりも少ないもの（一定の割合で画素を間引いたもの）であってもよい。

　図５は、特徴量抽出画像Ｉｍｇ１^（ｔ１）と、特徴量抽出画像Ｉｍｇ１^（ｔ１）から取得した、（１）ヒートマップＨｅａｔｍａｐ（ｋｐ_１４）（左肩のヒートマップ）、（２）ヒートマップＨｅａｔｍａｐ（ｋｐ_１５）（左肘のヒートマップ）、および（３）ヒートマップＨｅａｔｍａｐ（ｋｐ_１６）（左手のヒートマップ）とを模式的に示す図である。なお、キーポイントｋｐ_ｘｘについてのヒートマップをＨｅａｔｍａｐ（ｋｐ_ｘｘ）と表記する。また、図５に示したヒートマップにおいて、（１）大きなサイズの黒丸で示した画素は、対応する部位である確からしさが高いことを意味し、（２）中サイズの黒丸で示した画素は、対応する部位である確からしさが中程度であることを意味し、（３）白い丸で示した画素は、対応する部位である確からしさが低いことを意味し、（４）無地の画素は、対応する部位である確からしさがゼロである（ない）ことを意味している。また、図５のヒートマップにおいて、被写体人物Ｓｕｂ１の各部位の位置が分かるように、特徴量抽出画像Ｉｍｇ１^（ｔ１）に写っている被写体人物Ｓｕｂ１をグレーの点線で重畳して示している。

　図５のヒートマップＨｅａｔｍａｐ（ｋｐ_１４）（左肩のヒートマップ）において、被写体人物Ｓｕｂ１の左肩部分において、大きなサイズの黒丸の画素が存在しており、左肩部分の真の位置において、左肩部分の確からしさが最大であることが分かる。つまり、ヒートマップＨｅａｔｍａｐ（ｋｐ_１４）（左肩のヒートマップ）では、左肩部分を適切に検出できていることが分かる。

　図５のヒートマップＨｅａｔｍａｐ（ｋｐ_１５）（左肘のヒートマップ）において、被写体人物Ｓｕｂ１の左肘部分において、大きなサイズの黒丸の画素が存在しており、左肘部分の真の位置において、左肘部分の確からしさが最大であることが分かる。つまり、ヒートマップＨｅａｔｍａｐ（ｋｐ_１５）（左肘のヒートマップ）では、左肘部分を適切に検出できていることが分かる。

　図５のヒートマップＨｅａｔｍａｐ（ｋｐ_１６）（左手のヒートマップ）において、被写体人物Ｓｕｂ１の左手部分において、大きなサイズの黒丸の画素が存在しており、左手部分の真の位置において、左手部分の確からしさが最大であることが分かる。つまり、ヒートマップＨｅａｔｍａｐ（ｋｐ_１６）（左手のヒートマップ）では、左手部分を適切に検出できていることが分かる。

　なお、ヒートマップ取得部２は、例えば、画像認識技術を用いて、特徴量抽出画像Ｉｍｇ１^（ｔ１）において、キーポイントｋｐ_１～ｋｐ_１６のそれぞれに対応する部位を認識するようにしてもよい。また、ヒートマップ取得部２は、例えば、被写体人物Ｓｕｂ１が写っている部分が抽出された特徴量抽出画像を入力すると、被写体人物Ｓｕｂ１の所定の各部位である確からしさ（確率）を出力（推定）する機械学習済みモデル（例えば、ニューラルネットワークによる学習済みモデル）を備えており、ヒートマップ取得部２は、被写体人物Ｓｕｂ１が写っている部分が抽出された特徴量抽出画像を、上記機械学習済みモデルに入力し、当該機械学習済みモデルによる処理を行うことで、被写体人物Ｓｕｂ１の所定の各部位である確からしさ（確率）を出力（推定）する。このようにして、ヒートマップ取得部２は、各部位のヒートマップを取得するようにしてもよい。

　ヒートマップ取得部２は、例えば、上記（先行技術文献Ａ）に開示されているＰｏｓｅＮｅｔモデルにより人の各部位のヒートマップを取得するようにしてよい。

　上記のようにして、ヒートマップ取得部２は、キーポイントｋｐ_１～ｋｐ_１６のそれぞれについてのヒートマップ（合計１６個のヒートマップ）を取得する。そして、ヒートマップ取得部２は、取得したヒートマップを含むデータをデータＤ＿ｈｅａｔｍａｐとして精密データ取得部３に出力する。

　精密データ取得部３のデータ分解部３１１は、２Ｄポーズ推定部１から出力されるデータＤｉ＿ｋｐを入力し、当該データＤｉ＿ｋｐに対して分解処理（キーポイントデータを人の部位ごとに分解する処理）を実行する。具体的には、データ分解部３１１は、（１）可動範囲が広く、激しく動くことができる部位のキーポイントのデータ（このようなキーポイントを「広可動キーポイント」という）と、（２）可動範囲が狭く、激しく動くことがない部位のキーポイントのデータ（このようなキーポイントを「狭可動キーポイント」という）と、に分解する。例えば、データ分解部３１１は、（１）手、肘、足に相当するキーポイント（Ｋｐ_７（右手），Ｋｐ_１６（左手），Ｋｐ_６（右肘），Ｋｐ_１３（左肘），Ｋｐ_１０（右足），Ｋｐ_１３（左足））を広可動キーポイントとし、（２）それ以外の部位に相当するキーポイント（人の頭部および脊椎に含まれる部位のキーポイントｋｐ_１～ｋｐ_４、人の左右の肩に相当するキーポイントｋｐ_５、ｋｐ_１４、人の左右の腰に相当するキーポイントｋｐ_８、ｋｐ_１１、および、人の左右の膝に相当するキーポイントｋｐ_９、ｋｐ_１２）を狭可動キーポイントとする。なお、本実施形態では、データ分解部３１１は、上記のように、広可動キーポイントおよび狭可動キーポイントを設定し、キーポイントのデータの分解処理を行うものとする。

　そして、データ分解部３１１は、（１）上記処理により取得した狭可動キーポイントのデータを含むデータをデータＤ１＿ｋｐ＿Ｌとして、粗予測処理部３１２および第１メモリＭ１に出力し、（２）上記処理により取得した広可動キーポイントのデータを含むデータをデータＤ１＿ｋｐ＿Ｈとして、精密予測処理部３１３および第２メモリＭ２に出力する。

　第１メモリＭ１は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｌを入力し、当該データＤ１＿ｋｐ＿Ｌを記憶保持する。

　第２メモリＭ２は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｈを入力し、当該データＤ１＿ｋｐ＿Ｈを記憶保持する。

　粗予測処理部３１２は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｌを入力する。また、粗予測処理部３１２は、現時刻よりも前の時刻に取得され、第１メモリＭ１に記憶されているデータＤ１＿ｋｐ＿ＬをデータＤ１＿ｋｐ＿Ｌ＿ｐａｓｔとして、第１メモリＭ１から読み出す。粗予測処理部３１２は、データＤ１＿ｋｐ＿ＬおよびデータＤ１＿ｋｐ＿Ｌ＿ｐａｓｔを用いて、粗予測処理を実行する。具体的には、粗予測処理部３１２は、時系列フィルタを用いた処理（予測処理）を実行する。これについて、以下説明する。

　時々刻々変化する観測対象の内部状態を推定する技術として、時系列フィルタを用いた技術がある。時系列フィルタとは、時間ステップｔ（時刻ｔ）における対象の内部状態を状態ベクトルｘ_ｔとし、時間ステップｔ（時刻ｔ）において観測された特徴を観測ベクトルｚ_ｔとしたとき、観測された観測ベクトルｚ_ｔから、直接観測できない対象の内部状態ｘ_ｔを推定する手法である。

　観測対象の内部状態のシステムモデルおよび対象を観測した時の観測モデル（状態空間モデル）は、以下のように表すことができる。
システムモデル（状態方程式）：
　　ｘ_ｔ＝ｆ（ｘ_ｔ－１，ｕ_ｔ，ｗ_ｔ）
　　ｆ：時間ステップｔ－１と時間ステップｔとの状態変化を表す状態遷移関数
　　ｕ_ｔ：時間ステップｔの制御入力
　　ｗ_ｔ：時間ステップｔのシステムノイズ
観測モデル（観測方程式）：
　　ｚ_ｔ＝ｈ（ｘ_ｔ，ｖ_ｔ）
　　ｈ：状態ｘ_ｔのときに得られる観測ベクトルを表す関数
　　ｖ_ｔ：時間ステップｔの観測ノイズ
　運動方程式等で人の動作（または人の特定部位の移動）が表現（予測）できる場合、当該運動方程式等により予測したデータと、実際の観測データ（例えば、実際に観測されたキーポイントのデータ）とを用いて、時系列フィルタを適用することができる。

　粗予測処理部３１２において、（１）前時間ステップ（時間ステップｔ－１）で取得された狭可動キーポイントのデータ（１時間ステップ前の観測対象の内部状態を示すデータ（上記の内部状態ｘ_ｔ－１に相当））と、（２）処理対象としている被写体人物Ｓｕｂ１の所定の部位の動作（被写体人物Ｓｕｂ１の所定の部位の移動）についての物理現象を表現する方程式（例えば、運動方程式等）から予測した予測キーポイントデータ（観測データ（上記の観測ベクトルｚ_ｔに相当））と、を用いて時系列フィルタによる処理を行うことで、現時間ステップ（時間ステップｔ）での観測対象の内部状態（被写体人物Ｓｕｂ１のポーズデータ）を取得（推定）する。

　本実施形態では、粗予測処理部３１２は、時系列フィルタとして、比較的計算量が少なくてすむカルマンフィルタを用いて、狭可動キーポイントについての予測処理（粗予測処理）を行う。つまり、粗予測処理部３１２は、カルマンフィルタを用いて、以下の処理を実行する。

　粗予測処理部３１２は、以下の処理により、現時間ステップ（時間ステップｔ）での観測対象の内部状態（被写体人物Ｓｕｂ１の狭可動キーポイントのデータ）を取得（推定）する。
（Ａ）予測
　　ｘ_{ｔ｜ｔ－１}＝ｆ（ｘ_{ｔ－１｜ｔ－１}，ｕ_ｔ，０）
　　Ｐ_{ｔ｜ｔ－１}＝Ｆ_ｔＰ_{ｔ－１｜ｔ－１}Ｆ^Ｔ _ｔ＋Ｇ_ｔＱ_ｔＧ^Ｔ _ｔ
　　ｘ_{ｔ｜ｔ－１}：時間ステップｔ－１における時間ステップｔの状態推定値（状態推定ベクトル）
　　ｘ_{ｔ－１｜ｔ－１}：時間ステップｔ－１における更新処理後の状態推定値（状態推定ベクトル）
　　Ｆ_ｔ：システムの時間遷移に関する線形モデル
　　Ｐ_{ｔ－１｜ｔ－１}：誤差の共分散行列
　　Ｆ^Ｔ _ｔ：Ｆ_ｔの転置行列
　　Ｇ_ｔ：時間遷移に関するノイズモデルの行列
　　Ｑ_ｔ：時間遷移に関するノイズモデルの共分散行列
　　Ｇ^Ｔ _ｔ：Ｇ_ｔの転置行列
（Ｂ）更新
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）
　　Ｓ_ｔ＝Ｈ_ｔＰ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｒ_ｔ
　　Ｋ_ｔ＝Ｐ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｓ^－１ _ｔ
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_ｔ｜ｔ＝（Ｉ－Ｋ_ｔＨ_ｔ）Ｐ_{ｔ｜ｔ－１}
　　ｅ_ｔ：時間ステップｔの観測残差
　　Ｓ_ｔ：時間ステップｔの観測残差の共分散
　　Ｋ_ｔ：時間ステップｔの最適カルマンゲイン
　　ｘ_ｔ｜ｔ：時間ステップｔにおいて更新された状態の推定値（推定ベクトル）
　　Ｐ_ｔ｜ｔ：時間ステップｔにおいて更新された誤差の共分散
　　Ｈ_ｔ：観測モデルに関する線形モデル
　　Ｒ_ｔ：時間ステップｔの観測ノイズの共分散
　粗予測処理部３１２は、例えば、狭可動キーポイントであるキーポイントＫｐ_８（右腰部分）の現時刻（時間ステップｔ１）について、キーポイントＫｐ_８の内部状態変数（内部状態ベクトル）を、特徴量抽出画像Ｉｍｇ１^（ｔ１）上のキーポイントＫｐ_８のｘ座標およびｙ座標として、カルマンフィルタによる処理を行う。つまり、粗予測処理部３１２は、
　　ｔ＝ｔ１
　　ｚ^Ｔ _ｔ１＝Ｐ^Ｔ _ｋｐ８ ^（ｔ１）＝［ｘ_ｋｐ８ ^（ｔ１），ｙ_ｋｐ８ ^（ｔ１）］
　　ｚ^Ｔ _ｔ１：ｚ_ｔ１の転置行列
　　Ｐ^Ｔ _ｋｐ８ ^（ｔ１）：Ｐ_ｋｐ８ ^（ｔ１）の転置行列
　　ｘ_ｋｐ８ ^（ｔ１）：特徴量抽出画像Ｉｍｇ１^（ｔ１）上のキーポイントＫｐ_８のｘ座標
　　ｙ_ｋｐ８ ^（ｔ１）：特徴量抽出画像Ｉｍｇ１^（ｔ１）上のキーポイントＫｐ_８のｙ座標
とし、下記の更新（カルマンフィルタによる更新）を行う。なお、ｘ_{ｔ－１｜ｔ－１}（時間ステップｔ－１における更新処理後の状態推定値（状態推定ベクトル））は、データＤ１＿ｋｐ＿Ｌ＿ｐａｓｔに含まれており、データＤ１＿ｋｐ＿Ｌ＿ｐａｓｔから取り出される。
＜更新＞
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ１）＝Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ１）＋Ｋ_ｔｅ_ｔ
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）＝ｚ_ｔ１－ｈ（Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ１），０）
　　　　＝Ｐ_ｋｐ８ ^（ｔ１）－ｈ（Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ１），０）
　　Ｐ_ｋｐ８ ^（ｔ１）：時間ステップｔ１におけるキーポイントＫｐ_８の観測値（観測ベクトル）
　　Ｐ_{ｋｐ８＿ｐｒｅ} ^（ｔ１）：時間ステップｔ１におけるキーポイントＫｐ_８の事前推定値（事前推定ベクトル）（ｘ_{ｔ｜ｔ－１}に対応）
　　Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ１）：時間ステップｔ１におけるキーポイントＫｐ_８の事後推定値（事後推定ベクトル）（ｘ_ｔ｜ｔに対応）
　これにより、粗予測処理部３１２は、狭可動キーポイントであるキーポイントＫｐ_８（右腰部分）の現時刻（時間ステップｔ１）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ１）を取得する。

　粗予測処理部３１２は、他の狭可動キーポイントについても、上記と同様の処理を行い、各狭可動キーポイントの現時刻（時間ステップｔ１）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ１）（ｉ：自然数、狭可動キーポイントを示す指標値（本実施形態の場合、ｉ＝｛１，２，３，４，５，８，９，１１，１２，１４｝））を取得する。

　そして、粗予測処理部３１２は、上記処理により取得した各狭可動キーポイントの現時刻（時間ステップｔ１）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ１）を含むデータをデータＤ２＿ｋｐ＿Ｌとして粗予測信頼度取得部３２１および第１メモリＭ１に出力する。

　精密予測処理部３１３は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｈを入力する。また、精密予測処理部３１３は、現時刻よりも前の時刻に取得され、第２メモリＭ２に記憶されているデータＤ１＿ｋｐ＿ＨをデータＤ１＿ｋｐ＿Ｈ＿ｐａｓｔとして、第２メモリＭ２から読み出す。精密予測処理部３１３は、データＤ１＿ｋｐ＿ＨおよびデータＤ１＿ｋｐ＿Ｈ＿ｐａｓｔを用いて、精密予測処理を実行する。具体的には、精密予測処理部３１３は、時系列フィルタを用いた処理（予測処理）を実行する。ここでは、精密予測処理部３１３において、時系列フィルタとして、拡張カルマンフィルタを用いる場合について、説明する。

　拡張カルマンフィルタも時系列フィルタであり、時間ステップｔ（時刻ｔ）における対象の内部状態を状態ベクトルｘ_ｔとし、時間ステップｔ（時刻ｔ）において観測された特徴を観測ベクトルｚ_ｔとしたとき、観測された観測ベクトルｚ_ｔから、直接観測できない対象の内部状態ｘ_ｔを推定する手法である。

　精密予測処理部３１３において、（１）前時間ステップ（時間ステップｔ－１）で取得された広可動キーポイントのデータ（１時間ステップ前の観測対象の内部状態を示すデータ（上記の内部状態ｘ_ｔ－１に相当））と、（２）処理対象としている被写体人物Ｓｕｂ１の所定の部位の動作（被写体人物Ｓｕｂ１の所定の部位の移動）についての物理現象を表現する方程式（例えば、運動方程式等）から予測した予測キーポイントデータ（観測データ（上記の観測ベクトルｚ_ｔに相当））とを用いて時系列フィルタによる処理を行うことで、現時間ステップ（時間ステップｔ）での観測対象の内部状態（被写体人物Ｓｕｂ１のポーズデータ）を取得（推定）する。

　本実施形態では、精密予測処理部３１３は、時系列フィルタとして、高精度な予測処理（推定処理）を行うことができる拡張カルマンフィルタを用いて、広可動キーポイントについての予測処理（精密予測処理）を行う。つまり、精密予測処理部３１３は、拡張カルマンフィルタを用いて、以下の処理を実行する。

　精密予測処理部３１３は、以下の処理により、現時間ステップ（時間ステップｔ）での観測対象の内部状態（被写体人物Ｓｕｂ１の広可動キーポイントのデータ）を取得（推定）する。
（Ａ）予測
　　ｘ_{ｔ｜ｔ－１}＝ｆ（ｘ_{ｔ－１｜ｔ－１}，ｕ_ｔ，０）
　　Ｐ_{ｔ｜ｔ－１}＝Ｆ_ｔＰ_{ｔ－１｜ｔ－１}Ｆ^Ｔ _ｔ＋Ｇ_ｔＱ_ｔＧ^Ｔ _ｔ
　　ｘ_{ｔ｜ｔ－１}：時間ステップｔ－１における時間ステップｔの状態推定値（状態推定ベクトル）
　　ｘ_{ｔ－１｜ｔ－１}：時間ステップｔ－１における更新処理後の状態推定値（状態推定ベクトル）
　　Ｆ_ｔ：システムの時間遷移に関する線形モデル
　　Ｐ_{ｔ－１｜ｔ－１}：誤差の共分散行列
　　Ｆ^Ｔ _ｔ：Ｆ_ｔの転置行列
　　Ｇ_ｔ：時間遷移に関するノイズモデルの行列
　　Ｑ_ｔ：時間遷移に関するノイズモデルの共分散行列
　　Ｇ^Ｔ _ｔ：Ｇ_ｔの転置行列
（Ｂ）更新
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）
　　Ｓ_ｔ＝Ｈ_ｔＰ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｒ_ｔ
　　Ｋ_ｔ＝Ｐ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｓ^－１ _ｔ
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_ｔ｜ｔ＝（Ｉ－Ｋ_ｔＨ_ｔ）Ｐ_{ｔ｜ｔ－１}
　　ｅ_ｔ：時間ステップｔの観測残差
　　Ｓ_ｔ：時間ステップｔの観測残差の共分散
　　Ｋ_ｔ：時間ステップｔの最適カルマンゲイン
　　ｘ_ｔ｜ｔ：時間ステップｔにおいて更新された状態の推定値（推定ベクトル）
　　Ｐ_ｔ｜ｔ：時間ステップｔにおいて更新された誤差の共分散
　　Ｈ_ｔ：観測モデルに関する線形モデル
　　Ｒ_ｔ：時間ステップｔの観測ノイズの共分散
　なお、Ｆ_ｔ、および、Ｈ_ｔは、拡張カルマンフィルタ（非線形カルマンフィルタの一例）を用いる場合、下記の数式により示されるものとなる。

　すなわち、前述した状態空間モデルの関数ｆ、関数Ｈは非線形関数である場合、テイラー展開より、２次微分以降の項を省略して、非線形である関数ｆの１次微分の項までで近似することで、線形化することで、カルマンフィルタのアルゴリズムが適用可能となる。これにより、拡張カルマンフィルタでは、状態空間モデルが非線形な関数ｆ、Ｈを用いる場合であっても高精度な予測処理（推定処理）を行うことができる。つまり、拡張カルマンフィルタでは、状態空間モデルが線形な関数ｆ、Ｈ（線形作用素ｆ、Ｈ）を用いなければならないカルマンフィルタと比べて、計算量は増加するが、非線形なシステムモデルを扱うことができるため、高精度な予測処理（推定処理）を行うことができる。

　精密予測処理部３１３は、例えば、広可動キーポイントであるキーポイントＫｐ_１６（左手部分）の現時刻（時間ステップｔ１）について、キーポイントＫｐ_１６の内部状態変数（内部状態ベクトル）を、特徴量抽出画像Ｉｍｇ１^（ｔ１）上のキーポイントＫｐ_１６のｘ座標およびｙ座標として、拡張カルマンフィルタによる処理を行う。つまり、精密予測処理部３１３は、
　　ｔ＝ｔ１
　　ｚ^Ｔ _ｔ１＝Ｐ^Ｔ _ｋｐ１６ ^（ｔ１）＝［ｘ_ｋｐ１６ ^（ｔ１），ｙ_ｋｐ１６ ^（ｔ１）］
　　ｚ^Ｔ _ｔ１：ｚ_ｔ１の転置行列
　　Ｐ^Ｔ _ｋｐ１６ ^（ｔ１）：Ｐ_ｋｐ１６ ^（ｔ１）の転置行列
　　ｘ_ｋｐ１６ ^（ｔ１）：特徴量抽出画像Ｉｍｇ１^（ｔ１）上のキーポイントＫｐ_１６のｘ座標
　　ｙ_ｋｐ１６ ^（ｔ１）：特徴量抽出画像Ｉｍｇ１^（ｔ１）上のキーポイントＫｐ_１６のｙ座標
とし、下記の更新（拡張カルマンフィルタによる更新）を行う。
＜更新＞
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ１）＝Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ１）＋Ｋ_ｔｅ_ｔ
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）＝ｚ_ｔ１－ｈ（Ｐ_{ｋｐ１６＿ｐｒｅｄ} ^（ｔ１），０）
　　　　＝Ｐ_ｋｐ１６ ^（ｔ１）－ｈ（Ｐ_{ｋｐ１６＿ｐｒｅｄ} ^（ｔ１），０）
　　Ｐ_ｋｐ１６ ^（ｔ１）：時間ステップｔ１におけるキーポイントＫｐ_１６の観測値（観測ベクトル）
　　Ｐ_{ｋｐ１６＿ｐｒｅ} ^（ｔ１）：時間ステップｔ１におけるキーポイントＫｐ_１６の事前推定値（事前推定ベクトル）（ｘ_{ｔ｜ｔ－１}に対応）
　　Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ１）：時間ステップｔ１におけるキーポイントＫｐ_１６の事後推定値（事後推定ベクトル）（ｘ_ｔ｜ｔに対応）
　また、精密予測処理部３１３は、カルマンゲインＫ_ｔを計算するために用いられる、（１）システムの時間遷移に関する線形モデルＦ_ｔと、（２）観測モデルに関する線形モデルＨ_ｔとを、上記の（数式１）、（数式２）に相当する処理を行うことで取得する。そして、精密予測処理部３１３は、
　　Ｋ_ｔ＝Ｐ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｓ^－１ _ｔ
　　Ｐ_{ｔ｜ｔ－１}＝Ｆ_ｔＰ_{ｔ－１｜ｔ－１}Ｆ^Ｔ _ｔ＋Ｇ_ｔＱ_ｔＧ^Ｔ _ｔ
　　Ｓ_ｔ＝Ｈ_ｔＰ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｒ_ｔ
に相当する処理を実行することで、カルマンゲインＫ_ｔを算出（取得）する。

　上記処理により、精密予測処理部３１３は、広可動キーポイントであるキーポイントＫｐ_１６（左手部分）の現時刻（時間ステップｔ１）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ１）を取得する。

　精密予測処理部３１３は、他の広可動キーポイントについても、上記と同様の処理を行い、各広可動キーポイントの現時刻（時間ステップｔ１）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ１）（ｉ：自然数、広可動キーポイントを示す指標値（本実施形態の場合、ｉ＝｛６，７，１０，１３，１５，１６｝（左右の手、肘、足に相当）））を取得する。

　そして、精密予測処理部３１３は、上記処理により取得した各広可動キーポイントの現時刻（時間ステップｔ１）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ１）を含むデータをデータＤ２＿ｋｐ＿Ｈとして精密予測信頼度取得部３２２および第２メモリＭ２に出力する。

　粗予測信頼度取得部３２１は、粗予測処理部３１２から出力される粗予測処理データＤ２＿ｋｐ＿Ｌに対して、粗予測信頼度取得処理を実行することで、粗予測信頼度（粗予測信頼度マップ）を取得する。具体的には、粗予測信頼度取得部３２１は、特徴量抽出画像Ｉｍｇ１^（ｔ１）上において、粗予測処理データＤ２＿ｋｐ＿Ｌにより特定される各部位の位置（各部位に対応するキーポイントの位置（粗予測処理により推定（予測）された位置））に所定の値（画素値）（例えば、「０．２」）を設定し、それ以外の位置の値（画素値）を「０」とした信頼度マップ（信頼度を画素値としたマップ）である粗予測信頼度マップを取得する。なお、粗予測信頼度マップは、データＤ＿ｈｅａｔｍａｐに含まれるヒートマップと同じ画素サイズ、画素数、画素配列のマップであるものとする。

　例えば、図６に示すように、粗予測処理データＤ２＿ｋｐ＿Ｌにより特定される左肩部分（ｋｐ_１４）の位置（左肩部分に対応するキーポイントの位置（粗予測処理により推定（予測）された位置））が、図６の右上図にＤ２＿ｋｐ＿Ｌ．ｋｐ_１４で示した位置であるとき、粗予測信頼度取得部３２１は、粗予測信頼度マップの当該位置の信頼度（画素値）を所定の値（例えば、「０．２」）に設定し、それ以外の位置の信頼度（画素値）を「０」に設定することで、左肩部分（ｋｐ_１４）の粗予測信頼度マップ（粗予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_１４）を取得する(図６の右下図を参照)。なお、部位ｋｐ_ｘの粗予測信頼度マップをＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_ｘと表記する。なお、図６では、説明便宜のため、粗予測信頼度マップの画素を４×４の矩形（１６個の矩形（画素））で表示しており、他の画像領域における粗予測信頼度マップの画素の表示は省略している。

　他の部位についても、粗予測信頼度取得部３２１は、上記と同様の処理を行うことで、各部位の粗予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_ｘを取得する。

　そして、粗予測信頼度取得部３２１は、取得した各部位の粗予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_ｘ（ｘ：自然数、１≦ｘ≦１６）をまとめた（含む）データを、データＤ３＿ｃｏｎｆ＿Ｌとして、信頼度合成部３２３に出力する。

　精密予測信頼度取得部３２２は、精密予測処理部３１３から出力される精密予測処理データＤ２＿ｋｐ＿Ｈに対して、精密予測信頼度取得処理を実行することで、精密予測信頼度（精密予測信頼度マップ）を取得する。具体的には、精密予測信頼度取得部３２２は、特徴量抽出画像Ｉｍｇ１^（ｔ１）上において、精密予測処理データＤ２＿ｋｐ＿Ｈにより特定される各部位の位置（各部位に対応するキーポイントの位置（精密予測処理により推定（予測）された位置））に所定の値（画素値）（例えば、「０．２」）を設定し、それ以外の位置の値（画素値）を「０」とした信頼度マップ（信頼度を画素値としたマップ）である精密予測信頼度マップを取得する。なお、精密予測信頼度マップは、データＤ＿ｈｅａｔｍａｐに含まれるヒートマップと同じ画素サイズ、画素数、画素配列のマップであるものとする。

　例えば、図７に示すように、精密予測処理データＤ２＿ｋｐ＿Ｈにより特定される左手部分（ｋｐ_１６）の位置（左手部分に対応するキーポイントの位置（精密予測処理により推定（予測）された位置））が、図７の右上図にＤ２＿ｋｐ＿Ｈ．ｋｐ_１６で示した位置であるとき、精密予測信頼度取得部３２２は、精密予測信頼度マップの当該位置の信頼度（画素値）を所定の値（例えば、「０．２」）に設定し、それ以外の位置の信頼度（画素値）を「０」に設定することで、左手部分（ｋｐ_１６）の精密予測信頼度マップ（精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_１６）を取得する(図７の右下図を参照)。なお、部位ｋｐ_ｘの精密予測信頼度マップをＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_ｘと表記する。なお、図７では、説明便宜のため、精密予測信頼度マップの画素を４×４の矩形（１６個の矩形（画素））で表示しており、他の画像領域における精密予測信頼度マップの画素の表示は省略している。

　他の部位についても、粗予測信頼度取得部３２１は、上記と同様の処理を行うことで、各部位の精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_ｘを取得する。

　そして、精密予測信頼度取得部３２２は、取得した各部位の精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_ｘ（ｘ：自然数、１≦ｘ≦１６）をまとめた（含む）データを、データＤ３＿ｃｏｎｆ＿Ｈとして、信頼度合成部３２３に出力する。

　信頼度合成部３２３は、粗予測信頼度取得部３２１から出力されるデータＤ３＿ｃｏｎｆ＿Ｌと、精密予測信頼度取得部３２２から出力されるデータＤ３＿ｃｏｎｆ＿Ｈと、ヒートマップ取得部２から出力されるデータＤ＿ｈｅａｔｍａｐとを入力する。信頼度合成部３２３は、データＤ３＿ｃｏｎｆ＿Ｌ、データＤ３＿ｃｏｎｆ＿Ｈ、および、データＤ＿ｈｅａｔｍａｐに対して、信頼度合成処理を実行する。具体的には、信頼度合成部３２３は、各部位（ｋｐ_ｘ（ｘ：自然数、１≦ｘ≦１６））ごとに、同一位置の画素について、
（１）ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_ｘ、と
（２Ａ）粗予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_ｘ、または、
（２Ｂ）精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_ｘ
との加算処理（画素値の加算処理）を実行することで、合成信頼度マップを取得する。なお、ヒートマップＤ＿ｈｅａｔｍａｐの部位ｋｐ_ｘのヒートマップ（ヒートマップから取得される信頼度のマップ）をヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_ｘと表記する。

　例えば、左肩部分（ｋｐ_１４）の場合、図８に示すように、同一位置の画素について、
（１）ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１４（図８の上段の図）と
（２Ａ）粗予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_１４（図８の中段の図）、と
の加算処理（画素値ごと加算処理）を実行することで、左肩部分（ｋｐ_１４）の合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１４（図８の下段の図）を取得する。

　また、例えば、左手部分（ｋｐ_１６）の場合、図９に示すように、同一位置の画素について、
（１）ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１６（図９の上段の図）と
（２Ｂ）精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_１６（図９の中段の図）、と
の加算処理（画素値ごと加算処理）を実行することで、左手部分（ｋｐ_１６）の合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６（図９の下段の図）を取得する。

　他の部位についても、信頼度合成部３２３は、上記と同様の処理を行うことで、各部位の合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_ｘを取得する。

　そして、信頼度合成部３２３は、取得した各部位の合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_ｘ（ｘ：自然数、１≦ｘ≦１６）をまとめた（含む）データを、データＤ４＿ｃｏｎｆとして、精密ポーズデータ取得部３３に出力する。

　精密ポーズデータ取得部３３は、２Ｄポーズ推定部１から出力されるデータＤｉ＿ｋｐと、信頼度合成部３２３から出力されるデータＤ４＿ｃｏｎｆと、を入力する。精密ポーズデータ取得部３３は、データＤｉ＿ｋｐ、および、データＤ４＿ｃｏｎｆ（信頼度データＤ４＿ｃｏｎｆ）を用いて、精密ポーズデータ取得処理を実行する。具体的には、精密ポーズデータ取得部３３は、各部位（ｋｐ_ｘ（ｘ：自然数、１≦ｘ≦１６））ごとに、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_ｘにより特定される画像（特徴量抽出画像Ｉｍｇ１^（ｔ１））上の位置と、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_ｘにより特定される画像（特徴量抽出画像Ｉｍｇ１^（ｔ１））上の位置（キーポイントｋｐ_ｘの位置）とが略一致するか否かを判定し、以下のように処理する。
（１）両者の位置が略一致する場合、精密ポーズデータ取得部３３は、精密ポーズデータの部位ｋｐ_ｘのキーポイントを２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_ｘとすることで、部位ｋｐ_ｘの精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘを取得する。すなわち、精密ポーズデータ取得部３３は、
　　Ｄｏ＿ｋｐ．ｋｐ_ｘ＝Ｄｉ＿ｋｐ．ｋｐ_ｘ
として、部位ｋｐ_ｘの精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘを取得する。
（２）一方、両者の位置が略一致しない場合、精密ポーズデータ取得部３３は、精密ポーズデータの部位ｋｐ_ｘのキーポイントを、信頼度合成部３２３により取得された合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_ｘにより特定される画像（特徴量抽出画像Ｉｍｇ１^（ｔ１））上の位置（合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_ｘで最大値を示す画素の位置）とすることで、部位ｋｐ_ｘの精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘを取得する。すなわち、精密ポーズデータ取得部３３は、
　　Ｄｏ＿ｋｐ．ｋｐ_ｘ＝ｍａｘ＿Ｐ（Ｄ４＿ｃｏｎｆ．ｋｐ_ｘ）
　　ｍａｘ＿Ｐ（Ｄｐ）：信頼度マップＤｐにおいて、画素値（信頼度）が最大値を示す位置（画像上の位置）の情報（例えば、画像上の座標等）を取得する関数
として、部位ｋｐ_ｘの精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘを取得する。なお、上記の「略一致」とは、画像上の２点間の距離が所定の値（例えば、信頼度マップの画素ピッチに相当する距離）以下であることをいう。

　例えば、左肩部分（ｋｐ_１４）の場合（粗予測処理の対象部位の場合）、図１０に示すように、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_１４の画像上の位置（図１０の上図の４×４の矩形（マトリックス）の２行１列目の画素（画素値が「０．７」の画素）の位置に相当）と、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１４で最大値を示す画素の位置（図１０の上図の４×４の矩形（マトリックス）の２行３列目の画素（画素値が「０．８」の画素）の位置）とは、略一致していない（信頼度マップの画素ピッチ（隣接画素間の距離）以上離れている）。したがって、精密ポーズデータ取得部３３は、精密ポーズデータの部位ｋｐ_１４のキーポイントを、信頼度合成部３２３により取得された合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１４により特定される画像（特徴量抽出画像Ｉｍｇ１^（ｔ１））上の位置（合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１４で最大値を示す画素の位置）とすることで、部位ｋｐ_１４の精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１４を取得する。すなわち、精密ポーズデータ取得部３３は、
　　Ｄｏ＿ｋｐ．ｋｐ_１４＝ｍａｘ＿Ｐ（Ｄ４＿ｃｏｎｆ．ｋｐ_１４）
　　ｍａｘ＿Ｐ（Ｄｐ）：信頼度マップＤｐにおいて、画素値（信頼度）が最大値を示す位置（画像上の位置）の情報（例えば、画像上の座標等）を取得する関数
として、部位ｋｐ_１４の精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１４（図１０の上図の４×４の矩形（マトリックス）の２行３列目の画素（画素値が「０．８」の画素）の位置に対応）を取得する（図１０の下図を参照）。図１０の下図から分かるように、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_１４が正しい位置からずれている場合であっても、精密ポーズデータ取得部３３が上記処理を実行することにより、部位ｋｐ_１４の正確な位置を示すデータ（キーポイント）として、精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１４を取得することができる。

　なお、上記では、ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１４において画素値が最大である画素の位置と、粗予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_１４において画素値が非０である画素の位置とが異なる位置である場合について、説明したが、ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１４において画素値が最大である画素の位置と、粗予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_１４において画素値が非０である画素の位置とが一致する場合、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１４で最大値を示す画素の位置は、ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１４において画素値が最大である画素の位置、および、粗予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_１４において画素値が非０である画素の位置と同じ位置となる。つまり、この場合においても、部位ｋｐ_１４の正確な位置を示すデータ（キーポイント）として、精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１４を取得することができる。

　また、例えば、左手部分（ｋｐ_１６）の場合（精密予測処理の対象部位の場合）、図１１に示すように、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_１６の画像上の位置（図１１の上図の４×４の矩形（マトリックス）の２行２列目の画素（画素値が「０．９」の画素）の位置に相当）と、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６で最大値を示す画素の位置（図１１の上図の４×４の矩形（マトリックス）の４行４列目の画素（画素値が「１．０」の画素）の位置）とは、略一致していない（信頼度マップの画素ピッチ（隣接画素間の距離）以上離れている）。したがって、精密ポーズデータ取得部３３は、精密ポーズデータの部位ｋｐ_１６のキーポイントを、信頼度合成部３２３により取得された合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６により特定される画像（特徴量抽出画像Ｉｍｇ１^（ｔ１））上の位置（合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６で最大値を示す画素の位置）とすることで、部位ｋｐ_１６の精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１６を取得する。すなわち、精密ポーズデータ取得部３３は、
　　Ｄｏ＿ｋｐ．ｋｐ_１６＝ｍａｘ＿Ｐ（Ｄ４＿ｃｏｎｆ．ｋｐ_１６）
　　ｍａｘ＿Ｐ（Ｄｐ）：信頼度マップＤｐにおいて、画素値（信頼度）が最大値を示す位置（画像上の位置）の情報（例えば、画像上の座標等）を取得する関数
として、部位ｋｐ_１６の精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１６（図１１の上図の４×４の矩形（マトリックス）の４行４列目の画素（画素値が「１．０」の画素）の位置に対応）を取得する（図１１の下図を参照）。図１１の下図から分かるように、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_１６が正しい位置からずれている場合であっても、精密ポーズデータ取得部３３が上記処理を実行することにより、部位ｋｐ_１６の正確な位置を示すデータ（キーポイント）として、精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１６を取得することができる。

　なお、上記では、ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１６において画素値が最大である画素の位置と、精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_１６において画素値が非０である画素の位置とが異なる位置である場合について、説明したが、ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１６において画素値が最大である画素の位置と、精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_１６において画素値が非０である画素の位置とが一致する場合、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６で最大値を示す画素の位置は、ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１６において画素値が最大である画素の位置、および、精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_１６において画素値が非０である画素の位置と同じ位置となる。つまり、この場合においても、部位ｋｐ_１６の正確な位置を示すデータ（キーポイント）として、精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１６を取得することができる。

　また、上記では、精密ポーズデータ取得部３３において、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_ｘの画像上の位置と、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_ｘで最大値を示す画素の位置とが、略一致しているか否か（信頼度マップの画素ピッチ（隣接画素間の距離）以上離れているか否か）を判定する場合について説明したが、これに限定されることはない。例えば、精密ポーズデータ取得部３３において、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_ｘの画像上の位置と、粗予測処理データＤ２＿ｋｐ＿Ｌまたは精密予測処理データＤ２＿ｋｐ＿Ｈにより特定される画像上の位置とが一致しているか否かを判定するようにしてもよい。この場合、精密データ取得部３において、予測データ取得部３１から取得される粗予測処理データＤ２＿ｋｐ＿Ｌおよび精密予測処理データＤ２＿ｋｐ＿Ｈが精密ポーズデータ取得部３３に入力される構成を用いればよい。

　そして、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_ｘの画像上の位置と、粗予測処理データＤ２＿ｋｐ＿Ｌまたは精密予測処理データＤ２＿ｋｐ＿Ｈにより特定される画像上の位置とが一致していない場合、精密ポーズデータ取得部３３は、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_ｘで最大値を示す画素の位置を、部位ｋｐ_ｘの精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘとして取得するようにすればよい。

　他の部位についても、精密ポーズデータ取得部３３は、上記と同様の処理を行うことで、各部位の精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘを取得する。

　そして、精密ポーズデータ取得部３３は、取得した各部位の精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘ（ｘ：自然数、１≦ｘ≦１６）をまとめた（含む）データを、データＤｏ＿ｋｐとして、２Ｄ－３Ｄ変換部４に出力する。

　ここで、図１２を用いて、精密データ取得部３で取得されるデータについて、説明する。

　図１２に、精密ポーズデータ取得部３３が上記処理により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｘをまとめたデータＤｏ＿ｋｐの一例を示す。図１２では、特徴量抽出画像Ｉｍｇ１^（ｔ１）、２Ｄポーズ推定部１により取得された２Ｄポーズデータ（キーポイントデータＤｉ＿ｋｐ．ｋｐ_ｘ）を模式的に示した画像Ｉｍｇ１^（ｔ１）（Ｄｉ＿ｋｐ）、および、精密ポーズデータ取得部３３により取得された精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘを模式的に示した画像Ｉｍｇ１^（ｔ１）（Ｄｏ＿ｋｐ）を示している。そして、（１）図１２の画像Ｉｍｇ１^（ｔ１）（Ｄｉ＿ｋｐ）では、データＤｉ＿ｋｐによるキーポイントをグレーの丸で示しており、図１２の画像Ｉｍｇ１^（ｔ１）（Ｄｏ＿ｋｐ）では、精密ポーズデータＤｉ＿ｋｐによるキーポイントを黒丸で示している。

　図１２から分かるように、画像Ｉｍｇ１^（ｔ１）（Ｄｉ＿ｋｐ）では、部位ｋｐ_１０（右足）、ｋｐ_１４（左肩）、ｋｐ_１６（左手）の位置が正しい位置からずれているが、画像Ｉｍｇ１^（ｔ１）（Ｄｏ＿ｋｐ）（精密ポーズデータ）では、部位ｋｐ_１０（右足）、ｋｐ_１４（左肩）、ｋｐ_１６（左手）の位置について、合成信頼度マップにより適切に補正されており、その結果、部位ｋｐ_１０（右足）、ｋｐ_１４（左肩）、ｋｐ_１６（左手）について、正しい位置のキーポイントとして取得されている。

　以上のように、精密データ取得部３では、ヒートマップ取得部２により取得されたヒートマップに対して、予測データ取得部３１により取得された粗予測信頼度マップまたは精密予測信頼度マップによる加算処理（同一画素における画素値の加算処理）を行うことで、より精度の高い信頼度マップ（合成信頼度マップ）を部位ごとに取得することができる。そして、精密データ取得部３では、合成信頼度マップに基づいて、精密ポーズデータを取得するので、より精度の高いポーズデータを取得することができる。

　２Ｄ－３Ｄ変換部４は、精密データ取得部３から出力されるデータＤｏ＿ｋｐ（２次元のキーポイントのデータ）を入力する。２Ｄ－３Ｄ変換部４は、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）に対して、２Ｄ－３Ｄ変換処理を実行し、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）に対応する３次元データ（３次元のキーポイントのデータ）をデータＤｏ＿３Ｄ＿ｋｐとして取得する。例えば、２Ｄ－３Ｄ変換部４は、２次元のキーポイントデータを入力すると、３次元のキーポイントデータを出力（推定）する機械学習済みモデル（例えば、ニューラルネットワークによる学習済みモデル）を備えており、２Ｄ－３Ｄ変換部４は、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）を、上記機械学習済みモデルに入力し、当該機械学習済みモデルによる処理を行う。これにより、２Ｄ－３Ｄ変換部４は、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）から、３次元のキーポイントデータを取得（推定）する。

　また、撮像装置Ｃａｍ１により被写体人物Ｓｕｂ１を撮影している３次元空間（撮像空間）の情報、および、撮像装置Ｃａｍ１の撮影パラメータの情報を取得できる場合、２Ｄ－３Ｄ変換部４は、当該撮像空間の情報と、撮像装置Ｃａｍ１の撮影パラメータの情報Ｉｎｆｏ＿ｃａｍ＿ｐｒｍとに基づいて、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）から、３次元のキーポイントデータを取得（推定）するようにしてもよい。

　そして、２Ｄ－３Ｄ変換部４は、上記により取得したデータ（２次元のキーポイントのデータ）を、データＤｏ＿３Ｄ＿ｋｐとして、ポスト処理部５に出力する。

　ポスト処理部５は、２Ｄ－３Ｄ変換部４から出力されるデータＤｏ＿３Ｄ＿ｋｐを入力し、当該データＤｏ＿３Ｄ＿ｋｐに対してポスト処理を実行する。例えば、ポスト処理部５は、データＤｏ＿３Ｄ＿ｋｐに含まれる各キーポイントの３次元データ（３次元の座標データ）に対して、座標変換を行うことで、ポスト処理を実行する。例えば、データＤｏ＿３Ｄ＿ｋｐを用いて、ＣＧ合成処理を行う場合、データＤｏ＿３Ｄ＿ｋｐに含まれる各キーポイントの３次元データ（３次元の座標データ）を、ＣＧ合成を行うための３次元空間の３次元データ（３次元の座標データ）に変換することが好ましい。このような場合、ポスト処理部５は、データＤｏ＿３Ｄ＿ｋｐに含まれる各キーポイントの３次元データ（３次元の座標データ）に対して、座標変換を行うことで、後段のアプリケーションで使用しやすいデータ（例えば、ＣＧ合成するための３次元空間の３次元座標値を有する３次元データ）を取得することができる。

　そして、ポスト処理部５は、上記により取得したデータをデータＤｏｕｔとして外部に出力する。

　≪時間ステップｔ２の処理≫
　次に、時間ステップｔ２（時間ステップｔ２は、時間ステップｔ１の１時間ステップ後の時間ステップである（ｔ２＝ｔ１＋１））の処理について説明する。なお、時間ステップｔ１と同様の処理については、詳細な説明を省略する。

　時間ステップｔ２において、撮像装置Ｃａｍ１により、被写体人物Ｓｕｂ１を含む３次元空間（撮像空間）を撮像することで、フレーム画像データＩｍｇ０^（ｔ２）を取得する。

　ポーズデータ生成装置１００の２Ｄポーズ推定部１は、撮像装置Ｃａｍ１から出力されるフレーム画像データＩｍｇ０^（ｔ２）をデータＤｉｎとして入力し、当該フレーム画像データＩｍｇ０^（ｔ２）を用いて、２次元ポーズデータを推定（取得）する処理（２Ｄポーズ推定処理）を実行する。具体的な処理は、時間ステップｔ１のときの処理と同様である。

　特徴量抽出部ＰＰ１は、データＤｉｎ（フレーム画像データＩｍｇ１０^（ｔ２））に対して、特徴量抽出処理（例えば、クラス分類を行いつつ、物体検出を行う処理）を実行することで、被写体人物（物体検出の対象）に相当する画像領域（画像Ｉｍｇ１^（ｔ２））（図３Ｂを参照）を抽出する。

　そして、特徴量抽出部ＰＰ１は、特徴量抽出処理により取得した、物体検出の対象の画像領域（画像Ｉｍｇ１^（ｔ２））についてのデータ（物体検出の対象が含まれる画像領域を含む画像データ、抽出した画像領域の座標、サイズについてのデータ等）、および、物体検出した対象のクラス分類に関するデータ（物体検出のクラス（本実施形態では、「人」））等を含むデータを、特徴量抽出データＤ０として、２Ｄポーズ推定部１およびヒートマップ取得部２に出力する。

　そして、２Ｄポーズ推定部１は、特徴量抽出部ＰＰ１により取得された特徴量抽出画像Ｉｍｇ１^（ｔ２）に対して、２Ｄポーズ推定処理を実行し、当該処理により取得した２次元キーポイントデータ（１６個の点ｋｐ_１～ｋｐ_１６の２次元座標データ）を含むデータを、データＤｉ＿ｋｐとして、精密データ取得部３に出力する。

　ポーズデータ生成装置１００のヒートマップ取得部２は、特徴量抽出画像データＩｍｇ１^（ｔ２）により形成されるフレーム画像（特徴量抽出画像Ｉｍｇ１^（ｔ２））から、ヒートマップを取得する処理（ヒートマップ取得処理）を実行する。具体的な処理は、時間ステップｔ１のときの処理と同様である。

　ヒートマップ取得部２は、ヒートマップ取得処理により、キーポイントｋｐ_１～ｋｐ_１６のそれぞれについてのヒートマップ（合計１６個のヒートマップ）を取得する。

　そして、ヒートマップ取得部２は、ヒートマップ取得処理により取得したヒートマップを含むデータをデータＤ＿ｈｅａｔｍａｐとして精密データ取得部３に出力する。

　精密データ取得部３のデータ分解部３１１は、２Ｄポーズ推定部１から出力されるデータＤｉ＿ｋｐを入力し、当該データＤｉ＿ｋｐに対して分解処理（キーポイントデータを人の部位ごとに分解する処理）を実行する。具体的な処理は、時間ステップｔ１のときの処理と同様である。

　データ分解部３１１は、（１）分解処理により取得した狭可動キーポイントのデータを含むデータをデータＤ１＿ｋｐ＿Ｌとして、粗予測処理部３１２および第１メモリＭ１に出力し、（２）分解処理により取得した広可動キーポイントのデータを含むデータをデータＤ１＿ｋｐ＿Ｈとして、精密予測処理部３１３および第２メモリＭ２に出力する。

　粗予測処理部３１２は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｌを入力する。また、粗予測処理部３１２は、現時刻よりも前の時刻に取得され、第１メモリＭ１に記憶されているデータＤ１＿ｋｐ＿ＬをデータＤ１＿ｋｐ＿Ｌ＿ｐａｓｔとして、第１メモリＭ１から読み出す。粗予測処理部３１２は、データＤ１＿ｋｐ＿ＬおよびデータＤ１＿ｋｐ＿Ｌ＿ｐａｓｔを用いて、粗予測処理を実行する。

　粗予測処理部３１２は、時間ステップｔ１のときと同様に、時系列フィルタとして、比較的計算量が少なくてすむカルマンフィルタを用いて、狭可動キーポイントについての予測処理（粗予測処理）を行う。つまり、粗予測処理部３１２は、カルマンフィルタを用いて、以下の処理を実行する。

　粗予測処理部３１２は、以下の処理により、現時間ステップ（時間ステップｔ）での観測対象の内部状態（被写体人物Ｓｕｂ１の狭可動キーポイントのデータ）を取得（推定）する。
（Ａ）予測
　　ｘ_{ｔ｜ｔ－１}＝ｆ（ｘ_{ｔ－１｜ｔ－１}，ｕ_ｔ，０）
　　Ｐ_{ｔ｜ｔ－１}＝Ｆ_ｔＰ_{ｔ－１｜ｔ－１}Ｆ^Ｔ _ｔ＋Ｇ_ｔＱ_ｔＧ^Ｔ _ｔ
　　ｘ_{ｔ｜ｔ－１}：時間ステップｔ－１における時間ステップｔの状態推定値（状態推定ベクトル）
　　ｘ_{ｔ－１｜ｔ－１}：時間ステップｔ－１における更新処理後の状態推定値（状態推定ベクトル）
　　Ｆ_ｔ：システムの時間遷移に関する線形モデル
　　Ｐ_{ｔ－１｜ｔ－１}：誤差の共分散行列
　　Ｆ^Ｔ _ｔ：Ｆ_ｔの転置行列
　　Ｇ_ｔ：時間遷移に関するノイズモデルの行列
　　Ｑ_ｔ：時間遷移に関するノイズモデルの共分散行列
　　Ｇ^Ｔ _ｔ：Ｇ_ｔの転置行列
（Ｂ）更新
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）
　　Ｓ_ｔ＝Ｈ_ｔＰ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｒ_ｔ
　　Ｋ_ｔ＝Ｐ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｓ^－１ _ｔ
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_ｔ｜ｔ＝（Ｉ－Ｋ_ｔＨ_ｔ）Ｐ_{ｔ｜ｔ－１}
　　ｅ_ｔ：時間ステップｔの観測残差
　　Ｓ_ｔ：時間ステップｔの観測残差の共分散
　　Ｋ_ｔ：時間ステップｔの最適カルマンゲイン
　　ｘ_ｔ｜ｔ：時間ステップｔにおいて更新された状態の推定値（推定ベクトル）
　　Ｐ_ｔ｜ｔ：時間ステップｔにおいて更新された誤差の共分散
　　Ｈ_ｔ：観測モデルに関する線形モデル
　　Ｒ_ｔ：時間ステップｔの観測ノイズの共分散
　粗予測処理部３１２は、例えば、狭可動キーポイントであるキーポイントＫｐ_８（右腰部分）の現時刻（時間ステップｔ２）について、キーポイントＫｐ_８の内部状態変数（内部状態ベクトル）を、特徴量抽出画像Ｉｍｇ１^（ｔ２）上のキーポイントＫｐ_８のｘ座標およびｙ座標として、カルマンフィルタによる処理を行う。つまり、粗予測処理部３１２は、
　　ｔ＝ｔ２
　　ｚ^Ｔ _ｔ２＝Ｐ^Ｔ _ｋｐ８ ^（ｔ２）＝［ｘ_ｋｐ８ ^（ｔ２），ｙ_ｋｐ８ ^（ｔ２）］
　　ｚ^Ｔ _ｔ２：ｚ_ｔ２の転置行列
　　Ｐ^Ｔ _ｋｐ８ ^（ｔ２）：Ｐ_ｋｐ８ ^（ｔ２）の転置行列
　　ｘ_ｋｐ８ ^（ｔ２）：特徴量抽出画像Ｉｍｇ１^（ｔ２）上のキーポイントＫｐ_８のｘ座標
　　ｙ_ｋｐ８ ^（ｔ２）：特徴量抽出画像Ｉｍｇ１^（ｔ２）上のキーポイントＫｐ_８のｙ座標
とし、下記の更新（カルマンフィルタによる更新）を行う。なお、ｘ_{ｔ－１｜ｔ－１}（時間ステップｔ－１における更新処理後の状態推定値（状態推定ベクトル））は、データＤ１＿ｋｐ＿Ｌ＿ｐａｓｔに含まれており、データＤ１＿ｋｐ＿Ｌ＿ｐａｓｔから取り出される。
＜更新＞
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ２）＝Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ２）＋Ｋ_ｔｅ_ｔ
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）＝ｚ_ｔ１－ｈ（Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ２），０）
　　　　＝Ｐ_ｋｐ８ ^（ｔ２）－ｈ（Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ２），０）
　　Ｐ_ｋｐ８ ^（ｔ２）：時間ステップｔ２におけるキーポイントＫｐ_８の観測値（観測ベクトル）
　　Ｐ_{ｋｐ８＿ｐｒｅ} ^（ｔ２）：時間ステップｔ２におけるキーポイントＫｐ_８の事前推定値（事前推定ベクトル）（ｘ_{ｔ｜ｔ－１}に対応）
　　Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ２）：時間ステップｔ２におけるキーポイントＫｐ_８の事後推定値（事後推定ベクトル）（ｘ_ｔ｜ｔに対応）
　これにより、粗予測処理部３１２は、狭可動キーポイントであるキーポイントＫｐ_８（右腰部分）の現時刻（時間ステップｔ２）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ２）を取得する。

　粗予測処理部３１２は、他の狭可動キーポイントについても、上記と同様の処理を行い、各狭可動キーポイントの現時刻（時間ステップｔ２）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ２）（ｉ：自然数、狭可動キーポイントを示す指標値（本実施形態の場合、ｉ＝｛１，２，３，４，５，８，９，１１，１２，１４｝））を取得する。

　そして、粗予測処理部３１２は、上記処理により取得した各狭可動キーポイントの現時刻（時間ステップｔ２）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ２）を含むデータをデータＤ２＿ｋｐ＿Ｌとして粗予測信頼度取得部３２１および第１メモリＭ１に出力する。

　精密予測処理部３１３は、データ分解部３１１から出力されるデータＤ１＿ｋｐ＿Ｈを入力する。また、精密予測処理部３１３は、現時刻よりも前の時刻に取得され、第２メモリＭ２に記憶されているデータＤ１＿ｋｐ＿ＨをデータＤ１＿ｋｐ＿Ｈ＿ｐａｓｔとして、第２メモリＭ２から読み出す。精密予測処理部３１３は、データＤ１＿ｋｐ＿ＨおよびデータＤ１＿ｋｐ＿Ｈ＿ｐａｓｔを用いて、精密予測処理を実行する。
具体的には、精密予測処理部３１３は、時間ステップｔ１のときと同様に、時系列フィルタとして拡張カルマンフィルタを用いた処理（予測処理）を実行する。

　精密予測処理部３１３は、時系列フィルタとして、高精度な予測処理（推定処理）を行うことができる拡張カルマンフィルタを用いて、広可動キーポイントについての予測処理（精密予測処理）を行う。

　精密予測処理部３１３は、例えば、広可動キーポイントであるキーポイントｋｐ_１６（左手部分）の現時刻（時間ステップｔ２）について、キーポイントｋｐ_１６の内部状態変数（内部状態ベクトル）を、特徴量抽出画像Ｉｍｇ１^（ｔ２）上のキーポイントｋｐ_１６のｘ座標およびｙ座標として、拡張カルマンフィルタによる処理を行う。つまり、精密予測処理部３１３は、
　　ｔ＝ｔ２
　　ｚ^Ｔ _ｔ２＝Ｐ^Ｔ _ｋｐ１６ ^（ｔ２）＝［ｘ_ｋｐ１６ ^（ｔ２），ｙ_ｋｐ１６ ^（ｔ２）］
　　ｚ^Ｔ _ｔ２：ｚ_ｔ２の転置行列
　　Ｐ^Ｔ _ｋｐ１６ ^（ｔ２）：Ｐ_ｋｐ１６ ^（ｔ２）の転置行列
　　ｘ_ｋｐ１６ ^（ｔ２）：特徴量抽出画像Ｉｍｇ１^（ｔ２）上のキーポイントＫｐ_１６のｘ座標
　　ｙ_ｋｐ１６ ^（ｔ２）：特徴量抽出画像Ｉｍｇ１^（ｔ２）上のキーポイントＫｐ_１６のｙ座標
とし、下記の更新（拡張カルマンフィルタによる更新）を行う。
＜更新＞
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ２）＝Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ２）＋Ｋ_ｔｅ_ｔ
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）＝ｚ_ｔ１－ｈ（Ｐ_{ｋｐ１６＿ｐｒｅｄ} ^（ｔ２），０）
　　　　＝Ｐ_ｋｐ１６ ^（ｔ２）－ｈ（Ｐ_{ｋｐ１６＿ｐｒｅｄ} ^（ｔ２），０）
　　Ｐ_ｋｐ１６ ^（ｔ２）：時間ステップｔ２におけるキーポイントＫｐ_１６の観測値（観測ベクトル）
　　Ｐ_{ｋｐ１６＿ｐｒｅ} ^（ｔ２）：時間ステップｔ２におけるキーポイントＫｐ_１６の事前推定値（事前推定ベクトル）（ｘ_{ｔ｜ｔ－１}に対応）
　　Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ２）：時間ステップｔ２におけるキーポイントＫｐ_１６の事後推定値（事後推定ベクトル）（ｘ_ｔ｜ｔに対応）
　また、精密予測処理部３１３は、カルマンゲインＫ_ｔを計算するために用いられる、（１）システムの時間遷移に関する線形モデルＦ_ｔと、（２）観測モデルに関する線形モデルＨ_ｔとを、上記の（数式１）、（数式２）に相当する処理を行うことで取得する。そして、精密予測処理部３１３は、
　　Ｋ_ｔ＝Ｐ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｓ^－１ _ｔ
　　Ｐ_{ｔ｜ｔ－１}＝Ｆ_ｔＰ_{ｔ－１｜ｔ－１}Ｆ^Ｔ _ｔ＋Ｇ_ｔＱ_ｔＧ^Ｔ _ｔ
　　Ｓ_ｔ＝Ｈ_ｔＰ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｒ_ｔ
に相当する処理を実行することで、カルマンゲインＫ_ｔを算出（取得）する。

　上記処理により、精密予測処理部３１３は、広可動キーポイントであるキーポイントＫｐ_１６（左手部分）の現時刻（時間ステップｔ２）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ２）を取得する。

　精密予測処理部３１３は、他の広可動キーポイントについても、上記と同様の処理を行い、各広可動キーポイントの現時刻（時間ステップｔ２）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ２）（ｉ：自然数、広可動キーポイントを示す指標値（本実施形態の場合、ｉ＝｛６，７，１０，１３，１５，１６｝（左右の手、肘、足に相当）））を取得する。

　そして、精密予測処理部３１３は、上記処理により取得した各広可動キーポイントの現時刻（時間ステップｔ２）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ２）を含むデータをデータＤ２＿ｋｐ＿Ｈとして精密予測信頼度取得部３２２および第２メモリＭ２に出力する。

　粗予測信頼度取得部３２１は、粗予測処理部３１２から出力される粗予測処理データＤ２＿ｋｐ＿Ｌに対して、時間ステップｔ１の処理と同様に、粗予測信頼度取得処理を実行することで、粗予測信頼度（粗予測信頼度マップ）を取得する。

　精密予測信頼度取得部３２２は、精密予測処理部３１３から出力される精密予測処理データＤ２＿ｋｐ＿Ｈに対して、時間ステップｔ１の処理と同様に、精密予測信頼度取得処理を実行することで、精密予測信頼度（精密予測信頼度マップ）を取得する。

　信頼度合成部３２３は、粗予測信頼度取得部３２１から出力されるデータＤ３＿ｃｏｎｆ＿Ｌと、精密予測信頼度取得部３２２から出力されるデータＤ３＿ｃｏｎｆ＿Ｈと、ヒートマップ取得部２から出力されるデータＤ＿ｈｅａｔｍａｐとを入力する。信頼度合成部３２３は、データＤ３＿ｃｏｎｆ＿Ｌ、データＤ３＿ｃｏｎｆ＿Ｈ、および、データＤ＿ｈｅａｔｍａｐに対して、時間ステップｔ１の処理と同様に、信頼度合成処理を実行する。

　精密ポーズデータ取得部３３は、２Ｄポーズ推定部１から出力されるデータＤｉ＿ｋｐと、信頼度合成部３２３から出力されるデータＤ４＿ｃｏｎｆと、を入力する。精密ポーズデータ取得部３３は、データＤｉ＿ｋｐ、および、データＤ４＿ｃｏｎｆ（信頼度データＤ４＿ｃｏｎｆ）を用いて、時間ステップｔ１の処理と同様に、精密ポーズデータ取得処理を実行する。

　図１３に、時間ステップｔ２において、精密ポーズデータ取得部３３が上記処理により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｘをまとめたデータＤｏ＿ｋｐの一例を示す。図１３では、特徴量抽出画像Ｉｍｇ１^（ｔ２）、２Ｄポーズ推定部１により取得された２Ｄポーズデータ（キーポイントデータＤｉ＿ｋｐ．ｋｐ_ｘ）を模式的に示した画像Ｉｍｇ１^（ｔ２）（Ｄｉ＿ｋｐ）、および、精密ポーズデータ取得部３３により取得された精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘを模式的に示した画像Ｉｍｇ１^（ｔ２）（Ｄｏ＿ｋｐ）を示している。そして、（１）図１３の画像Ｉｍｇ１^（ｔ２）（Ｄｉ＿ｋｐ）では、データＤｉ＿ｋｐによるキーポイントをグレーの丸で示しており、図１２の画像Ｉｍｇ１^（ｔ２）（Ｄｏ＿ｋｐ）では、精密ポーズデータＤｉ＿ｋｐによるキーポイントを黒丸で示している。

　図１３から分かるように、画像Ｉｍｇ１^（ｔ２）（Ｄｉ＿ｋｐ）では、部位ｋｐ_１０（右足）、ｋｐ_１５（左肘）、ｋｐ_１６（左手）の位置が正しい位置からずれているが、画像Ｉｍｇ１^（ｔ２）（Ｄｏ＿ｋｐ）（精密ポーズデータ）では、部位ｋｐ_１０（右足）、ｋｐ_１５（左肘）、ｋｐ_１６（左手）の位置について、合成信頼度マップにより適切に補正されており、その結果、部位ｋｐ_１０（右足）、ｋｐ_１５（左肘）、ｋｐ_１６（左手）について、正しい位置のキーポイントとして取得されている。

　２Ｄ－３Ｄ変換部４は、精密データ取得部３から出力されるデータＤｏ＿ｋｐ（２次元のキーポイントのデータ）を入力する。２Ｄ－３Ｄ変換部４は、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）に対して、時間ステップｔ１のときと同様に、２Ｄ－３Ｄ変換処理を実行し、データＤｏ＿ｋｐ（２次元のキーポイントのデータ）に対応する３次元データ（３次元のキーポイントのデータ）をデータＤｏ＿３Ｄ＿ｋｐとして取得する。

　ポスト処理部５は、２Ｄ－３Ｄ変換部４から出力されるデータＤｏ＿３Ｄ＿ｋｐを入力し、時間ステップｔ１のときと同様に、当該データＤｏ＿３Ｄ＿ｋｐに対してポスト処理を実行する。

　そして、ポスト処理部５は、ポスト処理により取得したデータをデータＤｏｕｔとして外部に出力する。

　≪時間ステップｔ３の処理≫
　次に、時間ステップｔ３（時間ステップｔ３は、時間ステップｔ２の１時間ステップ後の時間ステップである（ｔ３＝ｔ２＋１＝ｔ１＋２））の処理について説明する。なお、時間ステップｔ１、ｔ２と同様の処理については、詳細な説明を省略する。

　時間ステップｔ３において、撮像装置Ｃａｍ１により、被写体人物Ｓｕｂ１を含む３次元空間（撮像空間）を撮像することで、フレーム画像データＩｍｇ０^（ｔ３）を取得する。

　ポーズデータ生成装置１００の２Ｄポーズ推定部１は、撮像装置Ｃａｍ１から出力されるフレーム画像データＩｍｇ０^（ｔ３）をデータＤｉｎとして入力し、当該フレーム画像データＩｍｇ０^（ｔ３）を用いて、２次元ポーズデータを推定（取得）する処理（２Ｄポーズ推定処理）を実行する。具体的な処理は、時間ステップｔ１のときの処理と同様である。

　特徴量抽出部ＰＰ１は、データＤｉｎ（フレーム画像データＩｍｇ１０^（ｔ３））に対して、特徴量抽出処理（例えば、クラス分類を行いつつ、物体検出を行う処理）を実行することで、被写体人物（物体検出の対象）に相当する画像領域（画像Ｉｍｇ１^（ｔ３））（図３Ｂを参照）を抽出する。

　そして、特徴量抽出部ＰＰ１は、特徴量抽出処理により取得した、物体検出の対象の画像領域（画像Ｉｍｇ１^（ｔ３））についてのデータ（物体検出の対象が含まれる画像領域を含む画像データ、抽出した画像領域の座標、サイズについてのデータ等）、および、物体検出した対象のクラス分類に関するデータ（物体検出のクラス（本実施形態では、「人」））等を含むデータを、特徴量抽出データＤ０として、２Ｄポーズ推定部１およびヒートマップ取得部２に出力する。

　そして、２Ｄポーズ推定部１は、特徴量抽出部ＰＰ１により取得された特徴量抽出画像Ｉｍｇ１^（ｔ３）に対して、２Ｄポーズ推定処理を実行し、当該処理により取得した２次元キーポイントデータ（１６個の点ｋｐ_１～ｋｐ_１６の２次元座標データ）を含むデータを、データＤｉ＿ｋｐとして、精密データ取得部３に出力する。

　ポーズデータ生成装置１００のヒートマップ取得部２は、特徴量抽出画像データＩｍｇ１^（ｔ２）により形成されるフレーム画像（特徴量抽出画像Ｉｍｇ１^（ｔ３））から、ヒートマップを取得する処理（ヒートマップ取得処理）を実行する。具体的な処理は、時間ステップｔ１のときの処理と同様である。

　粗予測処理部３１２は、以下の処理により、現時間ステップ（時間ステップｔ）での観測対象の内部状態（被写体人物Ｓｕｂ１の狭可動キーポイントのデータ）を取得（推定）する。
（Ａ）予測
　　ｘ_{ｔ｜ｔ－１}＝ｆ（ｘ_{ｔ－１｜ｔ－１}，ｕ_ｔ，０）
　　Ｐ_{ｔ｜ｔ－１}＝Ｆ_ｔＰ_{ｔ－１｜ｔ－１}Ｆ^Ｔ _ｔ＋Ｇ_ｔＱ_ｔＧ^Ｔ _ｔ
　　ｘ_{ｔ｜ｔ－１}：時間ステップｔ－１における時間ステップｔの状態推定値（状態推定ベクトル）
　　ｘ_{ｔ－１｜ｔ－１}：時間ステップｔ－１における更新処理後の状態推定値（状態推定ベクトル）
　　Ｆ_ｔ：システムの時間遷移に関する線形モデル
　　Ｐ_{ｔ－１｜ｔ－１}：誤差の共分散行列
　　Ｆ^Ｔ _ｔ：Ｆ_ｔの転置行列
　　Ｇ_ｔ：時間遷移に関するノイズモデルの行列
　　Ｑ_ｔ：時間遷移に関するノイズモデルの共分散行列
　　Ｇ^Ｔ _ｔ：Ｇ_ｔの転置行列
（Ｂ）更新
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）
　　Ｓ_ｔ＝Ｈ_ｔＰ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｒ_ｔ
　　Ｋ_ｔ＝Ｐ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｓ^－１ _ｔ
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_ｔ｜ｔ＝（Ｉ－Ｋ_ｔＨ_ｔ）Ｐ_{ｔ｜ｔ－１}
　　ｅ_ｔ：時間ステップｔの観測残差
　　Ｓ_ｔ：時間ステップｔの観測残差の共分散
　　Ｋ_ｔ：時間ステップｔの最適カルマンゲイン
　　ｘ_ｔ｜ｔ：時間ステップｔにおいて更新された状態の推定値（推定ベクトル）
　　Ｐ_ｔ｜ｔ：時間ステップｔにおいて更新された誤差の共分散
　　Ｈ_ｔ：観測モデルに関する線形モデル
　　Ｒ_ｔ：時間ステップｔの観測ノイズの共分散
　粗予測処理部３１２は、例えば、狭可動キーポイントであるキーポイントＫｐ_８（右腰部分）の現時刻（時間ステップｔ３）について、キーポイントＫｐ_８の内部状態変数（内部状態ベクトル）を、特徴量抽出画像Ｉｍｇ１^（ｔ３）上のキーポイントＫｐ_８のｘ座標およびｙ座標として、カルマンフィルタによる処理を行う。つまり、粗予測処理部３１２は、
　　ｔ＝ｔ３
　　ｚ^Ｔ _ｔ３＝Ｐ^Ｔ _ｋｐ８ ^（ｔ３）＝［ｘ_ｋｐ８ ^（ｔ３），ｙ_ｋｐ８ ^（ｔ３）］
　　ｚ^Ｔ _ｔ３：ｚ_ｔ３の転置行列
　　Ｐ^Ｔ _ｋｐ８ ^（ｔ３）：Ｐ_ｋｐ８ ^（ｔ３）の転置行列
　　ｘ_ｋｐ８ ^（ｔ３）：特徴量抽出画像Ｉｍｇ１^（ｔ３）上のキーポイントＫｐ_８のｘ座標
　　ｙ_ｋｐ８ ^（ｔ３）：特徴量抽出画像Ｉｍｇ１^（ｔ３）上のキーポイントＫｐ_８のｙ座標
とし、下記の更新（カルマンフィルタによる更新）を行う。なお、ｘ_{ｔ－１｜ｔ－１}（時間ステップｔ－１における更新処理後の状態推定値（状態推定ベクトル））は、データＤ１＿ｋｐ＿Ｌ＿ｐａｓｔに含まれており、データＤ１＿ｋｐ＿Ｌ＿ｐａｓｔから取り出される。
＜更新＞
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ３）＝Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ３）＋Ｋ_ｔｅ_ｔ
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）＝ｚ_ｔ１－ｈ（Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ３），０）
　　　　＝Ｐ_ｋｐ８ ^（ｔ３）－ｈ（Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ３），０）
　　Ｐ_ｋｐ８ ^（ｔ３）：時間ステップｔ３におけるキーポイントＫｐ_８の観測値（観測ベクトル）
　　Ｐ_{ｋｐ８＿ｐｒｅ} ^（ｔ３）：時間ステップｔ３におけるキーポイントＫｐ_８の事前推定値（事前推定ベクトル）（ｘ_{ｔ｜ｔ－１}に対応）
　　Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ３）：時間ステップｔ３におけるキーポイントＫｐ_８の事後推定値（事後推定ベクトル）（ｘ_ｔ｜ｔに対応）
　これにより、粗予測処理部３１２は、狭可動キーポイントであるキーポイントＫｐ_８（右腰部分）の現時刻（時間ステップｔ３）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐ８＿ｐｏｓｔ} ^（ｔ３）を取得する。

　粗予測処理部３１２は、他の狭可動キーポイントについても、上記と同様の処理を行い、各狭可動キーポイントの現時刻（時間ステップｔ３）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ３）（ｉ：自然数、狭可動キーポイントを示す指標値（本実施形態の場合、ｉ＝｛１，２，３，４，５，８，９，１１，１２，１４｝））を取得する。

　そして、粗予測処理部３１２は、上記処理により取得した各狭可動キーポイントの現時刻（時間ステップｔ３）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ３）を含むデータをデータＤ２＿ｋｐ＿Ｌとして粗予測信頼度取得部３２１および第１メモリＭ１に出力する。

　精密予測処理部３１３は、例えば、広可動キーポイントであるキーポイントＫｐ_１６（左手部分）の現時刻（時間ステップｔ３）について、キーポイントＫｐ_１６の内部状態変数（内部状態ベクトル）を、特徴量抽出画像Ｉｍｇ１^（ｔ３）上のキーポイントＫｐ_１６のｘ座標およびｙ座標として、拡張カルマンフィルタによる処理を行う。つまり、精密予測処理部３１３は、
　　ｔ＝ｔ３
　　ｚ^Ｔ _ｔ３＝Ｐ^Ｔ _ｋｐ１６ ^（ｔ３）＝［ｘ_ｋｐ１６ ^（ｔ３），ｙ_ｋｐ１６ ^（ｔ３）］
　　ｚ^Ｔ _ｔ３：ｚ_ｔ３の転置行列
　　Ｐ^Ｔ _ｋｐ１６ ^（ｔ３）：Ｐ_ｋｐ１６ ^（ｔ３）の転置行列
　　ｘ_ｋｐ１６ ^（ｔ３）：特徴量抽出画像Ｉｍｇ１^（ｔ３）上のキーポイントＫｐ_１６のｘ座標
　　ｙ_ｋｐ１６ ^（ｔ３）：特徴量抽出画像Ｉｍｇ１^（ｔ３）上のキーポイントＫｐ_１６のｙ座標
とし、下記の更新（拡張カルマンフィルタによる更新）を行う。
＜更新＞
　　ｘ_ｔ｜ｔ＝ｘ_{ｔ｜ｔ－１}＋Ｋ_ｔｅ_ｔ
　　Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ３）＝Ｐ_{ｋｐ８＿ｐｒｅｄ} ^（ｔ３）＋Ｋ_ｔｅ_ｔ
　　ｅ_ｔ＝ｚ_ｔ－ｈ（ｘ_{ｔ｜ｔ－１}，０）＝ｚ_ｔ１－ｈ（Ｐ_{ｋｐ１６＿ｐｒｅｄ} ^（ｔ３），０）
　　　　＝Ｐ_ｋｐ１６ ^（ｔ３）－ｈ（Ｐ_{ｋｐ１６＿ｐｒｅｄ} ^（ｔ３），０）
　　Ｐ_ｋｐ１６ ^（ｔ３）：時間ステップｔ３におけるキーポイントＫｐ_１６の観測値（観測ベクトル）
　　Ｐ_{ｋｐ１６＿ｐｒｅ} ^（ｔ３）：時間ステップｔ３におけるキーポイントＫｐ_１６の事前推定値（事前推定ベクトル）（ｘ_{ｔ｜ｔ－１}に対応）
　　Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ３）：時間ステップｔ３におけるキーポイントＫｐ_１６の事後推定値（事後推定ベクトル）（ｘ_ｔ｜ｔに対応）
　また、精密予測処理部３１３は、カルマンゲインＫ_ｔを計算するために用いられる、（１）システムの時間遷移に関する線形モデルＦ_ｔと、（２）観測モデルに関する線形モデルＨ_ｔとを、上記の（数式１）、（数式２）に相当する処理を行うことで取得する。そして、精密予測処理部３１３は、
　　Ｋ_ｔ＝Ｐ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｓ^－１ _ｔ
　　Ｐ_{ｔ｜ｔ－１}＝Ｆ_ｔＰ_{ｔ－１｜ｔ－１}Ｆ^Ｔ _ｔ＋Ｇ_ｔＱ_ｔＧ^Ｔ _ｔ
　　Ｓ_ｔ＝Ｈ_ｔＰ_{ｔ｜ｔ－１}Ｈ^Ｔ _ｔ＋Ｒ_ｔ
に相当する処理を実行することで、カルマンゲインＫ_ｔを算出（取得）する。

　上記処理により、精密予測処理部３１３は、広可動キーポイントであるキーポイントＫｐ_１６（左手部分）の現時刻（時間ステップｔ３）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐ１６＿ｐｏｓｔ} ^（ｔ３）を取得する。

　精密予測処理部３１３は、他の広可動キーポイントについても、上記と同様の処理を行い、各広可動キーポイントの現時刻（時間ステップｔ３）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ３）（ｉ：自然数、広可動キーポイントを示す指標値（本実施形態の場合、ｉ＝｛６，７，１０，１３，１５，１６｝（左右の手、肘、足に相当）））を取得する。

　そして、精密予測処理部３１３は、上記処理により取得した各広可動キーポイントの現時刻（時間ステップｔ３）における事後推定値（事後推定ベクトル）Ｐ_{ｋｐｉ＿ｐｏｓｔ} ^（ｔ３）を含むデータをデータＤ２＿ｋｐ＿Ｈとして精密予測信頼度取得部３２２および第２メモリＭ２に出力する。

　時間ステップｔ３において、左腕部分がオクルージョン状態であるが、精密データ取得部３では、精密予測処理（および／または、粗予測処理）により、オクルージョン状態にある部位の位置を予測（推定）することができるので、オクルージョン状態にある部位の信頼度（粗予測信頼度マップ、および／または、精密予測信頼度マップ）を取得することができる。

　例えば、図１４に示すように、精密予測処理データＤ２＿ｋｐ＿Ｈにより特定される左手部分（ｋｐ_１６）（オクルージョン状態の部位）の位置（左手部分に対応するキーポイントの位置（精密予測処理により推定（予測）された位置））が、図１４の右上図にＤ２＿ｋｐ＿Ｈ．ｋｐ_１６で示した位置であるとき、精密予測信頼度取得部３２２は、精密予測信頼度マップの当該位置の信頼度（画素値）を所定の値（例えば、「０．２」）に設定し、それ以外の位置の信頼度（画素値）を「０」に設定することで、左手部分（ｋｐ_１６）の精密予測信頼度マップ（精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｌ．ｋｐ_１６）を取得する(図１４の右下図を参照)。なお、図１４では、説明便宜のため、精密予測信頼度マップの画素を４×４の矩形（１６個の矩形（画素））で表示しており、他の画像領域における精密予測信頼度マップの画素の表示は省略している。

　例えば、オクルージョン状態である左手部分（ｋｐ_１６）の場合、図１５に示すように、同一位置の画素について、
（１）ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１６（図１５の上段の図）と
（２Ｂ）精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_１６（図１５の中段の図）、と
の加算処理（画素値ごと加算処理）を実行することで、左手部分（ｋｐ_１６）の合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６（図１５の下段の図）を取得する。

　なお、オクルージョン状態である左手部分（ｋｐ_１６）について、ヒートマップＤ＿ｈｅａｔｍａｐ．ｋｐ_１６の各画素の値は、図１５の上段の図に示すように、全て「０」（左手部分に相当する領域が検出されておらず、信頼度が「０」であると判定された状態）である。

　したがって、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６（図１５の下段の図）は、精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_１６（図１５の中段の図）と一致することとなるが、精密予測信頼度マップＤ３＿ｃｏｎｆ＿Ｈ．ｋｐ_１６により、オクルージョン状態の左手部分の位置が適切に予測（推定）されるので、オクルージョン状態の左手部分について、適切な合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６（図１５の下段の図）を取得することができる。

　例えば、オクルージョン状態の左手部分（ｋｐ_１６）の場合、２Ｄポーズ推定部１によりオクルージョン状態の左手部分（ｋｐ_１６）を検出することはできず、データＤｉ＿ｋｐ．ｋｐ_１６を取得できない、あるいは、取得できたとしても、データＤｉ＿ｋｐ．ｋｐ_１６で特定される左手部分の画像上の位置は、正しい位置からずれて位置となる。したがって、データＤｉ＿ｋｐ．ｋｐ_１６（取得できない場合もあり）で特定される画像上の位置（特定できない場合もあり）と、合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６で最大値を示す画素の位置（図１６の上図の４×４の矩形（マトリックス）の３行３列目の画素（画素値が「０．２」の画素）の位置）とは、略一致していない（信頼度マップの画素ピッチ（隣接画素間の距離）以上離れている）。したがって、精密ポーズデータ取得部３３は、精密ポーズデータの部位ｋｐ_１６のキーポイントを、信頼度合成部３２３により取得された合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６により特定される画像（特徴量抽出画像Ｉｍｇ１^（ｔ３））上の位置（合成信頼度マップＤ４＿ｃｏｎｆ．ｋｐ_１６で最大値を示す画素の位置）とすることで、部位ｋｐ_１６の精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１６を取得する。すなわち、精密ポーズデータ取得部３３は、
　　Ｄｏ＿ｋｐ．ｋｐ_１６＝ｍａｘ＿Ｐ（Ｄ４＿ｃｏｎｆ．ｋｐ_１６）
　　ｍａｘ＿Ｐ（Ｄｐ）：信頼度マップＤｐにおいて、画素値（信頼度）が最大値を示す位置（画像上の位置）の情報（例えば、画像上の座標等）を取得する関数
として、部位ｋｐ_１６の精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１６（図１６の上図の４×４の矩形（マトリックス）の３行３列目の画素（画素値が「０．２」の画素）の位置に対応）を取得する（図１６の下図を参照）。図１６の下図から分かるように、２Ｄポーズ推定部１により取得されたデータＤｉ＿ｋｐ．ｋｐ_１６が正しい位置からずれている場合（あるいは、２Ｄポーズ推定部１によりデータＤｉ＿ｋｐ．ｋｐ_１６が取得できない場合）であっても、精密ポーズデータ取得部３３が上記処理を実行することにより、部位ｋｐ_１６の正確な位置を示すデータ（キーポイント）として、精密ポーズデータＤｏ＿ｋｐ．ｋｐ_１６を取得することができる。

　図１７に、時間ステップｔ３において、精密ポーズデータ取得部３３が上記処理により取得した各キーポイントのデータＤｏ＿ｋｐ．ｋｐ_ｘをまとめたデータＤｏ＿ｋｐの一例を示す。図１７では、特徴量抽出画像Ｉｍｇ１^（ｔ３）、２Ｄポーズ推定部１により取得された２Ｄポーズデータ（キーポイントデータＤｉ＿ｋｐ．ｋｐ_ｘ）を模式的に示した画像Ｉｍｇ１^（ｔ３）（Ｄｉ＿ｋｐ）、および、精密ポーズデータ取得部３３により取得された精密ポーズデータＤｏ＿ｋｐ．ｋｐ_ｘを模式的に示した画像Ｉｍｇ１^（ｔ３）（Ｄｏ＿ｋｐ）を示している。そして、（１）図１７の画像Ｉｍｇ１^（ｔ３）（Ｄｉ＿ｋｐ）では、データＤｉ＿ｋｐによるキーポイントをグレーの丸で示しており、図１７の画像Ｉｍｇ１^（ｔ３）（Ｄｏ＿ｋｐ）では、精密ポーズデータＤｉ＿ｋｐによるキーポイントを黒丸で示している。

　図１７から分かるように、画像Ｉｍｇ１^（ｔ３）（Ｄｉ＿ｋｐ）では、部位ｋｐ_１０（右足）が正しい位置からずれており、かつ、オクルージョン状態である、部位ｋｐ_１５（左肘）、ｋｐ_１６（左手）の位置が検出されていないが、画像Ｉｍｇ１^（ｔ３）（Ｄｏ＿ｋｐ）（精密ポーズデータ）では、部位ｋｐ_１０（右足）、ｋｐ_１５（左肘）、ｋｐ_１６（左手）の位置について、合成信頼度マップにより適切に補正されており、その結果、部位ｋｐ_１０（右足）、ｋｐ_１５（左肘）、ｋｐ_１６（左手）について、正しい位置のキーポイントとして取得されている。

　以上のように、精密データ取得部３では、ヒートマップ取得部２により取得されたヒートマップに対して、予測データ取得部３１により取得された粗予測信頼度マップまたは精密予測信頼度マップによる加算処理（同一画素における画素値の加算処理）を行うことで、オクルージョン状態である部位がある場合であっても、精度の高い信頼度マップ（合成信頼度マップ）を部位ごとに取得することができる。そして、精密データ取得部３では、合成信頼度マップに基づいて、精密ポーズデータを取得するので、より精度の高いポーズデータを取得することができる。

　≪まとめ≫
　以上のように、ポーズデータ生成装置１００では、ヒートマップ取得部２により取得されたヒートマップに対して、信頼度取得部３２により取得された粗予測信頼度マップまたは精密予測信頼度マップによる加算処理（同一画素における画素値の加算処理）を行うことで、より精度の高い信頼度マップ（合成信頼度マップ）を部位ごとに取得することができる。そして、ポーズデータ生成装置１００の精密データ取得部３では、合成信頼度マップに基づいて、精密ポーズデータを取得するので、精度の高いポーズデータを取得することができる。

　そして、ポーズデータ生成装置１００では、２Ｄ－３Ｄ変換部４が、精密データ取得部３により取得された高精度な２次元のキーポイントデータ（２次元ポーズデータ）に対して、２Ｄ－３Ｄ変換を行うことで、高精度な３次元ポーズデータ（３次元のキーポイントデータ）を取得することができる。つまり、ポーズデータ生成装置１００では、高精度な２次元ポーズデータを取得し、取得した２次元ポーズデータに対して、比較的演算量の少ない処理である２Ｄ－３Ｄ変換処理（時系列に連続するデータを用いることなく、１時間ステップの２次元ポーズデータ（１つの２次元ポーズデータ）を入力として、出力結果（３次元ポーズデータ）を取得する処理）を実行することで、３次元ポーズデータ（３次元のキーポイントデータ）を取得する。ポーズデータ生成装置１００では、上記のように、高精度な２次元ポーズデータを用いて、２Ｄ－３Ｄ変換を行うので、２Ｄ－３Ｄ変換により取得される３次元ポーズデータも高精度なデータとなる。すなわち、ポーズデータ生成装置１００では、従来技術のように、時系列に連続するデータ（時系列に連続する複数のフレーム画像（特徴量抽出画像））から、時系列のコンボリューション処理を行って３Ｄポーズデータを取得するといった演算量の多い複雑な処理を実行する必要がない。

　したがって、ポーズデータ生成装置１００では、上記の通り、従来技術のような複雑な処理を行う必要がないので、低コストで実現でき、かつ、高精度なポーズデータを取得することができる。

　さらに、ポーズデータ生成装置１００では、データＤｉ＿ｋｐに対して予測処理を行うときに、部位の特徴に応じて、適用する時系列フィルタを変えて予測処理を行う。つまり、ポーズデータ生成装置１００では、可動範囲が広く、激しく動くことができる部位のキーポイントのデータ（広可動キーポイントのデータ）には、高精度の時系列フィルタを用いた予測処理を行い、可動範囲が狭く、激しく動くことがない部位のキーポイントのデータ（狭可動キーポイントのデータ）には、精密予測処理ほど精度は高くないが演算量が少なくて済む時系列フィルタを用いた予測処理（粗予測処理）を行う。

　つまり、ポーズデータ生成装置１００では、予測が難しい広可動キーポイントについては、精度の高い時系列フィルタによる予測処理を行い、予測がそれほど難しくない狭可動キーポイントについては、演算量が少なくて済む時系列フィルタによる予測処理を行うので、予測データを取得するために必要なトータルの演算量を抑えつつ、高精度な予測データを取得することができる。

　そして、ポーズデータ生成装置１００では、例えば、オクルージョン状態である部位については、上記処理により取得された高精度な予測データ（２次元キーポイントの予測データ）に基づいて、キーポイントのデータを取得できるので、オクルージョン状態が発生している特徴量抽出画像が入力された場合であっても、適切な２次元ポーズデータ（２次元キーポイントデータ）を取得することができる。そして、ポーズデータ生成装置１００では、このようにして取得した２次元ポーズデータ（２次元キーポイントデータ）を２Ｄ－３Ｄ変換することで、オクルージョン状態が発生している特徴量抽出画像が入力された場合であっても、精度の高い３次元ポーズデータを取得することができる。

　≪第１変形例≫
　次に、第１実施形態の第１変形例について、説明する。なお、上述の実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

　図１８は、第１実施形態の第１変形例に係るポーズデータ生成装置１００Ａの概略構成図である。

　図１９は、第１実施形態の第１変形例に係るポーズデータ生成装置１００Ａの精密データ取得部３Ａの概略構成図である。

　本変形例のポーズデータ生成装置１００Ａは、図１８に示すように、第１実施形態のポーズデータ生成装置１００において、精密データ取得部３を精密データ取得部３Ａに置換した構成を有している。

　そして、本変形例の精密データ取得部３Ａは、図１９に示すように、第１実施形態の精密データ取得部３において、第２データ分解部３４を追加した構成を有している。

　第１実施形態のポーズデータ生成装置１００では、（１）粗予測処理において、粗予測処理部３１２により取得されたデータＤｏ＿ｋｐ＿Ｌを、第１メモリＭ１に記憶し、次の時間ステップにおける過去のデータ（１時間ステップ前のデータ）として用いて、時系列フィルタによる処理を行い、かつ、（２）精密予測処理において、精密予測処理部３１３により取得されたデータＤｏ＿ｋｐ＿Ｈを、第２メモリＭ２に記憶し、次の時間ステップにおける過去のデータ（１時間ステップ前のデータ）として用いて、時系列フィルタによる処理を行うものであった。

　それに対して、本変形例のポーズデータ生成装置１００Ａでは、精密データ取得部３により取得された精密ポーズデータＤｏ＿ｋｐを、第２データ分解部３４により分解したデータを、第１メモリＭ１および第２メモリＭ２に記憶し、粗予測処理および精密予測処理において、次の時間ステップにおける過去のデータ（１時間ステップ前のデータ）として用いて、時系列フィルタによる処理を実行する。

　つまり、第２データ分解部３４は、データ分解部３１１と同様の処理を実行する機能部であり、精密ポーズデータ取得部３３から出力されるデータＤｏ＿ｋｐに対して、分解処理（キーポイントデータを人の部位ごとに分解する処理）（データ分解部３１１と同じように部位を分解する処理）を実行し、粗予測処理の対象とするデータＤｏ＿ｋｐ＿Ｌと、精密予測処理の対象とするデータＤｏ＿ｋｐ＿Ｈとを取得する。そして、第２データ分解部３４は、取得したデータＤｏ＿ｋｐ＿Ｌを第１メモリＭ１に出力し、取得したデータＤｏ＿ｋｐ＿Ｈを第２メモリＭ２に出力する。

　そして、粗予測処理部３１２は、第１メモリＭ１に記憶されているデータ（精密ポーズデータＤｏ＿ｋｐを分解処理により取得されたデータ）をＤ１＿ｋｐ＿Ｌ＿ｐａｓｔとして、第１メモリＭ１から読み出し、当該データを用いて、時系列フィルタの処理を実行する。

　また、精密予測処理部３１３は、第２メモリＭ２に記憶されているデータ（精密ポーズデータＤｏ＿ｋｐを分解処理により取得されたデータ）をＤ１＿ｋｐ＿Ｈ＿ｐａｓｔとして、第２メモリＭ２から読み出し、当該データを用いて、時系列フィルタの処理を実行する。

　このように、本変形例のポーズデータ生成装置１００Ａでは、粗予測処理および精密予測処理により取得されたデータの代わりに、より精度の高い（合成信頼度マップによる処理が実行された後に取得された）精密ポーズデータＤｏ＿ｋｐを分解したデータＤｏ＿ｋｐ＿Ｌ、および、Ｄｏ＿ｋｐ＿Ｈを用いて、粗予測処理および精密予測処理を実行するため、より精度の高いデータ（粗予測処理および精密予測処理により取得されるデータ）を取得することができる。そして、上記により取得されたデータ（粗予測処理および精密予測処理により取得されるデータＤ２＿ｋｐ＿Ｌ、および、Ｄ２＿ｋｐ＿Ｈ）を用いて、信頼度合成処理、精密ポーズデータ取得処理を行うことで、さらに高精度の精密ポーズデータＤｏ＿ｋｐを取得することができる。

　≪第２変形例≫
　次に、第１実施形態の第２変形例について、説明する。なお、上述の実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

　図２０は、第１実施形態の第２変形例に係るポーズデータ生成装置１００Ｂの概略構成図である。

　図２１は、第１実施形態の第２変形例に係るポーズデータ生成装置１００Ｂの精密データ取得部３Ｂの概略構成図である。

　本変形例のポーズデータ生成装置１００Ｂは、図２０に示すように、第１実施形態のポーズデータ生成装置１００において、精密データ取得部３を精密データ取得部３Ｂに置換し、さらに、分解部位設定部６を追加した構成を有している。

　そして、本変形例の精密データ取得部３Ｂは、図２１に示すように、第１実施形態の精密データ取得部３において、データ分解部３１１をデータ分解部３１１Ａに置換した構成を有している。

　分解部位設定部６は、粗予測処理の処理対象となる部位と、精密予測処理の処理対象となる部位とを設定するための機能部である。分解部位設定部６は、例えば、所定のアプリケーションの実行を制御する制御部（不図示）（あるいは、外部入力インターフェース（不図示））からの指令により、粗予測処理の処理対象となる部位と、精密予測処理の処理対象となる部位とを設定する。そして、分解部位設定部６は、粗予測処理の処理対象となる部位と、精密予測処理の処理対象となる部位との設定情報を含むデータをデータＤ＿ｓｅｔとして、精密データ取得部３のデータ分解部３１１Ａに出力する。

　データ分解部３１１Ａは、分解部位設定部６から出力されるデータＤ＿ｓｅｔを入力し、当該データＤ＿ｓｅｔに従い、粗予測処理の処理対象となる部位と、精密予測処理の処理対象となる部位とを特定し、２Ｄポーズ推定部１から出力されるデータＤｉ＿ｋｐに対して分解処理（キーポイントデータを人の部位ごとに分解する処理）を実行する。つまり、データ分解部３１１Ａは、（１）データＤ＿ｓｅｔで粗予測処理の対象とする部位に指定されている部位のキーポイントのデータをデータＤ１＿ｋｐ＿Ｌとして粗予測処理部３１２に出力し、（２）データＤ＿ｓｅｔで精密予測処理の対象とする部位に指定されている部位のキーポイントのデータをデータＤ１＿ｋｐ＿Ｈとして精密予測処理部３１３に出力する。

　本変形例のポーズデータ生成装置１００Ｂでは、分解部位設定部６により、粗予測処理の処理対象となる部位と、精密予測処理の処理対象となる部位とを指定することができ、それに基づいて、データ分解部３１１が、キーポイントのデータを分解し、粗予測処理、および、精密予測処理を実行することができる。このため、本変形例のポーズデータ生成装置１００Ｂでは、多様な条件に基づいて、粗予測処理の処理対象となる部位と、精密予測処理の処理対象となる部位とを決定（変更）することができる。

　本変形例のポーズデータ生成装置１００Ｂの適用例を以下に示す。

　（Ａ）ゲームのステージで変更する場合（速いテンポの音楽再生）
　例えば、所定のアプリケーションが、音楽再生をしつつ、ユーザーにダンスを要請するゲームを実行するためのアプリケーションである場合であって、ゲームのステージごとに、音楽のテンポが変わる場合、速いテンポの音楽が再生されるステージにおいて、分解部位設定部６は、（１）可動範囲の広い、右手、左手、右肘、左肘、右足、左足、右膝、左膝を、精密予測処理の処理対象となる部位に設定し、かつ、（２）それ以外の部位については、粗予測処理の処理対象となる部位に設定する。そして、この設定の情報（部位の分解設定情報）を含むデータをデータＤ＿ｓｅｔとして、精密データ取得部３のデータ分解部３１１Ａに出力する。そして、ポーズデータ生成装置１００Ｂでは、上記の場合、（１）可動範囲の広い、右手、左手、右肘、左肘、右足、左足、右膝、左膝については、精密予測処理を実行し、（２）それ以外の部位については、粗予測処理を実行することができる。

　（Ｂ）ゲームのステージで変更する場合（遅いテンポの音楽再生）
　例えば、所定のアプリケーションが、音楽再生をしつつ、ユーザーにダンスを要請するゲームを実行するためのアプリケーションである場合であって、ゲームのステージごとに、音楽のテンポが変わる場合、遅いテンポの音楽が再生されるステージにおいて、分解部位設定部６は、すべての部位を、粗予測処理の処理対象となる部位に設定する。そして、この設定の情報（部位の分解設定情報）を含むデータをデータＤ＿ｓｅｔとして、精密データ取得部３のデータ分解部３１１Ａに出力する。そして、ポーズデータ生成装置１００Ｂでは、上記の場合、全ての部位について、粗予測処理を実行する。この場合、遅いテンポの音楽が再生されおり、各部位が大きく（激しく）動くことが少ないため、計算量の少ない粗予測処理をすべての部位について実行しても、精度が落ちることがなく、高精度なポーズデータを取得できる。つまり、ポーズデータ生成装置１００Ｂにおいて、上記のようにすることで、計算量を低減させつつ、高精度なポーズデータを取得できる。

　（Ｃ）ゲームのステージで変更する場合（所定の部位を動かすことが既知である場合）
　例えば、所定のアプリケーションが、ユーザーに所定の部位（例えば、左手）を動かすことを要請するゲームを実行するためのアプリケーションである場合において、分解部位設定部６は、（１）ユーザーが動かす部位（アプリーケーションにより既知）（例えば、左手）を、精密予測処理の処理対象となる部位に設定し、かつ、（２）それ以外の部位については、粗予測処理の処理対象となる部位に設定する。そして、この設定の情報（部位の分解設定情報）を含むデータをデータＤ＿ｓｅｔとして、精密データ取得部３のデータ分解部３１１Ａに出力する。そして、ポーズデータ生成装置１００Ｂでは、上記の場合、（１）ユーザーが動かす部位（アプリーケーションにより既知）（例えば、左手）については、精密予測処理を実行し、（２）それ以外の部位については、粗予測処理を実行することができる。このように、ユーザーが動かす部位が既知である場合、ポーズデータ生成装置１００Ｂにおいて、当該部位について精密予測処理を実行し、それ以外の部位については、粗予測処理を実行することで、計算量を抑えつつ、高精度なポーズデータを取得することができる。

　なお、本変形例は、第１変形例のポーズデータ生成装置１００Ａに対しても適用可能である。本変形例を、第１変形例のポーズデータ生成装置１００Ａに対して適用する場合、分解部位設定部６から出力されるデータＤ＿ｓｅｔを第２データ分解部３４にも入力する構成とし、第２データ分解部３４が、データＤ＿ｓｅｔに基づいて、精密ポーズデータＤｏ＿ｋｐの部位を分解し、分解したデータ（キーポイントのデータ）を、データＤｏ＿ｋｐ＿Ｌ、および、Ｄｏ＿ｋｐ＿Ｈとして取得するようにすればよい。

　また、上記では、ゲームのステージごとに、粗予測処理の処理対象となる部位と、精密予測処理の処理対象となる部位とを指定する場合について、説明したが、これに限定されることはなく、例えば、所定の時間（所定の期間）ごとに、あるいは、所定の条件ごとに、分解部位設定部６により、粗予測処理の処理対象となる部位と、精密予測処理の処理対象となる部位とを指定（設定）するようにしてもよい。

　［他の実施形態］
　上記実施形態（変形例を含む）では、ポーズデータ生成装置が、データＤｉｎ（フレーム画像データ）から、特徴量抽出部ＰＰ１により、特徴量抽出画像データを取得し、取得した特徴量抽出画像データを２Ｄポーズ推定部１およびヒートマップ取得部２に入力する構成を有する場合について、説明したが、これに限定されることはない。例えば、ポーズデータ生成装置において、特徴量抽出部ＰＰ１を省略し、データＤｉｎ（フレーム画像データ）を２Ｄポーズ推定部１およびヒートマップ取得部２に入力する構成としてもよい。この場合、２Ｄポーズ推定部１およびヒートマップ取得部２が、特徴量抽出画像データを取得する処理を行い、２Ｄポーズ推定処理およびヒートマップ取得処理を実行するようにしてもよい。

　上記実施形態（変形例を含む）では、（１）粗予測処理部３１２が、粗予測処理として、カルマンフィルタを用いた処理を実行し、（２）精密予測処理部３１３が、精密予測処理として、拡張カルマンフィルタを用いた処理を実行する場合について、説明したが、これに限定されることはない。例えば、粗予測処理部３１２が、粗予測処理として、線形補間処理やスプライン補間処理を用いた処理を実行するようにしてもよい。

　また、精密予測処理部３１３が、精密予測処理として、無香料カルマンフィルタやパーティクルフィルタを用いた処理を実行するようにしてもよい。また、非線形なシステムモデルを取り扱うことができる上記以外の時系列フィルタを用いて、精密予測処理を実行するようにしてもよい。

　また、上記実施形態（変形例を含む）において、粗予測信頼度マップにおいて、粗予測処理により取得される事後確率分布における確率密度が最大である点（画素）（粗予測処理により推定（予測）されたキーポイント）のみを所定の値（例えば、「０．２」（なお、所定の値は「０．２」以外の値であってもよい。））とする場合について説明したが、これに限定されることはない。例えば、粗予測信頼度マップにおいて、粗予測処理により取得される事後確率分布における確率密度に応じて各点（各画素）（例えば、粗予測処理により推定（予測）されたキーポイントの周辺の画素）を所定の値（例えば、「０．２」を最大値として、各点（各画素）の粗予測処理により取得される事後確率分布における確率密度に対応する値（例えば、比例する値））とするようにしてもよい。

　また、上記実施形態（変形例を含む）において、精密予測信頼度マップにおいて、精密予測処理により取得される事後確率分布における確率密度が最大である点（画素）（精密予測処理により推定（予測）されたキーポイント）のみを所定の値（例えば、「０．２」）とする場合について説明したが、これに限定されることはない。例えば、精密予測信頼度マップにおいて、精密予測処理により取得される事後確率分布における確率密度に応じて各点（各画素）（例えば、精密予測処理により推定（予測）されたキーポイントの周辺の画素）を所定の値（例えば、「０．２」を最大値として、各点（各画素）の精密予測処理により取得される事後確率分布における確率密度に対応する値（例えば、比例する値））とするようにしてもよい。

　また、上記実施形態（変形例を含む）において、粗予測処理の処理対象とする部位と、精密予測処理の処理対象とする部位と、の分解の方法（分類方法）は、上記実施形態（変形例を含む）で示した方法に限定されず、他の方法（他の条件）により、粗予測処理の処理対象とする部位と、精密予測処理の処理対象とする部位と、を分解（分類）するようにしてもよい。

　例えば、下記のような条件に基づいて、粗予測処理の処理対象とする部位と、精密予測処理の処理対象とする部位と、分解（分類）するようにしてもよい。
（１）部位の動く速度、加速度、所定の時間内における速度の変化、加速度の変化。
（２）部位の動きのランダム性。
（３）部位の動きの線形性、非線形性。
（４）ポーズデータ生成装置とともに実行されるアプリケーションにより一定の条件が変化しない期間および／またはステージ。

　また、上記実施形態（変形例を含む）でのキーポイントの設定方法は一例であり、他のキーポイントの設定方法を採用してもよい。また、キーポイントの数、位置についても、上記実施形態に限定されることはなく、他のキーポイントの数、位置を採用したキーポイントの設定方法を使用してもよい。

　また、上記実施形態（変形例を含む）において、被写体が人である場合について説明したが、これに限定されることなく、被写体は、移動可能であり、かつ、その姿勢が可変である、人、生物、物体等であってもよい。

　また、上記実施形態（変形例を含む）で説明したポーズデータ生成装置の各ブロック（各機能部）は、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部又は全部を含むように１チップ化されても良い。また、上記実施形態で説明したポーズデータ生成システム、ＣＧデータシステム、ポーズデータ生成装置の各ブロック（各機能部）は、複数のＬＳＩなどの半導体装置により実現されるものであってもよい。

　なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

　また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

　また、上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

　また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。

　例えば、上記実施形態の各機能部を、ソフトウェアにより実現する場合、図２２に示したハードウェア構成（例えば、ＣＰＵ、ＧＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部等をバスＢｕｓにより接続したハードウェア構成）を用いて、各機能部をソフトウェア処理により実現するようにしてもよい。

　また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

　前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

　上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

　また、文言「部」は、「サーキトリー（ｃｉｒｃｕｉｔｒｙ）」を含む概念であってもよい。サーキトリーは、ハードウェア、ソフトウェア、あるいは、ハードウェアおよびソフトウェアの混在により、その全部または一部が、実現されるものであってもよい。

　ここに開示される要素の機能は、当該開示される要素を実行するように構成された、あるいは当該開示される機能を実行するようにプログラミングされた汎用プロセッサ、専用プロセッサ、集積回路、ＡＳＩＣ（「特定用途向け集積回路」）、従来の回路構成及び／またはそれらの組み合わせを含む回路構成あるいは処理回路構成が用いられて実装されてもよい。プロセッサは、それが、その中にトランジスタ及び他の回路構成を含むとき、処理回路構成あるいは回路構成として見なされる。本開示において、回路構成、ユニットあるいは手段は、挙げられた機能を実行するハードウェア、あるいは当該機能を実行するようにプログラミングされたハードウェアである。ハードウェアは、挙げられた機能を実行するようにプログラミングされた、あるいは当該機能を実行するように構成された、ここで開示されるいかなるハードウェアあるいは既知の他のものであってもよい。ハードウェアが、あるタイプの回路構成として見なされるかもしれないプロセッサであるとき、回路構成、手段あるいはユニットは、ハードウェアとソフトウェアの組み合わせ、ハードウェアを構成するために用いられるソフトウェア及び／またはプロセッサである。

　なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

１００、１００Ａ、１００Ｂ　ポーズデータ生成装置
ＰＰ１　特徴量抽出部
１　２Ｄポーズ推定部
２　ヒートマップ取得部
３、３Ａ、３Ｂ　精密データ取得部
３１、３１Ａ　予測データ取得部
３２　信頼度取得部
３３　精密ポーズデータ取得部
４　２Ｄ－３Ｄ変換部
５　ポスト処理部
６　分解部位設定部

Claims

　３次元空間内の被写体を撮像することで取得される画像データまたは前記画像データから特徴量を抽出したデータである特徴量抽出データから、前記被写体の所定の部位の位置を示すデータであるキーポイントデータを取得することで、前記被写体の２次元ポーズデータを取得する２Ｄポーズ推定部と、
　前記画像データまたは前記特徴量抽出データにより形成される２次元画像上の所定の画像領域が、前記被写体の所定の部位に相当する画像領域であることの確からしさを示す値である第１信頼度を取得することで、前記被写体の部位ごとのヒートマップを取得するヒートマップ取得部と、
　前記２Ｄポーズ推定部により取得された前記２次元ポーズデータに含まれるキーポイントデータを用いて予測処理を実行することで、予測キーポイントデータを取得し、取得した予測キーポイントデータを含むデータを予測２次元ポーズデータとして取得する予測データ取得部と、
　前記被写体の部位ごとに、前記ヒートマップにより特定される前記第１信頼度と、前記予測２次元ポーズデータに含まれるキーポイントデータの信頼度である第２信頼度とを取得するとともに、前記第１信頼度と前記第２信頼度とを合成する処理を行うことで合成信頼度を取得する信頼度取得部と、
　前記合成信頼度に基づいて、前記被写体の各部位の位置を決定することで、精密２次元ポーズデータを取得する精密ポーズデータ取得部と、
を備えるポーズデータ生成装置。
　予測データ取得部は、
　前記被写体の部位ごとに、前記精密ポーズデータ取得部によって現時刻よりも前に取得された精密２次元ポーズデータを用いて、前記予測処理を行う、
　請求項１に記載のポーズデータ生成装置。
　前記予測データ取得部は、
　前記２次元ポーズデータに含まれるキーポイントデータを、第１グループおよび第２グループに分類し、
（１）前記第１グループに分類されたキーポイントデータについては、第１予測精度を有する予測処理である粗予測処理を実行することで、当該キーポイントデータの予測データであるキーポイント粗予測データを取得し、
（２）前記第２グループに分類されたキーポイントデータについては、前記第１予測精度よりも予測精度の高い第２予測精度を有する精密予測処理を実行することで、当該キーポイントデータの予測データであるキーポイント精密予測データを取得し、
　前記信頼度取得部は、
（１）前記第１グループに分類されたキーポイントデータに対応する部位については、前記キーポイント粗予測データに基づいて取得した信頼度を、前記第２信頼度とし、
（２）前記第２グループに分類されたキーポイントデータに対応する部位については、前記キーポイント精密予測データに基づいて取得した信頼度を、前記第２信頼度として、
前記第１信頼度と前記第２信頼度とを合成する処理を行うことで合成信頼度を取得する、
　請求項１または２に記載のポーズデータ生成装置。
　前記第１グループおよび前記第２グループの分類方法は、所定の条件により、決定されるものであり、前記所定の条件は、
（１）部位の動く速度、加速度、所定の時間内における速度の変化、加速度の変化、
（２）部位の動きのランダム性、
（３）部位の動きの線形性、非線形性、および、
（４）ポーズデータ生成装置とともに実行されるアプリケーションにより一定の条件が変化しない期間および／またはステージ、
の少なくとも１つに基づくものである、
　請求項３に記載のポーズデータ生成装置。
　前記予測データ取得部は、
　前記２次元ポーズデータに含まれるキーポイントデータを、可動範囲が広い部位のキーポイントのデータである広可動キーポイントデータと、可動範囲が狭い部位のキーポイントのデータである狭可動キーポイントデータとに分解し、
（１）前記狭可動キーポイントデータについては、第１予測精度を有する予測処理である粗予測処理を実行することで、前記狭可動キーポイントデータの予測データである狭可動キーポイント予測データを取得し、
（２）前記広可動キーポイントデータについては、前記第１予測精度よりも予測精度の高い第２予測精度を有する精密予測処理を実行することで、前記広可動キーポイントデータの予測データである広可動キーポイント予測データを取得し、
　前記狭可動キーポイント予測データと前記広可動キーポイント予測データとを含むデータを前記予測２次元ポーズデータとして取得する、
　請求項１または２に記載のポーズデータ生成装置。
　前記予測データ取得部は、
（１）第１精度を有する時系列フィルタを用いて前記粗予測処理を実行し、
（２）前記第１精度よりも高い第２精度を有する時系列フィルタを用いて前記精密予測処理を実行する、
　請求項３から５のいずれかに記載のポーズデータ生成装置。
　前記第１精度を有する時系列フィルタは、状態空間モデルが線形作用素により表現されるシステムモデルを処理対象とする時系列フィルタであり、
　前記第２精度を有する時系列フィルタは、状態空間モデルが非線形作用素により表現されるシステムモデルを処理対象とする時系列フィルタである、
　請求項６に記載のポーズデータ生成装置。
　前記第１精度を有する時系列フィルタは、カルマンフィルタであり、
　前記第２精度を有する時系列フィルタは、拡張カルマンフィルタ、無香料カルマンフィルタ、およびパーティクルフィルタの中のいずれか１つである、
　請求項６に記載のポーズデータ生成装置。
　前記精密２次元ポーズデータに対して２次元―３次元変換処理を行うことで、精密２次元ポーズデータに対応する３次元のポーズデータである精密３次元ポーズデータを取得する２Ｄ－３Ｄ変換部をさらに備える、
　請求項１から８のいずれかに記載のポーズデータ生成装置。
　３次元空間内の被写体を撮像することで取得される画像データまたは前記画像データから特徴量を抽出したデータである特徴量抽出データから、前記被写体の所定の部位の位置を示すデータであるキーポイントデータを取得することで、前記被写体の２次元ポーズデータを取得する２Ｄポーズ推定ステップと、
　前記画像データまたは前記特徴量抽出データにより形成される２次元画像上の所定の画像領域が、前記被写体の所定の部位に相当する画像領域であることの確からしさを示す値である第１信頼度を取得することで、前記被写体の部位ごとのヒートマップを取得するヒートマップ取得ステップと、
　前記２Ｄポーズ推定ステップにより取得された前記２次元ポーズデータに含まれるキーポイントデータを用いて予測処理を実行することで、予測キーポイントデータを取得し、取得した予測キーポイントデータを含むデータを予測２次元ポーズデータとして取得する予測データ取得ステップと、
　前記被写体の部位ごとに、前記ヒートマップにより特定される前記第１信頼度と、前記予測２次元ポーズデータに含まれるキーポイントデータの信頼度である第２信頼度とを取得するとともに、前記第１信頼度と前記第２信頼度とを合成する処理を行うことで合成信頼度を取得する信頼度取得ステップと、
　前記合成信頼度に基づいて、前記被写体の各部位の位置を決定することで、精密２次元ポーズデータを取得する精密ポーズデータ取得ステップと、
を備えるポーズデータ生成方法。
　請求項１０に記載のポーズデータ生成方法をコンピュータに実行させるためのプログラム。