WO2022107548A1

WO2022107548A1 - ３次元骨格検出方法及び３次元骨格検出装置

Info

Publication number: WO2022107548A1
Application number: PCT/JP2021/039098
Authority: WO
Inventors: 大気関井
Original assignee: コニカミノルタ株式会社
Priority date: 2020-11-18
Filing date: 2021-10-22
Publication date: 2022-05-27
Also published as: JPWO2022107548A1

Abstract

対象物体の３次元骨格を高精度に検出する。複数の連結部及び前記連結部間の接続によって骨格が定義される対象物体の３次元骨格を検出する３次元骨格検出方法は、対象物体を複数の異なるカメラ位置から撮像した画像群を得る画像取得ステップと、画像群の各画像から、画像上における連結部の位置の推定、及び、画像上における接続の存在の確からしさを示す２次元接続尤度の算出、を行う２次元骨格検出ステップと、推定された連結部の位置及び算出された２次元接続尤度を用いて対象物体の３次元骨格を検出する３次元骨格検出ステップと、を有する。

Description

３次元骨格検出方法及び３次元骨格検出装置

　本開示は、撮影画像から物体の骨格を検出する技術に関する。

　カメラで撮影された映像から人物や車両などの物体を検出する物体検出技術は、監視カメラシステムや車載カメラシステムなどのアプリケーションの基礎技術として利用されている。また、検出した物体の骨格（複数の関節の座標）を検出する技術も様々なアプリケーションの基礎技術として利用されている。

　近年、物体の骨格検出技術として、ディープラーニングが使用されている。ディープラーニングを用いた物体検出方法としては、例えば、非特許文献１や非特許文献２が挙げられる。非特許文献１では、学習済みのニューラルネットワークを用いて、物体の２次元骨格（物体の各関節の画像上での座標）を検出する技術が開示されている。非特許文献２では、学習済みのニューラルネットワークを用いて複数視点のカメラで撮影した映像から物体の２次元骨格を検出し、検出した複数の２次元骨格から３次元骨格（物体の各関節の三次元座標）を検出する技術が開示されている。

Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, Yaser Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", インターネット<https://arxiv.org/abs/1812.08008> Junting Dong, Wen Jiang, Qixing Huang, Hujun Bao, Xiaowei Zhou, "Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views", インターネット<https://arxiv.org/abs/1901.04111>

　非特許文献２では、３次元上の関節点と関節点との接続を、関節点間の距離に関する正規分布状のスコア（評価値）を使用して評価している。しかしながら、この手法では、異なる物体間の関節同士でもスコアが高くなることがあり、場合によって３次元骨格の検出精度が悪化する恐れがある。

　本開示は、上記課題に鑑みてなされたもので、３次元骨格を高精度に検出可能な３次元骨格検出方法及び３次元骨格検出装置を提供することを目的とする。

　本開示の一態様の３次元骨格検出方法は、複数の連結部及び前記連結部間の接続によって骨格が定義される対象物体の３次元骨格を検出する３次元骨格検出方法であって、前記対象物体を複数の異なるカメラ位置から撮像した画像群を得る画像取得ステップと、前記画像群の各画像から、画像上における前記連結部の２次元位置の推定、及び、画像上における前記接続の存在の確からしさを示す２次元接続尤度の算出、を行う２次元骨格検出ステップと、推定された連結部の２次元位置及び算出された２次元接続尤度を用いて前記対象物体の３次元骨格を検出する３次元骨格検出ステップと、を有する。

　前記３次元骨格検出方法において、前記３次元骨格検出ステップは、推定された連結部の２次元位置に基づいて、前記対象物体の各連結部の３次元位置を算出するステップを含むとしてもよい。

　前記３次元骨格検出方法において、前記２次元骨格検出ステップは、対象物体の連結部の２次元位置の推定、及び、前記２次元接続尤度を算出するための機械学習を行った学習モデルにより実行されるとしてもよい。

　前記３次元骨格検出において、前記３次元骨格検出ステップは、前記２次元接続尤度を用いて物体の３次元骨格が存在する確からしさを算出するステップを含むとしてもよい。

　前記３次元骨格検出方法において、前記２次元骨格検出ステップは、前記画像群の各画像から、前記対象物体の各連結部の２次元位置によって定義される２次元骨格を検出するステップを含み、前記３次元骨格検出ステップは、前記画像群のうち第１の画像から検出された２次元骨格と第２の画像から検出された２次元骨格との対応の確からしさを示すマッチングスコアを算出するステップと、前記マッチングスコアを用いて、同一の物体に該当する２次元骨格の対応付けを行うステップと、対応付けられた２つの２次元骨格の連結部の画像上の２次元位置に基づいて、三角測量の原理を用いて、前記対象物体の連結部の３次元位置を計算するステップと、を含むとしてもよい。

　前記３次元骨格検出方法において、前記３次元骨格検出ステップは、前記画像群のうち第１の画像から推定された連結部の２次元位置と第２の画像から推定された連結部の２次元位置とに基づいて、三角測量の原理を用いて前記対象物体の連結部の３次元位置を算出するステップと、３次元位置の算出された連結部間の接続の存在の確からしさを示す３次元接続尤度を、前記２次元接続尤度を用いて算出するステップと、３次元位置の算出された連結部間の接続を、前記３次元接続尤度を用いて検出するステップとを含むとしてもよい。

　本開示の一態様の３次元骨格検出装置は、複数の連結部及び前記連結部間の接続によって骨格が定義される対象物体の３次元骨格を検出する３次元骨格検出装置であって、前記対象物体を複数の異なるカメラ位置から撮像した画像群を得る入力部と、前記画像群の各画像から、画像上における前記連結部の２次元位置の推定、及び、画像上における前記接続の存在の確からしさを示す２次元接続尤度の算出、を行う２次元骨格検出部と、推定された連結部の位置及び算出された２次元接続尤度を用いて前記対象物体の３次元骨格を検出する３次元骨格検出部と、を備える。

　本開示によると、画像から２次元骨格における物体の２次元骨格（画像上の連結部の位置）を推定すると共に、２次元骨格における関節と関節との接続の存在の確からしさを示す２次元接続尤度を算出する。そして、２次元接続尤度を用いて３次元骨格を検出するので、３次元骨格の検出精度を向上させることができる。

実施の形態１に係る３次元骨格検出システム１の概略構成を示すブロック図である。３次元骨格検出システム１の動作を示すフローチャートである。２次元骨格検出部１０１の入力となるカメラ２０の撮影画像の一例を示す図である。２次元骨格検出部１０１の出力の一部となる２次元関節尤度マップを模式的に示した図である。２次元骨格検出部１０１の出力の一部となる２次元関節接続尤度マップを模式的に示した図である。２次元骨格検出部１０１の出力の一部となる２次元骨格情報を模式的に示した図である。３次元骨格検出部１０２の動作における一例を示すフローチャートである。（ａ）、（ｂ）、（ｃ）は、２次元骨格検出部１０１の出力の一部である２次元骨格情報の一例を示した図であり、カメラペアについて説明するための図である。（ａ）、（ｂ）は、２次元骨格検出部１０１の出力の一部である２次元骨格情報の一例を示した図であり、骨格ペアについて説明するための図である。コンピューターステレオ視におけるエピポーラ線について説明するための模式図である。マッチングスコアの算出方法を説明するための模式図である。三角測量による三次元座標の算出方法を説明するための模式図である。３次元骨格検出部１０２の動作の一例を示すフローチャートである。（ａ）、（ｂ）は、２次元骨格検出部１０１の出力の一部である２次元骨格情報の一例を示した図であり、２次元関節ペアについて説明するための図である。重複する３次元関節を削除する処理を説明するための模式図である。（ａ）、（ｂ）は、３次元関節の接続ペアを決定する処理を説明するための模式図である。検出された３次元骨格の一例を示す模式図である。ＣＮＮ１８００の構成を示すブロック図である。ＣＮＮ１８００の一つのニューロンＵを示す模式図である。（ａ）は学習時のデータ伝播を模式的に示す図である。（ｂ）推定時のデータ伝播を模式的に示す図である。

　１．実施の形態１
　以下、実施の形態１に係る３次元骨格検出システム１について説明する。

　１．１　構成
　（１）３次元骨格検出システム１
　図１は、３次元骨格検出システム１の構成を示すブロック図である。図に示すように、３次元骨格検出システム１は、複数のカメラ２０（２０ａ、２０ｂ、……）と、３次元骨格検出装置１０とを備える。

　（２）カメラ２０
　カメラ２０は、ＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ－Ｏｘｉｄｅ－Ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｆｉｅｌｄ－ｅｆｆｅｃｔ　ｔｒａｎｓｉｓｔｏｒ）イメージセンサーやＣＣＤ（Ｃｈａｒｇｅ－Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）イメージセンサー等の撮像素子を備え、撮像素子上に結像した光を光電変換で電気信号に変換することにより所定サイズの画像を出力する。カメラ２０は、出力画像のサイズと３次元骨格検出装置１０の入力画像のサイズが異なる場合は、カメラ２０の出力画像をリサイズする構成を備えてもよい。複数のカメラ２０は、それぞれ異なる視点から、所定の撮影エリアに存在する一又は複数の物体を撮影するように設置されている。

　（３）３次元骨格検出装置
　３次元骨格検出装置１０は、制御部１００と、カメラ２０に接続するための入出力インターフェース１４とを備える。制御部１００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、主記憶装置１２、補助記憶装置１３などから構成される。主記憶装置１２には、補助記憶装置１３に格納されたコンピュータプログラムやデータがロードされ、ＣＰＵ１１が、主記憶装置１２にロードされたコンピュータプログラムやデータにしたがって動作することにより、各処理部（２次元骨格検出部１０１、３次元骨格検出部１０２）を実現する。補助記憶装置１３は、一例として、ハードディスクから構成されている。補助記憶装置１３は、不揮発性の半導体メモリから構成されている、としてもよい。

　補助記憶装置１３は、２次元骨格検出情報１０３、３次元骨格検出情報１０４、カメラ設定情報１０５、骨格定義情報１０６を記憶する。２次元骨格検出情報１０３は、２次元骨格検出部１０１が検出した２次元骨格に係る情報であり、３次元骨格検出情報１０４は、３次元骨格検出部１０２が検出した３次元骨格に係る情報である。カメラ設定情報１０５は、３次元骨格検出システム１が備える複数のカメラ２０の設置位置（光学中心の座標や投影面の位置）などの情報が記憶される。骨格定義情報１０６は、検出対象の物体の骨格に係る情報である。本実施の形態において、検出対象の物体は人体である。従って、骨格定義情報１０６は、人体の所定数のキーポイントをそれぞれ異なる種別の関節として定義し、また、定義された関節間でどの種別の関節とどの種別の関節との間に接続が存在するかなどの情報を定義する。また、骨格定義情報１０６において、各関節の種別にはインデックス番号が付与されているとしてもよい。

　（４）２次元骨格検出部１０１
　２次元骨格検出部１０１は、検出対象の物体の２次元骨格を検出するための機械学習を行った畳み込みニューラルネットワークである。２次元骨格検出部１０１は、例えばＯｐｅｎＰｏｓｅなどの既存のライブラリを用いることができる。

　２次元骨格検出部１０１は、入力画像から、２次元骨格検出情報１０３を出力する。２次元骨格検出情報１０３は、２次元関節尤度マップ、２次元関節接続尤度マップ、２次元骨格情報を含む。

　２次元関節尤度マップは、骨格定義情報１０６で定義された関節の種別毎に存在し、その種別の関節が入力画像の各画素に存在する確からしさを示す尤度を画素値として有するマップ情報である。図３は、入力画像３０１の一例であり、図４は、入力画像３０１に対する関節の種別が「左肘」の２次元関節尤度マップ４０１の一例である。この例では、入力画像３０１には、二人の人体が存在している。２次元関節尤度マップ４０１は、入力画像３０１に存在する二人の人体のうち、左肘が存在すると推定される領域４０２、４０３の画素値が高く、その他の領域の画素値が小さいマップ情報となる。なお、２次元関節尤度マップは、Part Confidence Mapsなどと呼ばれる場合がある。

　２次元関節接続尤度マップは、骨格定義情報１０６で定義された接続の種別毎に存在し、その種別の接続が入力画像の各画素に存在する確からしさを示す尤度を画素値として有するマップ情報である。図５は、入力画像３０１に対する接続の種別が「左肩－左肘」の２次元関節接続尤度マップ５０１の一例である。２次元関節接続尤度マップ５０１は、入力画像３０１に存在する二人の人体のうち、左肩と左肘との接続が存在すると推定される領域５０２、５０３の画素値が高く、その他の領域の画素値が小さいマップ情報となる。２次元関節接続尤度マップ５０１は、画素値として、接続が存在する確からしさを示す尤度とともに、その接続の方向を示すベクトルの情報を有していてもよい。なお、２次元関節接続尤度マップは、Part Affinity Fieldsなどと呼ばれる場合がある。

　２次元骨格情報は、画像から検出された人物ごとの骨格情報である。この骨格情報は、骨格定義情報１０６で定義された各関節の画像上における位置（ｘ座標及びｙ座標）及びその存在の確からしさを示す尤度を含む。図６は、入力画像３０１に対する２次元骨格情報を模式的に示した図である。入力画像３０１における左の人物から骨格情報６０２が検出され、入力画像３０１における右の人物から骨格情報６０３が検出されている。骨格情報６０２、６０３における白丸が各関節の位置を示している。なお、図６では、骨格定義情報１０６で定義されている関節間の接続を黒い直線で示している。

　（５）３次元骨格検出部１０２
　３次元骨格検出部１０２は、２次元骨格検出情報１０３を入力とし、３次元骨格検出情報１０４を出力する。３次元骨格検出情報１０４は、複数のカメラ２０で撮影された人物の３次元骨格情報を含む。この３次元骨格情報は、検出した人物ごとの、骨格定義情報１０６で定義された各関節の３次元位置（ｘ座標、ｙ座標、ｚ座標）を含む。また、この３次元骨格情報は、検出した人物ごとの存在の確からしさを示す尤度（３次元骨格検出スコア）を含む。図１７は、３次元骨格情報を模式的に示した図である。図１７には、２人分の３次元骨格情報１７０１、１７０２が示されている。Ａ１～Ａ１５が３次元骨格情報１７０１における各関節の三次元位置情報を示し、Ｂ１～Ｂ１５が３次元骨格情報１７０２における各関節の三次元位置情報を示している。なお、図１７では、３次元骨格情報１７０１における関節間の接続をＣ１０１～Ｃ１１４で示し、３次元骨格情報１７０２における関節間の接続をＣ２０１～Ｃ２１４で示している。

　なお、ここでは、各カメラ２０において、２人の人物を撮影している場合について説明しているが、検出対象の物体の数については、１であってもよく、２より大きくてもよい。

　１．２　動作
　（１）３次元骨格検出システム１の動作
　図２は、３次元骨格検出システム１の動作を示すフローチャートである。

　３次元骨格検出システム１は、複数のカメラ２０により複数の視点から撮影エリアに存在する一又は複数の物体を撮影し、複数視点の撮影画像を取得する（ステップＳ１１）。

　３次元骨格検出装置１０は、複数のカメラ２０により撮影された複数視点の撮影画像を２次元骨格検出部１０１の入力とし、各視点の撮影画像から２次元骨格を検出する（ステップＳ１２）。２次元骨格検出部１０１は、視点ごとに、２次元関節尤度マップ、２次元関節接続尤度マップ、２次元骨格情報を含む２次元骨格検出情報１０３を生成する。

　３次元骨格検出部１０２は、２次元骨格検出部１０１の出力した視点ごとの２次元骨格検出情報１０３を３次元骨格検出部１０２の入力とし、撮影エリアに存在する一又は複数の物体の３次元骨格を検出し、３次元骨格検出情報１０４を出力する（ステップＳ１３）。

　（２）３次元骨格検出部１０２の動作
　３次元骨格検出部１０２が、３次元骨格を検出する方法について、さらに説明する。３次元骨格検出部１０２が、２次元骨格検出情報１０３から３次元骨格を検出する方法について、トップダウン方式とボトムアップ方式の２つの方法を説明する。

　なお、本開示において、３次元骨格の検出におけるトップダウン方式とは、２次元画像から２次元関節の検出、２次元関節から２次元骨格の検出、２次元骨格から３次元骨格の検出、の順に検出を行う方式のことである。また、ボトムアップ方式とは、２次元画像から２次元関節の検出、２次元関節から３次元関節の検出、３次元関節から３次元骨格の検出、の順に検出を行う方式のことである。

　また、本開示において、２次元関節の検出を物体の関節の２次元位置（画像上の座標）の検出と言い換えてもよい。２次元骨格の検出を同一物体の複数の関節の２次元位置の検出と言い換えてもよい。３次元関節の検出を物体の関節の３次元位置の検出と言い換えてもよい。３次元骨格の検出を同一物体の複数の関節の３次元位置の検出と言い換えてもよい。

　（２－１）トップダウン方式
　図７は、３次元骨格検出部１０２がトップダウン方式で３次元骨格を検出する処理を示すフローチャートである。

　３次元骨格検出部１０２は、カメラペアの選択を行い（ステップＳ２１）、選択したカメラペアについて、ステップＳ２２～Ｓ２５までの処理を行う。３次元骨格検出部１０２は、すべてのカメラペアを選択するまでステップＳ２１～Ｓ２５の処理を繰り返す。

　カメラペアとは、複数のカメラ２０から選んだ２つのカメラ２０のことである。２次元骨格検出部１０１により、複数のカメラ２０それぞれの撮影映像に対して２次元骨格が検出される。図８（ａ）は、カメラ２０のうちカメラＡから検出された２次元骨格８１１、８１２を含む２次元骨格情報８０１を模式的に示したものである。図８（ｂ）は、カメラ２０のうちカメラＣから検出された２次元骨格８２１、８２２を含む２次元骨格情報８０２を模式的に示したものである。図８（ｃ）は、カメラ２０のうちカメラＢから検出された２次元骨格８３１、８３２を含む２次元骨格情報８０３を模式的に示したものである。

　なお、本開示において、カメラから検出された２次元骨格を、カメラの撮影画像から検出された２次元骨格と言い換えてもよい。

　３次元骨格検出部１０２は、例えば、カメラＡ及びカメラＢからなるカメラペア、カメラＡ及びカメラＣからなるカメラペア、カメラＢ及びカメラＣからなるカメラペアを順に選択する。

　以下、カメラＡ及びカメラＢからなるカメラペアが選択されたとして、ステップＳ２２～Ｓ２５の説明を行う。

　３次元骨格検出部１０２は、選択したカメラペアから２次元骨格ペアの選択を行い（ステップＳ２２）、選択した２次元骨格ペアについて、ステップＳ２３の処理を行う。３次元骨格検出部１０２は、すべての２次元骨格ペアを選択するまでステップＳ２２～Ｓ２３の処理を繰り返す。

　２次元骨格ペアとは、複数の２次元骨格から選んだ異なる２つのカメラから検出された２次元骨格のことである。図９（ａ）は、選択されたカメラペアのうちカメラＡから検出された２次元骨格９０３、９０４を含む２次元骨格情報９０１を模式的に示したものである。図９（ｂ）は、選択されたカメラペアのうちカメラＢから検出された２次元骨格９０５、９０６を含む２次元骨格情報９０２を模式的に示したものである。

　３次元骨格検出部１０２は、例えば、２次元骨格９０３及び２次元骨格９０５からなる２次元骨格ペア、２次元骨格９０３及び２次元骨格９０６からなる２次元骨格ペア、２次元骨格９０４及び２次元骨格９０５からなる２次元骨格ペア、２次元骨格９０４及び２次元骨格９０６からなる２次元骨格ペアを順に選択する。

　以下、２次元骨格９０３及び２次元骨格９０５からなる２次元骨格ペアが選択されたとして、ステップＳ２３の説明を行う。

　３次元骨格検出部１０２は、選択した２次元骨格ペアについて、ペアの２つの２次元骨格が同一人物の２次元骨格である確からしさを示すマッチングスコアの算出を行う（ステップＳ２３）。

　マッチングスコアの算出方法を説明する前に、コンピューターステレオ視におけるエピポーラ線について説明を行う。

　図１０は、コンピューターステレオ視において、エピポーラ線を説明するための模式図である。符号１００１は、三次元上の注目点を示す。符号１００２、１００３は、カメラＡの光学中心、カメラＢの光学中心を示す。符号１００４、１００５は、カメラＡの投影面、カメラＢの投影面を示す。符号１００６、１００７は、注目点１００１のカメラＡの投影、注目点１００１のカメラＢの投影を示す。注目点１００１とカメラＡの光学中心１００２、カメラＢの光学中心１００３を通る面はエピポーラ面と呼ばれる。エピポーラ面とカメラＡの投影面１００４との交線１００８はエピポーラ線と呼ばれる。エピポーラ面とカメラＢの投影面１００５との交線１００９はエピポーラ線と呼ばれる。エピポーラ制約により、投影１００６はエピポーラ線１００８上に存在し、投影１００７はエピポーラ線１００９上に存在する。

　次にマッチングスコアの算出方法について説明を行う。カメラＡから検出された２次元骨格とカメラＢから検出された２次元骨格のマッチングスコアＭＳは、下記の式（１）を用いて算出される。

　式（１）において、ｊ（ｊ＝１，２，……，Ｊ）は、関節の種別を示すインデックス番号であり、Ａ_jは、インデックス番号ｊが示す種別の２次元関節のマッチングスコアである。ｊ＝Ｘの場合における２次元関節のマッチングスコアＡ_Xは、下記の式（２）を用いて算出される。

　式（２）において、Ｘ_AはカメラＡから検出された２次元骨格の関節Ｘであり、Ｘ_BはカメラＢから検出された２次元骨格の関節Ｘである。なお、関節Ｘを、関節の種別がインデックス番号Ｘの関節と言い換えてもよい。

　ｄ_l（Ｘ_A，ｌ_A）は、カメラＡの投影面におけるＸ_Aとエピポーラ線ｌ_Aの距離であり、ｄ_l（Ｘ_B，ｌ_B）は、カメラＢの投影面におけるＸ_Bとエピポーラ線ｌ_Bの距離である。

　α_2Dは、任意の定数である。

　距離ｄ_l（Ｘ_A，ｌ_A）について、図１１を用いてさらに説明する。図１１は、マッチングスコアの算出方法について説明するための模式図である。符号１１０１、１１０２は、カメラＡの光学中心、カメラＢの光学中心を示す。符号１１０３、１１０４は、カメラＡの投影面、カメラＢの投影面を示す。符号１１０５、１１０６は、カメラＡから検出された２次元骨格、カメラＢから検出された２次元骨格を示す。符号１１０５Ａは、２次元骨格１１０５における関節Ｘであり、式（２）におけるＸ_Aを示す。符号１１０６Ｂは、２次元骨格１１０６における関節Ｘであり、式（２）における関節Ｘ_Bを示す。直線１１０７は、関節１１０６Ｂと光学中心１１０１と光学中心１１０２が通る平面と投影面１１０３との交線であり、式（２）におけるエピポーラ線ｌ_Aを示す。そして、関節１１０５Ａとエピポーラ線１１０７との距離１１０８が、式（２）におけるｄ_l（Ｘ_A，ｌ_A）を示す。

　上述したように、エピポーラ制約により、注目点の投影はエピポーラ線上に存在することになる。従って、関節Ｘ_Aと関節Ｘ_Bとが同一の注目点を投影したものであれば、Ｘ_Aはエピポーラ線ｌ_A上に存在することになり、ｄ_l（Ｘ_A，ｌ_A）＝０となる。しかし、関節Ｘ_Aと関節Ｘ_Bとがそれぞれ３次元上の異なる点を投影したものであればｄ_l（Ｘ_A，ｌ_A）は、０より大きい値を持つことになる。ｄ_l（Ｘ_B，ｌ_B）についても同様のことが言える。

　なお、関節Ｘ_Aと関節Ｘ_Bとが同一の注目点を投影したものであっても、２次元骨格検出部１０１が検出した２次元骨格の関節位置に誤差が含まれる場合や、補助記憶装置１３に記憶されたカメラ設定情報１０５にカメラのキャリブレーション誤差が含まれる場合などに、ｄ_l（Ｘ_A，ｌ_A）は０より大きい値を持つ可能性がある。

　これにより、２次元骨格ペアの２つの２次元骨格が同一人物の２次元骨格である場合は、ｄ_l（Ｘ_A，ｌ_A）及びｄ_l（Ｘ_B，ｌ_B）は、０に近い値を有することになる。その結果、関節ＸのマッチングスコアＡ_Xは、２次元骨格ペアの２つの２次元骨格が同一人物の２次元骨格である場合に大きな値となり、異なる人物の２次元骨格である場合に小さな値となる。すべての関節についても同様にマッチングスコアＡ_jを算出し、総和を取ることでマッチングスコアＭＳが算出される。従って、カメラＡから検出された２次元骨格とカメラＢから検出された２次元骨格のマッチングスコアＭＳは、２次元骨格ペアの２つの２次元骨格が同一人物の２次元骨格である場合に大きな値となり、異なる人物の２次元骨格である場合に小さな値となる。

　このようにして、図７のステップＳ２２で選択した２次元骨格ペアについてマッチングスコアを算出する。

　ステップＳ２１で選択したカメラペアにおいて、全ての２次元骨格ペアについてマッチングスコアを算出するまで、ステップＳ２２、ステップＳ２３を繰り返す。

　次に、３次元骨格検出部１０２は、算出したマッチングスコアに基づいて、ステップＳ２１で選択したカメラペアから検出された２次元骨格のうち同一人物の２次元骨格のペアの組み合わせを決定する（ステップＳ２４）。

　図９（ａ）、（ｂ）の例で、２次元骨格９０３及び２次元骨格９０５からなる２次元骨格ペア１、２次元骨格９０３及び２次元骨格９０６からなる２次元骨格ペア２、２次元骨格９０４及び２次元骨格９０５からなる２次元骨格ペア３、２次元骨格９０４及び２次元骨格９０６からなる２次元骨格ペア４としたとき、同一人物の２次元骨格ペアの組み合わせを決定する方法を下記に説明する。

　まず、矛盾のない２次元骨格ペアの組み合わせを求める。ここでいう「矛盾のない」とは、組み合わせに同一の２次元骨格が複数含まれないということである。例えば、２次元骨格ペア１と２次元骨格ペア２の組み合わせにおいて、２次元骨格ペア１に２次元骨格９０３が含まれ、２次元骨格ペア２にも２次元骨格９０３が含まれるため、２次元骨格ペア１と２次元骨格ペア２の組み合わせは矛盾する。この例では、２次元骨格ペア１と２次元骨格ペア４の組み合わせ、及び、２次元骨格ペア２と２次元骨格ペア３の組み合わせが矛盾のない組み合わせとなる。

　そして、求めた矛盾のない組み合わせ毎に、マッチングスコアの総和を算出し、総和が最も大きい組み合わせを、同一人物の２次元骨格のペアの組み合わせとして決定する。例えば、２次元骨格ペア１のマッチングスコアと２次元骨格ペア４のマッチングスコアの総和と、２次元骨格ペア２のマッチングスコアと２次元骨格ペア３のマッチングスコアの総和を比較したとき、２次元骨格ペア１のマッチングスコアと２次元骨格ペア４のマッチングスコアの総和が大きい場合、２次元骨格ペア１と２次元骨格ペア４の組み合わせが同一人物の２次元骨格ペアの組み合わせとして決定される。

　そして、３次元骨格検出部１０２は、同一人物の２次元骨格ペアに基づいて３次元骨格の推定を行う（ステップＳ２５）。ここで、図１２を用いて、２次元骨格ペアから３次元骨格の推定を行う方法を説明する。図における符号１２０１、１２０２は、カメラＡ、Ｂの光学中心であり、符号１２０３、１２０４は、カメラＡ、Ｂの投影面である。そして、２次元骨格１２０５、１２０６が同一人物の２次元骨格ペアである。また、符号１２０５Ａは、２次元骨格１２０５における関節Ｘであり、符号１２０６Ｂは、２次元骨格１２０６における関節Ｘである。３次元骨格検出部１０２は、カメラＡ、Ｂの光学中心１２０１、１２０２の３次元位置、投影面１２０３、１２０４の三次元位置、関節１２０５Ａの投影面１２０３上の座標、関節１２０６Ｂの投影面１２０４上の座標に基づいて、三角測量の原理を用いて、２次元骨格１２０５、１２０６からなる２次元骨格ペアの関節Ｘの３次元座標１２０７の計算を行う。他の関節についても同様に３次元位置の計算を行う。補助記憶装置１３に記憶された骨格定義情報１０６で定義されたすべての関節について、３次元位置を計算することを３次元骨格の検出、または、３次元骨格の推定と呼んでもよい。

　図７のステップＳ２１～ステップＳ２５までの３次元骨格推定処理を各カメラペアに対して行うことにより、各カメラペアに対して、同一人物の２次元骨格ペア毎に、３次元骨格が推定される。理解容易のため例えると、複数のカメラ２０が人物Ａと人物Ｂの２人の人物を撮影したものであった場合に、各カメラペアに対して、人物Ａの３次元骨格と人物Ｂの３次元骨格が推定される。カメラペア毎に人物Ａの３次元骨格が推定されるため、人物Ａに対してカメラペアの数の３次元骨格が重複して推定されているということである。同様に、人物Ｂに対しても複数の３次元骨格が重複して推定されている。

　そこで、３次元骨格検出部１０２は、同一人物に対して重複して推定された３次元骨格から１つの３次元骨格を選択することで同一人物を抑制する処理を行う（ステップＳ２６）。この処理は、以下に示す２つの判定に基づいて行われる。第１の判定は、複数の３次元骨格があったときに、どれが同一人物でどれが同一人物でないかの判定である。第２の判定は、複数の３次元骨格が同一人物である場合にどれを残し、どれを削除するのかの判定である。

　まず、第１の判定について説明する。各３次元骨格は、２つの２次元骨格から推定されたものである。例えば、３つの３次元骨格があったとして、それぞれ３次元骨格１～３とする。そして、３次元骨格１の推定元の２次元骨格が２次元骨格１及び２次元骨格２とする。同様に、３次元骨格２の推定元の２次元骨格が２次元骨格２及び２次元骨格３とし、３次元骨格３の推定元の２次元骨格が２次元骨格３及び２次元骨格４とする。この場合、３次元骨格１と３次元骨格２とは、推定元の２次元骨格の一方が２次元骨格２であり共通している。このように、推定元の２次元骨格の一方が共通する２つの３次元骨格を同一人物の３次元骨格であると判定する。同様に、３次元骨格２と３次元骨格３は、推定元の２次元骨格の一方が共通するので、同一人物の３次元骨格であると判定する。また、３次元骨格１と３次元骨格２が同一人物の３次元骨格であり、３次元骨格２と３次元骨格３が同一人物の３次元骨格であることから、３次元骨格１と３次元骨格３も同一人物の３次元骨格と判定する。

　次に、第２の判定について説明する。各３次元骨格は、１つの２次元骨格ペアから推定されたものであり、各２次元骨格ペアにはマッチングスコアが算出されている。従って、各３次元骨格には、マッチングスコアが算出されている。本開示においては、同一人物と判定された複数の３次元骨格のうち、最もマッチングスコアが高い３次元骨格を残し、その他の３次元骨格を削除する。

　３次元骨格検出部１０２は、上記第１の判定及び第２の判定に基づいて、同一人物に対して重複して推定された複数の３次元骨格を抑制する。

　同一人物の抑制後、３次元骨格検出部１０２は、残った３次元骨格それぞれに対して、３次元骨格検出スコアを算出する（ステップＳ２７）。スコア算出対象の３次元骨格の推定元の２次元骨格を２次元骨格１及び２次元骨格２とすると、スコア算出対象の３次元骨格の３次元骨格検出スコアＳ_3Dは、式（３）により算出される。

　式（３）において、Ｓ１は、２次元骨格１の各関節の２次元関節スコアの総和である。Ｓ２は、２次元骨格２の各関節の２次元関節スコアの総和である。Ｓ３は、２次元骨格１の各関節間の接続の２次元関節接続スコアの総和である。Ｓ４は、２次元骨格２の各関節間の接続の２次元関節接続スコアの総和である。

　２次元関節スコアは、２次元骨格検出情報１０３に含まれる２次元骨格情報及び２次元関節尤度マップから求めることができる。例えば、２次元骨格情報から関節Ｘの座標を取得し、関節Ｘに対応する２次元関節尤度マップにおける取得した関節Ｘの座標の尤度（画素値）を関節Ｘの２次元関節スコアとしてもよい。また、２次元骨格情報における関節Ｘの尤度を関節Ｘの２次元関節スコアとしてもよい。

　２次元関節接続スコアは、２次元骨格検出情報１０３に含まれる２次元骨格情報及び２次元関節接続尤度マップから求めることができる。例えば、２次元骨格情報から関節Ｘ、Ｙの座標を取得し、関節Ｘと関節Ｙとの接続に対応する２次元関節接続尤度マップにおける関節Ｘの座標と関節Ｙの座標を結ぶ直線内の１点の尤度（画素値）を関節Ｘと関節Ｙとの接続の２次元関節接続スコアとしてもよい。

　３次元骨格検出スコアの算出後、３次元骨格検出部１０２は、算出した３次元骨格検出スコアが所定の閾値Ｔ１より大きいか否かを判定し、所定の閾値Ｔ１よりも小さい３次元骨格を削除する（ステップＳ２８）。

　３次元骨格検出部１０２は、３次元骨格検出スコアが所定の閾値Ｔ１以上の３次元骨格について、３次元骨格検出情報を生成し出力する（ステップＳ２９）。

　３次元骨格検出部１０２は、上記方法により、トップダウン方式により、３次元骨格の検出を行う。

　（２－２）ボトムアップ方式
　図１３は、３次元骨格検出部１０２がボトムアップ方式で３次元骨格を検出する処理を示すフローチャートである。

　３次元骨格検出部１０２は、カメラペアの選択を行い（ステップＳ３０１）、選択したカメラペアについて、ステップＳ３０２～Ｓ３０４までの処理を行う。３次元骨格検出部１０２は、すべてのカメラペアを選択するまでステップＳ３０１～Ｓ３０４の処理を繰り返す。

　以下、図８（ａ）～（ｃ）において、カメラＡ及びカメラＢからなるカメラペアが選択されたとして、ステップＳ３０２～Ｓ３０４の説明を行う。

　３次元骨格検出部１０２は、選択したカメラペアから２次元関節ペアの選択を行い（ステップＳ３０２）、選択した２次元関節ペアについて、ステップＳ３０３～Ｓ３０４の処理を行う。３次元骨格検出部１０２は、すべての２次元関節ペアを選択するまでステップＳ３０２～Ｓ３０４の処理を繰り返す。

　２次元関節ペアとは、同一の種別の複数の２次元関節から選んだ異なる２つのカメラから検出された２次元関節のことである。図１４（ａ）は、選択されたカメラペアのうちカメラＡから検出された２次元骨格１４０１、１４０２の頭の関節１４０１Ａ、１４０２Ａを模式的に示したものである。図１４（ｂ）は、選択されたカメラペアのうちカメラＢから検出された２次元骨格１４０３、１４０４の頭の関節１４０３Ｂ、１４０４Ｂを模式的に示したものである。

　３次元骨格検出部１０２は、例えば、関節１４０１Ａ及び関節１４０３Ｂからなる２次元関節ペア、関節１４０１Ａ及び関節１４０４Ｂからなる２次元関節ペア、関節１４０２Ａ及び関節１４０３Ｂからなる２次元関節ペア、関節１４０２Ａ及び関節１４０４Ｂからなる２次元関節ペアを順に選択する。

　３次元骨格検出部１０２は、補助記憶装置の骨格定義情報１０６で定義されたすべての種別の関節について、同様に２次元関節ペアを選択する。

　以下、関節１４０１Ａ及び関節１４０２Ａからなる２次元関節ペアが選択されたとして、ステップＳ３０３～Ｓ３０４の説明を行う。

　３次元骨格検出部１０２は、選択された２次元関節ペアに基づいて３次元関節の推定を行う（ステップＳ３０３）。３次元関節の推定とは、２つの２次元関節の座標から関節の３次元位置を算出することである。２つの２次元関節の座標から関節の３次元位置は、補助記憶装置１３に記憶されたカメラ設定情報（カメラＡ、Ｂの光学中心の三次元位置及び投影面の三次元位置）を用いて、三角測量の原理により、算出することができる。

　次に、３次元骨格検出部１０２は、推定した３次元関節の３次元関節検出スコアを算出する（ステップＳ３０４）。３次元関節検出スコアは、推定した３次元関節の存在の確からしさを示す尤度である。３次元関節の３次元関節検出スコアは、３次元関節の推定元の２つの２次元関節の２次元関節スコアの和を用いるとしてもよい。

　図１３のステップＳ３０１～ステップＳ３０４までの３次元関節推定処理を各カメラペアに対して行うことにより、関節の種別毎に、複数の３次元関節が推定される。この複数の３次元関節の中には、同一人物の同一関節を推定した結果の３次元関節が複数含まれる。理解容易のため例えると、複数のカメラ２０が人物Ａと人物Ｂの２人の人物を撮影したものであった場合に、推定された複数の３次元関節の中には、人物Ａの頭の関節を推定した複数の３次元関節や、人物Ｂの頭の関節を推定した複数の３次元関節が含まれる。

　そこで、３次元骨格検出部１０２は、同一人物の同一関節に対して重複して推定された３次元関節から１つの３次元関節を選択することで同一関節を抑制する処理を行う（ステップＳ３０５）。

　図１５（ａ）～（ｅ）を用いて、重複して推定された３次元関節から同一関節を抑制する処理を説明する。図１５（ａ）は、推定された同一種別の複数の３次元関節１５０１～１５１２を示している。

　まず、３次元関節１５０１～１５１２の中から、ステップＳ３０４で算出された３次元関節検出スコアが最も高い３次元関節を選択する。例えば、３次元関節検出スコアが最も高い３次元関節が３次元関節１５０１であったとする。

　図１５（ｂ）に示すように、３次元空間内で３次元関節１５０１を中心に半径ｒの球１５２０を考え、球１５２０内に存在する３次元関節１５０２、１５０３を削除する。

　残った３次元関節１５０１、１５０４～１５１２の中から先ほど選択した３次元関節１５０１の次に３次元関節検出スコアが高い３次元関節を選択する。例えば、３次元関節１５０５が選択されたとする。図１５（ｃ）に示すように、３次元空間内で３次元関節１５０５を中心に半径ｒの球を考え、球内に存在する３次元関節１５０４、１５０６～１５０９を削除する。同様にして、図１５（ｄ）に示すように、３次元空間内で３次元関節１５１０を中心に半径ｒの球を考え、球内に存在する３次元関節１５１１、１５１２を削除する。

　このようにして３次元骨格検出部１０２は、同一関節の抑制を行う。

　同一関節の抑制後、３次元骨格検出部１０２は、３次元関節接続ペアの選択を行い（ステップＳ３０６）、選択した３次元関節接続ペアについて、ステップＳ３０７の処理を行う。３次元骨格検出部１０２は、すべての３次元関節接続ペアを選択するまでステップＳ３０６～Ｓ３０７の処理を繰り返す。

　３次元関節接続ペアとは、同一関節の抑制後の３次元関節のうち、骨格定義情報１０６において接続があると定義された２つの種別の３次元関節からなるペアのことである。図１６（ａ）において、Ａ１～Ａ１５及びＢ１～Ｂ１５は、同一関節の抑制後の３次元関節を示している。そして、Ｃ１～Ｃ４は、そのうち、骨格定義情報１０６において接続があると定義された頭の関節と首の関節との接続を示している。

　３次元骨格検出部１０２は、３次元関節接続ペアとして、Ｃ１、Ｃ２、Ｃ３、Ｃ４を順に選択する。

　３次元骨格検出部１０２は、骨格定義情報１０６において接続があると定義された２つの種別の３次元関節からなる３次元関節接続ペアを順に選択する。

　３次元骨格検出部１０２は、選択された３次元関節接続ペアの３次元関節接続スコアを算出する（ステップＳ３０７）。３次元関節接続検出スコアは、推定した３次元関節接続ペアに含まれる２つの３次元関節間の接続の存在の確からしさを示す尤度である。

　３次元関節接続検出スコアの算出方法を説明する。３次元関節接続スコアは、２次元骨格検出情報１０３に含まれる２次元骨格情報及び２次元関節接続尤度マップから求めることができる。スコア算出対象の３次元関節接続ペアの接続の種別の２次元関節接続尤度マップを参照し、スコア算出対象の３次元関節接続ペアを参照した２次元関節接続尤度マップに投影する。参照する２次元関節接続尤度マップは、複数のカメラ２０のうち任意のカメラ２０から検出されたものを用いてもよい。図１６（ｂ）において、符号１６０１は、参照された頭の関節と首の関節との接続の２次元関節接続尤度マップを示す。符号１６０２、１６０３は、２次元関節接続尤度マップ１６０１において高い画素値を有する領域を示す。そして、図１６（ｂ）におけるＤ１～Ｄ４は、図１６（ａ）における３次元関節接続ペアＣ１～Ｃ４の、２次元関節接続尤度マップ１６０１への投影を示す。

　ここで、３次元関節接続ペアの３次元関節接続スコアは、２次元関節接続尤度マップに投影された３次元関節接続ペアの中点における画素値としてもよい。すなわち、３次元関節接続ペアＣ１の３次元関節接続スコアは、２次元関節接続尤度マップ１６０１における投影Ｄ１の中点となる。同様に、３次元関節接続ペアＣ２の３次元関節接続スコアは、２次元関節接続尤度マップ１６０１における投影Ｄ２の中点となる。３次元関節接続ペアＣ３の３次元関節接続スコアは、２次元関節接続尤度マップ１６０１における投影Ｄ３の中点となる。３次元関節接続ペアＣ４の３次元関節接続スコアは、２次元関節接続尤度マップ１６０１における投影Ｄ４の中点となる。

　投影Ｄ１の中点は領域１６０２内であり、高い画素値を有している。そのため、３次元関節接続ペアＣ１の３次元関節接続スコアは、高い値となる。同様に、投影Ｄ３の中点は領域１６０３内であり、高い画素値を有している。そのため、３次元関節接続ペアＣ３の３次元関節接続スコアは、高い値となる。一方、投影Ｄ２、Ｄ４の中点は、領域１６０２及び１６０３の外であるため、画素値は小さい値である。従って、３次元関節接続ペアＣ２、Ｃ４の３次元関節接続スコアは小さい値となる。つまり、この算出方法によれば、同一人物の３次元関節からなる３次元関節接続ペア（例えば、Ｃ１、Ｃ３）の３次元関節接続スコアは高い値となり、異なる人物の３次元関節からなる３次元関節接続ペア（例えば、Ｃ２、Ｃ４）の３次元関節接続スコアは小さい値となる。

　図１３のステップＳ３０６～ステップＳ３０７までの処理を各３次元関節接続ペアに対して行うことにより、３次元関節接続ペア毎に３次元関節接続スコアが算出される。

　３次元骨格検出部１０２は、算出した３次元関節接続スコアに基づいて、同一人物の３次元関節からなる３次元関節接続ペアを決定する（ステップＳ３０８）。例えば、所定の閾値Ｔ２よりも大きい３次元関節接続スコアを有する３次元関節接続ペアを同一人物の３次元関節からなる３次元関節接続ペアと決定する。これを各３次元関節接続ペアに対して行うことにより、各３次元関節は人物ごとにグルーピングされ、図１７に示されるように、人物ごとの三次元関節とその間の接続からなる３次元骨格が検出される。

　３次元骨格検出部１０２は、ステップＳ３０８で検出された３次元骨格それぞれに対して、３次元骨格検出スコアを算出する（ステップＳ３０９）。スコア算出対象の３次元骨格の３次元骨格検出スコアＴ_3Dは、式（４）により算出される。

　式（４）において、Ｓ５は、スコア算出対象の３次元骨格の各関節の３次元関節検出スコア（ステップＳ３０４で算出）の総和である。Ｓ６は、スコア算出対象の３次元骨格の各関節間接続の３次元関節接続スコア（ステップＳ３０７で算出）の総和である。

　３次元骨格検出スコアの算出後、３次元骨格検出部１０２は、算出した３次元骨格検出スコアが所定の閾値Ｔ３より大きいか否かを判定し、所定の閾値Ｔ３よりも小さい３次元骨格を削除する（ステップＳ３１０）。

　３次元骨格検出部１０２は、３次元骨格検出スコアが所定の閾値Ｔ３以上の３次元骨格について、３次元骨格検出情報を生成し出力する（ステップＳ３１１）。

　３次元骨格検出部１０２は、上記方法により、ボトムアップ方式により、３次元骨格の検出を行う。

　１．３　ＣＮＮ
　上述のように、２次元骨格検出部１０１は、機械学習を行った畳み込みニューラルネットワークである。２次元骨格検出部１０１は、入力画像から２次元骨格検出情報１０３を出力するものであれば、任意の畳み込みニューラルネットワークを用いてもよい。

　畳み込みニューラルネットワークの一例として、図１８に示すニューラルネットワーク８００について、説明する。

　（１）ニューラルネットワーク１８００の構造
　ニューラルネットワーク１８００は、入力層１８００ａ、特徴抽出層１８００ｂ及び出力層１８００ｃを有する階層型のニューラルネットワークである。

　ここで、ニューラルネットワークとは、人間の神経ネットワークを模倣した情報処理システムのことである。ニューラルネットワーク１８００において、神経細胞に相当する工学的なニューロンのモデルを、ここではニューロンＵと呼ぶ。入力層１８００ａ、特徴抽出層１８００ｂ及び出力層１８００ｃは、それぞれ複数のニューロンＵを有して構成されている。

　入力層１８００ａは、通常、１層からなる。入力層１８００ａの各ニューロンＵは、例えば１枚の画像を構成する各画素の画素値をそれぞれ受信する。受信した画像値は、入力層１８００ａの各ニューロンＵから特徴抽出層１８００ｂにそのまま出力される。特徴抽出層１８００ｂは、入力層１８００ａから受信したデータから特徴を抽出して出力層１８００ｃに出力する。出力層１８００ｃは、特徴抽出層１８００ｂにより抽出された特徴を用いてオブジェクト検出を行う。

　ニューロンＵとして、通常、図１９に示すように、多入力１出力の素子が用いられる。信号は一方向にだけ伝わり、入力された信号ｘｉ（ｉ＝１、２、・・・、ｎ）に、あるニューロン加重値（ＳＵｗｉ）が乗じられて、ニューロンＵに入力される。ニューロン加重値は、学習によって変化させることができる。ニューロンＵからは、ニューロン加重値ＳＵｗｉが乗じられたそれぞれの入力値（ＳＵｗｉ×ｘｉ）の総和が活性化関数ｆ（Ｘ）による変形を受けた後、出力される。つまり、ニューロンＵの出力値ｙは、以下の数式で表される。

　　　ｙ＝ｆ（Ｘ）
　ここで、
　　　Ｘ＝Σ（ＳＵｗｉ×ｘｉ）
である。なお、活性化関数としては、例えば、ＲｅＬＵやシグモイド関数を用いることができる。

　ニューラルネットワーク１８００の学習方法としては、例えば、正解を示す値（教師データ）とＣＮＮ１８００の出力値（オブジェクト推定データ）とから所定の誤差関数を用いて誤差を算出し、この誤差が最小となるように、最急降下法等を用いて特徴抽出層１８００ｂのニューロン加重値等及び出力層１８００ｃのニューロン加重値を順次変化させていく誤差逆伝播法（バックプロパゲーション）が用いられる。

　（２）学習工程
　ニューラルネットワーク１８００における学習工程について説明する。

　学習工程は、ニューラルネットワーク１８００の事前学習を行う工程である。学習工程では、事前に入手した学習用データ（学習用画像と教師データ）を用いて、ニューラルネットワーク１８００の事前学習を行う。

　図２０（ａ）に、事前学習の際のデータの伝播モデルを模式的に示している。

　学習用画像は、画像１枚毎に、ニューラルネットワーク１８００の入力層１８００ａに入力され、入力層１８００ａから特徴抽出層１８００ｂに出力される。特徴抽出層１８００ｂの各ニューロンＵでは、入力データに対してニューロン加重値付きの演算が行われ、抽出した特徴を示すデータが、出力層１８００ｃに出力される。出力層１８００ｃの各ニューロンＵでは、入力データに対するニューロン加重値付きの演算が行われる（ステップＳ４１）。これによって、抽出された特徴に基づく２次元骨格の検出が行われる。２次元骨格の検出の結果を示すデータは、出力層１８００ｃから出力される。

　出力層１８００ｃの出力値（２次元骨格の検出結果）は、教師データと比較され、所定の誤差関数を用いて、誤差（ロス）が算出される（ステップＳ４２）。この誤差が小さくなるように、出力層１８００ｃのニューロン加重値等及び特徴抽出層１８００ｂのニューロン加重値等を順次変化させる（バックプロパゲーション）（ステップＳ４３）。これにより、ＣＮＮ１８００の学習を行う。学習結果は、学習済みパラメータとして補助記憶装置１３に記憶される。

　（３）推定工程
　ニューラルネットワーク１８００における推定工程について説明する。

　図２０（ｂ）は、上記の学習工程によって学習されたニューラルネットワーク１８００を用い、カメラ２０で得られた撮影画像を入力画像として２次元骨格の検出を行う場合のデータの伝播モデルを示している。

　ニューラルネットワーク１８００における推定工程においては、学習された特徴抽出層１８００ｂと、学習された出力層１８００ｃとを用いて、特徴抽出及び２次元骨格の検出が行われる（ステップＳ４４）。

　２．補足
　以上、本発明を実施の形態に基づいて説明してきたが本発明は上述の実施の形態に限定されないのは勿論であり、以下の変形例が本発明の技術範囲に含まれることは勿論である。

　（１）上述の実施の形態において、２次元骨格検出部１０１及び３次元骨格検出部１０２は、人体の２次元骨格及び３次元骨格を検出するものとして説明したが、人間に限らず、牛や馬のように他の動物でもよい。なお、関節とは、脊椎動物の骨格における骨同士の連結部であり、可動性の連結部であっても、不動性の連結部であってもよい。また、検出対象の関節は、２次元画像から検出可能なキーポイントであればよく、動物の骨格の関節（連結部）でなくともよい。検出対象の骨格は、複数のキーポイント（連結部）とその間の接続からなるワイヤーフレームで表現できるのであれば生物のものでなくともよい。例えば、車や飛行機などの３次元骨格を検出してもよい。

　（２）上述の実施の形態のステップＳ２４において、マッチングスコアに基づいて、同一人物の２次元骨格のペアの組み合わせを決定している。そして、上述の実施の形態では、「矛盾のない」２次元骨格ペアの組み合わせのすべてに対して、マッチングスコアを算出するという方法で、同一人物の２次元骨格のペアの組み合わせを決定している。しかしながら、この方法では検出する人物の数が多くなれば、膨大な量の計算が必要になる可能性がある。その場合、カメラペアにおける一方のカメラの２次元骨格集合の要素（２次元骨格）を、他方のカメラの２次元骨格集合の要素（２次元骨格）のどれに割り当てるかを決定する割り当て問題として考えることで、ハンガリー法などを用いることにより効率的に同一人物の２次元骨格のペアの組み合わせを決定することができる。

　（３）上述の実施の形態において、３次元骨格検出装置１０は、クラウドサーバーとして実装されていてもよい。すなわち、クラウドサーバー（３次元骨格検出装置１０）と画像入力用端末（複数のカメラ２０）とは、ネットワーク（例えば、インターネット）を介して接続されているとしてもよい。また、クラウドサーバー（３次元骨格検出装置１０）からネットワークを介して３次元骨格検出情報を取得する情報処理端末（例えばＰＣ）を備えてもよい。また、３次元骨格検出装置１０内の各構成(機能)は、複数のコンピュータに分散されて搭載されていてもよく、ネットワークを介して複数のコンピュータが連携して動作することで３次元骨格検出システムを実現してもよい。

　本開示は、監視カメラシステムなどに搭載される３次元骨格検出装置として有用である。

　　１　３次元骨格検出システム
　１０　３次元骨格検出装置
１０１　２次元骨格検出部
１０２　３次元骨格検出部
　２０　カメラ

Claims

　複数の連結部及び前記連結部間の接続によって骨格が定義される対象物体の３次元骨格を検出する３次元骨格検出方法であって、
　前記対象物体を複数の異なるカメラ位置から撮像した画像群を得る画像取得ステップと、
　前記画像群の各画像から、画像上における前記連結部の２次元位置の推定、及び、画像上における前記接続の存在の確からしさを示す２次元接続尤度の算出、を行う２次元骨格検出ステップと、
　推定された連結部の２次元位置及び算出された２次元接続尤度を用いて前記対象物体の３次元骨格を検出する３次元骨格検出ステップと、
　を有する３次元骨格検出方法。
　前記３次元骨格検出ステップは、推定された連結部の２次元位置に基づいて、前記対象物体の各連結部の３次元位置を算出するステップを含む
　請求項１に記載の３次元骨格検出方法。
　前記２次元骨格検出ステップは、対象物体の連結部の２次元位置の推定、及び、前記２次元接続尤度を算出するための機械学習を行った学習モデルにより実行される
　請求項１または２に記載の３次元骨格検出方法。
　前記３次元骨格検出ステップは、前記２次元接続尤度を用いて物体の３次元骨格が存在する確からしさを算出するステップを含む
　請求項１～３のいずれかに記載の３次元骨格検出方法。
　前記２次元骨格検出ステップは、前記画像群の各画像から、前記対象物体の各連結部の位置によって定義される２次元骨格を検出するステップを含み、
　前記３次元骨格検出ステップは、
　　前記画像群のうち第１の画像から検出された２次元骨格と第２の画像から検出された２次元骨格との対応の確からしさを示すマッチングスコアを算出するステップと、
　　前記マッチングスコアを用いて、同一の物体に該当する２次元骨格の対応付けを行うステップと、
　対応付けられた２つの２次元骨格の連結部の画像上の位置に基づいて、三角測量の原理を用いて、前記対象物体の連結部の３次元位置を計算するステップと、を含む
　請求項１～４のいずれかに記載の３次元骨格検出方法。
　前記３次元骨格検出ステップは、
　　前記画像群のうち第１の画像から推定された連結部の２次元位置と第２の画像から推定された連結部の２次元位置とに基づいて、三角測量の原理を用いて前記対象物体の連結部の３次元位置を算出するステップと、
　　３次元位置の算出された連結部間の接続の存在の確からしさを示す３次元接続尤度を、前記２次元接続尤度を用いて算出するステップと、
　　３次元位置の算出された連結部間の接続を、前記３次元接続尤度を用いて検出するステップと、を含む
　請求項１～４のいずれかに記載の３次元骨格検出方法。
　複数の連結部及び前記連結部間の接続によって骨格が定義される対象物体の３次元骨格を検出する３次元骨格検出装置であって、
　前記対象物体を複数の異なるカメラ位置から撮像した画像群を得る入力部と、
　前記画像群の各画像から、画像上における前記連結部の２次元位置の推定、及び、画像上における前記接続の存在の確からしさを示す２次元接続尤度の算出、を行う２次元骨格検出部と、
　推定された連結部の位置及び算出された２次元接続尤度を用いて前記対象物体の３次元骨格を検出する３次元骨格検出部と、
　を備える３次元骨格検出装置。