WO2024009503A1

WO2024009503A1 - 姿勢推定プログラム、装置、及び方法

Info

Publication number: WO2024009503A1
Application number: PCT/JP2022/027115
Authority: WO
Inventors: 一成井上
Original assignee: 富士通株式会社
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2024-01-11

Abstract

姿勢推定装置は、各フレームが人物の３次元点群を含む時系列のフレームの各々に含まれる３次元点群に対する、人物の骨格情報を表す３次元モデルを用いた第１のフィッティング処理に基づいて、フレーム毎に人物の姿勢を推定し、推定された姿勢が第１の姿勢であることが検知された第１のフレームを特定する情報を記憶部に記憶し、第１のフレームより後の第２のフレームから推定された人物の姿勢が第２の姿勢であることが検知された場合、記憶部に記憶した情報から特定される第１のフレームから第２のフレームに至るまでの各対象フレームについての人物の姿勢の推定結果として、対象フレームに含まれる３次元点群に対する、３次元モデルを用いた第２のフィッティング処理に基づいて修正した推定結果を用いる。

Description

姿勢推定プログラム、装置、及び方法

　開示の技術は、姿勢推定プログラム、姿勢推定装置、及び姿勢推定方法に関する。

　人物の姿勢推定技術として、３次元センサから得られる人物の表面上の複数の点の情報、すなわち３次元点群から、人物の関節位置等の骨格情報を推定する技術が存在する。具体的には、この技術は、３次元点群に、人体の骨格情報を表す３次元の幾何モデル（以下、「人体モデル」という）をフィッティング、すなわち、３次元点群と人体モデルとの適合度合いを表す目的関数を最適化し、人体モデルに基づいて関節位置等を推定する。目的関数の最適化は、３次元点群と人体モデルとの距離を最小化することで行われる。

　例えば、被写体を３次元計測する３Ｄセンサの計測結果を基にして、３次元点群データを取得する情報処理装置が提案されている。この情報処理装置は、３次元点群データに対して、人体の各部位を複数の円筒で表現した円筒モデルを当てはめた結果を基にして、計測結果におけるノイズの影響を、部位毎に評価する。また、この情報処理装置は、ノイズの影響が所定以上と判断された部位に対応する円筒モデル周辺の点群を３次元点群データから除外し、点群を除外した３次元点群データに対して、円筒モデルを再度当てはめる処理を繰り返し実行する。そして、この情報処理装置は、部位毎のノイズの影響が所定未満となった場合の３次元点群データに対して円筒モデルの当てはめた結果を基にして、被写体の骨格認識結果を生成し、骨格認識結果を出力する。

国際公開第２０２１／１１７１６５号

　従来の姿勢推定技術は、３次元センサで得られるフレーム毎の３次元点群に対して人体モデルをフィッティングさせる際に、前のフレームで推定された姿勢を初期値として利用している。そのため、３次元センサにおいて原理的に残ってしまう点群ノイズ、推定対象の人物以外のオブジェクトの存在等が原因で姿勢推定の精度が劣化した場合、それ以降のフレームにおける姿勢推定の精度が劣化し続けるという問題が存在する。

　例えば、推定対象の人物が体操競技の選手の場合、手と足とが近い姿勢、ひねり姿勢等が発生することが多い。いずれかのフレームにこのような姿勢が含まれる場合、以降のフレームにおいて、姿勢が上下又は左右反転して推定されるという、誤推定が生じる場合がある。

　一つの側面として、開示の技術は、３次元点群に対する人体モデルのフィッティングにより人物の姿勢を推定する際の推定精度を向上させることを目的とする。

　一つの態様として、開示の技術は、各フレームが人物の３次元点群を含む時系列のフレームの各々に含まれる３次元点群に対する、人物の骨格情報を表す３次元モデルを用いた第１のフィッティング処理に基づいて、前記フレーム毎に人物の姿勢を推定する。また、開示の技術は、推定された姿勢が第１の姿勢であることが検知された第１のフレームを特定する情報を記憶部に記憶する。また、開示の技術は、前記第１のフレームより後の第２のフレームから推定された前記人物の姿勢が第２の姿勢であることが検知された場合、前記記憶部に記憶した情報から、前記第１のフレームから第２のフレームに至るまでの各対象フレームを特定する。そして、開示の技術は、各対象フレームについての人物の姿勢の推定結果として、前記対象フレームに含まれる３次元点群に対する、前記３次元モデルを用いた第２のフィッティング処理に基づいて修正した推定結果を用いる。

　一つの側面として、３次元点群に対する人体モデルのフィッティングにより人物の姿勢を推定する際の推定精度を向上させることができる、という効果を有する。

人物の３次元点群の一例を示す図である。人体モデルの一例を示す図である。３次元点群に対する人体モデルのフィッティングを説明するための図である。姿勢推定の誤りを説明するための図である。姿勢推定の誤りを説明するための図である。姿勢推定の誤りの具体例を説明するための図である。姿勢推定装置の機能ブロック図である。推定結果ＤＢの一例を示す図である。上下反転の姿勢の判定を説明するための図である。開脚姿勢の判定を説明するための図である。点群ずれの判定を説明するための図である。点群ずれの判定を説明するための図である。点群ずれの判定を説明するための図である。左右反転の姿勢の判定を説明するための図である。左右反転の姿勢の判定を説明するための図である。逆反りの姿勢の判定を説明するための図である。Ｃ型の姿勢の判定を説明するための図である。推定結果の更新を説明するための図である。姿勢推定装置として機能するコンピュータの概略構成を示すブロック図である。姿勢推定処理の一例を示すフローチャートである。第１のフィッティング処理と第２のフィッティング処理とを同時に実行する場合を示す図である。第１のフィッティング処理と第２のフィッティング処理とを順に実行する場合を示す図である。

　以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。なお、本実施形態では、姿勢推定の対象の人物が体操の競技者である場合を例に説明する。

　まず、３次元点群と人体モデルとを用いた人物の姿勢推定の概要、及びその問題点について説明する。

　図１に、人物の３次元点群３０の一例を示す。３次元点群３０は、３次元センサにより計測される対象物表面の複数の点の各々の３次元座標の集合である。３次元点群３０は、３次元センサにより所定のフレームレートで計測される。すなわち、各フレームが人物の３次元点群３０を含む、時系列のフレームが３次元センサにより取得される。

　図２に示すように、本実施形態における人体モデル３２は、人物の骨格情報を表す３次元の幾何モデルである。例えば、人体モデル３２は、人体の各部位を簡易な幾何形状で表した部位モデルの集合である。また、人体モデル３２は、各部位モデルの形状（例えば、円柱、楕円柱等）に応じた軸方向の長さ、底面の半径、底面の長径及び短径等のパラメータの情報を含む。また、人体モデル３２は、各部位の接続関係、接続される他の部位に対する回転角度、回転の向き等の制約情報も含む。以下、部位Ｘの部位モデルを「Ｘモデル」ともいう。なお、本実施形態では、人体モデル３２の部位モデルとして、頭モデル、首モデル、上腕モデル、下腕モデル、胸モデル、腰モデル、腿モデル、脛モデル、及び足モデルが含まれるものとする。また、上腕モデル、下腕モデル、腿モデル、脛モデル、及び足モデルについては、左右それぞれの部位モデルで構成されるものとする。また、本実施形態では、上腕モデル及び下腕モデルに対応する人体の部位をまとめて「腕」、腿モデル、脛モデル、及び足モデルに対応する人体の部位をまとめて「脚」ともいう。

　３次元点群３０と人体モデル３２とを用いた人物の姿勢推定は、図３に示すように、各フレームの３次元点群３０に対する適合度が最も高くなるように人体モデル３２をフィッティングさせることにより行われる。具体的には、３次元点群３０と人体モデル３２との適合度合いを表す目的関数を最適化して、３次元点群３０に適合する人体モデル３２の各部位モデルの配置が推定される。そして、推定された各部位モデルの配置に基づいて、各部位モデルに対応する部位の位置を特定することで、人物の姿勢が推定される。各部位の位置は、例えば、対応する各部位モデルの底面の中心位置等の所定位置として特定される。また、部位の位置には、部位同士の接続点である肩、膝、腿の付け根、手首、足首等の関節の位置も含まれる。

　上記のような姿勢推定を行う場合、各フレームにおいて、前のフレームで推定された姿勢が初期値として利用される。そのため、初期値の精度不良による姿勢推定の精度劣化が生じる場合がある。また、あるフレームでの姿勢推定の精度が劣化した場合、それ以降のフレームにおける姿勢推定の精度が劣化し続ける。図４を参照してより具体的に説明する。なお、図４において、人体モデル３２の部位モデル３２Ａ（実線）と部位モデル３２Ｂ（破線）とは、対応する人体の部位が異なることを表している。

　図４に示すように、同じ３次元点群３０に対する人体モデル３２のフィッティングにおいて、誤った初期値（１）が与えられた場合と、正しい初期値（２）が与えられた場合とについて説明する。この場合、図５に示すように、目的関数の最適化において、正しい初期値（２）からスタートして目的関数を最適化する場合、正しい推定結果（２）が得られる可能性が高い。一方、誤った初期値（１）からスタートして目的関数を最適化する場合、初期値の違いによって収束位置が変わってしまい、誤った推定結果（１）が得られてしまう可能性が高まる。図４の例では、正しい初期値（２）に対する推定結果（２）と、誤った初期値（１）に対する推定結果（１）とでは、部位モデル３２Ａと部位モデル３２Ｂとの配置が反転している。これは、人物の姿勢が上下又は左右に反転して推定されることを表す。また、いったん推定結果に誤りが生じると、その姿勢を初期値として次のフレームの姿勢が推定されるため、姿勢推定の精度が劣化し続ける。

　特に、推定対象の人物が体操の競技者の場合、腕と脚とが近い姿勢が取られる場合も多い。そのため、３次元点群３０の腕の部分に腿モデルや脛モデルがフィッティングし、３次元点群３０の脚の部分に上腕モデルや下腕モデルがフィッティングする場合がある。図２に示すような幾何形状の人体モデル３２は、各部位モデルが前後の向きの特徴を持たないため、あるフレームでフィッティングを誤り、推定された姿勢に崩れが生じているとしても、そのフレームで姿勢推定の誤りを判断することが難しい場合がある。

　例えば、図６に示すように、競技種目が鉄棒の場合、鉄棒に対して足及び手首が共に近い姿勢が取られる場合があり、フィッティングにより、上記のように腕と脚とが逆に推定されてしまう場合がある。ただし、特に体操競技ではアクロバティックな姿勢が取られることが多く、この段階では、誤った姿勢か否かを見分けることは困難である。そのため、その誤った姿勢を次フレームの初期値として処理が継続されてしまう。そして、以降のフレームにおいても腕と脚とが逆に推定され、所定フレーム後には、上下が反転した逆さまの姿勢が推定され、この時点で姿勢推定が誤っていると判断される。

　本実施形態では、このような、フィッティングでの初期値の精度不良による、姿勢推定の精度劣化の継続を回避し、正しい姿勢へ復元して姿勢推定を実行することにより、姿勢推定の精度を向上させる。以下、本実施形態に係る姿勢推定装置について詳述する。

　図７に示すように、姿勢推定装置１０は、機能的には、第１推定部１２と、第１検知部１４と、第２推定部１６と、第２検知部１８とを含む。また、姿勢推定装置１０の所定の記憶領域には、推定結果ＤＢ（Database）２０が記憶される。第２推定部１６及び第２検知部１８は、開示の技術の「第２推定部」の一例である。

　第１推定部１２は、姿勢推定装置１０に入力される３次元点群３０に対する人体モデル３２を用いた第１のフィッティング処理に基づいて、フレーム毎に人物の姿勢を推定する。第１のフィッティング処理は、第１の初期値を用いて、３次元点群３０に対する適合度が最も高くなるように人体モデル３２をフィッティングさせる処理である。第１の初期値は、時系列のフレームにおいて、処理対象のフレームの前フレームについての推定結果である人物の姿勢を示す値である。フィッティング処理については、特許文献１等に記載の技術を適用してよいため、詳細な説明を省略する。

　第１推定部１２は、フレーム毎の推定結果を、そのフレームを特定する情報と対応付けて、推定結果ＤＢ２０に記憶する。図８に、推定結果ＤＢ２０の一例を示す。図８の例では、推定結果ＤＢ２０には、フレーム毎に、「フレーム番号」、「推定結果」、「対象フレームフラグ」、及び「推定結果候補」が記憶されている。フレーム番号は、フレームを特定する情報の一例である。本実施形態では、フレームを特定する情報として、フレーム番号を用いる場合について説明するが、フレームの時間情報等、他の情報を用いてもよい。第１推定部１２は、フレーム毎の推定結果を、「推定結果」欄に記憶する。図８における「対象フレームフラグ」及び「推定結果候補」については後述する。

　第１検知部１４は、第１推定部１２により推定された姿勢が、姿勢推定の精度劣化に至る可能性がある姿勢として予め定めた第１の姿勢である第１のフレームを検知した場合、第１のフレームを特定する情報を推定結果ＤＢ２０に記憶する。第１検知部１４は、人物の関節位置及び角度の時系列情報等が表す人体構造や技（運動）の特徴を用いて、第１の姿勢を判定する。第１の姿勢は、例えば、人物の頭部が脚部より下に位置する上下反転の姿勢、予め定めた条件に該当する不自然な姿勢、人物の上下方向を軸とした回転（ひねり）を伴う運動が行われた又は行われることを表す左右反転の姿勢等である。以下、これらの第１の姿勢の一例についての判定方法を説明する。

　まず、上下反転の姿勢の判定方法について説明する。第１検知部１４は、推定結果ＤＢ２０に記憶された推定結果が示す足、脛、腿、腹、胸、首、及び肩の各部位の位置と鉄棒との直線距離を算出する。具体的には、図９に示すように、第１検知部１４は、例えば、鉄棒の端点等の所定位置を起点とし、方向が鉄棒の軸方向に沿う鉄棒ベクトルと、鉄棒の起点から各部位へのベクトルとの外積ベクトルを算出する。第１検知部１４は、算出した外積ベクトルの大きさ、すなわち垂線の長さを、各部位と鉄棒との直線距離として算出する。また、第１検知部１４は、左肩及び右肩のように左右が存在する部位については、左右の部位の位置の平均位置を用いて直線距離を算出してよい。そして、第１検知部１４は、人物が鉄棒より下に位置し、かつ鉄棒に最も近い部位が足である場合に、上下反転の姿勢であると判定する。

　また、第１検知部１４は、各部位と鉄棒との直線距離を大きい順に並べた場合に、足、脛、腿、腹、胸、首、及び肩の順番で並んでいない場合に、上下反転の姿勢であると判定してもよい。

　次に、不自然な姿勢の一例として、開脚姿勢の判定方法について説明する。３次元点群３０にノイズ等が含まれることにより、開脚姿勢ではないにもかかわらず開脚姿勢のように推定される場合があり、その場合、後続のフレームでの推定精度が劣化するため、開脚姿勢を第１の姿勢である不自然な姿勢として扱うものである。

　第１検知部１４は、図１０に示すように、鉄棒の軸方向を示す鉄棒の方向ベクトル、骨盤の左右ベクトル、及び両膝ベクトルを算出する。例えば、第１検知部１４は、第１推定部１２の推定結果が示す左右の腿の付け根の位置を結ぶベクトルを骨盤の左右ベクトルとして算出する。また、第１検知部１４は、第１推定部１２の推定結果が示す左右の膝の位置を結ぶベクトルを両膝ベクトルとして算出する。そして、第１検知部１４は、以下の３つの条件が同時に成立する場合に、開脚姿勢であると判定する。

１．足と鉄棒との最短距離が閾値より小さい
２．骨盤の左右ベクトルと両膝ベクトルとの内積が閾値以上
３．鉄棒の方向ベクトルと両膝ベクトルとの内積が閾値以上
　上記１の条件は、足が鉄棒に近いこと、上記２の条件は、開脚していること、上記３の条件は、鉄棒の軸方向に沿って脚を開いていることを判定するための条件である。

　次に、不自然な姿勢の他の例として、点群ずれの判定方法について説明する。上述したように、３次元点群３０がノイズを含むことにより不自然な姿勢が推定される場合があるため、ノイズを含む３次元点群３０に基づいて推定された姿勢を点群ずれとして検知するものである。

　第１検知部１４は、図１１に示すように、３次元点群３０に含まれる各点（図１１中の黒丸）について、人体モデル３２との最短距離と閾値とを比較し、人体モデル３２から離れた点か近い点かを判定する。そして、第１検知部１４は、３次元点群３０に含まれる点の全体に対する、離れた点の割合を算出し、割合が閾値以上か否かを判定する。

　また、第１検知部１４は、図１２に示すように、鉄棒の方向ベクトルｅ、及び腰の位置から鉄棒への垂線ベクトルｂを算出する。また、第１検知部１４は、腰の位置から両足の中点を結んだベクトルを、腰の位置を中心にベクトルｅと平行になるように回転して閾値分伸ばしたベクトルａを算出する。また、第１検知部１４は、ベクトルｂを腰の位置を中心にベクトルｅとベクトルｂとの外積ベクトル（ｅ×ｂ）の方向と平行になるように回転して閾値分伸ばしたベクトルｃを算出する。また、第１検知部１４は、図１３に示すように、腰の位置を中心として、ベクトルａ、ｂ、及びｃの各方向に３辺を持ち、ベクトルａ、－ａ、ｂ、－ｂ、ｃ、及び－ｃを最小に覆う直方体（図１３中の一点鎖線）を算出する。また、第１検知部１４は、鉛直方向をベクトルｈとおき、生成した直方体（一点鎖線）を最小に覆う、ベクトルｅ、ｈ、ｅ×ｈの各方向を３辺に持つ直方体（図１３中の破線）を算出する。

　そして、第１検知部１４は、３次元点群３０に含まれる各点（図１３中の黒丸）について、算出した直方体（破線）内に含まれる内部の点か、外部の点かを判定する。なお、直方体（破線）に基づいて、内部の点か外部の点かを判定するのは、計算処理を容易にするためであり、直方体（一点鎖線）に基づいて判定してもよい。第１検知部１４は、３次元点群３０に含まれる点の全体に対する、外部点の割合を算出し、割合が閾値以上か否かを判定する。第１検知部１４は、上述した離れた点の割合が閾値以上、かつ外部の点の割合が閾値以上の場合に、点群ずれであると判定する。

　次に、左右反転の姿勢の判定について説明する。第１検知部１４は、各フレームから推定された姿勢に基づいて、人物の向きを算出する。例えば、第１検知部１４は、腰モデルの軸方向に直交する方向ベクトルと、鉄棒の方向ベクトルとのなす角を人物の向きとして算出してよい。なお、鉄棒のような比較対象物が存在しない場合には、３次元センサの計測方向を基準として人物の向きを算出してもよい。そして、第１検知部１４は、図１４に示すように、現在フレームｎの人物の向きｔｎと、所定数（ｋ）前のフレームまでの各フレームでの人物の向きとの差で表される回転角度を遡って計算する。第１検知部１４は、回転角度が単調増加又は単調減少するように変化しており、かつ現在フレームｎとフレームｎ－ｋとの間の回転角度｜ｔｎ－ｔ（ｎ－ｋ）｜が閾値以上の場合に、回転（ひねり）運動に伴う左右反転の姿勢として判定する。

　また、第１検知部１４は、腕がクロスしている場合に、左右反転の姿勢を判定してもよい。具体的には、第１検知部１４は、図１５に示すように、第１推定部１２の推定結果が示す両肩の位置を結んだベクトルｓ、及び両手先を結んだベクトルｕを算出する。そして、第１検知部１４は、ベクトルｓ及びベクトルｕの各々の、鉄棒の方向ベクトルｅの方向についての成分の符号が異なる場合に、腕がクロスしていると判定する。

　第１検知部１４は、上記各例のように、各フレームについて推定された姿勢が第１の姿勢か否かを判定し、第１の姿勢であると判定した第１のフレームを検知した場合、そのフレームを対象フレームとして推定結果ＤＢ２０に登録する。例えば、第１検知部１４は、図８に示すように、推定結果ＤＢ２０において、該当のフレーム番号に対応する「対象フレームフラグ」欄にフラグ（図８の例では「１」）を立てる。第１検知部１４は、後述する第２検知部１８により第２の姿勢のフレームが検知されるまで、後続のフレームの各々についても、「対象フレームフラグ」欄にフラグを立てる。

　第２推定部１６は、推定結果ＤＢ２０において、「対象フレームフラグ」欄にフラグが立っている各対象フレームについて、３次元点群３０に対する人体モデル３２を用いた第２のフィッティング処理に基づいて、人物の姿勢を推定する。第２のフィッティング処理は、第１のフィッティング処理における第１の初期値とは異なる第２の初期値を用いて、３次元点群３０に対する適合度が最も高くなるように人体モデル３２をフィッティングさせる処理である。

　第２推定部１６は、第１の初期値を変更した第２の初期値を生成する。なお、初期値の変更には、人体モデル３２における関節の回転角度等の制約条件の変更も含まれる。第２の初期値は、第１の初期値が示す姿勢を上下又は左右に反転させた姿勢、予め定めた標準の姿勢、及び第１の初期値が示す姿勢を所定値分変更した姿勢の少なくとも１つの姿勢を示す値としてよい。第２推定部１６は、複数の第２の初期値の各々を用いて、各対象フレームについての人物の姿勢の推定結果を複数取得してもよい。

　第２推定部１６は、対象フレーム毎の推定結果を、推定結果ＤＢ２０の「推定結果候補」欄に記憶する。図８の例では、フレーム番号１２～２０のフレームが対象フレームとして特定された例を示している。また、図８の例では、第２推定部１６において、２種類の第２の初期値を用いて、２種類の推定結果を得ている例を示している。

　第２検知部１８は、第１推定部１２により推定された姿勢が、精度劣化として予め定めた第２の姿勢である第２のフレームを検知した場合、推定結果ＤＢ２０に記憶されている対象フレームについての推定結果を第２のフィッティング処理に基づいて修正する。第２の姿勢は、人物の腰部に対して脚部が背面側へ閾値以上屈折した逆反りの姿勢、人物の腕部の背面側への延伸方向と脚部の背面側への延伸方向との平行度が閾値以上となるＣ型の姿勢、人体モデル３２との適合度が閾値以下となる姿勢等である。以下、これらの第２の姿勢の一例についての判定方法を説明する。

　まず、逆反りの姿勢の判定方法について説明する。第２検知部１８は、図１６に示すように、背面方向のベクトル、腹ベクトル、腿ベクトル、及び肩ベクトルを算出する。例えば、第２検知部１８は、腰の位置と胸の位置とを結ぶベクトルを腹ベクトルとして算出する。また、第２検知部１８は、腿の付け根の位置から膝の位置までの左右のベクトルを左右の腿ベクトルとして算出する。また、第２検知部１８は、両肩の位置を結んだベクトルを肩ベクトルとして算出する。また、第２検知部１８は、腹ベクトルに直交する方向であって、肩ベクトルの向きから特定される人物の前面から背面に向かう方向のベクトルを背面方向のベクトルとして算出する。

　また、第２検知部１８は、肩ベクトルを法線とする平面上に射影した腿ベクトルの射影ベクトルと腹ベクトルとのなす角、及び、背面方向のベクトルを法線とする平面に射影した腿ベクトルの射影ベクトルと肩ベクトルとのなす角の２つ（左右で計４つ）を算出する。第２検知部１８は、算出した角度と閾値とを比較し、脚が背面方向に屈折しており、かつ左右の脚が前後に開脚していない場合に、逆反りの姿勢であると判定する。

　次に、Ｃ型の姿勢の判定について説明する。第２検知部１８は、図１７に示すように、背面方向のベクトル、肩ベクトル、胸ベクトル、腕ベクトル、及び脚ベクトルを算出する。例えば、第２検知部１８は、胸の位置と首の位置とを結ぶベクトルを胸ベクトルとして算出する。また、第２検知部１８は、胸ベクトルに直交する方向であって、肩ベクトルの向きから特定される人物の前面から背面に向かう方向のベクトルを背面方向のベクトルとして算出する。なお、第２検知部１８は、上記の逆反りの姿勢の判定時と同様の背面方向のベクトルを算出してもよい。また、第２検知部１８は、肩の位置から手首の位置までを結んだ左右ベクトルの和を腕ベクトルとして算出する。また、第２検知部１８は、腿の付け根の位置から足首の位置までの左右ベクトルの和を脚ベクトルとして算出する。

　そして、第２検知部１８は、腕ベクトルと背面方向のベクトルとのなす角が鋭角、かつ脚ベクトルと背面方向のベクトルとのなす角が鋭角の場合に、Ｃ型の姿勢であると判定する。第２検知部１８は、鋭角か否かを、なす角が閾値以下か否かにより判定する。

　第２検知部１８は、上記各例のように、各対象フレームについて推定された姿勢が第２の姿勢か否かを判定する。そして、第２検知部１８は、第２の姿勢であると判定した第２のフレームを検知した場合、その対象フレーム以降のフレームについて、対象フレームのフラグを立てないように第１検知部１４に指示する。

　また、第２検知部１８は、各対象フレームについて、第１の初期値及び１又は複数の第２の初期値の各々を用いた場合の複数の推定結果の中で、３次元点群３０に対する人体モデル３２の適合度が最も高い推定結果を選択し、推定結果ＤＢ２０を更新する。例えば、図１８に示すように、フレーム番号１２の対象フレームについて、「推定結果」、すなわち第１の初期値を用いた推定結果が「Ｐ１２＿１」であったとする。また、「推定結果候補」、すなわち第２の初期値を用いた推定結果が「Ｐ１２＿２」及び「Ｐ１２＿３」であったとする。さらに、各推定結果についての適合度がＰ１２＿２、Ｐ１２＿３、Ｐ１２＿１の順で高いとする。この場合、第２検知部１８は、図１８に示すように、フレーム番号１２のフレームの「推定結果」を「Ｐ１２＿２」に更新する。

　第２検知部１８は、推定結果ＤＢ２０の推定結果を更新した場合、又は、第２検知部１８による第２のフレームが検知されないまま対象フレーム数が所定数を超えた場合には、推定結果ＤＢ２０の「対象フレーム」欄及び「推定結果候補」欄をクリアする。

　姿勢推定装置１０は、例えば図１９に示すコンピュータ４０で実現されてよい。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶装置４３とを備える。また、コンピュータ４０は、入力装置、表示装置等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）装置４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）４６を備える。ＣＰＵ４１、メモリ４２、記憶装置４３、入出力装置４４、Ｒ／Ｗ装置４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。

　記憶装置４３は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等である。記憶媒体としての記憶装置４３には、コンピュータ４０を、姿勢推定装置１０として機能させるための姿勢推定プログラム５０が記憶される。姿勢推定プログラム５０は、第１推定プロセス制御命令５２と、第１検知プロセス制御命令５４と、第２推定プロセス制御命令５６と、第２検知プロセス制御命令５８とを有する。また、記憶装置４３は、推定結果ＤＢ２０を構成する情報が記憶される情報記憶領域６０を有する。

　ＣＰＵ４１は、姿勢推定プログラム５０を記憶装置４３から読み出してメモリ４２に展開し、姿勢推定プログラム５０が有する制御命令を順次実行する。ＣＰＵ４１は、第１推定プロセス制御命令５２を実行することで、図７に示す第１推定部１２として動作する。また、ＣＰＵ４１は、第１検知プロセス制御命令５４を実行することで、図７に示す第１検知部１４として動作する。また、ＣＰＵ４１は、第２推定プロセス制御命令５６を実行することで、図７に示す第２推定部１６として動作する。また、ＣＰＵ４１は、第２検知プロセス制御命令５８を実行することで、図７に示す第２検知部１８として動作する。また、ＣＰＵ４１は、情報記憶領域６０から情報を読み出して、推定結果ＤＢ２０をメモリ４２に展開する。これにより、姿勢推定プログラム５０を実行したコンピュータ４０が、姿勢推定装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

　なお、姿勢推定プログラム５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等で実現されてもよい。

　次に、本実施形態に係る姿勢推定装置１０の動作について説明する。姿勢推定装置１０に、各フレームが人物の３次元点群３０を含む、時系列のフレームの入力が開始されると、姿勢推定装置１０において、図２０に示す姿勢推定処理が実行される。なお、姿勢推定処理は、開示の技術の姿勢推定方法の一例である。

　ステップＳ１０で、第１推定部１２が、フレーム番号を示す変数ｉに１を設定する。以下、フレーム番号ｉのフレームを「フレームｉ」という。また、第１推定部１２が、フィッティング処理の第１の初期値として、予め定めた姿勢を示す値を設定する。次に、ステップＳ１２で、第１推定部１２が、フレームｉを取得し、フレームｉに含まれる３次元点群３０に対する人体モデル３２及び第１の初期値を用いた第１のフィッティング処理に基づいて、人物の姿勢を推定する。第１推定部１２は、姿勢の推定結果を、フレーム番号ｉと対応付けて、推定結果ＤＢ２０の「推定結果」欄に記憶する。

　次に、ステップＳ１４で、第１検知部１４が、フレームｉについて推定された姿勢が、姿勢推定の精度劣化に至る可能性がある姿勢として予め定めた第１の姿勢か否かを判定する。第１の姿勢の場合には、ステップＳ１８へ移行し、第１の姿勢ではない場合には、ステップＳ１６へ移行する。ステップＳ１６では、第１推定部１２が、ｉを１インクリメントしてステップＳ１２に戻る。以降のステップＳ１２では、第１推定部１２は、フレームｉ－１の推定結果が示す姿勢を第１の初期値として、フレームｉに対する第１のフィッティング処理を実行する。

　ステップＳ１８では、第１検知部１４が、推定結果ＤＢ２０において、フレーム番号ｉに対応する「対象フレームフラグ」欄に、フレームｉが対象フレームであることを示すフラグを立てる。推定結果ＤＢ２０において、「対象フレームフラグ」欄にフラグが立っているフレーム番号のうち、最小のフレーム番号を「ｎ」とする。

　次に、ステップＳ２０で、第２推定部１６が、現在設定されている第１の初期値が示す姿勢を上下又は左右に反転させた姿勢等に基づいて、第２のフィッティング処理用の第２の初期値を生成する。次に、ステップＳ２２で、第２推定部１６が、ｉを１インクリメントする。次に、ステップＳ２４で、第２推定部１６が、ｉがｎ＋Ｎ以下か否か、すなわち、直近のステップＳ１４の処理で第１の姿勢であるフレームが検知されてから所定フレーム数（Ｎ）以内か否かを判定する。ｉ≦ｎ＋Ｎの場合には、ステップＳ２６へ移行し、ｉ＞ｎ＋Ｎの場合には、ステップＳ３２へ移行する。

　ステップＳ２６では、第１検知部１４が、推定結果ＤＢ２０において、フレーム番号ｉに対応する「対象フレームフラグ」欄に、フレームｉが対象フレームであることを示すフラグを立てる。また、第１推定部１２が、フレームｉについて、第１の初期値を用いた第１のフィッティング処理を実行して人物の姿勢を推定し、推定結果を推定結果ＤＢ２０の「推定結果」欄に記憶する。また、第２推定部１６が、フレームｉについて、第２の初期値を用いた第２のフィッティング処理を実行して人物の姿勢を推定し、推定結果を推定結果ＤＢ２０の「推定結果候補」欄に記憶する。

　次に、ステップＳ２８で、第２検知部１８が、フレームｉについて推定された姿勢が、精度劣化として予め定めた第２の姿勢か否か、又は、３次元点群３０に対する人体モデル３２の適合度が閾値以下か否かを判定する。第２の姿勢又は適合度が閾値以下の場合には、ステップＳ３０へ移行し、いずれでもない場合には、ステップＳ２２に戻る。ステップＳ３０では、第２検知部１８が、推定結果ＤＢ２０において、対象フレーム毎に、「推定結果」及び「推定結果候補」欄に記憶された推定結果の中で、３次元点群３０に対する人体モデル３２の適合度が最も高い推定結果を選択する。そして、第２検知部１８が、対象フレーム毎に、選択した推定結果で推定結果ＤＢ２０の「推定結果」欄を更新する。

　次に、ステップＳ３２で、第２検知部１８が、推定結果ＤＢ２０の「対象フレームフラグ」欄及び「推定結果候補」欄をクリアし、ステップＳ１４に戻る。

　以上説明したように、本実施形態に係る姿勢推定装置は、各フレームが人物の３次元点群を含む時系列のフレームの各々に含まれる３次元点群に対する人体モデルを用いた第１のフィッティング処理に基づいて、フレーム毎に人物の姿勢を推定する。また、姿勢推定装置は、推定された姿勢が第１の姿勢であることが検知された第１のフレームを特定する情報を記憶部に記憶する。また、姿勢推定装置は、第１のフレームより後の第２のフレームから推定された人物の姿勢が第２の姿勢であることが検知された場合、記憶部に記憶した情報から、第１のフレームから第２のフレームに至るまでの各対象フレームを特定する。そして、姿勢推定装置は、各対象フレームについての人物の姿勢の推定結果として、対象フレームに含まれる３次元点群に対する人体モデルを用いた第２のフィッティング処理に基づいて修正した推定結果を用いる。これにより、３次元点群に対する人体モデルのフィッティングにより人物の姿勢を推定する際の推定精度を向上させることができる。

　また、姿勢推定装置は、第１のフィッティング処理では、第１の初期値を用い、第２のフィッティング処理では、第１の初期値とは異なる第２の初期値を用いてもよい。これにより、初期値不良による姿勢推定の精度劣化を抑制することができる。

　また、姿勢推定装置は、第１の初期値を、前フレームの推定結果が示す人物の姿勢を示す値としてもよい。また、姿勢推定装置は、第２の初期値を、第１の初期値が示す姿勢を上下又は左右に反転させた姿勢、予め定めた標準の姿勢、及び第１の初期値が示す姿勢を所定値分変更した姿勢の少なくとも１つの姿勢を示す値としてもよい。これにより、姿勢推定に誤りが生じ易い姿勢の場合でも、他の初期値を用いた推定結果の候補により推定結果を修正することができるため、姿勢推定の精度を向上させることができる。また、第２の初期値を複数用いた場合には、その候補のバリエーションが増えるため、より適切な候補で推定結果を修正することができる。

　また、姿勢推定装置は、第２の姿勢を、精度劣化として予め定めた姿勢とし、第１の姿勢を、精度劣化に至る可能性がある姿勢として予め定めた姿勢としてよい。これにより、発生する可能性がある精度劣化を想定した第２のフィッティング処理を実行することができる。

　なお、上記実施形態に係る姿勢推定装置は、第１の姿勢であるフレームが検知された後の対象フレームについて、第１のフィッティング処理と第２のフィッティング処理とを並列に実行している。すなわち、図２１に示すように、姿勢推定装置は、姿勢推定の精度劣化に至る可能性が検知されると、パターンＡのフィッティング処理と、初期値を変更したパターンＢのフィッティング処理とを、精度劣化が検知されるまで同時に実行している。この場合、精度劣化が検知された段階で、既に取得されている複数の推定結果の候補からいずれかを選択して更新すればよいため、即時に推定結果を更新することができる。

　ただし、上記の例に限定されず、姿勢推定装置は、対象フレームについて、第１のフィッティング処理を実行し、第２のフレームが検知された場合に、対象フレームについて、第２のフィッティング処理を実行するようにしてもよい。すなわち、図２２に示すように、姿勢推定装置は、精度劣化に至る可能性が検知された後もパターンＡのフィッティング処理のみを実行する。そして、姿勢推定装置は、精度劣化が検知された場合に、対象フレームについて、パターンＢで再フィッティング処理を実行し、推定結果の候補からいずれかを選択するようにしてもよい。この場合、精度劣化が検知された段階で再フィッティング処理を実行するため、即時に推定結果を更新することはできないが、精度劣化が検知されない場合には、不要な推定処理を実行しなくてよいため、計算量を削減することができる。

　また、上記実施形態では、体操競技の選手の姿勢を推定する場合を例に説明したが、姿勢推定の対象はこれに限定されない。開示の技術は、水泳の飛び込み、フィギュアスケート、スノーボード、スケートボード等の他の採点競技に適用した場合にも有効である。また、開示の技術は、野球やゴルフのフォームのチェック等にも適用可能である。また、開示の技術は、スポーツに限らず、人物の様々な動作の推定等にも適用可能である。

　また、上記実施形態では、姿勢推定プログラムが記憶装置に予め記憶（インストール）されているが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。

１０   姿勢推定装置
１２   第１推定部
１４   第１検知部
１６   第２推定部
１８   第２検知部
２０   推定結果ＤＢ
３０   ３次元点群
３２   人体モデル
３２Ａ、３２Ｂ       部位モデル
４０   コンピュータ
４１   ＣＰＵ
４２   メモリ
４３   記憶装置
４４   入出力装置
４５   Ｒ／Ｗ装置
４６   通信Ｉ／Ｆ
４７   バス
４９   記憶媒体
５０   姿勢推定プログラム
５２   第１推定プロセス制御命令
５４   第１検知プロセス制御命令
５６   第２推定プロセス制御命令
５８   第２検知プロセス制御命令
６０   情報記憶領域

Claims

　各フレームが人物の３次元点群を含む時系列のフレームの各々に含まれる３次元点群に対する、人物の骨格情報を表す３次元モデルを用いた第１のフィッティング処理に基づいて、前記フレーム毎に人物の姿勢を推定し、
　推定された姿勢が第１の姿勢であることが検知された第１のフレームを特定する情報を記憶部に記憶し、
　前記第１のフレームより後の第２のフレームから推定された前記人物の姿勢が第２の姿勢であることが検知された場合、前記記憶部に記憶した情報から特定される前記第１のフレームから第２のフレームに至るまでの各対象フレームについての人物の姿勢の推定結果として、前記対象フレームに含まれる３次元点群に対する、前記３次元モデルを用いた第２のフィッティング処理に基づいて修正した推定結果を用いる、
　ことを含む処理をコンピュータに実行させるための姿勢推定プログラム。
　前記第１のフィッティング処理は、第１の初期値を用いて、前記３次元点群に対する適合度が最も高くなるように前記３次元モデルをフィッティングさせる処理であり、
　前記第２のフィッティング処理は、前記第１の初期値とは異なる第２の初期値を用いて、前記３次元点群に対する適合度が最も高くなるように前記３次元モデルをフィッティングさせる処理である、
　請求項１に記載の姿勢推定プログラム。
　前記第１の初期値は、前フレームの推定結果が示す人物の姿勢を示す値であり、
　前記第２の初期値は、前記第１の初期値が示す姿勢を上下又は左右に反転させた姿勢、予め定めた標準の姿勢、及び前記第１の初期値が示す姿勢を所定値分変更した姿勢の少なくとも１つの姿勢を示す値である、
　請求項２に記載の姿勢推定プログラム。
　複数の前記第２の初期値の各々を用いて、前記対象フレームについての前記人物の姿勢の推定結果を複数取得し、前記第１の初期値及び複数の前記第２の初期値の各々を用いた場合の複数の推定結果の中で、前記３次元点群に対する前記３次元モデルの適合度が最も高い推定結果を、前記修正した推定結果として選択する請求項２又は請求項３に記載の姿勢推定プログラム。
　前記第１のフレームより後のフレームについて、前記第１のフィッティング処理と前記第２のフィッティング処理とを並列に実行し、
　前記第２のフレームが検知された場合に、前記対象フレームについて、前記第１のフィッティング処理の推定結果及び前記第２のフィッティング処理の推定結果から、前記適合度が最も高い推定結果を選択する、
　請求項４に記載の姿勢推定プログラム。
　前記第１のフレームより後のフレームについて、前記第１のフィッティング処理を実行し、
　前記第２のフレームが検知された場合に、前記対象フレームについて、前記第２のフィッティング処理を実行し、前記第１のフィッティング処理の推定結果及び前記第２のフィッティング処理の推定結果から、前記適合度が最も高い推定結果を選択する、
　請求項４に記載の姿勢推定プログラム。
　前記第２の姿勢は、精度劣化として予め定めた姿勢であり、
　前記第１の姿勢は、前記精度劣化に至る可能性がある姿勢として予め定めた姿勢である、
　請求項１～請求項３のいずれか１項に記載の姿勢推定プログラム。
　前記第１の姿勢は、人物の頭部が脚部より下に位置する上下反転の姿勢、人物の上下方向を軸とした回転を伴う運動が行われた又は行われることを表す左右反転の姿勢、又は、予め定めた条件に該当する不自然な姿勢である請求項７に記載の姿勢推定プログラム。
　前記第２の姿勢は、人物の腰部に対して脚部が背面側へ閾値以上屈折した逆反りの姿勢、人物の腕部の背面側への延伸方向と脚部の背面側への延伸方向との平行度が閾値以上となるＣ型の姿勢、又は、前記３次元モデルとの適合度が閾値以下となる姿勢である請求項７に記載の姿勢推定プログラム。
　各フレームが人物の３次元点群を含む時系列のフレームの各々に含まれる３次元点群に対する、人物の骨格情報を表す３次元モデルを用いた第１のフィッティング処理に基づいて、前記フレーム毎に人物の姿勢を推定する第１推定部と、
　推定された姿勢が第１の姿勢であることが検知された第１のフレームを特定する情報を記憶部に記憶する第１検知部と、
　前記第１のフレームより後の第２のフレームから推定された前記人物の姿勢が第２の姿勢であることが検知された場合、前記記憶部に記憶した情報から特定される前記第１のフレームから第２のフレームに至るまでの各対象フレームについての人物の姿勢の推定結果として、前記対象フレームに含まれる３次元点群に対する、前記３次元モデルを用いた第２のフィッティング処理に基づいて修正した推定結果を用いる第２推定部と、
　を含む姿勢推定装置。
　前記第１のフィッティング処理は、第１の初期値を用いて、前記３次元点群に対する適合度が最も高くなるように前記３次元モデルをフィッティングさせる処理であり、
　前記第２のフィッティング処理は、前記第１の初期値とは異なる第２の初期値を用いて、前記３次元点群に対する適合度が最も高くなるように前記３次元モデルをフィッティングさせる処理である、
　請求項１０に記載の姿勢推定装置。
　前記第１の初期値は、前フレームの推定結果が示す人物の姿勢を示す値であり、
　前記第２の初期値は、前記第１の初期値が示す姿勢を上下又は左右に反転させた姿勢、予め定めた標準の姿勢、及び前記第１の初期値が示す姿勢を所定値分変更した姿勢の少なくとも１つの姿勢を示す値である、
　請求項１１に記載の姿勢推定装置。
　前記第２推定部は、複数の前記第２の初期値の各々を用いて、前記対象フレームについての前記人物の姿勢の推定結果を複数取得し、前記第１の初期値及び複数の前記第２の初期値の各々を用いた場合の複数の推定結果の中で、前記３次元点群に対する前記３次元モデルの適合度が最も高い推定結果を、前記修正した推定結果として選択する請求項１１又は請求項１２に記載の姿勢推定装置。
　前記第１推定部及び前記第２推定部は、前記第１のフレームより後のフレームについて、前記第１のフィッティング処理と前記第２のフィッティング処理とを並列に実行し、
　前記第２推定部は、前記第２のフレームが検知された場合に、前記対象フレームについて、前記第１のフィッティング処理の推定結果及び前記第２のフィッティング処理の推定結果から、前記適合度が最も高い推定結果を選択する、
　請求項１３に記載の姿勢推定装置。
　前記第１推定部は、前記第１のフレームより後のフレームについて、前記第１のフィッティング処理を実行し、
　前記第２推定部は、前記第２のフレームが検知された場合に、前記対象フレームについて、前記第２のフィッティング処理を実行し、前記第１のフィッティング処理の推定結果及び前記第２のフィッティング処理の推定結果から、前記適合度が最も高い推定結果を選択する、
　請求項１３に記載の姿勢推定装置。
　前記第２の姿勢は、精度劣化として予め定めた姿勢であり、
　前記第１の姿勢は、前記精度劣化に至る可能性がある姿勢として予め定めた姿勢である、
　請求項１０～請求項１２のいずれか１項に記載の姿勢推定装置。
　前記第１の姿勢は、人物の頭部が脚部より下に位置する上下反転の姿勢、人物の上下方向を軸とした回転を伴う運動が行われた又は行われることを表す左右反転の姿勢、又は、予め定めた条件に該当する不自然な姿勢である請求項１６に記載の姿勢推定装置。
　前記第２の姿勢は、人物の腰部に対して脚部が背面側へ閾値以上屈折した逆反りの姿勢、人物の腕部の背面側への延伸方向と脚部の背面側への延伸方向との平行度が閾値以上となるＣ型の姿勢、又は、前記３次元モデルとの適合度が閾値以下となる姿勢である請求項１６に記載の姿勢推定装置。
　各フレームが人物の３次元点群を含む時系列のフレームの各々に含まれる３次元点群に対する、人物の骨格情報を表す３次元モデルを用いた第１のフィッティング処理に基づいて、前記フレーム毎に人物の姿勢を推定し、
　推定された姿勢が第１の姿勢であることが検知された第１のフレームを特定する情報を記憶部に記憶し、
　前記第１のフレームより後の第２のフレームから推定された前記人物の姿勢が第２の姿勢であることが検知された場合、前記記憶部に記憶した情報から特定される前記第１のフレームから第２のフレームに至るまでの各対象フレームについての人物の姿勢の推定結果として、前記対象フレームに含まれる３次元点群に対する、前記３次元モデルを用いた第２のフィッティング処理に基づいて修正した推定結果を用いる、
　ことを含む処理をコンピュータが実行する姿勢推定方法。
　各フレームが人物の３次元点群を含む時系列のフレームの各々に含まれる３次元点群に対する、人物の骨格情報を表す３次元モデルを用いた第１のフィッティング処理に基づいて、前記フレーム毎に人物の姿勢を推定し、
　推定された姿勢が第１の姿勢であることが検知された第１のフレームを特定する情報を記憶部に記憶し、
　前記第１のフレームより後の第２のフレームから推定された前記人物の姿勢が第２の姿勢であることが検知された場合、前記記憶部に記憶した情報から特定される前記第１のフレームから第２のフレームに至るまでの各対象フレームについての人物の姿勢の推定結果として、前記対象フレームに含まれる３次元点群に対する、前記３次元モデルを用いた第２のフィッティング処理に基づいて修正した推定結果を用いる、
　ことを含む処理をコンピュータに実行させるための姿勢推定プログラムを記憶した非一時的記憶媒体。