WO2021048988A1

WO2021048988A1 - 骨格認識方法、骨格認識プログラムおよび情報処理装置

Info

Publication number: WO2021048988A1
Application number: PCT/JP2019/035979
Authority: WO
Inventors: 藤本　博昭
Original assignee: 富士通株式会社
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-03-18
Also published as: JPWO2021048988A1; US20220198834A1; JP7367764B2

Abstract

認識装置は、被写体を複数の方向からそれぞれセンシングする複数のセンサそれぞれから、距離画像を取得する。認識装置は、複数のセンサそれぞれから取得された各距離画像と、距離画像から被写体の各関節位置を推定する学習モデルとを用いて、複数のセンサごとに、被写体の各関節位置を含む関節情報を取得する。認識装置は、複数のセンサそれぞれに対応する各関節情報を統合して、被写体の各関節位置に関する３次元座標を含む骨格情報を生成し、被写体の骨格情報を出力する。

Description

骨格認識方法、骨格認識プログラムおよび情報処理装置

　本発明は、骨格認識方法、骨格認識プログラムおよび情報処理装置に関する。

　体操や医療などの幅広い分野において、選手や患者などの人物の骨格を認識することが行われている。例えば、人物までの距離をセンシングする３Ｄ（Three　Dimensions）レーザセンサ（以下、距離センサや深度センサともいう。）が出力する距離画像に基づいて、人物の骨格を認識する装置が利用されている。

　近年では、異なる方向から被写体を撮像する２台の３Ｄレーザセンサと、距離画像から体の部位を示す部位ラベルを付与した部位ラベル画像を認識するランダムフォレストで学習された学習モデルとを用いた装置が知られている。

　例えば、各３Ｄレーザセンサから取得された各距離画像をランダムフォレストで学習された各学習モデルに入力して各部位ラベル画像を取得し、各部位ラベル画像内で各部位の境界付近の画素（境界画素）を特定する。また、各３Ｄレーザセンサから、距離画像の各画素を３軸（ｘ、ｙ、ｚ軸）で表す点に変換した３Ｄ点群データを取得する。続いて、各３Ｄ点群データ上で境界画素に対応する点群を特定し、一方の３Ｄ点群データに座標変換等を行って、２つの３Ｄ点群データを統合した１つの点群データを生成する。そして、２つの部位ラベル画像と点群データとを統合し、各部位ラベル画像内の各境界点群における各重心座標を各関節位置の座標として算出することで、被写体の骨格を認識する。

特開２００９－１５６７１号公報特開２０１３－１２０５５６号公報国際公開第２０１９／０６９３５８号

　しかしながら、上記技術のように、距離画像からランダムフォレストにより得られた各部位ラベル画像を統合する手法では、被写体の骨格の認識精度がよくない。具体的には、各部位ラベルの境界から間接的に関節座標を算出するので、２台の３Ｄレーダセンサを用いても、被写体の一部が隠れるオクルージョンとなっている部分の関節の認識精度を高めることは難しい。

　例えば、体操競技のあん馬を例に、２台のうちの３ＤレーザセンサＡでは左足があん馬の後ろに隠れたオクルージョンが発生し、３ＤレーザセンサＢではオクルージョンが発生していない例で説明する。

　この場合、ランダムフォレストは、画素単位で認識してラベル推定を行うので、オクルージョンが発生している距離画像Ａからは、左足の部位ラベルを認識できず、左足の３Ｄ点群データも取得できない。このため、２つの部位ラベル画像と点群データとを統合すると、左足のデータに関しては、３ＤレーザセンサＢの距離画像Ｂに依存することになる。したがって、例えば距離画像Ａと距離画像Ｂとのずれが大きい場合、左足以外は平均的な位置に関節を認識できるが、左足は距離画像Ｂの情報がそのまま使用されるので、最終的に認識された全身の骨格位置がいびつになる場合がある。つまり、少なくとも一つの関節（例えば左足の膝や足首）の位置を正しく認識できない。

　一つの側面では、骨格の認識精度を向上させることができる骨格認識方法、骨格認識プログラムおよび情報処理装置を提供することを目的とする。

　第１の案では、骨格認識方法は、コンピュータが、被写体を複数の方向からそれぞれセンシングする複数のセンサそれぞれから、距離画像を取得する処理を実行する。骨格認識方法は、コンピュータが、前記複数のセンサそれぞれから取得された各距離画像と、距離画像から被写体の各関節位置を推定する学習モデルとを用いて、前記複数のセンサごとに、前記被写体の各関節位置を含む関節情報を取得する処理を実行する。骨格認識方法は、コンピュータが、前記複数のセンサそれぞれに対応する各関節情報を統合して、前記被写体の各関節位置に関する３次元座標を含む骨格情報を生成し、前記被写体の骨格情報を出力する処理を実行する。

　一つの側面では、骨格の認識精度を向上させることができる。

図１は、実施例１にかかる認識装置を含むシステムの全体構成例を示す図である。図２は、実施例１にかかる学習モデルを用いた関節情報の推定を説明する図である。図３は、実施例１にかかる骨格認識を説明する図である。図４は、実施例１にかかるシステムの機能構成を示す機能ブロック図である。図５は、骨格の定義例を示す図である。図６は、各関節のヒートマップ認識を説明する図である。図７は、３次元の骨格算出イメージを説明する図である。図８は、実施例１にかかる骨格認識処理の流れを示すフローチャートである。図９は、実施例１にかかる座標変換処理の流れを示すフローチャートである。図１０は、実施例１にかかる統合処理の流れを示すフローチャートである。図１１は、３ＤレーザセンサＢで両足を片側に間違えた場合の骨格認識結果を説明する図である。図１２は、３ＤレーザセンサＢで全身が左右反転した場合の骨格認識結果を説明する図である。図１３は、実施例２にかかる骨格認識処理を説明する図である。図１４は、３ＤレーザセンサＢで両足を片側に間違えた場合の実施例２にかかる骨格認識結果を説明する図である。図１５は、３ＤレーザセンサＢで全身が左右反転した場合の実施例２にかかる骨格認識結果を説明する図である。図１６は、実施例２にかかる統合処理の流れを示すフローチャートである。図１７は、センサ間のずれが大きい場合の骨格認識結果を説明する図である。図１８は、実施例３にかかる統合処理を説明する図である。図１９は、実施例３にかかる統合処理の流れを示すフローチャートである。図２０は、ハードウェア構成例を説明する図である。

　以下に、本発明にかかる骨格認識方法、骨格認識プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
　図１は、実施例１にかかる認識装置を含むシステムの全体構成例を示す図である。図１に示すように、このシステムは、３ＤレーザセンサＡとＢ、認識装置５０、採点装置９０を有し、被写体である演技者１の３次元データを撮像し、骨格等を認識して正確な技の採点を行うシステムである。なお、本実施例では、一例として、体操競技における演技者の骨格情報を認識する例で説明する。また、本実施例では、骨格位置の２次元座標や２次元座標の骨格位置を、単に２次元骨格位置などと記載する場合がある。

　一般的に、体操競技における現在の採点方法は、複数の採点者によって目視で行われているが、技の高度化に伴い、採点者の目視では採点が困難な場合が増加している。近年では、３Ｄレーザセンサを使った、採点競技の自動採点システムや採点支援システムが知られている。例えば、これらのシステムにおいては、３Ｄレーザセンサにより選手の３次元データである距離画像を取得し、距離画像から選手の各関節の向きや各関節の角度などである骨格を認識する。そして、採点支援システムにおいては、骨格認識の結果を３Ｄモデルにより表示することで、採点者が演技者の細部の状況を確認するなどにより、より正しい採点を実施することを支援する。また、自動採点システムにおいては、骨格認識の結果から、演技した技などを認識し、採点ルールに照らして採点を行う。

　ここで、採点支援システムや自動採点システムにおいては、随時行われる演技を、タイムリーに採点支援または自動採点することが求められる。しかし、従来のランダムフォレストで学習する手法では、２台の３Ｄレーダセンサを用いても、被写体の一部が隠れるオクルージョンとなっている部分の関節の認識精度が低下することから、採点精度も低下していた。

　例えば、自動採点システムによる自動採点の結果を採点者へ提供し、採点者が自己の採点結果と比較する形態では、従来技術を用いた場合、骨格認識の精度が低下することで、技認識も誤ってしまう可能性があり、結果として技による決定される得点も誤ってしまう。同様に、採点支援システムにおいて、演技者の関節の角度や位置を、３Ｄモデルを使って表示する際にも、表示までの時間が遅延し、表示される角度等が正しくないという事態を生じうる。この場合には、採点支援システムを利用した採点者による採点は、誤った採点となってしまう場合もある。

　以上の通り、自動採点システムや採点支援システムにおける骨格認識の精度低下は、技の誤認識、採点ミスの発生を引き起こし、システムの信頼度の低下を招いてしまう。

　そこで、実施例１にかかるシステムでは、３ＤレーザセンサＡとＢのそれぞれで取得された距離画像から、深層学習（Deep　Learning）等の機械学習技術を用いて直接関節座標を推定することで、オクルージョンが発生している場合であっても、演技者の３次元骨格を高速かつ高精度に認識する。

　まず、図１におけるシステムを構成する各装置について説明する。３ＤレーザセンサＡ（以下では単にセンサＡなど記載する場合がある）は、演技者を前方から撮像するセンサであり、３ＤレーザセンサＢは、演技者を後方から撮像するセンサである。各３Ｄレーザセンサは、赤外線レーザ等を用いて対象物の距離を画素ごとに測定（センシング）するセンサ装置の一例である。距離画像には、各画素までの距離が含まれる。つまり、距離画像は、各３Ｄレーザセンサ（深度センサ）から見た被写体の深度を表す深度画像である。

　認識装置５０は、各３Ｄレーザセンサにより測定された距離画像と学習済みの学習モデルとを用いて、演技者１の各関節の向きや位置等に関する骨格を認識するコンピュータ装置の一例である。具体的には、認識装置５０は、各３Ｄレーザセンサにより測定された距離画像を学習済みの学習モデルに入力し、学習モデルの出力結果に基づいて骨格を認識する。その後、認識装置５０は、認識された骨格を採点装置９０に出力する。なお、本実施例において、骨格認識の結果として得られる情報は、各関節の３次元位置に関する骨格情報である。

　採点装置９０は、認識装置５０により入力された認識結果である骨格情報を用いて、演技者の各関節の位置や向きから得られる動きの推移を特定し、演技者１が演技した技の特定および採点を実行するコンピュータ装置の一例である。

　次に、学習モデルについて説明する。学習モデルは、ニューラルネットワークなどの機械学習を用いたモデルであり、認識装置５０で生成することもでき、認識装置５０と別の装置である学習装置（図示しない）で生成することもできる。なお、３ＤレーザセンサＡ、Ｂそれぞれで撮像される各距離画像を用いて学習された１つの学習モデルを用いることできる。また、３ＤレーザセンサＡ、Ｂそれぞれで撮像される各距離画像を用いて、それぞれのセンサに対応するように学習された２つの学習モデルＡ、Ｂを用いることもできる。

　この学習モデルの学習には、距離画像と当該距離画像における３次元の骨格位置情報とが利用される。例えば、学習装置で生成する例で説明すると、学習装置は、３次元の骨格位置情報から、被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を生成する。より詳細には、学習装置は、演技者を正面から見た正面方向のヒートマップ画像（以下では、正面ヒートマップやｘｙヒートマップなどと記載する場合がある）と演技者を真上から見た真上方向のヒートマップ画像（以下では、真上ヒートマップやｘｚヒートマップなどと記載する場合がある）とを生成する。そして、学習装置は、距離画像を説明変数、距離画像に対応付けられる２方向のヒートマップ画像を目的変数とする訓練データを用いて、学習モデルを学習する。

　実施例１にかかる認識装置５０は、このように学習された学習モデルを用いて、各関節の位置を含む関節情報を推定する。図２は、実施例１にかかる学習モデルを用いた関節情報の推定を説明する図である。図２に示すように、認識装置５０は、各３Ｄレーザセンサにより演技者１の距離画像を取得し、学習済みの学習モデルに距離画像を入力して、２方向の２次元ヒートマップ画像を関節数分認識する。そして、認識装置５０は、各方向の関節数分の２次元ヒートマップ画像から画像上の骨格位置の２次元座標を算出し、各方向の２次元の骨格位置と人領域の重心から、演技者１の各関節の３次元座標を含む関節情報を算出する。

　ここで、図２に示した学習モデルを用いた認識装置５０の骨格認識の処理について説明する。図３は、実施例１にかかる骨格認識を説明する図である。図３に示すように、認識装置５０は、３ＤレーザセンサＡにより撮像された距離画像に対して、フレーム間で動きのない領域を背景として除去する背景差分とノイズ除去を実行して距離画像Ａを生成する。続いて、認識装置５０は、距離画像Ａを学習済みの学習モデルに入力して、距離画像Ａに基づく関節情報Ａ（各関節の３次元座標）を推定する。

　同様に、認識装置５０は、３ＤレーザセンサＢにより撮像された距離画像に対して、背景差分とノイズ除去を実行して距離画像Ｂを生成する。続いて、認識装置５０は、距離画像Ｂを学習済みの学習モデルに入力して、距離画像Ｂに基づく関節情報Ｂを推定する。その後、認識装置５０は、関節情報Ｂの座標系に合わせるように関節情報Ａの座標を変換し、変換後の関節情報Ａと関節情報Ｂとを統合して、演技者１の３次元の骨格位置を示す骨格情報を生成する。

　このように、認識装置５０は、センサ毎に全身の関節座標を含む関節位置を算出し、その後、両センサの座標系を合わせた上で、関節位置を統合することで、最終的な全身の骨格位置を出力する。この結果、オクルージョンが発生している場合であっても、演技者の３次元骨格を高速かつ高精度に認識することができる。

［機能構成］
　図４は、実施例１にかかるシステムの機能構成を示す機能ブロック図である。ここでは、認識装置５０と採点装置９０とについて説明する。

（認識装置５０）
　図４に示すように、認識装置５０は、通信部５１、記憶部５２、制御部５５を有する。通信部５１は、他の装置の間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部５１は、各３Ｄレーザセンサが撮像した距離画像を受信し、認識結果などを採点装置９０に送信する。

　記憶部５２は、データや制御部５５が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部５２は、学習モデル５３、骨格認識結果５４を記憶する。

　学習モデル５３は、機械学習等によって学習された学習済みの学習モデルである。具体的には、学習モデル５３は、距離画像から、各関節に対応する１８枚の正面ヒートマップ画像と１８枚の真上ヒートマップ画像とを予測する学習モデルである。なお、学習モデル５３は、各３Ｄレーザセンサそれぞれに対応するように、各センサの距離画像から各ヒートマップ画像を認識するようにそれぞれ学習された２つの学習モデルであってもよい。また、学習モデル５３は、各３Ｄレーザセンサで撮像される各距離画像から各ヒートマップ画像を認識するように学習された１つの学習モデルであってもよい。

　ここで、各ヒートマップ画像は、骨格モデル上で定義される１８個の各関節に対応するヒートマップ画像である。ここで、１８個の関節は予め定義されている。図５は、骨格の定義例を示す図である。図５に示すように、骨格定義は、公知の骨格モデルで特定される各関節をナンバリングした、１８個（０番から１７番）の定義情報である。例えば、図５に示すように、右肩関節（SHOULDER＿RIGHT）には７番が付与され、左肘関節（ELBOW＿LEFT）には５番が付与され、左膝関節（KNEE＿LEFT）には１１番が付与され、右股関節（HIP＿RIGHT）には１４番が付与される。ここで、実施例では、８番の右肩関節のＸ座標をＸ８、Ｙ座標をＹ８、Ｚ座標をＺ８と記載する場合がある。なお、例えば、Ｚ軸は、３Ｄレーザセンサ５から対象に向けた距離方向、Ｙ軸は、Ｚ軸に垂直な高さ方向、Ｘ軸は、水平方向をと定義することができる。ここで記憶される定義情報は、３Ｄレーザセンサによる３Ｄセンシングによって演技者ごとに測定してもよく、一般的な体系の骨格モデルを用いて定義してもよい。

　骨格認識結果５４は、後述する制御部５５によって認識された演技者１の骨格情報である。例えば、骨格認識結果５４は、撮像された各演技者のフレームと、そのフレームの距離画像から算出された３次元の骨格位置とが対応付けられる情報である。

　制御部５５は、認識装置５０全体を司る処理部であり、例えばプロセッサなどである。この制御部５５は、推定部６０と算出部７０を有し、演技者１の骨格認識を実行する。なお、推定部６０と算出部７０は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

　推定部６０は、距離画像取得部６１、ヒートマップ認識部６２、２次元算出部６３、３次元算出部６４を有し、距離画像から３次元の関節位置を示す関節情報（骨格認識）を推定する処理部である。

　距離画像取得部６１は、各３Ｄレーザセンサから距離画像を取得する処理部である。例えば、距離画像取得部６１は、３ＤレーザセンサＡが撮像した距離画像を取得する。そして、距離画像取得部６１は、取得された距離画像に対して、あん馬等の器具や背景を除去して人の領域だけを残す背景差分と、何もない場所に現れる画素の除去や誤差による人体表面のノイズの平滑化等を行うノイズ除去を行い、その結果で得られる距離画像をヒートマップ認識部６２に出力する。

　このようにして、距離画像取得部６１は、３ＤレーザセンサＡから距離画像Ａを取得し、３ＤレーザセンサＢから距離画像Ｂを取得して、各距離画像をヒートマップ認識部６２に出力する。なお、距離画像取得部６１は、各演技者と距離画像とを対応付けて記憶部５２等に格納することもできる。

　ヒートマップ認識部６２は、学習済みの学習モデル５３を用いて、距離画像からヒートマップ画像を認識する処理部である。例えば、ヒートマップ認識部６２は、ニューラルネットワークを用いた学習済みの学習モデル５３を記憶部５２から読み出す。そして、ヒートマップ認識部６２は、３ＤレーザセンサＡから取得した距離画像Ａを学習モデル５３に入力して、各ヒートマップ画像を取得する。同様に、ヒートマップ認識部６２は、３ＤレーザセンサＢから取得した距離画像Ｂを学習モデル５３に入力して、各ヒートマップ画像を取得する。

　図６は、各関節のヒートマップ認識を説明する図である。図６に示すように、ヒートマップ認識部６２は、距離画像取得部６１から取得した距離画像を、学習済みの学習モデル５３に入力し、出力結果として、１８個の関節それぞれに関する正面ヒートマップ画像と、１８個の関節それぞれに関する真上ヒートマップ画像を取得する。そして、ヒートマップ認識部６２は、このようにして認識した各ヒートマップ画像を、２次元算出部６３に出力する。

　なお、図６に示すように、距離画像は、３Ｄレーザセンサから画素までの距離が含まれるデータであり、３Ｄレーザセンサからの距離が近いほど、濃い色で表示される。また、ヒートマップ画像は、関節ごとに生成され、各関節位置の尤度を可視化した画像であって、最も尤度が高い座標位置ほど、濃い色で表示される。なお、通常、ヒートマップ画像では、人物の形は表示されないが、図６では、説明をわかりやすくするために、人物の形を図示するが、画像の表示形式を限定するものではない。

　２次元算出部６３は、２次元のヒートマップ画像から画像上の骨格を算出する処理部である。具体的には、２次元算出部６３は、３ＤレーザセンサＡとＢのそれぞれに対して、各３Ｄレーザセンサに対応する各ヒートマップ画像を用いて、画像上の各間接（骨格位置）の２次元座標を算出する。すなわち、２次元算出部６３は、３ＤレーザセンサＡの距離画像Ａから認識された各ヒートマップ画像に基づく各関節の２次元座標Ａと、３ＤレーザセンサＢの距離画像Ｂから認識された各ヒートマップ画像に基づく各関節の２次元座標Ｂとを算出して、それぞれの２次元座標ＡとＢを３次元算出部６４に出力する。

　例えば、２次元算出部６３は、１８個の関節に関する正面ヒートマップ画像と１８個の関節に関する真上ヒートマップ画像とを取得する。そして、２次元算出部６３は、各ヒートマップ画像の最高値画素から各関節の位置を特定し、画像上の骨格位置の２次元座標を算出して、３次元算出部６４に出力する。

　つまり、２次元算出部６３は、１８個の関節に関する正面ヒートマップ画像それぞれについて、ヒートマップ画像の最高値の画素を特定して、各関節の画像上の位置を、個別に特定する。そして、２次元算出部６３は、各正面ヒートマップ画像から特定された関節位置を組み合わせて、演技者１を正面から見た場合の１８個の関節位置を特定する。

　同様に、２次元算出部６３は、１８個の関節に関する真上ヒートマップ画像それぞれについて、ヒートマップ画像の最高値の画素を特定して、各関節の画像上の位置を、個別に特定する。そして、２次元算出部６３は、各真上ヒートマップ画像から特定された関節位置を組み合わせて、演技者１を真上から見た場合の１８個の関節位置を特定する。

　このような手法を用いて、２次元算出部６３は、３ＤレーザセンサＡに対応する演技者の骨格位置の２次元座標Ａを用いて、正面から見た場合の１８個の関節位置と真上から見た場合の関節位置を特定して、３次元算出部６４に出力する。また、２次元算出部６３は、３ＤレーザセンサＢに対応する演技者の骨格位置の２次元座標Ｂを用いて、正面から見た場合の１８個の関節位置と真上から見た場合の関節位置を特定して、３次元算出部６４に出力する。

　３次元算出部６４は、正面方向および真上方向の２次元骨格位置と人領域の重心とを用いて、３次元の各関節位置を示す関節情報（骨格認識）を算出する処理部である。具体的には、３次元算出部６４は、３ＤレーザセンサＡの距離画像Ａに基づき算出された関節位置の２次元座標Ａを用いて、３次元の関節情報Ａを算出し、３ＤレーザセンサＢの距離画像Ｂに基づき算出された関節位置の２次元座標Ｂを用いて、３次元の関節情報Ｂを算出する。そして、３次元算出部６４は、３次元座標である各関節情報を算出部７０に出力する。

　ここで、３次元の骨格算出時のイメージについて説明する。図７は、３次元の骨格算出イメージを説明する図である。図７に示すように、本実施例において撮像される距離画像は、演技者の水平方向をｘ軸、垂直方向をｙ軸、奥行き方向をｚ軸とした場合のｘｙ軸方向の距離画像（単に距離画像またはｘｙ距離画像と記載する場合がある）などである。

　また、ヒートマップ認識部６２により認識される１８個の関節に関する正面ヒートマップ画像は、演技者１を正面から見た場合の画像であり、ｘ軸－ｙ軸方向から撮像されるｘｙヒートマップ画像である。また、ヒートマップ認識部６２により認識される１８個の関節に関する真上ヒートマップ画像は、演技者１を真上から見た場合の画像であり、ｘ軸－ｚ軸方向から撮像されるｘｚヒートマップ画像である。

　３次元算出部６４は、距離画像に映る人領域の重心（以下、人重心と記載する場合がある）を算出し、人重心とｘｚヒートマップ画像上の２次元骨格位置とから１８関節分の奥行き値を算出する。そして、３次元算出部６４は、１８関節分の奥行き値とｘｙヒートマップ画像上の２次元骨格位置とを用いて、各関節の３次元の位置情報である関節情報（骨格位置の３次元座標）を算出する。

　例えば、３次元算出部６４は、距離画像取得部６１から演技者の距離画像を取得する。ここで、距離画像には、人が映っている画素が含まれており、各画素には、３Ｄイメージセンサから人（演技者１）までのＺ値が格納されている。Ｚ値とは、距離画像上で人が映っている画素の画素値である。なお、一般的には、距離画像の距離の情報を、ｘ，ｙ，ｚの直交座標の座標軸で表す座標値に変換した値のうち、３Ｄイメージセンサから被写体へ向かう方向であるｚ軸の値をＺ値という。

　そこで、３次元算出部６４は、３Ｄイメージセンサからの距離が閾値未満であり、画素値が一定値以上である各画素を特定する。つまり、３次元算出部６４は、距離画像上で演技者１を特定する。そして、３次元算出部６４は、特定した各画素の画素値の平均値を人領域の重心として算出する。

　続いて、３次元算出部６４は、人領域の重心と演技者１を真上から見た画像である真上画像上の２次元の骨格位置とを用いて、１８関節分の奥行き値を算出する。例えば、３次元算出部６４は、ヒートマップ認識部６２から取得した１８個の関節に関する各真上ヒートマップ画像（ｘｚヒートマップ画像）から、画素値が一定値以上である各画素を特定し、画像上で演技者が映っている領域を特定する。そして、３次元算出部６４は、各ｘｙヒートマップ画像上で特定された人領域の２次元座標（ｘ，ｚ）を算出する。

　ここで、距離画像は、人の重心が画像の中心にくるように、例えば１ピクセル＝１０ｍｍとなるように作成される。したがって、３次元算出部６４は、各ｘｙヒートマップ画像上で特定された人領域の２次元座標（ｘ，ｚ）のｚ値が距離画像の中心からどれだけ離れているかにより、３次元空間中のＺ値を算出することができる。例えば、３次元算出部６４は、画像サイズを（３２０，３２０）、画像中心を（１６０，１６０）、人領域の重心を６０００ｍｍ、頭のｚ値を２００とする例で説明すると、３次元空間中のＺ値を「（２００－１６０）×１０＋６０００＝６４００ｍｍ」と算出する。

　その後、３次元算出部６４は、１８関節分の奥行き値と、ヒートマップ認識部６２により認識されたｘｙヒートマップ画像上の２次元骨格位置とを用いて、演技者１の骨格位置の３次元座標を算出する。例えば、３次元算出部６４は、１８関節分の奥行き値である３次元空間中のＺ値を取得し、上記手法を用いて、ｘｙヒートマップ画像から画像上の（ｘ，ｙ）の２次元座標を算出し、２次元座標（ｘ，ｙ）から３次元空間中のベクトルを算出する。

　例えば、３Ｄレーザセンサのような３次元センサで撮像された距離画像は、センサ原点から各画素を通る３次元ベクトル情報を有していることから、この情報を用いることにより、各画素に写っている物体の３次元座標値が算出できる。そして、３次元算出部６４は、ｘｙヒートマップ画像に（ｘ，ｙ）座標の３次元ベクトルを（ｎｏｒｍＸ，ｎｏｒｍＹ，ｎｏｒｍＺ）、その座標のＺ値を「ｐｉｘｅｌＺ」とすると、式（１）を用いることにより、（ｘ，ｙ）座標に映っている物体（演技者１）の（Ｘ，Ｙ，Ｚ）を算出することができる。このようにして、３次元算出部６４は、各画素に写っている物体、すなわち演技者１の各関節の３次元座標（Ｘ，Ｙ，Ｚ）を算出する。

　上述した手法を用いて、３次元算出部６４は、３ＤレーザセンサＡの距離画像Ａに基づいて、演技者１の各関節の３次元座標である関節情報Ａを算出するとともに、３ＤレーザセンサＢの距離画像Ｂに基づいて、演技者１の各関節の３次元座標である関節情報Ｂを算出する。そして、３次元算出部６４は、関節情報Ａと関節情報Ｂとを、算出部７０に出力する。

　図４に戻り、算出部７０は、座標変換部７１と統合部７２を有し、３次元算出部６４により算出された２つの関節情報を用いて、演技者１の３次元の骨格位置を算出する処理部である。

　座標変換部７１は、３Ｄレーザセンサの片方の座標系をもう片方の座標系に合わせるための座標変換を実行する処理部である。なお、統一する座標系を基準座標系とも呼ぶ。具体的には、座標変換部７１は、センサ設置時に予めキャリブレーションを行って算出しておいたアフィン変換パラメータを用いて片方のセンサの座標系をもう片方の座標系に合わせる処理を行う。この例では片方の座標系をもう片方に一致させる例を示しているが、どちらのセンサの座標系とも異なる新たな座標系に合わせる場合は両方のセンサの結果に対し、座標変換を適用する。

　ここで、入力座標（ｘ，ｙ，ｚ）に対して、ｘ軸まわりの回転、ｙ軸まわりの回転、ｚ軸まわりの回転、平行移動それぞれの行列を乗算することによって座標変換を行う例を説明する。式（２）によりｘ軸まわりの回転を定義し、ここでＲ_ｘ（θ）を式（３）と定義する。同様に、式（４）によりｙ軸まわりの回転を定義し、ここでＲ_ｙ（θ）を式（５）と定義する。また、式（６）によりｚ軸まわりの回転を定義し、ここでＲ_ｚ（θ）を式（７）と定義し、式（８）により平行移動を定義し、ここでＴを式（９）と定義する。なお、ｘ軸中心回転角度を表すθ_ｘｒｏｔ、ｙ軸中心回転角度を表すθ_ｙｒｏｔ、ｚ軸中心回転角度を表すθ_ｚｒｏｔ、ｘ軸平行移動を表すｔ_ｘ、ｙ軸平行移動を表すｔ_ｙ、ｚ軸平行移動を表すｔ_ｚとなる。

　このように、座標変換部７１は、上述した順に変換することで、式（１０）と式（１１）を用いるアフィン変換行列を変換と等価の変換を実行することができる。

　そして、座標変換部７１は、３ＤレーザセンサＡに対応する演技者１の３次元骨格である関節情報Ａに対して、上述した座標変換を行って、３ＤレーザセンサＢに対応する関節情報Ｂと同じ座標系に変換する。その後、座標変換部７１は、座標変換後の関節情報Ａを統合部７２に出力する。

　統合部７２は、関節情報Ａと関節情報Ｂとを統合して、演技者１の３次元の骨格情報を算出する処理部である。具体的には、統合部７２は、図５に示す１８個の各関節について、関節情報Ａと関節情報Ｂとの平均値を算出する。例えば、統合部７２は、図５に示す関節番号３のＨＥＡＤについて、関節情報Ａに含まれるＨＥＡＤの３次元座標と関節情報Ｂに含まれるＨＥＡＤの３次元座標との平均値を、最終的な関節位置として算出する。

　このように、統合部７２は、各関節の平均値を、演技者１の最終的な３次元の骨格情報として算出する。そして、統合部７２は、算出した骨格情報を採点装置９０に送信する。なお、採点装置９０には、各関節の３次元座標とともに、フレーム番号や時刻情報などの情報が対応付けて、出力されても良い。

　図４に戻り、採点装置９０は、通信部９１、記憶部９２、制御部９４を有する。通信部９１は、認識装置５０から演技者の骨格情報（３次元の骨格位置情報）を受信する。

　記憶部９２は、データや制御部９４が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部９２は、技情報９３を記憶する。技情報９３は、例えばあん馬の技に関する情報であり、技の名前、難易度、得点、各関節の位置、関節の角度、採点ルールなどを対応付けた情報である。

　制御部９４は、採点装置９０全体を司る処理部であり、例えばプロセッサなどである。この制御部９４は、採点部９５と出力制御部９６とを有し、認識装置５０により認識された演技者１の骨格情報にしたがって、技の採点などを行う。

　採点部９５は、演技者の技の採点を実行する処理部である。具体的には、採点部９５は、認識装置５０から随時送信される３次元の骨格位置と、技情報９３とを比較して、演技者１が演技した技の採点を実行する。そして、採点部９５は、採点結果を出力制御部９６に出力する。

　例えば、採点部９５は、演技者１が演技している技の関節情報を技情報９３から特定する。そして、採点部９５は、予め定められた技の関節情報と、認識装置５０から取得した３次元の骨格位置とを比較し、誤差の大きさ等により、演技者１の技の正確性や減点項目などを抽出して、技の採点を行う。なお、技の採点方法は、これに限定されるものではなく、予め定めた採点ルールにしたがって採点される。

　出力制御部９６は、採点部９５の採点結果などをディスプレイ等に表示する処理部である。例えば、出力制御部９６は、認識装置５０から、各３Ｄレーザセンサによる撮像された距離画像、算出部７０により算出された３次元の骨格情報、演技者１が演技中の各画像データ、採点結果などの各種情報を取得して、所定の画面に表示する。

［処理の流れ］
　次に、上述したシステムで実行される各処理について説明する。ここでは、骨格認識処理、座標変換処理、統合処理のそれぞれについて説明する。

（骨格認識処理）
　図８は、実施例１にかかる骨格認識処理の流れを示すフローチャートである。図８に示すように、認識装置５０の推定部６０は、３ＤレーザセンサＡから距離画像Ａを取得し（Ｓ１０１）、距離画像Ａに対して背景差分やノイズ除去を実行する（Ｓ１０２）。

　続いて、推定部６０は、学習モデル５３を用いたヒートマップ認識、２次元座標の算出、３次元座標の算出などを実行して、演技者１の関節情報Ａを推定する（Ｓ１０３）。そして、算出部７０は、もう片方の座標系に合わせるために、推定された関節情報Ａの座標変換を実行する（Ｓ１０４）。

　上記処理と並行して、認識装置５０の推定部６０は、３ＤレーザセンサＢから距離画像Ｂを取得し（Ｓ１０５）、距離画像Ｂに対して背景差分やノイズ除去を実行する（Ｓ１０６）。続いて、推定部６０は、学習モデル５３を用いたヒートマップ認識、２次元座標の算出、３次元座標の算出などを実行して、演技者１の関節情報Ｂを推定する（Ｓ１０７）。

　その後、算出部７０は、関節情報Ａと関節情報Ｂとを統合して、各関節の３次元座標を生成し（Ｓ１０８）、生成した各関節の３次元座標を骨格認識結果として出力する（Ｓ１０９）。

（座標変換処理）
　図９は、実施例１にかかる座標変換処理の流れを示すフローチャートである。この処理は、図８のＳ１０４で実行される処理である。

　図９に示すように、認識装置５０の算出部７０は、１つの関節情報に含まれるある関節の関節座標を読み出し（Ｓ２０１）、もう１台の３Ｄレーザセンサの座標系へ変換する（Ｓ２０２）。そして、算出部７０は、すべての関節について処理が完了するまで（Ｓ２０３：Ｎｏ）、Ｓ２０１以降を繰り返し、すべての関節について処理が完了すると（Ｓ２０３：Ｙｅｓ）、変換された全間接の座標を、座標変換後の関節情報として出力する（Ｓ２０４）。

　例えば、算出部７０による座標変換は、各センサの点群を統合後座標系に変換するための回転・平行移動パラメータを用いて行われる。センサ設置時にキャリブレーションを行い、Ｘ軸中心回転角度、Ｙ軸中心回転角度、Ｚ軸中心回転角度、Ｘ軸平行移動、Ｙ軸平行移動、Ｚ軸平行移動、回転と平行移動の順序などのパラメータを求めることによりアフィン変換行列が決定し、関節のＸＹＺ座標を変換することができる。

（統合処理）
　図１０は、実施例１にかかる統合処理の流れを示すフローチャートである。この処理は、図８のＳ１０８で実行される処理である。

　図１０に示すように、算出部７０は、各センサの距離画像から推定された各関節情報からある関節の各関節座標を読み出し（Ｓ３０１）、各関節座標の平均値を関節位置として算出する（Ｓ３０２）。

　そして、算出部７０は、すべての関節について関節位置を算出するまで（Ｓ３０３：Ｎｏ）、Ｓ３０１以降を繰り返し、すべての関節について関節位置を算出すると（Ｓ３０３：Ｙｅｓ）、算出した全関節の座標を骨格位置（３次元の骨格情報）として出力する（Ｓ３０４）。

［効果］
　上述したように、認識装置５０は、演技者１を複数の方向からそれぞれセンシングする複数の３Ｄレーザセンサそれぞれから、距離画像を取得する。そして、認識装置５０は、複数の３Ｄレーザセンサそれぞれの距離画像と、距離画像から人間の関節位置を得るための学習モデルに基づき、演技者１の仮骨格情報を、複数の３Ｄレーザセンサごとに取得する。その後、認識装置５０は、複数の３Ｄレーザセンサそれぞれの演技者１の仮骨格情報を統合して、演技者１の骨格情報を生成する。

　このように、認識装置５０は、演技者１の前後に設置した２つの３Ｄレーザセンサで各々センシングした結果を踏まえて、骨格認識結果を生成することができる。したがって、関節位置を直接的に推定して骨格情報を生成することができるので、従来のランダムフォレストのように、関節位置を間接的に推定する手法と比較すると、距離画像から１８関節の位置情報を予測することができ、１つの関節にオクルージョンが発生している場合であっても、残りの１７関節の位置情報の関係性から、１８個すべての関節の位置情報を予測することができる。さらに、方向が異なる２つの関節の位置情報を統合することで、１方向のみの位置情報を用いるよりも骨格の認識精度を向上させることができる。

　ところで、実施例１による手法では、平均により各関節情報の統合を行うので、片方が間違えると何もない空間の座標が関節座標として算出され、骨格の認識精度が低下する場合がある。例えば、正立や倒立している場合は、３Ｄの形状だけでは前後の判別が難しく、左右（もしくは前後）が反転して認識されることがあり、片方だけ反転した場合は人の形とはかけ離れた結果となる場合がある。

　ここで、図１１と図１２を用いて、骨格の認識精度が低下する例を説明する。ここでは、説明を分かりやすくするために、距離画像を用いて推定された関節情報については、各関節情報に含まれる各関節をプロットした骨格位置（骨格認識結果）を用いて説明する。

　図１１は、３ＤレーザセンサＢで両足を片側に間違えた場合の骨格認識結果を説明する図である。図１１に示すように、センサＡの距離画像Ａを用いて認識された骨格認識結果Ａは、両手、両足ともに正しく認識されている。一方で、センサＢの距離画像Ｂを用いて認識された骨格認識結果Ａは、右足と左足とが同じ位置に認識されており、間違った認識結果となっている。このような認識結果を実施例１の手法により統合すると、各関節の座標の平均値により各関節位置を決定するので、右足の位置が左足寄りになり、正しい骨格位置とならず、骨格情報の認識精度が低下する。

　図１２は、３ＤレーザセンサＢで全身が左右反転した場合の骨格認識結果を説明する図である。図１２に示すように、センサＡの距離画像Ａを用いて認識された骨格認識結果Ｂは、両手、両足ともに正しく認識されている。一方で、センサＢの距離画像Ｂを用いて認識された骨格認識結果Ｂは、右手と左手とが左右逆転するとともに、右足と左足とが左右逆転した位置に認識されており、間違った認識結果となっている。このような認識結果を実施例１の手法により統合すると、各関節の座標の平均値により各関節位置を決定するので、両足が同じ位置に位置し、両手が同じ位置に位置する骨格位置となり、骨格情報の認識精度が低下する。

　そこで、実施例２では、前フレームの統合結果を保持しておき、現フレームの統合の際に、前フレームの統合結果を利用することで片方が誤っていた場合の精度を向上させる。なお、フレームとは、演技者１の演技を撮像した各画像フレームの一例を示し、前フレームとは、現在処理対象とする画像フレームの直前のフレームの一例である。また、前フレームの統合結果とは、現在処理対象とする距離画像の１つ前の距離画像を用いて、最終的に取得された骨格認識結果の一例である。

　図１３は、実施例２にかかる骨格認識処理を説明する図である。図１３に示す処理のうち、骨格統合までの処理は実施例１と同様の処理なので、詳細な説明は省略する。実施例２では、認識装置５０は、前フレームの結果を保存しておき、現フレームについて各センサからの距離画像に基づく関節情報を統合する際に、前フレームの統合結果を読み出す。

　そして、認識装置５０は、関節ごとに、各関節情報のうち前フレームに近い方の関節を選択する。例えば、認識装置５０は、関節情報Ａに含まれる左手の３次元座標Ａと、関節情報Ｂに含まれる左手の３次元座標Ｂとのうち、前フレームの骨格認識結果に含まれる左手の３次元座標Ｃに近い方の３次元座標を選択する。このように、認識装置５０は、現フレームの統合時に、関節情報Ａと関節情報Ｂに含まれる各関節のうち、前フレームにおける骨格認識結果に近い方を選択して、最終的な３次元の骨格情報を生成する。このよう結果、実施例１と比較して、認識装置５０は、認識を誤った関節を除外して統合結果を生成することができるので、骨格情報の認識精度の低下を抑制することができる。

　図１４は、３ＤレーザセンサＢで両足を片側に間違えた場合の実施例２にかかる骨格認識結果を説明する図である。図１４に示すように、センサＡの距離画像Ａを用いて認識された骨格認識結果Ａは、両手、両足ともに正しく認識されている。一方で、センサＢの距離画像Ｂを用いて認識された骨格認識結果Ｂは、右足が左足と同じ位置に認識されており、間違った認識結果となっている。

　この状態で、認識装置５０は、１８個の各関節について、センサＡの骨格認識結果である関節情報ＡとセンサＢの骨格認識結果である関節情報Ｂのうち、前フレームの骨格認識結果に近い方の関節情報を選択する。例えば、図１４の例では、認識装置５０は、頭、背骨、左足についてはセンサＢの関節情報Ｂを選択するが、両手と右足については、センサＡの関節情報Ａを選択する。つまり、関節情報Ｂにおいて誤認識されている右足と前フレームの骨格認識結果との差分は、関節情報Ａにおいて正確に認識されている右足と前フレームの骨格認識結果との差分より大きくなるので、認識装置５０は、関節情報Ａの右足の座標を選択することができ、正確な骨格情報を認識することができる。

　図１５は、３ＤレーザセンサＢで全身が左右反転した場合の実施例２にかかる骨格認識結果を説明する図である。図１５に示すように、センサＡの距離画像Ａを用いて認識された骨格認識結果Ａは、両手、両足ともに正しく認識されている。一方で、センサＢの距離画像Ｂを用いて認識された骨格認識結果Ｂは、右手と左手とが左右逆転するとともに、右足と左足とが左右逆転した位置に認識されており、間違った認識結果となっている。

　この状態で、認識装置５０は、１８個の各関節について、センサＡの骨格認識結果である関節情報ＡとセンサＢの骨格認識結果である関節情報Ｂのうち、前フレームの骨格認識結果に近い方の関節情報を選択する。例えば、図１５の例では、認識装置５０は、頭、背骨、骨盤についてはセンサＢの関節情報Ｂが選択され、両手と両足についてはセンサＡの関節情報Ａが選択される。つまり、関節情報Ｂにおいて誤認識されている両手、両足については、前フレームと全く異なる方向に認識されており、その差分も非常に大きくなるので、認識装置５０は、関節情報Ａの両手および両足の座標を選択することができ、正確な骨格情報を認識することができる。

　図１６は、実施例２にかかる統合処理の流れを示すフローチャートである。図１６に示すように、認識装置５０は、１関節について両センサの認識結果を前フレームと比較し（Ｓ４０１）、前フレームに近い方の関節座標を選択する（Ｓ４０２）。

　そして、認識装置５０は、すべての関節について関節座標の選択が完了するまで（Ｓ４０３：Ｎｏ）、Ｓ４０１以降を繰り返し、すべての関節について関節座標を選択すると（Ｓ４０３：Ｙｅｓ）、選択した全関節の座標を骨格位置として出力する（Ｓ４０４）。

　ところで、実施例２による手法では、キャリブレーションずれやセンサ歪みにより座標変換後の各骨格のずれが大きい場合、統合後に正しい骨格が得られない場合がある。例えば、真っ直ぐな関節が曲がっているように見えたり、フレーム毎に選択されるセンサが変わり振動しているように見えたりする。

　図１７は、センサ間のずれが大きい場合の骨格認識結果を説明する図である。実施例２と同様、ここでは、説明を分かりやすくするために、距離画像を用いて推定された関節情報については、各関節情報に含まれる各関節をプロットした骨格位置を用いて説明する。

　図１７に示すように、センサＡの距離画像Ａを用いて認識された骨格認識結果Ａも、センサＢの距離画像Ｂを用いて認識された骨格認識結果Ｂも、正しい方向で認識されている。しかし、図１７に示すように、骨格認識結果Ａは、前フレームの骨格認識結果よりも全体的に右にずれており、骨格認識結果Ｂは、前フレームの骨格認識結果よりも全体的に左にずれており、骨格認識結果Ａと骨格認識結果Ｂとのずれが大きい。このような認識結果を実施例２の手法により統合すると、互いにずれた骨格認識結果Ａ、Ｂから各関節の座標を選択する事になる。よって、実施例２は、キャリブレーションずれやセンサ歪みにより座標変換後の各骨格のずれが大きい場合には、骨格認識結果Ａ、骨格認識結果Ｂの前フレームとのずれがそれぞれ同程度の場合は、関節毎に選択される骨格認識結果(Ａ／Ｂ)が異なるいびつな形の骨格認識結果となる場合がある。

　そこで、実施例３では、両方のセンサ結果が前フレームとの距離が閾値未満で近い場合には、平均値を関節位置に決定し、両方のセンサ結果が前フレームとの距離が閾値以上で遠い場合は、前フレームに近い方を関節位置に選択することで、骨格の認識精度を向上させる。なお、前フレームに近い方の関節位置を選択する場合、平均を取った関節の各センサからのずれを示す値を用いて、選択した関節位置を補正した上で、最終的な関節位置を決定することもできる。

　図１８は、実施例３にかかる統合処理を説明する図である。図１８では、図１７と同様、センサＡの骨格認識結果ＡとセンサＢの骨格認識結果Ｂとのずれが大きい例を示している。この状態で、右足以外の関節の骨格認識結果Ａと骨格認識結果Ｂとのそれぞれにおける右足以外の間接位置が、前フレームとの差分が閾値未満であり、右足の位置については、前フレームとの差分が閾値以上とする。この場合、認識装置５０は、右足以外の関節についてはセンサＡの骨格認識結果ＡとセンサＢの骨格認識結果Ｂとの平均値を関節位置に決定し、右足についてはセンサＡの骨格認識結果ＡとセンサＢの骨格認識結果Ｂとのうち前フレームに近い方の座標を関節位置に決定する。

　図１９は、実施例３にかかる統合処理の流れを示すフローチャートである。ここでは、前フレームに近い方の関節位置を選択した場合に、平均を取った関節の各センサからのずれを示す値を用いて、選択した関節位置を補正する処理を組み込んだ例で説明する。

　図１９に示すように、認識装置５０は、１関節について両センサの骨格認識結果を前フレームと比較し（Ｓ５０１）、両方とも閾値未満か否かを判定する（Ｓ５０２）。

　そして、認識装置５０は、両方ともが閾値未満の場合（Ｓ５０２：Ｙｅｓ）、両センサ平均を関節座標として算出する（Ｓ５０３）。続いて、認識装置５０は、平均を算出した関節について、平均値と各骨格認識結果との差分を算出する（Ｓ５０４）。

　一方、認識装置５０は、いずれかが閾値以上である場合（Ｓ５０２：Ｎｏ）、前フレームに近い方の関節座標を選択する（Ｓ５０５）。

　その後、すべての関節について処理が完了するまで（Ｓ５０６：Ｎｏ）、Ｓ５０１以降を繰り返し、すべての関節についての処理が完了すると（Ｓ５０６：Ｙｅｓ）、認識装置５０は、平均を取った関節について、各センサの平均値の差分からセンサ全体の差分平均を算出する（Ｓ５０７）。

　そして、認識装置５０は、前フレームに近い方の関節について、センサ全体の差分平均を用いて座標を補正する（Ｓ５０８）。その後、認識装置５０は、算出した全関節の座標を骨格認識結果として出力する（Ｓ５０９）。

　ここで、前フレームに近いとして選択された座標の補正について詳細に説明する。認識装置５０は、平均を取った関節（補正後の関節）に対し、各センサの補正前の骨格認識結果との座標差分を取得し、センサ毎の補正前後の差分平均を算出する。例えば、認識装置５０は、以下のような式で算出する。なお、差分の算出は、ｘｙｚ座標の差である。

　センサＡの差分＝補正後の座標－センサＡの補正前の座標
　センサＢの差分＝補正後の座標－センサＢの補正前の座標
　センサＡの平均差分＝（各関節のセンサＡの差分の和）／（センサＡの平均を取った関節数）
　センサＢの平均差分＝（各関節のセンサＢの差分の和）／（センサＢの平均を取った関節数）

　その後、認識装置５０は、前フレームに近いとして選択された関節に対して、上記平均差分の算出結果を用いて、以下の式のように補正する。

　（センサＡの座標が選択された場合）センサＡの補正後の関節＝センサＡの補正前の座標＋センサＡの平均差分
　（センサＢの座標が選択された場合）センサＢの補正後の関節＝センサＢの補正前の座標＋センサＢの平均差分

　このようにすることで、片方のセンサを選択した関節についても平均した関節と同じだけシフトさせる事ができ、正しい位置に関節が接続された骨格を認識することができる。なお、両方のセンサ結果が前フレームとの距離が閾値未満で近い場合には、平均値を関節位置に決定する例を説明したが、いずれか一方が近い場合に平均値を算出し、いずれも遠い場合に前フレームに近い方を関節位置に選択することもできる。

　さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［適用例］
　上記実施例では、体操競技を例にして説明したが、これに限定されるものではなく、選手が一連の技を行って審判が採点する他の競技にも適用することができる。他の競技の一例としては、フィギュアスケート、新体操、チアリーディング、水泳の飛び込み、空手の型、モーグルのエアーなどがある。また、スポーツに限らず、トラック、タクシー、電車などの運転手の姿勢検出やパイロットの姿勢検出などにも適用することができる。

［骨格情報］
　また、上記実施例では、１８個の各関節の位置を学習する例を説明したが、これに限定されるものではなく、１個以上の関節を指定して学習することもできる。また、上記実施例では、骨格情報の一例として各関節の位置を例示して説明したが、これに限定されるものではなく、各関節の角度、手足の向き、顔の向きなど、予め定義できる情報であれば、様々な情報を採用することができる。

　また、実施例１では、一方の関節位置の座標系に合うように、もう片方の関節位置に座標変換を行う例を説明したが、これに限定されるものではない。例えば、２つの座標系とは異なる別の座標系になるように、両方の関節位置の座標系を変換して統合することもできる。また、実施例２では、現フレームより１つ前の直前のフレームの骨格認識結果を用いる例を説明したが、直前に限らず、現フレームより前であればよい。

［数値や方向等］
　上記実施例で用いた数値などがあくまで一例であり、実施例を限定するものではなく、任意に設定変更することができる。また、上記実施例では、２方向のヒートマップ画像を例示して説明したが、これに限定されるものではなく、３方向以上のヒートマップ画像を対象とすることもできる。また、各３Ｄレーザセンサの設置位置や数も一例であり、異なる方向であれば、任意の方向に設置することができる。

［学習モデル］
　上記学習済みの学習モデルには、ニューラルネットワークなどの学習アルゴリズムを採用することができる。また、上記実施例では、正面ヒートマップ画像と真上ヒートマップ画像とを認識する学習モデルを例示したが、これに限定されるものではない。例えば、正面ヒートマップ画像と視差ヒートマップ画像とを認識する学習モデルを採用することもできる。

　正面方向のヒートマップ画像は、入力に与える距離画像そのものの視点（基準視点）のヒートマップ画像である。視差ヒートマップ画像は、基準視点に対して任意の数値分平行移動および回転させた位置に仮定した仮想視点のヒートマップ画像である視差位置からのヒートマップ画像である。

　なお、「正面」は実施例１と変わらず入力に与える距離画像そのものの視点であり、これを基準に考えて、「視差位置」の「正面」に対する相対的な位置関係として、回転行列は、変化なし（＝Ｘ,Ｙ,Ｚ軸どれに対しても回転０°）となり、平行移動は、「正面」から真横方向に移動した位置βとなる。なお、βは、学習時にどれだけ真横に移動した位置のヒートマップを学習させたかに依存するので、例えば、視差位置を正面に対してＸ軸正方向に１００ｍｍ移動した位置を仮定してヒートマップを学習させた場合、平行移動は［１００，０，０］となる。すなわち、平行移動［１００，０，０］、回転［０，０，０］となる。

　また、上記実施例では、距離画像から各種ヒートマップ画像を認識する学習モデルを用いた例を説明したが、これに限定されるものではない。例えば、距離画像から１８個の関節位置を直接推定するように学習された、ニューラルネットワークを適用した学習モデルを採用することもできる。

［仮想視点の相対的な位置関係を示す情報］
　上記実施例では、基準視点のヒートマップ画像と、基準視点に対して任意の数値分平行移動、回転させた位置に仮定した仮想視点のヒートマップ画像とを使用して３次元の骨格位置を算出する例を説明したが、仮想視点の相対的な位置関係を示す情報であれば他の情報を用いることもでき、任意に設定した回転行列の値や平行移動を用いることができる。ここで、片方の仮想視点の座標系Ａを基準に、もう一方の仮想視点の座標系Ｂを座標系Ａと一致させるために必要な情報が、平行移動［Ｘ，Ｙ，Ｚ］と回転行列である。

　実施例１の場合、「正面」は入力に与える距離画像そのものの視点で、これを基準に考えて、「真上」の「正面」に対する相対的な位置関係として、回転行列は、Ｘ軸に－９０度回転となり、平行移動は、Ｚ軸方向に距離画像から得られる重心のＺ値、Ｙ軸方向に距離画像から得られる重心のＹ値＋αとなる。なお、αは、学習時にどの視点のヒートマップを学習したかに依存するので、例えば、学習時に真上ヒートマップ画像を人領域の重心の真上５７００ｍｍ位置から見たヒートマップ画像として学習させた場合、α＝５７００ｍｍとなる。すなわち、実施例１では、平行移動［０，α，重心Ｚ］、回転［－９０，０，０］となる。

［システム］
　上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、各３Ｄレーザセンサは、各装置に内蔵されていてもよく、各装置の外部装置として通信等で接続されていてもよい。なお、距離画像取得部６１は、距離画像を取得する取得部の一例であり、ヒートマップ認識部６２、２次元算出部６３、３次元算出部６４は、前記被写体の各関節位置を含む関節情報を取得する取得部の一例である。算出部７０は、生成部と出力部の一例である。

　さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
　次に、認識装置５０や採点装置９０などのコンピュータのハードウェア構成について説明する。図２０は、ハードウェア構成例を説明する図である。図２０に示すように、コンピュータ１００は、通信装置１００ａ、ＨＤＤ（Hard　Disk　Drive）１００ｂ、メモリ１００ｃ、プロセッサ１００ｄを有する。また、図２０に示した各部は、バス等で相互に接続される。

　通信装置１００ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１００ｂは、図４に示した機能を動作させるプログラムやＤＢを記憶する。

　プロセッサ１００ｄは、図４に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１００ｂ等から読み出してメモリ１００ｃに展開することで、図４等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、認識装置５０や採点装置９０が有する各処理部と同様の機能を実行する。具体的には、認識装置５０を例にすると、プロセッサ１００ｄは、推定部６０と算出部７０等と同様の機能を有するプログラムをＨＤＤ１００ｂ等から読み出す。そして、プロセッサ１００ｄは、推定部６０と算出部７０等と同様の処理を実行するプロセスを実行する。なお、学習装置１０についても同様のハードウェア構成を用いて処理することができる。

　このように認識装置５０または採点装置９０は、プログラムを読み出して実行することで認識方法または採点方法を実行する情報処理装置として動作する。また、認識装置５０または採点装置９０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、認識装置５０または採点装置９０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

　５０　認識装置
　５１　通信部
　５２　記憶部
　５３　学習モデル
　５４　骨格認識結果
　５５　制御部
　６０　推定部
　６１　距離画像取得部
　６２　ヒートマップ認識部
　６３　２次元算出部
　６４　３次元算出部
　７０　算出部
　７１　座標変換部
　７２　統合部

Claims

　コンピュータが、
　被写体を複数の方向からそれぞれセンシングする複数のセンサそれぞれから、距離画像を取得し、
　前記複数のセンサそれぞれから取得された各距離画像と、距離画像から被写体の各関節位置を推定する学習モデルとを用いて、前記複数のセンサごとに、前記被写体の各関節位置を含む関節情報を取得し、
　前記複数のセンサそれぞれに対応する各関節情報を統合して、前記被写体の各関節位置に関する３次元座標を含む骨格情報を生成し、
　前記被写体の骨格情報を出力する、
　処理を実行することを特徴とする骨格認識方法。
　前記生成する処理は、前記複数のセンサそれぞれの座標系から基準座標系に前記各関節情報を座標変換し、座標変換後の前記各関節情報を統合して、前記被写体の骨格情報を生成することを特徴とする請求項１に記載の骨格認識方法。
　前記生成する処理は、前記被写体の各関節位置として、前記複数のセンサそれぞれに対応する各関節情報に含まれる３次元座標の平均値を算出して、前記被写体の骨格情報を生成することを特徴とする請求項１に記載の骨格認識方法。
　前記生成する処理は、前記被写体の各関節位置として、前記複数のセンサそれぞれに対応する各関節情報に含まれる３次元座標のうち、現在処理対象とする距離画像より以前に取得された距離画像を用いて生成された骨格情報との距離が近い方の関節位置を選択して、前記被写体の骨格情報を生成することを特徴とする請求項１に記載の骨格認識方法。
　前記生成する処理は、前記被写体の各関節位置として、前記複数のセンサそれぞれに対応する各関節情報に含まれる各３次元座標と、現在処理対象とする距離画像より以前に取得された距離画像を用いて生成された骨格情報との距離が閾値未満の場合に、前記各３次元座標の平均値を算出し、前記距離が閾値以上の場合に、前記距離が近い方の間接位置を選択して、前記被写体の骨格情報を生成することを特徴とする請求項１に記載の骨格認識方法。
　前記生成する処理は、前記平均値を算出した各関節について、前記複数のセンサそれぞれの関節情報に含まれる３次元座標と前記平均値との差分の平均である差分平均を算出し、前記距離が近いとして選択された間接位置を前記差分平均で補正して、前記被写体の骨格情報を生成することを特徴とする請求項５に記載の骨格認識方法。
　前記取得する処理は、被写体の複数の関節位置の尤度を複数方向から投影したヒートマップ画像を距離画像から認識する前記学習モデルに、前記複数のセンサそれぞれから取得された各距離画像を入力して得られる出力結果を用いて、前記被写体の各関節位置を含む関節情報を生成することを特徴とする請求項１に記載の骨格認識方法。
　コンピュータに、
　被写体を複数の方向からそれぞれセンシングする複数のセンサそれぞれから、距離画像を取得し、
　前記複数のセンサそれぞれから取得された各距離画像と、距離画像から被写体の各関節位置を推定する学習モデルとを用いて、前記複数のセンサごとに、前記被写体の各関節位置を含む関節情報を取得し、
　前記複数のセンサそれぞれに対応する各関節情報を統合して、前記被写体の各関節位置に関する３次元座標を含む骨格情報を生成し、
　前記被写体の骨格情報を出力する、
　処理を実行させることを特徴とする骨格認識プログラム。
　被写体を複数の方向からそれぞれセンシングする複数のセンサそれぞれから、距離画像を取得する取得部と、
　前記複数のセンサそれぞれから取得された各距離画像と、距離画像から被写体の各関節位置を推定する学習モデルとを用いて、前記複数のセンサごとに、前記被写体の各関節位置を含む関節情報を取得する取得部と、
　前記複数のセンサそれぞれに対応する各関節情報を統合して、前記被写体の各関節位置に関する３次元座標を含む骨格情報を生成する生成部と、
　前記被写体の骨格情報を出力する出力部と、
　を有することを特徴とする情報処理装置。