WO2023062762A1

WO2023062762A1 - 推定プログラム、推定方法および情報処理装置

Info

Publication number: WO2023062762A1
Application number: PCT/JP2021/037972
Authority: WO
Inventors: 達也鈴木; 優石川
Original assignee: 富士通株式会社
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2023-04-20
Also published as: JPWO2023062762A1; CN118103866A

Abstract

情報処理装置は、競技者の頭部が所定の状態の画像を機械学習モデルに入力することで、競技者の顔に含まれる複数の関節の位置を特定する。情報処理装置は、複数の関節の位置のそれぞれを用いて、競技者の頭頂部の位置を推定する。

Description

推定プログラム、推定方法および情報処理装置

　本発明は、推定プログラム等に関する。

　３次元の人の動きの検出に関しては、複数台の３Ｄレーザセンサから人の３Ｄ骨格座標を±１ｃｍの精度で検出する３Ｄセンシング技術が確立されている。この３Ｄセンシング技術は、体操採点支援システムへの応用や、他のスポーツ、他分野への展開が期待されている。３Ｄレーザセンサを用いた方式を、レーザ方式と表記する。

　レーザ方式では、レーザを１秒間に約２００万回照射し、レーザの走行時間（Time　of　Flight：ＴｏＦ）を基に、対象となる人を含めて、各照射点の深さや情報を求める。レーザ方式は、高精度な深度データを取得できるが、レーザスキャンやＴｏＦ測定の構成および処理が複雑であるため、ハードウェアが複雑および高価になるという欠点がある。

　レーザ方式の代わりに、画像方式によって、３Ｄ骨格認識を行う場合もある。画像方式では、ＣＭＯＳ（Complementary　Metal　Oxide　Semiconductor）イメージャによって、各ピクセルのＲＧＢ（Red　Green　Blue）データを取得する方式であり、安価なＲＧＢカメラを用いることができる。

　ここで、複数カメラによる２Ｄ特徴を用いた３Ｄ骨格認識の従来技術について説明する。従来技術では、事前に定義された人体モデルに従って、各カメラで２Ｄ特徴を取得した後、各２Ｄ特徴を統合した結果を用いて、３Ｄ骨格を認識する。たとえば、２Ｄ特徴は、２Ｄ骨格情報、heatmap情報が上げられる。

　図３７は、人体モデルの一例を示す図である。図３７に示すように、人体モデルＭ１は、２１個の関節で構成される。人体モデルＭ１では、各関節をノードで示し、０～２０の番号を割り当てる。ノードの番号と、関節名との関係は、テーブルＴｅ１に示す関係となる。たとえば、ノード０に対応する関節名は「SPINE_BASE」となる。ノード１～２０に対する関節名の説明を省略する。

　従来技術には、機械学習を用いて３Ｄ骨格認識を行う技術がある。図３８は、機械学習を用いた手法を説明するための図である。機械学習を用いた従来技術では、各カメラが撮影した各入力画像２１に対して、2D　backbone処理２１ａをかけることで、各関節特徴を表す２Ｄ特徴（2D　features）２２を取得する。従来技術では、各２Ｄ特徴２２をカメラパラメータに従って3Dcubeに逆投影することで、aggregated　volumes２３を取得する。

　従来技術では、aggregated　volumes２３を、V2V（ニューラルネットワーク、Ｐ３）２４に入力することで、各関節の尤度を表すprocessed　volumes２５を取得する。processed　volumes２５は、各関節の３Ｄでの尤度を表すheatmapに対応する。従来技術では、processed　volumes２５に対して、soft-argmax２６を実行することで、３Ｄ骨格情報２７を取得する。

特開２０１８－５７５９６号公報特開２０２１－２６２６５号公報

　しかしながら、上述した従来技術では、競技者の頭頂部の位置を正確に特定することができないという問題がある。

　競技者の演技の演技が成立したか否かを評価するときに、頭頂部の位置を正確に特定することが重要であることもある。たとえば、体操演技の輪飛びの評価では、競技者の頭頂部の位置が、足の位置よりも低いことが、輪飛びの成立条件となる。

　このとき、画像の状態によっては、３Ｄ骨格認識の結果となる頭部の輪郭と、実際の頭部の輪郭とが異なってしまい、頭頂部の位置を正確に特定できなくなる。

　図３９は、頭頂部の位置を精度よく特定できない画像の一例を示す図である。図３９では、「アピアランス」の発生した画像１０ａ、「髪乱れ」の発生した画像１０ｂ、「オクルージョン」の発生した画像１０ｃを用いて説明を行う。競技者の頭が背景に溶け込み、人間でも頭の領域を判別することが困難なことを、アピアランスと定義する。競技者の髪が乱れていることを、髪乱れと定義する。競技者の胴体や腕によって、頭頂部が隠れることをオクルージョンと定義する。

　従来技術に基づいて画像１０ａの３Ｄ骨格認識を行い頭頂部の位置を特定すると、アピアランスの影響により、位置１ａが特定されてしまう。画像１０ａにおいて、頭頂部の正確な位置は１ｂとなる。

　従来技術に基づいて、画像１０ｂの３Ｄ骨格認識を行い頭頂部の位置を特定すると、髪乱れの影響により、位置１ｃが特定されてしまう。画像１０ｂにおいて、頭頂部の正確な位置は１ｄとなる。

　従来技術に基づいて、画像１０ｃの３Ｄ骨格認識を行い頭頂部の位置を特定すると、オクルージョンの影響により、位置１ｅが特定されてしまう。画像１０ｃにおいて、頭頂部の正確な位置は１ｆとなる。

　図３９で説明したように、従来技術では、アピアランス、髪乱れ、オクルージョン等が画像に発生していると、競技者の頭頂部の位置を正確に特定することができず、競技者の演技の適切に評価できなくなる。このため、人物の頭頂部の位置を正確に推定することが求められている。

　１つの側面では、本発明は、競技者の頭頂部の位置を正確に推定することができる推定プログラム、推定方法および情報処理装置を提供することを目的とする。

　第１の案では、コンピュータに次の処理を実行させる。コンピュータは、競技者の頭部が所定の状態の画像を機械学習モデルに入力することで、競技者の顔に含まれる複数の関節の位置を特定する。コンピュータは、複数の関節の位置のそれぞれを用いて、競技者の頭頂部の位置を推定する。

　人物の頭頂部の位置を正確に推定することができる。

図１は、本実施例１に係る体操採点支援システムの一例を示す図である。図２は、ソース情報の一例を説明するための図である。図３は、ターゲット情報の一例を説明するための図である。図４は、変換パラメータを算出する手法を補足説明するための図である。図５は、競技者の頭頂部を推定する手法を補足説明するための図である。図６は、本実施例１に係る情報処理装置の効果を説明するための図である。図７は、本実施例１に係る学習装置の構成を示す機能ブロック図である。図８は、学習データのデータ構造の一例を示す図である。図９は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図１０は、測定テーブルのデータ構造の一例を示す図である。図１１は、骨格認識結果テーブルのデータ構造の一例を示す図である。図１２は、第２特徴を説明するための図である。図１３は、一つの第２特徴を示す図である。図１４は、RANSACを補足説明するための図である。図１５は、RANSACの問題を説明するための図である。図１６は、本実施例１に係る推定部の処理を説明するための図である。図１７は、骨長さ異常を検知する処理を説明するための図である。図１８は、逆・横曲がり異常を検知する処理を説明するための図である。図１９は、逆・横曲がり異常検知で用いる各ベクトルを補足説明するための図（１）である。図２０は、逆・横曲がり異常検知で用いる各ベクトルを補足説明するための図（２）である。図２１は、逆・横曲がり異常検知で用いる各ベクトルを補足説明するための図（３）である。図２２は、逆・横曲がり異常検知で用いる各ベクトルを補足説明するための図（４）である。図２３は、曲がりすぎ異常を検知する処理を説明するための図である。図２４は、骨長さ補正を説明するための図である。図２５は、逆・横曲がり補正を説明するための図である。図２６は、曲がりすぎ補正を説明するための図である。図２７は、本実施例１に係る学習装置の処理手順を示すフローチャートである。図２８は、本実施例１に係る情報処理装置の処理手順を示すフローチャートである。図２９は、変換パラメータ推定処理の処理手順を示すフローチャート（１）である。図３０は、変換パラメータ推定処理の処理手順を示すフローチャート（２）である。図３１は、頭頂部推定の誤差の比較結果を説明するための図である。図３２は、本実施例２に係るソース情報の一例を示す図である。図３３は、頭頂部を特定する処理を説明するための図である。図３４は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図３５は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。図３６は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図３７は、人体モデルの一例を示す図である。図３８は、機械学習を用いた手法を説明するための図である。図３９は、頭頂部の位置を精度よく特定できない画像の一例を示す図である。

　以下に、本願の開示する推定プログラム、推定方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　図１は、本実施例１に係る体操採点支援システムの一例を示す図である。図１に示すように、この体操採点支援システム３５は、カメラ３０ａ，３０ｂ，３０ｃ，３０ｄと、学習装置５０と、情報処理装置１００とを有する。カメラ３０ａ～３０ｄと、情報処理装置１００とは、有線または無線によってそれぞれ接続されている。学習装置５０と、情報処理装置１００とは、有線または無線によってそれぞれ接続されている。

　図１では、カメラ３０ａ～３０ｄを示すが、この体操採点支援システム３５は、他のカメラを更に有していてもよい。

　本実施例１では一例として、競技者Ｈ１が、器具上で一連の演技を行うものとするがこれに限定されるものではない。たとえば、競技者Ｈ１は、器具の存在しない場所で演技を行ってもよいし、演技以外の動作を行ってもよい。

　カメラ３０ａは、競技者Ｈ１の画像を撮影するカメラである。カメラ３０ａは、ＣＭＯＳイメージャ、ＲＧＢカメラ等に対応する。カメラ３０ａは、所定のフレームレート（frames　per　second：FPS）によって、画像を連続して撮影し、時系列に画像のデータを情報処理装置１００に送信する。以下の説明では、連続する複数の画像のデータのうち、ある一つの画像のデータを「画像フレーム」と表記する。画像フレームには、時系列にフレーム番号が付与される。

　カメラ３０ｂ，３０ｃ，３０ｄに関する説明は、カメラ３０ａに関する説明と同様である。以下の説明では、適宜、カメラ３０ａ～３０ｄをまとめて「カメラ３０」と表記する。

　学習装置５０は、事前に準備された学習データを基にして、画像フレームから、顔関節の位置を推定する機械学習モデルを機械学習する。顔関節には、左右の目、左右の耳、鼻、顎、口元等が含まれる。以下の説明では、画像フレームから、顔関節の位置を推定する機械学習モデルを「顔関節推定モデル」と表記する。学習装置６０は、機械学習済みの顔関節推定モデルの情報を、情報処理装置１００に出力する。

　情報処理装置１００は、予め準備したソース（source）情報と、顔関節推定モデルを用いた顔関節の認識結果となるターゲット（target）情報とを基にして、競技者Ｈ１の頭頂部の位置を推定する。以下において、ソース情報と、ターゲット情報とについて説明する。

　図２は、ソース情報の一例を説明するための図である。図２に示すように、ソース情報６０ａには、３Ｄの人体モデルＭ２に、複数の顔関節ｐ１の位置、頭頂部関節ｔｐ１の位置がそれぞれ設定される。ソース情報６０ａは、予め情報処理装置１００に設定される。

　図３は、ターゲット情報の一例を説明するための図である。ターゲット情報は、カメラから取得する画像フレームを、顔関節推定モデルに入力することで生成される。図３に示すように、ターゲット情報６０ｂには、複数の顔関節ｐ２がそれぞれ特定されている。

　情報処理装置１００は、ソース情報６０ａの顔関節の各位置を、ターゲット情報６０ｂの顔関節の各位置に合わせるための変換パラメータを算出する。情報処理装置１００は、算出した変換パラメータを、ソース情報６０ａの頭頂部の位置に適用することで、競技者Ｈ１の頭頂部の位置を推定する。

　図４は、変換パラメータを算出する手法を補足説明するための図である。変換パラメータには回転Ｒ、並進ｔ、スケールｃが含まれる。回転Ｒ、並進ｔはベクトル値である。スケールｃはスカラー値である。ステップＳ１～Ｓ５の順に説明を行う。

　ステップＳ１について説明する。ソース情報６０ａに含まれる複数の顔関節ｐ１の位置をｘ（ｘはベクトル値）とする。

　ステップＳ２について説明する。顔関節の位置ｘに回転Ｒをかけることで、顔関節ｐ１の位置は「Ｒｘ」となる。

　ステップＳ３について説明する。顔関節ｐ１の更新された位置「Ｒｘ」に、スケールｃをかけることで、顔関節ｐ１の位置は「ｃＲｘ」となる。

　ステップＳ４について説明する。顔関節ｐ１の更新された位置「ｃＲｘ」に並進ｔを加算することで、顔関節ｐ１の位置は「ｃＲｘ＋ｔ」となる。

　ステップＳ５について説明する。ターゲット情報６０ｂの顔関節ｐ２の位置をｙとすると、｜ｙ－（ｃＲｘ＋ｔ）｜を計算することで、変換パラメータを適用したソース情報６０ａと、ターゲット情報６０ｂとの差を特定することができる。

　具体的には、変換パラメータを適用したソース情報６０ａと、ターゲット情報６０ｂとの差ｅ^２は、式（１）によって定義される。式（１）において、ｘは、ソース情報６０ａの顔関節の位置を示す。ｙは、ターゲット情報６０ｂの顔関節の位置を示す。

　情報処理装置１００は、最小二乗法等を用いて、式（１）の差ｅ^２が最小となる変換パラメータＲ、ｔ、ｃを算出する。

　情報処理装置１００は、変換パラメータを算出すると、変換パラメータを、ソース情報６０ａの頭頂部の位置に適用することで、競技者Ｈ１の頭頂部の位置を推定する。

　図５は、競技者の頭頂部を推定する手法を補足説明するための図である。情報処理装置１００は、式（２）を基にして、ソース情報６０ａの顔座標の位置ｘ（頭頂部の位置ｔｐ１を含む）から、競技者の顔関節の位置ｙ（頭頂部の位置ｔｐ２を含む）を算出する。式（２）の変換パラメータは、上記処理によって算出された差ｅ^２が最小となる変換パラメータである。情報処理装置１００は、算出した位置ｙに含まれる頭頂部の位置ｔｐ２を取得する。

　上記のように、情報処理装置１００は、ソース情報６０ａの顔関節の位置を、ターゲット情報６０ｂの顔関節の位置に合わせるための変換パラメータを算出する。情報処理装置１００は、算出した変換パラメータをソース情報６０ａの頭頂部に適用することで、競技者の頭頂部の位置を算出する。顔関節と、頭頂部との関係は剛体関係にあるため、かかる関係を利用して、競技者の頭頂部の位置を推定することで、推定精度を向上させることができる。

　図６は、本実施例１に係る情報処理装置の効果を説明するための図である。図６では、「アピアランス」の発生した画像１０ａ、「髪乱れ」の発生した画像１０ｂ、「オクルージョン」の発生した画像１０ｃを用いて説明を行う。

　従来技術に基づいて画像１０ａの３Ｄ骨格認識を行い頭頂部の位置を特定すると、アピアランスの影響により、頭頂部の位置１ａが特定されてしまう。これに対して、情報処理装置１００が、上記の処理を実行することで、頭頂部の位置２ａが特定される。画像１０ａにおいて、頭頂部の正確な位置は１ｂとなるため、従来技術と比較して、頭頂部の推定精度が向上している。

　従来技術に基づいて画像１０ｂの３Ｄ骨格認識を行い頭頂部の位置を特定すると、髪乱れの影響により、頭頂部の位置１ｃが特定されてしまう。これに対して、情報処理装置１００が、上記の処理を実行することで、頭頂部の位置２ｂが特定される。画像１０ｂにおいて、頭頂部の正確な位置は１ｄとなるため、従来技術と比較して、頭頂部の推定精度が向上している。

　従来技術に基づいて、画像１０ｃの３Ｄ骨格認識を行い頭頂部の位置を特定すると、オクルージョンの影響により、位置１ｅが特定されてしまう。これに対して、情報処理装置１００が、上記の処理を実行することで、頭頂部の位置２ｃが特定される。画像１０ｃにおいて、頭頂部の正確な位置は１ｆとなるため、従来技術と比較して、頭頂部の推定精度が向上している。

　上記のように、情報処理装置１００は、観測不良の影響の低い顔関節を利用することで、頭頂部推定の精度を向上させることができる。また、頭頂部を用いて競技者の演技を評価する場合も、適切に演技の成立不成立を評価することができる。頭頂部を用いて競技者の演技には、平均台の輪飛びや、床運動の一部の演技が含まれる。

　次に、図１で説明した学習装置５０の構成について説明する。図７は、本実施例１に係る学習装置の構成を示す機能ブロック図である。図７に示すように、学習装置５０は、通信部５１、入力部５２、表示部５３、記憶部５４、制御部５５を有する。

　通信部５１は、情報処理装置１００との間でデータ通信を実行する。たとえば、通信部５１は、機械学習済みの顔関節推定モデル５４ｂの情報を、情報処理装置１００に送信する。通信部５１は、機械学習で利用する学習データ５４ａを、外部装置から受信してもよい。

　入力部５２は、学習装置５０に対して各種の情報を入力する入力装置に対応する。

　表示部５３は、制御部５５から出力される情報を表示する。

　記憶部５４は、学習データ５４ａ、顔関節推定モデル５４ｂを記憶する。記憶部５４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）などの半導体メモリ素子や、ＨＤＤ（Hard　Disk　Drive）などの記憶装置に対応する。

　学習データ５４ａは、顔関節推定モデル５４ｂを機械学習するための情報を保持する。たとえば、機械学習するための情報として、顔関節のアノテーションありの画像フレームを保持する。図８は、学習データのデータ構造の一例を示す図である。図８に示すように、学習データは、項番と、入力データと、正解データ（ラベル）とを対応付ける。入力データとして、人物の顔画像を含む画像フレームが設定される。正解データとして、画像フレームに含まれる顔関節の位置が設定される。

　顔関節推定モデル５４ｂは、ＮＮ（Neural　Network）等に対応する。顔関節推定モデル５４ｂは、画像フレームが入力された場合に、機械学習済みのパラメータを基にして、顔関節の位置を出力する。

　制御部５５は、取得部５５ａ、学習部５５ｂ、出力部５５ｃを有する。制御部５５は、ＣＰＵ（Central　Processing　Unit）等に対応する。

　取得部５５ａは、通信部５１等から学習データ５４ａを取得する。取得部５５ａは、取得した学習データ５４ａを、記憶部５４に登録する。

　学習部５５ｂは、誤差逆伝播法に基づき、学習データ５４ａを用いて、顔関節推定モデル５４ｂの機械学習を実行する。たとえば、学習部５５ｂは、顔関節推定モデル５４ｂに、学習データ５４ａの入力データを入力した結果が、入力データと対になる正解データに近づくように、顔関節推定モデル５４ｂのパラメータを訓練する。

　出力部５５ｃは、機械学習が完了した顔関節推定モデル５４ｂの情報を、情報処理装置１００に出力する。

　次に、図１で説明した情報処理装置１００の構成について説明する。図９は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図９に示すように、情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

　通信部１１０は、カメラ３０、情報処理装置１００との間でデータ通信を実行する。たとえば、通信部１１０は、カメラ３０から画像フレームを受信する。通信部１１０は、機械学習済みの顔関節推定モデル５４ｂの情報を、情報処理装置１００に送信する。

　入力部１２０は、情報処理装置１００に対して、各種の情報を入力する入力装置に対応する。

　表示部１３０は、制御部１５０から出力される情報を表示する。

　記憶部１４０は、顔関節推定モデル５４ｂ、ソース情報６０ａ、測定テーブル１４１、骨格認識結果テーブル１４２、技認識テーブル１４３を有する。記憶部１４０は、ＲＡＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

　顔関節推定モデル５４ｂは、機械学習実行済みとなる顔関節推定モデル５４ｂである。顔関節推定モデル５４ｂは、上述した学習装置５０によって訓練される。

　ソース情報６０ａは、図２で説明したように、複数の顔関節ｐ１の位置、頭頂部関節ｔｐ１の位置がそれぞれ設定された情報である。

　測定テーブル１４１は、カメラ３０により撮影される画像フレームを時系列に格納するテーブルである。図１０は、測定テーブルのデータ構造の一例を示す図である。図１０に示すように、測定テーブル１４１は、カメラ識別情報と、画像フレームとを対応付ける。

　カメラ識別情報は、カメラを一意に識別する情報である。たとえば、カメラ識別情報「Ｃ３０ａ」は、カメラ３０ａに対応し、カメラ識別情報「Ｃ３０ｂ」は、カメラ３０ｂに対応し、カメラ識別情報「Ｃ３０ｃ」は、カメラ３０ｃに対応し、カメラ識別情報「Ｃ３０ｄ」は、カメラ３０ｄに対応する。画像フレームは、該当するカメラ３０に撮影された時系列の画像フレームである。各画像フレームには、時系列にフレーム番号が設定されるものとする。

　骨格認識結果テーブル１４２は、競技者Ｈ１の３Ｄ骨格の認識結果を格納するテーブルである。図１１は、骨格認識結果テーブルのデータ構造の一例を示す図である。図１１に示すように、この骨格認識結果テーブル１４２は、フレーム番号と、３Ｄ骨格情報とを対応付ける。フレーム番号は、３Ｄ骨格情報を推定する場合に用いた画像フレームに付与されたフレーム番号である。３Ｄ骨格情報は、図３７に示される各ノード０～２０に定義される関節の位置と、頭頂部を含む複数の顔関節の位置とを含む。

　技認識テーブル１４３は、各３Ｄ骨格情報に含まれる各関節位置の時系列変化と、技の種別とを対応付けるテーブルである。また、技認識テーブル１４３は、技の種別の組み合わせと、スコアとを対応付ける。スコアは、Ｄ（Difficulty）スコアとＥ（Execution）スコアとの合計で算出される。たとえば、Ｄスコアは、技の難易度に基づいて算出されるスコアである。Ｅスコアは、技の完成度に応じて、減点法により算出されるスコアである。

　たとえば、技認識テーブル１４３には、平均台の輪飛びや、床運動の一部の演技のように、頭頂部の時系列変換と、技の種別とを対応付けた情報も含まれる。

　図９の説明に戻る。制御部１５０は、取得部１５１、前処理部１５２、ターゲット情報生成部１５３、推定部１５４、異常検知部１５５、補正部１５６、技認識部１５７を有する。制御部１５０は、ＣＰＵ等に対応する。

　取得部１５１は、通信部１１０を介して、学習装置５０から、機械学習実行済みとなる顔関節推定モデル５４ｂを取得し、顔関節推定モデル５４ｂを記憶部１４０に登録する。

　取得部１５１は、通信部１１０を介して、カメラ３０から時系列に画像フレームを取得する。取得部１５１は、カメラ３０から取得した画像フレームを、カメラ識別情報と対応付けて、測定テーブル１４１に格納する。

　前処理部１５２は、測定テーブル１４１に登録された画像フレーム（多視点の画像フレーム）から、競技者Ｈ１の３Ｄ骨格認識を実行する。前処理部１５２は、どのような従来技術を用いて、競技者Ｈ１の３Ｄ骨格情報を生成してもよい。以下に、前処理部１５２の処理の一例を説明する。

　前処理部１５２は、測定テーブル１４１から、カメラ３０の画像フレームを取得し、画像フレームを基にして、競技者Ｈ１の関節にそれぞれ対応する複数の第２特徴を生成する。第２特徴は、各関節位置の尤度を示すheatmapである。１つのカメラから取得した１つの画像フレームから、各関節に対応する第２特徴が生成される。たとえば、関節数を２１個、カメラの数を４個とすると、画像フレーム毎に、８４個の第２特徴が生成される。

　図１２は、第２特徴を説明するための図である。図１２に示す画像フレームＩｍ３０ａ１は、カメラ３０ａに撮影された画像フレームである。画像フレームＩｍ３０ｂ１は、カメラ３０ｂに撮影された画像フレームである。画像フレームＩｍ３０ｃ１は、カメラ３０ｃに撮影された画像フレームである。画像フレームＩｍ３０ｄ１は、カメラ３０ｄに撮影された画像フレームである。

　前処理部１５２は、画像フレームＩｍ３０ａ１を基にして、第２特徴群情報Ｇ１ａを生成する。第２特徴群情報Ｇ１ａには、各関節に対応する２１個の第２特徴が含まれる。前処理部１５２は、画像フレームＩｍ３０ｂ１を基にして、第２特徴群情報Ｇ１ｂを生成する。第２特徴群情報Ｇ１ｂには、各関節に対応する２１個の第２特徴が含まれる。

　前処理部１５２は、画像フレームＩｍ３０ｃ１を基にして、第２特徴群情報Ｇ１ｃを生成する。第２特徴群情報Ｇ１ｃには、各関節に対応する２１個の第２特徴が含まれる。前処理部１５２は、画像フレームＩｍ３０ｄ１を基にして、第２特徴群情報Ｇ１ｄを生成する。第２特徴群情報Ｇ１ｄには、各関節に対応する２１個の第２特徴が含まれる。

　図１３は、一つの第２特徴を示す図である。図１３に示す第２特徴Ｇｃ１－３は、第２特徴群情報Ｇ１ｄに含まれる第２特徴のうち、関節「HEAD」に対応する第２特徴である。第２特徴Ｇｃ１－３の各ピクセルには、尤度が設定される。図１３では、尤度の値に応じた色が設定される。尤度が最大となる箇所が、該当する関節の座標となる。たとえば、特徴Ｇｃ１－３において、尤度の値が最大となる領域Ａｃ１－３が、関節「HEAD」の座標であることが特定できる。

　前処理部１５２は、第２特徴群情報Ｇ１ａに含まれる第２特徴から、異常のある第２特徴を検知し、検知した異常のある第２特徴を、第２特徴群情報Ｇ１ａから除去する。前処理部１５２は、第２特徴群情報Ｇ１ｂに含まれる第２特徴から、異常のある第２特徴を検知し、検知した異常のある第２特徴を、第２特徴群情報Ｇ１ｂから除去する。

　前処理部１５２は、第２特徴群情報Ｇ１ｃに含まれる第２特徴から、異常のある第２特徴を検知し、検知した異常のある第２特徴を、第２特徴群情報Ｇ１ｃから除去する。前処理部１５２は、第２特徴群情報Ｇ１ｄに含まれる第２特徴から、異常のある第２特徴を検知し、検知した異常のある第２特徴を、第２特徴群情報Ｇ１ｄから除去する。

　前処理部１５２は、異常のある第２特徴を除いた第２特徴群情報Ｇ１ａ，Ｇ１ｂ，Ｇ１ｃ，Ｇ１ｄを統合し、統合した結果を基にして、競技者Ｈ１の３Ｄ骨格情報を生成する。前処理部１５２によって生成される３Ｄ骨格情報には、図３７で説明した各関節の位置（３次元座標）が含まれる。なお、前処理部１５２は、図３８で説明した従来技術を用いて、競技者Ｈ１の３Ｄ骨格情報を生成してもよい。また、図３７の説明では、番号３の関節を「HEAD」としているが、頭頂部を含む複数の顔関節であってもよい。

　前処理部１５２は、３Ｄ骨格情報を生成する度に、３Ｄ骨格情報を推定部１５４に出力する。また、前処理部１５２は、３Ｄ骨格情報の生成に用いた画像フレームを、ターゲット情報生成部１５３に出力する。

　図９の説明に戻る。ターゲット情報生成部１５３は、顔関節推定モデル５４ｂに、画像フレームを入力することで、ターゲット情報を生成する。かかるターゲット情報は、図３で説明したターゲット情報６０ｂに対応する。ターゲット情報生成部１５３は、ターゲット情報を、推定部１５４に出力する。

　ターゲット情報生成部１５３は、同一のフレーム番号に対して、複数の画像フレームを取得した場合、何れかの画像フレームを選択して、顔関節推定モデル５４ｂに入力する。ターゲット情報生成部１５３は、画像フレームを取得する度に、上記処理を繰り返し実行する。

　推定部１５４は、ソース情報６０ａと、ターゲット情報６０ｂ（画像フレーム固有のターゲット情報）とを基にして、競技者Ｈ１の頭頂部の位置を推定する。

　ここで、推定部１５４の処理を説明する前に、顔関節の外れ値を除去する従来技術（RANSAC:RANdom　SAmple　Consensus）について説明する。RANSACでは、外れ値除去の判別にinlier数の最大値を取る関節の組み合わせを外れ値除去後の結果として用いるが、そのinlier数が同点の場合には、どちらの関節組み合わせが良いのかを選択することができない。

　図１４は、RANSACを補足説明するための図である。図１４のステップＳ１０～Ｓ１３の順に説明を行う。

　ステップＳ１０について説明する。画像フレームを、顔関節推定モデル５４ｂ等に入力することで得られるターゲット情報に、顔関節ｐ３－１，ｐ３－２，ｐ３－３，ｐ３－４が含まれているものとする。たとえば、顔関節ｐ３－１は、右耳の顔関節である。顔関節ｐ３－２は、鼻の顔関節である。顔関節ｐ３－３は、首の顔関節である。顔関節ｐ３－４は、左耳の顔関節である。

　ステップＳ１１について説明する。RANSACでは、ランダムに顔関節をサンプリングする。ここでは、３つの顔関節をサンプリングするものとし、顔関節ｐ３－２，ｐ３－３，ｐ３－４がサンプリングされている。

　ステップＳ１２について説明する。RANSACでは、ソース情報と、ターゲット情報との剛体関係に基づく位置合わせを行い、回転、並進、スケールを計算する。RANSACでは、計算結果（回転、並進、スケール）を、ソース情報に適用して、再投影することで、顔関節ｐ４－１，ｐ４－２，ｐ４－３，ｐ４－４を特定する。

　ステップＳ１３について説明する。RANSACでは、顔関節ｐ４－１～ｐ４－４を中心とするサークルｃｉｒ１，ｃｉｒ２，ｃｉｒ３，ｃｉｒ４を設定する。サークルｃｉｒ１～ｃｉｒ４の半径（閾値）は、予め設定される。

　RANSACでは、顔関節ｐ３－１，ｐ３－２，ｐ３－３，ｐ３－４のうち、サークルｃｉｒ１，ｃｉｒ２，ｃｉｒ３，ｃｉｒ４に含まれる顔関節をinlierとし、サークルｃｉｒ１，ｃｉｒ２，ｃｉｒ３，ｃｉｒ４に含まれない顔関節をoutlierとする。図１４のステップＳ１３に示す例では、顔関節ｐ３－２，ｐ３－３，ｐ３－４がinlierとなり、顔関節ｐ３－１がoutlierとなる。

　RANSACでは、inlierの数（以下、inlier数）をカウントする。ステップＳ１３に示す例では、inlier数は「３」となる。RANSACでは、ステップＳ１１で説明したサンプリングの対象を変更しながら、ステップＳ１１～Ｓ１３の処理を繰り返し実行し、inlier数が最大となるサンプリング対象の顔関節の組み合わせを特定する。たとえば、ステップＳ１１において、顔関節ｐ３－２，ｐ３－３，ｐ３－４をサンプリングした際のinlier数が最大となる場合には、顔関節ｐ３－２，ｐ３－３，ｐ３－４を、外れ値除去後の結果として出力する。

　しかしながら、図１４で説明したRANSACでは、図１５に示すような問題がある。図１５は、RANSACの問題を説明するための図である。RANSACでは、inlier数が同点の場合に、どちらの組み合わせがよいのかを判定することが難しい。

　図１５の「ケース１」について説明する。ケース１のステップＳ１１において、顔関節ｐ３－１，ｐ３－２，ｐ３－３がサンプリングされている。ステップＳ１２の説明は省略する。

　ケース１のステップＳ１３について説明する。ソース情報を再投影して得られる顔関節ｐ４－１～ｐ４－４を中心とするサークルｃｉｒ１，ｃｉｒ２，ｃｉｒ３，ｃｉｒ４が設定されている。ケース１のステップＳ１３に示す例では、顔関節ｐ３－１，ｐ３－２，ｐ３－３がinlierとなり、inlier数は「３」となる。

　図１５の「ケース２」について説明する。ケース２のステップＳ１１において、顔関節ｐ３－２，ｐ３－３，ｐ３－４がサンプリングされている。ステップＳ１２の説明は省略する。

　ケース２のステップＳ１３について説明する。ソース情報を再投影して得られる顔関節ｐ４－１～ｐ４－４を中心とするサークルｃｉｒ１，ｃｉｒ２，ｃｉｒ３，ｃｉｒ４が設定されている。ケース２のステップＳ１３に示す例では、顔関節ｐ３－２，ｐ３－３，ｐ３－４がinlierとなり、inlier数は「３」となる。

　ケース１と、ケース２とを比較すると、顔関節ｐ３－２，ｐ３－３，ｐ３－４が、ｃｉｒ２，ｃｉｒ３，ｃｉｒ４の中心位置に近く、総合的には、ケース２の方が良い結果であるといえる。しかし、ケース１のinlier数とケース２のinlier数とが同じであるため、RANSACにより、自動的にケース２の結果を採用することができない。

　続いて、本実施例１に係る推定部１５４の処理について説明する。まず、推定部１５４は、ソース情報６０ａの顔関節の位置と、ターゲット情報６０ｂの顔関節の位置とを比較して、上述した式（１）の差ｅ^２が最小となるような変換パラメータ（回転Ｒ、並進ｔ、スケールｃ）を算出する。推定部１５４は、変換パラメータを算出する場合に、ターゲット情報６０ｂに含まれる顔関節から、ランダムに３つの顔関節をサンプリングし、サンプリングした顔関節について、変換パラメータを算出するものとする。以下の説明では、サンプリングした３つの顔関節を適宜「３関節」と表記する。

　図１６は、本実施例１に係る推定部の処理を説明するための図である。図１６に示す例では、ソース情報６０ａに、顔関節ｐ１－１，ｐ１－２，ｐ１－３，ｐ１－４が設定されているものとする。ターゲット情報６０ｂには、顔関節ｐ２－１，ｐ２－２，ｐ２－３，ｐ２－４が設定されているものとする。また、顔関節ｐ２－１，ｐ２－２，ｐ２－３，ｐ２－４のうち、ｐ２－１，ｐ２－２，ｐ２－３が、サンプリングされているものとする。

　推定部１５４は、変換パラメータをソース情報６０ａの顔関節ｐ１－１，ｐ１－２，ｐ１－３，ｐ１－４に適用することで、ターゲット情報６０ｂに再投影を行う。そうすると、ソース情報６０ａの顔関節ｐ１－１，ｐ１－２，ｐ１－３，ｐ１－４は、ターゲット情報６０ｂの位置ｐｒ１－１，ｐｒ１－２，ｐｒ１－３，ｐｒ１－４にそれぞれ再投影される。

　推定部１５４は、ターゲット情報６０ｂ上の顔関節ｐ２－１，ｐ２－２，ｐ２－３，ｐ２－４と、位置ｐｒ１－１，ｐｒ１－２，ｐｒ１－３，ｐｒ１－４とをそれぞれ比較して、inlier数をカウントする。たとえば、顔関節ｐ２－１と位置ｐｒ１－１との距離、顔関節ｐ２－２と位置ｐｒ１－２との距離、顔関節ｐ３－１と位置ｐｒ３－１との距離が閾値未満で、顔関節ｐ４－１と位置ｐｒ４－１との距離が閾値以上とすると、inlier数は「３」となる。

　ここで、対応する顔関節と位置との距離（たとえば、ソース情報６０ａの右耳の顔関節ｐ１－１を再投影した位置ｐｒ１－１と、ターゲット情報６０ｂの右耳の関節位置ｐ２－１との距離）を、再投影誤差εと定義する。

　推定部１５４は、式（３）を基にして、外れ値評価指標Ｅを算出する。式（３）において、「ε_ｍａｘ」は、複数の再投影誤差εのうちの最大値に対応する。「μ」は、複数の再投影誤差εのうち、ε_ｍａｘを除いた残りの再投影誤差εの平均値を示す。

　推定部１５４は、ターゲット情報６０ｂの顔関節に対してサンプリングを行い、変換パラメータを算出し、inlier数と、外れ値評価指数Ｅとを算出する処理を、３関節の組み合わせを変えながら、繰り返し実行する。推定部１５４は、３関節の組み合わせのうち、inlier数が最大値を取る際の変換パラメータを、最終的な変換パラメータとして特定する。

　推定部１５４は、inlier数が最大値をとる、３関節の組み合わせが複数存在する場合には、外れ値評価指数Ｅが小さい方の３関節の組み合わせ特定し、特定した３関節によって得られる変換パラメータを、最終的な変換パラメータとして特定する。

　以下の説明では、推定部１５４が、inlier数および外れ値評価指数Ｅを基にして、複数の変換パラメータから特定した、最終的な変換パラメータを、単に、変換パラメータと表記する。

　推定部１５４は、変換パラメータを、式（２）に適用し、ソース情報６０ａの複数の顔座標の位置ｘ（頭頂部の位置ｔｐ１を含む）から、競技者Ｈ１の複数の顔関節の位置ｙ（頭頂部の位置ｔｐ２を含む）を算出する。係る推定部１５４の処理は、図５を用いて説明した処理に対応する。

　上記処理によって、推定部１５４は、競技者Ｈ１の顔座標の位置（顔関節の位置、頭頂部の位置）を推定し、前処理部１５２によって推定された３Ｄ骨格情報の頭部の情報を、顔座標の位置の情報に置き換えることで、３Ｄ骨格情報を生成する。推定部１５４は、生成した３Ｄ骨格情報を異常検知部１５５に出力する。また、推定部１５４は、顔座標の位置の情報に置き換える前の３Ｄ骨格情報も、異常検知部１５５に出力する。

　推定部１５４は、上記処理を繰り返し実行する。以下の説明では、適宜、前処理部１５２によって推定された３Ｄ骨格情報の頭部の情報を、顔座標の位置の情報に置き換えることで生成された３Ｄ骨格情報を「置き換え後骨格情報」と表記する。これに対して、置き換える前の３Ｄ骨格情報を「置き換え前骨格情報」と表記する。また、置き換え後骨格情報、置き換え前骨格情報をそれぞれ区別しない場合には、単に、３Ｄ骨格情報と表記する。

　図９の説明に戻る。異常検知部１５５は、推定部１５４によって生成された３Ｄ骨格情報の頭頂部の異常を検知する。たとえば、異常検知の種別には、「骨長さ異常検知」、「逆・横曲がり異常検知」、「曲がりすぎ異常検知」が含まれる。異常検知部１５５の説明を行う場合に、図３７に示した関節の番号を用いて説明を行う。以下の説明では、番号ｎの関節を関節ｎと表記する。

　「骨長さ異常検知」について説明する。図１７は、骨長さ異常を検知する処理を説明するための図である。異常検知部１５５は、置き換え前骨格情報に含まれる各関節のうち、関節１８から関節３に向かうベクトルb_headを計算する。異常検知部１５５は、ベクトルb_headから、そのノルム｜b_head｜を計算する。

　置き換え前骨格情報に関する骨長さ異常検知の結果をＣ_１とする。たとえば、異常検知部１５５は、置き換え前骨格情報から計算したノルム｜b_head｜が、Th₁ ^low～Th₁ ^highの範囲に含まれる場合には、正常としてＣ_１に０を設定する。異常検知部１５５は、置き換え前骨格情報から計算したノルム｜b_head｜が、Th₁ ^low～Th₁ ^highの範囲に含まれない場合には、異常としてＣ_１に１を設定する。

　異常検知部１５５は、置き換え後骨格情報についても同様に、ノルム｜b_head｜を計算する。置き換え前骨格情報に関する骨長さ異常検知の結果をＣ´_１とする。たとえば、異常検知部１５５は、置き換え後骨格情報から計算したノルム｜b_head｜が、Th₁ ^low～Th₁ ^highの範囲に含まれる場合には、正常としてＣ´_１に０を設定する。異常検知部１５５は、置き換え後骨格情報から計算したノルム｜b_head｜が、Th₁ ^low～Th₁ ^highの範囲に含まれない場合には、異常としてＣ´_１に１を設定する。

　ここで、Th₁ ^low～Th₁ ^highは、３σ法を用いて定義できる。複数人物の頭長さデータから計算した平均μ、標準偏差σを用いて、Th₁ ^lowは、式（４）のように定義できる。Th₁ ^highは、式（５）のように定義できる。

　３σ法は、対象データが、標準偏差の３倍以上離れている場合を異常とする判別方法である。３σ法を用いることで、正常が９９．７４％とほぼすべての人の頭長さに当てはまるので、頭が極端に長い、短い等の異常を検知できる。

　「逆・横曲がり異常検知」について説明する。図１８は、逆・横曲がり異常を検知する処理を説明するための図である。異常検知部１５５は、置き換え前骨格情報に含まれる各関節のうち、関節１８から関節３に向かうベクトルb_headを計算する。異常検知部１５５は、置き換え前骨格情報に含まれる各関節のうち、関節２から関節１８に向かうベクトルb_neckを計算する。異常検知部１５５は、置き換え前骨格情報に含まれる各関節のうち、関節４から関節７に向かうベクトルb_shoulderを計算する。

　異常検知部１５５は、b_neckとb_headとから、その法線ベクトルb_neck×b_headを計算する。「×」は外積を示す。異常検知部１５５は、「b_neck×b_head」と「b_shoulder」とから、なす角θ（b_neck×b_head、b_shoulder）を計算する。

　置き換え前骨格情報に関する逆・横曲がり異常検知の結果をＣ_２とする。たとえば、異常検知部１５５は、なす角θ（b_neck×b_head、b_shoulder）がＴｈ_２以下の場合に、正常としてＣ_２に０を設定する。異常検知部１５５は、なす角θ（b_neck×b_head、b_shoulder）がＴｈ_２より大きい場合に、異常としてＣ_２に１を設定する。

　異常検知部１５５は、置き換え後骨格情報についても同様に、なす角θ（b_neck×b_head、b_shoulder）を計算する。置き換え後骨格情報に関する逆・横曲がり異常検知の結果をＣ´_２とする。たとえば、異常検知部１５５は、なす角θ（b_neck×b_head、b_shoulder）がＴｈ_２以下の場合に、正常としてＣ´_２に０を設定する。異常検知部１５５は、なす角θ（b_neck×b_head、b_shoulder）がＴｈ_２より大きい場合に、異常としてＣ´_２に１を設定する。

　図１９～図２２は、逆・横曲がり異常検知で用いる各ベクトルを補足説明するための図である。図１９に示す各座標系について、ｘの座標系は、競技者Ｈ１の正面の方向に対応する。ｙの座標系は、競技者Ｈ１の左方向に対応する。ｚの座標系は、b_neckと同じ方向を示す。図１８で示したb_neck、b_head、b_shoulderの関係は、図１９に示すb_neck、b_head、b_shoulder示す関係となる。

　図２０の説明に移行する。図２０では「正常」の一例を示す。図２０に示す各座標系は、図１９で説明した座標系と同様である。図２０に示す例では、なす角θ（b_neck×b_head、b_shoulder）が０（deg）となる。

　図２１の説明に移行する。図２１では「逆曲がり」の一例を示す。図２１に示す各座標系は、図１９で説明した座標系と同様である。図２１に示す例では、なす角θ（b_neck×b_head、b_shoulder）が１８０（deg）となる。

　図２２の説明に移行する。図２２では「横曲がり」の一例を示す。図２２に示す各座標系は、図１９で説明した座標系と同様である。図２２に示す例では、なす角θ（b_neck×b_head、b_shoulder）が９０（deg）となる。

　ここで、閾値Ｔｈ_２と比較するなす角θ（b_neck×b_head、b_shoulder）について、正常とみなしたい後ろへの曲がりだと０（deg）、異常とみなしたい逆曲がりで１８０（deg）、横曲がりで９０（deg）を取る。このため、逆、横曲がり双方を異常としたい場合には、Ｔｈ_２＝９０（deg）に設定される。

　「曲がりすぎ異常検知」について説明する。図２３は、曲がりすぎ異常を検知する処理を説明するための図である。置き換え前骨格情報に含まれる各関節のうち、関節１８から関節３に向かうベクトルb_headを計算する。異常検知部１５５は、置き換え前骨格情報に含まれる各関節のうち、関節２から関節１８に向かうベクトルb_neckを計算する。

　異常検知部１５５は、b_neckとb_headとから、そのなす角θ（b_neck、b_head）を計算する。

　置き換え前骨格情報に関する曲がりすぎ異常検知の結果をＣ_３とする。たとえば、異常検知部１５５は、なす角θ（b_neck、b_head）がＴｈ_３以下の場合に、正常としてＣ_３に０を設定する。異常検知部１５５は、なす角θ（b_neck、b_head）がＴｈ_３より大きい場合に、異常としてＣ_３に１を設定する。

　たとえば、頭部の可動域は最大６０（deg）であるため、Ｔｈ_３＝６０（deg）に設定される。

　異常検知部１５５は、置き換え後骨格情報についても同様に、なす角θ（b_neck、b_head）を計算する。置き換え後骨格情報に関する曲がりすぎ異常検知の結果をＣ´_３とする。たとえば、異常検知部１５５は、なす角θ（b_neck、b_head）がＴｈ_３以下の場合に、正常としてＣ´_３に０を設定する。異常検知部１５５は、なす角θ（b_neck、b_head）がＴｈ_３より大きい場合に、異常としてＣ´_３に１を設定する。

　上記のように、異常検知部１５５は、骨長さ異常検知について、式（６）の条件に基づいて、Ｃ_１（Ｃ´_１）に値を設定する。異常検知部１５５は、逆・横曲がり異常検知について、式（７）の条件に基づいて、Ｃ_２（Ｃ´_２）に値を設定する。異常検知部１５５は、曲がりすぎ異常検知について、式（８）の条件に基づいて、Ｃ_３（Ｃ´_３）に値を設定する。

　異常検知部１５５は、「骨長さ異常検知」、「逆・横曲がり異常検知」、「曲がりすぎ異常検知」を実行した後に、判定結果Ｄ_１、Ｄ_２、Ｄ_３を計算する。異常検知部１５５は、判定結果Ｄ_１を、式（９）に基づいて計算する。異常検知部１５５は、判定結果Ｄ_２を、式（１０）に基づいて計算する。判定結果Ｄ_３を、式（１１）に基づいて計算する。

　異常検知部１５５は、判定結果Ｄ_１～Ｄ_３のうち、何れか一つの判定結果に「１」が設定されている場合には、３Ｄ骨格情報に関して、頭頂部の異常を検知する。異常検知部１５５は、頭頂部の異常を検知した場合には、３Ｄ骨格情報を、補正部１５６に出力する。

　一方、異常検知部１５５は、判定結果Ｄ_１～Ｄ_３のうち、全ての判定結果に「０」が設定されている場合には、３Ｄ骨格情報に関して、頭頂部の異常が発生していないと判定する。異常検知部１５５は、頭頂部の異常を検知しない場合には、フレーム番号と、３Ｄ骨格情報（置き換え後骨格情報）とを対応付けて、骨格認識結果テーブル１４２に登録する。

　異常検知部１５５は、推定部１５４から３Ｄ骨格情報を取得する度に、上記処理を繰り返し実行する。

　図９の説明に戻る。補正部１５６は、異常検知部１５５によって頭頂部の異常が検知された３Ｄ骨格情報を取得した場合に、取得した３Ｄ骨格情報を補正する。ここでは、３Ｄ骨格情報として、置き換え後骨格情報を用いて説明する。

　たとえば、補正部１５６が実行する補正には、「骨長さ補正」、「逆・横曲がり補正」、「曲がりすぎ補正」が含まれる。

　「骨長さ補正」について説明する。図２４は、骨長さ補正を説明するための図である。図２４に示すように、補正部１５６は、ステップＳ２０，ステップＳ２１，ステップＳ２２の順に処理を行う。

　ステップＳ２０について説明する。補正部１５６は、置き換え後骨格情報に含まれる各関節のうち、関節１８から関節３に向かうベクトルb_headを計算する。

　ステップＳ２１について説明する。補正部１５６は、ベクトルb_headから、その単位ベクトルn_head（n_head=b_head/|b_head|）を計算する。

　ステップＳ２２について説明する。補正部１５６は、関節１８を基準として、単位ベクトルn_headの方向に過去の画像フレームで算出しておいた骨長さの平均μ分延ばした関節を補正後の頭頂部として出力する（置き換え後骨格情報の頭頂部の位置を更新する）。μは、正常範囲なので、骨長さが正常になる。

　「逆・横曲がり補正」について説明する。図２５は、逆・横曲がり補正を説明するための図である。図２５に示すように、補正部１５６は、ステップＳ３０，ステップＳ３１，ステップＳ３２の順に処理を行う。

　ステップＳ３０について説明する。補正部１５６は、置き換え後骨格情報に含まれる各関節のうち、関節２から関節１８に向かうベクトルb_neckを計算する。

　ステップＳ３１について説明する。補正部１５６は、ベクトルb_neckから、その単位ベクトルn_neck（n_neck=b_neck/|b_neck|）を計算する。

　ステップＳ３２について説明する。補正部１５６は、関節１８を基準として、単位ベクトルn_neckの方向に標準骨長さμ分延ばして閾値内に収まるように補正した結果を頭頂部として出力する（置き換え後骨格情報の頭頂部の位置を更新する）。neckと同じ方向にheadが延びるので、逆・横向きの異常が補正される。

　「曲がりすぎ補正」について説明する。図２６は、曲がりすぎ補正を説明するための図である。図２６に示すように、補正部１５６は、ステップＳ４０，ステップＳ４１，ステップＳ４２の順に処理を行う。

　ステップＳ４０について説明する。補正部１５６は、置き換え後骨格情報に含まれる各関節のうち、関節１８から関節３に向かうベクトルb_headを計算する。補正部１５６は、置き換え後骨格情報に含まれる各関節のうち、関節２から関節１８に向かうベクトルb_neckを計算する。補正部１５６は、置き換え後骨格情報に含まれる各関節のうち、関節４から関節７に向かうベクトルb_shoulderを計算する。

　ステップＳ４１について説明する。補正部１５６は、ベクトルb_neckとベクトルb_headとから、その法線ベクトルb_neck×b_headを計算する。

　ステップＳ４２について説明する。法線ベクトルb_neck×b_headは、手前から奥に向かって伸びたベクトルとする。補正部１５６は、法線ベクトルb_neck×b_headを軸として、ベクトルb_headを、閾値Ｔｈ_３からの残差「Ｔｈ_３－なす角θ（b_neck、b_head）」（deg）回転して閾値内に収まるように補正した結果を、頭頂部として出力する（置き換え後骨格情報の頭頂部の位置を更新する）。角度が閾値以内に収まるので、曲がりすぎの異常が補正される。

　補正部１５６は、上記補正を実行することで、「骨長さ補正」、「逆・横曲がり補正」、「曲がりすぎ補正」を実行し、３Ｄ骨格情報を補正する。補正部１５６は、フレーム番号と、補正した３Ｄ骨格情報とを対応付けて、骨格認識結果テーブル１４２に登録する。

　図９の説明に戻る。技認識部１５７は、フレーム番号の順に３Ｄ骨格情報を、骨格認識結果テーブル１４２から取得し、連続する３Ｄ骨格情報を基にして、各関節座標の時系列変化を特定する。技認識部１５７は、各関節位置の時系列変化と、技認識テーブル１４５とを比較して、技の種別を特定する。また、技認識部１５７は、技の種別の組み合わせと、技認識テーブル１４３とを比較して、競技者Ｈ１の演技のスコアを算出する。

　技認識部１５７が算出する競技者Ｈ１の演技のスコアには、平均台の輪飛びや、床運動の一部の演技のように、頭頂部の時系列変換を評価する演技のスコアも含まれる。

　技認識部１５７は、演技のスコアと、演技の開始から終了までの３Ｄ骨格情報とを基にして、画面情報を生成する。技認識部１５７は、生成した画面情報を、表示部１３０に出力して表示させる。

　次に、本実施例１に係る学習装置５０の処理手順の一例について説明する。図２７は、本実施例１に係る学習装置の処理手順を示すフローチャートである。図２７に示すように、学習装置５０の取得部５５ａは、学習データ５４ａを取得し、記憶部５４に登録する（ステップＳ１０１）。

　学習装置５０の学習部５５ｂは、学習データ５４ａを基にして、顔関節推定モデル５４ｂに対応する機械学習を実行する（ステップＳ１０２）。

　学習装置５０の出力部５５ｃは、顔関節推定モデルを情報処理装置１００に送信する（ステップＳ１０３）。

　次に、本実施例１に係る情報処理装置１００の処理手順の一例について説明する。図２８は、本実施例１に係る情報処理装置の処理手順を示すフローチャートである。図２８に示すように、情報処理装置１００の取得部１５１は、学習装置５０から顔関節推定モデル５４ｂを取得し、記憶部１４０に登録する（ステップＳ２０１）。

　取得部１５１は、カメラから時系列の画像フレームを受信し、測定テーブル１４１に登録する（ステップＳ２０２）。

　情報処理装置１００の前処理部１５２は、測定テーブル１４１の多視点の画像フレームを基にして、３Ｄ骨格情報を推生成する（ステップＳ２０３）。情報処理装置１００のターゲット情報生成部１５３は、顔関節推定モデル５４ｂに画像フレームを入力して、ターゲット情報を生成する（ステップＳ２０４）。

　情報処理装置１００の推定部１５４は、変換パラメータ推定処理を実行する（ステップＳ２０５）。推定部１５４は、ソース情報６０ａに変換パラメータを適用し、頭頂部を推定する（ステップＳ２０６）。推定部１５４は、３Ｄ骨格情報の頭頂部の情報を、推定した頭頂部の情報に置き換える（ステップＳ２０７）。

　情報処理装置１００の異常検知部１５５は、頭頂部の異常を検知したか否かを判定する（ステップＳ２０８）。異常検知部１５５は、頭頂部の異常を検知しない場合には（ステップＳ２０８，Ｎｏ）、置き換え後骨格情報を、骨格認識結果テーブル１４２に登録し（ステップＳ２０９）、ステップＳ２１２に移行する。

　一方、異常検知部１５５は、頭頂部の異常を検知した場合には（ステップＳ２０８，Ｙｅｓ）、ステップＳ２１０に移行する。情報処理装置１００の補正部１５６は、置き換え後骨格情報を補正する（ステップＳ２１０）。補正部１５６は、補正した置き換え後骨格情報を、骨格認識結果テーブル１４２に登録し（ステップＳ２１１）、ステップＳ２１２に移行する。

　情報処理装置１００の技認識部１５７は、骨格認識結果テーブル１４２から、時系列の３Ｄ骨格情報を読み出して、技認識テーブル１４３に基づく技認識を実行する（ステップＳ２１２）。

　次に、図２８のステップＳ２０６に示した変換パラメータ推定処理の処理手順の一例について説明する。図２９および図３０は、変換パラメータ推定処理の処理手順を示すフローチャートである。

　図２９について説明する。情報処理装置１００の推定部１５４は、最大inlier数および基準評価指標に初期値を設定する（ステップＳ３０１）。たとえば、推定部１５４は、最大inlier数に「０」、基準評価指標に「∞（大きな値）」を設定する。

　推定部１５４は、ターゲット情報と、ソース情報とを取得する（ステップＳ３０２）。推定部１５４は、ターゲット情報から３関節をサンプリングする（ステップＳ３０３）。推定部１５４は、式（１）を基にして、ターゲット情報とソース情報との差ｅ^２が最小となる変換パラメータ（Ｒ、ｔ、ｃ）を算出する（ステップＳ３０４）。

　推定部１５４は、変換パラメータをソース情報に適用し、ターゲット情報に合うように再投影する（ステップＳ３０５）。推定部１５４は、ソース情報の投影結果と、ターゲット情報の３関節との再投影誤差εを算出する（ステップＳ３０６）。

　推定部１５４は、再投影誤差εが閾値以下となる顔関節の数をinlier数に設定する（ステップＳ３０７）。推定部１５４は、外れ値評価指標を計算する（ステップＳ３０８）。推定部１５４は、図３０のステップＳ３０９に移行する。

　図３０の説明に移行する。推定部１５４は、inlier数が、最大inlier数よりも大きい場合には（ステップＳ３０９，Ｙｅｓ）、ステップＳ３１２に移行する。一方、推定部１５４は、inlier数が、最大inlier数よりも大きくない場合には（ステップＳ３０９，Ｎｏ）、ステップＳ３１０に移行する。

　推定部１５４は、inlier数と最大inlier数とが同じ場合には（ステップＳ３１０，Ｙｅｓ）、ステップＳ３１１に移行する。一方、推定部１５４は、inlier数と最大inlier数とが同じでない場合には（ステップＳ３１０，Ｎｏ）、ステップＳ３１４に移行する。

　推定部１５４は、外れ値評価指標Ｅが基準評価指数よりも小さくない場合には（ステップＳ３１１，Ｎｏ）、ステップＳ３１４に移行する。一方、推定部１５４は、外れ値評価指標Ｅが基準評価指数より小さい場合には（ステップＳ３１１，Ｙｅｓ）、ステップＳ３１２に移行する。

　推定部１５４は、最大inlier数を今回算出したinlier数に更新し、外れ値評価指標の値によって、基準評価指標を更新する（ステップＳ３１２）。推定部１５４は、最大inlier数に対応する変換パラメータを更新する（ステップＳ３１３）。

　推定部１５４は、サンプリング回数の上限に達していない場合には（ステップＳ３１４，Ｎｏ）、図２９のステップＳ３０３に移行する。一方、推定部１５４は、サンプリング回数の上限に達した場合には（ステップＳ３１４，Ｙｅｓ）、最大inlier数に対応する変換パラメータを出力する（ステップＳ３１５）。

　次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、ソース情報６０ａの顔関節の位置を、ターゲット情報６０ｂの顔関節の位置に合わせるための変換パラメータを算出する。情報処理装置１００は、算出した変換パラメータをソース情報６０ａの頭頂部に適用することで、競技者の頭頂部の位置を算出する。顔関節と、頭頂部との関係は剛体関係にあるため、かかる関係を利用して、競技者の頭頂部の位置を推定することで、推定精度を向上させることができる。

　たとえば、図６で説明したように、画像にアピアランス、髪乱れ、オクルージョン等が発生した場合でも、従来技術と比較して、頭頂部の推定精度が向上している。情報処理装置１００により、頭頂部の推定精度が向上するため、頭頂部を用いて競技者の演技を評価する場合も、適切に演技の成立不成立を評価することができる。頭頂部を用いて競技者の演技には、平均台の輪飛びや、床運動の一部の演技が含まれる。

　また、本実施例１に係る情報処理装置１００は、inlier数と、外れ値誤差指標Ｅとを基にして、変換パラメータを特定する。このため、inlier数が同点となる変換パラメータが複数存在する場合でも、外れ値誤差指標Ｅを用いて、最適な変換パラメータを選択することができる。

　図３１は、頭頂部推定の誤差の比較結果を説明するための図である。図３１のグラフＧ１は、RANSACを実行しないで頭頂部の推定を行った場合の誤差を示す。グラフＧ２は、RANSACを実行して頭頂部の推定を行った場合の誤差を示す。グラフＧ３は、本実施例１に係る推定部１５４が頭頂部の推定を行った場合の誤差を示す。グラフＧ１～Ｇ２の横軸は、ターゲット情報の顔関節とＧＴ（正しい顔関節の位置）との誤差の最大値に対応する。グラフＧ１～Ｇ２の縦軸は、頭頂部の推定結果と、ＧＴ（正しい頭頂部の位置）との誤差を示す。

　グラフＧ１では、頭頂部の推定結果と、ＧＴとの誤差の平均誤差が「３０ｍｍ」となる。グラフＧ２では、頭頂部の推定結果と、ＧＴとの誤差の平均誤差が「２２ｍｍ」となる。グラフＧ３では、頭頂部の推定結果と、ＧＴとの誤差の平均誤差が「１５ｍｍ」となる。すなわち、本実施例１に係る情報処理装置１００では、RANSAC等の従来技術と比較して、高精度に頭頂部の位置を推定することができる。たとえば、グラフＧ２の領域ａｒ１では、外れ値の除去に失敗していることが示される。

　本実施例１に係る情報処理装置１００は、３Ｄ骨格情報の頭頂部の異常を検知した場合に、頭頂部の位置を補正する処理を実行する。これによって、３Ｄ骨格情報の推定精度をより高めることができる。

　なお、本実施例１では一例として、補正部１５６は、置き換え後骨格情報を補正する場合について説明したが、置き換え前骨格情報を補正し、補正後の置き換え前骨格情報を出力してもよい。また、補正部１５６は、実際には補正を行わないで、置き換え前骨格情報を、そのまま補正後の骨格情報として出力してもよい。

　次に、本実施例２ついて説明する。本実施例２に関連するシステムは、実施例１のシステムと同様である。続いて、本実施例２に係る情報処理装置について説明する。本実施例２に係る情報処理装置は、実施例１のソース情報と異なり、複数の頭頂部の候補を有する。

　図３２は、本実施例２に係るソース情報の一例を示す図である。図３２に示すように、このソース情報６０ｃは、３Ｄの人体モデルＭ２に、複数の頭頂部関節候補ｔｐ１－１，ｔｐ１－２，ｔｐ１－３，ｔｐ１－４，ｔｐ１－５，ｔｐ１－６を有する。図３２では、図示を省略するが、ソース情報６０ｃは、実施例１で示したソース情報６０ａと同様にして、複数の顔関節の位置が設定される。

　情報処理装置は、実施例１と同様にして、変換パラメータを算出する。情報処理装置は、算出した変換パラメータを、ソース情報６０ｃに適用し、複数の頭頂部関節候補ｔｐ１－１～ｔｐ１－６のｚ軸方向の値をそれぞれ比較し、ｚ軸方向の値が最小となる頭頂部関節候補を、頭頂部として特定する。

　図３３は、頭頂部を特定する処理を説明するための図である。図３３に示す例では、ソース情報６０ｃに変換パラメータを適用した結果を示す。情報処理装置は、複数の頭頂部関節候補ｔｐ１－１～ｔｐ１－６のｚ軸方向の値のうち、頭頂部関節候補ｔｐ１－２の値が最小となるため、頭頂部関節候補ｔｐ１－２を頭頂部として選択する。

　このように、本実施例２に係る情報処理装置は、変換パラメータを、ソース情報６０ｃに適用し、複数の頭頂部関節候補ｔｐ１－１～ｔｐ１－６のｚ軸方向の値をそれぞれ比較し、ｚ軸方向の値が最小となる頭頂部関節候補の位置を、頭頂部の位置として特定する。これによって、輪飛びなどのように、頭頂部を下に向ける演技を評価する場合の、頭頂部の位置をより適切に選択することができる。

　次に、本実施例２に係る情報処理装置の構成について説明する。図３４は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図３４に示すように、この情報処理装置２００は、通信部１１０、入力部１２０、表示部１３０、記憶部２４０、制御部２５０を有する。

　通信部１１０、入力部１２０、表示部１３０に関する説明は、図９で説明した通信部１１０、入力部１２０、表示部１３０に関する説明と同様である。

　記憶部２４０は、顔関節推定モデル５４ｂと、ソース情報６０ｃと、測定テーブル１４１と、骨格認識結果テーブル１４２と、技認識テーブル１４３とを有する。記憶部２４０は、ＲＡＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

　顔関節推定モデル５４ｂ、測定テーブル１４１、骨格認識結果テーブル１４２、技認識テーブル１４３に関する説明は、図９で説明した顔関節推定モデル５４ｂ、測定テーブル１４１、骨格認識結果テーブル１４２、技認識テーブル１４３に関する説明と同様である。

　ソース情報６０ｃは、図３２で説明したように、複数の顔関節の位置と、複数の複数の頭頂部関節候補の位置がそれぞれ設定された情報である。

　制御部２５０は、取得部１５１、前処理部１５２、ターゲット情報生成部１５３、推定部２５４、異常検知部１５５、補正部１５６、技認識部１５７を有する。制御部２５０は、ＣＰＵ等に対応する。

　取得部１５１、前処理部１５２、ターゲット情報生成部１５３、異常検知部１５５、補正部１５６、技認識部１５７に関する説明は、図９で説明した取得部１５１、前処理部１５２、ターゲット情報生成部１５３、異常検知部１５５、補正部１５６、技認識部１５７に関する説明と同様である。

　推定部２５４は、ソース情報６０ｃと、ターゲット情報６０ｂ（画像フレーム固有のターゲット情報）とを基にして、競技者Ｈ１の頭頂部の位置を推定する。

　推定部２５４は、ソース情報６０ｃの顔関節の位置と、ターゲット情報６０ｂの顔関節（３関節）の位置とを比較して、上述した式（１）の差ｅ^２が最小となるような変換パラメータ（回転Ｒ、並進ｔ、スケールｃ）を算出する。推定部２５４が変換パラメータを算出する処理は、実施例１の推定部１５４と同様である。

　推定部２５４は、図３３で説明したように、ソース情報６０ｃに変換パラメータを適用する。推定部２５４は、複数の頭頂部関節候補ｔｐ１－１～ｔｐ１－６のｚ軸方向の値をそれぞれ比較し、ｚ軸方向の値が最小となる頭頂部関節候補の位置を、頭頂部の位置として特定する。

　上記処理によって、推定部２５４は、競技者Ｈ１の顔座標の位置（顔関節の位置、頭頂部の位置）を推定し、前処理部２５２によって推定された３Ｄ骨格情報の頭部の情報を、顔座標の位置の情報に置き換えることで、３Ｄ骨格情報を生成する。推定部２５４は、生成した３Ｄ骨格情報を異常検知部２５５に出力する。また、推定部２５４は、顔座標の位置の情報に置き換える前の３Ｄ骨格情報も、異常検知部１５５に出力する。

　次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。図３５は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。図３５に示すように、情報処理装置２００の取得部１５１は、学習装置５０から顔関節推定モデル５４ｂを取得し、記憶部２４０に登録する（ステップＳ４０１）。

　取得部１５１は、カメラから時系列の画像フレームを受信し、測定テーブル１４１に登録する（ステップＳ４０２）。

　情報処理装置２００の前処理部１５２は、測定テーブル１４１の多視点の画像フレームを基にして、３Ｄ骨格情報を推生成する（ステップＳ４０３）。情報処理装置２００のターゲット情報生成部１５３は、顔関節推定モデル５４ｂに画像フレームを入力して、ターゲット情報を生成する（ステップＳ４０４）。

　情報処理装置２００の推定部２５４は、変換パラメータ推定処理を実行する（ステップＳ４０５）。推定部１５４は、ソース情報６０ａに変換パラメータを適用し、複数の頭頂部関節候補から頭頂部を推定する（ステップＳ４０６）。推定部２５４は、３Ｄ骨格情報の頭頂部の情報を、推定した頭頂部の情報に置き換える（ステップＳ４０７）。

　情報処理装置２００の異常検知部１５５は、頭頂部の異常を検知したか否かを判定する（ステップＳ４０８）。異常検知部１５５は、頭頂部の異常を検知しない場合には（ステップＳ４０８，Ｎｏ）、置き換え後骨格情報を、骨格認識結果テーブル１４２に登録し（ステップＳ４０９）、ステップＳ４１２に移行する。

　一方、異常検知部１５５は、頭頂部の異常を検知した場合には（ステップＳ４０８，Ｙｅｓ）、ステップＳ４１０に移行する。情報処理装置２００の補正部１５６は、置き換え後骨格情報を補正する（ステップＳ４１０）。補正部１５６は、補正した置き換え後骨格情報を、骨格認識結果テーブル１４２に登録し（ステップＳ４１１）、ステップＳ４１２に移行する。

　情報処理装置２００の技認識部１５７は、骨格認識結果テーブル１４２から、時系列の３Ｄ骨格情報を読み出して、技認識テーブル１４３に基づく技認識を実行する（ステップＳ４１２）。

　図３５のステップＳ４０５に示した変換パラメータ推定処理は、実施例１の図２９、図３０に示した変換パラメータ推定処理に対応する。

　次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、変換パラメータを、ソース情報６０ｃに適用し、複数の頭頂部関節候補のｚ軸方向の値をそれぞれ比較し、ｚ軸方向の値が最小となる頭頂部関節候補を、頭頂部として特定する。これによって、輪飛びなどのように、頭頂部を下に向ける演技を評価する場合の、頭頂部の位置をより適切に選択することができる。

　次に、上記実施例に示した情報処理装置１００（２００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３６は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　図３６に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、カメラ３０から距離画像のデータを受信する通信装置３０４と、各種の装置と接続するインタフェース装置３０５とを有する。コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

　ハードディスク装置３０７は、取得プログラム３０７ａ、前処理プログラム３０７ｂ、ターゲット情報生成プログラム３０７ｃ、推定プログラム３０７ｄ、異常検知プログラム３０７ｅ、補正プログラム３０７ｆ、技認識プログラム３０７ｇを有する。ＣＰＵ３０１は、取得プログラム３０７ａ、前処理プログラム３０７ｂ、ターゲット情報生成プログラム３０７ｃ、推定プログラム３０７ｄ、異常検知プログラム３０７ｅ、補正プログラム３０７ｆ、技認識プログラム３０７ｇを読み出してＲＡＭ３０６に展開する。

　取得プログラム３０７ａは、取得プロセス３０６ａとして機能する。前処理プログラム３０７ｂは、前処理プロセス３０６ｂとして機能する。ターゲット情報生成プログラム３０７ｃは、ターゲット情報生成プロセス３０６ｃとして機能する。推定プログラム３０７ｄは、推定プロセス３０６ｄとして機能する。異常検知プログラム３０７ｅは、異常検知プロセス３０６ｅとして機能する。補正プログラム３０７ｆは、補正プロセス３０６ｆとして機能する。技認識プログラム３０７ｇは、技認識プロセス３０６ｇとして機能する。

　取得プロセス３０６ａの処理は、取得部１５１の処理に対応する。前処理プロセス３０６ｂの処理は、前処理部１５２の処理に対応する。ターゲット情報生成プロセス３０６ｃの処理は、ターゲット情報生成部１５３の処理に対応する。推定プロセス３０６ｄの処理は、推定部１５４，２５４の処理に対応する。異常検知プロセス３０６ｅの処理は、異常検知部１５５の処理に対応する。補正プロセス３０６ｆの処理は、補正部１５６の処理に対応する。技認識プロセス３０６ｇの処理は、技認識部１５７の処理に対応する。

　なお、各プログラム３０７ａ～３０７ｇについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくてもよい。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｅを読み出して実行するようにしてもよい。

　１００，２００　　情報処理装置
　１１０　　通信部
　１２０　　入力部
　１３０　　表示部
　１４０，２４０　　記憶部
　１４１　　測定テーブル
　１４２　　骨格認識結果テーブル
　１４３　　技認識テーブル
　１５０，２５０　　制御部
　１５１　　取得部
　１５２　　前処理部
　１５３　　ターゲット情報生成部
　１５４，２５４　　推定部
　１５５　　異常検知部
　１５６　　補正部
　１５７　　技認識部

Claims

　競技者の頭部が所定の状態の画像を機械学習モデルに入力することで、前記競技者の顔に含まれる複数の関節の位置を特定し、
　前記複数の関節の位置のそれぞれを用いて、前記競技者の頭頂部の位置を推定する
　処理をコンピュータに実行させることを特徴とする推定プログラム。
　人物の顔に含まれる複数の関節の位置と前記人物の頭頂部とを定義した定義情報と、前記競技者の顔に含まれる複数の関節の位置を示す認識情報とを基にして、前記定義情報の複数の関節の位置を、前記認識情報の複数の関節の位置に合わせるパラメータを推定する処理を更にコンピュータに実行させ、
　前記頭頂部の位置を推定する処理は、前記パラメータと、前記定義情報の頭頂部の座標とを基にして、前記競技者の頭頂部の位置を推定することを特徴とする請求項１に記載の推定プログラム。
　前記機械学習モデルに入力される画像は、背景の色と前記競技者の髪の色とが類似している状態の画像、前記競技者の髪が乱れている状態の画像、または、前記競技者の頭が隠れている状態の画像のうち、何れかの画像であることを特徴とする請求項１に記載の推定プログラム。
　前記頭頂部の位置を基にして、平均台または床運動に関する演技を評価する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の推定プログラム。
　前記推定する処理によって推定された前記競技者の頭頂部の位置が異常であるか否かを判定し、前記競技者の頭頂部の位置が異常である場合に、前記前記競技者の頭頂部の位置を補正する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の推定プログラム。
　前記定義情報は、複数の頭頂部の候補を有し、前記頭頂部の位置を推定する処理は、前記パラメータを、前記定義情報に適用した場合に、前記複数の頭頂部の候補のうち、鉛直方向の値が最小となる頭頂部の候補の位置を、前記競技者の頭頂部の位置として推定することを特徴とする請求項２に記載の推定プログラム。
　競技者の頭部が所定の状態の画像を機械学習モデルに入力することで、前記競技者の顔に含まれる複数の関節の位置を特定し、
　前記複数の関節の位置のそれぞれを用いて、前記競技者の頭頂部の位置を推定する
　処理をコンピュータが実行することを特徴とする推定方法。
　人物の顔に含まれる複数の関節の位置と前記人物の頭頂部とを定義した定義情報と、前記競技者の顔に含まれる複数の関節の位置を示す認識情報とを基にして、前記定義情報の複数の関節の位置を、前記認識情報の複数の関節の位置に合わせるパラメータを推定する処理を更にコンピュータが実行し、
　前記頭頂部の位置を推定する処理は、前記パラメータと、前記定義情報の頭頂部の座標とを基にして、前記競技者の頭頂部の位置を推定することを特徴とする請求項７に記載の推定方法。
　前記機械学習モデルに入力される画像は、背景の色と前記競技者の髪の色とが類似している状態の画像、前記競技者の髪が乱れている状態の画像、または、前記競技者の頭が隠れている状態の画像のうち、何れかの画像であることを特徴とする請求項７に記載の推定方法。
　前記頭頂部の位置を基にして、平均台または床運動に関する演技を評価する処理を更にコンピュータが実行することを特徴とする請求項７に記載の推定方法。
　前記推定する処理によって推定された前記競技者の頭頂部の位置が異常であるか否かを判定し、前記競技者の頭頂部の位置が異常である場合に、前記前記競技者の頭頂部の位置を補正する処理を更にコンピュータが実行することを特徴とする請求項７に記載の推定方法。
　前記定義情報は、複数の頭頂部の候補を有し、前記頭頂部の位置を推定する処理は、前記パラメータを、前記定義情報に適用した場合に、前記複数の頭頂部の候補のうち、鉛直方向の値が最小となる頭頂部の候補の位置を、前記競技者の頭頂部の位置として推定することを特徴とする請求項８に記載の推定方法。
　競技者の頭部が所定の状態の画像を機械学習モデルに入力することで、前記競技者の顔に含まれる複数の関節の位置を特定する生成部と、
　前記複数の関節の位置のそれぞれを用いて、前記競技者の頭頂部の位置を推定する推定部と、
　有することを特徴とする情報処理装置。
　前記推定部は、人物の顔に含まれる複数の関節の位置と前記人物の頭頂部とを定義した定義情報と、前記競技者の顔に含まれる複数の関節の位置を示す認識情報とを基にして、前記定義情報の複数の関節の位置を、前記認識情報の複数の関節の位置に合わせるパラメータを推定し、前記パラメータと、前記定義情報の頭頂部の座標とを基にして、前記競技者の頭頂部の位置を推定することを特徴とする請求項１３に記載の情報処理装置。
　前記機械学習モデルに入力される画像は、背景の色と前記競技者の髪の色とが類似している状態の画像、前記競技者の髪が乱れている状態の画像、または、前記競技者の頭が隠れている状態の画像のうち、何れかの画像であることを特徴とする請求項１３に記載の情報処理装置。
　前記頭頂部の位置を基にして、平均台または床運動に関する演技を評価する技認識部を更に有することを特徴とする請求項１３に記載の情報処理装置。
　前記推定部によって推定された前記競技者の頭頂部の位置が異常であるか否かを判定する異常検知部と、前記競技者の頭頂部の位置が異常である場合に、前記前記競技者の頭頂部の位置を補正する補正部を更に有することを特徴とする請求項１３に記載の情報処理装置。
　前記定義情報は、複数の頭頂部の候補を有し、前記推定部は、前記パラメータを、前記定義情報に適用した場合に、前記複数の頭頂部の候補のうち、鉛直方向の値が最小となる頭頂部の候補の位置を、前記競技者の頭頂部の位置として推定することを特徴とする請求項１４に記載の情報処理装置。