WO2022049694A1

WO2022049694A1 - 学習装置、推定装置、学習方法、及び学習プログラム

Info

Publication number: WO2022049694A1
Application number: PCT/JP2020/033425
Authority: WO
Inventors: 隆昌永井; 翔一郎武田; 信哉志水
Original assignee: 日本電信電話株式会社
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2022-03-10
Also published as: US20240024756A1; JP7393701B2; JPWO2022049694A1

Abstract

競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、映像データに記録された競技者の競技に対する評価値である真値スコアに対してマスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータを生成する。

Description

学習装置、推定装置、学習方法、及び学習プログラム

　本発明は、例えば、競技者の競技の採点の手法に関するノウハウを学習する学習装置、学習方法、及び学習プログラム、並びに、学習結果に基づいて競技のスコアを推定する推定装置に関する。

　スポーツ競技において、高飛び込み、フィギュアスケート及び体操等の選手が行った競技に対して、オフィシャルな審判員がスコアを採点し、採点したスコアに基づいて個々の競技の順位を決める競技がある。このような競技には、採点における定量的な採点基準が存在している。

　近年、このような競技におけるスコアを自動的に推定するといったコンピュータビジョン分野での活動品質評価で使われる技術の検討が進められており、このような技術としてＡＱＡ（Action Quality Assessment）という技術が知られている。

　例えば、非特許文献１に記載の技術では、競技者が競技した一連の動作を記録した映像データを入力データとし、深層学習により映像データから特徴を抽出してスコアを推定する手法が提案されている。

　図１０は、非特許文献１に記載の技術における学習装置１００と、推定装置２００の概略構成を示すブロック図である。学習装置１００の学習処理部１０１には、学習用データとして、競技者が競技した一連の動作を記録した映像データと、当該競技者の競技に対して審判員が採点した真値スコアｔ_{ｓｃｏｒｅ}とが与えられる。学習処理部１０１は、ＤＮＮ（Deep Neural Network）を備えており、ＤＮＮに学習モデルデータ記憶部１０２が記憶する重みやバイアス等の係数を適用する。

　学習処理部１０１は、ＤＮＮに映像データを与えることにより出力値として得られる推定スコアｙ_{ｓｃｏｒｅ}と、当該映像データに対応する真値スコアｔ_{ｓｃｏｒｅ}とを用いて損失Ｌ_ＳＲを算出する。学習処理部１０１は、算出した損失Ｌ_ＳＲを小さくするように誤差逆伝搬法によりＤＮＮに適用する新たな係数を算出する。学習処理部１０１は、算出した新たな係数を学習モデルデータ記憶部１０２に書き込むことにより係数を更新する。

　これらの係数を更新する処理を繰り返すことにより、係数が次第に収束し、最終的に収束した係数が、学習済みの学習モデルを示す学習モデルデータとして学習モデルデータ記憶部１０２に記憶されることになる。なお、非特許文献１では、損失Ｌ_ＳＲの算出に、Ｌ_ＳＲ＝Ｌ１距離（ｙ_{ｓｃｏｒｅ}，ｔ_{ｓｃｏｒｅ}）＋Ｌ２距離（ｙ_{ｓｃｏｒｅ}，ｔ_{ｓｃｏｒｅ}）という損失関数を用いている。

　推定装置２００は、学習処理部１０１と同一構成のＤＮＮを備える推定処理部２０１と、学習装置１００の学習モデルデータ記憶部１０２が記憶する学習済みの学習モデルデータを予め記憶する学習モデルデータ記憶部２０２とを備える。推定処理部２０１のＤＮＮには、学習モデルデータ記憶部２０２が記憶する学習済みの学習モデルデータが適用される。推定処理部２０１は、任意の競技者が競技した一連の動作を記録した映像データを入力データとしてＤＮＮに与えることにより、ＤＮＮの出力値として当該競技に対する推定スコアｙ_{ｓｃｏｒｅ}が得られる。

Paritosh Parmar and Brendan Tran Morris,"Learning To Score Olympic Events", In CVPR Workshop. 2017

　非特許文献１に記載の技術に対して、以下のような実験を試みた。図１１（ａ）に示す競技者が競技した一連の動作を記録した映像データ（以下「原映像データ」という。）と、図１１（ｂ）に示す原映像データに含まれる複数の画像フレームの各々において競技者が表示されている領域を矩形形状の領域３０１，３０２，３０３で囲み、矩形形状の領域を画像フレームの平均色で塗りつぶした映像データ（以下「競技者隠蔽映像データ」という。）とを準備する。なお、領域３０１，３０２，３０３の範囲を点線の枠で示しているが、この点線の枠は、範囲を明確にするために示したものであり、実際の競技者隠蔽映像データには存在しない。

　図１１（ａ）に示すように、推定処理部２０１に対して原映像データを与えた場合に得られる推定スコアｙ_{ｓｃｏｒｅ}の正確度合いは「０．８８９０」であった。これに対して、図１１（ｂ）に示すように、推定処理部２０１に対して競技者隠蔽映像データを与えた場合に得られる推定スコアｙ_{ｓｃｏｒｅ}の正確度合いは「０．８５６３」であった。この実験結果より、競技者隠蔽映像データを推定処理部２０１に与えた場合、競技者の動作が見えないにも関わらず、高精度でスコアを推定しており、競技者の動作が見える原映像データの場合と比較して、スコアの推定精度がほとんど下がっていないことが分かる。

　非特許文献１に記載の技術では、競技者の動作に関する特徴、例えば、関節座標などを明示的に与えずに、映像データのみを学習用のデータとして与えている。そのため、上記の実験結果より、非特許文献１に記載の技術は、競技者の動作に関係ない映像中の特徴、例えば、会場などの背景の特徴を抽出しており、学習モデルデータは、競技者の動作に汎化していないのではないかと推測される。会場などの背景の特徴を抽出していることから、非特許文献１に記載の技術は、未知の背景を含む映像データに対して精度が悪化するのではないかとも推測される。

　人間の関節座標などの関節情報を明示的に与える手法も存在するが、関節は複雑な動作をするため推定が困難であり、不正確な関節情報は、逆に精度に悪影響を及ぼしてしまう。そのため、関節情報を明示的に与える手法は、回避したいという事情もある。

　上記事情に鑑み、本発明は、関節情報等の推定が困難な情報を明示的に与えることなく、競技者の動作を記録した映像データから、競技者の動作に汎化した学習モデルデータを生成することを可能とする技術の提供を目的としている。

　本発明の一態様は、競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、前記映像データに記録された前記競技者の競技に対する評価値である真値スコアに対して前記マスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータを生成する学習処理部を備える学習装置である。

　本発明の一態様は、競技者の動作を記録した映像データを取り込む入力部と、競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、前記映像データに記録された前記競技者の競技に対する評価値である真値スコアに対して前記マスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータと、前記映像データとに基づいて、前記映像データに対応する推定スコアを算出する推定処理部と、を備える推定装置である。

　本発明の一態様は、競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、前記映像データに記録された前記競技者の競技に対する評価値である真値スコアに対して前記マスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータを生成する学習方法である。

　本発明の一態様は、コンピュータに、競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、前記映像データに記録された前記競技者の競技に対する評価値である真値スコアに対して前記マスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータを生成させる手順、を実行させるための学習プログラムである。

　本発明により、関節情報等の推定が困難な情報を明示的に与えることなく、競技者の動作を記録した映像データから、競技者の動作に汎化した学習モデルデータを生成することが可能になる。

本発明の実施形態による学習装置の構成を示すブロック図である。本実施形態における画像フレームの一例を示す図である。本実施形態の学習用データ生成部の処理の流れを示すフローチャートである。本実施形態の画像フレームと競技者領域特定データが示す領域とマスク領域との関係を示す図である。本実施形態の画像フレームのマスク領域にマスク処理を行った状態を示す図である。本実施形態の学習処理部の処理の流れを示すフローチャートである。本実施形態の学習処理部が備える関数近似器の一例と当該関数近似器に与えられるデータを示す図である。本実施形態の推定装置の構成を示すブロック図である。本実施形態の推定装置の処理の流れを示すフローチャートである。非特許文献１に記載の技術における学習装置と推定装置の構成を示すブロック図である。非特許文献１に記載の技術に対して行った実験の概要とその結果を示す図である。

（学習装置の構成）
　以下、本発明の実施形態について図面を参照して説明する。図１は、本発明の実施形態による学習装置１の構成を示すブロック図である。学習装置１は、入力部１１、学習用データ生成部１２、学習処理部１３、及び学習モデルデータ記憶部１４を備える。

　入力部１１は、競技者が行う動作の中で採点の評価の対象となる一連の動作を背景と共に記録した映像データを取り込む。例えば、競技者が、水泳の高飛び込みの選手である場合、映像データには、競技者が、飛び込み台に立ち、ジャンプして、ひねりや回転などの動作をして、プールへの入水が完了するまでの動作が記録されることになる。入力部１１は、映像データの各々に含まれる複数の画像フレームの各々において競技者が表示されている領域を矩形形状で囲んだ領域の位置を示す競技者領域特定データを取り込む。

　例えば、図２は、水泳の高飛び込みの競技を記録した映像データに含まれる１つの画像フレーム４１を示す図であり、競技者の画像７１の全体を囲む点線で示す矩形の領域５１が、競技者領域特定データが示す領域になる。競技者領域特定データは、画像フレーム４１の各画素の位置が、例えば、左上の角を原点としたＸＹ座標で示される場合、矩形形状の４つ頂点のＸＹ座標を含むデータである。

　競技者領域特定データは、例えば、下記の参考文献に示す技術によって映像データに含まれる画像フレームの各々から自動的に生成してもよいし、映像データに含まれる全ての画像フレームを目視で確認しながら手動で生成してもよい。

［参考文献：Kaiming He, Georgia Gkioxari, Piotr Dollar and Ross Girshick, “Mask R-CNN”, In ICCV, 2017］

　入力部１１は、映像データに記録される競技者の動作に対する評価値である真値スコアを取り込む。真値スコアは、例えば、映像データに記録される競技者の動作に対して、映像データが記録された際に実際に審判員が採点した点数である。

　入力部１１は、複数の映像データを取り込むため、１つの映像データごとに、当該映像データに含まれる画像フレームごとの複数の競技者領域特定データと、１つの真値スコアを取り込むことになる。なお、真値スコアは、映像データに関連付けられており、複数の競技者領域特定データの各々は、映像データに含まれる複数の画像フレームの各々に関連付けられている。

　学習用データ生成部１２は、入力部１１が出力する映像データと、映像データに対応する競技者領域特定データとに基づいて、映像データに含まれる複数の画像フレームの各々において、各々に対応する競技者領域特定データが示す領域の一部分を任意にマスクしたマスク映像データを映像データごとに生成する。学習用データ生成部１２は、入力部１１が出力する映像データに対応する真値スコアに対してマスクした領域の割合に応じて重み付けをしたマスクスコアを映像データごとに生成する。

　学習処理部１３は、マスク映像データと、当該マスク映像データに対応するマスクスコアとの関係を示す学習モデルデータを生成する。より詳細には、学習処理部１３は、関数近似器を有しており、学習モデルデータ記憶部１４が記憶する関数近似器の係数を読み出し、読み出した係数を関数近似器に適用する。学習処理部１３は、マスク映像データを関数近似器に与えることにより出力値として得られる推定スコアが、当該マスク映像データに対応するマスクスコアに近づくように学習処理を行うことにより関数近似器の係数を更新する。ここで、関数近似器は、例えばＤＮＮである。係数とは、ＤＮＮに含まれる複数のニューロンの各々に適用される重みやバイアスである。

　学習モデルデータ記憶部１４は、初期状態において、学習処理部１３の関数近似器に適用される係数の初期値を予め記憶する。学習モデルデータ記憶部１４が記憶する係数は、学習処理部１３が学習処理により新たな係数を算出するごとに、学習処理部１３によって新たな係数に書き替えられる。

（学習用データ生成部による処理）
　図３は、学習用データ生成部１２が行うマスク映像データとマスクスコアを生成する処理の流れを示すフローチャートである。学習用データ生成部１２は、入力部１１が出力する複数の映像データと、複数の映像データの各々に対応する競技者領域特定データ及び真値スコアとを取り込む（ステップＳａ１）。

　学習用データ生成部１２は、複数の映像データの各々に対して、ステップＳａ２～Ｓａ８の処理を繰り返し行う（ループＬａ１ｓ～Ｌａ１ｅ）。学習用データ生成部１２は、マスクする領域（以下「マスク領域」という。）の割合を示す所定の割合（λ）を０～１の間の値からランダムに選択する。例えば、学習用データ生成部１２は、０～１の間の各値が同確率で出現する一様分布に基づいて、所定の割合（λ）を選択する（ステップＳａ２）。

　学習用データ生成部１２は、処理対象の映像データに対応する真値スコアと、選択した所定の割合（λ）とに基づいて、マスクスコアを算出する。例えば、真値スコアをｔ_{ｓｃｏｒｅ}とし、マスクスコアをｍ_{ｓｃｏｒｅ}とした場合、学習用データ生成部１２は、次式（１）によりマスクスコアｍ_{ｓｃｏｒｅ}を算出する（ステップＳａ３）。

ｍ_{ｓｃｏｒｅ}＝λｔ_{ｓｃｏｒｅ}・・・（１）

　学習用データ生成部１２は、処理対象の映像データに含まれる複数の画像フレームの各々に対して、ステップＳａ４～Ｓａ８の処理を繰り返し行う（ループＬａ２ｓ～Ｌａ２ｅ）。以下、図４及び図５を参照しつつ、ステップＳａ４～Ｓａ８の処理について説明する。

　図４に示す画像フレーム４１が、学習用データ生成部１２の処理対象の画像フレームであるとする。学習用データ生成部１２は、処理対象の画像フレーム４１に対応する競技者領域特定データが示す領域５１の縦方向の長さ（Ｈ）と、横方向の長さ（Ｗ）と、面積（Ｓ）とを、競技者領域特定データに含まれる４頂点のＸＹ座標に基づいて算出する（ステップＳａ４）。

　学習用データ生成部１２は、ステップＳａ２において選択した所定の割合（λ）と、算出した競技者領域特定データが示す領域５１の面積（Ｓ）とに基づいて、例えば、次式（２）により、マスク領域の面積（Ｓ’）を算出する（ステップＳａ５）。

Ｓ’＝λＳ・・・（２）

　学習用データ生成部１２は、マスク領域の面積（Ｓ’）になるように、マスク領域の範囲を選択する。具体的は、学習用データ生成部１２は、マスク領域の縦方向の長さ（Ｈ’）と、横方向の長さ（Ｗ’）とを選択する。例えば、学習用データ生成部１２は、マスク領域の横方向の長さ（Ｗ’）を次式（３）の範囲内からランダムに選択する。

　Ｓ’／Ｈ≦Ｗ’≦Ｗ・・・（３）

　学習用データ生成部１２は、選択した横方向の長さ（Ｗ’）と、マスク領域の面積（Ｓ’）とに基づいて、マスク領域の縦方向の長さ（Ｈ’）を次式（４）により算出する。

　Ｈ’＝Ｓ’／Ｗ’・・・（４）

　なお、上記のように、マスク領域の横方向の長さ（Ｗ’）を先に選択するのではなく、マスク領域の縦方向の長さ（Ｈ’）を先に選択するようにしてもよい。その場合、例えば、学習用データ生成部１２は、マスク領域の縦方向の長さ（Ｈ’）を次式（５）の範囲内からランダムに選択する。

　Ｓ’／Ｗ≦Ｈ’≦Ｈ・・・（５）

　学習用データ生成部１２は、選択した縦方向の長さ（Ｈ’）と、マスク領域の面積（Ｓ’）とに基づいて、マスク領域の横方向の長さ（Ｗ’）を次式（６）により算出する。

　Ｗ’＝Ｓ’／Ｈ’・・・（６）

　式（３）または式（５）の範囲から選択するようにしているのは、マスク領域の範囲が、競技者領域特定データが示す領域５１の範囲内に収まるようにするためである。式（３）の範囲から横方向の長さ（Ｗ’）をランダムに選択する際、及び、式（５）の範囲から縦方向の長さ（Ｈ’）をランダムに選択する際、例えば、学習用データ生成部１２は、一様分布に基づいてランダムに選択する（ステップＳａ６）。

　学習用データ生成部１２は、マスク領域の縦方向の長さ（Ｈ’）及び横方向の長さ（Ｗ’）を考慮して、マスク領域の全体が、競技者領域特定データが示す領域５１に収まる範囲内でマスク領域の位置をランダムに選択する。

　画像フレーム４１の各画素の位置が、例えば、左上の角を原点としたＸＹ座標で示されており、右方向がＸ座標が増加する方向であり、下方向がＹ座標が増加する方向であるとする。競技者領域特定データが示す領域５１の左上の座標が（Ｘ_１，Ｙ_１）であるとする。この場合、学習用データ生成部１２は、例えば、マスク領域の左上のＸ座標をＸ_１～Ｘ_１＋（Ｗ－Ｗ’）の範囲から一様分布に基づいてランダムに選択し、マスク領域の左上のＹ座標をＹ_１～Ｙ_１＋（Ｈ－Ｈ’）の範囲から一様分布に基づいてランダムに選択する（ステップＳａ７）。

　図４には、１つの画像フレーム４１における競技者領域特定データが示す領域５１に対して、ランダムに選択された４つのマスク領域６１，６２，６３，６４の例を示している。なお、学習用データ生成部１２は、１つの画像フレームに対してランダムに１つのマスク領域を選択するため、マスク領域６１，６２，６３，６４のいずれか１つが、画像フレーム４１のマスク領域として選択されることになる。図４に示すように、４つのマスク領域６１，６２，６３，６４のいずれもが、競技者領域特定データが示す領域５１の範囲内に収まる位置に配置されている。

　学習用データ生成部１２は、マスク領域を塗りつぶす色を選択する。例えば、学習用データ生成部１２は、処理対象の画像フレームの平均色を、マスク領域を塗りつぶす色として選択する。学習用データ生成部１２は、処理対象の画像フレームのマスク領域の範囲を、選択した色で塗りつぶすことによりマスク処理を行う（ステップＳａ７）。

　図５（ａ）～（ｄ）は、それぞれ図４に示したマスク領域６１，６２，６３，６４が、画像フレーム４１に適用されて、マスク領域６１，６２，６３，６４の範囲が、画像フレーム４１の平均色で塗りつぶされた例を示している。これにより、画像フレーム４１における競技者領域特定データが示す領域５１の一部分が任意にマスクされることになる。

　学習用データ生成部１２は、処理対象の映像データに含まれる画像フレームの各々に対して、ステップＳａ４～Ｓａ８の処理を行うことにより（ループＬａ２ｅ）、処理対象の映像データの全ての画像フレームにおいてマスク処理が行われたマスク映像データを生成する。学習用データ生成部１２は、生成したマスク映像データに、ステップＳａ３で算出したマスクスコアｍ_{ｓｃｏｒｅ}を関連付けて学習処理部１３に出力する（ステップＳａ９）。

　例えば、学習用データ生成部１２が生成したマスク映像データに含まれる複数の画像フレームを時系列順に最初から表示すると、マスク領域の範囲や位置によっては、競技者の画像の全体が見える場合もあるが、主として、競技者の画像の一部がランダムにマスクで隠された状態で表示されることになる。

　学習用データ生成部１２は、全ての映像データに対して、ステップＳａ２～Ｓａ８の処理を繰り返し行う（ループＬａ１ｅ）。これにより、学習用データ生成部１２は、複数の映像データと、複数の映像データの各々に対応する競技者領域特定データ、及び真値スコアとに基づいて、学習処理部１３が学習処理に利用する学習用のデータとして、複数のマスク映像データと、マスク映像データの各々に関連付けられた複数のマスクスコアｍ_{ｓｃｏｒｅ}とを生成することができる。

　なお、上記のステップＳａ２では、学習用データ生成部１２は、一様分布に基づいて、０～１の間の値から所定の割合（λ）を選択するようにしているが、一様分布以外の他の分布に基づいて所定の割合（λ）を選択してもよい。例えば、学習用データ生成部１２は、０．０，０．２５，０．５，０．７５，１．０のような５つの値に限定して、５つの値のいずれかを所定の割合（λ）としてランダムに選択してもよく、選択する範囲、すなわち０～１の範囲を０．２５以外の任意の刻み幅で刻むことにより特定される複数の固定値の中からランダムに選択した値を所定の割合（λ）としてもよい。

　上記のステップＳａ６では、学習用データ生成部１２は、一様分布に基づいて、マスク領域の横方向の長さ（Ｗ’）、または、縦方向の長さ（Ｈ’）をランダムに選択するようにしているが、一様分布以外の他の分布に基づいてランダムに選択するようにしてもよい。所定の割合（λ）の選択と同様に、選択する範囲を任意の刻み幅で刻むことにより特定される複数の固定値の中からランダムに選択した値を横方向の長さ（Ｗ’）、または、縦方向の長さ（Ｈ’）としてもよい。

　上記のステップＳａ７では、学習用データ生成部１２は、一様分布に基づいて、マスク領域の位置をランダムに選択するようにしているが、一様分布以外の他の分布に基づいてランダムに選択するようにしてもよい。所定の割合（λ）の選択と同様に、選択する範囲を任意の刻み幅で刻むことにより特定される複数の固定値の中からランダムに選択した値をマスク領域の位置としてもよい。

　上記のステップＳａ３では、学習用データ生成部１２は、式（１）により、マスクスコアｍ_{ｓｃｏｒｅ}を算出するようにしているが、その他の関数、例えば、シグモイド関数などの可変のパラメータにλを適用して真値スコアｔ_{ｓｃｏｒｅ}からマスクスコアｍ_{ｓｃｏｒｅ}を算出するようにしてもよい。

　上記のステップＳａ８では、学習用データ生成部１２は、処理対象の画像フレームの平均色を、当該画像フレームに対応するマスク領域を塗りつぶす色として選択しているが、本発明の構成は、当該実施の形態に限られない。学習用データ生成部１２は、処理対象の映像データに含まれる全ての画像フレームの平均色を、当該映像データに対応する全てのマスク領域を塗りつぶす色として選択してもよい。学習用データ生成部１２は、任意に定める色で全てのマスク領域を同じ色で塗りつぶしてマスク処理を行うようにしてもよい。なお、マスク領域の色は、目立たないようにした方がよいため、画像フレームごとの全体の色合いに応じて、目立たない色が選択する必要があり、その点では、背景に溶け込んで目立たない色合いになる画像フレームごとの平均色を選択するのが最も効果的であると考えられる。

（学習処理部による処理）
　図６は、学習処理部１３が行う学習処理の流れを示すフローチャートである。学習処理部１３は、内部に備える関数近似器の係数が充分に収束するのに必要な学習ステップ回数の上限値を予め内部の記憶領域に記憶させる。学習モデルデータ記憶部１４は、学習処理部１３が備える関数近似器に適用される係数の初期値を予め記憶する。

　学習処理部１３は、学習用データ生成部１２が出力する複数のマスク映像データと、複数のマスク映像データの各々に関連付けられている複数のマスクスコアｍ_{ｓｃｏｒｅ}とを取り込む。学習処理部１３は、取り込んだ複数のマスク映像データと、複数のマスクスコアｍ_{ｓｃｏｒｅ}との組み合わせの各々に処理の順番を示す番号を付与して内部の記憶領域に書き込んで記憶させる（ステップＳｂ１）。学習処理部１３は、内部の記憶領域に学習ステップ回数を示す変数ｎ（以下「学習ステップ回数ｎ」という。）を記憶する領域を生成し、生成した領域に「１」を書き込む（ステップＳｂ２）。

　学習処理部１３は、学習モデルデータ記憶部１４が記憶する係数を読み出し、読み出した係数を関数近似器に適用する（ステップＳｂ３）。学習処理部１３は、内部の記憶領域から最初の処理順のマスク映像データと、マスクスコアｍ_{ｓｃｏｒｅ}とを読み出す。学習処理部１３は、読み出したマスク映像データを入力データとして関数近似器に与える（ステップＳｂ４）。

　学習処理部１３は、関数近似器の出力値である推定スコア（以下「推定スコアｙ_{ｓｃｏｒｅ}」という。）と、ステップＳｂ４において読み出したマスクスコアｍ_{ｓｃｏｒｅ}の誤差を算出する（ステップＳｂ５）。学習処理部１３は、算出した誤差に損失関数を適用して損失を算出する。学習処理部１３は、算出した損失を小さくするように、例えば、誤差逆伝搬法などの手法により関数近似器の新たな係数を算出する。学習処理部１３は、算出した新たな係数を学習モデルデータ記憶部１４に書き込んで係数を更新する（ステップＳｂ６）。

　なお、損失関数としては、推定スコアｙ_{ｓｃｏｒｅ}と、マスクスコアｍ_{ｓｃｏｒｅ}のＬ１距離（マンハッタン距離）を算出する関数を用いてもよいし、推定スコアｙ_{ｓｃｏｒｅ}と、マスクスコアｍ_{ｓｃｏｒｅ}のＬ２距離（ユークリッド距離）を算出する関数を用いてもよいし、Ｌ１距離とＬ２距離の合計を算出する関数を用いてもよい。

　学習処理部１３は、内部の記憶領域から学習ステップ回数ｎを読み出し、読み出した学習ステップ回数ｎが、内部の記憶領域が記憶する上限値に一致するか否かを判定する（ステップＳｂ７）。学習処理部１３は、読み出した学習ステップ回数ｎが、上限値に一致していないと判定した場合（ステップＳｂ７、Ｎｏ）、読み出した学習ステップ回数ｎに１を加算する。学習処理部１３は、加算値であるｎ＋１の値を新たな学習ステップ回数ｎとして、内部の記憶領域の学習ステップ回数ｎの領域に書き込み（ステップＳｂ８）、再びステップＳｂ３以降の処理を行う。

　次のステップＳｂ３の処理において、学習処理部１３は、学習モデルデータ記憶部１４からステップＳｂ６において更新された係数を読み出し、読み出した係数を関数近似器に適用する。次のステップＳｂ４において、学習処理部１３は、次の処理順のマスク映像データと、マスクスコアｍ_{ｓｃｏｒｅ}とを読み出し、読み出したマスク映像データを関数近似器に与える。なお、ステップＳｂ３～Ｓｂ６の処理を繰り返し行う間に、学習処理部１３は、全てのマスク映像データと、マスクスコアｍ_{ｓｃｏｒｅ}との組み合わせに対してステップＳｂ４～Ｓｂ６の処理を行った場合、順番を最初に戻して、最初の処理順のマスク映像データと、マスクスコアｍ_{ｓｃｏｒｅ}との組み合わせから順に読み出してステップＳｂ４～Ｓｂ６の処理を行う。

　一方、学習処理部１３は、読み出した学習ステップ回数ｎが、上限値に一致していると判定した場合（ステップＳｂ７、Ｙｅｓ）、処理を終了する。これにより、学習モデルデータ記憶部１４には、充分に収束した学習済みの係数が記憶されることになり、この学習済みの係数が、学習済みの学習モデルを示す学習モデルデータとなる。

　なお、図６では、マスク映像データと、マスクスコアｍ_{ｓｃｏｒｅ}との組み合わせごとに関数近似器の係数を更新するオンライン学習の手法を示しているが、予め定められる数のマスク映像データと、マスクスコアｍ_{ｓｃｏｒｅ}との組み合わせごとに関数近似器の係数を更新するミニバッチ学習を行ってもよいし、全てのマスク映像データと、マスクスコアｍ_{ｓｃｏｒｅ}との組み合わせごとに関数近似器の係数を更新するバッチ学習を行うようにしてもよい。

　図７は、学習処理部１３が備える関数近似器の一例である関数近似器３０におけるＤＮＮの構成を示す図である。学習処理部１３は、マスク映像データを取り込むと、例えば、マスク映像データを９６フレームにリサンプリングし、９６フレームを１６フレームごとに分割して６個の分割マスク映像データを生成する。関数近似器３０は、３次元畳み込みネットワーク層３１－１～３１－６と、平均部３２と、スコア回帰ネットワーク層３３とを備える。３次元畳み込みネットワーク層３１－１～３１－６の各々は、６個に分割された分割マスク映像データの各々を取り込む。３次元畳み込みネットワーク層３１－１～３１－６の各々は、各々が取り込んだ分割マスク映像データから特徴抽出を行い、各々が取り込んだ分割マスク映像データの特徴量を出力する

　平均部３２は、３次元畳み込みネットワーク層３１－１～３１－６の各々が出力する分割マスク映像データの特徴量を平均して出力する。スコア回帰ネットワーク層３３は、平均部３２が出力する分割マスク映像データの特徴量の平均と、マスク映像データに対応するマスクスコアｍ_{ｓｃｏｒｅ}とに基づいて回帰分析を行い、分割マスク映像データの特徴量の平均と、マスクスコアｍ_{ｓｃｏｒｅ}との関係性を抽出する。学習処理部１３による学習処理が繰り返し行われることにより、３次元畳み込みネットワーク層３１－１～３１－６による特徴抽出、及びスコア回帰ネットワーク層３３による回帰分析の精度が高められていくことになる。なお、３次元畳み込みネットワーク層３１－１～３１－６、及びスコア回帰ネットワーク層３３には、学習モデルデータ記憶部１４が記憶する係数が適用される。３次元畳み込みネットワーク層３１－１～３１－６の各々には、共有する係数、すなわち同一の係数が適用される。

（推定装置の構成）
　図８は、本発明の実施形態による推定装置２の構成を示すブロック図である。推定装置２は、入力部２１、推定処理部２２、及び学習モデルデータ記憶部２３を備える。学習モデルデータ記憶部２３は、学習装置１の学習モデルデータ記憶部１４が記憶する学習済みの係数、すなわち学習済みの学習モデルデータを予め記憶する。入力部２１は、任意の映像データ、すなわち任意の競技者が行う一連の動作を背景と共に記録した映像データを取り込む。

　推定処理部２２は、入力部２１が取り込んだ任意の映像データと、学習モデルデータ記憶部２３が記憶する学習済みの学習モデルデータとに基づいて、映像データに対応する推定スコアを算出する。なお、推定処理部２２は、学習処理部１３と同一の構成の関数近似器を備えている。

（推定装置による処理）
　図９は、推定装置２による処理の流れを示すフローチャートである。入力部２１は、任意の映像データを取り込み、取り込んだ映像データを推定処理部２２に出力する（ステップＳｃ１）。推定処理部２２は、入力部２１が出力する映像データを取り込む。推定処理部２２は、学習モデルデータ記憶部２３から学習済みの学習モデルデータ、すなわち学習済みの係数を読み出し、読み出した学習済みの係数を関数近似器に適用する（ステップＳｃ２）。

　推定処理部２２は、取り込んだ映像データを入力データとして関数近似器に与える（ステップＳｃ３）。推定処理部２２は、関数近似器の出力値を、映像データに対する推定スコアとして出力する（ステップＳｃ４）。

　上記の実施形態の学習装置１において、入力部１１は、映像データと、映像データに含まれる複数の画像フレームの各々における競技者を囲む領域を特定する競技者領域特定データと、映像データに記録された競技者の競技に対する評価値である真値スコアとを取り込む。学習用データ生成部１２は、映像データに含まれる複数の画像フレームの各々において、各々の画像フレームに対応する競技者領域特定データが示す領域の任意の位置の一部分の領域であって映像データごとに任意に定める所定の割合の大きさの領域をマスクしてマスク映像データを生成し、映像データごとの真値スコアに対して、当該映像データに対応する所定の割合に応じた重み付けをしてマスクスコアを生成する。学習処理部１３は、映像データに対応するマスク映像データと、映像データに対応するマスクスコアとの関係を示す学習モデルデータを生成する。これにより、学習用データ生成部１２が生成したマスク映像データに含まれる複数の画像フレームの中のいくつかの画像フレームにおいて、競技者の画像の一部がランダムにマスクで隠された状態になる。そのため、学習処理部１３が行う学習処理において、競技者の動作に関する映像データの中の特徴を抽出するように促進される。それにより、関節情報等の推定が困難な情報を明示的に与えることなく、上記の実験結果が示すように、競技者の動作を記録した映像データから、競技者の動作に汎化した学習モデルデータを生成することが可能になる。

　なお、上記の実施形態では、競技者領域特定データが示す領域に１人の競技者が含まれる例を示しているが、競技者領域特定データが示す領域に、複数の競技者が含まれていてもよい。

　なお、上記の実施形態では、競技者領域特定データが示す領域の形状を矩形形状にしているが、矩形形状に限られるものではなく、矩形形状以外の形状であってもよい。

　上記の実施形態では、真値スコアは、実際に審判が採点した点数であるとしているが、実際の競技で採用されている定量的な採点基準以外の基準によって採点された点数であってもよい。

　上記の実施形態の学習装置１の学習処理部１３と、推定装置２が備える推定処理部２２が備える関数近似器は、例えば、ＤＮＮであり、一例として、図７に示す構成を示しているが、ＤＮＮ以外のニューラルネットワークや、機械学習による手段が適用されてもよい。

　学習装置１と推定装置２とは、一体化されて構成されてもよい。このように構成される場合、学習装置１と推定装置２とが一体化された装置は、学習モードと推定モードとを有する。学習モードは、学習装置１による学習処理を行って学習済みの学習モデルを生成するモードである。すなわち、学習モードでは、学習装置１と推定装置２とが一体化された装置は、図６に示す処理を実行する。推定モードは、学習済みモデルを用いて推定スコアを出力するモードである。すなわち、推定モードでは、学習装置１と推定装置２とが一体化された装置は、図９に示す処理を実行する。

　上述した実施形態における学習装置１、及び推定装置２をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　スポーツ競技における競技の採点に利用することができる。

１…学習装置、１１…入力部、１２…学習用データ生成部、１３…学習処理部、１４…学習モデルデータ記憶部

Claims

　競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、前記映像データに記録された前記競技者の競技に対する評価値である真値スコアに対して前記マスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータを生成する学習処理部
　を備える学習装置。
　前記学習処理部は、
　関数近似器を有しており、前記マスク映像データを前記関数近似器に与えることにより出力値として得られる推定スコアが、当該マスク映像データに対応する前記マスクスコアに近づくように学習処理を行って前記関数近似器の係数である前記学習モデルデータを更新する、
　請求項１に記載の学習装置。
　前記映像データと、前記映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域を特定する競技者領域特定データと、前記映像データに対応する前記真値スコアとを取り込む入力部と、
　前記映像データに含まれる複数の画像フレームの各々において、各々の前記画像フレームに対応する前記競技者領域特定データが示す領域の任意の位置の一部分の領域であって前記映像データごとに任意に定める所定の割合の大きさの領域をマスクして前記マスク映像データを生成し、前記映像データごとの前記真値スコアに対して、当該映像データに対応する前記所定の割合に応じた重み付けをして前記マスクスコアを生成する学習用データ生成部と、
　を備える請求項１又は２に記載の学習装置。
　前記学習用データ生成部は、
　前記画像フレームの平均色で当該画像フレームに対応するマスク領域を塗りつぶしてマスクするか、または、前記映像データの平均色で当該映像データに対応する全てのマスク領域を塗りつぶしてマスクするか、または、任意に定める色で全てのマスク領域を同じ色に塗りつぶしてマスクする、
　請求項３に記載の学習装置。
　競技者の動作を記録した映像データを取り込む入力部と、
　競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、前記映像データに記録された前記競技者の競技に対する評価値である真値スコアに対して前記マスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータと、前記映像データとに基づいて、前記映像データに対応する推定スコアを算出する推定処理部と、
　を備える推定装置。
　競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、前記映像データに記録された前記競技者の競技に対する評価値である真値スコアに対して前記マスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータを生成する学習方法。
　コンピュータに、
　競技者の動作を記録した映像データに含まれる複数の画像フレームの各々における前記競技者を囲む領域の一部分を任意にマスクしたマスク映像データと、前記映像データに記録された前記競技者の競技に対する評価値である真値スコアに対して前記マスクした領域の割合に応じた重み付けをしたマスクスコアとの関係を示す学習モデルデータを生成させる手順、
　を実行させるための学習プログラム。