WO2019230264A1

WO2019230264A1 - 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム

Info

Publication number: WO2019230264A1
Application number: PCT/JP2019/017217
Authority: WO
Inventors: 麻理子五十川; 弾三上; 康輔高橋; 木全　英明; 鮎美松本
Original assignee: 日本電信電話株式会社
Priority date: 2018-05-31
Filing date: 2019-04-23
Publication date: 2019-12-05
Also published as: JP7140186B2; US20210225007A1; US11810306B2; JPWO2019230264A1

Abstract

動作を早期認識するためのモデルを学習する動作分類用モデル学習装置を提供する。その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを取得する教師データ取得部と、映像情報のモーションヒストリーイメージを生成するモーションヒストリーイメージ生成部と、モーションヒストリーイメージを入力としカテゴリ情報であるラベルを出力とするモデルを学習するモデル学習部を含む。

Description

動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム

　本発明は、動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラムに関する。

　モーションヒストリーイメージは近い時刻の情報ほど輝度が高く、遠い時刻の情報ほど輝度が低くなるように、動きの軌跡を残像のように１枚で表現した画像である。モーションヒストリーイメージ（Motion History Image）を、以下ＭＨＩとも呼称する。ＭＨＩを用いることで、映像を入力とするよりも少ない情報量で、かつ動き情報に着目した効果的な学習を行うことができる。ＭＨＩについては、例えば非特許文献１に開示されている。ＭＨＩの例を図１に示す。

A. F. Bobick and J. W. Davis. The recognition of human movement using temporal templates. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(3):257-267, 2001.

　上述のＭＨＩを使って、動作をカテゴライズすることができれば、様々な分野に応用可能である。例えば、野球のバッターにとっては、ピッチャーの投球フォームからいち早く球種を判定することが重要である。早く球種を判定するほど、バッターはそのリアクションに時間を割くことができる。また、ピッチャーの投球フォームから、ピッチャーの肩や身体にかかる負担の度合いを判定することも重要である。動作のカテゴライズは野球に限らず、相手選手の動作に対してリアクションを行う競技全般で重要である。例えばサッカーでは、ゴールキーパーからみてキッカーのシュートがゴールのどのあたりに飛んでくるかをキッカーのフォームから判定することが重要である。

　動作のカテゴライズはスポーツに限らず、他の分野でも重要である。例えば、何らかの作業に従事する人の動作から、怪我や事故の危険性を判定することは重要である。判定対象となる動作は人に限らず、例えば人が操縦する重機や機械などの動作であってもよい。

　動作が終了するまでに、その動作の特徴に応じてその動作の属するカテゴリを認識することを、この明細書では早期認識と呼ぶ。上述のＭＨＩの技術は早期認識に応用できる可能性があるが、その具体的な方法は明らかでなかった。

　そこで本発明は、動作を早期認識するためのモデルを学習する動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラムを提供することを目的とする。

　本発明の動作分類用モデル学習装置は、教師データ取得部と、モーションヒストリーイメージ生成部と、モデル学習部を含む。

　教師データ取得部は、その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを取得する。モーションヒストリーイメージ生成部は、映像情報のモーションヒストリーイメージを生成する。モデル学習部は、モーションヒストリーイメージを入力としカテゴリ情報であるラベルを出力とするモデルを学習する。

　本発明の動作分類用モデル学習装置によれば、動作を早期認識するためのモデルを学習することができる。

ＭＨＩの例を示す図。実施例１の動作分類用モデル学習装置の構成を示すブロック図。実施例１の動作分類用モデル学習装置の動作を示すフローチャート。実施例２の動作分類装置の構成を示すブロック図。実施例２の動作分類装置の動作を示すフローチャート。複数のＭＨＩを利用する場合のＭＨＩの生成例について説明する図。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

《動作分類用モデル学習装置１》
　以下、図２を参照して実施例１の動作分類用モデル学習装置の構成について説明する。同図に示すように本実施例の動作分類用モデル学習装置１は、教師データ取得部１１と、モーションヒストリーイメージ生成部１２と、モデル学習部１３と、重み記憶部１４を含む。以下、図３を参照して各部の動作を説明する。各動作については、まず一般的な動作を説明した後、野球のピッチャーの投球フォームを対象とした場合の具体的動作について詳細に説明する。

＜教師データ取得部１１＞
　教師データ取得部１１は、その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを入力とし、モーションヒストリーイメージ生成部１２へ映像情報を、モデル学習部１３へ正解ラベルを、それぞれ出力する（Ｓ１１）。野球のピッチャーの例でステップＳ１１を例示するならば、教師データ取得部１１は、野球のピッチャーの投球を撮影した映像情報（以下、投球映像）と、この投球映像に対応する正解ラベルであるカテゴリ情報（以下、球種情報）または球種情報を表すラベル値の対からなる教師データを入力とし、モーションヒストリーイメージ生成部１２へ投球映像を、モデル学習部１３へ球種情報または球種情報を表すラベル値を、それぞれ出力する。

　ピッチャーの投球映像をＶ、球種情報のラベル値をＬとする。さらに、ｘ，ｙをフレームの二次元座標、ｔを時系列軸として、投球映像を、Ｖ（ｘ，ｙ，ｔ）とも表す。以降では、ｔは時系列情報を反映する変数として，映像フレームの時系列軸の添え字を表すものとする。すなわち、シーケンス開始フレームからの経過フレーム数を示す値であるとする。また、球種情報のラベル値Ｌはあらかじめ決められた整数で表す。教師データ取得部１１は、球種情報を表すテキスト情報を入力として受け付け、所定のラベル値Ｌに変換してもよいし、ラベル値Ｌそのものを入力として受け付けてもよい。ラベル値Ｌは、例えば、ストレートボールにＬ＝０、カーブボールにＬ＝１などを割り当てればよい。本発明は、投球映像Ｖ（ｘ，ｙ，ｔ）が含むべきシーケンス中のイベントを特に限定するものではないが、例えば、ピッチャーが前の投球を終えて捕手からボールを受け取ってから、捕手が捕球するまでを投球映像Ｖ（ｘ，ｙ，ｔ）が含むべき１つのシーケンスと設定すればよい。

＜モーションヒストリーイメージ生成部１２＞
　モーションヒストリーイメージ生成部１２は、教師データ取得部１１から出力される映像情報を入力とし、映像情報のＭＨＩを生成し、生成したＭＨＩをモデル学習部１３へ出力する（Ｓ１２）。野球のピッチャーの例でステップＳ１２を例示するならば、モーションヒストリーイメージ生成部１２は、投球映像からＭＨＩを生成し、生成したＭＨＩをモデル学習部１３へ出力することになる。

　モーションヒストリーイメージ生成部１２は、投球映像Ｖ（ｘ，ｙ，ｔ）に基づいてあらかじめ決められたフレームｔ’以前の一定フレーム前までのフレーム区間の情報を持つＭＨＩである、Ｍ_ｔ’を出力する。これは以下の式で算出できる。
Ｍ_ｔ’（ｘ，ｙ）＝ＭＨＩ（ｘ，ｙ，ｔ’）
Ｍ_ｔ’（ｘ，ｙ）は、画像中の画素位置（ｘ，ｙ）、フレームｔ’におけるＭＨＩ画像の輝度値を表す。なお、ＭＨＩは以下の式で算出できる。

　ここで、ｍ（ｘ，ｙ）はフレームｔ，ｔ－１とのフレーム間差分Ｖ（ｘ，ｙ，ｔ）－Ｖ（ｘ，ｙ，ｔ－１）で求められる。ｔｈはその差分のうち、どの程度動きが大きければＭＨＩに含めるかを決定する閾値を示す、０から２５５までのスカラー値であり、例えばｔｈ＝１と設定することができる。また、ｄはＭＨＩにどの程度以前のフレームの情報を伝搬させるかを決定するパラメータで、１以上、シーケンスに含まれるフレーム数未満の整数値を持つ。例えば、ｄ＝８と設定すると、１フレームあたり８ずつ輝度が減少するため、ＭＨＩに含まれる以前のフレームの情報は、２５６／８＝３２フレーム分となり、ｄ＝１６と設定すると、１フレームあたり１６ずつ輝度が減少するため、ＭＨＩに含まれる以前のフレームの情報は、２５６／１６＝１６フレーム分となる。

＜モデル学習部１３＞
　モデル学習部１３は、ＭＨＩを入力としカテゴリ情報であるラベルを出力とする畳み込みニューラルネットワーク（convolutional neural network，以下、ＣＮＮとも表記）を学習し、学習済みのＣＮＮの重みＷを出力する（Ｓ１３）。野球のピッチャーの例でステップＳ１３を例示するならば、モデル学習部１３は、教師データ（投球映像に基づくＭＨＩと球種情報の対）を入力として、ＣＮＮを学習することになる。このＣＮＮは、投球映像に基づくＭＨＩを入力とし、球種情報を出力するニューラルネットワークモデル（識別器）である。

　モデル学習部１３は、ステップＳ１２で求めたＭ_ｔ’およびステップＳ１１で取得した球種情報のラベル値Ｌに基づいて、Ｍ_ｔ’を入力としてＬを出力とするＣＮＮを学習し、学習済みのＣＮＮの重みＷを出力する。ここで、ＣＮＮの構造は分類問題を解くものであればよく、本発明は特にネットワーク構造を制限しないが、例えば参考非特許文献１で提案されているＶＧＧ１６を用いることができる。
（参考非特許文献１：K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR, abs/1409.1, 2014.）

＜重み記憶部１４＞
　重み記憶部１４は、学習されたＣＮＮの重み（重みパラメータ）を記憶する。野球のピッチャーの例であれば、投球映像に基づくＭＨＩを入力とし、球種情報を出力するＣＮＮの重みが記憶されることになる。学習されたＣＮＮの重みは、後述する動作分類装置２に送信される。

　なお、動作分類用モデル学習装置１と後述する動作分類装置２を一つのハードウェアにまとめてもよい。この場合、重み記憶部１４は後述する重み記憶部２４と共通であってもよい。

　また、上記実施例１に記載した発明は例としてＣＮＮを学習器および推定器として用いたが、本発明はその適用範囲をＣＮＮに限るものではなく、例えばＲＮＮやＬＳＴＭなどのネットワークにも適用することが可能である。また、ネットワークの層の深さに関しても本発明は特に制限を設けるものではない。ただし、学習済みの重みＷを用いるため、２層以上のネットワークである必要がある。

《動作分類装置２》
　以下、図４を参照して実施例２の動作分類装置の構成について説明する。同図に示すように本実施例の動作分類装置２は、未知データ取得部２１と、モーションヒストリーイメージ生成部２２と、ラベル選択部２３と、重み記憶部２４を含む。以下、図５を参照して各部の動作を説明する。各動作については、まず一般的な動作を説明した後、野球のピッチャーの投球フォームを対象とした場合の具体的動作について詳細に説明する。

＜重み記憶部２４＞
　重み記憶部２４には、動作分類用モデル学習装置１において学習され、動作分類装置２に送信された畳み込みニューラルネットワークの重み（重みパラメータ）が記憶されている。

＜未知データ取得部２１＞
　未知データ取得部２１は、正解ラベルが付されていない映像情報である未知データを入力とし、入力された未知データをモーションヒストリーイメージ生成部２２へ出力する（Ｓ２１）。野球のピッチャーの例でステップＳ２１を例示するならば、未知データ取得部２１は、正解ラベルとして球種情報が付されていない投球映像Ｖを入力とし、入力された投球映像Ｖをモーションヒストリーイメージ生成部２２へ出力することになる。上述と同様に、ｘ，ｙをフレームの二次元座標、ｔを時系列軸、投球映像を、Ｖ（ｘ，ｙ，ｔ）と表す。

＜モーションヒストリーイメージ生成部２２＞
　モーションヒストリーイメージ生成部２２は、未知データ取得部２１から出力された映像情報である未知データを入力とし、未知データのＭＨＩを生成し、生成したＭＨＩを出力する（Ｓ２２）。野球のピッチャーの例でステップＳ２２を例示するならば、モーションヒストリーイメージ生成部２２は、正解ラベルとして球種情報が付されていない投球映像Ｖを入力とし、投球情報ＶのＭＨＩを生成し、生成したＭＨＩを出力することになる。モーションヒストリーイメージ生成部２２の動作は、モーションヒストリーイメージ生成部１２の動作と共通である。

＜ラベル選択部２３＞
　ラベル選択部２３は、モーションヒストリーイメージ生成部２２から出力された未知データのＭＨＩと重み記憶部２４に記憶された学習済みのＣＮＮの重みを入力とし、未知データのＭＨＩとＣＮＮの重みに基づいて、ＣＮＮの演算処理を実行し、未知データが複数あるカテゴリのうちの何れに属するかを示すラベルを選択し、出力する（Ｓ２３）。野球のピッチャーの例でステップＳ２３を例示するならば、ステップＳ２２で生成した投球映像に基づくＭＨＩを、重み記憶部２４に記憶済みの重みパラメータで規定したＣＮＮ（識別器）に入力し、出力された球種情報に基づいて球種を特定するラベルを選択し、出力することになる。

　ラベル選択部２３は、重み記憶部２４から取得したネットワークの重みＷ，ＭＨＩ（Ｍ_ｔ’）を入力として、重みＷで特定されるＣＮＮ（すなわち、ステップＳ１３で学習したＣＮＮと同一のＣＮＮ）により、Ｍ_ｔ’を入力とした際のＣＮＮの出力Ｌ’から、球種情報のラベルを選択する。ＣＮＮの最終出力Ｌ’に応じて、以下のようにラベルを選択すればよい。

（ａ）ＣＮＮの最終出力がスカラー値Ｌ’＝ｂである場合
　選択するラベルはスカラー値ｂに最も近い整数とする。例えば、ストレートボールとカーブボールの２値分類を行うタスクに対して、選択すべきラベルを０（ストレート）、１（カーブ）などの２値で表す場合などである。この場合、ＣＮＮからの最終出力Ｌ’が０から１までの小数で得られ、最も近い整数が選択すべきラベルとなる。例えば、最終出力Ｌ’が０．３ならラベル０（ストレート）、最終出力Ｌ’が０．８ならラベル１（カーブ）が選択される。上述のように、閾値を０．５として分類してもよいが、投手の傾向や判定結果などを鑑みて閾値にバイアスをもたせ、カーブボールまたはストレートボールに判定されやすくするように調整を行ってもよい。また、上述の２値分類に限らず、３種類以上の分類としてもよい。その場合、例えば、０：ストレートボール、１：カーブボール、２：フォークボールなどの整数多値ラベルを設定し、ネットワークから最終出力値の最も近い整数ラベル値を推定ラベルとすれば良い。例えば、最終出力Ｌ’が０．３ならラベル０（ストレート）、最終出力Ｌ’が１．８ならラベル２（フォークボール）を選択すればよい。

（ｂ）ＣＮＮの最終出力が複数のラベル（Ｎ個のラベル）それぞれに対応する数値を含むベクトル表現ａ（Ｎ）である場合
　例えば、０：ストレートボール、１：カーブボール、２：フォークボールなどの多値分類を行うというタスクに対して、ＣＮＮの最終出力をラベルの個数（例として３個の配列から成るベクトルｖとする）分の確率で表す場合などがこれに該当する。この場合、各配列の出力は０から１までの小数で得られ、数値が最大となる配列に対応するラベルが選択すべきラベルとなる。例えば、
（ｖ［０］，ｖ［１］，ｖ［２］）＝（０．３，０．２，０．５）であれば２：フォークボールが選択すべきラベルである。
（ｖ［０］，ｖ［１］，ｖ［２］）＝（０．５，０．２，０．３）であれば０：ストレートボールが選択すべきラベルである。

［変形例１］
　以下、図６を参照して実施例１の動作分類用モデル学習装置１、実施例２の動作分類装置２の変形例を説明する。同図の横軸は時間ｔを表し、［ｔ’］は、フレームｔ’が終了する時刻を意味する。同図におけるシーケンスは、全部でｔ’フレームあり、最新のフレームはフレームｔ’である。同図において、時刻０から時刻［ｔ’］を一つのシーケンスと捉える。同図の時刻０はシーケンス開示時刻であり、同図の時刻［ｔ’］はシーケンス終了時刻である。本変形例では、映像情報からＭＨＩを生成するモーションヒストリーイメージ生成部において、複数の、それぞれ異なる時間区間（フレーム区間）のＭＨＩを生成し、これらを結合したものを出力する。

　本変形例において、動作分類用モデル学習装置のモーションヒストリーイメージ生成部は、時間方向に重なり合わない複数のＭＨＩを生成し、同装置のモデル学習部は、複数のＭＨＩを入力としカテゴリ情報を出力とする畳み込みニューラルネットワークを学習することになる。

　また本変形例において、動作分類装置が使用する畳み込みニューラルネットワークは、時間方向に重なり合わない複数のＭＨＩを入力としカテゴリ情報を出力として学習されたものであり、同装置のモーションヒストリーイメージ生成部は、時間方向に重なり合わない複数のＭＨＩを生成することになる。当然のことではあるが、ＣＮＮ学習側と動作分類側でＭＨＩの生成方法は揃えておく必要がある。

　１枚のＭＨＩはその計算式からわかるように、一定時刻以上（２５５／ｄフレーム以上）以前の情報を保持していない。そのため、異なる時刻のＭＨＩを用いることによって、より広範な時系列での動き情報を保持し、ＣＮＮへの入力とすることが可能である。

　本発明は複数時系列のＭＨＩの結合方法を特に制限するものではないが、例えば以下のように、３チャネルの画像Ｍのそれぞれのチャネルに、異なる時刻に基づいて算出したＭを格納すれば良い。

《例１、図６（ａ）参照》
　ｄ’フレーム間隔で時間方向に隙間なく連続し、最後のＭＨＩにシーケンス終了時刻［ｔ’］を含むように生成した複数のＭＨＩを、例えば以下のようにそれぞれのチャンネルに格納する。
Ｍ（ｘ，ｙ，１）＝Ｍ_{（ｔ’－２＊ｄ’）}
Ｍ（ｘ，ｙ，２）＝Ｍ_{（ｔ’－ｄ’）}
Ｍ（ｘ，ｙ，３）＝Ｍ_ｔ’
　これにより、あるフレームｔ’以前の２時刻［ｔ’－ｄ’］，［ｔ’－２＊ｄ’］を基準とする２枚のＭＨＩの情報も持つことができる。また、ｄを調整することにより、どの程度［ｔ’］から離れた時刻の情報を持つかを調整可能である。

《例２、図６（ｂ）参照》
　ｄ’フレーム間隔で、最初のＭＨＩにシーケンス開始時刻０を含み、最後のＭＨＩにシーケンス終了時刻［ｔ’］を含むように、時間方向に間隔を空けて分散させて生成した複数のＭＨＩを、例えば以下のようにそれぞれのチャンネルに格納する。Ｍ（ｘ，ｙ，１）＝Ｍ_{（２５６／ｄ）}
Ｍ（ｘ，ｙ，２）＝Ｍ_{（（ｔ’＋２５６／ｄ）／２）}
Ｍ（ｘ，ｙ，３）＝Ｍ_ｔ’
　ここで、２５６／ｄは式（１）で１枚のＭＨＩが保持するフレーム数をコントロールするパラメータｄを用いて生成可能な、最も早い時刻のＭＨＩのインデックスである。なお、例１においてｄ’＝ｔ’／３であれば、例１、２は等価である。また、例２においては均等割りとすることに限らず、例えば現在時刻に近いほどＭＨＩが密、または疎になるように、ＭＨＩを生成してもよい。

　例１、２によりそれぞれ期待される効果を以下に述べる。例１では、シーケンス直後の情報ではなくフレームｔ’に近い時刻の情報を重点的に持つことが可能である。そのため、シーケンス開始直後の情報にはあまり意味がない場合により有効であると考えられる。一方で例２では、予め定めた第一の時刻から第二の時刻までの情報、具体的には、シーケンス開始時刻０からシーケンス終了時刻［ｔ’］までのフレーム区間の情報を網羅的に持つことができるため、直近の時刻だけではなくシーケンス全体を考慮すべきイベントに対して有効であると考えられる。

＜補記１＞
　発明が解決しようとする課題の欄で述べたように、本発明は、野球やサッカーなどのスポーツにおける選手の動作のカテゴライズに用いることもできるし、スポーツ以外の、何らかの作業に従事する人の動作のカテゴライズに用いることもできる。人に限らず、例えば人が操縦する重機や機械などの動作のカテゴライズに用いることもできる。本発明は、その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作であれば、どんな動作にも応用可能である。

＜補記２＞
　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、前記映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを取得する教師データ取得部と、
　前記映像情報のモーションヒストリーイメージを生成するモーションヒストリーイメージ生成部と、
　前記モーションヒストリーイメージを入力とし前記カテゴリ情報であるラベルを出力とするモデルを学習するモデル学習部を含む
　動作分類用モデル学習装置。
　請求項１に記載の動作分類用モデル学習装置であって、
　前記モーションヒストリーイメージ生成部は、
　時間方向に重なり合わない複数の前記モーションヒストリーイメージを生成し、
　前記モデル学習部は、
　複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力とするモデルを学習する
　動作分類用モデル学習装置。
　請求項２に記載の動作分類用モデル学習装置であって、
　前記モーションヒストリーイメージ生成部は、
　前記映像情報に含まれる複数のフレーム区間であり、前記複数のフレーム区間の終了時刻のうち最も遅い終了時刻が予め定めた時刻となる、時間方向に隙間なく連続する複数のフレーム区間のそれぞれから、複数の前記モーションヒストリーイメージを生成し、
　前記モデル学習部は、
　前記映像情報に含まれる複数のフレーム区間であり、前記複数のフレーム区間の終了時刻のうち最も遅い終了時刻が予め定めた時刻となる、時間方向に隙間なく連続する複数のフレーム区間のそれぞれから生成された、複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力とするモデルを学習する
　動作分類用モデル学習装置。
　請求項２に記載の動作分類用モデル学習装置であって、
　前記モーションヒストリーイメージ生成部は、
　前記映像情報に含まれる複数のフレーム区間であり、前記複数のフレーム区間の開始時刻のうち最も早い開始時刻が予め定めた第一の時刻となるフレーム区間を含み、前記複数のフレーム区間の終了時刻のうち最も遅い終了時刻が予め定めた第二の時刻となるフレーム区間を含む、複数のフレーム区間のそれぞれから、複数の前記モーションヒストリーイメージを生成し、
　前記モデル学習部は、
　前記映像情報に含まれる複数のフレーム区間であり、前記複数のフレーム区間の開始時刻のうち最も早い開始時刻が予め定めた第一の時刻となるフレーム区間を含み、前記複数のフレーム区間の終了時刻のうち最も遅い終了時刻が予め定めた第二の時刻となるフレーム区間を含む、複数のフレーム区間のそれぞれから生成された、複数の前記モーションヒストリーイメージを入力とし、前記カテゴリ情報を出力とするモデルを学習する
　動作分類用モデル学習装置。
　その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報のモーションヒストリーイメージと、前記映像情報に対応する正解ラベルに基づいて学習されたモデルの重みを記憶する重み記憶部と、
　前記正解ラベルが付されていない前記映像情報である未知データを取得する未知データ取得部と、
　前記未知データの前記モーションヒストリーイメージを生成するモーションヒストリーイメージ生成部と、
　前記未知データの前記モーションヒストリーイメージと前記重みに基づいて、前記未知データが複数ある前記カテゴリのうちの何れに属するかを示すラベルを選択するラベル選択部を含む
　動作分類装置。
　請求項５に記載の動作分類装置であって、
　前記モデルは、
　時間方向に重なり合わない複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力として学習されたものであり、
　前記モーションヒストリーイメージ生成部は、
　時間方向に重なり合わない複数の前記モーションヒストリーイメージを生成する
　動作分類装置。
　請求項６に記載の動作分類装置であって、
　前記モデルは、
　時間方向に隙間なく連続し、最後の前記モーションヒストリーイメージに予め定めたシーケンスの終了時刻を含むように生成された、複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力として学習されたものであり、
　前記モーションヒストリーイメージ生成部は、
　時間方向に隙間なく連続し、最後の前記モーションヒストリーイメージに予め定めたシーケンスの終了時刻を含むように、複数の前記モーションヒストリーイメージを生成する
　動作分類装置。
　請求項６に記載の動作分類装置であって、
　前記モデルは、
最初の前記モーションヒストリーイメージに予め定めたシーケンスの開始時刻を含み、最後の前記モーションヒストリーイメージに予め定めたシーケンスの終了時刻を含むように、時間方向に間隔を空けて分散させた複数の前記モーションヒストリーイメージを入力とし前記カテゴリ情報を出力として学習されたものであり、
　前記モーションヒストリーイメージ生成部は、
　最初の前記モーションヒストリーイメージに予め定めたシーケンスの開始時刻を含み、最後の前記モーションヒストリーイメージに予め定めたシーケンスの終了時刻を含むように、時間方向に間隔を空けて分散させた複数の前記モーションヒストリーイメージを生成する
　動作分類装置。
　動作分類用モデル学習装置が実行する動作分類用モデル学習方法であって、
　その動作の特徴に応じて複数あるカテゴリのうちの何れかに分類可能な動作の映像情報と、前記映像情報に対応する正解ラベルであるカテゴリ情報の対からなる教師データを取得するステップと、
　前記映像情報のモーションヒストリーイメージを生成するステップと、
　前記モーションヒストリーイメージを入力とし前記カテゴリ情報であるラベルを出力とするモデルを学習するステップを含む
　動作分類用モデル学習方法。
　コンピュータを請求項１から８の何れかに記載の装置として機能させるプログラム。