WO2019198233A1

WO2019198233A1 - 動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2019198233A1
Application number: PCT/JP2018/015561
Authority: WO
Inventors: 利憲細井; 諒川合
Original assignee: 日本電気株式会社
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2019-10-17
Also published as: JPWO2019198233A1; JP6981543B2; US11809997B2; US20210049351A1

Abstract

【課題】対象物体の動作認識精度を向上させる動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体を提供する。【解決手段】対象物体画像に対して、設定画像を付加し、付加画像を生成する生成部２と、対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、設定画像を推定し、推定結果を示す推定情報を出力する動作認識・推定部３と、予め生成した基準となる動作認識情報と、動作認識情報とを用いて動作認識損失を算出する動作認識損失算出部４と、予め生成した基準となる推定情報と、推定情報とを用いて推定損失を算出する推定損失算出部５と、動作認識損失と推定損失とを用いて学習パラメータを更新する、学習パラメータ更新部６と、を有する動作認識装置１である。

Description

動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体

　本発明は、対象物体の動作を認識する動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体に関する。

　対象物体の動作を認識する方法として、撮像装置により撮像した複数の画像から抽出した特徴を用いて、対象物体の動作を認識する方法がある。

　また、対象物体の動作を認識する方法として、深層学習の一種であるTwo-Stream ConvNets（Two-Stream Convolutional Networks for Action Recognition in Videos）という技術が開示されている。非特許文献１を参照。その技術によれば、画像を入力して物体と背景との特徴を抽出する空間方向のＣＮＮ（Convolutional Neural Network）と、オプティカルフローの水平方向成分と垂直方向成分の系列を入力して物体の動作に関する特徴を抽出する時系列方向のＣＮＮとを有する。そして、これらＣＮＮにより抽出された特徴を統合することで、対象物体の動作を精度よく認識している。

Karen Simonyan、Andrew Zisserman、"Two-Stream Convolutional Networks for Action Recognition in Videos"、［online］、平成26年6月9日、Visual Geometry Group, University of Oxford、［平成17年10月3日検索］、インターネット＜URL：https://papers.nips.cc/paper/5353-two-stream-convolutional-networks-for-action-recognition-in-videos.pdf＞

　しかしながら、非特許文献１に開示されているTwo-Stream ConvNetsでは、画像に撮像された対象物体に対応する対象物体画像に、対象物体画像と別の画像が、重なった状態又は隣接した状態である場合、対象物体の動作を精度よく認識することができない。

　本発明の目的の一例は、対象物体の動作認識精度を向上させる動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

　上記目的を達成するため、本発明の一側面における動作認識装置は、
　対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
　前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
　前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
　前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
　前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、学習パラメータ更新部と、
　を有することを特徴とする。

　また、上記目的を達成するため、本発明の一側面における動作認識方法は、
（Ａ）対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
（Ｂ）前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
（Ｃ）前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
（Ｄ）前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
（Ｅ）前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
　を有することを特徴とする。

　更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体に記憶するプログラムは、
　コンピュータに、
（Ａ）対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
（Ｂ）前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
（Ｃ）前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
（Ｄ）前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
（Ｅ）前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
　を実行させることを特徴とする。

　以上のように本発明によれば、対象物体の動作認識精度を向上させることができる。

図１は、学習する場合における動作認識装置の一例を示す図である。図２は、学習する場合における動作認識装置を有する動作認識システムの一例を示す図である。図３は、対象物体画像、設定画像、付加画像の一例を示す図である。図４は、学習後における動作認識装置と、その動作認識装置を有するシステムの一例を図である。図５は、学習する場合における動作認識装置の動作の一例を示す図である。図６は、動作認識装置を実現するコンピュータの一例を示す図である。

（実施の形態）
　以下、本発明の実施の形態における動作認識装置について、図１から図６を参照しながら説明する。

［装置構成］
　最初に、図１を用いて、本実施の形態における動作認識装置の構成について説明する。図１は、学習する場合における動作認識装置の一例を示す図である。

　図１に示すように、動作認識装置１は、対象物体の動作を精度よく認識する装置である。動作認識装置１は、生成部２と、動作認識・推定部３と、動作認識損失算出部４と、推定損失算出部５と、学習パラメータ更新部６とを有する。

　このうち、生成部２は、対象物体に対応する対象物体画像に対して、予め設定された設定画像を付加し、付加画像を生成する。対象物体は、人体、人体部位、人間以外の生物、機械など、動作認識を行う対象となる物体を示す。対象物体画像は、撮像装置により撮像された画像（例えば、動画像の画像など）における、対象物体に対応する画像である。設定画像は、例えば、学習において、画像に撮像された対象物体画像を、画像上で認識困難にするために設定される画像である。また、設定画像は、上述した対象物体に加え、静物、又は建造物などに対応する画像である。付加画像は、対象物体画像のみを有する画像、対象物体画像と設定画像とを有する画像である。付加画像は、例えば、対象物体画像の前面、又は背面、又はその両方に、設定画像を配置した画像である。

　続いて、動作認識・推定部３は、付加画像を用いて対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、付加画像を用いて設定画像を推定し、推定結果を示す推定情報を出力する。

　続いて、動作認識損失算出部４は、付加画像に基づいて予め生成した基準となる動作認識情報と、動作認識情報とを用いて動作認識損失を算出する。また、推定損失算出部５は、付加画像に基づいて予め生成した基準となる推定情報と、推定情報とを用いて推定損失を算出する。そして、学習パラメータ更新部６は、動作認識損失と推定損失とを用いて、学習パラメータを更新する。

　このように、本実施の形態では、多種多様な対象物体画像と設定画像とを用意し、パターンの異なる大量の付加画像を生成し、大量の付加画像を用いて、動作認識装置１を学習できる。そのため、動作認識装置１の動作認識精度を向上させることができる。すなわち、従来のように実際に撮像した画像を用いて学習をさせるのではなく、コンピュータなどを利用して生成した大量の付加画像を用いて、動作認識装置１を学習させるので、動作認識装置１の動作認識精度を向上させることができる。付加画像すべてを、コンピュータグラフィクスを用いて作成してもよい。例えば、二次元（２Ｄ）モデル又は三次元（３Ｄ）モデルを用いて作成してもよい。

　なお、動作認識装置１が行う学習は、機械学習などである。具体的には、深層学習などを用いる。また、学習パラメータの更新は、深層学習におけるニューラルネットワークの学習パラメータを更新することである。

　また、本実施の形態では、動作認識装置１に学習をさせる場合、予め生成した大量の付加画像を利用して、対象物体の動作認識に対する学習をさせるとともに、設定画像の推定に対する学習もさせる。すなわち、動作認識装置１に学習をさせる場合、動作認識の学習と、設定画像の推定の学習とを同時に行う。更に、設定画像の推定よりも動作認識に重点をおいて学習ができるよう定式化しておく。そうすることで、付加画像から設定画像を除去した後に、対象物体の動作を認識する、高精度な動作認識が可能な動作認識装置１を構築できる。言い換えれば、動作認識装置１は、設定画像の推定が不正確でも、トータルとして動作認識の精度がよくなるように学習できる。

　具体的には、街頭などの人混みで撮像した監視動画像から不審者を検出する場合、上述した高精度な動作認識モデルを適用した動作認識装置１を用いることで、監視動画像から不審者に対応する対象物体画像の前面又は背面又はそれら両方に撮像されている画像を除去して、不審者の動作を検出することができる。

　続いて、図２、図３を用いて、本実施の形態における動作認識装置１の構成をより具体的に説明する。図２は、学習する場合における動作認識装置を有する動作認識システムの一例を示す図である。図３は、対象物体画像、設定画像、付加画像の一例を示す図である。

　図２に示すように、本実施の形態における動作認識装置１は、生成部２、動作認識・推定部３、動作認識損失算出部４、推定損失算出部５、学習パラメータ更新部６に加えて、対象物体画像記憶部２１、付加画像記憶部２２、動作特徴抽出部２３、特徴抽出部２４、を有する。また、動作認識・推定部３は、動作認識部２５（識別器）と推定部２６（推定器）と保持部２７とを有する。

　生成部２は、対象物体に対応する対象物体画像を有する画像を取得し、取得した画像に設定画像を付加して、付加画像を生成する。

　具体的には、生成部２は、まず、対象物体画像記憶部２１に記憶されている対象物体のみが撮像された画像又は動画像を取得する。動画像とは、例えば、時系列に撮像された画像である。続いて、生成部２は、取得した対象物体画像を有する画像に対して、設定画像を付加する。例えば、生成部２は、図３に示す画像３１の対象物体画像Ｔ＿ＩＭＧに、設定画像Ｓ１＿ＩＭＧ、Ｓ２＿ＩＭＧ、Ｓ３＿ＩＭＧを付加したり、画像３１の一部にノイズを加えたり、塗り潰したりして、付加画像３５を生成する。そして、生成部２は、生成した付加画像を付加画像記憶部２２に記憶する。なお、図３の付加画像３５では、設定画像Ｓ１＿ＩＭＧ、Ｓ２＿ＩＭＧ、Ｓ３＿ＩＭＧを全て付加しているが、設定画像Ｓ１＿ＩＭＧ、Ｓ２＿ＩＭＧ、Ｓ３＿ＩＭＧのいずれか一つ、又は二つ以上を組み合わせて設定してもよい。

　また、対象物体画像又は設定画像は、人体画像又は人体を模した画像としてもよい。また、対象物体画像又は設定画像は、輪郭内を一つ以上の色を用いて塗り潰した画像としてもよい。例えば、シルエット画像。また、設定画像は、強い日光の影響による画像が白くなる現象、又は一部の露出が過剰に低くなり画像が黒くなる現象などを模した、対象物体画像の一部を隠蔽する画像でもよい。更に、設定画像は、物理的な物体に限らず、霧やガラスのように透過的に対象物体を隠蔽する画像でもよい。

　動作認識部・推定部３は、動作認識部２５と推定部２６と保持部２７とを有する。動作認識部２５は、付加画像を入力とし、保持部２７に保持されている学習パラメータに基づいて、対象物体の動作認識をする。また、推定部２６は、動作認識部２５が動作認識の学習を実行中に、付加画像を入力とし、保持部２７に保持されている学習パラメータに基づいて、付加画像に設定された設定画像の推定をする。

　具体的には、動作認識部２５は、付加画像記憶部２２から、付加画像を取得する。続いて、動作認識部２５は、取得した付加画像を入力とし、保持部２７に保持されている学習パラメータに基づいて、対象物体の動作認識をする。そして、動作認識部２５は、動作認識結果を示す動作認識情報を出力する。

　動作認識部２５は、例えば、歩く動作を認識した場合にはラベル１、走る動作を認識した場合にはラベル２、しゃがむ動作又はしゃがんだ状態を認識した場合にはラベル３、立ち止まっている動作又は立ち止まっている状態を認識した場合にはラベル４などを、動作認識情報として出力する。

　また、動作認識部２５は、図２に示すように、動作特徴抽出部２３を介して、付加画像における対象物体画像の特徴を抽出した情報を用いて、対象物体の動作認識をしてもよい。その場、動作認識部２５は、付加画像対象物体画像の特徴を用いて、保持部２７に保持されている学習パラメータに基づいて、対象物体の動作認識をする。

　具体的には、推定部２６は、動作認識部２５が動作認識の学習を実行中に、付加画像記憶部２２から、付加画像を取得する。続いて、推定部２６は、取得した付加画像を入力とし、保持部２７に保持されている学習パラメータに基づいて、設定画像を推定する。そして、推定部２６は、推定結果を示す推定情報を出力する。

　推定部２６は、例えば、（１）設定画像を人体画像とした付加画像から複数の関節点を推定してもよいし、（２）設定画像を人体を模したシルエット画像とした付加画像からシルエット画像を推定してもよいし、（３）設定画像を塗りつぶした画像とした付加画像から塗りつぶした画像を推定してもよいし、（４）対象物体から設定画像を除去した付加画像を推定してもよい。

　また、推定部２６は、図２に示すように、特徴抽出部２４を介して、付加画像における設定画像の特徴を抽出した情報を取得し、設定画像を推定してもよい。その場、推定部２６は、付加画像から抽出した設定画像の特徴を用いて、保持部２７に保持されている学習パラメータに基づいて、設定画像の推定をする。

　なお、図２では、動作認識部・推定部３の前段に、動作特徴抽出部２３及び特徴抽出部２４を設ける例を示したが、それらは設けず、直接付加画像を動作認識部・推定部３へ入力してもよい。又は、動作特徴抽出部２３又は特徴抽出部２４のいずれか一方のみを用いてもよい。

　また、図２では、付加画像記憶部２２に付加画像を記憶しているが、付加画像記憶部２２を介さず、生成部２から動作認識・推定部３、又は、動作特徴抽出部２３及び特徴抽出部２４へ直接付加画像を出力してもよい。

　動作認識損失算出部４は、付加画像に基づいて、予め生成しておいた基準となる動作認識情報と、動作認識部２５から取得した動作認識情報とを用いて動作認識損失を算出する。

　具体的には、動作認識損失算出部４は、動作認識部２５から出力された動作認識情報と、基準となる動作認識情報とを比較し、基準となる動作認識情報に近づくほど動作認識損失を小さい値に設定し、遠くなるほど動作認識損失を大きな値に設定する。

　例えば、動作認識情報として、歩く動作にラベル１、走る動作にラベル２、しゃがむ動作又はしゃがんだ状態にラベル３、立ち止まっている動作又は立ち止まっている状態にラベル４などを対応付けた場合について説明する。上述したような場合において、動作認識損失算出部４は、例えば、基準となる動作認識情報のラベルと、動作認識情報のラベルとが一致した場合、動作認識損失を０．０とし、不一致の場合、動作認識損失を１．０とすることが考えられる。

　また、上述した四つのラベル１から４を設定した場合、動作認識部２５の出力として、四つのスコアを出力するため、それら四つのスコアにＳｏｆｔＭａｘ関数をかけて変換する。そして、四つのスコアを変換した後のスコア｛０．１，０．０，０．９，０．１｝と、基準となる動作認識情報のラベル｛０，０，１，０｝とのベクトル間距離を損失としてもよい。

　推定損失算出部５は、付加画像に基づいて、生成部２が予め生成した基準となる推定情報と、推定部２６より取得した推定情報とを用いて推定損失を算出する。

　具体的には、推定損失算出部５は、推定部２６から出力された推定情報と、生成部２で生成された基準となる推定情報とを比較し、基準となる推定情報に近づくほど推定損失を小さい値に設定し、遠くなるほど推定損失を大きな値に設定する。

　推定損失について、上述した（１）から（４）に示した推定情報を用いた場合について説明する。

（１）関節点を推定情報として利用する場合
　推定情報として、人体の複数の関節点を利用して推定損失を算出する場合、推定損失算出部５は、まず、生成部２が生成した付加画像に関連付けられている、生成した付加画像における関節点に対応する座標を取得する。続いて、推定損失算出部５は、基準となる関節点に対応する座標と、推定部２６から出力された推定情報が示す付加画像から推定した関節点に対応する座標との距離を、関節点それぞれに対して算出する。そして、推定損失算出部５は、関節点ごとに算出した距離の総和を算出し、算出した総和を人体のサイズ（付加画像における対象物体画像の面積）で除算し、除算した値を推定損失とする。

（２）シルエット画像を推定情報として利用する場合
　推定情報として、シルエット画像を利用して推定損失を算出する場合、推定損失算出部５は、まず、生成部２が生成した付加画像に関連付けられている、生成した付加画像において基準となるシルエット画像が配置されている付加画像の座標と面積（例えば、付加画像上のシルエット画像の画素数など）を取得する。続いて、推定損失算出部５は、基準となるシルエット画像と、推定部２６から出力された推定情報が示す付加画像から推定したシルエット画像とが重複する面積を算出する。そして、推定損失算出部５は、重複する面積を基準となるシルエット画像の面積で除算した値の逆数を推定損失とする。

（３）塗りつぶした画像を推定情報として利用する場合
　推定情報として、塗りつぶした画像を利用して推定損失を算出する場合、推定損失算出部５は、まず、生成部２が生成した付加画像に関連付けられている、生成した付加画像において基準となる塗りつぶした画像が配置されている付加画像の座標と面積（例えば、付加画像上の塗りつぶした画像の画素数など）を取得する。続いて、推定損失算出部５は、基準となる塗りつぶした画像と、推定部２６から出力された推定情報が示す付加画像から推定した塗りつぶした画像とが重複する面積を算出する。そして、推定損失算出部５は、重複する面積を基準となる塗りつぶした画像の面積で除算した値の逆数を推定損失とする。

（４）付加画像から設定画像を除去した画像を推定情報として利用する場合
　推定情報として、設定画像を除去した画像を利用して推定損失を算出する場合、推定損失算出部５は、まず、生成部２が生成した付加画像に関連付けられている、生成した付加画像において基準となる設定画像を除去した画像を取得する。続いて、推定損失算出部５は、基準となる設定画像を除去した画像と、推定部２６から出力された推定情報が示す付加画像から推定した設定画像を除去した画像とについて、それぞれをベクトルと見做してベクトル間の正規化相関をとった値、又はベクトル間の距離を推定損失とする。

　学習パラメータ更新部７は、動作認識損失と推定損失とを用いて学習パラメータを更新し、動作認識・推定部３が有する保持部２７に保持されている、学習パラメータを更新する。保持部２７は、動作認識装置１又は動作認識装置１の外部に設けられた記憶部を用いてもよい。

　具体的には、学習パラメータ更新部７は、動作認識損失算出部４から出力された動作認識損失と、推定損失算出部５から出力された推定損失とを取得し、例えば、機械学習において用いられる誤差逆伝播法により更新パラメータを導出し、保持部７の更新パラメータを更新する。

　学習後における動作認識装置１の動作認識について説明する。図４は、学習後における動作認識装置と、その動作認識装置を有するシステムの一例を図である。図４に示すシステムは、撮像装置４１と、動作認識装置１と、出力部４２とを有する。具体的には、システムは、画像監視システムなどに適用するシステムである。

　撮像装置４１は、例えば、ビデオカメラ、ディジタルカメラなどである。具体的には、撮像装置４１は、撮像した監視動画像を、学習した後の動作認識装置１に送信する。

　動作認識装置１は、実際に、監視動画像を用いて、動作認識をして、動作認識情報を出力する。動作認識装置１は、実際に動作認識をする場合、図４に示すように動作認識・推定部３を用いて、動作認識をする。この際、動作認識・推定部３が有する動作認識部２５が動作認識情報を出力し、推定部２６も推定情報を出力するが、動作認識情報のみを用いればよい。

　具体的には、動作認識装置１は、不審者を検出する場合、監視動画像から不審者に対応する対象物体画像の前面又は背面又はそれら両方に撮像されている画像を除去して、不審者の動作を検出する。

　出力部４２は、例えば、動作認識情報を出力部４２に出力可能な形式に変換された情報を取得すると、動作認識情報が示す動作認識結果を出力する。出力部４２は、例えば、表示装置、音声出力装置などである。

［装置動作］
　次に、本発明の実施の形態における動作認識装置の動作について図５を用いて説明する。図５は、学習する場合における動作認識装置の動作の一例を示す図である。以下の説明においては、適宜図１から図４を参酌する。また、本実施の形態では、動作認識装置を動作させることによって、動作認識方法が実施される。よって、本実施の形態における動作認識方法の説明は、以下の動作認識装置の動作説明に代える。

　図５に示すように、最初に、生成部２は、対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加した、付加画像を生成する（ステップＡ１）。続いて、動作認識・推定部３は、付加画像を用いて対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、設定画像を推定し、推定結果を示す推定情報を出力する（ステップＡ２）。続いて、動作認識損失算出部４は、付加画像に基づいて予め生成した基準となる動作認識情報と、動作認識情報とを用いて動作認識損失を算出する（ステップＡ３）。また、推定損失算出部５は、付加画像に基づいて予め生成した基準となる推定情報と、推定情報とを用いて推定損失を算出する（ステップＡ４）。学習パラメータ更新部６と、動作認識損失と推定損失とを用いて学習パラメータを更新する（ステップＡ５）。

　続いて、図５に示したステップＡ１からＡ５について詳細に説明する。

　まず、動作認識装置１の学習を実行する前に、初期パラメータを、保持部２７に設定する。続いて、ステップＡ１において、生成部２は、対象物体画像記憶部２１に記憶されている対象物体のみが撮像された画像又は動画像を取得する。続いて、生成部２は、取得した対象物体画像を有する画像に対して、設定画像を付加する。生成部２は、例えば、図３に示す画像３１の対象物体画像Ｔ＿ＩＭＧに、設定画像Ｓ１＿ＩＭＧ、Ｓ２＿ＩＭＧ、Ｓ３＿ＩＭＧを付加して、付加画像３５を生成する。そして、生成部２は、生成した付加画像を付加画像記憶部２２に記憶する。

　ステップＡ２において、動作認識部・推定部３は、付加画像を取得する。続いて、動作認識部・推定部３は、取得した付加画像を入力とし、保持部２７に保持されている学習パラメータに基づいて、対象物体の動作認識をする。そして、動作認識部・推定部３は、動作認識結果を示す動作認識情報を出力する。

　また、動作認識部・推定部３は、動作認識の学習を実行中に、付加画像を取得する。続いて、推定部２６は、取得した付加画像を入力とし、保持部２７に保持されている学習パラメータに基づいて、設定画像を推定する。そして、推定部２６は、推定結果を示す推定情報を出力する。

　なお、動作認識部・推定部３は、同じ付加画像を用いて、動作認識情報と設定画像の推定情報とを学習することが好適である。

　ステップＡ３において、動作認識損失算出部４は、動作認識部２５から出力された動作認識情報と、生成部２が予め生成した基準となる動作認識情報とを用いて、基準となる動作認識情報に対する動作認識損失を算出する。

　ステップＡ４において、推定損失算出部５は、推定部２６から出力された推定情報と、生成部２で生成された基準となる推定情報とを用いて、基準となる推定情報に対する推定損失を算出する。

　ステップＡ５において、学習パラメータ更新部７は、動作認識損失算出部４から出力された動作認識損失と、推定損失算出部５から出力された推定損失とを取得し、機械学習において用いられる誤差逆伝播法により更新パラメータを導出し、保持部７の更新パラメータを更新する。

　ステップＡ６において、動作認識装置１は、学習を終了するか否かを判定する。例えば、対象物体画像記憶部２１に記憶されているすべて又は所定の対象物体画像に対してステップＡ１からＡ５に示した処理を実施した場合（ステップＡ６：Ｙｅｓ）、学習を終了する。また、対象物体画像記憶部２１に記憶されている対象物体画像がある場合（ステップＡ６：Ｎｏ）、ステップＡ１の処理を再度実行する。

　なお、ステップＡ１において、生成部２は、更新が進むほど、設定画像が対象物体画像に重なる部分を大きく設定した付加画像を生成する。そして、ステップＡ２において、動作認識・推定部３は、これらの付加画像を使用して、動作認識と設定画像の推定との結果に基づいて、更新パラメータを更新する。

　具体的には、設定画像が対象物画像に重なる面積と対象物体画像の面積との比率が小さくなるように付加画像を生成する。その後、ステップＡ１からＡ６の処理を繰り返す回数が進むにつれ比率を大きくする。例えば、繰り返し回数一回目は、比率を１０［％］として付加画像を生成し、十回繰り返した場合には比率を２０［％］にする。そして百回繰り返した場合には比率を４０［％］とする。
　このように、初期の段階では対象物体画像と設定画像との重複を最小にした付加画像を利用し、徐々に重複する部分の面積を大きくした付加画像を用いることで、高精度な学習モデルを構築できる。また、動作認識装置１の学習をする際、初期の段階で、設定画像を推定し難い付加画像を用いた場合、動作認識の学習精度が低下するため、初期の段階では、設定画像を推定し易い付加画像を用いるのが好適である。

　また、学習パラメータは、推定損失が大きい場合、推定損失の大きい付加画像を用いずに更新をする。具体的には、推定損失が大きい付加画像を除外して、再度学習をやり直す。また、ステップＡ４において、推定損失算出部５が損失が大きいと判定した場合、推定損失算出部５から学習パラメータ更新部６へ、保持部２７への更新をしないように指示をする。

　理由は、動作認識装置１の学習をする際、設定画像を推定し難い付加画像を用いた場合、動作認識の学習精度が低下するため、設定画像を推定し易い付加画像を用いるのが好適である。特に、初期段階に適用した場合に有効である。

［本実施の形態の効果］
　以上のように本実施の形態によれば、多種多様な対象物体画像と設定画像とを用意し、パターンの異なる大量の付加画像を用意し、大量の付加画像を用いて、動作認識装置１を学習できる。そのため、動作認識装置１の動作認識精度を向上させることができる。すなわち、従来のように実際に撮像した画像を用いて学習をさせるのではなく、コンピュータなどを利用して生成した大量の付加画像を用いて、動作認識装置１を学習させるので、動作認識装置１の動作認識精度を向上させることができる。

　また、本実施の形態では、動作認識装置１に学習をさせる場合、予め生成した大量の付加画像を利用して、対象物体の動作認識に対する学習をさせるとともに、設定画像の推定に対する学習もさせる。すなわち、動作認識装置１に学習をさせる場合、動作認識の学習と、設定画像の推定の学習とを同時に行う。更に、設定画像の推定よりも動作認識に重点をおいて学習ができるよう定式化しておく。そうすることで、付加画像から設定画像を除去した後、対象物体の動作を認識する、高精度な動作認識が可能な動作認識装置１を構築できる。言い換えれば、動作認識装置１は、設定画像の推定が不正確でも、トータルとして動作認識の精度がよくなるように学習できる。

［プログラム］
　本発明の実施の形態におけるプログラムは、コンピュータに、図５に示すステップＡ１からＡ５を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における動作認識装置と動作認識方法とを実現することができる。この場合、コンピュータのプロセッサは、生成部２、動作認識・推定部３、動作認識損失算出部４、推定損失算出部５、学習パラメータ更新部６として機能し、処理を行なう。

　また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、生成部２、動作認識・推定部３、動作認識損失算出部４、推定損失算出部５、学習パラメータ更新部６のいずれかとして機能してもよい。

［物理構成］
　ここで、実施の形態におけるプログラムを実行することによって、動作認識装置を実現するコンピュータについて図６を用いて説明する。図６は、本発明の実施の形態における動作認識装置を実現するコンピュータの一例を示すブロック図である。

　図６に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていてもよい。

　ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであってもよい。

　また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置があげられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

　データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

　また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体があげられる。

［付記］
　以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する（付記１）から（付記１５）により表現することができるが、以下の記載に限定されるものではない。

（付記１）
　対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
　前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
　前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
　前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
　前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、学習パラメータ更新部と、
　を有することを特徴とする動作認識装置。

（付記２）
　付記１に記載の動作認識装置であって、
　前記生成部は、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
　ことを特徴とする動作認識装置。

（付記３）
　付記１又は２に記載の動作認識装置であって、
　前記生成部は、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
　ことを特徴とする動作認識装置。

（付記４）
　付記１から３のいずれか一つに記載の動作認識装置であって、
　前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
　ことを特徴とする動作認識装置。

（付記５）
　付記１から４のいずれか一つに記載の動作認識装置であって、
　前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
　ことを特徴とする動作認識装置。

（付記６）
（Ａ）対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
（Ｂ）前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
（Ｃ）前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
（Ｄ）前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
（Ｅ）前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
　を有することを特徴とする動作認識方法。

（付記７）
　付記６に記載の動作認識方法であって、
　前記（Ａ）のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
　ことを特徴とする動作認識方法。

（付記８）
　付記６又は７に記載の動作認識方法であって、
　前記（Ａ）のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
　ことを特徴とする動作認識方法。

（付記９）
　付記６から８のいずれか一つに記載の動作認識方法であって、
　前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
　ことを特徴とする動作認識方法。

（付記１０）
　付記６から９のいずれか一つに記載の動作認識方法であって、
　前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
　ことを特徴とする動作認識方法。

（付記１１）
　コンピュータに、
（Ａ）対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
（Ｂ）前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
（Ｃ）前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
（Ｄ）前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
（Ｅ）前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
　を実行させる命令を含む、動作認識プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１２）
　付記１１に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（Ａ）のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１３）
　付記１１又は１２に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（Ａ）のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗りつぶした画像として、前記付加画像を生成する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１４）
　付記１１から１３のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
　前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１５）
　付記１１から１４のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
　前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
　ことを特徴とするコンピュータ読み取り可能な記録媒体。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　以上のように本発明によれば、対象物体の動作認識精度を向上させることができる。本発明は、対象物体の動作認識精度を向上させることが必要な分野において有用である。

　　１　動作認識装置
　　２　生成部
　　３　動作認識・推定部
　　４　動作認識損失算出部
　　５　推定損失算出部
　　６　学習パラメータ更新部
　２１　対象物体画像記憶部
　２２　付加画像記憶部
　２３　動作特徴抽出部
　２４　特徴抽出部
　２５　動作認識部
　２６　推定部
　２７　保持部
１１０　コンピュータ
１１１　ＣＰＵ
１１２　メインメモリ
１１３　記憶装置
１１４　入力インターフェイス
１１５　表示コントローラ
１１６　データリーダ／ライタ
１１７　通信インターフェイス
１１８　入力機器
１１９　ディスプレイ装置
１２０　記録媒体
１２１　バス

Claims

　対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、生成部と、
　前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報を出力するとともに、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報を出力する、動作認識・推定部と、
　前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、動作認識損失算出部と、
　前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、推定損失算出部と、
　前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、学習パラメータ更新部と、
　を有することを特徴とする動作認識装置。
　請求項１に記載の動作認識装置であって、
　前記生成部は、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
　ことを特徴とする動作認識装置。
　請求項１又は２に記載の動作認識装置であって、
　前記生成部は、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
　ことを特徴とする動作認識装置。
　請求項１から３のいずれか一つに記載の動作認識装置であって、
　前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
　ことを特徴とする動作認識装置。
　請求項１から４のいずれか一つに記載の動作認識装置であって、
　前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
　ことを特徴とする動作認識装置。
（Ａ）対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
（Ｂ）前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
（Ｃ）前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
（Ｄ）前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
（Ｅ）前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
　を有することを特徴とする動作認識方法。
　請求項６に記載の動作認識方法であって、
　前記（Ａ）のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
　ことを特徴とする動作認識方法。
　請求項６又は７に記載の動作認識方法であって、
　前記（Ａ）のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗り潰した画像として、前記付加画像を生成する
　ことを特徴とする動作認識方法。
　請求項６から８のいずれか一つに記載の動作認識方法であって、
　前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
　ことを特徴とする動作認識方法。
　請求項６から９のいずれか一つに記載の動作認識方法であって、
　前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
　ことを特徴とする動作認識方法。
　コンピュータに、
（Ａ）対象物体に対応する対象物体画像に対して、予め設定した設定画像を付加し、付加画像を生成する、ステップと、
（Ｂ）前記付加画像を用いて前記対象物体の動作認識をし、動作認識結果を示す動作認識情報と、前記付加画像を用いて前記設定画像を推定し、推定結果を示す推定情報とを出力する、ステップと、
（Ｃ）前記付加画像に基づいて予め生成した基準となる動作認識情報と、前記動作認識情報とを用いて動作認識損失を算出する、ステップと、
（Ｄ）前記付加画像に基づいて予め生成した基準となる推定情報と、前記推定情報とを用いて推定損失を算出する、ステップと、
（Ｅ）前記動作認識損失と前記推定損失とを用いて前記学習パラメータを更新する、ステップと、
　を実行させる命令を含む、動作認識プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項１１に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（Ａ）のステップにおいて、前記対象物体画像又は前記設定画像を、人体画像又は人体を模した画像として、前記付加画像を生成する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。
　請求項１１又は１２に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（Ａ）のステップにおいて、前記対象物体画像又は前記設定画像を、輪郭内を一つ以上の色を用いて塗りつぶした画像として、前記付加画像を生成する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。
　請求項１１から１３のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
　前記学習パラメータは、更新が進むほど、前記設定画像が前記対象物体画像に重なる部分を大きく設定した前記付加画像を用いて更新する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。
　請求項１１から１４のいずれか一つに記載のコンピュータ読み取り可能な記録媒体であって、
　前記学習パラメータは、前記推定損失が大きい場合、前記推定損失の大きい付加画像を用いずに更新をする
　ことを特徴とするコンピュータ読み取り可能な記録媒体。