WO2020240727A1

WO2020240727A1 - 学習装置、推論装置、制御方法及び記憶媒体

Info

Publication number: WO2020240727A1
Application number: PCT/JP2019/021240
Authority: WO
Inventors: 周平吉田; 真寺尾
Original assignee: 日本電気株式会社
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-03
Also published as: JPWO2020240727A1; US11908177B2; US20220198783A1; JP7243821B2

Abstract

学習装置１０Ｄは、動画データＤｍが入力された場合に、当該動画データＤｍに関する特徴量である動画特徴量Ｆｍを抽出し、静止画データＤｓが入力された場合に、当該静止画データＤｓに関する特徴量である静止画特徴量Ｆｓを抽出するように学習される。第１推論部３２Ｄは、動画特徴量Ｆｍに基づき、動画データＤｍに関する第１推論を行う。第２推論部３４Ｄは、静止画特徴量Ｆｓに基づき、静止画データＤｓに関する第２推論を行う。学習部３６Ｄは、第１推論と第２推論との結果に基づき、特徴抽出部３１Ｄの学習を行う。

Description

学習装置、推論装置、制御方法及び記憶媒体

　本発明は、動画データに対する特徴抽出の学習に関する学習装置、推論装置、制御方法及び記憶媒体の技術分野に関する。

　動画データを対象とする認識処理の手法として、３次元畳み込みニューラルネットワークを用いた動画認識手法が非特許文献１に開示されている。また、非特許文献２には、動画データを入力とする学習モデルにおいて、動画認識の結果から算出される動画認識損失に基づき、３次元畳み込みニューラルネットワークから構成される特徴抽出部と動画認識部の学習を実行する手法が開示されている。

J. Carreira, A. Zisserman, "Quo vadis, action recognition? a new model and the kineticsdataset," inproceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp.6299-6308. Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, "Learning Spatiotemporal Features with 3D Convolutional Networks", ICCV2015, 2015, pp. 4489-4497.

　一般的に、学習データが少ないと、学習データに含まれる認識と無関係の相関を学習してしまい、認識精度が十分な精度とはならない。一方、学習データとする動画データ及び正解データの生成に掛かる負担は一般的に大きく、動画認識における学習に十分な学習データを用意するのが困難な場合がある。非特許文献１及び非特許文献２の手法では、正解付けされた学習用の動画データが十分に用意できることを前提としており、正解付けされた学習用の動画データの数が制限される場合に有効な学習方法については、非特許文献１及び非特許文献２には何ら開示されていない。

　本発明の目的は、上述した課題を鑑み、動画認識の学習を好適に実行可能な学習装置、推論装置、制御方法及び記憶媒体を提供することを主な課題とする。

　学習装置の一の態様は、学習装置であって、動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行う第１推論部と、前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行う第２推論部と、前記第１推論と前記第２推論との結果に基づき、前記特徴抽出部の学習を行う学習部と、を有する。

　制御方法の一の態様は、学習装置が実行する制御方法であって、動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出し、前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行い、前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行い、前記第１推論と前記第２推論との結果に基づき、前記動画特徴量及び前記静止画特徴量を抽出する処理の学習を行う。

　記憶媒体の一の態様は、動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行う第１推論部と、前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行う第２推論部と、前記第１推論と前記第２推論との結果に基づき、前記特徴抽出部の学習を行う学習部としてコンピュータを機能させるプログラムを格納する記憶媒体である。

　本発明によれば、動画データに加えて静止画データを用いて特徴抽出部の学習を行うことで、動画認識に有効な特徴量を抽出する特徴抽出部を好適に学習することができる。

学習システムの概略構成を示す。第１実施形態に係る学習装置の機能的な構成を示す概要図である。特徴抽出部のブロック構成図を示す。特徴変換層の第１構成例を示す。（Ａ）特徴変換層の第２構成例を示す。（Ｂ）特徴変換層の第３構成例を示す。学習処理の概要を示すフローチャートの一例である。第１推論損失計算処理の手順を示すフローチャートの一例である。第２推論損失計算処理の手順を示すフローチャートの一例である。学習処理の概要を示すフローチャートの変形例である。人物動作識別のための学習を行う学習装置の機能的な構成を示す概要図である。人物行動検出のための学習を行う学習装置の機能的な構成を示す概要図である。第２実施形態に係る学習装置の学習処理に関する機能的な構成を示す概要図である。第２実施形態に係る学習装置の推論処理に関する機能的な構成を示す概要図である。推論処理の手順を示すフローチャートの一例である。第３実施形態に係る学習装置の概略構成を示す。

　以下、図面を参照しながら、学習装置、推論装置、制御方法及び記憶媒体の実施形態について説明する。

　＜第１実施形態＞
　（１）全体構成
　図１は、実施形態における学習システム１００の概略構成を示す。学習システム１００は、動画データに対して推論（認識）を行う学習モデルの学習を好適に実行する。学習システム１００は、学習装置１０と、記憶装置２０とを有する。

　学習装置１０は、動画データの推論に関する学習モデルの学習を行う。ここで、学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらを組み合わせた学習モデルであってもよい。動画データの推論の例は、不審行動等の特定の動作を行う人物の検知、人物が実行中の動作の識別、事故の予兆検知などが含まれる。

　記憶装置２０は、動画データ記憶部２１と、静止画データ記憶部２２と、第１正解データ記憶部２３と、第２正解データ記憶部２４と、特徴抽出部情報記憶部２５と、第１推論部情報記憶部２６と、第２推論部情報記憶部２７と、を有する。なお、記憶装置２０は、学習装置１０に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習装置１０とデータ通信を行うサーバ装置などであってもよい。また、記憶装置２０は、複数の記憶装置から構成され、上述した各記憶部を分散して保有してもよい。

　動画データ記憶部２１は、学習モデルの学習に用いる学習データである動画データを記憶する。動画データ記憶部２１に記憶される各動画データは、後述する第１正解データ記憶部２３に記憶される正解データと関連付けられている。静止画データ記憶部２２は、学習モデルの学習に用いる学習データである静止画データを記憶する。静止画データ記憶部２２に記憶される各静止画データは、後述する第２正解データ記憶部２４に記憶される正解データと関連付けられている。なお、動画データを構成する画像（フレーム）毎の画像データと静止画データとは、夫々、画像の縦方向及び横方向と、チャンネル方向とにより形成される３次元空間において値を有するデータである。なお、チャンネル方向には、例えば、ＲＧＢ画像の場合には、Ｒ、Ｇ、Ｂの夫々の色に対応するチャンネルが少なくとも設けられ、画素毎に距離情報が含まれる画像の場合には、距離情報に対応するチャンネルが少なくとも設けられる。

　第１正解データ記憶部２３は、動画データ記憶部２１に記憶された動画データに対する正解データを記憶する。この場合、正解データは、対象の動画データが入力された場合に推論すべき結果を示すデータであり、動画データ記憶部２１に記憶された対象の動画データと関連付けられている。なお、記憶装置２０は、第１正解データ記憶部２３を有する代わりに、対応する正解データが付加された動画データを動画データ記憶部２１に記憶してもよい。

　第２正解データ記憶部２４は、静止画データ記憶部２２に記憶された静止画データに対する正解データを記憶する。この場合、正解データは、対象の静止画データが入力された場合に推論すべき結果を示すデータであり、静止画データ記憶部２２に記憶された対象の静止画データと関連付けられている。なお、記憶装置２０は、第２正解データ記憶部２４を有する代わりに、対応する正解データが付加された静止画データを静止画データ記憶部２２に記憶してもよい。

　特徴抽出部情報記憶部２５は、後述する特徴抽出部（図２の特徴抽出部３１）を機能させるために必要なパラメータの情報を記憶する。第１推論部情報記憶部２６は、後述する第１推論部（図２の第１推論部３２）を機能するために必要なパラメータの情報を記憶する。第２推論部情報記憶部２７は、後述する第２推論部（図２の第２推論部３４）を機能するために必要なパラメータの情報を記憶する。

　次に、引き続き図１を参照して学習装置１０のハードウェア構成について説明する。

　学習装置１０は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２、及びインターフェース１３は、データバス１９を介して接続されている。

　プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ１１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサである。

　メモリ１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ１２には、学習装置１０が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ１２は、作業メモリとして使用され、記憶装置２０から取得した情報等を一時的に記憶する。なお、メモリ１２は、記憶装置２０又は記憶装置２０の一部として機能してもよい。この場合、メモリ１２は、記憶装置２０の代わりに、動画データ記憶部２１、静止画データ記憶部２２、第１正解データ記憶部２３、第２正解データ記憶部２４、特徴抽出部情報記憶部２５、第１推論部情報記憶部２６、第２推論部情報記憶部２７の少なくともいずれかを記憶してもよい。同様に、記憶装置２０は、学習装置１０のメモリ１２として機能してもよい。

　インターフェース１３は、プロセッサ１１の制御に基づき記憶装置２０とデータの送受信を有線又は無線により行うための通信インターフェースであり、ネットワークアダプタなどが該当する。なお、学習装置１０と記憶装置２０とはケーブル等により接続されてもよい。この場合、インターフェース１３は、記憶装置２０とデータ通信を行う通信インターフェースの他、記憶装置２０とデータの授受を行うためのＵＳＢ、ＳＡＴＡ（Ｓｅｒｉａｌ　ＡＴ　Ａｔｔａｃｈｍｅｎｔ）などに準拠したインターフェースである。

　なお、学習装置１０のハードウェア構成は、図１に示す構成に限定されない。例えば、学習装置１０は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。

　また、学習装置１０は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を、装置間で行う。

　（２）機能ブロック
　次に、学習装置１０の機能的な構成について説明する。

　（２－１）概要
　図２は、学習装置１０の機能的な構成を示す概要図である。図２に示すように、学習装置１０のプロセッサ１１は、特徴抽出部３１と、第１推論部３２と、第１推論損失算出部３３と、第２推論部３４と、第２推論損失算出部３５と、更新部３６と、を有する。

　特徴抽出部３１は、動画データ記憶部２１に記憶される動画データ及び静止画データ記憶部２２に記憶される静止画データに対し、特徴抽出処理を実行する。具体的には、特徴抽出部３１は、動画データ記憶部２１から動画データ「Ｄｍ」が入力された場合に、動画データＤｍに関する特徴量である動画特徴量「Ｆｍ」を動画データＤｍから抽出する。また、特徴抽出部３１は、静止画データ記憶部２２から静止画データ「Ｄｓ」が入力された場合には、静止画データＤｓに関する特徴量である静止画特徴量「Ｆｓ」を静止画データＤｓから抽出する。

　ここで、特徴抽出部３１は、入力された動画データＤｍから動画特徴量Ｆｍを抽出し、かつ、入力された静止画データＤｓから静止画特徴量Ｆｓを抽出するように学習された学習モデルである。また、特徴抽出部３１は、動画特徴量Ｆｍの抽出と静止画特徴量Ｆｓの抽出とで共通するパラメータを有する。そして、このパラメータは、動画データＤｍを用いた学習及び静止画データＤｓを用いた学習の両方において好適に更新される。特徴抽出部３１は、例えば、畳み込みニューラルネットワークなどの学習モデルを学習することで構成される。なお、特徴抽出部３１は、ニューラルネットワークに基づく学習モデルに限らず、サポートベクターマシーンなどの他の種類の学習モデルに基づき機能してもよい。特徴抽出部３１の具体的な構成例については、後述する。

　特徴抽出部情報記憶部２５は、特徴抽出部３１を機能させるために必要なパラメータの情報を記憶する。例えば、特徴抽出部３１がニューラルネットワークに基づく構成を有する場合、特徴抽出部情報記憶部２５には、特徴抽出部３１の層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの種々のパラメータの情報が含まれる。

　第１推論部３２は、特徴抽出部３１から供給される動画特徴量Ｆｍに基づき、動作又は事象等に関する推論（「第１推論」とも呼ぶ。）を行い、第１推論に対する結果である第１推論結果「Ｒｍ」を出力する。例えば、第１推論部３２は、第１推論結果Ｒｍとして、第１推論により検出又は識別すべき各動作又は事象等が発生した確率を示す情報を、第１推論結果Ｒｍとして出力する。ここで、第１推論部３２は、特徴抽出部３１から供給される動画特徴量Ｆｍに基づき、第１推論結果Ｒｍを出力するように学習された学習モデルである。ここで、第１推論部３２は、畳み込みニューラルネットワークなどのニューラルネットワークに基づく学習モデルを採用してもよく、サポートベクターマシーンなどの他の種類の学習モデルを採用してもよい。第１推論部情報記憶部２６は、第１推論部３２を機能させるために必要なパラメータの情報を記憶する。

　第１推論損失算出部３３は、第１推論結果Ｒｍと、第１正解データ記憶部２３から取得される、動画データＤｍに対応する正解データとに基づき、第１推論部３２による第１推論に対する損失である第１推論損失「Ｌｍ」を算出する。第１推論損失Ｌｍに用いる損失関数は、クロスエントロピー、平均二乗誤差などの機械学習で用いられる任意の損失関数でよい。そして、第１推論損失算出部３３は、算出した第１推論損失Ｌｍを、更新部３６に供給する。

　第２推論部３４は、特徴抽出部３１から供給される静止画特徴量Ｆｓに基づき、対象物の識別等に関する推論（「第２推論」とも呼ぶ。）を行い、第２推論に対する結果である第２推論結果「Ｒｓ」を出力する。例えば、第２推論部３４は、第２推論結果Ｒｓとして、第２推論により認識すべき対象又は事象が存在又は発生している確率を示す情報を、第２推論結果Ｒｓとして出力する。ここで、第２推論部３４は、特徴抽出部３１から供給される静止画特徴量Ｆｓに基づき、第２推論結果Ｒｓを出力するように学習された学習モデルである。ここで、第２推論部３４は、畳み込みニューラルネットワークなどのニューラルネットワークに基づく学習モデルを採用してもよく、サポートベクターマシーンなどの他の種類の学習モデルを採用してもよい。第２推論部情報記憶部２７は、第２推論部３４を機能させるために必要なパラメータの情報を記憶する。

　第２推論損失算出部３５は、第２推論結果Ｒｓと、第２正解データ記憶部２４から取得される、静止画データＤｓに対応する正解データとに基づき、第２推論部３４による第２推論に対する損失である第２推論損失「Ｌｓ」を算出する。第２推論損失Ｌｓに用いる損失関数は、機械学習で用いられる任意の損失関数でよい。そして、第２推論損失算出部３５は、算出した第２推論損失Ｌｓを更新部３６に供給する。

　更新部３６は、第１推論損失算出部３３から供給される第１推論損失Ｌｍと、第２推論損失算出部３５から供給される第２推論損失Ｌｓとに基づき、特徴抽出部３１、第１推論部３２及び第２推論部３４の各パラメータを更新する。言い換えると、更新部３６は、第１推論損失Ｌｍと第２推論損失Ｌｓとが減少するように、特徴抽出部３１、第１推論部３２及び第２推論部３４のパラメータを変更し、変更後の各部のパラメータを、特徴抽出部情報記憶部２５、第１推論部情報記憶部２６、第２推論部情報記憶部２７にそれぞれ記憶する。

　この場合、第１の例では、更新部３６は、第１推論損失Ｌｍと第２推論損失Ｌｓとの和が最小となるように、特徴抽出部３１、第１推論部３２、第１推論損失算出部３３の各パラメータを決定する。第２の例では、更新部３６は、第１推論損失Ｌｍが最小となるように特徴抽出部３１及び第１推論部３２のパラメータを決定する処理と、第２推論損失Ｌｓが最小となるように特徴抽出部３１及び第１推論損失算出部３３のパラメータを決定する処理とを、それぞれ独立して実行する。第２の例では、更新部３６は、第１推論損失Ｌｍが最小となるように特徴抽出部３１及び第１推論部３２のパラメータを決定する処理を、第２推論損失Ｌｓが最小となるように特徴抽出部３１及び第１推論損失算出部３３のパラメータを決定する処理よりも先に行ってもよく、後に行ってもよい。第１の例又は第２の例に基づき第１推論損失Ｌｍと第２推論損失Ｌｓとを最小化するように各パラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。

　（２－２）特徴抽出部の構成
　次に、特徴抽出部３１の構成について具体的に説明する。

　図３は、特徴抽出部３１のブロック構成図を示す。図３に示すように、特徴抽出部３１は、１又は複数の特徴変換層４０を備える。図３では、特徴抽出部３１は、Ｎ個（Ｎは整数）の特徴変換層４０（第１～第Ｎ特徴変換層）を構成要素とする。

　第１特徴変換層は、動画データＤｍと静止画データＤｓが夫々入力された場合に、フレーム毎（画像毎）の特徴量が同一の特徴空間により表されるように夫々の特徴変換を行い、特徴変換後の動画データＤｍ及び静止画データＤｓの夫々の特徴量を、第２特徴変換層へ供給する。第２～第Ｎ－１特徴変換層は、前段に設けられた特徴変換層から供給される動画データＤｍ及び静止画データＤｓに夫々対応する特徴量を、画像毎に同一の特徴空間により表されるように夫々の特徴変換を行い、特徴変換後の動画データＤｍ及び静止画データＤｓの夫々の特徴量を、後段の特徴変換層へ供給する。そして、第Ｎ特徴変換層は、第Ｎ－１特徴から供給される動画データＤｍ及び静止画データＤｓに夫々対応する特徴量に対して特徴変換を行い、特徴変換後の特徴量である動画特徴量Ｆｍ及び静止画特徴量Ｆｓを出力する。

　なお、図３では、特徴抽出部３１が複数の特徴変換層４０を備える構成例について例示したが、特徴抽出部３１は、少なくとも１つの特徴変換層４０を備えればよい。

　次に、特徴変換層４０の構成の具体例（第１～第３構成例）について説明する。なお、各特徴変換層４０は、全て同一の構成を有してもよく、特徴変換層４０毎に異なる構成を有してもよい。

　図４は、特徴変換層４０の第１構成例を示す。図４に示す第１構成例に係る特徴変換層４０は、画像特徴変換ブロック４１と、時系列特徴変換ブロック４２と、点特徴変換ブロック４３とを備える。

　画像特徴変換ブロック４１は、入力される動画データＤｍ、静止画データＤｓ、又はこれらの特徴量に対し、画像毎（即ち空間方向）の特徴変換を行う。具体的には、画像特徴変換ブロック４１は、動画データＤｍ又は動画データＤｍの特徴量が入力された場合には、フレーム毎（即ち画像毎）の動画データＤｍ又は動画データＤｍの特徴量に対する特徴変換を行う。また、画像特徴変換ブロック４１は、静止画データＤｓ又は静止画データＤｓの特徴量が入力された場合においても同様に、静止画データＤｓ又は静止画データＤｓの特徴量に対する特徴変換を行う。画像特徴変換ブロック４１は、例えば、画像毎の特徴変換を行うように学習される２次元畳み込みニューラルネットワークにより構成される。

　ここで、画像特徴変換ブロック４１の特徴変換による特徴空間の変化について補足説明する。以後では、画像特徴変換ブロック４１に入力される動画データＤｍ又はその特徴量が表される４次元空間を、各次元のデータ長に基づき「Ｈ×Ｗ×Ｃ×Ｔ」と表現する。ここで、「Ｈ」は、画像の縦方向のデータ長（画像サイズ）を示し、「Ｗ」は、画像の横方向のデータ長を示し、「Ｃ」は、チャンネル方向のデータ長（チャンネル数）を示し、「Ｔ」は、時間方向のデータ長（フレーム数）を示す。

　この場合、画像特徴変換ブロック４１は、空間「Ｈ×Ｗ×Ｃ×Ｔ」における動画データＤｍ又はその特徴量を、空間「Ｈ１×Ｗ１×Ｃ１×Ｔ」における特徴量に変換する。ここで、「Ｈ１」は、画像特徴変換ブロック４１による特徴変換後の画像の縦方向のデータ長、「Ｗ１」は、画像特徴変換ブロック４１による特徴変換後の画像の横方向のデータ長、「Ｃ１」は、画像特徴変換ブロック４１による特徴変換後の画像のチャンネル方向のデータ長（チャンネル数）を示す。このように、画像特徴変換ブロック４１は、画像特徴変換ブロック４１に入力される動画データＤｍ又はその特徴量に対し、時間方向を除く各方向の特徴変換を行う。

　同様に、動画データＤｍを構成する各画像データ又は静止画データＤｓ又はこれらの特徴量が表される３次元空間を「Ｈ×Ｗ×Ｃ」と表現すると、画像特徴変換ブロック４１は、空間「Ｈ×Ｗ×Ｃ」における静止画データＤｓ又はその特徴量を、空間「Ｈ１×Ｗ１×Ｃ１」における特徴量に変換する。

　このように、画像特徴変換ブロック４１は、入力される動画データＤｍ及び静止画データＤｓに対し、時間方向を除く各方向における特徴変換を実行する。

　時系列特徴変換ブロック４２は、画像特徴変換ブロック４１から入力される動画データＤｍの特徴量に対し、時間方向の特徴変換を行う。画像特徴変換ブロック４１は、例えば、時間方向の特徴変換を行うように学習される１次元畳み込みニューラルネットワークにより構成される。

　具体的には、時系列特徴変換ブロック４２は、画像特徴変換ブロック４１から供給される空間「Ｈ１×Ｗ１×Ｃ１×Ｔ」の動画データＤｍの特徴量を、空間「Ｈ１×Ｗ１×Ｃ２×Ｔ１」の特徴量に変換する。ここで、「Ｃ２」は時系列特徴変換ブロック４２による特徴変換後のチャンネル方向のデータ長（チャンネル数）、「Ｔ１」は時系列特徴変換ブロック４２による特徴変換後の時間方向のデータ長（フレーム数）を示す。このように、時系列特徴変換ブロック４２は、画像特徴変換ブロック４１に入力される動画データＤｍの特徴量に対し、時間方向及びチャンネル方向の特徴変換を行う。

　点特徴変換ブロック４３は、画像特徴変換ブロック４１から入力される静止画データＤｓの特徴量に対し、点の特徴変換を行う。画像特徴変換ブロック４１は、例えば、各画素のチャンネル方向の特徴変換を行うように学習される０次元畳み込みニューラルネットワークにより構成される。

　具体的には、点特徴変換ブロック４３は、画像特徴変換ブロック４１から供給される空間「Ｈ１×Ｗ１×Ｃ１」の静止画データＤｓの特徴量を、空間「Ｈ１×Ｗ１×Ｃ２」の特徴量に変換する。ここで、点特徴変換ブロック４３による特徴変換後の静止画データＤｓの特徴量のチャンネル数Ｃ２は、時系列特徴変換ブロック４２による特徴変換後の動画データＤｍの特徴量のチャンネル数Ｃ２と同一となっている。このように、点特徴変換ブロック４３は、時系列特徴変換ブロック４２により特徴変換された動画データＤｍの画像毎の特徴量と同一の特徴空間により表されるように、静止画データＤｓの特徴量の変換を行う。言い換えると、点特徴変換ブロック４３は、時系列特徴変換ブロック４２により変換された動画データＤｍの特徴量とチャンネル方向において同一データ長（即ち同一のチャンネル数）となるように、静止画データＤｓの特徴量を変換する。これにより、時系列特徴変換ブロック４２及び点特徴変換ブロック４３から夫々出力される特徴量は、後段の特徴変換層４０の画像特徴変換ブロック４１に対して同一形式の特徴量として入力されるため、当該画像特徴変換ブロック４１により好適に特徴変換が行われる。従って、特徴変換層４０は、共通の画像特徴変換ブロック４１により、動画データＤｍ及び静止画データＤｓに対する特徴変換を行うことができる。

　なお、画像特徴変換ブロック４１は、畳み込みニューラルネットワークに限らず、画像毎の特徴変換を行うように学習される任意の学習モデルであってもよい。同様に、時系列特徴変換ブロック４２は、畳み込みニューラルネットワークに限らず、時間方向及びチャンネル方向の特徴変換を行うように学習される任意の学習モデルであってもよい。同様に、点特徴変換ブロック４３は、畳み込みニューラルネットワークに限らず、チャンネル方向の特徴変換を行うように学習される任意の学習モデルであってもよい。

　ここで、第１構成例による効果について補足説明する。

　一般的に、特徴抽出部３１を畳み込みニューラルネットワークなどにより構成した場合、畳み込みニューラルネットワークは大量のパラメータを有し、これらのパラメータを学習するには、正解データが紐づかれた大量の動画データＤｍが必要となる。また、一般的に、学習データが少ないと、学習データに含まれる認識と無関係の相関を学習してしまい、認識精度が十分な精度とはならない。

　以上を勘案し、第１構成例に係る特徴変換層４０は、動画データＤｍに関する特徴変換と静止画データＤｓに関する特徴変換とを共通して実行する画像特徴変換ブロック４１を備える。この場合、画像特徴変換ブロック４１は、動画データＤｍを用いた学習及び静止画データＤｓを用いた学習の両方において、好適にパラメータの学習が行われる。よって、仮に動画データＤｍ及びその正解データの数が十分な認識精度を達成するための学習に必要な数に対して不足している場合であっても、学習装置１０は、静止画データＤｓを用いた学習により、画像特徴変換ブロック４１等の学習を行い、画像特徴変換ブロック４１のパラメータを高精度に学習することができる。

　図５（Ａ）は、特徴変換層４０の第２構成例を示す。図５（Ａ）に示す第２構成例に係る特徴変換層４０は、画像特徴変換ブロック４１の前段に、点特徴変換ブロック４３Ａを有する点で、第１構成例に係る特徴変換層４０と異なる。

　点特徴変換ブロック４３Ａは、入力される動画データＤｍ、静止画データＤｓ、又はこれらの特徴量に対し、点の特徴変換を行う。画像特徴変換ブロック４１は、例えば、各画素のチャンネル方向の特徴変換を行うように学習される０次元畳み込みニューラルネットワークにより構成される。

　この場合、点特徴変換ブロック４３Ａは、入力される動画データＤｍ又はその特徴量と、静止画データＤｓ又はその特徴量とについて、チャンネル方向の特徴変換を行い、特徴変換後の特徴量を画像特徴変換ブロック４１に供給する。この場合、画像特徴変換ブロック４１に入力される動画データＤｍの画像毎の特徴量の画像の縦方向、横方向、及びチャンネル方向の各データ長は、画像特徴変換ブロック４１に入力される静止画データＤｓの画像の縦方向、横方向、及びチャンネル方向の各データ長と同一となる。よって、第２構成例に係る特徴変換層４０は、第１構成例に係る特徴変換層４０と同様、動画データＤｍと静止画データＤｓとに対する同一形式の特徴量を、画像特徴変換ブロック４１に入力することができる。よって、第２構成例に係る特徴変換層４０は、動画データＤｍ又は静止画データＤｓに対する特徴変換を、共通の画像特徴変換ブロック４１により好適に実行することができる。

　図５（Ｂ）は、特徴変換層４０の第３構成例を示す。図５（Ｂ）に示す第３構成例に係る特徴変換層４０は、点特徴変換ブロック４３に代えて、２つの点特徴変換ブロック４３Ｂと点特徴変換ブロック４３Ｃを備える点で、第１構成例に係る特徴変換層４０と異なる。

　ここで、点特徴変換ブロック４３Ｂと点特徴変換ブロック４３Ｃは、夫々、入力される静止画データＤｓの特徴量に対し、点の特徴変換を行う。ここで、時系列特徴変換ブロック４２が「Ｈ１×Ｗ１×Ｃ１×Ｔ」の動画データＤｍの特徴量を「Ｈ１×Ｗ１×Ｃ２×Ｔ１」の特徴量に変換し、画像特徴変換ブロック４１が点特徴変換ブロック４３Ｂに対して「Ｈ１×Ｗ１×Ｃ１」の静止画データＤｓの特徴量を入力したとする。この場合、点特徴変換ブロック４３Ｂは、「Ｈ１×Ｗ１×Ｃ１」の静止画データＤｓの特徴量を、「Ｈ１×Ｗ１×Ｃ１α」の特徴量に変換し、点特徴変換ブロック４３Ｃは、点特徴変換ブロック４３Ｂから入力される「Ｈ１×Ｗ１×Ｃ１α」の特徴量を、「Ｈ１×Ｗ１×Ｃ２」の特徴量に変換する。ここで、「Ｃ１α」は、点特徴変換ブロック４３Ｂによる特徴変換後のチャンネル方向のデータ長（チャンネル数）を示す。この場合、点特徴変換ブロック４３Ｃによる特徴変換後の静止画データＤｓの特徴量のチャンネル数Ｃ２は、時系列特徴変換ブロック４２による特徴変換後の動画データＤｍの特徴量のチャンネル数Ｃ２と同一となっている。

　このように、第３構成例に係る点特徴変換ブロック４３Ｂ及び点特徴変換ブロック４３Ｃは、時系列特徴変換ブロック４２により特徴変換された動画データＤｍの画像毎の特徴量と同一形式となるように、静止画データＤｓの特徴量の変換を行う。従って、第３構成例によっても、第１及び第２構成例と同様、特徴変換層４０は、共通の画像特徴変換ブロック４１により、動画データＤｍ及び静止画データＤｓの両方に対する特徴変換を行うことができる。

　以上のように、特徴抽出部３１は、画像特徴変換ブロック４１と、時系列特徴変換ブロック４２と、点特徴変換ブロック４３とを有する層である特徴変換層４０を少なくとも１つ以上備える層構造を有する。

　（３）処理フロー
　図６は、学習装置１０が実行する学習処理の概要を示すフローチャートの一例である。

　まず、学習装置１０は、学習を継続すべきか否か判定する（ステップＳ１１）。そして、学習装置１０は、学習を継続すべきと判定した場合（ステップＳ１１；Ｙｅｓ）、ステップＳ１２へ処理を進める。例えば、学習装置１０は、学習対象となる動画データＤｍ及び静止画データＤｓを指定するユーザ入力を検知した場合、又は、学習対象として指定された動画データＤｍ及び静止画データＤｓのうち学習を行っていないものが存在する場合、学習を継続すべきと判定する。一方、学習装置１０は、学習を継続すべきでないと判定した場合（ステップＳ１１；Ｎｏ）、フローチャートの処理を終了する。学習装置１０は、例えば、学習を終了すべき旨のユーザ入力等を検知した場合、又は、学習対象として指定された全ての動画データＤｍ及び静止画データＤｓを用いた学習が完了した場合、学習を継続すべきでないと判定する。

　次に、学習装置１０の特徴抽出部３１、第１推論部３２及び第１推論損失算出部３３は、動画データ記憶部２１に記憶された動画データＤｍに基づき第１推論損失Ｌｍを算出する処理である第１推論損失計算処理を実行する（ステップＳ１２）。第１推論損失計算処理については、図７を参照して後述する。また、学習装置１０の特徴抽出部３１、第２推論部３４、及び第２推論損失算出部３５は、静止画データ記憶部２２に記憶された静止画データＤｓに基づき第２推論損失Ｌｓを算出する処理である第２推論損失計算処理を実行する（ステップＳ１３）。第２推論損失計算処理については、図８を参照して後述する。

　次に、学習装置１０の更新部３６は、ステップＳ１２で算出された第１推論損失Ｌｍと、ステップＳ１３で算出された第２推論損失Ｌｓとに基づき、特徴抽出部３１、第１推論部３２、及び第２推論部３４に関するパラメータを更新する（ステップＳ１４）。言い換えると、更新部３６は、特徴抽出部情報記憶部２５、第１推論部情報記憶部２６、及び第２推論部情報記憶部２７にそれぞれ記憶されるパラメータを更新する。この場合、第１の例では、更新部３６は、第１推論損失Ｌｍと第２推論損失Ｌｓとの和が最小となるように、特徴抽出部３１、第１推論部３２、第２推論部３４の各パラメータを決定する。第２の例では、更新部３６は、第１推論損失Ｌｍが最小となるように特徴抽出部３１及び第１推論部３２のパラメータを決定する処理と、第２推論損失Ｌｓが最小となるように特徴抽出部３１及び第２推論部３４のパラメータを決定する処理とを、それぞれ独立して実行する。

　図７は、図６のステップＳ１２において学習装置１０が実行する第１推論損失計算処理の手順を示すフローチャートの一例である。

　まず、学習装置１０は、動画データ記憶部２１に記憶された動画データＤｍを特徴抽出部３１に入力する（ステップＳ２１）。なお、記憶装置２０がサーバ装置である場合等には、学習装置１０は、当該サーバ装置から受信した動画データＤｍを特徴抽出部３１に入力する。

　次に、学習装置１０の特徴抽出部３１は、特徴抽出部情報記憶部２５に記憶されたパラメータに基づき、入力された動画データＤｍを、動画特徴量Ｆｍに変換する（ステップＳ２２）。そして、学習装置１０の第１推論部３２は、第１推論部情報記憶部２６に記憶されたパラメータに基づき、特徴抽出部３１が出力する動画特徴量Ｆｍから第１推論結果Ｒｍを出力する（ステップＳ２３）。そして、学習装置１０の第１推論損失算出部３３は、第１推論部３２が出力する第１推論結果Ｒｍに基づき、第１推論損失Ｌｍを算出する（ステップＳ２４）。この場合、第１推論損失算出部３３は、例えば、第１正解データ記憶部２３に記憶された、ステップＳ２１において入力された動画データＤｍに対応する正解データと、第１推論結果Ｒｍとに基づき、所定の損失関数を用いることで、第１推論損失Ｌｍを算出する。

　図８は、図６のステップＳ１３において学習装置１０が実行する第２推論損失計算処理の手順を示すフローチャートの一例である。

　まず、学習装置１０の特徴抽出部３１は、静止画データ記憶部２２に記憶された静止画データＤｓを特徴抽出部３１に入力する（ステップＳ３１）。なお、記憶装置２０がサーバ装置である場合等には、学習装置１０は、当該サーバ装置から受信した静止画データＤｓを特徴抽出部３１に入力する。

　次に、学習装置１０の特徴抽出部３１は、特徴抽出部情報記憶部２５に記憶されたパラメータに基づき、入力された静止画データＤｓを、静止画特徴量Ｆｓに変換する（ステップＳ３２）。そして、学習装置１０の第２推論部３４は、第２推論部情報記憶部２７に記憶されたパラメータに基づき、特徴抽出部３１が出力する静止画特徴量Ｆｓから第２推論結果Ｒｓを出力する（ステップＳ３３）。そして、学習装置１０の第２推論損失算出部３５は、第２推論部３４が出力する第２推論結果Ｒｓに基づき、第２推論損失Ｌｓを算出する（ステップＳ３４）。この場合、第２推論損失算出部３５は、第２正解データ記憶部２４に記憶された、ステップＳ３１において入力された静止画データＤｓに対応する正解データと、第２推論結果Ｒｓとに基づき、所定の損失関数を用いることで、第２推論損失Ｌｓを算出する。

　なお、図６のフローチャートの処理では、学習装置１０は、第１推論損失計算処理を第２推論損失計算処理より先に実行したが、第２推論損失計算処理を第１推論損失計算処理より先に実行してもよい。また、学習装置１０は、第１推論損失計算処理により得られた第１推論損失Ｌｍに基づく更新部３６の処理と、第２推論損失計算処理により得られた第２推論損失Ｌｓに基づく更新部３６の処理とを独立したタイミングにより実行してもよい。

　図９は、学習装置１０が実行する学習処理の概要を示すフローチャートの変形例である。図９のフローチャートでは、学習装置１０は、第２推論損失計算処理を第１推論損失計算処理より先に実行し、かつ、夫々の処理の直後に当該処理により得られた損失に基づくパラメータの更新を独立して実行している。

　まず、学習装置１０は、学習を継続すべきか否か判定する（ステップＳ４１）。そして、学習装置１０は、学習を継続すべきと判定した場合（ステップＳ４１；Ｙｅｓ）、第２推論損失計算処理を実行する（ステップＳ４２）。そして、学習装置１０の更新部３６は、第２推論損失計算処理により得られた第２推論損失Ｌｓに基づき、特徴抽出部３１及び第２推論部３４の各パラメータの更新を行う（ステップＳ４３）。言い換えると、更新部３６は、特徴抽出部情報記憶部２５及び第２推論部情報記憶部２７に記憶された各パラメータの更新を行う。

　次に、学習装置１０は、第１推論損失計算処理を実行する（ステップＳ４４）。そして、学習装置１０の更新部３６は、第１推論損失計算処理により得られた第１推論損失Ｌｍに基づき、特徴抽出部３１及び第１推論部３２の各パラメータの更新を行う（ステップＳ４５）。言い換えると、更新部３６は、特徴抽出部情報記憶部２５及び第１推論部情報記憶部２６に記憶された各パラメータの更新を行う。

　（４）応用例
　次に、本実施形態に係る学習装置１０を特定用途に応用した場合の具体例について説明する。

　（４－１）人物動作識別
　図１０は、人物動作識別のための学習を行う学習装置１０Ａの機能的な構成を示す概要図である。

　学習装置１０Ａのプロセッサ１１は、特徴抽出部３１と、人物動作識別部３２Ａと、人物動作識別損失算出部３３Ａと、姿勢推定部３４Ａと、姿勢推定損失算出部３５Ａと、更新部３６とを備える。また、動画データ記憶部２１と第１正解データ記憶部２３には、夫々、人物動作識別用の学習データである動画データＤｍとその正解データとが記憶され、静止画データ記憶部２２と第２正解データ記憶部２４には、夫々、姿勢推定用の学習データである静止画データＤｓとその正解データとが記憶されている。

　特徴抽出部３１は、入力される動画データＤｍに対して動画特徴量Ｆｍを生成し、入力される静止画データＤｓに対して静止画特徴量Ｆｓを生成する。そして、特徴抽出部３１は、生成した動画特徴量Ｆｍを人物動作識別部３２Ａに供給し、生成した静止画特徴量Ｆｓを姿勢推定部３４Ａに供給する。例えば、特徴抽出部３１は、１又は複数の特徴変換層４０（図３参照）を有する。特徴変換層４０は、例えば、前述した図４又は図５（Ａ）、（Ｂ）のいずれかに示される構成を有する。

　人物動作識別部３２Ａは、図２の第１推論部３２に相当し、特徴抽出部３１から入力される動画特徴量Ｆｍに基づき、人物動作識別結果「Ｒｍａ」を出力する。例えば、人物動作識別部３２Ａは、識別すべき人物動作毎の確率を示す情報を、人物動作識別結果Ｒｍａとして出力する。ここで、人物動作識別部３２Ａは、特徴抽出部３１から供給される動画特徴量Ｆｍに基づき、人物動作識別結果Ｒｍａを出力するように学習された学習モデルである。そして、第１推論部情報記憶部２６は、人物動作識別部３２Ａを機能させるために必要なパラメータの情報を記憶する。

　人物動作識別損失算出部３３Ａは、図２の第１推論損失算出部３３に相当し、人物動作識別結果Ｒｍａと、第１正解データ記憶部２３から取得される、動画データＤｍの正解データとに基づき、人物動作識別結果Ｒｍａに対する損失である人物動作識別損失「Ｌｍａ」を算出する。そして、人物動作識別損失算出部３３Ａは、人物動作識別損失Ｌｍａを更新部３６に供給する。

　姿勢推定部３４Ａは、図２の第２推論部３４に相当し、特徴抽出部３１から供給される静止画特徴量Ｆｓに基づき、人物の姿勢推定処理を行い、当該姿勢推定処理に対する姿勢推定結果「Ｒｓａ」を出力する。例えば、姿勢推定部３４Ａは、推定すべき姿勢毎の確率を示す情報を、姿勢推定結果Ｒｓａとして出力する。ここで、姿勢推定部３４Ａは、特徴抽出部３１から供給される静止画特徴量Ｆｓに基づき、姿勢推定結果Ｒｓａを出力するように学習された学習モデルである。第２推論部情報記憶部２７は、姿勢推定部３４Ａを機能させるために必要なパラメータの情報を記憶する。

　姿勢推定損失算出部３５Ａは、図２の第２推論損失算出部３５に相当し、姿勢推定結果Ｒｓａと、第２正解データ記憶部２４から取得される、静止画データＤｓの正解データとに基づき、姿勢推定結果Ｒｓａに対する損失である姿勢推定損失「Ｌｓａ」を算出する。そして、姿勢推定損失算出部３５Ａは、算出した姿勢推定損失Ｌｓａを、更新部３６に供給する。

　更新部３６は、人物動作識別損失算出部３３Ａから供給される人物動作識別損失Ｌｍａと、姿勢推定損失算出部３５Ａから供給される姿勢推定損失Ｌｓａとに基づき、特徴抽出部３１、人物動作識別部３２Ａ及び姿勢推定部３４Ａの各パラメータを決定する。そして、更新部３６は、決定した各部のパラメータを、夫々、特徴抽出部情報記憶部２５、第１推論部情報記憶部２６、第２推論部情報記憶部２７に記憶する。

　この応用例によれば、学習装置１０Ａは、動画データＤｍによる人物動作識別の学習と同時に、人物動作識別と同様に人物領域に着目する必要がある姿勢推定を、静止画データＤｓを用いて学習する。これにより、学習装置１０Ａは、動画の学習データが少ない場合であっても、人物領域に関する特徴量を抽出する特徴抽出部３１の学習を、動画データＤｍと静止画データＤｓとの両方を用いて好適に実行することができる。

　（４－２）人物行動検出
　図１１は、人物行動検出のための学習を行う学習装置１０Ｂの機能的な構成を示す概要図である。

　学習装置１０Ｂのプロセッサ１１は、特徴抽出部３１と、人物行動検出部３２Ｂと、人物行動検出損失算出部３３Ｂと、人物検出部３４Ｂと、人物検出損失算出部３５Ｂと、更新部３６とを備える。また、動画データ記憶部２１と第１正解データ記憶部２３には、夫々、人物行動検出用の学習データである動画データＤｍとその正解データとが記憶され、静止画データ記憶部２２と第２正解データ記憶部２４には、夫々、人物検出用の学習データである静止画データＤｓとその正解データとが記憶されている。

　特徴抽出部３１は、入力される動画データＤｍに対して動画特徴量Ｆｍを生成し、入力される静止画データＤｓに対して静止画特徴量Ｆｓを生成する。そして、特徴抽出部３１は、生成した動画特徴量Ｆｍを人物行動検出部３２Ｂに供給し、生成した静止画特徴量Ｆｓを人物検出部３４Ｂに供給する。例えば、特徴抽出部３１は、１又は複数の特徴変換層４０（図３参照）を有する。特徴変換層４０は、例えば、前述した図４又は図５（Ａ）、（Ｂ）のいずれかに示される構成を有する。

　人物行動検出部３２Ｂは、図２の第１推論部３２に相当し、特徴抽出部３１から入力される動画特徴量Ｆｍに基づき、人物行動検出結果「Ｒｍｂ」を出力する。例えば、人物行動検出部３２Ｂは、人物行動検出結果Ｒｍｂとして、人物の検出の有無、及び、検出した人物が存在する場合に推定される行動に関する情報を出力する。ここで、人物行動検出部３２Ｂは、特徴抽出部３１から供給される動画特徴量Ｆｍに基づき、人物行動検出結果Ｒｍｂを出力するように学習された学習モデルである。第１推論部情報記憶部２６は、人物行動検出部３２Ｂを機能させるために必要なパラメータの情報を記憶する。

　人物行動検出損失算出部３３Ｂは、図２の第１推論損失算出部３３に相当し、人物行動検出部３２Ｂから入力される人物行動検出結果Ｒｍｂに基づき、人物行動検出結果Ｒｍｂに対する損失である人物行動検出損失「Ｌｍｂ」を算出する。そして、人物行動検出損失算出部３３Ｂは、人物行動検出損失Ｌｍｂを更新部３６に供給する。

　人物検出部３４Ｂは、図２の第２推論部３４に相当し、特徴抽出部３１から供給される静止画特徴量Ｆｓに基づき、人を検出する処理を行い、当該処理に対する人物検出結果「Ｒｓｂ」を出力する。例えば、人物行動検出部３２Ｂは、人物検出結果Ｒｓｂとして、人物の検出の有無に関する情報を、人物検出結果Ｒｓｂとして出力する。ここで、人物検出部３４Ｂは、特徴抽出部３１から供給される静止画特徴量Ｆｓに基づき、人物検出結果Ｒｓｂを出力するように学習された学習モデルである。第２推論部情報記憶部２７は、人物検出部３４Ｂを機能させるために必要なパラメータの情報を記憶する。

　人物検出損失算出部３５Ｂは、図２の第２推論損失算出部３５に相当し、人物検出部３４Ｂから供給される人物検出結果Ｒｓｂと、第２正解データ記憶部２４から取得される、静止画データＤｓの正解データとに基づき、人物検出結果Ｒｓｂに対する損失である人物検出損失「Ｌｓｂ」を算出する。そして、人物検出損失算出部３５Ｂは、算出した人物検出損失Ｌｓｂを、更新部３６に供給する。

　更新部３６は、人物行動検出損失算出部３３Ｂから供給される人物行動検出損失Ｌｍｂと、人物検出損失算出部３５Ｂから供給される人物検出損失Ｌｓｂとに基づき、特徴抽出部３１、人物行動検出部３２Ｂ及び人物検出部３４Ｂの各パラメータを決定する。そして、更新部３６は、決定した各部のパラメータを、夫々、特徴抽出部情報記憶部２５、第１推論部情報記憶部２６、第２推論部情報記憶部２７に記憶する。

　この応用例によれば、学習装置１０Ｂは、動画データＤｍによる人物行動検出の学習と同時に、人物行動検出と同様に人物領域に着目する必要がある人物検出を、静止画データＤｓを用いて学習する。これにより、学習装置１０Ｂは、動画の学習データが少ない場合であっても、人物領域に関する特徴量を抽出する特徴抽出部３１の学習を、動画データＤｍと静止画データＤｓとの両方を用いて好適に実行することができる。

　なお、図１０及び図１１に示した応用例に限られず、学習装置１０は、動画データＤｍを用いた推論を、静止画データＤｓを用いた種々の推論と組み合わせることで、特徴抽出部３１の学習を行ってもよい。例えば、学習装置１０は、動画データＤｍと同一種類の対象物が表示される静止画データＤｓに対し、画像分類処理やセマンティックセグメンテーションなどの種々の推論を実行してもよい。

　＜第２実施形態＞
　図１２は、第２実施形態に係る学習装置１０Ｃの学習処理における機能的な構成を示す概要図である。第２実施形態に係る学習装置１０Ｃは、静止画データＤｓに対する第２推論部３４の処理結果を第１推論部３２の処理に用いる点において、第１実施形態の学習装置１０と異なる。なお、以後において、特徴抽出部３１、第１推論損失算出部３３、第２推論損失算出部３５及び更新部３６については、第１実施形態と同一の処理を行うため、その説明を省略する。

　学習装置１０Ｃの第２推論部３４Ｃは、静止画データＤｓを用いた学習において、第１実施形態の第２推論部３４と同様、特徴抽出部３１が静止画データＤｓから抽出した静止画特徴量Ｆｓに基づき第２推論結果Ｒｓを出力する。そして、更新部３６は、第２推論結果Ｒｓに基づき第２推論損失算出部３５が算出する第２推論損失Ｌｓを最小化するように、特徴抽出部３１及び第２推論部３４Ｃの各パラメータを更新する。

　一方、学習装置１０Ｃは、動画データＤｍを用いた学習では、特徴抽出部３１は、動画データＤｍに対する動画特徴量Ｆｍを第１推論部３２Ｃに供給すると共に、動画データＤｍを構成する画像（フレーム）毎の特徴量である静止画特徴量Ｆｓを第２推論部３４Ｃに供給する。

　この場合、第２推論部３４Ｃは、特徴抽出部３１から供給された静止画特徴量Ｆｓに基づき第２推論結果Ｒｓを算出し、算出した第２推論結果Ｒｓを、第１推論部３２Ｃと第２推論損失算出部３５に夫々供給する。また、第１推論部３２Ｃは、特徴抽出部３１から供給される動画特徴量Ｆｍと、第２推論部３４Ｃから供給される第２推論結果Ｒｓとに基づき、第１推論結果Ｒｍを算出する。そして、第１推論部３２Ｃは、算出した第１推論結果Ｒｍを第１推論損失算出部３３へ供給する。同様に、第２推論部３４Ｃは、特徴抽出部３１から供給される静止画特徴量Ｆｓに基づき第２推論結果Ｒｓを算出し、算出した第２推論結果Ｒｓを第２推論損失算出部３５へ供給する。その後、更新部３６は、第１推論損失算出部３３が第１推論結果Ｒｍから算出する第１推論損失Ｌｍと、第２推論損失算出部３５が第２推論結果Ｒｓから算出する第２推論損失Ｌｓとに基づき、特徴抽出部３１、第１推論部３２Ｃ、第２推論部３４Ｃの各パラメータの更新を行う。

　ここで、第１推論部３２Ｃの具体的な処理について説明する。

　第１推論部３２Ｃは、特徴抽出部３１から供給される動画特徴量Ｆｍに対し、第２推論部３４Ｃから供給される第２推論結果Ｒｓを統合し、統合した動画特徴量Ｆｍを入力として第１推論結果Ｒｍの出力を行う。第１推論部３２Ｃは、第２推論結果Ｒｓが統合された動画特徴量Ｆｍを入力とし、第１推論結果Ｒｍを出力とするように学習が行われる。

　この場合、第１の例では、第２推論結果Ｒｓは、画像中の各領域又は各画素の分類を示すマスク画像であり、第１推論部３２Ｃは、画像毎の動画特徴量Ｆｍに対するチャンネル方向のデータ長を拡大する（即ちチャンネル数を増やす）。そして、第１推論部３２Ｃは、画像毎の動画特徴量Ｆｍに対し、同一画像に基づき生成された第２推論結果Ｒｓを、拡大した新たなチャネルに格納する。例えば、動画特徴量Ｆｍのチャンネル数を「Ｃａ」、第２推論結果Ｒｓのチャンネル数を「Ｃｂ」とすると、第１推論部３２Ｃは、第２推論結果Ｒｓを動画特徴量Ｆｍに統合することで、チャンネル数が「Ｃａ＋Ｃｂ」となる動画特徴量Ｆｍを生成する。

　第２の例では、第１推論部３２Ｃは、第２推論結果Ｒｓが動画認識において行動検知対象となる物又は人の領域を指定するマスク画像である場合、画像毎の動画特徴量Ｆｍに対し、同一画像に基づき生成された第２推論結果Ｒｓを用いてマスク処理を行う。この例によれば、第１推論部３２Ｃは、チャンネル方向のデータ長を拡大することなく、第２推論結果Ｒｓに基づく動画特徴量Ｆｍを好適に生成することができる。

　図１３は、学習済みの学習装置１０Ｃの推論処理における機能的な構成を示す概要図である。図１３では、推論処理に関連する学習装置１０Ｃの構成要素のみを明示している。学習済みの学習装置１０Ｃは、推論装置として機能する。

　この場合、カメラ等により撮影された動画データがインターフェース１３を介して特徴抽出部３１に入力される。そして、特徴抽出部３１は、特徴抽出部情報記憶部２５のパラメータを参照し、入力された動画データから動画特徴量Ｆｍを抽出すると共に、動画特徴量Ｆｍを構成する各画像から静止画特徴量Ｆｓを抽出する。そして、特徴抽出部３１は、抽出した動画特徴量Ｆｍを第１推論部３２Ｃに供給すると共に、抽出した静止画特徴量Ｆｓを第２推論部３４Ｃに供給する。この場合、第２推論部３４Ｃは、第２推論部情報記憶部２７に記憶されたパラメータに基づき、静止画特徴量Ｆｓから第２推論結果Ｒｓを算出し、算出した第２推論結果Ｒｓを第１推論部３２Ｃに供給する。第１推論部３２Ｃは、特徴抽出部３１から供給される動画特徴量Ｆｍと、第２推論部３４Ｃから供給される第２推論結果Ｒｓとに基づき、第１推論結果Ｒｍを算出し、当該第１推論結果Ｒｍを出力する。

　このように、第２実施形態に係る学習装置１０Ｃは、第２推論部３４Ｃの推論結果を第１推論部３２の推論に用いることで、第１推論部３２の推論の正確性を好適に向上させることができる。第２実施形態に係る学習装置１０Ｃは、図１０に示される人物動作識別と姿勢推定の学習、及び図１１に示される人物行動検出と人物検出の学習のいずれの応用例に対しても好適に適用される。

　図１４は、学習済みの学習装置１０Ｃの推論処理の手順を示すフローチャートの一例である。

　まず、学習装置１０Ｃは、推論処理を行う対象となる動画データを取得し、当該動画データを特徴抽出部３１に入力する（ステップＳ５１）。そして、特徴抽出部３１は、特徴抽出部情報記憶部２５に記憶されたパラメータを用い、入力された動画データに基づき、動画特徴量Ｆｍと静止画特徴量Ｆｓを生成する（ステップＳ５２）。この場合、特徴抽出部３１は、入力された動画データを構成する各画像に対し、静止画データＤｓに対する処理と同一処理を行うことで、各画像に対応する静止画特徴量Ｆｓを生成する。

　次に、第２推論部３４Ｃは、第２推論部情報記憶部２７に記憶されたパラメータを用い、静止画特徴量Ｆｓから第２推論結果Ｒｓを出力する（ステップＳ５３）。そして、第１推論部３２Ｃは、第１推論部情報記憶部２６に記憶されたパラメータを参照し、特徴抽出部３１から供給される動画特徴量Ｆｍと、第２推論部３４Ｃから供給される第２推論結果Ｒｓとから、第１推論結果Ｒｍを出力する（ステップＳ５４）。この場合、第１推論部３２Ｃは、例えば、動画データの各画像の動画特徴量Ｆｍに対し、対応する各画像の第２推論結果Ｒｓの情報を統合することで、第２推論結果Ｒｓを考慮した動画特徴量Ｆｍを生成し、当該動画特徴量Ｆｍに基づき、第１推論結果Ｒｍを出力する。これにより、第１推論部３２Ｃは、画像毎の推論を行う第２推論部３４Ｃの推論結果を反映した的確な動画の推論結果を得ることができる。

　なお、第１推論部３２Ｃは、特徴抽出部３１が出力する動画特徴量Ｆｍと第２推論部３４Ｃが出力する第２推論結果Ｒｓに基づき第１推論結果Ｒｍを出力する代わりに、特徴抽出部３１が出力する動画特徴量Ｆｍと静止画特徴量Ｆｓに基づき第１推論結果Ｒｍを出力してもよい。この場合、第１推論部３２Ｃは、例えば、特徴抽出部３１から供給される動画特徴量Ｆｍに対し、特徴抽出部３１から供給される静止画特徴量Ｆｓを統合し、統合した動画特徴量Ｆｍを入力として第１推論結果Ｒｍの出力を行う。この場合、動画特徴量Ｆｍのチャンネル数（チャンネル方向のデータ長）を「Ｃａ」、第２推論結果Ｒｓのチャンネル数を「Ｃｃ」とすると、第１推論部３２Ｃは、静止画特徴量Ｆｓを動画特徴量Ｆｍに統合することで、チャンネル数が「Ｃａ＋Ｃｃ」となる動画特徴量Ｆｍを生成する。そして、第１推論部３２Ｃは、静止画特徴量Ｆｓが統合された動画特徴量Ｆｍを入力とし、第１推論結果Ｒｍを出力とするように学習が行われる。

　＜第３実施形態＞
　図１５は、第３実施形態に係る学習装置１０Ｄの概略構成を示す。学習装置１０Ｄは、特徴抽出部３１Ｄと、第１推論部３２Ｄと、第２推論部３４Ｄと、学習部３６Ｄとを備える。

　学習装置１０Ｄは、動画データＤｍが入力された場合に、当該動画データＤｍに関する特徴量である動画特徴量Ｆｍを抽出し、静止画データＤｓが入力された場合に、当該静止画データＤｓに関する特徴量である静止画特徴量Ｆｓを抽出するように学習される。第１推論部３２Ｄは、動画特徴量Ｆｍに基づき、動画データＤｍに関する第１推論を行う。第２推論部３４Ｄは、静止画特徴量Ｆｓに基づき、静止画データＤｓに関する第２推論を行う。学習部３６Ｄは、第１推論と第２推論との結果に基づき、特徴抽出部３１Ｄの学習を行う。学習部３６Ｄは、例えば、図２又は図１２に示される、第１推論損失算出部３３、第２推論損失算出部３５、更新部３６により構成される。

　第３実施形態に係る学習装置１０Ｄは、動画データＤｍに加えて静止画データＤｓを用いて特徴抽出部３１Ｄの学習を行うことで、動画データに対する推論に有効な特徴量を抽出する特徴抽出部３１Ｄを好適に学習することができる。

　その他、上記の各実施形態（変形例を含む、以下同じ）の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

［付記１］
　動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、
　前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行う第１推論部と、
　前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行う第２推論部と、
　前記第１推論と前記第２推論との結果に基づき、前記特徴抽出部の学習を行う学習部と、
を有する、学習装置。

［付記２］
前記特徴抽出部は、前記動画特徴量の抽出と共通するパラメータを用いることで、前記静止画特徴量を抽出し、
　前記学習部は、前記第１推論と前記第２推論との結果に基づき、前記パラメータを更新する、付記１に記載の学習装置。

［付記３］
　　前記特徴抽出部は、
　前記動画データ又は当該動画データの特徴量と、前記静止画データ又は当該静止画データの特徴量とに対して適用する、画像に関する特徴変換である画像特徴変換ブロックと、
　前記動画データ又は当該動画データの特徴量に対して適用する、時系列に関する特徴変換である時系列特徴変換ブロックと、
　少なくとも前記静止画データ又は当該静止画データの特徴量に対して適用する、画像内の点毎の特徴変換である点特徴変換ブロックと、
を有する、付記１または２に記載の学習装置。

［付記４］
　前記特徴抽出部は、前記画像特徴変換ブロックと、前記時系列特徴変換ブロックと、前記点特徴変換ブロックとを有する層を重ねた層構造を有する、付記３に記載の学習装置。

［付記５］
　前記時系列特徴変換ブロックは、時系列方向及びチャンネル方向における前記動画データの特徴量の変換を行い、
　前記点特徴変換ブロックは、前記時系列特徴変換ブロックにより変換された前記動画データの特徴量と同一のチャンネル数となるように、前記静止画データの特徴量を変換する、付記３または４に記載の学習装置。

［付記６］
　前記学習部は、
　前記第１推論の結果と、前記第１推論に対する正解データとに基づき、前記第１推論に対する第１推論損失を算出する第１推論損失算出部と、
　前記第２推論の結果と、前記第２推論に対する正解データとに基づき、前記第２推論に対する第２推論損失を算出する第２推論損失算出部と、
　前記第１推論損失と前記第２推論損失とに基づき、前記特徴抽出部のパラメータを更新する更新部と、
を有する、付記１～５のいずれか一項に記載の学習装置。

［付記７］
　前記特徴抽出部は、前記動画データ及び前記静止画データにおいて共通して存在する対象物に関する特徴量を、前記静止画特徴量として抽出する、付記１～６のいずれか一項に記載の学習装置。

［付記８］
　　前記学習部は、
　前記第１推論の結果と、前記動画データに対する正解データとに基づき、前記第１推論部の学習を行い、
　　前記第２推論の結果と、前記静止画データに対する正解データとに基づき、前記第２推論部の学習を行う、付記１～７のいずれか一項に記載の学習装置。

［付記９］
　付記１～８のいずれか一項に記載の学習装置により学習された特徴抽出部と、
　入力された動画データに関する第１推論を行う第１推論部と、
を有する、推論装置。

［付記１０］
　前記第１推論部は、前記動画特徴量と、前記第２推論に関する情報とに基づき、前記第１推論を行う、付記１～８のいずれか一項に記載の学習装置。

［付記１１］
　付記１０に記載の学習装置により学習された特徴抽出部と、
　入力された動画データに関する第１推論を行う第１推論部と、
　前記動画データを構成する静止画データから前記特徴抽出部が抽出した静止画特徴量に基づき、前記静止画データに関する第２推論を行う第２推論部と、を備え、
　前記第１推論部は、前記動画データから前記特徴抽出部が抽出した動画特徴量と、前記第２推論の結果とに基づき、前記第１推論を行う、
推論装置。

［付記１２］
　学習装置が実行する制御方法であって、
　動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出し、
　前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行い、
　前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行い、
　前記第１推論と前記第２推論との結果に基づき、前記動画特徴量及び前記静止画特徴量を抽出する処理の学習を行う、
制御方法。

［付記１３］
　動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、
　前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行う第１推論部と、
　前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行う第２推論部と、
　前記第１推論と前記第２推論との結果に基づき、前記特徴抽出部の学習を行う学習部
としてコンピュータを機能させるプログラムを格納する記憶媒体。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

　１０、１０Ａ～１０Ｄ　学習装置
　１１　プロセッサ
　１２　メモリ
　１３　インターフェース
　２０　記憶装置
　２１　動画データ記憶部
　２２　静止画データ記憶部
　２３　第１正解データ記憶部
　２４　第２正解データ記憶部
　２５　特徴抽出部情報記憶部
　２６　第１推論部情報記憶部
　２７　第２推論部情報記憶部
　１００　学習システム

Claims

　動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、
　前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行う第１推論部と、
　前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行う第２推論部と、
　前記第１推論と前記第２推論との結果に基づき、前記特徴抽出部の学習を行う学習部と、
を有する、学習装置。
　前記特徴抽出部は、前記動画特徴量の抽出と共通するパラメータを用いることで、前記静止画特徴量を抽出し、
　前記学習部は、前記第１推論と前記第２推論との結果に基づき、前記パラメータを更新する、請求項１に記載の学習装置。
　　前記特徴抽出部は、
　前記動画データ又は当該動画データの特徴量と、前記静止画データ又は当該静止画データの特徴量とに対して適用する、画像に関する特徴変換である画像特徴変換ブロックと、
　前記動画データ又は当該動画データの特徴量に対して適用する、時系列に関する特徴変換である時系列特徴変換ブロックと、
　少なくとも前記静止画データ又は当該静止画データの特徴量に対して適用する、画像内の点毎の特徴変換である点特徴変換ブロックと、
を有する、請求項１または２に記載の学習装置。
　前記特徴抽出部は、前記画像特徴変換ブロックと、前記時系列特徴変換ブロックと、前記点特徴変換ブロックとを有する層を重ねた層構造を有する、請求項３に記載の学習装置。
　前記時系列特徴変換ブロックは、時系列方向及びチャンネル方向における前記動画データの特徴量の変換を行い、
　前記点特徴変換ブロックは、前記時系列特徴変換ブロックにより変換された前記動画データの特徴量と同一のチャンネル数となるように、前記静止画データの特徴量を変換する、請求項３または４に記載の学習装置。
　前記学習部は、
　前記第１推論の結果と、前記第１推論に対する正解データとに基づき、前記第１推論に対する第１推論損失を算出する第１推論損失算出部と、
　前記第２推論の結果と、前記第２推論に対する正解データとに基づき、前記第２推論に対する第２推論損失を算出する第２推論損失算出部と、
　前記第１推論損失と前記第２推論損失とに基づき、前記特徴抽出部のパラメータを更新する更新部と、
を有する、請求項１～５のいずれか一項に記載の学習装置。
　前記特徴抽出部は、前記動画データ及び前記静止画データにおいて共通して存在する対象物に関する特徴量を、前記静止画特徴量として抽出する、請求項１～６のいずれか一項に記載の学習装置。
　　前記学習部は、
　前記第１推論の結果と、前記動画データに対する正解データとに基づき、前記第１推論部の学習を行い、
　　前記第２推論の結果と、前記静止画データに対する正解データとに基づき、前記第２推論部の学習を行う、請求項１～７のいずれか一項に記載の学習装置。
　請求項１～８のいずれか一項に記載の学習装置により学習された特徴抽出部と、
　入力された動画データに関する第１推論を行う第１推論部と、
を有する、推論装置。
　前記第１推論部は、前記動画特徴量と、前記第２推論に関する情報とに基づき、前記第１推論を行う、請求項１～８のいずれか一項に記載の学習装置。
　請求項１０に記載の学習装置により学習された特徴抽出部と、
　入力された動画データに関する第１推論を行う第１推論部と、
　前記動画データを構成する静止画データから前記特徴抽出部が抽出した静止画特徴量に基づき、前記静止画データに関する第２推論を行う第２推論部と、を備え、
　前記第１推論部は、前記動画データから前記特徴抽出部が抽出した動画特徴量と、前記第２推論の結果とに基づき、前記第１推論を行う、
推論装置。
　学習装置が実行する制御方法であって、
　動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出し、
　前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行い、
　前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行い、
　前記第１推論と前記第２推論との結果に基づき、前記動画特徴量及び前記静止画特徴量を抽出する処理の学習を行う、
制御方法。
　動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、
　前記動画特徴量に基づき、前記動画データに関する推論である第１推論を行う第１推論部と、
　前記静止画特徴量に基づき、前記静止画データに関する推論である第２推論を行う第２推論部と、
　前記第１推論と前記第２推論との結果に基づき、前記特徴抽出部の学習を行う学習部
としてコンピュータを機能させるプログラムを格納する記憶媒体。