JPWO2019097784A1

JPWO2019097784A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JPWO2019097784A1
Application number: JP2019520655A
Authority: JP
Inventors: 井手　直紀; 直紀井手
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-11-16
Filing date: 2018-08-14
Publication date: 2020-10-01
Also published as: US20200034977A1; US11295455B2; EP3576026A4; WO2019097784A1; EP3576026A1

Abstract

［課題］ラベル付与の負担を低減すると共により柔軟な学習を実現する。［解決手段］制約ラベルが付与された学習用データを用いて機械学習を行う学習部、を備え、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理装置が提供される。また、プロセッサが、制約ラベルが付与された学習用データを用いて機械学習を行うこと、を含み、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理方法が提供される。【選択図】図８

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

近年、収集情報に基づく推定や予測を行う種々の技術が開発されている。上記のような技術には、例えば、画像やセンサ情報に基づく物体検出技術が含まれる。また、人の設計に依らずデータから物体検出に係る学習を行う手法も知られている。例えば、非特許文献１や非特許文献２には、ディープラーニングを用いて物体検出器を生成する技術が開示されている。

Luca Bertinetto、外４名、「Fully-ConvolutionalSiamese Networks for Object Tracking」、２０１６年６月３０日、［Online］、［平成２９年１１月１３日検索］、インターネット<https://arxiv.org/abs/1606.09549v1> Russell Stewart、外１名、「Label-Free Supervisionof Neural Networks with Physics and Domain Knowledge」、２０１６年９月１８日、［Online］、［平成２９年１１月１３日検索］、インターネット< https://arxiv.org/abs/1609.05566>

しかし、非特許文献１に記載の技術では、動画に対する教師ラベルの付与の労力が大きく、また非特許文献２に記載の技術では、一度の学習で被検出対象の複数の動きに対応することが困難である。

そこで、本開示では、ラベル付与の負担を低減すると共により柔軟な学習を実現することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

本開示によれば、制約ラベルが付与された学習用データを用いて機械学習を行う学習部、を備え、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理装置が提供される。

また、本開示によれば、プロセッサが、制約ラベルが付与された学習用データを用いて機械学習を行うこと、を含み、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理方法が提供される。

また、本開示によれば、コンピュータを、制約ラベルが付与された学習用データを用いて機械学習を行う学習部、を備え、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理装置、として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、ラベル付与の負担を低減すると共により柔軟な学習を実現することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理装置の機能構成例を示すブロック図である。同実施形態に係る制約ラベルの一例について説明するための図である。同実施形態に係る制約ラベルの一例について説明するための図である。同実施形態に係る制約ラベル付きの学習用データセットの構造例を示す図である。同実施形態に係るラベルの抽象度について説明するための図である。同実施形態に係る時系列データと通常ラベルおよび制約ラベルとの関係について説明するための図である。同実施形態に係る約ラベルに対応した学習モデルの一例を示す図である。同実施形態に係るネットワーク構造の一例を示す図である。同実施形態に係る学習部による学習の流れを示すフローチャートである。同実施形態に係る学習モデルの切り替えについて説明するための図である。同実施形態に係るミニバッチの特徴について説明するための図である。同実施形態に係る制約ラベルの自動付与について説明するための図である。同実施形態に係る制約ラベル推定器の事前学習について説明するためのブロック図である。同実施形態に係る被検出対象の見え方について説明するための図である。同実施形態に係る被検出対象の見え方について説明するための図である。同実施形態に係る学習データについて説明するための図である。同実施形態に係る関節点のトラッキングについて説明するための図である。同実施形態に係る関節点のトラッキングについて説明するための図である。同実施形態に係る車両トラッカーの学習に用いる学習用データセットの一例を示す図である。同実施形態に係る車両トラッカーの学習に用いる学習用データセットの一例を示す図である。本開示の一実施形態に係る情報処理装置のハードウェア構成例を示す図である。比較手法１による教師ラベルの付与について説明するための図である。比較手法２によるラベルなし教示学習について説明するための図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．第１の実施形態
１．１．概要
１．２．情報処理装置１０の機能構成例
１．３．制約ラベルを用いた学習
１．４．学習対象の具体例
２．ハードウェア構成例
３．まとめ

＜１．第１の実施形態＞
＜＜１．１．概要＞＞
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、収集情報に基づく推定や予測を行う種々の技術が開発されている。当該技術には、例えば、物体検出、位置推定、センサ値推定などの連続値に係る推定技術が広く含まれる。また、ディープラーニングなどの機械学習手法を用いて、上記のような推定を実現する技術も知られている。

例えば、非特許文献１には、ディープラーニングを用いて、物体（被検出対象）のトラッキングを行うトラッカーを生成する手法が開示されている。非特許文献１に記載の技術のように、ディープラーニングを用いてトラッカーを生成する場合、学習データの統計的な情報から、例えば被検出対象の見た目の変化や影に隠れるなどの状況変化を適切に捉えることが可能となる。

非特許文献１に記載の技術のようにディープラーニングを利用したトラッカー生成では、一般的に、データと教師ラベルをペアとした学習用データセットを用いる教師あり学習が行われる。この場合、上記のデータは、例えば、動画における各フレーム画像であり、教師ラベルは、各フレーム画像における被検出対象の位置である。

図２２は、本開示の一実施形態に係る比較手法１による教師ラベルの付与について説明するための図である。上記の比較手法１は、教師ラベルを付与した学習データを用いてトラッカー生成を行う手法である。比較手法１では、動画を構成する各フレーム画像の一つひとつに教師ラベルを付与することが求められる。図２２に示す一例の場合、フレーム画像Ｆａ〜Ｆｄにおける被検出対象Ｐ１の顔の位置に、それぞれ教師ラベルＬａ〜Ｌｄが付与されている。

しかし、多くの場合、上記のような教師ラベルは、人が各フレーム画像の一つひとつを精査して付与することとなる。例えば、３０分の動画（３０ｆｐｓ）に教師ラベルを付与する場合、教師ラベルの数は、３０（フレーム）×６０（秒）×３０（分）＝５４０００、となり、教師ラベルの付与に係る労力は膨大となる。

このため、非特許文献１に記載されるような学習手法を用いたトラッカー生成では、十分な学習用データを確保するための負担が非常に大きく、結果としてトラッキングの性能を上げることが困難であった。

一方、非特許文献２では、被検出対象の動作が特定の物理法則に従う場合、当該物理法則による制約を利用することで、教師ラベルの付与を行わない、ラベルなし教示による学習が実現可能であることが報告されている。

図２３は、本開示の一実施形態に係る比較手法２によるラベルなし教示学習について説明するための図である。例えば、図２３に示すように、フレーム画像Ｆａ〜Ｆｄを含んで構成される動画において、空中に放たれた被検出物体Ｏ１の位置変化は、放物線軌道に従うこととなる。この場合、被検出物体Ｏ１の位置変化は、被検出物体Ｏ１の初速および初期位置を未知パラメータとした二次関数によりフィッティングすることが可能である。

このように、比較手法２に係るラベルなし教示では、被検出物体の動作に係る物理法則の制約を利用することで、教師ラベルを付与せずとも、教師ラベルあり学習に準ずる性能を獲得することが可能となる。

しかし、比較手法２では、一度の学習において、一つの制約、すなわち、一つの物理法則に従った動作のみしか対応することができない。このため、上記の制約に該当しない被検出物体の動作変化や、影に隠れるなどの状況変化に対応することが困難であり、さらなる学習性能の向上のためには、同一の制約に従う学習用データを大量に収集することが求められる。

本開示の一実施形態に係る技術思想は、上記の点に着目して発想されたものであり、教師ラベルの付与負担を大幅に軽減しながら、一度の学習において、被検出物体の複数の動作種別を学習することを可能とする。このために、本実施形態に係る情報処理方法を実現する情報処理装置は、制約の種別を表すラベル（以下、制約ラベル、とも称する）が付与された学習用データを用いて機械学習を行うことを特徴の一つとする。ここで、上記の制約ラベルは、教師ラベル、すなわち通常ラベルが従うべき制約の種別を定義したラベルであってよい。

より具体的には、本実施形態に係る制約ラベルは、被検出対象の動作種別を定義したモーションラベルである。また、本実施形態に係るモーションラベルは、例えば、物理法則に従う動作種別を定義したラベルであってもよい。ここで、上記の物理法則に従う動作種別には、例えば、等加速度運動（放物運動）、等速運動、および円運動などが挙げられる。

例えば、等加速度運動の場合、動画中において等加速度運動を行う被検出物体の位置は、時刻（例えば、フレームＩＤなどにより定義される）の二次関数により制約される。

しかし、この場合、被検出物体の初速ｖ_０および初期位置ｙ_０は不明であるため、下記の数式（１）に示すような未知パラメータを有する位置となる。ここで、ｔは時刻を表す変数であるが、動画のフレームＩＤでもあることとしておく。また、λは、未知パラメータｖ_０、ｙ_０をまとめて表したもので、制約パラメータと呼ぶことにする。一方、ニューラルネットワークを用いると、下記の数式（２）のように画像ｘ_ｔ（画像ベクトル）から被検出物体の位置を予測する関数ｆ_θを学習して獲得することもできる。ここで、パラメータθはニューラルネットの重みやバイアスなどの学習パラメータをまとめて表したものである。

ここで、学習の目的関数を、数式（１）および数式（２）の自乗誤差の最小化と捉えると、当該目的関数は、下記の数式（３）により表すことが可能である。また、数式（３）は、制約パラメータλ（ｖ_０、ｙ_０）と予測関数ｆ_θを用いて下記の数式（４）のように書き下すことができる。ただし、ｆ、ａ、およびＡは、それぞれ下記の数式（５）で定義される。数式（４）のＬを最小化するｖ_ｏ、ｙ_０を求めて数式（１）に代入すると、被検出物体の位置は、下記の数式（６）で表すことができる。すなわち、目的関数は、下記の数式（７）のように制約パラメータを消去して予測関数ｆ_θの汎関数として書き下すことができる。最後に数式（７）のＬを最小化するニューラルネットのパラメータθを学習を用いて求めることで、被検出物体の位置を予測できるパラメータを得ることができる。

また、等速運動の場合、動画中において歩行などを行う被検出物体の位置は、時刻（例えば、フレームＩＤなどにより定義される）の一次関数で表されるという制約を課される。

この場合、上述した等加速度運動から加速動項を抜き、また下記の数式（８）に示す速度０の自明の解や、下記の数式（９）に示す速度∞の解を避けるための制約を追加すればよい。

また、円運動（周期運動）の場合にも、上記と同様に書き下すことができる。この際、ニューラルネットワークを用いて、下記の数式（１０）のように画像から被検出物体の位置を予測する関数を生成することができる。この際、学習の目的関数を２つの予測関数の自乗誤差の最小化と捉えると、当該目的関数は、下記の数式（１１）により表すことが可能である。なお、等加速度運動、等速運動とは異なり、制約パラメータを予測関数ｆ_θで書き下すことはできないため、例えば、交互に最適化するなどの工夫がなされてよい。

以上、本実施形態に係る制約ラベルの一例について説明した。本実施形態に係る制約ラベルによれば、教師ラベルの付与負担を大幅に軽減しながら、一度の学習において、被検出物体の複数の動作種別を学習することが可能となる。以下、本実施形態に係る制約ラベルを用いた学習の特徴と、当該特徴により奏される効果について詳細に説明する。なお、以下の説明においては、被検出対象のトラッキングを行うトラッカーを生成する場合を例に述べるが、本実施形態に係る制約ラベルの適用は、係る例に限定されない。本実施形態に係る制約ラベルは、物体検出、位置推定、センサ値指定など、連続値の推定を行う技術に広く適用可能である。

＜＜１．２．情報処理装置１０の機能構成例＞＞
まず、本開示の一実施形態に係る情報処理方法を実現する情報処理装置１０の機能構成例について説明する。図１は、本実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。図１を参照すると、本実施形態に係る情報処理装置１０は、入力部１１０、制御部１２０、学習部１３０、および出力部１４０を備える。

（入力部１１０）
本実施形態に係る入力部１１０は、ユーザによる入力操作を受け付ける機能を有する。本実施形態に係る入力部１１０は、入力部１１０は、例えば、各種のボタン、キーボード、タッチパネル、マウス、スイッチなどにより実現され得る。また、入力部１１０は、マイクロフォンなどを含んでよい。

（制御部１２０）
本実施形態に係る制御部１２０は、情報処理装置１０が備える各構成の制御を行う。また、制御部１２０は、学習部１３０が学習した知識を用いて被検出物体のトラッキングを行う機能を有してもよい。

（学習部１３０）
本実施形態に係る学習部１３０は、制約ラベルが付与された学習用データを用いて機械学習を行う機能を有する。上述したように、本実施形態に係る制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルであってよい。本実施形態に係る学習部１３０が有する機能の詳細については別途後述する。

（出力部１４０）
出力部１４０は、ユーザに視覚情報や聴覚情報を提示する機能を有する。このために、出力部１４０は、例えば、ディスプレイ装置やスピーカを含んで構成され得る。ここで、上記のディスプレイ装置は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、タッチパネル、プロジェクタなどにより実現されてもよい。

以上、本実施形態に係る情報処理装置１０の機能構成例について説明した。なお、上記で説明した機能構成はあくまで一例であり、本実施形態に係る情報処理装置１０の機能構成は係る例に限定されない。本実施形態に係る情報処理装置１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．３．制約ラベルを用いた学習＞＞
次に、本実施形態に係る制約ラベルを用いた学習について詳細に説明する。本実施形態に係る情報処理方法は、制約ラベルを用いた学習を行うことで、教師ラベルの付与負担を大幅に軽減しながら、一度の学習において、被検出物体の複数の動作種別を学習することを可能とする。

上述したように、本実施形態に係る制約ラベルは、被検出対象の動作種別を定義したモーションラベルである。図２および図３は、本実施形態に係る制約ラベルの一例について説明するための図である。図２には、フレーム画像Ｆａ〜Ｆｄを含んで構成される動画中における被検出対象Ｐ１が歩行などの等速運動を行う場合の一例が示されている。この際、本実施形態に係る学習部１３０は、被検出対象Ｐ１が歩行を行うフレーム画像Ｆａ〜Ｆｄに対し、制約ラベル＝等速運動、を付与することで、教師ラベルを付与せずとも、被検出対象Ｐ１の位置変化を学習することができる。

また、図３には、フレーム画像Ｆａ〜Ｆｄを含んで構成される動画中における被検出対象Ｐ１が円運動（周期運動）を行う場合の一例が示されている。この際、本実施形態に係る学習部１３０は、被検出対象Ｐ１が円運動を行うフレーム画像Ｆａ〜Ｆｄに対し、制約ラベル＝円運動、を付与することで、教師ラベルを付与せずとも、被検出対象Ｐ１の位置変化を学習することができる。

このように、本実施形態に係る制約ラベルとは、動画などのデータにおいて、同一の制約（動作種別、およびパラメータ）を有するグループにまとめて付与されるラベルである。すなわち、本実施形態に係る制約ラベルは、動画などの時系列データの分類に係るカテゴリ情報である、といえる。

まず、本実施形態に係る制約ラベル（モーションラベル）を付与した学習用データセットについて説明する。本実施形態に係る学習用データセットは、階層構造を有してもよい。図４は、本実施形態に係る制約ラベル付きの学習用データセットの構造例を示す図である。本実施形態に係る学習用データセットは、例えば、図４に示すようなディレクトリ階層構造を成してもよい。

本実施形態に係る学習用データセットには、制約なしのデータセットを含む。当該データセットは、制約ラベルを付与せずに、通常の教師あり学習、半教師学習、または教師なし学習などを行うためのデータセットである。

制約なしのデータセットに係るディレクトリは、例えば、図４に示すように、他の制約タイプに係るグループと並列に配置されてもよい。また、当該ディレクトリの下層には、データが直接配置されてもよい。図４に示す一例の場合、データ＿０．ｄａｔ〜データ＿ｎ．ｄａｔがディレクトリ配下に直接配置されている。

なお、制約なしのデータセットに係るディレクトリの下層構造は必ずしも１つでなくてもよい。例えば、通常ラベルごとにデータを分類するディレクトリが存在してもよいし、半教師学習の場合には、通常ラベルの有無により時系列データが分けられて格納されてもよい。さらには、ラベルなしの時系列データのみで構成することも可能である。また、通常ラベルありの時系列データに対しデータとラベルとの紐付け（インデックス）を示すファイルなどを別途に用意してもよい。

また、本実施形態に係る学習用データセットには、制約ありのデータセットを含む。当該データセットは、本実施形態に係る制約付き学習に用いられる。本実施形態に係る学習用データセットは、図４に示すように、制約タイプ別にまとめられてよい。

ここで、上記の制約タイプとは、被検出対象の動作種別を示す。例えば、上述の例を用いると、本実施形態に係る制約タイプには、等加速度運動、等速運動、円運動などが含まれる。

また、各制約タイプの下層には、さらにデータセットグループによりグループ化されたディレクトリが形成される。ここで、上記のデータセットグループは、同一の制約パラメータ（制約を規定するパラメータ）を有する時系列データごとに設定される。

本実施形態に係る制約タイプは動作種別を示すと述べたが、制約タイプが同一である場合であっても、当該制約タイプに係る制約パラメータが異なる場合、異なる動きの特徴を有することとなる。すなわち、円運動、という制約タイプのみでは、被検出物体の動作は一意に定まらず種々の円運動が含まれ得る。ここで、初期位置や角速度などの制約パラメータが定義されることで、初めて一意な動作が決定されることとなる。

このため、本実施形態では、同一の制約パラメータを共有する時系列データごとにグループ化を行うことで、同一の動作を厳密に定義した精度の高い学習を行うことが可能となる。

以上、本実施形態に係る学習用データセットの構造例について説明した。なお、図４を用いて説明した上記のデータ構造はあくまで一例であり、本実施形態に係る学習用データセットの構造は、係る例に限定されない。本実施形態に係る学習用データは、例えば、動画やセンサ情報などの時系列データにおける区間と、制約ラベルおよび制約パラメータと、を紐付けるインデックスの付与によるグループ化がなされてもよい。この場合、時系列データを分割し、各ディレクトリに配置するなどの処理負担が低減し、また全体のデータ容量を抑える効果も期待される。

続いて、本実施形態に係る制約ラベルの付与の手法について説明する。これまでに述べた特徴によれば、本実施形態に係る制約ラベルとは、通常ラベルよりも抽象度の階層が高いラベルとみなすことができる。

図５は、本実施形態に係るラベルの抽象度について説明するための図である。例えば、本実施形態に係る制約ラベルは、時系列データの回帰のように連続値系列を表すものに対して、当該連続値系列の特徴を分類するものとして捉える例が理解に容易い。

一方、本実施形態に係る制約ラベルは、分類問題においても、通常ラベルと比較して一段階抽象度の高いカテゴリとして捉えることができる。例えば、柴犬、秋田犬、土佐犬を通常ラベルとする場合、犬を制約ラベルとして捉えることができ、柴犬、秋田犬、土佐犬は、犬という制約の下で、それぞれ異なる別の制約パラメータを有するラベルと考えることができる。

以下では、理解を容易とするために、通常ラベルが連続値系列となっている場合のラベル付与について説明する。図６は、本実施形態に係る時系列データと通常ラベルおよび制約ラベルとの関係について説明するための図である。

上述したように、図６に示すデータは、時系列データであり、例えば、動画やセンサ情報などの系列データであってよい。また、通常ラベルは、連続値の系列データあり、制約ラベルは、離散値の系列データである。

この際、連続値の系列データである通常ラベルは、例えば、時系列のフレーム画像ごとに連続値を付与する必要があり、ラベリングの負担が大きい。

一方、図６に示すように、離散値である制約ラベルは、区間の始まりと終わりが分かればよく、例えば、制約ラベルＣＳ１、ＣＳ２ａ、ＣＳ２ｂ、およびＣＳ３のように記録することができ、付与する情報量も少ないため効率的であるといえる。なお、同一の制約である場合であっても、制約パラメータが異なる場合には、制約ラベルＣＳ２ａおよびＣＳ２ｂのように制約パラメータの違いを区別したラベリングが行われてよい。

続いて、本実施形態に係る複数の制約ラベルを扱う学習モデルについて説明する。図７は、本実施形態に係る制約ラベルに対応した学習モデルの一例を示す図である。図７には、左から制約ラベルなしに対応する学習モデル、制約１〜３にそれぞれ対応する学習モデルが順に示されている。

本実施形態に係る学習部１３０は、学習用データセットに付与された制約ラベルに基づいて、図示するような複数の学習モデルを切り替えて学習を行うことができる。本実施形態に係る学習部１３０は、例えば、制約ラベルに基づいて、学習モデルに係るネットワークやロス関数を選択してもよい。

図８は、本実施形態に係るネットワーク構造の一例を示す図である。図８には、図７と同様に、左から制約ラベルなしに対応する学習モデル、制約１〜３にそれぞれ対応する学習モデルが順に示されている。図８に示すように、本実施形態に係る学習モデルは、予測モデル（被検出対象位置推定部）と、ロス関数（制約ロス）を含むロスネットワークに大別される。

なお、図８においては、各学習モデルにおいて共通する構造が無地の背景により示されている。すなわち、各学習モデルは、共通する予測モデルを用いて、入力される動画像や時系列センサ情報に係るフレームデータから、被検出物体の位置を推定する。

一方、図８では、各学習モデルで異なる構造がドットの背景により示されている。本実施形態に係る学習部１３０は、制約ラベルに基づいてネットワークを切り替えることで、当該制約ラベルに対応するロス関数、すなわちパラメータの学習により誤差を最小化したい目的関数を切り替えることが可能である。なお、ここでいうロス関数とは、クロスエントロピーや自乗誤差などの単一のロス関数ではなく、それ自体がニューラルネットワークの構成をしていてもよい。

以下、上記の制約ラベルに基づくネットワークの切り替えについて、より詳細に説明する。まず、学習モデルは、通常、データからラベルを予測する予測モデルにロス関数を付加して構成される。上記の予測モデルには、例えば、図８に示すニューラルネットワークのモデルが考えられる。

図８に示す予測モデルは、入力されるｘに対し種々の処理を実行しｙを出力する。図８に示すＣｏｎｖｏｌｕｔｉｏｎや、ＭａｘＰｏｏｌｉｎｇ、ＲｅＬＵは、線形または非線形処理を表す関数である。ここで、線形処理を表す関数はパラメータを有し、予測モデルでは、ロス関数が小さくなるように当該パラメータの値が学習される。なお、Ｃｏｎｖｏｌｕｔｉｏｎは、動画や時系列センサ情報に対して用いられることが多い線形関数である。また、ＭａｘＰｏｏｌｉｎｇは、過剰なデータを間引く処理の一つである。また、ＲｅＬＵは、シンプルな非線形処理である。上記の処理を関数として記載した場合、下記の数式（１２）による合成関数で表すことができる。

なお、上記の数式（１２）におけるｘは動画像や時系列センサ情報に係るフレームデータを、ｙは例えば被検出物体の位置や領域サイズに係る回帰値（予測値）である。また、上記の数式（１２）におけるｗおよびｂは、それぞれ重みとバイアスを示す。

ここで、ニューラルネットワークにおけるパラメータをまとめてθとし、説明を簡単なものとするため、当該処理を、ｙ＝ｆ_θ（ｘ）、と定義する。なお、ｘはデータ、ｙはラベルの予測値をそれぞれ示す。

ここで、制約なしモデルの場合、学習したい問題が回帰問題であれば、実環境でのデータｘに対するラベルの予測値ｙは、別段の処理を行わずそのまま予測値として扱ってよい。一方、学習した問題が分類問題である場合、予測値ｙをＳｏｆｔｍａｘ関数に入力して、近似確率として扱う。

以下、ラベルが回帰問題のような連続値である場合を想定して説明を続ける。なお、用いる学習モデルは、図８に示したように、予測モデルにロスネットワークを接続したモデルである。制約なしモデルとして教師ありモデルを用いる場合、予測モデルに付加するロスネットワークには、通常、予測と実測の自乗誤差が用いられる。このため、教師あり学習モデルでは、予測モデルに下記の数式（１３）を付与する。

ここで、上記の数式（１３）におけるｘ_ｉはｉ番目のデータを、ｙ_ｉ（ハット記号）はラベルの値を表す。

一方、制約あり学習モデルの場合、ラベルに関する制約を表す数式が当該制約の種類ごとに予め定義される。ここで、上記の制約の種類には、例えば、上述した等加速度運動、等速運動、円運動などが挙げられるが、本実施形態に係る制約の種類は係る例に限定されない。また、図８に示したように、学習モデルにおける予測モデルは、制約の種類に依らず共通のモデルが用いられてよい。一方、本実施形態に係る学習部１３０は、制約の種類に基づいて、当該制約に対応するロスネットワーク（ロス関数）を用いることを特徴の一つとする。

制約を表すロスネットワークは、例えば、下記の数式（１４）のように、ニューラルネットワークとは別の式でラベルを予測するものとして表す例が理解に容易い。なお、下記の数式（１４）におけるλは、制約パラメータをまとめて表現したものである。

ここで、ラベルとして、例えば、二次元座標を想定し、被検出対象の動作に対する制約が等速直線運動とすると、直線のパラメータ表現を用いて、上記の数式（１４）は、下記の数式（１５）により表すことができる。また、等加速度運動の場合、上記の数式（１４）は、下記の数式（１６）により表すことができる。また、円運動の場合、上記の数式（１４）は、下記の数式（１７）により表すことができる。

なお、上記の数式（１５）〜（１７）では、ｕ，ｖ，ｗ，ａ，ｂ，ωなどの複数のパラメータが示されているが、当該複数のパラメータはまとめてλとして扱う。この際、上述したように、制約パラメータλは、同一のデータセットグループにおいては同一の値であるが、異なるデータセットグループ間では、異なるパラメータ値となる。

また、ｔは、時系列データを構成する各データに付与されたメタデータ（例えば、フレームＩＤ、またはフレームＩＤから取得される時刻）を表す。

以上述べた制約を用いると、ロスは系列データごとに下記の数式（１８）により表される。

上記の数式（１８）は、ニューラルネットワークによる予測関数ｆ_θと、制約による予測関数ｈ_λとの誤差を、ニューラルネットワークのパラメータθと制約パラメータλの関数として捉えることを意味している。

この際、学習部１３０による学習の目的は、上記２つの予測の誤差を小さくするθおよびλを見出すことにある。このうち、制約パラメータλは、系列ごとに定まるパラメータ値であるため、上記の数式（１８）を最小にするパラメータとして求めればよい。λの解がｆ_θ（ｘ）の関数として解析的に求まれば、ｇ_λ（ｔ）は、ｆ_θ（ｘ）の関数として下記の数式（１９）のように書き直すことができる。また、数式（１９）の結果を用いると、ロスは、下記の数式（２０）により表される。

以上説明したように、本実施形態に係る学習部１３０は、ロス関数を制約ごとに予め定式化することで、制約ラベルに対応した学習モデルを切り替えることが可能である。なお、上記の数式（１９）や数式（２０）のように変形ができない場合も想定されるが、この場合、前述の円運動の説明で述べたように、数式（１８）を行動に最適化するなどの処理を行うことで対応することが可能である。

続いて、本実施形態に係る学習部１３０による学習の流れについて詳細に説明する。本実施形態に係る学習部１３０は、通常のディープラーニングを用いた学習と同様に、繰り返し勾配法を利用した逆誤差伝播による学習を行う。なお、勾配法の種類は、基本的なＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）や、発展的なＡＤＡＭ（ＡｄａｐｔｉｖｅＭｏｍｅｎｔＥｓｔｉｍａｔｉｏｎ）など、任意の手法が用いられてよい。

図９は、本実施形態に係る学習部１３０による学習の流れを示すフローチャートである。図９を参照すると、まず、学習部１３０に学習用データセットが入力される（Ｓ１１０１）。続いて、学習部１３０は、小さいサイズ（ミニバッチ）に分割（Ｓ１１０２）、制約ラベルに基づく学習モデルの選択（Ｓ１１０３）、およびモデルの学習（Ｓ１１０４）の各ステップを繰り返し実行し、最終的に実行モデルを獲得する（Ｓ１１０５）。

この際、上述したように、本実施形態に係る学習部１３０は、一般的なディープラーニングとは異なり、学習用データセットや制約ラベルに基づいて学習モデルを選択することを特徴の一つとする。

図１０は、本実施形態に係る学習モデルの切り替えについて説明するための図である。図１０に示すように、本実施形態に係る学習部１３０は、学習モデルの切り替えを実現するモデルセレクタＭＳを有してよい。

本実施形態に係るモデルセレクタＭＳは、ミニバッチごとに入力された通常ラベル、または制約ラベルの種別に基づいて、対応する学習モデルを選択し出力する。モデルセレクタＭＳは、入力に基づいて、例えば、制約なしモデル（教師ありモデル）、制約１モデル〜制約３モデルなどから対応する学習モデルを選択してよい。

なお、実際には、共通する予測モデルはそのままにロスネットワークのみが切り替わるような処理がなされてよい。モデルセレクタＭＳは、ネットワーク上に組み込んで実現することも可能である。

また、本実施形態に係る学習手法では、ミニバッチの生成方法にも特徴を有する。図１１は、本実施形態に係るミニバッチの特徴について説明するための図である。図１１の左側には、制約なし学習を行う場合のミニバッチの構造例が、図１１の右側には、制約あり学習を行う場合のミニバッチの構造例が示されている。

図１１に示すように、制約なし学習を行う場合には、ミニバッチが含む各データが単一のバッチグループにより構成されてよい。一方、制約あり学習を行う場合には、ミニバッチには、複数のバッチグループが存在してよい。ここで、上記のミニバッチグループは、上述したデータセットグループごとに定義されてよい。

すなわち、本実施形態に係るミニバッチには、制約タイプの異なるデータセットグループや、同一の制約タイプであり制約パラメータが異なるデータセットグループ、または制約なしのデータセットグループに対応する複数のバッチグループが混在してよい。

以上、本実施形態に係る学習モデルの選択およびミニバッチの特徴について説明した。上記の特徴によれば、入力された学習用データセットに対応した学習モデルを動的に選択することができ、複数の動作種別に対応した柔軟な学習を実現することが可能となる。

なお、本実施形態に係る制約ラベルの付与は、人手による付与に限定されない。本実施形態に係る制約ラベルの付与は、例えば、データに基づき制約ラベルを推定する制約ラベル推定器により実現されてもよい。

図１２は、本実施形態に係る制約ラベルの自動付与について説明するための図である。図１２の上段には、制約ラベル推定器を用いない場合の学習方法に対応するブロック図が示されている。また、図１２の下段には、学習部１３０が制約ラベル推定器を有する場合の学習方法に対応するブロック図が示されている。

図１２の上段に示すように、制約ラベル推定器を用いない場合、データと制約ラベルが学習器に入力されると、学習器はデータから通常ラベルを予測する予測モデルを出力する。

一方、学習部１３０が制約ラベル推定器を有する場合、データが制約ラベル推定器に入力されると、制約ラベル推定器は内部で入力データに対応する制約ラベルを生成し、学習器では当該制約ラベルとデータを基に予測モデルが生成される。

このように、本実施形態に係る制約ラベル推定器によれば、制約ラベルの付与に係る負担を大幅に低減することが可能となる。なお、制約ラベル推定器による上記の機能は、事前の学習により獲得されてよい。

図１３は、本実施形態に係る制約ラベル推定器の事前学習について説明するためのブロック図である。図１３に示すように、本実施形態に係る制約ラベル推定器は、制約ラベル付きデータに基づく制約ラベル学習器の学習により生成される。

なお、図１３に示す制約ラベル付きデータは、図１２に示す制約ラベル付きデータと同一である必要はない。両者が同一であるならば制約ラベルをわざわざ推定しなくとも、通常の方法により学習可能である。

以上、本実施形態に係る制約ラベルの自動付与について説明した。本実施形態に係る制約ラベル推定器によれば、人手による制約ラベルの付与に係る負担を大幅に低減することができ、さらに効率的な学習を実現することが可能となる。

＜＜１．４．学習対象の具体例＞＞
次に、本実施形態に係る学習対象について具体例を挙げながら説明する。

（歩行者検出トラッカー）
まず、歩行者を検出するトラッカーを生成するための学習について述べる。この際、精度の高いトラッカーを生成するためには、歩行者に係る様々な見え方、また見え方の変化を学習させる必要がある。このために、学習用データセットを収集する際には、撮像対象者に歩行に係る自然な動きを行ってもらい、当該動きを撮影することが想定される。

しかし、上述したように、比較手法１の場合、撮像した動画の各フレーム画像に対し通常ラベルを付与する作業が膨大となる。一方、比較手法２の場合、各フレーム画像に対する通常ラベルのラベリングは不要となるものの、撮像対象者の単一の動作にのみしか対応できないため、上記の見え方の変化などには十分に対応することが困難である。

具体的には、例えば、歩行などのような等速直線運動に対する制約を利用した学習を行う場合を想定する。この際、例えば、比較手法２では、図１４に示すような横向きに歩行する被検出対象Ｐ２〜Ｐ４の動作しか学習を行うことができない。

すなわち、比較手法２では、図１５に示すような前向き、あるいは後ろ向きに歩行する被検出対象Ｐ５〜Ｐ７の動作を学習することが困難である。

このため、本実施形態に係る情報処理方法では、歩行者の動作に係る制約として、等速直線運動のほか、円運動、接近（ズームアップ）、遠ざかり（ズームダウン）などの別の制約を交えて学習を行うことで、歩行者の様々な見え方に対応したトラッカーを生成することを可能とする。

図１６は、本実施形態に係る学習データについて説明するための図である。図１６には、被検出対象Ｐ１が歩行動作を撮像した動画が時系列に示されている。ここで、動画におけるフレーム画像Ｆａ〜Ｆｂの区間では、被検出対象Ｐ１は等速直線運動を行っており、フレーム画像Ｆｃ〜Ｆｄの区間では、被検出対象Ｐ１は円運動を行っている。

この際、本実施形態に係る情報処理方法では、動画における被検出対象Ｐ１の動作(モーション)区間ごとに異なる制約ラベルを付与することで、複数の動作に係る学習を効率的に行い、被検出対象Ｐ１の様々な見え方に対応したトラッカーを生成する可能とする。

例えば、図１６に示す一例の場合、フレーム画像Ｆａ〜Ｆｂで構成される区間には、等速直線運動に対応する制約ラベルＣＬ１が付与されてよい。また、フレーム画像Ｆｂ〜Ｆｄで構成される区間には、円運動に対応する制約ラベルＣＬ２が付与されてよい。なお、制約ラベルＣ１およびＣ２のラベリングは、上述した制約ラベル推定器により自動で実行されてもよい。

この際、学習用データセットの収集に関しては、いくつかの手法が考えられる。例えば、人の歩行を撮像した動画を動画サイトなどから収集し、当該動画に対し動作（モーション）区間ごとに対応する制約ラベルを付与することで、効率的に多くの学習用データセットを収集することが可能である。

なお、この際、動画は、必要に応じて動作区間ごと（制約ラベルごと）のファイルに分割してもよい。なお、制約ラベルは、ファイル中のすべてのフレーム画像に対して付与される必要はなく、ファイルに対し１つの制約ラベルが付与されてもよいし、上述したようなインデックスにより管理されてもよい。

また、被写体（被検出対象）にモーションセンサを装着して動作を行ってもらい、当該モーションセンサにより収集されたセンサ情報に基づいて、制約ラベル（モーションラベル）を推定することも想定される。この場合も同様に、必要に応じて推定されたモーションラベルごとにファイルが分割されてもよい。

また、一部の学習用データセットには、厳密な位置ラベル（通常ラベル）が付与されてもよい。この場合、予測モデルの設計後、制約なし学習モデルとモーション種別ごとに用意された複数の制約あり学習モデルを用いて学習を実行する。

このように、本実施形態に係る情報処理方法によれば、大量の学習用データを低コストかつ容易に確保することができ、効率的かつ精度の高い学習を行うことが可能となる。

（関節点トラッカー）
次に、人の関節点の動きを検出するトラッカーを生成するための学習について述べる。人の関節点を検出したい場合の例としては、例えば、スポーツやダンスにおけるプレーヤや演者の特定動作の検出が挙げられる。

図１７および図１８は、本実施形態に係る関節点のトラッキングについて説明するための図である。図１７では、本実施形態に係る学習部１３０が、テニスにおける特定動作に関する関節点の動きを学習する場合の一例が示されている。図１７に示す一例では、被検出対象Ｐ８がサーブを打つ様子を撮像した動画に係るフレーム画像Ｆａ〜Ｆｃが時系列に示されている。

また、図１８では、本実施形態に係る学習部１３０が、フィギュアスケートにおける特定動作に関する関節点の動きを学習する場合の一例が示されている。図１８に示す一例では被検出対象Ｐ９がトリプルアクセルを行う様子を撮像した動画に係るフレーム画像Ｆａ〜Ｆｄが時系列に示されている。

関節点の検出においても、比較手法１の場合は、図１７および図１８に示す、すべてのフレーム画像Ｆａ〜Ｆｃにおけるすべての関節点に通常ラベルを付与することが求められ、ラベリングに係る負担が膨大となる。

また、比較手法２の場合、ラベリングの負担は回避できるものの、被検出対象Ｐ８やＰ９の単一の特定動作のみしか学習することができない。このため、比較手法２の場合では、例えば、被検出対象Ｐ８が行うスマッシュ、フォアハンドストローク、バックハンドストローク、フォアハンドボレー、バックハンドボレーなどの特定動作に対応することが困難である。同様に、比較手法２では、被検出対象Ｐ９が行うトリプルループ、トリプルルッツ、ダブルアクセルなどの特定動作に対応することが困難である。

一方、本実施形態に係る情報処理方法によれば、歩行者検出の場合と同様に、動画において特定動作が実行される区間ごとに当該特定動作に対応したモーションラベルを付与すればよい。

例えば、図１７に示す一例の場合、本実施形態に係る情報処理方法では、サーブに対応するモーションラベルＭＬ１が画像フレームＦａ〜Ｆｃの区間に付与される。また、動画において他のフレーム画像で構成される区間には、当該区間に撮像されたスマッシュなどの特定動作に対応するモーションラベルが別途に付与されてよい。

また、例えば、図１８に示す一例の場合、本実施形態に係る情報処理方法では、トリプルアクセルに対応するモーションラベルＭＬ２が画像フレームＦａ〜Ｆｃの区間に付与される。また、動画において他のフレーム画像で構成される区間には、当該区間に撮像されたステップなどの特定動作に対応するモーションラベルが別途に付与されてよい。

なお、学習用データセットの収集手法については、歩行者検出の場合と同様であってよい。

このように、本実施形態に係る情報処理方法によれば、関節点に係るラベリングの負担を大幅に低減しながら、効率的に大量の学習用データを収集することができ、精度の高い関節点トラッカーをより短期間で生成することが可能となる。

なお、上記では、本実施形態に係るモーションラベルが、スポーツやダンスなどにおける被検出対象の特定動作を定義したラベルである場合を例に述べたが、本実施形態に係るモーションラベルは係る例に限定されない。

本実施形態に係るモーションラベルは、例えば、特定行動に伴う被検出対象の動作を定義したラベルであってもよい。上記の特定行動には、例えば、買い物に行く、電車に乗る、などの生活行動が含まれる。当該モーションラベルによれば、例えば、買い物中における被検出対象の特徴的な動作を検出する、などの応用も可能となる。

（車両トラッカー）
次に、車両を検出するためのトラッカーを生成するための学習について述べる。ここでは、車両の位置推定器を学習させるために、車両の動きに係るセンサ情報や、動画を学習用データセットとして用いることを想定する。

この際、本実施形態に係る情報処理方法では、まず車両の動きを等速、加速、減速、左折、右折、前進、後退などのように定義する。

図１９および図２０は、本実施形態に係る車両トラッカーの学習に用いる学習用データセットの一例を示す図である。図１９には、被検出対象Ｖ１が等速直線運動を行う様子を撮像した動画に係るフレーム画像Ｆａ〜Ｆｃが時系列に示されている。図１９に示すように、学習用データに動画を用いる場合、最終的に推定したい情報は、画像中の車両の位置である。

また、図２０には、被検出対象Ｖ１が位置Ｐ１〜Ｐ４にかけて右折を行う際に取得されたセンサ情報に基づいてモーションラベルを推定する場合の一例が示されている。ここで、上記のセンサ情報には、例えば、加速度センサ、ジャイロセンサ、地磁気センサなどが収集した情報、またはアクセル、ブレーキ、ステアリングなどの操作情報が含まれる。図２０に示すように、学習用データにセンサ情報を用いる場合、最終的に推定したい情報は、数フレーム前（例えば、位置Ｐ１）における車両位置からの相対位置となる。

学習用データに動画を用いる場合であっても、センサ情報を用いる場合であっても、比較手法１の場合は、すべてのフレームに対し通常ラベルを付与することが求められ、ラベリングに係る負担が膨大となる。

また、比較手法２の場合、ラベリングの負担は回避できるものの、被検出対象Ｖ１の特定動作のみしか学習することができない。このため、比較手法２の場合では、例えば、被検出対象Ｐ８が後退や減速などを行った際の見え方の変化や、位置変化には対応することが困難である。

一方、本実施形態に係る情報処理方法によれば、歩行者検出や関節点検出の場合と同様に、動画やセンサ情報に関し、特定動作が実行される区間ごとに当該特定動作に対応したモーションラベルを付与することで、複数の制約を同時に取り扱うことが可能である。

このように、本実施形態に係る情報処理方法によれば、車両を検出するための検出器や、車両の位置推定を実現するための位置推定器を少ないラベリングデータを用いて効率的に実現することが可能となる。本実施形態に係る情報処理方法によれば、比較手法１や比較手法２に比べ大幅に開発時間を短縮し、さらに種々の車両の動作に柔軟に対応した検出器や位置推定器を実現することができる。

＜２．ハードウェア構成例＞
次に、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例について説明する。図２１は、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。図２１を参照すると、情報処理装置１０は、例えば、プロセッサと、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（プロセッサ８７１）
プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜３．まとめ＞
以上説明したように、本開示の一実施形態に係る情報処理装置１０は、制約ラベルが付与された学習用データを用いて機械学習を行う学習部１３０を備える。また、上記の制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルであってよい。係る構成によれば、ラベル付与の負担を低減すると共により柔軟な学習を実現することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、本明細書の情報処理装置１０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理装置１０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
制約ラベルが付与された学習用データを用いて機械学習を行う学習部、
を備え、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理装置。
（２）
前記学習部は、前記制約ラベルに基づいて、学習モデルを選択する、
前記（１）に記載の情報処理装置。
（３）
前記学習部は、前記制約ラベルに基づいて、前記学習モデルに係るネットワークを選択する、
前記（２）に記載の情報処理装置。
（４）
前記学習部は、前記制約ラベルに基づいて、前記学習モデルに係るロス関数を選択する、
前記（２）または（３）に記載の情報処理装置。
（５）
前記学習部は、前記学習用データに基づいて前記制約ラベルを推定する制約ラベル推定器、を有する、
前記（１）〜（４）のいずれかに記載の情報処理装置。
（６）
前記学習用データは、時系列における被検出対象の動作情報を含み、
前記通常ラベルは、前記被検出対象の位置情報である、
前記（１）〜（５）のいずれかに記載の情報処理装置。
（７）
前記学習用データは、動画におけるフレーム画像の集合であり、
前記通常ラベルは、前記フレーム画像における被検出対象の位置情報である、
前記（１）〜（６）のいずれかに記載の情報処理装置。
（８）
前記学習用データは、前記被検出対象の動作に係るセンサ情報である、
前記（６）に記載の情報処理装置。
（９）
前記制約ラベルは、前記被検出対象の動作種別を定義したモーションラベルである、
前記（６）〜（８）のいずれかに記載の情報処理装置。
（１０）
前記モーションラベルは、物理法則に従う前記被検出対象の動作種別を定義したラベルである、
前記（９）に記載の情報処理装置。
（１１）
前記物理法則に従う前記被検出対象の動作種別は、等速運動、等加速度運動、または円運動のうち少なくともいずれかを含む、
前記（１０）に記載の情報処理装置。
（１２）
前記モーションラベルは、前記被検出対象の特定動作を定義したラベルである、
前記（９）に記載の情報処理装置。
（１３）
前記モーションラベルは、特定行動に伴う前記被検出対象の動作を定義したラベルである、
前記（９）に記載の情報処理装置。
（１４）
前記制約ラベルは、時系列データの分類に係るカテゴリ情報である、
前記（１）〜（１３）のいずれかに記載の情報処理装置。
（１５）
前記学習部は、同一の前記制約を共有するデータごとにグループ化された前記学習用データを用いた機械学習を行う、
前記（１）〜（１４）のいずれかに記載の情報処理装置。
（１６）
前記グループ化は、被検出対象の同一の特定動作に係る時系列データごとに行われる、前記（１５）に記載の情報処理装置。
（１７）
前記グループ化は、前記制約ラベル、および前記制約に係るパラメータに基づいて行われる、
前記（１５）または（１６）に記載の情報処理装置。
（１８）
前記グループ化は、時系列データに対するインデックスの付与により行われる、
前記（１５）〜（１７）のいずれかに記載の情報処理装置。
（１９）
プロセッサが、制約ラベルが付与された学習用データを用いて機械学習を行うこと、
を含み、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理方法。
（２０）
コンピュータを、
制約ラベルが付与された学習用データを用いて機械学習を行う学習部、
を備え、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理装置、
として機能させるためのプログラム。

１０情報処理装置
１１０入力部
１２０制御部
１３０学習部
１４０出力部

Claims

制約ラベルが付与された学習用データを用いて機械学習を行う学習部、
を備え、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理装置。
前記学習部は、前記制約ラベルに基づいて、学習モデルを選択する、
請求項１に記載の情報処理装置。
前記学習部は、前記制約ラベルに基づいて、前記学習モデルに係るネットワークを選択する、
請求項２に記載の情報処理装置。
前記学習部は、前記制約ラベルに基づいて、前記学習モデルに係るロス関数を選択する、
請求項２に記載の情報処理装置。
前記学習部は、前記学習用データに基づいて前記制約ラベルを推定する制約ラベル推定器、を有する、
請求項１に記載の情報処理装置。
前記学習用データは、時系列における被検出対象の動作情報を含み、
前記通常ラベルは、前記被検出対象の位置情報である、
請求項１に記載の情報処理装置。
前記学習用データは、動画におけるフレーム画像の集合であり、
前記通常ラベルは、前記フレーム画像における被検出対象の位置情報である、
請求項１に記載の情報処理装置。
前記学習用データは、前記被検出対象の動作に係るセンサ情報である、
請求項６に記載の情報処理装置。
前記制約ラベルは、前記被検出対象の動作種別を定義したモーションラベルである、
請求項６に記載の情報処理装置。
前記モーションラベルは、物理法則に従う前記被検出対象の動作種別を定義したラベルである、
請求項９に記載の情報処理装置。
前記物理法則に従う前記被検出対象の動作種別は、等速運動、等加速度運動、または円運動のうち少なくともいずれかを含む、
請求項１０に記載の情報処理装置。
前記モーションラベルは、前記被検出対象の特定動作を定義したラベルである、
請求項９に記載の情報処理装置。
前記モーションラベルは、特定行動に伴う前記被検出対象の動作を定義したラベルである、
請求項９に記載の情報処理装置。
前記制約ラベルは、時系列データの分類に係るカテゴリ情報である、
請求項１に記載の情報処理装置。
前記学習部は、同一の前記制約を共有するデータごとにグループ化された前記学習用データを用いた機械学習を行う、
請求項１に記載の情報処理装置。
前記グループ化は、被検出対象の同一の特定動作に係る時系列データごとに行われる、請求項１５に記載の情報処理装置。
前記グループ化は、前記制約ラベル、および前記制約に係るパラメータに基づいて行われる、
請求項１５に記載の情報処理装置。
前記グループ化は、時系列データに対するインデックスの付与により行われる、
請求項１５に記載の情報処理装置。
プロセッサが、制約ラベルが付与された学習用データを用いて機械学習を行うこと、
を含み、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理方法。
コンピュータを、
制約ラベルが付与された学習用データを用いて機械学習を行う学習部、
を備え、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理装置、
として機能させるためのプログラム。