JPWO2019097784A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JPWO2019097784A1
JPWO2019097784A1 JP2019520655A JP2019520655A JPWO2019097784A1 JP WO2019097784 A1 JPWO2019097784 A1 JP WO2019097784A1 JP 2019520655 A JP2019520655 A JP 2019520655A JP 2019520655 A JP2019520655 A JP 2019520655A JP WO2019097784 A1 JPWO2019097784 A1 JP WO2019097784A1
Authority
JP
Japan
Prior art keywords
label
constraint
learning
information processing
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019520655A
Other languages
English (en)
Inventor
井手 直紀
直紀 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2019097784A1 publication Critical patent/JPWO2019097784A1/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

[課題]ラベル付与の負担を低減すると共により柔軟な学習を実現する。[解決手段]制約ラベルが付与された学習用データを用いて機械学習を行う学習部、を備え、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理装置が提供される。また、プロセッサが、制約ラベルが付与された学習用データを用いて機械学習を行うこと、を含み、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理方法が提供される。【選択図】図8

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
近年、収集情報に基づく推定や予測を行う種々の技術が開発されている。上記のような技術には、例えば、画像やセンサ情報に基づく物体検出技術が含まれる。また、人の設計に依らずデータから物体検出に係る学習を行う手法も知られている。例えば、非特許文献1や非特許文献2には、ディープラーニングを用いて物体検出器を生成する技術が開示されている。
Luca Bertinetto、外4名、「Fully-ConvolutionalSiamese Networks for Object Tracking」、2016年6月30日、[Online]、[平成29年11月13日検索]、インターネット<https://arxiv.org/abs/1606.09549v1> Russell Stewart、外1名、「Label-Free Supervisionof Neural Networks with Physics and Domain Knowledge」、2016年9月18日、[Online]、[平成29年11月13日検索]、インターネット< https://arxiv.org/abs/1609.05566>
しかし、非特許文献1に記載の技術では、動画に対する教師ラベルの付与の労力が大きく、また非特許文献2に記載の技術では、一度の学習で被検出対象の複数の動きに対応することが困難である。
そこで、本開示では、ラベル付与の負担を低減すると共により柔軟な学習を実現することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
本開示によれば、制約ラベルが付与された学習用データを用いて機械学習を行う学習部、を備え、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理装置が提供される。
また、本開示によれば、プロセッサが、制約ラベルが付与された学習用データを用いて機械学習を行うこと、を含み、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理方法が提供される。
また、本開示によれば、コンピュータを、制約ラベルが付与された学習用データを用いて機械学習を行う学習部、を備え、前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、情報処理装置、として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、ラベル付与の負担を低減すると共により柔軟な学習を実現することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置の機能構成例を示すブロック図である。 同実施形態に係る制約ラベルの一例について説明するための図である。 同実施形態に係る制約ラベルの一例について説明するための図である。 同実施形態に係る制約ラベル付きの学習用データセットの構造例を示す図である。 同実施形態に係るラベルの抽象度について説明するための図である。 同実施形態に係る時系列データと通常ラベルおよび制約ラベルとの関係について説明するための図である。 同実施形態に係る約ラベルに対応した学習モデルの一例を示す図である。 同実施形態に係るネットワーク構造の一例を示す図である。 同実施形態に係る学習部による学習の流れを示すフローチャートである。 同実施形態に係る学習モデルの切り替えについて説明するための図である。 同実施形態に係るミニバッチの特徴について説明するための図である。 同実施形態に係る制約ラベルの自動付与について説明するための図である。 同実施形態に係る制約ラベル推定器の事前学習について説明するためのブロック図である。 同実施形態に係る被検出対象の見え方について説明するための図である。 同実施形態に係る被検出対象の見え方について説明するための図である。 同実施形態に係る学習データについて説明するための図である。 同実施形態に係る関節点のトラッキングについて説明するための図である。 同実施形態に係る関節点のトラッキングについて説明するための図である。 同実施形態に係る車両トラッカーの学習に用いる学習用データセットの一例を示す図である。 同実施形態に係る車両トラッカーの学習に用いる学習用データセットの一例を示す図である。 本開示の一実施形態に係る情報処理装置のハードウェア構成例を示す図である。 比較手法1による教師ラベルの付与について説明するための図である。 比較手法2によるラベルなし教示学習について説明するための図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.第1の実施形態
1.1.概要
1.2.情報処理装置10の機能構成例
1.3.制約ラベルを用いた学習
1.4.学習対象の具体例
2.ハードウェア構成例
3.まとめ
<1.第1の実施形態>
<<1.1.概要>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、収集情報に基づく推定や予測を行う種々の技術が開発されている。当該技術には、例えば、物体検出、位置推定、センサ値推定などの連続値に係る推定技術が広く含まれる。また、ディープラーニングなどの機械学習手法を用いて、上記のような推定を実現する技術も知られている。
例えば、非特許文献1には、ディープラーニングを用いて、物体(被検出対象)のトラッキングを行うトラッカーを生成する手法が開示されている。非特許文献1に記載の技術のように、ディープラーニングを用いてトラッカーを生成する場合、学習データの統計的な情報から、例えば被検出対象の見た目の変化や影に隠れるなどの状況変化を適切に捉えることが可能となる。
非特許文献1に記載の技術のようにディープラーニングを利用したトラッカー生成では、一般的に、データと教師ラベルをペアとした学習用データセットを用いる教師あり学習が行われる。この場合、上記のデータは、例えば、動画における各フレーム画像であり、教師ラベルは、各フレーム画像における被検出対象の位置である。
図22は、本開示の一実施形態に係る比較手法1による教師ラベルの付与について説明するための図である。上記の比較手法1は、教師ラベルを付与した学習データを用いてトラッカー生成を行う手法である。比較手法1では、動画を構成する各フレーム画像の一つひとつに教師ラベルを付与することが求められる。図22に示す一例の場合、フレーム画像Fa〜Fdにおける被検出対象P1の顔の位置に、それぞれ教師ラベルLa〜Ldが付与されている。
しかし、多くの場合、上記のような教師ラベルは、人が各フレーム画像の一つひとつを精査して付与することとなる。例えば、30分の動画(30fps)に教師ラベルを付与する場合、教師ラベルの数は、30(フレーム)×60(秒)×30(分)=54000、となり、教師ラベルの付与に係る労力は膨大となる。
このため、非特許文献1に記載されるような学習手法を用いたトラッカー生成では、十分な学習用データを確保するための負担が非常に大きく、結果としてトラッキングの性能を上げることが困難であった。
一方、非特許文献2では、被検出対象の動作が特定の物理法則に従う場合、当該物理法則による制約を利用することで、教師ラベルの付与を行わない、ラベルなし教示による学習が実現可能であることが報告されている。
図23は、本開示の一実施形態に係る比較手法2によるラベルなし教示学習について説明するための図である。例えば、図23に示すように、フレーム画像Fa〜Fdを含んで構成される動画において、空中に放たれた被検出物体O1の位置変化は、放物線軌道に従うこととなる。この場合、被検出物体O1の位置変化は、被検出物体O1の初速および初期位置を未知パラメータとした二次関数によりフィッティングすることが可能である。
このように、比較手法2に係るラベルなし教示では、被検出物体の動作に係る物理法則の制約を利用することで、教師ラベルを付与せずとも、教師ラベルあり学習に準ずる性能を獲得することが可能となる。
しかし、比較手法2では、一度の学習において、一つの制約、すなわち、一つの物理法則に従った動作のみしか対応することができない。このため、上記の制約に該当しない被検出物体の動作変化や、影に隠れるなどの状況変化に対応することが困難であり、さらなる学習性能の向上のためには、同一の制約に従う学習用データを大量に収集することが求められる。
本開示の一実施形態に係る技術思想は、上記の点に着目して発想されたものであり、教師ラベルの付与負担を大幅に軽減しながら、一度の学習において、被検出物体の複数の動作種別を学習することを可能とする。このために、本実施形態に係る情報処理方法を実現する情報処理装置は、制約の種別を表すラベル(以下、制約ラベル、とも称する)が付与された学習用データを用いて機械学習を行うことを特徴の一つとする。ここで、上記の制約ラベルは、教師ラベル、すなわち通常ラベルが従うべき制約の種別を定義したラベルであってよい。
より具体的には、本実施形態に係る制約ラベルは、被検出対象の動作種別を定義したモーションラベルである。また、本実施形態に係るモーションラベルは、例えば、物理法則に従う動作種別を定義したラベルであってもよい。ここで、上記の物理法則に従う動作種別には、例えば、等加速度運動(放物運動)、等速運動、および円運動などが挙げられる。
例えば、等加速度運動の場合、動画中において等加速度運動を行う被検出物体の位置は、時刻(例えば、フレームIDなどにより定義される)の二次関数により制約される。
しかし、この場合、被検出物体の初速vおよび初期位置yは不明であるため、下記の数式(1)に示すような未知パラメータを有する位置となる。ここで、tは時刻を表す変数であるが、動画のフレームIDでもあることとしておく。また、λは、未知パラメータv、yをまとめて表したもので、制約パラメータと呼ぶことにする。一方、ニューラルネットワークを用いると、下記の数式(2)のように画像x(画像ベクトル)から被検出物体の位置を予測する関数fθを学習して獲得することもできる。ここで、パラメータθはニューラルネットの重みやバイアスなどの学習パラメータをまとめて表したものである。
Figure 2019097784
ここで、学習の目的関数を、数式(1)および数式(2)の自乗誤差の最小化と捉えると、当該目的関数は、下記の数式(3)により表すことが可能である。また、数式(3)は、制約パラメータλ(v、y)と予測関数fθを用いて下記の数式(4)のように書き下すことができる。ただし、f、a、およびAは、それぞれ下記の数式(5)で定義される。数式(4)のLを最小化するv、yを求めて数式(1)に代入すると、被検出物体の位置は、下記の数式(6)で表すことができる。すなわち、目的関数は、下記の数式(7)のように制約パラメータを消去して予測関数fθの汎関数として書き下すことができる。最後に数式(7)のLを最小化するニューラルネットのパラメータθを学習を用いて求めることで、被検出物体の位置を予測できるパラメータを得ることができる。
Figure 2019097784
また、等速運動の場合、動画中において歩行などを行う被検出物体の位置は、時刻(例えば、フレームIDなどにより定義される)の一次関数で表されるという制約を課される。
この場合、上述した等加速度運動から加速動項を抜き、また下記の数式(8)に示す速度0の自明の解や、下記の数式(9)に示す速度∞の解を避けるための制約を追加すればよい。
Figure 2019097784
また、円運動(周期運動)の場合にも、上記と同様に書き下すことができる。この際、ニューラルネットワークを用いて、下記の数式(10)のように画像から被検出物体の位置を予測する関数を生成することができる。この際、学習の目的関数を2つの予測関数の自乗誤差の最小化と捉えると、当該目的関数は、下記の数式(11)により表すことが可能である。なお、等加速度運動、等速運動とは異なり、制約パラメータを予測関数fθで書き下すことはできないため、例えば、交互に最適化するなどの工夫がなされてよい。
Figure 2019097784
以上、本実施形態に係る制約ラベルの一例について説明した。本実施形態に係る制約ラベルによれば、教師ラベルの付与負担を大幅に軽減しながら、一度の学習において、被検出物体の複数の動作種別を学習することが可能となる。以下、本実施形態に係る制約ラベルを用いた学習の特徴と、当該特徴により奏される効果について詳細に説明する。なお、以下の説明においては、被検出対象のトラッキングを行うトラッカーを生成する場合を例に述べるが、本実施形態に係る制約ラベルの適用は、係る例に限定されない。本実施形態に係る制約ラベルは、物体検出、位置推定、センサ値指定など、連続値の推定を行う技術に広く適用可能である。
<<1.2.情報処理装置10の機能構成例>>
まず、本開示の一実施形態に係る情報処理方法を実現する情報処理装置10の機能構成例について説明する。図1は、本実施形態に係る情報処理装置10の機能構成例を示すブロック図である。図1を参照すると、本実施形態に係る情報処理装置10は、入力部110、制御部120、学習部130、および出力部140を備える。
(入力部110)
本実施形態に係る入力部110は、ユーザによる入力操作を受け付ける機能を有する。本実施形態に係る入力部110は、入力部110は、例えば、各種のボタン、キーボード、タッチパネル、マウス、スイッチなどにより実現され得る。また、入力部110は、マイクロフォンなどを含んでよい。
(制御部120)
本実施形態に係る制御部120は、情報処理装置10が備える各構成の制御を行う。また、制御部120は、学習部130が学習した知識を用いて被検出物体のトラッキングを行う機能を有してもよい。
(学習部130)
本実施形態に係る学習部130は、制約ラベルが付与された学習用データを用いて機械学習を行う機能を有する。上述したように、本実施形態に係る制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルであってよい。本実施形態に係る学習部130が有する機能の詳細については別途後述する。
(出力部140)
出力部140は、ユーザに視覚情報や聴覚情報を提示する機能を有する。このために、出力部140は、例えば、ディスプレイ装置やスピーカを含んで構成され得る。ここで、上記のディスプレイ装置は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネル、プロジェクタなどにより実現されてもよい。
以上、本実施形態に係る情報処理装置10の機能構成例について説明した。なお、上記で説明した機能構成はあくまで一例であり、本実施形態に係る情報処理装置10の機能構成は係る例に限定されない。本実施形態に係る情報処理装置10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.3.制約ラベルを用いた学習>>
次に、本実施形態に係る制約ラベルを用いた学習について詳細に説明する。本実施形態に係る情報処理方法は、制約ラベルを用いた学習を行うことで、教師ラベルの付与負担を大幅に軽減しながら、一度の学習において、被検出物体の複数の動作種別を学習することを可能とする。
上述したように、本実施形態に係る制約ラベルは、被検出対象の動作種別を定義したモーションラベルである。図2および図3は、本実施形態に係る制約ラベルの一例について説明するための図である。図2には、フレーム画像Fa〜Fdを含んで構成される動画中における被検出対象P1が歩行などの等速運動を行う場合の一例が示されている。この際、本実施形態に係る学習部130は、被検出対象P1が歩行を行うフレーム画像Fa〜Fdに対し、制約ラベル=等速運動、を付与することで、教師ラベルを付与せずとも、被検出対象P1の位置変化を学習することができる。
また、図3には、フレーム画像Fa〜Fdを含んで構成される動画中における被検出対象P1が円運動(周期運動)を行う場合の一例が示されている。この際、本実施形態に係る学習部130は、被検出対象P1が円運動を行うフレーム画像Fa〜Fdに対し、制約ラベル=円運動、を付与することで、教師ラベルを付与せずとも、被検出対象P1の位置変化を学習することができる。
このように、本実施形態に係る制約ラベルとは、動画などのデータにおいて、同一の制約(動作種別、およびパラメータ)を有するグループにまとめて付与されるラベルである。すなわち、本実施形態に係る制約ラベルは、動画などの時系列データの分類に係るカテゴリ情報である、といえる。
まず、本実施形態に係る制約ラベル(モーションラベル)を付与した学習用データセットについて説明する。本実施形態に係る学習用データセットは、階層構造を有してもよい。図4は、本実施形態に係る制約ラベル付きの学習用データセットの構造例を示す図である。本実施形態に係る学習用データセットは、例えば、図4に示すようなディレクトリ階層構造を成してもよい。
本実施形態に係る学習用データセットには、制約なしのデータセットを含む。当該データセットは、制約ラベルを付与せずに、通常の教師あり学習、半教師学習、または教師なし学習などを行うためのデータセットである。
制約なしのデータセットに係るディレクトリは、例えば、図4に示すように、他の制約タイプに係るグループと並列に配置されてもよい。また、当該ディレクトリの下層には、データが直接配置されてもよい。図4に示す一例の場合、データ_0.dat〜データ_n.datがディレクトリ配下に直接配置されている。
なお、制約なしのデータセットに係るディレクトリの下層構造は必ずしも1つでなくてもよい。例えば、通常ラベルごとにデータを分類するディレクトリが存在してもよいし、半教師学習の場合には、通常ラベルの有無により時系列データが分けられて格納されてもよい。さらには、ラベルなしの時系列データのみで構成することも可能である。また、通常ラベルありの時系列データに対しデータとラベルとの紐付け(インデックス)を示すファイルなどを別途に用意してもよい。
また、本実施形態に係る学習用データセットには、制約ありのデータセットを含む。当該データセットは、本実施形態に係る制約付き学習に用いられる。本実施形態に係る学習用データセットは、図4に示すように、制約タイプ別にまとめられてよい。
ここで、上記の制約タイプとは、被検出対象の動作種別を示す。例えば、上述の例を用いると、本実施形態に係る制約タイプには、等加速度運動、等速運動、円運動などが含まれる。
また、各制約タイプの下層には、さらにデータセットグループによりグループ化されたディレクトリが形成される。ここで、上記のデータセットグループは、同一の制約パラメータ(制約を規定するパラメータ)を有する時系列データごとに設定される。
本実施形態に係る制約タイプは動作種別を示すと述べたが、制約タイプが同一である場合であっても、当該制約タイプに係る制約パラメータが異なる場合、異なる動きの特徴を有することとなる。すなわち、円運動、という制約タイプのみでは、被検出物体の動作は一意に定まらず種々の円運動が含まれ得る。ここで、初期位置や角速度などの制約パラメータが定義されることで、初めて一意な動作が決定されることとなる。
このため、本実施形態では、同一の制約パラメータを共有する時系列データごとにグループ化を行うことで、同一の動作を厳密に定義した精度の高い学習を行うことが可能となる。
以上、本実施形態に係る学習用データセットの構造例について説明した。なお、図4を用いて説明した上記のデータ構造はあくまで一例であり、本実施形態に係る学習用データセットの構造は、係る例に限定されない。本実施形態に係る学習用データは、例えば、動画やセンサ情報などの時系列データにおける区間と、制約ラベルおよび制約パラメータと、を紐付けるインデックスの付与によるグループ化がなされてもよい。この場合、時系列データを分割し、各ディレクトリに配置するなどの処理負担が低減し、また全体のデータ容量を抑える効果も期待される。
続いて、本実施形態に係る制約ラベルの付与の手法について説明する。これまでに述べた特徴によれば、本実施形態に係る制約ラベルとは、通常ラベルよりも抽象度の階層が高いラベルとみなすことができる。
図5は、本実施形態に係るラベルの抽象度について説明するための図である。例えば、本実施形態に係る制約ラベルは、時系列データの回帰のように連続値系列を表すものに対して、当該連続値系列の特徴を分類するものとして捉える例が理解に容易い。
一方、本実施形態に係る制約ラベルは、分類問題においても、通常ラベルと比較して一段階抽象度の高いカテゴリとして捉えることができる。例えば、柴犬、秋田犬、土佐犬を通常ラベルとする場合、犬を制約ラベルとして捉えることができ、柴犬、秋田犬、土佐犬は、犬という制約の下で、それぞれ異なる別の制約パラメータを有するラベルと考えることができる。
以下では、理解を容易とするために、通常ラベルが連続値系列となっている場合のラベル付与について説明する。図6は、本実施形態に係る時系列データと通常ラベルおよび制約ラベルとの関係について説明するための図である。
上述したように、図6に示すデータは、時系列データであり、例えば、動画やセンサ情報などの系列データであってよい。また、通常ラベルは、連続値の系列データあり、制約ラベルは、離散値の系列データである。
この際、連続値の系列データである通常ラベルは、例えば、時系列のフレーム画像ごとに連続値を付与する必要があり、ラベリングの負担が大きい。
一方、図6に示すように、離散値である制約ラベルは、区間の始まりと終わりが分かればよく、例えば、制約ラベルCS1、CS2a、CS2b、およびCS3のように記録することができ、付与する情報量も少ないため効率的であるといえる。なお、同一の制約である場合であっても、制約パラメータが異なる場合には、制約ラベルCS2aおよびCS2bのように制約パラメータの違いを区別したラベリングが行われてよい。
続いて、本実施形態に係る複数の制約ラベルを扱う学習モデルについて説明する。図7は、本実施形態に係る制約ラベルに対応した学習モデルの一例を示す図である。図7には、左から制約ラベルなしに対応する学習モデル、制約1〜3にそれぞれ対応する学習モデルが順に示されている。
本実施形態に係る学習部130は、学習用データセットに付与された制約ラベルに基づいて、図示するような複数の学習モデルを切り替えて学習を行うことができる。本実施形態に係る学習部130は、例えば、制約ラベルに基づいて、学習モデルに係るネットワークやロス関数を選択してもよい。
図8は、本実施形態に係るネットワーク構造の一例を示す図である。図8には、図7と同様に、左から制約ラベルなしに対応する学習モデル、制約1〜3にそれぞれ対応する学習モデルが順に示されている。図8に示すように、本実施形態に係る学習モデルは、予測モデル(被検出対象位置推定部)と、ロス関数(制約ロス)を含むロスネットワークに大別される。
なお、図8においては、各学習モデルにおいて共通する構造が無地の背景により示されている。すなわち、各学習モデルは、共通する予測モデルを用いて、入力される動画像や時系列センサ情報に係るフレームデータから、被検出物体の位置を推定する。
一方、図8では、各学習モデルで異なる構造がドットの背景により示されている。本実施形態に係る学習部130は、制約ラベルに基づいてネットワークを切り替えることで、当該制約ラベルに対応するロス関数、すなわちパラメータの学習により誤差を最小化したい目的関数を切り替えることが可能である。なお、ここでいうロス関数とは、クロスエントロピーや自乗誤差などの単一のロス関数ではなく、それ自体がニューラルネットワークの構成をしていてもよい。
以下、上記の制約ラベルに基づくネットワークの切り替えについて、より詳細に説明する。まず、学習モデルは、通常、データからラベルを予測する予測モデルにロス関数を付加して構成される。上記の予測モデルには、例えば、図8に示すニューラルネットワークのモデルが考えられる。
図8に示す予測モデルは、入力されるxに対し種々の処理を実行しyを出力する。図8に示すConvolutionや、MaxPooling、ReLUは、線形または非線形処理を表す関数である。ここで、線形処理を表す関数はパラメータを有し、予測モデルでは、ロス関数が小さくなるように当該パラメータの値が学習される。なお、Convolutionは、動画や時系列センサ情報に対して用いられることが多い線形関数である。また、MaxPoolingは、過剰なデータを間引く処理の一つである。また、ReLUは、シンプルな非線形処理である。上記の処理を関数として記載した場合、下記の数式(12)による合成関数で表すことができる。
Figure 2019097784
なお、上記の数式(12)におけるxは動画像や時系列センサ情報に係るフレームデータを、yは例えば被検出物体の位置や領域サイズに係る回帰値(予測値)である。また、上記の数式(12)におけるwおよびbは、それぞれ重みとバイアスを示す。
ここで、ニューラルネットワークにおけるパラメータをまとめてθとし、説明を簡単なものとするため、当該処理を、y=fθ(x)、と定義する。なお、xはデータ、yはラベルの予測値をそれぞれ示す。
ここで、制約なしモデルの場合、学習したい問題が回帰問題であれば、実環境でのデータxに対するラベルの予測値yは、別段の処理を行わずそのまま予測値として扱ってよい。一方、学習した問題が分類問題である場合、予測値yをSoftmax関数に入力して、近似確率として扱う。
以下、ラベルが回帰問題のような連続値である場合を想定して説明を続ける。なお、用いる学習モデルは、図8に示したように、予測モデルにロスネットワークを接続したモデルである。制約なしモデルとして教師ありモデルを用いる場合、予測モデルに付加するロスネットワークには、通常、予測と実測の自乗誤差が用いられる。このため、教師あり学習モデルでは、予測モデルに下記の数式(13)を付与する。
Figure 2019097784
ここで、上記の数式(13)におけるxはi番目のデータを、y(ハット記号)はラベルの値を表す。
一方、制約あり学習モデルの場合、ラベルに関する制約を表す数式が当該制約の種類ごとに予め定義される。ここで、上記の制約の種類には、例えば、上述した等加速度運動、等速運動、円運動などが挙げられるが、本実施形態に係る制約の種類は係る例に限定されない。また、図8に示したように、学習モデルにおける予測モデルは、制約の種類に依らず共通のモデルが用いられてよい。一方、本実施形態に係る学習部130は、制約の種類に基づいて、当該制約に対応するロスネットワーク(ロス関数)を用いることを特徴の一つとする。
制約を表すロスネットワークは、例えば、下記の数式(14)のように、ニューラルネットワークとは別の式でラベルを予測するものとして表す例が理解に容易い。なお、下記の数式(14)におけるλは、制約パラメータをまとめて表現したものである。
Figure 2019097784
ここで、ラベルとして、例えば、二次元座標を想定し、被検出対象の動作に対する制約が等速直線運動とすると、直線のパラメータ表現を用いて、上記の数式(14)は、下記の数式(15)により表すことができる。また、等加速度運動の場合、上記の数式(14)は、下記の数式(16)により表すことができる。また、円運動の場合、上記の数式(14)は、下記の数式(17)により表すことができる。
Figure 2019097784
なお、上記の数式(15)〜(17)では、u,v,w,a,b,ωなどの複数のパラメータが示されているが、当該複数のパラメータはまとめてλとして扱う。この際、上述したように、制約パラメータλは、同一のデータセットグループにおいては同一の値であるが、異なるデータセットグループ間では、異なるパラメータ値となる。
また、tは、時系列データを構成する各データに付与されたメタデータ(例えば、フレームID、またはフレームIDから取得される時刻)を表す。
以上述べた制約を用いると、ロスは系列データごとに下記の数式(18)により表される。
Figure 2019097784
上記の数式(18)は、ニューラルネットワークによる予測関数fθと、制約による予測関数hλとの誤差を、ニューラルネットワークのパラメータθと制約パラメータλの関数として捉えることを意味している。
この際、学習部130による学習の目的は、上記2つの予測の誤差を小さくするθおよびλを見出すことにある。このうち、制約パラメータλは、系列ごとに定まるパラメータ値であるため、上記の数式(18)を最小にするパラメータとして求めればよい。λの解がfθ(x)の関数として解析的に求まれば、gλ(t)は、fθ(x)の関数として下記の数式(19)のように書き直すことができる。また、数式(19)の結果を用いると、ロスは、下記の数式(20)により表される。
Figure 2019097784
以上説明したように、本実施形態に係る学習部130は、ロス関数を制約ごとに予め定式化することで、制約ラベルに対応した学習モデルを切り替えることが可能である。なお、上記の数式(19)や数式(20)のように変形ができない場合も想定されるが、この場合、前述の円運動の説明で述べたように、数式(18)を行動に最適化するなどの処理を行うことで対応することが可能である。
続いて、本実施形態に係る学習部130による学習の流れについて詳細に説明する。本実施形態に係る学習部130は、通常のディープラーニングを用いた学習と同様に、繰り返し勾配法を利用した逆誤差伝播による学習を行う。なお、勾配法の種類は、基本的なSGD(Stochastic Gradient Descent)や、発展的なADAM(Adaptive Moment Estimation)など、任意の手法が用いられてよい。
図9は、本実施形態に係る学習部130による学習の流れを示すフローチャートである。図9を参照すると、まず、学習部130に学習用データセットが入力される(S1101)。続いて、学習部130は、小さいサイズ(ミニバッチ)に分割(S1102)、制約ラベルに基づく学習モデルの選択(S1103)、およびモデルの学習(S1104)の各ステップを繰り返し実行し、最終的に実行モデルを獲得する(S1105)。
この際、上述したように、本実施形態に係る学習部130は、一般的なディープラーニングとは異なり、学習用データセットや制約ラベルに基づいて学習モデルを選択することを特徴の一つとする。
図10は、本実施形態に係る学習モデルの切り替えについて説明するための図である。図10に示すように、本実施形態に係る学習部130は、学習モデルの切り替えを実現するモデルセレクタMSを有してよい。
本実施形態に係るモデルセレクタMSは、ミニバッチごとに入力された通常ラベル、または制約ラベルの種別に基づいて、対応する学習モデルを選択し出力する。モデルセレクタMSは、入力に基づいて、例えば、制約なしモデル(教師ありモデル)、制約1モデル〜制約3モデルなどから対応する学習モデルを選択してよい。
なお、実際には、共通する予測モデルはそのままにロスネットワークのみが切り替わるような処理がなされてよい。モデルセレクタMSは、ネットワーク上に組み込んで実現することも可能である。
また、本実施形態に係る学習手法では、ミニバッチの生成方法にも特徴を有する。図11は、本実施形態に係るミニバッチの特徴について説明するための図である。図11の左側には、制約なし学習を行う場合のミニバッチの構造例が、図11の右側には、制約あり学習を行う場合のミニバッチの構造例が示されている。
図11に示すように、制約なし学習を行う場合には、ミニバッチが含む各データが単一のバッチグループにより構成されてよい。一方、制約あり学習を行う場合には、ミニバッチには、複数のバッチグループが存在してよい。ここで、上記のミニバッチグループは、上述したデータセットグループごとに定義されてよい。
すなわち、本実施形態に係るミニバッチには、制約タイプの異なるデータセットグループや、同一の制約タイプであり制約パラメータが異なるデータセットグループ、または制約なしのデータセットグループに対応する複数のバッチグループが混在してよい。
以上、本実施形態に係る学習モデルの選択およびミニバッチの特徴について説明した。上記の特徴によれば、入力された学習用データセットに対応した学習モデルを動的に選択することができ、複数の動作種別に対応した柔軟な学習を実現することが可能となる。
なお、本実施形態に係る制約ラベルの付与は、人手による付与に限定されない。本実施形態に係る制約ラベルの付与は、例えば、データに基づき制約ラベルを推定する制約ラベル推定器により実現されてもよい。
図12は、本実施形態に係る制約ラベルの自動付与について説明するための図である。図12の上段には、制約ラベル推定器を用いない場合の学習方法に対応するブロック図が示されている。また、図12の下段には、学習部130が制約ラベル推定器を有する場合の学習方法に対応するブロック図が示されている。
図12の上段に示すように、制約ラベル推定器を用いない場合、データと制約ラベルが学習器に入力されると、学習器はデータから通常ラベルを予測する予測モデルを出力する。
一方、学習部130が制約ラベル推定器を有する場合、データが制約ラベル推定器に入力されると、制約ラベル推定器は内部で入力データに対応する制約ラベルを生成し、学習器では当該制約ラベルとデータを基に予測モデルが生成される。
このように、本実施形態に係る制約ラベル推定器によれば、制約ラベルの付与に係る負担を大幅に低減することが可能となる。なお、制約ラベル推定器による上記の機能は、事前の学習により獲得されてよい。
図13は、本実施形態に係る制約ラベル推定器の事前学習について説明するためのブロック図である。図13に示すように、本実施形態に係る制約ラベル推定器は、制約ラベル付きデータに基づく制約ラベル学習器の学習により生成される。
なお、図13に示す制約ラベル付きデータは、図12に示す制約ラベル付きデータと同一である必要はない。両者が同一であるならば制約ラベルをわざわざ推定しなくとも、通常の方法により学習可能である。
以上、本実施形態に係る制約ラベルの自動付与について説明した。本実施形態に係る制約ラベル推定器によれば、人手による制約ラベルの付与に係る負担を大幅に低減することができ、さらに効率的な学習を実現することが可能となる。
<<1.4.学習対象の具体例>>
次に、本実施形態に係る学習対象について具体例を挙げながら説明する。
(歩行者検出トラッカー)
まず、歩行者を検出するトラッカーを生成するための学習について述べる。この際、精度の高いトラッカーを生成するためには、歩行者に係る様々な見え方、また見え方の変化を学習させる必要がある。このために、学習用データセットを収集する際には、撮像対象者に歩行に係る自然な動きを行ってもらい、当該動きを撮影することが想定される。
しかし、上述したように、比較手法1の場合、撮像した動画の各フレーム画像に対し通常ラベルを付与する作業が膨大となる。一方、比較手法2の場合、各フレーム画像に対する通常ラベルのラベリングは不要となるものの、撮像対象者の単一の動作にのみしか対応できないため、上記の見え方の変化などには十分に対応することが困難である。
具体的には、例えば、歩行などのような等速直線運動に対する制約を利用した学習を行う場合を想定する。この際、例えば、比較手法2では、図14に示すような横向きに歩行する被検出対象P2〜P4の動作しか学習を行うことができない。
すなわち、比較手法2では、図15に示すような前向き、あるいは後ろ向きに歩行する被検出対象P5〜P7の動作を学習することが困難である。
このため、本実施形態に係る情報処理方法では、歩行者の動作に係る制約として、等速直線運動のほか、円運動、接近(ズームアップ)、遠ざかり(ズームダウン)などの別の制約を交えて学習を行うことで、歩行者の様々な見え方に対応したトラッカーを生成することを可能とする。
図16は、本実施形態に係る学習データについて説明するための図である。図16には、被検出対象P1が歩行動作を撮像した動画が時系列に示されている。ここで、動画におけるフレーム画像Fa〜Fbの区間では、被検出対象P1は等速直線運動を行っており、フレーム画像Fc〜Fdの区間では、被検出対象P1は円運動を行っている。
この際、本実施形態に係る情報処理方法では、動画における被検出対象P1の動作(モーション)区間ごとに異なる制約ラベルを付与することで、複数の動作に係る学習を効率的に行い、被検出対象P1の様々な見え方に対応したトラッカーを生成する可能とする。
例えば、図16に示す一例の場合、フレーム画像Fa〜Fbで構成される区間には、等速直線運動に対応する制約ラベルCL1が付与されてよい。また、フレーム画像Fb〜Fdで構成される区間には、円運動に対応する制約ラベルCL2が付与されてよい。なお、制約ラベルC1およびC2のラベリングは、上述した制約ラベル推定器により自動で実行されてもよい。
この際、学習用データセットの収集に関しては、いくつかの手法が考えられる。例えば、人の歩行を撮像した動画を動画サイトなどから収集し、当該動画に対し動作(モーション)区間ごとに対応する制約ラベルを付与することで、効率的に多くの学習用データセットを収集することが可能である。
なお、この際、動画は、必要に応じて動作区間ごと(制約ラベルごと)のファイルに分割してもよい。なお、制約ラベルは、ファイル中のすべてのフレーム画像に対して付与される必要はなく、ファイルに対し1つの制約ラベルが付与されてもよいし、上述したようなインデックスにより管理されてもよい。
また、被写体(被検出対象)にモーションセンサを装着して動作を行ってもらい、当該モーションセンサにより収集されたセンサ情報に基づいて、制約ラベル(モーションラベル)を推定することも想定される。この場合も同様に、必要に応じて推定されたモーションラベルごとにファイルが分割されてもよい。
また、一部の学習用データセットには、厳密な位置ラベル(通常ラベル)が付与されてもよい。この場合、予測モデルの設計後、制約なし学習モデルとモーション種別ごとに用意された複数の制約あり学習モデルを用いて学習を実行する。
このように、本実施形態に係る情報処理方法によれば、大量の学習用データを低コストかつ容易に確保することができ、効率的かつ精度の高い学習を行うことが可能となる。
(関節点トラッカー)
次に、人の関節点の動きを検出するトラッカーを生成するための学習について述べる。人の関節点を検出したい場合の例としては、例えば、スポーツやダンスにおけるプレーヤや演者の特定動作の検出が挙げられる。
図17および図18は、本実施形態に係る関節点のトラッキングについて説明するための図である。図17では、本実施形態に係る学習部130が、テニスにおける特定動作に関する関節点の動きを学習する場合の一例が示されている。図17に示す一例では、被検出対象P8がサーブを打つ様子を撮像した動画に係るフレーム画像Fa〜Fcが時系列に示されている。
また、図18では、本実施形態に係る学習部130が、フィギュアスケートにおける特定動作に関する関節点の動きを学習する場合の一例が示されている。図18に示す一例では被検出対象P9がトリプルアクセルを行う様子を撮像した動画に係るフレーム画像Fa〜Fdが時系列に示されている。
関節点の検出においても、比較手法1の場合は、図17および図18に示す、すべてのフレーム画像Fa〜Fcにおけるすべての関節点に通常ラベルを付与することが求められ、ラベリングに係る負担が膨大となる。
また、比較手法2の場合、ラベリングの負担は回避できるものの、被検出対象P8やP9の単一の特定動作のみしか学習することができない。このため、比較手法2の場合では、例えば、被検出対象P8が行うスマッシュ、フォアハンドストローク、バックハンドストローク、フォアハンドボレー、バックハンドボレーなどの特定動作に対応することが困難である。同様に、比較手法2では、被検出対象P9が行うトリプルループ、トリプルルッツ、ダブルアクセルなどの特定動作に対応することが困難である。
一方、本実施形態に係る情報処理方法によれば、歩行者検出の場合と同様に、動画において特定動作が実行される区間ごとに当該特定動作に対応したモーションラベルを付与すればよい。
例えば、図17に示す一例の場合、本実施形態に係る情報処理方法では、サーブに対応するモーションラベルML1が画像フレームFa〜Fcの区間に付与される。また、動画において他のフレーム画像で構成される区間には、当該区間に撮像されたスマッシュなどの特定動作に対応するモーションラベルが別途に付与されてよい。
また、例えば、図18に示す一例の場合、本実施形態に係る情報処理方法では、トリプルアクセルに対応するモーションラベルML2が画像フレームFa〜Fcの区間に付与される。また、動画において他のフレーム画像で構成される区間には、当該区間に撮像されたステップなどの特定動作に対応するモーションラベルが別途に付与されてよい。
なお、学習用データセットの収集手法については、歩行者検出の場合と同様であってよい。
このように、本実施形態に係る情報処理方法によれば、関節点に係るラベリングの負担を大幅に低減しながら、効率的に大量の学習用データを収集することができ、精度の高い関節点トラッカーをより短期間で生成することが可能となる。
なお、上記では、本実施形態に係るモーションラベルが、スポーツやダンスなどにおける被検出対象の特定動作を定義したラベルである場合を例に述べたが、本実施形態に係るモーションラベルは係る例に限定されない。
本実施形態に係るモーションラベルは、例えば、特定行動に伴う被検出対象の動作を定義したラベルであってもよい。上記の特定行動には、例えば、買い物に行く、電車に乗る、などの生活行動が含まれる。当該モーションラベルによれば、例えば、買い物中における被検出対象の特徴的な動作を検出する、などの応用も可能となる。
(車両トラッカー)
次に、車両を検出するためのトラッカーを生成するための学習について述べる。ここでは、車両の位置推定器を学習させるために、車両の動きに係るセンサ情報や、動画を学習用データセットとして用いることを想定する。
この際、本実施形態に係る情報処理方法では、まず車両の動きを等速、加速、減速、左折、右折、前進、後退などのように定義する。
図19および図20は、本実施形態に係る車両トラッカーの学習に用いる学習用データセットの一例を示す図である。図19には、被検出対象V1が等速直線運動を行う様子を撮像した動画に係るフレーム画像Fa〜Fcが時系列に示されている。図19に示すように、学習用データに動画を用いる場合、最終的に推定したい情報は、画像中の車両の位置である。
また、図20には、被検出対象V1が位置P1〜P4にかけて右折を行う際に取得されたセンサ情報に基づいてモーションラベルを推定する場合の一例が示されている。ここで、上記のセンサ情報には、例えば、加速度センサ、ジャイロセンサ、地磁気センサなどが収集した情報、またはアクセル、ブレーキ、ステアリングなどの操作情報が含まれる。図20に示すように、学習用データにセンサ情報を用いる場合、最終的に推定したい情報は、数フレーム前(例えば、位置P1)における車両位置からの相対位置となる。
学習用データに動画を用いる場合であっても、センサ情報を用いる場合であっても、比較手法1の場合は、すべてのフレームに対し通常ラベルを付与することが求められ、ラベリングに係る負担が膨大となる。
また、比較手法2の場合、ラベリングの負担は回避できるものの、被検出対象V1の特定動作のみしか学習することができない。このため、比較手法2の場合では、例えば、被検出対象P8が後退や減速などを行った際の見え方の変化や、位置変化には対応することが困難である。
一方、本実施形態に係る情報処理方法によれば、歩行者検出や関節点検出の場合と同様に、動画やセンサ情報に関し、特定動作が実行される区間ごとに当該特定動作に対応したモーションラベルを付与することで、複数の制約を同時に取り扱うことが可能である。
このように、本実施形態に係る情報処理方法によれば、車両を検出するための検出器や、車両の位置推定を実現するための位置推定器を少ないラベリングデータを用いて効率的に実現することが可能となる。本実施形態に係る情報処理方法によれば、比較手法1や比較手法2に比べ大幅に開発時間を短縮し、さらに種々の車両の動作に柔軟に対応した検出器や位置推定器を実現することができる。
<2.ハードウェア構成例>
次に、本開示の一実施形態に係る情報処理装置10のハードウェア構成例について説明する。図21は、本開示の一実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。図21を参照すると、情報処理装置10は、例えば、プロセッサと、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(プロセッサ871)
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
(ROM872、RAM873)
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
(入力装置878)
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置879)
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ880)
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信装置883)
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
<3.まとめ>
以上説明したように、本開示の一実施形態に係る情報処理装置10は、制約ラベルが付与された学習用データを用いて機械学習を行う学習部130を備える。また、上記の制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルであってよい。係る構成によれば、ラベル付与の負担を低減すると共により柔軟な学習を実現することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、本明細書の情報処理装置10の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理装置10の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
制約ラベルが付与された学習用データを用いて機械学習を行う学習部、
を備え、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理装置。
(2)
前記学習部は、前記制約ラベルに基づいて、学習モデルを選択する、
前記(1)に記載の情報処理装置。
(3)
前記学習部は、前記制約ラベルに基づいて、前記学習モデルに係るネットワークを選択する、
前記(2)に記載の情報処理装置。
(4)
前記学習部は、前記制約ラベルに基づいて、前記学習モデルに係るロス関数を選択する、
前記(2)または(3)に記載の情報処理装置。
(5)
前記学習部は、前記学習用データに基づいて前記制約ラベルを推定する制約ラベル推定器、を有する、
前記(1)〜(4)のいずれかに記載の情報処理装置。
(6)
前記学習用データは、時系列における被検出対象の動作情報を含み、
前記通常ラベルは、前記被検出対象の位置情報である、
前記(1)〜(5)のいずれかに記載の情報処理装置。
(7)
前記学習用データは、動画におけるフレーム画像の集合であり、
前記通常ラベルは、前記フレーム画像における被検出対象の位置情報である、
前記(1)〜(6)のいずれかに記載の情報処理装置。
(8)
前記学習用データは、前記被検出対象の動作に係るセンサ情報である、
前記(6)に記載の情報処理装置。
(9)
前記制約ラベルは、前記被検出対象の動作種別を定義したモーションラベルである、
前記(6)〜(8)のいずれかに記載の情報処理装置。
(10)
前記モーションラベルは、物理法則に従う前記被検出対象の動作種別を定義したラベルである、
前記(9)に記載の情報処理装置。
(11)
前記物理法則に従う前記被検出対象の動作種別は、等速運動、等加速度運動、または円運動のうち少なくともいずれかを含む、
前記(10)に記載の情報処理装置。
(12)
前記モーションラベルは、前記被検出対象の特定動作を定義したラベルである、
前記(9)に記載の情報処理装置。
(13)
前記モーションラベルは、特定行動に伴う前記被検出対象の動作を定義したラベルである、
前記(9)に記載の情報処理装置。
(14)
前記制約ラベルは、時系列データの分類に係るカテゴリ情報である、
前記(1)〜(13)のいずれかに記載の情報処理装置。
(15)
前記学習部は、同一の前記制約を共有するデータごとにグループ化された前記学習用データを用いた機械学習を行う、
前記(1)〜(14)のいずれかに記載の情報処理装置。
(16)
前記グループ化は、被検出対象の同一の特定動作に係る時系列データごとに行われる、前記(15)に記載の情報処理装置。
(17)
前記グループ化は、前記制約ラベル、および前記制約に係るパラメータに基づいて行われる、
前記(15)または(16)に記載の情報処理装置。
(18)
前記グループ化は、時系列データに対するインデックスの付与により行われる、
前記(15)〜(17)のいずれかに記載の情報処理装置。
(19)
プロセッサが、制約ラベルが付与された学習用データを用いて機械学習を行うこと、
を含み、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理方法。
(20)
コンピュータを、
制約ラベルが付与された学習用データを用いて機械学習を行う学習部、
を備え、
前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
情報処理装置、
として機能させるためのプログラム。
10 情報処理装置
110 入力部
120 制御部
130 学習部
140 出力部

Claims (20)

  1. 制約ラベルが付与された学習用データを用いて機械学習を行う学習部、
    を備え、
    前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
    情報処理装置。
  2. 前記学習部は、前記制約ラベルに基づいて、学習モデルを選択する、
    請求項1に記載の情報処理装置。
  3. 前記学習部は、前記制約ラベルに基づいて、前記学習モデルに係るネットワークを選択する、
    請求項2に記載の情報処理装置。
  4. 前記学習部は、前記制約ラベルに基づいて、前記学習モデルに係るロス関数を選択する、
    請求項2に記載の情報処理装置。
  5. 前記学習部は、前記学習用データに基づいて前記制約ラベルを推定する制約ラベル推定器、を有する、
    請求項1に記載の情報処理装置。
  6. 前記学習用データは、時系列における被検出対象の動作情報を含み、
    前記通常ラベルは、前記被検出対象の位置情報である、
    請求項1に記載の情報処理装置。
  7. 前記学習用データは、動画におけるフレーム画像の集合であり、
    前記通常ラベルは、前記フレーム画像における被検出対象の位置情報である、
    請求項1に記載の情報処理装置。
  8. 前記学習用データは、前記被検出対象の動作に係るセンサ情報である、
    請求項6に記載の情報処理装置。
  9. 前記制約ラベルは、前記被検出対象の動作種別を定義したモーションラベルである、
    請求項6に記載の情報処理装置。
  10. 前記モーションラベルは、物理法則に従う前記被検出対象の動作種別を定義したラベルである、
    請求項9に記載の情報処理装置。
  11. 前記物理法則に従う前記被検出対象の動作種別は、等速運動、等加速度運動、または円運動のうち少なくともいずれかを含む、
    請求項10に記載の情報処理装置。
  12. 前記モーションラベルは、前記被検出対象の特定動作を定義したラベルである、
    請求項9に記載の情報処理装置。
  13. 前記モーションラベルは、特定行動に伴う前記被検出対象の動作を定義したラベルである、
    請求項9に記載の情報処理装置。
  14. 前記制約ラベルは、時系列データの分類に係るカテゴリ情報である、
    請求項1に記載の情報処理装置。
  15. 前記学習部は、同一の前記制約を共有するデータごとにグループ化された前記学習用データを用いた機械学習を行う、
    請求項1に記載の情報処理装置。
  16. 前記グループ化は、被検出対象の同一の特定動作に係る時系列データごとに行われる、請求項15に記載の情報処理装置。
  17. 前記グループ化は、前記制約ラベル、および前記制約に係るパラメータに基づいて行われる、
    請求項15に記載の情報処理装置。
  18. 前記グループ化は、時系列データに対するインデックスの付与により行われる、
    請求項15に記載の情報処理装置。
  19. プロセッサが、制約ラベルが付与された学習用データを用いて機械学習を行うこと、
    を含み、
    前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
    情報処理方法。
  20. コンピュータを、
    制約ラベルが付与された学習用データを用いて機械学習を行う学習部、
    を備え、
    前記制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルである、
    情報処理装置、
    として機能させるためのプログラム。
JP2019520655A 2017-11-16 2018-08-14 情報処理装置、情報処理方法、およびプログラム Ceased JPWO2019097784A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017221008 2017-11-16
JP2017221008 2017-11-16
PCT/JP2018/030270 WO2019097784A1 (ja) 2017-11-16 2018-08-14 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JPWO2019097784A1 true JPWO2019097784A1 (ja) 2020-10-01

Family

ID=66539498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019520655A Ceased JPWO2019097784A1 (ja) 2017-11-16 2018-08-14 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US11295455B2 (ja)
EP (1) EP3576026A4 (ja)
JP (1) JPWO2019097784A1 (ja)
WO (1) WO2019097784A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10810725B1 (en) * 2018-12-07 2020-10-20 Facebook, Inc. Automated detection of tampered images
CN111352965B (zh) * 2020-02-18 2023-09-08 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
JP7272510B2 (ja) * 2020-09-23 2023-05-12 日本電気株式会社 照合装置、照合方法、プログラム
CN115439686B (zh) * 2022-08-30 2024-01-09 一选(浙江)医疗科技有限公司 一种基于扫描影像的关注对象检测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013030984A1 (ja) * 2011-08-31 2013-03-07 株式会社日立エンジニアリング・アンド・サービス 設備状態監視方法およびその装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218818B2 (en) * 2009-09-01 2012-07-10 Behavioral Recognition Systems, Inc. Foreground object tracking
EP2826029A4 (en) * 2012-03-15 2016-10-26 Behavioral Recognition Sys Inc ALERT DIRECTIVES AND TARGETED ALERT DIRECTIVES IN A BEHAVIORAL RECOGNITION SYSTEM
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
EP2728513A1 (en) * 2012-10-31 2014-05-07 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Detection of human actions from video data
CN104881881B (zh) * 2014-02-27 2018-04-10 株式会社理光 运动对象表示方法及其装置
US9158971B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
US10083233B2 (en) * 2014-09-09 2018-09-25 Microsoft Technology Licensing, Llc Video processing for motor task analysis
US9858484B2 (en) * 2014-12-30 2018-01-02 Facebook, Inc. Systems and methods for determining video feature descriptors based on convolutional neural networks
IL241863A0 (en) * 2015-10-06 2016-11-30 Agent Video Intelligence Ltd A method and system for classifying objects from a sequence of images
US10019652B2 (en) * 2016-02-23 2018-07-10 Xerox Corporation Generating a virtual world to assess real-world video analysis performance
US10423892B2 (en) * 2016-04-05 2019-09-24 Omni Ai, Inc. Trajectory cluster model for learning trajectory patterns in video data
CN107273782B (zh) * 2016-04-08 2022-12-16 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
US20190156202A1 (en) * 2016-05-02 2019-05-23 Scopito Aps Model construction in a neural network for object detection
US20180007382A1 (en) * 2016-06-30 2018-01-04 Facebook, Inc. Systems and methods for determining motion vectors
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
CN108062505B (zh) * 2016-11-09 2022-03-18 微软技术许可有限责任公司 用于基于神经网络的动作检测的方法和设备
US20180136332A1 (en) * 2016-11-15 2018-05-17 Wheego Electric Cars, Inc. Method and system to annotate objects and determine distances to objects in an image
US10733428B2 (en) * 2017-02-01 2020-08-04 The Government Of The United States Of America, As Represented By The Secretary Of The Navy Recognition actions on event based cameras with motion event features
GB2560177A (en) * 2017-03-01 2018-09-05 Thirdeye Labs Ltd Training a computational neural network
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
JP2019008519A (ja) * 2017-06-23 2019-01-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 移動体検出方法、移動体学習方法、移動体検出装置、移動体学習装置、移動体検出システム、および、プログラム
US20180373980A1 (en) * 2017-06-27 2018-12-27 drive.ai Inc. Method for training and refining an artificial intelligence
CN107451553B (zh) * 2017-07-26 2019-08-02 北京大学深圳研究生院 一种基于超图转变的视频中暴力事件检测方法
US10210391B1 (en) * 2017-08-07 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos using contour sequences
KR102425578B1 (ko) * 2017-08-08 2022-07-26 삼성전자주식회사 객체를 인식하는 방법 및 장치
CA3016953A1 (en) * 2017-09-07 2019-03-07 Comcast Cable Communications, Llc Relevant motion detection in video
CN109522902B (zh) * 2017-09-18 2023-07-07 微软技术许可有限责任公司 空-时特征表示的提取
US10740620B2 (en) * 2017-10-12 2020-08-11 Google Llc Generating a video segment of an action from a video
US10739775B2 (en) * 2017-10-28 2020-08-11 Tusimple, Inc. System and method for real world autonomous vehicle trajectory simulation
EP3493154A1 (en) * 2017-12-01 2019-06-05 Koninklijke Philips N.V. Segmentation system for segmenting an object in an image
US11902705B2 (en) * 2019-09-03 2024-02-13 Nvidia Corporation Video prediction using one or more neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013030984A1 (ja) * 2011-08-31 2013-03-07 株式会社日立エンジニアリング・アンド・サービス 設備状態監視方法およびその装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
村尾 和哉 ほか: "「行動の順序制約を用いた加速度データのラベリング手法」", 情報処理学会論文誌, vol. 第55巻, 第1号, JPN6018044242, 2014, pages 519 - 530, ISSN: 0004881430 *

Also Published As

Publication number Publication date
US20200034977A1 (en) 2020-01-30
US11295455B2 (en) 2022-04-05
EP3576026A4 (en) 2020-12-16
WO2019097784A1 (ja) 2019-05-23
EP3576026A1 (en) 2019-12-04

Similar Documents

Publication Publication Date Title
JPWO2019097784A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2022134344A1 (zh) 目标检测方法、系统、设备及存储介质
JP6911866B2 (ja) 情報処理装置および情報処理方法
Krantz et al. Beyond the nav-graph: Vision-and-language navigation in continuous environments
US20230367809A1 (en) Systems and Methods for Geolocation Prediction
JP2022505775A (ja) 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム
CN104794733B (zh) 对象跟踪方法和装置
Jalal et al. Human depth sensors‐based activity recognition using spatiotemporal features and hidden Markov model for smart environments
US20150325046A1 (en) Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations
EP3555815B1 (en) Unsupervised learning techniques for temporal difference models
US20160085310A1 (en) Tracking hand/body pose
CN110234085B (zh) 基于对抗迁移网络的室内位置指纹地图生成方法及系统
JP2013206273A (ja) 情報処理装置、情報処理方法、および情報処理システム
CN114283316A (zh) 一种图像识别方法、装置、电子设备和存储介质
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
KR101813805B1 (ko) 머신 러닝을 이용한 사용자의 구매 확률 예측 방법 및 장치
JP2018010626A (ja) 情報処理装置、情報処理方法
Padmaja et al. A comparison on visual prediction models for MAMO (multi activity-multi object) recognition using deep learning
JP2023513613A (ja) 適応共蒸留モデル
KR20200099966A (ko) 명목형 데이터를 포함하는 데이터를 기반으로 하는 학습 방법 및 장치
CN114372999A (zh) 一种对象检测方法、装置、电子设备和存储介质
WO2023091131A1 (en) Methods and systems for retrieving images based on semantic plane features
WO2023058433A1 (ja) 学習装置、学習方法、センシングデバイス及びデータ収集方法
Bisagno et al. Virtual crowds: An LSTM-based framework for crowd simulation
US20230169754A1 (en) Information processing device and program

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210727

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230131