WO2023112128A1

WO2023112128A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2023112128A1
Application number: PCT/JP2021/045988
Authority: WO
Inventors: 康敬馬場崎
Original assignee: 日本電気株式会社
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2023-06-22
Also published as: JPWO2023112128A1

Abstract

情報欠損に対して頑健な認識処理の技術を提供するという課題を解決するために、情報処理装置は、入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段（１１）と、複数のインスタンス情報を、インスタンス毎に集約する集約手段（１２）と、集約手段（１２）が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段（１３）と、統合手段（１３）が生成したインスタンス統合情報を参照して、１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段（１４）とを備える。

Description

情報処理装置、情報処理方法、及びプログラム

　本発明は、
を実現する情報処理装置、情報処理方法、及びプログラムに関する。

　近年、人の行動を認識する行動認識の技術が実用化され、様々な分野での応用が進められている。例えば、人の業務負荷を軽減するために様々な現場において、行動認識の技術が活用されている。

　例えば、介護の現場において、移動体の姿勢に基づいて検知領域における移動体の行動を推定する画像処理装置が提案されている（例えば、特許文献１参照）。

　また、矩形で検出された人と物体との関係性を注視機構で表現し、行動ラベル予測に必要な特徴を抽出する技術が提案されている（例えば、非特許文献１参照）。

日本国特開２０２１－６５６１７号公報

Attend and Interact: Higher-Order Object Interactions for Video Understanding, Ma et. al.，CVPR, 2018

　しかしながら、例えば、特許文献１に記載の画像処理装置においては、人以外の環境は考慮せず、人に関する情報のみに基づいて人の行動を推定するため、情報量の少なさから人の行動を正確に推定できないという問題があった。非特許文献１に記載の技術においては、物体が何であるかなどの特定を行わず、また、画像特徴のみを用いて詳細な位置情報も考慮せずに、人や物体を矩形情報として認識するため、人の行動を正確に認識できないという問題があった。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、情報欠損に対して頑健な認識処理の技術を提供することである。

　本発明の一側面に係る情報処理装置は、入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、前記統合手段が生成したインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、を備える。

　本発明の一側面に係る情報処理方法は、入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出すること、前記複数のインスタンス情報を、インスタンス毎に集約すること、前記集約手段が集約したインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成すること、前記統合手段が生成したインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識すること、を含む。

　本発明の一側面に係るプログラムは、入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、前記集約されたインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、前記生成されたインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、をコンピュータに実行させる。

　本発明の一態様によれば、情報欠損に対して頑健な認識処理の技術を提供することができる。

本発明の例示的実施形態１に係る情報処理装置の構成例を示すブロック図である。本発明の例示的実施形態１に係る情報処理方法の流れを示すフローチャートである。本発明の例示的実施形態２に係る情報処理装置の構成例を示すブロック図である。本発明の例示的実施形態２に係る抽出部が実行する抽出処理の例を説明する図である。本発明の例示的実施形態２に係る集約部が実行する集約処理の例を説明する図である。本発明の例示的実施形態２に係る集約部が実行する集約処理の例を説明する図である。本発明の例示的実施形態２に係る統合部が実行する統合処理の例を説明する図である。本発明の例示的実施形態２に係る統合部が実行する統合処理の例を説明する図である。本発明の例示的実施形態２に係る統合部が実行する統合処理の例を説明する図である。本発明の例示的実施形態２に係る出力部が出力する認識結果の例を示す図である。本発明の例示的実施形態３に係る情報処理装置の構成例を示すブロック図である。本発明の例示的実施形態３に係る情報処理方法の流れを示すフローチャートである。本発明の各例示的実施形態における装置のハードウェア構成の一例を示すブロック図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　＜情報処理装置１の構成＞
　本例示的実施形態に係る情報処理装置１の構成について、図１を参照して説明する。図１は、情報処理装置１の構成を示すブロック図である。

　図１に示すように、情報処理装置１は、抽出部１１、集約部１２、統合部１３及び認識部１４を備える。抽出部１１は、本例示的実施形態において抽出手段を実現する構成である。集約部１２は、本例示的実施形態において集約手段を実現する構成である。統合部１３は、本例示的実施形態において統合手段を実現する構成である。認識部１４は、本例示的実施形態において認識手段を実現する構成である。

　抽出部１１は、入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する。

　ここで、１又は複数のインスタンスは、映像に含まれる対象のことであり、例えば、人物、人物以外の物である。

　複数のインスタンス情報は、例えば、文字列、数字列で表される情報である。インスタンスに関する情報は、例えば、インスタンスを特定するために必要な情報であり、インスタンスを特徴づける情報である。

　抽出部１１は、入力された映像に含まれる複数の画像フレームのうち各フレームに含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出してもよい。

　また、抽出部１１は、追跡機能を備えていてもよく、既存の追跡エンジンを使用するものであってもよい。この場合、抽出部１１は、入力された映像に含まれる複数の画像フレームのうち、２枚以上のフレームから統合的に複数のインスタンス情報を抽出してもよい。

　集約部１２は、複数のインスタンス情報を、インスタンス毎に集約する。

　インスタンス毎に集約するとは、例えば、インスタンスと、該インスタンスに基づくインスタンス情報とが対応づけられることである。ここで、集約とは、あるインスタンスに対して、複数のインスタンス情報が存在する場合に、当該インスタンスに対して、当該複数のインスタンス情報を関連付けることを指す。換言すると、集約とは、インスタンス毎にインスタンス情報を関連付けたデータを生成することである。

　統合部１３は、集約部１２が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する。

　インスタンス統合情報は、例えば、集約手段が集約したインスタンス情報を、インスタンス毎に連結及び足し上げの少なくとも何れかによって、生成される。なお、連結とは、例えば、同一次元又は異なる次元を有する２つ以上のデータを並べて、連結前のデータよりも大きい次元を有する１つのデータにすることである。足し上げとは、例えば、同一次元を有する２つ以上のデータを、次元を変えることなく加算して１つのデータにすることである。

　認識部１４は、統合部１３が生成したインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する。

　認識結果は、例えば、各インスタンスのインスタンス統合情報を参照して、各インスタンス毎に生成される。認識結果は、例えば、単語、文章から構成されるテキストデータであってもよく、グラフデータであってもよく、画像データであってもよい。

　＜情報処理装置１の効果＞
　以上のように、本例示的実施形態に係る情報処理装置１によれば、１又は複数のインスタンスの各々に関し、複数のインスタンス情報を利用してインスタンスに関する認識結果を生成する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１によれば、人、物などの対象に関する情報及び人と物とが関連する事象を認識する認識処理において、情報欠損に対して頑健な認識処理の技術を提供することができる。
インスタンスの行動をより正確に認識できるという効果が得られる。

　＜情報処理装置１による情報処理方法の流れ＞
　本例示的実施形態に係る情報処理装置１が実行する情報処理方法の流れについて、図２を参照して説明する。図２は、情報処理方法の流れを示すフローチャートである。同図に示されるように、情報処理は、ステップＳ１１～Ｓ１４を含んでいる。

　（ステップＳ１１）
　ステップＳ１１において、抽出部１１は、入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する。

　（ステップＳ１２）
　ステップ１２において、集約部１２は、複数のインスタンス情報を、インスタンス毎に集約する。

　（ステップＳ１３）
　ステップ１３において、統合部１３は、集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する。

　（ステップＳ１４）
　ステップ１４において、認識部１４は、生成されたインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する。

　＜情報処理方法の効果＞
　本例示的実施形態に係る情報処理方法によれば、１又は複数のインスタンスの各々に関し、複数のインスタンス情報を利用してインスタンスに関する認識結果を生成する構成が採用されている。このため、本例示的実施形態に係る情報処理方法によれば、人、物などの対象に関する情報を認識する認識処理において、情報欠損に対して頑健な認識処理の技術を提供することができる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　＜情報処理装置１Ａの構成＞
　本例示的実施形態に係る情報処理装置１Ａの構成について、図３を参照して説明する。図３は、情報処理装置１Ａの構成例を示すブロック図である。図３に示すように、情報処理装置１Ａは、記憶部２０Ａ、通信部２１、入力部２２、表示部２３、及び制御部１０Ａ、を含んでいる。

　記憶部２０Ａは、例えば、半導体メモリデバイスなどにより構成され、データを記憶する。この例では、記憶部２０Ａに推論用映像データＶＤＰ、モデルパラメータＭＰ、及び認識結果ＲＲが記憶されている。ここで、モデルパラメータは、後述する機械学習により得られた重み係数である。モデルパラメータＭＰは、統合部１３の統合処理に使用されるモデルパラメータと、認識部１４の認識処理に使用されるモデルパラメータとを含む。

　通信部２１は、情報処理装置１Ａを、ネットワークに接続するためのインタフェースである。ネットワークの具体的構成は本例示的実施形態を限定するものではないが、一例として、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。

　入力部２２は、情報処理装置１Ａに対する各種の入力を受け付ける。入力部２２の具体的構成は本例示的実施形態を限定するものではないが、一例として、キーボード及びタッチパッド等の入力デバイスを備える構成とすることができる。また、入力部２２は、赤外線や電波等の電磁波を介してデータの読み取りを行うデータスキャナ、及び、環境の状態をセンシングするセンサ等を備える構成としてもよい。

　表示部２３は、制御部１０Ａから出力される認識結果を表示する。表示部２３は、例えば、白黒、又はカラー表示が可能な液晶表示装置や有機ＥＬ（Electroluminescence）ディスプレイ装置等のディスプレイ装置によって実現されてもよい。

　制御部１０Ａは、例示的実施形態１において説明した情報処理装置１が備える機能と同様の機能を有する。制御部１０Ａは、抽出部１１、集約部１２、統合部１３、認識部１４、及び出力部１５を備える。

　抽出部１１は、入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する。抽出部１１は、人物に関するインスタンス情報を抽出する人物インスタンス情報抽出部を備えていてもよい。図３では、例示的に、２つの人物インスタンス情報抽出部（人物インスタンス情報抽出部１１－１及び人物インスタンス情報抽出部１１－２）を備える構成を示しているが、これに限定されない。抽出部１１は、３つ以上の人物インスタンス情報抽出部を備えていてもよい。人物インスタンス情報抽出部は、それぞれ１種類のインスタンス情報を抽出するものであってよい。

　人物に関するインスタンス情報としては、例えば、人物を囲む矩形である矩形情報、人物の姿勢を表すポーズ情報、人物の周辺環境を示すセグメンテーション情報などが挙げられる。また、対象の映像データのうち、１枚の画像フレームに矩形情報が複数抽出される場合は、各矩形情報を識別するための識別情報がインスタンス情報として、各人物インスタンスに付与されてもよい。

　矩形情報は、具体的に、画像における矩形領域の位置、矩形領域の大きさを含んでもよい。画像における矩形領域の位置及び矩形領域の大きさは、画像内の画像要素（ピクセル）のｘ座標値、ｙ座標値、又はｘ座標、ｙ座標を画像サイズで正規化した値によって表されてもよい。

　ポーズ情報は、具体的に、人物の骨格及び関節の情報を含んでもよい。ポーズ情報は、例えば、人物の骨格及び関節の特徴的なポイントが画像内の画像要素のｘ座標値、ｙ座標値によって表されたものであってもよい。また、ポーズ情報は、骨格及び関節の特徴的なポイントを囲む外接矩形を含んでもよい。

　セグメンテーション情報は、例えば、矩形情報に含まれる人物の領域、矩形情報に含まれる人物以外の部分の情報、ポーズ情報である外接矩形に含まれる人物以外の部分の情報であってもよい。

　複数のインスタンス情報は、インスタンス情報の種類によって異なるエンジンを使用して抽出されてもよく、１つのエンジンを使用して抽出されてもよい。

　抽出部１１が追跡機能を備える場合、映像に含まれる複数の画像フレーム間において、矩形、ポーズ、及びセグメンテーションのうち少なくとも１つを追跡した結果が、それぞれ矩形情報、ポーズ情報、及びセグメンテーション情報として抽出されてもよい。また、複数の画像フレームにおける矩形情報、及びポーズ情報のうち少なくとも１つの情報に基づいて検出される、人物の動作を示す動作情報が人物インスタンス情報として抽出されてもよい。動作情報は、セグメンテーション情報をさらに参照して抽出されてもよい。

　また、抽出部１１は、人物以外のインスタンスに関する一般インスタンス情報を抽出する一般インスタンス情報抽出を備えていてもよい。人物以外のインスタンスとは、物体であってよい。図３では、例示的に２つの一般インスタンス情報抽出部（一般インスタンス情報抽出部１１－３及び一般インスタンス情報抽出部１１－４）を備える構成を示しているが、これに限定されない。抽出部１１は、３つ以上の一般インスタンス情報抽出部を備えていてもよい。一般インスタンス情報抽出部は、それぞれ１種類のインスタンス情報を抽出するものであってよい。

　一般インスタンス情報としては、例えば、物体を囲む矩形である矩形情報、物体を構成する特徴情報、物体の周辺環境を示すセグメンテーション情報などが挙げられる。物体を構成する特徴情報は、例えば、物体の縁部を示す点、線などであってもよい。また、対象の映像データのうち、１枚の画像フレームに矩形情報が複数抽出される場合は、各矩形情報を識別するための識別情報が一般インスタンス情報として、各一般インスタンスに付与されてもよい。

　図４は、抽出処理の例を説明するための模式図である。図４は、一例として、工事現場での様子を撮影した画像を示しており、画像には、人物と、人物が操作する転圧機が含まれる。また、画像には、人物、及び転圧機の周辺に建物と、地面とが含まれている。ここで、人物インスタンス情報としては、矩形情報ｒ１、ポーズ情報ｐ１、一般インスタンス情報としては、矩形情報ｒ２、ポーズ情報ｐ２が抽出されている。また、建物と、地面とが、それぞれセグメンテーション情報ｓ１、ｓ２として抽出されている。

　集約部１２は、複数のインスタンス情報を、インスタンス毎に集約する。ここで、集約とは、インスタンスに対して、インスタンス情報を関連付けることを指す。具体的には、集約部１２は、１つのインスタンスに対し、上述した矩形情報、ポーズ情報、動作情報、セグメンテーション情報などの種類の異なるインスタンス情報を関連付ける。集約部１２は、１つのインスタンスに対し、撮影時刻が異なる複数の画像フレームから抽出された各インスタンス情報を集約してもよい。

　集約部１２は、例えば、撮影時刻が異なる複数の画像フレームで抽出された、複数の矩形情報、複数のポーズ情報、複数のセグメンテーション情報などを、インスタンス情報としてインスタンス毎に集約してもよい。

　集約部１２は、例えば、矩形情報が含む矩形の大きさ及び位置などを参照して、撮影時刻が異なる複数の画像フレームそれぞれから抽出された複数の矩形情報（インスタンス情報）を同一のインスタンスに集約してもよい。

　また、集約部１２は、例えば、ポーズ情報が含む骨格の位置及び関節の位置などを参照して、撮影時刻が異なる複数の画像フレームそれぞれから抽出された複数のポーズ情報（インスタンス情報）を同一のインスタンスに集約してもよい。

　また、周辺環境を示すセグメンテーション情報は、撮影時刻が異なる複数の画像フレーム間においても、大きく変化しない場合がある。そのため、集約部１２は、セグメンテーション情報が含むセグメンテーションの画像内における位置と、矩形情報が含む矩形の位置及びポーズ情報が含む骨格の位置との関係を参照して、複数のインスタンス情報をインスタンスに集約してもよい。一例として、集約部１２は、セグメンテーションと、矩形及び骨格との距離を検出し、撮影時刻が異なる複数の画像フレーム間において、当該距離が所定の範囲内にある矩形及び骨格を含むインスタンス情報同士を同一のインスタンスに集約してもよい。

　集約部１２が行う集約処理の具体例を説明する。図５は、集約部１２が実行する集約処理の例を説明する図である。図５は、互いに同一の撮影時刻ｔにおける画像フレームであるフレームｆ（ｔ）と、フレームｆ（ｔ１）とを示す。一例として、抽出部１１、具体的には人物インスタンス情報抽出部は、人物Ｗを矩形情報１１０１、人物Ｘを矩形情報１１０２として抽出している。一例として、抽出部１１、具体的には人物インスタンス情報抽出部１１－２は、人物Ｗ１をポーズ情報１１１１、人物Ｘ１をポーズ情報１１１２、人物Ｙ１をポーズ情報１１１３として抽出している。

　また、集約部１２は、インスタンスと、インスタンス情報とを関連づけた結果を示すデータを出力してもよい。図５のデータＤ１は、集約部１２が実行した集約処理の結果を示すデータ構造の一例を示す。図５の場合、集約部１２は、例えば、矩形情報の位置と、ポーズ情報の位置とから人物Ｗと人物Ｗ１とが同一のインスタンスであることを識別し、インスタンス情報を集約してもよい。すなわち、集約部１２は、矩形情報１１０１と、ポーズ情報１１１１とを同一のインスタンスに関連付けてもよい。集約部１２は、具体的には、矩形情報の矩形と、ポーズ情報の外接矩形との重なり度合いが大きいものを同一のインスタンスであると識別してもよい。また、人物Ｙの矩形情報は抽出されなかったが、例えば、消去法的に人物Ｙと人物Ｙ１とが同一インスタンスであると識別し、インスタンス情報を集約してもよい。すなわち、集約部１２は、ポーズ情報１１１３を、同一インスタンスである人物Ｙと、人物Ｙ１とに関連付けてもよい。

　撮影時刻が異なる複数の画像フレーム間では、集約部１２は、各フレーム間における各インスタンス情報の軌跡を参照してインスタンス情報を集約してもよい。集約部１２は、具体的には、各フレーム間における異なるインスタンスの軌跡同士を比較して、軌跡の重なり度合いが大きいもの同士を同一のインスタンスに関連付けてもよい。

　図６は、集約部１２が実行する集約処理の例を説明する図である。図６は、撮影時刻ｔにおける画像フレームであるフレームｆ（ｔ）及びフレームｆ（ｔ１）と、撮影時刻ｔ＋１における画像フレームであるフレームｆ（ｔ＋１）及びフレームｆ（ｔ１＋１）とを示す。図６のフレームｆ（ｔ）及びフレームｆ（ｔ１）は、図５で説明したフレームｆ（ｔ）及びフレームｆ（ｔ１）と同じである。

　抽出部１１は、一例として、フレームｆ（ｔ１＋１）において、人物Ｐを矩形情報１１０４、人物Ｑを矩形情報１１０５、人物Ｒを矩形情報１１０６として抽出している。

　また、抽出部１１は、一例として、フレームｆ（ｔ１＋１）において、人物Ｐ１をポーズ情報１１１４、人物Ｑ１をポーズ情報１１１５、人物Ｒ１をポーズ情報１１１６として抽出している。

　図６において、集約部１２は、フレームｆ（ｔ）に含まれる矩形情報と、フレームｆ（ｔ＋１）に含まれる矩形情報とを、例えば、それぞれの矩形のピクセルのｘ座標値、ｙ座標値から求められる値を用い、インスタンス毎に矩形の軌跡を求めてもよい。

　また、集約部１２は、フレームｆ（ｔ）に含まれるポーズ情報と、フレームｆ（ｔ＋１）に含まれるポーズ情報とを、例えば、それぞれの関節点又は関節点の外接矩形のピクセルのｘ座標値、ｙ座標値から求められる値を用い、インスタンス毎にポーズの軌跡を求めてもよい。

　図６において、グラフＧ１は、矩形とポーズとの軌跡を示すグラフである。例えば、軌跡Ｌ４は、矩形情報１１０１と、矩形情報１１０４と、時刻ｔ＋２のフレームの矩形情報（不図示）とが含む矩形の位置から求められる軌跡である。また、軌跡Ｌ１は、ポーズ情報１１１１と、ポーズ情報１１１４と、時刻ｔ＋２のフレームのポーズ情報（不図示）とが含むポーズの位置から求められる軌跡である。集約部１２は、撮影時刻の異なる複数のフレーム間から取得される軌跡を１つのインスタンス情報としてもよい。

　集約部１２は、矩形の軌跡と、ポーズの軌跡との形状の類似度合いから、矩形情報と、ポーズ情報とを１つのインスタンスに関連付けてもよい。例えば、軌跡Ｌ１と、軌跡Ｌ４とが同一インスタンスに属するインスタンス情報として集約されてもよい。このように、集約部１２は、複数のフレームのインスタンス情報から求められる軌跡を集約処理に利用することにより、例えば、フレームｆ（ｔ）において矩形情報が抽出されないといった情報欠損がある場合でもインスタンス情報を集約することができる。

　集約部１２は、複数のインスタンス情報の各々に対して、属性情報を付与してもよい。属性情報とは、インスタンスの属性を表す情報であり、例えば、人の名称、物の名称、型番などが挙げられる。属性情報は、インスタンスを特定できるものであればよく、予め定められた管理番号などであってもよい。また、同じ種類のインスタンスが複数ある場合は、物の名称の後に数字が付与され、同じ種類のインスタンス同士を識別できるよう異なる属性情報が付与されてもよい。

　統合部１３は、集約部１２が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する。また、統合部１３は、各インスタンス情報に変換処理を適用する１又は複数の変換層１３０と、変換処理後のインスタンス情報を統合する１又は複数の統合層１３１とを備えている。変換層１３０は、例えば、多層パーセプトロンを備えていてよく、２種類以上の多層パーセプトロンを備えていてもよい。例えば、入力されるインスタンス情報の種類に応じて、種類の異なる多層パーセプトロンが適用されてもよい。

　図７は、統合部１３が実行する統合処理をモデル化した図である。図７に示すモデルは、変換層１３０及び統合層１３１を備えている。図７において、一例として変換層１３０には、インスタンス情報Ｅ１が入力される第１の変換層１３０１、及びインスタンス情報Ｆ１が入力される第２の変換層１３０２が含まれている。ここで、第１の変換層１３０１及び第２の変換層１３０２は、それぞれが異なる多層パーセプトロンであってもよい。また、変換層１３０において変換処理を適用されたインスタンス情報は、統合層１３１において統合され、１つのインスタンス情報Ｇ１（後述するインスタンス統合情報）として出力される。具体的には、変換層１３０には、１次元テンソルに展開された各インスタンス情報が入力され、変換層において、テンソルが各情報間において同一次元に変換されてもよい。

　統合層１３１がインスタンス情報を統合する態様としては、例示的実施形態１でも説明したように、２つのインスタンス情報を連結する態様と、２つのインスタンス情報を足し上げる態様とがあってよい。連結されたインスタンス情報は、図７で示すインスタンス情報Ｇ１のように、同一次元を有する２つ以上のデータを並べた、連結前のデータよりも大きい次元を有する１つのデータである。また、足し上げられたインスタンス情報は、図７で示すインスタンス情報Ｇ２のように、同一次元を有する２つ以上のデータを、次元を変えることなく加算されてなる１つのデータである。

　統合部１３は１又は複数の変換層１３０による変換処理後のインスタンス情報に重要度を付与し、統合層１３１は、当該重要度を用いてインスタンス情報を統合する。

　重要度とは、インスタンス情報に乗じるための重みであってよい。すなわち、統合部１３は、変換処理後のインスタンス情報に重みづけを行い、重みづけされたインスタンス情報を統合してもよい。

　図８は、統合部１３が実行する統合処理をモデル化した図である。図８に示す統合部１３は、図７に示す統合部１３と同様に、変換層１３０及び統合層１３１を備えているが、変換処理後のインスタンス情報に重要度を付与し、重要度を用いてインスタンス情報が統合される点で異なっている。統合部１３は、プーリング層１３２を含んでいてもよい。

　図８において、例えば、変換処理後のインスタンス情報Ｅ２及びＦ２は、それぞれプーリング層１３２に入力され、例えばグローバルアベレージプーリングが適用される。その後、変換層１３０に入力され、インスタンス情報Ｅ２及びインスタンス情報Ｆ２のそれぞれの重要度ｗ１及びｗ２が数値として出力される。変換層１３０による変換処理後の情報にシグモイド関数が適用されることにより重要度が出力されてもよい。重要度は、０～１の数値であってよい。一例として、図８では、重要度ｗ１が０．４、重要度ｗ２が０．６として出力されている。また、出力された重要度ｗ１、ｗ２をそれぞれ変換層１３０による変換処理後のインスタンス情報Ｅ２、Ｆ２に乗ずることにより、重要度がそれぞれのインスタンス情報に付与される。重要度が付与されたインスタンス情報は、統合層１３１によって統合され、インスタンス情報Ｇ１として出力される。

　統合部１３は、１又は複数の変換層として、各インスタンス情報に対して直列的に変換処理を適用する複数の変換層を備え、統合層は、変換層における変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する統合層とを備えていてもよい。

　また、図８では、統合部１３が１層の変換層１３０を備える態様を示したが、統合部１３は、２層以上の変換層を備えてもよい。複数のインスタンス情報は、変換処理の回数が多いほど、互いの情報間のギャップが小さくなる。すなわち、入力される変換層の数が多いほど情報間の類似性が高くなる。情報間のギャップが小さいインスタンス情報同士は、統合層１３１において、足し上げる処理が好ましい場合がある。逆に、情報間のギャップが大きいインスタンス情報同士、すなわち、情報間の類似性が低いインスタンス情報同士は、統合層１３１において、連結する処理が好ましい場合がある。このため、統合層１３１は、変換層の数に応じて変換処理後のインスタンス情報を連結するか、足し上げるか決定してもよい。

　また、統合部１３が複数の変換層を備える場合において、統合部１３は、注視ブロックをさらに備えてもよい。注視ブロックは、一例として、入力されたインスタンス情報から、当該インスタンス情報を注視すべきか否かを表す指標としての重み係数を算出する。

　当該重み係数は、例えば、入力された複数のインスタンス情報の互いの類似性を表すものであってもよい。重み係数は、０から１の間の実数値に設定されてもよい。重み係数は、例えば、入力された複数のインスタンス情報を統合したときの認識精度の高さに応じて設定されてもよい。具体的には、重み係数は、入力された複数のインスタンス情報を統合すれば認識精度が高くなる場合に１に近い値に設定されてもよく、統合すれば認識精度が低くなる場合に０に近い値に設定されてもよい。すなわち、重み係数は、認識精度が高いほど１に近い値、認識精度が低いほど０に近い値が設定されてもよい。

　情報間の類似性によって、浅い層側で統合する方が好ましいか、深い層側で統合する方が好ましいかは異なる。そのため、注視ブロックを利用することによって、複数のインスタンス情報間の類似性に応じて、適切に統合処理を行うことができる。

　図９は、統合部１３が実行する統合処理をモデル化した図である。統合部１３は、一例として、複数の変換層１３０、１３０Ａ、及び注視ブロック（Attention Block）１３３、１３４を備える。統合部１３に入力されたインスタンス情報Ｅ１と、インスタンス情報Ｆ１とは、それぞれ変換層１３０の第１の変換層１３０１及び第２の変換層１３０２によって変換処理が行われ、変換処理後のインスタンス情報Ｅ２と、変換処理後のインスタンス情報Ｆ２とが出力される。ここで、変換処理後のインスタンス情報Ｅ２、Ｆ２は、注視ブロック１３３に入力され、互いの情報の類似性に基づいた重み係数が付与される。

　なお、注視ブロック１３３において、重み係数が付与されたインスタンス情報は、重み係数に応じて、後段の変換層（例えば、変換層１３０Ａ）には、入力されずに、統合層（不図示）に入力されてもよい。また、変換層１３０Ａで変換処理が実行された変換処理後のインスタンス情報Ｅ３、Ｆ３は、注視ブロック１３４に入力され、注視ブロック１３３と同様に、互いの情報の類似性に基づいた重み係数が付与されてもよい。すなわち、統合部１３が注視ブロック１３３を備えることにより、複数の変換層において、どの変換層の変換処理後にインスタンス情報を統合するかを自動で選択されてもよい。

　統合部１３が備える注視ブロックの数は限定されない。統合部１３が備える、厚み方向の変換層の数と同じ数の注視ブロックを備えていてもよい。

　認識部１４は、１又は複数のインスタンスのうち、人の行動に関する認識結果を生成する。認識部１４は、統合部１３が生成する統合情報を参照して、人の行動に関する認識結果を生成する。認識部１４は、記憶部２０Ａに格納されているモデルパラメータＭＰを使用して認識処理を実行する。認識部１４には、既存の行動認識エンジンを使用してもよい。また、認識部１４は、人に関するインスタンス統合情報と、物に関するインスタンス統合情報との両者を用いて、人の行動に関する認識結果を生成してもよい。

　認識部１４は、例えば、統合情報を参照して、各インスタンス（人物）が行っていると推定される複数の行動に対してスコアを付与した情報を認識結果として生成してもよい。認識部１４は、一例として、作業員Ａが行っている作業として、「（１）転圧機で地面を固める作業をしている確率７０％、（２）転圧機を修理している確率２０％、（３）転圧機を運んでいる確率１０％」のように所定の動作に対して確率を付与した情報を認識結果として生成してもよい。

　認識部１４は、１又は複数のインスタンスのうち、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なる識別処理を適用する。認識部１４は、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なるモデルパラメータを使用してもよく、互いに異なる行動認識エンジンを使用してもよい。

　出力部１５は、認識部１４が生成した認識結果を出力する。出力部１５は、認識部１４が生成した認識結果をそのまま出力してもよく、認識結果の一部を出力してもよい。例えば、認識部１４が、推定される複数の行動に対してスコアを付与した情報を認識結果として生成した場合、出力部１５は、最もスコアが高い行動のみを出力してもよい。

　例えば、上述のように認識部１４が作業員Ａの行動として「（１）転圧機で地面を固める作業をしている確率７０％、（２）転圧機を修理している確率２０％、（３）転圧機を運んでいる確率１０％」という認識結果を生成した場合、出力部１５は、「作業員Ａは転圧機で地面を固める作業をしている」という認識結果を出力してもよい。

　図１０は、出力部１５が出力する認識結果の例を示す図である。図１０において、認識結果は一例として表である。図１０では、インスタンスである３人のそれぞれの行動が時系列で表されている。また、図１０での認識結果において、３人のそれぞれの行動は、物体との関係を示すものである。図１０で示す認識結果によれば、例えば、作業員を管理する管理者が各作業員の作業状況を正確に知ることができる。

　＜情報処理装置１Ａの効果＞
　以上のように、本例示的実施形態に係る情報処理装置１Ａには、各インスタンス情報に変換処理を適用し、変換処理後のインスタンス情報を統合する構成が採用されている。

　当該構成によれば、インスタンス情報毎に変換処理を適用し、変換処理後のインスタンス情報を統合することができる。このため、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、変換処理及び統合処理における情報の欠損を低減することができる。また、複数のインスタンス情報を統合するため、情報が欠損した場合であっても、認識処理の認識精度を向上させることができる。

　また、本例示的に実施形態に係る情報処理装置１Ａには、変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する構成が採用されている。

　当該構成によれば、インスタンス情報毎に、該インスタンス情報に応じた重要度を付与し、重要度が付与されたインスタンス情報を１つの情報として統合することができる。このため、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、統合処理における情報の欠損を低減することができる。また、複数のインスタンス情報を統合するため、情報が欠損した場合であっても、認識処理の認識精度を向上させることができる。

　また、本例示的実施形態に係る情報処理装置１Ａには、各インスタンス情報に対して変換処理を適用する複数の変換層を備え、変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する構成が採用されている。

　当該構成によれば、各インスタンス情報に対して直列的に変換処理が複数回適用される。また、当該構成によれば、変換処理後のインスタンス情報に応じた重要度を付与することができ、かつ、重要度が付与されたインスタンス情報を１つの情報として統合することができる。このため、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、インスタンス情報を適切に変換し、変換処理及び統合処理における情報の欠損を低減することができる。また、複数のインスタンス情報を統合するため、情報が欠損した場合であっても、認識処理の認識精度を向上させることができる。

　また、本例示的実施形態に係る情報処理装置１Ａには、１又は複数のインスタンスのうち、人の行動に関する認識結果を生成する認識処理を行う構成が採用されている。

　当該構成によれば、人の行動に関する認識結果を生成することができる。このため、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、人を主体とする行動認識の処理を行うことができる。

　また、本例示的実施形態に係る情報処理装置１Ａには、１又は複数のインスタンスのうち、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なる識別処理を適用する構成が採用されている。

　当該構成によれば、人に関するインスタンス統合情報、及び物に関するインスタンス統合情報それぞれに応じた識別処理を適用できる。このため、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、識別処理におけるコストを低減することができ、かつ、識別処理における情報の欠損を低減することができる。

　また、本例示的実施形態に係る情報処理装置１Ａには、１又は複数のインスタンスの各々に対して、属性情報を付与する構成が採用されている。

　当該構成によれば、１又は複数のインスタンスの各々に対して、属性情報が付与される。このため、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、類似のインスタンスが複数ある場合でも各インスタンスを識別可能であり、認識処理の認識精度を向上させることができる。

　〔例示的実施形態３〕
　本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　＜情報処理装置１Ｂの構成＞
　本例示的実施形態に係る情報処理装置１Ｂの構成について、図１１を参照して説明する。情報処理装置１Ｂは、情報処理装置１Ａにおける記憶部２０Ａのモデルパラメータを学習する機能をさらに有する装置である。

　図１１は、情報処理装置１Ｂの構成例を示すブロック図である。図１１に示す情報処理装置１Ｂが、図３に示した情報処理装置１Ａと異なる点は、制御部１０Ｂに、学習部１６が設けられていることである。

　学習部１６は、映像と当該映像中に含まれる１又は複数のインスタンスの少なくとも何れかに関する認識情報ＲＩとの組を複数含む教師データＴＤを参照して、統合部１３及び認識部１４の少なくとも何れかを学習させる。

　教師データＴＤには、学習用映像データＶＤＬが含まれる。この映像は、例えば、監視カメラによる映像であってもよい。

　また、教師データＴＤには、認識情報ＲＩが含まれる。この認識情報ＲＩは、テキストであってもよく、グラフであってもよく、表であってもよく、画像であってもよい。認識情報ＲＩは、例えば、情報処理装置１Ｂの操作者によって付与される、映像に写っている人物の行動ラベルであってもよい。

　学習部１６は、例示的実施形態２の情報処理装置１Ａと同じく、抽出部１１、集約部１２、統合部１３、認識部１４の機能を備えるものであってよい。

　教師データＴＤは、例えば、次のようにして生成される。監視カメラの映像が学習部１６により取得され、映像に含まれる１又は複数のインスタンスの各々に関する複数のインスタンスが抽出される。また、この映像に対応する認識情報ＲＩも学習部１６より取得される。

　例えば、情報処理装置１Ｂの操作者は、取得された映像に写っている各人物に対して、どのような行動を行っているか、何の作業を行っているかなどの行動を判断し、行動ラベルを付す。情報処理装置１Ｂの操作者が、人物の行動について予め用意されている複数の行動ラベルから、該当する行動ラベルを選択する態様であってもよい。また、情報処理装置１Ｂの操作者が、人物が扱っている物体の名前をさらに入力する態様であってもよい。情報処理装置１Ｂの操作者は、入力部２２を介して、取得された映像に写っている人物のそれぞれについて行動ラベルを付す。

　その後、別の映像が学習部１６により取得され、同様の作業が実行されることになる。このような作業を繰り返すことにより、映像と当該映像中に含まれるインスタンスに関する認識情報ＲＩとの組を複数含む教師データＴＤが生成される。

　なお、上記に説明した教師データＴＤの生成のための作業は、一例であり、本例示的実施形態を限定するものではない。また、本明細書において「教師データ」との表現は、モデルパラメータを更新（学習）するために参照されるデータであるという以上の限定を有するものではない。本明細書における「教師データ」との表現に代えて「学習用データ」、「参照用データ」等の表現を用いてもよい。

　十分な数の組を有する教師データが生成された後、学習部１６による機械学習が実行される。すなわち、学習部１６は、教師データを参照して、映像及び当該映像中に含まれるインスタンスに関する認識情報ＲＩとの相関関係を表す予測モデルを学習する。

　学習部１６は、教師データＴＤに含まれる映像を抽出部１１に入力し、認識部１４によって生成された認識結果と教師データに含まれる認識情報との相違が小さくなるように、統合部１３が用いる統合モデルのパラメータ及び認識部１４が用いる認識モデルのパラメータの少なくとも何れかを更新する。

　学習部１６は、統合モデルのパラメータと、認識モデルのパラメータとを、同時に更新してもよい。

　＜情報処理装置１Ｂによる学習処理の流れ＞
　以上のように構成された情報処理装置１Ｂが実行する学習処理の流れについて、図１２を参照して説明する。図１２は、学習処理の流れを示すフローチャートである。

　（ステップＳ２１）
　ステップＳ２１において、学習部１６は、教師データＴＤに含まれる学習用映像データＶＤＬを抽出部１１に入力する。

　（ステップＳ２２）
　ステップＳ２２において、抽出部１１は、ステップＳ２１で入力された学習用映像データＶＤＬに含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する。

　（ステップＳ２３）
　ステップＳ２３において、集約部１２は、複数のインスタンス情報をインスタンス毎に集約する。

　（ステップＳ２４）
　ステップＳ２４において、統合部１３は、ステップＳ２３で集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する。

　（ステップＳ２５）
　ステップＳ２５において、認識部１４は、ステップＳ２４で生成されたインスタンス統合情報を参照して、１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する。

　（ステップＳ２６）
　ステップＳ２６において、学習部１６は、ステップＳ２５で生成された認識結果と、教師データＴＤに含まれる認識情報ＲＩとの相違が小さくなるようにモデルパラメータＭＰを更新する。モデルパラメータＭＰの更新において、統合部１３が用いる統合モデルのパラメータ及び認識部１４が用いる認識モデルのパラメータの少なくとも何れかが更新される。

　このようにして、図１２に示される学習処理が終了する。

　なお、上述した学習処理においては、適宜ハイパーパラメータを調整して学習が行われてもよい。

　＜情報処理装置１Ｂの効果＞
　以上のように、本例示的実施形態に係る情報処理装置１Ｂには、映像と当該映像中に含まれる１又は複数のインスタンスの少なくとも何れかに関する認識情報との組を複数含む教師データを参照して、統合手段及び認識手段の少なくとも何れかを学習させる構成が採用されている。

　当該構成によれば、教師データを参照して、統合手段及び認識手段の少なくとも何れかを学習することができる。このため、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、認識処理の認識精度を向上させることができる。

　本例示的実施形態に係る情報処理装置１Ｂには、教師データに含まれる映像を入力し、生成された認識結果と教師データに含まれる認識情報との相違が小さくなるように、統合モデルのパラメータ及び認識モデルのパラメータの少なくとも何れかを更新する構成が採用されている。

　当該構成によれば、認識情報に適合した認識結果を出力するよう統合モデルのパラメータ及び認識モデルのパラメータの少なくとも何れかを更新する。このため、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、更新されたモデルパラメータを用いることにより認識処理の認識精度を向上させることができる。

　〔ソフトウェアによる実現例〕
　情報処理装置１、１Ａ、１Ｂの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、情報処理装置１、１Ａ、１Ｂは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１３に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを情報処理装置１、１Ａ、１Ｂとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、情報処理装置１、１Ａ、１Ｂの各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、
　前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、
　前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、
　前記統合手段が生成したインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、
を備えている情報処理装置。

　（付記２）
　前記統合手段は、
　　各インスタンス情報に変換処理を適用する１又は複数の変換層と、変換処理後のインスタンス情報を統合する１又は複数の統合層とを備えている
付記１に記載の情報処理装置。

　（付記３）
　前記統合手段は、
　　前記１又は複数の変換層による変換処理後のインスタンス情報に重要度を付与し、
　　前記統合層は、当該重要度を用いてインスタンス情報を統合する付記２に記載の情報処理装置。

　（付記４）
　前記統合手段は、
　　前記１又は複数の変換層として、各インスタンス情報に対して直列的に変換処理を適用する複数の変換層を備え、
　　前記統合層は、前記変換層における変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する統合層と
を備えている付記２に記載の情報処理装置。

　（付記５）
　前記認識手段は、前記１又は複数のインスタンスのうち、人の行動に関する認識結果を生成する付記１から４の何れかに記載の情報処理装置。

　（付記６）
　前記認識手段は、前記１又は複数のインスタンスのうち、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なる識別処理を適用する
付記５に記載の情報処理装置。

　（付記７）
　前記集約手段は、前記１又は複数のインスタンスの各々に対して、属性情報を付与する付記１から６の何れかに記載に情報処理装置。

　（付記８）
　映像と当該映像中に含まれる１又は複数のインスタンスの少なくとも何れかに関する認識情報との組を複数含む教師データを参照して、前記統合手段及び前記認識手段の少なくとも何れかを学習させる学習部
を備えている付記１から７の何れかに記載情報処理装置。

　（付記９）
　前記学習部は、
　　前記教師データに含まれる映像を前記抽出手段に入力し、
　　前記認識手段によって生成された認識結果と前記教師データに含まれる認識情報との相違が小さくなるように、前記統合手段が用いる統合モデルのパラメータ及び前記認識手段が用いる認識モデルのパラメータの少なくとも何れかを更新する
付記８に記載の情報処理装置。

　（付記１０）
　入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出すること、
　前記複数のインスタンス情報を、インスタンス毎に集約すること、
　前記集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成すること、
　前記生成されたインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成すること、
を含む
　ことを特徴とする情報処理方法。

　（付記１１）
　コンピュータを、
　入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、
　前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、
　前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、
　前記統合手段が生成したインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、を備える情報処理装置として機能させる
　ことを特徴とするプログラム。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

　少なくとも１つのプロセッサを備え、前記プロセッサは、入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出処理と、前記複数のインスタンス情報を、インスタンス毎に集約する集約処理と、前記集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合処理と、前記生成されたインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識処理とを実行する情報処理装置。

　なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記抽出処理と、前記集約処理と、前記統合処理と、前記認識処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　１、１Ａ、１Ｂ　　　情報処理装置
　１１　　　　　　　　抽出部
　１２　　　　　　　　集約部
　１３　　　　　　　　統合部
　１４　　　　　　　　認識部
　１５　　　　　　　　出力部
　１６　　　　　　　　学習部
　１３０　　　　　　　変換層
　１３１　　　　　　　統合層

Claims

　入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、
　前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、
　前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、
　前記統合手段が生成したインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、
を備えている情報処理装置。
　前記統合手段は、
　　各インスタンス情報に変換処理を適用する１又は複数の変換層と、変換処理後のインスタンス情報を統合する１又は複数の統合層とを備えている
請求項１に記載の情報処理装置。
　前記統合手段は、
　　前記１又は複数の変換層による変換処理後のインスタンス情報に重要度を付与し、
　　前記統合層は、当該重要度を用いてインスタンス情報を統合する請求項２に記載の情報処理装置。
　前記統合手段は、
　　前記１又は複数の変換層として、各インスタンス情報に対して直列的に変換処理を適用する複数の変換層を備え、
　　前記統合層は、前記変換層における変換処理後のインスタンス情報に重要度を付与し、当該重要度を用いてインスタンス情報を統合する統合層と
を備えている請求項２に記載の情報処理装置。
　前記認識手段は、前記１又は複数のインスタンスのうち、人の行動に関する認識結果を生成する請求項１から４の何れか１項に記載の情報処理装置。
　前記認識手段は、前記１又は複数のインスタンスのうち、人に関するインスタンス統合情報と、物に関するインスタンス統合情報とに対して、互いに異なる識別処理を適用する
請求項５に記載の情報処理装置。
　前記集約手段は、前記１又は複数のインスタンスの各々に対して、属性情報を付与する請求項１から６の何れか１項に記載の情報処理装置。
　映像と当該映像中に含まれる１又は複数のインスタンスの少なくとも何れかに関する認識情報との組を複数含む教師データを参照して、前記統合手段及び前記認識手段の少なくとも何れかを学習させる学習部
を備えている請求項１から７の何れか１項に記載の情報処理装置。
　前記学習部は、
　　前記教師データに含まれる映像を前記抽出手段に入力し、
　　前記認識手段によって生成された認識結果と前記教師データに含まれる認識情報との相違が小さくなるように、前記統合手段が用いる統合モデルのパラメータ及び前記認識手段が用いる認識モデルのパラメータの少なくとも何れかを更新する
請求項８に記載の情報処理装置。
　入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出すること、
　前記複数のインスタンス情報を、インスタンス毎に集約すること、
　前記集約された複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成すること、
　前記生成されたインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成すること、
を含む
　ことを特徴とする情報処理方法。
　コンピュータを、
　入力された映像に含まれる１又は複数のインスタンスの各々に関し、複数のインスタンス情報を抽出する抽出手段と、
　前記複数のインスタンス情報を、インスタンス毎に集約する集約手段と、
　前記集約手段が集約した複数のインスタンス情報を、インスタンス毎に統合することによってインスタンス統合情報を生成する統合手段と、
　前記統合手段が生成したインスタンス統合情報を参照して、前記１又は複数のインスタンスの少なくとも何れかに関する認識結果を生成する認識手段と、を備える情報処理装置として機能させる
　ことを特徴とするプログラム。