WO2023152832A1

WO2023152832A1 - 識別装置、識別方法、及び非一時的なコンピュータ可読媒体

Info

Publication number: WO2023152832A1
Application number: PCT/JP2022/005138
Authority: WO
Inventors: 賢太石原
Original assignee: 日本電気株式会社
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2023-08-17

Abstract

識別装置（２０００）は、識別対象について、第１種類の特徴量である第１入力データ（２０）と第２種類の特徴量である第２入力データ（３０）を取得する。識別装置（２０００）は、第１入力データ（２０）から第１中間特徴量（６０）を算出し、第２入力データ（３０）から第２中間特徴量（７０）を算出する。識別装置（２０００）は、第２中間特徴量（７０）から第１アテンションデータ（８０）を算出し、第１中間特徴量（６０）から第２アテンションデータ（９０）を算出する。識別装置（２０００）は、第１中間特徴量（６０）と第１アテンションデータ（８０）から第１特徴量（４０）を算出し、第２中間特徴量（７０）と第２アテンションデータ（９０）から第２特徴量（５０）を算出する。識別装置（２０００）は、第１特徴量（４０）、第２特徴量（５０）、又はこれらの双方を用いて、識別対象についてのクラス識別を行う。

Description

識別装置、識別方法、及び非一時的なコンピュータ可読媒体

　本開示はクラス識別に関する。

　データが属するクラスを識別する技術が開発されている。例えば非特許文献１は、人の動作が記録されたビデオデータについて、各ビデオフレームから得られる画像特徴量と、各ビデオフレームから検出される人の骨格の特徴量とを用いて、人が行った動作の種類を識別する技術を開示している。非特許文献１には、大別して２種類の手法が開示されている。第１の手法は、画像特徴量と骨格特徴量とを連結したデータを識別モデルに入力することで動作の識別を行う手法である。第２の手法は、画像特徴量と骨格特徴量をそれぞれ識別モデルに入力し、２つの識別モデルそれぞれからの出力を統合することにより、動作の識別を行う手法である。

T. Kobayashi、Y. Aoki、S. Shimizu、K. Kusano、及び S. Okumura、「Fine-Grained Action Recognition in Assembly Work Scenes by Drawing Attention to the Hands」、Proceedings of International Conference on Signal-Image Technology & Internet-Based Systems (SITIS)、pp.440-446、２０１９年

　非特許文献１では、識別モデルに入力される２つの特徴量の生成が、それぞれ独立して行われている。本開示はこの課題に鑑みてなされたものであり、その目的の一つは、クラス識別の新たな手法を提供することである。

　本開示の識別装置は、識別対象について、第１種類の特徴量である第１データ及び第２種類の特徴量である第２データを取得する取得手段と、前記第１データから第１中間特徴量を算出した後、前記第１中間特徴量を用いてさらに第１特徴量を算出する第１特徴抽出手段と、前記第２データから第２中間特徴量を算出した後、前記第２中間特徴量を用いてさらに第２特徴量を算出する第２特徴抽出手段と、前記第１特徴量、前記第２特徴量、又はその双方を利用して、前記識別対象に関するクラス識別を行う識別手段と、前記第２中間特徴量を用いて第１アテンションデータを算出し、なおかつ、前記第１中間特徴量を用いて第２アテンションデータを算出するアテンションデータ生成手段と、を有する。
　前記第１特徴抽出手段は、前記第１中間特徴量及び前記第１アテンションデータを用いて、前記第１特徴量を算出する。前記第２特徴抽出手段は、前記第２中間特徴量及び前記第２アテンションデータを用いて、前記第２特徴量を算出する。

　本開示の識別方法は、コンピュータによって実行される。当該方法は、識別対象について、第１種類の特徴量である第１データ及び第２種類の特徴量である第２データを取得する取得ステップと、前記第１データから第１中間特徴量を算出した後、前記第１中間特徴量を用いてさらに第１特徴量を算出する第１特徴抽出ステップと、前記第２データから第２中間特徴量を算出した後、前記第２中間特徴量を用いてさらに第２特徴量を算出する第２特徴抽出ステップと、前記第１特徴量、前記第２特徴量、又はその双方を利用して、前記識別対象に関するクラス識別を行う識別手段と、前記第２中間特徴量を用いて第１アテンションデータを算出し、なおかつ、前記第１中間特徴量を用いて第２アテンションデータを算出するアテンションデータ生成ステップと、を有する。
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量及び前記第１アテンションデータを用いて、前記第１特徴量を算出する。前記第２特徴抽出ステップにおいて、前記第２中間特徴量及び前記第２アテンションデータを用いて、前記第２特徴量を算出する。

　本開示の非一時的なコンピュータ可読媒体は、本開示の識別方法をコンピュータに実行させるプログラムを格納している。

　本開示によれば、クラス識別の新たな手法を提供することである。

実施形態の識別装置の動作の概要を例示する図である。識別装置の機能構成を例示するブロック図である。識別装置を実現するコンピュータのハードウエア構成を例示するブロック図である。識別装置によって実行される処理の流れを例示するフローチャートである。特徴抽出モデル及びアテンションモデルを例示する図である。アテンション生成モデルの構成を例示する第１の図である。アテンション生成モデルの構成を例示する第２の図である。中間特徴量とアテンションデータの生成が複数回行われるケースを例示する図である。

　以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。また、特に説明しない限り、所定値や閾値などといった予め定められている値は、その値を利用する装置からアクセス可能な記憶装置などに予め格納されている。さらに、特に説明しない限り、記憶部は、１つ以上の任意の数の記憶装置によって構成される。

＜概要＞
　図１は、実施形態の識別装置２０００の動作の概要を例示する図である。ここで、図１は、識別装置２０００の概要の理解を容易にするための図であり、識別装置２０００の動作は、図１に示したものに限定されない。

　識別装置２０００は、識別対象に関するクラスを識別する処理を行う。例えば識別対象は、任意の物体である。物体は、人その他の動物であってよいし、動物以外の生物（植物など）であってもよいし、無生物であってもよい。また、識別対象は、１つの物体には限定されず、複数の物体であってもよい。また、識別対象は物体には限定されない。例えば識別対象は、物体やその背景によって構成されるシーンであってもよい。

　識別対象に関するクラスは、識別対象そのものの種類を表してもよいし、識別対象に関するその他の種類を表してもよい。後者の場合、例えばクラスは、識別対象の動作や状態の種類などを表す。

　識別装置２０００は、識別対象について得られた、それぞれ異なる複数種類のデータを利用して、識別対象についてのクラス識別を行う。識別装置２０００が取得するデータは、少なくとも、第１種類のデータである第１入力データ２０、及び第２種類のデータである第２入力データ３０を含む。説明を簡単にするために、まずは識別装置２０００が２種類のデータ（すなわち、第１入力データ２０及び第２入力データ３０）を取得するケースについて説明する。識別装置２０００が３種類以上のデータを利用するケースについては後述する。

　第１入力データ２０と第２入力データ３０はいずれも、識別対象について行われた観測の結果として得られる観測データ１０から抽出された特徴量である。ただし、第１入力データ２０と第２入力データ３０は、互いに異なる種類の特徴量である。なお、本開示において、「特徴量の抽出」という表現と「特徴量の算出」という表現は、互いに同じ意味で利用される。

　ここで、第１入力データ２０と第２入力データ３０は、同一の観測データ１０から抽出された特徴量であってもよいし、互いに異なる観測データ１０から抽出された特徴量であってもよい。前者のケースは、例えば、画像データから抽出された画像特徴量及び骨格特徴量がそれぞれ第１入力データ２０及び第２入力データ３０として利用されるケースである。一方、後者のケースは、例えば、画像データから抽出された画像特徴量が第１入力データ２０として利用され、音声データから抽出された音声特徴量が第２入力データ３０として利用されるケースである。なお、第１入力データ２０が抽出される観測データ１０と、第２入力データ３０が抽出される観測データ１０との間には、時間的な関連があることが好適である。例えばこれら２つの観測データ１０を得るための観測は、略同一の時点に行われたものであることが好適である。

　観測データの種類としては、例えば、識別対象を撮像することで得られる画像データ（例えば RGB 画像やグレースケール画像）、識別対象の周囲の音を記録することで得られる音声データ、識別対象までの距離を測定することで得られる距離データ（例えば深度画像）、識別対象から発せられる生体情報を記録することで得られる生体データ（例えば心拍データや脳波データ）などが挙げられる。

　観測データは、時系列データを構成しない単独のデータであってもよいし、時系列データを構成するフレームデータであってもよい。時系列データを構成しない単独のデータとしては、例えば、スチルカメラによって生成された静止画像データが挙げられる。時系列データを構成するフレームデータとしては、例えば、ビデオカメラによって生成されたビデオデータを構成するビデオフレームが挙げられる。

　観測データから得られる特徴量としては、種々のものを扱うことができる。例えば、観測データに対して、畳み込み処理等による次元圧縮を行うことで得られるデータを、その観測データの特徴量として扱うことができる。その他にも例えば、観測データに対して特定の解析処理を行うことで得られるデータを、その観測データの特徴量として扱うことができる。例えば観測データが画像データである場合、骨格の位置を表す骨格特徴量や、各ピクセルのオプティカルフローを表すオプティカルフローデータを、特徴量として利用することができる。

　骨格特徴量が示す骨格の位置は、画像上の２次元位置であってもよいし、特定の３次元空間上の３次元位置であってもよい。また、骨格特徴量は、動物の関節点の位置を示すデータには限定されず、ロボットなどの機械に含まれる１つ以上のジョイントの位置を関節点の位置と示すデータであってもよい。さらに、骨格特徴量によって表される骨格の粒度は、画像データに含まれる人等のサイズや、認識対象の行動の粒度などに応じて設定される。例えば、画像データに人の腕と手が大きく撮像されている場合、骨格特徴量は、指の複数の関節それぞれの関節点を示すことが好適である。一方、画像データに人の全身が撮像されている場合、例えば骨格特徴量は、手についての関節点として手首の関節点を示せばよく、指の各関節の関節点までは示さなくてもよい。

　識別装置２０００は、第１入力データ２０と第２入力データ３０それぞれから、第１特徴量４０及び第２特徴量５０を算出する。そして識別装置２０００は、第１特徴量４０、第２特徴量５０、又はその双方を利用して、識別対象に関するクラスを特定する（クラスを識別する）。

　ここで、識別装置２０００は、第１入力データ２０と第２入力データ３０それぞれについて、多段階の特徴抽出を行う。図１では単純な例として、第１入力データ２０と第２入力データ３０それぞれについて２段階の特徴抽出が行われている。具体的には、第１入力データ２０から第１中間特徴量６０が抽出された後に、第１中間特徴量６０から第１特徴量４０が抽出されている。また、第２入力データ３０から第２中間特徴量７０が抽出された後に、第２中間特徴量７０から第２特徴量５０が抽出されている。

　ここで、第１特徴量４０の算出には、第１入力データ２０だけでなく、第２入力データ３０も利用される。具体的には、識別装置２０００は、第２入力データ３０から算出された第２中間特徴量７０を用いて第１アテンションデータ８０を生成する。そして、識別装置２０００は、第１中間特徴量６０と第１アテンションデータ８０を利用して、第１特徴量４０を算出する。なお、第１アテンションデータ８０の生成には、第１中間特徴量６０がさらに利用されてもよい。

　同様に、第２特徴量５０の算出には、第２入力データ３０だけでなく、第１入力データ２０も利用される。具体的には、識別装置２０００は、第１入力データ２０から算出された第１中間特徴量６０を用いて第２アテンションデータ９０を生成する。そして、識別装置２０００は、第２中間特徴量７０と第２アテンションデータ９０を利用して、第２特徴量５０を生成する。なお、第２アテンションデータ９０の生成には、第２中間特徴量７０がさらに利用されてもよい。

　ここで、アテンションデータの生成に第１中間特徴量６０と第２中間特徴量７０の双方が用いられる場合、第１中間特徴量６０と第２中間特徴量７０を利用して生成された１つのアテンションデータを、第１アテンションデータ８０及び第２アテンションデータ９０の双方として利用してもよい。

＜作用効果の例＞
　本実施形態の識別装置２０００によれば、第１入力データ２０と第２入力データ３０という２種類の特徴量についてさらに特徴抽出が行われ、その結果として得られる第１特徴量４０、第２特徴量５０、又はその双方を用いて、識別対象についてのクラス識別が行われる。ここで、第１特徴量４０は、第１入力データ２０から抽出された第１中間特徴量６０に対して第１アテンションデータ８０が適用されたデータから算出される。第１アテンションデータ８０は、第２入力データ３０から抽出された第２中間特徴量７０に基づいて生成される。こうすることで、第１特徴量４０は、第１入力データ２０から抽出された中間特徴量に対して、第２入力データ３０から抽出された中間特徴量によって表される重みを付与したデータから算出されることになる。同様に、第２特徴量５０についても、第２入力データ３０から抽出された中間特徴量に対して、第１入力データ２０から抽出された中間特徴量によって表される重みを付与したデータから算出されることになる。そのため、識別装置２０００によれば、クラス識別に利用される特徴量が、複数種類の特徴量それぞれの間の重要性を考慮したものとなる。よって、識別対象についてのクラス識別をより高い精度で行うことができる。

　以下、本実施形態の識別装置２０００について、より詳細に説明する。

＜機能構成の例＞
　図２は、実施形態の識別装置２０００の機能構成を例示するブロック図である。識別装置２０００は、取得部２０２０、第１特徴抽出部２０４０、第２特徴抽出部２０６０、アテンション生成部２０８０、及び識別部２１００を有する。取得部２０２０は第１入力データ２０及び第２入力データ３０を取得する。第１特徴抽出部２０４０は、第１入力データ２０から第１中間特徴量６０を算出する。第２特徴抽出部２０６０は、第２入力データ３０から第２中間特徴量７０を算出する。

　アテンション生成部２０８０は、第１中間特徴量６０を用いて第２アテンションデータ９０を算出する。また、アテンション生成部２０８０は、第２中間特徴量７０を用いて第１アテンションデータ８０を算出する。

　第１特徴抽出部２０４０は、第１中間特徴量６０及び第１アテンションデータ８０を用いて第１特徴量４０を算出する。第２特徴抽出部２０６０は、第２中間特徴量７０及び第２アテンションデータ９０を用いて第２特徴量５０を算出する。識別部２１００は、第１特徴量４０、第２特徴量５０、又はその双方を用いて、識別対象に関するクラスを特定する。

＜ハードウエア構成の例＞
　識別装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、識別装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

　図３は、識別装置２０００を実現するコンピュータ１０００のハードウエア構成を例示するブロック図である。コンピュータ１０００は、任意のコンピュータである。例えばコンピュータ１０００は、PC（Personal Computer）やサーバマシンなどといった、据え置き型のコンピュータである。その他にも例えば、コンピュータ１０００は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。コンピュータ１０００は、識別装置２０００を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。

　例えば、コンピュータ１０００に対して所定のアプリケーションをインストールすることにより、コンピュータ１０００で、識別装置２０００の各機能が実現される。上記アプリケーションは、識別装置２０００の各機能構成部を実現するためのプログラムで構成される。なお、上記プログラムの取得方法は任意である。例えば、当該プログラムが格納されている記憶媒体（DVD ディスクや USB メモリなど）から、当該プログラムを取得することができる。その他にも例えば、当該プログラムが格納されている記憶装置を管理しているサーバ装置から、当該プログラムをダウンロードすることにより、当該プログラムを取得することができる。

　コンピュータ１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。

　プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、又は FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

　入出力インタフェース１１００は、コンピュータ１０００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース１１００には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

　ネットワークインタフェース１１２０は、コンピュータ１０００をネットワークに接続するためのインタフェースである。このネットワークは、LAN（Local Area Network）であってもよいし、WAN（Wide Area Network）であってもよい。

　ストレージデバイス１０８０は、識別装置２０００の各機能構成部を実現するプログラム（前述したアプリケーションを実現するプログラム）を記憶している。プロセッサ１０４０は、このプログラムをメモリ１０６０に読み出して実行することで、識別装置２０００の各機能構成部を実現する。

　識別装置２０００は、１つのコンピュータ１０００で実現されてもよいし、複数のコンピュータ１０００で実現されてもよい。後者の場合において、各コンピュータ１０００の構成は同一である必要はなく、それぞれ異なるものとすることができる。

＜処理の流れ＞
　図４は、実施形態の識別装置２０００によって実行される処理の流れを例示するフローチャートである。取得部２０２０は、第１入力データ２０及び第２入力データ３０を取得する（Ｓ１０２）。第１特徴抽出部２０４０は第１入力データ２０から第１中間特徴量６０を算出する（Ｓ１０４）。第２特徴抽出部２０６０は第２入力データ３０から第２中間特徴量７０を算出する（Ｓ１０６）。

　アテンション生成部２０８０は、第２中間特徴量７０から第１アテンションデータ８０を算出する（Ｓ１０８）。アテンション生成部２０８０は、第１アテンションデータ８０から第２アテンションデータ９０を算出する（Ｓ１１０）。

　第１特徴抽出部２０４０は、第１中間特徴量６０及び第１アテンションデータ８０から第１特徴量４０を算出する（Ｓ１１２）。第２特徴抽出部２０６０は、第２中間特徴量７０及び第２アテンションデータ９０から第２特徴量５０を算出する（Ｓ１１４）。

　識別部２１００は、第１特徴量４０、第２特徴量５０、又はこれらの双方を利用して、識別対象に関するクラスを特定する（Ｓ１１６）。

　なお、図４に示されている処理の流れは一例であり、識別装置２０００によって実行される処理の流れは、図４に示されている流れに限定されない。例えば、第１中間特徴量６０の算出と第２中間特徴量７０の算出は、並行して行われてもよいし、図４に示されている順序とは逆の順序で行われてもよい。その他にも例えば、第１アテンションデータ８０の算出と第２アテンションデータ９０の算出は、並行して行われてもよいし、図４に示されている順序とは逆の順序で行われてもよい。その他にも例えば、第１特徴量４０の算出と第２特徴量５０の算出は、並行して行われてもよいし、図４に示されている順序とは逆の順序で行われてもよい。

＜第１入力データ２０の取得：Ｓ１０２＞
　取得部２０２０は第１入力データ２０を取得する（Ｓ１０２）。前述した通り、第１入力データ２０は、観測データ１０から抽出された特徴量である。ここで、前述した種々の観測データ１０からその特徴量を抽出する手法には、種々の手法を利用することができる。観測データ１０に対して次元圧縮を行うことで得られるデータを第１入力データ２０として利用する場合、例えば、CNN（Convolutional Neural Network）などのニューラルネットワークに対して観測データ１０を入力することにより、CNN の特徴抽出層から、観測データ１０の特徴量を抽出することができる。その他にも例えば、観測データ１０を解析することで得られるデータを第１入力データ２０として利用する場合、所望の種類のデータを得ることができる解析手法を観測データ１０に対して適用することにより、第１入力データ２０を得ることができる。例えば観測データ１０が画像データであり、その画像データから得られる骨格特徴量を第１入力データ２０として利用するとする。この場合、観測データ１０に対して OpenPose 等の骨格抽出手法を適用することで、骨格特徴量を得ることができる。

　ここで、第１入力データ２０は、観測データ１０の全てではなく、観測データ１０の一部から抽出された特徴量であってもよい。例えば観測データ１０が画像データであり、識別対象が人であるとする。この場合例えば、観測データ１０のうち、人を表す画像領域（以下、人物領域）のみから特徴量を抽出することで、第１入力データ２０が生成される。画像データから人物領域を検出する手法には、種々の手法を利用することができる。例えば画像データに対して人物検出処理を実行することで、人物領域を検出することができる。

　また、前述した通り、観測データ１０は時系列データを構成するフレームデータであってもよい。この場合、第１入力データ２０は、観測データ１０単体ではなく、観測データ１０を含む時系列データによって表される時系列を考慮して抽出された特徴量であってもよい。例えばこの場合、時系列を考慮した特徴抽出が可能な 3D CNN の特徴抽出層を利用することができる。具体的には、例えば、観測データ１０及びその前後 N 個のフレームを 3D CNN に対して入力することで、3D CNN の特徴抽出層から、時系列を考慮した第１入力データ２０の特徴量を得ることができる。また、時系列を考慮した骨格特徴量としては、各骨格の３次元位置を表すデータ（以下、３次元骨格特徴量）を採用することができる。３次元骨格特徴量の算出には、例えば、時系列の複数の画像データそれぞれから抽出された２次元骨格特徴量（各骨格の２次元位置を表すデータ）を用いて、３次元骨格特徴量を算出する手法（例えば PoseFormer）を利用することができる。この手法を利用する場合、例えば、観測データ１０及びその前後 N 個のフレームそれぞれから算出された２次元骨格特徴量に対し、上述の手法を適用することで、観測データ１０についての３次元骨格特徴量を得ることができる。

　観測データ１０から第１入力データ２０を生成する処理は、識別装置２０００によって行われてもよいし、識別装置２０００以外の装置によって行われてもよい。識別装置２０００によって第１入力データ２０が生成される場合、例えば識別装置２０００は、観測データ１０を取得し、その観測データ１０から第１入力データ２０を生成した後、その第１入力データ２０を任意の記憶装置に格納する。この場合、取得部２０２０は、その記憶装置から第１入力データ２０を取得する。

　第１入力データ２０の生成が識別装置２０００以外によって行われる場合、例えば第１入力データ２０は、識別装置２０００から取得可能な態様で、予め任意の記憶装置に格納されている。この場合、取得部２０２０は、当該記憶装置から第１入力データ２０を読み出すことにより、第１入力データ２０を取得する。その他にも例えば、取得部２０２０は、他の装置（例えば、第１入力データ２０を生成した装置）から送信された第１入力データ２０を受信することにより、第１入力データ２０を取得する。

＜第２入力データ３０の取得：Ｓ１０２＞
　取得部２０２０は第２入力データ３０を取得する（Ｓ１０２）。ここで、第２入力データ３０を観測データ１０から生成する方法は、第１入力データ２０を観測データ１０から生成する方法と同様である。また、第２入力データ３０を取得する具体的な方法も、第１入力データ２０を取得する具体的な方法と同様である。

　ここで前述したように、識別装置２０００は、第１入力データ２０及び第２入力データ３０だけでなく、３種類以上の特徴量を利用してもよい。この場合についても、それらの特徴量の生成方法や取得方法は、第１入力データ２０の生成方法や取得方法と同様である。

＜特徴量とアテンションデータの算出：Ｓ１０４からＳ１１４＞
　ここでは、特徴量とアテンションデータの算出方法（すなわち、第１特徴量４０、第２特徴量５０、第１中間特徴量６０、第２中間特徴量７０、第２アテンションデータ９０、及び第１アテンションデータ８０）の算出方法について説明する。

　第１特徴抽出部２０４０及び第２特徴抽出部２０６０は、第１入力データ２０と第２入力データ３０それぞれに対して次元圧縮を行うことで、第１入力データ２０と第２入力データ３０それぞれから特徴量を算出する。例えば第１特徴抽出部２０４０と第２特徴抽出部２０６０はそれぞれ、入力されたデータに対して次元圧縮を行うことでその特徴量を抽出する特徴抽出モデルを有する。特徴抽出モデルは、ニューラルネットワークなどといった機械学習モデルで構成される。例えば、CNN を特徴抽出モデルとして利用することができる。

　ここで、第１入力データ２０と第２入力データ３０に対して行われる処理には、次元圧縮以外の処理がさらに含まれてもよい。例えば CNN には、次元圧縮処理を行う畳み込み層に加え、プーリング層や ReLU（Rectified Linear Unit）層などが含まれうる。

　アテンション生成部２０８０も例えば、アテンションデータを生成するためのアテンション生成モデルを有する。アテンション生成モデルは、ニューラルネットワークなどといった機械学習モデルで構成される。

　図５は特徴抽出モデル及びアテンションモデルを例示する図である。特徴抽出モデル３００と特徴抽出モデル４００はそれぞれ、第１特徴抽出部２０４０と第２特徴抽出部２０６０を構成するモデルである。また、アテンション生成モデル５００は、アテンション生成部２０８０を構成するモデルである。

　特徴抽出モデル３００は、特徴抽出層３１０及び特徴抽出層３２０を有する。特徴抽出層３１０は、第１入力データ２０を入力として取得し、その第１入力データ２０から第１中間特徴量６０を算出する。特徴抽出層３２０は、第１中間特徴量６０に対して第１アテンションデータ８０を適用することで得られたデータを入力として取得し、そのデータから第１特徴量４０を算出して出力する。

　例えば特徴抽出層３１０と特徴抽出層３２０はそれぞれ、入力されたデータに対して次元圧縮を行う層（例えば畳み込み層）を含む、１つ以上の層で構成される。畳み込み層の他には、例えば、プーリング層や ReLU 層などが含まれうる。

　第１アテンションデータ８０は、第１中間特徴量６０の各次元に対する重み（言い換えれば、各次元の重要度）を表す。そのため、第１アテンションデータ８０の次元数は、第１中間特徴量６０の次元数と同じである。ただし、第１中間特徴量６０が複数のチャネルで構成される場合、第１中間特徴量６０の次元数は、１つのチャネルの次元数を意味する。

　アテンションデータを特徴量に対して適用する手法には、既存の種々の手法を利用することができる。例えば第１特徴抽出部２０４０は、第１中間特徴量６０の各要素の値に対して、第１アテンションデータ８０の対応する要素の値を乗算するという方法で、第１中間特徴量６０に対して第１アテンションデータ８０を適用する。すなわち、第１中間特徴量６０の各要素の値に対して、第１アテンションデータ８０の対応する要素の値を乗算することで得られるベクトルが、特徴抽出層３２０に対して入力される。なお、第１中間特徴量６０が複数のチャネルで構成される場合、第１中間特徴量６０の各チャネルに対して、第１アテンションデータ８０が適用される。

　特徴抽出モデル４００は、特徴抽出モデル３００と同様の構成を有する。すなわち、特徴抽出モデル４００は、特徴抽出層４１０及び特徴抽出層４２０を有する。特徴抽出層４１０は、第２入力データ３０を入力として取得し、その第２入力データ３０から第２中間特徴量７０を算出して出力する。特徴抽出層４２０は、第２中間特徴量７０に対して第２アテンションデータ９０を適用することで得られたデータを入力として取得し、そのデータから第２特徴量５０を算出して出力する。特徴抽出層４１０と特徴抽出層４２０もそれぞれ、次元圧縮層を含む１つ以上の層で構成されうる。

　第２アテンションデータ９０は、第２中間特徴量７０の各次元に対する重み（各次元の重要度）を表す。そのため、第２アテンションデータ９０の次元数は、第２中間特徴量７０の次元数と同じである。ただし、第２中間特徴量７０が複数のチャネルで構成される場合、第２中間特徴量７０の次元数は、１つのチャネルの次元数を意味する。

　第２アテンションデータ９０を第２中間特徴量７０に対して適用する手法には、第１アテンションデータ８０を第１中間特徴量６０に対して適用する手法と同様の手法を利用することができる。

　アテンション生成モデル５００は、第１中間特徴量６０及び第２中間特徴量７０を入力として取得して、第１アテンションデータ８０及び第２アテンションデータ９０を算出して出力する。以下、アテンション生成モデル５００の構成についてさらに説明する。

　例えばアテンション生成モデル５００は、第１中間特徴量６０は用いずに、第２中間特徴量７０を用いて、第１アテンションデータ８０を算出する。さらに、アテンション生成モデル５００は、第２中間特徴量７０は用いずに、第１中間特徴量６０を用いて、第２アテンションデータ９０を算出する。

　図６はアテンション生成モデル５００の構成を例示する第１の図である。図６において、アテンション生成モデル５００は、次元圧縮層５１０及び次元圧縮層５２０を有する。次元圧縮層５１０は、第２中間特徴量７０を入力として取得し、その第２中間特徴量７０に対して次元圧縮を行うことで、第１アテンションデータ８０を生成する。次元圧縮層５２０は、第１中間特徴量６０を入力として取得し、その第１中間特徴量６０に対して次元圧縮を行うことで、第２アテンションデータ９０を生成する。例えば次元圧縮層５１０と次元圧縮層５２０はいずれも、畳み込み層を含む１つ以上の層で構成される。

　ここで、次元圧縮層５１０では、第１アテンションデータ８０の次元数が第１中間特徴量６０の次元数と一致するように、次元圧縮が行われる。また、次元圧縮層５２０では、第２アテンションデータ９０の次元数が第２中間特徴量７０の次元数と一致するように、次元圧縮が行われる。

　さらに、アテンション生成モデル５００は、次元圧縮層５１０や次元圧縮層５２０からの出力に対し、シグモイド関数などを利用した正規化処理を行ってもよい。

　その他にも例えば、アテンション生成モデル５００は、第１アテンションデータ８０の算出と第２アテンションデータ９０の算出の双方に、第１中間特徴量６０及び第２中間特徴量７０を用いる。図７はアテンション生成モデル５００の構成を例示する第２の図である。図７において、アテンション生成モデル５００は、入力された第１中間特徴量６０と第２中間特徴量７０を連結した連結データ１００を算出し、連結データ１００に対して次元圧縮を行うことで、第２アテンションデータ９０及び第１アテンションデータ８０を算出する。

　アテンション生成モデル５００は、連結データ１００に対して次元圧縮を行って第１アテンションデータ８０を算出する次元圧縮層５３０と、連結データ１００に対して次元圧縮を行って第２アテンションデータ９０を算出する次元圧縮層５４０とを有する。次元圧縮層５３０では、第１アテンションデータ８０の次元数が第１中間特徴量６０の次元数と一致するように、連結データ１００に対して次元圧縮が行われる。また、次元圧縮層５２０では、第２アテンションデータ９０の次元数が第２中間特徴量７０の次元数と一致するように、連結データ１００に対して次元圧縮が行われる。例えば次元圧縮層５３０と次元圧縮層５４０はいずれも、畳み込み層を含む１つ以上の層で構成される。また、アテンション生成モデル５００は、次元圧縮層５３０や次元圧縮層５４０からの出力に対し、シグモイド関数などを利用した正規化処理を行ってもよい。

＜＜中間特徴量とアテンションデータの算出が複数回行われるケース＞＞
　識別装置２０００において、中間特徴量とアテンションデータの生成が、複数回行われるようにしてもよい。この場合、第１特徴抽出部２０４０と第２特徴抽出部２０６０は、中間特徴量とアテンションデータからさらに中間特徴量を算出するという処理を、１回以上行う。

　図８は、中間特徴量とアテンションデータの生成が複数回行われるケースを例示する図である。この例において、特徴抽出モデル３００は、特徴抽出層３３０－１から３３０－Ｎという、Ｎ個の特徴抽出層を有する。特徴抽出層３３０－１は、図５における特徴抽出層３１０に相当する。一方、特徴抽出層３３０－２から特徴抽出層３３０－Ｎの組み合わせは、図５における特徴抽出層３２０に相当する。

　同様に、特徴抽出モデル４００は、特徴抽出層４３０－１から４３０－ＮというＮ個の特徴抽出層を有する。特徴抽出層４３０－１は、図５における特徴抽出層４１０に相当する。一方、特徴抽出層４３０－２から特徴抽出層４３０－Ｎの組み合わせは、図５における特徴抽出層４２０に相当する。

　特徴抽出層３３０－１は、第１入力データ２０を入力として取得して、第１中間特徴量６０－１を出力する。また、１＜ｉ＜Ｎについて、特徴抽出層３３０－ｉは、第１中間特徴量６０－（ｉ－１）に対して第１アテンションデータ８０－（ｉ－１）が適用されたデータを入力として取得し、第１中間特徴量６０－ｉを出力する。さらに、特徴抽出層３３０－Ｎは、第１中間特徴量６０－（Ｎ－１）に対して第１アテンションデータ８０－（Ｎ－１）が適用されたデータを入力として取得し、第１特徴量４０を出力する。

　特徴抽出層４３０－１は、第２入力データ３０を入力として取得して、第２中間特徴量７０－１を出力する。また、１＜ｉ＜Ｎについて、特徴抽出層４３０－ｉは、第２中間特徴量７０－（ｉ－１）に対して第２アテンションデータ９０－（ｉ－１）が適用されたデータを入力として取得し、第２中間特徴量７０－ｉを出力する。さらに、特徴抽出層４３０－Ｎは、第２中間特徴量７０－（Ｎ－１）に対して第２アテンションデータ９０－（Ｎ－１）が適用されたデータを入力として取得し、第２特徴量５０を出力する。

　図８の例において、識別装置２０００には、アテンション生成モデル５００－１から５００－（Ｎ－１）という、（Ｎ－１）個のアテンション生成モデルが設けられている。アテンション生成モデル５００－ｉは、第１中間特徴量６０－ｉと第２中間特徴量７０－ｉを入力として取得し、第１アテンションデータ８０－ｉと第２アテンションデータ９０－ｉを出力する。ここでは、ｉは１からＮ－１の任意の整数である。アテンション生成モデル５００の内部構成については前述した通りである。

＜クラス識別：Ｓ１１６＞
　識別部２１００は、第１特徴量４０、第２特徴量５０、又はこれらの双方を用いて、識別対象についてのクラス識別を行う（Ｓ１１６）。例えば識別部２１００は、第１特徴量４０に基づいて、第１入力データ２０が属するクラスを推定する第１識別モデルと、第２特徴量５０に基づいて、第２入力データ３０が属するクラスを推定する第２識別モデルを有する。これらの識別モデルは、例えば、ニューラルネットワークなどの機械学習モデルで構成される。

　より具体的には、第１識別モデルは、第１特徴量４０を入力として取得し、第２特徴量５０を利用して、第１入力データ２０が複数の所定のクラスそれぞれに属する確率を表す第１スコアベクトルを出力する。そのため、特徴抽出モデル３００と第１識別モデルのペアにより、１つの識別器が構成されていると見ることができる。

　同様に、第２識別モデルは、第２特徴量５０を入力として取得し、第２特徴量５０を利用して、第２入力データ３０が複数の所定のクラスそれぞれに属する確率を表す第２スコアベクトルを出力する。そのため、特徴抽出モデル４００と第２識別モデルのペアにより、１つの識別器が構成されていると見ることができる。

　例えば、作業を行っている人物（作業者）が識別対象として扱われ、作業者によって行われている作業の種類がクラスとして扱われるとする。また、第１入力データ２０と第２入力データ３０がそれぞれ、作業者が撮像された画像データから得られた画像特徴量と、当該画像データから抽出された作業者の骨格特徴量であるとする。そして、作業の種類として、作業Ｐ１から作業Ｐ４という４つの種類が扱われるとする。

　識別部２１００は、画像特徴量（第１入力データ２０）から算出された第１特徴量４０を、第１識別モデルに入力することで、第１スコアベクトルを得る。第１スコアベクトルは、作業Ｐ１から作業Ｐ４のそれぞれについて、作業者によってその種類の作業が行われた確率を示す４次元ベクトルである。同様に、識別部２１００は、骨格特徴量（第２入力データ３０）から算出された第２特徴量５０を、第２識別モデルに入力することで、第２スコアベクトルを得る。第２スコアベクトルも、第１スコアベクトルと同様に、作業Ｐ１から作業Ｐ４のそれぞれについて、作業者によってその種類の作業が行われた確率を示す４次元ベクトルである。

　識別部２１００は、第１スコアベクトル、第２スコアベクトル、又はこれらの双方を利用して、識別対象についてクラス識別を行う。第１スコアベクトルのみをクラス識別に用いる場合（言い換えれば、第１特徴量４０のみをクラス識別に利用する場合）、識別部２１００は、第１スコアベクトルにおいて値が最大である要素に対応するクラスを、識別対象に関するクラスとして特定する。例えば前述の例において、第１スコアベクトルの要素が順に、作業Ｐ１からＰ４が行われた確率を示しているとする。そして、第１スコアベクトルが (0.2,0.1,0.1,0.6) であるとする。この場合、作業Ｐ４に対応する要素の値が最大であるため、識別部２１００は、識別対象に関するクラス（この例では、作業者によって行われた作業の種類）が作業Ｐ４であると判定する。

　第２スコアベクトルのみをクラス識別に用いる場合（言い換えれば、第２特徴量５０のみをクラス識別に利用する場合）、識別部２１００は、第２スコアベクトルにおいて値が最大である要素に対応するクラスを、識別対象に関するクラスとして特定する。

　第１スコアベクトルと第２スコアベクトルの双方を用いる場合、識別部２１００は、第１スコアベクトルと第２スコアベクトルを所定の方法で統合したベクトルを算出する。そして識別部２１００は、統合によって得られたベクトルにおいて値が最大である要素に対応するクラスを、識別対象に関するクラスとして特定する。

　スコアを表す複数のベクトルを１つに統合する手法には、種々の方法を利用することができる。例えば識別部２１００は、第１スコアベクトルと第２スコアベクトルの重み付き和を算出することで、これらのベクトルを統合する。

　ここで、第１スコアベクトルのみを用いて識別対象に関するクラス識別が行われる場合、運用時における識別部２１００は、第２スコアベクトルを算出しないように設定されてもよい（すなわち、第２識別モデルが動作しないように設定される）。この場合、第２スコアベクトルは、後述するモデルの訓練の際に利用される。同様に、第２スコアベクトルのみを用いて識別対象に関するクラス識別が行われる場合、運用時における識別部２１００は、第１スコアベクトルを算出しないように設定されてもよい。

＜モデルの訓練＞
　前述した特徴抽出モデル３００、特徴抽出モデル４００、アテンション生成モデル５００、第１識別モデル、及び第２識別モデルは、それぞれが前述した機能を持つモデルとして動作するように、予め訓練データを用いて訓練される。以下、これらのモデルの訓練方法について例示する。なお、これらのモデルの訓練のことを総称して、「識別装置２０００の訓練」とも表記する。また、識別装置２０００の訓練を行う装置を、「訓練装置」と表記する。

　訓練装置は、複数の訓練データを利用して、識別装置２０００に含まれる各モデルのパラメータを繰り返し更新することにより、識別装置２０００を訓練する。訓練データは、入力データとして、第１入力データ２０及び第２入力データ３０を有し、正解（ground-truth）データとして、識別対象についてのクラスを特定可能な情報を有する。例えば正解データは、識別対象が属するクラスに対応する要素に１を示し、その他のクラスに対応する要素に０を示す one-hot ベクトルで表される。

　訓練装置は、訓練データに含まれる第１入力データ２０と第２入力データ３０をそれぞれ、特徴抽出モデル３００と特徴抽出モデル４００に入力する。これにより、特徴抽出モデル３００による第１中間特徴量６０の算出、特徴抽出モデル４００による第２中間特徴量７０の算出、アテンション生成モデル５００による第１アテンションデータ８０と第２アテンションデータ９０の算出、特徴抽出モデル３００による第１特徴量４０の算出、及び特徴抽出モデル４００による第２特徴量５０の算出が行われる。さらに、特徴抽出モデル３００から出力された第１特徴量４０が第１識別モデルに入力され、第１スコアベクトルが出力される。同様に、特徴抽出モデル４００から出力された第２特徴量５０が第２識別モデルに入力され、第２スコアベクトルが出力される。

　訓練装置は、所定の損失関数に対して、第１スコアベクトル、第２スコアベクトル、及び正解データを適用することで、損失を算出する。そして、訓練装置は、算出した損失に基づいて、各モデル（特徴抽出モデル３００、特徴抽出モデル４００、アテンション生成モデル５００、第１識別モデル、及び第２識別モデル）のパラメータを更新する。なお、損失に基づいてモデルのパラメータを更新する手法には、既存の種々の手法を利用することができる。

　損失関数としては様々なものを利用することができる。例えば損失関数は、第１スコアベクトルと正解データとの差異の大きさを表す第１の損失関数と、第２スコアベクトルと正解データとの差異の大きさを表す第２の損失関数との重み付き和として定義される。第１の損失関数及び第２の損失関数としては、例えば、交差エントロピーを算出する関数などを利用することができる。

　なお、前述したように、識別部２１００は、第１スコアベクトルと第２スコアベクトルとを統合して１つの統合ベクトルを算出してもよい。この場合、訓練装置は、統合ベクトルと正解データとの差異を表す損失関数を利用して、損失を算出する。そして、算出した損失に基づいて、モデルのパラメータを更新する。なお、第１スコアベクトルと第２スコアベクトルとの統合においてそれぞれに重みが付される場合、これらの重みもモデルのパラメータと同等に扱うことができる。そのため訓練装置は、損失を利用してこれらの重みの更新も行う。

＜結果の出力＞
　識別装置２０００は、実行結果の出力を行う。以下、識別装置２０００から出力される情報を、出力情報と呼ぶ。例えば出力情報は、識別装置２０００によって特定された、識別対象に関するクラスの識別情報を含む。また、出力情報は、識別対象が各クラスに属する確率を表す情報（前述した第１スコアベクトルや第２スコアベクトル）を示してもよい。

　出力情報の出力態様は任意である。例えば識別装置２０００は、出力情報を任意の記憶装置に格納する。その他にも例えば、識別装置２０００は、出力情報を任意の装置へ送信してもよい。

＜３種類以上のデータを利用するケースについて＞
　ここで、第１入力データ２０と第２入力データ３０だけでなく、その他の種類のデータも識別装置２０００に利用される場合について説明する。ここで、扱われるデータの種類の数をＭ（Ｍ＞２）と表記する。また、各データをそれぞれ、第１データ、第２データ、・・・、第Ｍデータと表記する。

　Ｍ種類のデータを扱う識別装置２０００は、第１データから第ＭデータというＭ種類のデータそれぞれから、第１特徴量から第Ｍ特徴量というＭ個の特徴量を算出する。そのために、識別装置２０００は、第１特徴抽出モデルから第Ｍ特徴抽出モデルというＭ個の特徴抽出モデルと、第１識別モデルから第Ｍ識別モデルというＭ個の識別モデルを有する。

　第ｉ特徴抽出モデルは、第ｉデータを入力として取得し、第ｉデータから第ｉ中間特徴量を算出する。ここで、ｉは１からＮの任意の整数である。さらに、第ｉ特徴抽出モデルは、第ｉ中間特徴量に対して第ｉアテンションデータが適用されたデータから第ｉ特徴量を算出する。

　アテンション生成モデル５００は、第１中間特徴量から第Ｍ中間特徴量を利用して、第１アテンションデータから第Ｍアテンションデータを生成する。例えばアテンション生成モデル５００は、第１中間特徴量から第Ｍ中間特徴量の全てを連結して１つの連結データを生成する。そして、Ｍ個の次元圧縮層がそれぞれ、連結データに対して次元圧縮を行うことで、第１アテンションデータから第Ｍアテンションデータを生成する。ここで、各ｉについて、第ｉアテンションデータの次元数が第ｉ中間特徴量の次元数と一致するように、次元圧縮が行われる。

　ここで、各特徴抽出モデルは、図８で示したように、中間特徴量の算出を２回以上行ってもよい。言い換えれば、各特徴抽出モデルは、特徴抽出層を３個以上有していてもよい。この場合における各アテンション生成モデル５００の動作は、アテンション生成モデル５００が１つである場合と同様である。

　第ｉ識別モデルは、第ｉ特徴量を用いて、第ｉスコアベクトルを算出する。識別部２１００は、算出されたＭ個のスコアベクトルの１つ以上を用いて、識別対象に関するクラスを特定する。例えば識別部２１００は、Ｍ個のスコアベクトルの重み付き和を算出し、算出されたベクトルにおいて値が最大である要素に対応するクラスを、識別対象に関するクラスとして特定する。その他にも例えば、識別部２１００は、所定の１つのスコアベクトルを用いて、識別対象に関するクラスを特定してもよい。なお、前述したように、運用時においてクラスの特定に利用されないスコアベクトルは、識別装置２０００の運用時においては算出されなくてもよい。この場合、そのスコアベクトルを算出する識別モデルは、モデルの訓練において利用される。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　なお、上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
　（付記１）
　識別対象について、第１種類の特徴量である第１データ及び第２種類の特徴量である第２データを取得する取得手段と、
　前記第１データから第１中間特徴量を算出した後、前記第１中間特徴量を用いてさらに第１特徴量を算出する第１特徴抽出手段と、
　前記第２データから第２中間特徴量を算出した後、前記第２中間特徴量を用いてさらに第２特徴量を算出する第２特徴抽出手段と、
　前記第１特徴量、前記第２特徴量、又はその双方を利用して、前記識別対象に関するクラス識別を行う識別手段と、
　前記第２中間特徴量を用いて第１アテンションデータを算出し、なおかつ、前記第１中間特徴量を用いて第２アテンションデータを算出するアテンションデータ生成手段と、を有し、
　前記第１特徴抽出手段は、前記第１中間特徴量及び前記第１アテンションデータを用いて、前記第１特徴量を算出し、
　前記第２特徴抽出手段は、前記第２中間特徴量及び前記第２アテンションデータを用いて、前記第２特徴量を算出する、識別装置。
　（付記２）
　前記アテンションデータ生成手段は、
　　前記第２中間特徴量に対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記第１中間特徴量に対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、付記１に記載の識別装置。
　（付記３）
　前記アテンションデータ生成手段は、
　　前記第１中間特徴量と前記第２中間特徴量を連結した連結データを生成し、
　　前記連結データに対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記連結データに対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、付記１に記載の識別装置。
　（付記４）
　前記アテンションデータ生成手段は、
　　次元圧縮された前記第１中間特徴量に対して正規化処理を実行することで、前記第１アテンションデータを生成し、
　　次元圧縮された前記第２中間特徴量に対して正規化処理を実行することで、前記第２アテンションデータを生成する、付記３に記載の識別装置。
　（付記５）
　前記第１特徴抽出手段は、前記第１中間特徴量の各次元の値に対し、前記第１アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第１特徴量を算出し、
　前記第２特徴抽出手段は、前記第２中間特徴量の各次元の値に対し、前記第２アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第２特徴量を算出する、付記１から４いずれか一項に記載の識別装置。
　（付記６）
　前記第１データは、前記識別対象を撮像することで得られた画像データから抽出された画像特徴量であり、
　前記第２データは、前記画像データから抽出された骨格特徴量であり、
　前記識別対象のクラスは、前記識別対象の動作の種類を表す、付記１から５いずれか一項に記載の識別装置。

　（付記７）
　コンピュータによって実行される識別方法であって、
　識別対象について、第１種類の特徴量である第１データ及び第２種類の特徴量である第２データを取得する取得ステップと、
　前記第１データから第１中間特徴量を算出した後、前記第１中間特徴量を用いてさらに第１特徴量を算出する第１特徴抽出ステップと、
　前記第２データから第２中間特徴量を算出した後、前記第２中間特徴量を用いてさらに第２特徴量を算出する第２特徴抽出ステップと、
　前記第１特徴量、前記第２特徴量、又はその双方を利用して、前記識別対象に関するクラス識別を行う識別ステップと、
　前記第２中間特徴量を用いて第１アテンションデータを算出し、なおかつ、前記第１中間特徴量を用いて第２アテンションデータを算出するアテンションデータ生成ステップと、を有し、
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量及び前記第１アテンションデータを用いて、前記第１特徴量を算出し、
　前記第２特徴抽出ステップにおいて、前記第２中間特徴量及び前記第２アテンションデータを用いて、前記第２特徴量を算出する、識別方法。
　（付記８）
　前記アテンションデータ生成ステップにおいて、
　　前記第２中間特徴量に対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記第１中間特徴量に対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、付記７に記載の識別方法。
　（付記９）
　前記アテンションデータ生成ステップにおいて、
　　前記第１中間特徴量と前記第２中間特徴量を連結した連結データを生成し、
　　前記連結データに対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記連結データに対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、付記７に記載の識別方法。
　（付記１０）
　前記アテンションデータ生成ステップにおいて、
　　次元圧縮された前記第１中間特徴量に対して正規化処理を実行することで、前記第１アテンションデータを生成し、
　　次元圧縮された前記第２中間特徴量に対して正規化処理を実行することで、前記第２アテンションデータを生成する、付記９に記載の識別方法。
　（付記１１）
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量の各次元の値に対し、前記第１アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第１特徴量を算出し、
　前記第２特徴抽出ステップにおいて、前記第２中間特徴量の各次元の値に対し、前記第２アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第２特徴量を算出する、付記７から１０いずれか一項に記載の識別方法。
　（付記１２）
　前記第１データは、前記識別対象を撮像することで得られた画像データから抽出された画像特徴量であり、
　前記第２データは、前記画像データから抽出された骨格特徴量であり、
　前記識別対象のクラスは、前記識別対象の動作の種類を表す、付記７から１１いずれか一項に記載の識別方法。
　（付記１３）
　コンピュータに、
　識別対象について、第１種類の特徴量である第１データ及び第２種類の特徴量である第２データを取得する取得ステップと、
　前記第１データから第１中間特徴量を算出した後、前記第１中間特徴量を用いてさらに第１特徴量を算出する第１特徴抽出ステップと、
　前記第２データから第２中間特徴量を算出した後、前記第２中間特徴量を用いてさらに第２特徴量を算出する第２特徴抽出ステップと、
　前記第１特徴量、前記第２特徴量、又はその双方を利用して、前記識別対象に関するクラス識別を行う識別ステップと、
　前記第２中間特徴量を用いて第１アテンションデータを算出し、なおかつ、前記第１中間特徴量を用いて第２アテンションデータを算出するアテンションデータ生成ステップと、を実行させるプログラムが格納されており、
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量及び前記第１アテンションデータを用いて、前記第１特徴量を算出し、
　前記第２特徴抽出ステップにおいて、前記第２中間特徴量及び前記第２アテンションデータを用いて、前記第２特徴量を算出する、非一時的なコンピュータ可読媒体。
　（付記１４）
　前記アテンションデータ生成ステップにおいて、
　　前記第２中間特徴量に対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記第１中間特徴量に対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、付記１３に記載のコンピュータ可読媒体。
　（付記１５）
　前記アテンションデータ生成ステップにおいて、
　　前記第１中間特徴量と前記第２中間特徴量を連結した連結データを生成し、
　　前記連結データに対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記連結データに対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、付記１３に記載のコンピュータ可読媒体。
　（付記１６）
　前記アテンションデータ生成ステップにおいて、
　　次元圧縮された前記第１中間特徴量に対して正規化処理を実行することで、前記第１アテンションデータを生成し、
　　次元圧縮された前記第２中間特徴量に対して正規化処理を実行することで、前記第２アテンションデータを生成する、付記１５に記載のコンピュータ可読媒体。
　（付記１７）
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量の各次元の値に対し、前記第１アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第１特徴量を算出し、
　前記第２特徴抽出ステップにおいて、前記第２中間特徴量の各次元の値に対し、前記第２アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第２特徴量を算出する、付記１３から１６いずれか一項に記載のコンピュータ可読媒体。
　（付記１８）
　前記第１データは、前記識別対象を撮像することで得られた画像データから抽出された画像特徴量であり、
　前記第２データは、前記画像データから抽出された骨格特徴量であり、
　前記識別対象のクラスは、前記識別対象の動作の種類を表す、付記１３から１７いずれか一項に記載のコンピュータ可読媒体。

１０　　　　　　観測データ
２０　　　　　　第１入力データ
３０　　　　　　第２入力データ
４０　　　　　　第１特徴量
５０　　　　　　第２特徴量
６０　　　　　　第１中間特徴量
７０　　　　　　第２中間特徴量
８０　　　　　　第１アテンションデータ
９０　　　　　　第２アテンションデータ
１００　　　　　　連結データ
３００　　　　　　特徴抽出モデル
３１０　　　　　　特徴抽出層
３２０　　　　　　特徴抽出層
３３０　　　　　　特徴抽出層
４００　　　　　　特徴抽出モデル
４１０　　　　　　特徴抽出層
４２０　　　　　　特徴抽出層
４３０　　　　　　特徴抽出層
５００　　　　　　アテンション生成モデル
５１０　　　　　　次元圧縮層
５２０　　　　　　次元圧縮層
５３０　　　　　　次元圧縮層
５４０　　　　　　次元圧縮層
１０００　　　　　コンピュータ
１０２０　　　　　バス
１０４０　　　　　プロセッサ
１０６０　　　　　メモリ
１０８０　　　　　ストレージデバイス
１１００　　　　　入出力インタフェース
１１２０　　　　　ネットワークインタフェース
２０００　　　　　識別装置
２０２０　　　　　取得部
２０４０　　　　　第１特徴抽出部
２０６０　　　　　第２特徴抽出部
２０８０　　　　　アテンション生成部
２１００　　　　　識別部

Claims

　識別対象について、第１種類の特徴量である第１データ及び第２種類の特徴量である第２データを取得する取得手段と、
　前記第１データから第１中間特徴量を算出した後、前記第１中間特徴量を用いてさらに第１特徴量を算出する第１特徴抽出手段と、
　前記第２データから第２中間特徴量を算出した後、前記第２中間特徴量を用いてさらに第２特徴量を算出する第２特徴抽出手段と、
　前記第１特徴量、前記第２特徴量、又はその双方を利用して、前記識別対象に関するクラス識別を行う識別手段と、
　前記第２中間特徴量を用いて第１アテンションデータを算出し、なおかつ、前記第１中間特徴量を用いて第２アテンションデータを算出するアテンションデータ生成手段と、を有し、
　前記第１特徴抽出手段は、前記第１中間特徴量及び前記第１アテンションデータを用いて、前記第１特徴量を算出し、
　前記第２特徴抽出手段は、前記第２中間特徴量及び前記第２アテンションデータを用いて、前記第２特徴量を算出する、識別装置。
　前記アテンションデータ生成手段は、
　　前記第２中間特徴量に対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記第１中間特徴量に対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、請求項１に記載の識別装置。
　前記アテンションデータ生成手段は、
　　前記第１中間特徴量と前記第２中間特徴量を連結した連結データを生成し、
　　前記連結データに対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記連結データに対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、請求項１に記載の識別装置。
　前記アテンションデータ生成手段は、
　　次元圧縮された前記第１中間特徴量に対して正規化処理を実行することで、前記第１アテンションデータを生成し、
　　次元圧縮された前記第２中間特徴量に対して正規化処理を実行することで、前記第２アテンションデータを生成する、請求項３に記載の識別装置。
　前記第１特徴抽出手段は、前記第１中間特徴量の各次元の値に対し、前記第１アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第１特徴量を算出し、
　前記第２特徴抽出手段は、前記第２中間特徴量の各次元の値に対し、前記第２アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第２特徴量を算出する、請求項１から４いずれか一項に記載の識別装置。
　前記第１データは、前記識別対象を撮像することで得られた画像データから抽出された画像特徴量であり、
　前記第２データは、前記画像データから抽出された骨格特徴量であり、
　前記識別対象のクラスは、前記識別対象の動作の種類を表す、請求項１から５いずれか一項に記載の識別装置。
　コンピュータによって実行される識別方法であって、
　識別対象について、第１種類の特徴量である第１データ及び第２種類の特徴量である第２データを取得する取得ステップと、
　前記第１データから第１中間特徴量を算出した後、前記第１中間特徴量を用いてさらに第１特徴量を算出する第１特徴抽出ステップと、
　前記第２データから第２中間特徴量を算出した後、前記第２中間特徴量を用いてさらに第２特徴量を算出する第２特徴抽出ステップと、
　前記第１特徴量、前記第２特徴量、又はその双方を利用して、前記識別対象に関するクラス識別を行う識別ステップと、
　前記第２中間特徴量を用いて第１アテンションデータを算出し、なおかつ、前記第１中間特徴量を用いて第２アテンションデータを算出するアテンションデータ生成ステップと、を有し、
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量及び前記第１アテンションデータを用いて、前記第１特徴量を算出し、
　前記第２特徴抽出ステップにおいて、前記第２中間特徴量及び前記第２アテンションデータを用いて、前記第２特徴量を算出する、識別方法。
　前記アテンションデータ生成ステップにおいて、
　　前記第２中間特徴量に対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記第１中間特徴量に対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、請求項７に記載の識別方法。
　前記アテンションデータ生成ステップにおいて、
　　前記第１中間特徴量と前記第２中間特徴量を連結した連結データを生成し、
　　前記連結データに対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記連結データに対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、請求項７に記載の識別方法。
　前記アテンションデータ生成ステップにおいて、
　　次元圧縮された前記第１中間特徴量に対して正規化処理を実行することで、前記第１アテンションデータを生成し、
　　次元圧縮された前記第２中間特徴量に対して正規化処理を実行することで、前記第２アテンションデータを生成する、請求項９に記載の識別方法。
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量の各次元の値に対し、前記第１アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第１特徴量を算出し、
　前記第２特徴抽出ステップにおいて、前記第２中間特徴量の各次元の値に対し、前記第２アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第２特徴量を算出する、請求項７から１０いずれか一項に記載の識別方法。
　前記第１データは、前記識別対象を撮像することで得られた画像データから抽出された画像特徴量であり、
　前記第２データは、前記画像データから抽出された骨格特徴量であり、
　前記識別対象のクラスは、前記識別対象の動作の種類を表す、請求項７から１１いずれか一項に記載の識別方法。
　コンピュータに、
　識別対象について、第１種類の特徴量である第１データ及び第２種類の特徴量である第２データを取得する取得ステップと、
　前記第１データから第１中間特徴量を算出した後、前記第１中間特徴量を用いてさらに第１特徴量を算出する第１特徴抽出ステップと、
　前記第２データから第２中間特徴量を算出した後、前記第２中間特徴量を用いてさらに第２特徴量を算出する第２特徴抽出ステップと、
　前記第１特徴量、前記第２特徴量、又はその双方を利用して、前記識別対象に関するクラス識別を行う識別ステップと、
　前記第２中間特徴量を用いて第１アテンションデータを算出し、なおかつ、前記第１中間特徴量を用いて第２アテンションデータを算出するアテンションデータ生成ステップと、を実行させるプログラムが格納されており、
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量及び前記第１アテンションデータを用いて、前記第１特徴量を算出し、
　前記第２特徴抽出ステップにおいて、前記第２中間特徴量及び前記第２アテンションデータを用いて、前記第２特徴量を算出する、非一時的なコンピュータ可読媒体。
　前記アテンションデータ生成ステップにおいて、
　　前記第２中間特徴量に対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記第１中間特徴量に対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、請求項１３に記載のコンピュータ可読媒体。
　前記アテンションデータ生成ステップにおいて、
　　前記第１中間特徴量と前記第２中間特徴量を連結した連結データを生成し、
　　前記連結データに対し、前記第１中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第１アテンションデータを生成し、
　　前記連結データに対し、前記第２中間特徴量の次元数と同じ次元数となるように次元圧縮を行うことで、前記第２アテンションデータを生成する、請求項１３に記載のコンピュータ可読媒体。
　前記アテンションデータ生成ステップにおいて、
　　次元圧縮された前記第１中間特徴量に対して正規化処理を実行することで、前記第１アテンションデータを生成し、
　　次元圧縮された前記第２中間特徴量に対して正規化処理を実行することで、前記第２アテンションデータを生成する、請求項１５に記載のコンピュータ可読媒体。
　前記第１特徴抽出ステップにおいて、前記第１中間特徴量の各次元の値に対し、前記第１アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第１特徴量を算出し、
　前記第２特徴抽出ステップにおいて、前記第２中間特徴量の各次元の値に対し、前記第２アテンションデータによって表される各次元の重みが付与されたデータを生成し、前記生成したデータに対して次元圧縮を行うことで前記第２特徴量を算出する、請求項１３から１６いずれか一項に記載のコンピュータ可読媒体。
　前記第１データは、前記識別対象を撮像することで得られた画像データから抽出された画像特徴量であり、
　前記第２データは、前記画像データから抽出された骨格特徴量であり、
　前記識別対象のクラスは、前記識別対象の動作の種類を表す、請求項１３から１７いずれか一項に記載のコンピュータ可読媒体。