WO2021229800A1

WO2021229800A1 - 処理装置、推定装置、監視システム、処理方法及びプログラム

Info

Publication number: WO2021229800A1
Application number: PCT/JP2020/019455
Authority: WO
Inventors: 健全劉; 点剛李
Original assignee: 日本電気株式会社
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-18
Also published as: JP7447999B2; JPWO2021229800A1

Abstract

本発明は、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき時系列の画像群の特徴量マップを生成し、当該特徴量マップに基づき重み付けマスクを生成し、当該特徴量マップと当該重み付けマスクとに基づき、当該特徴量マップの一部を強調した第１の重み付け特徴量マップと、当該特徴量マップの当該一部を弱めた第２の重み付け特徴量マップとを生成し、第１の重み付け特徴量マップに基づき定義される第１の重み付け特徴量マップ損失関数、及び、第２の重み付け特徴量マップに基づき定義される第２の重み付け特徴量マップ損失関数に基づき、推定モデルのパラメータ値を最適化する処理装置を提供する。

Description

処理装置、推定装置、監視システム、処理方法及びプログラム

　本発明は、処理装置、推定装置、監視システム、処理方法及びプログラムに関する。

　特許文献１は、トレーニング画像と事業店舗位置を識別する情報とで機械学習を行う技術を開示している。

　非特許文献１は、３Ｄ－ＣＮＮ（convolutional neural network）に基づき動画像が表す人物行動を推定する技術を開示している。

　非特許文献２及び３は、特徴量マップに基づき重み付けマスクを生成し、当該重み付けマスクを用いて重み付け特徴量マップを生成する技術を開示している。

特表２０１８－５２４６７８号

Kensho Hara、他２名、" Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"、［online］、Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 6546-6555)、［令和１年５月２８日検索］、インターネット<URL: http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdf> "SENet論文読み"、［online］、［２０１９年５月９日更新］、［令和２年４月１４日検索］、インターネット＜URL: https://qiita.com/Q_ys/items/2054a8a724d22bd10aff＞白石卓也、"深層学習入門：画像分類（５）Attention機構"、［online］、［２０１９年１０月２１日掲載］、［令和２年４月１４日検索］、インターネット＜URL: https://www.softbanktech.co.jp/special/blog/cloud_blog/2019/0063/＞

　トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラ（可視光を検出し、画像化するカメラ）を設置できない空間がある。しかし、このような空間においても、犯罪や事故等防止の観点から、人物の行動を監視することが望まれる。本発明は、可視光カメラが生成した画像を用いずに人物の行動を監視する技術を提供することを課題とする。

　本発明によれば、
　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
　第１のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
　第２のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第１の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第２の重み付け特徴量マップとを生成する重み付け手段と、
　第３のモデルと前記第１の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
　前記第１の重み付け特徴量マップに基づき定義される第１の重み付け特徴量マップ損失関数、及び、前記第２の重み付け特徴量マップに基づき定義される第２の重み付け特徴量マップ損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する最適化手段と、
を有する処理装置が提供される。

　また、本発明によれば、
　前記処理装置がパラメータ値を最適化した前記第１乃至第３のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置が提供される。

　また、本発明によれば、
　コンピュータが、
　　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
　　第１のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
　　第２のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第１の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第２の重み付け特徴量マップとを生成し、
　　第３のモデルと前記第１の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定し、
　　前記第１の重み付け特徴量マップに基づき定義される第１の重み付け特徴量マップ損失関数、及び、前記第２の重み付け特徴量マップに基づき定義される第２の重み付け特徴量マップ損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する処理方法が提供される。

　また、本発明によれば、
　コンピュータを前記処理装置として機能させるプログラムが提供される。

　また、本発明によれば、
　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する第１の監視手段と、
　可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する第２の監視手段と、
　人物の位置及び外観の特徴の少なくとも一方に基づき、前記第１の監視手段が監視している人物と前記第２の監視手段が監視している人物とを対応付ける対応付け手段と、
を有する監視システムが提供される。

　本発明によれば、可視光カメラが生成した画像を用いずに人物の行動を監視する技術が実現される。

本実施形態の処理装置及び推定装置のハードウエア構成の一例を示す図である。本実施形態の処理装置の機能ブロック図の一例である。本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。本実施形態の処理装置が処理する損失関数の一例を説明するための図である。本実施形態の推定装置が実行する推定処理の流れの一例を示すフロー図である。本実施形態の推定装置の適用例を示す図である。

＜概要＞
　本実施形態の処理装置は、「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群」と「当該時系列の画像群が表す物体の動きに関するラベル」とを対応付けた教師データに基づく機械学習（深層学習等）で、「当該時系列の画像群が表す物体の動き」を推定する推定モデルを生成する。そして、本実施形態の推定装置は、当該推定モデルに基づき、当該時系列の画像群が表す物体の動きを推定する。

　このような本実施形態の処理装置及び推定装置によれば、可視光カメラが生成した画像を用いずに人物の行動を監視することが可能となる。結果、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間においても、人物の行動を監視することが可能となる。

　ところで、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像は、可視光カメラが生成した画像よりも情報量が少なくなり得る。このため、可視光カメラが生成した画像から人物の行動を推定する技術において、単に処理データを「可視光カメラが生成した画像」から「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像」に置き換えただけでは、十分な推定の精度が得られない。

　そこで、本実施形態の処理装置は、特徴的な損失関数に基づき推定モデルのパラメータを最適化することで、上記精度の問題を軽減する。詳細は以下で説明する。

＜ハードウエア構成＞
　次に、処理装置及び推定装置のハードウエア構成の一例を説明する。処理装置及び推定装置各々が備える各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図１は、処理装置及び推定装置各々のハードウエア構成を例示するブロック図である。図１に示すように、処理装置及び推定装置各々は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。処理装置及び推定装置各々は周辺回路４Ａを有さなくてもよい。なお、処理装置及び推定装置各々は物理的及び／又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び／又は論理的に一体となった１つの装置で構成されてもよい。処理装置及び推定装置各々が物理的及び／又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

＜処理装置の機能構成＞
　次に、処理装置の機能構成を説明する。

　図２に、処理装置１０の機能ブロック図の一例を示す。図３に、処理装置１０が実行する学習処理の流れの一例を示す。図２に示すように、処理装置１０は、取得部１１と、特徴量マップ生成部１２と、重み付け部１３と、推定部１４と、最適化部１５とを有する。

　取得部１１は、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する。以下、「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群」を、「センサー時系列画像群」という。

　センサーは、可視光でない電磁波を送信し、その反射波を受信する。送信する電磁波は、例えばミリ波、マイクロ波等である。電磁波を送信するアンテナと受信するアンテナは同一の筐体内に存在してもよいし、物理的に分かれた別の筐体内に存在してもよい。前者の場合、電磁波を送信するアンテナと受信するアンテナを別々に設けてもよいし、一のアンテナに電磁波の送信及び受信の両方を行わせてもよい。センサーの設置位置は特段制限されない。センサーは、室内の天井に設置されてもよいし、壁に設置されてもよいし、床に設置されてもよいし、室内に設置された物体に取り付けられてもよい。

　当該センサーの検知データに基づき生成される画像は、３次元空間内（センサーを設置した室内）における物体の位置、大きさ、形状等を示す。例えば、検出対象物（人等）が存在しない状態で測定した場合のデータ（検知データ、画像等）を予め用意しておき、これとの差分をとることで、その空間に定常的に存在する物体を除いて検出対象物を検出することができる。センサーの検知データを画像化する手法は広く知られているので、ここでの説明は省略する。

　１つのラベルに対応するセンサー時系列画像群の長さは、例えば数秒から数分程度である。

　ラベルは、人手で付される。センサー時系列画像群が表す物体の動きは人物の動きであり、例えば、「歩く」、「走る」、「靴の紐を結ぶ」、「物を拾う」、「投げる」、「座る」、「立つ」、「手を振る」、「手をたたく」等であるが、これらに限定されない。

　センサー時系列画像群は１人の人物の動きを表す場合もあれば、複数の人物の動きを表す場合もある。１人の人物の動きを表すセンサー時系列画像群は、センサーでセンシングされる空間内に１人の人物が存在している状況下で収集された検知データに基づく画像群である。一方、複数の人物の動きを表す時系列の画像群は、センサーでセンシングされる空間内に複数の人物が同時に存在している状況下で収集された検知データに基づく画像群である。

　センサー時系列画像群に付与されるラベルは、そのセンサー時系列画像群が表す人物の数と同数の行動を示す。すなわち、センサー時系列画像群が１人の人物の動きを表す場合、そのセンサー時系列画像群に対してその人物が行った１つの行動に関するラベル（例：「歩く」）が付与される。一方、センサー時系列画像群が複数の人物の動きを表す場合、そのセンサー時系列画像群に対してその複数の人物各々が行った行動に関するラベル（例：「歩く・座る」、「歩く・歩く」、「歩く・歩く・走る」）が付与される。

　特徴量マップ生成部１２は、図３に示すように、取得部１１が取得したセンサー時系列画像群を第１のモデルに入力し、そのセンサー時系列画像群の特徴量マップを生成する。第１のモデルは、例えば３次元畳み込みニューラルネットワーク（3D Convolutional Neural Network: 3D-CNN）を含んで構成される。図４に、第１のモデルの概念図の一例を示す。

　重み付け部１３は、図３に示すように、第１のモデルの任意の段階で得られた特徴量マップを第２のモデルに入力し、特徴量マップの一部（付与されたラベルの認識において重要な部分）を強調した第１の重み付け特徴量マップと、同特徴量マップの同一部（付与されたラベルの認識において重要な部分）を弱めた第２の重み付け特徴量マップとを生成する。

　第２のモデルは、例えばＳＥブロックを含んで構成される。ＳＥブロックでは、非特許文献２及び３に開示のように、例えば特徴量マップに対してGlobal pooling、２層の全結合層（fully connected layer）、ＲｅＬＵ（活性化関数）及びSigmoid（活性化関数）等を適用し、どのチャネルをどの程度強調すべきかを示す重み付けマスクを生成する。

　元の特徴量マップとこの重み付けマスクとに基づき、第１の重み付け特徴量マップと第２の重み付け特徴量マップとが生成される。例えば、この重み付けマスクを元の特徴量マップに掛け合わせることで、特徴量マップの一部を強調した第１の重み付け特徴量マップが生成される。また、この重み付けマスクに対して所定の加工（演算）を行い、強弱部分を逆転させたマスクを元の特徴量マップに掛け合わせることで、同特徴量マップの同一部を弱めた第２の重み付け特徴量マップが生成される。図５に、第２のモデルの概念図の一例を示す。

　推定部１４は、図３に示すように、第１の重み付け特徴量マップに対してベクトル化処理を行った後、ベクトル特徴量を第３のモデルに入力して、センサー時系列画像群が表す人物の動きを推定する。

　ベクトル化処理では、例えば第１の重み付け特徴量マップに対してAverage poolingやflattenを適用し、１次元のベクトル特徴量に変換する。

　第３のモデルは、例えば全結合層を含んで構成される。最後のソフトマックス関数により、複数のクラス各々を表す確率が推定結果として出力される。

　最適化部１５は、特徴的な損失関数に基づき、第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する。図３に示す最適化処理が、最適化部１５が実行する処理である。パラメータ値の変化のさせ方は設計的事項であり、あらゆる技術を採用できる。

　損失関数は、第１及び第２の重み付け特徴量マップ、推定結果、ラベルの中の少なくとも１つに基づき定義される。

　一例として、最適化部１５は、第１の重み付け特徴量マップに基づき定義される第１の重み付け特徴量マップ損失関数、及び、第２の重み付け特徴量マップに基づき定義される第２の重み付け特徴量マップ損失関数に基づき、１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化することができる。第１の重み付け特徴量マップ損失関数及び第２の重み付け特徴量マップ損失関数は、例えばbinary cross-entropy lossである。

　例えば、最適化部１５は、第１の重み付け特徴量マップ損失関数と第２の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化することができる。または、最適化部１５は、重み付け後の第１の重み付け特徴量マップ損失関数と重み付け後の第２の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化することができる。

　他の一例として、最適化部１５は、複数のクラス各々の特徴量である学習結果特徴量（各クラスのラベルを付されたセンサー時系列画像群と第１のモデルとに基づき生成された特徴量マップ）に基づき、クラスのペア毎に各ペアを構成する２つのクラスの学習結果特徴量の類似度を算出してもよい。そして、最適化部１５は、この算出結果で示される複数のペア間の学習結果特徴量の類似度の大小関係と、満たすべき複数のペア間の学習結果特徴量の類似度の大小関係（制限）とに基づき定義されるペア間類似度損失関数に基づき、第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化することができる。制限は、例えば「第１のペアの学習結果特徴量の類似度は、第２のペアの学習結果特徴量の類似度よりも大」等のように示される。なお、学習結果特徴量の類似度は、例えばコサイン類似度を採用できるが、これに限定されない。

　「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係（制限）」は、オペレータが任意に決定してもよいし、複数のペア間のラベル（人物の動き）の類似度の大小関係に基づき決定してもよい。一例として、複数のペア間のラベル（人物の動き）の類似度の大小関係を、満たすべき複数のペア間の学習結果特徴量の類似度の大小関係（制限）として採用することができる。

　ラベルの類似度は、例えば以下の式（１）のように定義される。

　ｉ及びｊはクラスの識別子である。Ｓ_ｉ，ｊは、クラスｉとクラスｊのラベルの類似度である。Ｙｉは、クラスｉのラベルが示す１つ又は複数の人物の動きを示す。Ｙｊは、クラスｊのラベルが示す１つ又は複数の人物の動きを示す。ｃａｒｄは条件を満たす人物の動きの数を示す。

　例えば、クラス１のラベルが「歩く・走る・座る」であり、クラス２のラベルが「歩く・走る・投げる」である場合、Ｓ_１，２は、０．５（＝２／４）となる。

　その他、ラベルの類似度は、式（１）の分子で定義されてもよい。すなわち、両クラスのラベルに共通する人物の動きの数を類似度としてもよい。

　図６に、「ラベルの類似度」に基づき「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係（制限）」を決定する処理の概念図を示す。図では、話を簡単にするため４つのクラスＡ乃至Ｄを示している。そしてペア毎のラベルの類似度を、２つのクラスを結ぶ線に対応付けて表示している。この例では、両クラスのラベルに共通する人物の動きの数をラベルの類似度として算出している。そして、算出された「ラベルの類似度」に基づき決定された「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係（制限）」が、"Constraints"として示されている。「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係（制限）」は「ペア間のラベルの類似度の大小関係」と一致している。

　この例の場合、ペア間類似度損失関数は、学習結果特徴量の類似度とラベルの類似度とに基づき定義されている。

　最適化部１５は、例えば、第１の重み付け特徴量マップ損失関数と第２の重み付け特徴量マップ損失関数とペア間類似度損失関数とを足し合わせた損失関数に基づき、第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化することができる。又は、最適化部１５は、重み付け後の第１の重み付け特徴量マップ損失関数と重み付け後の第２の重み付け特徴量マップ損失関数と重み付け後のペア間類似度損失関数とを足し合わせた損失関数に基づき、第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化することができる。

　ここで、最適化部１５が処理する損失関数の一例を具体的に説明する。

「ペア間類似度損失関数」
　まず、上記式（１）に基づき複数のペア各々のラベルの類似度Ｓ_ｉ，ｊを算出した後、予め定められた閾値τとの大小比較により、複数のペアを第１のグループＰと第２のグループＮに分類する。第１のグループＰ及び第２のグループＮは、各々以下の式（２）及び式（３）のように定義される。

　Ｘ_ｉは、クラスｉのラベルが付されたセンサー時系列画像群である。Ｘ_ｊは、クラスｊのラベルが付されたセンサー時系列画像群である。

　そして、学習結果特徴量の類似度は例えば以下の式（４）のように定義される。ここではコサイン類似度を算出する例を示す。

　チルダ（波記号）付きのＳ_ｉ，ｊは、クラスｉとクラスｊの学習結果特徴量の類似度である。ｆ（Ｘ_ｉ）はクラスｉの学習結果特徴量、より詳細には、クラスｉのラベルが付されたセンサー時系列画像群と第１のモデルとに基づき生成された特徴量マップである。ｆ（Ｘ_ｊ）はクラスｊの学習結果特徴量、より詳細には、クラスｊのラベルが付されたセンサー時系列画像群と第１のモデルとに基づき生成された特徴量マップである。

　そして、これらに基づき、ペア間類似度損失関数は、例えば以下の式（５）のように定義される。

　ｌ_ｍｌｐｒが、ペア間類似度損失関数である。λは、margin hyper-parameterである。式（５）におけるチルダ（波記号）付きのＳ_ｉ，ｊは、第２のグループＮに属するペアの学習結果特徴量の類似度である。式（５）におけるチルダ（波記号）付きのＳ_ｓ，ｔは、第１のグループＰに属するペアの学習結果特徴量の類似度である。

「第１の重み付け特徴量マップ損失関数及び第２の重み付け特徴量マップ損失関数」
　まず、第１の重み付け特徴量マップ及び第２の重み付け特徴量マップは、各々以下の式（６）及び式（７）のように定義される。

　ｆ^＋（Ｘ_ｉ）は、クラスｊの学習結果特徴量ｆ（Ｘ_ｊ）を、その学習結果特徴量ｆ（Ｘ_ｊ）に基づき生成された重み付けマスクｇ（ｆ（Ｘ_ｊ））で、特徴量マップの一部（付与されたラベルの認識において重要な部分）を強調した第１の重み付け特徴量マップである。ｆ^－（Ｘ_ｉ）は、クラスｊの学習結果特徴量ｆ（Ｘ_ｊ）を、その学習結果特徴量ｆ（Ｘ_ｊ）に基づき生成された重み付けマスクｇ（ｆ（Ｘ_ｊ））で、特徴量マップの一部（付与されたラベルの認識において重要な部分）を弱めた第２の重み付け特徴量マップである。

　第１の重み付け特徴量マップｆ^＋（Ｘ_ｉ）は、ラベルが示す人物の動きをよく表したものであり、第２の重み付け特徴量マップｆ^－（Ｘ_ｉ）は、その逆である。すわなち、ラベルが示す人物の動き以外の情報（例えば、周囲のノイズ情報）を表したものである。学習の段階において、第１の重み付け特徴量マップマップｆ^＋（Ｘ_ｉ）、および第２の重み付け特徴量ｆ^－（Ｘ_ｉ）を用いることで、周囲のノイズ情報をうまく取り除き、ラベルが示す人物の動きをより正しく認識できるモデルを構築できる。

　そこで、第１の重み付け特徴量マップ損失関数及び第２の重み付け特徴量マップ損失関数の一例として、binary cross-entropy lossを適用した損失関数は、以下の式（８）乃至式（１１）のように定義される。

　ｌ_ｂｃｅ ^＋が、第１の重み付け特徴量マップ損失関数である。ｌ_ｂｃｅ ^－が、第２の重み付け特徴量マップ損失関数である。IIは、条件を満たす場合に１を出力し、その他の場合に０を出力する指示関数である。Ｙ_ｉは、クラスｊのラベルである。Ｗは分類層の重みである。

「ペア間類似度損失関数、第１の重み付け特徴量マップ損失関数及び第２の重み付け特徴量マップ損失関数の中の少なくとも１つに基づき算出されるその他の損失関数」
　以下の式（１２）乃至式（１５）に示すように、ペア間類似度損失関数、第１の重み付け特徴量マップ損失関数及び第２の重み付け特徴量マップ損失関数を任意に組み合わせた損失関数を定義することができる。

　α及びβは重み係数である。

　最適化部１５は、上述のような複数の損失関数の中の少なくとも１つに基づき、第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化することができる。

＜推定装置の機能構成＞
　次に、推定装置の機能構成を説明する。推定装置は、上記処理装置１０がパラメータ値を最適化した第１乃至第３のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する。図７に、推定装置が実行する推定処理の流れの一例を示す。推定処理の流れは、第２の重み付け特徴量マップの生成を行わない点、最適化処理を行わない点、入力データにラベルが付与されていない点を除き、処理装置１０が実行する学習処理の流れと同様である。なお、処理の流れを逆方向にトレースすることで、確率が閾値以上のカテゴリ（人物の行動）が示される画像内の位置を算出することができる。

＜実施例＞
　上記推定装置の利用例を説明する。当該例では、第１の監視手段、第２の監視手段及び対応付け手段を有する監視システムが上記推定装置を利用する。

　第１の監視手段は、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する。第１の監視手段は、上記推定装置を利用して、当該監視を実現する。第２の監視手段は、可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する。

　対応付け手段は、人物の位置及び外観の特徴（身体、持ち物、服装等の外観の形状や大きさ）の少なくとも一方に基づき、第１の監視手段が監視している人物と第２の監視手段が監視している人物とを対応付ける。対応付け手段は、「位置が一致又はその差が閾値以内」、及び、「外観の特徴が一致又はその差が閾値以内」の少なくとも一方を満たす人物同士を対応付けることができる。

　図８に示すように、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間（private area）に、可視光でない電磁波を送受信するセンサーが設置される。監視システムは、当該センサーの検知データに基づき生成された時系列の画像群に基づき、その空間内で人物の行動を監視する。すなわち、その空間内で人物の位置や所定の行動が行われたことを検出する。

　一方、private areaに隣接する可視光カメラを設置できる空間（public area）には、可視光カメラが設置される。そして、従来の画像解析技術に基づき、その空間内で人物の行動を監視する。すなわち、その空間内で人物の位置や所定の行動が行われたことを検出する。

　そして、図示するように、可視光でない電磁波を送受信するセンサーのセンシングエリアと、可視光カメラが撮影する撮影エリアを一部重複させる。この重複エリアでは、可視光でない電磁波を送受信するセンサーによる監視、及び、可視光カメラによる監視の両方が行われる。そして、それらの検出結果を照合し、可視光でない電磁波を送受信するセンサーによる監視で追跡している人物と、可視光カメラによる監視で追跡している人物との対応付けを行うことができる。２つの方法各々で特定している人物の位置や外観の特徴などに基づき、２つの方法各々で追跡している人物の対応付け（同一人物の対応付け）を行うことができる。

＜作用効果＞
　本実施形態の処理装置１０及び推定装置によれば、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を推定することができる。すなわち、可視光カメラが生成した画像を用いずに人物の行動を監視することが可能となる。結果、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間においても、人物の行動を監視することが可能となる。

　また、処理装置１０は、上述した特徴的な損失関数に基づき推定モデルのパラメータを最適化することができる。このため、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像に基づく推定処理においても、十分な推定の精度が実現される。

　なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと（能動的な取得）」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等を含んでもよい。また、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること（受動的な取得）」、たとえば、配信（または、送信、プッシュ通知等）されるデータを受信すること等を含んでもよい。また、「取得」とは、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集（テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等）などして新たなデータを生成し、当該新たなデータを取得すること」を含んでもよい。

　以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
１．　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
　第１のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
　第２のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第１の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第２の重み付け特徴量マップとを生成する重み付け手段と、
　第３のモデルと前記第１の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
　前記第１の重み付け特徴量マップに基づき定義される第１の重み付け特徴量マップ損失関数、及び、前記第２の重み付け特徴量マップに基づき定義される第２の重み付け特徴量マップ損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
２．　前記最適化手段は、前記第１の重み付け特徴量マップ損失関数と前記第２の重み付け特徴量マップ損失関数を足し合わせた損失関数、または、重み付け後の前記第１の重み付け特徴量マップ損失関数と重み付け後の前記第２の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する１に記載の処理装置。
３．　前記最適化手段は、
　　複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する２つの前記クラスの前記学習結果特徴量の類似度を算出し、
　　前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する１に記載の処理装置。
４．　前記最適化手段は、
　　前記クラスのペア毎にラベルの類似度を算出し、
　　前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する３に記載の処理装置。
５．　前記最適化手段は、前記第１の重み付け特徴量マップ損失関数と前記第２の重み付け特徴量マップ損失関数と前記ペア間類似度損失関数とを足し合わせた損失関数、または、重み付け後の前記第１の重み付け特徴量マップ損失関数と重み付け後の前記第２の重み付け特徴量マップ損失関数と重み付け後の前記ペア間類似度損失関数とを足し合わせた損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する３又は４に記載の処理装置。
６．　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
　第１のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
　第２のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を相対的に強調した第１の重み付け特徴量マップを生成する重み付け手段と、
　第３のモデルと前記第１の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
　複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する２つの前記クラスの前記学習結果特徴量の類似度を算出し、前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
７．　前記最適化手段は、
　　前記クラスのペア毎にラベルの類似度を算出し、
　　前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する６に記載の処理装置。
８．　１から７のいずれかの処理装置がパラメータ値を最適化した前記第１乃至第３のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置。
９．　コンピュータが、
　　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
　　第１のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
　　第２のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第１の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第２の重み付け特徴量マップとを生成し、
　　第３のモデルと前記第１の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定し、
　　前記第１の重み付け特徴量マップに基づき定義される第１の重み付け特徴量マップ損失関数、及び、前記第２の重み付け特徴量マップに基づき定義される第２の重み付け特徴量マップ損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する処理方法。
１０．　コンピュータを請求項１から７のいずれか１項に記載の処理装置として機能させるプログラム。
１１．　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する第１の監視手段と、
　可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する第２の監視手段と、
　人物の位置及び外観の特徴の少なくとも一方に基づき、前記第１の監視手段が監視している人物と前記第２の監視手段が監視している人物とを対応付ける対応付け手段と、
を有する監視システム。

Claims

　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
　第１のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
　第２のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第１の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第２の重み付け特徴量マップとを生成する重み付け手段と、
　第３のモデルと前記第１の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
　前記第１の重み付け特徴量マップに基づき定義される第１の重み付け特徴量マップ損失関数、及び、前記第２の重み付け特徴量マップに基づき定義される第２の重み付け特徴量マップ損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
　前記最適化手段は、前記第１の重み付け特徴量マップ損失関数と前記第２の重み付け特徴量マップ損失関数を足し合わせた損失関数、または、重み付け後の前記第１の重み付け特徴量マップ損失関数と重み付け後の前記第２の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する請求項１に記載の処理装置。
　前記最適化手段は、
　　複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する２つの前記クラスの前記学習結果特徴量の類似度を算出し、
　　前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する請求項１に記載の処理装置。
　前記最適化手段は、
　　前記クラスのペア毎にラベルの類似度を算出し、
　　前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する請求項３に記載の処理装置。
　前記最適化手段は、前記第１の重み付け特徴量マップ損失関数と前記第２の重み付け特徴量マップ損失関数と前記ペア間類似度損失関数とを足し合わせた損失関数、または、重み付け後の前記第１の重み付け特徴量マップ損失関数と重み付け後の前記第２の重み付け特徴量マップ損失関数と重み付け後の前記ペア間類似度損失関数とを足し合わせた損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する請求項３又は４に記載の処理装置。
　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
　第１のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
　第２のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を相対的に強調した第１の重み付け特徴量マップを生成する重み付け手段と、
　第３のモデルと前記第１の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
　複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する２つの前記クラスの前記学習結果特徴量の類似度を算出し、前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
　前記最適化手段は、
　　前記クラスのペア毎にラベルの類似度を算出し、
　　前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する請求項６に記載の処理装置。
　請求項１から７のいずれか１項の処理装置がパラメータ値を最適化した前記第１乃至第３のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置。
　コンピュータが、
　　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
　　第１のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
　　第２のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第１の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第２の重み付け特徴量マップとを生成し、
　　第３のモデルと前記第１の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定し、
　　前記第１の重み付け特徴量マップに基づき定義される第１の重み付け特徴量マップ損失関数、及び、前記第２の重み付け特徴量マップに基づき定義される第２の重み付け特徴量マップ損失関数に基づき、前記第１乃至第３のモデルの中の少なくとも１つのパラメータ値を最適化する処理方法。
　コンピュータを請求項１から７のいずれか１項に記載の処理装置として機能させるプログラム。
　可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する第１の監視手段と、
　可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する第２の監視手段と、
　人物の位置及び外観の特徴の少なくとも一方に基づき、前記第１の監視手段が監視している人物と前記第２の監視手段が監視している人物とを対応付ける対応付け手段と、
を有する監視システム。