WO2024047748A1

WO2024047748A1 - 映像処理システム、映像処理方法、及び映像処理装置

Info

Publication number: WO2024047748A1
Application number: PCT/JP2022/032586
Authority: WO
Inventors: 康敬馬場崎; 勝彦高橋; 隆平安藤; 浩一二瓶; フロリアンバイエ; 孝法岩井; 勇人逸身
Original assignee: 日本電気株式会社
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-03-07

Abstract

映像処理システム（１０）は、映像処理システム（１０）に入力される映像における注視対象を含む注視領域の画質を制御する画質制御部（１１）と、画質制御部（１１）により注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識部（１２）と、認識部（１２）により行われた認識処理の認識結果の不定性に基づいて、画質制御部（１１）が制御する注視領域に含まれる注視対象を抽出する抽出部（１３）と、を備える。

Description

映像処理システム、映像処理方法、及び映像処理装置

　本開示は、映像処理システム、映像処理方法、及び映像処理装置に関する。

　カメラにより撮影した映像に対し機械学習を用いた検出技術や認識技術を適用することで監視等を行うシステムの開発が進められている。

　関連する技術として、例えば、特許文献１が知られている。特許文献１には、車両に搭載されたカメラが撮影した映像を、ネットワークを介して送信し、遠隔監視センタで映像を分析する遠隔監視システムにおいて、映像から検出された対象物体を含む領域を高画質化し、他の領域を低画質化して送信することが記載されている。

国際公開第２０２２／０７４７００号

　特許文献１のような関連する技術では、検出された対象物体を含む領域が常に高画質となるように制御される。このため、関連する技術では、適切に映像のデータ量を抑えることが困難な場合がある。

　本開示は、このような課題に鑑み、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することを目的とする。

　本開示に係る映像処理システムは、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、を備えるものである。

　本開示に係る映像処理方法は、入力される映像における注視対象を含む注視領域の画質を制御し、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出するものである。

　本開示に係る映像処理装置は、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、を備えるものである。

　本開示によれば、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することができる。

実施の形態に係る映像処理システムの概要を示す構成図である。実施の形態に係る映像処理装置の概要を示す構成図である。実施の形態に係る映像処理方法の概要を示すフローチャートである。遠隔監視システムの基本構成を示す構成図である。実施の形態１に係る端末の構成例を示す構成図である。実施の形態１に係るセンターサーバの構成例を示す構成図である。実施の形態１に係る行動認識部の構成例を示す構成図である。実施の形態１に係る予測器の構成例を示す構成図である。実施の形態１に係る遠隔監視システムの動作例を示すフローチャートである。実施の形態１に係る映像取得処理を説明するための図である。実施の形態１に係る物体検出処理を説明するための図である。実施の形態１に係る行動認識処理の動作例を示すフローチャートである。実施の形態１に係る行動認識処理を説明するための図である。実施の形態１に係る注視対象抽出処理の動作例を示すフローチャートである。実施の形態１に係る注視対象抽出処理で認識結果にばらつきありの例を説明するための図である。実施の形態１に係る注視対象抽出処理で認識結果にばらつきありの他の例を説明するための図である。実施の形態１に係る注視対象抽出処理で認識結果にばらつきなしの例を説明するための図である。実施の形態１に係る注視対象抽出処理で認識結果にばらつきなしの他の例を説明するための図である。実施の形態１に係る注視領域決定処理を説明するための図である。実施の形態２に係る行動認識部の構成例を示す構成図である。実施の形態２に係る行動認識処理の動作例を示すフローチャートである。実施の形態２に係るｄｒｏｐｏｕｔ処理を説明するための図である。実施の形態２に係るｄｒｏｐｏｕｔ処理を説明するための図である。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

　以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

　ネットワークを介して映像を収集し、映像内の物体や行動等を認識するシステムにおいては、映像を伝送するネットワークの帯域が限られるため、伝送する映像のデータ量をできる限り抑えることが好ましい。例えば、映像の圧縮率を上げることで映像のデータ量を抑えることができる。しかし、映像の圧縮率が高い場合やデータの欠損率が高い場合、誤認識が増加するため、認識精度が低下する。そこで、実施の形態では、伝送する映像のデータ量をできるだけ抑えつつ、誤認識を防ぐことを可能とする。例えば、不安全や危険を伴う行動など、重要な事象の誤認識を防ぐ。

（実施の形態の概要）
　まず、実施の形態の概要について説明する。図１は、実施の形態に係る映像処理システム１０の概要構成を示している。映像処理システム１０は、例えば、ネットワークを介して映像を収集し、映像を監視する遠隔監視システムに適用可能である。

　図１に示すように、映像処理システム１０は、画質制御部１１、認識部１２、抽出部１３を備える。

　画質制御部１１は、入力される映像における注視対象を含む注視領域の画質を制御する。例えば、画質制御部１１は、注視領域の画質を他の領域よりも高画質化、すなわち鮮明化してもよい。認識部１２は、注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う。例えば、物体に関する認識処理は、物体の行動を認識する行動認識処理であるが、その他の物体に関する情報や特徴などを認識する処理でもよい。

　抽出部１３は、認識部１２による認識処理の認識結果の不定性に基づいて、注視対象を抽出する。認識結果の不定性とは、認識結果のばらつきである。例えば、認識部１２は、異なる学習データを学習した複数の行動予測器を含み、抽出部１３は、複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、注視対象を抽出してもよい。この場合、上記行動の認識結果に含まれる行動ラベル、または、行動ラベルのスコアのばらつきに基づいて、注視対象を抽出してもよい。また、認識部１２は、１つの行動予測器を含み、抽出部１３は、１つの行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、注視対象を抽出してもよい。注視対象を抽出するとは、認識結果に含まれる候補の中から注視対象を選択することである。

　なお、映像処理システム１０は、１つの装置により構成してもよいし、複数の装置により構成してもよい。図２は、実施の形態に係る映像処理装置２０の構成を示している。図２に示すように、映像処理装置２０は、図１に示した、画質制御部１１、認識部１２、抽出部１３を備えてもよい。また、映像処理システム１０の一部または全部をエッジまたはクラウドに配置してもよい。例えば、ネットワークを介して現場で撮影された映像を監視するシステムにおいて、エッジは現場や現場の近くに配置された装置であり、また、ネットワークの階層として端末に近い装置である。例えば、エッジの端末に画質制御部１１を配置し、クラウドのサーバに認識部１２、抽出部１３を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。

　図３は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図１の映像処理システム１０や図２の映像処理装置２０により実行される。図３に示すように、まず、入力される映像における注視対象を含む注視領域の画質を制御する（Ｓ１１）。次に、注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う（Ｓ１２）。次に、認識処理の認識結果の不定性に基づいて、注視対象を抽出する（Ｓ１３）。さらに、Ｓ１１に戻り、入力される映像に対し、抽出された注視対象を含む注視領域の画質を制御する。

　上記のように、実施の形態に係る映像処理システムでは、画質を制御した映像から物体の行動などを認識し、その認識結果の不定性に基づいて、注視対象を抽出する。例えば、認識結果がばらついている場合、行動などを正しく認識できず、認識結果の信頼度が低い可能性がある。このため、認識結果に対応する対象物を注視対象とし鮮明化することで、行動などを正しく認識することができる。また、注視したい対象以外の領域は圧縮可能であるため、送信する映像のデータ量を抑えることができる。

（遠隔監視システムの基本構成）
　次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図４は、遠隔監視システム１の基本構成を示している。遠隔監視システム１は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像（フレームとも称する）を含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。

　図４に示すように、遠隔監視システム１は、複数の端末１００、センターサーバ２００、基地局３００、ＭＥＣ４００を備えている。端末１００、基地局３００及びＭＥＣ４００は、現場側に配置され、センターサーバ２００は、センター側に配置されている。例えば、センターサーバ２００は、現場から離れた位置に配置されているデータセンタや監視センター等に配置されている。現場側はシステムのエッジ側であり、センター側はクラウド側でもある。なお、センターサーバ２００は、１つの装置により構成してもよいし、複数の装置により構成してもよい。またセンターサーバ２００の一部または全部をクラウドに配置してもよい。例えば、映像認識機能２０１とアラート生成機能２０２とをクラウドへ配置し、ＧＵＩ描画機能２０３と画面表示機能２０４とを監視センター等に配置してもよい。

　端末１００と基地局３００との間は、ネットワークＮＷ１により通信可能に接続される。ネットワークＮＷ１は、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ（Long Term Evolution）、無線ＬＡＮなどの無線ネットワークである。基地局３００とセンターサーバ２００との間は、ネットワークＮＷ２により通信可能に接続される。ネットワークＮＷ２は、例えば、５ＧＣ（5th Generation Core network）やＥＰＣ（Evolved Packet Core）などのコアネットワーク、インターネットなどを含む。端末１００とセンターサーバ２００との間は、基地局３００を介して、通信可能に接続されているとも言える。基地局３００とＭＥＣ４００の間は任意の通信方法により通信可能に接続されるが、基地局３００とＭＥＣ４００は、１つの装置でもよい。

　端末１００は、ネットワークＮＷ１に接続される端末装置であり、現場の映像を生成する映像生成装置でもある。端末１００は、現場に設置されたカメラ１０１が撮影した映像を取得し、取得した映像を、基地局３００を介して、センターサーバ２００へ送信する。なお、カメラ１０１は、端末１００の外部に配置されてもよいし、端末１００の内部に配置されてもよい。

　端末１００は、カメラ１０１の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末１００は、圧縮効率を最適化する圧縮効率最適化機能１０２、映像送信機能１０３を有する。圧縮効率最適化機能１０２は、ＲＯＩ（Region of Interest；注視領域とも称する）の画質を制御するＲＯＩ制御を行う。圧縮効率最適化機能１０２は、人物や物体を含むＲＯＩの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。映像送信機能１０３は、画質が制御された映像をセンターサーバ２００へ送信する。

　基地局３００は、ネットワークＮＷ１の基地局装置であり、端末１００とセンターサーバ２００の間の通信を中継する中継装置でもある。例えば、基地局３００は、ローカル５Ｇの基地局、５ＧのｇＮＢ（next Generation Node B）、ＬＴＥのｅＮＢ（evolved Node B）、無線ＬＡＮのアクセスポイント等であるが、その他の中継装置でもよい。

　ＭＥＣ（Multi-access Edge Computing）４００は、システムのエッジ側に配置されたエッジ処理装置である。ＭＥＣ４００は、端末１００を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能４０１、端末制御機能４０２を有する。圧縮ビットレート制御機能４０１は、適応映像配信制御やＱｏＥ（quality of experience）制御により端末１００のビットレートを制御する。例えば、圧縮ビットレート制御機能４０１は、ネットワークＮＷ１及びＮＷ２の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末１００のカメラ１０１にビットレートを割り当てる。端末制御機能４０２は、割り当てられたビットレートの映像を送信するように端末１００を制御する。端末１００は、割り当て得られたビットレートとなるように映像をエンコードし、エンコードした映像を送信する。

　センターサーバ２００は、システムのセンター側に設置されたサーバである。センターサーバ２００は、１つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ２００は、現場のカメラ映像から人物の作業を認識することで、現場の作業を監視する監視装置である。センターサーバ２００は、端末１００から送信された映像内の人物の行動等を認識する認識装置でもある。

　センターサーバ２００は、映像認識機能２０１、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を有する。映像認識機能２０１は、端末１００から送信された映像を映像認識ＡＩ（Artificial Intelligence）エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。アラート生成機能２０２は、認識された作業に応じてアラートを生成する。ＧＵＩ描画機能２０３は、表示装置の画面にＧＵＩ（Graphical User Interface）を表示する。画面表示機能２０４は、ＧＵＩに端末１００の映像や認識結果、アラート等を表示する。

（実施の形態１）
　次に、実施の形態１について説明する。本実施の形態では、複数の予測器による行動認識結果のばらつきに基づいて注視対象を抽出する例について説明する。

　まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム１の基本構成は、図４に示した通りである。ここでは、端末１００とセンターサーバ２００の構成例について説明する。図５は、本実施の形態に係る端末１００の構成例を示しており、図６は、本実施の形態に係るセンターサーバ２００の構成例を示している。なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末１００の一部の機能をセンターサーバ２００や他の装置に配置してもよいし、センターサーバ２００の一部の機能を端末１００や他の装置に配置してもよい。

　図５に示すように、端末１００は、映像取得部１１０、検出部１２０、画質変更判定部１３０、圧縮効率決定部１４０、端末通信部１５０を備えている。

　映像取得部１１０は、カメラ１０１が撮影した映像（入力映像とも称する）を取得する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部１１０は、時系列の複数の画像を取得する画像取得部でもある。

　検出部１２０は、取得された入力映像内の物体を検出する物体検出部である。検出部１２０は、入力映像に含まれる各画像内の物体を検出し、検出した物体のラベル、すなわち物体ラベルを付与する。物体ラベルは、物体のクラスであり、物体の種別を示す。例えば、物体ラベルは、人、車、ロボット、ハンマーなどを含む。検出部１２０は、入力映像に含まれる各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。検出部１２０は、矩形領域に含まれる物体の画像の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、検出部１２０は、ディープラーニングなどの機械学習を用いた物体認識エンジンにより画像内の物体を認識する。物体の画像の特徴と物体ラベルを機械学習することで物体を認識できる。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報等が含まれる。物体の位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。検出部１２０は、当該物体の検出結果を画質変更判定部１３０へ送信する。

　画質変更判定部１３０は、取得された入力映像における画質を変更する画質変更領域である注視領域（ＲＯＩ）を判定する。画質変更判定部１３０は、注視領域を決定する決定部である。注視領域は、注視対象を含む領域であり、画質を高画質化、すなわち鮮明化する領域である。また、注視領域は、行動認識のために画質を担保する領域であるともいえる。

　例えば、画質変更判定部１３０は、第１の判定部１３１と第２の判定部１３２を備える。例えば、まず第１の判定部１３１が注視領域を決定し、センターサーバ２００が行動認識した後に、第２の判定部１３２が注視領域を決定する。なお、第１の判定部１３１による注視領域の決定を省略し、第２の判定部１３２による注視領域の決定のみを行ってもよい。第１の判定部１３１は、入力映像内で検出した物体の検出結果に基づいて、入力映像の注視領域を判定する。第１の判定部１３１は、検出部１２０の入力映像内で検出した検出物体のうち注視対象となるラベルを有する物体の位置情報に基づいて、注視領域を決定する。注視対象は、行動認識の対象となる人物であってもよいし、人物が作業で使用し得る作業物体を含んでもよい。例えば、作業物体のラベルは、人物と関連がある物体のラベルとして予め設定されている。なお、行動認識の対象は、人物に限らず、重機やロボットなどの物体でもよい。すなわち、重機やロボットが行う作業を含む行動を認識してもよい。

　第２の判定部１３２は、行動を認識したセンターサーバ２００から情報がフィードバックされた場合に、フィードバックされる情報に基づいて、入力映像の注視領域を決定する。この例では、センターサーバ２００が抽出した注視対象の情報である抽出注視対象情報がフィードバックされる。抽出注視対象情報は、注視対象に関する情報であって、センターサーバ２００が行動認識を行うことにより抽出した注視対象を示す情報である。抽出注視対象情報は、注視対象の位置情報であり、注視対象の矩形領域の位置情報が含まれる。例えば、第２の判定部１３２は、取得した抽出注視対象情報が示す矩形領域を注視領域に決定する。すなわち、抽出された注視対象の位置をもとに入力映像の画質を担保する領域を決定する。

　圧縮効率決定部１４０は、注視領域または注視領域以外の他の領域の圧縮率を決定し、映像を圧縮する。圧縮効率決定部１４０は、決定した圧縮率により入力映像をエンコード（符号化）するエンコーダである。圧縮効率決定部１４０は、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりエンコードする。また、圧縮効率決定部１４０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートとなるように入力映像をエンコードする。

　圧縮効率決定部１４０は、画質変更判定部１３０が決定した注視領域の画質を制御する画質制御部であり、図１の画質制御部１１に対応する。また、圧縮効率決定部１４０は、注視領域を高画質化する高画質化部であるとも言える。注視領域は、第１の判定部１３１と第２の判定部１３２のいずれかが決定した領域である。圧縮効率決定部１４０は、注視領域と他の領域をそれぞれ所定の圧縮率で圧縮することで、注視領域の画質が所定の品質となるようにエンコードする。すなわち、注視領域と他の領域の圧縮率を変えることで注視領域を他の領域よりも高画質化する。その他の領域を注視領域よりも低画質化しているとも言える。例えば、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートの範囲で注視領域及びその他の領域の画質を制御する。なお、圧縮率に限らず、画像の解像度、フレームレート等を変えることで、注視領域の画質を制御してもよい。また、画像の色の情報量、例えば、カラー、グレースケール、白黒等を変えることで、注視領域の画質を制御してもよい。

　端末通信部１５０は、圧縮効率決定部１４０がエンコードしたエンコードデータを、基地局３００を介して、センターサーバ２００へ送信する。端末通信部１５０は、注視領域の画質が制御された映像を送信する送信部である。また、端末通信部１５０は、センターサーバ２００から送信された抽出注視対象情報を、基地局３００を介して受信する。端末通信部１５０は、抽出注視対象情報を取得する取得部である。端末通信部１５０は、基地局３００と通信可能なインタフェースであり、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ、無線ＬＡＮ等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。端末通信部１５０は、エンコードデータを送信する第１の端末通信部と、抽出注視対象情報を受信する第２の端末通信部を含んでもよい。第１の端末通信部と第２の端末通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　図６に示すように、センターサーバ２００は、センター通信部２１０、デコーダ２２０、行動認識部２３０、分析情報保存部２４０、注視対象解析部２５０を備えている。

　センター通信部２１０は、端末１００から送信されたエンコードデータを、基地局３００を介して受信する。センター通信部２１０は、注視領域の画質が制御された映像を受信する受信部である。また、センター通信部２１０は、注視対象解析部２５０が抽出した抽出注視対象情報を、基地局３００を介して端末１００へ送信する。センター通信部２１０は、抽出注視対象情報を通知する通知部である。センター通信部２１０は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、ＩＰ通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。センター通信部２１０は、エンコードデータを受信する第１のセンター通信部と、抽出注視対象情報を送信する第２のセンター通信部を含んでもよい。第１のセンター通信部と第２のセンター通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　デコーダ２２０は、端末１００から受信したエンコードデータをデコード（復号化）する。デコーダ２２０は、端末１００の符号化方式に対応し、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりデコードする。デコーダ２２０は、各領域の圧縮率に応じてデコードし、デコードした映像（受信映像とも称する）を生成する。

　行動認識部２３０は、デコードした受信映像における物体の行動を認識する認識部であり、図１の認識部１２に対応する。行動認識部２３０は、注視領域の画質が制御された映像に対し、注視対象の行動を認識する行動認識処理を実行する。行動認識部２３０は、受信映像から物体を検出し、検出した物体の行動を認識する。行動認識部２３０は、行動認識の対象である人物の行動を認識し、認識した行動のラベル、すなわち行動ラベルを付与する。行動ラベルは、行動のクラスであり、行動の種別を示す。

　例えば、行動認識部２３０は、受信映像から検出される人物と作業物体とに基づいて、人物の行動を認識する。行動認識部２３０は、人物と作業物体の関連性を特定することで人物の行動を認識してもよい。人物と作業物体の関連性は、人物がどの物体を使用しているか、あるいは物体を使用していないかを含む。例えば、人物と作業物体との距離から人物ごとに作業物体を特定し、特定した作業物体から行動を認識してもよい。例えば、行動認識部２３０は、人物に関連する作業物体と作業とを機械学習し、機械学習ベースで人物の行動を認識する。なお、機械学習ベースに限らず、人物に関連する作業物体と作業とを関連付け、ルールベースで人物の行動を認識してもよい。例えば、作業物体と作業内容とを予め関連付けておき、検出された作業物体に基づいて、人物の行動を認識してもよい。また、作業物体が検出されない場合、人物のみから行動を認識してもよい。例えば、人物の姿勢や形状と作業内容とを予め関連付けておき、検出された人物の姿勢や形状に基づいて、人物の行動を認識してもよい。本実施の形態では、行動認識部２３０は、受信映像からそれぞれ行動を予測する複数の予測器を備えており、複数の予測器が予測した行動認識結果を出力する。

　分析情報保存部２４０は、行動認識部２３０が分析した分析情報を保存する。分析情報は、行動認識結果、人物の検出情報、行動に関連する作業物体の検出情報等を含む。なお、行動認識結果が、人物の検出情報と行動に関連する作業物体の検出情報を含んでいてもよい。行動認識結果は、認識した行動のラベル、行動ラベルのスコア、認識した行動を行う人物の識別情報、認識した行動で使用される作業物体の識別情報等を含む。行動ラベルのスコアは、行動ラベルの確からしさ（確率）である確信度を示す。スコアが高いほど、予測した行動ラベルの行動が正しい可能性が高い。人物の検出情報は、人物の矩形領域の位置情報、トラッキング情報等を含む。トラキング情報は、物体のトラッキング結果を示す軌跡情報である。作業物体の検出情報は、物体ラベル、物体ラベルのスコア、物体の矩形領域の位置情報、トラッキング情報等を含む。例えば、行動認識部２３０の行動予測器（行動認識エンジン）は、行動に関係する物体に重みがかかるように学習することで、画像ごとに関連し得る作業物体の候補を抽出し、抽出した作業物体の候補の情報を出力する。例えば、くい打ち作業を認識した場合、行動に関連する物体であるハンマーの情報を出力する。

　注視対象解析部２５０は、行動認識部２３０が分析した分析情報に基づいて、注視対象を抽出する抽出部であり、図１の抽出部１３に対応する。分析情報は、行動認識部２３０から取得してもよいし、分析情報保存部２４０から取得してもよい。注視対象解析部２５０は、分析された情報をもとに、行動認識ミスを防ぐために画質を担保する注視対象を決定する。例えば、注視対象解析部２５０は、行動認識結果に基づいて注視対象を決定する。注視対象解析部２５０は、行動認識部２３０により行動が認識された人物、すなわち、行動認識結果に含まれる行動の人物を注視対象とする。人物と関連する作業物体とから行動が認識された場合、人物と作業物体を注視対象としてもよい。人物と関連する作業物体は複数あってもよく、人物と複数の作業物体を注視対象としてもよい。例えば、くい打ち作業が認識された場合に、作業に関連する物体を「くい」および「ハンマー」として、人物と「くい」および「ハンマー」を注視対象としてもよい。

　本実施の形態では、注視対象解析部２５０は、行動認識結果の不定性に基づいて注視対象を抽出する。例えば、行動認識部２３０の複数の予測器がそれぞれ出力した複数の行動認識結果のばらつきに基づいて、注視対象を決定する。複数の行動認識結果に含まれる行動ラベルのばらつきや行動ラベルのスコアのばらつきに基づいて、注視対象を決定する。例えば、行動認識結果のばらつきが所定の範囲よりも大きい場合、当該行動ラベルの行動を行った人物及び作業物体を含む物体を注視対象に決定してもよい。

　注視対象解析部２５０は、抽出した注視対象の矩形領域の位置情報を、抽出注視対象情報として出力する。位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、注視対象の任意の点の位置でもよい。抽出注視対象情報は、抽出した注視対象に関する情報として、位置情報に限らず、注視対象の物体ラベルや画像の特徴、行動ラベル、行動ラベルのスコアなど、行動認識部２３０で分析された情報を含んでもよい。

　図７は、センターサーバ２００における行動認識部２３０の構成例を示している。図７に示すように、行動認識部２３０は、複数の予測器ＰＭ１～ＰＭ３を備えている。なお、３つに限らず任意の数の予測器ＰＭを備えていてもよい。予測器ＰＭ１～ＰＭ３は、それぞれ受信映像における物体の行動を予測、すなわち行動を認識する。予測器ＰＭ１～ＰＭ３は、同じ構成の学習モデルであってもよいが、異なる学習データのデータセットを学習している。例えば、予測器ＰＭ１～ＰＭ３は、それぞれ異なる作業現場（環境）において同じ行動、または同じ種類の行動を撮影した映像を学習データとして学習している。予測器の学習モデルは、物体認識エンジンや行動認識エンジンである。なお、予測器ＰＭ１～ＰＭ３は、それぞれ異なる行動、または異なる種類の行動を学習した学習モデルでもよい。例えば、ある予測器は、掘削作業における行動などの第１の行動を学習し、別の予測器は、整地作業における行動などの第２の行動を学習していてもよい。この場合、掘削作業の学習データと整地作業の学習データは、同じ環境で撮影した映像でもよい。予測器がそれぞれ学習する異なる行動は、同時に行うことが可能な行動でもよいし、同時に行うことが不可能な行動でもよい。

　図８は、図７の予測器ＰＭの構成例を示している。図８は、人物と作業物体との関連性による行動認識を、機械学習ベースで行う場合の構成例である。図８の例では、行動認識部２３０の予測器ＰＭは、物体検出部２３１、追跡部２３２、行動予測器２３３、行動判定部２３４を備えている。

　物体検出部２３１は、入力される受信映像内の物体を検出する。例えば、物体検出部２３１は、端末１００の検出部１２０と同様、機械学習を用いた物体認識エンジンなどの検出部である。すなわち、物体検出部２３１は、受信映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報が含まれる。

　追跡部２３２は、検出された受信映像内の物体をトラッキングする。追跡部２３２は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。検出された物体にトラッキングＩＤを割り当てることで、各物体を識別してトラッキングすることができる。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なり（例えばＩｏＵ：Intersection over Union）により画像間の物体を対応付けることで、物体をトラッキングする。

　行動予測器２３３は、追跡部２３２がトラッキングした物体ごとに、物体の行動を予測する。行動予測器２３３は、受信映像内でトラッキングされた人物の行動を認識し、認識した行動のラベルを付与する。例えば、行動予測器２３３は、ディープラーニングなどの機械学習を用いた行動認識エンジンにより受信映像内の人物の行動を認識する。作業物体を用いて作業を行う人物の映像と行動ラベルを機械学習することで人物の行動を認識できる。例えば、作業物体を使用して作業を行っている人物の映像である学習データ、人物及び作業物体の位置や人物と物体の関連情報などのアノテーション情報、各作業に必要な作業物体などの行動情報を用いて、機械学習する。また、行動予測器２３３は、認識した行動ラベルのスコアを出力する。

　行動判定部２３４は、予測された行動ラベルに基づいて、物体の行動を判定する。行動判定部２３４は、行動予測器２３３が予測した行動ラベルのスコアに基づいて、人物の行動を決定する。例えば、行動判定部２３４は、最もスコアが高い行動ラベルを認識結果として出力する。なお、認識結果には、行動予測器２３３が予測した複数の行動ラベルのスコアが含まれてもよい。

　次に、本実施の形態に係る遠隔監視システムの動作について説明する。図９は、遠隔監視システム１の動作例を示している。例えば、端末１００がＳ１０１～Ｓ１０５、Ｓ１１１～Ｓ１１２を実行し、センターサーバ２００がＳ１０６～Ｓ１１０を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。

　図９に示すように、端末１００は、カメラ１０１から映像を取得する（Ｓ１０１）。カメラ１０１は、現場を撮影した映像を生成し、映像取得部１１０は、カメラ１０１から出力される映像（入力映像）を取得する。例えば、図１０に示すように、入力映像の画像には、現場で作業を行う人物や、人物が使用するハンマーなどの作業物体が含まれている。

　続いて、端末１００は、取得した入力映像に基づいて物体を検出する（Ｓ１０２）。検出部１２０は、物体認識エンジンを用いて、入力映像に含まれる画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。検出部１２０は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。例えば、図１０の画像から物体検出を行うと、図１１のように、人物及びハンマーを検出し、人物の矩形領域とハンマーの矩形領域を検出する。

　続いて、端末１００は、物体検出結果に基づいて、入力映像における注視領域を決定する（Ｓ１０３）。画質変更判定部１３０の第１の判定部１３１は、各物体の物体検出結果に基づいて、注視対象となるラベルを有する物体を抽出する。第１の判定部１３１は、検出された物体から、物体ラベルが人物または作業物体である物体を抽出し、該当する物体の矩形領域を注視領域に決定する。図１１の例では、画像内で人物とハンマーが検出され、ハンマーは作業物体に該当するため、人物の矩形領域とハンマーの矩形領域を注視領域に決定する。

　続いて、端末１００は、決定した注視領域に基づいて、入力映像をエンコードする（Ｓ１０４）。圧縮効率決定部１４０は、注視領域が他の領域よりも高画質となるように、入力映像をエンコードする。図１１の例では、人物の矩形領域とハンマーの矩形領域の圧縮率を他の領域の圧縮率よりも下げることで、人物の矩形領域とハンマーの矩形領域を高画質化する。

　続いて、端末１００は、エンコードしたエンコードデータをセンターサーバ２００へ送信し（Ｓ１０５）、センターサーバ２００は、エンコードデータを受信する（Ｓ１０６）。端末通信部１５０は、注視領域を高画質化したエンコードデータを基地局３００へ送信する。基地局３００は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ２００へ転送する。センター通信部２１０は、転送されたエンコードデータを、基地局３００から受信する。

　続いて、センターサーバ２００は、受信したエンコードデータをデコードする（Ｓ１０７）。デコーダ２２０は、各領域の圧縮率に応じてエンコードデータをデコードし、注視領域が高画質化された映像（受信映像）を生成する。

　続いて、センターサーバ２００は、デコードした受信映像に基づいて物体の行動を認識する（Ｓ１０８）。行動認識部２３０の予測器ＰＭ１～ＰＭ３は、それぞれ受信映像を分析し、物体の行動を認識する。図１２は、図８に示した行動認識部２３０の予測器ＰＭによる行動認識処理の例を示している。

　図１２の例では、まず、物体検出部２３１は、入力される受信映像内の物体を検出する（Ｓ２０１）。物体検出部２３１は、物体認識エンジンを用いて、受信映像に含まれる各画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体検出部２３１は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。

　続いて、追跡部２３２は、検出された受信映像内の物体をトラッキングする（Ｓ２０２）。追跡部２３２は、検出された各物体にトラッキングＩＤを割り当て、トラッキングＩＤにより識別される物体を各画像でトラッキングする。

　続いて、行動予測器２３３は、トラッキングした物体ごとに、物体の行動を予測する（Ｓ２０３）。行動予測器２３３は、行動認識エンジンを用いて、トラッキングした人物と作業物体を含む映像から人物の行動を予測する。行動予測器２３３は、予測した行動のラベルと、各行動ラベルのスコアを出力する。

　続いて、行動判定部２３４は、予測した行動ラベルのスコアに基づいて、物体の行動を判定する（Ｓ２０４）。図１３の例では、トラッキングにより人物とハンマーとが検出されている。行動予測器２３３は、検出された人物とハンマーの映像に基づいて人物の行動を認識し、各行動ラベルのスコアを出力する。例えば、くい打ちのスコアが０．８、重機作業のスコアが０．１、不安全行動のスコアが０．０、作業外のスコアが０．１である。そうすると、行動判定部２３４は、くい打ちのスコアが最も高いため、人物の行動はくい打ちであると決定する。行動判定部２３４は、決定した行動と、行動のスコアを出力する。

　図９に戻り、行動認識処理に続いて、センターサーバ２００は、行動認識処理により分析された分析情報に基づいて、注視対象を抽出する（Ｓ１０９）。注視対象解析部２５０は、行動が認識された人物を注視対象とし、さらに認識対象に作業物体が含まれる場合、作業物体も注視対象に含めてもよい。例えば、図１３の例では、人物とハンマーからくい打ちの作業が認識されているため、作業を認識した人物及びハンマーを注視対象としてもよい。注視対象解析部２５０は、抽出した注視対象の位置情報を含む注視対象抽出情報を出力する。

　本実施の形態では、行動認識結果の不定性に基づいて注視対象を抽出する。図１４は、本実施の形態に係る注視対象抽出処理の動作例を示している。複数の物体の行動が認識されている場合、各物体の認識結果に対し注視対象抽出処理を行う。図１４の例では、まず、注視対象解析部２５０は、複数の予測器の予測結果、すなわち行動認識結果を取得する（Ｓ３０１）。例えば、注視対象解析部２５０は、行動認識部２３０の予測器ＰＭ１～ＰＭ３が予測した行動ラベルやスコアを含む行動認識結果を取得する。例えば、各予測器の行動判定部２３４が出力する最もスコアの高い行動ラベルを取得する。なお、各予測器の行動予測器２３３から出力される複数の行動ラベルおよびスコアを取得してもよいし、各予測器の行動予測器２３３から出力される複数の行動ラベルのうち任意の数の行動ラベルを取得してもよい。例えば、スコアが高い上位３つの行動ラベルを取得してもよい。各予測器から複数の行動ラベルを取得した場合、各予測器の複数の行動ラベルのばらつきに基づいて注視対象を抽出する。

　続いて、注視対象解析部２５０は、複数の行動認識結果のばらつきを判定する（Ｓ３０２）。例えば、注視対象解析部２５０は、複数の予測器の行動認識結果に含まれる行動ラベルのばらつきを判定する。行動ラベルのばらつきの有無を判定してもよいし、ばらつきの大きさを判定してもよい。また、行動ラベルのばらつきに限らず、行動ラベルのスコアを含めてばらつきを判定してもよい。

　複数の行動認識結果がばらついていると判定された場合、注視対象解析部２５０は、予測した行動を行う対象物体を注視対象に決定する（Ｓ３０３）。例えば、行動ラベルにばらつきがある場合、注視対象解析部２５０は、当該行動ラベルの対象物体を注視対象に決定する。図１５は、予測器ＰＭ１～ＰＭ３が同じ行動を学習している場合に、認識結果にばらつきありと判定する例を示している。例えば、予測器ＰＭ１～ＰＭ３は、それぞれ異なる環境で撮影した同じ作業を学習している。図１５の例では、予測器ＰＭ１の予測結果の行動ラベルが重機作業、予測器ＰＭ２の予測結果の行動ラベルが台車運搬、予測器ＰＭ３の予測結果の行動ラベルが転圧作業であり、それぞれ予測結果が異なるため、ばらつきありと判定し、予測した対象物体を注視対象に決定する。

　また、行動ラベルのばらつきが大きい場合、注視対象解析部２５０は、当該行動ラベルの対象物体を注視対象に決定してもよい。例えば、Ｎ個の予測器の内、最もスコアが高い行動ラベルが一致する個数Ｍが閾値Ｔ個以下の場合に、予測した対象物体を注視対象に決定する。例えば、予測器ＰＭ１の予測結果の行動ラベルが台車運搬、予測器ＰＭ２の予測結果の行動ラベルが転圧作業、予測器ＰＭ３の予測結果の行動ラベルが台車運搬、予測器ＰＭ４の予測結果の行動ラベルが重機作業の場合、Ｎ＝４、Ｍ＝２となり、Ｔ＝３とすると、Ｍ＜Ｔのため、ばらつきが大きいと判定し、予測した対象物体を注視対象に決定する。

　図１６は、予測器ＰＭ１～ＰＭ３が異なる行動を学習している場合に、認識結果にばらつきありと判定する例を示している。この例では、予測器ＰＭ１～ＰＭ３は、同じ環境で撮影した異なる行動であって、同時に行うことが可能な行動を学習している。例えば、予測器ＰＭ１は、人物の行動の姿勢（骨格）を学習した予測器であり、予測器ＰＭ２は、人物の行動の内容（作業）を学習した予測器であり、予測器ＰＭ３は、予測器ＰＭ２が認識する行動のうち点検作業の詳細情報を学習した予測器である。図１６に示すように、予測器ＰＭ１の姿勢の認識結果では、立位、歩行、しゃがみのスコアがほぼ同じであるため、対象物体の姿勢が不明であり、予測器ＰＭ２の行動の認識結果では、点検、掃除、歩行、他の作業のスコアがほぼ同じであるため、対象物体の行動が不明である。この場合、予測器ＰＭ１及びＰＭ２の認識結果が、それぞれ、同程度、または、所定値以上のスコアの行動ラベルを複数含むため、予測器ＰＭ１～ＰＭ３の認識結果がばらついていると判定し、対象物体を注視対象に決定する。

　また、複数の予測器がそれぞれ異なる種類の行動であって、同時に行うことが不可能な行動を学習している場合、対象物体の行動に反応する予測器は対象行動を学習したもののみに限られることが期待される。例えば、予測器Ａと予測器Ｂを使用する例において、転圧作業と重機作業は同時に行うことはできず、予測器Ａが転圧作業、予測器Ｂが重機作業を学習しているとする。この例では、作業者が転圧作業をしている場合、予測器Ａのみが反応し、転圧作業のスコアが高くなり、予測器Ｂの重機作業のスコアは低いことが期待される。そのため、もし、両者の予測器のスコアの値が高くなった場合は、行動の区別がつかず認識の不定性が高いと判断することができる。したがって、異なる予測器間であるスコア閾値以上の行動クラスが複数あるか否かにより、不定性が大きいことを判断してもよい。例えば、予測器Ａの認識結果では、転圧作業のスコアが０．８であり、予測器Ｂの認識結果では、重機作業のスコアが０．９であり、スコア閾値が０．６とすると、スコア閾値を超える行動クラスが２つになるため、不定性が大きいと判断する。

　また、複数の予測結果がばらついていないと判定された場合、注視対象解析部２５０は、予測した行動を行う対象物体を注視対象から除外する（Ｓ３０４）。すなわち、この場合、注視対象解析部２５０は、当該物体を注視対象に選択しない。例えば、行動ラベルにばらつきがない場合、注視対象解析部２５０は、当該行動ラベルの対象物体を注視対象に選択しない。図１７は、図１５と同様に、予測器ＰＭ１～ＰＭ３が同じ行動を学習している場合に、認識結果にばらつきなしと判定する例を示している。図１５と同様、例えば、予測器ＰＭ１～ＰＭ３は、それぞれ異なる環境で撮影した同じ作業を学習している。図１７の例では、予測器ＰＭ１～ＰＭ３の予測結果の行動ラベルがいずれも重機作業であり、予測結果が一致するため、ばらつきなしと判定し、予測した対象物体を注視対象から除外する。

　また、行動ラベルのばらつきが小さい場合、注視対象解析部２５０は、当該行動ラベルの対象物体を注視対象から除外してもよい。例えば、Ｎ個の予測器の内、最もスコアが高い行動ラベルが一致する個数Ｍが閾値Ｔ個より大きい場合に、予測対象を注視対象から除外する。例えば、予測器ＰＭ１の予測結果の行動ラベルが台車運搬、予測器ＰＭ２の予測結果の行動ラベルが台車運搬、予測器ＰＭ３の予測結果の行動ラベルが台車運搬、予測器ＰＭ４の予測結果の行動ラベルが重機作業の場合、Ｎ＝４、Ｍ＝３となり、Ｔ＝２とすると、Ｍ＞Ｔのため、ばらつきが小さいと判定し、予測した対象物体を注視対象から除外する。

　図１８は、図１６と同様に、予測器ＰＭ１～ＰＭ３が異なる行動を学習している場合に、認識結果にばらつきなしと判定する例を示している。図１６と同様に、予測器ＰＭ１～ＰＭ３は、同じ環境で撮影した異なる行動であって、同時に行うことが可能な行動を学習しており、例えば、予測器ＰＭ１は、人物の行動の姿勢（骨格）を学習した予測器であり、予測器ＰＭ２は、人物の行動の内容（作業）を学習した予測器であり、予測器ＰＭ３は、予測器ＰＭ２が認識する行動のうち点検作業の詳細情報を学習した予測器である。図１８に示すように、予測器ＰＭ１の姿勢の認識結果では、立位のスコアのみが高く、他のスコアが低いため、対象物体の姿勢が立位であると予測され、予測器ＰＭ２の行動の認識結果では、点検のスコアのみが高く、他のスコアが低いため、対象物体の行動が点検であると予測され、予測器ＰＭ３の点検作業の認識結果では、道具確認のスコアのみが高く、他のスコアが低いため、対象物体の点検作業が道具確認であると予測される。これにより、対象物体の人物が、立位で道具の有無を確認する点検作業を行っていることが認識できる。この場合、予測器ＰＭ１～ＰＭ３の認識結果では、それぞれ、所定値以上のスコアの行動ラベルが１つであるため、予測器ＰＭ１～ＰＭ３の認識結果がばらついていないと判定し、対象物体を注視対象から除外する。

　また、複数の予測器がそれぞれ異なる種類の行動であって、同時に行うことが不可能な行動を学習している例では、異なる予測器間であるスコア閾値以上の行動クラスが複数存在しない場合、例えば、スコア閾値以上の行動クラスが１つしか存在しない場合、不定性が小さいと判断してもよい。

　図９に戻り、注視対象抽出処理に続いて、センターサーバ２００は、注視対象抽出処理により抽出した抽出注視対象情報を端末１００へ通知し（Ｓ１１０）、端末１００は、抽出注視対象情報を取得する（Ｓ１１１）。センター通信部２１０は、抽出した注視対象の位置を示す抽出注視対象情報を、インターネットやコアネットワークを介して、基地局３００へ送信する。基地局３００は、受信した抽出注視対象情報を端末１００へ転送する。端末通信部１５０は、転送された抽出注視対象情報を、基地局３００から受信する。

　続いて、端末１００は、受信した抽出注視対象情報に基づいて、注視領域を決定する（Ｓ１１２）。画質変更判定部１３０の第２の判定部１３２は、センターサーバ２００から通知された抽出注視対象情報が示す領域を注視領域に決定する。図１９の例では、抽出注視対象情報が人物の矩形領域とハンマーの矩形領域を示しており、これらの領域を注視領域に決定する。また、人物の矩形領域とハンマーの矩形領域を含む外接領域を注視領域としてもよい。この外接領域をセンターサーバ２００から端末１００へ通知してもよい。以降、Ｓ１０４～Ｓ１１２を繰り返す。

　以上のように、本実施の形態では、映像から物体の行動を認識するシステムにおいて、行動認識結果の不定性に基づいて、注視対象を抽出し、抽出した注視対象を含む領域の画質を鮮明化する。例えば、行動認識結果がばらついている場合、映像から正しく認識できていないと想定される。このため、行動認識結果の不定性に基づいて判断することで、適切に注視すべき対象を選択できる。したがって、行動認識結果に応じて、注視したい対象を含む特定の部分の画質を担保し、その他の領域は圧縮が可能となるため、送信するデータ量を抑えつつ行動認識ミスを防ぐことができる。

（実施の形態２）
　次に、実施の形態２について説明する。本実施の形態では、行動認識部から行動認識結果の不定性を出力する例について説明する。行動認識部以外の構成は、実施の形態１の図５及び図６と同様であるため、説明を省略する。なお、本実施の形態は、実施の形態１と組み合わせて実施することが可能であり、実施の形態１で示した各構成を適宜使用してもよい。

　図２０は、本実施の形態に係る行動認識部２３０の構成例を示している。図２０に示すように、本実施の形態に係る行動認識部２３０は、図８の予測器ＰＭと同様の物体検出部２３１、追跡部２３２、行動予測器２３３、行動判定部２３４を備えており、さらに、ｄｒｏｐｏｕｔ設定部２３５、ばらつき算出部２３６を備えている。ｄｒｏｐｏｕｔ設定部２３５は、行動予測器２３３のニューラルネットワークにｄｒｏｐｏｕｔを設定する。ばらつき算出部２３６は、ｄｒｏｐｏｕｔを設定した行動予測器２３３により複数回予測した予測結果、すなわち複数回認識した認識結果のばらつきを算出する。

　図２１は、図２０に示した行動認識部２３０により行動認識処理の例を示している。なお、その他の動作は、実施の形態１の図９と同様である。図２１の例では、まず、実施の形態１と同様に、物体検出部２３１は、入力される受信映像内の物体を検出し（Ｓ２０１）、追跡部２３２は、検出された受信映像内の物体をトラッキングする（Ｓ２０２）。

　続いて、ｄｒｏｐｏｕｔ設定部２３５は、行動予測器２３３にｄｒｏｐｏｕｔを設定する（Ｓ２１１）。例えば、図２２のように、行動予測器２３３のニューラルネットワークが入力層、隠れ層（中間層）、出力層を備えているとする。この例では、入力層に複数のノードが含まれ、隠れ層に複数のノードが含まれる。この場合に、ｄｒｏｐｏｕｔ設定部２３５は、図２３に示すように、例えば、隠れ層のノードを選択し、選択したノードを不活性化する。ランダムに選択したノードを不活性化してもよいし、所定のｄｒｏｐｏｕｔ率となるようにノードを選択して不活性化してもよい。なお、隠れ層に限らず、入力層のノードを不活性化してもよい。

　ｄｒｏｐｏｕｔを設定し所定のノードを不活性化した状態で、行動予測器２３３は、実施の形態１と同様に、物体の行動を予測し（Ｓ２０３）、行動判定部２３４は、予測した行動ラベルのスコアに基づいて、物体の行動を判定する（Ｓ２０４）。行動判定部２３４は、判定した行動認識結果を出力する。さらに、Ｓ２１１、Ｓ２０３、Ｓ２０４を複数回繰り返し、ｄｒｏｐｏｕｔによる行動認識を複数回行う。複数回の認識は、Ｓ２１１、Ｓ２０３、Ｓ２０４の処理を逐次的に繰り返すことで実施してもよく、Ｓ２１１、Ｓ２０３、Ｓ２０４の一連の処理を複製し、並列的に実施してもよい。ただし、複数回の認識においてＳ２１１において不活性化するノードは毎回異なるように設定する。

　その後、ばらつき算出部２３６は、複数回行動を予測して得られた複数の行動認識結果のばらつきを算出する（Ｓ２１２）。ばらつき算出部２３６は、実施の形態１と同様に、行動認識結果に含まれる行動ラベルのばらつきを算出してもよいし、行動ラベルのスコアのばらつきを算出してもよい。ばらつき算出部２３６は、行動ラベルのばらつきの有無を判定し、判定した結果を出力してもよい。複数の行動認識結果の行動ラベルが異なる場合、ばらつき算出結果として、ばらつきありを出力し、複数の行動認識結果の行動ラベルが一致する場合、ばらつき算出結果として、ばらつきなしを出力する。

　また、ばらつき算出部２３６は、複数の行動認識結果の行動ラベルのばらつきが閾値よりも大きいか否かを判定し、判定した結果を出力してもよい。実施の形態１と同様に、例えば、Ｎ回の行動認識（推論）の内、最もスコアが高い行動ラベルが一致する個数Ｍが閾値Ｔ個以下の場合に、ばらつき算出結果として、ばらつきありを出力し、最もスコアが高い行動ラベルが一致する個数Ｍが閾値Ｔより大きい場合、ばらつき算出結果として、ばらつきなしを出力する。行動認識したＮ回に対し、最もスコアが高い行動ラベルが一致する個数Ｍの割合であるばらつき度合いを、ばらつき算出結果として出力してもよい。なお、実施の形態１と同様に、注視対象解析部２５０で、ばらつきを算出し判定してもよい。

　その後、実施の形態１と同様に、注視対象解析部２５０は、行動認識部２３０のばらつき算出部２３６が算出したばらつき算出結果に基づいて、注視対象を抽出する。例えば、ばらつき算出結果としてばらつきの有無が出力される場合、ばらつきありであれば、行動認識結果の対象物体を注視対象に決定する。ばらつき算出結果としてばらつき度合いが出力される場合、ばらつき度合いと閾値の比較結果に応じて、注視対象を決定してもよい。

　以上のように、行動予測の不定性を出力する単一の行動予測器を用いて注視対象を抽出してもよい。この場合でも、実施の形態１と同様に、適切に注視対象を選択できるため、送信するデータ量を抑えつつ行動認識ミスを防ぐことができる。また、複数の予測器を用意することなく、認識結果の不定性を判定できる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記実施の形態では、センターサーバが注視対象を抽出し、端末が抽出された注視対象に基づいて注視領域を決定したが、センターサーバが抽出された注視対象に基づいて注視領域を決定してもよい。この場合、センターサーバから端末に注視領域の座標やその領域の大きさを通知してもよい。

　また、上記実施の形態で説明した処理フローは、一例であり、各処理の順序は上記の例に限られない。一部の処理の順序を入れ替えて実行してもよいし、一部の処理を並行して実行してもよい。

　上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、図２４に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ３１及び記憶装置であるメモリ３２を有するコンピュータ３０により実現してもよい。例えば、メモリ３２に実施形態における方法（映像処理方法）を行うためのプログラムを格納し、各機能を、メモリ３２に格納されたプログラムをプロセッサ３１で実行することにより実現してもよい。

　これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
　前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、
　を備える、映像処理システム。
（付記２）
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記抽出手段は、前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記１に記載の映像処理システム。
（付記３）
　前記抽出手段は、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
　付記２に記載の映像処理システム。
（付記４）
　前記認識手段は、異なる学習データを学習した複数の行動予測器を含み、
　前記抽出手段は、前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記２または３に記載の映像処理システム。
（付記５）
　前記認識手段は、行動予測器を含み、
　前記抽出手段は、前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記２または３に記載の映像処理システム。
（付記６）
　前記抽出手段は、前記行動の認識結果に含まれる行動ラベルのばらつき、または、前記行動ラベルのスコアのばらつきに基づいて、前記注視対象を抽出する、
　付記２から５のいずれか一項に記載の映像処理システム。
（付記７）
　前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
　付記５に記載の映像処理システム。
（付記８）
　入力される映像における注視対象を含む注視領域の画質を制御し、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、
　前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する、
　映像処理方法。
（付記９）
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記８に記載の映像処理方法。
（付記１０）
　前記注視対象の抽出では、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
　付記９に記載の映像処理方法。
（付記１１）
　異なる学習データを学習した複数の行動予測器により前記物体の行動を認識し、
　前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記９または１０に記載の映像処理方法。
（付記１２）
　行動予測器により前記物体の行動を認識し、
　前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記９または１０に記載の映像処理方法。
（付記１３）
　前記行動の認識結果に含まれる行動ラベルのばらつき、または、前記行動ラベルのスコアのばらつきに基づいて、前記注視対象を抽出する、
　付記９から１２のいずれか一項に記載の映像処理方法。
（付記１４）
　前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
　付記１２に記載の映像処理方法。
（付記１５）
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
　前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、
　を備える、映像処理装置。
（付記１６）
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記抽出手段は、前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記１５に記載の映像処理装置。
（付記１７）
　前記抽出手段は、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
　付記１６に記載の映像処理装置。
（付記１８）
　前記認識手段は、異なる学習データを学習した複数の行動予測器を含み、
　前記抽出手段は、前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記１６または１７に記載の映像処理装置。
（付記１９）
　前記認識手段は、行動予測器を含み、
　前記抽出手段は、前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　付記１６または１７に記載の映像処理装置。
（付記２０）
　前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
　付記１９に記載の映像処理装置。

１　　　遠隔監視システム
１０　　映像処理システム
１１　　画質制御部
１２　　認識部
１３　　抽出部
２０　　映像処理装置
３０　　コンピュータ
３１　　プロセッサ
３２　　メモリ
１００　端末
１０１　カメラ
１０２　圧縮効率最適化機能
１０３　映像送信機能
１１０　映像取得部
１２０　検出部
１３０　画質変更判定部
１３１　第１の判定部
１３２　第２の判定部
１４０　圧縮効率決定部
１５０　端末通信部
２００　センターサーバ
２０１　映像認識機能
２０２　アラート生成機能
２０３　ＧＵＩ描画機能
２０４　画面表示機能
２１０　センター通信部
２２０　デコーダ
２３０　行動認識部
２３１　物体検出部
２３２　追跡部
２３３　行動予測器
２３４　行動判定部
２３５　ｄｒｏｐｏｕｔ設定部
２３６　ばらつき算出部
２４０　分析情報保存部
２５０　注視対象解析部
３００　基地局
４００　ＭＥＣ
４０１　圧縮ビットレート制御機能
４０２　端末制御機能
ＰＭ、ＰＭ１～ＰＭ３　予測器

Claims

　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
　前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、
　を備える、映像処理システム。
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記抽出手段は、前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項１に記載の映像処理システム。
　前記抽出手段は、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
　請求項２に記載の映像処理システム。
　前記認識手段は、異なる学習データを学習した複数の行動予測器を含み、
　前記抽出手段は、前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項２または３に記載の映像処理システム。
　前記認識手段は、行動予測器を含み、
　前記抽出手段は、前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項２または３に記載の映像処理システム。
　前記抽出手段は、前記行動の認識結果に含まれる行動ラベルのばらつき、または、前記行動ラベルのスコアのばらつきに基づいて、前記注視対象を抽出する、
　請求項２から５のいずれか一項に記載の映像処理システム。
　前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
　請求項５に記載の映像処理システム。
　入力される映像における注視対象を含む注視領域の画質を制御し、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、
　前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する、
　映像処理方法。
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項８に記載の映像処理方法。
　前記注視対象の抽出では、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
　請求項９に記載の映像処理方法。
　異なる学習データを学習した複数の行動予測器により前記物体の行動を認識し、
　前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項９または１０に記載の映像処理方法。
　行動予測器により前記物体の行動を認識し、
　前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項９または１０に記載の映像処理方法。
　前記行動の認識結果に含まれる行動ラベルのばらつき、または、前記行動ラベルのスコアのばらつきに基づいて、前記注視対象を抽出する、
　請求項９から１２のいずれか一項に記載の映像処理方法。
　前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
　請求項１２に記載の映像処理方法。
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
　前記認識処理の認識結果の不定性に基づいて、前記注視対象を抽出する抽出手段と、
　を備える、映像処理装置。
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記抽出手段は、前記行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項１５に記載の映像処理装置。
　前記抽出手段は、前記行動の認識結果のばらつきが所定の範囲に含まれない場合、前記行動を認識した物体を前記注視対象に決定する、
　請求項１６に記載の映像処理装置。
　前記認識手段は、異なる学習データを学習した複数の行動予測器を含み、
　前記抽出手段は、前記複数の行動予測器から出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項１６または１７に記載の映像処理装置。
　前記認識手段は、行動予測器を含み、
　前記抽出手段は、前記行動予測器が行動の認識を複数回行うことで出力される複数の行動の認識結果のばらつきに基づいて、前記注視対象を抽出する、
　請求項１６または１７に記載の映像処理装置。
　前記行動予測器は、前記行動の認識ごとに、ニューラルネットワークの異なるノードを不活性化させることで、前記複数の行動の認識結果を出力する、
　請求項１９に記載の映像処理装置。