WO2024047747A1

WO2024047747A1 - 映像処理システム、映像処理方法、及び映像処理装置

Info

Publication number: WO2024047747A1
Application number: PCT/JP2022/032585
Authority: WO
Inventors: 康敬馬場崎; 勝彦高橋; 君朴; 隆平安藤; 浩一二瓶; フロリアンバイエ; 孝法岩井; 勇人逸身
Original assignee: 日本電気株式会社
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-03-07

Abstract

映像処理システム（１０）は、映像処理システム（１０）に入力される映像における注視対象を含む注視領域の画質を制御する画質制御部（１１）と、画質制御部（１１）により注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識部（１２）と、認識部（１２）より行われた認識処理の認識結果の時間的変化に基づいて、画質制御部（１１）が制御する注視領域に含まれる注視対象を抽出する抽出部（１３）と、を備える。

Description

映像処理システム、映像処理方法、及び映像処理装置

　本開示は、映像処理システム、映像処理方法、及び映像処理装置に関する。

　カメラにより撮影した映像に対し機械学習を用いた検出技術や認識技術を適用することで監視等を行うシステムの開発が進められている。

　関連する技術として、例えば、特許文献１が知られている。特許文献１には、撮影した映像を、ネットワークを介して送信する監視カメラにおいて、映像から検出した対象物体の移動先の領域を予測し、予測した領域の符号量が大きくなるように制御する技術が記載されている。

特開２０２１－１５０７３９号公報

　特許文献１のような関連する技術では、検出された対象物体から予測された領域が、常に符号量が大きくなるように、すなわち常に高画質となるように制御される。このため、関連する技術では、適切に映像のデータ量を抑えることが困難な場合がある。

　本開示は、このような課題に鑑み、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することを目的とする。

　本開示に係る映像処理システムは、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出する抽出手段と、を備えるものである。

　本開示に係る映像処理方法は、入力される映像における注視対象を含む注視領域の画質を制御し、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出するものである。

　本開示に係る映像処理装置は、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出する抽出手段と、を備えるものである。

　本開示によれば、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することができる。

実施の形態に係る映像処理システムの概要を示す構成図である。実施の形態に係る映像処理装置の概要を示す構成図である。実施の形態に係る映像処理方法の概要を示すフローチャートである。実施の形態１に係る遠隔監視システムの基本構成を示す構成図である。実施の形態１に係る端末の構成例を示す構成図である。実施の形態１に係るセンターサーバの構成例を示す構成図である。実施の形態１に係る行動認識部の構成例を示す構成図である。実施の形態１に係る遠隔監視システムの動作例を示すフローチャートである。実施の形態１に係る映像取得処理を説明するための図である。実施の形態１に係る物体検出処理を説明するための図である。実施の形態１に係る行動認識処理の動作例を示すフローチャートである。実施の形態１に係る行動認識処理を説明するための図である。実施の形態１に係る注視対象抽出処理の動作例を示すフローチャートである。実施の形態１に係る注視対象抽出処理を説明するためのグラフである。実施の形態１に係る注視対象抽出処理を説明するためのグラフである。実施の形態１に係る注視領域決定処理を説明するための図である。実施の形態２に係る注視対象抽出処理の動作例を示すフローチャートである。実施の形態２に係る注視対象抽出処理を説明するための図である。実施の形態２に係る注視対象抽出処理を説明するためのグラフである。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

　以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

　ネットワークを介して映像を収集し、映像内の物体や行動等を認識するシステムにおいては、映像を伝送するネットワークの帯域が限られるため、伝送する映像のデータ量をできる限り抑えることが好ましい。例えば、映像の圧縮率を上げることで映像のデータ量を抑えることができる。しかし、映像の圧縮率が高い場合やデータの欠損率が高い場合、誤認識が増加するため、認識精度が低下する。そこで、実施の形態では、伝送する映像のデータ量をできるだけ抑えつつ、誤認識を防ぐことを可能とする。例えば、不安全や危険を伴う行動など、重要な事象の誤認識を防ぐ。

（実施の形態の概要）
　まず、実施の形態の概要について説明する。図１は、実施の形態に係る映像処理システム１０の概要構成を示している。映像処理システム１０は、例えば、ネットワークを介して映像を収集し、映像を監視する遠隔監視システムに適用可能である。

　図１に示すように、映像処理システム１０は、画質制御部１１、認識部１２、抽出部１３を備える。

　画質制御部１１は、入力される映像における注視対象を含む注視領域の画質を制御する。例えば、画質制御部１１は、注視領域の画質を他の領域よりも高画質化、すなわち鮮明化してもよい。認識部１２は、画質制御部１１により注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う。例えば、物体に関する認識処理は、物体の行動を認識する行動認識処理であるが、その他の物体に関する情報や特徴などを認識する処理でもよい。

　抽出部１３は、認識部１２による認識処理の認識結果の時間的変化に基づいて、注視対象を抽出する。例えば、認識結果は、行動認識処理により認識した行動の行動ラベルのスコアを含む。行動ラベルは、認識した物体の行動の種別を示し、行動ラベルのスコアは、物体がその行動ラベルの行動を行っている確率を示す。例えば、抽出部１３は、行動ラベルのスコアの時間的増加量や時間的ばらつきに基づいて、注視対象を抽出してもよい。スコアの時間的増加量とは、時間の経過に対して、スコアが増加する量であり、スコアの時間的ばらつきとは、時間の経過に対するスコアのばらつきである。注視対象を抽出するとは、認識結果に含まれる候補の中から注視対象を選択することである。

　なお、映像処理システム１０は、１つの装置により構成してもよいし、複数の装置により構成してもよい。図２は、実施の形態に係る映像処理装置２０の構成を示している。図２に示すように、映像処理装置２０は、図１に示した、画質制御部１１、認識部１２、抽出部１３を備えてもよい。また、画質制御部１１、認識部１２、抽出部１３を、それぞれ別々の装置に実装してもよい。また、映像処理システム１０の一部または全部をエッジまたはクラウドに配置してもよい。例えば、ネットワークを介して現場で撮影された映像を監視するシステムにおいて、エッジは現場や現場の近くに配置された装置であり、また、ネットワークの階層として端末に近い装置である。例えば、エッジの端末に画質制御部１１を配置し、クラウドのサーバに認識部１２、抽出部１３を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。

　図３は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図１の映像処理システム１０や図２の映像処理装置２０により実行される。図３に示すように、まず、入力される映像における注視対象を含む注視領域の画質を制御する（Ｓ１１）。次に、注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う（Ｓ１２）。次に、認識処理の認識結果の時間的変化に基づいて、注視対象を抽出する（Ｓ１３）。さらに、Ｓ１１に戻り、入力される映像に対し、抽出された注視対象を含む注視領域の画質を制御する。

　上記のように、実施の形態に係る映像処理システムでは、画質を制御した映像から物体の行動などを認識し、その認識結果の時間的変化に基づいて、注視対象を抽出する。例えば、認識結果の時間的変化が大きい場合、より注視すべき対象である可能性が高い。このため、認識結果に対応する対象物を注視対象とすることで、画質を制御する領域を適切に選択できる。また、注視したい対象以外の領域は圧縮可能であるため、送信する映像のデータ量を抑えつつ、誤認識を防ぐことができる。

（実施の形態１）
　次に、実施の形態１について説明する。まず、本実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図４は、遠隔監視システム１の基本構成を示している。遠隔監視システム１は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像（フレームとも称する）を含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。

　図４に示すように、遠隔監視システム１は、複数の端末１００、センターサーバ２００、基地局３００、ＭＥＣ４００を備えている。端末１００、基地局３００及びＭＥＣ４００は、現場側に配置され、センターサーバ２００は、センター側に配置されている。例えば、センターサーバ２００は、現場から離れた位置に配置されているデータセンタや監視センター等に配置されている。現場側はシステムのエッジ側であり、センター側はクラウド側でもある。なお、センターサーバ２００は、１つの装置により構成してもよいし、複数の装置により構成してもよい。またセンターサーバ２００の一部または全部をクラウドに配置してもよい。例えば、映像認識機能２０１とアラート生成機能２０２とをクラウドへ配置し、ＧＵＩ描画機能２０３と画面表示機能２０４とを監視センター等に配置してもよい。

　端末１００と基地局３００との間は、ネットワークＮＷ１により通信可能に接続される。ネットワークＮＷ１は、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ（Long Term Evolution）、無線ＬＡＮなどの無線ネットワークである。基地局３００とセンターサーバ２００との間は、ネットワークＮＷ２により通信可能に接続される。ネットワークＮＷ２は、例えば、５ＧＣ（5th Generation Core network）やＥＰＣ（Evolved Packet Core）などのコアネットワーク、インターネットなどを含む。端末１００とセンターサーバ２００との間は、基地局３００を介して、通信可能に接続されているとも言える。基地局３００とＭＥＣ４００の間は任意の通信方法により通信可能に接続されるが、基地局３００とＭＥＣ４００は、１つの装置でもよい。

　端末１００は、ネットワークＮＷ１に接続される端末装置であり、現場の映像を生成する映像生成装置でもある。端末１００は、現場に設置されたカメラ１０１が撮影した映像を取得し、取得した映像を、基地局３００を介して、センターサーバ２００へ送信する。なお、カメラ１０１は、端末１００の外部に配置されてもよいし、端末１００の内部に配置されてもよい。

　端末１００は、カメラ１０１の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末１００は、圧縮効率を最適化する圧縮効率最適化機能１０２、映像送信機能１０３を有する。圧縮効率最適化機能１０２は、ＲＯＩ（Region of Interest；注視領域とも称する）の画質を制御するＲＯＩ制御を行う。圧縮効率最適化機能１０２は、人物や物体を含むＲＯＩの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。映像送信機能１０３は、画質が制御された映像をセンターサーバ２００へ送信する。

　基地局３００は、ネットワークＮＷ１の基地局装置であり、端末１００とセンターサーバ２００の間の通信を中継する中継装置でもある。例えば、基地局３００は、ローカル５Ｇの基地局、５ＧのｇＮＢ（next Generation Node B）、ＬＴＥのｅＮＢ（evolved Node B）、無線ＬＡＮのアクセスポイント等であるが、その他の中継装置でもよい。

　ＭＥＣ（Multi-access Edge Computing）４００は、システムのエッジ側に配置されたエッジ処理装置である。ＭＥＣ４００は、端末１００を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能４０１、端末制御機能４０２を有する。圧縮ビットレート制御機能４０１は、適応映像配信制御やＱｏＥ（quality of experience）制御により端末１００のビットレートを制御する。例えば、圧縮ビットレート制御機能４０１は、ネットワークＮＷ１及びＮＷ２の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末１００のカメラ１０１にビットレートを割り当てる。端末制御機能４０２は、割り当てられたビットレートの映像を送信するように端末１００を制御する。端末１００は、割り当て得られたビットレートとなるように映像をエンコードし、エンコードした映像を送信する。

　センターサーバ２００は、システムのセンター側に設置されたサーバである。センターサーバ２００は、１つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ２００は、現場のカメラ映像から人物の作業を認識することで、現場の作業を監視する監視装置である。センターサーバ２００は、端末１００から送信された映像内の人物の行動等を認識する認識装置でもある。

　センターサーバ２００は、映像認識機能２０１、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を有する。映像認識機能２０１は、端末１００から送信された映像を映像認識ＡＩ（Artificial Intelligence）エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。アラート生成機能２０２は、認識された作業に応じてアラートを生成する。ＧＵＩ描画機能２０３は、表示装置の画面にＧＵＩ（Graphical User Interface）を表示する。画面表示機能２０４は、ＧＵＩに端末１００の映像や認識結果、アラート等を表示する。

　次に、遠隔監視システム１の具体例について説明する。本実施の形態の具体例では、行動認識結果の時間的変化に基づいて注視対象を抽出する。

　図５は、本実施の形態に係る端末１００の構成例を示しており、図６は、本実施の形態に係るセンターサーバ２００の構成例を示している。なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末１００の一部の機能をセンターサーバ２００や他の装置に配置してもよいし、センターサーバ２００の一部の機能を端末１００や他の装置に配置してもよい。

　図５に示すように、端末１００は、映像取得部１１０、検出部１２０、画質変更判定部１３０、圧縮効率決定部１４０、端末通信部１５０を備えている。

　映像取得部１１０は、カメラ１０１が撮影した映像（入力映像とも称する）を取得する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部１１０は、時系列の複数の画像を取得する画像取得部でもある。

　検出部１２０は、取得された入力映像内の物体を検出する物体検出部である。検出部１２０は、入力映像に含まれる各画像内の物体を検出し、検出した物体のラベル、すなわち物体ラベルを付与する。物体ラベルは、物体のクラスであり、物体の種別を示す。例えば、物体ラベルは、人、車、ロボット、ハンマーなどを含む。検出部１２０は、入力映像に含まれる各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。検出部１２０は、矩形領域に含まれる物体の画像の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、検出部１２０は、ディープラーニングなどの機械学習を用いた物体認識エンジンにより画像内の物体を認識する。物体の画像の特徴と物体ラベルを機械学習することで物体を認識できる。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報等が含まれる。物体の位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。検出部１２０は、当該物体の検出結果を画質変更判定部１３０へ送信する。

　画質変更判定部１３０は、取得された入力映像における画質を変更する画質変更領域である注視領域（ＲＯＩ）を判定する。画質変更判定部１３０は、注視領域を決定する決定部である。注視領域は、注視対象を含む領域であり、画質を高画質化、すなわち鮮明化する領域である。また、注視領域は、行動認識のために画質を担保する領域であるともいえる。

　例えば、画質変更判定部１３０は、第１の判定部１３１と第２の判定部１３２を備える。例えば、まず第１の判定部１３１が注視領域を決定し、センターサーバ２００が行動認識した後に、第２の判定部１３２が注視領域を決定する。なお、第１の判定部１３１による注視領域の決定を省略し、第２の判定部１３２による注視領域の決定のみを行ってもよい。第１の判定部１３１は、入力映像内で検出した物体の検出結果に基づいて、入力映像の注視領域を判定する。第１の判定部１３１は、検出部１２０の入力映像内で検出した検出物体のうち注視対象となるラベルを有する物体の位置情報に基づいて、注視領域を決定する。注視対象は、行動認識の対象となる人物であってもよいし、人物が作業で使用し得る作業物体を含んでもよい。例えば、作業物体のラベルは、人物と関連がある物体のラベルとして予め設定されている。なお、行動認識の対象は、人物に限らず、重機やロボットなどの物体でもよい。すなわち、重機やロボットが行う作業を含む行動を認識してもよい。

　第２の判定部１３２は、行動を認識したセンターサーバ２００から情報がフィードバックされた場合に、フィードバックされる情報に基づいて、入力映像の注視領域を決定する。この例では、センターサーバ２００が抽出した注視対象の情報である抽出注視対象情報がフィードバックされる。抽出注視対象情報は、注視対象に関する情報であって、センターサーバ２００が行動認識を行うことにより抽出した注視対象を示す情報である。抽出注視対象情報は、注視対象の位置情報であり、注視対象の矩形領域の位置情報が含まれる。例えば、第２の判定部１３２は、取得した抽出注視対象情報が示す矩形領域を注視領域に決定する。すなわち、抽出された注視対象の位置をもとに入力映像の画質を担保する領域を決定する。

　圧縮効率決定部１４０は、注視領域または注視領域以外の他の領域の圧縮率を決定し、映像を圧縮する。圧縮効率決定部１４０は、決定した圧縮率により入力映像をエンコード（符号化）するエンコーダである。圧縮効率決定部１４０は、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりエンコードする。また、圧縮効率決定部１４０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートとなるように入力映像をエンコードする。

　圧縮効率決定部１４０は、画質変更判定部１３０が決定した注視領域の画質を制御する画質制御部であり、図１の画質制御部１１に対応する。また、圧縮効率決定部１４０は、注視領域を高画質化する高画質化部であるとも言える。注視領域は、第１の判定部１３１と第２の判定部１３２のいずれかが決定した領域である。圧縮効率決定部１４０は、注視領域と他の領域をそれぞれ所定の圧縮率で圧縮することで、注視領域の画質が所定の品質となるようにエンコードする。すなわち、注視領域と他の領域の圧縮率を変えることで注視領域を他の領域よりも高画質化する。その他の領域を注視領域よりも低画質化しているとも言える。例えば、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートの範囲で注視領域及びその他の領域の画質を制御する。なお、圧縮率に限らず、画像の解像度、フレームレート等を変えることで、注視領域の画質を制御してもよい。また、画像の色の情報量、例えば、カラー、グレースケール、白黒等を変えることで、注視領域の画質を制御してもよい。

　端末通信部１５０は、圧縮効率決定部１４０がエンコードしたエンコードデータを、基地局３００を介して、センターサーバ２００へ送信する。端末通信部１５０は、注視領域の画質が制御された映像を送信する送信部である。また、端末通信部１５０は、センターサーバ２００から送信された抽出注視対象情報を、基地局３００を介して受信する。端末通信部１５０は、抽出注視対象情報を取得する取得部である。端末通信部１５０は、基地局３００と通信可能なインタフェースであり、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ、無線ＬＡＮ等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。端末通信部１５０は、エンコードデータを送信する第１の端末通信部と、抽出注視対象情報を受信する第２の端末通信部を含んでもよい。第１の端末通信部と第２の端末通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　図６に示すように、センターサーバ２００は、センター通信部２１０、デコーダ２２０、行動認識部２３０、分析情報保存部２４０、注視対象解析部２５０を備えている。

　センター通信部２１０は、端末１００から送信されたエンコードデータを、基地局３００を介して受信する。センター通信部２１０は、注視領域の画質が制御された映像を受信する受信部である。また、センター通信部２１０は、注視対象解析部２５０が抽出した抽出注視対象情報を、基地局３００を介して端末１００へ送信する。センター通信部２１０は、抽出注視対象情報を通知する通知部である。センター通信部２１０は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、ＩＰ通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。センター通信部２１０は、エンコードデータを受信する第１のセンター通信部と、抽出注視対象情報を送信する第２のセンター通信部を含んでもよい。第１のセンター通信部と第２のセンター通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　デコーダ２２０は、端末１００から受信したエンコードデータをデコード（復号化）する。デコーダ２２０は、端末１００の符号化方式に対応し、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりデコードする。デコーダ２２０は、各領域の圧縮率に応じてデコードし、デコードした映像（受信映像とも称する）を生成する。

　行動認識部２３０は、デコードした受信映像における物体の行動を認識する認識部であり、図１の認識部１２に対応する。行動認識部２３０は、注視領域の画質が制御された映像に対し、注視対象の行動を認識する行動認識処理を実行する。行動認識部２３０は、受信映像から物体を検出し、検出した物体の行動を認識する。行動認識部２３０は、行動認識の対象である人物の行動を認識し、認識した行動のラベル、すなわち行動ラベルを付与する。行動ラベルは、行動のクラスであり、行動の種別を示す。

　例えば、行動認識部２３０は、受信映像から検出される人物と作業物体とに基づいて、人物の行動を認識する。行動認識部２３０は、人物と作業物体の関連性を特定することで人物の行動を認識してもよい。人物と作業物体の関連性は、人物がどの物体を使用しているか、あるいは物体を使用していないかを含む。例えば、人物と作業物体との距離から人物ごとに作業物体を特定し、特定した作業物体から行動を認識してもよい。例えば、行動認識部２３０は、人物に関連する作業物体と作業とを機械学習し、機械学習ベースで人物の行動を認識する。なお、機械学習ベースに限らず、人物に関連する作業物体と作業とを関連付け、ルールベースで人物の行動を認識してもよい。例えば、作業物体と作業内容とを予め関連付けておき、検出された作業物体に基づいて、人物の行動を認識してもよい。また、作業物体が検出されない場合、人物のみから行動を認識してもよい。例えば、人物の姿勢や形状と作業内容とを予め関連付けておき、検出された人物の姿勢や形状に基づいて、人物の行動を認識してもよい。

　分析情報保存部２４０は、行動認識部２３０が分析した分析情報を保存する。分析情報は、行動認識結果、人物の検出情報、行動に関連する作業物体の検出情報等を含む。なお、行動認識結果が、人物の検出情報と行動に関連する作業物体の検出情報を含んでいてもよい。行動認識結果は、認識した行動のラベル、行動ラベルのスコア、認識した行動を行う人物の識別情報、認識した行動で使用される作業物体の識別情報等を含む。行動ラベルのスコアは、行動ラベルの確からしさ（確率）である確信度を示す。スコアが高いほど、予測した行動ラベルの行動が正しい可能性が高い。人物の検出情報は、人物の矩形領域の位置情報、トラッキング情報等を含む。トラキング情報は、物体のトラッキング結果を示す軌跡情報である。作業物体の検出情報は、物体ラベル、物体ラベルのスコア、物体の矩形領域の位置情報、トラッキング情報等を含む。例えば、行動認識部２３０の行動予測器（行動認識エンジン）は、行動に関係する物体に重みがかかるように学習することで、画像ごとに関連し得る作業物体の候補を抽出し、抽出した作業物体の候補の情報を出力する。例えば、くい打ち作業を認識した場合、行動に関連する物体であるハンマーの情報を出力する。

　注視対象解析部２５０は、行動認識部２３０が分析した分析情報に基づいて、注視対象を抽出する抽出部であり、図１の抽出部１３に対応する。分析情報は、行動認識部２３０から取得してもよいし、分析情報保存部２４０から取得してもよい。注視対象解析部２５０は、分析された情報をもとに、行動認識ミスを防ぐために画質を担保する注視対象を決定する。例えば、注視対象解析部２５０は、行動認識結果に基づいて注視対象を決定する。注視対象解析部２５０は、行動認識部２３０により行動が認識された人物、すなわち、行動認識結果に含まれる行動の人物を注視対象とする。人物と関連する作業物体とから行動が認識された場合、人物と作業物体を注視対象としてもよい。人物と関連する作業物体は複数あってもよく、人物と複数の作業物体を注視対象としてもよい。例えば、くい打ち作業が認識された場合に、作業に関連する物体を「くい」および「ハンマー」として、人物と「くい」および「ハンマー」を注視対象としてもよい。

　本実施の形態では、注視対象解析部２５０は、行動認識結果の時間的変化に基づいて注視対象を抽出する。例えば、着目する行動ラベルのスコアの時間的な増加量に基づいて、スコアが上昇している、すなわち増加していると判定された場合、当該行動ラベルの行動を行った人物及び作業物体を含む物体を注視対象に決定してもよい。また、行動ラベルのスコアと閾値との比較結果に基づいて、注視対象を決定してもよいし、行動ラベルのスコアの時間的なばらつきに応じて、注視対象を決定してもよい。

　注視対象解析部２５０は、抽出した注視対象の矩形領域の位置情報を、抽出注視対象情報として出力する。位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、注視対象の任意の点の位置でもよい。抽出注視対象情報は、抽出した注視対象に関する情報として、位置情報に限らず、注視対象の物体ラベルや画像の特徴、行動ラベル、行動ラベルのスコアなど、行動認識部２３０で分析された情報を含んでもよい。

　図７は、センターサーバ２００における行動認識部２３０の構成例を示している。図７は、人物と作業物体との関連性による行動認識を、機械学習ベースで行う場合の構成例である。図７の例では、行動認識部２３０は、物体検出部２３１、追跡部２３２、行動予測器２３３、行動判定部２３４を備えている。

　物体検出部２３１は、入力される受信映像内の物体を検出する。例えば、物体検出部２３１は、端末１００の検出部１２０と同様、機械学習を用いた物体認識エンジンなどの検出部である。すなわち、物体検出部２３１は、受信映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報が含まれる。

　追跡部２３２は、検出された受信映像内の物体をトラッキングする。追跡部２３２は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。検出された物体にトラッキングＩＤを割り当てることで、各物体を識別してトラッキングすることができる。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なり（例えばＩｏＵ：Intersection over Union）により画像間の物体を対応付けることで、物体をトラッキングする。

　行動予測器２３３は、追跡部２３２がトラッキングした物体ごとに、物体の行動を予測する。行動予測器２３３は、受信映像内でトラッキングされた人物の行動を認識し、認識した行動のラベルを付与する。例えば、行動予測器２３３は、ディープラーニングなどの機械学習を用いた行動認識エンジンにより受信映像内の人物の行動を認識する。作業物体を用いて作業を行う人物の映像と行動ラベルを機械学習することで人物の行動を認識できる。例えば、作業物体を使用して作業を行っている人物の映像である学習データ、人物及び作業物体の位置や人物と物体の関連情報などのアノテーション情報、各作業に必要な作業物体などの行動情報を用いて、機械学習する。また、行動予測器２３３は、認識した行動ラベルのスコアを出力する。

　行動判定部２３４は、予測された行動ラベルに基づいて、物体の行動を判定する。行動判定部２３４は、行動予測器２３３が予測した行動ラベルのスコアに基づいて、人物の行動を決定する。例えば、行動判定部２３４は、最もスコアが高い行動ラベルを認識結果として出力する。

　次に、本実施の形態に係る遠隔監視システムの動作について説明する。図８は、遠隔監視システム１の動作例を示している。例えば、端末１００がＳ１０１～Ｓ１０５、Ｓ１１１～Ｓ１１２を実行し、センターサーバ２００がＳ１０６～Ｓ１１０を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。

　図８に示すように、端末１００は、カメラ１０１から映像を取得する（Ｓ１０１）。カメラ１０１は、現場を撮影した映像を生成し、映像取得部１１０は、カメラ１０１から出力される映像（入力映像）を取得する。例えば、図９に示すように、入力映像の画像には、現場で作業を行う人物や、人物が使用するハンマーなどの作業物体が含まれている。

　続いて、端末１００は、取得した入力映像に基づいて物体を検出する（Ｓ１０２）。検出部１２０は、物体認識エンジンを用いて、入力映像に含まれる画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。検出部１２０は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。例えば、図９の画像から物体検出を行うと、図１０のように、人物及びハンマーを検出し、人物の矩形領域とハンマーの矩形領域を検出する。

　続いて、端末１００は、物体検出結果に基づいて、入力映像における注視領域を決定する（Ｓ１０３）。画質変更判定部１３０の第１の判定部１３１は、各物体の物体検出結果に基づいて、注視対象となるラベルを有する物体を抽出する。第１の判定部１３１は、検出された物体から、物体ラベルが人物または作業物体である物体を抽出し、該当する物体の矩形領域を注視領域に決定する。図１０の例では、画像内で人物とハンマーが検出され、ハンマーは作業物体に該当するため、人物の矩形領域とハンマーの矩形領域を注視領域に決定する。

　続いて、端末１００は、決定した注視領域に基づいて、入力映像をエンコードする（Ｓ１０４）。圧縮効率決定部１４０は、注視領域が他の領域よりも高画質となるように、入力映像をエンコードする。図１０の例では、人物の矩形領域とハンマーの矩形領域の圧縮率を他の領域の圧縮率よりも下げることで、人物の矩形領域とハンマーの矩形領域を高画質化する。

　続いて、端末１００は、エンコードしたエンコードデータをセンターサーバ２００へ送信し（Ｓ１０５）、センターサーバ２００は、エンコードデータを受信する（Ｓ１０６）。端末通信部１５０は、注視領域を高画質化したエンコードデータを基地局３００へ送信する。基地局３００は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ２００へ転送する。センター通信部２１０は、転送されたエンコードデータを、基地局３００から受信する。

　続いて、センターサーバ２００は、受信したエンコードデータをデコードする（Ｓ１０７）。デコーダ２２０は、各領域の圧縮率に応じてエンコードデータをデコードし、注視領域が高画質化された映像（受信映像）を生成する。

　続いて、センターサーバ２００は、デコードした受信映像に基づいて物体の行動を認識する（Ｓ１０８）。図１１は、図７で示した行動認識部２３０による行動認識処理の例を示している。

　図１１の例では、まず、物体検出部２３１は、入力される受信映像内の物体を検出する（Ｓ２０１）。物体検出部２３１は、物体認識エンジンを用いて、受信映像に含まれる各画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体検出部２３１は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。

　続いて、追跡部２３２は、検出された受信映像内の物体をトラッキングする（Ｓ２０２）。追跡部２３２は、検出された各物体にトラッキングＩＤを割り当て、トラッキングＩＤにより識別される物体を各画像でトラッキングする。

　続いて、行動予測器２３３は、トラッキングした物体ごとに、物体の行動を予測する（Ｓ２０３）。行動予測器２３３は、行動認識エンジンを用いて、トラッキングした人物と作業物体を含む映像から人物の行動を予測する。行動予測器２３３は、予測した行動のラベルと、各行動ラベルのスコアを出力する。

　続いて、行動判定部２３４は、予測した行動ラベルのスコアに基づいて、物体の行動を判定する（Ｓ２０４）。図１２の例では、トラッキングにより人物とハンマーとが検出されている。行動予測器２３３は、検出された人物とハンマーの映像に基づいて人物の行動を認識し、各行動ラベルのスコアを出力する。例えば、くい打ちのスコアが０．８、重機作業のスコアが０．１、不安全行動のスコアが０．０、作業外のスコアが０．１である。そうすると、行動判定部２３４は、くい打ちのスコアが最も高いため、人物の行動はくい打ちであると決定する。行動判定部２３４は、決定した行動と、行動のスコアを出力する。

　図８に戻り、行動認識処理に続いて、センターサーバ２００は、行動認識処理により分析された分析情報に基づいて、注視対象を抽出する（Ｓ１０９）。注視対象解析部２５０は、行動が認識された人物を注視対象とし、さらに認識対象に作業物体が含まれる場合、作業物体も注視対象に含めてもよい。例えば、図１２の例では、人物とハンマーからくい打ちの作業が認識されているため、作業を認識した人物及びハンマーを注視対象としてもよい。注視対象解析部２５０は、抽出した注視対象の位置情報を含む注視対象抽出情報を出力する。

　本実施の形態では、行動認識結果の時間的変化に基づいて注視対象を抽出する。図１３は、本実施の形態に係る注視対象抽出処理の動作例を示している。複数の物体の行動が認識されている場合、各物体の認識結果に対し注視対象抽出処理を行う。図１３の例では、まず、注視対象解析部２５０は、着目する行動ラベルのスコアを抽出する（Ｓ３０１）。着目する行動ラベルは、認識可能な行動の行動ラベルのうち、ユーザが着目したい行動の行動ラベルである。例えば、着目する行動ラベルが予め設定されており、注視対象解析部２５０は、行動認識結果の中から、設定された行動ラベルのスコアを抽出する。例えば、行動予測器２３３が生成した複数の行動ラベルのスコアの中から、該当する行動ラベルのスコアを抽出する。着目する行動ラベルが複数ある場合には、行動認識結果の中から、該当する複数の着目する行動ラベルのスコアを抽出してもよい。なお、着目する行動ラベルに限らず、行動認識結果に含まれる複数の行動ラベルのスコアから任意の行動ラベルのスコア、例えば、最も高いスコアを抽出してもよい。

　続いて、注視対象解析部２５０は、着目する行動ラベルのスコアの時間的変化を判定する（Ｓ３０２）。例えば、注視対象解析部２５０は、着目する行動ラベルのスコアの時間的変化により、スコアが上昇しているか否か、すなわち上昇傾向にあるか否か判定する。例えば、図１４に示すように、所定期間における行動ラベルのスコアの変化量、すなわち上昇率が所定の閾値よりも大きいか否か判定してもよい。また、図１５に示すように、複数の時間（例えばＴ０～Ｔ３）における行動ラベルのスコアが、連続して前の時間よりも増加しているか否か判定してもよい。

　また、注視対象解析部２５０は、着目する行動ラベルのスコアが所定の閾値よりも大きいか否か判定してもよい。例えば、複数の時間における行動ラベルのスコアと閾値とを比較する。閾値は、行動ラベルごとに設定されていてもよい。例えば、各時間でスコアが連続して閾値を超えているか否か判定してもよいし、各時間でスコアが閾値を超えている回数を判定してもよい。

　また、注視対象解析部２５０は、着目する行動ラベルのスコアのばらつきが大きいか否か判定してもよい。例えば、複数の時間における行動ラベルのスコアのばらつきが所定の範囲内か否か判定する。

　着目する行動ラベルのスコアの時間的変化によりスコアが上昇していると判定された場合、注視対象解析部２５０は、着目する行動ラベルの行動を行う対象物体を注視対象に決定する（Ｓ３０３）。図１４の例で、所定期間の１分間でスコアが３倍に増加している場合、スコアが上昇傾向にあると判定し、該当する行動ラベルの対象物体を注視対象に決定する。また、図１５の例で、Ｔ１～Ｔ３の３点／sでスコアが連続して増加し続けている場合、スコアが上昇傾向にあると判定し、該当する行動ラベルの対象物体を注視対象に決定する。行動ラベルのスコアが上昇傾向にある場合、より着目したい行動である可能性が高まっているため、当該行動ラベルの物体を注視対象に決定し、高画質化される映像により該当する物体の行動を精度よく認識することを可能とする。

　また、着目する行動ラベルのスコアが閾値よりも大きいと判定された場合、注視対象解析部２５０は、着目する行動ラベルの対象物体を注視対象に決定してもよい。例えば、３点／sでスコアが連続して閾値よりも大きい場合に、スコアの大きい状態が続いていると判定し、該当する行動ラベルの対象物体を注視対象に決定する。行動ラベルのスコアの大きい状態が続いている場合、着目したい行動が継続して行われている可能性が高いため、当該行動ラベルの物体を注視対象に決定し、高画質化される映像により該当する物体の行動を精度よく認識することを可能とする。

　また、着目する行動ラベルのスコアのばらつきが大きいと判定された場合、注視対象解析部２５０は、着目する行動ラベルの対象物体を注視対象に決定してもよい。例えば、時間Ｔ＝１でスコアが０.１、時間Ｔ＝２でスコアが０．８、時間Ｔ＝３でスコアが０．２、時間Ｔ＝４でスコアが０．９の場合、時間ごとにスコアが大きく変化するため、ばらつきが大きいと判定し、該当する行動ラベルの対象物体を注視対象に決定する。また、ばらつきは、過去複数回の認識結果における行動ラベルのスコアの分散を用いて測ってもよく、分散があらかじめ定義した閾値を超えた場合、ばらつきが大きいと判定し、該当する行動ラベルの対象物体を注視対象に決定してもよい。行動ラベルのスコアがばらついている場合、行動ラベルを正しく判定できていない可能性が高いため、当該行動ラベルの物体を注視対象に決定し、高画質化される映像により該当する物体の行動を正しく判定することを可能とする。

　一方、着目する行動ラベルのスコアの時間的変化によりスコアが上昇していないと判定された場合、注視対象解析部２５０は、着目する行動ラベルの行動を行う対象物体を注視対象から除外する（Ｓ３０４）。すなわち、この場合、注視対象解析部２５０は、当該物体を注視対象に選択しない。図１４の例で、所定期間の１分間でスコアの増加が２倍未満である場合、スコアが上昇傾向にはない判定し、該当する行動ラベルの対象物体を注視対象から除外する。また、図１５の例で、Ｔ１～Ｔ３の３点／sのうちスコアが１点でも減少している場合に、スコアが上昇傾向にはないと判定し、該当する行動ラベルの対象物体を注視対象から除外する。

　また、着目する行動ラベルのスコアが閾値よりも小さいと判定された場合、注視対象解析部２５０は、着目する行動ラベルの対象物体を注視対象から除外してもよい。例えば、３点／sのうちスコアが１点でも閾値を下回る場合に、スコアが大きい状態が続いていないと判定し、該当する行動ラベルの対象物体を注視対象から除外する。

　また、着目する行動ラベルのスコアのばらつきが小さいと判定された場合、注視対象解析部２５０は、着目する行動ラベルの対象物体を注視対象から除外してもよい。例えば、時間Ｔ＝１でスコアが０.７、時間Ｔ＝２でスコアが０．８、時間Ｔ＝３でスコアが０．８、時間Ｔ＝４でスコアが０．９の場合、時間ごとにスコアの変化が小さいため、ばらつきが小さいと判定し、該当する行動ラベルの対象物体を注視対象から除外する。また、ばらつきは、過去複数回の認識結果における行動ラベルのスコアの分散を用いて測ってもよく、分散があらかじめ定義した閾値より小さい場合、ばらつきが小さいと判定し、該当する行動ラベルの対象物体を注視対象から除外してもよい。

　図８に戻り、注視対象抽出処理に続いて、センターサーバ２００は、注視対象抽出処理により抽出した抽出注視対象情報を端末１００へ通知し（Ｓ１１０）、端末１００は、抽出注視対象情報を取得する（Ｓ１１１）。センター通信部２１０は、抽出した注視対象の位置を示す抽出注視対象情報を、インターネットやコアネットワークを介して、基地局３００へ送信する。基地局３００は、受信した抽出注視対象情報を端末１００へ転送する。端末通信部１５０は、転送された抽出注視対象情報を、基地局３００から受信する。

　続いて、端末１００は、受信した抽出注視対象情報に基づいて、注視領域を決定する（Ｓ１１２）。画質変更判定部１３０の第２の判定部１３２は、センターサーバ２００から通知された抽出注視対象情報が示す領域を注視領域に決定する。図１６の例では、抽出注視対象情報が人物の矩形領域とハンマーの矩形領域を示しており、これらの領域を注視領域に決定する。また、人物の矩形領域とハンマーの矩形領域を含む外接領域を注視領域としてもよい。この外接領域をセンターサーバ２００から端末１００へ通知してもよい。以降、Ｓ１０４～Ｓ１１２を繰り返す。

　以上のように、本実施の形態では、映像から物体の行動を認識するシステムにおいて、行動認識結果の時間的変化に基づいて、注視対象を抽出し、抽出した注視対象を含む領域の画質を鮮明化する。例えば、行動認識結果が時間的に上昇している場合や時間的にばらついている場合、その物体の行動を認識する必要性が高いと想定される。このため、行動認識結果の時間的変化に基づいて判断することで、適切に注視すべき対象を選択できる。したがって、行動認識結果に応じて、注視したい対象を含む特定の部分の画質を担保し、その他の領域は圧縮が可能となるため、送信するデータ量を抑えつつ行動認識ミスを防ぐことができる。

（実施の形態２）
　次に、実施の形態２について説明する。本実施の形態では、行動認識結果に含まれる物体の位置関係に基づいて抽出対象を抽出する例について説明する。本実施の形態に係る遠隔監視システムの構成は、実施の形態１の図５及び図６と同様であるため、説明を省略する。なお、本実施の形態は、実施の形態１と組み合わせて実施することが可能であり、実施の形態１で示した各構成を適宜使用してもよい。

　本実施の形態では、遠隔監視システムの全体の動作の流れは、実施の形態１の図８と同様であり、注視対象抽出処理（Ｓ１０９）のみが実施の形態１と異なる。図１７は、本実施の形態に係る注視対象抽出処理の動作例を示している。なお、実施の形態１の注視対象抽出処理と本実施の形態の注視対象抽出処理とのいずれかの処理により、注視対象を抽出してもよいし、実施の形態１の注視対象抽出処理と本実施の形態の注視対象抽出処理との両方の処理により、注視対象を抽出してもよい。

　図１７の例では、まず、注視対象解析部２５０は、判定したい行動に関連する関連物体と周辺物体を選択する（Ｓ３１１）。判定したい行動に関連する関連物体は、認識可能な行動のうち、ユーザが判定したい行動に関連する関連物体である。関連物体は、人物が作業で使用する作業物体である。例えば、判定したい行動に関連する関連物体の物体ラベルが予め設定されており、注視対象解析部２５０は、行動認識結果に含まれる物体の物体ラベルが設定された物体ラベルに該当する場合、行動認識結果に含まれる物体を関連物体として選択する。

　さらに、注視対象解析部２５０は、行動認識を行った映像における関連物体の周辺の周辺物体を選択する。物体検出により映像から検出された関連物体以外の全ての物体を周辺物体に選択してもよいし、画像において関連物体を中心として所定の範囲内で検出された物体を周辺物体に選択してもよい。周辺物体は、特定の物体ラベルを有する物体でもよいし、任意の物体でもよい。例えば、周辺物体とする物体の物体ラベルを予め設定しておき、設定された物体ラベルを有する物体を周辺物体に選択してもよい。図１８の例では、不安全行動として重機接近を判定したい場合に、行動認識結果の中から重機接近に関連する重機Ｍ１を関連物体として選択し、重機Ｍ１の周辺の人物Ｐ１及びＰ２を周辺物体として選択する。

　続いて、注視対象解析部２５０は、選択した関連物体と周辺物体との位置関係を算出する（Ｓ３１２）。注視対象解析部２５０は、関連物体と周辺物体との位置関係として、画像上における近さの指標を算出する。画像上における近さの指標は、例えば、物体の矩形領域の中心のユークリッド距離や、物体の矩形領域の四角のユークリッド距離の平均、物体の矩形の重なり度合い（ＩｏＵ)などである。複数の周辺物体が選択されている場合、関連物体と各周辺物体との間の近さの指標を算出する。図１８の例では、重機Ｍ１の矩形領域の中心と人物Ｐ１の矩形領域の中心との間のユークリッド距離を算出し、重機Ｍ１の矩形領域の中心と人物Ｐ２の矩形領域中心との間のユークリッド距離を算出する。

　続いて、注視対象解析部２５０は、算出した位置関係により、関連物体と周辺物体と間が近いか否か判定し（Ｓ３１３）、関連物体と周辺物体とが近いと判定された場合、周辺物体を注視対象に決定する（Ｓ３１４）。例えば、近さの指標がある閾値を満たした場合や、近さの指標の時間変化がある閾値を超えた場合に、周辺物体を注視対象に決定する。物体間のユークリッド距離が閾値より小さい場合や、物体間の重なり度合が閾値より大きい場合に、周辺物体を注視対象に決定してもよい。図１８の例では、重機Ｍ１の矩形領域の中心と人物Ｐ１の矩形領域の中心との間のユークリッド距離が閾値より小さい場合、人物Ｐ１を注視対象に決定する。また、図１９の例では、時間Ｔａ以降の場合、矩形領域の重なり度合いが閾値を超えているため、周辺物体を注視対象に決定する。なお、関連物体と周辺物体の位置関係の時間的変化に応じて、注視対象を決定してもよい。例えば、関連物体と周辺物体の距離が徐々に近づいている場合や距離が閾値よりも近くなった場合に、周辺物体を注視対象に決定してもよい。関連物体の領域と周辺物体の領域の重なりが徐々に増えている場合や重なりが閾値よりも増えた場合に、周辺物体を注視対象に決定してもよい。また、関連物体と周辺物体の位置関係に限らず、関連物体や周辺物体の向きに基づいて、注視対象を決定してもよい。例えば、周辺物体である人物の向きが、関連物体の方へ向いている場合、周辺物体を注視対象に決定してもよい。

　また、関連物体と周辺物体とが離れていると判定された場合、注視対象解析部２５０は、周辺物体を注視対象から除外する（Ｓ３１５）。すなわち、当該周辺物体を注視対象に選択しない。例えば、近さの指標がある閾値を満たさない場合や、近さの指標の時間変化がある閾値を超えない場合に、周辺物体を注視対象から除外する。物体間のユークリッド距離が閾値より大きい場合や、物体間の重なり度合が閾値より小さい場合に、周辺物体を注視対象から除外してもよい。図１８の例では、重機Ｍ１の矩形領域の中心と人物Ｐ２の矩形領域の中心との間のユークリッド距離が閾値より大きい場合、人物Ｐ２を注視対象から除外する。また、図１９の例では、時間Ｔａ以前の場合、矩形領域の重なり度合いが閾値より小さいため、周辺物体を注視対象に選択しない。

　以上のように、判定したい行動に関連する関連物体と周辺物体の位置関係に基づいて、注視対象を決定してもよい。これにより、例えば、不安全行動のように危険な状態となった場合に、危険な行動を行っている人物を注視対象とすることができる。したがって、その人物を含む領域の画質を担保し、精度よく不安全行動などの行動を認識することができる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記実施の形態では、センターサーバが注視対象を抽出し、端末が抽出された注視対象に基づいて注視領域を決定したが、センターサーバが抽出された注視対象に基づいて注視領域を決定してもよい。この場合、センターサーバから端末に注視領域の座標やその領域の大きさを通知してもよい。

　また、上記実施の形態で説明した処理フローは、一例であり、各処理の順序は上記の例に限られない。一部の処理の順序を入れ替えて実行してもよいし、一部の処理を並行して実行してもよい。

　上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、図２０に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ３１及び記憶装置であるメモリ３２を有するコンピュータ３０により実現してもよい。例えば、メモリ３２に実施形態における方法（映像処理方法）を行うためのプログラムを格納し、各機能を、メモリ３２に格納されたプログラムをプロセッサ３１で実行することにより実現してもよい。

　これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
　前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出する抽出手段と、
　を備える、映像処理システム。
（付記２）
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記抽出手段は、前記認識結果に含まれる行動ラベルのスコアの時間的変化に基づいて、前記注視対象を抽出する、
　付記１に記載の映像処理システム。
（付記３）
　前記抽出手段は、前記行動ラベルのスコアの時間的増加量に基づいて、前記注視対象を抽出する、
　付記２に記載の映像処理システム。
（付記４）
　前記抽出手段は、前記行動ラベルのスコアの時間的ばらつきに基づいて、前記注視対象を抽出する、
　付記２に記載の映像処理システム。
（付記５）
　前記抽出手段は、前記認識する行動に関連する関連物体と他の物体との位置関係に基づいて、前記注視対象を抽出する、
　付記２から４のいずれか一項に記載の映像処理システム。
（付記６）
　前抽出手段は、前記関連物体と前記他の物体との距離が所定の閾値より近くなると、前記他の物体を前記注視対象に決定する、
　付記５に記載の映像処理システム。
（付記７）
　前記抽出手段は、前記関連物体を含む領域と前記他の物体を含む領域との重なりが所定の閾値より増えると、前記他の物体を前記注視対象に決定する、
　付記５に記載の映像処理システム。
（付記８）
　入力される映像における注視対象を含む注視領域の画質を制御し、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、
　前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出する、
　映像処理方法。
（付記９）
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記認識結果に含まれる行動ラベルのスコアの時間的変化に基づいて、前記注視対象を抽出する、
　付記８に記載の映像処理方法。
（付記１０）
　前記行動ラベルのスコアの時間的増加量に基づいて、前記注視対象を抽出する、
　付記９に記載の映像処理方法。
（付記１１）
　前記行動ラベルのスコアの時間的ばらつきに基づいて、前記注視対象を抽出する、
　付記９に記載の映像処理方法。
（付記１２）
　前記認識する行動に関連する関連物体と他の物体との位置関係に基づいて、前記注視対象を抽出する、
　付記９から１１のいずれか一項に記載の映像処理方法。
（付記１３）
　前記関連物体と前記他の物体との距離が所定の閾値より近くなると、前記他の物体を前記注視対象に決定する、
　付記１２に記載の映像処理方法。
（付記１４）
　前記関連物体を含む領域と前記他の物体を含む領域との重なりが所定の閾値より増えると、前記他の物体を前記注視対象に決定する、
　付記１２に記載の映像処理方法。
（付記１５）
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
　前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出する抽出手段と、
　を備える、映像処理装置。
（付記１６）
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記抽出手段は、前記認識結果に含まれる行動ラベルのスコアの時間的変化に基づいて、前記注視対象を抽出する、
　付記１５に記載の映像処理装置。
（付記１７）
　前記抽出手段は、前記行動ラベルのスコアの時間的増加量に基づいて、前記注視対象を抽出する、
　付記１６に記載の映像処理装置。
（付記１８）
　前記抽出手段は、前記行動ラベルのスコアの時間的ばらつきに基づいて、前記注視対象を抽出する、
　付記１６に記載の映像処理装置。
（付記１９）
　前記抽出手段は、前記認識する行動に関連する関連物体と他の物体との位置関係に基づいて、前記注視対象を抽出する、
　付記１６から１８のいずれか一項に記載の映像処理装置。
（付記２０）
　前記抽出手段は、前記関連物体と前記他の物体との距離が所定の閾値より近くなると、または、前記関連物体を含む領域と前記他の物体を含む領域との重なりが所定の閾値より増えると、前記他の物体を前記注視対象に決定する、
　付記１９に記載の映像処理装置。

１　　　遠隔監視システム
１０　　映像処理システム
１１　　画質制御部
１２　　認識部
１３　　抽出部
２０　　映像処理装置
３０　　コンピュータ
３１　　プロセッサ
３２　　メモリ
１００　端末
１０１　カメラ
１０２　圧縮効率最適化機能
１０３　映像送信機能
１１０　映像取得部
１２０　検出部
１３０　画質変更判定部
１３１　第１の判定部
１３２　第２の判定部
１４０　圧縮効率決定部
１５０　端末通信部
２００　センターサーバ
２０１　映像認識機能
２０２　アラート生成機能
２０３　ＧＵＩ描画機能
２０４　画面表示機能
２１０　センター通信部
２２０　デコーダ
２３０　行動認識部
２３１　物体検出部
２３２　追跡部
２３３　行動予測器
２３４　行動判定部
２４０　分析情報保存部
２５０　注視対象解析部
３００　基地局
４００　ＭＥＣ
４０１　圧縮ビットレート制御機能
４０２　端末制御機能

Claims

　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
　前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出する抽出手段と、
　を備える、映像処理システム。
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記抽出手段は、前記認識結果に含まれる行動ラベルのスコアの時間的変化に基づいて、前記注視対象を抽出する、
　請求項１に記載の映像処理システム。
　前記抽出手段は、前記行動ラベルのスコアの時間的増加量に基づいて、前記注視対象を抽出する、
　請求項２に記載の映像処理システム。
　前記抽出手段は、前記行動ラベルのスコアの時間的ばらつきに基づいて、前記注視対象を抽出する、
　請求項２に記載の映像処理システム。
　前記抽出手段は、前記認識する行動に関連する関連物体と他の物体との位置関係に基づいて、前記注視対象を抽出する、
　請求項２から４のいずれか一項に記載の映像処理システム。
　前記抽出手段は、前記関連物体と前記他の物体との距離が所定の閾値より近くなると、前記他の物体を前記注視対象に決定する、
　請求項５に記載の映像処理システム。
　前記抽出手段は、前記関連物体を含む領域と前記他の物体を含む領域との重なりが所定の閾値より増えると、前記他の物体を前記注視対象に決定する、
　請求項５に記載の映像処理システム。
　入力される映像における注視対象を含む注視領域の画質を制御し、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行い、
　前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出する、
　映像処理方法。
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記認識結果に含まれる行動ラベルのスコアの時間的変化に基づいて、前記注視対象を抽出する、
　請求項８に記載の映像処理方法。
　前記行動ラベルのスコアの時間的増加量に基づいて、前記注視対象を抽出する、
　請求項９に記載の映像処理方法。
　前記行動ラベルのスコアの時間的ばらつきに基づいて、前記注視対象を抽出する、
　請求項９に記載の映像処理方法。
　前記認識する行動に関連する関連物体と他の物体との位置関係に基づいて、前記注視対象を抽出する、
　請求項９から１１のいずれか一項に記載の映像処理方法。
　前記関連物体と前記他の物体との距離が所定の閾値より近くなると、前記他の物体を前記注視対象に決定する、
　請求項１２に記載の映像処理方法。
　前記関連物体を含む領域と前記他の物体を含む領域との重なりが所定の閾値より増えると、前記他の物体を前記注視対象に決定する、
　請求項１２に記載の映像処理方法。
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に含まれる物体に関する認識処理を行う認識手段と、
　前記認識処理の認識結果の時間的変化に基づいて、前記注視対象を抽出する抽出手段と、
　を備える、映像処理装置。
　前記認識処理は、前記物体の行動を認識する処理を含み、
　前記抽出手段は、前記認識結果に含まれる行動ラベルのスコアの時間的変化に基づいて、前記注視対象を抽出する、
　請求項１５に記載の映像処理装置。
　前記抽出手段は、前記行動ラベルのスコアの時間的増加量に基づいて、前記注視対象を抽出する、
　請求項１６に記載の映像処理装置。
　前記抽出手段は、前記行動ラベルのスコアの時間的ばらつきに基づいて、前記注視対象を抽出する、
　請求項１６に記載の映像処理装置。
　前記抽出手段は、前記認識する行動に関連する関連物体と他の物体との位置関係に基づいて、前記注視対象を抽出する、
　請求項１６から１８のいずれか一項に記載の映像処理装置。
　前記抽出手段は、前記関連物体と前記他の物体との距離が所定の閾値より近くなると、または、前記関連物体を含む領域と前記他の物体を含む領域との重なりが所定の閾値より増えると、前記他の物体を前記注視対象に決定する、
　請求項１９に記載の映像処理装置。