WO2024047791A1

WO2024047791A1 - 映像処理システム、映像処理方法、及び映像処理装置

Info

Publication number: WO2024047791A1
Application number: PCT/JP2022/032761
Authority: WO
Inventors: 康敬馬場崎; 勝彦高橋; 君朴; 隆平安藤; 孝法岩井; 浩一二瓶; フロリアンバイエ; 勇人逸身
Original assignee: 日本電気株式会社
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-07

Abstract

映像処理システム（１０）は、入力される映像における注視対象を含む注視領域の画質を制御する画質制御部（１１）と、注視領域の画質が制御された映像に対し、注視対象を認識する認識処理を実行する認識部（１２）と、認識処理から抽出される抽出情報に基づいて、認識処理を行った映像より後の映像における注視対象の位置を予測する予測部（１３）と、予測された注視対象の位置に基づいて、画質制御部（１１）が後の映像において画質を制御する注視領域を決定する決定部（１４）と、を備える、

Description

映像処理システム、映像処理方法、及び映像処理装置

　本開示は、映像処理システム、映像処理方法、及び映像処理装置に関する。

　カメラにより撮影した映像に対し機械学習を用いた検出技術や認識技術を適用することで監視等を行うシステムの開発が進められている。

　関連する技術として、例えば、特許文献１が知られている。特許文献１には、車両に搭載された複数のカメラが撮影した映像を、ネットワークを介して送信する遠隔監視システムにおいて、ネットワークの使用可能帯域やカメラ毎に検出された対象物の重要度に応じて、各カメラに帯域を割り当てる技術が記載されている。また、特許文献１には、対象物の位置を予測して、対象物が存在し得る領域を取得することも記載されている。

国際公開第２０２１／０７０２１４号

　特許文献１では、映像から検出された物体の重要度に応じて、映像を伝送する帯域を適切に制御することが可能である。一方、映像に対し行動認識などの認識処理を行うシステムにおいては、認識精度を向上することが望まれる。

　本開示は、このような課題に鑑み、認識精度を向上することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することを目的とする。

　本開示に係る映像処理システムは、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、を備えるものである。

　本開示に係る映像処理方法は、入力される映像における注視対象を含む注視領域の画質を制御し、前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行し、前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測し、前記予測された注視対象の位置に基づいて、前記後の映像において画質を制御する前記注視領域を決定するものである。

　本開示に係る映像処理装置は、入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、を備えるものである。

　本開示によれば、認識精度を向上することが可能な映像処理システム、映像処理方法、及び映像処理装置を提供することができる。

実施の形態に係る映像処理システムの概要を示す構成図である。実施の形態に係る映像処理装置の概要を示す構成図である。実施の形態に係る映像処理方法の概要を示すフローチャートである。遠隔監視システムの基本構成を示す構成図である。実施の形態１に係る端末の構成例を示す構成図である。実施の形態１に係るセンターサーバの構成例を示す構成図である。実施の形態１に係る行動認識部の構成例を示す構成図である。実施の形態１に係る行動認識部の他の構成例を示す構成図である。実施の形態１に係る遠隔監視システムの動作例を示すフローチャートである。実施の形態１に係る映像取得処理を説明するための図である。実施の形態１に係る物体検出処理を説明するための図である。実施の形態１に係る行動認識処理の動作例を示すフローチャートである。実施の形態１に係る行動認識処理を説明するための図である。実施の形態１に係る行動認識処理を説明するための図である。実施の形態１に係る行動認識処理の他の動作例を示すフローチャートである。実施の形態１に係る行動認識処理を説明するための図である。実施の形態１に係る注視対象位置予測処理を説明するための図である。実施の形態１に係る注視対象位置予測処理を説明するための図である。実施の形態１に係る注視対象位置予測処理を説明するための図である。実施の形態１に係る注視領域決定処理を説明するための図である。実施の形態２に係る端末の構成例を示す構成図である。実施の形態２に係る遠隔監視システムの動作例を示すフローチャートである。実施の形態２に係るマッチング判定処理の動作例を示すフローチャートである。実施の形態２に係るマッチング判定処理を説明するための図である。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

　以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

　ネットワークを介して映像を収集し、映像内の物体や行動等を認識するシステムにおいては、映像を伝送するネットワークの帯域が限られるため、伝送する映像のデータ量をできる限り抑えることが好ましい。例えば、映像の圧縮率を上げることで映像のデータ量を抑えることができる。しかし、映像の圧縮率が高い場合やデータの欠損率が高い場合、誤認識が増加するため、認識精度が低下する。そこで、実施の形態では、伝送する映像のデータ量をできるだけ抑えつつ、誤認識を防ぐことを可能とする。

（実施の形態の概要）
　まず、実施の形態の概要について説明する。図１は、実施の形態に係る映像処理システム１０の概要構成を示している。映像処理システム１０は、例えば、ネットワークを介して映像を収集し、映像を監視する遠隔監視システムに適用可能である。

　図１に示すように、映像処理システム１０は、画質制御部１１、認識部１２、予測部１３、決定部１４を備える。

　画質制御部１１は、入力される映像における注視対象を含む注視領域の画質を制御する。例えば、画質制御部１１は、注視領域の画質を他の領域よりも高画質化、すなわち鮮明化してもよい。認識部１２は、画質制御部１１により注視領域の画質が制御された映像に対し、注視対象を認識する認識処理を実行する。認識処理は、例えば、注視対象の行動を認識する行動認識処理であるが、その他の注視対象に関する情報や特徴などを認識する処理でもよい。

　予測部１３は、注視対象に関し抽出される情報であって、認識部１２により実行された認識処理から抽出される抽出情報に基づいて、認識処理を行った映像より後の映像における注視対象の位置を予測する。抽出情報とは、映像処理システム１０によって映像から抽出された抽出対象に関する情報である。例えば、抽出情報は、注視対象の時系列の位置情報を含んでもよいし、認識処理における認識結果の一例である行動認識結果を含んでもよい。決定部１４は、予測部１３により予測された注視対象の位置に基づいて、画質制御部１１が後の映像において画質を制御する注視領域を決定する。画質制御部１１は、入力される映像に対し、決定部１４により決定された注視領域の画質を制御する。例えば、画質制御部１１は、まず、所定のルール（例えば、全ての領域を鮮明化する等）で画質を制御し、次に、予測部１３による注視対象の予測及び決定部１４による注視領域の決定の後、決定された注視領域の画質を制御する。

　なお、映像処理システム１０は、１つの装置により構成してもよいし、複数の装置により構成してもよい。図２は、実施の形態に係る映像処理装置２０の構成を示している。図２に示すように、映像処理装置２０は、図１に示した、画質制御部１１、認識部１２、予測部１３、決定部１４を備えてもよい。また、映像処理システム１０の一部または全部をエッジまたはクラウドに配置してもよい。例えば、ネットワークを介して現場で撮影された映像を監視するシステムにおいて、エッジは現場や現場の近くに配置された装置であり、また、ネットワークの階層として端末に近い装置である。例えば、エッジの端末に画質制御部１１、決定部１４を配置し、クラウドのサーバに認識部１２、予測部１３を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。

　図３は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図１の映像処理システム１０や図２の映像処理装置２０により実行される。図３に示すように、まず、入力される映像における注視対象を含む注視領域の画質を制御する（Ｓ１１）。次に、注視領域の画質が制御された映像に対し、注視対象を認識する認識処理を実行する（Ｓ１２）。次に、認識処理から抽出される抽出情報に基づいて、認識処理を行った映像より後の映像における注視対象の位置を予測する（Ｓ１３）。次に、予測された注視対象の位置に基づいて、画質制御部１１が後の映像において画質を制御する注視領域を決定する（Ｓ１４）。さらに、Ｓ１１に戻り、入力される映像に対し、決定された注視領域の画質を制御する。

　上記のように、実施の形態に係る映像処理システムでは、映像に対し実行した認識処理から抽出される抽出情報に基づいて、後の映像における注視対象の位置を予測し、その予測結果から後の映像において画質を制御する注視領域を決定する。これにより、画質を制御する領域を適切に決定できるため、映像のデータ量を抑えつつ、誤認識を防ぐことができ、認識精度を向上することができる。

（遠隔監視システムの基本構成）
　次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図４は、遠隔監視システム１の基本構成を示している。遠隔監視システム１は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像（フレームとも称する）を含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。

　図４に示すように、遠隔監視システム１は、複数の端末１００、センターサーバ２００、基地局３００、ＭＥＣ４００を備えている。端末１００、基地局３００及びＭＥＣ４００は、現場側に配置され、センターサーバ２００は、センター側に配置されている。例えば、センターサーバ２００は、現場から離れた位置に配置されているデータセンタや監視センタ等に配置されている。現場側はシステムのエッジ側であり、センター側はクラウド側でもある。なお、センターサーバ２００は、1つの装置により構成してもよいし、複数の装置により構成してもよい。また、センターサーバ２００の一部または全部をクラウドに配置してもよい。例えば、映像認識機能２０１とアラート生成機能２０２とをクラウドへ配置し、ＧＵＩ描画機能２０３と画面表示機能２０４とを監視センタ等に配置してもよい。

　端末１００と基地局３００との間は、ネットワークＮＷ１により通信可能に接続される。ネットワークＮＷ１は、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ（Long Term Evolution）、無線ＬＡＮなどの無線ネットワークである。基地局３００とセンターサーバ２００との間は、ネットワークＮＷ２により通信可能に接続される。ネットワークＮＷ２は、例えば、５ＧＣ（5th Generation Core network）やＥＰＣ（Evolved Packet Core）などのコアネットワーク、インターネットなどを含む。端末１００とセンターサーバ２００との間は、基地局３００を介して、通信可能に接続されているとも言える。基地局３００とＭＥＣ４００の間は任意の通信方法により通信可能に接続されるが、基地局３００とＭＥＣ４００は、１つの装置でもよい。

　端末１００は、ネットワークＮＷ１に接続される端末装置であり、現場の映像を生成する映像生成装置でもある。端末１００は、現場に設置されたカメラ１０１が撮影した映像を取得し、取得した映像を、基地局３００を介して、センターサーバ２００へ送信する。なお、カメラ１０１は、端末１００の外部に配置されてもよいし、端末１００の内部に配置されてもよい。

　端末１００は、カメラ１０１の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末１００は、圧縮効率を最適化する圧縮効率最適化機能１０２、映像送信機能１０３を有する。圧縮効率最適化機能１０２は、ＲＯＩ（Region of Interest；注視領域とも称する）の画質を制御するＲＯＩ制御を行う。圧縮効率最適化機能１０２は、人物や物体を含むＲＯＩの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。映像送信機能１０３は、画質が制御された映像をセンターサーバ２００へ送信する。

　基地局３００は、ネットワークＮＷ１の基地局装置であり、端末１００とセンターサーバ２００の間の通信を中継する中継装置でもある。例えば、基地局３００は、ローカル５Ｇの基地局、５ＧのｇＮＢ（next Generation Node B）、ＬＴＥのｅＮＢ（evolved Node B）、無線ＬＡＮのアクセスポイント等であるが、その他の中継装置でもよい。

　ＭＥＣ（Multi-access Edge Computing）４００は、システムのエッジ側に配置されたエッジ処理装置である。ＭＥＣ４００は、端末１００を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能４０１、端末制御機能４０２を有する。圧縮ビットレート制御機能４０１は、適応映像配信制御やＱｏＥ（quality of experience）制御により端末１００のビットレートを制御する。例えば、圧縮ビットレート制御機能４０１は、ネットワークＮＷ１及びＮＷ２の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末１００のカメラ１０１にビットレートを割り当てる。端末制御機能４０２は、割り当てられたビットレートの映像を送信するように端末１００を制御する。端末１００は、割り当て得られたビットレートとなるように映像をエンコードし、エンコードした映像を送信する。

　センターサーバ２００は、システムのセンター側に設置されたサーバである。センターサーバ２００は、１つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ２００は、現場のカメラ映像から人物の作業を認識することで、現場の作業を監視する監視装置である。センターサーバ２００は、端末１００から送信された映像内の人物の行動等を認識する認識装置でもある。

　センターサーバ２００は、映像認識機能２０１、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を有する。映像認識機能２０１は、端末１００から送信された映像を映像認識ＡＩ（Artificial Intelligence）エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。アラート生成機能２０２は、認識された作業に応じてアラートを生成する。ＧＵＩ描画機能２０３は、表示装置の画面にＧＵＩ（Graphical User Interface）を表示する。画面表示機能２０４は、ＧＵＩに端末１００の映像や認識結果、アラート等を表示する。

（実施の形態１）
　以下、図面を参照して実施の形態１について説明する。まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム１の基本構成は、図４に示した通りである。ここでは、端末１００とセンターサーバ２００の構成例について説明する。図５は、本実施の形態に係る端末１００の構成例を示しており、図６は、本実施の形態に係るセンターサーバ２００の構成例を示している。なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末１００の一部の機能をセンターサーバ２００や他の装置に配置してもよいし、センターサーバ２００の一部の機能を端末１００や他の装置に配置してもよい。

　図５に示すように、端末１００は、映像取得部１１０、検出部１２０、画質変更判定部１３０、圧縮効率決定部１４０、端末通信部１５０を備えている。

　映像取得部１１０は、カメラ１０１が撮影した映像（入力映像とも称する）を取得する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体（使用物体とも称する）等が含まれる。映像取得部１１０は、時系列の複数の画像を取得する画像取得部でもある。

　検出部１２０は、取得された入力映像内の物体を検出する物体検出部である。検出部１２０は、入力映像に含まれる各画像内の物体を検出し、検出した物体のラベル、すなわち物体ラベルを付与する。物体ラベルは、物体のクラスであり、物体の種別を示す。検出部１２０は、入力映像に含まれる各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。検出部１２０は、矩形領域に含まれる物体の画像の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、検出部１２０は、ディープラーニングなどの機械学習を用いた物体認識エンジンにより画像内の物体を認識する。物体の画像の特徴と物体ラベルを機械学習することで物体を認識できる。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報等が含まれる。物体の位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。検出部１２０は、当該物体の検出結果を画質変更判定部１３０へ送信する。

　画質変更判定部１３０は、取得された入力映像における画質を変更する画質変更領域である注視領域（ＲＯＩ）を判定する。画質変更判定部１３０は、注視領域を決定する決定部である。注視領域は、注視対象を含む領域であり、画質を高画質化、すなわち鮮明化する領域である。また、注視領域は、行動認識のために画質を担保する領域であるともいえる。

　例えば、画質変更判定部１３０は、第１の判定部１３１と第２の判定部１３２を備える。例えば、まず第１の判定部１３１が注視領域を決定し、センターサーバ２００が行動認識した後に、第２の判定部１３２が注視領域を決定する。なお、第１の判定部１３１による注視領域の決定を省略し、第２の判定部１３２による注視領域の決定のみを行ってもよい。第１の判定部１３１は、入力映像内で検出した物体の検出結果に基づいて、入力映像の注視領域を判定する。第１の判定部１３１は、検出部１２０の入力映像内で検出した検出物体のうち注視対象となるラベルを有する物体の位置情報に基づいて、注視領域を決定する。注視対象は、行動認識の対象となる人物であるが、人物が作業で使用し得る作業物体を含んでもよい。例えば、作業物体のラベルは、人物と関連がある物体のラベルとして予め設定されている。

　第２の判定部１３２は、行動を認識したセンターサーバ２００から情報がフィードバックされた場合に、フィードバックされる情報に基づいて、入力映像の注視領域を決定する。この例では、フィードバックされる情報は、注視対象の予測情報である。注視対象の予測情報は、注視対象に関する情報であって、センターサーバ２００が行動認識を行うことにより次の映像における注視対象を予測した情報である。注視対象の予測情報は、予測した注視対象の位置や行動認識処理から抽出される情報であり、注視対象の矩形領域の位置情報が含まれる。例えば、第２の判定部１３２は、取得した予測情報が示す矩形領域を注視領域に決定する。すなわち、予測された注視対象の位置をもとに入力映像の画質を担保する領域を決定する。

　また、センターサーバ２００から取得する予測情報に行動認識結果である行動ラベルのスコアが含まれていてもよい。第２の判定部１３２は、センターサーバ２００から行動認識結果である行動ラベルのスコアを取得し、取得したスコアに基づいて、注視領域を決定するか否か判定してもよい。行動ラベルのスコアは、行動ラベルの確からしさ（確率）である確信度を示す。スコアが高いほど、予測した行動ラベルの行動が正しい可能性が高い。例えば、スコアが所定値よりも小さい場合、認識できていない領域の画質を担保し、さらに行動認識を行う必要があると判断して、予測情報に基づいて注視領域を決定し、スコアが所定値よりも大きい場合、認識済の領域について、さらに行動認識を行う必要がないと判断して、注視領域を決定しなくてもよい。逆に、スコアが所定値よりも大きい場合、認識済の領域について、さらに行動認識を行う必要があると判断して、予測情報に基づいて注視領域を決定し、スコアが所定値よりも小さい場合、認識できてきない領域について、さらに行動認識を行う必要がないと判断して、注視領域を決定しなくてもよい。注視領域を決定しない場合、圧縮効率決定部１４０で注視領域を高画質化しなくてもよい。

　圧縮効率決定部１４０は、注視領域または注視領域以外の他の領域の圧縮率を決定し、映像を圧縮する。圧縮効率決定部１４０は、決定した圧縮率により入力映像をエンコード（符号化）するエンコーダである。圧縮効率決定部１４０は、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりエンコードする。また、圧縮効率決定部１４０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートとなるように入力映像をエンコードする。

　圧縮効率決定部１４０は、画質変更判定部１３０が決定した注視領域の画質を制御する画質制御部であり、注視領域を高画質化する高画質化部である。注視領域は、第１の判定部１３１と第２の判定部１３２のいずれかが決定した領域である。圧縮効率決定部１４０は、注視領域と他の領域をそれぞれ所定の圧縮率で圧縮することで、注視領域の画質が所定の品質となるようにエンコードする。すなわち、注視領域と他の領域の圧縮率を変えることで注視領域を他の領域よりも高画質化する。その他の領域を注視領域よりも低画質化しているとも言える。例えば、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートの範囲で注視領域及びその他の領域の画質を制御する。なお、圧縮率に限らず、画像の解像度、フレームレート等を変えることで、注視領域の画質を制御してもよい。また、画像の色の情報量、例えば、カラー、グレースケール、白黒等を変えることで、注視領域の画質を制御してもよい。

　端末通信部１５０は、圧縮効率決定部１４０がエンコードしたエンコードデータを、基地局３００を介して、センターサーバ２００へ送信する。端末通信部１５０は、注視領域の画質が制御された映像を送信する送信部である。また、端末通信部１５０は、センターサーバ２００から送信された注視対象の予測情報を、基地局３００を介して受信する。端末通信部１５０は、注視対象の位置を予測した予測情報を取得する取得部である。端末通信部１５０は、基地局３００と通信可能なインタフェースであり、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ、無線ＬＡＮ等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。端末通信部１５０は、エンコードデータを送信する第１の端末通信部と、注視対象の予測情報を受信する第２の端末通信部を含んでもよい。第１の端末通信部と第２の端末通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　図６に示すように、センターサーバ２００は、センター通信部２１０、デコーダ２２０、行動認識部２３０、抽出情報保存部２４０、注視対象解析部２５０、注視対象位置予測部２６０を備えている。

　センター通信部２１０は、端末１００から送信されたエンコードデータを、基地局３００を介して受信する。センター通信部２１０は、注視領域の画質が制御された映像を受信する受信部である。また、センター通信部２１０は、注視対象位置予測部２６０が予測した注視対象の予測情報を、基地局３００を介して端末１００へ送信する。センター通信部２１０は、注視対象の位置を予測した予測情報を通知する通知部である。センター通信部２１０は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、ＩＰ通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。センター通信部２１０は、エンコードデータを受信する第１のセンター通信部と、注視対象の予測情報を送信する第２のセンター通信部を含んでもよい。第１のセンター通信部と第２のセンター通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　デコーダ２２０は、端末１００から受信したエンコードデータをデコード（復号化）する。デコーダ２２０は、端末１００の符号化方式に対応し、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりデコードする。デコーダ２２０は、各領域の圧縮率に応じてデコードし、デコードした映像（受信映像とも称する）を生成する。

　行動認識部２３０は、デコードした受信映像における物体の行動を認識する。行動認識部２３０は、注視領域の画質が制御された映像に対し、注視対象の行動を認識する行動認識処理を実行する。行動認識部２３０は、受信映像から物体を検出し、検出した物体の行動を認識する。行動認識部２３０は、行動認識の対象である人物の行動を認識し、認識した行動のラベル、すなわち行動ラベルを付与する。行動ラベルは、行動のクラスであり、行動の種別を示す。

　例えば、行動認識部２３０は、受信映像から検出される人物と作業物体とに基づいて、人物の行動を認識する。行動認識部２３０は、人物と作業物体の関連性を特定することで人物の行動を認識してもよい。人物と作業物体の関連性は、人物がどの物体を使用しているか、あるいは物体を使用していないかを含む。例えば、人物と作業物体との距離から人物ごとに作業物体を特定し、特定した作業物体から行動を認識してもよい。人物に関連する作業物体と作業とを関連付け、ルールベースで人物の行動を認識してもよいし、人物に関連する作業物体と作業とを機械学習し、機械学習ベースで人物の行動を認識してもよい。

　抽出情報保存部２４０は、行動認識部２３０の行動認識処理により抽出された抽出情報を保存する。抽出情報は、行動認識結果、人物の検出情報、行動に関連する作業物体の検出情報等を含む。行動認識結果は、認識した行動のラベル、行動ラベルのスコア、認識した行動を行う人物の識別情報、認識した行動で使用される作業物体の識別情報等を含む。人物の検出情報は、人物の矩形領域の位置情報、トラッキング情報等を含む。トラキング情報は、物体のトラッキング結果を示す軌跡情報である。作業物体の検出情報は、物体ラベル、物体ラベルのスコア、物体の矩形領域の位置情報、トラッキング情報等を含む。例えば、行動認識部２３０の行動予測器（行動認識エンジン）は、行動に関係する物体に重みがかかるように学習することで、画像ごとに関連し得る作業物体の候補を抽出し、抽出した作業物体の候補の情報を出力する。例えば、くい打ち作業を認識した場合、行動に関連する物体であるハンマーの情報を出力する。

　注視対象解析部２５０は、行動認識部２３０の行動認識処理により抽出された抽出情報に基づいて、注視対象を決定する。抽出情報は、行動認識部２３０から取得してもよいし、抽出情報保存部２４０から取得してもよい。注視対象解析部２５０は、抽出された情報をもとに、行動認識ミスを防ぐために画質を担保する注視対象を決定する。例えば、注視対象解析部２５０は、行動認識結果に基づいて注視対象を決定する。注視対象解析部２５０は、行動認識部２３０により行動が認識された人物、すなわち、行動認識結果に含まれる行動の人物を注視対象とする。人物と関連する作業物体とから行動が認識された場合、人物と作業物体を注視対象としてもよい。人物と関連する作業物体は複数あってもよく、人物と複数の作業物体を注視対象としてもよい。例えば、くい打ち作業が認識された場合に、作業に関連する物体を「くい」および「ハンマー」として、人物と「くい」および「ハンマー」を注視対象としてもよい。

　注視対象位置予測部２６０は、次の映像における注視対象の位置を予測する。次の映像は、行動認識処理を行った映像より後の映像であり、次に端末１００が取得する映像（入力映像）である。次の映像は、行動認識した映像から所定の時間経過後の映像である。次の映像のタイミング、すなわち、予測タイミングは、例えば、端末１００から認識される映像が送信され、センターサーバ２００から端末１００に予測情報がフィードバックされるまでの時間が経過した後である。次の映像の予測タイミングは、端末１００とセンターサーバ２００との間の伝送時間を考慮して決定してもよい。例えば、端末１００とセンターサーバ２００との間の伝送時間を測定または取得して、次の映像の予測タイミングを決定してもよい。

　注視対象位置予測部２６０は、行動認識部２３０の行動認識処理により抽出された抽出情報に基づいて、次の画質で担保すべき注視対象の位置を予測する。注視対象位置予測部２６０は、行動を認識した人物や作業物体の時系列の位置情報に基づいて、注視対象の位置を予測してもよい。例えば、時系列の位置情報は、行動認識処理におけるトラッキング処理から得られる軌跡情報である。注視対象位置予測部２６０は、行動を認識した行動認識結果に基づいて、注視対象の位置を予測してもよい。例えば、行動認識結果が示す行動において人物が使用する作業物体（使用物体）に基づいて、注視対象の位置を予測してもよい。注視対象位置予測部２６０は、次の映像までの時間差を考慮して、注視対象の位置を予測する。注視対象位置予測部２６０は、次の映像の予測タイミングに応じて画像上で注視対象を移動させることで、注視対象の位置や矩形領域を予測する。例えば、予測する次の映像の予測タイミングに応じて矩形領域のサイズや形状を変えてもよい。予測タイミングまでの時間が長くなるほど矩形領域のサイズを大きくしてもよい。注視対象位置予測部２６０は、予測した注視対象の矩形領域の位置情報を、注視対象の予測情報として出力する。位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、注視対象の任意の点の位置でもよい。予測情報は、予測した注視対象に関する情報として、位置情報に限らず、注視対象の物体ラベルや画像の特徴、行動ラベル、行動ラベルのスコアなど、行動認識処理から抽出される情報を含んでもよい。また、認識した物体の時系列情報から予測した情報や行動認識結果から予測した情報のように、複数の予測情報を出力してもよい。複数の時点における位置を予測して、予測した複数の位置情報を出力してもよい。

　図７及び図８は、センターサーバ２００における行動認識部２３０の構成例を示している。図７は、人物と作業物体との関連性による行動認識を、ルールベースで行う場合の構成例である。図７の例では、行動認識部２３０は、物体検出部２３１、追跡部２３２、関連性分析部２３３ａ、行動判定部２３４を備えている。

　物体検出部２３１は、入力される受信映像内の物体を検出する。例えば、物体検出部２３１は、端末１００の検出部１２０と同様、機械学習を用いた物体認識エンジンなどの検出部である。すなわち、物体検出部２３１は、受信映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体の検出結果には、物体ラベル、物体を含む矩形領域の位置情報が含まれる。

　追跡部２３２は、検出された受信映像内の物体をトラッキングする。追跡部２３２は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。検出された物体にトラッキングＩＤを割り当てることで、各物体を識別してトラッキングすることができる。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なり（例えばＩｏＵ：Intersection over Union）により画像間の物体を対応付けることで、物体をトラッキングする。

　関連性分析部２３３ａは、トラッキングした物体ごとに、物体と他の物体との関連性を分析する。すなわち、関連性分析部２３３ａは、行動認識対象である人物と、人物が作業で使用し得る作業物体との関連性を分析する。例えば、作業物体のラベルは、人物と関連がある物体のラベルとして予め設定されている。例えば、物体間の関連性は、物体の位置または矩形領域間の距離や重なり（例えばＩｏＵ）である。人物と作業物体との関連性により、人物が作業物体を使用して作業を行っているか否か判定できる。例えば、人物と作業物体との距離や重なりに基づいて、人物に関連する作業物体を抽出する。

　行動判定部２３４は、分析した物体間の関連性に基づいて、物体の行動を判定する。行動判定部２３４は、作業物体と作業内容とを予め関連付けておき、人物と作業物体との関連性から抽出した人物に関連する作業物体に基づいて、人物の作業内容を認識する。人物の姿勢や形状を含む人物の特徴と、関連する作業物体とに基づいて、作業内容を認識してもよい。例えば、人物の特徴及び作業物体と作業内容とを関連付けておいてもよい。行動判定部２３４は、認識した人物の作業内容を行動ラベルとして出力する。

　また、行動判定部２３４は、人物に関連する作業物体が検出されない場合、人物のみから人物の行動を認識してもよい。例えば、人物の特徴として人物の姿勢や形状と作業内容とを予め関連付けておき、画像から抽出される人物の姿勢や形状に基づいて、作業内容を特定してもよい。

　図８は、人物と作業物体との関連性による行動認識を、機械学習ベースで行う場合の構成例である。図８の例では、行動認識部２３０は、物体検出部２３１、追跡部２３２、行動予測器２３３ｂ、行動判定部２３４を備えている。この例では、行動認識部２３０は、図７の関連性分析部２３３ａの代わりに行動予測器２３３ｂを備えており、その他の構成は図７と同様である。

　行動予測器２３３ｂは、追跡部２３２がトラッキングした物体ごとに、物体の行動を予測する。行動予測器２３３ｂは、受信映像内でトラッキングされた人物の行動を認識し、認識した行動のラベルを付与する。例えば、行動予測器２３３ｂは、ディープラーニングなどの機械学習を用いた行動認識エンジンにより受信映像内の人物の行動を認識する。作業物体を用いて作業を行う人物の映像と行動ラベルを機械学習することで人物の行動を認識できる。例えば、作業物体を使用して作業を行っている人物の映像である学習データ、人物及び作業物体の位置や人物と物体の関連情報などのアノテーション情報、各作業に必要な作業物体などの行動情報を用いて、機械学習する。また、行動予測器２３３ｂは、認識した行動ラベルのスコアを出力する。

　行動判定部２３４は、予測された行動ラベルに基づいて、物体の行動を判定する。行動判定部２３４は、行動予測器２３３ｂが予測した行動ラベルのスコアに基づいて、人物の行動を決定する。例えば、行動判定部２３４は、最もスコアが高い行動ラベルを認識結果として出力する。

　次に、本実施の形態に係る遠隔監視システムの動作について説明する。図９は、遠隔監視システム１の動作例を示している。例えば、端末１００がＳ１０１～Ｓ１０５、Ｓ１１２～Ｓ１１３を実行し、センターサーバ２００がＳ１０６～Ｓ１１１を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。

　図９に示すように、端末１００は、カメラ１０１から映像を取得する（Ｓ１０１）。カメラ１０１は、現場を撮影した映像を生成し、映像取得部１１０は、カメラ１０１から出力される映像（入力映像）を取得する。例えば、図１０に示すように、入力映像の画像には、現場で作業を行う人物や、人物が使用するハンマーなどの作業物体が含まれている。

　続いて、端末１００は、取得した入力映像に基づいて物体を検出する（Ｓ１０２）。検出部１２０は、物体認識エンジンを用いて、入力映像に含まれる画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。検出部１２０は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。例えば、図１０の画像から物体検出を行うと、図１１のように、人物及びハンマーを検出し、人物の矩形領域とハンマーの矩形領域を検出する。

　続いて、端末１００は、物体検出結果に基づいて、入力映像における注視領域を決定する（Ｓ１０３）。画質変更判定部１３０の第１の判定部１３１は、各物体の物体検出結果に基づいて、注視対象となるラベルを有する物体を抽出する。第１の判定部１３１は、検出された物体から、物体ラベルが人物または作業物体である物体を抽出し、該当する物体の矩形領域を注視領域に決定する。図１１の例では、画像内で人物とハンマーが検出され、ハンマーは作業物体に該当するため、人物の矩形領域とハンマーの矩形領域を注視領域に決定する。

　続いて、端末１００は、決定した注視領域に基づいて、入力映像をエンコードする（Ｓ１０４）。圧縮効率決定部１４０は、注視領域が他の領域よりも高画質となるように、入力映像をエンコードする。図１１の例では、人物の矩形領域とハンマーの矩形領域の圧縮率を他の領域の圧縮率よりも下げることで、人物の矩形領域とハンマーの矩形領域を高画質化する。

　続いて、端末１００は、エンコードしたエンコードデータをセンターサーバ２００へ送信し（Ｓ１０５）、センターサーバ２００は、エンコードデータを受信する（Ｓ１０６）。端末通信部１５０は、注視領域を高画質化したエンコードデータを基地局３００へ送信する。基地局３００は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ２００へ転送する。センター通信部２１０は、転送されたエンコードデータを、基地局３００から受信する。

　続いて、センターサーバ２００は、受信したエンコードデータをデコードする（Ｓ１０７）。デコーダ２２０は、各領域の圧縮率に応じてエンコードデータをデコードし、注視領域が高画質化された映像（受信映像）を生成する。

　続いて、センターサーバ２００は、デコードした受信映像に基づいて物体の行動を認識する（Ｓ１０８）。図１２は、図７で示した行動認識部２３０による行動認識処理の例を示している。図１２の例では、まず、物体検出部２３１は、入力される受信映像内の物体を検出する（Ｓ２０１）。物体検出部２３１は、物体認識エンジンを用いて、受信映像に含まれる各画像内の矩形領域を検出し、検出した矩形領域内の物体を認識し、認識した物体のラベルを付与する。物体検出部２３１は、検出した各物体について、物体ラベル、物体の矩形領域の位置情報を物体検出結果として出力する。

　続いて、追跡部２３２は、検出された受信映像内の物体をトラッキングする（Ｓ２０２）。追跡部２３２は、検出された各物体にトラッキングＩＤを割り当て、トラッキングＩＤにより識別される物体を各画像でトラッキングする。

　続いて、関連性分析部２３３ａは、トラッキングした物体ごとに、物体と他の物体との関連性を分析し（Ｓ２０３）、人物に関連する作業物体の有無を判定する（Ｓ２０４）。関連性分析部２３３ａは、トラッキングした物体の検出結果から人物と作業物体を抽出し、抽出した人物と作業物体との距離や矩形領域の重なりを求める。例えば、人物との距離が所定値よりも小さい作業物体、または、人物の矩形領域の重なりが所定値よりも大きい作業物体を、人物に関連する作業物体であると決定する。

　人物に関連する作業物体があると判定された場合、行動判定部２３４は、人物及び作業物体に基づいて、人物の行動を判定する（Ｓ２０５）。行動判定部２３４は、検出された人物に関連する作業物体と、予め作業物体に関連付けられた作業内容とに基づいて、人物の行動を決定する。図１３の例では、トラッキングにより人物と人物に関連するハンマーとが検出されている。また、作業物体－作業内容テーブルに、予め作業物体と作業内容とが関連付けて格納されている。作業物体－作業内容テーブルは、センターサーバ２００の記憶部等に記憶されている。行動判定部２３４は、人物に関連する作業物体から、作業物体－作業内容テーブルを参照し、作業物体に関連付けられた作業内容を特定する。この例では、ハンマーにくい打ちが関連付けられているため、人物の行動は、くい打ちであると決定する。行動判定部２３４は、決定した行動を出力する。例えば、人物と作業物体の関連性（距離や重なり等）を、行動のスコアとして出力してもよい。

　また、人物に関連する作業物体がないと判定された場合、行動判定部２３４は、人物に基づいて、人物の行動を判定する（Ｓ２０６）。行動判定部２３４は、検出された人物の姿勢や形状などの特徴と、予め人物の特徴に関連付けられた作業内容とに基づいて、人物の行動を決定する。図１４の例では、トラッキングにより人物のみが検出されている。また、姿勢－作業内容テーブルに、予め人物の姿勢と作業内容とが関連付けて格納されている。姿勢－作業内容テーブルは、センターサーバ２００の記憶部等に記憶されている。例えば、人物の姿勢は、姿勢推定エンジンを用いて、人物の画像から抽出される骨格などに基づいて推定可能である。行動判定部２３４は、検出された人物の画像から人物の姿勢を推定し、姿勢－作業内容テーブルを参照して、推定した姿勢に関連付けられた作業内容を特定する。この例では、推定された人物の姿勢が姿勢Ｂの場合、姿勢Ｂに作業Ｂが関連付けられているため、人物の行動は、作業Ｂであると決定する。行動判定部２３４は、決定した行動を出力する。例えば、推定した人物の姿勢のスコアを、行動のスコアとして出力してもよい。

　また、図１５は、図８で示した行動認識部２３０による行動認識処理の例を示している。図１５の例では、図１２と同様に、物体検出部２３１は、受信映像内の物体を検出し（Ｓ２０１）、追跡部２３２は、検出された受信映像の物体をトラッキングする（Ｓ２０２）。

　続いて、行動予測器２３３ｂは、トラッキングした物体ごとに、物体の行動を予測する（Ｓ２０７）。行動予測器２３３ｂは、行動認識エンジンを用いて、トラッキングした人物と作業物体を含む映像から人物の行動を予測する。行動予測器２３３ｂは、予測した行動のラベルと、各行動ラベルのスコアを出力する。

　続いて、行動判定部２３４は、予測した行動ラベルのスコアに基づいて、物体の行動を判定する（Ｓ２０８）。図１６の例では、トラッキングにより人物とハンマーとが検出されている。行動予測器２３３ｂは、検出された人物とハンマーの映像に基づいて人物の行動を認識し、各行動ラベルのスコアを出力する。例えば、くい打ちのスコアが０．８、重機作業のスコアが０．１、不安全行動のスコアが０．０、作業外のスコアが０．１である。そうすると、行動判定部２３４は、くい打ちのスコアが最も高いため、人物の行動はくい打ちであると決定する。行動判定部２３４は、決定した行動と、行動のスコアを出力する。

　図９に戻り、行動認識処理に続いて、センターサーバ２００は、行動認識処理により抽出された抽出情報に基づいて、注視対象を決定する（Ｓ１０９）。注視対象解析部２５０は、行動が認識された人物を注視対象とし、さらに認識対象に作業物体が含まれる場合、作業物体も注視対象に含める。例えば、図１３や図１６の例では、人物とハンマーからくい打ちの作業が認識されているため、作業を認識した人物及びハンマーを注視対象とする。図１４の例では、人物のみから作業Ｂが認識されているため、作業を認識した人物のみを注視対象とする。

　続いて、センターサーバ２００は、行動認識処理により抽出された抽出情報に基づいて、次の映像における注視対象の位置を予測する（Ｓ１１０）。注視対象位置予測部２６０は、行動認識の際に抽出した時系列情報や行動認識結果を用いて、次の注視対象の位置（移動領域）を予測し、予測した注視対象の矩形領域の位置情報を、注視対象の予測情報として出力する。

　例えば、注視対象位置予測部２６０は、時系列情報を使用する場合、人物や作業物体をトラッキングした軌跡情報から、人物や作業物体の次の位置となる移動領域を予測する。軌跡情報は、追跡部２３２から取得され、ｋａｌｍａｎ　ｆｉｌｔｅｒやｐａｒｔｉｃｌｅ　ｆｉｌｔｅｒなどを用いて取得してもよい。図１７の例では、行動認識した映像から人物とハンマーの軌跡情報が抽出されている。注視対象位置予測部２６０は、軌跡情報を延長した延長線に基づいて移動領域を予測する。すなわち、軌跡情報を延長した先を移動領域とする。注視対象位置予測部２６０は、次の映像の予測タイミングに応じて画像上で人物やハンマーの軌跡情報を延長し、人物やハンマーの次の移動領域（矩形領域）の位置を予測する。

　また、注視対象位置予測部２６０は、行動認識結果を使用する場合、次の注視対象の位置（移動領域）を行動ラベルごとにルールベースで決定する。作業物体や人物の向きに基づいて、移動領域を予測してもよい。例えば、掘削作業が認識された場合、スコップやバケットの向いている先を移動領域としてもよい。図１８の例では、人物の行動が掘削作業であると認識され、人物とスコップの情報が抽出されている。例えば、注視対象位置予測部２６０は、スコップの形状を認識し、スコップの先端部の方向をスコップの向きとし、このスコップの向きを掘削方向（作業方向）として抽出する。注視対象位置予測部２６０は、次の映像の予測タイミングに応じて画像上で掘削方向にスコップや人物を移動させ、スコップや人物の次の移動領域（矩形領域）の位置を予測する。

　なお、スコップに限らず、人物の向きを用いて、スコップや人物の位置を予測してもよい。例えば、人物の向き（前方方向）は、人物の画像から抽出される骨格や姿勢などから推定可能である。この人物の向きを掘削方向として、スコップや人物の移動領域を予測してもよい。また、スコップの向きと人物の向きを組み合わせて、掘削方向を抽出してもよい。

　また、例えば、転圧作業が認識された場合、転圧機が進む先を移動領域としてもよい。図１９の例では、人物の行動が転圧作業であると認識され、人物と転圧機の情報が抽出されている。例えば、注視対象位置予測部２６０は、転圧機の形状を認識し、転圧機の前方方向を転圧機の向きとし、この転圧機の向きを転圧方向（作業方向）として抽出する。注視対象位置予測部２６０は、次の映像の予測タイミングに応じて画像上で転圧方向に転圧機や人物を移動させ、転圧機や人物の次の移動領域（矩形領域）の位置を予測する。図１８と同様に、人物の向きを転圧方向としてもよいし、転圧機の向きと人物の向きを組み合わせ得て、転圧方向を抽出してもよい。

　続いて、センターサーバ２００は、予測した注視対象の予測情報を端末１００へ通知し（Ｓ１１１）、端末１００は、注視対象の予測情報を取得する（Ｓ１１２）。センター通信部２１０は、予測した注視対象の位置及び領域を示す予測情報を、インターネットやコアネットワークを介して、基地局３００へ送信する。基地局３００は、受信した注視対象の予測情報を端末１００へ転送する。端末通信部１５０は、転送された注視対象の位置情報を、基地局３００から受信する。

　続いて、端末１００は、受信した注視対象の予測情報に基づいて、注視領域を決定する（Ｓ１１３）。画質変更判定部１３０の第２の判定部１３２は、センターサーバ２００から通知された注視対象の予測情報が示す領域を注視領域に決定する。図２０の例では、予測情報が人物の矩形領域とハンマーの矩形領域を示しており、これらの領域を注視領域に決定する。また、人物の矩形領域とハンマーの矩形領域を含む外接領域を注視領域としてもよい。この外接領域をセンターサーバ２００から端末１００へ通知してもよい。以降、Ｓ１０４～Ｓ１１３を繰り返す。

　以上のように、本実施の形態では、映像から対象物の行動を認識するシステムにおいて、対象物の時系列情報や行動認識結果などに基づいて、次の映像における対象物の位置を予測し、予測した領域の画質を高画質化し鮮明化する。これにより、対象物の動きに応じて、対象物を含む特定の部分の画質を担保でき、行動認識に関わる以外の領域は圧縮が可能となりデータの送信量を抑えつつ行動認識ミスを防ぐことができる。

（実施の形態２）
　以下、図面を参照して実施の形態２について説明する。まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態では、実施の形態１と比べて、端末の構成のみが異なるため、ここでは端末の構成例について説明する。なお、本実施の形態は、実施の形態１と組み合わせて実施することが可能であり、実施の形態１で示した各構成を適宜使用してもよい。

　図２１は、本実施の形態に係る端末１００の構成例を示している。図２１に示すように、本実施の形態では、端末１００の画質変更判定部１３０にマッチング部１３３が追加されている。その他の構成は、実施の形態１と同様である。

　マッチング部１３３は、センターサーバ２００から通知される注視対象の予測情報と、検出部１２０が入力映像から検出した物体の検出結果とのマッチングを行う。すなわち、センターサーバ２００が予測した注視対象と、端末１００が検出した物体とのマッチングを行う。マッチングを行う物体を検出した入力映像は、センターサーバ２００が行動認識を行った映像よりも後の映像、すなわち、センターサーバ２００が予測した注視対象の予測情報に対応する映像である。マッチングは、注視対象の予測情報と物体の検出結果とを比較し、予測した物体と検出した物体が同じであるか否か、すなわち、マッチングするか否かを判定する。マッチング部１３３は、例えば、物体の種別、物体の画像の特徴、物体の位置情報等に基づいてマッチングを行う。

　第２の判定部１３２は、マッチング部１３３のマッチング結果に基づいて、入力映像の注視領域を決定する。第２の判定部１３２は、注視対象の予測情報と物体の検出結果とがマッチングするか否かに応じて、物体の検出結果または注視対象の予測情報に基づいて注視領域を決定してもよいし、注視領域を決定するか否かを判定してもよい。

　次に、本実施の形態に係る遠隔監視システムの動作について説明する。図２２は、本実施の形態に係る遠隔監視システムの動作例を示している。図２２のＳ１０１～Ｓ１１１は、実施の形態１と同様である。

　図２２に示すように、端末１００は、センターサーバ２００から注視対象の予測情報を取得すると（Ｓ１１２）、マッチングを行う（Ｓ１１４）。検出部１２０は、センターサーバ２００が行動認識を行った映像よりも後に入力された映像から物体を検出し、マッチング部１３３は、センターサーバ２００から取得した注視対象の予測情報と、検出部１２０が入力映像から検出した物体の検出結果とのマッチングを行う。

　本実施の形態では、センターサーバ２００が予測し通知した注視対象の予測情報及び検出部１２０が検出した物体の検出結果には、物体ラベルである種別、矩形領域の位置情報、矩形領域に含まれる物体の画像の特徴量などの特徴情報等が含まれる。

　図２３は、マッチング処理の一例を示している。この例では、物体の種別、物体の画像の特徴、物体の位置情報を比較してマッチングを判定するが、いずれかを比較してマッチングを判定してもよい。

　図２３に示すように、マッチング部１３３は、注視対象の予測情報における物体の種別と物体の検出結果における物体の種別を比較する（Ｓ３０１）。マッチング部１３３は、予測情報に含まれる物体の種別と検出結果に含まれる物体の種別が一致しているか否か判定する。マッチング部１３３は、物体の種別が同じまたは類似する場合に、一致すると判定する。類似する物体の種別は、同じカテゴリ、上位または下位カテゴリに属する物体の種別であり、予め設定されていてもよい。例えば、ダンプカーとトラックは類似するため、一致すると判定してもよい。

　また、マッチング部１３３は、注視対象の予測情報における物体の画像の特徴と物体の検出結果における物体の画像の特徴を比較する（Ｓ３０２）。マッチング部１３３は、予測情報に含まれる物体の領域内の画像の特徴と検出結果に含まれる物体の領域内の画像の特徴とが一致しているか否か判定する。例えば、ＨＯＧ（Histograms of Oriented Gradients）や深層学習の中間層特徴などの画像の特徴量、カラーヒストグラムなどの色の特徴を比較する。マッチング部１３３は、画像の特徴の類似度に基づいて一致するか否か判定する。例えば、類似度が所定の閾値よりも大きい場合に一致すると判定してもよい。

　さらに、マッチング部１３３は、注視対象の予測情報における物体の位置情報と物体の検出結果における物体の位置情報を比較する（Ｓ３０３）。位置情報の比較には、領域の位置の比較や領域の大きさの比較が含まれる。マッチング部１３３は、予測情報に含まれる物体と検出結果に含まれる物体との距離や、予測情報に含まれる物体の矩形領域と検出結果に含まれる物体の矩形領域の重なり、予測情報に含まれる物体の矩形領域の大きさと検出結果に含まれる物体の矩形領域の大きさの差分に基づいて位置情報が一致するか否か判定する。矩形領域間の距離は、矩形領域の中心間の距離でもよいし、矩形領域に含まれる任意の点の間の距離でもよい。矩形領域の重なりは、例えばＩｏＵである。矩形領域の大きさは、位置に関わらず、大きさのみの差分を求めてもよい。マッチング部１３３は、例えば、矩形領域間の距離が所定の閾値よりも小さい場合、矩形領域間の重なりが所定の閾値よりも大きい場合、または、矩形領域間の大きさの差分が所定の閾値よりも小さい場合、位置情報が一致すると判定する。

　続いて、マッチング部１３３は、これらの判定結果をもとに、マッチングするか否か決定する（Ｓ３０４）。例えば、物体の種別、物体の画像の特徴、位置情報の全ての比較条件が一致する場合に、注視対象の予測情報と物体の検出結果がマッチングすると決定してもよい。また、物体の種別、物体の画像の特徴、位置情報のいずれかの比較条件が一致する場合や、任意に選択された複数の比較条件が一致する場合に、マッチングすると決定してもよい。例えば、物体の種別及び物体の画像の特徴が一致する場合や、物体の種別及び位置情報が一致する場合、物体の画像の特徴及び位置情報が一致する場合等に、マッチングすると決定してもよい。

　続いて、端末１００は、マッチング結果に基づいて、注視領域を決定する（Ｓ１１５）。第２の判定部１３２は、例えば、注視対象の予測情報と物体の検出結果とがマッチングする場合、物体の検出結果に基づいて注視領域を決定する。すなわち、物体の検出結果が示す領域を注視領域とする。また、注視対象の予測情報と物体の検出結果とがマッチングしない場合、注視対象の予測情報に基づいて注視領域を決定してもよいし、注視領域を決定しなくてもよい。注視対象の予測情報に基づいて注視領域を決定する場合、注視対象の予測情報が示す領域を注視領域とする。注視領域を決定しない場合、エンコードする際に高画質化を行わなくてもよい。例えば、センターサーバ２００から行動認識結果のスコアを取得し、注視対象の予測情報と物体の検出結果とがマッチングしない場合に、行動認識結果のスコアに基づいて、注視領域を決定するか否か判定してもよい。スコアが所定値よりも小さい場合、予測情報に基づいて注視領域を決定し、スコアが所定値よりも大きい場合、注視領域を決定しなくてもよい。また、物体の検出結果が得られない場合に、行動認識結果のスコアに基づいて、注視領域を決定するか否か判定してもよい。

　図２４の例では、注視対象の予測情報に人物とハンマーの矩形領域が含まれ、物体の検出結果に人物とハンマーの矩形領域が含まれている。この例では、人物の矩形領域間が重なり、ハンマーの矩形領域間が重なっているため、人物と作業物体を含む注視対象の予測情報と物体の検出結果がマッチングすると判定する。この場合、人物と作業物体を含む物体の検出結果の領域を注視領域とする。注視対象の予測情報に人物と作業物体が含まれる場合、人物と作業物体のそれぞれについてマッチングを判定する。人物及び作業物体の両方がマッチングする場合に人物と作業物体を含む領域を注視領域としてもよい。少なくとも人物がマッチングする場合に人物と作業物体を含む領域を注視領域としてもよい。

　また、複数の注視対象の予測情報を取得した場合、複数の注視対象の予測情報と物体の検出結果のマッチングをそれぞれ判定し、マッチング結果に応じていずれかの領域を選択し、選択した領域に基づいて注視領域を決定する。例えば、いずれかの注視対象の予測情報に物体の検出結果がマッチングする場合、マッチングした物体の検出結果に基づいて注視領域を決定してもよい。いずれの注視対象の予測情報にも物体の検出結果がマッチングしない場合、物体の検出結果に最も近い注視対象の予測情報に基づいて注視領域を決定してもよい。

　また、複数の物体の検出結果を取得した場合、注視対象の予測情報と複数の物体の検出結果のマッチングをそれぞれ判定し、マッチング結果に応じていずれかの領域を選択し、選択した領域に基づいて注視領域を決定する。例えば、注視対象の予測情報にいずれかの物体の検出結果がマッチングする場合、マッチングした物体の検出結果に基づいて注視領域を決定してもよい。複数の物体の検出結果がマッチングする場合、注視対象の予測情報に最も近い物体の検出結果に基づいて注視領域を決定してもよい。注視対象の予測情報にいずれの物体の検出結果もマッチングしない場合、注視対象の予測情報に基づいて注視領域を決定してもよいし、注視対象の予測情報に最も近い物体の検出結果に基づいて注視領域を決定してもよい。

　以上のように、本実施の形態では、実施の形態１の構成において、さらに、行動認識結果等から予測した情報と、実際に取得した映像から検出した情報とのマッチングを行い、マッチング結果に基づいて高画質化し鮮明化する領域を決定する。これにより、実際に取得した映像において、予測された対象物と一致する領域の画質を担保できるため、行動認識ミスを確実に防ぐことができる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、実施の形態２では、センターサーバが予測した情報と端末が検出した情報とをマッチングしたが、センターサーバで予測を行わずに行動認識から得られた情報と端末が検出した情報とをマッチングしてもよい。すなわち、センターサーバから行動認識結果などの行動認識処理により抽出された抽出情報を、端末にフィードバックしてもよい。また、上記実施の形態で説明した処理フローは、一例であり、各処理の順序は上記の例に限られない。一部の処理の順序を入れ替えて実行してもよいし、一部の処理を並行して実行してもよい。

　上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、図２５に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ４１及び記憶装置であるメモリ４２を有するコンピュータ４０により実現してもよい。例えば、メモリ４２に実施形態における方法（映像処理方法）を行うためのプログラムを格納し、各機能を、メモリ４２に格納されたプログラムをプロセッサ４１で実行することにより実現してもよい。

　これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、
　前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、
　前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、
　を備える、映像処理システム。
（付記２）
　前記抽出情報は、前記注視対象の時系列の位置情報を含む、
　付記１に記載の映像処理システム。
（付記３）
　前記注視対象の時系列の位置情報は、前記認識処理におけるトラッキング処理から得られる前記注視対象の軌跡情報を含む、
　付記２に記載の映像処理システム。
（付記４）
　前記予測手段は、前記軌跡情報を延長した延長線に基づいて、前記注視対象の位置を予測する、
　付記３に記載の映像処理システム。
（付記５）
　前記抽出情報は、前記注視対象に対する行動認識結果を含む、
　付記１乃至４のいずれか一項に記載の映像処理システム。
（付記６）
　前記予測手段は、前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
　付記５に記載の映像処理システム。
（付記７）
　前記予測手段は、前記使用物体の向きに基づいて、前記注視対象の位置を予測する、
　付記６に記載の映像処理システム。
（付記８）
　前記予測手段は、前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
　付記５乃至７のいずれか一項に記載の映像処理システム。
（付記９）
　前記認識処理を行った映像より後に入力される映像から物体を検出する検出手段を備え、
　前記決定手段は、前記位置を予測した注視対象と前記検出した物体とのマッチング結果に基づいて、前記注視領域を決定する、
　付記１乃至８のいずれか一項に記載の映像処理システム。
（付記１０）
　前記決定手段は、前記位置を予測した注視対象及び前記検出した物体における、物体の種別、画像の特徴、または、位置情報に基づいてマッチングを行う、
　付記９に記載の映像処理システム。
（付記１１）
　前記決定手段は、前記位置を予測した注視対象の物体の種別と前記検出した物体の種別とが、同じまたは類似する場合、前記位置を予測した注視対象と前記検出した物体がマッチングすると判定する、
　付記１０に記載の映像処理システム。
（付記１２）
　前記決定手段は、前記位置を予測した注視対象を含む画像の特徴と前記検出した物体を含む画像の特徴との類似度が所定値よりも大きい場合、前記位置を予測した注視対象と前記検出した物体がマッチングすると判定する、
　付記１０に記載の映像処理システム。
（付記１３）
　前記決定手段は、前記位置を予測した注視対象と前記検出した物体との距離が所定値よりも小さい場合、前記位置を予測した注視対象の領域と前記検出した物体の領域との重なりが所定値よりも大きい場合、または、前記位置を予測した注視対象の領域の大きさと前記検出した物体の領域の大きさとの差分が所定値よりも小さい場合、前記位置を予測した注視対象と前記検出した物体がマッチングすると判定する、
　付記１０に記載の映像処理システム。
（付記１４）
　前記決定手段は、前記位置を予測した注視対象と前記検出した物体がマッチングすると判定した場合、前記検出した物体に基づいて前記注視領域を決定する、
　付記９乃至１３のいずれか一項に記載の映像処理システム。
（付記１５）
　前記決定手段は、前記位置を予測した注視対象と前記検出した物体がマッチングしないと判定した場合、前記位置を予測した注視対象に基づいて前記注視領域を決定するか、または、前記注視領域を決定しない、
　付記９乃至１４のいずれか一項に記載の映像処理システム。
（付記１６）
　前記決定手段は、複数の前記位置を予測した注視対象と前記検出した物体とのマッチング結果に応じて、複数の前記位置を予測した注視対象と前記検出した物体のいずれかの領域を選択し、前記選択した領域に基づいて前記注視領域を決定する、
　付記９乃至１５のいずれか一項に記載の映像処理システム。
（付記１７）
　前記決定手段は、前記位置を予測した注視対象と複数の前記検出した物体とのマッチング結果に応じて、前記位置を予測した注視対象と複数の前記検出した物体のいずれかの領域を選択し、前記選択した領域に基づいて前記注視領域を決定する、
　付記９乃至１６のいずれか一項に記載の映像処理システム。
（付記１８）
　前記決定手段は、前記認識処理における認識結果に基づいて、前記注視領域を決定するか否か判定する、
　付記１乃至１７のいずれか一項に記載の映像処理システム。
（付記１９）
　前記決定手段は、前記認識結果のスコアが所定値より小さい場合、前記注視領域を決定する、
　付記１８に記載の映像処理システム。
（付記２０）
　前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
　前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
　付記１乃至１８のいずれか一項に記載の映像処理システム。
（付記２１）
　前記画質制御手段は、前記注視領域の画質を他の領域よりも高画質化する、
　付記１乃至２０のいずれか一項に記載の映像処理システム。
（付記２２）
　入力される映像における注視対象を含む注視領域の画質を制御し、
　前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行し、
　前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測し、
　前記予測された注視対象の位置に基づいて、前記後の映像において画質を制御する前記注視領域を決定する、
　映像処理方法。
（付記２３）
　前記抽出情報は、前記注視対象の時系列の位置情報を含む、
　付記２２に記載の映像処理方法。
（付記２４）
　前記抽出情報は、前記注視対象に対する行動認識結果を含む、
　付記２２または２３に記載の映像処理方法。
（付記２５）
　前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
　付記２４に記載の映像処理方法。
（付記２６）
　前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
　付記２４または２５に記載の映像処理方法。
（付記２７）
　前記認識処理を行った映像より後に入力される映像から物体を検出し、
　前記位置を予測した注視対象と前記検出した物体とのマッチング結果に基づいて、前記注視領域を決定する、
　付記２２乃至２６のいずれか一項に記載の映像処理方法。
（付記２８）
　前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
　前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
　付記２２乃至２７のいずれか一項に記載の映像処理方法。
（付記２９）
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、
　前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、
　前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、
　を備える、映像処理装置。
（付記３０）
　前記抽出情報は、前記注視対象の時系列の位置情報を含む、
　付記２９に記載の映像処理装置。
（付記３１）
　前記抽出情報は、前記注視対象に対する行動認識結果を含む、
　付記２９または３０に記載の映像処理装置。
（付記３２）
　前記予測手段は、前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
　付記３１に記載の映像処理装置。
（付記３３）
　前記予測手段は、前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
　付記３１または３２に記載の映像処理装置。
（付記３４）
　前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
　前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
　付記２９乃至３３のいずれか一項に記載の映像処理装置。
（付記３５）
　入力される映像における注視対象を含む注視領域の画質を制御し、
　前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行し、
　前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測し、
　前記予測された注視対象の位置に基づいて、前記後の映像において画質を制御する前記注視領域を決定する、
　処理をコンピュータに実行させるための映像処理プログラム。

１　　　遠隔監視システム
１０　　映像処理システム
１１　　画質制御部
１２　　認識部
１３　　予測部
１４　　決定部
２０　　映像処理装置
４０　　コンピュータ
４１　　プロセッサ
４２　　メモリ
１００　端末
１０１　カメラ
１０２　圧縮効率最適化機能
１０３　映像送信機能
１１０　映像取得部
１２０　検出部
１３０　画質変更判定部
１３１　第１の判定部
１３２　第２の判定部
１３３　マッチング部
１４０　圧縮効率決定部
１５０　端末通信部
２００　センターサーバ
２０１　映像認識機能
２０２　アラート生成機能
２０３　ＧＵＩ描画機能
２０４　画面表示機能
２１０　センター通信部
２２０　デコーダ
２３０　行動認識部
２３１　物体検出部
２３２　追跡部
２３３ａ　関連性分析部
２３３ｂ　行動予測器
２３４　行動判定部
２４０　抽出情報保存部
２５０　注視対象解析部
２６０　注視対象位置予測部
３００　基地局
４００　ＭＥＣ
４０１　圧縮ビットレート制御機能
４０２　端末制御機能

Claims

　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、
　前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、
　前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、
　を備える、映像処理システム。
　前記抽出情報は、前記注視対象の時系列の位置情報を含む、
　請求項１に記載の映像処理システム。
　前記抽出情報は、前記注視対象に対する行動認識結果を含む、
　請求項１または２に記載の映像処理システム。
　前記予測手段は、前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
　請求項３に記載の映像処理システム。
　前記予測手段は、前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
　請求項３または４に記載の映像処理システム。
　前記認識処理を行った映像より後に入力される映像から物体を検出する検出手段を備え、
　前記決定手段は、前記位置を予測した注視対象と前記検出した物体とのマッチング結果に基づいて、前記注視領域を決定する、
　請求項１乃至５のいずれか一項に記載の映像処理システム。
　前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
　前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
　請求項１乃至６のいずれか一項に記載の映像処理システム。
　入力される映像における注視対象を含む注視領域の画質を制御し、
　前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行し、
　前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測し、
　前記予測された注視対象の位置に基づいて、前記後の映像において画質を制御する前記注視領域を決定する、
　映像処理方法。
　前記抽出情報は、前記注視対象の時系列の位置情報を含む、
　請求項８に記載の映像処理方法。
　前記抽出情報は、前記注視対象に対する行動認識結果を含む、
　請求項８または９に記載の映像処理方法。
　前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
　請求項１０に記載の映像処理方法。
　前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
　請求項１０または１１に記載の映像処理方法。
　前記認識処理を行った映像より後に入力される映像から物体を検出し、
　前記位置を予測した注視対象と前記検出した物体とのマッチング結果に基づいて、前記注視領域を決定する、
　請求項８乃至１２のいずれか一項に記載の映像処理方法。
　前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
　前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
　請求項８乃至１３のいずれか一項に記載の映像処理方法。
　入力される映像における注視対象を含む注視領域の画質を制御する画質制御手段と、
　前記注視領域の画質が制御された映像に対し、前記注視対象を認識する認識処理を実行する認識手段と、
　前記認識処理から抽出される抽出情報に基づいて、前記認識処理を行った映像より後の映像における前記注視対象の位置を予測する予測手段と、
　前記予測された注視対象の位置に基づいて、前記画質制御手段が前記後の映像において画質を制御する前記注視領域を決定する決定手段と、
　を備える、映像処理装置。
　前記抽出情報は、前記注視対象の時系列の位置情報を含む、
　請求項１５に記載の映像処理装置。
　前記抽出情報は、前記注視対象に対する行動認識結果を含む、
　請求項１５または１６に記載の映像処理装置。
　前記予測手段は、前記行動認識結果が示す行動において使用される物体である使用物体に基づいて、前記注視対象の位置を予測する、
　請求項１７に記載の映像処理装置。
　前記予測手段は、前記行動認識結果が示す行動を行う人物の向きに基づいて、前記注視対象の位置を予測する、
　請求項１７または１８に記載の映像処理装置。
　前記注視対象は、前記認識処理の対象である人物と、前記人物が使用する使用物体とを含み、
　前記注視領域は、前記人物の領域と前記使用物体の領域を含む、
　請求項１５乃至１９のいずれか一項に記載の映像処理装置。