WO2024047794A1

WO2024047794A1 - 映像処理システム、映像処理装置及び映像処理方法

Info

Publication number: WO2024047794A1
Application number: PCT/JP2022/032764
Authority: WO
Inventors: 勇人逸身; 浩一二瓶; フロリアンバイエ; 勝彦高橋; 康敬馬場崎; 隆平安藤; 君朴
Original assignee: 日本電気株式会社
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-07

Abstract

映像処理システム（１０）は、映像処理システム（１０）に映像が入力されると、映像処理システム（１０）に入力された映像に含まれる物体を検出する物体検出部（１１）と、物体検出部（１１）により検出された物体の検出結果に基づいて、入力された映像における物体を含む領域の画質を制御する画質制御部（１２）と、物体検出部（１１）により検出された物体の検出結果と画質制御部（１２）により画質が制御された映像とを送信する送信部（１３）と、を備える。

Description

映像処理システム、映像処理装置及び映像処理方法

　本開示は、映像処理システム、映像処理装置及び映像処理方法に関する。

　画像や映像に基づいて、人物を含む物体を検出する技術や、人物の行動を含む物体の状態を認識する技術が開発されている。関連する技術として、例えば、特許文献１が知られている。特許文献１には、第１の物体検出手段と第２の物体検出手段とで、それぞれ解像度やフレームレートを変えた映像を用いて、物体を検出する技術が記載されている。

特開２０１２－２１２２３５号公報

　特許文献１のような関連する技術では、ネットワークを介して、解像度などの画質を制御した画像を送信し、送信した画像から物体を検出している。しかしながら、関連する技術では、画像全体の画質を制御することが前提となっているため、画像の領域ごとに画質を制御する場合について考慮されていない。このため、関連する技術では、例えば、ネットワークの状況によって画像の領域ごとに画質が制御された場合、物体の検出又は認識の精度が低下する可能性がある。

　本開示は、このような課題に鑑み、物体の検出又は認識の精度を向上することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することを目的とする。

　本開示に係る映像処理システムは、入力される映像に含まれる物体を検出する第１の物体検出手段と、前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、を備えるものである。

　本開示に係る映像処理装置は、入力される映像に含まれる物体を検出する物体検出手段と、前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、を備えるものである。

　本開示に係る映像処理方法は、入力される映像に含まれる物体を検出し、前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御し、前記物体の検出結果と前記画質が制御された映像とを送信するものである。

　本開示によれば、物体の検出又は認識の精度を向上することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することができる。

実施の形態に係る映像処理システムの概要を示す構成図である。実施の形態に係る映像処理装置の概要を示す構成図である。実施の形態に係る映像処理方法の概要を示すフローチャートである。実施の形態に係る映像処理方法を説明するための図である。実施の形態に係る遠隔監視システムの基本構成を示す構成図である。実施の形態１に係る端末の構成例を示す構成図である。実施の形態１に係るセンターサーバの構成例を示す構成図である。実施の形態１に係る遠隔監視システムの動作例を示すフローチャートである。実施の形態１に係る映像取得処理を説明するための図である。実施の形態１に係る物体検出処理を説明するための図である。実施の形態１に係る画質制御処理を説明するための図である。実施の形態１に係る物体検出結果抽出処理を説明するための図である。実施の形態１に係る物体検出処理を説明するための図である。実施の形態２に係る端末の構成例を示す構成図である。実施の形態２に係るセンターサーバの構成例を示す構成図である。実施の形態３に係る端末の構成例を示す構成図である。実施の形態３に係るセンターサーバの構成例を示す構成図である。実施の形態３に係る物体－作業対応付けテーブルの例を示す図である。実施の形態３に係る行動認識処理を説明するための図である。実施の形態４に係る端末の構成例を示す構成図である。実施の形態４に係るセンターサーバの構成例を示す構成図である。実施の形態４に係る人物－作業対応付けテーブルの例を示す図である。実施の形態４に係る行動認識処理を説明するための図である。実施の形態５に係る端末の構成例を示す構成図である。実施の形態５に係る関連物体応付けテーブルの例を示す図である。実施の形態５に係る関連物体応付けテーブルの他の例を示す図である。実施の形態６に係る端末の構成例を示す構成図である。実施の形態６に係る作業－物体応付けテーブルの例を示す図である。実施の形態６に係る作業－物体応付けテーブルの他の例を示す図である。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

　以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

（実施の形態の概要）
　まず、実施の形態の概要について説明する。図１は、実施の形態に係る映像処理システム１０の概要構成を示している。映像処理システム１０は、例えば、ネットワークを介して映像を送信し、送信した映像を認識する遠隔監視システムに適用可能である。映像を認識するとは、映像に含まれる対象に関する認識を行うことである。映像に含まれる対象に関する認識は、映像に含まれる物体の検出や物体に関連する状態等の認識であり、例えば、人物を含む物体の存在の認識、人物を含む物体の種類や属性の認識、人物の行動の認識、物体の状態の認識等を含む。なお、映像を送信することを、映像を配信するとも表現する。

　図１に示すように、映像処理システム１０は、物体検出部１１、画質制御部１２、送信部１３を備えている。物体検出部１１は、入力される映像に含まれる物体を検出する。物体を検出することは、映像内に含まれる物体の種別を特定することや、物体を識別することを含む。物体の種別の特定は、人や椅子、転圧機などの物体の種類を特定することである。物体の識別は、人物が特定の人物であることや、作業車の個体を一意に区別することを指す、例えば、物体検出部１１は、第１の物体検出部である。例えば、映像内の物体には、作業を行う人物や、人物が作業で使用する作業物体などが含まれる。

　画質制御部１２は、物体の検出結果に基づいて、映像における物体を含む領域の画質を制御する。例えば、画質制御部１２は、映像から人物や作業物体などの物体が検出されると、各物体の領域のうち選択された特定の領域を他の領域より高画質化してもよいし、特定の領域を他の領域より低画質化してもよい。特定の領域を高画質化するとは、他の領域よりも特定の領域の画質を良くすることであり、画像を鮮明化するとも表現する。特定の領域を低画質化するとは、他の領域よりも特定の領域の画質を下げることである。他の領域を特定の領域よりも低画質化することで、特定の領域を高画質化してもよい。他の領域を特定の領域よりも高画質化することで、特定の領域を低画質化してもよい。例えば、特定の領域を低画質化する場合、特定の領域の圧縮率を上げてもよいし、解像度を下げてもよい。特定の領域を高画質化する場合、特定の領域の圧縮率を下げてもよいし、解像度を上げてもよい。

　送信部１３は、物体の検出結果と画質が制御された映像とを送信する。例えば、送信部１３は、検出された物体のうち、低画質化された領域に含まれる物体の検出結果と、画質が制御された映像とを、ネットワークを介して送信する。送信部１３は、例えば、物体の検出結果として、物体の種別及び位置情報を送信する。物体の検出結果として、映像内の物体を含む領域の特徴量や、第１の物体と第２の物体の位置関係、人物や物体を一意に識別または物体の属性を識別する人物識別情報や属性識別情報等を送信してもよい。人物識別情報は、顔認証により特定された個人を識別する識別情報であり、例えば、各人物の氏名でもよいし、各人物に割り当てられた識別番号でもよい。属性識別情報は、映像内の物体の所属を識別する識別情報であり、例えば、各人物の職種や所属する企業でもよいし、各職種や企業に割り当てられた識別番号でもよく、各物体を所有する企業や団体であってもよく、各物体を製造した企業や団体であってもよい。属性識別情報は、例えば、機械等の物体や衣類に添付又は表示された、属性やグループを示すコード等から識別してもよい。特徴量とは、画像などの分析対象物の特徴を表した指標や数値である。例えば、物体を一意に識別することは、人物が特定の人物であることを識別すること等であり、物体の属性を識別することは、人物の職種や所属する企業を識別すること等である。また、映像処理システム１０は、送信部１３から送信された物体の検出結果を用いて、送信された映像における物体を検出する第２の物体検出部をさらに備えていてもよい。映像処理システム１０は、送信部１３から送信された物体の検出結果を用いて、送信された映像における物体の状態を認識する状態認識部をさらに備えていてもよい。物体の状態は、人物の行動や、自律移動する重機などの物体が移動している状態を含む。例えば、送信部１３は、物体の検出結果として、第２の物体検出部の物体検出や状態認識部の状態認識で使用可能な情報を送信する。

　なお、映像処理システム１０は、１つの装置により構成してもよいし、複数の装置により構成してもよい。図２は、実施の形態に係る映像処理装置２０の構成を例示している。図２に示すように、映像処理装置２０は、図１に示した物体検出部１１、画質制御部１２、送信部１３を備えてもよい。また、映像処理システム１０の一部または全部をエッジまたはクラウドに配置してもよい。映像処理システムの一部または全部をエッジに配置するとは、例えば、映像処理システムを含む統合的なシステムにおいて、統合的なシステムの中心的な処理を行う機器とは離れた場所に、映像処理システムの一部または全部を配置することを指す。また、例えば、ネットワークを介して現場で撮影された映像を監視するシステムにおいて、エッジは現場や現場の近くの場所を指す。例えば、エッジの端末が物体検出部１１、画質制御部１２、送信部１３を備えてもよい。

　図３は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図１及び図２の映像処理システム１０や映像処理装置２０により実行される。図３に示すように、まず、物体検出部１１は、入力される映像に含まれる物体を検出する（Ｓ１１）。次に、画質制御部１２は、物体の検出結果に基づいて、映像における物体を含む領域の画質を制御する（Ｓ１２）。次に、送信部１３は、物体の検出結果と画質が制御された映像とを送信する（Ｓ１３）。

　ここで、エッジの端末からネットワークを介してクラウドのサーバに映像を送信し、サーバが映像を認識する例について検討する。クラウドのサーバとは、エッジに配置された装置とネットワークで接続された、遠隔地に配置されるサーバを指す。ネットワークを介して映像を送信する際、ネットワークの状況により鮮明な映像を送信することが困難な場合がある。例えば、ネットワークの状況が一時的に悪化することにより映像断や映像全体が低画質化する場合がある。この場合、映像全体の認識精度が低下する。また、ネットワークの状況に応じて、所定の領域を高画質化する場合や、他の領域を低画質化する場合がある。高画質化した領域の認識精度は向上するが、低画質化した領域の認識精度は低下する。そこで、実施の形態では、ネットワークの状況などにより、高画質な映像を送信することが困難な場合に、認識精度を向上することを可能とする。

　図４は、実施の形態に係る映像処理方法において、端末からサーバに映像を送信する場合の動作例を示している。例えば、図４の映像処理方法を実行する映像処理システムは、送信した映像から物体の状態を認識するため、図１の構成に加えて、更に、状態認識部を備えていてもよい。状態認識部に限らず、映像から物体を検出する物体検出部を備えていてもよい。例えば、端末は、物体検出部、画質制御部、送信部を備え、サーバは、状態認識部を備えていてもよい。

　図４に示すように、実施の形態に係る映像処理方法では、物体検出部は、カメラ映像から物体を検出し（Ｓ１０１）、画質制御部は、物体の検出結果に基づいて、映像の画質を制御する（Ｓ１０２）。画質制御部は、物体の検出結果に基づいて、選択された物体の領域を高画質化し、他の領域を低画質化する。

　次に、送信部は、画質が制御された映像を送信し（Ｓ１０３ａ）、物体の検出結果を送信する（Ｓ１０３ｂ）。送信部は、物体の検出結果のうち、低画質化した領域に含まれる物体の検出結果を送信する。

　次に、状態認識部は、送信された物体の検出結果を用いて、送信された映像から物体の状態を認識する（Ｓ１０４）。状態認識部は、端末から送信された物体の検出結果を用いて、低画質化した領域における物体の状態を認識する。状態認識部は、端末から送信された物体の検出結果に基づいて、状態認識結果の候補を絞り込んでもよい。状態認識に限らず、送信された物体の検出結果を用いて、送信された映像から物体を検出してもよい。

　このように、実施の形態では、画質が制御された映像を送信する際に、映像に含まれる物体の検出結果を送信する。これにより、映像の受信側で、物体の検出結果を使用して映像を分析できるため、物体の状態等の認識精度を向上することができる。例えば、エッジの端末からクラウドのサーバに映像を送信し、サーバが映像から物体や状態を認識するシステムにおいて、認識のアシストとなる映像の分析結果、すなわち、認識処理に使用可能な検出結果を端末からサーバに送信してもよい。これにより、端末の物体検出結果とサーバの物体検出結果をアンサンブル、すなわち、両方の検出結果を用いて、物体や状態を認識できる。このため、例えば、ネットワークが低帯域の場合やビットレートが制限された場合に、認識精度を向上することができる。

（遠隔監視システムの基本構成）
　次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図５は、遠隔監視システム１の基本構成を例示している。遠隔監視システム１は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場や工場などの作業現場、人の集まる広場、駅、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像、すなわちフレームを含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。

　図５に示すように、遠隔監視システム１は、複数の端末１００、センターサーバ２００、基地局３００、ＭＥＣ４００を備えている。端末１００、基地局３００及びＭＥＣ４００は、現場側に配置され、センターサーバ２００は、センター側に配置されている。例えば、センターサーバ２００は、現場から離れた位置に配置されているデータセンタ等に配置されている。現場側はシステムのエッジ側とも呼称し、センター側はクラウド側とも呼称する。

　端末１００と基地局３００との間は、ネットワークＮＷ１により通信可能に接続される。ネットワークＮＷ１は、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ（Long Term Evolution）、無線ＬＡＮなどの無線ネットワークである。なお、ネットワークＮＷ１は、無線ネットワークに限らず、有線ネットワークでもよい。基地局３００とセンターサーバ２００との間は、ネットワークＮＷ２により通信可能に接続される。ネットワークＮＷ２は、例えば、５ＧＣ（5th Generation Core network）やＥＰＣ（Evolved Packet Core）などのコアネットワーク、インターネットなどを含む。なお、ネットワークＮＷ２は、有線ネットワークに限らず、無線ネットワークでもよい。端末１００とセンターサーバ２００との間は、基地局３００を介して、通信可能に接続されているとも言える。基地局３００とＭＥＣ４００の間は任意の通信方法により通信可能に接続されるが、基地局３００とＭＥＣ４００は、１つの装置でもよい。

　端末１００は、ネットワークＮＷ１に接続される端末装置であり、現場の映像を送信する映像送信装置でもある。端末１００は、現場に設置されたカメラ１０１が撮影した映像を取得し、取得した映像を、基地局３００を介して、センターサーバ２００へ送信する。なお、カメラ１０１は、端末１００の外部に配置されてもよいし、端末１００の内部に配置されてもよい。

　端末１００は、カメラ１０１の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末１００は、圧縮効率を最適化する圧縮効率最適化機能１０２を有する。圧縮効率最適化機能１０２は、映像内のＲＯＩ（Region of Interest）の画質を制御するＲＯＩ制御を行う。ＲＯＩは、映像内の所定の領域である。ＲＯＩは、センターサーバ２００の認識対象を含む領域であってもよく、ユーザが注視すべき領域であってもよい。圧縮効率最適化機能１０２は、人物や物体を含むＲＯＩの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。また、端末１００は、取得した映像から物体を検出する物体検出部を備えていてもよい。圧縮効率最適化機能１０２は、物体の検出結果に基づいて、映像における物体を含む領域の画質を制御する画質制御部を含んでもよい。端末１００は、物体の検出結果と画質が制御された映像とを送信する送信部を備えていてもよい。

　基地局３００は、ネットワークＮＷ１の基地局装置であり、端末１００とセンターサーバ２００の間の通信を中継する中継装置でもある。例えば、基地局３００は、ローカル５Ｇの基地局、５ＧのｇＮＢ（next Generation Node B）、ＬＴＥのｅＮＢ（evolved Node B）、無線ＬＡＮのアクセスポイント等であるが、その他の中継装置でもよい。

　ＭＥＣ（Multi-access Edge Computing）４００は、システムのエッジ側に配置されたエッジ処理装置である。ＭＥＣ４００は、端末１００を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能４０１を有する。圧縮ビットレート制御機能４０１は、適応映像配信制御やＱｏＥ（quality of experience）制御により端末１００のビットレートを制御する。適応映像配信制御は、ネットワークの状況に応じて配信する映像のビットレート等を制御する。例えば、圧縮ビットレート制御機能４０１は、ネットワークＮＷ１及びＮＷ２の通信環境に応じて、センターサーバ２００の認識精度が良くなるように各端末１００のカメラ１０１の配信する映像にビットレートを割り当てる。また、ネットワークＮＷ１及びＮＷ２の通信環境を予測し、予測結果に応じてビットレートを割り当ててもよい。圧縮ビットレート制御機能４０１は、配信される映像のビットレートを抑えることによって当該映像を認識モデルに入力した際に得られる認識精度を予測してもよい。なお、ビットレートの制御に限らず、ネットワークの状況に応じて配信する映像のフレームレートを制御してもよい。

　センターサーバ２００は、システムのセンター側に設置されたサーバである。センターサーバ２００は、１つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ２００は、現場のカメラ映像を分析や認識することで、現場の作業を監視する監視装置である。センターサーバ２００は、端末１００から送信された映像を受信する映像受信装置でもある。

　センターサーバ２００は、映像認識機能２０１、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を有する。映像認識機能２０１は、端末１００から送信された映像を映像認識ＡＩ（Artificial Intelligence）エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。また、映像認識機能２０１は、端末１００から受信する物体検出結果と映像とに基づいて行動を認識してもよい。物体検出部をセンターサーバ２００側に備えていてもよく、センターサーバ２００の物体検出結果に基づいて人物の行動を認識してもよい。なお、映像認識機能２０１は、人物の行動に限らず、物体の状態を認識してもよい。

　アラート生成機能２０２は、認識された作業に応じてアラートを生成する。ＧＵＩ描画機能２０３は、表示装置の画面にＧＵＩ（Graphical User Interface）を表示する。画面表示機能２０４は、ＧＵＩに端末１００の映像や認識結果、アラート等を表示する。なお、必要に応じて、いずれかの機能を省略してもよいし、いずれかの機能を備えていてもよい。例えば、センターサーバ２００は、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を備えていなくてもよい。

（実施の形態１）
　次に、実施の形態１について説明する。本実施の形態では、配信する映像とともに、低画質化領域の物体検出結果を送信する例について説明する。低画質化領域とは、他の領域よりも低画質に制御された領域である。

　まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム１の基本構成は、図５に示した通りである。ここでは、端末１００とセンターサーバ２００の構成例について説明する。図６は、本実施の形態に係る端末１００の構成例を示しており、図７は、本実施の形態に係るセンターサーバ２００の構成例を示している。

　なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末１００の一部の機能をセンターサーバ２００や他の装置に配置してもよいし、センターサーバ２００の一部の機能を端末１００や他の装置に配置してもよい。また、圧縮ビットレート制御機能を含むＭＥＣ４００の機能をセンターサーバ２００や端末１００等に配置してもよい。

　図６に示すように、端末１００は、映像取得部１１０、物体検出部１２０、ＲＯＩ選択部１３０、画質制御部１４０、物体検出結果抽出部１５０、配信部１６０、記憶部１７０を備えている。

　映像取得部１１０は、カメラ１０１が撮影した映像を取得する。カメラが撮影した映像は、以下入力映像とも称する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部１１０は、時系列の複数の画像、すなわちフレームを取得する画像取得部でもある。

　物体検出部１２０は、取得された入力映像内の物体を検出する。物体を検出することは、物体の種別を認識することや物体を認識することを含んでもよい。物体検出部１２０は、入力映像に含まれる各フレーム内の物体を検出し、検出した物体の種別を認識する。物体種別は、物体ラベル、または、物体クラスとも称する。物体検出部１２０は、入力映像に含まれる各フレームから物体を含む矩形領域を抽出し、抽出した矩形領域内の物体の物体種別を認識する。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。物体検出部１２０は、物体を含む矩形領域の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、物体検出部１２０は、ディープラーニングなどの機械学習を用いた物体認識エンジンによりフレーム内の物体を認識する。物体を含む領域の特徴と物体の種別を機械学習することで物体を認識できる。物体の検出結果には、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等が含まれる。物体の位置情報は、例えば、矩形領域の各頂点の座標であるが、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。物体種別のスコアは、検出した物体種別の確からしさ、すなわち信頼度または確信度である。なお、物体を認識することは、例えば、物体の存在の認識、物体の種類や属性の認識、物体の状態の認識等を含んでもよい。

　ＲＯＩ選択部１３０は、入力映像内で検出した物体の検出結果に基づいて、取得された入力映像におけるＲＯＩ、すなわち注視領域を選択する。ＲＯＩ選択部１３０は、入力映像内で検出した検出物体のうち所定の物体種別を有する物体の位置情報に基づいて、ＲＯＩを決定する。例えば、記憶部１７０に記憶された所定の物体種別を有する物体の領域をＲＯＩに選択してもよい。また、物体検出結果に含まれる物体種別のスコアが所定値よりも大きい物体の領域や、物体種別のスコアが高い順に上位から所定の数の物体の領域を、ＲＯＩに選択してもよい。なお、物体種別のスコアが所定値よりも小さい物体の領域をＲＯＩに選択してもよい。

　画質制御部１４０は、選択したＲＯＩに基づいて、入力映像の画質を制御する。画質制御部１４０は、ＲＯＩを鮮明化領域とし、ＲＯＩ以外の領域を非鮮明化領域として、入力映像の画質を制御する。鮮明化領域は、高画質化される領域であり、非鮮明化領域は、低画質化される領域である。画質制御部１４０は、所定の符号化方式により入力映像をエンコードするするエンコーダである。画質制御部１４０は、例えば、Ｈ．２６４やＨ．２６５などの映像符号化方式によりエンコードする。画質制御部１４０は、高画質化領域と低画質化領域をそれぞれ所定の圧縮率、すなわちビットレートで圧縮することで、各領域の画質が所定の品質となるようにエンコードする。すなわち、高画質化領域と低画質化領域の圧縮率を変えることで、高画質化領域を低画質化領域よりも高画質化し、低画質化領域を高画質化領域よりも低画質化する。例えば、隣接ピクセル間の画素値の変化を緩やかにすることで、低画質化することができる。

　また、画質制御部１４０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートとなるように入力映像をエンコードしてもよい。割り当てられたビットレートの範囲で、高画質化領域及び低画質化領域の画質を制御してもよい。また、画質制御部１４０は、端末１００とセンターサーバ２００間の通信品質に基づいて、ビットレートを決定してもよい。通信品質に基づいたビットレートの範囲で、高画質化領域及び低画質化領域の画質を制御してもよい。通信品質は、例えば、通信速度であるが、伝送遅延や誤り率などその他の指標でもよい。端末１００は、通信品質を測定する通信品質測定部を備えていてもよい。例えば、通信品質測定部は、通信速度に応じて端末１００からセンターサーバ２００へ送信する映像のビットレートを決定する。基地局３００またはセンターサーバ２００が受信するデータ量に基づいて通信速度を測定し、通信品質測定部は、基地局３００またはセンターサーバ２００から測定された通信速度を取得してもよい。また、通信品質測定部は、配信部１６０から送信する単位時間当たりのデータ量に基づいて通信速度を推定してもよい。

　物体検出結果抽出部１５０は、物体検出結果から、センターサーバ２００へ送信する物体検出結果を抽出する。物体検出結果抽出部１５０は、物体検出部１２０が検出した複数の物体の物体検出結果から、ＲＯＩに選択されなかった低画質化領域の物体検出結果を抽出する。物体検出結果抽出部１５０は、抽出した物体検出結果を、配信部１６０を介してセンターサーバ２００へ送信する。送信する物体検出結果は、センターサーバ２００で物体検出のために使用可能な情報である。例えば、物体検出結果として、物体種別、物体を含む矩形領域の位置情報を送信する。また、物体検出結果として、物体種別のスコアを送信してもよいし、物体を含む領域の特徴量を送信してもよい。

　配信部１６０は、画質制御部１４０が画質を制御した映像、すなわち、エンコードしたエンコードデータを、ネットワークを介して、センターサーバ２００へ配信する。また、配信部１６０は、物体検出結果抽出部１５０が抽出した低画質化領域の物体検出結果を、ネットワークを介して、センターサーバ２００へ送信する。配信部１６０は、エンコードデータのパケットに物体検出結果を含めて、エンコードデータと物体検出結果をまとめて送信してもよい。エンコードデータと物体検出結果を別々のタイミングや、別々の通信経路で送信してもよい。この場合、エンコードデータと物体検出結果にタイムスタンプを含めて送信してもよい。

　例えば、配信部１６０は、エンコードデータ及び物体検出結果を、基地局３００を介して、センターサーバ２００へ送信する。配信部１６０は、基地局３００と通信可能な通信インタフェースであり、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ、無線ＬＡＮ等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。配信部１６０は、エンコードデータを送信する第１の送信部と、物体検出結果を送信する第２の送信部を含んでもよい。第１の送信部と第２の送信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　記憶部１７０は、端末１００の処理に必要なデータを記憶する。例えば、記憶部１７０は、ＲＯＩを選択するための所定の物体種別を記憶する。

　また、図７に示すように、センターサーバ２００は、受信部２１０、デコーダ２２０、物体検出結果取得部２３０、物体検出部２４０、物体追跡部２５０、特徴抽出部２６０、姿勢推定部２７０、行動認識部２８０を備えている。

　受信部２１０は、端末１００から送信された画質制御後の映像、すなわち、エンコードデータを、ネットワークを介して受信する。また、受信部２１０は、端末１００が低画質化した低画質化領域の物体検出結果を、ネットワークを介して受信する。例えば、受信部２１０は、エンコードデータと物体検出結果を含むパケットを受信する。また、エンコードデータと物体検出結果を別々のタイミングや、別々の通信経路で受信してもよい。エンコードデータと物体検出結果にタイムスタンプが付されている場合、タイムスタンプによりエンコードデータに対応する物体検出結果を特定する。

　例えば、受信部２１０は、端末１００が配信したエンコードデータ及び物体検出結果を、基地局３００を介して受信する。受信部２１０は、インターネットやコアネットワークと通信可能な通信インタフェースであり、例えば、ＩＰ通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。受信部２１０は、エンコードデータを受信する第１の受信部と、物体検出結果を受信する第２の受信部を含んでもよい。第１の受信部と第２の受信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。物体検出結果取得部２３０は、受信部２１０が端末１００から受信した低画質化領域の物体検出結果を取得する。なお、物体検出結果取得部２３０は、受信部２１０と一体でもよい。

　デコーダ２２０は、端末１００から受信したエンコードデータをデコードする。デコーダ２２０は、エンコードデータを復号化する復号化部である。デコーダ２２０は、所定の符号化方式によりエンコードデータ、すなわち圧縮データを復元する復元部でもある。デコーダ２２０は、端末１００の符号化方式に対応し、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりデコードする。デコーダ２２０は、各領域の圧縮率やビットレートに応じてデコードし、デコードした映像を生成する。デコードした映像を、以下受信映像とも称する。

　物体検出部２４０は、端末１００から受信した受信映像内の物体を検出する。例えば、物体検出部２４０は、端末１００の物体検出部１２０と同様、機械学習を用いた物体認識エンジンにより物体を認識する。なお、物体検出部２４０の物体認識エンジンは、物体検出部１２０に備えられている物体認識エンジンとは異なる学習を行った物体認識エンジンであってよい。物体検出部２４０は、受信映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体の物体種別を認識する。物体の検出結果には、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等が含まれる。

　また、物体検出部２４０は、端末１００から取得した物体検出結果を用いて、受信映像内の低画質化領域の物体を検出する。すなわち、物体検出部２４０は、物体認識エンジンにより高画質化領域の物体を検出し、端末１００から取得した物体検出結果により低画質化領域の物体を検出する。物体検出部２４０は、物体認識エンジンにより検出した高画質化領域の物体検出結果と、端末１００から取得した物体検出結果により検出した低画質化領域の物体検出結果とを含む物体検出結果を出力する。物体検出部２４０は、端末１００から取得した物体検出結果をもとに、受信映像を分析して低画質化領域の物体検出結果を生成してもよいし、端末１００から取得した物体検出結果を低画質化領域の物体検出結果として出力してもよい。例えば、物体が検出できない領域や、物体種別のスコアが所定値よりも小さい領域について、端末１００から取得した物体検出結果を使用して物体を検出してもよい。

　物体追跡部２５０は、検出された受信映像内の物体を追跡、すなわちトラッキングする。物体追跡部２５０は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。例えば、検出された物体にトラッキングＩＤを割り当てることで、各物体を識別してトラッキングしてもよい。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なりにより画像間の物体を対応付けることで、物体をトラッキングする。

　特徴抽出部２６０は、物体追跡部２５０がトラッキングした物体ごとに、物体を含む領域の特徴量を抽出する。特徴抽出部２６０は、行動認識部２８０が物体の行動を認識するために使用する特徴量を抽出する。画像の２次元空間の特徴量や時間方向の時空間の特徴量を抽出してもよい。例えば、特徴抽出部２６０は、ディープラーニングなどの機械学習を用いた特徴抽出エンジンにより物体を含む領域の特徴量を抽出する。特徴抽出エンジンは、ＣＮＮ（Convolutional Neural Network）やＲＮＮ（Recurrent Neural Network）でもよいし、その他のニューラルネットワークでもよい。

　姿勢推定部２７０は、物体追跡部２５０がトラッキングした物体ごとに、物体の姿勢を推定する。姿勢推定部２７０は、物体の姿勢として、検出した物体である人物の骨格を推定してもよいし、例えばフォークリフトや重機の向きなど物体の向きなどを推定してもよい。例えば、姿勢推定部２７０は、ディープラーニングなどの機械学習を用いた骨格推定エンジンや姿勢推定エンジンにより、画像内の物体の姿勢を推定する。

　行動認識部２８０は、特徴抽出結果及び姿勢推定結果に基づいて、物体の行動を認識する。行動認識部２８０は、抽出された物体を含む領域の特徴量と、推定された物体の姿勢に基づいて、物体の行動を認識する。例えば、人物が物体を使用して行う作業や、人物が危険な状態となる不安全行動などを認識する。なお、行動認識に限らず、物体の状態等を認識してもよい。行動認識部２８０は、物体ごとに、物体の行動の種別を認識する。行動種別は、行動ラベル、または、行動クラスとも称する。例えば、行動認識部２８０は、ディープラーニングなどの機械学習を用いた行動認識エンジンにより、物体の行動を認識する。作業を行う人物の映像の特徴と行動種別を機械学習することで、映像内の人物の行動を認識できる。行動認識エンジンは、ＣＮＮやＲＮＮでもよいし、その他のニューラルネットワークでもよい。行動の認識結果には、行動種別、行動種別のスコア等が含まれる。行動種別のスコアは、認識した行動種別の確からしさ、すなわち信頼度または確信度である。

　次に、本実施の形態に係る遠隔監視システムの動作について説明する。図８は、本実施の形態に係る遠隔監視システム１の動作例を示している。例えば、端末１００がＳ１１１～Ｓ１１５を実行し、センターサーバ２００がＳ１１６～Ｓ１２１を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。

　図８に示すように、端末１００は、カメラ１０１から映像を取得する（Ｓ１１１）。カメラ１０１は、現場を撮影した映像を生成し、映像取得部１１０は、カメラ１０１から出力される映像、すなわち入力映像を取得する。例えば、図９に示すように、入力映像の画像には、現場で作業を行う３人の人物Ｐ１～Ｐ３が含まれている。例えば、人物Ｐ３は、ハンマーを持って作業を行っている。

　続いて、端末１００は、取得した入力映像に基づいて物体を検出する（Ｓ１１２）。物体検出部１２０は、物体認識エンジンを用いて、入力映像に含まれるフレーム内の物体の物体種別を認識する。物体検出部１２０は、検出した各物体について、物体種別、物体の矩形領域の位置情報、物体種別のスコア等を物体検出結果として出力する。例えば、図９の画像から物体検出を行うと、図１０のように、人物Ｐ１～Ｐ３及びハンマーを検出し、人物Ｐ１～Ｐ３の矩形領域とハンマーの矩形領域を検出する。

　続いて、端末１００は、物体検出結果に基づいて、ＲＯＩを選択する（Ｓ１１３）。ＲＯＩ選択部１３０は、検出された物体の中から、記憶部１７０に記憶された所定の物体種別に含まれる物体を抽出し、抽出した物体の領域をＲＯＩに選択してもよい。また、ＲＯＩ選択部１３０は、物体種別のスコアが所定値よりも大きい物体の領域をＲＯＩに選択してもよい。また、物体種別のスコアが所定値よりも小さい物体の領域をＲＯＩに選択してもよい。例えば、図１０の例で、人物Ｐ１及び人物Ｐ２のスコアが所定値よりも大きく、人物Ｐ３及びハンマーのスコアが所定値よりも小さい場合、人物Ｐ１及び人物Ｐ２の矩形領域をＲＯＩに選択し、人物Ｐ３及びハンマーの矩形領域をＲＯＩに選択しない。また、人物Ｐ１及び人物Ｐ２のスコアが所定値よりも大きく、人物Ｐ３及びハンマーのスコアが所定値よりも小さい場合、人物Ｐ３及びハンマーをＲＯＩに選択してもよい。

　続いて、端末１００は、選択したＲＯＩに基づいて、入力映像をエンコードする（Ｓ１１４）。画質制御部１４０は、所定の映像符号化方式により入力映像をエンコードする。例えば、画質制御部１４０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートとなるように入力映像をエンコードしてもよいし、端末１００とセンターサーバ２００の間の通信品質に応じたビットレートでエンコードしてもよい。画質制御部１４０は、割り当てられたビットレートや通信品質に応じたビットレートの範囲で、ＲＯＩが他の領域よりも高画質となるように、入力映像をエンコードする。例えば、ＲＯＩの圧縮率を他の領域の圧縮率よりも下げることで、ＲＯＩを高画質化し、他の領域を低画質化する。図１０例で、人物Ｐ３及び人物Ｐ２の矩形領域がＲＯＩに選択された場合、図１１のように、人物Ｐ１及び人物Ｐ２の矩形領域を高画質化し、人物Ｐ３及びハンマーを含む他の領域を低画質化する。

　続いて、端末１００は、エンコードしたエンコードデータと物体検出結果をセンターサーバ２００へ送信する（Ｓ１１５）。物体検出結果抽出部１５０は、物体検出結果の中から、ＲＯＩに選択されなかった領域、すなわち、低画質化領域の物体検出結果を抽出する。図１１の例では、人物Ｐ３とハンマーが低画質化領域であるため、図１２のように、物体検出結果から人物Ｐ３とハンマーの物体検出結果を抽出する。例えば、物体検出結果として、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等を配信部１６０へ出力する。配信部１６０は、入力映像をエンコードしたエンコードデータと、抽出した低画質化領域の物体検出結果を基地局３００へ送信する。基地局３００は、受信したエンコードデータと物体検出結果を、コアネットワークやインターネットを介して、センターサーバ２００へ転送する。

　続いて、センターサーバ２００は、エンコードデータと物体検出結果を受信する（Ｓ１１６）。受信部２１０は、基地局３００から転送されたエンコードデータと物体検出結果を、コアネットワークやインターネットから受信する。物体検出結果取得部２３０は、受信した低画質化領域の物体検出結果を取得する。

　続いて、センターサーバ２００は、受信したエンコードデータをデコードする（Ｓ１１７）。デコーダ２２０は、各領域の圧縮率やビットレートに応じてエンコードデータをデコードし、デコードした映像、すなわち受信映像を生成する。

　続いて、センターサーバ２００は、受信した受信映像及び物体検出結果に基づいて、受信映像内の物体を検出する（Ｓ１１８）。物体検出部２４０は、物体認識エンジンを用いて、受信映像の高画質化領域の物体を検出し、物体検出結果取得部２３０が取得した物体検出結果を用いて、受信映像の低画質化領域の物体を検出する。例えば、物体検出部２４０は、物体認識エンジンにより検出した物体検出結果と、物体検出結果取得部２３０が取得した物体検出結果とを一つの物体検出結果にまとめて出力する。すなわち、物体検出部２４０は、高画質化領域で検出された物体の物体種別、物体の矩形領域の位置情報、物体種別のスコア等と、取得した低画質化領域の物体の物体種別、物体の矩形領域の位置情報、物体種別のスコア等とを、物体検出結果として出力する。なお、物体検出部２４０は、低画質化領域の物体を検出してもよい。この場合、物体検出結果取得部２３０が取得した物体検出結果と物体検出部２４０が検出した物体種別のスコアを比較し、よりスコアの高い物体検出結果を出力しても良い。例えば、図１１のような画質が制御された映像と図１２のような物体検出結果を受信すると、図１３のように、物体認識エンジンで検出した人物Ｐ１及びＰ２の矩形領域と、受信した物体検出結果に含まれる人物Ｐ３及びハンマーの矩形領域を物体検出結果として出力する。

　続いて、センターサーバ２００は、検出された受信映像内の物体を追跡する（Ｓ１１９）。物体追跡部２５０は、高画質化領域及び低画質化領域の物体検出結果を含む受信映像の物体検出結果に基づいて、受信映像内の物体をトラッキングする。物体追跡部２５０は、検出された各物体にトラッキングＩＤを割り当て、トラッキングＩＤにより識別される物体を各画像でトラッキングする。

　続いて、センターサーバ２００は、トラッキングした物体ごとに、物体を含む領域の特徴量を抽出し、物体の姿勢を推定する（Ｓ１２０）。特徴抽出部２６０は、特徴抽出エンジンを用いて、高画質化領域及び低画質化領域でトラッキングした物体を含む領域の特徴量を抽出する。姿勢推定部２７０は、姿勢推定エンジンを用いて、高画質化領域及び低画質化領域でトラキングした物体の姿勢を推定する。

　続いて、センターサーバ２００は、特徴抽出結果及び姿勢推定結果に基づいて、物体の行動を認識する（Ｓ１２１）。行動認識部２８０は、行動認識エンジンを用いて、高画質化領域及び低画質化領域で抽出された物体の特徴量と、高画質化領域及び低画質化領域で推定された物体の姿勢に基づいて、受信映像における物体の行動を認識する。行動認識部２８０は、認識した物体の行動の種別、行動種別のスコアを出力する。例えば、図１３の物体検出結果から、人物Ｐ１～Ｐ３及びハンマーをトラッキングし、人物Ｐ１～Ｐ３及びハンマーの特徴慮及び姿勢から、高画質化領域の人物Ｐ１及びＰ２の行動、低画質化領域の人物Ｐ３の行動を認識する。

　以上のように、本実施の形態では、低画質化する領域の物体検出結果を端末からセンターサーバに送信する。すなわち、端末がＲＯＩに基づいて低画質化した領域の物体検出結果をセンターサーバに送信し、センターサーバは受信した物体検出結果を使用して低画質化領域の物体検出を行う。映像を低画質化すると、物体の検出精度が低下し、物体を正しく検出できない恐れがあるため、本実施の形態のように、端末で検出した低画質化領域の物体検出結果を使用して、センターサーバで物体検出を行うことで、物体検出精度を向上することができる。また、物体検出精度を向上させることができるため、物体検出結果を用いる物体の行動認識の精度を向上させることができる。

（実施の形態２）
　次に、実施の形態２について説明する。本実施の形態では、配信する映像とともに、低画質化領域の画像の特徴量を送信する例について説明する。

　図１４は、本実施の形態に係る端末１００の構成例を示しており、図１５は、本実施の形態に係るセンターサーバ２００の構成例を示している。ここでは、主に実施の形態１と異なる構成について説明する。

　図１４に示すように、本実施の形態では、端末１００は、実施の形態１の物体検出結果抽出部１５０の代わりに、特徴抽出部１５１を備えている。その他の構成は、実施の形態１と同様である。なお、実施の形態１の構成に加えて、さらに特徴抽出部１５１を備えていてもよい。

　特徴抽出部１５１は、検出された物体を含む領域の特徴量を抽出する。特徴抽出部１５１は、物体検出部１２０が検出した物体のうち、ＲＯＩとして選択されなかった低画質化領域の物体を含む領域の特徴量を抽出する。特徴抽出部１５１は、抽出した物体を含む領域の特徴量を、配信部１６０を介してセンターサーバ２００へ送信する。送信する物体を含む領域の特徴量は、センターサーバ２００で行動認識のために使用可能な特徴量である。特徴抽出部１５１は、センターサーバ２００の特徴抽出部２６０と同様に、行動認識部２８０が物体の行動を認識するために使用する特徴量を抽出する。例えば、画像の２次元空間の特徴量や時間方向の時空間の特徴量を抽出してもよい。例えば、特徴抽出部１５１は、特徴抽出部２６０と同様に、ディープラーニングなどの機械学習を用いた特徴抽出エンジンにより物体を含む領域の特徴量を抽出する。特徴抽出エンジンは、ＣＮＮやＲＮＮでもよいし、その他のニューラルネットワークでもよい。

　配信部１６０は、画質制御部１４０がエンコードしたエンコードデータと、特徴抽出部１５１が抽出した低画質化領域の物体を含む領域の特徴量を、センターサーバ２００へ送信する。なお、実施の形態１の図６と同様の動作をする部の記載は省略する。

　また、図１５に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の物体検出結果取得部２３０の代わりに、特徴取得部２３１を備えている。その他の構成は、実施の形態１と同様である。なお、実施の形態１の構成に加えて、さらに特徴取得部２３１を備えていてもよい。

　受信部２１０は、端末１００から送信されたエンコードデータと低画質化領域の物体を含む領域の特徴量を受信し、特徴取得部２３１は、受信した低画質化領域の物体を含む領域の特徴量を取得する。なお、特徴取得部２３１は、受信部２１０と一体でもよい。

　行動認識部２８０は、特徴抽出部２６０が抽出した物体を含む領域の特徴量及び端末１００から取得した物体を含む領域の特徴量と、姿勢推定部２７０が推定した物体の姿勢に基づいて、物体の行動を認識する。行動認識部２８０は、高画質化領域の物体について、特徴抽出部２６０が抽出した物体を含む領域の特徴量と、姿勢推定部２７０が推定した物体の姿勢に基づいて、物体の行動を認識し、低画質化領域の物体について、端末１００から取得した物体を含む領域の特徴量と、姿勢推定部２７０が推定した物体の姿勢に基づいて、物体の行動を認識する。なお、特徴抽出部２６０は、低画質化領域から特徴量を抽出してもよい。この場合、行動認識部２８０は、特徴抽出部２６０が抽出した特徴量と特徴抽出部１５１が抽出した特徴量と姿勢推定部２７０が推定した物体の姿勢とに基づいて、低画質領域と高画質領域とで分けずに行動認識を行ってもよい。例えば、行動が認識できない領域や、スコアが所定値よりも小さい領域について、端末１００から取得した特徴量を使用して行動を認識してもよい。なお、実施の形態１の図７と同様の動作をする部の記載は省略する。

　なお、端末１００に、姿勢推定部２７０と同様の姿勢推定部を備え、端末から低画質化領域の物体の姿勢推定結果をセンターサーバ２００へ送信し、送信された姿勢推定結果を使用して低画質化領域の行動認識を行ってもよい。

　以上のように、本実施の形態では、端末で低画質化した領域の物体の特徴量抽出を行い、抽出した特徴量をセンターサーバに送信する。センターサーバでは、受信した特徴量を使用して低画質化領域の物体の行動認識を行う。これにより、低画質化領域についての特徴を踏まえた行動認識を行うことができ、物体の行動認識の認識精度を向上することができる。

（実施の形態３）
　次に、実施の形態３について説明する。本実施の形態では、配信する映像とともに、低画質化領域の関連物体情報を送信する例について説明する。

　図１６は、本実施の形態に係る端末１００の構成例を示しており、図１７は、本実施の形態に係るセンターサーバ２００の構成例を示している。ここでは、主に実施の形態１と異なる構成について説明する。

　図１６に示すように、本実施の形態では、端末１００は、実施の形態１の物体検出結果抽出部１５０の代わりに、関連物体判定部１５２を備えている。その他の構成は、実施の形態１と同様である。

　関連物体判定部１５２は、物体の検出結果に基づいて、物体間の関係性を分析し、関係のある関連物体の有無を判定する。関連物体判定部１５２は、物体検出部１２０が検出した物体のうち、ＲＯＩとして選択されなかった低画質化領域の物体間の関係性を分析する。物体間の関係性は、物体間の距離や物体の領域間の重なりなどの位置関係である。物体の領域間の重なりは、例えば、検出した物体を含む矩形領域である物体領域間の重なりを示すＩｏＵ（Intersection over Union）である。また、物体間の関係性は、物体の向きを含んでもよい。関連物体判定部１５２は、低画質化領域で検出した物体間の位置関係や向きに基づいて、物体間の関係性の有無を判定する。例えば、関連物体判定部１５２は、第１の物体と第２の物体間の距離が所定の閾値よりも小さい場合、第１の物体と第２の物体は関係ありと判定してもよい。関連物体判定部１５２は、第１の物体の領域と第２の物体の領域の重なりが所定の閾値よりも大きい場合、第１の物体と第２の物体は関係ありと判定してもよい。関連物体判定部１５２は、第１の物体の向きが第２の物体の方へ向いている場合、第１の物体と第２の物体は関係ありと判定してもよい。物体間の距離、重なり、向きのいずれかで物体間の関係性を判断してもよいし、物体間の距離、重なり、向きのうちの任意の組み合わせで物体間の関係性を判断してもよい。なお、この例では、物体間の関係性の有無を判定するが、物体間の距離、重なり、向きなどから、人物が物体を持っているなどの状態を判定してもよい。

　関連物体判定部１５２は、分析した結果、関係ありと判断された関連物体情報を、配信部１６０を介してセンターサーバ２００へ送信する。関連物体情報は、低画質化領域で関係ありと判定した第１の物体と第２の物体の物体検出結果、すなわち、第１の物体と第２の物体の物体種別、位置情報等を含む。関連物体情報は、第１の物体と第２の物体の関係性、すなわち、位置関係を示している。また、関連物体情報は、人物が物体を持っているなどの状態を含んでもよい。

　配信部１６０は、画質制御部１４０がエンコードしたエンコードデータと、関連物体判定部１５２が分析した低画質化領域の関連物体情報を、センターサーバ２００へ送信する。なお、実施の形態１の図６と同様の動作をする部の記載は省略する。

　また、図１７に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の物体検出結果取得部２３０の代わりに、関連物体取得部２３２を備え、さらに、記憶部２９０を備えている。その他の構成は、実施の形態１と同様である。

　記憶部２９０は、作業で使用する物体、すなわち作業物体に作業内容を対応付けた物体－作業対応付けテーブルを記憶する。図１８は、物体－作業対応付けテーブルの例を示している。この例では、ハンマーにハンマーを使用して行うくい打ち作業を対応付け、スコップにスコップを使用して行う掘削作業を対応付け、転圧機に転圧機を使用して行う転圧作業を対応付けている。作業に関連する工具に限らず、作業に関連する建機に作業内容を対応付けてもよい。例えば、ショベルカーに掘削作業を対応付けてもよいし、ミキサー車にコンクリート作業を対応付けてもよい。

　受信部２１０は、端末１００から送信されたエンコードデータと低画質化領域の関連物体情報を受信し、関連物体取得部２３２は、受信した低画質化領域の関連物体情報を取得する。なお、関連物体取得部２３２は、受信部２１０と一体でもよい。また、関連物体判定部１５２をセンターサーバ２００に配置し、センターサーバ２００で物体の関係性を分析し、関連物体情報を取得してもよい。すなわち、実施の形態１と同様に端末１００から低画質化領域の物体検出結果を送信し、センターサーバ２００の関連物体判定部１５２が、受信した低画質化領域の物体検出結果に基づき、物体の関係性を分析し、関連物体情報を生成してもよい。

　行動認識部２８０は、特徴抽出部２６０が抽出した物体の特徴量と、姿勢推定部２７０が推定した物体の姿勢に基づいて、物体の行動を認識し、さらに、端末１００から取得した関連物体情報に基づいて、行動の認識結果を更新する。すなわち、関連物体情報が示す関係ありと判定された物体に基づいて、行動の認識結果を絞り込む。関連物体情報が、人物が物体を持っているなどの状態を含む場合、状態に対応する物体に基づいて、行動の認識結果を絞り込んでもよい。例えば、行動認識部２８０は、記憶部２９０の物体－作業対応付けテーブルを参照し、関連物体情報が示す第１の物体と第２の物体に対応する作業の行動種別のスコアを増加させる。行動認識部２８０は、複数の物体の行動が認識されている場合、関連物体情報が示す第１の物体と第２の物体の種別や位置情報から、対応する物体の行動認識結果を抽出し、抽出した物体の行動認識結果を更新してもよい。

　図１９は、関連物体情報に基づいて行動認識結果に含まれる行動種別のスコアを更新する具体例を示している。例えば、実施の形態１の図９～図１１で示した例の場合、人物とハンマーの領域が低画質化されため、センターサーバ２００で人物とハンマーの認識があいまいとなり、人物とハンマーから認識されるはずのくい打ち作業の行動種別のスコアが低くなる。例えば、図１９の更新前のように、くい打ち作業の行動種別のスコアが０．４となる。本実施の形態では、関連物体情報により人物とハンマーが関係ありと示されると、行動認識部２８０は、図１８の物体－作業対応付けテーブルにより、ハンマーに関連する作業をくい打ち作業と特定し、特定したくい打ち作業の行動種別のスコアを増加させることで、認識結果を絞り込む。例えば、行動認識部２８０は、特定した作業の行動種別のスコアが最も高くなるように、各作業の行動種別のスコアを更新する。行動種別のスコアを所定の値または割合だけ増加させてもよい。特定した作業以外の行動種別のスコアは、低くしてもよいし、削除してもよい。全ての行動種別のスコアの合計が１．０となるように、各行動種別のスコアを任意の値に更新する。例えば、図１９の更新後のように、くい打ち作業の行動種別のスコアを０．４から０．６に更新する。また、くい打ち作業以外の掘削作業と転圧作業を削除し、該当なしの行動種別のスコアを０．４に更新する。なお、実施の形態１の図７と同様の動作をする部の記載は省略する。

　以上のように、本実施の形態では、端末の物体検出結果を、センターサーバの行動認識の絞込みに活用する。映像を低画質化すると、特徴量の抽出や姿勢推定が正しく行われずに行動認識の信頼度が低くなる恐れがある。映像の低画質化による行動認識の信頼度の低下を防止するため、実施の形態３では、端末の物体検出結果から行動認識の結果を更新することで、行動の候補を絞込む。例えば、行動の候補の絞込みを行うための情報として、所定の位置関係などの関係性を示す関連物体の情報を端末から送信する。センターサーバは関連物体に対応する行動のスコアを更新することで、行動の候補を絞り込む。例えば、作業者と転圧機が近いという関係から転圧作業を行っている可能性が高いため、行動の候補を転圧作業に絞り込める。これにより、映像品質が悪い場合などであっても、物体間の関係性の情報に基づいて行動認識を行うことができ、行動認識の認識精度を向上することができる。

（実施の形態４）
　次に、実施の形態４について説明する。本実施の形態では、配信する映像とともに、人物の顔認証結果を送信する例について説明する。

　図２０は、本実施の形態に係る端末１００の構成例を示しており、図２１は、本実施の形態に係るセンターサーバ２００の構成例を示している。ここでは、主に実施の形態１と異なる構成について説明する。

　図２０に示すように、本実施の形態では、端末１００は、実施の形態１の物体検出結果抽出部１５０の代わりに、顔認証部１５３を備えている。その他の構成は、実施の形態１と同様である。

　顔認証部１５３は、物体検出により検出した人物の顔認証を行う。顔認証部１５３は、顔認証により個人を特定する特定部である。例えば、記憶部１７０に、個人を特定するための特定情報と人物を識別する人物識別情報とを対応付けて記憶しておく。特定情報は、例えば、人物の顔の画像などを含む。顔認証部１５３は、フレーム内の人物の顔を抽出し、抽出した顔を記憶部１７０に登録された特定情報に含まれる人物の顔と照合する。例えば、顔認証部１５３は、ディープラーニングなどの機械学習を用いた顔認証エンジンによりフレーム内の人物の顔を認証してもよい。顔認証部１５３は、顔認証が成功した人物の人物識別情報を、顔認証結果として、配信部１６０を介してセンターサーバ２００へ送信する。人物識別情報は、顔認証により特定された個人を識別する識別情報であり、例えば、各人物の氏名でもよいし、各人物に割り当てられた識別番号でもよい。顔認証結果は、特定した人物の位置情報を含んでもよい。顔認証部１５３は、全ての領域で検出された人物の顔認証結果を送信してもよいし、低画質化領域で検出された人物の顔認証結果を送信してもよい。

　配信部１６０は、画質制御部１４０がエンコードしたエンコードデータと、顔認証部１５３の顔認証結果を、センターサーバ２００へ送信する。なお、実施の形態１の図６と同様の動作をする部の記載は省略する。

　また、図２１に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の物体検出結果取得部２３０の代わりに、顔認証結果取得部２３３を備え、さらに、記憶部２９０を備えている。その他の構成は、実施の形態１と同様である。

　記憶部２９０は、人物に、人物が行う作業内容を対応付けた人物－作業対応付けテーブルを記憶する。図２２は、人物－作業対応付けテーブルの例を示している。図２２に示すように、人物－作業対応付けテーブルは、人物識別情報ごとに人物が行う作業内容が対応付けられている。人物識別情報は、端末が顔認証により特定された人物を識別する人物識別情報と同じ識別情報である。すなわち、各人物の氏名でもよいし、各人物に割り当てられた識別番号でもよい。この例では、Ａさんが行うくい打ち作業及び切断作業をＡさんに対応付け、Ｂさんが行う掘削作業及び転圧作業をＢさんに対応付け、Ｃさんが行うコンクリート作業をＣさんに対応付けている。このように、各人物に１つの作業を対応付けてもよいし、複数の作業を対応付けてもよい。人物に複数の作業を対応付ける場合、各作業を行う日時などを設定してもよい。

　受信部２１０は、端末１００から送信されたエンコードデータと顔認証結果を受信し、顔認証結果取得部２３３は、受信した顔認証結果を取得する。なお、顔認証結果取得部２３３は、受信部２１０と一体でもよい。また、顔認証部１５３をセンターサーバ２００に配置し、センターサーバ２００で人物の顔を認証し、顔認証結果を取得してもよい。すなわち、端末１００から人物の顔の画像や顔の画像の特徴量を送信し、センターサーバ２００の顔認証部１５３が、受信した人物の顔の画像や顔の画像の特徴量に基づき、人物の顔を認証し、顔認証結果を生成してもよい。

　行動認識部２８０は、特徴抽出部２６０が抽出した物体の特徴量と、姿勢推定部２７０が推定した物体の姿勢に基づいて、物体の行動を認識し、さらに、端末１００から取得した顔認証結果に基づいて、行動の認識結果を更新する。すなわち、顔認証により特定された個人を示す人物識別情報に基づいて、行動の認識結果を絞り込む。行動認識部２８０は、記憶部２９０の人物－作業対応付けテーブルを参照し、顔認証により特定された個人を示す人物識別情報に対応する作業の行動種別のスコアを更新する。行動認識部２８０は、複数の人物についてそれぞれの行動が認識されている場合、顔認証結果の位置情報から、対応する人物の行動認識結果を抽出し、抽出した人物の行動認識結果を更新してもよい。

　図２３は、顔認証結果に基づいて行動認識結果に含まれる行動種別のスコアを更新する具体例を示している。例えば、実施の形態１の図９～図１１で示した例の場合、人物とハンマーの領域が低画質化されたため、センターサーバ２００で人物とハンマーの認識があいまいとなり、人物とハンマーから認識されるはずのくい打ち作業の行動種別のスコアが低くなる。例えば、図２３の更新前のように、くい打ち作業の行動種別のスコアが０．４となる。本実施の形態では、顔認証結果により人物がＡさんであると識別されると、行動認識部２８０は、図２２の人物－作業対応付けテーブルにより、Ａさんに関連する作業はくい打ち作業または切断作業であると特定する。この例では、認識結果にくい打ち作業が含まれるため、くい打ち作業の行動種別のスコアを増加させることで、認識結果を絞り込む。なお、Ａさんがくい打ち作業と切断作業を行う日時が設定されている場合、設定された時間と現在の時間に基づいて、更新する行動種別のスコアを選択してもよい。行動認識部２８０は、特定した作業の行動種別のスコアが最も高くなるように、各作業の行動種別のスコアを更新する。特定した作業の行動種別のスコアの更新方法は実施の形態３と同様である。例えば、図２３の更新後のように、くい打ち作業の行動種別のスコアを０．４から０．６に更新する。また、くい打ち作業以外の掘削作業と転圧作業を削除し、該当なしの行動種別のスコアを０．４に更新する。なお、実施の形態１の図７と同様の動作をする部の記載は省略する。

　なお、顔認証により個人を特定し、特定された人物を識別する例に限られない。顔認証と同様に、人物以外の物体を特定し、特定された物体を識別してもよい。すなわち、特定された物体を識別する識別情報を端末から送信し、行動認識結果を絞り込んでもよい。例えば、重機やフォークリフト、ＡＧＶ（Automatic Guided Vehicle）などの識別可能な物体と作業を対応付けたテーブルを保持し、物体の識別結果とテーブルとに基づいて、物体の行動認識結果を絞り込んでもよい。また、特定された物体を識別する識別情報に限らず、物体の属性やグループを識別する属性識別情報を端末から送信し、行動認識結果を絞り込んでもよい。例えば、人物の属性やグループとして、大工や左官などの職種、所属する企業などを識別し、職種や企業に対応する行動認識結果を更新してもよい。職種や企業は、人物の作業着などの服装、ヘルメットや帽子などから識別してもよい。例えば、作業着やヘルメットに示されている文字やマーク等から識別してもよい。また、例えば、機械等の物体や衣類に添付又は表示された、属性やグループを示すコード等から識別してもよい。

　以上のように、本実施の形態では、端末における顔認証結果など、人物の個人や属性の識別結果を、センターサーバの行動認識の絞込みに活用する。映像を低画質化すると、特徴量の抽出や姿勢推定が正しく行われずに行動認識の信頼度が低くなる恐れがある。映像の低画質化による行動認識の信頼度の低下を防止するため、実施の形態４では、端末で人物の顔認証等を行い、識別された人物等に対応する作業を特定し、特定した作業により作業の候補を絞り込む。これにより、映像品質が悪い場合などに認識精度を向上することができる。また、顔認証結果に限らず、物体の識別結果を活用することもできる。

（実施の形態５）
　次に、実施の形態５について説明する。本実施の形態では、実施の形態１～４の構成において、物体間の関係性に基づいてＲＯＩを選択する例について説明する。

　図２４は、本実施の形態に係る端末１００の構成例を示している。センターサーバ２００の構成は実施の形態１と同様であるため説明を省略する。なお、一例として、実施の形態１に本実施の形態を適用する例について説明するが、実施の形態２～４に対しても、同様に本実施の形態を適用してもよい。

　図２４に示すように、本実施の形態では、端末１００は、実施の形態１の構成に加えて、関係性分析部１３１を備えている。その他の構成は、実施の形態１と同様である。ここでは、主に実施の形態１と異なる構成について説明する。

　記憶部１７０は、物体間の関係性を分析するためのテーブルを記憶する。具体的には、関係性を分析する関連物体のペアを対応付けた関連物体対応付けテーブルを記憶する。図２５は、関連物体対応付けテーブルの具体例を示している。図２５に示すように、関連物体対応付けテーブルは、関係性を分析するための関連物体として、第１の物体の種別と第２の物体の種別とを対応付ける。この例では、人物に、ハンマー、建機、スコップ、梯子がそれぞれ対応付けられ、建機と建機が対応付けられている。例えば、関連物体対応付けテーブルは、センターサーバ２００が映像から認識する認識対象に対応した物体のペアを定義してもよい。センターサーバ２００が人物により行われる作業を認識する場合、作業を行う人物に、作業に使用する作業物体、例えばハンマーやスコップ等を対応付ける。この場合、第１の物体と第２の物体の一方が人物となり、他方が作業物体となる。２つの建機により行われる作業を認識する場合、建機と建機を対応付ける。この場合、第１の物体と第２の物体が作業物体となる。また、センターサーバ２００が、人物が危険な状態となる不安全行動を認識する場合、人物に、不安全行動を誘発する物体、例えば建機や梯子等を対応付ける。この場合、第１の物体と第２の物体の一方が人物となり、他方が不安全行動を誘発する物体となる。

　図２６は、関連物体対応付けテーブルの他の例を示している。図２６に示すように、関連物体対応付けテーブルでは、分析する関連物体、すなわち第１の物体と第２の物体のペアに、割り当てる重要度を対応付けてもよい。例えば、センターサーバ２００が映像から認識する認識対象に応じて重要度を設定してもよい。不安全行動に関連する人物と建機のペアや人物と梯子のペアの重要度を、作業に関連する人物とハンマーのペアや人物とスコップのペアよりも高く設定してもよい。例えば、建機に近い人物の領域や建機に重なっている人物の領域に重要度＋５を割り当て、ハンマーに近い人物やハンマーに重なっている人物の領域に重要度＋２を割り当てる。人物と建機の組み合わせのみから人物の領域に重要度＋５を割り当て、人物とハンマーの組み合わせのみから人物の領域に重要度＋２を割り当ててもよい。なお、重要度は数値に限らず、高、中、低のようなレベルでもよい。

　関係性分析部１３１は、入力映像内で検出した物体の検出結果に基づいて、物体間の関係性を分析する。関係性分析部１３１は、検出された検出物体のうち所定の種別を有する物体の関係性を分析する。関係性分析部１３１は、記憶部１７０に記憶された関連物体対応付けテーブルを参照し、関連物体対応付けテーブルで対応付けられた第１の物体と第２の物体の関係性を分析する。物体間の関係性は、物体間の距離や物体の領域間の重なりなどの位置関係である。また、物体間の関係性は、物体の向きを含んでもよい。関係性分析部１３１は、物体間の位置関係や向きに基づいて、物体間の関係性の有無を判定してもよい。

　関係性分析部１３１は、実施の形態３の関連物体判定部１５２と同様に、物体間の関係性の有無を判定してもよい。例えば、関係性分析部１３１は、第１の物体と第２の物体間の距離が所定の閾値よりも小さい場合、第１の物体と第２の物体は関係ありと判定してもよい。例えば、関係性分析部１３１は、図２５の関連物体対応付けテーブルを参照し、人物とハンマーの距離が閾値よりも小さい場合、人物とハンマーは関係ありと判定する。また、関係性分析部１３１は、第１の物体の領域と第２の物体の領域の重なりが所定の閾値よりも大きい場合、第１の物体と第２の物体は関係ありと判定してもよい。また、関係性分析部１３１は、第１の物体の向きが第２の物体の方へ向いている場合、第１の物体と第２の物体は関係ありと判定してもよい。物体間の距離、重なり、向きのいずれかで物体間の関係性を判断してもよいし、物体間の距離、重なり、向きのうちの任意の組み合わせで物体間の関係性を判断してもよい。

　また、関係性分析部１３１は、物体間の位置関係や向きに応じて物体の領域に重要度を割り当ててもよい。すなわち、関係性分析部１３１は、重要度を判定する重要度判定部として機能してよい。重要度判定部を関係性分析部とは別に端末１００に搭載してもよい。重要度は、注視すべき度合いであり、鮮明化する優先度を示す。例えば、関連物体対応付けテーブルで関連物体ごとに重要度が設定されている場合、関係性分析部１３１は、関連物体対応付けテーブルの設定に基づいて、物体の領域に重要度を割り当ててもよい。例えば、関係性分析部１３１は、図２６の関連物体対応付けテーブルを参照し、人物とハンマーの距離が閾値よりも小さい場合、人物とハンマーの領域に重要度＋２を割り当てる。関係性分析部１３１は、第１の物体と第２の物体間の距離が小さくなるにしたがって、割り当てる重要度を大きくしてもよい。関係性分析部１３１は、第１の物体の領域と第２の物体の領域の重なりが大きくなるにしたがって、割り当てる重要度を大きくしてもよい。関係性分析部１３１は、第１の物体の向きが第２の物体の方に近づくにしたがって、割り当てる重要度を大きくしてもよい。また、物体の組み合わせのみに基づいて重要度を割り当ててもよい。

　ＲＯＩ選択部１３０は、分析した物体間の関係性に基づいて、取得された入力映像におけるＲＯＩを選択する。例えば、ＲＯＩ選択部１３０は、関係性ありと判定された第１の物体と第２の物体の領域をＲＯＩに選択してもよい。また、ＲＯＩ選択部１３０は、割り当てられた領域の重要度に応じてＲＯＩを選択してもよい。また、第１の物体と第２の物体の関係性に応じた重要度が、所定値以上の場合、第１の物体の領域及び第２の物体の領域をＲＯＩに選択してもよい。各物体の領域に割り当てられた重要度の高い順にＲＯＩを選択してもよい。例えば、重要度の高い順に上位から所定の数の領域をＲＯＩに選択してもよい。圧縮ビットレート制御機能４０１から割り当てられたビットレートの範囲で鮮明化可能な数の領域を、ＲＯＩに選択してもよい。

　また、ＲＯＩ選択部１３０は、物体の関係性の変化に応じてＲＯＩを選択してもよい。すなわち、物体間の距離や重なり等の時系列変化に応じて重要度を変更し、変更された重要度に基づいてＲＯＩを決定してもよい。例えば、土の積載された場所の周囲でショベルカーが検出された場合、ショベルカーが移動しているか否か、すなわち、積載された土とショベルカーの距離や重なりの変化に応じて重要度を変えてもよい。この場合、ショベルカーが停止して根切り作業を行っている場合と、ショベルカーが移動して埋め戻し作業を行っている場合とがあり得る。このため、ショベルカーが移動している場合、重要度を上げることで、移動しているショベルカーの領域をＲＯＩとしてもよい。なお、実施の形態１の図６と同様の動作をする部の記載は省略する。

　以上のように、本実施の形態では、実施の形態１～４の構成において、端末でＲＯＩを選択する際に、映像内で検出された物体間の位置関係などの関係性に基づいてＲＯＩを選択する。これにより、物体間の関係性に基づいて適切にＲＯＩを選択することができ、例えば、重要な領域での物体検出を、端末よりもリソースの豊富なセンターサーバで実施することができる。また、実施の形態１～４と同様に、ＲＯＩに選択されなかった低画質化領域の認識精度を向上することができる。

（実施の形態６）
　次に、実施の形態６について説明する。本実施の形態では、実施の形態１～４の構成において、作業の状況に関係する物体に基づいてＲＯＩを選択する例について説明する。

　図２７は、本実施の形態に係る端末１００の構成例を示している。センターサーバ２００の構成は実施の形態１と同様であるため説明を省略する。なお、一例として、実施の形態１に本実施の形態を適用する例について説明するが、実施の形態２～４に対しても、同様に本実施の形態を適用してもよい。

　図２７に示すように、本実施の形態では、端末１００は、実施の形態１の構成に加えて、作業情報取得部１３２を備えている。その他の構成は、実施の形態１と同様である。なお、端末１００は、実施の形態５の関係性分析部１３１の代わりに、作業情報取得部１３２を備えているとも言える。ここでは、主に実施の形態１と異なる構成について説明する。

　作業情報取得部１３２は、現場で行われる作業の状況を示す作業情報を取得する。作業情報は、現在行われている作業内容を特定する情報でもよいし、各作業工程の日時を含むスケジュール情報でもよい。作業情報は、作業者が入力してもよいし、作業工程を管理する管理装置から取得してもよい。

　記憶部１７０は、作業内容に作業で使用する物体、すなわち作業物体を対応付けた作業－物体対応付けテーブルを記憶する。図２８は、作業－物体対応付けテーブルの例を示している。図２８に示すように、作業－物体対応付けテーブルは、作業内容、もしくは、作業工程に、作業で使用する物体の種別を対応付ける。この例では、くい打ち作業にくい打ち作業で使用するハンマーを対応付け、掘削作業に掘削作業で使用するスコップを対応付け、転圧作業に転圧作業で使用する転圧機を対応付けている。作業に関連する工具に限らず、作業に関連する建機でもよい。例えば、掘削作業にショベルカーを対応付けてもよいし、コンクリート作業にミキサー車を対応付けてもよい。図２９は、作業－物体対応付けテーブルの他の例を示している。図２９に示すように、作業－物体対応付けテーブルでは、実施の形態５と同様に、各作業に対応する物体に重要度を対応付けてもよい。

　ＲＯＩ選択部１３０は、作業情報取得部１３２が取得した作業情報に基づいて、入力映像におけるＲＯＩを選択する。ＲＯＩ選択部１３０は、入力された現在の作業内容や作業工程のスケジュール情報から現在の作業を特定する。例えば、スケジュール情報がＸ月Ｙ日ＡＭの作業を転圧作業と定義している場合、現在の日時がＸ月Ｙ日ＡＭであれば、現在の作業は転圧作業であると判定する。ＲＯＩ選択部１３０は、記憶部１７０の作業－物体対応付けテーブルを参照し、現在の作業に対応する作業物体を特定する。ＲＯＩ選択部１３０は、入力映像内で検出された検出物体から、作業に対応する作業物体の種別を有する物体を抽出し、抽出した物体の矩形領域をＲＯＩに選択する。図２８の作業－物体対応付けテーブルの例では、現在の作業が転圧作業である場合、転圧作業に対応付けられた転圧機の領域をＲＯＩに決定する。

　また、作業－物体対応付けテーブルで作業物体ごとに重要度が設定されている場合、ＲＯＩ選択部１３０は、作業－物体対応付けテーブルの設定に基づいて、抽出された物体に重要度を割り当て、割り当てた重要度に基づいてＲＯＩを選択する。図２９の作業－物体対応付けテーブルの例では、現在の作業が転圧作業である場合、転圧作業に対応付けられた転圧機の領域に重要度＋２を割り当て、割り当てた重要度に基づいてＲＯＩを選択する。なお、実施の形態１の図６と同様の動作をする部の記載は省略する。

　以上のように、本実施の形態では、実施の形態１～４の構成において、端末でＲＯＩを選択する際に、映像内で行われている作業に関係する物体に基づいてＲＯＩを選択する。これにより、作業の状況に応じて適切にＲＯＩを選択することができ、例えば、重要な領域での物体検出を、端末よりもリソースの豊富なセンターサーバで実施することができる。また、実施の形態１～４と同様に、ＲＯＩに選択されなかった低画質化領域の認識精度を向上することができる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

　上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、図３０に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ３１及び記憶装置であるメモリ３２を有するコンピュータ３０により実現してもよい。例えば、メモリ３２に実施形態における方法（映像処理方法）を行うためのプログラムを格納し、各機能を、メモリ３２に格納されたプログラムをプロセッサ３１で実行することにより実現してもよい。

　これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　入力される映像に含まれる物体を検出する第１の物体検出手段と、
　前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、
　前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、
　を備える、映像処理システム。
（付記２）
　前記送信手段は、前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
　付記１に記載の映像処理システム。
（付記３）
　前記送信手段は、前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
　付記１または２に記載の映像処理システム。
（付記４）
　前記送信手段は、前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
　付記１から３のいずれか一項に記載の映像処理システム。
（付記５）
　前記送信手段は、前記物体の検出結果として、第１の物体と第２の物体の位置関係を送信する、
　付記１から４のいずれか一項に記載の映像処理システム。
（付記６）
　前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定する特定手段を備え、
　前記送信手段は、前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
　付記１から５のいずれか一項に記載の映像処理システム。
（付記７）
　前記送信手段は、前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
　付記１から５のいずれか一項に記載の映像処理システム。
（付記８）
　前記送信された前記物体の検出結果を用いて、前記送信された映像における物体の状態を認識する状態認識手段を備える、
　付記１から７のいずれか一項に記載の映像処理システム。
（付記９）
　入力される映像に含まれる物体を検出する物体検出手段と、
　前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、
　前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、
　を備える、映像処理装置。
（付記１０）
　前記送信手段は、前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
　付記９に記載の映像処理装置。
（付記１１）
　前記送信手段は、前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
　付記９または１０に記載の映像処理装置。
（付記１２）
　前記送信手段は、前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
　付記９から１１のいずれか一項に記載の映像処理装置。
（付記１３）
　前記送信手段は、前記物体の検出結果として、第１の物体と第２の物体の位置関係を送信する、
　付記９から１２のいずれか一項に記載の映像処理装置。
（付記１４）
　前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定する特定手段を備え、
　前記送信手段は、前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
　付記９から１３のいずれか一項に記載の映像処理装置。
（付記１５）
　前記送信手段は、前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
　付記９から１３のいずれか一項に記載の映像処理装置。
（付記１６）
　入力される映像に含まれる物体を検出し、
　前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御し、
　前記物体の検出結果と前記画質が制御された映像とを送信する、
　映像処理方法。
（付記１７）
　前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
　付記１６に記載の映像処理方法。
（付記１８）
　前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
　付記１６または１７に記載の映像処理方法。
（付記１９）
　前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
　付記１６から１８のいずれか一項に記載の映像処理方法。
（付記２０）
　前記物体の検出結果として、第１の物体と第２の物体の位置関係を送信する、
　付記１６から１９のいずれか一項に記載の映像処理方法。
（付記２１）
　前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定し、
　前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
　付記１６から２０のいずれか一項に記載の映像処理方法。
（付記２２）
　前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
　付記１６から２０のいずれか一項に記載の映像処理方法。
（付記２３）
　入力される映像に含まれる物体を検出し、
　前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御し、
　前記物体の検出結果と前記画質が制御された映像とを送信する、
　処理をコンピュータに実行させるための映像処理プログラム。
（付記２４）
　前記送信された前記物体の検出結果を用いて、前記送信された映像における物体を検出する第２の物体検出手段を備える、
　付記１から６のいずれか一項に記載の映像処理システム。

１　　　遠隔監視システム
１０　　映像処理システム
１１　　物体検出部
１２　　画質制御部
１３　　送信部
２０　　映像処理装置
３０　　コンピュータ
３１　　プロセッサ
３２　　メモリ
１００　端末
１０１　カメラ
１０２　圧縮効率最適化機能
１１０　映像取得部
１２０　物体検出部
１３０　ＲＯＩ選択部
１３１　関係性分析部
１３２　作業情報取得部
１４０　画質制御部
１５０　物体検出結果抽出部
１５１　特徴抽出部
１５２　関連物体判定部
１５３　顔認証部
１６０　配信部
１７０　記憶部
２００　センターサーバ
２０１　映像認識機能
２０２　アラート生成機能
２０３　ＧＵＩ描画機能
２０４　画面表示機能
２１０　受信部
２２０　デコーダ
２３０　物体検出結果取得部
２３１　特徴取得部
２３２　関連物体取得部
２３３　顔認証結果取得部
２４０　物体検出部
２５０　物体追跡部
２６０　特徴抽出部
２７０　姿勢推定部
２８０　行動認識部
２９０　記憶部
３００　基地局
４００　ＭＥＣ
４０１　圧縮ビットレート制御機能

Claims

　入力される映像に含まれる物体を検出する第１の物体検出手段と、
　前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、
　前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、
　を備える、映像処理システム。
　前記送信手段は、前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
　請求項１に記載の映像処理システム。
　前記送信手段は、前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
　請求項１または２に記載の映像処理システム。
　前記送信手段は、前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
　請求項１から３のいずれか一項に記載の映像処理システム。
　前記送信手段は、前記物体の検出結果として、第１の物体と第２の物体の位置関係を送信する、
　請求項１から４のいずれか一項に記載の映像処理システム。
　前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定する特定手段を備え、
　前記送信手段は、前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
　請求項１から５のいずれか一項に記載の映像処理システム。
　前記送信手段は、前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
　請求項１から５のいずれか一項に記載の映像処理システム。
　前記送信された前記物体の検出結果を用いて、前記送信された映像における物体の状態を認識する状態認識手段を備える、
　請求項１から７のいずれか一項に記載の映像処理システム。
　入力される映像に含まれる物体を検出する物体検出手段と、
　前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御する画質制御手段と、
　前記物体の検出結果と前記画質が制御された映像とを送信する送信手段と、
　を備える、映像処理装置。
　前記送信手段は、前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
　請求項９に記載の映像処理装置。
　前記送信手段は、前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
　請求項９または１０に記載の映像処理装置。
　前記送信手段は、前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
　請求項９から１１のいずれか一項に記載の映像処理装置。
　前記送信手段は、前記物体の検出結果として、第１の物体と第２の物体の位置関係を送信する、
　請求項９から１２のいずれか一項に記載の映像処理装置。
　前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定する特定手段を備え、
　前記送信手段は、前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
　請求項９から１３のいずれか一項に記載の映像処理装置。
　前記送信手段は、前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
　請求項９から１３のいずれか一項に記載の映像処理装置。
　入力される映像に含まれる物体を検出し、
　前記物体の検出結果に基づいて、前記映像における前記物体を含む領域の画質を制御し、
　前記物体の検出結果と前記画質が制御された映像とを送信する、
　映像処理方法。
　前記検出された物体のうち、前記画質が他の領域よりも低画質になるように制御された領域に含まれる物体の検出結果を送信する、
　請求項１６に記載の映像処理方法。
　前記物体の検出結果として、前記物体の種別及び前記物体の位置情報を送信する、
　請求項１６または１７に記載の映像処理方法。
　前記物体の検出結果として、前記物体を含む領域の特徴量を送信する、
　請求項１６から１８のいずれか一項に記載の映像処理方法。
　前記物体の検出結果として、第１の物体と第２の物体の位置関係を送信する、
　請求項１６から１９のいずれか一項に記載の映像処理方法。
　前記検出された物体のうち、検出された人と個人を特定するための特定情報とに基づいて、前記検出された人を特定し、
　前記物体の検出結果として、前記特定された人を識別する人物識別情報を送信する、
　請求項１６から２０のいずれか一項に記載の映像処理方法。
　前記物体の検出結果として、前記物体の属性を識別する属性識別情報を送信する、
　請求項１６から２０のいずれか一項に記載の映像処理方法。