WO2024047790A1

WO2024047790A1 - 映像処理システム、映像処理装置及び映像処理方法

Info

Publication number: WO2024047790A1
Application number: PCT/JP2022/032760
Authority: WO
Inventors: 浩一二瓶; 孝法岩井; フロリアンバイエ; 勇人逸身; 勝彦高橋; 康敬馬場崎; 隆平安藤; 君朴
Original assignee: 日本電気株式会社
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-07

Abstract

映像処理システム（１０）は、センサによって撮像された映像を処理するシステムである。映像処理システム（１０）は、センサによって撮像された第１映像に含まれる物体の動作を認識する動作認識部（１１）と、動作認識部（１１）が認識した第１映像に含まれる物体の動作の認識結果に応じて、センサによって撮像された第２映像のフレームごとの表示内容の変化を、第２映像内の領域ごとに制御する制御部（１２）と、を備えるものである。

Description

映像処理システム、映像処理装置及び映像処理方法

　本開示は、映像処理システム、映像処理装置及び映像処理方法に関する。

　映像のフレームレートを変更する技術が開発されている。関連する技術として、例えば、特許文献１や２が知られている。特許文献１には、映像内の人物の行動を検出し、行動の種別や順序に応じて重みを付け、カメラの撮影画角を決定する技術が記載され、重みの値に応じた重要なシーンでは、フレームレートを増加させてもよいとも記載されている。また、特許文献２には、所定の評価部位におけるフレーム間での動き量の計算結果に応じて解析区間を決定し、決定した解析区間以外のフレームレートを下げることが記載されている。

特開２０２０－０７２４５７号公報特開２０２１－１１８５０１号公報

　特許文献１や特許文献２のような関連する技術では、映像のシーンや評価部位の動き量などに応じてフレームレートを制御することで、ある程度まで映像のデータ量を低減することができる。しかしながら、関連する技術では、単位時間当たりのフレーム数を変更することでフレーム全体のフレームレートを制御することが前提となっているため、適切にデータ量を低減できない場合がある。例えば、フレームレートを制御した映像を、ネットワークを介して配信する場合、ネットワークの利用可能なリソース量によっては、配信した映像の品質低下につながる可能性がある。特許文献１では、重要なシーンが多い場合に、特許文献２では、解析区間が長い場合に、通信量が大きくなり、遅延や映像の乱れに繋がる可能性がある。

　本開示は、このような課題に鑑み、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することを目的とする。

　本開示に係る映像処理システムは、センサによって撮像された第１映像に含まれる物体の動作を認識する動作認識手段と、前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する制御手段と、を備えるものである。

　本開示に係る映像処理装置は、センサによって撮像された第１映像に含まれる物体の動作を認識する動作認識手段と、前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する制御手段と、を備えるものである。

　本開示に係る映像処理方法は、センサによって撮像された第１映像に含まれる物体の動作を認識し、前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御するものである。

　本開示によれば、映像のデータ量を適切に制御することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することができる。

実施の形態に係る映像処理システムの概要を示す構成図である。実施の形態に係る映像処理装置の概要を示す構成図である。実施の形態に係る映像処理装置の概要を示す構成図である。実施の形態に係る映像処理方法の概要を示すフローチャートである。実施の形態に係る映像処理方法を説明するための図である。遠隔監視システムの基本構成を示す構成図である。実施の形態１に係る端末の構成例を示す構成図である。実施の形態１に係るセンターサーバの構成例を示す構成図である。実施の形態１に係る動作－フレームレート対応付けテーブルの例を示す図である。実施の形態１に係る遠隔監視システムの動作例を示すフローチャートである。実施の形態１に係る映像取得処理を説明するための図である。実施の形態１に係る動作認識処理を説明するための図である。実施の形態１に係るフレームレート決定処理を説明するための図である。実施の形態１に係るフレームレート決定処理を説明するための図である。実施の形態１に係るフレームレート制御処理を説明するための図である。実施の形態１に係るフレームレート制御処理を説明するための図である。実施の形態１の変形例１に係る端末の構成例を示す構成図である。実施の形態１の変形例１に係るセンターサーバの構成例を示す構成図である。実施の形態１の変形例２に係る端末の構成例を示す構成図である。実施の形態１の変形例２に係るセンターサーバの構成例を示す構成図である。実施の形態１の変形例３に係る端末の構成例を示す構成図である。実施の形態１の変形例４に係る端末の構成例を示す構成図である。実施の形態２に係る端末の構成例を示す構成図である。実施の形態２に係るエンコーダの構成例を示す構成図である。実施の形態２の変形例１に係る端末の構成例を示す構成図である。実施の形態２の変形例２に係るフレームレート決定部の構成例を示す構成図である。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

　以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

（実施の形態の概要）
　まず、実施の形態の概要について説明する。図１は、実施の形態に係る映像処理システム１０の概要構成を示している。映像処理システム１０は、例えば、ネットワークを介して映像を配信し、配信した映像を監視する遠隔監視システムに適用可能である。

　図１に示すように、映像処理システム１０は、動作認識部１１、制御部１２を備えている。動作認識部１１は、センサによって撮像された第１映像に含まれる物体の動作を認識する。センサは、カメラなどの撮像手段である。物体の動作は、人物が行う作業などの行動、人物に限らず動物の動き、機械や道具などその他の物体の動きを含む。

　制御部１２は、物体の動作の認識結果に応じて、センサによって撮像された第２映像のフレームごとの表示内容の変化を、第２映像内の領域ごとに制御する。例えば、物体の認識結果は、物体の動作の種別を含む。また、物体の認識結果は、物体の位置情報を含んでもよい。制御部１２は、例えば、物体の位置情報に対応する領域を含む領域、または、物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御してもよい。領域の表示内容、または、領域の内容とは、領域内の画素により表示される内容であり、フレーム内の一部の範囲の部分画像である。制御部１２は、例えば、第２映像に含まれる第１のフレームの所定の領域に、第１のフレームよりも前のフレームの所定の領域の内容を複製することで、第２映像のフレームの表示内容の変化を制御してもよい。映像のフレームごとの表示内容の変化を制御することは、例えば、実質的なフレームレート、すなわち実質フレームレートを制御することである。実質フレームレートとは、映像を表示したときに単位時間当たりに当該領域の表示内容が１つ前のフレームから変化するフレーム数である。なお、単位時間当たりのフレーム数を、エンコードフレームレートとも称する。特に指定されない場合、フレームレートとは、実質フレームレートとエンコードフレームレートのいずれか、または両方を示す場合がある。上記のように、前のフレームの所定の領域の内容を複製することで、所定の領域の実質フレームレートを下げることができる。例えば、物体の動作の認識結果が、低いフレームレートの映像により認識可能な動作である場合、認識結果が示す領域の表示内容の変化を制御し、実質フレームレートを下げることができる。

　なお、映像処理システム１０は、１つの装置により構成してもよいし、複数の装置により構成してもよい。図２は、実施の形態に係る映像処理装置２０の構成を例示している。図２に示すように、映像処理装置２０は、図１に示した、動作認識部１１、制御部１２を備えてもよい。また、映像処理システム１０の一部または全部をエッジまたはクラウドに配置してもよい。例えば、現場や現場の近くに置く装置をエッジと称し、ネットワーク接続された遠隔地に置かれるサーバなどの装置をクラウドと称する。図３は、映像処理システム１０の機能を複数の映像処理装置に配置した構成を例示している。図３の例では、映像処理装置２１が制御部１２を備え、映像処理装置２２が動作認識部１１を備えている。例えば、映像処理装置２１をエッジの端末とし、映像処理装置２２をクラウドのサーバとしてもよい。

　図４は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図１の映像処理システム１０や図２または図３の映像処理装置２０～２２により実行される。図４に示すように、動作認識部１１は、センサによって撮像された第１映像に含まれる物体の動作を認識する（Ｓ１１）。次に、制御部１２は、物体の動作の認識結果に応じて、センサによって撮像された第２映像のフレームごとの表示内容の変化を、第２映像内の領域ごとに制御する（Ｓ１２）。制御部１２は、認識結果が示す領域の表示内容の変化を制御することで、認識結果が示す領域の実質フレームレートを制御する。

　ここで、エッジの端末からネットワークを介してクラウドのサーバに映像を配信し、サーバが映像を分析するシステムについて検討する。このようなシステムでは、端末からサーバへ映像を配信する際に、適切にフレームレートを制御することは難しいという問題がある。具体的には、端末からフレームレートを下げた映像を配信すると、配信する映像の通信量を抑えられるものの、サーバにおける認識精度が低下する。また、端末からフレームレートを上げた映像を配信すると、サーバにおける認識精度が向上するものの、配信する映像の通信量が増加する。そこで、実施の形態では、配信する映像のフレームレートを適切に制御することで、認識精度を維持したまま通信量を低減することを可能とする。

　図５は、実施の形態に係る映像処理方法において、エッジの端末からクラウドのサーバに映像を配信する場合の動作例を示している。例えば、図５の映像処理方法を実行する映像処理システムでは、映像を配信し、配信した映像から動作を認識するため、図１の構成に加えて、更に、映像配信部を備えていてもよい。例えば、エッジデバイスである端末の処理性能が低い場合、作業内容の認識を端末で実行するのは困難であるため、クラウドのサーバに映像を配信して処理する必要がある。なお、端末で物体検出などの軽量な認識処理を行ってもよい。例えば、端末が、映像配信部、制御部を備え、サーバが、動作認識部を備えていてもよい。

　図５に示すように、実施の形態に係る映像処理方法では、映像配信部は、カメラなどのセンサから入力される映像を、ネットワークを介してサーバへ配信する（Ｓ１０１）。次に、動作認識部は、配信された映像を取得し、取得した映像から物体の動作を認識する（Ｓ１０２）。次に、動作認識部は、物体の動作の認識結果を端末へ通知する（Ｓ１０３）。次に、制御部は、通知された動作認識結果に基づいて、配信する映像のフレームごとの表示内容の変化を制御する（Ｓ１０４）。すなわち、配信された映像の動作認識結果をフィードバックし、フィードバックした動作認識結果に応じて、次に配信する映像の実質フレームレートを制御する。さらに、映像配信部は、実質フレームレートが制御された映像を配信し、Ｓ１０１～Ｓ１０４が繰り返し実行される。

　このように、実施の形態では、映像に含まれる物体の動作を認識し、物体の動作の認識結果に応じて、映像における各領域のフレームごとの表示内容の変化を制御する。具体的には、各領域の実質フレームレートを制御する。これにより、認識する動作に応じたフレームレートに制御できるとともに、フレーム全体のフレームレートを制御する場合と比べて、領域ごとに実質フレームレートを制御できるため、高いフレームレートが必要な領域についてのみフレームレートを他の領域よりも高くすることができ、適切に映像のデータ量を制御することができる。したがって、認識精度を維持したまま通信量を低減することができる。例えば、映像内の、動作認識結果に応じた領域の実質フレームレートをエンコードフレームレートより低くすることにより、映像をエンコードして送信した際に、データ量を削減することができる。データ長を削減できる理由としては、エンコードの際にフレーム間の内容の差分に比例してデータ量が増加するためである。また、動作認識結果に応じて、映像内の各領域の実質フレームレートを低減させることにより、動作の認識に使用されるフレームレートに応じて実質フレームレートを制御することが可能になることから、動作の認識精度を維持することができる。また、動作認識結果により高いフレームレートが必要な領域については、実質フレームレートを変更せず、その他の領域の実質フレームレートを下げることで、特定の領域の物体の動作の認識精度を向上させつつ、単に映像全体のフレームレートが高い映像を送信するよりもデータ量を抑制することができる。

（遠隔監視システムの基本構成）
　次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図６は、遠隔監視システム１の基本構成を例示している。遠隔監視システム１は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場や工場などの作業現場、人の集まる広場、駅、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像、すなわちフレームを含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。

　図６に示すように、遠隔監視システム１は、複数の端末１００、センターサーバ２００、基地局３００、ＭＥＣ４００を備えている。端末１００、基地局３００及びＭＥＣ４００は、現場側に配置され、センターサーバ２００は、センター側に配置されている。例えば、センターサーバ２００は、現場から離れた位置に配置されているデータセンタ等に配置されている。現場側はシステムのエッジ側とも呼称し、センター側はクラウド側とも呼称する。

　端末１００と基地局３００との間は、ネットワークＮＷ１により通信可能に接続される。ネットワークＮＷ１は、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ（Long Term Evolution）、無線ＬＡＮなどの無線ネットワークである。なお、ネットワークＮＷ１は、無線ネットワークに限らず、有線ネットワークでもよい。基地局３００とセンターサーバ２００との間は、ネットワークＮＷ２により通信可能に接続される。ネットワークＮＷ２は、例えば、５ＧＣ（5th Generation Core network）やＥＰＣ（Evolved Packet Core）などのコアネットワーク、インターネットなどを含む。なお、ネットワークＮＷ２は、有線ネットワークに限らず、無線ネットワークでもよい。端末１００とセンターサーバ２００との間は、基地局３００を介して、通信可能に接続されているとも言える。基地局３００とＭＥＣ４００の間は任意の通信方法により通信可能に接続されるが、基地局３００とＭＥＣ４００は、１つの装置でもよい。

　端末１００は、ネットワークＮＷ１に接続される端末装置であり、現場の映像を配信する映像配信装置でもある。端末１００は、現場に設置されたカメラ１０１が撮影した映像を取得し、取得した映像を、基地局３００を介して、センターサーバ２００へ送信する。なお、カメラ１０１は、端末１００の外部に配置されてもよいし、端末１００の内部に配置されてもよい。

　端末１００は、カメラ１０１の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末１００は、圧縮効率を最適化する圧縮効率最適化機能１０２を有する。圧縮効率最適化機能１０２は、映像内のＲＯＩ（Region of Interest）の画質を制御するＲＯＩ制御を行う。ＲＯＩは、映像内の所定の領域である。ＲＯＩは、センターサーバ２００の映像認識機能２０１の認識対象を含む領域であってもよいし、ユーザが注視すべき領域でもよい。圧縮効率最適化機能１０２は、人物や物体を含むＲＯＩの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。また、端末１００は、入力された映像における各領域の実質フレームレートを制御するフレームレート制御部を備えていてもよい。

　基地局３００は、ネットワークＮＷ１の基地局装置であり、端末１００とセンターサーバ２００の間の通信を中継する中継装置でもある。例えば、基地局３００は、ローカル５Ｇの基地局、５ＧのｇＮＢ（next Generation Node B）、ＬＴＥのｅＮＢ（evolved Node B）、無線ＬＡＮのアクセスポイント等であるが、その他の中継装置でもよい。

　ＭＥＣ（Multi-access Edge Computing）４００は、システムのエッジ側に配置されたエッジ処理装置である。ＭＥＣ４００は、端末１００を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能４０１を有する。圧縮ビットレート制御機能４０１は、適応映像配信制御やＱｏＥ（quality of experience）制御により端末１００のビットレートを制御する。適応映像配信制御は、ネットワークの状況に応じて配信する映像のビットレート等を制御する。また、ＱｏＥ制御は、ユーザの体感品質や認識精度に応じて配信する映像のビットレート等を制御する。例えば、圧縮ビットレート制御機能４０１は、ネットワークＮＷ１及びＮＷ２の通信環境に応じて、認識精度が良くなるように各端末１００のカメラ１０１の配信する映像にビットレートを割り当てる。また、ネットワークＮＷ１及びＮＷ２の通信環境を予測してビットレートを割り当ててもよい。圧縮ビットレート制御機能４０１は、配信される映像のビットレートを抑えることによって当該映像を認識モデルに入力した際に得られる認識精度を予測してもよい。なお、ビットレートの制御に限らず、ネットワークの状況に応じて配信する映像のフレームレートを制御してもよい。

　センターサーバ２００は、システムのセンター側に設置されたサーバである。センターサーバ２００は、１つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ２００は、現場のカメラ映像を分析や認識することで、現場の作業を監視する監視装置である。センターサーバ２００は、端末１００から送信された映像を受信する映像受信装置でもある。

　センターサーバ２００は、映像認識機能２０１、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を有する。映像認識機能２０１は、端末１００から送信された映像を映像認識ＡＩ（Artificial Intelligence）エンジンに入力することにより、作業員が行う作業、すなわち物体の動作の種類を認識する。映像認識機能２０１は、映像に含まれる物体の動作を認識する動作認識部に対応する。

　アラート生成機能２０２は、認識された作業に応じてアラートを生成する。ＧＵＩ描画機能２０３は、表示装置の画面にＧＵＩ（Graphical User Interface）を表示する。画面表示機能２０４は、ＧＵＩに端末１００の映像や認識結果、アラート等を表示する。なお、必要に応じて、いずれかの機能を省略してもよいし、いずれかの機能を備えていてもよい。例えば、センターサーバ２００は、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を備えていなくてもよい。

（実施の形態１）
　次に、実施の形態１について説明する。本実施の形態では、映像の動作認識結果に応じて、映像の実質フレームレートを制御する例について説明する。

　まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム１の基本構成は、図６に示した通りである。ここでは、端末１００とセンターサーバ２００の構成例について説明する。図７は、本実施の形態に係る端末１００の構成例を示しており、図８は、本実施の形態に係るセンターサーバ２００の構成例を示している。

　なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末１００の一部の機能をセンターサーバ２００や他の装置に配置してもよいし、センターサーバ２００の一部の機能を端末１００や他の装置に配置してもよい。また、圧縮ビットレート制御機能を含むＭＥＣ４００の機能をセンターサーバ２００や端末１００等に配置してもよい。

　図７に示すように、端末１００は、映像取得部１１０、認識結果取得部１２０、フレームレート決定部１３０、フレームレート制御部１４０、エンコーダ１５０、端末通信部１６０、記憶部１７０を備えている。

　映像取得部１１０は、カメラ１０１が撮影した映像を取得する。カメラが撮影した映像は、以下入力映像とも称する。例えば、入力映像には現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部１１０は、時系列の複数の画像、すなわちフレームを取得する画像取得部でもある。

　認識結果取得部１２０は、端末通信部１６０がセンターサーバ２００から受信する動作認識結果を取得する。なお、認識結果取得部１２０は、端末通信部１６０に組み込まれていてもよい。動作認識結果は、物体の動作種別、認識した動作の主体である物体を含む矩形領域の位置情報等を含む。物体の位置情報は、例えば、矩形領域の各頂点の座標であってもよく、矩形領域の中心の位置でもよいし、物体の任意の点の位置でもよい。矩形領域は、バウンディングボックス、または、物体領域である。なお、物体を含む物体領域は、矩形領域に限らず、円形や不定形のシルエット等の領域でもよい。動作認識結果が示す物体は、例えば、動作認識の対象となる人物であるが、人物が作業で使用する作業物体を含んでもよい。また、動作認識結果には、動作種別のスコアが含まれていてもよい。動作種別のスコアは、認識した動作種別の確からしさ、すなわち信頼度または確信度である。

　フレームレート決定部１３０は、センターサーバ２００から取得した動作認識結果に基づいて、入力映像内の各領域の実質フレームレートを決定する。フレームレート決定部１３０は、動作認識結果が示す物体の位置情報及び動作種別に基づいて、動作認識結果が示す物体領域、すなわち矩形領域と、その他の領域の実質フレームレートを決定する。また、動作種別のスコアに応じて、動作認識結果に応じて実質フレームレートを決定する物体領域の大きさを変えてもよい。例えば、動作種別のスコアが小さくなるにしたがって、物体領域を大きくしてもよい。動作種別のスコアが小さい場合、動作認識結果の動作種別及び位置情報が正しく認識できていない可能性があり、その領域に物体が含まれていない可能性がある。そこで、動作種別のスコアが小さい場合、物体領域を大きくすることで、動作認識結果の位置情報が正しく認識できていない可能性も考慮して、動作認識結果に応じて実質フレームレートを制御する領域を決定することができる。

　フレームレート決定部１３０は、動作認識結果が示す動作種別に基づいて、物体領域の実質フレームレートを決定する。例えば、記憶部１７０に記憶された動作－フレームレート対応付けテーブルを参照し、動作種別に対応付けられたフレームレートを、物体領域の実質フレームレートに決定する。動作種別に対応付けられたフレームレートは、１５ｆｐｓ～３０ｆｐｓなどのように、ある程度幅を持っていてもよい。また、ネットワークＮＷ１やＮＷ２の状況に応じて、実質フレームレートを決定してもよい。例えば、動作種別に基づいて、物体領域の実質フレームレートを高フレームレートに決定し、その他の領域の実質フレームレートを低フレームレート、または高フレームレートに決定してもよい。また、動作種別に基づいて、物体領域の実質フレームレートを低フレームレートに決定し、その他の領域の実質フレームレートを低フレームレート、または高フレームレートに決定してもよい。なお、高フレームレートとは、入力映像、すなわちカメラが撮影した映像のフレームレートであってもよく、高フレームレートとした領域のフレームレートが、他の領域のフレームレートよりも高い状態を意味してもよい。低フレームレートとは、高フレームレートよりも低いフレームレートであり、例えば、入力映像のフレームレートよりも低いフレームレートである。

　フレームレート制御部１４０は、取得された入力映像の実質フレームレートを制御する。フレームレート制御部１４０は、フレームレート決定部１３０が決定した各領域の実質フレームレートにしたがって、入力映像の各領域の実質フレームレートを制御する。例えば、フレームレート制御部１４０は、特定の領域の実質フレームレートが高フレームレートに決定された場合、特定の領域の内容を変更せずに、入力映像の実質フレームレートを維持してもよい。また、フレームレート制御部１４０は、特定の領域の実質フレームレートが高フレームレートに決定された場合、特定の領域の実質フレームレートを、特定の領域以外の領域の実質フレームレートよりも高くするように制御してもよい。また、フレームレート制御部１４０は、特定の領域の実質フレームレートが低フレームレートに決定された場合、フレームレートにしたがって、前のフレームの特定の領域の内容を次のフレームにコピーすることで、特定の領域の実質フレームレートを低フレームレートに制御する。これにより、低フレームレートの領域の実質フレームレートを、高フレームレートの領域の実質フレームレートよりも低くし、高フレームレートの領域の実質フレームレートを、低フレームレートの実質フレームレートよりも高くする。

　エンコーダ１５０は、実質フレームレートが制御された入力映像をエンコードする。エンコーダ１５０は、入力映像を符号化する符号化部である。エンコーダ１５０は、所定の符号化方式により入力映像を圧縮する圧縮部でもある。エンコーダ１５０は、例えば、Ｈ．２６４やＨ．２６５などの映像符号化方式によりエンコードする。

　エンコーダ１５０は、所定のエンコードフレームレートで入力される入力映像を所定のビットレートによりエンコードする。エンコーダ１５０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートとなるように入力映像をエンコードしてもよい。また、エンコーダ１５０は、端末１００とセンターサーバ２００間の通信品質に基づいて、ビットレートを決定してもよい。通信品質は、例えば、通信速度であるが、伝送遅延や誤り率などその他の指標でもよい。端末１００は、通信品質を測定する通信品質測定部を備えていてもよい。例えば、通信品質測定部は、通信速度に応じて端末１００からセンターサーバ２００へ送信する映像のビットレートを決定する。基地局３００またはセンターサーバ２００が受信するデータ量に基づいて通信速度を測定し、通信品質測定部は、基地局３００またはセンターサーバ２００から測定された通信速度を取得してもよい。また、通信品質測定部は、端末通信部１６０から送信する単位時間当たりのデータ量に基づいて通信速度を推定してもよい。

　また、エンコーダ１５０は、人物を含むＲＯＩを検出し、検出したＲＯＩが他の領域よりも高画質となるように、入力映像をエンコードしてもよい。高画質とは、他の領域よりも画質が高いことであり、例えば、他の領域より解像度を高くしてもよいし、他の領域より圧縮率を下げてもよい。例えば、映像取得部１１０とエンコーダ１５０の間にＲＯＩ特定部を備えてもよい。ＲＯＩ特定部は、取得された映像内の物体を検出し、ＲＯＩ等の領域を特定する。エンコーダ１５０は、ＲＯＩ特定部によって特定されたＲＯＩを他の領域よりも高画質となるように入力映像をエンコードしてもよい。また、ＲＯＩ特定部によって指定された領域を他の領域よりも低画質になるように入力画像をエンコードしてもよい。ＲＯＩ特定部またはエンコーダ１５０は、ＲＯＩを検出又は特定する際、映像に映る可能性のある物体とその優先度とが対応する情報を保持し、当該優先度の対応情報に応じてＲＯＩ等の領域を特定してもよい。ＲＯＩの画質設定は、例えば、エンコーダに対して当該領域の量子化パラメータの絶対値、または、他の領域との量子化パラメータの差を設定することで実現してもよい。ＲＯＩは、動作認識結果に応じて実質フレームレートを制御する物体領域とは別の領域でもよい。

　端末通信部１６０は、エンコーダ１５０がエンコードしたエンコードデータを、基地局３００を介して、センターサーバ２００へ送信する。端末通信部１６０は、実質フレームレートが制御された映像を送信する送信部である。また、端末通信部１６０は、センターサーバ２００から送信された動作認識結果を、基地局３００を介して受信する受信部でもある。端末通信部１６０は、基地局３００と通信可能なインタフェースであり、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ、無線ＬＡＮ等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。端末通信部１６０は、エンコードデータを送信する第１の端末通信部と、動作認識結果を受信する第２の端末通信部を含んでもよい。第１の端末通信部と第２の端末通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　記憶部１７０は、端末１００の処理に必要なデータを記憶する。例えば、記憶部１７０は、動作種別にフレームレートを対応付けた動作－フレームレート対応付けテーブルを記憶する。図９は、動作－フレームレート対応付けテーブルの具体例を示している。図９に示すように、動作－フレームレート対応付けテーブルでは、動作認識結果で示される動作種別に、フレームレートを対応付ける。この例では、くい打ち作業に高フレームレートが対応付けられ、掘削作業に高フレームレートが対応付けられ、転圧作業に低フレームレートが対応付けられ、物体を投げる動作に高フレームレートが対応付けられている。例えば、転圧機で地面をならす転圧作業の場合、転圧機自体は高速で動いているが、動作認識のためには高フレームレートの映像は不要であるため、転圧作業に低フレームレートが対応付けられている。また、人物がボールなどの物体を投げる動作を認識するためには、高フレームレートの映像が必要であるため、物体を投げる動作に高フレームレートが対応付けられている。なお、高フレームレート、低フレームレートに限らず、高、中、低のように、複数のレベルのフレームレートでもよい。フレームレートのレベルに限らず、フレームレートの値を対応付けてもよい。動作種別に対応付けられたフレームレートは、１５ｆｐｓ～３０ｆｐｓなどのように、ある程度幅を持っていてもよい。

　また、図８に示すように、センターサーバ２００は、センター通信部２１０、デコーダ２２０、動作認識部２３０、認識結果通知部２４０を備えている。

　センター通信部２１０は、端末１００から送信されたエンコードデータを、基地局３００を介して受信する。センター通信部２１０は、実質フレームレートが制御された映像を受信する受信部である。また、センター通信部２１０は、動作認識部２３０が認識した動作認識結果を、基地局３００を介して端末１００へ送信する送信部でもある。センター通信部２１０は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、ＩＰ通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。センター通信部２１０は、エンコードデータを受信する第１のセンター通信部と、動作認識結果を送信する第２のセンター通信部を含んでもよい。第１のセンター通信部と第２のセンター通信部は、同じ通信方式の通信部でもよいし、別の通信方式の通信部でもよい。

　デコーダ２２０は、端末１００から受信したエンコードデータをデコードする。デコーダ２２０は、エンコードデータを復号化する復号化部である。デコーダ２２０は、所定の符号化方式によりエンコードデータ、すなわち圧縮データを復元する復元部でもある。デコーダ２２０は、端末１００の符号化方式に対応し、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりデコードする。デコーダ２２０は、各領域の圧縮率やビットレートに応じてデコードし、デコードした映像を生成する。デコードした映像を、以下受信映像とも称する。

　動作認識部２３０は、受信映像を分析し、受信映像内の物体の動作を認識する。例えば、人物が物体を使用して行う作業や、人物が危険な状態となる不安全行動などの人物の行動を認識する。また、人物の行動に限らず、機械類の稼働状況や作業道具の使用状況など、物体の動作状況を認識してもよい。動作認識部２３０は、受信映像から物体を検出し、検出した物体の動作を認識する。動作認識部２３０は、動作認識の対象である人物の動作の動作種別を認識する。例えば、動作認識部２３０は、物体検出部２３１、追跡部２３２、動作予測器２３３、動作判定部２３４を含む。なお、物体検出部２３１、追跡部２３２、動作予測器２３３、動作判定部２３４はあくまで例示であって、動作認識部２３０では、動作の種別と物体の矩形領域などの位置情報が認識できればよく、具体的な手法は本開示と同一でなくてもよい。

　物体検出部２３１は、入力される受信映像内の物体を検出する。物体検出部２３１は、受信映像に含まれる各フレーム内の物体を検出し、検出した物体の種別を認識する。物体検出部２３１は、受信映像の各フレームから物体を含む矩形領域を抽出し、抽出した矩形領域内の物体を認識し、認識した物体の物体種別を認識する。物体検出部２３１は、物体を含む矩形領域の特徴量を算出し、算出した特徴量に基づいて物体を認識する。例えば、物体検出部２３１は、ディープラーニングなどの機械学習を用いた物体認識エンジンによりフレーム内の物体を認識する。物体を含む領域の特徴と物体の種別を機械学習することで物体を認識できる。物体の検出結果には、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等が含まれる。物体種別のスコアは、認識した物体種別の確からしさ、すなわち信頼度または確信度である。

　追跡部２３２は、検出された受信映像内の物体を追跡、すなわちトラッキングする。追跡部２３２は、物体の検出結果に基づいて、受信映像に含まれる各画像の物体を対応付ける。検出された物体にトラッキングＩＤを割り当てることで、各物体を識別してトラッキングすることができる。例えば、前の画像で検出された物体の矩形領域と次の画像で検出された物体の矩形領域との間の距離や重なりにより画像間の物体を対応付けることで、物体をトラッキングする。

　動作予測器２３３は、追跡部２３２がトラッキングした物体ごとに、物体の動作を予測する。動作予測器２３３は、受信映像内でトラッキングされた人物を含む物体の動作を認識し、認識した動作の種別を認識する。動作予測器２３３は、物体を含む領域の特徴量を算出し、算出した特徴量に基づいて動作種別を認識する。例えば、動作予測器２３３は、ディープラーニングなどの機械学習を用いた動作認識エンジンにより受信映像内の物体の動作を認識する。作業物体を用いて作業を行う物体の映像と動作種別を機械学習することで物体の動作を認識できる。また、動作予測器２３３は、認識した動作種別のスコアを出力する。

　動作判定部２３４は、予測された動作種別に基づいて、物体の動作を判定する。動作判定部２３４は、動作予測器２３３が予測した複数の動作種別のスコアに基づいて、物体の動作を決定する。例えば、動作判定部２３４は、最もスコアが高い動作種別を認識結果として出力する。動作認識結果として、動作種別、物体の位置情報、動作種別のスコア等を出力する。

　認識結果通知部２４０は、物体の動作を認識した結果である動作認識結果を端末１００へ通知する。認識結果通知部２４０は、動作判定部２３４が出力した動作認識結果を、センター通信部２１０を介して、端末１００へ送信する。認識結果通知部２４０は、センター通信部２１０に組み込まれていてもよい。

　次に、本実施の形態に係る遠隔監視システムの動作について説明する。図１０は、本実施の形態に係る遠隔監視システム１の動作例を示している。例えば、端末１００がＳ１１１～Ｓ１１５、Ｓ１２０～Ｓ１２２を実行し、センターサーバ２００がＳ１１６～Ｓ１１９を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。

　図１０に示すように、端末１００は、カメラ１０１から映像を取得する（Ｓ１１１）。カメラ１０１は、現場を撮影した映像を生成し、映像取得部１１０は、カメラ１０１から出力される映像、すなわち入力映像を取得する。例えば、図１１に示すように、入力映像の画像には、現場で作業を行う人物や、人物が使用するハンマーなどの作業物体が含まれている。

　続いて、端末１００は、入力映像のフレームレート、すなわち実質フレームレートを決定する（Ｓ１１２）。この段階では、まだセンターサーバ２００が映像から動作を認識していないため、動作認識結果を使用せずに実質フレームレートを決定する。例えば、フレームレート決定部１３０は、映像の全体の領域の実質フレームレートを初期値に設定する。例えば、実質フレームレートの初期値は高フレームレートであってもよく、低フレームレートやその他のフレームレートでもよい。例えば、高フレームレートは、入力映像のフレームレートと同じフレームレートであってよい。

　続いて、端末１００は、取得した入力映像のフレームレート、すなわち実質フレームレートを制御する（Ｓ１１３）。フレームレート制御部１４０は、フレームレート決定部１３０が決定した各領域の実質フレームレートにしたがって、入力映像の各領域の実質フレームレートを制御する。この例では、映像の全体の領域を高フレームレートに制御する。例えば、入力映像を変更しない状態が高フレームレートである場合、入力映像を変更せずに、エンコーダ１５０へ入力する。なお、映像全体のフレームレート、すなわち、エンコードフレームレートを変更する場合、フレームレートに応じて、フレームを間引いてもよいし、フレームを挿入、すなわち補間してもよい。例えば、フレームを挿入する前または後のフレームと同じフレームを挿入してもよい。図１１の例では、人物、ハンマー及びその他の領域を含む全体の領域を高フレームレートにする。

　続いて、端末１００は、フレームレート、すなわち実質フレームレートが制御された入力映像をエンコードする（Ｓ１１４）。エンコーダ１５０は、所定の映像符号化方式により入力映像をエンコードする。例えば、エンコーダ１５０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートとなるように入力映像をエンコードしてもよいし、端末１００とセンターサーバ２００の間の通信品質に応じたビットレートでエンコードしてもよい。

　続いて、端末１００は、エンコードしたエンコードデータをセンターサーバ２００へ送信し（Ｓ１１５）、センターサーバ２００は、エンコードデータを受信する（Ｓ１１６）。端末通信部１６０は、入力映像をエンコードしたエンコードデータを基地局３００へ送信する。基地局３００は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ２００へ転送する。センター通信部２１０は、転送されたエンコードデータを、基地局３００から受信する。

　続いて、センターサーバ２００は、受信したエンコードデータをデコードする（Ｓ１１７）。デコーダ２２０は、各領域の圧縮率やビットレートに応じてエンコードデータをデコードし、デコードした映像、すなわち受信映像を生成する。デコードした受信映像は、物体の動作を認識する対象の映像であり、動作認識結果に応じて実質フレームレートを制御する前の第１のタイミングでカメラ１０１により撮影され端末１００から送信された第１映像である。

　続いて、センターサーバ２００は、デコードした受信映像に基づいて物体の動作を認識する（Ｓ１１８）。例えば、動作認識部２３０の物体検出部２３１、追跡部２３２、動作予測器２３３、動作判定部２３４により、受信映像における人物を含む物体の動作を認識する。具体的には、物体検出部２３１は、物体認識エンジンを用いて、フレーム内の物体を検出し、検出した物体の種別、物体を含む矩形領域の位置情報、物体種別のスコア等を出力する。追跡部２３２は、検出された受信映像内の物体にトラッキングＩＤを割り当て、トラッキングＩＤにより識別される物体を各画像でトラッキングする。動作予測器２３３は、動作認識エンジンを用いて、トラッキングした人物や作業物体を含む映像から物体の動作を予測し、予測した動作の種別と、動作種別のスコア等を出力する。動作判定部２３４は、予測した動作種別のスコアに基づいて、物体の動作を決定する。動作判定部２３４は、動作認識結果として、決定した動作種別、物体の位置情報、動作種別のスコア等を出力する。

　例えば、図１１の映像から物体検出を行うと、物体検出部２３１は、図１２のように、人物及びハンマーを検出し、人物の矩形領域とハンマーの矩形領域を検出する。追跡部２３２は、検出された人物とハンマーをトラッキングし、動作予測器２３３は、トラッキングした人物とハンマーの映像に基づいて人物の動作を認識し、動作判定部２３４は、認識した動作種別を出力する。例えば、人物とハンマーの映像からくい打ち作業の動作種別のスコアが最も高い場合、人物の動作はくい打ち作業であると判定する。

　続いて、センターサーバ２００は、認識した動作認識結果を端末１００へ通知し（Ｓ１１９）、端末１００は、動作認識結果を取得する（Ｓ１２０）。認識結果通知部２４０は、動作判定部２３４が出力した動作認識結果を、センター通信部２１０を介して、端末へ通知する。センター通信部２１０は、動作認識結果を、インターネットやコアネットワークを介して、基地局３００へ送信する。基地局３００は、受信した動作認識悔過を端末１００へ転送する。端末通信部１６０は、転送された動作認識結果を、基地局３００から受信する。認識結果取得部１２０は、端末通信部１６０が受信した動作認識結果を取得する。

　続いて、端末１００は、センターサーバ２００から取得した動作認識結果に基づいて、新たに取得した入力映像の領域ごとの実質フレームレートを決定する（Ｓ１２１）。なお、Ｓ１１２以降、端末１００は継続的にカメラ１０１から映像を取得し、Ｓ１２０やＳ１２１の前後でも新たな映像が取得されており、フレームレート決定部１３０は、新たに取得された映像における実質フレームレートを決定する。新たに取得された映像は、動作認識結果に応じて実質フレームレートを制御する対象の映像であり、第１映像よりも後の第２のタイミングでカメラ１０１により撮影され端末１００が取得した第２映像である。フレームレート決定部１３０は、動作認識結果が示す物体領域及びその他の領域の実質フレームレートを決定する。例えば、動作認識結果が、図１２のように人物の矩形領域とハンマーの矩形領域を示している場合、人物の矩形領域とハンマーの矩形領域を物体領域として実質フレームレートを決定してもよい。また、図１３に示すように、人物の矩形領域とハンマーの矩形領域を含む外接領域を物体領域として実質フレームレートを決定してもよい。また、図１４に示すように、人物とハンマーの輪郭に沿った領域を物体領域として実質フレームレートを決定してもよい。この場合、センターサーバ２００から、人物とハンマーの輪郭の情報を動作認識結果として通知してもよい。

　フレームレート決定部１３０は、動作認識結果が示す動作種別に基づいて、動作認識結果が示す物体領域の実質フレームレートを決定し、さらにその他の領域の実質フレームレートを決定する。フレームレート決定部１３０は、記憶部１７０の動作－フレームレート対応付けテーブルを参照し、物体領域の実質フレームレートを決定する。図９のテーブルの例では、動作種別がくい打ち作業である場合、くい打ち作業に対応付けられた高フレームレートを物体領域の実質フレームレートに決定する。図１２の例で、動作種別がくい打ち作業の場合、人物の矩形領域とハンマーの矩形領域を含む物体領域の実質フレームレートを高フレームレートに決定する。また、その他の領域の実質フレームレートを、所定のフレームレート、例えば低フレームレートに決定する。

　続いて、端末１００は、新たに取得した入力映像の各領域のフレームレート、すなわち実質フレームレートを制御する（Ｓ１２２）。フレームレート制御部１４０は、フレームレート決定部１３０が決定した各領域の実質フレームレートにしたがって、新たに取得した入力映像の実質フレームレートを制御する。例えば、低フレームレートに決定された領域の実質フレームレートが、高フレームレートに決定された領域の実質フレームレートよりも下がるように、入力映像を制御する。図１２の例で、人物の矩形領域とハンマーの矩形領域が高フレームレート、その他の領域が低フレームレートに決定された場合、その他の領域の実質フレームレートを下げることで、人物の矩形領域とハンマーの矩形領域を高フレームレートにしてもよい。例えば、特定の領域の実質フレームレートを下げる場合、フレームレートに応じて、前後のフレーム間で特定の領域の内容をコピーする。内容をコピーした領域でフレーム間の差分が無くなるため、エンコードされたエンコードデータにおいて、コピーした領域のフレームレートが実質的に下がり、ビットレートを低減することができる。

　図１５は、動作認識結果が示す物体領域を高フレームレート、その他の領域を低フレームレートに制御する例を示している。図１５では、入力映像のフレーム０～４と実質フレームレート制御後のフレーム０～４のイメージを示している。各フレームで、白い四角の領域Ａ１が、高フレームレートとする物体領域を示し、白い四角以外の領域Ａ２が、低フレームレートとするその他の領域を示している。その他の領域Ａ２では、同じ内容を同じハッチングパターンで示し、異なる内容を異なるハッチングパターンで示している。また、物体領域Ａ１は、全て白い四角で示されているが、実際には物体が含まれており、フレームごとに内容が異なる。図１５の例では、実質フレームレート制御後の映像の物体領域Ａ１は、入力映像のフレーム０～４の内容を用い、物体領域Ａ１の内容を変更しない。また、その他の領域Ａ０では、実質フレームレートに応じて、特定のフレームの内容を、その後のフレームにコピーする。例えば、フレーム０のその他の領域Ａ０の内容をフレーム１～４にコピーすることで、連続する５フレームごとにその他の領域Ａ０を同じ内容にする。これにより、その他の領域Ａ０の実質フレームレートを物体領域Ａ１よりも１／５に低くすることができる。例えば、物体領域Ａ１の実質フレームレートがエンコードフレームレートと同じ３０ｆｐｓの場合、その他の領域Ａ０の実質フレームレートが６ｆｐｓとなる。

　図１６は、動作認識結果が示す第１の物体領域を高フレームレート、動作認識結果が示す第２の物体領域を中フレームレート、その他の領域を低フレームレートに制御する例を示している。図１６では、図１５と同様、入力映像のフレーム０～４と実質フレームレート制御後のフレーム０～４のイメージを示している。各フレームの第１の物体領域Ａ１とその他の領域Ａ０は、図１５と同様に示されている。中フレームレートとする第２の物体領域Ａ２は、第１の物体領域Ａ１と異なる四角の領域であり、その他の領域Ａ０と同様に、異なる内容を異なるハッチングパターンで示している。図１６の例では、第１の物体領域Ａ１は、実質フレームレート制御後の映像において内容を変更せずに、第２の物体領域Ａ２及びその他の領域Ａ０は、それぞれ実質フレームレートに応じて特定のフレームの内容をその後のフレームにコピーする。例えば、フレーム０の第２の物体領域Ａ２の内容をフレーム１にコピーし、フレーム２の第２の物体領域Ａ２の内容をフレーム３にコピーすることで、連続する２フレームごとに第２の物体領域Ａ２を同じ内容にする。その他の領域Ａ０については、図１５と同様に、フレーム０の内容をフレーム１～４にコピーする。これにより、第２の物体領域Ａ２の実質フレームレートを第１の物体領域Ａ１よりも１／２に低くすることができ、その他の領域Ａ０の実質フレームレートを第１の物体領域Ａ１よりも１／５に低くすることができる。例えば、第１の物体領域Ａ１の実質フレームレートがエンコードフレームレートと同じ３０ｆｐｓの場合、第２の物体領域Ａ２の実質フレームレートが１５ｆｐｓとなり、その他の領域Ａ０の実質フレームレートが６ｆｐｓとなる。なお、図１０のフローチャートでは、その後、Ｓ１１４以降の処理を繰り返し実行する。

　以上のように、本実施の形態では、センターサーバから端末へ動作種別及び物体領域を含む動作認識結果を通知し、動作種別及び物体領域に応じて、映像の各領域の実質フレームレートを制御する。例えば、動作種別とフレームレートとの関係を予め決めておき、映像から認識された動作種別に応じて実質フレームレートを決定する。これにより、センターサーバが認識する動作に応じて、適切に実質フレームレートを制御できる。例えば、物体の動きが速くても低フレームレートで動作を認識可能な場合には、認識する物体の領域の実質フレームレートを下げることができる。したがって、動作認識精度を維持したまま、エンコードしたデータのデータ量、すなわちビットレートを低減することができる。

＜実施の形態１の変形例１＞
　実施の形態１の変形例１として、物体をトラッキングしたトラッキング情報に基づいて、映像の実質フレームレートを制御してもよい。図１７は、実施の形態１の変形例１に係る端末１００の構成例を示しており、図１８は、実施の形態１の変形例１に係るセンターサーバ２００の構成例を示している。

　図１７に示すように、端末１００は、実施の形態１の構成に加えて、トラッキング情報取得部１２１を備えていてもよい。また、図１８に示すように、実施の形態１の構成に加えて、センターサーバ２００は、トラッキング情報通知部２４１を備えていてもよい。なお、端末１００の認識結果取得部１２０の代わりに、トラッキング情報取得部１２１を備えてもよいし、センターサーバ２００の認識結果通知部２４０の代わりに、トラッキング情報通知部２４１を備えていてもよい。トラッキング情報通知部２４１は、センター通信部２１０に組み込まれていてもよい。

　本変形例では、センターサーバ２００のトラッキング情報通知部２４１は、追跡部２３２のトラッキング処理により得られるトラッキング情報を、センター通信部２１０を介して端末１００へ通知する。トランキング情報は、物体をトラッキングした結果である物体の移動軌跡を示す情報である。

　端末１００のトラッキング情報取得部１２１は、端末通信部１６０を介して、センターサーバ２００から受信するトラッキング情報を取得する。なお、トラッキング情報取得部１２１は、端末通信部１６０に組み込まれていてもよい。フレームレート決定部１３０は、取得したトラッキング情報に基づいた領域の実質フレームレートを決定してもよい。例えば、トラッキング情報の移動軌跡を延長した先に位置する領域の実質フレームレートを決定してもよい。トラッキング情報の移動量に応じて、動作認識結果に応じて実質フレームレートを決定する物体領域の大きさを変えてもよい。例えば、移動量が大きくなるにしたがって、物体領域を大きくしてもよい。フレームレート決定部１３０は、トラッキング情報に基づいた領域の実質フレームレートを、動作種別に応じて決定してもよいし、実施の形態１と同様に、動作認識結果が示す物体領域の実質フレームレートを、動作種別に応じて決定してもよい。

　このように、映像の動作認識結果に限らず、物体のトラッキング情報に基づいて映像の実質フレームレートを制御してもよい。これにより、さらに適切に実質フレームレートを制御できる。例えば、物体の移動軌跡から予測される領域に他の物体が検出されている場合や、物体の軌跡と他の物体の軌跡が交差する場合、危険な状態となる可能性があるため、物体の移動軌跡から予測される領域の実質フレームレートを高フレームレートに制御できる。なお、物体の移動軌跡から予測される領域の検出をセンターサーバ２００で行い、検出結果を端末１００へ通知してもよい。

＜実施の形態１の変形例２＞
　実施の形態１の変形例２として、センターサーバが実質フレームレートを決定してもよい。図１９は、実施の形態１の変形例２に係る端末１００の構成例を示しており、図２０は、実施の形態１の変形例２に係るセンターサーバ２００の構成例を示している。

　図１９に示すように、端末１００は、実施の形態１のフレームレート決定部１３０及び記憶部１７０を備えず、認識結果取得部１２０の代わりにフレームレート取得部１２２を備えていてもよい。図２０に示すように、センターサーバ２００は、実施の形態１における端末１００のフレームレート決定部１３０及び記憶部１７０を備え、認識結果通知部２４０の代わりにフレームレート通知部２４２を備えていてもよい。フレームレート通知部２４２は、センター通信部２１０に組み込まれていてもよい。

　本変形例では、センターサーバ２００のフレームレート決定部１３０は、動作判定部２３４が認識した動作認識結果に基づいて、フレームレートを決定する。フレームレート決定部１３０は、実施の形態１と同様に、動作認識結果の物体の位置情報に基づいた領域の実質フレームレートを、動作認識結果の動作種別に基づいて、決定する。フレームレート通知部２４２は、フレームレート決定部１３０が決定した各領域の実質フレームレートを含むフレームレート制御情報を、センター通信部２１０を介して端末１００へ通知する。

　端末１００のフレームレート取得部１２２は、端末通信部１６０を介して、センターサーバ２００から受信するフレームレート制御情報を取得する。なお、フレームレート取得部１２２は、端末通信部１６０に組み込まれていてもよい。フレームレート制御部１４０は、フレームレート取得部１２２がセンターサーバ２００から取得したフレームレート制御情報に基づいて、入力映像の各領域の実質フレームレートを制御する。

　このように、センターサーバが動作認識結果に応じて実質フレームレートを決定し、決定した実質フレームレートを端末に通知してもよい。この場合でも、実施の形態１と同様に適切に実質フレームレートを制御できる。

＜実施の形態１の変形例３＞
　実施の形態１の変形例３として、端末が物体検出を行ってもよい。図２１は、実施の形態１の変形例３に係る端末１００の構成例を示している。なお、センターサーバ２００の構成は実施の形態１と同様である。図２１に示すように、端末１００は、実施の形態１の構成に加えて、物体検出部１１１をさらに備えていてもよい。

　本変形例では、物体検出部１１１は、取得された入力映像内の物体を検出する。例えば、物体検出部１１１は、センターサーバ２００の物体検出部２３１と同様、機械学習を用いた物体認識エンジンにより物体を認識する。なお、物体検出部１１１の物体認識エンジンは、物体検出部２３１に備えられている物体認識エンジンとは異なる学習を行った物体認識エンジンであってよい。物体検出部１１１は、入力映像の各画像から物体を含む矩形領域を抽出し、抽出した矩形領域内の物体の物体種別を認識する。物体の検出結果には、物体種別、物体を含む矩形領域の位置情報、物体種別のスコア等が含まれる。

　フレームレート決定部１３０は、入力映像内で検出された物体の検出結果に基づいて、入力映像の実質フレームレートを決定する。例えば、センターサーバ２００から動作認識結果を受信する前に、物体検出結果に基づいて、実質フレームレートを決定してもよい。センターサーバ２００から動作認識結果を受信した後、物体検出結果と動作認識結果のいずれかを使用して、実質フレームレートを決定してもよい。物体検出結果を使用する場合、フレームレート決定部１３０は、入力映像内で検出した検出物体のうち所定の物体種別を有する物体の位置情報に基づいた領域の実質フレームレートを決定する。例えば、記憶部１７０に対象の物体種別を記憶しておき、記憶された物体種別を有する物体の領域の実質フレームレートを決定してもよい。また、記憶部１７０に人物と作業物体などの対象物体のペアのリストを記憶しておき、記憶された対象物体のペアの物体種別を有する第１の物体及び第２の物体の領域の実質フレームレートを決定してもよい。所定の位置関係にある第１の物体と第２の物体の領域の実質フレームレートを決定してもよい。また、物体検出結果に含まれる物体種別のスコアが所定値よりも大きい物体の領域や、物体種別のスコアが高い順に上位から所定の数の物体の領域の実質フレームレートを決定してもよい。なお、物体種別のスコアが所定値よりも小さい物体の領域の実質フレームレートを決定してもよい。フレームレート決定部１３０は、物体検出結果に基づいた物体領域の実質フレームレートを高フレームレートに決定してもよい。物体種別にフレームレートを対応付けておき、検出した物体の物体種別に応じて実質フレームレートを決定してもよい。なお、本実施の形態における物体の検出結果に基づいた実質フレームレートの決定方法を、図１０の、Ｓ１１２の実質フレームレートの決定に用いてもよい。この場合、動作認識結果を得る以前であっても、検出した物体の種別に応じて実質フレームレートを制御できるため、重要度の高い物体を含む領域に高フレームレートを割り当てることができ、適切に動作を認識することができる。

　このように、映像の動作認識結果に限らず、物体の検出結果に応じて実質フレームレートを制御してもよい。これにより、さらに適切に実質フレームレートを制御できる。例えば、センターサーバの認識対象の人物や作業物体などの領域を高フレームレートに制御できる。

＜実施の形態１の変形例４＞
　実施の形態１の変形例４として、動作ごとに最適なフレームレートを探索してもよい。図２２は、実施の形態１の変形例４に係る端末１００の構成例を示している。なお、センターサーバ２００の構成は実施の形態１と同様である。図２２に示すように、端末１００は、実施の形態１の構成に加えて、フレームレート探索部１７１をさらに備えていてもよい。

　本変形例では、フレームレート探索部１７１は、フレームレート制御部１４０が制御した実質フレームレートと、認識結果取得部１２０が取得した動作認識結果とに基づいて、動作に最適なフレームレートを判定する。例えば、所定の動作の映像を端末１００に入力し、フレームレート制御部１４０は、映像の実質フレームレートを、所定の範囲で、例えば、下限から上限、または、上限から下限に変化させる。所定の範囲の上限と下限は、予め設定された値でもよく、現在のネットワークの状況から導かれる、映像送信時の遅延を低減可能な値でもよい。センターサーバ２００は、各フレームレートの映像から動作を認識し、認識した動作認識結果を端末１００へ通知する。認識結果取得部１２０は、センターサーバ２００から各フレームレートの動作認識結果を取得する。フレームレート探索部１７１は、各フレームレートの動作認識結果に含まれる動作種別のスコアを参照し、最も高いスコアとなったフレームレートを、認識した動作の最適なフレームレートに決定する。スコアが規定値以上となった最小のフレームレートを、最適なフレームレートとしてもよい。フレームレート探索部１７１は、決定した最適なフレームレートと動作種別を対応付けて記憶部１７０の動作－フレームレート対応付けテーブルに格納する。

　このように、実際に各フレームレートの映像から認識した認識結果に基づいて、動作ごとに最適なフレームレートを探索してもよい。探索により得られた動作種別とフレームレートの関係を使用することで、動作種別ごとに適切に実質フレームレートを制御できる。

（実施の形態２）
　次に、実施の形態２について説明する。本実施の形態では、映像の動きベクトルに応じて、映像の実質フレームレートを制御する例について説明する。

　図２３は、本実施の形態に係る端末１００の構成例を示している。なお、センターサーバ２００の構成は実施の形態１と同様である。図２３に示すように、本実施の形態に係る端末１００は、実施の形態１の構成に加えて、エンコーダ１５０ｂを備えている。なお、エンコーダ１５０ａは、実施の形態１のエンコーダ１５０であり、入力映像を配信用にエンコードするエンコーダである。例えば、エンコーダ１５０ａは第１のエンコーダであり、エンコーダ１５０ｂは第２のエンコーダである。

　エンコーダ１５０ｂは、入力映像の動きベクトル検出用のエンコーダであり、動きベクトル検出部である。エンコーダ１５０ｂは、エンコーダ１５０ａと同じエンコーダであり、入力映像をＨ．２６４やＨ．２６５などの映像符号化方式によりエンコードする。実施の形態１と同様、映像取得部１１０は、継続的にカメラ１０１から入力される入力映像を取得し、エンコーダ１５０ｂは、継続的に取得される入力映像から動きベクトルを検出する。例えば、エンコーダ１５０ｂは、実施の形態１における動作認識結果に応じて実質フレームレートを制御する前の第１のタイミングで撮影された第１映像から動きベクトルを検出してもよいし、第１のタイミングの後の第２タイミングで撮影され動作認識結果に応じて実質フレームレートを制御する第２映像から動きベクトルを検出してもよいし、さらに、その後の第３のタイミングで撮影ざれた第３映像から動きベクトルを検出してもよい。

　図２４は、エンコーダ１５０ａ及び１５０ｂを含むエンコーダ１５０の構成例を示している。図２４に示すように、例えば、エンコーダ１５０は、分割部１５１、動きベクトル検出部１５２、残差算出部１５３、符号化部１５４を備えている。

　分割部１５１は、入力映像を所定のサイズの符号化ブロックに分割する。符号化ブロックは、符号化の処理単位であり、Ｈ．２６５の場合、ＣＴＵ（Coding Tree Unit）及びＣＵ（Coding Unit）である。分割部１５１は、例えば、入力映像を６４×６４画素のＣＴＵに分割し、さらに、画像に応じて１／４のサイズのＣＵに再帰的に繰り返し分割する。

　動きベクトル検出部１５２は、分割した各符号化ブロックＣＵに含まれるＰＵ（Prediction Unit）から動きベクトルを検出する。動きベクトルは、映像のフレームの領域各々に関する移動の大きさを示し、前の参照フレームから現在の対象フレームに対し画素の移動方向及び移動量を示す。参照フレームは、動きベクトルを算出するために参照するフレームであり、１つ前のフレームでもよいし、所定の期間前のフレームでもよい。例えば、動きベクトル検出部１５２は、参照フレームのブロックとマッチングするブロックを、対象フレームの中から探索し、探索したブロックの移動方向及び移動量を算出する。

　残差算出部１５３は、符号化ブロックごとに、前の参照フレームに対し動きベクトルを適用することで、映像内の画素の移動を予測した予測参照フレームと、動きベクトルを検出した現在の対象フレーム、すなわち入力されたフレームとの差である残差を算出する。残差は、動きベクトルを適用して参照フレームの次に入力されるフレームの動きを予測した予測フレームと参照フレームの次に入力されたフレームとの差分である。符号化部１５４は、符号化ブロックごとに、参照フレーム、動きベクトル、残差を符号化し、対象フレームのエンコードデータを生成する。なお、エンコーダ１５０ｂは、動きベクトルを検出できればよいため、分割部１５１及び動きベクトル検出部１５２のみを備えていてもよい。また、動きベクトルは他のフレームを参照して符号化されるフレームにのみ含まれる。そのため、エンコーダ１５０ｂは先頭フレームを除く全フレームで他のフレームを参照して符号化するように設定してもよい。

　本実施の形態では、フレームレート決定部１３０は、エンコーダ１５０ｂの動きベクトル検出部１５２が検出した動きベクトルに基づいて、入力映像の実質フレームレートを決定する。動きベクトルは、各符号化ブロックに１または２個含まれるＰＵ単位に検出される。各ＰＵに含まれる動きベクトルの平均値や、ＰＵサイズに応じた加重平均、最大値、最小超などの値から、符号化ブロックごとに実質フレームレートを決定してもよい。例えば、フレームレート決定部１３０は、センターサーバ２００から動作認識結果を受信する前に、第１映像から検出された動きベクトルに基づいて、実質フレームレートを決定し、フレームレート制御部１４０が、第１映像の実質フレームレートを制御してもよい。フレームレート決定部１３０は、センターサーバ２００から動作認識結果を受信した後、第２映像から検出された動きベクトルと動作認識結果のいずれかを使用して、実質フレームレートを決定し、フレームレート制御部１４０が、第２映像の実質フレームレートを制御してもよい。フレームレート決定部１３０は、その後の第３映像から検出された動きベクトルに基づいて、実質フレームレートを決定し、フレームレート制御部１４０が、第３映像の実質フレームレートを制御してもよい。

　フレームレート決定部１３０は、例えば、動きベクトルが０以外の符号化ブロックや、動きベクトルが所定値よりも大きい符号化ブロックの実質フレームレートを決定する。実質フレームレートを決定される領域は、動きベクトルから動きが推定される領域でもよい。例えば、フレームレート決定部１３０は、動きベクトルが０以外の符号化ブロックの周辺を含む領域の実質フレームレートを決定してもよい。フレームレート決定部１３０は、動きベクトルの大きさに応じて、実質フレームレートを決定する領域の大きさを変えてもよい。フレームレート決定部１３０は、例えば、動きベクトルが大きくなるにしたがって、実質フレームレートを決定する領域を大きくしてもよい。フレームレート決定部１３０は、動きベクトルの移動方向に応じて実質フレームレートを決定する領域を移動させてもよい。

　フレームレート決定部１３０は、動きベクトルに基づいた領域の実質フレームレートを、例えば高フレームレートに決定してもよい。動きベクトルの大きさに応じて、実質フレームレートを変えてもよい。例えば、動きベクトルが大きくなるにしたがって、実質フレームレートを高くしてもよい。Ｈ．２６５の場合、符号化ブロックのＣＵの大きさが画像の内容の動きに応じて変わるため、符号化ブロックの大きさに応じて、実質フレームレートを変えてもよい。例えば、符号化ブロックが小さくなるにしたがって、実質フレームレートを高くしてもよい。なお、実施の形態１の図７と同様の動作をする部の記載は省略する。

　以上のように、本実施の形態では、実施の形態１の構成に加えて、さらに、映像の動きベクトルに応じて、映像の実質フレームレートを制御する。例えば、端末で検出した動きベクトルから各領域の動きの速さを検出し、動きの速い部分だけ実質フレームレートを高フレームレートにする。これにより、物体の動きに応じて適切に実質フレームレートを制御できる。例えば、物体が動作を開始した時の認識漏れを低減することができる。また、例えば、特に動作認識に高フレームレートの映像が必要な動作が開始された場合であっても、認識精度を向上することができる。すなわち、実施の形態１のようにセンターサーバの動作認識結果に応じて物体の領域を低フレームレートとした場合でも、端末側で動きベクトルに応じて動く物体の領域を高フレームレートとすることで、認識漏れを防ぐことができる。

＜実施の形態２の変形例１＞
　実施の形態２の変形例１として、映像の動きベクトルのみに応じて、映像の実質フレームレートを制御してもよい。図２５は、実施の形態２の変形例１に係る端末１００の構成例を示している。図２５に示すように、端末１００は、図２３の構成に含まれる認識結果取得部１２０及び記憶部１７０を備えなくてもよい。すなわち、端末１００は、映像取得部１１０、フレームレート決定部１３０、フレームレート制御部１４０、エンコーダ１５０ａ、エンコーダ１５０ｂ、端末通信部１６０のみを備えていてもよい。この場合でも、実施の形態２と同様に、動きベクトルに応じて、適切に実質フレームレートを制御できる。

＜実施の形態２の変形例２＞
　実施の形態２の変形例として、動きベクトル及び残差の変動量に応じてフレームのスキップを制御してもよい。端末１００の構成は、実施の形態２と同様である。図２６は、実施の形態２の変形例２に係るフレームレート決定部の構成例を示している。本変形例では、フレームレート決定部１３０は、動きベクトル及び残差に基づいて、入力映像のフレームのスキップを判定することで、実質フレームレートを制御する。

　図２６に示すように、フレームレート決定部１３０は、動きベクトル及び残差取得部１３１、変動量算出部１３２、フレームスキップ判定部１３３を備えている。動きベクトル及び残差取得部１３１は、エンコーダ１５０ｂの動きベクトル検出部１５２が検出した動きベクトルと、エンコーダ１５０ｂの残差算出部１５３が算出した残差を取得する。動きベクトル及び残差取得部１３１は、符号化ブロックごとに動きベクトル及び残差を取得する。

　変動量算出部１３２は、取得した動きベクトル及び残差の総合変動量を算出する。例えば、フレーム間の動きベクトル（ＭＶ）及び残差（ｒｅｓｉｄｕａｌ）のスカラー変動量である総合変動量を表す関数ｄ＝ｆ（ＭＶ，ｒｅｓｉｄｕａｌ，．．．）を事前に定義しておき、関数ｄにより総合変動量を算出する。変動量算出部１３２は、符号化ブロックごとに総合変動量を算出する。

　フレームスキップ判定部１３３は、算出した総合変動量に基づいて、入力映像のフレームのスキップの要否を判定する。例えば、総合変動量が閾値より小さい場合、フレームスキップ要と判定し、総合変動量が閾値より大きい場合、フレームスキップ不要と判定する。例えば、フレームレート制御部１４０からエンコーダ１５０ａに最後に入力したフレームからの累積値Σｄが閾値を超えた場合にフレームスキップ不要と判定してもよい。フレームスキップ判定部１３３は、符号化ブロックごとにフレームスキップ要否を判定する。

　フレームレート制御部１４０は、フレームスキップ判定部１３３の判定結果に基づいて、入力映像のフレームのスキップを制御する。フレームレート制御部１４０は、入力映像のフレームのうち、フレームスキップ要と判定されたフレームをスキップ、すなわち、入力映像からフレームを間引いてもよく、１つ前のフレームの内容を複製してもよい。フレームレート制御部１４０は、フレームスキップ要と判定されたフレームをエンコーダ１５０ａへ入力せず、フレームスキップ不要と判定されたフレームをエンコーダ１５０ａへ入力する。符号化ブロックごとにフレームのスキップ要否を判定した場合、フレームスキップ不要と判定された符号化ブロックについて、内容を変更せず、フレームスキップ要と判定された符号化ブロックについて、前のフレームから内容をコピーしたフレームをエンコーダ１５０ａに入力する。

　このように、動きベクトル及び残差の変動量に応じてフレームや各領域の内容のスキップを制御することで、物体の動きに応じてフレームをスキップできるため、さらにエンコードデータのデータ量を低減することができる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

　上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、図２７に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ３１及び記憶装置であるメモリ３２を有するコンピュータ３０により実現してもよい。例えば、メモリ３２に実施形態における方法（映像処理方法）を行うためのプログラムを格納し、各機能を、メモリ３２に格納されたプログラムをプロセッサ３１で実行することにより実現してもよい。

　これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　センサによって撮像された第１映像に含まれる物体の動作を認識する動作認識手段と、
　前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する制御手段と、
　を備える、映像処理システム。
（付記２）
　前記制御手段は、前記第２映像に含まれる第１フレームの所定の領域に、前記第１フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第２映像のフレームの表示内容の変化を制御する、
　付記１に記載の映像処理システム。
（付記３）
　前記動作の認識結果は、前記物体の動作の種別を含む、
　付記１または２に記載の映像処理システム。
（付記４）
　前記動作の認識結果は、前記物体の位置情報を含み、
　前記制御手段は、前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
　付記１から３のいずれか一項に記載の映像処理システム。
（付記５）
　前記第２映像から前記第２映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出する動きベクトル検出手段を備え、
　前記制御手段は、前記検出された動きベクトルに応じて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　付記１から４のいずれか一項に記載の映像処理システム。
（付記６）
　前記表示内容の変化が制御された第２映像をエンコードする第１のエンコーダと、
　前記動きベクトル検出手段を含む第２のエンコーダと、を備える、
　付記５に記載の映像処理システム。
（付記７）
　前記第２のエンコーダは、前記動きベクトルを適用して第２フレームの次に入力されるフレームの動きを予測した予測フレームと前記第２フレームの次に入力されたフレームとの差分を算出し、
　前記制御手段は、前記動きベクトル及び前記差分に基づいて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　付記６に記載の映像処理システム。
（付記８）
　センサによって撮像された第１映像に含まれる物体の動作を認識する動作認識手段と、
　前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する制御手段と、
　を備える、映像処理装置。
（付記９）
　前記制御手段は、前記第２映像に含まれる第１フレームの所定の領域に、前記第１フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第２映像のフレームの表示内容の変化を制御する、
　付記８に記載の映像処理装置。
（付記１０）
　前記動作の認識結果は、前記物体の動作の種別を含む、
　付記８または９に記載の映像処理装置。
（付記１１）
　前記動作の認識結果は、前記物体の位置情報を含み、
　前記制御手段は、前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の実質フレームレートを制御する、
　付記８から１０のいずれか一項に記載の映像処理装置。
（付記１２）
　前記第２映像から前記第２映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出する動きベクトル検出手段を備え、
　前記制御手段は、前記検出された動きベクトルに応じて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　付記８から１１のいずれか一項に記載の映像処理装置。
（付記１３）
　前記表示内容の変化が制御された第２映像をエンコードする第１のエンコーダと、
　前記動きベクトル検出手段を含む第２のエンコーダと、を備える、
　付記１２に記載の映像処理装置。
（付記１４）
　前記第２のエンコーダは、前記動きベクトルを適用して第２フレームの次に入力されるフレームの動きを予測した予測フレームと前記第２フレームの次に入力されたフレームとの差分を算出し、
　前記制御手段は、前記動きベクトル及び前記差分に基づいて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　付記１３に記載の映像処理装置。
（付記１５）
　センサによって撮像された第１映像に含まれる物体の動作を認識し、
　前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する、
　映像処理方法。
（付記１６）
　前記第２映像に含まれる第１フレームの所定の領域に、前記第１フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第２映像のフレームの表示内容の変化を制御する、
　付記１５に記載の映像処理方法。
（付記１７）
　前記動作の認識結果は、前記物体の動作の種別を含む、
　付記１５または１６に記載の映像処理方法。
（付記１８）
　前記動作の認識結果は、前記物体の位置情報を含み、
　前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
　付記１５から１７のいずれか一項に記載の映像処理方法。
（付記１９）
　前記第２映像から前記第２映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出し、
　前記検出された動きベクトルに応じて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　付記１５から１８のいずれか一項に記載の映像処理方法。
（付記２０）
　前記動きベクトルを適用して第２フレームの次に入力されるフレームの動きを予測した予測フレームと前記第２フレームの次に入力されたフレームとの差分を算出し、
　前記動きベクトル及び前記差分に基づいて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　付記１９に記載の映像処理方法。
（付記２１）
　センサによって撮像された第１映像に含まれる物体の動作を認識し、
　前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する、
　処理をコンピュータに実行させるための映像処理プログラム。

１　　　遠隔監視システム
１０　　映像処理システム
１１　　動作認識部
１２　　制御部
２０～２２　映像処理装置
３０　　コンピュータ
３１　　プロセッサ
３２　　メモリ
１００　端末
１０１　カメラ
１０２　圧縮効率最適化機能
１１０　映像取得部
１１１　物体検出部
１２０　認識結果取得部
１２１　トラッキング情報取得部
１２２　フレームレート取得部
１３０　フレームレート決定部
１３１　動きベクトル及び残差取得部
１３２　変動量算出部
１３３　フレームスキップ判定部
１４０　フレームレート制御部
１５０、１５０ａ、１５０ｂ　エンコーダ
１５１　分割部
１５２　動きベクトル検出部
１５３　残差算出部
１５４　符号化部
１６０　端末通信部
１７０　記憶部
１７１　フレームレート探索部
２００　センターサーバ
２０１　映像認識機能
２０２　アラート生成機能
２０３　ＧＵＩ描画機能
２０４　画面表示機能
２１０　センター通信部
２２０　デコーダ
２３０　動作認識部
２３１　物体検出部
２３２　追跡部
２３３　動作予測器
２３４　動作判定部
２４０　認識結果通知部
２４１　トラッキング情報通知部
２４２　フレームレート通知部
３００　基地局
４００　ＭＥＣ
４０１　圧縮ビットレート制御機能

Claims

　センサによって撮像された第１映像に含まれる物体の動作を認識する動作認識手段と、
　前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する制御手段と、
　を備える、映像処理システム。
　前記制御手段は、前記第２映像に含まれる第１フレームの所定の領域に、前記第１フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第２映像のフレームの表示内容の変化を制御する、
　請求項１に記載の映像処理システム。
　前記動作の認識結果は、前記物体の動作の種別を含む、
　請求項１または２に記載の映像処理システム。
　前記動作の認識結果は、前記物体の位置情報を含み、
　前記制御手段は、前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
　請求項１から３のいずれか一項に記載の映像処理システム。
　前記第２映像から前記第２映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出する動きベクトル検出手段を備え、
　前記制御手段は、前記検出された動きベクトルに応じて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　請求項１から４のいずれか一項に記載の映像処理システム。
　前記表示内容の変化が制御された第２映像をエンコードする第１のエンコーダと、
　前記動きベクトル検出手段を含む第２のエンコーダと、を備える、
　請求項５に記載の映像処理システム。
　前記第２のエンコーダは、前記動きベクトルを適用して第２フレームの次に入力されるフレームの動きを予測した予測フレームと前記第２フレームの次に入力されたフレームとの差分を算出し、
　前記制御手段は、前記動きベクトル及び前記差分に基づいて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　請求項６に記載の映像処理システム。
　センサによって撮像された第１映像に含まれる物体の動作を認識する動作認識手段と、
　前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する制御手段と、
　を備える、映像処理装置。
　前記制御手段は、前記第２映像に含まれる第１フレームの所定の領域に、前記第１フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第２映像のフレームの表示内容の変化を制御する、
　請求項８に記載の映像処理装置。
　前記動作の認識結果は、前記物体の動作の種別を含む、
　請求項８または９に記載の映像処理装置。
　前記動作の認識結果は、前記物体の位置情報を含み、
　前記制御手段は、前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
　請求項８から１０のいずれか一項に記載の映像処理装置。
　前記第２映像から前記第２映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出する動きベクトル検出手段を備え、
　前記制御手段は、前記検出された動きベクトルに応じて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　請求項８から１１のいずれか一項に記載の映像処理装置。
　前記表示内容の変化が制御された第２映像をエンコードする第１のエンコーダと、
　前記動きベクトル検出手段を含む第２のエンコーダと、を備える、
　請求項１２に記載の映像処理装置。
　前記第２のエンコーダは、前記動きベクトルを適用して第２フレームの次に入力されるフレームの動きを予測した予測フレームと前記第２フレームの次に入力されたフレームとの差分を算出し、
　前記制御手段は、前記動きベクトル及び前記差分に基づいて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　請求項１３に記載の映像処理装置。
　センサによって撮像された第１映像に含まれる物体の動作を認識し、
　前記動作の認識結果に応じて、前記センサによって撮像された第２映像のフレームごとの表示内容の変化を、前記第２映像内の領域ごとに制御する、
　映像処理方法。
　前記第２映像に含まれる第１フレームの所定の領域に、前記第１フレームよりも前のフレームの前記所定の領域の内容を複製することで、前記第２映像のフレームの表示内容の変化を制御する、
　請求項１５に記載の映像処理方法。
　前記動作の認識結果は、前記物体の動作の種別を含む、
　請求項１５または１６に記載の映像処理方法。
　前記物体の認識結果は、前記物体の位置情報を含み、
　前記物体の位置情報に対応する領域を含む領域、または、前記物体の位置情報に対応する領域を含む領域以外の領域の表示内容の変化を制御する、
　請求項１５から１７のいずれか一項に記載の映像処理方法。
　前記第２映像から前記第２映像のフレームの前記領域各々に関する移動の大きさを示す動きベクトルを検出し、
　前記検出された動きベクトルに応じて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　請求項１５から１８のいずれか一項に記載の映像処理方法。
　前記動きベクトルを適用して第２フレームの次に入力されるフレームの動きを予測した予測フレームと前記第２フレームの次に入力されたフレームとの差分を算出し、
　前記動きベクトル及び前記差分に基づいて、前記第２映像内の領域ごとに表示内容の変化を制御する、
　請求項１９に記載の映像処理方法。