WO2024013936A1

WO2024013936A1 - 映像処理システム、映像処理装置及び映像処理方法

Info

Publication number: WO2024013936A1
Application number: PCT/JP2022/027713
Authority: WO
Inventors: 浩一二瓶; 孝法岩井; フロリアンバイエ; 勝彦高橋; 康敬馬場崎; 隆平安藤; 君朴
Original assignee: 日本電気株式会社
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2024-01-18

Abstract

映像処理システム（１０）は、第１の映像認識環境に対応する映像を分析する認識モデル（Ｍ１）と、第２の映像認識環境に対応する映像を分析する認識モデル（Ｍ２）と、入力される映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、映像入力データを分析する認識モデルを認識モデル（Ｍ１）から認識モデル（Ｍ２）に切り替える切替部（１１）と、を備え、切替部（１１）は、映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、認識モデル（Ｍ２）に入力する。

Description

映像処理システム、映像処理装置及び映像処理方法

　本開示は、映像処理システム、映像処理装置及び映像処理方法に関する。

　ネットワークを介して取得した映像に基づいて、映像内の事象を認識する技術が開発されている。例えば、映像を分析し映像内の事象を認識する映像認識には機械学習を用いた認識モデルが利用されている。認識モデルは、分析モデルや認識エンジンとも呼称される。

　関連する技術として、例えば、特許文献１や２が知られている。特許文献１には、第１の認識エンジン及び第２の認識エンジンが、入力された映像に基づいて、それぞれコンテキストを認識する技術が記載されている。また、特許文献１には、異なる種類の複数の認識エンジンを所定時間毎に、自動的に選択してよいことも記載されている。

　また、特許文献２には、入力データと認識エンジンの識別子とを対応付けて学習された学習モデルを用いて、入力データに対する認識エンジンを選択する技術が記載されている。

特開２０１９－０９６２５２号公報特開２０１９－１３９４７９号公報

　上記のように、特許文献１や２のような関連する技術では、認識モデルを選択し、選択した認識モデルにより映像を分析する。しかしながら、関連する技術では、取得する映像の環境によっては、好適に映像内の事象を認識することができない可能性がある。

　本開示は、このような課題に鑑み、好適に映像内の事象を認識することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することを目的とする。

　本開示に係る映像処理システムは、第１の映像認識環境に対応する映像を分析する第１の映像分析モデルと、第２の映像認識環境に対応する映像を分析する第２の映像分析モデルと、入力される映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第１の映像分析モデルから前記第２の映像分析モデルに切り替える切替手段と、を備え、前記切替手段は、前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力するものである。

　本開示に係る映像処理装置は、第１の映像認識環境に対応する映像を分析する第１の映像分析モデルと、第２の映像認識環境に対応する映像を分析する第２の映像分析モデルと、入力される映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第１の映像分析モデルから前記第２の映像分析モデルに切り替える切替手段と、を備え、前記切替手段は、前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力するものである。

　本開示に係る映像処理方法は、入力される映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを、前記第１の映像認識環境に対応する映像を分析する第１の映像分析モデルから、前記第２の映像認識環境に対応する映像を分析する第２の映像分析モデルに切り替え、前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力するものである。

　本開示によれば、好適に映像内の事象を認識することが可能な映像処理システム、映像処理装置及び映像処理方法を提供することができる。

実施の形態に係る映像処理システムの概要を示す構成図である。実施の形態に係る映像処理装置の概要を示す構成図である。実施の形態に係る映像処理装置の概要を示す構成図である。実施の形態に係る映像処理方法の概要を示すフローチャートである。関連する映像処理方法を説明するための図である。実施の形態に係る映像処理方法を説明するための図である。実施の形態に係る遠隔監視システムの基本構成を示す構成図である。実施の形態１に係る遠隔監視システムの構成例を示す構成図である。実施の形態１に係るビットレート－認識モデルテーブルの具体例を示す図である。実施の形態１に係る認識モデル－フレーム数テーブルの具体例を示す図である。実施の形態１に係る遠隔監視システムの動作例を示すフローチャートである。実施の形態２に係る遠隔監視システムの構成例を示す構成図である。実施の形態３に係る遠隔監視システムの構成例を示す構成図である。実施の形態３に係るフレームレート－認識モデルテーブルの具体例を示す図である。実施の形態４に係る遠隔監視システムの構成例を示す構成図である。実施の形態４に係る遠隔監視システムの動作例を説明するための図である。実施の形態５に係るパケットロス－認識モデルテーブルの具体例を示す図である。実施の形態６に係る遠隔監視システムの構成例を示す構成図である。実施の形態６に係るシーン－認識モデルテーブルの具体例を示す図である。実施の形態７に係る遠隔監視システムの構成例を示す構成図である。実施の形態７に係る物体サイズ－認識モデルテーブルの具体例を示す図である。実施の形態８に係る遠隔監視システムの構成例を示す構成図である。実施の形態８に係る動作速度－認識モデルテーブルの具体例を示す図である。実施の形態９に係る遠隔監視システムの構成例を示す構成図である。実施の形態９に係る撮影状態－認識モデルテーブルの具体例を示す図である。実施の形態１０に係る遠隔監視システムの構成例を示す構成図である。実施の形態１０に係る演算量－認識モデルテーブルの具体例を示す図である。実施の形態１１に係る遠隔監視システムの構成例を示す構成図である。実施の形態１１に係る伝送帯域－認識モデルテーブルの具体例を示す図である。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

　以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

（実施の形態の概要）
　まず、実施の形態の概要について説明する。図１は、実施の形態に係る映像処理システム１０の概要構成を示している。映像処理システム１０は、例えば、ネットワークを介して映像を収集し、映像を分析する遠隔監視システムに適用可能である。

　図１に示すように、映像処理システム１０は、認識モデルＭ１及びＭ２、切替部１１を備える。認識モデルＭ１は、第１の映像認識環境に対応する映像を分析する第１の映像分析モデルである。認識モデルＭ２は、第２の映像認識環境に対応する映像を分析する第２の映像分析モデルである。認識モデルＭ１及びＭ２は、入力される映像に応じて、例えば、人の顔や車両、器具等を認識する。また、例えば、認識モデルＭ１及びＭ２は、人の行動や車両の走行状況、物体の状態等を認識してもよい。なお、認識モデルＭ１及びＭ２が認識する認識対象は、これらの例に限られない。映像処理システム１０は、２つの認識モデルに限らず、３つ以上の複数の認識モデルを備えてもよい。
　例えば、第１の映像認識環境に対応する映像学習データを学習することで認識モデルＭ１を生成し、第２の映像認識環境に対応する映像学習データを学習することで認識モデルＭ２を生成してもよい。また、作成済みの認識モデルを取得し評価してもよい。例えば、作成済みの複数の認識モデルについて第１の映像認識環境に対応する映像で認識精度を評価し、最も精度が高かった認識モデルを第１の映像認識環境で使用する認識モデルＭ１と決定し、同様に、作成済みの複数の認識モデルについて第２の映像認識環境に対応する映像で認識精度を評価し、最も精度が高かった認識モデルを第２の映像認識環境で使用する認識モデルＭ２と決定してもよい。

　映像認識環境は、認識モデルが分析及び認識する映像の環境であり、映像の品質を示してもよく、映像内に映る物体を含む環境を示してもよい。なお、分析及び認識するとは、分析又は認識のいずれか一方を実行していればよい。また、映像認識環境は、例えば、映像の品質を示すビットレートやフレームレートなどの映像パラメータ、ネットワークを介して受信する映像の通信品質、映像を撮影したシーン、映像に含まれる物体の大きさ、映像に含まれる物体の動作速度、映像を撮影した撮影状態等を含んでもよい。シーンは、例えば、建設現場の工程の進み具合、作業員の作業内容や作業場所などである。

　切替部１１は、入力される映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて、映像入力データを分析する認識モデル、すなわち映像分析モデルを切り替える。映像入力データは、認識モデルＭ１又はＭ２が分析及び認識処理を行う映像データであり、例えば、人の顔や車両、器具等の認識対象が含まれる。映像入力データが認識モデルＭ１及びＭ２へ入力された場合、認識モデルＭ１及びＭ２が分析及び認識処理を行ってもよい。切替部１１は、映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、切替先の認識モデルＭ２に入力する。すなわち、切替部１１は、切替タイミングよりも所定期間前から切替タイミングまでのデータを認識モデルＭ２に入力し、さらに、切替タイミング以降のデータを認識モデルＭ２に入力する。なお、認識モデルＭ２から認識モデルＭ１に切り替える場合も同様である。

　切替部１１は、切替先の認識モデルＭ２が映像認識を行うために使用するフレーム数のデータを含む映像入力データを、切替タイミングよりも所定期間前のデータを含む映像入力データとして、切替先の認識モデルＭ２に入力してもよい。また、切替部１１は、切替タイミングよりも所定期間前のデータを含む映像入力データを切替元の認識モデルＭ１及び切替先の認識モデルＭ２の両方に入力してもよい。すなわち、切替部１１は、切替タイミングよりも所定期間前から切替タイミングまでのデータを認識モデルＭ１及びＭ２に入力してもよい。

　なお、映像処理システム１０は、１つの装置により構成してもよいし、複数の装置により構成してもよい。図２は、実施の形態に係る映像処理装置２０の構成を例示している。図２に示すように、映像処理装置２０は、図１に示した、認識モデルＭ１及びＭ２、切替部１１を備えてもよい。また、映像処理システム１０の一部または全部をエッジまたはクラウドに配置してもよい。例えば、クラウドのサーバに認識モデルＭ１及びＭ２、切替部１１を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。図３は、映像処理システム１０の機能を複数の映像処理装置に配置した構成を例示している。図３の例では、映像処理装置２１が切替部１１を備え、映像処理装置２２が認識モデルＭ１及びＭ２を備えている。なお、図３の構成は一例であり、この構成に限られない。

　また、認識モデルＭ１及びＭ２は、同じ地点に配置されてもよいし、異なる地点に配置されてもよい。例えば、認識モデルＭ１を、エッジ及びクラウドの一方に配置し、認識モデルＭ２を、エッジ及びクラウドの他方に配置してもよい。

　図４は、実施の形態に係る映像処理方法を示している。例えば、実施の形態に係る映像処理方法は、図１の映像処理システム１０や図２または図３の映像処理装置２０～２２により実行される。図４に示すように、入力される映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて（Ｓ１１）、映像入力データを分析する認識モデル、すなわち映像分析モデルを、第１の映像認識環境に対応する映像を分析する認識モデルＭ１から、第２の映像認識環境に対応する映像を分析する認識モデルＭ２に切り替える（Ｓ１２）。また、映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて（Ｓ１１）、切替タイミングよりも所定期間前のデータを含む映像入力データを、認識モデルＭ２に入力する（Ｓ１３）。

　ここで、実施の形態適用前の関連する技術における課題について説明する。具体的には、特許文献１や２のような関連する技術を用いて、端末からサーバに映像を送信し、サーバが認識モデルを切り替える映像処理方法について検討する。

　図５は、関連する映像処理方法において、図１の認識モデルＭ１及びＭ２のいずれかを選択し切り替える際の動作を例示している。例えば、認識モデルＭ１及びＭ２は、異なるビットレート、あるいは圧縮率の映像を学習し分析するモデルである。この例では、撮影し分析する映像は時系列に並ぶフレームＦ１～Ｆ８・・・を含み、フレームＦ８のタイミングで認識モデルＭ１から認識モデルＭ２に切り替える。なお、ここでは、一例として、圧縮及び復元した映像を認識モデルに入力するが、各認識モデルに分析及び認識可能な映像を入力できれば、この構成に限られない。例えば、図５の映像処理方法を実行する映像処理システムは、図１の構成に加えて、更に、映像を撮影する撮影部と、映像を圧縮する圧縮部と、圧縮された映像を復元する復元部を備えていてもよい。例えば、図５の映像処理方法を実行する映像処理システムにおいて、圧縮部と復元部を含まなくともよい。

　図５に示すように、関連する映像処理方法では、撮影部は、映像を撮影し（Ｓ９０１）、圧縮部は撮影した映像を圧縮（Ｓ９０２）する。次に、圧縮部から復元部に圧縮映像を送信し、復元部は、受信した圧縮映像を元の映像に復元する（Ｓ９０３）。次に、切替部は、認識モデルＭ１を選択し、フレームＦ１からＦ７を切替前の認識モデルＭ１に入力する（Ｓ９０４）。切替前の認識モデルＭ１は、入力されたフレームＦ１～Ｆ７を用いて映像認識を行う。

　次に、切替タイミングで、切替部は、認識モデルをＭ１からＭ２に切り替え、フレームＦ８以降のフレームを切替後の認識モデルＭ２に入力する（Ｓ９０５）。切替後の認識モデルＭ２は、入力されたフレームＦ８以降のフレームを用いて映像認識を行う。

　発明者らは、関連する映像処理方法において、図５のように認識モデルを切り替えた際の認識精度について検討した結果、次のような課題を見出した。具体的には、複数のモデルを切り替えて分析する映像処理方法において、認識モデルが過去のフレームの分析情報を使用する場合、認識モデルを切り替えても十分な分析精度を得ることができない場合がある。すなわち、映像を用いて事象を認識する映像認識モデルにおいて、関連する映像処理方法のように映像を入力する認識モデルを変更すると、変更先の認識モデルの変更時の認識精度が低下する可能性がある。

　認識モデルは、機械学習を用いた映像認識エンジンであり、例えば、学習時に、時系列の映像データをもとに、認識対象の人物の動作等を学習した学習モデルである。認識モデルは、映像データの各フレームの時間的変化の特徴を抽出し、人物の動作等を学習する。このため、認識時においても、認識モデルに時系列の映像データを入力することが前提となっており、映像データの各フレームの時間的変化の特徴を抽出可能な程度のフレーム数の映像を、認識時においても、認識モデルに入力する必要がある。

　しかしながら、図５の例では、認識モデルＭ１から認識モデルＭ２に切り替えた際に、切り替え後の認識モデルＭ２に切り替え後のフレームＦ８から入力するため、認識モデルＭ２には、フレームＦ８以降の映像データしか入力されない。そうすると、認識モデルＭ２には、フレームＦ８より前の過去のデータが入力されないため、切り替え直後、すなわち、切り替えた瞬間、認識モデルＭ２は、時系列のデータを分析することができない。このため、切り替え直後において、切替先の認識モデルＭ２の認識精度、すなわち分析精度が低下、もしくは、認識結果を得ることができない可能性がある。認識モデルＭ２は過去のデータを用いて正しく分析することができず、映像内の認識対象を誤認識する恐れがあり、認識結果を出力できない場合もあり得る。

　このような課題が生じる具体例として、認識モデルに人物が車両のドアを開けた瞬間の映像のみを入力しても、人物が車両に乗ろうとしているのか、人物が車両を降りようとしているのか認識できない例や、認識モデルに人物が歩いている瞬間の映像のみを入力しても、人物が前に向かって歩いているのか、後ずさりしているのか認識できない例や、認識モデルに人物や機械が物を持っている瞬間の映像のみを入力しても、人物や機械が物を持ち上げようとしているのか、物を下ろそうとしているのか認識できない例が挙げられる。

　そこで、実施の形態では、図１～図４に示したように、認識モデルを切り替える際に、切り替え前のデータを切替先の認識モデルに入力する。図６は、実施の形態に係る映像処理方法において、図５と同じタイミングで認識モデルを切り替える際の動作を例示している。この例でも、図５と同様に、例えば、認識モデルＭ１及びＭ２は、異なるビットレート、あるいは圧縮率の映像を学習し分析するモデルである。一例として、圧縮及び復元した映像を認識モデルに入力するが、各認識モデルに分析及び認識可能な映像を入力できれば、この構成に限られない。例えば、図６の映像処理方法を実行する映像処理システムは、図１の構成に加えて、更に、映像を撮影する撮影部と、映像を圧縮する圧縮部と、圧縮された映像を復元する復元部を備えていてもよい。例えば、図６の映像処理方法を実行する映像処理システムにおいて、圧縮部と復元部を含まなくともよい。

　図６に示すように、実施の形態に係る映像処理方法では、図５と同様に、撮影部が、映像を撮影し（Ｓ１０１）、圧縮部が撮影した映像を圧縮（Ｓ１０２）し、復号部が、圧縮映像を元の映像に復元する（Ｓ１０３）。次に、切替部は、認識モデルＭ１を選択し、フレームＦ１からＦ７を切替前の認識モデルＭ１に入力する（Ｓ１０４）。切替前の認識モデルＭ１は、入力されたフレームＦ１～Ｆ７を用いて映像認識を行う。

　次に、実施の形態では、切替部は、切替タイミングよりも前のフレームＦ５～Ｆ７を切替前の認識モデルＭ１と切替後の認識モデルＭ２に入力する（Ｓ１０５）。次に、切替タイミングで、切替部は、認識モデルをＭ１からＭ２に切り替え、フレームＦ８以降のフレームを切替後の認識モデルＭ２に入力する（Ｓ１０６）。これにより、切替後の認識モデルＭ２は、切替タイミングより前から入力されるフレームＦ５以降のフレームを用いて映像認識を行う。

　このように、実施の形態では、モデル切り替えの少し前のフレームを、切替前後の両方の認識モデルに入力する。これにより、切替後の認識モデルは、切替直後から、過去のデータを用いて映像認識を行うことができるため、認識精度の低下、もしくは、分析の中断を防ぐことができる。また、切替先の認識モデルには、映像データの各フレームの時間的変化の特徴を抽出可能な程度のフレーム数を入力すれば良い。このため、両方の認識モデルに入力するデータは、数フレームで良いため、関連する技術と比べて、２つの認識モデルが処理する処理量をほぼ同等に維持したままで、認識精度の低下を抑えることができる。すなわち、両方の認識モデルにデータを入力し続けると処理量が増大するが、切替タイミングの前の所定数のフレームのみを両方の認識モデルに入力することで処理量の増大を抑えることができる。

（遠隔監視システムの基本構成）
　次に、実施の形態を適用するシステムの一例である遠隔監視システムについて説明する。図７は、遠隔監視システム１の基本構成を例示している。遠隔監視システム１は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像は、時系列の複数の画像（フレームとも称する）を含むため、映像と画像とは互いに言い換え可能である。すなわち、遠隔監視システムは、映像を処理する映像処理システムであり、また、画像を処理する画像処理システムであるとも言える。

　図７に示すように、遠隔監視システム１は、複数の端末１００、センターサーバ２００、基地局３００、ＭＥＣ４００を備えている。端末１００、基地局３００及びＭＥＣ４００は、現場側に配置され、センターサーバ２００は、センター側に配置されている。例えば、センターサーバ２００は、現場から離れた位置に配置されているデータセンタ等に配置されている。現場側はシステムのエッジ側とも呼称し、センター側はクラウド側とも呼称する。

　端末１００と基地局３００との間は、ネットワークＮＷ１により通信可能に接続される。ネットワークＮＷ１は、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ（Long Term Evolution）、無線ＬＡＮなどの無線ネットワークである。なお、ネットワークＮＷ１は、無線ネットワークに限らず、有線ネットワークでもよい。基地局３００とセンターサーバ２００との間は、ネットワークＮＷ２により通信可能に接続される。ネットワークＮＷ２は、例えば、５ＧＣ（5th Generation Core network）やＥＰＣ（Evolved Packet Core）などのコアネットワーク、インターネットなどを含む。なお、ネットワークＮＷ２は、有線ネットワークに限らず、無線ネットワークでもよい。端末１００とセンターサーバ２００との間は、基地局３００を介して、通信可能に接続されているとも言える。基地局３００とＭＥＣ４００の間は任意の通信方法により通信可能に接続されるが、基地局３００とＭＥＣ４００は、１つの装置でもよい。

　端末１００は、ネットワークＮＷ１に接続される端末装置であり、現場の映像を取得する映像取得装置でもある。端末１００は、現場に設置されたカメラ１０１が撮影した映像を取得し、取得した映像を、基地局３００を介して、センターサーバ２００へ送信する。なお、カメラ１０１は、端末１００の外部に配置されてもよいし、端末１００の内部に配置されてもよい。

　端末１００は、カメラ１０１の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末１００は、圧縮効率を最適化する圧縮効率最適化機能１０２を有する。圧縮効率最適化機能１０２は、ＲｏＩ（Region of Interest；注視領域とも称する）の画質を制御するＲｏＩ制御を行う。圧縮効率最適化機能１０２は、人物や物体を含むＲＯＩの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。

　基地局３００は、ネットワークＮＷ１の基地局装置であり、端末１００とセンターサーバ２００の間の通信を中継する中継装置でもある。例えば、基地局３００は、ローカル５Ｇの基地局、５ＧのｇＮＢ（next Generation Node B）、ＬＴＥのｅＮＢ（evolved Node B）、無線ＬＡＮのアクセスポイント等であるが、その他の中継装置でもよい。

　ＭＥＣ（Multi-access Edge Computing）４００は、システムのエッジ側に配置されたエッジ処理装置である。ＭＥＣ４００は、端末１００を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能４０１を有する。圧縮ビットレート制御機能４０１は、適応映像配信制御やＱｏＥ（quality of experience）制御により端末１００のビットレートを制御する。適応映像配信制御は、ネットワークの状況に応じて配信する映像のビットレート等を制御する。例えば、圧縮ビットレート制御機能４０１は、ネットワークＮＷ１及びＮＷ２の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末１００のカメラ１０１にビットレートを割り当てる。

　センターサーバ２００は、システムのセンター側に設置されたサーバである。センターサーバ２００は、１つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ２００は、現場のカメラ映像を分析することで、現場の作業を監視する監視装置である。センターサーバ２００は、端末１００から送信された映像を分析する映像分析装置でもある。

　センターサーバ２００は、映像認識機能２０１、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を有する。映像認識機能２０１は、端末１００から送信された映像を映像認識ＡＩ（Artificial Intelligence）エンジンに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。映像認識機能２０１は、異なる映像認識環境に対応する映像を分析する複数の認識モデル、すなわち映像分析モデルを含んでもよい。さらに、センターサーバ２００は、映像認識環境の変化に応じて認識モデルを切り替える切換部を備えていてもよい。アラート生成機能２０２は、認識された作業に応じてアラートを生成する。ＧＵＩ描画機能２０３は、表示装置の画面にＧＵＩ（Graphical User Interface）を表示する。画面表示機能２０４は、ＧＵＩに端末１００の映像や認識結果、アラート等を表示する。なお、必要に応じて、いずれかの機能を省略してもよいし、いずれかの機能を備えていてもよい。例えば、センターサーバ２００は、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を備えていなくてもよい。

（実施の形態１）
　次に、実施の形態１について説明する。本実施の形態では、映像認識環境の変化として、映像のビットレートの変化に応じて認識モデルを切り替える例について説明する。

　まず、本実施の形態に係る遠隔監視システムの構成について説明する。本実施の形態に係る遠隔監視システム１の基本構成は、図７に示した通りである。図８は、本実施の形態に係る遠隔監視システム１の構成例を示している。なお、各装置の構成は一例であり、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末１００の一部の機能をセンターサーバ２００や他の装置に配置してもよいし、センターサーバ２００の一部の機能を端末１００や他の装置に配置してもよい。また、圧縮ビットレート制御機能を含むＭＥＣ４００の機能をセンターサーバ２００等に配置してもよい。

　図８に示すように、本実施の形態に係る端末１００は、映像取得部１１０、エンコーダ１２０、端末通信部１３０を備えている。

　映像取得部１１０は、カメラ１０１が撮影した映像を取得する。カメラが撮影した映像は、以下入力映像とも称する。例えば、入力映像には現場で作業を行う作業員である人物等が含まれる。映像取得部１１０は、時系列の複数の画像、すなわちフレームを取得する画像取得部でもある。

　エンコーダ１２０は、取得した入力映像をエンコードする。エンコーダ１２０は、入力映像を符号化する符号化部である。エンコーダ１２０は、所定の符号化方式により入力映像を圧縮する圧縮部でもある。エンコーダ１２０は、例えば、Ｈ．２６４やＨ．２６５などの映像符号化方式によりエンコードする。エンコーダ１２０は、人物を含むＲＯＩを検出し、検出したＲＯＩが他の領域よりも高画質となるように、入力映像をエンコードしてもよい。
　映像取得部１１０とエンコーダ１２０の間にＲＯＩ特定部を備えてもよい。ＲＯＩ特定部は、取得された映像内の物体を検出し、ＲＯＩ等の領域を特定する。エンコーダ１２０は、ＲＯＩ特定部によって特定されたＲＯＩを他の領域よりも高画質となるように入力映像をエンコードしてもよい。また、ＲＯＩ特定部によって指定された領域を他の領域よりも低画質になるように入力画像をエンコードしてもよい。ＲＯＩ特定部またはエンコーダ１２０は、ＲＯＩを検出又は特定する際、映像に映る可能性のある物体とその優先度とが対応する情報を保持し、当該優先度の対応情報に応じてＲＯＩ等の領域を特定してもよい。

　エンコーダ１２０は、所定のビットレートにより入力映像をエンコードする。エンコーダ１２０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートやフレームレート等となるように入力映像をエンコードしてもよい。また、エンコーダ１２０は、端末１００とセンターサーバ２００間の通信品質に基づいて、ビットレートやフレームレート等を決定してもよい。通信品質は、例えば、通信速度であるが、伝送遅延や誤り率などその他の指標でもよい。端末１００は、通信品質を測定する通信品質測定部を備えていてもよい。例えば、通信品質測定部は、通信速度に応じて端末１００からセンターサーバ２００へ送信する映像のビットレートを決定する。基地局３００またはセンターサーバ２００が受信するデータ量に基づいて通信速度を測定し、通信品質測定部は、基地局３００またはセンターサーバ２００から測定された通信速度を取得してもよい。また、通信品質測定部は、端末通信部１３０から送信する単位時間当たりのデータ量に基づいて通信速度を推定してもよい。

　端末通信部１３０は、エンコーダ１２０がエンコードしたエンコードデータ（圧縮データ）を、基地局３００を介して、センターサーバ２００へ送信する。端末通信部１３０は、取得した入力映像を、ネットワークを介して送信する送信部である。端末通信部１３０は、基地局３００と通信可能なインタフェースであり、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ、無線ＬＡＮ等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。

　また、図８に示すように、本実施の形態に係るセンターサーバ２００は、認識モデルＭ１１及びＭ１２、センター通信部２１０、デコーダ２２０、予測部２３０、決定部２４０、切替部２５０、記憶部２６０を備えている。

　認識モデルＭ１１及びＭ１２は、入力される映像に対し映像認識処理を実行する。この例では、端末から受信しデコードした受信映像に対し映像認識処理を実行する。映像認識処理は、例えば、映像内の人物の行動を認識する行動認識処理であるが、その他の認識処理でもよい。認識モデルＭ１１及びＭ１２は、受信映像から物体を検出し、検出した物体の行動を認識し、行動認識した結果を出力する。

　認識モデルＭ１１及びＭ１２は、ディープラーニングなどの機械学習を用いた映像認識エンジンである。作業を行う人物の映像の特徴と行動ラベルを機械学習することで、映像内の人物の行動を認識できる。例えば、認識モデルＭ１１及びＭ１２は、時系列の映像データをもとに学習及び予測可能な学習モデルであり、ＣＮＮ（Convolutional Neural Network）やＲＮＮ（Recurrent Neural Network）でもよいし、その他のニューラルネットワークでもよい。

　認識モデルＭ１１と認識モデルＭ１２は、異なる映像認識環境の映像を学習データとして学習したモデルであり、異なる映像認識環境の映像を分析するための学習モデルである。認識モデルＭ１１は、第１の映像認識環境の映像を学習し、認識モデルＭ１２は、第２の映像認識環境の映像を学習している。認識モデルＭ１１及びＭ１２は、それぞれ学習した映像認識環境の映像を精度よく分析することができる。このため、受信映像の映像認識環境が第１の映像認識環境の映像の場合、受信映像を認識モデルＭ１１で分析し、受信映像の映像認識環境が第２の映像認識環境の映像の場合、受信映像を認識モデルＭ１１で分析することで、高精度に映像を分析できる。

　映像認識環境は、例えば、ビットレートやフレームレートなど、映像の品質に関する映像パラメータである。ビットレートやフレームレートに限らず、圧縮率や画像の解像度等でもよい。本実施の形態では、ビットレートの例について説明する。認識モデルＭ１１は、第１のビットレート範囲の映像を学習し、認識モデルＭ１２は、第２のビットレート範囲の映像を学習している。なお、第１のビットレート範囲及び第２のビットレート範囲に限らず、第１のビットレート及び第２のビットレートとしてもよい。例えば、第１のビットレート範囲は、第２のビットレート範囲よりも高いビットレート範囲であり、認識モデルＭ１１は高ビットレート用のモデルであり、認識モデルＭ１２は低ビットレート用のモデルであるが、これに限らない。なお、第１のビットレート範囲と第２のビットレート範囲は、一部が重複していてもよい。

　センター通信部２１０は、端末１００から送信されたエンコードデータを、基地局３００を介して受信する。センター通信部２１０は、端末１００が取得した入力映像を、ネットワークを介して受信する受信部である。センター通信部２１０は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、ＩＰ通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。

　デコーダ２２０は、端末１００から受信したエンコードデータをデコードする。デコーダ２２０は、エンコードデータを復号化する復号化部である。デコーダ２２０は、所定の符号化方式によりエンコードデータ、すなわち圧縮データを復元する復元部でもある。デコーダ２２０は、端末１００の符号化方式に対応し、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりデコードする。デコーダ２２０は、各領域の圧縮率やビットレートに応じてデコードし、デコードした映像を生成する。デコードした映像を、以下受信映像とも称する。

　予測部２３０は、デコードした受信映像における映像認識環境の変化を予測する。予測部２３０は、受信映像から映像認識環境に関する情報を抽出し、抽出した情報をモニタリングすることで映像認識環境の変化を予測する。例えば、予測部２３０は、受信映像から抽出されるビットレートの変化を予測する。

　決定部２４０は、受信映像の映像認識環境に応じて、受信映像を分析する認識モデルを決定し、予測した映像認識環境の変化に応じて、認識モデルの切替タイミングを決定する。例えば、決定部２４０は、受信映像から抽出されるビットレートに応じて、受信映像を分析する認識モデルを決定する。また、決定部２４０は、予測部２３０が予測したビットレートの変化に基づいて、切替先の認識モデル及び切替タイミングを決定する。さらに、決定部２４０は、認識モデルの切替タイミングに基づいて、切り替えの際に切替先の認識モデルに事前に映像データを入力する事前入力タイミングを決定する。事前入力タイミングは、切替タイミングよりも所定期間前に映像データを切替先の認識モデルに対する入力を開始するタイミングである。

　例えば、事前入力タイミングは、認識モデルに事前に入力する事前入力フレーム数に基づいて決定してもよい。事前入力フレーム数は、切替先の認識モデルが映像認識を行うために使用するフレーム数である。事前入力フレーム数は、切り替えの際に２つの認識モデルの両方に入力するフレーム数でもある。事前入力フレーム数は、切替先の認識モデルによって異なるため、予め認識モデルごとに設定されている。例えば、要求される認識精度に応じて事前入力フレーム数を変更してもよい。また、認識モデルごとに、事前入力フレーム数に対応する所定期間を関連付けておいてもよい。

　切替部２５０は、デコードした受信映像を分析する認識モデルＭ１１及びＭ１２を切り替える。切替部２５０は、決定部２４０が決定した認識モデルに基づいて、認識モデルを選択し、選択した認識モデルに受信映像を入力する。切替部２５０は、決定された切替先の認識モデル及び切替タイミングに基づいて、受信映像を入力する認識モデルを切り替える。切替部２５０は、決定した事前入力タイミングに基づいて、切替タイミングよりも前に切替先の認識モデルに映像を入力する。切替部２５０は、事前入力タイミングから切替タイミングまでの間、切替前の認識モデルと切替後の認識モデルの両方に映像を入力する。

　記憶部２６０は、センターサーバ２００の処理に必要なデータを記憶する。記憶部２６０は、映像認識環境と認識モデルを関連付けた映像認識環境－認識モデルテーブルを記憶する。図９は、映像認識環境－認識モデルテーブルの一例として、ビットレート範囲と認識モデルを関連付けたビットレート範囲－認識モデルテーブルの具体例を示している。ビットレート範囲－認識モデルテーブルにより、映像のビットレートに応じて映像を分析する認識モデルを選択できる。この例では、ビットレート範囲Ｒ１と認識モデルＭ１１が関連付けられ、ビットレート範囲Ｒ２と認識モデルＭ１２が関連付けられている。ビットレート範囲Ｒ１及びＲ２は、各認識モデルが学習した映像のビットレート範囲に対応しており、例えば、ビットレート範囲Ｒ１は、ビットレート範囲Ｒ２よりも高い高ビットレート範囲であり、ビットレート範囲Ｒ２は、ビットレート範囲Ｒ１よりも低い低ビットレート範囲である。

　また、記憶部２６０は、認識モデルと事前入力フレーム数とを関連付けた認識モデル－フレーム数テーブルを記憶する。図１０は、認識モデル－フレーム数テーブルの具体例を示している。認識モデル－フレーム数テーブルにより、切替先の認識モデルに応じて事前入力フレーム数を決定できる。この例では、認識モデルＭ１１にフレーム数Ｎ１が関連付けられ、認識モデルＭ１２にフレーム数Ｎ２が関連付けられている。なお、フレーム数に限らず、事前に入力するフレーム数に対応した所定期間である事前入力時間を認識モデルに関連付けておき、切替先の認識モデルに応じた事前入力時間から事前入力タイミングを決定してもよい。

　次に、本実施の形態に係る遠隔監視システムの動作について説明する。図１１は、本実施の形態に係る遠隔監視システム１の動作例を示している。例えば、端末１００がＳ１１１～Ｓ１１３を実行し、センターサーバ２００がＳ１１４～Ｓ１２２を実行するとして説明するが、これに限らず、いずれの装置が各処理を実行してもよい。
　センターサーバ２００の一部の機能を他の装置に配置し、他の装置がそれらの機能を実行してもよい。例えば、端末１００やＭＥＣ４００が、予測部２３０、決定部２４０、切替部２５０、記憶部２６０を備えていてもよい。端末１００やＭＥＣ４００が、取得した映像や通信品質の変化に基づいて、映像認識環境の変化を予測し、記憶部の情報を参照して認識モデル及び切替タイミングを決定し、切替タイミングの指示をセンターサーバ２００に通知してもよい。なお、本実施の形態に限らず、その他の実施の形態においても同様に、端末１００やＭＥＣ４００が、予測部２３０、決定部２４０、切替部２５０、記憶部２６０を備えていてもよい。

　図１１に示すように、端末１００は、カメラ１０１から映像を取得する（Ｓ１１１）。カメラ１０１は、現場を撮影した映像を生成し、映像取得部１１０は、カメラ１０１から出力される映像（入力映像）を取得する。例えば、入力映像の画像には、現場で作業を行う人物や作業に用いられる物体等が含まれる。

　続いて、端末１００は、取得した入力映像をエンコードする（Ｓ１１２）。エンコーダ１２０は、所定の映像符号化方式により入力映像をエンコードする。例えば、エンコーダ１２０は、ＭＥＣ４００の圧縮ビットレート制御機能４０１から割り当てられたビットレートとなるように入力映像をエンコードしてもよいし、端末１００とセンターサーバ２００の間の通信品質に応じたビットレートでエンコードしてもよい。

　続いて、端末１００は、エンコードしたエンコードデータをセンターサーバ２００へ送信し（Ｓ１１３）、センターサーバ２００は、エンコードデータを受信する（Ｓ１１４）。
端末通信部１３０は、入力映像をエンコードしたエンコードデータを基地局３００へ送信する。基地局３００は、受信したエンコードデータを、コアネットワークやインターネットを介して、センターサーバ２００へ転送する。センター通信部２１０は、転送されたエンコードデータを、基地局３００から受信する。

　続いて、センターサーバ２００は、受信したエンコードデータをデコードする（Ｓ１１５）。デコーダ２２０は、各領域の圧縮率やビットレートに応じてエンコードデータをデコードし、デコードした映像、すなわち受信映像を生成する。

　また、センターサーバ２００は、受信映像のビットレートの変化を予測する（Ｓ１１６）。予測部２３０は、映像認識環境の例として、受信映像のビットレートをモニタリングし、ビットレートの変化を予測する。例えば、予測部２３０は、センター通信部２１０が受信したエンコードデータにおける単位時間当たりのデータ量を測定し、ビットレートを取得する。端末１００からエンコードデータとビットレートを含むパケットを送信し、予測部２３０は、受信したパケットからビットレートを取得してもよい。予測部２３０は、定期的に取得した過去のビットレートの履歴に基づいて、ビットレートの遷移の傾向を抽出し、その後のビットレートの変化を予測する。

　続いて、センターサーバ２００は、切替タイミングを決定する（Ｓ１１７）。決定部２４０は、予測したビットレートの変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０のビットレート範囲－認識モデルテーブルを参照し、予測したビットレートに対応する認識モデルを決定する。図９のビットレート範囲－認識モデルテーブルの例では、受信映像のビットレートがビットレート範囲Ｒ１からビットレート範囲Ｒ２に変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、ビットレートがビットレート範囲Ｒ１からビットレート範囲Ｒ２に変わるタイミングを切替タイミングに決定する。例えば、予測されるビットレートとビットレート範囲Ｒ１の中央及びビットレート範囲Ｒ２の中央とを比較し、予測されるビットレートがビットレート範囲Ｒ１の中央に近い状態からビットレート範囲Ｒ２の中央に近い状態に変化するタイミングを切替タイミングとする。

　続いて、センターサーバ２００は、事前入力タイミングを決定する（Ｓ１１８）。決定部２４０は、決定した認識モデルの切替タイミングに基づいて、切り替えの際に切替先の認識モデルに事前に映像データを入力する事前入力タイミングを決定する。決定部２４０は、記憶部２６０の認識モデル－フレーム数テーブルを参照し、切替先の認識モデルに対応する事前入力フレーム数を決定する。図１０の認識モデル－フレーム数テーブルの例では、切替先の認識モデルがＭ１２の場合、事前入力フレーム数はＮ２であると決定する。さらに、事前入力フレーム数Ｎ２に対応する事前入力時間をフレームレートに基づいて算出し、切替タイミングから事前入力時間を差し引いて、事前入力タイミングを決定する。

　続いて、センターサーバ２００は、受信映像の認識モデルへの入力を切り替える（Ｓ１１９）。切替部２５０は、決定した事前入力タイミング及び切替タイミングに応じて、認識モデルを選択し、選択した認識モデルにデコードした受信映像を入力する（Ｓ１２０～Ｓ１２２）。

　具体的には、現在の時刻が事前入力タイミングより前の場合、切替部２５０は、切替前の認識モデルに受信映像を入力する（Ｓ１２０）。例えば、切替部２５０は、切替前の認識モデルＭ１１のみに受信映像（フレーム）を入力する。認識モデルＭ１１は、入力される受信映像を用いて映像認識を行う。

　また、現在の時刻が事前入力タイミングから切替タイミングまでの間の場合、切替部２５０は、切替前後の認識モデルに受信映像を入力する（Ｓ１２１）。例えば、切替部２５０は、切替前の認識モデルＭ１１及び切替後の認識モデルＭ１２の両方に受信映像のフレームを入力する。認識モデルＭ１１は、Ｓ１２０から入力されている受信映像を用いて映像認識を行い、認識結果を出力する。認識モデルＭ１２は、Ｓ１２１から入力される受信映像を用いて映像認識処理を開始、または、映像認識処理を可能な状態にする。

　また、現在の時刻が切替タイミング以後の場合、切替部２５０は、切替後の認識モデルに受信映像を入力する（Ｓ１２２）。例えば、切替部２５０は、切替後の認識モデルＭ１２のみに受信映像のフレームを入力する。認識モデルＭ１２は、Ｓ１２１から入力されている受信映像を用いて映像認識を行い、認識結果を出力する。なお、認識モデルＭ１２からＭ１１に切り替える場合も同様の動作となる。

　また、切り替え途中の両方の認識モデルに映像を入力している段階（Ｓ１２１）で、切り替えが不要になった場合、元の認識モデルに戻してもよい。すなわち、切替先の認識モデルに切り替えなくてもよい。ビットレートの低下を予測して両方の認識モデルに映像を入力し始めたが、状況が変化してビットレートが変化しない（または低下しても即座に回復する）ことが予測される場合には、切り替えを中断して元の認識モデルに戻してもよい。
　なお、図１１に示した処理フローは、一例であり、各処理の順序はこれに限られない。一部の処理の順序を入れ替えて実行してもよいし、一部の処理を並行して実行してもよい。例えば、端末１００やＭＥＣ４００が、予測部２３０、決定部２４０、切替部２５０、記憶部２６０を備えている場合、Ｓ１１１とＳ１１２の間にＳ１１６～Ｓ１１８を実行してもよい。また、Ｓ１１６～Ｓ１１８は、入力切替以前であれば、Ｓ１１１～Ｓ１１５と並行して実行されてもよい。

　以上のように、本実施の形態では、遠隔監視システムにおいて、映像のビットレートの変化を予測し、予測したビットレートの変化に応じて、映像を分析する認識モデルを切り替える。また、切り替えの少し前のフレームを、切り替え前後の両方の認識モデルに入力する。これにより、ビットレートの変化に応じて適切に認識モデルを選択するとともに、図５のように単なる映像入力先の切替を行った場合よりも、切替先の認識モデルにおける認識精度を向上することができる。

（実施の形態２）
　次に、実施の形態２について説明する。本実施の形態では、バッファを用いて切替先の認識モデルに映像を入力する例について説明する。

　図１２は、本実施の形態に係る遠隔監視システム１の構成例を示している。図１２に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の構成に加えて、バッファ２７０を備えている。その他の構成は実施の形態１と同様である。ここでは、主に実施の形態１と異なる構成について説明する。

　バッファ２７０は、デコーダ２２０がデコードした受信映像をバッファリングする。バッファ２７０は、各認識モデルが映像認識に必要とするフレーム数のフレームを保持する。認識モデルごとに必要な事前入力フレーム数のフレームを保持してもよいし、各認識モデルが必要とする事前入力フレーム数のうち最も大きい数のフレームを保持してもよい。

　切替部２５０は、認識モデルを切り替える際、バッファ２７０に保持されたフレームを取得し、取得したフレームを含む受信映像を切替後の認識モデルに入力する。切替部２５０は、切替後の認識モデルに必要な事前入力フレーム数のフレームをバッファ２７０から取得して、取得したフレームを含む受信映像を切替後の認識モデルに入力する。例えば、複数のバッファのバッファサイズを各認識モデルの事前入力フレーム数に合わせて設定しておき、認識モデルに対応するバッファから事前入力フレーム数のフレームを取得してもよい。また、切替タイミングのときにバッファ２７０に保持されたフレームを含む映像を切替後の認識モデルに入力してもよい。この場合、実施の形態１のように事前入力タイミングから映像を入力しなくてもよい。

　以上のように、実施の形態１の遠隔監視システムにおいて、さらにバッファを備え、バッファに保持されたフレームを切替先の認識モデルに入力してもよい。これにより、実施の形態１と同様に、切替先の認識モデルにおける認識精度を向上することができる。

（実施の形態３）
　次に、実施の形態３について説明する。本実施の形態では、映像のフレームレートの変化に応じて認識モデルを切り替える例について説明する。

　図１３は、本実施の形態に係る遠隔監視システム１の構成例を示している。図１３に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の構成に加えて、フレーム特定部２８０を備えている。その他の構成は実施の形態１と同様である。なお、実施の形態２に本実施の形態を適用してもよい。ここでは、主に実施の形態１と異なる構成について説明する。

　本実施の形態では、認識モデルＭ１１及びＭ１２は、異なるフレームレートの映像を学習した認識モデルである。認識モデルＭ１１は、第１のフレームレートの映像を学習し、認識モデルＭ１２は、第２のフレームレートの映像を学習している。例えば、第１のフレームレートは、第２のフレームレートよりも高いフレームレートであり、認識モデルＭ１１は高フレームレート用のモデルであり、認識モデルＭ１２は低フレームレート用のモデルであるが、これに限らない。なお、第１のフレームレート及び第２のフレームレートに限らず、第１のフレームレート範囲及び第２のフレームレート範囲としてもよい。

　なお、認識モデルは、所定のビットレート及び所定のフレームレートを組み合わせた映像を学習及び分析してもよい。複数の認識モデルが、それぞれ異なるビットレート及びフレームレートの組み合わせの映像を学習及び分析してもよい。この場合、映像のビットレート及びフレームレートに応じて認識モデルを選択し切り替える。

　記憶部２６０は、映像認識環境－認識モデルテーブルの一例として、フレームレートと認識モデルを関連付けたフレームレート－認識モデルテーブルを記憶する。図１４は、フレームレート－認識モデルテーブルの具体例を示している。この例では、フレームレートＦＲ１と認識モデルＭ１１が関連付けられ、フレームレートＦＲ２と認識モデルＭ１２が関連付けられている。フレームレートＦＲ１及びＦＲ２は、各認識モデルが学習した映像のフレームレートに対応しており、例えば、フレームレートＦＲ１は、フレームレートＦＲ２よりも高い高フレームレートであり、フレームレートＦＲ２は、フレームレートＦＲ１よりも低い低フレームレートである。

　予測部２３０は、受信映像のフレームレートをモニタリングし、フレームレートの変化を予測する。例えば、予測部２３０は、エンコードデータのヘッダに含まれているフレームレートを取得する。エンコードデータのヘッダに限らず、端末１００からエンコードデータとフレームレートを含むパケットをセンター通信部２１０へ送信し、予測部２３０は、受信したパケットからフレームレートを取得してもよい。予測部２３０は、定期的に取得した過去のフレームレートの履歴に基づいて、フレームレートの遷移の傾向を抽出し、その後のフレームレートの変化を予測する。
　なお、端末１００が予測部２３０を備えている場合、ＭＥＣ４００からの指示や、端末１００の通信品質測定部の測定に基づいて決定されたフレームレートに応じて、フレームレートの変化を予測してもよい。

　決定部２４０は、予測したフレームレートの変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０のフレームレート－認識モデルテーブルを参照し、予測したフレームレートに対応する認識モデルを決定する。図１４のフレームレート－認識モデルテーブルの例では、フレームレートがＦＲ１からＦＲ２に変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、フレームレートがＦＲ１からＦＲ２に変わるタイミングを切替タイミングに決定する。例えば、予測されるフレームレートとＦＲ１及びＦＲ２とを比較し、予測されるフレームレートがＦＲ１に近い状態からＦＲ２に近い状態に変化するタイミングを切替タイミングとする。フレームレートＦＲ１及びＦＲ２がフレームレートの範囲を含む場合、範囲の中心と比較してもよいし、範囲の任意の値と比較してもよい。また、決定部２４０は、実施の形態１と同様に、切替先の認識モデルに対応した事前入力フレーム数と切替先の認識モデルの学習したフレームレートに基づいて、事前入力タイミングを決定する。

　フレーム特定部２８０は、切替部２５０が選択した認識モデルに応じて、認識モデルに入力する映像のフレーム間隔、すなわちフレームレートを特定する。フレーム特定部２８０は、例えば、フレーム間隔を調整することで、フレーム間隔を特定する。フレーム特定部２８０は、切替前後の認識モデルで入力する映像のフレームレートが異なる場合に、フレーム間引きやフレーム補間を行う。フレーム補間とは、映像のフレームの間に、フレームを挿入することである。なお、事前入力タイミングより前、事前入力タイミングから切替タイミングまで、切替タイミング以後のいずれの場合に、フレーム間隔を特定してもよい。例えば、フレーム特定部２８０は、記憶部２６０のフレームレート－認識モデルテーブルを参照し、入力する映像のフレームレートと選択された認識モデルの学習したフレームレートやフレームレートの範囲との差分に基づいて、入力する映像のフレーム間隔を調整し、調整した映像を認識モデルに入力する。映像のフレームレートが認識モデルの学習したフレームレートよりも低い場合、認識モデルの学習したフレームレートに合わせてフレーム補間を行う。フレーム補間の方法は限定されない。例えば、フレームを挿入する前または後のフレームと同じフレームを挿入してもよいし、過去のフレームにおける画像の変化に応じて推定したフレームを挿入してもよい。映像のフレームレートが認識モデルの学習したフレームレートよりも高い場合、認識モデルの学習したフレームレートに合わせてフレームを間引く。なお、予測部２３０等と同様に、端末１００やＭＥＣ４００がフレーム特定部２８０を備えていてもよい。

　例えば、認識モデルＭ１１が１０ｆｐｓのフレームレートの映像を学習した認識モデルであり、認識モデルＭ１２が３０ｆｐｓのフレームレートの映像を学習した認識モデルであるとする。このとき、１０ｆｐｓのフレームレートの映像を、認識モデルＭ１１からＭ１２に切り替えて入力する場合、フレーム特定部２８０は、入力する映像にフレーム補間を行い、３０ｆｐｓにフレーム補間した映像を認識モデルＭ１２に入力する。また、３０ｆｐｓのフレームレートの映像を、認識モデルＭ１２からＭ１１に切り替えて入力する場合、フレーム特定部２８０は、入力する映像からフレームを間引き、１０ｆｐｓに間引いた映像を認識モデルＭ１１に入力する。

　以上のように、実施の形態１の遠隔監視システムにおいて、映像のフレームレートの変化を予測し、予測したフレームレートの変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、フレームレートの変化に応じて適切に認識モデルを選択するとともに、実施の形態１と同様に、切替先の認識モデルにおける認識精度を向上することができる。また、認識モデルに応じて入力するフレーム間隔を調整し特定することで、認識モデルに適したフレームレートの映像を入力でき、認識精度を向上することができる。

（実施の形態４）
　次に、実施の形態４について説明する。本実施の形態では、映像認識環境の変化として、映像を受信する通信品質の変化に応じて認識モデルを切り替える例について説明する。

　図１５は、本実施の形態に係る遠隔監視システム１の構成例を示している。図１５に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の構成に加えて、通信品質測定部２９０を備える。その他の構成は実施の形態１と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。例えば、認識モデルＭ１１は、実施の形態１と同様に、第１のビットレートの映像を学習し、認識モデルＭ１２は、第２のビットレートの映像を学習している。これに限らず、認識モデルＭ１１及びＭ１２は、実施の形態３と同様に、異なるフレームレートの映像を学習してもよい。また、認識モデルＭ１１及びＭ１２は、異なる通信品質に対応した映像を学習してもよい。ここでは、主に実施の形態１と異なる構成について説明する。

　通信品質測定部２９０は、端末１００とセンターサーバ２００の間の通信品質を測定する。通信品質は、センターサーバ２００が端末１００から映像を受信する受信経路の通信品質である。通信品質は、例えば、通信速度であるが、伝送遅延や誤り率などその他の指標でもよい。例えば、センター通信部２１０が受信する単位時間当たりのデータ量に基づいて通信速度を測定する。なお、基地局３００、端末１００、またはＭＥＣ４００が通信品質測定部を備え、基地局３００、端末１００、またはＭＥＣ４００の通信品質測定部が測定または推定した通信品質を取得してもよい。

　予測部２３０は、映像認識環境の変化として、通信品質の変化を予測する。予測部２３０は、通信品質測定部２９０が測定した通信品質を定期的に取得し、取得した過去の通信品質の履歴に基づいて、通信品質の遷移の傾向を抽出し、その後の通信品質の変化を予測する。図１６は、通信速度の予測例を示している。図１６に示すように、過去の通信速度の履歴から、今後の通信速度の変化を予測する。

　決定部２４０は、予測した通信品質の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。認識モデルＭ１１及びＭ１２がビットレートごとの映像を学習している場合、通信品質に対応したビットレートに基づいて、切替先の認識モデル及び切替タイミングを決定する。例えば、決定部２４０は、予測した通信速度から受信映像のビットレートを推定する。送信側の端末１００は通信品質に応じてビットレートを決定しエンコードしているため、受信側のセンターサーバ２００でも端末１００と同様に通信品質に応じてビットレートを決定することで、端末１００がエンコードしたビットレートを推定する。例えば、通信速度と推定されるビットレートとを関連付けておくことで、通信速度からビットレートを推定できる。決定部２４０は、推定したビットレートの変化に応じて、実施の形態１と同様に、切替先の認識モデルと切替タイミングを決定する。図１６の例では、通信速度に応じてビットレートが所定値以下に変化するｔｓを切替タイミングに決定する。また、実施の形態１と同様に、切替タイミングに基づいて、事前入力タイミングｔｉを決定する。なお、認識モデルＭ１１及びＭ１２が通信品質ごとの映像を学習している場合、予測した通信品質に対応する認識モデルを切替先の認識モデルとする。

　以上のように、実施の形態１の遠隔監視システムにおいて、映像を受信する通信品質の変化を予測し、予測した通信品質の変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、通信品質の変化に応じて適切に認識モデルを選択するとともに、実施の形態１と同様に、切替先の認識モデルにおける認識精度を向上することができる。

（実施の形態５）
　次に、実施の形態５について説明する。本実施の形態では、映像認識環境に含まれる通信品質として、映像を受信するパケットのパケットロスに応じて認識モデルを切り替える例について説明する。本実施の形態に係る遠隔監視システム１の構成は、実施の形態４の図１５と同様である。ここでは、主に実施の形態４と異なる構成について説明する。

　本実施の形態では、認識モデルＭ１１及びＭ１２は、通信品質の例としてパケットロスの発生状況が異なる映像を学習した認識モデルである。例えば、認識モデルＭ１１は、パケットロスなしの映像を学習し、認識モデルＭ１２は、パケットロスありの映像を学習している。パケットロスとは、映像のフレームのデータを伝送する全部または一部のパケットが受信側で正常に受信できず欠落することである。フレームごとのパケットの欠落でもよいし、所定期間におけるパケットの欠落でもよい。なお、パケットロスの有無に限らず、認識モデルＭ１１は、第１のパケットロス率の映像を学習し、認識モデルＭ１２は、第２のパケットロス率の映像を学習してもよい。例えば、第１のパケットロス率は、第２のパケットロス率より低くてもよい。

　記憶部２６０は、映像認識環境－認識モデルテーブルの一例として、パケットロスの発生状況と認識モデルを関連付けたパケットロス－認識モデルテーブルを記憶する。図１７は、パケットロス－認識モデルテーブルの具体例を示している。この例では、パケットロスなしと認識モデルＭ１１が関連付けられ、パケットロスありと認識モデルＭ１２が関連付けられている。パケットロス率を関連付ける場合、パケットロス率の範囲を関連付けてもよい。

　通信品質測定部２９０は、通信品質として、パケットロスの発生状況、すなわちパケットロスの有無を測定する。センター通信部２１０が受信するパケットをモニタし、各フレームでパケットが欠落しているか否か測定する。

　予測部２３０は、パケットロスの発生状況を予測する。予測部２３０は、通信品質測定部２９０が測定したパケットロスの発生状況を定期的に取得し、取得した過去のパケットロスの発生履歴に基づいて、パケットロスの傾向を抽出し、その後のパケットロスの発生状況を予測する。

　決定部２４０は、予測したパケットロスの発生状況に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０のパケットロス－認識モデルテーブルを参照し、予測したパケットロスの発生状況に対応する認識モデルを決定する。図１７のパケットロス－認識モデルテーブルの例では、パケットロスなしからパケットロスありに変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、パケットロスなしからパケットロスありに変わるタイミングを切替タイミングに決定する。

　以上のように、実施の形態４の遠隔監視システムにおいて、映像を受信するパケットのパケットロスの発生状況の変化を予測し、予測したパケットロスの発生状況の変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、パケットロスの発生状況の変化に応じて適切に認識モデルを選択するとともに、実施の形態４と同様に、切替先の認識モデルにおける認識精度を向上することができる。

（実施の形態６）
　次に、実施の形態６について説明する。本実施の形態では、映像認識環境の変化として、映像を撮影したシーンの変化に応じて認識モデルを切り替える例について説明する。

　図１８は、本実施の形態に係る遠隔監視システム１の構成例を示している。図１８に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の構成に加えて、シーン分析部２９１を備えている。その他の構成は実施の形態１と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態１と異なる構成について説明する。

　本実施の形態では、認識モデルＭ１１及びＭ１２は、異なるシーンの映像を学習した認識モデルである。シーンとは、建設現場の工程の進み具合、作業員の作業内容や作業場所などである。例えば、認識モデルＭ１１は、第１の作業工程の映像を学習し、認識モデルＭ１２は、第２の作業工程ありの映像を学習している。

　記憶部２６０は、映像認識環境－認識モデルテーブルの一例として、シーンと認識モデルを関連付けたシーン－認識モデルテーブルを記憶する。図１９は、シーン－認識モデルテーブルの具体例を示している。この例では、作業工程Ａと認識モデルＭ１１が関連付けられ、作業工程Ｂと認識モデルＭ１２が関連付けられている。

　シーン分析部２９１は、映像のシーンを分析する。例えば、シーン分析部２９１は、認識モデルＭ１１またはＭ１２の認識結果に基づいて映像のシーンを分析する。認識モデルＭ１１及びＭ１２が映像から作業内容を認識する場合、予め作業内容と作業工程を関連付けておき、認識された作業内容から作業工程を決定してもよい。
　なお、端末１００がシーン分析部２９１を備えていてもよい。端末１００がシーン分析部２９１を備える場合、映像取得部１１０が取得する映像に基づいて、映像のシーンを分析してもよい。例えば、端末１００が物体検出部を備え、物体検出部の検出した物体と物体及びシーンとの対応関係の情報とに基づいて、シーン分析部２９１がシーンを分析しても良い。

　予測部２３０は、映像のシーンの変化を予測する。予測部２３０は、シーン分析部２９１が分析したシーンを定期的に取得し、取得した過去のシーンの履歴に基づいて、その後のシーンの変化を予測する。例えば、作業工程のスケジュール情報を取得し、スケジュール情報に基づいて、分析された作業内容や作業工程から、作業の完了や次の作業内容、次の作業工程を予測する。スケジュール情報は、各作業工程の時間や作業内容等を含んでもよい。

　決定部２４０は、予測したシーンの変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０のシーン－認識モデルテーブルを参照し、予測したシーンに対応する認識モデルを決定する。図１９のシーン－認識モデルテーブルの例では、作業工程Ａから作業工程Ｂに変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、作業工程Ａから作業工程Ｂに変わるタイミングを切替タイミングに決定する。

　以上のように、実施の形態１の遠隔監視システムにおいて、映像を撮影したシーンの変化を予測し、予測したシーンの変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、シーンの変化に応じて適切に認識モデルを選択するとともに、実施の形態１と同様に、切替先の認識モデルにおける認識精度を向上することができる。

（実施の形態７）
　次に、実施の形態７について説明する。本実施の形態では、映像認識環境の変化として、映像に含まれる物体の大きさの変化に応じて認識モデルを切り替える例について説明する。

　図２０は、本実施の形態に係る遠隔監視システム１の構成例を示している。図２０に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の構成に加えて、物体検出部２９２を備えている。その他の構成は実施の形態１と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態１と異なる構成について説明する。

　本実施の形態では、認識モデルＭ１１及びＭ１２は、認識対象の物体の大きさが異なる映像を学習した認識モデルである。認識モデルＭ１１は、第１の物体サイズの映像を学習し、認識モデルＭ１２は、第２の物体サイズの映像を学習している。例えば、第１の物体サイズは、第２の物体サイズよりも大きく、認識モデルＭ１１は大きい物体用のモデルであり、認識モデルＭ１２は小さい物体用のモデルであるが、これに限らない。物体の大きさ、すなわち物体サイズは、画像において物体が映っている領域の画素数である。例えば、物体がカメラに近ければ物体の大きさは大きくなり、物体がカメラから遠ければ物体の大きさは小さくなる。また、カメラのズームに応じて物体の大きさも変わる。

　記憶部２６０は、映像認識環境－認識モデルテーブルの一例として、物体の大きさと認識モデルを関連付けた物体サイズ－認識モデルテーブルを記憶する。図２１は、物体サイズ－認識モデルテーブルの具体例を示している。この例では、サイズＡと認識モデルＭ１１が関連付けられ、サイズＢと認識モデルＭ１２が関連付けられている。サイズＡ及びＢは、物体の大きさの範囲を含んでもよい。サイズＡ及びＢは、各認識モデルが学習した映像の物体サイズに対応しており、例えば、サイズＡは、サイズＢよりも大きいサイズであり、サイズＢは、サイズＡよりも小さいサイズである。

　物体検出部２９２は、映像内の物体を検出する。例えば、物体検出部２９２は、映像の各画像から物体を含む領域を抽出し、抽出した領域内の物体を検出する。認識対象の物体の種別を予め設定しておき、検出された物体のうち認識対象の物体の領域の大きさを物体の大きさとして抽出してもよい。物体検出部２９２は、機械学習を用いた物体認識エンジンにより画像内の物体を認識してもよい。また、認識モデルＭ１１またはＭ１２から物体検出結果を取得してもよい。

　予測部２３０は、物体の大きさの変化を予測する。予測部２３０は、物体検出部２９２が検出した物体の大きさを定期的に取得し、取得した過去の物体の大きさの履歴に基づいて、物体の大きさの遷移の傾向を抽出し、その後の物体の大きさの変化を予測する。例えば、映像のフレーム間で対象物体をトラッキングし、トラッキングした物体の大きさを比較し、大きさの変化を予測する。

　決定部２４０は、予測した物体の大きさの変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０の物体サイズ－認識モデルテーブルを参照し、予測した物体の大きさに対応する認識モデルを決定する。図２１の物体サイズ－認識モデルテーブルの例では、物体の大きさがサイズＡからサイズＢに変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、サイズＡからサイズＢに変わるタイミングを切替タイミングに決定する。例えば、予測される物体の大きさとサイズＡ及びサイズＢとを比較し、予測される物体の大きさがサイズＡに近い状態からサイズＢに近い状態に変化するタイミングを切替タイミングとする。サイズＡ及びサイズＢが大きさの範囲を含む場合、範囲の中心と比較してもよいし、範囲の任意の値と比較してもよい。

　以上のように、実施の形態１の遠隔監視システムにおいて、映像に含まれる物体の大きさの変化を予測し、予測した物体の大きさの変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、物体の大きさの変化に応じて適切に認識モデルを選択するとともに、実施の形態１と同様に、切替先の認識モデルにおける認識精度を向上することができる。

（実施の形態８）
　次に、実施の形態８について説明する。本実施の形態では、映像認識環境の変化として、映像に含まれる物体の動作速度の変化に応じて認識モデルを切り替える例について説明する。

　図２２は、本実施の形態に係る遠隔監視システム１の構成例を示している。図２２に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の構成に加えて、速度分析部２９３を備えている。その他の構成は実施の形態１と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態１と異なる構成について説明する。

　本実施の形態では、認識モデルＭ１１及びＭ１２は、認識対象の物体の動作速度が異なる映像を学習した認識モデルである。認識モデルＭ１１は、第１の動作速度の物体の映像を学習し、認識モデルＭ１２は、第２の動作速度の物体の映像を学習している。認識する物体の動作速度に応じて認識モデルの演算量も異なる。例えば、第１の動作速度は、第２の動作速度よりも低く、認識モデルＭ１１は、低速な動作のみ認識可能な低演算量モデルであり、認識モデルＭ１２は、高速な動作まで認識可能な高演算量モデルであるが、これに限らない。なお、第１の動作速度及び第２の動作速度に限らず、第１の動作速度範囲及び第２の動作速度範囲としてもよい。

　記憶部２６０は、映像認識環境－認識モデルテーブルの一例として、物体の動作速度と認識モデルを関連付けた動作速度－認識モデルテーブルを記憶する。図２３は、動作速度－認識モデルテーブルの具体例を示している。この例では、速度Ａと認識モデルＭ１１が関連付けられ、速度Ｂと認識モデルＭ１２が関連付けられている。速度Ａ及びＢは、各認識モデルが学習した映像の動作速度に対応しており、例えば、速度Ａは、速度Ｂよりも低速であり、速度Ｂは、速度Ａよりも高速である。

　速度分析部２９３は、映像内の物体の動作速度を分析する。例えば、速度分析部２９３は、認識モデルＭ１１またはＭ１２の認識結果に基づいて、動作速度を分析する。認識モデルＭ１１及びＭ１２が作業内容を認識する場合、予め作業内容と動作速度を関連付けておき、認識された作業内容から動作速度を決定してもよい。例えば、人が歩く、地面を均すなどが認識された場合、低速動作であると決定し、人が走る、物を投げるなどが認識された場合、高速動作であると決定する。例えば、映像内の対象物体を検出し、フレーム間における対象物体の移動を抽出し、抽出した移動量から速度を決定してもよい。
　なお、端末１００が速度分析部２９３を備えていてもよい。端末１００が速度分析部２９３を備える場合、映像取得部１１０が取得する映像に基づいて、映像の動作速度を分析してもよい。例えば、端末１００が物体検出部を備え、物体検出部の検出した物体の移動に基づいて、速度分析部２９３が動作速度を分析してもよい。

　予測部２３０は、物体の動作速度の変化を予測する。予測部２３０は、速度分析部２９３が分析した物体の動作速度を定期的に取得し、取得した過去の物体の動作速度の履歴に基づいて、物体の動作速度の遷移の傾向を抽出し、その後の物体の動作速度の変化を予測する。

　決定部２４０は、予測した物体の動作速度の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０の動作速度－認識モデルテーブルを参照し、予測した物体の動作速度に対応する認識モデルを決定する。図２３の動作速度－認識モデルテーブルの例では、物体の動作速度が速度Ａから速度Ｂに変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、速度Ａから速度Ｂに変わるタイミングを切替タイミングに決定する。

　以上のように、実施の形態１の遠隔監視システムにおいて、映像に含まれる物体の動作速度の変化を予測し、予測した物体の動作速度の変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、物体の動作速度の変化に応じて適切に認識モデルを選択し、必要最小限の演算量で、低速・高速な動作の両方を認識できるとともに、実施の形態１と同様に、切替先の認識モデルにおける認識精度を向上することができる。

（実施の形態９）
　次に、実施の形態９について説明する。本実施の形態では、映像認識環境の変化として、映像の撮影状態の変化に応じて認識モデルを切り替える例について説明する。

　図２４は、本実施の形態に係る遠隔監視システム１の構成例を示している。図２４に示すように、本実施の形態では、センターサーバ２００は、実施の形態１の構成に加えて、状態分析部２９４を備えている。その他の構成は実施の形態１と同様である。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態１と異なる構成について説明する。

　本実施の形態では、認識モデルＭ１１及びＭ１２は、映像の撮影状態が異なる映像を学習したモデルである。撮影状態は、固定カメラを固定した位置から撮影する固定撮影や、移動カメラにより移動する位置から撮影する移動撮影などである。例えば、認識モデルＭ１１は、固定撮影により撮影した映像を学習し、認識モデルＭ１２は、移動撮影により撮影した映像を学習している。なお、固定撮影／移動撮影に限らず、認識モデルＭ１１は、第１の移動速度、例えば低速移動により移動して撮影した映像を学習し、認識モデルＭ１２は、第２の移動速度、例えば高速移動により移動して撮影した映像を学習してもよい。

　記憶部２６０は、映像認識環境－認識モデルテーブルの一例として、撮影状態と認識モデルを関連付けた撮影状態－認識モデルテーブルを記憶する。図２５は、撮影状態－認識モデルテーブルの具体例を示している。この例では、固定撮影と認識モデルＭ１１が関連付けられ、移動撮影と認識モデルＭ１２が関連付けられている。移動速度を関連付ける場合、移動速度の範囲を関連付けてもよい。

　状態分析部２９４は、映像の撮影状態を分析する。状態分析部２９４は、認識モデルＭ１１またはＭ１２の認識結果に基づいて、固定撮影や移動撮影などの撮影状態を検出してもよい。例えば、カメラが車載オンボードカメラであり、映像に交差点の信号機が写っている場合、正面の信号機の色に応じて、撮影状態を決定してもよい。また、車載オンボードカメラの場合、車両から取得する車両の制御情報やユーザの操作情報に応じて撮影状態を検出してもよい。例えば、車両の速度情報、エンジンのオン／オフ、シフトレバー、ブレーキペダル、アクセルペダルの操作に応じて、撮影状態を決定してもよい。
　なお、端末１００が状態分析部２９４を備えていてもよい。端末１００が状態分析部２９４を備える場合、映像取得部１１０が取得する映像に基づいて、映像の撮影状態を分析してもよい。例えば、端末１００が物体検出部を備え、物体検出部の検出した物体の色や移動に基づいて、状態分析部２９４が撮影状態を分析してもよい。

　予測部２３０は、映像の撮影状態の変化を予測する。予測部２３０は、状態分析部２９４が分析した撮影状態を定期的に取得し、取得した過去の撮影状態の履歴に基づいて、その後の撮影状態の変化を予測する。例えば、固定撮影／移動撮影を検出している場合、過去の履歴から固定撮影と移動撮影の変化を予測する。また、正面の信号機の色を検出している場合、信号機の色が変わることを予測することで車両の走行状況を推定し、固定撮影と移動撮影の変化を予測してもよい。車両のユーザの操作情報を検出している場合、次のユーザの操作を予想することで車両の走行状況を推定し、固定撮影と移動撮影の変化を予測してもよい。

　決定部２４０は、予測した映像の撮影状態の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０の撮影状態－認識モデルテーブルを参照し、予測した撮影状態に対応する認識モデルを決定する。図２５の撮影状態－認識モデルテーブルの例では、撮影状態が固定撮影から移動撮影に変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、固定撮影から移動撮影に変わるタイミングを切替タイミングに決定する。また、正面の信号機の色を検出している場合、信号機の色が赤から青に変わるタイミングを固定撮影から移動撮影に変わるタイミングとして、切替先の認識モデル及び切替タイミングを決定してもよい。車両のユーザの操作を予測している場合、アクセルペダルの操作を開始するタイミングを固定撮影から移動撮影に変わるタイミングとして、切替先の認識モデル及び切替タイミングを決定してもよい。

　以上のように、実施の形態１の遠隔監視システムにおいて、カメラの移動開始など映像の撮影状態の変化を予測し、予測した撮影状態の変化に応じて、映像を分析する認識モデルを切り替えてもよい。これにより、映像の撮影状態の変化に応じて適切に認識モデルを選択するとともに、実施の形態１と同様に、切替先の認識モデルにおける認識精度を向上することができる。

（実施の形態１０）
　次に、実施の形態１０について説明する。本実施の形態では、２つの認識モデルを異なる地点に配置し、映像認識環境の変化として、映像の演算量の変化に応じて認識モデルを切り替える例について説明する。

　図２６は、本実施の形態に係る遠隔監視システム１の構成例を示している。図２６に示すように、本実施の形態では、基本的な構成は実施の形態１と同様であるが、各部の配置が異なる。すなわち、ＭＥＣ４００に認識モデルＭ１１を備え、センターサーバ２００に認識モデルＭ１２を備える。また、端末１００に、予測部２３０、決定部２４０、切替部２５０、記憶部２６０を備える。さらに、端末１００に演算量分析部２９５を備える。なお、その他の実施の形態に本実施の形態を適用してもよい。ここでは、主に実施の形態１と異なる構成について説明する。

　本実施の形態では、認識モデルＭ１１及びＭ１２は、演算能力が異なり、映像の分析及び認識に必要な演算量が異なる映像を学習した認識モデルである。認識モデルＭ１１は、第１の演算量で分析及び認識可能な映像を学習し、認識モデルＭ１２は、第２の演算量で分析及び認識可能な映像を学習している。例えば、第１の演算量は、第２の演算量よりも低く、認識モデルＭ１１は、低演算量モデルであり、認識モデルＭ１２は、高演算量モデルであるが、これに限らない。

　記憶部２６０は、映像認識環境－認識モデルテーブルの一例として、分析及び認識可能な映像の演算量と認識モデルを関連付けた演算量－認識モデルテーブルを記憶する。図２７は、演算量－認識モデルテーブルの具体例を示している。この例では、演算量Ａと認識モデルＭ１１が関連付けられ、演算量Ｂと認識モデルＭ１２が関連付けられている。演算量Ａ及びＢは、演算量の範囲を含んでもよい。演算量Ａ及びＢは、各認識モデルが学習した映像の演算量に対応しており、例えば、演算量Ａは、演算量Ｂよりも低い低演算量であり、演算量Ｂは、演算量Ａよりも高い高演算量である。

　演算量分析部２９５は、映像の分析及び認識に必要な演算量を分析する。例えば、演算量分析部２９５は、物体と演算量を関連付けておき、映像内の物体を検出し、検出された物体から演算量を決定してもよい。映像内の物体を検出し、フレーム間における物体の移動を抽出し、抽出した移動量から演算量を決定してもよい。また、認識モデルＭ１１及びＭ１２が認識する行動と演算量を関連付けておき、認識モデルＭ１１またはＭ１２から認識結果を取得し、認識された行動から演算量を決定してもよい。

　予測部２３０は、映像の分析及び認識に必要な演算量の変化を予測する。予測部２３０は、演算量分析部２９５が分析した演算量を定期的に取得し、取得した過去の演算量の履歴に基づいて、その後の演算量の変化を予測する。

　決定部２４０は、予測した演算量の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０の演算量－認識モデルテーブルを参照し、予測した演算量に対応する認識モデルを決定する。図２７の演算量－認識モデルテーブルの例では、演算量Ａから演算量Ｂに変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、演算量Ａから演算量Ｂに変わるタイミングを切替タイミングに決定する。

　切替部２５０は、決定部２４０が決定した認識モデルへ映像を送信する。認識モデルＭ１１を選択した場合、ＭＥＣ４００へ映像を送信し、認識モデルＭ１２を選択した場合、センターサーバ２００へ映像を送信する。切替部２５０は、切替タイミングに応じて映像の送信先を切り替える。事前入力タイミングから切替タイミングまでは、切替前の認識モデルと切替後の認識モデルへ映像を送信し、切替タイミング後は、切替後の認識モデルへ映像を送信する。

　以上のように、実施の形態１の遠隔監視システムにおいて、演算量の異なる認識モデルを別の地点に配置してもよい。例えば、低演算量モデルをＭＥＣで実行し、高演算量モデルをセンターで実行することで、ＭＥＣとセンターの計算リソースを効率的に利用し、システム全体で分析及び認識可能な映像数を増加させることができる。
　また、ＭＥＣの認識モデルによる認識結果を端末側や現場で利用することがある。センター側よりＭＥＣの方が現場に近いことが多いため、認識結果をＭＥＣの方が早く端末や現場の機器に送信することができる。その結果、本実施の形態では、ＭＥＣの認識モデルも活用することで、端末側や現場での認識結果の利用を素早く行うことができる。

（実施の形態１１）
　次に、実施の形態１１について説明する。本実施の形態では、２つの認識モデルを異なる地点に配置し、映像認識環境の変化として、映像を伝送する帯域の変化に応じて認識モデルを切り替える例について説明する。

　図２８は、本実施の形態に係る遠隔監視システム１の構成例を示している。図２８に示すように、本実施の形態では、実施の形態１０と比べて、端末１００に演算量分析部２９５の代わりに帯域取得部２９６を備える。その他の構成は実施の形態１０と同様である。ここでは、主に実施の形態１０と異なる構成について説明する。本実施の形態では、認識モデルＭ１１及びＭ１２は、実施の形態１０のように演算量が異なる認識モデルでもよいし、同じ認識モデルでもよい。

　記憶部２６０は、映像認識環境－認識モデルテーブルの一例として、端末とセンターサーバ間の伝送帯域、すなわち帯域幅と認識モデルを関連付けた伝送帯域－認識モデルテーブルを記憶する。図２９は、伝送帯域－認識モデルテーブルの具体例を示している。この例では、伝送帯域Ａと認識モデルＭ１１が関連付けられ、伝送帯域Ｂと認識モデルＭ１２が関連付けられている。伝送帯域Ａと伝送帯域Ｂは、帯域幅が異なる。例えば、伝送帯域Ａは、伝送帯域Ｂよりも狭い狭帯域であり、伝送帯域Ｂは、伝送帯域Ａよりも広い高い広帯域である。

　帯域取得部２９６は、端末１００とセンターサーバ２００の間の伝送帯域を取得する。端末通信部１３０から送信するデータ量に基づいて推定される通信速度に基づいて伝送帯域を求めてもよい。基地局３００または端末１００が測定した通信速度を取得し、取得した通信速度から伝送帯域を決定してもよい。

　予測部２３０は、伝送帯域の変化を予測する。予測部２３０は、帯域取得部２９６が取得した伝送帯域を定期的に取得し、取得した過去の伝送帯域の履歴に基づいて、伝送帯域の遷移の傾向を抽出し、その後の伝送帯域の変化を予測する。

　決定部２４０は、予測した伝送帯域の変化に応じて、切替先の認識モデル及び切替タイミングを決定する。決定部２４０は、記憶部２６０の伝送帯域－認識モデルテーブルを参照し、予測した伝送帯域に対応する認識モデルを決定する。図２９の伝送帯域－認識モデルテーブルの例では、伝送帯域Ａから伝送帯域Ｂに変わることが予測される場合、認識モデルをＭ１１からＭ１２に切り替えることを決定し、伝送帯域Ａから伝送帯域Ｂに変わるタイミングを切替タイミングに決定する。

　以上のように、実施の形態１０の遠隔監視システムにおいて、２つの認識モデルを別の地点に配置し、伝送帯域の変化に応じて認識モデルを切り替えてもよい。現場とセンターの間のネットワーク帯域が十分ならセンターで認識モデルの映像認識を実行し、不十分ならＭＥＣで認識モデルの映像認識を実行してもよい。これにより、センターで低画質映像を分析することによる分析精度低下を防止できる。また、より高品質な映像をＭＥＣ又はセンター側の認識モデルに送信することができ、１か所に認識モデルが存在する場合よりも、認識精度を向上することができる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

　上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、図３０に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ３１及び記憶装置であるメモリ３２を有するコンピュータ３０により実現してもよい。例えば、メモリ３２に実施形態における方法（映像処理方法）を行うためのプログラムを格納し、各機能を、メモリ３２に格納されたプログラムをプロセッサ３１で実行することにより実現してもよい。

　これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　第１の映像認識環境に対応する映像を分析する第１の映像分析モデルと、
　第２の映像認識環境に対応する映像を分析する第２の映像分析モデルと、
　入力される映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第１の映像分析モデルから前記第２の映像分析モデルに切り替える切替手段と、を備え、
　前記切替手段は、前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力する、
　映像処理システム。
（付記２）
　前記切替タイミングよりも前のデータを含む映像入力データは、前記第２の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
　付記１に記載の映像処理システム。
（付記３）
　前記切替手段は、前記フレーム数の映像入力データを前記第１及び第２の映像分析モデルの両方に入力する、
　付記２に記載の映像処理システム。
（付記４）
　前記映像入力データにおける映像認識環境の変化を予測する予測手段を備え、
　前記切替手段は、前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
　付記１から３のいずれか一項に記載の映像処理システム。
（付記５）
　前記映像認識環境は、映像の品質を示す映像パラメータを含む、
　付記１から４のいずれか一項に記載の映像処理システム。
（付記６）
　前記映像パラメータは、フレームレートを含み、
　前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する特定手段を備える、
　付記５に記載の映像処理システム。
（付記７）
　前記映像入力データを、ネットワークを介して受信する受信手段を備え、
　前記映像認識環境は、前記受信手段が受信した前記映像入力データの通信品質を含む、
　付記１から６のいずれか一項に記載の映像処理システム。
（付記８）
　前記映像認識環境は、映像を撮影したシーン、映像に含まれる物体の大きさ、映像に含まれる物体の動作速度、または、映像を撮影した撮影状態を含む、
　付記１から７のいずれか一項に記載の映像処理システム。
（付記９）
　前記第１の映像分析モデルは、エッジ及びクラウドの一方に配置され、
　前記第２の映像分析モデルは、前記エッジ及び前記クラウドの他方に配置される、
　付記１から８のいずれか一項に記載の映像処理システム。
（付記１０）
　第１の映像認識環境に対応する映像を分析する第１の映像分析モデルと、
　第２の映像認識環境に対応する映像を分析する第２の映像分析モデルと、
　入力される映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第１の映像分析モデルから前記第２の映像分析モデルに切り替える切替手段と、を備え、
　前記切替手段は、前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力する、
　映像処理装置。
（付記１１）
　前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第２の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
　付記１０に記載の映像処理装置。
（付記１２）
　前記切替手段は、前記フレーム数の映像入力データを前記第１及び第２の映像分析モデルの両方に入力する、
　付記１１に記載の映像処理装置。
（付記１３）
　前記映像入力データにおける映像認識環境の変化を予測する予測手段を備え、
　前記切替手段は、前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
　付記１０から１２のいずれか一項に記載の映像処理装置。
（付記１４）
　前記映像認識環境は、映像の品質を示す映像パラメータを含む、
　付記１０から１３のいずれか一項に記載の映像処理装置。
（付記１５）
　前記映像パラメータは、フレームレートを含み、
　前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する特定手段を備える、
　付記１４に記載の映像処理装置。
（付記１６）
　入力される映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを、前記第１の映像認識環境に対応する映像を分析する第１の映像分析モデルから、前記第２の映像認識環境に対応する映像を分析する第２の映像分析モデルに切り替え、
　前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力する、
　映像処理方法。
（付記１７）
　前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第２の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
　付記１６記載の映像処理方法。
（付記１８）
　前記フレーム数の映像入力データを前記第１及び第２の映像分析モデルの両方に入力する、
　付記１７に記載の映像処理方法。
（付記１９）
　前記映像入力データにおける映像認識環境の変化を予測する予測し、
　前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
　付記１６から１８のいずれか一項に記載の映像処理方法。
（付記２０）
　前記映像認識環境は、映像の品質を示す映像パラメータを含む、
　付記１６から１９のいずれか一項に記載の映像処理方法。
（付記２１）
　前記映像パラメータは、フレームレートを含み、
　前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する、
　付記２０に記載の映像処理方法。
（付記２２）
　入力される映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを、前記第１の映像認識環境に対応する映像を分析する第１の映像分析モデルから、前記第２の映像認識環境に対応する映像を分析する第２の映像分析モデルに切り替え、
　前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力する、
　処理をコンピュータに実行させるための映像処理プログラム。

１　　　遠隔監視システム
１０　　映像処理システム
１１　　切替部
２０、２１、２２　　映像処理装置
３０　　コンピュータ
３１　　プロセッサ
３２　　メモリ
１００　端末
１０１　カメラ
１０２　圧縮効率最適化機能
１１０　映像取得部
１２０　エンコーダ
１３０　端末通信部
２００　センターサーバ
２０１　映像認識機能
２０２　アラート生成機能
２０３　ＧＵＩ描画機能
２０４　画面表示機能
２１０　センター通信部
２２０　デコーダ
２３０　予測部
２４０　決定部
２５０　切替部
２６０　記憶部
２７０　バッファ
２８０　フレーム特定部
２９０　通信品質測定部
２９１　シーン分析部
２９２　物体検出部
２９３　速度分析部
２９４　状態分析部
２９５　演算量分析部
２９６　帯域取得部
３００　基地局
４００　ＭＥＣ
４０１　圧縮ビットレート制御機能
Ｍ１、Ｍ２、Ｍ１１、Ｍ１２　認識モデル

Claims

　第１の映像認識環境に対応する映像を分析する第１の映像分析モデルと、
　第２の映像認識環境に対応する映像を分析する第２の映像分析モデルと、
　入力される映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第１の映像分析モデルから前記第２の映像分析モデルに切り替える切替手段と、を備え、
　前記切替手段は、前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力する、
　映像処理システム。
　前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第２の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
　請求項１に記載の映像処理システム。
　前記切替手段は、前記フレーム数の映像入力データを前記第１及び第２の映像分析モデルの両方に入力する、
　請求項２に記載の映像処理システム。
　前記映像入力データにおける映像認識環境の変化を予測する予測手段を備え、
　前記切替手段は、前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
　請求項１から３のいずれか一項に記載の映像処理システム。
　前記映像認識環境は、映像の品質を示す映像パラメータを含む、
　請求項１から４のいずれか一項に記載の映像処理システム。
　前記映像パラメータは、フレームレートを含み、
　前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する特定手段を備える、
　請求項５に記載の映像処理システム。
　前記映像入力データを、ネットワークを介して受信する受信手段を備え、
　前記映像認識環境は、前記受信手段が受信した前記映像入力データの通信品質を含む、
　請求項１から６のいずれか一項に記載の映像処理システム。
　前記映像認識環境は、映像を撮影したシーン、映像に含まれる物体の大きさ、映像に含まれる物体の動作速度、または、映像を撮影した撮影状態を含む、
　請求項１から７のいずれか一項に記載の映像処理システム。
　前記第１の映像分析モデルは、エッジ及びクラウドの一方に配置され、
　前記第２の映像分析モデルは、前記エッジ及び前記クラウドの他方に配置される、
　請求項１から８のいずれか一項に記載の映像処理システム。
　第１の映像認識環境に対応する映像を分析する第１の映像分析モデルと、
　第２の映像認識環境に対応する映像を分析する第２の映像分析モデルと、
　入力される映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを前記第１の映像分析モデルから前記第２の映像分析モデルに切り替える切替手段と、を備え、
　前記切替手段は、前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力する、
　映像処理装置。
　前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第２の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
　請求項１０に記載の映像処理装置。
　前記切替手段は、前記フレーム数の映像入力データを前記第１及び第２の映像分析モデルの両方に入力する、
　請求項１１に記載の映像処理装置。
　前記映像入力データにおける映像認識環境の変化を予測する予測手段を備え、
　前記切替手段は、前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
　請求項１０から１２のいずれか一項に記載の映像処理装置。
　前記映像認識環境は、映像の品質を示す映像パラメータを含む、
　請求項１０から１３のいずれか一項に記載の映像処理装置。
　前記映像パラメータは、フレームレートを含み、
　前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する特定手段を備える、
　請求項１４に記載の映像処理装置。
　入力される映像入力データでの第１の映像認識環境から第２の映像認識環境への変化に応じて、前記映像入力データを分析する映像分析モデルを、前記第１の映像認識環境に対応する映像を分析する第１の映像分析モデルから、前記第２の映像認識環境に対応する映像を分析する第２の映像分析モデルに切り替え、
　前記映像入力データでの前記第１の映像認識環境から前記第２の映像認識環境への変化に応じて、切替タイミングよりも所定期間前のデータを含む映像入力データを、前記第２の映像分析モデルに入力する、
　映像処理方法。
　前記切替タイミングよりも所定期間前のデータを含む映像入力データは、前記第２の映像分析モデルが映像認識を行うために使用するフレーム数のデータを含む映像入力データである、
　請求項１６記載の映像処理方法。
　前記フレーム数の映像入力データを前記第１及び第２の映像分析モデルの両方に入力する、
　請求項１７に記載の映像処理方法。
　前記映像入力データにおける映像認識環境の変化を予測する予測し、
　前記予測された映像認識環境の変化に応じて、前記映像分析モデルを切り替える、
　請求項１６から１８のいずれか一項に記載の映像処理方法。
　前記映像認識環境は、映像の品質を示す映像パラメータを含む、
　請求項１６から１９のいずれか一項に記載の映像処理方法。
　前記映像パラメータは、フレームレートを含み、
　前記映像入力データを入力する映像分析モデルに応じて、前記映像入力データのフレーム間隔を特定する、
　請求項２０に記載の映像処理方法。