WO2024057446A1

WO2024057446A1 - 映像処理システム、映像処理装置および映像処理方法

Info

Publication number: WO2024057446A1
Application number: PCT/JP2022/034425
Authority: WO
Inventors: フロリアンバイエ; 孝法岩井; 浩一二瓶; 勇人逸身; 勝彦高橋; 康敬馬場崎; 隆平安藤; 君朴
Original assignee: 日本電気株式会社
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2024-03-21

Abstract

映像データにおける物体の認識精度を向上することが期待できる映像処理システム、映像処理装置および映像処理方法を提供することを目的とする。本開示の映像処理システム（１０）は、映像取得手段（１１）、画質取得手段（１２）および認識手段（１３）を備える。映像取得手段（１１）は、入力映像データを取得する。画質取得手段（１２）は、入力映像データの画質を表す入力画質パラメータを取得する。認識手段（１３）は、学習画像データと学習画像データの画質を表す学習画質パラメータとに基づいて学習画像データ内の物体の認識を学習した学習済みの認識モデルに、入力映像データと入力画質パラメータとを入力し、入力映像データ内の物体を認識する。

Description

映像処理システム、映像処理装置および映像処理方法

　本開示は、映像処理システム、映像処理装置および映像処理方法に関する。

　特許文献１の技術では、システムは、移動体の周囲の状況を示す画像データを取得し、取得された画像データを圧縮して圧縮データを生成し、圧縮データを送信する。また、当該システムは、圧縮データを受信し、圧縮データを第１学習済みモデルにより改変して改変データを生成し、改変データに基づき、移動体の周囲に存在する物体を認識する物体認識処理を行う。

特開２０２２－３８３７３号公報

　特許文献１に係る技術では、圧縮による画像データ、つまり映像データの画質低下によって、物体の認識処理の精度が低下する可能性があるという課題があった。

　本開示では、そのような課題を鑑みることによって、映像データにおける物体の認識精度を向上することが期待できる映像処理システム、映像処理装置および映像処理方法を提供することを目的とする。

　本開示の映像処理システムは、
　入力映像データを取得する映像取得手段と、
　前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える。

　本開示の映像処理装置は、
　入力映像データを取得する映像取得手段と、
　前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える。

　本開示の映像処理方法は、
　入力映像データを取得し、
　前記入力映像データの画質を表す入力画質パラメータを取得し、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する。

　本開示によって、映像データにおける物体の認識精度を向上することが期待できる映像処理システム、映像処理装置および映像処理方法を提供することができる。

実施形態の概要に係る映像処理システムの構成を示すブロック図である。実施形態の概要に係る映像処理装置の構成を示すブロック図である。実施形態の概要に係る映像処理方法を示すフローチャートである。第１の実施形態に係る映像処理システムの構成を示すブロック図である。第１の実施形態に係る端末の構成を示すブロック図である。第１の実施形態に係るセンターサーバの構成を示すブロック図である。第１の実施形態に係る映像処理システムで用いられるＱＰマップを示す図である。第１の実施形態に係る映像処理システムの映像認識動作を示すフローチャートである。第１の実施形態に係る映像処理システムの映像認識動作を示すフローチャートである。第１の実施形態に係る映像処理システムのＱＰ平均値の算出方法を示す図である。第１の実施形態に係る映像処理システムの映像学習動作を示すフローチャートである。第２の実施形態に係るセンターサーバの構成を示すブロック図である。第２の実施形態に係る映像処理システムの第１の映像認識動作を示すフローチャートである。第２の実施形態に係る映像処理システムの第１の映像認識動作を詳細に示す図である。第２の実施形態に係る映像処理システムの第１の映像学習動作を示すフローチャートである。第２の実施形態に係る映像処理システムの第２の映像認識動作を示すフローチャートである。第２の実施形態に係る映像処理システムの第２の映像認識動作を詳細に示す図である。第２の実施形態に係る映像処理システムの第２の映像学習動作を示すフローチャートである。本実施形態に係るコンピュータの構成を示すブロック図である。

　以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。

（実施形態の概要）
　まず、図１を用いて、実施形態の概要に係る映像処理システム１０について説明する。映像処理システム１０は、例えば、ネットワークを介して映像を収集し、映像を認識する遠隔監視システムに適用可能である。

　図１に示すように、映像処理システム１０は、映像取得部１１、画質取得部１２、認識部１３を備える。映像取得部１１は、入力映像データを取得する。画質取得部１２は、入力映像データの画質を表す入力画質パラメータを取得する。認識部１３は、学習画像データと学習画像データの画質を表す学習画質パラメータとに基づいて学習画像データ内の物体の認識を学習した学習済みの認識モデルに、入力映像データと入力画質パラメータとを入力し、入力映像データ内の物体を認識する。なお、映像処理システム１０は、１つの装置により構成してもよいし、複数の装置により構成してもよい。

　続いて、図２を用いて、実施形態の概要に係る映像処理装置２０の構成について説明する。図２に示すように、映像処理装置２０は、図１に示した、映像取得部１１、画質取得部１２、認識部１３を備えてもよい。また、映像処理装置２０は、エッジコンピューティングで実現される場合、映像処理装置２０の一部または全部をエッジまたはクラウドに配置してもよい。例えば、エッジの端末に映像取得部１１、画質取得部１２を配置し、クラウドのサーバに認識部１３を配置してもよい。さらに、クラウドに各機能を分散配置してもよい。また、映像処理装置２０は、仮想化サーバなど仮想化技術で実現されてもよい。また、映像処理装置２０の一部または全部を現場側またはサーバ側に配置してもよい。端末が設置された現場、現場から近い場所に配置されるもの、またはネットワークの階層として端末に近い装置を現場側に配置された装置とする。また、現場から離れたところにある装置をセンター側に配置された装置とする。センター側に配置された装置は、クラウド上に配置されることもあるため、センター側をクラウド側と称することもある。

　続いて、図３を用いて、実施形態の概要に係る映像処理方法について説明する。例えば、実施形態に係る映像処理方法は、図１の映像処理システム１０や図２の映像処理装置２０により実行される。

　図３に示すように、まず、入力映像データを取得する（ステップＳ１１）。次に、入力映像データの画質を表す入力画質パラメータを取得する（ステップＳ１２）。次に、学習画像データと学習画像データの画質を表す学習画質パラメータとに基づいて学習画像データ内の物体の認識を学習した学習済みの認識モデルに、入力映像データと入力画質パラメータとを入力し、入力映像データ内の物体を認識する（ステップＳ１３）。

　上述したように、実施形態に係る映像処理システム１０では、圧縮による映像データの画質変更を考慮することによって、物体の認識処理の精度を向上することが期待できる。

（映像処理システムの基本構成）
　次に、図４を用いて、実施形態を適用するシステムの一例である映像処理システム１について説明する。図４に示すように、映像処理システム１は、カメラが撮影した映像により、当該撮影されたエリアを監視するシステムである。本実施形態においては、以降現場における作業員の作業を遠隔で監視するシステムであるものとして説明する。例えば、現場は工事現場などの作業現場、人の集まる広場、学校など、人や機械が動作するエリアであってもよい。本実施形態においては、以降作業は建設作業や土木作業等として説明するが、これに限られない。なお、映像データは、時系列の複数の画像データ（フレームとも称する）を含むため、映像データと画像データとは互いに言い換え可能である。すなわち、映像処理システムは、映像データを処理する映像処理システムであり、また、画像データを処理する画像処理システムであるとも言える。

　図４に示すように、映像処理システム１は、複数の端末１００、センターサーバ２００、基地局３００、ＭＥＣ４００を備えている。端末１００、基地局３００及びＭＥＣ４００は、現場側に配置され、センターサーバ２００は、センター側に配置されている。例えば、センターサーバ２００は、現場から離れた位置に配置されているデータセンタ等に配置されている。現場側はシステムのエッジ側であり、センター側はクラウド側でもある。

　端末１００と基地局３００との間は、ネットワークＮＷ１により通信可能に接続される。ネットワークＮＷ１は、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ（Long Term Evolution）、無線ＬＡＮなどの無線ネットワークである。基地局３００とセンターサーバ２００との間は、ネットワークＮＷ２により通信可能に接続される。ネットワークＮＷ２は、例えば、５ＧＣ（5th Generation Core network）やＥＰＣ（Evolved Packet Core）などのコアネットワーク、インターネットなどを含む。端末１００とセンターサーバ２００との間は、基地局３００を介して、通信可能に接続されているとも言える。基地局３００とＭＥＣ４００の間は任意の通信方法により通信可能に接続されるが、基地局３００とＭＥＣ４００は、１つの装置でもよい。

　端末１００は、ネットワークＮＷ１に接続される端末装置であり、現場の映像を生成する映像生成装置でもある。端末１００は、現場に設置されたカメラ１０１が撮影した映像を取得し、取得した映像を、基地局３００を介して、センターサーバ２００へ送信する。なお、カメラ１０１は、端末１００の外部に配置されてもよいし、端末１００の内部に配置されてもよい。

　端末１００は、カメラ１０１の映像を所定のビットレートに圧縮し、圧縮した映像を送信する。端末１００は、圧縮効率を最適化する圧縮効率最適化機能１０２、映像配信機能１０３を有する。圧縮効率最適化機能１０２は、ＲＯＩ（Region of Interest；注視領域とも称する）の画質を制御するＲＯＩ制御を行う。圧縮効率最適化機能１０２は、人物や物体を含むＲＯＩの画質を維持しながら、その周りの領域の画質を低画質にすることでビットレートを削減する。映像配信機能１０３は、画質が制御された映像をセンターサーバ２００へ配信する。

　基地局３００は、ネットワークＮＷ１の基地局装置であり、端末１００とセンターサーバ２００の間の通信を中継する中継装置でもある。例えば、基地局３００は、ローカル５Ｇの基地局、５ＧのｇＮＢ（next Generation Node B）、ＬＴＥのｅＮＢ（evolved Node B）、無線ＬＡＮのアクセスポイント等であるが、その他の中継装置でもよい。

　ＭＥＣ（Multi-access Edge Computing）４００は、システムのエッジ側に配置されたエッジ処理装置である。ＭＥＣ４００は、端末１００を制御するエッジサーバであり、端末のビットレートを制御する圧縮ビットレート制御機能４０１、端末制御機能４０２を有する。圧縮ビットレート制御機能４０１は、適応映像配信制御やＱｏＥ（quality of experience）制御により端末１００のビットレートを制御する。例えば、圧縮ビットレート制御機能４０１は、ネットワークＮＷ１及びＮＷ２の通信環境に応じてビットレートを抑えながら、得られる認識精度を予測し、認識精度が良くなるように各端末１００のカメラ１０１にビットレートを割り当てる。端末制御機能４０２は、割り当てられたビットレートの映像を配信するように端末１００を制御する。端末１００は、割り当て得られたビットレートとなるように映像をエンコードし、エンコードした映像を配信する。

　センターサーバ２００は、システムのセンター側に設置されたサーバである。センターサーバ２００は、１つまたは複数の物理的なサーバでもよいし、クラウド上に構築されたクラウドサーバやその他の仮想化サーバでもよい。センターサーバ２００は、現場のカメラ映像から人物の作業を認識することで、現場の作業を監視する監視装置である。センターサーバ２００は、端末１００から送信された映像データ内の人物の行動等を認識する映像認識装置でもある。

　センターサーバ２００は、映像認識機能２０１、アラート生成機能２０２、ＧＵＩ描画機能２０３、画面表示機能２０４を有する。映像認識機能２０１は、端末１００から送信された映像を学習済みの認識モデルに入力することにより、作業員が行う作業、すなわち人物の行動の種類を認識する。アラート生成機能２０２は、認識された作業に応じてアラートを生成する。ＧＵＩ描画機能２０３は、表示装置の画面にＧＵＩ（Graphical User Interface）を表示する。画面表示機能２０４は、ＧＵＩに端末１００の映像や認識結果、アラート等を表示する。

（第１の実施形態）
　以下、第１の実施形態に係る映像処理システム１の構成について説明する。映像処理システム１は、図４に示したように、複数の端末１００、センターサーバ２００、基地局３００、ＭＥＣ４００を備える。なお、各装置の構成は一例であり、後述の本実施形態に係る動作が可能であれば、その他の構成でもよい。例えば、端末１００の一部の機能をセンターサーバ２００や他の装置に配置してもよいし、センターサーバ２００の一部の機能を端末１００や他の装置に配置してもよい。

　なお、第１の実施形態に係る映像処理システム１は、実施形態の概要に係る映像処理システム１０を具体化したものである。センターサーバ２００は、実施形態の概要に係る映像処理装置２０を具体化したものである。

　続いて、図５を用いて、第１の実施形態に係る端末１００の構成について説明する。図５に示すように、端末１００は、映像取得部１１０、検出部１２０、画質変更判定部１３０、圧縮効率決定部１４０、端末通信部１５０を備えている。

　映像取得部１１０は、カメラ１０１が撮影した映像データ（入力映像データとも称する）を取得する。例えば、入力映像データには現場で作業を行う作業員である人物や、人物が使用する作業物体等が含まれる。映像取得部１１０は、時系列の複数の画像を取得する画像取得部でもある。

　検出部１２０は、取得された入力映像データ内の物体を検出する。検出部１２０は、学習済みの認識モデルを用いて、入力映像データ内の物体を検出し、検出した物体のクラスを認識する。認識モデルは、例えば畳み込みニューラルネットワーク（Convolutional Neural Network: CNN）などの機械学習モデルである。認識モデルは、物体の画像の特徴と物体のクラスとを機械学習することで物体のクラスを認識できる。物体のクラスは、例えば物体の種別を示す。物体の種別は、人、車、ロボット、ハンマーなどを含む。具体的には、検出部１２０は、学習済みの物体認識モデルを用いて、入力映像に含まれる各画像データ内の物体を検出し、検出された物体をボックス（矩形枠）で囲って表示させる。なお、矩形枠は、円形や不定形のシルエット等の枠でもよい。そして、検出部１２０は、矩形枠内の物体の画像の特徴量を算出し、算出した特徴量に基づいて物体を認識する。物体の認識結果は、認識物体ごとの、物体のクラスと物体のクラスの信頼度（クラス信頼度とも称する）の情報、物体を囲うボックスの位置座標（ボックス座標とも称する）の情報を含む。クラス信頼度は、物体を囲うボックスごとに付与され、物体のクラスがどのくらい信頼できるのかを例えば０～１００のパーセンテージで示したものである。ボックス座標は、例えば、ボックスの各頂点の座標であるが、ボックスの中心の位置でもよい。なお、物体の認識結果として、物体のクラスと物体のクラスの信頼度の情報、物体を囲うボックスの位置座標を含むとしたが、これら全てを含む必要はなく、このうちの１または２つを含むようにしてもよいし、他の情報を含んでもよい。

　画質変更判定部１３０は、物体の検出結果に基づいて、入力映像における画質を変更する画質変更領域である注視領域（ＲＯＩ）を判定する。注視領域は、画質を高画質化、すなわち鮮明化する領域である。画質変更判定部１３０は、検出された物体の中から、クラスが人物または作業物体である物体を抽出し、抽出された物体の矩形枠内を注視領域に決定する。

　圧縮効率決定部１４０は、注視領域または注視領域以外の他の領域の圧縮率を決定し、映像を圧縮する。圧縮効率決定部１４０は、決定した圧縮率により入力映像をエンコード（符号化）するエンコーダである。圧縮効率決定部１４０は、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりエンコードする。また、圧縮効率決定部１４０は、ＭＥＣ４００から割り当てられたビットレートとなるように入力映像をエンコードする。

　圧縮効率決定部１４０は、画質変更判定部１３０が決定した注視領域の画質を制御する画質制御部であり、注視領域を高画質化する高画質化部である。圧縮効率決定部１４０は、注視領域と他の領域をそれぞれ所定の圧縮率で圧縮することで、注視領域の画質が所定の品質となるようにエンコードする。すなわち、注視領域と他の領域の圧縮率を変えることで注視領域を他の領域よりも高画質化する。その他の領域を注視領域よりも低画質化しているとも言える。なお、圧縮率に限らず、映像のビットレートや画像の解像度、フレームレート等を変えることで、注視領域の画質を制御してもよい。また、画像の色の情報量、例えば、カラー、グレースケール、白黒等を変えることで、注視領域の画質を制御してもよい。

　端末通信部１５０は、圧縮効率決定部１４０がエンコードしたエンコードデータを、基地局３００を介して、センターサーバ２００へ送信する。端末通信部１５０は、基地局３００と通信可能なインタフェースであり、例えば、４Ｇ、ローカル５Ｇ／５Ｇ、ＬＴＥ、無線ＬＡＮ等の無線インタフェースであるが、その他の任意の通信方式の無線または有線インタフェースでもよい。

　続いて、図６を用いて、第１の実施形態に係るセンターサーバ２００の構成について説明する。図６に示すように、センターサーバ２００は、センター通信部２１０、デコード部２２０、画質取得部２３０、認識部２４０、記憶部２５０及び学習部２６０を備える。デコード部２２０、画質取得部２３０および認識部２４０は、第１の実施形態に係る映像取得部１１、画質取得部１２および認識部１３をそれぞれ具体化したものでもある。

　センター通信部２１０は、端末１００から送信されたエンコードデータを、基地局３００を介して受信する。センター通信部２１０は、インターネットやコアネットワークと通信可能なインタフェースであり、例えば、ＩＰ通信用の有線インタフェースであるが、その他の任意の通信方式の有線または無線インタフェースでもよい。

　デコード部２２０は、端末１００から受信したエンコードデータをデコード（復号化）する。デコード部２２０は、端末１００の符号化方式に対応し、例えば、Ｈ．２６４やＨ．２６５などの動画符号化方式によりデコードする。デコード部２２０は、各領域の圧縮率に応じてデコードし、デコードした映像データを生成する。

　画質取得部２３０は、デコードされた入力映像データに含まれる入力映像データの画質を表す画質パラメータ（入力画質パラメータとも称する）をデコード部２２０から取得する。入力画質パラメータは、例えば入力映像データのピクセルブロック毎の画質の度合いを２次元的に表したマップである。より詳細には、入力画質パラメータは、例えばＱＰマップである。ＱＰマップは、図７に示すように、入力映像データのピクセルブロック毎の圧縮度合い（つまりＱＰ値）を２次元的に表したマップである。図７では、ピクセルブロックの輝度が高い程、ＱＰ値が高くなる、すなわち圧縮度合いが高くなることを示す。一方、ピクセルブロックの輝度が低い程、ＱＰ値が低くなる、すなわち圧縮度合いが低くなることを示す。入力画質パラメータはＱＰマップに限らず、ピクセルブロック毎のＲＭＳＥ値で構成されるＲＭＳＥマップであっても良い。その場合、ＲＭＳＥマップは端末１００で計算され、端末通信部１５０、基地局３００、センター通信部２１０、デコード部２２０を経て画質取得部２３０へ伝達されても良い。

　図６の説明に戻る。記憶部２５０は、学習済みの認識モデルを記憶する。学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含む。第１認識モデルは、例えばＣＮＮなどのニューラルネットワークのモデルである。第２認識モデルは、ＭＬＰ（Multilayer perceptron）などのニューラルネットワークのモデルである。

　認識部２４０は、デコードされた入力映像データに含まれる入力映像データと入力映像データに対応する入力画質パラメータとを取得する。認識部２４０は、入力映像データと入力画質パラメータとを学習済みの認識モデルに入力し、入力映像データ内の物体を認識する。例えば、認識部２４０は、作業員が行う作業、すなわち人物の行動の種類を認識する。

　具体的には、認識部２４０は、入力映像データを学習済みの第１認識モデルに入力し、入力映像データ内の物体を認識する。物体の認識結果は、認識物体ごとの、物体のクラスと物体のクラス信頼度の情報とボックス座標の情報とを含む。ここで、入力映像データの画質が物体の認識結果に考慮されていないため、学習済みの第１認識モデルによる物体の認識精度には改善の余地がある。例えば入力映像データ内の画質が劣化している領域では、学習済みの第１認識モデルによる物体の認識精度は低くなる可能性がある。そのため、認識部２４０は、学習済みの第１認識モデルによる物体の認識結果に対して、画質を考慮した補正を行う。具体的には、認識部２４０は、学習済みの第１認識モデルによる物体の認識結果と学習済みの第１認識モデルによって認識された物体に対応する画質パラメータとを学習済みの第２認識モデルに入力し、学習済みの第１認識モデルによる物体の認識結果を補正する。例えば、認識部２４０は、物体の画質が低い場合には物体の認識結果であるクラス信頼度を少し低く修正する。

　学習部２６０は、学習画像データと学習画像データの画質を表す学習画質パラメータとに基づいて学習画像データ内の物体の認識を学習した学習済みの認識モデルを生成する。具体的には、学習部２６０は、学習画像データに基づいて学習画像データ内の物体の認識を学習した学習済みの第１認識モデルを生成する。また、学習部２６０は、学習済みの第１認識モデルによる物体の認識結果と学習済みの第１認識モデルによって認識された物体に対応する学習画質パラメータとに基づいて、学習済みの第１認識モデルによる物体の認識結果の補正を学習した学習済みの第２認識モデルを生成する。なお、学習部２６０は、学習済みの第１認識モデルを生成せず、予め生成された学習済みの第１認識モデルを用いてもよい。

　続いて、図８および図９を用いて、第１の実施形態に係る映像処理システム１の物体認識動作を説明する。

　まず、映像処理システム１の端末１００は、カメラ１０１から現場を撮影した入力映像データを取得する（ステップＳ１０１）。
　次に、検出部１２０は、取得した入力映像データに基づいて物体を検出する（ステップＳ１０２）。検出部１２０は、学習済みの端末１００の認識モデルを用いて、入力映像データ内の物体をボックスで囲うことによって検出し、検出したボックス内の物体のクラスを認識する。物体の認識結果は、物体ごとの、物体のクラスと物体のクラス信頼度の情報と物体のボックス座標の情報とを含む。

　次に、画質変更判定部１３０は、物体の認識結果に基づいて、入力映像データにおける注視領域を決定する（ステップＳ１０３）。具体的には、画質変更判定部１３０は、認識物体の中から、クラスが人物または作業物体である物体を抽出し、抽出された物体のボックス内を注視領域に決定する。

　次に、圧縮効率決定部１４０は、決定した注視領域に基づいて、入力映像データをエンコードする（ステップＳ１０４）。具体的には、圧縮効率決定部１４０は、注視領域が他の領域よりも高画質となるように、入力映像データをエンコードする。
　次に、端末通信部１５０は、エンコードされたエンコードデータを、基地局３００を介してセンターサーバ２００に送信する（ステップＳ１０５）。

　次に、センターサーバ２００のセンター通信部２１０は、エンコードデータを端末１００から受信する（ステップＳ１０６）。
　次に、デコード部２２０は、エンコードデータをデコードする（ステップＳ１０７）。具体的には、デコード部２２０は、各領域の圧縮率に応じてエンコードデータをデコードし、注視領域が高画質化された入力映像データを生成する。

　次に、画質取得部２３０は、デコードされた入力映像データに対応するＱＰマップをデコード部２２０から取得する（ステップＳ１０８）。

　次に、図９に示すように、認識部２４０は、入力映像データを学習済みの第１認識モデルに入力し、入力映像データ内の物体を認識する（ステップＳ１０９）。物体の認識結果は、認識物体ごとの、物体のクラスと物体のクラス信頼度の情報とボックス座標の情報とを含む。認識部２４０は、物体認識結果として、認識物体ごとに、クラス信頼度をベクトル形にしたクラス信頼度ベクトルと、ボックス座標をベクトル形にしたボックス座標ベクトルとを出力する。なお、認識部２４０は、クラス信頼度が所定範囲（例えば４０％～６０％）の認識物体のクラス信頼度ベクトルおよびボックス座標ベクトルを出力してもよい。

　次に、認識部２４０は、ＱＰマップ中の認識物体に対応する領域ごとにＱＰ値の平均値（ＱＰ平均値とも呼ぶ）を算出する（ステップＳ１１０）。具体的には、認識部２４０は、図１０に示すように、各認識物体のボックス座標ベクトルに基づいて、ＱＰマップ中の認識物体に対応する領域Ａ１、領域Ａ２および領域Ａ３を決定する。そして、認識部２４０は、領域Ａ１、領域Ａ２および領域Ａ３それぞれで、ピクセルブロックごとに割り当てられたＱＰ値の平均値を算出する。図９の説明に戻る。そして、認識部２４０は、ＱＰマップ中の認識物体に対応する領域ごとに、算出されたＱＰ平均値をベクトル形にしたＱＰ平均値ベクトルを出力する。なお、認識部２４０は、ＱＰマップ中の認識物体に対応する領域ごとに、平均値に限られず最大値等を算出してもよい。ＱＰマップは、ＱＰマップから特徴量を抽出した特徴マップに置き換えられてもよい。

　次に、認識部２４０は、認識物体ごとに、ボックス座標ベクトルとＱＰ平均値ベクトルとクラス信頼度ベクトルとを結合した結合データを生成する（ステップＳ１１１）。
　次に、認識部２４０は、結合データを学習済みの第２認識モデルに入力し、認識物体ごとにボックス座標ベクトルとクラス信頼度ベクトルとを補正する（ステップＳ１１２）。認識部２４０は、結合データを第２認識モデルに入力し、補正後のボックス座標ベクトルと補正後のクラス信頼度ベクトルとを出力する。認識部２４０は、補正後のボックス座標ベクトルと補正後のクラス信頼度ベクトルから、例えば作業員が行う作業、すなわち人物の行動の種類を認識する。

　続いて、図１１を用いて、第１の実施形態に係る映像処理システム１の物体学習動作を説明する。
　図１１に示すように、まず、映像処理システム１のセンターサーバ２００の学習部２６０は、学習映像データと学習映像データに対応するＱＰマップとを取得する（ステップＳ２０１）。例えば学習部２６０は、デコード部２２０によってデコードされた映像データを学習映像データとして取得する。また、学習部２６０は、デコード部２２０から学習映像データに対応するＱＰマップを取得する。

　次に、学習部２６０は、学習映像データを学習済みの第１認識モデルに入力し、学習映像データ内の物体を認識する（ステップＳ２０２）。具体的には、学習部２６０は、学習映像データを第１認識モデルに入力し、学習映像データ内の物体をボックスで囲うことによって検出する。認識部２４０は、検出したボックス内の物体を認識する。物体認識結果は、認識物体ごとの、物体のクラス信頼度とボックス座標を含む。認識部２４０は、物体認識結果として、認識物体ごとに、クラス信頼度をベクトル形にしたクラス信頼度ベクトルと、ボックス座標をベクトル形にしたボックス座標ベクトルとを出力する。

　次に、学習部２６０は、ＱＰマップ中の認識物体に対応する領域ごとにＱＰ平均値を算出する（ステップＳ２０３）。学習部２６０は、ＱＰマップ中の認識物体に対応する領域ごとに、算出されたＱＰ平均値をベクトル形にしたＱＰ平均値ベクトルを出力する。

　次に、学習部２６０は、認識物体ごとに、ボックス座標ベクトルとＱＰ平均値ベクトルとクラス信頼度ベクトルとを結合した結合データを生成する（ステップＳ２０４）。

　次に、学習部２６０は、結合データを第２認識モデルに入力し、認識物体ごとにボックス座標ベクトルとクラス信頼度ベクトルとを補正する（ステップＳ２０５）。そして、学習部２６０は、補正後のボックス座標ベクトルと補正後のクラス信頼度ベクトルとを出力する。

　次に、学習部２６０は、各種ロス関数を用いて、補正後のボックス座標ベクトルと補正後のクラス信頼度ベクトルと正解データとから第２認識モデルを学習する（ステップＳ２０６）。そうすることによって、学習部２６０は、学習済みの第２認識モデルを生成する。例えば、学習部２６０は、この認識物体では、ＱＰ値で示される圧縮度合いが高い、つまり画質が落ちているから、クラス信頼度が低く出てしまった等を学習する。

　上述したように、映像処理システム１は、入力映像データと入力画質パラメータ（例えばＱＰマップ）とを学習済みの認識モデルに入力することによって入力映像データ内の物体を認識する。具体的には、映像処理システム１は、入力映像データを学習済みの第１認識モデルに入力し、その認識結果と入力画質パラメータとを学習済みの第２認識モデルに入力し、第１認識モデルによる認識結果を補正する。
　したがって、映像処理システム１は、入力映像データ内の物体認識時に様々な画質の入力映像データに対応することができ、物体認識の精度を向上することが期待できる。

　また、映像処理システム１は、計算リソースの効率的な使用やネットワーク帯域の効率的な使用のために、エッジ側の端末１００で圧縮による入力映像データの画質を動的に変更する。映像処理システム１は、センター側のセンターサーバ２００において、そのような入力映像データの画質変更を考慮して、入力映像データ内の物体の認識を精度よく行うことができる。

（第２の実施形態）
　以下、第２の実施形態に係る映像処理システム２の構成について説明する。映像処理システム２は、図４に示す映像処理システム１のセンターサーバ２００をセンターサーバ５００に変更した構成を備える。端末１００の基本構成は、図５に示した通りである。
　なお、第２の実施形態に係る映像処理システム２は、実施形態の概要に係る映像処理システム１０を具体化したものである。センターサーバ５００は、実施形態の概要に係る映像処理装置２０を具体化したものである。

　第１の実施形態に係る映像処理システム１は、学習済みの第１認識モデル（例えばＣＮＮ）の認識結果を、画質パラメータを用いて学習済みの第２認識モデル（例えばＭＬＰ）を用いて補正することで、物体認識精度を向上する。一方、第２の実施形態に係る映像処理システム２は、画質パラメータを学習済みの認識モデル（例えばＣＮＮ）の入力データとして用いることで、物体認識精度を向上する。

　まず、図１２を用いて、第２の実施形態に係る映像処理システム２のセンターサーバ５００の構成について説明する。
　図１２に示すように、映像処理システム２のセンターサーバ５００は、センター通信部２１０、デコード部２２０、画質取得部２３０、認識部２７０、記憶部２８０および学習部２９０を備える。認識部２７０は、第１の実施形態に係る認識部１３を具体化したものでもある。

　記憶部２８０は、学習済みの認識モデルを記憶する。認識モデルは、例えば畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークのモデルである。ＣＮＮは、特徴量抽出部とクラス分類部を備える。特徴量抽出部は、畳み込み処理、活性化または正規化線形ユニット（ＲｅＬＵ）の処理やプーリング処理などによって、入力映像データからピクセルブロックごとの特徴量を抽出した特徴量マップを生成する。認識モデルの特徴量抽出部は、連続的に処理をするｎ（ｎは自然数）個のレイヤを備え、各レイヤを用いて入力映像データまたは前のレイヤで生成された特徴量マップに基づいて特徴量マップを生成する。レイヤは、畳み込み処理、活性化または正規化線形ユニット（ＲｅＬＵ）の処理またはプーリング処理等を行うレイヤである。特徴量抽出部には、例えばＲｅｓＮｅｔ５０などのモデルが用いられる。クラス分類部は、全結合処理などによって、特徴量抽出部で生成された特徴量マップから入力映像データ内の物体を認識する。クラス分類部は、物体認識結果として、物体のクラスの信頼度やＳｏｆｔＭａｘ　Ａｃｔｉｖａｔｉｏｎなどを出力する。クラス分類部には、ＳｏｆｔＭａｘなどのモデルが用いられる。

　認識部２７０は、デコード部２２０でデコードされた入力映像データと画質取得部２３０で取得された入力画質パラメータを学習済みの認識モデルの特徴量抽出部に入力し、ピクセルブロック毎の特徴量を抽出した特徴量マップを生成する。入力画質パラメータは、入力映像データのピクセルブロック毎の画質を２次元マップで表したデータであり、例えばＱＰマップである。認識部２７０は、生成された特徴量マップを学習済みの認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する。

　具体的には、認識部２７０は、第１の物体認識動作と第２の物体認識動作を実行するための機能を有する。
　認識部２７０は、第１の物体認識動作を実行するための次の機能を有する。認識部２７０は、入力画質パラメータのサイズを入力映像データのサイズと一致するように変更する。当該サイズは、縦のピクセル数×横のピクセル数で示される。認識部２７０は、入力映像データとサイズが変更された入力画質パラメータとを認識モデルの特徴量抽出部に入力し、特徴量マップを生成する。認識部２７０は、生成された特徴量マップを認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する。つまり、認識部２７０は、入力映像データとサイズが変更された入力画質パラメータとを認識モデルの特徴量抽出部の１番目のレイヤに入力し、特徴量マップを生成する。その後、認識部２７０は、ｎ番目のレイヤで生成された特徴量マップを認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する。

　また、認識部２７０は、第２の物体認識動作を実行するための次の機能を有する。認識部２７０は、入力映像データを１番目のレイヤに入力し、特徴量マップを生成する。その後、認識部２７０は、入力画質パラメータをｋ（ｋは自然数、２≦ｋ≦ｎ）番目のレイヤに入力し、入力画質パラメータとｋ－１番目のレイヤで生成された特徴量マップとに基づいて、特徴量マップを生成する。ここで、ｋ番目のレイヤには、ｋ－１番目のレイヤで生成された特徴量マップのサイズと入力画質パラメータのサイズとが一致するレイヤが設定される。認識部２７０は、ｎ番目のレイヤで生成された特徴量マップを認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する。

　学習部２９０は、学習映像データと学習映像データに対応する学習画質パラメータとを取得する。学習部２９０は、学習映像データと学習画質パラメータとに基づいて認識モデルを学習させる。学習部２９０は、認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する。

　具体的には、学習部２９０は、第１の物体認識動作の学習動作である第１の物体学習動作と第２の物体認識動作の学習動作である第２の物体学習動作と実行するための機能を有する。
　学習部２９０は、第１の物体学習動作を実行するための次の機能を有する。学習部２９０は、学習映像データと学習映像データに対応する学習画質パラメータとを取得する。学習部２９０は、学習画質パラメータのサイズを学習映像データのサイズと一致するように変更する。学習部２９０は、学習映像データと学習画質パラメータとを認識モデルの特徴量抽出部に入力し、認識モデルを学習させる。学習部２９０は、認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する。

　また、学習部２９０は、第２の物体学習動作を実行するための次の機能を有する。学習部２９０は、学習映像データと学習映像データに対応する学習画質パラメータとを取得する。学習部２９０は、学習映像データを認識モデルの特徴量抽出部の１番目のレイヤに入力する。学習部２９０は、入力画質パラメータをｋ番目のレイヤに入力する。ｋ番目のレイヤは、ｋ－１番目のレイヤで生成された特徴量マップのサイズと学習画質パラメータのサイズとが一致するレイヤが設定される。そして、学習部２９０は、認識モデルを学習させる。さらに、学習部２９０は、認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する。

　続いて、図１３を用いて、第２の実施形態に係る映像処理システム２の第１の物体認識動作について説明する。ここで、第１の実施形態に係る映像処理システム１の物体認識動作（図８および図９を参照）と同様の処理については説明を省略する。

　まず、映像処理システム２は、上述したステップＳ１０１～ステップＳ１０８の処理を実行する（ステップＳ３０１）。

　次に、映像処理システム２のセンターサーバ５００の認識部２７０は、入力映像データのサイズとＱＰマップのサイズとが一致するようにＱＰマップをアップサンプリングしたデータを生成する（ステップＳ３０２）。次に、認識部２７０は、入力映像データとＱＰマップのアップサンプリングしたデータとを認識モデルの特徴量抽出部に入力し、特徴量マップを生成する（ステップＳ３０３）。次に、認識部２７０は、特徴量マップを認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する（ステップＳ３０４）。

　続いて、図１４を用いて、映像処理システム２の第１の物体認識動作の詳細例について説明する。
　図１４に示すように、まず、映像処理システム２の認識部２７０は、ＱＰマップＤ１のサイズと入力映像データであるＲＧＢ画像Ｄ３のサイズとが一致するようにＱＰマップのアップサンプリングしたデータＤ２を生成する。次に、認識部２７０は、ＱＰマップのアップサンプリングしたデータＤ２とＲＧＢ画像Ｄ３とを学習済みの認識モデルＭ１の特徴量抽出部Ｍ１１に入力する。入力データは、ＲＧＢ画像Ｄ３だけを入力する場合には３次元のデータ（縦のピクセル数×横のピクセル数×チャネル数）となるが、ＲＧＢ画像Ｄ３とＱＰマップのアップサンプリングしたデータＤ２とを入力する場合には４次元のデータとなる。そして、認識部２７０は、特徴量マップを生成する。次に、認識部２７０は、生成された特徴量マップを学習済みの認識モデルＭ１のクラス分類部Ｍ１２に入力し、ＲＧＢ画像Ｄ３内の物体を認識する。

　続いて、図１５を用いて、第２の実施形態に係る映像処理システム２の第１の物体学習動作について説明する。
　まず、学習部２９０は、学習映像データと学習映像データに対応するＱＰマップとを取得する（ステップＳ４０１）。次に、学習部２９０は、ＱＰマップのサイズを学習映像データのサイズと一致するようにアップサンプリングしたデータを生成する（ステップＳ４０２）。次に、学習部２９０は、学習映像データとＱＰマップとを認識モデルの特徴量抽出部に入力する（ステップＳ４０３）。次に、学習部２９０は、認識モデルを学習する（ステップＳ４０４）。次に、学習部２９０は、学習した認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する（ステップＳ４０５）。

　続いて、図１６を用いて、第２の実施形態に係る映像処理システム２の第２の物体認識動作について説明する。ここで、第１の実施形態に係る映像処理システム１の物体認識動作（図８および図９を参照）と同様の処理については説明を省略する。

　まず、映像処理システム２は、上述したステップＳ１０１～ステップＳ１０８の処理を実行する（ステップＳ５０１）。
　次に、映像処理システム２のセンターサーバ５００の認識部２７０は、入力映像データを認識モデルの特徴量抽出部の１番目のレイヤに入力し、特徴量マップを生成する（ステップＳ５０２）。以降、２番目～ｎ（ｎは自然数）番目のレイヤは、ｎ―１番目のレイヤで生成された特徴量マップから特徴量マップを生成する。ただし、後述するｋ番目のレイヤでは処理が異なる。

　次に、認識部２７０は、ｋ番目のレイヤにＱＰマップを入力し、ｋ－１番目のレイヤで生成された特徴量マップとＱＰマップとに基づいて特徴量マップを生成する（ステップＳ５０３）。ここで、ＱＰマップが入力されるｋ番目のレイヤには、ｋ－１番目のレイヤで生成された特徴量マップのサイズとＱＰマップのサイズとが一致するレイヤが設定される。
　次に、認識部２７０は、ｎ番目のレイヤで生成された特徴量マップを学習済みの認識モデルのクラス分類部に入力し、入力映像データ内の物体を認識する（ステップＳ５０４）。

　続いて、図１７を用いて、第２の実施形態に係る映像処理システム２の第２の物体認識動作の詳細例について説明する。本図に示す一例では、上述したｎの値は５であり、ｋの値は５である。

　図１７に示すように、まず、映像処理システム２の認識部２７０は、入力映像データであるＲＧＢ画像Ｄ５を学習済みの認識モデルＭ２の特徴量抽出部Ｍ２１の１番目のレイヤＬ１に入力し、特徴量マップを生成する。次に、認識部２７０は、１番目のレイヤＬ１で生成された特徴量マップを２番目のレイヤＬ２に入力し、特徴量マップを生成する。次に、認識部２７０は、２番目のレイヤＬ２で生成された特徴量マップを３番目のレイヤＬ３に入力し、特徴量マップを生成する。次に、認識部２７０は、３番目のレイヤＬ３で生成された特徴量マップを４番目のレイヤＬ４に入力し、特徴量マップを生成する。

　次に、認識部２７０は、ＱＰマップＤ４と４番目のレイヤＬ４で生成された特徴量マップと５番目のレイヤＬ５に入力し、ＱＰマップＤ４と４番目のレイヤＬ４で生成された特徴量マップとに基づいて特徴量マップを生成する。ここで、４番目のレイヤＬ４で生成された特徴量マップのサイズとＱＰマップのサイズとは一致する。次に、認識部２７０は、５番目のレイヤＬ５で生成された特徴量マップを学習済みの認識モデルＭ２のクラス分類部Ｍ２２に入力し、入力映像データ内の物体を認識する。

　続いて、図１８を用いて、第２の実施形態に係る映像処理システム２の第１の物体認識動作について説明する。
　まず、学習部２９０は、学習映像データと学習映像データに対応するＱＰマップとを取得する（ステップＳ６０１）。次に、学習部２９０は、学習映像データを認識モデルの特徴量抽出部の１番目のレイヤに入力する（ステップＳ６０２）。次に、学習部２９０は、入力画質パラメータをｋ番目のレイヤに入力する（ステップＳ６０３）。ｋ番目のレイヤは、ｋ－１番目のレイヤで生成された特徴量マップのサイズと学習画質パラメータのサイズとが一致するレイヤが設定される。次に、学習部２９０は、認識モデルを学習させる（ステップＳ６０４）。次に、学習部２９０は、認識モデルを評価し、評価結果に基づいて学習済みの認識モデルを生成する（ステップＳ６０５）。

　上述したように、入力映像データと入力画質パラメータ（例えばＱＰマップ）とを学習済みの認識モデルに入力することによって入力映像データ内の物体を認識する。
　第１の物体認識動作では、映像処理システム２は、入力画質パラメータのサイズを入力映像データのサイズと同じサイズに変更し、入力画質パラメータを入力映像データと共に学習済みの認識モデルの特徴量抽出部に入力する。そうすることで、映像処理システム２は、入力画質パラメータを学習済みの認識モデルの特徴量抽出部における入力映像データの特徴量として利用できるようになる。

　また、第２の物体認識動作では、映像処理システム２は、学習済みの認識モデルの特徴量抽出部のｋ－１番目のレイヤで生成された特徴量マップのサイズと入力画質パラメータのサイズとが一致するｋ番目のレイヤを設定する。そして、映像処理システム２は、ｋ番目のレイヤに入力画質パラメータを入力する。そうすることで、映像処理システム２は、入力画質パラメータを学習済みの認識モデルの特徴量抽出部における入力映像データの特徴量として利用できるようになる。

　したがって、映像処理システム２は、入力映像データ内の物体認識時に様々な画質の入力映像データに対応することができ、物体認識の精度を向上することが期待できる。
　また、映像処理システム２は、計算リソースの効率的な使用やネットワーク帯域の効率的な使用のために、エッジ側の端末１００で圧縮による入力映像データの画質を動的に変更する。映像処理システム２は、センター側のセンターサーバ５００において、そのような入力映像データの画質変更を考慮して、入力映像データ内の物体の認識を精度よく行うことができる。

　上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、図１９に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ１００１及び記憶装置であるメモリ１００２を有するコンピュータ１０００により実現してもよい。例えば、メモリ１００２に実施形態における方法（映像処理方法）を行うためのプログラムを格納し、各機能を、メモリ１００２に格納されたプログラムをプロセッサ１００１で実行することにより実現してもよい。

　これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
　（付記１）
　入力映像データを取得する映像取得手段と、
　前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える
　映像処理システム。
　（付記２）
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記認識手段は、
　前記入力映像データを前記学習済みの第１認識モデルに入力し、前記入力映像データ内の物体を認識し、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第２認識モデルに入力し、前記学習済みの第１認識モデルによる物体の認識結果を補正する
　付記１に記載の映像処理システム。
　（付記３）
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記学習済みの第１認識モデルは、
　前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第１認識モデルによる物体の認識結果の補正を学習した前記学習済みの第２認識モデルを生成する学習手段をさらに備える
　付記１に記載の映像処理システム。
　（付記４）
　前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を２次元マップで表したデータであり、
　前記認識手段は、
　前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
　前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　付記１に記載の映像処理システム。
　（付記５）
　前記認識手段は、
　前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
　前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
　前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　付記４に記載の映像処理システム。
　（付記６）
　前記認識モデルの特徴量抽出手段は、連続的に処理をするｎ（ｎは自然数）個のレイヤを備え、
　前記認識手段は、
　前記入力映像データを１番目の前記レイヤに入力し、特徴量マップを生成し、
　前記入力画質パラメータとｋ－１（ｋは自然数、２≦ｋ≦ｎ）番目の前記レイヤで生成された特徴量マップとをｋ番目の前記レイヤに入力し、特徴量マップを生成し、
　ｎ番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
　前記入力画質パラメータのサイズは、ｋ－１番目の前記レイヤで生成された特徴量マップのサイズと一致する
　付記４に記載の映像処理システム。
　（付記７）
　入力映像データを取得する映像取得手段と、
　前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える
　映像処理装置。
　（付記８）
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記認識手段は、
　前記入力映像データを前記学習済みの第１認識モデルに入力し、前記入力映像データ内の物体を認識し、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第２認識モデルに入力し、前記学習済みの第１認識モデルによる物体の認識結果を補正する
　付記７に記載の映像処理装置。
　（付記９）
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記学習済みの第１認識モデルは、前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第１認識モデルによる物体の認識結果の補正を学習した前記学習済みの第２認識モデルを生成する学習手段をさらに備える
　付記７に記載の映像処理装置。
　（付記１０）
　前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を２次元マップで表したデータであり、
　前記認識手段は、
　前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
　前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　付記７に記載の映像処理装置。
　（付記１１）
　前記認識手段は、
　前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
　前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
　前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　付記１０に記載の映像処理装置。
　（付記１２）
　前記認識モデルの特徴量抽出手段は、連続的に処理をするｎ（ｎは自然数）個のレイヤを備え、
　前記認識手段は、
　前記入力映像データを１番目の前記レイヤに入力し、特徴量マップを生成し、
　前記入力画質パラメータとｋ－１（ｋは自然数、２≦ｋ≦ｎ）番目の前記レイヤで生成された特徴量マップとをｋ番目の前記レイヤに入力し、特徴量マップを生成し、
　ｎ番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
　前記入力画質パラメータのサイズは、ｋ－１番目の前記レイヤで生成された特徴量マップのサイズと一致する
　付記１０に記載の映像処理装置。
　（付記１３）
　入力映像データを取得し、
　前記入力映像データの画質を表す入力画質パラメータを取得し、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する
　映像処理方法。
　（付記１４）
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記入力映像データを前記学習済みの第１認識モデルに入力し、前記入力映像データ内の物体を認識し、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第２認識モデルに入力し、前記学習済みの第１認識モデルによる物体の認識結果を補正する
　付記１３に記載の映像処理方法。
　（付記１５）
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記学習済みの第１認識モデルは、前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第１認識モデルによる物体の認識結果の補正を学習した前記学習済みの第２認識モデルを生成する
　付記１３に記載の映像処理方法。
　（付記１６）
　前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を２次元マップで表したデータであり、
　前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
　前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　付記１３に記載の映像処理方法。
　（付記１７）
　前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
　前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
　前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　付記１６に記載の映像処理方法。
　（付記１８）
　前記認識モデルの特徴量抽出手段は、連続的に処理をするｎ（ｎは自然数）個のレイヤを備え、
　前記入力映像データを１番目の前記レイヤに入力し、特徴量マップを生成し、
　前記入力画質パラメータとｋ－１（ｋは自然数、２≦ｋ≦ｎ）番目の前記レイヤで生成された特徴量マップとをｋ番目の前記レイヤに入力し、特徴量マップを生成し、
　ｎ番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
　前記入力画質パラメータのサイズは、ｋ－１番目の前記レイヤで生成された特徴量マップのサイズと一致する
　付記１６に記載の映像処理方法。

１、２、１０　映像処理システム
１１　映像取得部（映像取得手段）
１２　画質取得部（画質取得手段）
１３　認識部（認識手段）
２０　映像処理装置
１００　端末
１０１　カメラ
１０２　圧縮効率最適化機能
１１０　映像取得部
１２０　検出部
１３０　画質変更判定部
１４０　圧縮効率決定部
１５０　端末通信部
２００、５００　センターサーバ
２０１　映像認識機能
２０２　アラート生成機能
２０３　ＧＵＩ描画機能
２０４　画面表示機能
２１０　センター通信部
２２０　デコード部
２３０　画質取得部
２４０、２７０　認識部
２５０、２８０　記憶部
２６０、２９０　学習部
３００　基地局
４００　ＭＥＣ
４０１　圧縮ビットレート制御機能
１０００　コンピュータ
１００１　プロセッサ
１００２　メモリ

Claims

　入力映像データを取得する映像取得手段と、
　前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える
　映像処理システム。
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記認識手段は、
　前記入力映像データを前記学習済みの第１認識モデルに入力し、前記入力映像データ内の物体を認識し、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第２認識モデルに入力し、前記学習済みの第１認識モデルによる物体の認識結果を補正する
　請求項１に記載の映像処理システム。
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記学習済みの第１認識モデルは、
　前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第１認識モデルによる物体の認識結果の補正を学習した前記学習済みの第２認識モデルを生成する学習手段をさらに備える
　請求項１に記載の映像処理システム。
　前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を２次元マップで表したデータであり、
　前記認識手段は、
　前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
　前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　請求項１に記載の映像処理システム。
　前記認識手段は、
　前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
　前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
　前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　請求項４に記載の映像処理システム。
　前記認識モデルの特徴量抽出手段は、連続的に処理をするｎ（ｎは自然数）個のレイヤを備え、
　前記認識手段は、
　前記入力映像データを１番目の前記レイヤに入力し、特徴量マップを生成し、
　前記入力画質パラメータとｋ－１（ｋは自然数、２≦ｋ≦ｎ）番目の前記レイヤで生成された特徴量マップとをｋ番目の前記レイヤに入力し、特徴量マップを生成し、
　ｎ番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
　前記入力画質パラメータのサイズは、ｋ－１番目の前記レイヤで生成された特徴量マップのサイズと一致する
　請求項４に記載の映像処理システム。
　入力映像データを取得する映像取得手段と、
　前記入力映像データの画質を表す入力画質パラメータを取得する画質取得手段と、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する認識手段を備える
　映像処理装置。
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記認識手段は、
　前記入力映像データを前記学習済みの第１認識モデルに入力し、前記入力映像データ内の物体を認識し、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第２認識モデルに入力し、前記学習済みの第１認識モデルによる物体の認識結果を補正する
　請求項７に記載の映像処理装置。
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記学習済みの第１認識モデルは、前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第１認識モデルによる物体の認識結果の補正を学習した前記学習済みの第２認識モデルを生成する学習手段をさらに備える
　請求項７に記載の映像処理装置。
　前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を２次元マップで表したデータであり、
　前記認識手段は、
　前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
　前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　請求項７に記載の映像処理装置。
　前記認識手段は、
　前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
　前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
　前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　請求項１０に記載の映像処理装置。
　前記認識モデルの特徴量抽出手段は、連続的に処理をするｎ（ｎは自然数）個のレイヤを備え、
　前記認識手段は、
　前記入力映像データを１番目の前記レイヤに入力し、特徴量マップを生成し、
　前記入力画質パラメータとｋ－１（ｋは自然数、２≦ｋ≦ｎ）番目の前記レイヤで生成された特徴量マップとをｋ番目の前記レイヤに入力し、特徴量マップを生成し、
　ｎ番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
　前記入力画質パラメータのサイズは、ｋ－１番目の前記レイヤで生成された特徴量マップのサイズと一致する
　請求項１０に記載の映像処理装置。
　入力映像データを取得し、
　前記入力映像データの画質を表す入力画質パラメータを取得し、
　学習画像データと前記学習画像データの画質を表す学習画質パラメータとに基づいて前記学習画像データ内の物体の認識を学習した学習済みの認識モデルに、前記入力映像データと前記入力画質パラメータとを入力し、前記入力映像データ内の物体を認識する
　映像処理方法。
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記入力映像データを前記学習済みの第１認識モデルに入力し、前記入力映像データ内の物体を認識し、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記入力画質パラメータとを前記学習済みの第２認識モデルに入力し、前記学習済みの第１認識モデルによる物体の認識結果を補正する
　請求項１３に記載の映像処理方法。
　前記学習済みの認識モデルは、学習済みの第１認識モデルと学習済みの第２認識モデルとを含み、
　前記学習済みの第１認識モデルは、前記学習画像データに基づいて前記学習画像データ内の物体の認識を学習したモデルあり、
　前記学習済みの第１認識モデルによる物体の認識結果と前記学習済みの第１認識モデルによって認識された物体に対応する前記学習画質パラメータとに基づいて、前記学習済みの第１認識モデルによる物体の認識結果の補正を学習した前記学習済みの第２認識モデルを生成する
　請求項１３に記載の映像処理方法。
　前記入力画質パラメータは、前記入力映像データのピクセルブロック毎の画質を２次元マップで表したデータであり、
　前記入力映像データと前記入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段に入力し、特徴量マップを生成し、
　前記生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　請求項１３に記載の映像処理方法。
　前記入力画質パラメータのサイズを前記入力映像データのサイズと一致するように変更し、
　前記入力映像データと前記サイズが変更された入力画質パラメータとを前記学習済みの認識モデルの特徴量抽出手段を入力し、特徴量マップを生成し、
　前記特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識する
　請求項１６に記載の映像処理方法。
　前記認識モデルの特徴量抽出手段は、連続的に処理をするｎ（ｎは自然数）個のレイヤを備え、
　前記入力映像データを１番目の前記レイヤに入力し、特徴量マップを生成し、
　前記入力画質パラメータとｋ－１（ｋは自然数、２≦ｋ≦ｎ）番目の前記レイヤで生成された特徴量マップとをｋ番目の前記レイヤに入力し、特徴量マップを生成し、
　ｎ番目の前記レイヤで生成された特徴量マップを前記学習済みの認識モデルのクラス分類手段に入力し、前記入力映像データ内の物体を認識し、
　前記入力画質パラメータのサイズは、ｋ－１番目の前記レイヤで生成された特徴量マップのサイズと一致する
　請求項１６に記載の映像処理方法。