WO2023053166A1

WO2023053166A1 - 映像処理システム、情報処理装置、映像処理方法、及び記録媒体

Info

Publication number: WO2023053166A1
Application number: PCT/JP2021/035513
Authority: WO
Inventors: フロリアンバイエ; 浩一二瓶; チャルヴィヴィタル; 勇人逸身; 悠介篠原; 亜南沢辺; 孝法岩井
Original assignee: 日本電気株式会社
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2023-04-06
Also published as: JPWO2023053166A1

Abstract

ビットレート又は画像認識精度を好適に推定するために、映像処理システム（１）は、過去における映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得部（１１）と、未来における映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する判定部（１２）を備えている。

Description

映像処理システム、情報処理装置、映像処理方法、及び記録媒体

　本発明は、映像処理システム、情報処理装置、映像処理方法、及び記録媒体に関する。

　ユーザが知覚する通信品質であるＱｏＥ（Quality of Experience）を向上させる技術が知られている。特許文献１には、通信装置のリソースを、ユーザＱｏＥ及びサービス優先度に応じて割り当てる技術が記載されている。

日本国特開２０１１－１７２１５０号公報

　特許文献１の技術では、ビットレートとＱｏＥとの関係性は事前に決められている。しかしながら、例えば映像を受信し、物体検出器などの機械が映像を認識するサービスの場合、当該映像を認識する精度を表すＱｏＥ指標は、ビットレートが同じであっても、映像に含まれる情報によって高かったり低かったりする。したがって、ビットレート又は画像認識精度を好適に推定することのできる技術が望まれているが、特許文献１の技術ではそのような推定を行うことはできない。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、ビットレート又は画像認識精度を好適に推定することのできる技術を提供することである。

　本発明の一側面に係る映像処理システムは、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定手段とを備えている。

　本発明の一側面に係る映像処理システムは、第１の映像処理装置と第２の映像処理装置とを含む映像処理システムであって、前記第１の映像処理装置は、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段と、を備え、前記第２の映像処理装置は、前記特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている。

　本発明の一側面に係る情報処理装置は、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段とを備えている。

　本発明の一側面に係る情報処理装置は、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている。

　本発明の一側面に係る情報処理方法は、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得することと、前記取得する工程において取得されたデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出することとを含む。

　本発明の一側面に係る記録媒体は、コンピュータを、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段と、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

　本発明の一側面に係る記録媒体は、コンピュータを、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

　本発明の一態様によれば、ビットレート又は画像認識精度を好適に推定することができる。

本発明の例示的実施形態１に係る映像処理システムの構成を示すブロック図である。本発明の例示的実施形態１に係る映像処理方法の流れを示すフロー図である。本発明の例示的実施形態２に係る映像処理システムの構成を示すブロック図である。本発明の例示的実施形態３に係る映像処理システムの構成を示すブロック図である。本発明の例示的実施形態３に係る特徴量算出部及び推定値算出部が実行する処理例を示す図である。本発明の例示的実施形態３に係る最適化部が映像圧縮パラメータを算出する方法を示すグラフである。本発明の例示的実施形態３に係る映像処理方法の流れを示すフロー図である。本発明の例示的実施形態４に係る映像処理システムの構成を示すブロック図である。本発明の例示的実施形態４に係る学習部が推定値算出部を学習させる処理例を示す図である。本発明の例示的実施形態５に係る映像処理システムの構成を示すブロック図である。本発明の例示的実施形態５に係る最適化部が映像圧縮パラメータを算出する方法を示すグラフである。本発明の例示的実施形態６に係る映像処理システムの構成を示すブロック図である。本発明の例示的実施形態７に係る映像処理システムの構成を示すブロック図である。本発明の例示的実施形態８に係る映像処理システムの構成を示すブロック図である。本発明の例示的実施形態９に係る映像処理システムの構成を示すブロック図である。本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　（映像処理システム１の構成）
　本例示的実施形態に係る映像処理システム１の構成について、図１を参照して説明する。図１は、本例示的実施形態に係る映像処理システム１の構成を示すブロック図である。映像処理システム１は、映像圧縮におけるビットレート及び映像認識における映像認識精度の少なくとも何れかを推定算出するシステムである。具体的には、映像処理システム１は、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び未来における１又は複数フレーム分の映像フレームの映像認識精度の推定値の少なくとも何れかを算出する。一例として、映像処理システム１は、未来においてカメラから出力される１又は複数フレーム分の映像フレームのビットレートの推定値、及び当該映像フレームを入力として当該映像フレームに含まれる被写体を認識する認識エンジンから出力される映像認識結果の精度の推定値を算出する。

　図１に示すように、映像処理システム１は、取得部１１及び判定部１２を備えている。取得部１１及び判定部１２は、本例示的実施形態においてそれぞれ取得手段及び推定手段を実現する構成である。

　取得部１１は、以下のデータの少なくとも何れかを取得する。
・過去における１又は複数フレーム分の映像フレーム
・映像フレームの符号化処理における映像圧縮パラメータ
・符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果
　映像圧縮パラメータの例として、ＣＲＦ（Constant Rate Factor）及びＱＰ（Quantization parameter）が挙げられるが、これらに限定されない。

　復号後の映像フレームの映像認識結果とは、復号後の映像フレームを入力として当該復号後の映像フレームに含まれる被写体を認識する認識エンジンから出力される映像認識結果である。また、復号後の映像フレームの映像認識結果は、人間による判断の結果、得られる情報であってもよい。

　また、取得部１１は、上述したデータに加えて、以下のデータの少なくとも何れかを取得する構成であってもよい。
・過去における１又は複数フレーム分の映像フレームの符号の長さ
・符号化処理された映像フレームを復号して得られる復号後の映像フレーム
・復号後の映像フレームの映像認識処理における中間特徴量
　ここで、復号後の映像フレームの映像認識処理における中間特徴量とは、映像認識処理を実行する認識エンジンの中間層において得られる特徴量である。また、特徴量とは、映像フレームから抽出された特徴を数値化したものであり、特徴量の一例として、抽出された特徴を並べてベクトルで表した特徴ベクトルが挙げられるが、これに限定されない。

　また、上記認識エンジンは、一例として、入力層、１又は複数の中間層、及び出力層からなるニューラルネットワークで構成される。当該認識エンジンでは、入力層に映像フレームが入力されると、当該映像フレームにおける特徴量が１又は複数の中間層において抽出され、出力層から映像認識結果が出力される。ここで、当該１又は複数の中間層の少なくとも何れかにおいて抽出された特徴量が、映像フレームの映像認識処理における中間特徴量である。

　判定部１２は、取得部１１が取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。より具体的には、判定部１２は、ビットレートの推定値として、未来における１又は複数フレーム分の符号化後の映像フレームの伝送ビットレートの推定値、及び、映像認識精度の推定値として、未来における１又は複数フレーム分の復号後の映像フレームの映像認識精度の推定値、の少なくとも何れかを算出する。

　判定部１２の具体的構成の一例として、ＣＮＮ（Convolution Neural Network）、ＲＮＮ（Recurrent Neural Network）、又はそれらの組み合わせを用いることができる。また、ランダムフォレストやサポートベクターマシンのような非ニューラルネットワーク型のモデルを用いてもよい。

　以上のように、本例示的実施形態に係る映像処理システム１においては、取得部１１は、過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する。そして、判定部１２は、取得部１１が取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する構成が採用されている。

　したがって、本例示的実施形態に係る映像処理システム１によれば、過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して映像フレームのビットレート及び映像認識精度の推定値の少なくとも何れかを算出するので、ビットレート又は画像認識精度を好適に推定することができる。

　（映像処理方法Ｓ１の流れ）
　本例示的実施形態に係る映像処理方法Ｓ１の流れについて、図２を参照して説明する。図２は、映像処理方法Ｓ１の流れを示すフロー図である。

　（ステップＳ１１）
　ステップＳ１１において、取得部１１は、過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する。

　（ステップＳ１２）
　ステップＳ１２において、判定部１２は、ステップＳ１１において取得されたデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。

　以上のように、本例示的実施形態に係る映像処理方法Ｓ１においては、ステップＳ１１において、取得部１１は、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する。そして、ステップＳ１２において、判定部１２が、ステップＳ１１において取得されたデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。したがって、本例示的実施形態に係る映像処理方法Ｓ１によれば、映像処理システム１と同様の効果を奏する。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　（映像処理システム１Ａの構成）
　図３は、本発明の第２の例示的実施形態に係る映像処理システム１Ａの構成を示すブロック図である。映像処理システム１Ａは、第１の映像処理装置１０Ａと第２の映像処理装置２０Ａとを含んでいる。

　第１の映像処理装置１０Ａと第２の映像処理装置２０Ａとは、互いに通信可能に接続されている。

　映像処理システム１Ａでは、第１の映像処理装置１０Ａは、映像フレームに関するデータを取得し、当該データから特徴量を算出する。また、映像処理システム１Ａでは、第２の映像処理装置２０Ａは、第１の映像処理装置１０Ａによって算出された特徴量を取得し、当該特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。

　（第１の映像処理装置１０Ａの構成）
　図３に示すように、第１の映像処理装置１０Ａは、取得部１１及び特徴量算出部１２１を備えている。特徴量算出部１２１は、本例示的実施形態において特徴量算出手段を実現する構成である。取得部１１は、上述した通りである。

　特徴量算出部１２１は、取得部１１が取得したデータから特徴量を算出する。特徴量算出部１２１が算出した特徴量は、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される。特徴量算出部１２１は、算出した特徴量を第２の映像処理装置２０Ａに出力する。

　（第２の映像処理装置２０Ａの構成）
　図３に示すように、第２の映像処理装置２０Ａは、特徴量取得部２１及び推定値算出部１２２を備えている。特徴量取得部２１及び推定値算出部１２２は、本例示的実施形態においてそれぞれ特徴量取得手段及び推定値算出手段を実現する構成である。

　特徴量取得部２１は、第１の映像処理装置１０Ａから出力された特徴量を取得する。

　推定値算出部１２２は、特徴量取得部２１が取得した特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。

　ここで、特徴量算出部１２１と推定値算出部１２２とは、上述した判定部１２を構成していると言える。換言すると、判定部１２は、特徴量算出部１２１と推定値算出部１２２とを備えている。

　以上のように、本例示的実施形態に係る映像処理システム１Ａにおいては、第１の映像処理装置１０Ａは、過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかを取得し、取得したデータから特徴量を算出する。また、第２の映像処理装置２０Ａは、第１の映像処理装置１０Ａが算出した特徴量を取得し、当該特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。したがって、本例示的実施形態に係る映像処理システム１Ａによれば、例示的実施形態１に係る映像処理システム１と同様の効果を奏する。

　〔例示的実施形態３〕
　本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１および２にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　（映像処理システム１Ｂの構成）
　図４は、本発明の第３の例示的実施形態に係る映像処理システム１Ｂの構成を示すブロック図である。映像処理システム１Ｂは、第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｂとを含んでいる。

　第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｂとは、ネットワークＮを介して互いに通信可能に接続されている。

　ネットワークＮの具体的構成は本実施形態を限定するものではないが、一例として、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。

　映像処理システム１Ｂでは、第１の映像処理装置１０Ｂは、映像データを取得し、当該映像データを符号化処理した映像フレームと、当該映像フレームの特徴量とを出力する。

　また、映像処理システム１Ｂでは、第２の映像処理装置２０Ｂは、以下の処理を実行する。
・第１の映像処理装置１０Ｂから出力された特徴量を取得し、当該特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する
・第１の映像処理装置１０Ｂから出力された映像フレームを取得し、当該映像フレームを復号し、復号した映像フレームを出力する
・ネットワーク統計データを取得し、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する
　ここで、ネットワーク統計データとは、ネットワークＮの利用環境を示すデータであり、一例として、ネットワークＮにおいて使用可能な帯域が挙げられるが、これに限定されない。

　（第１の映像処理装置１０Ｂの構成）
　図４に示すように、第１の映像処理装置１０Ｂは、取得部１１、特徴量算出部１２１、符号化部１３、及び通信部１４を備えている。

　取得部１１は、映像データを取得する。取得部１１は、取得した映像データを、特徴量算出部１２１及び符号化部１３に供給する。

　特徴量算出部１２１は、取得部１１から供給された映像データ、後述する符号化部１３から供給された映像フレームの符号化処理における映像圧縮パラメータ、及び後述する第２の映像処理装置２０Ｂから出力された復号後の映像フレームの映像認識結果の少なくとも何れかを参照し、特徴量を算出する。特徴量算出部１２１は、算出した特徴量を、通信部１４に供給する。特徴量算出部１２１が特徴量を算出する処理の詳細については後述する。

　符号化部１３は、取得部１１から供給された映像データを符号化する。より具体的には、符号化部１３は、映像データを構成する映像フレームを、映像圧縮パラメータを用いて符号化する。符号化部１３は、符号化した映像フレームを通信部１４に供給する。また、符号化部１３は、符号化処理における映像圧縮パラメータを、特徴量算出部１２１に供給する。

　通信部１４は、ネットワークＮを介して第２の映像処理装置２０Ｂと通信する通信モジュールである。一例として、通信部１４は、特徴量算出部１２１から供給された特徴量及び符号化部１３から供給された符号化処理された映像フレームを、ネットワークＮを介して第２の映像処理装置２０Ｂに出力したり、第２の映像処理装置２０Ｂから復号後の映像フレームの映像認識結果を取得したりする。

　（第２の映像処理装置２０Ｂの構成）
　図４に示すように、第２の映像処理装置２０Ｂは、特徴量取得部２１、通信部２３、最適化部２４、復号部２５、認識部２６、出力部２７、可用帯域予測部２８、及び推定値算出部１２２を備えている。最適化部２４は、本例示的実施形態においてパラメータ算出手段を実現する構成である。

　通信部２３は、ネットワークＮを介して第１の映像処理装置１０Ｂと通信する通信モジュールである。一例として、通信部２３は、第１の映像処理装置１０Ｂから出力された特徴量及び符号化処理された映像フレームを取得したり、後述する認識部２６から供給される復号後の映像フレームの映像認識結果を第１の映像処理装置１０Ｂに出力したりする。

　特徴量取得部２１は、通信部２３から供給される特徴量を取得する。特徴量取得部２１は、取得した特徴量を推定値算出部１２２に供給する。

　推定値算出部１２２は、特徴量取得部２１が取得した特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。推定値算出部１２２が未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する処理の詳細については後述する。

　最適化部２４は、推定値算出部１２２が算出したビットレートの推定値、及び映像認識精度の推定値を参照して、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。最適化部が未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する処理の詳細については、後述する。

　また、最適化部２４は、上記データに加えて、後述する可用帯域予測部２８が供給した、ネットワークＮにおいて第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｂとの通信に使用可能な可用帯域、及び未来セグメントの圧縮パラメータを更に参照し、映像圧縮パラメータを算出してもよい。

　また、最適化部２４は、後述する予測値算出部１２２１によって参照される圧縮パラメータ候補値を導出する。最適化部２４は、導出した圧縮パラメータ候補値を、予測値算出部１２２１に供給する。

　最適化部２４は、予め設定された複数の値の少なくとも何れかを圧縮パラメータ候補値として用いてもよいし、無作為な値を有するよう導出した圧縮パラメータ候補値を用いてもよいし、過去の圧縮パラメータを参照して、圧縮パラメータ候補値を導出してもよい。

　可用帯域予測部２８は、ネットワーク統計データを取得し、ネットワークＮにおいて第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｂとの通信に使用可能な可用帯域を予測する。

　復号部２５は、通信部２３から供給される符号化処理された映像フレームを取得し、当該映像フレームを復号する。復号部２５は、復号後の映像フレームを、認識部２６及び出力部２７に供給する。

　認識部２６は、復号部２５から供給された復号後の映像フレームを入力として当該映像フレームに含まれる被写体を認識する認識エンジンから出力される映像認識結果を取得する。認識部２６は、取得した映像認識結果を、通信部２３に供給する。また、認識部２６は、復号後の映像フレームを出力部２７に供給してもよい。

　なお、認識部２６は、復号部２５から供給された復号後の映像フレームに関する人間による映像認識結果を取得する構成としてもよい。

　出力部２７は、復号部２５又は認識部２６から供給された復号の映像フレームを出力する。出力部２７が復号の映像フレームを出力する例として、表示パネルへ出力して画像を表示する構成が挙げられるが、これに限定されない。

　（特徴量算出部１２１及び推定値算出部１２２が実行する処理例）
　特徴量算出部１２１及び推定値算出部１２２が実行する処理例について、図５を用いて説明する。図５は、本発明の第３の例示的実施形態に係る特徴量算出部１２１及び推定値算出部１２２が実行する処理例を示す図である。

　図５に示す図において、縦方向に模式的な時間軸が設定されており、時間軸上に各圧縮前映像を示している。また、一例として、現時点は時点ｔ１で示されており、圧縮前映像の映像フレームＰＦ１、映像フレームＰＦ２、・・・映像フレームＰＦｎは過去の映像フレームの集合である過去セグメント（過去における１又は複数フレーム分の映像フレーム）であり、映像フレームＦＦ１、・・・映像フレームＦＦｎは未来の映像フレームの集合である未来セグメント（未来における１又は複数フレーム分の映像フレーム）である。

　図５に示す図では、図４における特徴量算出部１２１及び推定値算出部１２２が実行する処理について説明するため、特徴量算出部１２１及び推定値算出部１２２の間でデータを送受信する通信部１４及び通信部２３といったブロックは省略している。

　図５に示すように、特徴量算出部１２１は、特徴量抽出部１２１１、第１の集約部１２１２、及び第２の集約部１２１３を備えている。

　特徴量抽出部１２１１は、過去セグメントを構成する映像フレームＰＦ１～ＰＦｎを取得し、映像フレームＰＦ１～ＰＦｎにおける特徴量を算出する。特徴量抽出部１２１１は、算出した特徴量を第１の集約部１２１２に供給する。

　第１の集約部１２１２は、特徴量算出部１２１から供給された特徴量と、過去セグメントの圧縮パラメータＣＰとを取得し、取得した特徴量及び圧縮パラメータＣＰを各フレームに関して集約する。一例として、第１の集約部１２１２は、各フレームに関し、特徴量算出部１２１から供給された特徴量と、過去セグメントの圧縮パラメータＣＰとを、畳み込み層及びＲｅＬＵ（Rectified Linear Unit）層において繰り返し処理し、集約されたデータを算出する。第１の集約部１２１２は、集約したデータを第２の集約部１２１３に供給する。

　第２の集約部１２１３は、第１の集約部１２１２から供給されたデータを取得し、時間軸上の集約を行う。一例として、第２の集約部１２１３は、映像フレームＰＦ１～ＰＦｎそれぞれの集約したデータを、時間軸の畳み込み層及びＲｅＬＵ層において繰り返し処理し、時間軸上に集約した特徴量ＳＶを算出する。第２の集約部１２１３は、算出した特徴量ＳＶとして出力する。

　第１の集約部１２１２及び第２の集約部１２１３の具体的構成の一例として、ＣＮＮ（Convolution Neural Network）、ＲＮＮ（Recurrent Neural Network）、又はそれらの組み合わせを用いることができる。また、ランダムフォレストやサポートベクターマシンのような非ニューラルネットワーク型のモデルを用いてもよい。

　また、図５に示すように、推定値算出部１２２は、予測値算出部１２２１を備えている。予測値算出部１２２１は、本例示的実施形態において候補値取得手段を実現する構成である。

　予測値算出部１２２１は、第２の集約部１２１３から出力された特徴量ＳＶと、未来における１又は複数フレーム分における映像圧縮パラメータの候補値である圧縮パラメータ候補値ＦＣＰＣとを取得し、未来セグメントのビットレートの予測値（推定値）及び未来セグメントの映像認識精度の予測値（推定値）の少なくとも何れかを算出する。一例として、予測値算出部１２２１は、ＦＣ（Fully Connected）層やＲｅＬＵ層において繰り返し予測値を算出する処理を行い、最適化部２４から供給される未来セグメントの圧縮パラメータ候補値ＦＣＰＣのそれぞれに対して、未来セグメントのビットレートの予測値及び未来セグメントの映像認識精度の予測値の少なくとも何れかを算出する。

　（最適化部２４が実行する処理例）
　最適化部２４が実行する処理例について、図６を用いて説明する。図６は、本発明の第３の例示的実施形態に係る最適化部２４が映像圧縮パラメータを算出する方法を示すグラフである。

　まず、最適化部２４は、未来セグメントの圧縮パラメータ候補値ＦＣＰＣに対して推定値算出部１２２が算出した、未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値の少なくとも何れかを、予め蓄積する。図６の上段の図は、最適化部２４が蓄積した未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値の関係を示すグラフである。

　次に、最適化部２４は、未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値等を参照し、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。一例として、最適化部２４は、勾配法等を用いて、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。例えば、最適化部２４は、以下の数式（１）を用いて、未来における１又は複数フレーム分の映像の符号化処理における映像圧縮パラメータを算出する。数式（１）は、ビットレートの推定値と映像認識精度の推定値とを引数とする所定の損失関数である。

　数式（１）における各変数は、以下を表している。
λ^＊：算出された映像圧縮パラメータ
Ｃ：映像データの数（本例示的実施形態ではＣ＝１）
Ｄ_Ｃ：映像フレームにおける映像認識誤差（認識精度の逆数など）の推定値
λ_Ｃ：映像フレームの圧縮パラメータ候補値
Ｘ_Ｃ：過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れか
Ｒ_Ｃ：映像フレームにおけるビットレートの推定値
Ｂ：可用帯域予測部２８が予測した可用帯域
　すなわち、まず、予測値算出部１２２１が、未来における１又は複数フレーム分における映像圧縮パラメータの候補値である圧縮パラメータ候補値λ_Ｃを複数取得する。そして、予測値算出部１２２１は、取得した複数の映像圧縮パラメータλ_Ｃの候補値の各々について、過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかであるＸ_Ｃを参照して、ビットレートの推定値Ｒ_Ｃ、及び映像認識誤差の推定値Ｄ_Ｃ（換言すると、映像認識精度の推定値の逆数）を算出する。これにより、予測値算出部１２２１は、ビットレートの推定値Ｒ_Ｃの分布、及び映像認識精誤差の推定値Ｄ_Ｃの分布を得ることができる。

　次に、最適化部２４は、予測値算出部１２２１が取得した複数の映像圧縮パラメータλ_Ｃの候補値の各々についての、ビットレートの推定値Ｒ_Ｃと映像認識誤差の推定値Ｄ_Ｃ（換言すると、映像認識精度の推定値の逆数）とを引数とする所定の損失関数である数式（１）がより小さくなるように、前記映像圧縮パラメータλ^＊を算出する。数式（１）によって算出されたλ^＊は、図６の下段のグラフにおけるＯＢに対応する。

　より具体的には、ある映像セグメントにおいて、予測値算出部１２２１は、圧縮パラメータ候補値λ_Ｃ１，λ_Ｃ２，λ_Ｃ３，_・・・を取得する。次に、予測値算出部１２２１は、取得した圧縮パラメータ候補値λ_Ｃ１，λ_Ｃ２，λ_Ｃ３，_・・・の各々について、ビットレートの各推定値Ｒ_Ｃ、及び映像認識誤差の各推定値Ｄ_Ｃを算出する。そして、最適化部２４は、予測値算出部１２２１が算出したビットレートの各推定値Ｒ_Ｃ、及び各映像認識誤差の推定値Ｄ_Ｃを参照し、勾配法などを用いた数式（１）により、映像圧縮パラメータλ^＊を算出する。

　このように、予測値算出部１２２１及び最適化部２４は、複数の映像圧縮パラメータの候補値について、映像圧縮パラメータλ^＊を算出し、最も小さい映像圧縮パラメータλ^＊を算出する。

　（映像処理方法Ｓ１Ｂの流れ）
　本例示的実施形態に係る映像処理方法Ｓ１Ｂの流れについて、図７を参照して説明する。図７は、映像処理方法Ｓ１Ｂの流れを示すフロー図である。

　（ステップＳ１０１）
　ステップＳ１０１において、第１の映像処理装置１０Ｂの取得部１１は、対象セグメントの映像データを取得する。

　（ステップＳ１０２）
　ステップＳ１０２において、符号化部１３は、取得部１１が取得した映像データを、映像圧縮パラメータを用いて符号化し、符号化データを生成する。

　（ステップＳ１０３）
　ステップＳ１０３において、特徴量算出部１２１は、取得部１１が取得した映像データ、符号化部１３が符号化処理において用いた映像圧縮パラメータ、及び第２の映像処理装置２０Ｂから出力された復号後の映像フレームの映像認識結果の少なくとも何れかを参照し、映像データの特徴量を算出する。特徴量算出部１２１による具体的な処理は上述したためここでは説明を省略する。

　（ステップＳ１０４）
　ステップＳ１０４において、通信部１４は、特徴量算出部１２１が算出した特徴量及び符号化部１３が符号化処理を行った際に用いた符号化データを、ネットワークＮを介して第２の映像処理装置２０Ｂに送信する。

　（ステップＳ２０１）
　ステップＳ２０１において、第２の映像処理装置２０Ｂの通信部２３は、第１の映像処理装置１０Ｂから送信された特徴量及び符号化データを受信する。

　（ステップＳ２０２）
　ステップＳ２０２において、復号部２５は、通信部２３が受信した符号化データを復号し、映像データを復元する。

　（ステップＳ２０３）
　ステップＳ２０３において、認識部２６は、復号部２５が復号した映像データの映像認識処理を実行する。

　（ステップＳ２０４）
　ステップＳ２０４において、出力部２７は、復号部２５が復号した映像データを出力する。また、認識部２６は、ステップＳ２０３において実行した映像認識処理の結果を示す映像認識結果を、通信部２３に供給する。通信部２３は、供給された映像認識結果を、ネットワークＮを介して第１の映像処理装置１０Ｂに送信する。第１の映像処理装置１０Ｂの通信部１４は、映像認識結果を受信すると、当該映像認識結果を特徴量算出部１２１に供給する。特徴量算出部１２１は、供給された映像認識結果を参照し、特徴量を算出する。

　（ステップＳ２０５）
　ステップＳ２０５において、特徴量取得部２１は、通信部２３が受信した特徴量を取得する。次に、推定値算出部１２２は、特徴量取得部２１が取得した特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値を算出する。また、ステップＳ２０５において、推定値算出部１２２は、未来における１又は複数フレーム分における映像圧縮パラメータの候補値ＦＣＰＣを取得し、当該映像圧縮パラメータの候補値ＦＣＰＣを更に参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出してもよい。推定値算出部１２２による具体的な処理は上述したためここでは説明を省略する。

　（ステップＳ２０６）
　ステップＳ２０６において、最適化部２４は、推定値算出部１２２が算出したビットレートの推定値、及び映像認識精度の推定値を参照して、未来セグメントの符号化処理における映像圧縮パラメータを算出する。最適化部２４による具体的な処理は上述したためここでは説明を省略する。

　（ステップＳ２０７）
　ステップＳ２０７において、通信部２３は、最適化部２４が算出した映像圧縮パラメータを第１の映像処理装置１０ＢにネットワークＮを介して送信する。第１の映像処理装置１０Ｂの通信部１４は、映像圧縮パラメータを受信すると、当該映像圧縮パラメータを符号化部１３に供給する。符号化部１３は、未来セグメントの符号化処理において、供給された映像圧縮パラメータを用いる。

　以上のように、本例示的実施形態に係る映像処理システム１Ｂにおいては、第２の映像処理装置２０Ｂにおける最適化部２４は、ステップＳ２０６において、ビットレートの推定値及び映像認識精度の推定値を参照して、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。したがって、本例示的実施形態に係る映像処理システム１Ｂによれば、未来における１又は複数フレーム分の映像フレームの符号化処理における好適な映像圧縮パラメータを好適に算出することができる。

　また、本例示的実施形態に係る映像処理システム１Ｂにおいては、第２の映像処理装置２０Ｂにおける推定値算出部１２２は、ステップＳ２０５において、未来における１又は複数フレーム分における映像圧縮パラメータの候補値ＦＣＰＣを取得し、映像圧縮パラメータの候補値ＦＣＰＣを更に参照して、ビットレートの推定値及び映像認識精度の推定値を算出する。したがって、本例示的実施形態に係る映像処理システム１Ｂによれば、好適なビットレートの推定値及び映像認識精度の推定値を好適に算出することができる。

　〔例示的実施形態４〕
　本発明の第４の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～３にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　（映像処理システム１Ｃの構成）
　図８は、本発明の第４の例示的実施形態に係る映像処理システム１Ｃの構成を示すブロック図である。映像処理システム１Ｃは、上述した映像処理システム１Ｂにおける第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｂとに替えて、第１の映像処理装置１０Ｃと第２の映像処理装置２０Ｃとを含む構成である。

　映像処理システム１Ｃでは、第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｂとは、それぞれ教師データを取得し、特徴量算出部１２１と推定値算出部１２２とを学習させる。

　（第１の映像処理装置１０Ｃの構成）
　図８に示すように、第１の映像処理装置１０Ｃは、上述した第１の映像処理装置１０Ｂが備える構成に加えて、学習部１９を備えている。取得部１１及び学習部１９は、それぞれ本例示的実施形態において取得手段及び学習手段を実現する構成である。

　取得部１１は、過去における１又は複数フレーム分の映像フレーム、当該映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかと、当該過去よりも後の時点における１又は複数フレーム分の映像フレームの実際のビットレート、及び実際の映像認識精度の少なくとも何れかとの組を含む教師データを取得する。

　学習部１９は、上記教師データを用いて、特徴量算出部１２１を学習させる。学習部１９の処理の詳細については、後述する。

　（第２の映像処理装置２０Ｃの構成）
　一方、図８に示すように、第２の映像処理装置２０Ｃは、上述した第２の映像処理装置２０Ｂが備える構成に加えて、学習部２９を備えている。学習部２９は、本例示的実施形態において取得手段及び学習手段を実現する構成である。

　学習部２９は、第１の映像処理装置１０Ｃの取得部１１から、上記教師データを取得する。より具体的には、学習部２９は、過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかと、当該過去よりも後の時点における１又は複数フレーム分の映像フレームの実際のビットレート、及び実際の映像認識精度の少なくとも何れかとの組を含む教師データを取得する。

　そして、学習部２９は、取得した教師データを用いて、推定値算出部１２２を学習させる。学習部２９の処理の詳細については、後述する。

　（学習部１９及び学習部２９による学習処理例）
　学習部２９が推定値算出部１２２を学習させる処理例、及び学習部１９が特徴量算出部１２１を学習させる処理例について、図９を用いて説明する。図９は、本発明の第４の例示的実施形態に係る学習部２９が推定値算出部１２２を学習させる処理例、及び学習部１９が特徴量算出部１２１を学習させる処理例を模式的に示す図である。

　図９に示す図において、縦方向に模式的な時間軸が設定されており、時間軸上に各圧縮前映像を示している。また、一例として、映像フレームＰＦ１～ＰＦｎより後の時点であり、映像フレームＦＦ１～ＦＦｎより前の時点を時点ｔ１、映像フレームＰＦ１～ＰＦｎより後の時点を時点ｔ２で示している。

　まず、図５を参照して説明した処理と同様に、推定値算出部１２２は、時点ｔ１において、過去における映像フレームＰＦ１～ＰＦｎ、映像フレームＰＦ１～ＰＦｎの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかを参照し、未来セグメントである映像フレームＦＦ１～ＦＦｎの映像認識精度の推定値と、ビットレートの推定値とを算出する。そして、例示的実施形態では、推定値算出部１２２は、算出した映像認識精度の推定値とビットレートの推定値とを、図示しない記憶部に格納する。ここで、推定値算出部１２２による上記各値の算出処理は、一例として学習部２９による指示に基づくものであってもよい。また、推定値算出部１２２が参照する上記各データは、上述した教師データの一部を構成する。

　次に、時点ｔ２において、符号化部１３は、映像フレームＦＦ１～ＦＦｎを符号化する。当該映像フレームＦＦ１～ＦＦｎは、時点ｔ１では、未来における映像フレームであったが、時点ｔ２では、過去における映像フレームになっている。符号化部１３は、符号化処理した映像フレームＦＦ１～ＦＦｎの実際のビットレートと、映像フレームＦＦ１～ＦＦｎを符号化処理して得られた符号化データとを第２の映像処理装置２０Ｃに出力する。

　第２の映像処理装置２０Ｃの復号部２５は、符号化部１３から出力された符号化データを取得し、当該符号化データを復号して映像データを復元する。また、復号部２５は、符号化部１３から取得した実際のビットレートを、図示しない記憶部に格納する。そして、認識部２６は、復号部２５が復号した映像データの映像認識処理を行い、映像認識における実際の映像認識精度を取得する。認識部２６は、取得した実際の映像認識精度を、図示しない記憶部に格納する。上述した実際のビットレートと実際の映像認識精度は、上述した教師データの一部を構成する。

　学習部２９は、
　　上述した映像フレームＦＦ１～ＦＦｎに関する映像認識精度の推定値及びビットレートの推定値と、
　　上述した映像フレームＦＦ１～ＦＦｎに関する実際の映像認識精度及び実際のビットレートと
のそれぞれの相違が小さくなるように、推定値算出部１２２におけるパラメータを更新することによって推定値算出部１２２を学習させる。ここで、映像フレームＦＦ１～ＦＦｎに関する映像認識精度の推定値及びビットレートの推定値は、上述の処理によって、推定値算出部１２２が算出したものである。

　同様に、学習部１９は、
　　上述した映像フレームＦＦ１～ＦＦｎに関する映像認識精度の推定値及びビットレートの推定値と、
　　上述した映像フレームＦＦ１～ＦＦｎに関する実際の映像認識精度及び実際のビットレートと
のそれぞれの相違が小さくなるように、特徴量算出部１２１におけるパラメータを更新することによって特徴量算出部１２１を学習させる。ここで、映像フレームＦＦ１～ＦＦｎに関する映像認識精度の推定値及びビットレートの推定値は、上述の処理によって、推定値算出部１２２が算出したものである。

　このように、学習部１９、及び学習部２９は、
　　過去における映像フレームＰＦ１～ＰＦｎ、映像フレームＰＦ１～ＰＦｎの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかと、
　　前記過去よりの後の時点における映像フレームＦＦ１～ＦＦｎの実際の映像認識精度及び実際のビットレートと
を含む教師データを用いて、
　　上述した映像フレームＦＦ１～ＦＦｎに関する映像認識精度の推定値及びビットレートの推定値と、
　　上述した映像フレームＦＦ１～ＦＦｎに関する実際の映像認識精度及び実際のビットレートと
のそれぞれの相違が小さくなるように、特徴量算出部１２１及び推定値算出部１２２を学習させる。

　したがって、本例示的実施形態に係る映像処理システム１Ｃによれば、特徴量算出部１２１及び推定値算出部１２２が学習されるので、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値が好適に算出される。

　〔例示的実施形態５〕
　本発明の第５の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～４にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　（映像処理システム１Ｄの構成）
　図１０は、本発明の第５の例示的実施形態に係る映像処理システム１Ｄの構成を示すブロック図である。映像処理システム１Ｄは、映像処理システム１Ｂにおける第１の映像処理装置１０Ｂを複数備え、更に第２の映像処理装置２０Ｂに替えて、第２の映像処理装置２０Ｄを含む構成である。

　映像処理システム１Ｄでは、複数の伝送対象映像の各々に関して、第１の映像処理装置１０Ｂ－１は映像データ１を取得し、第１の映像処理装置１０Ｂ－２は映像データ２を取得し、第１の映像処理装置１０Ｂ－３は映像データ３を取得する。また、映像処理システム１Ｄでは、第２の映像処理装置２０Ｄは、複数の伝送対象映像の各々に関して、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。

　なお、図１０に示す例では、第１の映像処理装置１０Ｂ－１、第１の映像処理装置１０Ｂ－２、及び第１の映像処理装置１０Ｂ－３の３つを例示しているが、これは本例示的実施形態を限定するものではない。映像処理システム１Ｄは、任意の個数の第１の映像処理装置を含む構成とすることができる。また、本例示的実施形態において、複数の第１の映像処理装置は、互いに同様な要部構成を備えている。

　（第２の映像処理装置２０Ｄの構成）
　図１０に示すように、第２の映像処理装置２０Ｄは、第２の映像処理装置２０Ｂにおける推定値算出部１２２及び最適化部２４に替えて、推定値算出部１２２ａ及び最適化部２４ａを備えている。

　推定値算出部１２２ａは、複数の伝送対象映像の各々に関し、第１の映像処理装置１０Ｂ－１～１０Ｂ－３から送信された各特徴量を参照し、未来における１又は複数フレーム分の映像フレームのビットレートの各推定値、及び映像認識精度の各推定値を算出する。ここで、第１の映像処理装置１０Ｂ－１～１０Ｂ－３から送信される各特徴量は、上述したように、各々の取得部１１が取得した過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかを特徴量算出部１２１が参照して算出したデータである。

　最適化部２４ａは、複数の伝送対象映像の各々に関する、ビットレートの推定値、及び前記映像認識精度の推定値を参照して、複数の伝送対象映像の各々に関する、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。

　（最適化部２４ａが実行する処理例）
　最適化部２４ａが実行する処理例について、図１１を用いて説明する。図１１は、本発明の第５の例示的実施形態に係る最適化部２４ａが映像圧縮パラメータを算出する方法を示すグラフである。

　最適化部２４ａは、複数の伝送対象映像の各々に関して、未来セグメントの圧縮パラメータ候補値ＦＣＰＣのそれぞれに対して推定値算出部１２２が算出した、未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値の少なくとも何れかを、予め蓄積する。図１１の上段の図は、映像データ１、映像データ２、及び映像データ３の各々に関して、最適化部２４ａが蓄積した未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値の関係を示すグラフである。

　次に、最適化部２４ａは、複数の伝送対象映像の各々に関して、未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値等を参照し、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。一例として、最適化部２４ａは、以下の数式（２）を用いて、複数の伝送対象映像の各々に関する、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。

　数式（２）における各変数は、数式（１）と同様、以下を表している。
λ^＊：算出された映像圧縮パラメータ
Ｃ：映像の数
Ｄ_Ｃ：映像フレームにおける映像認識誤差（認識精度の逆数など）の推定値
λ_Ｃ：映像フレームの圧縮パラメータ候補値
Ｘ_Ｃ：過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れか
Ｒ_Ｃ：映像フレームにおけるビットレートの推定値
Ｂ：可用帯域予測部２８が予測した可用帯域
　ここで、上述した例示的実施形態では、映像の数Ｃ＝１であったが、本例示的実施形態では、映像の数Ｃは、第１の映像処理装置１０Ｂの数と等しくなる。例えば、図１０に示す映像処理システム１Ｄでは、映像の数Ｃ＝３である。

　すなわち、まず、予測値算出部１２２１が、未来における１又は複数フレーム分における映像圧縮パラメータの候補値である圧縮パラメータ候補値λ_Ｃを複数取得する。そして、予測値算出部１２２１は、取得した複数の映像圧縮パラメータλ_Ｃの候補値の各々について、複数の伝送対象映像の各々に関し、過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかであるＸ_Ｃを参照して、ビットレートの推定値Ｒ_Ｃ、及び映像認識誤差（換言すると、映像認識精度の推定値の逆数）の推定値Ｄ_Ｃを算出する。これにより、予測値算出部１２２１は、複数の伝送対象映像の各々に関し、ビットレートの推定値Ｒ_Ｃの分布、及び映像認識誤差の推定値Ｄ_Ｃの分布を得ることができる。

　次に、最適化部２４は、複数の伝送対象映像の各々に関し、予測値算出部１２２１が取得した複数の映像圧縮パラメータλ_Ｃの候補値の各々についての、ビットレートの推定値Ｒ_Ｃと映像認識誤差の推定値Ｄ_Ｃ（換言すると、映像認識精度の推定値の逆数）とを引数とする所定の損失関数である数式（２）がより小さくなるように、前記映像圧縮パラメータλ^＊を算出する。数式（２）によって算出された各映像データのλ^＊は、図１１の下段のグラフにおいて、それぞれ映像データ１がＯＢ１、映像データ２がＯＢ２、映像データ３がＯＢ３に対応する。

　より具体的には、複数の伝送対象映像の各々におけるある映像セグメントにおいて、予測値算出部１２２１は、圧縮パラメータ候補値λ_Ｃ１，λ_Ｃ２，λ_Ｃ３，_・・・を取得する。次に、予測値算出部１２２１は、取得した圧縮パラメータ候補値λ_Ｃ１，λ_Ｃ２，λ_Ｃ３，_・・・の各々について、ビットレートの各推定値Ｒ_Ｃ、及び映像認識誤差の各推定値Ｄ_Ｃを算出する。そして、最適化部２４は、予測値算出部１２２１が算出したビットレートの各推定値Ｒ_Ｃ、及び各映像認識誤差の推定値Ｄ_Ｃを参照し、勾配法などを用いた数式（２）によって、映像圧縮パラメータλ^＊を算出する。

　以上のように、本例示的実施形態に係る映像処理システム１Ｄにおいては、第１の映像処理装置１０Ｂの取得部１１は、複数の伝送対象映像の各々に関し、過去における１又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかを取得する。次に、本例示的実施形態に係る映像処理システム１Ｄにおいては、第１の映像処理装置１０Ｂの特徴量算出部１２１及び第２の映像処理装置２０Ｂの推定値算出部１２２ａは、複数の伝送対象映像の各々に関し、取得部１１が取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値を算出する。そして、本例示的実施形態に係る映像処理システム１Ｄにおいては、第２の映像処理装置２０Ｂの最適化部２４ａは、複数の伝送対象映像の各々に関する、ビットレートの推定値、及び映像認識精度の推定値を参照して、複数の伝送対象映像の各々に関する、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。したがって、本例示的実施形態に係る映像処理システム１Ｄによれば、複数の伝送対象映像の各々に関する、未来における１又は複数フレーム分の映像フレームの符号化処理における好適な映像圧縮パラメータを算出することができる。

　〔例示的実施形態６〕
　本発明の第６の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～５にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　（映像処理システム１Ｅの構成）
　図１２は、本発明の第６の例示的実施形態に係る映像処理システム１Ｅの構成を示すブロック図である。映像処理システム１Ｅは、映像処理システム１Ｂにおける第２の映像処理装置２０Ｂに替えて、第２の映像処理装置２０Ｅを含む構成である。

　映像処理システム１Ｅでは、第２の映像処理装置２０Ｅは、
・過去における１又は複数フレーム分の映像フレームの符号の長さ
・符号化処理された映像フレームを復号して得られる復号後の映像フレーム
・復号後の映像フレームの映像認識処理結果、又は当該映像認識処理における中間特徴量
の少なくとも何れかを更に参照し、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。

　（第２の映像処理装置２０Ｅの構成）
　図１２に示すように、第２の映像処理装置２０Ｅでは、推定値算出部１２２は復号部２５と認識部２６からデータを取得する構成になっている。推定値算出部１２２は、本例示的実施形態において取得手段を実現する構成である。

　一例として、推定値算出部１２２は、復号部２５から、過去における１又は複数フレーム分の映像フレームの符号の長さ及び復号後の映像フレームの少なくとも何れかを取得し、認識部２６から、復号後の映像フレームの映像認識処理結果、又は当該映像認識処理における中間特徴量を取得する。そして、推定値算出部１２２は、特徴量取得部２１が取得した特徴量に加えて、復号後の映像フレーム、及び復号後の映像フレームの映像認識処理結果又は当該映像認識処理における中間特徴量の少なくとも何れかを更に参照し、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。

　ここで、映像認識処理における中間特徴量とは、映像認識処理を実行する認識エンジンの中間層において得られる特徴量である。また、特徴量とは、映像フレームから抽出された特徴を数値化したものであり、特徴量の一例として、抽出された特徴を並べてベクトルで表した特徴ベクトルが挙げられるが、これに限定されない。

　以上のように、本例示的実施形態に係る映像処理システム１Ｅにおいては、第２の映像処理装置２０Ｅの推定値算出部１２２は、過去における１又は複数フレーム分の映像フレームの符号の長さ、符号化処理された映像フレームを復号して得られる復号後の映像フレーム、及び復号後の映像フレームの映像認識処理結果又は当該映像認識処理における中間特徴量の少なくとも何れかを更に参照し、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。したがって、本例示的実施形態に係る映像処理システム１Ｅによれば、より好適なビットレートの推定値及び映像認識精度の推定値を好適に算出することができる。

　〔例示的実施形態７〕
　本発明の第７の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～６にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　（映像処理システム１Ｆの構成）
　図１３は、本発明の第７の例示的実施形態に係る映像処理システム１Ｆの構成を示すブロック図である。映像処理システム１Ｆは、映像処理システム１Ｂにおける第１の映像処理装置１０Ｂ及び第２の映像処理装置２０Ｂに替えて、第１の映像処理装置１０Ｆ及び第２の映像処理装置２０Ｆを含む構成である。

　映像処理システム１Ｆでは、映像フレームの特徴量を、第２の映像処理装置２０Ｆにおいて算出する。

　（第１の映像処理装置１０Ｆ）
　図１３に示すように、第１の映像処理装置１０Ｆは、第１の映像処理装置１０Ｂにおける特徴量算出部１２１を含まない構成である。すなわち、第１の映像処理装置１０Ｆでは、通信部１４を介して、第２の映像処理装置２０Ｆに対して、符号化部１３が符号化処理を行った符号化データと、符号化部１３が符号化処理に用いて映像圧縮パラメータと、取得部１１が取得したデータとを送信する。

　（第２の映像処理装置２０Ｆ）
　図１３に示すように、第２の映像処理装置２０Ｆは、第２の映像処理装置２０Ｂにおける特徴量取得部２１に替えて、特徴量算出部１２１を含む構成である。また、第２の映像処理装置２０Ｆでは、特徴量算出部１２１は、復号部２５及び認識部２６からデータを取得する構成になっている。

　特徴量算出部１２１は、復号部２５から供給される復号後の映像フレームと、認識部２６から供給される号後の映像フレームの映像認識結果と、第１の映像処理装置１０Ｆから送信される映像圧縮パラメータ及び取得部１１が取得したデータとを取得する。そして、特徴量算出部１２１は、取得した復号後の映像フレーム、映像認識結果、映像圧縮パラメータ、及び取得部１１が取得したデータを参照して、特徴量を算出する。特徴量算出部１２１は、算出した特徴量を、推定値算出部１２２に供給する。推定値算出部１２２特徴量取得部２１が取得した特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。

　以上のように、本例示的実施形態に係る映像処理システム１Ｆにおいては、第２の映像処理装置２０Ｆが特徴量算出部１２１を備えている。したがって、本例示的実施形態に係る映像処理システム１Ｆによれば、特徴量の算出と、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかの算出と、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータの算出と、といった算出処理を、第２の映像処理装置２０Ｆのみで行うことができる。

　〔例示的実施形態８〕
　本発明の第８の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～７にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　（映像処理システム１Ｇの構成）
　図１４は、本発明の第８の例示的実施形態に係る映像処理システム１Ｇの構成を示すブロック図である。映像処理システム１Ｇは、映像処理システム１Ｂにおける第２の映像処理装置２０Ｂに替えて、第２の映像処理装置２０Ｇを含み、更に第３の映像処理装置３０Ｇを含む構成である。

　映像処理システム１Ｇでは、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかの算出と、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータの算出とを、第２の映像処理装置２０Ｇが行う。そして、符号化データの復号、復号後の映像フレームの映像認識処理、及び復号後の映像フレームの出力を第３の映像処理装置３０Ｇが行う。

　（第２の映像処理装置２０Ｇの構成）
　図１４に示すように、第２の映像処理装置２０Ｇは、第２の映像処理装置２０Ｂにおける復号部２５、認識部２６、及び出力部２７を備えない構成になっている。すなわち、第２の映像処理装置２０Ｇでは、推定値算出部１２２において、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかが算出され、最適化部２４において、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出される。そして、第２の映像処理装置２０Ｇは、算出した映像圧縮パラメータを、第１の映像処理装置１０Ｂに送信する。

　（第３の映像処理装置３０Ｇの構成）
　図１４に示すように、第３の映像処理装置３０Ｇは、復号部２５、認識部２６、及び出力部２７を備えている。すなわち、第３の映像処理装置３０Ｇでは、復号部２５において符号化データの復号が行われ、認識部２６において復号後の映像フレームの映像認識処理が行われ、出力部２７において映像フレームの出力が行われる。

　以上のように、本例示的実施形態に係る映像処理システム１Ｇにおいては、第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｇとの間においてはデータの送受信が発生するが、第３の映像処理装置３０Ｇはデータの受信しか行わない。したがって、第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｇとの間の物理的な距離を縮めたり、第１の映像処理装置１０Ｂと第２の映像処理装置２０Ｇとの間において中継する装置を少なくしたりすることにより、映像処理システム１ＦにおけるＲＴＴ（Round Trip Time）を短くすることができる。

　〔例示的実施形態９〕
　本発明の第９の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～８にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　（映像処理システム１Ｈの構成）
　図１５は、本発明の第９の例示的実施形態に係る映像処理システム１Ｈの構成を示すブロック図である。映像処理システム１Ｈは、映像処理システム１Ｂにおける第２の映像処理装置２０Ｂに替えて、第２の映像処理装置２０Ｈを含む構成である。

　映像処理システム１Ｈでは、第２の映像処理装置２０Ｈは、パケットロスの発生率を予測し、予測したパケットロスの発生率を参照して、未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。

　（第２の映像処理装置２０Ｈの構成）
　図１５に示すように、第２の映像処理装置２０Ｈは、第２の映像処理装置２０Ｂに、パケットロス予測部３１及びパケットロス検出部３２を加えた構成になっている。

　パケットロス予測部３１は、データの送受信においてパケットロスが発生する頻度であるパケットロス率を予測する。パケットロス予測部３１は、予測したパケットロス率を、推定値算出部１２２に供給する。

　パケットロス検出部３２は、過去のデータの送受信において発生したパケットロスを検出する。パケットロス検出部３２は、パケットロスの検出結果を、推定値算出部１２２に供給する。

　推定値算出部１２２は、上述した特徴量取得部２１が取得した特徴量に加えて、パケットロス予測部３１が供給したパケットロス率、及びパケットロス検出部３２が供給した検出結果を更に参照し、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。

　一例として、パケットロス検出部３２が供給した検出結果がパケットロスが発生したことを示す場合、推定値算出部１２２は、受信した符号化データにおけるＧＯＰ（Group Of Picture）をどのように設定するかを示すパラメータを参照し、パケットロスが発生したフレームを含むＧＯＰの映像認識精度の推定値が、他のＧＯＰの映像認識精度の推定値よりも低くなるようにする。

　また、他の例として、推定値算出部１２２は、パケットロス予測部３１が供給したパケットロス率が所定の値より高いフレームを含むＧＯＰの映像認識精度の推定値が、他のＧＯＰの映像認識精度の推定値よりも低くなるようにする。

　以上のように、本例示的実施形態に係る映像処理システム１Ｈにおいては、第２の映像処理装置２０Ｈは、データの送受信においてパケットロスが発生する頻度であるパケットロス率を予測するパケットロス予測部３１と、過去のデータの送受信において発生したパケットロスを検出するパケットロス検出部３２とを備える。したがって、本例示的実施形態に係る映像処理システム１Ｈによれば、パケットロスが発生したか否か、又は予測したパケットロス率が所定の値より低いか否かを参照して、映像認識精度の推定値を算出するので、好適な映像認識精度の推定値を好適に算出することができる。

　（付記事項）
　各実施形態における技術は、１又は複数のＡＧＶ（Automatic Guided Vehicle）、建設機械、自動運転車両、及び監視システム等に広く適用可能である。

　例えば、各実施形態における技術は、複数の作業現場のそれぞれに設置されている複数のカメラから映像を受信し、当該複数のカメラによって撮像された映像を認識し、危険検知及び通知をするシステムにおいて、当該複数のカメラのそれぞれに割り当てる好適なビットレートの算出に用いることができる。

　〔ソフトウェアによる実現例〕
　映像処理システム１、第１の映像処理装置１０Ａ、１０Ｂ、１０Ｃ、１０Ｆ、第２の映像処理装置２０Ａ、２０Ｂ、２０Ｃ、２０Ｄ、２０Ｅ、２０Ｆ、２０Ｇ、２０Ｈ、及び第３の映像処理装置３０Ｇの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、映像処理システム１、第１の映像処理装置１０Ａ、１０Ｂ、１０Ｃ、１０Ｆ、第２の映像処理装置２０Ａ、２０Ｂ、２０Ｃ、２０Ｄ、２０Ｅ、２０Ｆ、２０Ｇ、２０Ｈ、及び第３の映像処理装置３０Ｇは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１６に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを映像処理システム１、第１の映像処理装置１０Ａ、１０Ｂ、１０Ｃ、１０Ｆ、第２の映像処理装置２０Ａ、２０Ｂ、２０Ｃ、２０Ｄ、２０Ｅ、２０Ｆ、２０Ｇ、２０Ｈ、及び第３の映像処理装置３０Ｇとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、映像処理システム１、第１の映像処理装置１０Ａ、１０Ｂ、１０Ｃ、１０Ｆ、第２の映像処理装置２０Ａ、２０Ｂ、２０Ｃ、２０Ｄ、２０Ｅ、２０Ｆ、２０Ｇ、２０Ｈ、及び第３の映像処理装置３０Ｇの各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定手段とを備えている映像処理システム。

　（付記２）
　前記推定手段は、前記ビットレートの推定値として、前記未来における１又は複数フレーム分の符号化後の映像フレームの伝送ビットレートの推定値、及び前記映像認識精度の推定値として、前記未来における１又は複数フレーム分の復号後の映像フレームの映像認識精度の推定値の少なくとも何れかを算出する付記１に記載の映像処理システム。

　（付記３）
　前記取得手段は、前記過去における１又は複数フレーム分の映像フレームの符号の長さ、前記符号化処理された映像フレームを復号して得られる復号後の映像フレーム、及び、前記復号後の映像フレームの映像認識処理における中間特徴量の少なくとも何れかを更に取得し、前記推定手段は、前記取得手段が取得したデータを参照して、前記ビットレートの推定値、及び前記映像認識精度の推定値の少なくとも何れかを算出する付記１又は２に記載の映像処理システム。

　（付記４）
　前記推定手段は、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段と、前記特徴量算出手段が算出した前記特徴量から、前記ビットレートの推定値、及び前記映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている付記１から３の何れか１項に記載の映像処理システム。

　（付記５）
　前記推定手段が算出した前記ビットレートの推定値、及び前記映像認識精度の推定値を参照して、前記未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出するパラメータ算出手段を更に備えている付記１から４の何れか１項に記載の映像処理システム。

　（付記６）
　未来における１又は複数フレーム分における映像圧縮パラメータの候補値を取得する候補値取得手段を更に備え、前記推定手段は、前記取得手段が取得した前記未来における１又は複数フレーム分における映像圧縮パラメータの候補値を更に参照して、前記ビットレートの推定値、及び前記映像認識精度の推定値を算出する付記５に記載の映像処理システム。

　（付記７）
　前記候補値取得手段は、前記映像圧縮パラメータの候補値を複数取得し、前記推定手段は、前記取得手段が取得した複数の前記映像圧縮パラメータの候補値の各々について、前記ビットレートの推定値、及び前記映像認識精度の推定値を算出し、前記パラメータ算出手段は、前記取得手段が取得した複数の前記映像圧縮パラメータの候補値の各々についての、前記ビットレートの推定値と前記映像認識精度の推定値とを引数とする所定の損失関数がより小さくなるように、前記映像圧縮パラメータを算出する付記６に記載の映像処理システム。

　（付記８）
　前記取得手段は、複数の伝送対象映像の各々に関し、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得し、前記推定手段は、複数の伝送対象映像の各々に関し、前記取得手段が取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値を算出し、前記パラメータ算出手段は、前記複数の伝送対象映像の各々に関する、前記ビットレートの推定値、及び前記映像認識精度の推定値を参照して、前記複数の伝送対象映像の各々に関する、前記未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する付記５から７の何れか１項に記載の映像処理システム。

　（付記９）
　前記取得手段は、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかと、当該過去よりも後の時点における１又は複数フレーム分の映像フレームの実際のビットレート、及び実際の映像認識精度の少なくとも何れかとの組を含む教師データを取得し、当該映像処理システムは、前記教師データを用いて前記推定手段を学習させる学習手段を更に備えている付記１から８の何れか１項に記載の映像処理システム。

　（付記１０）
　第１の映像処理装置と第２の映像処理装置とを含む映像処理システムであって、前記第１の映像処理装置は、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段と、を備え、前記第２の映像処理装置は、前記特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている映像処理システム。

　（付記１１）
　過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段とを備えている情報処理装置。

　（付記１２）
　過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている情報処理装置。

　（付記１３）
　過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得することと、前記取得する工程において取得されたデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出することとを含む映像処理方法。

　（付記１４）
　コンピュータを、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段と、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

　（付記１５）
　コンピュータを、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

　少なくとも１つのプロセッサを備え、前記プロセッサは、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、少なくとも何れかを取得する取得処理と、前記取得処理において取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定処理とを実行する映像処理システム。

　なお、この映像処理システムは、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記推定処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　少なくとも１つのプロセッサを備え、前記プロセッサは、過去における１又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得処理と、前記特徴量取得処理において取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出処理とを実行する情報処理装置。

　なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記特徴量取得処理と、前記推定値算出処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　１、１Ａ、１Ｂ、１Ｃ、１Ｄ、１Ｅ、１Ｆ、１Ｇ、１Ｈ　映像処理システム
　１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｆ　第１の映像処理装置
　１１　取得部
　１２　判定部
　１３　符号化部
　１４、２３　通信部
　１９、２９　学習部
　２０Ａ、２０Ｂ、２０Ｃ、２０Ｄ、２０Ｅ、２０Ｆ、２０Ｇ、２０Ｈ　第２の映像処理装置
　２１　特徴量取得部
　２４、２４ａ　最適化部
　２５　復号部
　２６　認識部
　２７　出力部
　２８　可用帯域予測部
　３０Ｇ　第３の映像処理装置
　３１　パケットロス予測部
　３２　パケットロス検出部
　１２１　特徴量算出部
　１２２、１２２ａ　推定値算出部
　１２１１　特徴量抽出部
　１２１２　第１の集約部
　１２１３　第２の集約部
　１２２１　予測値算出部

Claims

　過去における１又は複数フレーム分の映像フレーム、
　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかを取得する取得手段と、
　前記取得手段が取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定手段と
を備えている映像処理システム。
　前記推定手段は、
　　前記ビットレートの推定値として、前記未来における１又は複数フレーム分の符号化後の映像フレームの伝送ビットレートの推定値、及び
　　前記映像認識精度の推定値として、前記未来における１又は複数フレーム分の復号後の映像フレームの映像認識精度の推定値
の少なくとも何れかを算出する
請求項１に記載の映像処理システム。
　前記取得手段は、
　　前記過去における１又は複数フレーム分の映像フレームの符号の長さ、
　　前記符号化処理された映像フレームを復号して得られる復号後の映像フレーム、及び、
　　前記復号後の映像フレームの映像認識処理における中間特徴量
の少なくとも何れかを更に取得し、
　前記推定手段は、前記取得手段が取得したデータを参照して、前記ビットレートの推定値、及び前記映像認識精度の推定値の少なくとも何れかを算出する
請求項１又は２に記載の映像処理システム。
　前記推定手段は、
　　前記取得手段が取得したデータから特徴量を算出する特徴量算出手段と、
　　前記特徴量算出手段が算出した前記特徴量から、前記ビットレートの推定値、及び前記映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と
を備えている請求項１から３の何れか１項に記載の映像処理システム。
　前記推定手段が算出した前記ビットレートの推定値、及び前記映像認識精度の推定値を参照して、前記未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出するパラメータ算出手段を更に備えている
請求項１から４の何れか１項に記載の映像処理システム。
　未来における１又は複数フレーム分における映像圧縮パラメータの候補値を取得する候補値取得手段を更に備え、
　前記推定手段は、前記取得手段が取得した前記未来における１又は複数フレーム分における映像圧縮パラメータの候補値を更に参照して、前記ビットレートの推定値、及び前記映像認識精度の推定値を算出する
請求項５に記載の映像処理システム。
　前記候補値取得手段は、前記映像圧縮パラメータの候補値を複数取得し、
　前記推定手段は、前記取得手段が取得した複数の前記映像圧縮パラメータの候補値の各々について、前記ビットレートの推定値、及び前記映像認識精度の推定値を算出し、
　前記パラメータ算出手段は、前記取得手段が取得した複数の前記映像圧縮パラメータの候補値の各々についての、前記ビットレートの推定値と前記映像認識精度の推定値とを引数とする所定の損失関数がより小さくなるように、前記映像圧縮パラメータを算出する
請求項６に記載の映像処理システム。
　前記取得手段は、
　複数の伝送対象映像の各々に関し、
　　過去における１又は複数フレーム分の映像フレーム、
　　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかを取得し、
　前記推定手段は、
　　複数の伝送対象映像の各々に関し、
　　前記取得手段が取得したデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値を算出し、
　前記パラメータ算出手段は、
　　前記複数の伝送対象映像の各々に関する、前記ビットレートの推定値、及び前記映像認識精度の推定値を参照して、前記複数の伝送対象映像の各々に関する、前記未来における１又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する
請求項５から７の何れか１項に記載の映像処理システム。
　前記取得手段は、
　　過去における１又は複数フレーム分の映像フレーム、
　　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかと、当該過去よりも後の時点における１又は複数フレーム分の映像フレームの実際のビットレート、及び実際の映像認識精度の少なくとも何れかとの組を含む教師データを取得し、
　当該映像処理システムは、
　前記教師データを用いて前記推定手段を学習させる学習手段を更に備えている
請求項１から８の何れか１項に記載の映像処理システム。
　第１の映像処理装置と第２の映像処理装置とを含む映像処理システムであって、
　前記第１の映像処理装置は、
　　過去における１又は複数フレーム分の映像フレーム、
　　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかを取得する取得手段と、
　　前記取得手段が取得したデータから特徴量を算出する特徴量算出手段と、
を備え、
　前記第２の映像処理装置は、
　　前記特徴量を取得する特徴量取得手段と、
　　前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と
を備えている映像処理システム。
　過去における１又は複数フレーム分の映像フレーム、
　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかを取得する取得手段と、
　前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段と
を備えている情報処理装置。
　過去における１又は複数フレーム分の映像フレーム、
　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、
　前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と
を備えている情報処理装置。
　過去における１又は複数フレーム分の映像フレーム、
　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかを取得することと、
　前記取得する工程において取得されたデータを参照して、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出することと
を含む映像処理方法。
　コンピュータを、
　過去における１又は複数フレーム分の映像フレーム、
　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかを取得する取得手段と、
　前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段と、
として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
　コンピュータを、
　過去における１又は複数フレーム分の映像フレーム、
　前記映像フレームの符号化処理における映像圧縮パラメータ、及び
　前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、
　前記特徴量取得手段が取得した前記特徴量から、未来における１又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と、
として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。