JPWO2023053166A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2023053166A5
JPWO2023053166A5 JP2023550757A JP2023550757A JPWO2023053166A5 JP WO2023053166 A5 JPWO2023053166 A5 JP WO2023053166A5 JP 2023550757 A JP2023550757 A JP 2023550757A JP 2023550757 A JP2023550757 A JP 2023550757A JP WO2023053166 A5 JPWO2023053166 A5 JP WO2023053166A5
Authority
JP
Japan
Prior art keywords
video
frames
unit
estimate
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023550757A
Other languages
English (en)
Other versions
JPWO2023053166A1 (ja
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2021/035513 external-priority patent/WO2023053166A1/ja
Publication of JPWO2023053166A1 publication Critical patent/JPWO2023053166A1/ja
Publication of JPWO2023053166A5 publication Critical patent/JPWO2023053166A5/ja
Pending legal-status Critical Current

Links

Description

本発明は、映像処理システム、情報処理装置、映像処理方法、及びプログラムに関する。
ユーザが知覚する通信品質であるQoE(Quality of Experience)を向上させる技術が知られている。特許文献1には、通信装置のリソースを、ユーザQoE及びサービス優先度に応じて割り当てる技術が記載されている。
日本国特開2011-172150号公報
特許文献1の技術では、ビットレートとQoEとの関係性は事前に決められている。しかしながら、例えば映像を受信し、物体検出器などの機械が映像を認識するサービスの場合、当該映像を認識する精度を表すQoE指標は、ビットレートが同じであっても、映像に含まれる情報によって高かったり低かったりする。したがって、ビットレート又は画像認識精度を好適に推定することのできる技術が望まれているが、特許文献1の技術ではそのような推定を行うことはできない。
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、ビットレート又は画像認識精度を好適に推定することのできる技術を提供することである。
本発明の一側面に係る映像処理システムは、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定手段とを備えている。
本発明の一側面に係る情報処理装置は、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段とを備えている。
本発明の一側面に係る情報処理装置は、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている。
本発明の一側面に係る情報処理方法は、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得することと、前記取得する工程において取得されたデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出することとを含む。
本発明の一側面に係るプログラムは、コンピュータを、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段と、として機能させる。
本発明の一側面に係るプログラムは、コンピュータを、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と、として機能させる。
本発明の一態様によれば、ビットレート又は画像認識精度を好適に推定することができる。
本発明の例示的実施形態1に係る映像処理システムの構成を示すブロック図である。 本発明の例示的実施形態1に係る映像処理方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る映像処理システムの構成を示すブロック図である。 本発明の例示的実施形態3に係る映像処理システムの構成を示すブロック図である。 本発明の例示的実施形態3に係る特徴量算出部及び推定値算出部が実行する処理例を示す図である。 本発明の例示的実施形態3に係る最適化部が映像圧縮パラメータを算出する方法を示すグラフである。 本発明の例示的実施形態3に係る映像処理方法の流れを示すフロー図である。 本発明の例示的実施形態4に係る映像処理システムの構成を示すブロック図である。 本発明の例示的実施形態4に係る学習部が推定値算出部を学習させる処理例を示す図である。 本発明の例示的実施形態5に係る映像処理システムの構成を示すブロック図である。 本発明の例示的実施形態5に係る最適化部が映像圧縮パラメータを算出する方法を示すグラフである。 本発明の例示的実施形態6に係る映像処理システムの構成を示すブロック図である。 本発明の例示的実施形態7に係る映像処理システムの構成を示すブロック図である。 本発明の例示的実施形態8に係る映像処理システムの構成を示すブロック図である。 本発明の例示的実施形態9に係る映像処理システムの構成を示すブロック図である。 本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
(映像処理システム1の構成)
本例示的実施形態に係る映像処理システム1の構成について、図1を参照して説明する。図1は、本例示的実施形態に係る映像処理システム1の構成を示すブロック図である。映像処理システム1は、映像圧縮におけるビットレート及び映像認識における映像認識精度の少なくとも何れかを推定算出するシステムである。具体的には、映像処理システム1は、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び未来における1又は複数フレーム分の映像フレームの映像認識精度の推定値の少なくとも何れかを算出する。一例として、映像処理システム1は、未来においてカメラから出力される1又は複数フレーム分の映像フレームのビットレートの推定値、及び当該映像フレームを入力として当該映像フレームに含まれる被写体を認識する認識エンジンから出力される映像認識結果の精度の推定値を算出する。
図1に示すように、映像処理システム1は、取得部11及び判定部12を備えている。取得部11及び判定部12は、本例示的実施形態においてそれぞれ取得手段及び推定手段を実現する構成である。
取得部11は、以下のデータの少なくとも何れかを取得する。
・過去における1又は複数フレーム分の映像フレーム
・映像フレームの符号化処理における映像圧縮パラメータ
・符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果
映像圧縮パラメータの例として、CRF(Constant Rate Factor)及びQP(Quantization parameter)が挙げられるが、これらに限定されない。
復号後の映像フレームの映像認識結果とは、復号後の映像フレームを入力として当該復号後の映像フレームに含まれる被写体を認識する認識エンジンから出力される映像認識結果である。また、復号後の映像フレームの映像認識結果は、人間による判断の結果、得られる情報であってもよい。
また、取得部11は、上述したデータに加えて、以下のデータの少なくとも何れかを取得する構成であってもよい。
・過去における1又は複数フレーム分の映像フレームの符号の長さ
・符号化処理された映像フレームを復号して得られる復号後の映像フレーム
・復号後の映像フレームの映像認識処理における中間特徴量
ここで、復号後の映像フレームの映像認識処理における中間特徴量とは、映像認識処理を実行する認識エンジンの中間層において得られる特徴量である。また、特徴量とは、映像フレームから抽出された特徴を数値化したものであり、特徴量の一例として、抽出された特徴を並べてベクトルで表した特徴ベクトルが挙げられるが、これに限定されない。
また、上記認識エンジンは、一例として、入力層、1又は複数の中間層、及び出力層からなるニューラルネットワークで構成される。当該認識エンジンでは、入力層に映像フレームが入力されると、当該映像フレームにおける特徴量が1又は複数の中間層において抽出され、出力層から映像認識結果が出力される。ここで、当該1又は複数の中間層の少なくとも何れかにおいて抽出された特徴量が、映像フレームの映像認識処理における中間特徴量である。
判定部12は、取得部11が取得したデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。より具体的には、判定部12は、ビットレートの推定値として、未来における1又は複数フレーム分の符号化後の映像フレームの伝送ビットレートの推定値、及び、映像認識精度の推定値として、未来における1又は複数フレーム分の復号後の映像フレームの映像認識精度の推定値、の少なくとも何れかを算出する。
判定部12の具体的構成の一例として、CNN(Convolution Neural Network)、RNN(Recurrent Neural Network)、又はそれらの組み合わせを用いることができる。また、ランダムフォレストやサポートベクターマシンのような非ニューラルネットワーク型のモデルを用いてもよい。
以上のように、本例示的実施形態に係る映像処理システム1においては、取得部11は、過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する。そして、判定部12は、取得部11が取得したデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する構成が採用されている。
したがって、本例示的実施形態に係る映像処理システム1によれば、過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して映像フレームのビットレート及び映像認識精度の推定値の少なくとも何れかを算出するので、ビットレート又は画像認識精度を好適に推定することができる。
(映像処理方法S1の流れ)
本例示的実施形態に係る映像処理方法S1の流れについて、図2を参照して説明する。図2は、映像処理方法S1の流れを示すフロー図である。
(ステップS11)
ステップS11において、取得部11は、過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する。
(ステップS12)
ステップS12において、判定部12は、ステップS11において取得されたデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。
以上のように、本例示的実施形態に係る映像処理方法S1においては、ステップS11において、取得部11は、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する。そして、ステップS12において、判定部12が、ステップS11において取得されたデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。したがって、本例示的実施形態に係る映像処理方法S1によれば、映像処理システム1と同様の効果を奏する。
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
(映像処理システム1Aの構成)
図3は、本発明の第2の例示的実施形態に係る映像処理システム1Aの構成を示すブロック図である。映像処理システム1Aは、第1の映像処理装置10Aと第2の映像処理装置20Aとを含んでいる。
第1の映像処理装置10Aと第2の映像処理装置20Aとは、互いに通信可能に接続されている。
映像処理システム1Aでは、第1の映像処理装置10Aは、映像フレームに関するデータを取得し、当該データから特徴量を算出する。また、映像処理システム1Aでは、第2の映像処理装置20Aは、第1の映像処理装置10Aによって算出された特徴量を取得し、当該特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。
(第1の映像処理装置10Aの構成)
図3に示すように、第1の映像処理装置10Aは、取得部11及び特徴量算出部121を備えている。特徴量算出部121は、本例示的実施形態において特徴量算出手段を実現する構成である。取得部11は、上述した通りである。
特徴量算出部121は、取得部11が取得したデータから特徴量を算出する。特徴量算出部121が算出した特徴量は、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される。特徴量算出部121は、算出した特徴量を第2の映像処理装置20Aに出力する。
(第2の映像処理装置20Aの構成)
図3に示すように、第2の映像処理装置20Aは、特徴量取得部21及び推定値算出部122を備えている。特徴量取得部21及び推定値算出部122は、本例示的実施形態においてそれぞれ特徴量取得手段及び推定値算出手段を実現する構成である。
特徴量取得部21は、第1の映像処理装置10Aから出力された特徴量を取得する。
推定値算出部122は、特徴量取得部21が取得した特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。
ここで、特徴量算出部121と推定値算出部122とは、上述した判定部12を構成していると言える。換言すると、判定部12は、特徴量算出部121と推定値算出部122とを備えている。
以上のように、本例示的実施形態に係る映像処理システム1Aにおいては、第1の映像処理装置10Aは、過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかを取得し、取得したデータから特徴量を算出する。また、第2の映像処理装置20Aは、第1の映像処理装置10Aが算出した特徴量を取得し、当該特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。したがって、本例示的実施形態に係る映像処理システム1Aによれば、例示的実施形態1に係る映像処理システム1と同様の効果を奏する。
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1および2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
(映像処理システム1Bの構成)
図4は、本発明の第3の例示的実施形態に係る映像処理システム1Bの構成を示すブロック図である。映像処理システム1Bは、第1の映像処理装置10Bと第2の映像処理装置20Bとを含んでいる。
第1の映像処理装置10Bと第2の映像処理装置20Bとは、ネットワークNを介して互いに通信可能に接続されている。
ネットワークNの具体的構成は本実施形態を限定するものではないが、一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。
映像処理システム1Bでは、第1の映像処理装置10Bは、映像データを取得し、当該映像データを符号化処理した映像フレームと、当該映像フレームの特徴量とを出力する。
また、映像処理システム1Bでは、第2の映像処理装置20Bは、以下の処理を実行する。
・第1の映像処理装置10Bから出力された特徴量を取得し、当該特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する
・第1の映像処理装置10Bから出力された映像フレームを取得し、当該映像フレームを復号し、復号した映像フレームを出力する
・ネットワーク統計データを取得し、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する
ここで、ネットワーク統計データとは、ネットワークNの利用環境を示すデータであり、一例として、ネットワークNにおいて使用可能な帯域が挙げられるが、これに限定されない。
(第1の映像処理装置10Bの構成)
図4に示すように、第1の映像処理装置10Bは、取得部11、特徴量算出部121、符号化部13、及び通信部14を備えている。
取得部11は、映像データを取得する。取得部11は、取得した映像データを、特徴量算出部121及び符号化部13に供給する。
特徴量算出部121は、取得部11から供給された映像データ、後述する符号化部13から供給された映像フレームの符号化処理における映像圧縮パラメータ、及び後述する第2の映像処理装置20Bから出力された復号後の映像フレームの映像認識結果の少なくとも何れかを参照し、特徴量を算出する。特徴量算出部121は、算出した特徴量を、通信部14に供給する。特徴量算出部121が特徴量を算出する処理の詳細については後述する。
符号化部13は、取得部11から供給された映像データを符号化する。より具体的には、符号化部13は、映像データを構成する映像フレームを、映像圧縮パラメータを用いて符号化する。符号化部13は、符号化した映像フレームを通信部14に供給する。また、符号化部13は、符号化処理における映像圧縮パラメータを、特徴量算出部121に供給する。
通信部14は、ネットワークNを介して第2の映像処理装置20Bと通信する通信モジュールである。一例として、通信部14は、特徴量算出部121から供給された特徴量及び符号化部13から供給された符号化処理された映像フレームを、ネットワークNを介して第2の映像処理装置20Bに出力したり、第2の映像処理装置20Bから復号後の映像フレームの映像認識結果を取得したりする。
(第2の映像処理装置20Bの構成)
図4に示すように、第2の映像処理装置20Bは、特徴量取得部21、通信部23、最適化部24、復号部25、認識部26、出力部27、可用帯域予測部28、及び推定値算出部122を備えている。最適化部24は、本例示的実施形態においてパラメータ算出手段を実現する構成である。
通信部23は、ネットワークNを介して第1の映像処理装置10Bと通信する通信モジュールである。一例として、通信部23は、第1の映像処理装置10Bから出力された特徴量及び符号化処理された映像フレームを取得したり、後述する認識部26から供給される復号後の映像フレームの映像認識結果を第1の映像処理装置10Bに出力したりする。
特徴量取得部21は、通信部23から供給される特徴量を取得する。特徴量取得部21は、取得した特徴量を推定値算出部122に供給する。
推定値算出部122は、特徴量取得部21が取得した特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。推定値算出部122が未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する処理の詳細については後述する。
最適化部24は、推定値算出部122が算出したビットレートの推定値、及び映像認識精度の推定値を参照して、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。最適化部が未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する処理の詳細については、後述する。
また、最適化部24は、上記データに加えて、後述する可用帯域予測部28が供給した、ネットワークNにおいて第1の映像処理装置10Bと第2の映像処理装置20Bとの通信に使用可能な可用帯域、及び未来セグメントの圧縮パラメータを更に参照し、映像圧縮パラメータを算出してもよい。
また、最適化部24は、後述する予測値算出部1221によって参照される圧縮パラメータ候補値を導出する。最適化部24は、導出した圧縮パラメータ候補値を、予測値算出部1221に供給する。
最適化部24は、予め設定された複数の値の少なくとも何れかを圧縮パラメータ候補値として用いてもよいし、無作為な値を有するよう導出した圧縮パラメータ候補値を用いてもよいし、過去の圧縮パラメータを参照して、圧縮パラメータ候補値を導出してもよい。
可用帯域予測部28は、ネットワーク統計データを取得し、ネットワークNにおいて第1の映像処理装置10Bと第2の映像処理装置20Bとの通信に使用可能な可用帯域を予測する。
復号部25は、通信部23から供給される符号化処理された映像フレームを取得し、当該映像フレームを復号する。復号部25は、復号後の映像フレームを、認識部26及び出力部27に供給する。
認識部26は、復号部25から供給された復号後の映像フレームを入力として当該映像フレームに含まれる被写体を認識する認識エンジンから出力される映像認識結果を取得する。認識部26は、取得した映像認識結果を、通信部23に供給する。また、認識部26は、復号後の映像フレームを出力部27に供給してもよい。
また、上記認識エンジンは、一例として、入力層、1又は複数の中間層、及び出力層からなるニューラルネットワークで構成される。当該認識エンジンでは、入力層に映像フレームが入力されると、当該映像フレームにおける特徴量が1又は複数の中間層において抽出され、出力層から映像認識結果が出力される。ここで、当該1又は複数の中間層の少なくとも何れかにおいて抽出された特徴量が、映像フレームの映像認識処理における中間特徴量である。
なお、認識部26は、復号部25から供給された復号後の映像フレームに関する人間による映像認識結果を取得する構成としてもよい。
出力部27は、復号部25又は認識部26から供給された復号の映像フレームを出力する。出力部27が復号の映像フレームを出力する例として、表示パネルへ出力して画像を表示する構成が挙げられるが、これに限定されない。
(特徴量算出部121及び推定値算出部122が実行する処理例)
特徴量算出部121及び推定値算出部122が実行する処理例について、図5を用いて説明する。図5は、本発明の第3の例示的実施形態に係る特徴量算出部121及び推定値算出部122が実行する処理例を示す図である。
図5に示す図において、縦方向に模式的な時間軸が設定されており、時間軸上に各圧縮前映像を示している。また、一例として、現時点は時点t1で示されており、圧縮前映像の映像フレームPF1、映像フレームPF2、・・・映像フレームPFnは過去の映像フレームの集合である過去セグメント(過去における1又は複数フレーム分の映像フレーム)であり、映像フレームFF1、・・・映像フレームFFnは未来の映像フレームの集合である未来セグメント(未来における1又は複数フレーム分の映像フレーム)である。
図5に示す図では、図4における特徴量算出部121及び推定値算出部122が実行する処理について説明するため、特徴量算出部121及び推定値算出部122の間でデータを送受信する通信部14及び通信部23といったブロックは省略している。
図5に示すように、特徴量算出部121は、特徴量抽出部1211、第1の集約部1212、及び第2の集約部1213を備えている。
特徴量抽出部1211は、過去セグメントを構成する映像フレームPF1~PFnを取得し、映像フレームPF1~PFnにおける特徴量を算出する。特徴量抽出部1211は、算出した特徴量を第1の集約部1212に供給する。
第1の集約部1212は、特徴量算出部121から供給された特徴量と、過去セグメントの圧縮パラメータCPとを取得し、取得した特徴量及び圧縮パラメータCPを各フレームに関して集約する。一例として、第1の集約部1212は、各フレームに関し、特徴量算出部121から供給された特徴量と、過去セグメントの圧縮パラメータCPとを、畳み込み層及びReLU(Rectified Linear Unit)層において繰り返し処理し、集約されたデータを算出する。第1の集約部1212は、集約したデータを第2の集約部1213に供給する。
第2の集約部1213は、第1の集約部1212から供給されたデータを取得し、時間軸上の集約を行う。一例として、第2の集約部1213は、映像フレームPF1~PFnそれぞれの集約したデータを、時間軸の畳み込み層及びReLU層において繰り返し処理し、時間軸上に集約した特徴量SVを算出する。第2の集約部1213は、算出した特徴量SVとして出力する。
第1の集約部1212及び第2の集約部1213の具体的構成の一例として、CNN(Convolution Neural Network)、RNN(Recurrent Neural Network)、又はそれらの組み合わせを用いることができる。また、ランダムフォレストやサポートベクターマシンのような非ニューラルネットワーク型のモデルを用いてもよい。
また、図5に示すように、推定値算出部122は、予測値算出部1221を備えている。予測値算出部1221は、本例示的実施形態において候補値取得手段を実現する構成である。
予測値算出部1221は、第2の集約部1213から出力された特徴量SVと、未来における1又は複数フレーム分における映像圧縮パラメータの候補値である圧縮パラメータ候補値FCPCとを取得し、未来セグメントのビットレートの予測値(推定値)及び未来セグメントの映像認識精度の予測値(推定値)の少なくとも何れかを算出する。一例として、予測値算出部1221は、FC(Fully Connected)層やReLU層において繰り返し予測値を算出する処理を行い、最適化部24から供給される未来セグメントの圧縮パラメータ候補値FCPCのそれぞれに対して、未来セグメントのビットレートの予測値及び未来セグメントの映像認識精度の予測値の少なくとも何れかを算出する。
(最適化部24が実行する処理例)
最適化部24が実行する処理例について、図6を用いて説明する。図6は、本発明の第3の例示的実施形態に係る最適化部24が映像圧縮パラメータを算出する方法を示すグラフである。
まず、最適化部24は、未来セグメントの圧縮パラメータ候補値FCPCに対して推定値算出部122が算出した、未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値の少なくとも何れかを、予め蓄積する。図6の上段の図は、最適化部24が蓄積した未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値の関係を示すグラフである。
次に、最適化部24は、未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値等を参照し、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。一例として、最適化部24は、勾配法等を用いて、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。例えば、最適化部24は、以下の数式(1)を用いて、未来における1又は複数フレーム分の映像の符号化処理における映像圧縮パラメータを算出する。数式(1)は、ビットレートの推定値と映像認識精度の推定値とを引数とする所定の損失関数である。

数式(1)における各変数は、以下を表している。
λ:算出された映像圧縮パラメータ
C:映像データの数(本例示的実施形態ではC=1)
:映像フレームにおける映像認識誤差(認識精度の逆数など)の推定値
λ:映像フレームの圧縮パラメータ候補値
:過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れか
:映像フレームにおけるビットレートの推定値
B:可用帯域予測部28が予測した可用帯域
すなわち、まず、予測値算出部1221が、未来における1又は複数フレーム分における映像圧縮パラメータの候補値である圧縮パラメータ候補値λを複数取得する。そして、予測値算出部1221は、取得した複数の映像圧縮パラメータλの候補値の各々について、過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかであるXを参照して、ビットレートの推定値R、及び映像認識誤差の推定値D(換言すると、映像認識精度の推定値の逆数)を算出する。これにより、予測値算出部1221は、ビットレートの推定値Rの分布、及び映像認識精誤差の推定値Dの分布を得ることができる。
次に、最適化部24は、予測値算出部1221が取得した複数の映像圧縮パラメータλの候補値の各々についての、ビットレートの推定値Rと映像認識誤差の推定値D(換言すると、映像認識精度の推定値の逆数)とを引数とする所定の損失関数である数式(1)がより小さくなるように、前記映像圧縮パラメータλを算出する。数式(1)によって算出されたλは、図6の下段のグラフにおけるOBに対応する。
より具体的には、ある映像セグメントにおいて、予測値算出部1221は、圧縮パラメータ候補値λC1,λC2,λC3・・・を取得する。次に、予測値算出部1221は、取得した圧縮パラメータ候補値λC1,λC2,λC3・・・の各々について、ビットレートの各推定値R、及び映像認識誤差の各推定値Dを算出する。そして、最適化部24は、予測値算出部1221が算出したビットレートの各推定値R、及び各映像認識誤差の推定値Dを参照し、勾配法などを用いた数式(1)により、映像圧縮パラメータλを算出する。
このように、予測値算出部1221及び最適化部24は、複数の映像圧縮パラメータの候補値について、映像圧縮パラメータλを算出し、最も小さい映像圧縮パラメータλを算出する。
(映像処理方法S1Bの流れ)
本例示的実施形態に係る映像処理方法S1Bの流れについて、図7を参照して説明する。図7は、映像処理方法S1Bの流れを示すフロー図である。
(ステップS101)
ステップS101において、第1の映像処理装置10Bの取得部11は、対象セグメントの映像データを取得する。
(ステップS102)
ステップS102において、符号化部13は、取得部11が取得した映像データを、映像圧縮パラメータを用いて符号化し、符号化データを生成する。
(ステップS103)
ステップS103において、特徴量算出部121は、取得部11が取得した映像データ、符号化部13が符号化処理において用いた映像圧縮パラメータ、及び第2の映像処理装置20Bから出力された復号後の映像フレームの映像認識結果の少なくとも何れかを参照し、映像データの特徴量を算出する。特徴量算出部121による具体的な処理は上述したためここでは説明を省略する。
(ステップS104)
ステップS104において、通信部14は、特徴量算出部121が算出した特徴量及び符号化部13が符号化処理を行った際に用いた符号化データを、ネットワークNを介して第2の映像処理装置20Bに送信する。
(ステップS201)
ステップS201において、第2の映像処理装置20Bの通信部23は、第1の映像処理装置10Bから送信された特徴量及び符号化データを受信する。
(ステップS202)
ステップS202において、復号部25は、通信部23が受信した符号化データを復号し、映像データを復元する。
(ステップS203)
ステップS203において、認識部26は、復号部25が復号した映像データの映像認識処理を実行する。
(ステップS204)
ステップS204において、出力部27は、復号部25が復号した映像データを出力する。また、認識部26は、ステップS203において実行した映像認識処理の結果を示す映像認識結果を、通信部23に供給する。通信部23は、供給された映像認識結果を、ネットワークNを介して第1の映像処理装置10Bに送信する。第1の映像処理装置10Bの通信部14は、映像認識結果を受信すると、当該映像認識結果を特徴量算出部121に供給する。特徴量算出部121は、供給された映像認識結果を参照し、特徴量を算出する。
(ステップS205)
ステップS205において、特徴量取得部21は、通信部23が受信した特徴量を取得する。次に、推定値算出部122は、特徴量取得部21が取得した特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値を算出する。また、ステップS205において、推定値算出部122は、未来における1又は複数フレーム分における映像圧縮パラメータの候補値FCPCを取得し、当該映像圧縮パラメータの候補値FCPCを更に参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出してもよい。推定値算出部122による具体的な処理は上述したためここでは説明を省略する。
(ステップS206)
ステップS206において、最適化部24は、推定値算出部122が算出したビットレートの推定値、及び映像認識精度の推定値を参照して、未来セグメントの符号化処理における映像圧縮パラメータを算出する。最適化部24による具体的な処理は上述したためここでは説明を省略する。
(ステップS207)
ステップS207において、通信部23は、最適化部24が算出した映像圧縮パラメータを第1の映像処理装置10BにネットワークNを介して送信する。第1の映像処理装置10Bの通信部14は、映像圧縮パラメータを受信すると、当該映像圧縮パラメータを符号化部13に供給する。符号化部13は、未来セグメントの符号化処理において、供給された映像圧縮パラメータを用いる。
以上のように、本例示的実施形態に係る映像処理システム1Bにおいては、第2の映像処理装置20Bにおける最適化部24は、ステップS206において、ビットレートの推定値及び映像認識精度の推定値を参照して、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。したがって、本例示的実施形態に係る映像処理システム1Bによれば、未来における1又は複数フレーム分の映像フレームの符号化処理における好適な映像圧縮パラメータを好適に算出することができる。
また、本例示的実施形態に係る映像処理システム1Bにおいては、第2の映像処理装置20Bにおける推定値算出部122は、ステップS205において、未来における1又は複数フレーム分における映像圧縮パラメータの候補値FCPCを取得し、映像圧縮パラメータの候補値FCPCを更に参照して、ビットレートの推定値及び映像認識精度の推定値を算出する。したがって、本例示的実施形態に係る映像処理システム1Bによれば、好適なビットレートの推定値及び映像認識精度の推定値を好適に算出することができる。
〔例示的実施形態4〕
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
(映像処理システム1Cの構成)
図8は、本発明の第4の例示的実施形態に係る映像処理システム1Cの構成を示すブロック図である。映像処理システム1Cは、上述した映像処理システム1Bにおける第1の映像処理装置10Bと第2の映像処理装置20Bとに替えて、第1の映像処理装置10Cと第2の映像処理装置20Cとを含む構成である。
映像処理システム1Cでは、第1の映像処理装置10Bと第2の映像処理装置20Bとは、それぞれ教師データを取得し、特徴量算出部121と推定値算出部122とを学習させる。
(第1の映像処理装置10Cの構成)
図8に示すように、第1の映像処理装置10Cは、上述した第1の映像処理装置10Bが備える構成に加えて、学習部19を備えている。取得部11及び学習部19は、それぞれ本例示的実施形態において取得手段及び学習手段を実現する構成である。
取得部11は、過去における1又は複数フレーム分の映像フレーム、当該映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかと、当該過去よりも後の時点における1又は複数フレーム分の映像フレームの実際のビットレート、及び実際の映像認識精度の少なくとも何れかとの組を含む教師データを取得する。
学習部19は、上記教師データを用いて、特徴量算出部121を学習させる。学習部19の処理の詳細については、後述する。
(第2の映像処理装置20Cの構成)
一方、図8に示すように、第2の映像処理装置20Cは、上述した第2の映像処理装置20Bが備える構成に加えて、学習部29を備えている。学習部29は、本例示的実施形態において取得手段及び学習手段を実現する構成である。
学習部29は、第1の映像処理装置10Cの取得部11から、上記教師データを取得する。より具体的には、学習部29は、過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかと、当該過去よりも後の時点における1又は複数フレーム分の映像フレームの実際のビットレート、及び実際の映像認識精度の少なくとも何れかとの組を含む教師データを取得する。
そして、学習部29は、取得した教師データを用いて、推定値算出部122を学習させる。学習部29の処理の詳細については、後述する。
(学習部19及び学習部29による学習処理例)
学習部29が推定値算出部122を学習させる処理例、及び学習部19が特徴量算出部121を学習させる処理例について、図9を用いて説明する。図9は、本発明の第4の例示的実施形態に係る学習部29が推定値算出部122を学習させる処理例、及び学習部19が特徴量算出部121を学習させる処理例を模式的に示す図である。
図9に示す図において、縦方向に模式的な時間軸が設定されており、時間軸上に各圧縮前映像を示している。また、一例として、映像フレームPF1~PFnより後の時点であり、映像フレームFF1~FFnより前の時点を時点t1、映像フレームPF1~PFnより後の時点を時点t2で示している。
まず、図5を参照して説明した処理と同様に、推定値算出部122は、時点t1において、過去における映像フレームPF1~PFn、映像フレームPF1~PFnの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかを参照し、未来セグメントである映像フレームFF1~FFnの映像認識精度の推定値と、ビットレートの推定値とを算出する。そして、例示的実施形態では、推定値算出部122は、算出した映像認識精度の推定値とビットレートの推定値とを、図示しない記憶部に格納する。ここで、推定値算出部122による上記各値の算出処理は、一例として学習部29による指示に基づくものであってもよい。また、推定値算出部122が参照する上記各データは、上述した教師データの一部を構成する。
次に、時点t2において、符号化部13は、映像フレームFF1~FFnを符号化する。当該映像フレームFF1~FFnは、時点t1では、未来における映像フレームであったが、時点t2では、過去における映像フレームになっている。符号化部13は、符号化処理した映像フレームFF1~FFnの実際のビットレートと、映像フレームFF1~FFnを符号化処理して得られた符号化データとを第2の映像処理装置20Cに出力する。
第2の映像処理装置20Cの復号部25は、符号化部13から出力された符号化データを取得し、当該符号化データを復号して映像データを復元する。また、復号部25は、符号化部13から取得した実際のビットレートを、図示しない記憶部に格納する。そして、認識部26は、復号部25が復号した映像データの映像認識処理を行い、映像認識における実際の映像認識精度を取得する。認識部26は、取得した実際の映像認識精度を、図示しない記憶部に格納する。上述した実際のビットレートと実際の映像認識精度は、上述した教師データの一部を構成する。
学習部29は、
上述した映像フレームFF1~FFnに関する映像認識精度の推定値及びビットレートの推定値と、
上述した映像フレームFF1~FFnに関する実際の映像認識精度及び実際のビットレートと
のそれぞれの相違が小さくなるように、推定値算出部122におけるパラメータを更新することによって推定値算出部122を学習させる。ここで、映像フレームFF1~FFnに関する映像認識精度の推定値及びビットレートの推定値は、上述の処理によって、推定値算出部122が算出したものである。
同様に、学習部19は、
上述した映像フレームFF1~FFnに関する映像認識精度の推定値及びビットレートの推定値と、
上述した映像フレームFF1~FFnに関する実際の映像認識精度及び実際のビットレートと
のそれぞれの相違が小さくなるように、特徴量算出部121におけるパラメータを更新することによって特徴量算出部121を学習させる。ここで、映像フレームFF1~FFnに関する映像認識精度の推定値及びビットレートの推定値は、上述の処理によって、推定値算出部122が算出したものである。
このように、学習部19、及び学習部29は、
過去における映像フレームPF1~PFn、映像フレームPF1~PFnの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかと、
前記過去よりの後の時点における映像フレームFF1~FFnの実際の映像認識精度及び実際のビットレートと
を含む教師データを用いて、
上述した映像フレームFF1~FFnに関する映像認識精度の推定値及びビットレートの推定値と、
上述した映像フレームFF1~FFnに関する実際の映像認識精度及び実際のビットレートと
のそれぞれの相違が小さくなるように、特徴量算出部121及び推定値算出部122を学習させる
したがって、本例示的実施形態に係る映像処理システム1Cによれば、特徴量算出部121及び推定値算出部122が学習されるので、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値が好適に算出される。
〔例示的実施形態5〕
本発明の第5の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~4にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
(映像処理システム1Dの構成)
図10は、本発明の第5の例示的実施形態に係る映像処理システム1Dの構成を示すブロック図である。映像処理システム1Dは、映像処理システム1Bにおける第1の映像処理装置10Bを複数備え、更に第2の映像処理装置20Bに替えて、第2の映像処理装置20Dを含む構成である。
映像処理システム1Dでは、複数の伝送対象映像の各々に関して、第1の映像処理装置10B-1は映像データ1を取得し、第1の映像処理装置10B-2は映像データ2を取得し、第1の映像処理装置10B-3は映像データ3を取得する。また、映像処理システム1Dでは、第2の映像処理装置20Dは、複数の伝送対象映像の各々に関して、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。
なお、図10に示す例では、第1の映像処理装置10B-1、第1の映像処理装置10B-2、及び第1の映像処理装置10B-3の3つを例示しているが、これは本例示的実施形態を限定するものではない。映像処理システム1Dは、任意の個数の第1の映像処理装置を含む構成とすることができる。また、本例示的実施形態において、複数の第1の映像処理装置は、互いに同様な要部構成を備えている。
(第2の映像処理装置20Dの構成)
図10に示すように、第2の映像処理装置20Dは、第2の映像処理装置20Bにおける推定値算出部122及び最適化部24に替えて、推定値算出部122a及び最適化部24aを備えている。
推定値算出部122aは、複数の伝送対象映像の各々に関し、第1の映像処理装置10B-1~10B-3から送信された各特徴量を参照し、未来における1又は複数フレーム分の映像フレームのビットレートの各推定値、及び映像認識精度の各推定値を算出する。ここで、第1の映像処理装置10B-1~10B-3から送信される各特徴量は、上述したように、各々の取得部11が取得した過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかを特徴量算出部121が参照して算出したデータである。
最適化部24aは、複数の伝送対象映像の各々に関する、ビットレートの推定値、及び前記映像認識精度の推定値を参照して、複数の伝送対象映像の各々に関する、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。
(最適化部24aが実行する処理例)
最適化部24aが実行する処理例について、図11を用いて説明する。図11は、本発明の第5の例示的実施形態に係る最適化部24aが映像圧縮パラメータを算出する方法を示すグラフである。
最適化部24aは、複数の伝送対象映像の各々に関して、未来セグメントの圧縮パラメータ候補値FCPCのそれぞれに対して推定値算出部122が算出した、未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値の少なくとも何れかを、予め蓄積する。図11の上段の図は、映像データ1、映像データ2、及び映像データ3の各々に関して、最適化部24aが蓄積した未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値の関係を示すグラフである。
次に、最適化部24aは、複数の伝送対象映像の各々に関して、未来セグメントのビットレートの推定値及び未来セグメントの映像認識精度の推定値等を参照し、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。一例として、最適化部24aは、以下の数式(2)を用いて、複数の伝送対象映像の各々に関する、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。

数式(2)における各変数は、数式(1)と同様、以下を表している。
λ:算出された映像圧縮パラメータ
C:映像の数
:映像フレームにおける映像認識誤差(認識精度の逆数など)の推定値
λ:映像フレームの圧縮パラメータ候補値
:過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れか
:映像フレームにおけるビットレートの推定値
B:可用帯域予測部28が予測した可用帯域
ここで、上述した例示的実施形態では、映像の数C=1であったが、本例示的実施形態では、映像の数Cは、第1の映像処理装置10Bの数と等しくなる。例えば、図10に示す映像処理システム1Dでは、映像の数C=3である。
すなわち、まず、予測値算出部1221が、未来における1又は複数フレーム分における映像圧縮パラメータの候補値である圧縮パラメータ候補値λを複数取得する。そして、予測値算出部1221は、取得した複数の映像圧縮パラメータλの候補値の各々について、複数の伝送対象映像の各々に関し、過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかであるXを参照して、ビットレートの推定値R、及び映像認識誤差(換言すると、映像認識精度の推定値の逆数)の推定値Dを算出する。これにより、予測値算出部1221は、複数の伝送対象映像の各々に関し、ビットレートの推定値Rの分布、及び映像認識誤差の推定値Dの分布を得ることができる。
次に、最適化部24は、複数の伝送対象映像の各々に関し、予測値算出部1221が取得した複数の映像圧縮パラメータλの候補値の各々についての、ビットレートの推定値Rと映像認識誤差の推定値D(換言すると、映像認識精度の推定値の逆数)とを引数とする所定の損失関数である数式(2)がより小さくなるように、前記映像圧縮パラメータλを算出する。数式(2)によって算出された各映像データのλは、図11の下段のグラフにおいて、それぞれ映像データ1がOB1、映像データ2がOB2、映像データ3がOB3に対応する。
より具体的には、複数の伝送対象映像の各々におけるある映像セグメントにおいて、予測値算出部1221は、圧縮パラメータ候補値λC1,λC2,λC3・・・を取得する。次に、予測値算出部1221は、取得した圧縮パラメータ候補値λC1,λC2,λC3・・・の各々について、ビットレートの各推定値R、及び映像認識誤差の各推定値Dを算出する。そして、最適化部24は、予測値算出部1221が算出したビットレートの各推定値R、及び各映像認識誤差の推定値Dを参照し、勾配法などを用いた数式(2)によって、映像圧縮パラメータλを算出する。
以上のように、本例示的実施形態に係る映像処理システム1Dにおいては、第1の映像処理装置10Bの取得部11は、複数の伝送対象映像の各々に関し、過去における1又は複数フレーム分の映像フレーム、映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果の少なくとも何れかを取得する。次に、本例示的実施形態に係る映像処理システム1Dにおいては、第1の映像処理装置10Bの特徴量算出部121及び第2の映像処理装置20Bの推定値算出部122aは、複数の伝送対象映像の各々に関し、取得部11が取得したデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値を算出する。そして、本例示的実施形態に係る映像処理システム1Dにおいては、第2の映像処理装置20Bの最適化部24aは、複数の伝送対象映像の各々に関する、ビットレートの推定値、及び映像認識精度の推定値を参照して、複数の伝送対象映像の各々に関する、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。したがって、本例示的実施形態に係る映像処理システム1Dによれば、複数の伝送対象映像の各々に関する、未来における1又は複数フレーム分の映像フレームの符号化処理における好適な映像圧縮パラメータを算出することができる。
〔例示的実施形態6〕
本発明の第6の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~5にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
(映像処理システム1Eの構成)
図12は、本発明の第6の例示的実施形態に係る映像処理システム1Eの構成を示すブロック図である。映像処理システム1Eは、映像処理システム1Bにおける第2の映像処理装置20Bに替えて、第2の映像処理装置20Eを含む構成である。
映像処理システム1Eでは、第2の映像処理装置20Eは、
・過去における1又は複数フレーム分の映像フレームの符号の長さ
・符号化処理された映像フレームを復号して得られる復号後の映像フレーム
・復号後の映像フレームの映像認識処理結果、又は当該映像認識処理における中間特徴量
の少なくとも何れかを更に参照し、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。
(第2の映像処理装置20Eの構成)
図12に示すように、第2の映像処理装置20Eでは、推定値算出部122は復号部25と認識部26からデータを取得する構成になっている。推定値算出部122は、本例示的実施形態において取得手段を実現する構成である。
一例として、推定値算出部122は、復号部25から、過去における1又は複数フレーム分の映像フレームの符号の長さ及び復号後の映像フレームの少なくとも何れかを取得し、認識部26から、復号後の映像フレームの映像認識処理結果、又は当該映像認識処理における中間特徴量を取得する。そして、推定値算出部122は、特徴量取得部21が取得した特徴量に加えて、復号後の映像フレーム、及び復号後の映像フレームの映像認識処理結果又は当該映像認識処理における中間特徴量の少なくとも何れかを更に参照し、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。
ここで、映像認識処理における中間特徴量とは、映像認識処理を実行する認識エンジンの中間層において得られる特徴量である。また、特徴量とは、映像フレームから抽出された特徴を数値化したものであり、特徴量の一例として、抽出された特徴を並べてベクトルで表した特徴ベクトルが挙げられるが、これに限定されない。
また、上記認識エンジンは、一例として、入力層、1又は複数の中間層、及び出力層からなるニューラルネットワークで構成される。当該認識エンジンでは、入力層に映像フレームが入力されると、当該映像フレームにおける特徴量が1又は複数の中間層において抽出され、出力層から映像認識結果が出力される。ここで、当該1又は複数の中間層の少なくとも何れかにおいて抽出された特徴量が、映像フレームの映像認識処理における中間特徴量である。
以上のように、本例示的実施形態に係る映像処理システム1Eにおいては、第2の映像処理装置20Eの推定値算出部122は、過去における1又は複数フレーム分の映像フレームの符号の長さ、符号化処理された映像フレームを復号して得られる復号後の映像フレーム、及び復号後の映像フレームの映像認識処理結果又は当該映像認識処理における中間特徴量の少なくとも何れかを更に参照し、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。したがって、本例示的実施形態に係る映像処理システム1Eによれば、より好適なビットレートの推定値及び映像認識精度の推定値を好適に算出することができる。
〔例示的実施形態7〕
本発明の第7の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~6にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
(映像処理システム1Fの構成)
図13は、本発明の第7の例示的実施形態に係る映像処理システム1Fの構成を示すブロック図である。映像処理システム1Fは、映像処理システム1Bにおける第1の映像処理装置10B及び第2の映像処理装置20Bに替えて、第1の映像処理装置10F及び第2の映像処理装置20Fを含む構成である。
映像処理システム1Fでは、映像フレームの特徴量を、第2の映像処理装置20Fにおいて算出する。
(第1の映像処理装置10F)
図13に示すように、第1の映像処理装置10Fは、第1の映像処理装置10Bにおける特徴量算出部121を含まない構成である。すなわち、第1の映像処理装置10Fでは、通信部14を介して、第2の映像処理装置20Fに対して、符号化部13が符号化処理を行った符号化データと、符号化部13が符号化処理に用いて映像圧縮パラメータと、取得部11が取得したデータとを送信する。
(第2の映像処理装置20F)
図13に示すように、第2の映像処理装置20Fは、第2の映像処理装置20Bにおける特徴量取得部21に替えて、特徴量算出部121を含む構成である。また、第2の映像処理装置20Fでは、特徴量算出部121は、復号部25及び認識部26からデータを取得する構成になっている。
特徴量算出部121は、復号部25から供給される復号後の映像フレームと、認識部26から供給される号後の映像フレームの映像認識結果と、第1の映像処理装置10Fから送信される映像圧縮パラメータ及び取得部11が取得したデータとを取得する。そして、特徴量算出部121は、取得した復号後の映像フレーム、映像認識結果、映像圧縮パラメータ、及び取得部11が取得したデータを参照して、特徴量を算出する。特徴量算出部121は、算出した特徴量を、推定値算出部122に供給する。推定値算出部122特徴量取得部21が取得した特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。
以上のように、本例示的実施形態に係る映像処理システム1Fにおいては、第2の映像処理装置20Fが特徴量算出部121を備えている。したがって、本例示的実施形態に係る映像処理システム1Fによれば、特徴量の算出と、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかの算出と、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータの算出と、といった算出処理を、第2の映像処理装置20Fのみで行うことができる。
〔例示的実施形態8〕
本発明の第8の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~7にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
(映像処理システム1Gの構成)
図14は、本発明の第8の例示的実施形態に係る映像処理システム1Gの構成を示すブロック図である。映像処理システム1Gは、映像処理システム1Bにおける第2の映像処理装置20Bに替えて、第2の映像処理装置20Gを含み、更に第3の映像処理装置30Gを含む構成である。
映像処理システム1Gでは、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかの算出と、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータの算出とを、第2の映像処理装置20Gが行う。そして、符号化データの復号、復号後の映像フレームの映像認識処理、及び復号後の映像フレームの出力を第3の映像処理装置30Gが行う。
(第2の映像処理装置20Gの構成)
図14に示すように、第2の映像処理装置20Gは、第2の映像処理装置20Bにおける復号部25、認識部26、及び出力部27を備えない構成になっている。すなわち、第2の映像処理装置20Gでは、推定値算出部122において、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかが算出され、最適化部24において、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出される。そして、第2の映像処理装置20Gは、算出した映像圧縮パラメータを、第1の映像処理装置10Bに送信する。
(第3の映像処理装置30Gの構成)
図14に示すように、第3の映像処理装置30Gは、復号部25、認識部26、及び出力部27を備えている。すなわち、第3の映像処理装置30Gでは、復号部25において符号化データの復号が行われ、認識部26において復号後の映像フレームの映像認識処理が行われ、出力部27において映像フレームの出力が行われる。
以上のように、本例示的実施形態に係る映像処理システム1Gにおいては、第1の映像処理装置10Bと第2の映像処理装置20Gとの間においてはデータの送受信が発生するが、第3の映像処理装置30Gはデータの受信しか行わない。したがって、第1の映像処理装置10Bと第2の映像処理装置20Gとの間の物理的な距離を縮めたり、第1の映像処理装置10Bと第2の映像処理装置20Gとの間において中継する装置を少なくしたりすることにより、映像処理システム1FにおけるRTT(Round Trip Time)を短くすることができる。
〔例示的実施形態9〕
本発明の第9の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~8にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
(映像処理システム1Hの構成)
図15は、本発明の第9の例示的実施形態に係る映像処理システム1Hの構成を示すブロック図である。映像処理システム1Hは、映像処理システム1Bにおける第2の映像処理装置20Bに替えて、第2の映像処理装置20Hを含む構成である。
映像処理システム1Hでは、第2の映像処理装置20Hは、パケットロスの発生率を予測し、予測したパケットロスの発生率を参照して、未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する。
(第2の映像処理装置20Hの構成)
図15に示すように、第2の映像処理装置20Hは、第2の映像処理装置20Bに、パケットロス予測部31及びパケットロス検出部32を加えた構成になっている。
パケットロス予測部31は、データの送受信においてパケットロスが発生する頻度であるパケットロス率を予測する。パケットロス予測部31は、予測したパケットロス率を、推定値算出部122に供給する。
パケットロス検出部32は、過去のデータの送受信において発生したパケットロスを検出する。パケットロス検出部32は、パケットロスの検出結果を、推定値算出部122に供給する。
推定値算出部122は、上述した特徴量取得部21が取得した特徴量に加えて、パケットロス予測部31が供給したパケットロス率、及びパケットロス検出部32が供給した検出結果を更に参照し、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する。
一例として、パケットロス検出部32が供給した検出結果がパケットロスが発生したことを示す場合、推定値算出部122は、受信した符号化データにおけるGOP(Group Of Picture)をどのように設定するかを示すパラメータを参照し、パケットロスが発生したフレームを含むGOPの映像認識精度の推定値が、他のGOPの映像認識精度の推定値よりも低くなるようにする。
また、他の例として、推定値算出部122は、パケットロス予測部31が供給したパケットロス率が所定の値より高いフレームを含むGOPの映像認識精度の推定値が、他のGOPの映像認識精度の推定値よりも低くなるようにする。
以上のように、本例示的実施形態に係る映像処理システム1Hにおいては、第2の映像処理装置20Hは、データの送受信においてパケットロスが発生する頻度であるパケットロス率を予測するパケットロス予測部31と、過去のデータの送受信において発生したパケットロスを検出するパケットロス検出部32とを備える。したがって、本例示的実施形態に係る映像処理システム1Hによれば、パケットロスが発生したか否か、又は予測したパケットロス率が所定の値より低いか否かを参照して、映像認識精度の推定値を算出するので、好適な映像認識精度の推定値を好適に算出することができる。
(付記事項)
各実施形態における技術は、1又は複数のAGV(Automatic Guided Vehicle)、建設機械、自動運転車両、及び監視システム等に広く適用可能である。
例えば、各実施形態における技術は、複数の作業現場のそれぞれに設置されている複数のカメラから映像を受信し、当該複数のカメラによって撮像された映像を認識し、危険検知及び通知をするシステムにおいて、当該複数のカメラのそれぞれに割り当てる好適なビットレートの算出に用いることができる。
〔ソフトウェアによる実現例〕
映像処理システム1、第1の映像処理装置10A、10B、10C、10F、第2の映像処理装置20A、20B、20C、20D、20E、20F、20G、20H、及び第3の映像処理装置30Gの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、映像処理システム1、第1の映像処理装置10A、10B、10C、10F、第2の映像処理装置20A、20B、20C、20D、20E、20F、20G、20H、及び第3の映像処理装置30Gは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図16に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを映像処理システム1、第1の映像処理装置10A、10B、10C、10F、第2の映像処理装置20A、20B、20C、20D、20E、20F、20G、20H、及び第3の映像処理装置30Gとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、映像処理システム1、第1の映像処理装置10A、10B、10C、10F、第2の映像処理装置20A、20B、20C、20D、20E、20F、20G、20H、及び第3の映像処理装置30Gの各機能が実現される。
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
(付記1)
過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定手段とを備えている映像処理システム。
(付記2)
前記推定手段は、前記ビットレートの推定値として、前記未来における1又は複数フレーム分の符号化後の映像フレームの伝送ビットレートの推定値、及び前記映像認識精度の推定値として、前記未来における1又は複数フレーム分の復号後の映像フレームの映像認識精度の推定値の少なくとも何れかを算出する付記1に記載の映像処理システム。
(付記3)
前記取得手段は、前記過去における1又は複数フレーム分の映像フレームの符号の長さ、前記符号化処理された映像フレームを復号して得られる復号後の映像フレーム、及び、前記復号後の映像フレームの映像認識処理における中間特徴量の少なくとも何れかを更に取得し、前記推定手段は、前記取得手段が取得したデータを参照して、前記ビットレートの推定値、及び前記映像認識精度の推定値の少なくとも何れかを算出する付記1又は2に記載の映像処理システム。
(付記4)
前記推定手段は、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段と、前記特徴量算出手段が算出した前記特徴量から、前記ビットレートの推定値、及び前記映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている付記1から3の何れか1項に記載の映像処理システム。
(付記5)
前記推定手段が算出した前記ビットレートの推定値、及び前記映像認識精度の推定値を参照して、前記未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出するパラメータ算出手段を更に備えている付記1から4の何れか1項に記載の映像処理システム。
(付記6)
未来における1又は複数フレーム分における映像圧縮パラメータの候補値を取得する候補値取得手段を更に備え、前記推定手段は、前記取得手段が取得した前記未来における1又は複数フレーム分における映像圧縮パラメータの候補値を更に参照して、前記ビットレートの推定値、及び前記映像認識精度の推定値を算出する付記5に記載の映像処理システム。
(付記7)
前記候補値取得手段は、前記映像圧縮パラメータの候補値を複数取得し、前記推定手段は、前記取得手段が取得した複数の前記映像圧縮パラメータの候補値の各々について、前記ビットレートの推定値、及び前記映像認識精度の推定値を算出し、前記パラメータ算出手段は、前記取得手段が取得した複数の前記映像圧縮パラメータの候補値の各々についての、前記ビットレートの推定値と前記映像認識精度の推定値とを引数とする所定の損失関数がより小さくなるように、前記映像圧縮パラメータを算出する付記6に記載の映像処理システム。
(付記8)
前記取得手段は、複数の伝送対象映像の各々に関し、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得し、前記推定手段は、複数の伝送対象映像の各々に関し、前記取得手段が取得したデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値を算出し、前記パラメータ算出手段は、前記複数の伝送対象映像の各々に関する、前記ビットレートの推定値、及び前記映像認識精度の推定値を参照して、前記複数の伝送対象映像の各々に関する、前記未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出する付記5から7の何れか1項に記載の映像処理システム。
(付記9)
前記取得手段は、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかと、当該過去よりも後の時点における1又は複数フレーム分の映像フレームの実際のビットレート、及び実際の映像認識精度の少なくとも何れかとの組を含む教師データを取得し、当該映像処理システムは、前記教師データを用いて前記推定手段を学習させる学習手段を更に備えている付記1から8の何れか1項に記載の映像処理システム。
(付記10)
第1の映像処理装置と第2の映像処理装置とを含む映像処理システムであって、前記第1の映像処理装置は、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段と、を備え、前記第2の映像処理装置は、前記特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている映像処理システム。
(付記11)
過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段とを備えている情報処理装置。
(付記12)
過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段とを備えている情報処理装置。
(付記13)
過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得することと、前記取得する工程において取得されたデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出することとを含む映像処理方法。
(付記14)
コンピュータを、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを取得する取得手段と、前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段と、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記15)
コンピュータを、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、前記特徴量取得手段が取得した前記特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と、として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
少なくとも1つのプロセッサを備え、前記プロセッサは、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、少なくとも何れかを取得する取得処理と、前記取得処理において取得したデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定処理とを実行する映像処理システム。
なお、この映像処理システムは、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記推定処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
少なくとも1つのプロセッサを備え、前記プロセッサは、過去における1又は複数フレーム分の映像フレーム、前記映像フレームの符号化処理における映像圧縮パラメータ、及び前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得処理と、前記特徴量取得処理において取得した前記特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出処理とを実行する情報処理装置。
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記特徴量取得処理と、前記推定値算出処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
1、1A、1B、1C、1D、1E、1F、1G、1H 映像処理システム
10、10A、10B、10C、10F 第1の映像処理装置
11 取得部
12 判定部
13 符号化部
14、23 通信部
19、29 学習部
20A、20B、20C、20D、20E、20F、20G、20H 第2の映像処理装置
21 特徴量取得部
24、24a 最適化部
25 復号部
26 認識部
27 出力部
28 可用帯域予測部
30G 第3の映像処理装置
31 パケットロス予測部
32 パケットロス検出部
121 特徴量算出部
122、122a 推定値算出部
1211 特徴量抽出部
1212 第1の集約部
1213 第2の集約部
1221 予測値算出部

Claims (10)

  1. 過去における1又は複数フレーム分の映像フレーム、
    前記映像フレームの符号化処理における映像圧縮パラメータ、及び
    前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
    の少なくとも何れかを取得する取得手段と、
    前記取得手段が取得したデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定手段と
    を備えている映像処理システム。
  2. 前記推定手段は、
    前記ビットレートの推定値として、前記未来における1又は複数フレーム分の符号化後の映像フレームの伝送ビットレートの推定値、及び
    前記映像認識精度の推定値として、前記未来における1又は複数フレーム分の復号後の映像フレームの映像認識精度の推定値
    の少なくとも何れかを算出する
    請求項1に記載の映像処理システム。
  3. 前記推定手段が算出した前記ビットレートの推定値、及び前記映像認識精度の推定値を参照して、前記未来における1又は複数フレーム分の映像フレームの符号化処理における映像圧縮パラメータを算出するパラメータ算出手段を更に備えている
    請求項1又は2に記載の映像処理システム。
  4. 未来における1又は複数フレーム分における映像圧縮パラメータの候補値を取得する候補値取得手段を更に備え、
    前記推定手段は、前記取得手段が取得した前記未来における1又は複数フレーム分における映像圧縮パラメータの候補値を更に参照して、前記ビットレートの推定値、及び前記映像認識精度の推定値を算出する
    請求項に記載の映像処理システム。
  5. 前記取得手段は、
    過去における1又は複数フレーム分の映像フレーム、
    前記映像フレームの符号化処理における映像圧縮パラメータ、及び
    前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
    の少なくとも何れかと、当該過去よりも後の時点における1又は複数フレーム分の映像フレームの実際のビットレート、及び実際の映像認識精度の少なくとも何れかとの組を含む教師データを取得し、
    当該映像処理システムは、
    前記教師データを用いて前記推定手段を学習させる学習手段を更に備えている
    請求項1からの何れか1項に記載の映像処理システム。
  6. 過去における1又は複数フレーム分の映像フレーム、
    前記映像フレームの符号化処理における映像圧縮パラメータ、及び
    前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
    の少なくとも何れかを取得する取得手段と、
    前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段と
    を備えている情報処理装置。
  7. 過去における1又は複数フレーム分の映像フレーム、
    前記映像フレームの符号化処理における映像圧縮パラメータ、及び
    前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
    の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、
    前記特徴量取得手段が取得した前記特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と
    を備えている情報処理装置。
  8. 過去における1又は複数フレーム分の映像フレーム、
    前記映像フレームの符号化処理における映像圧縮パラメータ、及び
    前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
    の少なくとも何れかを取得することと、
    前記取得することにおいて取得されたデータを参照して、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出することと
    を含む映像処理方法。
  9. コンピュータを、
    過去における1又は複数フレーム分の映像フレーム、
    前記映像フレームの符号化処理における映像圧縮パラメータ、及び
    前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
    の少なくとも何れかを取得する取得手段と、
    前記取得手段が取得したデータから特徴量を算出する特徴量算出手段であって、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出するために参照される特徴量を算出する特徴量算出手段と、
    として機能させるプログラム。
  10. コンピュータを、
    過去における1又は複数フレーム分の映像フレーム、
    前記映像フレームの符号化処理における映像圧縮パラメータ、及び
    前記符号化処理された映像フレームを復号して得られる復号後の映像フレームの映像認識結果、
    の少なくとも何れかを参照して算出された特徴量を取得する特徴量取得手段と、
    前記特徴量取得手段が取得した前記特徴量から、未来における1又は複数フレーム分の映像フレームのビットレートの推定値、及び映像認識精度の推定値の少なくとも何れかを算出する推定値算出手段と、
    として機能させるプログラム。
JP2023550757A 2021-09-28 2021-09-28 Pending JPWO2023053166A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/035513 WO2023053166A1 (ja) 2021-09-28 2021-09-28 映像処理システム、情報処理装置、映像処理方法、及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2023053166A1 JPWO2023053166A1 (ja) 2023-04-06
JPWO2023053166A5 true JPWO2023053166A5 (ja) 2024-05-08

Family

ID=85781459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023550757A Pending JPWO2023053166A1 (ja) 2021-09-28 2021-09-28

Country Status (2)

Country Link
JP (1) JPWO2023053166A1 (ja)
WO (1) WO2023053166A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008111458A1 (ja) * 2007-03-14 2008-09-18 Nippon Telegraph And Telephone Corporation 符号化ビットレート制御方法及び装置、そのプログラム並びにプログラムを記録した記録媒体
JP6357385B2 (ja) * 2014-08-25 2018-07-11 ルネサスエレクトロニクス株式会社 画像通信装置、画像送信装置および画像受信装置

Similar Documents

Publication Publication Date Title
CN113542655B (zh) 视频通信中的视频标注技术
US9602819B2 (en) Display quality in a variable resolution video coder/decoder system
JP5164866B2 (ja) ビデオ画像シーケンスの時間的頻度を適合させる方法および装置
CN110248189B (zh) 一种视频质量预测方法、装置、介质和电子设备
CN111263161B (zh) 视频压缩处理方法、装置、存储介质和电子设备
TWI511529B (zh) 基於圖框相似性及視覺品質及興趣之圖框編碼選擇
CN113556442A (zh) 视频去噪方法、装置、电子设备及计算机可读存储介质
CN111050169B (zh) 图像编码中量化参数的生成方法、装置及终端
AU2017317848A1 (en) Interframe predictive coding method and device
CN111405293B (zh) 一种视频传输方法及装置
CN115427972A (zh) 用于适配变化的约束的系统和方法
WO2023053166A1 (ja) 映像処理システム、情報処理装置、映像処理方法、及び記録媒体
CN110401847B (zh) 云dvr视频的压缩存储方法、电子设备及系统
WO2023077707A1 (zh) 视频编码方法、模型训练方法、设备和存储介质
JPWO2023053166A5 (ja)
US20220224914A1 (en) Parameter map for machine-learned video compression
JP2016046685A (ja) 映像のユーザ体感品質を推定するための装置、方法及びプログラム
JP2024511084A (ja) ニューラルネットワークを用いた画像及びビデオコーディングにおける潜時特徴の多分布エントロピーモデリング
EP3681156A1 (en) Method and device for transmitting wireless data
US11825088B2 (en) Adaptively encoding video frames based on complexity
CN105706447A (zh) 动画图像编码设备、动画图像解码设备、动画图像编码方法、动画图像解码方法以及程序
US20230007095A1 (en) Methods and apparatus for communicating vector data
CN111953974B (zh) 一种运动参数候选列表构建方法、装置及计算机设备
CN115190309B (zh) 视频帧处理方法、训练方法、装置、设备及存储介质
CN116205283B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质