WO2023112784A1

WO2023112784A1 - 動画像復号装置、ポスト画像処理装置、動画像符号化装置、動画像復号方法及び動画像符号化方法

Info

Publication number: WO2023112784A1
Application number: PCT/JP2022/045001
Authority: WO
Inventors: 健中條; 知宏猪飼; 拓矢鈴木; 将伸八杉; 裕渡辺
Original assignee: シャープ株式会社
Priority date: 2021-12-14
Filing date: 2022-12-07
Publication date: 2023-06-22

Abstract

動画像復号装置は、符号化データから画像を復号する画像復号装置であって、復号した画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を復号する補助情報復号部を少なくとも備える。

Description

動画像復号装置、ポスト画像処理装置、動画像符号化装置、動画像復号方法及び動画像符号化方法

　本発明の実施形態は、動画像復号装置、ポスト画像処理装置、動画像符号化装置、動画像復号方法及び動画像符号化方法等に関する。本願は、２０２１年１２月１４日に日本で出願された特願２０２１－２０２１６１号に基づき優先権を主張し、その内容をここに援用する。

　動画像を効率的に伝送または記録するために、動画像を符号化することによって符号化データを生成する動画像符号化装置、および、当該符号化データを復号することによって復号画像を生成する動画像復号装置が用いられている。

　具体的な動画像符号化方式としては、例えば、H.264/AVCやH.265/HEVC（High-Efficiency Video Coding）方式などが挙げられる。

　このような動画像符号化方式においては、動画像を構成する画像（ピクチャ）は、画像を分割することにより得られるスライス、スライスを分割することにより得られる符号化ツリーユニット（CTU：Coding Tree Unit）、符号化ツリーユニットを分割することで得られる符号化単位（符号化ユニット（Coding Unit：CU）と呼ばれることもある）、及び、符号化単位を分割することより得られる変換ユニット（TU：Transform Unit）からなる階層構造により管理され、CU毎に符号化／復号される。

　また、このような動画像符号化方式においては、通常、入力画像を符号化／復号することによって得られる局所復号画像に基づいて予測画像が生成され、当該予測画像を入力画像（原画像）から減算して得られる予測誤差（「差分画像」または「残差画像」と呼ぶこともある）が符号化される。予測画像の生成方法としては、画面間予測（インター予測）、および、画面内予測（イントラ予測）が挙げられる。

　また、近年の動画像符号化及び復号の技術として非特許文献１が挙げられる。非特許文献１は、非常に符号化効率の高い動画像符号化、復号方式である。非特許文献２は、動画像の分析結果の記述と動画像符号化を統合する方法について議論されている。

ITU-T Recommendation H.266 L.-Y. Duan, J. Liu, W. Yang, T. Huang and W. Gao, "Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics," IEEE Trans.Image Processing, vol.29, pp.8680-8695

　しかしながら、非特許文献１は、符号化効率の高い動画像符号化、復号方式であるが、復号した動画像で、画像認識を行うと、伝送レートが低い場合、符号化歪によって、画像認識精度が低減するという問題がある。

　また、非特許文献2では、動画像の分析結果の記述と動画像符号化を統合する方法について開示しているが、符号化効率の面で十分ではなく、低い伝送ビットレートを実現できないという課題がある。

　本発明の一態様に係る動画像復号装置は、符号化データから画像を復号する画像復号装置であって、復号した画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を復号する補助情報復号部を少なくとも備えることを特徴とする。

　本発明の一態様に係るポスト画像処理装置は、画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を復号する補助情報復号部から復号されたネットワークパラメータを用いて、ポスト画像処理を行うことを特徴とする。

　本発明の一態様に係る動画像符号化装置は、入力画像を符号化する画像符号化装置であって、前記入力画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を符号化する補助情報符号化部を少なくとも備えることを特徴とする。

　本発明の一態様に係る動画像復号方法は、符号化データから画像を復号する画像復号方法であって、復号した画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を復号するステップを少なくとも含むことを特徴とする。

　本発明の一態様に係る動画像符号化方法は、入力画像を符号化する画像符号化方法であって、前記入力画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を符号化するステップを少なくとも含むことを特徴とする。

　このような構成にすることで、動画像符号化、復号方式の枠組みを大きく変更せずに、付加的な補助情報を符号化、復号することで、低レートにおいても、画像認識精度を維持するという課題が解決できる。

本実施形態に係る動画像伝送システムの構成を示す概略図である。符号化データの階層構造を示す図である。本実施形態に係る動画像伝送システムにおいて処理の対象となる画像の概念図である。参照ピクチャおよび参照ピクチャリストの一例を示す概念図である。画像復号装置の構成を示す概略図である。画像復号装置の概略的動作を説明するフローチャートである。画像符号化装置の構成を示すブロック図である。一実施形態の補助情報を規定する画像認識補助情報のSEIのシンタックス表の構成例を示す図である。本実施形態に係る別の動画像伝送システムの構成を示す概略図である。一実施形態の補助情報を規定するネットワークパラメータのSEIのシンタックス表の構成例を示す図である。一実施形態の画像認識補助情報を規定するAPSのシンタックス表の構成例を示す図である。一実施形態の画像認識補助情報を規定するAPSのシンタックス表の構成例を示す図である。

　　（第１の実施形態）
　以下、図面を参照しながら本発明の実施形態について説明する。

　図1は、本実施形態に係る動画像伝送システムの構成を示す概略図である。

　動画像伝送システム1は、画像を符号化した符号化データを伝送し、伝送された符号化データを復号し表示するとともに画像認識を行うシステムである。動画像伝送システム1は、動画像符号化装置10とネットワーク21と動画像復号装置30と画像表示装置41と画像認識装置51からなる。

　動画像符号化装置10は、画像符号化装置（画像符号化部）11、画像解析装置（画像解析部）61、補助情報作成装置（補助情報作成部）71、補助情報符号化装置（補助情報符号化部）81から構成される。

　動画像復号装置30は、画像復号装置（画像復号部）31、補助情報復号装置（補助情報復号部）91から構成される。

　画像符号化装置11は、入力動画像Tを圧縮、符号化する。

　画像解析装置61は、入力動画像Tを解析して、画像認識装置51おいて、ピクチャ内のどの領域を用いるべきかの情報を解析し、解析結果を補助情報作成装置71に送る。

　補助情報作成装置71は、画像解析装置61での解析結果を元に、ピクチャに対して、画像認識装置を動作させるか否かの情報や、画像認識装置をピクチャ内のどの領域で動作させるべきかの補助情報を生成し、補助情報符号化装置81に送る。

　補助情報符号化装置81は、補助情報作成装置71で作成された補助情報を、予め決まったシンタックスに従って符号化する。画像符号化装置11の出力と補助情報符号化装置81の出力は、符号化データTeとしてネットワーク21に送出する。

　動画像符号化装置10は、入力画像Tを入力として、画像の圧縮、符号化を行うとともに、画像を解析して、画像認識装置51に入力するための補助情報を生成し、符号化し、符号化データTeを生成し、ネットワーク21に送出する。

　図１において、補助情報符号化装置81は画像符号化装置11とつながれていないが、補助情報符号化装置81と画像符号化装置11とは、適宜必要な情報を通信してもよい。

　ネットワーク21は、符号化された補助情報及び符号化データTeを画像復号装置31に伝送する。符号化された補助情報の一部または全部は、補助拡張情報SEIとして、符号化データTeに含められてもよい。ネットワーク21は、インターネット（Internet）、広域ネットワーク（WAN:Wide Area Network）、小規模ネットワーク（LAN:Local Area Network）またはこれらの組み合わせである。ネットワーク21は、必ずしも双方向の通信網に限らず、地上デジタル放送、衛星放送等の放送波を伝送する一方向の通信網であっても良い。また、ネットワーク21は、DVD（Digital Versatile Disc:登録商標）、BD（Blu-ray Disc:登録商標）等の符号化データTeを記録した記憶媒体で代替されても良い。

　動画像復号装置30は、ネットワーク21から送られてきた符号化データTeを入力し、動画像Tdを復号し、画像表示装置41および画像認識装置51に送出する。また、補助情報を復号して、画像認識装置51に出力する。

　画像復号装置31は、ネットワーク21が伝送した符号化データTeのそれぞれを復号し、復号動画像Tdを生成して画像表示装置41及び画像認識装置51に供給する。

　補助情報復号装置91は、ネットワーク21が伝送した符号化された補助情報を復号して補助情報を生成して、画像認識装置51に送出する。

　図１において、補助情報復号装置91は、画像復号装置31とは別に図示されているが、補助情報復号装置91は、画像復号装置31に含まれてもよい。例えば、補助情報復号装置91は、画像復号装置31の各機能部とは別に画像復号装置31に含まれてもよい。また、図１において、画像復号装置31とつながれていないが、補助情報復号装置91と画像復号装置31とは、適宜必要な情報を通信してもよい。

　画像表示装置41は、画像復号装置31から入力された復号動画像Tdの全部または一部を表示する。画像表示装置41は、例えば、液晶ディスプレイ、有機EL（Electro-luminescence）ディスプレイ等の表示デバイスを備える。ディスプレイの形態としては、据え置き、モバイル、HMD等が挙げられる。また、画像復号装置31が高い処理能力を有する場合には、画質の高い画像を表示し、より低い処理能力しか有しない場合には、高い処理能力、表示能力を必要としない画像を表示する。

　画像認識装置51は、画像復号装置31によって復号された復号動画像Tdと、補助情報復号装置91によって復号された補助情報を用いて、画像の物体検出、物体の領域分割、物体の追跡、動作認識、人物動作評価などを行う。

　このような構成をすることで、動画像符号化、復号方式の枠組みを大きく変更せずに、付加的な補助情報を符号化、復号することで、低レートにおいても、画像認識精度を維持することができる枠組みを提供する。

　＜演算子＞
　本明細書で用いる演算子を以下に記載する。

　>>は右ビットシフト、<<は左ビットシフト、&はビットワイズAND、|はビットワイズOR、|=はOR代入演算子であり、||は論理和を示す。

　x ? y : zは、xが真（0以外）の場合にy、xが偽（0）の場合にzをとる３項演算子である。

　Clip3(a,b,c)は、cをa以上b以下の値にクリップする関数であり、c<aの場合にはaを返し、c>bの場合にはbを返し、その他の場合にはcを返す関数である（ただし、a<=b）。

　abs(a)はaの絶対値を返す関数である。

　Int(a)はaの整数値を返す関数である。

　floor(a)はa以下の最大の整数を返す関数である。

　ceil(a)はa以上の最小の整数を返す関数である。

　a/dはdによるaの除算（小数点以下切り捨て）を表す。

　＜符号化データTeの構造＞
　本実施形態に係る画像符号化装置11および画像復号装置31の詳細な説明に先立って、画像符号化装置11によって生成され、画像復号装置31によって復号される符号化データTeのデータ構造について説明する。

　図2は、符号化データTeにおけるデータの階層構造を示す図である。符号化データTeは、例示的に、シーケンス、およびシーケンスを構成する複数のピクチャを含む。図2には、シーケンスSEQを既定する符号化ビデオシーケンス、ピクチャPICTを規定する符号化ピクチャ、スライスSを規定する符号化スライス、スライスデータを規定する符号化スライスデータ、符号化スライスデータに含まれる符号化ツリーユニット、符号化ツリーユニットに含まれる符号化ユニットを示す図が示されている。

　（符号化ビデオシーケンス）
　符号化ビデオシーケンスでは、処理対象のシーケンスSEQを復号するために画像復号装置31が参照するデータの集合が規定されている。シーケンスSEQは、図2に示すように、ビデオパラメータセットVPS（Video Parameter Set）、シーケンスパラメータセットSPS（Sequence Parameter Set）、ピクチャパラメータセットPPS（Picture Parameter Set）、Adaptation Parameter Set(APS)、ピクチャPICT、及び、補助拡張情報SEI（Supplemental Enhancement Information）を含んでいる。

　ビデオパラメータセットVPSでは、複数のレイヤから構成されている動画像において、複数の動画像に共通する符号化パラメータの集合および動画像に含まれる複数のレイヤおよび個々のレイヤに関連する符号化パラメータの集合が規定されている。

　シーケンスパラメータセットSPSでは、対象シーケンスを復号するために画像復号装置31が参照する符号化パラメータの集合が規定されている。例えば、ピクチャの幅や高さが規定される。なお、SPSは複数存在してもよい。その場合、PPSから複数のSPSの何れかを選択する。

　ここで、シーケンスパラメータセットSPSには以下のシンタックス要素が含まれる。

　pic_width_max_in_luma_samplesは、単一のシーケンスにおける画像のうち、最大の幅を有する画像の幅を、輝度ブロック単位で指定するシンタックス要素である。また、当該シンタックス要素の値は、0ではなく、且つMax(8, MinCbSizeY)の整数倍であることが要求される。ここで、MinCbSizeYは、輝度ブロックの最小サイズによって定まる値である。

　pic_height_max_in_luma_samplesは、単一のシーケンスにおける画像のうち、最大の高さを有する画像の高さを、輝度ブロック単位で指定するシンタックス要素である。また、当該シンタックス要素の値は、0ではなく、且つMax(8, MinCbSizeY)の整数倍であることが要求される。

　ピクチャパラメータセットPPSでは、対象シーケンス内の各ピクチャを復号するために画像復号装置31が参照する符号化パラメータの集合が規定されている。なお、PPSは複数存在してもよい。その場合、対象シーケンス内の各ピクチャから複数のPPSの何れかを選択する。

　ここで、ピクチャパラメータセットPPSには以下のシンタックス要素が含まれる。

　pic_width_in_luma_samplesは、対象ピクチャの幅を指定するシンタックス要素である。当該シンタックス要素の値は、0ではなく、Max(8, MinCbSizeY)の整数倍であり、且つpic_width_max_in_luma_samples以下の値であることが要求される。

　pic_height_in_luma_samplesは、対象ピクチャの高さを指定するシンタックス要素である。当該シンタックス要素の値は、0ではなく、Max(8, MinCbSizeY)の整数倍であり、且つpic_height_max_in_luma_samples以下の値であることが要求される。

　図3は、動画像伝送システム1において処理の対象となる画像の概念図であって、時間の経過に伴う、当該画像の解像度の変化を示す図である。ただし、図3においては、画像が符号化されているか否かを区別していない。図3は、動画像伝送システム1の処理過程において、ピクチャパラメータセットPPSを用いて、解像度を適応的に変更しながら画像復号装置31に画像を伝送する例を示している。

　（符号化ピクチャ）
　符号化ピクチャでは、処理対象のピクチャPICTを復号するために画像復号装置31が参照するデータの集合が規定されている。ピクチャPICTは、図2に示すように、ピクチャヘッダPH、スライス0～スライスNS-1を含む（NSはピクチャPICTに含まれるスライスの総数）。

　以下、スライス0～スライスNS-1のそれぞれを区別する必要が無い場合、符号の添え字を省略して記述することがある。また、以下に説明する符号化データTeに含まれるデータであって、添え字を付している他のデータについても同様である。

　（符号化スライス）
　符号化スライスでは、処理対象のスライスSを復号するために画像復号装置31が参照するデータの集合が規定されている。スライスは、図2に示すように、スライスヘッダ、および、スライスデータを含んでいる。

　スライスヘッダには、対象スライスの復号方法を決定するために画像復号装置31が参照する符号化パラメータ群が含まれる。スライスタイプを指定するスライスタイプ指定情報（slice_type）は、スライスヘッダに含まれる符号化パラメータの一例である。

　スライスタイプ指定情報により指定可能なスライスタイプとしては、（１）符号化の際にイントラ予測のみを用いるＩスライス、（２）符号化の際に単予測(L0予測)、または、イントラ予測を用いるＰスライス、（３）符号化の際に単予測(L0予測或いはL1予測)、双予測、または、イントラ予測を用いるＢスライスなどが挙げられる。なお、インター予測は、単予測、双予測に限定されず、より多くの参照ピクチャを用いて予測画像を生成してもよい。以下、P、Bスライスと呼ぶ場合には、インター予測を用いることができるブロックを含むスライスを指す。

　なお、スライスヘッダは、ピクチャパラメータセットPPSへの参照（pic_parameter_set_id）を含んでいても良い。

　（符号化スライスデータ）
　符号化スライスデータでは、処理対象のスライスデータを復号するために画像復号装置31が参照するデータの集合が規定されている。スライスデータは、図2の符号化スライスヘッダに示すように、CTUを含んでいる。CTUは、スライスを構成する固定サイズ（例えば64x64）のブロックであり、最大符号化単位（LCU:Largest Coding Unit）と呼ぶこともある。

　（符号化ツリーユニット）
　図2には、処理対象のCTUを復号するために画像復号装置31が参照するデータの集合が規定されている。CTUは、再帰的な４分木分割（QT（Quad Tree）分割）、２分木分割（BT（Binary Tree）分割）あるいは３分木分割（TT（Ternary Tree）分割）により、符号化処理の基本的な単位である符号化ユニットCUに分割される。BT分割とTT分割を合わせてマルチツリー分割（MT（Multi Tree）分割）と呼ぶ。再帰的な４分木分割により得られる木構造のノードのことを符号化ノード（Coding Node）と称する。４分木、２分木、及び３分木の中間ノードは、符号化ノードであり、CTU自身も最上位の符号化ノードとして規定される。

　（符号化ユニット）
　図2は、処理対象の符号化ユニットを復号するために画像復号装置31が参照するデータの集合が規定されている。具体的には、CUは、CUヘッダCUH、予測パラメータ、変換パラメータ、量子化変換係数等から構成される。CUヘッダでは予測モード等が規定される。

　予測処理は、CU単位で行われる場合と、CUをさらに分割したサブCU単位で行われる場合がある。CUとサブCUのサイズが等しい場合には、CU中のサブCUは１つである。CUがサブCUのサイズよりも大きい場合、CUはサブCUに分割される。たとえばCUが8x8、サブCUが4x4の場合、CUは水平２分割、垂直２分割からなる、４つのサブCUに分割される。

　予測の種類（予測モード）は、イントラ予測と、インター予測の２つがある。イントラ予測は、同一ピクチャ内の予測であり、インター予測は、互いに異なるピクチャ間（例えば、表示時刻間、レイヤ画像間）で行われる予測処理を指す。

　変換・量子化処理はCU単位で行われるが、量子化変換係数は4x4等のサブブロック単位でエントロピー符号化してもよい。

　（予測パラメータ）
　予測画像は、ブロックに付随する予測パラメータによって導出される。予測パラメータには、イントラ予測とインター予測の予測パラメータがある。

　以下、インター予測の予測パラメータについて説明する。インター予測パラメータは、予測リスト利用フラグpredFlagL0とpredFlagL1、参照ピクチャインデックスrefIdxL0とrefIdxL1、動きベクトルmvL0とmvL1から構成される。predFlagL0、predFlagL1は、参照ピクチャリスト（L0リスト、L1リスト）が用いられるか否かを示すフラグであり、値が１の場合に対応する参照ピクチャリストが用いられる。なお、本明細書中「ＸＸであるか否かを示すフラグ」と記す場合、フラグが０以外（たとえば１）をＸＸである場合、０をＸＸではない場合とし、論理否定、論理積などでは１を真、０を偽と扱う（以下同様）。但し、実際の装置や方法では真値、偽値として他の値を用いることもできる。

　（参照ピクチャリスト）
　参照ピクチャリストは、参照ピクチャメモリ306に記憶された参照ピクチャからなるリストである。図4は、参照ピクチャおよび参照ピクチャリストの一例を示す概念図である。図4の参照ピクチャの一例を示す概念図において、矩形はピクチャ、矢印はピクチャの参照関係、横軸は時間、矩形中のI、P、Bは各々イントラピクチャ、単予測ピクチャ、双予測ピクチャ、矩形中の数字は復号順を示す。図に示すように、ピクチャの復号順は、I0、P1、B2、B3、B4であり、表示順は、I0、B3、B2、B4、P1である。図4には、ピクチャB3（対象ピクチャ）の参照ピクチャリストの例を示されている。参照ピクチャリストは、参照ピクチャの候補を表すリストであり、１つのピクチャ（スライス）が１つ以上の参照ピクチャリストを有してもよい。図の例では、対象ピクチャB3は、L0リストRefPicList0およびL1リストRefPicList1の２つの参照ピクチャリストを持つ。個々のCUでは、参照ピクチャリストRefPicListX（X=0または1）中のどのピクチャを実際に参照するかをrefIdxLXで指定する。図は、refIdxL0=2、refIdxL1=0の例である。なお、LXは、L0予測とL1予測を区別しない場合に用いられる記述方法であり、以降では、LXをL0、L1に置き換えることでL0リストに対するパラメータとL1リストに対するパラメータを区別する。

　（画像復号装置の構成）
　本実施形態に係る画像復号装置31（図5）の構成について説明する。

　画像復号装置31は、エントロピー復号部301、パラメータ復号部（予測画像復号装置）302、ループフィルタ305、参照ピクチャメモリ306、予測パラメータメモリ307、予測画像生成部（予測画像生成装置）308、逆量子化・逆変換部311、及び加算部312、予測パラメータ導出部320を含んで構成される。なお、後述の画像符号化装置11に合わせ、画像復号装置31にループフィルタ305が含まれない構成もある。

　パラメータ復号部302は、さらに、ヘッダ復号部3020、CT情報復号部3021、及びCU復号部3022（予測モード復号部）を備えており、CU復号部3022はさらにTU復号部3024を備えている。これらを総称して復号モジュールと呼んでもよい。ヘッダ復号部3020は、符号化データからVPS、SPS、PPS、APSなどのパラメータセット情報、スライスヘッダ（スライス情報）を復号する。CT情報復号部3021は、符号化データからCTを復号する。CU復号部3022は符号化データからCUを復号する。TU復号部3024は、TUに予測誤差が含まれている場合に、符号化データからQP更新情報（量子化補正値）と量子化予測誤差（residual_coding）を復号する。

　また、以降では処理の単位としてCTU、CUを使用した例を記載するが、この例に限らず、サブCU単位で処理をしてもよい。あるいはCTU、CUをブロック、サブCUをサブブロックと読み替え、ブロックあるいはサブブロック単位の処理としてもよい。

　エントロピー復号部301は、外部から入力された符号化データTeに対してエントロピー復号を行って、個々の符号（シンタックス要素）を復号する。エントロピー符号化には、シンタックス要素の種類や周囲の状況に応じて適応的に選択したコンテキスト（確率モデル）を用いてシンタックス要素を可変長符号化する方式と、あらかじめ定められた表、あるいは計算式を用いてシンタックス要素を可変長符号化する方式がある。前者のCABAC（Context Adaptive Binary Arithmetic Coding）は、コンテキストのCABAC状態（優勢シンボルの種別(0 or 1)と確率を指定する確率状態インデックスpStateIdx）をメモリに格納する。エントロピー復号部301は、セグメント（タイル、CTU行、スライス）の先頭で全てのCABAC状態を初期化する。エントロピー復号部301は、シンタックス要素をバイナリ列（Bin String）に変換し、Bin Stringの各ビットを復号する。コンテキストを用いる場合には、シンタックス要素の各ビットに対してコンテキストインデックスctxIncを導出し、コンテキストを用いてビットを復号し、用いたコンテキストのCABAC状態を更新する。コンテキストを用いないビットは、等確率(EP, bypass)で復号され、ctxInc導出やCABAC状態は省略される。復号されたシンタックス要素には、予測画像を生成するための予測情報および、差分画像を生成するための予測誤差などがある。

　エントロピー復号部301は、復号した符号をパラメータ復号部302に出力する。どの符号を復号するかの制御は、パラメータ復号部302の指示に基づいて行われる。

　（基本フロー）
　図6は、画像復号装置31の概略的動作を説明するフローチャートである。

　（S1100：パラメータセット情報復号）ヘッダ復号部3020は、符号化データからVPS、SPS、PPSなどのパラメータセット情報を復号する。

　（S1200：スライス情報復号）ヘッダ復号部3020は、符号化データからスライスヘッダ（スライス情報）を復号する。

　以下、画像復号装置31は、対象ピクチャに含まれる各CTUについて、S1300からS5000の処理を繰り返すことにより各CTUの復号画像を導出する。

　（S1300：CTU情報復号）CT情報復号部3021は、符号化データからCTUを復号する。

　（S1400：CT情報復号）CT情報復号部3021は、符号化データからCTを復号する。

　（S1500：CU復号）CU復号部3022はS1510、S1520を実施して、符号化データからCUを復号する。

　（S1510：CU情報復号）CU復号部3022は、符号化データからCU情報、予測情報、TU分割フラグsplit_transform_flag、CU残差フラグcbf_cb、cbf_cr、cbf_luma等を復号する。

　（S1520：TU情報復号）TU復号部3024は、TUに予測誤差が含まれている場合に、符号化データからQP更新情報と量子化予測誤差を復号する。なお、QP更新情報は、量子化パラメータQPの予測値である量子化パラメータ予測値qPpredからの差分値である。

　（S2000：予測画像生成）予測画像生成部308は、対象CUに含まれる各ブロックについて、予測情報に基づいて予測画像を生成する。

　（S3000：逆量子化・逆変換）逆量子化・逆変換部311は、対象CUに含まれる各TUについて、逆量子化・逆変換処理を実行する。

　（S4000：復号画像生成）加算部312は、予測画像生成部308より供給される予測画像と、逆量子化・逆変換部311より供給される予測誤差とを加算することによって、対象CUの復号画像を生成する。

　（S5000：ループフィルタ）ループフィルタ305は、復号画像にデブロッキングフィルタ、SAO、ALFなどのループフィルタをかけ、復号画像を生成する。

　予測パラメータ導出部320は、パラメータ復号部302から入力されたシンタックス要素に基づいて、予測パラメータメモリ307に記憶された予測パラメータを参照してインター予測パラメータを導出する。また、予測パラメータを予測画像生成部308、予測パラメータメモリ307に出力する。

　ループフィルタ305は、符号化ループ内に設けたフィルタで、ブロック歪やリンギング歪を除去し、画質を改善するフィルタである。ループフィルタ305は、加算部312が生成したCUの復号画像に対し、デブロッキングフィルタ、サンプル適応オフセット（SAO）、適応ループフィルタ（ALF）等のフィルタを施す。

　参照ピクチャメモリ306は、CUの復号画像を、対象ピクチャ及び対象CU毎に予め定めた位置に記憶する。

　予測パラメータメモリ307は、CTUあるいはCU毎に予め定めた位置に予測パラメータを記憶する。具体的には、予測パラメータメモリ307は、パラメータ復号部302が復号したパラメータ及び予測パラメータ導出部320が導出したパラメータ等を記憶する。

　予測画像生成部308には予測パラメータ導出部320が導出したパラメータが入力される。また、予測画像生成部308は、参照ピクチャメモリ306から参照ピクチャを読み出す。予測画像生成部308は、predModeが示す予測モードで、パラメータと参照ピクチャ（参照ピクチャブロック）を用いてブロックもしくはサブブロックの予測画像を生成する。ここで、参照ピクチャブロックとは、参照ピクチャ上の画素の集合（通常矩形であるのでブロックと呼ぶ）であり、予測画像を生成するために参照する領域である。

　逆量子化・逆変換部311は、パラメータ復号部302から入力された量子化変換係数を逆量子化して変換係数を求める。

　加算部312は、予測画像生成部308から入力されたブロックの予測画像と逆量子化・逆変換部311から入力された予測誤差を画素毎に加算して、ブロックの復号画像を生成する。加算部312はブロックの復号画像を参照ピクチャメモリ306に記憶し、また、ループフィルタ305に出力する。

　（画像符号化装置の構成）
　次に、本実施形態に係る画像符号化装置11の構成について説明する。図7は、本実施形態に係る画像符号化装置11の構成を示すブロック図である。画像符号化装置11は、予測画像生成部101、減算部102、変換・量子化部103、逆量子化・逆変換部105、加算部106、ループフィルタ107、予測パラメータメモリ（予測パラメータ記憶部、フレームメモリ）108、参照ピクチャメモリ（参照画像記憶部、フレームメモリ）109、符号化パラメータ決定部110、パラメータ符号化部111、予測パラメータ導出部120、エントロピー符号化部104を含んで構成される。

　予測画像生成部101はCU毎に予測画像を生成する。

　減算部102は、予測画像生成部101から入力されたブロックの予測画像の画素値を、画像Ｔの画素値から減算して予測誤差を生成する。減算部102は予測誤差を変換・量子化部103に出力する。

　変換・量子化部103は、減算部102から入力された予測誤差に対し、周波数変換によって変換係数を算出し、量子化によって量子化変換係数を導出する。変換・量子化部103は、量子化変換係数をパラメータ符号化部111及び逆量子化・逆変換部105に出力する。

　逆量子化・逆変換部105は、画像復号装置31における逆量子化・逆変換部311（図5）と同じであり、説明を省略する。算出した予測誤差は加算部106に出力される。

　パラメータ符号化部111は、ヘッダ情報、分割情報、予測情報、量子化変換係数等のパラメータの符号化処理を行う。

　エントロピー符号化部104には、パラメータ符号化部111から量子化変換係数と符号化パラメータ（分割情報、予測パラメータ）が入力される。エントロピー符号化部104はこれらをエントロピー符号化して符号化データTeを生成し、出力する。

　予測パラメータ導出部120は、符号化パラメータ決定部110から入力されたパラメータから予測パラメータを導出する。導出された予測パラメータは、パラメータ符号化部111に出力される。

　加算部106は、予測画像生成部101から入力された予測ブロックの画素値と逆量子化・逆変換部105から入力された予測誤差を画素毎に加算して復号画像を生成する。加算部106は生成した復号画像を参照ピクチャメモリ109に記憶する。

　ループフィルタ107は加算部106が生成した復号画像に対し、デブロッキングフィルタ、SAO、ALFを施す。なお、ループフィルタ107は、必ずしも上記３種類のフィルタを含まなくてもよく、例えばデブロッキングフィルタのみの構成であってもよい。

　予測パラメータメモリ108は、符号化パラメータ決定部110が生成した予測パラメータを、対象ピクチャ及びCU毎に予め定めた位置に記憶する。

　参照ピクチャメモリ109は、ループフィルタ107が生成した復号画像を対象ピクチャ及びCU毎に予め定めた位置に記憶する。

　符号化パラメータ決定部110は、符号化パラメータの複数のセットのうち、１つのセットを選択する。符号化パラメータとは、上述したQT、BTあるいはTT分割情報、予測パラメータ、あるいはこれらに関連して生成される符号化の対象となるパラメータである。予測画像生成部101は、これらの符号化パラメータを用いて予測画像を生成する。

　符号化パラメータ決定部110は、複数のセットの各々について情報量の大きさと符号化誤差を示すRDコスト値を算出する。RDコスト値は、例えば、符号量と二乗誤差に係数λを乗じた値との和である。符号量は、量子化誤差と符号化パラメータをエントロピー符号化して得られる符号化データTeの情報量である。二乗誤差は、減算部102において算出された予測誤差の二乗和である。係数λは、予め設定されたゼロよりも大きい実数である。符号化パラメータ決定部110は、算出したコスト値が最小となる符号化パラメータのセットを選択する。符号化パラメータ決定部110は決定した符号化パラメータをパラメータ符号化部111と予測パラメータ導出部120に出力する。

　非特許文献１は、非常に符号化効率の高い動画像符号化、復号方式であるが、圧縮された動画像の復号画像で画像認識を行うと、伝送レートが低い場合、符号化歪によって、画像認識精度が低減するという問題があった。

　また、非特許文献２では、動画像の分析結果の記述と動画像符号化を統合する方法について議論しているが、符号化効率の面で十分ではなく、低い伝送ビットレートを実現できないという課題があった。

　本実施の形態では、動画像符号化、復号方式の枠組みを大きく変更せずに、付加的な補助情報を符号化、復号することで、低レートにおいても、画像認識精度を維持することができる枠組みを提供する。

　（画像認識補助SEI）
　図8は、本実施形態の補助情報符号化装置81及び補助情報復号装置91で符号化、復号する補助情報のシンタックスの一形態を示す図である。この例では、image_recognition_hint_sei_messageというSEIを示す。このSEIは、当該ピクチャに対して、画像認識装置が処理を行うにあたって認識精度の向上や、処理量の削減を目的としている。そのために、当該ピクチャに対する認識対象の種類、位置、大きさの少なくとも１つを、補助情報として符号化、復号するSEIメッセージであり、payloadSizeの値のバイト数を有する。

　以下、本実施の形態におけるimage_recognition_hint_sei_messageのシンタックス及びシンタックス要素とセマンティクスについて説明する。

　image_recognition_idcは、画像認識処理の種類を示すインデクス値である。image_recognition_idcの値が0の場合、当該ピクチャには認識対象が存在しないものとし、認識領域の情報を記述しない。この例では、image_recognition_idcの値が1の場合、認識対象の情報を記述する。なお、image_recognition_idcは、画像認識処理の種類に応じて、補助情報のシンタックス要素を追加してもよい。

　number_of_region_minus1は、認識領域の数マイナス1を表すシンタックス要素である。number_of_region_minus1プラス1の値の数だけ、認識対象の種類、位置、大きさの情報を記述する。

　region_idは、認識対象の種類を表すインデクス値である。インデクス値の割当は、画像認識装置51での認識対象に応じて決められる。例えば、画像認識装置51で人物検出を行う場合、region_idの値が0ならば認識対象は人物を示し、region_idの値が1ならばそれ以外を示す。例えば、画像認識装置51で人物と自転車と自動車を認識する場合、region_idの値が0ならば、認識対象は人物を示し、region_idの値が1ならば認識対象は自転車を、region_idの値が3ならば認識対象は自動車を示し、region_idの値が4の場合、認識対象はそれ以外を示す。

　region_xと、region_yは、認識対象の位置を示すシンタックス要素である。region_xは、矩形領域の左上の輝度のx座標値（水平方向）である。region_yは、矩形領域の左上の輝度のy座標値（垂直方向）である。また、region_x、region_yは、画面内の相対位置であってもよい。例えば画面サイズを所定の固定サイズ（例えば、512x512）に正規化した場合における画面内の位置であってもよい。

　region_widthとregion_hightは、認識対応の大きさを示すシンタックス要素である。region_widthは、矩形領域の水平方向の輝度の画素数である。なお、region_x+region_widthの値は、ピクチャの水平方向の画素数を超えないものとする。region_hightは、矩形領域の垂直方向の輝度の画素数である。なお、region_y+region_heightの値は、ピクチャの垂直方向の画素数を超えないものとする。

　本実施の形態においては、認識対象領域を矩形として、矩形の左上の座標値と水平方向と垂直方向の画素数で表現する方式を示したが、認識対象領域としては、別の方法でもよい。例えば、認識対象対象の位置情報（region_x、region_y）は、矩形領域の左上でなく、右上、左下、右下、重心でもよい。また、領域の大きさ（region_width、region_height）は、矩形以外にも、正方形に限定して、一辺の画素数のみ（region_size）を指定するようにしてもよい。あるいは、位置、サイズは、画素単位ではなく、4x4単位や16x16単位、もしくは符号化の単位であるCTUアドレスおよびCTUの個数で指定してもよい。

　rbsp_trailing_bits()は、SEIのビット数がバイト単位になるように1から8ビットのビットのデータを追加して、SEIのバイト数がpayloadSizeの値と一致するようにする。

　画像解析装置61では、入力動画像Tを解析して、認識対象候補を検出する。ここでは、処理量を抑えるためにあくまでも認識対象候補としての精度があれば良いものとする。また、認識候補領域は、例えば、固定的なカメラ画像のように、認識対象のピクチャ中の位置が想定できる場合は、予め画像解析装置61が検知対象領域を設定しておいてもよい。

　補助情報作成装置71では、画像解析装置61で検出した認識対象候補の矩形領域の情報として、ピクチャ内の位置、矩形の大きさの情報に変換して、補助情報符号化装置81に送る。

　あるいは、補助情報作成装置71の出力を画像符号化装置11に入力してもよい。この場合、画像符号化装置11は、補助情報作成部71で作成された認識対象候補の領域部分の画質を制御してもよい。例えば、ピクチャ内の他の領域よりも小さい値の量子化パラメータを用いるなどして高画質にしてもよい。このようなことをすることで、認識精度の向上が可能である。

　画像認識装置51には、復号動画像Tdに加えて、補助情報として、ピクチャ内の認識対象の種類、位置、大きさの情報が入力される。その結果、ピクチャ内の全部の情報を用いることなく、認識対象候補の領域の画素のみを処理すれば良いので処理量を大幅に削減できる。また、予め認識対象候補の種類を限定することができるので、認識精度の向上も可能である。更に、認識対象領域の復号画像の画質が向上すれば、認識精度が向上する。

　本実施の形態によれば、低レートで符号化された復号画像を用いても画像認識装置51での画像認識精度の向上と、画像認識処理の処理量の削減が実現できる。

　（別の動画像伝送システムの構成）
　図9は、本実施に係る別の動画像伝送システムの構成を示す概略図である。

　動画像符号化装置10は、画像符号化装置（画像符号化部）11、画像解析装置（画像解析部）61、補助情報作成装置（補助情報作成部）71、補助情報符号化装置（補助情報符号化部）81、プレ画像処理装置（プレ画像処理部）1001から構成される。

　動画像復号装置30は、画像復号装置（画像復号部）31、補助情報復号装置（補助情報復号部）91、ポスト画像処理装置（ホスト画像処理部）1002から構成される。

　プレ画像処理装置1001は、入力動画像Tのプレ画像処理を行い、プレ処理画像Tpを画像符号化装置11と補助情報作成装置71に送る。

　具体的な実施の形態の一例としては、補助情報作成装置71の出力の認識対象候補の情報を、プレ画像処理装置1001に入力して、認識対象候補以外の領域にローパスフィルタ処理を行い、符号化の難易度を落とし、相対的に認識対象候補の領域の画質を向上させてもよい。

　画像符号化装置11は、プレ画像処理装置1001の出力Tpを圧縮、符号化する。

　画像解析装置61は、入力動画像Tを解析して、画像認識装置51において、ピクチャ内のどの領域を用いるべきかの情報を解析し、解析結果を補助情報作成装置71に送る。

　補助情報作成装置71は、画像解析装置61での解析結果と、プレ画像処理装置1001でのプレ画像処理Tpを元に、ピクチャに対して、画像認識装置51を動作させる否かの情報や、画像認識装置51をピクチャ内のどの領域で動作させるべきかの補助情報を生成し、補助情報符号化装置81に送る。

　補助情報符号化装置81は、補助情報作成装置71で作成された補助情報を、予め決まったシンタックスに従って符号化する。画像符号化装置11の出力と補助情報符号化装置81の出力は、符号化データTeとしてネットワーク21に送出される。

　図9において、補助情報符号化装置81は画像符号化装置11とつながれていないが、補助情報符号化装置81と画像符号化装置11とは、適宜必要な情報を通信してもよい。

　ネットワーク21は、符号化された補助情報及び符号化データTeを画像復号装置31に伝送する。符号化された補助情報の一部または全部は、補助拡張情報SEIとして、符号化データTeに含められてもよい。ネットワーク21は、インターネット（Internet）、広域ネットワーク（WAN:Wide Area Network）、小規模ネットワーク（LAN:Local Area Network）またはこれらの組み合わせである。ネットワーク21は、必ずしも双方向の通信網に限らず、地上デジタル放送、衛星放送等の放送波を伝送する一方向の通信網であっても良い。また、ネットワーク21は、DVD（Digital Versatile Disc:登録商標）、BD（Blue-ray Disc:登録商標）等の符号化データTeを記録した記憶媒体で代替されても良い。

　動画像復号装置30は、ネットワーク21から送られてきた符号化データTeを入力し、画像を復号するとともに、補助情報を復号し、画像表示装置41、および、画像認識装置51に送出する。また、補助情報を復号して、画像認識装置51に出力する。

　画像復号装置31は、ネットワーク21が伝送した符号化データTeのそれぞれを復号し、復号動画像Tdを生成してポスト画像処理装置1002に供給する。

　補助情報復号装置91は、ネットワーク21が伝送した符号化された補助情報を復号して補助情報を生成して、画像認識装置61に送出する。

　図9において、補助情報復号装置91は、画像復号装置31とは別に図示されているが、補助情報復号装置91は、画像復号装置31に含まれてもよい。例えば、補助情報復号装置91は、画像復号装置31の各機能部とは別に画像復号装置31に含まれてもよい。また、図9において、画像復号装置31とつながれていないが、補助情報復号装置91と画像復号装置31とは、適宜必要な情報を通信してもよい。

　ポスト画像処理装置1002は、画像復号装置31の出力である画像復号Tdにポスト画像処理を行い、ポスト画像処理Toを出力する。

　具体的な実施の形態の一例としては、ニューラルネットワークを用いたポスト画像処理を行い、復号動画像Tdの画質を改善してもよい。この時、補助情報復号装置91からの補助情報として、画質を改善するネットワークパラメータを入力し、ポスト画像処理に用いる。

　画像表示装置41は、ポスト画像処理装置1002から出力されたポスト処理画像Toの全部または一部を表示する。画像表示装置41は、例えば、液晶ディスプレイ、有機EL（Electro-luminescence）ディスプレイ等の表示デバイスを備える。ディスプレイの形態としては、据え置き、モバイル、HMD等が挙げられる。また、画像復号装置31が高い処理能力を有する場合には、画質の高い画像を表示し、より低い処理能力しか有しない場合には、高い処理能力、表示能力を必要としない画像を表示する。

　画像認識装置51は、ポスト画像処理装置1002から出力されたポスト処理画像Toと、補助情報復号装置91によって復号された補助情報を用いて、画像の物体検出、物体の領域分割、物体の追跡、動作認識、人物動作評価などを行う。

　（画像認識ポスト処理SEI）
　図10は、本実施形態の補助情報符号化装置及81及び補助情報復号装置91で補助情報符号化、復号するシンタックスの一形態を示す図である。この例では、image_recognition_post_processing_sei_messageというSEIを示す。このSEIは、当該ピクチャに対して、ポスト画像処理装置1002でポスト画像処理を行い、画像認識装置51が画像認識処理を行うにあたって認識精度の向上させることを目的としている。そのために、ポスト画像処理のためのネットワークパラメータを補助情報として、符号化、復号するSEIメッセージであり、payloadSizeの値のバイト数を持つ。

　以下、本実施の形態におけるimage_recognition_post_processing_sei_messageのシンタックス及びシンタックス要素とセマンティクスについて説明する。

　region_idは、図8と同じ認識対象の種類を表すインデクス値である。インデクス値の割当は、画像認識装置51での認識対象に応じて決められる。あるいは、画面内の認識対象毎の領域を識別するインデクス値として定義してもよい。

　nnr_payload_byteは、ネットワークパラメータの情報で、ポスト画像処理に用いるネットワークパラメータを符号化したデータをバイト単位で表現した値である。符号化されたデータ長は、(payloadSize－1)バイトである。

　payloadSizeは、SEIのデータのバイト数を表す数である。

　ニューラルネットワークパラメータは、ニューラルネットワークのパラメータ表現として、ONNX(Open Neural Network eXchange)、NNEF(Neural Network Exchange Format)、MPEG NNC(Moving Picture Experts Group Newral Network Coding)などの規格フォーマットや、tensorflow、pytorchなどのライブラリに依存したフォーマットなどで符号化、復号される。

　また、補助情報作成装置71、補助情報符号化装置81及び補助情報復号装置91で汎用ネットワークパラメータを共通に保持してもよい。補助情報作成装置71では、共通に保持している汎用ネットワークを部分的に更新するネットワークパラメータを補助情報として作成し、補助情報符号化装置81で符号化し、補助情報復号装置91で復号してもよい。このような構成にすることで、補助情報の符号量を削減し、入力画像Tに応じた補助情報を作成、符号化、復号できる。

　また、ネットワークパラメータの伝送フォーマットとして、複数のフォーマットに対応するために、フォーマットを示すパラメータ（識別子）を送付してもよい。また、識別子に続く実際の補助情報については、バイト列で伝送してもよい。

　補助情報復号装置91で復号したネットワークパラメータの補助情報は、ポスト画像処理装置1002に入力する。

　ポスト画像処理装置1002では、復号した補助情報を用いて、ニューラルネットワークを用いたポスト画像処理を行い、復号動画像Tdを復元する。

　また、図8で示した画像認識補助SEIの補助情報と同時に用いて、画像認識補助SEIのregion_idの情報によって、認識対象候補領域のみに、ポスト画像処理を行っても良い。

　これにより、復号画像側で復号動画像Tdの画質改善を行うとともに、画像認識装置での認識精度の向上を図る。
なお、ネットワークパラメータの符号化、復号は、SEI限定されず、SPS、PPS、APS、スライスヘッダなどのシンタックスを用いてもよい。

　補助符号化装置81では、図8、図10、または、図11と図12のシンタックス表に基づいて、補助情報を符号化する。図8または図10のシンタックス表の場合、補助情報は、補助拡張情報SEIとして符号化され、画像符号化装置11の出力する符号化データTeに多重化されてネットワーク21に出力される。図11と図12のシンタックス表の場合、補助情報はAPSとして符号化され、画像符号化装置11の出力する符号化データTeの一部として出力される。

　補助情報復号装置91は、符号化データTeから、図8、図10、または、図11と図12のシンタックス表に基づいて補助情報を復号し、復号結果をポスト画像処理装置1002と画像認識装置51に送る。図8、図10のシンタックス表の場合、補助情報復号装置91は補助拡張情報SEIとして符号化された補助情報を復号する。図11と図12のシンタックス表の場合、補助情報復号装置91はAPSとして符号化された補助情報を復号する。

　ポスト画像処理装置1002は、復号動画像Tdと補助情報を用いて復号動画像Tdにポスト画像処理を行い、ポスト画像処理Toを生成する。

　（画像認識補助情報APS）
　図11は、本実施の形態における画像認識拡張のためのAPS(Adaptation Parameter Set)を拡張したシンタックス表の一例を示す図である。図12に示すように以下のシンタックス要素が含まれ得る。

　aps_extension_flagは、APSの拡張データがあることを示すフラグである。aps_extension_flagが1の場合、image_recognition_extension_flagが符号化される。aps_extension_flagが0の場合、APSの拡張データが存在しないので、image_recognition_extension_flagは符号化されず、0と推定する。

　image_recognition_extension_flagは、画像認識拡張データが存在することを示すフラグである。また、image_recognition_extension_data()のシンタックスを符号化、復号するか否かを示すフラグでもある。image_recognition_extension_flagが1の場合、image_recognition_extension_data()のシンタックスを符号化、復号する。image_recognition_extension_data()は画像認識補助情報を含むシンタックスである。

　図12は、APSの拡張情報の１つであるimage_recognition_extension_data()のシンタックスの一例である。image_recognition_extension_data()は画像認識拡張に用いるネットワークパラメータ情報を含む。

　このAPSの拡張データは、当該ピクチャに対して、画像認識装置が処理を行うにあたって認識精度の向上や、処理量の削減を目的としている。そのために、当該ピクチャに対する認識対象の種類、位置、大きさを補助情報として記述する。

　以下、本実施の形態における一例として、image_recognition_extension_data()のシンタックス及びシンタックス要素とセマンティクスについて説明する。

　image_recognition_idcは、画像認識処理の種類を示すインデクス値である。image_recognition_idcの値が0の場合、当該ピクチャには、認識対象が存在しないものとし、認識領域の情報及びポスト画像処理のためのネットワークパラメータの情報を記述しない。この例では、image_recognition_idcの値が1の場合、認識領域の情報を記述する。なお、image_recognition_idcは、画像認識処理の種類に応じて、補助情報のシンタックス要素を追加してもよい。

　image_recognition_idcの値が1の場合、認識領域の情報を記述するので、図8の画像認識補助SEIと同様のシンタックスを記述する。

　region_idは、認識対象の種類を表すインデクス値である。インデクス値の割当は、画像認識装置での認識対象に応じて決められる。例えば、画像認識装置で人物検出を行う場合、region_idの値が0ならば認識対象は人物を示し、region_idの値が1ならば認識対象はそれ以外を示す。例えば、画像認識装置で人物と自転車と自動車を認識する場合、region_idの値が0ならば認識対象は人物を示し、region_idの値が1ならば認識対象は自転車を示し、region_idの値が2ならば自動車を示し、region_idの値が3ならば認識対象はそれ以外を示す。

　region_xと、region_yは、認識対象の位置を示すシンタックス要素である。region_xは、矩形領域の左上の輝度のx座標値（水平方向）である。region_yは、矩形領域の左上の輝度のy座標値（垂直方向）である。

　本実施の形態においては、認識対象領域を矩形として、矩形の左上の座標値と水平方向と垂直方向の画素数で表現する方式を示したが、認識対象領域としては、別の方法でもよい。例えば、矩形の位置情報は、矩形領域の左上でなく、右上、左下、右下、重心でもよい。また、矩形以外にも、正方形に限定して、一辺の画素数のみを指定するようにしてもよい。あるいは、矩形、正方形以外にも、符号化の単位であるCTUアドレス、CTU数で指定してもよい。

　post_processing_data_flagは、ポスト画像処理装置1002で復号動画像Tdに対してポスト画像処理を行うかどうかのフラグである。もし、TRUEならば、ポスト画像処理に用いるネットワークパラメータ情報を記述する。

　payloadSizeは、ネットワークパラメータのバイト数を表す数である。

　nnr_payload_byteは、ネットワークパラメータの情報で、ポスト画像処理に用いるネットワークパラメータを符号化したデータをバイト単位で表現した値である。符号化されたデータ長は、payloadSizeバイトである。

　rbsp_trailing_bits()は、APSのビット数がバイト単位になるように1から8ビットのデータを追加する。

　ネットワークパラメータは、ポスト画像処理装置1002でニューラルネットワークを用いて認識対象候補領域の、ポスト画像処理を行う。これにより、認識対象候補領域の復号動画像Tdの画質改善を行うとともに、画像認識装置での認識精度の向上を図る。

　なお、本実施の形態の一例では、APSでのシンタックスを示したが、APS限定されず、SPS、PPS、スライスヘッダなどのシンタックスを用いてもよい。

　なお、上述した実施形態における画像符号化装置11、画像復号装置31の一部、例えば、エントロピー復号部301、パラメータ復号部302、ループフィルタ305、予測画像生成部308、逆量子化・逆変換部311、加算部312、予測パラメータ導出部320、予測画像生成部101、減算部102、変換・量子化部103、エントロピー符号化部104、逆量子化・逆変換部105、ループフィルタ107、符号化パラメータ決定部110、パラメータ符号化部111、予測パラメータ導出部120をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、画像符号化装置11、画像復号装置31のいずれかに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

　また、上述した実施形態における画像符号化装置11、画像復号装置31の一部、または全部を、LSI（Large Scale Integration）等の集積回路として実現しても良い。画像符号化装置11、画像復号装置31の各機能ブロックは個別にプロセッサ化しても良いし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

　以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

　〔応用例〕
　上述した動画像符号化装置10及び動画像復号装置30は、動画像の送信、受信、記録、再生を行う各種装置に搭載して利用することができる。なお、動画像は、カメラ等により撮像された自然動画像であってもよいし、コンピュータ等により生成された人工動画像（CGおよびGUIを含む）であってもよい。

　本発明の実施形態は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

　本発明の実施形態は、画像データが符号化された符号化データを復号する動画像復号装置、および、画像データが符号化された符号化データを生成する動画像符号化装置に好適に適用することができる。また、動画像符号化装置によって生成され、動画像復号装置によって参照される符号化データのデータ構造に好適に適用することができる。

Claims

　符号化データから画像を復号する画像復号装置であって、
　復号した画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を復号する補助情報復号部を少なくとも備えることを特徴とする動画像復号装置。
　前記補助情報復号部は、前記補助情報として、認識対象領域の画像復元に用いるネットワークパラメータを復号することを特徴とする請求項1に記載の動画像復号装置。
　画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を復号する補助情報復号部から復号されたネットワークパラメータを用いて、ポスト画像処理を行うことを特徴とするポスト画像処理装置。
　前記補助情報が示す候補領域のみにポスト画像処理を行うことを特徴とする請求項3に記載のポスト画像処理装置。
　入力画像を符号化する画像符号化装置であって、
　前記入力画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を符号化する補助情報符号化部を少なくとも備えることを特徴とする動画像符号化装置。
　前記補助情報符号化部は、前記補助情報として、認識対象領域の画像復元に用いるネットワークパラメータを符号化することを特徴とする請求項5に記載の動画像符号化装置。
　符号化データから画像を復号する画像復号方法であって、
　復号した画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を復号するステップを少なくとも含むことを特徴とする動画像復号方法。
　入力画像を符号化する画像符号化方法であって、
　前記入力画像の認識対象の位置、大きさ及び種類の少なくとも１つを示す補助情報を符号化するステップを少なくとも含むことを特徴とする動画像符号化方法。