JPWO2019031410A1

JPWO2019031410A1 - 画像フィルタ装置、画像復号装置、および画像符号化装置

Info

Publication number: JPWO2019031410A1
Application number: JP2019535621A
Authority: JP
Inventors: 知宏猪飼; 山本　智幸; 智幸山本; 伊藤　典男; 典男伊藤; 徳毛　靖昭; 靖昭徳毛
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-08-10
Filing date: 2018-08-03
Publication date: 2020-08-27
Anticipated expiration: 2038-08-03
Also published as: CN111373751B; CN111373751A; WO2019031410A1; US11631199B2; JP7260472B2; JP2023076688A; CN116170590A; US20210150767A1

Abstract

入力画像データに対し、画像特性に応じたフィルタを適用する。CNNフィルタ（１０７）において、輝度又は色差を画素値とする１又は複数の第１種の入力画像データと、予測画像及び差分画像を生成するための参照パラメータに応じた値を画素値とする１又は複数の第２種の入力画像データとが入力され、輝度又は色差を画素値とする１又は複数の第１種の出力画像データを出力するニューラルネットワークを備えている。

Description

本発明の一様態は、画像フィルタ装置、画像復号装置、および画像符号化装置に関する。

動画像を効率的に伝送または記録するために、動画像を符号化することによって符号化データを生成する動画像符号化装置、および、当該符号化データを復号することによって復号画像を生成する動画像復号装置が用いられている。

具体的な動画像符号化方式としては、例えば、H.264/AVCやHEVC（High-Efficiency Video Coding）にて提案されている方式などが挙げられる。

このような動画像符号化方式においては、動画像を構成する画像（ピクチャ）は、画像を分割することにより得られるスライス、スライスを分割することにより得られる符号化ツリーユニット（CTU：Coding Tree Unit）、符号化ツリーユニットを分割することで得られる符号化単位（符号化ユニット（Coding Unit：CU）と呼ばれることもある）、及び、符号化単位を分割することより得られるブロックである予測ユニット（PU）、変換ユニット（TU）からなる階層構造により管理され、CUごとに符号化／復号される。

また、このような動画像符号化方式においては、通常、入力画像を符号化／復号することによって得られる局所復号画像に基づいて予測画像が生成され、当該予測画像を入力画像（原画像）から減算して得られる予測残差（「差分画像」または「残差画像」と呼ぶこともある）が符号化される。予測画像の生成方法としては、画面間予測（インター予測）、および、画面内予測（イントラ予測）が挙げられる。

また、近年の動画像符号化及び復号の技術として非特許文献１が挙げられる。

また、Variable-filter-size Residue-learning CNN (VRCNN)とよばれるニューラルネットワークを使用する技術として非特許文献２が挙げられる。

"Algorithm Description of Joint Exploration Test Model 6", JVET-F1001, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, 31 March - 7 April 2017 "A Convolutional Neural Network Approach for Post-Processingin HEVC Intra Coding"

しかしながら、上述のニューラルネットワークを用いたフィルタ技術は量子化パラメータに応じて、ネットワーク全体を切り替えるのみであり、入力画像データの特性に応じたフィルタを適用する場合にネットワーク規模が大きくなるという問題があった。また、領域毎の符号化に適したフィルタを適用できないという問題があった。

本発明は、上記の問題に鑑みてなされたものであり、その目的は、従来の構成に比べて、入力画像データに対し、ネットワーク規模を抑えながら画像特性に応じたフィルタの適用を実現することにある。

上記の課題を解決するために、本発明に係る画像フィルタ装置は、輝度又は色差を画素値とする１又は複数の第１種の入力画像データと、予測画像及び差分画像を生成するための参照パラメータに応じた値を画素値とする１又は複数の第２種の入力画像データとが入力され、輝度又は色差を画素値とする１又は複数の第１種の出力画像データを出力するニューラルネットワークを備えている。

上記の課題を解決するために、本発明に係る画像フィルタ装置は、複数の個別ニューラルネットワークと、共通ニューラルネットワークとを備え、上記個別ニューラルネットワークは、当該画像フィルタ装置への入力画像データにおけるフィルタパラメータの値に応じて、当該入力画像データに対して選択的に作用し、上記共通ニューラルネットワークは、上記個別ニューラルネットワークの出力画像データに対して、上記フィルタパラメータの値によらずに共通に作用する。

上記の課題を解決するために、本発明に係る画像フィルタ装置は、複数の個別ニューラルネットワークと、共通ニューラルネットワークとを備え、上記共通ニューラルネットワークは、当該画像フィルタ装置への入力画像データに作用し、上記個別ニューラルネットワークは、上記入力画像データにおけるフィルタパラメータの値に応じて、上記共通ニューラルネットワークの出力画像データに対して選択的に作用する。

従来の構成に比べて、入力画像データに対し、画像特性に応じたフィルタを適用することができる。

本実施形態に係る符号化ストリームのデータの階層構造を示す図である。 PU分割モードのパターンを示す図である。（ａ）〜（ｈ）は、それぞれ、PU分割モードが、2Nx2N、2NxN、2NxnU、2NxnD、Nx2N、nLx2N、nRx2N、および、NxNの場合のパーティション形状について示している。参照ピクチャおよび参照ピクチャリストの一例を示す概念図である。第１の実施形態に係る画像符号化装置の構成を示すブロック図である。第１の実施形態に係る画像復号装置の構成を示す概略図である。本実施形態に係る画像符号化装置のインター予測画像生成部の構成を示す概略図である。本実施形態に係る画像復号装置のインター予測画像生成部の構成を示す概略図である。第１の実施形態に係る画像フィルタ装置の入出力の一例を示す概念図である。第１の実施形態に係る画像フィルタ装置の構成を示す概略図である。第１の実施形態に係る画像フィルタ装置の構成の変形例を示す概略図である。量子化パラメータの一例を説明するための図である。予測パラメータの一例を説明するための図である。イントラ予測の一例を説明するための図である。イントラ予測パラメータの一例を説明するための図である。分割デプス情報の一例を説明するための図である。分割デプス情報の他の一例を説明するための図である。予測パラメータの他の一例を説明するための図である。第２の実施形態に係る画像フィルタ装置の構成を示す概略図である。第３の実施形態に係る画像フィルタ装置の一例を示す概念図である。第３の実施形態に係る画像フィルタ装置の構成を示す概略図である。第３の実施形態に係る画像フィルタ装置の構成の変形例を示す概略図である。第４の実施形態に係る画像フィルタ装置の一例を示す概念図である。第４の実施形態に係る画像フィルタ装置の一例の変形例を示す概念図である。第５の実施形態に係る画像フィルタ装置の一例を示す概念図である。第６の実施形態に係る画像フィルタ装置の変形例を示す概念図である。第７の実施形態に係る画像符号化装置の構成を示すブロック図である。本実施形態に係る画像フィルタ装置の構成を示す概略図である。本実施形態に係る画像フィルタ装置のパラメータの更新の一例を示す概念図である。パラメータを伝送するデータ構造を示す図である。第７の実施形態に係る画像復号装置の構成を示すブロック図である。本実施形態に係る画像符号化装置を搭載した送信装置、および、画像復号装置を搭載した受信装置の構成について示した図である。（ａ）は、画像符号化装置を搭載した送信装置を示しており、（ｂ）は、画像復号装置を搭載した受信装置を示している。本実施形態に係る画像符号化装置を搭載した記録装置、および、画像復号装置を搭載した再生装置の構成について示した図である。（ａ）は、画像符号化装置を搭載した記録装置を示しており、（ｂ）は、画像復号装置を搭載した再生装置を示している。本実施形態に係る画像伝送システムの構成を示す概略図である。第１の実施形態に係る画像フィルタ装置の入出力の他の例を示す概念図である。

（第１の実施形態）
以下、図面を参照しながら本発明の実施形態について説明する。

図３３は、本実施形態に係る画像伝送システム１の構成を示す概略図である。

画像伝送システム１は、符号化対象画像を符号化した符号を伝送し、伝送された符号を復号し画像を表示するシステムである。画像伝送システム１は、画像符号化装置１１、ネットワーク２１、画像復号装置３１及び画像表示装置４１を含んで構成される。

画像符号化装置１１には、単一レイヤもしくは複数レイヤの画像を示す画像Ｔが入力される。レイヤとは、ある時間を構成するピクチャが１つ以上ある場合に、複数のピクチャを区別するために用いられる概念である。たとえば、同一ピクチャを、画質や解像度の異なる複数のレイヤで符号化するとスケーラブル符号化になり、異なる視点のピクチャを複数のレイヤで符号化するとビュースケーラブル符号化となる。複数のレイヤのピクチャ間で予測（インターレイヤ予測、インタービュー予測）を行う場合には、符号化効率が大きく向上する。また予測を行わない場合（サイマルキャスト）にも、符号化データをまとめることができる。

ネットワーク２１は、画像符号化装置１１が生成した符号化ストリームＴｅを画像復号装置３１に伝送する。ネットワーク２１は、インターネット（internet）、広域ネットワーク（WAN:Wide Area Network）、小規模ネットワーク（LAN:Local Area Network）またはこれらの組み合わせである。ネットワーク２１は、必ずしも双方向の通信網に限らず、地上デジタル放送、衛星放送等の放送波を伝送する一方向の通信網であっても良い。また、ネットワーク２１は、DVD（Digital Versatile Disc）、BD（Blue-ray Disc）等の符号化ストリームTeを記録した記憶媒体で代替されても良い。

画像復号装置３１は、ネットワーク２１が伝送した符号化ストリームTeのそれぞれを復号し、それぞれ復号した１または複数の復号画像Tdを生成する。

画像表示装置４１は、画像復号装置３１が生成した１または複数の復号画像Tdの全部または一部を表示する。画像表示装置４１は、例えば、液晶ディスプレイ、有機ＥＬ（Electro-luminescence）ディスプレイ等の表示デバイスを備える。また、空間スケーラブル符号化、ＳＮＲスケーラブル符号化では、画像復号装置３１、画像表示装置４１が高い処理能力を有する場合には、画質の高い拡張レイヤ画像を表示し、より低い処理能力しか有しない場合には、拡張レイヤほど高い処理能力、表示能力を必要としないベースレイヤ画像を表示する。

＜演算子＞
本明細書で用いる演算子を以下に記載する。

>>は右ビットシフト、<<は左ビットシフト、&はビットワイズAND、|はビットワイズOR、|=はOR代入演算子）である。

x ? y : zは、xが真（0以外）の場合にy、xが偽（0）の場合にzをとる３項演算子である。

Clip3(a, b, c) は、cをa以上b以下の値にクリップする関数であり、c<aの場合にはaを返し、c>bの場合にはbを返し、その他の場合にはcを返す関数である（ただし、a<=b）。

＜符号化ストリームTeの構造＞
本実施形態に係る画像符号化装置１１および画像復号装置３１の詳細な説明に先立って、画像符号化装置１１によって生成され、画像復号装置３１によって復号される符号化ストリームTeのデータ構造について説明する。

図１は、符号化ストリームTeにおけるデータの階層構造を示す図である。符号化ストリームTeは、例示的に、シーケンス、およびシーケンスを構成する複数のピクチャを含む。図１の（ａ）〜（ｆ）は、それぞれ、シーケンスSEQを既定する符号化ビデオシーケンス、ピクチャPICTを規定する符号化ピクチャ、スライスSを規定する符号化スライス、スライスデータを規定する符号化スライスデータ、符号化スライスデータに含まれる符号化ツリーユニット、符号化ツリーユニットに含まれる符号化ユニット（Coding Unit；CU）を示す図である。

（符号化ビデオシーケンス）
符号化ビデオシーケンスでは、処理対象のシーケンスSEQを復号するために画像復号装置３１が参照するデータの集合が規定されている。シーケンスSEQは、図１の（ａ）に示すように、ビデオパラメータセット（Video Parameter Set）、シーケンスパラメータセットSPS（Sequence Parameter Set）、ピクチャパラメータセットPPS（Picture Parameter Set）、ピクチャPICT、及び、付加拡張情報SEI（Supplemental Enhancement Information）を含んでいる。ここで＃の後に示される値はレイヤIDを示す。図１では、#0と#1すなわちレイヤ０とレイヤ１の符号化データが存在する例を示すが、レイヤの種類およびレイヤの数はこれによらない。

ビデオパラメータセットVPSは、複数のレイヤから構成されている動画像において、複数の動画像に共通する符号化パラメータの集合および動画像に含まれる複数のレイヤおよび個々のレイヤに関連する符号化パラメータの集合が規定されている。

シーケンスパラメータセットSPSでは、対象シーケンスを復号するために画像復号装置３１が参照する符号化パラメータの集合が規定されている。例えば、ピクチャの幅や高さが規定される。なお、SPSは複数存在してもよい。その場合、PPSから複数のSPSの何れかを選択する。

ピクチャパラメータセットPPSでは、対象シーケンス内の各ピクチャを復号するために画像復号装置３１が参照する符号化パラメータの集合が規定されている。例えば、ピクチャの復号に用いられる量子化幅の基準値（pic_init_qp_minus26）や重み付き予測の適用を示すフラグ（weighted_pred_flag）が含まれる。なお、PPSは複数存在してもよい。その場合、対象シーケンス内の各ピクチャから複数のPPSの何れかを選択する。

（符号化ピクチャ）
符号化ピクチャでは、処理対象のピクチャPICTを復号するために画像復号装置３１が参照するデータの集合が規定されている。ピクチャPICTは、図１の（ｂ）に示すように、スライスS0〜S_NS-1を含んでいる（ＮＳはピクチャPICTに含まれるスライスの総数）。

なお、以下、スライスS0〜S_NS-1のそれぞれを区別する必要が無い場合、符号の添え字を省略して記述することがある。また、以下に説明する符号化ストリームTeに含まれるデータであって、添え字を付している他のデータについても同様である。

（符号化スライス）
符号化スライスでは、処理対象のスライスSを復号するために画像復号装置３１が参照するデータの集合が規定されている。スライスSは、図１の（ｃ）に示すように、スライスヘッダSH、および、スライスデータSDATAを含んでいる。

スライスヘッダSHには、対象スライスの復号方法を決定するために画像復号装置３１が参照する符号化パラメータ群が含まれる。スライスタイプを指定するスライスタイプ指定情報（slice_type）は、スライスヘッダSHに含まれる符号化パラメータの一例である。

スライスタイプ指定情報により指定可能なスライスタイプとしては、（１）符号化の際にイントラ予測のみを用いるＩスライス、（２）符号化の際に単方向予測、または、イントラ予測を用いるＰスライス、（３）符号化の際に単方向予測、双方向予測、または、イントラ予測を用いるＢスライスなどが挙げられる。

なお、スライスヘッダSHには、上記符号化ビデオシーケンスに含まれる、ピクチャパラメータセットPPSへの参照（pic_parameter_set_id）を含んでいても良い。

（符号化スライスデータ）
符号化スライスデータでは、処理対象のスライスデータSDATAを復号するために画像復号装置３１が参照するデータの集合が規定されている。スライスデータSDATAは、図１の（ｄ）に示すように、符号化ツリーユニット（CTU:Coding Tree Unit）を含んでいる。CTUは、スライスを構成する固定サイズ（例えば64x64）のブロックであり、最大符号化単位（LCU:Largest Coding Unit）と呼ぶこともある。

（符号化ツリーユニット）
図１の（ｅ）に示すように、処理対象の符号化ツリーユニットを復号するために画像復号装置３１が参照するデータの集合が規定されている。符号化ツリーユニットは、再帰的な４分木分割により分割される。再帰的な４分木分割により得られる木構造のノードのことを符号化ノード（CN:Coding Node）と称する。４分木の中間ノードは、符号化ノードであり、符号化ツリーユニット自身も最上位の符号化ノードとして規定される。CTUは、分割フラグ（cu_split_flag）を含み、cu_split_flagが１の場合には、４つの符号化ノードCNに分割される。cu_split_flagが０の場合には、符号化ノードCNは分割されず、１つの符号化ユニット（CU:Coding Unit）をノードとして持つ。符号化ユニットCUは符号化ノードの末端ノードであり、これ以上分割されない。符号化ユニットCUは、符号化処理の基本的な単位となる。

また、符号化ツリーユニットCTUのサイズが64x64画素の場合には、符号化ユニットのサイズは、64x64画素、32x32画素、16x16画素、および、8x8画素の何れかをとり得る。

（符号化ユニット）
図１の（ｆ）に示すように、処理対象の符号化ユニットを復号するために画像復号装置３１が参照するデータの集合が規定されている。具体的には、符号化ユニットは、予測ツリー、変換ツリー、CUヘッダCUHから構成される。CUヘッダでは予測モード、分割方法（PU分割モード）等が規定される。

予測ツリーでは、符号化ユニットを１または複数に分割した各予測ユニット（PU）の予測情報（参照ピクチャインデックス、動きベクトル等）が規定される。別の表現でいえば、予測ユニットは、符号化ユニットを構成する１または複数の重複しない領域である。また、予測ツリーは、上述の分割により得られた１または複数の予測ユニットを含む。なお、以下では、予測ユニットをさらに分割した予測単位を「サブブロック」と呼ぶ。サブブロックは、複数の画素によって構成されている。予測ユニットとサブブロックのサイズが等しい場合には、予測ユニット中のサブブロックは１つである。予測ユニットがサブブロックのサイズよりも大きい場合には、予測ユニットは、サブブロックに分割される。たとえば予測ユニットが8x8、サブブロックが4x4の場合には、予測ユニットは水平に２分割、垂直に２分割からなる、４つのサブブロックに分割される。

予測処理は、この予測ユニット（サブブロック）ごとに行ってもよい。

予測ツリーにおける分割の種類は、大まかにいえば、イントラ予測の場合と、インター予測の場合との２つがある。イントラ予測とは、同一ピクチャ内の予測であり、インター予測とは、互いに異なるピクチャ間（例えば、表示時刻間、レイヤ画像間）で行われる予測処理を指す。

イントラ予測の場合、分割方法は、2Nx2N（符号化ユニットと同一サイズ）と、NxNとがある。

また、インター予測の場合、分割方法は、符号化データのPU分割モード（part_mode）により符号化され、2Nx2N（符号化ユニットと同一サイズ）、2NxN、2NxnU、2NxnD、Nx2N、nLx2N、nRx2N、および、NxNなどがある。なお、2NxN、Nx2Nは1:1の対称分割を示し、2NxnU、2NxnDおよびnLx2N、nRx2Nは、1:3、3:1の非対称分割を示す。CUに含まれるPUを順にPU0、PU1、PU2、PU3と表現する。

図２の（ａ）〜（ｈ）に、それぞれのPU分割モードにおけるパーティションの形状（PU分割の境界の位置）を具体的に図示している。図２の（ａ）は、2Nx2Nのパーティションを示し、（ｂ）、（ｃ）、（ｄ）は、それぞれ、2NxN、2NxnU、および、2NxnDのパーティション（横長パーティション）を示す。（ｅ）、（ｆ）、（ｇ）は、それぞれ、Nx2N、nLx2N、nRx2Nである場合のパーティション（縦長パーティション）を示し、（ｈ）は、NxNのパーティションを示す。なお、横長パーティションと縦長パーティションを総称して長方形パーティション、2Nx2N、NxNを総称して正方形パーティションと呼ぶ。

また、変換ツリーにおいては、符号化ユニットが１または複数の変換ユニットに分割され、各変換ユニットの位置とサイズとが規定される。別の表現でいえば、変換ユニットは、符号化ユニットを構成する１または複数の重複しない領域のことである。また、変換ツリーは、上述の分割より得られた１または複数の変換ユニットを含む。

変換ツリーにおける分割には、符号化ユニットと同一のサイズの領域を変換ユニットとして割り付けるものと、上述したCUの分割と同様、再帰的な４分木分割によるものがある。

変換処理は、この変換ユニットごとに行われる。

（予測パラメータ）
予測ユニット（PU：Prediction Unit）の予測画像は、PUに付随する予測パラメータによって導出される。予測パラメータには、イントラ予測の予測パラメータもしくはインター予測の予測パラメータがある。以下、インター予測の予測パラメータ（インター予測パラメータ）について説明する。インター予測パラメータは、予測リスト利用フラグpredFlagL0、predFlagL1と、参照ピクチャインデックスrefIdxL0、refIdxL1と、動きベクトルmvL0、mvL1から構成される。予測リスト利用フラグpredFlagL0、predFlagL1は、各々L0リスト、L1リストと呼ばれる参照ピクチャリストが用いられるか否かを示すフラグであり、値が１の場合に対応する参照ピクチャリストが用いられる。なお、本明細書中「ＸＸであるか否かを示すフラグ」と記す場合、フラグが０以外（たとえば１）をＸＸである場合、０をＸＸではない場合とし、論理否定、論理積などでは１を真、０を偽と扱う（以下同様）。但し、実際の装置や方法では真値、偽値として他の値を用いることもできる。

符号化データに含まれるインター予測パラメータを導出するためのシンタックス要素には、例えば、PU分割モードpart_mode、マージフラグmerge_flag、マージインデックスmerge_idx、インター予測識別子inter_pred_idc、参照ピクチャインデックスrefIdxLX、予測ベクトルインデックスmvp_LX_idx、差分ベクトルmvdLXがある。

（参照ピクチャリスト）
参照ピクチャリストは、参照ピクチャメモリ３０６に記憶された参照ピクチャからなるリストである。図３は、参照ピクチャおよび参照ピクチャリストの一例を示す概念図である。図３（ａ）において、矩形はピクチャ、矢印はピクチャの参照関係、横軸は時間、矩形中のI、P、Bは各々イントラピクチャ、単予測ピクチャ、双予測ピクチャ、矩形中の数字は復号順を示す。図に示すように、ピクチャの復号順は、I0、P1、B2、B3、B4であり、表示順は、I0、B3、B2、B4、P1である。図３（ｂ）に、参照ピクチャリストの例を示す。参照ピクチャリストは、参照ピクチャの候補を表すリストであり、１つのピクチャ（スライス）が１つ以上の参照ピクチャリストを有してもよい。図の例では、対象ピクチャB3は、L0リストRefPicList0およびL1リストRefPicList1の２つの参照ピクチャリストを持つ。対象ピクチャがB3の場合の参照ピクチャは、I0、P1、B2であり、参照ピクチャはこれらのピクチャを要素として持つ。個々の予測ユニットでは、参照ピクチャリストRefPicListX中のどのピクチャを実際に参照するかを参照ピクチャインデックスrefIdxLXで指定する。図では、refIdxL0およびrefIdxL1により参照ピクチャP1とB2が参照される例を示す。

（マージ予測とAMVP予測）
予測パラメータの復号（符号化）方法には、マージ予測（merge）モードとAMVP（Adaptive Motion Vector Prediction、適応動きベクトル予測）モードがある、マージフラグmerge_flagは、これらを識別するためのフラグである。マージ予測モードは、予測リスト利用フラグpredFlagLX（またはインター予測識別子inter_pred_idc）、参照ピクチャインデックスrefIdxLX、動きベクトルmvLXを符号化データに含めずに、既に処理した近傍PUの予測パラメータから導出する用いるモードであり、AMVPモードは、インター予測識別子inter_pred_idc、参照ピクチャインデックスrefIdxLX、動きベクトルmvLXを符号化データに含めるモードである。なお、動きベクトルmvLXは、予測ベクトルmvpLXを識別する予測ベクトルインデックスmvp_LX_idxと差分ベクトルmvdLXとして符号化される。

インター予測識別子inter_pred_idcは、参照ピクチャの種類および数を示す値であり、PRED_L0、PRED_L1、PRED_BIの何れかの値をとる。PRED_L0、PRED_L1は、各々L0リスト、L1リストの参照ピクチャリストで管理された参照ピクチャを用いることを示し、１枚の参照ピクチャを用いること（単予測）を示す。PRED_BIは２枚の参照ピクチャを用いること（双予測BiPred）を示し、L0リストとL1リストで管理された参照ピクチャを用いる。予測ベクトルインデックスmvp_LX_idxは予測ベクトルを示すインデックスであり、参照ピクチャインデックスrefIdxLXは、参照ピクチャリストで管理された参照ピクチャを示すインデックスである。なお、LXは、L0予測とL1予測を区別しない場合に用いられる記述方法であり、LXをL0、L1に置き換えることでL0リストに対するパラメータとL1リストに対するパラメータを区別する。

マージインデックスmerge_idxは、処理が完了したPUから導出される予測パラメータ候補（マージ候補）のうち、いずれかの予測パラメータを復号対象PUの予測パラメータとして用いるかを示すインデックスである。

（動きベクトル）
動きベクトルmvLXは、異なる２つのピクチャ上のブロック間のずれ量を示す。動きベクトルmvLXに関する予測ベクトル、差分ベクトルを、それぞれ予測ベクトルmvpLX、差分ベクトルmvdLXと呼ぶ。

（インター予測識別子inter_pred_idcと予測リスト利用フラグpredFlagLX）
インター予測識別子inter_pred_idcと、予測リスト利用フラグpredFlagL0、predFlagL1の関係は以下のとおりであり、相互に変換可能である。

inter_pred_idc = （predFlagL1<<１） + predFlagL0
predFlagL0 = inter_pred_idc & １
predFlagL1 = inter_pred_idc >> １
なお、インター予測パラメータは、予測リスト利用フラグを用いても良いし、インター予測識別子を用いてもよい。また、予測リスト利用フラグを用いた判定は、インター予測識別子を用いた判定に置き替えてもよい。逆に、インター予測識別子を用いた判定は、予測リスト利用フラグを用いた判定に置き替えてもよい。

（双予測biPredの判定）
双予測BiPredであるかのフラグbiPredは、２つの予測リスト利用フラグがともに１であるかによって導出できる。たとえば以下の式で導出できる。

biPred = (predFlagL0 == 1 && predFlagL1 == 1)
フラグbiPredは、インター予測識別子が２つの予測リスト（参照ピクチャ）を使うことを示す値であるか否かによっても導出できる。たとえば以下の式で導出できる。

biPred = (inter_pred_idc == PRED_BI) ? 1 : 0
上記式は、以下の式でも表現できる。

biPred = (inter_pred_idc == PRED_BI)
なお、PRED_BIはたとえば3の値を用いることができる。

（画像復号装置の構成）
次に、本実施形態に係る画像復号装置３１の構成について説明する。図５は、本実施形態に係る画像復号装置３１の構成を示す概略図である。画像復号装置３１は、エントロピー復号部３０１、予測パラメータ復号部（予測画像復号装置）３０２、CNN（Convolutional Neural Network、畳み込みニューラルネットワーク）フィルタ３０５、参照ピクチャメモリ３０６、予測パラメータメモリ３０７、予測画像生成部（予測画像生成装置）３０８、逆量子化・逆変換部３１１、及び加算部３１２を含んで構成される。

また、予測パラメータ復号部３０２は、インター予測パラメータ復号部３０３及びイントラ予測パラメータ復号部３０４を含んで構成される。予測画像生成部３０８は、インター予測画像生成部３０９及びイントラ予測画像生成部３１０を含んで構成される。

エントロピー復号部３０１は、外部から入力された符号化ストリームTeに対してエントロピー復号を行って、個々の符号（シンタックス要素）を分離し復号する。分離された符号には、予測画像を生成するための予測情報および、差分画像を生成するための残差情報などがある。

エントロピー復号部３０１は、分離した符号の一部を予測パラメータ復号部３０２に出力する。分離した符号の一部とは、例えば、量子化パラメータ（QP）、予測モードpredMode、PU分割モードpart_mode、マージフラグmerge_flag、マージインデックスmerge_idx、インター予測識別子inter_pred_idc、参照ピクチャインデックスrefIdxLX、予測ベクトルインデックスmvp_LX_idx、差分ベクトルmvdLXである。どの符号を復号するかの制御は、予測パラメータ復号部３０２の指示に基づいて行われる。エントロピー復号部３０１は、量子化係数を逆量子化・逆変換部３１１に出力する。この量子化係数は、符号化処理において、残差信号に対してDCT（Discrete Cosine Transform、離散コサイン変換）、DST（Discrete Sine Transform、離散サイン変換）、KLT（Karyhnen Loeve Transform、カルーネンレーベ変換）等の周波数変換を行い量子化して得られる係数である。

また、エントロピー復号部３０１は、分離した符号の一部を後述するCNNフィルタ３０５に出力する。分離した符号の一部とは、例えば、量子化パラメータ（QP）、予測パラメータ、デプス情報（分割情報）である。

インター予測パラメータ復号部３０３は、エントロピー復号部３０１から入力された符号に基づいて、予測パラメータメモリ３０７に記憶された予測パラメータを参照してインター予測パラメータを復号する。

インター予測パラメータ復号部３０３は、復号したインター予測パラメータを予測画像生成部３０８に出力し、また予測パラメータメモリ３０７に記憶する。

イントラ予測パラメータ復号部３０４は、エントロピー復号部３０１から入力された符号に基づいて、予測パラメータメモリ３０７に記憶された予測パラメータを参照してイントラ予測パラメータを復号する。イントラ予測パラメータとは、CUを１つのピクチャ内で予測する処理で用いるパラメータ、例えば、イントラ予測モードIntraPredModeである。イントラ予測パラメータ復号部３０４は、復号したイントラ予測パラメータを予測画像生成部３０８に出力し、また予測パラメータメモリ３０７に記憶する。

イントラ予測パラメータ復号部３０４は、輝度と色差で異なるイントラ予測モードを導出しても良い。この場合、イントラ予測パラメータ復号部３０４は、輝度の予測パラメータとして輝度予測モードIntraPredModeY、色差の予測パラメータとして、色差予測モードIntraPredModeCを復号する。輝度予測モードIntraPredModeYは、３５モードであり、プレーナ予測（０）、DC予測（１）、方向予測（２〜３４）が対応する。色差予測モードIntraPredModeCは、プレーナ予測（０）、DC予測（１）、方向予測（２〜３４）、LMモード（３５）の何れかを用いるものである。イントラ予測パラメータ復号部３０４は、IntraPredModeCは輝度モードと同じモードであるか否かを示すフラグを復号し、フラグが輝度モードと同じモードであることを示せば、IntraPredModeCにIntraPredModeYを割り当て、フラグが輝度モードと異なるモードであることを示せば、IntraPredModeCとして、プレーナ予測（０）、DC予測（１）、方向予測（２〜３４）、LMモード（３５）を復号しても良い。

CNNフィルタ３０５は、エントロピー復号部３０１から量子化パラメータ、および予測パラメータを取得し、加算部３１２が生成したCUの復号画像を入力画像（フィルタ前画像）とし、フィルタ前画像に処理を施し、出力画像（フィルタ後画像）を出力する。CNNフィルタ３０５は、後述する画像符号化装置１１が備えるCNNフィルタ１０７と同様の機能を有する。

参照ピクチャメモリ３０６は、加算部３１２が生成したCUの復号画像を、復号対象のピクチャ及びCU毎に予め定めた位置に記憶する。

予測パラメータメモリ３０７は、予測パラメータを、復号対象のピクチャ及び予測ユニット（もしくはサブブロック、固定サイズブロック、ピクセル）毎に予め定めた位置に記憶する。具体的には、予測パラメータメモリ３０７は、インター予測パラメータ復号部３０３が復号したインター予測パラメータ、イントラ予測パラメータ復号部３０４が復号したイントラ予測パラメータ及びエントロピー復号部３０１が分離した予測モードpredModeを記憶する。記憶されるインター予測パラメータには、例えば、予測リスト利用フラグpredFlagLX（インター予測識別子inter_pred_idc）、参照ピクチャインデックスrefIdxLX、動きベクトルmvLXがある。

予測画像生成部３０８には、エントロピー復号部３０１から入力された予測モードpredModeが入力され、また予測パラメータ復号部３０２から予測パラメータが入力される。また、予測画像生成部３０８は、参照ピクチャメモリ３０６から参照ピクチャを読み出す。予測画像生成部３０８は、予測モードpredModeが示す予測モードで、入力された予測パラメータと読み出した参照ピクチャ（参照ピクチャブロック）を用いてPUもしくはサブブロックの予測画像を生成する。

ここで、予測モードpredModeがインター予測モードを示す場合、インター予測画像生成部３０９は、インター予測パラメータ復号部３０３から入力されたインター予測パラメータと読み出した参照ピクチャ（参照ピクチャブロック）を用いてインター予測によりPUもしくはサブブロックの予測画像を生成する。

インター予測画像生成部３０９は、予測リスト利用フラグpredFlagLXが１である参照ピクチャリスト（L0リスト、もしくはL1リスト）に対し、参照ピクチャインデックスrefIdxLXで示される参照ピクチャから、復号対象PUを基準として動きベクトルmvLXが示す位置にある参照ピクチャブロックを参照ピクチャメモリ３０６から読み出す。インター予測画像生成部３０９は、読み出した参照ピクチャブロックをもとに予測を行ってPUの予測画像を生成する。インター予測画像生成部３０９は、生成したPUの予測画像を加算部３１２に出力する。ここで、参照ピクチャブロックとは、参照ピクチャ上の画素の集合（通常矩形であるのでブロックと呼ぶ）であり、PUもしくはサブブロックの予測画像を生成するために参照する領域である。

予測モードpredModeがイントラ予測モードを示す場合、イントラ予測画像生成部３１０は、イントラ予測パラメータ復号部３０４から入力されたイントラ予測パラメータと読み出した参照ピクチャを用いてイントラ予測を行う。具体的には、イントラ予測画像生成部３１０は、復号対象のピクチャであって、既に復号されたPUのうち、復号対象PUから予め定めた範囲にある隣接PUを参照ピクチャメモリ３０６から読み出す。予め定めた範囲とは、復号対象PUがいわゆるラスタースキャンの順序で順次移動する場合、例えば、左、左上、上、右上の隣接PUのうちのいずれかであり、イントラ予測モードによって異なる。ラスタースキャンの順序とは、各ピクチャにおいて、上端から下端まで各行について、順次左端から右端まで移動させる順序である。

イントラ予測画像生成部３１０は、読み出した隣接PUに基づいてイントラ予測モードIntraPredModeが示す予測モードで予測を行ってPUの予測画像を生成する。イントラ予測画像生成部３１０は、生成したPUの予測画像を加算部３１２に出力する。

イントラ予測パラメータ復号部３０４において、輝度と色差で異なるイントラ予測モードを導出する場合、イントラ予測画像生成部３１０は、輝度予測モードIntraPredModeYに応じて、プレーナ予測（０）、DC予測（１）、方向予測（２〜３４）の何れかによって輝度のPUの予測画像を生成し、色差予測モードIntraPredModeCに応じて、プレーナ予測（０）、DC予測（１）、方向予測（２〜３４）、LMモード（３５）の何れかによって色差のPUの予測画像を生成する。

逆量子化・逆変換部３１１は、エントロピー復号部３０１から入力された量子化係数を逆量子化して変換係数を求める。逆量子化・逆変換部３１１は、求めた変換係数について逆DCT、逆DST、逆KLT等の逆周波数変換を行い、残差信号を算出する。逆量子化・逆変換部３１１は、算出した残差信号を加算部３１２に出力する。

加算部３１２は、インター予測画像生成部３０９またはイントラ予測画像生成部３１０から入力されたPUの予測画像と逆量子化・逆変換部３１１から入力された残差信号を画素毎に加算して、PUの復号画像を生成する。加算部３１２は、生成したPUの復号画像を参照ピクチャメモリ３０６に記憶し、生成したPUの復号画像をピクチャ毎に統合した復号画像Tdを外部に出力する。

（インター予測画像生成部３０９）
図７は、本実施形態に係る予測画像生成部３０８に含まれるインター予測画像生成部３０９の構成を示す概略図である。インター予測画像生成部３０９は、動き補償部（予測画像生成装置）３０９１、重み予測部３０９４を含んで構成される。

（動き補償）
動き補償部３０９１は、インター予測パラメータ復号部３０３から入力された、インター予測パラメータ（予測リスト利用フラグpredFlagLX、参照ピクチャインデックスrefIdxLX、動きベクトルmvLX）に基づいて、参照ピクチャメモリ３０６から、参照ピクチャインデックスrefIdxLXで指定された参照ピクチャRefXにおいて、復号対象PUの位置を起点として、動きベクトルmvLXだけずれた位置にあるブロックを読み出すことによって補間画像（動き補償画像predSamplesLX）を生成する。ここで、動きベクトルmvLXの精度が整数精度でない場合には、動き補償フィルタと呼ばれる小数位置の画素を生成するためのフィルタを施して、動き補償画像を生成する。

（重み予測）
重み予測部３０９４は、入力される動き補償画像predSamplesLXに重み係数を乗算することによりPUの予測画像を生成する。

（画像符号化装置の構成）
次に、本実施形態に係る画像符号化装置１１の構成について説明する。図４は、本実施形態に係る画像符号化装置１１の構成を示すブロック図である。画像符号化装置１１は、予測画像生成部１０１、減算部１０２、変換・量子化部１０３、エントロピー符号化部１０４、逆量子化・逆変換部１０５、加算部１０６、CNN（Convolutional Neural Network、畳み込みニューラルネットワーク）フィルタ１０７、予測パラメータメモリ（予測パラメータ記憶部、フレームメモリ）１０８、参照ピクチャメモリ（参照画像記憶部、フレームメモリ）１０９、符号化パラメータ決定部１１０、予測パラメータ符号化部１１１を含んで構成される。予測パラメータ符号化部１１１は、インター予測パラメータ符号化部１１２及びイントラ予測パラメータ符号化部１１３を含んで構成される。

予測画像生成部１０１は画像Ｔの各ピクチャについて、そのピクチャを分割した領域である符号化ユニットCU毎に予測ユニットPUの予測画像Ｐを生成する。ここで、予測画像生成部１０１は、予測パラメータ符号化部１１１から入力された予測パラメータに基づいて参照ピクチャメモリ１０９から復号済のブロックを読み出す。予測パラメータ符号化部１１１から入力された予測パラメータとは、例えばインター予測の場合、動きベクトルである。予測画像生成部１０１は、対象PUを起点として動きベクトルが示す参照画像上の位置にあるブロックを読み出す。またイントラ予測の場合、予測パラメータとは例えばイントラ予測モードである。イントラ予測モードで使用する隣接PUの画素値を参照ピクチャメモリ１０９から読み出し、PUの予測画像Pを生成する。予測画像生成部１０１は、読み出した参照ピクチャブロックについて複数の予測方式のうちの１つの予測方式を用いてPUの予測画像Ｐを生成する。予測画像生成部１０１は、生成したPUの予測画像Ｐを減算部１０２に出力する。

なお、予測画像生成部１０１は、既に説明した予測画像生成部３０８と同じ動作である。例えば、図６は、予測画像生成部１０１に含まれるインター予測画像生成部１０１１の構成を示す概略図である。インター予測画像生成部１０１１は、動き補償部１０１１１、重み予測部１０１１２を含んで構成される。動き補償部１０１１１および重み予測部１０１１２については、上述の動き補償部３０９１、重み予測部３０９４のそれぞれと同様の構成であるためここでの説明を省略する。

予測画像生成部１０１は、予測パラメータ符号化部から入力されたパラメータを用いて、参照ピクチャメモリから読み出した参照ブロックの画素値をもとにPUの予測画像Pを生成する。予測画像生成部１０１で生成した予測画像は減算部１０２、加算部１０６に出力される。

減算部１０２は、予測画像生成部１０１から入力されたPUの予測画像Ｐの信号値を、画像Ｔの対応するPUの画素値から減算して、残差信号を生成する。減算部１０２は、生成した残差信号を変換・量子化部１０３に出力する。

変換・量子化部１０３は、減算部１０２から入力された残差信号について周波数変換を行い、変換係数を算出する。変換・量子化部１０３は、算出した変換係数を量子化して量子化係数を求める。変換・量子化部１０３は、求めた量子化係数をエントロピー符号化部１０４及び逆量子化・逆変換部１０５に出力する。

エントロピー符号化部１０４には、変換・量子化部１０３から量子化係数が入力され、予測パラメータ符号化部１１１から符号化パラメータが入力される。入力される符号化パラメータには、例えば、量子化パラメータ、デプス情報（分割情報）、参照ピクチャインデックスrefIdxLX、予測ベクトルインデックスmvp_LX_idx、差分ベクトルmvdLX、予測モードpredMode、及びマージインデックスmerge_idx等の符号がある。

エントロピー符号化部１０４は、入力された量子化係数と符号化パラメータをエントロピー符号化して符号化ストリームTeを生成し、生成した符号化ストリームTeを外部に出力する。

逆量子化・逆変換部１０５は、変換・量子化部１０３から入力された量子化係数を逆量子化して変換係数を求める。逆量子化・逆変換部１０５は、求めた変換係数について逆周波数変換を行い、残差信号を算出する。逆量子化・逆変換部１０５は、算出した残差信号を加算部１０６に出力する。

加算部１０６は、予測画像生成部１０１から入力されたPUの予測画像Ｐの信号値と逆量子化・逆変換部１０５から入力された残差信号の信号値を画素毎に加算して、復号画像を生成する。加算部１０６は、生成した復号画像を参照ピクチャメモリ１０９に記憶する。

（画像フィルタ装置の構成）
CNNフィルタ１０７は、本実施形態に係る画像フィルタ装置の一例である。本実施形態に係る画像フィルタ装置は、局所復号画像に作用させるフィルタとして機能する。本実施形態に係る画像フィルタ装置は、輝度又は色差を画素値とする１又は複数の第１種の入力画像データと、予測画像及び差分画像を生成するための参照パラメータに応じた値を画素値とする１又は複数の第２種の入力画像データとが入力され、輝度又は色差を画素値とする１又は複数の第１種の出力画像データを出力するニューラルネットワークを備えている。

ここで、本明細書における参照パラメータとは、予測画像及び差分画像を生成するために参照されるパラメータのことであり、一例として、上述した符号化パラメータが含まれ得る。参照パラメータの一例を具体的に記載すれば以下の通りである。

・画像フィルタ装置が作用する画像（以下、入力画像ともよぶ）における量子化パラメータ
・入力画像におけるイントラ予測及びインター予測の種別を示すパラメータ
・入力画像におけるイントラ予測方向を示すパラメータ（イントラ予測モード）
・入力画像におけるインター予測の参照ピクチャを示すパラメータ
・入力画像におけるパーティションの分割深度を示すパラメータ
・入力画像におけるパーティションのサイズを示すパラメータ
なお、参照パラメータのことを、特に混乱がない限り、単にパラメータと呼ぶこともある。また、参照パラメータを符号化データにおいて明示的に伝送してもよい。

CNNフィルタ１０７は、加算部１０６が生成した復号画像のデータを第１種の入力画像（フィルタ前画像）データとして入力され、フィルタ前画像に処理を施し、第１種の出力画像（フィルタ後画像）データを出力する。本実施形態に係る画像フィルタ装置は、予測パラメータ符号化部１１１もしくはエントロピー復号部３０１から、量子化パラメータ、予測パラメータを第２種の入力画像データとして取得して、フィルタ前画像に処理を施すこともできる。ここで、画像フィルタ装置によるフィルタ後の出力画像は、原画像に可能な限り一致することが期待される。

画像フィルタ装置は、符号化歪み、すなわち、ブロック歪みを低減する効果とリンギング歪みを低減する効果とを有する。

ここで、CNNとは、コンボリューション層（積和演算における重み係数及びバイアス/オフセットがピクチャ内の位置に依存しない層）を少なくとも有するニューラルネットワークの総称である。重み係数をカーネルとも呼ぶ。CNNフィルタ１０７は、コンボリューション層の他、フルコネクション層（FCN）と呼ばれる、重み計算がピクチャ内の位置に依存する層を含むことができる。また、CNNフィルタ１０７は、層に属するニューロンが、その層の一部の入力とのみ接続する構成（換言すると、ニューロンは空間的位置を有し、空間的な位置に近い入力のみと接続する構成）であるLCN(Locally Connected Networks)層も含むことができる。CNNフィルタ１０７において、コンボリューション層への入力サイズと、出力サイズとは異なってもよい。すなわち、CNNフィルタ１０７は、コンボリューションフィルタを適用する位置を移動させる場合の移動量（ステップサイズ）を１より大きくすることで、出力サイズが入力サイズよりも小さくなる層を含むことができる。また、出力サイズが入力サイズよりも大きくなるデコンボリューション層(Deconvolution)も含むことができる。デコンボリューション層は、トランスポーズコンボリューション(Transposed Convolution)とよばれる場合もある。また、CNNフィルタ１０７は、プーリング層(Pooling)、ドロップアウト(DropOut)層等を含むことができる。プーリング層は、大きな画像を小さなウィンドウに区切り、区切ったそれぞれのウィンドウに応じて最大値や平均値等の代表値を得る層であり、ドロップアウト層は、確率に応じて出力を固定値（例えば０）にすることでランダム性を追加する層である。

図８は、CNNフィルタ１０７の入出力の一例を示す概念図である。図８に示す一例において、フィルタ前画像は、輝度（Y）のチャネル、第１の色差（Cb）のチャネル、および第２の色差（Cr）のチャネルを含む３つの画像のチャネル、ならびに量子化パラメータ（QP）のチャネルを含む１つの符号化パラメータ（参照パラメータ）のチャネルを含む。また、フィルタ後画像は、処理が施された輝度（Y'）のチャネル、処理が施された色差（Cb'）のチャネル、および処理が施された色差（Cr'）のチャネルを含む３つの画像のチャネルを含む。

なお、図８はCNNフィルタ１０７の入出力の一例であって、例えば、フィルタ前画像のY（輝度）、第１の色差(Cb)、及び第２の色差（Cr）が、それぞれのチャネルに分かれて入力される構成も、当然に本実施形態の構成に含まれている。さらに、フィルタ前画像のY（輝度）と、第１の色差(Cb)及び第２の色差（Cr）とが、それぞれのチャネルに分かれて入力される構成も、当然に本実施形態の構成に含まれている。また、入力されるフィルタ前画像は、Y、Cb、Crのチャネルに限定されず、例えば、R、G、Bのチャネルや、X、Y、Zのチャネル、CMYKのチャネルであってもよい。また、輝度と色差を用いたチャネルも、Y、Cb、Crに限定されず、例えば、Y、U、Vや、Y、Pb、Prや、Y、Dz、Dxや、I、Ct、Cpと表記されるチャネルであってもよい。図３４は、CNNフィルタ１０７の入出力の他の例を示す概念図である。

図３４の（ａ）では、フィルタ前画像は、輝度(Y)及び量子化パラメータ(QP)のチャネルと、第１の色差(Cb)及び量子化パラメータ(QP)のチャネルと、第２の色差(Cr)及び量子化パラメータ(QP)のチャネルとに分かれて、CNNフィルタ１０７に入力される。CNNフィルタ１０７は、輝度(Y)及び量子化パラメータ(QP)のチャネルに処理を施し(Y')を出力するCNNフィルタ１０７−１と、第１の色差(Cb)及び量子化パラメータ(QP)のチャネルに処理を施し(U')を出力するCNNフィルタ１０７−２と、第２の色差(Cr)及び量子化パラメータ(QP)のチャネルに処理を施し(V')を出力するCNNフィルタ１０７−３とを含んで構成される。なお、参照パラメータ（符号化パラメータ）は量子化パラメータ(QP)に限定されず、１つ以上の符号化パラメータを利用することができる。また、CNNフィルタ１０７は、各々異なる手段（回路やソフトウェア）を用いて構成されたCNNフィルタ１０７−１、CNNフィルタ１０７−２、CNNフィルタ１０７−３を含む構成に限定されない。例えば、CNNフィルタ１０７が、複数の異なる手段（回路やソフトウェア）のうち１つの手段によって構成された上で、異なるモードで動作する構成であってもよい。

また、図３４の（ｂ）では、フィルタ前画像は、輝度(Y)及び量子化パラメータ(QP)のチャネルと、第１の色差(Cb)、第２の色差(Cr)、及び量子化パラメータ(QP)のチャネルとに分かれて、CNNフィルタ１０７に入力される。CNNフィルタ１０７は、輝度(Y)及び量子化パラメータ(QP)のチャネルに処理を施し(Y')を出力するCNNフィルタ１０７−４と、第１の色差(Cb)、第２の色差(Cr)、及び量子化パラメータ(QP)のチャネルに処理を施し(U', V')を出力するCNNフィルタ１０７−５とを含んで構成される。なお、参照パラメータ（符号化パラメータ）は量子化パラメータ(QP)に限定されず、１つ以上の符号化パラメータを利用することができる。また、CNNフィルタ１０７は、各々異なる手段（回路やソフトウェア）を用いて構成されたCNNフィルタ１０７−４、CNNフィルタ１０７−５を含む構成に限定されない。例えば、CNNフィルタ１０７が、複数の異なる手段（回路やソフトウェア）のうち１つの手段によって構成された上で、異なるモードで動作する構成であってもよい。この構成は、輝度と参照パラメータをインターリーブした画像（入力）に対して処理を行い、第１の色差と第２の色差と参照パラメータをインターリーブした画像（入力）に対して処理を行う場合に用いられる。

図３４の（ｂ）に示す構成では、輝度(Y)の処理と、色差の処理（第１の色差(Cb)及び第２の色差(Cr)をインターリーブしたチャネルの処理）とは、それぞれ異なるCNNフィルタ１０７において処理される。この構成では、輝度(Y)と第１の色差(Cb)及び第２の色差(Cr)との解像度が異なる場合であっても、第１の色差(Cb)及び第２の色差(Cr)のインターリーブでは演算量が多くならない。また、CNNフィルタ１０７は輝度(Y)と色差（第１の色差(Cb)および第２の色差(Cr)）とを別々に処理することができるので、輝度と色差の並列処理が可能である。また、情報量が増える、すなわち、色差を処理する場合に第１の色差と第２の色差と符号化パラメータとを同時に利用可能であるので、図３４の（ｂ）に示す構成ではCNNフィルタ107の精度を上げることができる。

図９は、本実施形態に係るCNNフィルタ１０７の構成の一例を示す概略図である。CNNフィルタ１０７は、複数のconvX層を含んでいる。

ここで、本実施形態において、convX層は、下記の構成の少なくとも何れかを含むことができる。

（１）conv(x)：フィルタをかける処理（convolution）を実施する構成
（２）act(conv(x))：convolutionの後にactivation（非線形関数、例えば、sigmoid, tanh, relu, elu、seluなど）を実施する構成
（３）batch_norm(act(conv(x)))：convolutionとactivationの後にバッチノーマライゼーション（入力のレンジの正規化）を実施する構成
（４）act(batch_norm(conv(x)))：convolutionとactivationの間にバッチノーマライゼーション（入力のレンジの正規化）を実施する構成
（５）pooling：conv層間で情報の圧縮、ダウンサイジングを実施する構成
またCNNフィルタ１０７は、convX層の他に、次の層の少なくとも何れかを含む構成であってもよい。

（５）pooling：conv層間で情報の圧縮、ダウンサイジングを実施する構成
（６）add/sub：要素単位で加算する構成（減算する構成を含む）
（７）concatenate/stack：複数の入力を積み上げて新たな大きな入力を構成する構成
（８）fcn：フルコネクトされたフィルタを実施する構成
（９）lcn：一部コネクトされたフィルタを実施する構成
図９に示す例においては、CNNフィルタ１０７は、３つのconvX層（conv1，conv2，conv3）とadd層とを含む。入力されるフィルタ前画像は、(N1+N2)xH1xW1のサイズを有する。ここで、N1は画像のチャネル数を示す。例えば、フィルタ前画像が輝度（Y）のチャネルのみを含む場合は、N1は「１」である。Y、Cb、Crのチャネルを含む場合にはN1は「３」である。R, G, Bのチャネルを含む場合にはN1は「３」である。W1はピクチャの幅パッチサイズであり、H1はピクチャの高さパッチサイズである。N2は符号化パラメータのチャネル数を示す。例えば、符号化パラメータが量子化パラメータ（QP）のチャネルのみを含む場合は、N2は「１」である。add層を備える構成は、フィルタ後画像とフィルタ前画像の差分（residual）をCNNフィルタで予測する構成であり、特に、CNN層が深くなる構成で有効であることが知られている。なお、residualを導出する層を複数重ねるResNetと呼ばれる構成が知られているように、add層は１つに限定されず複数のadd層があっても良い。

また、後述のようにネットワークは分岐を含んでいてもよく、また分岐した入力や出力を束ね合わせるConcatenate層を備えていても良い。例えばN1xH1xW1のデータとN2xH1xW1のデータをConcatenateすると、(N1+N2)xH1xW1のデータになる。

CNNフィルタ１０７の１つ目のconv層であるconv1は、(N1+N2)xH1xW1のデータが入力され、Nconv1xH1xW1のデータを出力する。CNNフィルタ１０７の２つ目のconv層であるconv2は、Nconv1xH1xW1のデータが入力され、Nconv2xH1xW1のデータを出力する。CNNフィルタ１０７の３つ目のconv層であるconv3は、Nconv2xH1xW1のデータが入力され、N1xH1xW1のデータを出力する。add層であるaddは、conv層の出力であるN1xH1xW1のデータとN1xH1xW1のフィルタ前画像とが画素ごとに加算され、N1xH1xW1のデータを出力する。

図９に示すように、ピクチャのチャネル数は、CNNフィルタ１０７により処理が施されることで、N1+N2からN1に減少する。なお、本実施形態においてCNNフィルタ１０７は、チャネルファースト（チャネル×高さ×幅）のデータ形式で処理をするが、チャネルラスト（高さ×幅×チャネル）のデータ形式で処理をしてもよい。

なお、CNNフィルタ１０７は、コンボリューション層により出力サイズを減少させた後、デコンボリューション層により出力サイズを大きくし、元に戻すようなオートエンコーダ層を設けることもできる。複数のコンボリューション層から構成される深いネットワークは、DNN（Deep Neural Network）と呼ばれることもある。画像フィルタ装置は、ネットワークの出力の一部を再度ネットワークに入力させるようなRNN（Recurrent Neural Network）を有することもできる。RNNにおいて、再入力する情報はそのネットワークの内部状態と考えることができる。

画像フィルタ装置は、再入力情報（内部状態）の更新や伝達を制御するために、さらにニューラルネットワークのサブネットワークを利用するLSTM（Long Short-Term Memory）やGRU（Gated Recurrent Unit）を構成要素として複数組み合わせることができる。

フィルタ前画像の符号化パラメータのチャネルとして、量子化パラメータ（ＱＰ）のチャネルに加え、分割情報（PartDepth）のチャネル、予測モード情報（PredMode）のチャネルを追加することができる。

（量子化パラメータ（QP））
量子化パラメータ（QP）は、画像の圧縮率と画質とを制御するパラメータである。本実施形態において量子化パラメータ（QP）は、値が大きいほど画質が低くなり符号量が減少する特性、および値が小さいほど画質が高くなり符号量が増加する特性を有する。量子化パラメータ（QP）として、例えば、予測残差の量子化幅を導出するパラメータを用いることができる。

ピクチャ単位の量子化パラメータ（QP）としては、処理対象フレームの代表的な１個の量子化パラメータ（QP）を入力することができる。例えば、量子化パラメータ（QP）は、対象ピクチャに適用されるパラメータセットにより指定されることができる。また、量子化パラメータ（QP）は、ピクチャの構成要素に適用される量子化パラメータ（QP）に基づいて算出されることができる。具体的には、スライスに適用される量子化パラメータ（QP）の平均値に基づいて、量子化パラメータ（QP）を算出することができる。

また、ピクチャを分割した単位の量子化パラメータ（QP）としては、所定の基準でピクチャを分割した単位毎の量子化パラメータ（QP）を入力することができる。例えば、量子化パラメータ（QP）を、スライス毎に適用することができる。また、量子化パラメータ（QP）を、スライス内のブロックに適用することができる。また、量子化パラメータ（QP）を、既存の符号化単位から独立した領域単位（例えば、ピクチャを16x9個に分割して得られる各領域）で指定することができる。この場合、量子化パラメータ（QP）が、スライス数や変換ユニット数に依存するため、領域に対応する量子化パラメータ（QP）の値が不定になり、CNNフィルタが構成できないため、領域内の量子化パラメータ（QP）の平均値を代表値として用いる方法が考えられる。また、領域内の一つの位置の量子化パラメータ（QP）を代表値として用いる方法もある。また、領域内の複数の位置の量子化パラメータ（QP）の中央値（median）や最頻値(mode)を代表値として用いる方法もある。

また、特定の個数の量子化パラメータ（QP）を入力する場合としては、量子化パラメータ（QP）の個数が一定になるように、量子化パラメータ（QP）のリストを生成してCNNフィルタへ入力してもよい。例えば、スライス毎の量子化パラメータ（QP）のリストを作成し、最大値、最小値、中央値の３個の量子化パラメータ（QP）のリストを作成して入力する方法が考えられる。

また、コンポーネント単位の量子化パラメータ（QP）としては、処理対象のコンポーネントに適用する量子化パラメータ（QP）を入力することができる。この量子化パラメータ（QP）の例として、輝度量子化パラメータ（QP）、色差量子化パラメータ（QP）を挙げることができる。

また、ブロック単位でCNNフィルタを適用する場合、周辺量子化パラメータ（QP）として、対象ブロックの量子化パラメータ（QP）とブロック周辺の量子化パラメータ（QP）をを入力してもよい。

CNNフィルタ１０７を、ピクチャ、および符号化パラメータに応じて設計することができる。すなわち、CNNフィルタ１０７を、方向性、アクティビティ等の画像データから導出可能なピクチャ特性だけでなく、符号化パラメータに応じて設計することができるので、CNNフィルタ１０７は、符号化パラメータ毎に異なる強度のフィルタを実現することができる。したがって、本実施形態はCNNフィルタ１０７を備えるので、符号化パラメータ毎に異なるネットワークを導入することなく、符号化パラメータに応じた処理をすることができる。

図１０は、本実施形態に係る画像フィルタ装置の構成の変形例を示す概略図である。図１０に示すように、画像フィルタ装置であるCNNフィルタは、add層を含まず、convX層のみを含んでいてもよい。add層を含まない本変形例においても、CNNフィルタは、N1*H1*W1のデータを出力する。

図１１を参照して、参照パラメータが量子化パラメータ（QP）の一例を説明する。図１１の（ａ）に示す量子化パラメータ（QP）は、変換ユニットの単位領域（または量子化パラメータ（QP）が同じ単位領域）で配置されている。図１１の（ａ）に示す量子化パラメータ（QP）を、例えば画素等の単位領域で入力した場合を図１１の（ｂ）に示す。画素単位で入力すると、各画素に直接対応する量子化パラメータ（QP）を処理に利用でき、各画素に応じた処理をすることができる。また、量子化パラメータ（QP）の変化位置から、変換ユニットの境界が分かり、同一変換ユニット内であるか、隣接する異なる変換ユニットの画素であるかの情報をフィルタ処理に利用することができる。また、画素値の変化だけでなく量子化パラメータ（QP）の変化の大きさを利用することができる。例えば、量子化パラメータ（QP）が平坦か、ゆっくり変化するか、急峻に変化するか、連続的に変化しているか等の情報を利用することができる。また、CNNフィルタ１０７に入力する前に平均値０、分散１に近くなるように正規化や標準化を行ってもよい。これは、量子化パラメータ以外の符号化パラメータや画素値でも同様である。

図１２は、参照パラメータが予測パラメータの一例を示す。予測パラメータは、イントラ予測、またはインター予測であることを示す情報、インター予測である場合には予測に利用する参照ピクチャの数を示す予測モードを含む。

図１２の（ａ）に示す予測パラメータは、符号化ユニット（予測ユニット）単位で配置されている。図１２の（ａ）に示す予測パラメータを、画素等の単位領域で入力した場合を図１２の（ｂ）に示す。図１１の（ｂ）に示す例と同様に、画素単位で入力すると、各画素に空間的に直接対応する予測パラメータを処理に利用でき、各画素に応じた処理をすることができる。つまり(x, y)座標の画素値である(R, G, B)や(Y, Cb, Cr)と同時に(x, y)座標の予測パラメータを利用することができる。また、予測パラメータの変化位置から、符号化ユニットの境界が分かり、同一符号化ユニット内であるか、隣接する異なる符号化ユニットの画素であるかの情報をフィルタ処理に利用することができる。また、画素値の変化だけでなく予測パラメータの変化の大きさを利用することができる。例えば、予測パラメータが平坦か、ゆっくり変化するか、急峻に変化するか、連続的に変化しているか等の情報を利用することができる。なお、予測パラメータに割り当てる値は、近い性質の予測モードに近い値を割り当てるのであれば、図１２の（ｂ）に示す数字の例に限らない。例えば、イントラ予測に「−２」を割り当て、単予測に「２」を割り当て、双予測に「４」を割り当ててもよい。

図１３を参照して、イントラ予測の予測モードの定義について説明する。図１３は、予測モードの定義を示している。同図に示すように、輝度画素には６７種類の予測モードが定義されており、それぞれの予測モードは、「０」〜「６６」の番号（イントラ予測モードインデックス）によって特定される。また、各予測モードには次のような名称が割り当てられている。すなわち、「０」は、“Planar（平面予測）”であり、「１」は、“DC(ＤＣ予測)”であり、「２」〜「６６」は、“Angular（方向予測）”である。色差画素の場合は、“Planar（平面予測）”、“VER（垂直予測）”、“HOR（水平予測）”、“DC（ＤＣ予測）”、“VDIR(45度予測)”、LM予測（色差予測モード）、およびDM予測（輝度のイントラ予測モードを流用)が使用可能である。LM予測は、輝度の予測に基づいた色差の線形予測である。言い換えれば、LM予測は、輝度画素値と色差画素値との相関を利用した予測である。

図１４は、参照パラメータが輝度画素のイントラ予測パラメータの一例を示す。イントラ予測パラメータは、各パーティション毎に定まる予測パラメータの値を含む。イントラ予測パラメータは、例えば、イントラ予測モード等を含むことができる。

図１４の（ａ）に示すイントラ予測パラメータは、符号化ユニット（予測ユニット）単位で配置されている。図１４の（ａ）に示す予測パラメータを、画素等の単位領域で入力した場合を図１４の（ｂ）に示す。図１１の（ｂ）に示す例と同様に、画素単位で入力すると、各画素に直接対応するイントラ予測パラメータを処理に利用でき、各画素に応じた処理をすることができる。また、イントラ予測パラメータの変化位置から、符号化ユニットの境界が分かり、同一符号化ユニットであるか、隣接する異なる符号化ユニットの画素であるかの情報を利用することができる。また、画素値の変化だけでなくイントラ予測パラメータの変化の大きさを利用することができる。例えば、イントラ予測パラメータがゆっくり変化するか、急峻に変化するか、連続的に変化しているか等の情報を利用することができる。

図１５は、参照パラメータが、デプス情報（分割情報）の一例を示す。デプス情報は、各パーティション毎に、変換ユニットに応じて定まる。デプス情報は、例えば、符号化ユニットの分割回数に応じて定まり、符号化ユニットの大きさに対応する。

図１５の（ａ）に示すデプス情報は、符号化ユニット（予測ユニット単位）で配置されている。図１５の（ａ）に示すデプス情報を、画素等の単位領域で入力した場合を図１５の（ｂ）に示す。図１１の（ｂ）に示す例と同様に、画素単位で入力すると、各画素に直接対応するデプス情報を処理に利用でき、各画素に応じた処理をすることができる。また、デプス情報の変化位置から、符号化ユニットの境界が分かり、同一符号化ユニットであるか、隣接する異なる符号化ユニットの画素であるかの情報を利用することができる。また、画素値の変化だけでなくデプス情報の変化の大きさを利用することができる。例えば、デプス情報がゆっくり変化するか、急峻に変化するか、連続的に変化しているか等の情報を利用することができる。

また、デプス情報の代わりにパーティションの水平サイズと垂直サイズを示すサイズ情報を用いてもよい。

図１６は、参照パラメータがパーティションの水平サイズと垂直サイズを含むサイズ情報である一例を示す。図１６に示す例では、単位領域毎に２つの情報、すなわち水平サイズと垂直サイズの情報を入力する。図１６の例では、パーティションの水平サイズW（幅）と垂直サイズH（高さ）の２の対数値に所定のオフセット(-2)を加えた数であるlog2(W) -2,log2(H)-2を、参照パラメータに用いている。例えば(1,1)、(2,1)、(0,0)、(2,0)、(1,2)、(0,1)のパーティションサイズ(W, H)は各々(8,8)、(16,8)、(4,4)、(16,4)、(8,16)、(4,8)である。

図１６に示す例でのパーティションサイズは、変換ユニットの水平および垂直方向の分割回数を示す値Dの２の対数値を所定の値から減算した値（3-log2(D)）と考えることもできる。

図１６の（ａ）に示すサイズ情報は、変換ブロック単位で配置されている。図１６の（ａ）に示すサイズ情報を、画素等の単位領域で入力した場合を図１６の（ｂ）に示す。図１６の（ｂ）に示す例においても、図１５の（ｂ）に示す例と同様の効果を奏する。

図１７は、符号化パラメータが複数の予測パラメータからなる他の一例を示す。図１７に示す例では、予測モードに加え、参照ピクチャ情報を予測パラメータに含めている。

図１７の（ａ）に示す予測パラメータは、変換ブロック単位で配置されている。図１７の（ａ）に示す予測パラメータを、画素等の単位領域で入力した場合を図１７の（ｂ）に示す。図１７の（ｂ）に示す例においても、図１２の（ｂ）に示す例と同様の効果を奏する。

（CNNフィルタの学習方法）
CNNフィルタ１０７は、訓練データ、および誤差関数を用いて学習する。

CNNフィルタ１０７の訓練データとして、上述したフィルタ前画像、参照パラメータと原画像のセットを入力することができる。また、CNNフィルタ１０７から出力されるフィルタ後画像は、ある参照パラメータにおいて原画像との誤差を最小化させることが期待される。

また、CNNフィルタ１０７の誤差関数として、CNNフィルタ１０７によりフィルタ処理が施されたフィルタ後画像の、原画像に対する誤差を評価する関数（例えば、平均絶対値誤差mean absolute errorや平均二乗誤差mean square error）を用いることができる。画像の誤差に加え、パラメータの大きさを正則化項として誤差関数に加えて用いることもできる。正則化ではパラメータの絶対値、２乗値、その両方を用いることができる（各々、lasso、ridge、elasticnetと呼ばれる）。

さらに、後述するように、CNNパラメータを伝送する方式では、CNNパラメータの符号量をさらに誤差関数の誤差に加えてもよい。

画像の良さを評価する別のCNNネットワークを用いて、学習させることもできる。この場合、評価対象となるCNNフィルタ１０７（Generator）の出力を異なる評価用CNNネットワーク(Discriminator)に直列に入力し、評価用CNNネットワークの評価値を最小化（もしくは最大化）させる。CNNフィルタ１０７の学習と同時に、評価用CNNネットワークを学習させることも適当である。生成用と評価用の２つのネットワークを同時に学習させる方法は、Generative Adversarial Networks (GAN)と呼ばれる。

なお、画像復号装置３１のCNNフィルタ３０５は、画像符号化装置１１のCNNフィルタ１０７と同様の方法により学習が行われる。なお、画像符号化装置１１と画像復号装置３１の両者で同じCNNフィルタを用いる構成においては、２つのCNNフィルタのCNNパラメータは同一とする。

予測パラメータメモリ１０８は、符号化パラメータ決定部１１０が生成した予測パラメータを、符号化対象のピクチャ及びCU毎に予め定めた位置に記憶する。

参照ピクチャメモリ１０９は、CNNフィルタ１０７が生成した復号画像を、符号化対象のピクチャ及びCU毎に予め定めた位置に記憶する。

符号化パラメータ決定部１１０は、符号化パラメータの複数のセットのうち、１つのセットを選択する。符号化パラメータとは、上述した予測パラメータやこの予測パラメータに関連して生成される符号化の対象となるパラメータである。予測画像生成部１０１は、これらの符号化パラメータのセットの各々を用いてPUの予測画像Ｐを生成する。

符号化パラメータ決定部１１０は、複数のセットの各々について情報量の大きさと符号化誤差を示すコスト値を算出する。コスト値は、例えば、符号量と二乗誤差に係数λを乗じた値との和である。符号量は、量子化誤差と符号化パラメータをエントロピー符号化して得られる符号化ストリームTeの情報量である。二乗誤差は、減算部１０２において算出された残差信号の残差値の二乗値についての画素間の総和である。係数λは、予め設定されたゼロよりも大きい実数である。符号化パラメータ決定部１１０は、算出したコスト値が最小となる符号化パラメータのセットを選択する。これにより、エントロピー符号化部１０４は、選択した符号化パラメータのセットを符号化ストリームTeとして外部に出力し、選択されなかった符号化パラメータのセットを出力しない。符号化パラメータ決定部１１０は決定した符号化パラメータを予測パラメータメモリ１０８に記憶する。

予測パラメータ符号化部１１１は、符号化パラメータ決定部１１０から入力されたパラメータから、符号化するための形式を導出し、エントロピー符号化部１０４に出力する。符号化するための形式の導出とは、例えば動きベクトルと予測ベクトルから差分ベクトルを導出することである。また予測パラメータ符号化部１１１は、符号化パラメータ決定部１１０から入力されたパラメータから予測画像を生成するために必要なパラメータを導出し、予測画像生成部１０１に出力する。予測画像を生成するために必要なパラメータとは、例えばサブブロック単位の動きベクトルである。

インター予測パラメータ符号化部１１２は、符号化パラメータ決定部１１０から入力された予測パラメータに基づいて、差分ベクトルのようなインター予測パラメータを導出する。インター予測パラメータ符号化部１１２は、予測画像生成部１０１に出力する予測画像の生成に必要なパラメータを導出する構成として、インター予測パラメータ復号部３０３（図５等、参照）がインター予測パラメータを導出する構成と一部同一の構成を含む。

イントラ予測パラメータ符号化部１１３は、符号化パラメータ決定部１１０から入力されたイントラ予測モードIntraPredModeから、符号化するための形式（例えばMPM_idx、rem_intra_luma_pred_mode等）を導出する。

（第２の実施形態）
本発明の他の実施形態について、図１８に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。CNNフィルタのネットワーク構成は様々な形式が考えられる。図１８に示す第２の実施形態は、第１の実施形態で説明したネットワーク構成（図９、図１０）とは、別のネットワーク構成のCNNフィルタの例を示すものであり、第１の実施形態と同じ効果を有する。

本実施形態においては、図１８に示すように、CNNフィルタ１０７ａは、２つのconvX層（コンボリューション層）conv1，conv2と、プーリング層poolingと、Deconv層（デコンボリューション層）conv3とを含む。convX層conv1，conv2は、コンボリューション層であり、Deconv層conv3は、デコンボリューション層である。プーリング層pooling は、convX層conv2とconvX層conv3との間に配置される。

入力されるフィルタ前画像は、(N1+N2)*H1*W1のサイズを有する。本実施形態においても、N1は画像のチャネル数を示す。W1はピクチャの幅パッチサイズであり、H1はピクチャの高さパッチサイズである。N2は符号化パラメータのチャネル数を示す。

CNNフィルタ１０７ａの１つ目のconvX層であるconv1は、(N1+N2)*H1*W1のデータが入力され、Nconv1*H1*W1のデータを出力する。CNNフィルタ１０７ａの２つ目のconvX層であるconv2は、Nconv1*H1*W1のデータが入力され、Nconv2*H1*W1のデータを出力する。convX層conv2の後段のプーリング層poolingは、Nconv2*H1*W1のデータが入力され、Nconv2*H2*W2のデータを出力する。すなわち、プーリング層poolingは、convX層conv2から出力された高さ*幅がH1*W1のサイズのデータを、H2*W2のサイズのデータに変換する。プーリング層poolingの後段のDeconv層conv3は、Nconv2*H2*W2のデータが入力され、N1*H1*W1のデータを出力する。すなわち、Deconv層conv3は、プーリング層poolingから出力された高さ*幅がH2*W2のサイズのデータを、H1*W1のサイズのデータに戻す。ここではトランスポーズコンボリューション(Transposed Convolution)を用いる。

なお、本実施形態においても、画像復号装置におけるCNNフィルタは、画像符号化装置におけるCNNフィルタ１０７ａと同様の機能を有する。

また、本実施形態においても、実施形態１における図３４の（ａ）のように、フィルタ前画像は、輝度(Y)及び量子化パラメータ(QP)のチャネルと、第１の色差(Cb)及び量子化パラメータ(QP)のチャネルと、第２の色差(Cr)及び量子化パラメータ(QP)のチャネルとに分かれて、CNNフィルタ１０７ａに入力される構成であってもよい。また、実施形態１における図３４の（ｂ）のように、フィルタ前画像は、輝度(Y)及び量子化パラメータ(QP)のチャネルと、第１の色差(Cb)、第２の色差(Cr)、及び量子化パラメータ(QP)のチャネルとに分かれて、CNNフィルタ１０７ａに入力される構成であってもよい。すなわち、CNNフィルタ１０７ａは、輝度と参照パラメータとをインターリーブした画像（入力）に対してフィルタ処理を行い、第１の色差と第２の色差と参照パラメータとをインターリーブした画像（入力）に対してフィルタ処理を行う構成であってもよい。なお、参照パラメータ（符号化パラメータ）は量子化パラメータ(QP)に限定されず、CNNフィルタ１０７ａは１つ以上の符号化パラメータを利用することができる。

第２の実施形態の構成によれば、コンボリューション層及びプーリング層で縮小したデータをトランスプーリング層で拡大する一種のオートエンコーダ型のネットワーク構成を用いることによって、上位概念的な特徴量を考慮したフィルタ処理を行うことができる。すなわち、符号化パラメータに応じたフィルタ処理を行う場合に、エッジや色を統合したより上位の特徴量を考慮してフィルタ強度を変更することができる。

（第３の実施形態）
本発明の他の実施形態について、図１９〜２０に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。

本実施形態においては、図１９に示すように、CNNフィルタ１０７ｂは、第１のCNNフィルタ１０７ｂ１と第２のCNNフィルタ１０７ｂ２とを含む。第１のCNNフィルタ１０７ｂ１には、フィルタ前画像が入力される。第１のCNNフィルタ１０７ｂ１は、方向性やアクティビティ等の特徴を抽出する。第２のCNNフィルタ１０７ｂ２には、第１のCNNフィルタ１０７ｂ１により処理が施されたデータと、符号化パラメータとして量子化パラメータ（QP）とが入力される。

すなわち、第１のCNNフィルタ１０７ｂ１は、第２のニューラルネットワークである第２のCNNフィルタ１０７ｂ２に入力される第１種の入力画像データを出力画像とする。

第２のCNNフィルタ１０７ｂ２は、抽出された特徴に重み付けを施すフィルタ処理を施す。第２のCNNフィルタ１０７ｂ２は、符号化パラメータを利用してどのように重み付けてフィルタ処理するかを制御する。第２のCNNフィルタ１０７ｂ２から、フィルタ後画像が出力される。

第１のCNNフィルタ１０７ｂ１は、上述したCNNフィルタ１０７とは異なり、輝度（Y）のチャネル、第１の色差（Cb）のチャネル、および第２の色差（Cr）のチャネルを含む３つのチャネルから構成されるフィルタ前画像が入力され、輝度、２つの色差を含む３つのチャネルから構成されるフィルタ後画像を出力する。なお、フィルタ前画像、フィルタ後画像のチャネルは、Y, Cb, Crに限定されずR, G, Bでも良いし、さらにalphaやデプスを加えても良い。

なお、第２のCNNフィルタ１０７ｂ２には、量子化パラメータ(QP)に加えて、予測パラメータ等の他の符号化パラメータを入力してもよい。なお、当然のことであるが、量子化パラメータ(QP)に加えて、予測パラメータ等の他の符号化パラメータを入力する構成は、本実施形態に限らず、他の実施形態においても同様である。

また、本実施形態においても、実施形態１における図３４の（ａ）のように、フィルタ前画像は、輝度(Y)のチャネルと、第１の色差(Cb)のチャネルと、第２の色差(Cr)のチャネルとに分かれて、CNNフィルタ１０７ｂ１に入力される構成であってもよい。また、実施形態１における図３４の（ｂ）のように、フィルタ前画像は、輝度(Y)のチャネルと、第１の色差(Cb)及び第２の色差(Cr)のチャネルとに分かれて、CNNフィルタ１０７ｂ１に入力される構成であってもよい。すなわち、CNNフィルタｂ１は、輝度と参照パラメータをインターリーブした画像（入力）に対してフィルタ処理を行い、第１の色差と第２の色差と参照パラメータをインターリーブした画像（入力）に対してフィルタ処理を行う構成であってもよい。なお、参照パラメータ（符号化パラメータ）は量子化パラメータ(QP)に限定されず、CNNフィルタｂ１は１つ以上の符号化パラメータを利用することができる。

図２０は、本実施形態に係るCNNフィルタ１０７ｂの構成を示す概略図である。図２０に示すように、第１のCNNフィルタ１０７ｂ１は、２つのconvX層（conv1，conv2）を含む。第２のCNNフィルタ１０７ｂ２は、２つのconvX層（conv3，conv4）とConcatenate層とを含む。

第１のCNNフィルタ１０７ｂ１のconv1は、N1*H1*W1のデータが入力され、Nconv1*H1*W1のデータを出力する。第１のCNNフィルタ１０７ｂ１のconv2は、Nconv1*H1*W1のデータが入力され、画像処理結果のNconv2*H1*W1のデータを出力する。

第２のCNNフィルタ１０７ｂ２のconv4は、N2*H1*W1のデータが入力され、Nconv4*H1*W1のデータを出力する。第２のCNNフィルタ１０７ｂ２のConcatenate層は、画像処理結果とconv4により処理が施された符号化パラメータと(Nconv2+Nconv4)*H1*W1が入力され、各々を連結し、Nconv3*H1*W1のデータを出力する。第２のCNNフィルタ１０７ｂ２のconv3は、Nconv3*H1*W1のデータが入力され、N1*H1*W1のデータを出力する。

図２１は、本実施形態に係る画像フィルタ装置の構成の変形例を示す概略図である。図２１に示すように、CNNフィルタ１０７ｃの第２のCNNフィルタ１０７ｃ２は、add層を含んでいてもよい。add層は、第２のCNNフィルタ１０７ｂ２のconv3が出力したN1*H1*W1のデータ、およびN1*H1*W1の画像データを入力し、N1*H1*W1のデータを出力する。

なお、本実施形態においても、画像復号装置におけるCNNフィルタは、画像符号化装置におけるCNNフィルタ１０７ｂ、１０７ｃと同様の機能を有する。

第３の実施形態の構成によれば、画像データの入力と、符号化データの入力を別のネットワークで行う。このような構成にすることによって、画像データの入力サイズと符号化データの入力サイズを異なるものとすることができる。また、画像データのみに特化したネットワークCNN1を用いることで、学習が容易になるだけでなく、全体のネットワーク構成を小さなものとすることができる。さらに符号化パラメータを入力するCNN2のネットワークによって、第１のCNNフィルタCNN1で導出したデータであるフィルタ後画像や特徴抽出に対して符号化パラメータを用いて重み付けやさらなる特徴抽出を行うことができ、より高度なフィルタ処理を行うことができる。

（第４の実施形態）
本発明の他の実施形態について、図２２に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。

本実施形態においては、図２２に示すように、CNNフィルタ１０７ｄは、ｎ＋１個のCNNフィルタCNN0、CNN1、…、CNNnを含む、複数の個別ニューラルネットワークである１段目のCNNフィルタ１０７ｄ１と、セレクタ１０７ｄ２と、共通ニューラルネットワークである２段目のCNNフィルタ１０７ｄ３とを含む。

１段目のCNNフィルタ１０７ｄ１において、CNNフィルタCNN0は、上述したCNNフィルタ１０７ｂ１と同様の構成であるが、FP1よりも小さい値を有するフィルタパラメータFPに対して最適化されたフィルタである。また、CNNフィルタCNN1は、FP1以上でFP2よりも小さい値を有するフィルタパラメータFPに対して最適化されたフィルタである。また、CNNフィルタCNNnは、FPn以上の値を有するフィルタパラメータFPに対して最適化されたフィルタである。

１段目のCNNフィルタ１０７ｄ１に含まれるCNNフィルタCNN0、CNN1、…、CNNnの各々は、フィルタ処理を施した画像をセレクタ１０７ｄ２に出力する。セレクタ１０７ｄ２は、フィルタパラメータFPが入力され、入力されたフィルタパラメータFPに応じて、２段目のCNNフィルタ１０７ｄ３に出力するフィルタ処理が施された画像を選択する。したがって、２段目のCNNフィルタ１０７ｄ３には、セレクタ１０７ｄ２に入力されたフィルタパラメータFPに対し最適なフィルタによってフィルタ処理が施された画像が入力される。換言すれば、本実施形態における個別ニューラルネットワークは、画像フィルタ装置への入力画像データにおけるフィルタパラメータの値に応じて、入力画像データに対して選択的に作用する。

なお、CNNフィルタを選択するフィルタパラメータFPは、明示的に符号化データにおいて符号化しても良いし、符号化パラメータから導出してもよい。例えば、符号化パラメータの一つである量子化パラメータの代表値（平均値など）からフィルタパラメータFPを導出してもよい。

２段目のCNNフィルタ１０７ｄ３は、入力画像にフィルタ処理を施し、フィルタ後画像を出力する。換言すれば、本実施形態における共通ニューラルネットワークは、個別ニューラルネットワークの出力画像データに対して、フィルタパラメータの値によらずに共通に作用する。

なお、セレクタ１０７ｄ２が選択に用いるフィルタパラメータFPは入力画像における量子化パラメータ（QP）の代表値に限らない。フィルタパラメータFPは、符号化データにおいて明示的に伝送しても良い。また、フィルタパラメータFPとして、入力画像における量子化パラメータの他に、入力画像におけるイントラ予測及びインター予測の種別を示すパラメータ、入力画像におけるイントラ予測方向を示すパラメータ（イントラ予測モード）、入力画像におけるパーティションの分割深度（デプス情報、分割情報）を示すパラメータ、入力画像におけるパーティションのサイズを示すパラメータを挙げることができる。なお、これらのパラメータにおいても、特定位置の値（左上や中央）、平均値、最小値、最大値、中央値、最頻値などの代表値を用いてもよい。

図２３は、本実施形態に係る画像フィルタ装置の構成の変形例を示す概略図である。図２３に示すように、CNNフィルタ１０７ｅは、ｎ＋１個のCNNフィルタCNN0、CNN1、…、CNNnを含む、複数の個別ニューラルネットワークであるCNNフィルタ１０７ｅ２、およびセレクタ１０７ｅ３は、共通ニューラルネットワークであるCNNフィルタ１０７ｅ１の後段に配置することもできる。この場合、CNNフィルタ１０７ｅ１は、CNNフィルタ１０７ｅへの入力画像データに作用し、CNNフィルタ１０７ｅ２は、入力画像データにおけるフィルタパラメータの値に応じて、CNNフィルタ１０７ｅ１の出力画像データに対して選択的に作用する。また、セレクタ１０７ｅ３がフィルタ後画像を出力する。

なお、本実施形態においても、画像復号装置におけるCNNフィルタは、画像符号化装置におけるCNNフィルタと同様の機能を有する。

第４の実施形態の構成によれば、フィルタパラメータFPの大きさに応じてネットワークを切り替える部分（１０７ｅ２）と、フィルタパラメータの大きさによらずに同じネットワークを用いる部分（１０７ｅ１）を用いることで、フィルタ全体を量子化パラメータなどの符号化パラメータで切り替える構成に比べてネットワーク構成を小さくできる。ネットワーク構成が小さいほうが演算量が小さく高速であることに加え、学習パラメータが頑強で多くの入力画像に対して適当なフィルタ処理ができる効果がある。

なお、本実施形態においても、実施形態１における図３４の（ａ）のように、フィルタ前画像は、輝度(Y)のチャネルと、第１の色差(Cb)のチャネルと、第２の色差(Cr)のチャネルとに分かれて、CNNフィルタ１０７ｄ１に入力される構成であってもよい。また、実施形態１における図３４の（ｂ）のように、フィルタ前画像は、輝度(Y)のチャネルと、第１の色差(Cb)及び第２の色差(Cr)のチャネルとに分かれて、CNNフィルタ１０７ｄ１に入力される構成であってもよい。すなわち、CNNフィルタｄ１は、輝度と参照パラメータをインターリーブした画像（入力）に対してフィルタ処理を行い、第１の色差と第２の色差と参照パラメータをインターリーブした画像（入力）に対してフィルタ処理を行ってもよい。なお、参照パラメータ（符号化パラメータ）は量子化パラメータ(QP)に限定されず、CNNフィルタｄ１は１つ以上の符号化パラメータを利用することができる。

（第５の実施形態）
本発明の他の実施形態について、図２４に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。

本実施形態においては、図２４に示すように、CNNフィルタ１０７ｆは、ｎ＋１個のCNNフィルタCNN0、CNN1、…、CNNnを含む１段目のCNNフィルタ１０７ｆ１と、セレクタ１０７ｆ２と、２段目のCNNフィルタ１０７ｆ３とを含む。

１段目のCNNフィルタ１０７ｆ１において、CNNフィルタCNN1は、QP1Lよりも大きくQP1Hよりも小さい値を有する量子化パラメータ（QP）に対して最適化されたフィルタである。また、CNNフィルタCNN2は、QP2Lよりも大きくQP2Hよりも小さい値を有する量子化パラメータ（QP）に対して最適化されたフィルタである。また、CNNフィルタCNN3は、QP3Lよりも大きくQP3Hよりも小さい値を有する量子化パラメータ（QP）に対して最適化されたフィルタである。また、CNNフィルタCNN4は、QP4Lよりも大きくQP4Hよりも小さい値を有する量子化パラメータ（QP）に対して最適化されたフィルタである。他のCNNフィルタも同様のフィルタである。

閾値QP1L、QP1H、…QP4L、QP4Hの具体例として、QP1L=0、QP1H=18、QP2L=12、QP2H=30、QP3L=24、QP3H=42、QP4L=36、QP4H=51の値を割り当てることができる。

この場合、例えば、量子化パラメータ（QP）が10であれば、セレクタ１０７ｆ２はCNNフィルタCNN1を選択する。また、量子化パラメータ（QP）が15であれば、セレクタ１０７ｆ２はCNNフィルタCNN1とCNNフィルタCNN2を選択する。また、量子化パラメータ（QP）が20であれば、セレクタ１０７ｆ２はCNNフィルタCNN2を選択する。また、量子化パラメータ（QP）が25であれば、セレクタ１０７ｆ２はCNNフィルタCNN2, CNNフィルタCNN3を選択する。また、量子化パラメータ（QP）が30であれば、セレクタ１０７ｆ２はCNNフィルタCNN3を選択する。

２段目のCNNフィルタ１０７ｆ３は、セレクタ１０７ｆ２が１種類のCNNフィルタを選択した場合は、入力画像をフィルタ後画像として出力し、セレクタ１０７ｆ２が２種類のCNNフィルタを選択した場合は、２つの入力画像の平均値をフィルタ後画像として出力する。

なお、本実施形態においても、画像復号装置におけるCNNフィルタは、画像符号化装置におけるCNNフィルタ１０７ｆと同様の機能を有する。

第５の実施形態の構成によれば、量子化パラメータQPの大きさに応じてネットワークを切り替える部分（１０７ｆ１）と、量子化パラメータQPの大きさによらずに同じネットワークを用いる部分（１０７ｆ２）を用いることで、フィルタ全体を量子化パラメータなどの符号化パラメータで切り替える構成に比べてネットワーク構成を小さくできる。ネットワーク構成が小さいほうが演算量が小さく高速であることに加え、学習パラメータが頑強で多くの入力画像に対して適当なフィルタ処理ができる効果がある。また、各CNNフィルタの最適化の範囲を重複させたことで、フィルタを切り替えた時にパッチの境界で視覚的なひずみが現れることを回避することができる。

（第６の実施形態）
本発明の他の実施形態について、図２５に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。

上述したように、画像フィルタ装置は、ブロック歪みを低減する機能とリンギング歪みを低減するフィルタとを利用してもよい。また、ブロック歪みを低減するデブロッキングフィルタ（DF：Deblocking Filter）や、リンギング歪みを低減するサンプルアダプティブオフセット（SAO：Sample Adaptive Offset）などの別のフィルタと処理を併用してもよい。

本実施形態では、デブロッキングフィルタ（DF）の処理と、サンプルアダプティブオフセット（SAO）の処理とCNNフィルタを併用する構成を説明する。

（第１の例）
図２５の（ａ）に本実施形態の第１の例を示す。第１の例では、画像フィルタ装置１０７ｇは、CNNフィルタ１０７ｇ１とサンプルアダプティブオフセット（SAO）１０７ｇ２とを含む。CNNフィルタ１０７ｇ１は、ブロック歪みを低減するフィルタとして機能する。

（第２の例）
図２５の（ｂ）に本実施形態の第２の例を示す。第２の例では、画像フィルタ装置１０７ｈは、デブロッキングフィルタ（DF）１０７ｈ１とCNNフィルタ１０７ｇ２とを含む。CNNフィルタ１０７ｈ２は、デブロッキングフィルタの後段でさらにリンギングノイズを低減するフィルタとして機能する。

（第３の例）
図２５の（ｃ）に本実施形態の第３の例を示す。第３の例では、画像フィルタ装置１０７ｉは、第１のCNNフィルタ１０７ｉ１と第２のCNNフィルタ１０７ｉ２とを含む。第１のCNNフィルタ１０７ｉ１は、ブロック歪みを低減するフィルタとして機能し、第２のCNNフィルタ１０７ｉ２は、ブロック歪みを低減するフィルタの後段でさらにリンギングノイズを低減するフィルタとして機能する。

なお、何れの例においても、画像復号装置におけるCNNフィルタは画像符号化装置におけるCNNフィルタと同様の機能を有する。

また、本実施形態における画像フィルタ装置１０７ｇ〜画像フィルタ装置１０７ｉに入力されるフィルタ前画像は、他の実施形態と同様に、輝度（Y）のチャネル、第１の色差（Cb）のチャネル、および第２の色差（Cr）のチャネルを含む３つの画像のチャネル、ならびに量子化パラメータ（QP）のチャネルを含む１つの符号化パラメータ（参照パラメータ）のチャネルを含む画像であってもよい。また、図３４の（ａ）のように、フィルタ前画像は、輝度(Y)及び量子化パラメータ(QP)のチャネルと、第１の色差(Cb)及び量子化パラメータ(QP)のチャネルと、第２の色差(Cr)及び量子化パラメータ(QP)のチャネルとに分かれて、画像フィルタ装置１０７ｇ〜画像フィルタ装置１０７ｉに入力される構成であってもよい。また、図３４の（ｂ）のように、フィルタ前画像は、輝度(Y)及び量子化パラメータ(QP)のチャネルと、第１の色差(Cb)、第２の色差(Cr)、及び量子化パラメータ(QP)のチャネルとに分かれて、画像フィルタ装置１０７ｇ〜画像フィルタ装置１０７ｉに入力される構成であってもよい。すなわち、画像フィルタ装置１０７ｇ〜画像フィルタ装置１０７ｉは、輝度と参照パラメータをインターリーブした画像（入力）に対してフィルタ処理を行い、第１の色差と第２の色差と参照パラメータをインターリーブした画像（入力）に対してフィルタ処理を行ってもよい。なお、参照パラメータ（符号化パラメータ）は量子化パラメータ(QP)に限定されず、画像フィルタ装置１０７ｇ〜画像フィルタ装置１０７ｉは１つ以上の符号化パラメータを利用することができる。

（第７の実施形態）
本発明の他の実施形態について、図２６〜図３０に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。

図２６は、本実施形態に係る画像符号化装置の構成を示すブロック図である。本実施形態に係る画像符号化装置１１ｊは、CNNフィルタ１０７ｊが、CNNパラメータを取得し、取得したCNNパラメータを用いてフィルタ処理をする点において上記実施形態と異なる。また、CNNフィルタ１０７ｊが用いるCNNパラメータは、シーケンス単位、ピクチャ単位等で動的に更新される点において上記実施形態と異なる。上記実施形態においては、CNNパラメータは、予め定められた固定値であり、更新されない。

本実施形態に係る画像符号化装置１１ｊは、図２６に示すように、図４に示す画像符号化装置１１が備える構成に加え、CNNパラメータ決定部１１４、CNNパラメータ符号化部１１５、および多重化部１１６を備えている。

CNNパラメータ決定部１１４は、画像Ｔ（入力画像）、および加算部１０６の出力（フィルタ前画像）を取得し、入力画像とフィルタ前画像との差異が小さくなるようにニューラルネットワークパラメータであるCNNパラメータを更新する。

図２７は、CNNフィルタ１０７ｊの構成の一例を示す概略図である。上述した通り、CNNフィルタは、convX層等の複数の層を含み、図２７に示すCNNフィルタ１０７ｊは３層を含んでいる。各層はレイヤIDにより識別できる。図２７に示すCNNフィルタ１０７ｊにおいて、入力側の層のレイヤIDはL-2であり、真中の層のレイヤIDはL-1であり、出力側の層のレイヤIDはLである。

また、各層は、複数のユニットを含み、各々のユニットはユニットIDにより識別できる。真中の層L-1の一番上のユニットのユニットIDは(L-1, 0)であり、出力側の層Lの上のユニットのユニットIDは(L, 0)であり、出力側の層Lの下のユニットのユニットIDは(L, 1)である。図２７に示すように、各層のユニットの各々は、次の層のユニットと接続している。図２７において、ユニット同士の接続は矢印で示している。また、各々の接続の重みは異なり、重み係数により制御される。

CNNパラメータ決定部１１４は、重み係数とバイアス（オフセット）の両方を含むフィルタ係数を出力する。また、CNNパラメータ決定部１１４は、CNNパラメータとして、識別子を出力する。CNNフィルタが複数のCNN層から構成される場合は、識別子はCNN層を識別するCNN IDである。また、CNN層がレイヤID、ユニットIDで識別される場合は、識別子はレイヤID、ユニットIDである。

また、CNNパラメータ決定部１１４は、CNNパラメータとして、ユニット構造を示すデータを出力する。ユニットの構造を示すデータとしては、例えば3*3等のフィルタサイズをあげることができる。フィルタサイズを示すデータは、フィルタサイズを可変にする場合にCNNパラメータとして出力する。フィルタサイズを固定した場合には、フィルタサイズを示すデータの出力は不要である。

CNNパラメータ決定部１１４は、全てのパラメータを更新する全部更新、または一部のレイヤのユニットのパラメータを更新する部分更新を行う。CNNパラメータ決定部１１４は、更新内容を差分として出力するか否かを示すデータを、CNNパラメータに付加して出力する。

CNNパラメータ決定部１１４は、例えばフィルタ係数等のCNNパラメータ値をそのまま出力することができる。また、CNNパラメータ決定部１１４は、例えば、更新前のCNNパラメータ値との差分、デフォルト値との差分等、差分パラメータ値を出力することができる。また、CNNパラメータ決定部１１４は、CNNパラメータ値を所定の方式で圧縮して出力することができる。

図２８を参照して、層、ユニットの構成と、CNNパラメータ（フィルタ係数、重み係数）の更新とについて説明する。

各層において、層の入力値Z^(L-1) _ijkと、L層のパラメータ（フィルタ係数）h_pqr、h₀との積和を活性化関数（図２８に示す式（１））に渡し、活性化関数（１）を適用した値Z^L _ijkを次の層に出力する。ここで、Nは層の入力のチャネル数であり、Wは層の入力の幅であり、Hは層の入力の高さである。また、kNはカーネル（フィルタ）の入力チャネル数であり、基本的にNと等しい。また、kWはカーネルの幅であり、kHはカーネルの高さである。

本実施形態において、CNNパラメータ決定部１１４は、CNNパラメータ（フィルタ係数）h_pqr、h₀の少なくとも一部を動的に更新できる。

本実施形態においては、CNNパラメータは、ネットワーク抽象レイヤ（NAL）構造のデータにより伝送される。図２９の（ａ）は、本実施形態におけるNAL構造のデータのシーケンスSEQを既定する符号化ビデオシーケンスを示す。本実施形態において、シーケンスSEQに含まれるシーケンスパラメータセットSPS（Sequence Parameter Set）は、更新種別（一部/全部/差分か否か等を示す）、CNNのレイヤID（L）、CNNのユニットID（m）、L層、ユニットIDmのフィルタサイズ（kW*kH）、フィルタ係数（h_pqr、h₀）等の、画像シーケンス全体に適用する更新パラメータを伝送する。また、シーケンスSEQに含まれるピクチャパラメータセットPPS（Picture Parameter Set）は、更新種別（一部/全部/差分か否か等を示す）、レイヤID（L）、ユニットID（m）、フィルタサイズ（kW*kH）、フィルタ係数（h_pqr、h₀）等の、あるピクチャに適用する更新パラメータを伝送する。

また、図２９の（ｂ）に示すように、シーケンスは複数のピクチャを含む。CNNパラメータ決定部１１４は、シーケンス単位でCNNパラメータを出力することができる。この場合、シーケンス全体のCNNパラメータを更新することができる。また、CNNパラメータ決定部１１４は、ピクチャ単位で出力することができる。この場合、ある時間のCNNパラメータを更新することができる。

なお、図２７〜２９を参照して説明した事項は、符号化側、復号側共通の事項であり、後述するCNNフィルタ３０５ｊについても同様である。また、図２７〜２９を参照して説明した事項は、画像符号化装置１１ｊのCNNフィルタ１０７ｊに出力されるCNNパラメータにも適用されるし、画像復号装置３１ｊのCNNフィルタ３０５ｊに出力されるCNNパラメータにも適用される。

また、本実施形態におけるCNNフィルタ１０７ｊに入力されるフィルタ前画像は、他の実施形態と同様に、輝度（Y）のチャネル、第１の色差（Cb）のチャネル、および第２の色差（Cr）のチャネルを含む３つの画像のチャネル、ならびに量子化パラメータ（QP）のチャネルを含む１つの符号化パラメータのチャネルを含む画像であってもよい。また、図３４の（ａ）のように、フィルタ前画像は、輝度(Y)及び量子化パラメータ(QP)のチャネルと、第１の色差(Cb)及び量子化パラメータ(QP)のチャネルと、第２の色差(Cr)及び量子化パラメータ(QP)のチャネルとに分かれて、CNNフィルタ１０７ｊに入力される構成であってもよい。また、図３４の（ｂ）のように、フィルタ前画像は、輝度(Y)及び量子化パラメータ(QP)のチャネルと、第１の色差(Cb)、第２の色差(Cr)、及び量子化パラメータ(QP)のチャネルとに分かれて、CNNフィルタ１０７ｊに入力される構成であってもよい。すなわち、CNNフィルタ１０７ｊは、輝度と参照パラメータをインターリーブした画像（入力）に対してフィルタ処理を行い、第１の色差と第２の色差と参照パラメータをインターリーブした画像（入力）に対してフィルタ処理を行ってもよい。なお、参照パラメータ（符号化パラメータ）は量子化パラメータ(QP)に限定されず、CNNフィルタ１０７ｊは１つ以上の符号化パラメータを利用することができる。

CNNパラメータ符号化部１１５は、CNNパラメータ決定部１１４が出力するCNNパラメータを取得し、CNNパラメータを符号化して多重化部１１６に出力する。

多重化部１１６は、エントロピー符号化部１０４が出力した符号化データと、CNNパラメータ符号化部１１５が符号化したCNNパラメータとを多重化してストリームを生成し、ストリームを外部に出力する。

図３０は、本実施形態に係る画像復号装置の構成を示すブロック図である。本実施形態に係る画像復号装置３１ｊは、CNNフィルタ３０５ｊが、CNNパラメータを取得し、取得したCNNパラメータを用いてフィルタ処理をする。また、CNNフィルタ３０５ｊが用いるCNNパラメータは、シーケンス単位、ピクチャ単位等で動的に更新される。

本実施形態に係る画像復号装置３１ｊは、図３０に示すように、図５に示す画像復号装置３１が備える構成に加え、逆多重化部３１３、およびCNNパラメータ復号部３１４を備えている。

逆多重化部３１３は、ストリームを入力し、符号化データと、符号化されたCNNパラメータとに逆多重化する。

CNNパラメータ復号部３１４は、符号化されたCNNパラメータを復号し、CNNフィルタ３０５ｊに出力する。

なお、上述した実施形態における画像符号化装置１１、画像復号装置３１の一部、例えば、エントロピー復号部３０１、予測パラメータ復号部３０２、CNNフィルタ３０５、予測画像生成部３０８、逆量子化・逆変換部３１１、加算部３１２、予測画像生成部１０１、減算部１０２、変換・量子化部１０３、エントロピー符号化部１０４、逆量子化・逆変換部１０５、CNNフィルタ１０７、符号化パラメータ決定部１１０、予測パラメータ符号化部１１１をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、画像符号化装置１１、画像復号装置３１のいずれかに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

また、上述した実施形態における画像符号化装置１１、画像復号装置３１の一部、または全部を、LSI（Large Scale Integration）等の集積回路として実現しても良い。画像符号化装置１１、画像復号装置３１の各機能ブロックは個別にプロセッサ化しても良いし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

〔応用例〕
上述した画像符号化装置１１及び画像復号装置３１は、動画像の送信、受信、記録、再生を行う各種装置に搭載して利用することができる。なお、動画像は、カメラ等により撮像された自然動画像であってもよいし、コンピュータ等により生成された人工動画像（CGおよびGUIを含む）であってもよい。

まず、上述した画像符号化装置１１及び画像復号装置３１を、動画像の送信及び受信に利用できることを、図３１を参照して説明する。

図３１の（ａ）は、画像符号化装置１１を搭載した送信装置PROD_Aの構成を示したブロック図である。図３１の（ａ）に示すように、送信装置PROD_Aは、動画像を符号化することによって符号化データを得る符号化部PROD_A1と、符号化部PROD_A1が得た符号化データで搬送波を変調することによって変調信号を得る変調部PROD_A2と、変調部PROD_A2が得た変調信号を送信する送信部PROD_A3と、を備えている。上述した画像符号化装置１１は、この符号化部PROD_A1として利用される。

送信装置PROD_Aは、符号化部PROD_A1に入力する動画像の供給源として、動画像を撮像するカメラPROD_A4、動画像を記録した記録媒体PROD_A5、動画像を外部から入力するための入力端子PROD_A6、及び、画像を生成または加工する画像処理部Ａ７を更に備えていてもよい。図３１の（ａ）においては、これら全てを送信装置PROD_Aが備えた構成を例示しているが、一部を省略しても構わない。

なお、記録媒体PROD_A5は、符号化されていない動画像を記録したものであってもよいし、伝送用の符号化方式とは異なる記録用の符号化方式で符号化された動画像を記録したものであってもよい。後者の場合、記録媒体PROD_A5と符号化部PROD_A1との間に、記録媒体PROD_A5から読み出した符号化データを記録用の符号化方式に従って復号する復号部（不図示）を介在させるとよい。

図３１の（ｂ）は、画像復号装置３１を搭載した受信装置PROD_Bの構成を示したブロック図である。図３１の（ｂ）に示すように、受信装置PROD_Bは、変調信号を受信する受信部PROD_B1と、受信部PROD_B1が受信した変調信号を復調することによって符号化データを得る復調部PROD_B2と、復調部PROD_B2が得た符号化データを復号することによって動画像を得る復号部PROD_B3と、を備えている。上述した画像復号装置３１は、この復号部PROD_B3として利用される。

受信装置PROD_Bは、復号部PROD_B3が出力する動画像の供給先として、動画像を表示するディスプレイPROD_B4、動画像を記録するための記録媒体PROD_B5、及び、動画像を外部に出力するための出力端子PROD_B6を更に備えていてもよい。図３１の（ｂ）においては、これら全てを受信装置PROD_Bが備えた構成を例示しているが、一部を省略しても構わない。

なお、記録媒体PROD_B5は、符号化されていない動画像を記録するためのものであってもよいし、伝送用の符号化方式とは異なる記録用の符号化方式で符号化されたものであってもよい。後者の場合、復号部PROD_B3と記録媒体PROD_B5との間に、復号部PROD_B3から取得した動画像を記録用の符号化方式に従って符号化する符号化部（不図示）を介在させるとよい。

なお、変調信号を伝送する伝送媒体は、無線であってもよいし、有線であってもよい。また、変調信号を伝送する伝送態様は、放送（ここでは、送信先が予め特定されていない送信態様を指す）であってもよいし、通信（ここでは、送信先が予め特定されている送信態様を指す）であってもよい。すなわち、変調信号の伝送は、無線放送、有線放送、無線通信、及び有線通信の何れによって実現してもよい。

例えば、地上デジタル放送の放送局（放送設備など）／受信局（テレビジョン受像機など）は、変調信号を無線放送で送受信する送信装置PROD_A／受信装置PROD_Bの一例である。また、ケーブルテレビ放送の放送局（放送設備など）／受信局（テレビジョン受像機など）は、変調信号を有線放送で送受信する送信装置PROD_A／受信装置PROD_Bの一例である。

また、インターネットを用いたVOD（Video On Demand）サービスや動画共有サービスなどのサーバ（ワークステーションなど）／クライアント（テレビジョン受像機、パーソナルコンピュータ、スマートフォンなど）は、変調信号を通信で送受信する送信装置PROD_A／受信装置PROD_Bの一例である（通常、ＬＡＮにおいては伝送媒体として無線または有線の何れかが用いられ、ＷＡＮにおいては伝送媒体として有線が用いられる）。ここで、パーソナルコンピュータには、デスクトップ型PC、ラップトップ型PC、及びタブレット型PCが含まれる。また、スマートフォンには、多機能携帯電話端末も含まれる。

なお、動画共有サービスのクライアントは、サーバからダウンロードした符号化データを復号してディスプレイに表示する機能に加え、カメラで撮像した動画像を符号化してサーバにアップロードする機能を有している。すなわち、動画共有サービスのクライアントは、送信装置PROD_A及び受信装置PROD_Bの双方として機能する。

次に、上述した画像符号化装置１１及び画像復号装置３１を、動画像の記録及び再生に利用できることを、図３２を参照して説明する。

図３２の（ａ）は、上述した画像符号化装置１１を搭載した記録装置PROD_Cの構成を示したブロック図である。図３２の（ａ）に示すように、記録装置PROD_Cは、動画像を符号化することによって符号化データを得る符号化部PROD_C1と、符号化部PROD_C1が得た符号化データを記録媒体PROD_Mに書き込む書込部PROD_C2と、を備えている。上述した画像符号化装置１１は、この符号化部PROD_C1として利用される。

なお、記録媒体PROD_Mは、（１）HDD（Hard Disk Drive）やSSD(Solid State Drive)などのように、記録装置PROD_Cに内蔵されるタイプのものであってもよいし、（２）SDメモリカードやUSB（Universal Serial Bus）フラッシュメモリなどのように、記録装置PROD_Cに接続されるタイプのものであってもよいし、（３）DVD（Digital Versatile Disc）やBD（Blu-ray Disc:登録商標）などのように、記録装置PROD_Cに内蔵されたドライブ装置（不図示）に装填されるものであってもよい。

また、記録装置PROD_Cは、符号化部PROD_C1に入力する動画像の供給源として、動画像を撮像するカメラPROD_C3、動画像を外部から入力するための入力端子PROD_C4、動画像を受信するための受信部PROD_C5、及び、画像を生成または加工する画像処理部PROD_C6を更に備えていてもよい。図３２の（ａ）においては、これら全てを記録装置PROD_Cが備えた構成を例示しているが、一部を省略しても構わない。

なお、受信部PROD_C5は、符号化されていない動画像を受信するものであってもよいし、記録用の符号化方式とは異なる伝送用の符号化方式で符号化された符号化データを受信するものであってもよい。後者の場合、受信部PROD_C5と符号化部PROD_C1との間に、伝送用の符号化方式で符号化された符号化データを復号する伝送用復号部（不図示）を介在させるとよい。

このような記録装置PROD_Cとしては、例えば、DVDレコーダ、BDレコーダ、HDD（Hard Disk Drive）レコーダなどが挙げられる（この場合、入力端子PROD_C4または受信部PROD_C5が動画像の主な供給源となる）。また、カムコーダ（この場合、カメラPROD_C3が動画像の主な供給源となる）、パーソナルコンピュータ（この場合、受信部PROD_C5または画像処理部Ｃ６が動画像の主な供給源となる）、スマートフォン（この場合、カメラPROD_C3または受信部PROD_C5が動画像の主な供給源となる）なども、このような記録装置PROD_Cの一例である。

図３２の（ｂ）は、上述した画像復号装置３１を搭載した再生装置PROD_Dの構成を示したブロックである。図３２の（ｂ）に示すように、再生装置PROD_Dは、記録媒体PROD_Mに書き込まれた符号化データを読み出す読出部PROD_D1と、読出部PROD_D1が読み出した符号化データを復号することによって動画像を得る復号部PROD_D2と、を備えている。上述した画像復号装置３１は、この復号部PROD_D2として利用される。

なお、記録媒体PROD_Mは、（１）HDDやSSDなどのように、再生装置PROD_Dに内蔵されるタイプのものであってもよいし、（２）SDメモリカードやUSBフラッシュメモリなどのように、再生装置PROD_Dに接続されるタイプのものであってもよいし、（３）DVDやBDなどのように、再生装置PROD_Dに内蔵されたドライブ装置（不図示）に装填されるものであってもよい。

また、再生装置PROD_Dは、復号部PROD_D2が出力する動画像の供給先として、動画像を表示するディスプレイPROD_D3、動画像を外部に出力するための出力端子PROD_D4、及び、動画像を送信する送信部PROD_D5を更に備えていてもよい。図３２の（ｂ）においては、これら全てを再生装置PROD_Dが備えた構成を例示しているが、一部を省略しても構わない。

なお、送信部PROD_D5は、符号化されていない動画像を送信するものであってもよいし、記録用の符号化方式とは異なる伝送用の符号化方式で符号化された符号化データを送信するものであってもよい。後者の場合、復号部PROD_D2と送信部PROD_D5との間に、動画像を伝送用の符号化方式で符号化する符号化部（不図示）を介在させるとよい。

このような再生装置PROD_Dとしては、例えば、DVDプレイヤ、BDプレイヤ、HDDプレイヤなどが挙げられる（この場合、テレビジョン受像機等が接続される出力端子PROD_D4が動画像の主な供給先となる）。また、テレビジョン受像機（この場合、ディスプレイPROD_D3が動画像の主な供給先となる）、デジタルサイネージ（電子看板や電子掲示板等とも称され、ディスプレイPROD_D3または送信部PROD_D5が動画像の主な供給先となる）、デスクトップ型PC（この場合、出力端子PROD_D4または送信部PROD_D5が動画像の主な供給先となる）、ラップトップ型またはタブレット型PC（この場合、ディスプレイPROD_D3または送信部PROD_D5が動画像の主な供給先となる）、スマートフォン（この場合、ディスプレイPROD_D3または送信部PROD_D5が動画像の主な供給先となる）なども、このような再生装置PROD_Dの一例である。

（ハードウェア的実現およびソフトウェア的実現）
また、上述した画像復号装置３１および画像符号化装置１１の各ブロックは、集積回路（ICチップ）上に形成された論理回路によってハードウェア的に実現してもよいし、CPU（Central Processing Unit）を用いてソフトウェア的に実現してもよい。

後者の場合、上記各装置は、各機能を実現するプログラムの命令を実行するCPU、上記プログラムを格納したROM（Read Only Memory）、上記プログラムを展開するRAM（RandomAccess Memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の実施形態の目的は、上述した機能を実現するソフトウェアである上記各装置の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記各装置に供給し、そのコンピュータ（またはCPUやMPU）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ類、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやCD-ROM（Compact Disc Read-Only Memory）／MOディスク（Magneto-Optical disc）／MD（Mini Disc）／DVD（Digital Versatile Disc）／CD-R（CD Recordable）／ブルーレイディスク（Blu-ray Disc：登録商標）等の光ディスクを含むディスク類、ICカード（メモリカードを含む）／光カード等のカード類、マスクROM／EPROM（Erasable Programmable Read-Only Memory）／EEPROM（Electrically Erasable and Programmable Read-Only Memory：登録商標）／フラッシュROM等の半導体メモリ類、あるいはPLD（Programmable logic device）やFPGA（Field Programmable Gate Array）等の論理回路類などを用いることができる。

また、上記各装置を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN（Local Area Network）、ISDN（Integrated Services Digital Network）、VAN（Value-Added Network）、CATV（Community Antenna television/Cable Television）通信網、仮想専用網（Virtual Private Network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE（Institute of Electrical and Electronic Engineers）1394、USB、電力線搬送、ケーブルＴＶ回線、電話線、ADSL（Asymmetric Digital Subscriber Line）回線等の有線でも、IrDA（Infrared Data Association）やリモコンのような赤外線、BlueTooth（登録商標）、IEEE802.11無線、HDR（High Data Rate）、NFC（Near Field Communication）、DLNA（Digital Living Network Alliance：登録商標）、携帯電話網、衛星回線、地上デジタル放送網等の無線でも利用可能である。なお、本発明の実施形態は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明の実施形態は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

〔まとめ〕
本発明の態様１に係る画像フィルタ装置（CNNフィルタ１０７，３０５）は、輝度又は色差を画素値とする１又は複数の第１種の入力画像データと、予測画像及び差分画像を生成するための参照パラメータに応じた値を画素値とする１又は複数の第２種の入力画像データとが入力され、輝度又は色差を画素値とする１又は複数の第１種の出力画像データを出力するニューラルネットワークを備えている。

上記の構成によれば、入力画像データに対し、画像特性に応じたフィルタを適用することができる。

本発明の態様２に係る画像フィルタ装置（CNNフィルタ１０７，３０５）は、上記態様１において、上記ニューラルネットワークが用いるニューラルネットワークパラメータを更新するパラメータ決定部（CNNパラメータ決定部１１４）をさらに備えていてもよい。

上記の構成によれば、ニューラルネットワークが用いるパラメータが更新できる。

本発明の態様３に係る画像フィルタ装置（CNNフィルタ１０７，３０５）は、上記態様１または２において、上記参照パラメータには、当該画像フィルタ装置が作用する画像における量子化パラメータが含まれていてもよい。

本発明の態様４に係る画像フィルタ装置（CNNフィルタ１０７，３０５）は、上記態様１から３において、上記参照パラメータには、当該画像フィルタ装置が作用する画像におけるイントラ予測及びインター予測の種別を示すパラメータが含まれていてもよい。

本発明の態様５に係る画像フィルタ装置（CNNフィルタ１０７，３０５）は、上記態様１から４において、上記参照パラメータには、当該画像フィルタ装置が作用する画像におけるイントラ予測方向を示すパラメータ（イントラ予測モード）が含まれていてもよい。

本発明の態様６に係る画像フィルタ装置（CNNフィルタ１０７，３０５）は、上記態様１から４において、上記参照パラメータには、当該画像フィルタ装置が作用する画像におけるパーティションの分割深度を示すパラメータが含まれていてもよい。

本発明の態様７に係る画像フィルタ装置（CNNフィルタ１０７，３０５）は、上記態様１から６において、上記参照パラメータには、当該画像フィルタ装置が作用する画像におけるパーティションのサイズを示すパラメータが含まれていてもよい。

本発明の態様８に係る画像フィルタ装置（CNNフィルタ１０７，３０５）は、上記態様１から７において、上記ニューラルネットワークに入力される上記第１種の入力画像データを出力画像とする第２のニューラルネットワークを備えていてもよい。

本発明の態様９に係る画像フィルタ装置（CNNフィルタ１０７、３０５）において、上記態様１から８における上記ニューラルネットワークは、第１の色差（Cb）と第２の色差（Cr）とを画素値とする上記第１種の入力画像データと、上記第２種の入力画像データとを入力とし、第１の色差（Cb）と第２の色差（Cr）とを画素値とする第１種の出力画像データを出力してもよい。

本発明の態様１０に係る画像フィルタ装置（CNNフィルタ１０７、３０５）において、上記態様１から８における上記ニューラルネットワークは、輝度を画素値とする上記第１種の入力画像データと、上記第２種の入力画像データとが入力され、輝度を画素値とする第１種の出力画像データを出力する手段と、第１の色差と第２の色差を画素値とする上記第１種の入力画像データと、上記第２種の入力画像データとが入力され、第１の色差と第２の色差とを画素値とする第１種の出力画像データを出力する手段とを備えていてもよい。

本発明の態様１１に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｆ）は、複数の個別ニューラルネットワーク（１０７ｄ１，１０７ｆ１）と、共通ニューラルネットワーク（１０７ｄ３，１０７ｆ３）とを備え、上記個別ニューラルネットワーク（１０７ｄ１，１０７ｆ１）は、当該画像フィルタ装置（１０７）への入力画像データにおけるフィルタパラメータの値に応じて、当該入力画像データに対して選択的に作用し、上記共通ニューラルネットワーク（１０７ｄ３，１０７ｆ３）は、上記個別ニューラルネットワークの出力画像データに対して、上記フィルタパラメータの値によらずに共通に作用する。

上記の構成によれば、画像データに、フィルタパラメータの値によるフィルタ処理と、フィルタパラメータの値によらないフィルタ処理の両方を施すことができる。

本発明の態様１２に係る画像フィルタ装置（CNNフィルタ１０７ｅ）は、複数の個別ニューラルネットワーク（１０７ｅ２）と、共通ニューラルネットワーク（１０７ｅ１）とを備え、上記共通ニューラルネットワーク（１０７ｅ１）は、当該画像フィルタ装置（１０７）への入力画像データに作用し、上記個別ニューラルネットワーク（１０７ｅ２）は、上記入力画像データにおけるフィルタパラメータの値に応じて、上記共通ニューラルネットワークの出力画像データに対して選択的に作用する。

上記の構成によれば、態様３と同様の効果を奏する。

本発明の態様１３に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様１１または１２において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像における量子化パラメータであってよい。

上記の構成によれば、画像に応じたフィルタパラメータを用いることができる。

本発明の態様１４に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様１１または１２において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるイントラ予測及びインター予測の種別を示すパラメータであってよい。

本発明の態様１５に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様１１または１２において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるイントラ予測方向を示すパラメータ（イントラ予測モード）であってよい。

本発明の態様１６に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様１１または１２において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるパーティションの分割深度を示すパラメータであってよい。

本発明の態様１７に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様１１または１２において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるパーティションのサイズを示すパラメータであってよい。

本発明の態様１８に係る画像復号装置（３１，３１ｊ）は、画像を復号する画像復号装置であって、復号画像に作用させるフィルタとして態様１〜１５の画像フィルタ装置を備えている。

本発明の態様１９に係る画像符号化装置（１１，１１ｊ）は、画像を符号化する画像符号化装置であって、局所復号画像に作用させるフィルタとして態様１〜１５の画像フィルタ装置を備えている。

また、本発明の態様１３〜１７は、以下の構成であってもよい。

本発明の態様１３に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様９または１０において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像における量子化パラメータの平均値であってよい。

上記の構成によれば、画像全体に応じたフィルタパラメータを用いることができる。

本発明の態様１４に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様９または１０において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるイントラ予測及びインター予測の種別を示すパラメータの平均値であってよい。

本発明の態様１５に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様９または１０において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるイントラ予測方向を示すパラメータ（イントラ予測モード）の平均値であってよい。

本発明の態様１６に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様９または１０において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるパーティションの分割深度を示すパラメータの平均値であってよい。

本発明の態様１７に係る画像フィルタ装置（CNNフィルタ１０７ｄ，１０７ｅ，１０７ｆ）は、上記態様９または１０において、上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるパーティションのサイズを示すパラメータの平均値であってよい。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明の実施形態は、画像データが符号化された符号化データを復号する画像復号装置、および、画像データが符号化された符号化データを生成する画像符号化装置に好適に適用することができる。また、画像符号化装置によって生成され、画像復号装置によって参照される符号化データのデータ構造に好適に適用することができる。
〔関連出願の相互参照〕
本出願は、２０１７年８月１０日に出願された出願番号２０１７−１５５９０３号、２０１８年３月２０日に出願された出願番号２０１８−０５３２２６号の出願に関するものであって上記出願を基礎として優先権を主張するものである。上記出願の内容は、参照により本明細書に含まれる。

１１画像符号化装置
３１画像復号装置
１０７ CNNフィルタ（画像フィルタ装置）
１１４ CNNパラメータ決定部（パラメータ決定部）

Claims

画像フィルタ装置において、
輝度又は色差を画素値とする１又は複数の第１種の入力画像データと、予測画像又は差分画像を生成するための参照パラメータに応じた値を画素値とする１又は複数の第２種の入力画像データとが入力され、輝度又は色差を画素値とする１又は複数の第１種の出力画像データを出力するニューラルネットワークを備えることを特徴とする画像フィルタ装置。
上記ニューラルネットワークが用いるニューラルネットワークパラメータを更新するパラメータ決定部をさらに備えることを特徴とする請求項１に記載の画像フィルタ装置。
上記参照パラメータには、当該画像フィルタ装置が作用する画像における量子化パラメータが含まれることを特徴とする請求項１または２に記載の画像フィルタ装置。
上記参照パラメータには、当該画像フィルタ装置が作用する画像におけるイントラ予測及びインター予測の種別を示すパラメータが含まれることを特徴とする請求項１から３の何れか１項に記載の画像フィルタ装置。
上記参照パラメータには、当該画像フィルタ装置が作用する画像におけるイントラ予測方向を示すパラメータ（イントラ予測モード）が含まれることを特徴とする請求項１から４の何れか１項に記載の画像フィルタ装置。
上記参照パラメータには、当該画像フィルタ装置が作用する画像におけるパーティションの分割深度を示すパラメータが含まれることを特徴とする請求項１から５の何れか１項に記載の画像フィルタ装置。
上記参照パラメータには、当該画像フィルタ装置が作用する画像におけるパーティションのサイズを示すパラメータが含まれることを特徴とする請求項１から６の何れか１項に記載の画像フィルタ装置。
上記ニューラルネットワークに入力される上記第１種の入力画像データを出力画像とする第２のニューラルネットワークを備えていることを特徴とする請求項１から７の何れか１項に記載の画像フィルタ装置。
上記ニューラルネットワークは、第１の色差と第２の色差とを画素値とする上記第１種の入力画像データと、上記第２種の入力画像データとを入力とし、第１の色差と第２の色差とを画素値とする第１種の出力画像データを出力することを特徴とする請求項１〜８の何れか１項に記載の画像フィルタ装置。
上記ニューラルネットワークは、
輝度を画素値とする上記第１種の入力画像データと、上記第２種の入力画像データとが入力され、輝度を画素値とする第１種の出力画像データを出力する手段と、
第１の色差と第２の色差を画素値とする上記第１種の入力画像データと、上記第２種の入力画像データとが入力され、第１の色差と第２の色差とを画素値とする第１種の出力画像データを出力する手段と
を備えることを特徴とする請求項１〜８の何れか１項に記載の画像フィルタ装置。
画像フィルタ装置において、
複数の個別ニューラルネットワークと、
共通ニューラルネットワークとを備え、
上記個別ニューラルネットワークは、当該画像フィルタ装置への入力画像データにおけるフィルタパラメータの値に応じて、当該入力画像データに対して選択的に作用し、
上記共通ニューラルネットワークは、上記個別ニューラルネットワークの出力画像データに対して、上記フィルタパラメータの値によらずに共通に作用する
ことを特徴とする画像フィルタ装置。
画像フィルタ装置において、
複数の個別ニューラルネットワークと、
共通ニューラルネットワークとを備え、
上記共通ニューラルネットワークは、当該画像フィルタ装置への入力画像データに作用し、
上記個別ニューラルネットワークは、上記入力画像データにおけるフィルタパラメータの値に応じて、上記共通ニューラルネットワークの出力画像データに対して選択的に作用する
ことを特徴とする画像フィルタ装置。
上記フィルタパラメータは、当該画像フィルタ装置が作用する画像における量子化パラメータである
ことを特徴とする請求項１１または１２に記載の画像フィルタ装置。
上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるイントラ予測及びインター予測の種別を示すパラメータである
ことを特徴とする請求項１１または１２に記載の画像フィルタ装置。
上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるイントラ予測方向を示すパラメータ（イントラ予測モード）である
ことを特徴とする請求項１１または１２に記載の画像フィルタ装置。
上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるパーティションの分割深度を示すパラメータである
ことを特徴とする請求項１１または１２に記載の画像フィルタ装置。
上記フィルタパラメータは、当該画像フィルタ装置が作用する画像におけるパーティションのサイズを示すパラメータである
ことを特徴とする請求項１１または１２に記載の画像フィルタ装置。
画像を復号する画像復号装置であって、復号画像に作用させるフィルタとして請求項１から１７の何れか１項に記載の画像フィルタ装置を備えた画像復号装置。
画像を符号化する画像符号化装置であって、局所復号画像に作用させるフィルタとして請求項１から１７の何れか１項に記載の画像フィルタ装置を備えた画像符号化装置。