WO2019093268A1

WO2019093268A1 - 画像処理装置及び画像処理方法

Info

Publication number: WO2019093268A1
Application number: PCT/JP2018/040999
Authority: WO
Inventors: アレックホジキンソン; ルカリザジオ; 遠間　正真; 西　孝啓; 安倍　清史; 龍一加納
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2017-11-08
Filing date: 2018-11-05
Publication date: 2019-05-16
Also published as: US11057646B2; CN111295884A; CN111295884B; US20200267416A1

Abstract

画像処理装置（１００）は、メモリ（１２０）と、回路（１１０）とを備え、回路（１１０）は、圧縮解除画像を原画像に近づけるための学習が行われたニューラルネットワークモデルを用いて、圧縮解除画像を原画像に近づける処理を行い、ニューラルネットワークモデルは、１つ以上の畳み込みブロックを含み、かつ、１つ以上の残差ブロックを含み、１つ以上の畳み込みブロックのそれぞれは、畳み込み層を含む処理ブロックであり、１つ以上の残差ブロックのそれぞれは、少なくとも１つの畳み込みブロックで構成される畳み込みグループを含み、残差ブロックに入力されるデータを残差ブロックに含まれる畳み込みグループに入力し、かつ、残差ブロックに入力されるデータを畳み込みグループから出力されるデータに加える処理ブロックである。

Description

画像処理装置及び画像処理方法

　本開示は、画像処理装置等に関する。

　従来、動画像を符号化するための規格として、ＨＥＶＣ（Ｈｉｇｈ　Ｅｆｆｉｃｉｅｎｃｙ　Ｖｉｄｅｏ　Ｃｏｄｉｎｇ）とも呼ばれるＨ．２６５が存在する（非特許文献１）。

Ｈ．２６５（ＩＳＯ／ＩＥＣ　２３００８－２　ＨＥＶＣ）／ＨＥＶＣ（Ｈｉｇｈ　Ｅｆｆｉｃｉｅｎｃｙ　Ｖｉｄｅｏ　Ｃｏｄｉｎｇ）

　しかしながら、原画像に対して圧縮及び圧縮解除を行うことで得られる圧縮解除画像の画質は、原画像の画質よりも劣化している可能性が高い。

　そこで、本開示は、圧縮解除画像を原画像に適切に近づけることができる画像処理装置等を提供する。

　本開示の一態様における画像処理装置は、メモリと、前記メモリにアクセス可能な回路とを備え、前記メモリにアクセス可能な前記回路は、原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像を前記原画像に近づけるための学習が行われたニューラルネットワークモデルを用いて、前記圧縮解除画像を前記原画像に近づける処理を行い、前記ニューラルネットワークモデルは、１つ以上の畳み込みブロックを含み、かつ、１つ以上の残差ブロックを含み、前記１つ以上の畳み込みブロックのそれぞれは、畳み込み層を含む処理ブロックであり、前記１つ以上の残差ブロックのそれぞれは、前記１つ以上の畳み込みブロックのうちの少なくとも１つで構成される畳み込みグループを含み、当該残差ブロックに入力されるデータを当該残差ブロックに含まれる前記畳み込みグループに入力し、かつ、当該残差ブロックに入力されるデータを前記畳み込みグループから出力されるデータに加える処理ブロックである。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様における画像処理装置等は、圧縮解除画像を原画像に適切に近づけることができる。

図１は、実施の形態１における後処理フィルタの構成を示すブロック図である。図２は、実施の形態１におけるコーデックシステムの構成を示すブロック図である。図３は、実施の形態１における複数の畳み込みブロックの接続構成を示すブロック図である。図４は、実施の形態１における複数の残差ブロックの接続構成を示すブロック図である。図５は、実施の形態１における畳み込みブロックの構成を示すブロック図である。図６は、実施の形態１における残差ブロックの構成を示すブロック図である。図７は、実施の形態１における後処理フィルタの機能要素を示すブロック図である。図８は、実施の形態１における画像処理装置の実装例を示すブロック図である。図９は、実施の形態１における画像処理装置の動作例を示すフローチャートである。図１０は、コンテンツ配信サービスを実現するコンテンツ供給システムの全体構成図である。図１１は、スケーラブル符号化時の符号化構造の一例を示す図である。図１２は、スケーラブル符号化時の符号化構造の一例を示す図である。図１３は、ｗｅｂページの表示画面例を示す図である。図１４は、ｗｅｂページの表示画面例を示す図である。図１５は、スマートフォンの一例を示す図である。図１６は、スマートフォンの構成例を示すブロック図である。

　（本開示の基礎となった知見）
　画像を効率的に記録媒体に保管することは、有用である。画像データ量及び画質は、画像の保管に影響する。画像データ量は、損失のある（ｌｏｓｓｙ）コーデックで画像を圧縮することにより削減される。一方で、損失のあるコーデックで画像を圧縮することにより画質は劣化する。例えば、画像において乱れ（圧縮アーチファクトとも呼ばれる）が生じる。すなわち、原画像に対して圧縮及び圧縮解除を行うことで得られる圧縮解除画像の画質は、原画像の画質よりも劣化していると想定される。

　そこで、例えば、本開示の一態様に係る画像処理装置は、メモリと、前記メモリにアクセス可能な回路とを備え、前記メモリにアクセス可能な前記回路は、原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像を前記原画像に近づけるための学習が行われたニューラルネットワークモデルを用いて、前記圧縮解除画像を前記原画像に近づける処理を行い、前記ニューラルネットワークモデルは、１つ以上の畳み込みブロックを含み、かつ、１つ以上の残差ブロックを含み、前記１つ以上の畳み込みブロックのそれぞれは、畳み込み層を含む処理ブロックであり、前記１つ以上の残差ブロックのそれぞれは、前記１つ以上の畳み込みブロックのうちの少なくとも１つで構成される畳み込みグループを含み、当該残差ブロックに入力されるデータを当該残差ブロックに含まれる前記畳み込みグループに入力し、かつ、当該残差ブロックに入力されるデータを前記畳み込みグループから出力されるデータに加える処理ブロックである。

　これにより、画像処理装置は、圧縮解除画像を原画像に近づける処理に適したニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることができる。

　また、例えば、前記１つ以上の畳み込みブロックは、２つ以上の畳み込みブロックであってもよい。

　これにより、画像処理装置は、高精度の学習及び推論が可能なニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることができる。

　また、例えば、前記１つ以上の残差ブロックは、２つ以上の残差ブロックであってもよい。

　これにより、画像処理装置は、より高精度の学習及び推論が可能なニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることができる。

　また、例えば、前記１つ以上の畳み込みブロックは、３つ以上の畳み込みブロックであり、前記１つ以上の残差ブロックは、残差グループを構成し、前記３つ以上の畳み込みブロックのうちの少なくとも１つの畳み込みブロックを含み、前記３つ以上の畳み込みブロックのうち前記残差グループに含まれない少なくとも１つの畳み込みブロックは、第１畳み込みグループを構成し、前記３つ以上の畳み込みブロックのうち前記残差グループにも前記第１畳み込みグループにも含まれない少なくとも１つの畳み込みブロックは、第２畳み込みグループを構成し、前記第１畳み込みグループから出力されるデータは、前記残差グループに入力され、前記残差グループから出力されるデータは、前記第２畳み込みグループに入力されてもよい。

　これにより、画像処理装置は、画像の抽象化された特徴に対して、より高度な演算を適用することができる。したがって、効率的な処理が可能である。

　また、例えば、前記ニューラルネットワークモデルは、前記１つ以上の畳み込みブロック及び前記１つ以上の残差ブロックで構成される処理グループを含み、前記ニューラルネットワークモデルに入力されるデータは、前記処理グループに入力され、かつ、前記ニューラルネットワークモデルに入力されるデータは、前記処理グループから出力されるデータに加えられて、前記ニューラルネットワークモデルから出力されてもよい。

　これにより、ニューラルネットワークモデルに入力されるデータが、ニューラルネットワークモデルから出力されるデータにシンプルに反映され得る。したがって、画像処理装置は、効率的な学習及び推論が可能なニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることができる。

　また、例えば、前記１つ以上の残差ブロックのそれぞれに含まれる前記畳み込みグループは、前記２つ以上の畳み込みブロックのうちの少なくとも２つで構成されてもよい。

　これにより、少なくとも２つ畳み込みブロックを含む畳み込みグループに入力されるデータが、畳み込みグループから出力されるデータにシンプルに反映され得る。したがって、少なくとも２つ畳み込みブロックにおける処理がまとめて効率化され得る。また、不必要な誤差（ノイズ）の増幅が適切に抑制される。

　また、例えば、原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像を前記原画像に近づけるための学習が行われたニューラルネットワークモデルを用いて、前記圧縮解除画像を前記原画像に近づける処理を行い、前記ニューラルネットワークモデルは、１つ以上の畳み込みブロックを含み、かつ、１つ以上の残差ブロックを含み、前記１つ以上の畳み込みブロックのそれぞれは、畳み込み層を含む処理ブロックであり、前記１つ以上の残差ブロックのそれぞれは、前記１つ以上の畳み込みブロックのうちの少なくとも１つで構成される畳み込みグループを含み、当該残差ブロックに入力されるデータを当該残差ブロックに含まれる前記畳み込みグループに入力し、かつ、当該残差ブロックに入力されるデータを前記畳み込みグループから出力されるデータに加える処理ブロックであってもよい。

　これにより、圧縮解除画像を原画像に近づける処理に適したニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることが可能である。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態１）
　まず、後述する本開示の各態様で説明する処理および／または構成を適用可能な画像処理装置の一例として、実施の形態１の概要を説明する。ただし、実施の形態１は、本開示の各態様で説明する処理および／または構成を適用可能な画像処理装置の一例にすぎず、本開示の各態様で説明する処理および／または構成は、実施の形態１とは異なる画像処理装置においても実施可能である。

　実施の形態１に対して本開示の各態様で説明する処理および／または構成を適用する場合、例えば以下のいずれかを行ってもよい。

　（１）実施の形態１の画像処理装置に対して、当該画像処理装置を構成する複数の構成要素のうち、本開示の各態様で説明する構成要素に対応する構成要素を、本開示の各態様で説明する構成要素に置き換えること
　（２）実施の形態１の画像処理装置に対して、当該画像処理装置を構成する複数の構成要素のうち一部の構成要素について機能または実施する処理の追加、置き換え、削除などの任意の変更を施した上で、本開示の各態様で説明する構成要素に対応する構成要素を、本開示の各態様で説明する構成要素に置き換えること
　（３）実施の形態１の画像処理装置が実施する方法に対して、処理の追加、および／または当該方法に含まれる複数の処理のうちの一部の処理について置き換え、削除などの任意の変更を施した上で、本開示の各態様で説明する処理に対応する処理を、本開示の各態様で説明する処理に置き換えること
　（４）実施の形態１の画像処理装置を構成する複数の構成要素のうちの一部の構成要素を、本開示の各態様で説明する構成要素、本開示の各態様で説明する構成要素が備える機能の一部を備える構成要素、または本開示の各態様で説明する構成要素が実施する処理の一部を実施する構成要素と組み合わせて実施すること
　（５）実施の形態１の画像処理装置を構成する複数の構成要素のうちの一部の構成要素が備える機能の一部を備える構成要素、または実施の形態１の画像処理装置を構成する複数の構成要素のうちの一部の構成要素が実施する処理の一部を実施する構成要素を、本開示の各態様で説明する構成要素、本開示の各態様で説明する構成要素が備える機能の一部を備える構成要素、または本開示の各態様で説明する構成要素が実施する処理の一部を実施する構成要素と組み合わせて実施すること
　（６）実施の形態１の画像処理装置が実施する方法に対して、当該方法に含まれる複数の処理のうち、本開示の各態様で説明する処理に対応する処理を、本開示の各態様で説明する処理に置き換えること
　（７）実施の形態１の画像処理装置が実施する方法に含まれる複数の処理のうちの一部の処理を、本開示の各態様で説明する処理と組み合わせて実施すること

　なお、本開示の各態様で説明する処理および／または構成の実施の仕方は、上記の例に限定されるものではない。例えば、実施の形態１において開示する画像処理装置または画像処理装置とは異なる目的で利用される装置において実施されてもよいし、各態様において説明した処理および／または構成を単独で実施してもよい。また、異なる態様において説明した処理および／または構成を組み合わせて実施してもよい。

　［画像処理装置の概要］
　まず、本実施の形態における画像処理装置の概要を説明する。画像処理装置は、原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像における乱れを抑制するため、圧縮解除画像に対して後処理を行う。

　画像処理装置は、復号装置を含んでいてもよい。復号装置は、符号化された画像を復号する。すなわち、復号装置は、原画像に対する圧縮の結果である圧縮画像に対して圧縮解除を行うことにより、圧縮画像に対する圧縮解除の結果である圧縮解除画像を出力する。また、画像処理装置は、符号化装置を含んでいてもよい。符号化装置は、画像を符号化する。すなわち、符号化装置は、原画像に対して圧縮を行うことにより、原画像に対する圧縮の結果である圧縮画像を出力する。

　あるいは、画像処理装置は、復号装置に含まれていてもよいし、符号化装置に含まれていてもよいし、符号化装置と復号装置とを含む符号化復号装置に含まれていてもよい。例えば、画像処理装置が符号化装置に含まれ、画像処理装置は、符号化装置において予測画像を生成するための処理を行ってもよい。具体的には、符号化装置において、符号化画像が復号されることにより復号画像が生成され、画像処理装置が復号画像に対して後処理を行うことにより予測画像を生成してもよい。

　また、画像処理装置は、ニューラルネットワークモデルを用いて、圧縮解除画像に対して後処理を行う。ニューラルネットワークモデルは、人間の脳の組織的な原理に基づいてパラメータ化された数理モデルである。ニューラルネットワークモデルは、単に、ニューラルネットワークとも呼ばれる。以下の説明において、便宜上、画像処理装置がニューラルネットワークを用いて処理を行うことを、ニューラルネットワークが処理を行うとして説明する場合がある。

　また、多層構造のニューラルネットワークは、ディープニューラルネットワークとも呼ばれる。例えば、ニューラルネットワークは、入力層、中間層及び出力層で構成される。そして、データが、入力層に入力され、中間層を介して、出力層から出力される。中間層は、隠れ層とも呼ばれる。ニューラルネットワークは、複数の中間層を含んでいてもよい。また、入力層、中間層及び出力層のそれぞれは、複数のノードで構成される。

　各ノードは、ニューロンとも呼ばれる。例えば、ニューロンへ重み付け入力と呼ばれるデータが入力され、非線形の活性化関数が適用され、その結果が出力される。この非線形は、一次式でないことを意味する。また、重み付け入力は、前段の層における複数のノードの出力データに対して、重み付け行列を用いて、重み付けを行うことにより構築される。重み付け入力には、バイアスが加えられてもよい。

　ニューラルネットワークは、十分な性能を有する場合、万能関数近似器の性質を有する。つまり、ニューラルネットワークによって、様々なパターンがモデル化され得る。このような性質に基づいて、ニューラルネットワークは、識別、制御及び生成を含む様々な処理に用いられ得る。例えば、ニューラルネットワークは、入力の分布を他の分布へ変換することに用いられ得る。つまり、ニューラルネットワークは、入力データを他のデータへ変換することに用いられ得る。

　本実施の形態における画像処理装置は、圧縮解除画像を原画像により近い画像へ変換することにニューラルネットワークを適用する。上述した通り、圧縮解除画像は、圧縮アーチファクトを含む。原画像は、非圧縮画像であり、圧縮アーチファクトを含まない。すなわち、画像処理装置は、ニューラルネットワークを用いて、圧縮アーチファクトを含む圧縮解除画像を、圧縮アーチファクトを含まない非圧縮画像により近い画像へ変換する。

　具体的には、ニューラルネットワークへ圧縮解除画像が入力され、原画像に近づくように変換された圧縮解除画像がニューラルネットワークから出力される。

　また、例えば、ニューラルネットワークは、バックプロパゲーション（誤差逆伝搬法）と呼ばれる勾配降下アルゴリズムを用いて訓練される。具体的には、まず、ニューラルネットワークは、訓練データを入力データとして用いて順方向（前方向とも呼ばれる）に処理を行う。そして、ニューラルネットワークは、損失関数に従って、出力データと正解データとの間の誤差を算出する。例えば、損失関数として、平均二乗誤差又はＬ２損失関数と呼ばれる以下の関数が用いられる。

　ここで、ｙ_ｉは、訓練データに対する正解データである。また、

は、訓練データに対するニューラルネットワークの出力データである。

　ニューラルネットワークは、逆方向（後方向とも呼ばれる）に誤差の伝搬を行い、重み等のパラメータに関する損失関数の勾配を算出する。そして、ニューラルネットワークは、誤差が最小になるように、つまり、より高精度の推論が行われるように、算出された勾配を用いてパラメータを更新する。

　例えば、訓練データに対応する入力データとして、原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像が用いられ、正解データとして、非圧縮の原画像が用いられる。そして、訓練は、複数のパターンで行われる。具体的には、訓練は、複数の原画像、及び、その複数の原画像にそれぞれ対応する複数の圧縮解除画像を用いて行われる。

　すなわち、コーデックの後処理のための生成ニューラルネットワークの訓練において、２つの画像セットが用いられる。１つの画像セットは、非圧縮画像で構成される。他方の画像セットは、ＪＰＥＧ又はＨＥＶＣ／Ｈ．２６５のようなコーデックを用いて非圧縮画像に対して圧縮及び圧縮解除が行われた圧縮解除画像で構成される。

　訓練に用いられる画像は、処理量を削減するため、大きなサイズの画像から抽出された画像サムネイル又は部分画像であってもよい。例えば、画像サイズは、３２×３２画素から２５６×２５６画素までの間のサイズであってもよい。

　圧縮解除画像の画像セットは、ニューラルネットワークに入力される。そして、ニューラルネットワークは、推論を行い、非圧縮画像に対応する画像を出力する。例えば、ニューラルネットワークにおける１つ以上の層は、圧縮解除画像に対する特徴抽出を行う。つまり、圧縮解除画像の特徴が抽出される。そして、ニューラルネットワークにおける１つ以上の層は、圧縮解除画像の構造に対応する特徴が抽出されるように、学習される。また、ニューラルネットワークにおけるより深い層は、より抽象的な特徴を処理する。

　ニューラルネットワークの性能は、ニューラルネットワークの設計において定められたアーキテクチャに依存する。ニューラルネットワークの一態様である畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）は、視覚に関連する処理において、より改良された性能を有する。具体的には、畳み込みニューラルネットワークは、畳み込み演算を行うフィードフォワードネットワークであって、他の全結合ネットワークよりも高い性能を有すると想定される。

　例えば、畳み込みニューラルネットワークは、少ない数の重みを有する。これにより、規模が大きく性能が高い畳み込みニューラルネットワークが、少ない処理量で訓練され得る。また、畳み込みニューラルネットワークは、畳み込み演算によって、視覚的な処理において有用な空間不変性を有する特徴を用いて処理を行うことができる。

　具体的には、畳み込みニューラルネットワークは、畳み込み層を含む処理ブロックである畳み込みブロックを含む。畳み込み層は、ニューラルネットワークにおける中間層の一態様であって、畳み込み演算を行う処理層である。例えば、画像処理において、畳み込みブロックは、高さ、幅及びチャネルの３次元テンソルを入力として取得する。そして、畳み込みブロックは、アフィン変換及び非線形変換等を適宜適用して、入力の３次元テンソルとはサイズ及び内容が異なり得る３次元テンソルを出力する。

　例えば、畳み込みニューラルネットワークにおいて、複数の畳み込みブロックがそれぞれ複数の層としてスタックされる。そして、複数の畳み込みブロックが、特徴の抽出、検出及び分類等の複雑な処理を行う。

　また、畳み込みニューラルネットワークにおいて、残差接続と呼ばれるアーキテクチャが適用されてもよい。残差接続は、スキップ接続とも呼ばれる。残差接続によって、一連の１つ以上の畳み込み層がグループ化される。すなわち、残差接続によって、一連の１つ以上の畳み込みブロックがグループ化される。ここで、グループ化される一連の１つ以上の畳み込みブロックを畳み込みグループと呼ぶ場合がある。

　グループ化された１つ以上の畳み込み層を含む処理ブロックは、残差ブロックとも呼ばれる。つまり、残差ブロックは、１つ以上の畳み込みブロックを含む。さらに言い換えれば、残差ブロックは、畳み込みグループを含む。

　例えば、残差接続によって、残差ブロックへ入力されるデータが、残差ブロックから出力されるデータに加えられる。具体的には、加算処理が行われる。これにより、残差ブロックの入力ｘと、残差ブロックの出力Ｆ（ｘ）とが、相互に関連する。そして、残差ブロック全体として、Ｆ（ｘ）－ｘの学習が行われる。

　すなわち、入力と出力との差の適切な学習が可能である。入力と出力との差の学習は、０に近い特徴の学習を意味する。残差接続は、このような有用な学習を可能にする。また、残差接続が用いられない場合、各層の情報処理によって、不必要な誤差（ノイズ）が増幅される可能性がある。残差接続が用いられることによって、このような不必要な誤差の増幅が抑制される。また、誤差逆伝搬における損失関数の勾配の消失が、残差結合によって抑制される。

　また、ニューラルネットワークとして敵対的生成ネットワーク（ＧＡＮ：Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ）が適用され得る。敵対的生成ネットワークは、２つのサブニューラルネットワークで構成される。

　１つのサブニューラルネットワークは、生成器（Ｇｅｎｅｒａｔｏｒ）と呼ばれる。生成器は、本物のデータに似ているデータを生成する役割を果たす。もう１つのサブニューラルネットワークは、識別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）と呼ばれる。この識別器は、敵又は鑑定器とも呼ばれる。識別器は、本物と偽物とを識別する役割を果たす。

　例えば、２つのサブニューラルネットワークは、ミニマックス法及びゼロ和ゲームに基づいて、共同で訓練される。この場合の評価関数として次の関数が用いられてもよい。

　ここで、Ｄ（ｘ）は、識別器を表し、Ｇ（ｚ）は、生成器を表し、Ｐ（ｘ）は、入力分布を表し、Ｐ（ｚ）は、出力分布を表す。また、右辺の第１項（つまり、右辺の左の項）は、識別器が本物のデータを本物と識別する期待値に対応する。右辺の第２項（つまり、右辺の右の項）は、識別器が偽物のデータを偽物と識別する期待値に対応する。このような評価関数を最大化するＤが導出され、かつ、導出されたＤによって最大化された評価関数を最小化するＧが導出されることにより、識別器及び生成器が導出されてもよい。

　本実施の形態における画像処理装置は、ニューラルネットワークとして上記のような敵対的生成ネットワークを用いてもよい。具体的には、圧縮解除画像から原画像に近い画像を生成するサブニューラルネットワークである生成器と、原画像か、圧縮解除画像から生成された画像かを識別するサブニューラルネットワークである識別器とが用いられてもよい。

　また、本実施の形態における画像処理装置は、画像に関する情報の次元を圧縮し、圧縮された次元を復元するオートエンコーダ等のアーキテクチャをニューラルネットワークとして用いてもよい。

　［画像処理装置の具体例］
　図１は、本実施の形態における画像処理装置に含まれる後処理フィルタの構成を示すブロック図である。

　例えば、コーデックシステム２００は、原画像である入力画像に対して、コーデックを適用する。つまり、コーデックシステム２００は、入力画像に対して、圧縮及び圧縮解除を行う。そして、コーデックシステム２００は、入力画像に対する圧縮及び圧縮解除の結果である圧縮解除画像を出力する。コーデックシステム２００は、Ｈ．２６５／ＨＥＶＣのアーキテクチャを用いてもよいし、ＪＰＥＧのアーキテクチャを用いてもよい。

　あるいは、コーデックシステム２００は、ニューラルネットワーク等の機械学習に基づくアーキテクチャを用いてもよい。例えば、コーデックシステム２００は、オートエンコーダのアーキテクチャを用いてもよい。

　基本的に、コーデックシステム２００における損失のあるコーデックによって、圧縮解除画像は、入力画像よりも劣化する。

　そこで、後処理フィルタ３００は、圧縮解除画像を入力画像に近づけるための画像処理を行う。そして、後処理フィルタ３００は、画像処理が行われた圧縮解除画像を出力画像として出力する。

　具体的には、後処理フィルタ３００は、圧縮解除画像を原画像に近づけるための学習が行われたニューラルネットワークを有する。そして、後処理フィルタ３００は、ニューラルネットワークを用いて、圧縮解除画像を原画像に近づけるための画像処理を行う。また、後処理フィルタ３００が有するニューラルネットワークは、１つ以上の畳み込みブロックを含む。また、ニューラルネットワークは、１つ以上の残差ブロックを含む。

　図１の例において、ニューラルネットワークは、１つ以上の畳み込みブロック３１０を含み、１つ以上の畳み込みブロック３１０の後に１つ以上の残差ブロック３２０を含み、１つ以上の残差ブロック３２０の後に１つ以上の畳み込みブロック３３０を含む。また、ニューラルネットワークへ入力されるデータは、ニューラルネットワークから出力されるデータに加えられる。

　つまり、ニューラルネットワークへ入力されるデータから１つ以上の畳み込みブロック３１０、１つ以上の残差ブロック３２０、及び、１つ以上の畳み込みブロック３３０を介して得られる結果と、ニューラルネットワークへ入力されるデータとが合計される。そして、合計結果が、出力画像として、ニューラルネットワークから出力される。

　なお、ニューラルネットワークの構成は、図１に示された構成に限られない。１つ以上の畳み込みブロック、及び、１つ以上の残差ブロックがどのように構成されていてもよい。例えば、全ての畳み込みブロックのそれぞれが、いずれかの残差ブロックに含まれていてもよい。また、例えば、残差ブロックに含まれない畳み込みブロックが、複数の残差ブロックの間に挟まれて存在していてもよい。また、ニューラルネットワークの入力をニューラルネットワークの出力に繋げる残差接続は存在しなくてもよい。

　また、ニューラルネットワークモデルに含まれる１つ以上の畳み込みブロック及び１つ以上の残差ブロックで構成されるグループは、処理グループと表現される場合がある。図１の例において、１つ以上の畳み込みブロック３１０、１つ以上の残差ブロック３２０、及び、１つ以上の畳み込みブロック３３０は、処理グループを構成する。

　図２は、図１に示されたコーデックシステム２００の構成を示すブロック図である。例えば、コーデックシステム２００は、符号化装置２１０及び復号装置２２０を備える。また、後処理フィルタ３００は、画像処理装置１００に含まれる。

　符号化装置２１０は、画像符号化部２１１を備える。画像符号化部２１１は、入力画像を符号化することにより、入力画像に対して圧縮を行い、入力画像の圧縮結果である圧縮画像を符号化された画像として出力する。

　復号装置２２０は、画像復号部２２１を備える。画像復号部２２１は、符号化された画像を復号することにより、圧縮画像に対して圧縮解除を行い、圧縮画像の圧縮解除結果である圧縮解除画像を出力する。

　後処理フィルタ３００は、圧縮解除画像に対して、圧縮解除画像を入力画像に近づけるための画像処理を行う。そして、後処理フィルタ３００は、画像処理が行われた圧縮解除画像を出力画像として出力する。

　画像処理装置１００は、復号装置２２０又は画像復号部２２１を備えていてもよい。さらに、画像処理装置１００は、符号化装置２１０又は画像符号化部２１１を備えていてもよい。

　図３は、図１に示された１つ以上の畳み込みブロック３１０の接続構成を示すブロック図である。１つ以上の畳み込みブロック３１０は、畳み込みグループ４１０を構成する。図３には、畳み込みグループ４１０における２つの畳み込みブロック３１０が示されている。

　図３の例において、２つの畳み込みブロック３１０は、直列に接続される。つまり、畳み込みグループ４１０へ入力されるデータが１つの畳み込みブロック３１０（つまり、図３において左の畳み込みブロック３１０）に入力される。そして、１つの畳み込みブロック３１０から出力されるデータが他の畳み込みブロック３１０（つまり、図３において右の畳み込みブロック３１０）に入力される。そして、右の畳み込みブロック３１０から出力されるデータが畳み込みグループ４１０から出力される。

　ここでは、２つの畳み込みブロック３１０が直列に接続されているが、３つ以上の畳み込みブロック３１０が直列に接続されていてもよい。また、複数の畳み込みブロック３１０が並列に接続されてもよい。例えば、赤と緑と青とに対応する３つの畳み込みブロック３１０が並列に接続されてもよい。また、複数の畳み込みブロック３１０ではなく、１つの畳み込みブロック３１０のみが用いられてもよい。

　また、ここでは、１つ以上の畳み込みブロック３１０の接続構成が示されているが、１つ以上の畳み込みブロック３３０の接続構成も、１つ以上の畳み込みブロック３１０の接続構成と同様である。

　図４は、図１に示された１つ以上の残差ブロック３２０の接続構成を示すブロック図である。１つ以上の残差ブロック３２０は、残差グループ４２０を構成する。図４には、残差グループ４２０における２つの残差ブロック３２０が示されている。

　図４の例において、２つの残差ブロック３２０は、直列に接続される。つまり、残差グループ４２０へ入力されるデータが１つの残差ブロック３２０（つまり、図４において左の残差ブロック３２０）に入力される。そして、１つの残差ブロック３２０から出力されるデータが他の残差ブロック３２０（つまり、図４において右の残差ブロック３２０）に入力される。そして、右の残差ブロック３２０から出力されるデータが残差グループ４２０から出力される。

　ここでは、２つの残差ブロック３２０が直列に接続されているが、３つ以上の残差ブロック３２０が直列に接続されていてもよい。また、複数の残差ブロック３２０が並列に接続されてもよい。例えば、赤と緑と青とに対応する３つの残差ブロック３２０が並列に接続されてもよい。また、複数の残差ブロック３２０ではなく、１つの残差ブロック３２０のみが用いられてもよい。

　図５は、図１に示された畳み込みブロック３１０の構成を示すブロック図である。図５には、１つの畳み込みブロック３１０の構成が示されているが、他の畳み込みブロック３１０の構成も同様である。また、１つ以上の畳み込みブロック３３０のそれぞれの構成も同様である。

　図５の例において、畳み込みブロック３１０は、畳み込み層３１１、非線形活性化関数３１２、及び、正規化層３１３を含む。この例では、畳み込みブロック３１０に入力されたデータが、畳み込み層３１１、非線形活性化関数３１２、及び、正規化層３１３を介して、畳み込みブロック３１０から出力される。

　畳み込み層３１１は、畳み込みブロック３１０に入力されたデータに対して畳み込み演算を行って、畳み込み演算の結果を出力する処理層である。非線形活性化関数３１２は、畳み込み層３１１から出力されるデータを引数として用いて演算結果を出力する関数である。例えば、非線形活性化関数３１２は、バイアスに従って、非線形活性化関数３１２の出力を制御する。正規化層３１３は、データの偏りを抑制するため、非線形活性化関数３１２から出力されるデータを正規化し、正規化されたデータを出力する。

　図６は、図１に示された残差ブロック３２０の構成を示すブロック図である。図６には、１つの残差ブロック３２０の構成が示されているが、他の残差ブロック３２０の構成も同様である。

　図６の例において、残差ブロック３２０は、直列に接続された２つの畳み込みブロック５２０を含む。例えば、残差ブロック３２０へ入力されるデータが１つの畳み込みブロック５２０（つまり、図６において左の畳み込みブロック５２０）に入力される。そして、１つの畳み込みブロック５２０から出力されるデータが他の畳み込みブロック５２０（つまり、図６において右の畳み込みブロック５２０）に入力される。

　また、残差ブロック３２０へ入力されるデータが、右の畳み込みブロック５２０から出力されるデータに加えられて、残差ブロック３２０から出力される。つまり、残差ブロック３２０へ入力されるデータと、右の畳み込みブロック５２０から出力されるデータとが、合計されて残差ブロック３２０から出力される。

　ここでは、２つの畳み込みブロック５２０が直列に接続されているが、３つ以上の畳み込みブロック５２０が直列に接続されていてもよい。また、複数の畳み込みブロック５２０ではなく、１つの畳み込みブロック５２０のみが用いられてもよい。

　本実施の形態における画像処理装置１００は、畳み込みブロックを含み、かつ、残差ブロックを含むニューラルネットワークを用いて、圧縮解除画像を原画像に近づけるための画像処理を行う。すなわち、本実施の形態における画像処理装置１００は、残差接続を含む畳み込みニューラルネットワークを用いて、圧縮解除画像を原画像に近づけるための画像処理を行う。

　畳み込みニューラルネットワークにおける畳み込み演算は、画像の空間的な相関に基づいて、画像の特徴を適切に抽出することが可能であるため、画像処理に有効である。また、上述した残差接続によって、入力の情報と出力の情報との差に基づく適切な学習が可能であり、入力の情報を出力の情報に適切に反映させることが可能である。

　また、圧縮解除画像は、原画像の圧縮及び圧縮解除によって得られる画像である。圧縮解除画像を原画像に近づけるための学習において教師データとして用いられる原画像が容易に準備され得る。

　したがって、圧縮解除画像を原画像に近づけるための画像処理において、残差接続を含む畳み込みニューラルネットワークを適用することは有効である。画像処理装置１００は、残差接続を含む畳み込みニューラルネットワークを用いて、圧縮解除画像を原画像に近づけるための画像処理を行うことにより、圧縮解除画像の圧縮アーチファクトを削減し、圧縮解除画像の視覚的な画質を適切に改善することができる。

　なお、残差接続を含む畳み込みニューラルネットワークの例が示されているが、ニューラルネットワークにその他のアーキテクチャが適用されてもよい。

　例えば、リカレントニューラルネットワーク（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）又はリカーシブニューラルネットワーク（Ｒｅｃｕｒｓｉｖｅ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）のように、フィードバック構造が適用されてもよい。具体的には、１つ以上の畳み込みブロックの出力が、その１つ以上の畳み込みブロックの入力に用いられてもよい。そして、残差接続が逆向きに用いられてもよい。

　図７は、図１に示された後処理フィルタ３００の機能要素を示すブロック図である。後処理フィルタ３００は、特徴抽出６１０、特徴変換６２０及び特徴調整６３０を機能要素として含む。

　具体的には、後処理フィルタ３００は、特徴抽出６１０において、圧縮解除画像から特徴を抽出する。例えば、この特徴は、複数の特徴ベクトルの組で表現され得る。

　また、後処理フィルタ３００は、特徴変換６２０において、抽出された特徴を変換する。例えば、後処理フィルタ３００は、圧縮解除画像から抽出された複数の特徴ベクトルを、原画像に対応する複数の特徴ベクトルに大まかに近づくように、変換する。

　そして、後処理フィルタ３００は、特徴調整６３０において、変換された特徴を調整する。例えば、後処理フィルタ３００は、圧縮解除画像の画質を上回るように、変換された複数の特徴ベクトルを調整する。これにより、後処理フィルタ３００は、画像を調整し、調整された画像を出力画像として出力する。

　［画像処理装置の実装例］
　図８は、画像処理装置１００の実装例を示すブロック図である。画像処理装置１００は、回路１１０及びメモリ１２０を備える。例えば、図２に示された画像処理装置１００に含まれ得る構成要素は、図８に示された回路１１０及びメモリ１２０によって実装される。

　回路１１０は、メモリ１２０にアクセス可能な電子回路であって、情報処理を行う。例えば、回路１１０は、メモリ１２０を用いて画像を処理する専用又は汎用の電子回路である。回路１１０は、ＣＰＵのようなプロセッサであってもよい。また、回路１１０は、複数の電子回路の集合体であってもよい。

　メモリ１２０は、回路１１０が画像を処理するための情報が記憶される専用又は汎用のメモリである。メモリ１２０は、電子回路であってもよく、回路１１０に接続されていてもよいし、回路１１０に含まれていてもよい。

　また、メモリ１２０は、複数の電子回路の集合体であってもよいし、複数のサブメモリで構成されていてもよい。また、メモリ１２０は、磁気ディスク又は光ディスク等であってもよいし、ストレージ又は記録媒体等と表現されてもよい。また、メモリ１２０は、不揮発性メモリでもよいし、揮発性メモリでもよい。

　また、メモリ１２０には、画像処理前の圧縮解除画像が記憶されてもよいし、画像処理後の圧縮解除画像が記憶されてもよい。また、メモリ１２０には、回路１１０が圧縮解除画像を処理するためのプログラムが記憶されていてもよい。また、メモリ１２０には、ニューラルネットワークモデルが記憶されていてもよい。例えば、メモリ１２０には、ニューラルネットワークモデルの複数のパラメータが記憶されていてもよい。

　図９は、図８に示された画像処理装置１００の動作例を示すフローチャートである。例えば、図８に示された画像処理装置１００は、図９に示された動作を行う。具体的には、画像処理装置１００における回路１１０は、メモリ１２０を用いて次の動作を行う。

　すなわち、回路１１０は、原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像を原画像に近づけるための学習が行われたニューラルネットワークモデルを用いて、圧縮解除画像を原画像に近づける処理を行う（Ｓ１０１）。ここで、ニューラルネットワークモデルは、１つ以上の畳み込みブロックを含み、かつ、１つ以上の残差ブロックを含む。

　また、１つ以上の畳み込みブロックのそれぞれは、畳み込み層を含む処理ブロックである。また、１つ以上の残差ブロックのそれぞれは、１つ以上の畳み込みブロックのうちの少なくとも１つで構成される畳み込みグループを含む処理ブロックである。そして、１つ以上の残差ブロックのそれぞれは、その残差ブロックに入力されるデータをその残差ブロックに含まれる畳み込みグループに入力し、かつ、その残差ブロックに入力されるデータを畳み込みグループから出力されるデータに加える。

　これにより、画像処理装置１００は、圧縮解除画像を原画像に近づける処理に適したニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることができる。

　例えば、１つ以上の畳み込みブロックは、２つ以上の畳み込みブロックであってもよい。これにより、画像処理装置１００は、高精度の学習及び推論が可能なニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることができる。

　また、例えば、１つ以上の残差ブロックは、２つ以上の残差ブロックであってもよい。これにより、画像処理装置１００は、より高精度の学習及び推論が可能なニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることができる。

　また、例えば、１つ以上の畳み込みブロックは、３つ以上の畳み込みブロックであってもよい。

　そして、１つ以上の残差ブロックは、残差グループを構成し、３つ以上の畳み込みブロックのうちの少なくとも１つの畳み込みブロックを含んでいてもよい。また、３つ以上の畳み込みブロックのうち残差グループに含まれない少なくとも１つの畳み込みブロックは、第１畳み込みグループを構成していてもよい。また、３つ以上の畳み込みブロックのうち残差グループにも第１畳み込みグループにも含まれない少なくとも１つの畳み込みブロックは、第２畳み込みグループを構成していてもよい。

　そして、第１畳み込みグループから出力されるデータは、残差グループに入力されてもよい。また、残差グループから出力されるデータは、第２畳み込みグループに入力されてもよい。

　これにより、画像処理装置１００は、画像の抽象化された特徴に対して、より高度な演算を適用することができる。したがって、効率的な処理が可能である。

　また、例えば、ニューラルネットワークモデルは、１つ以上の畳み込みブロック及び１つ以上の残差ブロックで構成される処理グループを含んでいてもよい。そして、ニューラルネットワークモデルに入力されるデータは、処理グループに入力され、かつ、ニューラルネットワークモデルに入力されるデータは、処理グループから出力されるデータに加えられて、ニューラルネットワークモデルから出力されてもよい。

　これにより、ニューラルネットワークモデルに入力されるデータが、ニューラルネットワークモデルから出力されるデータにシンプルに反映され得る。したがって、画像処理装置１００は、効率的な学習及び推論が可能なニューラルネットワークモデルを用いて、圧縮解除画像を適切に原画像に近づけることができる。

　また、例えば、１つ以上の残差ブロックのそれぞれに含まれる畳み込みグループは、２つ以上の畳み込みブロックのうちの少なくとも２つで構成されていてもよい。

　また、例えば、圧縮解除画像を原画像に近づけるための学習は、複数の他の原画像、及び、その複数の他の原画像にそれぞれ対応する複数の他の圧縮解除画像を用いて行われてもよい。具体的には、これらを用いて、原画像に対応する圧縮解除画像がニューラルネットワークに入力された場合に、圧縮解除画像から原画像へ近づけられた画像がニューラルネットワークから出力されるように、ニューラルネットワークのパラメータが更新されてもよい。これにより、ニューラルネットワークのパラメータが適切に調整され得る。

　［補足］
　本実施の形態における画像処理装置１００は、画像を符号化する構成要素を含む符号化装置として利用されてもよいし、画像を復号する構成要素を含む復号装置として利用されてもよい。また、画像処理装置１００は、画像を符号化する構成要素、及び、画像を符復号する構成要素を含む符号化復号装置として利用されてもよい。

　また、画像処理装置１００は、動画像を構成する各画像を処理する動画像処理装置、動画像符号化装置、動画像復号装置、又は、動画像符号化復号装置として利用されてもよい。また、画像処理装置１００は、フィルタ装置として利用されてもよい。

　また、本実施の形態の少なくとも一部が、画像処理方法として利用されてもよいし、復号方法として利用されてもよいし、フィルタ方法として利用されてもよいし、その他の方法として利用されてもよい。

　また、上記の説明における処理グループ、畳み込みグループ及び残差グループは、それぞれ、処理ブロックセット、畳み込みブロックセット及び残差ブロックセットとも表現され得る。

　また、本実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　具体的には、画像処理装置１００は、処理回路（Ｐｒｏｃｅｓｓｉｎｇ　Ｃｉｒｃｕｉｔｒｙ）と、当該処理回路に電気的に接続された、当該処理回路からアクセス可能な記憶装置（Ｓｔｏｒａｇｅ）とを備えていてもよい。例えば、処理回路は回路１１０に対応し、記憶装置はメモリ１２０に対応する。

　処理回路は、専用のハードウェア及びプログラム実行部の少なくとも一方を含み、記憶装置を用いて処理を実行する。また、記憶装置は、処理回路がプログラム実行部を含む場合には、当該プログラム実行部により実行されるソフトウェアプログラムを記憶する。

　ここで、本実施の形態の画像処理装置１００などを実現するソフトウェアは、次のようなプログラムである。

　すなわち、このプログラムは、コンピュータに、原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像を前記原画像に近づけるための学習が行われたニューラルネットワークモデルを用いて、前記圧縮解除画像を前記原画像に近づける処理を行い、前記ニューラルネットワークモデルは、１つ以上の畳み込みブロックを含み、かつ、１つ以上の残差ブロックを含み、前記１つ以上の畳み込みブロックのそれぞれは、畳み込み層を含む処理ブロックであり、前記１つ以上の残差ブロックのそれぞれは、前記１つ以上の畳み込みブロックのうちの少なくとも１つで構成される畳み込みグループを含み、当該残差ブロックに入力されるデータを当該残差ブロックに含まれる前記畳み込みグループに入力し、かつ、当該残差ブロックに入力されるデータを前記畳み込みグループから出力されるデータに加える処理ブロックである画像処理方法を実行させてもよい。

　また、各構成要素は、上述の通り、回路であってもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路であってもよい。また、各構成要素は、汎用的なプロセッサで実現されてもよいし、専用のプロセッサで実現されてもよい。

　また、特定の構成要素が実行する処理を別の構成要素が実行してもよい。また、処理を実行する順番が変更されてもよいし、複数の処理が並行して実行されてもよい。また、第１及び第２等の序数が、適宜、構成要素などに対して与えられてもよい。

　以上、画像処理装置１００の態様について、実施の形態に基づいて説明したが、画像処理装置１００の態様は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、画像処理装置１００の範囲内に含まれてもよい。

　本態様は、本開示における他の態様の少なくとも一部と組み合わせて実施されてもよい。また、本態様の一部の処理又は一部の構成などが、他の態様と組み合わせて実施されてもよい。

　（実施の形態２）
　以上の各実施の形態において、機能ブロックの各々は、通常、ＭＰＵ及びメモリ等によって実現可能である。また、機能ブロックの各々による処理は、通常、プロセッサなどのプログラム実行部が、ＲＯＭ等の記録媒体に記録されたソフトウェア（プログラム）を読み出して実行することで実現される。当該ソフトウェアはダウンロード等により配布されてもよいし、半導体メモリなどの記録媒体に記録して配布されてもよい。なお、各機能ブロックをハードウェア（専用回路）によって実現することも、当然、可能である。

　また、各実施の形態において説明した処理は、単一の装置（システム）を用いて集中処理することによって実現してもよく、又は、複数の装置を用いて分散処理することによって実現してもよい。また、上記プログラムを実行するプロセッサは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、又は分散処理を行ってもよい。

　本開示の態様は、以上の実施例に限定されることなく、種々の変更が可能であり、それらも本開示の態様の範囲内に包含される。

　さらにここで、上記各実施の形態で示した動画像符号化方法（画像符号化方法）又は動画像復号化方法（画像復号方法）の応用例とそれを用いたシステムを説明する。当該システムは、画像符号化方法を用いた画像符号化装置、画像復号方法を用いた画像復号装置、及び両方を備える画像符号化復号装置を有することを特徴とする。システムにおける他の構成について、場合に応じて適切に変更することができる。

　［使用例］
　図１０は、コンテンツ配信サービスを実現するコンテンツ供給システムｅｘ１００の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ｅｘ１０６、ｅｘ１０７、ｅｘ１０８、ｅｘ１０９、ｅｘ１１０が設置されている。

　このコンテンツ供給システムｅｘ１００では、インターネットｅｘ１０１に、インターネットサービスプロバイダｅｘ１０２又は通信網ｅｘ１０４、及び基地局ｅｘ１０６～ｅｘ１１０を介して、コンピュータｅｘ１１１、ゲーム機ｅｘ１１２、カメラｅｘ１１３、家電ｅｘ１１４、及びスマートフォンｅｘ１１５などの各機器が接続される。当該コンテンツ供給システムｅｘ１００は、上記のいずれかの要素を組合せて接続するようにしてもよい。固定無線局である基地局ｅｘ１０６～ｅｘ１１０を介さずに、各機器が電話網又は近距離無線等を介して直接的又は間接的に相互に接続されていてもよい。また、ストリーミングサーバｅｘ１０３は、インターネットｅｘ１０１等を介して、コンピュータｅｘ１１１、ゲーム機ｅｘ１１２、カメラｅｘ１１３、家電ｅｘ１１４、及びスマートフォンｅｘ１１５などの各機器と接続される。また、ストリーミングサーバｅｘ１０３は、衛星ｅｘ１１６を介して、飛行機ｅｘ１１７内のホットスポット内の端末等と接続される。

　なお、基地局ｅｘ１０６～ｅｘ１１０の代わりに、無線アクセスポイント又はホットスポット等が用いられてもよい。また、ストリーミングサーバｅｘ１０３は、インターネットｅｘ１０１又はインターネットサービスプロバイダｅｘ１０２を介さずに直接通信網ｅｘ１０４と接続されてもよいし、衛星ｅｘ１１６を介さず直接飛行機ｅｘ１１７と接続されてもよい。

　カメラｅｘ１１３はデジタルカメラ等の静止画撮影、及び動画撮影が可能な機器である。また、スマートフォンｅｘ１１５は、一般に２Ｇ、３Ｇ、３．９Ｇ、４Ｇ、そして今後は５Ｇと呼ばれる移動通信システムの方式に対応したスマートフォン機、携帯電話機、又はＰＨＳ（Ｐｅｒｓｏｎａｌ　Ｈａｎｄｙｐｈｏｎｅ　Ｓｙｓｔｅｍ）等である。

　家電ｅｘ１１８は、冷蔵庫、又は家庭用燃料電池コージェネレーションシステムに含まれる機器等である。

　コンテンツ供給システムｅｘ１００では、撮影機能を有する端末が基地局ｅｘ１０６等を通じてストリーミングサーバｅｘ１０３に接続されることで、ライブ配信等が可能になる。ライブ配信では、端末（コンピュータｅｘ１１１、ゲーム機ｅｘ１１２、カメラｅｘ１１３、家電ｅｘ１１４、スマートフォンｅｘ１１５、及び飛行機ｅｘ１１７内の端末等）は、ユーザが当該端末を用いて撮影した静止画又は動画コンテンツに対して上記各実施の形態で説明した符号化処理を行い、符号化により得られた映像データと、映像に対応する音を符号化した音データと多重化し、得られたデータをストリーミングサーバｅｘ１０３に送信する。即ち、各端末は、本開示の一態様に係る画像符号化装置として機能する。

　一方、ストリーミングサーバｅｘ１０３は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントは、上記符号化処理されたデータを復号化することが可能な、コンピュータｅｘ１１１、ゲーム機ｅｘ１１２、カメラｅｘ１１３、家電ｅｘ１１４、スマートフォンｅｘ１１５、又は飛行機ｅｘ１１７内の端末等である。配信されたデータを受信した各機器は、受信したデータを復号化処理して再生する。即ち、各機器は、本開示の一態様に係る画像復号装置として機能する。

　［分散処理］
　また、ストリーミングサーバｅｘ１０３は複数のサーバ又は複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。例えば、ストリーミングサーバｅｘ１０３は、ＣＤＮ（Ｃｏｎｔｅｎｔｓ　Ｄｅｌｉｖｅｒｙ　Ｎｅｔｗｏｒｋ）により実現され、世界中に分散された多数のエッジサーバとエッジサーバ間をつなぐネットワークによりコンテンツ配信が実現されていてもよい。ＣＤＮでは、クライアントに応じて物理的に近いエッジサーバが動的に割り当てられる。そして、当該エッジサーバにコンテンツがキャッシュ及び配信されることで遅延を減らすことができる。また、何らかのエラーが発生した場合又はトラフィックの増加などにより通信状態が変わる場合に複数のエッジサーバで処理を分散したり、他のエッジサーバに配信主体を切り替えたり、障害が生じたネットワークの部分を迂回して配信を続けることができるので、高速かつ安定した配信が実現できる。

　また、配信自体の分散処理にとどまらず、撮影したデータの符号化処理を各端末で行ってもよいし、サーバ側で行ってもよいし、互いに分担して行ってもよい。一例として、一般に符号化処理では、処理ループが２度行われる。１度目のループでフレーム又はシーン単位での画像の複雑さ、又は、符号量が検出される。また、２度目のループでは画質を維持して符号化効率を向上させる処理が行われる。例えば、端末が１度目の符号化処理を行い、コンテンツを受け取ったサーバ側が２度目の符号化処理を行うことで、各端末での処理負荷を減らしつつもコンテンツの質と効率を向上させることができる。この場合、ほぼリアルタイムで受信して復号する要求があれば、端末が行った一度目の符号化済みデータを他の端末で受信して再生することもできるので、より柔軟なリアルタイム配信も可能になる。

　他の例として、カメラｅｘ１１３等は、画像から特徴量抽出を行い、特徴量に関するデータをメタデータとして圧縮してサーバに送信する。サーバは、例えば特徴量からオブジェクトの重要性を判断して量子化精度を切り替えるなど、画像の意味に応じた圧縮を行う。特徴量データはサーバでの再度の圧縮時の動きベクトル予測の精度及び効率向上に特に有効である。また、端末でＶＬＣ（可変長符号化）などの簡易的な符号化を行い、サーバでＣＡＢＡＣ（コンテキスト適応型二値算術符号化方式）など処理負荷の大きな符号化を行ってもよい。

　さらに他の例として、スタジアム、ショッピングモール、又は工場などにおいては、複数の端末によりほぼ同一のシーンが撮影された複数の映像データが存在する場合がある。この場合には、撮影を行った複数の端末と、必要に応じて撮影をしていない他の端末及びサーバを用いて、例えばＧＯＰ（Ｇｒｏｕｐ　ｏｆ　Ｐｉｃｔｕｒｅ）単位、ピクチャ単位、又はピクチャを分割したタイル単位などで符号化処理をそれぞれ割り当てて分散処理を行う。これにより、遅延を減らし、よりリアルタイム性を実現できる。

　また、複数の映像データはほぼ同一シーンであるため、各端末で撮影された映像データを互いに参照し合えるように、サーバで管理及び／又は指示をしてもよい。または、各端末からの符号化済みデータを、サーバが受信し複数のデータ間で参照関係を変更、又はピクチャ自体を補正或いは差し替えて符号化しなおしてもよい。これにより、一つ一つのデータの質と効率を高めたストリームを生成できる。

　また、サーバは、映像データの符号化方式を変更するトランスコードを行ったうえで映像データを配信してもよい。例えば、サーバは、ＭＰＥＧ系の符号化方式をＶＰ系に変換してもよいし、Ｈ．２６４をＨ．２６５に変換してもよい。

　このように、符号化処理は、端末、又は１以上のサーバにより行うことが可能である。よって、以下では、処理を行う主体として「サーバ」又は「端末」等の記載を用いるが、サーバで行われる処理の一部又は全てが端末で行われてもよいし、端末で行われる処理の一部又は全てがサーバで行われてもよい。また、これらに関しては、復号処理についても同様である。

　［３Ｄ、マルチアングル］
　近年では、互いにほぼ同期した複数のカメラｅｘ１１３及び／又はスマートフォンｅｘ１１５などの端末により撮影された異なるシーン、又は、同一シーンを異なるアングルから撮影した画像或いは映像を統合して利用することも増えてきている。各端末で撮影した映像は、別途取得した端末間の相対的な位置関係、又は、映像に含まれる特徴点が一致する領域などに基づいて統合される。

　サーバは、２次元の動画像を符号化するだけでなく、動画像のシーン解析などに基づいて自動的に、又は、ユーザが指定した時刻において、静止画を符号化し、受信端末に送信してもよい。サーバは、さらに、撮影端末間の相対的な位置関係を取得できる場合には、２次元の動画像だけでなく、同一シーンが異なるアングルから撮影された映像に基づき、当該シーンの３次元形状を生成できる。なお、サーバは、ポイントクラウドなどにより生成した３次元のデータを別途符号化してもよいし、３次元データを用いて人物又はオブジェクトを認識或いは追跡した結果に基づいて、受信端末に送信する映像を、複数の端末で撮影した映像から選択、又は、再構成して生成してもよい。

　このようにして、ユーザは、各撮影端末に対応する各映像を任意に選択してシーンを楽しむこともできるし、複数画像又は映像を用いて再構成された３次元データから任意視点の映像を切り出したコンテンツを楽しむこともできる。さらに、映像と同様に音も複数の相異なるアングルから収音され、サーバは、映像に合わせて特定のアングル又は空間からの音を映像と多重化して送信してもよい。

　また、近年ではＶｉｒｔｕａｌ　Ｒｅａｌｉｔｙ（ＶＲ）及びＡｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ（ＡＲ）など、現実世界と仮想世界とを対応付けたコンテンツも普及してきている。ＶＲの画像の場合、サーバは、右目用及び左目用の視点画像をそれぞれ作成し、Ｍｕｌｔｉ－Ｖｉｅｗ　Ｃｏｄｉｎｇ（ＭＶＣ）などにより各視点映像間で参照を許容する符号化を行ってもよいし、互いに参照せずに別ストリームとして符号化してもよい。別ストリームの復号時には、ユーザの視点に応じて仮想的な３次元空間が再現されるように互いに同期させて再生するとよい。

　ＡＲの画像の場合には、サーバは、現実空間のカメラ情報に、仮想空間上の仮想物体情報を、３次元的位置又はユーザの視点の動きに基づいて重畳する。復号装置は、仮想物体情報及び３次元データを取得又は保持し、ユーザの視点の動きに応じて２次元画像を生成し、スムーズにつなげることで重畳データを作成してもよい。または、復号装置は仮想物体情報の依頼に加えてユーザの視点の動きをサーバに送信し、サーバは、サーバに保持される３次元データから受信した視点の動きに合わせて重畳データを作成し、重畳データを符号化して復号装置に配信してもよい。なお、重畳データは、ＲＧＢ以外に透過度を示すα値を有し、サーバは、３次元データから作成されたオブジェクト以外の部分のα値が０などに設定し、当該部分が透過する状態で、符号化してもよい。もしくは、サーバは、クロマキーのように所定の値のＲＧＢ値を背景に設定し、オブジェクト以外の部分は背景色にしたデータを生成してもよい。

　同様に配信されたデータの復号処理はクライアントである各端末で行っても、サーバ側で行ってもよいし、互いに分担して行ってもよい。一例として、ある端末が、一旦サーバに受信リクエストを送り、そのリクエストに応じたコンテンツを他の端末で受信し復号処理を行い、ディスプレイを有する装置に復号済みの信号が送信されてもよい。通信可能な端末自体の性能によらず処理を分散して適切なコンテンツを選択することで画質のよいデータを再生することができる。また、他の例として大きなサイズの画像データをＴＶ等で受信しつつ、鑑賞者の個人端末にピクチャが分割されたタイルなど一部の領域が復号されて表示されてもよい。これにより、全体像を共有化しつつ、自身の担当分野又はより詳細に確認したい領域を手元で確認することができる。

　また今後は、屋内外にかかわらず近距離、中距離、又は長距離の無線通信が複数使用可能な状況下で、ＭＰＥＧ－ＤＡＳＨなどの配信システム規格を利用して、接続中の通信に対して適切なデータを切り替えながらシームレスにコンテンツを受信することが予想される。これにより、ユーザは、自身の端末のみならず屋内外に設置されたディスプレイなどの復号装置又は表示装置を自由に選択しながらリアルタイムで切り替えられる。また、自身の位置情報などに基づいて、復号する端末及び表示する端末を切り替えながら復号を行うことができる。これにより、目的地への移動中に、表示可能なデバイスが埋め込まれた隣の建物の壁面又は地面の一部に地図情報を表示させながら移動することも可能になる。また、符号化データが受信端末から短時間でアクセスできるサーバにキャッシュされている、又は、コンテンツ・デリバリー・サービスにおけるエッジサーバにコピーされている、などの、ネットワーク上での符号化データへのアクセス容易性に基づいて、受信データのビットレートを切り替えることも可能である。

　［スケーラブル符号化］
　コンテンツの切り替えに関して、図１１に示す、上記各実施の形態で示した動画像符号化方法を応用して圧縮符号化されたスケーラブルなストリームを用いて説明する。サーバは、個別のストリームとして内容は同じで質の異なるストリームを複数有していても構わないが、図示するようにレイヤに分けて符号化を行うことで実現される時間的／空間的スケーラブルなストリームの特徴を活かして、コンテンツを切り替える構成であってもよい。つまり、復号側が性能という内的要因と通信帯域の状態などの外的要因とに応じてどのレイヤまで復号するかを決定することで、復号側は、低解像度のコンテンツと高解像度のコンテンツとを自由に切り替えて復号できる。例えば移動中にスマートフォンｅｘ１１５で視聴していた映像の続きを、帰宅後にインターネットＴＶ等の機器で視聴したい場合には、当該機器は、同じストリームを異なるレイヤまで復号すればよいので、サーバ側の負担を軽減できる。

　さらに、上記のように、レイヤ毎にピクチャが符号化されており、ベースレイヤの上位にエンハンスメントレイヤが存在するスケーラビリティを実現する構成以外に、エンハンスメントレイヤが画像の統計情報などに基づくメタ情報を含み、復号側が、メタ情報に基づきベースレイヤのピクチャを超解像することで高画質化したコンテンツを生成してもよい。超解像とは、同一解像度におけるＳＮ比の向上、及び、解像度の拡大のいずれであってもよい。メタ情報は、超解像処理に用いる線形或いは非線形のフィルタ係数を特定するため情報、又は、超解像処理に用いるフィルタ処理、機械学習或いは最小２乗演算におけるパラメータ値を特定する情報などを含む。

　または、画像内のオブジェクトなどの意味合いに応じてピクチャがタイル等に分割されており、復号側が、復号するタイルを選択することで一部の領域だけを復号する構成であってもよい。また、オブジェクトの属性（人物、車、ボールなど）と映像内の位置（同一画像における座標位置など）とをメタ情報として格納することで、復号側は、メタ情報に基づいて所望のオブジェクトの位置を特定し、そのオブジェクトを含むタイルを決定できる。例えば、図１２に示すように、メタ情報は、ＨＥＶＣにおけるＳＥＩメッセージなど画素データとは異なるデータ格納構造を用いて格納される。このメタ情報は、例えば、メインオブジェクトの位置、サイズ、又は色彩などを示す。

　また、ストリーム、シーケンス又はランダムアクセス単位など、複数のピクチャから構成される単位でメタ情報が格納されてもよい。これにより、復号側は、特定人物が映像内に出現する時刻などが取得でき、ピクチャ単位の情報と合わせることで、オブジェクトが存在するピクチャ、及び、ピクチャ内でのオブジェクトの位置を特定できる。

　［Ｗｅｂページの最適化］
　図１３は、コンピュータｅｘ１１１等におけるｗｅｂページの表示画面例を示す図である。図１４は、スマートフォンｅｘ１１５等におけるｗｅｂページの表示画面例を示す図である。図１３及び図１４に示すようにｗｅｂページが、画像コンテンツへのリンクであるリンク画像を複数含む場合があり、閲覧するデバイスによってその見え方は異なる。画面上に複数のリンク画像が見える場合には、ユーザが明示的にリンク画像を選択するまで、又は画面の中央付近にリンク画像が近付く或いはリンク画像の全体が画面内に入るまでは、表示装置（復号装置）は、リンク画像として各コンテンツが有する静止画又はＩピクチャを表示したり、複数の静止画又はＩピクチャ等でｇｉｆアニメのような映像を表示したり、ベースレイヤのみ受信して映像を復号及び表示したりする。

　ユーザによりリンク画像が選択された場合、表示装置は、ベースレイヤを最優先にして復号する。なお、ｗｅｂページを構成するＨＴＭＬにスケーラブルなコンテンツであることを示す情報があれば、表示装置は、エンハンスメントレイヤまで復号してもよい。また、リアルタイム性を担保するために、選択される前又は通信帯域が非常に厳しい場合には、表示装置は、前方参照のピクチャ（Ｉピクチャ、Ｐピクチャ、前方参照のみのＢピクチャ）のみを復号及び表示することで、先頭ピクチャの復号時刻と表示時刻との間の遅延（コンテンツの復号開始から表示開始までの遅延）を低減できる。また、表示装置は、ピクチャの参照関係を敢えて無視して全てのＢピクチャ及びＰピクチャを前方参照にして粗く復号し、時間が経ち受信したピクチャが増えるにつれて正常の復号を行ってもよい。

　［自動走行］
　また、車の自動走行又は走行支援のため２次元又は３次元の地図情報などの静止画又は映像データを送受信する場合、受信端末は、１以上のレイヤに属する画像データに加えて、メタ情報として天候又は工事の情報なども受信し、これらを対応付けて復号してもよい。なお、メタ情報は、レイヤに属してもよいし、単に画像データと多重化されてもよい。

　この場合、受信端末を含む車、ドローン又は飛行機などが移動するため、受信端末は、当該受信端末の位置情報を受信要求時に送信することで、基地局ｅｘ１０６～ｅｘ１１０を切り替えながらシームレスな受信及び復号を実現できる。また、受信端末は、ユーザの選択、ユーザの状況又は通信帯域の状態に応じて、メタ情報をどの程度受信するか、又は地図情報をどの程度更新していくかを動的に切り替えることが可能になる。

　以上のようにして、コンテンツ供給システムｅｘ１００では、ユーザが送信した符号化された情報をリアルタイムでクライアントが受信して復号し、再生することができる。

　［個人コンテンツの配信］
　また、コンテンツ供給システムｅｘ１００では、映像配信業者による高画質で長時間のコンテンツのみならず、個人による低画質で短時間のコンテンツのユニキャスト、又はマルチキャスト配信が可能である。また、このような個人のコンテンツは今後も増加していくと考えられる。個人コンテンツをより優れたコンテンツにするために、サーバは、編集処理を行ってから符号化処理を行ってもよい。これは例えば、以下のような構成で実現できる。

　撮影時にリアルタイム又は蓄積して撮影後に、サーバは、原画又は符号化済みデータから撮影エラー、シーン探索、意味の解析、及びオブジェクト検出などの認識処理を行う。そして、サーバは、認識結果に基いて手動又は自動で、ピントずれ又は手ブレなどを補正したり、明度が他のピクチャに比べて低い又は焦点が合っていないシーンなどの重要性の低いシーンを削除したり、オブジェクトのエッジを強調したり、色合いを変化させるなどの編集を行う。サーバは、編集結果に基いて編集後のデータを符号化する。また撮影時刻が長すぎると視聴率が下がることも知られており、サーバは、撮影時間に応じて特定の時間範囲内のコンテンツになるように上記のように重要性が低いシーンのみならず動きが少ないシーンなどを、画像処理結果に基き自動でクリップしてもよい。または、サーバは、シーンの意味解析の結果に基づいてダイジェストを生成して符号化してもよい。

　なお、個人コンテンツには、そのままでは著作権、著作者人格権、又は肖像権等の侵害となるものが写り込んでいるケースもあり、共有する範囲が意図した範囲を超えてしまうなど個人にとって不都合な場合もある。よって、例えば、サーバは、画面の周辺部の人の顔、又は家の中などを敢えて焦点が合わない画像に変更して符号化してもよい。また、サーバは、符号化対象画像内に、予め登録した人物とは異なる人物の顔が映っているかどうかを認識し、映っている場合には、顔の部分にモザイクをかけるなどの処理を行ってもよい。または、符号化の前処理又は後処理として、著作権などの観点からユーザが画像を加工したい人物又は背景領域を指定し、サーバは、指定された領域を別の映像に置き換える、又は焦点をぼかすなどの処理を行うことも可能である。人物であれば、動画像において人物をトラッキングしながら、顔の部分の映像を置き換えることができる。

　また、データ量の小さい個人コンテンツの視聴はリアルタイム性の要求が強いため、帯域幅にもよるが、復号装置は、まずベースレイヤを最優先で受信して復号及び再生を行う。復号装置は、この間にエンハンスメントレイヤを受信し、再生がループされる場合など２回以上再生される場合に、エンハンスメントレイヤも含めて高画質の映像を再生してもよい。このようにスケーラブルな符号化が行われているストリームであれば、未選択時又は見始めた段階では粗い動画だが、徐々にストリームがスマートになり画像がよくなるような体験を提供することができる。スケーラブル符号化以外にも、１回目に再生される粗いストリームと、１回目の動画を参照して符号化される２回目のストリームとが１つのストリームとして構成されていても同様の体験を提供できる。

　［その他の使用例］
　また、これらの符号化又は復号処理は、一般的に各端末が有するＬＳＩｅｘ５００において処理される。ＬＳＩｅｘ５００は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化又は復号用のソフトウェアをコンピュータｅｘ１１１等で読み取り可能な何らかの記録メディア（ＣＤ－ＲＯＭ、フレキシブルディスク、又はハードディスクなど）に組み込み、そのソフトウェアを用いて符号化又は復号処理を行ってもよい。さらに、スマートフォンｅｘ１１５がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データはスマートフォンｅｘ１１５が有するＬＳＩｅｘ５００で符号化処理されたデータである。

　なお、ＬＳＩｅｘ５００は、アプリケーションソフトをダウンロードしてアクティベートする構成であってもよい。この場合、端末は、まず、当該端末がコンテンツの符号化方式に対応しているか、又は、特定サービスの実行能力を有するかを判定する。端末がコンテンツの符号化方式に対応していない場合、又は、特定サービスの実行能力を有さない場合、端末は、コーデック又はアプリケーションソフトをダウンロードし、その後、コンテンツ取得及び再生する。

　また、インターネットｅｘ１０１を介したコンテンツ供給システムｅｘ１００に限らず、デジタル放送用システムにも上記各実施の形態の少なくとも動画像符号化装置（画像符号化装置）又は動画像復号化装置（画像復号装置）のいずれかを組み込むことができる。衛星などを利用して放送用の電波に映像と音が多重化された多重化データを載せて送受信するため、コンテンツ供給システムｅｘ１００のユニキャストがし易い構成に対してマルチキャスト向きであるという違いがあるが符号化処理及び復号処理に関しては同様の応用が可能である。

　［ハードウェア構成］
　図１５は、スマートフォンｅｘ１１５を示す図である。また、図１６は、スマートフォンｅｘ１１５の構成例を示す図である。スマートフォンｅｘ１１５は、基地局ｅｘ１１０との間で電波を送受信するためのアンテナｅｘ４５０と、映像及び静止画を撮ることが可能なカメラ部ｅｘ４６５と、カメラ部ｅｘ４６５で撮像した映像、及びアンテナｅｘ４５０で受信した映像等が復号されたデータを表示する表示部ｅｘ４５８とを備える。スマートフォンｅｘ１１５は、さらに、タッチパネル等である操作部ｅｘ４６６と、音声又は音響を出力するためのスピーカ等である音声出力部ｅｘ４５７と、音声を入力するためのマイク等である音声入力部ｅｘ４５６と、撮影した映像或いは静止画、録音した音声、受信した映像或いは静止画、メール等の符号化されたデータ、又は、復号化されたデータを保存可能なメモリ部ｅｘ４６７と、ユーザを特定し、ネットワークをはじめ各種データへのアクセスの認証をするためのＳＩＭｅｘ４６８とのインタフェース部であるスロット部ｅｘ４６４とを備える。なお、メモリ部ｅｘ４６７の代わりに外付けメモリが用いられてもよい。

　また、表示部ｅｘ４５８及び操作部ｅｘ４６６等を統括的に制御する主制御部ｅｘ４６０と、電源回路部ｅｘ４６１、操作入力制御部ｅｘ４６２、映像信号処理部ｅｘ４５５、カメラインタフェース部ｅｘ４６３、ディスプレイ制御部ｅｘ４５９、変調／復調部ｅｘ４５２、多重／分離部ｅｘ４５３、音声信号処理部ｅｘ４５４、スロット部ｅｘ４６４、及びメモリ部ｅｘ４６７とがバスｅｘ４７０を介して接続されている。

　電源回路部ｅｘ４６１は、ユーザの操作により電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することによりスマートフォンｅｘ１１５を動作可能な状態に起動する。

　スマートフォンｅｘ１１５は、ＣＰＵ、ＲＯＭ及びＲＡＭ等を有する主制御部ｅｘ４６０の制御に基づいて、通話及データ通信等の処理を行う。通話時は、音声入力部ｅｘ４５６で収音した音声信号を音声信号処理部ｅｘ４５４でデジタル音声信号に変換し、これを変調／復調部ｅｘ４５２でスペクトラム拡散処理し、送信／受信部ｅｘ４５１でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナｅｘ４５０を介して送信する。また受信データを増幅して周波数変換処理及びアナログデジタル変換処理を施し、変調／復調部ｅｘ４５２でスペクトラム逆拡散処理し、音声信号処理部ｅｘ４５４でアナログ音声信号に変換した後、これを音声出力部ｅｘ４５７から出力する。データ通信モード時は、本体部の操作部ｅｘ４６６等の操作によってテキスト、静止画、又は映像データが操作入力制御部ｅｘ４６２を介して主制御部ｅｘ４６０に送出され、同様に送受信処理が行われる。データ通信モード時に映像、静止画、又は映像と音声を送信する場合、映像信号処理部ｅｘ４５５は、メモリ部ｅｘ４６７に保存されている映像信号又はカメラ部ｅｘ４６５から入力された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し、符号化された映像データを多重／分離部ｅｘ４５３に送出する。また、音声信号処理部ｅｘ４５４は、映像又は静止画等をカメラ部ｅｘ４６５で撮像中に音声入力部ｅｘ４５６で収音した音声信号を符号化し、符号化された音声データを多重／分離部ｅｘ４５３に送出する。多重／分離部ｅｘ４５３は、符号化済み映像データと符号化済み音声データを所定の方式で多重化し、変調／復調部（変調／復調回路部）ｅｘ４５２、及び送信／受信部ｅｘ４５１で変調処理及び変換処理を施してアンテナｅｘ４５０を介して送信する。

　電子メール又はチャットに添付された映像、又はウェブページ等にリンクされた映像を受信した場合、アンテナｅｘ４５０を介して受信された多重化データを復号するために、多重／分離部ｅｘ４５３は、多重化データを分離することにより、多重化データを映像データのビットストリームと音声データのビットストリームとに分け、同期バスｅｘ４７０を介して符号化された映像データを映像信号処理部ｅｘ４５５に供給するとともに、符号化された音声データを音声信号処理部ｅｘ４５４に供給する。映像信号処理部ｅｘ４５５は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって映像信号を復号し、ディスプレイ制御部ｅｘ４５９を介して表示部ｅｘ４５８から、リンクされた動画像ファイルに含まれる映像又は静止画が表示される。また音声信号処理部ｅｘ４５４は、音声信号を復号し、音声出力部ｅｘ４５７から音声が出力される。なおリアルタイムストリーミングが普及しているため、ユーザの状況によっては音声の再生が社会的にふさわしくない場も起こりえる。そのため、初期値としては、音声信号は再生せず映像データのみを再生する構成の方が望ましい。ユーザが映像データをクリックするなど操作を行った場合にのみ音声を同期して再生してもよい。

　またここではスマートフォンｅｘ１１５を例に説明したが、端末としては符号化器及び復号化器を両方持つ送受信型端末の他に、符号化器のみを有する送信端末、及び、復号化器のみを有する受信端末という３通りの実装形式が考えられる。さらに、デジタル放送用システムにおいて、映像データに音声データなどが多重化された多重化データを受信又は送信するとして説明したが、多重化データには、音声データ以外に映像に関連する文字データなどが多重化されてもよいし、多重化データではなく映像データ自体が受信又は送信されてもよい。

　なお、ＣＰＵを含む主制御部ｅｘ４６０が符号化又は復号処理を制御するとして説明したが、端末はＧＰＵを備えることも多い。よって、ＣＰＵとＧＰＵで共通化されたメモリ、又は共通に使用できるようにアドレスが管理されているメモリにより、ＧＰＵの性能を活かして広い領域を一括して処理する構成でもよい。これにより符号化時間を短縮でき、リアルタイム性を確保し、低遅延を実現できる。特に動き探索、デブロックフィルタ、ＳＡＯ（Ｓａｍｐｌｅ　Ａｄａｐｔｉｖｅ　Ｏｆｆｓｅｔ）、及び変換・量子化の処理を、ＣＰＵではなく、ＧＰＵでピクチャなどの単位で一括して行うと効率的である。

　本開示は、例えば、テレビジョン受像機、デジタルビデオレコーダー、カーナビゲーション、携帯電話、デジタルカメラ、デジタルビデオカメラ、テレビ会議システム、又は、電子ミラー等に利用可能である。

　　１００　画像処理装置
　　１１０　回路
　　１２０　メモリ
　　２００　コーデックシステム
　　２１０　符号化装置
　　２１１　画像符号化部
　　２２０　復号装置
　　２２１　画像復号部
　　３００　後処理フィルタ
　　３１０、３３０、５２０　畳み込みブロック
　　３１１　畳み込み層
　　３１２　非線形活性化関数
　　３１３　正規化層
　　３２０　残差ブロック
　　４１０　畳み込みグループ
　　４２０　残差グループ
　　６１０　特徴抽出
　　６２０　特徴変換
　　６３０　特徴調整

Claims

　メモリと、
　前記メモリにアクセス可能な回路とを備え、
　前記メモリにアクセス可能な前記回路は、原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像を前記原画像に近づけるための学習が行われたニューラルネットワークモデルを用いて、前記圧縮解除画像を前記原画像に近づける処理を行い、
　前記ニューラルネットワークモデルは、１つ以上の畳み込みブロックを含み、かつ、１つ以上の残差ブロックを含み、
　前記１つ以上の畳み込みブロックのそれぞれは、畳み込み層を含む処理ブロックであり、
　前記１つ以上の残差ブロックのそれぞれは、前記１つ以上の畳み込みブロックのうちの少なくとも１つで構成される畳み込みグループを含み、当該残差ブロックに入力されるデータを当該残差ブロックに含まれる前記畳み込みグループに入力し、かつ、当該残差ブロックに入力されるデータを前記畳み込みグループから出力されるデータに加える処理ブロックである
　画像処理装置。
　前記１つ以上の畳み込みブロックは、２つ以上の畳み込みブロックである
　請求項１に記載の画像処理装置。
　前記１つ以上の残差ブロックは、２つ以上の残差ブロックである
　請求項２に記載の画像処理装置。
　前記１つ以上の畳み込みブロックは、３つ以上の畳み込みブロックであり、
　前記１つ以上の残差ブロックは、残差グループを構成し、前記３つ以上の畳み込みブロックのうちの少なくとも１つの畳み込みブロックを含み、
　前記３つ以上の畳み込みブロックのうち前記残差グループに含まれない少なくとも１つの畳み込みブロックは、第１畳み込みグループを構成し、
　前記３つ以上の畳み込みブロックのうち前記残差グループにも前記第１畳み込みグループにも含まれない少なくとも１つの畳み込みブロックは、第２畳み込みグループを構成し、
　前記第１畳み込みグループから出力されるデータは、前記残差グループに入力され、
　前記残差グループから出力されるデータは、前記第２畳み込みグループに入力される
　請求項１～３のいずれか１項に記載の画像処理装置。
　前記ニューラルネットワークモデルは、前記１つ以上の畳み込みブロック及び前記１つ以上の残差ブロックで構成される処理グループを含み、
　前記ニューラルネットワークモデルに入力されるデータは、前記処理グループに入力され、かつ、前記ニューラルネットワークモデルに入力されるデータは、前記処理グループから出力されるデータに加えられて、前記ニューラルネットワークモデルから出力される
　請求項１～４のいずれか１項に記載の画像処理装置。
　前記１つ以上の残差ブロックのそれぞれに含まれる前記畳み込みグループは、前記２つ以上の畳み込みブロックのうちの少なくとも２つで構成される
　請求項２に記載の画像処理装置。
　原画像に対する圧縮及び圧縮解除の結果である圧縮解除画像を前記原画像に近づけるための学習が行われたニューラルネットワークモデルを用いて、前記圧縮解除画像を前記原画像に近づける処理を行い、
　前記ニューラルネットワークモデルは、１つ以上の畳み込みブロックを含み、かつ、１つ以上の残差ブロックを含み、
　前記１つ以上の畳み込みブロックのそれぞれは、畳み込み層を含む処理ブロックであり、
　前記１つ以上の残差ブロックのそれぞれは、前記１つ以上の畳み込みブロックのうちの少なくとも１つで構成される畳み込みグループを含み、当該残差ブロックに入力されるデータを当該残差ブロックに含まれる前記畳み込みグループに入力し、かつ、当該残差ブロックに入力されるデータを前記畳み込みグループから出力されるデータに加える処理ブロックである
　画像処理方法。