WO2020255367A1

WO2020255367A1 - 符号化装置、符号化方法及びプログラム

Info

Publication number: WO2020255367A1
Application number: PCT/JP2019/024637
Authority: WO
Inventors: 翔太折橋; 忍工藤; 隆一谷田; 清水　淳
Original assignee: 日本電信電話株式会社
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2020-12-24
Also published as: JPWO2020255367A1; JP7303456B2; US20220337830A1

Abstract

符号化装置は、原画像を符号化する符号化装置であって、原画像を複数の領域であるブロックに分割し、複数のブロックを取得する分割部と、補間対象とするか否かを、ブロックごとに判定する判定部と、補間対象にすると判定されたブロックを構成する画素値を、判定されたブロックの符号量を少なくする値に置き換える置換部とを備え、判定部は、イントラ予測又はインター予測によるブロックの画像の予測精度と、補間対象の領域が生成されたものである度合いと、に基づく評価を用いて、判定対象の領域を補間対象の領域とするか否かを判定する。

Description

符号化装置、符号化方法及びプログラム

　本発明は、符号化装置、符号化方法及びプログラムに関する。

　動画像データを圧縮するための標準規格として、ＭＰＥＧ（Moving Picture Experts Group）－４、Ｈ．２６４／ＡＶＣ（Advanced Video Coding）、Ｈ．２６５／ＨＥＶＣ（High Efficiency Video Coding）（以下「ＨＥＶＣ」という。）が知られている。また、ＨＥＶＣに次ぐ新たな規格の標準化の検討が進められている。

　これらの規格の符号化方式は、原画像と復号画像とが画素単位で一致することを目指す符号化方式である。これらの規格では、画素間の時空間方向の相関に基づいて、予測画像が生成される。符号化装置は、予測画像及び原画像の間の残差を導出し送信することによって、符号量を削減する。しかしながら、テクスチャのような複雑な画像（平坦でない画像）を含む原画像に対しては予測効率が低下するので、符号化効率は低下する。

　このような符号化方式とは異なり、原画像における一部の領域を符号化装置が欠損させ、一部の領域が欠損している原画像（以下「欠損画像」という。）が符号化される方式が提案されている（非特許文献１参照）。符号化装置は、欠損画像の符号化データを、復号装置に送信する。欠損画像の情報量が原画像の情報量と比較して少ないので、欠損画像の符号化データのデータ量は、原画像の符号化データのデータ量と比較して少ない。復号装置は、復号された欠損画像において欠損している各領域の画像を、所定の方法で擬似的に生成する。復号装置は、欠損画像において欠損している各領域に、擬似的に生成された各画像を補間することによって、復元された画像（以下「復元画像」という。）を生成する。

　非特許文献１では、復号装置において、畳み込みニューラルネットワークが、画像補間処理によって復元画像を生成する。符号化装置は、画像が補間される対象の領域（以下「補間対象領域」という。）を、原画像において欠損させる。これによって、原画像の情報量が削減されるので、主観画質に基づく符号化効率を符号化装置が向上させることができる。

　符号化装置は、補間対象領域とするか、又は、画像が補間されない領域（補間対象領域以外の領域）（以下「非補間領域」という。）とするかを、原画像において領域ごとに判定する。補間対象領域とするか否かが適切に判定された場合、符号化効率の向上が期待できる。しかしながら、補間対象領域とするか否かを符号化装置が適切に判定する方法は確立されていない。

　ＨＥＶＣの参照ソフトウェア（HEVC Test Model : HM）を用いた符号化では、符号化モードが選択される際に、符号化モードに応じて生成された予測画像と原画像との差分に基づいて、コストが導出される。非特許文献２では、符号化モードが選択される際に、符号化モードに応じて生成された予測画像と原画像との差分に基づいて、符号化歪Ｄが導出される。符号化歪「Ｄ」に基づく符号化モードのコスト「Ｊ」は、式（１）のように表される。符号化装置は、コストが最小となる符号化モードを選択する（非特許文献２参照）。

　ここで、Ｒは、符号化モードに応じて生じる符号量を表す。λは、ラグランジュ乗数（定数）を表す。

　非特許文献２では、符号化歪の評価の尺度として、二乗誤差和（以下「ＳＳＥ」という。）、絶対値誤差和又はアダマール変換絶対値誤差和が用いられる。符号化歪の評価の尺度は、予測画像と原画像との画素ごとの差分に基づいて導出される。例えば、「ｉ×ｊ」個の画素群でそれぞれ構成されるブロック「ＢｌｏｃｋＡ」及びブロック「ＢｌｏｃｋＢ」を用いて、ＳＳＥは、式（２）のように表わされる。

　これを、非特許文献１での符号化装置における、補間対象領域とするか否かを判定する処理に用いる場合、符号化装置は、領域が補間対象領域と判定された場合のコストと、同じ領域が非補間領域と判定された場合のコストとを、予測画像と原画像との画素ごとの差分を比較する評価関数を用いて、領域ごとに比較する。符号化装置は、コストを少なくする符号化モードを選択する。このようにして、符号化装置は、補間対象領域とするか否かを、領域ごとに判定する。復号装置は、画像補間処理によって復元画像を生成する。

折橋翔太, 工藤忍, 北原正樹, 清水淳, "敵対的生成ネットワークを用いた画像補間に基づく画像符号化方式," 信学技報, vol.118, no.113, IE2018-27, pp.33-38, Jun. 2018. K. McCann, C. Rosewarne, B. Bross, M. Naccari, K. Sharman, G. Sullivan, "High Efficiency Video Coding (HEVC) Test Model 16 (HM 16) Encoder Description," JCTVC-R1002, Oct. 2014.

　平坦な領域（複雑でない領域）で構成される原画像に対して上記の判定処理を符号化装置が行う場合、平坦な領域は補間処理によって画素単位で近い値を得ることができるため、画素ごとの差分を比較する評価関数を用いて補間対象領域を判定することができる。

　これに対して、複雑な領域（例えば、テクスチャの領域）を含む原画像に対して上記の判定処理を符号化装置が行う場合、複雑な領域は補間処理によって画素単位で近い値を得ることができない。従って、多くの情報量を要する複雑な領域を補間対象領域として符号化装置が判定することができないので、符号化効率は低下する。

　また、複雑な領域を含む原画像に対して、画素ごとの差分に基づいて符号化歪を評価する尺度を用いる場合、複雑な画像が補間対象領域に補間されるよりも、原画像の平均画像が補間対象領域に補間されるほうが、有意な補間として判定される。このため、復号装置は、原画像の平均画像が補間対象領域に補間された画像を復元画像としやすい。原画像の平均画像が補間された場合、復元画像にボケが生じやすいので、復元画像の主観画質は劣化する。

　そこで、原画像と復元画像とが画素単位では一致しないとしても、復元画像の主観画質が良好となるように、補間対象領域を適切に判定する方法が望まれている。

　上記事情に鑑み、本発明は、復元画像の主観画質が良好となるように、入力された原画像における補間対象領域を判定することが可能である符号化装置、符号化方法及びプログラムを提供することを目的としている。

　本発明の一態様は、原画像を符号化する符号化装置であって、前記原画像を複数の領域であるブロックに分割し、複数の前記ブロックを取得する分割部と、補間対象とするか否かを、前記ブロックごとに判定する判定部と、前記補間対象にすると判定されたブロックを構成する画素値を、前記判定されたブロックの符号量を少なくする値に置き換える置換部とを備え、前記判定部は、イントラ予測又はインター予測による前記ブロックの画像の予測精度と、前記補間対象の領域が生成されたものである度合いと、に基づく評価を用いて、判定対象の領域を前記補間対象の領域とするか否かを判定する、符号化装置である。

　本発明により、復元画像の主観画質が良好となるように、原画像に対する補間対象領域を判定することが可能である。

第１実施形態における、符号化装置の構成例を示す図である。第１実施形態における、符号化装置のハードウェア構成の例を示す図である。第１実施形態における、ＨＥＶＣのブロック分割の例を示す図である。第１実施形態における、判定対象ブロックの例を示す図である。第１実施形態における、符号化装置及び復号装置の構成例を示す図である。第１実施形態における、符号化装置の動作例を示すフローチャートである。第１実施形態における、学習装置の構成例を示す図である。第２実施形態における、符号化装置の構成例を示す図である。第２実施形態における、符号化装置の動作例を示すフローチャートである。

　本発明の実施形態について、図面を参照して詳細に説明する。
　前述したように、複雑な領域が欠損している原画像を符号化装置が符号化し、欠損している領域を復号装置が原画像に対して補間することは、符号量が削減される点で効果的であると考えられる。しかし、符号量を符号化装置が削減することができても、欠損している領域を復号装置が精度よく補間することができない場合など、領域を欠損させることが適切ではない場合もある。さらに、補間の精度は、符号化される対象の画像と、補間の処理内容とに応じても異なる。そこで、符号化される対象の画像と補間の処理内容との組み合わせごとに、補間によって削減される符号量と、領域が補間された際の精度とを、バランスよく評価する指標を導入することが考えられる。

　（第１実施形態）
　図１は、符号化装置１０ａの構成例を示す図である。符号化装置１０ａは、動画像又は静止画像等のデータを符号化する装置である。符号化装置１０ａは、ブロック分割部１１と、補間領域判定装置１２ａと、欠損画像生成部１３と、欠損画像符号化部１４とを備える。補間領域判定装置１２ａは、非補間ブロック生成部１２０と、非補間ブロック評価部１２１と、欠損ブロック生成部１２２と、欠損ブロック補間部１２３と、補間ブロック評価部１２４と、判定部１２５と、判定結果メモリ１２６とを備える。

　図２は、符号化装置１０ａのハードウェア構成の例を示す図である。符号化装置１０ａは、プロセッサ１００と、メモリ１０１と、記憶装置１０２とを備える。

　図１に示された各機能部（ブロック分割部１１、欠損画像生成部１３、欠損画像符号化部１４、非補間ブロック生成部１２０、非補間ブロック評価部１２１、欠損ブロック生成部１２２、欠損ブロック補間部１２３、補間ブロック評価部１２４、及び、判定部１２５）は、ＣＰＵ（Central Processing Unit）等のプロセッサ１００が、不揮発性の記録媒体（非一時的な記録媒体）である記憶装置１０２からメモリ１０１に展開されたプログラムを実行することにより、ソフトウェアとして実現される。

　図１に示された判定結果メモリ１２６は、例えばメモリ１０１を用いて実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置１０２などの非一時的な記録媒体である。プログラムは、電気通信回線を介して送信されてもよい。

　符号化装置１０ａの一部又は全部は、例えば、ＬＳＩ（Large Scale Integration circuit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field Programmable Gate Array）等を用いた電子回路（electronic circuit又はcircuitry）を含むハードウェアを用いて実現されてもよい。

　図１において、ブロック分割部１１は、符号化処理の対象となる原画像（対象画像）を、入力画像として取得する。入力画像の形式は、動画像の形式と静止画像の形式とのいずれでもよい。入力画像のフレームの形状は、例えば矩形である。ブロック分割部１１は、入力画像に対して、ブロック分割処理を実行する。ブロック分割処理において、ブロック分割部１１は、補間対象領域とするか否かが判定されるブロック（以下「判定対象ブロック」という。）に、入力画像を分割する。

　図３は、ＨＥＶＣのブロック分割の例を示す図である。判定対象ブロックの形状又は大きさは、例えば、ＨＥＶＣにおける、６４×６４画素の符号化ツリーユニット（Coding Tree Unit : CTU）の形状又は大きさでもよいし、３２×３２画素の符号化ユニット（Coding Unit : CU）の形状又は大きさでもよい。ブロック分割部１１は、非補間ブロック生成部１２０及び欠損ブロック生成部１２２に対して、判定対象ブロックを所定の処理順で出力する。

　図４は、判定対象ブロックの例を示す図である。ＨＥＶＣを例として、判定対象ブロックの例を説明する。例えばＣＴＵが判定対象ブロックとされており、分割サイズが決められたＣＵを補間対象として選択するか否かが判定される判定対象領域として、判定対象ブロックの例を説明する。ただし、前述されているように、補間対象として選択するか否かが判定される単位は、ＣＴＵと、ＣＵと、正方形以外の形状に分割された領域とのいずれでもよい。要は、符号量の低減と補間の精度とを一定に保つことができる領域と、符号量の低減の効果が低い領域又は補間の精度が許容の範囲以下である領域と、を区別できる単位であれば、補間対象であると判定される領域の単位は、どのような単位でもよい。判定対象ブロックは、補間対象領域とするか否かが判定される領域（以下「判定対象領域」という。）を含むことができる。図４では、判定対象ブロックは、判定対象領域１０３を含む。

　判定対象ブロックは、欠損画像に画像が補間される際に参照される領域（以下「参照領域」という。）を、判定対象領域の周囲に１個以上含んでもよい。図４では、判定対象ブロックは、７個の参照領域１０４を含む。

　判定対象ブロックは、欠損画像に画像が補間される際に参照されない領域（以下「非参照領域」という。）を、判定対象領域の周囲に１個以上含んでもよい。図４では、判定対象ブロックは、１個の非参照領域１０５を含む。

　図１において、補間領域判定装置１２ａは、判定対象ブロックをブロック分割部１１から取得する。補間領域判定装置１２ａは、補間対象領域とするか否かを判定する処理（以下「補間領域判定処理」という。）を、判定対象ブロックごとに実行する。

　符号化装置１０ａは、固定の量子化パラメータを用いて、原画像を事前に符号化する。原画像において符号量の多いブロックを優先し、符号量の多いブロックに対して補間領域判定処理を実行する。補間領域判定処理の各ステップの順で前のステップまでの補間性能が下がっていない場合、補間領域判定装置１２ａは、補間領域判定処理の対象の領域を、補間対象領域とすると判定する。ＨＥＶＣ等では符号化が難しい画像（イントラ予測又はインター予測の予測精度の向上が難しい画像）の領域であって、画像の補間が可能である領域を優先して、補間領域判定装置１２ａは、補間領域判定処理を実行する。

　補間領域判定処理は、非補間ブロック生成処理と、非補間ブロック評価処理と、欠損ブロック生成処理と、欠損ブロック補間処理と、補間ブロック評価処理と、判定処理とを含む。補間領域判定装置１２ａは、補間対象領域とするか否かの判定結果（判定対象ブロックの判定結果）を、判定対象ブロックごとに欠損画像生成部１３に出力する。

　補間領域判定処理は、入力画像における全ての判定対象ブロックに対して実行されるまで、判定対象ブロックごとに繰り返される。すなわち、補間領域判定処理は、複数のステップにわたって実行される。判定対象ブロックの選択順序は、任意の順序（例えば、ラスタスキャン順）でよい。復号装置は、判定対象ブロックの選択順序と同じ選択順序で補間対象領域を選択し、選択された補間対象領域に対して画像補間処理を実行する。

　非補間ブロック生成部１２０は、判定対象ブロックをブロック分割部１１から取得する。非補間ブロック生成部１２０は、前ステップまでの補間領域判定処理における判定結果を、判定結果メモリ１２６から取得する。非補間ブロック生成部１２０は、前ステップまでの補間領域判定処理における判定結果と、判定対象ブロックとに基づいて、非補間ブロック生成処理を実行する。

　非補間ブロック生成処理として、非補間ブロック生成部１２０は、ＨＥＶＣ等で符号化された原画像内の判定対象ブロック（補間なし画像）、すなわち、画像が補間されていない判定対象ブロック（以下「非補間ブロック」という。）を生成する。非補間ブロック生成部１２０は、非補間ブロックを非補間ブロック評価部１２１に出力する。非補間ブロック生成処理において、非補間ブロック生成部１２０は、ＨＥＶＣ等で符号化された非補間ブロックの符号量を、判定部１２５に出力する。例えば、非補間ブロックの符号量は、イントラ予測又はインター予測で予測された場合における、判定対象ブロックの画像の予測精度に応じて定まる。

　なお、前ステップまで（過去）の補間領域判定処理において、補間対象領域とすると判定されている判定対象ブロック内の領域は、非補間ブロック生成処理において、非参照領域とされてもよい。非参照領域とされた領域を含む判定対象ブロックは、例えばＨＥＶＣ等の予め定められた規格で符号化される。

　非補間ブロック評価部１２１は、評価ネットワーク１２１０（推定ネットワーク）を備える。評価ネットワーク１２１０は、例えば、畳み込みニューラルネットワークである。評価ネットワークを用いて、欠損画像における補間対象領域とするか否かを符号化装置１０ａが判定する場合、評価ネットワークの動作の段階には、学習フェーズと、推定フェーズとがある。

　学習フェーズにおいて、評価ネットワーク１２１０は、画像の全領域若しくは一部領域を入力として、自然度を出力する。自然度は、生成された画像ではないと推定されることの尤もらしさの度合い（尤度）と言い換えられてもよい。評価ネットワークは、敵対的学習法における識別器と言い換えられてもよい。この識別器は、例えば原画像の自然度が高くなるようにかつ生成された画像の自然度が低くなるように学習する。なお、ここでいう生成の意味には、補間が含まれる。

　推定フェーズにおいて、非補間ブロック評価部１２１は、非補間ブロックを取得する。非補間ブロック評価部１２１の評価ネットワーク１２１０は、入力画像の非補間ブロックの自然度（主観画質。見た目の違和感が生じない度合い。）を評価することによって、入力画像の非補間ブロックの自然度を数値化する。

　すなわち、非補間ブロック評価処理において、非補間ブロック評価部１２１は、学習済の評価ネットワーク１２１０に非補間ブロックを入力することによって、非補間ブロックの自然度を判定部１２５に出力する。

　欠損ブロック生成部１２２は、判定対象ブロックをブロック分割部１１から取得する。欠損ブロック生成部１２２は、前ステップまでの補間領域判定処理の判定結果を、判定結果メモリ１２６から取得する。欠損ブロック生成処理として、欠損ブロック生成部１２２は、欠損ブロックを生成する。欠損ブロック生成部１２２は、欠損ブロックを欠損ブロック補間部１２３に出力する。欠損ブロック生成部１２２は、欠損ブロックの符号量を、判定部１２５に出力する。

　欠損ブロック生成処理において、欠損ブロック生成部１２２は、判定対象ブロックと、前ステップまでの補間領域判定処理の判定結果とに基づいて、前ステップまでの判定対象領域を判定対象ブロックから除くことによって、判定対象ブロック内の１個以上の判定対象領域を欠損させてもよい。

　欠損ブロック生成部１２２は、ＨＥＶＣ等で符号化された判定対象ブロックであって、判定対象領域が欠損している判定対象ブロック（以下「欠損ブロック」という。）を、欠損ブロック補間部１２３に出力する。欠損ブロック生成部１２２は、ＨＥＶＣ等で符号化された欠損ブロックの符号量を、判定部１２５に出力する。

　なお、前ステップまで（過去）の補間領域判定処理において、補間対象領域とすると判定されている判定対象ブロック内の領域は、欠損ブロック生成処理において、非参照領域とされてもよい。非参照領域とされた領域を含む判定対象ブロックは、例えばＨＥＶＣ等の予め定められた規格で符号化される。この場合、非補間ブロック生成処理において非参照領域とされた領域は、欠損ブロック生成処理において、非参照領域とされる。

　欠損ブロック補間部１２３は、欠損ブロックを欠損ブロック生成部１２２から取得する。欠損ブロック補間処理として、欠損ブロック補間部１２３は、欠損ブロック内において欠損している判定対象領域の画像を欠損ブロックに補間することによって、欠損している判定対象領域（以下「欠損領域」という。）の画像が補間されたブロック（以下「補間ブロック」という。）を生成する。欠損ブロック補間部１２３は、補間ブロックを補間ブロック評価部１２４に出力する。

　欠損ブロック補間部１２３が実行する欠損ブロック補間処理は、復号装置が実行する欠損ブロック補間処理と同様の処理である。欠損ブロック補間部１２３が実行する欠損ブロック補間処理は、例えば、入力画像の欠損領域を補間する畳み込みニューラルネットワークを用いて実現される。

　補間ブロック評価部１２４は、評価ネットワーク１２４０を備える。評価ネットワーク１２４０は、例えば、畳み込みニューラルネットワークである。評価ネットワーク１２４０は、評価ネットワーク１２１０と同じネットワークである。評価ネットワーク１２４０は、例えば、入力画像の補間ブロックの自然度（主観画質。見た目の違和感が生じない度合い。）を評価することによって、入力画像の補間ブロックの自然度を数値化する。

　補間ブロック評価部１２４は、補間ブロックを取得する。補間ブロック評価処理において、補間ブロック評価部１２４は、評価ネットワーク１２４０に補間ブロックを入力することによって、補間ブロックの自然度を判定部１２５に出力する。

　評価ネットワーク１２４０は、非補間ブロック評価処理における、評価ネットワーク１２１０と同じネットワークでもよい。推定フェーズにおいて、補間ブロック評価部１２４の評価ネットワーク１２１０は、欠損画像に対して画像が補間された結果を取得し、欠損画像に対して画像が補間された結果（画像が補間された欠損画像）の自然度を出力する。

　判定部１２５は、非補間ブロックの符号量を、非補間ブロック生成部１２０から取得する。判定部１２５は、非補間ブロックの自然度を、非補間ブロック評価部１２１から取得する。判定部１２５は、欠損ブロックの符号量を、欠損ブロック生成部１２２から取得する。判定部１２５は、補間ブロックの自然度を、補間ブロック評価部１２４から取得する。

　判定部１２５は、非補間ブロックの符号量と非補間ブロックの自然度と欠損ブロックの符号量と補間ブロックの自然度とに基づいて、判定処理を実行する。判定部１２５は、補間対象領域とするか否かの判定結果（判定対象ブロックの判定結果）を、判定対象ブロックごとに欠損画像生成部１３及び判定結果メモリ１２６に出力する。

　判定処理として、判定部１２５は、非補間ブロックの符号量「Ｒ_１」と非補間ブロックの自然度「Ｎ_１」と欠損ブロックの符号量「Ｒ_２」と補間ブロックの自然度「Ｎ_２」とに基づいて、図４に示されたような判定対象ブロック内の判定対象領域を補間対象領域又は非補間領域のいずれとするかを判定する。

　判定部１２５は、判定対象ブロック内の判定対象領域を補間対象領域とすると判定した場合に削減される符号量「Ｒ」を、式（３）のように導出する。

　式（４）が成立する場合、判定部１２５は、判定対象ブロック内の判定対象領域を補間対象領域とすると判定する。式（４）が成立しない場合、判定部１２５は、判定対象ブロック内の判定対象領域を非補間領域とすると判定する。

　ここで、ｗは、判定対象領域が補間対象領域とされることによって削減される符号量の重要度を表すパラメータである。ｗは、削減されるべき符号量等に基づいて予め定められる。

　欠損画像生成部１３（置換部）は、入力画像（原画像）を取得する。欠損画像生成部１３は、判定対象ブロックの判定結果を、判定部１２５から取得する。欠損画像生成部１３は、入力画像と判定対象ブロックの判定結果とに基づいて、欠損画像生成処理を実行する。

　欠損画像生成処理として、欠損画像生成部１３は、補間対象領域の画素値を、判定対象ブロックの画像の符号量を最小化する画素値（例えば、０）に置き換える。すなわち、欠損画像生成部１３は、入力画像と判定対象ブロックの判定結果とに基づいて、補間領域判定処理における判定部１２５によって補間対象領域とすると判定された領域を入力画像から除くことによって、欠損画像を生成する。例えば、欠損画像生成部１３は、補間対象領域とすると判定された領域の各画素値を補間対象領域の平均値又は固定値で置き換えることによって、補間対象領域とすると判定された領域を入力画像から除いてもよい。欠損画像生成部１３は、欠損画像を欠損画像符号化部１４に出力する。

　欠損画像符号化部１４は、欠損画像を欠損画像生成部１３から取得する。欠損画像符号化部１４は、欠損画像に対して、欠損画像符号化処理を実行する。欠損画像符号化処理において、欠損画像符号化部１４は、例えばＨＥＶＣ等の符号化処理を欠損画像に対して実行することによって、欠損画像の符号化データを生成する。欠損画像符号化部１４は、欠損画像の符号化データを、復号装置に出力する。

　なお、欠損画像符号化部１４は、入力画像における補間対象領域の位置（座標）と、欠損画像の符号化データとを、復号装置に送信してもよい。また、符号化装置１０ａ及び復号装置が共有するパラメータ（特定の情報）に基づいて、入力画像における補間対象領域の位置を符号化装置１０ａ及び復号装置が定めることによって、欠損画像符号化部１４は、入力画像における補間対象領域の位置（座標）の送信処理を省略してもよい。

　図５は、符号化装置１０ａ及び復号装置２０の構成例を示す図である。ブロック分割部１１は、原画像２００を取得する。補間領域判定装置１２ａ及び欠損画像生成部１３は、判定対象ブロック群２０１をブロック分割部１１から取得する。判定対象ブロックは、前ステップまで（過去）の補間領域判定処理において、補間対象領域とすると判定されている判定対象ブロック内の領域を含んでもよい。補間領域判定装置１２ａは、判定対象領域に隣接する補間対象領域（周囲の補間対象領域）に定められた評価尺度（自然度）を今回の補間領域判定処理において下げることが無い場合には、今回の補間領域判定処理における判定対象領域を、補間対象領域とする。

　欠損画像生成部１３は、判定対象ブロックの判定結果を表す画像である判定結果画像２０２を生成する。欠損画像生成部１３は、判定結果画像２０２に基づいて、欠損画像２０３を生成する。欠損画像符号化部１４は、欠損画像２０３を欠損画像生成部１３から取得する。欠損画像符号化部１４は、例えばＨＥＶＣ等に基づいて、欠損画像２０３に対して符号化処理を実行する。欠損画像符号化部１４は、欠損画像２０３の符号化データを、復号装置２０に出力する。

　復号装置２０は、復号部２１と、補間処理部２２とを備える。復号部２１は、欠損画像２０３の符号化データを取得する。復号部２１は、ＨＥＶＣ等に基づいて、欠損画像２０３の符号化データに対して復号処理を実行する。復号部２１は、復号された欠損画像２０３を、補間処理部２２に出力する。

　補間処理部２２は、復号された欠損画像２０３における補間対象領域の画像を、復号された欠損画像２０３に対して補間する。補間処理部２２が実行する画像補間処理は、特定の画像補間処理に限定されない。例えば、補間処理部２２は、図４に示された判定対象ブロックにおいて判定対象領域１０３の周囲に存在する１個以上の参照領域１０４の平均画像を、判定対象領域１０３の位置における補間対象領域の画像として、復号された欠損画像に対して補間する。１個以上の参照領域１０４には、重み係数がそれぞれ定められてもよい。参照領域１０４の平均画像は、参照領域１０４ごとの重み係数に応じて生成されてもよい。補間処理部２２は、図４に示された判定対象ブロックにおいて判定対象領域１０３の周囲に存在する１個の参照領域１０４の画像を、判定対象領域１０３の位置における補間対象領域の画像として、復号された欠損画像に対して補間してもよい。このようにして、補間処理部２２は入力画像の復元画像２０４を生成する。

　次に、符号化装置１０ａの動作例を説明する。
　図６は、符号化装置１０ａの動作例を示すフローチャートである。ブロック分割部１１は、ブロック分割処理を実行する（ステップＳ１０１）。非補間ブロック生成部１２０は、非補間ブロック生成処理を実行する（ステップＳ１０２）。非補間ブロック評価部１２１は、非補間ブロック評価処理を実行する（ステップＳ１０３）。

　欠損ブロック生成部１２２は、欠損ブロック生成処理を実行する（ステップＳ１０４）。欠損ブロック補間部１２３は、欠損ブロック補間処理を実行する（ステップＳ１０５）。補間ブロック評価部１２４は、補間ブロック評価処理を実行する（ステップＳ１０６）。判定部１２５は、判定処理を実行する（ステップＳ１０７）。

　判定部１２５は、入力画像における全ての判定対象ブロックにおいて、補間対象領域の判定が実行されたか否かを判定する（ステップＳ１０８）。入力画像におけるいずれかの判定対象ブロックにおいて、補間対象領域の判定が実行されていない場合（ステップＳ１０８：ＮＯ）、非補間ブロック生成部１２０は、ステップＳ１０２の動作を実行する。

　入力画像における全ての判定対象ブロックにおいて、補間対象領域の判定が実行された場合（ステップＳ１０８：ＹＥＳ）、欠損画像生成部１３は、欠損画像生成処理を実行する（ステップＳ１０９）。欠損画像符号化部１４は、画像符号化処理を実行する（ステップＳ１１０）。

　次に、学習フェーズにおける評価ネットワークの学習について説明する。
　図７は、学習装置３０の構成例を示す図である。学習装置３０は、敵対的学習法によって、評価ネットワーク１２１０の学習を実行する。評価ネットワーク１２４０は、評価ネットワーク１２１０と同じネットワークである。

　学習装置３０は、前段切替部３００と、欠損画像生成部３０１と、画像補間部３０２と、後段切替部３０３と、画像評価部３０４と、更新部３０５とを備える。学習装置３０の一部又は全部は、ＣＰＵ等のプロセッサが、不揮発性の記録媒体（非一時的な記録媒体）であるメモリに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。学習装置３０の一部又は全部は、例えば、ＬＳＩ、ＡＳＩＣ、ＰＬＤ又はＦＰＧＡ等を用いた電子回路を含むハードウェアを用いて実現されてもよい。

　以下では、数式において文字の上に付されている記号は、その文字の直前に記載される。例えば、数式において文字「Ｍ」の上に付されている記号「＾」は、「＾Ｍ」のように文字「Ｍ」の直前に記載される。以下では、数式において、丸印の内部に１個の点を有する演算子は、行列の要素積を表す。

　前段切替部３００は、欠損画像以外の予め定められた画像（以下「非欠損画像」という。）を取得する。非欠損画像は、例えば、予め定められた原画像である。第１切替状態において、前段切替部３００は、非欠損画像「ｘ」を後段切替部３０３に出力する。

　第２切替状態において、前段切替部３００は、非欠損画像「ｘ」を欠損画像生成部３０１に出力する。欠損画像生成部３０１は、非欠損画像「ｘ」を取得する。欠損画像生成部３０１は、欠損領域であるか否かを表す「＾Ｍ」を、画像補間部３０２に出力する。欠損画像生成部３０１は、欠損領域「＾Ｍ」が非欠損画像「ｘ」から除かれた画像を、欠損画像として画像補間部３０２に出力する。欠損画像は、式（５）のように表わされる。

　ここで、欠損領域「＾Ｍ」の座標は、任意に予め定められる。「＾Ｍ」の値は、フラグの形式で表現されてもよい。例えば、「＾Ｍ」の値は、「＾Ｍ」が欠損領域を表す場合、１である。「＾Ｍ」の値は、「＾Ｍ」が非欠損領域を表す場合、０である。

　画像補間部３０２は、補間ネットワーク３０２０を備える。補間ネットワーク３０２０は、例えば、畳み込みニューラルネットワークである。補間ネットワーク３０２０は、敵対的生成ネットワーク（Generative Adversarial Networks : GAN）における、生成ネットワークを含む生成器（Generator）である。画像補間部３０２は、欠損領域であるか否かを表す「＾Ｍ」と欠損画像（特徴量）とを、補間ネットワーク３０２０に入力する。補間ネットワーク３０２０「Ｇ」は、欠損領域の画像を、欠損画像の欠損領域「＾Ｍ」に補間する。補間ネットワーク３０２０「Ｇ」は、式（６）に示されるような補間画像「Ｇ」を、後段切替部３０３に出力する。

　第１切替状態において、後段切替部３０３は、非欠損画像「ｘ」を前段切替部３００から取得する。後段切替部３０３は、非欠損画像「ｘ」を画像評価部３０４に出力する。第２切替状態において、後段切替部３０３は、補間画像「Ｇ」を画像補間部３０２から取得する。後段切替部３０３は、補間画像「Ｇ」を画像評価部３０４に出力する。

　画像評価部３０４は、評価ネットワーク１２１０を備える。評価ネットワーク１２１０は、敵対的生成ネットワークにおける、識別ネットワークを含む識別器（Discriminator）である。後段切替部３０３の切替状態が第１切替状態である場合、画像評価部３０４は、非欠損画像「ｘ」を評価ネットワーク１２１０に入力する。評価ネットワーク１２１０は、評価ネットワーク１２１０に入力された非欠損画像が非欠損画像「ｘ」である確率「Ｄ（ｘ）」を、更新部３０５に出力する。

　後段切替部３０３の切替状態が第２切替状態である場合、画像評価部３０４は、補間画像「Ｇ」を評価ネットワーク１２１０に入力する。評価ネットワーク１２１０は、評価ネットワーク１２１０に入力された補間画像が非欠損画像「ｘ」である確率「Ｄ（ｘ）」を、更新部３０５に出力する。

　更新部３０５は、画像評価部３０４の評価ネットワーク１２１０から出力された確率値（自然度）に基づいて、補間ネットワーク３０２０のパラメータと、評価ネットワーク１２１０のパラメータとを、交互に更新する。更新は、式（７）の最適化に基づき行われる。

　ここで、ｘは、教師データの画像群の分布（自然度）を表す。学習装置３０は、多くの教師データを用いて、学習を反復する。評価ネットワーク１２１０は、非欠損画像と補間画像とを識別するネットワークとして、確率値の学習を反復する。

　なお、上記の敵対的学習の方法は一例である。評価ネットワーク１２１０は、任意の生成ネットワークとの敵対的学習によって学習することができる。評価ネットワーク１２１０及び補間ネットワーク３０２０は、交互に学習するのではなく、同時に学習してもよい。

　以上のように、第１実施形態の符号化装置１０ａは、原画像（対象画像）を符号化する。符号化装置１０ａは、ブロック分割部１１（分割部）と、判定部１２５と、欠損画像生成部１３（置換部）とを備える。ブロック分割部１１は、原画像の一部の復号結果（欠損画像）において画像が補間されるか否かの判定対象領域を含む各判定対象ブロックに、原画像を分割する。判定部１２５は、判定対象領域を欠損画像における補間対象領域とするか否かを、判定対象ブロックごとに判定する。欠損画像生成部１３は、補間対象領域とすると判定された判定対象領域の画素値を、判定対象ブロックの符号量を少なくする値に置き換える。判定部１２５は、ＨＥＶＣ等のイントラ予測又はインター予測による判定対象ブロックの画像の予測精度と、補間対象領域の画像が補間されたものでないことの度合い（補間対象領域が生成されたものであることの度合い）（自然度）とに基づく評価を用いて、判定対象領域を補間対象領域とするか否かを判定する。

　これによって、復元画像の主観画質が良好となるように、入力された原画像における補間対象領域を判定することが可能である。

　判定部１２５は、符号量が多い判定対象ブロックにおける判定対象領域を優先して、補間対象領域とする。判定部１２５は、判定対象領域の周囲における補間対象領域に定められた評価を下げることがない場合には、判定対象領域を補間対象領域とする。評価は、ＨＥＶＣ等のイントラ予測又はインター予測による判定対象ブロックの画像の予測精度と、敵対的生成ネットワークにおける生成器によって生成された画像を用いて学習したニューラルネットワークから出力された確率値である自然度に基づく。

　符号化装置１０ａは、復号装置２０が画像を補間しても復元画像に見た目の違和感が生じない領域を、補間対象領域とすると判定する。ＨＥＶＣでは符号化が難しい領域であっても、復元画像に見た目の違和感が生じないように、判定対象領域を補間対象領域とするか否かを符号化装置１０ａが判定することができる。

　（１）判定部１２５は、判定処理において原画像を参照することなく、補間対象領域を決定する。判定部１２５は、学習済の評価ネットワーク１２１０から出力される非補間ブロックの自然度と、非補間ブロックの符号量に応じて導出される得点とを比較する。判定部１２５は、学習済の評価ネットワーク１２４０から出力される補間ブロックの自然度と、補間ブロックの符号量に応じて導出される得点とを比較する。判定部１２５は、原画像と補間画像等との誤差に基づくことなく、判定対象領域を補間対象領域とするか否かを判定する。これによって、欠損領域の画素値に近い画素値を補間処理では得ることができない複雑な画像の判定対象領域に対しても、補間対象領域とするか否かを判定することができる。したがって、符号化効率は向上する。また、複雑な画像の領域に平坦な画像が補間され難くなるので、復元画像がボケることが抑制されて、復元画像の主観画質が向上する。

　（２）補間領域判定装置１２ａは、補間対象領域とするか否かを判定する処理に、敵対的学習法を用いて獲得されたモデルを適用する。原画像が参照されることなく、判定対象の画像の主観画質が評価される必要があるので、評価尺度の設計が重要である。補間領域判定装置１２ａは、敵対的学習を用いて獲得されたモデルに、主観画質の評価尺度を獲得させる。これによって、入力画像の自然度（自然な画像としてあらかじめ定められた画像群（教師画像群）との近さ）が、入力画像の主観画質の評価尺度と定義される。

　（第２実施形態）
　第２実施形態では、原画像の判定対象ブロックと非補間ブロックとの間の誤差と、原画像の判定対象ブロックと補間ブロックとの間の誤差とに基づいて、補間対象領域とするか否かが判定部によって判定される点が、第１実施形態と相違する。第２実施形態では、第１実施形態との相違点を説明する。

　図８は、符号化装置１０ｂの構成例を示す図である。符号化装置１０ｂは、動画像又は静止画像等のデータを符号化する装置である。符号化装置１０ｂは、ブロック分割部１１と、補間領域判定装置１２ｂと、欠損画像生成部１３と、欠損画像符号化部１４とを備える。補間領域判定装置１２ｂは、非補間ブロック生成部１２０と、非補間ブロック評価部１２１と、欠損ブロック生成部１２２と、欠損ブロック補間部１２３と、補間ブロック評価部１２４と、判定部１２５と、判定結果メモリ１２６と、非補間ブロック誤差導出部１２７と、補間ブロック誤差導出部１２８とを備える。

　非補間ブロック誤差導出部１２７は、非補間ブロックを非補間ブロック生成部１２０から取得する。非補間ブロック誤差導出部１２７は、判定対象ブロックをブロック分割部１１から取得する。非補間ブロック誤差導出処理として、非補間ブロック誤差導出部１２７は、判定対象ブロックの判定対象領域の画像と、非補間ブロックの判定対象領域の画像との差分を導出する。導出された差分は、例えば、ＳＳＥ、ピーク信号対雑音比（Peak Signal-to-Noise Ratio : PSNR）、構造的類似性（Structural Similarity : SSIM）等を用いて表現される。非補間ブロック誤差導出部１２７は、導出された差分を、非補間ブロックの誤差として判定部１２５に出力する。

　補間ブロック誤差導出部１２８は、補間ブロックを欠損ブロック補間部１２３から取得する。補間ブロック誤差導出部１２８は、判定対象ブロックをブロック分割部１１から取得する。補間ブロック誤差導出処理として、補間ブロック誤差導出部１２８は、判定対象ブロックの判定対象領域の画像と、補間ブロックの判定対象領域の画像との差分を、非補間ブロック誤差導出処理と同様に導出する。補間ブロック誤差導出部１２８は、導出された差分を、補間ブロックの誤差として判定部１２５に出力する。

　判定部１２５は、非補間ブロックの符号量を、非補間ブロック生成部１２０から取得する。判定部１２５は、非補間ブロックの自然度を、非補間ブロック評価部１２１から取得する。判定部１２５は、欠損ブロックの符号量を、欠損ブロック生成部１２２から取得する。判定部１２５は、補間ブロックの自然度を、補間ブロック評価部１２４から取得する。判定部１２５は、非補間ブロックの誤差を、非補間ブロック誤差導出部１２７から取得する。判定部１２５は、補間ブロックの誤差を、補間ブロック誤差導出部１２８から取得する。

　判定部１２５は、非補間ブロックの符号量と非補間ブロックの自然度と非補間ブロックの誤差と欠損ブロックの符号量と補間ブロックの自然度と補間ブロックの誤差とに基づいて、判定処理を実行する。判定部１２５は、補間対象領域とするか否かの判定結果（判定対象ブロックの判定結果）を、判定対象ブロックごとに欠損画像生成部１３及び判定結果メモリ１２６に出力する。

　判定処理として、判定部１２５は、非補間ブロックの符号量「Ｒ_１」と非補間ブロックの自然度「Ｎ_１」と非補間ブロックの誤差「Ｄ_１」と欠損ブロックの符号量Ｒ_２」と補間ブロックの自然度「Ｎ_２」非補間ブロックの誤差「Ｄ_２」とに基づいて、図４に示されたような判定対象ブロック内の判定対象領域を補間対象領域又は非補間領域のいずれとするかを判定する。

　式（８）が成立する場合、判定部１２５は、判定対象ブロック内の判定対象領域を補間対象領域とすると判定する。式（８）が成立しない場合、判定部１２５は、判定対象ブロック内の判定対象領域を非補間領域とすると判定する。

　ここで、ｗ_Ｄは、補間ブロックの誤差の重要度を表すパラメータである。ｗ_Ｄは、復号画像と原画像との誤差が許容される程度に基づいて予め定められる。

　次に、符号化装置１０ｂの動作例を説明する。
　図９は、符号化装置１０ｂの動作例を示すフローチャートである。ステップＳ２０１からステップＳ２０３までの動作は、図６に示されたステップＳ１０１からステップＳ１０３までの動作と同様である。非補間ブロック誤差導出部１２７は、非補間ブロック誤差導出処理を実行する（ステップＳ２０４）。ステップＳ２０５からステップＳ２０７までの動作は、図６に示されたステップＳ１０４からステップＳ１０６までの動作と同様である。補間ブロック誤差導出部１２８は、補間ブロック誤差導出処理を実行する（ステップＳ２０８）。判定部１２５は、判定処理を実行する（ステップＳ２０９）。

　判定部１２５は、入力画像における全ての判定対象ブロックにおいて、補間対象領域の判定が実行されたか否かを判定する（ステップＳ２１０）。入力画像におけるいずれかの判定対象ブロックにおいて、補間対象領域の判定が実行されていない場合（ステップＳ２１０：ＮＯ）、非補間ブロック生成部１２０は、ステップＳ２０２の動作を実行する。

　入力画像における全ての判定対象ブロックにおいて、補間対象領域の判定が実行された場合（ステップＳ２１０：ＹＥＳ）、欠損画像生成部１３は、欠損画像生成処理を実行する（ステップＳ２１１）。欠損画像符号化部１４は、画像符号化処理を実行する（ステップＳ２１２）。

　以上のように、第２実施形態の判定部１２５は、判定対象領域の周囲における補間対象領域に定められた評価を下げることがない場合には、判定対象領域を補間対象領域とする。判定部１２５は、ＨＥＶＣ等のイントラ予測又はインター予測による判定対象ブロックの画像の予測精度と、補間対象領域の画像が補間されたものでない度合い（自然度）とに基づく評価が向上し、かつ、判定対象領域の周囲における補間対象領域に定められた評価を下げることがない場合には、判定対象領域を補間対象領域としてもよい。

　これによって、復元画像の主観画質が良好となるように、入力された原画像における補間対象領域を判定することが可能である。ＨＥＶＣなどで符号化された際に符号量が大きくなる領域から優先して補間するか否かが選択されることによって、平坦な領域に起因して複雑な領域が補間対象から外れてしまうことを防ぐことができる。

　（３）補間領域判定装置１２ｂは、原画像を参照することなく補間対象領域を決定する処理と、原画像を参照して補間対象領域を決定する処理との両方を、判定処理において実行してもよい。これによって、補間領域判定装置１２ｂは、原画像に画素単位で類似する画像の判定対象領域を補間対象領域とすると判定するので、主観画質を向上させることができる。符号量が閾値以上となっても構わない場合、原画像に類似する復元画像を生成することが可能である。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　符号化装置１０ａ及び符号化装置１０ｂは、ＨＥＶＣ以外の符号化処理（例えば、Ｈ．２６４／ＡＶＣ）を実行してもよい。符号化装置１０ａ及び符号化装置１０ｂは、画像以外のデータ（例えば、音声データ）を符号化してもよい。符号化装置１０ａ及び符号化装置１０ｂは、例えば、音声データを補間してもよい。つまり、符号化装置１０ａ又は符号化装置１０ｂが実行する処理は、任意の復号器に対応する符号化器に対して適用できる処理であり、任意の画像生成方法に適用できる処理である。補間対象領域であるか否かの判定結果は、画像符号化の標準規格に準じた符号化装置のパラメータの一つとみなされてもよい。

　本発明は、静止画又は動画像の符号化装置（画像処理装置）に適用可能である。

１０ａ，１０ｂ…符号化装置、１１…ブロック分割部、１２ａ，１２ｂ…補間領域判定装置、１３…欠損画像生成部、１４…欠損画像符号化部、２０…復号装置、２１…復号部、２２…補間処理部、３０…学習装置、１００…プロセッサ、１０１…メモリ、１０２…記憶装置、１０３…判定対象領域、１０４…参照領域、１０５…非参照領域、１２０…非補間ブロック生成部、１２１…非補間ブロック評価部、１２２…欠損ブロック生成部、１２３…欠損ブロック補間部、１２４…補間ブロック評価部、１２５…判定部、１２６…判定結果メモリ、１２７…非補間ブロック誤差導出部、１２８…補間ブロック誤差導出部、２００…原画像、２０１…判定対象ブロック群、２０２…判定結果画像、２０３…欠損画像、２０４…復元画像、３００…前段切替部、３０１…欠損画像生成部、３０２…画像補間部、３０３…後段切替部、３０４…画像評価部、３０５…更新部、１２１０…評価ネットワーク、１２４０…評価ネットワーク、３０２０…補間ネットワーク

Claims

　原画像を符号化する符号化装置であって、
　前記原画像を複数の領域であるブロックに分割し、複数の前記ブロックを取得する分割部と、
　補間対象とするか否かを、前記ブロックごとに判定する判定部と、
　前記補間対象にすると判定されたブロックを構成する画素値を、前記判定されたブロックの符号量を少なくする値に置き換える置換部とを備え、
　前記判定部は、イントラ予測又はインター予測による前記ブロックの画像の予測精度と、前記補間対象のブロックが生成されたものである度合いと、に基づく評価を用いて、判定対象のブロックを前記補間対象とするか否かを判定する、
　符号化装置。
　前記判定部は、前記複数のブロックのうち符号量が大きいブロックを優先して、前記補間対象とする、請求項１に記載の符号化装置。
　前記判定部は、判定対象のブロックを補間対象として符号化した際に、前記判定対象のブロックに隣接するブロックの評価を下げることがない場合のみ、前記判定対象のブロックを補間対象とする、請求項２に記載の符号化装置。
　前記度合いは、敵対的生成ネットワークにおける生成器によって生成された画像を用いて学習した識別器から出力された確率値である、請求項３に記載の符号化装置。
　原画像を符号化する符号化装置であって、
　前記原画像を複数のであるブロックに分割し、複数の前記ブロックを取得する分割部と、
　補間対象とするか否かを、前記ブロックごとに判定する判定部と、
　前記補間対象にすると判定されたブロックを構成する画素値を、前記判定されたブロックの符号量を少なくする値に置き換える置換部とを備え、
　前記判定部は、判定対象のブロックを補間対象として符号化した際に前記判定対象のブロックに隣接するブロックの評価を下げることがないかつ、前記判定対象のブロックの評価値が所定の基準を満たす場合のみ、前記判定対象のブロックを補間対象であるとして判定する、
　符号化装置。
　原画像を符号化する符号化装置が実行する符号化方法であって、
　前記原画像を複数の領域であるブロックに分割し、複数の前記ブロックを取得する分割ステップと、
　補間対象とするか否かを、前記ブロックごとに判定する判定ステップと、
　前記補間対象にすると判定されたブロックを構成する画素値を、前記判定されたブロックの符号量を少なくする値に置き換える置換ステップとを含み、
　前記判定ステップでは、イントラ予測又はインター予測による前記ブロックの画像の予測精度と、前記補間対象のブロックが生成されたものである度合いと、に基づく評価を用いて、判定対象のブロックを前記補間対象とするか否かを判定する、
　符号化方法。
　請求項１から請求項５のいずれか一項に記載の符号化装置としてコンピュータを機能させるためのプログラム。