JPWO2015145504A1

JPWO2015145504A1 - 画像復号装置、画像復号方法、及び集積回路

Info

Publication number: JPWO2015145504A1
Application number: JP2016509615A
Authority: JP
Inventors: 一憲岡嶋; 山口　哲; 哲山口
Original assignee: Socionext Inc
Current assignee: Socionext Inc
Priority date: 2014-03-25
Filing date: 2014-11-18
Publication date: 2017-04-13
Anticipated expiration: 2034-11-18
Also published as: WO2015145504A1; CN106134192A; JP6569665B2; US20170013270A1; US10306255B2; CN106134192B

Abstract

動き補償部（１６０）は、復号部（１１０）から受け取った符号化ユニットＣＵや予測ユニットＰＵの情報からＰＵを分割するか否かを分割部（１６１）で決定し、分割したブロック毎に、分割前のＰＵの動きベクトルと参照画像情報と分割後のブロック位置情報に基づいて、フレームメモリ転送制御部（１６２）でフレームメモリ（１８０）にある参照ピクチャの参照画像位置を特定し、参照画像データを取得し、動き補償演算部（１６４）で、動き補償対照ブロック毎に動き補償演算を行って予測画像を生成し、再構成部（１４０）で、逆周波数変換部（１３０）で生成された残差画像から画像を復元する。

Description

本開示は、予測処理を用いて符号化された符号化ストリームを復号する画像復号装置及び画像復号方法に関するものである。

最近、スマートフォンやスマートテレビに代表されるネットワーク配信技術の進展に伴い、より高精細でより高画質な動画配信が普及するようになってきた。一方で、高精細化
を支える通信トラフィックや放送帯域の圧迫が懸念されており、２０１３年１月に、ＩＴＵ−Ｔ（International Telecommunication UnionTelecommunication Standardization
Sector）が国際標準規格「Ｈ．２６５」として勧告した「ＨＥＶＣ（High Efficiency
Video Coding）」は、同じ品質の動画をＨ．２６４（MPEG-4 AVC）の半分のデータ量で圧
縮および伝送できるなど、通信・放送の帯域圧迫の解決策として注目されている。Ｈ．２
６５規格の詳細については、非特許文献１に記載されている。

Ｈ．２６５規格では、従来の符号化規格であるＨ．２６４規格に対して符合化単位ブロックのサイズが可変になる。そして、この技術に係る画像符合化装置は、従来規格の符合化単位であるマクロブロック（１６×１６画素）よりも大きなブロックサイズで符合化することも可能であり、高精細な画像を適切に符合化することが可能である。

具体的には、図２２のＨ．２６５規格におけるピクチャ及び符号化ストリームの構成例を示す図を用いて説明する。図２２（Ａ）に示すように、符合化のデータ単位として、符合化ユニット（ＣＵ：ＣｏｄｉｎｇＵｎｉｔ）が定義されている。この符合化ユニットは、従来の画像符合化規格におけるマクロブロックと同様に、面内予測を行うイントラ予測と、動き補償を行うインター予測とを切り替えることが可能なデータ単位であり、符合化の最も基本的なブロックとして規定されている。

この符号化ユニットのサイズは、Ｈ．２６５規格のＭａｉｎＰｒｏｆｉｌｅでは、８×８画素、１６×１６画素、３２×３２画素、６４×６４画素のいずれかである。

Ｈ．２６５規格では、各ピクチャの符合化処理を、最も大きな符号化ユニットＣＴＵ（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ）と呼ばれる画素ブロックの単位で行う。ＣＴＵのサイズは、Ｈ．２６４規格やＭＰＥＧ−２規格のマクロブロック（１６×１６画素）のように固定ではなく、シーケンスの符合化時に選択できる。

Ｈ．２６５規格のＭａｉｎＰｒｏｆｉｌｅでは、最大６４×６４画素ブロックと規定される。さらに、１枚のピクチャは複数のＣＴＵを持ったスライス単位で符号化されてもよい。なお、図２２（Ａ）は１枚のピクチャが１つのスライスで構成された例を示す。

なお、イントラ予測やインター予測の一連の符合化処理は、ＣＴＵを再帰的に四分木分割することで得られるＣＵの単位で行われる。

ＣＵの符号化処理に際して、イントラ予測とインター予測については、ＣＵ内をＰＵ（ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ、予測ユニット）と呼ばれるブロックに分割して行われる。

また、予測差分信号の周波数変換及び量子化処理は、ＴＵ（ＴｒａｎｓｆｏｒｍＵｎｉｔ、周波数変換ユニット）と呼ばれるブロック単位で行われる。

図２２（Ｂ）は、符号化ストリームの構成例を示す図である。通常、符号化ストリームは、シーケンスヘッダ、ピクチャヘッダ、スライスヘッダ及びスライスデータから構成される。なお、Ｈ．２６５規格などで符号化された画像符号化ストリームでは、各ヘッダの先頭を示す、スタートコード（Ｓｔａｒｔｃｏｄｅ、ＳＣと略す）が付加されている。

また、シーケンスヘッダは、複数のピクチャのまとまりを示すシーケンスに対するヘッダ情報を示し、ピクチャヘッダは、１枚のピクチャに対するヘッダ情報を示す。スライスヘッダはスライスデータに対するヘッダ情報を示す。スライスデータは、複数のＣＴＵ及びＣＵを示すＣＵレイヤデータから構成される。なお、Ｈ．２６５規格では、シーケンスヘッダは、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）とも呼ばれ、ピクチャヘッダは、ＰＰＳ（ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＳｅｔ）とも呼ばれる。

図２３に、ＣＴＵをＨ．２６５規格に基づいて、ＣＵ，ＰＵ，ＴＵに分割した一例を示す。ＣＴＵは、四分木分割される前の最大ＣＵを示すため、ＣＵ階層０とする。四分木分割されるたびに、ＣＵ階層１、ＣＵ階層２などと再帰的に分割することが可能である。

ＴＵもＣＴＵ内のＣＵ分割と同様、ＣＵ内部で再帰的に四分木分割を行うことが可能である。

ＰＵはこれ以上分割されないＣＵに対して、１つの予測モード（ＰＵ分割モード、ＰａｒｔＭｏｄｅで規定）で分割される。例えば、３２×３２画素のＣＵがＰａｒｔ＿Ｎｘ２ＮのＰＵ分割モードで分割された場合、３２×３２画素のＣＵは１６×３２画素のＰＵが２個から構成されることを示す。

なお、ＰＵ分割モードは、イントラ予測の場合、Ｐａｒｔ＿２Ｎｘ２ＮまたはＰａｒｔ＿ＮｘＮの２つから選択され、インター予測の場合、Ｐａｒｔ＿２Ｎｘ２Ｎ，Ｐａｒｔ＿２ＮｘＮ，Ｐａｒｔ＿Ｎｘ２Ｎ，Ｐａｒｔ＿ＮｘＮの同じ大きさのブロックからなる４つの分割モードと、Ｐａｒｔ＿２ＮｘｎＵ，Ｐａｒｔ＿２ＮｘｎＤ，Ｐａｒｔ＿ｎＬｘ２Ｎ，Ｐａｒｔ＿ｎＲｘ２Ｎの非対称の大きさのブロック（ＡＭＰ：ＡｓｙｍｍｅｔｒｉｃＭｏｔｉｏｎＰａｒｔｉｔｉｏｎｓという）からなる４つの分割モードの、合わせて８つの分割モードから選択できる。

なお、変換ユニットＴＵは、ＰＵ分割とは独立して、再帰的に四分木分割を行うことが可能である。変換ユニットＴＵには、予測差分画像に対する周波数成分を示す係数、つまり、変換係数のＮ×Ｎ個で構成される（例えば、Ｎは、４、８、１６、３２を示す）。

図２４は、Ｈ．２６５規格におけるＣＵレイヤデータ以下の符号化ストリームの構成例を示す図である。

図２４（Ａ）は、ＣＵ，ＰＵ及びＴＵの構成を示す。ＣＵ及びＰＵは、６４×６４画素のブロックからなる構成を示し、ＴＵは、３２×３２の４個のブロックで構成される例を示す。

図２４（Ｂ）は、Ｈ．２６５におけるＣＵレイヤデータ以下の符号化ストリームの構成例を示す図である。なお、図２４（Ｂ）には、以下の説明に必要な符号のみを簡略して記載しており、詳細は、Ｈ．２６５規格に記載される。

図２４（Ｂ）の符号化ユニットに対応する符号化ユニットレイヤデータは、ＣＵ分割フラグ、および、ＣＵデータ（符号化ユニットデータ）で構成される。このＣＵ分割フラグは、「１」の場合、符号化ユニットを４分割することを示し、「０」の場合、符号化ユニットを４分割しないことを示す。

図２４（Ｂ）では、６４ｘ６４画素の符号化ユニットは分割されない。すなわち、ＣＵ分割フラグは「０」である。さらに、ＣＵデータは、ＣＵタイプ、動きベクトルまたは面内予測モードを示すＰＵデータ、および、係数を含む変換ユニットから構成されるＴＵレイヤデータ０で構成される。ＣＵタイプによって、予測ユニットのサイズが決定される。

ＰＵデータには、動きベクトルまたは面内予測モードのほかに、参照画像を示すフラグ（参照インデックスとも呼ぶ）やインター予測に必要な情報が含まれる。ＴＵレイヤデータ０は、最上位層を示すＴＵ階層０を示し、ＣＵデータと同様に、ＴＵ分割フラグ、ＴＵレイヤデータ１から構成される。

このＴＵ分割フラグは、ＣＵ分割フラグと同様に、「１」の場合、変換ユニットを４分割することを示し、「０」の場合、変換ユニットを４分割しないことを示す。

ＴＵレイヤデータ１は、ＴＵ０に対するＴＵ分割フラグ、ＴＵデータ（ＴＵ０）、ＴＵ１に対するＴＵ分割フラグ、ＴＵデータ（ＴＵ１）、ＴＵ２に対するＴＵ分割フラグ、ＴＵデータ（ＴＵ２）、ＴＵ３に対するＴＵ分割フラグ、ＴＵデータ（ＴＵ３）で構成される。なお、ＴＵレイヤデータ１におけるＴＵ分割フラグは「０」の例である。

ここで、ＴＵ０以外のＴＵデータは、直前の変換ユニット（例えば、ＴＵ１なら、ＴＵ０）までを復号しないと、各ＴＵ分割フラグが出現しないため、各ＴＵの大きさが確定しないことがわかる。

図２５は、Ｈ．２６５規格のインター予測におけるＣＵ構成毎に選択可能なＰＵ構成を示す図である。例えば、６４×６４ＣＵの場合、６４×６４ＰＵ，６４×３２ＰＵ，３２×６４ＰＵ，３２×３２ＰＵ，６４×１６ＰＵ，６４×４８ＰＵ，１６×６４ＰＵ，４８×６４ＰＵがＰａｒｔＭｏｄｅによって、選択される。

そして、予測ユニット毎に、インター予測の場合、動きベクトルや参照画像を示すフラグ（参照インデックスともいう）が、イントラ予測の場合、面内予測モードが指定される。

図２６は、Ｈ．２６５規格で選択可能なＴＵ構成を示す図である。具体的には、３２×３２ＴＵ，１６×１６ＴＵ，８×８ＴＵ，４×４ＴＵからなり、全て正方形で構成される。

ところで、インター予測の場合、動きベクトルが指し示す参照ピクチャから参照画像を取得する必要がある。

図２７は、動き補償処理の概略を示す図である。図２７のように、動き補償処理は、符合化ストリームから復号された動きベクトルおよび参照インデックスによって指し示される、過去に復号されたピクチャの一部を取り出し、フィルター演算を行うことによって、予測画像を生成する処理である。Ｈ．２６５規格の場合、動き補償処理のフィルター演算は、最大８ＴＡＰフィルターが用いられる。

例えば、図２７（Ａ）に示すように、予測対象の予測ユニットの大きさが６４×６４画素（６４×６４ＰＵ）の参照画像に８ＴＡＰフィルターが用いられる場合、６４×６４画素に７画素が垂直方向及び水平方向に付加される。具体的には、動きベクトルの指し示す整数位置を基点とした予測対象予測ユニットから、左に３画素、右に４画素、上に３画素、下に４画素が付加される。したがって、参照ピクチャから取り出される参照画像は、７１×７１画素である。

図２７（Ｂ）は、予測対象の予測ユニットの大きさが１６×１６画素である場合を示す。８ＴＡＰフィルターが用いられる場合、参照ピクチャから取り出される参照画像は、６４×６４ＰＵの場合と同様に、２３×２３画素である。なお、動きベクトルが整数位置を指し示す場合は、予測ユニットの参照画像に対してフィルター処理を必要としないため、必要な参照画像の大きさは、予測ユニットの大きさと同じにしても構わない。

Ｈ．２６４規格では、最大、マクロブロック単位での予測であったため、同じ大きさの参照画像の取得には、Ｈ．２６５規格の１６×１６画素（２５６画素）の予測ユニットに対して、最大２３×２３画素（５２９画素）を必要としたが、Ｈ．２６５規格の場合、参照画像の取得には、６４×６４画素（４０９６画素）の予測ユニットに対して、最大７１×７１画素（５０４１画素）となる。つまり、１つの予測ユニットに必要なデータサイズが約９．５倍となり、参照ピクチャを外部メモリ（例えば、外付けのＳＤＲＡＭ）から取得する場合、外部メモリバスを占有する時間が約９．５倍にも増大することになり、復号処理以外のシステムに与える影響が大きく、例えば、表示用の出画処理等が破綻するという課題がある。

これに対し、特許文献１のように、動き補償ブロックサイズを固定の大きさにする目的ではあるが、例えば４×４画素や８×８画素の予測ユニットの最小サイズに分割処理することで、対策を行うことが可能である。ただし、小さなサイズに分割すればするほど、フィルター処理に必要な画素数が増大するため、例えば、Ｈ．２６５規格では８ＴＡＰフィルターに必要な画素（予測ユニットのサイズに、垂直方向及び水平方向に７画素付加される画素数）の割合が増大してしまい、外部メモリバンド幅に与える影響は大きく、性能破綻をきたすという課題がある。

例えば、１６×１６画素の予測ユニットに対して、８ＴＡＰフィルターをかけるには参照画像として、２３×２３画素（５２９画素）を必要とするが、４×４画素ブロック、１６個に分割すると、８ＴＡＰフィルターをかけるには参照画像として、１１×１１画素（１２１画素）を１６個必要とするため、１９３６画素（＝１２１画素×１６個）と、分割する前の約３．６倍もの参照画像を必要とするため、外部メモリバンド幅への影響が大きくなるという課題がある。

また、特許文献２のように、予測ユニットＰＵを変換ユニットＴＵのエッジで分割することで対策を行うことが可能である。ただし、ＴＵサイズが３２×３２画素である場合、３２×３２画素の同じサイズの予測ユニットに対して、３９×３９画素（１５２１画素）の参照画像の取得が必要となり、１６×１６画素の予測ユニットに対する参照画像サイズ２３×２３画素（５２９画素）に比べ、約３倍のデータサイズを必要とするため、外部メモリバスの占有時間が長く、復号処理以外のシステムに大きく影響し、特に表示用の出画処理等が破綻するという課題がある。

また、特許文献２のように、予測ユニットＰＵを変換ユニットＴＵのエッジで分割する場合、予測ユニットの復号処理が、変換ユニットの大きさに依存するため、予測ユニットの復号処理が変換ユニットの大きさが確定するまで開始できず、予測ユニットの復号処理が遅延するという課題がある。なお、Ｈ．２６５規格では、変換ユニットの大きさは、ＴＵレイヤが最下位層まで復号処理が進まないと、確定できない。

また、特許文献２のように、予測ユニットを変換ユニットのエッジで分割すると、より小さなＴＵに分割された場合（例えば、４×４ＴＵ）、予測ユニットも変換ユニットに依存して、予測処理する必要があるため、変換サイズより大きな予測ユニットに対しては、予測処理の復号処理性能が悪化するという課題がある。

特開２００６−３１１５２６号公報国際公開第２０１３／０７６８８８号

'SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMSInfrastructure of audiovisual services - Coding of moving video',[online]. Recommendation ITU-TH.265, 04/2013, [retrieved on 2014-03-17]. Retrieved from the Internet: <URL:http://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-H.265-201304-I!!PDF-E&type=items>.

上述した従来技術のように、動き補償回路を予測ユニットの最小サイズに合わせて、分割することで、参照画像取得時の外部メモリバスの占有率を低減することは可能である。

しかしながら、分割サイズが小さくなればなるほど、予測処理におけるフィルター処理に必要な画素数が増大し、外部メモリバンド幅を増大させてしまうという課題がある。外部メモリバンド幅の増大は、出画処理を含めたシステム全体へ影響を与え、アプリケーションの破綻に繋がってしまう。

また、逆に、予測ユニットが大きくなればなるほど、予測処理を行う回路面積が増大するという課題がある。また、予測ユニットを変換ユニットの大きさに応じて、分割し、予測処理をすると、変換ユニットの大きさが確定するまで処理を開始できない、という課題がある。つまり、予測処理が遅延してしまい、予測処理を高速に動作できない。

かかる点に鑑みて、本開示は、予測ユニットに予測処理を利用して符合化された符号化ストリームを復号する際に、外部メモリバスを占有させることなく、また、外部メモリバンド幅を増大させることなく、復号処理を高速に、さらに回路面積を抑えることが可能な画像復号装置及びその方法を提供することを課題とする。

本開示の一形態に係る画像復号装置は、符号化ユニットは、予測処理の単位としては、１以上の予測ユニットから構成され、周波数変換処理の単位としては、１以上の変換ユニットを含み、前記１以上の予測ユニットに対する予測処理と、前記１以上の変換ユニットに対する周波数変換処理とを含む符号化処理によって符号化された符号化ストリームを復号する。具体的には、前記予測ユニットの大きさが予め設定された大きさを超える場合、前記変換ユニットの大きさに関わらず、前記予測ユニットを複数のブロックに分割する分割手段と、前記予測ユニットを分割することで得られたブロック毎に、前記予測ユニットの予測画像に関する復号処理を行うことで予測画像を生成する予測画像生成手段と、前記予測画像生成手段で生成された予測画像を利用して画像を復元する画像復元手段とを備える。

これによれば、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、予測ユニットを分割することで、予測ユニットの大きさを抑えることができる。

これにより、外部メモリバスを占有させることなく、また、外部メモリバンド幅を増大させることなく、さらに予測処理回路の面積を増大させることなく、復号処理を実行することができる。

また、前記分割手段は、前記予め設定された大きさ以下に分割してもよい。

これによれば、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、予測ユニットを予め設定された大きさ以下に分割することで、予測ユニットの大きさを抑えることができる。

また、前記分割手段は、前記符号化ユニットを構成する前記１以上の全ての予測ユニットをまとめた１つのブロックを、同じ大きさの４つのブロックに分割し、前記分割された各ブロックを前記分割手段に予め設定された大きさ以下になるまで再帰的に分割してもよい。

これによれば、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、１以上の予測ユニットをまとめた１つのブロックを、同じ大きさの４つのブロックに分割し、分割された各ブロックを予め設定された大きさ以下になるまで再帰的に分割することで、予測ユニットの大きさを抑えることができる。

これにより、外部メモリバスを占有させることなく、また、外部メモリバンド幅を増大させることなく、さらに予測処理回路の面積を増大させることなく、復号処理を実行することができる。
また、前記予測画像生成手段は、前記分割手段によって前記再帰的に分割されたブロックを再帰的に且つＺ順に予測画像を生成してもよい。

これによれば、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、１以上の予測ユニットをまとめた１つのブロックを同じ大きさの４つのブロックに分割し、分割された各ブロックを予め設定された大きさ以下になるまで再帰的に分割し、再帰的に分割されたブロックを再帰的に且つＺ順に予測画像を生成することで、復号処理を高速に実行することができる。

これにより、外部メモリバスを占有させることなく、また、外部メモリバンド幅を増大させることなく、さらに予測処理回路の面積を増大させることなく、復号処理を高速に実行することができる。

また、前記分割手段は、前記分割手段に予め設定された大きさが１６画素×１６画素であってもよい。

これによれば、１６×１６画素を超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、１６×１６画素以下に予測ユニットに分割することで、予測ユニットの大きさを抑えることができる。

また、前記予測画像生成手段は、過去に復号された画像データを取得し、予測画像を生成してもよい。

これによれば、過去に復号された画像データを取得し、予測画像を生成することが可能になり、さらに、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、予測ユニットを分割することで、予測ユニットの大きさを抑えることができる。

また、前記予測画像生成手段は、過去に復号された画像データを外部メモリから取得し、予測画像を生成してもよい。

これによれば、過去に復号された画像データを外部メモリから取得することで、予測画像を生成することが可能になり、さらに、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、予測ユニットを分割することで、予測ユニットの大きさを抑えることができる。

また、前記予測画像生成手段は、過去に復号された画像データから前記予測ユニットの動きベクトルを用いて、動き補償処理を行い、予測画像を生成してもよい。

これによれば、過去に復号された画像データから予測ユニットの動きベクトルを用いて、動き補償処理を行い、予測画像を生成することが可能になり、さらに、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、予測ユニットを分割することで、予測ユニットの大きさを抑えることができる。

また、前記画像復元手段は、逆周波数変換処理された残差画像を加算することで画像を復元してもよい。

これによれば、予測画像に逆周波数変換処理された残差画像を加算することで画像復元することが可能になり、さらに、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、予測ユニットを分割することで、予測ユニットの大きさを抑えることができる。

前記符合化ストリームは、Ｈ．２６５で符合化されてもよい。

これによれば、Ｈ．２６５で符号化ストリームを復元することが可能になり、さらに、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関係なく、予測ユニットを分割することで、予測ユニットの大きさを抑えることができる。

本開示の一形態に係る画像復号方法は、符号化ユニットは、予測処理の単位としては、１以上の予測ユニットから構成され、周波数変換処理の単位としては、１以上の変換ユニットから構成され、前記１以上の予測ユニットに対する予測処理と、前記１以上の変換ユニットに対する周波数変換処理とを含む符号化処理によって符号化された符号化ストリームを復号する画像復号方法である。具体的には、前記予測ユニットの大きさが予め設定された大きさを超える場合、前記変換ユニットの大きさに関わらず、前記予測ユニットを複数のブロックに分割する分割ステップと、前記予測ユニットを分割することで得られたブロック毎に、前記予測ユニットの予測画像に関する復号処理を行うことで予測画像を生成する予測画像生成ステップと、前記予測画像生成ステップで生成された予測画像を利用して画像を復元する画像復元ステップとを含む。

これによれば、予め設定された大きさを超えるような予測ユニットに対しても、変換ユニットの大きさに関わらず、予測ユニットを分割することで、予測ユニットの大きさを抑えることができる。

本開示の一形態に係る集積回路は、符号化ユニットは、予測処理の単位としては、１以上の予測ユニットから構成され、周波数変換処理の単位としては、１以上の変換ユニットから構成され、前記１以上の予測ユニットに対する予測処理と、前記１以上の変換ユニットに対する周波数変換処理とを含む符号化処理によって符号化された符号化ストリームを復号する。

具体的には、集積回路は、前記予測ユニットの大きさが予め設定された大きさを超える場合、前記変換ユニットの大きさに関わらず、前記予測ユニットを複数のブロックに分割する分割部と、前記予測ユニットを分割することで得られたブロック毎に、前記予測ユニットの予測画像に関する復号処理を行うことで予測画像を生成する予測画像生成部と、前記予測画像生成部で生成された予測画像を利用して画像を復元する画像復元部とを備える。

これによれば、予め設定された大きさを超えるような予測ユニットに対しても、前記変換ユニットの大きさに関わらず、予測ユニットを分割することで、予測ユニットの大きさを抑えることができる。

以上のように、本開示にかかる画像復号装置によれば、変換ユニットの大きさに関わらず、外部メモリバスを占有させることなく、また、外部メモリバンド幅を増大させることなく、さらに予測処理回路の面積を増大させることなく、復号処理を実行することができる。

図１は、実施の形態１に係る画像復号装置の構成を示すブロック図である。図２は、実施の形態１に係る動き補償部の構成を示すブロック図である。図３は、実施の形態１に係る予測画像生成のフローチャートである。図４は、実施の形態１に係るＰＵ分割をしない場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。図５は、実施の形態１に係るＰＵ分割をしない場合に関する、パイプライン処理を示すタイミングチャートである。図６は、実施の形態１に係る従来のＰＵ分割を実施した場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。図７は、実施の形態１に係る従来のＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。図８は、実施の形態１に係るＰＵ分割を実施した場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。図９は、実施の形態１に係るＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。図１０は、実施の形態１に係る６４×６４ＣＵに対してＰＵ分割を実施した場合に関する、ＰＵのブロック構成例を示す図である。図１１は、実施の形態１に係る６４×６４ＣＵに対してＰＵ分割を実施した場合に関する、ＰＵのブロック構成例を示す図である。図１２は、実施の形態１に係る３２×３２ＣＵに対してＰＵ分割を実施した場合に関する、ＰＵのブロック構成例を示す図である。図１３は、実施の形態１に係る３２×３２ＣＵに対してＰＵ分割を実施した場合に関する、ＰＵのブロック構成例を示す図である。図１４は、実施の形態１に係るＰＵ分割をしない場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。図１５は、実施の形態１に係るＰＵ分割をしない場合に関する、パイプライン処理を示すタイミングチャートである。図１６は、実施の形態１に係るＰＵ分割を実施した場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。図１７は、実施の形態１に係るＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。図１８は、実施の形態２に係るＰＵ分割を実施した場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。図１９は、実施の形態２に係るＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。図２０は、実施の形態３に係る従来のＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。図２１は、実施の形態３に係るＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。図２２は、Ｈ．２６５規格におけるピクチャ及び符号化ストリームの構成例を示す図である。図２３は、Ｈ．２６５規格におけるＣＴＵ，ＣＵ，ＰＵ，ＴＵ分割した一例を示す図である。図２４は、Ｈ．２６５規格におけるＣＵレイヤデータ以下の符号化ストリームの構成例を示す図である。図２５は、Ｈ．２６５規格のインター予測におけるＣＵ構成毎に選択可能なＰＵ構成を示す図である。図２６は、Ｈ．２６５規格で選択可能なＴＵ構成を示す図である。図２７は、動き補償処理の概略を示す図である。

以下、図面を参照しつつ、本開示の実施の形態について説明する。

＜実施の形態１＞
以下、本開示の実施の形態１における画像復号装置について説明する。

図１は、実施の形態１に係る画像復号装置の構成を示すブロック図である。

図１の示すように、画像復号装置１００は、復号部１１０と、逆量子化部１２０と、逆周波数変換部１３０と、再構成部１４０と、インループフィルター部１５０と、動き補償部１６０と、面内予測部１７０と、フレームメモリ１８０とを備える。各部は、基本的には、従来におけるＨ．２６５規格に基づく復号を行うものとし、従来と同様の処理については説明を簡略化する。

復号部１１０は、入力された符合化ストリームの符合化ユニット（ＣｏｄｉｎｇＵｎｉｔ。以下、ＣＵと呼ぶ）がインター予測の場合、復号部１１０に入力された符号化ストリームを復号して、予測ユニット（ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ。以下、ＰＵと呼ぶ）の動きベクトル及び参照画像情報（例えば、参照画像を特定するためのフラグ、参照インデックス）及びＣＵやＰＵに関する情報（例えば、ＣＵの大きさやＰＵ分割モードＰａｒｔＭｏｄｅ）を動き補償部１６０へ出力する。なお、復号部１１０は、Ｈ．２６５規格に基づく、算術復号や可変長復号などを処理する。

動き補償部１６０は、復号部１１０から受け取った動きベクトル及び参照画像情報及びＣＵやＰＵに関する情報からフレームメモリ１８０の参照画像位置を特定し、フレームメモリ１８０から参照画像を取得する。取得した参照画像からＰＵに対する動き補償を行い、予測画像を生成し、再構成部１４０へ出力する。

一方、復号部１１０で復号された周波数変換ユニット（ＴｒａｎｓｆｏｒｍＵｎｉｔ。以下、ＴＵと呼ぶ）の周波数成分の係数データ（例えば、ＤＣＴ係数や変換係数）を逆量子化部１２０へ出力する。逆量子化部１２０は、復号部１１０から受け取った係数データを逆量子化し、結果を逆周波数変換部１３０へ出力する。逆周波数変換部１３０は、逆量子化部１２０から受け取った逆量子化後の係数データをＴＵ単位で逆周波数変換し、残差画像として、再構成部１４０へ結果を出力する。

再構成部１４０は、逆周波数変換部１３０から受け取った残差画像と、動き補償部１６０から受け取った予測画像とを加算し、再構成画像として、結果をインループフィルター部１５０へ出力する。

インループフィルター部１５０は、再構成部１４０から受け取った再構成画像にインループフィルター（例えば、デブロッキングフィルターやサンプル適応フィルター（ＳＡＯ：ＳａｍｐｌｅＡｄａｐｔｉｖｅＦｉｌｔｅｒ））を行った上で、復号画像として、結果をフレームメモリ１８０へ出力する。その後、復号画像は、フレームメモリ１８０から表示部（図示省略）へ出力される。

また、時間的に異なる参照画像を用いないＩピクチャやイントラ予測ブロックである予測ユニットでは、復号部１１０で算出した面内予測モードを面内予測部１７０へ出力する。

面内予測部１７０は、復号部１１０から受け取った面内予測モードから面内予測を行い、予測画像を生成し、再構成部１４０へ出力する。なお、図示は省略しているが、面内予測に必要な再構成画像は、再構成部１４０から取得することが可能である。

再構成部１４０は、インター予測の場合と同様に、逆周波数変換部１３０から受け取った残差画像と、面内予測部１７０から受け取った予測画像とを加算し、再構成画像として、結果をインループフィルター部１５０へ出力する。

インループフィルター部１５０以降の処理は、インター予測と同じため、省略する。

次に、動き補償部１６０について、詳細を説明する。

図２は、実施の形態１に係る動き補償部の構成を示すブロック図である。

分割部１６１は、復号部１１０から受け取ったＣＵやＰＵの情報からＰＵを分割するかどうかを決定し、分割する場合は、分割したブロック毎に、分割する前のＰＵの動きベクトルと参照画像情報と分割後のブロック位置情報を保持し、その分割結果に応じて、分割されたブロック毎の情報をフレームメモリ転送制御部１６２へ転送する。なお、分割方法や分割されたブロックの処理順に関しては、後で詳細を説明する。また、分割しない場合は、ＰＵの動きベクトルや参照画像情報やＰＵの位置情報をフレームメモリ転送制御部１６２へ転送する。

フレームメモリ転送制御部１６２は、分割部１６１から受け取った動きベクトルや参照画像情報やブロックやＰＵの位置情報を元に、予測画像を生成するためにフレームメモリ１８０にある参照ピクチャの参照画像位置を特定し、フレームメモリ１８０から参照画像データを取得し、局所参照メモリ１６３へ転送する。

動き補償演算部１６４は、局所参照メモリ１６３に格納された参照画像データを用いて、動き補償対照ブロック毎に、動き補償演算を行い、予測画像を生成し、予測画像メモリ１６５に出力する。

再構成部１４０は、予測画像メモリ１６５に格納された予測画像と、逆周波数変換部１３０から受け取った残差画像とを加算し、再構成画像として、結果を出力する。

図３は、実施の形態１に係る予測画像生成のフローチャートである。

まず、復号部１１０は、符合化ストリームから取得したＣＵ情報およびＰＵ情報を分割部１６１へ出力する（ステップＳ３０１）。

次に、分割部１６１では、ＰＵサイズが予め設定された閾値のサイズを超えるかを求め、その結果が超えると判断された場合（ステップＳ３０２でＹｅｓ）、ＰＵサイズが閾値サイズ以下になるように分割する（ステップＳ３０３）。

フレームメモリ転送制御部１６２は、分割された各ブロックのフレームメモリ１８０上の参照画像の位置およびサイズを算出し（ステップＳ３０４）、動き補償対象ブロックの動き補償処理に必要な参照画像データをフレームメモリ１８０から取得し、局所参照メモリ１６３に転送する（ステップＳ３０６）。

なお、分割部１６１で、ＰＵサイズが予め設定された閾値のサイズを超えないと判断された場合（ステップＳ３０２でＮｏ）、フレームメモリ転送制御部１６２は、ＰＵ毎の動きベクトルが指し示す参照画像領域、つまり、動き補償対象ブロックの動き補償処理に必要な参照画像データの位置とサイズを算出し（ステップＳ３０５）、フレームメモリ１８０から参照画像を取得し、局所参照メモリ１６３に転送する（ステップＳ３０６）。

動き補償演算部１６４は、局所参照メモリ１６３から取得した参照画像データを用いて、動き補償対象ブロック毎に動き補償演算を行い、生成された予測画像を予測画像メモリ１６５に出力する（ステップＳ３０７）。

次に、ＰＵサイズ毎の分割方法について、従来の場合と本開示との差異を分かりやすくするために、より詳細な分割方法について、以下に説明する。

図４は、実施の形態１に係るＰＵ分割をしない場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。

図４（ａ）は、本実施の形態に係るＣＵの構成例を示す図である。図４（ａ）に示されたＣＵ０は、６４×６４画素のサイズを有する。

図４（ｂ）は、図４（ａ）に示されたＣＵ０におけるＴＵの構成例を示す図である。図４（ｂ）には、３２×３２画素で構成されたＴＵ（以下、３２×３２ＴＵと記載。ＣＵ，ＰＵも同様に記載）が４個の変換ユニットＴＵ０〜ＴＵ３で示されている。そして、ＴＵ０〜ＴＵ３は、ＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で処理される。４個の変換ユニットＴＵ０〜ＴＵ３に対する処理として、逆量子化、逆周波数変換等があり、結果を残差画像として出力する。

図４（ｃ）は、図４（ａ）に示されたＣＵ０におけるＰＵの構成例を示す図である。図４（ｃ）には、３２×６４ＰＵが２個の予測ユニットＰＵ０，ＰＵ１が示されている。そして、ＰＵ０及びＰＵ１は、ＰＵ０，ＰＵ１の順で処理される。

図４（ｄ）は、図４（ａ）に示されたＣＵ０の分割後のブロックの構成例を示す図である。図４（ｄ）には、４個のブロックＢＫ０〜ＢＫ３が示されている。そして、４個のブロックＢＫ０〜ＢＫ３は、ＢＫ０，ＢＫ１，ＢＫ２，ＢＫ３の順で処理される。４個のブロックＢＫ０〜ＢＫ３に対する処理として、再構成処理、インループフィルター処理及びフレームメモリ１８０への格納処理等がある。なお、図４（ｄ）におけるブロック分割は、ＴＵサイズと同等に分割した一例であり、ＰＵサイズと同等に分割しても構わないし、他の分割方法でも構わない。

図５は、図４に示されたＣＵ，ＴＵ，ＰＵ、再構成画像に、図３の手順が適用されなかった場合のパイプライン処理を示すタイムチャートである。図５の例では、ＴＵ処理が、変換ユニットＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で実行される。なお、ＴＵ処理前の復号部１１０での復号処理はＴＵ処理以前に行われており、図示は省略している（以降のタイミングチャートでも同様に省略している）。同時に、ＰＵ処理が、予測ユニットＰＵ０，ＰＵ１に対して、実行される。その後、再構成処理が、ＢＫ０〜ＢＫ３に実行され、その後、インループフィルター処理がＢＫ０〜ＢＫ３に対して、実行される。

図５の例では、ＰＵ処理がＰＵ０に対して終了して、かつ、ＴＵ処理がＴＵ０に対して終了するまで、再構成処理が開始できない。つまり、ＴＵ０が終了してから再構築処理を実行するまでに遅延時間が生じてしまう。また、ＰＵ０は、３２×６４ＰＵから構成され、フレームメモリ転送制御部１６２がフレームメモリ１８０から３９×７１画素（２７６９画素）もの参照画像を取得するため、外部メモリバスを占有してしまう。

図６は、従来のＴＵのエッジに応じてＰＵ分割を実施した場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。

図６（ａ）、図６（ｂ）、図６（ｃ）、図６（ｄ）は、それぞれ、図４（ａ）、図４（ｂ）、図４（ｃ）、図４（ｄ）と同じであるため、説明を省略する。

図６（ｃ’）は、図６（ａ）に示された符合化ユニットＣＵ０における予測ユニットをＴＵのエッジに応じて、分割された後のブロックの構成例を示す図である。なお、点線で処理の単位となるブロックの構成を示す（以下、分割されたブロックの構成に関しては同じである）。図６（ｃ’）には、４個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂが示されている。そして、ＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂの順で処理される。４個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂに対する処理として、参照画像の取得、動き補償演算、および、予測画像の出力処理等がある。なお、上記処理は、ＰＵ処理と同等の処理であるため、特に断らなければ、分割ブロックに対するＰＵ処理（単に、ＰＵ処理）と記載する。

図７は、図６に示されたＣＵ，ＴＵ，ＰＵ、再構成画像に、従来のＴＵのエッジに応じてＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。

図７の例では、ＴＵ処理が、変換ユニットＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で実行される。同時に、ＰＵ処理が、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂに対して、ＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂの順で実行される。その後、再構成処理が、ＢＫ０〜ＢＫ３に実行され、その後、インループフィルター処理がＢＫ０〜ＢＫ３に対して、実行される。ここで、ＴＵ０に対してＴＵ処理が終了し、ブロックＰＵ０ａに対してＰＵ処理が終了した後、ブロックＢＫ０の再構成処理が開始する。同様にＴＵ１〜ＴＵ３のＴＵ処理が順に終了し、ブロックＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂに対して、ＰＵ処理が順に終了するタイミングで、ブロックＢＫ１〜ＢＫ３の再構成処理が順に開始する。

また、インループフィルター処理が、ブロックＢＫ０〜ＢＫ３に対して、ＢＫ０，ＢＫ１，ＢＫ２，ＢＫ３の順で実行される。ここで、ブロックＢＫ０の再構成処理が終了した後、ブロックＢＫ０のインループフィルター処理が開始する。同様に、ブロックＢＫ１〜ＢＫ３の再構成処理が順に終了するタイミングで、ブロックＢＫ１〜ＢＫ３のインループフィルター処理が順に開始する。

図７の例では、分割後のブロックの予測画像は、変換ユニットと同じ順序で出力される。そのため、図５の場合に比べ、再構成処理に必要な、差分画像、および、差分画像と同じ領域の予測画像の両方が、早く揃う。したがって、再構成処理およびインループフィルター処理の開始の遅延が小さくなる。よって、復号処理が高速化する。

しかしながら、分割後のブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂは、３２×３２画素から構成され、各分割後のブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂは、フレームメモリ転送制御部１６２がフレームメモリ１８０からそれぞれ３９×３９画素（１５２１画素）もの参照画像を取得するため、外部メモリバスを占有してしまう。

図８は、図３の手順に従ってＰＵ分割を実施した場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。

図８（ａ）、図８（ｂ）、図８（ｃ）、図８（ｄ）は、それぞれ、図４（ａ）、図４（ｂ）、図４（ｃ）、図４（ｄ）と同じであるため、説明を省略する。

図８（ｃ’）では、図８（ａ）に示された符合化ユニットＣＵ０における予測ユニットを予め設定された閾値、例えば、今回の場合、１６×１６画素として、分割された後のブロックの構成例を示す図である。図８（ｃ’）には、１６個のブロックＰＵ０ａ〜ＰＵ０ｈ，ＰＵ１ａ〜ＰＵ１ｈが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄ，ＰＵ０ｅ，ＰＵ０ｆ，ＰＵ０ｇ，ＰＵ０ｈ，ＰＵ１ｅ，ＰＵ１ｆ，ＰＵ１ｇ，ＰＵ１ｈの順で処理される。つまり、ＣＵ０を四分木分割されたブロックを再帰的に四分木分割された順番でＺ順に処理されることになる。

図９は、図８に示されたＣＵ，ＴＵ，ＰＵ、再構成画像に、図３の手順に従ってＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。

図９の例では、ＴＵ処理が、変換ユニットＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で実行される。同時に、ＰＵ処理が、ブロックＰＵ０ａ〜ＰＵ０ｈ，ＰＵ１ａ〜ＰＵ１ｈに対して、ＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄ，ＰＵ０ｅ，ＰＵ０ｆ，ＰＵ０ｇ，ＰＵ０ｈ，ＰＵ１ｅ，ＰＵ１ｆ，ＰＵ１ｇ，ＰＵ１ｈの順で実行される。その後、再構成処理が、ＢＫ０〜ＢＫ３に実行され、その後、インループフィルター処理がＢＫ０〜ＢＫ３に対して、実行される。ここで、ＴＵ０に対してＴＵ処理が終了し、ブロックＰＵ０ａ〜ＰＵ０ｄに対してＰＵ処理が終了した後、ブロックＢＫ０の再構成処理が開始する。同様にＴＵ１〜ＴＵ３のＴＵ処理が順に終了し、ブロックＰＵ１ａ〜ＰＵ１ｄ，ＰＵ０ｅ〜ＰＵ０ｈ，ＰＵ１ｅ〜ＰＵ１ｈの各４ブロックずつのＰＵ処理が順に終了するタイミングで、ブロックＢＫ１〜ＢＫ３の再構成処理が順に開始する。

図９の例では、分割後のブロックの予測画像は、変換ユニットと同じ順序で出力される。そのため、図５の場合に比べ、再構成処理に必要な、差分画像、および、差分画像と同じ領域の予測画像の両方が、早く揃う。したがって、再構成処理およびインループフィルター処理の開始の遅延が小さくなる。よって、復号処理が高速化する。

また、分割後のブロックＰＵ０ａ〜ＰＵ０ｈ，ＰＵ１ａ〜ＰＵ１ｈは、１６×１６画素から構成され、フレームメモリ転送制御部１６２がフレームメモリ１８０から２３×２３画素（５２９画素）の参照画像を取得するため、従来のマクロブロックと同等の転送サイズとなるため、外部メモリバスを占有させることはない。また、従来と同程度のメモリバンド幅にて、復号処理を実現することが可能である。

図１０は、図３の手順に従って、６４×６４ＣＵに対してＰＵ分割を実施した場合に関する、ＰＵのブロック構成例を示す図である。

以下、ＰＵ分割を実施する閾値サイズは、例えば、今回の場合、１６×１６画素とする。

図１０（ａ）は、６４×６４ＣＵに対して、６４×６４ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる１６個のブロックＰＵ０ａ〜ＰＵ０ｐが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，・・・，ＰＵ０ｐの順で処理される。つまり、６４ｘ６４ＣＵを四分木分割されたブロックを再帰的に四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１０（ｂ）は、６４×６４ＣＵに対して、６４×３２ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる１６個のブロックＰＵ０ａ〜ＰＵ０ｈ，ＰＵ１ａ〜ＰＵ１ｈが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ０ｅ，ＰＵ０ｆ，ＰＵ０ｇ，ＰＵ０ｈ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄ，ＰＵ１ｅ，ＰＵ１ｆ，ＰＵ１ｇ，ＰＵ１ｈの順で処理される。つまり、６４×６４ＣＵを四分木分割されたブロックを再帰的に四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１０（ｃ）は、６４×６４ＣＵに対して、３２×６４ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる１６個のブロックＰＵ０ａ〜ＰＵ０ｈ，ＰＵ１ａ〜ＰＵ１ｈが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄ，ＰＵ０ｅ，ＰＵ０ｆ，ＰＵ０ｇ，ＰＵ０ｈ，ＰＵ１ｅ，ＰＵ１ｆ，ＰＵ１ｇ，ＰＵ１ｈの順で処理される。つまり、６４×６４ＣＵを四分木分割されたブロックを再帰的に四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１０（ｄ）は、６４×６４ＣＵに対して、３２×３２ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる１６個のブロックＰＵ０ａ〜ＰＵ０ｄ，ＰＵ１ａ〜ＰＵ１ｄ，ＰＵ２ａ〜ＰＵ２ｄ，ＰＵ３ａ〜ＰＵ３ｄが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄ，ＰＵ２ａ，ＰＵ２ｂ，ＰＵ２ｃ，ＰＵ２ｄ，ＰＵ３ａ，ＰＵ３ｂ，ＰＵ３ｃ，ＰＵ３ｄの順で処理される。つまり、６４×６４ＣＵを四分木分割されたブロックを再帰的に四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１１は、図３の手順に従って、６４×６４ＣＵに対してＰＵ分割を実施した場合に関する、ＰＵのブロック構成例を示す図である。特に、ＰＵが非対称のブロック（ＡＭＰ：ＡｓｙｍｍｅｔｒｉｃＭｏｔｉｏｎＰａｒｔｉｔｉｏｎｓと呼ぶ）で構成される。

図１１（ｅ）は、６４×６４ＣＵに対して、６４×１６ＰＵ及び６４×４８ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる１６個のブロックＰＵ０ａ〜ＰＵ０ｄ，ＰＵ１ａ〜ＰＵ１ｌが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ１ｃ〜ＰＵ１ｌの順で処理される。つまり、６４×６４ＣＵを四分木分割されたブロックを再帰的に四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１１（ｆ）は、６４×６４ＣＵに対して、６４×４８ＰＵ及び６４×１６ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる１６個のブロックＰＵ０ａ〜ＰＵ０ｌ，ＰＵ１ａ〜ＰＵ１ｄが示されている。そして、ブロックＰＵ０ａ〜ＰＵ０ｊ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ０ｋ，ＰＵ０ｌ，ＰＵ１ｃ，ＰＵ１ｄの順で処理される。つまり、６４×６４ＣＵを四分木分割されたブロックを再帰的に四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１１（ｇ）は、６４×６４ＣＵに対して、１６×６４ＰＵ及び４８×６４ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる１６個のブロックＰＵ０ａ〜ＰＵ０ｄ，ＰＵ１ａ〜ＰＵ１ｌが示されている。そして、ブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂ，ＰＵ１ｃ〜ＰＵ１ｆ，ＰＵ０ｃ，ＰＵ１ｇ，ＰＵ０ｄ，ＰＵ１ｈ，ＰＵ１ｉ〜ＰＵ１ｌの順で処理される。つまり、６４×６４ＣＵを四分木分割されたブロックを再帰的に四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１１（ｈ）は、６４×６４ＣＵに対して、４８×６４ＰＵ及び１６×６４ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる１６個のブロックＰＵ０ａ〜ＰＵ０ｌ，ＰＵ１ａ〜ＰＵ１ｄが示されている。そして、ブロックＰＵ０ａ〜ＰＵ０ｄ，ＰＵ０ｅ，ＰＵ１ａ，ＰＵ０ｆ，ＰＵ１ｂ，ＰＵ０ｇ〜ＰＵ０ｊ，ＰＵ０ｋ，ＰＵ１ｃ，ＰＵ０ｌ，ＰＵ１ｄの順で処理される。つまり、６４×６４ＣＵを四分木分割されたブロックを再帰的に四分木分割された順番（例えば、Ｚ順）で処理されることになる。

つまり、６４×６４ＣＵに対しては、図１０(ａ)〜図１０（ｄ）、図１１（ｅ）〜図１１（ｈ）で示されるように、全て同じ１６×１６のブロックに分割され、全て同じ順番で処理されることになる。

図１２は、図３の手順に従って、３２×３２ＣＵに対してＰＵ分割を実施した場合に関する、ＰＵのブロック構成例を示す図である。

図１２（ａ）は、３２×３２ＣＵに対して、３２×３２ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる４個のブロックＰＵ０ａ〜ＰＵ０ｄが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ０ｄの順で処理される。つまり、３２×３２ＣＵを四分木分割されたブロックを四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１２（ｂ）は、３２×３２ＣＵに対して、３２×１６ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる４個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂの順で処理される。つまり、３２×３２ＣＵを四分木分割されたブロックを四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１２（ｃ）は、３２×３２ＣＵに対して、１６×３２ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、この点線は同時に処理の単位のブロックも示している。処理の単位となる４個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂが示されている。そして、ブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂの順で処理される。つまり、３２×３２ＣＵを四分木分割されたブロックを四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１２（ｄ）は、３２×３２ＣＵに対して、１６×１６ＰＵでは、閾値サイズ１６×１６画素と同じため、ＰＵ分割されない構成例を示す図である。４個のブロックＰＵ０，ＰＵ１，ＰＵ２，ＰＵ３が示されている。そして、ブロックＰＵ０，ＰＵ１，ＰＵ２，ＰＵ３の順で処理される。つまり、３２×３２ＣＵを四分木分割されたブロックを四分木分割された順番（例えば、Ｚ順）で処理されることになる。

図１３は、図３の手順に従って、３２×３２ＣＵに対してＰＵ分割を実施した場合に関する、ＰＵのブロック構成例を示す図である。特に、ＰＵが非対称のブロック（ＡＭＰ）で構成される。

図１３（ｅ）は、３２×３２ＣＵに対して、３２×８ＰＵおよび３２×２４ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、さらに、実線と点線で、処理の単位となる６個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ〜ＰＵ１ｄが示されている。そして、ブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄの順で処理される。つまり、３２×３２ＣＵを四分木分割された１６×１６ブロックをもとにした順番（例えば、Ｚ順。１６×１６ブロック内もＺ順）で処理されることになる。

図１３（ｆ）は、３２×３２ＣＵに対して、３２×２４ＰＵおよび３２×８ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、さらに、実線と点線で、処理の単位となる６個のブロックＰＵ０ａ〜ＰＵ０ｄ，ＰＵ１ａ，ＰＵ１ｂが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ１ａ，ＰＵ０ｄ，ＰＵ１ｂの順で処理される。つまり、３２×３２ＣＵを四分木分割された１６×１６ブロックをもとにした順番（例えば、Ｚ順。１６×１６ブロック内もＺ順）で処理されることになる。

図１３（ｇ）は、３２×３２ＣＵに対して、８×３２ＰＵおよび２４×３２ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、さらに、実線と点線で、処理の単位となる６個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ〜ＰＵ１ｄが示されている。そして、ブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ０ｂ，ＰＵ１ｃ，ＰＵ１ｄの順で処理される。つまり、３２×３２ＣＵを四分木分割された１６×１６ブロックをもとにした順番（例えば、Ｚ順。１６×１６ブロック内もＺ順）で処理されることになる。

図１３（ｈ）は、３２×３２ＣＵに対して、２４×３２ＰＵおよび８×３２ＰＵを閾値サイズ１６×１６画素で分割されたブロックの構成例を示す図である。なお、ブロックの構成を点線で示し、さらに、実線と点線で、処理の単位となる６個のブロックＰＵ０ａ〜ＰＵ０ｄ，ＰＵ１ａ，ＰＵ１ｂが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ１ｂの順で処理される。つまり、３２×３２ＣＵを四分木分割された１６×１６ブロックをもとにした順番（例えば、Ｚ順。１６×１６ブロック内もＺ順）で処理されることになる。

つまり、３２×３２ＣＵに対しては、図１２(ａ)〜図１２（ｄ）、図１３（ｅ）〜図１３（ｈ）で示されるように、３２×３２ＣＵを四分木分割された１６×１６ブロックをもとにした順番（例えば、Ｚ順）でかつ、１６×１６ブロック内も分かれる場合は、Ｚ順で処理されることになる。なお、上記Ｚ順は、もし処理の単位のブロックが上下２つのブロックで構成された場合、上、下の順番で処理され、もし処理の単位のブロックが左右２つのブロックで構成された場合、左、右の順番で処理されることを意味する。したがって、同じ位置の同じ１６×１６のブロックであっても、処理の単位のブロックの処理の順は異なる。例えば、図１３（ｅ）と図１３（ｇ）の左上の１６×１６ブロックを見た場合、図１３（ｅ）では、ＰＵ０ａ，ＰＵ１ａというように、上、下の順番となるが、図１３（ｇ）では、左、右の順となる。したがって、予測ユニットを跨ったブロックに関しても、予測ユニットの形状に関わらず、ＣＵを四分木分割したブロック単位で処理することができ、しいては、予測ユニットの形状に関わらず、例えば、１６×１６毎の正方形のブロック単位で画像復号処理のパイプラインを構成することが可能になる。

ＰＵが非対称のブロック（ＡＭＰ）で構成される場合について、以下に説明する。

図１４は、実施の形態１に係るＰＵ分割をしない場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。

図１４（ａ）は、本実施の形態に係るＣＵの構成例を示す図である。図１４（ａ）に示されたＣＵ０は、３２×３２画素のサイズを有する。

図１４（ｂ）は、図１４（ａ）に示されたＣＵ０におけるＴＵの構成例を示す図である。図１４（ｂ）には、１６×１６画素で構成されたＴＵが４個の変換ユニットＴＵ０〜ＴＵ３で示されている。そして、ＴＵ０〜ＴＵ３は、ＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で処理される。４個の変換ユニットＴＵ０〜ＴＵ３に対する処理として、逆量子化、逆周波数変換等があり、結果を残差画像として出力する。

図１４（ｃ）は、図１４（ａ）に示されたＣＵ０におけるＰＵの構成例を示す図である。図１４（ｃ）には、３２×８ＰＵおよび３２×２４ＰＵが２個の予測ユニットＰＵ０，ＰＵ１が示されている。そして、ＰＵ０，ＰＵ１は、ＰＵ０，ＰＵ１の順で処理される。

図１４（ｄ）は、図１４（ａ）に示されたＣＵ０の分割後のブロックの構成例を示す図である。図１４（ｄ）には、４個のブロックＢＫ０〜ＢＫ３が示されている。そして、４個のブロックＢＫ０〜ＢＫ３は、ＢＫ０，ＢＫ１，ＢＫ２，ＢＫ３の順で処理される。４個のブロックＢＫ０〜ＢＫ３に対する処理として、再構成処理、インループフィルター処理及びフレームメモリ１８０への格納処理等がある。なお、図１４（ｄ）におけるブロック分割は、ＴＵサイズと同等に分割した一例であり、ＰＵサイズと同等に分割しても構わないし、他の分割方法でも構わない。

図１５は、図１４に示されたＣＵ，ＴＵ，ＰＵ、再構成画像に、図３の手順が適用されなかった場合のパイプライン処理を示すタイムチャートである。図１５の例では、ＴＵ処理が、変換ユニットＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で実行される。なお、ＴＵ処理前の復号部１１０での復号処理はＴＵ処理以前に行われており、図示は省略している（以降のタイミングチャートでも同様に省略している）。同時に、ＰＵ処理が、予測ユニットＰＵ０，ＰＵ１に対して、実行される。その後、再構成処理が、ＢＫ０〜ＢＫ３に実行され、その後、インループフィルター処理がＢＫ０〜ＢＫ３に対して、実行される。

図１５の例では、ＴＵ処理がＴＵ０に対して終了し、且つ、ＰＵ処理がＰＵ０，ＰＵ１に対して終了するまで、再構成処理が開始できない。つまり、ＴＵ０が終了してから再構築処理を実行するまでに遅延時間が生じてしまう。

図１６は、図３の手順に従ってＰＵ分割を実施した場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。

図１６（ａ）、図１６（ｂ）、図１６（ｃ）、図１６（ｄ）は、それぞれ、図１４（ａ）、図１４（ｂ）、図１４（ｃ）、図１４（ｄ）と同じであるため、説明を省略する。

図１６（ｃ’）では、図１６（ａ）に示された符合化ユニットＣＵ０における予測ユニットを予め設定された閾値、例えば、今回の場合、１６×１６画素として、分割された後のブロックの構成例を示す図である。図１６（ｃ’）には、ブロックの構成を点線で示し、さらに、実線と点線で処理の単位となる６個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ〜ＰＵ１ｄが示されている。そして、ブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ０ｂ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄの順で処理される。つまり、ＣＵ０を四分木分割されたブロックを四分木分割された順番でＺ順に処理されることになる。

図１７は、図１６に示されたＣＵ，ＴＵ，ＰＵ、再構成画像に、図３の手順に従ってＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。

図１７の例では、ＴＵ処理が、変換ユニットＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で実行される。同時に、ＰＵ処理が、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ〜ＰＵ１ｄに対して、ＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄの順で実行される。その後、再構成処理が、ＢＫ０〜ＢＫ３に実行され、その後、インループフィルター処理がＢＫ０〜ＢＫ３に対して、実行される。ここで、ＴＵ０に対してＴＵ処理が終了し、ブロックＰＵ０ａ，ＰＵ１ａに対してＰＵ処理が終了した後、ブロックＢＫ０の再構成処理が開始する。同様にＴＵ１〜ＴＵ３のＴＵ処理が順に終了し、ブロックＰＵ０ｂ，ＰＵ１ｂの２ブロックと、ＰＵ１ｃ，ＰＵ１ｄの各１ブロックずつのＰＵ処理が順に終了するタイミングで、ブロックＢＫ１〜ＢＫ３の再構成処理が順に開始する。

図１７の例では、分割後のブロックの予測画像は、変換ユニットと同じ順序で出力される。そのため、図１５の場合に比べ、再構成処理に必要な、差分画像、および、差分画像と同じ領域の予測画像の両方が、早く揃う。したがって、再構成処理およびインループフィルター処理の開始の遅延が小さくなる。よって、復号処理が高速化する。また、図１５の場合に比べ、再構成処理を開始が早くなる分、ＴＵ１〜ＴＵ３のＴＵ処理結果やＰＵ１のＰＵ処理結果を保持しておく必要がなく、局所参照メモリや予測画像メモリといった回路面積の削減もすることができる。

上記のように、ＰＵ分割する閾値サイズを１６×１６程度にすることで、参照画像の取得には、従来のマクロブロック（１６×１６画素）程度と同等の転送サイズとなるため、外部メモリバスを占有させることはなく、また、従来と同程度のメモリバンド幅にて、復号処理を実現することが可能である。また、ＰＵ分割することで、内蔵の局所参照メモリ１６３や予測画像メモリ１６５を小さくすることができ、コストを抑えることが可能である。また、動き補償演算部１６４もＰＵサイズの規格最大である６４×６４画素に対応した回路を搭載する必要もなく、動き補償演算部１６４の面積を小さくすることが可能である。

なお、ＰＵ分割する閾値サイズと同等もしくはそれ以下のＣＵサイズに対しては、ＰＵ分割を行うことなく、ＰＵの大きさをそのままで予測処理することで、外部メモリのバンドを増大させることもなく、復号することが可能である。

なお、外部メモリの性能向上により、バス占有率に問題ないのであれば、閾値サイズを大きくすることも可能である。

また、本明細では、予測ユニットがインター予測である場合に関して、説明してきたが、イントラ予測である場合に関しても同様のＰＵ分割方法が適用可能である。

また、本明細では、変換ユニットが主に３２×３２ＴＵの場合に関して、説明してきたが、さらに小さなサイズに分割された場合に関しても（例えば、ＴＵ階層０，ＴＵ階層１，ＴＵ階層２などの場合）、ＴＵサイズに関係なく、同様のＰＵ分割方法が適用可能である。

＜実施の形態２＞
以下、本開示の実施の形態２における画像復号装置について説明する。実施の形態２に係る画像復号装置は、再構成処理の分割方法に関する点が実施の形態１と異なる。

図１８は、図３の手順に従ってＰＵ分割を実施した場合に関する、ＣＵ，ＰＵ，ＴＵ、再構成画像のブロック構成例を示す図である。

図１８（ａ）、図１８（ｂ）、図１８（ｃ）、図１８（ｃ’）は、それぞれ、図８（ａ）、図８（ｂ）、図８（ｃ）、図８（ｃ’）と同じであるため、説明を省略する。

図１８（ｄ）では、図１８（ａ）に示された符合化ユニットＣＵ０の分割後の構成例を示す図である。図１８（ｄ）には、１６個のブロックＢＫ０〜ＢＫ１５が示されている。そして、１６個のブロックＢＫ０〜ＢＫ１５は、ＢＫ０，ＢＫ１，・・・，ＢＫ１５の順で処理される。１６個のブロックＢＫ０〜ＢＫ１５に対する処理として、再構成処理、インループフィルター処理及びフレームメモリ１８０への格納処理等がある。なお、図１８（ｄ）におけるブロック分割は、ＰＵの分割後のサイズと同等に分割した一例であり、その他にさらに小さく分割しても構わない。

つまり、再構成処理において、ＣＵ０を四分木分割されたブロックを再帰的に四分木分割された順番で処理されることになる。

図１９は、図１８に示されたＣＵ，ＴＵ，ＰＵ、再構成画像に、図３の手順に従ってＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。

図１９の例では、ＴＵ処理が、変換ユニットＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で実行される。同時に、ＰＵ処理が、ブロックＰＵ０ａ〜ＰＵ０ｈ，ＰＵ１ａ〜ＰＵ１ｈに対して、ＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄ，ＰＵ０ｅ，ＰＵ０ｆ，ＰＵ０ｇ，ＰＵ０ｈ，ＰＵ１ｅ，ＰＵ１ｆ，ＰＵ１ｇ，ＰＵ１ｈの順で実行される。その後、再構成処理が、ＢＫ０〜ＢＫ１５に実行され、その後、インループフィルター処理がＢＫ０〜ＢＫ１５に対して、実行される。

ここで、ＴＵ０に対してＴＵ処理が終了し、ブロックＰＵ０ａ〜ＰＵ０ｄに対してＰＵ処理が終了した後、ブロックＢＫ０〜ＢＫ３の再構成処理が開始する。同様にＴＵ１〜ＴＵ３のＴＵ処理が順に終了し、ブロックＰＵ１ａ〜ＰＵ１ｄ，ＰＵ０ｅ〜ＰＵ０ｈ，ＰＵ１ｅ〜ＰＵ１ｈの各４ブロックのＰＵ処理が順に終了するタイミングで、ブロックＢＫ４〜ＢＫ７，ＢＫ８〜ＢＫ１１，ＢＫ１２〜ＢＫ１５の再構成処理が順に開始する。

また、インループフィルター処理が、ブロックＢＫ０〜ＢＫ１５に対して、ＢＫ０，ＢＫ１，ＢＫ２，・・，ＢＫ１５の順で実行される。ここで、ブロックＢＫ０の再構成処理が終了した後、ブロックＢＫ０のインループフィルター処理が開始する。同様に、ブロックＢＫ１〜ＢＫ１５の再構成処理が順に終了するタイミングで、ブロックＢＫ１〜ＢＫ１５のインループフィルター処理が順に開始する。

図１９の例では、再構成画像が１６×１６の単位で分割され処理されるため、インループフィルター処理もより細かな処理単位で実行されるため、図９の場合に比べ、インループフィルターの処理に必要な再構成画像がより早く揃う。したがって、インループフィルター処理の開始の遅延が小さくなる。よって、復号処理が高速化する。

上記のように、再構成処理をＰＵ分割する閾値サイズである１６×１６程度にすることで、従来のマクロブロック（１６×１６画素）と同等のパイプライン構成をとることが可能であり、従来と同等の処理性能を実現することが可能である。また、再構成処理単位をより小さく分割することで、再構成部１４０とインループフィルター部１５０間の内蔵メモリを小さくすることができ、コストを抑えることが可能である。

＜実施の形態３＞
以下、本開示の実施の形態３における画像復号装置について説明する。実施の形態３に係る画像復号装置は、復号部１１０の処理に関する点が実施の形態１と異なる。

図２０および図２１では、復号部１１０の処理をパイプラインに追加している。

図２０は、実施の形態３に係る、図６に示されたＣＵ，ＴＵ，ＰＵ、再構成画像に、従来のＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。

図２０の例では、ＰＵサイズや予測ユニットに関するＣＵタイプやＰＵデータ、ＴＵデータ（ＴＵ分割フラグ、ＴＵに関する係数データ）ＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で復号処理が実行される。ＴＵ処理は、変換ユニットＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で実行される。ＰＵ処理は、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂに対して、ＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂの順で実行される。その後、再構成処理が、ＢＫ０〜ＢＫ３に実行され、その後、インループフィルター処理がＢＫ０〜ＢＫ３に対して、実行される。

ここで、ＴＵ０の復号処理が終了すると、ＴＵ０のＴＵ処理を開始する。同様にＴＵ１〜ＴＵ３の復号処理が終了し、ＴＵ０〜ＴＵ２のＴＵ処理が順に終了するタイミングで、ＴＵ１〜ＴＵ３のＴＵ処理が開始する。

ＰＵ処理は、ＴＵの大きさが確定した後、ＴＵのエッジで分割したＰＵブロックの処理を開始する。すなわち、ＴＵ０〜ＴＵ３の復号処理が終了後、ブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂに対して、ＰＵ処理を開始する。ここで、ＴＵ０に対してＴＵ処理が終了し、ブロックＰＵ０ａに対してＰＵ処理が終了した後、ブロックＢＫ０の再構成処理が開始する。同様にＴＵ１〜ＴＵ３のＴＵ処理が順に終了し、ブロックＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂに対して、ＰＵ処理が順に終了するタイミングで、ブロックＢＫ１〜ＢＫ３の再構成処理が順に開始する。

図２１は、実施の形態３に係る、図８に示されたＣＵ，ＴＵ，ＰＵ、再構成画像に、図３の手順に従ってＰＵ分割を実施した場合に関する、パイプライン処理を示すタイミングチャートである。

図２１の例では、ＰＵサイズや予測ユニットに関するＣＵタイプやＰＵデータ、ＴＵデータ（ＴＵ分割フラグ、ＴＵに関する係数データ）ＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で復号処理が実行される。ＴＵ処理は、変換ユニットＴＵ０，ＴＵ１，ＴＵ２，ＴＵ３の順で実行される。ＰＵ処理は、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂに対して、ＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂの順で実行される。その後、再構成処理が、ＢＫ０〜ＢＫ３に実行され、その後、インループフィルター処理がＢＫ０〜ＢＫ３に対して、実行される。

ＰＵ処理は、ＴＵの大きさに関わらず、ＰＵサイズや予測ユニットに関するＣＵタイプやＰＵデータの復号処理が終了した後、分割されたＰＵブロックの処理を開始する。すなわち、ＰＵサイズや予測ユニットに関するＣＵタイプやＰＵデータの復号処理が終了後、ＰＵ処理が、ブロックＰＵ０ａ〜ＰＵ０ｈ，ＰＵ１ａ〜ＰＵ１ｈに対して、ＰＵ０ａ〜ＰＵ０ｄ，ＰＵ１ａ〜ＰＵ１ｄ，ＰＵ０ｅ〜ＰＵ０ｈ，ＰＵ１ｅ〜ＰＵ１ｈの順で実行される。ここで、ＴＵ０に対してＴＵ処理が終了し、ブロックＰＵ０ａ〜ＰＵ０ｄに対してＰＵ処理が終了した後、ブロックＢＫ０の再構成処理が開始する。同様にＴＵ１〜ＴＵ３のＴＵ処理が順に終了し、ブロックＰＵ１ａ〜ＰＵ１ｄ，ＰＵ０ｅ〜ＰＵ０ｈ，ＰＵ１ｅ〜ＰＵ１ｈの各４ブロックずつのＰＵ処理が順に終了するタイミングで、ブロックＢＫ１〜ＢＫ３の再構成処理が順に開始する。

図２１の例では、予測ユニットのＰＵ処理がＣＵタイプ及びＰＵデータの復号処理直後に、開始される。そのため、図２０の場合に比べ、再構成処理に必要な、差分画像、および、差分画像と同じ領域の予測画像の両方が、早く揃う。したがって、再構成処理およびインループフィルター処理の開始の遅延が小さくなる。よって、復号処理が高速化する。

＜その他の実施の形態＞
なお、実施の形態１乃至３では、その構成図を説明したが、実施の形態はこれだけでなく、１チップのＬＳＩとして実現してもよいし、個別のＬＳＩとして構成されてもよい。さらに、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。また、コンピューター上で実行されるプログラムとして実現されてもよい。

本開示にかかる画像復号装置は、予測処理を用いて符号化された符号化ストリームを復号する画像復号装置およびその再生方法に有用である。また、ＤＶＤレコーダ、ＤＶＤプレーヤ、ブルーレイディスクレコーダ、ブルーレイディスクプレーヤやデジタルＴＶ、さらにはスマートフォンなどの携帯情報端末等の用途にも応用可能である。

１００画像復号装置
１１０復号部
１２０逆量子化部
１３０逆周波数変換部
１４０再構成部
１５０インループフィルター部
１６０動き補償部
１６１分割部
１６２フレームメモリ転送制御部
１６３局所参照メモリ
１６４動き補償演算部
１６５予測画像メモリ
１７０面内予測部
１８０フレームメモリ

最近、スマートフォンやスマートテレビに代表されるネットワーク配信技術の進展に伴い、より高精細でより高画質な動画配信が普及するようになってきた。一方で、高精細化を支える通信トラフィックや放送帯域の圧迫が懸念されており、２０１３年１月に、ＩＴＵ−Ｔ（International Telecommunication Union Telecommunication Standardization Sector）が国際標準規格「Ｈ．２６５」として勧告した「ＨＥＶＣ（High Efficiency Video Coding）」は、同じ品質の動画をＨ．２６４（MPEG-4 AVC）の半分のデータ量で圧縮および伝送できるなど、通信・放送の帯域圧迫の解決策として注目されている。Ｈ．２６５規格の詳細については、非特許文献１に記載されている。

Ｈ．２６５規格では、従来の符号化規格であるＨ．２６４規格に対して符号化単位ブロックのサイズが可変になる。そして、この技術に係る画像符号化装置は、従来規格の符号化単位であるマクロブロック（１６×１６画素）よりも大きなブロックサイズで符号化することも可能であり、高精細な画像を適切に符号化することが可能である。

具体的には、図２２のＨ．２６５規格におけるピクチャ及び符号化ストリームの構成例を示す図を用いて説明する。図２２（Ａ）に示すように、符号化のデータ単位として、符号化ユニット（ＣＵ：ＣｏｄｉｎｇＵｎｉｔ）が定義されている。この符号化ユニットは、従来の画像符号化規格におけるマクロブロックと同様に、面内予測を行うイントラ予測と、動き補償を行うインター予測とを切り替えることが可能なデータ単位であり、符号化の最も基本的なブロックとして規定されている。

Ｈ．２６５規格では、各ピクチャの符号化処理を、最も大きな符号化ユニットＣＴＵ（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ）と呼ばれる画素ブロックの単位で行う。ＣＴＵのサイズは、Ｈ．２６４規格やＭＰＥＧ−２規格のマクロブロック（１６×１６画素）のように固定ではなく、シーケンスの符号化時に選択できる。

なお、イントラ予測やインター予測の一連の符号化処理は、ＣＴＵを再帰的に四分木分割することで得られるＣＵの単位で行われる。

図２７は、動き補償処理の概略を示す図である。図２７のように、動き補償処理は、符号化ストリームから復号された動きベクトルおよび参照インデックスによって指し示される、過去に復号されたピクチャの一部を取り出し、フィルター演算を行うことによって、予測画像を生成する処理である。Ｈ．２６５規格の場合、動き補償処理のフィルター演算は、最大８ＴＡＰフィルターが用いられる。

かかる点に鑑みて、本開示は、予測ユニットに予測処理を利用して符号化された符号化ストリームを復号する際に、外部メモリバスを占有させることなく、また、外部メモリバンド幅を増大させることなく、復号処理を高速に、さらに回路面積を抑えることが可能な画像復号装置及びその方法を提供することを課題とする。

また、前記予測画像生成手段は、前記分割手段によって前記再帰的に分割されたブロックを再帰的に且つＺ順に予測画像を生成してもよい。

前記符号化ストリームは、Ｈ．２６５で符号化されてもよい。

図１に示すように、画像復号装置１００は、復号部１１０と、逆量子化部１２０と、逆周波数変換部１３０と、再構成部１４０と、インループフィルター部１５０と、動き補償部１６０と、面内予測部１７０と、フレームメモリ１８０とを備える。各部は、基本的には、従来におけるＨ．２６５規格に基づく復号を行うものとし、従来と同様の処理については説明を簡略化する。

復号部１１０は、入力された符号化ストリームの符号化ユニット（ＣｏｄｉｎｇＵｎｉｔ。以下、ＣＵと呼ぶ）がインター予測の場合、復号部１１０に入力された符号化ストリームを復号して、予測ユニット（ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ。以下、ＰＵと呼ぶ）の動きベクトル及び参照画像情報（例えば、参照画像を特定するためのフラグ、参照インデックス）及びＣＵやＰＵに関する情報（例えば、ＣＵの大きさやＰＵ分割モードＰａｒｔＭｏｄｅ）を動き補償部１６０へ出力する。なお、復号部１１０は、Ｈ．２６５規格に基づく、算術復号や可変長復号などを処理する。

インループフィルター部１５０は、再構成部１４０から受け取った再構成画像にインループフィルター（例えば、デブロッキングフィルターやサンプル適応フィルター（ＳＡＯ：ＳａｍｐｌｅＡｄａｐｔｉｖｅＯｆｆｓｅｔＦｉｌｔｅｒ））を行った上で、復号画像として、結果をフレームメモリ１８０へ出力する。その後、復号画像は、フレームメモリ１８０から表示部（図示省略）へ出力される。

次に、動き補償部１６０について、詳細を説明する。

まず、復号部１１０は、符号化ストリームから取得したＣＵ情報およびＰＵ情報を分割部１６１へ出力する（ステップＳ３０１）。

図６（ｃ’）は、図６（ａ）に示された符号化ユニットＣＵ０における予測ユニットをＴＵのエッジに応じて、分割された後のブロックの構成例を示す図である。なお、点線で処理の単位となるブロックの構成を示す（以下、分割されたブロックの構成に関しては同じである）。図６（ｃ’）には、４個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂが示されている。そして、ＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂの順で処理される。４個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ，ＰＵ１ｂに対する処理として、参照画像の取得、動き補償演算、および、予測画像の出力処理等がある。なお、上記処理は、ＰＵ処理と同等の処理であるため、特に断らなければ、分割ブロックに対するＰＵ処理（単に、ＰＵ処理）と記載する。

図８（ｃ’）では、図８（ａ）に示された符号化ユニットＣＵ０における予測ユニットを予め設定された閾値、例えば、今回の場合、１６×１６画素として、分割された後のブロックの構成例を示す図である。図８（ｃ’）には、１６個のブロックＰＵ０ａ〜ＰＵ０ｈ，ＰＵ１ａ〜ＰＵ１ｈが示されている。そして、ブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ０ｃ，ＰＵ０ｄ，ＰＵ１ａ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄ，ＰＵ０ｅ，ＰＵ０ｆ，ＰＵ０ｇ，ＰＵ０ｈ，ＰＵ１ｅ，ＰＵ１ｆ，ＰＵ１ｇ，ＰＵ１ｈの順で処理される。つまり、ＣＵ０を四分木分割されたブロックを再帰的に四分木分割された順番でＺ順に処理されることになる。

つまり、３２×３２ＣＵに対しては、図１２(ａ)〜図１２（ｄ）、図１３（ｅ）〜図１３（ｈ）で示されるように、３２×３２ＣＵを四分木分割された１６×１６ブロックをもとにした順番（例えば、Ｚ順）でかつ、１６×１６ブロック内も分かれる場合は、Ｚ順で処理されることになる。なお、上記Ｚ順は、もし処理の単位のブロックが上下２つのブロックで構成された場合、上、下の順番で処理され、もし処理の単位のブロックが左右２つのブロックで構成された場合、左、右の順番で処理されることを意味する。したがって、同じ位置の同じ１６×１６のブロックであっても、処理の単位のブロックの処理の順は異なる。例えば、図１３（ｅ）と図１３（ｇ）の左上の１６×１６ブロックを見た場合、図１３（ｅ）では、ＰＵ０ａ，ＰＵ１ａというように、上、下の順番となるが、図１３（ｇ）では、左、右の順となる。したがって、予測ユニットを跨ったブロックに関しても、予測ユニットの形状に関わらず、ＣＵを四分木分割したブロック単位で処理することができ、ひいては、予測ユニットの形状に関わらず、例えば、１６×１６毎の正方形のブロック単位で画像復号処理のパイプラインを構成することが可能になる。

図１６（ｃ’）では、図１６（ａ）に示された符号化ユニットＣＵ０における予測ユニットを予め設定された閾値、例えば、今回の場合、１６×１６画素として、分割された後のブロックの構成例を示す図である。図１６（ｃ’）には、ブロックの構成を点線で示し、さらに、実線と点線で処理の単位となる６個のブロックＰＵ０ａ，ＰＵ０ｂ，ＰＵ１ａ〜ＰＵ１ｄが示されている。そして、ブロックＰＵ０ａ，ＰＵ１ａ，ＰＵ０ｂ，ＰＵ１ｂ，ＰＵ１ｃ，ＰＵ１ｄの順で処理される。つまり、ＣＵ０を四分木分割されたブロックを四分木分割された順番でＺ順に処理されることになる。

また、本明細書では、予測ユニットがインター予測である場合に関して、説明してきたが、イントラ予測である場合に関しても同様のＰＵ分割方法が適用可能である。

また、本明細書では、変換ユニットが主に３２×３２ＴＵの場合に関して、説明してきたが、さらに小さなサイズに分割された場合に関しても（例えば、ＴＵ階層０，ＴＵ階層１，ＴＵ階層２などの場合）、ＴＵサイズに関係なく、同様のＰＵ分割方法が適用可能である。

図１８（ｄ）では、図１８（ａ）に示された符号化ユニットＣＵ０の分割後の構成例を示す図である。図１８（ｄ）には、１６個のブロックＢＫ０〜ＢＫ１５が示されている。そして、１６個のブロックＢＫ０〜ＢＫ１５は、ＢＫ０，ＢＫ１，・・・，ＢＫ１５の順で処理される。１６個のブロックＢＫ０〜ＢＫ１５に対する処理として、再構成処理、インループフィルター処理及びフレームメモリ１８０への格納処理等がある。なお、図１８（ｄ）におけるブロック分割は、ＰＵの分割後のサイズと同等に分割した一例であり、その他にさらに小さく分割しても構わない。

Claims

符号化ユニットは、予測処理の単位として、１以上の予測ユニットから構成され、周波数変換処理の単位としては、１以上の変換ユニットから構成され、
前記１以上の予測ユニットに対する予測処理と、前記１以上の変換ユニットに対する周波数変換処理とを含む符号化処理によって符号化された符号化ストリームを復号する画像復号装置であって、
前記予測ユニットの大きさが予め設定された大きさを超える場合、前記変換ユニットの大きさに関わらず、前記予測ユニットを複数のブロックに分割する分割手段と、
前記予測ユニットを分割することで得られたブロック毎に、前記予測ユニットの予測画像に関する復号処理を行うことで予測画像を生成する予測画像生成手段と、
前記予測画像生成手段で生成された予測画像を利用して画像を復元する画像復元手段とを備える
ことを特徴とする画像復号装置。
前記分割手段は、前記予め設定された大きさ以下に分割する
ことを特徴とする請求項１記載の画像復号装置。
前記分割手段は、前記符号化ユニットを構成する前記１以上の全ての予測ユニットをまとめた１つのブロックを、同じ大きさの４つのブロックに分割し、前記分割された各ブロックを前記分割手段に予め設定された大きさ以下になるまで再帰的に分割する
ことを特徴とする請求項１記載の画像復号装置。
前記予測画像生成手段は、前記分割手段によって前記再帰的に分割されたブロックを再帰的に且つＺ順に予測画像を生成する
ことを特徴とする請求項３記載の画像復号装置。
前記分割手段は、前記分割手段に予め設定された大きさが１６画素×１６画素である
ことを特徴とする請求項１〜４のいずれか１項に記載の画像復号装置。
前記予測画像生成手段は、過去に復号された画像データを取得し、予測画像を生成する
ことを特徴とする請求項１〜５のいずれか１項に記載の画像復号装置。
前記予測画像生成手段は、過去に復号された画像データを外部メモリから取得し、予測画像を生成する
ことを特徴とする請求項１〜６のいずれか１項に記載の画像復号装置。
前記予測画像生成手段は、過去に復号された画像データから前記予測ユニットの動きベクトルを用いて、動き補償処理を行い、予測画像を生成する
ことを特徴とする請求項１〜７のいずれか１項に記載の画像復号装置。
前記画像復元手段は、逆周波数変換処理された残差画像を加算することで画像を復元する
ことを特徴とする請求項１〜８のいずれか１項に記載の画像復号装置。
前記符号化ストリームは、Ｈ．２６５で符号化されている
ことを特徴とする請求項１〜９のいずれか１項に記載の画像復号装置。
符号化ユニットは、予測処理の単位としては、１以上の予測ユニットから構成され、周波数変換処理単位としては、１以上の変換ユニットから構成され、
前記１以上の予測ユニットに対する予測処理と、前記１以上の変換ユニットに対する周波数変換処理とを含む符号化処理によって符号化された符号化ストリームを復号する画像復号方法であって、
前記予測ユニットの大きさが予め設定された大きさを超える場合、前記変換ユニットの大きさに関わらず、前記予測ユニットを複数のブロックに分割する分割ステップと、
前記予測ユニットを分割することで得られたブロック毎に、前記予測ユニットの予測画像に関する復号処理を行うことで予測画像を生成する予測画像生成ステップと、
前記予測画像生成ステップで生成された予測画像を利用して画像を復元する画像復元ステップとを含む
ことを特徴とする画像復号方法。
符号化ユニットは、予測処理の単位としては、１以上の予測ユニットから構成され、周波数変換の処理としては、１以上の変換ユニットから構成され、
前記１以上の予測ユニットに対する予測処理と、前記１以上の変換ユニットに対する周波数変換処理とを含む符号化処理によって符号化された符号化ストリームを復号する集積回路であって、
前記予測ユニットの大きさが予め設定された大きさを超える場合、前記変換ユニットの大きさに関わらず、前記予測ユニットを複数のブロックに分割する分割部と、
前記予測ユニットを分割することで得られたブロック毎に、前記予測ユニットの予測画像に関する復号処理を行うことで予測画像を生成する予測画像生成部と、
前記予測画像生成部で生成された予測画像を利用して画像を復元する画像復元部とを備える
ことを特徴とする集積回路。