WO2017115482A1

WO2017115482A1 - ビットストリーム変換装置、ビットストリーム変換方法、配信システム、動画像符号化装置、動画像符号化方法及びコンピュータ可読記録媒体

Info

Publication number: WO2017115482A1
Application number: PCT/JP2016/069861
Authority: WO
Inventors: 圭河村; 内藤　整
Original assignee: Kddi株式会社
Priority date: 2015-12-28
Filing date: 2016-07-05
Publication date: 2017-07-06
Also published as: US10757448B2; JP2017120978A; CN108432251B; EP3399751A4; EP3399751B1; CN108432251A; US20180302652A1; EP3399751A1; JP6566864B2

Abstract

ビットストリーム変換装置は、復号処理に係るユニットの最小サイズが規定されている動画像データに対応するビットストリームの構文と前記ビットストリームに付随する付随ビットストリームの構文とを解析する構文解析部と、構文解析部による解析の結果得られる高位文法を、該高位文法に含まれる解像度よりも低い解像度を含む新たな高位文法に変換する高位文法変換部と、構文解析部による解析の結果得られる情報であってビットストリーム中の最小サイズのユニットに関連付けられた情報を、付随ビットストリーム中の対応するユニットに関連付けられた情報に変換するユニット変換部と、高位文法変換部からの新たな高位文法とユニット変換部における変換後の情報とを構文にしたがい合成し、新たなビットストリームを生成する構文合成部と、を備える。

Description

ビットストリーム変換装置、ビットストリーム変換方法、配信システム、動画像符号化装置、動画像符号化方法及びコンピュータ可読記録媒体

　本発明は、ビットストリーム変換装置、ビットストリーム変換方法、配信システム、動画像符号化装置、動画像符号化方法及びコンピュータ可読記録媒体に関する。

　イントラ予測（フレーム内予測）またはインター予測（フレーム間予測）と、残差変換と、エントロピー符号化とを用いた動画像符号化方式が提案されている（例えば、非特許文献１参照）。また、スケーラブル符号化方式とよばれる、符号化装置・復号装置の拡張方式が提案されている（例えば、非特許文献１参照）。

　近年、４Ｋ映像や８Ｋ映像といった高解像度の映像が流通し始めている。映像配信サービスで４Ｋ映像は１５Ｍｂｐｓ～３５Ｍｂｐｓで配信されている。一方、８Ｋ映像は放送サービスとして９０Ｍｂｐｓ～１１０Ｍｂｐｓが想定されている。これまでのＨＤ映像（２Ｋ映像）については、ＨＥＶＣ（Ｈｉｇｈ　Ｅｆｆｉｃｉｅｎｃｙ　Ｖｉｄｅｏ　Ｃｏｄｉｎｇ）により３Ｍｂｐｓ～６Ｍｂｐｓ程度で実用的な品質が実現できている。

　これらの映像をストリーミングするために蓄積することを想定すると、４Ｋ／８Ｋ映像は２Ｋ映像の１０倍以上の容量が必要となる。特に、４Ｋ映像と８Ｋ映像とを個別に蓄積するのはストレージコストがかかるため、非特許文献１に記載されるようなスケーラブル符号化技術による容量削減の恩恵は大きい。

ITU-T H.265 High Efficiency Video Coding.

　しかしながら、従来のＨＥＶＣのスケーラブル符号化・復号技術では、符号化装置や復号装置の構成が複数ループとなり、処理量が多くなる。

　本発明はこうした課題に鑑みてなされたものであり、その目的は、スケーラビリティを実現しつつ符号化装置または復号装置における処理量の増加を抑えることができる技術の提供にある。

　本発明のある態様は、ビットストリーム変換装置に関する。このビットストリーム変換装置は、復号処理に係るユニットの最小サイズが規定されている動画像データに対応するビットストリームの構文と前記ビットストリームに付随する付随ビットストリームの構文とを解析する構文解析部と、構文解析部による解析の結果得られる高位文法を、該高位文法に含まれる解像度よりも低い解像度を含む新たな高位文法に変換する高位文法変換部と、構文解析部による解析の結果得られる情報であってビットストリーム中の最小サイズのユニットに関連付けられた情報を、付随ビットストリーム中の対応するユニットに関連付けられた情報に変換するユニット変換部と、高位文法変換部からの新たな高位文法とユニット変換部における変換後の情報とを構文にしたがい合成し、新たなビットストリームを生成する構文合成部と、を備える。

　本発明の別の態様は、動画像符号化装置である。この動画像符号化装置は、複数のブロックに分割された符号化対象の画像について、ブロック単位で画像と予測画像との誤差信号を変換および量子化し、第１レベル値を生成する変換量子化部と、変換量子化部によって生成された第１レベル値をエントロピー符号化してビットストリームを生成する符号化部と、最小サイズよりも大きなサイズのブロックから、画像の解像度よりも低い解像度の最小サイズのブロックを生成するダウンサンプリング部と、を備える。変換量子化部はダウンサンプリング部によって生成されたブロックの誤差信号を変換および量子化して第２レベル値を生成する。符号化部は、変換量子化部によって生成された第２レベル値をエントロピー符号化して付随ビットストリームを生成する。

　なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。

　本発明によれば、スケーラビリティを実現しつつ符号化装置または復号装置における処理量の増加を抑えることができる。本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。

実施の形態に係る配信システムの構成を示す模式図である。図１の動画像符号化装置の機能および構成を示すブロック図である。ビットストリームおよび付随ビットストリームの構造の一例を示す模式図である。図１のＢＳ変換装置の機能および構成を示すブロック図である。図１のＢＳ変換装置における変換処理を説明するための模式図である。図１の動画像復号装置の機能および構成を示すブロック図である。図１の動画像符号化装置においてビットストリームを生成する一連の処理を示すフローチャートである。図１の動画像符号化装置において付随ビットストリームを生成する一連の処理を示すフローチャートである。図１のＢＳ変換装置における一連の処理を示すフローチャートである。比較例に係るスケーラブル符号化装置の機能および構成を示すブロック図である。比較例に係るスケーラブル復号装置の機能および構成を示すブロック図である。

　以下、各図面に示される同一または同等の構成要素、部材、処理、信号には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。

　実施の形態では、Ｈ．２６５またはＩＳＯ／ＩＥＣ　２３００８－２　ＨＥＶＣにおいて様々な変換サイズが規定されているという特徴を用いて、シンタックスにおけるスケーラビリティが実現される。８Ｋから４Ｋに変換する場合などの解像度を１／２に変更する場合を考える。変換されたビットストリームをＨＥＶＣ準拠のデコーダで復号可能とするため、該ビットストリームはＨ．２６５の制約を満たす必要がある。具体的には、ＨＥＶＣではＣＵ（Ｃｏｄｉｎｇ　Ｕｎｉｔ、コーディングユニット）サイズ、ＰＵ（Ｐｒｅｄｉｃｔｉｏｎ　Ｕｎｉｔ、プレディクションユニット）サイズ、ＴＵ（Ｔｒａｎｓｆｏｒｍ　Ｕｎｉｔ、トランスフォームユニット）サイズはそれぞれ、８（画素、以下同様）×８～６４×６４、４×４～３２×３２、４×４～３２×３２に制約されている。そこで、ＣＵサイズが１６×１６未満（すなわち８×８）の時には、画像を縮小してＣＵサイズを８×８とした時のビットストリームが付随ビットストリーム（ａｃｃｏｍｐａｎｙｉｎｇ　ｂｉｔｓｔｒｅａｍ)として符号化側で生成される。同様に、ＰＵサイズ／ＴＵサイズが８×８未満（すなわち４×４）の時には、画像を縮小して、ＰＵサイズ／ＴＵサイズを４×４とした時の付随ビットストリームが符号化側で生成される。

　一方、ＣＵサイズが１６×１６以上、またはＰＵサイズが８×８以上の時には特に変更は加えられず、ＴＵサイズが８×８以上の時には、低周波成分のレベル値のみが再符号化される。また、ＰＵにおける動きベクトル精度は１／４に揃えられる。

　その結果、８Ｋなどの高解像度映像に付随ビットストリームを追加する（オーバヘッド）ことで、ビットストリームのみからＨＥＶＣ準拠のデコーダで復号可能な低解像度映像のビットストリームを生成することができる。

　なお、解像度の変更は１／２に限定されず、一般に２^（－ｎ）であればよい（ｎは自然数）。また、付随ビットストリームはビットストリームに付随するものとしてそのように称されているが、ビットストリームを補助するものとして補助ビットストリーム（ｓｕｐｐｌｅｍｅｎｔａｒｙ　ｂｉｔｓｔｒｅａｍ、ｃｏｍｐｌｅｍｅｎｔａｒｙ　ｂｉｔｓｔｒｅａｍ）と称されてもよく、またはビットストリームに追加されるものとして追加ビットストリーム(ａｄｄｉｔｉｏｎａｌ　ｂｉｔｓｔｒｅａｍ)と称されてもよい。

　図１は、実施の形態に係る配信システム１００の構成を示す模式図である。配信システム１００は、４Ｋ映像や８Ｋ映像などの高解像度の映像を配信する映像配信サービスにおいて使用されるシステムである。映像配信サービスは例えばＶＯＤ（Ｖｉｄｅｏ　Ｏｎ　Ｄｅｍａｎｄ）であってもよい。配信システム１００はインターネットなどのネットワーク１０６を介して、ユーザサイトに設置されているセットトップボックスやパーソナルコンピュータなどの動画像復号装置１０２と接続される。動画像復号装置１０２は、テレビ受像機やモニタなどの表示装置１０４と接続される。動画像復号装置１０２は、ＨＥＶＣに準拠したデコーダである。

　なお、映像配信サービスにおける配信システムは一例であり、動画像の符号化または復号を含む任意のシステムやサービスに、本実施の形態に係る技術的思想を適用できることは、本明細書に触れた当業者には明らかである。

　配信システム１００は、ネットワーク１０６を介してユーザから観たい動画コンテンツの指定を受ける。配信システム１００は、指定された動画コンテンツのデータを符号化してビットストリームを生成する。配信システム１００は、生成されたビットストリームをネットワーク１０６を介して要求元のユーザの動画像復号装置１０２に送信する。動画像復号装置１０２は受信したビットストリームを復号して動画像データを生成し、表示装置１０４に送信する。表示装置１０４は、受信した動画像データを処理し、指定された動画コンテンツを出力する。

　配信システム１００は、動画像ＤＢ（データベース）１０８と、動画像符号化装置１１０と、動画像蓄積サーバ１０１と、ＢＳ（ビットストリーム）変換装置１１２と、選択部１１４と、出力制御装置１１６と、を備える。動画像ＤＢ１０８は、４Ｋ映像や８Ｋ映像などの高解像度の動画像のデータを保持する。動画像符号化装置１１０は、指定された動画コンテンツに対応する動画像データを動画像ＤＢ１０８から取得し、取得された動画像データを符号化し、ビットストリームＢＳおよびそれに付随する付随ビットストリームＡＢＳを生成する。ビットストリームＢＳは、取得された動画像データを従来のＨＥＶＣに準拠したエンコーダで符号化して得られるビットストリームと同等である。したがって、ビットストリームＢＳは動画像復号装置１０２などのＨＥＶＣに準拠したデコーダにより復号可能である。一方、付随ビットストリームＡＢＳは取得された動画像データの一部をダウンサンプリングして得られるデータに対応する。したがって、付随ビットストリームＡＢＳのみの動画像復号装置１０２による復号は可能でない。動画像蓄積サーバ１０１は、動画像符号化装置１１０によって生成されたビットストリームＢＳと付随ビットストリームＡＢＳとを蓄積する。

　ＢＳ変換装置１１２は、高解像度映像を構成するビットストリームＢＳとそれに付随する付随ビットストリームＡＢＳとを、低解像度映像の新たなビットストリームＮＢＳへと変換する。ＢＳ変換装置１１２は、動画像蓄積サーバ１０１に蓄積されているビットストリームＢＳおよび付随ビットストリームＡＢＳを取得する。ＢＳ変換装置１１２は、取得されたビットストリームＢＳおよび付随ビットストリームＡＢＳをシンタックスレベルで処理し、ビットストリームＢＳに対応する動画像データの解像度を低くした動画像データに対応する新たなビットストリームＮＢＳを生成する。例えば、ビットストリームＢＳが８Ｋの動画像データに対応するとき、新たなビットストリームＮＢＳは４Ｋの動画像データに対応する。新たなビットストリームＮＢＳは動画像復号装置１０２により復号可能である。

　以下、動画像ＤＢ１０８から取得され動画像符号化装置１１０に入力される動画像データの解像度が８Ｋであり新たなビットストリームＮＢＳに対応する動画像データの解像度が４Ｋである場合すなわち解像度を１／２にする場合について説明する。本明細書に触れた当業者には、本実施の形態で説明される構成の、解像度を２^（－ｎ）倍にする場合への拡張は自明である。

　選択部１１４は、ＢＳ変換装置１１２によって生成された新たなビットストリームＮＢＳおよび動画像蓄積サーバ１０１に蓄積されているビットストリームＢＳのうちからひとつを選択し、選択されたビットストリームをネットワーク１０６を介して動画像復号装置１０２に送信する。

　出力制御装置１１６は選択部１１４を制御する。ユーザは、観たい動画コンテンツを指定する際、表示装置１０４の表示能力等を考慮し、解像度を指定する。出力制御装置１１６はネットワーク１０６を介して指定された解像度を取得する。出力制御装置１１６は、取得された解像度の動画像データが選択部１１４から出力されるよう、選択部１１４を制御する。例えば、出力制御装置１１６は指定された解像度が８Ｋであれば選択部１１４にビットストリームＢＳを選択させ、指定された解像度が４Ｋであれば新たなビットストリームＮＢＳを選択させる。その結果、選択部１１４は、８Ｋ、４Ｋのうち低い方の４Ｋの解像度を所望するというリクエストがユーザからあったときには、ＢＳ変換装置１１２により生成される新たなビットストリームＮＢＳを選択する。

　図２は、図１の動画像符号化装置１１０の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解される。動画像符号化装置１１０を実現するコンピュータプログラムは、コンピュータが読み取り可能な記録媒体に記憶されて、又は、ネットワーク経由で配布が可能なものであってもよい。

　動画像符号化装置１１０は、フレームバッファ２０２と、インループフィルタ２０４と、インター予測部２０６と、イントラ予測部２０８と、変換・量子化部２１０と、エントロピー符号化部２１２と、逆量子化・逆変換部２１４と、ダウンサンプリング部２１６と、減算部２１８と、加算部２２０と、ブロック分割部２２２と、を備える。

　ブロック分割部２２２は、動画像ＤＢ１０８からの動画像データに含まれる符号化対象の画像すなわちフレームを複数のブロックに分割する。ブロックのサイズは様々であり、複数のブロックは四分木構造を有する。ブロック分割部２２２における画像のブロックへの分割はＨＥＶＣにおける画像のブロックへの分割に準じる。すなわち、もっとも大きな処理サイズであるＣＴＵ（Ｃｏｄｉｎｇ　Ｔｒｅｅ　Ｕｎｉｔ）のサイズは６４×６４であり、これを繰り返し四分割した３２×３２、１６×１６、８×８のサイズが存在している。ブロック分割部２２２は処理対象ブロックを減算部２１８とインター予測部２０６とイントラ予測部２０８とに出力する。

　なお、ＣＴＵ、ＣＵ、ＰＵ、ＴＵは動画像符号化装置１１０における符号化処理および動画像復号装置１０２における復号処理の単位となるユニットであり、それぞれの最小サイズは８×８、８×８、４×４、４×４と規定されている。

　インター予測部２０６には、フレームバッファ２０２から以前のフレームの画像データが入力される。インター予測部２０６は、以前のフレームに基づき、フレーム間予測による処理対象ブロックの予測ブロックを出力する。イントラ予測部２０８には、処理対象のフレームと同じフレームの既に処理したブロックの画像データが加算部２２０から入力される。イントラ予測部２０８は、処理対象ブロックと同じフレームの他のブロックに基づき、処理対象ブロックの予測ブロックを出力する。処理対象ブロックにフレーム間予測を適用するか、フレーム内予測を適用するかに応じて、インター予測部２０６の出力とイントラ予測部２０８の出力とのいずれかが減算部２１８に出力される。

　減算部２１８は、ブロック単位で符号化対象の画像とイントラ予測画像またはインター予測画像との誤差（残差）信号を生成する。減算部２１８は、処理対象ブロックと、インター予測部２０６またはイントラ予測部２０８が出力した予測ブロックとの誤差を示す誤差信号を出力する。変換・量子化部２１０は、ブロック単位で誤差信号を変換（例えば、直交変換）および量子化し、第１レベル値を生成する。変換・量子化部２１０は、生成された第１レベル値をエントロピー符号化部２１２および逆量子化・逆変換部２１４に出力する。エントロピー符号化部２１２は、変換・量子化部２１０によって生成された第１レベル値とサイド情報（不図示）とをエントロピー符号化して、ビットストリームＢＳを生成する。なお、サイド情報は、復号装置において使用する画素値の再構成に必要な情報であり、イントラ予測またはインター予測の何れを使用したかを示す予測モード、動きベクトル、量子化パラメータ、ブロックサイズ等の関連情報を含む。

　逆量子化・逆変換部２１４は、変換・量子化部２１０における処理とは逆の処理を行って誤差信号を生成する。加算部２２０は、逆量子化・逆変換部２１４が出力する誤差信号と、インター予測部２０６またはイントラ予測部２０８が出力する予測ブロックと、を加算して処理対象ブロックを生成し、イントラ予測部２０８と、インループフィルタ２０４に出力する。インループフィルタ２０４は、当該フレームに対応する局所復号画像を生成してフレームバッファ２０２に出力する。この局所復号画像は、インター予測部２０６におけるフレーム間予測に使用される。

　ダウンサンプリング部２１６は、最小サイズよりも大きなサイズの変換ブロックから、符号化対象の画像の解像度（すなわち８Ｋ）よりも低い解像度（すなわち４Ｋ）の最小サイズの変換ブロックを生成する。ダウンサンプリング部２１６は、変換ブロック単位で減算部２１８から出力されるイントラ・インター予測誤差信号を取得する。ダウンサンプリング部２１６は、取得されたイントラ・インター予測誤差信号の変換ブロックのサイズを特定する。ダウンサンプリング部２１６は、特定されたサイズが最小サイズ（４×４）よりも大きい場合には変換ブロックを最小サイズまで縮小し、縮小され最小サイズとなった変換ブロックを出力する。例えばダウンサンプリング部２１６は、特定されたサイズが８×８であり、その変換ブロックが４×４に分割されているときにのみ、その変換ブロックを４×４に縮小した変換ブロックを出力する。あるいはまた、ダウンサンプリング部２１６は、８×８の変換ブロックの４分木分割により生成された４つの４×４の変換ブロックを集めて８×８のブロックを再構成してもよい。ダウンサンプリング部２１６は、再構成された８×８のブロックを４×４に縮小してもよい。ダウンサンプリング部２１６から出力される４×４の変換ブロックは、符号化対象の画像の解像度を４Ｋに落としたときの最小サイズの変換ブロックと同等である。

　変換・量子化部２１０は、ダウンサンプリング部２１６によって生成された最小サイズの変換ブロックを取得し、取得された変換ブロックを変換および量子化して第２レベル値を生成する。エントロピー符号化部２１２は、変換・量子化部２１０によって生成された第２レベル値をエントロピー符号化して付随ビットストリームＡＢＳを生成する。また、エントロピー符号化部２１２はレベル値とイントラ予測モード（不図示）を入力とし、ビットストリームＢＳまたは付随ビットストリームＡＢＳを出力する。このように、縮小された４×４のブロックについても符号化される。ビットストリームＢＳは解像度が８Ｋの符号化対象の画像に対応し、該ビットストリームＢＳに付随する付随ビットストリームＡＢＳは符号化対象の画像の解像度を１／２にした４Ｋの画像の、最小サイズのＣＵ、ＰＵ、ＴＵに関連する情報を含む。

　図３は、ビットストリームＢＳおよび付随ビットストリームＡＢＳの構造の一例を示す模式図である。付随ビットストリームＡＢＳはビットストリームＢＳに付随する。付随ビットストリームＡＢＳは、付随ビットストリームＡＢＳを識別するためのヘッダ３０２を有してもよい。動画像符号化装置１１０は、ビットストリームＢＳと付随ビットストリームＡＢＳとを合わせてひとつのビットストリームとして出力してもよい。

　ビットストリームＢＳは、映像符号化レイヤ（ｖｉｄｅｏ　ｃｏｄｉｎｇ　ｌａｙｅｒ）以外の情報（例えば、ＶＵＩ（Ｖｉｄｅｏ　Ｕｓａｂｉｌｉｔｙ　Ｉｎｆｏｒｍａｔｉｏｎ）、ＳＰＳ（Ｓｅｑｕｅｎｃｅ　Ｐａｒａｍｅｔｅｒ　Ｓｅｔ）、ＰＰＳ（Ｐｉｃｔｕｒｅ　Ｐａｒａｍｅｔｅｒ　Ｓｅｔ）などであり、高位文法と称される）と、スライスヘッダと、ＣＵ情報と、ＰＵ情報と、ＴＵ情報と、を含む。スライスヘッダは高位文法に含まれるものとする。ＣＵ情報にはブロック分割およびイントラ予測モードに関する情報が格納されている。ＰＵ情報には動きベクトルに関する情報が格納されている。ＴＵ情報にはレベル値が格納されている。付随ビットストリームＡＢＳはビットストリームＢＳと同様の構成を有する。

　図４は、図１のＢＳ変換装置１１２の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解される。ＢＳ変換装置１１２を実現するコンピュータプログラムは、コンピュータが読み取り可能な記録媒体に記憶されて、又は、ネットワーク経由で配布が可能なものであってもよい。

　ＢＳ変換装置１１２は、構文解析部（Ｐａｒｓｅｒ）４０２と、ユニット変換部４０４と、高位文法変換部（Ｈｉｇｈ　Ｌｅｖｅｌ　Ｓｙｎｔａｘ　Ｃｏｎｖｅｒｔｅｒ）４０６と、構文合成部（Ｓｙｎｔｈｅｓｉｓ）４０８と、を備える。構文解析部４０２は、動画像蓄積サーバ１０１に蓄積されているビットストリームＢＳの構文と付随ビットストリームＡＢＳの構文とを解析する。構文解析部４０２は、ＢＳ解析部４１０とＡＢＳ解析部４１２とを含む。ＢＳ解析部４１０はビットストリームＢＳを取得し、ビットストリームＢＳの構文を解析し、ビットストリームＢＳを高位文法、ＣＵ情報、ＰＵ情報、ＴＵ情報に分解する。ＢＳ解析部４１０は、解析の結果得られた高位文法、ＣＵ情報、ＰＵ情報、ＴＵ情報をそれぞれ高位文法変換部４０６、ＣＵ変換部４１４、ＰＵ変換部４１６、ＴＵ変換部４１８に出力する。ＡＢＳ解析部４１２は、付随ビットストリームＡＢＳを取得し、付随ビットストリームＡＢＳの構文を解析する。ＡＢＳ解析部４１２は、解析の結果得られたＣＵ情報、ＰＵ情報、ＴＵ情報をそれぞれＣＵ変換部４１４、ＰＵ変換部４１６、ＴＵ変換部４１８に出力する。

　高位文法変換部４０６は、ＢＳ解析部４１０から出力された高位文法を取得し、取得された高位文法を、該高位文法に含まれる解像度よりも低い解像度を含む新たな高位文法に変換する。例えば高位文法変換部４０６は、取得された高位文法に含まれる解像度（すなわち８Ｋ）を２で除して得られる解像度（すなわち４Ｋ）を、新たな高位文法に含める。このようにして、高位文法変換部４０６において高位文法の解像度が変更される。

　ユニット変換部４０４は、ＣＵ変換部４１４とＰＵ変換部４１６とＴＵ変換部４１８とを含む。ＣＵ変換部４１４は、ＢＳ解析部４１０からビットストリームＢＳ中のＣＵ情報を取得する。ＣＵ変換部４１４は、ＡＢＳ解析部４１２から付随ビットストリームＡＢＳ中のＣＵ情報を取得する。ＣＵ変換部４１４は、取得されたビットストリームＢＳ中のＣＵ情報のうち最小サイズ（８×８）のＣＵに関連付けられたＣＵ情報を、取得された付随ビットストリームＡＢＳ中の対応する最小サイズのＣＵに関連付けられたＣＵ情報に変換する。例えばＣＵ変換部４１４は、ブロックサイズが最小ＣＵサイズの時にはビットストリームＢＳ由来のＣＵ情報を破棄し、代わりに付随ビットストリームＡＢＳ由来のＣＵ情報を出力する。ＣＵ変換部４１４は、ブロックサイズが最小ＣＵサイズでない場合にはビットストリームＢＳ由来のＣＵ情報をそのまま出力する。

　ＰＵ変換部４１６は、ＢＳ解析部４１０からビットストリームＢＳ中のＰＵ情報を取得する。ＰＵ変換部４１６は、ＡＢＳ解析部４１２から付随ビットストリームＡＢＳ中のＰＵ情報を取得する。ＰＵ変換部４１６は、取得されたビットストリームＢＳ中のＰＵ情報のうち最小サイズ（４×４）のＰＵに関連付けられたＰＵ情報を、取得された付随ビットストリームＡＢＳ中の対応する最小サイズのＰＵに関連付けられたＰＵ情報に変換する。例えばＰＵ変換部４１６は、ブロックサイズが最小ＰＵサイズの時にはビットストリームＢＳ由来のＰＵ情報を破棄し、代わりに付随ビットストリームＡＢＳ由来のＰＵ情報を出力する。ＰＵ変換部４１６は、ビットストリームＢＳ中の最小サイズよりも大きなサイズのＰＵに関連付けられた動きベクトルの精度（または大きさ）を１／２にすることで、４Ｋに応じた精度に変換する。この際、ＰＵ変換部４１６は、精度が１／２の動きベクトルを再構築してから再び符号化して、ＰＵ情報を出力する。

　ＴＵ変換部４１８は、ＢＳ解析部４１０からビットストリームＢＳ中のＴＵ情報を取得する。ＴＵ変換部４１８は、ＡＢＳ解析部４１２から付随ビットストリームＡＢＳ中のＴＵ情報を取得する。ＴＵ変換部４１８は、取得されたビットストリームＢＳ中のＴＵ情報のうち最小サイズ（４×４）のＴＵに関連付けられたＴＵ情報を、取得された付随ビットストリームＡＢＳ中の対応する最小サイズのＴＵに関連付けられたＴＵ情報に変換する。例えばＴＵ変換部４１８は、ブロックサイズが最小ＴＵサイズの時にはビットストリームＢＳ由来のＴＵ情報を破棄し、代わりに付随ビットストリームＡＢＳ由来のＴＵ情報を出力する。

　ＴＵ変換部４１８は、ブロックサイズが最小ＴＵサイズでない、すなわち最小ＴＵサイズより大きなサイズのＴＵに関連付けられたレベル値の集合から低周波成分を抽出することにより、４Ｋの解像度に応じたレベル値の集合を生成する。ＴＵ変換部４１８は、ブロックサイズが最小ＴＵサイズでない場合には、ブロックサイズを変更するためレベル値行列を再構成して低周波成分を構成するレベル値のみを抽出してＴＵ情報を出力する。例えばＴＵ変換部４１８は、ブロックサイズを半分にするためにレベル値行列を再構成して、行と列それぞれの低周波数側の半分を抽出し、レベル値の個数を１／４として、ＴＵ情報を出力する。

　構文合成部４０８は、高位文法変換部４０６からの新たな高位文法とＣＵ変換部４１４、ＰＵ変換部４１６、ＴＵ変換部４１８のそれぞれにおける変換後のＣＵ情報、ＰＵ情報、ＴＵ情報とを構文にしたがい合成し、新たなビットストリームＮＢＳを生成する。

　図５は、図１のＢＳ変換装置１１２における変換処理を説明するための模式図である。８Ｋ画像の１６×１６の部分は８×８のＴＵ１、ＴＵ２、ＴＵ３と、４×４のＴＵ４、ＴＵ５、ＴＵ６、ＴＵ７と、に分割されている。これらのＴＵ１～ＴＵ７のそれぞれに関連付けられたレベル値は符号化され、ビットストリームＢＳのＴＵ情報に格納される。また、本実施の形態に係るダウンサンプリングを上記１６×１６の部分に適用することにより、４×４のＴＵ８が生成される。ＴＵ４、ＴＵ５、ＴＵ６、ＴＵ７はまとめてＴＵ８に対応する。ＴＵ８に関連付けられたレベル値は符号化され、付随ビットストリームＡＢＳのＴＵ情報に格納される。

　ＴＵ変換部４１８において、最小ＴＵサイズ（４×４）よりも大きなサイズ（８×８）のＴＵ１については、ＴＵ１の低周波成分が抽出され、４×４のＴＵ９が生成される。同様に、ＴＵ変換部４１８においてＴＵ２からＴＵ１０が、ＴＵ３からＴＵ１１が、それぞれ生成される。最小ＴＵサイズ（４×４）のＴＵ４、ＴＵ５、ＴＵ６、ＴＵ７はＴＵ変換部４１８によって破棄され、付随ビットストリームＡＢＳ由来のＴＵ８に置き換えられる。これらのＴＵ９、ＴＵ１０、ＴＵ１１、ＴＵ８のそれぞれに関連付けられたレベル値は符号化され、新たなビットストリームＮＢＳのＴＵ情報に格納される。

　図６は、図１の動画像復号装置１０２の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解される。

　動画像復号装置１０２は、エントロピー復号部６０２と、逆量子化・逆変換部６０４と、加算部６０６と、インター予測部６０８と、イントラ予測部６１０と、フレームバッファ６１２と、インループフィルタ６１４と、を備える。動画像復号装置１０２は、動画像符号化装置１１０で行われる手順と逆の手順により、ビットストリームＢＳまたは新たなビットストリームＮＢＳから出力動画像データを得る。

　エントロピー復号部６０２は、ネットワーク１０６を介して配信システム１００からビットストリームＢＳまたは新たなビットストリームＮＢＳを受信する。エントロピー復号部６０２は、受信したビットストリームをエントロピー復号し、レベル値とサイド情報とを取り出す。なお、ビットストリームからサイド情報およびレベル値を得る処理はパース（ｐａｒｓｅ）処理と称される。このようにして得られたサイド情報およびレベル値を用いて画素値を再構成することは、復号処理と称される。

　逆量子化・逆変換部６０４は、ブロック単位でレベル値を逆量子化および逆変換して誤差信号を生成する。加算部６０６は、逆量子化・逆変換部６０４によって生成された誤差信号に対応するブロックがイントラ予測されたものであるかインター予測されたものであるかに応じて、インター予測部６０８またはイントラ予測部６１０のいずれか一方が出力する当該ブロックの予測画像と当該ブロックの誤差信号とを加算し、当該ブロックを再生する。加算部６０６は、再生されたブロックをイントラ予測部６１０とインループフィルタ６１４とに出力する。イントラ予測部６１０は再生されたブロックを使用してフレーム内予測を行いイントラ予測画像を生成する。インループフィルタ６１４は例えばデブロックフィルタである。インループフィルタ６１４は、１つのフレームの総てのブロックを受け取ると、当該フレームに対応する局所復号画像を生成してフレームバッファ６１２に出力する。この局所復号画像は、インター予測部６０８におけるフレーム間予測に使用されると同時に、出力動画像データとして表示装置１０４に出力される。

　以上の構成による動画像符号化装置１１０およびＢＳ変換装置１１２の動作を説明する。
　図７は、図１の動画像符号化装置１１０においてビットストリームＢＳを生成する一連の処理を示すフローチャートである。動画像符号化装置１１０は、符号化対象の画像を取得する（Ｓ７０２）。動画像符号化装置１１０は、取得された符号化対象の画像を複数のブロックへ分割する（Ｓ７０４）。動画像符号化装置１１０は、分割されたブロック単位で、符号化対象の画像と予測画像との差分を演算し、誤差信号を生成する（Ｓ７０６）。動画像符号化装置１１０は、ブロックごとに誤差信号を直交変換した上で所定の量子化パラメータに基づき量子化する（Ｓ７０８）。動画像符号化装置１１０は、量子化の結果得られる第１レベル値をエントロピー符号化し、ビットストリームＢＳを生成する（Ｓ７１０）。動画像符号化装置１１０は、生成されたビットストリームＢＳを出力する（Ｓ７１２）。

　図８は、図１の動画像符号化装置１１０において付随ビットストリームＡＢＳを生成する一連の処理を示すフローチャートである。動画像符号化装置１１０は、最小サイズよりも大きなサイズのブロックを取得する（Ｓ８０２）。動画像符号化装置１１０は、取得されたブロックをダウンサンプリングし、符号化対象の画像の解像度の１／２の解像度の最小サイズのブロックを生成する（Ｓ８０４）。動画像符号化装置１１０は、生成された最小サイズのブロックについて誤差信号を直交変換した上で所定の量子化パラメータに基づき量子化する（Ｓ８０６）。動画像符号化装置１１０は、量子化の結果得られる第２レベル値をエントロピー符号化し、付随ビットストリームＡＢＳを生成する（Ｓ８０８）。動画像符号化装置１１０は、生成された付随ビットストリームＡＢＳをビットストリームＢＳに付随させて出力する（Ｓ８１０）。

　図９は、図１のＢＳ変換装置１１２における一連の処理を示すフローチャートである。ＢＳ変換装置１１２は、動画像蓄積サーバ１０１からビットストリームＢＳおよび付随ビットストリームＡＢＳを取得する（Ｓ９０２）。ＢＳ変換装置１１２は、取得されたビットストリームＢＳの構文と、付随ビットストリームＡＢＳの構文と、を解析する（Ｓ９０４）。ＢＳ変換装置１１２は、構文解析によりビットストリームＢＳから抽出された高位文法を、解像度が１／２になるよう変換し、新たな高位文法を得る（Ｓ９０６）。ＢＳ変換装置１１２は、ビットストリームＢＳ中の最小サイズのＣＵ、ＰＵ、ＴＵに関連付けられたＣＵ情報、ＰＵ情報、ＴＵ情報を、付随ビットストリームＡＢＳ中の対応する最小サイズのＣＵ、ＰＵ、ＴＵに関連付けられたＣＵ情報、ＰＵ情報、ＴＵ情報で置換する（Ｓ９０８）。ＢＳ変換装置１１２は、新たな高位文法と置換後のＣＵ情報、ＰＵ情報、ＴＵ情報とを構文にしたがい合成し、新たなビットストリームＮＢＳを生成する（Ｓ９１０）。

　本実施の形態に係る配信システム１００によると、信号処理における処理量を削減したスケーラブル符号化方式が実現可能となる。例えば、符号化側では、高解像度映像に付随ビットストリームを追加することで低解像度映像のビットストリームを生成することができる。これにより、低解像度映像の別途の符号化が不要となる。復号側では受信した映像の解像度を変更するための装置や回路を用意する必要はないので、装置構成をシンプルにすることができる。

　比較例を参照することで本実施の形態の作用効果を説明する。比較例は、スケーラブル符号化方式（例えば、非特許文献１参照）に関する。これはベースレイヤと呼ばれる基本映像と、基本映像にエンハンスメントレイヤと呼ばれる拡張部分を追加して様々な要素が拡張された拡張映像とを符号化・復号する手法である。様々な要素としては、フレームレート、解像度、ビット深度、色域などがある。比較例は特に解像度のスケーラビリティである空間スケーラビリティに関する。

　図１０は、比較例に係るスケーラブル符号化装置１３０の機能および構成を示すブロック図である。ダウンサンプリング部１３２は入力画像を入力とし、解像度を１／２にした画像を出力する。１／２解像度の映像は、通常の符号化装置と同様に符号化される。レイヤ間参照画像生成部１３４は、復号された画像を入力とし、２倍に拡大した画像をフレームバッファ１３６に出力する。この結果、エンハンスメントレイヤの符号化における参照画像として、ベースレイヤの画像を利用することができ、それぞれ個別にエンコードするよりも、符号化効率が改善する。

　図１１は、比較例に係るスケーラブル復号装置１４０の機能および構成を示すブロック図である。ベースレイヤのみを復号する場合には、既存の復号装置と同じである。一方、エンハンスメントレイヤまで復号するときには、エンハンスメントレイヤの参照画像バッファ１４２に、レイヤ間予測画像を追加する。

　図１０および図１１に示される回路構成からも明らかな通り、比較例に係るスケーラブル符号化・復号方式では、複数の符号化ループ／復号ループ（例えば、低解像度用と高解像度用）が必要である。したがって、信号処理に必要なメモリ帯域や処理量が全レイヤの画素数の合計に比例して増大する。これに対して本実施の形態に係る方式では、高解像度映像（例えば８Ｋ映像）のビットストリームから低解像度映像（例えば、４Ｋ映像）のビットストリームをシンタックス処理において生成する。したがって、高解像度映像と低解像度映像のどちらも単一ループの復号装置で復号可能となり、メモリ帯域や処理量を低減することができる。また、消費電力も低減できる。

　また、本実施の形態に係る方式では、シンタックスレベルで解像度を変更するので、信号レベルで解像度を変更する場合と比較して処理量を低減できる。

　上述の実施の形態において、データベースの例は、ハードディスクや半導体メモリである。また、本明細書の記載に基づき、各部を、図示しないＣＰＵや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶する半導体メモリなどにより実現できることは本明細書に触れた当業者には理解される。

　以上、実施の形態に係る配信システム１００の構成と動作について説明した。この実施の形態は例示であり、各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解される。

　実施の形態では、符号化側である配信システム１００がＢＳ変換装置１１２を備える場合について説明したが、これに限られず、ＢＳ変換装置は復号側に設けられてもよい。例えば、ユーザサイトに設けられたＢＳ変換装置はネットワーク１０６を介して８Ｋ映像のビットストリームおよび付随ビットストリームを受信し、シンタックス処理にて４Ｋ映像のビットストリームを生成してもよい。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。

　本願は、２０１５年１２月２８日提出の日本国特許出願特願２０１５－２５６４８８を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims

　復号処理に係るユニットの最小サイズが規定されている動画像データに対応するビットストリームの構文と前記ビットストリームに付随する付随ビットストリームの構文とを解析する構文解析部と、
　前記構文解析部による解析の結果得られる高位文法を、該高位文法に含まれる解像度よりも低い解像度を含む新たな高位文法に変換する高位文法変換部と、
　前記構文解析部による解析の結果得られる情報であって前記ビットストリーム中の最小サイズのユニットに関連付けられた情報を、前記付随ビットストリーム中の対応するユニットに関連付けられた情報に変換するユニット変換部と、
　前記高位文法変換部からの前記新たな高位文法と前記ユニット変換部における変換後の情報とを構文にしたがい合成し、新たなビットストリームを生成する構文合成部と、を備えることを特徴とするビットストリーム変換装置。
　前記高位文法変換部は、前記構文解析部による解析の結果得られる高位文法に含まれる解像度を２のｎ乗（ｎは自然数）で除して得られる解像度を、前記新たな高位文法に含めることを特徴とする請求項１に記載のビットストリーム変換装置。
　前記ユニット変換部は、前記ビットストリーム中の最小サイズのユニットに関連付けられた情報を破棄し、代わりに前記付随ビットストリーム中の対応するユニットに関連付けられた情報を出力することを特徴とする請求項１または２に記載のビットストリーム変換装置。
　前記ユニットはコーディングユニット（Ｃｏｄｉｎｇ　Ｕｎｉｔ）を含むことを特徴とする請求項１から３のいずれか１項に記載のビットストリーム変換装置。
　前記ユニットはプレディクションユニット（Ｐｒｅｄｉｃｔｉｏｎ　Ｕｎｉｔ）を含み、
　前記ユニット変換部は、前記ビットストリーム中の最小サイズよりも大きなサイズのプレディクションユニットに関連付けられた動きベクトルの精度を、前記低い解像度に応じた精度に変換することを特徴とする請求項１から４のいずれか１項に記載のビットストリーム変換装置。
　前記ユニットはトランスフォームユニット（Ｔｒａｎｓｆｏｒｍ　Ｕｎｉｔ）を含み、
　前記ユニット変換部は、前記ビットストリーム中の最小サイズより大きなサイズのトランスフォームユニットに関連付けられたレベル値の集合を、前記低い解像度に応じたレベル値の集合に変換することを特徴とする請求項１から５のいずれか１項に記載のビットストリーム変換装置。
　前記ユニット変換部は、前記ビットストリーム中の最小サイズより大きなサイズのトランスフォームユニットに関連付けられたレベル値の集合から低周波成分を抽出することにより、前記低い解像度に応じたレベル値の集合を生成することを特徴とする請求項６に記載のビットストリーム変換装置。
　前記ビットストリームは所定の復号装置により復号可能である一方、前記付随ビットストリームのみの前記所定の復号装置による復号は可能でないことを特徴とする請求項１から７のいずれか１項に記載のビットストリーム変換装置。
　請求項１から８のいずれか１項に記載のビットストリーム変換装置と、
　前記低い解像度を所望するというリクエストがあったときには前記ビットストリーム変換装置により生成される新たなビットストリームを選択する選択部と、を備えることを特徴とする配信システム。
　復号処理に係るユニットの最小サイズが規定されている動画像データに対応するビットストリームの構文と前記ビットストリームに付随する付随ビットストリームの構文とを解析することと、
　前記解析の結果得られる高位文法を、該高位文法に含まれる解像度よりも低い解像度を含む新たな高位文法に変換することと、
　前記解析の結果得られる情報であって前記ビットストリーム中の最小サイズのユニットに関連付けられた情報を、前記付随ビットストリーム中の対応するユニットに関連付けられた情報に変換することと、
　前記新たな高位文法と前記変換後の情報とを構文にしたがい合成し、新たなビットストリームを生成することと、を含むことを特徴とするビットストリーム変換方法。
　請求項１から８のいずれか１項に記載のビットストリーム変換装置としてコンピュータを機能させるプログラムを有することを特徴とするコンピュータ可読記録媒体。
　複数のブロックに分割された符号化対象の画像について、ブロック単位で前記画像と予測画像との誤差信号を変換および量子化し、第１レベル値を生成する変換量子化部と、
　前記変換量子化部によって生成された第１レベル値をエントロピー符号化してビットストリームを生成する符号化部と、
　最小サイズよりも大きなサイズのブロックから、前記画像の解像度よりも低い解像度の最小サイズのブロックを生成するダウンサンプリング部と、を備え、
　前記変換量子化部は前記ダウンサンプリング部によって生成されたブロックの誤差信号を変換および量子化して第２レベル値を生成し、
　前記符号化部は、前記変換量子化部によって生成された第２レベル値をエントロピー符号化して付随ビットストリームを生成することを特徴とする動画像符号化装置。
　複数のブロックに分割された符号化対象の画像について、ブロック単位で前記画像と予測画像との誤差信号を変換および量子化し、第１レベル値を生成することと、
　生成された第１レベル値をエントロピー符号化してビットストリームを生成することと、
　最小サイズよりも大きなサイズのブロックから、前記画像の解像度よりも低い解像度の最小サイズのブロックを生成することと、
　生成されたブロックの誤差信号を変換および量子化して第２レベル値を生成することと、
　生成された第２レベル値をエントロピー符号化して付随ビットストリームを生成することと、を含むことを特徴とする動画像符号化方法。
　請求項１２に記載の動画像符号化装置としてコンピュータを機能させるプログラムを有することを特徴とするコンピュータ可読記録媒体。