WO2015083742A1

WO2015083742A1 - 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム

Info

Publication number: WO2015083742A1
Application number: PCT/JP2014/081986
Authority: WO
Inventors: 信哉志水; 志織杉本; 明小島
Original assignee: 日本電信電話株式会社
Priority date: 2013-12-03
Filing date: 2014-12-03
Publication date: 2015-06-11
Also published as: CN105934949A; KR20160079068A; JPWO2015083742A1; US20160295241A1; JP6232075B2

Abstract

　多視点映像中の被写体に対するデプスマップから設定される代表デプスに基づいて、当該多視点映像の１フレームである符号化対象画像上の位置を、符号化対象画像とは異なる視点に対する参照視点画像上の位置へと変換する変換行列を設定する。前記符号化対象画像を分割した符号化対象領域内に代表位置を設定し、該代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する。その対応位置に基づいて、前記参照視点画像の動き情報から前記符号化対象領域における合成動き情報を生成し、これを用いて前記符号化対象領域に対する予測画像を生成する。

Description

映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム

　本発明は、映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム、及び、映像復号プログラムに関する。

　自由視点映像とは、撮影空間内でのカメラの位置や向き（以下、視点と称する）をユーザが自由に指定できる映像のことである。自由視点映像では、ユーザが任意の視点を指定するが、可能な全ての視点に対する映像を保持することは不可能である。そのため、自由視点映像は、指定された視点の映像を生成するのに必要な情報群によって構成される。
　なお、自由視点映像は、自由視点テレビ、任意視点映像、任意視点テレビなどと呼ばれることもある。

　自由視点映像は様々なデータ形式を用いて表現されるが、最も一般的な形式として映像とその映像の各フレームに対するデプスマップ（距離画像）を用いる方式がある（例えば、非特許文献１参照）。
　ここで、デプスマップとは、カメラから被写体までのデプス（距離）を画素ごとに表現したものであり、被写体の三次元的な位置を表現している。ある条件を満たす場合、デプスは二つのカメラ間の視差の逆数に比例しているため、ディスパリティマップ（視差画像）と呼ばれることもある。

　コンピュータグラフィックスの分野では、デプスはＺバッファに記憶された情報となるため、Ｚ画像やＺマップと呼ばれることもある。
　なお、カメラから被写体までの距離の他に、表現対象空間上に張られた三次元座標系のＺ軸に対する座標値をデプスとして用いることもある。一般に、撮影された画像に対して水平方向をＸ軸、垂直方向をＹ軸とするため、Ｚ軸はカメラの向きと一致するが、複数のカメラに対して共通の座標系を用いる場合など、Ｚ軸がカメラの向きと一致しない場合もある。
　以下では、距離・Ｚ値を区別せずにデプスと呼び、デプスを画素値として表した画像をデプスマップと呼ぶ。ただし、厳密にはディスパリティマップでは基準となるカメラ対を設定する必要がある。

　デプスを画素値として表す際に、物理量に対応する値をそのまま画素値とする方法と、最小値と最大値の間をある数に量子化して得られる値を用いる方法と、最小値からの差をあるステップ幅で量子化して得られる値を用いる方法がある。表現したい範囲が限られている場合には、最小値などの付加情報を用いるほうがデプスを高精度に表現することができる。
　また、等間隔に量子化する際に、物理量をそのまま量子化する方法と物理量の逆数を量子化する方法とがある。距離の逆数は視差に比例した値となるため、距離を高精度に表現する必要がある場合には、前者が使用され、視差を高精度に表現する必要がある場合には、後者が使用されることが多い。
　以下では、デプスの画素値化の方法や量子化の方法に関係なく、デプスが画像として表現されたものを全てデプスマップと呼ぶ。

　デプスマップは、各画素が一つの値を持つ画像として表現されるため、グレースケール画像とみなすことができる。また、被写体が実空間上で連続的に存在し、瞬間的に離れた位置へ移動することができないため、画像信号と同様に空間的相関および時間的相関を持つと言える。したがって、通常の画像信号や映像信号を符号化するために用いられる画像符号化方式や映像符号化方式によって、デプスマップや連続するデプスマップで構成される映像を空間的冗長性や時間的冗長性を取り除きながら効率的に符号化することが可能である。
　以下では、デプスマップとそれにより構成される映像を区別せずにデプスマップと呼ぶ。

　ここで、一般的な映像符号化について説明する。
　映像符号化では、被写体が空間的および時間的に連続しているという特徴を利用して効率的な符号化を実現するために、映像の各フレームをマクロブロックと呼ばれる処理単位ブロックに分割し、マクロブロックごとにその映像信号を空間的または時間的に予測し、その予測方法を示す予測情報と予測残差とを符号化する。
　映像信号を空間的に予測する場合は、例えば空間的な予測の方向を示す情報が予測情報となり、時間的に予測する場合は、例えば参照するフレームを示す情報とそのフレーム中の位置を示す情報とが予測情報となる。
　空間的に行う予測は、フレーム内の予測であることから、フレーム内予測（画面内予測、イントラ予測）と呼ばれ、時間的に行う予測は、フレーム間の予測であることから、フレーム間予測（画面間予測、インター予測）と呼ばれる。

　また、時間的に行う予測では、映像の時間的変化、すなわち動きを補償して映像信号の予測を行うことになるため、動き補償予測とも呼ばれる。
　さらに、同じシーンを複数の位置や向きから撮影した映像からなる多視点映像を符号化する際には、映像の視点間の変化、すなわち視差を補償して映像信号の予測を行うことになるため、視差補償予測が用いられる。

　複数の視点に対する映像とデプスマップとで構成される自由視点映像の符号化においては、どちらも空間相関と時間相関を持つことから、通常の映像符号化方式を用いてそれぞれを符号化することで、データ量を削減できる。
　例えば、ＭＰＥＧ－Ｃ　Ｐａｒｔ．３を用いて、多視点映像とそれに対するデプスマップを表現する場合は、それぞれを既存の映像符号化方式を用いて符号化する。

　また、複数の視点に対する映像とデプスマップとを一緒に符号化する場合、動き情報について視点間で存在する相関を利用して、効率的な符号化を実現する方法がある。
　非特許文献２では、処理対象の領域に対して、視差ベクトルを用いて、既に処理済みの別の視点の映像の領域を決定し、その領域を符号化する際に使用された動き情報を、処理対象の領域の動き情報またはその予測値として用いている。このとき効率的な符号化を実現するためには、処理対象の領域に対して精度の高い視差ベクトルを獲得する必要がある。
　非特許文献２では、最も単純な方法として、処理対象の領域と時間または空間的に隣接する領域に対して与えられた視差ベクトルを、処理対象領域の視差ベクトルとする方法が用いられている。更に、より正確な視差ベクトルを求めるために、処理対象の領域に対するデプスを推定または取得し、そのデプスを変換して視差ベクトルを獲得する方法も用いられている。

Y. Mori, N. Fukusima, T. Fujii, and M. Tanimoto,"View Generation with 3D Warping Using Depth Information for FTV ",In Proceedings of 3DTV-CON2008, pp. 229-232, May 2008. G. Tech, K. Wegner, Y. Chen, and S. Yea, "3D-HEVC Draft Text 1", JCT-3V Doc., JCT3V-E1001 (version 3), September, 2013.

　非特許文献２に記載の方法によれば、デプスマップの値を変換し高精度な視差ベクトルを獲得することで、高効率な予測符号化を実現することが可能である。

　しかしながら、非特許文献２に記載の方法では、デプスを視差ベクトルへ変換する際に、視差がデプス（カメラから被写体までの距離）の逆数に比例していると仮定している。より具体的には、デプスの逆数、カメラの焦点距離、視点間の距離の、三者の積によって視差を求めている。このような変換は、２つの視点が同じ焦点距離を持ち、視点の向き（カメラの光軸）が３次元的に平行である場合には正しい結果を与えるが、それ以外の状況では誤った結果を与えることになる。

　正確な変換を行うためには、非特許文献１に記載されているように、画像上の点をデプスに従って三次元空間へ逆投影することで三次元点を得た後、その三次元点を別の視点へ再投影することで別の視点に対する画像上での点を計算する必要がある。

　しかしながら、このような変換では複雑な演算が必要となり、演算量が増加してしまうという問題がある。また、視点の向きが異なる場合、２つの視点に対する映像上での動きベクトルが同じになることは極めて少ない。そのため、視差ベクトルが正しく得られたとしても、非特許文献２に記載の方法に従って、別の視点における動き情報を処理対象の領域に対する動き情報として用いた場合、誤った動き情報を与えてしまい、効率的な符号化を実現することができないという問題がある。

　本発明は、このような事情に鑑みてなされたもので、複数の視点に対する映像とデプスマップとを構成要素に持つ自由視点映像データの符号化において、視点の向きが平行でない場合でも、動きベクトルの視点間予測の精度を向上させることで、効率的な映像符号化を実現することができる映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム、及び、映像復号プログラムを提供することを目的とする。

　本発明は、複数の異なる視点の映像からなる多視点映像の１フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化装置であって、
　前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
　前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
　前記符号化対象領域内の位置から代表位置を設定する代表位置設定手段と、
　前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
　前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成手段と、
　前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成手段と
　を有する映像符号化装置を提供する。

　典型例として、前記符号化対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
　前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定する。

　この場合、前記符号化対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
　前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定するようにしても良い。

　更に、前記デプス参照視差ベクトル設定手段は、前記符号化対象領域に隣接する領域を符号化する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定するようにしても良い。

　また、前記代表デプス設定手段は、四角形状を有する前記符号化対象領域の４頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定するようにしても良い。

　好適例として、前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
　前記予測画像生成手段は、前記変換された合成動き情報を用いる。

　別の好適例として、前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
　前記過去デプスに基づいて、前記参照視点画像上の位置を前記符号化対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
　前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
　前記予測画像生成手段は、前記変換された合成動き情報を用いる。

　本発明はまた、複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号装置であって、
　前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
　前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
　前記復号対象領域内の位置から代表位置を設定する代表位置設定手段と、
　前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
　前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成手段と、
　前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成手段と
　を有する映像復号装置も提供する。

　典型例として、前記復号対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
　前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定する。

　この場合、前記復号対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
　前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定するようにしても良い。

　更に、前記デプス参照視差ベクトル設定手段は、前記復号対象領域に隣接する領域を復号する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定するようにしても良い。

　また、前記代表デプス設定手段は、四角形状を有する前記復号対象領域の４頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定するようにしても良い。

　別の好適例として、前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
　前記過去デプスに基づいて、前記参照視点画像上の位置を前記復号対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
　前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
　前記予測画像生成手段は、前記変換された合成動き情報を用いる。

　本発明はまた、複数の異なる視点の映像からなる多視点映像の１フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化方法であって、
　前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
　前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
　前記符号化対象領域内の位置から代表位置を設定する代表位置設定ステップと、
　前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
　前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成ステップと、
　前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成ステップと
　を有する映像符号化方法も提供する。

　本発明はまた、複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号方法であって、
　前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
　前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
　前記復号対象領域内の位置から代表位置を設定する代表位置設定ステップと、
　前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
　前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成ステップと、
　前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成ステップと
　を有する映像復号方法も提供する。

　本発明はまた、コンピュータに、前記映像符号化方法を実行させるための映像符号化プログラムも提供する。

　本発明はまた、コンピュータに、前記映像復号方法を実行させるための映像復号プログラムも提供する。

　本発明によれば、複数の視点に対する映像がその映像に対するデプスマップと共に符号化または復号される場合に、視点間の画素の対応関係をデプス値に対して定義される１つの行列を用いて求めることで、視点の向きが平行でない場合でも、複雑な演算を行うことなく、動きベクトルの視点間予測の精度を向上させることが可能となり、少ない符号量で映像を符号化することができるという効果が得られる。

本発明の一実施形態による映像符号化装置の構成を示すブロック図である。図１に示す映像符号化装置１００の動作を示すフローチャートである。図２に示す動き情報生成部１０５における動き情報を生成する動作（ステップＳ１０４）の処理動作を示すフローチャートである。本発明の一実施形態による映像復号装置の構成を示すブロック図である。図４に示す映像復号装置２００の動作を示すフローチャートである。図１に示す映像符号化装置１００をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。図４に示す映像復号装置２００をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。

　以下、図面を参照して、本発明の実施形態による映像符号化装置及び映像復号装置を説明する。
　以下の説明においては、第１のカメラ（カメラＡという）、第２のカメラ（カメラＢという）の２つのカメラで撮影された多視点映像を符号化する場合を想定し、カメラＡを参照視点としてカメラＢの映像の１フレームを符号化または復号するものとして説明する。
　なお、デプスから視差を得るために必要となる情報は、別途与えられているものとする。具体的には、カメラＡとカメラＢの位置関係を表す外部パラメータや、カメラによる画像平面への投影情報を表す内部パラメータである、これらと同じ意味をもつものであれば、別の形式で必要な情報が与えられていてもよい。
　これらのカメラパラメータに関する詳しい説明は、例えば、文献「Oliver Faugeras, "Three-Dimension Computer Vision", MIT Press; BCTC/UFF-006.37 F259 1993, ISBN:0-262-06158-9.」に記載されている。この文献には、複数のカメラの位置関係を示すパラメータや、カメラによる画像平面への投影情報を表すパラメータに関する説明が記載されている。

　以下の説明では、画像や映像フレーム、デプスマップに対して、位置を特定可能な情報（座標値もしくは座標値に対応付け可能なインデックスなど）を付加する（例えば後述の符号化対象領域インデックスｂｌｋ）ことで、その位置（範囲）の画素によってサンプリングされた画像信号や、それに対するデプスを示すものとする。
　また、座標値やブロックに対応付け可能なインデックス値とベクトルとの加算によって、その座標やブロックをベクトルの分だけずらした位置の座標値やブロックを表すものとする。

　図１は本実施形態による映像符号化装置の構成を示すブロック図である。
　映像符号化装置１００は、図１に示すように、符号化対象画像入力部１０１、符号化対象画像メモリ１０２、参照視点動き情報入力部１０３、デプスマップ入力部１０４、動き情報生成部１０５、画像符号化部１０６、画像復号部１０７及び参照画像メモリ１０８を備えている。

　符号化対象画像入力部１０１は、符号化対象となる映像の１フレームを映像符号化装置１００に入力する。以下では、この符号化対象となる映像および入力され符号化されるフレームを、それぞれ、符号化対象映像および符号化対象画像と称する。ここではカメラＢの映像を１フレームずつ入力するものとする。また、符号化対象映像を撮影した視点（ここではカメラＢの視点）を符号化対象視点と称する。
　符号化対象画像メモリ１０２は、入力した符号化対象画像を記憶する。
　参照視点動き情報入力部１０３は、参照視点の映像に対する動き情報（動きベクトルなど）を映像符号化装置１００に入力する。以下では、ここで入力された動き情報を、参照視点動き情報と呼ぶ。ここではカメラＡの動き情報を入力するものとする。

　デプスマップ入力部１０４は、視点間の画素の対応関係を求めたり、動き情報を生成したりする際に参照するデプスマップを映像符号化装置１００に入力する。ここでは、符号化対象画像に対するデプスマップを入力するものとするが、参照視点など別の視点に対するデプスマップでも構わない。
　なお、デプスマップとは、対応する画像の各画素に写っている被写体の３次元位置を表すものである。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ（例えばカメラＡ）に対する視差量を用いることができる。
　なお、ここではデプスマップとして画像の形態で提供されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。

　動き情報生成部１０５は、参照視点動き情報とデプスマップとを用いて、符号化対象画像に対する動き情報を生成する。
　画像符号化部１０６は、生成された動き情報を用いながら、符号化対象画像を予測符号化する。
　画像復号部１０７は、符号化対象画像のビットストリームを復号する。
　参照画像メモリ１０８は、符号化対象画像のビットストリームを復号した際に得られる画像を記憶する。

　次に、図２を参照して、図１に示す映像符号化装置１００の動作を説明する。図２は、図１に示す映像符号化装置１００の動作を示すフローチャートである。
　まず、符号化対象画像入力部１０１は、符号化対象画像Ｏｒｇを入力し、符号化対象画像メモリ１０２に記憶する（ステップＳ１０１）。
　次に、参照視点動き情報入力部１０３は参照視点動き情報を映像符号化装置１００に入力し、デプスマップ入力部１０４はデプスマップを映像符号化装置１００に入力し、それぞれ動き情報生成部１０５へ出力される（ステップＳ１０２）。

　なお、ステップＳ１０２で入力される参照視点動き情報とデプスマップは、既に符号化済みのものを復号したものなど、復号側で得られるものと同じものとする。これは復号装置で得られるものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化前のものなど、符号化側でしか得られないものが入力されてもよい。
　デプスマップに関しては、既に符号化済みのものを復号したもの以外に、複数のカメラに対して復号された多視点映像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなども、復号側で同じものが得られるものとして用いることができる。

　参照視点動き情報は、参照視点に対する映像を符号化する際に使用された動き情報を用いても構わないし、参照視点に対して別途符号化されたものでも構わない。また、参照視点に対する映像を復号し、そこから推定して得られた動き情報を用いることも可能である。

　符号化対象画像、参照視点動き情報、デプスマップの入力が終了したら、符号化対象画像を予め定められた大きさの領域に分割し、分割した領域ごとに、符号化対象画像の映像信号を符号化する（ステップＳ１０３～Ｓ１０８）。
　すなわち、符号化対象領域インデックスをｂｌｋ、１フレーム中の総符号化対象領域数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化し（ステップＳ１０３）、その後、ｂｌｋに１を加算しながら（ステップＳ１０７）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳ１０８）、以下の処理（ステップＳ１０４～Ｓ１０６）を繰り返す。
　一般的な符号化では１６画素×１６画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、復号側と同じであればその他の大きさのブロックに分割しても構わない。また、画像全体を同じサイズで分割せず、領域ごとに異なるサイズのブロックに分割しても構わない。

　符号化対象領域ごとに繰り返される処理では、まず、動き情報生成部１０５は、符号化対象領域ｂｌｋにおける動き情報を生成する（ステップＳ１０４）。ここでの処理は後で詳しく説明する。
　符号化対象領域ｂｌｋに対する動き情報が得られたら、画像符号化部１０６は、その動き情報と参照画像メモリ１０８に記憶された画像とを用いて動き補償予測を行いながら、符号化対象領域ｂｌｋにおける符号化対象画像の映像信号（画素値）を符号化する（ステップ１０５）。符号化の結果得られるビットストリームが映像符号化装置１００の出力となる。なお、符号化する方法には、どのような方法を用いても構わない。
　ＭＰＥＧ－２やＨ．２６４／ＡＶＣなどの一般的な符号化では、ブロックｂｌｋの映像信号と予測画像との差分信号に対して、ＤＣＴなどの周波数変換、量子化、２値化、エントロピー符号化を順に施すことで符号化を行う。

　次に、画像復号部１０７は、ビットストリームからブロックｂｌｋに対する映像信号を復号し、復号結果であるところの復号画像Ｄｅｃ［ｂｌｋ］を参照画像メモリ１０９に記憶する（ステップＳ１０６）。
　ここでは、符号化時に用いた手法に対応する手法を用いる。例えば、ＭＰＥＧ－２やＨ．２６４／ＡＶＣなどの一般的な符号化であれば、符号データに対して、エントロピー復号、逆２値化、逆量子化、ＩＤＣＴなどの周波数逆変換を順に施し、得られた２次元信号に対して予測画像を加え、最後に画素値の値域でクリッピングを行うことで映像信号を復号する。
　なお、符号化側での処理がロスレスになる直前のデータと予測画像を受け取り、簡略化した復号処理によって復号処理を行っても構わない。

　すなわち、前述の例であれば、符号化時に量子化処理を加えた後の値と動き補償予測画像とを受け取り、その量子化後の値に逆量子化、周波数逆変換を順に施して得られた２次元信号に対して動き補償予測画像を加え、画素値の値域でクリッピングを行うことで映像信号を復号しても構わない。

　次に、図３を参照して、動き情報生成部１０５が行う符号化対象領域ｂｌｋにおける動き情報を生成する処理（ステップＳ１０４）について詳細に説明する。図３は、図２に示す動き情報生成部１０５における動き情報を生成する動作（ステップＳ１０４）の処理動作を示すフローチャートである。

　動き情報を生成する処理において、まず、動き情報生成部１０５は、符号化対象領域ｂｌｋに対するデプスマップを設定する（ステップＳ１４０１）。ここでは、符号化対象画像に対するデプスマップが入力されているため、符号化対象領域ｂｌｋと同じ位置のデプスマップを設定することとなる。
　なお、符号化対象画像とデプスマップの解像度が異なる場合は、解像度比に応じてスケーリングした領域を設定する。符号化対象視点と異なる視点の１つをデプス視点とするとき、デプス視点に対するデプスマップを用いる場合は、符号化対象領域ｂｌｋにおける符号化対象視点とデプス視点の視差ＤＶを求め、ｂｌｋ＋ＤＶにおけるデプスマップを設定する。符号化対象画像とデプスマップの解像度が異なる場合は、上述のように、解像度比に応じて位置および大きさのスケーリングを行う。

　符号化対象領域ｂｌｋにおける符号化対象視点とデプス視点の視差ＤＶは、復号側と同じ方法であればどのような方法を用いて算出しても構わない。
　例えば、符号化対象領域ｂｌｋの周辺領域を符号化する際に使用された視差ベクトルや、符号化対象画像全体や符号化対象領域を含む部分画像に対して設定されたグローバル視差ベクトル、符号化対象領域に対して別途設定し符号化される視差ベクトルなどを用いることが可能である。また、異なる領域や過去に符号化された画像で使用した視差ベクトルを記憶しておき、用いても構わない。
　更に、符号化対象視点に対して過去に符号化されたデプスマップの符号化対象領域と同位置のデプスマップを変換して得られる視差ベクトルを用いても構わない。

　次に、動き情報生成部１０５は、設定されたデプスマップから、（本発明の「代表位置」としての）代表画素位置ｐｏｓと代表デプスｒｅｐを決定する（ステップＳ１４０２）。どのような方法を用いて代表画素位置と代表デプスを決定しても構わないが、復号側と同じ方法を用いる必要がある。
　代表画素位置ｐｏｓを設定する代表的な方法としては、代表画素位置として符号化対象領域内の中央や左上など予め定められた位置を設定する方法や、代表デプスを求めた後に、その代表デプスと同じデプスを持つ符号化対象領域内の画素の位置を設定する方法がある。

　また、別の方法として、予め定められた位置の画素に対するデプスを比較して、予め定められた条件を満たすデプスを持つ画素の位置を設定する方法がある。
　具体的には、符号化対象領域内の中央に位置する４つの画素や、（四角形状の符号化対象領域の）４頂点に位置する画素、４頂点と中央に位置する画素を対象とし、最大のデプスや、最小のデプス、中央値のデプスなどを与える画素を選択する方法である。
　代表デプスｒｅｐを設定する代表的な方法としては、符号化対象領域ｂｌｋに対するデプスマップの平均値や中央値、最大値、最小値などを用いる方法がある。
　また、符号化対象領域内の全ての画素ではなく、一部の画素に対するデプス値の平均値や中央値、最大値、最小値などを用いても構わない。一部の画素としては、４頂点や４頂点と中央などを用いても構わない。更に、符号化対象領域に対して、左上や中央など予め定められた位置に対するデプス値を用いる方法もある。

　動き情報生成部１０５は、代表画素位置ｐｏｓおよび代表デプスが得られたら、次に変換行列Ｈ_ｒｅｐを求める（ステップＳ１４０３）。
　ここで、変換行列はホモグラフィ行列と呼ばれ、代表デプスで表現される平面に被写体が存在すると仮定したときに、視点間での画像平面上の点の対応関係を与えるものである。なお、変換行列Ｈ_ｒｅｐはどのように求めても構わない。例えば、次の数式を用いて求めることが可能である。

　なお、Ｒとｔは、符号化対象視点と参照視点との間の３ｘ３回転行列と並進ベクトルをそれぞれ表し、Ｄ_repは代表デプス、ｎ(Ｄ_rep)は符号対象視点における代表デプスＤ_repに対応する三次元平面の法線ベクトルを示し、ｄ(Ｄ_rep)はその三次元平面と、符号化対象視点と参照視点の視点中心との間の距離を示す。また、右肩のＴはベクトルの転置を表す。

　変換行列Ｈ_ｒｅｐの別の求め方としては、まず、符号化対象画像中の異なる４点ｐ_ｉ（ｉ＝１，２，３，４）に対して、次の式に基づいて、参照視点の画像上の対応点ｑ_ｉを求める。

　ここで、Ｐ_ｔおよびＰ_ｒは、それぞれ符号化対象視点および参照視点における３×４カメラ行列を示す。ここでのカメラ行列は、カメラの内部パラメータをＡ、世界座標系（カメラに依存しない任意の共通な座標系）からカメラ座標系への回転行列をＲ、世界座標系からカメラ座標系への並進を表す列ベクトルをｔで表すと、Ａ［Ｒ｜ｔ］で与えられる（［Ｒ｜ｔ］はＲとｔを並べて作られる３ｘ４行列であり、カメラの外部パラメータと呼ばれる）。なお、ここでのカメラ行列Ｐの逆行列Ｐ^－１は、カメラ行列Ｐによる変換の逆変換に対応する行列であるとし、Ｒ^-1[Ａ^－１｜－ｔ]で表される。
　ｄ_ｔ（ｐ_ｉ）は、符号化対象画像上の点ｐ_ｉにおけるデプスが代表デプスであるとしたときの、符号化対象視点から点ｐ_ｉにおける被写体までの光軸上の距離を示す。
　ｓは任意の実数であるが、カメラパラメータの誤差がない場合、ｓは参照視点の画像上の点ｑ_ｉにおける参照視点から点ｑ_ｉにおける被写体までの光軸上の距離ｄ_ｒ（ｑ_ｉ）と等しい。
　また、上記定義に従い式２を計算すると、次の数式となる。なお、内部パラメータＡ、回転行列Ｒ、並進ベクトルｔの添え字ｔとｒは各カメラを表し、それぞれ符号化対象視点と参照視点を示す。

　４つの対応点が求まったら、次の式に従って得られる同次方程式を解くことで変換行列Ｈ_ｒｅｐを得る。ただし、変換行列Ｈ_ｒｅｐの（３，３）成分は任意の実数（例えば１）を設定して求める。

　変換行列Ｈ_ｒｅｐは参照視点とデプスに依存することから、代表デプスを求める度に毎回求めても構わないし、領域ごとの処理を開始する前に、参照視点とデプスの組み合わせ毎に求めておき、変換行列Ｈ_ｒｅｐを求める段階で、既に計算してある変換行列群の中から、参照視点及び代表デプスをもとに、１つの変換行列を選択・設定しても構わない。

　代表デプスに対する変換行列が得られたら、動き情報生成部１０５は、次の数式に基づいて参照視点上の対応位置を求める（ステップＳ１４０４）。

　ここで、ｋは任意の実数を表し、(ｕ，ｖ)で与えられる位置が、求める参照視点上の位置である。

　次に、参照視点における対応位置が得られたら、動き情報生成部１０５は、その位置を含む領域に対して入力されて記憶されている参照視点動き情報を、符号化対象領域ｂｌｋに対する動き情報として設定する（ステップＳ１４０５）。
　なお、対応位置（ｕ，ｖ）を含む領域に対して参照視点動き情報が記憶されていない場合は、動き情報なしの情報を設定しても、ゼロベクトルなどデフォルトの動き情報を設定しても、対応位置（ｕ，ｖ）に最も近い動き情報を記憶している領域を同定して、その領域において記憶されている参照視点動き情報を設定しても構わない。ただし、復号側と同じ規則で動き情報を設定する。

　前述した説明では、参照視点動き情報をそのまま動き情報として設定したが、時間間隔を予め設定し、動き情報を、その予め定められた時間間隔と参照視点動き情報における時間間隔に従ってスケーリングし、参照視点動き情報における時間間隔をその予め定められた時間間隔に置き換えて得られる動き情報を設定しても構わない。
　このようにすることで、異なる領域に対して生成される動き情報が全て同じ時間間隔を持つことになり、動き補償予測を行う際の参照画像を統一し、アクセスするメモリ空間を限定することが可能となる。なお、アクセスするメモリ空間が限定されることによって、キャッシュメモリのヒット率を向上させ、処理速度を向上することが可能となる。

　また、前述した説明では、参照視点動き情報をそのまま動き情報として設定したが、変換行列Ｈ_ｒｅｐを用いて変換したものを設定しても構わない。
　すなわち、ステップＳ１４０５において設定された動き情報をｍｖ＝（ｍｖ_ｘ，ｍｖ_ｙ）^Ｔとすると、変換した動き情報ｍｖ’は次の数式で表される。

　ここで、ｓは任意の実数を表す。

　さらに、ステップＳ１４０５において設定された動き情報の示す時間間隔に対応する参照視点におけるデプスマップを参照でき、位置（ｕ＋ｍｖ_ｘ，ｖ＋ｍｖ_ｙ）におけるデプスをｐｒｄｅｐであるとすると、次の式に基づいて求めたｐ’を用いてｍｖ’を求めても構わない。

　ここでｄ_ｒ→ｔ（ｐｒｄｅｐ）は、参照視点に対して表現されたデプスｐｒｄｅｐを符号化対象視点に対する表現のデプスへと変換する関数である。
　符号化対象視点と参照視点とで共通する軸を用いてデプスを表現している場合、この変換は、引数で与えられたデプスをそのまま返す。

　なお、ここでは符号化対象視点に対する位置から参照視点に対する位置へと変換する変換行列Ｈの逆変換行列Ｈ^－１を用いているが、変換行列から逆行列を計算して得ても構わないし、逆変換行列を直接求めても構わない。
　直接計算する場合、まず、参照視点に対する画像中の異なる４点ｑ’_ｉ（ｉ＝１，２，３，４）に対して、次の式に基づいて、符号化対象視点の画像上の対応点ｐ’_ｉを求める。

　ここで、ｄ_{ｒ，ｐｒｄｅｐ}（ｑ’_ｉ）は、視点ｒの画像上の点ｑ’_ｉにおける視点ｒに対して定義されたデプスをｐｒｄｅｐとしたときの、視点ｒから点ｑ’_ｉにおける被写体までの光軸上の距離を示す。

　４つの対応点が求まったら、次の数式に従って得られる同次方程式を解くことで、逆変換行列Ｈ’を得る。ただし、変換行列Ｈ’の（３，３）成分は任意の実数（例えば１）を設定して求める。

　また、ステップＳ１４０５において設定された動き情報の示す時間間隔に対応する、符号化視点におけるデプスマップＤ_{ｔ，Ｒｅｆ（ｂｌｋ）}を参照できる場合、次の数式で変換後の動き情報ｍｖ’_{ｄｅｐｔｈ}を求めても構わない。

　ここで∥∥はノルムを示し、Ｌ１ノルムを用いても構わないし、Ｌ２ノルムを用いても構わない。

　上記説明した変換とスケーリングを、同時に施しても構わない。その場合、スケーリングした後に変換しても、変換したあとにスケーリングしても構わない。

　前述した説明で用いた動き情報は、符号化対象視点の位置に対して加算することで、時間方向の対応位置を示すものとして表現している。もし減算することで対応位置を表す場合、上記説明で用いた数式における動き情報では、ベクトルの向きを逆転させる必要がある。

　次に、本実施形態による映像復号装置について説明する。
　図４は本実施形態による映像復号装置の構成を示すブロック図である。映像復号装置２００は、図４に示すように、ビットストリーム入力部２０１、ビットストリームメモリ２０２、参照視点動き情報入力部２０３、デプスマップ入力部２０４、動き情報生成部２０５、画像復号部２０６及び参照画像メモリ２０７を備えている。

　ビットストリーム入力部２０１は、復号対象となる映像のビットストリームを映像復号装置２００に入力する。以下では、この復号対象となる映像の１フレームを復号対象画像と呼ぶ。ここではカメラＢの映像の１フレームを指す。また、以下では、復号対象画像を撮影した視点（ここではカメラＢ）を復号対象視点と呼ぶ。
　ビットストリームメモリ２０２は、入力した復号対象画像に対するビットストリームを記憶する。
　参照視点動き情報入力部２０３は、参照視点の映像に対する動き情報（動きベクトルなど）を映像復号装置２００に入力する。以下では、ここで入力された動き情報を、参照視点動き情報と呼ぶ。ここではカメラＡの動き情報が入力されるものとする。

　デプスマップ入力部２０４は、視点間の画素の対応関係を求めたり、復号対象画像に対する動き情報を生成したりする際に参照するデプスマップを映像復号装置２００に入力する。ここでは、復号対象画像に対するデプスマップを入力するものとするが、参照視点など別の視点に対するデプスマップでも構わない。
　なお、デプスマップとは、対応する画像の各画素に写っている被写体の３次元位置を表すものである。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ（例えばカメラＡ）に対する視差量を用いることができる。
　なお、ここではデプスマップとして画像の形態で提供されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。

　動き情報生成部２０５は、参照視点動き情報とデプスマップとを用いて、復号対象画像に対する動き情報を生成する。
　画像復号部２０６は、生成された動き情報を用いながら、上記ビットストリームから復号対象画像を復号して出力する。
　参照画像メモリ２０７は、得られた復号対象画像を、以降の復号のために記憶する。

　次に、図５を参照して、図４に示す映像復号装置２００の動作を説明する。図５は、図４に示す映像復号装置２００の動作を示すフローチャートである。
　まず、ビットストリーム入力部２０１は、復号対象画像を符号化したビットストリームを映像復号装置２００に入力し、ビットストリームメモリ２０２に記憶する（ステップＳ２０１）。
　次に、参照視点動き情報入力部２０３は参照視点具置き情報を映像復号装置２００に入力し、デプスマップ入力部２０４はデプスマップを映像復号装置２００に入力し、それぞれ動き情報生成部２０５へ出力される（ステップＳ２０２）。

　なお、ステップＳ２０２で入力される参照視点動き情報とデプスマップは、符号化側で使用されたものと同じものとする。これは符号化時に用いたものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化時に使用されたものと異なるものが入力されてもよい。
　デプスマップに関しては、別途復号したもの以外に、複数のカメラに対して復号された多視点映像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなどを用いることもある。

　参照視点動き情報は、参照視点に対する映像を復号する際に使用された動き情報を用いても構わないし、参照視点に対して別途符号化されたものでも構わない。また、参照視点に対する映像を復号し、そこから推定して得られた動き情報を用いることも可能である。

　ビットストリーム、参照視点動き情報、デプスマップの入力が終了したら、復号対象画像を予め定められた大きさの領域に分割し、分割した領域ごとに、復号対象画像の映像信号をビットストリームから復号する（ステップＳ２０３～Ｓ２０７）。
　すなわち、復号対象領域インデックスをｂｌｋ、１フレーム中の総復号対象領域数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化し（ステップＳ２０３）、その後、ｂｌｋに１を加算しながら（ステップＳ２０６）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳ２０７）、以下の処理（ステップＳ２０４～Ｓ２０５）を繰り返す。
　一般的な復号では１６画素×１６画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、符号化側と同じであればその他の大きさのブロックに分割しても構わない。また、画像全体を同じサイズで分割せず、領域ごとに異なるサイズのブロックに分割しても構わない。

　復号対象領域ごとに繰り返される処理では、まず、動き情報生成部２０５は、復号対象領域ｂｌｋにおける動き情報を生成する（ステップＳ２０４）。ここでの処理は、符号化対象領域が復号対象領域となるだけで、前述したステップＳ１０４の処理と同じである。

　次に、復号対象領域ｂｌｋに対する動き情報が得られたら、画像復号部２０６は、その動き情報と参照画像メモリ２０７に記憶された画像とを用いて動き補償予測を行いながら、復号対象領域ｂｌｋにおける映像信号（画素値）をビットストリームから復号する（ステップＳ２０５）。得られた復号対象画像は参照画像メモリ２０７に記憶されると共に、映像復号装置２００の出力となる。

　映像信号の復号には符号化時に用いられた方法に対応する方法を用いる。
　例えば、ＭＰＥＧ－２やＨ．２６４／ＡＶＣなどの一般的な符号化が用いられている場合は、ビットストリームに対して、エントロピー復号、逆２値化、逆量子化、ＩＤＣＴなどの周波数逆変換を順に施し、得られた２次元信号に対して予測画像を加え、最後に画素値の値域でクリッピングを行うことで映像信号を復号する。

　前述した説明では、符号化対象画像または復号対象画像を分割した領域ごとに動き情報の生成を行ったが、事前に全ての領域に対してそれぞれ動き情報を生成し記憶しておき、領域ごとに記憶された動き情報を参照するようにしても構わない。

　また、画像全体を符号化／復号する処理として書かれているが、画像の一部分のみに適用することも可能である。
　この場合、処理を適用するか否かを判断して、それを示すフラグを符号化/復号しても構わないし、なんらかの別の手段でそれを指定しても構わない。例えば、領域ごとの予測画像を生成する手法を示すモードの１つとして、処理を適用するか否かを表現するようにしても構わない。

　また前述した説明では、変換行列を常に生成している。しかしながら、符号化対象視点または復号対象視点と参照視点との位置関係やデプスの定義（すなわち、各デプスに対応する三次元平面）が変化しない限りは、変換行列は変化しないため、予め変換行列の集合を求めておくようにしても良く、この場合において、フレーム毎や領域ごとに変換行列を計算し直す必要はない。
　すなわち、符号化対象画像または復号対象画像が変わるごとに、別途与えられるカメラパラメータによって表される符号化対象視点または復号対象視点と参照視点との位置関係と、直前のフレームにおけるカメラパラメータによって表される符号化対象視点または復号対象視点と参照視点との位置関係とを比較し、位置関係の変化がない又は小さいときには、直前のフレームで使用した変換行列の集合をそのまま用い、それ以外の場合にのみ変換行列の集合を求めるようにしても構わない。
　なお、変換行列の集合を求める際に、全ての変換行列を求め直すのではなく、直前のフレームと位置関係の異なる参照視点に対するものと、定義の変化したデプスに対するものを同定し、それらに対してだけ求め直しても構わない。

　なお、符号化側でのみ変換行列の再計算が必要か否かをチェックし、その結果を符号化して伝送するようにしても構わない。この場合、復号側では伝送されてきた情報をもとに変換行列を再計算するか否かを決定するようにしても構わない。
　再計算が必要か否かを示す情報は、フレーム全体に対して１つだけ設定しても構わないし、参照視点ごとに設定しても構わないし、デプスごとに設定しても構わない。

　さらに、前述した説明では、代表デプスのデプス値ごとに変換行列を生成しているが、別途定められたデプス値の範囲ごとに１つのデプス値を量子化デプスとして設定し、その量子化デプス値ごとに変換行列を設定しても構わない。代表デプスはデプスの値域の任意のデプス値を取りえるため、全てのデプス値に対する変換行列が必要となることがあるが、このようにすることで、変換行列が必要となるデプス値は量子化デプスと同じデプス値だけに制限することができる。なお、代表デプスを求めた後に変換行列を求める際には、その代表デプスが含まれるデプス値の区分から量子化デプスを求め、その量子化デプスを用いて変換行列を求める。特に、デプスの値域全体に対して１つの量子化デプスを設定する場合、変換行列は参照視点に対して唯一となる。

　なお、復号側と同じ方法であれば、量子化デプスを設定するデプス値の範囲や各範囲における量子化デプスに対するデプス値はどのように設定しても構わない。例えば、デプスマップにおけるデプスの分布に従って決定しても構わない。このとき、デプスマップに対応する映像の動きを調べ、一定以上の動きが存在する領域に対するデプスのみを対象としてデプス値の分布を調べる対象としても構わない。このようにすることで動きが大きな場合に視点間で動き情報を共有できるようになり、より多くの符号量を削減することが可能となる。

　また、復号側で設定できない方法で量子化デプスを決定する場合は、符号化側では、決定した量子化方法（各量子化デプスに対応するデプス値の範囲と量子化デプスのデプス値などを決定するための方法）を符号化して伝送し、復号側では符号化されたビットストリームから量子化方法を復号して得るようにしても構わない。なお、特に全体に対して１つの量子化デプスを設定する場合などは、量子化方法の代わりに量子化デプスの値を符号化または復号するようにしても構わない。

　また、前述した説明では、カメラパラメータ等を用いて復号側でも変換行列を生成しているが、符号化側で計算して得られた変換行列を符号化して伝送するようにしても構わない。その場合、復号側では変換行列をカメラパラメータ等から生成せず、符号化ビットストリームから復号することで獲得する。

　さらに、前述した説明では、常に変換行列を用いるものとしているが、カメラパラメータをチェックし、視点間が平行であれば（入出力間の変換用の）ルックアップテーブルを生成し、そのルックアップテーブルに従ってデプスと視差ベクトルの変換を行い、視点間が平行でなければ本願発明の手法を用いるようにしても構わない。
　また、符号化側のみでチェックを行い、どちらの手法を用いるかを示す情報を符号化しても構わない。その場合、復号側ではその情報を復号し、どちらの手法を用いるかを決定する。

　また、前述した説明では変換行列としてホモグラフィ行列を用いたが、符号化対象画像または復号対象画像の画素位置を、参照視点における対応画素位置へ変換することができるものであれば、別の行列を用いても構わない。例えば、厳密なホモグラフィ行列ではなく、簡略化させた行列を用いても構わない。また、アフィン変換行列や射影行列、複数の変換行列を組み合わせて生成される行列などを用いても構わない。
　別の変換行列を用いることで、変換の精度や演算量、変換行列の更新頻度、変換行列を伝送する場合の符号量などを適宜制御することが可能である。なお、符号化ノイズの発生を防ぐためには、符号化時と復号時とで同じ変換行列を使用するようにする。

　図６は、図１に示す映像符号化装置１００をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。
　図６に示すシステムは：
・プログラムを実行するＣＰＵ５０
・ＣＰＵ５０がアクセスするプログラムやデータが格納されるＲＡＭ等のメモリ５１
・カメラ等からの符号化対象の映像信号を映像符号化装置内に入力する符号化対象画像入力部５２（ディスク装置等による、映像信号を記憶する記憶部でもよい）
・メモリ等から参照視点の動き情報を映像符号化装置内に入力する参照視点動き情報入力部５３（ディスク装置等による、動き情報を記憶する記憶部でもよい）
・（デプス情報を取得するための）デプスカメラ等からの符号化対象画像を撮影した視点に対するデプスマップを映像符号化装置内に入力するデプスマップ入力部５４（ディスク装置等による、デプスマップを記憶する記憶部でもよい）
・映像像符号化処理をＣＰＵ５０に実行させるソフトウェアプログラムである映像符号化プログラム５５１が格納されたプログラム記憶装置５５
・ＣＰＵ５０がメモリ５１にロードされた映像符号化プログラム５５１を実行することにより生成されたビットストリームを、例えばネットワークを介して出力するビットストリーム出力部５６（ディスク装置等による、ビットストリームを記憶する記憶部でもよい）
　とが、バスで接続された構成になっている。

　図７は、図４に示す映像復号装置２００をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。
　図７に示すシステムは：
・プログラムを実行するＣＰＵ６０
・ＣＰＵ６０がアクセスするプログラムやデータが格納されるＲＡＭ等のメモリ６１
・映像符号化装置が本手法により符号化したビットストリームを映像復号装置内に入力するビットストリーム入力部６２（ディスク装置等による、ビットストリームを記憶する記憶部でもよい）
・メモリ等からの参照視点の動き情報を映像復号装置内に入力する参照視点動き情報入力部６３（ディスク装置等による、動き情報を記憶する記憶部でもよい）
・デプスカメラ等からの復号対象を撮影した視点に対するデプスマップを映像復号装置内に入力するデプスマップ入力部６４（ディスク装置等による、デプス情報を記憶する記憶部でもよい）
・映像復号処理をＣＰＵ６０に実行させるソフトウェアプログラムである映像復号プログラム６５１が格納されたプログラム記憶装置６５
・ＣＰＵ６０がメモリ６１にロードされた映像復号プログラム６５１を実行することにより、ビットストリームを復号して得られた復号対象画像を、再生装置などに出力する復号対象画像出力部６６（ディスク装置等による、映像信号を記憶する記憶部でもよい）
　とが、バスで接続された構成になっている。

　前述した実施形態における映像符号化装置１００及び映像復号装置２００を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
　なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
　さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
　また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

　以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。

　複数の視点に対する映像とその映像に対するデプスマップとを用いて表現される自由視点映像データを符号化または復号する際に、各視点の向きが平行でない場合でも、演算量を押さえたままで、高精度な視点間の動き情報予測を実現することで、高い符号化効率を達成することが必要不可欠な用途に適用できる。

１００・・・映像符号化装置
１０１・・・符号化対象画像入力部
１０２・・・符号化対象画像メモリ
１０３・・・参照視点動き情報入力部
１０４・・・デプスマップ入力部
１０５・・・動き情報生成部
１０６・・・画像符号化部
１０７・・・画像復号部
１０８・・・参照画像メモリ
２００・・・映像復号装置
２０１・・・ビットストリーム入力部
２０２・・・ビットストリームメモリ
２０３・・・参照視点動き情報入力部
２０４・・・デプスマップ入力部
２０５・・・動き情報生成部
２０６・・・画像復号部
２０７・・・参照画像メモリ

Claims

　複数の異なる視点の映像からなる多視点映像の１フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化装置であって、
　前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
　前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
　前記符号化対象領域内の位置から代表位置を設定する代表位置設定手段と、
　前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
　前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成手段と、
　前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成手段と
　を有することを特徴とする映像符号化装置。
　前記符号化対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
　前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定することを特徴とする請求項１に記載の映像符号化装置。
　前記符号化対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
　前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定することを特徴とする請求項２に記載の映像符号化装置。
　前記デプス参照視差ベクトル設定手段は、前記符号化対象領域に隣接する領域を符号化する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定することを特徴とする請求項３に記載の映像符号化装置。
　前記代表デプス設定手段は、四角形状を有する前記符号化対象領域の４頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定することを特徴とする請求項２に記載の映像符号化装置。
　前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
　前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項１に記載の映像符号化装置。
　前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
　前記過去デプスに基づいて、前記参照視点画像上の位置を前記符号化対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
　前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
　前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項１に記載の映像符号化装置。
　複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号装置であって、
　前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
　前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
　前記復号対象領域内の位置から代表位置を設定する代表位置設定手段と、
　前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
　前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成手段と、
　前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成手段と
　を有することを特徴とする映像復号装置。
　前記復号対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
　前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定することを特徴とする請求項８に記載の映像復号装置。
　前記復号対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
　前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定することを特徴とする請求項９に記載の映像復号装置。
　前記デプス参照視差ベクトル設定手段は、前記復号対象領域に隣接する領域を復号する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定することを特徴とする請求項１０に記載の映像復号装置。
　前記代表デプス設定手段は、四角形状を有する前記復号対象領域の４頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定することを特徴とする請求項９に記載の映像復号装置。
　前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
　前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項８に記載の映像復号装置。
　前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
　前記過去デプスに基づいて、前記参照視点画像上の位置を前記復号対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
　前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
　前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項８に記載の映像復号装置。
　複数の異なる視点の映像からなる多視点映像の１フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化方法であって、
　前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
　前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
　前記符号化対象領域内の位置から代表位置を設定する代表位置設定ステップと、
　前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
　前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成ステップと、
　前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成ステップと
　を有することを特徴とする映像符号化方法。
　複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号方法であって、
　前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
　前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
　前記復号対象領域内の位置から代表位置を設定する代表位置設定ステップと、
　前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
　前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成ステップと、
　前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成ステップと
　を有することを特徴とする映像復号方法。
　コンピュータに、請求項１に記載の映像符号化方法を実行させるための映像符号化プログラム。
　コンピュータに、請求項８に記載の映像復号方法を実行させるための映像復号プログラム。