WO2022102016A1

WO2022102016A1 - 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム

Info

Publication number: WO2022102016A1
Application number: PCT/JP2020/042077
Authority: WO
Inventors: 勇五十嵐; 隆行黒住; 誠之高村; 英明木全
Original assignee: 日本電信電話株式会社
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-05-19

Abstract

処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置である。

Description

画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム

　本発明は、画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラムの技術に関する。

　データの伝送量やストレージ使用量を削減するために、静止画像や動画像を符号化することでデータ量を小さくする手法が現在までに多数提案されている。例えば、静止画像であればJPEG、WebP、HEIF等の技術が提案されており、動画像ならH.265/HEVC（非特許文献１）、H.266/VVC等の技術が提案されている。また、符号化そのものには関連性が低いが、静止画像や動画像中の物体の三次元状態を復元する従来技術として、非特許文献２や非特許文献３に記載の技術がある。

SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS, Infrastructure of audiovisual services - Coding of moving video, TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (11/2019) CODING OF 3D MESHES AND VIDEO TEXTURES FOR 3D VIDEO OBJECTS, PROC. PCS 2004, PICTURE CODING SYMPOSIUM Andriy GelmanPier Luigi DragottiVladan VelisavljevicVladan Velisavljevic Interactive multiview image coding, Proc. ICIP 2011, Sep. 2011

　しかしながら、符号化技術において、さらなる符号化効率の向上が求められている。
　上記事情に鑑み、本発明は、画像データの符号化効率を向上させることができる技術の提供を目的としている。

　本発明の一態様は、処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置である。

　本発明の一態様は、上記の画像符号化装置であって、前記対象画像から前記被写体毎にその被写体の画像が占める領域を示す情報である領域情報を取得する領域情報取得部をさらに備え、前記符号化部は、前記対象画像から前記領域情報が示す領域の画像を除くことで前記背景画像を生成する。

　本発明の一態様は、処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類ステップと、前記分類ステップにおいて同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得ステップと、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得ステップと、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化ステップと、を有する画像符号化方法である。

　本発明の一態様は、処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置によって生成された前記符号化データから前記背景画像と、前記三次元形状を示す情報と、前記状態パラメータとを取得する復号部と、前記三次元形状を示す情報と前記状態パラメータとを用いて、前記対象画像における各被写体の画像を生成する被写体画像生成部と、前記被写体画像生成部によって生成された画像と前記背景画像と、を合成することで画像のデータを生成する合成部と、を備える画像復号装置である。

　本発明の一態様は、処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置によって生成された前記符号化データから前記背景画像と、前記三次元形状を示す情報と、前記状態パラメータとを取得する復号ステップと、前記三次元形状を示す情報と前記状態パラメータとを用いて、前記対象画像における各被写体の画像を生成する被写体画像生成ステップと、前記被写体画像生成ステップにおいて生成された画像と前記背景画像と、を合成することで画像のデータを生成する合成ステップと、を有する画像復号方法である。

　本発明の一態様は、上記の画像符号化装置としてコンピューターを機能させるためのコンピュータープログラムである。

　本発明の一態様は、上記の画像復号装置としてコンピューターを機能させるためのコンピュータープログラムである。

　本発明により、画像データの符号化効率を向上させることが可能となる。

本発明の画像符号化装置１００の機能構成例を示す図である。画像情報記憶部１３２が記憶する画像情報テーブルの具体例を示す図である。対象画像の具体例を示す図である。被写体領域の具体例を示す図である。各被写体の三次元空間における位置や姿勢の具体例を示す図である。画像符号化装置１００の処理の具体例を示す図である。本発明の画像復号装置２００の機能構成例を示す図である。被写体領域の画像の生成の概略を示す図である。画像復号装置２００の処理の具体例を示す図である。画像符号化装置１００のハードウェア構成の具体例を示す図である。画像復号装置２００のハードウェア構成の具体例を示す図である。

　本発明の実施形態について、図面を参照して詳細に説明する。
　図１は、本発明の画像符号化装置１００の機能構成例を示す図である。画像符号化装置１００は、パーソナルコンピューター、サーバー装置、ゲーム機器、スマートフォン、撮像装置等の情報機器を用いて構成される。画像符号化装置１００は、画像入力部１１、出力部１２、記憶部１３及び制御部１４を備える。

　画像入力部１１は、画像符号化装置１００に対して入力される画像のデータを受け付ける。画像入力部１１によって入力される画像のデータは、静止画像のデータであってもよいし、動画像のデータであってもよい。画像入力部１１は、例えばＣＤ－ＲＯＭやＵＳＢメモリー（Universal Serial Bus Memory）等の記録媒体に記録された画像のデータを読み出しても良い。また、画像入力部１１は、スチルカメラやビデオカメラによって撮像された画像を、カメラから受信しても良い。また、画像符号化装置１００がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、画像入力部１１は撮像された画像又は撮像前の画像をバスから受信しても良い。また、画像入力部１１は、ネットワークを介して他の情報処理装置から画像のデータを受信しても良い。画像入力部１１は、画像のデータの入力を受けることが可能な構成であれば、さらに異なる態様で構成されても良い。

　出力部１２は、制御部１４によって生成された画像情報や画像のデータを出力する。出力部１２は、例えばＣＤ－ＲＯＭやＵＳＢメモリー（Universal Serial Bus Memory）等の記録媒体に対して画像情報や画像のデータを書き込んでも良い。また、画像符号化装置１００がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、出力部１２は生成された符号化データを、これらの機器に備えられた記録媒体に記録してもよい。また、出力部１２は、ネットワークを介して他の情報処理装置に対し符号化データを送信しても良い。出力部１２は、符号化データを出力することが可能な構成であれば、さらに異なる態様で構成されても良い。

　記憶部１３は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部１３は、例えば画像記憶部１３１、画像情報記憶部１３２及び符号化データ記憶部１３３として機能する。画像記憶部１３１は、画像入力部１１によって入力された画像のデータを記憶する。画像記憶部１３１は、静止画像のデータを記憶してもよいし、動画像のデータを記憶してもよい。画像情報記憶部１３２は、制御部１４によって生成される画像情報を記憶する。符号化データ記憶部１３３は、制御部１４によって生成される符号化データを記憶する。

　図２は、画像情報記憶部１３２が記憶する画像情報テーブルの具体例を示す図である。画像情報テーブルは、処理の対象となる画像（以下「対象画像」という。）とその対象画像内の被写体との組合せ毎にレコードを有する。各レコードは、例えば対象画像を示す識別情報（以下「対象画像識別情報」という。）と、被写体を示す識別情報（以下「被写体識別情報」という。）と、画像情報とを対応付けて有する。画像情報は、対応する対象画像における被写体の画像に関する情報である。画像情報は、例えばその被写体の被写体領域を示す領域情報や、その被写体の三次元形状を示す情報（以下「３Ｄモデル」という。）や、その被写体の位置や姿勢を示す状態パラメータ等の情報を含む。

　制御部１４は、ＣＰＵ（Central Processing Unit）等のプロセッサーとメモリーとを用いて構成される。制御部１４は、プロセッサーがプログラムを実行することによって、入出力制御部１４１、領域情報取得部１４２、分類部１４３、三次元情報取得部１４４、状態パラメータ取得部１４５、付加情報取得部１４６及び符号化部１４７として機能する。なお、制御部１４の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、半導体記憶装置（例えばＳＳＤ：Solid State Drive）等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。

　入出力制御部１４１は、データの入出力を制御する。例えば、入出力制御部１４１は、画像入力部１１の動作を制御することによって、画像のデータを取得する。入出力制御部１４１は、入力された画像のデータを画像記憶部１３１に記録する。入出力制御部１４１は、入力された画像のデータを必要に応じてメモリーなどの記憶装置に一時的に記録してもよい。入出力制御部１４１は、符号化データ記憶部１３３に記憶されている符号化データを、出力部１２を制御することによって外部の機器に出力する。

　領域情報取得部１４２は、対象画像において画像内に存在している各被写体の領域（以下「被写体領域」という。）を示す情報（以下「領域情報」という。）を被写体毎に取得する。対象画像は、画像記憶部１３１に静止画像として記憶されている画像であってもよいし、画像記憶部１３１に動画像として記憶されている動画像のフレームの画像であってもよい。対象画像は、一つの静止画像又はフレームであってもよいし、複数の静止画像又はフレームであってもよい。対象画像は、静止画像とフレームとの組合せであってもよい。対象画像として複数のフレームが用いられる場合には、１つの動画像から複数のフレームが取得されてもよい。その場合には、異なる視点からのフレームが得られるように、各フレームの時間間隔が所定の閾値以上となるように構成されてもよい。その場合、どのフレームから領域情報を取得するかは、領域情報取得部１４２によって所定の基準に基づいて決定されてもよい。

　いずれの場合にも、三次元情報取得部１４４及び状態パラメータ取得部１４５の処理に用いられる場合には、同じ又は同種の被写体を撮像することによって得られた静止画像又は動画像のフレームであることが望ましい。また、状態パラメータ取得部１４５の処理に用いられる場合には、例えば各被写体の三次元空間における位置が各静止画像又は動画像のフレームにおいて同一であってもよいし、異なっていてもよい。被写体領域は、被写体の輪郭によって囲まれる領域である。

　図３は、対象画像の具体例を示す図である。図３の対象画像には、複数の被写体が写っている。被写体８１及び被写体８６は、ハート型の物体である。被写体８１及び被写体８６は、同種の物体か又は似た形状をしている。被写体８２、被写体８３、被写体８４及び被写体８５は、星型の物体である。被写体８２、被写体８３、被写体８４及び被写体８５は、同種の物体か又は似た形状をしている。各被写体８１～８６はそれぞれの特有の位置で特有の角度で傾いた状態で写っている。

　図４は、被写体領域の具体例を示す図である。図４においてそれぞれ異なるパターンで示される各形状がそれぞれ被写体領域を示している。被写体領域９１～９６は、それぞれ被写体８１～８６の領域を示している。背景領域９７は、対象画像全体のうち、被写体領域９１～９６を含まない領域を示している。

　以下、領域情報取得部１４２の処理の具体例について説明する。領域情報取得部１４２は、例えば、対象画像における各画素について、どの被写体に対応するのか、又は、いずれの被写体にも対応しないのか、について推定してもよい。この推定に適用される技術は特定のものに限定される必要は無い。例えば、Mask-RCNNやGANなどの深層学習に基づく技術が適用されてもよい。また、手動で各被写体の被写体領域が指定されてもよい。領域情報取得部１４２は、生成された各被写体領域の領域情報のデータを、対象画像の識別情報と各被写体の識別情報と対応付けた画像情報として画像情報記憶部１３２に記録する。

　分類部１４３は、各被写体領域について、同種の被写体毎に分類する。分類の対象となる被写体領域は、１枚の対象画像（同一の対象画像）のみに限らず、複数毎の対象画像において得られた複数の被写体領域の被写体を対象として分類が行われてもよい。例えば、ｍ個の被写体領域が取得された対象画像をｎ枚用いた場合（ｍ及びｎはいずれも１以上の整数）、ｍ×ｎ個の被写体領域が分類の対象となってもよい。

　分類部１４３は、例えば、外見が同一又は所定の基準よりも似ている被写体の被写体領域同士を同じグループとして分類する。分類部１４３に適用される技術は特定のものに限定される必要は無い。例えば、領域情報取得部１４２において用いられる深層学習が被写体のカテゴリを推定することができる技術である場合、分類部１４３は同一のカテゴリの被写体領域を同一のグループに分類してもよい。例えば、分類部１４３は、同一カテゴリの被写体領域同士でその特徴量に基づいた類似度を算出し、類似度が高い被写体領域同士を同一のグループに分類してもよい。このように処理が行われることで、より細分化された分類を実現できる。また、被写体の候補が既知である場合、対象画像とは別に、被写体が撮影された画像（以下「参照画像」という。）が用いられてもよい。この場合、分類部１４３は、対象画像から得られた被写体領域毎に、どの参照画像の被写体と最も類似しているかと判定し、参照画像毎のグループを生成してもよい。また、手動で各被写体領域が分類されてもよい。

　三次元情報取得部１４４は、各グループに属している複数の被写体領域から得られる情報に基づいて、各グループの被写体の３Ｄモデルを生成する。３Ｄモデルは、例えば三次元の点群で表されてもよいし、ポリゴンで表されてもよいし、他のモデルで表されてもよい。また、３Ｄモデルは、既知の情報として予め記憶部１３に記憶されていてもよい。三次元情報取得部１４４に適用される技術は特定のものに限定される必要は無い。例えば、三次元情報取得部１４４は、被写体領域の画像のそれぞれを、同一個体を異なる位置や異なる姿勢で撮影した複数の画像として取り扱ってもよい。例えば、三次元情報取得部１４４は、上述した複数の被写体領域の画像を用いてStructure from Motion （ＳｆＭ）を実行することによって３Ｄモデルを生成してもよい。三次元情報取得部１４４は、生成された３Ｄモデルのデータを、対象画像の識別情報とその３Ｄモデルが示す被写体の識別情報と対応付けた画像情報として画像情報記憶部１３２に記録する。

　状態パラメータ取得部１４５は、各被写体領域の被写体について、カメラとの位置関係や姿勢などを表す情報（以下「状態パラメータ」という。）を生成する。状態パラメータ取得部１４５に適用される技術は特定のものに限定される必要は無い。例えば、状態パラメータ取得部１４５は、ＳｆＭを利用することで、各被写体領域に関する状態パラメータを取得してもよい。

　状態パラメータ取得部１４５の処理の具体例についてより詳細に説明する。３Ｄモデルに対し、三次元のワールド座標が与えられる。例えば、被写体の３Ｄモデルが三次元の点群で表される場合には、各点の座標がワールド座標で表される。例えば、被写体の３Ｄモデルがポリゴンで表される場合には、ポリゴンを形成する各点がワールド座標で表される。また、ワールド座標を画像座標に変換するためのカメラの内部パラメータ（例えば、焦点距離、光学的中心、歪み係数など）が推定される。さらに、被写体領域のそれぞれについて、その被写体領域における被写体の見え方と３Ｄモデルの見え方とが一致するようなカメラの座標と向きを表す座標変換行列が状態パラメータとして推定される。

　以下、推定される状態パラメータによる座標変換の表し方の具体的な一例を示す。まず、ワールド座標系から、ある被写体領域に対応するカメラ座標系への変換を考える。ワールド座標系の座標（Ｘ，Ｙ，Ｚ）は、以下の式１によってカメラ座標系の座標（Ｘ’，Ｙ’，Ｚ’）に変換できる。

　式１において、Ｒは座標変換行列であり、以下の式２のように表される。

　Ｒの成分のうち、（ｔｘ，ｔｙ，ｙｚ）は平行移動を表す。Ｒの成分のうち、Ｒ１１～Ｒ３３は回転行列に相当する値である。Ｒ１１～Ｒ３３は、例えばｙ軸、ｚ軸、ｘ軸の順に各座標軸回りの回転を行うという形で解釈することで、以下の式３のように表すこともできる。また、カメラ座標系の座標は下記の通り投影変換で画像座標系の座標(i,j)に変換できる。ここで、fと(cx,cy)はそれぞれカメラの焦点距離と光学的中心である。

　以上のようにして得られるＲそのものやＲの成分が、状態パラメータとして取得される。図５は、各被写体の三次元空間における位置や姿勢の具体例を示す図である。図３の画像に写っている各被写体は三次元空間にそれぞれの姿勢でそれぞれの位置に配置されている。各被写体の位置及び状態は、状態パラメータによって表される。

　状態パラメータ取得部１４５の処理には、各被写体領域における被写体同士が三次元的に重なり合わない（同一空間に重複して存在はしない）という制約条件が設けられてもよい。このような制約条件が設けられることで、状態パラメータの取得精度を向上させることが可能となる。状態パラメータ取得部１４５は、生成された状態パラメータのデータを対象画像の識別情報とその状態パラメータが示す被写体の識別情報と対応付けた画像情報として画像情報記憶部１３２に記録する。

　付加情報取得部１４６は、各被写体領域に関して付加情報を取得する。付加情報の具体例として、同一のグループの他の被写体領域における被写体との間の相対的な三次元位置に関する情報がある。各被写体領域の画像は、３Ｄモデルで表される被写体を特定の位置及び姿勢から見た時の見え方に一致すると考えることができる。したがって、３Ｄモデルの視点の基準となる基準位置を任意に指定すれば、基準位置に対する相対的な位置を算出する事ができる。この算出は、例えば各被写体領域における座標変換行列Ｒを利用して行われてもよい。各被写体領域に関して得られた座標変換行列Ｒの逆行列を用いて座標変換を行うことで、各被写体領域における被写体の相対位置をワールド座標系で表す事ができる。このような座標変換を行うことで得られる３Ｄモデルの座標は、互いに実空間上と同等の位置関係を持つようになる。これにより各被写体領域における被写体間の相対位置を表す事ができる。

　付加情報の他の具体例として、各被写体領域における被写体の表面の見え方に関する情報がある。例えば、被写体の表面のテクスチャに関する情報（例えば色、形状、材質に関する情報）や、被写体の表面の光の反射率に関する情報であってもよい。付加情報の他の具体例として、各被写体領域の被写体に対して光を照射する光源に関する情報（例えば光源における光の色味、光の強さ、光源の位置に関する情報、光源の数）がある。このような情報は、例えば光源に関する深層学習や機械学習による学習済みモデルを用いることで取得されてもよい。

　付加情報の他の具体例として、各被写体領域のける被写体が他の被写体と接触しているか否かに関する情報がある。このような情報は、３Ｄモデルと状態パラメータとを用いることによって、各被写体の表面のうち最も近い部分の距離が所定の値よりも小さいか否かに基づいて取得されてもよい。付加情報取得部１４６は、生成された付加情報のデータを、対象画像の識別情報とその付加情報が示す被写体の識別情報と対応付けた画像情報として画像情報記憶部１３２に記録する。

　符号化部１４７は、背景領域９７の画像（以下「背景画像」という。）を生成する。背景画像において、背景領域９７の各画素は、対象画像における背景領域９７と同じ画素値を持つ。一方、背景画像において、背景領域９７以外の各画素（すなわち被写体領域の各画素）は、予め定められた所定の画素値を有してもよいし、画素値のデータを持たないように構成されてもよい。予め定められた所定の画素値が用いられる場合、所定の１種類の色で全ての被写体領域が塗りつぶされていてもよいし、背景画像全体の符号量が最小となるように設定された画素値が与えられてもよい。背景画像の生成には、符号量の削減のために、任意の画像符号化処理が適用されてもよい。

　符号化部１４７は、生成された背景画像と、３Ｄモデルと、各被写体領域の状態パラメータと、を含む符号化データを生成する。符号化部１４７は、背景画像、３Ｄモデル、状態パラメータそれぞれに対して所定の符号化処理を行ってもよい。符号化部１４７は、背景画像、３Ｄモデル及び状態パラメータを含む１つのデータに対して所定の符号化処理を行ってもよい。そして、符号化部１４７は、符号化データを符号化データ記憶部１３３に記録する。

　図６は、画像符号化装置１００の処理の具体例を示す図である。まず、入出力制御部１４１が、処理の対象となる対象画像を入力し、画像記憶部１３１に記録する（ステップＳ１０１）。領域情報取得部１４２が、対象画像において被写体領域を示す領域情報を被写体毎に取得し、画像情報記憶部１３２に記録する（ステップＳ１０２）。分類部１４３が、各被写体を分類する（ステップＳ１０３）。三次元情報取得部１４４は、同一のグループに分類された複数の被写体の情報を用いることによって、その被写体の３Ｄモデルを生成し、生成された３Ｄモデルのデータを画像情報記憶部１３２に記録する（ステップＳ１０４）。状態パラメータ取得部１４５は、各被写体について状態パラメータを生成し、状態パラメータを画像情報記憶部１３２に記録する（ステップＳ１０５）。付加情報取得部１４６は、各被写体について付加情報を取得し、画像情報記憶部１３２に記録する（ステップＳ１０６）。符号化部１４７は、符号化データを生成して符号化データ記憶部１３３に記録する（ステップＳ１０７）。

　図７は、本発明の画像復号装置２００の機能構成例を示す図である。画像復号装置２００は、パーソナルコンピューター、サーバー装置、ゲーム機器、スマートフォン、撮像装置等の情報機器を用いて構成される。画像復号装置２００は、入力部２１、出力部２２、記憶部２３及び制御部２４を備える。

　入力部１１は、画像復号装置２００に対して入力される符号化データを受け付ける。入力部２１によって入力される符号化データは、静止画像のデータであってもよいし、動画像のデータであってもよい。入力部２１は、例えばＣＤ－ＲＯＭやＵＳＢメモリー（Universal Serial Bus Memory）等の記録媒体に記録された符号化データを読み出しても良い。また、入力部２１は、スチルカメラやビデオカメラによって撮像されて記録された符号化データを、カメラから受信しても良い。また、画像復号装置２００がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、入力部２１は撮像されて記録された符号化データをバスから受信しても良い。また、入力部２１は、ネットワークを介して他の情報処理装置から符号化データを受信しても良い。入力部２１は、符号化データの入力を受けることが可能な構成であれば、さらに異なる態様で構成されても良い。

　出力部２２は、制御部２４によって生成された画像のデータを出力する。出力部２２は、例えばＣＤ－ＲＯＭやＵＳＢメモリー（Universal Serial Bus Memory）等の記録媒体に対して画像のデータを書き込んでも良い。また、画像復号装置２００がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、出力部２２は生成された画像データを、これらの機器に備えられた記録媒体に記録してもよいし、表示装置に表示してもよい。また、出力部２２は、ネットワークを介して他の情報処理装置に対し画像データを送信しても良い。出力部２２は、画像表示装置に対して画像を表示させてもよい。この場合、出力部２２は、制御部２４によって画像データに基づいて生成された画像信号を画像表示装置に対して出力してもよい。出力部２２は、画像データを出力することが可能な構成であれば、さらに異なる態様で構成されても良い。

　記憶部２３は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部２３は、例えば符号化データ記憶部２３１及び画像記憶部２３２として機能する。符号化データ記憶部２３１は、入力部２１から入力された符号化データを記憶する。画像記憶部２３２は、制御部２４によって生成された画像データを記憶する。画像記憶部２３２は、静止画像のデータを記憶してもよいし、動画像のデータを記憶してもよい。

　制御部２４は、ＣＰＵ等のプロセッサーとメモリーとを用いて構成される。制御部２４は、プロセッサーがプログラムを実行することによって、入出力制御部２４１、復号部２４２、被写体画像生成部２４３及び合成部２４４として機能する。なお、制御部２４の各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、半導体記憶装置（例えばＳＳＤ）等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。

　入出力制御部２４１は、データの入出力を制御する。例えば、入出力制御部２４１は、入力部２１の動作を制御することによって、符号化データを取得する。入出力制御部２４１は、入力された符号化データを符号化データ記憶部２３１に記録する。入出力制御部２４１は、入力された符号化データを必要に応じてメモリーなどの記憶装置に一時的に記録してもよい。入出力制御部２４１は、画像記憶部２３２に記憶されている画像のデータを、出力部２２を制御することによって外部の機器に出力する。入出力制御部２４１は、例えば画像記憶部２３２に記憶されている画像のデータを画像信号に変換し、出力部２２を制御することによって外部の画像表示装置に出力してもよい。

　復号部２４２は、符号化データに対し、画像符号化装置１００において実行される符号化処理に応じた復号処理を行うことによって、背景画像、３Ｄモデル及び各被写体領域の状態パラメータと、を取得する。

　被写体画像生成部２４３は、３Ｄモデル及び各被写体領域の状態パラメータに基づいて、各被写体領域における被写体の画像を生成する。例えば被写体それぞれの位置を表すように状態パラメータを用いて３Ｄモデルに対し座標変換を行うことで、各被写体領域の画像が生成されてもよい。

　図８は、被写体領域の画像の生成の概略を示す図である。図８において、視点８６＿１は、図３の対象画像における視点である。対象画像における座標（ｉ＿１，ｊ＿１）の画素には、被写体８２に関する値が入る。このように、対象画像における視点８６＿１に基づいて３Ｄモデルに座標変換を行うことで、被写体領域の各座標の画素値が得られる。被写体領域の全ての座標の画素値が得られることで、被写体領域の画像を生成することができる。

　合成部２４４は、復号部２４２で得られた背景画像と、被写体画像生成部２４３で得られた各被写体領域の画像と、を合成することによって、画像を生成する。生成される画像は、原則として対象画像と一致又は類似の画像である。合成部２４４は、合成によって得られた画像のデータを画像記憶部２３２に記録する。

　図９は、画像復号装置２００の処理の具体例を示す図である。まず、入出力制御部２４１が、処理の対象となる符号化データを入力し、符号化データ記憶部２３１に記録する（ステップＳ２０１）。復号部２４２は、符号化データを復号することによって、背景画像、３Ｄモデル及び各被写体領域の状態パラメータを取得する（ステップＳ２０２）。被写体画像生成部２４３は、３Ｄモデル及び各被写体領域の状態パラメータに基づいて各被写体の被写体画像を生成する（ステップＳ２０３）。合成部２４４は、背景画像と各被写体の被写体画像とを合成することで画像データを生成し、画像データを画像記憶部２３２に記録する（ステップＳ２０４）。入出力制御部２４１は、画像記憶部２３２に記録されている画像データを外部へ出力する（ステップＳ２０５）。

　図１０は、画像符号化装置１００のハードウェア構成の具体例を示す図である。画像符号化装置１００は、例えば図１０に示されるように入出力装置１＿１、補助記憶装置２＿１、メモリー３＿１及びプロセッサー４＿１を備える。入出力装置１＿１は、画像符号化装置１００において外部（ユーザー含む）との間で情報（データを含む）の入出力を行う。入出力装置１＿１は、例えば画像入力部１１や出力部１２として機能する。補助記憶装置２＿１は、磁気ハードディスク装置や半導体記憶装置を用いて構成される。補助記憶装置２＿１は、例えば記憶部１３として機能する。メモリー３＿１及びプロセッサー４＿１は、例えば制御部１４として機能する。

　図１１は、画像復号装置２００のハードウェア構成の具体例を示す図である。画像復号装置２００は、例えば図１１示されるように入出力装置１＿２、補助記憶装置２＿２、メモリー３＿２及びプロセッサー４＿２を備える。入出力装置１＿２は、画像復号装置２００において外部（ユーザー含む）との間で情報（データを含む）の入出力を行う。入出力装置１＿２は、例えば入力部２１や出力部２２として機能する。補助記憶装置２＿２は、磁気ハードディスク装置や半導体記憶装置を用いて構成される。補助記憶装置２＿２は、例えば記憶部２３として機能する。メモリー３＿２及びプロセッサー４＿２は、例えば制御部２４として機能する。

　このように構成された画像符号化装置１００では、処理の対象となる画像内の被写体について、たとえ実際には別個の被写体であっても、分類部１４３によって同種の被写体として分類された被写体であれば、それらの被写体の画像を用いて画像の三次元情報（例えば３Ｄモデル）が取得される。そのため、もし同種の被写体が１つの画像に複数存在すれば、それぞれ別個の被写体としては少ない画像しか存在しないとしても、それら少ない画像を用いてより精度の高い三次元情報を取得することが可能となる。

　また、このように構成された画像符号化装置１００では、画像内の全ての被写体について背景画像と同様の符号化処理が行われるのではなく、画像内の少なくとも一部の被写体については、３Ｄモデル及び状態パラメータを用いて符号化データが生成される。３Ｄモデル及び状態パラメータは、背景画像と同様の符号化処理によって生成される符号化データよりも少ないデータ量で表現することが可能である。そのため、このように構成されることで、対象画像の符号化データの生成において、符号化データのデータ量を削減し、画像データの符号化効率を向上させることが可能となる。

　また、このように構成された画像符号化装置１００では、同種の被写体について共通して１つの３Ｄモデルが利用されれば十分である。そのため、たとえ複数の被写体が１つの画像に写っていたとしても、同種の被写体に関してはそれらに対して１つの３Ｄモデルのデータを符号化データとしてもつことができれば復号することができる。このように符号化データが構成されることによって、符号化効率をさらに向上させることが可能となる。

　同様に、複数の静止画像の符号化データにおいて、同種の被写体に関して１つの３Ｄモデルのデータをもつことができれば復号することができる。このように符号化データが構成されることによって、符号化効率をさらに向上させることが可能となる。また、１又は複数の動画像の符号化データにおいても、同種の被写体に関して１つの３Ｄモデルのデータをもつことができれば復号することができる。このように符号化データが構成されることによって、符号化効率をさらに向上させることが可能となる。

　（変形例）
　画像符号化装置１００は、複数の装置に分けて実装されてもよい。この場合、例えば画像符号化装置１００は、複数の装置を含む画像符号化システムとして実装されてもよい。例えば、制御部１４を有する情報処理装置と、記憶部１３を有する情報処理装置とが異なる装置として実装されてもよいし、記憶部１３の機能が重複して複数の情報処理装置に実装されてもよいし、制御部１４の機能が複数の情報処理装置に分けて実装されてもよい。

　画像復号装置２００は、複数の装置に分けて実装されてもよい。この場合、例えば画像復号装置２００は、複数の装置を含む画像情復号システムとして実装されてもよい。例えば、制御部２４を有する情報処理装置と、記憶部２３を有する情報処理装置とが異なる装置として実装されてもよいし、記憶部２３の機能が重複して複数の情報処理装置に実装されてもよいし、制御部２４の機能が複数の情報処理装置に分けて実装されてもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明は、画像の情報を取得する装置に適用可能である。

１００…画像符号化装置、１１…画像入力部、１２…出力部、１３…記憶部、１３１…画像記憶部、１３２…画像情報記憶部、１３３…符号化データ記憶部、１４…制御部、１４１…入出力制御部、１４２…領域情報取得部、１４３…分類部、１４４…三次元情報取得部、１４５…状態パラメータ取得部、１４６…付加情報取得部、１４７…符号化部、２００…画像復号装置、２１…入力部、２２…出力部、２３…記憶部、２３１…符号化データ記憶部、２３２…画像記憶部、２４…制御部、２４１…入出力制御部、２４２…復号部、２４３…被写体画像生成部、２４４…合成部、８１～８６…被写体、９１～９６…被写体領域、９７…背景領域

Claims

　処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、
　前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、
　前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、
　前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、
　を備える画像符号化装置。
　前記対象画像から前記被写体毎にその被写体の画像が占める領域を示す情報である領域情報を取得する領域情報取得部をさらに備え、
　前記符号化部は、前記対象画像から前記領域情報が示す領域の画像を除くことで前記背景画像を生成する、請求項１に記載の画像符号化装置。
　処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類ステップと、
　前記分類ステップにおいて同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得ステップと、
　前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得ステップと、
　前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化ステップと、
　を有する画像符号化方法。
　処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置によって生成された前記符号化データから前記背景画像と、前記三次元形状を示す情報と、前記状態パラメータとを取得する復号部と、
　前記三次元形状を示す情報と前記状態パラメータとを用いて、前記対象画像における各被写体の画像を生成する被写体画像生成部と、
　前記被写体画像生成部によって生成された画像と前記背景画像と、を合成することで画像のデータを生成する合成部と、
を備える画像復号装置。
　処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置によって生成された前記符号化データから前記背景画像と、前記三次元形状を示す情報と、前記状態パラメータとを取得する復号ステップと、
　前記三次元形状を示す情報と前記状態パラメータとを用いて、前記対象画像における各被写体の画像を生成する被写体画像生成ステップと、
　前記被写体画像生成ステップにおいて生成された画像と前記背景画像と、を合成することで画像のデータを生成する合成ステップと、
を有する画像復号方法。
　請求項１又は２に記載の画像符号化装置としてコンピューターを機能させるためのコンピュータープログラム。
　請求項４に記載の画像復号装置としてコンピューターを機能させるためのコンピュータープログラム。