WO2016013147A1

WO2016013147A1 - 符号化方法、復号方法、符号化装置および復号装置

Info

Publication number: WO2016013147A1
Application number: PCT/JP2015/002977
Authority: WO
Inventors: 哲史吉川; 寿郎笹井
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2014-07-22
Filing date: 2015-06-15
Publication date: 2016-01-28
Also published as: US20160219281A1; EP3174293A4; EP3174293A1; US10225560B2; JPWO2016013147A1; US20190222852A1

Abstract

　符号化方法では、動画像に含まれる対象フレームから背景画像を抽出し（Ｓ１１）、その対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対する、当該オブジェクトの特徴を示す複数種類のメタデータをその対象フレームから抽出し（Ｓ１２）、その複数種類のメタデータを、種類毎に階層的に配置し（Ｓ１３）、背景画像を特定するための背景画像情報と、その複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とを含む符号情報を生成する（Ｓ１４）。

Description

符号化方法、復号方法、符号化装置および復号装置

　本発明は、動画像を符号化し、符号化された動画像を復号する方法および装置などに関する。

　最新の動画像符号化標準規格であるＨＥＶＣ（Ｈｉｇｈ　Ｅｆｆｉｃｉｅｎｃｙ　Ｖｉｄｅｏ　Ｃｏｄｉｎｇ）規格では、符号化効率を向上させるために様々な検討がされている（例えば、非特許文献１参照）。この規格は、従来Ｈ．２６ｘで示されるＩＴＵ－Ｔ（国際電気通信連合電気通信標準化部門）規格、及び、ＭＰＥＧ－ｘで示されるＩＳＯ／ＩＥＣ規格であり、Ｈ．２６４／ＡＶＣ、又はＭＰＥＧ－４　ＡＶＣで示される規格の次の映像符号化規格として検討された。

　また、ネットワーク技術や動画像圧縮技術の進化などに伴い、遠隔地の映像などを取得できるようになっている。

Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 12th Meeting: Geneva, CH, 14-23 Jan. 2013,JCTVC-L1003_v34 "High Efficiency Video Coding (HEVC) text specification draft 10 (for FDIS & Last Call)"

　しかしながら、上記非特許文献１の符号化方法および復号方法では、符号化によって生成されて復号の対象とされる情報のデータ量が多いという課題がある。

　そこで、本発明は、符号化によって生成されて復号の対象とされる情報のデータ量の削減が可能な符号化方法および復号方法などを提供する。

　本発明の一態様に係る符号化方法は、動画像をフレームごとに符号化する符号化方法であって、前記動画像に含まれる対象フレームから背景画像を抽出し、前記対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対する、当該オブジェクトの特徴を示す複数種類のメタデータを前記対象フレームから抽出し、前記複数種類のメタデータを、種類毎に階層的に配置し、前記背景画像を特定するための背景画像情報と、前記複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とを含む符号情報を生成する。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本発明の符号化装置および復号装置では、符号化によって生成されて復号の対象とされる情報のデータ量を削減することができる。

図１は、実施の形態１における符号化装置の構成を示すブロック図である。図２は、実施の形態１における入力画像、符号情報および復号画像の一例を示す図である。図３は、実施の形態１における入力画像、符号情報および復号画像の他の例を示す図である。図４は、実施の形態１における入力画像、符号情報および復号画像の他の例を示す図である。図５は、実施の形態１における入力画像、符号情報および復号画像の他の例を示す図である。図６は、実施の形態１における入力画像、符号情報および復号画像の他の例を示す図である。図７は、実施の形態１における入力画像、符号情報および復号画像の他の例を示す図である。図８は、実施の形態１における符号化装置の全体的な処理動作を示すフローチャートである。図９は、実施の形態１におけるメタデータ抽出処理を詳細に示すフローチャートである。図１０は、実施の形態１におけるモデル解析部によるモデル解析処理を説明するための図である。図１１は、実施の形態１における仮符号列生成処理を詳細に示すフローチャートである。図１２は、実施の形態１における基本符号列生成処理を詳細に示すフローチャートである。図１３は、実施の形態１における基本符号列生成処理によって生成された基本符号列の一例を示す図である。図１４は、実施の形態１におけるメタデータ推定処理の具体例を示す図である。図１５は、実施の形態１におけるメタデータ推定処理を詳細に示すフローチャートである。図１６は、実施の形態１における推定手法に関する情報が追加された基本符号列を示す図である。図１７は、実施の形態１における補間によるメタデータの推定手法の一例を示す図である。図１８は、実施の形態１における、同じフレームのメタデータのみを利用したメタデータの推定手法を示す図である。図１９は、実施の形態１における、所定の参照メタデータが追加された参照メタデータ群を示す図である。図２０は、実施の形態１における、異なる時刻のフレームのそれぞれのメタデータを利用したメタデータの推定手法を示す図である。図２１は、実施の形態１における補正パラメータ算出処理を詳細に示すフローチャートである。図２２は、実施の形態１における補正パラメータ算出処理によって生成された補正情報の一例を示す図である。図２３は、実施の形態１における画像再構成処理を詳細に示すフローチャートである。図２４は、実施の形態１における符号情報生成処理によって生成された符号情報の一例を示す図である。図２５は、実施の形態２における復号装置の構成を示すブロック図である。図２６は、実施の形態２における復号装置の全体的な処理動作を示すフローチャートである。図２７は、実施の形態２におけるメタデータ復元処理を詳細に示すフローチャートである。図２８は、実施の形態２におけるメタデータ復元処理によって復元された、処理対象フレームのメタデータ群の一例を示す図である。図２９は、実施の形態２における復号画像生成処理を詳細に示すフローチャートである。図３０Ａは、本発明の一態様に係る符号化方法を示すフローチャートである。図３０Ｂは、本発明の一態様に係る符号化装置の構成を示すブロック図である。図３１Ａは、本発明の一態様に係る復号方法を示すフローチャートである。図３１Ｂは、本発明の一態様に係る復号装置の構成を示すブロック図である。図３２は、コンテンツ配信サービスを実現するコンテンツ供給システムの全体構成図である。図３３は、デジタル放送用システムの全体構成図である。図３４は、テレビの構成例を示すブロック図である。図３５は、光ディスクである記録メディアに情報の読み書きを行う情報再生／記録部の構成例を示すブロック図である。図３６は、光ディスクである記録メディアの構造例を示す図である。図３７Ａは、携帯電話の一例を示す図である。図３７Ｂは、携帯電話の構成例を示すブロック図である。図３８は、多重化データの構成を示す図である。図３９は、各ストリームが多重化データにおいてどのように多重化されているかを模式的に示す図である。図４０は、ＰＥＳパケット列に、ビデオストリームがどのように格納されるかを更に詳しく示した図である。図４１は、多重化データにおけるＴＳパケットとソースパケットの構造を示す図である。図４２は、ＰＭＴのデータ構成を示す図である。図４３は、多重化データ情報の内部構成を示す図である。図４４は、ストリーム属性情報の内部構成を示す図である。図４５は、映像データを識別するステップを示す図である。図４６は、各実施の形態の動画像符号化方法および動画像復号化方法を実現する集積回路の構成例を示すブロック図である。図４７は、駆動周波数を切り替える構成を示す図である。図４８は、映像データを識別し、駆動周波数を切り替えるステップを示す図である。図４９は、映像データの規格と駆動周波数を対応づけたルックアップテーブルの一例を示す図である。図５０Ａは、信号処理部のモジュールを共有化する構成の一例を示す図である。図５０Ｂは、信号処理部のモジュールを共有化する構成の他の一例を示す図である。

　（本発明の基礎となった知見）
　本発明者は、「背景技術」の欄において記載した、非特許文献１の符号化方法および復号方法に関し、以下の課題が生じることを見出した。

　例えば、非特許文献1の方法を、動画像を送受信するシステムに適用する場合を想定する。つまり、送信装置が、非特許文献１の符号化方法によって符号化された動画像を、遠隔地にある受信装置に送信する。受信装置は、その符号化された動画像を、非特許文献１の復号方法によって復号する。この場合、送信装置は符号化装置であり、受信装置は復号装置である。

　ここで、受信装置では、コンピュータビジョンを利用した映像解析などによって得られる新たな情報を活用することが可能になってきている。具体的には、その新たな情報は、街中の監視カメラの映像（動画像）に対する解析から得られた、混雑具合を示す情報、または、監視カメラの撮影されている場に誰がいるか、人がどこに集まっているかといった情報などである。

　このような監視カメラを用いたシステムでは、受信装置に映像解析機能を持たせている。したがって、送信装置は、監視カメラの映像に対して動画像圧縮を行うことによって得られたビットストリームを受信装置に送る。そして、受信装置は、ビットストリームを復号し、その復号によって得られた動画像を解析する。その動画像の解析は、例えば、顔認識処理または姿勢認識処理などである。このような動画像の解析は、システムの用途に応じて多岐にわたり、また、システムの市場に対応している。

　しかし、送信装置と受信装置との間の通信環境によって、動画像を受信装置に送れなかったり、動画像の圧縮時における画質劣化といった事象が生じると、その事象は、受信装置における動画像の解析に影響を与えることがある。さらに、受信装置が要求する情報よりもデータ量の多いビットストリームが送信されてしまう。例えば、受信装置では、混雑具合を示す情報だけを要求していても、その他の情報も含まれる、データ量の多いビットストリームが送信装置から受信装置に送信される。

　また、送信装置が、センサによって得られた情報、または、映像解析を行うことによって得られた情報のみを、受信装置に伝送するシステムも想定される。例えば、受信装置から要求される情報が決まっている場合、送信装置は、映像解析を行い、その映像解析の結果によって得られた、要求されている情報のみを受信装置に送信する。これにより、受信装置に動画像を解析させることがなく、受信装置に送信される情報のデータ量を削減することができる。しかし、この場合には、データ量を大幅に削減できる一方、受信装置ではデータ量が少ないために映像の再構成が難しくなる。さらに、送信装置は、受信装置ごとに、その受信装置が要求する情報を映像解析などによって取得しなければならず、このような処理の負担は大きい。

　つまり、従来から想定される、動画像に関する情報を送受信するためのシステムでは、送信される情報のデータ量が多くなってしまう。つまり、その情報の送受信に符号化および復号を伴う場合には、符号化によって生成されて復号の対象とされる情報のデータ量が多くなってしまう。また、データ量を抑えようとすると、受信装置ごとに、その受信装置の要求に応じた映像解析などが必要となるために、送信装置側の処理負担が大きくなってしまうという課題がある。

　このような課題を解決するために、本発明の一態様に係る符号化方法は、動画像をフレームごとに符号化する符号化方法であって、前記動画像に含まれる対象フレームから背景画像を抽出し、前記対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対する、当該オブジェクトの特徴を示す複数種類のメタデータを前記対象フレームから抽出し、前記複数種類のメタデータを、種類毎に階層的に配置し、前記背景画像を特定するための背景画像情報と、前記複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とを含む符号情報を生成する。例えば、第１の階層に属するメタデータの種類は、前記対象フレーム内のオブジェクトの座標である。例えば、第２の階層に属するメタデータの種類は、前記対象フレーム内のオブジェクトのサイズである。例えば、第３の階層に属するメタデータの種類は、前記対象フレーム内のオブジェクトとして映し出された被写体の分類名である。これらの、座標、サイズおよび分類名は、オブジェクトの特徴を示すメタデータの種類である。つまり、座標のメタデータによって、オブジェクトの対象フレーム内における座標が表現され、サイズのメタデータによって、その座標にあるオブジェクトのサイズが表現される。さらに、その座標のメタデータによって示される座標にある、そのサイズのメタデータによって示されるサイズに調整されたオブジェクトの形態などが、例えば車種などの分類名のメタデータによって表現される。

　これにより、生成される符号情報には、背景画像情報と、複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とが含まれている。したがって、受信装置である復号装置は、その符号情報を受信すると、符号情報に含まれる背景画像情報によって背景画像を特定し、メタ情報によって１つ以上の種類のメタデータを導出する。そして、復号装置は、特定された背景画像に、１つ以上の種類のメタデータにより表現されるオブジェクトを重畳する。例えば、オブジェクトは、座標情報に基づき点として表現されたり、座標情報とサイズに基づき矩形として表現されたり、座標情報、サイズ、代表画像に基づきはめ込み画像として表現されるなど、抽象的に表現されており、その抽象的な表現度合いである抽象度を階層毎に変更して重畳する。そのオブジェクトの重畳は少なくとも１つのオブジェクトのそれぞれに対して行われる。これによって、対象フレームに近い復号画像を生成することができるとともに、符号情報のデータ量を抑えることができる。

　また、複数種類のメタデータは、種類毎に階層的に配置されている。つまり、メタデータの種類ごとに、少なくとも１つのオブジェクトのそれぞれの当該種類に対応するメタデータがまとめて配置されている。例えば、少なくとも１つのオブジェクトのそれぞれの座標に対応するメタデータがまとめて配置され、少なくとも１つのオブジェクトのそれぞれのサイズに対応するメタデータがまとめて配置される。さらに、少なくとも１つのオブジェクトのそれぞれの被写体の分類名に対応するメタデータがまとめて配置されている。

　したがって、これらの複数種類のメタデータのうち、受信装置である復号装置が要求する、オブジェクトが具体的に表現されるレベルに応じた階層までのメタデータだけを、簡単に送信することができる。例えば、復号装置が要求するレベルに応じた階層に属する種類が座標であれば、少なくとも１つのオブジェクトのそれぞれの座標に対応するメタデータだけをまとめて簡単に送信することができる。これにより、復号装置では、オブジェクトの座標だけが背景画像に表現された復号画像を生成することができる。また、例えば、復号装置が要求するレベルに応じた階層に属する種類がサイズであれば、少なくとも１つのオブジェクトのそれぞれの座標とサイズに対応するメタデータだけをまとめて簡単に送信することができる。これにより、復号装置では、オブジェクトの座標とサイズだけが背景画像に表現された復号画像を生成することができる。したがって、復号装置（受信装置）ごとに、その復号装置の要求に応じた映像解析を行う必要がなく、処理負担を軽減することができる。また、復号装置が要求するレベルに応じて、複数種類のメタデータの全てを送信する必要がないため、送信される情報のデータ量をさらに抑えることができる。

　また、前記複数種類のメタデータは、さらに、前記対象フレームに含まれるオブジェクトの総数を含んでもよい。

　また、前記符号化方法では、さらに、抽出された前記複数種類のメタデータのうちの何れかの種類のメタデータである推定対象メタデータを、複数の推定手法のうちの何れかの推定手法を用いて推定し、前記符号情報の生成では、前記推定対象メタデータの推定に用いられた前記推定手法に関する情報を、前記メタ情報として含む前記符号情報を生成してもよい。例えば、前記推定対象メタデータの推定では、前記動画像に含まれる少なくとも１つの参照フレームのそれぞれにおける同一のオブジェクトの座標に対して、補間または補外を行うことによって、前記推定対象メタデータである座標を推定する。また、例えば、前記推定対象メタデータの推定では、さらに、前記動画像における前記オブジェクトの空間的な位置とサイズの変化を示す動きモデル情報を生成し、前記補間または補外と前記動きモデル情報とに基づいて、前記推定対象メタデータである座標と、前記複数種類のメタデータのうちの他の種類のメタデータであるサイズとを推定する。

　これにより、符号情報には、推定手法に関する情報が、メタ情報として含まれているため、推定手法に関する情報のデータ量をメタデータよりも少なくすることができ、その結果、符号情報のデータ量をさらに抑えることができる。

　また、前記符号化方法では、さらに、前記推定対象メタデータの推定によって得られた推定メタデータと、前記推定対象メタデータとの残差が、所定の閾値以下であるか否かを判定し、前記所定の閾値以下でないと判定するときには、前記残差を補うための補正パラメータを前記符号情報に含めてもよい。

　これにより、補正パラメータが符号情報に含まれているため、推定メタデータと推定対象メタデータとの残差が大きくても、その推定メタデータを推定対象メタデータに近づけるように補正することができる。

　また、前記符号化方法では、さらに、前記背景画像情報および前記メタ情報に基づいて、前記対象フレームを再構成することによって再構成画像を生成し、前記対象フレームと再構成画像との差分を示す差分画像を前記符号情報に含めてもよい。例えば、前記再構成画像の生成では、前記第１の階層に属するメタデータによって前記オブジェクトの座標を特定し、前記第２の階層に属するメタデータによって前記オブジェクトのサイズを特定し、前記第３の階層に属するメタデータによって被写体の分類名に関連付けられた関連画像を特定し、前記背景画像情報によって前記背景画像を特定し、特定された前記背景画像のうちの、特定された前記座標に、特定された前記サイズの、特定された前記関連画像を重畳することによって、前記再構成画像を生成する。

　これにより、差分画像が符号情報に含まれているため、再構成画像と対象フレームとの差分が大きくても、その再構成画像と差分画像とを用いて、対象フレームに近い復号画像を得ることができる。

　また、前記再構成画像の生成では、前記関連画像をサーバからネットワークを介して取得してもよい。

　これにより、例えば車種などの分類名に関連付けられている、車の形態を示す関連画像を簡単に取得することができ、適切な再構成画像を生成することができる。

　また、上記課題を解決するために、本発明の一態様に係る復号方法は、符号化動画像を、フレームに対応する符号情報ごとに復号する復号方法であって、前記符号情報に含まれる背景画像情報から、対象フレームの背景画像を特定し、前記符号情報に含まれるメタ情報から、前記対象フレームに含まれる１つのオブジェクトの特徴を示し、種類毎に階層的に配置された１以上の種類のメタデータを導出し、前記１以上の種類のメタデータにより表現される前記１つのオブジェクトを、特定された前記背景画像に重畳することによって、復号画像を生成し、前記メタデータは、前記対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対し、当該オブジェクトの特徴を示す。例えば、前記符号情報において第１の階層に属する種類は、前記対象フレーム内のオブジェクトの座標である。例えば、前記符号情報において第２の階層に属する種類は、前記対象フレーム内のオブジェクトのサイズである。例えば、前記符号情報において第３の階層に属する種類は、前記対象フレーム内のオブジェクトとして映し出された被写体の分類名である。

　これにより、復号画像に対して要求されるレベルに応じて、データ量を抑えることができる、いわゆるスケーラビリティが確保された符号情報を、適切に復号することができる。

　また、前記復号画像は、前記メタデータの階層毎に抽象度が互いに異なる前記オブジェクトを前記背景画像に重畳することにより生成されてもよい。

　また、前記メタ情報は、更に、前記対象フレームに含まれるオブジェクトの総数を含んでもよい。

　また、前記１以上の種類のメタデータの導出では、前記メタ情報として含まれる、推定手法に関する情報を用いて、メタデータの推定を行うことによって、前記メタデータを導出してもよい。例えば、前記メタデータの推定では、前記符号化動画像に含まれる少なくとも１つの参照フレームのそれぞれにおける同一のオブジェクトの座標に対して、補間または補外を行うことによって、前記メタデータである座標を推定する。より具体的には、前記メタデータの推定では、前記符号情報から、前記符号化動画像における前記オブジェクトの空間的な位置とサイズの変化を示す動きモデル情報を抽出し、前記補間または補外と前記動きモデル情報とに基づいて、前記メタデータである座標と、前記１以上の種類のメタデータのうちの他の種類のメタデータであるサイズとを推定する。

　これにより、データ量がさらに抑えられた符号情報を適切に復号することができる。

　また、前記１以上の種類のメタデータの導出では、前記符号情報に補正パラメータが存在するか否かを判定し、存在すると判定するときには、前記メタデータの推定によって得られた推定メタデータを、前記補正パラメータに基づいて補正することによって、前記メタデータを導出してもよい。

　これにより、メタデータを正しく導出することができる。

　また、前記復号方法では、さらに、前記符号情報に差分画像が存在するか否かを判定し、前記復号画像の生成では、前記少なくとも１つのオブジェクトを前記背景画像に重畳することによって再構成画像を生成し、前記再構成画像に対して前記差分画像を加算することによって、前記復号画像を生成してもよい。例えば、前記再構成画像の生成では、前記第１の階層に属するメタデータによって前記オブジェクトの座標を特定し、前記第２の階層に属するメタデータによって前記オブジェクトのサイズを特定し、前記第３の階層に属するメタデータによって被写体の分類名に関連付けられた関連画像を特定し、前記背景画像情報によって前記背景画像を特定し、特定された前記背景画像のうちの、特定された前記座標に、特定された前記サイズの、特定された前記関連画像を重畳することによって、前記再構成画像を生成する。

　これにより、復号画像を原画像により近付けることができる。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態１）
　図１は、本実施の形態における符号化装置の構成を示すブロック図である。

　符号化装置１００は、動画像に含まれる例えばピクチャまたはフレームなどである入力画像ごとに、その入力画像を符号化することによって符号情報を生成する。この符号化装置１００は、メタデータ抽出部１１０、モデル解析部１２０、仮符号生成部１３０、画像再構成部１４０、減算部１５０、および符号生成部１６０を備える。

　メタデータ抽出部１１０は、入力画像から背景画像を抽出する。そして、メタデータ抽出部１１０は、その背景画像を特定するための背景画像情報を出力する。さらに、メタデータ抽出部１１０は、入力画像に含まれるオブジェクトごとに、そのオブジェクトの特徴を示す複数種類のメタデータを入力画像から抽出する。そして、メタデータ抽出部１１０は、それらのメタデータを出力する。なお、メタデータ抽出部１１０は、入力画像に含まれるオブジェクトの数もメタデータとして出力する。

　モデル解析部１２０は、一連の入力画像のそれぞれに含まれるオブジェクトの複数種類のメタデータと、背景画像情報によって特定される背景画像とのうちの少なくとも一方に基づいて、その動画像におけるオブジェクトの動きモデルを解析する。そして、モデル解析部１２０は、その解析の結果を示す動きモデル情報を仮符号生成部１３０に出力する。

　仮符号生成部１３０は、入力画像に含まれるオブジェクトごとの複数種類のメタデータと、背景画像情報と、オブジェクトごとの動きモデル情報とに基づいて、仮符号列を生成して出力する。

　画像再構成部１４０は、仮符号列に基づいて再構成画像を生成する。

　減算部１５０は、入力画像から再構成画像を減算することによって差分画像を生成する。

　符号生成部１６０は、仮符号列と差分画像とに基づいて符号情報を生成して出力する。

　このような符号化装置１００によって行われる処理の概要について、図２～７を用いて説明する。

　符号化装置１００は、例えば道路に設置されたカメラによる撮像によって得られる動画像を符号化する。このとき、符号化装置１００は、その動画像に含まれる入力画像ごとにその動画像を符号化することによって符号情報を生成する。より具体的には、その動画像は、高速道路などの道路を撮影する固定カメラから取得された映像である。この場合、オブジェクトは、被写体である車の画像である。また、そのオブジェクトの複数種類のメタデータは、例えば、入力画像における車の座標を示す座標情報、入力画像における車のサイズを示すサイズ情報、および、その車の代表画像などである。なお、メタデータは、これらの種類の情報に限定されるものではない。また、代表画像とは、車などのオブジェクトを表現するのに用いられる画像である。この代表画像は、カメラなどによって取得された被写体の画像であってもよいし、外部サーバに保持されている被写体の画像であってもよい。また、代表画像は、所定の方法で作画された画像であってもよい。

　図２は、入力画像、符号情報および復号画像の一例を示す図である。

　符号情報は、入力画像の背景画像と、オブジェクトごとの各メタデータとを示す。例えば図２に示すように、背景画像には、例えば車が走行する道路を含む背景が映し出されている。入力画像に含まれる各オブジェクトは、例えば、車（具体的には、被写体である車の画像）である。より具体的には、オブジェクトごとの複数種類のメタデータは、車の座標情報、サイズ情報、車種情報および代表画像である。車の座標情報は、入力画像におけるその車の座標を示し、車のサイズ情報は、その車のサイズを示す。また、車の車種情報は、その車の分類名である車種を示し、車の代表画像は、車の代表的な画像である。

　このような符号情報が復号されるときには、オブジェクトの複数種類のメタデータに基づいて、そのオブジェクトが画像として表現され、背景画像に重畳されることによって、復号画像が生成される。

　図３は、入力画像、符号情報および復号画像の他の例を示す図である。

　符号化装置１００は、図２の符号情報によって示される、オブジェクトごとの複数種類のメタデータのうち、座標情報のみを示す符号情報を復号装置に送信してもよい。

　このような符号情報が復号されるときには、オブジェクトの座標情報に基づいて、そのオブジェクトが画像として表現され、背景画像に重畳されることによって、復号画像が生成される。ここで、符号情報は、サイズ情報、車種情報および代表画像を示していない。したがって、復号装置は、オブジェクトの座標情報によって示される座標に、バツまたは三角形のマークが映し出された復号画像を生成する。

　図４は、入力画像、符号情報および復号画像の他の例を示す図である。

　符号化装置１００は、図２の符号情報によって示される、オブジェクトごとの複数種類のメタデータのうち、座標情報およびサイズ情報のみを示す符号情報を復号装置に送信してもよい。

　このような符号情報が復号されるときには、オブジェクトの座標情報およびサイズ情報に基づいて、そのオブジェクトが画像として表現され、背景画像に重畳されることによって、復号画像が生成される。ここで、符号情報は、車種情報および代表画像を示していない。したがって、復号装置は、オブジェクトの座標情報によって示される座標に、サイズ情報によって示されるサイズの矩形画像が映し出された復号画像を生成する。

　図５は、入力画像、符号情報および復号画像の他の例を示す図である。

　符号化装置１００は、図２の符号情報によって示される、オブジェクトごとの複数種類のメタデータのうち、座標情報、サイズ情報および車種情報のみを示す符号情報を復号装置に送信してもよい。

　このような符号情報が復号されるときには、オブジェクトの座標情報、サイズ情報および車種情報に基づいて、そのオブジェクトが画像として表現され、背景画像に重畳されることによって、復号画像が生成される。ここで、符号情報は、代表画像を示していない。したがって、復号装置は、オブジェクトの座標情報によって示される座標に、車種情報によって示される車種の画像が映し出された復号画像を生成する。この車種の画像は、車種情報によって示される車種に関連付けられた、その車種の一般的な形態を示す関連画像である。また、復号画像を生成するときには、その関連画像はサイズ情報によって示されるサイズに調整される。

　図６は、入力画像、符号情報および復号画像の他の例を示す図である。

　符号化装置１００は、図２の符号情報によって示される、オブジェクトごとの複数種類のメタデータのうち、座標情報のみを示す符号情報を復号装置に送信してもよい。このとき、符号化装置１００は、動きモデル情報を符号情報に含めてもよい。

　このような符号情報が復号されるときには、オブジェクトの座標情報と、動きモデル情報とに基づいて、そのオブジェクトが画像として表現され、背景画像に重畳されることによって、復号画像が生成される。つまり、復号装置は、オブジェクトの座標情報によって示される座標に、動きモデル情報に応じたサイズの矩形画像が映し出された復号画像を生成する。

　図７は、入力画像、符号情報および復号画像の他の例を示す図である。

　このような符号情報が復号されるときには、オブジェクトの座標情報に基づいて、そのオブジェクトが画像として生成され、背景画像に重畳されることによって、復号画像が生成される。つまり、復号装置は、オブジェクトの座標情報によって示される座標に、例えば予め定められたサイズの矩形画像が映し出された復号画像を生成する。このとき、復号装置は、特殊な状況（混雑など）を検知すると、その状況に該当するオブジェクトに対応する矩形画像の表示方法を変更してもよい。

　図２～図７に示すように、本実施の形態では、符号情報は、背景画像を特定するための背景画像情報と、抽出された複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とを含む。

　図８は、符号化装置１００の全体的な処理動作を示すフローチャートである。

　まず、符号化装置１００のメタデータ抽出部１１０は、メタデータ抽出処理を行う（ステップＳ１１０）。つまり、メタデータ抽出部１１０は、入力画像から背景画像を抽出するとともに、その入力画像に含まれるオブジェクトごとの複数種類のメタデータを抽出する。メタデータの抽出では、メタデータ抽出部１１０は、テンプレートマッチング、ＨＯＧ（Ｈｉｓｔｏｇｒａｍ　ｏｆ　Ｏｒｉｅｎｔｅｄ　Ｇｒａｄｉｅｎｔｓ）特徴量、またはＳＩＦＴ（Ｓｃａｌｅ－Ｉｎｖａｒｉａｎｔ　ＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）などを利用して、入力画像に含まれるオブジェクトを抽出する。そして、メタデータ抽出部１１０は、オブジェクトごとに、そのオブジェクトの入力画像における座標またはサイズなどの情報をメタデータとして抽出する。

　次に、モデル解析部１２０は、ステップＳ１１０で得られたメタデータと入力画像とを利用してモデル解析処理を行う（ステップＳ１２０）。つまり、モデル解析部１２０は、動画像内のオブジェクトの動きなどを示す動きモデル情報を生成する。続いて、仮符号生成部１３０は、ステップＳ１１０で得られたメタデータと、ステップＳ１２０で得られた動きモデル情報とから、入力画像を再構成するために必要な仮符号列を生成する仮符号列生成処理を行う（ステップＳ１３０）。次に、画像再構成部１４０は、ステップＳ１３０で生成された仮符号列を用いて、入力画像を再構成する画像再構成処理を行う（ステップＳ１４０）。次に、減算部１５０は、ステップＳ１４０で生成された再構成画像を入力画像から減算することによって、差分画像を生成する差分画像算出処理を行う（ステップＳ１５０）。次に、符号生成部１６０は、ステップＳ１３０で生成された仮符号列とステップＳ１５０で取得された差分画像とから、符号情報を生成する符号情報生成処理を行う（ステップＳ１６０）。

　符号化装置１００は、これら一連の処理を、動画像に含まれる入力画像のそれぞれに対して繰り返し行う。

　なお、ステップＳ１１０のメタデータ抽出処理は、動画像に含まれる全ての入力画像に対して行われてもよい。また、１つの入力画像に対してメタデータ抽出処理が行われた後、予め定められた数の入力画像に対してはメタデータ抽出処理がスキップされることが繰り返されるように、メタデータ抽出処理は間欠的に行ってもよい。また、メタデータ抽出処理は、入力画像内の内容に応じて、その入力画像に対して行われてもよい。全ての入力画像に対してメタデータ抽出処理が行われる場合、全ての入力画像のそれぞれに対して正確なメタデータを取得することができ、生成される仮符号列によって再構成される画像の品質を向上することができる。また、上述のようにメタデータ抽出処理が間欠的に行われる場合には、メタデータ抽出処理の回数を大幅に削減することが可能となり、符号化装置１００における処理量を大幅に削減することができる。また、入力画像内の内容に応じてメタデータ抽出処理が行われる場合には、処理量の削減と画像の品質向上との間の適切なトレードオフを図ることができる。つまり、メタデータ抽出処理の回数を削減しながらも、生成される仮符号列によって再構成される画像の品質を向上することが可能である。

　また、メタデータ抽出処理では、メタデータ抽出部１１０は、符号化装置１００の外部のセンサによって取得された情報なども利用してもよい。例えば、位置または速度などを示す情報を送信する送信装置が車に搭載され、道路上の受信装置がそれらの情報を受信する。この場合、メタデータ抽出部１１０は、その受信された情報を利用してもよい。また、メタデータ抽出部１１０は、ミリ波レーダなどの映像センサ以外によって得られる入力情報を解析し、その解析によって得られたメタデータを利用してもよい。さらに、メタデータ抽出部１１０は、複数のカメラによって得られた入力画像を用いて解析を行ってもよい。これらによると、１つの入力画像中では、例えば大きな車の陰に入ってしまって映っていない車のメタデータなどの、１つのカメラ（撮像装置）で得られる入力画像からは抽出が不可能なメタデータを取得することが可能となる。

　図９は、ステップＳ１１０のメタデータ抽出処理を詳細に示すフローチャートである。

　まず、メタデータ抽出部１１０は、入力画像から背景画像を抽出する（ステップＳ１１１）。このとき、メタデータ抽出部１１０は、動画像に含まれる入力画像のうち、オブジェクトが存在していない入力画像を背景画像として抽出する。

　なお、メタデータ抽出部１１０は、複数の入力画像（例えば複数のフレーム）における同じ座標の画素値の平均値または中央値などを算出してもよい。この場合、メタデータ抽出部１１０は、このような算出によって得られた平均画像または中央値画像などを背景画像として抽出する。これによると、オブジェクトが何れの入力画像にも存在するような動画像であっても、その動画像から背景画像を生成することが可能となる。また、メタデータ抽出部１１０は、入力画像を幾つかの小領域に分割し、小領域毎にオブジェクトが存在するかを判定し、オブジェクトが存在しない小領域のみを抽出してもよい。この場合、メタデータ抽出部１１０は、複数のフレームのそれぞれから抽出された複数の小領域を並べることによって背景画像を生成する。これによっても、オブジェクトが何れの入力画像にも存在するような動画像であっても、その動画像から背景画像を生成することが可能となる。

　次に、メタデータ抽出部１１０は、入力画像から、その入力画像に含まれるオブジェクトである車（例えば、乗用車またはトラックなどの車）の台数を示す台数情報をメタデータとして抽出する（ステップＳ１１２）。次に、メタデータ抽出部１１０は、それらのオブジェクトの中心座標を示す座標情報を抽出する（ステップＳ１１３）。次に、メタデータ抽出部１１０は、それらのオブジェクトの車種、例えばトラック、普通自動車、または軽自動車などを識別し、それら車種を示す車種情報を抽出する（ステップＳ１１４）。次に、メタデータ抽出部１１０は、それらのオブジェクトのサイズを示すサイズ情報を抽出する（ステップＳ１１５）。次に、メタデータ抽出部１１０は、それらのオブジェクトを示す代表画像を抽出する（ステップＳ１１６）。この代表画像は、例えば、そのオブジェクトのみを入力画像から切り出した画像などである。

　なお、ステップＳ１１２からＳ１１６までのオブジェクトに関する一連の処理は、例えば、ＨＯＧを用いてオブジェクトを認識することによって実現することができる。この際、時間的に前後に存在する入力画像、またはそれらの入力画像から抽出されたメタデータを活用することで、オブジェクトの認識処理の精度の向上が可能である。

　また、メタデータ抽出部１１０は、抽出された背景画像を示す背景画像情報を出力する。この背景画像情報は、抽出された背景画像であってもよく、その背景画像を識別または選択するための情報であってもよい。つまり、メタデータ抽出部１１０は、抽出された背景画像と似ている画像を画像群から探索する。そして、メタデータ抽出部１１０は、その背景画像と似ている画像を画像群から選択するための情報を背景画像情報として出力する。画像群は、過去に抽出された複数の背景画像を含んでいてもよく、または、予め存在する複数の画像などを含んでいてもよい。なお、メタデータ抽出部１１０は、符号化装置１００内のメモリ、またはクラウドストレージなどの外部ストレージなどから、その画像群を取得する。この場合、背景画像情報は、インデックス番号といった数値などを示す。したがって、画像と比較して非常に少ないデータ量で背景画像情報を表現することができ、背景画像情報のデータ量を削減することが可能である。また、背景画像の抽出は、入力画像ごとに行われることなく、数秒毎に一回などの一定のタイミング毎に行われてもよい。これによると、背景画像などの変化が少ない画像が頻繁に符号化されて送信されることを抑え、背景画像情報のデータ量を削減することが可能である。

　なお、ステップＳ１１１で抽出される背景画像は一枚ではなく、入力画像内の奥行きなどを考慮して複数枚の画像が背景画像として抽出されてもよい。これによると、メタデータを用いて後述する画像再構成処理を行う際に、適切に奥行き状態を再現することが可能となり、再構成画像の品質を向上させることが可能である。

　図１０は、モデル解析部１２０によるモデル解析処理を説明するための図である。

　図８のステップＳ１２０において解析される動きモデルは、画像空間における一定の法則である。この一定の法則は、例えば、入力画像中において、奥にあるオブジェクトほど、そのオブジェクトが小さく映ること、または、特定の領域ではオブジェクトの動きベクトルが常に似ていることなどである。

　例えば、図１０の（ａ）に示すように、撮像時刻ｔの画像では、道路上の手前にオブジェクトが存在する。一方、図１０の（ｂ）に示すように、撮像時刻（ｔ＋Ｎ）の画像では、その道路上の奥にそのオブジェクトが存在する。これらの画像では、手前から奥に向かって道路が延びている環境において、奥に行くほどオブジェクトが小さくなる。また、道路の各車線は一方通行であるため、道路上の各オブジェクトの動きベクトルの方向は、道路での進行方向と一致する。モデル解析部１２０は、このように、環境から予測可能な動きに関するモデルを動きモデルとして抽出する。そして、モデル解析部１２０は、その動きモデルを示す情報を動きモデル情報として生成して出力する。

　ここで、モデル解析部１２０は、アフィン変換行列や射影変換行列などの情報を使って表現される動きモデル情報を生成する。また、モデル解析部１２０は、動きモデル情報を表現するための各種行列を時間成分の変数として扱ってもよい。すなわち、モデル解析部１２０は、ある道路上におけるオブジェクトの速度または加速度を、上記各種行列の変形成分として扱う。これにより、道路上の車の多くが一定の速度で動いている場合に、動きモデル情報がこの速度によって表現されることで、新たなオブジェクトに対してもその速度を適応することが可能となる。その結果、データ量を削減することが可能となる。

　図１１は、図８のステップＳ１３０の仮符号列生成処理を詳細に示すフローチャートである。

　まず、仮符号生成部１３０は、ステップＳ１１０で取得されたメタデータを用いて、基本符号列を生成する基本符号列生成処理を行う（ステップＳ１３１）。続いて、仮符号生成部１３０は、メタデータ推定処理を行う（ステップＳ１３２）。仮符号生成部１３０は、このメタデータ推定処理では、ステップＳ１１０で取得されたメタデータから、時間的または空間的な補間処理などを行うことによって、他のメタデータを推定する。これにより、メタデータのデータ量を削減することができる。さらに、仮符号生成部１３０は、ステップＳ１３２のメタデータ推定処理によって得られたメタデータ（以下、推定メタデータという）の誤差を補正するためのパラメータを算出する補正パラメータ算出処理を行う（ステップＳ１３３）。なお、この算出されるパラメータを、以下、補正パラメータという。

　図１２は、図１１のステップＳ１３１の基本符号列生成処理を詳細に示すフローチャートである。

　まず、仮符号生成部１３０は、図９のステップＳ１１２で抽出された台数情報を、空の基本符号列に追加する（ステップＳ１３１ａ）。次に、仮符号生成部１３０は、ステップＳ１３１ａの処理が行われた基本符号列に、図９のステップＳ１１１で抽出された背景画像を特定するための背景画像情報を追加する（ステップＳ１３１ｂ）。

　次に、仮符号生成部１３０は、図９のステップＳ１１３で抽出されたオブジェクトの座標情報を、そのオブジェクトの識別子であるオブジェクトＩＤに関連付けて、ステップＳ１３１ｂの処理が行われた基本符号列に追加する（ステップＳ１３１ｃ）。このステップＳ１３１ｃの処理は、入力画像に含まれるオブジェクトごとに行われる。

　次に、仮符号生成部１３０は、図９のステップＳ１１４で抽出されたオブジェクトの車種情報を、そのオブジェクトの識別子であるオブジェクトＩＤに関連付けて、ステップＳ１３１ｃの処理が行われた基本符号列に追加する（ステップＳ１３１ｄ）。このステップＳ１３１ｄの処理は、入力画像に含まれるオブジェクトごとに行われる。

　次に、仮符号生成部１３０は、図９のステップＳ１１５で抽出されたオブジェクトのサイズ情報を、そのオブジェクトの識別子であるオブジェクトＩＤに関連付けて、ステップＳ１３１ｄの処理が行われた基本符号列に追加する（ステップＳ１３１ｅ）。このステップＳ１３１ｅの処理は、入力画像に含まれるオブジェクトごとに行われる。

　次に、仮符号生成部１３０は、図９のステップＳ１１６で抽出されたオブジェクトの代表画像を、そのオブジェクトの識別子であるオブジェクトＩＤに関連付けて、ステップＳ１３１ｅの処理が行われた基本符号列に追加する（ステップＳ１３１ｆ）。このステップＳ１３１ｆの処理は、入力画像に含まれるオブジェクトごとに行われる。

　図１３は、図１２のステップＳ１３１ａ～Ｓ１３１ｆの処理によって生成された基本符号列の一例を示す図である。

　基本符号列は、台数情報と、背景画像情報と、各オブジェクトＩＤに関連付けられた座標情報、サイズ情報、車種情報および代表画像とをそれぞれメタデータとして含む。つまり、この基本符号列には、メタデータの階層化された種類ごとに、少なくとも１つのオブジェクトのそれぞれの当該種類に対応するメタデータがまとめて配置されている。

　このように基本符号列が構成されているため、受信装置である復号装置は、道路上の大まかな交通量を知りたい場合は台数情報のみを取得することができる。また、復号装置は、どのような車が走行しているかを知りたい場合は、台数情報から車種情報までの情報を取得すればよい。つまり、基本符号列における、最上位階層から第４の階層までのそれぞれの階層には、その階層に属する種類の各メタデータが纏めて配置されている。したがって、基本符号列のスケーラビリティを確保することができる。この時、各階層で取得できる情報は情報量が異なり、浅い階層ほどオブジェクトが座標表示や矩形表示といった抽象的に表現される。

　なお、ステップＳ１３１ａ～Ｓ１３１ｆのそれぞれでは、メタデータなどを基本符号列に追加しなくてもよい。例えば、仮符号生成部１３０は、ステップＳ１３１ｂにおいて、背景画像情報を基本符号列に追加しなくてもよい。具体的には、処理対象の入力画像（以下、処理対象フレームという）の時間的に前のフレームにおける基本符号列に背景画像情報が存在し、その背景画像情報が処理対象フレームにおいても利用される。このような場合、仮符号生成部１３０は、その背景画像情報を追加しなくてもよい。背景画像情報が処理対象フレームに追加されない場合、符号情報の復号時には、前のフレームにおける背景画像がそのまま処理対象フレームに対して利用される。これにより、背景画像情報の再利用が可能であり、符号情報のデータ量を削減することが可能である。

　また、オブジェクトのサイズ情報、車種情報および代表画像は、これらの情報に変更があったときにのみ、追加されてもよい。例えば、処理対象フレームにオブジェクトが（Ｎ＋１）個ある場合でも、それらのオブジェクトのうちの（Ｍ＋１）個のオブジェクトのみにおいて、サイズ情報、車種情報および代表画像のうちの何れかが前のフレームから更新される。この場合、仮符号生成部１３０は、（Ｍ＋１）個を「オブジェクト詳細情報の更新数」として基本符号列に追加する。そして、仮符号生成部１３０は、（Ｍ＋１）個のオブジェクトに対してのみ、それらのオブジェクトのサイズ情報、車種情報および代表画像を基本符号列に追加する。

　続いて、図１１のステップＳ１３２のメタデータ推定処理の詳細について説明する。仮符号生成部１３０は、処理対象フレームの前または後のフレームの基本符号列に含まれるメタデータを使って、処理対象フレームにおけるメタデータを推定する。例えば、処理対象フレームに含まれるオブジェクトと同一のオブジェクトのメタデータが、処理対象フレームの前または後の複数のフレームのそれぞれの基本符号列に存在する。この場合、仮符号生成部１３０は、それらの基本符号列に存在するメタデータに対する補間処理または補外処理を行うことによって、処理対象フレームに含まれる上記オブジェクトのメタデータを推定する。また、上述の同一のオブジェクトのメタデータが、１つのフレームの基本符号列にしか存在しない場合がある。この場合には、仮符号生成部１３０は、図８のステップＳ１２０で得られた動きモデル情報、あるいは、空間的または時間的に周辺のオブジェクトのメタデータなどから、処理対象フレームに含まれる上記オブジェクトのメタデータを推定してもよい。この空間的に周辺のオブジェクトとは、処理対象フレームにあるオブジェクトである。また、時間的に周辺のオブジェクトとは、処理対象フレームと復号時刻または表示時刻が異なるフレームにあるオブジェクトである。

　図１４は、メタデータ推定処理の具体例を示す図である。

　例えば、０番目のフレーム（フレーム０）と１００番目のフレーム（フレーム１００）のそれぞれの基本符号列に、オブジェクトＩＤ「２０」によって識別されるオブジェクトの座標情報が存在する。この場合、仮符号生成部１３０は、５０番目のフレーム（フレーム５０）におけるオブジェクト識別子「２０」のオブジェクトの座標情報を推定する。すなわち、仮符号生成部１３０は、０番目のフレームにおけるそのオブジェクトの座標（ｘ０，ｙ０）と、１００番目のフレームにおけるそのオブジェクトの座標（ｘ１００，ｙ１００）とを用いる。そして、仮符号生成部１３０は、これらの座標を用いた線形補間などの補間処理によって、５０番目のフレームにおけるオブジェクトＩＤ「２０」のオブジェクトの座標（ｘ’５０，ｙ’５０）を推定する。

　また、仮符号生成部１３０は、代表画像を推定するときには、０番目のフレームおよび１００番目のフレームからＳＩＦＴ（Ｓｃａｌｅ－Ｉｎｖａｒｉａｎｔ　ＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）などを用いて、それらのフレームに含まれるオブジェクトの対応点を抽出する。なお、これらのフレームに含まれるオブジェクトは、同一のオブジェクトＩＤによって識別される。そして、仮符号生成部１３０は、画像内の構造が変形していく様子を予測する。仮符号生成部１３０は、予測結果に基づいて、０番目のフレームおよび１００番目のフレームのそれぞれにおけるオブジェクトの画像を用いて、０番目から１００番目のフレームの間のフレームにおける代表画像を推定する。このとき、被写体のオクルージョン領域などによって、オブジェクトの対応点が見つからない場合には、対応点が見つかっている領域と動きモデル情報から、その対応点を推定してもよい。

　この様な処理によって、仮符号生成部１３０はメタデータを推定する。

　図１５は、図１１のステップＳ１３２のメタデータ推定処理を詳細に示すフローチャートである。

　まず、仮符号生成部１３０は、メタデータの推定を行うフレーム、つまり処理対象フレームの基本符号列に、図８のステップＳ１１０で抽出されたメタデータが存在するか否かを判定する（ステップＳ１３２ａ）。仮符号生成部１３０は、処理対象フレームで抽出されたメタデータが存在しないと判定すると（ステップＳ１３２ａでＮｏ）、処理対象フレームの前または後のフレームにおけるメタデータを用いて、処理対象フレームのメタデータを推定する（ステップＳ１３２ｂ）。例えば、メタデータ抽出部１１０は、全てのフレームからメタデータを抽出することなく、例えば奇数番目のフレームごとに、そのフレームからメタデータを抽出する。このとき、仮符号生成部１３０は、偶数番目のフレームの基本符号列には、抽出されたメタデータが存在しないと判定する。そして、仮符号生成部１３０は、その偶数番目のフレームのメタデータを推定する。

　一方、処理対象フレームの基本符号列に、抽出されたメタデータが存在すると判定すると（ステップＳ１３２ａでＹｅｓ）、仮符号生成部１３０は、その抽出されたメタデータを利用するか否かを判定する（ステップＳ１３２ｃ）。すなわち、仮符号生成部１３０は、処理対象フレームにおいて、推定メタデータを利用しても良いか否かを判定する。

　ここで、仮符号生成部１３０は、推定メタデータを利用することができないと判定すると、つまり、抽出されたメタデータを利用すると判定すると（ステップＳ１３２ｃでＹｅｓ）、抽出されたメタデータを利用する。このような、推定メタデータを利用しないフレームを用意することによって、符号情報を復号する際に、このフレームからの復号処理を行うことが可能となる。つまり、このフレームをランダムアクセスポイントとすることができる。一方、仮符号生成部１３０は、推定メタデータを利用することができると判定すると、つまり、抽出されたメタデータを必ず利用しなくてもよいと判定すると（ステップＳ１３２ｃでＮｏ）、メタデータを推定する（ステップＳ１３２ｄ）。すなわち、仮符号生成部１３０は、メタデータを推定するための補間手法などの推定手法であって、処理対象フレームから抽出されたメタデータに最も近似するメタデータを推定するための推定手法を探索する。

　次に、仮符号生成部１３０は、推定メタデータと、処理対象フレームから抽出されたメタデータとの差分を残差として算出する残差算出処理を行う（ステップＳ１３２ｅ）。その後、仮符号生成部１３０は、算出した残差が閾値以下かどうかを判定する（ステップＳ１３２ｆ）。仮符号生成部１３０は、残差が閾値より大きい場合（Ｓ１３２ｆでＮｏ）、メタデータの推定手法を探索する（ステップＳ１３２ｇ）。仮符号生成部１３０は、ステップＳ１３２ｇの探索の結果、推定手法に関する情報が存在するか否かを判定する（ステップＳ１３２ｈ）。推定手法に関する情報とは、補間処理または推定を行うために必要な情報である。例えば、推定手法に関する情報は、補間に用いる数式であってもよく、高い頻度で使用される直線補間またはスプライン補間などの手法ごとに割り振られたインデックスであってもよい。また、推定手法に関する情報は、座標ごとのオブジェクトの大きさの変化などを示す動きモデル情報などであってもよい。本実施の形態では、メタ情報に、メタデータそのものが含まれていてもよく、そのメタデータに対する推定手法に関する情報がそのメタデータとして含まれていてもよい。

　仮符号生成部１３０は、推定手法に関する情報が存在するとステップＳ１３２ｈで判定すると（ステップＳ１３２ｈでＹｅｓ）、その推定手法に関する情報を基本符号列に追加する（ステップＳ１３２ｉ）。また、仮符号生成部１３０は、残差が閾値以下であるとステップＳ１３２ｆで判定したときにも（ステップＳ１３２ｆでＹｅｓ）、ステップＳ１３２ｄの探索によって得られた推定手法に関する情報を基本符号列に追加する（ステップＳ１３２ｉ）。ここで、仮符号生成部１３０は、推定手法に関する情報を基本符号列に追加するときには、基本符号列に含まれていた、処理対象フレームから抽出されたメタデータを削除しておく。

　また、仮符号生成部１３０は、ステップＳ１３２ｂでメタデータを推定したときにも、その推定に利用された推定手法に関する情報を、基本符号列に追加する（ステップＳ１３２ｉ）。

　図１６は、推定手法に関する情報が追加された基本符号列を示す図である。

　この図１６に示すように、基本符号列には、例えば、座標に対する推定手法に関する情報と、サイズに対する推定手法に関する情報とが追加されている。これらの推定手法に関する情報は、例えば、座標またはサイズの補間手法などを示す。例えば、１００の整数倍で示される番号の複数のフレームのみからメタデータが抽出される場合、５０番目のフレームのメタデータは、０番目のフレームの基本符号列と、１００番目のフレームの基本符号列とのそれぞれに含まれるメタデータに基づいて推定される。このような推定によって得られた推定メタデータは、５０番目のフレームの基本符号列に追加される。

　なお、図１５のステップＳ１３２ｂおよびＳ１３２ｄでは、フレームごとに、そのフレームのメタデータを推定してもよいし、複数のフレームに対して一括してメタデータを推定してもよい。フレームごとに、そのフレームのメタデータを推定する場合、フレームのメタデータに近いメタデータを推定することができる。したがって、推定されるメタデータの品質を向上することができる。また、例えば、オブジェクトの座標の直線的な変化が複数のフレームで現れる場合には、複数のフレームに対して一括してメタデータを推定してもよい。この場合、線形補間などの１種類の補間手法によって、複数のフレームに対してメタデータを推定することができる。これにより、複数のフレームのそれぞれの基本符号列に格納される推定手法に関する情報を削減することができ、それらの基本符号列のデータ量の増加を抑えることができる。複数のフレームに対して一括してメタデータを推定する場合、具体例としては、メタデータ抽出部１１０は、５０の整数倍で示される番号の複数のフレームのそれぞれのみから、メタデータを抽出する。このような場合、仮符号生成部１３０は、ステップＳ１３２ｂにおける推定を、０番目のフレームと５０番目のフレームから抽出されたメタデータを用いる。そして、仮符号生成部１３０は、０番目のフレームと５０番目のフレームのそれぞれにおける同一オブジェクトの座標情報に対して、直線補間を行う。これにより、仮符号生成部１３０は、１番目のフレームから４９番目のフレームまでのそれぞれのフレームのメタデータの推定を、その直線補間によって一括で行う。

　また、全ての種類のメタデータに対して、メタデータの推定を行う必要はない。例えば、上述の例では、同一のオブジェクトＩＤが割り振られたオブジェクトの複数種類のメタデータのうちの車種情報は、異なる時刻のフレームから抽出されても、同一であることは自明である。したがって、この車種情報の推定を行わなくてもよい。これによると、推定手法に関する情報の探索とその基本符号列への追加を行う必要がなくなるため、基本符号列のデータ量を削減し、処理量も削減することができる。

　なお、仮符号生成部１３０は、ステップＳ１３２ｃにおいて、予め定められたＮ枚（Ｎは２以上の整数）のフレームに対して１枚のフレームの割合で、処理対象フレームから抽出されたメタデータを必ず利用すると判定してもよい。また、仮符号生成部１３０は、処理対象フレームからシーンチェンジが行われる場合など、処理対象フレームの画像が前のフレームから大きく変化する場合に、その処理対象フレームから抽出されたメタデータを必ず利用すると判定してもよい。

　また、仮符号生成部１３０は、ステップＳ１３２ｃの判断を行うことなく、何れの処理対象フレームであっても、その処理対象フレームから抽出されたメタデータを利用することなく、推定メタデータを利用してもよい。これによると、基本符号列のデータ量をさらに削減することができる。

　図１７は、補間によるメタデータの推定手法の一例を示す図である。

　例えば、仮符号生成部１３０は、ステップＳ１３２ｂまたはステップＳ１３２ｄでは、抽出されたメタデータに対して動きモデル情報を用いた補間を行う。つまり、仮符号生成部１３０は、互いに異なる時刻の同一オブジェクトのメタデータから、それらの時刻の間の時刻におけるメタデータを推定する。

　具体的には、仮符号生成部１３０は、オブジェクトＡの時刻０および時刻５０のそれぞれでのメタデータから、時刻１から時刻４９までのメタデータを推定する。なお、メタデータは例えば２次元の座標を示す座標情報である。まず、仮符号生成部１３０は、時刻０でのオブジェクトＡの座標と、時刻５０でのオブジェクトＡの座標とから、補間曲線を導出する。仮符号生成部１３０は、推定が行われるフレームの数だけその補間曲線を分割する。そして、仮符号生成部１３０は、その分割によって得られる小曲線の端によって示されるメタデータを、その端に対応する時刻におけるメタデータとして推定する。例えば、仮符号生成部１３０は、補間曲線を等間隔に分割する。また、仮符号生成部１３０は、過去のメタデータなどを用いたスプライン補間などによって、メタデータを推定してもよい。推定手法に関する情報は、復号装置での復号を実現するために必要な情報であって、その補間手法に関する情報である。この補間手法に関する情報は、スプライン補間または線形補間などの補間手法を指定する情報、あるいは、ベジエ曲線の制御点情報などである。これによると、少ないデータ量によって示される推定手法に関する情報のみによって、複数の時刻におけるメタデータを生成することができる。その結果、メタデータが推定されるため、メタデータを削減することができ、符号化効率の向上を図ることができる。

　図１８は、同じフレームのメタデータのみを利用したメタデータの推定手法を示す図である。

　例えば、仮符号生成部１３０は、４種類のメタデータのうちの、サイズ（幅）を示すサイズ情報を推定する。なお、４種類のメタデータは、座標ｘ、座標ｙ、サイズ（幅）、およびサイズ（高さ）である。具体的には、仮符号生成部１３０は、参照メタデータ群に含まれるメタデータから、新たなメタデータを生成することはしない。仮符号生成部１３０は、参照メタデータ群から、推定対象メタデータに類似するメタデータを選択することによって、その推定対象メタデータを推定する。なお、参照メタデータ群は、処理対象フレームに含まれる各オブジェクトの４種類のメタデータを含む。

　例えば、仮符号生成部１３０は、サイズ（幅）を示すサイズ情報「ｗＱ」を推定するときには、推定対象メタデータである「ｗＱ」に類似するメタデータを参照メタデータ群から検索する。そして、類似するメタデータ「ｈＥ」が見つかると、仮符号生成部１３０は、推定手法に関する情報として「（メタデータの種類，オブジェクトＩＤ）＝（サイズ（高さ），１）」を基本符号列に追加する。なお、仮符号生成部１３０は、推定対象メタデータの種類と同じ種類の複数のメタデータの中から、推定対象メタデータである「ｗＱ」に類似するメタデータを探索してもよい。この場合、仮符号生成部１３０は、類似するメタデータ「ｗＣ」が見つかると、推定手法に関する情報として「オブジェクトＩＤ＝０」を基本符号列に追加する。推定対象メタデータと同じ種類のメタデータから、推定を行うため、推定によって得られたメタデータと推定対象メタデータとの差分を小さくすることができる。このとき、推定方法に関する情報は、オブジェクトＩＤだけを含めばよく、基本符号列のデータ量をより削減することができ、符号化効率の向上を図ることができる。

　ここで、参照メタデータ群に所定の参照メタデータを追加してもよい。

　図１９は、所定の参照メタデータが追加された参照メタデータ群を示す図である。

　所定の参照メタデータは、入力画像に含まれていないオブジェクトのオブジェクトＩＤと、そのオブジェクトの４種類のメタデータとを含む。これらの４種類のメタデータは予め定められた特定値を示す。例えば、所定の参照メタデータは、（オブジェクトＩＤ，座標ｘ，座標ｙ，サイズ（幅），サイズ（高さ））＝（－１，Ｘ０，Ｙ０，Ｗ０，Ｈ０）を示す。このオブジェクトＩＤ「－１」は、入力画像から抽出されたメタデータのオブジェクトには付与されない識別子である。なお、特定値とは、０などの固定値でもよく、メタデータの統計値、平均値または中央値などであってもよい。特定値が固定値である場合、符号化処理において処理量を増やすことなく符号化効率の改善を図ることができる。特定値が平均値などの統計値である場合、特定値は固定値よりも適応的な値であるため、符号化効率をさらに向上することができる。このように所定の参照メタデータを追加することで、適当なメタデータが参照メタデータ群にない場合などでも、適切にメタデータを推定することができる。

　図２０は、異なる時刻のフレームのそれぞれのメタデータを利用したメタデータの推定手法を示す図である。

　例えば、仮符号生成部１３０は、４種類のメタデータのうちの、時刻Ｔのサイズ（高さ）を示すサイズ情報を推定する。具体的には、仮符号生成部１３０は、参照メタデータ群の少なくとも１つのメタデータから、新たなメタデータを生成することはしない。仮符号生成部１３０は、参照メタデータ群から、推定対象メタデータに類似するメタデータを選択することによって、その推定対象メタデータを推定する。なお、参照メタデータ群は、時刻Ｔ以外の、時刻（Ｔ－２）、時刻（Ｔ－１）、および時刻（Ｔ＋１）のフレームのそれぞれに含まれる各オブジェクトの４種類のメタデータを含む。

　例えば、仮符号生成部１３０は、時刻Ｔのサイズ（高さ）を示すサイズ情報「ｈＱ」を推定するときには、推定対象メタデータである「ｈＱ」に類似するメタデータを参照メタデータ群から検索する。そして、類似するメタデータ「ｈＤ」が見つかると、仮符号生成部１３０は、推定手法に関する情報として「（時刻、メタデータの種類，オブジェクトＩＤ）＝（Ｔ－１，サイズ（高さ），２）」を基本符号列に追加する。なお、仮符号生成部１３０は、推定対象メタデータの種類と同じ種類の複数のメタデータの中からのみ、推定対象メタデータである「ｈＱ」に類似するメタデータを探索してもよい。この場合、仮符号生成部１３０は、類似するメタデータ「ｈＤ」が見つかると、推定手法に関する情報として「（時刻、オブジェクトＩＤ）＝（Ｔ－１，２）」を基本符号列に追加する。推定対象メタデータと同じ種類のメタデータから、推定を行うため、推定によって得られたメタデータ（推定メタデータ）と推定対象メタデータとの差分を小さくすることができる。このとき、推定方法に関する情報は、時刻およびオブジェクトＩＤだけを含めばよく、基本符号列のデータ量をより削減することができ、符号化効率の向上を図ることができる。特に、処理対象フレームの時刻と、推定メタデータが抽出されたフレームの時刻とが近い場合には、これらのフレーム間では、各種のメタデータの変化が小さい。このため、同種のメタデータによる推定では、誤差が小さくなり、符号化効率を向上することができる。なお、上述の両フレームの時刻が近い場合とは、例えば、処理対象フレームと、推定メタデータが抽出されたフレームとのそれぞれのＰＯＣなどで示される時刻の間隔が所定範囲内である場合である。

　なお、推定手法に関する情報に含まれる時刻は、処理対象フレームの時刻と、推定メタデータが抽出されたフレームの時刻との差分値として表されてもよい。

　なお、図２０に示す参照メタデータ群には、時刻Ｔの４種類のメタデータが含まれていないが、その４種類のメタデータが含まれていてもよい。この場合、推定対象メタデータと推定メタデータとの差分をより小さくすることができ、メタデータの推定を効率的に行うことができる。

　なお、推定手法に関する情報に含まれる時刻とオブジェクトＩＤは、各時刻におけるフレームに含まれるオブジェクトの数が既知の場合には、１つの識別子によって表わされてもよい。これによると、推定手法に関する情報の次元数を削減することができ、データ量の削減を図ることができる。

　図２１は、図１１のステップＳ１３３の補正パラメータ算出処理を詳細に示すフローチャートである。

　まず、仮符号生成部１３０は、処理対象フレームに推定メタデータを使用するか否かを判定する（ステップＳ１３３ａ）。ここで、推定メタデータを使用しないと判定すると（ステップＳ１３３ａでＮｏ）、仮符号生成部１３０は、補正パラメータ算出処理を終了する。一方、仮符号生成部１３０は、推定メタデータを利用すると判定すると（ステップＳ１３３ａでＹｅｓ）、例えば推定手法に関する情報を用いてメタデータを推定する。そして、仮符号生成部１３０は、その推定によって得られたメタデータである推定メタデータと、原画像（処理対象フレーム）から抽出されたメタデータと比較して、残差を算出する（ステップＳ１３３ｂ）。仮符号生成部１３０は、残差が閾値以下であるか否かを判定する（ステップＳ１３３ｃ）。ここで、仮符号生成部１３０は、閾値以下であると判定すると（ステップＳ１３３ｃでＹｅｓ）、補正パラメータ算出処理を終了する。一方、仮符号生成部１３０は、残差が閾値より大きいと判定すると（ステップＳ１３３ｃでＮｏ）、仮符号生成部１３０は、その残差を補うための補正パラメータを算出する（ステップＳ１３３ｄ）。さらに、仮符号生成部１３０は、算出された補正パラメータを仮符号列に追加する（ステップＳ１３３ｅ）。この補正パラメータ算出処理は、処理対象フレームのメタデータごと対して行われる。その結果、複数の補正パラメータからなる補正情報が仮符号列に追加される。

　なお、ステップＳ１３３ｃにおいて残差が閾値よりも大きいと判定された後には、図１５のステップＳ１３２ｆ以降の処理と同様に、ステップＳ１３２ｇおよびＳ１３２ｈの処理を行ってもよい。これによると、ステップＳ１３３ａまたはステップＳ１３３ｂなどの処理を削減することができ、符号化時の処理量を削減することが可能である。

　図２２は、図２１のステップＳ１３３ａ～Ｓ１３３ｅの処理によって生成された補正情報の一例を示す図である。

　補正情報は、補正されるメタデータの数だけ、そのメタデータに対する補正パラメータを含む。例えば、補正情報は、座標情報が補正されるオブジェクトの数（個数情報）と、その数だけの座標情報のそれぞれに対する補正パラメータとを含む。さらに、補正情報は、サイズ情報が補正されるオブジェクトの数（個数情報）と、その数だけのサイズ情報のそれぞれに対する補正パラメータとを含む。さらに、補正情報は、代表画像が補正されるオブジェクトの数（個数情報）と、その数だけの代表画像のそれぞれに対する補正パラメータとを含む。補正情報は、推定メタデータへの補正情報であるため、主に、入力画像から抽出されたメタデータを含まない基本符号列に付与されるように仮符号列に追加される。仮符号列は、図１６に示す、推定手法に関する情報が付加された基本符号列と、図２２に示す補正情報とを含む。なお、補正情報は、図２２に示す構成に限られるものではない。

　図２３は、図８のステップＳ１４０の画像再構成処理を詳細に示すフローチャートである。

　まず、画像再構成部１４０は、処理対象フレームから抽出されたメタデータが、その処理対象フレームの仮符号列に存在するかを判定する（ステップＳ１４１）。メタデータが存在すると判定すると（ステップＳ１４１でＹｅｓ）、画像再構成部１４０は、画像再構成処理に用いるメタデータとして、仮符号列中に存在するメタデータを決定する（ステップＳ１４３）。一方、メタデータが存在しないと判定すると（ステップＳ１４１でＮｏ）、画像再構成部１４０は、推定メタデータを、仮符号列に含まれている推定手法に関する情報を用いて生成する（ステップＳ１４２）。

　ここで、画像再構成部１４０は、その推定メタデータに対する補正パラメータが仮符号列中に存在するか否かを判定する（ステップＳ１４４）。仮符号列に補正パラメータが存在すると判定すると（ステップＳ１４４でＹｅｓ）、画像再構成部１４０は、補正パラメータを用いて推定メタデータを補正する（ステップＳ１４５）。この補正された推定メタデータは、画像再構成処理に用いられるメタデータである。また、仮符号列に補正パラメータが存在しないとステップＳ１４４で判定された場合には（ステップＳ１４４でＮｏ）、推定メタデータが、画像再構成処理に用いられるメタデータである。

　そして、画像再構成部１４０は、仮符号列中に存在するメタデータ、補正後の推定メタデータ、または推定メタデータを用いて、入力画像を再構成する処理である画像再構成処理を行う（ステップＳ１４６）。この画像再構成処理では、画像再構成部１４０は、背景画像に対して、オブジェクトの複数種類のメタデータのうちの代表画像を、複数種類のメタデータのうちのサイズ情報によって示されるサイズにスケーリングする。そして、画像再構成部１４０は、複数種類のメタデータのうちの座標情報によって示される座標に、スケーリングされた代表画像を貼り付ける。このような貼り付け、つまり重畳が、各オブジェクトに対して行われることによって、入力画像が再構成される。

　図２４は、図８のステップＳ１６０の符号情報生成処理によって生成された符号情報の一例を示す図である。

　符号生成部１６０は、仮符号生成部１３０から出力された仮符号列と、図８のステップＳ１５０における差分画像算出処理によって生成された差分画像とを含む符号情報を生成して出力する。なお、仮符号列には、推定手法に関する情報を含む基本符号列と、補正情報とが含まれている。

　なお、この符号情報は、フレーム毎に生成されてもよく、シーケンスごとにまとめて生成されてもよい。

　（実施の形態１のまとめ）
　以上のように、本実施の形態における符号化方法は、動画像をフレームごとに符号化する符号化方法である。この符号化方法では、動画像に含まれる対象フレーム（上述の処理対象フレーム）から背景画像を抽出する。さらに、対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対する、当該オブジェクトの特徴を示す複数種類のメタデータをその対象フレームから抽出する。次に、複数種類のメタデータを、種類毎に階層的に配置する。そして、背景画像を特定するための背景画像情報と、複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とを含む符号情報を生成する。

　例えば、第１の階層に属するメタデータの種類は、対象フレーム内のオブジェクトの座標であり、第２の階層に属するメタデータの種類は、その対象フレーム内のオブジェクトのサイズである。また、例えば、第３の階層に属するメタデータの種類は、対象フレーム内のオブジェクトとして映し出された被写体の分類名である。

　これらの、座標、サイズおよび分類名は、オブジェクトの特徴を示すメタデータの種類である。つまり、座標のメタデータによって、オブジェクトの対象フレーム内における座標が表現され、サイズのメタデータによって、その座標にあるオブジェクトのサイズが表現される。さらに、その座標のメタデータによって示される座標にある、そのサイズのメタデータによって示されるサイズに調整されたオブジェクトの形態などが、例えば車種などの分類名のメタデータによって表現される。

　これにより、生成される符号情報には、背景画像情報と、複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とが含まれている。したがって、受信装置である復号装置は、その符号情報を受信すると、符号情報に含まれる背景画像情報によって背景画像を特定し、メタ情報によって１つ以上の種類のメタデータを導出する。そして、復号装置は、特定された背景画像に、１つ以上の種類のメタデータにより表現されるオブジェクトを重畳する。そのオブジェクトの重畳は少なくとも１つのオブジェクトのそれぞれに対して行われる。これによって、対象フレームに近い復号画像を生成することができるとともに、符号情報のデータ量を抑えることができる。

　また、図１３または図１６などに示すように、複数種類のメタデータは、種類毎に階層的に配置されている。つまり、メタデータの種類ごとに、少なくとも１つのオブジェクトのそれぞれの当該種類に対応するメタデータがまとめて配置されている。例えば、少なくとも１つのオブジェクトのそれぞれの座標に対応するメタデータがまとめて配置され、少なくとも１つのオブジェクトのそれぞれのサイズに対応するメタデータがまとめて配置される。さらに、少なくとも１つのオブジェクトのそれぞれの被写体の分類名に対応するメタデータがまとめて配置されている。このように、複数種類のメタデータはスケーラブルに構成されている。

　このように、本実施の形態によれば、階層構造を持つ複数種類のメタデータを利用することで、送信装置と受信装置間の通信環境または受信者の需要に応じて、送信される符号情報の内容を変更することが可能である。つまり、表示形態を切り替えることができるメタデータを示す動画像の符号情報を生成すること可能となる。これにより、ユーザは複数種類のメタデータから見たい内容に応じて表示形態を切り替えることが可能となる。

　また、本実施の形態における符号化方法では、複数種類のメタデータは、さらに、対象フレームに含まれるオブジェクトの総数を含んでいる。例えば、図１３または図１６などに示すように、複数種類のメタデータには、オブジェクトの総数が台数情報として含まれている。これにより、復号装置が要求するレベルに応じて、オブジェクトの総数のみを復号装置に送信することができ、送信される情報のデータ量をさらに抑えることができる。

　また、本実施の形態における符号化方法では、さらに、抽出された複数種類のメタデータのうちの何れかの種類のメタデータである推定対象メタデータを、複数の推定手法のうちの何れかの推定手法を用いて推定する。そして、符号情報の生成では、推定対象メタデータの推定に用いられた推定手法に関する情報を、メタ情報として含む符号情報を生成する。例えば、図１４または図１７に示すように、推定対象メタデータの推定では、動画像に含まれる少なくとも１つの参照フレームのそれぞれにおける同一のオブジェクトの座標に対して、補間または補外を行うことによって、前記推定対象メタデータである座標を推定する。なお、参照フレームは、表示順または符号化順で、対象フレーム（入力画像）の前または後にあるフレームである。また、例えば、推定対象メタデータの推定では、さらに、図１０に示すように、動画像におけるオブジェクトの空間的な位置とサイズの変化を示す動きモデル情報を生成する。そして、上述の補間または補外と動きモデル情報とに基づいて、例えば図１４などに示すように、推定対象メタデータである座標と、複数種類のメタデータのうちの他の種類のメタデータであるサイズとを推定する。

　また、本実施の形態における符号化方法では、図２１に示すように、さらに、推定対象メタデータの推定によって得られた推定メタデータと、推定対象メタデータとの残差が、所定の閾値以下であるか否かを判定する。そして、所定の閾値以下でないと判定するときには、その残差を補うための補正パラメータを符号情報に含める。

　また、本実施の形態における符号化方法では、さらに、背景画像情報およびメタ情報に基づいて、対象フレームを再構成することによって再構成画像を生成し、対象フレームと再構成画像との差分を示す差分画像を符号情報に含める。このような再構成画像の生成は、例えば図２３に示すように行われる。より具体的には、その再構成画像の生成では、第１の階層に属するメタデータによってオブジェクトの座標を特定し、第２の階層に属するメタデータによってそのオブジェクトのサイズを特定する。さらに、第３の階層に属するメタデータによって被写体の分類名に関連付けられた関連画像を特定し、背景画像情報によって背景画像を特定する。そして、図２３のステップＳ１４６では、特定された背景画像のうちの、特定された座標に、特定されたサイズの、特定された関連画像を重畳することによって、再構成画像を生成する。

　また、本実施の形態における符号化方法における再構成画像の生成では、その関連画像を例えばサーバからネットワークを介して取得する。

　なお、本実施の形態では、最終的に符号情報から入力画像を元通りに復元することが可能なように、符号情報に差分画像などを含めているが、差分画像などを符号情報に含めなくてもよい。つまり、メタデータ（メタ情報）のみが符号情報に含まれていて、最終的に符号情報から入力画像を元通りに戻せなくてもよい。例えば、本実施の形態の符号化装置１００は、その符号化装置１００のユーザが、符号情報から入力画像を元通りに復元することを求めていない場合には、メタデータ（メタ情報）のみが含まれている符号情報を生成する。これにより、符号化装置１００における処理量、ならびに生成される符号情報のデータ量を削減することが可能である。

　なお、符号化装置１００の符号生成部１６０は、符号情報を圧縮することによって、その符号情報のデータ量を更に削減してもよい。このとき、符号生成部１６０は、メタデータなどの情報をエントロピー符号化などの可逆圧縮処理によって圧縮する。また、符号化装置１００は、差分画像を一般的な画像圧縮手法によって圧縮してもよい。また、符号化装置１００は、符号情報に含まれる各情報を、それぞれの情報に合わせた圧縮手法で圧縮してもよい。これにより、符号情報のデータ量を適切に削減することができる。

　なお、本実施の形態では、入力画像であるフレームごとに、基本符号列を生成したが、メタデータが抽出されたフレームに対してのみ基本符号列を生成してもよい。この場合には、メタデータが抽出されなかったフレームに対する推定手法に関する情報は、メタデータが抽出されたフレームの基本符号列に追加される。

　（実施の形態２）
　図２５は、本実施の形態における復号装置の構成を示すブロック図である。

　この復号装置２００は、符号化装置１００によって生成された図２４に示す符号情報を復号することによって復号画像を生成する。また、動画像に対する符号化によって、フレームごとに符号情報が存在する場合には、復号装置２００は、それらの符号情報をそれぞれ復号することによって復号動画像を生成する。

　このような復号装置２００は、符号情報からメタデータを復元するメタデータ復元部２１０と、復元されたメタデータを用いて復号画像を生成する復号画像生成部２２０とを備える。

　図２６は、復号装置２００の全体的な処理動作を示すフローチャートである。

　まず、メタデータ復元部２１０は、１以上の静止画像または動画像が符号化されることによって生成されたビットストリームから、各フレームにおけるメタデータを復元するメタデータ復元処理を行う（ステップＳ２１０）。ビットストリームは、実施の形態１の符号情報を１つ以上含む。次に、復号画像生成部２２０は、復元されたメタデータに応じて、復号画像を生成する復号画像生成処理を行う（ステップＳ２２０）。

　なお、復号装置２００は、図２４に示す符号情報の全てを受け取らなくてもよい。これによると、復号装置２００は、受け取った情報の段階（階層）などに応じて表示形態を切り換えることができる。つまり、復号装置２００は、必要な段階までの情報のみを受信すればよい。また、符号情報のうち、復号装置２００に必要とされる情報のみが復号装置２００に送信される場合には、その送信される情報のデータ量を削減することができる。

　図２７は、図２６のステップＳ２１０のメタデータ復元処理を詳細に示すフローチャートである。

　まず、メタデータ復元部２１０は、受信された符号情報に含まれる、処理対象フレームにおける基本符号列に、メタデータが存在するかを判定する（ステップＳ２１１）。ここで、基本符号列にメタデータが存在しないと判定すると（ステップＳ２１１でＮｏ）、メタデータ復元部２１０は、基本符号列に含まれる推定手法に関する情報に基づいて、その処理対象フレームにおけるメタデータを推定する（ステップＳ２１２）。つまり、メタデータ復元部２１０は、推定メタデータを生成する。言い換えれば、メタデータ復元部２１０は、符号情報に含まれるメタ情報から、処理対象フレームに含まれるオブジェクトの特徴を示し、種類毎に階層的に配置された１以上の種類のメタデータを導出する。なお、ステップＳ２１２の処理は、図２３のステップＳ１４２と同様の処理である。

　次に、メタデータ復元部２１０は、受信された符号情報に、その推定メタデータに対応する補正パラメータが存在するか否かを判定する（ステップＳ２１３）。補正パラメータが存在すると判定すると（ステップＳ２１３でＹｅｓ）、メタデータ復元部２１０は、その補正パラメータを用いて、推定メタデータを補正する（ステップＳ２１４）。

　そして、メタデータ復元部２１０は、ステップＳ２１２で生成された推定メタデータ、またはステップＳ２１４で補正された推定メタデータを、処理対象フレームの画像再構成処理で用いられるメタデータとして設定する（ステップＳ２１５）。これにより、推定手法に関する情報として符号情報（具体的には基本符号列）に含まれていたメタ情報からメタデータが復元される。また、ステップＳ２１１で、符号情報にメタデータが存在すると判定されたときには（ステップＳ２１１のＹｅｓ）、メタデータを復元することなく、その符号情報に含まれていたメタデータが、処理対象フレームの画像再構成処理に用いられるメタデータとして設定される。

　次に、メタデータ復元部２１０は、受信された符号情報に、処理対象フレームに関する差分画像が存在するか否かを判定する（ステップＳ２１７）。差分画像が存在すると判定すると（ステップＳ２１７でＹｅｓ）、メタデータ復元部２１０は、画像再構成処理で用いるために、その差分画像を復号装置２００内のメモリに格納する（ステップＳ２１８）。

　図２８は、図２７のステップＳ２１１～Ｓ２１８の処理によって復元された、処理対象フレームのメタデータ群の一例を示す図である。

　このメタデータ群は、図１３に示す基本符号列と同様に、台数情報と、背景画像情報と、各オブジェクトＩＤに関連付けられた座標情報、サイズ情報、車種情報および代表画像とをそれぞれメタデータとして含む。また、メタデータ群には、図１３に示す基本符号列と同様に、メタデータの階層化された種類ごとに、少なくとも１つのオブジェクトのそれぞれの当該種類に対応するメタデータがまとめて配置されている。

　図２９は、図２６のステップＳ２２０の復号画像生成処理を詳細に示すフローチャートである。

　まず、復号画像生成部２２０は、処理対象フレーム毎に、復元されたメタデータ群において、先頭の台数情報から座標情報までの各メタデータが存在するか否かを判定する（ステップＳ２２１ａ）。ここで、座標情報が存在しないと判定すると（ステップＳ２２１でＮｏ）、復号画像生成部２２０は、台数が提示された復号画像を生成する（ステップＳ２２１ｂ）。一方、座標情報が存在すると判定すると（ステップＳ２２１でＹｅｓ）、復号画像生成部２２０は、さらに、メタデータ群にサイズ情報が含まれているか否かを判定する（ステップＳ２２２ａ）。ここで、サイズ情報が含まれていないと判定すると（Ｓ２２２ａでＮｏ）、復号画像生成部２２０は、背景画像と、座標情報までのメタデータとを利用して、例えば図３に示すように、オブジェクトの座標を示す復号画像を生成する（ステップＳ２２２ｂ）。一方、サイズ情報が含まれていると判定すると（ステップＳ２２２ａでＹｅｓ）、復号画像生成部２２０は、メタデータ群に車種情報が含まれているか否かを判定する（ステップＳ２２３ａ）。

　ここで、車種情報が含まれていないと判定すると（ステップＳ２２３ａでＮｏ）、復号画像生成部２２０は、背景画像と、サイズ情報までのメタデータとを利用して、例えば図４に示すように、オブジェクトのサイズを示す復号画像を生成する（ステップＳ２２３ｂ）。一方、車種情報が含まれていると判定すると（Ｓ２２３ａでＹｅｓ）、復号画像生成部２２０は、メタデータ群に代表画像が含まれているか否かを判定する（ステップＳ２２４ａ）。ここで、代表画像が含まれていないと判定すると（ステップＳ２２４ａでＮｏ）、復号画像生成部２２０は、背景画像と、車種情報までのメタデータとを用いて、例えば図５に示すように、オブジェクトの車種を示す復号画像を生成する（ステップＳ２２４ｂ）。

　一方、代表画像が含まれていると判定すると（ステップＳ２２４ａでＹｅｓ）、復号画像生成部２２０は、メモリに差分画像が存在しているか否かを判定する（ステップＳ２２５）。ここで、差分画像が存在していると判定すると（ステップＳ２２５でＹｅｓ）、復号画像生成部２２０は、背景画像と差分画像と、代表画像までのメタデータとを用いて復号画像を生成する（ステップＳ２２７）。一方、差分画像が存在していないと判定すると（ステップＳ２２５でＮｏ）、復号画像生成部２２０は、背景画像と、代表画像までのメタデータとを用いて復号画像を生成する（ステップＳ２２６）。

　ここで、ステップＳ２２２ｂでは、復号画像生成部２２０は、背景画像、オブジェクトの個数（台数情報）ならびに座標情報を利用することができる。そのため、図３に示すように、復号画像生成部２２０は、背景画像上にオブジェクトの座標がマークなどによって示された復号画像を生成する。これにより、座標情報によって、道路上の混雑度の詳細（どの車線で混雑しているかなど）を可視化することが可能となり、台数情報のみが提示された復号画像より、現実に近い復号画像を生成することができる。

　ステップＳ２２３ｂでは、復号画像生成部２２０は、さらに、オブジェクトのサイズ情報も利用することができる。そのため、図４に示すように、復号画像生成部２２０は、背景画像上のオブジェクトの座標に、サイズ情報によって示されるサイズの図形を重畳することによって、復号画像を生成する。このとき、復号画像生成部２２０は、例えば、その図形の中心が、座標情報によって示される座標に一致するように、その図形を重畳する。これにより、復号画像中の図形のサイズから、道路上の混雑が、トラックなどの大型車によって発生しているか、軽自動車などの小型の乗用車によって発生しているかなどを、推測することが視覚的に可能になる。

　ステップＳ２２４ｂでは、復号画像生成部２２０は、さらに、オブジェクトの車種情報も利用することができる。そのため、図５に示すように、復号画像生成部２２０は、背景画像上のオブジェクトの座標に、サイズ情報によって示されるサイズの、車種情報によって特定される形態の図形を、重畳することによって、復号画像を生成する。このような復号画像が表示されることにより、それを見たユーザは、道路上を走行する車の形態を、正確ではないが認識することができる。このとき、車種情報によって示される車種に基づく図形は、実際に走行している車両の画像と一致している必要性はなく、その画像に近い図形（または画像）であればよい。そのため、復号装置２００は、各車種情報によって示される車種の車の画像を一度でも利用したときには、それらの画像を保存しておく。そして、復号画像生成部２２０は、車種情報がメタデータ群に含まれているときには、その車種情報によって示される車種の車の画像を、保存されている複数の画像の中から選択して、復号画像の生成に利用する。または、復号画像生成部２２０は、クラウドストレージなどの外部ストレージから、その車種情報によって示される車種に関連付けられた画像を関連画像として取得して、復号画像の生成に利用してもよい。つまり、復号画像生成部２２０は、関連画像をサーバからネットワークを介して取得する。

　この場合、復号装置２００または外部ストレージには、車の進行方向または大きさごとに、車両情報のそれぞれによって示される車種の車の画像が保存されていてもよい。あるいは、各進行方向および大きさに共通の、一枚の画像が保存されていてもよい。この場合には、復号画像生成部２２０は、その共通の一枚の画像を、進行方向または大きさに応じて変形し、変形された画像を復号画像の生成に利用する。進行方向または大きさごとに画像を保存する手法では、進行方向または大きさに応じた画像を利用できるため、再構成される画像の品質を向上することができる。また、各進行方向または大きさに共通した画像を保持する手法では、保存される画像の枚数を削減することができるため、保存される情報の量を削減することができる。また、復号画像生成部２２０は、その車種情報に応じた画像または図形を取得できなかったときには、図４に示すように、矩形の図形を背景画像に重畳してもよい。このとき、復号画像生成部２２０は、車種情報によって示される車種ごとに、その車種の実際の形態に関わらず、その図形の形状または色などを変更してもよい。

　ステップＳ２２６では、復号画像生成部２２０は、さらに、オブジェクトの代表画像も利用することができる。そのため、図２に示すように、復号画像生成部２２０は、背景画像上のオブジェクトの座標に、サイズ情報によって示されるサイズの代表画像を重畳することによって、復号画像を生成する。この復号画像が表示されると、それを見たユーザは、道路上の混雑状況または走行中の車などをより適切に認識することができる。

　なお、符号情報（例えば基本符号列）に動きモデル情報が含まれているときには、ステップＳ２２２ｂ、Ｓ２２３ｂ、Ｓ２２４ｂおよびＳ２２６などで、その動きモデル情報を用いて復号画像を生成してもよい。これにより、復号画像の品質を向上させても良い。

　例えば、ステップＳ２２２ｂにおいて、座標情報を用いて処理対象フレームを再構成する場合、つまり、復号画像を生成する場合、復号画像生成部２２０は、動きモデル情報を用いる。この動きモデル情報は、画像の奥に行くほどオブジェクトが小さくなるといった、座標によってオブジェクトのサイズが変化することを示す情報である。復号画像生成部２２０は、この動きモデル情報を座標情報と共に用いることで、図６に示すような、座標に応じてサイズが異なる矩形画像を含む復号画像を生成する。

　他の具体例としては、例えば顔検出を行うシステムがある。このシステムでは、符号化装置が、画像と、その画像から顔検出を行うことによって得られる座標情報とを送信し、復号装置が、その画像上の座標情報によって示される座標に、顔領域を示す四角形の枠を表示する。この場合、符号化装置は、座標情報と、顔の大きさ（サイズ情報）とを示す４種のメタデータ（座標ｘ、座標ｙ、幅、高さ）を送信する必要がある。しかし、固定されたカメラによる撮像によって得られる画像では、画像の奥ほど被写体が小さくなるという動きモデルがある。符号化装置は、このような動きモデルを示す情報、つまり動きモデル情報を送信する場合には、所定の顔領域における上述の４種類のメタデータを一度送信すれば、その後、その顔領域については、２種類のメタデータである座標情報のみを送信すればよい。この場合、復号装置は、その座標情報と動きモデル情報とによって、その顔領域の大きさ（幅および高さ）を算出する。これにより、符号化装置から送信される符号情報のデータ量を削減することができる。

　また、幅と高さに関して、動きモデル情報の中に、座標情報に合わせて任意の固定値を格納することで、送信するメタデータを座標情報のみにすることができる。その結果、符号情報の更なるデータ量の削減を実現することができる。その他に、画像を重畳する際の各オブジェクトの前後関係などを推測することができる。その結果、前後関係に関する情報を各オブジェクトやフレーム単位で送信する必要が無くなるため、符号情報のデータ量を削減することができる。その他に、図７に示すように、四角などの図形を表示する場合に、混雑状況などのその他のメタデータ、またはメタデータから推定できる情報に応じて、その図形の色を塗り分けるなどして表示しても良い。これによると、混雑している領域や危険な領域など、特に利用者に認知させたい情報を強調して表示することが可能となる。その結果、状況を理解するために必要な画像を見る時間を削減することができる。すなわち、カーナビにおける表示など、画像を注視することが推奨できない環境においても、ユーザに情報を通知することが可能となる。

　（実施の形態２のまとめ）
　以上のように、本実施の形態における復号方法は、符号化動画像を、フレームに対応する符号情報ごとに復号する復号方法である。この復号方法では、符号情報に含まれる背景画像情報から、対象フレーム（上述の処理対象フレーム）の背景画像を特定する。さらに、その符号情報に含まれるメタ情報から、その対象フレームに含まれる１つのオブジェクトの特徴を示し、種類毎に階層的に配置された１以上の種類のメタデータを導出する。この１以上の種類のメタデータは、例えば上述のメタデータ群である。つまり、具体的には、上述のように、メタデータ復元部２１０がメタデータ群を復元することによって、１以上の種類のメタデータが導出される。また、本実施の形態における復号方法では、１以上の種類のメタデータにより表現される１つのオブジェクトを、特定された背景画像に重畳することによって、復号画像を生成する。ここで、メタデータは、対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対し、当該オブジェクトの特徴を示す。

　例えば、符号情報において第１の階層に属する種類は、対象フレーム内のオブジェクトの座標であり、第２の階層に属する種類は、その対象フレーム内のオブジェクトのサイズである。また、例えば、符号情報において第３の階層に属する種類は、対象フレーム内のオブジェクトとして映し出された被写体の分類名である。

　つまり、本実施の形態における復号方法では、例えば図２～図７に示すように、復号画像は、メタデータの階層毎に抽象度が互いに異なるオブジェクトを背景画像に重畳することにより生成される。また、本実施の形態における復号方法では、例えば図２８に示すように、メタ情報は、更に、対象フレームに含まれるオブジェクトの総数を含む。

　また、本実施の形態における１以上の種類のメタデータの導出では、メタ情報として含まれる、推定手法に関する情報を用いて、メタデータの推定を行うことによって、そのメタデータを導出する。例えば、メタデータの推定では、符号化動画像に含まれる少なくとも１つの参照フレームのそれぞれにおける同一のオブジェクトの座標に対して、補間または補外を行うことによって、そのメタデータである座標を推定する。また、例えば、メタデータの推定では、符号情報から、符号化動画像におけるオブジェクトの空間的な位置とサイズの変化を示す動きモデル情報を抽出する。そして、補間または補外と動きモデル情報とに基づいて、そのメタデータである座標と、１以上の種類のメタデータのうちの他の種類のメタデータであるサイズとを推定する。

　また、本実施の形態における１以上の種類のメタデータの導出では、図２７に示すように、符号情報に補正パラメータが存在するか否かを判定し、存在すると判定するときには、メタデータの推定によって得られた推定メタデータを、補正パラメータに基づいて補正することによって、そのメタデータを導出する。

　これにより、メタデータを正しく導出することができる。

　また、本実施の形態における復号方法では、図２７に示すように、さらに、符号情報に差分画像が存在するか否かを判定する。ここで、復号画像の生成では、少なくとも１つのオブジェクトを背景画像に重畳することによって再構成画像を生成し、その再構成画像に対して差分画像を加算することによって、復号画像を生成する。より具体的には、再構成画像の生成では、第１の階層に属するメタデータによってオブジェクトの座標を特定し、第２の階層に属するメタデータによってオブジェクトのサイズを特定する。さらに、第３の階層に属するメタデータによって被写体の分類名に関連付けられた関連画像を特定し、背景画像情報によって背景画像を特定する。そして、特定された背景画像のうちの、特定された座標に、特定されたサイズの、特定された関連画像を重畳することによって、再構成画像を生成する。

　また、本実施の形態における再構成画像の生成では、その関連画像を例えばサーバからネットワークを介して取得する。

　このように、本実施の形態によれば、メタ情報（メタデータ）を含んだ符号情報を復号することが可能である。また、受信した符号情報の内容に応じて、復号画像に映し出されるオブジェクトの形態などを切り替えることができる。その結果、受信装置である復号装置２００の環境に応じて復号画像を変更することが可能である。また、メタデータ間の補間処理などにより、メタデータに関する符号情報のデータ量を削減することが可能となる。また、メタデータまたはユーザの需要に応じて、オブジェクトをさまざまな表示態様に変更することが可能である。これにより、ユーザの知りたい情報を適切に表示することが可能となる。

　なお、動きモデル情報は符号情報に含まれている必要はない。例えば、復号装置２００は、外部から動きモデル情報に関するパラメータ等を取得してもよい。また、復号装置２００に入力される符号情報を生成する符号化装置１００が扱う動画像が既知の場合、その動画像に関する動きモデル情報があらかじめ復号装置２００に設定していてもよい。これによると、動きモデル情報が符号情報に含まれていないため、符号情報のデータ量を削減することが可能となる。

　（その他の例）
　本発明の一態様に係る符号化方法、復号方法、符号化装置および復号装置について、上記実施の形態１および実施の形態２に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　また、本発明の一態様に係る符号化方法および符号化装置は、図３０Ａに示す処理および図３０Ｂに示す構成によっても実現される。

　図３０Ａは、本発明の一態様に係る符号化方法を示すフローチャートである。

　本発明の一態様に係る符号化方法は、動画像をフレームごとに符号化する符号化方法であって、図３０Ａに示すように、ステップＳ１１～Ｓ１４を含む。ステップＳ１１では、その動画像に含まれる対象フレームから背景画像を抽出する。ステップＳ１２では、その対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対する、当該オブジェクトの特徴を示す複数種類のメタデータをその対象フレームから抽出する。ステップＳ１３では、その複数種類のメタデータを、種類毎に階層的に配置する。ステップＳ１４では、その背景画像を特定するための背景画像情報と、その複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とを含む符号情報を生成する。

　図３０Ｂは、本発明の一態様に係る符号化装置の構成を示すブロック図である。

　本発明の一態様に係る符号化装置１０は、動画像をフレームごとに符号化する符号化装置であって、背景抽出部１１と、メタデータ抽出部１２と、配置部１３と、符号情報生成部１４とを備えている。背景抽出部１１は、その動画像に含まれる処理対象フレームから背景画像を抽出する。メタデータ抽出部１２は、その対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対する、当該オブジェクトの特徴を示す複数種類のメタデータをその対象フレームから抽出する。配置部１３は、その複数種類のメタデータを、種類毎に階層的に配置する。符号情報生成部１３は、背景画像を特定するための背景画像情報と、その複数種類のメタデータの中から、選択された階層に対応する一部または全てのメタデータを示すメタ情報とを含む符号情報を生成する。

　このような、図３０Ａに示す処理、図３０Ｂに示す構成によっても、上記実施の形態１と同様の効果を奏することができる。

　また、本発明の一態様に係る復号方法および復号装置は、図３１Ａに示す処理および図３１Ｂに示す構成によっても実現される。

　図３１Ａは、本発明の一態様に係る復号方法を示すフローチャートである。

　本発明の一態様に係る復号方法は、符号化動画像を、フレームに対応する符号情報ごとに復号する復号方法であって、ステップＳ２１～Ｓ２３を含む。ステップＳ２１では、符号情報に含まれる背景画像情報から、その対象フレームの背景画像を特定する。ステップＳ２２では、その符号情報に含まれるメタ情報から、その対象フレームに含まれる１つのオブジェクトの特徴を示し、種類毎に階層的に配置された１以上の種類のメタデータを導出する。ステップＳ２３では、１つ以上の種類のメタデータにより表現されるその１つのオブジェクトを、特定された背景画像に重畳することによって、復号画像を生成する。ここで、メタデータは、対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対し、当該オブジェクトの特徴を示す。

　図３１Ｂは、本発明の一態様に係る復号装置の構成を示すブロック図である。

　本発明の一態様に係る復号装置２０は、符号化動画像を、フレームに対応する符号情報ごとに復号する復号装置であって、背景特定部２１と、メタデータ導出部２２と、生成部２３とを備える。背景特定部２１は、符号情報に含まれる背景画像情報から、対象フレームの背景画像を特定する。メタデータ導出部２２は、その符号情報に含まれるメタ情報から、その対象フレームに含まれる１つのオブジェクトの特徴を示し、種類毎に階層的に配置された１以上の種類のメタデータを導出する。生成部２３は、その１以上の種類のメタデータにより表現されるその１つのオブジェクトを、特定された背景画像に重畳することによって、復号画像を生成する。ここで、メタデータは、その対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対し、当該オブジェクトの特徴を示す。

　このような、図３１Ａに示す処理、図３１Ｂに示す構成によっても、上記実施の形態２と同様の効果を奏することができる。

　また、本発明は、上記各実施の形態または一態様などに限定されるものではない。

　例えば、本発明は、上記符号化方法が施されたコンテンツを配信するコンテンツ配信方法又はコンテンツ配信システムとして実現されてもよい。つまり、コンテンツ配信システムおよびコンテンツ配信方法は、コンテンツの配信依頼を受信し、配信依頼に基づき、上記符号化方法を施したコンテンツを送信する。

　また、上記実施の形態に係る符号化装置および復号装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

　また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　言い換えると、符号化装置および復号装置は、処理回路（ｐｒｏｃｅｓｓｉｎｇ　ｃｉｒｃｕｉｔｒｙ）と、当該処理回路に電気的に接続された（当該制御回路からアクセス可能な）記憶装置（ｓｔｏｒａｇｅ）とを備える。処理回路は、専用のハードウェアおよびプログラム実行部の少なくとも一方を含む。また、記憶装置は、処理回路がプログラム実行部を含む場合には、当該プログラム実行部により実行されるソフトウェアプログラムを記憶する。処理回路は、記憶装置を用いて、上記実施の形態に係る符号化方法又は復号方法を実行する。

　さらに、本発明は上記ソフトウェアプログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

　また、上記で用いた数字は、全て本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。

　また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

　また、上記の符号化方法又は復号方法に含まれるステップが実行される順序は、本発明を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

　（実施の形態３）
　上記各実施の形態で示した動画像符号化方法（画像符号化方法）または動画像復号化方法（画像復号方法）の構成を実現するためのプログラムを記憶メディアに記録することにより、上記各実施の形態で示した処理を独立したコンピュータシステムにおいて簡単に実施することが可能となる。記憶メディアは、磁気ディスク、光ディスク、光磁気ディスク、ＩＣカード、半導体メモリ等、プログラムを記録できるものであればよい。

　さらにここで、上記各実施の形態で示した動画像符号化方法（画像符号化方法）や動画像復号化方法（画像復号方法）の応用例とそれを用いたシステムを説明する。当該システムは、画像符号化方法を用いた画像符号化装置、及び画像復号方法を用いた画像復号装置からなる画像符号化復号装置を有することを特徴とする。システムにおける他の構成について、場合に応じて適切に変更することができる。

　図３２は、コンテンツ配信サービスを実現するコンテンツ供給システムex１００の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ex１０６、ex１０７、ex１０８、ex１０９、ex１１０が設置されている。

　このコンテンツ供給システムex１００は、インターネットex１０１にインターネットサービスプロバイダex１０２および電話網ex１０４、および基地局ex１０６からex１１０を介して、コンピュータex１１１、ＰＤＡ（Personal Digital Assistant）ex１１２、カメラex１１３、携帯電話ex１１４、ゲーム機ex１１５などの各機器が接続される。

　しかし、コンテンツ供給システムex１００は図３２のような構成に限定されず、いずれかの要素を組合せて接続するようにしてもよい。また、固定無線局である基地局ex１０６からex１１０を介さずに、各機器が電話網ex１０４に直接接続されてもよい。また、各機器が近距離無線等を介して直接相互に接続されていてもよい。

　カメラex１１３はデジタルビデオカメラ等の動画撮影が可能な機器であり、カメラex１１６はデジタルカメラ等の静止画撮影、動画撮影が可能な機器である。また、携帯電話ex１１４は、ＧＳＭ（登録商標）（Global System for Mobile Communications）方式、ＣＤＭＡ（Code Division Multiple Access）方式、Ｗ－ＣＤＭＡ（Wideband-Code Division Multiple Access）方式、若しくはＬＴＥ（Long Term Evolution）方式、ＨＳＰＡ(High Speed Packet Access)の携帯電話機、またはＰＨＳ（Personal Handyphone System）等であり、いずれでも構わない。

　コンテンツ供給システムex１００では、カメラex１１３等が基地局ex１０９、電話網ex１０４を通じてストリーミングサーバex１０３に接続されることで、ライブ配信等が可能になる。ライブ配信では、ユーザがカメラex１１３を用いて撮影するコンテンツ（例えば、音楽ライブの映像等）に対して上記各実施の形態で説明したように符号化処理を行い（即ち、本発明の一態様に係る画像符号化装置として機能する）、ストリーミングサーバex１０３に送信する。一方、ストリーミングサーバex１０３は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントとしては、上記符号化処理されたデータを復号化することが可能な、コンピュータex１１１、ＰＤＡex１１２、カメラex１１３、携帯電話ex１１４、ゲーム機ex１１５等がある。配信されたデータを受信した各機器では、受信したデータを復号化処理して再生する（即ち、本発明の一態様に係る画像復号装置として機能する）。

　なお、撮影したデータの符号化処理はカメラex１１３で行っても、データの送信処理をするストリーミングサーバex１０３で行ってもよいし、互いに分担して行ってもよい。同様に配信されたデータの復号化処理はクライアントで行っても、ストリーミングサーバex１０３で行ってもよいし、互いに分担して行ってもよい。また、カメラex１１３に限らず、カメラex１１６で撮影した静止画像および／または動画像データを、コンピュータex１１１を介してストリーミングサーバex１０３に送信してもよい。この場合の符号化処理はカメラex１１６、コンピュータex１１１、ストリーミングサーバex１０３のいずれで行ってもよいし、互いに分担して行ってもよい。

　また、これら符号化・復号化処理は、一般的にコンピュータex１１１や各機器が有するＬＳＩex５００において処理する。ＬＳＩex５００は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化・復号化用のソフトウェアをコンピュータex１１１等で読み取り可能な何らかの記録メディア（ＣＤ－ＲＯＭ、フレキシブルディスク、ハードディスクなど）に組み込み、そのソフトウェアを用いて符号化・復号化処理を行ってもよい。さらに、携帯電話ex１１４がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データは携帯電話ex１１４が有するＬＳＩex５００で符号化処理されたデータである。

　また、ストリーミングサーバex１０３は複数のサーバや複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。

　以上のようにして、コンテンツ供給システムex１００では、符号化されたデータをクライアントが受信して再生することができる。このようにコンテンツ供給システムex１００では、ユーザが送信した情報をリアルタイムでクライアントが受信して復号化し、再生することができ、特別な権利や設備を有さないユーザでも個人放送を実現できる。

　なお、コンテンツ供給システムex１００の例に限らず、図３３に示すように、デジタル放送用システムex２００にも、上記各実施の形態の少なくとも動画像符号化装置（画像符号化装置）または動画像復号化装置（画像復号装置）のいずれかを組み込むことができる。具体的には、放送局ex２０１では映像データに音楽データなどが多重化された多重化データが電波を介して通信または衛星ex２０２に伝送される。この映像データは上記各実施の形態で説明した動画像符号化方法により符号化されたデータである（即ち、本発明の一態様に係る画像符号化装置によって符号化されたデータである）。これを受けた放送衛星ex２０２は、放送用の電波を発信し、この電波を衛星放送の受信が可能な家庭のアンテナex２０４が受信する。受信した多重化データを、テレビ（受信機）ex３００またはセットトップボックス（ＳＴＢ）ex２１７等の装置が復号化して再生する（即ち、本発明の一態様に係る画像復号装置として機能する）。

　また、ＤＶＤ、ＢＤ等の記録メディアex２１５に記録した多重化データを読み取り復号化する、または記録メディアex２１５に映像信号を符号化し、さらに場合によっては音楽信号と多重化して書き込むリーダ／レコーダex２１８にも上記各実施の形態で示した動画像復号化装置または動画像符号化装置を実装することが可能である。この場合、再生された映像信号はモニタex２１９に表示され、多重化データが記録された記録メディアex２１５により他の装置やシステムにおいて映像信号を再生することができる。また、ケーブルテレビ用のケーブルex２０３または衛星／地上波放送のアンテナex２０４に接続されたセットトップボックスex２１７内に動画像復号化装置を実装し、これをテレビのモニタex２１９で表示してもよい。このときセットトップボックスではなく、テレビ内に動画像復号化装置を組み込んでもよい。

　図３４は、上記各実施の形態で説明した動画像復号化方法および動画像符号化方法を用いたテレビ（受信機）ex３００を示す図である。テレビex３００は、上記放送を受信するアンテナex２０４またはケーブルex２０３等を介して映像データに音声データが多重化された多重化データを取得、または出力するチューナex３０１と、受信した多重化データを復調する、または外部に送信する多重化データに変調する変調／復調部ex３０２と、復調した多重化データを映像データと、音声データとに分離する、または信号処理部ex３０６で符号化された映像データ、音声データを多重化する多重／分離部ex３０３を備える。

　また、テレビex３００は、音声データ、映像データそれぞれを復号化する、またはそれぞれの情報を符号化する音声信号処理部ex３０４、映像信号処理部ex３０５（本発明の一態様に係る画像符号化装置または画像復号装置として機能する）を有する信号処理部ex３０６と、復号化した音声信号を出力するスピーカex３０７、復号化した映像信号を表示するディスプレイ等の表示部ex３０８を有する出力部ex３０９とを有する。さらに、テレビex３００は、ユーザ操作の入力を受け付ける操作入力部ex３１２等を有するインタフェース部ex３１７を有する。さらに、テレビex３００は、各部を統括的に制御する制御部ex３１０、各部に電力を供給する電源回路部ex３１１を有する。インタフェース部ex３１７は、操作入力部ex３１２以外に、リーダ／レコーダex２１８等の外部機器と接続されるブリッジex３１３、ＳＤカード等の記録メディアex２１６を装着可能とするためのスロット部ex３１４、ハードディスク等の外部記録メディアと接続するためのドライバex３１５、電話網と接続するモデムex３１６等を有していてもよい。なお記録メディアex２１６は、格納する不揮発性／揮発性の半導体メモリ素子により電気的に情報の記録を可能としたものである。テレビex３００の各部は同期バスを介して互いに接続されている。

　まず、テレビex３００がアンテナex２０４等により外部から取得した多重化データを復号化し、再生する構成について説明する。テレビex３００は、リモートコントローラex２２０等からのユーザ操作を受け、ＣＰＵ等を有する制御部ex３１０の制御に基づいて、変調／復調部ex３０２で復調した多重化データを多重／分離部ex３０３で分離する。さらにテレビex３００は、分離した音声データを音声信号処理部ex３０４で復号化し、分離した映像データを映像信号処理部ex３０５で上記各実施の形態で説明した復号化方法を用いて復号化する。復号化した音声信号、映像信号は、それぞれ出力部ex３０９から外部に向けて出力される。出力する際には、音声信号と映像信号が同期して再生するよう、バッファex３１８、ex３１９等に一旦これらの信号を蓄積するとよい。また、テレビex３００は、放送等からではなく、磁気／光ディスク、ＳＤカード等の記録メディアex２１５、ex２１６から多重化データを読み出してもよい。次に、テレビex３００が音声信号や映像信号を符号化し、外部に送信または記録メディア等に書き込む構成について説明する。テレビex３００は、リモートコントローラex２２０等からのユーザ操作を受け、制御部ex３１０の制御に基づいて、音声信号処理部ex３０４で音声信号を符号化し、映像信号処理部ex３０５で映像信号を上記各実施の形態で説明した符号化方法を用いて符号化する。符号化した音声信号、映像信号は多重／分離部ex３０３で多重化され外部に出力される。多重化する際には、音声信号と映像信号が同期するように、バッファex３２０、ex３２１等に一旦これらの信号を蓄積するとよい。なお、バッファex３１８、ex３１９、ex３２０、ex３２１は図示しているように複数備えていてもよいし、１つ以上のバッファを共有する構成であってもよい。さらに、図示している以外に、例えば変調／復調部ex３０２や多重／分離部ex３０３の間等でもシステムのオーバフロー、アンダーフローを避ける緩衝材としてバッファにデータを蓄積することとしてもよい。

　また、テレビex３００は、放送等や記録メディア等から音声データ、映像データを取得する以外に、マイクやカメラのＡＶ入力を受け付ける構成を備え、それらから取得したデータに対して符号化処理を行ってもよい。なお、ここではテレビex３００は上記の符号化処理、多重化、および外部出力ができる構成として説明したが、これらの処理を行うことはできず、上記受信、復号化処理、外部出力のみが可能な構成であってもよい。

　また、リーダ／レコーダex２１８で記録メディアから多重化データを読み出す、または書き込む場合には、上記復号化処理または符号化処理はテレビex３００、リーダ／レコーダex２１８のいずれで行ってもよいし、テレビex３００とリーダ／レコーダex２１８が互いに分担して行ってもよい。

　一例として、光ディスクからデータの読み込みまたは書き込みをする場合の情報再生／記録部ex４００の構成を図３５に示す。情報再生／記録部ex４００は、以下に説明する要素ex４０１、ex４０２、ex４０３、ex４０４、ex４０５、ex４０６、ex４０７を備える。光ヘッドex４０１は、光ディスクである記録メディアex２１５の記録面にレーザスポットを照射して情報を書き込み、記録メディアex２１５の記録面からの反射光を検出して情報を読み込む。変調記録部ex４０２は、光ヘッドex４０１に内蔵された半導体レーザを電気的に駆動し記録データに応じてレーザ光の変調を行う。再生復調部ex４０３は、光ヘッドex４０１に内蔵されたフォトディテクタにより記録面からの反射光を電気的に検出した再生信号を増幅し、記録メディアex２１５に記録された信号成分を分離して復調し、必要な情報を再生する。バッファex４０４は、記録メディアex２１５に記録するための情報および記録メディアex２１５から再生した情報を一時的に保持する。ディスクモータex４０５は記録メディアex２１５を回転させる。サーボ制御部ex４０６は、ディスクモータex４０５の回転駆動を制御しながら光ヘッドex４０１を所定の情報トラックに移動させ、レーザスポットの追従処理を行う。システム制御部ex４０７は、情報再生／記録部ex４００全体の制御を行う。上記の読み出しや書き込みの処理はシステム制御部ex４０７が、バッファex４０４に保持された各種情報を利用し、また必要に応じて新たな情報の生成・追加を行うと共に、変調記録部ex４０２、再生復調部ex４０３、サーボ制御部ex４０６を協調動作させながら、光ヘッドex４０１を通して、情報の記録再生を行うことにより実現される。システム制御部ex４０７は例えばマイクロプロセッサで構成され、読み出し書き込みのプログラムを実行することでそれらの処理を実行する。

　以上では、光ヘッドex４０１はレーザスポットを照射するとして説明したが、近接場光を用いてより高密度な記録を行う構成であってもよい。

　図３６に光ディスクである記録メディアex２１５の模式図を示す。記録メディアex２１５の記録面には案内溝（グルーブ）がスパイラル状に形成され、情報トラックex２３０には、予めグルーブの形状の変化によってディスク上の絶対位置を示す番地情報が記録されている。この番地情報はデータを記録する単位である記録ブロックex２３１の位置を特定するための情報を含み、記録や再生を行う装置において情報トラックex２３０を再生し番地情報を読み取ることで記録ブロックを特定することができる。また、記録メディアex２１５は、データ記録領域ex２３３、内周領域ex２３２、外周領域ex２３４を含んでいる。ユーザデータを記録するために用いる領域がデータ記録領域ex２３３であり、データ記録領域ex２３３より内周または外周に配置されている内周領域ex２３２と外周領域ex２３４は、ユーザデータの記録以外の特定用途に用いられる。情報再生／記録部ex４００は、このような記録メディアex２１５のデータ記録領域ex２３３に対して、符号化された音声データ、映像データまたはそれらのデータを多重化した多重化データの読み書きを行う。

　以上では、１層のＤＶＤ、ＢＤ等の光ディスクを例に挙げ説明したが、これらに限ったものではなく、多層構造であって表面以外にも記録可能な光ディスクであってもよい。また、ディスクの同じ場所にさまざまな異なる波長の色の光を用いて情報を記録したり、さまざまな角度から異なる情報の層を記録したりなど、多次元的な記録／再生を行う構造の光ディスクであってもよい。

　また、デジタル放送用システムex２００において、アンテナex２０５を有する車ex２１０で衛星ex２０２等からデータを受信し、車ex２１０が有するカーナビゲーションex２１１等の表示装置に動画を再生することも可能である。なお、カーナビゲーションex２１１の構成は例えば図３４に示す構成のうち、ＧＰＳ受信部を加えた構成が考えられ、同様なことがコンピュータex１１１や携帯電話ex１１４等でも考えられる。

　図３７Ａは、上記実施の形態で説明した動画像復号化方法および動画像符号化方法を用いた携帯電話ex１１４を示す図である。携帯電話ex１１４は、基地局ex１１０との間で電波を送受信するためのアンテナex３５０、映像、静止画を撮ることが可能なカメラ部ex３６５、カメラ部ex３６５で撮像した映像、アンテナex３５０で受信した映像等が復号化されたデータを表示する液晶ディスプレイ等の表示部ex３５８を備える。携帯電話ex１１４は、さらに、操作キー部ex３６６を有する本体部、音声を出力するためのスピーカ等である音声出力部ex３５７、音声を入力するためのマイク等である音声入力部ex３５６、撮影した映像、静止画、録音した音声、または受信した映像、静止画、メール等の符号化されたデータもしくは復号化されたデータを保存するメモリ部ex３６７、又は同様にデータを保存する記録メディアとのインタフェース部であるスロット部ex３６４を備える。

　さらに、携帯電話ex１１４の構成例について、図３７Ｂを用いて説明する。携帯電話ex１１４は、表示部ex３５８及び操作キー部ex３６６を備えた本体部の各部を統括的に制御する主制御部ex３６０に対して、電源回路部ex３６１、操作入力制御部ex３６２、映像信号処理部ex３５５、カメラインタフェース部ex３６３、ＬＣＤ（Liquid Crystal Display）制御部ex３５９、変調／復調部ex３５２、多重／分離部ex３５３、音声信号処理部ex３５４、スロット部ex３６４、メモリ部ex３６７がバスex３７０を介して互いに接続されている。

　電源回路部ex３６１は、ユーザの操作により終話及び電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することにより携帯電話ex１１４を動作可能な状態に起動する。

　携帯電話ex１１４は、ＣＰＵ、ＲＯＭ、ＲＡＭ等を有する主制御部ex３６０の制御に基づいて、音声通話モード時に音声入力部ex３５６で収音した音声信号を音声信号処理部ex３５４でデジタル音声信号に変換し、これを変調／復調部ex３５２でスペクトラム拡散処理し、送信／受信部ex３５１でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex３５０を介して送信する。また携帯電話ex１１４は、音声通話モード時にアンテナex３５０を介して受信した受信データを増幅して周波数変換処理およびアナログデジタル変換処理を施し、変調／復調部ex３５２でスペクトラム逆拡散処理し、音声信号処理部ex３５４でアナログ音声信号に変換した後、これを音声出力部ex３５７から出力する。

　さらにデータ通信モード時に電子メールを送信する場合、本体部の操作キー部ex３６６等の操作によって入力された電子メールのテキストデータは操作入力制御部ex３６２を介して主制御部ex３６０に送出される。主制御部ex３６０は、テキストデータを変調／復調部ex３５２でスペクトラム拡散処理をし、送信／受信部ex３５１でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex３５０を介して基地局ex１１０へ送信する。電子メールを受信する場合は、受信したデータに対してこのほぼ逆の処理が行われ、表示部ex３５８に出力される。

　データ通信モード時に映像、静止画、または映像と音声を送信する場合、映像信号処理部ex３５５は、カメラ部ex３６５から供給された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し（即ち、本発明の一態様に係る画像符号化装置として機能する）、符号化された映像データを多重／分離部ex３５３に送出する。また、音声信号処理部ex３５４は、映像、静止画等をカメラ部ex３６５で撮像中に音声入力部ex３５６で収音した音声信号を符号化し、符号化された音声データを多重／分離部ex３５３に送出する。

　多重／分離部ex３５３は、映像信号処理部ex３５５から供給された符号化された映像データと音声信号処理部ex３５４から供給された符号化された音声データを所定の方式で多重化し、その結果得られる多重化データを変調／復調部（変調／復調回路部）ex３５２でスペクトラム拡散処理をし、送信／受信部ex３５１でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex３５０を介して送信する。

　データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受信する場合、または映像およびもしくは音声が添付された電子メールを受信する場合、アンテナex３５０を介して受信された多重化データを復号化するために、多重／分離部ex３５３は、多重化データを分離することにより映像データのビットストリームと音声データのビットストリームとに分け、同期バスex３７０を介して符号化された映像データを映像信号処理部ex３５５に供給するとともに、符号化された音声データを音声信号処理部ex３５４に供給する。映像信号処理部ex３５５は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって復号化することにより映像信号を復号し（即ち、本発明の一態様に係る画像復号装置として機能する）、ＬＣＤ制御部ex３５９を介して表示部ex３５８から、例えばホームページにリンクされた動画像ファイルに含まれる映像、静止画が表示される。また音声信号処理部ex３５４は、音声信号を復号し、音声出力部ex３５７から音声が出力される。

　また、上記携帯電話ex１１４等の端末は、テレビex３００と同様に、符号化器・復号化器を両方持つ送受信型端末の他に、符号化器のみの送信端末、復号化器のみの受信端末という３通りの実装形式が考えられる。さらに、デジタル放送用システムex２００において、映像データに音楽データなどが多重化された多重化データを受信、送信するとして説明したが、音声データ以外に映像に関連する文字データなどが多重化されたデータであってもよいし、多重化データではなく映像データ自体であってもよい。

　このように、上記各実施の形態で示した動画像符号化方法あるいは動画像復号化方法を上述したいずれの機器・システムに用いることは可能であり、そうすることで、上記各実施の形態で説明した効果を得ることができる。

　また、本発明はかかる上記実施の形態に限定されるものではなく、本発明の範囲を逸脱することなく種々の変形または修正が可能である。

　（実施の形態４）
　上記各実施の形態で示した動画像符号化方法または装置と、ＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１など異なる規格に準拠した動画像符号化方法または装置とを、必要に応じて適宜切替えることにより、映像データを生成することも可能である。

　ここで、それぞれ異なる規格に準拠する複数の映像データを生成した場合、復号する際に、それぞれの規格に対応した復号方法を選択する必要がある。しかしながら、復号する映像データが、どの規格に準拠するものであるか識別できないため、適切な復号方法を選択することができないという課題を生じる。

　この課題を解決するために、映像データに音声データなどを多重化した多重化データは、映像データがどの規格に準拠するものであるかを示す識別情報を含む構成とする。上記各実施の形態で示す動画像符号化方法または装置によって生成された映像データを含む多重化データの具体的な構成を以下説明する。多重化データは、ＭＰＥＧ－２トランスポートストリーム形式のデジタルストリームである。

　図３８は、多重化データの構成を示す図である。図３８に示すように多重化データは、ビデオストリーム、オーディオストリーム、プレゼンテーショングラフィックスストリーム（ＰＧ）、インタラクティブグラフィックスストリームのうち、１つ以上を多重化することで得られる。ビデオストリームは映画の主映像および副映像を、オーディオストリーム（ＩＧ）は映画の主音声部分とその主音声とミキシングする副音声を、プレゼンテーショングラフィックスストリームは、映画の字幕をそれぞれ示している。ここで主映像とは画面に表示される通常の映像を示し、副映像とは主映像の中に小さな画面で表示する映像のことである。また、インタラクティブグラフィックスストリームは、画面上にＧＵＩ部品を配置することにより作成される対話画面を示している。ビデオストリームは、上記各実施の形態で示した動画像符号化方法または装置、従来のＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１などの規格に準拠した動画像符号化方法または装置によって符号化されている。オーディオストリームは、ドルビーＡＣ－３、Ｄｏｌｂｙ　Ｄｉｇｉｔａｌ　Ｐｌｕｓ、ＭＬＰ、ＤＴＳ、ＤＴＳ－ＨＤ、または、リニアＰＣＭのなどの方式で符号化されている。

　多重化データに含まれる各ストリームはＰＩＤによって識別される。例えば、映画の映像に利用するビデオストリームには０ｘ１０１１が、オーディオストリームには０ｘ１１００から０ｘ１１１Ｆまでが、プレゼンテーショングラフィックスには０ｘ１２００から０ｘ１２１Ｆまでが、インタラクティブグラフィックスストリームには０ｘ１４００から０ｘ１４１Ｆまでが、映画の副映像に利用するビデオストリームには０ｘ１Ｂ００から０ｘ１Ｂ１Ｆまで、主音声とミキシングする副音声に利用するオーディオストリームには０ｘ１Ａ００から０ｘ１Ａ１Ｆが、それぞれ割り当てられている。

　図３９は、多重化データがどのように多重化されるかを模式的に示す図である。まず、複数のビデオフレームからなるビデオストリームex２３５、複数のオーディオフレームからなるオーディオストリームex２３８を、それぞれＰＥＳパケット列ex２３６およびex２３９に変換し、ＴＳパケットex２３７およびex２４０に変換する。同じくプレゼンテーショングラフィックスストリームex２４１およびインタラクティブグラフィックスex２４４のデータをそれぞれＰＥＳパケット列ex２４２およびex２４５に変換し、さらにＴＳパケットex２４３およびex２４６に変換する。多重化データex２４７はこれらのＴＳパケットを１本のストリームに多重化することで構成される。

　図４０は、ＰＥＳパケット列に、ビデオストリームがどのように格納されるかをさらに詳しく示している。図４０における第１段目はビデオストリームのビデオフレーム列を示す。第２段目は、ＰＥＳパケット列を示す。図４０の矢印ｙｙ１，ｙｙ２，ｙｙ３，ｙｙ４に示すように、ビデオストリームにおける複数のＶｉｄｅｏ　Ｐｒｅｓｅｎｔａｔｉｏｎ　ＵｎｉｔであるＩピクチャ、Ｂピクチャ、Ｐピクチャは、ピクチャ毎に分割され、ＰＥＳパケットのペイロードに格納される。各ＰＥＳパケットはＰＥＳヘッダを持ち、ＰＥＳヘッダには、ピクチャの表示時刻であるＰＴＳ（Ｐｒｅｓｅｎｔａｔｉｏｎ　Ｔｉｍｅ－Ｓｔａｍｐ）やピクチャの復号時刻であるＤＴＳ（Ｄｅｃｏｄｉｎｇ　Ｔｉｍｅ－Ｓｔａｍｐ）が格納される。

　図４１は、多重化データに最終的に書き込まれるＴＳパケットの形式を示している。ＴＳパケットは、ストリームを識別するＰＩＤなどの情報を持つ４ＢｙｔｅのＴＳヘッダとデータを格納する１８４ＢｙｔｅのＴＳペイロードから構成される１８８Ｂｙｔｅ固定長のパケットであり、上記ＰＥＳパケットは分割されＴＳペイロードに格納される。ＢＤ－ＲＯＭの場合、ＴＳパケットには、４ＢｙｔｅのＴＰ＿Ｅｘｔｒａ＿Ｈｅａｄｅｒが付与され、１９２Ｂｙｔｅのソースパケットを構成し、多重化データに書き込まれる。ＴＰ＿Ｅｘｔｒａ＿ＨｅａｄｅｒにはＡＴＳ（Ａｒｒｉｖａｌ＿Ｔｉｍｅ＿Ｓｔａｍｐ）などの情報が記載される。ＡＴＳは当該ＴＳパケットのデコーダのＰＩＤフィルタへの転送開始時刻を示す。多重化データには図４１下段に示すようにソースパケットが並ぶこととなり、多重化データの先頭からインクリメントする番号はＳＰＮ（ソースパケットナンバー）と呼ばれる。

　また、多重化データに含まれるＴＳパケットには、映像・音声・字幕などの各ストリーム以外にもＰＡＴ（Ｐｒｏｇｒａｍ　Ａｓｓｏｃｉａｔｉｏｎ　Ｔａｂｌｅ）、ＰＭＴ（Ｐｒｏｇｒａｍ　Ｍａｐ　Ｔａｂｌｅ）、ＰＣＲ（Ｐｒｏｇｒａｍ　Ｃｌｏｃｋ　Ｒｅｆｅｒｅｎｃｅ）などがある。ＰＡＴは多重化データ中に利用されるＰＭＴのＰＩＤが何であるかを示し、ＰＡＴ自身のＰＩＤは０で登録される。ＰＭＴは、多重化データ中に含まれる映像・音声・字幕などの各ストリームのＰＩＤと各ＰＩＤに対応するストリームの属性情報を持ち、また多重化データに関する各種ディスクリプタを持つ。ディスクリプタには多重化データのコピーを許可・不許可を指示するコピーコントロール情報などがある。ＰＣＲは、ＡＴＳの時間軸であるＡＴＣ（Ａｒｒｉｖａｌ　Ｔｉｍｅ　Ｃｌｏｃｋ）とＰＴＳ・ＤＴＳの時間軸であるＳＴＣ（Ｓｙｓｔｅｍ　Ｔｉｍｅ　Ｃｌｏｃｋ）の同期を取るために、そのＰＣＲパケットがデコーダに転送されるＡＴＳに対応するＳＴＣ時間の情報を持つ。

　図４２はＰＭＴのデータ構造を詳しく説明する図である。ＰＭＴの先頭には、そのＰＭＴに含まれるデータの長さなどを記したＰＭＴヘッダが配置される。その後ろには、多重化データに関するディスクリプタが複数配置される。上記コピーコントロール情報などが、ディスクリプタとして記載される。ディスクリプタの後には、多重化データに含まれる各ストリームに関するストリーム情報が複数配置される。ストリーム情報は、ストリームの圧縮コーデックなどを識別するためストリームタイプ、ストリームのＰＩＤ、ストリームの属性情報（フレームレート、アスペクト比など）が記載されたストリームディスクリプタから構成される。ストリームディスクリプタは多重化データに存在するストリームの数だけ存在する。

　記録媒体などに記録する場合には、上記多重化データは、多重化データ情報ファイルと共に記録される。

　多重化データ情報ファイルは、図４３に示すように多重化データの管理情報であり、多重化データと１対１に対応し、多重化データ情報、ストリーム属性情報とエントリマップから構成される。

　多重化データ情報は図４３に示すようにシステムレート、再生開始時刻、再生終了時刻から構成されている。システムレートは多重化データの、後述するシステムターゲットデコーダのＰＩＤフィルタへの最大転送レートを示す。多重化データ中に含まれるＡＴＳの間隔はシステムレート以下になるように設定されている。再生開始時刻は多重化データの先頭のビデオフレームのＰＴＳであり、再生終了時刻は多重化データの終端のビデオフレームのＰＴＳに１フレーム分の再生間隔を足したものが設定される。

　ストリーム属性情報は図４４に示すように、多重化データに含まれる各ストリームについての属性情報が、ＰＩＤ毎に登録される。属性情報はビデオストリーム、オーディオストリーム、プレゼンテーショングラフィックスストリーム、インタラクティブグラフィックスストリーム毎に異なる情報を持つ。ビデオストリーム属性情報は、そのビデオストリームがどのような圧縮コーデックで圧縮されたか、ビデオストリームを構成する個々のピクチャデータの解像度がどれだけであるか、アスペクト比はどれだけであるか、フレームレートはどれだけであるかなどの情報を持つ。オーディオストリーム属性情報は、そのオーディオストリームがどのような圧縮コーデックで圧縮されたか、そのオーディオストリームに含まれるチャンネル数は何であるか、何の言語に対応するか、サンプリング周波数がどれだけであるかなどの情報を持つ。これらの情報は、プレーヤが再生する前のデコーダの初期化などに利用される。

　本実施の形態においては、上記多重化データのうち、ＰＭＴに含まれるストリームタイプを利用する。また、記録媒体に多重化データが記録されている場合には、多重化データ情報に含まれる、ビデオストリーム属性情報を利用する。具体的には、上記各実施の形態で示した動画像符号化方法または装置において、ＰＭＴに含まれるストリームタイプ、または、ビデオストリーム属性情報に対し、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示す固有の情報を設定するステップまたは手段を設ける。この構成により、上記各実施の形態で示した動画像符号化方法または装置によって生成した映像データと、他の規格に準拠する映像データとを識別することが可能になる。

　また、本実施の形態における動画像復号化方法のステップを図４５に示す。ステップexＳ１００において、多重化データからＰＭＴに含まれるストリームタイプ、または、多重化データ情報に含まれるビデオストリーム属性情報を取得する。次に、ステップexＳ１０１において、ストリームタイプ、または、ビデオストリーム属性情報が上記各実施の形態で示した動画像符号化方法または装置によって生成された多重化データであることを示しているか否かを判断する。そして、ストリームタイプ、または、ビデオストリーム属性情報が上記各実施の形態で示した動画像符号化方法または装置によって生成されたものであると判断された場合には、ステップexＳ１０２において、上記各実施の形態で示した動画像復号方法により復号を行う。また、ストリームタイプ、または、ビデオストリーム属性情報が、従来のＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１などの規格に準拠するものであることを示している場合には、ステップexＳ１０３において、従来の規格に準拠した動画像復号方法により復号を行う。

　このように、ストリームタイプ、または、ビデオストリーム属性情報に新たな固有値を設定することにより、復号する際に、上記各実施の形態で示した動画像復号化方法または装置で復号可能であるかを判断することができる。従って、異なる規格に準拠する多重化データが入力された場合であっても、適切な復号化方法または装置を選択することができるため、エラーを生じることなく復号することが可能となる。また、本実施の形態で示した動画像符号化方法または装置、または、動画像復号方法または装置を、上述したいずれの機器・システムに用いることも可能である。

　（実施の形態５）
　上記各実施の形態で示した動画像符号化方法および装置、動画像復号化方法および装置は、典型的には集積回路であるＬＳＩで実現される。一例として、図４６に１チップ化されたＬＳＩex５００の構成を示す。ＬＳＩex５００は、以下に説明する要素ex５０１、ex５０２、ex５０３、ex５０４、ex５０５、ex５０６、ex５０７、ex５０８、ex５０９を備え、各要素はバスex５１０を介して接続している。電源回路部ex５０５は電源がオン状態の場合に各部に対して電力を供給することで動作可能な状態に起動する。

　例えば符号化処理を行う場合には、ＬＳＩex５００は、ＣＰＵex５０２、メモリコントローラex５０３、ストリームコントローラex５０４、駆動周波数制御部ex５１２等を有する制御部ex５０１の制御に基づいて、ＡＶ　Ｉ／Ｏex５０９によりマイクex１１７やカメラex１１３等からＡＶ信号を入力する。入力されたＡＶ信号は、一旦ＳＤＲＡＭ等の外部のメモリex５１１に蓄積される。制御部ex５０１の制御に基づいて、蓄積したデータは処理量や処理速度に応じて適宜複数回に分けるなどされ信号処理部ex５０７に送られ、信号処理部ex５０７において音声信号の符号化および／または映像信号の符号化が行われる。ここで映像信号の符号化処理は上記各実施の形態で説明した符号化処理である。信号処理部ex５０７ではさらに、場合により符号化された音声データと符号化された映像データを多重化するなどの処理を行い、ストリームＩ／Ｏex５０６から外部に出力する。この出力された多重化データは、基地局ex１０７に向けて送信されたり、または記録メディアex２１５に書き込まれたりする。なお、多重化する際には同期するよう、一旦バッファex５０８にデータを蓄積するとよい。

　なお、上記では、メモリex５１１がＬＳＩex５００の外部の構成として説明したが、ＬＳＩex５００の内部に含まれる構成であってもよい。バッファex５０８も１つに限ったものではなく、複数のバッファを備えていてもよい。また、ＬＳＩex５００は１チップ化されてもよいし、複数チップ化されてもよい。

　また、上記では、制御部ex５０１が、ＣＰＵex５０２、メモリコントローラex５０３、ストリームコントローラex５０４、駆動周波数制御部ex５１２等を有するとしているが、制御部ex５０１の構成は、この構成に限らない。例えば、信号処理部ex５０７がさらにＣＰＵを備える構成であってもよい。信号処理部ex５０７の内部にもＣＰＵを設けることにより、処理速度をより向上させることが可能になる。また、他の例として、ＣＰＵex５０２が信号処理部ex５０７、または信号処理部ex５０７の一部である例えば音声信号処理部を備える構成であってもよい。このような場合には、制御部ex５０１は、信号処理部ex５０７、またはその一部を有するＣＰＵex５０２を備える構成となる。

　なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

　また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。このようなプログラマブル・ロジック・デバイスは、典型的には、ソフトウェア又はファームウェアを構成するプログラムを、ロードする又はメモリ等から読み込むことで、上記各実施の形態で示した動画像符号化方法、又は動画像復号化方法を実行することができる。

　さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

　（実施の形態６）
　上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データを復号する場合、従来のＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１などの規格に準拠する映像データを復号する場合に比べ、処理量が増加することが考えられる。そのため、ＬＳＩex５００において、従来の規格に準拠する映像データを復号する際のＣＰＵex５０２の駆動周波数よりも高い駆動周波数に設定する必要がある。しかし、駆動周波数を高くすると、消費電力が高くなるという課題が生じる。

　この課題を解決するために、テレビex３００、ＬＳＩex５００などの動画像復号化装置は、映像データがどの規格に準拠するものであるかを識別し、規格に応じて駆動周波数を切替える構成とする。図４７は、本実施の形態における構成ex８００を示している。駆動周波数切替え部ex８０３は、映像データが、上記各実施の形態で示した動画像符号化方法または装置によって生成されたものである場合には、駆動周波数を高く設定する。そして、上記各実施の形態で示した動画像復号化方法を実行する復号処理部ex８０１に対し、映像データを復号するよう指示する。一方、映像データが、従来の規格に準拠する映像データである場合には、映像データが、上記各実施の形態で示した動画像符号化方法または装置によって生成されたものである場合に比べ、駆動周波数を低く設定する。そして、従来の規格に準拠する復号処理部ex８０２に対し、映像データを復号するよう指示する。

　より具体的には、駆動周波数切替え部ex８０３は、図４６のＣＰＵex５０２と駆動周波数制御部ex５１２から構成される。また、上記各実施の形態で示した動画像復号化方法を実行する復号処理部ex８０１、および、従来の規格に準拠する復号処理部ex８０２は、図４６の信号処理部ex５０７に該当する。ＣＰＵex５０２は、映像データがどの規格に準拠するものであるかを識別する。そして、ＣＰＵex５０２からの信号に基づいて、駆動周波数制御部ex５１２は、駆動周波数を設定する。また、ＣＰＵex５０２からの信号に基づいて、信号処理部ex５０７は、映像データの復号を行う。ここで、映像データの識別には、例えば、実施の形態４で記載した識別情報を利用することが考えられる。識別情報に関しては、実施の形態４で記載したものに限られず、映像データがどの規格に準拠するか識別できる情報であればよい。例えば、映像データがテレビに利用されるものであるか、ディスクに利用されるものであるかなどを識別する外部信号に基づいて、映像データがどの規格に準拠するものであるか識別可能である場合には、このような外部信号に基づいて識別してもよい。また、ＣＰＵex５０２における駆動周波数の選択は、例えば、図４９のような映像データの規格と、駆動周波数とを対応付けたルックアップテーブルに基づいて行うことが考えられる。ルックアップテーブルを、バッファex５０８や、ＬＳＩの内部メモリに格納しておき、ＣＰＵex５０２がこのルックアップテーブルを参照することにより、駆動周波数を選択することが可能である。

　図４８は、本実施の形態の方法を実施するステップを示している。まず、ステップexＳ２００では、信号処理部ex５０７において、多重化データから識別情報を取得する。次に、ステップexＳ２０１では、ＣＰＵex５０２において、識別情報に基づいて映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものであるか否かを識別する。映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものである場合には、ステップexＳ２０２において、駆動周波数を高く設定する信号を、ＣＰＵex５０２が駆動周波数制御部ex５１２に送る。そして、駆動周波数制御部ex５１２において、高い駆動周波数に設定される。一方、従来のＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１などの規格に準拠する映像データであることを示している場合には、ステップexＳ２０３において、駆動周波数を低く設定する信号を、ＣＰＵex５０２が駆動周波数制御部ex５１２に送る。そして、駆動周波数制御部ex５１２において、映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものである場合に比べ、低い駆動周波数に設定される。

　さらに、駆動周波数の切替えに連動して、ＬＳＩex５００またはＬＳＩex５００を含む装置に与える電圧を変更することにより、省電力効果をより高めることが可能である。例えば、駆動周波数を低く設定する場合には、これに伴い、駆動周波数を高く設定している場合に比べ、ＬＳＩex５００またはＬＳＩex５００を含む装置に与える電圧を低く設定することが考えられる。

　また、駆動周波数の設定方法は、復号する際の処理量が大きい場合に、駆動周波数を高く設定し、復号する際の処理量が小さい場合に、駆動周波数を低く設定すればよく、上述した設定方法に限らない。例えば、ＭＰＥＧ４－ＡＶＣ規格に準拠する映像データを復号する処理量の方が、上記各実施の形態で示した動画像符号化方法または装置により生成された映像データを復号する処理量よりも大きい場合には、駆動周波数の設定を上述した場合の逆にすることが考えられる。

　さらに、駆動周波数の設定方法は、駆動周波数を低くする構成に限らない。例えば、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合には、ＬＳＩex５００またはＬＳＩex５００を含む装置に与える電圧を高く設定し、従来のＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１などの規格に準拠する映像データであることを示している場合には、ＬＳＩex５００またはＬＳＩex５００を含む装置に与える電圧を低く設定することも考えられる。また、他の例としては、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合には、ＣＰＵex５０２の駆動を停止させることなく、従来のＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１などの規格に準拠する映像データであることを示している場合には、処理に余裕があるため、ＣＰＵex５０２の駆動を一時停止させることも考えられる。識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合であっても、処理に余裕があれば、ＣＰＵex５０２の駆動を一時停止させることも考えられる。この場合は、従来のＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１などの規格に準拠する映像データであることを示している場合に比べて、停止時間を短く設定することが考えられる。

　このように、映像データが準拠する規格に応じて、駆動周波数を切替えることにより、省電力化を図ることが可能になる。また、電池を用いてＬＳＩex５００またはＬＳＩex５００を含む装置を駆動している場合には、省電力化に伴い、電池の寿命を長くすることが可能である。

　（実施の形態７）
　テレビや、携帯電話など、上述した機器・システムには、異なる規格に準拠する複数の映像データが入力される場合がある。このように、異なる規格に準拠する複数の映像データが入力された場合にも復号できるようにするために、ＬＳＩex５００の信号処理部ex５０７が複数の規格に対応している必要がある。しかし、それぞれの規格に対応する信号処理部ex５０７を個別に用いると、ＬＳＩex５００の回路規模が大きくなり、また、コストが増加するという課題が生じる。

　この課題を解決するために、上記各実施の形態で示した動画像復号方法を実行するための復号処理部と、従来のＭＰＥＧ－２、ＭＰＥＧ４－ＡＶＣ、ＶＣ－１などの規格に準拠する復号処理部とを一部共有化する構成とする。この構成例を図５０Ａのex９００に示す。例えば、上記各実施の形態で示した動画像復号方法と、ＭＰＥＧ４－ＡＶＣ規格に準拠する動画像復号方法とは、エントロピー符号化、逆量子化、デブロッキング・フィルタ、動き補償などの処理において処理内容が一部共通する。共通する処理内容については、ＭＰＥＧ４－ＡＶＣ規格に対応する復号処理部ex９０２を共有し、ＭＰＥＧ４－ＡＶＣ規格に対応しない、本発明の一態様に特有の他の処理内容については、専用の復号処理部ex９０１を用いるという構成が考えられる。復号処理部の共有化に関しては、共通する処理内容については、上記各実施の形態で示した動画像復号化方法を実行するための復号処理部を共有し、ＭＰＥＧ４－ＡＶＣ規格に特有の処理内容については、専用の復号処理部を用いる構成であってもよい。

　また、処理を一部共有化する他の例を図５０Ｂのex１０００に示す。この例では、本発明の一態様に特有の処理内容に対応した専用の復号処理部ex１００１と、他の従来規格に特有の処理内容に対応した専用の復号処理部ex１００２と、本発明の一態様に係る動画像復号方法と他の従来規格の動画像復号方法とに共通する処理内容に対応した共用の復号処理部ex１００３とを用いる構成としている。ここで、専用の復号処理部ex１００１、ex１００２は、必ずしも本発明の一態様、または、他の従来規格に特有の処理内容に特化したものではなく、他の汎用処理を実行できるものであってもよい。また、本実施の形態の構成を、ＬＳＩex５００で実装することも可能である。

　このように、本発明の一態様に係る動画像復号方法と、従来の規格の動画像復号方法とで共通する処理内容について、復号処理部を共有することにより、ＬＳＩの回路規模を小さくし、かつ、コストを低減することが可能である。

　本発明は、画像処理装置、撮像装置および画像の再生装置に適用可能である。具体的には、デジタルスチルカメラ、ムービー、カメラ機能付き携帯電話機、およびスマートフォンなどに、本発明は適用可能である。

　１０，１００　　符号化装置
　１１　　背景抽出部
　１２　　メタデータ抽出部
　１３　　符号情報生成部
　２０，２００　　復号装置
　２１　　背景特定部
　２２　　メタデータ特定部
　２３　　生成部
　１１０　　メタデータ抽出部
　１２０　　モデル解析部
　１３０　　仮符号生成部
　１４０　　画像再構成部
　１５０　　減算部
　１６０　　符号生成部
　２１０　　メタデータ復元部
　２２０　　復号画像生成部

Claims

　動画像をフレームごとに符号化する符号化方法であって、
　前記動画像に含まれる対象フレームから背景画像を抽出し、
　前記対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対する、当該オブジェクトの特徴を示す複数種類のメタデータを前記対象フレームから抽出し、
　前記複数種類のメタデータを、種類毎に階層的に配置し、
　前記背景画像を特定するための背景画像情報と、前記複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とを含む符号情報を生成する、
　符号化方法。
　前記複数種類のメタデータは、さらに、前記対象フレームに含まれるオブジェクトの総数を含む、
　請求項１記載の符号化方法。
　前記符号化方法では、さらに、
　抽出された前記複数種類のメタデータのうちの何れかの種類のメタデータである推定対象メタデータを、複数の推定手法のうちの何れかの推定手法を用いて推定し、
　前記符号情報の生成では、
　前記推定対象メタデータの推定に用いられた前記推定手法に関する情報を、前記メタ情報として含む前記符号情報を生成する
　請求項１に記載の符号化方法。
　前記符号化方法では、さらに、
　前記推定対象メタデータの推定によって得られた推定メタデータと、前記推定対象メタデータとの残差が、所定の閾値以下であるか否かを判定し、前記所定の閾値以下でないと判定するときには、前記残差を補うための補正パラメータを前記符号情報に含める
　請求項３に記載の符号化方法。
　前記推定対象メタデータの推定では、
　前記動画像に含まれる少なくとも１つの参照フレームのそれぞれにおける同一のオブジェクトの座標に対して、補間または補外を行うことによって、前記推定対象メタデータである座標を推定する
　請求項３または４に記載の符号化方法。
　前記推定対象メタデータの推定では、
　さらに、前記動画像における前記オブジェクトの空間的な位置とサイズの変化を示す動きモデル情報を生成し、
　前記補間または補外と前記動きモデル情報とに基づいて、前記推定対象メタデータである座標と、前記複数種類のメタデータのうちの他の種類のメタデータであるサイズとを推定する
　請求項５に記載の符号化方法。
　第１の階層に属するメタデータの種類は、前記対象フレーム内のオブジェクトの座標である
　請求項１～６のいずれか１項に記載の符号化方法。
　第２の階層に属するメタデータの種類は、前記対象フレーム内のオブジェクトのサイズである
　請求項７に記載の符号化方法。
　第３の階層に属するメタデータの種類は、前記対象フレーム内のオブジェクトとして映し出された被写体の分類名である
　請求項８に記載の符号化方法。
　前記符号化方法では、さらに、
　前記背景画像情報および前記メタ情報に基づいて、前記対象フレームを再構成することによって再構成画像を生成し、
　前記対象フレームと再構成画像との差分を示す差分画像を前記符号情報に含める
　請求項９に記載の符号化方法。
　前記再構成画像の生成では、
　前記第１の階層に属するメタデータによって前記オブジェクトの座標を特定し、
　前記第２の階層に属するメタデータによって前記オブジェクトのサイズを特定し、
　前記第３の階層に属するメタデータによって被写体の分類名に関連付けられた関連画像を特定し、
　前記背景画像情報によって前記背景画像を特定し、
　特定された前記背景画像のうちの、特定された前記座標に、特定された前記サイズの、特定された前記関連画像を重畳することによって、前記再構成画像を生成する
　請求項１０に記載の符号化方法。
　前記再構成画像の生成では、
　前記関連画像をサーバからネットワークを介して取得する
　請求項１１に記載の符号化方法。
　符号化動画像を、フレームに対応する符号情報ごとに復号する復号方法であって、
　前記符号情報に含まれる背景画像情報から、対象フレームの背景画像を特定し、
　前記符号情報に含まれるメタ情報から、前記対象フレームに含まれる１つのオブジェクトの特徴を示し、種類毎に階層的に配置された１以上の種類のメタデータを導出し、
　前記１以上の種類のメタデータにより表現される前記１つのオブジェクトを、特定された前記背景画像に重畳することによって、復号画像を生成し、
　前記メタデータは、前記対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対し、当該オブジェクトの特徴を示す、
　復号方法。
　前記復号画像は、前記メタデータの階層毎に抽象度が互いに異なる前記オブジェクトを前記背景画像に重畳することにより生成される、
　請求項１３に記載の復号方法。
　前記メタ情報は、更に、前記対象フレームに含まれるオブジェクトの総数を含む、
　請求項１３または１４に記載の復号方法。
　前記１以上の種類のメタデータの導出では、
　前記メタ情報として含まれる、推定手法に関する情報を用いて、メタデータの推定を行うことによって、前記メタデータを導出する
　請求項１３～１５の何れか１項に記載の復号方法。
　前記１以上の種類のメタデータの導出では、
　前記符号情報に補正パラメータが存在するか否かを判定し、存在すると判定するときには、前記メタデータの推定によって得られた推定メタデータを、前記補正パラメータに基づいて補正することによって、前記メタデータを導出する
　請求項１６に記載の復号方法。
　前記メタデータの推定では、
　前記符号化動画像に含まれる少なくとも１つの参照フレームのそれぞれにおける同一のオブジェクトの座標に対して、補間または補外を行うことによって、前記メタデータである座標を推定する
　請求項１６または１７に記載の復号方法。
　前記メタデータの推定では、
　前記符号情報から、前記符号化動画像における前記オブジェクトの空間的な位置とサイズの変化を示す動きモデル情報を抽出し、
　前記補間または補外と前記動きモデル情報とに基づいて、前記メタデータである座標と、前記１以上の種類のメタデータのうちの他の種類のメタデータであるサイズとを推定する
　請求項１８に記載の復号方法。
　前記符号情報において第１の階層に属する種類は、前記対象フレーム内のオブジェクトの座標である
　請求項１３～１９のいずれか１項に記載の復号方法。
　前記符号情報において第２の階層に属する種類は、前記対象フレーム内のオブジェクトのサイズである
　請求項２０に記載の復号方法。
　前記符号情報において第３の階層に属する種類は、前記対象フレーム内のオブジェクトとして映し出された被写体の分類名である
　請求項２１に記載の復号方法。
　前記復号方法では、さらに、
　前記符号情報に差分画像が存在するか否かを判定し、
　前記復号画像の生成では、
　前記少なくとも１つのオブジェクトを前記背景画像に重畳することによって再構成画像を生成し、前記再構成画像に対して前記差分画像を加算することによって、前記復号画像を生成する
　請求項２２に記載の復号方法。
　前記再構成画像の生成では、
　前記第１の階層に属するメタデータによって前記オブジェクトの座標を特定し、
　前記第２の階層に属するメタデータによって前記オブジェクトのサイズを特定し、
　前記第３の階層に属するメタデータによって被写体の分類名に関連付けられた関連画像を特定し、
　前記背景画像情報によって前記背景画像を特定し、
　特定された前記背景画像のうちの、特定された前記座標に、特定された前記サイズの、特定された前記関連画像を重畳することによって、前記再構成画像を生成する
　請求項２３に記載の復号方法。
　前記再構成画像の生成では、
　前記関連画像をサーバからネットワークを介して取得する
　請求項２４に記載の復号方法。
　動画像をフレームごとに符号化する符号化装置であって、
　前記動画像に含まれる対象フレームから背景画像を抽出する背景抽出部と、
　前記対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対する、当該オブジェクトの特徴を示す複数種類のメタデータを前記対象フレームから抽出するメタデータ抽出部と、
　前記複数種類のメタデータを、種類毎に階層的に配置する配置部と、
　前記背景画像を特定するための背景画像情報と、前記複数種類のメタデータの中から、選択された階層に対応する一部又は全てのメタデータを示すメタ情報とを含む符号情報を生成する符号情報生成部と
　を備える符号化装置。
　符号化動画像を、フレームに対応する符号情報ごとに復号する復号装置であって、
　前記符号情報に含まれる背景画像情報から、対象フレームの背景画像を特定する背景特定部と、
　前記符号情報に含まれるメタ情報から、前記対象フレームに含まれる１つのオブジェクトの特徴を示し、種類毎に階層的に配置された１以上の種類のメタデータを導出するメタデータ導出部と、
　前記１以上の種類のメタデータにより表現される前記１つのオブジェクトを、特定された前記背景画像に重畳することによって、復号画像を生成する生成部とを備え、
　前記メタデータは、前記対象フレームに含まれる少なくとも１つのオブジェクトのそれぞれに対し、当該オブジェクトの特徴を示す、
　復号装置。