JPWO2006035883A1

JPWO2006035883A1 - 画像処理装置、画像処理方法、および画像処理プログラム

Info

Publication number: JPWO2006035883A1
Application number: JP2006537811A
Authority: JP
Inventors: 潤神田; 岩村　宏; 宏岩村; 山崎　博司; 博司山崎
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2004-09-30
Filing date: 2005-09-29
Publication date: 2008-07-31
Anticipated expiration: 2025-09-29
Also published as: WO2006035883A1; US20070258009A1; JP4520994B2

Abstract

映像内の複数のショットを、ショット間の類似度にもとづいて複数のグループに分類するとともに、グループ内で特によく類似するもの同士を接続して図示するように階層化する。そして、たとえば図中Ａグループの場合、ショット「Ａ１」の代表フレーム「ＫA1」についてはイントラ符号化を行うが、その一階層下の「Ａ２１」「Ａ２２」「Ａ２３」の代表フレーム「ＳA21」「ＳA22」「ＳA23」については、いずれも「ＫA1」からの予測符号化を行う。以下同様に各ショットの代表フレームを、同一グループ内の一階層上の代表フレームから芋蔓式に予測符号化し、かつ代表フレーム以外のフレームについては、当該フレームが属するショットの代表フレームからの予測符号化を行う。

Description

この発明は、動画像を符号化あるいは復号する画像処理装置、画像処理方法、および画像処理プログラムに関する。ただし本発明の利用は、上述した画像処理装置、画像処理方法、および画像処理プログラムに限らない。

動画像の符号化における符号効率の向上、動画像へのアクセス方法の多様化、動画像のブラウジングの容易化、ファイル形式変換の容易化などといった様々な目的で、動画像の構造化（具体的にはフレーム順序の並び替え、ショット単位での階層化など）を行う従来技術としては、たとえば下記特許文献１〜５に記載の発明などがあった。

このうち特許文献１に記載の従来技術では、ファイル作成手段により動画像データのフレーム単位での並び換え順序を示す編集情報を作成する。また、画像圧縮手段は編集前の動画像データを前フレームとの差分を基に圧縮符号化し、その符号化データを上記編集情報ファイルと共に出力手段から送信する。

また、特許文献２に記載の従来技術では、画像データ列メモリ部に保存された予測符号化画像データを読み出し、階層分離部でそのデータ構造が持つ階層に応じて階層に分離する。次に、分離された階層から画像データの持つ物理的特徴、すなわち一般性を有しコンテントを反映した特徴を、画像特徴抽出部にて抽出する。次に、これらの物理的特徴から各々の画像を特徴付ける特徴ベクトルを特徴ベクトル生成部にて生成する。次に、その特徴ベクトル間での距離を算出して特徴ベクトルを、分割・統合部にて分割・統合して映像を深い階層構造で自動的に構造化し、特徴ベクトル管理部にて蓄積、管理する。

また、特許文献３に記載の従来技術は、動画像を符号化し、該符号化された動画像を各ショットに分割し、ついで分割されたショット毎の類似度を用い、ショットを統合してシーンを抽出処理することを特徴とした動画像の自動階層構造化方法であり、かつまたこの階層構造化されたデータを用いて動画像全体の内容把握、所望のシーンまたはショットの検出を容易にすることを特徴とした動画像のブラウジング方法にかかるものである。

また、特許文献４に記載の従来技術では、複数のカメラで撮像した複数チャンネルの映像信号を切替手段で順番に切り替え、並び替え手段でチャンネル毎にＧＯＰ単位で並び替え、ＭＰＥＧ圧縮手段で圧縮して記録手段に記録するとともに、ＭＰＥＧ伸張手段で各チャンネル毎に伸張し、表示制御手段で映像データを多画面表示できるように、データサイズを圧縮して複数の表示用メモリの所定位置に各チャンネルの入力順にまとめて保存、再生し、画像出力手段がモニタの１画面に多画面表示する。

また、特許文献５に記載の従来技術では、第１の動画像符号化データ形式であるＭＰＥＧ−２形式のビットストリームＡ１をＭＰＥＧ−２デコーダによりデコードして得られた再生動画像信号Ａ２及びサイド情報Ａ３をサイズ変換部により第２の動画像符号化データ形式であるＭＰＥＧ−４形式に適した形態に変換し、変換後の再生画像信号Ａ４を変換後のサイド情報Ａ５に含まれる動きベクトル情報を利用してＭＰＥＧ−４エンコーダによってエンコードすることによりＭＰＥＧ−４形式のビットストリームＡ６を得ると同時に、インデキシング部によりサイド情報Ａ５に含まれる動きベクトルを利用してインデキシング処理を行い、構造化データＡ７を得る。

特開平８−１８６７８９号公報特開平９−２９４２７７号公報特開平１０−２５７４３６号公報特開２００１−０５４１０６号公報特開２００２−１８５９６９号公報

一方、動画像の符号化における符号効率の向上を目的として、従来様々な予測方式が提案されてきた。たとえばＭＰＥＧ−１では前方向予測フレーム（Ｐフレーム）や両方向予測フレーム（Ｂフレーム）の採用により、ＭＰＥＧ−２ではフィールド予測の採用により、ＭＰＥＧ−４ｐａｒｔ＿２ではスプライト符号化やＧＭＣ（ＧｌｏｂａｌＭｏｔｉｏｎＣｏｍｐｅｎｓａｔｉｏｎ：グローバル動き補償予測）の採用により、ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４ｐａｒｔ＿１０（ＡＶＣ：ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）では複数参照フレームの採用により、それぞれ符号効率を向上させている。

ところで符号化対象となる映像の中には、通常、以下に例示するような相互に類似するショット（連続する複数フレーム）が多く含まれている。
・ニュース番組におけるニュースキャスターへのバストショット
・野球での投球／バッティングシーン、テニスのサーブシーン、スキージャンプの滑降／飛行シーンなど
・スポーツ番組などにおけるハイライトシーンの繰り返し
・バラエティ番組などにおけるＣＭ前後の同一ショットの繰り返し
・二人の会話シーンにおける互いへのアップショットの繰り返しを考えた場合の、各人へのアップショット
・連続ドラマを全話通して考えた場合の、オープニングやエンディング、あるいは前話の回想シーンなど
・同一ＣＭの繰り返し

同一ショットの繰り返しはもとより、固定カメラからの同一アングルへのショットはしばしば類似ショットとなる。そして、こうした類似ショットは独立して符号化するよりも、一方をもう一方の参照フレームとしてそれらの差分を符号化したほうが、全体として符号量が削減できると期待できる。

しかしながら従来のＭＰＥＧにおいては、対象映像全体の構造、たとえば上記のような類似ショットの繰り返しを符号化に利用せず（言い換えれば、類似ショット間の情報量の冗長性を利用せず）、通常ほぼ時系列順に符号化を行うため、たとえばそのぶん符号効率が悪いなどの問題点があった。具体的には、映像中にシーンチェンジがあった場合の従来技術における予測方法は下記（１）〜（３）のようになっていた。

（１）一定間隔でＩフレームを挿入（図１５（１））
シーンチェンジの有無にかかわらず、Ｉフレームの間隔は一定とするものである。この場合、シーンチェンジ直後のインターフレーム（具体的にはそのうちＰフレーム）の発生量が多くなる（予測誤差が大きくなるため）。また、インターフレームは発生量をあまり多くできない場合が多く画質が劣化する。

（２）シーンチェンジ時にもＩフレームを挿入（図１５（２））
基本的には一定間隔でＩフレームを挿入するが、シーンチェンジを検出したときはそのタイミングでもＩフレームを挿入するものである。この場合画質は改善されるが、Ｉフレームなので発生量が多く、そのぶん他のインターフレームの配分が減ることになり、総合的には画質が良くなるとは言えない。

（３）参照フレームを複数の候補から選択
Ｈ．２６４（ＭＰＥＧ−４ｐａｒｔ＿１０ＡＶＣ）などで採用されている方式であるが、Ｈ．２６４の場合、参照フレームとして選べるフレームの数に上限がある。また、参照フレームは符号化対象フレームから所定距離内に存在する必要がある。

上述した課題を解決し、目的を達成するため、請求項１の発明にかかる画像処理装置は、動画像を連続する複数の画像からなる複数のショットに分割するショット分割手段と、前記ショット分割手段により分割されたショットをショット間の類似度にもとづいて構造化するショット構造化手段と、前記動画像中の符号化対象画像と、前記ショット構造化手段による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出手段と、前記動き検出手段により検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償手段と、前記符号化対象画像と前記動き補償手段により生成された予測画像との差分を符号化する符号化手段と、を備えることを特徴とする。

また、請求項４の発明にかかる画像処理装置は、動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出手段と、前記構造化情報抽出手段により抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第１の復号手段と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出手段により抽出された情報中で指定され、前記第１の復号手段により復号された参照画像を用いて復号する第２の復号手段と、を備えることを特徴とする。

また、請求項６の発明にかかる画像処理方法は、動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて構造化するショット構造化工程と、前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、を含むことを特徴とする。

また、請求項９の発明にかかる画像処理方法は、動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出工程と、前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第１の復号工程と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第１の復号工程で復号された参照画像を用いて復号する第２の復号工程と、を含むことを特徴とする。

また、請求項１１の発明にかかる画像処理プログラムは、動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて構造化するショット構造化工程と、前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、をプロセッサに実行させることを特徴とする。

また、請求項１４の発明にかかる画像処理プログラムは、動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出工程と、前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第１の復号工程と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第１の復号工程で復号された参照画像を用いて復号する第２の復号工程と、をプロセッサに実行させることを特徴とする。

図１は、この発明の実施の形態にかかる画像処理装置（エンコーダ）の構成の一例を示す説明図である。図２は、特徴量ベクトルの基礎となる各ショットの特徴量を模式的に示す説明図である。図３は、ショット構造化部１１２により構造化されたショットを模式的に示す説明図である。図４は、図３のように構造化されたショットの映像内での並び順の一例を示す説明図である。図５は、図３のように構造化されたショットの映像内での並び順の他の一例を示す説明図である。図６は、ショット構造化部１１２により構造化されたショットを模式的に示す説明図である（各ショットの先頭フレームを代表フレームとする場合）。図７は、この発明の実施の形態にかかる画像処理装置における、画像符号化処理の手順を示すフローチャートである。図８は、ショット構造化部１１２によるショット構造化の手順（図７のステップＳ７０２）を詳細に示すフローチャートである。図９は、グローバル動き補償予測の概念を模式的に示す説明図である。図１０は、ブロック単位の動き補償予測の概念を模式的に示す説明図である。図１１は、図１２のように構造化されたショットの映像内での並び順の一例を示す説明図である。図１２は、ショット構造化部１１２により構造化されたショットを模式的に示す説明図である（グループ内のショットに階層がない場合）。図１３は、この発明の実施の形態にかかる画像処理装置（デコーダ）の構成の一例を示す説明図である。図１４は、この発明の実施の形態にかかる画像処理装置における、画像復号処理の手順を示すフローチャートである。図１５は、従来技術におけるＩフレームの挿入タイミングを模式的に示す説明図である。

符号の説明

１００、１３００入力バッファメモリ
１０１変換部
１０２量子化部
１０３、１３０１エントロピー符号化部
１０４符号化制御部
１０５、１３０２逆量子化部
１０６、１３０３逆変換部
１０７ローカルデコード画像記憶メモリ
１０８動きベクトル検出部
１０９、１３０４フレーム間動き補償部
１１０多重化部
１１１ショット分割部
１１２ショット構造化部
１１３、１３０６参照フレーム記憶メモリ
１３０５構造化情報抽出部

以下に添付図面を参照して、この発明にかかる画像処理装置、画像処理方法、および画像処理プログラムの好適な実施の形態を詳細に説明する。

（実施の形態）
図１は、この発明の実施の形態にかかる画像処理装置（エンコーダ）の構成の一例を示す説明図である。図中１００〜１１０は、従来技術によるＪＰＥＧ／ＭＰＥＧエンコーダと同一である。すなわち１００は、符号化対象となる映像の各フレームを保持する入力バッファメモリ、１０１は符号化対象フレーム（から参照フレームを差し引いた予測誤差）について離散コサイン変換（ＤＣＴ）や離散ウェーブレット変換（ＤＷＴ）などを行う変換部、１０２は上記変換後のデータを所定のステップ幅で量子化する量子化部、１０３は上記量子化後のデータや、後述する動きベクトル情報、構造化情報などを符号化する（その手法は特に問わない）エントロピー符号化部、１０４は量子化部１０２およびエントロピー符号化部１０３の動作を制御する符号化制御部である。

１０５は量子化後／符号化前のデータを逆量子化する逆量子化部、１０６は逆量子化後のデータをさらに逆変換する逆変換部、１０７は逆変換後のフレームに参照フレームを足し合わせたもの、すなわちローカルデコード画像を一時的に保持するローカルデコード画像記憶メモリである。

また、１０８は符号化対象フレームと参照フレームとの間の動き情報、具体的にはここでは動きベクトルを計算する動きベクトル検出部、１０９は計算された動きベクトルに従って、参照フレームから符号化対象フレームの予測値（フレーム）を生成するフレーム間動き補償部である。１１０は符号化後の映像や動きベクトル情報、後述する構造化情報などを多重化する多重化部である。なお、これらの情報は多重化せず、別々のストリームとして伝送するのであってもよい（多重化する必要があるかどうかはアプリケーションに依存する）。

次に、本発明の特徴部分である１１１〜１１３の各部について説明する。まず、１１１はショット分割部であり、入力バッファメモリ１００内の映像を連続する複数フレーム、すなわち「ショット」に分割する機能部である。このショットの分割点となるのは、たとえば上記映像中での画像特徴量の変化点や、背景音声の特徴量の変化点である。このうち画像特徴量の変化点としては、たとえば画面の切り替わり（シーンチェンジ、カット点）や、カメラワークの変化点（シーンチェンジ／パン／ズーム／静止などの変化点）などが考えられる。もっとも、分割点をどこにするかやその分割点をどうやって特定するか（言い換えれば、ショットをどのように構成するか）は本発明では特に問わない。

１１２はショット構造化部であり、ショット分割部１１１で分割された複数のショットを、ショット間の類似度に応じて構造化する機能部である。ショット間の類似度をどのようにして算出するかも本発明では特に問わないが、ここではたとえば各ショットにつき、その特徴量ベクトルＸを求め、特徴量ベクトル間のユークリッド距離をショット間の類似度であるとみなす。

たとえばショットａの特徴量ベクトルＸａは、ショットａをＮ個に分割して得られた各部分ショットの累積カラーヒストグラムを要素とする多次元のベクトルであるものとする。図２に示すようにＮ＝３のとき、
Ｘａ＝｛ＨＳａ、ＨＭａ、ＨＥａ｝
ただしＨＳａ：図中「開始分割ショット」の累積カラーヒストグラム
ＨＭａ：図中「中間分割ショット」の累積カラーヒストグラム
ＨＥａ：図中「終了分割ショット」の累積カラーヒストグラム
なおＨＳａ、ＨＭａ、ＨＥａ自体も多次元の特徴量ベクトルである。

なお「カラーヒストグラム」とは、色空間を複数の領域に分割し、フレーム内の全画素について各領域での出現数をカウントしたものである。色空間としてはたとえばＲＧＢ（Ｒ／赤、Ｇ／緑、Ｂ／青）、ＹＣｂＣｒ（Ｙ／輝度、ＣｂＣｒ／色差）のＣｂＣｒ成分、ＨＳＶ（Ｈｕｅ／色相、Ｓａｔｕｒａｔｉｏｎ／彩度、Ｖａｌｕｅ／明度）のＨｕｅ成分が利用される。得られたヒストグラムをフレーム内の画素数で正規化することで、サイズが異なる画像同士の比較も可能となる。この正規化されたヒストグラムをショット内の全フレームについて累積したものが「累積カラーヒストグラム」である。

次に、ショットａとショットｂの類似度Ｄ_a,bを、上記で求めた特徴量ベクトルを用いてたとえば下記式により算出する。

この値が小さい（特徴ベクトル間の距離が小さい）ショットほど類似度は高く、大きい（特徴ベクトル間の距離が大きい）ショットほど類似度は低くなる。そしてショット構造化部１１２は、この類似度に応じて、複数のショットを図３に示すように分類・階層化する。

図中、「Ａ１」「Ｂ１」などと記された個々の矩形がショットである。図示するように、ショット分割部１１１で分割されたショットは類似度が閾値以下のもの同士のグループ（図示する例ではＡ・Ｂ・Ｃの３グループ）に分類されており、各グループ内では特によく類似するもの同士が矢印で結ばれている。すなわち、たとえばＡグループ内の１０個のショットのうち、「Ａ１」との類似度が特に高いショットは「Ａ２１」「Ａ２２」「Ａ２３」の３つであり、「Ａ２１」との類似度が特に高いショットは「Ａ３１」であり、「Ａ３１」との類似度が特に高いショットは「Ａ４１０」「Ａ４１１」の２つである。

なお、もとの映像内での各ショットの並び順はたとえば図４のようであるものとする。図３では「Ａ２１」は「Ａ３１」の前に位置しているが、図４によれば「Ａ２１」は「Ａ３１」よりも時系列的に後のショットである。また、図３では「Ａ２１」のほうが「Ａ２２」よりも上に位置しているが、図４によれば「Ａ２１」は「Ａ２２」よりも時系列的に後のショットである。このように、図３のツリー内での各ショットの位置はもっぱらショット間の類似度によって決まり、各ショットの映像内での出現順序とは無関係である。

もっとも、ショット間の類似度のほかに、時系列（各ショットの映像内での出現順序）もある程度考慮して構造化を行うようにしてもよい。たとえば図３のように構造化されたショットは、映像内では図５に示すような並び順になっているものとする。この場合は図３でも図５でも、「Ａ２１」は「Ａ３１」の前に位置している。すなわち図３のツリーの枝をルートから辿ったときのショットの出現順序は、映像内での各ショットの出現順序と一致している（時系列的に先のショットほどツリーの上位に位置している、と言ってもよい）。しかしながら、ツリーの同階層にあるショット間の時系列的な順序は不明である。たとえば、図３中「Ａ３１」は「Ａ３２０」より上に位置しているが、図５によれば「Ａ３１」は「Ａ３２０」よりも時系列的に後のショットである。このように、類似度のほかに時系列も考慮してショットを構造化する場合は、ローカルデコードやデコードに必要なフレームメモリの容量を少なくすることができる。

また、ショット構造化部１１２はショットを分類・階層化するとともに、各ショット内のフレームのうち少なくとも一つを代表フレームとして選出する。図３中、各ショットの下に「Ｋ_A1」「Ｓ_A21」などとあるのが代表フレームであり、たとえば「Ａ１」ではショットの先頭付近のフレーム、「Ａ２１」ではショットの中間付近のフレームが、それぞれ代表フレームとなっている。

なお、ショット内のどのフレームを代表フレームとするかは本発明では特に問わないが、符号効率の観点から、ショット内の他のフレームとの差ができるだけ小さいフレーム（たとえばショット内の他のフレームとの類似度の総和Ｓ＝Ｄ_k,a＋Ｄ_k,b＋Ｄ_k,c＋・・・＋Ｄ_k,nが最小となるフレームｋ）を代表フレームとするのが望ましい。もっともより簡便には、たとえば図６に示すように、一律に各ショットの先頭フレームを代表フレームとして選出してもよい。

そして本発明では、各グループのツリーのルートに位置するショットの代表フレームを「キーフレーム」、上記以外のショットの代表フレームを「サブキーフレーム」と呼び、前者についてはそのフレーム単独で（すなわち他のフレームを参照せずに）イントラ符号化を行うとともに、後者については同一グループ内のキーフレームあるいはサブキーフレームからの予測符号化を行う。

図３の矢印はこの予測の方向を意味している。図中Ａグループで説明すると、まずそのキーフレーム、すなわちツリー最上位の「Ａ１」の代表フレームである「Ｋ_A1」はイントラフレームとなる。そして一つ下の第２階層、すなわち「Ａ２１」「Ａ２２」「Ａ２３」の代表フレームであるサブキーフレーム「Ｓ_A21」「Ｓ_A22」「Ｓ_A23」は、いずれも「Ｋ_A1」を参照して符号化（「Ｋ_A1」との差分が符号化）されることになる。さらに一つ下の第３階層、すなわち「Ａ３１」「Ａ３２０」「Ａ３２１」「Ａ３３」の代表フレームであるサブキーフレーム「Ｓ_A31」「Ｓ_A320」「Ｓ_A321」「Ｓ_A33」は、それぞれ「Ｓ_A21」「Ｓ_A22」「Ｓ_A22」「Ｓ_A23」を参照して符号化される。そしてさらに一つ下の第４階層、すなわち「Ａ４１０」「Ａ４１１」の代表フレームであるサブキーフレーム「Ｓ_A410」「Ｓ_A411」は、いずれも「Ｓ_A31」を参照して符号化される。

なお、キーフレームやサブキーフレームといった代表フレーム以外のフレームを「通常フレーム」と呼び、これらの参照先は従来のＪＰＥＧやＭＰＥＧと同様としてもよいが、ここでは一律に、通常フレームの参照先はその属するショットの代表フレームであるものとする（通常フレームについては同一ショット内のキーフレームまたはサブキーフレームからの予測符号化を行う、と言ってもよい）。この場合図３の各グループでは、それぞれそのキーフレーム、具体的には「Ｋ_A1」「Ｋ_B1」「Ｋ_C1」のみがイントラフレームとなる。しかも、サブキーフレームや通常フレームでも参照先を自己に類似するフレームの中から選択しているので、予測効率が向上し、データ発生量の削減（圧縮率の向上）あるいは同じ発生量のもとでは画質の向上が可能となる。また、たとえばイントラフレームの間隔を長くしてデータ量を減らした場合と比べてランダムアクセス性がよくなる。

ただし、このように類似度を基礎として参照フレームを選択する反面として、本発明では必ずしも符号化対象フレームの近傍（符号化対象フレームから所定距離内）に参照フレームが存在するとは限らないので、対象フレームを符号化しようとしたときに、図１のローカルデコード画像記憶メモリ１０７に参照フレームのローカルデコード画像が存在しない可能性がある。そこで、本発明では図１に示すような参照フレーム記憶メモリ１１３を設け、ここに他のフレームから参照される可能性のあるフレーム（具体的にはキーフレームやサブキーフレーム）のローカルデコード画像を蓄積しておく。なお図１では、ローカルデコード画像記憶メモリ１０７と参照フレーム記憶メモリ１１３とを別個のメモリとして示したが、これは概念的な区別であって、実際には同一のメモリであってもよい。

一方ショット構造化部１１２は、図３や図６に模式的・概念的に示したショット間の構造を「構造化情報」として保持している。この構造化情報は、具体的には映像内の各フレームが入力バッファメモリ１００のどこに保持されているか（フレーム位置情報）や、どのフレームがどのフレームを参照しているか（参照フレーム選択情報）などの情報からなる。なお、この構造化情報はショット構造化部１１２内でなく、入力バッファメモリ１００に保持しておき、ショット構造化部１１２から逐次読み出すようにしてもよい。また、入力バッファメモリ１００内でのフレームの並び順（物理的な並び順）はどのようであってもよい。

そしてショット構造化部１１２は、参照フレーム選択情報により特定される符号化順序（他のフレームを参照するフレームは、当該参照フレームが符号化された後でなければ符号化することができない）に従って、入力バッファメモリ１００内のフレームを順次出力させる。このとき、出力された符号化対象フレームがサブキーフレームあるいは通常フレームだった場合は、参照フレーム記憶メモリ１１３に指示して、上記フレームの参照フレームとなるキーフレームあるいはサブキーフレーム（以前に符号化されローカルデコードされたもの）を、動きベクトル検出部１０８およびフレーム間動き補償部１０９に出力させる。

図７は、この発明の実施の形態にかかる画像処理装置における、画像符号化処理の手順を示すフローチャートである。まず、入力バッファメモリ１００内の映像をショット分割部１１１で複数のショットに分割し（ステップＳ７０１）、次にショット構造化部１１２で、ショット間の類似度を基礎として上記ショットを構造化する（ステップＳ７０２）。

図８は、ショット構造化部１１２によるショット構造化（図７のステップＳ７０２）の手順を詳細に示すフローチャートである。すなわち上述のように、ショット構造化部１１２は各ショットについてその特徴ベクトルを算出し（ステップＳ８０１）、次にこれらの特徴ベクトル間の距離、すなわち各ショット間の類似度を算出する（ステップＳ８０２）。そしてこの類似度により、上記ショットを複数のグループに分類し（ステップＳ８０３）、さらに各グループ内で、特に類似度の高いショット同士をリンクして図３や図６のように階層化する（ステップＳ８０４）。その後、各ショットについてその代表フレームを選出する（ステップＳ８０５）。

図７の説明に戻り、上記の手順で映像内のショットを構造化すると、次に本装置は入力バッファメモリ１００内に未処理のフレームがある限り（ステップＳ７０３：Ｎｏ）、個々のフレームについてステップＳ７０３〜７１０の処理を繰り返す。すなわち、入力バッファメモリ１００から出力された符号化対象フレームが代表フレーム、しかもその中でも上述のキーフレームだった場合（ステップＳ７０４：Ｙｅｓ、ステップＳ７０５：Ｙｅｓ）、当該フレームは変換部１０１・量子化部１０２による変換・量子化の後（ステップＳ７０６）、エントロピー符号化部１０３により符号化される（ステップＳ７０７）。その一方で、変換・量子化後のデータは逆量子化部１０５・逆変換部１０６によりローカルデコード（逆量子化および逆変換）され（ステップＳ７０８）、ローカルデコード画像記憶メモリ１０７および参照フレーム記憶メモリ１１３に蓄積される。

一方、入力バッファメモリ１００から出力された符号化対象フレームが代表フレーム、しかもその中でも上述のサブキーフレームだった場合（ステップＳ７０４：Ｙｅｓ、ステップＳ７０５：Ｎｏ）、まず動きベクトル検出部１０８で、入力バッファメモリ１００から入力した符号化対象フレームと参照フレーム記憶メモリ１１３から入力した参照フレーム（具体的には、符号化対象フレームが属するグループのキーフレーム）との間の動きベクトルが計算される。次にフレーム間動き補償部１０９で動き補償予測が行われ（以上ステップＳ７０９）、参照フレームとの差分のみが変換・量子化（ステップＳ７０６）およびエントロピー符号化（ステップＳ７０７）される。また、変換・量子化後のデータは逆量子化部１０５・逆変換部１０６によりローカルデコード（逆量子化および逆変換）され（ステップＳ７０８）、先に差し引かれている参照フレームと足し合わされて、ローカルデコード画像記憶メモリ１０７および参照フレーム記憶メモリ１１３に蓄積される。

一方、入力バッファメモリ１００から出力された符号化対象フレームが通常フレームだった場合（ステップＳ７０４：Ｎｏ）も、同様に参照フレーム記憶メモリ１１３内の参照フレーム（具体的には、符号化対象フレームが属するショット内のキーフレームまたはサブキーフレーム）からの動き補償予測を行い（ステップＳ７１０）、参照フレームからの差分のみを変換・量子化（ステップＳ７０６）およびエントロピー符号化（ステップＳ７０７）する。また、変換・量子化後のデータは逆量子化部１０５・逆変換部１０６によりローカルデコード（逆量子化および逆変換）され（ステップＳ７０８）、先に差し引かれている参照フレームと足し合わされて、ローカルデコード画像記憶メモリ１０７および参照フレーム記憶メモリ１１３に蓄積される。そして、対象映像中の全フレームについてステップＳ７０４〜Ｓ７１０を終えた時点で、図示するフローチャートによる処理を終了する（ステップＳ７０３：Ｙｅｓ）。

なお通常フレームの動き補償予測（ステップＳ７１０）においては、ＭＰＥＧ−１やＭＰＥＧ−２で採用されている単純な平行移動の動き補償予測を用いれば処理量を少なくできる。一方サブキーフレームは他のフレームより数が少なく、多少処理量が多くてもよいので、サブキーフレームの動き補償予測（ステップＳ７０９）では画像の拡大・縮小、回転等が表現できるよう、ＭＰＥＧ−４で採用されているアフィン変換等を用いると符号化後のデータ量がより少なくなり効果的である。もっとも、本発明では動き補償予測の手法は特に問わない（通常フレームとサブキーフレームとで扱いを変える必要もない）。また、フレーム間動き補償予測の手法には大別して下記２つがあり、ここでは（１）を採用しているが、（２）を採用するのであってももちろんよい。

（１）グローバル動き補償予測（図９）
これは参照フレーム内の四角形領域を、符号化対象フレームの矩形領域にワーピング処理（平行移動、拡大／縮小、回転、アフィン変換、透視変換など）するものである。具体例としては、たとえばＭＰＥＧ−４（ＩＳＯ／ＩＥＣ１４４９６−２）の７．８章「Ｓｐｒｉｔｅｄｅｃｏｄｉｎｇ」がある。このグローバル動き予測により、フレーム全体の動きを捉えることができ、フレーム内のオブジェクトの位置ずれ／変形の修正が可能となる。

（２）ブロック単位での動き補償予測（図１０）
これは符号化対象フレームを正方格子状に分割し、このブロック単位で（１）と同様のワーピング処理を行うものである。ワーピング処理の一例としてたとえば平行移動の場合、個々のブロックごとに参照フレーム内で最も誤差が小さくなる領域を探索し、符号化対象フレームの各ブロックと、参照フレームの各探索結果領域の位置ずれを動きベクトル情報として伝送する。このブロックの大きさはＭＰＥＧ−１やＭＰＥＧ−２では１６×１６画素（「マクロブロック」と呼ばれる）である。さらにＭＰＥＧ−４では８×８画素、Ｈ．２６４では４×４画素の小さなブロックも許される。なお参照フレームは一つに限定されず、複数の参照フレームから最適な領域を選択するようにしてもよい。この場合は動きベクトル情報のほかに、参照フレーム選択情報（参照フレームの番号もしくはＩＤ）も伝送する必要がある。このブロック単位での動き予測により、フレーム内の局所的なオブジェクトの動きに対応できる。

なお、上述した実施の形態では映像内のショットを類似するグループに分類後、さらにグループ内で階層化したが、分類だけして階層化は省略するようにしてもよい。この場合、ショットの構造化は映像内で図１１のように並んだショットを、図１２のようにグループ単位に並び替えたのと同等であり、単純にＭＰＥＧ−２などの従来技術で符号化することも可能となる。違うグループに移る時には大きなシーンチェンジを伴うので、そこだけＩフレームにし（具体的には「Ａ１」「Ｂ１」「Ｃ１」の各先頭フレーム）、他はＰフレームのみ、またはＰフレームとＢフレームを用いて圧縮する。このようにすると、データ量の多いＩフレームを大幅に削減できる。なお、ショットの並び替え情報はＭＰＥＧ−２のユーザデータに保存するか、ＭＰＥＧ−２の符号の外側のアプリケーションレベルのデータに保存すればよい。

また、上述した実施の形態では構造化はフレーム単位で行ったが、さらに細かくフレーム内のエリアやオブジェクト単位で類似するフレームを参照するようにすれば、予測効率がより向上する。

なお、上述した実施の形態では入力バッファメモリ１００として、映像内の全フレームが保持できる大容量のメモリが必要になる（たとえば、二時間のコンテンツの符号化には二時間分のフレームメモリが必要になる）が、構造化する単位を小さくしていけばその分のメモリ容量でよい。また、動画像を実時間で読み書きできる高速ハードディスク装置であれば容量は現時点で十分であり、メモリと同等に扱える。

また、ハードディスクドライブ（ハードディスクレコーダ）やテープドライブ（テープレコーダ：ＶＴＲ）などの蓄積メディアに記録されている映像を符号化する場合は、実時間（リアルタイム）で符号化しないで、いわゆる２パスエンコードなどのマルチパスエンコードを行えば、大容量メモリは必要なく現実的である。すなわち１パス目でコンテンツ全体を調べて、ショットの分割と構造化を行い、その結果（構造化情報）のみをメモリに記憶しておく。そして２パス目で上記情報に従って、蓄積メディアから各フレームを読み出せばよい。

このように本発明は、マルチパスによる映像符号化が可能、つまり符号化遅延が問題とされない分野での映像符号化に適している。応用例としては流通メディア（次世代光ディスクなど）の映像符号化、蓄積メディアにためたコンテンツのトランスコーディング（データ量圧縮、メモリカードへのムーブなど）が挙げられる。他にもブロードバンド・ストリーミングや録画済み（符号化済み）番組の放送用の映像符号化としても利用可能である。

次に、図１３はこの発明の実施の形態にかかる画像処理装置（デコーダ）の構成の一例を示す説明図である。図１のエンコーダと図１３のデコーダとは一対であり、図１のエンコーダで符号化された映像が図１３のデコーダで復号される。

図１３中、入力バッファメモリ１３００、エントロピー復号部１３０１、逆量子化部１３０２、逆変換部１３０３およびフレーム間動き補償部１３０４の機能は、従来技術によるＪＰＥＧ／ＭＰＥＧデコーダと同一である。

１３０５は入力バッファメモリ１３００に蓄積された符号化ストリームから、上述の構造化情報を抽出する構造化情報抽出部である。ここで抽出された構造化情報中の参照フレーム選択情報は、後段のフレーム間動き補償部１３０４で復号対象フレームの参照フレームを特定するために、またフレーム位置情報は、入力バッファメモリ１３００から出力すべきフレームのアドレスを特定するために、それぞれ使用される。また、１３０６はフレーム間動き補償部１３０４による動き補償で使用される、参照フレーム（具体的にはキーフレームおよびサブキーフレーム）を保持する参照フレーム記憶メモリである。

図１４は、この発明の実施の形態にかかる画像処理装置における、画像復号処理の手順を示すフローチャートである。まず構造化情報抽出部１３０５で、入力バッファメモリ１３００内の符号化ストリームから上述の構造化情報を抽出する（ステップＳ１４０１）。なお、ここでは構造化情報は他の符号化ストリームと多重化されており、復号時にストリームから分離されるものとするが、多重化されず別々のストリームとして伝送されるのでもよい。また、符号化ストリームの構成もどのようであってもよいが、ここではたとえばその先頭部分で、構造化情報および代表フレーム（他のフレームから参照されるフレーム）を伝送するようにする。

そして、まずこれらの代表フレームをエントロピー復号部１３０１により復号し（ステップＳ１４０３）、逆量子化部１３０２による逆量子化（ステップＳ１４０４）、逆変換部１３０３による逆変換（ステップＳ１４０５）を行う。ここで、復号対象フレームがキーフレームであれば（ステップＳ１４０６：Ｙｅｓ）そのまま、キーフレームでなくサブキーフレームであればサブキーフレーム用の動き補償予測の後（ステップＳ１４０６：Ｎｏ、ステップＳ１４０７）、得られた復号画像を参照フレーム記憶メモリ１３０６に保存する（ステップＳ１４０８）。

そして代表フレームを復号し終えると（ステップＳ１４０２：Ｙｅｓ）、次に入力バッファメモリ１３００内に未処理のフレームがある限り（ステップＳ１４０９：Ｎｏ）、出力する順序で当該フレームを取り出し、エントロピー復号部１３０１による復号（ステップＳ１４１０）、逆量子化部１３０２による逆量子化（ステップＳ１４１１）、逆変換部１３０３による逆変換（ステップＳ１４１２）を行う。

次に、復号対象フレームがキーフレームの場合（ステップＳ１４１３：Ｙｅｓ、ステップＳ１４１４：Ｙｅｓ）はそのまま、サブキーフレームの場合はサブキーフレーム用の動き補償予測の後（ステップＳ１４１３：Ｙｅｓ、ステップＳ１４１４：Ｎｏ、ステップＳ１４１５）、通常フレームの場合は通常フレーム用の動き補償予測の後（ステップＳ１４１３：Ｎｏ、ステップＳ１４１６）、得られた復号画像を出力する。そして、符号化ストリーム中の全フレームについてステップＳ１４１０〜Ｓ１４１６を終えた時点で、図示するフローチャートによる処理を終了する（ステップＳ１４０９：Ｙｅｓ）。

このように、本実施の形態では他のフレームから参照されるフレームを先にまとめて復号しておくので、図１３に示すように、復号画像を蓄積しておくためのバッファメモリを特に設ける必要がない（参照フレーム記憶メモリ１３０６があれば足りる）。また、符号化ストリームを入力バッファメモリ１３００の代わりに、ハードディスク等の記録媒体から直接ランダムアクセスにより読み出せば、入力バッファメモリ１３００の容量も小さくて済みより現実的である。ただし、もちろん他の構成でも構わない。

なお、上記フローでは代表フレームについては二重に復号を行っているが、後段の復号は省略する（前段の復号で参照フレーム記憶メモリ１３０６に保存されている復号画像を後段でそのまま出力する）ようにしてももちろんよい。

このように、請求項１・請求項６・請求項１１に記載の発明によれば、符号化対象の映像を構成する複数のショットの類似性（情報の冗長性）に着目して、類似ショット内のイントラフレームは１つだけとし、その他のフレームについては類似する参照フレームからの予測符号化を行うので、符号化ストリームのデータ量を抑制できる。また、請求項２・請求項７・請求項１２に記載の発明によれば、参照フレームを必ず時系列的に前のフレームから選択する（時系列的に後のフレームを参照することはない）ので、ローカルデコードやデコードに必要なメモリが少なくて済む。また、請求項３・請求項８・請求項１３に記載の発明によれば、類似ショットの中でも特に類似度の高いショットの中から参照フレームを選択するので、それだけ予測効率が向上する。また、請求項４・請求項５・請求項９・請求項１０・請求項１４・請求項１５に記載の発明によれば、請求項１・請求項６・請求項１１に記載の発明により、ショット間の類似性を利用して効率よく符号化された映像を復号できる。

なお、本実施の形態で説明した画像処理方法は、あらかじめ用意されたプログラムをプロセッサやマイクロコンピュータ等の演算処理装置で実行することにより実現することができる。このプログラムは、ＲＯＭ、ＨＤ、ＦＤ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＭＯ、ＤＶＤ等の演算処理装置で読み取り可能な記録媒体に記録され、演算処理装置によって記録媒体から読み出されて実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

【０００４】
発生量が多くなる（予測誤差が大きくなるため）。また、インターフレームは発生量をあまり多くできない場合が多く画質が劣化する。
［００１４］
（２）シーンチェンジ時にもＩフレームを挿入（図１５（２））
基本的には一定間隔でＩフレームを挿入するが、シーンチェンジを検出したときはそのタイミングでもＩフレームを挿入するものである。この場合画質は改善されるが、Ｉフレームなので発生量が多く、そのぶん他のインターフレームの配分が減ることになり、総合的には画質が良くなるとは言えない。
［００１５］
（３）参照フレームを複数の候補から選択
Ｈ．２６４（ＭＰＥＧ−４ｐａｒｔ＿１０ＡＶＣ）などで採用されている方式であるが、Ｈ．２６４の場合、参照フレームとして選べるフレームの数に上限がある。また、参照フレームは符号化対象フレームから所定距離内に存在する必要がある。
【課題を解決するための手段】
［００１６］
上述した課題を解決し、目的を達成するため、請求項１の発明にかかる画像処理装置は、動画像を連続する複数の画像からなる複数のショットに分割するショット分割手段と、前記ショット分割手段により分割されたショットをショット間の類似度にもとづいて前記ショットを複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化するショット構造化手段と、前記動画像中の符号化対象画像と、前記ショット構造化手段による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出手段と、前記動き検出手段により検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償手段と、前記符号化対象画像と前記動き補償手段により生成された予測画像との差分を符号化する符号化手段と、を備えることを特徴とする。
［００１７］
また、請求項４の発明にかかる画像処理装置は、動画像の符号化ストリームから、前記動画像を複数のショットに分割し、分割したショット間の類似度にもとづいて各ショットを複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化した当該構造に関する情報を抽出する構造化情報抽出手段と、前記構造化情報抽出手段により抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第１の復号手段と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出手段により抽出された情報中で指定され、前記第１の復号手段により復号された参照画像を用いて復号する第２の復号手段と、を備えることを特徴とする。

【０００５】
［００１８］
また、請求項６の発明にかかる画像処理方法は、動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて前記ショットを複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化するショット構造化工程と、前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、を含むことを特徴とする。
［００１９］
また、請求項９の発明にかかる画像処理方法は、動画像の符号化ストリームから、前記動画像を複数のショットに分割し、分割したショット間の類似度にもとづいて各ショット複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして同グループ内の類似したショット間をリンクさせ階層をなすように構造化した当該構造に関する情報を抽出する構造化情報抽出工程と、前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第１の復号工程と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第１の復号工程で復号された参照画像を用いて復号する第２の復号工程と、を含むことを特徴とする。
［００２０］
また、請求項１１の発明にかかる画像処理プログラムは、動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて前記ショットを複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化するショット構造化工程と、前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、をプロセッサに実行させることを特徴とする。
［００２１］
また、請求項１４の発明にかかる画像処理プログラムは、動画像の符号化ストリームから、前記動画像を複数のショットに分割し、分割したショット間の類似度にもとづいて各ショット複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化した当該構造に関する情報を抽出する構造化情報抽出工程と、前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のう

Claims

動画像を連続する複数の画像からなる複数のショットに分割するショット分割手段と、前記ショット分割手段により分割されたショットをショット間の類似度にもとづいて構造化するショット構造化手段と、
前記動画像中の符号化対象画像と、前記ショット構造化手段による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出手段と、
前記動き検出手段により検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償手段と、
前記符号化対象画像と前記動き補償手段により生成された予測画像との差分を符号化する符号化手段と、
を備えることを特徴とする画像処理装置。
前記ショット構造化手段は、前記ショットを前記類似度および前記動画像中での前記ショットの出現順序にもとづいて構造化することを特徴とする前記請求項１に記載の画像処理装置。
前記ショット構造化手段は、前記類似度にもとづいて前記ショットを複数のグループに分類するとともに、各グループ内の前記ショットを階層化することを特徴とする前記請求項１または請求項２に記載の画像処理装置。
動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出手段と、
前記構造化情報抽出手段により抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第１の復号手段と、
前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出手段により抽出された情報中で指定され、前記第１の復号手段により復号された参照画像を用いて復号する第２の復号手段と、
を備えることを特徴とする画像処理装置。
前記動画像の構造に関する情報では、前記復号対象画像の参照画像が、各画像の属するショット間の類似度にもとづいて指定されていることを特徴とする前記請求項４に記載の画像処理装置。
動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて構造化するショット構造化工程と、
前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、
前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、
前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、
を含むことを特徴とする画像処理方法。
前記ショット構造化工程では、前記ショットを前記類似度および前記動画像中での前記ショットの出現順序にもとづいて構造化することを特徴とする前記請求項６に記載の画像処理方法。
前記ショット構造化工程では、前記類似度にもとづいて前記ショットを複数のグループに分類するとともに、各グループ内の前記ショットを階層化することを特徴とする前記請求項６または請求項７に記載の画像処理方法。
動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出工程と、
前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第１の復号工程と、
前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第１の復号工程で復号された参照画像を用いて復号する第２の復号工程と、
を含むことを特徴とする画像処理方法。
前記動画像の構造に関する情報では、前記復号対象画像の参照画像が、各画像の属するショット間の類似度にもとづいて指定されていることを特徴とする前記請求項９に記載の画像処理方法。
動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、
前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて構造化するショット構造化工程と、
前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、
前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、
前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、
をプロセッサに実行させることを特徴とする画像処理プログラム。
前記ショット構造化工程では、前記ショットを前記類似度および前記動画像中での前記ショットの出現順序にもとづいて構造化することを特徴とする前記請求項１１に記載の画像処理プログラム。
前記ショット構造化工程では、前記類似度にもとづいて前記ショットを複数のグループに分類するとともに、各グループ内の前記ショットを階層化することを特徴とする前記請求項１１または請求項１２に記載の画像処理プログラム。
動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出工程と、
前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第１の復号工程と、
前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第１の復号工程で復号された参照画像を用いて復号する第２の復号工程と、
をプロセッサに実行させることを特徴とする画像処理プログラム。
前記動画像の構造に関する情報では、前記復号対象画像の参照画像が、各画像の属するショット間の類似度にもとづいて指定されていることを特徴とする前記請求項１４に記載の画像処理プログラム。