JPWO2006035883A1 - 画像処理装置、画像処理方法、および画像処理プログラム - Google Patents

画像処理装置、画像処理方法、および画像処理プログラム Download PDF

Info

Publication number
JPWO2006035883A1
JPWO2006035883A1 JP2006537811A JP2006537811A JPWO2006035883A1 JP WO2006035883 A1 JPWO2006035883 A1 JP WO2006035883A1 JP 2006537811 A JP2006537811 A JP 2006537811A JP 2006537811 A JP2006537811 A JP 2006537811A JP WO2006035883 A1 JPWO2006035883 A1 JP WO2006035883A1
Authority
JP
Japan
Prior art keywords
image
shots
shot
decoding
structuring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006537811A
Other languages
English (en)
Other versions
JP4520994B2 (ja
Inventor
潤 神田
潤 神田
岩村 宏
宏 岩村
山崎 博司
博司 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Publication of JPWO2006035883A1 publication Critical patent/JPWO2006035883A1/ja
Application granted granted Critical
Publication of JP4520994B2 publication Critical patent/JP4520994B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/58Motion compensation with long-term prediction, i.e. the reference frame for a current frame not being the temporally closest one
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

映像内の複数のショットを、ショット間の類似度にもとづいて複数のグループに分類するとともに、グループ内で特によく類似するもの同士を接続して図示するように階層化する。そして、たとえば図中Aグループの場合、ショット「A1」の代表フレーム「KA1」についてはイントラ符号化を行うが、その一階層下の「A21」「A22」「A23」の代表フレーム「SA21」「SA22」「SA23」については、いずれも「KA1」からの予測符号化を行う。以下同様に各ショットの代表フレームを、同一グループ内の一階層上の代表フレームから芋蔓式に予測符号化し、かつ代表フレーム以外のフレームについては、当該フレームが属するショットの代表フレームからの予測符号化を行う。

Description

この発明は、動画像を符号化あるいは復号する画像処理装置、画像処理方法、および画像処理プログラムに関する。ただし本発明の利用は、上述した画像処理装置、画像処理方法、および画像処理プログラムに限らない。
動画像の符号化における符号効率の向上、動画像へのアクセス方法の多様化、動画像のブラウジングの容易化、ファイル形式変換の容易化などといった様々な目的で、動画像の構造化(具体的にはフレーム順序の並び替え、ショット単位での階層化など)を行う従来技術としては、たとえば下記特許文献1〜5に記載の発明などがあった。
このうち特許文献1に記載の従来技術では、ファイル作成手段により動画像データのフレーム単位での並び換え順序を示す編集情報を作成する。また、画像圧縮手段は編集前の動画像データを前フレームとの差分を基に圧縮符号化し、その符号化データを上記編集情報ファイルと共に出力手段から送信する。
また、特許文献2に記載の従来技術では、画像データ列メモリ部に保存された予測符号化画像データを読み出し、階層分離部でそのデータ構造が持つ階層に応じて階層に分離する。次に、分離された階層から画像データの持つ物理的特徴、すなわち一般性を有しコンテントを反映した特徴を、画像特徴抽出部にて抽出する。次に、これらの物理的特徴から各々の画像を特徴付ける特徴ベクトルを特徴ベクトル生成部にて生成する。次に、その特徴ベクトル間での距離を算出して特徴ベクトルを、分割・統合部にて分割・統合して映像を深い階層構造で自動的に構造化し、特徴ベクトル管理部にて蓄積、管理する。
また、特許文献3に記載の従来技術は、動画像を符号化し、該符号化された動画像を各ショットに分割し、ついで分割されたショット毎の類似度を用い、ショットを統合してシーンを抽出処理することを特徴とした動画像の自動階層構造化方法であり、かつまたこの階層構造化されたデータを用いて動画像全体の内容把握、所望のシーンまたはショットの検出を容易にすることを特徴とした動画像のブラウジング方法にかかるものである。
また、特許文献4に記載の従来技術では、複数のカメラで撮像した複数チャンネルの映像信号を切替手段で順番に切り替え、並び替え手段でチャンネル毎にGOP単位で並び替え、MPEG圧縮手段で圧縮して記録手段に記録するとともに、MPEG伸張手段で各チャンネル毎に伸張し、表示制御手段で映像データを多画面表示できるように、データサイズを圧縮して複数の表示用メモリの所定位置に各チャンネルの入力順にまとめて保存、再生し、画像出力手段がモニタの1画面に多画面表示する。
また、特許文献5に記載の従来技術では、第1の動画像符号化データ形式であるMPEG−2形式のビットストリームA1をMPEG−2デコーダによりデコードして得られた再生動画像信号A2及びサイド情報A3をサイズ変換部により第2の動画像符号化データ形式であるMPEG−4形式に適した形態に変換し、変換後の再生画像信号A4を変換後のサイド情報A5に含まれる動きベクトル情報を利用してMPEG−4エンコーダによってエンコードすることによりMPEG−4形式のビットストリームA6を得ると同時に、インデキシング部によりサイド情報A5に含まれる動きベクトルを利用してインデキシング処理を行い、構造化データA7を得る。
特開平8−186789号公報 特開平9−294277号公報 特開平10−257436号公報 特開2001−054106号公報 特開2002−185969号公報
一方、動画像の符号化における符号効率の向上を目的として、従来様々な予測方式が提案されてきた。たとえばMPEG−1では前方向予測フレーム(Pフレーム)や両方向予測フレーム(Bフレーム)の採用により、MPEG−2ではフィールド予測の採用により、MPEG−4 part_2ではスプライト符号化やGMC(Global Motion Compensation:グローバル動き補償予測)の採用により、ITU−TH.264/MPEG−4 part_10(AVC:Advanced Video Coding)では複数参照フレームの採用により、それぞれ符号効率を向上させている。
ところで符号化対象となる映像の中には、通常、以下に例示するような相互に類似するショット(連続する複数フレーム)が多く含まれている。
・ニュース番組におけるニュースキャスターへのバストショット
・野球での投球/バッティングシーン、テニスのサーブシーン、スキージャンプの滑降/飛行シーンなど
・スポーツ番組などにおけるハイライトシーンの繰り返し
・バラエティ番組などにおけるCM前後の同一ショットの繰り返し
・二人の会話シーンにおける互いへのアップショットの繰り返しを考えた場合の、各人へのアップショット
・連続ドラマを全話通して考えた場合の、オープニングやエンディング、あるいは前話の回想シーンなど
・同一CMの繰り返し
同一ショットの繰り返しはもとより、固定カメラからの同一アングルへのショットはしばしば類似ショットとなる。そして、こうした類似ショットは独立して符号化するよりも、一方をもう一方の参照フレームとしてそれらの差分を符号化したほうが、全体として符号量が削減できると期待できる。
しかしながら従来のMPEGにおいては、対象映像全体の構造、たとえば上記のような類似ショットの繰り返しを符号化に利用せず(言い換えれば、類似ショット間の情報量の冗長性を利用せず)、通常ほぼ時系列順に符号化を行うため、たとえばそのぶん符号効率が悪いなどの問題点があった。具体的には、映像中にシーンチェンジがあった場合の従来技術における予測方法は下記(1)〜(3)のようになっていた。
(1)一定間隔でIフレームを挿入(図15(1))
シーンチェンジの有無にかかわらず、Iフレームの間隔は一定とするものである。この場合、シーンチェンジ直後のインターフレーム(具体的にはそのうちPフレーム)の発生量が多くなる(予測誤差が大きくなるため)。また、インターフレームは発生量をあまり多くできない場合が多く画質が劣化する。
(2)シーンチェンジ時にもIフレームを挿入(図15(2))
基本的には一定間隔でIフレームを挿入するが、シーンチェンジを検出したときはそのタイミングでもIフレームを挿入するものである。この場合画質は改善されるが、Iフレームなので発生量が多く、そのぶん他のインターフレームの配分が減ることになり、総合的には画質が良くなるとは言えない。
(3)参照フレームを複数の候補から選択
H.264(MPEG−4 part_10 AVC)などで採用されている方式であるが、H.264の場合、参照フレームとして選べるフレームの数に上限がある。また、参照フレームは符号化対象フレームから所定距離内に存在する必要がある。
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる画像処理装置は、動画像を連続する複数の画像からなる複数のショットに分割するショット分割手段と、前記ショット分割手段により分割されたショットをショット間の類似度にもとづいて構造化するショット構造化手段と、前記動画像中の符号化対象画像と、前記ショット構造化手段による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出手段と、前記動き検出手段により検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償手段と、前記符号化対象画像と前記動き補償手段により生成された予測画像との差分を符号化する符号化手段と、を備えることを特徴とする。
また、請求項4の発明にかかる画像処理装置は、動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出手段と、前記構造化情報抽出手段により抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第1の復号手段と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出手段により抽出された情報中で指定され、前記第1の復号手段により復号された参照画像を用いて復号する第2の復号手段と、を備えることを特徴とする。
また、請求項6の発明にかかる画像処理方法は、動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて構造化するショット構造化工程と、前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、を含むことを特徴とする。
また、請求項9の発明にかかる画像処理方法は、動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出工程と、前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第1の復号工程と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第1の復号工程で復号された参照画像を用いて復号する第2の復号工程と、を含むことを特徴とする。
また、請求項11の発明にかかる画像処理プログラムは、動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて構造化するショット構造化工程と、前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、をプロセッサに実行させることを特徴とする。
また、請求項14の発明にかかる画像処理プログラムは、動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出工程と、前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第1の復号工程と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第1の復号工程で復号された参照画像を用いて復号する第2の復号工程と、をプロセッサに実行させることを特徴とする。
図1は、この発明の実施の形態にかかる画像処理装置(エンコーダ)の構成の一例を示す説明図である。 図2は、特徴量ベクトルの基礎となる各ショットの特徴量を模式的に示す説明図である。 図3は、ショット構造化部112により構造化されたショットを模式的に示す説明図である。 図4は、図3のように構造化されたショットの映像内での並び順の一例を示す説明図である。 図5は、図3のように構造化されたショットの映像内での並び順の他の一例を示す説明図である。 図6は、ショット構造化部112により構造化されたショットを模式的に示す説明図である(各ショットの先頭フレームを代表フレームとする場合)。 図7は、この発明の実施の形態にかかる画像処理装置における、画像符号化処理の手順を示すフローチャートである。 図8は、ショット構造化部112によるショット構造化の手順(図7のステップS702)を詳細に示すフローチャートである。 図9は、グローバル動き補償予測の概念を模式的に示す説明図である。 図10は、ブロック単位の動き補償予測の概念を模式的に示す説明図である。 図11は、図12のように構造化されたショットの映像内での並び順の一例を示す説明図である。 図12は、ショット構造化部112により構造化されたショットを模式的に示す説明図である(グループ内のショットに階層がない場合)。 図13は、この発明の実施の形態にかかる画像処理装置(デコーダ)の構成の一例を示す説明図である。 図14は、この発明の実施の形態にかかる画像処理装置における、画像復号処理の手順を示すフローチャートである。 図15は、従来技術におけるIフレームの挿入タイミングを模式的に示す説明図である。
符号の説明
100、1300 入力バッファメモリ
101 変換部
102 量子化部
103、1301 エントロピー符号化部
104 符号化制御部
105、1302 逆量子化部
106、1303 逆変換部
107 ローカルデコード画像記憶メモリ
108 動きベクトル検出部
109、1304 フレーム間動き補償部
110 多重化部
111 ショット分割部
112 ショット構造化部
113、1306 参照フレーム記憶メモリ
1305 構造化情報抽出部
以下に添付図面を参照して、この発明にかかる画像処理装置、画像処理方法、および画像処理プログラムの好適な実施の形態を詳細に説明する。
(実施の形態)
図1は、この発明の実施の形態にかかる画像処理装置(エンコーダ)の構成の一例を示す説明図である。図中100〜110は、従来技術によるJPEG/MPEGエンコーダと同一である。すなわち100は、符号化対象となる映像の各フレームを保持する入力バッファメモリ、101は符号化対象フレーム(から参照フレームを差し引いた予測誤差)について離散コサイン変換(DCT)や離散ウェーブレット変換(DWT)などを行う変換部、102は上記変換後のデータを所定のステップ幅で量子化する量子化部、103は上記量子化後のデータや、後述する動きベクトル情報、構造化情報などを符号化する(その手法は特に問わない)エントロピー符号化部、104は量子化部102およびエントロピー符号化部103の動作を制御する符号化制御部である。
105は量子化後/符号化前のデータを逆量子化する逆量子化部、106は逆量子化後のデータをさらに逆変換する逆変換部、107は逆変換後のフレームに参照フレームを足し合わせたもの、すなわちローカルデコード画像を一時的に保持するローカルデコード画像記憶メモリである。
また、108は符号化対象フレームと参照フレームとの間の動き情報、具体的にはここでは動きベクトルを計算する動きベクトル検出部、109は計算された動きベクトルに従って、参照フレームから符号化対象フレームの予測値(フレーム)を生成するフレーム間動き補償部である。110は符号化後の映像や動きベクトル情報、後述する構造化情報などを多重化する多重化部である。なお、これらの情報は多重化せず、別々のストリームとして伝送するのであってもよい(多重化する必要があるかどうかはアプリケーションに依存する)。
次に、本発明の特徴部分である111〜113の各部について説明する。まず、111はショット分割部であり、入力バッファメモリ100内の映像を連続する複数フレーム、すなわち「ショット」に分割する機能部である。このショットの分割点となるのは、たとえば上記映像中での画像特徴量の変化点や、背景音声の特徴量の変化点である。このうち画像特徴量の変化点としては、たとえば画面の切り替わり(シーンチェンジ、カット点)や、カメラワークの変化点(シーンチェンジ/パン/ズーム/静止などの変化点)などが考えられる。もっとも、分割点をどこにするかやその分割点をどうやって特定するか(言い換えれば、ショットをどのように構成するか)は本発明では特に問わない。
112はショット構造化部であり、ショット分割部111で分割された複数のショットを、ショット間の類似度に応じて構造化する機能部である。ショット間の類似度をどのようにして算出するかも本発明では特に問わないが、ここではたとえば各ショットにつき、その特徴量ベクトルXを求め、特徴量ベクトル間のユークリッド距離をショット間の類似度であるとみなす。
たとえばショットaの特徴量ベクトルXaは、ショットaをN個に分割して得られた各部分ショットの累積カラーヒストグラムを要素とする多次元のベクトルであるものとする。図2に示すようにN=3のとき、
Xa={HSa、HMa、HEa}
ただしHSa:図中「開始分割ショット」の累積カラーヒストグラム
HMa:図中「中間分割ショット」の累積カラーヒストグラム
HEa:図中「終了分割ショット」の累積カラーヒストグラム
なおHSa、HMa、HEa自体も多次元の特徴量ベクトルである。
なお「カラーヒストグラム」とは、色空間を複数の領域に分割し、フレーム内の全画素について各領域での出現数をカウントしたものである。色空間としてはたとえばRGB(R/赤、G/緑、B/青)、YCbCr(Y/輝度、CbCr/色差)のCbCr成分、HSV(Hue/色相、Saturation/彩度、Value/明度)のHue成分が利用される。得られたヒストグラムをフレーム内の画素数で正規化することで、サイズが異なる画像同士の比較も可能となる。この正規化されたヒストグラムをショット内の全フレームについて累積したものが「累積カラーヒストグラム」である。
次に、ショットaとショットbの類似度Da,bを、上記で求めた特徴量ベクトルを用いてたとえば下記式により算出する。
Figure 2006035883
この値が小さい(特徴ベクトル間の距離が小さい)ショットほど類似度は高く、大きい(特徴ベクトル間の距離が大きい)ショットほど類似度は低くなる。そしてショット構造化部112は、この類似度に応じて、複数のショットを図3に示すように分類・階層化する。
図中、「A1」「B1」などと記された個々の矩形がショットである。図示するように、ショット分割部111で分割されたショットは類似度が閾値以下のもの同士のグループ(図示する例ではA・B・Cの3グループ)に分類されており、各グループ内では特によく類似するもの同士が矢印で結ばれている。すなわち、たとえばAグループ内の10個のショットのうち、「A1」との類似度が特に高いショットは「A21」「A22」「A23」の3つであり、「A21」との類似度が特に高いショットは「A31」であり、「A31」との類似度が特に高いショットは「A410」「A411」の2つである。
なお、もとの映像内での各ショットの並び順はたとえば図4のようであるものとする。図3では「A21」は「A31」の前に位置しているが、図4によれば「A21」は「A31」よりも時系列的に後のショットである。また、図3では「A21」のほうが「A22」よりも上に位置しているが、図4によれば「A21」は「A22」よりも時系列的に後のショットである。このように、図3のツリー内での各ショットの位置はもっぱらショット間の類似度によって決まり、各ショットの映像内での出現順序とは無関係である。
もっとも、ショット間の類似度のほかに、時系列(各ショットの映像内での出現順序)もある程度考慮して構造化を行うようにしてもよい。たとえば図3のように構造化されたショットは、映像内では図5に示すような並び順になっているものとする。この場合は図3でも図5でも、「A21」は「A31」の前に位置している。すなわち図3のツリーの枝をルートから辿ったときのショットの出現順序は、映像内での各ショットの出現順序と一致している(時系列的に先のショットほどツリーの上位に位置している、と言ってもよい)。しかしながら、ツリーの同階層にあるショット間の時系列的な順序は不明である。たとえば、図3中「A31」は「A320」より上に位置しているが、図5によれば「A31」は「A320」よりも時系列的に後のショットである。このように、類似度のほかに時系列も考慮してショットを構造化する場合は、ローカルデコードやデコードに必要なフレームメモリの容量を少なくすることができる。
また、ショット構造化部112はショットを分類・階層化するとともに、各ショット内のフレームのうち少なくとも一つを代表フレームとして選出する。図3中、各ショットの下に「KA1」「SA21」などとあるのが代表フレームであり、たとえば「A1」ではショットの先頭付近のフレーム、「A21」ではショットの中間付近のフレームが、それぞれ代表フレームとなっている。
なお、ショット内のどのフレームを代表フレームとするかは本発明では特に問わないが、符号効率の観点から、ショット内の他のフレームとの差ができるだけ小さいフレーム(たとえばショット内の他のフレームとの類似度の総和S=Dk,a+Dk,b+Dk,c+・・・+Dk,nが最小となるフレームk)を代表フレームとするのが望ましい。もっともより簡便には、たとえば図6に示すように、一律に各ショットの先頭フレームを代表フレームとして選出してもよい。
そして本発明では、各グループのツリーのルートに位置するショットの代表フレームを「キーフレーム」、上記以外のショットの代表フレームを「サブキーフレーム」と呼び、前者についてはそのフレーム単独で(すなわち他のフレームを参照せずに)イントラ符号化を行うとともに、後者については同一グループ内のキーフレームあるいはサブキーフレームからの予測符号化を行う。
図3の矢印はこの予測の方向を意味している。図中Aグループで説明すると、まずそのキーフレーム、すなわちツリー最上位の「A1」の代表フレームである「KA1」はイントラフレームとなる。そして一つ下の第2階層、すなわち「A21」「A22」「A23」の代表フレームであるサブキーフレーム「SA21」「SA22」「SA23」は、いずれも「KA1」を参照して符号化(「KA1」との差分が符号化)されることになる。さらに一つ下の第3階層、すなわち「A31」「A320」「A321」「A33」の代表フレームであるサブキーフレーム「SA31」「SA320」「SA321」「SA33」は、それぞれ「SA21」「SA22」「SA22」「SA23」を参照して符号化される。そしてさらに一つ下の第4階層、すなわち「A410」「A411」の代表フレームであるサブキーフレーム「SA410」「SA411」は、いずれも「SA31」を参照して符号化される。
なお、キーフレームやサブキーフレームといった代表フレーム以外のフレームを「通常フレーム」と呼び、これらの参照先は従来のJPEGやMPEGと同様としてもよいが、ここでは一律に、通常フレームの参照先はその属するショットの代表フレームであるものとする(通常フレームについては同一ショット内のキーフレームまたはサブキーフレームからの予測符号化を行う、と言ってもよい)。この場合図3の各グループでは、それぞれそのキーフレーム、具体的には「KA1」「KB1」「KC1」のみがイントラフレームとなる。しかも、サブキーフレームや通常フレームでも参照先を自己に類似するフレームの中から選択しているので、予測効率が向上し、データ発生量の削減(圧縮率の向上)あるいは同じ発生量のもとでは画質の向上が可能となる。また、たとえばイントラフレームの間隔を長くしてデータ量を減らした場合と比べてランダムアクセス性がよくなる。
ただし、このように類似度を基礎として参照フレームを選択する反面として、本発明では必ずしも符号化対象フレームの近傍(符号化対象フレームから所定距離内)に参照フレームが存在するとは限らないので、対象フレームを符号化しようとしたときに、図1のローカルデコード画像記憶メモリ107に参照フレームのローカルデコード画像が存在しない可能性がある。そこで、本発明では図1に示すような参照フレーム記憶メモリ113を設け、ここに他のフレームから参照される可能性のあるフレーム(具体的にはキーフレームやサブキーフレーム)のローカルデコード画像を蓄積しておく。なお図1では、ローカルデコード画像記憶メモリ107と参照フレーム記憶メモリ113とを別個のメモリとして示したが、これは概念的な区別であって、実際には同一のメモリであってもよい。
一方ショット構造化部112は、図3や図6に模式的・概念的に示したショット間の構造を「構造化情報」として保持している。この構造化情報は、具体的には映像内の各フレームが入力バッファメモリ100のどこに保持されているか(フレーム位置情報)や、どのフレームがどのフレームを参照しているか(参照フレーム選択情報)などの情報からなる。なお、この構造化情報はショット構造化部112内でなく、入力バッファメモリ100に保持しておき、ショット構造化部112から逐次読み出すようにしてもよい。また、入力バッファメモリ100内でのフレームの並び順(物理的な並び順)はどのようであってもよい。
そしてショット構造化部112は、参照フレーム選択情報により特定される符号化順序(他のフレームを参照するフレームは、当該参照フレームが符号化された後でなければ符号化することができない)に従って、入力バッファメモリ100内のフレームを順次出力させる。このとき、出力された符号化対象フレームがサブキーフレームあるいは通常フレームだった場合は、参照フレーム記憶メモリ113に指示して、上記フレームの参照フレームとなるキーフレームあるいはサブキーフレーム(以前に符号化されローカルデコードされたもの)を、動きベクトル検出部108およびフレーム間動き補償部109に出力させる。
図7は、この発明の実施の形態にかかる画像処理装置における、画像符号化処理の手順を示すフローチャートである。まず、入力バッファメモリ100内の映像をショット分割部111で複数のショットに分割し(ステップS701)、次にショット構造化部112で、ショット間の類似度を基礎として上記ショットを構造化する(ステップS702)。
図8は、ショット構造化部112によるショット構造化(図7のステップS702)の手順を詳細に示すフローチャートである。すなわち上述のように、ショット構造化部112は各ショットについてその特徴ベクトルを算出し(ステップS801)、次にこれらの特徴ベクトル間の距離、すなわち各ショット間の類似度を算出する(ステップS802)。そしてこの類似度により、上記ショットを複数のグループに分類し(ステップS803)、さらに各グループ内で、特に類似度の高いショット同士をリンクして図3や図6のように階層化する(ステップS804)。その後、各ショットについてその代表フレームを選出する(ステップS805)。
図7の説明に戻り、上記の手順で映像内のショットを構造化すると、次に本装置は入力バッファメモリ100内に未処理のフレームがある限り(ステップS703:No)、個々のフレームについてステップS703〜710の処理を繰り返す。すなわち、入力バッファメモリ100から出力された符号化対象フレームが代表フレーム、しかもその中でも上述のキーフレームだった場合(ステップS704:Yes、ステップS705:Yes)、当該フレームは変換部101・量子化部102による変換・量子化の後(ステップS706)、エントロピー符号化部103により符号化される(ステップS707)。その一方で、変換・量子化後のデータは逆量子化部105・逆変換部106によりローカルデコード(逆量子化および逆変換)され(ステップS708)、ローカルデコード画像記憶メモリ107および参照フレーム記憶メモリ113に蓄積される。
一方、入力バッファメモリ100から出力された符号化対象フレームが代表フレーム、しかもその中でも上述のサブキーフレームだった場合(ステップS704:Yes、ステップS705:No)、まず動きベクトル検出部108で、入力バッファメモリ100から入力した符号化対象フレームと参照フレーム記憶メモリ113から入力した参照フレーム(具体的には、符号化対象フレームが属するグループのキーフレーム)との間の動きベクトルが計算される。次にフレーム間動き補償部109で動き補償予測が行われ(以上ステップS709)、参照フレームとの差分のみが変換・量子化(ステップS706)およびエントロピー符号化(ステップS707)される。また、変換・量子化後のデータは逆量子化部105・逆変換部106によりローカルデコード(逆量子化および逆変換)され(ステップS708)、先に差し引かれている参照フレームと足し合わされて、ローカルデコード画像記憶メモリ107および参照フレーム記憶メモリ113に蓄積される。
一方、入力バッファメモリ100から出力された符号化対象フレームが通常フレームだった場合(ステップS704:No)も、同様に参照フレーム記憶メモリ113内の参照フレーム(具体的には、符号化対象フレームが属するショット内のキーフレームまたはサブキーフレーム)からの動き補償予測を行い(ステップS710)、参照フレームからの差分のみを変換・量子化(ステップS706)およびエントロピー符号化(ステップS707)する。また、変換・量子化後のデータは逆量子化部105・逆変換部106によりローカルデコード(逆量子化および逆変換)され(ステップS708)、先に差し引かれている参照フレームと足し合わされて、ローカルデコード画像記憶メモリ107および参照フレーム記憶メモリ113に蓄積される。そして、対象映像中の全フレームについてステップS704〜S710を終えた時点で、図示するフローチャートによる処理を終了する(ステップS703:Yes)。
なお通常フレームの動き補償予測(ステップS710)においては、MPEG−1やMPEG−2で採用されている単純な平行移動の動き補償予測を用いれば処理量を少なくできる。一方サブキーフレームは他のフレームより数が少なく、多少処理量が多くてもよいので、サブキーフレームの動き補償予測(ステップS709)では画像の拡大・縮小、回転等が表現できるよう、MPEG−4で採用されているアフィン変換等を用いると符号化後のデータ量がより少なくなり効果的である。もっとも、本発明では動き補償予測の手法は特に問わない(通常フレームとサブキーフレームとで扱いを変える必要もない)。また、フレーム間動き補償予測の手法には大別して下記2つがあり、ここでは(1)を採用しているが、(2)を採用するのであってももちろんよい。
(1)グローバル動き補償予測(図9)
これは参照フレーム内の四角形領域を、符号化対象フレームの矩形領域にワーピング処理(平行移動、拡大/縮小、回転、アフィン変換、透視変換など)するものである。具体例としては、たとえばMPEG−4(ISO/IEC14496−2)の7.8章「Sprite decoding」がある。このグローバル動き予測により、フレーム全体の動きを捉えることができ、フレーム内のオブジェクトの位置ずれ/変形の修正が可能となる。
(2)ブロック単位での動き補償予測(図10)
これは符号化対象フレームを正方格子状に分割し、このブロック単位で(1)と同様のワーピング処理を行うものである。ワーピング処理の一例としてたとえば平行移動の場合、個々のブロックごとに参照フレーム内で最も誤差が小さくなる領域を探索し、符号化対象フレームの各ブロックと、参照フレームの各探索結果領域の位置ずれを動きベクトル情報として伝送する。このブロックの大きさはMPEG−1やMPEG−2では16×16画素(「マクロブロック」と呼ばれる)である。さらにMPEG−4では8×8画素、H.264では4×4画素の小さなブロックも許される。なお参照フレームは一つに限定されず、複数の参照フレームから最適な領域を選択するようにしてもよい。この場合は動きベクトル情報のほかに、参照フレーム選択情報(参照フレームの番号もしくはID)も伝送する必要がある。このブロック単位での動き予測により、フレーム内の局所的なオブジェクトの動きに対応できる。
なお、上述した実施の形態では映像内のショットを類似するグループに分類後、さらにグループ内で階層化したが、分類だけして階層化は省略するようにしてもよい。この場合、ショットの構造化は映像内で図11のように並んだショットを、図12のようにグループ単位に並び替えたのと同等であり、単純にMPEG−2などの従来技術で符号化することも可能となる。違うグループに移る時には大きなシーンチェンジを伴うので、そこだけIフレームにし(具体的には「A1」「B1」「C1」の各先頭フレーム)、他はPフレームのみ、またはPフレームとBフレームを用いて圧縮する。このようにすると、データ量の多いIフレームを大幅に削減できる。なお、ショットの並び替え情報はMPEG−2のユーザデータに保存するか、MPEG−2の符号の外側のアプリケーションレベルのデータに保存すればよい。
また、上述した実施の形態では構造化はフレーム単位で行ったが、さらに細かくフレーム内のエリアやオブジェクト単位で類似するフレームを参照するようにすれば、予測効率がより向上する。
なお、上述した実施の形態では入力バッファメモリ100として、映像内の全フレームが保持できる大容量のメモリが必要になる(たとえば、二時間のコンテンツの符号化には二時間分のフレームメモリが必要になる)が、構造化する単位を小さくしていけばその分のメモリ容量でよい。また、動画像を実時間で読み書きできる高速ハードディスク装置であれば容量は現時点で十分であり、メモリと同等に扱える。
また、ハードディスクドライブ(ハードディスクレコーダ)やテープドライブ(テープレコーダ:VTR)などの蓄積メディアに記録されている映像を符号化する場合は、実時間(リアルタイム)で符号化しないで、いわゆる2パスエンコードなどのマルチパスエンコードを行えば、大容量メモリは必要なく現実的である。すなわち1パス目でコンテンツ全体を調べて、ショットの分割と構造化を行い、その結果(構造化情報)のみをメモリに記憶しておく。そして2パス目で上記情報に従って、蓄積メディアから各フレームを読み出せばよい。
このように本発明は、マルチパスによる映像符号化が可能、つまり符号化遅延が問題とされない分野での映像符号化に適している。応用例としては流通メディア(次世代光ディスクなど)の映像符号化、蓄積メディアにためたコンテンツのトランスコーディング(データ量圧縮、メモリカードへのムーブなど)が挙げられる。他にもブロードバンド・ストリーミングや録画済み(符号化済み)番組の放送用の映像符号化としても利用可能である。
次に、図13はこの発明の実施の形態にかかる画像処理装置(デコーダ)の構成の一例を示す説明図である。図1のエンコーダと図13のデコーダとは一対であり、図1のエンコーダで符号化された映像が図13のデコーダで復号される。
図13中、入力バッファメモリ1300、エントロピー復号部1301、逆量子化部1302、逆変換部1303およびフレーム間動き補償部1304の機能は、従来技術によるJPEG/MPEGデコーダと同一である。
1305は入力バッファメモリ1300に蓄積された符号化ストリームから、上述の構造化情報を抽出する構造化情報抽出部である。ここで抽出された構造化情報中の参照フレーム選択情報は、後段のフレーム間動き補償部1304で復号対象フレームの参照フレームを特定するために、またフレーム位置情報は、入力バッファメモリ1300から出力すべきフレームのアドレスを特定するために、それぞれ使用される。また、1306はフレーム間動き補償部1304による動き補償で使用される、参照フレーム(具体的にはキーフレームおよびサブキーフレーム)を保持する参照フレーム記憶メモリである。
図14は、この発明の実施の形態にかかる画像処理装置における、画像復号処理の手順を示すフローチャートである。まず構造化情報抽出部1305で、入力バッファメモリ1300内の符号化ストリームから上述の構造化情報を抽出する(ステップS1401)。なお、ここでは構造化情報は他の符号化ストリームと多重化されており、復号時にストリームから分離されるものとするが、多重化されず別々のストリームとして伝送されるのでもよい。また、符号化ストリームの構成もどのようであってもよいが、ここではたとえばその先頭部分で、構造化情報および代表フレーム(他のフレームから参照されるフレーム)を伝送するようにする。
そして、まずこれらの代表フレームをエントロピー復号部1301により復号し(ステップS1403)、逆量子化部1302による逆量子化(ステップS1404)、逆変換部1303による逆変換(ステップS1405)を行う。ここで、復号対象フレームがキーフレームであれば(ステップS1406:Yes)そのまま、キーフレームでなくサブキーフレームであればサブキーフレーム用の動き補償予測の後(ステップS1406:No、ステップS1407)、得られた復号画像を参照フレーム記憶メモリ1306に保存する(ステップS1408)。
そして代表フレームを復号し終えると(ステップS1402:Yes)、次に入力バッファメモリ1300内に未処理のフレームがある限り(ステップS1409:No)、出力する順序で当該フレームを取り出し、エントロピー復号部1301による復号(ステップS1410)、逆量子化部1302による逆量子化(ステップS1411)、逆変換部1303による逆変換(ステップS1412)を行う。
次に、復号対象フレームがキーフレームの場合(ステップS1413:Yes、ステップS1414:Yes)はそのまま、サブキーフレームの場合はサブキーフレーム用の動き補償予測の後(ステップS1413:Yes、ステップS1414:No、ステップS1415)、通常フレームの場合は通常フレーム用の動き補償予測の後(ステップS1413:No、ステップS1416)、得られた復号画像を出力する。そして、符号化ストリーム中の全フレームについてステップS1410〜S1416を終えた時点で、図示するフローチャートによる処理を終了する(ステップS1409:Yes)。
このように、本実施の形態では他のフレームから参照されるフレームを先にまとめて復号しておくので、図13に示すように、復号画像を蓄積しておくためのバッファメモリを特に設ける必要がない(参照フレーム記憶メモリ1306があれば足りる)。また、符号化ストリームを入力バッファメモリ1300の代わりに、ハードディスク等の記録媒体から直接ランダムアクセスにより読み出せば、入力バッファメモリ1300の容量も小さくて済みより現実的である。ただし、もちろん他の構成でも構わない。
なお、上記フローでは代表フレームについては二重に復号を行っているが、後段の復号は省略する(前段の復号で参照フレーム記憶メモリ1306に保存されている復号画像を後段でそのまま出力する)ようにしてももちろんよい。
このように、請求項1・請求項6・請求項11に記載の発明によれば、符号化対象の映像を構成する複数のショットの類似性(情報の冗長性)に着目して、類似ショット内のイントラフレームは1つだけとし、その他のフレームについては類似する参照フレームからの予測符号化を行うので、符号化ストリームのデータ量を抑制できる。また、請求項2・請求項7・請求項12に記載の発明によれば、参照フレームを必ず時系列的に前のフレームから選択する(時系列的に後のフレームを参照することはない)ので、ローカルデコードやデコードに必要なメモリが少なくて済む。また、請求項3・請求項8・請求項13に記載の発明によれば、類似ショットの中でも特に類似度の高いショットの中から参照フレームを選択するので、それだけ予測効率が向上する。また、請求項4・請求項5・請求項9・請求項10・請求項14・請求項15に記載の発明によれば、請求項1・請求項6・請求項11に記載の発明により、ショット間の類似性を利用して効率よく符号化された映像を復号できる。
なお、本実施の形態で説明した画像処理方法は、あらかじめ用意されたプログラムをプロセッサやマイクロコンピュータ等の演算処理装置で実行することにより実現することができる。このプログラムは、ROM、HD、FD、CD−ROM、CD−R、CD−RW、MO、DVD等の演算処理装置で読み取り可能な記録媒体に記録され、演算処理装置によって記録媒体から読み出されて実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

【0004】
発生量が多くなる(予測誤差が大きくなるため)。また、インターフレームは発生量をあまり多くできない場合が多く画質が劣化する。
[0014]
(2)シーンチェンジ時にもIフレームを挿入(図15(2))
基本的には一定間隔でIフレームを挿入するが、シーンチェンジを検出したときはそのタイミングでもIフレームを挿入するものである。この場合画質は改善されるが、Iフレームなので発生量が多く、そのぶん他のインターフレームの配分が減ることになり、総合的には画質が良くなるとは言えない。
[0015]
(3)参照フレームを複数の候補から選択
H.264(MPEG−4 part_10 AVC)などで採用されている方式であるが、H.264の場合、参照フレームとして選べるフレームの数に上限がある。また、参照フレームは符号化対象フレームから所定距離内に存在する必要がある。
【課題を解決するための手段】
[0016]
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる画像処理装置は、動画像を連続する複数の画像からなる複数のショットに分割するショット分割手段と、前記ショット分割手段により分割されたショットをショット間の類似度にもとづいて前記ショットを複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化するショット構造化手段と、前記動画像中の符号化対象画像と、前記ショット構造化手段による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出手段と、前記動き検出手段により検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償手段と、前記符号化対象画像と前記動き補償手段により生成された予測画像との差分を符号化する符号化手段と、を備えることを特徴とする。
[0017]
また、請求項4の発明にかかる画像処理装置は、動画像の符号化ストリームから、前記動画像を複数のショットに分割し、分割したショット間の類似度にもとづいて各ショットを複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化した当該構造に関する情報を抽出する構造化情報抽出手段と、前記構造化情報抽出手段により抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第1の復号手段と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出手段により抽出された情報中で指定され、前記第1の復号手段により復号された参照画像を用いて復号する第2の復号手段と、を備えることを特徴とする。
【0005】
[0018]
また、請求項6の発明にかかる画像処理方法は、動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて前記ショットを複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化するショット構造化工程と、前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、を含むことを特徴とする。
[0019]
また、請求項9の発明にかかる画像処理方法は、動画像の符号化ストリームから、前記動画像を複数のショットに分割し、分割したショット間の類似度にもとづいて各ショット複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして同グループ内の類似したショット間をリンクさせ階層をなすように構造化した当該構造に関する情報を抽出する構造化情報抽出工程と、前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第1の復号工程と、前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第1の復号工程で復号された参照画像を用いて復号する第2の復号工程と、を含むことを特徴とする。
[0020]
また、請求項11の発明にかかる画像処理プログラムは、動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて前記ショットを複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化するショット構造化工程と、前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、をプロセッサに実行させることを特徴とする。
[0021]
また、請求項14の発明にかかる画像処理プログラムは、動画像の符号化ストリームから、前記動画像を複数のショットに分割し、分割したショット間の類似度にもとづいて各ショット複数のグループに分類するとともに、前記各グループの中の一のショットをルートとして前記各グループ内の類似したショット間をリンクさせ階層をなすように構造化した当該構造に関する情報を抽出する構造化情報抽出工程と、前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のう

Claims (15)

  1. 動画像を連続する複数の画像からなる複数のショットに分割するショット分割手段と、前記ショット分割手段により分割されたショットをショット間の類似度にもとづいて構造化するショット構造化手段と、
    前記動画像中の符号化対象画像と、前記ショット構造化手段による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出手段と、
    前記動き検出手段により検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償手段と、
    前記符号化対象画像と前記動き補償手段により生成された予測画像との差分を符号化する符号化手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記ショット構造化手段は、前記ショットを前記類似度および前記動画像中での前記ショットの出現順序にもとづいて構造化することを特徴とする前記請求項1に記載の画像処理装置。
  3. 前記ショット構造化手段は、前記類似度にもとづいて前記ショットを複数のグループに分類するとともに、各グループ内の前記ショットを階層化することを特徴とする前記請求項1または請求項2に記載の画像処理装置。
  4. 動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出手段と、
    前記構造化情報抽出手段により抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第1の復号手段と、
    前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出手段により抽出された情報中で指定され、前記第1の復号手段により復号された参照画像を用いて復号する第2の復号手段と、
    を備えることを特徴とする画像処理装置。
  5. 前記動画像の構造に関する情報では、前記復号対象画像の参照画像が、各画像の属するショット間の類似度にもとづいて指定されていることを特徴とする前記請求項4に記載の画像処理装置。
  6. 動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて構造化するショット構造化工程と、
    前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、
    前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、
    前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、
    を含むことを特徴とする画像処理方法。
  7. 前記ショット構造化工程では、前記ショットを前記類似度および前記動画像中での前記ショットの出現順序にもとづいて構造化することを特徴とする前記請求項6に記載の画像処理方法。
  8. 前記ショット構造化工程では、前記類似度にもとづいて前記ショットを複数のグループに分類するとともに、各グループ内の前記ショットを階層化することを特徴とする前記請求項6または請求項7に記載の画像処理方法。
  9. 動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出工程と、
    前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第1の復号工程と、
    前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第1の復号工程で復号された参照画像を用いて復号する第2の復号工程と、
    を含むことを特徴とする画像処理方法。
  10. 前記動画像の構造に関する情報では、前記復号対象画像の参照画像が、各画像の属するショット間の類似度にもとづいて指定されていることを特徴とする前記請求項9に記載の画像処理方法。
  11. 動画像を連続する複数の画像からなる複数のショットに分割するショット分割工程と、
    前記ショット分割工程で分割されたショットをショット間の類似度にもとづいて構造化するショット構造化工程と、
    前記動画像中の符号化対象画像と、前記ショット構造化工程による構造化の結果にもとづいて特定されるその参照画像との間の動き情報を検出する動き検出工程と、
    前記動き検出工程で検出された動き情報にもとづいて前記符号化対象画像の予測画像を前記参照画像から生成する動き補償工程と、
    前記符号化対象画像と前記動き補償工程で生成された予測画像との差分を符号化する符号化工程と、
    をプロセッサに実行させることを特徴とする画像処理プログラム。
  12. 前記ショット構造化工程では、前記ショットを前記類似度および前記動画像中での前記ショットの出現順序にもとづいて構造化することを特徴とする前記請求項11に記載の画像処理プログラム。
  13. 前記ショット構造化工程では、前記類似度にもとづいて前記ショットを複数のグループに分類するとともに、各グループ内の前記ショットを階層化することを特徴とする前記請求項11または請求項12に記載の画像処理プログラム。
  14. 動画像の符号化ストリームから前記動画像の構造に関する情報を抽出する構造化情報抽出工程と、
    前記構造化情報抽出工程で抽出された情報にもとづいて前記符号化ストリーム中の画像のうち他の画像の参照画像となる画像を復号する第1の復号工程と、
    前記符号化ストリーム中の復号対象画像を、前記構造化情報抽出工程で抽出された情報中で指定され、前記第1の復号工程で復号された参照画像を用いて復号する第2の復号工程と、
    をプロセッサに実行させることを特徴とする画像処理プログラム。
  15. 前記動画像の構造に関する情報では、前記復号対象画像の参照画像が、各画像の属するショット間の類似度にもとづいて指定されていることを特徴とする前記請求項14に記載の画像処理プログラム。

JP2006537811A 2004-09-30 2005-09-29 画像処理装置、画像処理方法、および画像処理プログラム Expired - Fee Related JP4520994B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004287468 2004-09-30
JP2004287468 2004-09-30
PCT/JP2005/017976 WO2006035883A1 (ja) 2004-09-30 2005-09-29 画像処理装置、画像処理方法、および画像処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2006035883A1 true JPWO2006035883A1 (ja) 2008-07-31
JP4520994B2 JP4520994B2 (ja) 2010-08-11

Family

ID=36119029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006537811A Expired - Fee Related JP4520994B2 (ja) 2004-09-30 2005-09-29 画像処理装置、画像処理方法、および画像処理プログラム

Country Status (3)

Country Link
US (1) US20070258009A1 (ja)
JP (1) JP4520994B2 (ja)
WO (1) WO2006035883A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7073158B2 (en) * 2002-05-17 2006-07-04 Pixel Velocity, Inc. Automated system for designing and developing field programmable gate arrays
US7792373B2 (en) * 2004-09-10 2010-09-07 Pioneer Corporation Image processing apparatus, image processing method, and image processing program
US20080151049A1 (en) * 2006-12-14 2008-06-26 Mccubbrey David L Gaming surveillance system and method of extracting metadata from multiple synchronized cameras
JP2010519860A (ja) * 2007-02-21 2010-06-03 ピクセル ベロシティー,インク. 広域監視のための拡張可能なシステム
US20090086023A1 (en) * 2007-07-18 2009-04-02 Mccubbrey David L Sensor system including a configuration of the sensor as a virtual sensor device
US20090322489A1 (en) * 2008-04-14 2009-12-31 Christopher Jones Machine vision rfid exciter triggering system
EP2499827A4 (en) * 2009-11-13 2018-01-03 Pixel Velocity, Inc. Method for tracking an object through an environment across multiple cameras
EP2497782A1 (en) 2011-03-08 2012-09-12 Alzinova AB Anti oligomer antibodies and uses thereof
US8630454B1 (en) 2011-05-31 2014-01-14 Google Inc. Method and system for motion detection in an image
CN113453017B (zh) * 2021-06-24 2022-08-23 咪咕文化科技有限公司 视频处理方法、装置、设备及计算机程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193748A (ja) * 1993-12-27 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 動画像処理方法および装置
JPH09187015A (ja) * 1995-11-02 1997-07-15 Mitsubishi Electric Corp 画像符号化器及び画像復号化器
JPH10257436A (ja) * 1997-03-10 1998-09-25 Atsushi Matsushita 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
JP2002271798A (ja) * 2001-03-08 2002-09-20 Matsushita Electric Ind Co Ltd データ符号化装置、データ復号化装置
JP2003503972A (ja) * 1999-07-06 2003-01-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオシーケンスの構造の自動抽出方法
JP2003333602A (ja) * 2002-05-03 2003-11-21 Lg Electronics Inc 動画コーディング方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1073272B1 (en) * 1999-02-15 2011-09-07 Sony Corporation Signal processing method and video/audio processing device
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
KR100380229B1 (ko) * 2000-07-19 2003-04-16 엘지전자 주식회사 엠펙(MPEG) 압축 비디오 환경에서 매크로 블록의 시공간상의 분포를 이용한 와이프(Wipe) 및 특수 편집 효과 검출 방법
KR20020059706A (ko) * 2000-09-08 2002-07-13 요트.게.아. 롤페즈 저장 매체상에 저장된 정보 신호를 재생하는 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193748A (ja) * 1993-12-27 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 動画像処理方法および装置
JPH09187015A (ja) * 1995-11-02 1997-07-15 Mitsubishi Electric Corp 画像符号化器及び画像復号化器
JPH10257436A (ja) * 1997-03-10 1998-09-25 Atsushi Matsushita 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
JP2003503972A (ja) * 1999-07-06 2003-01-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオシーケンスの構造の自動抽出方法
JP2002271798A (ja) * 2001-03-08 2002-09-20 Matsushita Electric Ind Co Ltd データ符号化装置、データ復号化装置
JP2003333602A (ja) * 2002-05-03 2003-11-21 Lg Electronics Inc 動画コーディング方法

Also Published As

Publication number Publication date
WO2006035883A1 (ja) 2006-04-06
US20070258009A1 (en) 2007-11-08
JP4520994B2 (ja) 2010-08-11

Similar Documents

Publication Publication Date Title
JP4520994B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP7422841B2 (ja) Mpmリストを使用するイントラ予測基盤画像コーディング方法及びその装置
US6618507B1 (en) Methods of feature extraction of video sequences
US6798977B2 (en) Image data encoding and decoding using plural different encoding circuits
US7272183B2 (en) Image processing device, method and storage medium thereof
US20080267290A1 (en) Coding Method Applied to Multimedia Data
US20090052537A1 (en) Method and device for processing coded video data
KR101610419B1 (ko) 화상 신호 복호 장치, 화상 신호 복호 방법, 화상 신호 부호화 장치, 화상 신호 부호화 방법 및 기록 매체
US8139877B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium including shot generation
CN101087408A (zh) 图像编码记录装置及其图像编码记录方法
KR20070007295A (ko) 비디오 인코딩 방법 및 장치
US7792373B2 (en) Image processing apparatus, image processing method, and image processing program
US20130163676A1 (en) Methods and apparatus for decoding video signals using motion compensated example-based super-resolution for video compression
JPH10257436A (ja) 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
US8165217B2 (en) Image decoding apparatus and method for decoding prediction encoded image data
US8649615B2 (en) Moving picture compression coding apparatus
JP2002064823A (ja) 圧縮動画像のシーンチェンジ検出装置、圧縮動画像のシーンチェンジ検出方法及びそのプログラムを記録した記録媒体
KR100319916B1 (ko) 계층구조를갖는스케일러블디지탈화상압축/복원방법및장치
JP2009164937A (ja) 動画像の多重化方法とファイル読み込み方法及び装置,並びにそのプログラムとコンピュータ読み取り可能な記録媒体
US7209591B2 (en) Motion compensation method for video sequence encoding in low bit rate systems
US20090016441A1 (en) Coding method and corresponding coded signal
JP5247210B2 (ja) 動画像符号化装置及び動画像符号化方法
KR102580900B1 (ko) 이벤트 검출 기반 영상 저장 방법 및 장치
WO2022183346A1 (zh) 特征数据的编码方法、解码方法、设备及存储介质
Pal et al. Object Detection driven Composite Block MotionEstimation Algorithm for High-FidelitySurveillance Video Coding

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100521

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees