JPWO2005069172A1

JPWO2005069172A1 - 要約再生装置および要約再生方法

Info

Publication number: JPWO2005069172A1
Application number: JP2005517009A
Authority: JP
Inventors: 大塚　功; 功大塚; 中根　和彦; 和彦中根; 雅晴小川; アジェイディヴァカラン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-01-14
Filing date: 2005-01-07
Publication date: 2007-07-26
Also published as: EP2107477A2; EP2107477B1; CN1910580A; MY145519A; EP2107477A3; US20050154987A1; US20050154973A1; HK1097614A1; CN100538698C; US7406409B2

Abstract

システムおよび方法は、区間列に分割された圧縮マルチメディアファイルに格納されているマルチメディアを要約し、マルチメディアのコンテンツは例えば、映像信号、音声信号、テキスト、およびバイナリデータである。関連するメタデータファイルが、各区間の索引情報および重要度レベルを含む。重要度情報は閉じた間隔にわたって連続的である。重要度レベルのしきい値は閉じた間隔において選択され、マルチメディアのうち、重要度レベルのしきい値よりも高い特定の重要度レベルを有する区間のみが再生される。重要度レベルは、複数の区間からなる固定長のウィンドウ、すなわちスライディングウィンドウについて求めることもできる。さらに、重要度レベルは、音量等の係数によって重み付けすることができる。

Description

本発明は、包括的にはマルチメディアの処理に関し、特に、映像信号、音声信号、テキスト、およびバイナリデータを記憶媒体に記録し、このマルチメディアの選択された部分を再生することに関する。

ビデオ（例えば映画、録画したスポーツイベントまたはニュース放送）を素早く視聴および分析するために、ビデオの要約を作成することができる。非圧縮ビデオおよび圧縮ビデオを要約するためのいくつかの方法が知られている。

従来のビデオを要約する方法は、まずビデオをシーンまたは「ショット」に細分化し、次に低レベルの特徴と高レベルの特徴を抽出する。低レベルの特徴は通常、色成分、動き成分、および音声成分等のシンタックスに基づくものであるのに対し、一方、高レベルの特徴は意味のある情報である。

次に特徴を分類し、分類した特徴に応じてショットをさらに細分化したセグメントを得ることができる。セグメント（ｓｅｇｍｅｎｔｓ）は、短い画像列（ｓｅｑｕｅｎｃｅｓ）（例えば１秒または２秒の「クリップ」または「静止」フレーム）に変換し、ラベル付けおよび索引付けすることができる。したがって視聴者は、要約を素早く走査して、詳細に再生するビデオの部分を選択することができる。明らかに、そのような要約の問題は、要約の作成に用いられる特徴および分類のみに基づいてしか再生を行うことができないことである。

視聴をさらに補助するために、セグメントを相対的な重要度に応じて主観的に順位付けることができる。したがって、ビデオ中の重要なイベント（クライマックスのシーン、またはゴール得点のチャンス等）を素早く識別することができる（例えば、非特許文献１および２参照。）。視聴者は、再生装置の早送り機能または早戻し機能を用いて、設定された重要なセグメントのうち、興味のあるセグメントを視聴することができる（例えば、非特許文献３を参照。）。

ニュースビデオを要約する別の技法は動きアクティビティ記述子を用いる（例えば、特許文献１参照。）。サッカーのハイライトを作成する技法は、映像特徴と音声特徴の組み合わせを用いる（例えば、特許文献２参照。）。音声特徴および映像特徴はまた、ニュース、サッカー、野球およびゴルフのビデオのハイライトを作成するために用いることができる（例えば、特許文献３参照。）。これらの技法は、ビデオから注目すべきイベントの重要なセグメントを抽出する（得点のチャンスまたはニュースストーリーの導入部分等）。よって元のビデオは、抽出された重要なセグメントを含む要約によって表される。重要なセグメントは、元のコンテンツへのエントリーポイントを提供することができ、よって柔軟で便利なナビゲーションを可能にする。

また、従来の番組検索装置は、前記ビデオに対応する入力信号を記録する際に当該入力信号から所定の情報を抽出し、当該情報の種類に応じて、前記入力信号に対応するビデオ（映像音声ストリーム）を時間軸で断片化してビデオショットを得る。次に、当該ビデオショットを予め設定する所定のカテゴリに仕分けして、再生時間位置情報（記録媒体における当該ビデオショットの位置を示す情報）と共に記録媒体に記録する。そして、前記記録媒体に記録した番組を視聴者が短時間で早見をする場合には、視聴者が選択した情報の種類に応じたカテゴリに属するビデオショットのみを連続して再生する（例えば、特許文献４参照。）。

また、他の番組検索装置は、ビデオショットの再生時間範囲の再生時間位置情報を重要度毎に切り出してまとめたテーブルが設定され、再生時には、視聴者によって指定された重要度に対応するテーブルに記述されている再生時間位置情報に基づいて再生を行なう（例えば、非特許文献１参照。）。

米国特許出願第０９／８４５，００９号米国特許出願第１０／０４６，７９０号米国特許出願第１０／３７４，０１７号特開２０００−１２５２４３号公報（第１１頁、第１図）藤原等著、「ＳｕｍｍａｒｙＤＳを用いたビデオの要約記述」、ポイント図解式ブロードバンド＋モバイル標準ＭＰＥＧ教科書、株式会社アスキー、ｐ．１７７図５−２４、２００３年２月１１日、「ＩＳＯ／ＩＥＣ１５９３８−５：２００２情報技術−マルチメディアコンテンツ記述インタフェース−Ｐａｒｔ５：マルチメディア記述スキーム（ＩＳＯ／ＩＥＣ１５９３８−５：２００２Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−Ｍｕｌｔｉｍｅｄｉａｃｏｎｔｅｎｔｄｅｓｃｒｉｐｔｉｎｉｎｔｅｒｆａｃｅ−Ｐａｒｔ５：ＭｕｌｔｉｍｅｄｉａＤｅｓｃｒｉｐｔｉｏｎＳｃｈｅｍｅｓ）」（２００２年）ＤＶＤレコーダー「ＤＶＲ−７０００取扱説明書」（パイオニア株式会社、ｐ．４９、２００１年）

従来技術によるビデオの録画、要約および再生にはいくつかの問題がある。第１に、要約は、視聴者の先入観ではなく、抽出される特徴、分類、および重要度の何らかの先入観に基づくものである。第２に、重要度レベルを用いる場合、重要度レベルは通常、非常に少数のレベルに量子化される（例えば５以下）。さらに多くの場合には、２つのレベル（すなわち、興味のあるセグメントを示すレベルと、ビデオの残りの部分を示すレベル）しか用いられない。
特に、重要度の細かい量子化を用いる場合、階層の階層数が非常に多くなり、あまりに多くの階層を管理しなければならなくなるため、ＭＰＥＧ−７規格で提案されている階層記述は非常に扱い難い。
ＭＰＥＧ−７の記載では、コンテンツを編集する度にメタデータを編集する必要がある。例えば、元のコンテンツからあるセグメントをカットした場合、このカットの影響を受ける全ての階層を修正する必要がある。これは、編集操作の回数が増えるとすぐに扱い難くなる可能性がある。
重要度レベルは非常に主観的であるとともに、非常にコンテンツに依存している。つまり、スポーツビデオの重要度レベルは、特定のスポーツジャンルに依存し、映画やニュース番組には全く適用できない。さらに視聴者は、作成される要約の長さを制御することができない。
従来技術の技法が用いる少数の主観レベルは、視聴者がいくつかの異なるビデオを要約に基づいて編集しつなぎ合わせ、視聴者の関心を反映した派生的なビデオを作成することを事実上不可能にする。
また、従来の検索装置にも、いくつかの問題がある。まず、前記の非特許文献３（ＤＶＤレコーダー「ＤＶＲ−７０００」取扱説明書）に記載の番組検索装置のように、視聴者自身の主観により、当該視聴者が気に入ったシーンでチャプターマークを設定（打刻）する場合には、視聴者に煩雑な操作が要求される。
また、前記の特許文献４（特開２０００−１２５２４３号公報）または前記非特許文献１（ポイント図解式ブロードバンド＋モバイル標準ＭＰＥＧ教科書）に記載の番組検索装置においては、視聴者の選択に応じた再生は可能であるものの、予め設定されたテーブル単位またはカテゴリ単位による映像の選択では、記録媒体に記録されたビデオ全体における盛り上がりの傾向（例えば、スポーツ番組における試合の流れ等）を把握することは困難である。特に、記録媒体に記録されたビデオが視聴者にとって初見の番組である場合には、ビデオ全体における盛り上がりの傾向を把握することは不可能である。

この発明は、かかる問題点を解消するためになされたものであって、視聴者が制御可能な方法でビデオを記録および再生することが可能なマルチメディア要約システムおよびマルチメディア要約方法を得ることを目的とする。さらに、コンテンツに依存せず、かつ主観的でない重要度レベルを指定することが必要とされている。また、より多くの別個の重要度レベルを提供することが必要とされている。最後に、視聴者が、自分で選択した重要度レベルに応じて任意の長さの要約を作成することを可能にすることが必要とされている。

この発明は、マルチメディアを要約するシステムであって、区間列に分割された圧縮マルチメディアファイル、ならびに、前記列の各区間の索引情報および閉じた間隔にわたって連続的な重要度のレベル情報を含むメタデータファイルを格納する手段と、前記閉じた間隔において重要度レベルのしきい値を選択する手段と、前記索引情報を用いて、前記マルチメディアのうち、前記重要度レベルのしきい値よりも高い特定の重要度レベルを有する区間のみを再生する手段とを備えたマルチメディアを要約するシステムである。

この発明によれば、ユーザが選択した、任意の長さ（再生時間）の要約を作成することが可能である。

［図１］本発明の実施の形態１による、マルチメディアを再生するシステムのブロック図である。
［図２］本発明の実施の形態１によるマルチメディアのファイル構造のブロック図である。
［図３］本発明の実施の形態１によるメタデータファイルのデータ構造のブロック図である。
［図４］本発明の実施の形態１による、メタデータファイルを用いたマルチメディアの索引付けのブロック図である。
［図５］本発明の実施の形態１による要約再生を表すグラフである。
［図６］（Ａ）本発明の実施の形態１による他の要約再生のグラフ、および、（Ｂ）要約率を表すグラフィックス画像である。
［図７］本発明の実施の形態１による、圧縮されたマルチメディアファイルおよびメタデータファイルを記憶媒体に記録するシステムのブロック図である。
［図８］本発明の実施の形態１による他の要約再生のグラフである。
［図９］本発明の実施の形態１による他の要約再生のグラフである。
［図１０］本発明の実施の形態１による他の要約再生のグラフである。
［図１１］本発明の実施の形態１による、マルチメディアを記録するシステムのブロック図である。
［図１２］ウィンドウに分割したマルチメディアコンテンツのブロック図である。
［図１３］本発明の実施の形態２における映像検索装置の構成を示すブロック図である。
［図１４］本発明の実施の形態２における映像検索装置のＯＳＤ画像を説明するための説明図である。
［図１５］本発明の実施の形態２における映像検索装置における要約再生時において、当該映像検索装置に接続されるモニタ、テレビ等の映像出力端末１３０に表示される映像を説明するための説明図である。
［図１６］本発明の実施の形態３の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
［図１７］本発明の実施の形態４の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
［図１８］本発明の実施の形態５の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
［図１９］本発明の実施の形態６の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
［図２０］本発明の実施の形態６における映像検索装置の重要シーン表示バーの生成方法を説明するための説明図である。
［図２１］本発明の実施の形態７の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
［図２２］本発明の実施の形態７における映像検索装置のスライド表示バーおよびスライド表示インジケータを説明するための説明図である。
［図２３］本発明の実施の形態８における記録装置の構成を示すブロック図である。
［図２４］ＣＭ検出部におけるＣＭ検出を説明するための説明図である。
［図２５］メタデータ生成部における重要度レベルの修正を説明するための説明図である。
［図２６］本発明の実施の形態８における他の記録装置の構成を示すブロック図である。

発明の概要
この発明に係るマルチメディア要約システムおよび方法は、セグメントに分割された圧縮マルチメディアファイルに格納されたマルチメディアを要約する。
関連するメタデータファイルは、前記画像列の各セグメントの索引情報および重要度レベル情報を含む。好ましい実施形態において、ファイルは、ＤＶＤ等の記憶媒体に格納される。

重要度情報はある範囲内で連続的である。重要度レベルのしきい値、または範囲は、前記ある範囲内で選択される。重要度レベルは視聴者が選択したもの、および音声信号（例えば音声の分類および／または音量）に基づくものとすることができる。

ファイルを読み出す際には、重要度レベルのしきい値よりも高い特定の重要度レベルを有するマルチメディアのセグメントのみが再生される。

要約精度をさらに高めるために、重要度レベルは、区間ウィンドウに基づくものとすることができる。この場合、コンテンツは、一定の長さのウィンドウ、または、スライディングウィンドウに分割することができる。

実施の形態１．
再生システムの構造
図１は、マルチメディアを再生するシステム１００を示す。ここで、マルチメディアのコンテンツは例えば、映像信号、音声信号、テキスト、およびバイナリデータである。このシステムは、ファイルとして構成されたマルチメディアおよびメタデータをディレクトリに格納する記憶媒体１（ディスクやテープ等）を備える。好ましい実施形態において、マルチメディアは、例えばＭＰＥＧ規格やＡＣ−３規格を用いて圧縮される。マルチメディアは、既知の技法を用いて細分化され、分類され、索引付けされている。索引付けは、時間またはフレーム番号に基づいて行うことができる（本明細書中に援用される米国特許第６，６２８，８９２号を参照のこと）。

メタデータは、索引および重要度の情報を含む。本発明の利点として、従来技術とは対照的に、重要度情報はある範囲内（例えば［０，１］または［０，１００］）で連続的である。したがって、重要度レベルは、「ゴール」や「ヘッドラインニュースの時間」ではなく実数に関するものであり、例えば重要度は０．５６７や＋７３．６４といった値になる。

さらなる利点として、連続的な重要度情報はコンテクストやコンテンツに依存せず、従来技術のように非常に主観的でもない。これらの特徴はともに、視聴者がマルチメディアを任意の所望の長さまで再生することを可能にする。

メタデータはバイナリまたはテキストであって、必要であれば、暗号化で保護することができる。メタデータは、日付、有効性コード、ファイルタイプ等といったファイル属性を含むことができる。マルチメディアおよびメタデータの階層ファイルおよびディレクトリ構造は、図２のようになる。

図１に示すように、読み取りドライブ１０は、記憶媒体１からマルチメディアファイルおよびメタデータファイルを読み出す。読み取りバッファ１１は、読み取りドライブ１０によって読み出されたデータを一時的に記憶する。デマルチプレクサ１２が、読み取りバッファから順次マルチメディアデータを取得し、このマルチメディアデータを映像ストリームと音声ストリームに分離する。

ビデオデコーダ１３は映像信号１７を処理し、オーディオデコーダ１４は出力装置（例えばテレビモニタ１９）のための音声信号１８を処理する。

メタデータ分析部１５は、読み取りバッファ１１から順次メタデータを取得する。プロセッサを含む再生制御部１６がシステム１００を制御する。メタデータ分析部１５の機能性は、ソフトウェアを用いて実施することができ、再生制御部１６の一部として組み込むことができる。

なお、本明細書中に記載されるいずれの実施態様でも、マルチメディアファイルとメタデータファイルを同時に記録および再生する必要はない。実際には、メタデータファイルは、別個に分析して、視聴者がマルチメディアファイル中の興味のあるセグメントを素早く探し出すことを可能にすることもできる。さらに、マルチメディアおよびメタデータは多重化して単一のファイルにし、読み出し時に分離することもできる。

ファイルおよびディレクトリの構造
図２は、記憶媒体１に格納されるファイルおよびディレクトリの階層構造２００を示す。ルートディレクトリ２０は、マルチメディアディレクトリ２１およびメタデータディレクトリ２２を含む。マルチメディアディレクトリ２１は、情報管理ファイル２３、マルチメディアファイル２４、およびバックアップファイル２５を格納する。メタデータディレクトリ２２はメタデータファイル２６を格納する。なお、他のディレクトリおよびファイルの構造も可能である。マルチメディアファイル２４内のデータは、多重化された映像信号および／または音声信号を含む。

なお、情報管理ファイル２３および／またはマルチメディアデータファイル２４のいずれかは、メタデータの有無またはそれが無効であることを示すフラグを含んでいてもよい。

メタデータ構造
図３は、メタデータファイル２６の階層構造３００を示す。階層には５つの階層Ａ〜Ｅがあり、メタデータ３０を最上位階層に含み、この下位に管理情報３１、一般情報３２、ショット情報３３、ならびに索引および重要度情報３４が続く。

階層Ｂの管理情報３１は、全メタデータ３０の包括的な記述であるメタデータ管理情報３１ａ、ビデオオブジェクト（ＶＯＢ）メタデータ情報サーチポインタ３１ｂ、および関連するＶＯＢメタデータ情報３１ｃを含む。相関は１対１である必要はなく、例えば、１つのＶＯＢメタデータ情報３１ｃに対するメタデータ情報サーチポインタ３１ｂが複数であってもよいし、複数のＶＯＢに対するＶＯＢメタデータ情報３１ｃが１つであってもよい、あるいは１つもなくてもよい。

次の階層Ｃでは、各ＶＯＢメタデータ情報３１ｃが、メタデータ一般情報３２ａおよびビデオショットマップ情報３２ｂを含む。メタデータ一般情報３２ａは、番組名、制作者名、男優／女優／レポータ／選手の名前、内容説明、放送日時やチャンネル等を含むことができる。正確な対応関係は、メタデータ一般情報３２ａにテーブルとして格納される。

次の階層Ｄには、ビデオショットマップ情報３２ｂ毎に、ビデオショットマップ一般情報３３ａ、および１つまたは複数のビデオショットエントリ３３ｂがある。上記のように、これらのエントリ間に１対１の対応関係がある必要はない。正確な対応関係は、ビデオショットマップ一般情報３３ａにテーブルとして格納される。

次の階層Ｅには、ビデオショットエントリ３３ｂ毎に、ビデオショット開始時間情報３４ａ、ビデオショット終了時間情報３４ｂ、および、ビデオショット重要度レベル３４ｃがある。上記のように、フレーム番号でマルチメディアに索引付けすることもできる。索引データがビデオショット開始時間情報３４ａから取得できる場合、索引情報は省略することができる。任意の順位付けシステムを用いて相対的な重要度を示すことができる。上記のように、重要度レベルは、連続的でかつコンテンツとは独立したものとすることができる。重要度レベルは、手動または自動で付加することができる。

なお、図３においては、メタデータファイル２００を５つの階層とする場合について説明したが、ビデオショット重要度レベル３４ｃと、当該ビデオショット重要度レベル３４ｃに対応するビデオショットの再生位置情報を特定できる時間情報または索引情報が含まれていれば、階層はいくつでもよい。また、図３においては、メタデータファイル２６において、全てのビデオオブジェクトのメタデータを１つのファイルとして扱う場合について説明したが、例えば、ビデオオブジェクト毎に独立したメタデータファイルを設定してもよい。

マルチメディアの索引付け
図４は、本発明における記録および再生されるマルチメディアと、メタデータとの関係を示す。情報管理ファイル２３に格納されるプログラムチェーン情報４０には、マルチメディアデータファイル２４のマルチメディアの再生順序が記述される。チェーン情報は、プログラムチェーン情報４０によって定義される再生単位に基づくプログラム４１を含む。セル４２ａ〜ｂは、プログラム４１によって定義される再生単位に基づくものである。なお、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）において、「セル」とは、ビデオプログラムの一部を表すためのデータ構造である。

ビデオオブジェクト情報４３ａ〜ｂは、情報管理ファイル２３に記述されるセル４２によって指定される再生時間情報（すなわちプレゼンテーションタイム）に対応する実際の映像データまたは音声データの参照先を記述する。

タイムマップテーブル（ＴＭＡＰ）４４ａ〜ｂは、ＶＯＢ情報４３によって定義された再生時間情報をオフセットしてこれを実際の映像データまたは音声データのアドレス情報に変換するためのものである。ビデオオブジェクトユニット（ＶＯＢＵ）４５ａおよび４５ｂは、マルチメディアデータファイル２４内の実際の映像データまたは音声データを記述する。これらのデータは、再生時間情報とともにパケット構造に多重化される。ＶＯＢＵは、マルチメディアにアクセスしてこれを再生するための最小単位である。ＶＯＢＵは、コンテンツの１つまたは複数のピクチャグループ（ＧＯＰ）を含む。

重要度のしきい値に基づく再生
図５は、本発明による要約再生を示し、横軸５１を時間とし、縦軸５０を重要度レベルとする。図５に示すように、重要度レベルは、所定の範囲５５（例えば［０，１］または［０，１００］）において連続的に変化する。また、図示のように、重要度レベルのしきい値５３は、視聴者が前記所定の範囲５５において変化させることができる（５６）。

なお、横軸５１に示した時間は、図３のビデオショット開始時間情報３４ａおよびビデオショット終了時間情報３４ｂを基準とする。重要度は、ビデオショット重要度レベル３４ｃを基準とする。重要度曲線の例５２はしきい値５３に従って評価される。
マルチメディアの再生中は、しきい値５３よりも高い重要度を有するマルチメディアの部分を再生し（５８）、しきい値よりも低い重要度を有する部分はスキップする（５９）。曲線５４は、再生に含まれる部分を示す。再生は再生制御部１６を用いて、メタデータ分析部１５から得られるメタデータ情報に基づいて行われる。

なお、複数の連続的な重要度レベル、あるいは１つまたは複数の重要度レベル範囲は、重要度の範囲の実数値に従う特定の重要度を有する区間のみを再生するように指定することができる。別法として、重要度の最も低い区間のみを再生することもできる。

所望のプログラムを再生するには、読み取りドライブ１０によって情報管理ファイル２３を読み出す。これにより、プログラムが例えば２つのセルとして構成されると判断することができる。

各セルは、ＶＯＢ番号および索引情報（例えば開始時間および終了時間）によって記述される。ＶＯＢ１情報４３ａのタイムマップテーブル４４ａは、各プレゼンテーションタイムをプレゼンテーションタイムスタンプ（ＰＴＳ）、または関係するＶＯＢ１内のアドレス情報へ変換するために用いられ、よって実際のＶＯＢＵ４５を得る。

同様に、セル−２４２ｂはまた、ＶＯＢ２情報４３ｂのタイムマップテーブル４４ｂを用いることによって、ＶＯＢ２のＶＯＢＵ４５ｂグループとともに得られる。この例において、セル（この場合セル４２ｂ）はＶＯＢ４３ｂによって、タイムマップテーブル４４ｂを用いて索引付けされる。

ＶＯＢＵ４５のデータは順次、分離および復号化のために供給される。映像信号１７および音声信号１８は、プレゼンテーションタイム（ＰＴＭ）を用いて同期され、出力装置１９に供給される。

視聴者が所望のプログラム（例えばプログラム１４１）を選択すると、プログラムチェーン情報４０によって関連するプログラム４１の構成を含むセル４２ａ〜ｂを見つけることができる。よってプログラムチェーン情報は、対応するＶＯＢならびにプレゼンテーションタイム（ＰＴＭ）を見つけるために用いられる。
図４において説明されるメタデータ２６は以下のように使用され、また図３のように示される。まず、メタデータ管理情報３１ａを用いて、所望のＶＯＢ番号に対応するメタデータ情報サーチポインタ３１ｂを探し出す。次に、メタデータ情報サーチポインタ３１ｂを用いてＶＯＢメタデータ情報３１ｃを探し出す。ＶＯＢメタデータ情報３１ｃはビデオショットマップ情報３２ｂを含み、このビデオショットマップ情報３２ｂは各ビデオショットの開始時間、終了（ｓｔｏｐ）時間および重要度レベルを含む。したがって、ＶＯＢメタデータは、セルの開始時間および終了時間により指定された範囲に含まれるプレゼンテーションタイム（ＰＴＭ）、ならびに対応する重要度レベルを有する全てのショットを収集するために用いられる。次に、所望の重要度レベル５３を越える部分のみを保持する。

なお、再生に複数のプログラムを選択することができ、再生される区間のみを連結させるために任意の方法が使用可能である。

他の要約再生
図６Ａは、本発明による他の要約再生を示し、縦軸５０を重要度レベルとし、横軸５１を時間とし、連続的な曲線５２は重要度レベルを示す。線６３は重要度レベルのしきい値であり、線６４は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。

要約率
図６Ｂは要約率６０を示す。要約率は、例えば０％から１００％（すなわち全範囲５５）まで変化させることができる。要約率は、再生装置とすることができる出力装置１９において出力画像に重ねられたグラフィックス画像として示される。部分６１は、ユーザーにより選択可能な現在の要約率である。しきい値６３は、ユーザーにより選択可能な現在の要約率６１に応じて設定される。ユーザーは、何らかの入力装置（例えばキーボードやリモコン１７ａ、図１を参照）を用いて要約率を設定することができる。要約率が１００％である場合はマルチメディアファイル全体を再生し、５０％の要約率ではファイルの半分のみを再生する。要約率は再生中に変更することができる。なお、グラフィックス画像は要約率や実際の時間に関して他の形態（例えばスライディングバー、または数値ディスプレイ）を有することも可能である。他の方法として、要約率は、メタデータ分析部１５または再生制御部１６によって自動的に変化させることもできる。

なお、ビデオ区間に対するポインタはリスト内で、重要度の降順に従ってソートすることができる。したがって、時間の長さの要件を満たすまで、ソート順になった区間を含むリストの下に行くことによって、任意の所望の長さの要約を得ることが可能である。

記録システムの構造
図７は、圧縮されたマルチメディアファイルおよびメタデータファイルを記憶媒体２（ディスクやテープ等）に記録するシステム７００のブロック図を示す。このシステムは、入力として映像信号７８、音声信号７９、テキスト、画像、バイナリデータ等を取得するビデオエンコーダ７１およびオーディオエンコーダ７２を備える。各エンコーダの出力は、マルチプレクサ７３によって多重化されて、書き込みバッファ７４にマルチメディアデータとして一時的に格納される。また、各エンコーダの出力はまたメタデータ生成部７５に送られ、このメタデータ生成部７５もまた出力を書き込みバッファに書き込む。

次に書き込みドライブ７０が、プロセッサを含む記録制御部７６の制御下で、マルチメディアおよびメタデータを記憶媒体２にファイルとして書き込む。ファイルは、ＭＰＥＧやＡＣ−３等の標準的なマルチメディア圧縮技法を用いて圧縮形式で書き込むことができる。記録中に暗号化も用いることができる。なお、メタデータ生成部７５は、記録制御部７６に組み込まれるソフトウェアとして実施することができる。

エンコーダは、入力信号７８〜７９から特徴、例えば動きベクトル、カラーヒストグラム、音声周波数、特性、および音量、ならびに音声関連情報を抽出する。抽出された特徴をメタデータ生成部７５によって分析し、セグメントとそれに関連する索引情報および重要度レベルを求める。

重要度レベルウィンドウ
例えば、図１２に示すように、重要度レベルは、音声信号を用いることによって求めることができる。例えば、各セグメント１２０１の音量を用いることができ、さらに、各セグメント１２０１の音声信号を様々なクラス（音声、音楽、歓声、拍手、笑い声等）に分類することができる。この場合、コンテンツ１２００全体を重複しないセグメント１２０１（例えば１秒の持続時間）に分割する。拍手および歓声には、音声や音楽よりも高い重要度レベルを与えることができる。

セグメント１２０１を分類した後、ハイライトを探し出すための方法は、コンテンツを持続時間の等しいセグメント１２０１、すなわちウィンドウ１２０２に分割することである。ウィンドウを用いる場合、各ウィンドウは、図示のような複数の分類されたセグメントを含む。

次に、ウィンドウ内の連続した拍手および／または歓声の最長の長さを求めることによって、あるいはウィンドウ内の拍手および／または歓声の割合（パーセンテージ）を求めることによって、各ウィンドウの重要度レベルを計算することができる。ウィンドウ内の全ての区間に、ウィンドウの重要度レベルを与えることができる。

他のウィンドウ方式は、コンテンツ全体にわたって持続期間が固定されたスライディングウィンドウ１２０３（例えば１２秒）を用いる。スライディングウィンドウは「アンカー」セグメント（例えばウィンドウ内の最初、中間、または最後の区間）を含む。このウィンドウは、１度に１セグメントずつ正方向（時間方向）にスライドすることができる。この場合、ウィンドウのアンカー区間（Ａ）１２０４の重要度レベルは、スライディングウィンドウ全体の拍手および／または歓声の割合あるいは連続した拍手および／または歓声の長さに基づくものである。スライディングウィンドウ手法は、ハイライトの時間をより正確に探し出すことを可能にする。

重み付き（Ｗｅｉｇｈｔｅｄ）重要度レベル
さらに、上記の方策により得られた重要度レベル（ＩＬ）を、ウィンドウの係数（例えば音量１２１１）でさらに重み付けして（１２１０）、最終的な重要度レベルを得ることができる。したがって例えば、あるセグメントが多数の音量の低い拍手を含む場合、そのセグメントには比較的低い重要度レベルが与えられるが、非常に大きな拍手を有するセグメントには比較的高い重要度レベルが与えられる。

なお、スポーツ番組などの場合、得点シーンや得点するチャンスにおいては、拍手や歓声のほかにアナウンサーや解説者による絶叫音声が伴う場合が多い。よって、スポーツ番組などの場合には、拍手や歓声を含む絶叫音声を１つの音声クラスとして設定し、当該音声クラスを重要度レベルの算出に使用することも有効である。

なお、いずれの実施態様でも、マルチメディアファイルとメタデータファイルを同時に生成する必要はない。例えば、メタデータは後で生成することができ、またメタデータは所定時間にわたって徐々に付加することができる。

時間のしきい値に基づく再生
図８は、本発明による他の要約再生を示し、縦軸５０を重要度レベルとし、横軸５１を時間とし、連続的な曲線５２は所定時間にわたる重要度レベルを示す。線８０は可変の重要度レベルのしきい値であり、線８１は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。

しかし、この実施形態では時間のしきい値も用いる。重要度レベルのしきい値よりも高い特定の重要度レベルを有し、時間のしきい値よりも長い時間その重要度レベルを維持する区間のみを再生する。例えば、区間ａ１〜ａ２は再生せず、区間ｂ１〜ｂ２を再生する。これにより、時間が短すぎて視聴者が適切に理解することができない区間は排除される。

付加的な区間の延長を用いた時間のしきい値に基づく再生
図９は、本発明による他の要約再生９００を示し、縦軸５０を重要度レベルとし、横軸５１を時間とし、曲線５２は所定時間にわたる重要度レベルを示す。線９０は重要度レベルのしきい値であり、線９１は、しきい値よりも高い特定の重要度を有する区間のみの再生である。上記と同様、他の区間はスキップされる。この実施態様ならびに後述の他の実施態様において、延長量は、再生制御部が下した決定に応じて変化させることができる。

この実施形態もまた、上述のような時間のしきい値を用いる。しかし、この場合、時間のしきい値よりも時間の短い区間はスキップされない。その代わり、そのような区間は、時間のしきい値の要件を満たすように時間を延長される。これは、その短い区間の前、後、または前後でマルチメディアファイルの各部分を加算することによって行われる（例えば区間ｃ１〜ａ２）。したがって、短い区間のサイズを大きくして、視聴者がその短い区間を適切に理解できるようにする。なお、第２の時間のしきい値も用いることができ、極端に短い区間（例えば１フレーム）は依然としてスキップするようにする。

乗法による区間の延長を用いた時間のしきい値に基づく再生
図１０は、本発明による他の要約再生を示し、縦軸５０を重要度レベルとし、横軸５１を時間とし、曲線５２は所定時間にわたる重要度レベルを示す。線１０００は重要度レベルのしきい値であり、線１００１は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
この実施形態もまた、上述のような時間のしきい値を用いる。しかし、この場合、区間の時間を所定量ｄだけ長くして、時間のしきい値を満たす再生される区間のサイズを大きくする。上記のように、区間は前、後、または前後で延長することができる。また、係数を乗算して同じように区間の時間を長くすることもできる。

記録および再生システムの構造
図１１は、読み取り／書き込み記憶媒体３（ディスクやテープ等）に格納された（格納される）圧縮マルチメディアファイルおよびメタデータファイルを記録および再生するシステム１１００のブロック図を示す。

読み取り／書き込みドライブ１１０が、読み取りバッファ１１にデータを書き込むことができ、書き込みバッファ７４からデータを読み出すことができる。デマルチプレクサ１２は読み取りバッファから順次マルチメディアを取得し、このマルチメディアを映像ストリームと音声ストリームに分離する。ビデオデコーダ１３は映像ストリームを処理し、オーディオデコーダ１４は音声ストリームを処理する。しかし、この場合、メタデータ生成部７５もデコーダ１３〜１４の出力を受け取るため、記録／再生制御部１１１を用いて、再生されるマルチメディアを記憶媒体３に格納することができる。

なお、重要度レベル、索引付け情報および他のメタデータは、復号化中にメタデータ生成部７５を用いて映像データおよび／または音声データから抽出することもできる。

さらに、重要度レベル、索引付け情報および他のメタデータは手動で生成して、後の段階で挿入することもできる。

なお、上記の実施態様はいずれも、検索機能を含んで、視聴者が時間、フレーム番号、または重要度のいずれかに基づいてマルチメディアの特定の部分に直接飛ぶ（ｐｏｓｉｔｉｏｎｔｏ）ことを可能にすることができる。この検索機能は、「サムネイル」区間（例えば、検索中に視聴者を補助する１つまたは少数のフレーム）を用いることができる。

なお、実施の形態１においては、当該システムに記憶媒体を含む場合について説明したが、当該記憶媒体はシステムと別個に構成してもよい。例えば、当該システムに前記記憶媒体としてＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）を内蔵する場合には、システムに記憶媒体を含んで構成する。一方、外付けのＨＤＤ，ＤＶＤ等の光ディスクまたは磁気ディスクを前記記憶媒体として使用する場合にはシステムと記憶媒体とを別個に構成する。

実施の形態２．
図１３は、実施の形態２における要約再生装置１２００の構成を示すブロック図である。なお、図１３において、実施の形態１において説明した構成と同様の構成については同一の符号を付記する。

要約再生装置１２００は、ＤＶＤ−ＲやＤＶＤ−ＲＷを含む各種ＤＶＤディスク、ハードディスク、またはブルーレイディスクなどの記憶媒体４に、前記図２において説明したディレクトリ構造に従って記録された前記ビデオの映像または音声の再生を行なう。また、当該要約再生装置１２００は、前記記憶媒体４に記録された前記ビデオに対応する前記重要度レベルに基づいて当該ビデオの要約再生を行なう。

以下、要約再生装置１２００において、ビデオの要約再生を行なう場合について説明する。ユーザーは、操作部１３０を操作して、再生する所望のビデオを選択し、さらに要約再生を選択する。ユーザによって所望のビデオが選択されると、前記図４において説明したようにして、当該ビデオを構成するプログラム４１および当該プログラム４１を構成するセル４２がプログラムチェーン情報４０によって特定することができるので、参照すべきＶＯＢの番号および当該セルの再生開始時間と再生終了時間の各プレゼンテーションタイム（ＰＴＭ）が確定する。

記憶媒体４に記録されたメタデータ３０（図３）は、当該記憶媒体４が読み取りドライブ１１に挿入された後であってユーザーが要約再生を選択する前、もしくは要約再生するビデオをユーザーが選択した後、または当該要約装置１２００において記憶媒体４に記録された番組を再生（通常再生）している途中等のタイミングにおいて、読み取りドライブ１１によって読み出され、ドライブＩ／Ｆ部３に出力される。ドライブＩ／Ｆ部３は、入力されたメタデータ３０を復調してメタデータ分析部１５に出力する。

メタデータ分析部１５は、上述のようにプログラムチェーン情報４０に基づいて検出した、前記ビデオに対応するＶＯＢの番号を参照して、当該ビデオに対応するメタデータ３０をメタデータファイル２６から読み出す。そして、当該メタデータ分析部１５は、前記メタデータ３０から各ＶＯＢに対応するビデオショット重要度レベル３４ｃに格納された重要度レベルを読み出す。

具体的には、まず、前記ＶＯＢの番号を参照して、メタデータ管理情報３１ａおよびＶＯＢメタデータ情報サーチポインタ３１ｂに格納されたアドレス情報によって、ＶＯＢメタデータ情報３１ｃを特定する。次に、各ＶＯＢメタデータ情報３１ｃに対応するビデオショットマップ情報３２ｂにアクセスする。

そして、当該ビデオショットマップ情報３２ｂに含まれる各ビデオショットエントリ３３ｂに記述されたビデオショット開始時間情報３４ａに格納された開始時間情報、ビデオショット終了時間情報３４ｂに格納された終了時間情報およびビデオショット重要度レベル３４ｃに格納された重要度レベルを読み出す。なお、ビデオショット開始時間情報３４ａおよびビデオショット終了時間情報３４ｂが特定されると、前記セルの再生開始時間と再生終了時間の範囲に含まれるプレゼンテーションタイム（ＰＴＭ）を有するビデオショットが特定される。

メタデータ分析部１５において読み出した重要度レベルは、当該メタデータ分析部１５に記録される。なお、メタデータ分析部１５には、記憶媒体４に記録された複数のビデオの各々に対応する重要度レベルを全て記録してもよいし、前記記憶媒体４に記録されたビデオのうち、要約再生の対象となっているビデオに対応する重要度レベルを全て記録するようにしてもよい。また、再生制御部１６においてＯＳＤプレーン画像（詳細は後述する。）を生成するために必要な重要度レベルのみを記録するようにしてもよい。また、前記重要度レベルは、メタデータ分析部１５に記録しなくてもよく、例えば、再生制御部１６にメモリ（図示せず）を設け、当該メモリに記録するようにしてもよい。その場合、前記メタデータ分析部１５は、重要度レベルを前記メタデータ３０のビデオショット重要度レベル３４ｃから読み出して再生制御部１６に出力する。

再生制御部１６は、前記メタデータ分析部１５に記録された各重要度レベルと予め設定されたしきい値とを比較する。具体的には、再生制御部１６に設ける比較部（図示せず）において、前記メタデータ分析部１５から出力された重要度レベルと前記しきい値とを比較する。そして、再生制御部１４は、前記しきい値よりも大きい値を有する重要度レベルに対応するビデオショットを構成するＶＯＢＵを前記図４において説明したプログラムチェーン情報４０によって特定し、当該ＶＯＢＵを読み出すように読み取りドライブ１１を制御する。なお、前記しきい値は、ユーザーが操作部１３０を操作することによって調整することができるように構成される。

なお、前記読み取りドライブ１１によって読み出されたＶＯＢＵは、ドライブＩ／Ｆ部１２１によって復調される。そして、当該ＶＯＢＵに対応する音声のデータ（音声データ）はオーディオデコーダ部１４を介してＤ／Ａコンバータ１２７に出力される。また、前記ＶＯＢＵに対応する副映像（ビデオにおける字幕等）のデータ（副映像データ）はグラフィックスデコーダ部１２３による処理を経た後、ＹＵＶ信号としてグラフィックスプレーンに蓄積される。また、前記ビデオの映像に対応するデータ（映像データ）はビデオデコーダ部１３による処理を経た後、アナログ映像信号としてビデオ描画プレーン１２５に蓄積される。

前記再生制御部１６は、上述の比較を行ない、ユーザーによって選択されたビデオの重要度レベルの変化を表す画像（ＯＳＤプレーン画像）を生成する。そして、前記ＯＳＤプレーン画像に対応する信号（以下、ＯＳＤ信号という。）をフレームメモリ等で構成されるＯＳＤプレーン１２９に出力する。そして、前記ＯＳＤ信号に対応するＯＳＤプレーン画像はＯＳＤプレーン１２９に蓄積される。

図１４は、ＯＳＤプレーン画像を説明するための説明図である。図１４に示すように、再生制御部１６は、重要度を示す軸である縦軸１３３、時間軸である横軸１３４、前記時間軸方向における重要度レベルの変化を表す重要度レベルプロット１３５、前記比較部に予め設定されるしきい値を示すスライスレベル１３７、および当該要約再生装置１２００の要約再生時において再生されている映像の番組全体における位置を示す再生インジゲータ１３６を含むＯＳＤプレーン画像１３２を生成する。なお、前記再生インジゲータ１３６は、Ｖｉｄｅｏ描画プレーン１２５から出力された画像の番組全体における位置が時間軸１３４上において正確に示されるように適宜更新して描画される。

ビデオ描画プレーン１２５、グラフィックスプレーン１２４およびＯＳＤプレーン１２９に蓄積された信号は、同期して合成部１２６に出力される。合成部１２６は、前記グラフィックスプレーン１２４に蓄積されたＹＵＶ信号、前記Ｖｉｄｅｏ描画プレーン１２５に蓄積された前記アナログ映像信号、および前記ＯＳＤプレーン１２９に蓄積された前記ＯＳＤ信号を合成してビデオエンコーダ７１に出力する。そして、ビデオエンコーダ７１は、合成信号を所定の信号に変換して要約再生装置１２００に接続される表示装置等の外部機器に出力する。

なお、要約再生装置１２００において行なわれる要約再生は、前記図５等によって説明した要約再生と同様にして行なわれる。

図１５は、要約再生装置１２００における要約再生時において、当該要約再生装置１２００に接続されるモニタ、テレビ等の表示装置１３００に表示される映像を説明するための説明図である。図１５において、図１５（Ａ）は、ビデオ描画プレーン１２５から出力されたアナログ映像信号に対応する画像１３１（以下、ビデオプレーン画像１３１ともいう。）を模式的に示した図である。また、図１５（Ｂ）は、前記図１４において説明したＯＳＤプレーン画像１３２である。さらに、図１５（Ｃ）は、図１５（Ａ）の画像と図１５（Ｂ）の画像とを合成した画像、すなわち前記合成部１２６から出力された合成信号に対応する画像（以下、合成画像ともいう。）である。なお、字幕等の副映像データに対応する画像がある場合には、前記合成画像に当該副映像データに対応する画像が重畳される。

図１５（Ｃ）のように、実施の形態２における要約再生装置１２００では、要約再生時において前記表示装置１３００には合成画像が表示される。そのため、従来の要約再生装置のようにビデオ全体における盛り上がりの傾向をユーザーが把握できないという問題は生じない。すなわち、ユーザーは、合成画像に含まれるＯＳＤプレーン画像１３２によりビデオにおける盛り上がりの傾向を一目で把握することができる。

具体的に説明すると、例えば、要約再生するビデオがスポーツ番組であって、当該スポーツ番組の映像の特徴を示すパラメータを「歓声の継続時間」として重要度レベルを算出した場合、重要度レベルプロット１３５は前記スポーツ番組における歓声の継続時間の変化を表すことになる。スポーツ番組等においては、勝敗の行方を左右するシーンであるほど歓声や拍手が継続する。したがって、ユーザーは、当該重要度レベルプロット１３５を一目見ただけで当該スポーツ番組における重要なシーンの番組全体における位置を把握でき、当該スポーツ番組における盛り上がりの傾向を一目で把握することができる。

また、当該ユーザーは、重要度レベルプロット１３５に対するスライスレベル１３７の位置を見ることによって、当該要約再生によってビデオ全体がどの程度要約されているかを一目で把握することができる。そして、ユーザーは、ビデオをより要約して再生したい場合には、前記操作部１３０を操作することによって前記スライスレベル１３７を縦軸１３３方向に移動させる。一方、前記ビデオに含まれる映像をより多く見たい場合には前記スライスレベル１３７を縦軸１３３とは反対の方向に移動させる。なお、前記再生制御部１６は、しきい値の変化に応じて、前記プログラムチェーン情報４０を参照して再生するビデオショットを調整し、当該ビデオショットに含まれるＶＯＢＵを読み出すように読み取りドライブ１０を制御する。

以上の説明のように、実施の形態２における要約再生装置１２００によれば、記憶媒体４に記録されたビデオが、ユーザーにとって初見のビデオであっても、当該ビデオの盛り上がりの傾向を容易に把握することができる。

また、ＯＳＤプレーン画像１３２を参照することによって、視聴者が所望するシーン（ハイライトシーン等）を素早く検出することができる。そして、前記ＯＳＤプレーン画像１３２を見ながら操作部１３０を操作してしきい値を調整するだけで、要約再生する時間を簡単に調整することができる。

さらに、再生インジゲータ１３６によって、要約再生によって表示される画像のビデオ全体における位置を容易に把握することができる。

また、従来の要約再生装置のように記憶媒体に記録されたビデオ全体を早送り等によって見なくてもハイライトシーン等の位置を容易に把握することができる。すなわち、例えば、記憶媒体に記録された番組が長時間である場合には、早送りといえども、ユーザーが当該ビデオ全体を見るには相当な時間を要する。しかしながら、実施の形態２における要約再生装置においては、番組の長短を問題とせず、ハイライトシーンのビデオ全体における位置を一目で把握することができる。

また、従来の要約再生装置のように、ハイライトシーンを設定（打刻）する場合には、当該ハイライトシーンを取りこぼす可能性があるが、実施の形態２における要約再生装置１２００においてはそのような可能性がない。

なお、ＯＳＤプレーン画像１３２における重要度レベルプロット１３５、スライスレベル１３７、再生インジゲータ１３６等のＯＳＤプレーン画像における各要素または当該ＯＳＤプレーン画像１３２全体は、ユーザーが操作部１３０を操作することによって表示または非表示の切り換えをできるように構成してもよい。

実施の形態３．
図１６は、実施の形態３の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態１または２において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。

図１６に示すように、実施の形態３における要約再生装置は、再生制御部１６に設ける演算部（図示せず）において、要約再生するビデオの録画時間（すなわち、当該ビデオを通常再生した場合に要する時間）、および現在のしきい値に基づいてビデオを要約再生した場合に要する時間（以下、要約時間という。）を演算する。また、再生制御部１６においては、前記要約時間を前記録画時間で除した結果得られる要約率の演算、および当該要約再生において再生されるシーンの数の計数が行なわれる。

再生制御部１６は、当該再生制御部１６において行なわれた演算等の結果に基づいて、テキスト情報１４１を含んで構成されるＯＳＤプレーン画像１４０を生成し、当該ＯＳＤプレーン画像１４０に対応するＯＳＤ信号をＯＳＤプレーン１２９に出力する。そして、ＯＳＤプレーン１２９は、前記ビデオ描画プレーンに蓄積された信号等と同期したタイミングで当該ＯＳＤ信号を合成部１０に出力する。

合成部１２６においては、実施の形態２において合成した信号に加えて、前記ＯＳＤプレーン画像１４０に対応するＯＳＤ信号を合成する。その結果、表示装置１３００においては、図１６に示すように、実施の形態２で説明した重要度レベルプロット１３５を含むＯＳＤプレーン画像に加えて、テキスト情報１４１を含むＯＳＤプレーン画像が表示される。

以上の説明のように、実施の形態３における要約再生装置によれば、実施の形態２において説明した重要度レベルプロット１３５に加えて、テキスト情報１４１も表示されるため、ユーザーは、要約再生に要する時間、要約率等を容易に把握することができる。

したがって、ユーザーは、表示装置１３００に表示されたテキスト情報を参照して操作部１３０を操作することによって、しきい値を調整することができる。

なお、実施の形態３においては、前記テキスト情報として要約時間等を表示する場合について説明したが、現在再生しているシーンの番号、現在再生している番組の番組名、出演者名、制作者名、録画した年月日や日時もしくは曜日、録画した番組の放送局名、記憶媒体４に記録されている番組の総数、現在再生している番組の番組番号や再生時間位置、記憶媒体４の名称等、ユーザーに対して提供する補足・付加情報を表示するようにしてもよい。

また、テキスト情報１４１で表示する補足・付加情報については、テキストなどの文字列だけでなく、アイコンや画像を使って表示してもよい。

また、ＯＳＤプレーン画像１３２、１４０は、操作部１３０によるユーザー操作によって個別に表示のオン、オフの選択設定が可能な構成としてもよい。なお、ＯＳＤプレーン画像１３２、１４０の表示は、両方を同時にオンまたはオフにしてもよいし、例えば、しきい値１３７のみの表示オン、オフ操作を行なう等、ＯＳＤプレーンプレーン画像１３２、１４０の一部分をオンまたはオフとしてもよい。

実施の形態４．
図１７は、実施の形態４の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態１〜３において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。

実施の形態４の要約再生装置におけるＯＳＤプレーン１２９は、実施の形態３で説明したテキスト情報１４１に対応するＯＳＤ信号のみを蓄積し、当該ＯＳＤ信号を合成部１２６に出力する。したがって、表示装置１３００には、図１７のように、テキスト情報１４１および要約再生されるビデオの画像が表示される。なお、テキスト情報１４１の内容は、実施の形態３で説明した内容と同様であるので説明を省略する。

以上の説明のように、実施の形態４における要約生成装置によれば、テキスト情報１４１が表示されるため、ユーザーは、要約再生に要する時間、要約率等を容易に把握することができる。

実施の形態５．
図１８は、実施の形態５の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態１〜４において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。

実施の形態５における要約再生装置は、再生制御部１６に予め記録される動作モード表示テキスト１５１およびアイコン画像１５２を含むＯＳＤプレーン画像１５０を当該再生制御部１６において生成する。

具体的に説明すると、当該要約再生装置において要約再生が選択されると、再生制御部１６は、予め記録された動作モード表示テキスト１５１およびアイコン画像１５２に基づいてＯＳＤプレーン画像１５０を生成し、当該ＯＳＤプレーン画像に対応するＯＳＤ信号をＯＳＤプレーン１２９に出力する。そして、ＯＳＤプレーン１２９は、再生制御部１６から出力されたＯＳＤ信号を蓄積し、当該ＯＳＤ信号を合成部１２６に出力する。

そして、合成部１２６は、ビデオ描画プレーン１２５から出力された信号に対応する画像またはグラフィックスプレーン１２４から出力された信号に対応する画像と、ＯＳＤプレーン１２９から出力された信号に対応する画像とを合成してビデオエンコーダ７１に出力する。その結果、表示装置１３００においては、図１８に示すような画像が表示される。

以上の説明のように、実施の形態５の要約再生装置によれば、ユーザーが当該要約再生装置の動作状態を一目で把握することができる。

なお、実施の形態５においては、要約再生を行なっている場合に表示する動作モード表示テキスト１５１およびアイコン画像１５２について説明したが、通常再生や早送り、巻き戻し等、その他の動作状態を示す動作モード表示テキスト１５１およびアイコン画像１５２を表示するようにしてもよい。

また、動作モード表示テキスト１５１およびアイコン画像１５２の両方を表示せず、動作モード表示テキスト１５１またはアイコン画像１５２のいずれか一方を表示するようにしてもよい。更に、操作部１３０を操作することにより、動作モード表示テキスト１５１ならびにアイコン画像１５２の両方を表示する場合、動作モード表示テキスト１５１もしくはアイコン画像１５２のいずれか一方を表示する場合、または動作モード表示テキスト１５１ならびにアイコン画像１５２の両方を表示しない場合を切り換えることができるようにしてもよい。

実施の形態６．
図１９は、実施の形態６の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態１〜５において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。

実施の形態６における要約再生装置は、再生制御部１６において、現在のしきい値１３７よりも大きい値を有する重要度レベルに対応する映像（重要シーン）のビデオ全体における位置を示すための重要シーン表示バー１６１、当該重要シーンの位置を示す重要シーンバー１６２、現在の再生位置を適宜更新表示して示す再生インジケータ１６３を生成する。そして、再生制御部１６は、ＯＳＤプレーン画像１６０を生成し、ＯＳＤプレーン１２９にＯＳＤ信号を出力する。そして、ＯＳＤプレーン１２９は、再生制御部１６から出力されたＯＳＤ信号を蓄積し、当該ＯＳＤ信号を合成部１２６に出力する。

合成部１２６は、ビデオ描画プレーン１２５から出力された信号に対応する画像またはグラフィックスプレーン９から出力された信号に対応する画像と、ＯＳＤプレーン１２９から出力された信号に対応する画像とを合成してビデオエンコーダ７１に出力する。その結果、表示装置１３００においては、図１９に示すような画像が表示される。

ここで、重要シーン表示バー１６１の生成方法について具体的に説明する。図２０は、重要シーン表示バー１６１の生成方法を説明するための説明図である。なお、図２０において、図１９で説明した構成と同様の構成については同一の符号を付記し、説明を省略する。

例えば、実施の形態２において説明した重要度レベルプロット１３５があった場合に現在のしきい値１３７を越える部分が重要なシーン（例えば、得点シーン等のハイライトシーン）だとする。そうすると、重要シーンバー１６２は、当該しきい値１３７を超える部分を、重要シーン表示バー１６１に投影することにより得ることができる。

以上の説明のように、実施の形態６における要約再生装置によれば、重要シーン表示バー１６１を含んで構成されるＯＳＤプレーン画像１６０の面積を、実施の形態２で示した重要度レベルプロット１３５を含んで構成されるＯＳＤプレーン画像の面積よりも小さく抑えることができる。したがって、ビデオ描画プレーン画像１３１に、当該ＯＳＤプレーン画像１６０を重ね合わせて表示してもビデオの映像を遮蔽することがない。

また、通常再生時において、重要シーン表示バー１６１を表示させれば、現在の再生位置に対する重要箇所（高い重要度レベルを持つハイライトシーン）の相対的な位置を容易に把握することができる。

また、重要シーン表示バー１６１に重要シーンバー１６２を表示することで、テキスト情報１４１だけで表示するよりも要約率等を容易に把握することができる。

実施の形態７．
図２１は、実施の形態７の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態１〜６において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。

実施の形態７における要約再生装置は、再生制御部１６において、ビデオの記録時間を示すスライド表示バー１７１、および現在表示しているシーンのビデオ全体における位置を示すスライド表示インジケータ１７２を含むＯＳＤプレーン画像を生成して、当該ＯＳＤプレーン画像に対応するＯＳＤ信号をＯＳＤプレーン１２９に出力する。ＯＳＤプレーン１２９は、再生制御部１６から出力されたＯＳＤ信号を蓄積し、当該ＯＳＤ信号を合成部１２６に出力する。なお、スライド表示インジケータ１７２は、ビデオ描画プレーン画像１２５から出力された画像のビデオ全体における位置がスライド表示バー１７１上において正確に示されるように適宜更新して描画される。

そして、合成部１２６は、ビデオ描画プレーン１２５から出力された信号に対応する画像またはグラフィックスプレーン１２４から出力された信号に対応する画像と、ＯＳＤプレーン１２９から出力された信号に対応する画像とを合成してビデオエンコーダ７１に出力する。その結果、表示装置１３００においては、図２１に示すような画像が表示される。

ここで、スライド表示バー１７１およびスライド表示インジケータ１７２について具体的に説明する。図２２は、スライド表示バー１７１およびスライド表示インジケータ１７２を説明するための説明図である。なお、図２２において、図２１で説明した構成と同様の構成については同一の符号を付記し、説明を省略する。

例えば、実施の形態２において説明した重要度レベルプロット１３５を含むＯＳＤプレーン画像１３２があった場合、再生制御部１６は、当該重要度レベルプロット１３５の一部分である破線で囲った部分（図２２における１７３の部分。以下、部分プロット１７３という。）を切り出した画像に対応するＯＳＤ信号をＯＳＤプレーン１２９に出力する。また、再生制御部１６は、部分プロット１７３として切り出した部分の、ビデオ全体における位置を演算して、当該位置を示すようにスライド表示インジケータ１７２を随時更新し、スライド表示バー１７１上に重ね合わせる。

以上に説明した再生制御部１６の処理により、図２１に示したＯＳＤプレーン画像１７０が生成される。

以上の説明のように、実施の形態７における要約再生装置によれば、重要度レベルの変動を示すＯＳＤプレーン画像１７０の面積を小さく抑えることができるため、ビデオプレーン画像１３１に重ね合わせて表示してもビデオの映像を遮蔽することがない。

また、重要度レベルプロットの特定部分を拡大表示することで時間軸方向における重要度レベルの変動をより詳細かつ明確に表示することができる。したがって、重要度レベルプロット１３５の変動が密な箇所であってもユーザーはその変動を容易に視認することができる。

なお、実施の形態７においては、スライド表示バー１７１およびスライド表示インジケータ１７２を用いて、表示装置１３００に現在表示されている画像のビデオ全体における位置を示す場合について説明したが、現在表示している画像のビデオ全体における位置を表示できる方法であれば、分数やパーセンテージ表記を用いたテキストによる表現や、スライド表示バー１７０とは異なる円グラフなどの描画を採用することもできる。

実施の形態８．
図２３は、実施の形態８における記録装置１４００の構成を示すブロック図である。なお、以下の説明においては、実施の形態１または２において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。

図２３において、ＣＭ検出部３００は、オーディオエンコーダ７２において抽出された音声信号の特徴を分析して前記ビデオにおけるコマーシャル（ＣｏｍｍｅｒｃｉａｌＭｅｓｓａｇｅ、以下、ＣＭともいう）区間を検出する。そして、当該検出の結果に対応するデータをメタデータ生成部３０１に出力する。

メタデータ生成部３０１は、実施の形態１において説明したように、各エンコーダにおいて抽出された映像信号の特徴または音声信号の特徴に基づいて重要度レベルを算出する。さらに、メタデータ生成部３０１は、ＣＭ検出部３００におけるＣＭ検出の結果に応じて、生成した重要度レベルを修正する。また、メタデータ生成部３０１は、修正した重要度レベルを含むメタデータを生成して書き込みバッファ７４に出力する。そして、前記メタデータは、実施の形態１において説明したように、セグメントと対応付けて記録媒体２に記録される。

図２４は、ＣＭ検出部３００におけるＣＭ検出を説明するための説明図である。図２４において、３１０は、当該記録装置１４００に入力された映像信号または音声信号に対応するビデオの内容（例えば、テレビ放送の放送内容）を本編放送（以下、本編ともいう）とＣＭ放送（以下、ＣＭともいう）とに分けて示したビデオ内容概念図である。なお、当該ビデオ内容概念図においてはＣＭ放送がＣＭ１，・・・，ＣＭｎのように複数のＣＭで構成される場合について示した。

また、図２４において、３１１は、当該ＣＭ検出部３００において前記音声信号を分析することによって検出された、前記ビデオ内容概念図３１０のビデオ内容における無音声の部分（以下、無音声箇所ともいう）と無音声で無い部分（以下、有音声箇所ともいう）とを示した無音声箇所検出曲線である。さらに、３１２は、前記無音声箇所に基づいてＣＭを検出するためのＣＭ検出フィルタであり、３１３は、ＣＭ検出フィルタ３１２によってＣＭ区間として検出された部分を示すＣＭ検出曲線である。

通常、図２４のビデオ内容概念図３１０に示したようにビデオの内容が本編とＣＭとで構成されている場合、本編の映像もしくは音声とＣＭの映像もしくは音声とはつながりが無い場合が多い。また、複数のＣＭが連続する場合には、あるＣＭの映像もしくは音声と他のＣＭの映像もしくは音声とはつながりが無い場合が多い。そのため、本編からＣＭへと切り替わる部分、ＣＭからＣＭへと切り替わる部分、またはＣＭから本編へと切り替わる部分においては音声が数百ミリ秒の間、無音となる。そこで、実施の形態８におけるＣＭ検出部３００は、オーディオエンコーダ７２から出力された音声の特徴を分析して当該無音声箇所を検出することによってＣＭの検出を行なう。

以下、ＣＭ検出部３００の動作について説明する。上述のように、当該ＣＭ検出部３００は、オーディオエンコーダ７２から出力された音声の特徴を分析して当該無音声箇所を検出する。無音声箇所の検出方法としては、例えば、変形離散コサイン変換（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ、以下、ＭＤＣＴともいう）を使用することができる。

ＭＤＣＴを使用する場合、ＣＭ検出部３００は、オーディオエンコーダ７２においてアナログ音声信号をＡ／Ｄ変換し、更に符号化圧縮して得られるデジタル信号（ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）信号ともいう。）をＭＤＣＴしてＭＤＣＴ係数を算出する。次に、所定の個数のＭＤＣＴ係数の値の２乗和（すなわち、オーディオエネルギーに相当する）を算出し、当該２乗和の値と所定のしきい値とを比較する。そして、比較の結果、前記２乗和の値が前記所定のしきい値以下となる区間が所定の区間（例えば、数百ミリ秒）である場合に、当該区間を無音声箇所とする。その結果、図２４のビデオ内容概念図３１０に示したビデオの場合には、本編とＣＭとの切り替わり部分およびＣＭとＣＭとの切り替わり部分において無音声箇所が検出される。

なお、ＣＭ検出部３００において検出した無音声箇所を示す情報（例えば、ビデオ中における当該無音声箇所の時間軸上の位置を示す情報）は、ＣＭ検出部３００におけるメモリ（図示せず）、または記録制御部７６におけるメモリ（図示せず）に記録する。また、前記所定のしきい値および前記所定の区間は、当該記録装置１４００の設計等に応じて任意に設定することができる。

次に、ＣＭ検出部３００は、検出した無音声箇所とＣＭ検出フィルタ３１２とを比較してＣＭ区間の検出を行なう。一般に、ＣＭ放送は、１つのＣＭの時間が１５秒、３０秒、６０秒、９０秒・・・というように予め決められた時間のいずれかの時間を採用して行なわれる。そこで、ＣＭ検出部３００に、１５秒間隔、３０秒間隔のように所定の間隔でイネーブル信号を発生するＣＭ検出フィルタ３１２を設定する。そして、前記メモリに記録した無音声箇所の発生位置（時間軸上の位置）と、前記イネーブル信号の発生位置（時間軸上の位置）とを比較してＣＭの検出を行なう。

すなわち、ＣＭ検出部３００は、ある無音箇所を検出した場合にその無音箇所の位置を起点としたイネーブル信号（以下、起点イネーブル信号ともいう）を発生させる。そして、起点イネーブル信号の後に所定の間隔（例えば、１５秒間隔、３０秒間隔等）で発生するイネーブル信号と、後続する無音箇所とが連続して一致した場合に、起点とした無音箇所をＣＭ区間の開始位置（以下、ＣＭＩＮ点ともいう）とする。

次に、無音箇所の位置とイネーブル信号の位置とが一致しない箇所を検出した場合に、当該一致しない箇所よりも時間的に前であり、かつ最も近くにある無音箇所の位置とイネーブル信号の位置とが一致する箇所をＣＭ区間の終了箇所（以下、ＣＭＯＵＴ点ともいう）とする。そして、ＣＭＩＮ点とＣＭＯＵＴ点との間の区間をＣＭ区間とし、ＣＭ区間を示す位置情報をメタデータ生成部３０１に出力する。すなわち、前記ＣＭ検出曲線３１３に対応する信号をメタデータ生成部３００に出力する。

図２５は、メタデータ生成部３０１における重要度レベルの修正を説明するための説明図である。また、図２５（Ａ）は、メタデータ生成部３０１において、ビデオエンコーダ７１の出力またはオーディオエンコーダ７２の出力に基づいて生成される重要度レベルの変化の一例を示す重要度レベルプロット（図中５２）、図２５（Ｂ）は、前記ＣＭ検出曲線（図中３１３）、図２５（Ｃ）は、ＣＭ検出曲線に基づいて重要度レベルを修正した結果得られる重要度レベルプロット（図中３２１、以下、修正重要度レベル曲線ともいう）である。

メタデータ生成部３０１は、ＣＭ検出部３００において得られたＣＭ検出曲線と、重要度レベルプロットとを比較して重要度レベルを修正する。すなわち、重要度レベルプロットにおいてＣＭ検出区間と一致する重要度レベルを低くする。具体的には、例えば、ＣＭ区間と一致する重要度レベルを０などの固定値に置き換える。または、ＣＭ区間と一致する重要度レベルに対して、当該重要度レベルの値を小さくするような固定値（例えば、０．５）を乗算してもよい。以上に説明した処理を行なうことによって、当該メタデータ生成部３０１において修正された重要度レベルを得ることができる。

なお、以上に説明した、ＣＭ検出部３００におけるＣＭ区間の検出、メタデータ生成部３０１におけるメタデータの修正、または修正した重要度レベルを含むメタデータの記録媒体への記録は、当該記録装置１４００において記録媒体２へのビデオの記録中に行なってもよいし、記録媒体２へのビデオの記録が終了した後に、メモリやハードディスク等に記録した無音区間の時間情報に基づいて重要度レベルを修正して任意のタイミングで記録媒体２に記録してもよい。

以上の説明のように、実施の形態８における記録装置によれば、ＣＭ区間における重要度レベルを低い値に設定することができる。すなわち、ＣＭ放送の部分において高い重要度レベルが与えられた場合であっても、重要度レベルを低い値に修正することができる。したがって、記録媒体に記録されたビデオを要約再生する際に、ＣＭを再生することを防止することができる。

なお、以上の説明においては、オーディオエンコーダ７２から出力された音声信号の特徴に基づいてＣＭ区間の検出を行なう場合について説明したが、ＣＭ区間の検出においてはビデオエンコーダ７１から出力される映像信号の特徴を使用してもよいし、ビデオエンコーダ７１における映像信号の符号化圧縮の際に得られる所定の特徴量を使用してもよい。

また、ＣＭ区間の検出は、映像信号あるいは音声信号のいずれか一方からのみ得られた特徴に基づいて行なってもよいし、映像信号と音声信号の双方から得られた特徴に基づいて行なってもよい。

また、以上の説明においては、無音声箇所を検出してＣＭ区間を検出し、重要度レベルを修正する場合について説明したが、その他の方法によりＣＭ区間を検出して重要度レベルの修正を行なってもよい。例えば、記録装置に入力される音声信号の音声方式がステレオ方式であるかモノラル方式であるかを検出してＣＭ区間を検出することもできる。すなわち、本編においてはモノラル方式が使用され、ＣＭにおいてはステレオ方式が使用されている場合には、モノラル方式とステレオ方式との切り替わり部分を検出することによってＣＭＩＮ点とＣＭＯＵＴ点を検出してＣＭ区間を検出することができる。また、本編においては二ヶ国語方式が使用され、ＣＭにおいては二ヶ国語方式が使用されていいない場合には、二ヶ国語放送で無い部分をＣＭ区間として検出することができる。

さらに、本編とＣＭとの切り替わり点において黒画面の映像フレームが挿入されている場合には、当該黒画面を検出することによってＣＭ区間を検出することができる。また、本編に対応する映像信号においては字幕放送信号が含まれ、ＣＭに対応する映像信号においては字幕放送信号が含まれない場合においては、当該字幕放送信号を検出することによってＣＭ区間の検出をすることができる。

また、記録装置に入力される映像信号または音声信号にＣＭ区間を識別するための信号（以下、ＣＭ識別信号ともいう）が重畳されている場合には、当該ＣＭ識別信号を検出することによってＣＭ区間の検出をすることができる。なお、ＣＭ区間の検出に際して、黒画面を検出するなど、映像信号の特徴を使用する場合においては、図２６に示すように、ＣＭ検出部３０２にビデオエンコーダ７１の出力が入力されるように記録装置１５００を構成する。そして、メタデータ生成部３０３においては、映像信号または音声信号に基づいて得られたＣＭ検出曲線に応じてメタデータの修正を行なう。

また、以上の説明においては、ＣＭ区間の検出に際して、無音声箇所を検出する方法のみを使用する場合について説明したが、ＣＭ検出部３００においては、上述した複数のＣＭ検出方法のいずれを使用してもよいし、複数のＣＭ検出方法を組み合わせて使用してもよい。

例えば、モノラル方式とステレオ方式との切り替わり部分を検出することによってＣＭ区間を検出する方法と、無音声箇所を検出することによってＣＭ区間を検出する方法とを組み合わせることができる。モノラル方式とステレオ方式との切り替わり部分を検出してＣＭ区間を検出する方法は、本編およびＣＭの双方でステレオ方式を使用している場合にはＣＭ区間の検出をすることは困難である。しかしながら、当該音声方式の切り替えを検出することによってＣＭ区間を検出する方法は最も簡易にＣＭ区間を検出することができ、記録装置における演算負荷を小さくすることができる。

そこで、録画の対象となるテレビ放送の音声信号の音声方式をあらかじめ電子番組表（ＥＰＧ（ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ）ともいう）によって取得しておき、本編がモノラル方式である場合や二ヶ国語方式の場合には音声方式の切り替わりを検出してＣＭ区間を検出する方式を採用し、本編がステレオ方式であった場合には、無音声箇所を検出することによってＣＭ区間を検出する方法を採用するようにしてもよい。

また、音声方式の切り替わりの検出によるＣＭ検出の方式の結果と、無音声箇所の検出によるＣＭ検出の方式の結果とを独立したデータテーブルとして保持しておき、録画完了後あるいは任意のタイミングでいずれの方式によるＣＭ検出が適切であったかを所定の基準に基づいて判定して、いずれかの方式を採用するようにしてもよい。

なお、前記所定の基準とは、例えば、検出されるＣＭ区間の個数（以下、ＣＭ区間数ともいう）を使用することができる。例えば、本編がステレオ音声方式の番組に対して音声方式の切り替わりを検出することによるＣＭ区間の検出を行った場合には、ＣＭ区間数が、番組の放送時間から想定される一般的なＣＭ区間の個数よりも極端に少なくなる。そこで、上述の場合には、ＣＭ区間数が、番組の放送時間から想定される一般的なＣＭ区間の個数よりも極端に少なくなった場合に、音声方式の切り替わりを検出することによるＣＭ検出が適切でなかったことが判断できる。

具体的には、例えば、所定のしきい値（番組の放送時間から想定される一般的なＣＭ区間の個数よりも極端に少ないと判断することが可能なしきい値）を設定し、ＣＭ区間数と前記しきい値とを比較して、当該しきい値よりもＣＭ区間数が小さい場合に、音声方式の切り替わりを検出することによるＣＭ検出が適切でないと判断することができる。

また、音声方式の切り替わりを検出してＣＭ区間を検出する方法を使用して重要度レベルの修正を行なって得られるメタデータ、および、無音声箇所を検出することによってＣＭ区間を検出する方法を使用して重要度レベルの修正を行なって得られるメタデータの両方のメタデータを記録媒体２に記録し、当該記録媒体２を再生する際に、使用するメタデータを選択するようにしてもよい。

なお、実施の形態８において説明した記録装置によってメタデータ等が記録された記録媒体２は、実施の形態２において説明した要約再生装置によって再生することができる。

本発明を、好ましい実施形態の例として記載してきたが、本発明の精神および範囲内で様々な他の適応および修正を行うことができることを理解すべきである。したがって、併記の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および修正をすべて網羅することである。

Claims

入力された、映像信号または音声信号を所定の記録媒体に記録する記録手段と、
前記映像信号または前記音声信号を所定のセグメントに区分して、前記映像信号の映像の特徴または前記音声信号の音声の特徴を前記セグメント毎に抽出する特徴抽出手段と、
前記特徴に対応する特徴データ、および前記セグメントの開始位置を含むメタデータを生成するメタデータ生成手段とを備え、
前記記録手段は、前記セグメントと対応付けて前記メタデータを前記記録媒体に記録するように構成されてなる記録装置。
前記メタデータ生成手段は、所定のウィンドウに含まれる各セグメントの特徴データに基づいて、前記ウィンドウ内のセグメント全てに対応する前記特徴データを生成するように構成されてなる請求項１に記載の記録装置。
前記ウィンドウは、所定の特徴データが設定されるアンカー区間を有し、
前記メタデータ生成手段は、前記ウィンドウに含まれる各セグメントの特徴データ、および前記アンカー区間に設定された特徴データに基づいて、前記ウィンドウ内のセグメント全てに対応する前記特徴データを生成するように構成されてなる請求項２に記載の記録装置。
前記メタデータ生成手段は、前記特徴データに重み付けをするように構成されてなる請求項２または３に記載の記録装置。
前記重み付けは、前記音声信号に対応する音声の音量であることを特徴とする請求項４に記載の記録装置。
入力された、映像信号または音声信号を所定の記録媒体に記録する記録手段と、
前記映像信号または前記音声信号を所定のセグメントに区分して、前記映像信号の映像の特徴または前記音声信号の音声の特徴を前記セグメント毎に抽出する特徴抽出手段と、
前記特徴に対応する特徴データ、および前記セグメントの開始位置を含むメタデータを生成するメタデータ生成手段と、
前記映像信号または前記音声信号に基づいて前記映像信号または前記音声信号に含まれるコマーシャルの区間を検出するＣＭ検出手段とを備え、
前記メタデータ生成手段は、前記ＣＭ検出手段における検出の結果に応じて、前記特徴データを修正してメタデータを生成し、
前記記録手段は、修正された前記特徴データを含むメタデータを、前記セグメントと対応付けて前記記録媒体に記録するように構成されてなる記録装置。
入力された、映像信号または音声信号を所定の記録媒体に記録し、
前記映像信号または前記音声信号を所定のセグメントに区分して、前記映像信号の映像の特徴または前記音声信号の音声の特徴を前記セグメント毎に抽出し、
前記特徴に対応する特徴データ、および前記セグメントの開始位置を含むメタデータを生成し、
前記記録の際に、前記セグメントと対応付けて前記メタデータを前記記録媒体に記録することを含む記録方法。
入力された、映像信号または音声信号を所定の記録媒体に記録し、
前記映像信号または前記音声信号を所定のセグメントに区分して、前記映像信号の映像の特徴または前記音声信号の音声の特徴を前記セグメント毎に抽出し、
前記特徴に対応する特徴データ、および前記セグメントの開始位置を含むメタデータを生成し、
前記映像信号または前記音声信号に基づいて前記映像信号または前記音声信号に含まれるコマーシャルの区間を検出し、
コマーシャルの区間の検出の結果に応じて、前記特徴データを修正してメタデータを生成し、
修正された前記特徴データを含むメタデータを、前記セグメントと対応付けて前記記録媒体に記録することを含む記録方法。
前記請求項７または前記請求項８に記載の記録方法によって、前記メタデータ、前記映像信号または前記音声信号に対応するセグメントが記録されたコンピュータ読み取り可能な記録媒体。
前記メタデータに対応するファイルが格納されるディレクトリと、前記セグメントに対応するファイルが格納されるディレクトリとを異なるディレクトリとして設けることを特徴とする請求項９に記載のコンピュータ読み取り可能な記録媒体。
請求項９または１０に記載の記録媒体に記録された前記メタデータから前記特徴データを抽出する特徴データ抽出手段と、
前記特徴データに対応する値と予め定めるしきい値とを比較する比較手段と、
前記記録媒体に記録された前記セグメントのうち、前記比較の結果に対応するセグメントを検索する検索手段と、
該検索手段において検索されたセグメントに対応する映像または音声を再生する再生手段とを備える要約再生装置。
前記検索手段は、前記比較手段における比較の結果、前記しきい値よりも値が大きい特徴データに対応するセグメントを検索するように構成されてなる請求項１１に記載の要約再生装置。
前記比較手段は、前記検索手段において検索されたセグメントに対応する映像の再生時間と所定のしきい値とを比較し、
当該要約再生装置は、前記比較手段における比較の結果、前記再生時間が前記所定のしきい値よりも小さい場合には、前記検索されたセグメントに対応する映像または音声を再生しないように構成されてなる請求項１１または１２に記載の要約再生装置。
前記比較手段は、前記検索手段において検索されたセグメントに対応する映像の再生時間と所定のしきい値とを比較し、
当該要約再生装置は、前記比較手段における比較の結果、前記再生時間が前記所定のしきい値よりも小さい場合には、前記セグメントに対応する映像または音声を含んで再生される映像または音声の再生時間が前記所定のしきい値以上となるように再生時間を調整するように構成されてなる請求項１１または１２に記載の要約再生装置。
前記比較手段における比較の結果を示す画像を生成する画像生成手段と、
前記画像生成手段において生成された画像と、前記映像検索手段において検索されたセグメントの映像とを合成して出力する合成手段とを更に備える請求項１１ないし１４のいずれかに記載の要約再生装置。
前記画像生成手段において生成される画像は、前記特徴データの値の変動を示す画像と、前記しきい値のレベルを示す画像とを含んで構成される請求項１５に記載の要約再生装置。
前記画像生成手段において生成される画像は、前記比較手段における比較の結果、前記検索手段によって検索されたセグメントに対応する映像の再生時間を示す画像を含んで構成される請求項１５または１６に記載の要約再生装置。
前記画像生成手段において生成される画像は、前記比較手段における比較の結果、前記検索手段によって検索されたセグメントに対応する映像の、ビデオ全体における位置を示す画像を含んで構成される請求項１５ないし１７のいずれかに記載の要約再生装置。
請求項９または１０に記載の記録媒体に記録された前記メタデータから前記特徴データを抽出し、
前記特徴データに対応する値と予め定めるしきい値とを比較し、
前記記録媒体に記録された前記セグメントのうち、前記比較の結果に対応するセグメントを検索し、
該検索手段において検索されたセグメントに対応する映像または音声を再生することを含む要約再生方法。
マルチメディアを要約するマルチメディア要約システムであって、
区間列に分割された圧縮マルチメディアファイル、ならびに、前記列の各区間の索引情報および閉じた間隔にわたって連続的な重要度のレベル情報を含むメタデータファイルを格納する手段と、
前記閉じた間隔において重要度レベルのしきい値を選択する手段と、
前記索引情報を用いて、前記マルチメディアのうち、前記重要度レベルのしきい値よりも高い特定の重要度レベルを有する区間のみを再生する手段とを備えたマルチメディア要約システム。
マルチメディアを要約するマルチメディア要約方法であって、
区間列に分割された圧縮マルチメディアファイルを格納すること、
前記区間列の各区間の索引情報および閉じた間隔にわたって連続的である重要度のレベル情報を含むメタデータファイルを格納すること、
前記閉じた間隔において重要度レベルのしきい値を選択すること、および
前記索引情報を用いて、前記マルチメディアのうち、前記重要度レベルのしきい値よりも高い特定の重要度レベルを有する区間を再生することを含むマルチメディア要約方法。