JPWO2005069172A1 - 要約再生装置および要約再生方法 - Google Patents
要約再生装置および要約再生方法 Download PDFInfo
- Publication number
- JPWO2005069172A1 JPWO2005069172A1 JP2005517009A JP2005517009A JPWO2005069172A1 JP WO2005069172 A1 JPWO2005069172 A1 JP WO2005069172A1 JP 2005517009 A JP2005517009 A JP 2005517009A JP 2005517009 A JP2005517009 A JP 2005517009A JP WO2005069172 A1 JPWO2005069172 A1 JP WO2005069172A1
- Authority
- JP
- Japan
- Prior art keywords
- video
- metadata
- segment
- importance level
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/82—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
- H04N9/8205—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/426—Internal components of the client ; Characteristics thereof
- H04N21/42646—Internal components of the client ; Characteristics thereof for reading from or writing on a non-volatile solid state storage medium, e.g. DVD, CD-ROM
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/432—Content retrieval operation from a local storage medium, e.g. hard-disk
- H04N21/4325—Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/454—Content or additional data filtering, e.g. blocking advertisements
- H04N21/4542—Blocking scenes or portions of the received content, e.g. censoring scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/8042—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
Abstract
システムおよび方法は、区間列に分割された圧縮マルチメディアファイルに格納されているマルチメディアを要約し、マルチメディアのコンテンツは例えば、映像信号、音声信号、テキスト、およびバイナリデータである。関連するメタデータファイルが、各区間の索引情報および重要度レベルを含む。重要度情報は閉じた間隔にわたって連続的である。重要度レベルのしきい値は閉じた間隔において選択され、マルチメディアのうち、重要度レベルのしきい値よりも高い特定の重要度レベルを有する区間のみが再生される。重要度レベルは、複数の区間からなる固定長のウィンドウ、すなわちスライディングウィンドウについて求めることもできる。さらに、重要度レベルは、音量等の係数によって重み付けすることができる。
Description
本発明は、包括的にはマルチメディアの処理に関し、特に、映像信号、音声信号、テキスト、およびバイナリデータを記憶媒体に記録し、このマルチメディアの選択された部分を再生することに関する。
ビデオ(例えば映画、録画したスポーツイベントまたはニュース放送)を素早く視聴および分析するために、ビデオの要約を作成することができる。非圧縮ビデオおよび圧縮ビデオを要約するためのいくつかの方法が知られている。
従来のビデオを要約する方法は、まずビデオをシーンまたは「ショット」に細分化し、次に低レベルの特徴と高レベルの特徴を抽出する。低レベルの特徴は通常、色成分、動き成分、および音声成分等のシンタックスに基づくものであるのに対し、一方、高レベルの特徴は意味のある情報である。
次に特徴を分類し、分類した特徴に応じてショットをさらに細分化したセグメントを得ることができる。セグメント(segments)は、短い画像列(sequences)(例えば1秒または2秒の「クリップ」または「静止」フレーム)に変換し、ラベル付けおよび索引付けすることができる。したがって視聴者は、要約を素早く走査して、詳細に再生するビデオの部分を選択することができる。明らかに、そのような要約の問題は、要約の作成に用いられる特徴および分類のみに基づいてしか再生を行うことができないことである。
視聴をさらに補助するために、セグメントを相対的な重要度に応じて主観的に順位付けることができる。したがって、ビデオ中の重要なイベント(クライマックスのシーン、またはゴール得点のチャンス等)を素早く識別することができる(例えば、非特許文献1および2参照。)。視聴者は、再生装置の早送り機能または早戻し機能を用いて、設定された重要なセグメントのうち、興味のあるセグメントを視聴することができる(例えば、非特許文献3を参照。)。
ニュースビデオを要約する別の技法は動きアクティビティ記述子を用いる(例えば、特許文献1参照。)。サッカーのハイライトを作成する技法は、映像特徴と音声特徴の組み合わせを用いる(例えば、特許文献2参照。)。音声特徴および映像特徴はまた、ニュース、サッカー、野球およびゴルフのビデオのハイライトを作成するために用いることができる(例えば、特許文献3参照。)。これらの技法は、ビデオから注目すべきイベントの重要なセグメントを抽出する(得点のチャンスまたはニュースストーリーの導入部分等)。よって元のビデオは、抽出された重要なセグメントを含む要約によって表される。重要なセグメントは、元のコンテンツへのエントリーポイントを提供することができ、よって柔軟で便利なナビゲーションを可能にする。
また、従来の番組検索装置は、前記ビデオに対応する入力信号を記録する際に当該入力信号から所定の情報を抽出し、当該情報の種類に応じて、前記入力信号に対応するビデオ(映像音声ストリーム)を時間軸で断片化してビデオショットを得る。次に、当該ビデオショットを予め設定する所定のカテゴリに仕分けして、再生時間位置情報(記録媒体における当該ビデオショットの位置を示す情報)と共に記録媒体に記録する。そして、前記記録媒体に記録した番組を視聴者が短時間で早見をする場合には、視聴者が選択した情報の種類に応じたカテゴリに属するビデオショットのみを連続して再生する(例えば、特許文献4参照。)。
また、他の番組検索装置は、ビデオショットの再生時間範囲の再生時間位置情報を重要度毎に切り出してまとめたテーブルが設定され、再生時には、視聴者によって指定された重要度に対応するテーブルに記述されている再生時間位置情報に基づいて再生を行なう(例えば、非特許文献1参照。)。
従来技術によるビデオの録画、要約および再生にはいくつかの問題がある。第1に、要約は、視聴者の先入観ではなく、抽出される特徴、分類、および重要度の何らかの先入観に基づくものである。第2に、重要度レベルを用いる場合、重要度レベルは通常、非常に少数のレベルに量子化される(例えば5以下)。さらに多くの場合には、2つのレベル(すなわち、興味のあるセグメントを示すレベルと、ビデオの残りの部分を示すレベル)しか用いられない。
特に、重要度の細かい量子化を用いる場合、階層の階層数が非常に多くなり、あまりに多くの階層を管理しなければならなくなるため、MPEG−7規格で提案されている階層記述は非常に扱い難い。
MPEG−7の記載では、コンテンツを編集する度にメタデータを編集する必要がある。例えば、元のコンテンツからあるセグメントをカットした場合、このカットの影響を受ける全ての階層を修正する必要がある。これは、編集操作の回数が増えるとすぐに扱い難くなる可能性がある。
重要度レベルは非常に主観的であるとともに、非常にコンテンツに依存している。つまり、スポーツビデオの重要度レベルは、特定のスポーツジャンルに依存し、映画やニュース番組には全く適用できない。さらに視聴者は、作成される要約の長さを制御することができない。
従来技術の技法が用いる少数の主観レベルは、視聴者がいくつかの異なるビデオを要約に基づいて編集しつなぎ合わせ、視聴者の関心を反映した派生的なビデオを作成することを事実上不可能にする。
また、従来の検索装置にも、いくつかの問題がある。まず、前記の非特許文献3(DVDレコーダー「DVR−7000」取扱説明書)に記載の番組検索装置のように、視聴者自身の主観により、当該視聴者が気に入ったシーンでチャプターマークを設定(打刻)する場合には、視聴者に煩雑な操作が要求される。
また、前記の特許文献4(特開2000−125243号公報)または前記非特許文献1(ポイント図解式ブロードバンド+モバイル標準MPEG教科書)に記載の番組検索装置においては、視聴者の選択に応じた再生は可能であるものの、予め設定されたテーブル単位またはカテゴリ単位による映像の選択では、記録媒体に記録されたビデオ全体における盛り上がりの傾向(例えば、スポーツ番組における試合の流れ等)を把握することは困難である。特に、記録媒体に記録されたビデオが視聴者にとって初見の番組である場合には、ビデオ全体における盛り上がりの傾向を把握することは不可能である。
特に、重要度の細かい量子化を用いる場合、階層の階層数が非常に多くなり、あまりに多くの階層を管理しなければならなくなるため、MPEG−7規格で提案されている階層記述は非常に扱い難い。
MPEG−7の記載では、コンテンツを編集する度にメタデータを編集する必要がある。例えば、元のコンテンツからあるセグメントをカットした場合、このカットの影響を受ける全ての階層を修正する必要がある。これは、編集操作の回数が増えるとすぐに扱い難くなる可能性がある。
重要度レベルは非常に主観的であるとともに、非常にコンテンツに依存している。つまり、スポーツビデオの重要度レベルは、特定のスポーツジャンルに依存し、映画やニュース番組には全く適用できない。さらに視聴者は、作成される要約の長さを制御することができない。
従来技術の技法が用いる少数の主観レベルは、視聴者がいくつかの異なるビデオを要約に基づいて編集しつなぎ合わせ、視聴者の関心を反映した派生的なビデオを作成することを事実上不可能にする。
また、従来の検索装置にも、いくつかの問題がある。まず、前記の非特許文献3(DVDレコーダー「DVR−7000」取扱説明書)に記載の番組検索装置のように、視聴者自身の主観により、当該視聴者が気に入ったシーンでチャプターマークを設定(打刻)する場合には、視聴者に煩雑な操作が要求される。
また、前記の特許文献4(特開2000−125243号公報)または前記非特許文献1(ポイント図解式ブロードバンド+モバイル標準MPEG教科書)に記載の番組検索装置においては、視聴者の選択に応じた再生は可能であるものの、予め設定されたテーブル単位またはカテゴリ単位による映像の選択では、記録媒体に記録されたビデオ全体における盛り上がりの傾向(例えば、スポーツ番組における試合の流れ等)を把握することは困難である。特に、記録媒体に記録されたビデオが視聴者にとって初見の番組である場合には、ビデオ全体における盛り上がりの傾向を把握することは不可能である。
この発明は、かかる問題点を解消するためになされたものであって、視聴者が制御可能な方法でビデオを記録および再生することが可能なマルチメディア要約システムおよびマルチメディア要約方法を得ることを目的とする。さらに、コンテンツに依存せず、かつ主観的でない重要度レベルを指定することが必要とされている。また、より多くの別個の重要度レベルを提供することが必要とされている。最後に、視聴者が、自分で選択した重要度レベルに応じて任意の長さの要約を作成することを可能にすることが必要とされている。
この発明は、マルチメディアを要約するシステムであって、区間列に分割された圧縮マルチメディアファイル、ならびに、前記列の各区間の索引情報および閉じた間隔にわたって連続的な重要度のレベル情報を含むメタデータファイルを格納する手段と、前記閉じた間隔において重要度レベルのしきい値を選択する手段と、前記索引情報を用いて、前記マルチメディアのうち、前記重要度レベルのしきい値よりも高い特定の重要度レベルを有する区間のみを再生する手段とを備えたマルチメディアを要約するシステムである。
この発明によれば、ユーザが選択した、任意の長さ(再生時間)の要約を作成することが可能である。
[図1]本発明の実施の形態1による、マルチメディアを再生するシステムのブロック図である。
[図2]本発明の実施の形態1によるマルチメディアのファイル構造のブロック図である。
[図3]本発明の実施の形態1によるメタデータファイルのデータ構造のブロック図である。
[図4]本発明の実施の形態1による、メタデータファイルを用いたマルチメディアの索引付けのブロック図である。
[図5]本発明の実施の形態1による要約再生を表すグラフである。
[図6](A)本発明の実施の形態1による他の要約再生のグラフ、および、(B)要約率を表すグラフィックス画像である。
[図7]本発明の実施の形態1による、圧縮されたマルチメディアファイルおよびメタデータファイルを記憶媒体に記録するシステムのブロック図である。
[図8]本発明の実施の形態1による他の要約再生のグラフである。
[図9]本発明の実施の形態1による他の要約再生のグラフである。
[図10]本発明の実施の形態1による他の要約再生のグラフである。
[図11]本発明の実施の形態1による、マルチメディアを記録するシステムのブロック図である。
[図12]ウィンドウに分割したマルチメディアコンテンツのブロック図である。
[図13]本発明の実施の形態2における映像検索装置の構成を示すブロック図である。
[図14]本発明の実施の形態2における映像検索装置のOSD画像を説明するための説明図である。
[図15]本発明の実施の形態2における映像検索装置における要約再生時において、当該映像検索装置に接続されるモニタ、テレビ等の映像出力端末130に表示される映像を説明するための説明図である。
[図16]本発明の実施の形態3の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図17]本発明の実施の形態4の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図18]本発明の実施の形態5の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図19]本発明の実施の形態6の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図20]本発明の実施の形態6における映像検索装置の重要シーン表示バーの生成方法を説明するための説明図である。
[図21]本発明の実施の形態7の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図22]本発明の実施の形態7における映像検索装置のスライド表示バーおよびスライド表示インジケータを説明するための説明図である。
[図23]本発明の実施の形態8における記録装置の構成を示すブロック図である。
[図24]CM検出部におけるCM検出を説明するための説明図である。
[図25]メタデータ生成部における重要度レベルの修正を説明するための説明図である。
[図26]本発明の実施の形態8における他の記録装置の構成を示すブロック図である。
[図2]本発明の実施の形態1によるマルチメディアのファイル構造のブロック図である。
[図3]本発明の実施の形態1によるメタデータファイルのデータ構造のブロック図である。
[図4]本発明の実施の形態1による、メタデータファイルを用いたマルチメディアの索引付けのブロック図である。
[図5]本発明の実施の形態1による要約再生を表すグラフである。
[図6](A)本発明の実施の形態1による他の要約再生のグラフ、および、(B)要約率を表すグラフィックス画像である。
[図7]本発明の実施の形態1による、圧縮されたマルチメディアファイルおよびメタデータファイルを記憶媒体に記録するシステムのブロック図である。
[図8]本発明の実施の形態1による他の要約再生のグラフである。
[図9]本発明の実施の形態1による他の要約再生のグラフである。
[図10]本発明の実施の形態1による他の要約再生のグラフである。
[図11]本発明の実施の形態1による、マルチメディアを記録するシステムのブロック図である。
[図12]ウィンドウに分割したマルチメディアコンテンツのブロック図である。
[図13]本発明の実施の形態2における映像検索装置の構成を示すブロック図である。
[図14]本発明の実施の形態2における映像検索装置のOSD画像を説明するための説明図である。
[図15]本発明の実施の形態2における映像検索装置における要約再生時において、当該映像検索装置に接続されるモニタ、テレビ等の映像出力端末130に表示される映像を説明するための説明図である。
[図16]本発明の実施の形態3の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図17]本発明の実施の形態4の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図18]本発明の実施の形態5の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図19]本発明の実施の形態6の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図20]本発明の実施の形態6における映像検索装置の重要シーン表示バーの生成方法を説明するための説明図である。
[図21]本発明の実施の形態7の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
[図22]本発明の実施の形態7における映像検索装置のスライド表示バーおよびスライド表示インジケータを説明するための説明図である。
[図23]本発明の実施の形態8における記録装置の構成を示すブロック図である。
[図24]CM検出部におけるCM検出を説明するための説明図である。
[図25]メタデータ生成部における重要度レベルの修正を説明するための説明図である。
[図26]本発明の実施の形態8における他の記録装置の構成を示すブロック図である。
発明の概要
この発明に係るマルチメディア要約システムおよび方法は、セグメントに分割された圧縮マルチメディアファイルに格納されたマルチメディアを要約する。
関連するメタデータファイルは、前記画像列の各セグメントの索引情報および重要度レベル情報を含む。好ましい実施形態において、ファイルは、DVD等の記憶媒体に格納される。
この発明に係るマルチメディア要約システムおよび方法は、セグメントに分割された圧縮マルチメディアファイルに格納されたマルチメディアを要約する。
関連するメタデータファイルは、前記画像列の各セグメントの索引情報および重要度レベル情報を含む。好ましい実施形態において、ファイルは、DVD等の記憶媒体に格納される。
重要度情報はある範囲内で連続的である。重要度レベルのしきい値、または範囲は、前記ある範囲内で選択される。重要度レベルは視聴者が選択したもの、および音声信号(例えば音声の分類および/または音量)に基づくものとすることができる。
ファイルを読み出す際には、重要度レベルのしきい値よりも高い特定の重要度レベルを有するマルチメディアのセグメントのみが再生される。
要約精度をさらに高めるために、重要度レベルは、区間ウィンドウに基づくものとすることができる。この場合、コンテンツは、一定の長さのウィンドウ、または、スライディングウィンドウに分割することができる。
実施の形態1.
再生システムの構造
図1は、マルチメディアを再生するシステム100を示す。ここで、マルチメディアのコンテンツは例えば、映像信号、音声信号、テキスト、およびバイナリデータである。このシステムは、ファイルとして構成されたマルチメディアおよびメタデータをディレクトリに格納する記憶媒体1(ディスクやテープ等)を備える。好ましい実施形態において、マルチメディアは、例えばMPEG規格やAC−3規格を用いて圧縮される。マルチメディアは、既知の技法を用いて細分化され、分類され、索引付けされている。索引付けは、時間またはフレーム番号に基づいて行うことができる(本明細書中に援用される米国特許第6,628,892号を参照のこと)。
再生システムの構造
図1は、マルチメディアを再生するシステム100を示す。ここで、マルチメディアのコンテンツは例えば、映像信号、音声信号、テキスト、およびバイナリデータである。このシステムは、ファイルとして構成されたマルチメディアおよびメタデータをディレクトリに格納する記憶媒体1(ディスクやテープ等)を備える。好ましい実施形態において、マルチメディアは、例えばMPEG規格やAC−3規格を用いて圧縮される。マルチメディアは、既知の技法を用いて細分化され、分類され、索引付けされている。索引付けは、時間またはフレーム番号に基づいて行うことができる(本明細書中に援用される米国特許第6,628,892号を参照のこと)。
メタデータは、索引および重要度の情報を含む。本発明の利点として、従来技術とは対照的に、重要度情報はある範囲内(例えば[0,1]または[0,100])で連続的である。したがって、重要度レベルは、「ゴール」や「ヘッドラインニュースの時間」ではなく実数に関するものであり、例えば重要度は0.567や+73.64といった値になる。
さらなる利点として、連続的な重要度情報はコンテクストやコンテンツに依存せず、従来技術のように非常に主観的でもない。これらの特徴はともに、視聴者がマルチメディアを任意の所望の長さまで再生することを可能にする。
メタデータはバイナリまたはテキストであって、必要であれば、暗号化で保護することができる。メタデータは、日付、有効性コード、ファイルタイプ等といったファイル属性を含むことができる。マルチメディアおよびメタデータの階層ファイルおよびディレクトリ構造は、図2のようになる。
図1に示すように、読み取りドライブ10は、記憶媒体1からマルチメディアファイルおよびメタデータファイルを読み出す。読み取りバッファ11は、読み取りドライブ10によって読み出されたデータを一時的に記憶する。デマルチプレクサ12が、読み取りバッファから順次マルチメディアデータを取得し、このマルチメディアデータを映像ストリームと音声ストリームに分離する。
ビデオデコーダ13は映像信号17を処理し、オーディオデコーダ14は出力装置(例えばテレビモニタ19)のための音声信号18を処理する。
メタデータ分析部15は、読み取りバッファ11から順次メタデータを取得する。プロセッサを含む再生制御部16がシステム100を制御する。メタデータ分析部15の機能性は、ソフトウェアを用いて実施することができ、再生制御部16の一部として組み込むことができる。
なお、本明細書中に記載されるいずれの実施態様でも、マルチメディアファイルとメタデータファイルを同時に記録および再生する必要はない。実際には、メタデータファイルは、別個に分析して、視聴者がマルチメディアファイル中の興味のあるセグメントを素早く探し出すことを可能にすることもできる。さらに、マルチメディアおよびメタデータは多重化して単一のファイルにし、読み出し時に分離することもできる。
ファイルおよびディレクトリの構造
図2は、記憶媒体1に格納されるファイルおよびディレクトリの階層構造200を示す。ルートディレクトリ20は、マルチメディアディレクトリ21およびメタデータディレクトリ22を含む。マルチメディアディレクトリ21は、情報管理ファイル23、マルチメディアファイル24、およびバックアップファイル25を格納する。メタデータディレクトリ22はメタデータファイル26を格納する。なお、他のディレクトリおよびファイルの構造も可能である。マルチメディアファイル24内のデータは、多重化された映像信号および/または音声信号を含む。
図2は、記憶媒体1に格納されるファイルおよびディレクトリの階層構造200を示す。ルートディレクトリ20は、マルチメディアディレクトリ21およびメタデータディレクトリ22を含む。マルチメディアディレクトリ21は、情報管理ファイル23、マルチメディアファイル24、およびバックアップファイル25を格納する。メタデータディレクトリ22はメタデータファイル26を格納する。なお、他のディレクトリおよびファイルの構造も可能である。マルチメディアファイル24内のデータは、多重化された映像信号および/または音声信号を含む。
なお、情報管理ファイル23および/またはマルチメディアデータファイル24のいずれかは、メタデータの有無またはそれが無効であることを示すフラグを含んでいてもよい。
メタデータ構造
図3は、メタデータファイル26の階層構造300を示す。階層には5つの階層A〜Eがあり、メタデータ30を最上位階層に含み、この下位に管理情報31、一般情報32、ショット情報33、ならびに索引および重要度情報34が続く。
図3は、メタデータファイル26の階層構造300を示す。階層には5つの階層A〜Eがあり、メタデータ30を最上位階層に含み、この下位に管理情報31、一般情報32、ショット情報33、ならびに索引および重要度情報34が続く。
階層Bの管理情報31は、全メタデータ30の包括的な記述であるメタデータ管理情報31a、ビデオオブジェクト(VOB)メタデータ情報サーチポインタ31b、および関連するVOBメタデータ情報31cを含む。相関は1対1である必要はなく、例えば、1つのVOBメタデータ情報31cに対するメタデータ情報サーチポインタ31bが複数であってもよいし、複数のVOBに対するVOBメタデータ情報31cが1つであってもよい、あるいは1つもなくてもよい。
次の階層Cでは、各VOBメタデータ情報31cが、メタデータ一般情報32aおよびビデオショットマップ情報32bを含む。メタデータ一般情報32aは、番組名、制作者名、男優/女優/レポータ/選手の名前、内容説明、放送日時やチャンネル等を含むことができる。正確な対応関係は、メタデータ一般情報32aにテーブルとして格納される。
次の階層Dには、ビデオショットマップ情報32b毎に、ビデオショットマップ一般情報33a、および1つまたは複数のビデオショットエントリ33bがある。上記のように、これらのエントリ間に1対1の対応関係がある必要はない。正確な対応関係は、ビデオショットマップ一般情報33aにテーブルとして格納される。
次の階層Eには、ビデオショットエントリ33b毎に、ビデオショット開始時間情報34a、ビデオショット終了時間情報34b、および、ビデオショット重要度レベル34cがある。上記のように、フレーム番号でマルチメディアに索引付けすることもできる。索引データがビデオショット開始時間情報34aから取得できる場合、索引情報は省略することができる。任意の順位付けシステムを用いて相対的な重要度を示すことができる。上記のように、重要度レベルは、連続的でかつコンテンツとは独立したものとすることができる。重要度レベルは、手動または自動で付加することができる。
なお、図3においては、メタデータファイル200を5つの階層とする場合について説明したが、ビデオショット重要度レベル34cと、当該ビデオショット重要度レベル34cに対応するビデオショットの再生位置情報を特定できる時間情報または索引情報が含まれていれば、階層はいくつでもよい。また、図3においては、メタデータファイル26において、全てのビデオオブジェクトのメタデータを1つのファイルとして扱う場合について説明したが、例えば、ビデオオブジェクト毎に独立したメタデータファイルを設定してもよい。
マルチメディアの索引付け
図4は、本発明における記録および再生されるマルチメディアと、メタデータとの関係を示す。情報管理ファイル23に格納されるプログラムチェーン情報40には、マルチメディアデータファイル24のマルチメディアの再生順序が記述される。チェーン情報は、プログラムチェーン情報40によって定義される再生単位に基づくプログラム41を含む。セル42a〜bは、プログラム41によって定義される再生単位に基づくものである。なお、DVD(Digital Versatile Disk)において、「セル」とは、ビデオプログラムの一部を表すためのデータ構造である。
図4は、本発明における記録および再生されるマルチメディアと、メタデータとの関係を示す。情報管理ファイル23に格納されるプログラムチェーン情報40には、マルチメディアデータファイル24のマルチメディアの再生順序が記述される。チェーン情報は、プログラムチェーン情報40によって定義される再生単位に基づくプログラム41を含む。セル42a〜bは、プログラム41によって定義される再生単位に基づくものである。なお、DVD(Digital Versatile Disk)において、「セル」とは、ビデオプログラムの一部を表すためのデータ構造である。
ビデオオブジェクト情報43a〜bは、情報管理ファイル23に記述されるセル42によって指定される再生時間情報(すなわちプレゼンテーションタイム)に対応する実際の映像データまたは音声データの参照先を記述する。
タイムマップテーブル(TMAP)44a〜bは、VOB情報43によって定義された再生時間情報をオフセットしてこれを実際の映像データまたは音声データのアドレス情報に変換するためのものである。ビデオオブジェクトユニット(VOBU)45aおよび45bは、マルチメディアデータファイル24内の実際の映像データまたは音声データを記述する。これらのデータは、再生時間情報とともにパケット構造に多重化される。VOBUは、マルチメディアにアクセスしてこれを再生するための最小単位である。VOBUは、コンテンツの1つまたは複数のピクチャグループ(GOP)を含む。
重要度のしきい値に基づく再生
図5は、本発明による要約再生を示し、横軸51を時間とし、縦軸50を重要度レベルとする。図5に示すように、重要度レベルは、所定の範囲55(例えば[0,1]または[0,100])において連続的に変化する。また、図示のように、重要度レベルのしきい値53は、視聴者が前記所定の範囲55において変化させることができる(56)。
図5は、本発明による要約再生を示し、横軸51を時間とし、縦軸50を重要度レベルとする。図5に示すように、重要度レベルは、所定の範囲55(例えば[0,1]または[0,100])において連続的に変化する。また、図示のように、重要度レベルのしきい値53は、視聴者が前記所定の範囲55において変化させることができる(56)。
なお、横軸51に示した時間は、図3のビデオショット開始時間情報34aおよびビデオショット終了時間情報34bを基準とする。重要度は、ビデオショット重要度レベル34cを基準とする。重要度曲線の例52はしきい値53に従って評価される。
マルチメディアの再生中は、しきい値53よりも高い重要度を有するマルチメディアの部分を再生し(58)、しきい値よりも低い重要度を有する部分はスキップする(59)。曲線54は、再生に含まれる部分を示す。再生は再生制御部16を用いて、メタデータ分析部15から得られるメタデータ情報に基づいて行われる。
マルチメディアの再生中は、しきい値53よりも高い重要度を有するマルチメディアの部分を再生し(58)、しきい値よりも低い重要度を有する部分はスキップする(59)。曲線54は、再生に含まれる部分を示す。再生は再生制御部16を用いて、メタデータ分析部15から得られるメタデータ情報に基づいて行われる。
なお、複数の連続的な重要度レベル、あるいは1つまたは複数の重要度レベル範囲は、重要度の範囲の実数値に従う特定の重要度を有する区間のみを再生するように指定することができる。別法として、重要度の最も低い区間のみを再生することもできる。
所望のプログラムを再生するには、読み取りドライブ10によって情報管理ファイル23を読み出す。これにより、プログラムが例えば2つのセルとして構成されると判断することができる。
各セルは、VOB番号および索引情報(例えば開始時間および終了時間)によって記述される。VOB1情報43aのタイムマップテーブル44aは、各プレゼンテーションタイムをプレゼンテーションタイムスタンプ(PTS)、または関係するVOB1内のアドレス情報へ変換するために用いられ、よって実際のVOBU45を得る。
同様に、セル−2 42bはまた、VOB2情報43bのタイムマップテーブル44bを用いることによって、VOB2のVOBU45bグループとともに得られる。この例において、セル(この場合セル42b)はVOB43bによって、タイムマップテーブル44bを用いて索引付けされる。
VOBU45のデータは順次、分離および復号化のために供給される。映像信号17および音声信号18は、プレゼンテーションタイム(PTM)を用いて同期され、出力装置19に供給される。
視聴者が所望のプログラム(例えばプログラム141)を選択すると、プログラムチェーン情報40によって関連するプログラム41の構成を含むセル42a〜bを見つけることができる。よってプログラムチェーン情報は、対応するVOBならびにプレゼンテーションタイム(PTM)を見つけるために用いられる。
図4において説明されるメタデータ26は以下のように使用され、また図3のように示される。まず、メタデータ管理情報31aを用いて、所望のVOB番号に対応するメタデータ情報サーチポインタ31bを探し出す。次に、メタデータ情報サーチポインタ31bを用いてVOBメタデータ情報31cを探し出す。VOBメタデータ情報31cはビデオショットマップ情報32bを含み、このビデオショットマップ情報32bは各ビデオショットの開始時間、終了(stop)時間および重要度レベルを含む。したがって、VOBメタデータは、セルの開始時間および終了時間により指定された範囲に含まれるプレゼンテーションタイム(PTM)、ならびに対応する重要度レベルを有する全てのショットを収集するために用いられる。次に、所望の重要度レベル53を越える部分のみを保持する。
図4において説明されるメタデータ26は以下のように使用され、また図3のように示される。まず、メタデータ管理情報31aを用いて、所望のVOB番号に対応するメタデータ情報サーチポインタ31bを探し出す。次に、メタデータ情報サーチポインタ31bを用いてVOBメタデータ情報31cを探し出す。VOBメタデータ情報31cはビデオショットマップ情報32bを含み、このビデオショットマップ情報32bは各ビデオショットの開始時間、終了(stop)時間および重要度レベルを含む。したがって、VOBメタデータは、セルの開始時間および終了時間により指定された範囲に含まれるプレゼンテーションタイム(PTM)、ならびに対応する重要度レベルを有する全てのショットを収集するために用いられる。次に、所望の重要度レベル53を越える部分のみを保持する。
なお、再生に複数のプログラムを選択することができ、再生される区間のみを連結させるために任意の方法が使用可能である。
他の要約再生
図6Aは、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、連続的な曲線52は重要度レベルを示す。線63は重要度レベルのしきい値であり、線64は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
図6Aは、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、連続的な曲線52は重要度レベルを示す。線63は重要度レベルのしきい値であり、線64は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
要約率
図6Bは要約率60を示す。要約率は、例えば0%から100%(すなわち全範囲55)まで変化させることができる。要約率は、再生装置とすることができる出力装置19において出力画像に重ねられたグラフィックス画像として示される。部分61は、ユーザーにより選択可能な現在の要約率である。しきい値63は、ユーザーにより選択可能な現在の要約率61に応じて設定される。ユーザーは、何らかの入力装置(例えばキーボードやリモコン17a、図1を参照)を用いて要約率を設定することができる。要約率が100%である場合はマルチメディアファイル全体を再生し、50%の要約率ではファイルの半分のみを再生する。要約率は再生中に変更することができる。なお、グラフィックス画像は要約率や実際の時間に関して他の形態(例えばスライディングバー、または数値ディスプレイ)を有することも可能である。他の方法として、要約率は、メタデータ分析部15または再生制御部16によって自動的に変化させることもできる。
図6Bは要約率60を示す。要約率は、例えば0%から100%(すなわち全範囲55)まで変化させることができる。要約率は、再生装置とすることができる出力装置19において出力画像に重ねられたグラフィックス画像として示される。部分61は、ユーザーにより選択可能な現在の要約率である。しきい値63は、ユーザーにより選択可能な現在の要約率61に応じて設定される。ユーザーは、何らかの入力装置(例えばキーボードやリモコン17a、図1を参照)を用いて要約率を設定することができる。要約率が100%である場合はマルチメディアファイル全体を再生し、50%の要約率ではファイルの半分のみを再生する。要約率は再生中に変更することができる。なお、グラフィックス画像は要約率や実際の時間に関して他の形態(例えばスライディングバー、または数値ディスプレイ)を有することも可能である。他の方法として、要約率は、メタデータ分析部15または再生制御部16によって自動的に変化させることもできる。
なお、ビデオ区間に対するポインタはリスト内で、重要度の降順に従ってソートすることができる。したがって、時間の長さの要件を満たすまで、ソート順になった区間を含むリストの下に行くことによって、任意の所望の長さの要約を得ることが可能である。
記録システムの構造
図7は、圧縮されたマルチメディアファイルおよびメタデータファイルを記憶媒体2(ディスクやテープ等)に記録するシステム700のブロック図を示す。このシステムは、入力として映像信号78、音声信号79、テキスト、画像、バイナリデータ等を取得するビデオエンコーダ71およびオーディオエンコーダ72を備える。各エンコーダの出力は、マルチプレクサ73によって多重化されて、書き込みバッファ74にマルチメディアデータとして一時的に格納される。また、各エンコーダの出力はまたメタデータ生成部75に送られ、このメタデータ生成部75もまた出力を書き込みバッファに書き込む。
図7は、圧縮されたマルチメディアファイルおよびメタデータファイルを記憶媒体2(ディスクやテープ等)に記録するシステム700のブロック図を示す。このシステムは、入力として映像信号78、音声信号79、テキスト、画像、バイナリデータ等を取得するビデオエンコーダ71およびオーディオエンコーダ72を備える。各エンコーダの出力は、マルチプレクサ73によって多重化されて、書き込みバッファ74にマルチメディアデータとして一時的に格納される。また、各エンコーダの出力はまたメタデータ生成部75に送られ、このメタデータ生成部75もまた出力を書き込みバッファに書き込む。
次に書き込みドライブ70が、プロセッサを含む記録制御部76の制御下で、マルチメディアおよびメタデータを記憶媒体2にファイルとして書き込む。ファイルは、MPEGやAC−3等の標準的なマルチメディア圧縮技法を用いて圧縮形式で書き込むことができる。記録中に暗号化も用いることができる。なお、メタデータ生成部75は、記録制御部76に組み込まれるソフトウェアとして実施することができる。
エンコーダは、入力信号78〜79から特徴、例えば動きベクトル、カラーヒストグラム、音声周波数、特性、および音量、ならびに音声関連情報を抽出する。抽出された特徴をメタデータ生成部75によって分析し、セグメントとそれに関連する索引情報および重要度レベルを求める。
重要度レベルウィンドウ
例えば、図12に示すように、重要度レベルは、音声信号を用いることによって求めることができる。例えば、各セグメント1201の音量を用いることができ、さらに、各セグメント1201の音声信号を様々なクラス(音声、音楽、歓声、拍手、笑い声等)に分類することができる。この場合、コンテンツ1200全体を重複しないセグメント1201(例えば1秒の持続時間)に分割する。拍手および歓声には、音声や音楽よりも高い重要度レベルを与えることができる。
例えば、図12に示すように、重要度レベルは、音声信号を用いることによって求めることができる。例えば、各セグメント1201の音量を用いることができ、さらに、各セグメント1201の音声信号を様々なクラス(音声、音楽、歓声、拍手、笑い声等)に分類することができる。この場合、コンテンツ1200全体を重複しないセグメント1201(例えば1秒の持続時間)に分割する。拍手および歓声には、音声や音楽よりも高い重要度レベルを与えることができる。
セグメント1201を分類した後、ハイライトを探し出すための方法は、コンテンツを持続時間の等しいセグメント1201、すなわちウィンドウ1202に分割することである。ウィンドウを用いる場合、各ウィンドウは、図示のような複数の分類されたセグメントを含む。
次に、ウィンドウ内の連続した拍手および/または歓声の最長の長さを求めることによって、あるいはウィンドウ内の拍手および/または歓声の割合(パーセンテージ)を求めることによって、各ウィンドウの重要度レベルを計算することができる。ウィンドウ内の全ての区間に、ウィンドウの重要度レベルを与えることができる。
他のウィンドウ方式は、コンテンツ全体にわたって持続期間が固定されたスライディングウィンドウ1203(例えば12秒)を用いる。スライディングウィンドウは「アンカー」セグメント(例えばウィンドウ内の最初、中間、または最後の区間)を含む。このウィンドウは、1度に1セグメントずつ正方向(時間方向)にスライドすることができる。この場合、ウィンドウのアンカー区間(A)1204の重要度レベルは、スライディングウィンドウ全体の拍手および/または歓声の割合あるいは連続した拍手および/または歓声の長さに基づくものである。スライディングウィンドウ手法は、ハイライトの時間をより正確に探し出すことを可能にする。
重み付き(Weighted)重要度レベル
さらに、上記の方策により得られた重要度レベル(IL)を、ウィンドウの係数(例えば音量1211)でさらに重み付けして(1210)、最終的な重要度レベルを得ることができる。したがって例えば、あるセグメントが多数の音量の低い拍手を含む場合、そのセグメントには比較的低い重要度レベルが与えられるが、非常に大きな拍手を有するセグメントには比較的高い重要度レベルが与えられる。
さらに、上記の方策により得られた重要度レベル(IL)を、ウィンドウの係数(例えば音量1211)でさらに重み付けして(1210)、最終的な重要度レベルを得ることができる。したがって例えば、あるセグメントが多数の音量の低い拍手を含む場合、そのセグメントには比較的低い重要度レベルが与えられるが、非常に大きな拍手を有するセグメントには比較的高い重要度レベルが与えられる。
なお、スポーツ番組などの場合、得点シーンや得点するチャンスにおいては、拍手や歓声のほかにアナウンサーや解説者による絶叫音声が伴う場合が多い。よって、スポーツ番組などの場合には、拍手や歓声を含む絶叫音声を1つの音声クラスとして設定し、当該音声クラスを重要度レベルの算出に使用することも有効である。
なお、いずれの実施態様でも、マルチメディアファイルとメタデータファイルを同時に生成する必要はない。例えば、メタデータは後で生成することができ、またメタデータは所定時間にわたって徐々に付加することができる。
時間のしきい値に基づく再生
図8は、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、連続的な曲線52は所定時間にわたる重要度レベルを示す。線80は可変の重要度レベルのしきい値であり、線81は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
図8は、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、連続的な曲線52は所定時間にわたる重要度レベルを示す。線80は可変の重要度レベルのしきい値であり、線81は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
しかし、この実施形態では時間のしきい値も用いる。重要度レベルのしきい値よりも高い特定の重要度レベルを有し、時間のしきい値よりも長い時間その重要度レベルを維持する区間のみを再生する。例えば、区間a1〜a2は再生せず、区間b1〜b2を再生する。これにより、時間が短すぎて視聴者が適切に理解することができない区間は排除される。
付加的な区間の延長を用いた時間のしきい値に基づく再生
図9は、本発明による他の要約再生900を示し、縦軸50を重要度レベルとし、横軸51を時間とし、曲線52は所定時間にわたる重要度レベルを示す。線90は重要度レベルのしきい値であり、線91は、しきい値よりも高い特定の重要度を有する区間のみの再生である。上記と同様、他の区間はスキップされる。この実施態様ならびに後述の他の実施態様において、延長量は、再生制御部が下した決定に応じて変化させることができる。
図9は、本発明による他の要約再生900を示し、縦軸50を重要度レベルとし、横軸51を時間とし、曲線52は所定時間にわたる重要度レベルを示す。線90は重要度レベルのしきい値であり、線91は、しきい値よりも高い特定の重要度を有する区間のみの再生である。上記と同様、他の区間はスキップされる。この実施態様ならびに後述の他の実施態様において、延長量は、再生制御部が下した決定に応じて変化させることができる。
この実施形態もまた、上述のような時間のしきい値を用いる。しかし、この場合、時間のしきい値よりも時間の短い区間はスキップされない。その代わり、そのような区間は、時間のしきい値の要件を満たすように時間を延長される。これは、その短い区間の前、後、または前後でマルチメディアファイルの各部分を加算することによって行われる(例えば区間c1〜a2)。したがって、短い区間のサイズを大きくして、視聴者がその短い区間を適切に理解できるようにする。なお、第2の時間のしきい値も用いることができ、極端に短い区間(例えば1フレーム)は依然としてスキップするようにする。
乗法による区間の延長を用いた時間のしきい値に基づく再生
図10は、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、曲線52は所定時間にわたる重要度レベルを示す。線1000は重要度レベルのしきい値であり、線1001は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
この実施形態もまた、上述のような時間のしきい値を用いる。しかし、この場合、区間の時間を所定量dだけ長くして、時間のしきい値を満たす再生される区間のサイズを大きくする。上記のように、区間は前、後、または前後で延長することができる。また、係数を乗算して同じように区間の時間を長くすることもできる。
図10は、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、曲線52は所定時間にわたる重要度レベルを示す。線1000は重要度レベルのしきい値であり、線1001は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
この実施形態もまた、上述のような時間のしきい値を用いる。しかし、この場合、区間の時間を所定量dだけ長くして、時間のしきい値を満たす再生される区間のサイズを大きくする。上記のように、区間は前、後、または前後で延長することができる。また、係数を乗算して同じように区間の時間を長くすることもできる。
記録および再生システムの構造
図11は、読み取り/書き込み記憶媒体3(ディスクやテープ等)に格納された(格納される)圧縮マルチメディアファイルおよびメタデータファイルを記録および再生するシステム1100のブロック図を示す。
図11は、読み取り/書き込み記憶媒体3(ディスクやテープ等)に格納された(格納される)圧縮マルチメディアファイルおよびメタデータファイルを記録および再生するシステム1100のブロック図を示す。
読み取り/書き込みドライブ110が、読み取りバッファ11にデータを書き込むことができ、書き込みバッファ74からデータを読み出すことができる。デマルチプレクサ12は読み取りバッファから順次マルチメディアを取得し、このマルチメディアを映像ストリームと音声ストリームに分離する。ビデオデコーダ13は映像ストリームを処理し、オーディオデコーダ14は音声ストリームを処理する。しかし、この場合、メタデータ生成部75もデコーダ13〜14の出力を受け取るため、記録/再生制御部111を用いて、再生されるマルチメディアを記憶媒体3に格納することができる。
なお、重要度レベル、索引付け情報および他のメタデータは、復号化中にメタデータ生成部75を用いて映像データおよび/または音声データから抽出することもできる。
さらに、重要度レベル、索引付け情報および他のメタデータは手動で生成して、後の段階で挿入することもできる。
なお、上記の実施態様はいずれも、検索機能を含んで、視聴者が時間、フレーム番号、または重要度のいずれかに基づいてマルチメディアの特定の部分に直接飛ぶ(position to)ことを可能にすることができる。この検索機能は、「サムネイル」区間(例えば、検索中に視聴者を補助する1つまたは少数のフレーム)を用いることができる。
なお、実施の形態1においては、当該システムに記憶媒体を含む場合について説明したが、当該記憶媒体はシステムと別個に構成してもよい。例えば、当該システムに前記記憶媒体としてHDD(Hard Disk Drive)を内蔵する場合には、システムに記憶媒体を含んで構成する。一方、外付けのHDD,DVD等の光ディスクまたは磁気ディスクを前記記憶媒体として使用する場合にはシステムと記憶媒体とを別個に構成する。
実施の形態2.
図13は、実施の形態2における要約再生装置1200の構成を示すブロック図である。なお、図13において、実施の形態1において説明した構成と同様の構成については同一の符号を付記する。
図13は、実施の形態2における要約再生装置1200の構成を示すブロック図である。なお、図13において、実施の形態1において説明した構成と同様の構成については同一の符号を付記する。
要約再生装置1200は、DVD−RやDVD−RWを含む各種DVDディスク、ハードディスク、またはブルーレイディスクなどの記憶媒体4に、前記図2において説明したディレクトリ構造に従って記録された前記ビデオの映像または音声の再生を行なう。また、当該要約再生装置1200は、前記記憶媒体4に記録された前記ビデオに対応する前記重要度レベルに基づいて当該ビデオの要約再生を行なう。
以下、要約再生装置1200において、ビデオの要約再生を行なう場合について説明する。ユーザーは、操作部130を操作して、再生する所望のビデオを選択し、さらに要約再生を選択する。ユーザによって所望のビデオが選択されると、前記図4において説明したようにして、当該ビデオを構成するプログラム41および当該プログラム41を構成するセル42がプログラムチェーン情報40によって特定することができるので、参照すべきVOBの番号および当該セルの再生開始時間と再生終了時間の各プレゼンテーションタイム(PTM)が確定する。
記憶媒体4に記録されたメタデータ30(図3)は、当該記憶媒体4が読み取りドライブ11に挿入された後であってユーザーが要約再生を選択する前、もしくは要約再生するビデオをユーザーが選択した後、または当該要約装置1200において記憶媒体4に記録された番組を再生(通常再生)している途中等のタイミングにおいて、読み取りドライブ11によって読み出され、ドライブI/F部3に出力される。ドライブI/F部3は、入力されたメタデータ30を復調してメタデータ分析部15に出力する。
メタデータ分析部15は、上述のようにプログラムチェーン情報40に基づいて検出した、前記ビデオに対応するVOBの番号を参照して、当該ビデオに対応するメタデータ30をメタデータファイル26から読み出す。そして、当該メタデータ分析部15は、前記メタデータ30から各VOBに対応するビデオショット重要度レベル34cに格納された重要度レベルを読み出す。
具体的には、まず、前記VOBの番号を参照して、メタデータ管理情報31aおよびVOBメタデータ情報サーチポインタ31bに格納されたアドレス情報によって、VOBメタデータ情報31cを特定する。次に、各VOBメタデータ情報31cに対応するビデオショットマップ情報32bにアクセスする。
そして、当該ビデオショットマップ情報32bに含まれる各ビデオショットエントリ33bに記述されたビデオショット開始時間情報34aに格納された開始時間情報、ビデオショット終了時間情報34bに格納された終了時間情報およびビデオショット重要度レベル34cに格納された重要度レベルを読み出す。なお、ビデオショット開始時間情報34aおよびビデオショット終了時間情報34bが特定されると、前記セルの再生開始時間と再生終了時間の範囲に含まれるプレゼンテーションタイム(PTM)を有するビデオショットが特定される。
メタデータ分析部15において読み出した重要度レベルは、当該メタデータ分析部15に記録される。なお、メタデータ分析部15には、記憶媒体4に記録された複数のビデオの各々に対応する重要度レベルを全て記録してもよいし、前記記憶媒体4に記録されたビデオのうち、要約再生の対象となっているビデオに対応する重要度レベルを全て記録するようにしてもよい。また、再生制御部16においてOSDプレーン画像(詳細は後述する。)を生成するために必要な重要度レベルのみを記録するようにしてもよい。また、前記重要度レベルは、メタデータ分析部15に記録しなくてもよく、例えば、再生制御部16にメモリ(図示せず)を設け、当該メモリに記録するようにしてもよい。その場合、前記メタデータ分析部15は、重要度レベルを前記メタデータ30のビデオショット重要度レベル34cから読み出して再生制御部16に出力する。
再生制御部16は、前記メタデータ分析部15に記録された各重要度レベルと予め設定されたしきい値とを比較する。具体的には、再生制御部16に設ける比較部(図示せず)において、前記メタデータ分析部15から出力された重要度レベルと前記しきい値とを比較する。そして、再生制御部14は、前記しきい値よりも大きい値を有する重要度レベルに対応するビデオショットを構成するVOBUを前記図4において説明したプログラムチェーン情報40によって特定し、当該VOBUを読み出すように読み取りドライブ11を制御する。なお、前記しきい値は、ユーザーが操作部130を操作することによって調整することができるように構成される。
なお、前記読み取りドライブ11によって読み出されたVOBUは、ドライブI/F部121によって復調される。そして、当該VOBUに対応する音声のデータ(音声データ)はオーディオデコーダ部14を介してD/Aコンバータ127に出力される。また、前記VOBUに対応する副映像(ビデオにおける字幕等)のデータ(副映像データ)はグラフィックスデコーダ部123による処理を経た後、YUV信号としてグラフィックスプレーンに蓄積される。また、前記ビデオの映像に対応するデータ(映像データ)はビデオデコーダ部13による処理を経た後、アナログ映像信号としてビデオ描画プレーン125に蓄積される。
前記再生制御部16は、上述の比較を行ない、ユーザーによって選択されたビデオの重要度レベルの変化を表す画像(OSDプレーン画像)を生成する。そして、前記OSDプレーン画像に対応する信号(以下、OSD信号という。)をフレームメモリ等で構成されるOSDプレーン129に出力する。そして、前記OSD信号に対応するOSDプレーン画像はOSDプレーン129に蓄積される。
図14は、OSDプレーン画像を説明するための説明図である。図14に示すように、再生制御部16は、重要度を示す軸である縦軸133、時間軸である横軸134、前記時間軸方向における重要度レベルの変化を表す重要度レベルプロット135、前記比較部に予め設定されるしきい値を示すスライスレベル137、および当該要約再生装置1200の要約再生時において再生されている映像の番組全体における位置を示す再生インジゲータ136を含むOSDプレーン画像132を生成する。なお、前記再生インジゲータ136は、Video描画プレーン125から出力された画像の番組全体における位置が時間軸134上において正確に示されるように適宜更新して描画される。
ビデオ描画プレーン125、グラフィックスプレーン124およびOSDプレーン129に蓄積された信号は、同期して合成部126に出力される。合成部126は、前記グラフィックスプレーン124に蓄積されたYUV信号、前記Video描画プレーン125に蓄積された前記アナログ映像信号、および前記OSDプレーン129に蓄積された前記OSD信号を合成してビデオエンコーダ71に出力する。そして、ビデオエンコーダ71は、合成信号を所定の信号に変換して要約再生装置1200に接続される表示装置等の外部機器に出力する。
なお、要約再生装置1200において行なわれる要約再生は、前記図5等によって説明した要約再生と同様にして行なわれる。
図15は、要約再生装置1200における要約再生時において、当該要約再生装置1200に接続されるモニタ、テレビ等の表示装置1300に表示される映像を説明するための説明図である。図15において、図15(A)は、ビデオ描画プレーン125から出力されたアナログ映像信号に対応する画像131(以下、ビデオプレーン画像131ともいう。)を模式的に示した図である。また、図15(B)は、前記図14において説明したOSDプレーン画像132である。さらに、図15(C)は、図15(A)の画像と図15(B)の画像とを合成した画像、すなわち前記合成部126から出力された合成信号に対応する画像(以下、合成画像ともいう。)である。なお、字幕等の副映像データに対応する画像がある場合には、前記合成画像に当該副映像データに対応する画像が重畳される。
図15(C)のように、実施の形態2における要約再生装置1200では、要約再生時において前記表示装置1300には合成画像が表示される。そのため、従来の要約再生装置のようにビデオ全体における盛り上がりの傾向をユーザーが把握できないという問題は生じない。すなわち、ユーザーは、合成画像に含まれるOSDプレーン画像132によりビデオにおける盛り上がりの傾向を一目で把握することができる。
具体的に説明すると、例えば、要約再生するビデオがスポーツ番組であって、当該スポーツ番組の映像の特徴を示すパラメータを「歓声の継続時間」として重要度レベルを算出した場合、重要度レベルプロット135は前記スポーツ番組における歓声の継続時間の変化を表すことになる。スポーツ番組等においては、勝敗の行方を左右するシーンであるほど歓声や拍手が継続する。したがって、ユーザーは、当該重要度レベルプロット135を一目見ただけで当該スポーツ番組における重要なシーンの番組全体における位置を把握でき、当該スポーツ番組における盛り上がりの傾向を一目で把握することができる。
また、当該ユーザーは、重要度レベルプロット135に対するスライスレベル137の位置を見ることによって、当該要約再生によってビデオ全体がどの程度要約されているかを一目で把握することができる。そして、ユーザーは、ビデオをより要約して再生したい場合には、前記操作部130を操作することによって前記スライスレベル137を縦軸133方向に移動させる。一方、前記ビデオに含まれる映像をより多く見たい場合には前記スライスレベル137を縦軸133とは反対の方向に移動させる。なお、前記再生制御部16は、しきい値の変化に応じて、前記プログラムチェーン情報40を参照して再生するビデオショットを調整し、当該ビデオショットに含まれるVOBUを読み出すように読み取りドライブ10を制御する。
以上の説明のように、実施の形態2における要約再生装置1200によれば、記憶媒体4に記録されたビデオが、ユーザーにとって初見のビデオであっても、当該ビデオの盛り上がりの傾向を容易に把握することができる。
また、OSDプレーン画像132を参照することによって、視聴者が所望するシーン(ハイライトシーン等)を素早く検出することができる。そして、前記OSDプレーン画像132を見ながら操作部130を操作してしきい値を調整するだけで、要約再生する時間を簡単に調整することができる。
さらに、再生インジゲータ136によって、要約再生によって表示される画像のビデオ全体における位置を容易に把握することができる。
また、従来の要約再生装置のように記憶媒体に記録されたビデオ全体を早送り等によって見なくてもハイライトシーン等の位置を容易に把握することができる。すなわち、例えば、記憶媒体に記録された番組が長時間である場合には、早送りといえども、ユーザーが当該ビデオ全体を見るには相当な時間を要する。しかしながら、実施の形態2における要約再生装置においては、番組の長短を問題とせず、ハイライトシーンのビデオ全体における位置を一目で把握することができる。
また、従来の要約再生装置のように、ハイライトシーンを設定(打刻)する場合には、当該ハイライトシーンを取りこぼす可能性があるが、実施の形態2における要約再生装置1200においてはそのような可能性がない。
なお、OSDプレーン画像132における重要度レベルプロット135、スライスレベル137、再生インジゲータ136等のOSDプレーン画像における各要素または当該OSDプレーン画像132全体は、ユーザーが操作部130を操作することによって表示または非表示の切り換えをできるように構成してもよい。
実施の形態3.
図16は、実施の形態3の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1または2において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
図16は、実施の形態3の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1または2において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
図16に示すように、実施の形態3における要約再生装置は、再生制御部16に設ける演算部(図示せず)において、要約再生するビデオの録画時間(すなわち、当該ビデオを通常再生した場合に要する時間)、および現在のしきい値に基づいてビデオを要約再生した場合に要する時間(以下、要約時間という。)を演算する。また、再生制御部16においては、前記要約時間を前記録画時間で除した結果得られる要約率の演算、および当該要約再生において再生されるシーンの数の計数が行なわれる。
再生制御部16は、当該再生制御部16において行なわれた演算等の結果に基づいて、テキスト情報141を含んで構成されるOSDプレーン画像140を生成し、当該OSDプレーン画像140に対応するOSD信号をOSDプレーン129に出力する。そして、OSDプレーン129は、前記ビデオ描画プレーンに蓄積された信号等と同期したタイミングで当該OSD信号を合成部10に出力する。
合成部126においては、実施の形態2において合成した信号に加えて、前記OSDプレーン画像140に対応するOSD信号を合成する。その結果、表示装置1300においては、図16に示すように、実施の形態2で説明した重要度レベルプロット135を含むOSDプレーン画像に加えて、テキスト情報141を含むOSDプレーン画像が表示される。
以上の説明のように、実施の形態3における要約再生装置によれば、実施の形態2において説明した重要度レベルプロット135に加えて、テキスト情報141も表示されるため、ユーザーは、要約再生に要する時間、要約率等を容易に把握することができる。
したがって、ユーザーは、表示装置1300に表示されたテキスト情報を参照して操作部130を操作することによって、しきい値を調整することができる。
なお、実施の形態3においては、前記テキスト情報として要約時間等を表示する場合について説明したが、現在再生しているシーンの番号、現在再生している番組の番組名、出演者名、制作者名、録画した年月日や日時もしくは曜日、録画した番組の放送局名、記憶媒体4に記録されている番組の総数、現在再生している番組の番組番号や再生時間位置、記憶媒体4の名称等、ユーザーに対して提供する補足・付加情報を表示するようにしてもよい。
また、テキスト情報141で表示する補足・付加情報については、テキストなどの文字列だけでなく、アイコンや画像を使って表示してもよい。
また、OSDプレーン画像132、140は、操作部130によるユーザー操作によって個別に表示のオン、オフの選択設定が可能な構成としてもよい。なお、OSDプレーン画像132、140の表示は、両方を同時にオンまたはオフにしてもよいし、例えば、しきい値137のみの表示オン、オフ操作を行なう等、OSDプレーンプレーン画像132、140の一部分をオンまたはオフとしてもよい。
実施の形態4.
図17は、実施の形態4の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜3において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
図17は、実施の形態4の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜3において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
実施の形態4の要約再生装置におけるOSDプレーン129は、実施の形態3で説明したテキスト情報141に対応するOSD信号のみを蓄積し、当該OSD信号を合成部126に出力する。したがって、表示装置1300には、図17のように、テキスト情報141および要約再生されるビデオの画像が表示される。なお、テキスト情報141の内容は、実施の形態3で説明した内容と同様であるので説明を省略する。
以上の説明のように、実施の形態4における要約生成装置によれば、テキスト情報141が表示されるため、ユーザーは、要約再生に要する時間、要約率等を容易に把握することができる。
実施の形態5.
図18は、実施の形態5の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜4において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
図18は、実施の形態5の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜4において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
実施の形態5における要約再生装置は、再生制御部16に予め記録される動作モード表示テキスト151およびアイコン画像152を含むOSDプレーン画像150を当該再生制御部16において生成する。
具体的に説明すると、当該要約再生装置において要約再生が選択されると、再生制御部16は、予め記録された動作モード表示テキスト151およびアイコン画像152に基づいてOSDプレーン画像150を生成し、当該OSDプレーン画像に対応するOSD信号をOSDプレーン129に出力する。そして、OSDプレーン129は、再生制御部16から出力されたOSD信号を蓄積し、当該OSD信号を合成部126に出力する。
そして、合成部126は、ビデオ描画プレーン125から出力された信号に対応する画像またはグラフィックスプレーン124から出力された信号に対応する画像と、OSDプレーン129から出力された信号に対応する画像とを合成してビデオエンコーダ71に出力する。その結果、表示装置1300においては、図18に示すような画像が表示される。
以上の説明のように、実施の形態5の要約再生装置によれば、ユーザーが当該要約再生装置の動作状態を一目で把握することができる。
なお、実施の形態5においては、要約再生を行なっている場合に表示する動作モード表示テキスト151およびアイコン画像152について説明したが、通常再生や早送り、巻き戻し等、その他の動作状態を示す動作モード表示テキスト151およびアイコン画像152を表示するようにしてもよい。
また、動作モード表示テキスト151およびアイコン画像152の両方を表示せず、動作モード表示テキスト151またはアイコン画像152のいずれか一方を表示するようにしてもよい。更に、操作部130を操作することにより、動作モード表示テキスト151ならびにアイコン画像152の両方を表示する場合、動作モード表示テキスト151もしくはアイコン画像152のいずれか一方を表示する場合、または動作モード表示テキスト151ならびにアイコン画像152の両方を表示しない場合を切り換えることができるようにしてもよい。
実施の形態6.
図19は、実施の形態6の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜5において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
図19は、実施の形態6の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜5において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
実施の形態6における要約再生装置は、再生制御部16において、現在のしきい値137よりも大きい値を有する重要度レベルに対応する映像(重要シーン)のビデオ全体における位置を示すための重要シーン表示バー161、当該重要シーンの位置を示す重要シーンバー162、現在の再生位置を適宜更新表示して示す再生インジケータ163を生成する。そして、再生制御部16は、OSDプレーン画像160を生成し、OSDプレーン129にOSD信号を出力する。そして、OSDプレーン129は、再生制御部16から出力されたOSD信号を蓄積し、当該OSD信号を合成部126に出力する。
合成部126は、ビデオ描画プレーン125から出力された信号に対応する画像またはグラフィックスプレーン9から出力された信号に対応する画像と、OSDプレーン129から出力された信号に対応する画像とを合成してビデオエンコーダ71に出力する。その結果、表示装置1300においては、図19に示すような画像が表示される。
ここで、重要シーン表示バー161の生成方法について具体的に説明する。図20は、重要シーン表示バー161の生成方法を説明するための説明図である。なお、図20において、図19で説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
例えば、実施の形態2において説明した重要度レベルプロット135があった場合に現在のしきい値137を越える部分が重要なシーン(例えば、得点シーン等のハイライトシーン)だとする。そうすると、重要シーンバー162は、当該しきい値137を超える部分を、重要シーン表示バー161に投影することにより得ることができる。
以上の説明のように、実施の形態6における要約再生装置によれば、重要シーン表示バー161を含んで構成されるOSDプレーン画像160の面積を、実施の形態2で示した重要度レベルプロット135を含んで構成されるOSDプレーン画像の面積よりも小さく抑えることができる。したがって、ビデオ描画プレーン画像131に、当該OSDプレーン画像160を重ね合わせて表示してもビデオの映像を遮蔽することがない。
また、通常再生時において、重要シーン表示バー161を表示させれば、現在の再生位置に対する重要箇所(高い重要度レベルを持つハイライトシーン)の相対的な位置を容易に把握することができる。
また、重要シーン表示バー161に重要シーンバー162を表示することで、テキスト情報141だけで表示するよりも要約率等を容易に把握することができる。
実施の形態7.
図21は、実施の形態7の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜6において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
図21は、実施の形態7の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜6において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
実施の形態7における要約再生装置は、再生制御部16において、ビデオの記録時間を示すスライド表示バー171、および現在表示しているシーンのビデオ全体における位置を示すスライド表示インジケータ172を含むOSDプレーン画像を生成して、当該OSDプレーン画像に対応するOSD信号をOSDプレーン129に出力する。OSDプレーン129は、再生制御部16から出力されたOSD信号を蓄積し、当該OSD信号を合成部126に出力する。なお、スライド表示インジケータ172は、ビデオ描画プレーン画像125から出力された画像のビデオ全体における位置がスライド表示バー171上において正確に示されるように適宜更新して描画される。
そして、合成部126は、ビデオ描画プレーン125から出力された信号に対応する画像またはグラフィックスプレーン124から出力された信号に対応する画像と、OSDプレーン129から出力された信号に対応する画像とを合成してビデオエンコーダ71に出力する。その結果、表示装置1300においては、図21に示すような画像が表示される。
ここで、スライド表示バー171およびスライド表示インジケータ172について具体的に説明する。図22は、スライド表示バー171およびスライド表示インジケータ172を説明するための説明図である。なお、図22において、図21で説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
例えば、実施の形態2において説明した重要度レベルプロット135を含むOSDプレーン画像132があった場合、再生制御部16は、当該重要度レベルプロット135の一部分である破線で囲った部分(図22における173の部分。以下、部分プロット173という。)を切り出した画像に対応するOSD信号をOSDプレーン129に出力する。また、再生制御部16は、部分プロット173として切り出した部分の、ビデオ全体における位置を演算して、当該位置を示すようにスライド表示インジケータ172を随時更新し、スライド表示バー171上に重ね合わせる。
以上に説明した再生制御部16の処理により、図21に示したOSDプレーン画像170が生成される。
以上の説明のように、実施の形態7における要約再生装置によれば、重要度レベルの変動を示すOSDプレーン画像170の面積を小さく抑えることができるため、ビデオプレーン画像131に重ね合わせて表示してもビデオの映像を遮蔽することがない。
また、重要度レベルプロットの特定部分を拡大表示することで時間軸方向における重要度レベルの変動をより詳細かつ明確に表示することができる。したがって、重要度レベルプロット135の変動が密な箇所であってもユーザーはその変動を容易に視認することができる。
なお、実施の形態7においては、スライド表示バー171およびスライド表示インジケータ172を用いて、表示装置1300に現在表示されている画像のビデオ全体における位置を示す場合について説明したが、現在表示している画像のビデオ全体における位置を表示できる方法であれば、分数やパーセンテージ表記を用いたテキストによる表現や、スライド表示バー170とは異なる円グラフなどの描画を採用することもできる。
実施の形態8.
図23は、実施の形態8における記録装置1400の構成を示すブロック図である。なお、以下の説明においては、実施の形態1または2において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
図23は、実施の形態8における記録装置1400の構成を示すブロック図である。なお、以下の説明においては、実施の形態1または2において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
図23において、CM検出部300は、オーディオエンコーダ72において抽出された音声信号の特徴を分析して前記ビデオにおけるコマーシャル(Commercial Message、以下、CMともいう)区間を検出する。そして、当該検出の結果に対応するデータをメタデータ生成部301に出力する。
メタデータ生成部301は、実施の形態1において説明したように、各エンコーダにおいて抽出された映像信号の特徴または音声信号の特徴に基づいて重要度レベルを算出する。さらに、メタデータ生成部301は、CM検出部300におけるCM検出の結果に応じて、生成した重要度レベルを修正する。また、メタデータ生成部301は、修正した重要度レベルを含むメタデータを生成して書き込みバッファ74に出力する。そして、前記メタデータは、実施の形態1において説明したように、セグメントと対応付けて記録媒体2に記録される。
図24は、CM検出部300におけるCM検出を説明するための説明図である。図24において、310は、当該記録装置1400に入力された映像信号または音声信号に対応するビデオの内容(例えば、テレビ放送の放送内容)を本編放送(以下、本編ともいう)とCM放送(以下、CMともいう)とに分けて示したビデオ内容概念図である。なお、当該ビデオ内容概念図においてはCM放送がCM1,・・・,CMnのように複数のCMで構成される場合について示した。
また、図24において、311は、当該CM検出部300において前記音声信号を分析することによって検出された、前記ビデオ内容概念図310のビデオ内容における無音声の部分(以下、無音声箇所ともいう)と無音声で無い部分(以下、有音声箇所ともいう)とを示した無音声箇所検出曲線である。さらに、312は、前記無音声箇所に基づいてCMを検出するためのCM検出フィルタであり、313は、CM検出フィルタ312によってCM区間として検出された部分を示すCM検出曲線である。
通常、図24のビデオ内容概念図310に示したようにビデオの内容が本編とCMとで構成されている場合、本編の映像もしくは音声とCMの映像もしくは音声とはつながりが無い場合が多い。また、複数のCMが連続する場合には、あるCMの映像もしくは音声と他のCMの映像もしくは音声とはつながりが無い場合が多い。そのため、本編からCMへと切り替わる部分、CMからCMへと切り替わる部分、またはCMから本編へと切り替わる部分においては音声が数百ミリ秒の間、無音となる。そこで、実施の形態8におけるCM検出部300は、オーディオエンコーダ72から出力された音声の特徴を分析して当該無音声箇所を検出することによってCMの検出を行なう。
以下、CM検出部300の動作について説明する。上述のように、当該CM検出部300は、オーディオエンコーダ72から出力された音声の特徴を分析して当該無音声箇所を検出する。無音声箇所の検出方法としては、例えば、変形離散コサイン変換(Modified Discrete Cosine Transform、以下、MDCTともいう)を使用することができる。
MDCTを使用する場合、CM検出部300は、オーディオエンコーダ72においてアナログ音声信号をA/D変換し、更に符号化圧縮して得られるデジタル信号(PCM(Pulse Code Modulation)信号ともいう。)をMDCTしてMDCT係数を算出する。次に、所定の個数のMDCT係数の値の2乗和(すなわち、オーディオエネルギーに相当する)を算出し、当該2乗和の値と所定のしきい値とを比較する。そして、比較の結果、前記2乗和の値が前記所定のしきい値以下となる区間が所定の区間(例えば、数百ミリ秒)である場合に、当該区間を無音声箇所とする。その結果、図24のビデオ内容概念図310に示したビデオの場合には、本編とCMとの切り替わり部分およびCMとCMとの切り替わり部分において無音声箇所が検出される。
なお、CM検出部300において検出した無音声箇所を示す情報(例えば、ビデオ中における当該無音声箇所の時間軸上の位置を示す情報)は、CM検出部300におけるメモリ(図示せず)、または記録制御部76におけるメモリ(図示せず)に記録する。また、前記所定のしきい値および前記所定の区間は、当該記録装置1400の設計等に応じて任意に設定することができる。
次に、CM検出部300は、検出した無音声箇所とCM検出フィルタ312とを比較してCM区間の検出を行なう。一般に、CM放送は、1つのCMの時間が15秒、30秒、60秒、90秒・・・というように予め決められた時間のいずれかの時間を採用して行なわれる。そこで、CM検出部300に、15秒間隔、30秒間隔のように所定の間隔でイネーブル信号を発生するCM検出フィルタ312を設定する。そして、前記メモリに記録した無音声箇所の発生位置(時間軸上の位置)と、前記イネーブル信号の発生位置(時間軸上の位置)とを比較してCMの検出を行なう。
すなわち、CM検出部300は、ある無音箇所を検出した場合にその無音箇所の位置を起点としたイネーブル信号(以下、起点イネーブル信号ともいう)を発生させる。そして、起点イネーブル信号の後に所定の間隔(例えば、15秒間隔、30秒間隔等)で発生するイネーブル信号と、後続する無音箇所とが連続して一致した場合に、起点とした無音箇所をCM区間の開始位置(以下、CM IN点ともいう)とする。
次に、無音箇所の位置とイネーブル信号の位置とが一致しない箇所を検出した場合に、当該一致しない箇所よりも時間的に前であり、かつ最も近くにある無音箇所の位置とイネーブル信号の位置とが一致する箇所をCM区間の終了箇所(以下、CM OUT点ともいう)とする。そして、CM IN点とCM OUT点との間の区間をCM区間とし、CM区間を示す位置情報をメタデータ生成部301に出力する。すなわち、前記CM検出曲線313に対応する信号をメタデータ生成部300に出力する。
図25は、メタデータ生成部301における重要度レベルの修正を説明するための説明図である。また、図25(A)は、メタデータ生成部301において、ビデオエンコーダ71の出力またはオーディオエンコーダ72の出力に基づいて生成される重要度レベルの変化の一例を示す重要度レベルプロット(図中52)、図25(B)は、前記CM検出曲線(図中313)、図25(C)は、CM検出曲線に基づいて重要度レベルを修正した結果得られる重要度レベルプロット(図中321、以下、修正重要度レベル曲線ともいう)である。
メタデータ生成部301は、CM検出部300において得られたCM検出曲線と、重要度レベルプロットとを比較して重要度レベルを修正する。すなわち、重要度レベルプロットにおいてCM検出区間と一致する重要度レベルを低くする。具体的には、例えば、CM区間と一致する重要度レベルを0などの固定値に置き換える。または、CM区間と一致する重要度レベルに対して、当該重要度レベルの値を小さくするような固定値(例えば、0.5)を乗算してもよい。以上に説明した処理を行なうことによって、当該メタデータ生成部301において修正された重要度レベルを得ることができる。
なお、以上に説明した、CM検出部300におけるCM区間の検出、メタデータ生成部301におけるメタデータの修正、または修正した重要度レベルを含むメタデータの記録媒体への記録は、当該記録装置1400において記録媒体2へのビデオの記録中に行なってもよいし、記録媒体2へのビデオの記録が終了した後に、メモリやハードディスク等に記録した無音区間の時間情報に基づいて重要度レベルを修正して任意のタイミングで記録媒体2に記録してもよい。
以上の説明のように、実施の形態8における記録装置によれば、CM区間における重要度レベルを低い値に設定することができる。すなわち、CM放送の部分において高い重要度レベルが与えられた場合であっても、重要度レベルを低い値に修正することができる。したがって、記録媒体に記録されたビデオを要約再生する際に、CMを再生することを防止することができる。
なお、以上の説明においては、オーディオエンコーダ72から出力された音声信号の特徴に基づいてCM区間の検出を行なう場合について説明したが、CM区間の検出においてはビデオエンコーダ71から出力される映像信号の特徴を使用してもよいし、ビデオエンコーダ71における映像信号の符号化圧縮の際に得られる所定の特徴量を使用してもよい。
また、CM区間の検出は、映像信号あるいは音声信号のいずれか一方からのみ得られた特徴に基づいて行なってもよいし、映像信号と音声信号の双方から得られた特徴に基づいて行なってもよい。
また、以上の説明においては、無音声箇所を検出してCM区間を検出し、重要度レベルを修正する場合について説明したが、その他の方法によりCM区間を検出して重要度レベルの修正を行なってもよい。例えば、記録装置に入力される音声信号の音声方式がステレオ方式であるかモノラル方式であるかを検出してCM区間を検出することもできる。すなわち、本編においてはモノラル方式が使用され、CMにおいてはステレオ方式が使用されている場合には、モノラル方式とステレオ方式との切り替わり部分を検出することによってCM IN点とCM OUT点を検出してCM区間を検出することができる。また、本編においては二ヶ国語方式が使用され、CMにおいては二ヶ国語方式が使用されていいない場合には、二ヶ国語放送で無い部分をCM区間として検出することができる。
さらに、本編とCMとの切り替わり点において黒画面の映像フレームが挿入されている場合には、当該黒画面を検出することによってCM区間を検出することができる。また、本編に対応する映像信号においては字幕放送信号が含まれ、CMに対応する映像信号においては字幕放送信号が含まれない場合においては、当該字幕放送信号を検出することによってCM区間の検出をすることができる。
また、記録装置に入力される映像信号または音声信号にCM区間を識別するための信号(以下、CM識別信号ともいう)が重畳されている場合には、当該CM識別信号を検出することによってCM区間の検出をすることができる。なお、CM区間の検出に際して、黒画面を検出するなど、映像信号の特徴を使用する場合においては、図26に示すように、CM検出部302にビデオエンコーダ71の出力が入力されるように記録装置1500を構成する。そして、メタデータ生成部303においては、映像信号または音声信号に基づいて得られたCM検出曲線に応じてメタデータの修正を行なう。
また、以上の説明においては、CM区間の検出に際して、無音声箇所を検出する方法のみを使用する場合について説明したが、CM検出部300においては、上述した複数のCM検出方法のいずれを使用してもよいし、複数のCM検出方法を組み合わせて使用してもよい。
例えば、モノラル方式とステレオ方式との切り替わり部分を検出することによってCM区間を検出する方法と、無音声箇所を検出することによってCM区間を検出する方法とを組み合わせることができる。モノラル方式とステレオ方式との切り替わり部分を検出してCM区間を検出する方法は、本編およびCMの双方でステレオ方式を使用している場合にはCM区間の検出をすることは困難である。しかしながら、当該音声方式の切り替えを検出することによってCM区間を検出する方法は最も簡易にCM区間を検出することができ、記録装置における演算負荷を小さくすることができる。
そこで、録画の対象となるテレビ放送の音声信号の音声方式をあらかじめ電子番組表(EPG(Electric Program Guide)ともいう)によって取得しておき、本編がモノラル方式である場合や二ヶ国語方式の場合には音声方式の切り替わりを検出してCM区間を検出する方式を採用し、本編がステレオ方式であった場合には、無音声箇所を検出することによってCM区間を検出する方法を採用するようにしてもよい。
また、音声方式の切り替わりの検出によるCM検出の方式の結果と、無音声箇所の検出によるCM検出の方式の結果とを独立したデータテーブルとして保持しておき、録画完了後あるいは任意のタイミングでいずれの方式によるCM検出が適切であったかを所定の基準に基づいて判定して、いずれかの方式を採用するようにしてもよい。
なお、前記所定の基準とは、例えば、検出されるCM区間の個数(以下、CM区間数ともいう)を使用することができる。例えば、本編がステレオ音声方式の番組に対して音声方式の切り替わりを検出することによるCM区間の検出を行った場合には、CM区間数が、番組の放送時間から想定される一般的なCM区間の個数よりも極端に少なくなる。そこで、上述の場合には、CM区間数が、番組の放送時間から想定される一般的なCM区間の個数よりも極端に少なくなった場合に、音声方式の切り替わりを検出することによるCM検出が適切でなかったことが判断できる。
具体的には、例えば、所定のしきい値(番組の放送時間から想定される一般的なCM区間の個数よりも極端に少ないと判断することが可能なしきい値)を設定し、CM区間数と前記しきい値とを比較して、当該しきい値よりもCM区間数が小さい場合に、音声方式の切り替わりを検出することによるCM検出が適切でないと判断することができる。
また、音声方式の切り替わりを検出してCM区間を検出する方法を使用して重要度レベルの修正を行なって得られるメタデータ、および、無音声箇所を検出することによってCM区間を検出する方法を使用して重要度レベルの修正を行なって得られるメタデータの両方のメタデータを記録媒体2に記録し、当該記録媒体2を再生する際に、使用するメタデータを選択するようにしてもよい。
なお、実施の形態8において説明した記録装置によってメタデータ等が記録された記録媒体2は、実施の形態2において説明した要約再生装置によって再生することができる。
本発明を、好ましい実施形態の例として記載してきたが、本発明の精神および範囲内で様々な他の適応および修正を行うことができることを理解すべきである。したがって、併記の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および修正をすべて網羅することである。
Claims (21)
- 入力された、映像信号または音声信号を所定の記録媒体に記録する記録手段と、
前記映像信号または前記音声信号を所定のセグメントに区分して、前記映像信号の映像の特徴または前記音声信号の音声の特徴を前記セグメント毎に抽出する特徴抽出手段と、
前記特徴に対応する特徴データ、および前記セグメントの開始位置を含むメタデータを生成するメタデータ生成手段とを備え、
前記記録手段は、前記セグメントと対応付けて前記メタデータを前記記録媒体に記録するように構成されてなる記録装置。 - 前記メタデータ生成手段は、所定のウィンドウに含まれる各セグメントの特徴データに基づいて、前記ウィンドウ内のセグメント全てに対応する前記特徴データを生成するように構成されてなる請求項1に記載の記録装置。
- 前記ウィンドウは、所定の特徴データが設定されるアンカー区間を有し、
前記メタデータ生成手段は、前記ウィンドウに含まれる各セグメントの特徴データ、および前記アンカー区間に設定された特徴データに基づいて、前記ウィンドウ内のセグメント全てに対応する前記特徴データを生成するように構成されてなる請求項2に記載の記録装置。 - 前記メタデータ生成手段は、前記特徴データに重み付けをするように構成されてなる請求項2または3に記載の記録装置。
- 前記重み付けは、前記音声信号に対応する音声の音量であることを特徴とする請求項4に記載の記録装置。
- 入力された、映像信号または音声信号を所定の記録媒体に記録する記録手段と、
前記映像信号または前記音声信号を所定のセグメントに区分して、前記映像信号の映像の特徴または前記音声信号の音声の特徴を前記セグメント毎に抽出する特徴抽出手段と、
前記特徴に対応する特徴データ、および前記セグメントの開始位置を含むメタデータを生成するメタデータ生成手段と、
前記映像信号または前記音声信号に基づいて前記映像信号または前記音声信号に含まれるコマーシャルの区間を検出するCM検出手段とを備え、
前記メタデータ生成手段は、前記CM検出手段における検出の結果に応じて、前記特徴データを修正してメタデータを生成し、
前記記録手段は、修正された前記特徴データを含むメタデータを、前記セグメントと対応付けて前記記録媒体に記録するように構成されてなる記録装置。 - 入力された、映像信号または音声信号を所定の記録媒体に記録し、
前記映像信号または前記音声信号を所定のセグメントに区分して、前記映像信号の映像の特徴または前記音声信号の音声の特徴を前記セグメント毎に抽出し、
前記特徴に対応する特徴データ、および前記セグメントの開始位置を含むメタデータを生成し、
前記記録の際に、前記セグメントと対応付けて前記メタデータを前記記録媒体に記録することを含む記録方法。 - 入力された、映像信号または音声信号を所定の記録媒体に記録し、
前記映像信号または前記音声信号を所定のセグメントに区分して、前記映像信号の映像の特徴または前記音声信号の音声の特徴を前記セグメント毎に抽出し、
前記特徴に対応する特徴データ、および前記セグメントの開始位置を含むメタデータを生成し、
前記映像信号または前記音声信号に基づいて前記映像信号または前記音声信号に含まれるコマーシャルの区間を検出し、
コマーシャルの区間の検出の結果に応じて、前記特徴データを修正してメタデータを生成し、
修正された前記特徴データを含むメタデータを、前記セグメントと対応付けて前記記録媒体に記録することを含む記録方法。 - 前記請求項7または前記請求項8に記載の記録方法によって、前記メタデータ、前記映像信号または前記音声信号に対応するセグメントが記録されたコンピュータ読み取り可能な記録媒体。
- 前記メタデータに対応するファイルが格納されるディレクトリと、前記セグメントに対応するファイルが格納されるディレクトリとを異なるディレクトリとして設けることを特徴とする請求項9に記載のコンピュータ読み取り可能な記録媒体。
- 請求項9または10に記載の記録媒体に記録された前記メタデータから前記特徴データを抽出する特徴データ抽出手段と、
前記特徴データに対応する値と予め定めるしきい値とを比較する比較手段と、
前記記録媒体に記録された前記セグメントのうち、前記比較の結果に対応するセグメントを検索する検索手段と、
該検索手段において検索されたセグメントに対応する映像または音声を再生する再生手段とを備える要約再生装置。 - 前記検索手段は、前記比較手段における比較の結果、前記しきい値よりも値が大きい特徴データに対応するセグメントを検索するように構成されてなる請求項11に記載の要約再生装置。
- 前記比較手段は、前記検索手段において検索されたセグメントに対応する映像の再生時間と所定のしきい値とを比較し、
当該要約再生装置は、前記比較手段における比較の結果、前記再生時間が前記所定のしきい値よりも小さい場合には、前記検索されたセグメントに対応する映像または音声を再生しないように構成されてなる請求項11または12に記載の要約再生装置。 - 前記比較手段は、前記検索手段において検索されたセグメントに対応する映像の再生時間と所定のしきい値とを比較し、
当該要約再生装置は、前記比較手段における比較の結果、前記再生時間が前記所定のしきい値よりも小さい場合には、前記セグメントに対応する映像または音声を含んで再生される映像または音声の再生時間が前記所定のしきい値以上となるように再生時間を調整するように構成されてなる請求項11または12に記載の要約再生装置。 - 前記比較手段における比較の結果を示す画像を生成する画像生成手段と、
前記画像生成手段において生成された画像と、前記映像検索手段において検索されたセグメントの映像とを合成して出力する合成手段とを更に備える請求項11ないし14のいずれかに記載の要約再生装置。 - 前記画像生成手段において生成される画像は、前記特徴データの値の変動を示す画像と、前記しきい値のレベルを示す画像とを含んで構成される請求項15に記載の要約再生装置。
- 前記画像生成手段において生成される画像は、前記比較手段における比較の結果、前記検索手段によって検索されたセグメントに対応する映像の再生時間を示す画像を含んで構成される請求項15または16に記載の要約再生装置。
- 前記画像生成手段において生成される画像は、前記比較手段における比較の結果、前記検索手段によって検索されたセグメントに対応する映像の、ビデオ全体における位置を示す画像を含んで構成される請求項15ないし17のいずれかに記載の要約再生装置。
- 請求項9または10に記載の記録媒体に記録された前記メタデータから前記特徴データを抽出し、
前記特徴データに対応する値と予め定めるしきい値とを比較し、
前記記録媒体に記録された前記セグメントのうち、前記比較の結果に対応するセグメントを検索し、
該検索手段において検索されたセグメントに対応する映像または音声を再生することを含む要約再生方法。 - マルチメディアを要約するマルチメディア要約システムであって、
区間列に分割された圧縮マルチメディアファイル、ならびに、前記列の各区間の索引情報および閉じた間隔にわたって連続的な重要度のレベル情報を含むメタデータファイルを格納する手段と、
前記閉じた間隔において重要度レベルのしきい値を選択する手段と、
前記索引情報を用いて、前記マルチメディアのうち、前記重要度レベルのしきい値よりも高い特定の重要度レベルを有する区間のみを再生する手段とを備えたマルチメディア要約システム。 - マルチメディアを要約するマルチメディア要約方法であって、
区間列に分割された圧縮マルチメディアファイルを格納すること、
前記区間列の各区間の索引情報および閉じた間隔にわたって連続的である重要度のレベル情報を含むメタデータファイルを格納すること、
前記閉じた間隔において重要度レベルのしきい値を選択すること、および
前記索引情報を用いて、前記マルチメディアのうち、前記重要度レベルのしきい値よりも高い特定の重要度レベルを有する区間を再生することを含むマルチメディア要約方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/757,138 US20050154987A1 (en) | 2004-01-14 | 2004-01-14 | System and method for recording and reproducing multimedia |
US10/757,138 | 2004-01-14 | ||
US10/779,105 | 2004-02-13 | ||
US10/779,105 US7406409B2 (en) | 2004-01-14 | 2004-02-13 | System and method for recording and reproducing multimedia based on an audio signal |
PCT/JP2005/000093 WO2005069172A1 (ja) | 2004-01-14 | 2005-01-07 | 要約再生装置および要約再生方法 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006195676A Division JP4081120B2 (ja) | 2004-01-14 | 2006-07-18 | 記録装置、記録再生装置 |
JP2006195677A Division JP4000171B2 (ja) | 2004-01-14 | 2006-07-18 | 再生装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2005069172A1 true JPWO2005069172A1 (ja) | 2007-07-26 |
Family
ID=34739986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005517009A Pending JPWO2005069172A1 (ja) | 2004-01-14 | 2005-01-07 | 要約再生装置および要約再生方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US20050154987A1 (ja) |
EP (1) | EP2107477B1 (ja) |
JP (1) | JPWO2005069172A1 (ja) |
CN (1) | CN100538698C (ja) |
HK (1) | HK1097614A1 (ja) |
MY (1) | MY145519A (ja) |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735253B1 (en) * | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
US7143434B1 (en) | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
US7339992B2 (en) | 2001-12-06 | 2008-03-04 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
US8472792B2 (en) * | 2003-12-08 | 2013-06-25 | Divx, Llc | Multimedia distribution system |
TWI254221B (en) * | 2004-05-06 | 2006-05-01 | Lite On It Corp | Method and apparatus for indexing multimedia data |
US7624021B2 (en) * | 2004-07-02 | 2009-11-24 | Apple Inc. | Universal container for audio data |
KR100644095B1 (ko) * | 2004-10-13 | 2006-11-10 | 박우현 | 디지털 방송 환경 하에 있어서 연동형 데이터방송을 인터넷 영역으로 확장하여 양방향 광고를 실현하는 방법 |
KR20060065476A (ko) * | 2004-12-10 | 2006-06-14 | 엘지전자 주식회사 | 기록매체, 기록매체 내의 콘텐츠 서치방법 및 기록매체재생방법과 재생장치 |
WO2006096612A2 (en) | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
WO2007021311A2 (en) * | 2005-08-10 | 2007-02-22 | Thomson Licensing | System and method for reviewing digital cinema content |
JP4321518B2 (ja) * | 2005-12-27 | 2009-08-26 | 三菱電機株式会社 | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 |
US7558809B2 (en) * | 2006-01-06 | 2009-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Task specific audio classification for identifying video highlights |
US8020097B2 (en) * | 2006-03-21 | 2011-09-13 | Microsoft Corporation | Recorder user interface |
JP4442585B2 (ja) * | 2006-05-11 | 2010-03-31 | 三菱電機株式会社 | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 |
US20080019661A1 (en) * | 2006-07-18 | 2008-01-24 | Pere Obrador | Producing output video from multiple media sources including multiple video sources |
US20080019669A1 (en) * | 2006-07-18 | 2008-01-24 | Sahra Reza Girshick | Automatically editing video data |
US8805678B2 (en) * | 2006-11-09 | 2014-08-12 | Broadcom Corporation | Method and system for asynchronous pipeline architecture for multiple independent dual/stereo channel PCM processing |
US9009032B2 (en) * | 2006-11-09 | 2015-04-14 | Broadcom Corporation | Method and system for performing sample rate conversion |
FR2910769B1 (fr) * | 2006-12-21 | 2009-03-06 | Thomson Licensing Sas | Procede de creation d'un resume d'un document audiovisuel comportant un sommaire et des reportages, et recepteur mettant en oeuvre le procede |
EP2145270B1 (en) * | 2007-05-04 | 2016-08-17 | Nokia Technologies Oy | Media stream recording into a reception hint track of a multimedia container file |
US8316302B2 (en) * | 2007-05-11 | 2012-11-20 | General Instrument Corporation | Method and apparatus for annotating video content with metadata generated using speech recognition technology |
US20110229110A1 (en) * | 2007-08-08 | 2011-09-22 | Pioneer Corporation | Motion picture editing apparatus and method, and computer program |
US8260794B2 (en) * | 2007-08-30 | 2012-09-04 | International Business Machines Corporation | Creating playback definitions indicating segments of media content from multiple content files to render |
WO2009126785A2 (en) | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
WO2009155281A1 (en) | 2008-06-17 | 2009-12-23 | The Trustees Of Columbia University In The City Of New York | System and method for dynamically and interactively searching media data |
JP4816699B2 (ja) * | 2008-09-03 | 2011-11-16 | ソニー株式会社 | 楽曲処理方法、楽曲処理装置、及びプログラム |
KR20100061078A (ko) * | 2008-11-28 | 2010-06-07 | 삼성전자주식회사 | 메타 데이터를 이용하는 컨텐츠 소비 방법 및 그 장치 |
US8671069B2 (en) | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
JP5421627B2 (ja) * | 2009-03-19 | 2014-02-19 | キヤノン株式会社 | 映像データ表示装置及びその方法 |
KR100999655B1 (ko) * | 2009-05-18 | 2010-12-13 | 윤재민 | 디지털 비디오 레코더 시스템 및 그것의 운용방법 |
WO2010134739A2 (ko) * | 2009-05-18 | 2010-11-25 | Yoon Jae Min | 디지털 비디오 레코더 시스템 및 그것의 운용방법 |
US8135221B2 (en) * | 2009-10-07 | 2012-03-13 | Eastman Kodak Company | Video concept classification using audio-visual atoms |
US8176195B2 (en) | 2009-11-13 | 2012-05-08 | Futurewei Technologies, Inc. | Media distribution with service continuity |
CN102487456B (zh) * | 2009-11-30 | 2015-06-17 | 国际商业机器公司 | 用于提供网络视频访问热度的方法和装置 |
KR20110062982A (ko) * | 2009-12-04 | 2011-06-10 | 삼성전자주식회사 | 실시간 방송 컨텐츠의 방송 요약 정보 생성 방법 및 장치와, 그 제공방법 및 방송 수신 장치 |
CN101753945B (zh) * | 2009-12-21 | 2013-02-06 | 无锡中星微电子有限公司 | 一种节目预览的方法和装置 |
CN104067630B (zh) * | 2011-12-27 | 2018-10-16 | 英特尔公司 | 在可变时间帧中播放线性视频的方法及系统 |
US9276989B2 (en) * | 2012-03-30 | 2016-03-01 | Adobe Systems Incorporated | Buffering in HTTP streaming client |
GB2515481A (en) * | 2013-06-24 | 2014-12-31 | British Broadcasting Corp | Programme control |
US20150009363A1 (en) * | 2013-07-08 | 2015-01-08 | Htc Corporation | Video tagging method |
US10297287B2 (en) | 2013-10-21 | 2019-05-21 | Thuuz, Inc. | Dynamic media recording |
US20150110462A1 (en) * | 2013-10-21 | 2015-04-23 | Sling Media, Inc. | Dynamic media viewing |
US10433030B2 (en) | 2014-10-09 | 2019-10-01 | Thuuz, Inc. | Generating a customized highlight sequence depicting multiple events |
US11863848B1 (en) | 2014-10-09 | 2024-01-02 | Stats Llc | User interface for interaction with customized highlight shows |
US10536758B2 (en) | 2014-10-09 | 2020-01-14 | Thuuz, Inc. | Customized generation of highlight show with narrative component |
US10419830B2 (en) | 2014-10-09 | 2019-09-17 | Thuuz, Inc. | Generating a customized highlight sequence depicting an event |
CN106341740B (zh) * | 2015-07-09 | 2019-04-26 | 上海交通大学 | 一种多媒体内容分级技术的实现方法 |
CN105992061B (zh) * | 2015-02-13 | 2018-08-03 | 上海交通大学 | 一种自适应动态的多媒体分级传送播放管理方法 |
US9900769B2 (en) * | 2015-05-29 | 2018-02-20 | Nagravision S.A. | Methods and systems for establishing an encrypted-audio session |
US10122767B2 (en) | 2015-05-29 | 2018-11-06 | Nagravision S.A. | Systems and methods for conducting secure VOIP multi-party calls |
US9891882B2 (en) | 2015-06-01 | 2018-02-13 | Nagravision S.A. | Methods and systems for conveying encrypted data to a communication device |
US10356059B2 (en) | 2015-06-04 | 2019-07-16 | Nagravision S.A. | Methods and systems for communication-session arrangement on behalf of cryptographic endpoints |
US10356456B2 (en) * | 2015-11-05 | 2019-07-16 | Adobe Inc. | Generating customized video previews |
CN105975568B (zh) * | 2016-04-29 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 一种音频处理方法及装置 |
CN105825850B (zh) * | 2016-04-29 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种音频处理方法及装置 |
CN108229905B (zh) * | 2017-06-30 | 2023-04-25 | 勤智数码科技股份有限公司 | 一种基于业务关联的部门关系生成方法及系统 |
CN108280179B (zh) * | 2018-01-22 | 2019-09-06 | 百度在线网络技术(北京)有限公司 | 音频广告检测的方法及系统、终端以及计算机可读存储介质 |
CN108307229B (zh) * | 2018-02-02 | 2023-12-22 | 新华智云科技有限公司 | 一种影音数据的处理方法及设备 |
US11373404B2 (en) | 2018-05-18 | 2022-06-28 | Stats Llc | Machine learning for recognizing and interpreting embedded information card content |
US11025985B2 (en) | 2018-06-05 | 2021-06-01 | Stats Llc | Audio processing for detecting occurrences of crowd noise in sporting event television programming |
US11264048B1 (en) | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
CN111541939B (zh) * | 2020-04-30 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 一种视频拆分方法、装置、电子设备及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4679002A (en) | 1985-04-25 | 1987-07-07 | Westinghouse Electric Corp. | Electromagnetically shielded narrow band electroencephalographic amplifier |
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
JP3409834B2 (ja) * | 1997-07-10 | 2003-05-26 | ソニー株式会社 | 画像処理装置および画像処理方法、並びに記録媒体 |
US6463444B1 (en) * | 1997-08-14 | 2002-10-08 | Virage, Inc. | Video cataloger system with extensibility |
US6714909B1 (en) * | 1998-08-13 | 2004-03-30 | At&T Corp. | System and method for automated multimedia content indexing and retrieval |
US6366296B1 (en) * | 1998-09-11 | 2002-04-02 | Xerox Corporation | Media browser using multimodal analysis |
US6366293B1 (en) * | 1998-09-29 | 2002-04-02 | Rockwell Software Inc. | Method and apparatus for manipulating and displaying graphical objects in a computer display device |
JP2000125243A (ja) | 1998-10-15 | 2000-04-28 | Sharp Corp | 映像記録再生装置及び記録媒体 |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
JP3376314B2 (ja) * | 1999-05-12 | 2003-02-10 | 株式会社東芝 | デジタル映像情報媒体、デジタル映像情報記録再生装置およびデジタル映像情報処理方法 |
GB2354105A (en) * | 1999-09-08 | 2001-03-14 | Sony Uk Ltd | System and method for navigating source content |
JP2002259720A (ja) * | 2001-03-02 | 2002-09-13 | Internatl Business Mach Corp <Ibm> | コンテンツ要約システム、映像要約システム、ユーザ端末、要約映像生成方法、要約映像受信方法、およびプログラム |
US7203620B2 (en) * | 2001-07-03 | 2007-04-10 | Sharp Laboratories Of America, Inc. | Summarization of video content |
US7386217B2 (en) * | 2001-12-14 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Indexing video by detecting speech and music in audio |
US7349477B2 (en) * | 2002-07-10 | 2008-03-25 | Mitsubishi Electric Research Laboratories, Inc. | Audio-assisted video segmentation and summarization |
-
2004
- 2004-01-14 US US10/757,138 patent/US20050154987A1/en not_active Abandoned
- 2004-02-13 US US10/779,105 patent/US7406409B2/en active Active
-
2005
- 2005-01-07 JP JP2005517009A patent/JPWO2005069172A1/ja active Pending
- 2005-01-07 EP EP09009087.9A patent/EP2107477B1/en active Active
- 2005-01-07 MY MYPI20050069A patent/MY145519A/en unknown
- 2005-01-07 CN CNB2005800024486A patent/CN100538698C/zh active Active
-
2007
- 2007-03-15 HK HK07102779.6A patent/HK1097614A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
EP2107477A2 (en) | 2009-10-07 |
EP2107477B1 (en) | 2015-11-25 |
CN1910580A (zh) | 2007-02-07 |
MY145519A (en) | 2012-02-29 |
EP2107477A3 (en) | 2011-08-03 |
US20050154987A1 (en) | 2005-07-14 |
US20050154973A1 (en) | 2005-07-14 |
HK1097614A1 (en) | 2007-06-29 |
CN100538698C (zh) | 2009-09-09 |
US7406409B2 (en) | 2008-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4000171B2 (ja) | 再生装置 | |
EP2107477B1 (en) | Summarizing reproduction device and summarizing reproduction method | |
JP5322550B2 (ja) | 番組推奨装置 | |
JP4757876B2 (ja) | ダイジェスト作成装置およびそのプログラム | |
US7058278B2 (en) | Information signal processing apparatus, information signal processing method, and information signal recording apparatus | |
JP4556752B2 (ja) | コマーシャル視聴制御機能を有する録画再生装置 | |
KR20060027826A (ko) | 비디오 처리장치, 비디오 처리장치용 집적회로, 비디오처리방법, 및 비디오 처리 프로그램 | |
US8019163B2 (en) | Information processing apparatus and method | |
KR20110097858A (ko) | 프로그램 데이터 처리 장치, 프로그램 데이터 처리 방법, 및 프로그램을 기록한 컴퓨터 판독가능한 기록 매체 | |
JP4735413B2 (ja) | コンテンツ再生装置およびコンテンツ再生方法 | |
JP2007336283A (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
US7801420B2 (en) | Video image recording and reproducing apparatus and video image recording and reproducing method | |
JP4925938B2 (ja) | ダイジェスト映像情報作成方法、ダイジェスト映像情報作成プログラム、および、映像装置 | |
US20100257156A1 (en) | Moving picture indexing method and moving picture reproducing device | |
JPWO2007046171A1 (ja) | 記録再生装置 | |
WO2007039995A1 (ja) | ダイジェスト作成装置およびそのプログラム | |
JP2006270233A (ja) | 信号処理方法及び信号記録再生装置 | |
JP2008153920A (ja) | 動画像一覧表示装置 | |
KR20090114937A (ko) | 녹화된 뉴스 프로그램들을 브라우징하는 방법 및 이를 위한장치 | |
JP2008301340A (ja) | ダイジェスト作成装置 | |
US20090214176A1 (en) | Information processing apparatus, information processing method, and program | |
JP4312167B2 (ja) | コンテンツ再生装置 | |
WO2007039998A1 (ja) | 本編外シーン抽出装置およびそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060815 |