WO2000045596A1

WO2000045596A1 - Procede de description de donnees et unite de traitement de donnees

Info

Publication number: WO2000045596A1
Application number: PCT/JP2000/000424
Authority: WO
Inventors: Toby Walker; Hiroshi Matsubara
Original assignee: Sony Corporation
Priority date: 1999-01-29
Filing date: 2000-01-27
Publication date: 2000-08-03
Also published as: US6996171B1; EP1067786A1; DE60045699D1; EP1067786A4; EP1067786B1

Description

明細書データ記述方法及びデータ処理装置技術分野本発明は、入力データの内容の特徴を表す特徴データを記述するためのデータ記述方法に関する。また、本発明は、この特徴データを生成するデータ処理装置に関する。さらに、本発明は、この特徴データを利用するデータ処理装置に関する。背景技術例えばビデオデータに録画されたテレビ番組といった大量の異なる映像データにより構成される映像アプリケ一シヨンの中から、興味のある部分等の所望の部分を探して再生したい場合がある。

このように、所望の映像内容を抽出するための一般的な技術としては、アプリケーションの主要場面を描いた一連の映像を並べて作成されたパネルであるスト一リーボ一ドがある。このストーリーボ —ドは、ビデオデータをいわゆるショットに分解し、各ショットにおいて代表される映像を表示したものである。このような映像抽出技術は、そのほとんどが、例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital v ideo, J. of Visual Communication and Image Representation 7: 28-4, 1996" に記載されているように、ビデオ構造からショットを自動的に検出して抽出するものである。

ところで、例えば代表的な 3 0分のテレビ番組中には、数百ものショットが含まれている。そのため、上述した従来の映像抽出技術においては、ユーザは、抽出された膨大な数のショットを並べたスト一リーボ一ドを調べる必要があり、このようなストーリ一ボードを理解する際、ユーザに大きな負担を強いる必要があった。また、従来の映像抽出技術においては、例えば話し手の変化に応じて交互に 2者を撮影した会話場面におけるショットは、冗長のものが多いという問題があった。このように、ショットは、ビデオ構造を抽出する対象としては階層が低すぎて無駄な情報量が多く、このようなショット抽出に基づく従来のビデオ構造抽出技術は、ユーザに大きな負担を強いる必要があった。

すなわち、ユーザにとっての利便を考盧すれば、ビデオ構造抽出技術は、ショットより上位のレベルを含めて、ビデオデータの内容に応じた様々なレベルにおけるビデオ構造を把握する必要がある。しかしながら、このようなビデオ構造を抽出する処理は、非常に複雑であり、その結果、このようなビデオ構造を抽出するための装置は、高度な処理能力ゃ大容量の計算資源を有するものである必要があった。したがって、要するコストや労力を踏まえると、家庭においてこのような処理を行うことは、非常に困難であった。発明の開示本発明は、このような実情に鑑みてなされたものであり、ビデオデータの内容を検索してブラウジングするための高度な方法を実現し、種々のビデオデータの自動内容解析により得られたビデオ構造を記述するためのデータ記述方法を提供することを目的とするものである。また、本発明は、ビデオデータの自動內容解析に基づいて. このようなデータを生成するデータ処理装置を提供することを目的とするものである。さらに、本発明は、このようなデータを利用して、特に家庭等において、ビデオ ' コンテンツに容易で且つ個人的なアクセスを可能とするデータ処理装置を提供することを目的とするものである。

上述した目的を達成する本発明にかかるデータ記述方法は、入力データの内容の特徴を表す特徴データを記述するためのデータ記述方法であって、記述方法を定義する単位要素となる記述子は、下位要素としての属性が定義される構造を有し、属性として記述子を含み得ることを特徴としている。

このような本発明にかかるデータ記述方法は、構造を有する記述子の集合を用いて、特徴データの構造化した記述を可能とする。また、上述した目的を達成する本発明にかかるデータ処理装置は. 入力データの内容の特徴を表す特徴データを生成するデータ処理装置であって、記述方法を定義する単位要素となる記述子に関し、下位要素としての属性が定義される構造を有し、属性として記述子を含み得る記述子に基づいて特徴データを生成する生成手段を備えることを特徴としている。

このような本発明にかかるデータ処理装置は、構造を有する記述子の集合を用いて、構造化された特徴データを生成する。

さらに、上述した目的を達成する本発明にかかるデータ処理装置は、入力データの内容の特徴を表す特徴データを利用するデータ処理装置であって、記述方法を定義する単位要素となる記述子に関し, 下位要素としての属性が定義される構造を有し、属性として記述子を含み得る記述子に基づいて生成された特徴データを利用して、入力データの内容の特徴を復元する復元手段を備えることを特徴としている。

このような本発明にかかるデータ処理装置は、特徴データに基づいて、入力データの内容の特徴を復元する。図面の簡単な説明図 1は、本発明において適用するビデオデータの構成を説明する図であって、モデル化したビデオデータの構造を説明する図である < 図 2は、本発明の実施の形態として示すデータ送受信処理システムの構成を説明するプロック図である。

図 3は、ディスクリプタの記述フォーマットを説明する図である ₍ 図 4は、ディスクリプタの継承関係を説明する図である。

図 5は、 A Vエレメント ' ディスクリプタの記述フォーマットを説明する図である。

図 6は、 A Vセグメント ■ ディスクリプタの記述フォーマツトを説明する図である。

図 7は、 A Vアブストラクト . ディスクリプタの記述フォーマットを説明する図である。

図 8は、 A Vプロトタイプ · ディスクリプタの記述フォーマットを説明する図である。

図 9は、プロトタイプを説明する図である。図 1 0は、ハイアラキ ' ディスクリプタの記述フォーマットを説明する図である。

図 1 1は、クラスタ ' ディスクリプタの記述フォーマットを説明する図である。

図 1 2は、クラスタリングを説明する図である。

図 1 3は、コンポジッドを説明する図である。

図 1 4は、コンポジッド 'セグメント ' ディスクリプタの記述フォーマツトを説明する図である。

図 1 5は、 A Vグラフ ' ディスクリプタの記述フォーマツトを説明する図である。

図 1 6 Aは、会話場面を形成する一連のシヨットを示す図であり、図 1 6 Bは、図 1 6 Aに示す一連のシヨットにおける直線的構造を示す A Vグラフを示す図であり、図 1 6 Cは、図 1 6 Aに示す一連のショットにおける意味的構造を示す A Vグラフを示す図である。図 1 7は、 A Vダラフェツジ ' ディスクリプタの記述フォーマットを説明する図である。

図 1 8は、シグネチヤ ' ディスクリプタの記述フォーマツトを説明する図である。

図 1 9は、テンポラル · シグネチヤ · ディスクリプタの記述フォ —マットを説明する図である。

図 2 0は、アクティビティ · レベル ' ディスクリプタの記述フォ —マツトを説明する図である。

図 2 1は、ウェイト ■べクトノレ ' ディスクリプタの記述フォーマットを説明する図である。

図 2 2は、コンセプト ' ディスクリプタの記述フォ一マットを説明する図である。

図 2 3は、シノプシス 'ディスクリプタの記述フォーマツトを説明する図である。

図 2 4は、カラー ' ディスクリプタの記述フォーマットを説明する図である。

図 2 5は、カラー · スペース ' ディスクリプタの記述フォーマツトを説明する図である。

図 2 6は、カラー ' シグネチヤ ' ディスクリプタの記述フォーマットを説明する図である。

図 2 7は、音声フレーム ' ディスクリプタの記述フォーマットを説明する図である。

図 2 8は、映像フレーム ·ディスクリプタの記述フォーマツトを説明する図である。

図 2 9は、ブラウジング ' ノード ' ディスクリプタの記述フォーマットを説明する図である。

図 3 0は、ショット ■ ディスクリプタの記述フォ一マットを説明する図である。

図 3 1は、シーン ' ディスクリプタの記述フォーマットを説明する図である。

図 3 2は、プログラム ' ディスクリプタの記述フォ一マットを説明する図である。

図 3 3は、データ送受信処理システムにおける送信装置において. セグメントをグループ化してシーンを検出する際の一連の工程を説明するフローチヤ一トである。

図 3 4は、データ送受信処理システムにおける送信装置において. 動的特徴量サンプリング処理を説明する図である。

図 3 5は、非類似性閾値を説明する図である。

図 3 6は、時間閾値を説明する図である。

図 3 7は、データ送受信処理システムにおける送信装置において, セグメントをグループ化する際の一連の工程を説明するフローチヤートである。

図 3 8は、シーンを記述するディスクリプシヨン ' スキームのー例を説明する図である。

図 3 9は、特徴データとしてのシーン記述の一例を説明する図である。発明を実施するための最良の形態以下、本発明を適用した具体的な実施の形態について図面を参照しながら詳細に説明する。

本発明を適用した実施の形態は、例えば、映像データと音声データとからなるビデオデータといったマルチメディァ · コンテンツ等を供給する放送局等における送信装置と、例えばデイジタルビデオやホーム ■ サーバといった送信装置からのマルチメディァ · コンテンッ等を受信して処理する受信装置とにより構成されるデータ送受信処理システムである。このデータ送受信処理システムは、ここでは、マルチメディァ ■ コンテンツとしてビデオデータを扱うものとする。データ送受信処理システムの具体的な説明を行う前に、ここではまず本発明において対象とするマルチメディア ■ コンテンツであるビデオデータに関する説明を行う。本発明において対象とするビデオデータについては、図 1に示すようにモデル化し、フレーム、セグメント、シーン、プログラムといったレベルに階層化された構造を有するものとする。すなわち、ビデオデータは、最下位層において、一連のフレームにより構成される。また、ビデオデータは、フレームの 1つ上の階層として、連続するフレームのひと続きから形成されるセグメントにより構成される。さらに、ビデオデータは、セグメントのさらに 1つ上の階層として、このセグメントを意味のある関連に基づきまとめて形成されるシーンにより構成される。さらにまた、ビデオデータは、ここでは図示しないが、関連するシーンをまとめて形成されるプロダラムといったさらに上の階層をも必要に応じて有するものとする。このビデオデータは、一般に、映像及び音声の両方の情報を含む _c すなわち、このビデオデータにおいてフレームには、単一の静止画像である映像フレームと、一般に数 H "〜数百ミリセカンド Z長といつた短時間においてサンプルされた音声情報を表す音声フレームとが含まれる。

また、セグメントは、単一のカメラにより連続的に撮影された映像フレームのひと続きから構成され、一般にはショットと呼ばれる _c そして、セグメントには、映像セグメン卜と音声セグメントとが含まれ、ビデオ構造における基本単位となる。これらのセグメントの中で、特に音声セグメントについては、多くの定義が可能であり、例として次に示すようなものが考えられる。まず、音声セグメントは、一般によく知られている方法により検出されたビデオデータ中の無音期間により境界を定められて形成される場合がある。また、音声セクメン卜は、 D. Kimber and L. Wi l cox, Acoust i c Segmen tation for Audio Browsers, Xerox Pare Technical Report" に記載されているように、例えば、音声、音楽、ノイズ、無音等のように少数のカテゴリに分類された音声フレームのひと続きから形成される場合もある。さらに、音声セグメントは、 "S. Pfeiffer, S. Fischer and E. Wolfgang, Automatic Audio Content Analysis, P roceeding of ACM Multimedia 96, Nov. 1996, pp21-30" に記載されているように、 2枚の連続する音声フレーム間の或る特徴における大きな変化を音声力ット点として検出し、この音声力ット点に基づいて決定される場合もある。

さらに、シーンは、ビデオデータの内容を意味に基づくより高いレベルで記述するために、映像セグメント（ショット）検出或いは音声セグメント検出により得られたセグメントを、例えばセグメント内の知覚的ァクティビティ量といったセグメントの特徴を表す特徴量を用いて意味のあるまとまりにグループ化したものである。

さらにまた、プログラムは、意味的に関連するシーンの並びを表すものである。具体例としては、映画、一般のテレビ番組、ニュース番組、スポーツ中継等がある。

本発明を適用した実施の形態として図 2に示すデータ送受信処理システムは、マルチメディァ · コンテンッとしての上述したビデオデータ等の各種データを供給する送信装置 1 0と、この送信装置 1 0からビデオデータ等の各種データを受信する受信装置 2 0 とを備える。

送信装置 1 0は、同図に示すように、上述したビデオデータを保持する記憶部 1 1 と、この記憶部 1 1からのビデオデータの内容の特徴を表してビデオ構造等を記述した特徴データを生成する生成手段である特徴データ生成部 1 2と、記憶部 1 1からのマルチメディァ . コンテンツをエンコードするエンコーダ 1 3 と、特徴データ生成部 1 2からの特徴データをェンコ一ドするエンコーダ 1 4とを備える。

また、受信装置 2 0は、同図に示すように、送信装置 1 0からのェンコ一ドされたマルチメディァ · コンテンツをデコードするデコ —ダ 2 1 と、送信装置 1 0からのェンコ一ドされた特徴データをデコードするデコーダ 2 2と、特徴データに基づいてビデオ構造を解折し、所望の内容をユーザに提供する復元手段である検索エンジン 2 3 とを備える。

このようなデータ送受信処理システムにおいて、送信装置 1 0は, 記憶部 1 1に保持されたビデオデータのビデオ構造等を記述する特徴データを生成し、図示しない伝送路を介して、この特徴データをビデオデータとともに受信装置 2 0へ送信する。そして、受信装置 2 0は、受信した特徴データに基づき、受信したビデオデータのビデォ構造を回復し、例えば、上述した各シーンを代表する一連のフレームを閲覧可能としたデータであるストーリーボ一ド等を生成する。

このことにより、データ送受信処理システムにおいては、例えば、ユーザが受信装置 2 0における検索エンジン 2 3を介して、ビデオデータにおける所望の内容を見たいという要求を受信装置 2 0に与えると、受信装置 2 0は、検索エンジン 2 3によって、回復されたビデオデータのビデオ構造を解析し、所望の内容をユーザに提供することができる。したがって、ユーザは、ビデオデータに対して容易で且つ個人的にアクセスすることが可能となり、ブラウジングを効率よく行うことができる。

このように、ビデオデータの内容から抽出された低レベルの特徴を用いて高レベルのビデオ構造を抽出するための特徴データの記述内容について詳細に説明する。

まず、ビデオデータのビデオ構造等を記述するのに必要となる特徴項目をディスクリプタ（Descriptor) 、さらに、これらのデイスクリプタの構造化された集合体をディスクリプシヨン ' スキーム

(Description Scheme) と称することとする。本発明において、このディスクリプション · スキームは、ビデオデータにおける映像と音声との両方の特徴に基づいてビデオデータの基本的な構造を記述するためのビデオ ' コア ' ディスクリプション · スキーム（Video Core Description Scheme；以下、 V C Sと略記する。）と、この V C Sを、ビデオ構造を視覚化するのに必要なディスクリプタにより拡張し、特にビデオデータのブラゥジングでの使用を目的としたビデォ ■ ブラウジング ■ ディスクリプション ■ スキーム（Video Brow sing Description Scheme；以下、 V B Sと略記する。）と力らなる,

V C Sは、ビデオデータにおける様々なビデオ構造を捉えるために使用されるものであって、ビデオデータにおける映像セグメント及び音声セグメントの構造とそれらの相互関係との記述を可能とするものである。 V C Sでは、ビデオデータにおける互いに類似するセグメントをまとめて形成された類似セグメント構造と、時間的に連続したセグメントの集合である時間セグメント構造と、セグメント間の論理的関係に基づく論理セグメント構造という 3つの異なる構造を記述するためのディスクリブシヨン ' スキームが、単一のデイスクリプシヨン ' スキームとして調和的に統合されている。また、 V C Sは、ビデオデータの低レベルから意味的構造までの様々なレベルにおけるビデオ構造の記述を可能とする。すなわち、 V C Sは、構造化されたビデオデータにおける様々な詳細レベルにおいて、ビデォデータに関する様々な情報にアクセスすることを可能とする。一方、 V B Sは、ビデオデータを論理的に再構成して、視聴者がその内容を理解し、興味がある部分を見出すことを可能とするものである。また、 V B Sは、フレームのような低レベルのみではなく、シーンのような高レベルについても、類似性に基づく検索を可能とするものである。

本発明におけるディスクリプタは、複数の属性を有する構造体であって、下位要素として自らを含めた他のディスクリプタ及び /又は特定の属性が定義されることにより構成される。以下、本発明におけるディスクリプタを、図 3に示すような記述フォ一マツトにしたがって説明する。同図に示す記述フォーマットにおいて、デイスクリプタ（Des cr iptor) は、当該ディスクリプタ名を表し、スーパ —クラス（Superc l as s ) は、当該ディスクリプタの上位クラスのデイスタリプタ名を表し、フィーチャ（Feature) は、下位要素のディスクリプタ及び/又は属性を表し、フィーチャタイプ（Feature Ty pe) は、フィ一チヤのデータ型を表すこととなる。なお、必要に応じて、実例値（Examp l e Va lue) として、下位要素のフィーチャの数値例を与える。

ここで、上述したスーパークラスとして示される上位クラスのデイスクリプタとは、いわゆるオブジェクト指向表現において、当該ディスクリプタが継承する元のディスクリプタを指す。すなわち、本発明におけるディスクリプタは、オブジェクト指向表現により記述され、下位のディスクリプタは、その上位となるディスクリプタの機能を継承することとする。このことにより、これらのディスクリプタは、高度な機能を有するものへと容易に拡張することができ、このディスクリプタを用いて記述される特徴データを、より簡便に構成することができる。本発明における全てのディスクリプタの継承関係を図 4に示す。

本発明における全てのディスクリプタは、同図に示すように、 V C S或いはその拡張ディスクリブシヨン ■ スキームである V B Sのいずれかに属し、全体として 1つの体系を形成する。

すなわち、 V C Sに属するディスクリプタとしては、オーディオ ' ビジユアノレ ' エレメント（Audio Visual Element；以下、 AVェレメント又は AV E l e m e n t と略記する。）と、オーディォ - ビジュアル ' セグメント（Audio Visual Segment ；以下、 AVセグメント又は A V S e g m e n t と略記する。）と、オーディォ · ビジュアル . ァブストラタト（Audio Visual Abstract ；以下、 A Vァブストラクト又は AVA b s t r a c t と略記する。）と、オーディォ · ビジユアノレ■ プロトタイプ（Audio Visual Prototype；以下、 AVプロトタイプ又は A V P r o t o t y p e と略記する。）と、ハイアラキ（Hierarchy) と、クラスタ（Cluster) と、コンポジッド ' セグメント（Composite Segment) と、オーディオ · ビジユアノレ ' グラフ（Audio Visual Graph；以下、 AVグラフ又は AVG r a p h と略記する。）と、オーディオ ' ビジュアル ' グラフエッジ (Audio Visual Graph Edge；以下、 A Vグラフエツジ又は A V G r a p h E d g e と略記する。）と、シグネチヤ（Signature) と、テンポラル · シグネチヤ（Temporal Signature) と、アクティビティ • レべノレ（Activity Level) と、ウェイト ·ベタトノレ（Weight Vec tor) と、コンセプト（Concept) とがあり、コンセプトが参照可能な情報として XML， RD Fがある。

一方、 V B Sに属するディスクリプタとしては、シノプシス（Sy nopsis) と、カラー (Color) と、カフ一 ' ス^ ス (Color Spac e) と、カラー - シグネチヤ (Color Signature) と、才ーディ才 ' フレーム（Audio Frame；以下、音声フレームと略記する。）と、ビジュアル . フレーム（Visual Frame；以下、映像フレームと略記する。）と、ブラウジング ' ノード（Browsing Node) と、ショット (Shot) と、シーン (Scene) と、プログラム (Program) と力ある。ここで、同図中において、 △が付随しているディスクリプタは、ディスクリプタ間の継承関係における上位クラスのディスクリプタであることを示し、 ◊が付随しているディスクリプタは、それと接続しているディスクリプタに属性を与えるディスクリプタであることを示している。すなわち、ディスクリプタ間の関係において、 A Vセグメントと、 A Vァブストラクトと、ハイァラキと、クラスタと、 A Vグラフとにおける継承元のディスクリプタは、 AVエレメントである。また、ディスクリプタ間の関係において、 AVグラフに属性を与えるディスクリプタは、 AVグラフエッジである。同様に、他のディスクリプタについても、継承元のディスクリプタと、属性を表すディスクリプタとを示すことができる。

以下、これらのディスクリプタについて順次説明していく。なお、以下の議論の中では、ビデオデータは、 1つの映像ストリームと 1 つの音声ストリームとが存在するものとして説明を進めるが、本発明におけるディスクリプション · スキームは、ビデオデータ中に任意の数の映像ストリームと音声ストリームとが含まれているような一般的な場合も取り扱うことができるものである。

まず、 V C Sに属するディスクリプタとして、 A Vエレメント ' ディスクリプタについて説明する。この A Vエレメント ' ディスクリプタは、映像音声ストリームの内容解析を行うための論理ュニットを表す抽象的なディスクリプタである。ここで、 A Vエレメントの定義は、映像フレームのような基本的な解析ユニット、ショットやシーンのような高レベルの構造ユニット、若しくは、或る俳優が登場する全てのフレーム等といった分類法に基づくユニット等、映像音声ストリ一ム内における任意のュニットを表すものとする。

このような A Vエレメント ' ディスクリプタの記述フォーマツトは、図 5に示すようなものになる。この A Vエレメント ' ディスクリプタは、映像音声ストリームの内容を記述するための抽象的なェレメントを与える。すなわち、 V C Sにおいて、映像音声ストリームの内容の何らかの側面を記述する他の全てのディスクリプタは、この A Vエレメント · ディスクリプタを継承することとなる。 A V エレメント ' ディスクリプタは、特徴データとして、実際のビデオデータを指してもよく、或いは、ビデオデータの内容を記述するために作られた抽象的或いは解析的構成物を指してもよい。

つぎに、 A Vセグメント ·ディスクリプタについて説明する。 V C Sにおいて最も重要なディスクリプタは、この A Vセグメント - ディスクリプタである。ここで、 A Vセグメントとは、少なくとも 1つ以上の映像音声ストリームを含むビデオストリームを部分的に区切ったもの、すなわち、セグメントである。このセグメントは、ビデオデータに付随された統一的な時間情報を用いて指定してもよく、または、ビデオデータに統一的に付けられたフレーム番号等を用いて指定してもよい。

このような AVセグメント ' ディスクリプタの記述フォーマツトは、図 6に示すようなものになる。この A Vセグメント ' ディスクリプタは、上位クラスである AVエレメント ' ディスクリプタを継承している。また、 AVセグメント ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型がポジシヨン（Position) であり、ビデオデータ内での当該セグメントの開始位置を示すスタートポイント（Start Point) と、その型がボジシヨン（Position) であり、ビデオデータ内での当該セグメントの終了位置を示すエンドポイント（End Point) と、その型がストリーム参照（Streamref) の集合であり、対象ビデオデータへの参照を示すストリームズ（Streams) と、その型が A Vアブストラクト（A VAbstract) の集合であり、当該セグメントの映像音声上の内容要約を示し、実例値としてキ一フレーム（Key frame) が挙げられるアブストラクト（Abstract) と、その型がコンセプト（Concept) の集合であり、当該セグメントの概念的な内容を与える 0個以上の注釈を示し、実例値として当該セグメントの R D Fに基づく構造記述データへの参照が挙げられるコンセプト（Concept) とを有する。

AVセグメントは、それ自体としては、それが扱うセグメントの詳細レベルに制限はない。すなわち、 A Vセグメントは、例えば、単一の映像フレームのような低レベルセグメントから、テレビ番組中におけるコマ一シャノレのような高レベルセグメントまで、様々な詳細レベルのセグメント表すのに用いることができる。

ここで、映像ストリーム及び音声ストリ一ムにおける最小の A V セグメントを、それぞれ、映像フレーム及び音声フレームと称する映像ストリームにおいて、映像フレームとは、上述したように、単一の静止画像を示す。一方、音声ストリームにおいて、音声フレームとは、単一の音声サンプリング値ではなく、解析を可能とするに足る音声サンプリング値の集合である。 V C Sにおいては、映像フレーム及び音声フレームは、 A Vセグメントの最も基本的なノードとして取り扱われる。 A Vセグメントのその他の例としては、ショットゃシーン等がある。

なお、同図におけるポジション（Pos i t i on) は、時間情報を表現することが可能である任意のデータ型であり、その唯一の必要条件は、それが継続時間の計測を可能とし、且つビデオデータ内の全てのストリームについて共通の時間軸を与える数量スケールであることである。具体例としては、ビデオデータの開始からの時間を秒単位で計測したものが挙げられる。また、 Streamrefは、複合ストリーム ■ マルチメディァ文書内の単一ストリームへの参照を可能とする任意のデータ型である。

つぎに、 A Vアブストラクト · ディスクリプタについて説明するこの A Vァブストラクト ' ディスクリプタの記述フォーマットは、図 7に示すようなものになる。この A Vァブストラクト ■ ディスクリプタは、上位クラスである A Vエレメント ' ディスクリプタを継承している。

A Vァブストラクト · ディスクリプタは、 A Vエレメントの内容の要約を与えるものである。例えば、或る A Vエレメントにおいて、それを代表するような下位の A Vエレメント（例えばこの A Vエレメントがシーンを指すならば、下位の A Vエレメントはシヨットとなる。）を選択すれば、これを当該 A Vエレメントの要約となる場合もある。

ところで、 A Vアブストラクト · ディスクリプタで示される要約とは、それが代表するところの AVエレメントの内容を代替して表現するものである。 VC Sにおいて、この A Vアブストラクト ' デイスタリプタの最も重要な使用方法は、類似 AVエレメントの検索等において、その要約を比較するだけで、目的の AVエレメントの同定を可能とすることである。すなわち、この要約とは、 AVエレメントの検出、比較、検索等を行うためのキーとしての役割を果たすものである。

つぎに、 AVプロトタイプ ' ディスクリプタについて説明する。この AVプロトタイプ . ディスクリプタの記述フォーマツトは、図 8に示すようなものになる。この AVプロトタイプ · ディスクリプタは、上位クラスである A Vァブストラクト ' ディスクリプタを継承している。また、 AVプロトタイプ ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が文字列（String) であり、この AVプロトタイプ . ディスクリプタが示す A Vエレメントの種類を示し、実例値としてショット（Sho t) 、シーン（Scene) 若しくは映像フレーム（VisualFrame) が挙げられる種別（Kind) と、その他必要に応じて、その型が任意のディスクリプタである複数の特徴（Featurel, · · · , Featuren) と、その型が重みべクトル（Weight Vector) であり、当該 A Vプロトタイブ · ディスクリプタが下位要素として持つ特徴の重要度の重み付けを示すウェイト（Weights) とを有する。

AVプロトタイプは、対象とする AVエレメントの概略を与える。 V C Sにおいては、この A Vプロトタイプによって、或る型の A V エレメントの概略を、ディスクリプタ値の集合として記述することができる。別の見方をすれば、或るプロトタイプ ' エレメントは、それが示す A Vエレメントに含まれる任意数の具体的要素或いはその解析物によって、その A Vエレメントの概略を与えるものである _c ここで、解析物の例として、図 9に示すように、例えば或る単一のショットにおいて、そのショットが含む全ての画像を考える。この画像グループについて、プロトタイプとしての画像を定義したい場合、画像グループの中の或る画像を用いる代わりに、ショット中の全画像の平均値画像を求めることによって、この平均値画像を、プロトタイプ中の特徴値として用いることができる。

一方、 A Vプロトタイプ · ディスクリプタは、例えばシヨットやシーンといったビデオデータの構造解析の際に使用されるセグメントを代表するフレームを示すこともある。例えば、後述するように- 複数のショットに対し、各ショットにおける特徴値として、それらが A Vプロトタイプとして示した映像フレームに関する特徴値を抽出して比較し、時間的に近接して類似したショットを検出して繰り返しまとめていくことによって、最終的にシーンを生成することができる。

つぎに、ハイアラキ · ディスクリプタについて説明する。ビデオデータにおいて互いに類似する或いは関連する映像セグメントゃ音声セグメントを一緒にグループ化することは、内容に基づく検索やブラウジングのためにビデオデータを階層構造化する基本的な方法である。そこで、 V C Sにおいては、ツリーに基づく階層構造を用いることにより、構造内の様々な詳細レベルにおいて、映像セグメントゃ音声セグメントの集合のグループ化を表すことを可能としている。この階層構造は、以下の特徴を提供する。すなわち、第 1の特徴としては、様々な詳細レベルでのアクセスを可能とすることであり、第 2の特徴としては、上位レベルにおいて内容要約を提供することである。また、第 3の特徴としては、階層的分類法を提供することであり、第 4の特徴としては、高レベルの層において、近似的に意味論的分類を提供することである。

ハイアラキ · ディスクリプタの記述フォ一マットは、図 1 0に示すようなものになる。このハイアラキ ' ディスクリプタは、上位クラスである A Vエレメント ' ディスクリプタを継承している。また、ハイアラキ 'ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィーチャとして、その型がクラスタ（Cluster) であり階層の起点を示すルート（Root) と、その型が文字列（Str i ng) であり、階層の種類を示す種別（Kind) とを有する。

このようなハイァラキ · ディスクリプタは、関連した或いは類似した複数の A Vエレメントを 1つの階層構造としてまとめた結果そつぎに、クラスタ ' ディスクリプタについて説明する。このクラスタ · ディスクリプタの記述フォーマットは、図 1 1に示すようなものになる。このクラスタ ' ディスクリプタは、上位クラスである A Vエレメント ■ ディスクリプタを継承している。また、クラスタ •ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィーチャとして、その型が A Vエレメント（AVElement) の集合であり、このグループ内に直接含まれる複数の A Vエレメントを示すメンバー（Members) と、その型が A Vアブストラクト（AVAbstrac t) であり、このクラスタに含まれるメンバーのうち、このクラスタを代表する典型的なメンバ一を表す値を示すアブストラクト（Abst ract) とを有する。

このようなクラスタ ' ディスクリプタは、関連した或いは或いは類似した A Vエレメントを一緒にグループ化して、 1つのまとまりを形成することを表すものである。この定義は再帰的であって、或るクラスタは、メンバーとして他のクラスタを含んでもよい。その場合、それらのクラスタ群は、階層的な分類構造を構成することとなる。

このクラスタ · ディスクリプタを用いることによって、例えば図 1 2に示すように、セグメント間の類似性（similarity) を基にしたセグメントのクラスタリングを行い、その結果を記述することができる。具体的には、クラスタ ' ディスクリプタを用いることによつて、後述するように、類似性に基づくショットのクラスタリングを行うことができる。

このような類似性によるッリ一構造を構成する方法としては、多数のものが知られており、例えば、凝集階層クラスタリング法（ag glomerative hierarchical clustering methods) 等力あ o。

つぎに、コンポジッド ' セグメント · ディスクリプタについて説明する。類似性に基づく階層的分類は、セグメント間の時間的順序とは無関係に構築されたものである。そこで、ビデオデータの時間的階層構造を与える目的で、コンポジッド · セグメントを導入する。ここで、コンポジッドとは、例えば図 1 3に示すように、時間軸上に並ぶ A Vエレメントから形成される階層構造を表現するものである。コンポジッド . セグメント ·ディスクリプタの記述フォーマットは、図 1 4に示すようなものになる。このコンポジッド 'セグメント ■ ディスクリプタは、上位クラスである A Vセグメント ' ザイスクリプタを継承している。また、コンポジッド ' セグメント ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が A Vセグメント（AVSegment) の集合であるコンポーネント（Components) を有する。なお、このコンポジッド ' セグメント · ディスクリプタは、特別な種類の A Vセグメント ' デイスクリプタであり、上述したコンポーネントの導入によって、セグメンテーションが繰り返し生起される様子を表現することができる。

コンポジッド · セグメント · ディスクリプタは、 A Vセグメントの時間軸上のシーケンスが、互いに類似するサブシーケンス或いは関連するサブシーケンスに分割される様子を記述する。このコンポジッド . セグメント ■ ディスクリプタを用いることによって、ビデォデータの構造を時間軸上のッリ一構造として記述することができる。具体的には、コンポジッド 'セグメント ' ディスクリプタを用いることによって、後述するように、類似するセグメントをグループ化してクラスタリングした結果をシーンとして記述したり、シ一ンをさらにクラスタリングして、ビデオデータ全体の構造をッリ一構造として記述することができる。

つぎに、 A Vグラフ 'ディスクリプタ及び A Vグラフエッジ · デイスタリプタについて説明する。ビデオデータの論理的構造を捉えるために、 A Vグラフを導入する。なお、ここでは、 A Vグラフを、 A Vグラフエッジにより構成されるグラフと定義する。また、ここでは、 A Vグラフエッジを、各節点が A Vエレメントを表し、節点を結ぶ枝（edge) 、一方の A Vエレメントから他方の A Vエレメントへの関係を表すグラフエッジと定義する。

この A Vグラフは、 A Vエレメント間の異なる種類の関係を示すラベルの付いた枝を有するグラフエッジの集合体として、各 A Vェレメントが互いに結合される様子を記述する。

このような A Vグラフ · ディスクリプタの記述フォーマツトは、図 1 5に示すようなものになる。この A Vグラフ 'ディスクリプタは、上位クラスである A Vエレメント ' ディスクリプタを継承している。また、 A Vグラフ ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が複数の A Vグラフエッジ（AVGraphEdge) の集合であり、その A Vグラフを構成する A Vグラフエッジを示す枝（Edges) と、その型が文字列（Strin g) であり、その A Vグラフの種類を示す種別（Ki nd) とを有する。

この A Vグラフ ■ ディスクリプタによって、ビデオデータの繰り返し構造が記述できるようになる。具体的には、 A Vグラフ · ディスクリプタによって、後述するように、検出したシーンの内容を、そのシーンの繰り返し構造として記述することで、ビデオデータ全体の構造解析を行うことを可能とする。例として、図 1 6 Aに示すような会話場面を形成する一連のショットにおける 2つの異なる A Vグラフを図 1 6 B及び図 1 6 Cに示す。図 1 6 Bに示す例は、単純な直線的構造を示すものであり、図 1 6 Cに示す例は、話し手に応じて交代するショットという特徴を有する意味的構造を示すものである。

一方、 A Vグラフエッジ ' ディスクリプタの記述フォーマットは、図 1 7に示すようなものになる。この A Vグラフエッジ ■ ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が A Vエレメント（AVElement) であり、この枝の起点エレメントであることを示すソース（Source) と、その型が A V エレメント（AVElement) であり、この枝の終点エレメントであることを示すターゲット（Target) と、その型が文字列（String) であり、この枝に結合されたエレメント間の関係の種類を表すラベル ( Labe l ) とを有する。

このような A Vグラフエッジ · ディスクリプタは、 2つの A Vェレメン卜の間の有向関係 ( directed connect ion) を表す。

ここで、全ての A Vグラフエッジは、或る特定の A Vグラフに属する。また、同じ A Vエレメントが、異なる A Vグラフに属することもあり得る。さらに、同じ A Vエレメントが、異なる A Vグラフに属しつつも、互いに結合されることもあり得る。

なお、 A Vグラフの定義においては、節点が参照できる A Vエレメントの型について、何ら特定の制約をも課さない。すなわち、節点は、 A Vプロトタイプをも参照することができる。そのような場合には、その A Vグラフは、 A Vプロトタイプ · グラフと称され、ビデオデータの構造の原型（prototype) を表す。このような構造を用いて、例えばテレビのニュース番組における構造を表すことができる。

また、 A Vグラフは、 1つのグラフ中の節点が、他のまとまったグラフを示すような入れ子構造になった A Vグラフを形成することを許容する。これにより、 A Vグラフは、様々なレベルで表現された構造を捉えることを可能とする。つぎに、シグネチヤ ' ディスクリプタについて説明する。このシグネチヤ · ディスクリプタの記述フォーマツトは、図 1 8に示すようなものになる。このシグネチヤ · ディスクリプタは、上位クラスである AVァブストラクト · ディスクリプタを継承している。また、シグネチヤ · ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィーチャとして、その型が重みベクトル（WeightVect or) であるウェイト（Weights) と、その型が AVエレメント（AVE lement) の集合であり、それぞれの重み付けがウェイト（Weights) により 1対 1に示されるところのメンバー（Members) と、その型が文字列（String) であり、シグネチヤの種類を示す種別（Kind) とを有する。なお、シグネチヤの比較は、その種別が等しい場合のみ有効である。

このシグネチヤ · ディスクリプタは、代表的な複数の A Vエレメントと、それぞれのエレメントの重み値（Weights) の組み合わせにより、それが示すところの AVエレメントの静的な内容を代表してこのシグネチヤの第 1 の例としては、ショット ■ キーフレーム (Shot Key Frames) がある。ショット ' キーフレームとは、コンテンッから抽出された各ショットを代表する複数のフレームである。各キーフレームの重みは、そのショットを代表するフレームにおいて、それぞれがどの程度重要であるかを示す指標となる。

また、シグネチヤの第 2の例としては、プログラム · シグネチヤ (Program Signature) がある。プログラム · シグネチヤとは、或るプログラムの特徴を強く表すショットの組である。例えば、ニュースプログラムを考えたとき、オープニングの口ゴが出現するショット、キャスターのショット、最後のロゴのショット等がそのニュースプログラムの特徴を最も表したものとして使用できる。

つぎに、テンポラル · シグネチヤ ' ディスクリプタについて説明する。このテンポラル ' シグネチヤ · ディスクリプタの記述フォーマットは、図 1 9に示すようなものになる。このテンポラル ' シグネチヤ ' ディスクリプタは、上位クラスである A Vアブストラクト -ディスクリプタを継承している。また、テンポラル ' シグネチヤ - ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィーチャとして、その型が重みベクトル（We i ghtVector) であり、対象とする A Vエレメントにおいて、各部分 A Vエレメントが占める相対的継続時間を示すタイム（Time) と、その型が A Vエレメント（AVElement ) のシーケンスであり、対象とする A Vエレメントを代表する部分 A Vエレメントの時間軸に沿ったシーケンスであるメンバー（Members) と、その型が文字列（Str ing) であり、テンポラノレ · シグネチヤの種類を示す種別（Kind) とを有する。なお、テンポラル . シグネチヤの比較は、その種別が等しい場合のみ有効である。

このようなテンポラル · シグネチヤ · ディスクリプタは、そのメンバーである複数の代表的な部分 A Vェレメントのシーケンスにより、当該テンポラル ' シグネチヤ ' ディスクリプタが対象とする A Vエレメントの動的な内容を代表して表すものである。なお、それぞれの部分 A Vエレメントに対しては重み係数が与えられており、それは、各 A Vエレメン卜の相対的な継続時間に基づく。

ところで、対象とする A Vエレメントを代表するのに必要な部分 A Vエレメントの数は、当該 A Vエレメントそれ自体の動的変化の程度と、必要とする内容の細かさとの両方に依存する。例えば、当該 A Vエレメントの変化が非常に少ない場合、これは 1つの部分 A Vエレメントで代表させることができる。一方、当該 A Vエレメントの変化が激しい場合には、その変化を正確に表すために、多数の部分 A Vエレメントを要することとなる。

さて、テンポラル · シグネチヤの第 1の例としては、ショット - テンポラノレ - シグネチヤ (Shot Temporal Signature) 力ある。このショット ' テンポラル · シグネチヤは、ショットが含む複数のキーフレームの並びであって、これによりショットを特徴付けること力 S できる。

また、テンポラル ' シグネチヤの第 2の例としては、テレビジョン - プログラム · テンポラノレ■ シグネチヤ（Television Program T emporal Signature) がある。このテレビジョン . プログラム . テンポラル · シグネチヤは、プログラムから抜き出したそのプログラムの特徴を表すキ一ショットの組である。例えば、ニュースプロダラムの場合には、代表的なロゴの或るショット、キャスターのショット、スポーツのショット、天気予報等が、当該ニュースプログラムの特徴をよく表したものとして使用することができる。

ところで、上述したシグネチヤとこのテンポラル■ シグネチヤとは、ともに、重み付けされた部分 AVエレメントにより構成される。しかしながら、シグネチヤとは異なり、テンポラル . シグネチヤは、そのメンバー間に時間的順序を有している。すなわち、テンポラル

• シグネチヤは、それが含む A Vエレメントが時間の経過にともなつて提示されることとなる部分 A Vエレメントのシーケンスを記述する。ここで、重み係数は、各部分 AVエレメントがどの程度の (相対的）時間を必要とするかを示す指標である。

つぎに、その他のディスクリプタとして、ァクティビティ ■ レべノレ ' ディスクリプタと、ウェイト ·べクトル 'ディスクリプタと、コンセプト · ディスクリプタとについて説明する。

アクティビティ · レベル · ディスクリプタの記述フォーマットは、図 2 0に示すようなものになる。このアクティビティ · レベル - デイスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が 0以上 1以下の実数（Rea l ) であり、 0はァクティビティがないことを示すとともに、 1はァクティビティ力 s 最大であることを示すアクティビティ · レベル（Act i v i tyLeve l ) を有する。

このァクティビティ · レベル ' ディスクリプタは、 A Vエレメントにおける A Vオブジェクトの活動量の度合いを表す。なお、ァクティビティ · レベル ' ディスクリプタの生成方法は、アプリケーションに依存する。

ここで、映像セグメントを考えた場合、映像セグメント中の活動量は、様々な方法で測定することができる。例えば、活動量は、セグメント内の隣接フレーム間の映像オブジェクト平均距離や、セグメント内で生起する全体的な動き量或いは運動量等の測定により求めることができる。

このアクティビティ · レベル ' ディスクリプタによって、後述するように、映像及び音声の特徴を記述することができる。すなわち、アクティビティ · レベル■ ディスクリプタは、ビデオデータの内容の変化の大きさを測るパラメータとして利用できる。

また、ウェイト .ベクトノレ . ディスクリプタの記述フォ一マツトは、図 2 1に示すようなものになる。このウェイト ·べクトノレ ' デイスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ

—チヤとして、その型が実数の n次元ベクトル（Real[n]) であるゥエイト（Weights) と、その型が論理値（Boolean) であり、ウェイト（Weights) に含まれる値が正規化された値か否かを示すフラグである正規化（Normalized) とを有する。なお、ウェイト（Weights) には、制約条件を課すことができる。

このウェイト 'べクトル ' ディスクリプタは、 AVエレメントに適用される重み係数の n次元べクトルを表す。このウェイト 'べクトル ' ディスクリプタによって、ビデオデータの特徴抽出の結果得られたパラメータの重み付けを指定することができる。

さらに、コンセプト ' ディスクリプタの記述フォーマツトは、図 2 2に示すようなものになる。このコンセプト ·ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が R D Fや XM Lで記述されたデータへの参照を示すノ一ド等であるコンセプト（Concept) を有する。

このコンセプト ' ディスクリプタによって、 AVエレメントを、その概念的内容（conceptual contents) を記述したデータに結合することができる。 V C Sにおいては、この概念的内容の記述に関し、特定の手段を指定するものではない。

つぎに、 V C Sを拡張、又は継承した V B Sに属するディスクリプタ群について説明していく。

まず、 V B Sに属するディスクリプタとして、シノプシス ' ディスクリプタについて説明する。ここでは、ユーザに対して、ビデオデータをブラウジングするためのビデオ要約を提供するディスクリプタについて記述する。このシノプシス ' ディスクリプタの意図するところは、或るビデオデータの内容を要約した後、視聴者に対して、視覚的、聴覚的、又はその両方によりこれを提供する際に用いる A Vエレメントを記述することである。

このシノプシス ' ディスクリプタの記述フォーマットは、図 2 3 に示すようなものになる。このシノプシス · ディスクリプタは、上位クラスである A Vエレメント ' ディスクリプタを継承している。また、シノプシス · ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィーチャとして、その型が文字列（Str i ng) であり、シノプシスの種類を示す種別（K i nd) と、その型が A Vエレメント（AVE l ement ) のリストであり、そのシノプシスを構成する A Vエレメントの並びを示すシーケンス（Sequence) と、その型が論理値 ( Boo l ean) であり、シーケンス内の A Vエレメントの順序が重要かどうかを示すフラグである I s O r d e r dとを有する。

このシノプシス ' ディスクリプタは、ユーザに対して要約を提供する際に表示すべき A Vエレメント集合を示している。

一見すると、 A Vアブストラクトとシノプシスとは、同じような情報を表現していると思われる。しかしながら、そこには大きな違いがある。それは、シノプシスがユーザのために A Vエレメントを要約しているのに対し、 A Vアブストラクトにおいては、検索或いはオーディオ ' ビジュアルへの索引付け（indexi ng) 等のための要約を行っていることである。

想定されるシノプシスの第 1 の例としては、キーフレーム（Key frames ) の集合がある。これは、 A Vエレメントの概要を要約するための順序付けられたフレーム群である。また、第 2の例としては、ダイジェスト（Digest) がある。これは、 A Vエレメントの要約を提示するための順序付けられた A Vセグメント群であり、例えば、ビデオデ一タから切り出されたクリツプの並びである。

このシノプシス · ディスクリプタによって、ビデオデータの内容の概要が把握できるようになる。具体的には、シノプシス ' ディスタリプタによって、後述するように、検出したシーンを、そのシ一ンの代表フレームで代表させ、ストーリ一ボードとして表示することができる。

つぎに、カラー · ディスクリプタについて説明する。カラー ' デイスタリプタの記述フォーマットは、図 2 4に示すようなものになる。このカラー ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が実数の 3次元べクトル

(Real[3]) であり、各要素が 0以上 1以下の範囲で表現された色彩要素値を示すカラー（Color) を有する。

このカラ一 · ディスクリプタは、色彩を 3つの異なる実数で表現する。各値は、色彩空間における 3軸に相当する。

つぎに、カラー ' スペース ' ディスクリプタについて説明する。カラー ' スペース ' ディスクリプタの記述フォーマツトは、図 2 5 に示すようなものになる。このカラー ' スペース ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が文字列（String) であり、色彩空間の名称を示すカラー - スペース（ColorSpace) を有する。

なお、ひとつの色彩は、様々な異なる色彩空間で符号化することができる。これより、 V B Sにおいては、カラー ' スペース ' ディスクリプタを用いることによって、カラー ' ディスクリプタの意味をどう解釈するかを決定する。

つぎに、カラ一 ' シグネチヤ ' ディスクリプタについて説明するカラー . シグネチヤ ' ディスクリプタの記述フォーマットは、図 2 6に示すようなものになる。このカラー ' シグネチヤ ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型がカラー ' スペース（ColorSpace) であり、当該カラ一 · シグネチヤ · ディスクリプタが計算された色彩空間を示すカラ一 ' スペース（ColorSpace) と、その型がカラー型のベクトノレ（Co lor[n]) であり、このシグネチヤを定義する色の集合を表すカラー

(Colors) と、その型が重みべクトノレ（WeightVector) であり、各カラー（Colors) のシグネチヤに対する重み付けを示すウェイト

(Weights) とを有する。

このカラー · シグネチヤ · ディスクリプタは、色ヒストグラムを一般化したものを表している。概念上、ヒストグラムとは、色彩を何らかのカテゴリに分類し、或るィメージ内におけるピクセルのそれぞれのカテゴリにおける出現頻度を表したものとみなすことができる。そこで、カラー ' シグネチヤにおいては、この方法を一般化し、任意の b i n (色空間における最小分割領域）の設定を可能としたものである。なお、各 b i nは、その領域における代表的な色で表現される。

例えば、或るカラーイメージが与えられ、このイメージで使用されているカラ一をカラー · シグネチヤとして記述したい場合を考える。まず、カラ一を表す色彩空間を幾つかの領域に分割する。次に、それぞれのカラ一領域へ、ィメ一ジ内のピクセルを分類していく。その結果得られるピクセル出現頻度の相対的割合がウェイト（Weig hts) となる。

つぎに、構造ディスクリプタとして、音声フレーム 'ディスクリプタと、映像フレーム ' ディスクリプタと、ブラウジング ' ノード ' ディスクリプタと、ショット 'ディスクリプタと、シーン ' ディスクリプタと、プログラム ' ディスクリプタとについて説明する。ビデオデータは、上述したように、 4層の階層構造として構築される。すなわち、ここでは、フレーム（音声フレーム及び映像フレーム）、セグメント、シーン、プログラムである。

音声フレーム · ディスクリプタの記述フォ一マットは、図 2 7に示すようなものになる。この音声フレーム ' ディスクリプタは、上位クラスである A Vセグメント ·ディスクリプタを継承している。また、音声フレーム ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、同図では省略しているが、例えば音声フレームのスぺクトラムを記述可能とするフィーチャを始め、音声情報の記述、解析等に関わる任意のフィーチャを有するこの音声フレーム ■ ディスクリプタは、単一の音声フレームに相当する A Vセグメントを表す。

一方、映像フレーム ' ディスクリプタの記述フォーマットは、図 2 8に示すようなものになる。この映像フレーム ' ディスクリプタは、上位クラスである A Vセグメント ' ディスクリプタを継承している。また、映像フレーム ' ディスクリプタは、下位要素のデイスクリプタ或いは属性を示すフィーチャとして、その型がカラー ■ シグネチヤ（ColorSi gnature) であり、そのフレームの色特徴を示すカラー（Co lor) を有する。この映像フレーム 'ディスクリプタは、 A Vセグメントの特別な場合として、単一の映像フレームを表す場合に用いられる。

また、ブラウジング ' ノード ' ディスクリプタの記述フォーマツトは、図 2 9に示すようなものになる。このブラウジング · ノード -ディスクリプタは、上位クラスであるコンポジッド ■ セグメント 'ディスクリプタを継承している。また、ブラウジング ' ノード ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィーチヤとして、その型が A Vハイアラキ（AVHi erarchy) の集合であり、その下層にあるサブエレメントを用いて当該 A Vセグメントの内容のインデックス化をする際に用いる階層的分類の集合を示し、実例値としてビデオデータにおけるショットの分類階層構造が挙げられるインデックス（Index) と、その型が A Vシノプシス（AVSyn ops i s) の集合であり、ビデオデータの或る一部分における要約を示し、実例値としてキーフレームの並びが挙げられるシノプシス（Sy nops i s ) と、その型が A Vグラフ（AVGraph) であり、ビデオデータの或る一部分における構造を示す構造（Structure) とを有する。このブラウジング ' ノード ' ディスクリプタは、ブラウジングにて使用される様々なビデオ構造のュニットを提供するための共通の抽象クラスである。

このブラウジング ' ノード ' ディスクリプタから継承されるディスクリプタを用いることによって、ビデオデータの内容を具体的に記述することができる。以下、これらのディスクリプタについて順次説明する。

まずはショット · ディスクリプタである。ショット ■ディスクリプタの記述フォーマットは、図 3 0に示すようなものになる。このショット . ディスクリプタは、上位クラスであるブラウジング · ノ —ド ' ディスクリプタを継承している。また、ショット ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型がアクティビティ · レベル（ActivityLevel) でありそのショットのアクティビティ ■ レベルを示し、実例値として例えば 0. 5が挙げられるアクティビティ（Activity) と、その型が A Vセグメントを継承する任意のディスクリプタ（FromAVSegment) であり、そのショットの内容の要約を示すアブストラクト（Abstrac t) と、その型がブラウジング ' ノードを継承する任意のディスクリプタ（FromBrowsingNode) であり、音声フレーム及び Z又は映像フレームの並びから構成される Synopsis型の要約を示すシノプシス (Synopsis) と、その型がブラウジング ' ノードを継承する任意のディスクリプタ（FromBrowsingNode) であり、音声フレーム及び Z 又は映像フレームの分類構造として構成される当該ショットへのィンデックスを示すインデックス（Index) とを有する。なお、これらのフィーチャのうち、インデックスの指定は、必ずしも行う必要はない。また、アブストラクトは、当該ショットに対し、次のような内容要約を与えることを可能とする。まず第 1 としては、音声フレーム、映像フレーム、 AVプロトタイプを要素とするテンポラル ' シグネチヤを用いた内容要約であり、第 2としては、音声フレーム、映像フレームを要素とするシグネチヤを用いた内容要約である。

このシヨット ' ディスクリプタは、ォ一ディォ■ ビジュアル · ュニッ卜の最低レベル、すなわち、ショットを表す。

次にシーン ·ディスクリプタである。シーン · ディスクリプタの記述フォーマットは、図 3 1に示すようなものになる。このシーン 'ディスクリプタは、上位クラスであるブラウジング ' ノード ' デイスクリプタを継承している。また、シーン ' ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が文字列（String) であり、対象とするシーンの種類を示し、実例値として DIALOGや CO删 ERCIALや ACTIONや ANCHORが挙げられる種別 (Kind) と、その型が A Vセグメントを継承する任意のディスクリプタ（FromAVSegment) であり、そのシーンの内容の要約を示すァブストラクト（Abstract) と、その型がブラウジング · ノードを継承する任意のディスクリプタ（FrotnBrowsingNode) であり、ショットの並びから構成される Synopsis型の要約を示すシノプシス（Syno psis) と、その型がブラウジング ' ノードを継承する任意のデイスタリプタ（FromBrowsingNode) であり、ショットの分類構造として構成される当該シーンへのィンデッタスを示すィンデッタス（Inde x) と、その型がブラウジング · ノードを継承する任意のディスクリプタ（FrotnBrowsingNode) であり、例として、ノードが類似ショットのクラスタを表し、リンクがクラスタ間の推移を表すような AV グラフを示す構造（Structure) とを有する。なお、アブストラクトは、当該シーンに対し、次のような内容要約を与えることを可能とする。すなわち、ショット又は AVプロトタイプを要素とするシグネチヤ或いはテンポラル■ シグネチヤを用いた内容要約である。

このシーン ' ディスクリプタは、意味的に関連するシヨットのまとまりであるシーンを表す。

さらに、プログラム ' ディスクリプタである。プログラム ' ディスクリプタの記述フォ一マツトは、図 3 2に示すようなものになる。このプログラム .ディスクリプタは、上位クラスであるブラゥジング - ノード ' ディスクリプタを継承している。また、プログラム · ディスクリプタは、下位要素のディスクリプタ或いは属性を示すフィ一チヤとして、その型が A Vセグメントを継承する任意のディスクリプタ（FromAVSegment) であり、そのシーンの内容の要約を示すアブストラクト（Abstract ) と、その型がブラウジング · ノードを継承する任意のディスクリプタ（FromBrows ingNode) であり、シーン或いはショットの並びから構成される Synops i s型の要約を示すシノプシス（Synops i s ) と、その型がブラウジング · ノードを継承する任意のディスクリプタ（FromBrows ingNode ) であり、ショット及びシーンの分類構造として構成される当該プログラムへのィンデッタスを示すインデックス（Index ) と、その型がブラウジング ' ノードを継承する任意のディスクリプタ（FromBrows i ngNode) であり、例として、ノードが類似シーンのクラスタを表し、リンクがクラスタ間の推移を表すような A Vグラフを示す構造（Struc ture) とを有する。なお、アブストラクトは、当該プログラムに対し、次のような内容要約を与えることを可能とする。第 1 としては、シーンを要素とするシグネチヤ或いはテンポラル ' シグネチヤを用いた内容要約である。第 2 としては、ショットを要素とするシグネチヤ或いはテンポラル · シグネチヤを用いた内容要約である。また、プロダラムへのィンデッタスは、全てのショットへの階層的ィンデックス及びノ又は全てのシーンへの階層的ィンデックスといった様々なレべルに対するインデッタスより構成される。

このプログラム ' ディスクリプタは、シーンの並びから構成されるプログラムを表す。

以上のようなディスクリプタの集合からなる V B Sにおいては、様々なブラウジングノードにおけるインデックスに含まれる情報を用いることによって、階層構造を有するビデオデータのオーディォ ' ビジュアル . インデックスを、様々な詳細レベルにおいて構築することが可能となる。例えば、プログラムにおいては、ビデオデータ内の全てのショットに対し、その類似性により分類された階層構造を構築することができる。これを基に、或る詳細レベル以上の情報を表示したい場合には、階層構造を指定された詳細レベルにて上下に分割し、その上の構造のみを用いればよい。さらに、分割詳細レベルの各ノ一ドにおける A Vエレメントのグループにおいて、各グループを代表するようなメンバーをそれぞれのグループから選択し、これを順次表示することによって、その詳細レベルにおけるプログラムの概要を与えることができる。

また、 V B Sにおいては、階層化ビデオ構造のそれぞれのレベルに関係付けられたシノプシスを用いることによって、そのビデオデータにおけるオーディオ · ビジュアルな目次を表示することができる。例えば、それぞれのレベルが以下の表 1で示すようなシノプシスを有する場合、これを目次として表示したいときには、各ショットを代表するキーフレームの中から、各レベルにおけるキーフレームを取り出すことで、オーディオ ' ビジュアルな目次を表示することができる。

表 1 ビデオ構造のレベルに対するシノプシスレベルシノプシスショ 'ソ卜 —連のキーフレーム

シーン一連のキーショッ卜

プログラム —連のキーシーン以下、ビデオデータから構造を抽出する具体的な処理と、このような処理に対応して、上述したディスクリプション · スキームとして定義される記述方法を用いてビデオ構造等を記述する特徴データとについて説明する。なお、ビデオデータから構造を抽出する処理は、上述したデータ送受信処理システムにおける送信装置 1 0及び受信装置 2 0の両方において行うことができる。ここでは、送信装置 1 0においてビデオデータからシーン構造を抽出するとともに、それに対応して特徴データを生成し、ビデオデータとともに特徴デ —タを受信装置 2 0へと送信するものとして説明する。

送信装置 1 0は、ビデオデータにおける映像セグメント及び音声セグメントの特徴量を用いてセグメント間の類似性を測定し、これらのセグメントをシーンにまとめることによって、ビデオ構造を自動的に抽出する。この際、時間的に近接して反復している類似したセグメントは、ほぼ同一シーンの一部であるため、送信装置 1 0は、このようなセグメントを検出してグループ化していくことによって、シーンを検出する。このような送信装置 1 0は、図 3 3に概略を示すような一連の処理を行うことによって、シーンを検出する。

まず、送信装置 1 0は、同図に示すように、ステップ S 1において、ビデオ分割を行う。すなわち、送信装置 1 0は、入力されたビデォデータを映像セグメント又は音声セグメントのいずれか、或いは可能であればその両方に分割する。送信装置 1 0は、適用するビデォ分割方法に特に前提要件を設けない。例えば、送信装置 1 0は、

G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communicat ion and Image Representation 7： 28-4, 1996" ίこ g己載されてレヽるような方法によりビデオ分割を行う。このようなビデオ分割の方法は、当該技術分野ではよく知られたものであり、送信装置 1 0は、いかなるビデオ分割方法も適用できるものとする。

次に、送信装置 1 0は、ステップ S 2において、特徴量の抽出を行う。すなわち、送信装置 1 0は、そのセグメントの特徴を表す特徴量を計算する。送信装置 1 0においては、例えば、各セグメントの時間長、カラーヒストグラムやテクスチャフィーチャといった映像特徴量や、周波数解析結果、レベル、ピッチといった音声特徴量や、アクティビティ測定結果等が、適用可能な特徴量として計算される。勿論、送信装置 1 0は、適用可能な特徴量としてこれらに限定されるものではない。

さらに、送信装置 1 0は、ステップ S 3において、特徴量を用いたセグメントの類似性測定を行う。すなわち、送信装置 1 0は、セグメント間の非類似性測定を行い、その測定基準によって、 2つのセグメントがどの程度類似しているかを測定する。送信装置 1 0は、先のステップ S 2において抽出した特徴量を用いて、非類似性測定基準を計算する。

そして、送信装置 1 0は、ステップ S 4において、セグメントのグループ化を行う。すなわち、送信装置 1 0は、先のステップ S 3 において計算した非類似性測定基準と、先のステップ S 2において抽出した特徴量とを用いて、時間的に近接して類似したセグメントを繰り返しまとめ、これらのセグメントをグループ化する。送信装置 1 0は、このようにして最終的に生成されたグループを検出シ一ンとして出力する。

このような一連の処理を経ることによって、送信装置 1 0は、ビデォデータからシーンを検出することができる。したがって、ユーザは、この結果を用いることによって、ビデオデータの内容を要約したり、ビデオデータ中の興味のあるポィントに迅速にアクセスしたりすることが可能となる。

以下、同図に示した送信装置 1 0における処理を各工程毎により詳細に説明していく。

まず、ステップ S 1におけるビデオ分割について説明する。送信装置 1 0は、入力されたビデオデータを映像セグメント又は音声セグメントのいずれか、或いは可能であればその両方に分割するが、このビデオデータにおけるセグメントの境界を自動的に検出するための技術は多くのものがあり、当該送信装置 1 0において、このビデォ分割方法に特別な前提要件を設けないことは上述した通りである。一方、送信装置 1 0において、後の工程によるシーン検出の精度は、本質的に、基礎となるビデオ分割の精度に依存する。なお、送信装置 1 0におけるシーン検出は、或る程度ビデオ分割時のエラ —を許容することができる。特に、送信装置 1 0において、ビデオ分割は、セグメント検出が不十分である場合よりも、セグメント検出を過度に行う場合の方が好ましい。送信装置 1 0は、類似したセグメントの検出が過度である結果である限り、一般に、シーン検出の際に検出過度であるセグメントを同一シーンとしてまとめることができる。

つぎに、ステップ S 2における特徴量抽出について説明する。特徴量とは、セグメントの特徴を表すとともに、異なるセグメント間の類似性を測定するためのデータを供給するセグメン卜の属性である。送信装置 1 0は、各セグメントの特徴量を計算し、セグメントの特徴を表す。送信装置 1 0は、いかなる特徴の具体的詳細にも依存するものではないが、当該送信装置 1 0において用いて効果的であると考えられる特徴量としては、例えば以下に示す映像特徴量、音声特徴量、映像音声共通特徴量のようなものがある。送信装置 1 0において適用可能となるこれらの特徴量の必要条件は、非類似性の測定が可能であることである。また、送信装置 1 0は、効率化のために、特徴量抽出と上述したビデオ分割とを同時に行うことがある。以下に説明する特徴量は、このような処理を可能にするものである。

特徴量としては、まず映像に関するものが挙げられる。以下では、これを映像特徴量と称することにする。映像セグメントは、連続する映像フレームにより構成されるため、映像セグメントから適切な映像フレームを抽出することによって、その映像セグメントの描写内容を、抽出した映像フレームで特徴付けることが可能である。すなわち、映像セグメントの類似性は、適切に抽出された映像フレームの類似性で代替可能である。このことから、映像特徴量は、送信装置 1 0で用いることができる重要な特徴量の 1つである。この場合の映像特徴量は、単独では静的な情報しか表せないが、送信装置

1 0は、後述するような方法を適用することによって、この映像特徴量に基づく映像セグメントの動的な特徴を抽出することもできる _c 映像特徴量として既知のものは多数存在するが、シーン検出のためには以下に示す色特徴量（ヒストグラム）及び映像相関が、計算コストと精度との良好な兼ね合いを与えることを見出したことから、送信装置 1 0は、映像特徴量として、これらの色特徴量及び映像相関を用いることとする。送信装置 1 0において、映像における色は、 2つの映像が類似しているかを判断する際の重要な材料となる。カラーヒストグラムを用いて映像の類似性を判断することは、例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexi ng digital video, J. of Visual Communication and Image Repre sentation 7:28—4， 1996" (こ記載されてレヽるよう ίこ、よく知られている。ここで、カラ一ヒストグラムとは、例えば H S Vや R G B等の 3次元色空間を n個の領域に分割し、映像における画素の、各領域での出現頻度の相対的割合を計算したものである。そして、得られた情報からは、 n次元ベクトルが与えられる。圧縮されたビデオデータに関しても、例えば U. S. Patent #5, 708， 767号公報に記載されているように、カラーヒストグラムを、圧縮データから直接抽出することができる。

送信装置 1 0では、セグメントを構成する映像におけるもともとの YU V色空間を、色チャンネル当たり 2ビットでサンプルして構成した、 2² ·³= 6 4次元のヒストグラムべクトルを用いている。

このようなヒストグラムは、映像の全体的な色調を表すが、これには時間情報が含まれていない。そこで、送信装置 1 0においては、もう 1つの映像特徴量として、映像相関を計算する。送信装置 1 0 におけるシーン検出において、複数の類似セグメントが互いに交差した構造は、それがまとまった 1つのシーン構造であることを示す有力な指標となる。例えば会話場面において、カメラの位置は、 2 人の話し手の間を交互に移動するが、カメラは通常、同一の話し手を再度撮影するときには、ほぼ同じ位置に戻る。このような場合における構造を検出するためには、グレイスケールの縮小映像に基づく相関がセグメントの類似性の良好な指標となることを見出したことから、送信装置 1 0では、元の映像を M X Nの大きさのグレイスケール映像へ間引き縮小し、これを用いて映像相関を計算する。ここで、 Mと Nは、両方とも小さな値で十分であり、例えば 8 X 8である。すなわち、これらの縮小グレイスケール映像は、 M N次元の特徴量べクトルとして解釈される。

さらに上述した映像特徴量とは異なる特徴量としては、音声に関するものが挙げられる。以下では、この特徴量を音声特徴量と称することにする。音声特徴量とは、音声セグメントの内容を表すことができる特徴量であり、送信装置 1 0は、この音声特徴量として、周波数解析、ピッチ、レベル等を用いることができる。これらの音声特徴量は、種々の文献により知られているものである。

まず、送信装置 1 0は、フーリエ変換等の周波数解析を行うことによって、単一の音声フレームにおける周波数情報の分布を決定することができる。送信装置 1 0は、例えば、 1つの音声セグメントにわたる周波数情報の分布を表すために、 F F T (Fast Fouri er T ransform；高速フ一リエ変換）成分、周波数ヒストグラム、パワースペクトル、その他の特徴量を用いることができる。

また、送信装置 1 0は、平均ピッチや最大ピッチ等のピッチや、平均ラウドネスゃ最大ラゥドネス等の音声レベルもまた、音声セグメントを表す有効な音声特徴量として用いることができる。

さらに他の特徴量としては、映像音声共通特徴量が挙げられる。これは、映像特徴量でもなく音声特徴量でもないが、送信装置 1 0 において、シーン内のセグメントの特徴を表すのに有用な情報を与えるものである。送信装置 1 0は、この映像音声共通特徴量として、セグメント長とアクティビティとを用いる。

送信装置 1 0は、映像音声共通特徴量として、セグメント長を用いることができる。このセグメント長は、セグメントにおける時間長である。一般に、シーンは、そのシーンに固有のリズム特徴を有する。このリズム特徴は、シーン内のセグメント長の変化として表れる。例えば、迅速に連なった短いセグメントは、コマーシャ /レを表す。一方、会話シーンにおけるセグメントは、コマーシャルの場合よりも長く、また会話シーンには、相互に組み合わされたセグメントが互いに類似しているという特徴がある。送信装置 1 0は、このような特徴を有するセグメント長を映像音声共通特徴量として用いることができる。

また、送信装置 1 0は、映像音声共通特徴量として、ァクティビティを用いることができる。アクティビティとは、セグメントの内容がどの程度動的或いは静的であるように感じられるかを表す指標である。例えば、視覚的に動的である場合、アクティビティは、力メラが対象物に沿って迅速に移動する度合い若しくは撮影されているオブジェクトが迅速に変化する度合いを表す。

このァクティビティは、カラ一ヒストグラムのような特徴量のフレーム間非類似性の平均値を測定することによって、間接的に計算される。ここで、フレーム i とフレーム j との間で測定された特徴量 Fに対する非類似性測定基準を d _F ( i , j ) と定義すると、映像アクティビティ V _Fは、次式（ 1 ) のように定義される。

/ - 1

+ ( 1 )

f - b 式（ 1 ) において、 b と f は、それぞれ、 1セグメントにおける最初と最後のフレームのフレーム番号である。送信装置 1 0は、具体的には、例えば上述したヒストグラムを用いて、映像ァクテイビティ V Fを計算することができる。

ところで、上述した映像特徴量を始めとする特徴量は、基本的にはセグメン卜の静的情報を表すものであることは上述した通りであるが、セグメントの特徴を正確に表すためには、動的情報をも考慮する必要がある。そこで、送信装置 1 0は、以下に示すような特徴量のサンプリング方法により動的情報を表す。

送信装置 1 0は、例えば図 3 4に示すように、 1セグメント内の異なる時点から 1以上の静的な特徴量を抽出する。このとき、送信装置 1 0は、特徴量の抽出数を、そのセグメント表現における忠実度の最大化とデータ冗長度の最小化とのバランスをとることにより決定する。例えば、セグメント内の或る 1画像が当該セグメントのキーフレームとして指定可能な場合には、そのキーフレームから計算されたヒストグラムが、抽出すべき特徴量となる。

送信装置 1 ◦は、後述するサンプリング方法を用いて、対象とするセグメントにおいて、特徴として抽出可能なサンプルのうち、どのサンプルを選択するかを決定する。

ところで、或るサンプルが常に所定の時点、例えばセグメント内の最後の時点において選択される場合を考える。この場合、黒フレームへ変化（fade) していく任意の 2つのセグメントについては、サンプルが同一の黒フレームとなるため、同一の特徴量が得られる結果になる恐れがある。すなわち、これらのセグメントの映像内容がいかなるものであれ、選択した 2つのフレームは、極めて類似していると判断されてしまう。このような問題は、サンプルが良好な代表値でないために発生するものである。

そこで、送信装置 1 0は、このように固定点で特徴量を抽出するのではなく、セグメント全体における統計的な代表値を抽出することとする。ここでは、一般的な特徴量のサンプリング方法を 2つの場合、すなわち、（ 1 ) 特徴量を実数の n次元べクトルとして表すことができる場合と、（ 2 ) 非類似性測定基準しか利用できない場合とについて説明する。なお、（ 1 ) には、ヒストグラムやパワースぺクトル等、最もよく知られている映像特徴量及び音声特徴量が含まれる。

( 1 ) においては、サンプル数は、事前に kと決められており、信装 li 1 0は、 'し Kaufman and P. J. Rousseeuw, Finding Gro ups in Data： An Introduction to Cluster Analysis, John - Wiley and sons, 1990" に記載されてよく知られている k平均値クラスタリング法 (k- means - clustering method) を用レヽて、セグメント全体についての特徴量を k個の異なるグループに自動的に分割する。そして、送信装置 1 0は、サンプル値として、 k個の各グループから、グループの重心ィ直 (centroid) 又はこの重心値に近いサンプルを選択する。送信装置 1 0におけるこの処理の複雑度は、サンプル数に関して単に直線的に増加するにとどまる。

—方、（2 ) においては、送信装置 1 0は、 "L. Kaufman and P. J. Rousseeuw, rinding Groups in Data： An Introduction to し丄 us ter Analysis, John-Wiley and sons, 1990" ίこ言己載され,てレヽる k— メドィドアノレコ、'リズム法 (k-medoids algorithm method) を用レヽて、 k個のグループを形成する。そして、送信装置 1 0は、サンプル値として、 k個のグループ毎に、上述したグループのメドィド（medo i d) を用いる。

なお、送信装置 1 0においては、抽出された動的特徴を表す特徴量についての非類似性測定基準を構成する方法は、その基礎となる静的な特徴量の非類似性測定基準に基づく ± これについては後述する。

このようにして、送信装置 1 0は、静的な特徴量を複数抽出し、これらの複数の静的な特徴量を用いることによって、動的特徴を表すことができる。

以上のように、送信装置 1 0は、種々の特徴量を抽出することができる。これらの各特徴量は、一般に、単一ではセグメントの特徴を表すのに不十分であることが多い。そこで、送信装置 1 0は、これらの各種特徴量を組み合わせることで、互いに補完し合う特徴量の組を選択することができる。例えば、送信装置 1 0は、上述したカラーヒストグラムと映像相関とを組み合わせることによって、各特徴量が有する情報よりも多くの情報を得ることができる。

つぎに、図 3 3中ステップ S 3における特徴量を用いたセグメントの類似性測定について説明する。送信装置 1 0は、 2つの特徴量について、それがどの程度非類似であるかを測定する実数値を計算する関数である非類似性測定基準を用いて、セグメントの類似性測定を行う。この非類似性測定基準は、その値が小さい場合は 2つの特徴量が類似していることを示し、値が大きい場合は非類似であることを示す。ここでは、特徴量 Fに関する 2つのセグメント S ， S ₂の非類似性を計算する関数を非類似性測定基準 d _F ( S : , S ₂ ) と定義する。このような関数は、以下の式（ 2 ) で与えられる関係を満足させる必要がある

d_F[S , S₂) = 0 のとき)

d {S ,S \≥Q 全ての，について

F\ V 2) ί \ 1 ,S 2 J I (2) d_F S S₂) = d_F[S₂ , (全ての , S₂ について

ところで、非類似性測定基準の中には、或る特定の特徴量にのみ適用可能なものがある力 "G. Ahanger and T. D. C. Little, A su rvey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7 :28 - 4， 199o や L. Kaufman and P. J. Rousseeu , Finding Groups in Data： An Introduction to Cluster Analysis, John-Wiley and son s, 1990" に記載されているように、一般には、多くの非類似性測定基準は、 n次元空間における点として表される特徴量についての類似性を測定するのに適用可能である。その具体例は、ユークリッド距離、内積、 L 1距離等である。ここで、特に L 1距離が、ヒストグラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作用することから、送信装置 1 0は、 L 1距離を導入する。ここで、 2つの n次元ベクトルを A， Bとした場合、 A， B間の L 1距离隹 d L i (A, B ) は、次式（ 3 ) で与えられる。

Α ~Β (3) „〜

PCT/JP00/00424

50 ここで、下付文字 i は、 n次元ベクトル A， Bのそれぞれの i 番目の要素を示すものである。

また、送信装置 1 0は、上述したように、動的特徴を表す特徴量として、セグメントにおける様々な時点での静的な特徴量を抽出する。そして、送信装置 1 0は、抽出された 2つの動的特徴量の間の類似性を決定するために、その非類似性測定基準として、その基礎となる静的特徴量の間の非類似性測定基準を用いる。これらの動的特徴量の非類似性測定基準は、多くの場合、各動的特徴量から選択された最も類似した静的特徴量の対の非類似性値を用いて決定されるのが最良である。この場合、 2つの抽出された動的特徴量 S F S F ₂の間の非類似性測定基準は、次式（4 ) のように定義される。

d(SF,SF )= ^min d (F,F) _ίΛ

上式（4 ) における関数 d _F ( F ! , F ,) は、その基礎となる静的特徴量 Fについての非類似性測定基準を示す。なお、場合によっては、特徴量の非類似性の最小値をとる代わりに、最大値又は平均値をとつてもよレ、。

ところで、送信装置 1 0は、セグメントの類似性を決定する上で、単一の特徴量だけでは不十分であり、同一セグメントに関する多数の特徴量からの情報を組み合わせることを必要とする場合も多い。この 1つの方法として、送信装置 1 0は、種々の特徴量に基づく非類似性を、それぞれの特徴量の重み付き組み合わせとして計算する。すなわち、送信装置 1 0は、 k個の特徴量 F F：， · · · ， F _kが PC画麵 424

51 存在する場合、次式（ 5) に表される組み合わせた特徴量に関する非類似性測定基準 d _F (S：, S ₂) を用いる。

^^₂) =∑^ ^₂) ' ' ' (5)

ここで、 {w ,} は、 ∑ i w i = 1 となる重み係数である。

以上のように、送信装置 1 0は、図 3 3中ステップ S 2におレヽて抽出された特徴量を用いて非類似性測定基準を計算し、当該セグメント間の類似性を測定することができる。

つぎに、図 3 3中ステップ S 4におけるセグメントのグノレーフ化について説明する。送信装置 1 0は、非類似性測定基準と抽出した特徴量とを用いて、時間的に近接して類似したセグメントを繰り返しまとめてグループ化し、最終的に生成されたグループを検出シーンとして出力する。

送信装置 1 0は、セグメントをグループ化してシーンを検出する際に、 2つの基本的な処理を行う。送信装置 1 0は、まず第 1の処理として、互いに時間的に近接して類似したセグメントのグループを検出する。この処理により得られるグループは、ほとんどが同一シーンの一部となるものである。そして、送信装置 1 0は、第 2の処理として、互いに時間が重複したセグメントのグループを 1つにまとめる。送信装置 1 0は、このような処理を各セグメントが独立した状態から開始し、反復して繰り返す。そして、送信装置 1 0は- 徐々にセグメントのグループを大きく構築していき、最終的に生成したグループをシーンの組として出力する。このような処理において、送信装置 1 0は、その処理動作を制御するために 2つの制約を用いる。

すなわち、送信装置 1 0は、第 1の制約として、 2つのセグメントがどの程度類似している場合に、同一のシーンのものであるとみなすかを決定する非類似性閾値 δ _s を用いる。例えば、図 3 5に示すように、送信装置 1 0は、或るセグメントに対して、一方のセグメントが類似性領域に属するか非類似性領域に属するかを判断する。なお、送信装置 1 0は、非類似性閾値 δ _{s i m}をユーザにより設定するようにしてもよく、また、後述するように、自動的に決定してもよい。

また、送信装置 1 0は、第 2の制約として、 2つのセグメントがなお同一シーン内のセグメントとみなし得る時間軸上の隔たりの最大値として、時間閾値 Tを用いる。例えば、図 3 6に示すように、送信装置 1 0は、時間閾値 Tの範囲内で互いに近接して続いている類似した 2つのセグメント A Bを同一シーンにまとめるが、時間的に大きく離れていて時間閾値 Tの範囲外である 2つのセグメント B , Cをまとめることはない。このように、送信装置 1 0は、この時間閾値 τによる時間制約があるために、互いに類似しているものの時間軸上で大きく隔たっているセグメントを同一シーンにまとめてしまうというエラーを発生することがない。

なお、この時間閾値 Tとしては、 6 8ショット分に相当する時間を設定した場合が概して良好な結果を与えることを見出したことから、送信装置 1 0は、基本的に、時間閾値 Tを 6 8ショット単位として用いることとする。

送信装置 1 0は、類似セグメントのグループを求めるために、ここで ίま、 "L. Kaufman and P. J. Rousseeuw, Finding Groups in D ata： An Introduction to Cluster Analysis, John - Wiley and sons,

1990" に記載されている階層的クラスタ分割方法（hierarchical clustering method) を適合させて用いることにする。このアルゴリズムにおいては、 2つのクラスタ C C ₂間の非類似性測定基準 d c (C：, C 2 ) について、次式（6 ) に示すように、それぞれのクラスタに含まれる要素間の最小非類似性として定義する。

d ie , c )= 画

d^ists{^S ， S₂)

(6)

なお、送信装置 1 0においては、上式（6 ) で示される最小関数を最大関数又は平均関数に容易に置換することができる。

まず、送信装置 1 0は、図 3 7に示すように、ステップ S 1 1において、変数 Nを初期状態のセグメントの数に初期化する。この変数 Nは、常に現在検出されているグループの数を示すものである。続いて、送信装置 1 0は、ステップ S 1 2において、クラスタの組を生成する。送信装置 1 0は、初期状態では、 N個の各セグメントを異なるクラスタとみなす。すなわち、初期状態では、 N個のクラスタが存在することになる。各クラスタは、 C ^s ' ³ ' 'と C ^{e nd}とにより表されるその開始時と終了時とを示す特徴を有する。クラスタに含まれる要素は、 C 'により順序付けられたリストとして管理される。

続いて、送信装置 1 0は、ステップ S 1 3において、変数 tを 1 に初期化し、ステップ S 1 4において、変数 tが時間閾値丁よりも大きいか否かを判別する。ここで、送信装置 1 0は、変数 tが時間閾値 Tよりも大きい場合には、ステップ S 2 3へと処理を移行し、変数 tが時間閾値 Tよりも小さい場合には、ステップ S 1 5へと処理を移行する。ただし、ここでは、変数 tが 1であるため、送信装置 1 0は、ステップ S 1 5へと処理を移行する。

送信装置 1 0は、ステップ S 1 5において、非類似性測定基準 d cを計算し、 N個のクラスタの中から最も類似した 2つのクラスタを検出する。ただし、ここでは、変数 tが 1であるため、送信装置 1 0は、隣接したクラスタ間の非類似性測定基準 d cを計算し、その中から最も類似したクラスタの対を検出する。

このような最も類似した 2つのクラスタを検出する方法としては、対象となる全てのクラスタの対を求めることが考えられる。しかしながら、ここでは、対象とするクラスタの時間的隔たりを表す変数 tがセグメント単位で与えられ、さらにクラスタが時間順に整頓されていることから、送信装置 1 0は、或るクラスタにおいて、その前後 t個までのクラスタを非類似性の計算対象とすればよい。

ここで、検出された 2つのクラスタをそれぞれ C i， C ,と定義し、これらのクラスタ C i， C ,の間の非類似性の値を d _{; i}と定義する。送信装置 1 0は、ステップ S 1 6において、非類似性値 d が非類似性閾値 δ _s ,_mよりも大きいか否かを判別する。ここで、送信装置 1 0は、非類似性値 d uが非類似性閾値 δ _{s i ra}よりも大きい場合には. ステップ S 2 1へと処理を移行し、非類似性値 d uが非類似性閾値 δ _{s i m}よりも小さい場合には、ステップ S 1 7へと処理を移行する。ここでは、非類似性値 d が非類似性閾値 δ _{s i ra}よりも小さいものとする。送信装置 1 0は、ステップ S I 7において、クラスタ C iをクラスタ。 >に結合する。すなわち、送信装置 1 0は、クラスタ C iの要素の全てをクラスタに加える。

続いて、送信装置 1 0は、ステップ S 1 8において、クラスタ C iをクラスタの組から除去する。なお、 2つのクラスタ C ,， C iを結合することにより開始時 C ^ ¹の値が変化した場合には、送信装置 1 0は、クラスタの組の要素を開始時 C ^{t a} に基づいて再び並ベ替る。

続いて、送信装置 1 0は、ステップ S 1 9において、変数 Nから 1を減じる。

そして、送信装置 1 0は、ステップ S 2 0において、変数 Nが 1 であるか否かを判別する。ここで、送信装置 1 0は、変数 Nが 1である場合には、ステップ S 2 3へと処理を移行し、変数 Nが 1でない場合には、ステップ S 1 5へと処理を移行する。ここでは、変数 Nが 1でないものとする。

すると、送信装置 1 0は、ステップ S 1 5において、再び非類似性測定基準 d cを計算し、 N— 1個のクラスタの中から最も類似した 2つのクラスタを検出する。ここでも、変数 tが 1であるため、送信装置 1 0は、隣接したクラスタ間の非類似性測定基準 d cを計算しその中から最も類似したクラスタの対を検出する。

続いて、送信装置 1 0は、ステップ S 1 6において、非類似性値 d , iが非類似性閾値 δ _{S l ra}よりも大きいか否かを判別する。ここでも. 非類似性値 d が非類似性閾値 δ _{5 im}よりも小さいものとする。

そして、送信装置 1 0は、ステップ S 1 7乃至ステップ S 2 0の処理を行う。送信装置 1 0は、このような処理を繰り返し、変数 Nが減算されていった結果、ステップ S 2 0において、変数 Nが 1であると判別した場合には、ステップ S 2 3において、単一のセグメントのみを含むクラスタを結合する。最終的には、送信装置 1 0は、この場合は、全てのセグメントが 1つのクラスタにまとめられる形となり、一連の処理を終了する。

さて、送信装置 1 0は、ステップ S 1 6において、非類似性値 d が非類似性閾値 δ _{s i m}よりも大きいと判別した場合には、ステップ S 2 1へと処理を移行するが、この場合には、ステップ S 2 1において、時間的に重複しているクラスタを繰り返し結合する。すなわち、 C iの時間間隔 [C i ， C ,^{e nd}] 、 C ,の時間間隔 [C i^s ^{t a r t}, C i^{e nd}] と相交している場合には、 2つのクラスタと C i は、時間軸上で重複している。これにより、送信装置 1 0は、クラスタをその組の開始時 C■ に基づいて整頓することによって、重複しているクラスタを検出し、それらのクラスタを 1つに結合することができる。

そして、送信装置 1 0は、ステップ S 2 2において、変数 tに 1 を加算して t = 2とし、ステップ S 1 4へと処理を移行して変数 t が時間閾値 Tよりも大きいか否かを判別する。ここでも、変数が時間閾値 Tよりも小さいものとし、送信装置 1 0は、ステップ S 1 5へと処理を移行するものとする。

送信装置 1 0は、ステップ S 1 5において、非類似性測定基準 d cを計算し、現在存在する複数のクラスタの中から最も類似した 2つのクラスタを検出する。ただし、ここでは、変数 tが 2であるため、送信装置 1 0は、隣接クラスタ及び 1つおきに隔たっているクラスタ間の非類似性測定基準 d cを計算し、その中から最も類似したクラスタの対を検出する。

そして、送信装置 1 0は、ステップ S 1 6において、隣接クラスタ及び 1つおきに隔たっているクラスタ C C ,の非類似性値 d _u が非類似性閾値 δ _{s i m}よりも大きいか否かを判別する。ここでも、非類似性値 d が非類似性閾値 δ _{s i m}よりも大きいものとし、送信装置 1 0は、ステップ S 2 1及びステップ S 2 2の処理を経て、変数 t に 1 を加算して t = 3 として再びステップ S 1 4以降の処理へと移行する。ここで、送信装置 1 0は、変数 tが 3のときには、ステツプ S 1 5において、 2つおきに隔たっているクラスタまでに存在するクラスタとの間の非類似性測定基準 d cを計算し、その中から最も類似したクラスタの対を検出する。

送信装置 1 0は、このような処理を繰り返し、変数 tが加算されていった結果、ステップ S 1 4において、変数 tが時間閾値丁よりも大きいと判別すると、ステップ S 2 3へと処理を移行し、単一のセグメントのみを含むクラスタを結合する。すなわち、送信装置 1 0は、孤立しているクラスタを単一のセグメントのみを含むクラスタとみなし、このような一連のクラスタが存在している場合には、これらのクラスタをまとめて結合していく。この工程は、近接のシーンとは類似性関連を有さないセグメントをまとめるものである。なお、送信装置 1 0は、必ずしもこの工程を行う必要はない。

このような一連の処理によって、送信装置 1 0は、複数のクラスタをまとめていき、検出シーンを生成することができる。

なお、送信装置 1 0は、非類似性閾値 δ _{s i ra}をユーザにより設定するようにしてもよく、自動的に決定してもよいことは上述した通りである。ただし、非類似性閾値 δ _{S lra}として固定値を用いる場合には. その最適値は、ビデオデータの内容に依存することとなる。例えば、変化に富んだ映像内容を有するビデオデータの場合、非類似性閾値 S _{s i m}は、高い値に設定される必要がある。一方、変化が少ない映像内容を有するビデオデータの場合、非類似性閾値 5 _{S im}は、低い値に設定される必要がある。ここで一般に、非類似性閾値 δ _{s im}が高い場合には、検出されるシーンは少なくなり、非類似性閾値 δ が低い場合には、検出されるシーンが多くなるという性質がある。

これより、送信装置 1 0においては、最適な非類似性閾値 δ _{S i m}を決定することが、その性能を左右する上で重要となる。そのため、送信装置 1 0においては、非類似性閾値 δ _{s im}をユーザにより設定する場合には、上述したことを考慮した上で設定する必要がある。一方、送信装置 1 0は、以下に示す方法により、有効な非類似性閾値 δ _imを自動的に決定することもできる。

例えば、その 1 つの方法として、送信装置 1 0は、（n ) ( n— 1 ) Z 2個のセグメント対の間の非類似性の分布における平均値やメジアン（中央値）といった統計量を用いて、非類似性閾値 0 _s , _mを得ることができる。いま、全てのセグメント対における非類似性の平均値とその標準偏差をそれぞれ μ， σ とした場合、非類似性閾値 5 _{s i m}は、 a / + b ひの形式で表すことができる。ここで、 a及び b は定数であり、それぞれ、 0. 5及び 0. 1に設定することが良好な結果を与えることを見出している。

実用上においては、送信装置 1 0は、全てのセグメント対について、それらの間の非類似性を求める必要はなく、その平均値及び標準偏差 σが真値に十分近い結果を与えるに足りるセグメント対を、全セグメント対集合からランダムに選択し、その非類似性を求めればよい- 送信装置 1 0は、このようにして得られた平均値 μ及び標準偏差 σを用いることによって、適切な非類似性閾値 δ _{s i ra}を自動的に決定することができる。

また、送信装置 1 0は、シ一ンを検出する際に、セグメントが同一グループに属するか否かを決定するために、単一の非類似性測定基準を用いるばかりではなく、重み付け関数を用いて、異種の特徴量に関する多様な非類似性測定基準を組み合わせることができることは上述した通りである。送信装置 1 0において、このような特徴量の重み付けは、試行錯誤の末得られるものであるが、各特徴量が質的に異なるタイプのものである場合には、通常、適切な重み付けを行うことは困難である。しかしながら、例えば、カラ一ヒストグラムとテクスチャフィーチャとを組み合わせる場合には、送信装置 1 0は、各特徴量に関してそれぞれシーンを検出し、検出された各シーン構造を単一のシーン構造に合成することによって、両者の特徴を考慮したシーン検出を実現することができる。ここで、各特徴量に関してシーンを検出したそれぞれの結果をシーン層と称することにする。例えば、特徴量としてカラ一ヒストグラムとセグメント長とを用いる場合、送信装置 1 0は、それぞれの特徴量に基づいたシーン検出によって、カラーヒストグラムについてのシ一ン層と、セグメント長についてのシ一ン層とを得ることができる。そして、送信装置 1 0は、これらのシーン層を単一のシーン構造に組み合わせることができる。

さらに、一般には、映像領域と音声領域とからの情報を組み合わせることはできないが、送信装置 1 0は、質的に異なるタイプの特徴量に基づいた構造を組み合わせる場合と同様な方法により、映像鎮域と音声領域とからの情報に基づいて得られるシーン層を単一のシーン構造に組み合わせることができる。

このような処理のアルゴリズムについて説明する。ここでは、それぞれが類似性の 1つの基準を表す k個の特徴量 F F ₂, · · ■ ，

F _kがあるものとし、各特徴量 F iに対応して、非類似性測定基準 d ^と、非類似性閾値 δ ^と、時間閾値 Τ 'とがあるものとする。送信装置 1 0は、これらの各特徴量 F iに対する非類似性測定基準 d _F と、非類似性閾値 δ _{i m}と、時間閾値 T ^:とを用いて、シーン層の組 X i = { X i ' J を検出する。例えば、送信装置 1 0は、映像情報と音声情報とに対して分割的にシーン層を検出し、映像情報と音声情報とに関する 2つの独立したシーン層 X； = { X i ' } ( i = 1 , 2 ) を生成する。

送信装置 1 0においては、異なるシーン層を単一のシーン構造に組み合わせるため、シーン境界の組み合わせ方を決定する必要がある。このシーン境界は、互いにそろっている保証はない。ここで、各シーン層に関して、シーン境界を示す一連の時間で表される境界点をい t , 2 , · · ■ ， t i I X i Iで与えることとする。まず、送信装置 1 0は、種々のシーン層を単一のグループに組み合わせるために、最初に或るシーン層を境界点の整列に関する基礎とするために選択する。そして、送信装置 1 0は、他のシーン層の境界が最終的に組み合わせて生成するシーン構造におけるシーン境界かどうかを各境界点！：， t _{i 2 >} · · · ， t i I X i Iに対して決定してい <。

ここで、 Β ; ( t ) を、 i番目のシーン層 X において、或る時間 6L tで近接にそのシーン層の境界点があるかどうかを示す論理関数とする。この「近接」の意味は、シーン層 X ,の状況に応じて変化し、例えば、映像情報と音声情報とのそれぞれに基づくシーン層を結合する場合には、 0. 5秒程度が適当である。

送信装置 1 0は、各境界点 t i= t ij， j = i， · · · ， I Xi I に関して、 1 = 1， ■ · · ， kのそれぞれについて、関数 ( t _;) の結果を計算する。この結果は、それぞれのシーン層に関して、時間 t iの近くに境界点があるかどうかを示している。そして、送信装置 1 0は、結合シーン構造において時間 t ,がシーン境界であるカどうかを決定する際に、決定関数として、 B , ( t i) の値を用いる。このような決定関数の 1つの単純な例は、 ( t i) が真である個数を計数し、この個数が定数 m以上となった場合に、結合シーン構造のシーン境界とみなすことである。特に、 m= lの場合には、全てのシーン層の境界点を最終シーン構造の境界点とみなすことと同義であり、一方、 m= kの場合には、全てのシーン層において共通してシーン境界とみなされた場合のみ、結合シーン構造の境界点とすることと同義である。

このようにして、送信装置 1 0は、異なるシーン層を単一のシ一ン構造に結合することができる。

このような送信装置 1 0における処理結果は、上述したディスクリプタを用いて記述することができる。

図 3 3中ステップ S 2における特徴量抽出結果を記述するために用いられるディスクリプタとしては、例えば、アクティビティ · レベル ' ディスクリプタ、シグネチヤ ' ディスクリプタ、テンポラル • シグネチヤ ' ディスクリプタ、シノプシス ' ディスクリプタ等がある。

アクティビティ · レベル · ディスクリプタは、特徴量抽出結果として得られた映像音声ともに関する特徴としてのアクティビティを記述するのに用いられる。また、シグネチヤ ' ディスクリプタは、特徴量抽出結果として得られた、セグメン卜の静的情報を表すための特徴を記述するのに用いられる。さらに、テンポラル ' シグネチャ - ディスクリプタは、特徴量抽出結果として得られた、セグメントの動的情報を表すための最適な特徴を記述するのに用いることができる。さらにまた、シノプシス ' ディスクリプタは、同図中ステップ S 4において検出したシーンを、特徴量抽出工程における動的特徴の抽出により検出した代表フレームで代表させることを記述する際に用いられる。

また、同図中ステップ S 3における特徴量を用いたセグメントの類似性測定結果を記述するために用いられるディスクリプタとしては、例えば、ウェイト ' ベクトル · ディスクリプタ等がある。

さらに、同図中ステップ S 4におけるセグメントのグループ化結果を記述するために用いられるディスクリプタとしては、例えば、 A Vプロトタイプ ' ディスクリプタ、クラスタ ' ディスクリプタ、コンポジッド . セグメント ' ディスクリプタ、 A Vグラフ · デイスクリプタ、ショット ' ディスクリプタ、シーン ' ディスクリプタ等力 ^sある。

A Vプロトタイプ · ディスクリプタやクラスタ，ディスクリプタは、グループ化工程の結果得られた A Vエレメン卜のクラスタを記述するのに用いられる。また、コンポジッド ' セグメント · デイスクリブタは、グループ化工程の結果得られた A Vセグメントゃシ一ンのクラスタを記述するのに用いられる。さらに、 A Vグラフ ' デイスクリプタは、グループ化工程において検出したシーンの内容を、幾つかのシーンの反復構造として記述するのに用いられる。さらにまた、ショット ' ディスクリプタは、グループ化工程においてシーンを検出する際の基となるショットを記述するのに用いられ、シーン ' ディスクリプタは、グループ化工程において検出したシーンを記述するのに用いられる。

したがって、或るビデオデータにおけるシーン構造を記述するデイスクリプシヨン ' スキームは、複数のディスクリプタの集合により表される。この具体例として、或る 1つのシーンを記述するのに必要なディスクリプション · スキーム及び特徴データとしてのシ一ン記述の一例を、図 3 8及び図 3 9にそれぞれ示す。ここで対象とするシーンは、開始位置がフレーム番号 " 1 2 5 4 7 " であり、終了位置がフレ一ム番号 " 1 2 8 3 0 " であるものとする。なお、図 3 9中でセミコロン（；）の後の記載は、この行において参照すベきディスクリプタのクラスを示している。

まず、シーン記述は、図 3 9における 1行目で、シーン記述を示すディスクリプタの始まりを示す。このシーンに対応する図 3 8上でのノードは、 " Scene" とラベリングされたルート . ノードである _t 次に、シーン記述は、図 3 9における 2、 3行目で、それぞれ、シーンの開始位置（s tartPo i n t) 及び終了位置（endPo int) を、時間やフレーム番号等により指定する。なお、図 3 8中においてこの情報は、ノレート ■ ノードに付カロされた " s tartT ime " 及び " endT ime " により表される。

また、シーン記述は、図 3 9における 4行目で、このシーン記述が参照とすべきビデオデータの場所を指定する。

さらに、シーン記述は、同図における 5行目で、シノプシス（sy nopsis) · ディスクリプタの始まりを示し、ユーザにブラウジングさせるためのキーフレーム（KEY_FRAME) を指定する。

次に、シーン記述は、同図における 6行目のシーケンス（sequen ce) · ディスクリプタによって、以下に AVエレメント（AVElemen t) のシーケンスがあることを示す。ここでは、 AVエレメントは、キーフレームである。

また、シーン記述は、同図における 7、 8、 9行目で、それぞれ、 1、 2、 3番目のシノプシスのキーフレームを KEY— F RAME 1、 KEY一 F RAME 2、 KEY一 F RAME 3 と指定する。ただし、ここでは、 KEY— F RAME 1、 KEY— F RA ME 2、 KEY— F RAME 3が具体的にどのフレームであるかという指定を行っていないが、実際には、どこかで指定する必要かめる。

さらに、シーン記述は、同図における 1 0、 1 1行目で、それぞれ、シーケンス · ディスクリプタの終わり及びシノプシス ' デイスクリプタの終わりを示す。

次に、シーン記述は、同図における 1 2行目で、アブストラクト (abstract) · ディスクリプタの始まりを示し、ビデオコンテンツの内容を代表する部分の指定を行う。

また、シーン記述は、同図における 1 3行目で、シグネチヤ（si gnature) · ディスクリプタの始まりを示し、クラスタリング等に用いるためのシーンの一部分を指定する。ここでは、ショット ' シグネチヤで示されること（SHOT一 SIGNATURE) が宣言されている。さらに、シーン記述は、同図における 1 4行目で、シグネチヤのメンバ一（members) の指定開始を示す。

そして、シーン記述は、同図における 1 5、 1 6行目で、シグネチヤのメンバ一の 1つ目力 S s h o t l、 2つ目力 s h o t 2、 3つ目力； s h o t 3であることを示す。この s h o t l及び s h o t 2 は、 2 2行目及び 3 2行目に定義されている。

また、シーン記述は、同図における 1 7行目で、シグネチヤのメンバーの指定終了を示す。

次に、シーン記述は、同図における 1 8行目で、シグネチヤのメンバーに対する重み付けを指定する。ここでは、 ₃ 11 0 1 1 には0. 1、 s h o t 2及び s h o t 3には 0. 4 5の重要度があることを示している。

そして、シーン記述は、同図における 1 9、 2 0行目で、それぞれ、シグネチヤ ' ディスクリプタ及びアブストラクト ' ディスクリプタの終わりを示す。

次に、シーン記述は、同図における 2 1行目で、コンポーネント (components) · ディスクリプタの始まりを示し、このシーンの構成要素を指定する。このコンポーネントに対応する図 3 8中のノードは、ルート · ノードの一段だけ下位のノード、すなわち、 "shot 1" 、 "shot2" 、 "shot n" とラベリングされたノードである。また、シーン記述は、図 3 9における 2 2行目で、ショット（sh ot) ' ディスクリプタの始まりを示し、第 1番目のショットの識別子が s h o t lであることを指定し、その内容を以下に記述することを宣言する。

さらに、シーン記述は、同図における 2 3、 2 4行目で、それぞれ、当該ショットの開始位置及び終了位置を、時間やフレーム番号等により指定する。ここでは、開始位置がフレーム番号 " 1 2 5 4 7 " であり、終了位置がフレーム番号 " 1 2 6 1 6 " であることを示している。なお、図 3 8中においてこの情報は、ルート ' ノードの一段だけ下位にあり、 " shot l " とラベリングされたノードに付加された " startTime" 及び " endTime" により表される。

次に、シーン記述は、図 3 9における 2 5行目で、アブストラクト - ディスクリプタの始まりを示し、当該ショッ卜の内容を代表する部分の指定を行う。

また、シーン記述は、同図における 2 6行目で、シグネチヤ ' デイスクリプタの始まりを示し、クラスタリング等に用いるための当該ショットの一部分を指定する。ここでは、シグネチヤがフレームで示されること（FRAME— SIGNATURE) が宣言されている。

さらに、シーン記述は、同図における 2 7行目で、シグネチヤのメンバーが 1つだけであることを示し、そのフレーム番号を指定する。ここでは、フレーム番号が " 1 2 5 9 0 " であることが記述されている。

また、シーン記述は、同図における 2 8行目で、シグネチヤのメンバーに対する重み付けを指定する。ここでは、このシグネチヤを構成するメンバーが 1つだけであるため、その重要度が 1 . 0 となつている。

そして、シーン記述は、同図における 2 9、 3 0、 3 1行目で、それぞれ、シグネチヤ · ディスクリプタの終わり、アブストラクト • ディスクリプタの終わり及びショット · ディスクリプタの終わりを示す。次に、シーン記述は、同図における 3 2行目で、ショット ' ディスクリプタの始まりを示し、第 2番目のショットの識別子が s h o t 2であることを指定し、その内容を以下に記述することを宣言する。

また、シーン記述は、同図における 3 3、 3 4行目で、それぞれ、当該ショットの開始位置及び終了位置を、時間やフレーム番号等により指定する。ここでは、開始位置がフレーム番号 " 1 2 6 1 7 " であり、終了位置がフレーム番号 " 1 2 6 2 8 " であることを示している。なお、図 3 8中においてこの情報は、ルート ' ノードの一段だけ下位にあり、 " shot 2" とラベリングされたノードに付加された " startT ime " 及び " endTime" により表される。

また、シーン記述は、図 3 9における 3 5行目の位置に、当該ショットの内容を示す多くのディスクリプタが記述されるが、ここでは、省略する。

そして、シーン記述は、同図における 3 6行目で、ショット ' デイスクリプタの終わりを示す。

また、シーン記述は、同図における 3 7、 3 8行目の位置に、それぞれ、他のショットの内容を示す各種ディスクリプタ及び各ショットを記述する多くのディスクリプタが記述されるが、ここでは、省略する。

そして、シーン記述は、同図における 3 9行目で、コンポーネント · ディスクリプタの終わりを示す。

次に、シーン記述は、同図における 4 0行目で、このシーンのィンデッタス（i ndex) を示す幾つかの A Vハイアラキ（AVHi erarch y) ' ディスクリプタが以下に記述されることを宣言する。また、シーン記述は、同図における 4 1行目で、ハイアラキ（hi erarchy) · ディスクリプタの始まりを示し、このハイアラキがショット ' インデックスで示されること（SHOT— INDEX) を宣言する。さらに、シーン記述は、同図における 4 2行目で、クラスタ（cl uster) · ディスクリプタの始まりを示し、第 1番目のクラスタを以下に記述し、このクラスタが c l u s t e r 1 という識別子を持つことを宣言する。

次に、シーン記述は、同図における 4 3行目で、当該クラスタのメンバーの指定開始を示す。

また、シーン記述は、同図における 4 4行目で、当該クラスタのメンバ一がショットであり、その識別子が s h o t 2、 s h o t 4、 • · ' であることを指定する。

さらに、シーン記述は、同図における 4 5行目で、当該クラスタのメンバーの指定終了を示す。

次に、シーン記述は、同図における 4 6行目で、アブストラクト - ディスクリプタの始まりを示し、当該クラスタの内容を代表する部分の指定を行う。

また、シーン記述は、同図における 4 7行目で、プロトタイプ (prototype) ，ディスクリプタを示す。ここでは、当該クラスタの内容を代表する部分の識別子が s h o t 4であることを示している。

さらに、シーン記述は、同図における 4 8、 4 9行目で、それぞれ、ァブストラクト · ディスクリプタの終わり及びクラスタ，ディスクリプタの終わりを示す。

次に、シーン記述は、同図における 5 0、 5 1行目で、それぞれ、クラスタ ' ディスクリプタを示し、第 2、 3番目のクラスタが c l u s t e r 2、 c l u s t e r 3 という識別子を持つことを宣言する。なお、これらの行の位置には、その内容を記述する多くのディスクリブタが示されるが、ここでは、省略する。

そして、シーン記述は、同図における 5 2行目で、ハイアラキ - ディスクリプタの終わりを示す。

また、シーン記述は、同図における 5 3行目で、このシーンのィンデックスを示す幾つかの A Vハイァラキの記述が終わることを宣言する。

さらに、シーン記述は、同図における 5 4行目の位置に、他にシーンの内容を示す多くのディスクリプタが記述されるが、ここでは、省略する。

次に、シーン記述は、同図における 5 5行目で、このシーンの構造を示す幾つかの A Vグラフ（AVGraph) ' ディスクリプタが以下にあることを宣言する。

そして、シーン記述は、同図における 5 6行目で、 AVグラフ - ディスクリプタの始まりを示し、このグラフのエッジの構成要素がショットであること（SHOT— GROUP) を宣言する。

また、シーン記述は、同図における 5 7乃至 6 1行目で、 AVグラフエッジ（AVGraphEdge) ' ディスクリプタを示す。 5 7行目では. グラフの開始点が c 1 u s t e r 1であることを示している。この c 1 u s t e r 1は、 4 2行目で指定された識別子である。

さらに、シーン記述は、同図における 5 8、 5 9、 6 0行目で、それそれ、 c l u s t e r l力ら c l u s t e r 2に、 c l u s t e r i力り c 1 u s t e r 2に、 c l u s t e r 2力り c 1 u s t e r 3にグラフが伸びていることを示している。そして、シーン記述は、同図における 6 1行目で、グラフの終了点が c 1 u s t e r 3であることを示し、 6 2行目で、 A Vグラフ • ディスクリプタの終わりを示す。

また、シーン記述は、同図における 6 3行目で、このシーンの構造を示す幾つかの A Vグラフ ' ディスクリプタの記述をこれで終わることを宣言する。

そして、シーン記述は、同図における 6 4行目の位置で、このシーンの他の内容を記述する多くのディスクリプタを示した後、 6 5 行目で、シーン記述を示すディスクリプタの終わりを示す。

このようにして、或るビデオデータにおけるシーン構造を、複数のディスクリプタを用いた特徴データとして記述することができる。送信装置 1 0は、先に図 2に示した特徴データ生成部 1 2によつて、このような特徴データをビデオデータに応じて生成し、ビデオデータとともに受信装置 2 0へと送信する。そのため、ビデオデータとともに特徴データを受信した受信装置 2 0は、特徴データに基づき、ビデオデータを解析するだけで、ビデオデータのビデオ構造を容易に回復することができ、検索エンジン 2 3により例えばスト一リ一ボードを作成することができる。

したがって、受信装置 2 0は、ビデオデータのビデオ構造を解析するための高度な処理能力ゃ大容量の計算資源を有する必要がなく、低コスト化及び小容量メモリ化を図ることができる。

そして、ユーザは、事前にビデオデータの内容の構造を知る必要はなく、ビデオデータに対して容易で且つ個人的にアクセスすることが可能となり、ブラウジングを効率よく行うことができる。

うに、ディスクリプシヨン ' スキームとして定義される本発明にかかるデータ記述方法は、ビデオデータの内容を検索してブラウジングする高度な方法を実現するものであって、このデータ記述方法により記述された特徴データは、ビデオデータのビデオ構造を的確に且つ簡便に効率よく表すことができる。また、上位クラスのディスクリプタの機能を継承してディスクリプタを構成することから、ディスクリプタが高度な機能を有するものへと容易に拡張され得て拡張性に優れたディスクリプシヨン ' スキームを構築することが可能であるとともに、特徴データの容量を小さくすることができ、受信装置 2 0の小容量メモリ化に対する一助となる。

なお、本発明は、上述した実施の形態に限定されるものではなく - 例えば、各ディスクリプタは、上位のディスクリプタの機能が継承されていなくてもよい。ただしこの場合、特徴データには、 1つのディスクリプタに関して、その上位のディスクリプタを全て書き下す必要がある。

また、本発明は、ビデオデータからビデオ構造を抽出する処理としては、上述したもの以外であってもよいことは勿論である。

このように、本発明は、その趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。産業上の利用可能性以上詳細に説明したように、本発明にかかるデータ記述方法は、入力データの内容の特徴を表す特徴データを記述するためのデータ記述方法であって、記述方法を定義する単位要素となる記述子は、下位要素としての属性が定義される構造を有し、属性として記述子を含み得る。

したがって、本発明にかかるデータ記述方法は、構造を有する記述子の集合を用いて構造化された特徴データを記述することができ、この特徴データに基づいて、容易に入力データの内容の特徴を抽出することができる。

また、本発明にかかるデータ処理装置は、入力データの内容の特徴を表す特徴データを生成するデータ処理装置であって、記述方法を定義する単位要素となる記述子に関し、下位要素としての属性が定義される構造を有し、属性として記述子を含み得る記述子に基づいて特徴データを生成する生成手段を備える。

したがって、本発明にかかるデータ処理装置は、構造を有する記述子の集合を用いて構造化された特徴データを生成することができ、この特徴データに基づいて、的確且つ簡便に効率よく入力データの内容の特徴を表現することができる。

さらに、本発明にかかるデータ処理装置は、入力データの内容の特徴を表す特徴データを利用するデータ処理装置であって、記述方法を定義する単位要素となる記述子に関し、下位要素としての属性が定義される構造を有し、属性として記述子を含み得る記述子に基づいて生成された特徴データを利用して、入力データの内容の特徴を復元する復元手段を備える。

したがって、本発明にかかるデ一タ処理装置は、特徴データに基づいて、入力データの内容の特徴を復元することができ、高度な処理能力ゃ大容量の計算資源を必要とせずに入力データの内容の特徴を抽出することができる。

Claims

請求の範囲

1 . 入力データの内容の特徴を表す特徴データを記述するためのデータ記述方法であって、

記述方法を定義する単位要素となる記述子は、下位要素としての属性が定義される構造を有し、上記属性として記述子を含み得ること

を特徴とするデータ記述方法。

2 . 上記入力データは、ビデオデータにおける映像データと音声データとの少なくとも一方を含むこと

を特徴とする請求の範囲第 1項記載のデータ記述方法。

3 . 上記記述子は、上記構造の形成能力を含めて上位の記述子の機能が継承されて生成されること

を特徴とする請求の範囲第 1項記載のデータ記述方法。

4 . 上記下位要素としての属性は、記述子及び Z又は特定の属性を定義することにより構成されること

を特徴とする請求の範囲第 1項記載のデータ記述方法。

5 . 入力データの内容の特徴を表す特徴データを生成するデータ処理装置であって、

記述方法を定義する単位要素となる記述子に関し、下位要素としての属性が定義される構造を有し、上記属性として記述子を含み得る記述子に基づいて特徴データを生成する生成手段を備えることを特徴とするデータ処理装置。

6 . 上記入力データは、ビデオデータにおける映像データと音声データとの少なくとも一方を含むことを特徴とする請求の範囲第 5項記載のデータ処理装置。

7 . 上記記述子は、上記構造の形成能力を含めて上位の記述子の機能が継承されて生成されたものであること

を特徴とする請求の範囲第 5項記載のデータ処理装置。

8 . 上記下位要素としての属性は、記述子及び Z又は特定の属性を定義することにより構成されていること

を特徴とする請求の範囲第 5項記載のデータ処理装置。

9 . 上記特徴データを、上記入力データとともに、外部機器へと送信すること

を特徴とする請求の範囲第 5項記載のデータ処理装置。

1 0 . 入力データの内容の特徴を表す特徴データを利用するデータ処理装置であって、

記述方法を定義する単位要素となる記述子に関し、下位要素としての属性が定義される構造を有し、上記属性として記述子を含み得る記述子に基づいて生成された特徴データを利用して、上記入力データの内容の特徴を復元する復元手段を備えること

を特徴とするデータ処理装置。

1 1 . 上記入力データは、ビデオデータにおける映像データと音声データとの少なくとも一方を含むこと

を特徴とする請求の範囲第 1 0項記載のデータ処理装置。

1 2 . 上記記述子は、上記構造の形成能力を含めて上位の記述子の機能を継承して生成されたものであること

を特徴とする請求の範囲第 1 0項記載のデータ処理装置。

1 3 . 上記下位要素としての属性は、記述子及び/又は特定の属性を定義することにより構成されていることを特徴とする請求の範囲第 1 0項記載のデータ処理装置。

1 4 . 上記復元手段は、上記入力データの特徴を復元して上記入力データの加工されたデータを生成すること

を特徴とする請求の範囲第 1 0項記載のデータ処理装置。

1 5 . 上記特徴データを、上記入力データとともに、外部機器から受信すること

を特徴とする請求の範囲第 1 0項記載のデータ処理装置。