WO2000045603A1

WO2000045603A1 - Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux

Info

Publication number: WO2000045603A1
Application number: PCT/JP2000/000422
Authority: WO
Inventors: Toby Walker
Original assignee: Sony Corporation
Priority date: 1999-01-29
Filing date: 2000-01-27
Publication date: 2000-08-03
Also published as: EP1067800A4; US6744922B1; EP1067800A1

Description

明細書信号処理方法及び映像音声処理装置技術分野本発明は、信号の基礎となる意味構造を反映するパターンを検出して解析する信号処理方法及びビデオ信号の基礎となる意味構造を反映する映像及びノ又は音声のパターンを検出して解析する映像音声処理装置に関する。冃景技術例えばビデオデータに録画されたテレビ番組といった大量の異なる映像データにより構成される映像アプリケーションの中から、興味のある部分等の所望の部分を探して再生したい場合がある。

このように、所望の映像内容を抽出するための一般的な技術としては、アプリケーションの主要場面を描いた一連の映像を並べて作成されたパネルであるストーリーボードがある。このスト一リーボードは、ビデオデータをいわゆるショットに分解し、各ショットにおいて代表される映像を表示したものである。このような映像抽出技術は、そのほとんどが、例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital v ideo, J. of Visual Communication and Image Representation 7: 28-4, 1996" に記載されているように、ビデオデータからショットを自動的に検出して抽出するものである。

ところで、例えば代表的な 3 0分のテレビ番組中には、数百ものショットが含まれている。そのため、上述した従来の映像抽出技術においては、ユーザは、抽出された膨大な数のショットを並べたストーリ一ボードを調べる必要があり、このようなストーリ一ボードを理解する際、ユーザに大きな負担を強いる必要があった。また、従来の映像抽出技術においては、例えば話し手の変化に応じて交互に 2者を撮影した会話場面におけるショットは、冗長のものが多いという問題があった。このように、ショットは、ビデオ構造を抽出する対象としては階層が低すぎて無駄な情報量が多く、このようなショットを抽出する従来の映像抽出技術は、ユーザにとって利便のよいものとはいえなかった。

また、他の映像抽出技術としては、例えば "A. Merl ino, D. Mor ey and M. aybury, Broadcast news navi gat ion us ing story seg mentat ion, Proc. of ACM Mul t imed i a 97， 1997" ゃ特開平 1 0— 1 3 6 2 9 7号公報に記載されているように、ニュースやフットボールゲームといった特定の内容ジャンルに関する非常に特殊な知識を用いるものがある。しかしながら、この従来の映像抽出技術は、目的のジャンルに関しては良好な結果を得ることができるものの他のジャンルには全く役に立たず、さらにジャンルに限定される結果、容易に一般化することができないという問題があった。

さらに、他の映像抽出技術としては、例えば U. S. Patent #5, 708, 767号公報に記載されているように、いわゆるストーリ一ュニットを抽出するものがある。しかしながら、この従来の映像抽出技術は、完全に自動化されたものではなく、どのショットが同じ内容を示すものであるかを決定するために、ユーザの介入が必要であった。また、この従来の映像抽出技術は、処理に要する計算が複雑であるとともに、適用対象として映像情報のみに限定されるといった問題もめつ 7こ。

さらにまた、他の映像抽出技術としては、例えば特開平 9— 2 1 4 8 7 9号公報に記載されているように、ショット検出と無音部分検出とを組み合わせることによりショットを識別す.るものがある。しかしながら、この従来の映像抽出技術は、無音部分がショット境界に対応した場合のみに限定されたものであった。

また、他の映像抽出技術としては、例えば "H. Aoki, S. Shiraot suji and 0. Hon, A shot classification method to select eff ective key-frames for video browsing, IPSJ Human Interface S IG Notes, 7:43-50， 1996" ゃ特開平 9— 9 3 5 8 8号公報に記載されているように、ストーリーボードにおける表示の冗長を低減するために、反復された類似ショットを検出するものがある。しかしながら、この従来の映像抽出技術は、映像情報のみに適用できるものであり、音声情報に適用できるものではなかった。

さらに、これらのような映像抽出技術は、いわゆる局所的ビデオ構造や、特殊な知識に基づく大局的ビデオ構造しか検出することができなかった。発明の開示本発明は、このような実情に鑑みてなされたものであり、上述した従来の映像抽出技術の問題を解決し、種々のビデオデータにおける高いレベルのビデオ構造を抽出する信号処理方法及び映像音声処理装置を提供することを目的とするものである。

上述した目的を達成する本発明にかかる信号処理方法は、供給された信号の内容の意味構造を反映するパターンを検出して解析する信号処理方法であって、信号を構成する連続したフレームのひと続きから形成されるセグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出工程と、特徴量を用いて、特徴量のそれぞれ毎に、セグメン卜の対の間の類似性を測定する測定基準を算出して、この測定基準によりセグメントの対の間の類似性を測定する類似性測定工程と、特徴量と測定基準とを用いて、セグメントのうち、互いに類似する複数のセグメントから構成される類似チェーンを検出する検出工程とを備えることを特徴としている。このような本発明にかかる信号処理方法は、信号において類似したセグメン卜の基本的な構造パターンを検出する。

また、上述した目的を達成する本発明にかかる映像音声処理装置は、供給されたビデオ信号の内容の意味構造を反映する映像及び又は音声のパターンを検出して解析する映像音声処理装置であって、ビデオ信号を構成する連続した映像及び Z又は音声フレームのひと続きから形成される映像及び Z又は音声セグメン卜から、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出手段と、特徴量を用いて、特徴量のそれぞれ毎に、映像及び/又は音声セグメン卜の対の間の類似性を測定する測定基準を算出して、この測定基準により映像及び Z又は音声セグメントの対の間の類似性を測定する類似性測定手段と、特徴量と測定基準とを用いて、映像及び Z 又は音声セグメントのうち、互いに類似する複数の映像及び Z又は音声セグメン卜から構成される類似チェーンを検出する検出手段とを備えることを特徴としている。

このような本発明にかかる映像音声処理装置は、ビデオ信号において類似した映像及び又は音声セグメントの基本的な構造パターンを決定して出力する。図面の簡単な説明図 1は、本発明において適用するビデオデータの構成を説明する図であって、モデル化したビデオデータの構造を説明する図である図 2は、局所的ビデオ構造を抽出する類似チェーンを説明する図である。

図 3は、大局的ビデオ構造を抽出する類似チェーンを説明する図である。

図 4は、本発明の実施の形態として示す映像音声処理装置の構成を説明するブロック図である。

図 5は、同映像音声処理装置において、ビデオ構造を検出して解析する際の一連の工程を説明するフローチヤ一トである。

図 6は、同映像音声処理装置における動的特徴量サンプリング処理を説明する図である。

図 7は、基本類似チーンを説明する図である。

図 8は、リンク類似チェーンを説明する図である。

図 9は、周期的チェーンを説明する図である。

図 1 0は、同映像音声処理装置において、バッチクラスタリング技術を用いて基本類似チェーンを検出する際の一連の工程を説明するフローチヤ一トである。

図 1 1は、非類似性閾値を説明する図である。

図 1 2は、同映像音声処理装置において、基本類似チェーンのチヱーンフィルタリングを行う際の一連の工程を説明するフローチヤートである。

図 1 3は、同映像音声処理装置において、逐次クラスタリング技術を用いて基本類似チーンを検出する際の一連の工程を説明するフロ一チヤ一トである。

図 1 4は、同映像音声処理装置において、リンク類似チヱーンを検出する際の一連の工程を説明するフ口一チャートである。

図 1 5は、同映像音声処理装置において、周期的チェーンを検出する際の一連の工程を説明するフローチヤ一トである。

図 1 6は、同映像音声処理装置において、チェーンを用いてシーンを検出する際の一連の工程を説明するフローチヤ一トである。図 1 7は、同映像音声処理装置において、チヱ一ンを用いてニュース項目を検出する際の一連の工程を説明するフローチヤ一トである。

図 1 8は、同映像音声処理装置において、チェーンを用いてスポーッ放送におけるプレイを検出する際の一連の工程を説明するフロ一チヤ一トである。

図 1 9は、同映像音声処理装置において、チェーンを用いて周期検出とシーン検出とを組み合わせたトピック検出を行う際の一連の工程を説明するフローチヤ一トである。発明を実施するための最良の形態以下、本発明を適用した具体的な実施の形態について図面を参照しながら詳細に説明する。

本発明を適用した実施の形態は、録画されたビデオデータから所望の内容を自動的に探し出して抽出する映像音声処理装置である。特に、この映像音声処理装置は、ビデオデータの基礎となる意味構造を反映する映像及びノ又は音声の構造パターンを検出及び解析するものであり、この解析を行うために、類似チェーン（以下、必要に応じてチェーンと略記する。）という概念を導入したものである。この映像音声処理装置の具体的な説明を行う前に、ここではまず本発明において対象とするビデオデータに関する説明を行う。

本発明において対象とするビデオデータについては、図 1に示すようにモデル化し、フレーム、セグメント、類似チェーンという構造を有するものとする。すなわち、ビデオデータは、最下位層において、一連のフレームにより構成される。また、ビデオデータは、フレームの 1つ上の階層として、連続するフレームのひと続きから形成されるセグメントにより構成される。さらに、ビデオデータは、互いに特定の種類の類似パターンを有する一連のセグメントを類似チェーンとして構成する。

このビデオデータは、映像及び音声の両方の情報を含む。すなわち、このビデオデータにおいてフレームには、単一の静止画像である映像フレームと、一般に数十〜数百ミリセカンド /長といった短時間においてサンプルされた音声情報を表す音声フレームとが含まれる。

また、セグメントは、単一のカメラにより連続的に撮影された映像フレームのひと続きから構成され、一般にはショットと呼ばれる。そして、セグメントには、映像セグメントと音声セグメントとが含まれ、ビデオ構造における基本単位となる。これらのセグメントの中で、特に音声セグメントについては、多くの定義が可能であり、例として次に示すようなものが考えられる。まず、音声セグメントは、一般によく知られている方法により検出されたビデオデータ中の無音期間により境界を定められて形成される場合がある。また、音声セグメントは、 "D. Kimber and L. Wilcox, Acoustic Segmen tation for Audio Browsers, Xerox Pare Technical Report" ίこ g己載されているように、例えば、音声、音楽、ノイズ、無音等のように少数のカテゴリに分類された音声フレ一ムのひと続きから形成される場合もある。さらに、音声セグメントは、 "S. Pfeiffer, S. Fischer and E. Wolf ang, Automatic Audio Content Analysis, P roceeding of ACM Multimedia 96, Nov. 1996, pp21-30" に記載されているように、 2枚の連続する音声フレーム間の或る特徴における大きな変化を音声力ット点として検出し、この音声力ット点に基づいて決定される場合もある。

このようなビデオデータにおいて類似チェーンとは、互いに類似し、時間的に順序付けられた複数のセグメントであって、その構造パターンは、当該チェーンに含まれる類似セグメント間の関係及びチェーンの構造として満たすべき制約条件によって、幾つかの種類に分類される。形式的には、類似チヱ一ンとは、当該類似チヱ一ンが含むセグメントを S i · · · ， S _{i k}で表したとき、全てのセグメントに関して j = 1， * · · , k— 1 ： i jく i ) + ,が成り立つ一連のセグメントである。ここで、インデックス i 〗は、そのセグメントの元のビデオデータ内におけるセグメント番号を表し、 iへの添え字 j は、そのセグメントが当該類似チェーン内において、時間軸上で； i番目に位置していることを表す。なお、類似チヱ一ンには. 時間的に不連続なセグメントが含まれるため、チェーンの要素間に時間的ギャップが存在することもある。換言すれば、セグメント S i _{i ;} S , _{j + 1}は、元のビデオデータ内において、必ずしも連続しているとは限らない。

類似チェーンを用いることによって、ビデオデータにおいて、後述する局所的ビデオ構造と大局的ビデオ構造との両方に関する有力な手がかりを得ることができる。一般にビデオデータには、視聴者がその概要を知覚的に把握できる手掛かりが存在する。この手掛かりとして最も単純且つ重要なものは、類似する映像セグメント又は音声セグメントの構造パターンであり、この構造パターンこそ類似チェーンにより獲得すべき情報である。

このような類似チェーンとしては、後に詳述するように、基本類似チェーン、リンク類似チヱーン、局所チェーン、周期的チヱーンがあり、これらは、ビデオデータ解析において最も重要で基本的なものである。

ここで、基本類似チェーンとは、当該基本類似チェーンが含む全てのセグメントが互いに類似したものである。ただし、その構造パターンにおける制約はない。このような基本類似チヱーンは、一般に、セグメントをグループ化するためのグルーピングァルゴリズム又はクラスタリングアルゴリズムを用いて得ることができる。また、リンク類似チェーンとは、そのチェーン内において隣接するセグメントが互いに類似したものである。さらに、局所チェーンとは、隣接するセグメン卜の各対において、セグメント間の時間間隔が所定の時間よりも小さいものである。そして、周期的チェーンとは、各セグメン卜が、それよりも m番目後方のセグメントと類似したものである。すなわち、周期的チェーンは、 m個のセグメントが近似的に繰り返されることで構成される。

そして、このような類似チェーンは、以下に示すように、ビデオデータにおける例えばシーンといった局所的ビデオ構造や、例えばニュース項目といった大局的ビデオ構造を抽出するのに用いることができる。

ここで、シーンとは、ビデオデータを、その意味内容に基づいて、より高いレベルで記述するために、映像セグメント（ショット）検出或いは音声セグメント検出により得られたセグメントを、例えばセグメント内の知覚的ァクティビティ量といったセグメントの特徴を表す特徴量を用いて意味のあるまとまりにグループ化したものである。シーンは、主観的なものであり、ビデオデータの内容或いはジャンルに依存するが、ここでは、その特徴量が互いに類似性を示す映像セグメント又は音声セグメントの反復パターンをグループ化したものとする。

さて、上述した局所的ビデオ構造を抽出する類似チ: —ンの具体例として、図 2に示すように、 2人の話し手が互いに会話している場面において、映像セグメントが、話し手に応じて交互に現れる場合を考える。このような反復パターンを有するビデオデータにおいて、各映像セグメントは、 A成分及び B成分の各成分毎に、 2つの交差するチェーンにより構成される。そのため、一般に、このような交差する局所チヱ一ンは、関連する映像セグメントのグループ或いはシーンを検出するのに用いることができる。

また、上述した大局的ビデオ構造を抽出する類似チェーンの具体例として、図 3に示すように、固定構造を有するニュース番組を考える。このようなビデオデータにおいては、まず、各ニュース項目毎にニュースキャスターが項目を紹介するセグメントが出現し、それに続いて、例えば現地から特派員がリポー卜するセグメン卜が出現する。このような固定構造を有するビデオデータにおいては、繰り返し出現する-ユースキャスターの映像セグメントは、大局的チエーンを構成する。ここで、ニュースキャスターのセグメントは、各ニュース項目の開始部を示すため、大局的チェーンを用いることによって、ニュース項目を自動的に検出することができる。すなわち、大局的チェ一ンを用いることによって、同図において、トピック A， B , C , D， · · · といった複数のニュース項目から構成されるビデオデータの中から、各トピックを検出することができる。本発明を適用した実施の形態として図 4に示す映像音声処理装置 1 0は、上述したビデオデータにおけるセグメントの特徴量を用いてセグメント間の類似性を測定し、上述した類似チェーンを自動的に検出するものであり、映像セグメント及び音声セグメントの両方に適用できるものである。そして、映像音声処理装置 1 0は、類似チェーンを解析することによって、ビデオデータから、局所的ビデォ構造であるシーンや、大局的ビデオ構造であるトピック等の高レベルの構造を抽出 ·再構成することができる。

映像音声処理装置 1 0は、同図に示すように、入力したビデオデ —タのストリ一ムを映像、音声又はこれらの両方のセグメントに分割するビデオ分割部 1 1 と、ビデオデータの分割情報を記憶するビデォセグメントメモリ 1 2と、各映像セグメントにおける特徴量を抽出する特徴量抽出手段である映像特徴量抽出部 1 3 と、各音声セグメントにおける特徴量を抽出する特徴量抽出手段である音声特徴量抽出部 1 4と、映像セグメント及び音声セグメントの特徴量を記憶するセグメント特徴量メモリ 1 5と、映像セグメント及び音声セグメントをチェーンにまとめる検出手段であるチェーン検出部 1 6 と、 2つのセグメント間の類似性を測定する類似性測定手段である特徴量類似性測定部 1 7と、種々のビデオ構造を検出する解析手段であるチヱーン解析部 1 8とを備える。

ビデオ分割部 1 1は、例えば、 M P E G 1 (Mov ing Pi cture Exp erts Group phase 1 ) や M P E G 2 (Mov ing P i cture Expert s oro up phase 2) 、或いはいわゆる D V (Digi ta l Vi deo) のような圧縮ビデオデータフォーマットを含む種々のディジタル化されたフォーマットにおける映像データと音声データとからなるビデオデータのストリームを入力し、このビデオデータを映像、音声又はこれらの両方のセグメントに分割するものである。このビデオ分割部 1 1は、入力したビデオデータが圧縮フォーマツ卜であった場合、この圧縮ビデオデータを完全伸張することなく直接処理することができる。ビデオ分割部 1 1は、入力したビデオデータを処理し、映像セグメントと音声セグメントとに分割する。また、ビデオ分割部 1 1は、入力したビデオデータを分割した結果である分割情報を後段のビデォセグメントメモリ 1 2に供給する。さらに、ビデオ分割部 1 1は、映像セグメントと音声セグメントとに応じて、分割情報を後段の映像特徴量抽出部 1 3及び音声特徴量抽出部 1 4に供給する。

ビデオセグメントメモリ 1 2は、ビデオ分割部 1 1から供給されたビデオデータの分割情報を記憶する。また、ビデオセグメントメモリ 1 2は、後述するチヱーン検出部 1 6からの問い合わせに応じて、分割情報をチェーン検出部 1 6に供給する。

映像特徴量抽出部 1 3は、ビデオ分割部 1 1によりビデオデータを分割して得た各映像セグメント毎の特徴量を抽出する。映像特徴量抽出部 1 3は、圧縮映像データを完全伸張することなく直接処理することができる。映像特徴量抽出部 1 3は、抽出した各映像セグメン卜の特徴量を後段のセグメント特徴量メモリ 1 5に供給する。音声特徴量抽出部 1 4は、ビデオ分割部 1 1によりビデオデータを分割して得た各音声セグメント毎の特徴量を抽出する。音声特徴量抽出部 1 4は、圧縮音声データを完全伸張することなく直接処理することができる。音声特徴量抽出部 1 4は、抽出した各音声セグメン卜の特徴量を後段のセグメント特徴量メモリ 1 5に供給する。セグメント特徴量メモリ 1 5は、映像特徴量抽出部 1 3及び音声特徴量抽出部 1 4からそれぞれ供給された映像セグメント及び音声セグメン卜の特徴量を記憶する。セグメント特徴量メモリ 1 5は、後述する特徴量類似性測定部 1 7からの問い合わせに応じて、記憶している特徴量やセグメントを特徴量類似性測定部 1 7に供給する。チェーン検出部 1 6は、ビデオセグメントメモリ 1 2に保持された分割情報と、 1対のセグメント間の類似性とを用いて、映像セグメント及び音声セグメントをそれぞれチヱ一ンにまとめる。チェ一ン検出部 1 6は、グループ内の各セグメントから開始して、セグメント群の中から類似しているセグメントの反復パターンを検出し、このようなセグメントをチェーンにまとめていく。このチェーン検出部 1 6は、チヱ一ンの初期候補をまとめた後、第 2のフィルタリング段階を用いてチヱ一ンの最終セットを決定する。そして、チェーン検出部 1 6は、検出したチェーンを後段のチヱ一ン解析部 1 8 に供給する。

特徴量類似性測定部 1 7は、 2つのセグメント間の類似性を測定する。特徴量類似性測定部 1 7は、或るセグメントに関する特徴量を検索するようにセグメント特徴量メモリ 1 5に問いかける。

チェーン解析部 1 8は、チェーン検出部 1 6により検出されたチエーン構造を解析し、種々の局所的ビデオ構造及び大局的ビデオ構造を検出する。このチェーン解析部 1 8は、後述するように、その細部を特定のァプリケーションに合わせて調整することができる。このような映像音声処理装置 1 0は、類似チェーンを用いて図 5 に概略を示すような一連の処理を行うことによって、ビデオ構造を検出する。

まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 1において、ビデオ分割を行う。すなわち、映像音声処理装置 1 0 は、ビデオ分割部 1 1に入力されたビデオデータを映像セグメント又は音声セグメントのいずれか、或いは可能であればその両方に分割する。映像音声処理装置 1 0は、適用するビデオ分割方法に特に前提要件を設けない。例えば、映像音声処理装置 1 0は、 "G. Aha nger and i . D. C. Little, A survey of tecnnologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28— 4， 1996" ίこ記載されてレヽるような方法によりビデオ分割を行う。このようなビデオ分割の方法は、当該技術分野ではよく知られたものであり、映像音声処理装置 1 0は、いかなるビデオ分割方法も適用できるものとする。続いて、映像音声処理装置 1 0は、ステップ S 2において、特徴量の抽出を行う。すなわち、映像音声処理装置 1 0は、映像特徴量抽出部 1 3や音声特徴量抽出部 1 4によって、そのセグメントの特徴を表す特徴量を計算する。映像音声処理装置 1 0においては、例えば、各セグメントの時間長、カラーヒストグラムやテクスチャフィーチヤといった映像特徴量や、周波数解析結果、レベル、ピッチといった音声特徴量や、アクティビティ測定結果等が、適用可能な特徴量として計算される。勿論、映像音声処理装置 1 0は、適用可能な特徴量としてこれらに限定されるものではない。

続いて、映像音声処理装置 1 0は、ステップ S 3において、特徴量を用いたセグメントの類似性測定を行う。すなわち、映像音声処理装置 1 0は、特徴量類似性測定部 1 7により非類似性測定を行い、その測定基準によって、 2つのセグメン卜がどの程度類似しているかを測定する。映像音声処理装置 1 0は、先のステップ S 2において抽出した特徴量を用いて、非類似性測定基準を計算する。

続いて、映像音声処理装置 1 0は、ステップ S 4において、チェ —ンの検出を行う。すなわち、映像音声処理装置 1 0は、先のステップ S 3において計算した非類似性測定基準と、先のステップ S 2 において抽出した特徴量とを用いて、類似したセグメントのチヱ一ンを検出する。

そして、映像音声処理装置 1 0は、ステップ S 5において、チェーンの解析を行う。すなわち、映像音声処理装置 1 0は、先のステップ S 4において検出したチェーンを用いて、ビデオデータの局所的ビデォ構造及び又は大局的ビデオ構造を決定して出力する。このような一連の処理を経ることによって、映像音声処理装置 1 0は、ビデオデータからビデオ構造を検出することができる。したがって、ユーザは、この結果を用いることによって、ビデオデータの内容の索引付けや要約を行ったり、ビデオデータ中の興味のあるボイン卜に迅速にアクセスしたりすることが可能となる。

以下、同図に示した映像音声処理装置 1 0における処理を各工程毎により詳細に説明していく。

まず、ステップ S 1におけるビデオ分割について説明する。映像音声処理装置 1 0は、ビデオ分割部 1 1に入力されたビデオデータを映像セグメント又は音声セグメン卜のいずれか、或いは可能であればその両方に分割するが、このビデオデータにおけるセグメントの境界を自動的に検出するための技術は多くのものがあり、当該映像音声処理装置 1 0において、このビデオ分割方法に特別な前提要件を設けないことは上述した通りである。一方、映像音声処理装置

1 0において、後の工程によるチェーン検出の精度は、本質的に、基礎となるビデオ分割の精度に依存する。

つぎに、ステップ S 2における特徴量抽出について説明する。特徴量とは、セグメントの特徴を表すとともに、異なるセグメント間の類似性を測定するためのデータを供給するセグメン卜の属性である。映像音声処理装置 1 0は、映像特徴量抽出部 1 3や音声特徴量抽出部 1 4により各セグメントの特徴量を計算し、セグメントの特徴を表す。映像音声処理装置 1 0は、いかなる特徴量の具体的詳細にも依存するものではないが、当該映像音声処理装置 1 0において用いて効果的であると考えられる特徴量としては、例えば以下に示す映像特徴量、音声特徴量、映像音声共通特徴量のようなものがある。映像音声処理装置 1 0において適用可能となるこれらの特徴量の必要条件は、非類似性の測定が可能であることである。さらに、これらの特徴量は、映像音声処理装置 1 0が効率化のために特徴量抽出と上述したビデオ分割とを同時に行うことを可能とする必要がある。以下に説明する特徴量は、これらの必要条件を満たすものである。

特徴量としては、まず映像に関するものが挙げられる。以下では、これを映像特徴量と称することにする。映像セグメ.ントは、連続する映像フレームにより構成されるため、映像セグメントから適切な映像フレームを抽出することによって、その映像セグメントの描写内容を、抽出した映像フレームで代表して表現することが可能である。すなわち、映像セグメントの類似性は、適切に抽出された映像フレームの類似性で代替可能である。このことから、映像特徴量は、映像音声処理装置 1 0で用いることができる重要な特徴量の 1つである。この場合の映像特徴量は、単独では静的な情報しか表せないが、映像音声処理装置 1 0は、後述するような方法を適用することによって、この映像特徴量に基づく映像セグメン卜の動的な特徴を抽出することもできる。

映像音声処理装置 1 0において、映像における色は、 2つの映像が類似しているかを判断する際の重要な材料となる。カラーヒストグラムを用いて映像の類似性を判断することは、例えば "G. Ahang er and T. D.し. Little, A survey of technologies for parsing a nd indexing digital video, J. of Visual Communication and Im age Representation 7:28— 4， 1996" (こ記載されてレヽるよう ίこ、よく知られている。ここで、カラ一ヒストグラムとは、例えば H S Vや RG Β等の 3次元色空間を η個の領域に分割し、映像における画素の、各領域での出現頻度の相対的割合を計算したものである。そして、得られた情報からは、 n次元べクトルが与えられる。圧縮されたビデオデータに関しても、例えば U. S. Patent #5, 708， 767号公報に記載されているように、カラーヒストグラムを、圧縮データから直接抽出することができる。

映像音声処理装置 1 0では、セグメントを構成する映像におけるもともとの Y U V色空間を、色チヤンネル当たり 2.ビッ卜でサンプルして構成した、 2 ² · ³ = 6 4次元のヒストグラムべクトルを用いている。

このようなヒストグラムは、映像の全体的な色調を表すが、これには時間情報が含まれていない。そこで、映像音声処理装置 1 0においては、もう 1つの映像特徴量として、映像相関を計算する。映像音声処理装置 1 0におけるチェーン検出において、複数の類似セグメントが互いに交差した構造は、それがまとまった 1つのチェ一ン構造であることを示す有力な指標となる。例えば会話場面において、カメラの位置は、 2人の話し手の間を交互に移動するが、カメラは通常、同一の話し手を再度撮影するときには、ほぼ同じ位置に戻る。このような場合における構造を検出するためには、グレイスケールの縮小映像に基づく相関がセグメントの類似性の良好な指標となることを見出したことから、映像音声処理装置 1 0では、元の映像を M X Nの大きさのグレイスケール映像へ間引き縮小し、これを用いて映像相関を計算する。ここで、 Mと Nは、両方とも小さな値で十分であり、例えば 8 X 8である。すなわち、これらの縮小グレイスケール映像は、 M N次元の特徴量べクトルとして解釈される。さらに上述した映像特徴量とは異なる特徴量としては、音声に関するものが挙げられる。以下では、この特徴量を音声特徴量と称することにする。音声特徴量とは、音声セグメントの内容を表すことができる特徴量であり、映像音声処理装置 1 0は、この音声特徴量として、周波数解析、ピッチ、レベル等を用いることができる。これらの音声特徴量は、種々の文献により知られているものである。まず、映像音声処理装置 1 0は、フーリエ変換等の周波数解析を行うことによって、単一の音声フレームにおける周波数情報の分布を決定することができる。映像音声処理装置 1 0は、例えば、 1つの音声セグメントにわたる周波数情報の分布を表すために、 F F T (Fast Four i er Transform；高速フ一リエ変換）成分、周波数ヒストグラム、パワースペクトル、その他の特徴量を用いることができる。

また、映像音声処理装置 1 0は、平均ピッチや最大ピッチ等のピツチや、平均ラウドネスゃ最大ラゥドネス等の音声レベルもまた、音声セグメントを表す有効な音声特徴量として用いることができる。

さらに、映像音声処理装置 1 0は、ケプストラム特徴量として、ケプストラム係数とその 1次及び 2次微分係数とを含み、 F F Tスぺクトル又は L P C (Linear Pred i ct ive Coding；線形予測符号化）等から得られたケプストラムスぺクトル係数を用いることもできる。

さらに他の特徴量としては、映像音声共通特徴量が挙げられる。これは、映像特徴量でもなく音声特徴量でもないが、映像音声処理装置 1 0において、チェーン内のセグメントの特徴を表すのに有用な情報を与えるものである。映像音声処理装置 1 0は、この映像音声共通特徴量として、アクティビティを用いる。アクティビティとは、セグメントの内容がどの程度動的或いは静的であるように感じられるかを表す指標である。例えば、視覚的に動的である場合、アクティビティは、カメラが対象物に沿って迅速に移動する度合い若しくは撮影されているオブジェクトが迅速に変化する度合いを表す。

このアクティビティは、カラーヒストグラムのような特徴量のフレーム間非類似性の平均値を測定することによって、間接的に計算される。ここで、フレーム i とフレーム j との間で測定された特徴量 Fに対する非類似性測定基準を d _F ( i , j ) と定義すると、映像アクティビティ V _Fは、次式（ 1 ) のように定義される。

式（ 1 ) において、 bと f は、それぞれ、 1セグメントにおける最初と最後のフレームのフレーム番号である。映像音声処理装置 1 0は、具体的には、例えば上述したヒストグラムを用いて、映像ァクティビティを計算することができる。

ところで、上述した映像特徴量を始めとする特徴量は、基本的にはセグメントの静的情報を表すものであることは上述した通りであるが、セグメントの特徴を正確に表すためには、動的情報をも考盧する必要がある。そこで、映像音声処理装置 1 0は、以下に示すような特徴量のサンプリング方法により動的情報を表すこととする。映像音声処理装置 1 0は、例えば図 6に示すように、 1セグメント内の異なる時点から 1以上の静的な特徴量を抽出する。このとき, 映像音声処理装置 1 0は、特徴量の抽出数を、そのセグメント表現における忠実度の最大化とデータ冗長度の最小化とのバランスをとることにより決定する。例えば、セグメント内の或る 1画像が当該セグメントのキーフレームとして指定可能な場合には、そのキーフレームから計算されたヒストグラムが、抽出すべきサンプリング特徴量となる。

ところで、或るサンプルが常に所定の時点、例えばセグメント内の最後の時点において選択される場合を考える。この場合、黒フレームへ変化（fade) していく任意の 2つのセグメントについては、サンプルが同一の黒フレームとなるため、同一の特徴量が得られる結果になる恐れがある。すなわち、これらのセグメントの映像内容がいかなるものであれ、選択した 2つのフレームは、極めて類似していると判断されてしまう。このような問題は、サンプルが良好な代表値でないために発生するものである。

そこで、映像音声処理装置 1 0は、このように固定点で特徴量を抽出するのではなく、セグメント全体における統計的な代表値を抽出することとする。ここでは、一般的な特徴量のサンプリング方法を 2つの場合、すなわち、（ 1 ) 特徴量を実数の n次元ベクトルとして表すことができる場合と、（2 ) 非類似性測定基準しか利用できない場合とについて説明する。なお、（ 1 ) には、ヒストグラムやパワースぺクトル等、最もよく知られている映像特徴量及び音声特徴量が含まれる。

( 1 ) においては、サンプル数は、事前に kと決められており、映像音声処理装置 1 0は、 " L. Kaufman and P. J. Rousseeuw, Fin ding Groups in Data： An Introduction to Cluster Analysis, Joh n- Wiley and sons, 1990" に記載されてよく知られている k平均値クラスタリング法 (k - means-clustering method) を用レヽて、セグメント全体についての特徴量を k個の異なるグループに自動的に分割する。そして、映像音声処理装置 1 0は、サンプル値として、 k個の各グループから、グループの重心値（centroid) 又はこの重心値に近いサンプルを選択する。映像音声処理装置 1 0.におけるこの処理の複雑度は、サンプル数に関して単に直線的に増加するにとどまる。

—方、（2) においては、映像音声処理装置 1 0は、 "L. aufm an and P. J. Rousseeuw, Finding Groups in Data： An Introductio n to Cluster Analysis, John-Wiley and sons, 1990" に言己載されている kーメドィドアルゴリズム法 (k-medoids algorithm metho d) を用いて、 k個のグループを形成する。そして、映像音声処理装置 1 0は、サンプル値として、 k個のグループ毎に、上述したダル —プのメドィド（medoid) を用いる。

なお、映像音声処理装置 1 0においては、抽出された動的特徴を表す特徴量についての非類似性測定基準を構成する方法は、その基礎となる静的な特徴量の非類似性測定基準に基づくが、これについては後述する。

このようにして、映像音声処理装置 1 0は、静的な特徴量を複数抽出し、これらの複数の静的な特徴量を用いることによって、動的特徴を表すことができる。

以上のように、映像音声処理装置 1 0は、種々の特徴量を抽出することができる。これらの各特徴量は、一般に、単一ではセグメントの特徴を表すのに不十分であることが多い。そこで、映像音声処理装置 1 0は、これらの各種特徴量を組み合わせることで、互いに補完し合う特徴量の組を選択することができる。例えば、映像音声処理装置 1 0は、上述したカラーヒストグラムと映像相関とを組み合わせることによって、各特徴量が有する情報よりも多くの情報を得ることができる。

つぎに、図 5中ステップ S 3における特徴量を用いたセグメントの類似性測定について説明する。映像音声処理装置 1 0は、 2つの特徴量について、それがどの程度非類似であるかを測定する実数値を計算する関数である非類似性測定基準を用いて、特徴量類似性測定部 1 7によりセグメントの類似性測定を行う。この非類似性測定基準は、その値が小さい場合は 2つの特徴量が類似していることを示し、値が大きい場合は非類似であることを示す。ここでは、特徴量 Fに関する 2つのセグメント S S ₂の非類似性を計算する関数を非類似性測定基準 d _F (S L S ₂) と定義する。このような関数は. 以下の式（ 2 ) で与えられる関係を満足する。

d_F , S₂) = 0 のとき)

dp[^Si' ^Σ)^{≥ 0} f全ての ·？】，·?₂について) (2) dJs^s d s^s} (全ての， S₂ について、

ところで、非類似性測定基準の中には、或る特定の特徴量にのみ適用可能なものがあるが、 "G. Ahanger and T. D. C. Little, A su rvey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28 - 4, 1996" や "L. Kaufman and P. J. Rousseeuw, Finding Groups in Data '-An Introduction to Cluster Analysis, John-Wiley and son s, 1990" に記載されているように、一般には、多くの非類似性測定基準は、 n次元空間における点として表される特徴量についての類似性を測定するのに適用可能である。その具体例は、ユークリッド距離、内積、 L 1距離等である。ここで、特に L 1距離が、ヒストグラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作用することから、映像音声処理装置 1 0は、 L 1距離を導入する。ここで、 2つの n次元ベクトルを A, Bとした場合、 A, B間の L 1距離 d t, (A, B) は、次式（ 3) で与えられる。

d_L1 [Α,Β] =∑ Α -Β. · ' ' (3)

ここで、下付文字 iは、 η次元べクトル Α， Βのそれぞれの i番目の要素を示すものである。

また、映像音声処理装置 1 0は、上述したように、動的特徴を表す特徴量として、セグメン卜における様々な時点での静的な特徴量を抽出する。そして、映像音声処理装置 1 0は、抽出された 2つの動的特徴量の間の類似性を決定するために、その非類似性測定基準として、その基礎となる静的特徴量の間の非類似性測定基準を用いる。これらの動的特徴量の非類似性測定基準は、多くの場合、各動的特徴量から選択された最も類似した静的特徴量の対の非類似性値を用いて決定されるのが最良である。この場合、 2つの抽出された動的特徴量 S F ,， S F ₂の間の非類似性測定基準は、次式（4) のように定義される。

，^ mm

': 2 J F₁esF₁.^:esF_J ， F₂) · · ' (4)

ここで、上式（4) における関数 d _F (F F 2) は、その基礎となる静的特徴量 Fについての非類似性測定基準を示す。なお、場合によっては、特徴量の非類似性の最小値をとる代わりに、最大値又は平均値をとってもよい。

ところで、映像音声処理装置 1 0は、セグメントの類似性を決定する上で、単一の特徴量だけでは不十分であり、同一セグメントに関する多数の特徴量からの情報を組み合わせることを必要とする場合も多い。この 1つの方法として、映像音声処理装置 1 0は、種々の特徴量に基づく非類似性を、それぞれの特徴量の重み付き組み合わせとして計算する。すなわち、映像音声処理装置 1 0は、 k個の特徴量 F ,， F 2 , · · · , F_kが存在する場合、次式（5) に表される組み合わせた特徴量に関する非類似性測定基準 d _F (S：, S ₂) を用いる。 d^S^S^lwd^S^S^ ... (5) ここで、 { w i } は、 ∑ i w i = 1 となる重み係数である。

以上のように、映像音声処理装置 1 0は、図 5中ステップ S 2において抽出された特徴量を用いて非類似性測定基準を計算し、当該セグメント間の類似性を測定することができる。

つぎに、図 5中ステップ S 4におけるチェーン検出について説明する。映像音声処理装置 1 0は、非類似性測定基準と抽出した特徴量とを用いて、類似セグメント間のつながりを表す類似チェーンを検出する。ここでは、まず、幾つかのタイプの類似チェーンを定義し、各タイプの類似チェーンを検出するためのアルゴリズムについて具体的に説明する。

ところで、以下に定義される類似チェーンのタイプは、それぞれ互いに独立したものであるため、映像音声処理装置 1 0においては、 1つのチェーンが複数のタイプに属することが可能である。ここでは、このようなチェーンを、定義したタイプ名を組み合わせて称することにする。例えば、局所均一リンクチェーンは、後述するように、局所的であって均一でありリンク類似チェーンのことを示す。さて、類似チヱーンのタイプは、当該類似チェーンが含む類似セグメント間の関係に制約を有するものと、当該類似チェーンの構造に制約を有するものとに大別される。なお、以下の定義において、チェ一ン Cとは、一連のセグメント Sい， · · · ， S i mを表すこととする。ここで、ィンデックス i _kは、そのセグメントの、元のビデォデータ内におけるセグメント番号を表し、また iへの添え字 k は、そのセグメントが当該類似チェーン内において、時間軸上で k 番目に位置していることを表す。また、これらの一連のセグメントは、常に時間軸上において順序付けられているものとし、全ての k = 1 , · · . , m— 1について i _k< i _k+,である。さらに、 | C | は、チェーンの長さを表し、 C ^{s t a r 1}及び C °^ndは、それぞれ、ビデォデータにおけるチェ一ン Cの開始時刻及び終了時刻を表すものとする。より正確には、チェーン Cの開始時刻は、チヱ一ン Cにおける最初のセグメン卜の開始時刻であり、チェーン Cの終了時刻は、チェ一ン Cにおける最後のセグメントの終了時刻である。さらにまた、或るセグメントを Aとした場合、その類似セグメントを、 A' ， A' ' ， A' ' ' , · · ' で表す。最後に、 2つのセグメントが類似しているとは、それらの非類似性測定基準が、後述する非類似性閾値よりも小さい状態であることとし、これを s i m i l a r (S S ₂) で表す。

当該類似チーンが含む類似セグメント間の関係に制約を有する類似チェーンとしては、基本類似チェーン、リンク類似チェーン、周期的チヱ一ンがある。

まず、基本類似チェーンであるが、これは、図 7に示すように、全てのセグメントが互いに類似したチェーン Cである。なお、基本類似チェーンに構造的制約はない。この基本類似チェーンは、多くの場合、類似セグメントをグループ化するためのグルーピングアルゴリズム又はクラスタリングアルゴリズムの結果として得られるものである。

一方、リンク類似チェーンとは、図 8に示すように、隣接するセグメン卜が互いに類似したチェーン Cである。すなわち、リンク類似チェーンでは、全ての k = 1 , · · ' , I C I— 1について、 s i m i 1 a r ( S _k) S である。このリンク類似チェーンは、上述した類似セグメントの定義から、，，八，，，八' ， ' ， · • · と記述することができる。

さらに、周期的チェーンとは、図 9に示すように、各セグメントが、その後方 m番目のセグメントと類似したチェーン C _{c yc} cである。すなわち、周期的チェーンでは、全ての k = l , · · ·， I C _{cyc l} | — 1について、 s i m i 1 a r ( S _k, S _{k +} である。換言すれば、周期的チェーンは、 m個の一連のセグメントの近似的な繰り返しとして構成される。これより、周期的チェーンは、 S ,， S

2 , * " * , m , I ， S 2 , * * * , m ， 1 , O 2

* * ' , S m , Λ , S i , 2 , * * " » m

と記述することができる。

一方、構造的制約を有する類似チェーンとしては、局所チェーン、均一チヱーンがある。

ここで、局所チェーンとは、上述したように、隣接するセグメントの各対において、セグメント間の時間間隔が所定の時間よりも小さいチヱーン Cである。すなわち、局所チヱーンでは、チヱ一ン内の 2つのセグメント間において許容される時間間隔の最大値を g a Pと表すと、全ての k = 1 , · · ·， I C I — 1について、隣接するセグメント S i _k, S _{i k + l}に対して、 i _{k +1}— i _k≤ g a pである。また、チヱーン内のセグメントがほぼ等しい時間間隔で現れる場合、これは重要なビデオ構造の有力な指標となりうるが、このようなチェーン Cを均一チェーンと定義する。ここで、チェーン Cの均一性 u n i f o r m i t y (C) を、次式（ 6 ) に示すように、等間隔時間からの時間間隔のずれの平均値を、そのチェーンの長さで規格化したものとして定義する。 /JP00觸 422

29

1 。

小】 I 。、 ΐ { Vc^e"^d一う

s 、 i+l J j c| (6) uniformity[C =

|c|-

上式（6) で示されるチェーン Cの均一性 u n i f o r m i t y (C) は、 0から 1の範囲の値をとり、その値が小さい場合、セグメントの時間間隔分布が均一な分布に近いことを示す。この均一性 u n i f o r m i t y (C) の値が所定の均一性閾値よりも小さい場合、チェーン Cを均一チェーンとみなす。

以下、映像音声処理装置 1 0において、このような各種チェーンのそれぞれを検出するための処理について説明する。

映像音声処理装置 1 0は、上述した基本類似チェーンを検出するために、バッチクラスタリング技術或いは逐次クラスタリング技術を用いる。

バッチクラスタリング技術とは、チェーンを一括して検出する技術である。ただし、この技術を適用するためには、チェーン検出を行う前に、全てのビデオ分割を終了しておく必要がある。一方の逐次クラスタリング技術は、チェーンを逐次的に検出していく技術であり、もしビデオ分割及び特徴量抽出のまた逐次的に行われるならば、ビデオデータを再生しつつ逐次的にビデオ解析を行うことが可能となる。さらには、もし映像音声処理装置 1 0に十分な計算能力があるならば、この逐次的チェーン検出を実時間、換言すれば、ビデォデータを取込又は記録すると同時にチェーンを検出していくことができる。しかしながら、逐次的なビデオ解析は、その精度に問題を生じることがある。すなわち、逐次的な方法の場合、最適チエーン構造を決定するための大局的な情報がなく、さらにはセグメントの入力順序に敏感であるため、低品質の結果を生じることがある _c 映像音声処理装置 1 0は、バッチクラスタリング技術を用いる場合には、図 1 0に示すように、 2つの工程を経ることによって、基本類似チェーンを検出する。

まず、映像音声処理装置 1 0は、ステップ S 1 1において、候補チェーンの検出を行う。すなわち、映像音声処理装置 1 0は、ビデォデータにおける類似セグメントを検出し、クラスタとしてまとめる。これにより得られたセグメントのクラスタ群は、基本類似チェ —ンを検出する上での初期候補となる。

映像音声処理装置 1 0は、類似チェーンの初期候補を求める際、任意のクラスタリング技術を用いることができるが、ここでは、 " L. Kaufman and P. J. Rousseeuw, Finding uroups in Data： An 丄 nt roduction to Cluster Analysis, John-Wiley and sons, 1990" に記載されている階層的クラスタリング方法（hierarchical cluster ing method) を用いることにする。このアルゴリズムは、まず、最も類似した 2つのセグメントを 1つの対としてまとめることにより始まり、クラスタ間の類似性測定基準を用いて、各段階で最も類似したクラスタの対を次々とまとめていく。このアルゴリズムにおいて、 2つのクラスタ C C ₂間の非類似性測定基準 d c (C C ₂) を、次式（ 7) に示すように、それぞれのクラスタに含まれる 2つのセグメント間の最小非類似性として定義する。 d ic ,c)= ^min d (s^s) · · · (⁷⁾

なお、映像音声処理装置 1 oにおいては、必要に応じて、上式

(7) で示される最小関数の代わりに、最大関数又は平均関数を用いてもよい。

ところで、この階層的クラスタリング法は、仮に何らの制約のない場合、ビデオデータに含まれる全てのセグメントを単一のグループにまとめてしまう。そこで、映像音声処理装置 1 0は、図 1 1に示すように、非類似性閾値 δ _{s im}を導入し、この非類似性閾値 5 _{s im} との比較によって、或るセグメントが他方のセグメントと類似であるか否かを判断する。ここで、非類似性閾値 δ _{s im}とは、同図に示すように、 2つのセグメントがどの程度類似している場合に同一のチエーンに属するものとみなすかを決定する閾値である.。そして、映像音声処理装置 1 0は、全クラスタ対の非類似性がこの非類似性閾値 δ _imを超えない範囲において、セグメンドをクラスタにまとめていく。

なお、映像音声処理装置 1 0は、非類似性閾値 δ _{s im}をユーザにより設定するようにしてもよく、自動的に決定してもよい。ただし、非類似性閾値 δ _{s im}として固定値を用いる場合には、その最適値は、ビデオデータの内容に依存することとなる。例えば、変化に富んだ映像内容を有するビデオデータの場合、非類似性閾値 5 _{s im}は、高い値に設定される必要がある。一方、変化が少ない映像内容を有するビデオデータの場合、非類似性閾値 S _{s im}は、低い値に設定される必要がある。ここで一般に、非類似性閾値 δ _{s im}が高い場合には、検出されるクラスタ数は少なくなり、非類似性閾値 δ _{s im}が低い場合には. 検出されるクラスタ数は多くなるという性質がある。

これより、映像音声処理装置 1 0においては、適切な非類似性閾値 δ _{s im}を決定することが、その性能を左右する上で重要となる。そのため、映像音声処理装置 1 0においては、非類似性閾値 s _{s i m}をュ一ザにより設定する場合には、上述したことを考慮.した上で設定する必要がある。一方、映像音声処理装置 1 0は、以下に示す方法により、有効な非類似性閾値 δ _{s im}を自動的に決定することもできる。例えば、その 1つの方法として、映像音声処理装置 1 0は、

(n) (n - 1 ) 2個のセグメント対の間の非類似性の分布における平均値やメジアン（中央値）といった統計量を用いて、非類似性閾値 5 _{s im}を得ることができる。いま、全てのセグメント対における非類似性の平均値とその標準偏差をそれぞれ μ , σとした場合、非類似性閾値 5 _S ^は、 a μ + b σの形式で表すことができる。ここで、 a及び bは定数であり、それぞれ、 0. 5及び 0. 1に設定することが良好な結果を与えることを見出している。

実用上においては、映像音声処理装置 1 0は、全てのセグメント対について、それらの間の非類似性を求める必要はなく、その平均値及び標準偏差 σが真値に十分近い結果を与えるに足りるセグメント対を、全セグメント対集合からランダムに選択し、その非類似性を求めればよい。映像音声処理装置 1 0は、このようにして得られた平均値 μ及び標準偏差 σを用いることによって、適切な非類似性閾値 δ _{s im}を自動的に得ることができる。すなわち、映像音声処理装置 1 0は、例えば、セグメント対の全数を n、任意の小さい定数を Cとした場合、 C nで与えられる数のセグメント対の非類似性を抽出することによって、適切な非類似性閾値 δ _{s i m}を自動的に決定することができる。

映像音声処理装置 1 0は、これまでに示したようにセグメントのクラスタリングを行った後、各クラスタにて、当該各クラスタに含まれるセグメントを並べ替えることによって、基本類似チェーンの初期候補を得ることができる。

ところで、図 1 0中ステップ S 1 1において検出したチェーン候補は、その多くが、実際のビデオ構造とは無関係のものである。これより、映像音声処理装置 1 0は、どのチヱ一ン候補がビデオ構造の骨格をなす重要なチェーンである力、或いは、ビデオ構造に関連するチェーンであるかを決定する必要がある。そのため、映像音声処理装置 1 0は、ステップ S 1 2において、チェーンの品質を示す数的基準に対応する品質測定基準を用いたチーンフィルタリングを行う。すなわち、映像音声処理装置 1 0は、ビデオ構造解析におけるチエ一ン候補の重要性及び関連性を測定し、所定の品質測定基準閾値を上回るチェーン候補のみをチェーン検出の結果として出力する。ここで、フィルタリングで使用される関連性測定関数として最も単純な例は、チェーン候補が受け入れられるか否かを示すブール関数であるが、映像音声処理装置 1 0は、必要に応じて、より複雑な関連性測定関数を用いてもよい。

ところで、映像音声処理装置 1 0においては、チェーン品質測定基準として、チェーン長、チェーン密度、チェーン強度等が用いられる。

まず、チェーン長であるが、これは、 1つのチェーンが保有するセグメントの数と定義される。ここで、映像音声処理装置 1 0が、このチェーン長を、そのチェーン品質測定基準として用いることができるのは、一般にチェーン長が小さい場合であり、それは通常ノィズとしてみなすことが可能であることに依る。例えば、或るチェーンが単一セグメントしか有していない場合、それは何らの情報を有していない。すなわち、チェーン長に基づく品質測定基準では、その制約として、チェーンが保有すべきセグメント数の最小値が与えられることとなる。

次に、チェーン密度であるが、これは、或るチェーンが保有する全セグメント数と、そのチェーンが占めるビデオデータの部分領域における全セグメント数との比として定義される。これは、チヱ一ンが限られた時間領域内に集中して存在する方が好ましい場合があることに依る。この場合、映像音声処理装置 1 0は、このチェーン密度を、そのチェーン品質測定基準として用いればよい。

最後に、チェーン強度であるが、これは、チェーン内の各セグメン卜が互いにどの程度類似しているかを示す指標であり、当該セグメントが互いに類似しているほど、そのチェーンは高い強度を有しているとみなす。なお、映像音声処理装置 1 0において、このチェーン強度を測定する方法については、以下に示すチェーン内類似性測定法や、全ての可能なセグメント対の間の非類似性の平均値をとる方法、或いは、全ての可能なセグメント対の間の非類似性の最大値をとる方法を含め、多数存在する。

一例として、映像音声処理装置 1 0が、チェーン内類似性測定法によりチェーン強度を測定する場合を示す。ここで、チヱ一ン内類似性測定法とは、チェーンを構成するセグメントの類似性を、それぞれのセグメントと、そのチェーンが含む最も代表的なセグメントとの非類似性の平均値として表す方法である。典型的なセグメントの例としては、チェーンの重心（centroid) セグメントが挙げられる。いま、チェーン Cにおける重心セグメントを S _{c c n l r}。_{i d}とすると、この重心セグメント S _{c ent r}。_{i d}は、次式（8) で定義される。

argmin ι

S r d_v \S.， _R (8)

ここで、上式（ 8 ) における a r g m i nは、評価対象の式の値を最小とする入力 S_Aecを選択することを表す。

これより、チェーン強度を d _{c en l r}。とすると、このチェーン強度 d _c。_{nt r}。_{i d}は、次式（9 ) のように表される。

さて、映像音声処理装置 i oは、上述したチェーン品質測定基準を用いて、具体的に図 1 2に示すような一連の処理によりチェーンフィルタリングを行う。

まず、映像音声処理装置 1 0は、ステップ S 2 1において、チェーンリスト C , _{i s} tを候補チェーンで初期化するとともに、フィルタリングチェーンリスト C , i _{c r} を空状態にする。

続いて、映像音声処理装置 1 0は、ステップ S 2 2において、チエーンリスト C ,； _{s t}が空状態であるか否かを判別する。

ここで、チェーンリスト C M _{s t}が空状態であった場合には、映像音声処理装置 1 0は、対象とする候補チェーンが存在しないことから、一連の処理を終了する。

一方、チヱーンリスト C , i _{s t}が空状態でない場合には、映像音声処理装置 1 0は、ステップ S 2 3において、或るチェーン Cをチェーンリスト C , i _{s t}の最初の要素とし、チェ一ン Cをチェーンリスト

C , i s tから除去する。

続いて、映像音声処理装置 1 0は、ステップ S 2 4において、チエーン Cに関するチェーン品質測定基準を計算する。

そして、映像音声処理装置 1 0は、ステップ S 2 5において、このチェーン品質測定基準が品質測定基準閾値よりも大きいか否かを判別する。

ここで、チェーン品質測定基準が品質測定基準閾値よりも小さい場合には、映像音声処理装置 1 0は、ステップ S 2 2へと処理を移行し、再び別のチェーンに関する処理を行う。

一方、チェ一ン品質測定基準が品質測定基準閾値よりも大きい場合には、映像音声処理装置 1 0は、ステップ S 2 6において、フィルタリングチェーンリスト C _f i , t。_r "にチェ一ン Cを追加する。そして、映像音声処理装置 1 0は、ステップ S 2 7において、チヱ一ンリスト C , i _{s t}が空状態であるか否かを判別する。

一方、チヱ一ンリスト C M _{s l}が空状態でない場合には、映像音声処理装置 1 0は、ステップ S 2 3へと処理を移行する。このようにして、映像音声処理装置 1 0は、チヱーンリスト C , i s _tが空状態となるまで処理を繰り返す。

このような一連の処理によって、映像音声処理装置 1 0は、チェーンフィルタリングを行い、どのチヱ一ンが、ビデオ構造の骨格をなす重要なチェーンであるか、或いは、ビデオ構造に関連するチェーンであるかを決定することができる。

以上のように、映像音声処理装置 1 0は、このようなバッチクラスタリング技術を用いて、基本類似チェーンを検出することができる。

ところで、映像音声処理装置 1 0は、バッチクラスタリング技術とは別の方法として、上述した逐次クラスタリング技術を用いて、基本類似チェーンを検出することもできる。すなわち、映像音声処理装置 1 0は、ビデオデータにおけるセグメントを、その入力の順にしたがって 1つずつ処理して、チヱーン候補リストを繰り返し更新していく。映像音声処理装置 1 0は、この場合にも、バッチクラスタリング技術と同様に、チェーン検出の主たる工程を 2段階に分けて行う。すなわち、映像音声処理装置 1 0は、まず、逐次クラスタリングアルゴリズムを用いて、類似セグメントのクラスタを検出する。次に、映像音声処理装置 1 0は、バッチクラスタリング技術と同様のチェーン品質測定基準を用いて、検出されたクラスタをフィルタリングしていく。ここで、映像音声処理装置 1 0は、逐次クラスタリング技術を用いた場合のフィルタリング処理として、チェーンのフィルタリングが早い段階で進められる点において、バッチクラスタリング技術の場合と異なる。さて、逐次クラスタリング技術においては、セグメントのクラスタリングを行う際に、逐次クラスタリングァルゴリズムを用いる。ところで、一般に、ほとんどの逐次クラスタリングは、局所最適に行われる。すなわち、逐次クラスタリングアルゴリズムでは、新たなセグメン卜が入力される度に、そのセグメントを既存のクラスタに割り当てる力、、或いは、そのセグメントのみを含む新たなクラスタを生成するかを局所的に判断している。一方、より精巧な逐次クラスタリングアルゴリズムとしては、セグメントの入力順序にともなうバイアス効果を防ぐため、新たなセグメン卜が入力される度に、クラスタ分割そのものを更新するものもある。このようなアルゴリズム {こっレヽて i 、 J. Roure and L. Talavera, Robust increment al clustering with bad instance orderings： a new strategy, In Proceedings of the iixth Iberoamerican Conference on Art if i cal Intelligence, IBERAMIA-98. Pages 136-147. Lisbon, Portug al. Helder Coelho ed. , LNAI vol. 1484. Springer Verlag, 1998 " の記載を参照することができる。

映像音声処理装置 1 0は、逐次クラスタリングアルゴリズムの一例として、図 1 3に示すような処理を行う。ここでは、セグメントに分割されたビデオデータが、セグメント S · · · 、 S„を有しているものとする。なお、ここでは、チェ一ン解析の工程も含めた一連の処理について説明する。

まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 3 1において、チェーンリスト C , _{i s l}を空状態に初期化し、ステツプ S 3 2において、セグメント番号 i を 1に設定する。

次に、映像音声処理装置 1 0は、ステップ S 3 3において、セグメント番号 iが総セグメント数 nよりも小さいか否かを判別する。ここで、セグメント番号 iが総セグメント数 nよりも大きい場合には、映像音声処理装置 1 0は、対象とするセグメントが存在しないため、一連の処理を終了する。

一方、セグメント番号 iが総セグメント数 nよりも小さい場合には、映像音声処理装置 1 0は、ステップ S 3 4において、セグメント S i、すなわちここではセグメント S！を取り込み、ステップ S 3

5において、チェーンリスト C , _{s t}が空状態であるか否かを判別する。

ここで、チェーンリスト C , _{s l}が空状態である場合には、映像音声処理装置 1 0は、ステップ S 4 2へと処理を移行する。

一方、チェーンリスト C _{s t}が空状態でない場合には、映像音声処理装置 1 0は、ステップ S 3 6において、セグメント S ,に対する非類似性が最小であるチェーン C_{mi n}を求める。ここで、チェーン C _{tai n}は、次式（ 1 0) のように定義され.る。

上式（ 1 0) において、 d _sc (C S) は、チェーン Cとセグメント Sとの間の非類似性測定基準を表し、次式（ 1 1 ) で与えられる。 d SC ,s)

これは、バッチクラスタリング技術において定義した類似性測定基準である上式（ 7) において、その第 2引数を、当該セグメントのみを含んだクラスタとしたものと等価である。以下では、チェ一ン C_mi,、とセグメント S iとの間の最小非類似性 d_SC (C S i) を、単に d_{mi n}として表すこととする。

次に、映像音声処理装置 1 0は、ステップ S 3 7において、バッチクラスタリング技術の場合において説明したような非類似性閾値 δ を用い、最小非類似性 d_{mi n}が非類似性閾値 δ よりも小さいか否かを判別する。

ここで、最小非類似性 d_{mi n}が非類似性閾値 δ _{S im}よりも大きい場合には、映像音声処理装置 1 0は、ステップ S 4 2の処理へと移行し、唯一の要素セグメントとして当該セグメント s iのみを有する新たなチェ一ン C 。を生成し、ステップ S 4 3において、新たなチェ —ン C_n。_wをチェーンリスト C _{l i s l}に追加して、ステップ S 3 9の処理へと移行する。

一方、最小非類似性 d_{mi n}が非類似性閾値 δ _{s im}よりも小さい場合には、映像音声処理装置 1 0は、ステップ S 3 8において、チェ一ン C_{mi n}に当該セグメント S iを追加する。すなわち、映像音声処理装置 1 0は、 C_{mi n}— C_{mi n} U S iとする。

そして、映像音声処理装置 1 0は、ステップ S 3 9において、チヱーンをフィルタリングする。すなわち、映像音声処理装置 1 0は、上述したように、各要素チェーン C e C , i _{s t}について、チェーン C の品質を測定して、品質測定基準閾値を上回る品質測定基準を有するチェーンのみを選択し、これをチヱーンリスト C _{f i l} ^ r に追加する。さらに、映像音声処理装置 1 0は、ステップ S 4 0において、逐次的にチェーンを解析する。すなわち、映像音声処理装置 1 0は、その時点でのフィルタリングされたチェーンリスト C _{f i l t c r}。_dを解析モジュールに通す。

そして、映像音声処理装置 1 0は、ステップ S 4 1において、セグメント番号 i に 1を加算し、ステップ S 3 3の処理へと移行する _c このようにして、映像音声処理装置 1 0は、セグメント番号 iが総セグメント数 nよりも大きくなるまで、以上の一連の処理を繰り返し、セグメント番号 iが総セグメント数 nよりも大きくなつた際のチェーンリスト C _{l i s t}の各要素チェーンを、基本類似チヱ一ンとして検出する。

なお、同図に示す一連の処理は、入力されたビデオデータに含まれる総セグメント数 nが既知であることを前提としている。しかしながら、一般には、総セグメント数 nが前もって与えられていない場合も多い。その場合、逐次クラスタリングアルゴリズムは、同図中ステップ S 3 3において、セグメントの入力が引き続きあるか否かによつて、処理の続行或いは終了を判別すればよい。

このような一連の処理によって、映像音声処理装置 1 0は、逐次クラスタリング技術を用いた基本類似チェーンの検出を行うことができる。

つぎに、上述したリンク類似チヱ一ンを検出する処理について説明する。映像音声処理装置 1 0におけるリンク類似チェーンの検出は、基本類似チェーン検出の特殊なケースとして考えることができる。映像音声処理装置 1 0は、逐次クラスタリングアルゴリズムを用いたリンク類似チェーン検出方法として、図 1 4に示すような処理を行う。ここでは、セグメントに分割されたビデオデータが、セグメント S ,、 · · · 、 S _nを有しているものとする。なお、ここでは、チェーン解析の工程も含めた一連の処理を説明する。

映像音声処理装置 1 0は、同図に示すように、ステップ S 5 1において、チェーンリスト C _{s t}を空状態に初期化し、ステップ S 5 2において、セグメント番号 iを 1に設定する。

次に、映像音声処理装置 1 0は、ステップ S 5 3において、セグメント番号 iが総セグメント数 nよりも小さいか否かを判別する。ここで、セグメント番号 iが総セグメント数 nよりも大きい場合には、映像音声処理装置 1 0は、対象とするセグメントが存在しないため、一連の処理を終了する。

—方、セグメント番号 iが総セグメント数 nよりも小さい場合には、映像音声処理装置 1 0は、ステップ S 54において、セグメント S ,、すなわちここではセグメント S ,を取り込み、ステップ S 5 5において、セグメント S ,に対する非類似性が最小であるチェーン C_{mi n}を求める。ここで、チェーン C_{mi n}は、次式（ 1 2) のように定義される。

c^= L_ral d_sc[c,s) · . · (12)

上式（ 1 2) において、 d sc (C, S ) は、やはりチェーンじとセグメント Sとの間の非類似性測定基準を表すが、リンク類似チェーン検出においては、この非類似性測定基準 d _sc (C, S) は、次式（ 1 3) で与えられる。 d_sc = {c,s)d (s s)

すなわち、非類似性測定基準 d sc (C, S) は、基本類似チーンの検出の際に用いた非類似性測定基準である上式（ 1 1 ) とは異なり、当該セグメントと、チェーン Cにおける最後の要素セグメントとの間の非類似性として与えられる。

次に、映像音声処理装置 1 0は、ステップ S 5 6において、上述したような非類似性閾値 _{s im}を用い、最小非類似性。が非類似性閾値 _{s im}よりも小さいか否かを判別する。

ここで、最小非類似性が非類似性閾値 _{s im}よりも大きい場合には、映像音声処理装置 1 0は、ステップ S 6 1の処理へと移行し、唯—の要素セグメントとして当該セグメント S iのみを有する新たなチェーン C_newを生成し、ステップ S 6 2において、新たなチェーン C_newをチェ一ンリスト _{s t}に追加して、ステップ S 5 8の処理へと移行する。

一方、最小非類似性が非類似性閾値よりも小さい場合には、映像音声処理装置 1 0は、ステップ S 5 7において、チェ一ン C_{mi n}の末端に当該セグメント S iを追加する。すなわち、映像音声処理装置 1 0は、 C_{mi n}— C_{mi n}, S iとする。

そして、映像音声処理装置 1 0は、ステップ S 5 8において、チエーンをフィルタリングする。すなわち、映像音声処理装置 1 0は、上述したように、各要素チェーン C e C , _{i s t}について、チェーン C の品質を測定して、品質測定基準閾値を上回る品質測定基準を有するチヱーンのみを選択し、これをチェーンリスト C _{F I L} t。_{r c <i}に追加する。なお、映像音声処理装置 1 0は、この工程を省略することもできる。

さらに、映像音声処理装置 1 0は、ステップ S 5 9において、逐次的にチ-—ンを解析する。すなわち、映像音声処理装置 1 0は、その時点でのフィルタリングされたチェーンリスト C 。「を解析モジュールに通す。

そして、映像音声処理装置 1 0は、ステップ S 6 0において、セグメント番号 iに 1を加算し、ステップ S 5 3の処理へと移行する _c このようにして、映像音声処理装置 1 0は、セグメント番号 iが総セグメント数 nよりも大きくなるまで、以上の一連の処理を繰り返し、セグメント番号 iが総セグメント数 ηよりも大きくなつた際のチェーンリスト C M _{s t}の各要素チェーンを、リンク類似チェ一ンとして検出する。

このような一連の処理によって、映像音声処理装置 1 0は、このような逐次クラスタリング技術を用いて、リンク類似チヱ一ンを検出することができる。

なお、同図に示す一連の処理は、入力されたビデオデータに含まれる総セグメント数 nが既知であることを前提としている。しかしながら、一般には、総セグメント数 ηが前もって与えられていない場合も多い。その場合、逐次クラスタリングアルゴリズムは、同図中ステップ S 5 3において、セグメン卜の入力が引き続きあるか否かによつて、処理の続行或いは終了を判別すればよい。

つぎに、上述した周期的チェーンを検出する処理について説明する。周期的チェーン C ^ d は、 k個の異なる基本類似チェーン又はリンク類似チェーンがまとまつたもの { C ,， · · · ， C k} とみなすことができる。以下、周期的チヱーン C c yc M c内のセグメントを、 · · · ， S „と記述し、また C ( S i) は、セグメント S i の出現元のチェーン番号 1、 · . · 、 kを示すこととする。これより、 C_{cyc l i c}が周期的チェーンであるならば、 C ( S ,) ， C ( S

2) , · · · , C ( S n) なる一連のチェーン番号の並びは、 i .

• · , i k, i i , · · · , i k, · · · , i l , · · · , i kとレヽっ开式で記述されることとなる。ここで、その 1周期分 i · · · , i _kは、チヱ一ン番号 1， · · . ， kの順列、換言すれば、重複しない任意の並びである。なお、以下では、 1周期内に含まれるセグメン卜の数が 1つである周期的チェーン i i · · · , i 1を基本周期チェーンと称することとする。

ところで、通常、ビデオデータにおける周期的構造は、各周期が完全に一致したものではなく近似的なものであるため、映像音声処理装置 1 0は、図 1 5に示すような一連の処理によって、ビデオデータ内の近似的な周期的チェーンを探す。ここで、映像音声処理装置 1 0は、必要に応じて、その元となる基本周期チェーンが均一でなければならないという制約条件を追加することができる。ここでは、この制約条件のもとに行われる処理について説明する。

まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 7 1及びステップ S 7 2において、ビデオデータに含まれる基本周期チェーンを検出し、それに基づいて初期チェーンリストを生成し、さらに初期チェーンリストに含まれる基本周期チェーンの全てが均一チェーンの制約条件を満たすように、初期チェーンリストを更新する。すなわち、映像音声処理装置 1 0は、ステップ S 7 1において、上述した基本類似チヱーン又はリンク類似チェーンを検出するアルゴリズムを用いて、初期チェーンリスト C , i nを求める。

そして、映像音声処理装置 1 0は、ステップ S 7 2において、初期チェーンリス卜に含まれる各チェーン Cについて、その均一性を確認し、チェーン Cが均一でない場合には、このチェーン Cを、その時間的間隔が最大となるような複数の均一サブチェーンに分割する。続いて、映像音声処理装置 1 0は、得られた均一サブチェーンを、上述した基本類似チェーン又はリンク類似チェーンを検出するアルゴリズムにおいて説明したようなチヱ一ン品質測定基準を用いてフィルタリングし、選択された均一サブチェーンを初期チェ一ンリスト C , i _{s t}に追加する。

次に、映像音声処理装置 1 0は、ステップ S 7 3において、チェーンリスト C , _{i s t}の中から、時間的に重複して交差する 1対のチヱ

—ン、すなわち、ョ c c I [c , ^{s 1 a r l}, c i ^cnd] n [c₂ ^{s l a r t}, C ₂ ^end] なるチェーン c c₂を求める。

そして、映像音声処理装置 1 0は、ステップ S 74において、このような重複しているチヱーン C C ₂が存在するか否かを判別する。

ここで、重複しているチェーン C C が存在しない場合には、映像音声処理装置 1 0は、チェーンリス C _{l i s t}が既に複数の周期的チェーンを含んでいるものとして、一連の処理を終了する。

一方、重複しているチェーン C C₂が存在する場合には、映像音声処理装置 1 0は、ステップ S 7 5乃至ステップ S 7 8において、 2つのチェーン C C₂がまとまった 1つの周期的チェーンを構成するか否 c Cかを決定するため、その 2つの周期的チェ一ンを合わせた周期的チェーンにおいて、各周期の間の整合性を評価する。

すなわち、映像音声処理装置 1 0は、ステップ S 7 5において、 2つのチヱーン C C ₂を合わせて、新たな周期的チェーン CMを形成する。ここで、チェーン C_Mにおけるセグメントを S S 2, · · • , S i cM iと表すこととする。

続いて、映像音声処理装置 1 0は、ステップ S 7 6において、セグメント S ,の出現元のチェーン番号 C (S ,) を Cとし、チェーン番号の並び C ( S ,) , C ( S ₂) , . · · , C ( S I CM I) において Cの発生毎に、すなわち、セグメント S iと同じチェーンに属するセグメントが出現する直前を境に、チェーン C_Mをサブチェ一ン CM¹ , CM², · · · , Cr に分解する。この結果、映像音声処理装置 1 0 は、次式（ 1 4 ) に示すようなサブチェーンのリストを得る。

-,S.,

S

'2，

(14)

C* =5.

この操作から明らかなように、上式（ 1 4 ) では、全ての C_M ^Jについて、 C ( S M ₊ 1 ) = C ( S >) が成り立つ。

続いて、映像音声処理装置 1 0は、ステップ S 7 7において、最も出現頻度の高いサブチェーン C _M ^{E Y E L E}を見つける。すなわち、映像音声処理装置 1 0は、次式（ 1 5 ) に示すような処理を行う。 ^M

そして、映像音声処理装置 1 0は、ステップ S 7 8において、最も出現頻度の高いサブチェーン c_M ^{c e}が、元のチーン c_Mの 1周期となりうるか否かを評価する。すなわち、映像音声処理装置 1 0 は、整合係数 m e s hを、次式（ 1 6) で示すように、ステップ S 7 6にて求めた C_M。 "'。の出現頻度のサブチヱ一ン総数に対する比で定義し、続くステップ S 7 9において、この整合係数が所定の閾値を越えるか否かを判別する。

ここで、整合係数が閾値を越えていない場合には、映像音声処理装置 1 0は、ステップ S 7 3の処理へと移行し、他の重複しているチェーンを求めて同様の処理を繰り返す。

—方、整合係数が閾値を越えている場合には、映像音声処理装置 1 0は、ステップ S 8 0において、チェーン C ,， C ₂をチェーンリスト C , _{i s t}から除去して、ステップ S 8 1において、チェーン CMをチェーンリス C _{l i s l}に追加し、ステップ S 7 3の処理へと移行する。

映像音声処理装置 1 0は、チェーンリスト C , i _{s t}に含まれる全ての周期的チェーンについて重複しているチェーンが存在しなくなるまでこのような一連の処理を繰り返すことによって、最終的な周期的チェーンを含むチヱーンリスト C _{l i s l}を得ることができる。

以上のように、映像音声処理装置 1 0は、非類似性測定基準と抽出した特徴量とを用いて、類似したセグメントの各種チェーンを検出することができる。

つぎに、図 5中ステップ S 5におけるチェーン解析について説明する。映像音声処理装置 1 0は、検出したチェーンを用いて、ビデォデータの局所的ビデオ構造及びノ又は大局的ビデオ構造を決定して出力する。ここでは、ビデオデータに発生する基本的な構造バタ

—ンを検出するのに、チェーン解析の結果をどのように用いるのかについて具体的な例を挙げて説明する。

まず、ビデオデータに発生する局所的な構造パターンであるシーンについて説明する。

シーンは、上述したように、セグメントのレベルより上位に位置づけられた最も基本的な局所的ビデオ構造の単位であり、意味的に関連する一連のセグメントから構成される。映像音声処理装置 1 0 は、チェーンを用いて、これらのシーンを検出することができる。映像音声処理装置 1 0におけるシーン検出において、チェーンが満たすべき条件とは、そのチヱ一ンが含む全てのセグメントに関して、互いに連続したセグメント間の時間間隔が、時間閾値と称される或る定められた値を超えないことである。ここでは、この条件を満たすチェーンを局所チェーンと称する。

映像音声処理装置 1 0は、チェーンを用いてシーンを検出するために、図 1 6に示すような一連の処理を行う。

まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 9 1乃至ステップ S 94において、局所チェ一ンリストを求める。すなわち、映像音声処理装置 1 0は、ステップ S 9 1において、上述した基本類似チヱーン検出アルゴリズムを用いて、 1組の初期チェーンリストを求める。

次に、映像音声処理装置 1 0は、ステップ S 9 2において、求めた初期チェ一ンリストにおける各チェーン Cについて、チェーン C が局所チェーンでない場合には、チェーン Cを、局所チェーンの条件範囲において最長であるところの局所サブチヱ一ン C = C · · •， C _nの並びに分解する。

その後、映像音声処理装置 1 0は、ステップ S 9 3において、チヱーンリストからチェーン Cを除去する。

さらに、映像音声処理装置 1 0は、ステップ S 94において、各サブチェーン C iをチェーンリストに追加する。この工程が終了すると、全てのチェーンが局所的となる。

次に、映像音声処理装置 1 0は、ステップ S 9 5において、チェーンリス卜の中から、時間的に交差する 1対の重複しているチヱ一ン c c₂、すなわち、ョ c c₂ I [c,^slart, c i ^ond [c t^{S Γ l}, C a⁰"'] であるところのチェーン C ,, C₂を求める。

続いて、映像音声処理装置 1 0は、ステップ S 9 6において、このような重複しているチヱ一ン C ,， C ₂が存在するか否かを判別する。ここで、重複しているチェーン C ,， C ₂が存在しない場合には、映像音声処理装置 1 0は、チェーンリストに含まれた各チェーン毎に 1つのシーンが存在するものとして、一連の処理を終了する。一方、重複しているチェーン C C ₂が存在する場合には、映像音声処理装置 1 0は、ステップ S 9 7において、重複しているチェーン C i， C ₂を合わせて、新たなチェーン C _Mを形成する。

さらに、映像音声処理装置 1 0は、ステップ S 9 8において、チエーンリストから重複しているチェ一ン C C ₂を除去して、チェ一ン C _Mを追加し、その後再びステップ S 9 5の処理へと移行して、同様の処理を繰り返す。

このようにした結果、重複しているチェーンがチェーンリスト内に存在しなくなったとき、最終的に得られたチェ一ンリストに含まれた各チェーン毎に、 1シーンが存在することになる。なお、チェーン C iに対応するシーン S iの境界は、 C ^{s l s} M及び c。^{n d}で与えられる。

ところで、セグメントの中には、いかなるチェーンにも割り当てられずに残るものがあるが、映像音声処理装置 1 0は、既定値としては、 2つの検出されたシーン間に残ったこのようなセグメントをまとめて 1つのシーンとする。

このような一連の処理によって、映像音声処理装置 1 0は、チヱーンを用いることによって、ビデオデータにおける局所的な構造パターンであるシーンを検出することができる。

このような処理を先に図 2に示した会話場面に適用する場合を考える。この場合、映像音声処理装置 1 0は、ステップ S 9 1乃至ステツプ S 9 4において、話し手のセグメントのそれぞれについて、局所チェーンを求める。そして、映像音声処理装置 1 0は、ステツプ S 9 7において、これらのチェーンをまとめ、シーン全体を表す単一の大きいチェーンを形成することになる。

このように、映像音声処理装置 1 0は、会話場面におけるシーンを検出することができる。

なお、映像音声処理装置 1 0においては、シーンを検出した際に、シーン内の全てのセグメントがチェーンに含まれる訳ではないことには注意を要する。

また、映像音声処理装置 1 0は、上述したアルゴリズムを逐次的に行うことによって、シーンを逐次的に検出することもできる。つぎに、大局的な構造パターンとして、ニュース項目を検出する場合について説明する。

上述したように、ニュース番組は、そのニュース項目が、例えば、まずアンカーによる導入文で始まり、現場からの 1以上のリポートが続くといった周期的構造を有している。すなわち、このようなビデォ構造は、アンカーショットから次のアンカーショッ卜の直前までを 1周期とした単純な周期的構造であるとみなすことができる。映像音声処理装置 1 0は、チェーンを用いてニュース項目を自動的に検出するために、図 1 7に概略を示すような一連の処理を行う。まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 1 0 1において、上述した周期的チェーン検出アルゴリズムを用いて、周期的チェーンの検出を行う。この工程を行うことによって、映像音声処理装置 1 0は、周期的チェーンのリストを得ることができる。ここで、各周期は、ニュース項目を表してもよく、表さなくてもよい。次に、映像音声処理装置 1 0は、ステップ S 1 0 2において、その周期が、ビデオデータの全長の所定割合よりも短いところの周期的チェーンを全て除去する。すなわち、映像音声処理装置 1 0は、この工程を行うことによって、ニュース項目を表す見込みのない短い周期の周期的チェーンを排除することができる。このような周期は、例えば司会者がゲス卜にインタビューをする場合或いは他の短時間周期がニュース放送において現れる場合に発生しうるものである。

そして、映像音声処理装置 1 0は、ステップ S 1 0 3において、ステップ S 1 0 2において残った全ての周期的チェーンについて、時間的に最も短い周期的チェーンを求め、この周期的チェーンが他の周期的チェーンに重なる場合には、その周期的チェーンを周期的チヱーンのリストから除去する。映像音声処理装置 1 0は、いかなる周期的チェーンも他の周期的チェーンと重なることがなくなるまで、この処理を繰り返す。このステップ S 1 0 3が終了した後に残つた周期的チェーンのリストは、検出したニュース項目リストを含むこととなる。すなわち、ステップ 1 0 3にて得られた周期的チェーンのリストの各周期は、それぞれ、 1つのニュース項目を表す。このようにして、映像音声処理装置 1 0は、チェーンを用いて二ユース項目を自動的に検出することができる。

なお、特筆すべきは、映像音声処理装置 1 0は、例えば、ニュース放送のメイン、スポーツ、ビジネスの各セグメントの間といったュユース放送の途中にニュースキャスターが変わった場合にも、問題なく作用することができることである。

つぎに、スポーツ放送におけるプレイを検出する場合について説明する。

多くのスポーツは、同じ一連の工程が何度も繰り返されることによりプレイが構成されるといった固定パターンを有するという特徴がある。例えば、野球の場合には、ピッチャーがポールを投げ、バッターがボールを打とうとすることによりプレイが構成される。ビデォデータにおいて、このようなプレイ構造を有する他のチームスポ一ッとしては、例えばフットポールやラグビーが挙げられる。このプレイ構造が放送されると、ビデオデータは、プレイの各部分についてのセグメント群の繰り返しを表すこととなる。すなわち, ビデオデータは、ピッチャーを表すセグメントの後に、バッターを表すセグメントが続き、ボールが打たれた場合には、外野選手等を表すセグメントが入ることになる。そのため、野球放送に対して映像音声処理装置 1 0によるチヱ一ン検出を適用した場合には、ビデォデータにおいて、ピッチャーを表すセグメントが 1チェーンとして検出され、バッターを表すセグメントが別の 1チェーンを占め、その他のチェーンが外野や種々の光景にあたることになる。

すなわち、これらのスポーツ放送においては、プレイ構造が、上述した周期的チェーン検出方法を用いて検出することができる周期的映像となる。このような他の例として、テニスが挙げられる。テニスにおいて、ビデオデータは、サーブ、ボレー、サーブ、ボレーといったような周期を構成する。この場合、各サーブを表すセグメントは、映像的に互いに類似しているため、映像音声処理装置 1 0 は、プレイを検出するために、このようなセグメントを用いることができる。その結果、映像音声処理装置 1 0による構造解析においては、近似的にゲームのプレイ構造を検出することができる。さらに、他のスポーツ、特に個人競技においては、プレイ構造としては、 1人の競技者が或る活動を完結するまで行うことになるが- 各競技者は、全て近似的に同じ活動を行っているとみなすことができる。例えば、スキージャンプ競技では、各競技者が 1回ジャンプを行い、次の競技者が続いて同様のジャンプを行う。すなわち、ジヤンプ競技の放送におけるビデオデータは、競技者がジャンプの準備に入り、助走路を滑り降りて、着地するというセグメントの並びからなるのが一般的である。これより、ビデオデータは、このような一連のセグメントを、各競技者毎に繰り返すことで構成される。このような放送におけるビデオデータに対してチェーン検出を適用した場合には、ジャンプの各段階毎に類似した一連のチヱ一ンを検出することになる。したがって、各競技者毎の周期は、周期的チェーン検出方法を用いて抽出することができる。

映像音声処理装置 1 0において、チェーン解析によりスポーツ放送におけるプレイを自動的に検出する際には、適当でないチェーンを排除するために、さらなる制約を設ける必要がある場合がある。どのような制約が適切であるかは、スポーツの種類によって異なるが、例えば、映像音声処理装置 1 0は、検出された周期的チェーンのうち、その周期が十分長いものだけをプレイとして検出するという経験的なルールを用いることができる。

すなわち、映像音声処理装置 1 0は、チェーンを用いてスポーツ放送におけるプレイを自動的に検出するために、図 1 8に概略を示すような一連の処理を行う。

まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 1 1 1において、上述した周期的チェ一ン検出アルゴリズムを用いて、周期的チェーンを検出する。

そして、映像音声処理装置 1 0は、ステップ S 1 1 2において、得られたチェーンのリストに対して品質条件を適用し、そのチェ一ンリストをフィルタリングして、本質的でないチヱ一ンを除去する _c 品質条件としては、例えば、プログラムの大部分にわたるような周期的チェーンのみを残すといったことが挙げられる。勿論、映像音声処理装置 1 0は、対象とするスポーツに特有の制約条件を追加してもよい。

このようにして、映像音声処理装置 1 0は、チェーン解析によりスポーツ放送におけるプレイを自動的に検出することができる。つぎに、周期検出とシーン検出とを組み合わせてトピックを検出する場合について説明する。

例えば、ドラマ、コメディ、バラエティといった多くのテレビ番組におけるビデオデータは、上述したシーンにより構成されている。しかし、ビデオデータは、その上位の構造として、幾つかの関連シーンの並びから構成されるトピックなる構造を有する場合がある。このトピックは、必ずしも、常にスタジオ司会者による紹介セグメン卜に始まるような-ユース放送におけるトピックと類似したものであるとは限らない。例えば、視覚的な例として、紹介セグメントの代わりにロゴイメージのセグメント或いは総合司会者のセグメントが用いられたり、或いは聴覚的な例として、新たなトピックが始まる度に、常に同じテーマ音楽が流されたりする場合がある。

或る番組におけるビデオデータが、このようなトピック構造を有しているか否かは、周期検出とシーン検出とを組み合わせることによって、判断することができる。そのため、映像音声処理装置 1 0は、チェーンを用いた周期検出とシーン検出とを組み合わせたトピック検出を行うために、図 1 9 に概略を示すような一連の処理を行う。

まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 1 2 1において、基本類似チェーン検出を行い、 1組の基本類似チエーンリストを識別する。

次に、映像音声処理装置 1 0は、ステップ S 1 2. 2において、周期的チェーン検出を行い、 1組の周期的チェーンのリストを識別する。

続いて、映像音声処理装置 1 0は、ステップ S 1 2 3において、ステップ S 1 2 1において求めた基本類似チェ一ンリストを用い、先に図 1 6に示したアルゴリズムを適用して、シーン構造を抽出する。映像音声処理装置 1 0は、この結果、シーンのリストを得ることができる。

そして、映像音声処理装置 1 0は、ステップ S 1 2 4において、ステップ S 1 2 2において求めた周期的チェーンのリストを、ステップ S 1 2 3において検出した各シーン要素と比較する。ここで、映像音声処理装置 1 0は、検出したシーンのリストに含まれるシーンょりも短い周期の周期的チェーンを全て除去する。この結果得られた残りの周期的チヱーンは、各周期が幾つかのシーンを有しているが、この各周期はそれぞれ、候補トピックとして識別されることとなる。

このようにして、映像音声処理装置 1 0は、チヱーンを用いた周期検出とシーン検出とを組み合わせることによって、トピック検出を行うことができる。なお、映像音声処理装置 1 0は、ステップ S 1 2 4において、その他の制約や品質条件を設けることによって、トピック検出の精度を高めることもできる。

以上のように、映像音声処理装置 1 0は、検出した各種チェーンを用いて、ビデオデータの各種局所的ビデオ構造及びノ又は各種大局的ビデオ構造を決定して出力することができる。

以上説明してきたように、本発明の実施の形態として示す映像音声処理装置 1 0は、互いに類似する複数の映像セグメント又は音声セグメン卜から構成される類似チェーンを検出することが可能である。そして、映像音声処理装置 1 0は、これらの類似チェーンを解析することによって、高レベルのビデオ構造を抽出することができる。特に、映像音声処理装置 1 0は、局所的ビデオ構造及び大局的ビデオ構造の解析を共通の枠組みで行うことができる。

この映像音声処理装置 1 0は、完全に自動的に処理を行うことができ、ユーザが事前にビデオデータの内容の構造を知る必要はない _c また、映像音声処理装置 1 0は、逐次的なチェーン検出を用いることにより、逐次的にビデオ構造を解析することも可能であり、さらに、プラットホームの計算能力が十分強力であるならば、ビデオ構造解析を実時間で行うことが可能である。これにより、映像音声処理装置 1 0は、事前に記録されたビデオデータの他、ライプのビデォ放送にも用いることができる。例えば、映像音声処理装置 1 0 は、スポーツ放送におけるプレイ検出において、ライブのスポーツ放送に適用可能である。

さらに、映像音声処理装置 1 0は、ビデオ構造を検出した結果、ビデオブラゥジングのための新たな高レベルアクセスの基礎を与えることができる。すなわち、映像音声処理装置 1 0は、セグメントではなくトピックといった高レベルのビデオ構造を用いてビデオデータの内容を映像化することにより、内容に基づいたビデオデータへのアクセスを可能とする。例えば、映像音声処理装置 1 0は、シーンを表示することにより、ユーザは、番組の要旨をすばやく知ることができ、興味のある部分を迅速に見つけることができる。

さらにまた、映像音声処理装置 1 0は、ニュース放送におけるトピック検出の結果を用いることにより、ュ一ザに、ニュース項目単位での選択や視聴を可能とする等、ニュース放送に対して、強力で新しい方法のアクセスを可能とする。

また、映像音声処理装置 1 0は、ビデオ構造検出の結果、ビデオデータの要約を自動的に作成するための基礎を与えることができる。一般に、筋の通った要約を作成するためには、ビデオデータに含まれる任意のセグメントを組み合わせるのではなく、ビデオデータを再構成可能な意味を持つ成分に分解し、それを元に適切なセグメントを組み合わせることが必要である。映像音声処理装置 1 0により検出されたビデオ構造は、そのような要約を作成するための基礎的な情報を提供するものである。

さらに、映像音声処理装置 1 0では、ビデオデータを、そのジャンル別に解析することが可能である。例えば、映像音声処理装置 1 0は、テニスの試合のみを検出することを可能とする。

これより、映像音声処理装置 1 0は、放送局におけるビデオ編集システムに組み込まれることにより、ビデオデータを、その内容に基づいて編集することを可能とする。

さらにまた、映像音声処理装置 1 0は、一般家庭において、ホームビデオを解析したり、ホームビデオからビデオ構造を自動的に抽出するのに用いることができる。さらに、映像音声処理装置 1 0は. ビデオデータの内容の要約や、その内容に基づいた編集を行うのに用いることができる。

一方、映像音声処理装置 1 0は、ビデオチヱーンを、人手によるビデオデータの内容の解析を補足するツールとして使用することが可能である。特に、映像音声処理装置 1 0は、チ: ーン検出の結果を映像化することにより、ビデオデータの内容のナビゲーションゃビデオ構造解析が容易にすることができる。

また、映像音声処理装置 1 0は、そのアルゴリズムが非常に単純であり計算上の効率もよいため、セットトップボックスゃデイジタルビデオレコ一ダ、ホームサーバ等の家庭用電子機器にも適用することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく，例えば、セグメント間の類似性測定のために用いる特徴量や、適用可能なビデオデータの内容等は、上述したもの以外でもよいことは勿論であり、その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。産業上の利用可能性以上詳細に説明したように、本発明にかかる信号処理方法は、供給された信号の内容の意味構造を反映するパターンを検出して解析する信号処理方法であって、信号を構成する連続したフレームのひと続きから形成されるセグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出工程と、特徴量を用いて、特徴量のそれぞれ毎に、セグメン卜の対の間の類似性を測定する測定基準を算出して、この測定基準によりセグメントの対の間の類似性を測定する類似性測定工程と、特徴量と測定基準とを用いて、セグメントのうち、互いに類似する複数のセグメントから構成される類似チェーンを検出する検出工程とを備える。

したがって、本発明にかかる信号処理方法は、信号において類似したセグメントが構成する基本的な構造パターンを検出することができ、これらの構造パターンがどのように組み合わせられているかを解析することによって、高レベルの構造を抽出することができる _c また、本発明にかかる映像音声処理装置は、供給されたビデオ信号の内容の意味構造を反映する映像及び又は音声のパターンを検出して解析する映像音声処理装置であって、ビデオ信号を構成する連続した映像及び又は音声フレームのひと続きから形成される映像及びノ又は音声セグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出手段と、特徴量を用いて、特徴量のそれぞれ毎に、映像及び又は音声セグメン卜の対の間の類似性を測定する測定基準を算出して、この測定基準により映像及び又は音声セグメントの対の間の類似性を測定する類似性測定手段と、特徴量と測定基準とを用いて、映像及び又は音声セグメントのうち、互いに類似する複数の映像及びノ又は音声セグメントから構成される類似チェーンを検出する検出手段とを備える。

したがって、本発明にかかる映像音声処理装置は、ビデオ信号において類似した映像及び/又は音声セグメン卜の基本的な構造バタ —ンを決定して出力することが可能であり、これらの構造パターンがどのように組み合わせられているかを解析することによって、高レベルのビデオ構造を抽出することが可能となる。

Claims

請求の範囲

1 . 供給された信号の内容の意味構造を反映するパターンを検出して解析する信号処理方法であって、

上記信号を構成する連続したフレームのひと続きから形成されるセグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出工程と、

上記特徴量を用いて、上記特徴量のそれぞれ毎に、上記セグメン卜の対の間の類似性を測定する測定基準を算出して、この測定基準により上記セグメントの対の間の類似性を測定する類似性測定工程と、

上記特徴量と上記測定基準とを用いて、上記セグメントのうち、互いに類似する複数のセグメントから構成される類似チェーンを検出する検出工程とを備えること

を特徴とする信号処理方法。

2 . 上記類似チューンを用いて解析し、上記信号の局所的構造及び /又は大局的構造を決定して出力する解析工程を備えることを特徴とする請求の範囲第 1項記載の信号処理方法。

3 . 上記信号とは、ビデオデータにおける映像信号と音声信号との少なくとも 1つであること

を特徴とする請求の範囲第 1項記載の信号処理方法。

4 . 上記類似チェーンは、当該類似チヱーンが含む類似セグメントの間の関係に制約を有すること

を特徴とする請求の範囲第 1項記載の信号処理方法。

5 . 上記類似チェーンは、当該類似チヱーンの構造に制約を有すること

を特徴とする請求の範囲第 1項記載の信号処理方法。

6 . 上記類似チェーンは、当該類似チェーンが含む全てのセグメントが互いに類似した関係にある基本類似チェーンであることを特徴とする請求の範囲第 4項記載の信号処理方法。

7 . 上記類似チヱ一ンは、当該類似チェーンが含む全てのセグメントにおいて、隣接するセグメントが互いに類似した関係にあるリンク類似チヱ一ンであること

を特徴とする請求の範囲第 4項記載の信号処理方法。

8 . 上記類似チヱ一ンは、当該類似チェーンが含む全てのセグメントにおいて、セグメントのそれぞれが、当該セグメントから所定の数だけ後方に配置されたセグメントと互いに類似した関係にある周期的チヱ一ンであること

を特徴とする請求の範囲第 4項記載の信号処理方法。

9 . 上記類似チヱ一ンは、当該類似チェーンが含む全てのセグメン卜において、隣接するセグメントの各対における時間間隔が、所定の時間よりも短い局所チェーンであること

を特徴とする請求の範囲第 5項記載の信号処理方法。

1 0 . 上記類似チェーンは、当該類似チヱーンが含む全てのセグメン卜において、セグメン卜が近似的に等時間間隔で出現する均一チヱーンであること

を特徴とする請求の範囲第 5項記載の信号処理方法。

1 1 . 上記検出工程は、上記特徴量と上記測定基準とを用いて、互いに類似しているセグメントを検出してまとめて候補チェーンを形成する候補チェーン検出工程と、上記候補チェーンのそれぞれ毎に数的基準に対応する品質測定基準を算出して、上記信号の構造パターン解析における上記候補チェーンの重要性及び関連性を測定し、上記品質測定基準が所定の品質測定基準閾値を上回る候補チェーンのみを出力するフィルタリング工程とを有すること

を特徴とする請求の範囲第 6項記載の信号処理方法。

1 2 . 上記信号におけるセグメントのうち、セグメントが供給された時間順にしたがって当該セグメントを 1つずつ逐次処理することを特徴とする請求の範囲第 2項記載の信号処理方法。

1 3 . 上記検出工程は、対象とするセグメントに関する上記特徴量と上記測定基準とを用いて、当該セグメントを含む候補チヱ一ンを随時更新して求める候補チェーン検出工程と、

上記候補チェーンのそれぞれ毎に数的基準に対応する品質測定基準を算出して、上記信号の構造パターン解析における上記候補チェ —ンの重要性及び関連性を測定し、上記品質測定基準が所定の品質測定基準閾値を上回る候補チェーンのみを出力するフィルタリング工程とを有すること

を特徴とする請求の範囲第 1 2項記載の信号処理方法。

1 4 . 上記検出工程は、周期的チェーンの初期候補を求める初期周期的チェーン検出工程と、

上記周期的チーンの初期候補の中から、時間的に交差する重複チェーンを求める重複チヱ一ン検出工程と、

上記重複チ-ーンの整合を求める整合工程とを有することを特徴とする請求の範囲第 8項記載の信号処理方法。

1 5 . 上記解析工程により、上記類似チヱーンを用いて、上記信号の局所的構造として、セグメントの意味に基づく部分集合であるシーンを検出して出力すること

を特徴とする請求の範囲第 2項記載の信号処理方法。

1 6 . 上記解析工程により、上記類似チヱーンを用いて、上記信号の大局的構造として、互いに類似するセグメン卜が反復的に発生する構造パターンを検出して出力すること

を特徴とする請求の範囲第 2項記載の信号処理方法。

1 7 . 上記構造パターンとして、ニュース放送におけるニュース項目を検出して出力すること

を特徴とする請求の範囲第 1 6項記載の信号処理方法。

1 8 . 上記構造パターンとして、プレイが反復的に発生するスポーッ放送におけるビデオ構造を検出して出力すること

を特徴とする請求の範囲第 1 6項記載の信号処理方法。

1 9 . 上記解析工程により、上記類似チェーンを用いて、セグメン卜の意味に基づく部分集合であるシーンのうち、関連するシーンをまとめたトピック構造を検出して出力すること

を特徴とする請求の範囲第 2項記載の信号処理方法。

2 0 . 供給されたビデオ信号の内容の意味構造を反映する映像及び又は音声のパターンを検出して解析する映像音声処理装置であつて、

上記ビデオ信号を構成する連続した映像及び又は音声フレームのひと続きから形成される映像及び/又は音声セグメントカゝら、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出手段と、

上記特徴量を用いて、上記特徴量のそれぞれ毎に、上記映像及び又は音声セグメン卜の対の間の類似性を測定する測定基準を算出して、この測定基準により上記映像及び/又は音声セグメントの対の間の類似性を測定する類似性測定手段と、

上記特徴量と上記測定基準とを用いて、上記映像及び又は音声セグメントのうち、互いに類似する複数の映像及び又は音声セグメン卜から構成される類似チェーンを検出する検出手段とを備えること

を特徴とする映像音声処理装置。

2 1 . 上記類似チェ一ンを用いて解析し、上記ビデオ信号の局所的ビデオ構造及びノ又は大局的ビデオ構造を決定して出力する解析手段を備えること

を特徴とする請求の範囲第 2 0項記載の映像音声処理装置。

2 2 . 上記類似チ-ーンは、当該類似チヱ一ンが含む類似の映像及び又は音声セグメン卜の間の関係に制約を有すること

を特徴とする請求の範囲第 2 0項記載の映像音声処理装置。

2 3 . 上記類似チェーンは、当該類似チェーンの構造に制約を有すること

を特徴とする請求の範囲第 2 0項記載の映像音声処理装置。

2 4 . 上記類似チヱーンは、当該類似チェーンが含む全ての映像及び Z又は音声セグメントが互いに類似した関係にある基本類似チェーンであること

を特徴とする請求の範囲第 2 2項記載の映像音声処理装置。

2 5 . 上記類似チェーンは、当該類似チェーンが含む全ての映像及び又は音声セグメントにおいて、隣接する映像及び Z又は音声セグメン卜が互いに類似した関係にあるリンク類似チェ一ンであること

を特徴とする請求の範囲第 2 2項記載の映像音声処理装置。

2 6 . 上記類似チヱーンは、当該類似チェーンが含む全ての映像及びノ又は音声セグメントにおいて、映像及び又は音声セグメントのそれぞれが、当該セグメン卜から所定の数だけ後方に配置された映像及びノ又は音声セグメントと互いに類似した関係にある周期的チェーンであること

を特徴とする請求の範囲第 2 2項記載の映像音声処理装置。

2 7 . 上記類似チヱ一ンは、当該類似チェーンが含む全ての映像及び又は音声セグメン卜において、隣接する映像及び/又は音声セグメン卜の各対における時間間隔が、所定の時間よりも短い局所チェ一ンであること

を特徴とする請求の範囲第 2 3項記載の映像音声処理装置。

2 8 . 上記類似チヱーンは、当該類似チヱ一ンが含む全ての映像及び/又は音声セグメントにおいて、映像及び/又は音声セグメントが近似的に等時間間隔で出現する均一チェーンであること

を特徴とする請求の範囲第 2 3項記載の映像音声処理装置。

2 9 . 上記検出手段は、上記特徴量と上記測定基準とを用いて、互いに類似している映像及び/又は音声セグメントを検出してまとめて候補チェーンを形成し、上記候補チェーンのそれぞれ毎に数的基準に対応する品質測定基準を算出して、上記ビデオ信号の構造バターン解析に対する上記候捕チェ一ンの重要性及び関連性を測定し、上記品質測定基準が所定の品質測定基準閾値を上回る候補チェーンのみを出力すること

を特徴とする請求の範囲第 2 4項記載の映像音声処理装置。

3 0 . 上記ビデオ信号における映像及び又は音声セグメントのうち、映像及び Z又は音声セグメン卜が供給された時間順にしたがつて当該映像及び/又は音声セグメントを 1つずつ逐次処理することを特徴とする請求の範囲第 2 1項記載の映像音声処理装置。

3 1 . 上記検出手段は、対象とする上記現映像及び/又は音声セグメン卜に関する上記特徴量と上記測定基準とを用いて、当該映像及び又は音声セグメントを含む候補チェーンを随時更新して求め、上記候補チェーンのそれぞれ毎に数的基準に対応する品質測定基準を算出して、上記ビデオ信号の構造パターン解析における上記候捕チェーンの重要性及び関連性を測定し、上記品質測定基準が所定の品質測定基準閾値を上回る候補チェーンのみを出力することを特徴とする請求の範囲第 3 0項記載の映像音声処理装置。

3 2 . 上記検出手段は、周期的チェーンの初期候補を求め、上記周期的チェーンの初期候補の中から、時間的に交差する重複チェ一ンを求め、上記重複チェーンの整合を求めること

を特徴とする請求の範囲第 2 6項記載の映像音声処理装置。

3 3 . 上記解析手段は、上記類似チヱ一ンを用いて、上記ビデオ信号の局所的ビデオ構造として、映像及びノ又は音声セグメントの意味に基づく部分集合であるシーンを検出して出力すること

を特徴とする請求の範囲第 2 1項記載の映像音声処理装置。

3 4 . 上記解析手段は、上記類似チェーンを用いて、上記ビデオ信号の大局的ビデオ構造として、互いに類似する映像及び/又は音声セグメントが反復的に発生する構造パターンを検出して出力すること

を特徴とする請求の範囲第 2 1項記載の映像音声処理装置。

3 5 . 上記解析手段は、上記構造パターンとして、ニュース放送におけるニュース項目を検出して出力すること

を特徴とする請求の範囲第 3 4項記載の映像音声処理装置。

3 6 . 上記解析手段は、上記構造パターンとして、プレイが反復的に発生するスポーツ放送におけるビデオ構造を検出して出力すること

を特徴とする請求の範囲第 3 4項記載の映像音声処理装置。

3 7 . 上記解析手段は、上記類似チェーンを用いて、映像及び Z又は音声セグメン卜の意味に基づく部分集合であるシーンのうち、関連するシーンをまとめたトピック構造を検出して出力することを特徴とする請求の範囲第 2 1項記載の映像音声処理装置。