WO2000045604A1

WO2000045604A1 - Signal processing method and video/voice processing device

Info

Publication number: WO2000045604A1
Application number: PCT/JP2000/000423
Authority: WO
Inventors: Toby Walker; Hiroshi Matsubara
Original assignee: Sony Corporation
Priority date: 1999-01-29
Filing date: 2000-01-27
Publication date: 2000-08-03
Also published as: EP1081960A1; DE60037485D1; DE60037485T2; EP1081960A4; EP1081960B1; US6928233B1

Description

明細書信号処理方法及び映像音声処理装置技術分野本発明は、信号の基礎となる意味構造を反映するパターンを検出して解析する信号処理方法及びビデオ信号の基礎となる意味構造を反映する映像及び又は音声のパターンを検出して解析する映像音声処理装置に関する。背景技術例えばビデオデータに録画されたテレビ番組といった大量の異なる映像データにより構成される映像アプリケーシヨンの中から、興味のある部分等の所望の部分を探して再生したい場合がある。

このように、所望の映像内容を抽出するための一般的な技術としては、アプリケーションの主要場面を描いた一連の映像を並べて作成されたパネルであるスト一リ一ボードがある。このストーリーボ —ドは、ビデオデータをいわゆるショットに分解し、各ショットにおいて代表される映像を表示したものである。このような映像抽出技術は、そのほとんどが、例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital v ideo, J. or isual Communication and Image Representation 7: 28-4, 1996" に記載されているように、ビデオデータからショットを自動的に検出して抽出するものである。

ところで、例えば代表的な 3 0分のテレビ番組中には、数百ものショットが含まれている。そのため、上述した従来の映像抽出技術においては、ユーザが抽出された膨大な数のショットを並べたスト一リ一ボードを調べる必要があり、このようなストーリ一ボードを理解するにはユーザに大きな負担を強いる必要があった。また、従来の映像抽出技術においては、例えば話し手の変化に応じて交互に 2者を撮影した会話場面におけるショットは、冗長のものが多いという問題があった。このように、ショットは、ビデオ構造を抽出する対象としては階層が低すぎて無駄な情報量が多く、このようなショットを抽出する従来の映像抽出技術は、ユーザにとって利便のよいものとはいえなかった。

また、他の映像抽出技術としては、例えば " A. Merl ino, D. Mor ey and M. kaybury, Broadcast news nav i gat i on us ing story seg mentat ion, Proc . of ACM Mul t imedi a 97, 1997" ゃ特開平 1 0— 1 3 6 2 9 7号公報に記載されているように、ニュースやフットボールゲームといった特定の内容ジャンルに関する非常に専門的な知識を用いるものがある。しかしながら、この従来の映像抽出技術は、目的のジャンルに関しては良好な結果を得ることができるものの他のジャンルには全く役に立たず、さらにジャンルに限定される結果、容易に一般化することができないという問題があった。

さらに、他の映像抽出技術としては、例えば U. S. Patent #5, 708, 767号公報に記載されているように、いわゆるスト一リーュニットを抽出するものがある。しかしながら、この従来の映像抽出技術は、完全に自動化されたものではなく、どのショッ卜が同じ内容を示すものであるかを決定するために、ユーザの介入が必要であった。また、この従来の映像抽出技術は、処理に要する計算が複雑であるとともに、適用対象として映像情報のみに限定されるといった問題もあった。

さらにまた、他の映像抽出技術としては、例えば特開平 9一 2 1 4 8 7 9号公報に記載されているように、ショット検出と無音部分検出とを組み合わせることによりショットを識別するものがある。しかしながら、この従来の映像抽出技術は、無音部分がショット境界に対応した場合のみに限定されたものであった。

また、他の映像抽出技術としては、例えば "H. Aok i , S. Shimot suj i and 0. Hon , A shot c lass i i i cat ion method to se lect ef f ect ive key-frames for vi deo brows ing, IPSJ Human Interface S IG Notes, 7 : 43 - 50, 1996" ゃ特開平 9— 9 3 5 8 8号公報に記載されているように、ストーリ一ボードにおける表示の冗長を低減するために、反復された類似ショットを検出するものがある。しかしながら、この従来の映像抽出技術は、映像情報のみに適用できるものであり、音声情報に適用できるものではなかった。発明の開示本発明は、このような実情に鑑みてなされたものであり、上述した従来の映像抽出技術の問題を解決し、種々のビデオデータにおける高いレベルのビデオ構造を抽出する信号処理方法及び映像音声処理装置を提供することを目的とするものである。

上述した目的を達成する本発明にかかる信号処理方法は、供給された信号の内容の意味構造を反映するパターンを検出して解析する信号処理方法であって、信号を構成する連続したフレームのひと続きから形成されるセグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出工程と、特徴量を用いて、特徴量のそれぞれ毎に、セグメントの対の間の類似性を測定する測定基準を算出して、この測定基準によりセグメントの対の間の類似性を測定する類似性測定工程と、特徴量と測定基準とを用いて、セグメントのうち、互いの時間的距離が所定の時間閾値以内であるとともに、互いの非類似性が所定の非類似性閾値以下である 2つのセグメントを検出し、信号の内容の意味構造を反映し時間的に連続するセグメントからなるシーンにまとめるグループ化工程とを備えることを特徴としている。

このような本発明にかかる信号処理方法は、信号において類似したセグメントを検出してシーンにまとめる。

また、上述した目的を達成する本発明にかかる映像音声処理装置は、供給されたビデオ信号の内容の意味構造を反映する映像及びノ又は音声のパターンを検出して解析する映像音声処理装置であって、ビデオ信号を構成する連続した映像及び又は音声フレームのひと続きから形成される映像及び/又は音声セグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出手段と、特徴量を用いて、特徴量のそれぞれ毎に、映像及び/又は音声セグメントの対の間の類似性を測定する測定基準を算出して、この測定基準により映像及び/又は音声セグメン卜の対の間の類似性を測定する類似性測定手段と、特徴量と測定基準とを用いて、映像及び/ 又は音声セグメントのうち、互いの時間的距離が所定の時間閾値以内であるとともに、互いの非類似性が所定の非類似性閾値以下である 2つの映像及び/又は音声セグメントを検出し、ビデオ信号の内容の意味構造を反映し時間的に連続する映像及び/又は音声セグメントからなるシーンにまとめるグループ化手段とを備えることを特徴としている。

このような本発明にかかる映像音声処理装置は、ビデオ信号において類似した映像及び/又は音声セグメントを検出してまとめ、シーンとして出力する。図面の簡単な説明図 1は、本発明において適用するビデオデータの構成を説明する図であって、モデル化したビデオデータの構造を説明する図である _c 図 2は、シーンを説明する図である。

図 3は、本発明の実施の形態として示す映像音声処理装置の構成を説明するプロック図である。

図 4は、同映像音声処理装置において、シーンを検出してダル一プ化する際の一連の工程を説明するフローチヤ一トである。

図 5は、同映像音声処理装置における動的特徴量サンプリング処理を説明する図である。

図 6は、非類似性閾値を説明する図である。

図 7は、時間閾値を説明する図である。

図 8は、同映像音声処理装置において、セグメントをグループ化する際の一連の工程を説明するフローチヤ一トである。発明を実施するための最良の形態以下、本発明を適用した具体的な実施の形態について図面を参照しながら詳細に説明する。

本発明を適用した実施の形態は、録画されたビデオデータから所望の内容を自動的に探し出して抽出する映像音声処理装置である。この映像音声処理装置の具体的な説明を行う前に、ここではまず本発明において対象とするビデオデータに関する説明を行う。

本発明において対象とするビデオデータについては、図 1に示すようにモデノレ化し、フレーム、セグメント、シーンの 3つのレべノレに階層化された構造を有するものとする。すなわち、ビデオデータは、最下位層において、一連のフレームにより構成される。また、ビデオデータは、フレームの 1つ上の階層として、連続するフレームのひと続きから形成されるセグメントにより構成される。さらに、ビデオデータは、最上位層において、このセグメントを意味のある関連に基づきまとめて形成されるシーンにより構成される。

このビデオデータは、映像及び音声の両方の情報を含む。すなわち、このビデオデータにおけるフレームには、単一の静止画像である映像フレームと、一般に数 H ^〜数百ミリセカンド /長といった短時間においてサンプルされた音声情報を表す音声フレームとが含まれる。

また、セグメントは、単一のカメラにより連続的に撮影された映像フレームのひと続きから構成され、一般にはショットと呼ばれる _c そして、このセグメントには、映像セグメント及びノ又は音声セグメントが含まれ、ビデオ構造における基本単位となる。これらのセグメントの中で、特に音声セグメントについては、多くの定義が可能であり、例として次に示すようなものが考えられる。まず、音声セグメントは、一般によく知られている方法により検出されたビデォデータ中の無音期間により境界を定められて形成される場合がある。また、音声セグメント ίま、 "D. Kimber and L. Wilcox, Acous tic Segmentation for Audio Browsers, Xerox Pare Technical Re port" に記載されているように、例えば、音声、音楽、ノイズ、無音等のように少数のカテゴリに分類された音声フレームのひと続きから形成される場合もある。さらに、音声セグメントは、 "S. Pfe if f er, S. Fischer and E. Wolfgang, Automatic Audio し ontent A nalysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30 " に記載されているように、 2枚の連続する音声フレーム間の或る特徴における大きな変化を音声力ット点として検出し、この音声力ット点に基づいて決定される場合もある。

さらに、シーンは、ビデオデータの内容を意味に基づくより高いレベルで記述するために、映像セグメント（ショット）検出或いは音声セグメント検出により得られたセグメントを、例えばセグメント内の知覚的ァクティビティ量といったセグメントの特徴を表す特徴量を用いて意味のあるまとまりにグループ化したものである。シ —ンは、主観的なものであり、ビデオデータの内容或いはジャンルに依存するが、ここでは、その特徴量が互いに類似性を示す映像セグメント又は音声セグメン卜の反復パターンをグループ化したものとする。具体的には、図 2に示すように、 2人の話し手が互いに会話している場面で、映像セグメントは、話し手に応じて交互に現れる。このような反復パターンを有するビデオデータにおいて、一方の話し手における一連の映像セグメント Aと、他方の話し手における一連の映像セグメント Bとは、それぞれ、グループにまとめられて 1つのシーンを構成する。このような反復パターンは、ビデオデ —タにおける高いレベルでの意味のある構造と非常に関係があり、シーンは、このようなビデオデータにおける高いレベルでの意味を持ったまとまりを示すものである。

本発明を適用した実施の形態として図 3に示す映像音声処理装置 1 0は、上述したビデオデータにおけるセグメン卜の特徴量を用いてセグメント間の類似性を測定し、これらのセグメントをシーンにまとめてビデオ構造を自動的に抽出するものであり、映像セグメント及び音声セグメン卜の両方に適用できるものである。

映像音声処理装置 1 0は、同図に示すように、入力したビデオデ一タのストリームを映像、音声又はこれらの両方のセグメントに分割するビデオ分割部 1 1 と、ビデオデータの分割情報を記憶するビデォセグメントメモリ 1 2と、各映像セグメントにおける特徴量を抽出する特徴量抽出手段である映像特徴量抽出部 1 3と、各音声セグメントにおける特徴量を抽出する特徴量抽出手段である音声特徴量抽出部 1 4と、映像セグメント及び音声セグメン卜の特徴量を記憶するセグメント特徴量メモリ 1 5と、映像セグメント及び音声セグメントをシーンにまとめるグループ化手段であるシーン検出部 1 6と、 2つのセグメント間の類似性を測定する類似性測定手段である特徴量類似性測定部 1 7とを備える。

ビデオ分割部 1 1は、例えば、 M P E G 1 (Moving Pi cture Exp erts Group phase 1 ) や M P E G 2 (Moving Pi cture Experts Gro up phase 2) 、或いはいわゆる D V (Di gi ta l V i deo) のような圧縮ビデオデータフォ一マツトを含む種々のディジタル化されたフォーマツ卜における映像データと音声データとからなるビデオデータのストリームを入力し、このビデオデータを映像、音声又はこれらの両方のセグメントに分割するものである。このビデオ分割部 1 1は、入力したビデオデータが圧縮フォーマツ卜であった場合、この圧縮ビデオデータを完全伸張することなく直接処理することができる。ビデオ分割部 1 1は、入力したビデオデータを処理し、映像セグメントと音声セグメントとに分割する。また、ビデオ分割部 1 1は、入力したビデオデータを分割した結果である分割情報を後段のビデォセグメントメモリ 1 2に供給する。さらに、ビデオ分割部 1 1は、映像セグメントと音声セグメントとに応じて、分割情報を後段の映像特徴量抽出部 1 3及び音声特徴量抽出部 1 4に供給する。

ビデオセグメントメモリ 1 2は、ビデオ分割部 1 1から供給されたビデオデータの分割情報を記憶する。また、ビデオセグメントメモリ 1 2は、後述するシーン検出部 1 6からの問い合わせに応じて, 分割情報をシーン検出部 1 6に供給する。

映像特徴量抽出部 1 3は、ビデオ分割部 1 1によりビデオデータを分割して得た各映像セグメント毎の特徴量を抽出する。映像特徴量抽出部 1 3は、圧縮映像データを完全伸張することなく直接処理することができる。映像特徴量抽出部 1 3は、抽出した各映像セグメン卜の特徴量を後段のセグメント特徴量メモリ 1 5に供給する。音声特徴量抽出部 1 4は、ビデオ分割部 1 1によりビデオデータを分割して得た各音声セグメント毎の特徴量を抽出する。音声特徴量抽出部 1 4は、圧縮音声データを完全伸張することなく直接処理することができる。音声特徴量抽出部 1 4は、抽出した各音声セグメントの特徴量を後段のセグメント特徴量メモリ 1 5に供給する。セグメント特徴量メモリ 1 5は、映像特徴量抽出部 1 3及び音声特徴量抽出部 1 4からそれぞれ供給された映像セグメント及び音声セグメントの特徴量を記憶する。セグメント特徴量メモリ 1 5は、後述する特徴量類似性測定部 7からの問い合わせに応じて、記憶している特徴量やセグメントを特徴量類似性測定部 1 7に供給するシーン検出部 1 6は、ビデオセグメントメモリ Γ 2に保持された分割情報と、 1対のセグメント間の類似性とを用いて、映像セグメント及び音声セグメントをそれぞれシーンにまとめる。シーン検出部 1 6は、グループ内の各セグメントから開始して、セグメント群の中から類似しているセグメントの反復パターンを検出し、このようなセグメントを同一シーンとしてまとめてグループ化する。このシーン検出部 1 6は、或るシーンにおけるセグメントをまとめてグループを徐々に大きくしていき、全てのセグメントをグループ化するまで処理を行い、最終的に検出シーンを生成して出力する。シーン検出部 1 6は、特徴量類似性測定部 1 7を用いて、 2つのセグメン卜がどの程度類似しているかを判断する。

特徴量類似性測定部 1 7は、 2つのセグメント間の類似性を測定する。特徴量類似性測定部 1 7は、或るセグメントに関する特徴量を検索するようにセグメント特徴量メモリ 1 5に問いかける。時間的に近接して反復している類似したセグメントは、ほぼ同一シーンの一部であるため、映像音声処理装置 1 0は、このようなセグメントを検出してグループ化していくことによって、シーンを検出する。このような映像音声処理装置 1 0は、図 4に概略を示すような一連の処理を行うことによって、シーンを検出する。まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 1において、ビデオ分割を行う。すなわち、映像音声処理装置 1 0 は、ビデオ分割部 1 1に入力されたビデオデータを映像セグメント又は音声セグメン卜のいずれか、或いは可能であればその両方に分割する。映像音声処理装置 1 .0は、適用するビデオ分割方法に特に前提要件を設けない。例えば、映像音声処理装置 1 0は、 "G. Aha nger and T. D.し. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28— 4, 1996" (こ記載されてレヽるような方、法によりビデオ分割を行う。このようなビデオ分割の方法は、当該技術分野ではよく知られたものであり、映像音声処理装置 1 0は、レ、かなるビデオ分割方法も適用できるものとする。

続いて、映像音声処理装置 1 0は、ステップ S 2において、特徴量の抽出を行う。すなわち、映像音声処理装置 1 0は、映像特徴量抽出部 1 3や音声特徴量抽出部 1 4によって、そのセグメントの特徴を表す特徴量を計算する。映像音声処理装置 1 0においては、例えば、各セグメントの時間長、カラーヒストグラムやテクスチャフィーチヤといった映像特徴量や、周波数解析結果、レベル、ピッチといった音声特徴量や、アクティビティ測定結果等が、適用可能な特徴量として計算される。勿論、映像音声処理装置 1 0は、適用可能な特徴量としてこれらに限定されるものではない。

続いて、映像音声処理装置 1 0は、ステップ S 3において、特徴量を用いたセグメントの類似性測定を行う。すなわち、映像音声処理装置 1 0は、特徴量類似性測定部 1 7により非類似性測定を行い、その測定基準によって、 2つのセグメントがどの程度類似しているかを測定する。映像音声処理装置 1 0は、先のステップ S 2において抽出した特徴量を用いて、非類似性測定基準を計算する。

そして、映像音声処理装置 1 0は、ステップ S 4において、セグメントのグループ化を行う。すなわち、映像音声処理装置 1 0は、先のステップ S 3において計算した非類似性測定基準と、先のステップ S 2において抽出した特徴量とを用いて、時間的に近接して類似したセグメントを繰り返しまとめ、これらのセグメントをグループ化する。映像音声処理装置 1 0は、このようにして最終的に生成されたグループを検出シーンとして出力する。

このような一連の処理を経ることによって、映像音声処理装置 1 0は、ビデオデータからシーンを検出することができる。したがつて、ユーザは、この結果を用いることによって、ビデオデータの内容を要約したり、ビデオデータ中の興味のあるボイントに迅速にァクセスしたりすることが可能となる。

以下、同図に示した映像音声処理装置 1 0における処理を各工程毎により詳細に説明していく。

まず、ステップ S 1におけるビデオ分割について説明する。映像音声処理装置 1 0は、ビデオ分割部 1 1に入力されたビデオデータを映像セグメント又は音声セグメン卜のいずれか、或いは可能であればその両方に分割するが、このビデオデータにおけるセグメントの境界を自動的に検出するための技術は多くのものがあり、当該映像音声処理装置 1 0において、このビデオ分割方法に特別な前提要件を設けないことは上述した通りである。一方、映像音声処理装置 1 0において、後の工程によるシーン検出の精度は、本質的に、基礎となるビデオ分割の精度に依存する。なお、映像音声処理装置 1 0におけるシーン検出は、或る程度ビデオ分割時のエラ一を許容することができる。特に、映像音声処理装置 1 0において、ビデオ分割は、セグメント検出が不十分である場合よりも、セグメント検出を過度に行う場合の方が好ましい。映像音声処理装置 1 0は、類似したセグメントの検出が過度である結果である限り、一般に、シーン検出の際に検出過度であるセグメントを同一シーンとしてまとめることができる。

つぎに、ステップ S 2における特徴量抽出について説明する。特徴量とは、セグメントの特徴を表すとともに、異なるセグメント間の類似性を測定するためのデータを供給するセグメントの属性である。映像音声処理装置 1 0は、映像特徴量抽出部 1 3や音声特徴量抽出部 1 4により各セグメン卜の特徴量を計算し、セグメントの特徴を表す。映像音声処理装置 1 0は、いかなる特徴量の具体的詳細にも依存するものではないが、当該映像音声処理装置 1 0において用いて効果的であると考えられる特徴量としては、例えば以下に示す映像特徴量、音声特徴量、映像音声共通特徴量のようなものがある。映像音声処理装置 1 0において適用可能となるこれらの特徴量の必要条件は、非類似性の測定が可能であることである。また、映像音声処理装置 1 0は、効率化のために、特徴量抽出と上述したビデォ分割とを同時に行うことがある。以下に説明する特徴量は、このような処理を可能にするものである。

特徴量としては、まず映像に関するものが挙げられる。以下では，これを映像特徴量と称することにする。映像セグメントは、連続する映像フレームにより構成されるため、映像セグメントから適切な映像フレームを抽出することによって、その映像セグメントの描写内容を、抽出した映像フレームで特徴付けることが可能である。すなわち、映像セグメントの類似性は、適切に抽出された映像フレームの類似性で代替可能である。このことから、映像特徴量は、映像音声処理装置 1 0で用いることができる重要な特徴量の 1つである。この場合の映像特徴量は、単独では静的な情報しか表せないが、映像音声処理装置 1 0は、後述するような方法を適用することによつて、この映像特徴量に基づく映像セグメン卜の動的な特徴を抽出することもできる。

映像特徴量として既知のものは多数存在するが、シーン検出のためには以下に示す色特徴量（ヒストグラム）及び映像相関が、計算コストと精度との良好な兼ね合いを与えることを見出したことから、映像音声処理装置 1 0は、映像特徴量として、これらの色特徴量及び映像相関を用いることとする。

映像音声処理装置 1 0において、映像における色は、 2つの映像が類似しているかを判断する際の重要な材料となる。カラーヒストグラムを用いて映像の類似性を判断することは、例えば "G. Ahang er and ι'. D. C. little, A survey of technologies for parsing a nd indexing digital video, J. of Visual Communication and Im age Representation 7:28—4, 1996" iこ記載されてレヽるよう ίこ、よく知られている。ここで、カラーヒストグラムとは、例えば H S Vや RG Β等の 3次元色空間を η個の領域に分割し、映像における画素の、各領域での出現頻度の相対的割合を計算したものである。そして、得られた情報からは、 η次元ベクトルが与えられる。圧縮されたビデオデータに関しても、例えば U.S. Patent #5， 708, 767号公報に記載されているように、カラーヒストグラムを、圧縮データから直接抽出することができる。

映像音声処理装置 1 0では、セグメントを構成する映像におけるもともとの Y U V色空間を、色チャンネル当たり 2ビッ卜でサンプルして構成した、 2 ² ' ³ = 6 4次元のヒストグラムべクトルを用いている。

このようなヒストグラムは、映像の全体的な色調を表すが、これには時間情報が含まれていない。そこで、映像音声処理装置 1 0においては、もう 1つの映像特徴量として、映像相関を計算する。映像音声処理装置 1 0におけるシーン検出において、複数の類似セグメントが互いに交差した構造は、それがまとまった 1つのシーン構造であることを示す有力な指標となる。例えば会話場面において、カメラの位置は、 2人の話し手の間を交互に移動するが、カメラは通常、同一の話し手を再度撮影するときには、ほぼ同じ位置に戻る。このような場合における構造を検出するためには、グレイスケールの縮小映像に基づく相関がセグメントの類似性の良好な指標となることを見出したことから、映像音声処理装置 1 0では、元の映像を M X Nの大きさのグレイスケール映像へ間引き縮小し、これを用いて映像相関を計算する。ここで、 Mと Nは、両方とも小さな値で十分であり、例えば 8 X 8である。すなわち、これらの縮小グレイスケール映像は、 M N次元の特徴量べクトルとして解釈される。

さらに上述した映像特徴量とは異なる特徴量としては、音声に関するものが挙げられる。以下では、この特徴量を音声特徴量と称することにする。音声特徴量とは、音声セグメントの内容を表すことができる特徴量であり、映像音声処理装置 1 0は、この音声特徴量として、周波数解析、ピッチ、レベル等を用いることができる。これらの音声特徴量は、種々の文献により知られているものである。まず、映像音声処理装置 1 0は、フーリエ変換等の周波数解析を行うことによって、単一の音声フレームにおける周波数情報の分布を決定することができる。映像音声処理装置 1 0は、例えば、 1つの音声セグメントにわたる周波数情報の分布を表すために、 F F T (Fast Four i er Transform；高速フーリエ変換）成分、周波数ヒストグラム、パワースペクトル、その他の特徴量を用いることができる。

また、映像音声処理装置 1 0は、平均ピッチや最大ピッチ等のピツチや、平均ラゥドネスゃ最大ラゥドネス等の音声レベルもまた、音声セグメントを表す有効な音声特徴量として用いることができるさらに他の特徴量としては、映像音声共通特徴量が挙げられる。これは、映像特徴量でもなく音声特徴量でもないが、映像音声処理装置 1 0において、シーン内のセグメン卜の特徴を表すのに有用な情報を与えるものである。映像音声処理装置 1 0は、この映像音声共通特徴量として、セグメント長とアクティビティとを用いる。映像音声処理装置 1 0は、映像音声共通特徴量として、セグメント長を用いることができる。このセグメント長は、セグメントにおける時間長である。一般に、シーンは、そのシーンに固有のリズム特徴を有する。このリズム特徴は、シーン内のセグメント長の変化として表れる。例えば、迅速に連なった短いセグメントは、コマ一シャルを表す。一方、会話シーンにおけるセグメントは、コマーシャルの場合よりも長く、また会話シーンには、相互に組み合わされたセグメン卜が互いに類似しているという特徴がある。映像音声処理装置 1 0は、このような特徴を有するセグメント長を映像音声共通特徴量として用いることができる。

また、映像音声処理装置 1 0は、映像音声共通特徴量として、ァグテイビティを用いることができる。アクティビティとは、セグメントの内容がどの程度動的或いは静的であるように感じられるかを表す指標である。例えば、視覚的に動的である場合、ァクティビティは、カメラが対象物に沿って迅速に移動する度合い若しくは撮影されているオブジェクトが迅速に変化する度合いを表す。

このアクティビティは、カラーヒストグラムのような特徴量のフレーム間非類似性の平均値を測定することによって、間接的に計算される。ここで、フレーム i とフレーム】との間で測定ざれた特徴量 Fに対する非類似性測定基準を d _F ( i , j ) と定義すると、映像アクティビティ V _Fは、次式（ 1 ) のように定義される。

+ (1 ) f -b 式（ 1 ) において、 bと f は、それぞれ、 1セグメントにおける最初と最後のフレームのフレーム番号である。映像音声処理装置 1 0は、具体的には、例えば上述したヒストグラムを用いて、映像ァクティビティ V Fを計算することができる。

ところで、上述した映像特徴量を始めとする特徴量は、基本的にはセグメントの静的情報を表すものであることは上述した通りであるが、セグメントの特徴を正確に表すためには、動的情報をも考慮する必要がある。そこで、映像音声処理装置 1 0は、以下に示すような特徴量のサンプリング方法により動的情報を表す。

映像音声処理装置 1 0は、例えば図 5に示すように、 1セグメント内の異なる時点から 1以上の静的な特徴量を抽出する。このとき、映像音声処理装置 1 0は、特徴量の抽出数を、そのセグメント表現における忠実度の最大化とデータ冗長度の最小化とのバランスをとることにより決定する。例えば、セグメント内の或る 1画像が当該セグメン卜のキーフレームとして指定可能な場合には、そのキーフレームから計算されたヒストグラムが、抽出すべき特徴量となる。映像音声処理装置 1 0は、後述するサンプリング方法を用いて、対象とするセグメントにおいて、特徴として抽出可能なサンプルのうち、どのサンプルを選択するかを決定する。

ところで、或るサンプルが常に所定の時点、例えばセグメント内の最後の時点において選択される場合を考える。この場合、黒フレームへ変化（fade) していく任意の 2つのセグメントについては、サンプルが同一の黒フレームとなるため、同一の特徴量が得られる結果になる恐れがある。すなわち、これらのセグメントの映像内容がいかなるものであれ、選択した 2つのフレームは、極めて類似していると判断されてしまう。このような問題は、サンプルが良好な代表値でないために発生するものである。

そこで、映像音声処理装置 1 0は、このように固定点で特徴量を抽出するのではなく、セグメント全体における統計的な代表値を抽出することとする。ここでは、一般的な特徴量のサンプリング方法を 2つの場合、すなわち、（ 1 ) 特徴量を実数の n次元べクトルとして表すことができる場合と、（ 2 ) 非類似性測定基準しか利用できない場合とについて説明する。なお、（1 ) には、ヒストグラムやパワースぺクトル等、最もよく知られている映像特徴量及び音声特徴量が含まれる。

( 1 ) においては、サンプル数は、事前に kと決められており、映像音声処理装置 1 0は、 "L. Kaufman and P. J. Rousseeu , Fin ding Groups in Data ·' An Introduction to Cluster Analysis, Joh n - Wiley and sons, 1990" に記載されてよく知られている k平均値クラスタリング ίも (k一 means— clustering method) を用レヽて、セグメント全体についての特徴量を k個の異なるグループに自動的に分割する。そして、映像音声処理装置 1 0は、サンプル値として、 k個の各グループから、グループの重心値（centroid) 又はこの重心値に近いサンプルを選択する。映像音声処理装置 1 0におけるこの処理の複雑度は、サンプル数に関して単に直線的に増加するにとどまる。

一方、（2) においては、映像音声処理装置 1 0は、 "L. Kaufra an and P. J. Rousseeuw, Finding Groups in Data： An Introductio n to Cluster Analysis, John-Wiley and sons, 1990" 【こ g己載されてレヽる k—メドィドアノレゴリズム法 (k-medoids algorithm metho d) を用いて、 k個のグループを形成する。そして、映像音声処理装置 1 0は、サンプル値として、 k個のグループ毎に、上述したダル —プのメドィド（medoid) を用いる。

なお、映像音声処理装置 1 0においては、抽出された動的特徴を表す特徴量についての非類似性測定基準を構成する方法は、その基礎となる静的な特徴量の非類似性測定基準に基づくが、これについては後述する。

このようにして、映像音声処理装置 1 0は、静的な特徴量を複数抽出し、これらの複数の静的な特徴量を用いることによって、動的特徴を表すことができる。

以上のように、映像音声処理装置 1 0は、種々の特徴量を抽出することができる。これらの各特徴量は、一般に、単一ではセグメントの特徴を表すのに不十分であることが多い。そこで、映像音声処理装置 1 0は、これらの各種特徴量を組み合わせることで、互いに補完し合う特徴量の組を選択することができる。例えば、映像音声処理装置 1 0は、上述したカラーヒストグラムと映像相関とを組み合わせることによって、各特徴量が有する情報よりも多くの情報を得ることができる。

つぎに、図 4中ステップ S 3における特徴量を用いたセグメントの類似性測定について説明する。映像音声処理装置 1 0は、 2つの特徴量について、それがどの程度非類似であるかを測定する実数値を計算する関数である非類似性測定基準を用いて、特徴量類似性測定部 1 7によりセグメントの類似性測定を行う。. この非類似性測定基準は、その値が小さい場合は 2つの特徴量が類似していることを示し、値が大きい場合は非類似であることを示す。ここでは、特徴量 Fに関する 2つのセグメント S S₂の非類似性を計算する関数を非類似性測定基準 d_F (S ^ S ₂) と定義する。このような関数は. 以下の式（2) で与えられる関係を満足させる必要がある。

d_F(S.,S.) = 0 (5_{3 =}5₂のとき)

d_F(s_i}s₂)≥o (全ての，について 1 · · · (2)

d_F(S ,S₂) = d_F[S₂,S_}) ί全ての 5，,5₂について) ところで、非類似性測定基準の中には、或る特定の特徴量にのみ適用可能なものがあるが、 "G. Ahanger and T. D. C. Little, A su rvey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7： 28-4, 1996" や "L. Kaufman and P. J. Rousseeuw, Finding Groups in Data： An Introduction to Cluster Analysis, John-Wiley and son s, 1990" に記載されているように、一般には、多くの非類似性測定基準は、 n次元空間における点として表される特徴量についての類似性を測定するのに適用可能である。その具体例は、ユータリッド距離、内積、 L 1距離等である。ここで、特に L 1距離が、ヒストグラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作用することから、映像音声処理装置 1 0は、 L.1距離を導入する。ここで、 2つの n次元ベクトルを A, Bとした場合、 A， B間の丄 1距離 dい (A, B) は、次式（3) で与えられる。

A -B. (3)

ここで、下付文字 iは、 n次元ベクトル A, B.のそれぞれの i番目の要素を示すものである。

また、映像音声処理装置 1 0は、上述したように、動的特徴を表す特徴量として、セグメントにおける様々な時点での静的な特徴量を抽出する。そして、映像音声処理装置 1 0は、抽出された 2つの動的特徴量の間の類似性を決定するために、その非類似性測定基準として、その基礎となる静的特徴量の間の非類似性測定基準を用いる。これらの動的特徴量の非類似性測定基準は、多くの場合、各動的特徴量から選択された最も類似した静的特徴量の対の非類似性ィ直を用いて決定されるのが最良である。この場合、 2つの抽出された動的特徴量 S F ,， S F ₂の間の非類似性測定基準は、次式（4) のように定義される。

d(SF,SF )= d (F„F ... A\

上式（4) における関数 d_F (F F ₂) は、その基礎となる静的特徴量 Fについての非類似性測定基準を示す。なお、場合によっては、特徴量の非類似性の最小値をとる代わりに、最大値又は平均値をとつてもよい.。

ところで、映像音声処理装置 1 0は、セグメントの類似性を決定する上で、単一の特徴量だけでは不十分であり、同一セグメン小に関する多数の特徴量からの情報を組み合わせることを必要とする場合も多い。この 1つの方法として、映像音声処理装置 1 0は、 '種々の特徴量に基づく非類似性を、それぞれの特徴量の重み付き組み合わせとして計算する。すなわち、映像音声処理装置 1 0は、 k個の特徴量 F ,， F ₂₎ · · · , F_kが存在する場合、次式（5) に表される組み合わせた特徴量に関する非類似性測定基準 d_F (S S ₂) を用いる。

2)-, ， 0 (5) ここで、 { w i } は、 ∑ i w i = 1 となる重み係数である。

以上のように、映像音声処理装置 1 0は、図 4中ステップ S 2において抽出された特徴量を用いて非類似性測定基準を計算し、当該セグメント間の類似性を測定することができる。

つぎに、図 4中ステップ S 4におけるセグメン卜のグループ化について説明する。映像音声処理装置 1 0は、非類似性測定基準と抽出した特徴量とを用いて、時間的に近接して類似したセグメントを繰り返しまとめてグループ化し、最終的に生成されたグループを検出シーンとして出力する。

映像音声処理装置 1 0は、セグメントをグループ化してシーンを検出する際に、 2つの基本的な処理を行う。映像音声処理装置 1 0 は、まず第 1の処理として、互いに時間的に近接して類似したセグメントのグループを検出する。この処理により得られるグループは、ほとんどが同一シーンの一部となるものである。そして、映像音声処理装置 1 0は、第 2の処理として、互いに時間が重複したセグメントのグループを 1つにまとめる。映像音声処理装置 1 0は、このような処理を各セグメントが独立した状態から開始し、反復して繰り返す。そして、映像音声処理装置 1 0は、徐々にセグメントのグループを大きく構築していき、最終的に生成したグループをシーンの組として出力する。

このような処理において、映像音声処理装置 1 0は、その処理動作を制御するために 2つの制約を用いる。

すなわち、映像音声処理装置 1 0は、第 1の制約として、 2つのセグメン卜がどの程度類似している場合に、同一のシーンのものであるとみなすかを决定する非類似性閾値 δ _{s i m}を用いる。例えば、図 6に示すように、映像音声処理装置 1 0は、或るセグメントに対して、一方のセグメントが類似性領域に属するか非類似性領域に属するかを判断する。

なお、映像音声処理装置 1 0は、非類似性閾値 δ _{s im}をユーザにより設定するようにしてもよく、また、後述するように、自動的に決定してもよい。

また、映像音声処理装置 1 0は、第 2の制約として、 2つのセグメン卜がなお同一シーン内のセグメントとみなし得る時間軸上の隔たりの最大値として、時間閾値 Tを用いる。例えば、図 7に示すように、映像音声処理装置 1 0は、時間閾値 Tの範囲内で互いに近接して続いている類似した 2つのセグメント A, Bを同一シーンにまとめるが、時間的に大きく離れていて時間閾値 Tの範囲外である 2 つのセグメント B, Cをまとめることはない。このように、映像音声処理装置 1 0は、この時間閾値 Tによる時間制約があるために、互いに類似しているものの時間軸上で大きく隔たっているセグメントを同一シーンにまとめてしまうというエラ一を発生することがなレ、。

なお、この時間閾値 Tとしては、 6〜 8ショット分に相当する時間を設定した場合が概して良好な結果を与えることを見出したことから、映像音声処理装置 1 0は、基本的に、時間閾値 Tを 6〜 8ショット単位として用いることとする。

映像音声処理装置 1 0は、類似セグメントのグループを求めるために、ここでは、 L. Kaufman and P. J. Rousseeuw, Finding Gro ups in Data: An Introduction to Cluster Analysis, John- Wiley and sons, 1990" に記載されている階層的クラスタ分割方法（hier archical clustering method) を適合させて用ヽること（こする。このアルゴリズムにおいては、 2つのクラスタ C ,， C ₂間の非類似 'I生測定基準 dc (C C₂) について、次式（ 6) に示すように、それぞれのクラスタに含まれる要素間の最小非類似性として定義する。

c _{ie C2} お ·'· ( なお、映像音声処理装置 1 0においては、上式（6) で示される最小関数を最大関数又は平均関数に容易に置換することができる。まず、映像音声処理装置 1 0は、図 8に示すように、ステップ S 1 1において、変数 Nを初期状態のセグメントの数に初期化する。この変数 Nは、常に現在検出されているグループの数を示すものである。

続いて、 .映像音声処理装置 1 0は、ステップ S 1 2におい:て、クラスタの組を生成する。映像音声処理装置 1 0は、初期状態では、 N個の各セグメントを異なるクラスタとみなす。すなわち、初期状態では、 N個のクラスタが存在することになる。各クラスタは、 C ^{s t}'^{f t}と C。"とにより表されるその開始時と終了時とを示す特徴を有する。クラスタに含まれる要素は、 C ^{s la f t}により順序付けられたリストとして管理される。

続いて、映像音声処理装置 1 0は、ステップ S 1 3において、変数 tを 1に初期化し、ステップ S 1 4において、変数 tが時間閾ィ直 Tよりも大きいか否かを判別する。ここで、映像音声処理装置 1 0 は、変数 tが時間閾値 Tよりも大きい場合には、ステップ S 2 3へと処理を移行し、変数 tが時間閾値 Tよりも小さい場合には、ステップ S 1 5へと処理を移行する。ただし、ここでは、変数 tが 1であるため、映像音声処理装置 1 0は、ステップ S 1 5へと処理を移行する。

映像音声処理装置 1 0は、ステップ S 1 5において、非類似性測定基準 d c;を計算し、 N個のクラスタの中から最も類似した 2つのクラスタを検出する。ただし、ここでは、変数 tが 1であるため、映像音声処理装置 1 0は、隣接したクラスタ間の非類似性測定基準 d cを計算し、その中から最も類似したクラスタの対を検出する。

このような最も類似した 2つのクラスタを検出する方法としては、対象となる全てのクラスタの対を求めることが考えられる。しかしながら、ここでは、対象とするクラスタの時間的隔たりを表す変数 tがセグメント単位で与えられ、さらにクラスタが時間順に整頓されていることから、映像音声処理装置 1 0は、或るクラスタにおいて、その前後 t個までのクラスタを非類似性の計算対象とすればよレ、。

ここで、検出された 2つのクラスタをそれぞれ C C jと定義し、これらのクラスタ C i , C )の間の非類似性の値をと定義する。映像音声処理装置 1 0は、ステップ S 1 6において、非類似性値 d が非類似性閾値 δ _{s i m}よりも大きいか否かを判別する。ここで、映像音声処理装置 1 0は、非類似性値 d uが非類似性閾値 δ _{s i m}よりも大きい場合には、ステップ S 2 1へと処理を移行し、非類似性値 d が非類似性閾値 δ _{s i m}よりも小さい場合には、ステップ S 1 7へと処理を移行する。ここでは、非類似性値 d uが非類似性閾値 δ i _mよりも小さいものとする。映像音声処理装置 1 0は、ステップ S 1 7において、クラスタ C jをクラスタ C iに結合する。すなわち、映像音声処理装置 1 0は、クラスタ C iの要素の全てをクラスタ C iに加える。

続いて、映像音声処理装置 1 0は、ステップ S 1 8において、クラスタ C jをクラスタの組から除去する。なお、 2つのクラスタ C i , C jを結合することにより開始時 C i ^s 'の値が変化した場合には、映像音声処理装置 1 0は、クラスタの組の要素を開始時 C ' ^ ¹に基づいて再び並べ替える。

続いて、映像音声処理装置 1 0は、ステップ S 1 9において、変数 Nから 1を減じる。

そして、映像音声処理装置 1 0は、ステップ S 2 0において、変数 Nが 1であるか否かを判別する。ここで、映像音声処理装置 1 0 は、変数 Nが 1である場合には、ステップ S 2 3へと処理を移行し、変数 Nが 1でない場合には、ステップ S 1 5へと処理を移行する。ここでは、変数 Nが 1でないものとする。

すると、映像音声処理装置 1 0は、ステップ S 1 5において、再び非類似性測定基準 d cを計算し、 N— 1個のクラスタの中から最も類似した 2つのクラスタを検出する。ここでも、変数 tが 1であるため、映像音声処理装置 1 0は、隣接したクラスタ間の非類似性測定基準 d _cを計算し、その中から最も類似したクラスタの対を検出する。

続いて、映像音声処理装置 1 0は、ステップ S 1 6において、非類似性値 d uが非類似性閾値 δ _{s i m}よりも大きいか否かを判別する。ここでも、非類似性値 d i jが非類似性閾値 δ _s i _mよりも小さいものとする。そして、映像音声処理装置 1 0は、ステップ S 1 7乃至ステップ S 20の処理を行う。

映像音声処理装置 1 0は、このような処理を繰り返し、変数 Nが減算されていった結果、ステップ S 2 0において、変数 Nが 1であると判別した場合には、ステップ S 2 3において、単一のセグメントのみを含むクラスタを結合する。最終的には、映像音声処理装置 1 0は、この場合は、全てのセグメントカ S 1つのクラスタにまとめられる形となり、一連の処理を終了する。

さて、映像音声処理装置 1 0は、ステップ S 1 6において、非類似性値 d uが非類似性閾値 δ _{s im}よりも大きいと判別した場合には、ステップ S 2 1へと処理を移行するが、この場合には、ステップ S 2 1において、時間的に重複しているクラスタを繰り返し結合する。すなわち、 C iの時間間隔 [C ¹ _{C i} ^end] 力、 C iの時間間隔

[Ci^{s t a r l}, C j^ond] と相交している場合には、 2つのクラスタ C iと C iは、時間軸上で重複している。これにより、映像音声処理装置 1 0は、クラスタをその組の開始時 C i ^{s la} "に基づいて整頓することによって、重複しているクラスタを検出し、それらのクラスタを 1つに結合することができる。

そして、映像音声処理装置 1 0は、ステップ S 2 2において、変数 tに 1を加算して t = 2とし、ステップ S 1 4へと処理を移行して変数 tが時間閾値丁よりも大きいか否かを判別する。ここでも、変数 tが時間閾値 Tよりも小さいものとし、映像音声処理装置 1 0 は、ステップ S 1 5へと処理を移行するものとする。

映像音声処理装置 1 0は、ステップ S 1 5において、非類似性測定基準 dcを計算し、現在存在する複数のクラスタの中から最も類似した 2つのクラスタを検出する。ただし、ここでは、変数 tが 2であるため、映像音声処理装置 1 0は、隣接クラスタ及び 1つおきに隔たっているクラスタ間の非類似性測定基準 d cを計算し、その中力ら最も類似したクラスタの対を検出する。

そして、映像音声処理装置 1 0は、ステップ S 1 6において、隣接クラスタ及び 1つおきに隔たっているクラスタ C C の非類似性値 d )が非類似性閾値 δ _{s i m}よりも大きいか否かを判別する。ここでも、非類似性値 d が非類似性閾値 5 _{s i m}よりも大きいものとし、映像音声処理装置 1 0は、ステップ S 2 1及びステップ S 2 2の処理を経て、変数 tに 1を加算して t = 3として再びステップ S 1 4 以降の処理へと移行する。ここで、映像音声処理装置 1 0は、変数 tが 3のときには、ステップ S 1 5において、 2つおきに隔たっているクラスタまでに存在するクラスタとの間の非類似性測定基準 d cを計算し、その中から最も類似したクラスタの対を検出する。

映像音声処理装置 1 0は、このような処理を繰り返し、変数 tが加算されていった結果、ステップ S 1 4において、変数 tが時間閾値 Tよりも大きいと判別すると、ステップ S 2 3へと処理を移行し、単一のセグメントのみを含むクラスタを結合する。すなわち、映像音声処理装置 1 0は、孤立しているクラスタを単一のセグメントのみを含むクラスタとみなし、このような一連のクラスタが存在している場合には、これらのクラスタをまとめて結合していく。このェ程は、近接のシーンとは類似性関連を有さないセグメントをまとめるものである。なお、映像音声処理装置 1 0は、必ずしもこの工程を行う必要はない。

このような一連の処理によって、映像音声処理装置 1 0は、複数のクラスタをまとめていき、検出シーンを生成することができる。なお、映像音声処理装置 1 0は、非類似性閾値 δ _{s im}をユーザにより設定するようにしてもよく、自動的に決定してもよいことは上述した通りである。ただし、非類似性閾値 δ _{s im}として固定値を用いる場合には、その最適値は、ビデオデータの内容に依存することとなる。例えば、変化に富んだ映像内容を有するビデオデータの場合、非類似性閾値 5 _{s i m}は、高い値に設定される必要がある。一方、変化が少ない映像内容を有するビデオデータの場合、非類似性閾値 δ _mは、低い値に設定される必要がある。ここで一般に、非類似性閾値 S _{s i m}が高い場合には、検出されるシーンは少なくなり、非類似性閾値 δ _{s im}が低い場合には、検出されるシーンが多くなるという性質がある。

これより、映像音声処理装置 1 0においては、最適な非類似性閾値 δ _{s im}を決定することが、その性能を左右する上で重要となる。そのため、映像音声処理装置 1 0においては、非類似性閾値 s _{s im}をュ一ザにより設定する場合には、上述したことを考慮した上で設定する必要がある。一方、映像音声処理装置 1 0は、以下に示す方法により、有効な非類似性閾値 δ _{s im}を自動的に決定することもできる。例えば、その 1つの方法として、映像音声処理装置 1 0は、

( n ) ( n - 1 ) Z 2個のセグメント対の間の非類似性の分布における平均値やメジアン（中央値）といった統計量を用いて、非類似性閾値 δ _{s im}を得ることができる。いま、全てのセグメント対における非類似性の平均値とその標準偏差をそれぞれ μ , σとした場合、非類似性閾値 S _{s i m}は、 a + b σの形式で表すことができる。ここで、 a及び bは定数であり、それぞれ、 0. 5及び 0. 1に設定することが良好な結果を与えることを見出している。

実用上においては、映像音声処理装置 1 0は、全てのセグメント対について、それらの間の非類似性を求める必要はなく、その平均値 i及び標準偏差 σが真値に十分近い結果を与えるに足りるセグメント対を、全セグメント対集合からランダムに選択し、その非類似性を求めればよい。映像音声処理装置 1 0は、このようにして得られた平均値 /X及び標準偏差 σを用いることによって、適切な非類似性閾値 δ _{s i m}を自動的に決定することができる。

また、映像音声処理装置 1 0は、シーンを検出する際に、セグメン卜が同一グループに属するか否かを決定するために、単一の非類似性測定基準を用いるばかりではなく、重み付け関数を用いて、異種の特徴量に関する多様な非類似性測定基準を組み合わせることができることは上述した通りである。映像音声処理装置 1 0において, このような特徴量の重み付けは、試行錯誤の末得られるものであるが、各特徴量が質的に異なるタイプのものである場合には、通常、適切な重み付けを行うことは困難である。しかしながら、例えば、カラーヒストグラムとテクスチャフィーチャとを組み合わせる場合には、映像音声処理装置 1 0は、各特徴量に関してそれぞれシーンを検出し、検出された各シーン構造を単一のシーン構造に合成することによって、両者の特徴を考慮したシーン検出を実現することができる。ここで、各特徴量に関してシーンを検出したそれぞれの結果をシーン層と称することにする。例えば、特徴量としてカラーヒストグラムとセグメント長とを用いる場合、映像音声処理装置 1 0 は、それぞれの特徴量に基づいたシーン検出によって、カラーヒストグラムについてのシーン層と、セグメント長についてのシーン層とを得ることができる。そして、映像音声処理装置 1 0は、これらのシーン層を単一のシーン構造に組み合わせることができる。

さらに、一般には、映像領域と音声領域とからの情報を組み合わせることはできないが、映像音声処理装置 1 0は、質的に異なるタィプの特徴量に基づいた構造を組み合わせる場合と同様な方法により、映像領域と音声領域とからの情報に基づいて得られるシーン層を単一のシーン構造に組み合わせることができる。

このような処理のアルゴリズムについて説明する。ここでは、それぞれが類似性の 1つの基準を表す k個の特徴量 F F

F_kがあるものとし、各特徴量 F iに対応して、非類似性測定基準 d ^と、非類似性閾値 δ i_{s im}と、時間閾値 T ¹とがあるものとする。映像音声処理装置 1 0は、これらの各特徴量 F iに対する非類似性測定基準 d , と、非類似性閾値 δ ' s i mと、時間閾値 Τ 'とを用いて、シーン層の組 X i= {X ι を検出する。例えば、映像音声処理装置 1 0 は、映像情報と音声情報とに対して分割的にシーン層を検出し、映像情報と音声情報とに関する 2つの独立したシーン層 X i= {X i ' } ( i = 1 , 2) を生成する。

映像音声処理装置 1 0においては、異なるシーン層を単一のシーン構造に組み合わせるため、シーン境界の組み合わせ方を決定する必要がある。このシーン境界は、互いにそろっている保証はない。ここで、各シーン層に関して、シーン境界を示す一連の時間で表される境界点を t i ,， t · · · ， t i I x i Iで与えることとする。まず、映像音声処理装置 1 0は、種々のシーン層を単一のグループに組み合わせるために、最初に或るシーン層を境界点の整列に関する基礎とするために選択する。そして、映像音声処理装置 1 0は、他のシーン層の境界が最終的に組み合わせて生成するシーン構造におけるシーン境界かどうかを各境界点 t i ,， t i · · · ， t i I x i Iに対して決定していく。

ここで、 B i ( t ) を、 i番目のシーン層 X iにおいて、或る時間 tで近接にそのシーン層の境界点があるかどうかを示す論理関数とする。この「近接」の意味は、シーン層 X iの状況に応じて変化し、例えば、映像情報と音声情報とのそれぞれに基づくシーン層を結合する場合には、 0 . 5秒程度が適当である。

映像音声処理装置 1 0は、各境界点 t j = t i j , j = l， · · · ， I X i Iに関して、 1 = 1， · · · ， kのそれぞれについて、関数 B . ( t i ) の結果を計算する。この結果は、それぞれのシーン層に関して、時間 t jの近くに境界点があるかどうかを示している。そして. 映像音声処理装置 1 0は、結合シーン構造において時間 t iがシーン境界であるかどうかを決定する際に、決定関数として、 B i ( t j ) の値を用いる。

このような決定関数の 1つの単純な例は、 B i ( t j が真である個数を計数し、この個数が定数 m以上となった場合に、結合シーン構造のシーン境界とみなすことである。特に、 m= lの場合には、全てのシーン層の境界点を最終シーン構造の境界点とみなすことと同義であり、一方、 m= kの場合には、全てのシーン層において共通してシーン境界とみなされた場合のみ、結合シーン構造の境界点とすることと同義である。

このようにして、映像音声処理装置 1 0は、異なるシーン層を単一のシーン構造に結合することができる。

以上説明してきたように、本発明の実施の形態として示す映像音声処理装置 1 0は、シーン構造を抽出するものである。この映像音声処理装置 1 0における本手法が、例えばテレビドラマや映画等の様々な内容のビデオデータに対して、そのシーン構造を抽出可能であることは、既に実験により検証済みである。

また、映像音声処理装置 1 0は、完全に自動的であり、上述した非類似性閾値や時間閾値を設定するために、ユーザの介入を必要とせず、ビデオデータの内容の変化に応じて、適切な閾値を自動的に決定することができる。

さらに、映像音声処理装置 1 0は、ュ一ザが事前にビデオデータの意味的な構造を知る必要はないものである。

さらにまた、映像音声処理装置 1 0は、非常に単純であり計算上の負荷も少ないため、セットトップボックスやディジタルビデオレコーダ、ホームサーバ等の家庭用電子機器にも適用することができる。

また、映像音声処理装置 1 0は、シーンを検出した結果、ビデオブラゥジングのための新たな高レベルアクセスの基礎を与えることができる。そのため、映像音声処理装置 1 0は、セグメントではなくシーンといった高レベルのビデオ構造を用いてビデオデータの内容を視覚化することにより、内容に基づいたビデオデータへの容易なアクセスを可能とする。例えば、映像音声処理装置 1 0は、シ一ンを表示することにより、ユーザは、番組の要旨をすばやく知ることができ、興味のある部分を迅速に見つけることができる。

さらに、映像音声処理装置 1 0は、シーン検出の結果、ビデオデ

—タの概要又は要約を自動的に作成するための基盤が得られる。一般に、一貫した要約を作成するには、ビデオデータからのランダムな断片を組み合わせるのではなく、ビデオデータを、再構成可能な意味を持つ成分に分解することができることを必要とする。映像音声処理装置 1 0により検出されたシーンは、そのような要約を作成するための基盤となる。

なお、本発明は、上述した実施の形態に限定されるものではなく、例えば、セグメント間の類似性測定のために用いる特徴量等は、上述したもの以外でもよいことは勿論であり、その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。産業上の利用可能性以上詳細に説明したように、本発明にかかる信号処理方法は、供給された信号の内容の意味構造を反映するパターンを検出して解析する信号処理方法であって、信号を構成する連続したフレームのひと続きから形成されるセグメントから、その特徴を表す少なくとも

1つ以上の特徴量を抽出する特徴量抽出工程と、特徴量を用いて、特徴量のそれぞれ毎に、セグメントの対の間の類似性を測定する測定基準を算出して、この測定基準によりセグメントの対の間の類似性を測定する類似性測定工程と、特徴量と測定基準とを用いて、セグメントのうち、互いの時間的距離が所定の時間閾値以内であるとともに、互いの非類似性が所定の非類似性閾値以下である 2つのセグメントを検出し、信号の内容の意味構造を反映し時間的に連続するセグメン卜からなるシーンにまとめるグループ化工程とを備える _c したがって、本発明にかかる信号処理方法は、信号において類似したセグメントを検出してシーンにまとめることができ、セグメントよりも高いレベルの構造を抽出することができる。

また、本発明にかかる映像音声処理装置は、供給されたビデオ信号の内容の意味構造を反映する映像及びノ又は音声のパターンを検出して解析する映像音声処理装置であって、ビデオ信号を構成する連続した映像及び/又は音声フレームのひと続きから形成される映像及び又は音声セグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出手段と、特徴量を用いて、特徴量のそれぞれ毎に、映像及び Z又は音声セグメントの対の間の類似性を測定する測定基準を算出して、この測定基準により映像及びノ又は音声セグメン卜の対の間の類似性を測定する類似性測定手段と、特徴量と測定基準とを用いて、映像及びノ又は音声セグメントのうち、互いの時間的距離が所定の時間閾値以内であるとともに、互いの非類似性が所定の非類似性閾値以下である 2つの映像及びノ又は音声セグメントを検出し、ビデオ信号の内容の意味構造を反映し時間的に連続する映像及び Z又は音声セグメントからなるシーンにまとめるグループ化手段とを備える。

したがって、本発明にかかる映像音声処理装置は、ビデオ信号において類似した映像及びノ又は音声セグメントを検出してまとめ、シーンとして出力することが可能であり、映像及び/又は音声セグメントよりも高いレベルのビデオ構造を抽出することが可能となる

Claims

請求の範囲

1 . 供給された信号の内容の意味構造を反映するパターンを検出して解析する信号処理方法であって、

上記信号を構成する連続したフレームのひと続きから形成されるセグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出工程と、

上記特徴量を用いて、上記特徴量のそれぞれ毎に、上記セグメントの対の間の類似性を測定する測定基準を算出して、この測定基準により上記セグメントの対の間の類似性を測定する類似性測定工程と、

上記特徴量と上記測定基準とを用いて、上記セグメントのうち、互いの時間的距離が所定の時間閾値以内であるとともに、互いの非類似性が所定の非類似性閾値以下である 2つのセグメントを検出し、上記信号の内容の意味構造を反映し時間的に連続するセグメントからなるシーンにまとめるグループ化工程とを備えること

を特徴とする信号処理方法。

2 . 上記信号とは、ビデオデータにおける映像信号と音声信号との少なくとも 1つであること

を特徴とする請求の範囲第 1項記載の信号処理方法。

3 . 上記特徴量抽出工程によって、単一のセグメント内の異なる時点における複数の上記特徴量の単一の統計的な代表値を選択して抽出すること

を特徴とする請求の範囲第 1項記載の信号処理方法。

4 . 上記非類似性閾値は、複数個のセグメントの対の間の類似性の統計値を用いて決定されること

を特徴とする請求の範囲第 1項記載の信号処理方法。

5 . 上記セグメントのうち、上記グループ化工程にてシーンにまとめられなかった少なくとも 1つ以上のセグメントを、単一のシーンとしてまとめること

を特徴とする請求の範囲第 1項記載の信号処理方法。

6 . 上記グループ化工程により得られた任意の特徴量に関するシーン検出結果と、上記グループ化工程により得られた上記任意の特徴量とは異なる特徴量に関する少なくとも 1つ以上のシーン検出結果とを単一にまとめること

を特徴とする請求の範囲第 1項記載の信号処理方法。

7 . 上記グループ化工程により得られた上記映像信号における少なくとも 1つ以上のシーン検出結果と、上記グループ化工程により得られた上記音声信号における少なくとも 1つ以上のシーン検出結果とを単一にまとめること

を特徴とする請求の範囲第 2項記載の信号処理方法。

8 . 供給されたビデオ信号の内容の意味構造を反映する映像及び/ 又は音声のパターンを検出して解析する映像音声処理装置であって、上記ビデオ信号を構成する連続した映像及び/又は音声フレ一ムのひと続きから形成される映像及び/又は音声セグメントから、その特徴を表す少なくとも 1つ以上の特徴量を抽出する特徴量抽出手段と、

上記特徴量を用いて、上記特徴量のそれぞれ毎に、上記映像及び /又は音声セグメントの対の間の類似性を測定する測定基準を算出して、この測定基準により上記映像及び/又は音声セグメントの対の間の類似性を測定する類似性測定手段と、

上記特徴量と上記測定基準とを用いて、上記映像及び Z又は音声セグメントのうち、互いの時間的距離が所定の時間閾値以内であるとともに、互いの非類似性が所定の非類似性閾値以下である 2つの映像及び又は音声セグメントを検出し、上記ビデオ信号の内容の意味構造を反映し時間的に連続する映像及びノ又は音声セグメントからなるシーンにまとめるグループ化手段とを備えること

を特徴とする映像音声処理装置。

9 . 上記特徴量抽出手段は、単一の映像及び又は音声セグメント内の異なる時点における複数の上記特徴量の単一の統計的な代表値を選択して抽出すること

を特徴とする請求の範囲第 8項記載の映像音声処理装置。

1 0 . 上記非類似性閾値は、複数個の映像及び/又は音声セグメントの対の間の類似性の統計値を用いて決定されること

を特徴とする請求の範囲第 8項記載の映像音声処理装置。

1 1 . 上記映像及び Z又は音声セグメントのうち、上記グループ化手段によりシーンにまとめられなかった少なくとも 1つ以上の映像及び Z又は音声セグメントを、単一のシーンとしてまとめることを特徴とする請求の範囲第 8項記載の映像音声処理装置。

1 2 . 上記グループ化手段により得られた任意の特徴量に関するシーン検出結果と、上記グループ化手段により得られた上記任意の特徴量とは異なる特徴量に関する少なくとも 1つ以上のシーン検出結果とを単一にまとめること

を特徴とする請求の範囲第 8項記載の映像音声処理装置。

1 3 . 上記グループ化工程により得られた上記ビデオ信号の映像信号における少なくとも 1つ以上のシーン検出結果と、上記グループ化工程により得られた上記ビデオ信号の音声信号における少なくとも 1つ以上のシーン検出結果とを単一にまとめること

を特徴とする請求の範囲第 8項記載の映像音声処理装置。