WO2000048397A1

WO2000048397A1 - Procede de traitement de signal et dispositif de traitement video/audio

Info

Publication number: WO2000048397A1
Application number: PCT/JP2000/000762
Authority: WO
Inventors: Toby Walker; Hiroshi Matsubara
Original assignee: Sony Corporation
Priority date: 1999-02-15
Filing date: 2000-02-10
Publication date: 2000-08-17
Also published as: EP1073272A4; KR20010042672A; EP1073272B1; EP1073272A1; KR100737176B1; US6710822B1

Description

明細書信号処理方法及び映像音声処理装置技術分野本発明は、信号を構成する互いに異なる任意のセグメント間の類似性を測定する信号処理方法及びビデオ信号を構成する互いに異なる任意の映像及び Z又は音声セグメント間の類似性を測定する映像音声処理装置に関する。背景技術例えばビデオデータに録画されたテレビ番組といつた大量の異なる映像データにより構成される映像アプリケーシヨンの中から、興味のある部分等の所望の部分を探索して再生したい場合がある。

このように、ビデオデータといったマルチメディァデータを探索する場合には、多くのコンピュータアプリケーションで用いられているデータとは本質的に異なり、正確に一致するもの同士を発見することは期待できず、むしろ、似ているものを探索することとなる。そのため、マルチメディァデータの内容に基づく探索に関する技術のうち、ほとんど全ての技術は、例えば "G. Ahanger and T. D. C. Little, A survey or technologies for parsing and indexing ai gital video, J. of Visual Communication and Image Represents tion 7:28-4, 1996" 等に記載されているように、類似性に基づく探索を基礎としている。

このような類似性に基づく探索を行う技術においては、まず内容の類似性が数値的に測定される。そして、この技術においては、類似性の測定結果を用いて、対象とするアイテムとの類似性測定基準に基づいて類似性の高いものから順位付けする。その結果得られたリストにおいては、最も類似しているもの同士は、そのリストの先頭付近に現れることとなる。

このようなマルチメディァデータの内容に基づく探索方法においては、映像データ並びに音声データ、及び本質的には信号処理によるビデオ処理技術を用いて、まずマルチメディァデータから低レべルの特徴量を抽出する。そして、この探索方法においては、抽出した特徴量を用いて、類似性に基づく探索のために必要となる類似性測定基準を求める。

マルチメディァデータの内容に基づく探索に関する研究は、最初は、イメージ（静止画像）の探索に焦点を当てたものが多い。このような研究においては、ィメージ同士の類似性を測定するために、いわゆる色、テクスチャ、形状といった多数の低レベルな映像特徴量を用いている。

また、最近では、ビデオデータについての内容に基づく探索に関する研究も行われている。ビデオデータの場合には、通常、長いビデォデータの中において一致する部分を探索することから、ビデオ C B R (Content s Bas e Retri eval ) に関するほとんどの技術にぉレ' ては、まずビデオデータをセグメントという連続するフレームのひと続き単位に分割する。これらのセグメントは、類似性に基づく探索を行う際の対象となるものである。このビデオデータをセグメン卜に分割する既存の方法としては、例えば上述した "G. Ahanger a nd T. D. C. Little, A survey or technologies for parsing and 1 ndexing digital video, J. of Visual Communication and Image Representation 7： 28-4, 1996" に記載されているように、通常、ショット検出アルゴリズムを用いて、ビデオデータをいわゆるショットに分割するものがある。そして、探索を行う際には、得られたショットから類似性に基づく比較を可能とする特徴量を抽出する。しかしながら、ショットにおける際立った特徴量を捉え、且つ、類似性に基づくショット同士の比較を可能とするような特徴量を検出することは困難である。そこで、ビデオデータについての内容に基づく探索への既存のアプローチとしては、通常、各ショットから代表フレームを抽出し、これらの代表フレームの集合に対して探索を行うことで代替される。これらの代表フレームは、通常、キーフレームと称されるものである。すなわち、ショット内容に基づく探索技術は、ショット ' キーフレームの比較を行うことによって、ィメージ内容に基づく探索技術に帰着される。例えば、ショットについてキーフレームからカラーヒストグラムを抽出した場合、これらキーフレームのヒストグラムを用いて 2つのシヨットの類似性を測定することができる。このアプローチは、キーフレームを選択する際にも有効である。

簡単なアプローチとしては、各ショットから固定的に 1つの決まつたフレームを選択するものがある。また、多数のフレームを選択するための他の方法としては、 "B.L. Yeo and B. Liu, Rapid see ne analysis on compressed video, IEEE Transactions on Circui ts and Systems for Video Technology, vol.5, no.6, pp.533, De cember 1995" に記載されているフレーム差や、 "W. Wolf, Key fr ame selection by motion analysis, Proceedings of IEEE Int 1 Conference on Acoustic, Speech and Signal Proceeding, 199o に記載されている運動分析や、 "Y. Zhuang, Y. Rui, T. Huang an d S. Mehrotra, Adaptive key frame extraction using unsupervi sed clustering, Proceedings of IEEE Int' 1 Conference on Imag e Proceeding, Chicago, Iし，， October 4-7 1998" ίこ記載されてレ、るクラスタリング技術を用いるものがある。

ところで、キーフレームに基づく上述した探索技術は、ショットの類似性に基づく探索に限定されるものである。しかしながら、例えば代表的な 3 0分のテレビ番組中には、数百ものショットが含まれているため、上述した従来の探索技術においては、抽出された膨大な数のショットを調べる必要があり、このような膨大な数のデータを探索対象とすることは大きな負担であった。

そのため、例えばセグメントを或る関連に基づいてまとめたシーンゃプログラムといった、ショットよりも長い映像セグメント及び音声セグメント同士の類似性を比較することによって、負担を軽減する必要力 Sあった。

しかしながら、従来の探索技術は、例えば、特定のコマーシャルに類似したセグメントを探索したり、或るテレビ番組において、同一演技を描いた関連ショット群で構成された或るシーンに類似したシーンを探索するといった要求に応えるものではなかった。

このように、ショットのレベノレよりも高いレべノレのセグメントの類似性に基づく比較を論じた刊行済みの研究は、ほとんど見受けられない。この種の唯一の研究としては、 "J. Kender and B. L. Yeo, Vi deo S cene Segmentat ion v ia Conti nuous Video Coherence, IB M Research Report, RC21061 , December 18, 1997" 力ある。この研究は、 2つのシーンの類似性を比較するための方法を提供している。この研究における探索技術は、ビデオデータの全てのショットをカテゴリに分類した後、各シーンについて、各カテゴリに属するシーン中のショットの数を数える。得られた結果は、標準の類似性測定基準を用いて比較することが可能なヒストグラムである。この研究では、類似するシ一ン同士の類似性を比較する上で、ある程度成功したことが報告されている。

しかしながら、この方法は、ビデオデータの全てのショットを分類する必要があった。全てのショットを分類することは困難なものであって、通常、膨大な計算を要する技術を必要とする。

また、この方法は、たとえ全てのショットを正確に分類することができたとしても、カテゴリ同士の類似性を考慮していないことカら、紛らわしい結果を与える可能性があった。例えば、ビデオデータのショットが 3つのカテゴリ A， B , Cに分割されるものとし、或るシーン Xが、カテゴリ B及びカテゴリ Cのショットを全く有しておらず、カテゴリ Aのショットを 2つ有するものとし、異なるシーン Yが、カテゴリ A及びカテゴリ Cのショットを全く有しておらず、カテゴリ Bのショットを 2つ有するものとする。この場合、この方法においては、シーン Xとシーン Yとの類似性がないものと判断する。ところが、カテゴリ Aとカテゴリ Bとのショットが互いに類似している場合には、類似性の値は、ゼロであるべきではない。すなわち、この方法においては、ショット自体の類似性を考慮していないことから、このような誤った判断がなされることがあった。発明の開示

本発明は、このような実情に鑑みてなされたものであり、上述した従来の探索技術の問題を解決し、種々のビデオデータにおける様々なレベルのセグメントの類似性に基づく探索を行う信号処理方法及び映像音声処理装置を提供することを目的とするものである。上述した目的を達成する本発明にかかる信号処理方法は、供給された信号を構成するセグメントに含まれるサブセグメントのうち、セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチヤを抽出する信号処理方法であって、サブセグメントを任意の属性に基づいて分類して得たグループのうち、シグネチヤの対象とするグループを選択するグループ選択工程と、このグループ選択工程にて選択したグループより、 1つの代表セグメントを選択する代表セグメント選択工程と、この代表セグメント選択工程にて得た代表セグメントについての重みを算出する重み算出ェ程とを備えることを特徴としている。

このような本発明にかかる信号処理方法は、セグメントに関するシグネチヤを抽出する。

また、上述した目的を達成する本発明にかかる映像音声処理装置は、供給されたビデオ信号を構成する映像及び又は音声セグメントに含まれる映像及び又は音声サブセグメントのうち、映像及び

/又は音声セグメントの内容を代表する映像及び Z又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチヤを抽出する映像音声処理装置であって、映像及び Z又は音声サブセグメントを任意の属性に基づいて分類して得たグループのうち、シグネチヤの対象とするグループを選択し、この選択したグループより、 1つの代表セグメントを選択し、得られた代表セグメントについての重みを算出する実行手段を備えることを特徴としている。

このように構成された本発明にかかる映像音声処理装置は、映像及び Z又は音声セグメントに関するシグネチヤを抽出する。図面の簡単な説明図 1は、本発明において適用するビデオデータの構成を説明する図であって、モデル化したビデオデータの構造を説明する図である _c 図 2は、ショットについての映像フレームシグネチヤを説明する図である。

図 3は、シーンについてのショットシグネチヤを説明する図である。

図 4は、シーンについての音声セグメントシグネチヤを説明する図である。

図 5は、テレビ番組についてのシヨットシグネチヤを説明する図である。

図 6は、本発明の実施の形態として示す映像音声処理装置の構成を説明するブロック図である。

図 7は、同映像音声処理装置において、シグネチヤを抽出する際の一連の工程を説明するフローチヤ一トである。図 8は、図 7における一連の工程を具体的に説明するために適用したシーンを説明する図である。

図 9は、図 8に示すシーンから選び取られた rセグメントを説明する図である。発明を実施するための最良の形態以下、本発明を適用した具体的な実施の形態について図面を参照しながら詳細に説明する。

本発明を適用した実施の形態は、ビデオデータから所望の内容を自動的に探し出して抽出するために、ビデオデータ内の任意の集合を代表するデータを自動的に抽出する映像音声処理装置である。この映像音声処理装置の具体的な説明を行う前に、ここではまず本発明において対象とするビデオデータに関する説明を行う。

本発明において対象とするビデオデータについては、図 1に示すようにモデル化し、フレーム、セグメント、プログラムといったレベルに階層化された構造を有するものとする。すなわち、ビデオデータは、その最上位層でありビデオデータ全体を表すプログラムと - その最下位層である一連のフレームとの間を、複数階層からなるセグメントにより構成されるものとする。

ビデオデータにおけるセグメントとしては、連続するフレームのひと続きから形成されるものや、また、このようなフレームの並びを或る関連に基づきシーンとしてまとめたものもあり、さらには、このようなシーンを或る関連に基づきさらにまとめたものもある。また、広い意味では、単一のフレームもセグメントの一種であると考えることができる。

すなわち、ビデオデータにおけるセグメントとは、ここでは、プログラムとフレームとを含めたビデオデータにおける或るまとまりを、階層の高低とは無関係に総称したものであって、ビデオデータのストリームの何らかの連続的部分であると定義する。勿論、セグメントは、上述した連続するフレームのひと続きから形成されるものと、シーンとの中間構造といったように、何らかの意味を持った中間的な構造であってもよい。一方、例えば、任意のセグメント X が、異なるセグメント Yの中に完全に包含されるものである場合には、セグメント Xは、セグメント Yのサブセグメントであると定義する。

このようなビデオデータは、一般に、映像及び音声の両方の情報を含む。すなわち、このビデオデータにおいてフレームは、単一の静止画像である映像フレームと、一般に数 H ^〜数百ミリセカンドノ長といった短時間において標本化された音声情報を表す音声フレームとを含むものとする。

また、セグメントは、映像セグメントと音声セグメントとを含むものである。すなわち、セグメントは、単一のカメラにより連続的に撮影された映像フレームのひと続きからなるいわゆるショットゃ、この特徴を表す特徴量を用いて、ショットを意味のあるまとまりにグループ化したシーン等の映像セグメントを含む。さらに、セグメントは、例えば、一般によく知られている方法により検出されたビデォデータ中の無音期間により境界を定められて形成されるものや、

D. Kimber and L. Wi l cox, Acoust i c Segmentat ion for Audio B rows ers, Xerox Pare Techn i ca l Report" ίこ gc載されてレヽるよう tこ、例えば、音声、音楽、ノイズ、無音等のように少数のカテゴリに分類された音声フレームのひと続きから形成されるものや、 " S. Pfe i f f er, S. Fi s cher and E. Wol fgang, Automat i c Audio Content A nalys i s, Proceedi ng of ACM Mu lt imedi a 96, Nov. 1996, pp21 -30 " に記載されているように、 2枚の連続する音声フレーム間の或る特徴における大きな変化を検出する音声力ット検出を用いて決定されるものや、一連の音声フレームを何らかの特徴量に基づいて意味のあるまとまりにグループ化したものといった音声セグメントを含む。

本発明を適用した実施の形態として示す映像音声処理装置は、上述したビデオデータにおけるセグメントの内容を特徴付ける一般的な特徴量であるシグネチヤ（S ignature) を自動的に抽出するとともに、 2つのシグネチヤの類似性を比較するものであり、映像セグメント及び音声セグメントの両方に適用できるものである。得られる類似性測定基準は、セグメントの探索及び分類を行うための汎用ッールを与えるものである。

ここで、シグネチヤについて説明する。シグネチヤとは、一般に、或る対象を識別するものであって、その対象よりも少ない情報によつて、その対象を高い精度で識別する何らかのデータである。例えば、人間に関するシグネチヤとしては、指紋がその一種として挙げられる。すなわち、或る物体に付着した 2組の指紋の類似性を比較することは、同一人物がその指紋を付けたか否かを正確に判定することを可能とする。

同様に、映像セグメント及び音声セグメントに関するシグネチヤは、映像セグメント及び音声セグメントを識別することを可能とするデータである。このシグネチヤは、ここでは、セグメントを分割して得られる上述したサブセグメントの重み付き集合として与えられるものとする。例えば、或るセグメント Xに関するシグネチヤ S は、後述するように、セグメント Xを代表するサブセグメントを要素とする代表セグメント Rと、この代表セグメント Rの各要素に重みを割り当てる関数である重み付け関数 Wとで表される対く R， W 〉であると定義される。

以下の説明では、いわゆる代表フレームを表す用語である r フレーム ( Repre sentat ive frame) を拡張して、代表セグメン卜を rセグメントと記すこととする。これより、或るシグネチヤが含む全ての rセグメントの集合は、そのシグネチヤの rセグメントと称される。また、 rセグメントのタイプを、そのシグネチヤの rタイプと称す。そして、シグネチヤの rタイプを明示する必要がある場合には、そのタイプを "シグネチヤ" という用語の前に付ける。例えば、映像フレームシグネチヤは、その rセグメントが全て映像フレームであるシグネチヤを示す。また、ショットシグネチヤは、その rセグメントが上述したショットであるシグネチヤを示す。一方、或るシグネチヤ Sにより記述されるセグメントを、当該シグネチヤ Sの対象セグメントと称す。シグネチヤは、映像セグメント、音声セグメント、或いはこれらの両方の組み合わせを含む rセグメントを用いることができる。

このようなシグネチヤは、セグメントを有効に表す幾つかの性質を有する。

まず、シグネチヤは、最も重要な性質として、ショット等の短いセグメントを記述するのみならず、或るシーン全体或いはビデオデ —タ全体といったさらに長いセグメントを記述することを可能とする。

また、長い対象セグメントを特徴付けるために必要な rセグメントは、通常、僅かの数に過ぎない。すなわち、シグネチヤは、僅かのデータ量でセグメントを特徴付けることを可能とする。

さらに、シグネチヤにおいては、各 rセグメントに割り当てられた重みが、各 rセグメントの重要性又は関連性を表し、対象とするセグメントを識別することを可能とする。

さらにまた、フレームのみならず、ショットやシーン等のい力なるセグメントも rセグメントとして用いることができるため、シグネチヤとは、いわゆるキーフレームという概念を拡張して一般化したものに他ならないといえる。

また、セグメントをより単純なサブセグメントの集合に分解できる場合には、それらのサブセグメントを rセグメントとして用いることができる。

このようなシグネチヤは、コンピュータ支援 · ユーザ · ィンターフェースを介して、ユーザが任意に作成することもできるが、ほとんどのアプリケーションにおいては、自動的に抽出されることが望ましい。

ここで、シグネチヤの実例について幾つか説明する。

まず、ショットについての映像フレームシグネチヤは、図 2に示すように、その rセグメントが静止画像であるシグネチヤである。このようなシグネチヤを作成する 1つの方法は、各シヨットにつレヽてのキーフレームを rセグメントとして用い、当該キーフレームにほぼ一致するシヨット内映像フレームの、ショット内全映像フレームに対する割合を重み付けとして用いることである。

また、シーンについてのショットシグネチヤは、図 3に示すように、その！ "セグメントがショットであるシグネチヤである。ここで、シーン中のショットを n個のグループに分類できるとする。この場合、 n個の rセグメントからなるシグネチヤを作成することができる。すなわち、各グループについて、或る 1つのショットを rセグメントとして振る舞うものとして選択する。ここで、各 rセグメン卜についての重み付けであるが、後述するように、シーンを構成する全ショット数に対する各グループを構成するショット数の割合として与えることができる。

さらに、シグネチヤは、視覚情報のみを用いることには限定されず、図 4に示すように、シーンについての音声セグメントシグネチャもシグネチヤの実例として挙げることができる。ここで、シーンについての音声セグメントシグネチヤとは、音声セグメントの集合を rセグメントとして用いるものである。例えば、互いに会話をしている複数人からなるシーンを考える。この場合、話し手を自動的に区別することが可能であれば、各話し手の短いスピーチセグメントを rセグメントとして使うことができる。

さらにまた、シグネチヤは、短いセグメントを記述するために役立つばかりではなく、ビデオ全体を記述するためにも用いることができる。例えば、複数のショットを適宜選択することによって、特定のテレビ番組を他のテレビ番組から明確に区別することが可能となる。このようなショットは、当該テレビ番組で繰り返し使用されるものであり、例えば、図 5に示すようなニュース番組における始まりのロゴ ' ショットと、ニュースキャスターを示すショットとカこれに相当する。この場合、重み付けは、ショットの重要性を表すこと力ら、ロゴ · ショットとニュースキャスターのショットとに同じ重みを割り当てることが適当である。

このようなシグネチヤを自動的に抽出するとともに、 2つのシグネチヤの類似性を比較する映像音声処理装置 1 0は、図 6に示すように、各部の動作を制御するとともに、 ROM 1 2に記憶されているプログラムを実行してセグメントのシグネチヤを抽出する実行手段である C PU (Central Processing Unit) 1 1 と、シグネチヤを抽出するために C PU 1 1が実行するプログラムや、使用する数値等を記憶しておく読み出し専用のメモリである R OM (Read Only Memory) 1 2と、入力したセグメントを分割して得られるサブセグメントゃ、 rセグメント等を記憶する作業領域としての機能を有するメモリである RAM (Random Access Memory) 1 3と、作成したシグネチヤ等を必要に応じて図示しない記録媒体に対して記録及び Z又は再生する HDD (Hard Disk Drive) 1 4と、シグネチヤを求めるセグメントを入力するとともに、 rセグメントの集合とこれらの各 rセグメントについての重みとをシグネチヤとして出力するィンターフェース（以下、 I ZFと略記する。 ) 1 5とを備え、これらの各部は、バス 1 6により相互に接続されている。

このような映像音声処理装置 1 0は、 C P U 1 1が R〇M 1 2に記憶されているプログラムを読み出して実行し、図 7に示すような —連の処理を行うことによって、シグネチヤを抽出する。

まず、映像音声処理装置 1 0は、同図に示すように、ステップ S 1において、 I ZF 1 5を介して入力したセグメントをサブセグメントに分割する。ここで分割されて得られたサブセグメントは、 r セグメントの候補である候補 rセグメントとなる。

映像音声処理装置 1 0は、セグメントをサブセグメントに分割する方法として特に限定は設けず、適用可能な方法であればいかなる方法であってもよい。このような方法は、使われるサブセグメントのタイプに大きく依存する。ここでは、セグメントをさらに小さレ、セグメントの集合に分解する方法を用いる。具体的には、映像音声処理装置 1 0は、例えば、 rセグメントが映像フレームである場合には、容易に分解することができ、そのセグメント中の全ての映像フレーム（静止画像）の集合がサブセグメントの候補集合となる。また、映像音声処理装置 1 0は、 rセグメントがショットである場合には、例えば "B. Furht (Editor) , Handbook of Multimedia Com puting, CRC Press, 1998" や "J. Render and B丄 Yeo, Video S cene Segmentation via Continuous Video Coherence, IBM Resear ch Report, RC21061, December 18, 1997" tこ記載されてレヽるような既存のアルゴリズムを用いて、セグメントをショットに分割する。さらに、映像音声処理装置 1 0は、サブセグメントが音声セグメントである場合には、例えば上述した "D. Kimber and L. Wilcox, A coustic Segmentation for Audio Browsers, Xerox Pare Technics 1 Report" や "S. Pf eif fer, S. Fischer and E. Wolfgang, Autom atic Audio Content Analysis, Proceeding of ACM Multimedia 96,

Nov. 1996, pp21-30" に記載されているようなオーディオ分割手法を用いて、サブセグメント間の境界を検出する。

このように、映像音声処理装置 1 0は、セグメントのタイプに依存せずにセグメントをサブセグメントに分割する。なお、映像音声処理装置 1 0は、セグメントがフレームであった場合には、この分割工程を行う必要はない。

次に、映像音声処理装置 1 0は、ステップ S 2において、互いに類似したサブセグメントをグループ化する。すなわち、互いに類似したサブセグメントのグループは、対象とするセグメントの内容を最も良好に表すと考えられることから、映像音声処理装置 1 0は、互いに類似したサブセグメントを検出してグループ化する。なお、互いに類似したサブセグメントとは、各サブセグメントが有する後述する特徴量において、それらの非類似性測定基準の値が小さいサブセグメント同士のことを示す。

映像音声処理装置 1 0は、ステップ S 1 と同様に、互いに類似したサブセグメントをグループ化する方法として特に限定は設けず、適用可能な方法であればいかなる方法であってもよい。映像音声処理装置 1 0は、例えば、 "L. Kaufman and P. J. Roussee而， Findi ng Groups in Data： An Introduction to Cluster Analysis, John- Wiley and sons, 1990" に記載されてよく知られている k平均ィ直クラスタ！；ング法（k一 means— clustering method) や kーメドィドアノレゴリズム法 (k-medoids algorithm method) とレヽつたクラスタリング . アルゴリズムを用いて、候補 _Γセグメントの集合内に類似ダループを生成する。このようなクラスタリング · アルゴリズムのほとんどは、 2つのサブセグメントを比較するために、サブセグメントから抽出した後述する特徴量に関する非類似性測定基準のみを必要とする。映像音声処理装置 1 0は、映像フレームやショ、スト等について広く知られている類似性に基づく測定基準のいずれをも用いることができる。

ここで、特徴量について説明する。特徴量とは、セグメントの特徴を表すとともに、異なるセグメント間の類似性を測定するためのデータを供給するセグメントの属性である。映像音声処理装置 1 0 は、いかなる特徴の具体的詳細にも依存するものではないが、当該映像音声処理装置 1 0において用いて効果的であると考えられる特徴量としては、例えば、以下に示す映像特徴量、音声特徴量、映像音声共通特徴量のようなものがある。

映像特徴量として既知のものは多数存在し、例えば色特徴量（ヒストグラム）や映像相関がある。

映像における色は、 2つの映像が類似しているかを判断する際の重要な材料となる。カラーヒストグラムを用いて映像の類似性を判断することは、例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7： 28-4, 199 6" に記載されているように、よく知られている。ここで、カラーヒストグラムとは、例えば H S Vや R G B等の 3次元色空間を n個の領域に分割し、映像における画素の、各領域での出現頻度の相対的割合を計算したものである。 -そして、得られた情報からは、 n次元ベタトルが与えられる。圧縮されたビデオデータについては、例えば U. S. Patent #5, 708， 767号公報に記載されているように、カラーヒストグラムを、圧縮データから直接抽出することができる。

サブセグメントからの特徴量としてヒストグラムを抽出する場合には、映像音声処理装置 1 0は、サブセグメントを構成する映像におけるもともとの YU V色空間を、色チャンネル当たり 2ビットでサンプルして構成した、長さ 2²·³ = 6 4次元のヒストグラムべクトルを得る。このようなヒストグラムは、映像の全体的な色調を表すが、これには時間情報が含まれていない。そこで、映像音声処理装置 1 0では、もう 1つの映像特徴量として、映像相関を計算することもできる。複数の類似セグメントが互いに交差した構造は、それがまとまつた 1つの構造であることの有力な指標となる。例えば会話場面において、カメラの位置は、 2人の話し手の間を交互に移動するが、カメラは通常、同一の話し手を再度撮影するときには、ほぼ同じ位置に戻る。このような場合における構造を検出するためには、ダレィスケール映像の縮小画像に基づく相関がサブセグメントの類似性の良好な指標となることから、映像音声処理装置 1 0は、元の映像を M X Nの大きさのグレイスケール映像へ間引き縮小し、これを用いて映像相関を計算する。ここで、 Mと Nは、両方とも小さい値で十分であり、例えば 8 X 8である。すなわち、これらの縮小グレイスケール映像は、 M N次元の特徴量べクトルとして解釈される。さらに上述した映像特徴量とは異なる特徴量としては、音声に関するものが挙げられる。以下では、この特徴量を音声特徴量と称することにする。音声特徴量とは、音声セグメントの内容を表すことができる特徴量である。音声特徴量としては、例えば、周波数解析、ピッチ、レベルが挙げられる。これらの音声特徴量は、種々の文献により知られているものである。

まず、音声特徴量として、フーリエ変換等の周波数解析を行うことにより得られる、単一の音声フレームにおける周波数情報の分布が挙げられる。映像音声処理装置 1 0は、例えば、 1つの音声サブセグメントにわたる周波数情報の分布を表すために、 F F T (Fast Fourier Transform；高速フーリエ変換）成分、周波数ヒストグラム、パワースペクトル、その他の特徴量を用いることができる。また、映像音声処理装置 1 0は、平均ピッチや最大ピッチといつたピッチや、平均音量や最大音量等の音声レベルもまた、音声サブセグメントを表す有効な音声特徴量として用いることができる。

さらに他の特徴量としては、映像音声共通特徴量が挙げられる。これは、特に映像特徴量でもなく音声特徴量でもないが、映像音声処理装置 1 0において、サブセグメントの特徴を表すのに有用な情報を与えるものである。映像音声処理装置 1 0は、この映像音声共通特徴量として、セグメント長とアクティビティとを用いる。映像音声処理装置 1 0は、映像音声共通特徴量として、セグメント長を用いることができる。このセグメント長とは、セグメントにおける時間長である。一般に、シーンは、そのシーン固有のリズム特徴を有する。そのリズム特徴は、シーン内のセグメント長の変化として現れる。例えば、迅速に連なった短いセグメントは、コマ一シャルを表す。一方、会話シーンにおけるセグメントは、コマーシャルの場合よりも長く、また会話シーンには、相互に組み合わされたセグメントが互いに類似しているという特徴がある。映像音声処理装置 1 0は、このような特徴を有するセグメント長を映像音声共通特徴量として用いることができる。

また、映像音声処理装置 1 0は、映像音声共通特徴量として、ァクテイビティを用いることができる。アクティビティとは、セグメントの内容がどの程度動的或いは静的であるように感じられるかを表す指標である。例えば、視覚的に動的である場合、ァクティビティは、カメラが対象物に沿って迅速に移動する度合い若しくは撮影されているオブジェクトが迅速に変化する度合いを表す。このアクティビティは、カラーヒストグラムのような特徴量のフレーム間非類似性の平均値を測定することにより間接的に計算される。ここで、フレーム i とフレーム j との間で測定された特徴量 F に対する非類似性測定基準を d _F ( i , j ) と定義すると、映像ァクテイビティ V _Fは、次式（ 1 ) のように定義される。

V

式（ 1 ) において、 bと f は、それぞれ、 1セグメントにおける最初と最後のフレームのフレーム番号である。映像音声処理装置 1 0は、具体的には、例えば上述したヒストグラムを用いて、映像ァクティビティ V Fを計算する。

映像音声処理装置 1 0は、このような特徴量をサブセグメントから抽出して互いに類似したサブセグメントをクラスタリング ' アルゴリズムにより検出してグループ化する。

なお、 2つのサブセグメン卜の類似性を測定する実数値を算出する関数である非類似性測定基準については、後述する。

次に、映像音声処理装置 1 0は、ステップ S 3において、サブセグメントをグループ化して得た類似グループの中から、シグネチヤの対象グループを選択する。ここで、映像音声処理装置 1 0は、セグメントの正確な特徴付けのために必要となる rセグメントの数を決定する際に、各グループへ分類されたサブセグメントの数を考盧する。

具体的には、映像音声処理装置 1 0は、シグネチヤの対象グループを選択するために、グループ中に存在するサブセグメントの個数に対して閾値を設定する。

映像音声処理装置 1 0においては、通常、この閾値は、全サブセグメント数に対する、或るグループに含まれるサブセグメント数の比として与えられる。すなわち、映像音声処理装置 1 0は、得られたグループのうち、その要素数が閾値を上回るグループを、シグネチヤの対象グループとする。

—方、映像音声処理装置 1 0は、任意の定数 kを rセグメントの個数として設定することもできる。この場合には、映像音声処理装置 1 0は、全てのグループを、それが含む要素数の順に並べ、要素数が大きい順に k個のグループのみをシグネチヤの対象グループとして選択する。

このようにして、映像音声処理装置 1 0は、グループの中から、シグネチヤの対象グループを選択する。

次に、映像音声処理装置 1 0は、ステップ S 4において、 rセグメントを選び取る。すなわち、映像音声処理装置 1 0は、ステップ S 3にて選択された各グループを構成するサブセグメントの中から

1つのサブセグメントのみを選択し、そのサブセグメントを！ "セグメントとして、シグネチヤの要素とする。

映像音声処理装置 1 0は、具体的には、各グループから任意のサブセグメントを選び取ることができる。或いは、映像音声処理装置

1 0は、より洗練されたアプローチとして、各グループにおけるサブセグメントの平均値又は中央値（med i an) に対し、それに最も類似したサブセグメントを rセグメントとして選び取ることもできる _c このようにして、映像音声処理装置 1 0は、選択した各対象グループから、 rセグメントを選び取る。

そして、映像音声処理装置 1 0は、ステップ S 5において、 rセグメントのそれぞれについての重みを算出する。映像音声処理装置 1 0は、重みを、各 rセグメントが対応するグループが含むサブセグメント数の、総数に対する比として設定する。

映像音声処理装置 1 0は、以上のような一連の工程を全てのセグメントに対して行うことによって、各セグメントに関するシグネチャを抽出する。

このような一連の処理をさらに具体的に説明するために、図 8に示す或るシーンに関するショットシグネチヤを抽出する例について説明する。

このシーンは、 2人の人物が互いに会話している場面を示すものであり、 2人の人物の両方を示すショットから始まり、以降、 2人の人物が話し手に応じて交互に出現するショットが続いている。このようなシーンの場合、映像音声処理装置 1 0は、図 7中ステップ S 1において、シーンをサブセグメントであるショットに分割する。すなわち、この場合には、映像音声処理装置 1 0は、ショット検出方法を用いて、図 8に示すような 9個の異なるサブセグメントを検出して分割する。

次に、映像音声処理装置 1 0は、図 7中ステップ S 2において、互いに類似したサブセグメントを分類してグループ化する。すなわち、この場合には、映像音声処理装置 1 0は、ショットの視覚的な類似性に基づいて、図 8に示したシーンにおける 2人の人物の両方を示す第 1番目のショットのみを要素とする第 1のグループと、各話し手についての 4ショットずつをまとめた第 2、第 3グループとの 3つのグループに分類する。

また、映像音声処理装置 1 0は、図 7中ステップ S 3において、シーンを特徴付けるために必要なグループを選択する。ここでは、図 8に示したシーンにおける第 1グループ乃至第 3グループのいずれも重要であることから、映像音声処理装置 1 0は、第 1グループ乃至第 3グループの全てをシヨットシグネチヤに用いることを決定する。

さらに、映像音声処理装置 1 0は、図 7中ステップ S 4において、各グループから 1ショットを rセグメントとして選び取る。ここでは、映像音声処理装置 1 0は、第 1グループ乃至第 3グループから、それぞれ、図 9に示す 3つのショットを rセグメントとして選び取る。

そして、映像音声処理装置 1 0は、図 7中ステップ S 5において、第 1グループ乃至第 3グループのそれぞれについて、各グループに含まれるショット数の割合に応じた重みを算出する。この場合には、図 8に示す 9個のショットのうち、第 1グループが 1つのショットを要素とし、第 2、第 3グループがぞれぞれ 4つのショットを要素とすることから、映像音声処理装置 1 0は、第 1グループ乃至第 3 グループのそれぞれについて、 1 Z 9 , 4ノ 9， 4 / 9の重み付けを得る。

このようにして、映像音声処理装置 1 0は、図 8に示すシーンに関するシグネチヤとして、図 9に示す rセグメントと重みとを得る。つぎに、抽出したシグネチヤを用いて、 2つのセグメントの類似性を比較する方法について説明する。具体的には、 2つのセグメントの類似性を、 rセグメントに基づくシグネチヤの類似性として定義する。ここで、実際には、上述した非類似性測定基準或いは類似性の度合い測定基準を定義することに注意する必要がある。

ここでは、 Ρ = { ( Γ p i , W p l ) , ■ · · ， ( Γ p 1 , W pm) } 及び Q = { ( r _q i , w _q i ) ， · · · ， ( r , i , w„n) } 力 ^s、そぞれのシグネチヤであるものとする。（ r， w) という表記は、上述したように、 rセグメントと、それに付随する重み付け関数を表したものである。また、 d _R { τ r ₂) を、 2つの rセグメントについての非類似性測定基準とする。

まず、ここでは、非類似性測定基準について説明することにする。非類似性測定基準は、その値が小さい場合は 2つのセグメントが類似していることを示し、値が大きい場合は非類似であることを示す。非類似性測定基準 d _R ( r r 2 ) は、以下の式（ 2 ) で与える関係を満足させる必要がある。 d_n r j ,;-.] = 0 j" =；' のとき

dn ('Ί )^≥ 0 ^ての r， = r について (2) d_R について

ところで、非類似性測定基準の中には、或る特定の特徴量にのみ適用可能なものもあるが、 "G. Ahanger and T.D. Little, A su rvey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7 :28 - 4， 1996" や 'し Kaufman and P. J. Rousseeu , Finding Groups in Data .'An Introduction to Cluster Analysis, John - Wiley and son s, 1990" に記載されているように、一般には、多くの非類似性測定基準は、 n次元空間における点として表される特徴量についての類似性を測定するのに適用可能である。その具体例は、ユークリッド距離、内積、 L 1距離等である。ここで、特に； L 1距離が、ヒストグラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作用することから、映像音声処理装置 1 0は、 L 1距離を導入する。ここで、 2つの n次元ベクトルを A, Bとした場合、 A, B間の L 1距離 dい（A, B) は、次式（ 3 ) で与えられる。

ここで、下付文字 i は、 n次元ベクトル A， Bのそれぞれの i番目の要素を示すものである。

非類似性測定基準としては、上述したものの他にも、幾つかの例が知られているが、ここでは、それらの詳細は省略する。映像音声処理装置 1 0は、上述した C P U 1 1によって、上述したような非類似性測定基準により表される 2つのシグネチヤ間の類似性を測定し、これらの 2つのシグネチヤの対象セグメントの類似性を、それらの rセグメントの類似性に基づき、以下の方法のいずれかにより定義する。

まず、映像音声処理装置 1 0は、第 1の方法として、次式（ 4) に示す重み付き最小値を用いて、 2つのシグネチヤ間の距離を算出する。し

mm ₃ ,.〗ま, ^dr ( )) ' ^ 】 d_r (,_Vi ,_r . (4) また、映像音声処理装置 1 0は、第 2の方法として、次式（ 5 ) に示す重み付き平均距離を用いて、 2つのシグネチヤ間の距離を算出する。

さらに、映像音声処理装置 1 0は、第 3の方法として、次式 ( 6 ) に示す重み付き中央値距離を用いて、 2つのシグネチヤ間の距離を算出する。

mm 2 w median d

さらにまた、映像音声処理装置 1 0は、第 4の方法として、 "Y. Rubner, C. Tomasi and L. J. Guibas, A Metric for Distributio ns with Applications to Image Databases, Proceedings of て he 1998 IEEE International Conference on Computer Vision, Bomba y, India, January 1998" に記載されている距離計量法から応用して、静止画像についての力ラーショートメッセージの場合に用いた次式（ 7 ) に示すアース ' ムーバ（Earth Mover) の距離を用いて、 2つのシグネチヤ間の距離を算出する。この方法では、 m X nコスト · マトリックス Cを定義する。ここで、 C i iは、関数を最小にする値である。条件

.. = mm νι,.， . 映像音声処理装置 1 0は、 "Y. Rubner, C. Tomasi and L. J. Gu ibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE International Confer ence on Computer Vision, Bombay, India, January 1998" ίこ g己载されているアルゴリズムを用いることによって、この式（ 8 ) に示すような制約条件にしたがって、式（ 7 ) に示す関数を最小にする C i iの値を検出することができる。映像音声処理装置 1 0においては、 2つのシグネチヤ間の距離の値を式（ 7) に示す関数の最小値と定義する。

映像音声処理装置 1 0は、このような方法のいずれかによつて、 2つのセグメントの類似性を、 rセグメントに基づくシグネチヤの類似性として求める。そして、映像音声処理装置 1 0は、近似的なセグメント間の類似性に基づいて、セグメントをグループ化するか否かを決定する。

このようにすることによって、映像音声処理装置 1 0は、プログラムとフレームとを含めたビデオデータにおける或るまとまりを、階層の高低とは無関係にグループ化することができる。

以上説明してきたように、本発明の実施の形態として示す映像音声処理装置 1 0は、ビデオデータの様々な階層におけるシグネチヤを自動的に抽出するとともに、 2つのシグネチヤの類似性を比較することによって、対応するセグメント間の類似性を比較することができるものである。この映像音声処理装置 1 0は、ビデオデータの様々な階層におけるセグメントをグループ化することを可能とするものであって、異なるタイプのビデオデータにも適用できるものである。このように、映像音声処理装置 1 0は、ビデオデータの任意の構造を自動的に探索して抽出するための汎用のツールとなり得るものである。

なお、本発明は、上述した実施の形態に限定されるものではなく、例えば、互いに類似したサブセグメントをグループ化する際に用いる特徴量は、上述したもの以外でもよいことは勿論である。すなわち、本発明においては、何らかの情報に基づいて、互いに関連し合うサブセグメントをグループ化することができればよい。

また、その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもなレ、。産業上の利用可能性以上詳細に説明したように、本発明にかかる信号処理方法は、供給された信号を構成するセグメントに含まれるサブセグメントのうち、セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチヤを抽出する信号処理方法であって、サブセグメントを任意の属性に基づいて分類して得たグループのうち、シグネチヤの対象とするグループを選択するグループ選択工程と、このグループ選択工程にて選択したグループより、 1つの代表セグメントを選択する代表セグメント選択工程と、この代表セグメント選択工程にて得た代表セグメントについての重みを算出する重み算出工程とを備える。

したがって、本発明にかかる信号処理方法は、セグメントに関するシグネチヤを抽出することができ、このシグネチヤを用いて、信号におけるセグメントの階層に関わらず、互いに異なるセグメント間の類似性を比較することができる。このことから、本発明にかかる信号処理方法は、種々の信号における様々な階層のセグメントに対し、類似性に基づいて所望の内容を持つセグメントの探索を行うことができる。

また、本発明にかかる映像音声処理装置は、供給されたビデオ信号を構成する映像及び Z又は音声セグメントに含まれる映像及び/ 又は音声サブセグメントのうち、映像及びノ又は音声セグメントの内容を代表する映像及び/又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチヤを抽出する映像音声処理装置であって、映像及びノ又は音声サブセグメントを任意の属性に基づいて分類して得たグループのうち、シグネチヤの対象とするグループを選択し、この選択したグループより、 1つの代表セグメントを選択し、得られた代表セグメントについての重みを算出する実行手段を備える。

したがって、本発明にかかる映像音声処理装置は、映像及び Z又は音声セグメントに関するシグネチヤを抽出することが可能であつて、このシグネチヤを用いて、ビデオ信号における映像及び/又は音声セグメントの階層に関わらず、互いに異なる映像及び Z又は音声セグメント間の類似性を比較することが可能となる。このことから、本発明にかかる映像音声処理装置は、種々のビデオ信号における様々な階層の映像及び又は音声セグメントに対し、類似性に基づいて所望の内容を持つ映像及び/又は音声セグメントの探索を行うことができる。

Claims

請求の範囲

1 . 供給された信号を構成するセグメントに含まれるサブセグメントのうち、上記セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチヤを抽出する信号処理方法であつて、

上記サブセグメントを任意の属性に基づいて分類して得たグループのうち、上記シグネチヤの対象とするグループを選択するグループ選択工程と、

上記グループ選択工程にて選択したグループより、 1つの代表セグメントを選択する代表セグメント選択工程と、

上記代表セグメント選択工程にて得た代表セグメントについての重みを算出する重み算出工程とを備えること

を特徴とする信号処理方法。

2 . 互いに異なるセグメントの各代表セグメント間の類似性を比較して得た比較結果と、上記重み算出工程により算出した各代表セグメントに付随する重みとを用いて、互いに異なるセグメント間の類似性を比較すること

を特徴とする請求の範囲第 1項記載の信号処理方法。

3 . 上記セグメントを、上記代表セグメントの候補となる複数のサブセグメントに分割するセグメント分割工程と、

上記セグメント分割工程にて得たサブセグメントのうち、上記属性として互いの類似性に基づいて、上記サブセグメントを分類してグループ化するグループ化工程とを備え、上記グループ選択工程では、上記セグメント分割工程及び上記グループ化工程を経て得たグループのうち、上記シグネチヤの対象とするために任意のグループを選択すること

を特徴とする請求の範囲第 1項記載の信号処理方法。

4 . 上記信号とは、ビデオデータの映像信号と音声信号の少なくとも 1つであること

を特徴とする請求の範囲第 1項記載の信号処理方法。

5 . 上記重み算出工程では、代表セグメントが対応するグループに含まれるサブセグメントの総数に基づいて、上記重みを算出すること

を特徴とする請求の範囲第 1項記載の信号処理方法。

6 . 上記セグメントとは、上記信号の任意の連続部分であることを特徴とする請求の範囲第 1項記載の信号処理方法。

7 . 上記サブセグメントとは、上記セグメントに含まれる任意の連続部分であること

を特徴とする請求の範囲第 1項記載の信号処理方法。

8 . 上記セグメントは、上記信号を構成する連続したフレームのひと続きから形成されるセグメント又は時間的に連続するセグメントからなるシーンであること

を特徴とする請求の範囲第 1項記載の信号処理方法。

9 . 上記セグメントは、上記信号を構成するフレーム又は上記信号の全体を表すプログラムであること

を特徴とする請求の範囲第 1項記載の信号処理方法。

1 0 . 供給されたビデオ信号を構成する映像及び又は音声セグメントに含まれる映像及び Z又は音声サブセグメントのうち、上記映像及び Z又は音声セグメントの内容を代表する映像及び Z又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチヤを抽出する映像音声処理装置であって、

上記映像及び Z又は音声サブセグメントを任意の属性に基づいて分類して得たグループのうち、上記シグネチヤの対象とするグループを選択し、この選択したグループより、 1つの代表セグメントを選択し、得られた代表セグメントについての重みを算出する実行手段を備えること

を特徴とする映像音声処理装置。

1 1 . 上記実行手段は、互いに異なる映像及び又は音声セグメントの各代表セグメント間の類似性を比較して得た比較結果と、算出した各代表セグメントに付随する重みとを用いて、互いに異なる映像及び Z又は音声セグメント間の類似性を比較すること

を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。

1 2 . 上記実行手段は、上記映像及び /又は音声セグメントを、上記代表セグメントの候補となる複数の映像及び又は音声サブセグメントに分割し、この得られた映像及び又は音声サブセグメントのうち、上記属性として互いの類似性に基づいて、上記映像及び又は音声サブセグメントを分類してグループ化し、得られたグループのうち、上記シグネチヤの対象とするために任意のグループを選択すること

を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。

1 3 . 上記実行手段は、代表セグメントが対応するグループに含まれる映像及び/又は音声サブセグメントの総数に基づいて、上記重みを算出すること

を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。

1 4 . 上記映像及び Z又は音声セグメントとは、上記ビデオ信号の任意の連続部分であること

を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。

1 5 . 上記映像及び Z又は音声サブセグメントとは、上記映像及びノ又は音声セグメントに含まれる任意の連続部分であること

を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。

1 6 . 上記映像及びノ又は音声セグメントは、上記ビデオ信号を構成する連続した映像及びノ又は音声フレームのひと続きから形成される映像及び Z又は音声セグメント、又は時間的に連続する映像及びノ又は音声セグメントからなるシーンであること

を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。

1 7 . 上記映像及びノ又は音声セグメントは、上記ビデオ信号を構成する映像及び又は音声フレーム、又は上記ビデオ信号の全体を表すプログラムであること

を特徴とする請求の範囲第 1 0項記載の映像音声処理装置。