WO2010041744A1

WO2010041744A1 - 動画検索装置および動画検索プログラム

Info

Publication number: WO2010041744A1
Application number: PCT/JP2009/067652
Authority: WO
Inventors: 美紀長谷山
Original assignee: 国立大学法人北海道大学
Priority date: 2008-10-09
Filing date: 2009-10-09
Publication date: 2010-04-15

Abstract

　動画データが記憶された動画データベース１１と、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部２１と、シーン分割部２１によって分割されたそれぞれのシーンについて、オーディオ信号のうちの音声信号をテキストデータに変換して、テキストデータにおける名詞の頻度から、シーン間のテキストの類似度を算出して、テキスト類似度データ１４を生成するテキスト類似度算出部２５を備える。

Description

動画検索装置および動画検索プログラム

　本発明は、複数の動画データから、クエリ動画データに類似するシーンを検索する動画検索装置および動画検索プログラムに関する。

　近年の記憶媒体の大容量化やインターネットによる映像配信サービスの普及に伴い、ユーザは、大量の映像を入手可能となった。しかしながら、ユーザが特定の映像を明示せずに、所望の映像を入手することは一般に困難である。これは、膨大なデータベースにおける映像の入手が、主に映像名や製作元等のキーワードを用いた検索に依存していることに起因する。このため、キーワードによる映像検索だけでなく、映像の構成に注目した検索や同一ジャンルの映像の検索等、映像の内容に基づく様々な検索技術の実現が期待されている。そこで、映像や楽曲間の類似度に着眼した手法が提案されている（例えば、特許文献１および特許文献２参照）。

　特許文献１に記載の方法では、各動画データに、複数の単純図形との類似率を求めて記録した被検索用単純図形類似率情報が関連づけられている。一方、画像検索時に、検索画像について複数の単純図形との類似率を求めて記録した検索用類似率情報を作成する。被検索用単純図形類似率情報と、検索用類似率情報とを照合し、複数の単純図形ごとの類似率を集計し平均した類似率が、予め設定した規定類似率以上の場合、その動画データを類似動画として検索する。また、特許文献２に記載の方法では、映像データにおける類似映像区間とそれ以外を区別する類似映像区間情報を生成する。このとき、特許文献２に記載の方法では、ショットの画像の特徴量に基づいて類似パターンに分類する。

　一方、感性に基づく単語をメタデータとして映像・楽曲に付加し、単語間の関係に基づいて映像・楽曲の類似度を算出する方法もある（非特許文献１および非特許文献２参照）。

　また、映像データや音声データを含むマルチメディアデータについて、意味的に類似するマルチメディアデータを検索する方法もある（特許文献３参照。）。特許文献３に記載の方法では、マルチメディアデータに関連づけられた字幕や台本等のテキストデータ、音声データを変換したテキストデータ等を話題の単位で分割して、検索条件として入力されたテキストデータと話題の単位に分割されたテキストデータとを比較して、互いの意味的な類似度を判定する。

特開２００７－５８２５８号公報特開２００７－５８２５８号公報特開２００２－３１２３７０号公報

L. Lu, D. Liu and H. J. Zhang, "Automatic Mood Detection and Tracking of Music Audio Signals," IEEE Trans. Audio, Speech and Language Proceeding, vol. 14, no. 1, pp. 5－18, 2006. T. Li and M. Ogihara, "Toward Intelligent Music Information Retrieval, " IEEE Trans. Multimedia, Vol. 8, No. 3, pp. 564－574, 2006.

　しかしながら、上記の特許文献１および特許文献２に記載の方法においては、画像の特徴のみに基づいた分類方法である。従って、同様の画像を含むシーンであっても、その画像の有する感性を把握して類似するシーンを取得することは困難である。

　また、非特許文献１および非特許文献２に記載の方法では、画像のもつ感性を把握して類似するシーンを検索することはできるが、予め各シーンについてメタデータを付与しなければならない。従って、昨今のデータベースの大容量化に伴い、多量の動画データを分類しなければならない場合には、対応することが困難である。

　また、特許文献３に記載の方法では、音声データを変換したテキストデータと、検索条件とを比較して類似度を検索しているので、シーン間のテキストの類似度としては低い場合が考えられる。また、テキストデータを話題の単位ごとに分割するので、分割の精度が低くなってしまう場合が考えられる。

　従って本発明の目的は、動画データのクエリシーンに類似するシーンを検索する動画検索装置および動画検索プログラムを提供することである。

　上記課題を解決するために、本発明の第１の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置に関する。即ち本発明の第１の特徴に係る動画検索装置は、クエリ動画データを含む動画データが記憶された動画データベースと、動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のうちの音声信号をテキストデータに変換して、テキストデータにおける名詞の頻度から、シーン間のテキストの類似度を算出して、テキスト類似度データを生成するテキスト類似度算出部を備える。

　また、テキスト類似度算出部は、シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のメル周波数ケプストラム係数を算出し、算出したメル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、テキストデータを形態素解析して名詞を抽出し、抽出された名詞の頻度に基づいて、シーンの特徴となる検出単語を出力してテキストの類似度を算出しても良い。

　シーン分割部によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部を更に備えても良い。
　シーン分割部によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部を更に備えても良い。

　また、シーン分割部によって分割されたそれぞれのシーンについて、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、シーン分割部によって分割されたそれぞれのシーンについて、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、ビデオ信号類似度算出部によって検索された各シーンのビデオ信号の類似度、オーディオ信号類似度算出部によって検索された各シーンのオーディオ信号の類似度およびテキスト類似度算出部によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、クエリ動画データとの類似度を算出する類似度算出部と、類似度算出部で算出されたクエリ動画データとの類似度を参照して、類似度の高いシーンを検索するシーン検索部と、シーン検索部によって検索された各シーンについて、類似度算出部で取得された類似度に対応する座標を算出して、表示装置に表示する表示部を更に備えても良い。

　シーン分割部は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する。

　本発明の第２の特徴は、動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索プログラムに関する。即ち本発明の第３の特徴に係る動画検索プログラムは、コンピュータを、動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のうちの音声信号をテキストデータに変換して、テキストデータにおける名詞の頻度から、シーン間のテキストの類似度を算出して、テキスト類似度データを生成するテキスト類似度算出手段として機能させる。

　また、テキスト類似度算出手段は、シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のメル周波数ケプストラム係数を算出し、算出したメル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、テキストデータを形態素解析して名詞を抽出し、抽出された名詞の頻度に基づいて、シーンの特徴となる検出単語を出力してテキストの類似度を算出しても良い。

　シーン分割手段によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段として更に機能させても良い。
　シーン分割手段によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段として、更に機能させても良い。

　シーン分割手段によって分割されたそれぞれのシーンについて、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、シーン分割手段によって分割されたそれぞれのシーンについて、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、ビデオ信号類似度算出手段によって検索された各シーンのビデオ信号の類似度、オーディオ信号類似度算出手段によって検索された各シーンのオーディオ信号の類似度およびテキスト類似度算出手段によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、クエリ動画データとの類似度を算出する類似度算出手段と、類似度算出手段で算出されたクエリ動画データとの類似度を参照して、類似度の高いシーンを検索するシーン検索手段と、シーン検索手段によって検索された各シーンについて、類似度算出手段で取得された類似度に対応する座標を算出して、表示装置に表示する表示手段として、更に機能させても良い。

　シーン分割手段は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力しても良い。

　本発明によれば、動画データのクエリシーンに類似するシーンを検索する動画検索装置および動画検索プログラムを提供することができる。

図１は、本発明の最良の実施の形態に係る動画検索装置の機能ブロック図である。図２は、本発明の最良の実施の形態に係る動画検索装置が出力する画面例であって、クエリ画像を表示した画面例ある。図３は、本発明の最良の実施の形態に係る動画検索装置が出力する画面例であって、類似画像を表示した画面例である。図４は、本発明の最良の実施の形態に係る動画検索装置が出力する画面例であって、類似画像の詳細情報を表示した画面例である。図５は、本発明の最良の実施の形態に係る動画検索装置のハードウェア構成図である。図６は、本発明の最良の実施の形態に係る動画検索装置による動画検索処理を説明する図である。図７は、本発明の最良の実施の形態に係るシーン分割部によるシーン分割処理を説明するフローチャートである。図８は、本発明の最良の実施の形態に係るビデオ信号類似度算出部によるビデオ信号類似度算出処理を説明するフローチャートである。図９は、本発明の最良の実施の形態に係るオーディオ信号類似度算出部によるオーディオ信号類似度算出処理を説明するフローチャートである。図１０は、本発明の最良の実施の形態に係るベース音に基づく類似度算出処理を説明するフローチャートである。図１１は、本発明の最良の実施の形態に係るベース音以外の他楽器に基づく類似度算出処理を説明するフローチャートである。図１２は、本発明の最良の実施の形態に係るリズムに基づく類似度算出処理を説明するフローチャートである。図１３は、本発明の最良の実施の形態に係るテキスト類似度算出部によるテキスト類似度算出処理を説明するフローチャートである。図１４は、本発明の最良の実施の形態に係る検索処理を説明するフローチャートである。図１５は、本発明の最良の実施の形態に係る表示処理を説明するフローチャートである。図１６は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類を説明する図である。図１７は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類の際に参照される信号を説明するテーブルである。図１８は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップの特徴量を算出する処理を説明する図である。図１９は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップの特徴量の主成分を出力する処理を説明する図である。図２０は、本発明の最良の実施の形態に係る動画検索装置において、オーディオクリップのクラス分類を詳細に説明する図である。図２１は、本発明の最良の実施の形態に係る動画検索装置において、χ²検定法による映像のショット分割処理を説明する図である。図２２は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ集合を生成する処理を説明する図である。図２３は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ制御規則を説明する図である。（その１）図２４は、本発明の最良の実施の形態に係る動画検索装置において、ファジィ制御規則を説明する図である。（その２）図２５は、本発明の最良の実施の形態に係る動画検索装置において、各ショットに対するオーディオクラスへの帰属確率の算出処理、各ショットに対するファジィ推論処理およびファジィ推論値を用いたシーン分割処理を説明する図である。図２６は、本発明の最良の実施の形態に係る動画検索装置において、ビジュアル信号特徴量算出処理を説明するフローチャートである。図２７は、本発明の最良の実施の形態に係る動画検索装置において、オーディオ信号特徴量算出処理を説明するフローチャートである。図２８は、本発明の最良の実施の形態に係る動画検索装置において、３次元ＤＴＷの格子点を説明する図である。図２９は、本発明の最良の実施の形態に係る動画検索装置において、局所パスを説明する図である。図３０は、本発明の最良の実施の形態に係る動画検索装置において、シーン間の類似度算出処理を説明するフローチャートである。図３１は、一般的なＤＴＷによるパターン間の類似度の算出を説明する図である。図３２は、一般的なＤＴＷによる経路長の算出を説明する図である。図３３は、本発明の最良の実施の形態に係る動画検索装置において、ベース音に基づく類似度算出理を説明する図である。図３４は、本発明の最良の実施の形態に係る動画検索装置において、ベース音に基づく類似度算出処理を説明するフローチャートである。図３５は、各音名が有する周波数を説明するテーブルである。図３６は、本発明の最良の実施の形態に係る動画検索装置において、音高の推定処理を説明する図である。図３７は、本発明の最良の実施の形態に係る動画検索装置において、ベース音以外の楽器に基づく類似度算出理を説明する図である。図３８は、本発明の最良の実施の形態に係る動画検索装置において、他楽器に基づく類似度算出処理を説明するフローチャートである。図３９は、本発明の最良の実施の形態に係る動画検索装置において、２分割フィルタバンクによる低周波・高周波成分の算出処理を説明する図である。図４０は、本発明の最良の実施の形態に係る動画検索装置において、２分割フィルタバンクによって算出された低周波・高周波成分を説明する図である。図４１は、本発明の最良の実施の形態に係る動画検索装置において、全波整流を施す前の信号と、全波整流を施した後の信号と、を説明する図である。図４２は、本発明の最良の実施の形態に係る動画検索装置において、低域通過フィルタによって処理される信号を説明する図である。図４３は、本発明の最良の実施の形態に係る動画検索装置において、ダウンサンプリングを説明する図である。図４４は、本発明の最良の実施の形態に係る動画検索装置において、平均値除去処理を説明する図である。図４５は、Ｓｉｎ波形の自己相関を説明する図である。図４６は、本発明の最良の実施の形態に係る動画検索装置において、自己相関関数の算出処理およびＤＴＷを用いたリズム関数の類似度の算出処理を説明するフローチャートである。図４７は、本発明の最良の実施の形態に係る動画検索装置において、連続音声認識の基本原理を説明する図である。図４８は、本発明の最良の実施の形態に係る動画検索装置において、透視変換を説明する図である。図４９は、本発明の実施の形態に係る動画検索装置の嗜好入力部のインタフェースを説明する図である。図５０は、本発明の実施の形態に係る動画検索装置の検索部において、市街地距離を利用して検索結果を表示した画面例を説明する図である。図５１は、本発明の実施の形態に係る動画検索装置の検索部において、ユークリッド距離を利用して検索結果を表示した画面例を説明する図である。図５２は、本発明の実施の形態に係る動画検索装置の検索部において、チェス盤距離を利用して検索結果を表示した画面例を説明する図である。図５３は、本発明の実施の形態に係る動画検索装置の表示部において、各動画データを表示する座標を説明する図である。図５４は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、動画検索装置に入力されるクエリ画像データを説明する図である。図５５は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似する動画データを説明する図である。（その１）図５６は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似する動画データを説明する図である。（その２）図５７は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似する動画データを説明する図である。（その３）図５８は、本発明の実施の形態に係る類似画像の検索シミュレーションにおいて、クエリ画像データに類似する動画データを説明する図である。（その４）

　次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。

　本発明の最良の実施の形態において、「ショット」とは、カメラ切り換えから、次のカメラ切り換えまでの間の連続する画像フレーム列である。ＣＧアニメーションや合成映像についても、カメラを撮影環境の設定に置き換えて、同様の意味で使用される。ここで、ショット間の不連続点を「カット点」と呼ぶ。「シーン」とは、意味を持つ連続したショットの集まりである。「クリップ」とは、ビデオ信号を、所定のクリップ長で分割した信号である。このクリップには、複数のフレームが含まれることが好ましい。「フレーム」とは、動画像データを構成する静止画像データである。

（最良の実施の形態）
　図１に示す本発明の最良の実施の形態に係る動画検索装置１は、動画データのシーンから、クエリ動画データに類似するシーンを検索する。本発明の最良の実施の形態に係る動画検索装置１は、動画データベース１１中に存在する動画データをシーンに分類して、各シーン間の類似度を算出する。更に本発明の最良の実施の形態に係る動画検索装置１は、いずれかのシーンがクエリ動画データとして選択されると、クエリ動画データとその他のシーンの類似度に基づいて、クエリ動画データに類似するシーンを検索する。

　より具体的には、本発明の最良の実施の形態において、メタデータを用いることなく、映像の構成要素である音響およびビジュアル信号の解析結果を用いて映像間の類似度を算出し、類似映像を検索し、または分類するシステムを説明する。また、それらの検索または分類結果を３次元の空間上に可視化するシステムを説明する。本発明の最良の実施の形態では映像に対して、オーディオ信号およびビジュアル信号を含むビデオ信号に基づいた映像情報の類似度の算出と、オーディオ信号に基づいた音楽情報の類似度の算出と、オーディオ信号に含まれる音声信号から変換されたテキストの類似度の算出と、の３つの類似度算出機能を持つ。さらに、この機能を用いることで、クエリ映像を与えた場合に自動で類似映像の検索を可能とする。また、クエリ映像が存在しない場合、データベース中の映像を自動的に分類し、注目する映像に対して類似する映像をユーザに呈示することを可能とする。このとき、本発明の最良の実施の形態では、映像間の類似度に基づいて、３次元の空間上に映像を配置することで、空間の距離によって映像の類似性を理解することが可能なユーザインターフェースを実現している。

　図１に示す本発明の最良の実施の形態に係る動画検索装置１は、動画データベース１１から複数の映像を読み込み、シーン分割部２１が、全ての映像に対して、同一の内容を含む区間であるシーンを算出する。さらに、分類部２２が、得られる全てのシーン間で類似度を算出し、検索部２６がクエリ画像と類似度の高い動画像データを抽出する。表示部２９が、類似したシーンを持つ映像同士が近くなるように３次元空間へ映像を配置する。尚、クエリの映像が与えられた場合は、これを中心に処理が行われる。
　ここで本発明の最良の実施の形態に係る動画検索装置１の分類部２２の処理は、（１）「映像情報に注目した検索・分類」に基づくビデオ信号類似度算出部２３と、（２）「音楽情報に注目した検索・分類」に基づくオーディオ信号類似度算出部２４と、（３）「テキストに注目した検索・分類」に基づくテキスト類似度算出部２５の３つに分岐する。それぞれの処理において異なるアルゴリズムを用いて類似度が算出される。

　本発明の最良の実施の形態において、動画検索装置１は、図２ないし図４に示す表示画面Ｐ１０１ないし表示画面Ｐ１０３を、表示装置に表示する。図２ないし図４は、クエリシーンに、テキストデータが類似するシーンを検索する場合の表示画面を示している。図２に示す表示画面Ｐ１０１は、クエリ画像表示部Ａ１０１を備えている。動画検索装置１は、クエリ画像表示部Ａ１０１に表示された動画に類似するシーンを、動画データベース１１から検索して、表示画面Ｐ１０２を表示装置に表示する。

　図３に示す表示画面Ｐ１０２には、類似シーン表示部Ａ１０２ａおよびＡ１０２ｂを備えている。これらの類似シーン表示部Ａ１０２ａおよびＡ１０２ｂには、動画データベース１１から検索された動画データのシーンであって、クエリ表示部Ａ１０１に表示されたシーンに、テキストデータが類似するシーンが表示されている。図３に示す表示画面Ｐ１０２には、クエリシーンに類似する動画データのシーンを検索する際の指標を入力するための嗜好入力部Ａ２０１を備える。嗜好入力部Ａ２０１は、逆三角形の形状を有し、それぞれの頂点に、動画像の類似度、音の類似度およびテキストの類似度が関連づけられている。ユーザは、嗜好入力部Ａ２０１の逆三角形の内部のいずれかを選択することにより、その選択された位置に応じて、動画像の類似度、音の類似度およびテキストの類似度のそれぞれの類似度の重みを決定することができる。
　図３に示す表示画面Ｐ１０２においては、クエリ動画データに類似する動画データのシーンを、映像間の類似度に基づいて、３次元の空間上に映像を配置し、空間の距離によって映像の類似性を理解することができる。ここで、３次元の空間上に配置する軸は、ビデオ信号に基づく類似度（動画像の類似度）、オーディオ信号に基づく類似度（音の類似度）およびテキストに基づく類似度（テキストの類似度）となる。

　図４に示す表示画面Ｐ１０３には、図３に示した類似シーンのうち、一つのシーンに着目して表示した画像データである。図４の表示画面Ｐ１０３の中心部には、図３に示す類似シーンの一つを表示した類似シーン表示部Ａ１０３を有する。また、図４の表示画面Ｐ１０３には、この類似シーンに対応づけて、後述するテキスト類似度算出部２５によって出力された検出単語を表示する検出単語表示部Ａ１０４を有する。この検出単語は、このシーンを特徴づける名詞である。検出単語は、複数の名詞でも良いし一つの名詞でも良い。

（動画検索装置のハードウェア構成）
　図５に示すように、本発明の最良の実施の形態に係る動画検索装置１は、中央処理制御装置１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３及び入出力インタフェース１０９が、バス１１０を介して接続されている。入出力インタフェース１０９には、入力装置１０４、表示装置１０５、通信制御装置１０６、記憶装置１０７及びリムーバブルディスク１０８が接続されている。

　中央処理制御装置１０１は、入力装置１０４からの入力信号に基づいてＲＯＭ１０２から動画検索装置１を起動するためのブートプログラムを読み出して実行し、更に記憶装置１０７に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置１０１は、入力装置１０４や通信制御装置１０６などの入力信号に基づいて、各種装置の制御を行ったり、ＲＡＭ１０３や記憶装置１０７などに記憶されたプログラム及びデータを読み出してＲＡＭ１０３にロードするとともに、ＲＡＭ１０３から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する処理装置である。

　入力装置１０４は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース１０９及びバス１１０を介して中央処理制御装置１０１に送信される。表示装置１０５は、ＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイなどであり、中央処理制御装置１０１からバス１１０及び入出力インタフェース１０９を介して表示装置１０５において表示させる出力信号を受信し、例えば中央処理制御装置１０１の処理結果などを表示する装置である。通信制御装置１０６は、ＬＡＮカードやモデムなどの装置であり、動画検索装置１をインターネットやＬＡＮなどの通信ネットワークに接続する装置である。通信制御装置１０６を介して通信ネットワークと送受信したデータは入力信号又は出力信号として、入出力インタフェース１０９及びバス１１０を介して中央処理制御装置１０１に送受信される。

　記憶装置１０７は半導体記憶装置や磁気ディスク装置であって、中央処理制御装置１０１で実行されるプログラムやデータが記憶されている。リムーバブルディスク１０８は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース１０９及びバス１１０を介して中央処理制御装置１０１に送受信される。

　本発明の最良の実施の形態に係る動画検索装置１の記憶装置１０７には、動画検索プログラムが記憶されるとともに、図１に示すように、動画データベース１１、ビデオ信号類似度データ１２、オーディオ信号類似度データ１３およびテキスト類似度データ１４が記憶される。又、動画検索プログラムが動画検索装置１の中央処理制御装置１０１に読み込まれ実行されることによって、シーン分割部２１、分類部２２、検索部２６および表示部２９が、動画検索装置１に実装される。

（動画検索処理）
　図６を参照して、本発明の最良の実施の形態に係る動画検索装置１による動画検索処理を説明する。
　まずステップＳ１においてシーン分割部２１は、各動画データについて、各シーンに分割する。シーン分割部２１は、例えば、分割されたシーン毎に、その先頭の時間を記録する。

　ステップＳ２ないしステップＳ４において分類部２３は、各動画データの各シーンについて、各シーン間の類似度を算出する。分類部２３は、ステップＳ２において、各シーンのビデオ信号の特徴量から、各シーン間のビデオ信号の類似度を算出する。分類部２３は、ステップＳ３において、各シーンのオーディオ信号の特徴量から、各シーン間のオーディオ信号の類似度を算出する。分類部２３は、ステップＳ４において、各シーンのテキストの特徴量から、各シーン間のテキストの類似度を算出する。

　各シーン間のビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度が算出されると、ステップＳ５において検索部２６は、類似度Ｄを算出する算出式を決定する。類似度Ｄは、クエリ動画データと各シーンとの類似度である。類似度Ｄは、ステップＳ２ないしステップＳ４で算出された類似度、指定された条件に基づいて算出される。さらに検索部２６は、各シーンについて算出式に従った類似度Ｄを算出する。
　指定された条件とは、類似する動画データを検索する際に、ユーザによって入力される検索条件である。具体的には、検索条件とは、動画データベース１１の動画データから指定されたクエリ動画データ、ビデオ信号、オーディオ信号およびテキストのいずれのパラメータに基づいて類似度を検索するか、ビデオ信号、オーディオ信号およびテキストのうち複数のパラメータを指定する際は、指定したパラメータごとの重みである。

　類似度Ｄは、ユーザによって指定されたクエリ動画データと、他の動画データのシーンとのビデオ信号類似度、オーディオ信号類似度およびテキスト類似度から算出される。このとき、ユーザから指定された重みも考慮される。
　例えば、ユーザから、テキストのみが指定された場合、類似度Ｄは、テキストの類似度と同一である。このときビデオ信号とオーディオ信号の類似度の重みはゼロと評価され、類似度Ｄに影響を与えない。
　また、オーディオ信号の重み８で、テキストの重みが２と入力されると、類似度Ｄは、オーディオ信号の類似度とテキストの類似度から、それぞれの重みを考慮して評価される。このときビデオ信号の類似度の重みはゼロと評価され、類似度Ｄに影響を与えない。
　ビデオ信号、オーディオ信号およびテキストのそれぞれの重みが３と入力されると、類似度Ｄは、ビデオ信号、オーディオ信号およびテキストがそれぞれ均等に評価される。

　検索部２６は、各動画データの各シーンについて類似度Ｄを算出する。具体的には検索部は、各動画データの各シーンについて、クエリ動画データとのビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度を抽出し、算出式から類似度Ｄを算出する。

　ステップＳ６において検索部２６は、ステップＳ５で算出された各動画データの各シーンの類似度Ｄを参照し、クエリ動画データとの類似度Ｄが高いシーンを抽出する。ステップＳ６で抽出するシーンの数は、表示する表示画面の大きさ、解像度、見やすさ等によって任意に定められても良い。また、シーンの数に関係なく、類似度が所定の閾値内であるシーンが抽出されても良い。

　さらにステップＳ７において表示部２９は、ステップＳ６によって抽出されたシーンのサムネイルを表示画面に表示する。表示部２９は、ステップＳ７で抽出された各シーンについて、ステップＳ２ないしステップＳ４で算出された各類似度に対応した座標を算出する。表示部２９は、例えば、各シーン間についてビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度に対応した３次元の座標を算出し、透視変換により２次元に変換して、表示画面における座標を算出する。

　ここで、本発明の最良の実施の形態においては、シーン間の類似度を予め検索し、ユーザが、各動画データの各シーンからクエリ動画データを選択する場合について説明する。例えば、動画データベース１１に１０の動画データのシーンが含まれている場合、第１のシーンと第２のシーン、第１のシーンと第３のシーン、第１のシーンと第４のシーン・・・・第８のシーンと第９のシーン、第８のシーンと第１０のシーン、第９のシーンと第１０のシーンと、合計４５組のシーン間について、ビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度を算出する。
　他の実施の形態としては、先にクエリ動画データを決定し、そのクエリ動画データと、その他の各動画データの各シーンのシーン間について、ビデオ信号の類似度、オーディオ信号の類似度およびテキストの類似度を算出しても良い。

　つぎに、図１に示した各処理手段について詳述する。

（動画検索装置の機能ブロック）
　動画データベース１１は、複数の動画データが記憶される。この動画データベース１１に記憶される動画データは、本発明の最良の実施の形態に係る動画検索装置１によって分類される対象となる。動画データベース１１に記憶される動画データは、オーディオ信号およびビジュアル信号を含むビデオ信号によって構成されている。

　シーン分割部２１は、記憶装置１０７から動画データベース１１を読み出して、動画データのビジュアル信号をショットに分割して、ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力する。より具体的には、シーン分割部２１は、動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出する。さらにシーン分割部２１は、動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出する。さらにシーン分割部２１は、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する。

　図７を参照して、シーン分割部２１の処理の概要を説明する。まず、動画データベース１１を読み出して、動画データベース１１に記憶された各動画データについて、ステップＳ１０１ないしステップＳ１１０の処理を繰り返す。
　ステップＳ１０１においてシーン分割部２１は、動画データベース１１に記憶された動画データの一つについて、オーディオ信号を抽出して読み出し、ステップＳ１０２において、オーディオ信号をクリップに分割する。次に、ステップＳ１０２で分割された各クリップについて、ステップＳ１０３ないしステップＳ１０５の処理が繰り返される。

　ステップＳ１０３において、クリップの特徴量が算出され、ステップＳ１０４において、ＰＣＡ（主成分分析）によってこの特徴量のパラメータが削減される。次に、ステップＳ１０４において削減された後の特徴量に基づいて、ＭＧＤに基づいて、クリップのオーディオクラスの帰属確率が算出される。ここでオーディオクラスは、無音、音声、音楽等のオーディオ信号の種類を表すクラスである。

　ステップＳ１０３ないしステップＳ１０５において、オーディオ信号の各クリップについて、オーディオクラスの帰属確率が算出されると、ステップＳ１０６においてシーン分割部２１は、ステップＳ１０１で取得したオーディオ信号に対応するビジュアル信号を抽出して読み出し、ステップＳ１０７において、カイ二乗検定法に基づいて、映像データをショットに分割する。このカイ二乗検定法においては、音声信号ではなく、ビジュアル信号の色ヒストグラムが用いられる。ステップＳ１０７において、動画データが複数のショットに分割されると、各ショットについて、ステップＳ１０８およびステップＳ１０９の処理が繰り返される。

　ステップＳ１０８において、各ショットに対するオーディオクラスへの帰属確率が算出される。このとき、ショットに対応するクリップについて、ステップＳ１０５で算出されたオーディオクラスへの帰属確率が取得される。各クリップのオーディオクラスへの帰属確率の平均値が、ショットに対するオーディオクラスへの帰属確率として算出される。さらにステップＳ１０９において、各ショットに対するファジィ推論により、各ショットクラスの出力変数およびメンバシップ関数の値が算出される。

　ステップＳ１０７で分割された全てのショットについて、ステップＳ１０８およびステップＳ１０９の処理が実行されると、ステップＳ１１０においてシーン分割部２１は、ファジィ推論による各ショットクラスの出力変数およびメンバシップ関数の値に基づいて、各ショットを連結して、動画データをシーンに分割する。

　分類部２２は、ビデオ信号類似度算出部２３、オーディオ信号類似度算出部２４およびテキスト類似度算出部２５を備えている。
　分類部２２は、動画データベース１１に記憶された各動画データの各シーンについて、ビデオ信号の特徴量、オーディオ信号の特徴量およびテキストの特徴量を算出する。
　ビデオ信号類似度算出部２３は、各シーン間について、ビデオ信号の類似度を算出して、ビデオ信号類似度データ１２を生成する。オーディオ信号類似度算出部２３は、各シーン間について、オーディオ信号の類似度を算出して、オーディオ信号類似度データ１３を生成する。テキスト類似度算出部２５は、各シーン間について、テキストの類似度を算出して、テキスト類似度データ１４を生成する。ビデオ信号類似度算出部２３、オーディオ信号類似度算出部２４およびテキスト類似度算出部２５の各処理について、下記に詳述する。

　ビデオ信号類似度算出部２３は、シーン分割部２１によって分割されたそれぞれのシーンについて、ビジュアル信号の特徴量とオーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データ１２を生成する。ここでシーン間の類似度は、あるシーンと他のシーンとのビジュアル信号の類似度である。例えば、動画データベース１１にｎ個のシーンが格納されているとすると、第１のシーンについて、第２のシーンとのビジュアル信号の類似度、第３のシーンとのビジュアル信号の類似度・・・第ｎのシーンとのビジュアル信号の類似度が算出される。より具体的には、ビデオ信号類似度算出部２３は、シーン分割部２１によって分割されたそれぞれのシーンについて、シーンをクリップに分割し、各クリップのビジュアル信号から、各クリップの動画像の所定のフレームの色ヒストグラムに基づいて、ビジュアル信号の特徴量を算出する。さらにビデオ信号類似度算出部２３は、クリップをオーディオ信号のフレームに分割し、各フレームのオーディオ信号が持つエネルギーとスペクトルに基づいて、各オーディオ信号のフレームを音声フレームと背景音フレームに分類して、オーディオ信号の特徴量を算出する。さらにビデオ信号類似度算出部２３は、クリップ単位のビジュアル信号とオーディオ信号の特徴量に基づいて、シーン間の類似度を算出して、ビデオ信号類似度データ１２として、記憶装置１０７に記憶する。

　図８を参照して、ビデオ信号類似度算出部２３の処理の概要を説明する。
　シーン分割部２１によって分割された各動画データの各シーンについて、ステップＳ２０１ないしステップＳ２０３の処理が繰り返される。まず、ステップＳ２０１において、シーンに対応するビデオ信号がクリップに分割される。つぎに、ステップＳ２０１で分割された各クリップについて、ステップＳ２０２において、ビジュアル信号の特徴量が算出され、ステップＳ２０３において、オーディオ信号の特徴量が算出される。

　各動画データの各シーンについて、ビジュアル信号の特徴量およびオーディオ信号の特徴量が算出されると、ステップＳ２０４において、シーン間の類似度が算出される。さらにステップＳ２０５においてビデオ信号類似度算出部２３は、ステップＳ２０４においてシーンの類似度を、シーン間の映像情報の類似度であるビデオ信号類似度データ１２として、記憶装置１０７に記憶する。

　オーディオ信号類似度算出部２４は、シーン分割部２１によって分割されたそれぞれのシーンについて、オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データ１３を生成する。ここで類似度は、あるシーンと他のシーンとの、ベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度である。例えば、動画データベース１１にｎ個のシーンが格納されているとすると、第１のシーンについて、第２のシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度、第３のシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度・・・第ｎのシーンとのベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度が算出される。より具体的には、オーディオ信号類似度算出部２４は、ベース音に基づく類似度を算出する際、オーディオ信号からベース音を取得し、時間および周波数に着目したパワースペクトルを算出して、任意の２シーンについて、ベース音に基づく類似度を算出する。また、オーディオ信号類似度算出部２４は、ベース音を除く楽器に基づく類似度を算出する際、オーディオ信号からベース音より高い周波数域を有する音について、各音名が示す周波数のエネルギーを算出し、任意の２シーンについて、エネルギーの差分の合計を算出して、ベースを除く楽器に基づく類似度を算出する。また、オーディオ信号類似度算出部２４は、リズムに基づく類似度を算出する際、２分割フィルタバンクを用いてオーディオ信号の高周波成分と低周波成分の分割を所定回数繰り返し、高周波成分を含む信号から包絡線を検波して自己相関関数を算出し、この自己相関関数に基づいて、任意の２シーンについてリズムに基づく類似度を算出する。

　図９を参照して、オーディオ信号類似度算出部２４の処理の概要を説明する。
　シーン分割部２１によって全ての動画データから分割され、得られる全てのシーンのうち、任意の２つのシーンについて、ステップＳ３０１ないしステップＳ３０３の処理が繰り返される。まず、ステップＳ３０１において、シーンに対応するオーディオ信号のベース音に基づく類似度が算出される。つぎに、ステップＳ３０２において、オーディオ信号の、ベース音以外の楽器に基づく類似度が算出される。さらに、ステップＳ３０３において、オーディオ信号のリズムに基づく類似度が算出される。

　つぎに、ステップＳ３０４においてオーディオ信号類似度算出部２４は、ステップＳ３０１ないしステップＳ３０３において算出したベース音、ベースを除く楽器、リズムのそれぞれに基づく類似度を、シーン間の音響情報の類似度であるオーディオ信号類似度データ１３として、記憶装置１０７に記憶する。

　次に、図１０を参照して、図９のステップＳ３０１におけるベース音に基づく類似度算出処理の概要を説明する。まず、ステップＳ３１１において、所定の帯域通過フィルタを介して、ベース音が抽出される。ここで所定の帯域とは、ベース音に対応する帯域であって、例えば４０Ｈｚないし２５０Ｈｚである。
　つぎに、ステップＳ３１２において、時間および周波数に注目して、重み付きパワースペクトルが算出され、ステップＳ３１３において、重み付きパワースペクトルを用いてベースの音高が推定される。さらに、ステップＳ３１４において、ＤＴＷを用いて、ベース音高の類似度が算出される。

　図１１を参照して、図９のステップＳ３０２におけるベース以外の楽器に基づく類似度算出処理の概要を説明する。まず、ステップＳ３２１において、音名が示す周波数のエネルギーが算出される。ここでは、ベース音より高く、かつ音名を持つ周波数のエネルギーについて、各音名が示す周波数のエネルギーが算出される。
　つぎに、ステップＳ３２２において、各音名が示す周波数のエネルギーについて、全周波数域に対するエネルギーの割合が算出される。さらにステップＳ３２３において、ＤＴＷを用いて、音名のエネルギー割合の類似度が算出される。

　図１２を参照して、図９のステップＳ３０３におけるリズムに基づく類似度算出処理の概要を説明する。まず、ステップＳ３３１において、２分割フィルタバンクによって、所定回数の分割を繰り返すことにより、低周波成分および高周波成分が算出される。これにより、複数種類の楽器音によるリズムを推定することができる。
　さらに、ステップＳ３３２ないしステップＳ３３５の処理によって、包絡線を検波して、各信号の概形が取得される。具体的には、ステップＳ３３２において、ステップＳ３３１で取得した波形について全波整流が施され、ステップＳ３３３において、低域通過フィルタが施される。さらにステップＳ３３４において、ダウンサンプリングされ、ステップＳ３３５において、平均値が除去される。
　包絡線の検波が終了すると、ステップＳ３３６において、自己相関関数が算出され、ステップＳ３３７において、ＤＴＷを用いて、リズム関数の類似度が算出される。

　テキスト類似度算出部２５は、シーン分割部２１によって分割されたそれぞれのシーンについて、オーディオ信号のうちの音声信号をテキストデータに変換して、テキストデータにおける名詞の頻度から、シーン間のテキストの類似度を算出して、テキスト類似度デタ１４を生成する。より具体的には、テキスト類似度算出部２５は、シーン分割部２１によって分割されたそれぞれのシーンについて、オーディオ信号のメル周波数ケプストラム係数を算出し、算出したメル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、テキストデータを形態素解析して名詞を抽出し、抽出された名詞の頻度に基づいて、シーンの特徴となる検出単語を出力してテキストの類似度を算出する。

　図１３を参照して、テキスト類似度算出部２５の処理の概要を説明する。
　シーン分割部２１によって全ての動画データから分割され、得られる全てのシーンのうち、任意の２つのシーンについて、ステップＳ４０１ないしステップＳ４０３の処理が繰り返される。まず、ステップＳ４０１において、シーンにおけるオーディオ信号が分割される。このときテキスト類似度算出部２５は、無音区間を検出して、無音区間毎にオーディオ信号を分割する。これによりテキスト類似度算出部２５は、オーディオ信号から無音区間を除いた信号を生成することができる。次に、ステップＳ４０２においてテキスト類似度算出部２５は、ステップＳ４０１で生成した無音区間以外のオーディオ信号について、メル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficient）を算出し、ステップＳ４０３において、音声認識し、オーディオ信号をテキストデータに変換する。ステップＳ４０４においてテキスト類似度算出部２５は、ステップＳ４０３で生成されたテキストデータから名詞を抽出する。

　つぎに、ステップＳ４０５において、テキスト類似度算出部２５は、処理対象のシーンの各区間についてステップＳ４０４で抽出された名詞について、ＴＦ－ＩＤＦを算出する。さらにテキスト類似度算出部２５は、ステップＳ４０６において、シーン間のテキストに基づいた類似度を算出する。ステップＳ４０７において、シーン間のテキストに基づいた類似度が、テキスト類似度データ１４として、記憶装置１０７に記憶される。

　検索部２６は、類似度算出部２７およびシーン検索部２８を備える。

　類似度算出部２７は、ビデオ信号類似度算出部２３によって検索された各シーンのビデオ信号の類似度、オーディオ信号類似度算出部２４によって検索された各シーンのオーディオ信号の類似度およびテキスト類似度算出部２５によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、クエリ動画データとの類似度Ｄを算出する。

　類似度Ｄは、各シーンについて、ビデオ信号、オーディオ信号およびテキストの各類似度から、ユーザによって指定された検索条件に基づいて算出される。ここで検索条件とは、ビデオ信号、オーディオ信号およびテキストのうち、いずれのパラメータを基準に検索するか、また複数のパラメータが指定された場合の各パラメータの重みである。類似度算出部２７は、指定された検索条件に従って類似度を算出するための類似度算出式を生成し、その類似度算出式に各類似度を代入して、類似度Ｄを算出する。

　シーン検索部２８は、類似度算出部２７によって算出された各シーンの類似度Ｄを参照して、類似度の高いシーンを抽出する。ここで、類似度Ｄが高いものから所定の数のシーンが抽出されても良いし、類似度Ｄが所定の閾値以上のシーンが抽出されても良い。

　図１４を参照して、検索部２６の処理を説明する。
　まずステップＳ５０１において、検索条件が取得される。検索条件は、ビデオ信号、オーディオ信号およびテキストのいずれか一つ以上のパラメータと、各パラメータの重みであって、例えばユーザによって入力される。さらにステップＳ５０２において類似度算出部２７は、ステップＳ５０１で入力された検索条件から、類似度Ｄを算出するための類似度算出式を生成して出力する。類似度算出式は、ビデオ信号、オーディオ信号およびテキストの各類似度と、各パラメータに対応する重みで表現される。

　ステップＳ５０３ないしステップＳ５０６において、各シーンについて類似度Ｄが算出される。具体的には、ステップＳ５０３において類似度算出部２７は、記憶装置１０７からビデオ信号類似度データ１２を読み出し、所定のシーンのビデオ信号類似度を抽出する。ステップＳ５０４において類似度算出部２７は、記憶装置１０７からオーディオ信号類似度データ１３を読み出し、このシーンのオーディオ信号類似度を抽出する。ステップＳ５０５において類似度算出部２７は、記憶装置１０７からテキスト類似度データ１２を読み出し、このシーンのテキスト類似度を抽出する。ステップＳ５０６において類似度算出部２７は、類似度算出式にステップＳ５０３ないしステップＳ５０５で抽出した各類似度を代入して、このシーンの類似度Ｄを算出する。

　各シーンについて類似度Ｄが算出されると、ステップＳ５０７においてシーン検索部２８は、類似度Ｄの高いシーンを抽出する。

　表示部２９は、シーン検索部２８によって検索された各シーンについて、類似度算出部２７で取得された類似度に対応する座標を算出して、表示装置に表示する。表示部２９は、分類部２２で算出されたビデオ信号類似度、オーディオ信号類似度およびテキスト類似度のうち、検索条件で指定されたパラメータの類似度に基づいて座標を算出する。例えば、検索条件で３つのパラメータ全てが指定された場合、ビデオ信号類似度、オーディオ信号類似度およびテキスト類似度は、三次元空間の各座標に対応する。表示部２９は、各シーンについて座標を三次元座標を算出して、表示画面上の二次元座標に変換する。表示部２９は、各シーンのサムネイルを、変換された二次元座標上に表示する。

　図１５を参照して、表示部２９の処理を説明する。
　まずステップＳ６０１において表示部２９は、シーン検索部２８によって抽出されたシーンについて、三次元空間における座標を算出する。この座標は例えば、そのシーンのビデオ信号類似度、オーディオ信号類似度およびテキスト類似度に対応する。さらに、各パラメータの重みが考慮されて、座標が算出されても良い。
　つぎにステップＳ６０２において、ステップＳ６０１において算出された三次元空間における座標は、透視変換され、二次元空間における座標に変換される。ステップＳ６０２において変換された二次元空間における座標に基づいて、ステップＳ６０３において、そのシーンのサムネイルが表示画面に表示される。
　シーン検索部２９によって検索された各シーンについて、ステップＳ６０１ないしステップＳ６０３の処理が繰り返され、各シーンのサムネイルが表示画面に表示される。

　以下、図１に示す各ブロックについて詳述する。

（シーン分割部）
　次に、図１に示すシーン分割部２１の処理を説明する。
　シーン分割部２１は、データベース中に存在する映像間で類似度を算出するために、映像信号をシーン単位に分割する。本発明の最良の実施の形態では、動画データベース１１から得られる映像信号のオーディオ信号と動画像フレームの両方を用いることで、シーンの算出を可能とする。

　シーン分割部２１は、まずオーディオ信号をクリップと呼ばれる小区間毎に分け、各々に対して特徴量を算出し、さらにＰＣＡ(主成分分析)による特徴量の削減する。次にシーン分割部２１は、オーディオ信号の種類を表すオーディオクラス(無音、音声、音楽等)を準備し、各クリップがそれらのクラスに属する確率、つまり帰属確率をＭＧＤにより求める。さらにシーン分割部２１は、本発明の最良の実施の形態では、映像中のビジュアル信号(フレーム)に対し、χ²検定を用いることで、１台のカメラで連続的に撮影された区間であるショットへ分割する。またシーン分割部２１は、各ショットに含まれるオーディオ信号のクリップについて、オーディオクラスへの帰属確率の平均を求めることで、ショットとしてのオーディオクラスへの帰属確率が得られる。本発明の最良の実施の形態では、得られる帰属確率から各ショットに対してファジィ推論を行うことで、シーン分割部２１は、ショットの種類を表すショットクラスのファジィ推論値を算出する。最後にシーン分割部２１は、隣接する全てのショット間において、ファジィ推論値の差分を求め、その値が小さな連続区間を１つのシーンとして求める。

　このように、処理対象であるショットが各ショットクラスに属する度合い(ファジィ推論値)が得られる。オーディオ信号の種類によっては、ユーザの主観評価により、ショットの分類結果が異なる可能性がある。例えば、音楽の付加された音声において、背景に存在する音楽が非常に小さな音量である場合、そのオーディオ信号を「音楽付きの音声」に分類すべきか、それとも主となる「音声」に分類すべきかは、ユーザの要求によって異なる。そこで、ショットに対して、全てのショットクラスタのファジィ推論値を持たせ、最終的にその差分を求めることで、ユーザの主観評価を考慮したシーンの分割が可能となる。

　ここで、本発明の最良の実施の形態に係るシーン分割２１では、処理対象信号をオーディオクラスに分類する。ここで、オーディオ信号には音楽や音声などの単一のオーディオクラスから構成されるものの他に、背景に音楽が存在する環境下での音声(雑音付き音声)や、背景に雑音が存在する環境下での音声(雑音付き音声)等、複数の種類のオーディオクラスから構成されるものも数多く存在する。このようなオーディオ信号では、どのオーディオクラスに分類されるかの境界を定めることが困難である。そこで、本発明の最良の実施の形態ではファジィ推論による推論値を用いることにより、処理対象信号が各オーディオクラスに属する度合いを高精度に算出し、分類する。

　本発明の最良の実施の形態に係るシーン分割部２１について、具体的なアルゴリズムを説明する。
　本発明の最良の実施の形態では、まずＰＣＡとＭＧＤを用いて、オーディオ信号が以下に定義する４種類のオーディオクラスに属する程度（以降、帰属確率）を算出する。
・無音(silence: Si)
・音声(speech: Sp)
・音楽(music: Mu)
・雑音(noise: No)
　各オーディオクラスへの帰属確率は、図１６に示す「ＣＬＳ＃１」から「ＣＬＳ＃３」の３つの分類処理を施し、それらの分類結果を用いて算出される。ここで、ＣＬＳ＃１からＣＬＳ＃３までの各分類処理は、全て同一の手順であり、処理対象信号および２種類の参照信号に対し、「特徴量の算出」、「ＰＣＡの適用」、及び「ＭＧＤの算出」の３つを処理する。ただし、図１７に示すように、参照信号は分類処理の目的に応じてＳｉ、Ｓｐ、Ｍｕ、Ｎｏのいずれか（あるいは複数）のオーディオ信号を含む。以下、各処理について説明する。

　まず、オーディオ信号クリップの特徴量算出処理を説明する。この処理は、図７のステップＳ１０３に相当する。
　シーン分割部２１は、処理対象であるオーディオ信号、および図１７に示した２種類の参照信号から、以下に示すオーディオ信号のフレーム単位（フレーム長：Ｗ_ｆ）の特徴量、およびクリップ単位（クリップ長：Ｗ_ｃ，ただしＷ_ｃ＞Ｗ_ｆ）の特徴量を算出する。
－フレーム単位の特徴量：
ボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率
－クリップ単位の特徴量：
非無音率、零比率
　さらに、シーン分割部２１は、オーディオ信号のフレーム単位の特徴量のクリップ内での平均値および標準偏差を算出し、それらをクリップ単位の特徴量に加える。

　この処理を図１８を参照して説明する。
　まず、ステップＳ１１０１においてシーン分割部２１は、１クリップのオーディオ信号について、オーディオ信号のフレームに分割する。つぎに、ステップＳ１１０１で分割した各オーディオ信号のフレームについて、ステップＳ１１０２ないしステップＳ１１０７においてシーン分割部２１は、ボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率を算出する。つぎに、ステップＳ１１０８においてシーン分割部２１は、１クリップに含まれる各オーディオ信号のフレームのボリューム、零交差率、ピッチ、周波数中心位置、周波数帯域幅、サブバンドエネルギー比率の各特徴量に対する平均値と標準偏差を算出する。
　一方シーン分割部２１は、ステップＳ１１０９において、１クリップのオーディオ信号について、非無音率を算出し、ステップＳ１１１０において、零比率を算出する。
　ステップＳ１１１１においてシーン分割部２１は、ステップＳ１１０８ないしステップＳ１１１０において算出した平均値、標準偏差、非無音率および零比率の各特徴量を統合して、クリップにおけるオーディオ信号の特徴量として出力する。

　つぎに、ＰＣＡによる特徴量削減処理を説明する。この処理は、図７のステップＳ１０４に相当する。
　シーン分割部２１は、処理対象信号のクリップから算出された特徴量、および２種類の参照信号から算出されたクリップ単位の特徴量を正規化し、ＰＣＡを施す。ＰＣＡを施すことで、相関の高い特徴量間の影響を軽減することが可能となる。また、ＰＣＡより得られた主成分のうち、その固有値が１以上であるものを以降の処理で使用することで、計算量の増加やヒューズの現象を回避することが可能となる。
　ここで用いられる参照信号は、分類されるクラスに応じて異なる。例えば、図１６に示す「ＣＬＳ＃１」は、Ｓｉ＋Ｎｏと、Ｓｐ＋Ｍｕとに分類される。このとき用いられる２種類の参照信号の一つは、無音（Ｓｉ）のみで構成される信号と、雑音（Ｎｏ）のみで構成される信号とを、重ならないように時間軸方向に連結した信号である。もう一つの参照信号は、音声（Ｓｐ）のみで構成される信号と、音楽（Ｍｕ）のみで構成される信号とを、重ならないように時間軸方向に連結した信号である。また、「ＣＬＳ＃２」において用いられる２種類の参照信号は、無音（Ｓｉ）のみで構成される信号と、雑音（Ｎｏ）のみで構成される信号である。同様に、「ＣＬＳ＃３」において用いられる２種類の参照信号は、音声（Ｓｐ）のみで構成される信号と、音楽（Ｍｕ）のみで構成される信号である。

　ここで、主成分分析（ＰＣＡ）は、複数の変数間の共分散（相関）を少数の合成変数で表す手法である。共分散行列の固有値問題の解として得ることができる。本発明の最良の実施の形態では、処理対象信号から得られた特徴量に対し主成分分析を施すことで、相関の高い特徴量間の影響を軽減している。また、得られた主成分のうち、その固有値が1以上であるものを選択して用いる事で計算量の増加やヒューズの現象を回避している。

　この処理を図１９を参照して説明する。図１９（ａ）は、処理対象信号のクリップの主成分を出力する処理で、図１９（ｂ）は、参照信号１および参照信号２のクリップの主成分を出力する処理である。
　図１９（ａ）に示す処理を説明する。まず、ステップＳ１２０１において、図１８を参照して説明した処理に従って算出された処理対象信号のクリップの特徴量が入力される。
　つぎにシーン分割部２１は、ステップＳ１２０４において、クリップ単位の特徴量を正規化し、ステップＳ１２０５において、ＰＣＡ（主成分分析）を施す。さらにステップＳ１２０６においてシーン分割部２１は、固定値が１以上となる主成分の軸を算出し、処理対象信号のクリップの主成分を出力する。
　図１９（ｂ）に示す処理を説明する。まず、ステップＳ１２５１において、参照信号１のクリップから算出される特徴量を入力するとともに、ステップ１２５２において、参照信号２のクリップから算出される特徴量を入力する。
　つぎにシーン分割部２１は、ステップＳ１２５３において、参照信号１および参照信号２のそれぞれについて、クリップ単位の特徴量を正規化し、ステップＳ１２５４において、ＰＣＡ（主成分分析）を施す。さらにステップＳ１２５５においてシーン分割部２１は、固定値が１以上となる主成分の軸を算出し、参照信号１および参照信号２について、一つの主成分を出力する。
　ここで入力される参照信号１および参照信号２は、上述したように、クラスの分類処理によって異なる。後述するＣＬＳ＃１～３ごとに、各分類処理において用いられる全ての参照信号１および参照信号２について、予め図１９（ｂ）の処理が実行される。

　次に、ＭＧＤによるクリップのオーディオクラスへの帰属確率の算出処理を説明する。この処理は、図７のステップＳ１０５に相当する。
　シーン分割部２１は、ＰＣＡによる特徴量削減処理で得られた主成分を用いて、ＭＧＤを算出する。
　ここで、ＭＧＤ（マハラノビス汎距離）は、多変数間の相関に基づき算出される距離である。ＭＧＤでは、処理対象信号と参照信号との特徴ベクトル群との距離が、マハラノビス汎距離により算出される。これにより、主成分分析で得られた主成分の分布形状を考慮した距離を算出することが可能となる。

　まずシーン分割部２１は、処理対象信号において、ＰＣＡによる特徴量削減処理で得られた主成分を要素とする特徴ベクトルｆ^（ｃ）（ｃ＝１，・・・，３；ＣＬＳ＃１～３に対応）と、同様にして算出される２種類の参照信号の特徴ベクトル群との

を、次式により算出する。

　ただし、

は、それぞれ参照信号ｉから算出された特徴ベクトルの平均ベクトル、および共分散行列を表す。この

は、固有空間における主成分の分布形状を考慮した距離尺度となる。そこで、この

を用いて、処理対象信号が参照信号１、２と同一のクラスタに属する帰属度

を次式で定義する。

　ＣＬＳ＃１～３の各分類処理において、上記３つを処理することで、帰属度

が得られる。そこで、各オーディオクラス（Si, Sp, Mu, No）への帰属確率

を、以下で定義する。

　上式は、ＣＬＳ＃１からＣＬＳ＃３の各分類処理において、

を、参照信号１、２と同一のクラスタに分類される確率とみなし、それらを積算することで、Ｓｉ、Ｓｐ、Ｍｕ、Ｎｏのオーディオクラスに属する確率を算出することを表す。従って、この帰属確率

から、処理対象であるオーディオ信号がどのオーディオクラスにどの程度属しているかを知ることが可能となる。

　この処理を図２０を参照して説明する。この処理は、処理対象信号の各クリップに対して実行される。
　まず、ステップＳ１３０１において、処理対象信号の各クリップの主成分を要素とするベクトルを入力する。ここで入力されるベクトルは、上述した図１９（ａ）によって算出されたデータである。
　次に、ＣＬＳ＃１の分類処理として、ステップＳ１３０２ないしステップＳ１３０５が処理される。具体的には、ステップＳ１３０２において、処理対象信号と参照信号１との距離を算出し、ステップＳ１３０３において、処理対象信号が参照信号１のクラスタに属する帰属度を算出する。さらに、ステップＳ１３０４において、処理対象信号と参照信号２との距離を算出し、ステップＳ１３０５において、処理対象信号が参照信号２のクラスタに属する帰属度を算出する。

　さらに、ＣＬＳ＃２の分類処理として、ステップＳ１３０６ないしステップＳ１３０９が処理される。具体的には、ステップＳ１３０６において、処理対象信号と参照信号１との距離を算出し、ステップＳ１３０７において、処理対象信号が参照信号１のクラスタに属する帰属度を算出する。さらに、ステップＳ１３０８において、処理対象信号と参照信号２との距離を算出し、ステップＳ１３０９において、処理対象信号が参照信号２のクラスタに属する帰属度を算出する。
　ここで、ステップＳ１３１０において、ステップＳ１３０３およびステップＳ１３０７で算出された帰属度に基づいて、オーディオクラスＳｉへの帰属確率Ｐ_１が算出される。同様に、ステップＳ１３１１において、ステップＳ１３０３およびステップＳ１３０９で算出された帰属度に基づいて、オーディオクラスＮｏへの帰属確率Ｐ_４が算出される。

　一方、ＣＬＳ＃３の分類処理として、ステップＳ１３１２ないしステップＳ１３１５が処理される。具体的には、ステップＳ１３１２において、処理対象信号と参照信号１との距離を算出し、ステップＳ１３１３において、処理対象信号が参照信号１のクラスタに属する帰属度を算出する。さらに、ステップＳ１３１４において、処理対象信号と参照信号２との距離を算出し、ステップＳ１３１５において、処理対象信号が参照信号２のクラスタに属する帰属度を算出する。
　ここで、ステップＳ１３１６において、ステップＳ１３０５およびステップＳ１３１３で算出された帰属度に基づいて、オーディオクラスＳｐへの帰属確率Ｐ_２が算出される。同様に、ステップＳ１３１７において、ステップＳ１３０５およびステップＳ１３１５で算出された帰属度に基づいて、オーディオクラスＭｕへの帰属確率Ｐ_３が算出される。

　次に、χ²検定法による映像のショット分割処理を説明する。この処理は、図７のステップＳ１０７に相当する。
　本発明の最良の実施の形態においては、分割χ^２検定法を用いて、ショットカットを得る。分割χ^２検定法は、まず動画像のフレームを４×４＝１６個の同じ大きさの矩形領域に分割し、各領域ごとに６４色種の色ヒストグラムＨ（ｆ，ｒ，ｂ）を作成する。ただし、ｆはビデオ信号のフレーム番号、ｒは領域番号、ｂはヒストグラムのビン数を表す。隣接する２枚の動画像のフレームの色ヒストグラムから、次式で算出される評価値Ｅ_ｒ（ｒ＝１，・・・，１６）を算出する。

さらに、算出された１６個の値Ｅ_ｒ（ｒ＝１，・・・，１６）の中で値の小さい８の総和Ｅ_ｓｕｍ算出し、Ｅ_ｓｕｍが予め設定した閾値よりも大きな値を示す時刻に、ショットカットが存在すると判断する。

　この処理を図２１参照して説明する。
　まずステップＳ１４０１においてシーン分割部２１は、ビジュアル信号のフレームのデータを取得する。次にシーン分割部２１は、ステップＳ１４０２において、ステップＳ１４０１で取得したビジュアル信号のフレームを、４×４＝１６個の矩形領域に分割し、ステップＳ１４０３において、各領域について、６４色種の色ヒストグラムＨ（ｆ，ｒ，ｂ）を作成する。
　さらにステップＳ１４０４において、隣接するビジュアル信号のフレーム間で、色ヒストグラムの差分評価Ｅ_ｒを算出する。各矩形領域について算出された差分評価Ｅ_ｒの中で、小さい８つの総和Ｅ_ｓｕｍを算出する。
　ステップＳ１４０６において、Ｅ_ｓｕｍが閾値よりも大きな値を示す時刻で、ショットカットを判定し、ショット区間を出力する。

　このように、本発明の最良の実施の形態においては、隣接する区間で大きく色ヒストグラムが変化する時刻をショットカットと判定することにより、ショット区間を出力している。

　次に、各ショットに対するオーディオクラスへの帰属確率の算出処理を説明する。この処理は、図７のステップＳ１０８に相当する。
　本発明の最良の実施の形態においては、まず単一のショット内における各オーディオクラスへの帰属確率の平均値

を次式で算出する。

ただし、Ｎはショット内のクリップの総数、ｋはショット内のクリップ番号、

はｋ番目のクリップにおける帰属確率

を表す。これら４つの平均値

の値を観察することで、分類対象であるショットが無音、音声、音楽、雑音のうち、どの種類のオーディオ信号を多く含むかが分かる。

　しかしながら、このままでは音楽付き音声や雑音付き音声のクラスが存在せず、音楽付き音声や雑音付き音声が含まれていた場合、分類精度が劣化する危険性がある。ところで、従来手法で算出する帰属確率は、オーディオ信号の各クリップが、各オーディオクラスに属する度合いを表しており、音楽付き音声や雑音付き音声のオーディオ信号を処理対象とした場合、音声のオーディオクラスの帰属確率だけでなく、音楽や雑音のオーディオクラスの帰属確率も高い値を示す。そこで、

に対し、ファジィ推論を行うことで、各ショットを無音、音声、音楽、雑音、音楽付き音声、雑音付き音声の６種類のショットクラスに分類する。

　本発明の最良の実施の形態においては、まず処理対象信号を無音、音声、音楽、雑音の4つのオーディオクラスに分類する。しかしながら、この４種類のクラスだけでは、背景に音楽が存在する環境下での音声(雑音付き音声)や、背景に雑音が存在する環境下での音声(雑音付き音声)等、複数の種類のオーディオ信号が混在する場合に、分類精度が劣化する。そこで、本発明の最良の実施の形態でシーン分割部２１は、上記４つのオーディオクラスに加え、新たに音楽付き音声、雑音付き音声のクラスを含む、６つのオーディオクラスへ分類する。これにより、分類精度を向上させ、より高精度に類似シーンを検索することができる。

　まずシーン分割部２１は、以下に示す１１段階のファジィ変数を用意する。
　NB　(Negative Big)
　NBM　(Negative Big Medium)
　NM　(Negative Medium)
　NSM　(Negative Small Medium)
　NS　(Negative Small)
　ZO　(Zero)
　PS　(Positive Small)
　PSM　(Positive Small Medium)
　PM　(Positive Medium)
　PBM　(Positive Big Medium)
　PB　(Positive Big)
ここで、それぞれのファジィ変数に対し、次式で定義される三角型のメンバシップ関数が定め、図２２に示すように、各変数を割り当てることで、ファジィ集合を生成する。

ただし、a=0.1, b={0, 0.1, ・・・ , 0.9, 1.0}とする。（式１－８）で算出した

を（式１－９）に代入し、各入力変数のメンバシップ関数の値

を算出する。

　次に、各ショットに対するファジィ推論処理を説明する。この処理は、図７のステップＳ１０９に相当する。
　本発明の最良の実施の形態においては、各ショットに対するオーディオクラスへの帰属確率の算出処理で設定された入力変数、およびメンバシップ関数の値

に対し、図２３および図２４に示すファジィ制御規則

を適用し、各ショットクラスの出力変数

およびメンバシップ関数の値

を算出する。

　次に、ファジィ推論値を用いたシーン分割処理を説明する。この処理は、図７のステップＳ１１０に相当する。
　本発明の最良の実施の形態においてシーン分割部２１は、ファジィ推論処理で算出される各ショットクラスに属する度合

を用いて、映像信号をシーンに分割する。
　ここで、ηをショット番号とし、隣接するショット間の距離Ｄ（η_１，η_２）を次式で定義する。

　この距離Ｄ（η_１，η_２）があらかじめ設定した閾値Ｔｈ_Ｄよりも高い値を示す場合、ショット間の類似度は低く、ショットの境界にシーンカットが存在すると判断する。逆に、距離Ｄ（η_１，η_２）が閾値Ｔｈ_Ｄよりも低い値を示す場合、ショット間の類似度が高く、同一のシーンに属すると判断する。これにより、本発明の最良の実施の形態ではショット間の類似度を考慮したシーン分割が可能となる。

　ここで、各ショットに対するオーディオクラスへの帰属確率の算出処理、各ショットに対するファジィ推論処理およびファジィ推論値を用いたシーン分割処理を、図２５を参照して説明する。
　まずステップＳ１５０１において、各ショットの全クリップにおける帰属確率の平均値を算出する。つぎにステップＳ１５０２において、１１段階のファジィ係数を読み出し、各ショットに対するメンバシップ関数を算出する。ステップＳ１５０１およびステップＳ１５０２の処理は、各ショットに対するオーディオクラスへの帰属確率の算出処理に相当する。
　ステップＳ１５０３において、入力変数およびメンバシップ関数の値から、出力およびその出力のメンバシップ関数の値を算出する。このとき、図２３および図２４に示すファジィ制御規則が参照される。ステップＳ１５０３の処理は、各ショットに対するオーディオクラスへの帰属確率の算出処理に相当する。
　さらにステップＳ１５０４において、異なるショット間でのメンバシップ関数の距離を算出し、ステップＳ１５０５において、その距離が閾値よりも大きいか判定する。その距離が閾値よりも大きい場合、そのフレーム間で映像信号のシーンカットを判定し、シーン区間を出力する。ステップＳ１５０４およびステップＳ１５０５の処理は、ファジィ推論値を用いたシーン分割処理に相当する。

　このように、本発明の最良の実施の形態においては、χ²検定法によるビジュアル信号のショット分割処理によって分割された各ショットについて、各ショットに属するクリップのオーディオ信号についてオーディオクラスへの帰属確率を算出し、ファジィ推論することにより、ファジィ推論値を用いてシーンを分割することができる。

（ビデオ信号類似度算出部）
　次に、図１に示すビデオ信号類似度算出部２３の処理を説明する。
　ビデオ信号類似度算出部２３は、映像情報に注目した検索または分類するため、シーン分割部２１で算出される各シーンに対して、他のシーンとの類似度を算出する処理について説明する。ビデオ信号類似度算出部２３は、動画データベース１１中に存在する映像のシーン間について、ビジュアル(動画像)信号の特徴量とオーディオ信号の特徴量から、それらの類似度を類似度として算出する。本発明の最良の実施の形態では、まず映像中のシーンをクリップに分割し、各々に対してビジュアル信号の特徴量の抽出、およびオーディオ信号の特徴量を抽出する。さらに、これらの特徴量に対して３次元のＤＴＷを設定することで、シーン間の類似度の算出を可能とする。

　ＤＴＷは、２つの１次元信号に伸縮を施し、信号間の類似度を算出する手法である。このため、信号の伸縮が頻繁に生じる信号間の比較に有効である。
　本発明の最良の実施の形態では、従来２次元で定義されているＤＴＷを３次元で再定義し、新たにそれらを用いるためのコストを設定する。このとき、コストをビジュアル信号およびオーディオ信号のそれぞれに設定することにより、２つのシーン間で動画像、音響の一方が異なる場合においても、類似した映像を検索または分類することが可能となる。さらに、ＤＴＷの特徴からシーン間の時間尺が異なる場合や、シーン間でビジュアル信号とオーディオ信号の開始時刻にずれが生じた場合においても、適切にシーン間の類似部分を対応付けることが可能となる。

　本発明の最良の実施の形態に係るビデオ信号類似度算出部２３について、具体的なアルゴリズムを説明する。
　ビデオ信号類似度算出部２３は、映像に含まれるビジュアル信号（動画像信号）とオーディオ信号（音響信号）の双方に着目してシーン間の類似度を算出する。まず、本発明の最良の実施の形態では、与えられたシーンを短時間のクリップに分割し、シーンをクリップの一次元列として表現する。次にビデオ信号類似度算出部２３は、各クリップからビジュアル信号による特徴量、およびオーディオ信号による特徴量をそれぞれ抽出する。最後にビデオ信号類似度算出部２３は、ＤＴＷを用いてクリップ列間の特徴量の類似部分を対応付けし、得られる最適経路をシーン間の類似度として定義する。ここで本発明の最良の実施の形態では、ＤＴＷを新たに３次元に拡張して用いることで、ビジュアル信号とオーディオ信号の協調処理によるシーン間の類似度の算出を可能とした。以下、各処理について説明する。

　まず、ビデオ信号のクリップへの分割処理を説明する。この処理は、図８のステップＳ２０１に相当する。
　本発明の最良の実施の形態では、処理対象であるシーンを、短時間Ｔ_ｃ［ｓｅｃ］のクリップに分割する。

　次に、ビジュアル信号の特徴量抽出処理を説明する。この処理は、図８のステップＳ２０２に相当する。
　本発明の最良の実施の形態では、ビデオ信号のクリップへの分割処理で得られる各クリップからビジュアル信号の特徴量を抽出する。本発明の最良の実施の形態では、ビジュアル信号の特徴として画像の色成分に着目し、各クリップの動画像の所定のフレームからＨＳＶ表色系における色ヒストグラムを算出し特徴量に用いる。ここで、動画像の所定のフレームとは、例えば各クリップの動画像の先頭のフレームである。また、人間の知覚システムにおいて色相がより重要なことに着目し、色相、彩度、明度のヒストグラムのビン数を、例えばそれぞれ１２、２、２とする。よって、クリップ単位から得られるビジュアル信号の特徴量は全部で４８次元になる。本実施例においては、色相、彩度、明度のヒストグラムのビン数が、１２、２、２の場合について説明するが、任意に設定されても良い。

　この処理を図２６を参照して説明する。
　まず、ステップＳ２１０１において、クリップの動画像の所定のフレームを抽出し、ステップＳ２１０２において、ＲＧＢ表色系からＨＳＶ表色系へ変換する。
　つぎにステップＳ２１０３において、例えば、Ｈ軸を１２、Ｓ軸を２、Ｖ軸を２に分割した３次元色ヒストグラムを生成して、この３次元色ヒストグラムを当該クリップのビジュアル信号の特徴量として算出する。

　次に、オーディオ信号の特徴量抽出処理を説明する。この処理は、図８のステップＳ２０３に相当する。
　本発明の最良の実施の形態において、ビデオ信号のクリップへの分割処理で得られる各クリップからオーディオ信号の特徴量を抽出する。本発明の最良の実施の形態では、オーディオ信号の特徴量として１０次元の特徴量が用いられる。具体的には、クリップに含まれるオーディオ信号が、固定長Ｔ_ｆ［ｓｅｃ］（Ｔ_ｆ＜Ｔ_ｃ）のフレーム毎に解析される。
　まず、各クリップからオーディオ信号の特徴量を抽出する際に、オーディオ信号に含まれる音声部分の影響を軽減するために、オーディオ信号の各フレームを音声フレームと背景音フレームに分類する。ここで、オーディオ信号における音声部分の特徴は大きな振幅と、大部分がフォルマント周波数と呼ばれる低周波数のパワーを持つことに着目し、短時間のエネルギー（以降、ＳＴＥ）と短時間のスペクトル（以降、ＳＴＳ）を用いてオーディオ信号の各フレームを分類する。

　ここで、オーディオ信号の各フレームから得られるＳＴＥとＳＴＳは、次式で定義される。

ここで、ηはオーディオ信号のフレーム番号、Ｆ_ｓはオーディオ信号のフレームの移動幅を表す移動回数、ｘ（ｍ）はオーディオの離散信号、ω（ｍ）はｍが時間枠の中にあれば１を、そうでなければ０を取る。また、ＳＴＳ（ｋ）は周波数が

のときの短時間のスペクトルであり、ｆは離散サンプリング周波数である。もし、ＳＴＥの値が閾値Ｔｈ_１を越えていて、尚かつ４４０－４０００Ｈｚの範囲でのＳＴＳの値が閾値ＴＨ_２を越えていれば、そのオーディオ信号のフレームは音声フレームとして、分類される。一方越えていなければ、そのオーディオ信号のフレームは背景音フレームとして分類される。

　これらの分類されたオーディオ信号のフレームを用いて、以下に示すクリップ単位の１０次元の特徴量を算出する。

　ここで、平均エネルギーとは、クリップ内のオーディオ信号の全フレームが持つエネルギーの平均である。

　ここで、低エネルギー率（低ＳＴＥ率）とは、クリップ内のエネルギーの平均以下のエネルギーを持つ背景音フレームの割合である。

　ここで、平均零交差率とは、クリップ内の全背景音フレーム内における隣り合うオーディオ信号の符号が変化する割合の平均である。

　ここで、スペクトルフラックス密度とは、クリップ内のオーディオ信号が持つ周波数スペクトルの時間推移の指標である。
ｅ）音声フレーム率ＶＦＲ：
　ここで、ＶＦＲはクリップに含まれるオーディオ信号の全フレームにおける音声フレームの割合である。

　ここで、平均サブバンドエネルギー比率とは、クリップ内のオーディオ信号のオーディオスペクトルに対し全周波数でのパワースペクトルの総和に対しての、０－６３０、６３０－１７２０、１７２０－４４００、４４００－１１０００（Ｈｚ）のそれぞれの範囲におけるパワースペクトルの割合である。
ｇ）ＳＴＥ標準偏差ＥＳＴＤ：
　ＳＴＥの標準偏差ＥＳＴＤは、次式で定義される。

　ここで、エネルギー（ＳＴＥ）標準偏差とは、クリップ内のオーディオ信号の全フレームが持つエネルギーの標準偏差である。

　この処理を図２７を参照して説明する。
　まずステップＳ２２０１において、オーディオ信号の各クリップについて、短時間のオーディオ信号のフレームへ分割される。つぎにステップＳ２２０２において、オーディオ信号のフレーム内のオーディオ信号が持つエネルギーが算出されるとともに、ステップＳ２２０３において、フレーム内のオーディオ信号が持つスペクトルが算出される。
　ステップＳ２２０４において、ステップＳ２２０１で分割されたオーディオ信号の各フレームが、音声フレームと背景音フレームに分類される。この分類されたオーディオ信号のフレームに基づいて、ステップＳ２２０５において、上述したａ）からｇ）の各特徴量が算出される。

　次に、３次元ＤＴＷを用いたシーン間の類似度算出処理を説明する。この処理は、図８のステップＳ２０４に相当する。
　本発明の最良の実施の形態では、ビジュアル信号の特徴量抽出処理およびオーディオ信号の特徴量抽出処理で得られたクリップ単位の特徴量を用いて、シーン間の類似度を定義する。一般的に、クリップ列の比較にＤＴＷを用いて類似部分を対応づけ、得られる最適経路をシーン間の類似度として定義している。しかしながら、この場合、ＤＴＷに用いる局所コストをクリップ間の全特徴量の差に基づき決定しているため、シーン間において片方の信号のみが類似している場合や、シーン間においてビジュアル信号とオーディオ信号の開始時刻にズレが発生した場合などに適切な類似度が得られない可能性がある。

　そこで、本発明の最良の実施の形態では、ＤＴＷを３次元に拡張して新たな局所コストと局所パスを設定する事で、これらの問題を解決する。以下、（処理４－１）、（処理４－２）でそれぞれ３次元ＤＴＷで用いられる局所コストと局所パスについて説明する。さらに、（処理４－３）で３次元ＤＴＷにより算出されるシーン間の類似度について説明する。

（処理４－１）局所コストの設定
　本発明の最良の実施の形態では、まず、３次元ＤＴＷの３つの要素として、クエリシーンのクリップτ（１≦τ≦Ｔ_１）、ターゲットシーンのビジュアル信号のクリップｔ_ｘ（１≦ｔ_ｘ≦Ｔ_２）、ターゲットシーンのオーディオ信号のクリップｔ_ｙ（１≦ｔ_ｙ≦Ｔ_２）をそれぞれ用いる。この３つの要素に対し、３次元ＤＴＷ上の各格子点における局所コストｄ（τ，ｔ_ｘ，ｔ_ｙ）を以下の３種類で定義する。

ここで、ｆ_ｖ，ｔは時刻ｔのクリップに含まれるビジュアル信号から得られる特徴ベクトル、ｆ_A，ｔは時刻ｔのクリップに含まれるオーディオ信号から得られる特徴ベクトルであり、各時刻において特徴量の総和が１となるようにそれぞれ正規化されている。

（処理４－２）局所パスの設定
　本発明の最良の実施の形態で用いられる３次元ＤＴＷ上の各格子点は、図２８および図２９に示すように直前の７つの格子点からそれぞれ局所パス＃１～＃７で連結されている。以下に各局所パスが持つ役割を示す。
ａ）局所パス＃１および＃２について
　局所パス＃１および＃２は、クリップ単位による伸縮を許容するパスである。パス＃１はクエリシーンのクリップの時間軸方向への伸縮を、パス＃２はターゲットシーンのクリップの時間軸方向への伸縮をそれぞれ許容する役割を持つ。
ｂ）局所パス＃３ないし＃５について
　局所パス＃３ないし＃５は、類似部分の対応付けるパスである。クリップ間において、パス＃３はビジュアル信号を、パス＃４はオーディオ信号を、パス＃５は両方の信号を類似部分としてそれぞれ対応付ける役割を持つ。
ｃ）局所パス＃６および＃７について
　局所パス＃６および＃７は、両信号の同期によるズレを許容するパスである。パス＃６はシーン間におけるビジュアル信号の時間軸方向へのズレを、パス#＃７はシーン間におけるオーディオ信号の時間軸方向へのズレをそれぞれ許容する役割を持つ。

（処理４－３）シーン間の類似度の定義
　上述した（処理４－１）および（処理４－２）で説明した局所コストと局所パスを用いて、累積コストＳ（τ，ｔ_ｘ，ｔ_ｙ）を直前の７つの格子点からの累積コストと移動コストの和が最小となる格子点を用いて、以下で定義する。

ただし、α、β、γはそれぞれ対応する局所パスを用いた場合にかかる移動コストを表す定数である。これにより、最終的なシーン間の類似部分の対応付けと、その対応付けによるシーン間の類似度Ｄ_ｓは次式により定義される。

　この処理を図３０を参照して説明する。
　まず、ステップＳ２３０１において、３次元ＤＴＷを用いたシーン間の特徴量に基づいてマッチングされる。具体的には、上記（式２－１０）における｛｝内の７つの結果のうち、最小のものを選択する。
　つぎにステップＳ２３０２において、３次元ＤＴＷに必要な局所コストが設定され、ステップＳ２３０３において、局所パスが設定される。さらにステップＳ２３０４においてα、β、γの各移動コストする。αは、パス＃１およびパス＃２の移動コストであり、βは、パス＃３およびパス＃４の移動コストであり、γは、パス＃６およびパス＃７の移動コストである。
　さらにステップＳ２３０５において、マッチングによる最適経路が、シーン間の類似度として算出される。

　このように、本発明の最良の実施の形態においては、ビジュアル信号の特徴量とオーディオ信号の特徴量に基づいて、３次元ＤＴＷを用いてシーン間の類似度を算出する。ここで３次元ＤＴＷを用いることにより、後述する表示部で、３次元座標を基づいてシーンの類似度を可視化することができる。

（ＤＴＷの概要）
　ここで、ＤＴＷの概要について説明する。
　本発明の最良の実施の形態における類似度算出処理で用いられるＤＴＷの構成について説明する。ＤＴＷは、二つの一次元信号に伸縮を施し、信号間の類似度を算出する手法である。このため、時系列において伸縮の生じる信号等の比較に有効である。特に音楽信号では、演奏速度の変化が頻繁に発生することから、類似度より求められる類似度の算出にＤＴＷを用いることは有効と考えられる。以降、類似度算出において、参照する信号を参照パターン、参照パターンとの類似度を求める信号を被参照パターンと呼ぶ。

　まず、ＤＴＷによるパターン間の類似度の算出について説明する。長さＩの一次元の参照パターンに含まれる各要素を順にａ_１，ａ_２，・・・ａ_Ｉとし、長さＪの被参照パターンに含まれる各要素を順にｂ_１，ｂ_２，・・・ｂ_Ｊと表現する。さらに、各パターンの位置集合を｛１，２，・・・，Ｉ｝，｛１，２，・・・，Ｊ｝で表現すると、パターンの各要素間の対応を決定する伸縮写像ｗ：｛１，２，・・・，Ｉ｝->｛１，２，・・・，Ｊ｝は以下の性質を満たす。
ａ）ｗはパターンの始点、終点を一致させる。

ｂ）ｗは単調写像である。

　このような写像ｗを用いたとき、パターン間の類似度の算出は図３１における格子点（ｂ_１，ａ_１）から格子点（ｂ_Ｊ，ａ_Ｉ）までの最短経路の探索問題に置換することができる。そこで、ＤＴＷでは、「初期状態の最初の決定が何であろうとも、以後の決定は最初の遷移から生じた状態に関して適切でなければならない」という最適性の原理に基づいて上記の経路探索問題を解く。

　すなわち、全体の経路長が、部分の経路長の和から求められる。部分の経路長は、経路上の格子点（ｊ，ｉ）におけるコストｄ（ｊ，ｉ）および２つの格子点（ｊ，ｉ）、（ｂ，ａ）間の移動コストｃ_ｊ，ｉ（ｂ，ａ）を用いて算出される。部分の経路長の算出を図３２に示す。ここで、格子点上のコストｄ（ｊ，ｉ）は、参照パターンと被参照パターンの間で対応する要素が異なる場合のペナルティである。また、移動コストｃ_ｊ，ｉ（ｂ，ａ）は、参照パターンと被参照パターンの間で伸縮が生じた場合、格子点（ｂ，ａ）から格子点（ｊ，ｉ）に移動するペナルティである。

　上記のコストに基づいて部分の経路長が算出され、経路全体のコストが最小となる部分経路が選択される。最後に、選択された部分経路毎のコストの和を算出することで、全体の経路長が得られる。以上より、パターンの部分毎の類似度からパターン全体の類似度を得ることが可能となる。

　本発明の最良の実施の形態においては、ＤＴＷをオーディオ信号に適用することから、オーディオ信号の類似度算出における特徴を考慮し、さらに詳細な類似度の算出法を決定する。
　本発明の最良の実施の形態では、音楽の特徴として、同一楽曲の演奏速度が異なる場合にも、楽譜上の音符が欠落することがない点に着眼する。この特徴を換言すると以下の２点で表現可能と考えられる。
ａ）被参照パターンが、参照パターンに伸縮のみを加えたパターンである場合、これらのパターンは同一と見なす。
ｂ）被参照パターンと参照パターンが同一の場合、被参照パターンは参照パターンを欠落することなく含有する。

　上記の特徴を、格子点間の移動による類似度算出に適用すると、参照パターンに含まれる全ての要素について、被参照パターンに含まれる要素との対応を決定することを意味する。これより、伸縮写像ｗは次式に示す傾斜制限を加えることが可能となる。

　本発明の最良の実施の形態では、以上の条件に従ってＤＴＷによる類似度を算出する。これより類似度は、（式２－１５）を用いて経路長を漸化的に求めることで算出可能となる。

（オーディオ信号類似度算出部）
　次に、図１に示すオーディオ信号類似度算出部２４の処理を説明する。
　オーディオ信号類似度算出部２４は、シーン分割部２１で算出されるシーンに対して音楽情報に注目した検索または分類するため、類似度を算出する。本発明の最良の実施の形態では、動画データベース１１からシーン分割部２１で得られる全てのシーン中で、オーディオ信号のベース音に基づく類似度、他楽器に基づく類似度、リズムに基づく類似度を算出する。本発明の最良の実施の形態では、オーディオ信号類似度算出部２４は、オーディオ信号に対して以下の三種類の類似度を算出する。
・ベース音に基づく類似度算出
・他楽器に基づく類似度算出
・リズムに基づく類似度算出

　ベース音に基づく類似度算出について、本発明の最良の実施の形態では、オーディオ信号に対して、ベース音を含むと考えられる周波数の信号のみを求めるため、帯域通過フィルタを施す。次に、得られる信号から各時刻におけるスペクトルを求めるためオーディオ信号類似度算出部２４は、時間・周波数に注目した重み関数を用いて、重み付きパワースペクトルを算出する。さらにオーディオ信号類似度算出部２４は、得られる各時刻のパワースペクトルにおいてピークを持つ周波数を求めることで、ベース音高の推定を可能とする。さらにオーディオ信号類似度算出部２４は、全ての２シーン間について、そのオーディオ信号のベース音高の推移を求め、これをＤＴＷへ入力することで、二つの信号の類似度の算出を実現する。

　他楽器に基づく類似度算出について、本発明の最良の実施の形態では、オーディオ信号に対して、「ド」、「レ」、「ミ」、「ソ#」等、音名１２要素を示す周波数のエネルギーをパワースペクトルから算出する。さらに、これら１２要素のエネルギーを正規化することで、エネルギーの割合の時間推移を算出する。このようにして得られるエネルギーの割合についてＤＴＷを用いることで、本発明の最良の実施の形態では全ての２シーン間で、オーディオ信号の他楽器に基づく類似度算出が可能となる。

　リズムに基づく類似度算出について、本発明の最良の実施の形態では、まず、オーディオ信号に対して、２分割フィルタバンクを用いることで、異なる周波数を含む信号をそれぞれ算出する。次に、各周波数を含む信号に対して、包絡線を検波し、信号の概形を得る。ここで、包絡線は、“信号の各時刻における接線を共有する曲線”である。尚、この処理は、「全波整流」、「低域通過フィルタの適用」、「ダウンサンプリング」、「平均値除去」を順に施すことで、実現される。さらに、これらの信号をすべて足し合わせて得られる信号に対して、自己相関関数を求め、これをリズム関数として定義する。最後に、全ての２シーン間で、それらのオーディオ信号のリズム関数をＤＴＷへ入力することで、二つの信号の類似度の算出を実現する。

　以上に示す、３つの類似度算出処理を施すことで、本発明の最良の実施の形態では３つの類似度を楽曲間の類似性を表す指標として求めることが可能となる。

　このように本発明の最良の実施の形態では、音楽の構成要素であるメロディーに着眼している。音楽におけるメロディーとは、複数の音源により構成される基本周波数の時間推移である。本発明の最良の実施の形態では、このメロディーの定義に従い、メロディーがベース音と、それ以外の楽器音から構成されると仮定する。さらに、この仮定に基づき、ベース音が示すエネルギーの推移、およびベース以外の楽器が示すエネルギーの推移についてマッチング処理を施すことで類似度を得る。ベース音が示すエネルギーには、ベース音が存在する周波数域のパワースペクトル、その他の楽器音が示すエネルギーには、Ｃ、Ｄ、Ｅ・・・等の音名が示す周波数のエネルギーを用いる。上記のエネルギーを用いると、音楽信号における以下２点の特徴に有効と考えられる。
　まず、楽器音は基本周波数の倍音を多く含む(以降、倍音構造)ため、周波数域が高くなるに従い、基本周波数の特定が困難となる点である。次に、楽曲中には発音の際に発生する擦弦音等の雑音が含まれ、音階上に存在しない周波数が楽器音の基本周波数として推定され得る点である。

　本発明の最良の実施の形態は、ベース以外の楽器音のエネルギーとして、各音名が示す周波数のエネルギーを用いるため、上記の倍音構造、雑音の影響を軽減可能とすることができる。また、低周波数域に基本周波数を持つベース音を併せて用いることで、倍音構造の影響をより軽減した類似度算出を可能とすることができる。さらに、類似度の算出にはＤＴＷを用いるため、メロディーの伸縮や欠落が生じた場合にも類似度算出をすることができる。以上により、本発明の最良の実施の形態はメロディーに基づいて楽曲間の類似度を算出することができる。

　さらに、音楽の構成では、メロディーに加えてリズムが重要な要素として知られる。そこで、本発明の最良の実施の形態では、音楽の構成要素として新たにリズムに着眼し、リズムから楽曲間の類似度を算出する。また、類似度算出には、ＤＴＷを用いることで、楽曲の時間軸方向への伸縮を許容し、適切な類似度の算出を可能とする。

　本発明の最良の実施の形態に係るオーディオ信号類似度算出部２４は、映像中の音楽情報、つまりオーディオ信号に対して、「ベース音に基づく類似度」、「他楽器に基づく類似度」、「リズムに基づく類似度」を算出する。
　まず、本発明の最良の実施の形態においては、音楽のメロディーの推移に着眼し、楽曲の類似度算出を可能とする。本発明の最良の実施の形態では、メロディーがベース音、およびベース以外の楽器音から構成されると仮定する。これは、ベース音と他楽器音により同時に発音される音がメロディーの特徴を決定する和音や調の指標となるためである。

　本発明の最良の実施の形態では上記の仮定に基づき、それぞれの楽器音のエネルギーにＤＴＷを適用することで類似度の算出を可能とする。
　さらに、本発明の最良の実施の形態においては、楽曲のリズムに基づく新たな類似度を算出する。音楽におけるリズムは、メロディー、コード（和音）と併せて音楽の三要素と呼ばれ、楽曲の細かな構成を決定する重要な要素として知られる。そこで、本発明の最良の実施の形態では、リズムに着眼して楽曲間の類似度を定義する。

　本発明の最良の実施の形態は、音楽信号の自己相関関数に基づいてリズムを表す定量値（以降、リズム関数）を新たに定義し、リズム関数にＤＴＷを適用することで類似度を算出する。これにより、本発明の最良の実施の形態は、音楽の構成要素として重要なリズムに基づく類似度の算出を実現可能とする。
　以下、「ベース音に基づく類似度」、「他楽器に基づく類似度」、「リズムに基づく類似度」のそれぞれについて、詳述する。

（ベース音に基づく類似度算出）
　オーディオ信号類似度算出部２４において、ベース音に基づく類似度算出処理を説明する。この処理は、図９のステップＳ３０１および図１０に相当する。
　本発明の最良の実施の形態では、楽曲中のベース音の推移として、ベース音が示す音高の推移を用いる。音高とは、楽譜上に記載される各音符が示す基本周波数とする。したがって、音高の推移はベース音に含まれる主要な周波数におけるエネルギーの推移を意味する。

　ベース音に基づく類似度算出においては、図３３に示すように、まず、帯域通過フィルタによってベース音が抽出される。このときのパワースペクトルを、Ｇ１１に示す。オーディオ信号類似度算出部２４は、このパワースペクトルから、重み付きパワースペクトルを算出し、Ｇ１２に示すように、それぞれの音階をあてはめる。さらに、Ｇ１３に示すようにオーディオ信号類似度算出部２４は、音階ごとに、ヒストグラムを算出する。このとき、ヒストグラムで最大値を持つ「Ｂ」が、ベース音の音階として選択される。
　図３３においては、パワースペクトルから音階をあてはめ、その後、ベース音の音階を選択する場合について説明したが、この方法には限られない。具体的には、パワースペクトルから、周波数毎のヒストグラムを取得し、最大値の周波数から音階を取得しても良い。

　ベース音に基づく類似度算出処理について、具体的なアルゴリズムを以下に示す。尚、各処理は図１０の各ステップに対応する。

　まず、通過帯域フィルタによるベース音の抽出処理を説明する。この処理は、図１０のステップＳ３１１に相当する。
　この処理では、オーディオ信号に対し、ベース音の周波数域４０－２５０Ｈｚを通過域とする帯域通過フィルタを施し、得られた信号の各時刻でパワースペクトルを算出する。

　つぎに、時間・周波数に注目した重み付きパワースペクトルの算出処理を説明する。この処理は、図１０のステップＳ３１２に相当する。
　この処理では、通過帯域フィルタによるベース音の抽出処理で得られるパワースペクトルの時間軸方向、および周波数軸方向に、ガウス関数に基づく重みを付加する。ここで、時間軸関数の重みを付加することにより、対象時刻のパワースペクトルが大きく利用される。周波数軸方向の重みを付加することにより、各音階（Ｃ、Ｃ＃、Ｄ、・・・、Ｈ）に重みを置くことで、音階上の信号が選択される。ここで、ガウス関数による重みとは、ｅｘｐ｛－（ｘ－μ）／（２σ^２）｝である（μ＝平均、σ＝標準偏差）。最後に、重み付けされた各時刻のパワースペクトルにおいて最大のエネルギーを与える周波数が、音高として推定される。時刻ｔ（０≦ｔ≦Ｔ）、周波数ｆにおいて、パワースペクトルより算出されるエネルギーをＰ（ｔ、ｆ）とし、重み付けされたパワースペクトルを（式３－１）に示すＲ（ｔ、ｆ）で定義する。

　ここで、

また、（式３－４）で示すＦ_ｍは、MIDI（Musical Instrument Digital Interface）のｍ番目のノートにおける周波数を表す。
　（式３－１）に示すＲ（ｔ、ｆ）は、（式３－２）の時間軸方向の重みにより、一定時間持続する基本周波数を音高と推定可能とする。また、（式３－３）に示す周波数軸方向の重みにより、音階上に存在する周波数のみを音高として推定可能とする。

　つぎに、重み付きパワースペクトルを用いたベースの音高推定処理を説明する。この処理は、図１０のステップＳ３１３に相当する。
　この処理では、Ｒ（ｔ、ｆ）の各時刻ｔにおいて最大値を与える周波数ｆをベースの音高とし、Ｂ（ｔ）と表す。

　つぎに、ＤＴＷを用いたベース音高の類似度算出処理を説明する。この処理は、図１０のステップＳ３１４に相当する。
　この処理は、データベース中の全ての二映像間においてオーディオ信号のベース音高を推定し、上述したＤＴＷによる類似度を算出する。ここで、上述したＤＴＷの説明において、（式２－１５）中で用いる各コストは以下のように設定する。

ただし、α＞βとする。これにより、メロディーの不一致によるコストと比較して、演奏速度の変化等に伴うメロディーのずれに対するコストが小さくなる。以上により得られた類似度をＤ_ｂと表す。

　ここで、図３４を参照して、本発明の最良の実施の形態に係るベース音に基づく類似度算出処理を説明する。
　まず、動画データベース１１の各シーンについて、ステップＳ３１０１ないしステップＳ３１０９の処理が実行される。
　ステップＳ３１０１において、１つのシーンにフーリエ変換をする。ステップＳ３１０２において、４０－２５０Ｈｚを通過域とするフィルタを施す。ステップＳ３１０３において、各時刻について、パワースペクトルＰ（ｓ，ｆ）を算出する。

　一方、ステップＳ３１０４において、時間軸方向の重みを算出するとともに、ステップＳ３１０５において、周波数軸方向の重みを算出する。さらにステップＳ３１０６において、ステップＳ３１０４およびステップＳ３１０５において算出された時間軸方向の重みおよび周波数軸方向の重みに基づいて、重み付きパワースペクトルを算出して、ステップＳ３１０７においてＲ（ｔ，ｆ）を出力する。さらに、各時刻ｔでＲ（ｔ、ｆ）の最大値を与える周波数ｆを求め、Ｂ（ｔ）とする。ステップＳ３１０９において、このＢ（ｔ）をベース音の時間推移として出力する。

　各シーンについて、ステップＳ３１０１ないしステップＳ３１０９の処理が終了すると、ステップＳ３１１０ないしステップＳ３１１２において、任意の２シーンのベース音について、類似度を算出する。
　まずステップＳ３１１０において、所定の時刻間において、（式３－６）においてコストｄ（ｉ，ｊ）を決定するために、ベース音の一致不一致を算出する。次に、ステップＳ３１１１において、（式３－６）および（式３－７）に従って、ＤＴＷにおけるコストｄ（ｉ，ｊ）およびＣ_ｉ，ｊ（ｂ，ａ）を設定する。ステップＳ３１１２において、ＤＴＷによる類似度を算出する。

（他楽器に基づく類似度算出）
　オーディオ信号類似度算出部２４において、他楽器に基づく類似度算出処理を説明する。この処理は、図９のステップＳ３０２および図１１に相当する。
　一般的な音楽の構成では、主にベース音が楽曲の最低音となるため、その他の楽器音はベース音の周波数域より高い周波数を示す。また、ベース音より高い周波数域で、各音名は図３５の周波数を持ち、各周波数の２^ｋ（ｋ＝１，２，・・・）倍の周波数も同一の音名として扱われる。
　そこで、本発明の最良の実施の形態では、ベース以外の楽器音が示すエネルギーを、ベース音より高く、かつ音名を持つ周波数のエネルギーとする。さらに、各音名が示す周波数のエネルギーには、図３５の２^ｋ倍の周波数が示すエネルギーの和を用いる。これにより、本発明の最良の実施の形態では、複数の楽器による倍音構造を軽減し、音高の推定が困難な周波数域に存在する楽器音についても類似度算出に用いることを可能とする。
　このように、ある音階Ｘ（例えば、Ｃ、Ｃ＃、Ｄ、またはＨ等）について注目するとき、その音は、１オクターブ上、２オクターブ上と、オクターブ単位で同様に存在する。ここで、ある音階の周波数をｆｘと表す場合、図３６に示すように、１オクターブ上、２オクターブ上・・・の各音は、それぞれ、２ｆｘ、４ｆｘ・・・・で与えられる。
　以下で詳細を説明する。なお、オーディオ信号は信号長Ｔ秒、サンプリングレートｆ_ｓとし、時刻ｔ（０≦ｔ≦Ｔ））、周波数ｆに対するエネルギーをパワースペクトルより算出し、Ｐ（ｔ、ｆ）と表す。

　他楽器に基づく類似度算出においては、図３７に示すように、まず、音名が示す周波数のエネルギーが抽出される。具体的には、後述する（式４－１）のエネルギーＰｘ（ｔ）をＧ２１に示す。Ｇ２２に示すように、このエネルギーＰ_Ｘ（ｔ）から、それぞれの音階をあてはめる。さらに、Ｇ２３に示すように、音階ごとに、ヒストグラムを算出する。Ｇ２３においては、各音階について、４オクターブ分のパワースペクトルを加算した結果、具体的には（式４－１）により得られるＰｘ（ｔ）を示している。
　図３７に示す処理において、ＣからＨまでの各１２音階について、４オクターブ分の周波数のエネルギーＰ_Ｃ（ｔ）、Ｐ_Ｃ＃（ｔ）・・・・Ｐ_Ｈ（ｔ）を算出する。
　図３７においては、パワースペクトルから音階をあてはめ、その後、ベース音の音階を選択する場合について説明したが、この方法には限られない。具体的には、パワースペクトルから、周波数毎のヒストグラムを取得し、最大値の周波数から音階を取得しても良い。

　具体的なアルゴリズムを以下に示す。尚、各処理は図１１の各ステップに対応する。

　まず、音名が示す周波数のエネルギーの算出処理を説明する。この処理は、図１１のステップＳ３２１に相当する。
　パワースペクトルから、各音名が示す周波数のエネルギーを算出する。図３５において音名Ｘに対応する周波数をｆ_Ｘとして、音名Ｘが示す周波数のエネルギーＰ_Ｘ（ｔ）を次式で定義する。

ただし、Ｋは

を越えない任意の整数とする。（式４－１）により各音名が示す周波数のエネルギーを定義することで、低周波数域に存在する音の倍音の影響が軽減可能となる。

　次に、エネルギー割合の算出処理を説明する。この処理は、図１１のステップＳ３２２に相当する。
　音名が示す周波数のエネルギーの算出処理で得られた各音名が示す周波数のエネルギーを全周波数域に対するエネルギーの割合で表現する。これにより、音名毎に時間軸方向での比較が可能となり、推移を得ることが可能となる。音名Ｘが示す周波数のエネルギーの割合ｐｘ（ｔ）は次式で示される。

以上を全てのｔ、Ｘについて施し、得られたｐｘ（ｔ）をベース以外の楽器音におけるエネルギーの推移として用いる。

　次に、ＤＴＷを用いた音名エネルギー割合の類似度算出処理を説明する。この処理は、図１１のステップＳ３２３に相当する。
　データベース中の全ての二映像間においてオーディオ信号のベース以外の楽器音のエネルギーを算出し、それぞれｐｘ_ｒ（ｔ）、ｐｘ_ｉ（ｔ）と表す。これらを用いて各音名毎にＤＴＷによる類似度が算出される。したがって、類似度は音名の数である１２だけ得られる。そこで、ベース以外の楽器音の類似度は音名毎に得られた類似度の和により定義する。すなわち、音名Ｘについて得られる類似度をＤａ_ｘとすると、ベース以外の楽器による音の類似度Ｄａは次式で表される。

なお、ＤＴＷによる類似度算出に用いるコストは以下のように設定する。

　（式４－３）により、全ての音名が示す周波数のエネルギーの推移を用いた類似度算出が可能となる。また、（式４－４）に示すコストを設定することで、エネルギーの大きな周波数に対応する音名が、類似度全体に与える影響を増加する。これにより、メロディーを構成する主要な周波数成分を反映した類似度算出が可能となる。

　ここで、図３８を参照して、本発明の最良の実施の形態に係る他楽器に基づく類似度算出処理を説明する。
　まず、動画データベース１１の各シーンについて、ステップＳ３２０１ないしステップＳ３２０６の処理が実行される。
　ステップＳ３２０１において、１つのシーンにフーリエ変換をする。ステップＳ３２０２において、各時刻のパワースペクトルを算出し、ステップＳ３２０３において、音名Ｘが示す周波数エネルギーＰｘ（ｔ）を算出して、ｐｘ（ｔ）を算出する。
　一方、ステップＳ３２０４において、全周波数のエネルギーを算出する。さらにステップＳ３２０５において、ステップＳ３２０３で算出された音名が示す周波数のエネルギーＰｘ（ｔ）と、ステップＳ３２０４で算出された全周波数のエネルギーに基づいて、エネルギーの割合ｐｘ（ｔ）を算出する。ステップＳ３２０６において、このエネルギーの割合ｐｘ（ｔ）を、ベース以外の楽器音におけるエネルギーとして出力する。

　各シーンについて、ステップＳ３２０１ないしステップＳ３２０６の処理が終了すると、ステップＳ３２０７ないしステップＳ３２１０において、任意の２シーンのエネルギーの割合について、類似度を算出する。
　まずステップＳ３２０７において、ＤＴＷにおけるコストｄ（ｉ，ｊ）およびＣ_ｉ，ｊ（ｂ，ａ）を設定し、ステップＳ３２０８において、ＤＴＷによって、各音名における２シーン間の類似度を算出する。ステップＳ３２０９において、ステップＳ３２０８において算出された全音名の類似度の和Ｄａを算出する。ステップＳ３２１０において、この和Ｄａを、ベース音以外の楽器による音の類似度として出力する。

（リズムに基づく類似度算出）
　オーディオ信号類似度算出部２４において、リズムに基づく類似度算出処理を説明する。この処理は、図９のステップＳ３０３および図１２に相当する。
　楽曲のテンポに代表される細かなリズムは、打楽器を含めた全ての楽器における発音時刻の間隔により定義される。また、大域的なリズムは、連続して発音される楽器音により構成される楽句や楽節等が出現する間隔により決定すると考えられる。したがって、リズムは上記の時間間隔によって与えられるため、一定の区間内では楽曲の時刻に依存しない。そこで、本発明の最良の実施の形態ではオーディオ信号が弱定常性であると仮定し、自己相関関数によりリズム関数を表現する。これにより、本発明の最良の実施の形態は、オーディオ信号を用いて楽曲のリズムを一意に表現し、リズムに基づく類似度の算出を可能とする。
　具体的なアルゴリズムを以下に示す。尚、各処理は図１２の各ステップに対応する。

　まず、２分割フィルタバンクによる低周波・高周波成分の算出処理を説明する。この処理は、図１２のステップＳ３３１に相当する。
　２分割フィルタバンクによる低周波・高周波成分の算出処理においては、２分割フィルタバンクを用いて、処理対象信号を階層的に高周波、および低周波へＵ回だけ分解し、高周波成分を含む側の信号をｘ_ｕ（ｎ）（ｕ＝１，・・・・Ｕ；，ｎ＝１，・・・・Ｎ_Ｕ）と表す。ここで、Ｎ_Ｕはｘ_ｕの信号長を示す。このようにして得られた各信号は、それぞれ異なる周波数帯を示すため、含まれる楽器の種類も異なると考えられる。したがって、得られた信号毎のリズムを推定し、結果を統合することで、複数種類の楽器音によるリズムが推定可能となる。
　図３９を参照して、２分割フィルタバンクによる低周波・高周波成分の算出処理を説明する。ステップＳ３３０１において、２分割フィルタにより、低周波成分と高周波成分に分ける。次に、ステップＳ３３０１で分割された低周波成分を、ステップＳ３３０２において、さらに低周波成分と高周波成分に分ける。一方、ステップＳ３３０１で分割された高周波成分を、ステップＳ３３０３において、さらに低周波成分と高周波成分に分ける。このように所定回数（Ｕ回）だけ、２分割フィルタ処理を繰り返し、ステップＳ３３０４において、高周波成分を含む側の信号ｘ_ｕ（ｎ）を出力する。図４０に示すように、入力された信号の高周波成分が、２分割フィルタバンクによる低周波・高周波成分の算出処理によって出力されている。

　次に、包絡線の検波処理を説明する。この処理は、図１２のステップＳ３３２ないしステップＳ３３５に相当する。以下の１）ないし４）は、それぞれ図１２のステップＳ３３２ないしステップＳ３３５である。
　２分割フィルタバンクによる低周波・高周波成分の算出処理で得られた信号ｘ_ｕ（ｎ）から、包絡線が検波される。包絡線は、信号の各時刻における接線を共有する曲線であり、信号の概形を得ることを可能とする。したがって、包絡線の検波により、楽器の発音に伴って音量が増加する時刻が推定可能となる。以下に包絡線を検波する処理の詳細を示す。

１）全波整流
　（式５－１）に示す全波整流を施し、信号ｙ_１ｕ（ｎ）（ｕ＝１，・・・・，Ｕ；，ｎ＝１，・・・・，Ｎ_ｕ）を得る。

　全波整流を施すことにより、図４１（ａ）に示す波形から、図４１（ｂ）に示す波形を得ることができる。

２）低域通過フィルタの適用
　１）全波整流で得られた信号ｙ_１ｕ（ｎ）に対し、（式５－２）に示す単純な低域通過フィルタを施し、信号ｙ_２ｕ（ｎ）（ｕ＝１，・・・・，Ｕ；，ｎ＝１，・・・・，Ｎ_ｕ）を得る。

　ただし、αは遮断周波数を定める定数である。
　低域通過フィルタを通すことにより、低周波数の信号から、図４２（ａ）に示す信号が出力される。具体的には、ローパスフィルタを通しても信号は変化せず、ハイパスフィルタを通すことにより、小刻みな波の信号が出力される。また、低域通過フィルタを通すことにより、高周波数の信号から、図４２（ｂ）に示す信号が出力される。具体的には、ハイパスフィルタを通しても信号は変化せず、ローパスフィルタを通すことにより、なだらかな波の信号が出力される。

３）ダウンサンプリング
　２）低域通過フィルタの適用で得られた信号ｙ_２ｕ（ｎ）に対し、（式５－３）に示すダウンサンプリングを施し、信号

を得る。

　ただし、ｓはサンプリング間隔を定める定数である。
　ダウンサンプリング処理をすることにより、図４３（ａ）に示す信号から間引きされ、図４３（ｂ）に示す信号が出力される。

４）平均値除去
　３）ダウンサンプリングで得られた信号ｙ_３ｕ（ｎ）に（式５－４）を施し、信号の平均が０となる信号ｙ_ｕ（ｎ）（ｕ＝１，・・・・，Ｕ；，ｎ＝１，・・・・，Ｎ_ｕ）を得る。

　ただし、Ｅ［ｙ_３ｕ（ｎ）］は信号ｙ_３ｕ（ｎ）の平均値を示す。
　平均値除去処理をすることにより、図４４（ａ）に示す信号から、図４４（ｂ）に示す信号が出力される。

　次に、自己相関関数の算出処理を説明する。この処理は、図１２のステップＳ３３６に相当する。
　包絡線の検波処理で得られた信号ｙ_ｕ（ｎ）を２^ｕ－１倍のサンプリングレートにアップサンプリングし、信号長を等しくした後、すべてを加算する。これにより得られた信号をｙ（ｎ）（ｎ＝１，・・・・，Ｎ_１）とする。ただし、Ｎ_１は信号長を表す。さらに、ｙ（ｎ）を用いて、自己相関関数ｚ（ｍ）（ｍ＝０，・・・，Ｎ_１－１）を次式により算出する。

　自己相関について、図４５を参照して説明する。自己相関関数とは、信号とそれ自身をｍだけ移動（シフト）した信号との相関を表しており、ｍ＝０のときに最大となる関数である。ここで、信号に繰り返しが存在する場合、その倍数位置（ｍ）においてｍ＝０の場合と同様に高い値を持つことが知られており、そのピークを検出することにより、繰り返しを見つけることが可能となる。
　自己相関を用いることにより、信号に含まれる繰り返しパターンを探し、ノイズに含まれる周期的な信号を抽出することが容易となる。
　このように、本発明の最良の実施の形態においては、様々なオーディオ信号の特徴を、自己相関関数から抽出されるファクターによって表すことができる。

　次に、ＤＴＷを用いたリズム関数の類似度の算出処理を説明する。この処理は、図１２のステップＳ３３７に相当する。
　本発明の最良の実施の形態では、時刻ｔから一定時間の信号を用いて算出される上記の自己相関関数を時刻ｔにおけるリズム関数とし、楽曲間の類似度算出に利用する。リズム関数は、複数の周波数域において音量が増加する時刻の周期を表現するため、複数の楽器音によるリズムを含む。このため、本発明の最良の実施の形態では、局所的なリズムから大域的なリズムを含む複数のリズムを用いて楽曲の類似度算出を可能とする。
　次に、得られたリズム関数を用いて楽曲の類似度を算出する。そこで、まずリズムの類似度について考察する。楽曲におけるリズムは、演奏者や編曲者によって変動する。このため、同一の楽曲であっても、楽曲の全体、または一部が異なる速度で演奏される場合が存在する。このため、リズムに基づいて楽曲間の類似度を定義するには、リズムの変動を許容する必要がある。そこで、本発明の最良の実施の形態では、リズムに基づく類似度の算出に、メロディーに基づく類似度と同様にＤＴＷを利用する。これにより、本発明の最良の実施の形態では、演奏者や編曲者によってリズムが変更された楽曲を変更前の楽曲と同一と判断可能とする。また、楽曲自体が異なる場合にも、類似するリズムを示す楽曲を類似楽曲として判断可能とする。

　図４６を参照して、自己相関関数の算出処理およびＤＴＷを用いたリズム関数の類似度の算出処理を説明する。
　ステップＳ３４０１において、包絡線が入力されると、処理対象のシーンの楽曲と参照楽曲について、ステップＳ３４０２ないしステップＳ３４０４の処理が繰り返される。
　まず、ステップＳ３４０２において、対象シーンのオーディオ信号に基づいて出力された包絡線をアップサンプリングする。ステップＳ３４０３において、ｙ_ｕ（ｎ）をｕに対して全て加算し、ｙ（ｎ）を取得し、ステップＳ３４０４において、ｙ（ｎ）の自己相関関数Ｚ（ｍ）を算出する。
　一方、参照楽曲における自己関数Ｚ（ｍ）が算出される。ステップＳ３４０５において、処理対象シーンの楽曲における自己関数Ｚ（ｍ）をリズム関数として、参照楽曲における自己関数Ｚ（ｍ）との類似度を、ＤＴＷを適用して算出して、ステップＳ３４０６において、類似度を出力する。

（テキスト類似度算出部）
　次に、図１に示すテキスト類似度算出部２５の処理を説明する。
　テキスト類似度算出部２５は、テキストに注目して検索または分類するため、シーン分割部２１で算出されるシーンに対して、類似度を算出する処理について説明する。本発明の最良の実施の形態では、データベース中に存在するシーン間について、音声認識処理を施し、得られた認識結果を用いてそれらの類似度を算出する。
　本発明の最良の実施の形態では、まず映像中のシーンを無音区間ごとに分割し、各々に対してメル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficient）を算出する。次に、算出したＭＦＣＣに対して音声認識処理を施し、得られた認識結果から名詞のみを抽出する。さらに、得られた名詞の頻度に対してＴＦ－ＩＤＦの値を算出することで、テキストに注目したシーン間の類似度の算出を可能とする。

　本発明の最良の実施の形態では、話者が存在するシーンにおいて、音声認識処理を行い、抽出された名詞を用いて類似度を定義する。その際、シーン全体において抽出された名詞がどの程度特徴的であるかを定量化することで、シーンの内容を表現する名詞に基づいた類似度の算出が可能となる。これにより、映像信号や音響信号が類似しているシーンにおいても共通の話題を持つシーンの検索を実現することができる。

　本発明の最良の実施の形態に係るテキスト類似度算出部２５について、具体的なアルゴリズムを説明する。
　本発明の最良の実施の形態では、音声認識により得られたテキスト情報のうち、名詞に着目して本発明のシーン間の類似度を算出する。ニュース等の話者が存在するシーンにおいては多くの場合、話者が発した名詞がその主題を表していると考えられる。そこで、本発明の最良の実施の形態では、名詞の情報を用いてシーン間の類似度を定義する。まず、我々は映像中の音響信号に対して、無音領域を削除し、１文毎に分割する。次に、分割された音響信号に対してメル周波数ケプストラム係数（ＭＦＣＣ）を算出し、これを用いて音声認識処理を行う。
　さらに、得られた音声認識結果に対して形態素解析を施すことで名詞のみを抽出し、抽出した名詞とその頻度を表す特徴ベクトルをシーン毎に生成する。ここで本発明の最良の実施の形態においては、得られた特徴ベクトルに対してＴＦ－ＩＤＦ法を適用することで、シーンを特徴づける名詞が大きな値を持つように特徴ベクトルを変換する。最後に、得られた特徴ベクトルを用いることで、シーンのテキスト情報に注目した類似度の算出を可能とする。以下、各処理について説明する。

　まず、音響信号の分割処理を説明する。この処理は、図１３のステップＳ４０１に相当する。
　テキスト類似度算出部２５は、処理対象となる動画データのシーンについて、無音区間を削除し、音響信号を分割する。本発明の最良の実施の形態では、

のエネルギーに対し、判別分析を適用することで、無音区間を判定する。具体的には、以下の式により無音区間が判定される。

ただし、しきい値Ｔ_ｓ判別分析の解として、以下の式により算出される。

ここで、Ｅ（ｉ）は信号ｙ（ｉ）のエネルギーｙ（ｉ）^２をエネルギーの昇順に並べ替えたものを表す。（式６－１）は信号ｙ（ｉ）のエネルギーＥ（ｉ）がしきい値Ｔ_ｓ未満であれば、無音と判定することを意味している。以上の処理により、無音区間の削除と音響分割が行われる。

　つぎに、ＭＦＣＣの算出処理を説明する。この処理は、図１３のステップＳ４０２に相当する。
　人間の聴覚は周波数成分に対し、メル尺度と呼ばれる、対数に近い非線形な特性を示すことが知られている。また音声認識においても、音響特徴量としてメルスケール変換したケプストラムを用いることにより、メル変換を行わなかった場合に比べ、認識性能が向上することが確かめられている。ＭＦＣＣは以下の手順により算出される。

１）スペクトルの算出
　与えられた信号ｙ（ｎ）（音響信号の分割について上述したｙ（ｉ）に対応）に、長さＮの分析窓を掛けることで以下のように信号系列ｙ_ｗ（ｍ；ｌ）を取り出す。

ここで、添え字ｌは信号の切り出し位置に対応する。（式６－２）より、長さＮの音声信号系列ｙ_ｗ（ｎ）（ｎ＝１，・・・・Ｎ）が間隔Ｔで得られる。また、窓関数ｗ（ｎ）としては以下で示すハミング窓やハニング窓がしばしば用いられる。

（式６－３）によって得られた音声信号系列の短時間フーリエスペクトルは、離散フーリエ変換（ＤＴＦＴ）により以下で与えられる。

実際の処理では、離散フーリエ変換（ＤＦＴ）をその高速な算出法であるＦＦＴを用いて算出することが一般的である。

２）メル変換
　つぎに、上記１）スペクトルの算出で得られたＹ（ｆ）のパワースペクトルＰ（ｆ）に対し、周波数軸ｆを人間の聴覚特性にあったメル周波数軸Ｍへ変換する。変換は以下の式により行われる。

３）バンドパスフィルタの適用
　（式６―６）により得られたパワースペクトルＰ（Ｍ）に対し、三角関数のバンドパスフィルタΨ（Ｍ）を畳み込むことでθ（Ｍ）とする。バンドパスフィルタの畳み込みにより、重要な帯域のパワースペクトルθ（Ｍ_ｋ）（ｋ＝１，・・・・・,Ｋ）が得られる。この畳み込みの式を以下に表す。

ただし、Ｋはバンドパスフィルタの数を表す。
４）ＭＦＣＣの算出
　上記３）バンドパスフィルタの適用で算出されたθ（Ｍ_ｋ）を用いて以下の式によりＭＦＣＣを算出する。

以上のようにして算出されたＭＦＣＣを用いて、図１３のステップＳ４０３に相当する音声認識処理を行う。

　つぎに、ＭＦＣＣの算出処理を説明する。この処理は、図１３のステップＳ４０３に相当する。
　図４７に連続音声認識の基本原理を示す。ここで、音響モデルは音素（ローマ字１文字にほぼ相当）や音節（かな１文字に相当）の周波数パターンを保持し、入力音声とマッチングするものである。単語辞書は認識対象の語彙とその発音を規定し、ここで規定されているもののみがマッチングの対象となる。文字認識と異なり、文字を認識してから単語を照合するのでなく、単語辞書を照合しながら文字を認識する。言語モデルは、単語の連鎖を規定するものであり、品詞と品詞の繋がりについて照合が行われる。図４７における探索部分のモジュールは、与えられた音響モデルや言語モデルを用いて、入力音声χを単語列Ｗに認識するものである。
　次に、図４７で示した音声認識の原理を説明する。音声認識は、入力音声χに対する事後確率ｐ（Ｗ｜Ｘ）が最大となる単語列Ｗを見つける問題として定式化できる。事後確率ｐ（Ｗ｜Ｘ）を直接計算することは非常に困難であるため、ベイズ則により以下のように書き換える。

（式６－９）の分母は、Ｗの決定に影響しない正規化係数であるため、Ｗの推定の際には無視することができる。

１）音声認識における言語モデル
（式６－９）のｐ（Ｗ）は、ある単語列Ｗのパターンが生起する確率であり、これは（音声χとは無関係の）言語的な確からしさを表す。音声認識では、日本語で使用される単語の統計量や、「私」の次には「は」や「の」が続きやすいといった統計量に基づいて確率を推定する。言語モデルの適用は、通常先頭の単語から逐次的に行われ、単語列Ｗ＝（ｗ_１，ｗ_２，・・・，ｗ_ｋ）（ｗ_１は各単語）に対して、次式のようになる。

ただし、計算量を抑えるため一般にｐ（ｗ_ｉ｜ｗ_１，・・・，ｗ_ｉ－１）を直近のＮ単語連鎖ｐ（ｗ_ｉ｜ｗ_{１－Ｎ＋１}，・・・，ｗ_ｉ－１）で近似して用いる。これを単語Ｎ－ｇｒａｍモデルと呼び、Ｎ＝２（２単語連鎖）の場合をバイグラム、Ｎ＝３（３単語連鎖）の場合をトライグラムと呼ぶ。本発明の最良の実施の形態では、２回に分けて探索するが、第１パスでは入力音声に対してバイグラムを用いて比較的簡単で高速な音声認識処理を行い、次の第２パスでは逆向きのトライグラムを用いて最尤解を探索し、最終的な認識結果を決定する。

２）音声認識における音響モデル
　これに対し、（式６－９）のｐ（Ｗ｜Ｘ）は単語列Ｗから音声のパターンＸが生起する確率であり、音響的なモデルによるマッチングに基づいて評価する。こちらが通常のパターン認識処理に相当し、パターンの分布を推定したモデルを用いて行われるが、音声認識では時系列を柔軟に扱えるＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）が主に用いられる。また、このモデルの単位としては、音素（ローマ字１文字にほぼ相当）が用いられる。この単語と音素表記の対応付けは単語辞書で記述する。ここで音素表記は、できるだけ実際の発音に忠実に記述される。つまり、「京都」は正書法では「きょうと(ky o u t o)」と書かれるが、一般に「きょーと(ky o- t o)」のように発声されるため、そのように記述する。
　このようにして、単語列Ｗ＝ｗ_１，ｗ_２，・・・，ｗ_ｋが音素列（ｍ_１，ｍ_２，・・・，ｍ_ｌに展開されるので、ｐ（Ｗ｜Ｘ）は以下のように算出される。

ここでｐ（ｘ｜ｍ_ｉ）は、通常音素単位の音響的特徴を表現したＨＭＭを入力音声（の一部）ｘとマッチングすることにより算出される。音素は連続的に発声されるので、各音素の音響的特徴が前後の音素によって大きく変動する。そのため、前後の音素に応じて別のテンプレートを用意するのがトライフォンモデルである。例えば、先行母音が／ｉ／で後続の母音が／ａ／の場合の子音／ｋ／はｉ－ｋ＋ａのように表記される。ただしこれは、ｉ－ｋ＋ａの三つ組全体に対するテンプレートではなく、あくまで子音／ｋ／に対するテンプレートである。したがって、「会社（かいしゃ）」という単語に対するトライフォンによる表記は、「ｋ＋ａ　ｋ－ａ＋ｉ　ａ－ｉ＋ｓｈ　ｉ－ｓｈ＋ａ　ｓｈ－ａ」のようになる。
　以上のように定義されたｐ（Ｗ）、ｐ（Ｗ｜Ｘ）を用いて（式６－９）を解くことで、音声認識結果Ｗが得られる。

　つぎに、音声認識結果に対する名詞の抽出処理を説明する。この処理は、図１３のステップＳ４０４に相当する。
　音声認識結果から、シーン毎に名詞を抽出し、その頻度を得る。入力文（ｗ_１．ｎ＝ｗ_１，ｗ_２，・・・，ｗ_ｎ）が与えられたとき、事後確率Ｐ＝（ｓ_１．ｎ｜ｗ_１．ｎ）が最大となる名詞・助詞などの品詞列（ｓ_１．ｎ＝（ｓ_１，ｓ_２，・・・，ｓ_ｎ）を見つける問題として以下のように定式化する。

ただし、ｓ_０，ｓ_ｎ＋１はそれぞれ文頭および文末を意味する特別な品詞を表す。ここで、（式６－１２）のそれぞれの項を以下のように簡単化する。

よって、（式６－１２）は以下のように簡単化される。

また、（式６－１５）中の確率を以下の式で見積もる。

ただし、Ｃ（ｗ_ｉ，ｓ_ｉ）は単語ｗ_ｉの品詞がｓ_ｉとして出現する回数、Ｃ（ｓ_ｉ）は品詞ｓ_ｉが出現する回数、Ｃ（ｓ_ｉ，ｓ_ｉ＋１）は品詞ｓ_ｉの直後に品詞ｓ_ｉ＋１が出現する回数を表す。
　上記の（式６－１５）の最適化問題を解くことで、形態素解析が実現され、音声認識結果から名詞を抽出することが可能となる。

　つぎに、ＴＦ－ＩＤＦ法を用いた類似度算出について説明する。
　まず、各シーンに含まれるテキストのＴＦ－ＩＤＦの算出処理を説明する。この処理は、図１３のステップＳ４０５に相当する。
　ＴＦ－ＩＤＦ法は、あるシーン中に出現するそれぞれの単語に対して、そのシーンを特徴づける度合いを算出する手法である。ＴＦ－ＩＤＦ法では、単語が特徴的である度合いを以下の式により算出する。

　上式により算出されるＴＦＩＤＦ（ｔ_ｉ，Ｓ_ｊ）の値は、ＴＦ（ｔ_ｉ，Ｓ_ｊ）が大きくＤＦ（ｔ_ｉ）が小さいほど大きくなる。つまり、単語ｔ_ｉがシーンＳ_ｊ中に多く出現し、他のシーン中にあまり出現しなければ、ＴＦＩＤＦ（ｔ_ｉ，Ｓ_ｊ）の値は大きくなる。
　ここで、シーン中の単語の総数が多い場合にはＴＦＩＤＦが大きくなりやすいため、シーン間でＴＦＩＤＦの値を比較する際には正規化した値を用いることが望ましい。そこで、ＴＦＩＤＦの値を以下の式により正規化する。

ここでＴは、全シーン中に出現する単語の種類の数である。

　つぎに、各シーン間のテキストに基づいた類似度算出処理を説明する。この処理は、図１３のステップＳ４０６に相当する。
　ＴＦ－ＩＤＦ法により算出された単語の重みを用いて、シーンＳ_ｍ，Ｓ_ｎ（ｍ，ｎ＝１，２，・・・，Ｎ_ｓ）間における類似度を以下の式により算出する。

得られた類似度ｓｉｍ（Ｓ_ｍ，Ｓ_ｎ）からシーンＳ_ｍ，Ｓ_ｎ間におけるテキストの類似度ｄ_ｔ（ｍ，ｎ）を次式により算出する。

（検索部および表示部）
　検索部２６は、クエリ動画データと類似する動画データを検索する。検索部２６は、クエリ動画データと各シーンとのビデオ信号類似度、オーディオ信号類似度およびテキスト類似度の各類似度のうち、一つ以上に基づいて、クエリ動画出たと各シーンの類似度Ｄを算出する。この類似度Ｄは、各パラメータについて設定された重みが考慮されても良い。検索部２６は、類似度Ｄの高いシーンを、検索結果として出力する。
　表示部２９は、検索部２６による検索結果を表示するとともに、映像の再生、検索、および、検索または分類結果の可視化を実現するユーザインターフェースである。表示部２９は、検索結果のシーンのサムネイルを表示する。表示部２９のユーザインターフェースは、下記の各機能を有していることが好ましい。

・映像の再生
　動画データベース１１に記憶されたの映像データを任意の位置に配置し再生する。このとき、再生中の映像の現在のフレーム位置より後方にあるフレームの画像を、３次元空間上で、映像の後方に配置し表示する。
　それぞれの画像を配置する位置を常に更新することで、画像が奥から手前に向かって流れているような視覚効果を得ることができる。
・シーン単位の頭出し
　シーン分割部２１によって分割されたシーンを単位とした頭出しを行う。ユーザの操作により再生中のシーンの前後シーンの開始位置へ動画像のフレーム位置を移動する。
・検索結果の表示
　ユーザによって映像の再生中に検索の操作がなされると、検索部２６によって類似シーンを検索し、検索結果を表示する。類似シーンの検索は、分類部２２によって求められた類似度に基づいて行われる。表示部２９は、クエリシーンとの類似度が一定の閾値よりも小さいシーンを、動画データベース１１から抽出して、検索結果として表示する。

　表示する際はクエリシーンの表示位置を原点とした３次元空間で表示する。このとき検索結果の各シーンについて、類似度と対応した座標をそれぞれのシーンに与える。それらを、図４８に示す透視変換を行うことにより、検索結果の各シーンの表示位置および大きさを決定する。

　ただし、分類部２２のビデオ信号類似度算出部２３において映像情報に注目した分類のアルゴリズムを用いた場合、３次元空間上の軸は、３次元ＤＴＷによって得られる３つの座標となる。また、分類部２２のオーディオ信号類似度算出部２４において音楽情報に注目した分類のアルゴリズムを用いた場合、３次元空間上の軸はそれぞれ、ベース音に基づく類似度、他の楽器に基づく類似度、リズムに基づく類似度となる。また、分類部２２のテキスト類似度算出部２５においてテキストに注目した分類のアルゴリズムを用いた場合、オーディオ信号類似度算出部２４において音楽情報に注目した分類のアルゴリズムによる類似度と、ビデオ信号類似度算出部２３において映像情報に注目した分類のアルゴリズムによる類似度とを合わせて、３次元空間上の軸が設定される。具体的には、３次元空間上の軸はそれぞれ、ビデオ信号に基づく類似度（動画像の類似度）、オーディオ信号に基づく類似度（音の類似度）およびテキストに基づく類似度（テキストの類似度）となる。

　これにより、検索結果の中でクエリシーンとより類似したシーンがクエリシーンの近くに表示される。また、表示された検索結果の映像に対しても同様に、その映像を選択することによって、その時刻に再生中のシーンをクエリとした類似シーンを検索することができる。

　また、図４９に示すプリファランスボードを用いて、ユーザの嗜好を決定しても良い。図４９に示すプリファランスボードでは、逆三角形の図形が設けられており、各頂点に、動画像の類似度、音の類似度およびテキストの類似度が関連づけられている。プリファランスボードは、図３に示す嗜好入力部Ａ２０１に相当する。ユーザがこの逆三角形の図形中のいずれかを選択することにより、その選択された座標位置に基づいて、動画像（ビデオ）の類似度、音（オーディオ）の類似度およびテキストの類似度のそれぞれの重み付けを決定する。これにより、複数の類似度を考慮して、類似する動画像データを検索することができる。

　具体的には、本発明の最良の実施の形態においては、分類部２２によって付与された類似度に基づいて、プリファランスボードで指定された重み付けに基づいて、検索部２６が、複数の動画データからクエリ画像データに類似する動画データを検索する。例えば、プリファランスボードの中心が選択されると、ビデオ信号類似度、オーディオ信号類似度およびテキスト類似度のそれぞれが等しく評価されて、類似する動画像データが検索される。

　ここで、分類部２２によって付与される類似度は、ビデオ信号類似度算出部２３によって算出されたビデオの類似度ｄ_ｖ、オーディオ信号類似度算出部２４によって算出されたオーディオの類似度ｄ_ｓ、ベース音に基づく類似度ｄ_ｂ、非ベース音に基づく類似度ｄ_ｎｂおよびリズムに基づく類似度ｄ_ｒ、テキスト類似度算出部２５によって算出されたテキストの類似度ｄ_ｔである。

　以上の類似度を用いて、最終的な類似度Ｄを算出する。本発明の最良の実施の形態では、プリファランスボードを用いることで、ビデオやオーディオなどユーザが重要視する要素を自由に設定することが可能である。そのため、よりユーザが所望するようなシーンの検索が実現できる。

　プリファランスボードは、例えば、図４９に示すように逆三角形の形状を有する。ボードの三隅においてそれぞれの重みが最大となるように重みを設定する。得られる重みの線形和により最終的な類似度Ｄを算出する。

　図４９に示す例において、プリファランスボード内の選択点Ｐがユーザにより選択された場合、各頂点からの距離の逆数である［０，１］の重みを算出する。ここで算出される重みは、ビデオの類似度ｄ_ｖに対する重みｗ_ｖ、オーディオの類似度ｄ_ｓに対する重みｗ_ａ、テキストの類似度ｄ_ｔに対する重みｗ_ｔを算出である。

　このとき、最終的な類似度Ｄは、下記の（式７－１）により算出される。

　（式７－１）は、類似度Ｄは、ビデオ信号の類似度のＰ乗、オーディオ信号の類似度のＰ乗およびテキストの類似度のＰ乗を加算したものをＰ乗根したものである。このとき、各類似度をＰ乗したものに、それぞれの重みが乗算される。（式７－１）において表現される類似度Ｄの具体的な算出式について、以下の通りに説明する。

　市街地距離（マンハッタン距離）の概念で類似度Ｄを算出する場合、類似度Ｄは、（式７－２）により表現される。

　図５０を参照して、（式７－２）を用いて類似度Ｄを表現した画面例を説明する。図５０において、類似度Ｄが同一の動画データのシーンのサムネイルは、図５０中の太線部および太線破線部のいずれかに配置される。座標の中心には、クエリシーンのサムネイルが表示され、クエリシーンのサムネイルを中心にする正八面体の表面上に、類似度Ｄが同一の各シーンのサムネイルが表示される。なお、ここでの説明は三次元空間に基づいて表現するが、表示画面に表示する際は、二次元空間に変換されて表現される。

　ユークリッド距離の概念で類似度Ｄを算出する場合、類似度Ｄは、（式７－３）により表現される。

　類似度Ｄが算出されると、動画データベース１１に格納された各動画データから、クエリシーンとの類似度Ｄが所定の閾値内となる複数のシーンが選択される。表示部２９は、この複数のシーンに対して、可視化のための配置位置を、下記の（式７－４）により算出する。

　さらに、決定された配置位置から、各シーンを透視変換に基づいて３次元空間上に配置する。
　ここで、上記の（式７－４）における計算式は一例であって、他の計算式により座標を決定しても良い。

　図５１を参照して、（式７－３）を用いて類似度Ｄを表現した画面例を説明する。図５１において、類似度Ｄが同一の動画データのシーンのサムネイルは、図５１中の太線部および太線破線部のいずれかに配置される。座標の中心には、クエリシーンのサムネイルが表示され、クエリシーンのサムネイルを中心にする球体の表面上に、類似度Ｄが同一の各シーンのサムネイルが表示される。なお、ここでの説明は三次元空間に基づいて表現するが、表示画面に表示する際は、二次元空間に変換されて表現される。

　チェス盤距離の概念で類似度Ｄを算出する場合、類似度Ｄは、（式７－５）により表現される。

　図５２を参照して、（式７－５）を用いて類似度Ｄを表現した画面例を説明する。図５２において、類似度Ｄが同一の動画データのシーンのサムネイルは、図５２中の太線部および太線破線部のいずれかに配置される。座標の中心には、クエリシーンのサムネイルが表示され、クエリシーンのサムネイルを中心にする立方体の表面上に、類似度Ｄが同一の各シーンのサムネイルが表示される。なお、ここでの説明は三次元空間に基づいて表現するが、表示画面に表示する際は、二次元空間に変換されて表現される。

　図５３を参照して、クエリシーンデータＤ１０１と、クエリシーンデータＤ１０１との類似度Ｄが所定の閾値内となる複数のシーンデータＤ１０２およびＤ１０３のそれぞれについて、決定された座標を説明する。
　クエリシーンデータＤ１００と類似シーンデータＤ１０１との類似度にもとづいて、（式７－２）からｒ_１が算出され、座標（ｘ_１、ｙ_１）に類似シーンデータＤ１０１のサムネイルが表示される。同様に、クエリシーンデータＤ１００と類似シーンデータＤ１０２との類似度にもとづいて、（式７－２）からｒ_２が算出され、座標（ｘ_２、ｙ_２）に類似シーンデータＤ１０２のサムネイルが表示される。

　なお、オーディオの類似度ｄ_ｓは上記のオーディオに関する類似度ｄ_ｓ、ｄ_ｂ、ｄ_ｎｂ、ｄ_ｒとオーディオクラスへの帰属確率を用いて、次に示すいずれかの手法により算出される。

１）手法１
　手法１では、オーディオクラスへの帰属確率を用いて類似度ｄ_ｓを以下の式により適応的に設定する。

ただし、ｗ_ｓ、ｗ_ｂ、ｗ_ｎｂ、ｗ_ｒは全て［０，１］の重み係数を表し、Ｐｌ_ｍ，Ｐｌ_ｓはそれぞれ音楽のオーディオクラスへの帰属確率、音響（スピーチ）に関するオーディオクラスへの帰属確率を表す。上式を用いることで、オーディオクラスへの帰属確率を用いて対象とするシーンを構成する音の信号が音楽かそうでないかを判断し、音の類似度を適切に設定することが可能となる。

２）手法２
手法２では、オーディオクラスへの帰属確率を類似度ｄ_ｓの算出に直接用いる。手法２による類似度ｄ_ｓは以下の式により算出される。

上式を用いることで、音響と音楽が混在しているシーンにおいても、これらを考慮した音の類似度の設定が実現できる。

　さらに、本発明の最良の実施の形態では、個人の好みをモデル化するためのプリファランスボードを準備しているため、得られる操作履歴により学習するシステムを導入することで、よりユーザ個人の好みに合わせた映像の検索が可能となると考えられる。

　このように本発明では、映像情報に注目した分類、音楽情報に注目した分類およびテキストに注目した分類のそれぞれについて、表示装置に表示する座標を変更させることにより、さらに分類パラメータを重み付けした分類結果を取得することができる。例えば、音楽情報に着目した分類について、リズムに基づく類似度が高い座標には、リズムの類似度が高く、ベース音や他の楽器に基づく類似度が低いシーンが表示される。

（効果）
　このような本発明の最良の実施の形態に係る動画検索装置１によれば、映像の構成要素であるオーディオ信号およびビデオ信号を用いて映像間の類似度を算出し、それらの分類結果を３次元の空間上に可視化することができる。本発明の最良の実施の形態では、映像に対して楽曲に基づいた類似度の算出、および音響とビジュアル信号の双方に基づいた類似度の算出、テキストに基づいた類似度の算出の３つの類似度算出機能を持ち、映像の異なる要素に注目することで、ユーザの好みに応じた検索モードを実現することができる。さらに、この機能を用いることで、クエリ映像を与えた場合に自動で類似映像の検索をすることができる。また、クエリ映像が存在しない場合、データベース中の映像を自動的に分類し、注目する映像に対して類似する映像をユーザに呈示することができる。

　さらに、本発明の最良の実施の形態では映像間の類似度に基づいて、３次元の空間上に映像を配置することで、空間の距離によって映像の類似性を理解することが可能なユーザインターフェースを実現することができる。具体的に、映像情報に注目した検索・分類のアルゴリズムを用いた場合、３次元空間上の軸は３次元ＤＴＷによって得られる３つの座標とし、音楽情報に注目した検索・分類のアルゴリズムを用いた場合、ベース音に基づく類似度、他の楽器に基づく類似度、リズムに基づく類似度とした。これにより、ユーザは３次元空間上において、映像および音楽のどの部分が似ているかを主観的に評価することができる。

　図５４ないし図５８を参照して、本発明の実施の形態に係る動画検索装置によるシミュレーション結果を説明する。このシミュレーションにおいては、動画データベース１１に、クエリシーンを含む動画データと、このクエリシーンにテキストが類似するシーンを含む約１０分間の複数の動画データとを記憶している。本シミュレーションにおいては、このクエリシーンに類似するシーンを含む動画データを検索対象の動画データとし、この動画データに含まれる複数のシーンから、クエリシーンに類似するシーンを検索できるかをシミュレーションする。

　図５４ないし図５８は、分類部２２および検索部２６によるシミュレーション結果を示している。
　図５４は、クエリシーンの動画データを示している。図５４においては、クエリシーンの動画データについて、所定時間間隔でフレームの画像データを表示している。図５４に示すクエリシーンは、Ａチャンネルで２００８年８月１日に放送されたものである。図５４に示すクエリシーンについて、テキスト類似度算出部２５は、このクエリシーンを特徴づける検出単語として、「ゼネコン、祖父、見解、完成、鉄筋、返事、八月、高層、不足、マンション」を出力する。

　図５５ないし図５８は、図５４に示すクエリシーンにテキストが類似するシーンとして検出された動画データである。
　図５５に示す動画データは、Ａチャンネルで２００８年７月３１日に放送されたものである。図５５に示す動画データについて、テキスト類似度算出部２５は、この動画データを特徴づける検出単語として、「建物、発覚、マンション、工事、不足、住宅、部分、中絶、フロアー、同級」を出力する。またテキスト類似度算出部２５は、図５５に示す動画データとクエリデータとの類似度に基づいて、距離を、「０．６３２９５９」と算出した。ここで「距離」は「０」であるほど類似することを示す。

　図５６に示す動画データは、Ｂチャンネルで２００８年８月２日に放送されたものである。図５６に示す動画データについて、テキスト類似度算出部２５は、この動画データを特徴づける検出単語として、「マンション、説明、不動産、鉄筋、検索、購入、人達、発覚、建設、担当」を出力する。またテキスト類似度算出部２５は、図５６に示す動画データとクエリデータとの類似度に基づいて、距離を、「０．７５４５４９」と算出した。

　図５７に示す動画データは、Ａチャンネルで２００８年８月４日に放送されたものである。図５７に示す動画データについて、テキスト類似度算出部２５は、この動画データを特徴づける検出単語として、「マンション、購入、説明、認識、案内、以下、Ｆ１、品数、恋愛、氾濫」を出力する。またテキスト類似度算出部２５は、図５７に示す動画データとクエリデータとの類似度に基づいて、距離を、「０．９１８３８６」と算出した。

　図５８に示す動画データは、Ａチャンネルで２００８年８月２日に放送されたものである。図５８に示す動画データについて、テキスト類似度算出部２５は、この動画データを特徴づける検出単語として、「共同、安全、結構、影響、点検、道路、電源、コンクリート、栗本、構造」を出力する。またテキスト類似度算出部２５は、図５８に示す動画データとクエリデータとの類似度に基づいて、距離を、「０．９３７７５２」と算出した。

　テキスト類似度算出部２５は、図５４に示すクエリシーンにテキストが最も類似するシーンとして、図５５に示すシーンを出力した。さらに、テキスト類似度算出部２５は、２番目に類似するシーンとして図５６に示すシーンを、３番目に類似するシーンとして図５７に示すシーンを、４番目に類似するシーンとして図５８に示すシーンを、それぞれ出力した。図５４ないし図５８に示す各シーンは、同じテーマのシーンであり、放送日や放送チャンネルが異なる場合でも、テーマが類似しているシーンを検索できることがわかる。

　このように、本発明の実施の形態に係る動画検索装置によれば、動画データのビデオ信号を用いて、テキストが類似する画像を高精度に検索することができる。これにより、放送日や放送チャンネルが異なる番組においても、同じテーマを扱ったニュース等を容易に検索することができる。
　さらに、本発明の実施の形態に係る動画検索装置によれば、図３に示すように、映像間の類似度に基づいて、３次元の空間上に映像を配置し、空間の距離によって映像の類似性を理解することが可能なインタフェースとなっていることが確認できる。さらに図３に示すように、個人の好みをモデル化するための嗜好入力部Ａ２０１を準備しているので、ユーザの嗜好を反映した類似画像を検索することができる。ここで、嗜好入力部Ａ２０１に対するユーザの操作履歴を蓄積して記憶するとともに、得られる操作履歴により学習するシステムを導入することで、よりユーザ個人の好みに合わせた映像の検索が可能となる。

　このように、本発明の実施の形態に係る動画検索装置によれば、映像中の音響信号に対し、ＭＦＣＣを算出して音声認識を行い、認識結果に対して形態素解析およびＴＦ－ＩＤＦを用いることで、テキスト情報に注目した映像間の類似度を算出することができる。したがって、算出される類似度を用いることで、クエリ動画像に関連する話題を含む映像を検索することができる。

　ここで、本発明の実施の形態に係る動画検索装置によれば、映像を検索する際に、組み込まれた現状の音声認識の脆弱性を補うため、単純に映像から抽出されるテキストの情報のみを用いるのではなく、動画像信号や音響信号も併せて用いることで、音声認識によるテキスト情報の抽出精度が低下した場合においても、クエリ映像に対しユーザの所望する映像を検索することができる。

　さらに、ユーザは嗜好入力部Ａ２０１を通して「音」、「絵」および「テキスト」の３つの要素に対し自由に重みを設定し、検索を繰り返すことで、希望の映像にたどり着くことができる。これにより、ユーザが明確なクエリを持ち合わせていない場合においても、このような連想型の検索により、ユーザが所望する映像を獲得することができる。

　また、本発明の実施の形態に係る動画検索装置によれば、映像中に含まれるテキスト情報の抽出を可能としているため、抽出されたテキスト情報を用いることでインターネット上のコンテンツとのハイパーリンクも可能となる。さらに、本発明の実施の形態に係る動画検索装置によれば、既存の静止画像からの顔領域検出器の動画像への適用による顔領域の抽出精度向上や映像の類似度に注目した同一物体が撮像されたショットやシーンを抽出することで、映像からの「顔領域の自動検出」や映像に対する「自動メタデータ付与」等が可能となる。

（その他の実施の形態）
　上記のように、本発明の最良の実施の形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなる。
　例えば、本発明の最良の実施の形態に記載した動画検索装置は、図１に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。又、既存の情報システム上に実現されても良い。

　本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

Claims

　動画データのシーンから、クエリ動画データに類似するシーンを検索する動画検索装置であって、
　クエリ動画データを含む動画データが記憶された動画データベースと、
　前記動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割部と、
　前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のうちの音声信号をテキストデータに変換して、前記テキストデータにおける名詞の頻度から、前記シーン間のテキストの類似度を算出して、テキスト類似度データを生成するテキスト類似度算出部
　を備えることを特徴とする動画検索装置。
　前記テキスト類似度算出部は、前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のメル周波数ケプストラム係数を算出し、算出した前記メル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、前記テキストデータを形態素解析して名詞を抽出し、抽出された前記名詞の頻度に基づいて、前記シーンの特徴となる検出単語を出力して前記テキストの類似度を算出する
　ことを特徴とする請求項１に記載の動画検索装置。
　前記シーン分割部によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部
　を更に備えることを特徴とする請求項１に記載の動画検索装置。
　前記シーン分割部によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部
　を更に備えることを特徴とする請求項１に記載の動画検索装置。
　前記シーン分割部によって分割されたそれぞれのシーンについて、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出部と、
　前記シーン分割部によって分割されたそれぞれのシーンについて、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出部と、
　前記ビデオ信号類似度算出部によって検索された各シーンのビデオ信号の類似度、前記オーディオ信号類似度算出部によって検索された各シーンのオーディオ信号の類似度および前記テキスト類似度算出部によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、前記クエリ動画データとの類似度を算出する類似度算出部と、
　前記類似度算出部で算出された前記クエリ動画データとの類似度を参照して、類似度の高いシーンを検索するシーン検索部と、
　前記シーン検索部によって検索された各シーンについて、前記類似度算出部で取得された類似度に対応する座標を算出して、表示装置に表示する表示部
　を更に備えることを特徴とする請求項１に記載の動画検索装置。
　前記シーン分割部は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する
　ことを特徴とする請求項１に記載の動画検索装置。
　動画データのシーンから、クエリ動画データに類似するシーンごとに検索する動画検索プログラムであって、
　コンピュータを、
　動画データベースに記憶されたクエリ動画データおよび動画データのビジュアル信号をショットに分割して、該ショットに対応するオーディオ信号の特徴量の差分が小さい連続したショットをシーンとして出力するシーン分割手段と、
　前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のうちの音声信号をテキストデータに変換して、前記テキストデータにおける名詞の頻度から、前記シーン間のテキストの類似度を算出して、テキスト類似度データを生成するテキスト類似度算出手段
　として機能させることを特徴とする動画検索プログラム。
　前記テキスト類似度算出手段は、前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のメル周波数ケプストラム係数を算出し、算出した前記メル周波数ケプストラム係数に対して音声認識処理を施してテキストデータに変換し、前記テキストデータを形態素解析して名詞を抽出し、抽出された前記名詞の頻度に基づいて、前記シーンの特徴となる検出単語を出力して前記テキストの類似度を算出する
　ことを特徴とする請求項７に記載の動画検索プログラム。
　前記シーン分割手段によって分割されたそれぞれのシーンについて、前記ビジュアル信号の特徴量と前記オーディオ信号の特徴量から、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段
　としてさらに機能させることを特徴とする請求項７に記載の動画検索プログラム。
　前記シーン分割手段によって分割されたそれぞれのシーンについて、前記オーディオ信号のベース音に基づく類似度と、ベースを除く楽器に基づく類似度と、リズムに基づく類似度を含む、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段
　としてさらに機能させることを特徴とする請求項７に記載の動画検索プログラム。
　前記シーン分割手段によって分割されたそれぞれのシーンについて、シーン間のビデオ信号の類似度を算出して、ビデオ信号類似度データを生成するビデオ信号類似度算出手段と、
　前記シーン分割手段によって分割されたそれぞれのシーンについて、シーン間のオーディオ信号の類似度を算出して、オーディオ信号類似度データを生成するオーディオ信号類似度算出手段と、
　前記ビデオ信号類似度算出手段によって検索された各シーンのビデオ信号の類似度、前記オーディオ信号類似度算出手段によって検索された各シーンのオーディオ信号の類似度および前記テキスト類似度算出手段によって検索された各シーンのテキストの類似度のいずれか一つ以上を取得し、各シーンについて、前記クエリ動画データとの類似度を算出する類似度算出手段と、
　前記類似度算出手段で算出された前記クエリ動画データとの類似度を参照して、類似度の高いシーンを検索するシーン検索手段と、
　前記シーン検索手段によって検索された各シーンについて、前記類似度算出手段で取得された類似度に対応する座標を算出して、表示装置に表示する表示手段
　としてさらに機能させることを特徴とする請求項７に記載の動画検索プログラム。
　前記シーン分割手段は、該動画データのオーディオ信号から、各クリップの特徴量データを算出して、各クリップの音響の種類を表す各オーディオクラスへの帰属確率を算出するとともに、該動画データのビジュアル信号をショットに分割して、該ショットに対応する複数のクリップの各オーディオクラスへの帰属確率から、各ショットのファジィ推論値を算出し、隣接するショット間におけるファジィ推論値の差分が小さい連続したショットをシーンとして出力する
　ことを特徴とする請求項７に記載の動画検索プログラム。