WO2001016935A1

WO2001016935A1 - Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage

Info

Publication number: WO2001016935A1
Application number: PCT/JP2000/005771
Authority: WO
Inventors: Masayoshi Miura; Susumu Yabe
Original assignee: Sony Corporation
Priority date: 1999-08-26
Filing date: 2000-08-25
Publication date: 2001-03-08
Also published as: CN1178201C; DE60038535D1; US7260226B1; KR20010089358A; KR100782286B1; US20070127735A1; EP1887561A3; CN1327573A; EP1132890A4; EP1132890B1; US8165306B2; EP1132890A1; DE60038535T2; EP1887561A2

Description

明細書情報の検索処理方法、検索処理装置、蓄積方法及び蓄積装置

技術分野

この発明は、検索対象の音響信号や映像信号から、例えば特定の楽器、特定の人声、動物の鳴き声等の部分や特定の人物画像、特定のシーンなどの部分を検索する検索処理方法及び装置、また、この検索処理方法及び装置を用いた情報蓄積方法及び装置に関する。

背景技術例えば、会議録音を行った場合、記録された音響信号について、記録後に、特定の発言部分などを検索したりする要求がある。このように、記録された音響信号について、使用者が希望する音響信号部分を検索する場合、従来は、記録時にマーカ一を打ち込んでおき、再生時に、この打ち込みマ一カーを検出することにより、希望する音響信号部分を検索するようにしている。

また、記録時に、後で検索したい音響信号部分が判るように、力ゥン夕数値や、記録開始時点からの時間を、それぞれの音響信号部分と対応を付けて記録するようにする方法も知られている。

しかしながら、上述の方法の場合、記録時に、後で検索するであろう音響信号部分を判断してマ一カーを打ち込んだり、カウン夕数値や時間を記録したりする必要があり、使い勝手について、次のような問題があった。

1 . 記録時に、マ一カーを使用者が打ち込んだり、カウン夕数値や時間を別途に記録しなければならず、マーカー打ち込み操作や力ゥン夕数値や時間を記録する操作が厄介である。

2 . マーカ一やカウン夕数値、時間が記録されていない箇所は、検索することはできない。

3 . 特定の話者のみ、あるいは特定の楽器のみなどの部分を検索することができない。このため、例えば会議記録において発言区間を話者毎に分類したり、演奏区間を楽器毎に分類したりするなどということができない。

4 . 一旦、記録して、マ一力一やカウン夕数値等を記録する必要があるため、記録を行わずに、複数の検索子について検索して分類するなどということはできなかった。

発明の開示この発明は、以上の点にかんがみ、記録時に、マーカーを打ち込んだり、カウン夕数値や時間を記録する操作が必要なく、しかも、特定の話者や楽器などの部分を検索することができる方法及び装置を提供することを目的とする。

また、音響信号を記録しなくても、検索対象の音響信号から、特定の音源などの音響信号を検索子とする検索が行えるようにする方法及び装置を提供することを目的とする。

本発明に係る音響検索処理方法は、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、検索対象の音響信号を解析して得た前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記検索対象の音響信号中から前記検索子の音響信号と類似する部分を検索することを特徴とする。

また、本発明に係る音響情報蓄積方法は、入力音響信号を記録媒体に記録するとともに、前記入力音響信号を解析して、音源の構造的な要素に依存する音響特徴パラメ一夕を得、検索子とする 1〜複数の音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、前記入力音響信号についての前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記検索対象の音響信号中から前記検索子の音響信号と類似する部分を検索し、その検索結果を、前記検索子及び前記入力音響信号の前記記録媒体上の記録位置に関連させて記録するようにすることを特徴とする。

また、本発明に係る音響情報検索装置は、検索対象の音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメータ解析手段からの前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段と、前記検索手段の結果を表示する結果表示手段とを備えることを特徴とする。

また、本発明に係る音響情報検索装置は、検索対象の音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段と、前記検索手段での検索結果に基づいて、前記類似する部分のみを抽出して再生する再生手段とを備えることを特徴とする。

また、本発明に係る音響情報蓄積装置は、入力音響信号を記録媒体に記録する記録手段と、前記入力音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする 1〜複数の音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、前記入力音響信号についての前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段とを備え、前記検索手段の検索結果を、前記検索子及び前記入力音響信号の前記記録媒体上の記録位置に関連させて記録するようにすることを特徴とする。

また、本発明に係る音響映像検索処理方法は、映像信号と、その映像信号に関連する音響信号とからなる入力信号から、所定の部分を検索する音響映像検索処理方法において、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ —夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索し、その検索した部分を、前記入力信号についての検索結果とすることを特徴とする。

また、本発明に係る音響映像検索処理方法は、映像信号と、その映像信号に関連する音響信号とからなる入力信号から、所定の部分を検索する音響映像検索処理方法において、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索するとともに、検索子とする 1〜複数の映像信号についての、画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の映像信号を解析して得た前記映像特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索し、前記音響信号についての検索結果と、前記映像信号についての検索結果とに基づいて、前記入力信号中から所定の部分を検索することを特徴とする。

また、本発明に係る音響映像情報蓄積方法は、映像信号と、その映像信号に関連する音響信号とからなる入力信号を記録媒体に記録するとともに、前記入力信号中の音響信号を解析して、音源の構造的な要素に依存する音響特徴パラメ一夕を得、検索子とする 1〜複数の音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、前記入力信号中の音響信号についての前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索し、その検索結果を、前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記録するようにすることを特徴とする。

また、本発明に係る音響映像情報蓄積方法は、映像信号と、その映像信号に関連する音響信号とからなる入力信号を記録媒体に記録するとともに、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメータとを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索し、さらに、検索子とする 1

〜複数の映像信号についての、画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の映像信号を解析して得た前記映像特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索し、前記音響信号及び映像信号についての検索結果を、前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記録するようにすることを特徴とする。

また、本発明に係る音響映像情報検索装置は、映像信号と、その映像信号に関連する音響信号とからなる入力信号中の前記音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段と、前記検索手段の結果を表示する結果表示手段とを備えることを特徴とする。

また、本発明に係る音響映像情報検索装置は、映像信号と、その映像信号に関連する音響信号とからなる入力信号中の前記音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段と、前記検索手段での検索結果に基づいて、前記類似する部分に対応する前記入力信号部分を抽出して再生する再生手段とを備えることを特徴とする。

また、本発明に係る音響映像情報検索装置は、映像信号と、その映像信号に関連する音響信号とからなる入力信号中の前記音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音源についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記入力信号中の音響信号の音響特徴パラメ一夕とを比較して、前記入力信号中の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する音響部分検索手段と、前記入力信号中の映像信号を、画像の特徴を表す映像特徴パラメ一夕に解析する映像特徴パラメ一夕解析手段と、検索子とする 1〜複数の映像信号についての前記映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、前記映像特徴パラメ一夕解析手段からの前記入力信号中の映像信号の映像特徴パラメ一夕とを比較して、前記入力信号中の映像信号中から前記検索子の映像信号と類似する部分を検索する映像部分検索手段と、前記音響部分検索手段及び映像部分検索手段の結果を表示する結果表示手段とを備えることを特徴とする。

また、本発明に係る音響映像情報検索装置は、映像信号と、その映像信号に関連する音響信号とからなる入力信号中の前記音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音源についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記入力信号中の音響信号の音響特徴パラメ一夕とを比較して、前記入力信号中の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する音響部分検索手段と、前記入力信号中の映像信号を、画像の特徴を表す映像特徴パラメ一夕に解析する映像特徴パラメ一夕解析手段と、検索子とする 1〜複数の映像信号についての前記映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、前記映像特徴パラメ一夕解析手段からの前記入力信号中の映像信号の映像特徴パラメ一夕とを比較して、前記入力信号中の映像信号中から前記検索子の映像信号と類似する部分を検索する映像部分検索手段と、前記音響部分検索手段及び映像部分検索手段での検索結果に基づいて決定される前記入力信号部分を抽出して再生する再生手段とを備えることを特徴とする。

また、本明に係る音響映像情報蓄積装置は、映像信号と、その映像信号に関連する音響信号とからなる入力信号を記録媒体に記録する記録手段と、前記入力信号中の音響信号を解析して、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメータ解析手段と、検索子とする 1〜複数の音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれそれと、前記入力信号中の音響信号についての前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索する音響部分検索手段とを備え、前記音響部分検索手段の検索結果を、前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記録するようにすることを特徴とする。

さらに、本発明に係る音響映像情報蓄積装置は、映像信号と、その映像信号に関連する音響信号とからなる入力信号を記録媒体に記録する記録手段と、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索する音響部分検索手段と、検索子とする 1〜複数の映像信号についての、画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の映像信号を解析して得た前記映像特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索する映像部分検索手段とを備え、前記音響部分検索手段及び映像部分検索手段の検索結果を、前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記録するようにすることを特徴とする。

図面の簡単な説明図 1は、この発明による音響検索処理装置の第 1の実施の形態のブロック図である。

図 2 A及び図 2 Bは、男性音声の音響的特徴を示すための周波数成分分布及び時間波形を示す図である。

図 3 A及び図 3 Bは、女性音声の音響的特徴を示すための周波数成分分布及び時間波形を示す図である。

図 4 A及び図 4 Bは、サキソホンの音響的特徴を示すための周波数成分分布及び時間波形を示す図である。

図 5 A及び図 5 Bは、ベースギ夕一の音響的特徴を示すための周波数成分分布及び時間波形を示す図である。

図 6は、第 1の実施の形態における検索子の登録処理動作を説明するためのフローチヤ一トである。図 7は、第 1の実施の形態における検索処理動作を説明するためのフ口一チヤ一トである。

図 8 A及び図 8 Bは、第 1の実施の形態における検索処理結果の表示例を示す図である。

図 9は、第 1の実施の形態における検索処理結果の表示例の他の例を示す図である。

図 1 0は、第 1の実施の形態における検索処理結果の表示例の他の例を示す図である。

図 1 1は、この発明による音響検索処理装置の第 2の実施の形態のブロック図である。

図 1 2は、この発明による音響検索処理装置の第 3の実施の形態のブロック図である。

図 1 3は、この発明による音響検索処理装置の第 4の実施の形態のブロック図である。

図 1 4は、この発明による音響検索処理装置の第 5の実施の形態の要部の説明に用いる図である。

図 1 5は、この発明による音響検索処理装置の第 5の実施の形態の要部の説明に用いるフロ一チヤ一トである。

図 1 6は、この発明による音響映像検索処理装置の第 1の実施の形態のプロック図である。

図 1 7は、この発明による音響映像検索処理装置の第 1の実施の形態の説明に用いる図である。

発明を実施するための最良の形態以下、本発明を実施するための最良の形態について図面を参照しながら詳細に説明する。

以下、この発明の実施の形態を、図を参照しながら説明する。

[第 1の実施の形態]

図 1は、この発明の第 1の実施の形態のブロック図である。この第 1の実施の形態では、検索対象の入力音響信号、例えばマイクロホンで収音した入力オーディオ信号を記録し、再生する機能を備える。この実施の形態では、再生音響信号も、検索対象の音響信号とする機能を備える。また、検索対象の入力音響信号又は再生音響信号から検索子の音響信号を抽出して記憶蓄積する機能と、この蓄積された検索子の音響信号を用いて入力音響信号又は再生音響信号について検索する機能と、さらに、検索結果を表示部に表示する機能を備える。

入力音響信号は、入力端子 1 1を通じて、スィッチ回路 S W 1に供給される。このスィッチ回路 S W 1は、コントロール部 1 0からの切り換え信号により、入力音響信号の記録時及び入力音響信号についての検索時には、端子 a側に切り換えられ、入力音響信号から検索子の音響信号を抽出するときには、端子 b側に切り換えられる。そして、スィツチ回路 S W 1の端子 a側に得られるオーディオ信号は、音響信号記録部 1 2を介して記録媒体 1 3、例えばメモリ力 —ド、磁気ディスクや光磁気ディスクなどの光ディスクや、ハードディスクに記録される。音響信号記録部 1 2は、キー操作部 2 0を通じて記録指示が使用者から与えられたときに、コン卜口一ル部 1 0からの制御信号により、アクティブになり、記録を実行する。入力端子 1 1を通じた入力音響信号は、また、スィッチ回路 S W 2の入力端 I Nに供給される。このスィツチ回路 S W 2の後段には、オーディオアンプ 1 5及びスピーカ 1 6が接続されており、後述する再生時以外は、スィツチ回路 S W 2はコントロール部 1 0からの切り換え制御信号により、入力端 I N側に切り換えられる。したがつて、再生時以外の時には、入力音響信号がオーディオアンプ 1 5 を通じてスピーカ 1 6に供給されて、音響再生される。

キー操作部 2 0を通じて再生指示が使用者から与えられると、コントロール部 1 0からの制御信号により、音響信号再生部 1 4がァクティブになり、記録媒体 1 3から再生音響信号が読み出されて再生され、スィッチ回路 S W 2の入力端 P Bに供給される。この再生時には、スイッチ回路 S W 2は、コントロール部 1 0からの切り換え制御信号により、入力端 P B側に切り換えられる。したがって、再生音響信号が、オーディオアンプ 1 5を通じてスピーカ 1 6に供給されて、音響再生される。

スィツチ回路 S W 1の端子 a側に得られる入力音響信号は、また、スィツチ回路 S W 3の一方の入力端 dに供給される。このスィッチ回路 S W 3の他方の入力端 cには、音響信号再生部 1 4からの再生音響信号が供給される。

スィツチ回路 S W 3は、検索対象の音響信号を切り換えるもので、キー操作部 2 0を通じた使用者による検索対象の音響信号の選択指示に応じて切り換えられる。

このスィツチ回路 S W 3から得られる検索対象の音響信号は、音響特徴パラメ一夕解析部 2 1に供給されて、例えば、発音体の構造や共振系などの違いなどの音源の構造的な要素に依存する音響特徴パラメ一夕に解析する。この音響特徴パラメ一夕としては、ピッチ周波数、その高調波成分周波数、フォルマント周波数や、ケプストラム情報、線形予測係数とその残差信号、パーコール係数などが挙げられる。

例えば、図 2は一般的な男性音声の周波数成分分布（図 2

( A ) ) と時間波形（図 2 ( B ) ) の例である。また、図 3は一般的な女性音声の周波数成分分布（図 3 ( A ) ) と時間波形（図 3

( B ) ) の例である。また、図 4はサキソホンの周波数成分分布 (図 4 ( A ) ) と時間波形（図 4 ( B ) ) の例である。さらに、図

5はベースギターの周波数成分分布（図 5 ( A ) ) と時間波形（図

5 ( B ) ) の例である。

これらの図 2〜図 5は、単なる周波数成分分布及び時間波形であるが、それぞれ、ピッチ周波数、その高調波成分、フォルマント構造やその有無に、音響的な特徴が見られることが判る。

このような周波数成分分布の他にも、線形予測係数とその残差信号などの音響特徴パラメ一夕でも、音響信号の特徴を表すことができる。

また、ピッチ周波数の時間的変動から得られる音声の抑揚パラメ一夕も音響信号の特徴を表すパラメ一夕として有効であることが知られており、同一人物が話した言葉でも、抑揚によって別な状況と識別することができる。例えば、ピッチが通常より低く、さらに抑揚も下がる傾向のときには、元気のない場面ゃ悲しい場面であると識別される。したがって、抑揚情報も音響特徴パラメ一夕に用いることもできる。

この音響特徴パラメ一夕解析部 2 1からの音響特徴パラメ一夕は、類似性算出部 22に供給される。この類似性算出部 22では、後述するように、検索子となる音響信号についての音響特徴パラメ一夕 (以下、検索子音響特徴パラメ一夕という）と、音響特徴パラメ一夕解析部 21からの検索対象の音響信号の音響特徴パラメ一夕との類似性を算出する。

この類似性！?:出部 22での類似性算出は、音声認識などのような音声時系列波形パターンの類似判定ではなく、発音体の構造や共振系について類似した構造を持った音源から発したものであるかの判定である。時系列波形のパターンの一致や類似度を算出するものではないので、例えばオーディオ信号の再生時に、再生速度を高速にしても類似性の算出が可能である。

すなわち、例えば、類似性の算出に当たって、音響特徴パラメ一夕として、前述したもののうちの、例えば、ビヅチ周波数、フオルマント周波数などの 3項目を取り上げて、パラメ一夕（x， y， z) で表すことにする。

今、ある時間幅 TWの区間での検索子音響特徴パラメ一夕が、 (x0, y0， z 0) であり、検索対象の音響信号の音響特徴パラメ一夕が、（X i , y i， z i) であったとしたとき、類似性算出部 22では、次式に示す両者の距離 Sを類似度として算出する。前記時間幅 TWは、類似性算出部 22で、類似性を判定するのに十分な程度のパラメ一夕情報と時間を見込んで、予め設定される。

S=sqrt { (x i-xO) ² + (y i-yO) ²

+ ( z i - z 0) ² }

ここで、 sqrt () は、（）内の平方根演算を示すものである。この距離 Sが、小さければ小さいほど、類似度が大きいことになる。この実施の形態において、類似性算出部 2 2では、予め定めた時間幅 T Wの区間ごとに、前記距離 Sを算出し、その算出した距離 Sが、予め定めた所定値 S thよりも小さいときに、前記時間幅 T W の区間の音響信号は、検索子の音響信号と同じあるいは類似していると判定し、そうでないときには、非類似であると判定するようにしている。

なお、距離 Sの値は、類似の程度を表しているので、その類似の程度をそのまま出力として用いるようにすることも、勿論可能である。

この類似性算出部 2 2の類似性判定出力は、表示制御部 2 3を通じて表示部 2 4に供給される。表示制御部 2 3は、この実施の形態では、検索対象の音響信号の先頭からの時間に対応させて、前記類似性判定出力を、例えば横バーグラフのように、表示部 2 4の画面に表示するようにする（後述する図 8等参照）。

次に、検索子について説明する。この実施の形態では、検索子とする音響信号は、入力音響信号あるいは再生音響信号から抽出して、予め記憶部 3 2に記憶させておく。

すなわち、スィツチ回路 S W 1の端子 bに得られる入力音響信号は、スィッチ回路 S W 4の入力端 f に供給され、また、音響信号再生部 1 4からの再生音響信号が、スィツチ回路 S W 4の入力端 eに供給される。このスィッチ回路 S W 4は、検索子の音響信号を入力音響信号から抽出するか、再生音響信号から抽出するかを、切り換えるもので、コントロール部 1 0からの制御信号により、キ一操作部 2 0を通じた使用者の選択指示に応じて切り換えられる。

このスィツチ回路 S W 4からの音響信号は、検索子音響信号抽出格納部 3 1に供給される。この検索子音響信号抽出格納部 3 1には、コントロール部 1 0から、キー操作部 2 0を通じた使用者の操作に応じた制御信号が供給される。

この実施の形態においては、使用者は、スピーカからの入力音響信号又は再生音響信号の音響再生出力音を聴取しながら、検索子としたい音響信号部分になったときに、キー操作部 2 0の検索子指示キ一（図示せず）を操作する。すると、そのキー操作時点を含む予め定めた時間幅 T Wの区間の音響信号を抽出し、それを検索子メモリ 3 2に格納する。検索子メモリ 3 2は、検索子単位の格納エリアを有し、各検索子は、それぞれ別々の格納エリアに格納される。この例の場合、時間幅 T Wの区間は、キ一操作時点よりもわずかに前の時点から開始するように、検索子音響信号抽出格納部 3 1は、バッファメモリを備えている。そして、指示された時間幅 T Wの区間の音響信号を検索子音響信号として、検索子メモリ 3 2に格納する

この場合、検索子は、複数個が格納可能とされており、使用者が検索子の音響信号を指示するごとに、コントロール部 1 0からの制御信号により、検索子メモリ 3 2の検索子格納エリアが更新される。つまり、検索子格納エリアアドレスが更新される。そして、検索子音響信号抽出格納部 3 1からの、使用者の指示により抽出された時間幅 T Wの区間の検索子の音響信号は、コントロール部 1 0からの切り換え制御信号に応じて、検索子メモリ 3 2の検索子格納エリアの更新に同期してスィツチ回路 S W 5が切り換えられることにより、順次に、検索子メモリ 3 2の別々の検索子格納エリアに格納される。このとき、図示しないが、どのような検索子の音響信号を検索子メモリ 3 2に格納したかを、キー操作部 2 0を通じてメモ入力することができるようにされており、その検索子のメモ入力が、検索子格納エリア番号に対応して、例えばテーブル形式で表示部 2 4に表示される。使用者は、この表示部 2 4の検索子のテーブルを参照しながら、検索したい検索子が格納されている検索子格納ェリァ番号を指定することにより、所望の検索子により検索が実行できる。すなわち、キー操作部 2 0を通じて、使用者が検索モードを選択し、所定の検索子格納エリア番号を指定すると、コントロール部 1 0からの制御信号により、スィツチ回路 S W 6が切り換えられるとともに、検索子音響信号読出部 3 3により、検索子メモリ 3 2の指定された検索子格納ェリアから検索子の音響信号が読み出される。読み出された検索子の音響信号は、検索子音響特徴パラメ一夕解析部 3 4に供給されて解析され、これより、当該検索子の音響信号についての検索子音響特徴パラメ一夕が得られる。そして、この検索子音響特徴パラメ一夕が前述した類似性算出部 2 2に供給され、前述したようにして、前記時間幅 T Wの区間ごとに、検索対象の音響信号について、当該検索子の音響信号の検索が行われる。

以上のような構成の音響信号検索処理装置における動作について、さらに手順を追って説明する。

[検索子登録動作]

この実施の形態の場合、実際の検索処理に先立ち、検索子の登録が行われる。この例では、検索子は、前述したように音響信号の形で検索子メモリ 3 2に格納されて登録される。この検索子登録のときのコントロール部 1 0を主体にした動作のフローチヤ一トは図 6 のようになる。この図 6の処理ルーチンは、使用者がキ一操作部 2 0を通じて検索子登録モードを選択したときに開始となる。以下、この図 6を参照して、検索子登録動作について説明する。

まず、コントロール部 10は、キー操作部 20を通じての使用者の選択指示を判定し、入力音響信号から検索子を抽出するのか、再生音響信号から検索子を抽出するのか判定する（ステップ S 10

1)

この判定の結果、抽出元が、入力音響信号であると判別したときには、コントロール部 10は、スィッチ回路 SW 1は出力端 b側に、スィヅチ回路 SW2は入力端 I N側に、スィヅチ回路 SW4は入力端 f側に、それぞれ切り換える（ステップ S 102) 。

また、抽出元が再生音響信号であると判別したときには、コントロール部 10は、スイッチ回路 SW1は出力端 a側に、スィッチ回路 SW2は入力端 PB側に、スィツチ回路 SW4は入力端 e側に、それぞれ切り換える（ステップ S 103) 。

ステップ S 102又はステップ S 103の次には、ステップ S 1 04に進み、コントロール部 10は、使用者によるキー操作部 20 を通じた検索子の音響信号部分の指示を待つ。このとき、検索子の抽出元のオーディオ信号は、オーディオアンプ 15を通じてスビ一力 16に供給されて、音響再生される。使用者は、そのスピーカ 1 6から放音された音を聴取して、検索子としたい、例えば特定話者など特定の検索子音源として利用したい音響信号部分をキー操作部 20を通じて指示入力する。

そして、ステップ S 104で、検索子の音響部分の指示入力を検出したら、コントロール部 10は、検索子メモリ 32の検索子格納エリアを更新し（ステップ S 105) 、また、検索子音響信号抽出格納部 3 1を制御して、前述したように、一定時間幅 T Wの区間の音響信号を抽出するようにする（ステップ S 1 0 6 ) 。そして、抽出した検索子の音響信号部分を、検索子メモリ 3 2の、前記の更新した検索子格納エリアに書き込むように制御する（ステップ S 1 0 7 ) o

そして、次に、キー操作部 2 0を通じて検索子の登録モードの終了指示があつたかどうか判別し（ステップ S 1 0 8 ) 、終了指示あれば、この検索子の登録モードの処理ルーチンを終了させ、終了指示がなければ、ステップ S 1 0 4に戻り、使用者による次の検索子の抽出指示入力を待ち、上述の動作を繰り返す。

以上のようにして、検索子メモリ 3 2には、使用者が入力音響信号あるいは再生音響信号から抽出した検索子の音響信号を、登録して格納しておくことができる。この場合、検索子メモリ 3 2のメモリ容量が十分に余裕がある場合には、検索子の音響信号は、消去せずに、蓄積しておくことができる。

この発明では、音響特徴パラメ一夕を用いて類似性を算出するものであるので、蓄積した検索子の音響信号は、これを抽出したォーディォ信号から、当該検索子の音響信号部分と類似する部分を検索する場合にのみ用いられるのではなく、これを抽出したものではない他の検索対象の音響信号について、その検索子の音響信号部分と類似する部分を検索する場合にも用いることができる。

したがって、この第 1図の実施の形態の場合、予め、使用者が検索したい音源についての音響信号を、前記時間幅 T Wずつ検索子メモリ 3 2に格納して蓄積しておくことにより、何時でも必要なときに、その検索子を用いた検索を行うことができる。 [検索処理動作]

以上のようにして検索子メモリ 3 2に格納された検索子の音響信号を用いて、次のようにして検索処理が実行される。この検索処理の処理ルーチンを図 7に示す。この図 7の処理ルーチンは、使用者がキー操作部 2 0を通じて検索処理モードを選択したときに開始となる。以下、この図 7を参照して、検索処理動作について説明する。まず、コントロール部 1 0は、キー操作部 2 0を通じての使用者の選択指示を判定し、検索対象は、入力音響信号か、再生音響信号かを判定する（ステップ S 2 0 1 ) 。

この判定の結果、検索対象が入力音響信号であると判別したときには、コントロール部 1 0は、スイッチ回路 S W 1は出力端 a側に、スィツチ回路 S W 2は入力端 I N側に、スィツチ回路 S W 3は入力端 d側に、それぞれ切り換える（ステップ S 2 0 2 ) 。

また、検索対象が再生音響信号であると判別したときには、コントロール部 1 0は、スィッチ回路 S W 2は入力 P B側に、スィッチ回路 S W 3は入力端 c側に、それぞれ切り換える（ステップ S 2 0 3 ) o

ステップ S 2 0 2又はステップ S 2 0 3の次には、ステップ S 2 0 4に進み、コントロール部 1 0は、使用者により検索子として何が選択されたかを認識し（ステップ S 2 0 4 ) 、その選択された検索子の音響信号を、検索子メモリ 3 2から読み出すように制御する (ステップ S 2 0 5 ) 。

すると、メモリ 3 2から読み出された検索子の音響信号は、検索子音響信号読出部 3 3を介して検索子音響特徴パラメ一夕解析部 3 4に供給されて、検索子音響特徴パラメ一夕とされて、類似性算出部 2 2に供給される。類似性算出部 2 2では、検索対象のオーディォ信号の例えば時間幅 T Wの区間ごとの音響特徴パラメ一夕と、検索子音響特徴パラメ一夕との前述したような類似性演算がなされて、両者の類似性の指標である類似度が算出される（ステップ S 2 0 6 ) 。この例では、前述したように、類似度は、両者の距離 Sとして求められる。

そして、この類似度である前記距離 Sが、予め定めた閾値 S thよりも小さいか否かを判別し（ステップ S 2 0 7 ) 、閾値 S thよりも小さいときには、検索子に類似する音響信号部分として判定し（ステツプ S 2 0 8 ) 、閾値 S thよりも大きいときには、非類似であると判定する（ステップ S 2 0 9 ) 。そして、その判定結果を、表示制御部 2 3を介して表示部 2 4の画面に表示する（ステップ S 2 1

0 ) o

そして、検索対象のオーディオ信号が終了することにより、あるいは、使用者の終了指示により、検索処理が終了したか否かを判定し（ステップ S 2 1 1 ) 、終了であれば、この処理ルーチンを終了し、そうでなければ、ステップ S 2 0 6に戻って、検索子による検索を継続する。

以上のようにして、検索された結果の表示例を図 8に示す。この図 8の例は、検索対象が会議録音の再生音響信号であって、検索子が特定の話者 Aである場合である。この表示例によれば、会議録音全体の中のどの時間的位置で話者 Aが発言しているかが示されることになる。

なお、以上の例では、検索子は、一つとして説明したが、複数個の検索子を指定し、その複数個の検索子についての類似性を算出して、表示するようにすることもできる。その場合、例えば 1 0数ミリ秒ごとに、検索子を時分割的に切り換えて、類似性算出部 2 2で算出演算を行うようにすればよい。

また、類似性算出部を複数個設け、それらの類似性算出部で並列的に複数個の検索子のそれぞれについての類似性算出を行うようにしてもよい。

そのように複数個の検索子を設定して検索を行った検索結果の表示例を図 9に示す。この表示例は、会議録音全体の中で、 3名の話者 A、 B , Cがそれぞれどのような時間区間で発言を行つたかを示している。

こうして、この実施の形態によれば、例えば、複数の会議参加者が参加している会議において、各会議参加者ごとの音響信号を検索子として予め登録しておけば、会議の時間経過に伴った各会議参加者ごとの発言区間を分類して表示することが可能になる。

なお、以上の説明では、類似性の判定結果は、所定の閾値を超えたか否かによる 2値的なものとしたが、前述の例の場合には、類似性の算出結果としての距離 Sの値をそのまま表示に反映するようにしてもよい。すなわち、距離 Sが短ければ短いほど類似度が高いとして、その類似度の高さに応じて、図 8 ( B ) に示すように、時間区間表示に濃淡を付けて、表示するようにしてもよい。例えば、図 8 ( B ) の例では、濃淡が濃い区間ほど、類似性が高いことを示すようにしている。また、濃淡の代わりに、類似度の高さの違いを表示色の違いにより、表示するようにしてもよい。

また、検索子が複数の場合には、検索子ごとに類似性判定出力の表示色を異ならせ、また、類似度の高さの違いを表示色の濃度の違いにより、表示するようにしてもよい。

なお、以上の表示例は、類似性判定出力を検索対象の音響信号の時間経過に対応して表示したものである。一方、検索対象の音響信号が再生音響信号の場合には、各時間区間の音響信号の記録媒体 1

3上における記録位置は容易に知ることができる。したがって、一度、再生音響信号についての検索結果としての類似性判定表示出力を得たら、それを表示部 2 3に表示しながら、図 1 0に示すように、その類似性判定表示出力に現在再生位置を、例えば苒生位置力一ソルによって対応表示するようにすることもできる。

また、逆に、図 1 0の再生位置カーソルを、使用者が指定できるようにすることにより、その指定した再生位置力一ソルの位置から検索対象の音響信号の再生を行うようにすることもできる。その場合には、検索により、分類した検索子ごとの音響信号を、検索対象の音響信号から抽出して再生することが可能になる。

なお、検索対象の音響信号と検索子との類似性を算出するのは、この発明においては、音響特徴パラメ一夕を用いているので、波形パターンが一致するかどうかのパターンマッチング処理を用いる音声認識などと異なり、音響信号の時系列波形をそのまま用いる必要がない。このため、再生音響信号を検索対象とする場合、再生速度はノーマル速度（ 1倍速）ではなく、 2倍速や 3倍速というような高速再生を行っても、同様の類似性判定出力を得ることができる。したがって、検索速度を高速にすることが可能である。

したがって、検索子を用いた検索を高速再生速度にて行い、検索子と類似している音響信号部分を検出したときに、その部分をノーマル再生するようにすることにより、検索子に類似する部分のみを抽出再生することができる。

また、一旦、検索を行えば、記録媒体上のアドレスと、検索結果とを対応させることができるので、その検索結果を用いて、特定の検索子と類似する音響信号部分のみを記録媒体から抽出して、再生するようにすることも可能である。

以上の効果の説明は、検索対象が再生音響信号の場合であるが、この実施の形態では、入力音響信号を検索対象として、予め登録してある検索子を用いて検索して、入力音響信号について、検索子ごとの分類などを行うことができるという効果もある。例えば、複数個の楽器の音響信号を検索子として登録しておき、入力音響信号の各パートが、どのような楽器を用いて演奏されたものであるかなどを分類表示することができる。

なお、以上の実施の形態では、検索子は、入力音響信号や再生音響信号から抽出して、検索子メモリ 3 2に格納するようにしたが、検索子ライブラリとして複数個の検索子の音響信号を検索子メモリ

3 2に予め記憶しておいても、もちろんよい。

また、類似性の算出は、音響特徴パラメ一夕間の幾何学的距離 S として求めるようにしたが、幾つかのパラメ一夕から新しいパラメ一夕を算出し、それを用いて音響特徴パラメ一夕間の距離を求めるようにすることもできる。

例えば、上述の例の x， y , zの 3項目の音響特徴パラメ一夕を用いる場合において、新しいパラメ一夕を kとしたとき、

k = a y + b z

として、パラメ一夕 xと、この新たなパラメ一夕 kとの 2つのパラメ一夕（x、 k ) を用いて、検索対象と検索子の音響特徴パラメ一夕間の距離を算出するようにしてもよい。また、それぞれの音響特徴パラメ一夕に重み付けを行って、重要なパラメ一夕に着目した類似性を算出するようにすることもできる。

また、検索子メモリ 3 2は、内蔵のメモリではなく、メモリカードなどの取り出し可能のものであってもよい。その場合には、複数個のメモリカードに、複数種の検索子を記憶して用意しておき、メモリ力一ドを検索対象のオーディオ信号に合わせて交換することにより、希望する検索対象について、希望の検索子を用いた検索を容易に行うことができる。

また、検索子とする音響信号の音源を用意し、その音源からの音響信号を予め入力端子 1 1から入力し、検索子メモリ 3 2に、検索子の音響信号として記憶格納するようにすることもできる。さらに、検索子メモリ 3 2に記憶することなく、検索子の音源からの音響信号を検索対象の音響信号とは別に入力し、ノソファメモリにその検索子の音響信号を一時的に蓄えて、検索に用いるようにしてもよい。なお、検索子は、単一音源からの音響信号に限定されるものではなく、入力音響信号や再生音響信号から抽出された所定区間の音響信号であってもよいことはいうまでもない。

なお、表示部には、画像を伴う音響信号の場合には、画像も一緒に表示することもできる。画像を併せて表示することで、検索を行つた結果の分類の確認をすることができる。例えば、録画内容を音響信号を使用して検索、分類することも

可能である。

[第 2の実施の形態]

図 1 1に、この第 2の実施の形態の音響信号検索処理装置のプロック図を示す。第 1の実施の形態は、登録検索子として、音響信号を格納するようにしたが、この第 2の実施の形態では、登録検索子として、その音響特徴パラメ一夕を検索子メモリ 3 2に格納するようにする。その他の構成は、図 1の装置と全く同様であり、図 1と同一部分については、同一符号を付してある。

すなわち、この第 2の実施の形態においては、スィッチ回路 S W 4の出力側には、検索子音響信号抽出部 3 5が設けられる。これは、図 1の検索子音響信号抽出格納部 3 1のうちの、使用者の指示した検索子の音響信号部分を抽出する手段の部分に相当する。

この検索子音響信号抽出部 3 5で抽出された検索子の音響信号は、検索子音響特徴パラメ一夕解析部 3 6で解析されて、音響特徴パラメ一夕とされ、検索子音響特徴パラメ一夕格納部 3 7及びスィツチ回路 S W 5を通じて検索子メモリ 3 2に格納される。検索子音響特徴パラメ一夕格納部 3 7は、格納する対象情報が、検索子音響特徴パラメ一夕に変わるだけで、図 1の検索子音響信号抽出格納部 3 1 のうちの、検索子として抽出した音響信号部分を検索子メモリ 3 2 に格納する手段に相当し、前述と同様にして、各検索子（この実施の形態では、音響特徴パラメ一夕）を検索子メモリ 3 2の別々の検索子格納エリアに書き込む。

検索子メモリ 3 2に格納された検索子の音響特徴パラメ一夕は、キー操作部 2 0を通じた使用者の指示に基づいて生成されるコントロール部 1 0からの制御信号により、スィツチ回路 S W 6及び検索子音響特徴パラメ一夕読出部 3 8によって読み出される。この第 2 の実施の形態の場合には、読み出されたものは音響特徴パラメ一夕であるので、そのまま、類似性算出部 2 2に供給されて、検索のための類似性算出が実行される。

この第 2の実施の形態は、検索子メモリ 3 2に検索子音響特徴パラメ一夕が格納される点が異なるのみで、検索子の登録動作や、検索子を用いた検索動作は、前述した第 1の実施の形態と同様に行われるものである。したがって、この第 2の実施の形態によれば、上述した ¾ 1の実施の形態の場合と同様の作用効果が得られる。また、上述した第 1の実施の形態と同様の変形例が可能である。

さらに、この第 2の実施の形態では、検索子としては、その音響信号そのものではなく、検索子音響特徴パラメ一夕を検索子メモリ 3 2に記憶するので、一つの検索子当たりの記憶容量が少なくて済み、格納して蓄積することができる検索子の数を多くすることが可能である。

[第 3の実施の形態]

この第 3の実施の形態は、音響特徴パラメ一夕として、音響信号への再合成が可能なものを用いる場合である。音響特徴パラメ一夕から音響信号への再合成が可能であることから、音響信号の記録も、音響特徴パラメ一夕として記録するようにする。そして、この第 3 の実施の形態では、第 2の実施の形態と同様に、検索子は、その音響特徴パラメ一夕を検索子メモリ 3 2に記憶格納しておくようにする。

図 1 2は、この第 3の実施の形態の音響信号検索処理装置のプロック図である。この図 1 2においても、前述の実施の形態の場合と同一部分には同一符号を付すことにする。この第 3の実施の形態では、音響特徴パラメ一夕として、例えばボコーダのパラメ一夕等を用いる。図 1 2に示すように、この第 3の実施の形態の場合には、入力端子 1 1を通じて入力音響信号は、音響特徴パラメ一夕解析部 4 1に供給されて、例えばボコーダ方式の音響特徴パラメ一夕に解析される。そして、この音響特徴パラメ一夕解析部 4 1からの音響特徴パラメ一夕が、スィツチ回路 S W 1を通じて音響特徴パラメ一夕記録部 4 2に供給され、コントロール部 1 0の制御の下、この音響特徴パラメ一夕記録部 4 2により、入力音響信号の音響特徴パラメ一夕が記録媒体 1 3に記録される。

そして、記録媒体 1 3に記録された入力音響信号の音響特徴パラメータは、コントロール部 1 0の制御の下、音響特徴パラメ一夕再生部 4 3により再生され、音響信号合成部 4 4に供給される。この音響信号合成部 4 4は、音響特徴パラメ一夕から、元の音響信号を合成する。

この音響信号合成部 4 4から得られた再生音響信号は、スィツチ回路 S W 2の入力端 P B側を通じ、オーディオアンプ 1 5を通じてスピーカ 1 6に供給され、音響再生される。なお、入力端子 1 1からの入力音響信号がスィツチ回路 S W 2の入力端 I N側及びオーディォアンプ 1 5を通じてスピーカ 1 6に供給されて、音響再生されるのは、第 1及び第 2の実施の形態の場合と同様である。

そして、この第 3の実施の形態では、音響特徴パラメ一夕解析部 2 1は設けられず、スィツチ回路 S W 3は、スィツチ回路 S W 1の出力端 a側を通じて入力音響信号の音響特徴パラメ一夕と、音響特徴パラメ一夕再生部 4 3からの再生音響特徴パラメ一夕とのいずれかを、キー操作部 2 0を通じた使用者の指示に応じたコントロール部 1 0からの切り換え制御信号より選択して、類似性算出部 2 2に供給する。

一方、検索子は、この第 3の実施の形態では、第 2の実施の形態と同様に、検索子音響特徴パラメ一夕を検索子メモリ 3 2に格納する。このため、この第 3の実施の形態の場合には、音響特徴パラメ —夕解析部 4 1からの音響特徴パラメ一夕が、スィツチ回路 S W 1 の出力端 b側を通じてスィツチ回路 S W 4の一方の入力端 f に供給され、また、音響特徴パラメ一夕再生部 4 3からの再生音響パラメ一夕がスィツチ回路 S W 4の他方の入力端 eに供給される。

そして、スィツチ回路 S W 4がコントロール部 1 0からの切り換え制御信号により、検索子の音響特徴パラメ一夕を入力音響信号から抽出するか、再生音響信号から抽出するかに応じて、入力端 e又は入力端：のいずれかに切り換えられる。

そして、このスィツチ回路 S W 4からの音響特徴パラメ一夕が検索子音響特徴パラメ一夕抽出格納部 4 5に供給される。前述の第 1 の実施の形態の場合と同様にして、使用者は、スピーカからの入力音響信号又は再生音響信号の音響再生出力を聴取しながら、検索子としたい音響信号部分になったときに、キ一操作部 2 0の検索子指示キー（図示せず）を操作する。すると、検索子音響特徴パラメ一夕抽出格納部 4 5は、そのキ一操作時点を含む予め定めた時間幅 T Wの区間の音響信号の音響特徴パラメ一夕を抽出し、検索子メモリ 3 2の検索子格納部に格納する。

こうして、検索子メモリ 3 2には、入力音響信号あるいは再生音響信号のうちから抽出された検索子の音響信号の音響特徴パラメ一夕が格納される。この検索子メモリ 3 2に格納された検索子音響特徴パラメ一夕は、前述の第 2の実施の形態と同様にして、使用者の指示に応じて、検索子音響特徴パラメ一夕読出部 38により読み出されて、類似性算出部 22に供給される。

検索子の登録動作と、検索動作は、前述の 2つの実施の形態とほぼ同様であるので、その詳細は省略する。このように、この第 3の実施の形態も、検索子メモリ 32に検索子音響特徴パラメ一夕が格納される点が 4なるのみで、検索子の登録動作や検索動作は、前述した第 1の実施の形態や第 2の実施の形態と同様に行われるものである。したがって、この第 3の実施の形態の場合も、上述した第 1 の実施の形態の場合と同様の作用効果が得られ、また、上述した第 1の実施の形態と同様の変形例が可能である。

そして、この第 3の実施の形態の場合には、特に、音響特徴パラメ一夕を音響信号の代わりに記録媒体に記録するので、記録媒体の記録容量を有効に活用することができる。そして、第 1の実施の形態や第 2の実施の形態に比べて、音響特徴パラメ一夕解析部を、検索対象と検索子とで共通の一つとすることができて、構成を簡略化することができる。

再合成可能な音響特徴パラメ一夕としての具体的な例としては、 MPEG (Moving P i c ture Expe rt s G r oup) 規格の音響圧縮形式（MPEGオーディオのレイヤ I、レィャ II、レイヤ III ) デ一夕や ATRAC (Adapt i v e T rans f o rm Acous t i c C o d i n g ) 开式のデ一夕などを用いる例も挙げられる。

これら MP E Gオーディォ規格や ATRACでは、人間の聴覚心理特性を効率良く利用するために、オーディオ帯域を複数個に細分化してサブバンド符号化を行っている。例えば MP EGオーディオのレイヤ Iでは、オーディォ信号の全帯域を等間隔の周波数幅で 3 2個のサブバンドに分割し、それそれの信号を元のサンプリング周波数の 1/32でサブサンプリングして符号化する。

そこで、 MP EGオーディオ規格の音響圧縮形式のデ一夕や AT R AC形式のデ一夕（音響圧縮符号化データ）を検索対象とする場合には、そのサブバンドデ一夕から、帯域レベル分布の算出、主要帯域周波数の算出、調波構造の検出、主要帯域周波数の時間推移の検出などを行い、その検出結果を検索子音響特徴パラメ一夕とする。

MP E Gオーディオ規格の音響圧縮形式のデータや ATRAC形式のデータを用いる方法を、図 12の例に適用するときは、入力端子 1 1からの入力音響信号がアナログ信号やリニア P CM信号の場合には、音響特徴パラメ一夕解析部 41では、前記 MPEG規格の音響圧縮形式デ一夕や ATRAC形式のデータを生成する。そして、記録部 42は、その音響圧縮デ一夕を記録媒体 13に記録するようにする。

そして、検索子音響特徴パラメ一夕抽出格納部 45では、音響特徴パラメ一夕解析部 41からの、あるいは再生部 43からの音響圧縮デ一夕からサブバンドのデ一夕を生成し、そのサブバンドのデ一夕について、前述のように、帯域レベル分布の算出、主要帯域周波数の算出、調波構造の検出、主要帯域周波数の時間推移の検出などを行い、その検出結果を検索子音響特徴パラメ一夕として、検索子メモリ 32に書き込むようにする。

そして、この場合、類似性算出部 22の前段には、図 1や図 1 1 の例と同様に、音響特徴パラメ一夕解析部を設け、スィッチ SW1 からの、あるいは再生部 43からの音響圧縮データからサブバンドのデ一夕を生成し、そのサブバンドのデータについて、前述のように、帯域レベル分布の算出、主要帯域周波数の算出、調波構造の検出、主要帯域周波数の時間推移の検出などを行うようにする。この場合の音響特徴パラメ一夕解析部は、構成が簡単になる。そして、類似性算出部 22は、その解析により得た音響特徴パラメ一夕と、検索子音響特徴パラメ一夕読出部 38からの検索子音響特徴パラメ一夕とを比較して、類比判定を行う。

以上の入力端子 1 1からの入力音響信号がアナログ信号やリニア P CM信号の場合であるが、 I EEE (The I ns t i t ut e o f E l e c t r i c a l and E l e c t r o n i c s E ng i ne e r s, I n c. ) 1394規格のイン夕一フエ —スからのシリアルデジ夕ルデ一夕で入力された場合や、デジタル放送受信装置においてデジタル音響圧縮信号として得られる信号が入力される場合には、 MP EG規格の音響圧縮形式デ一夕や AT R A C形式のデ一夕がそのまま得られるので、図 12の音響特徴パラメータ解析部 41は不要となる。

以上説明した音響圧縮信号を検索対象とする検索方法は、デジ夕ルオーディオ圧縮形式データを復号化して、リニア P CMオーディォ信号に戻してから音響特徴分析するよりも分析のための時間遅れが小さくなるとともに、演算規模が小さくなる、という利点がある。

[第 4の実施の形態]

第 3の実施の形態では、音響特徴パラメ一夕を音響信号の代わりに記録媒体に記録するようにしたが、第 4の実施の形態では、音響信号と、音響特徴パラメ一夕とを、互いに付随的に記録媒体に記録するようにする。この第 4の実施の形態の場合は、音響信号が音響特徴パラメ一夕とともに記録されるので、音響特徴パラメ一夕は、第 3の実施の形態のように音響信号に再合成できるものに限定されない。

そして、この第 4の実施の形態においては、磁気ディスク、光磁気ディスク、光ディスク、メモリカードなどの記録媒体へは、音響信号に付随して音響特徴パラメ一夕を記録するようにする。すなわち、音響信号と音響特徴パラメ一夕とは、音響信号の記録単位区間 (パック、パケット、セクタなどの区間）分ごとに記録媒体に記録するが、音響信号の記録単位区間分のデータと、対応する単位区間分の音響特徴パラメ一夕は、隣接した記録エリア等、互いに対応がとれる形態で、つまり、リンクされた構造で記録される。

図 1 3に、この第 4の実施の形態の音響信号検索処理装置のプロック図を示す。この図 1 3において、前述の実施の形態の図 1、図 1 1及び図 1 2に示した各部と同一部分には同一符号を付して、その詳細な説明は省略する。

すなわち、この第 4の実施の形態では、オーディオ入力端子 1 1 を通じた入力音響信号は、スィツチ回路 S W 7を通じて音響信号記録部 1 2に供給される。スィツチ回路 S W 7は、コントロール部 1 0からの切り換え制御信号により、記録時にオンとされる。そして、この第 4の実施の形態では、音響信号記録部 1 2を通じた入力音響信号は、記録データ制御部 5 1に供給される。

また、入力端子 1 1を通じた入力音響信号は、音響特徴パラメ一夕解析部 4 1に供給されて、音響特徴パラメ一夕に解析される。この音響特徴パラメ一夕解析部 4 1からの音響特徴パラメ一夕は、検索対象の入力音響信号の音響特徴パラメ一夕としてスィツチ回路 S W 3の入力端 dに供給されるとともに、入力音響信号から検索子の音響特徴パラメ一夕を抽出するために、スィツチ回路 S W 4の入力端 f に供給される。さらに、音響特徴パラメ一夕解析部 4 1からの音響特徴パラメ一夕は、記録デ一夕制御部 5 1に供給される。

記録デ一夕制御部 5 1は、コントロール部 1 0の制御を受けて、記録時には、 ^め定められている記録フォーマットで、音響信号と音響特徴パラメ一夕とを対応付けて記録する。この例では、記録デ一夕制御部 5 1は、記録時には、前述したように、音響信号を記録単位区間分ごとに、記録媒体 1 3に記録するとともに、対応する記録単位区間分の音響特徴パラメ一夕を、記録媒体 1 3の、当該音響信号記録位置に隣接する位置に記録する。

そして、上記のような記録フォーマツトで記録媒体 1 3に記録された入力音響信号及びその音響特徴パラメ一夕は、読み出しデータ制御部 5 2により、コントロール部 1 0の制御を受けて再生される _c そして、読み出しデータ制御部 5 2で記録媒体 1 3から再生された音響信号は、音響信号再生部 1 4に供給され、スィッチ回路 S W 2 の入力端 P B側を通じ、オーディオアンプ 1 5を通じてスピーカ 1 6に供給されて、音響再生される。

また、読み出しデ一夕制御部 5 2で記録媒体 1 3から再生された対応する音響特徴パラメ一夕は、検索対象の再生音響信号の音響特徴パラメ一夕として、スィツチ回路 S W 3の入力端 cに供給されるとともに、再生音響信号から検索子の音響特徴パラメ一夕を抽出するために、スィッチ回路 S W 4の入力端 eに供給される。

さらに、読み出しデ一夕制御部 5 2で記録媒体 1 3から再生された音響信号及び音響特徴パラメ一夕は、他の装置で音響信号についての検索を行うために、外部出力端子（図示せず）を通じて、外部へ転送可能とされている。したがって、検索を行う他の装置では、音響特徴パラメ一夕を作成するために、音響特徴パラメ一夕解析部を備える必要はない。

この第 4の実施の形態は、入力音響信号と、その音響特徴パラメ一夕とが、リンクさせた状態で、記録データ制御部 5 1により、記録媒体に記録され、また、互いにリンクされて、音響信号と、その音響特徴パラメ一夕とが、読み出しデータ制御部 5 2により読み出されて再生される点が、前述の実施の形態と異なるが、音響特徴パラメ一夕を用いて検索を行い、また、入力音響信号や再生音響信号について検索子音響特徴パラメ一夕の抽出を行えるようにした点は、第 3の実施の形態と同様である。

したがって、この第 4の実施の形態の場合も、上述した第 1の実施の形態の場合と同様の作用効果が得られ、また、上述した第 1の実施の形態と同様の変形例が可能である。

そして、この第 4の実施の形態の場合には、第 3の実施の形態と同様に、第 1の実施の形態や第 2の実施の形態に比べて、音響特徴パラメ一夕解析部を、検索対象と検索子とで共通の一つとすることができて、構成を簡略化することができる。また、他の検索装置で検索を行う場合にも、当該他の検索装置に、音響特徴パラメ一夕を供給することができるので、他の検索装置には、音響特徴パラメ一夕解析部は設ける必要がないという利点がある。

なお、記録する音響信号と、対応する音響特徴パラメ一夕とは、リンクして記録媒体に記録されていればよいので、上述の例のように必ずしも隣接して記録される必要はなく、記録媒体に、予め音響信号の記録エリアと音響特徴パラメ一夕の記録エリァを別々に決めておき、それぞれの記録エリアの対応関係にある（リンクされている）アドレスに、対応する音響信号と音響特徴パラメ一夕のそれそれを記録するようにしてもよい。また、音響信号と音響特徴パラメ —夕のリンク情報を別に記録して、そのリンク情報を用いて、両者を対応付けて、再生するようにしても勿論よい。

[第 5の実施の形態]

上述したように、この発明によれば、検索対象の音響信号について、音響特徴パラメ一夕によって、検索子と類似性判定をすることにより、検索が可能であるので、検索対象の音響信号を記録しながら、指定した検索子についての検索を並行して行うことができる。したがって、記録終了時には、当該検索対象の音響信号についてのその検索子についての検索結果が得られる。そこで、記録媒体には、音響信号の記録領域と別個のェリァに、この検索結果を合わせて記録することも可能である。

また、再生音響信号についての検索結果も、音響信号の記録領域と別個のエリアを記録媒体に用意することにより、後から記録媒体に記録することも可能である。

第 5の実施の形態においては、以上の点を考慮して、検索対象の音響信号とともに、その検索結果を記録するようにする。

すなわち、この第 5の実施の形態では、予め登録した検索子の一つあるいは複数個を用いて、記録する入力音響信号についての検索を、記録処理に並行して行う。

例えば、記録媒体 1 3としては、磁気ディスク、光磁気ディスク、光ディスクなどのディスク媒体やメモリ力一ドを用いる。その場合、記録時には、記録媒体上のアドレスを監視しながら、記録が行われる。この第 5の実施の形態では、検索子による検索の結果、類似すると判定された音響信号部分が、記録媒体上のどのアドレス（記録位置）に記録されているかを、その検索子の識別情報に対応して記憶しておく。検索子の識別情報としては、例えば、この例では、スイッチ回路 S W 6の切り換え制御情報（検索子格納エリア、つまり検索子ナンバーに対応）を用いる。

図 1 4は、この第 5の実施の形態の場合において、記録終了後の、検索結果をテーブルとして表したものである。このテ一ブルは、記録媒体に記録された信号についての検索用ィンデックステ一ブルとなる。

この図 1 4において、検索子名は、例えば、検索子の登録時に予め付与した名称であり、例えば、会議録音などの場合には、会議参加者名となる。区間データは、検索子と類似すると判定された区間を示すデータで、その区間の開始アドレス S Tと、終了アドレス E Dとで表される。また、 A D R i ( iは整数）は、記録媒体上のァドレス値をそれぞれ示すものである。

この第 5の実施の形態においては、この検索用ィンデヅクステ一ブルの情報を、記録媒体上の予め定めた記録エリアに、記録音響信号とは別個に記録するようにする。

この第 5の実施の形態の場合、この検索用ィンデックステーブルを用いることにより、例えば特定の検索子と類似する音響信号部分を抽出して再生（検索再生と称する）することが容易にできる。図 1 5は、その検索再生の際の処理ルーチンを示すものである。この処理ルーチンは、キー操作部を通じて、検索再生指示を行ったときに開始となる。

まず、記録媒体から検索用ィンデックステーブルを作成するための検索用ィンデヅクスのデ一夕が読み出される（ステップ S 3 0 1 ) 。コントロール部 1 0は、読み出したデ一夕を基に、図 1 4に示したような検索用ィンデックステーブルを作成し、表示画面に表示する（ステップ S 3 0 2 ) 。

使用者は、表示された検索用インデックステーブルを見て、検索再生したい検索子をキー操作部を通じて入力する。そこで、使用者により指定された検索子を認識する（ステップ S 3 0 3 ) 。そして、検索用ィンデヅクステ一ブルを参照し、その認識した検索子について、類似区間として判定された区間データを認識する（ステップ S 3 0 4 ) 。そして、その認識した各区間データで示されるアドレス区間の音響信号を、記録媒体から順次読み出して、再生する（ステップ S 3 0 5 ) 。

こうして、この第 5の実施の形態によれば、検索子に類似する音響信号部分のみを簡単に抽出して再生することができる。もっとも、この第 5の実施の形態の場合にも、検索用ィンデックステ一プルにない検索子を検索子メモリから指定して、検索を行うことも勿論可能である。

なお、上述の第 5の実施の形態の説明では、検索子の識別情報と検索子名とを検索用インデックステーブルに含めるようにしたが、検索子の音響信号を検索子名に替えて、あるいは併せて記録するようにしてもよい。そのようにすれば、検索子がどのような音響信号であつたかを、それを音響再生することにより、容易に知ることができる。また、上述の説明では、検索結果を記録媒体に記録するようにしたが、コントロール部が管理するメモリに、記録媒体に対応させて、検索結果を記録するようにするようにしてもよい。

[その他の実施の形態]

以上の実施の形態では、検索子は、予めメモリに登録したり、別個に用 ¾するように説明したが、例えば、音響信号の記録中に、使用者が、その音響信号について検索子の音響信号部分を指定したとき、その指定後の音響信号については、指定した検索子を用いて検索を行うようにすることもできる。その場合には、予め検索子を登録しておく必要はない。

また、検索子メモリに登録する検索子は、入力音響信号や再生音響信号から抽出する必要もない。例えば、検索子としたい音源を用意し、その音源からの音響信号を用いて、検索子を登録することもできる。

また、検索子として登録する音響信号や音響特徴パラメ一夕を、例えば、イン夕一ネットなどのネットワークを通じて取得して、検索子メモリに登録するようにすることもできる。

また、例えば記録済み記録媒体を販売するときに、その記録媒体に、検索子の候補を予め一緒に記録するようにしてもよい。また、その記録媒体を販売するときに、検索子の候補を記録したメモリ力一ドなどを付加して販売するようにしてもよい。

[音響映像検索装置、音響映像蓄積装置の第 1の実施の形態] 以上説明した実施の形態では、検索対象の入力信号は、音響信号単独の場合であつたが、音響信号が、映像信号に関連するものとしてリンクされて、例えば記録再生される音響映像信号を、検索対象の入力信号とすることもできる。

図 16は、 MP EG 2規格で圧縮された音響映像信号を記録再生する記録再生装置に、この実施の形態の音響映像検索装置及び音響映像蓄積装置を適用した場合の構成例を示すプロック図である。この図 1に示した記録再生装置は、映像信号及び音響信号を、 M PEG2規格によって圧縮符号化し、多重化して、 MPEGシステムのトランスポ一トストリ一ム（TS : Transpo rt St r eam) として、ハードディスク装置（HDD ： Ha r d D i s k Dr ive) 内のハードディスクに記録し、ハードディスクから再生する場合である。

なお、以下では、アナログ映像信号及びアナログ音響信号を、映像信号及び音響信号と称し、デジタル映像信号及びデジタル音響信号は、デジタル映像デ一夕及びデジタル音響データ、又は単に映像デ一夕及び音響デ一夕と称する。

この例では、記録再生装置 70は、アナログテレビジョン放送を受信するアンテナ 61が接続され、アナログ入力端子 7 IV， 71 A， 71 S、アナログ出力端子 72 V, 72 A, 72 S、デジタル入出力端子 73、デジタルイン夕フェース 74、入力処理部 80、出力処理部 90、マルチプレクサ/デマルチプレクサ 100、バッフアコントロ一ラ 1 10、ハードディスク装置 120、同期制御回路 130、システムコントローラ 140、音響検索処理部 150、操作入力部 160を備える。

ハードディスク装置 120は、この例では、 3枚のハードデイスク 121， 122, 123を備え、そのいずれかにトランスポ一トストリ一ムが記録され、いずれかからトランスポ一トストリームが再生されるように構成される。

システムコントローラ 140は、 CPU (Cent r a l P r o c e s s ing Uni t) 141を備え、そのシステムバス 1 42に ROM (Read Only Memo ry) 143及び1^ AM (Random Ac c e s s Memo ry) 144などが接続されて構成される。

ROM 143には、 CPU 141が実行すべきプログラムが、あらかじめ格納され、 CPU 141は、そのプログラムを読み出して、記録再生装置 70の各部を制御する。 RAMI 44には、 CPU 1 41が記録再生装置 70の各部を制御する上で必要な、その他のプログラムゃデ一夕が適宜、書き込まれる。

操作入力部 160は、キーボード、マウス、ボタン、スィッチ、リモートコマンダなどによって構成され、図示を省略した入出力ィン夕フェースを介してシステムコントロ一ラ 140のシステムバス 142に接続される。

音響検索処理部 150は、前述した第 1の実施の形態から第 5の実施の形態のうちのいずれかの機能を備えるものとして構成される部分である。特に、この実施の形態は MP EG規格の圧縮符号化デ —夕が検索対象であるので、前述したように、第 3の実施の形態の場合が好適である。

ただし、この場合、記録媒体 13は、ハードディスク装置 120 のハードディスクを用いるようにされており、このため、記憶部 1 2又は 42、再生部 14又は 44などはバッファコントローラ 1 1 0の部分により構成されるので、前述の各実施の形態の図のうち、主データとしての音響データの記録再生に関する部分を除く音響検索処理を行う部分により、この音響検索処理部 150が構成される。なお、検索子メモリ 32は、音響検索子処理部 150内に設けることもできるし、ハードディスク装置 120のハ一ドディスクの一部の記憶ェリアを用いることもできる。

なお、デジタル音響圧縮データや、音響データと映像デ一夕とがリンクされて記録 ¾生される音響映像データでは、検索や登録の該当区間を示すリンクされたアドレス情報として、フレーム番号ゃフィ一ルド番号、 PTS (Pre s ent at i on T ime S t amp) 、バケツト番号などが用いられる。

(アナ口グ入力処理及び記録）

アンテナ 61で受信されたアナログテレビジョン放送の信号は、操作入力部 160での操作に基づくシステムコントロ一ラ 140の指示によって、チューナ 81で選局されて、チューナ 8 1から、選択されたチャンネルのコンポジット映像信号及び音響信号が得られ、そのコンポジット映像信号及び音響信号が、入力切換回路 82の一方の入力端に供給される。

入力端子 7 IVには、外部機器からコンポジット映像信号が、入力端子 71 Aには、外部機器から音響信号が、入力端子 71 Sには、外部機器からセパレート映像信号（輝度信号と色差信号とに分離されたもの）が、それぞれ供給される。

入力端子 7 IVからのコンポジット映像信号、及び入力端子 71 Aからの音響信号は、入力切換回路 82の他方の入力端に供給され、入力切換回路 82がシステムコントローラ 140によって切り換えられて、入力切換回路 82から、いずれかのコンポジット映像信号及び音響信号が選択されて取り出される。入力切換回路 82からのコンポジット映像信号は、 YC分離回路 83で輝度信号と色差信号に分離されて、別の入力切換回路 84の一方の入力端に供給される。また、入力端子 71 Sからのセパレート映像信号（輝度信号及び色差信号）が、入力切換回路 84の他方の入力端に供給され、入力切換回路 84がシステムコントローラ 1 40によって切り換えられて、入力切換回路 84から、いずれかの輝度信号及び色差信号が選択されて取り出される。

入力切換回路 84からの輝度信号及び色差信号は、 NTSC (N at i ona l Te l evi s i on Sys t em Co mm i t t e e ) デコーダ 85で、それぞれ A/D (Ana l o g t o D i g i t a 1) 変換され、さらにクロマエンコード処理されて、 NT S Cデコーダ 85からコンポーネント映像デ一夕が得られる。

また、 NT S Cデコーダ 85では、入力切換回路 84からの輝度信号から垂直同期信号及び水平同期信号が分離されるとともに、その分離された同期信号に基づいてクロヅク及びフィールド判別信号が生成され、これら同期信号、クロック及びフィールド判別信号が、同期制御回路 130に供給される。同期制御回路 130では、これらの信号を基準として記録再生装置 70の各部に必要なクロック及びタイミング信号が生成されて、記録再生装置 70の各部に供給され 0

NT S Cデコーダ 85からの映像デ一夕は、プリ映像処理回路 8 6でプリフィル夕リング処理などの処理が施されたのち、 MPEG 映像エンコーダ 87及び出力処理部 90のボスト映像処理回路 92 に供給される。 MP E G映像エンコーダ 87では、プリ映像処理回路 86からの映像データに対してブロック D C T (D i s c re t e Co s i n e T r an s f o rm) などの符号化処理が施されて、映像ェレメン夕リストリーム（ES : E l ement ary St rea m) が生成され、その映像エレメン夕リストリームがマルチプレクサ Zデマルチプレクサ 100に供給される。

一方、入力切換回路 82からの音響信号は、 /0変換器88でデジタル音響デ一夕に変換されたのち、 MP E G音声エンコーダ 8 9及び出力処理部 90の出力切換回路 95に供給される。

MPEG音声エンコーダ 89では、 A/D変換器 88からの音響デ一夕が MP E G方式によって圧縮符号化されて、音声エレメン夕リストリームが生成され、その音声エレメン夕リストリームがマルチプレクサノデマルチプレクサ 100に供給される。

マルチプレクサ/デマルチプレクサ 100では、そのマルチプレクサにおいて、 MP EG映像エンコーダ 87からの映像エレメン夕リストリーム及び MP E G音声エンコーダ 89からの音声エレメン夕リストリームと各種の制御信号が多重化されて、 MP EGシステムのトランスポートストリームが生成され、そのトランスポ一トストリームがバッファコントローラ 1 10に送出される。

ノヅファコントローラ 1 10は、マルチプレクサ/デマルチプレクサ 100から連続的に入力されるトランスポートストリームを、ハードディスク装置 120に断続的に送出する。すなわち、ハードディスク装置 120がシーク動作を行っているときには、書き込みができないので、入力されたトランスポ一トストリームをバッファに一時蓄え、ハードディスク装置 120が書き込み可能なときに、そのトランスポ一トストリームを入カレ一トょり高いレートでバヅファから読み出してハードディスク装置 120に送出する。これによって、ノソファコントローラ 1 10に連続的に入力されるトランスポ一トストリームは、途切れることなくハードディスク 12 1〜 123に記録される。

ハ一ドディスク装置 120は、システムコントローラ 140によつて制御されて、ハードディスク 121〜123にトランスポートストリームを書き込む。ノソファコントローラ 11ひとハ一ドディスク装置 120との間のプロトコル（イン夕フェース）としては、 IDE ^i nt e grat ed Dr ive E l e c t r oni c s ) などが用いられる。

(再生及びアナログ出力処理）

再生時には、ハードディスク装置 120は、システムコントローラ 140によって制御されて、ハードディスク 121〜 123からトランスポートストリームを読み出し、ノッファコントローラ 1 1 0に送出する。ノッファコントローラ 1 10は、記録時とは逆に、ハードディスク装置 120から断続的に入力されるトランスポートストリームを、連続的なトランスポートストリームに変換して、マルチプレクサ/デマルチプレクサ 100に供給する。

マルチプレクサ/デマルチプレクサ 100では、そのデマルチプレクサにおいて、その連続的なトランスポ一トストリームのヘッダが解析処理されることによって、トランスポートストリームから P ES (Packe t i z ed E l ement ary St r ea m) が分離されて、 MPEG映像音声デコーダ 91に供給される。

MP E G映像音声デコーダ 9 1では、マルチプレクサ/デマルチプレクサ 100からの PE Sが映像エレメン夕リストリームと音声エレメン夕リストリームに分離され、さらに、その映像エレメン夕リストリ一ムが MP E G映像デコーダで復号されてべ一スバンドの映像データに変換され、音声エレメン夕リストリームが MP E G音声デコーダで復号されてべ一スパンドの音響デ一夕に変換される。変換後の映像データはボスト映像処理回路 92に供給され、音響デ一夕は出力切換回路 95に供給される。

ボスト映像処理回路 92では、システムコントロ一ラ 140の指示によって、 MP E G映像音声デコーダ 9 1からの映像デ一夕及びプリ映像処理回路 86からの映像データに対して、両者の切り換え、又は合成や、ボストフィル夕リング処理などの処理が施される。ポスト映像処理回路 92では、また、 GUI (Graphi ca 1 Us e r I nt erf ac e) 用に、代表画面（静止画）を生成し、複数の代表画面を縮小して、ウィンドウに貼り付ける縮小静止画表示処理が施され、処理後の映像データが、 OSD (On S c re en D i s p 1 a y ) 処理回路 93に供給される。

代表画面としては、例えば番組夕ィトルの中から特徴的な 1場面や、番組の中の見たい場面を素早くアクセスできるようにするための、その番組のインデックスポイント（ワンシーン）の画面等がある。

OSD処理回路 93では、システムコントロ一ラ 140の指示によって、テキスト情報などに対応する画像データを生成して、ボス卜映像処理回路 92からの映像デ一夕の、上記のウインドウ部分の映像データに重畳する処理が施され、処理後の映像デ一夕が、 NT S Cエンコーダ 34に供給される。縮小静止画表示された複数の代表画面の例を、図 1 7に示す。この図 1 7の例では、 1 6枚の縮小静止画 2 0 0がウィンドウに貼り付けられて表示される。

N T S Cエンコーダ 9 4では、 0 S D処理回路 9 3からの映像デ一夕（コンポーネント映像デ一夕）が、輝度デ一夕と色差デ一夕とに変換された上で、又は変換されることなくそのまま、それぞれ D /A ( D i g i t a l t o A n a 1 o g ) 変換されて、それぞれアナログ信号のセパレート映像信号及びコンポジット映像信号が生成される。そのセパレ一卜映像信号は出力端子 7 2 Sに導出され、コンポジット映像信号は出力端子 7 2 Vに導出される。

一方、出力切換回路 9 5では、システムコントローラ 1 4 0によつて、 M P E G映像音声デコーダ 9 1からの音響デ一夕と、 AZD 変換器 8 8からの音響デ一夕との、いずれかが選択されて取り出される。その選択された音響デ一夕は、 D /A変換器 3 6でアナログ音響信号に変換されて、出力端子 7 2 Aに導出される。

出力端子 7 2 Sに導出されたセパレート映像信号、出力端子 7 2 Vに導出されたコンポジッ卜映像信号、及び出力端子 7 2 Aに導出された音響信号が、外部のテレビジョン受信機などのモニタ装置 2 に出力されることによって、モニタ装置 2において、画像が表示され、音声が出力される。

(外部装置からの映像音響データの記録再生）

この例では、記録再生装置 7 0は、デジタル入出力端子 7 3とマルチプレクサ/デマルチプレクサ 1 0 0との間にデジ夕ルイン夕フエース 7 4が接続されて、デジタル入出力端子 7 3に外部装置 6 3 を接続することによって、外部装置 6 3から入力されたトランスポ —トストリームをハ一ドディスク 1 2 1〜 1 2 3に記録し、ハードディスク 12 1〜 1 23から再生されたトランスポートストリームを外部装置 63に出力することができるように構成される。

外部装置 63としては、 I RD (I nt e gr a t e d R e c e i v e r D e c o d e r) やパーソナルコンビュ一夕などの機器を接続することができる。デジタルイン夕フェース 74としては、 I EE E ( I ns t i t ut e o f E l e c t r i c a l a n d E l e c t r on i c s Eng i ne e r s) 1394デジ夕ルイン夕フェースが用いられ、外部装置 63とデジタル入出力端子 73とを接続するシリアルバス 64としては、 I EEE 1 3 94シリアルバスが用いられる。

外部装置 63からシリアルパス 64を介してデジタル入出力端子 73に入力されたトランスポートストリームは、デジタルインタフエース 74でィン夕フェース処理されてマルチプレクサ/デマルチプレクサ 100に送出され、マルチプレクサ/デマルチブレクサ 1 00からバッファコントローラ 1 10に送出されて、ハ一ドデイスク装置 1 20によってハ一ドディスク 1 2 1〜 1 23に記録される。これと同時に、マルチプレクサ/デマルチプレクサ 100のデマルチプレクサで、記録されるトランスポートストリームから PE S が分離されて、 MP E G映像音声デコーダ 9 1に供給されることによって、出力端子 72 V, 72 S及び 72 Aに、アナログ映像信号及びアナ口グ音響信号を得ることができる。

再生時には、ハードディスク装置 1 20によってハードディスク 1 2 1 ~ 123からトランスポートストリームが読み出されて、その再生されたトランスポ一トストリ一ムが、バッファコントロ一ラ 1 10に送出され、ノヅファコントローラ 1 1 0からマルチプレクザ/デマルチプレクサ 1 0 0に送出されて、デジ夕ルイン夕フエ一ス 7 4でイン夕フェース処理されてデジタル入出力端子 7 3に出力され、デジタル入出力端子 7 3からシリアルバス 6 4を介して外部装置 6 3に送出されて、外部装置 6 3に接続されたモニタ装置 7において、画像が表示され、音声が出力される。

これと同時に、マルチプレクサ/デマルチプレクサ 1 0 0のデマルチプレクサで、再生されたトランスポートストリームから P E S が分離されて、 M P E G映像音声デコーダ 9 1に供給されることによって、出力端子 7 2 V , 7 2 S及び 7 2 Aに、再生アナログ映像信号及び再生アナ口グ音響信号を得ることができる。

(音響検索処理）

前述したように、音響検索処理部 1 5 0により、前述した第 1の実施の形態〜第 5の実施の形態と同様にして、音響検索することができる。この場合に、特定の検索子音響パラメ一夕を指定して検索された部分の音響信号だけでなく、その検索された音響信号部分に対応する映像信号部分を、両者のリンク関係から、検索結果として抽出することができる。例えば、音楽番組の場合には、音楽が流れているシーン部分のみを検索して抽出することができる。

この場合、検索対象の音響信号は、ハードディスク装置 1 2 0に記録された音響データだけではなく、受信したあるいは入力された音響デ一夕であっても良いことは、前述した通りである。この場合に、この実施の形態の場合には、複数の入力音響データが存在するので、ある入力音響映像信号による画像と音声とをモニタ装置 6 2 で視聴しているときに、他の入力音響映像信号中の音響信号について、検索を行い、その検索結果の画像部分を、例えば子画面（子画面は検索されたときにのみ表示しても良いし、常時表示しておいても良い）として、視聴している親画面の一部に表示するようにすることもできる。この機能は、例えば、お気に入りの俳優の声紋などを検索子音響パラメ一夕として用い、その俳優がでてくるシーンを子画面に衷示するなどの使い方ができる。

また、図 1 7に示した縮小静止画 2 0 0のそれぞれに対応して、検索子音響特徴パラメ一夕を登録しておき、使用者が検索子として縮小静止画 2 0 0のいずれかを指示したとき、その指示された縮小静止画 2 0 0に対応する検索子音響特徴パラメ一夕を用いた音響検索動作を行うようにすることもできる。

例えば、縮小静止画には、特定の人物が表示されており、その人物の声紋などを検索子音響特徴パラメ一夕として検索子メモリに記憶しておき、その人物の縮小静止画が検索子として指定されたときに、音響検索処理を行って、当該人物が登場して声を出しているシーンを抽出することができる。このように、縮小静止画に対応して、検索音響特徴パラメ一夕を登録しておくことにより、縮小静止画を検索のためのインデックスとして使用することができる。

また、逆に、特定の検索子音響特徴パラメ一夕を指定することにより、その検索子音響特徴パラメ一夕で検索されたシーンを、縮小静止画表示に使用する縮小静止画として登録するようにすることもできる。例えば、人物は映し出されていないが、特定の人物の声紋などの音響的特徴を含むシーンを、前記縮小静止画として登録することができる。

なお、検索子音響信号や検索子音響特徴パラメ一夕を放送信号にデータとして重畳して提供するようにすることもできる。使用者は、提供された検索子の中から所望のものを選択して検索に利用したり、また、その提供されたものの中から必要な検索子音響信号や検索子音響特徴パラメ一夕を検索子メモリ 3 2に登録して保存するようにすることもできる。

[音響映像検索装置、音響映像蓄積装置の第 2の実施の形態] 上述の第 1の実施の形態では、音響信号についてのみ検索子を用いて検索を行うようにしたが、この第 2の実施の形態では、映像信号についても、同様にして検索を行うようにする。

すなわち、この第 2の実施の形態では、映像信号の検索のために、画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕を登録しておくようにする。この検索子映像特徴パラメ一夕として抽出する映像の特徴量としては、例えば、輝度とその変化、色合いとその変化、人物、物体などの映っているものとその変化などを用いることができる。

この検索子映像特徴パラメ一夕も、前述の検索子音響特徴パラメ一夕と同様に、入力音響映像信号のうちから、使用者が指定した区間の映像信号を解析することにより得ることができるし、別途、検索子とする映像部分からなる映像信号を入力して、それを解析して得ることもできる。また、パーソナルコンピュータなどで予め解析して得られた検索子を、装置に登録するようにすることも、勿論できる。

そして、検索対象の映像信号を解析して得た映像特徴パラメ一夕と、検索子映像特徴パラメ一夕とを比較し、両者の類似性を算出することにより、検索対象の映像信号中から検索子の画像と類似する画像部分を検索するようにする。そして、音響信号についての検索結果と、前記映像信号についての検索結果とに基づいて、入力音響映像信号中から所定の部分を検索するようにする。

この場合に、検索子映像特徴パラメ一夕と、検索子音響特徴パラメ一夕とは、それそれ別々の検索子として登録して別々に用いるようにしても良いし、互いに関連付けて登録して用いるようにしても良い。例えば、ある人物の映像の検索子映像特徴パラメ一夕と、その人物の声紋などの検索子音響特徴パラメ一夕とは互いに関連付けて登録しておくと良い。

この第 2の実施の形態においては、検索に当たっては、検索子映像特徴パラメ一夕と、検索子音響特徴パラメ一夕との両方をそれぞれ個別に指定して検索を行うことができる。また、前記の互いに関連付けられている検索子映像特徴パラメ一夕及び検索子音響特徴パラメ一夕を用いるように検索子の指定をすることもできる。

検索子音響特徴パラメ一夕と検索子映像特徴パラメータの両者を用いた検索の方法としては、それぞれのパラメ一夕のいずれかにより検索された類似部分の全てを検索結果として出力する方法、両パラメ一夕で検索された類似部分のうち、互いに一部あるいは全部が重なり合う部分を検索結果として出力する方法などを指定することができる。

このときの検索結果は、検索された部分を、アドレス情報などで表示しても良いし、また、映像部分については、検索された部分の先頭のシーンを前記の縮小静止画にして表示するようにしてもよい。また、前述の音響検索処理の各実施の形態と同様に、検索結果の信号部分を順次に再生するようにすることもできる。さらに、検索結果と、検索子とを関連させてメモリに記憶しておき、検索子を頼りに、後の時点で読み出して再生するようにすることもできる。

この第 2の実施の形態によれば、映像特徴量を使用してシーン区間の検出することと、音響特徴量を使用してシーン区間を検出することとを併用することにより、検索結果のシーン区間を意味あるものとすることができる。例えば、映像的にはシーンが代わっていても、ナレーションなど音響的には続いているシーンを、映像の変化点で区切られることなく、検出することができる。

また、前述の縮小静止画表示用の、縮小静止画として、検索子映像特徴パラメ一夕と検索子音響特徴パラメ一夕とにより検索された類似部分の重なり部分を抽出するようにすることにより、映像的だけでなく音響的にも意味のある縮小静止画を抽出して表示することができる。

以上説明したように、この発明によれば、検索対象の音響信号と、検索子としての音響信号とを、それぞれ音響特徴パラメ一夕に解析し、その音響特徴パラメ一夕について比較して、類比判定することにより検索を行うようにしたことにより、検索対象の音響信号の記録時にマーカーなどを打ち込んでおかなくても、例えば、特定の話者の発言部分や、特定の楽器の演奏部分を、簡単に検索することができる。

また、予め検索子を登録しておくことにより、その登録したものから選択した検索子についての検索子を容易に行うことができる。また、マーカーを施す場合のように、一旦記録しなければ検索ができないのではなく、予め用意した検索子についての検索を、検索対象の音響信号について行うことが可能である。

また、音響映像信号からの任意のシーンの検索を行う場合に、音響特徴パラメ一夕と映像特徴パラメ一夕とを用いてシーンの検索を行うようにすれば、検索の精度を上げることができ、また、音響的にも映像的にも区切りのよいシ一ン検索ができるようになる。

Claims

求の範囲

1 . 検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメータのそれぞれと、検索対象の音響信号を解析して得た前記音響

。一

特徴パラメ一夕とを比較し、清両者の類似性を算出することにより、前記検索対象の音響信号中から前記検索子の音響信号と類似する部分を検索することを特徴とする音響検索処理方法。

2 . 前記検索子とする 1〜複数の音響信号を用意し、検索時に、前記用意されている検索子の音響信号のうちの、検索子とすべき音源の音響信号を解析して得た音響特徴パラメ一夕を、前記類似性の算出に用いる前記検索子音響特徴パラメ一夕とすることを特徴とする請求の範囲第 1項に記載の音響検索処理方法。

3 . 前記検索子の音響信号は、前記検索対象の音響信号中から抽出して記憶しておくことを特徴とする請求の範囲第 2項記載の音響検索処理方法。

4 . 検索時に、前記検索対象の音響信号について使用者が指示操作をした部分を解析して得たものを前記検索子音響特徴パラメ一夕とし、この検索子音響特徴パラメ一夕を用いて、前記検索対象の音響信号についての検索を行うことを特徴とする請求の範囲第 1項に記載の音響検索処理方法。

5 . 予め、前記 1〜複数の検索子音響特徴パラメ一夕を記憶しておき、検索時に、前記記憶されている検索子音響特徴パラメ一夕の中から読み出したものを、前記類似性の算出に用いることを特徴とする請求の範囲第 1項に記載の音響検索処理方法。

6 . 前記検索子音響特徴パラメ一夕は、前記検索対象の音響信号中から抽出した前記検索子の音響信号を解析して得た音響特徴パラメータであることを特徴とする請求の範囲第 5項に記載の音響検索処理方法。

7 . 前記検索子が複数個である場合には、予め設定された単位時間ごとに、検索子を切り換えて、前記類似性の算出を行うことを特徴とする請求の範囲第 1項乃至第 5項のいずれか 1項に記載の音響検索処理方法。

8 . 前記検索子毎の検索結果を、前記検索対象の音響信号について、時間方向に表示することを特徴とする請求の範囲第 1項乃至第 6項のいずれか 1項に記載の音響検索処理方法。

9 . 前記検索子毎の検索結果を、前記検索対象の音響信号について、時間方向に表示することを特徴とする請求の範囲第 7項に記載の音響検索処理方法。

1 0 . 前記検索対象の音響信号のうち、前記検索の結果、前記検索子と類似する部分のみを抽出して再生することを特徴とする請求の範囲第 1項乃至第 6項のいずれか 1項に記載の音響検索処理方法。

1 1 . 前記検索対象の音響信号のうち、前記検索の結果、前記検索子と類似する部分のみを抽出して再生することを特徴とする請求の範囲第 7項に記載の音響検索処理方法。

1 2 . 入力音響信号を記録媒体に記録するとともに、前記入力音響信号を解析して、音源の構造的な要素に依存する音響特徴パラメ一夕を得、検索子とする 1〜複数の音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、前記入力音響信号についての前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記検索対象の音響信号中から前記検索子の音響信号と類似する部分を検索し、その検索結果を、前記検索子及び前記入力音響信号の前記記録媒体上の記録位置に関連させて記録するようにすることを特徴とする音響情報蓄積方法。

1 3 . 前記検索結果は、前記音響信号とともに、前記記録媒体に記録することを特徴とする請求の範囲第 1 2項に記載の音響情報蓄積方法。

1 4 . 検索子とする 1〜複数の音響信号についての前記検索子音響特徴パラメ一夕のそれぞれは、前記入力音響信号から、使用者の指示に応じて選択抽出した音響信号部分についての解析結果として求められたものであることを特徴とする請求の範囲第 1 2項又は請求項第 1 3項のいずれか 1項に記載の音響情報蓄積方法。

1 5 . 前記使用者の指示に応じて選択抽出した音響信号部分についての解析結果として求められた前記検索子とする 1〜複数の音響信号についての前記検索子音響特徴パラメ一夕のそれぞれは、バッファメモリの異なるメモリエリアに記憶され、前記バッファメモリから、前記検索子音響特徴パラメ一夕のそれぞれが読み出されて、それらの検索子音響特徴パラメ一夕を用いた前記入力音響信号についての前記類似性の算出処理による前記類似する部分の検索処理が行われることを特徴とする請求の範囲第 1 4項に記載の音響情報蓄積方法。

1 6 . 前記入力音響信号から、使用者の指示に応じて選択抽出した 1〜複数個の音響信号部分が、検索子の音響信号として、それそれバヅファメモリの異なるメモリェリァに記憶され、前記バヅファメモリから、前記検索子とする 1〜複数の音響信号がそれぞれ読み出されるとともに、それぞれの音響信号が解析されて検索子音響特徴パラメ一夕とされ、それらの検索子音響特徴パラメ一夕を用いた前記入力音響信号についての前記類似性の算出処理による前記類似する部分の検索処理が行われることを特徴とする請求の範囲第 1 4 項に記載の音響情報蓄積方法。

1 7 . 前記検索結果とともに、前記検索子となる音響信号の音響特徴パラメ一夕あるいは前記検索子となる音響信号部分も、前記記録媒体に記録することを特徴とする請求の範囲第 1 2項又は請求項第 1 3項のいずれか 1項に記載の音響情報蓄積方法。

1 8 . 前記検索結果とともに、前記検索子となる音響信号の音響特徴パラメ一夕あるいは前記検索子となる音響信号部分も、前記記録媒体に記録することを特徴とする請求の範囲第 1 4項に記載の音響情報蓄積方法。

1 9 . 検索対象の音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段と、前記検索手段の結果を表示する結果表示手段とを備える音響情報検索装置。

2 0 . 前記結果表示手段は、前記検索手段で算出された前記類似する部分を、前記検索対象の音響信号の時間の流れに応じて表示することを特徴とする請求の範囲第 1 9項に記載の音響情報検索装置。

2 1 . 1〜複数の前記検索子とする音響信号を保持する保持部と、検索時に、前記保持部から選択された検索子の音響信号を読み出す読み出し手段と、前記読み出し手段により読み出された検索子の音響信号を解析して、前記類似性算出手段に供給する検索子音響特徴パラメ一夕を得る検索子音響特徴パラメ一夕解析手段とを備えることを特徴とする請求の範囲第 1 9項に記載の音響情報検索装置。

2 2 . 1〜複数の前記検索子音響特徴パラメ一夕を保持する保持部と、検索時に、前記保持部から選択された検索子音響特徴パラメ一夕を読み出し、前記類似性算出手段に供給する読み出し手段とを備えることを特徴とする請求の範囲第 1 9項に記載の音響情報検索

2 3 . 前記検索子の音響特徴パラメ一夕を、前記検索対象の音響信号から使用者の指示に従って抽出し、解析して得て、前記保持部に保持する検索子登録手段を設けたことを特徴とする請求の範囲第 2 2項に記載の音響情報検索装置。

2 4 . 前記検索子は複数個である場合に、予め設定された単位時間ごとに、検索子を切り換えて、前記類似性の算出を行うことを特徴とする請求の範囲第 1 9項に記載の音響情報検索装置。

2 5 . 検索対象の音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段と、前記検索手段での検索結果に基づいて、前記類似する部分のみを抽出して再生する再生手段とを備える音響情報検索装置。

2 6 . 1〜複数の前記検索子とする音響信号を保持する保持部と、検索時に、前記保持部から選択された検索子の音響信号を読み出す読み出し手段と、前記読み出し手段により読み出された検索子の音響信号を解析して、前記類似性算出手段に供給する検索子音響特徴パラメ一夕を得る検索子音響特徴パラメ一夕解析手段とを備えることを特徴とする請求の範囲第 2 5項に記載の音響情報検索装置。

2 7 . 前記検索子の音響信号を、前記検索対象の音響信号から、使用者の指示に従って抽出して前記保持部に保持する検索子登録手段を設けたことを特徴とする請求の範囲第 2 6項に記載の音響情報

2 8 . 1〜複数の前記検索子音響特徴パラメ一夕を保持する保持部と、検索時に、前記保持部から選択された検索子音響特徴パラメ一夕を読み出し、前記類似性算出手段に供給する読み出し手段とを備えることを特徴とする請求の範囲第 2 5項に記載の音響情報検索

2 9 . 前記検索子の音響特徴パラメ一夕を、前記検索対象の音響信号から使用者の指示に従って抽出し、解析して得て、前記保持部に保持する検索子登録手段を設けたことを特徴とする請求の範囲第

2 8項に記載の音響情報検索装置。

3 0 . 前記検索子は複数個である場合に、予め設定された単位時間ごとに、検索子を切り換えて、前記類似性の算出を行うことを特徴とする請求の範囲第 2 5項に記載の音響情報検索装置。

3 1 . 入力音響信号を記録媒体に記録する記録手段と、前記入力音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする 1〜複数の音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、前記入力音響信号についての前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段とを備え、前記検索手段の検索結果を、前記検索子及び前記入力音響信号の前記記録媒体上の記録位置に関連させて記録するようにすることを特徴とする音響情報蓄積

3 2 . 前記検索結果は、前記入力音響信号とともに、前記記録媒体に記録することを特徴とする請求の範囲第 3 1項に記載の音響情

3 3 . 使用者の指示に応じて前記入力音響信号から選択抽出した音響信号部分についての解析を行って、前記検索子とする 1〜複数の音響信号についての前記検索子音響特徴パラメ一夕のそれぞれを得る検索子音響特徴パラメータ解析手段と、前記検索子音響特徴パラメ一夕解析手段で求められた検索子音響特徴パラメ一夕を、前記検索子として使用するために保持する検索子音響特徴パラメ一夕保持手段とを備えることを特徴とする請求の範囲第 3 1項又は第 3 2 項のいずれか 1項に記載の音響情報蓄積装置。

3 4 . 前記入力音響信号から、使用者の指示に応じて選択抽出した音響信号部分を、前記検索子として抽出する検索子抽出手段と、前記検索子抽出手段で抽出された検索子の音響信号を記憶する検索子音響信号保持手段と、前記検索子保持手段から読み出された検索子の音響信号から検索子音響特徴パラメ一夕を得る検索子音響特徴パラメ一夕解析手段とを備え、前記検索子音響特徴パラメ一夕解析手段で求められた検索子音響特徴パラメ一夕を前記検索手段で前記入力音響信号についての前記音響特徴パラメ一夕と比較することを特徴とする請求の範囲第 3 1項又は第 3 2項のいずれか 1項に記載

3 5 . 前記検索子の音響信号を、前記検索対象の音響信号から、使用者の指示に従って抽出して前記検索子音響信号保持部に保持する検索子登録手段を設けたことを特徴とする請求の範囲第 3 4項に記載の音響情報蓄積装置。

3 6 . 前記検索子は複数個である場合に、予め設定された単位時間ごとに、検索子を切り換えて、前記類似性の算出を行うことを特徴とする請求の範囲第 3 1項又は第 3 2項のいずれか 1項に記載の

3 7 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号から、所定の部分を検索する音響映像検索処理方法において、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索し、その検索した部分を、前記入力信号についての検索結果とすることを特徴とする音響映像検索処理方法。

3 8 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号から、所定の部分を検索する音響映像検索処理方法において、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ —夕のそれぞれと、検索対象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索するとともに、検索子とする 1〜複数の映像信号についての、画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の映像信号を解析して得た前記映像特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索し、前記音響信号についての検索結果と、前記映像信号についての検索結果とに基づいて、前記入力信号中から所定の部分を検索することを特徴とする音響映像検索処理方法。

3 9 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号を記録媒体に記録するとともに、前記入力信号中の音響信号を解析して、音源の構造的な要素に依存する音響特徴パラメ一夕を得、検索子とする 1〜複数の音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、前記入力信号中の音響信号についての前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索し、その検索結果を、前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記録するようにすることを特徴とする音響映像情報蓄積方法。

4 0 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号を記録媒体に記録するとともに、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメータからなる検索子音響特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索し、さらに、検索子とする 1〜複数の映像信号についての、画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれそれと、検索対象の前記入力信号中の映像信号を解析して得た前記映像特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索し、前記音響信号及び映像信号についての検索結果を、前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記録するようにすることを特徴とする音響映像情報蓄積方法。

4 1 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号中の前記音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段と、前記検索手段の結果を表示する結果表示手段とを備える音響映像情報検索装置。

4 2 . 前記結果表示手段は、前記検索手段で検索された部分の映像信号による画像を表示することを特徴とする請求の範囲第 4 1項記載の音響映像情報検索装置。

4 3 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号中の前記音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、前記検索対象の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する検索手段と、前記検索手段での検索結果に基づいて、前記類似する部分に対応する前記入力信号部分を抽出して再生する再生手段とを備える音響映像情報検索装置。

4 4 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号中の前記音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音源についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメータと、前記音響特徴パラメータ解析手段からの前記入力信号中の音響信号の音響特徴パラメ一夕とを比較して、前記入力信号中の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する音響部分検索手段と、前記入力信号中の映像信号を、画像の特徴を表す映像特徴パラメ一夕に解析する映像特徴パラメータ解析手段と、検索子とする 1〜複数の映像信号についての前記映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、前記映像特徴パラメ一夕解析手段からの前記入力信号中の映像信号の映像特徴パラメ一夕とを比較して、前記入力信号中の映像信号中から前記検索子の映像信号と類似する部分を検索する映像部分検索手段と、前記音響部分検索手段及び映像部分検索手段の結果を表示する結果表示手段とを備える音響映像情報検索装置。

4 5 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号中の前記音響信号を、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする音源についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、前記音響特徴パラメ一夕解析丰段からの前記入力信号中の音響信号の音響特徴パラメ一夕とを比較して、前記入力信号中の音響信号中から前記検索子の音源からの音響信号と類似する部分を検索する音響部分検索手段と、前記入力信号中の映像信号を、画像の特徴を表す映像特徴パラメ一夕に解析する映像特徴パラメ一夕解析手段と、検索子とする 1〜複数の映像信号についての前記映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、前記映像特徴パラメ一夕解析手段からの前記入力信号中の映像信号の映像特徴パラメ一夕とを比較して、前記入力信号中の映像信号中から前記検索子の映像信号と類似する部分を検索する映像部分検索手段と、前記音響部分検索手段及び映像部分検索手段での検索結果に基づいて決定される前記入力信号部分を抽出して再生する再生手段とを備える音響映像情報検索装置。

4 6 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号を記録媒体に記録する記録手段と、前記入力信号中の音響信号を解析して、音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、検索子とする 1〜複数の音響信号についての前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、前記入力信号中の音響信号についての前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索する音響部分検索手段とを備え、前記音響部分検索手段の検索結果を、前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記録するようにすることを特徴とする音響映像情報蓄積装置。

4 7 . 映像信号と、その映像信号に関連する音響信号とからなる入力信号を記録媒体に記録する記録手段と、検索子とする 1〜複数の音響信号についての、音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の音響信号中から前記検索子の音響信号と類似する部分を検索する音響部分検索手段と、検索子とする 1〜複数の映像信号についての、画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、検索対象の前記入力信号中の映像信号を解析して得た前記映像特徴パラメ一夕とを比較し、両者の類似性を算出することにより、前記入力信号中の映像信号中から前記検索子の画像と類似する画像部分を検索する映像部分検索手段とを備え、前記音響部分検索手段及び映像部分検索手段の検索結果を、前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記録するようにすることを特徴とする音響映像情報蓄積装置。