WO2004079718A1

WO2004079718A1 - 情報検出装置及び方法、並びにプログラム

Info

Publication number: WO2004079718A1
Application number: PCT/JP2004/001397
Authority: WO
Inventors: Yasuhiro Toguri
Original assignee: Sony Corporation
Priority date: 2003-03-06
Filing date: 2004-02-10
Publication date: 2004-09-16
Also published as: US20050177362A1; EP1600943B1; EP1600943A1; KR101022342B1; US8195451B2; CN1698095A; DE602004023180D1; JP4348970B2; KR20050109403A; JP2004271736A; EP1600943A4; CN100530354C

Abstract

　情報検出装置（１）において、音声種別識別部（１１）は、情報源における音声信号を所定の時間単位毎に音楽や音声などの種別（カテゴリ）に識別分類し、記憶装置・記憶媒体（１３）は、その識別情報を記録する。識別頻度計算部（１５）は、所定の時間単位毎に、該時間単位よりも長い所定の時間区間における種別毎の識別頻度を計算し、区間開始終了判定部（１６）は、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出する。

Description

明細書情報検出装置及び方法、並びにプログラム技術分野本発明は、音声、音楽、音響を含む音声信号、又はその音声信号を含む情報源から特徴量を抽出することにより、音声や音楽などの同一種別の連続区間を検出する情報検出装置及びその方法、並びにプログラムに関する。

本出願は、日本国において 20 0 3年 3月 6日に出願された日本特許出願番号 20 0 3 - 0 6 0 3 8 2を基礎として優先権を主張するものであり、この出願は参照することにより、本出願に援用される。背景技術放送システムやマルチメディアシステム等において、映像や音声の大量のコンテンッを効率よく管理、分類し、容易に検索可能とすることは重要であるが、これにはコンテンツ中のどの部分がどのような情報をもっているかを知ることが不可欠である。

ここで、多くのマルチメディアコンテンツ、放送コンテンツは、映像信号と共に音声信号を含んでおり、これはコンテンツの分類やシーンの検出において、非常に有用な情報である。特に、情報に含まれる音声信号の音声部分と音楽部分とを識別して検出することで、効率的な情報検索や情報管理が行える。

ところで、音声と音楽とを識別するための技術は、従来から数多く研究されており、零交差数、パワーの変動、スペクトルの変動などを特徴量として用いて識別する手法が提案されている。

例えば、文献「 J · サゥンダース (J. Saunders) ，『放送された音声/音楽のリアリレ夕ィム識別 (Real— time discrimination of broadcast speech/mus ic) 』 , (米国），電気電子技術者学会報、音響 ·音声 ·信号処理に関する国際会議（Pr oc. IEEE Int. Conf. on Acoustics, Speech, Signal Processing) , 1996年， p. 993— 9 96」では、零交差数を用いて音声 ·音楽の識別を行っている。また、文献 ΓΕ. シエイァ一 (E. Scheire) 及び M. スラニー (M. Slaney) , 『ロバストな多特性音声/音楽識別器の作製及ぴ評価（Construction and evalu at ion of a robust mul t if eature speech/music discriminator) 』， (米国) ，電気電子技術者学会報、音響 '音声 ·信号処理に関する国際会議（Proc. IEEE In t. Conf. on Acoustics, Speech, Signal Processing) , 1 997年， ρ· 1 33 1— 1 334」では， 4Hz変調エネルギー、低エネルギーフレーム率、スぺクトルロールオフ点、スペクトルセントロイド、スペクトル変動 (Flux)、零交差率などを含めた 1 3個の特徴量を用いて音声 '音楽を識別し、それぞれの性能を比較評価している。

さらに、文献「M. J . ケア（M. J. Care) 、 E. S . パリス（E. S. Parris) 及び H. ロイド · トーマス（H. Lloyd- Thomas) ，『音声，音楽を識別するための特徵比較 (A comparison of features for speech, music discrimination) 』 ,

(米国），電気電子技術者学会報、音響 ·音声 ·信号処理に関する国際会議（Pr oc. IEEE Int. Conf. on Acoustics, Speech, Si nal Processing) ， 1999年 3月， p. 149— 1 52」では、ケプストラム係数、デルタケプストラム係数、振幅、デルタ振幅、ピッチ、デルタピッチ、零交差数、デルタゼロ交差数を特徴量とし、それぞれの特徴量に混合正規分布モデルを用いることで、音声 '音楽を識別している。

この他、音楽のスぺクトルピークが特定周波数に安定したまま時間方向に持続するという特徴に基づいた検出手法も研究されている。ここで、スペクトルピ一クの安定性は、スぺクトログラムにおける時間方向の直線成分の有無としても表現される。スペクトログラムとは、縦軸を周波数、横軸を時間とし、スペクトルを時間方向に並べて画像情報として表現したものである。この特徴を用いた発明としては、例えば文献「南、阿久津、浜田及び外村，『音情報を用いた映像インデクシングとその応用』，電子情報通信学会論文誌 D— I I， 1998年，第 J 81— D— I I巻，第 3号， p. 529— 537」及ぴ日本公開特許公報平 10 - 187 182号が挙げられる。このような所定の時間毎に音声や音楽などの種別を識別分類する技術を応用することで、音声データ中において同一種別の連続区間の開始 ·終了位置を検出することが可能である。

しかしながら、上述した音声や音楽などの種別を識別分類する技術を直接用いて同一種別の連続区間を検出するには、次のような問題がある。

例えば音楽（楽曲）は、多くの楽器、歌唱音声、効果音、打楽器によるリズムなどから構成されることが多い。したがって、音声データを短時間毎に識別した場合、連続した楽曲区間中であっても、必ずしも音楽と識別し得るような部分ばかりではなく、短期的にみれば音声と判定されるべき部分、或いは他の種別に分類されるべき部分がしばしば含まれる。会話音声の連続区間を検出する場合も同様であり、連続した会話区間中であっても、短期的にみれば無音部分や、音楽などの雑音が一瞬入ることもしばしば起こり得る。また、明らかな音楽や音声の部分であっても、識別誤りによって誤った種別に識別されてしまうこともある。音声、音楽以外の種別の場合も同様である。

したがって、短時間毎の音声 ·音楽などの種別識別結果を直接用いて連続区間を検出する方法では、長期的に見れば連続区間と見なされるべき部分が途中で分断されたり、逆に長期的には連続区間と見なせない一時的な雑音部分を連続区間と見なしてしまう問題が発生する。

一方、このような問題を避けるために識別のための分析時間を長くとれば、識別の時間分解能が低下し、頻繁に音楽 ·音声などが切り替わる場合に検出率が低下するという問題が発生する。発明の開示本発明は、このような従来の実情に鑑みて提案されたものであり、音声デ一夕中の音楽や音声などの連続区間を検出する際に、長期的にみて同一種別と見なされるべき連続区間を正しく検出する情報検出装置及びその方法、並びにそのような情報検出処理をコンビュ一夕に実行させるプログラムを提供することを目的とする。上述した目的を達成するために、本発明に係る情報検出装置及びその方法では、情報源に含まれる音声信号の特徴量を分析して、該音声信号の種別を所定の時間単位毎に分類識別し、分類識別された識別情報を識別情報蓄積手段に記録する。そして、上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に上記時間単位よりも長い所定の時間区間毎の識別頻度を計算し、この識別頻度を用いて同一種別の連続区間を検出する。

この情報検出装置及ぴその方法では、例えば、任意の種別の上記識別頻度が第 1の閾値以上となり、且つ該第 1の閾値以上である状態が第 1の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第 2の閾値以下となり、且つ該第 2の閾値以下である状態が第 2の時間以上連続した場合に該種別の終了を検出する。

ここで、上記識別頻度としては、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したもの、或いは任意の種別の上記時間区間における識別回数を用いることができる。

また、本発明に係るプログラムは、上述した情報検出処理をコンピュータに実行させるものである。

本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施例の説明から一層明らかにされるであろう。図面の簡単な説明図 1は、本実施の形態における情報検出装置の概略構成を示す図である。

図 2は、識別情報の記録フォーマツトの一例を示す図である。

図 3は、識別頻度を計算する時間区間の一例を示す図である。

図 4は、ィンデックス情報の記録フォーマツトの一例を示す図である。

図 5は、音楽連続区間の開始を検出する様子を説明するための図である。

図 6は、音楽連続区間の終了を検出する様子を説明するための図である。

図 7 A乃至図 7 Cは、同情報検出装置における連続区間検出処理を示すフローチヤ一トである。発明を実施するための最良の形態以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、所定の時間単位毎に音声データを会話音声や音楽等の幾つかの種別に識別分類し、同一種別のデー夕が連続する連続区間の開始位置、終了位置等の区間情報を記憶装置又は記録媒体に記録する情報検出装置に適用したものである。

なお、音声データを幾つかの種別に分類識別する手法は、従来から多数研究されているが、本発明では識別する種別及びその識別手法は特定しない。以下では、一例として音声データを音声又は音楽に識別し、音声連続区間や音楽連続区間を検出するものとして説明するが、音声区間や音楽区間のみならず、歓声区間や無音区間を検出するようにしても構わない。また、音楽のジャンルを識別分類し、それぞれの連続区間を検出するようにしても構わない。

先ず、本実施の形態における情報検出装置の概略構成を図 1に示す。図 1に示すように、本実施の形態における情報検出装置 1は、所定フォーマットの音声デ一夕を所定の時間単位毎にブロックデータ D 1 0として読み込む音声入力部 1 0 と、所定の時間単位毎にブロックデータ D 1 0の種別を識別して識別情報 D 1 1 を生成する音声種別識別部 1 1と、識別情報 D 1 1を所定のフォーマツ卜に変換し、変換後の識別情報 D 1 2を記憶装置 ·記録媒体 1 3に記録する識別情報出力部 1 2と、記憶装置 ·記録媒体 1 3'に記録された識別情報 D 1 3を読み込む識別情報入力部 1 4と、読み込んだ識別情報 D 1 4を用いて各種別（音声 ·音楽など）の識別頻度 D 1 5を計算する識別頻度計算部 1 5と、識別頻度 D 1 5を評価して同一種別の連続区間の開始位置及び終了位置などを検出し、区間情報 D 1 6 とする区間開始終了判定部 1 6と、区間情報 D 1 6を所定のフォーマットに変換し、ィンデックス情報 D 1 7として記憶装置 ·記録媒体 1 8に記録する区間情報出力部 1 7とから構成されている。

ここで、記憶装置 ·記録媒体 1 3 , 1 8としては、メモリや磁気ディスクなどの記憶装置、半導体メモリ（メモリカード等）などの記憶媒体、或いは C D— R O Mなどの記録媒体などを用いることができる。

以上のような構成を有する情報検出装置 1において、音声入力部 1 0は、音声データを所定の時間単位毎のブロックデ一夕 D 1 0として読み込み、そのブロックデ一夕 D 1 0を音声種別識別部 1 1に供給する。

音声種別識別部 1 1は、音声の特徴量を分析することで所定の時間単位毎にプロックデータ D 1 0 種別を識別分類し、識別情報 D 1 1を識別情報出力部 1 2 に供給する。ここでは一例として、ブロックデータ D 1 0を音声又は音楽に識別分類するものとする。なお、識別する時間単位は 1秒乃至数秒程度が好ましい。識別情報出力部 1 2は、音声種別識別部 1 1から供給された識別情報 D 1 1を所定のフォーマツトに変換し、変換後の識別情報 D 1 2を記憶装置 ·記憶媒体 1 3に記録する。ここで、識別情報 D 1 2の記録フォーマットの一例を図 2に示す。図 2のフォーマット例では、音声デ一夕中における位置を示す「時刻」と、その時刻位置における種別を示す「種別コード」と、その識別の確からしさを示す

「確からしさ」とが記録されている。「確からしさ」とは、その識別結果の確実さを表す値であり、例えば事後確率最大化法などの識別手法で得られる尤度や、べクトル量子化の手法によって得られるべクトル量子化歪の逆数などを用いることができる。

識別情報入力部 1 4は、記憶装置 ·記録媒体 1 3に記録された識別情報 D 1 3 を読み込み、読み込んだ識別情報 D 1 4を識別頻度計算部 1 5に供給する。なお、読み込むタイミングとしては、識別情報出力部 1 2が記憶装置 ·記録媒体 1 3に識別情報 D 1 2を記録する際にリアルタイムで読み込んでもよく、識別情報 D 1

2の記録が終了した後に読み込んでもよい。

識別頻度計算部 1 5は、識別情報入力部 1 4から供給された識別情報 D 1 4を用いて、所定の時間単位毎に所定の時間区間における種別毎の識別頻度を計算し、識別頻度情報 D 1 5を区間開始終了判定部 1 6に供給する。識別頻度を計算する時間区間の一例を図 3に示す。この図 3は、音声データが音楽（M ) であるか音声（S ) であるかを数秒毎に識別し、時刻 t 0における音声の識別頻度 P s ( t

0 )及び音楽の識別頻度 P m ( t 0 )を、図中 L e nで表される時間区間における音声（S ) と音楽（M ) の識別情報（識別回数及びその確からしさ）から求める例を示したものである。なお、時間区間 L e nの長さは、例えば数秒乃至数十秒程度が好ましい。

ここで、種別毎の識別頻度を計算する具体例を説明する。識別頻度は、例えばその種別に識別された時刻における確からしさを所定の時間区間で平均することで求めることができる。例えば、時刻 tにおける音声の識別頻度 P s (t)は、以下の式 ( 1 ) のように求められる。ここで、式（ 1 ) において、 p ( t - k )は時刻（t - k)における識別の確からしさを示す。

Len-1

∑p(t-k>s(t-_k) , _tの翻が音声

^^(t)=^ ^ たたし、 ^s(t)Hoそれ以外 · · · ⁽¹⁾

また、式（ 1) において確からしさが全て 1であると仮定すれば、以下の式 (2) のように、単純に識別回数のみを用いて識別頻度 P s (t)を計算することができる。

音声 · ' · (²)

それ以外

音楽やその他の種別についても、全く同様にして識別頻度を計算することができる。

区間開始終了判定部 1 6は、識別頻度計算部 1 5から供給された識別頻度情報 D 1 5を用いて、同一種別の連続区間の開始位置 ·終了位置等を検出し区間情報 D 1 6として区間情報出力部 1 7に供給する。

区間情報出力部 1 7は、区間開始終了判定部 1 6から供給された区間情報 D 1 6を所定のフォーマツトに変換し、ィンデックス情報 D 1 7として記憶装置 ·記録媒体 1 8に記録する。ここで、インデックス情報 D 1 7の記録フォーマットの一例を図 4に示す。図 4のフォーマット例では、連続区間の番号又は識別子を示す「区間番号」と、その連続区間の種別を示す「種別コード」とその連続区間の開始時刻、終了時刻を示す「開始位置」「終了位置」が記録されている。ここで、連続区間の開始位置 '終了位置の検出方法について、図 5、図 6を用いてさらに詳細に説明する。

図 5は、音楽の識別頻度を閾値と比較して、音楽連続区間の開始を検出する様子を説明した図である。図の上部に各時刻における識別種別を M (音楽）， S

(音声）で記してある。縦軸は時刻 tにおける音楽の識別頻度 Pm(t)である。なお、識別頻度 Pm ）は図 3で説明したような時間区間 L e nにおいて計算し、図 5では L e n = 5とする。また、開始判定のための識別頻度 P m ( t )の閾値 P 0を 3Z5とし、識別回数の閾値 H 0を 6とする。

所定の時間単位毎に識別頻度 Pm ( t )を計算していくと、図中の A点において時間区間 L e 11にぉける識別頻度？111(1:)が3/5となり、初めて閾値 P 0以上となる。その後も連続して識別頻度 Pm ）は閾値 P 0以上に保持されており、連続 H0回（秒）だけ閾値 P 0以上の状態が保持された図中 B点において初めて、音楽の開始を検出する。

音楽の実際の開始位置は、図 5からも分かるように、識別頻度 Pm(t)が初めて閾値 P 0以上となった A点よりも少し手前である。識別頻度 Pm ( t )が閾値 P 0以上となるまでに連続増加したことを仮定すると、図中 X点が開始位置と推測できる。すなわち、識別頻度 Pm(t)の閾値 P 0を P 0 = JZL e nとすると、初めて閾値 P 0以上となった A点から Jだけ戻った X点を推定開始位置として検出する。図 5の例では J = 3であるため、 A点よりも 3だけ戻った位置を音楽開始位置として検出する。

図 6は、音楽の識別頻度を閾値と比較して音楽連続区間の終了を検出する様子を説明した図である。図 5と同様に、 Mは音楽に識別されたことを示し、 Sは音声に識別されたことを示す。また、縦軸は時刻 tにおける音楽の識別頻度 Pm(t) である。なお、識別頻度は図 3で説明したような時間区間 L e nにおいて計算し、図 6では L e n= 5とする。また、終了判定のための識別頻度 Pm ( t )の閾値 P 1を 2/ 5とし、識別回数の閾値 H 1を 6とする。なお、終了検出の閾値 P 1は、開始検出の閾値 P 0と同じであってもよい。

所定の時間単位毎に識別頻度を計算していくと、図中の C点において時間区間 L e nにおける識別頻度 Pm (t)が 2Z5となり、初めて閾値 P 1以下となる。その後も連続して識別頻度 Pm(t)は閾値 P 1以下に保持されており、連続 H I 回（秒）だけ閾値 P 1以下の状態が保持された図中 D点において初めて、音楽の終了を検出する。

音楽の実際の終了位置は、図 6からも分かるように、識別頻度 Pm (t)が始めて閾値 P 1以下となった C点よりも少し手前である。識別頻度 Pm ( t )が閾値 P 1以下となるまでに連続減少したことを仮定すると、図中 Y点が終了位置と推測できる。すなわち、識別頻度 Pm(t)の閾値 P 1を P 1 =KZL e nとすると、初めて閾値 P 1以下となった C点から： L e n— Kだけ戻った Y点を推定終了位置として検出する。図 6の例では K= 2であるため、 C点よりも 3だけ戻った位置を音楽終了位置として検出する。

以上示した連続区間検出処理を図 7 Α乃至図 7 Cのフローチャートに示す。先ずステップ S 1において初期処理を行う。具体的には、現在時刻 tを 0とし、ある種別の連続区間中であることを示す区間中フラグを FAL S E、すなわち連続区間中ではないとする。また、識別頻度 P (t )が閾値以上又は閾値以下の状態が保持された回数を数えるカウン夕の値を 0とする。

次にステップ S 2において、時刻 tにおける種別を識別する。なお、既に識別してある場合には、時刻 tにおける識別情報を読み込む。

続いてステップ S 3において、識別し、又は読み込んだ結果からデータ末尾に到達したか否かを判別し、データ末尾に到達した場合（Yes) には処理を終了する。一方、データ末尾でない場合（No) にはステップ S 4に進む。

ステップ S 4では、連続区間を検出したい種別（例えば音楽）の時刻 tにおける識別頻度 P (t)を計算する。

ステツプ S 5では、区間中フラグが TRUE、すなわち連続区間中であるか否かを判別し、 TRUEである場合（Yes) にはステップ S 1 3に進み、そうでない場合（No) 、すなわち FAL S Eである場合にはステップ S 6に進む。以下のステップ S 6乃至ステップ S 1 2では、連続区間の開始検出処理が行われる。先ずステップ S 6において、識別頻度 P ( t )が開始検出の閾値 P 0以上であるか否かを判別する。ここで、識別頻度 P ( t )が閾値 P 0未満である場合（N 0) にはステップ S 2 0でカウン夕の値を 0にリセットし、ステップ S 2 1で時刻 tを 1増やしてステップ S 2に戻る。一方、識別頻度 P ( t )が閾値 P 0未満である場合 (Ye s) にはステップ S 7に進む。

次にステップ S 7において、カウン夕の値が 0であるか否かを判別し、 0である場合 (Yes) にはステップ S 8で開始候補時刻として Xを記憶し、ステップ S 9 に進んでカウンタの値を 1増やす。ここで、 Xは例えば図 5で説明したような位置である。一方、カウンタの値が 0でない場合（No) にはステップ S 9に進み、カウン夕の値を 1増やす。

続いてステップ S 1 0において、カウン夕の値が閾値 H 0に達したか否かを判別し、閾値 H 0に達していない場合（No) にはステップ S 2 1に進み、時刻 tを 1増やしてステップ S 2に戻る。一方、閾値 H 0に達した場合（Yes) にはステツプ S 1 1に進む。

ステップ S 1 1では、記憶している開始候補時刻 Xを開始時刻として確定し、ステップ S 1 2でカウン夕の値を 0にリセッ卜すると共に区間中フラグを T R U Eに変え、ステップ S 2 1で時刻 tを 1増やしてステップ S 2に戻る。

以上、連続区間の開始を検出するまで、すなわちステップ S 5で区間中フラグが T R U Eと判別されるまで、上記の処理を繰り返す。

連続区間の開始が検出されると、以下のステップ S 1 3乃至ステップ S 1 9では、連続区間の終了検出処理が行われる。先ずステップ S 1 3において、識別頻度 P ( t )が終了検出の閾値 P 1以下であるか否かを判別する。ここで、識別頻度 P ( t )が閾値 P 1よりも大きい場合（No) にはステップ S 2 0でカウンタの値を 0にリセットし、ステップ S 2 1で時刻 tを 1増やしてステップ S 2に戻る。一方、識別頻度 P ）が閾値 P 1以下である場合（Yes) にはステップ S 1 4に進む。次にステップ S 1 4において、力ゥン夕の値が 0であるか否かを判別し、 0である場合 (Yes) にはステップ S 1 5で終了候補時刻として Yを記憶し、ステップ S 1 6に進んでカウン夕の値を 1増やす。ここで、 Yは例えば図 6で説明したような位置である。一方、カウン夕の値が 0でない場合（No) にはステップ S I 6 に進み、カウン夕の値を 1増やす。

続いてステップ S 1 7において、カウンタの値が閾値 H 1に達したか否かを判別し、閾値 H 1に達していない場合（No) にはステップ S 2 1に進み、 B寺刻 tを 1増やしてステップ S 2に戻る。一方、閾値 H Iに達した場合 (Yes) にはステツプ S 1 8に進む。

ステップ S 1 8では、記憶している終了候補時刻 Yを終了時刻として確定し、ステップ S 1 9でカウンタの値を 0にリセットすると共に区間中フラグを F A L S Eに変え、ステップ S 2 1で時刻 tを 1増やしてステップ S 2に戻る。

以上、連続区間の終了を検出するまで、すなわちステップ S 5で区間中フラグが F A L S Eと判別されるまで、上記の処理を繰り返す。

以上のように、本実施の形態における情報検出装置 1によれば、情報源における音声信号を所定の時間単位毎に各種別（カテゴリ）に識別し、その種別の識別頻度を評価して同一種別の連続区間を検出する際に、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出することにより、連続区間中に雑音などの一時的な音の混入があり、或いは識別誤りが多少ある場合であっても、連続区間の開始位置及び終了位置を正確に検出することができる。

なお、本発明は、図面を参照して説明した上述の実施例に限定されるものではなく、添付の請求の範囲及びその主旨を逸脱することなく、様々な変更、置換又はその同等のものを行うことができることは当業者にとって明らかである。

例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、 C P U (Cent ral Process ing Uni t) にコンピュ一夕プログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記憶媒体 ·記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。産業上の利用可能性上述した本発明によれば、情報源に含まれる音声信号を所定の時間単位毎に音楽や音声などの種別（カテゴリ）に識別分類し、その種別の識別頻度を評価して同一種別の連続区間を検出する際に、連続区間中に雑音などの一時的な音の混入があり、或いは識別誤りが多少ある場合であっても、連続区間の開始位置及び終了位置を正確に検出することができる。

Claims

請求の範囲

1 . 情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別手段と、

上記音声種別識別手段によって分類識別された識別情報を記録する識別情報蓄積手段と、

上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算手段と、

上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出手段とを備えることを特徴とする情報検出装置。

2 . 請求の範囲第 1項記載の情報検出装置であって、

上記連続区間検出手段によって検出された上記連続区間の区間情報をインデックスとして蓄積する区間情報蓄積手段をさらに備えることを特徴とする情報検出装置。

3 . 請求の範囲第 1項記載の情報検出装置であって、

上記連続区間検出手段は、任意の種別の上記識別頻度が第 1の閾値以上となり、且つ該第 1の閾値以上である状態が第 1の時間以上連続した場合に該種別の開始を検出し、上記識別頻度が第 2の閾値以下となり、且つ該第 2の閾値以下である状態が第 2の時間以上連続した場合に該種別の終了を検出することを特徴とする情報検出装置。

4 . 請求の範囲第 1項記載の情報検出装置であって、

上記音声種別識別手段は、上記時間単位毎に上記音声信号の種別を分類識別すると共に、その識別の確からしさを求めることを特徴とする情報検出装置。

5 . 請求の範囲第 4項記載の情報検出装置であって、

上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものであることを特徴とする情報検出装置。

6 . 請求の範囲第 1項記載の情報検出装置であって、

上記識別頻度は、任意の種別の上記時間区間における識別回数であることを特徴とする情報検出装置。

7 . 請求の範囲第 4項記載の情報検出装置であって、

上記識別情報蓄積手段は、上記時間単位毎の上記音声信号の種別と上記識別の確からしさとを、上記識別情報として記録することを特徴とする情報検出装置。

8 . 情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別工程と、

上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録する記録工程と、

上記識別情報蓄積手段から上記識別情報を読み込み、上記音声信号の種別毎に、上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算ェ程と、

上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出工程とを有することを特徴とする情報検出方法。

9 . 請求の範囲第 8項記載の情報検出方法であって、

上記連続区間検出工程にて検出された上記連続区間の区間情報をインデックスとして区間情報蓄積手段に蓄積する蓄積工程をさらに有することを特徴とする情報検出方法。

1 0 . 請求の範囲第 8項記載の情報検出方法であって、

上記連続区間検出工程では、任意の種別の上記識別頻度が第 1の閾値以上となり、且つ該第 1の閾値以上である状態が第 1の時間以上連続した場合に該種別の開始が検出され、上記識別頻度が第 2の閾値以下となり、且つ該第 2の閾値以下である状態が第 2の時間以上連続した場合に該種別の終了が検出されることを特徴とする情報検出方法。

1 1 . 請求の範囲第 8項記載の情報検出方法であって、

上記音声種別識別工程では、上記時間単位毎に上記音声信号の種別が分類識別されると共に、その識別の確からしさが求められることを特徴とする情報検出方法。

1 2 . 請求の範囲第 1 1項記載の情報検出方法であって、

上記識別頻度は、任意の種別の上記時間単位毎の識別の確からしさを上記時間区間で平均したものであることを特徴とする情報検出方法。

1 3 . 請求の範囲第 8項記載の情報検出方法であって、

上記識別頻度は、任意の種別の上記時間区間における識別回数であることを特徵とする情報検出方法。

1 4 . 請求の範囲第 1 1項記載の情報検出方法であって、

上記記録工程では、上記時間単位毎の上記音声信号の種別と上記識別の確からしさとが、上記識別情報として上記識別情報蓄積手段に記録されることを特徴とする情報検出方法。

1 5 . 所定の処理をコンピュータに実行させるプログラムにおいて、

情報源に含まれる音声信号の特徴量を分析し、該音声信号の種別を所定の時間単位毎に分類識別する音声種別識別工程と、

上記識別頻度を用いて、同一種別の連続区間を検出する連続区間検出工程とを有することを特徴とするプログラム。