JPWO2008126627A1

JPWO2008126627A1 - 音声分類装置、音声分類方法、および音声分類用プログラム

Info

Publication number: JPWO2008126627A1
Application number: JP2009509015A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-26
Filing date: 2008-03-13
Publication date: 2010-07-22
Anticipated expiration: 2028-03-13
Also published as: WO2008126627A1; US20100138223A1; US8630853B2; JP5418223B2

Abstract

本発明は、逐次入力される音声信号に対して、現実的なメモリ使用量と処理速度、かつオンライン動作で、話者や官許の類似性に基づいて精度よく音声信号をクラスタリングできるようにすることを目的とする。発話分類確率計算手段１０３は、直近に入力された１つの音声信号（発話データ）に対し、確率モデルである生成モデルに基づいてその音声信号が各クラスタに属する確率（各クラスタへの分類確率）を計算し、パラメータ更新手段１０７は、発話分類確率計算手段１０３によって計算されるその発話データの各クラスタへの分類確率に基づいて、生成モデルを規定するパラメータを逐次推定する（図１）。

Description

（関連出願についての記載）
本願は、先の日本特許出願２００７−０７９６７７号（２００７年３月２６日出願）の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、音声を分類する音声分類装置、音声分類方法、および音声分類用プログラムに関し、特に、異なる話者や環境において発せられた複数の音声信号を、話者や環境の類似性に基づいてクラスタに分類する音声分類装置、音声分類方法、および音声分類用プログラムに関する。

音声分類方法に関する関連技術の一例として、例えば非特許文献１の記載が参照される。図６は、非特許文献１に記載されている音声分類方法を適用した音声分類装置の構成例を示すブロック図である。図６に示す音声分類装置は、発話記憶手段８０１と、初期化手段８０２と、クラスタ間距離計算手段８０３と、クラスタ対統合手段８０４と、停止判断手段８０５と、クラスタ記憶手段８０６とから構成される。

図６に示す音声分類装置は、次のように動作する。まず、初期化手段８０２は、発話記憶手段８０１に蓄積された発話データ（有限の長さに切り出された音声信号）を一括読み出しし、発話データ数と同数のクラスタを定義して、１クラスタに１発話が属するような分類の初期状態を設定する。具体的には、各々の発話データに対してユニークなクラスタＩＤを付与し、同じクラスタＩＤが付与された発話データを用いてクラスタごとの統計量（平均、分散、および十分統計量等）を計算し、その結果をクラスタ記憶手段８０６に記憶する。

次に、クラスタ間距離計算手段８０３は、クラスタ記憶手段８０６に記憶されたクラスタごとの統計量に基づいて任意の２クラス間の距離（相違度）を算出する。そして、クラスタ対統合手段８０４は、クラスタ間距離計算手段８０３によって算出された距離が最小となるクラスタ対を選択し、そのクラスタ対を統合する。ここでは、統合させるクラスタ対のいずれか一方のクラスタＩＤを他方のクラスタに属する全発話データに付与し、そのクラスタＩＤが付与された発話データ群を用いて統合させたクラスタの統計量を再計算し、クラスタ記憶手段８０６に記憶する。

停止判断手段８０５は、現時点における分類状態の適切性（すなわち、さらにクラスタを統合させるか否か）を統計量から導出される所定の規則に基づいて判断する。すなわち、現時点におけるクラスタごとの統計量から導出される所定の規則に基づいて、さらにクラスタを統合させるか否かを判定し、もうクラスタを統合させない方がよい（現時点の分類状態は適切である）と判定した場合には、現時点での分類の状態を最終的な分類結果として出力する。一方、さらにクラスタを統合させた方がよい（現時点の分類状態は適切でない）と判定した場合には、現時点における分類状態から、再度クラスタ間距離計算手段８０３、およびクラスタ対統合手段８０４が、それぞれ上述した動作を繰り返す。

なお、このような分類方法は、「最短距離法」と呼ばれる。また発話データ（音声信号）のデータ形式としては、話者や環境を反映した特徴量から構成される特徴ベクトルの時系列、例えば、音声認識システムでよく使用されるメルケプストラム係数（ＭＦＣＣ）等が用いられている。

また、音声分類方法の別の関連技術として非特許文献２の記載が参照される。図７は、非特許文献２に記載されている音声分類方法を適用した音声分類装置の構成例を示すブロック図である。図７に示す音声分類装置は、発話入力手段９０１と、発話−クラスタ間距離計算手段９０２と、クラスタ数決定手段９０３と、発話−クラスタ統合手段９０４と、クラスタ記憶手段９０５とから構成される。

図７に示す音声分類装置は、次のように動作する。まず、発話入力手段９０１は、順次入力される発話を受け取り、発話−クラスタ間距離計算手段９０２に順次渡す。発話−クラスタ間距離計算手段９０２は、１発話データを受け取ると、その統計量（平均、分散、および十分統計量等）を計算し、またクラスタ記憶手段９０５にすでに記憶されている各クラスタの統計量を参照して、１発話データと各クラスタとの間の距離（相違度）を算出する。クラスタ数決定手段９０３は、入力された１発話データと各クラスタとの間の距離が最小となるクラスタを選択して、距離値が所定のしきい値よりも大きければクラスタ数をＮ＋１とし、そうでなればクラスタ数はＮのままとすることを決定する。

発話−クラスタ統合手段９０４は、クラスタ数決定手段９０３が決定したクラスタ数がＮ＋１であれば、入力された１発話データを構成要素とする新しいクラスタを作成し、その統計量をクラスタ記憶手段９０５に記憶する。一方、クラスタ数がＮのままであれば、入力された１発話データをクラスタ数決定手段９０３が選択した距離が最小となるクラスタに統合し、このクラスタの統計量を再計算して、クラスタ記憶手段９０５に記憶する。

なお、本例における音声分類装置では、発話データがまったく入力されていない段階、すなわちクラスタ記憶手段９０５にクラスタが１つもない段階（Ｎ＝０）では、発話−クラスタ間距離計算手段９０２は特に処理をせず、クラスタ数決定手段９０３はクラスタ数をＮ＋１（すなわち１）とすることを決定する。そして、発話−クラスタ統合手段９０４が入力された１発話データを構成要素とする新しいクラスタを作成し、クラスタ記憶手段９０５に記憶する。

また、特許文献１には、複数のＮ人の話者の音声波形データから複数Ｋ個のクラスタを生成し、生成した複数Ｋ個のクラスタに属する話者の音声波形データに基づいて、複数Ｋ個のクラスタに対応するＫ個のＨＭＭ（隠れマルコフモデル）を生成する話者クラスタリング処理装置が記載されている。なお、音声分類は、その生成されたＫ個のＨＭＭから話者クラスタの特徴量を比較して最も近い話者クラスタの特徴量を有するＨＭＭを選択し、選択したＨＭＭを用いて音声認識を行うことによって行われる。

特開平１１−１７５０９０号公報（段落００１２，００２６−００３７） S.S.Chen, E.Eide, M.J.F.Gales, R.A.Gopinath, D.Kanvesky, and P. Olsen, "Automatic Transcription of Broadcast News", Speech Communication, 2002, Vol.37, pp.69-87 D.Liu and F.Kubala, "OnLine speaker clustering", Proc. International Conference on Acoustics, Speech, and Signal Processing(ICASSP), 2004, Vol.1, pp.333-386

以上の特許文献１及び非特許文献１、２の開示事項は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。
第１の問題点は、リアルタイム性が要求される用途に適さないということである。その理由は、非特許文献１のような最小距離法による分類では、まず最初に距離最小の発話対を見出すために、その分類対象となる全発話データを取得し、任意の２発話データ間の距離を計算しなければならないからである。すなわち、１発話データが入力される度にこのような任意の２発話データ間の距離を計算する方法では、とてもオンライン処理として動作させることはできず、予め決められた発話データに対するオフライン処理（事前処理）にしか適さない方法であると言える。

第２の問題点は、大量の発話を扱う場合に、メモリ使用量や処理時間が膨大化するということである。その理由は、非特許文献１のような最小距離法による分類では、分類対象となる全発話データから、任意の２発話データ間の距離を計算して保持する必要があり、従って発話数の２乗に比例するメモリ領域と計算時間が必要となるからである。

第３の問題点は、貪欲的かつ決定論的な分類を行っているため、分類誤りが生じやすく、またその誤りが後の分類に悪影響を及ぼしやすいということである。その理由は、非特許文献１や非特許文献２に記載されている方法では、段階的に、その時点でもっとも近いクラスタ対、あるいはもっとも近い発話データとクラスタとを統合するという貪欲探索戦略を採っており、発話データの集合全体を俯瞰して最適な分類を見出すことができないからである。

第４の問題点は、オンラインで順次入力される発話を分類する場合に、ある時点での分類結果をそれ以前の分類結果に反映させる簡単な手段がないということである。その理由は、非特許文献２に記載されている方法では、先にも述べた通り決定論的な分類を行っており、その分類結果を後に修正する機構を持たないためである。仮に非特許文献２に記載されている方法で過去の分類結果を修正しようとすると、非特許文献１に記載されている方法と殆ど同じ方法となると考えられ、オンライン動作で行うには適さなくなる。

第５の問題点は、発話データの詳細な構造を考慮した正確な分類ができないということである。その理由は、非特許文献１や非特許文献２に記載されている方法では、発話データの各クラスタへの分布に単一正規分布を仮定し、特徴ベクトルの平均や分散のような単純な統計量でクラスタを表現しているためである。発話データの分布にこのような単純なモデルを仮定したのでは、小単位（例えば、母音や子音といった音素）のレベルでの詳細な分布構造を扱うことができず、分類精度におのずと限界が生じる。

なお、特許文献１に記載されている話者クラスタリング処理装置の場合、複数Ｋ個のクラスタを生成する処理は事前処理であるため、順次入力される発話データに応じて最適なクラスタを生成するといったクラスタリング処理自体をオンライン処理として動作させようといったことは全く考慮されていない。

そこで、本発明の目的は、オンライン動作が可能で、リアルタイム性が要求される用途に使用できる音声分類装置、音声分類方法、および音声分類用プログラムを提供することにある。

また、本発明は、多数の発話を扱わなければならない状況でも現実的なメモリ使用量や処理時間で各発話を分類できるようにすることを目的とする。また、本発明は、各発話を分類する際に、分類誤りを低く抑えることができるようにすることを目的とする。また、本発明は、オンラインで順次入力される発話を分類する際に、過去の分類結果を検証し分類誤りを修正できるようにすることを目的とする。また、本発明は、音声の詳細な構造を考慮して、発話をより正確に分類できるようにすることを目的とする。

本発明による音声分類装置においては、音声信号を音声の類似性に基づきクラスタに分類する音声分類装置であって、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算する発話分類確率計算手段と、発話分類確率計算手段が計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定するパラメータ更新手段とを備え、発話分類確率計算手段は、パラメータ更新手段によって逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算する。

本発明による音声分類方法においては、音声信号を音声の類似性に基づきクラスタに分類するための音声分類方法であって、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算し、確率を用いて、逐次、確率モデルを規定するパラメータを推定し、逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する。

本発明による音声分類用プログラムにおいては、音声信号を音声の類似性に基づきクラスタに分類するための音声分類用プログラムであって、コンピュータに、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算する確率計算処理、および確率計算処理で計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定するパラメータ更新処理を実行させ、確率計算処理で、逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算させる。

本発明によれば、オンライン動作が可能で、リアルタイム性が要求される用途に使用できる。

第１の実施例による音声分類装置の構成例を示すブロック図である。第１の実施例による音声分類装置の動作例を示すフローチャートである。話者データ記憶手段１０２に記憶される話者データのデータ構造の一例を示す説明図である。生成モデルのグラフ構造を示す説明図である。第２の実施例による音声分類装置の構成例を示すブロック図である。最短距離法を用いた音声分類装置の構成例を示すブロック図である。最短距離法を用いた音声分類装置の他の構成例を示すブロック図である。

符号の説明

１０１発話入力手段
１０２話者データ記憶手段
１０３発話分類確率計算手段
１０４新規話者登録手段
１０５更新対象発話選択手段
１０６発話分類確率更新手段
１０７パラメータ更新手段
１０８パラメータ記憶手段
１０９発話分類確率記憶手段
１１０クラスタ数決定手段
５１入力装置
５２音声分類用プログラム
５３データ処理装置
５４記憶装置
５４１話者データ記憶部
５４２パラメータ記憶部
５４３発話分類確率記憶部

本発明の実施の形態について説明する。本発明によれば、１つの態様において、音声信号を音声の類似性に基づきクラスタに分類する音声分類装置が提供される。この音声分類装置は、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算する発話分類確率計算手段（例えば、発話分類確率計算手段１０３）と、発話分類確率計算手段が計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定するパラメータ更新手段（例えば、パラメータ更新手段１０７）とを備え、発話分類確率計算手段は、パラメータ更新手段によって逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算する。かかる構成により、本発明の音声分類装置は、オンライン動作が可能であり、リアルタイム性が要求される用途にも利用可能である。また、本発明は、多数の発話を扱わなければならない状況でも現実的なメモリ使用量や処理時間で各発話を分類可能とし、さらに、各発話を分類する際に、分類誤りを低く抑えることを可能としている。そして、オンラインで順次入力される発話を分類する際に、過去の分類結果を検証し分類誤りを修正できるようにすることを目的とする。また、本発明は、音声の詳細な構造を考慮して、発話をより正確に分類できるようにしている。

本発明に係る音声分類装置は、別の態様において、過去の所定回以内に入力された音声信号について、パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、音声信号が各クラスタに属する確率を再計算する発話分類確率更新手段（例えば、発話分類確率更新手段１０６）を備え、パラメータ更新手段は、発話分類確率更新手段が計算した各確率を用いて、確率モデルを規定するパラメータを推定してもよい。

また、本発明に係る音声分類装置は、さらに別の態様において、入力された音声信号がいずれのクラスタにも属さない場合を仮定して、音声信号が属する新規クラスタを規定した確率モデルを作成する新規クラスタ登録手段（例えば、新規話者登録手段１０４）と、新規クラスタ登録手段によって作成された確率モデルを用いた計算結果に基づくパラメータ更新手段によるパラメータの推定結果から、新規クラスタを追加するか否かを決定するクラスタ数決定手段（例えば、クラスタ数決定手段１１０）とを備えていてもよい。

本発明に係る音声分類装置において、確率モデルが、状態とクラスタとを１対１に対応させた隠れマルコフモデルであってもよい。

本発明に係る音声分類装置において、確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルであってもよい。

本発明に係る音声分類装置は、さらに別の態様において、過去の所定回以内に入力された音声信号について、パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、音声信号が各クラスタに属する確率を再計算する発話分類確率更新手段（例えば、発話分類確率更新手段１０６）を備えた音声分類装置であって、過去の所定回以内に入力された音声信号の各々に対して、発話分類確率更新手段に各クラスタに属する確率を再計算させることの要否を判定する更新対象発話選択手段（例えば、更新対象発話選択手段１０５）を備えていてもよい。

本発明に係る音声分類装置において、更新対象発話選択手段は、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について再計算させることの要否を判定してもよい。

本発明に係る音声分類装置において、新規クラスタ登録手段は、属すべきクラスタが既知の音声信号が予め用意されている場合に、音声信号が属すべきクラスタを規定した確率モデルを作成してもよい。

また、本発明による音声分類方法は、音声信号を音声の類似性に基づきクラスタに分類するための音声分類方法であって、
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算し、
確率を用いて、逐次、確率モデルを規定するパラメータを推定し、
逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する、
上記工程を含む。

本発明に係る音声分類方法において、過去の所定回以内に入力された音声信号について、パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、音声信号が各クラスタに属する確率を再計算し、再計算した各確率を用いて、確率モデルを規定するパラメータを推定してもよい。

本発明に係る音声分類方法において、入力された音声信号がいずれのクラスタにも属さない場合を仮定して、音声信号が属する新規クラスタを規定した確率モデルを作成し、作成された確率モデルを用いた計算結果に基づくパラメータ更新手段によるパラメータの推定結果から、新規クラスタを追加するか否かを決定してもよい。

本発明に係る音声分類方法において、確率モデルが、状態とクラスタとを１対１に対応させた隠れマルコフモデルであってもよい。

本発明に係る音声分類方法において、確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルであってもよい。

本発明に係る音声分類方法において、過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定してもよい。

本発明に係る音声分類方法において、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について再計算させることの要否を判定してもよい。

本発明に係る音声分類方法において、属すべきクラスタが既知の音声信号が予め用意されている場合に、音声信号が属すべきクラスタを規定した確率モデルを作成してもよい。

また、本発明による音声分類用プログラムは、音声信号を音声の類似性に基づきクラスタに分類するための音声分類用プログラムであって、コンピュータに、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算する確率計算処理、および確率計算処理で計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定するパラメータ更新処理を実行させ、確率計算処理で、逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算させる。

本発明に係る音声分類用プログラムにおいて、コンピュータに、過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、音声信号が各クラスタに属する確率を再計算する確率再計算処理を実行させ、パラメータ更新処理で、確率再計算処理で計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定させてもよい。

本発明に係る音声分類用プログラムにおいて、コンピュータに、入力された音声信号がいずれのクラスタにも属さない場合を仮定して、音声信号が属する新規クラスタを規定した確率モデルを作成する処理、および新規クラスタが規定された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する処理を実行させてもよい。

本発明に係る音声分類用プログラムにおいて、確率モデルが、状態とクラスタとを１対１に対応させた隠れマルコフモデルであってもよい。

本発明に係る音声分類用プログラムにおいて、確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルであってもよい。

本発明に係る音声分類用プログラムにおいて、コンピュータに、過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する判定処理を実行させてもよい。

本発明に係る音声分類用プログラムにおいて、判定処理で、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について再計算させることの要否を判定させてもよい。

本発明に係る音声分類用プログラムにおいて、コンピュータに、属すべきクラスタが既知の音声信号が予め用意されている場合に、音声信号が属すべきクラスタを規定した確率モデルを作成する処理を実行させてもよい。

上記態様の本発明の効果を以下に説明する。

第１の効果は、順次入力される発話データを逐次的に分類するといったオンライン動作ができることにある。その理由は、発話分類確率計算手段が発話の生成モデルを規定するパラメータに基づいて発話データを分類するとともに、パラメータ更新手段が発話データの分類結果に基づいてパラメータを逐次的に更新するためである。

第２の効果は、多数の発話データが入力されても現実的なメモリ使用量や処理時間で発話データを分類できることにある。その理由は、発話分類確率計算手段および発話分類確率更新手段が直近の所定数の発話データについてのみ分類を行い、パラメータ更新手段がその所定数の発話データに関する分類結果のみを用いてパラメータを更新するためである。

第３の効果は、探索の誤りに起因する分類誤りを低く抑えられることにある。その理由は、発話分類確率計算手段および発話分類確率更新手段が、最小距離のような局所的な基準ではなく発話の生成モデルに基づいて広域的に最適な分類結果を離散的ではなく確率的な形式で算出するためである。

第４の効果は、オンライン動作において過去の分類結果を検証して分類誤りを修正できることにある。その理由は、発話分類確率更新手段が、過去に入力され分類された所定数の発話データについて、パラメータ更新手段が求めた最新のパラメータに基づいて再分類するためである。

第５の効果は、音声の内部構造の複雑さに起因する分類誤りを低く抑えられることにある。その理由は、話者（または環境）から発せられた発話を、単一ガウス分布のような単純なモデルではなく、ガウス混合分布のような複雑なモデルでモデル化することにより、音素のような詳細なレベルでの話者（または環境）の違いを表現できるためである。

以下、本実施例について図面を参照して説明する。図１は、第１の実施例による音声分類装置の構成例を示すブロック図である。図１に示す音声分類装置は、発話入力手段１０１と、話者データ記憶手段１０２と、発話分類確率計算手段１０３と、新規話者登録手段１０４と、更新対象発話選択手段１０５と、発話分類確率更新手段１０６と、パラメータ更新手段１０７と、パラメータ記憶手段１０８と、発話分類確率記憶手段１０９と、クラスタ数決定手段１１０とを備える。

なお、本実施例では、声の類似性に基づいて発話を話者ごとに分類するための音声分類装置を例に示すが、本発明は、話者の分類のみならず、同じ話者の音声でも背景に重畳する雑音の類似性に基づいて分類したり、使用する回線や音響機器（ボーカルマイクや携帯電話機等）の類似性に基づいて分類するというように、音声信号をその音声信号が有する何らかの特徴量の類似性に基づいて分類する用途に適用可能である。

発話入力手段１０１は、発話データを入力する。ここで、発話データとは、有限の長さに切り出された音声信号であって、本音声分類装置に入力される音声信号の入力単位となるデータである。なお、発話データは、必ずしも同じ長さに切り出された音声信号でなくてもよい。また、発話入力手段１０１は、外部から入力される発話データを受け取った際に、図示しない音響分析手段を用いて分類に必要な特徴量を抽出してもよい。特徴量は、例えば、パワーやメルケプストラム係数（ＭＦＣＣ）、およびそれらの変化率といった特徴パラメータを特徴ベクトルの時系列のような形式で抽出すればよい。個々の特徴ベクトルは一般にフレームと呼ばれている。なお、特徴量は、元の音声信号（発話データ）そのものであってもよい。尚、発話入力手段１０１は、連続的に音声信号が入力されるような場合には、所定の条件（音量や時間）に従って区切ることにより、入力される音声信号を発話データに分割する機能を有していてもよい。

話者データ記憶手段１０２は、既知の話者の発話データが事前に取得可能な場合に、それら発話データを話者毎に対応づけた話者データとして記憶する。話者データ記憶手段１０２は、例えば、話者毎に割り振られたユニークなＩＤ（以下、話者ＩＤという。）と、その話者の発話データ（またはその特徴量）とを対応づけて記憶する。なお、同じ話者でも異なる環境における発話を異なる発話として分類する場合には、話者データ記憶手段１０２は、既知の話者および環境の組み合わせ毎に、発話データを記憶しておけばよい。すなわち、話者データ記憶手段１０２は、予めどのクラスタに分類されるかが既知である発話データ（またはその特徴量）と、そのクラスタを識別するためのユニークなクラスタＩＤとを対応づけて記憶しておけばよい。

ここで、クラスタとはデータ解析手法の１つであるクラスタリング分析におけるクラスタをいい、具体的には、複数のデータ（ここでは、複数の発話データ）をその特徴の類似性に基づいて部分集合に分類した際の各部分集合をいう。

発話分類確率計算手段１０３は、逐次入力される発話データに対し、パラメータ記憶手段１０８に記憶されているパラメータ値に基づいて、その発話データがいずれのクラスタに属するかを確率の形で計算することによって、逐次的に発話データを分類する。発話分類確率計算手段１０３は、具体的には、パラメータ記憶手段１０８に記憶されている現在のパラメータ値によって規定される、発話データの分布を仮定した確率モデルである生成モデルを用いて、入力された発話データが各クラスタに属する確率をそれぞれ求めることによって、その発話データがどのクラスタに属するかを求める。一般に、生成モデルとは、観測されたデータの背景に存在すると考えられるデータ生成の機構を数理的に説明するモデルであって、特にここでは、ある音声信号（発話データ）がどのクラスタに属するかを確率的に求めるための計算式または計算条件を規定するもの（情報）である。具体的には、ある発話データが各クラスタに属する確率を求めるための計算式または計算条件を示す情報である。なお、生成モデルの具体例については後述する。

新規話者登録手段１０４は、新規の話者から発せられた発話が入力された場合を想定して新規クラスタを登録する。新規話者登録手段１０４は、入力された発話データが既存のいずれのクラスタにも属さない場合を想定して、新規クラスタの追加に対応した確率モデルを作成する。なお、新規クラスタを確定させるか否かはクラスタ数決定手段１１０によって決定される。また、新規話者登録手段１０４は、話者データ記憶手段１０２に話者データ（既知の話者毎の発話データ）が登録されている場合に、１話者につき１クラスタとして、話者データで示される話者毎の発話データから生成モデルのパラメータを推定し、パラメータ記憶手段１０８に記憶する。

更新対象発話選択手段１０５は、過去に入力された所定数の各発話データが再分類によって異なるクラスタに移る可能性がいかほどか、すなわち再分類の計算が省略可能か否かを判定し、その結果を発話分類確率更新手段１０６に通知する。すなわち、発話分類確率更新手段１０６に再分類させる対象とする発話データを選択する。

発話分類確率更新手段１０６は、パラメータ記憶手段１０８に記憶されているパラメータ値を用いて、過去に入力された発話データについて、各々いずれのクラスタに属するかを確率の形で計算することによって、過去に分類された発話データを再分類する。なお、発話分類確率更新手段１０６は、更新対象発話選択手段１０５によって選択された発話データについてのみ再分類を行えばよい。

パラメータ更新手段１０７は、入力済みの発話データの分布を仮定した生成モデルを規定するモデルパラメータを逐次更新する。パラメータ更新手段１０７は、発話分類確率計算手段１０３および発話分類確率更新手段１０６による分類結果に基づき、現時点でのクラスタ数およびその近辺のいくつかのクラスタ数を想定した上で、それぞれのクラスタ数について、生成モデルを簡便に算出するために必要な十分統計量を算出し、さらに生成モデルのパラメータ値を推定する。

パラメータ記憶手段１０８は、現時点におけるクラスタ数に対応する生成モデルのパラメータ値および十分統計量を記憶する。なお、パラメータ記憶手段１０８にクラスタ数も記憶するようにしてもよい。

発話分類確率記憶手段１０９は、発話分類確率計算手段１０３および発話分類確率更新手段１０６による分類結果（具体的には、各クラスタへの分類確率）を記憶する。発話分類確率記憶手段１０９は、発話分類確率計算手段１０３によって算出された新規の分類結果を記憶し、また、発話分類確率更新手段１０６によって算出された再分類の分類結果を、それまでの分類結果に上書きする。発話分類確率記憶手段１０９は、新規話者登録手段１０４によって登録される新規クラスタを含んだ場合における分類結果も合わせて記憶するようにしてもよい。

クラスタ数決定手段１１０は、入力済みの発話データに対して最適なクラスタ数（ここでは、話者数）を推定する。クラスタ数決定手段１１０は、パラメータ更新手段１０７が想定したいくつかのクラスタ数について、パラメータ更新手段１０７による生成モデルのパラメータ値の推定結果から最適なクラスタ数を決定する。また、クラスタ数決定手段１１０は、決定したクラスタ数に対応する十分統計量およびパラメータ値をパラメータ記憶手段１０８に記憶させる。

次に、本実施例の動作について説明する。図２は、本実施例による音声分類装置の動作例を示すフローチャートである。図２に示すように、音声分類装置は、始めにパラメータ記憶手段１０８および発話分類確率記憶手段１０９におけるそれぞれの記憶領域を初期化し、クラスタ数Ｎを０にセットする（ステップＡ１）。次に、新規話者登録手段１０４は、話者データ記憶手段１０２に話者データ（話者と対応づけられた発話データ）が記憶されているか否かを確認し（ステップＡ２）、記憶されている場合には、１話者分の発話データにつき１クラスタとして、その話者の発話データから得られる特徴量に対応させた新規クラスタを登録する（ステップＡ３）。新規話者登録手段１０４は、１話者毎にクラスタ数Ｎを１増やすとともに、話者毎の発話データに基づき、各話者の発話データがその話者に対応するクラスタに属するような生成モデルを作成する。具体的には、生成モデルにおける新規クラスタを規定し、新規クラスタに対応させた話者の発話データから十分統計量を求めてその話者の発話データが新規クラスタに属するようなパラメータ値を推定することによって、クラスタ数＝話者数となる生成モデルを作成する（確定させる）。そして、十分統計量とともに推定したパラメータの値をパラメータ記憶手段１０８に記憶させる。

図３は、話者データ記憶手段１０２に記憶される話者データのデータ構造の一例を示す説明図である。図３に示すように、話者データ記憶手段１０２には、例えば、既知の話者毎に割り当てられた話者ＩＤとその話者の発話データ（またはその特徴量）と発話数とを対応づけて記憶しておけばよい。ここで、Ｘ_ｉ，ｊは、話者ＩＤがｉの話者がｊ番目に発話した際の発話データを意味している。Ｘ_ｉ，ｊ＝（ｘ_{ｉ，ｊ，１}，ｘ_{ｉ，ｊ，２}，・・・，ｘ_{ｉ，ｊ，Ｔ}）のような特徴ベクトルｘ_{ｉ，ｊ，ｔ}の時系列である。なお、生成モデルのパラメータと十分統計量については後述する。

次に、発話入力手段１０１は、入力される発話データを順次受け取り、音響分析手段により特徴ベクトル系列に変換する。以後は、入力される発話データがなくなった時点で終了となる（ステップＡ４）。発話データが入力された際に、クラスタ数Ｎが０であった場合には（ステップＡ５のＮｏ）、新規話者登録手段１０４が、その発話データに対し新規クラスタを登録する（ステップＡ６）。すなわち、話者データ記憶手段１０２に一切データが登録されておらず、発話入力手段１０１に最初の発話データが入力されたときには、その最初の発話データは新規話者登録手段１０４に送られる。新規話者登録手段１０４は、クラスタ数Ｎ＝１とし、ステップＡ３と同様の処理により、入力された発話データから十分統計量を求めて、その発話データが新規クラスタに属するようなパラメータ値を推定することによって、クラスタ数をＮ＝１とする生成モデルを作成する。そして、十分統計量とともに推定したパラメータの値をパラメータ記憶手段１０８に記憶させる。

クラスタ数Ｎが１以上であった場合には（ステップＡ５のＹｅｓ）、発話分類確率計算手段１０３が、パラメータ記憶手段１０８に記憶されている生成モデルのパラメータおよび十分統計量を読み出し（ステップＡ７）、入力された発話データ（１発話データ）がどのクラスタに属するかを確率の形式で計算する（ステップＡ８）。

ここで、本実施例で使用する生成モデルについて説明する。本実施例では、図４に示すようなグラフ構造を備えた隠れマルコフモデル（ＨＭＭ）と呼ばれる確率モデルを使用する。図４は、本実施例における生成モデルのグラフ構造を示す説明図である。グラフの中央部分に縦に並んだノードは状態と呼ばれ、本実施例では１状態が１クラスタに該当する。このモデルでは、まず左端の初期状態から中央部分のいずれかの状態に遷移し、その状態で幾度かの自己遷移を繰り返し、最後に右端の終状態に遷移して動作を終了する。中央の状態では、自己遷移を含めて遷移を１回行うたびに、所定の確率分布（例えば、ガウス混合分布）に従って特徴ベクトルｘが１つ出力される。

上述したモデル（ＨＭＭ）におけるパラメータは、π_ｉ，ａ_ｉ，ｂ_ｉｊ，μ_ｉｊ，Σ_ｉｊ（ｉ＝１，・・・，Ｎ；ｊ＝１，・・・，Ｍ）である。ここに、ＮはＨＭＭの状態数であり、本実施例におけるクラスタ数と一致する。また、Ｍはガウス混合分布の混合数であって、例えば音素の数とすればよい。なお、音素の数のままでは混合数が大きすぎる場合には、分布構造が似ている音素がまとめるような音素の種類の数としてもよい。例えば、母音と子音の数にまとめてもよいし、母音と破裂音や摩擦音や鼻音といった子音の種類の数にまとめてもよい。なお、本実施例において、混合数は状態によらず一律とするが、状態毎に異なる混合数を設定することも可能である。

π_ｉは初期状態から状態ｉに遷移する確率、すなわちクラスタｉに属する発話データが出現する確率である。ａ_ｉは状態ｉから終状態に遷移する確率であって、１発話データの平均継続フレーム数に相当する。ｂ_ｉｊは状態ｉから出力される特徴ベクトルの分布（すなわち、混合ガウス分布）における第ｊガウス分布に関する重み係数である。μ_ｉｊ，Σ_ｉｊは同じく第ｊガウス分布に関する平均ベクトル、分散共分散行列をそれぞれ表す。ｆ（ｘ｜μ，Σ）は平均ベクトルμ、分散共分散行列Σのガウス分布（正規分布）である。一般に上記パラメータはｎ個の特徴ベクトル系列（すなわちｎ個の発話データ）から推定することができる。推定方法は、最尤推定や事後確率最大（ＭＡＰ）推定、ベイズ推定等が考えられるが、例えば最尤推定の場合は、期待値最大化（ＥＭ）法と呼ばれる以下の数（１），数（２）および数（３）の反復解法でパラメータ推定が可能である。

ここに、Ｔ_ｋはｋ番目の発話データの継続フレーム数、ｘ_ｋｔはｋ番目に入力された発話データの第ｔフレームの特徴ベクトルである。特に、数（１）における第１式のγ_ｋｉは、ｋ番目に入力された発話データが状態ｉに属する確率、すなわちｋ番目の発話データがクラスタｉに属する確率を意味している。なお、数（１）、数（３）をそれぞれＥＭ法におけるＥステップ、Ｍステップと呼ぶ。また、数（２）の各量は本実施例で使用するモデルに関する十分統計量である。

ただし、上記数（１）〜（３）の反復解法はオフライン処理（バッチ処理）であり、本発明の目的とするところではない。本実施例では、最初の発話データＸ_１から最新の発話データＸ_ｎまでを、Ｘ_１，・・・，Ｘ_ｎ−δとＸ_{ｎ−δ＋１}，・・・，Ｘ_ｎに分けて扱い、以下の数（４）および数（５）と上記数（３）とを用いた反復解法を実行することによってオンライン処理を可能にする。

数（４）については、計算式そのものは数（１）と同一だが、計算の範囲が最近入力されたδ個の発話データ（ｋ＝ｎ−δ＋１，・・・，ｎ）に限れられている点が異なる。数（５）については、十分統計量を３項の和として算出している。ここに第１項は話者データ記憶手段１０２に蓄積された既知の話者の発話データから算出される十分統計量であって、以降入力される発話データが増えても更新する必要のない定数である。第２項は、最近のδ個の発話データよりも古い発話データに関する十分統計量であって、数（４）による更新を受けない量である。ただし１つの発話データが入力される毎にｎ−δ＋１番目の発話データに関する項（１つ前の発話データＸ_ｎ−１の入力時に計算済み）が加算される。第３項は、数（４）の結果を用いて逐次更新される量である。

上述したパラメータ推定法は一般化ＥＭ（ＧＥＭ法）の一つの実現形態であり、最尤推定の目的である尤度最大化を、少なくとも尤度の単調非減少という形で補償することが数学的に証明できる。

なお、ＭＡＰ推定については、パラメータの事前分布に関するパラメータ、すなわち超パラメータを予め設定することによって、上記数（１），数（２）および数（３）と類似の反復解法に基づくパラメータ再推定式が導出できる。また、ベイズ推定についても、事前分布に関する超パラメータを予め設定することによって、上記数（１），数（２）および数（３）と類似の、事後分布の超パラメータ再推定式が導出できる。なお、導出の詳細は、文献「H.Attias, "Inferring parameters and structure of latent variable models by variational Bayes.", Proc. 15th Conf. on Uncertainty in Artificial Intelligence, 1999」に開示されている。

さて、発話分類確率計算手段１０３は、ステップＡ８において、最新の発話データ（ｋ＝ｎ）について上記数（４）による計算を行い、その発話データがクラスタｉ（ｉ＝１〜Ｎ）に属する確率γ_ｋｉを求め、その結果を発話分類確率記憶手段１０９に記憶させる。また、発話分類確率更新手段１０６はステップＡ９において、最新の発話（ｋ＝ｎ）以外のδ−１個の発話データについて上記数（４）による計算を行い、それらの発話データ（最新以外のδ−１個の発話データ）がそれぞれクラスタｉに属する確率γ_ｋｉ（ｋ＝ｎ−δ＋１，・・・，ｎ−１）を求め、その結果を発話分類確率記憶手段１０９に反映（上書き）する。ただし、この計算に先立ち、更新対象発話選択手段１０５が再計算の要否を判定し、発話分類確率更新手段１０６は、更新対象発話選択手段１０５が再計算の必要ありと判断した発話データについてのみ再計算を行うものとする。

更新対象発話選択手段１０５が再計算の要否を判定する際の指標としては、例えば、γ_ｋｉ×ｌｏｇγ_ｋｉと定義することができる。これは、発話データがクラスタに属する確率のエントロピーを符号反転させたものであるが、その発話データが特定のクラスタに帰属する確率が高ければ値が大きくなり、逆に多くのクラスタについて確率が一様であれば値が低くなる。すなわち、発話データが、クラスタの中心付近に位置する場合には上記指標の値が高くなり、複数のクラスタの境界付近に位置する場合は値が低くなる。よってこの指標が所定のしきい値よりも低い発話データ、すなわち帰属するクラスタが未確定な発話データのみについて計算を行うことにより、効率的に再分類を行うことが可能となる。

次に、パラメータ更新手段１０７は、発話分類確率計算手段１０３および発話分類確率更新手段１０６の計算結果に基づき、数（５）および数（３）を用いてパラメータを更新する（ステップＡ１０）。ステップＡ８〜Ａ１０までの処理は適当な収束判定（ステップＡ１１）を行いつつ、複数回反復してもよい。

次に、新規話者登録手段１０４は、パラメータ記憶手段１０８に記憶されている生成モデルのパラメータおよび十分統計量を読み出し（ステップＡ１２）、ステップＡ６と同様の処理により、クラスタ数をＮ＋１に増やした場合の生成モデルを作成する（ステップＡ１３）。新規話者登録手段１０４は、例えば、入力された発話データがいずれのクラスタにも属さないことを仮定して新規クラスタを追加し、その発話データに関する十分統計量を求めて、その発話データが新規クラスタに属するようなパラメータ値を推定することによって、クラスタ数をＮ＋１に増やした場合の生成モデルを作成する。

次に、発話分類確率計算手段１０３は、ステップＡ８と同様の処理により、新規話者登録手段１０４により推定された生成モデルのパラメータおよび十分統計量を読み出し、入力された最新の発話データ（すなわち第ｎ番目の発話データ）が新規クラスタを含む各クラスタに属する確率を計算する（ステップＡ１４）。また、発話分類確率更新手段１０６が、第ｎ番目の発話データを除く直前のδ−１個の発話データについても、ステップＡ１０と同様の処理により、それらの発話データ（最新以外のδ−１個の発話データ）が新規クラスタを含む各クラスタに属する確率を再計算する（ステップＡ１５）。そして、パラメータ更新手段１０７が、発話分類確率計算手段１０３および発話分類確率更新手段１０６の計算結果に基づき、パラメータを更新する（ステップＡ１６）。なお、ステップＡ１４〜Ａ１６までの処理についても適当な収束判定（ステップＡ１７）を行って、複数回反復してもよい。

最後に、ステップＡ８〜Ａ１１までの処理で得られたクラスタ数Ｎ（入力時点のまま）のモデルと、ステップＡ１４からＡ１７までの処理で得られたクラスタ数Ｎ＋１のモデルとを比較し、入力済みの発話データをよりよく記述できているモデルを選択し、そのモデルを規定するパラメータをパラメータ記憶手段１０８に記憶させる（ステップＡ１８）。

モデルを選択する方法は、入力済みの発話データへのモデルの適合度（例えば、尤度）と、モデルの規模（例えば、モデルパラメータ数）とを勘案して総合的に決めることが望ましい。具体例としては、赤池情報量基準（ＡＩＣ）や記述長最小（ＭＤＬ）基準等よく知られているデータ解析の手法を用いればよい。例えば、各々のモデルに関してＡＩＣ値またはＭＤＬ値をその定義に基づいて計算し、ＡＩＣ値最大またはＭＤＬ値最小のモデルを選択すればよい。なお、ＭＤＬ値の計算法は、例えば、文献「韓太舜、小林欣吾著、”韓情報と符号化の数理”、岩波書店岩波講座応用数学［対象１１］、１９９４年、第８章」に開示されている方法を用いればよい。

なお、本実施例では、選択対象となるモデルはクラスタ数Ｎのモデルとクラスタ数Ｎ＋１のモデルの２種類としたが、より多くの種類のクラスタ数（例えば、Ｎ−１やＮ＋２等）から選択できるようにすることも可能である。また、各クラスタで規定されたガウス混合分布の混合数Ｍを選択対象に入れることも可能である。なお、選択候補とするクラスタ数、およびそのクラスタ数における各クラスタに属する発話データは、各発話データのそれまでに算出された各クラスタへの分類確率に基づく所定の基準に従って決定すればよい。

なお、本実施例において、話者データ記憶手段１０２は、既知の話者の発話データが存在する場合に機能するものであって、本手段がなくても本実施例は成立する。同様に、更新対象発話選択手段１０５は、発話分類確率更新手段１０６が所定数全ての発話データを対象にしてもよいため、本手段がなくても本実施例は成立する。また、発話分類確率更新手段１０６はδ＝１と設定した場合は動作しないので不要となるが、その場合においても本実施例は成立可能である。

次に、本実施例の効果について説明する。本実施例では、発話分類確率計算手段１０３がモデルパラメータによって規定される生成モデルを用いて、逐次入力される発話データを確率的に分類するとともに、パラメータ更新手段１０７が発話分類確率計算手段１０３による分類結果に基づいて逐次モデルパラメータを更新するので、現実的なメモリ使用量と処理時間で、正確に発話データを分類することができる。すなわち、順次入力される発話データに対しオンライン動作での分類が可能である。さらに、発話分類確率更新手段１０６がパラメータ更新手段１０７によって更新された最新のモデルパラメータを用いて直近の所定数の発話データについて再分類を行うので、過去の分類結果を検証して分類誤りを修正するような処理についてもオンライン動作で行うことが可能である。

また、発話データの分布の生成モデルとして、ガウス混合分布と関連づけた確率モデルである隠れマルコフモデルを仮定しているので、最小距離のような局所的な基準による分類や、正規分布と関連づけた生成モデルと比べて、分布の異なる種々の音素から成り立つ音声信号を詳細な分布構造で表現する（モデル化）することができ、結果、探索の誤りに起因する分類誤りを低く抑えることができる。

また、本実施例では、話者データ記憶手段１０２に記憶された既知話者の発話データを用いて生成モデルを作成するように構成されているため、話者データ記憶手段１０２に多くの話者の発話データを蓄積しておくことにより分類の精度を高めることができる。さらに、本実施例では、更新対象発話選択手段１０５が過去の発話の分類結果から再分類の要否を判断するように構成されているので、発話分類確率更新手段１０６が再分類の計算を効果的に行うことができ、比較的高速に分類処理を行うことができる。

また、本実施例では、新規話者登録手段１０４が新規の話者が発生したことを想定して、クラスタ数を増やした場合の生成モデルを作成し、クラスタ数決定手段１１０がクラスタ数を増やした場合の分類結果と既存のクラスタ数による分類結果とを比較してクラスタ数を決定している。このような動的なクラスタリングを行うことにより、適用範囲を不要に限定することなく、常に最適なクラスタ数における分類をオンライン処理で行うことができる。

すなわち、確率モデルに基づいて分類確率を計算してクラスタリングを行うとともに、その分類確率に基づいてモデルパラメータを更新する、というように情報（確率モデルと分類確率）を相互利用するように構成しているので、クラスタリングの処理の高速化および高精度化といった本発明の目的を達成することができる。

実施例２．
次に、本発明の第２の実施例について図面を参照して説明する。図５は、第２の実施例による音声分類装置の構成例を示すブロック図である。本実施例は、第１の実施例における各手段の動作をプログラムにより実現した場合に、そのプログラムを読み込んで動作するコンピュータの構成例である。図５に示すように、本実施例による音声分類装置は、入力装置５１と、音声分類用プログラム５２と、データ処理装置５３と、記憶装置５４とを備えたコンピュータによって実現される。

入力装置５１は、例えば、外部で発せられた音声の音声信号を入力するマイクロフォンである。なお、入力装置５１は、コンピュータが通信ネットワークに接続されている場合には、図示しない通信端末から送信される所定の条件に従って区切られた音声信号を受信する受信装置であってもよい。

音声分類用プログラム５２は、第１の実施例における発話分類確率計算手段１０３、新規話者登録手段１０４、更新対象発話選択手段１０５、発話分類確率更新手段１０６、パラメータ更新手段１０７、およびクラスタ数決定手段１１０の動作を記述したプログラムである。音声分類用プログラム５２は、ＣＰＵ等のデータ処理装置５３に読み込まれ、データ処理装置５３の動作を制御する。すなわち、データ処理装置５３は、音声分類用プログラム５２に従って動作する。

記憶装置５４は、話者データ記憶部５４１と、パラメータ記憶部５４２と、話者分類確率記憶部５４３とを含む。なお、話者データ記憶部５４１は、第１の実施例における話者データ記憶手段１０２の記憶領域に相当する。また、パラメータ記憶部５４２は、パラメータ記憶手段１０８の記憶領域に相当する。また、話者分類確率記憶部５４３は、発話分類確率記憶手段１０９の記憶領域に相当する。なお、話者データ記憶部５４１は、予め話者データが記憶されている記憶領域であるが、パラメータ記憶部５４２および話者分類確率記憶部５４３は、音声分類用プログラム５２によって割り当てられる記憶領域である。

データ処理装置５３は、音声分類用プログラム５２の制御により、話者データ記憶部５４１に記憶されたデータを読み込みながら、また、パラメータ記憶部５４２および話者分類確率記憶部５４３に必要に応じてデータを書き込んだり、それらに記憶されたデータを読み込みながら、入力装置５１から逐次入力される発話データに対し、第１の実施例における発話分類確率計算手段１０３、新規話者登録手段１０４、更新対象発話選択手段１０５、発話分類確率更新手段１０６、パラメータ更新手段１０７、およびクラスタ数決定手段１１０による処理と同一の処理を実行する。

本発明は、話者や環境ごとに音響モデルを適応化させて高精度な音声認識を行う音声認識装置全般に適用可能である。また、音声信号から話者等を検索する検索装置にも適用できる。例えば、長時間の音声をテキスト化したり発言者のラベルを付与したりする書き起こし支援システム（議事録作成システム）における発言者検索装置や、大量の映像や音声データにテキストや話者のインデックスを自動的に付与して検索の手がかりに用いるような映像・音声検索システムに適用することが可能である。

以上本発明を上記実施例に即して説明したが、本発明は、上記実施例にのみ限定されるものではなく、本願特許請求の範囲の各請求項の発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。

Claims

音声信号を音声の類似性に基づきクラスタに分類する音声分類装置であって、
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算する発話分類確率計算手段と、
前記発話分類確率計算手段が計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定するパラメータ更新手段と、を備え、
前記発話分類確率計算手段は、前記パラメータ更新手段によって逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算する
ことを特徴とする音声分類装置。
過去の所定回以内に入力された音声信号について、前記パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算する発話分類確率更新手段を備え、
前記パラメータ更新手段は、前記発話分類確率更新手段が計算した各確率を用いて、前記確率モデルを規定するパラメータを推定する
請求項１に記載の音声分類装置。
入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成する新規クラスタ登録手段と、
前記新規クラスタ登録手段によって作成された確率モデルを用いた計算結果に基づく前記パラメータ更新手段によるパラメータの推定結果から、新規クラスタを追加するか否かを決定するクラスタ数決定手段とを備えた
請求項１または請求項２に記載の音声分類装置。
前記確率モデルが、状態とクラスタとを１対１に対応させた隠れマルコフモデルである
請求項１から請求項３のうちのいずれか１項に記載の音声分類装置。
前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
請求項４に記載の音声分類装置。
過去の所定回以内に入力された音声信号の各々に対して、前記発話分類確率更新手段に各クラスタに属する確率を再計算させることの要否を判定する更新対象発話選択手段を備えた請求項２から請求項５のうちのいずれか１項に記載の音声分類装置。
前記更新対象発話選択手段は、要否判定時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否を判定する
請求項６に記載の音声分類装置。
前記新規クラスタ登録手段は、属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する
請求項３に記載の音声分類装置。
音声信号を音声の類似性に基づきクラスタに分類するための音声分類方法であって、
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算し、
前記確率を用いて、逐次、前記確率モデルを規定するパラメータを推定し、
前記逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する
ことを特徴とする音声分類方法。
過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算し、
前記再計算した各確率を用いて、前記確率モデルを規定するパラメータを推定する
請求項９に記載の音声分類方法。
入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成し、
前記作成された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する
請求項９または請求項１０に記載の音声分類方法。
前記確率モデルが、状態とクラスタとを１対１に対応させた隠れマルコフモデルである
請求項９から請求項１１のうちのいずれか１項に記載の音声分類方法。
前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
請求項１２に記載の音声分類方法。
過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する
請求項１０から請求項１３のうちのいずれか１項に記載の音声分類方法。
要否判定時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否を判定する
請求項１４に記載の音声分類方法。
属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する
請求項１０から請求項１５のうちのいずれか１項に記載の音声分類方法。
音声信号を音声の類似性に基づきクラスタに分類するための音声分類用プログラムであって、
コンピュータに、
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された１つの音声信号について、各クラスタに属する確率を計算する確率計算処理、および
前記確率計算処理で計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定するパラメータ更新処理を実行させ、
前記確率計算処理で、前記逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算させる
ための音声分類用プログラム。
前記コンピュータに、
過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算する確率再計算処理を実行させ、
パラメータ更新処理で、前記確率再計算処理で計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定させる
請求項１７に記載の音声分類用プログラム。
前記コンピュータに、
入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成する処理、および
前記新規クラスタが規定された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する処理を実行させる
請求項１７または請求項１８に記載の音声分類用プログラム。
前記確率モデルが、状態とクラスタとを１対１に対応させた隠れマルコフモデルである
請求項１７から請求項１９のうちのいずれか１項に記載の音声分類用プログラム。
前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
請求項２０に記載の音声分類用プログラム。
前記コンピュータに、
過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する判定処理を実行させる
請求項１８に記載の音声分類用プログラム。
前記コンピュータに
前記判定処理で、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否の判定を実行させる
請求項２２に記載の音声分類用プログラム。
前記コンピュータに、
属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する処理を実行させる
請求項１７から請求項２３のうちのいずれか１項に記載の音声分類用プログラム。
最新の発話データについて、パラメータ記憶手段に記憶されているパラメータ値によって規定される、発話データの分布を仮定した確率モデルである生成モデルを用いて、前記発話データが各クラスタに属する確率をそれぞれ求め発話分類確率記憶手段に記憶させる発話分類確率計算手段と、
発話データがクラスタに属する確率のエントロピーを符号反転させた値を指標とし、前記指標と所定のしきい値との大小関係に応じて、前記発話データについて各クラスタに属する確率の再計算の必要有り無しを判定する更新対象発話選択手段と、
最新発話データ以外の所定個の発話データのうち、前記更新対象発話選択手段で再計算の必要ありと判断された発話データについてそれぞれ各クラスタに属する確率を求め、前記発話分類確率記憶手段を更新する発話分類確率更新手段と、
前記発話分類確率計算手段および前記発話分類確率更新手段での計算結果に基づき、現時点でのクラスタ数および該クラスタ数近辺のいくつかのクラスタ数を想定した上で、それぞれのクラスタ数について生成モデルを算出するために必要な十分統計量を算出し、生成モデルのパラメータ値を推定し前記パラメータ記憶手段のパラメータ値を更新するパラメータ更新手段と、
を備えた音声分類システム。
前記パラメータ記憶手段に記憶されている生成モデルのパラメータおよび十分統計量を読み出し、クラスタ数を１つ増やした場合の生成モデルを作成する新規話者登録手段と、
前記パラメータ更新手段が想定したいくつかのクラスタ数について、前記パラメータ更新手段による生成モデルのパラメータ値の推定結果から、最適なクラスタ数を決定し、決定したクラスタ数に対応する十分統計量およびパラメータ値を、前記パラメータ記憶手段に記憶するクラスタ数決定手段と、
を備えた請求項２５記載の音声分類システム。