JPWO2008126627A1 - 音声分類装置、音声分類方法、および音声分類用プログラム - Google Patents

音声分類装置、音声分類方法、および音声分類用プログラム Download PDF

Info

Publication number
JPWO2008126627A1
JPWO2008126627A1 JP2009509015A JP2009509015A JPWO2008126627A1 JP WO2008126627 A1 JPWO2008126627 A1 JP WO2008126627A1 JP 2009509015 A JP2009509015 A JP 2009509015A JP 2009509015 A JP2009509015 A JP 2009509015A JP WO2008126627 A1 JPWO2008126627 A1 JP WO2008126627A1
Authority
JP
Japan
Prior art keywords
probability
cluster
speech
classification
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009509015A
Other languages
English (en)
Other versions
JP5418223B2 (ja
Inventor
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009509015A priority Critical patent/JP5418223B2/ja
Publication of JPWO2008126627A1 publication Critical patent/JPWO2008126627A1/ja
Application granted granted Critical
Publication of JP5418223B2 publication Critical patent/JP5418223B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本発明は、逐次入力される音声信号に対して、現実的なメモリ使用量と処理速度、かつオンライン動作で、話者や官許の類似性に基づいて精度よく音声信号をクラスタリングできるようにすることを目的とする。発話分類確率計算手段103は、直近に入力された1つの音声信号(発話データ)に対し、確率モデルである生成モデルに基づいてその音声信号が各クラスタに属する確率(各クラスタへの分類確率)を計算し、パラメータ更新手段107は、発話分類確率計算手段103によって計算されるその発話データの各クラスタへの分類確率に基づいて、生成モデルを規定するパラメータを逐次推定する(図1)。

Description

(関連出願についての記載)
本願は、先の日本特許出願2007−079677号(2007年3月26日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、音声を分類する音声分類装置、音声分類方法、および音声分類用プログラムに関し、特に、異なる話者や環境において発せられた複数の音声信号を、話者や環境の類似性に基づいてクラスタに分類する音声分類装置、音声分類方法、および音声分類用プログラムに関する。
音声分類方法に関する関連技術の一例として、例えば非特許文献1の記載が参照される。図6は、非特許文献1に記載されている音声分類方法を適用した音声分類装置の構成例を示すブロック図である。図6に示す音声分類装置は、発話記憶手段801と、初期化手段802と、クラスタ間距離計算手段803と、クラスタ対統合手段804と、停止判断手段805と、クラスタ記憶手段806とから構成される。
図6に示す音声分類装置は、次のように動作する。まず、初期化手段802は、発話記憶手段801に蓄積された発話データ(有限の長さに切り出された音声信号)を一括読み出しし、発話データ数と同数のクラスタを定義して、1クラスタに1発話が属するような分類の初期状態を設定する。具体的には、各々の発話データに対してユニークなクラスタIDを付与し、同じクラスタIDが付与された発話データを用いてクラスタごとの統計量(平均、分散、および十分統計量等)を計算し、その結果をクラスタ記憶手段806に記憶する。
次に、クラスタ間距離計算手段803は、クラスタ記憶手段806に記憶されたクラスタごとの統計量に基づいて任意の2クラス間の距離(相違度)を算出する。そして、クラスタ対統合手段804は、クラスタ間距離計算手段803によって算出された距離が最小となるクラスタ対を選択し、そのクラスタ対を統合する。ここでは、統合させるクラスタ対のいずれか一方のクラスタIDを他方のクラスタに属する全発話データに付与し、そのクラスタIDが付与された発話データ群を用いて統合させたクラスタの統計量を再計算し、クラスタ記憶手段806に記憶する。
停止判断手段805は、現時点における分類状態の適切性(すなわち、さらにクラスタを統合させるか否か)を統計量から導出される所定の規則に基づいて判断する。すなわち、現時点におけるクラスタごとの統計量から導出される所定の規則に基づいて、さらにクラスタを統合させるか否かを判定し、もうクラスタを統合させない方がよい(現時点の分類状態は適切である)と判定した場合には、現時点での分類の状態を最終的な分類結果として出力する。一方、さらにクラスタを統合させた方がよい(現時点の分類状態は適切でない)と判定した場合には、現時点における分類状態から、再度クラスタ間距離計算手段803、およびクラスタ対統合手段804が、それぞれ上述した動作を繰り返す。
なお、このような分類方法は、「最短距離法」と呼ばれる。また発話データ(音声信号)のデータ形式としては、話者や環境を反映した特徴量から構成される特徴ベクトルの時系列、例えば、音声認識システムでよく使用されるメルケプストラム係数(MFCC)等が用いられている。
また、音声分類方法の別の関連技術として非特許文献2の記載が参照される。図7は、非特許文献2に記載されている音声分類方法を適用した音声分類装置の構成例を示すブロック図である。図7に示す音声分類装置は、発話入力手段901と、発話−クラスタ間距離計算手段902と、クラスタ数決定手段903と、発話−クラスタ統合手段904と、クラスタ記憶手段905とから構成される。
図7に示す音声分類装置は、次のように動作する。まず、発話入力手段901は、順次入力される発話を受け取り、発話−クラスタ間距離計算手段902に順次渡す。発話−クラスタ間距離計算手段902は、1発話データを受け取ると、その統計量(平均、分散、および十分統計量等)を計算し、またクラスタ記憶手段905にすでに記憶されている各クラスタの統計量を参照して、1発話データと各クラスタとの間の距離(相違度)を算出する。クラスタ数決定手段903は、入力された1発話データと各クラスタとの間の距離が最小となるクラスタを選択して、距離値が所定のしきい値よりも大きければクラスタ数をN+1とし、そうでなればクラスタ数はNのままとすることを決定する。
発話−クラスタ統合手段904は、クラスタ数決定手段903が決定したクラスタ数がN+1であれば、入力された1発話データを構成要素とする新しいクラスタを作成し、その統計量をクラスタ記憶手段905に記憶する。一方、クラスタ数がNのままであれば、入力された1発話データをクラスタ数決定手段903が選択した距離が最小となるクラスタに統合し、このクラスタの統計量を再計算して、クラスタ記憶手段905に記憶する。
なお、本例における音声分類装置では、発話データがまったく入力されていない段階、すなわちクラスタ記憶手段905にクラスタが1つもない段階(N=0)では、発話−クラスタ間距離計算手段902は特に処理をせず、クラスタ数決定手段903はクラスタ数をN+1(すなわち1)とすることを決定する。そして、発話−クラスタ統合手段904が入力された1発話データを構成要素とする新しいクラスタを作成し、クラスタ記憶手段905に記憶する。
また、特許文献1には、複数のN人の話者の音声波形データから複数K個のクラスタを生成し、生成した複数K個のクラスタに属する話者の音声波形データに基づいて、複数K個のクラスタに対応するK個のHMM(隠れマルコフモデル)を生成する話者クラスタリング処理装置が記載されている。なお、音声分類は、その生成されたK個のHMMから話者クラスタの特徴量を比較して最も近い話者クラスタの特徴量を有するHMMを選択し、選択したHMMを用いて音声認識を行うことによって行われる。
特開平11−175090号公報(段落0012,0026−0037) S.S.Chen, E.Eide, M.J.F.Gales, R.A.Gopinath, D.Kanvesky, and P. Olsen, "Automatic Transcription of Broadcast News", Speech Communication, 2002, Vol.37, pp.69-87 D.Liu and F.Kubala, "OnLine speaker clustering", Proc. International Conference on Acoustics, Speech, and Signal Processing(ICASSP), 2004, Vol.1, pp.333-386
以上の特許文献1及び非特許文献1、2の開示事項は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。
第1の問題点は、リアルタイム性が要求される用途に適さないということである。その理由は、非特許文献1のような最小距離法による分類では、まず最初に距離最小の発話対を見出すために、その分類対象となる全発話データを取得し、任意の2発話データ間の距離を計算しなければならないからである。すなわち、1発話データが入力される度にこのような任意の2発話データ間の距離を計算する方法では、とてもオンライン処理として動作させることはできず、予め決められた発話データに対するオフライン処理(事前処理)にしか適さない方法であると言える。
第2の問題点は、大量の発話を扱う場合に、メモリ使用量や処理時間が膨大化するということである。その理由は、非特許文献1のような最小距離法による分類では、分類対象となる全発話データから、任意の2発話データ間の距離を計算して保持する必要があり、従って発話数の2乗に比例するメモリ領域と計算時間が必要となるからである。
第3の問題点は、貪欲的かつ決定論的な分類を行っているため、分類誤りが生じやすく、またその誤りが後の分類に悪影響を及ぼしやすいということである。その理由は、非特許文献1や非特許文献2に記載されている方法では、段階的に、その時点でもっとも近いクラスタ対、あるいはもっとも近い発話データとクラスタとを統合するという貪欲探索戦略を採っており、発話データの集合全体を俯瞰して最適な分類を見出すことができないからである。
第4の問題点は、オンラインで順次入力される発話を分類する場合に、ある時点での分類結果をそれ以前の分類結果に反映させる簡単な手段がないということである。その理由は、非特許文献2に記載されている方法では、先にも述べた通り決定論的な分類を行っており、その分類結果を後に修正する機構を持たないためである。仮に非特許文献2に記載されている方法で過去の分類結果を修正しようとすると、非特許文献1に記載されている方法と殆ど同じ方法となると考えられ、オンライン動作で行うには適さなくなる。
第5の問題点は、発話データの詳細な構造を考慮した正確な分類ができないということである。その理由は、非特許文献1や非特許文献2に記載されている方法では、発話データの各クラスタへの分布に単一正規分布を仮定し、特徴ベクトルの平均や分散のような単純な統計量でクラスタを表現しているためである。発話データの分布にこのような単純なモデルを仮定したのでは、小単位(例えば、母音や子音といった音素)のレベルでの詳細な分布構造を扱うことができず、分類精度におのずと限界が生じる。
なお、特許文献1に記載されている話者クラスタリング処理装置の場合、複数K個のクラスタを生成する処理は事前処理であるため、順次入力される発話データに応じて最適なクラスタを生成するといったクラスタリング処理自体をオンライン処理として動作させようといったことは全く考慮されていない。
そこで、本発明の目的は、オンライン動作が可能で、リアルタイム性が要求される用途に使用できる音声分類装置、音声分類方法、および音声分類用プログラムを提供することにある。
また、本発明は、多数の発話を扱わなければならない状況でも現実的なメモリ使用量や処理時間で各発話を分類できるようにすることを目的とする。また、本発明は、各発話を分類する際に、分類誤りを低く抑えることができるようにすることを目的とする。また、本発明は、オンラインで順次入力される発話を分類する際に、過去の分類結果を検証し分類誤りを修正できるようにすることを目的とする。また、本発明は、音声の詳細な構造を考慮して、発話をより正確に分類できるようにすることを目的とする。
本発明による音声分類装置においては、音声信号を音声の類似性に基づきクラスタに分類する音声分類装置であって、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する発話分類確率計算手段と、発話分類確率計算手段が計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定するパラメータ更新手段とを備え、発話分類確率計算手段は、パラメータ更新手段によって逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算する。
本発明による音声分類方法においては、音声信号を音声の類似性に基づきクラスタに分類するための音声分類方法であって、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算し、確率を用いて、逐次、確率モデルを規定するパラメータを推定し、逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する。
本発明による音声分類用プログラムにおいては、音声信号を音声の類似性に基づきクラスタに分類するための音声分類用プログラムであって、コンピュータに、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する確率計算処理、および確率計算処理で計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定するパラメータ更新処理を実行させ、確率計算処理で、逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算させる。
本発明によれば、オンライン動作が可能で、リアルタイム性が要求される用途に使用できる。
第1の実施例による音声分類装置の構成例を示すブロック図である。 第1の実施例による音声分類装置の動作例を示すフローチャートである。 話者データ記憶手段102に記憶される話者データのデータ構造の一例を示す説明図である。 生成モデルのグラフ構造を示す説明図である。 第2の実施例による音声分類装置の構成例を示すブロック図である。 最短距離法を用いた音声分類装置の構成例を示すブロック図である。 最短距離法を用いた音声分類装置の他の構成例を示すブロック図である。
符号の説明
101 発話入力手段
102 話者データ記憶手段
103 発話分類確率計算手段
104 新規話者登録手段
105 更新対象発話選択手段
106 発話分類確率更新手段
107 パラメータ更新手段
108 パラメータ記憶手段
109 発話分類確率記憶手段
110 クラスタ数決定手段
51 入力装置
52 音声分類用プログラム
53 データ処理装置
54 記憶装置
541 話者データ記憶部
542 パラメータ記憶部
543 発話分類確率記憶部
本発明の実施の形態について説明する。本発明によれば、1つの態様において、音声信号を音声の類似性に基づきクラスタに分類する音声分類装置が提供される。この音声分類装置は、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する発話分類確率計算手段(例えば、発話分類確率計算手段103)と、発話分類確率計算手段が計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定するパラメータ更新手段(例えば、パラメータ更新手段107)とを備え、発話分類確率計算手段は、パラメータ更新手段によって逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算する。かかる構成により、本発明の音声分類装置は、オンライン動作が可能であり、リアルタイム性が要求される用途にも利用可能である。また、本発明は、多数の発話を扱わなければならない状況でも現実的なメモリ使用量や処理時間で各発話を分類可能とし、さらに、各発話を分類する際に、分類誤りを低く抑えることを可能としている。そして、オンラインで順次入力される発話を分類する際に、過去の分類結果を検証し分類誤りを修正できるようにすることを目的とする。また、本発明は、音声の詳細な構造を考慮して、発話をより正確に分類できるようにしている。
本発明に係る音声分類装置は、別の態様において、過去の所定回以内に入力された音声信号について、パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、音声信号が各クラスタに属する確率を再計算する発話分類確率更新手段(例えば、発話分類確率更新手段106)を備え、パラメータ更新手段は、発話分類確率更新手段が計算した各確率を用いて、確率モデルを規定するパラメータを推定してもよい。
また、本発明に係る音声分類装置は、さらに別の態様において、入力された音声信号がいずれのクラスタにも属さない場合を仮定して、音声信号が属する新規クラスタを規定した確率モデルを作成する新規クラスタ登録手段(例えば、新規話者登録手段104)と、新規クラスタ登録手段によって作成された確率モデルを用いた計算結果に基づくパラメータ更新手段によるパラメータの推定結果から、新規クラスタを追加するか否かを決定するクラスタ数決定手段(例えば、クラスタ数決定手段110)とを備えていてもよい。
本発明に係る音声分類装置において、確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルであってもよい。
本発明に係る音声分類装置において、確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルであってもよい。
本発明に係る音声分類装置は、さらに別の態様において、過去の所定回以内に入力された音声信号について、パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、音声信号が各クラスタに属する確率を再計算する発話分類確率更新手段(例えば、発話分類確率更新手段106)を備えた音声分類装置であって、過去の所定回以内に入力された音声信号の各々に対して、発話分類確率更新手段に各クラスタに属する確率を再計算させることの要否を判定する更新対象発話選択手段(例えば、更新対象発話選択手段105)を備えていてもよい。
本発明に係る音声分類装置において、更新対象発話選択手段は、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について再計算させることの要否を判定してもよい。
本発明に係る音声分類装置において、新規クラスタ登録手段は、属すべきクラスタが既知の音声信号が予め用意されている場合に、音声信号が属すべきクラスタを規定した確率モデルを作成してもよい。
また、本発明による音声分類方法は、音声信号を音声の類似性に基づきクラスタに分類するための音声分類方法であって、
ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算し、
確率を用いて、逐次、確率モデルを規定するパラメータを推定し、
逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する、
上記工程を含む。
本発明に係る音声分類方法において、過去の所定回以内に入力された音声信号について、パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、音声信号が各クラスタに属する確率を再計算し、再計算した各確率を用いて、確率モデルを規定するパラメータを推定してもよい。
本発明に係る音声分類方法において、入力された音声信号がいずれのクラスタにも属さない場合を仮定して、音声信号が属する新規クラスタを規定した確率モデルを作成し、作成された確率モデルを用いた計算結果に基づくパラメータ更新手段によるパラメータの推定結果から、新規クラスタを追加するか否かを決定してもよい。
本発明に係る音声分類方法において、確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルであってもよい。
本発明に係る音声分類方法において、確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルであってもよい。
本発明に係る音声分類方法において、過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定してもよい。
本発明に係る音声分類方法において、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について再計算させることの要否を判定してもよい。
本発明に係る音声分類方法において、属すべきクラスタが既知の音声信号が予め用意されている場合に、音声信号が属すべきクラスタを規定した確率モデルを作成してもよい。
また、本発明による音声分類用プログラムは、音声信号を音声の類似性に基づきクラスタに分類するための音声分類用プログラムであって、コンピュータに、ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する確率計算処理、および確率計算処理で計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定するパラメータ更新処理を実行させ、確率計算処理で、逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算させる。
本発明に係る音声分類用プログラムにおいて、コンピュータに、過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、音声信号が各クラスタに属する確率を再計算する確率再計算処理を実行させ、パラメータ更新処理で、確率再計算処理で計算した各確率を用いて、逐次、確率モデルを規定するパラメータを推定させてもよい。
本発明に係る音声分類用プログラムにおいて、コンピュータに、入力された音声信号がいずれのクラスタにも属さない場合を仮定して、音声信号が属する新規クラスタを規定した確率モデルを作成する処理、および新規クラスタが規定された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する処理を実行させてもよい。
本発明に係る音声分類用プログラムにおいて、確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルであってもよい。
本発明に係る音声分類用プログラムにおいて、確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルであってもよい。
本発明に係る音声分類用プログラムにおいて、コンピュータに、過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する判定処理を実行させてもよい。
本発明に係る音声分類用プログラムにおいて、判定処理で、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について再計算させることの要否を判定させてもよい。
本発明に係る音声分類用プログラムにおいて、コンピュータに、属すべきクラスタが既知の音声信号が予め用意されている場合に、音声信号が属すべきクラスタを規定した確率モデルを作成する処理を実行させてもよい。
上記態様の本発明の効果を以下に説明する。
第1の効果は、順次入力される発話データを逐次的に分類するといったオンライン動作ができることにある。その理由は、発話分類確率計算手段が発話の生成モデルを規定するパラメータに基づいて発話データを分類するとともに、パラメータ更新手段が発話データの分類結果に基づいてパラメータを逐次的に更新するためである。
第2の効果は、多数の発話データが入力されても現実的なメモリ使用量や処理時間で発話データを分類できることにある。その理由は、発話分類確率計算手段および発話分類確率更新手段が直近の所定数の発話データについてのみ分類を行い、パラメータ更新手段がその所定数の発話データに関する分類結果のみを用いてパラメータを更新するためである。
第3の効果は、探索の誤りに起因する分類誤りを低く抑えられることにある。その理由は、発話分類確率計算手段および発話分類確率更新手段が、最小距離のような局所的な基準ではなく発話の生成モデルに基づいて広域的に最適な分類結果を離散的ではなく確率的な形式で算出するためである。
第4の効果は、オンライン動作において過去の分類結果を検証して分類誤りを修正できることにある。その理由は、発話分類確率更新手段が、過去に入力され分類された所定数の発話データについて、パラメータ更新手段が求めた最新のパラメータに基づいて再分類するためである。
第5の効果は、音声の内部構造の複雑さに起因する分類誤りを低く抑えられることにある。その理由は、話者(または環境)から発せられた発話を、単一ガウス分布のような単純なモデルではなく、ガウス混合分布のような複雑なモデルでモデル化することにより、音素のような詳細なレベルでの話者(または環境)の違いを表現できるためである。
以下、本実施例について図面を参照して説明する。図1は、第1の実施例による音声分類装置の構成例を示すブロック図である。図1に示す音声分類装置は、発話入力手段101と、話者データ記憶手段102と、発話分類確率計算手段103と、新規話者登録手段104と、更新対象発話選択手段105と、発話分類確率更新手段106と、パラメータ更新手段107と、パラメータ記憶手段108と、発話分類確率記憶手段109と、クラスタ数決定手段110とを備える。
なお、本実施例では、声の類似性に基づいて発話を話者ごとに分類するための音声分類装置を例に示すが、本発明は、話者の分類のみならず、同じ話者の音声でも背景に重畳する雑音の類似性に基づいて分類したり、使用する回線や音響機器(ボーカルマイクや携帯電話機等)の類似性に基づいて分類するというように、音声信号をその音声信号が有する何らかの特徴量の類似性に基づいて分類する用途に適用可能である。
発話入力手段101は、発話データを入力する。ここで、発話データとは、有限の長さに切り出された音声信号であって、本音声分類装置に入力される音声信号の入力単位となるデータである。なお、発話データは、必ずしも同じ長さに切り出された音声信号でなくてもよい。また、発話入力手段101は、外部から入力される発話データを受け取った際に、図示しない音響分析手段を用いて分類に必要な特徴量を抽出してもよい。特徴量は、例えば、パワーやメルケプストラム係数(MFCC)、およびそれらの変化率といった特徴パラメータを特徴ベクトルの時系列のような形式で抽出すればよい。個々の特徴ベクトルは一般にフレームと呼ばれている。なお、特徴量は、元の音声信号(発話データ)そのものであってもよい。尚、発話入力手段101は、連続的に音声信号が入力されるような場合には、所定の条件(音量や時間)に従って区切ることにより、入力される音声信号を発話データに分割する機能を有していてもよい。
話者データ記憶手段102は、既知の話者の発話データが事前に取得可能な場合に、それら発話データを話者毎に対応づけた話者データとして記憶する。話者データ記憶手段102は、例えば、話者毎に割り振られたユニークなID(以下、話者IDという。)と、その話者の発話データ(またはその特徴量)とを対応づけて記憶する。なお、同じ話者でも異なる環境における発話を異なる発話として分類する場合には、話者データ記憶手段102は、既知の話者および環境の組み合わせ毎に、発話データを記憶しておけばよい。すなわち、話者データ記憶手段102は、予めどのクラスタに分類されるかが既知である発話データ(またはその特徴量)と、そのクラスタを識別するためのユニークなクラスタIDとを対応づけて記憶しておけばよい。
ここで、クラスタとはデータ解析手法の1つであるクラスタリング分析におけるクラスタをいい、具体的には、複数のデータ(ここでは、複数の発話データ)をその特徴の類似性に基づいて部分集合に分類した際の各部分集合をいう。
発話分類確率計算手段103は、逐次入力される発話データに対し、パラメータ記憶手段108に記憶されているパラメータ値に基づいて、その発話データがいずれのクラスタに属するかを確率の形で計算することによって、逐次的に発話データを分類する。発話分類確率計算手段103は、具体的には、パラメータ記憶手段108に記憶されている現在のパラメータ値によって規定される、発話データの分布を仮定した確率モデルである生成モデルを用いて、入力された発話データが各クラスタに属する確率をそれぞれ求めることによって、その発話データがどのクラスタに属するかを求める。一般に、生成モデルとは、観測されたデータの背景に存在すると考えられるデータ生成の機構を数理的に説明するモデルであって、特にここでは、ある音声信号(発話データ)がどのクラスタに属するかを確率的に求めるための計算式または計算条件を規定するもの(情報)である。具体的には、ある発話データが各クラスタに属する確率を求めるための計算式または計算条件を示す情報である。なお、生成モデルの具体例については後述する。
新規話者登録手段104は、新規の話者から発せられた発話が入力された場合を想定して新規クラスタを登録する。新規話者登録手段104は、入力された発話データが既存のいずれのクラスタにも属さない場合を想定して、新規クラスタの追加に対応した確率モデルを作成する。なお、新規クラスタを確定させるか否かはクラスタ数決定手段110によって決定される。また、新規話者登録手段104は、話者データ記憶手段102に話者データ(既知の話者毎の発話データ)が登録されている場合に、1話者につき1クラスタとして、話者データで示される話者毎の発話データから生成モデルのパラメータを推定し、パラメータ記憶手段108に記憶する。
更新対象発話選択手段105は、過去に入力された所定数の各発話データが再分類によって異なるクラスタに移る可能性がいかほどか、すなわち再分類の計算が省略可能か否かを判定し、その結果を発話分類確率更新手段106に通知する。すなわち、発話分類確率更新手段106に再分類させる対象とする発話データを選択する。
発話分類確率更新手段106は、パラメータ記憶手段108に記憶されているパラメータ値を用いて、過去に入力された発話データについて、各々いずれのクラスタに属するかを確率の形で計算することによって、過去に分類された発話データを再分類する。なお、発話分類確率更新手段106は、更新対象発話選択手段105によって選択された発話データについてのみ再分類を行えばよい。
パラメータ更新手段107は、入力済みの発話データの分布を仮定した生成モデルを規定するモデルパラメータを逐次更新する。パラメータ更新手段107は、発話分類確率計算手段103および発話分類確率更新手段106による分類結果に基づき、現時点でのクラスタ数およびその近辺のいくつかのクラスタ数を想定した上で、それぞれのクラスタ数について、生成モデルを簡便に算出するために必要な十分統計量を算出し、さらに生成モデルのパラメータ値を推定する。
パラメータ記憶手段108は、現時点におけるクラスタ数に対応する生成モデルのパラメータ値および十分統計量を記憶する。なお、パラメータ記憶手段108にクラスタ数も記憶するようにしてもよい。
発話分類確率記憶手段109は、発話分類確率計算手段103および発話分類確率更新手段106による分類結果(具体的には、各クラスタへの分類確率)を記憶する。発話分類確率記憶手段109は、発話分類確率計算手段103によって算出された新規の分類結果を記憶し、また、発話分類確率更新手段106によって算出された再分類の分類結果を、それまでの分類結果に上書きする。発話分類確率記憶手段109は、新規話者登録手段104によって登録される新規クラスタを含んだ場合における分類結果も合わせて記憶するようにしてもよい。
クラスタ数決定手段110は、入力済みの発話データに対して最適なクラスタ数(ここでは、話者数)を推定する。クラスタ数決定手段110は、パラメータ更新手段107が想定したいくつかのクラスタ数について、パラメータ更新手段107による生成モデルのパラメータ値の推定結果から最適なクラスタ数を決定する。また、クラスタ数決定手段110は、決定したクラスタ数に対応する十分統計量およびパラメータ値をパラメータ記憶手段108に記憶させる。
次に、本実施例の動作について説明する。図2は、本実施例による音声分類装置の動作例を示すフローチャートである。図2に示すように、音声分類装置は、始めにパラメータ記憶手段108および発話分類確率記憶手段109におけるそれぞれの記憶領域を初期化し、クラスタ数Nを0にセットする(ステップA1)。次に、新規話者登録手段104は、話者データ記憶手段102に話者データ(話者と対応づけられた発話データ)が記憶されているか否かを確認し(ステップA2)、記憶されている場合には、1話者分の発話データにつき1クラスタとして、その話者の発話データから得られる特徴量に対応させた新規クラスタを登録する(ステップA3)。新規話者登録手段104は、1話者毎にクラスタ数Nを1増やすとともに、話者毎の発話データに基づき、各話者の発話データがその話者に対応するクラスタに属するような生成モデルを作成する。具体的には、生成モデルにおける新規クラスタを規定し、新規クラスタに対応させた話者の発話データから十分統計量を求めてその話者の発話データが新規クラスタに属するようなパラメータ値を推定することによって、クラスタ数=話者数となる生成モデルを作成する(確定させる)。そして、十分統計量とともに推定したパラメータの値をパラメータ記憶手段108に記憶させる。
図3は、話者データ記憶手段102に記憶される話者データのデータ構造の一例を示す説明図である。図3に示すように、話者データ記憶手段102には、例えば、既知の話者毎に割り当てられた話者IDとその話者の発話データ(またはその特徴量)と発話数とを対応づけて記憶しておけばよい。ここで、Xi,jは、話者IDがiの話者がj番目に発話した際の発話データを意味している。Xi,j=(xi,j,1,xi,j,2,・・・,xi,j,T)のような特徴ベクトルxi,j,tの時系列である。なお、生成モデルのパラメータと十分統計量については後述する。
次に、発話入力手段101は、入力される発話データを順次受け取り、音響分析手段により特徴ベクトル系列に変換する。以後は、入力される発話データがなくなった時点で終了となる(ステップA4)。発話データが入力された際に、クラスタ数Nが0であった場合には(ステップA5のNo)、新規話者登録手段104が、その発話データに対し新規クラスタを登録する(ステップA6)。すなわち、話者データ記憶手段102に一切データが登録されておらず、発話入力手段101に最初の発話データが入力されたときには、その最初の発話データは新規話者登録手段104に送られる。新規話者登録手段104は、クラスタ数N=1とし、ステップA3と同様の処理により、入力された発話データから十分統計量を求めて、その発話データが新規クラスタに属するようなパラメータ値を推定することによって、クラスタ数をN=1とする生成モデルを作成する。そして、十分統計量とともに推定したパラメータの値をパラメータ記憶手段108に記憶させる。
クラスタ数Nが1以上であった場合には(ステップA5のYes)、発話分類確率計算手段103が、パラメータ記憶手段108に記憶されている生成モデルのパラメータおよび十分統計量を読み出し(ステップA7)、入力された発話データ(1発話データ)がどのクラスタに属するかを確率の形式で計算する(ステップA8)。
ここで、本実施例で使用する生成モデルについて説明する。本実施例では、図4に示すようなグラフ構造を備えた隠れマルコフモデル(HMM)と呼ばれる確率モデルを使用する。図4は、本実施例における生成モデルのグラフ構造を示す説明図である。グラフの中央部分に縦に並んだノードは状態と呼ばれ、本実施例では1状態が1クラスタに該当する。このモデルでは、まず左端の初期状態から中央部分のいずれかの状態に遷移し、その状態で幾度かの自己遷移を繰り返し、最後に右端の終状態に遷移して動作を終了する。中央の状態では、自己遷移を含めて遷移を1回行うたびに、所定の確率分布(例えば、ガウス混合分布)に従って特徴ベクトルxが1つ出力される。
上述したモデル(HMM)におけるパラメータは、π,a,bij,μij,Σij(i=1,・・・,N;j=1,・・・,M)である。ここに、NはHMMの状態数であり、本実施例におけるクラスタ数と一致する。また、Mはガウス混合分布の混合数であって、例えば音素の数とすればよい。なお、音素の数のままでは混合数が大きすぎる場合には、分布構造が似ている音素がまとめるような音素の種類の数としてもよい。例えば、母音と子音の数にまとめてもよいし、母音と破裂音や摩擦音や鼻音といった子音の種類の数にまとめてもよい。なお、本実施例において、混合数は状態によらず一律とするが、状態毎に異なる混合数を設定することも可能である。
πは初期状態から状態iに遷移する確率、すなわちクラスタiに属する発話データが出現する確率である。aは状態iから終状態に遷移する確率であって、1発話データの平均継続フレーム数に相当する。bijは状態iから出力される特徴ベクトルの分布(すなわち、混合ガウス分布)における第jガウス分布に関する重み係数である。μij,Σijは同じく第jガウス分布に関する平均ベクトル、分散共分散行列をそれぞれ表す。f(x|μ,Σ)は平均ベクトルμ、分散共分散行列Σのガウス分布(正規分布)である。一般に上記パラメータはn個の特徴ベクトル系列(すなわちn個の発話データ)から推定することができる。推定方法は、最尤推定や事後確率最大(MAP)推定、ベイズ推定等が考えられるが、例えば最尤推定の場合は、期待値最大化(EM)法と呼ばれる以下の数(1),数(2)および数(3)の反復解法でパラメータ推定が可能である。
Figure 2008126627
Figure 2008126627
Figure 2008126627
ここに、Tはk番目の発話データの継続フレーム数、xktはk番目に入力された発話データの第tフレームの特徴ベクトルである。特に、数(1)における第1式のγkiは、k番目に入力された発話データが状態iに属する確率、すなわちk番目の発話データがクラスタiに属する確率を意味している。なお、数(1)、数(3)をそれぞれEM法におけるEステップ、Mステップと呼ぶ。また、数(2)の各量は本実施例で使用するモデルに関する十分統計量である。
ただし、上記数(1)〜(3)の反復解法はオフライン処理(バッチ処理)であり、本発明の目的とするところではない。本実施例では、最初の発話データXから最新の発話データXまでを、X,・・・,Xn−δとXn−δ+1,・・・,Xに分けて扱い、以下の数(4)および数(5)と上記数(3)とを用いた反復解法を実行することによってオンライン処理を可能にする。
Figure 2008126627
Figure 2008126627
数(4)については、計算式そのものは数(1)と同一だが、計算の範囲が最近入力されたδ個の発話データ(k=n−δ+1,・・・,n)に限れられている点が異なる。数(5)については、十分統計量を3項の和として算出している。ここに第1項は話者データ記憶手段102に蓄積された既知の話者の発話データから算出される十分統計量であって、以降入力される発話データが増えても更新する必要のない定数である。第2項は、最近のδ個の発話データよりも古い発話データに関する十分統計量であって、数(4)による更新を受けない量である。ただし1つの発話データが入力される毎にn−δ+1番目の発話データに関する項(1つ前の発話データXn−1の入力時に計算済み)が加算される。第3項は、数(4)の結果を用いて逐次更新される量である。
上述したパラメータ推定法は一般化EM(GEM法)の一つの実現形態であり、最尤推定の目的である尤度最大化を、少なくとも尤度の単調非減少という形で補償することが数学的に証明できる。
なお、MAP推定については、パラメータの事前分布に関するパラメータ、すなわち超パラメータを予め設定することによって、上記数(1),数(2)および数(3)と類似の反復解法に基づくパラメータ再推定式が導出できる。また、ベイズ推定についても、事前分布に関する超パラメータを予め設定することによって、上記数(1),数(2)および数(3)と類似の、事後分布の超パラメータ再推定式が導出できる。なお、導出の詳細は、文献「H.Attias, "Inferring parameters and structure of latent variable models by variational Bayes.", Proc. 15th Conf. on Uncertainty in Artificial Intelligence, 1999」に開示されている。
さて、発話分類確率計算手段103は、ステップA8において、最新の発話データ(k=n)について上記数(4)による計算を行い、その発話データがクラスタi(i=1〜N)に属する確率γkiを求め、その結果を発話分類確率記憶手段109に記憶させる。また、発話分類確率更新手段106はステップA9において、最新の発話(k=n)以外のδ−1個の発話データについて上記数(4)による計算を行い、それらの発話データ(最新以外のδ−1個の発話データ)がそれぞれクラスタiに属する確率γki(k=n−δ+1,・・・,n−1)を求め、その結果を発話分類確率記憶手段109に反映(上書き)する。ただし、この計算に先立ち、更新対象発話選択手段105が再計算の要否を判定し、発話分類確率更新手段106は、更新対象発話選択手段105が再計算の必要ありと判断した発話データについてのみ再計算を行うものとする。
更新対象発話選択手段105が再計算の要否を判定する際の指標としては、例えば、γki×logγkiと定義することができる。これは、発話データがクラスタに属する確率のエントロピーを符号反転させたものであるが、その発話データが特定のクラスタに帰属する確率が高ければ値が大きくなり、逆に多くのクラスタについて確率が一様であれば値が低くなる。すなわち、発話データが、クラスタの中心付近に位置する場合には上記指標の値が高くなり、複数のクラスタの境界付近に位置する場合は値が低くなる。よってこの指標が所定のしきい値よりも低い発話データ、すなわち帰属するクラスタが未確定な発話データのみについて計算を行うことにより、効率的に再分類を行うことが可能となる。
次に、パラメータ更新手段107は、発話分類確率計算手段103および発話分類確率更新手段106の計算結果に基づき、数(5)および数(3)を用いてパラメータを更新する(ステップA10)。ステップA8〜A10までの処理は適当な収束判定(ステップA11)を行いつつ、複数回反復してもよい。
次に、新規話者登録手段104は、パラメータ記憶手段108に記憶されている生成モデルのパラメータおよび十分統計量を読み出し(ステップA12)、ステップA6と同様の処理により、クラスタ数をN+1に増やした場合の生成モデルを作成する(ステップA13)。新規話者登録手段104は、例えば、入力された発話データがいずれのクラスタにも属さないことを仮定して新規クラスタを追加し、その発話データに関する十分統計量を求めて、その発話データが新規クラスタに属するようなパラメータ値を推定することによって、クラスタ数をN+1に増やした場合の生成モデルを作成する。
次に、発話分類確率計算手段103は、ステップA8と同様の処理により、新規話者登録手段104により推定された生成モデルのパラメータおよび十分統計量を読み出し、入力された最新の発話データ(すなわち第n番目の発話データ)が新規クラスタを含む各クラスタに属する確率を計算する(ステップA14)。また、発話分類確率更新手段106が、第n番目の発話データを除く直前のδ−1個の発話データについても、ステップA10と同様の処理により、それらの発話データ(最新以外のδ−1個の発話データ)が新規クラスタを含む各クラスタに属する確率を再計算する(ステップA15)。そして、パラメータ更新手段107が、発話分類確率計算手段103および発話分類確率更新手段106の計算結果に基づき、パラメータを更新する(ステップA16)。なお、ステップA14〜A16までの処理についても適当な収束判定(ステップA17)を行って、複数回反復してもよい。
最後に、ステップA8〜A11までの処理で得られたクラスタ数N(入力時点のまま)のモデルと、ステップA14からA17までの処理で得られたクラスタ数N+1のモデルとを比較し、入力済みの発話データをよりよく記述できているモデルを選択し、そのモデルを規定するパラメータをパラメータ記憶手段108に記憶させる(ステップA18)。
モデルを選択する方法は、入力済みの発話データへのモデルの適合度(例えば、尤度)と、モデルの規模(例えば、モデルパラメータ数)とを勘案して総合的に決めることが望ましい。具体例としては、赤池情報量基準(AIC)や記述長最小(MDL)基準等よく知られているデータ解析の手法を用いればよい。例えば、各々のモデルに関してAIC値またはMDL値をその定義に基づいて計算し、AIC値最大またはMDL値最小のモデルを選択すればよい。なお、MDL値の計算法は、例えば、文献「韓太舜、小林欣吾著、”韓情報と符号化の数理”、岩波書店 岩波講座 応用数学[対象11]、1994年、第8章」に開示されている方法を用いればよい。
なお、本実施例では、選択対象となるモデルはクラスタ数Nのモデルとクラスタ数N+1のモデルの2種類としたが、より多くの種類のクラスタ数(例えば、N−1やN+2等)から選択できるようにすることも可能である。また、各クラスタで規定されたガウス混合分布の混合数Mを選択対象に入れることも可能である。なお、選択候補とするクラスタ数、およびそのクラスタ数における各クラスタに属する発話データは、各発話データのそれまでに算出された各クラスタへの分類確率に基づく所定の基準に従って決定すればよい。
なお、本実施例において、話者データ記憶手段102は、既知の話者の発話データが存在する場合に機能するものであって、本手段がなくても本実施例は成立する。同様に、更新対象発話選択手段105は、発話分類確率更新手段106が所定数全ての発話データを対象にしてもよいため、本手段がなくても本実施例は成立する。また、発話分類確率更新手段106はδ=1と設定した場合は動作しないので不要となるが、その場合においても本実施例は成立可能である。
次に、本実施例の効果について説明する。本実施例では、発話分類確率計算手段103がモデルパラメータによって規定される生成モデルを用いて、逐次入力される発話データを確率的に分類するとともに、パラメータ更新手段107が発話分類確率計算手段103による分類結果に基づいて逐次モデルパラメータを更新するので、現実的なメモリ使用量と処理時間で、正確に発話データを分類することができる。すなわち、順次入力される発話データに対しオンライン動作での分類が可能である。さらに、発話分類確率更新手段106がパラメータ更新手段107によって更新された最新のモデルパラメータを用いて直近の所定数の発話データについて再分類を行うので、過去の分類結果を検証して分類誤りを修正するような処理についてもオンライン動作で行うことが可能である。
また、発話データの分布の生成モデルとして、ガウス混合分布と関連づけた確率モデルである隠れマルコフモデルを仮定しているので、最小距離のような局所的な基準による分類や、正規分布と関連づけた生成モデルと比べて、分布の異なる種々の音素から成り立つ音声信号を詳細な分布構造で表現する(モデル化)することができ、結果、探索の誤りに起因する分類誤りを低く抑えることができる。
また、本実施例では、話者データ記憶手段102に記憶された既知話者の発話データを用いて生成モデルを作成するように構成されているため、話者データ記憶手段102に多くの話者の発話データを蓄積しておくことにより分類の精度を高めることができる。さらに、本実施例では、更新対象発話選択手段105が過去の発話の分類結果から再分類の要否を判断するように構成されているので、発話分類確率更新手段106が再分類の計算を効果的に行うことができ、比較的高速に分類処理を行うことができる。
また、本実施例では、新規話者登録手段104が新規の話者が発生したことを想定して、クラスタ数を増やした場合の生成モデルを作成し、クラスタ数決定手段110がクラスタ数を増やした場合の分類結果と既存のクラスタ数による分類結果とを比較してクラスタ数を決定している。このような動的なクラスタリングを行うことにより、適用範囲を不要に限定することなく、常に最適なクラスタ数における分類をオンライン処理で行うことができる。
すなわち、確率モデルに基づいて分類確率を計算してクラスタリングを行うとともに、その分類確率に基づいてモデルパラメータを更新する、というように情報(確率モデルと分類確率)を相互利用するように構成しているので、クラスタリングの処理の高速化および高精度化といった本発明の目的を達成することができる。
実施例2.
次に、本発明の第2の実施例について図面を参照して説明する。図5は、第2の実施例による音声分類装置の構成例を示すブロック図である。本実施例は、第1の実施例における各手段の動作をプログラムにより実現した場合に、そのプログラムを読み込んで動作するコンピュータの構成例である。図5に示すように、本実施例による音声分類装置は、入力装置51と、音声分類用プログラム52と、データ処理装置53と、記憶装置54とを備えたコンピュータによって実現される。
入力装置51は、例えば、外部で発せられた音声の音声信号を入力するマイクロフォンである。なお、入力装置51は、コンピュータが通信ネットワークに接続されている場合には、図示しない通信端末から送信される所定の条件に従って区切られた音声信号を受信する受信装置であってもよい。
音声分類用プログラム52は、第1の実施例における発話分類確率計算手段103、新規話者登録手段104、更新対象発話選択手段105、発話分類確率更新手段106、パラメータ更新手段107、およびクラスタ数決定手段110の動作を記述したプログラムである。音声分類用プログラム52は、CPU等のデータ処理装置53に読み込まれ、データ処理装置53の動作を制御する。すなわち、データ処理装置53は、音声分類用プログラム52に従って動作する。
記憶装置54は、話者データ記憶部541と、パラメータ記憶部542と、話者分類確率記憶部543とを含む。なお、話者データ記憶部541は、第1の実施例における話者データ記憶手段102の記憶領域に相当する。また、パラメータ記憶部542は、パラメータ記憶手段108の記憶領域に相当する。また、話者分類確率記憶部543は、発話分類確率記憶手段109の記憶領域に相当する。なお、話者データ記憶部541は、予め話者データが記憶されている記憶領域であるが、パラメータ記憶部542および話者分類確率記憶部543は、音声分類用プログラム52によって割り当てられる記憶領域である。
データ処理装置53は、音声分類用プログラム52の制御により、話者データ記憶部541に記憶されたデータを読み込みながら、また、パラメータ記憶部542および話者分類確率記憶部543に必要に応じてデータを書き込んだり、それらに記憶されたデータを読み込みながら、入力装置51から逐次入力される発話データに対し、第1の実施例における発話分類確率計算手段103、新規話者登録手段104、更新対象発話選択手段105、発話分類確率更新手段106、パラメータ更新手段107、およびクラスタ数決定手段110による処理と同一の処理を実行する。
本発明は、話者や環境ごとに音響モデルを適応化させて高精度な音声認識を行う音声認識装置全般に適用可能である。また、音声信号から話者等を検索する検索装置にも適用できる。例えば、長時間の音声をテキスト化したり発言者のラベルを付与したりする書き起こし支援システム(議事録作成システム)における発言者検索装置や、大量の映像や音声データにテキストや話者のインデックスを自動的に付与して検索の手がかりに用いるような映像・音声検索システムに適用することが可能である。
以上本発明を上記実施例に即して説明したが、本発明は、上記実施例にのみ限定されるものではなく、本願特許請求の範囲の各請求項の発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。

Claims (26)

  1. 音声信号を音声の類似性に基づきクラスタに分類する音声分類装置であって、
    ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する発話分類確率計算手段と、
    前記発話分類確率計算手段が計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定するパラメータ更新手段と、を備え、
    前記発話分類確率計算手段は、前記パラメータ更新手段によって逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算する
    ことを特徴とする音声分類装置。
  2. 過去の所定回以内に入力された音声信号について、前記パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算する発話分類確率更新手段を備え、
    前記パラメータ更新手段は、前記発話分類確率更新手段が計算した各確率を用いて、前記確率モデルを規定するパラメータを推定する
    請求項1に記載の音声分類装置。
  3. 入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成する新規クラスタ登録手段と、
    前記新規クラスタ登録手段によって作成された確率モデルを用いた計算結果に基づく前記パラメータ更新手段によるパラメータの推定結果から、新規クラスタを追加するか否かを決定するクラスタ数決定手段とを備えた
    請求項1または請求項2に記載の音声分類装置。
  4. 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
    請求項1から請求項3のうちのいずれか1項に記載の音声分類装置。
  5. 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
    請求項4に記載の音声分類装置。
  6. 過去の所定回以内に入力された音声信号の各々に対して、前記発話分類確率更新手段に各クラスタに属する確率を再計算させることの要否を判定する更新対象発話選択手段を備えた 請求項2から請求項5のうちのいずれか1項に記載の音声分類装置。
  7. 前記更新対象発話選択手段は、要否判定時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否を判定する
    請求項6に記載の音声分類装置。
  8. 前記新規クラスタ登録手段は、属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する
    請求項3に記載の音声分類装置。
  9. 音声信号を音声の類似性に基づきクラスタに分類するための音声分類方法であって、
    ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算し、
    前記確率を用いて、逐次、前記確率モデルを規定するパラメータを推定し、
    前記逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する
    ことを特徴とする音声分類方法。
  10. 過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算し、
    前記再計算した各確率を用いて、前記確率モデルを規定するパラメータを推定する
    請求項9に記載の音声分類方法。
  11. 入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成し、
    前記作成された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する
    請求項9または請求項10に記載の音声分類方法。
  12. 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
    請求項9から請求項11のうちのいずれか1項に記載の音声分類方法。
  13. 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
    請求項12に記載の音声分類方法。
  14. 過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する
    請求項10から請求項13のうちのいずれか1項に記載の音声分類方法。
  15. 要否判定時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否を判定する
    請求項14に記載の音声分類方法。
  16. 属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する
    請求項10から請求項15のうちのいずれか1項に記載の音声分類方法。
  17. 音声信号を音声の類似性に基づきクラスタに分類するための音声分類用プログラムであって、
    コンピュータに、
    ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する確率計算処理、および
    前記確率計算処理で計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定するパラメータ更新処理を実行させ、
    前記確率計算処理で、前記逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算させる
    ための音声分類用プログラム。
  18. 前記コンピュータに、
    過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算する確率再計算処理を実行させ、
    パラメータ更新処理で、前記確率再計算処理で計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定させる
    請求項17に記載の音声分類用プログラム。
  19. 前記コンピュータに、
    入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成する処理、および
    前記新規クラスタが規定された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する処理を実行させる
    請求項17または請求項18に記載の音声分類用プログラム。
  20. 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
    請求項17から請求項19のうちのいずれか1項に記載の音声分類用プログラム。
  21. 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
    請求項20に記載の音声分類用プログラム。
  22. 前記コンピュータに、
    過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する判定処理を実行させる
    請求項18に記載の音声分類用プログラム。
  23. 前記コンピュータに
    前記判定処理で、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否の判定を実行させる
    請求項22に記載の音声分類用プログラム。
  24. 前記コンピュータに、
    属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する処理を実行させる
    請求項17から請求項23のうちのいずれか1項に記載の音声分類用プログラム。
  25. 最新の発話データについて、パラメータ記憶手段に記憶されているパラメータ値によって規定される、発話データの分布を仮定した確率モデルである生成モデルを用いて、前記発話データが各クラスタに属する確率をそれぞれ求め発話分類確率記憶手段に記憶させる発話分類確率計算手段と、
    発話データがクラスタに属する確率のエントロピーを符号反転させた値を指標とし、前記指標と所定のしきい値との大小関係に応じて、前記発話データについて各クラスタに属する確率の再計算の必要有り無しを判定する更新対象発話選択手段と、
    最新発話データ以外の所定個の発話データのうち、前記更新対象発話選択手段で再計算の必要ありと判断された発話データについてそれぞれ各クラスタに属する確率を求め、前記発話分類確率記憶手段を更新する発話分類確率更新手段と、
    前記発話分類確率計算手段および前記発話分類確率更新手段での計算結果に基づき、現時点でのクラスタ数および該クラスタ数近辺のいくつかのクラスタ数を想定した上で、それぞれのクラスタ数について生成モデルを算出するために必要な十分統計量を算出し、生成モデルのパラメータ値を推定し前記パラメータ記憶手段のパラメータ値を更新するパラメータ更新手段と、
    を備えた音声分類システム。
  26. 前記パラメータ記憶手段に記憶されている生成モデルのパラメータおよび十分統計量を読み出し、クラスタ数を1つ増やした場合の生成モデルを作成する新規話者登録手段と、
    前記パラメータ更新手段が想定したいくつかのクラスタ数について、前記パラメータ更新手段による生成モデルのパラメータ値の推定結果から、最適なクラスタ数を決定し、決定したクラスタ数に対応する十分統計量およびパラメータ値を、前記パラメータ記憶手段に記憶するクラスタ数決定手段と、
    を備えた請求項25記載の音声分類システム。
JP2009509015A 2007-03-26 2008-03-13 音声分類装置、音声分類方法、および音声分類用プログラム Active JP5418223B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009509015A JP5418223B2 (ja) 2007-03-26 2008-03-13 音声分類装置、音声分類方法、および音声分類用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007079677 2007-03-26
JP2007079677 2007-03-26
PCT/JP2008/054668 WO2008126627A1 (ja) 2007-03-26 2008-03-13 音声分類装置、音声分類方法、および音声分類用プログラム
JP2009509015A JP5418223B2 (ja) 2007-03-26 2008-03-13 音声分類装置、音声分類方法、および音声分類用プログラム

Publications (2)

Publication Number Publication Date
JPWO2008126627A1 true JPWO2008126627A1 (ja) 2010-07-22
JP5418223B2 JP5418223B2 (ja) 2014-02-19

Family

ID=39863754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009509015A Active JP5418223B2 (ja) 2007-03-26 2008-03-13 音声分類装置、音声分類方法、および音声分類用プログラム

Country Status (3)

Country Link
US (1) US8630853B2 (ja)
JP (1) JP5418223B2 (ja)
WO (1) WO2008126627A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219510B2 (en) * 2009-03-29 2012-07-10 Mitsubishi Electric Research Laboratories, Inc. Method for determining distributions of unobserved classes of a classifier
JP5272141B2 (ja) * 2009-05-26 2013-08-28 学校法人早稲田大学 音声処理装置およびプログラム
WO2011007497A1 (ja) * 2009-07-16 2011-01-20 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US20120168331A1 (en) * 2010-12-30 2012-07-05 Safecode Drug Technologies Corp. Voice template protector for administering medicine
JP5767825B2 (ja) * 2011-02-28 2015-08-19 綜合警備保障株式会社 音処理装置および音処理方法
US20120330880A1 (en) * 2011-06-23 2012-12-27 Microsoft Corporation Synthetic data generation
JP5591772B2 (ja) * 2011-08-25 2014-09-17 日本電信電話株式会社 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム
US20130325483A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Dialogue models for vehicle occupants
US8972312B2 (en) * 2012-05-29 2015-03-03 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
US8965921B2 (en) * 2012-06-06 2015-02-24 Rackspace Us, Inc. Data management and indexing across a distributed database
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9251784B2 (en) * 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
EP3423989B1 (en) * 2016-03-03 2020-02-19 Telefonaktiebolaget LM Ericsson (PUBL) Uncertainty measure of a mixture-model based pattern classifer
CN105761720B (zh) * 2016-04-19 2020-01-07 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互系统及其方法
WO2018169381A1 (en) * 2017-03-17 2018-09-20 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
US11227065B2 (en) 2018-11-06 2022-01-18 Microsoft Technology Licensing, Llc Static data masking
US10614809B1 (en) * 2019-09-06 2020-04-07 Verbit Software Ltd. Quality estimation of hybrid transcription of audio
JP7377736B2 (ja) * 2020-02-21 2023-11-10 株式会社日立製作所 オンライン話者逐次区別方法、オンライン話者逐次区別装置及びオンライン話者逐次区別システム
KR102396136B1 (ko) * 2020-06-02 2022-05-11 네이버 주식회사 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP2946449B2 (ja) * 1993-03-23 1999-09-06 株式会社山武 クラスタリング処理装置
JP3533696B2 (ja) 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
JPH08123468A (ja) * 1994-10-24 1996-05-17 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者モデル作成装置及び音声認識装置
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5839103A (en) 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure
JPH1185184A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JP2965537B2 (ja) 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
US6208963B1 (en) 1998-06-24 2001-03-27 Tony R. Martinez Method and apparatus for signal classification using a multilayer network
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
JP3919475B2 (ja) * 2001-07-10 2007-05-23 シャープ株式会社 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP3667332B2 (ja) * 2002-11-21 2005-07-06 松下電器産業株式会社 標準モデル作成装置及び標準モデル作成方法
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
EP1531478A1 (en) 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
JP4220449B2 (ja) 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム

Also Published As

Publication number Publication date
WO2008126627A1 (ja) 2008-10-23
US20100138223A1 (en) 2010-06-03
US8630853B2 (en) 2014-01-14
JP5418223B2 (ja) 2014-02-19

Similar Documents

Publication Publication Date Title
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
EP1515305B1 (en) Noise adaption for speech recognition
JP5242724B2 (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
US8494847B2 (en) Weighting factor learning system and audio recognition system
WO2008001485A1 (fr) système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JP2002268675A (ja) 音声認識装置
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
Rosti Linear Gaussian models for speech recognition
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2852298B2 (ja) 標準パターン適応化方式
GB2480084A (en) An adaptive speech processing system
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
Yu et al. Unsupervised adaptation with discriminative mapping transforms
JP4510517B2 (ja) 音響モデル雑音適応化方法およびこの方法を実施する装置
Liu et al. Automatic model complexity control using marginalized discriminative growth functions
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
JP2005091504A (ja) 音声認識装置
JP4571921B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体
Liu Discriminative complexity control and linear projections for large vocabulary speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130827

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131104

R150 Certificate of patent or registration of utility model

Ref document number: 5418223

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150