WO2002101719A1

WO2002101719A1 - Voice recognition apparatus and voice recognition method

Info

Publication number: WO2002101719A1
Application number: PCT/JP2002/005647
Authority: WO
Inventors: Helmut Lucke
Original assignee: Sony Corporation
Priority date: 2001-06-08
Filing date: 2002-06-07
Publication date: 2002-12-19
Also published as: CN1244902C; KR100924399B1; EP1394770A1; CN1465043A; US20040059576A1; US7219055B2; EP1394770A4; JP2002366187A; KR20030018073A

Description

明細書

音声認識装置および音声認識方法技術分野

本発明は、音声認識装置および音声認識方法に関し、複数のユーザによって, あるいは複数の環境下において装置が使用される場合でも、ユーザに、モデル適応を意識させることなく、高い精度の音声認識を行うことができるようにする音声認識装置およぴ音声認識方法に関する。背景技術

音声認識装置においては、一般に、次のような処理（音声認識処理）が行われることにより、入力された音声が音声認識される。

即ち、音声認識装置では、入力された音声が音響分析されることにより、その音声の特徴量を表す所定次元の特徴ベクトルの抽出が行われる。ここで、音声分析の方法としては、フリーェ変換その他がある。

その後、特徴ベクトル系列と、音響モデルとのマッチング処理が行われ、そのマッチング処理の結果得られる、特徴べクトル系列にマッチする音響モデルの系列に対応する単語列（単語）力音声認識結果とされる。

マッチング処理を、例えば、連続 HMM (Hidden Markov Model)法によって行う場合、音響モデルとしては、特徴ベクトル空間で定義される 1以上のガウス確率分布等の確率（密度）関数を用いて構成される HMMが用いられる。そして、マッチング処理では、音響モデルを構成するガウス確率分布を用い、音声認識結果の複数の候補（以下、適宜、仮説という）としての音響モデルの系列から、特徴ベクトル系列が観測される尤度（スコア）が計算され、そのスコアに基づいて、複数の仮説の中から、最終的な音声認識結果が決定される。即ち. 複数の仮説のうち、特徴べクトル系列に対するスコアを最も高くする仮説が、入力音声に最もマッチするものとして選択され、その仮説を構成する音響モデルの系列に対応する単語列が、音声認識結果として出力される。

ところで、近年においては、様々な音声認識装置が提案されているが、これらの音声認識装置は、大きく、特定話者用の音声認識装置、不特定話者用の音声認識装置、およびモデル適応型の音声認識装置の 3つに分けることができる _c 特定話者用の音声認識装置では、特定話者の音声を用いて学習された音響モデルが用いられるため、その特定話者の音声については、精度の高い（誤認識率の低い）音声認識結果を得ることができる。しかしながら、特定話者用の音声認識装置においては、その特定話者以外の話者については、一般に、音声認識精度が大きく劣化する。

不特定話者用の音声認識装置では、不特定多数の話者の音声を用いて学習された音響モデルが用いられるため、任意の話者について、比較的精度の高い音声認識結果を得ることができる。しかしながら、不特性話者用の音声認識装置においては、ある特定話者に注目すると、その特定話者については、その特定話者用の音声認識装置ほどの音声認識精度を得ることはできない。

モデル適応型の音声認識装置は、最初は、不特定話者用の音声認識装置と同様の性能を有するが、特定のユーザ（話者）が装置を使用していると、そのュ一ザの音声によって、音響モデルのモデル適応が行われ、そのユーザに対する音声認識精度が向上していく。

即ち、モデル適応型の音声認識装置は、最初は、不特定話者用の音声認識装置における場合と同様の音響モデルを用いて音声認識を行うが、その際、ユーザから入力された音声と、音響モデルとの間のミスマッチを分析し、その分析結果に基づき、音響モデルを、入力音声にマッチするもの（適用するもの）に変換する変換行列を求める。そして、その後は、音響モデルを変換行列で変換した音響モデル、即ち、モデル適応を行った音響モデルを用いて音声認識が行われる。モデル適応型の音声認識装置では、上述のようなモデル適応が、例えば、ユーザが装置を本格的に使用する前に、トレーニングとして行われ、これにより、音響モデルが、そのユーザの音声にマッチするものに変換されるので. その特定のユーザに対する音声認識精度が向上する。

なお、モデル適応型の音声認識装置における音響モデルは、上述したよう入力された音声を音声認識するのに適したものに変換されるから、ユーザ（話者）に注目すれば、音声認識装置は、そのユーザに適応することになるが、その音声認識装置が使用される環境に注目すれば、その環境に適応することになる。

即ち、音声認識装置が使用される環境においては、例えば、その場所におけるノィズゃ、ユーザの音声が音声認識装置に入力されるまでのチャネルの歪みが存在する。モデル適応型の音声認識装置が、ある一定の環境下で使用される場合、音響モデルは、その環境下における音に適応するように変換されることとなるから、その意味で、モデル適応型の音声認識装置は、それが使用される環境に適応することになる。ここで、チャネルの歪みとしては、音声を電気信号に変換するためのマイクの特性に基づくものや、音声認識装置に入力される音声が、電話回線等の帯域制限された伝送路を送信されてくる場合の、その伝送路の特性に基づくものなどがある。

ここで、音響モデルとして、 HMMを用いる場合、そのモデル適応は、例えば、その HMMを構成するガウス確率分布を定義する平均べクトルを、上述の変換行列によって線形変換することによって行われる。なお、このように音響モデルを変換するモデル適応と同等の効果は、特徴べクトルを変換行列によつて線形変換し、その変換後の特徴ベクトルと音響モデルを用いて、スコア計算を行うことによつても得ることができる。従って、モデル適応とは、変換行列によって、音響モデルを変換することと、特徴ベクトルを変換することのいずれをも意味する。即ち、モデル適応では、ユーザの音声から得られた特徴べクトルに、音響モデルを適応させても良いし、ユーザの音声から得られた特徴べクトルを、音響モデルに適応させても良い。

モデル適応は、ある注目発話の特徴べクトルが音響モデルから観測される尤度、即ち、いまの場合は、注目発話に対応する音響モデル（注目発話の音韻等を表す音響モデル）としての HMMを構成するガウス確率分布から計算される、特徴ベクトルに対するスコアを改善すること（スコアを高くすること）を目的とするから、例えば、いま、特徴べクトルを変換するモデル適応について考えてみると、この場合、特徴ベクトルが、変換行列によって変換されることにより、音響モデルを構成するガウス確率分布を定義する平均べクトルに写像されるのが理想的である。

そこで、モデル適応では、注目発話に対応する音響モデルから計算される、注目発話の特徴べクトルに対するスコアが、他の音響モデルから計算されるスコアよりも大きくなるようにするため、注目発話の特徴ベクトルを、注目発話に対応する音響モデルを構成するガウス確率分布を定義する平均べクトルに一致させる線形変換を行う変換行列が求められる。この変換行列の算出は、例えば、定期的、あるいは不定期に行うことができ、音声認識時には、その変換行列によって変換した特徴ベクトル（あるいは、音響モデル）を用いて、マッチング処理が行われる。

なお、ある特定話者について、モデル適応を行うための変換行列は、その特定話者の複数発話から得られる複数の特徴べクトル系列を用いて求められる。

従って、変換行列としては、複数の特徴べクトルそれぞれを、対応する平均べクトルに一致させる行列を求める必要がある。複数の特徴べクトルそれぞれを, 対応する平均ベクトルに写像する変換行列を求める方法としては、例えば、線形回帰（最小自乗法）を用いるものが知られている。伹し、このようにして求められた変換行列は、特定話者の発話から得られる特徴べクトルを、対応する平均ベクトルとの統計的な誤差（ここでは、自乗誤差の総和）を最小にするベタトルに写像するものであり、従って、その変換行列によって、特定話者の'発話から得られる任意の特徴べクトルを、対応する平均べクトルに完全に一致するように変換することは、一般にはできない。

また、モデル適応の手法としては、上述した手法以外にも、細かな点で異なる種々の方法があるが、いずれの手法にしても、基本は、上述した手法と同様に、注目発話の特徴べクトル、または注目発話に対応する音響モデルを、その音響モデルから、その特徴べクトルが観測される尤度を最大にするように変換するものであるということができる。

モデル適応型の音声認識装置において、ある特定ユーザの音声によるモデル適応、あるいは、ある特定環境下でのモデル適応が進んでいくと、その特定ュ一ザの音声や、特定環境下での音声認識精度が向上していくが、その一方で、他のユーザや他の環境での音声認識精度は劣化していく。その結果、モデル適応型の音声認識装置は、特定話者用の音声認識装置と同様の性能を有するものとなる。

ところで、モデル適応型の音声認識装置が、上述のように、特定ユーザゃ特定環境に適応した後であっても、その音声認識装置を、他のユーザが使用し、あるいは他の環境下で使用することにより、その、他のユーザや他の環境に適応させることが可能である。

しかしながら、他のユーザや他の環境での使用が開始された直後においては、音声認識装置の音響モデルは、最初のユーザや最初の環境に適応したものとなつているから、その音響モデルが、他のユーザや他の環境に適応するまでの間は、音声認識精度が大きく劣化する。

さらに、場合によっては、最初のユーザや最初の環境に適応した音響モデルを、他のユーザや他の環境に対して、十分に適応させることができないことがあり、その場合、最初のユーザや最初の環境に適応した音響モデルを、元の状態の音響モデルに戻してから（リセットしてから）、他のユーザや他の環境に適応させてやる必要がある。

そこで、複数セットの音響モデルを用意しておき、ユーザごとに異なるセットの音響モデルを、そのユーザに適応させる音声認識装置があり、このような音声認識装置によれば、複数のユーザそれぞれについて、そのユーザに適応させた音響モデルを用いて音声認識が行われるため、その複数のユーザすべてに対して、特定話者用の音声認識装置と同様の音声認識精度を得ることができる _c しかしながら、このような音声認識装置においては、発話しているユーザに適応した音響モデルを用いて音声認識を行うので、どのユーザが発話を行っているのかを装置に知らせてやらなければならず、そのため、ユーザは、装置の使用を開始する前に、ポタンを操作すること等により、自身を特定する情報を入力する必要があり、面倒であった。発明の開示

本発明は、このような状況に鑑みてなされたものであり、複数のユーザによつて、あるいは複数の環境下において使用される場合でも、ユーザに、モデル適応を意識させることなく、高い精度の音声認識を行うことができるようにするものである。

本発明の音声認識装置は、入力音声と、音声認識に用いる音響モデルのうちの一方を変換し、他方に適応させるモデル適応を行うときの、入力音声または音響モデルのうちの一方を変換する 1以上の変換関数を記憶する変換関数記憶手段と、入力音声とその入力音声に対応する音響モデルのうちの一方を、変換関数記憶手段に記憶された 1以上の変換関数それぞれによつて変換した変換結果に基づき、変換関数記憶手段に記憶された 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数を検出し、その最適な変換関数に、入力音声を割り当てる割り当て手段と、変換関数が割り当てられた入力音声を記憶する音声記憶手段と、変換関数記憶手段に記憶された 1以上の変換関数のうち、割り当て手段において新たな入力音声が割り当てられた変換関数を、その変換関数に割り当てられているすべての入力音声を用いて更新する変換関数更新手段と、変換関数記憶手段に記憶された 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を変換するのに用いる変換関数を選択する変換関数選択手段と、変換関数選択手段おいて選択された変換関数によって、入力音声と音響モデルのうちの一方を変換する変換手段と、入力音声と音響モデルのうちの一方を変換関数によって変換したものと他方とのマッチング処理を行い、そのマッチング処理結果に基づいて、入力音声の音声認識結果を出力するマッチング手段とを備えることを特徴とする。

本発明の音声認識方法は、入力音声とその入力音声に対応する音響モデルのうちの一方を、 1以上の変換関数それぞれによって変換した変換結果に基づき 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数を検出し、その最適な変換関数に、入力音声を割り当てる割り当てステップと、 1以上の変換関数のうち、割り当てステップにおいて新たな入力音声が割り当てられた変換関数を、その変換関数に割り当てられているすべての入力音声を用いて更新する変換関数更新ステップと、 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を変換するのに用いる変換関数を選択する変換関数選択ステツプと、変換関数選択ステツプおいて選択された変換関数によって、入力音声と音響モデルのうちの一方を変換する変換ステツプと、入力音声と音響モデルのうちの一方を変換関数によって変換したものと、他方とのマッチング処理を行い、そのマッチング処理結果に基づいて、入力音声の音声認識結果を出力するマッチングステップとを備えることを特徴とする。

本発明のプログラムは、入力音声とその入力音声に対応する音響モデルのうちの一方を、 1以上の変換関数それぞれによつて変換した変換結果に基づき、 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数を検出し、その最適な変換関数に、入力音声を割り当てる割り当てステップと、 1以上の変換関数のうち、割り当てステップにおいて新たな入力音声が割り当てられた変換関数を、その変換関数に割り当てられているすべての入力音声を用いて更新する変換関数更新ステップと、 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を変換するのに用いる変換関数を選択する変換関数選択ステップと、変換関数選択ステップおいて選択された変換関数によって、入力音声と音響モデルのうちの一方を変換する変換ステップと、入力音声と音響モデルのうちの一方を変換関数によって変換したものと、他方とのマッチング処理を行い、そのマッチング処理結果に基づいて、入力音声の音声認識結果を出力するマッチングステップとを備えることを特徴とする。

本発明の記録媒体は、入力音声とその入力音声に対応する音響モデルのうちの一方を、 1以上の変換関数それぞれによって変換した変換結果に基づき、 1 以上の変換関数の中から、入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数を検出し、その最適な変換関数に、入力音声を割り当てる割り当てステップと、 1以上の変換関数のうち、割り当てステップにおいて新たな入力音声が割り当てられた変換関数を、その変換関数に割り当てられているすべての入力音声を用いて更新する変換関数更新ステップと、 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を変換するのに用いる変換関数を選択する変換関数選択ステツプと、変換関数選択ステップおいて選択された変換関数によって、入力音声と音響モデルのうちの一方を変換する変換ステップと、入力音声と音響モデルのうちの一方を変換関数によって変換したものと、他方とのマッチング処理を行い、そのマッチング処理結果に基づいて、入力音声の音声認識結果を出力するマッチングステップとを備えるプログラムが記録されていることを特徴とする。

本発明においては、入力音声とその入力音声に対応する音響モデルのうちの一方を、 1以上の変換関数それぞれによって変換した変換結果に基づき、その 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数が検出され、その最適な変換関数に、入力音声が割り当てられて、新たな入力音声が割り当てられた変換関数が、その変換関数に割り当てられているすべての入力音声を用いて更新される _σ さらに、 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を変換するのに用いる変換関数が選択され、その選択された変換関数によって、入力音声と音響モデルのうちの一方が変換される。そして、入力音声と音響モデルのうちの一方を変換関数によって変換したものと、他方とのマッチング処理が行われ、そのそのマツチング処理結果に基づいて、入力音声の音声認識結果が出力される。図面の簡単な説明

図 1は、本発明を適用した音声認識装置の一実施の形態の構成例を示すブロック図である。

図 2は、音声認識処理を説明するフローチャートである。

図 3は、適応データ登録処理を説明するフローチャートである。

図 4は、変換行列更新処理を説明するフローチャートである。

図 5は、変換行列生成 Z削除処理を説明するフローチャートである。

図 6は、変換行列生成処理を説明するフローチャートである。

図 7は、変換行列削除処理を説明するフローチャートである。

図 8は、本発明を適用した音声認識装置の他の一実施の形態の構成例を示すプロック図である。

図 9は、本発明を適用したコンピュータの一実施の形態の構成例を示すプロック図である。発明を実施するための最良の形態

図 1は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。

ユーザが発した音声は、マイク (マイクロフオン) 1に入力され、マイク 1 では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、 A/D (Analog Digital)変換部 2に供給される。 A/D変換部 2では、マイク 1からのアナログ信号である音声信号がサンプリング、量子化され、デイジタル信号である音声データに変換される。この音声データは、特徴抽出部 3に供給される。

特徴抽出部 3は、 A/D変換部 2からの音声データについて、適当なフレームごとに音響分析処理を施し、これにより、例えば、 M F C C (Mel Frequency Cepstrura Coefficient)等の特徴量としての特徴べクトルを抽出する。なお、特徴抽出部 3では、その他、例えば、スぺクトルや、線形予測係数、ケプストラム係数、線スぺクトル対等の特徴べクトルを抽出することが可能である。

特徴抽出部 3においてフレームごとに得られる特徴べクトノレは、特徴べクトルバッファ 4に順次供給されて記憶される。従って、特徴ベクトルバッファ 4 では、フレームごとの特徴べクトルの時系列が記憶されていく。

なお、バッファ 4は、例えば、ある発話の開始から終了まで（音声区間）に得られる時系列の特徴べクトルを記憶する。

変換部 5は、選択部 1 4から供給される変換行列によって、バッファ 4に記憶された特徴べクトルを線形変換し、その変換後の特徴べクトル（以下、適宜、変換特徴べクトルという）を、音響モデル記憶部 Ίに記憶された音響モデルに適応させたものとして、マッチング部 6に供給する。

マッチング部 6は、変換部 5から供給される特徴べクトル（変換特徴べクトル）を用いて、音響モデル記憶部 7、辞書記憶部 8、および文法記憶部 9を必要に応じて参照しながら、マイク 1に入力された音声（入力音声）を、例えば、連続分布 HMM法等に基づいて音声認識する。

即ち、音響モデル記憶部 7は、音声認識する音声の言語における個々の音素や音節などの所定の単位（PLU (Phonetic-Linguistic- Units)ごとの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布 HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、所定の特徴ベクトル系列が観測される確率を計算するのに利用されるガウス分布を有する HMM (Hidden M arkov Model)が用いられる。ここで、 HMMが有するガウス分布は、平均べクトルと共分散行列とで定義される。なお、 HMMは、ガウス分布以外の確率密度関数を用いて構成することが可能である。

辞書記憶部 8は、認識対象の各単語（語彙）について、その発音に関する情報（音韻情報）が記述された単語辞書を記憶している。

文法記憶部 9は、辞書記憶部 8の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則（言語モデル）を記憶している。ここで、文法規則としては、例えば、文脈自由文法（C F G ) や、統計的な単語連鎖確率（N— g r a m) などに基づく規則を用いることができる。マッチング部 6は、辞書記憶部 8の単語辞書を参照することにより、音響モデル記憶部 7に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部 6は、幾つかの単語モデルを、文法記憶部 9に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、時系列の特徴べクトルに基づき、連続分布 HMM法によって、マイク 1に入力された音声を認識する。即ち、マツチング部 6は、上述したよにして構成された各単語モデルの系列から、変換部 5を介して供給される時系列の特徴べクトルが観測される尤度を表すスコァを計算する。そして、マッチング部 6は、そのスコアが最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。

なお、ここでは、 HMM法により音声認識が行われるため、マッチング部 6 は、接続された単語モデルに対応する単語列について、各特徴べクトルの出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。

スコア計算は、一般に、音響モデル記憶部 7に記憶された音響モデルによつて与えられる音響的なスコア（以下、適宜、音響スコアという）と、文法記憶部 9に記憶された文法規則によって与えられる言語的なスコア（以下、適宜、言語スコアという）とを総合評価することで行われる。

即ち、音響スコアは、例えば、 HMM法による場合には、単語モデルを構成する音響モデルから、特徴抽出部 3が出力する特徴べクトルの系列が観測される確率に基づいて計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖（連接）する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア（以下、適宜、最終スコアという）に基づいて、音声認識結果が確定される。

具体的には、ある N個の単語からなる単語列における k番目の単語を w_kとして、その単語 w_kの音響スコアを A (w_k) と、言語スコアを L (w_k) と、それぞれ表すとき、その単語列の最終スコア Sは、例えば、次式にしたがって計算される。

S =∑ (A (w_k) + C _k X L ( w_k) )

• · · ( 1 ) 但し、 ∑は、 kを 1から Nに変えてのサメーシヨンをとることを表す。また、 C _kは、単語 w_kの言語スコア L (w_k) にかける重みを表す。

マッチング部 6では、例えば、上式に示す最終スコアを最も大きくする Nと、単語列 _{W l}， w₂, ■ · ·， w_Nを求めるマッチング処理が行われ、その単語列 _{W l}， w₂, · · ·， w_Nが、音声認識結果として出力される。

以上のようなマツチング処理が行われることにより、図 1の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューヨーク」、「に」、「行きたい」、「です」といった各単語に、音響スコアおよび言語スコアが与えられ、それらを総合評価して得られる最終スコァが最も大きいときに、単語列「ニューヨーク」、「に」、「行きたい」、「です」、音声認識結果として出力される。

ところで、上述の場合において、辞書記憶部 8の単語辞書に、「ニューョーク J 、「に」、「行きたい」、および「です」の 4単語が登録されているとすると、これらの 4単語を用いて構成しうる 4単語の並びは、 4⁴通り存在する。従って、単純には、マッチング部 6では、この 4 ⁴通りの単語列を評価し、その中から、ユーザの発話に最も適合するもの（最終スコアを最も大きくするもの）を決定しなければならない。そして、単語辞書に登録する単語数が増えれば、その単語数分の単語の並びの数は、単語数の単語数乗通りになるから、評価の対象としなければならない単語列は、膨大な数となる。さらに、一般には、発話中に含まれる単語の数は未知であるから、 4単語の並びからなる単語列だけでなく、 1単語、 2単語、 · · ·からなる単語列も、評価の対象とする必要がある。従って、評価すべき単語列の数は、さらに膨大なものとなるから、そのような膨大な単語列の中から、音声認識結果として最も確からしいものを、計算量および使用するメモリ容量の観点から効率的に決定することは、非常に重要な問題である。

計算量およびメモリ容量の効率化を図る方法としては、例えば、音響スコアを求める過程において、その途中で得られる音響スコアに基づき、そのスコア計算を打ち切るという音響的な枝刈り手法や、言語スコアに基づき、スコア計算の対象とする単語を絞り込む言語的な枝刈り手法がある。

これらの枝刈り手法は、ビームサーチ法とも呼ばれる。また、ビームサーチ法において、単語の絞り込み（枝刈り）には、所定の閾値が用いられるが、この閾値は、ビーム幅と呼ばれる。

ここで、以下、適宜、音響スコアや言語スコアを、まとめて、スコアというビームサーチ法では、ある単語の系列を、音声認識結果の候補としての仮説として、その仮説としての単語の系列（音声認識結果の侯捕) に、新たに単語を接続することにより、新たな仮説が生成され、生成された各仮説としての単語の系列についてのスコアが、特徴ベクトルを用いて計算される。さらに、スコアが比較的低い仮説が削除され、残った仮説について、以下、同様の処理が繰り返される。

そして、音声認'識対象の発話から得られた特徴べクトル系列の先頭から最後まで（音声区間）に対して、スコアの計算が終了すると、その時点で残っている仮説のうち、例えば、最もスコアの高い仮説としての単語の系列が、音声認識結果とされる。

登録部 1 0は、バッファ 4に記憶された、例えば、発話ごと（音声区間ごと）の音声の特徴べクトル系列を、その音声に対応する系列の音響モデル（ここ.では、上述したように、 HMM) それぞれが有するガウス分布を定義する平均べクトルの系列に対応付け、適応データベース 1 1に供給する。

ここで、登録部 1 0が適応データベース 1 1に供給する特徴べクトル系列と、それに対応付けられた平均べクトルの系列は、特徴抽出部 3が出力する特徴べクトルを、音響モデル記憶部 7に記憶された音響モデルに適応させるのに用いられる変換行列の更新に用いられる。そこで、登録部 1 0が適応データベース 1 1に供給する特徴べクトル系列と、それに対応付けられた平均べクトルの系列との組を、以下、適宜、適応データという。

このような適応データにおける平均べクトルの系列は、対応する音響モデルの系列から観測される尤度（確率）が最も高い特徴ベクトル系列であり、従つて、理想的には、適応データにおける特徴べクトル系列を、その特徴べクトルに対応付けられている平均べクトルの系列に変換する変換行列が、最適なモデル適応を行う変換行列であるということができる。

なお、適応データを構成するには、音声の特徴べクトルと、その音声に対応する系列の音響モデルを得る必要があるが、適応データを構成する音声の特徴ベタトルは、マイク 1に入力されたユーザ等の音声を、特徴抽出部 3で処理することにより得ることができる。一方、マイク 1に入力された音声に対応する系列の音響モデルを、どのように認識するかが問題となるが、これは、例えば、次のような 2つの方法によつて認識することができる。

即ち、第 1の方法では、音声認識装置において、ユーザに対し、所定の単語の発話を要求する。この場合、その要求に応じて、ユーザが所定の単語を発話したとすれば、その音声に対応する音響モデルの系列は、ユーザに発話を要求した所定の単語に基づいて認識することができる。

また、第 2の方法では、音声認識装置において、ユーザの音声から得られる特徴べクトルを、変換部 5において、後述する変換行列記憶部 1 3に記憶された変換行列それぞれで変換し、その結果得ちれる変換特徴べクトルそれぞれを用いて、マッチング部 6においてマッチング処理を行う。この場合、変換特徴ベタトルそれぞれについて得られる音声認識結果のうち、最もスコアの高いものを、正しい音声認識結果として、その音声認識結果に対応する音響モデルの系列を、ユーザの音声に対応する音響モデルの系列として認識することができる。

なお、第 2の方法による場合には、登録部 1 0は、マッチング部 6の内部状態を監視することによりスコアを認識し、バッファ 4に記憶された音声の特徴ベクトル系列について、その音声に対応する（スコアを最も高くする）音響モデルの系列を認識する。

また、第 1及ぴ第 2の方法のいずれによる場合でも、登録部 1 0では、音響モデルとしての HMMについての平均べクトル（HMMを構成する状態から特徴べクトルが観測される確率を計算するのに用いるガウス分布を定義する平均ベタトル）を認識する必要があるが、登録部 1 0は、この平均べクトノレを、音響モデル記憶部 7を参照することで認識する。

適応データベース 1 1は、登録部 1 0から供給される適応データを、その適応データが、変換行列記憶部 1 3に記憶されたいずれの変換行列に割り当てられているのかを表す割り当て情報とともに記憶する。なお、割り当て情報は、モデル適応部 1 2力ゝら、適応データベース 1 1に供給されるようになっている, モデル適応部 1 2は、適応データベース 1 1に記憶された適応データを用いて、音声の特徴べクトルを音響モデル記憶部 7に記憶された音響モデルに適応させるモデル適応を行うのに用いられる変換行列の更新、生成、削除等を行う, また、モデル適応部 1 2は、適応データベース 1 1に、新たな適応データが記憶された場合、その適応データを、変換行列記憶部 1 3に記憶された変換行列のいずれに割り当てるべきかを認識し、その変換行列に割り当てる。

即ち、モデル適応部 1 2は、適応データベース 1 1に、新たに記憶された適応データを、変換行列記憶部 1 3に記憶された変換行列のいずれに割り当てるべきかを認識し、その割り当てを表す割り当て情報を生成する。そして、モデル適応部 1 2は、その割り当て情報を、適応データベース 1 1に供給し、対応する適応データに対応付けて記憶させる。従って、図 1の音声認識装置では（後述する図 8の音声認識装置においても同様）、適応データベース 1 1に記憶されたすベての適応データは、変換行列記憶部 1 3に記憶された変換行列のいずれかに割り当てられるようになっており、この割り当てにより、適応データは、幾つかのクラス（変換行列によって特定されるクラス）に分類される（サブセット化される）ことになる。

変換行列記憶部 1 3は、 1以上の変換行列を記憶する。なお、変換行列記憶部 1 3は、初期状態としては、例えば、 1つの変換行列だけを記憶している。ここで、変換行列記憶部 1 3に、初期状態として記憶させておく 1つの変換行列としては、例えば、従来のモデル適応型の音声認識装置における場合と同様に、恒等行列（単位行列）等を採用することができる。

選択部 1 4は、マッチング部 6の内部状態を監視しており、その監視結果に基づき、変換行列記憶部 1 3に記憶された 1以上の変換関数の中から、バッファ 4に記憶された特徴べクトルを変換するのに用いるものを選択し、変換部 5 に供給する。

次に、図 2のフローチャートを参照して、図 1の音声認識装置による音声認識処理について説明する。

マイク 1に入力されたユーザの音声は、 AZD変換部 2を介することによりディジタルの音声データとして、特徴抽出部 3に供給され、特徴抽出部 3は、そこに供給される音声データについて、所定のフレームごとに音響分析を行い特徴ベクトルを抽出する。特徴抽出部 3においてフレームごとに得られる特徴べクトノレは、バッファ 4に順次供給されて記憶される。特徴抽出部 3による特徴ベクトルの抽出、およびバッファ 4による特徴ベクトルの記憶は、ユーザの 1発話（音声区間）が終了するまで続行される。

なお、音声区間の検出は、例えば、公知の方法等によって行うものとする。以上のようにして、ノッファ 4に、特徴べクトルの記憶が開始されると、選択部 1 4は、ステップ S 1において、変換行列記憶部 1 3に記憶されたすベての変換行列を選択し、変換部 5に供給して、ステップ S 2に進む。ここで、選択部 1 4において選択された変換行列を、以下、適宜、選択変換行列という。ステップ S 2では、変換部 5が、バッファ 4からの時系列の特徴ベクトルの読み出し、選択部 1 4から供給された選択変換行列による、バッファ 4から読み出した特徴べクトルの変換、およびその変換によって得られる変換特徴べクトルのマッチング部 6への供給を開始する。

即ち、いまの場合、変換行列記憶部 1 3に記憶された変換行列すべてが、選択変換行列となっているので、変換部 5は、その変換行列それぞれによって、バッファ 4に記憶された特徴べタトルを変換し、その結果得られる変換特徴べタトルの系列を、マッチング部 6に供給する。

従って、ステップ S 2では、マッチング部 6に対して、変換行列記憶部 1 3 に記憶された 1以上の変換行列それぞれによって変換された特徴べクトル系列の供給が開始される。

その後、ステップ S 3に進み、マッチング部 6は、そこに供給される特徴べクトル系列を用い、音響モデル記憶部 7、辞書記憶部 8、および文法記憶部 9 を必要に応じて参照し、連続分布 HMM法等に基づくスコアを、ビームサーチ法により仮説の枝刈りをしながら計算するマッチング処理を行う。

即ち、マツチング部 6は、変換行列記憶部 1 3に記憶された 1以上の変換行列それぞれによって変換された特徴べクトル系列それぞれについて、マツチング処理を行う。

そして、ステップ S 4に進み、マッチング部 6は、変換行列記憶部 1 3に記憶された 1以上の変換行列それぞれによって変換された特徴べクトル系列それぞれについて、音声区間の開始時刻から所定時間分の仮説が得られたかどうかを判定する。

ステップ S 4において、音声区間の開始時刻から所定時間分の仮説がまだ得られていないと判定された場合、ステップ S 3に戻り、マッチング部 6は、変換部 5から供給される特徴べクトル系列を用いたマツチング処理を続行する。また、ステップ S 4において、音声区間の開始時刻から所定時間分の仮説が得られたと判定された場合、即ち、マッチング部 6において、変換行列記憶部 1 3に記憶された 1以上の変換行列それぞれによって変換された特徴べクトル系列それぞれについて、音声区間の開始時刻から所定時間分の仮説が得られた場合、ステップ S 5に進み、選択部 1 4は、変換行列記憶部 1 3に記憶された 1以上の変換行列それぞれによって変換された特徴べクトル系列それぞれについて得られた所定時間分の仮説の中から、最もスコアの高いものを選択する。

さらに、ステップ S 5では、選択部 1 4は、その最もスコアの高い仮説が得られた特徴べクトル系列を変換するのに用いた変換行列を検出し、ステップ S 6 に進む。

ここで、このようにして検出された変換行列（以下、適宜、検出変換行列という）は、いま入力されているユーザの音声（の特徴ベクトル）に対して、音響モデル記憶部 7に記憶された音響モデルから得られる最も高いスコアを与えるものであるから、ユーザの音声を、音響モデル.に最も適応させるもの、即ち. そのユーザの音声に対して最適な変換行列であるということができる。

ステップ S 6では、選択部 1 4が、変換行列記憶部 1 3に記憶された変換行列の中から、ステップ S 5で検出された検出変換行列（最適な変換行列）を選択し、その選択変換行列を、変換部 5に供給して、ステップ S 7に進む。

ステップ S 7では、変換部 5が、選択部 1 4から供給された選択変換行列による、バッファ 4から読み出した特徴ベクトルの変換、およびその変換によつて得られる変換特徴べクトルのマッチング部 6への供給を開始する。

即ち、これにより、いま入力されているユーザの音声を、音響モデルに最も適応させる変換行列（以下、適宜、最適変換行列という）によって変換された特徴べクトル系列の、マッチング部 6への供給が開始される。

その後、ステップ S 8に進み、マッチング部 6は、そこに供給される特徴べクトル系列を用い、マッチング処理を続行する。即ち、マッチング部 6は、変換行列記憶部 1 3に記憶された変換行列のうち、いま入力されている音声にとつて最適な変換行列によって変換された特徴べクトル系列を用いて、マツチング処理を続行する。これにより、マッチング部 6は、最適変換行列によって変換された特徴べクトル系列を用いて得られるスコアを計算していく。

なお、その際、マッチング部 6は、ステップ S 3および S 4のループ処理で得られた、最適変換行列以外の変換行列によって変換した特徴べクトルを用いて求められたスコアおよび仮説を削除する。

そして、マッチング部 6は、音声区間の終了時刻までのスコアの計算が終了すると、ステップ S 9に進み、それまでに残っている仮説の中から、最もスコァの高いものを検出し、音声認識結果として出力して、ステップ S 1 0に進む。ステップ S 1 0では、適応データベース 1 1に、新たな適応データを登録する（記憶させる）適応データ登録処理が行われ、音声認識処理を終了する。

次に、図 3のフローチャートを参照して、図 2のステップ S 1 0における適応データ登録処理について説明する。

適応データ登録処理では、まず最初に、ステップ S 2 1において、登録部 1 0が、マッチング部 6の内部状態を参照することにより、バッファ 4に記憶された 1発話についての音声の特徴ベクトル系列について、その音声に対応する音響モデルの系列（その発話の音声認識結果を構成する音響モデルの系列）を認識する。さらに、ステップ S 2 1では、登録部 1 0が、認識した音響モデルの系列の、各音響モデルが有するガウス分布を定義する平均ベクトルを、音響モデル記憶部 7を参照することにより認識し、その音響モデルの系列に対応する平均べクトルの系列と、バッファ 4に記憶された特徴べクトル系列とを対応付けることにより、適応データを構成する。そして、ステップ S 2 2に進み、登録部 1 0は、その適応データを、適応データベース 1 1に供給して記憶させ、ステップ S 2 3に進む。

ステップ S 2 3では、登録部 1 0は、バッファ 4に記憶させた 1発話分の特徴べクトル系列を削除することで、バッファ 4をクリアし、ステップ S 2 4に進む。

ステップ S 2 4では、モデル適応部 1 2が、直前のステップ S 2 2で適応データベース 1 1に記憶された新たな適応データを、注目適応データとして、その注目適応データにおける特徴べクトル系列を、その特徴べクトル系列に対応付けられている平均べクトルの系列に最も近似するべクトル系列に変換する変換行列（最適変換行列）を、変換行列記憶部 1 3に記憶された変換行列の中から検出する。

即ち、例えば、モデル適応部 1 2は、注目適応データにおける特徴べクトル系列を、変換行列記憶部 1 3に記憶されたある 1つの変換行列によって変換し、変換特徴ベクトル系列を得る。さらに、モデル適応部 2 1は、例えば、その変換特徴べクトル系列の各変換特徴べクトルと、注目適応データにおける平均べクトルの系列の対応する平均べクトルとの距離の総和を、その変換特徴べクトルと平均べクトルの系列との誤差として求める。モデル適応部 2 1は、以上のような変換特徴べクトルと平均べクトルの系列との誤差を、変換行列記憶部 1 3に記憶された変換行列それぞれによって得られる変換特徴べクトルそれぞれについて求め、その誤差を最小にする変換特徴べクトルを得るのに用いた変換行列を、最適変換行列として検出する。

そして、ステップ S 2 5に進み、モデル適応部 1 2は、注目適応データを、最適変換行列に割り当てる。即ち、モデル適応部 1 2は、最適変換行列を表す情報を、上述の割り当て情報とし、その割り当て情報を、適応データベース 1 1に供給して、注目適応データに対応付けて記憶させる。

その後、ステップ S 2 6に進み、モデル適応部 1 2は、変換行列記憶部 1 3 に記憶された変換行列を、適応データベース 1 1に記憶された適応データを用いて更新する変換行列更新処理を行い、適応データ登録処理を終了する。

次に、図 4のフローチャートを参照して、図 3のステップ S 2 6における変換行列更新処理について説明する。

変換行列更新処理では、まず最初に、ステップ S 3 1において、モデル適応部 1 2は、変換行列記憶部 1 3に記憶された変換行列のうち、注目適応データを割り当てた変換行列を、注目変換行列として、ステップ S 3 2に進む。ステップ S 3 2では、モデル適応部 1 2は、注目変換行列に割り当てられている適応データすベてを用いて、注目変換行列を更新する。

即ち、モデル適応部 1 2は、例えば、注目変換行列に割り当てられている各適応データにおける特徴べクトル系列を線形変換する行列であって、その線形変換後の特徴べクトルの系列と、その特徴べクトル系列に対応付けられている平均ベクトルとの誤差を最小にするものを、最小自乗法（線形回帰）によって求める。そして、モデル適応部 1 2は、この行列によって、注目変換行列を更新し（この行列を、注目変換行列に置き換え）、更新後の注目変換行列を、変換行列記憶部 1 3に供給し、更新前の注目変換行列に、上書きする形で記憶させる。

なお、ステップ S 3 2における注目変換行列の更新方法自体は、基本的に、従来のモデル適応型の音声認識装置におけるモデル適応と同様のものである。

伹し、ステップ S 3 2における注目変換行列の更新は、その注目変換行列に割り当てられている適応データだけが用いられる点で、例えば、モデル適応のために入力された音声すベてを用いてモデル適応を行う従来の方法と異なる。即ち、従来のモデル適応の方法においては、適応データが変換行列に割り当てられているという概念がない。

また、ステップ S 3 2において、注目変換行列に割り当てられている適応データは、適応データベース 1 1に記憶されている割り当て情報を参照することで認識される。

ステップ S 3 2において、注目変換行列が更新された後は、ステップ S 3 3 に進み、変換行列記憶部 1 3に記憶された各変換行列に対する適応データの割り当てを更新する割り当て更新処理が行われる。

即ち、ステップ S 3 2において、注目変換行列が更新されることから、変換行列記憶部 1 3に記憶された各変換行列に割り当てられた適応データの中には、現在割り当てられている変換行列ではなく、注目変換行列が最適変換行列となるものが生じることがある。また、更新された注目変換行列に割り当てられている適応データの中には、注目変換行列ではなく、他の変換行列が最適変換行列になるものが生じることがある。そこで、ステップ S 3 3の割り当て更新処理では、適応データベース 1 1に記憶されている各適応データが、現在割り当てられている変換行列が最適変換行列となっているかどうかを確認し、なっていない場合には、その適応データを最適変換行列に割り当てし直すことが行われる。

具体的には、割り当て更新処理は、ステップ S 4 1乃至 S 4 8の処理から構成され、まず最初に、ステップ S 4 1において、モデル適応部 1 2が、変数 I と Jに、変換行列記憶部 1 3に記憶されている変換行列の数と、適応データべース 1 1に記憶されている適応データの数を、それぞれセットするとともに、変換行列をカウントする変数 i と、適応データをカウントする変数 jを、いずれも 1に初期化する。

その後、ステップ S 4 2に進み、モデル適応部 1 2は、適応データベース 1 1に記憶されている j番目の適応データである適応データ # jにおける特徴べクトル系列を、変換行列記憶部 1 3に記憶されている i番目の変換行列である変換行列 Miで変換し、ステップ S 4 3に進む。ステップ S 4 3では、モデル適応部 1 2は、適応データ # jを変換行列 M ;で変換することにより得られる変換特徴べクトルと、適応データ # j における平均べクトルの系列との誤差 ε ( i j ) を、上述の図 3のステップ S 2 4で説明した場合と同様にして求める。

そして、ステップ S 4 4に進み、モデル適応部 1 2は、変数 i力変換行列の総数である Iに等しいかどうかを判定する。ステップ S 4 4において、変数 iが Iに等しくないと判定された場合、ステップ S 4 5に進み、モデル適応部 1 2は、変数 iを 1だけィンクリメントして、ステップ S 4 2に戻り、以下、同様の処理を繰り返す。

また、ステップ S 4 4において、変数 iが Iに等しいと判定された場合、ステツプ S 4 6に進み、モデル適応部 1 2は、変数 j 1S 適応データの総数である Jに等しいかどうかを判定する。ステップ S 4 6において、変数 jが Jに等しくないと判定された場合、ステップ S 4 7に進み、モデル適応部 1 2は、変数 jを 1だけインクリメントするとともに、変数 iを 1に初期化して、ステツプ S 4 2に戻り、以下、同様の処理を繰り返す。

そして、ステップ S 4 6において、変数 jが Jに等しいと判定された場合、即ち、適応データベース 1 1に記憶された適応データすべてについて、その適応データを、変換行列記憶部 1 3に記憶された変換行列それぞれで変換した変換特徴べクトルそれぞれと、その適応データにおける平均べクトルの系列との誤差 ε ( i， j ) が求められた場合（ i = l， 2， ■ ■ ■， I ： j = 1 , 2 , ■ · · , J ) 、ステップ S 4 8に進み、モデル適応部 1 2は、各適応データ # jを、誤差 _ε ( i， j ) を最小にする変換行列 Miに割り当てし直す。即ち、モデル適応部 1 2は、適応データベース 1 1に記憶された適応データ # jに、誤差 ε ( i , j ) を最小にする変換行列 Miを表す情報を、割り当て情報として対応付けて記憶させる（上書きする）。

ここで、適応データ # jが変換行列 Miに割り当てられている場合に、その適応データ # jにおける特徴べクトル系列を変換行列 Miで変換して得られる変換特徴べクトル系列と、適応データ # jにおける平均べクトルの系列との誤差 ε ( i， j ) を、以下、適宜、適応データについての誤差という。

以上のようにして、ステップ S 4 1乃至 S 4 8の処理からなるステップ S 3 3の割り当て更新処理が終了すると、ステップ S 3 4に進み、モデル適応部 1 2は、その割り当て更新処理によって、割り当てられる適応データが変化した変換行列が存在するかどうかを判定する。

ステップ S 3 4において、割り当てられる適応データが変化した変換行列が存在すると判定された場合、ステップ S 3 5に進み、モデル適応部 1 2は、適応データの割り当てが変化した変換行列を、注目変換行列として、ステップ S 3 2に戻り、以下、同様の処理を繰り返す。

即ち、適応データの割り当てが変化した変換行列が存在する場合には、ステップ S 3 5において、その変換行列が、注目変換行列とされる。そして、ステップ S 3 2に戻り、その注目変換行列を、それに割り当てられている適応データを用いて更新し、さらに、ステップ S 3 3において、割り当て更新処理を行うことが繰り返される。

なお、適応データの割り当てが変化した変換行列が複数存在する場合には、ステップ S 3 5では、その複数の変換行列が注目変換行列とされ、ステップ S 3 2では、その複数の注目変換行列それぞれが、それぞれに割り当てられている適応データを用いて更新される。

—方、ステップ S 3 4において、適応データの割り当てが変化した変換行列が存在しないと判定された場合、即ち、適応データベース 1 1における適応データが、すべて、最適変換行列に割り当てられた場合、ステップ S 3 6に進み、モデル適応部 1 2は、変換行列生成/削除処理を行い、変換行列更新処理を終了する。

次に、図 5のフローチャートを参照して、図 4のステップ S 3 6における変換行列生成/削除処理について説明する。

変換行列生成/削除処理では、まず最初に、ステップ S 5 1において、モデル適応部 1 2は、変換行列記憶部 1 3に記憶された変換行列の中に、新たな変換行列を生成する場合に満たすべき、あらかじめ設定された所定の生成条件を満たす変換行列が存在するかどうかを判定する。

ここで、生成条件としては、例えば、変換行列に、所定閾値以上の数（所定の閾値より多い数）の適応データが割り当てられていることを採用することができる。また、生成条件としては、その他、例えば、変換行列に割り当てられている適応データについての誤差の平均値が、所定の閾値以上（より大）であることや、変換行列に割り当てられている適応データについての誤差が所定の閾値以上のものが、所定数以上存在すること等を採用することが可能である。即ち、生成条件としては、その変換行列によっては、その変換行列に割り当てられているすべての適応データにおける特徴べクトルを、それに対応付けられている平均べクトルに精度良く変換することが困難となった状況を表す条件等を採用することができる。

ステップ S 5 1において、変換行列記憶部 1 3に記憶された変換行列の中に生成条件を満たすものが存在しないと判定された場合、ステップ S 5 2および S 5 3をスキップして、ステップ S 5 4に進む。

また、ステップ S 5 1において、変換行列記憶部 1 3に記憶された変換行列の中に、生成条件を満たすものがあると判定された場合、ステップ S 5 2に進み、モデル適応部 1 2は、その生成条件を満たす変換行列を注目変換行列として、ステップ S 5 3に進む。

ステップ S 5 3では、モデル適応部 1 2が、後述する変換行列生成処理を行い、ステップ S 5 4に進む。.

ステップ S 5 4では、モデル適応部 1 2は、変換行列記憶部 1 3に記憶された変換行列の中に、変換行列を削除する場合に満たすべき、あらかじめ設定された所定の削除条件を満たす変換行列が存在するかどうかを判定する。

ここで、削除条件としては、例えば、変換行列に、所定閾値以下の数（所定の閾値未満の数）の適応データしか割り当てられていないことを採用することができる。また、削除条件としては、変換行列に、所定閾値以下の数の適応データしか割り当てられていないことに加え、例えば、変換行列に割り当てられている適応データについての誤差の平均値が、所定の閾値以上（より大）であること等を採用することが可能である。さらに、削除条件としては、変換行列記憶部 1 3に記憶された各変換行列について、図 2の音声認識処理におけるステツプ S 6で選択された最新の時を記憶しておき、その日時が、現在の日時から所定の日数以上過去のものであること等を採用することも可能である。この場合、図 2の音声認識処理におけるステップ S 6で長期間選択されなかった変換行列が削除されることとなる。

以上のように、削除条件としては、その変換行列に割り当てられる適応データがほとんどない状況や、その変換行列が、音声認識においてほとんど使用 (選択）されない状況を表す条件等を採用することができる。ステップ S 5 4において、変換行列記憶部 1 3に記憶された変換行列の中に、削除条件を満たすものが存在しないと判定された場合、ステップ S 5 5および S 5 6をスキップして、変換行列生成 Z削除処理を終了する。

また、ステップ S 5 1において、変換行列記憶部 1 3に記憶された変換行列の中に、削除条件を満たすものがあると判定された場合、ステップ S 5 5に進み、モデル適応部 1 2は、その削除条件を満たす変換行列を注目変換行列として、ステップ S 5 6に進む。

ステップ S 5 6では、モデル適応部 1 2が、後述する変換行列削除処理を行い、変換行列生成/削除処理を終了する。

次に、図 6のフローチャートを参照して、図 5のステップ S 5 3における変換行列生成処理について説明する。

変換行列生成処理では、まず最初に、ステップ S 6 1において、モデル適応部 6 1が、注目変換行列に基づいて、第 1と第 2の行列を生成する。

即ち、いまの場合、図 5のステップ S 5 2において、生成条件を満たす変換行列が注目変換行列とされており、ステップ S 6 1では、その注目変換行列が、いわば分割（split)され、これにより、第 1と第 2の 2つの行列が生成される。なお、図 5のステップ S 5 2において、注目変換行列とされた変換行列が複数存在する場合には、図 6の変換行列生成処理は、例えば、その複数の注目変換行列一つ一つについて、順次または並列に行われる。

ここで、ステップ S 6 1における、注目変換行列に基づく第 1と第 2の行列の生成は、例えば、注目変換行列を基準として、そのコンポーネントを所定値だけ変化させることにより行うことが可能である。

即ち、例えば、注目変換行列を基準として、そのコンポーネントに所定の値を加算または減算することにより、所定のベクトルを、注目変換行列によって写像（変換）した場合よりも、所定の微小ベクトル△と一△だけずれた位置にそれぞれ写像する 2つの行列を求め、この 2つの行列を、第 1と第 2の行列とすることができる。また、注目変換行列を、そのまま第 1の行列とするとともに、注目変換行列を基準として、そのコンポーネントに所定の値を加算または減算することにより、所定のベクトルを、注目変換行列によって写像した場合よりも、所定の微小ベクトル△だけずれた位置に写像する行列を求め、その行列を、第 2の行列とすることができる。

ステップ S 6 1において第 1と第 2の行列を生成した後は、ステップ S 6 2 に進み、モデル適応部 1 2は、注目変換行列に割り当てられている適応データの数を、変数 Kにセットするとともに、その適応データの数をカウントする変数 kを 1に初期化して、ステップ S 6 3に進む。

ステップ S 6 3では、モデル適応部 1 2は、注目変換行列に割り当てられている k番目の適応データである適応データ # kにおける特徴べクトル系列を、第 1と第 2の行列それぞれで変換することにより、 2つの変換特徴べクトル系列を求める。

ここで、特徴べクトル系列を、第 1の行列と第 2の行列それぞれによって変換することにより得られる変換特徴ベクトル系列を、それぞれ、第 1の変換特徴べクトル系列と第 2の変換特徴べクトル系列という。

その後、ステップ S 6 4に進み、モデル適応部 1 2は、第 1の変換特徴べクトル系列と、適応データ # kにおける平均ベクトル系列との誤差（以下、適宜、第 1の誤差という）、および第 2の変換特徴ベクトル系列と、適応データ # k における平均べクトル系列との誤差（以下、適宜、第 2の誤差という）を求め、ステップ S 6 5に進む。

ステップ S 6 5では、モデル適応部 1 2は、第 1の誤差が、第 2の誤差未満 (以下）であるかどうかを判定する。ステップ S 6 5において、第 1の誤差が第 2の誤差未満であると判定された場合、即ち、第 1と第 2の行列を比較した場合に、第 1の行列の方が、適応データ # kにおける特徴ベクトル系列を、対応する音響モデルに、より適切に適応させることができる場合、ステップ S 6 6に進み、モデル適応部 1 2は、第 1の行列に、適応データ # kを割り当て、ステップ S 6 8に進む。また、ステップ S 6 5において、第 1の誤差が第 2の誤差未満でないと判定された場合、即ち、第 1と第 2の行列を比較した場合に、第 2の行列の方が、適応データ # kにおける特徴ベクトル系列を、対応する音響モデルに、より適切に適応させることができる場合、ステップ S 6 7に進み、モデル適応部 1 2 は、第 2の行列に、適応データ # kを割り当て、ステップ S 6 8に進む。

ステップ S 6 8では、モデル適応部 1 2は、変数 kが、注目変換行列に割り当てられている適応データの総数 Kに等しいかどうかを判定する。

ステップ S 6 8において、変数 kが Kに等しくないと判定された場合、ステップ S 6 9に進み、モデル適応部 1 2は、変数 kを 1だけィンクリメントして, ステップ S 6 3に戻り、以下、同様の処理を繰り返す。

また、ステップ S 6 8において、変数 kが Kに等しいと判定された場合、即ち、注目変換行列に割り当てられていた適応データそれぞれが、第 1または第 2の行列のうちの適切な方 (特徴べクトルを、対応する平均べクトルにより近 ' いものに変換する方）に割り当てられた場合、ステップ S 7 0に進み、モデル適応部 1 2は、変換行列記憶部 1 3から、注目変換行列を削除し、第 1と第 2 の行列を、新たな変換行列として、変換行列記憶部 1 3に記憶させる。

即ち、これにより、注目変換行列が削除されるとともに、新たな 2つの変換行列が追加され、変換行列記憶部 1 3においては、実質的に、変換行列が 1つ増えた（生成された）ことになる。

その後、ステップ S 7 1に進み、モデル適応部 1 2は、新たな 2つの変換行列を、注目変換行列として、ステップ S 7 2に進む。

ステップ S 7 2では、モデル適応部 1 2は、図 4のステップ S 3 2における場合と同様に、注目変換行列に割り当てられている適応データすベてを用いて. 注目変換行列を更新する。

なお、いまの場合、変換行列記憶部 1 3に新たに記憶された 2つの変換行列が注目変換行列となっており、従って、その 2つの注目変換行列それぞれが、それぞれに割り当てられている適応データを用いて更新される。その後、ステップ S 7 3に進み、モデル適応部 1 2は、図 4のステップ S 3 3における場合と同様の割り当て更新処理を行い、ステップ S 7 4に進む。ステップ S 7 4では、モデル適応部 1 2は、ステップ S 7 3における割り当て更新処理によって、割り当てられる適応データが変化した変換行列が存在するかどうかを判定する。

ステップ S 7 4において、割り当てられる適応データが変化した変换行列が存在すると判定された場合、ステップ S 7 5に進み、モデル適応部 1 2は、適応データの割り当てが変換した変換行列を、新たに注目変換行列として、ステップ S 7 2に戻り、以下、同様の処理を繰り返す。

即ち、適応データの割り当てが変化した変換行列が存在する場合には、ステップ S 7 5において、その変換行列が、注目変換行列とされる。そして、ステップ S 7 2に戻り、その注目変換行列を、それに割り当てられている適応データを用いて更新し、さらに、ステップ S 7 3において、割り当て更新処理を行うことが繰り返される。

なお、適応データの割り当てが変化した変換行列が複数存在する場合には、ステップ S 7 5では、その複数の変換行列が注目変換行列とされ、ステップ S 7 2では、その複数の注目変換行列それぞれが、それぞれに割り当てられている適応データを用いて更新される。

一方、ステップ S 7 4において、適応データの割り当てが変化した変換行列が存在しないと判定された場合、即ち、適応データベース 1 1における適応データが、すべて、最適変換行列に割り当てられた場合、変換行列生成処理を終了する。

次に、図 7のフローチャートを参照して、図 5のステップ S 5 6における変換行列削除処理について説明する。

変換行列削除処理では、まず最初に、ステップ S 8 1において、モデル適応部 8 1は、注目変換行列を、変換行列記憶部 1 3から削除する。

即ち、いまの場合、図 5のステップ S 5 5において、削除条件を満たす変換行列が注目変換行列とされており、ステップ S 8 1では、その注目変換行列が、変換行列記憶部 1 3から消去される。

なお、図 5のステップ S 5 5において、注目変換行列とされた変換行列が複数存在する場合には、図 7のステップ S 8 1では、その複数の注目変換行列すベてが削除される。

ステップ S 8 1において注目変換行列を削除した後は、ステップ S 8 2に進み、モデル適応部 1 2は、注目変換行列に割り当てられていた適応データの数を、変数 Kにセットするとともに、その適応データの数をカウントする変数 k を 1に初期化して、ステップ S 8 3に進む。

なお、ステップ S 8 1において、複数の注目変換行列を削除した場合は、ステツプ S 8 2では、その複数の注目変換行列それぞれに割り当てられていた適応データの総数を、変数 Kにセットする。

ステップ S 8 3では、モデル適応部 1 2は、図 3のステップ S 2 4における場合と同様にして、 k番目の適応データである適応データ # kにおける特徴べクトル系列を、その特徴べクトル系列に対応付けられている平均べクトルの系列に最も近似するべクトル系列に変換する変換行列、即ち、最適変換行列を、変換行列記憶部 1 3に記憶された変換行列の中から検出し、ステップ S 8 4に進む。 .

ステップ S 8 4では、モデル適応部 1 2は、ステップ S 8 3で検出された変換行列（最適変換行列）に、適応データ # kを割り当て（し直し）、ステップ S 8 5に進む。

ステップ S 8 5では、モデル適応部 1 2は、変数 kが、ステップ S 8 1で削除された注目変換行列に割り当てられていた適応データの総数 Kに等しいかどうかを判定する。

ステップ S 8 5において、変数 kが Kに等しくないと判定された場合、ステップ S 8 6に進み、モデル適応部 1 2は、変数 kを 1だけィンクリメントして- S 8 3に戻り、以下、同様の処理を繰り返す。また、ステップ S 8 5において、変数 kが Kに等しいと判定された場合、即ち、ステップ S 8 1で削除された注目変換行列に割り当てられていた適応データのすべてが、変換行列記憶部 1 3に記憶された変換行列のいずれかに割り当てし直された場合、ステップ S 8 7に進み、モデル適応部 1 2は、その注目変換行列に割り当てられていた適応データのいずれかが新たに割り当てられた変換行列すベてを、新たに注目変換行列とし、ステップ S 8 8に進む。

ステップ S 8 8では、モデル適応部 1 2は、図 4のステップ S 3 2における場合と同様に、注目変換行列に割り当てられている適応データすベてを用いて、注目変換行列を更新する。

なお、複数の変換行列が注目変換行列となっている場合には、ステップ S 8 8では、その複数の注目変換行列それぞれが、それぞれに割り当てられている適応データを用いて更新される。

その後、ステップ S 8 9に進み、モデル適応部 1 2は、図 4のステップ S 3 3における場合と同様の割り当て更新処理を行い、ステップ S 9 0に進む。

ステップ S 9 0では、モデル適応部 1 2は、ステップ S 8 9における割り当て更新処理によって、割り当てられる適応データが変化した変換行列が存在するかどうかを判定する。

ステップ S 9 0において、割り当てられる適応データが変化した変換行列が存在すると判定された場合、ステップ S 9 1に進み、モデル適応部 1 2は、適応データの割り当てが変換した変換行列を、注目変換行列として、ステップ S 8 8に戻り、以下、同様の処理を繰り返す。

即ち、適応データの割り当てが変化した変換行列が存在する場合には、ステップ S 9 1において、その変換行列が、注目変換行列とされる。そして、ステップ S 8 8に戻り、その注目変換行列を、それに割り当てられている適応データを用いて更新し、さらに、ステップ S 8 9において、割り当て更新処理を行うことが繰り返される。

なお、適応データの割り当てが変化した変換行列が複数存在する場合には、ステップ S 9 1では、その複数の変換行列が注目変換行列とされ、 8 8では、その複数の注目変換行列それぞれが、それぞれに割り当てられている適応データを用いて更新される。

一方、ステップ S 9 0において、適応データの割り当てが変化した変換行列が存在しないと判定された場合、即ち、適応データベース 1 1における適応データが、すべて、最適変換行列に割り当てられた場合、変換行列削除処理を終了する。

以上のように、図 1の音声認識装置では、ユーザが発話を行うと、図 3の適応データ登録処理によって、そのユーザの音声の特徴べクトルを含む適応データが登録されていき、さらに、その適応データは、変換行列記憶部 1 3に記憶された 1以上の変換行列の中の最適変換行列に割り当てられる。そして、新たに適応データが割り当てられた変換行列は、図 4の変換行列更新処理によって、それに割り当てられている適応データを用いて更新され、さらに、適応データベース 1 1に記憶された各適応データが、最適変換行列に割り当てられるように、適応データの変換行列の割り当てがしされる。

従って、適応データは、その適応データにおける特徴べクトル系列を、対応する音響モデルに適応させるのに最適な変換行列ごとにクラス分け（クラスタリング）され、さらに、そのようにクラス分けされた各クラスの適応データを用いて、そのクラスに対応する変換行列が更新されていくので、ユーザから入力された音声が、いわば自動的にクラス分けされ、そのクラスの音声を、対応する音響モデルにより適切に適応させるように、変換行列が更新されていくことになり、その結果、そのような変換行列を用いて、モデル適応を行うことにより、音声認識精度を向上させることができる。

なお、ユーザから入力された音声のクラス分けは、その音声にとって、どの変換行列が最適変換行列であるのかという観点から行われることから、ユーザ力自身の音声を、どのクラスにクラス分けすべきであるかを指定する必要はない。このことは、例えば、同一ユーザの音声であっても、音声認識装置が使用される環境等が異なれば、異なるクラスにクラス分けされる（異なる変換行列に割り当てられる）ことがあることを意味するが、仮に、異なるクラスにクラス分けされたとしても、そのクラスにクラス分けされた音声にとっては、そのクラスに対応する変換行列が最適変換行列であり、従って、その最適変換行列によれば、音声を、対応する音響モデルに最適に適応させることができることになる。

また、異なるユーザの音声であっても、同一のクラスにクラス分けされる (同一の変換行列に割り当てられる）こともあり得るが、仮に、同一のクラスにクラス分けされたとしても、やはり、そのクラスにクラス分けされた音声にとっては、そのクラスに対応する変換行列が最適変換行列であり、従って、その最適変換行列によれば、音声を、対応する音響モデルに最適に適応させることができることになる。

さらに、図 6の変換行列生成処理によれば、新たな変換行列が生成され、その変換行列が、その変換行列を最適変換行列とする適応データを用いて更新される。従って、例えば、音声認識装置が、いままでとは大きく異なった環境で使用された場合や、あるいは、いままでのユーザとは大きく特徴の異なったュ一ザによる発話が入力された場合であっても、音声認識精度の大きな劣化を防止することができる。

即ち、音声認識装置が、いままでとは大きく異なった環境で使用された場合や、あるいは、いままでのユーザとは大きく特徴の異なったユーザによる発話が入力された場合には、変換行列記憶部 1 3に記憶されている変換行列では、入力された音声を、対応する音響モデルに十分に適応させることができず、音声認識精度が劣化することがある。図 6の変換行列生成処理によれば、新たな変換行列が生成され、その新たな変換行列が、いままでとは大きく異なった環境下で入力された音声や、いままでのユーザとは大きく特徴の異なったユーザによる音声を用いて更新されることとなり、その結果、従来のモデル適応型の音声認識装置で生じる、ユーザや環境の変化による音声認識精度の劣化を防止することが可能となる。

さらに、図 6の変換行列生成処理では、例えば、変換行列に割り当てられている適応データの数が多くなつたときや、その適応データについての誤差の平均値が大きくなつたとき等に、その適応データの割り当てを、いわば分割するような第 1と第 2の行列が、新たな変換行列として生成され、さらには、適応データが、その適応データにおける特徴べクトル系列を、対応する平均べクトルの系列により近似する系列に写像（変換）する変換行列に割り当てし直されるので、音声を、対応する音響モデルにより適応させる変換行列が、ユーザが知らない間に、いわばダイナミックに生成されることになり、ユーザにモデル適応を意識させずに済む。

また、図 7の変換行列削除処理では、例えば、変換行列に割り当てられている適応データの数が少なくなつたときに、その変換行列が削除されるので、変換行列記憶部 1 3に記憶させる変換行列の数が多くなりすぎることによる処理量の増加等を防止することができる。

さらに、図 1の音声認識装置では、図 2の音声認識処理において、変換行列記憶部 1 3に記憶された 1以上の変換行列.それぞれによって、所定時間の特徴ベタトル系列を変換することにより得られる変換特徴べクトル系列を用いてマツチング処理を行い、その後のマッチング処理を、最も高い尤度が得られた変換行列によって特徴べクトル系列を変換することにより続行するようにしたので、入力された音声が、その音声を、対応する音響モデルに適応させるのに最適な変換行列（本実施の形態では、入力された音声の特徴ベクトル系列を、その音声に対応する音響モデルの系列が有する各ガウス分布を定義する平均べクトルの系列に最も近似する系列に変換する変換行列）によって変換される。従つて、音声認識装置が、複数のユーザによって、あるいは複数の環境下において使用される場合でも、各ユーザの音声、あるいは、各環境下で入力される音声を、対応する音響モデルに即座に適応させることができ、ユーザに、モデル適応を意識させることなく、高い精度の音声認識を行うことが可能となる。即ち、従来のモデル適応型の音声認識装置では、前述したように、特定ユーザや特定環境に適応するようにモデル適応が行われた後に、他のユーザや他の環境での使用が開始されると、音声認識装置の音響モデルが、最初のユーザや最初の環境に適応したものとなっているから、その音響モデルが、他のユーザや他の環境に適応するまでの間は、音声認識精度が大きく劣化するが、図 1の音声認識装置では、入力された音声が最適変換行列によって変換されることにより、対応する音響モデルに適応させることが行われることから、即座に、他のユーザや環境に対応（適応）することができる。

次に、図 1の音声認識装置では、入力された音声（の特徴べクトル）を、対応する音響モデルに適応させるモデル適応を行うようにしたが、音声認識装置においては、前述したように、音響モデルを、入力された音声に適応させるモデル適応を行うようにすることも可能である。

そこで、図 8は、そのような音声認識装置の構成例を示している。なお、図中、図 1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 8の音声認識装置は、選択部 1 4において選択された変換行列を用いた変換を行う変換部 5が、バッファ 4 とマツチング部 6の間ではなく、マツチング部 6と音響モデル記憶部 7の間に設けられている他は、図 1の音声認識装置と基本的に同様に構成されている。従って、図 8の音声認識装置では、変換行列によって、特徴ベクトル系列が変換されるのではなく、音響モデル記憶部 7に記憶された音響モデル（が有するガウス分布を定義する平均べクトルの系列) が変換され、これにより、入力された音声に適応させた音響モデルを得た後、マッチング部 6において、その音響モデルを用いて、マッチング処理が行われる。

従って、図 8の音声認識装置においても、図 1の音声認識装置における場合と同様の効果を得ることができる。

なお、図 8の音声認識装置においては、音響モデルを、入力された音声に適応させることから、適応データにおける平均ベクトルの系列を、その適応データにおける特徴べクトル系列に最も近似する系列に変換する変換行列が、最適変換行列として求められる。従って、単純には、図 1の音声認識装置で用いられる変換行列と、図 8の音声認識装置で用いられる変換行列とは、逆行列の関係にあることになる。

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウエアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にィンストーノレされる。

そこで、図 9は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク 1 0 5や R O M 1 0 3に予め記録しておくことができる。

あるいはまた、プログラムは、フレキシブルディスク、 CD- ROM (Compact Disc Read Only Memory) , MO (Magneto optical)アイスク， DVD (Digital Versatile Disc) , 磁気ディスク、半導体メモリなどのリムーバブル記録媒体 1 1 1に、 ― 時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体 1 1 1は、いわゆるパッケージソフトウェアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体 1 1 1からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、 LAN (Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部 1 0 8で受信し、内蔵するハードディスク 1 0 5にインストールすることができる。

コンピュータは、 CPU (Central Processing Unit) 1 0 2を内蔵している。 CPU 1 0 2には、バス 1 0 1を介して、入出力ィンタフェース 1 1 0が接続されており、 CPU 1 0 2は、入出力インタフェース 1 1 0を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部 1 0 7が操作等されることにより指令が入力されると、それにしたがって、 ROM (Read Only Memory) 1 0 3に格納されているプログラムを実行する。あるいは、また、 CPU 1 0 2は、ハードディスク 1 0 5に格納されているプログラム、衛星若しくはネットワークから転送され、通信部 1 0 8で受信されてハードディスク 1 0 5にインスト一ルされたプログラム、またはドライブ 1 0 9に装着されたリムーバブル記録媒体 1 1 1から読み出されてハードディスク 1 0 5にィンストールされたプログラムを、 RAM (Random Access Memory) 1 0 4にロードして実行する。これにより CPU 1 0 2は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、 CPU 1 0 2は、その処理結果を、必要に応じて、例えば、入出力インタフェース 1 1 0を介して、 LCD (Liq uid Crystal Display)やスピーカ等で構成される出力部 1 0 6から出力、あるいは、通信部 1 0 8から送信、さらには、ハードディスク 1 0 5に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチヤ一トとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、 1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本実施の形態では、モデル適応のための変換に、行列（変換行列）を用いるようにしたが、その他、任意の関数を用いることが可能である。

また、本実施の形態では、モデル適応のための変換として、線形変換を行うようにしたが、その他、例えば、非線形の変換を行うようにすることも可能である。

さらに、本実施の形態では、音響モデルとして HMMを用い、さらに HMM 法に基づくマッチング処理を行うことによって、音声認識結果としての尤度を表すスコアを求めるようにしたが、音声認識を行うアルゴリズムは、 HMM法に限定されるものではない。

また、本実施の形態では、適応データに、特徴べクトルを含ませて、適応データベース 1 1に記憶させるようにしたが、適応データには、特徴べクトルに代えて、例えば、音声の波形データそのものを含ませるようにすることも可能である。

さらに、本実施の形態では、図 4の変換行列更新処理を、入力された音声について、その音声認識結果を出力した後に行うようにしたが、変換行列更新処理は、その他の任意のタイミングで、定期的または不定期に行うようにすることが可能である。

また、本実施の形態では、図 4の変換行列更新処理の一部として、図 5の変换行列生成/削除処理を行うようにしたが、変換行列生成 Z削除処理も、その他の任意のタイミングで、定期的または不定期に行うようにすることが可能である。

さらに、本実施の形態では、適応データが、適応データベース 1 1の記憶容量の上限まで記憶された場合の対処については、特に言及しなかったが、この場合には、例えば、その後に供給される適応データを記憶させないようにすることもできるし、あるいは、時間的に古い（過去の）適応データを、適応データベース 1 1から消去するようにすることも可能である。さらには、同一の平均べクトルの系列と対応付けられている、近似する特徴べクトル系列を有する複数の適応データを検索し、その複数の適応データを、その同一の平均べタトノレの系歹 IJと、近似する複数の特徴べクトル系列の任意の 1つとからなる 1つの適応データにまとめるようにしても良い。また、本実施の形態では、連続 HMM法により音声認識を行うようにしたが、音声認識には、その他、例えば、離散 HMM法を採用することも可能である。

さらに、本実施の形態では、図 6の変換行列生成処理において、生成条件を満たす変換行列から第 1と第 2の 2つの行列を生成するようにしたが、その他、 3以上の行列を生成することも可能である。産業上の利用可能性

本発明によれば、入力音声とその入力音声に対応する音響モデルのうちの一方を、 1以上の変換関数それぞれによって変換した変換結果に基づき、その 1 以上の変換関数の中から、入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数が検出され、その最適な変換関数に、入力音声が割り当てられて、新たな入力音声が割り当てられた変換関数が、その変換関数に割り当てられているすべての入力音声を用いて更新される。さらに、 1以上の変換関数の中から、入力音声と音響モデルのうちの一方を変換するのに用いる変換関数が選択され、その選択された変換関数によって、入力音声と音響モデルのうちの一方が変換される。そして、入力音声と音響モデルのうちの一方を変換関数によって変換したものと、他方とのマッチング処理が行われ、そのそのマッチング処理結果に基づいて、入力音声の音声認識結果が出力される。従つて、音声認識装置が、複数のユーザによって、あるいは複数の環境下において使用される場合でも、ユーザに、モデル適応を意識させることなく、高い精度の音声認識を行うことが可能となる。

Claims

請求の範囲

1 . 音声を音声認識する音声認識装置であって、

入力音声と、音声認識に用いる音響モデルのうちの一方を変換し、他方に適応させるモデル適応を行うときの、前記入力音声または音響モデルのうちの一方を変換する 1以上の変換関数を記憶する変換関数記憶手段と、

前記入力音声とその入力音声に対応する前記音響モデルのうちの一方を、前記変換関数記憶手段に記憶された 1以上の変換関数それぞれによって変換した変換結果に基づき、前記変換関数記憶手段に記憶された 1以上の変換関数の中から、前記入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数を検出し、その最適な変換関数に、前記入力音声を割り当てる割り当て手段と、

前記変換関数が割り当てられた前記入力音声を記憶する音声記憶手段と、前記変換関数記憶手段に記憶された 1以上の変換関数のうち、前記割り当て手段において新たな入力音声が割り当てられた変換関数を、その変換関数に割り当てられているすべての入力音声を用いて更新する変換関数更新手段と、前記変換関数記憶手段に記憶された 1以上の変換関数の中から、前記入力音声と前記音響モデルのうちの一方を変換するのに用いる前記変換関数を選択する変換関数選択手段と、

前記変換関数選択手段おいて選択された前記変換関数によって、前記入力音声と前記音響モデルのうちの一方を変換する変換手段と、

前記入力音声と前記音響モデルのうちの一方を前記変換関数によって変換したものと、他方とのマッチング処理を行い、そのマッチング処理結果に基づいて、前記入力音声の音声認識結果を出力するマッチング手段と

を備えることを特徴とする音声認識装置。

2 . 前記音響モデルは、 HMM (Hidden .Markov Model)であり、

前記マッチング手段は、 HMM法に基づくマッチング処理を行う

ことを特徴とする請求の範囲索 1項に記載の音声認識装置。

3 . 前記 HMMは、その HMMから、所定の音声の特徴べクトル系列が観測される確率を計算するためのガウス分布を有し、

前記割り当て手段は、前記入力音声の特徴べクトル系列とその入力音声に対応する前記 HMMが有する前記ガウス分布を定義する平均べクトルの系列のうちの一方を、前記変換関数記憶手段に記憶された 1以上の変換関数それぞれによって変換し、その変換後の特徴べクトル系列または平均べクトルの系列のうちの一方と、他方との誤差を最小にする変換関数を、前記最適な変換関数として検出する

ことを特徴とする請求の範囲第 2項に記載の音声認識装置。

4 . 前記変換関数更新手段は、前記変換関数に割り当てられている 1発話以上の前記入力音声それぞれについて、その入力音声の特徴べクトル系列とその入力音声に対応する前記 HMMが有する前記ガウス分布を定義する平均べクトルの系列のうちの一方を、前記変換関数によって変換したときに、その変換後の特徴べクトル系列または平均べクトルの系列のうちの一方と、他方との統計的な誤差を最小にするように、前記変換関数を更新する

5 . 前記変換関数更新手段は、前記変換関数に割り当てられている 1発話以上の前記入力音声それぞれについて、その入力音声の特徴べクトル系列とその入力音声に対応する前記 HMMが有する前記ガウス分布を定義する平均べクトルの系列のうちの一方を、前記変換関数によって変換したときに、その変換後の特徴べクトル系列または平均べクトルの系列のうちの一方と、他方との統計的な誤差を最小にする前記変換関数を、最小自乗法によって求める

ことを特徴とする請求の範囲第 4項に記載の音声認識装置。

6 . 前記変換関数更新手段は、前記新たな入力音声が割り当てられた変換関数を更新した後、前記音声記憶手段に記憶された入力音声すべてについて、その入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるのに最適な変換関数を、前記変換関数記憶手段に記憶された 1以上の変換関数の中から検出し、その最適な変換関数に、前記入力音声を割り当てし直すことを特徴とする請求の範囲第 1項に記載の音声認識装置。

7 . 前記変換関数更新手段は、さらに、

前記変換関数記憶手段に記憶された 1以上の変換関数のうちの、前記入力音声の割り当てが変化した変換関数それぞれを更新し、

その後、前記音声記憶手段に記憶された入力音声すべてについて、その入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるのに最適な変換関数 έ、前記変換関数記憶手段に記憶された 1以上の変換関数の中から検出し、その最適な変換関数に、前記入力音声を割り当てし直すこと'を、前記変換関数への入力音声の割り当てが変化しなくなるまで繰り返す

ことを特徴とする請求の範囲第 6項に記載の音声認識装置。

8 . 前記変換関数記憶手段に記憶されている変換関数に基づいて、新たな変換関数を生成する変換関数生成手段をさらに備える

ことを特徴とする請求の範囲第 1項に記載の音声認識装置。

9 . 前記変換関数生成手段は、前記変換関数記憶手段に記憶されている 1以上の変換関数のうちの、所定の生成条件を満たす変換関数に基づき、新たな変換関数を生成する

ことを特徴とする請求の範囲第 8項に記載の音声認識装置。

1 0 . 前記変換関数生成手段は、前記変換関数記憶手段に記憶されている 1 以上の変換関数のうちの、所定の閾値以上の発話数の入力音声が割り当てられている変換関数を、所定の生成条件を満たす変換関数として、その変換関数に基づき、新たな変換関数を生成する

ことを特徴とする請求の範囲第 9項に記載の音声認識装置。

1 1 . 前記変換関数生成手段は、

前記変換関数記憶手段に記憶されている 1つの変換関数を基準として、第 1 と第 2の 2つの変換関数を求め、基準とした 1つの変換関数に割り当てられていた入力音声すべてについて、その入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるのに最適な変換関数を、前記第 1と第 2の変換関数の中から検出し、その最適な変換関数に、前記入力音声を割り当て、

前記第 1と第 2の変換関数を、それぞれに割り当てられている入力音声を用いて更新し、

その更新後の前記第 1と第 2の変換行列を、前記基準とした 1つの変換関数に代えて、前記変換関数記憶手段に記憶させる

. ことを特徴とする請求の範囲第 8項に記載の音声認識装置。

1 2 . 前記変換関数生成手段は、前記更新後の第 1と第 2の変換行列を前記変換行列記憶手段に記憶させた後、前記音声記憶手段に記憶された入力音声すベてについて、その入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるのに最適な変換関数を、前記変換関数記憶手段に記憶された 1以上の変換関数の中から検出し、その最適な変換関数に、前記入力音声を割り当てし直す

ことを特徴とする請求の範囲第 1 1項に記載の音声認識装置。

1 3 . 前記変換関数生成手段は、前記変換関数への入力音声の割り当てをし直した後、

その後、前記音声記憶手段に記憶された入力音声すべてについて、その入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるのに最適な変換関数を、前記変換関数記憶手段に記憶された 1以上の変換関数の中から検出し、その最適な変換関数に、前記入力音声を割り当てし直すことを、前記変換関数への入力音声の割り当てが変化しなくなるまで操り返す

ことを特徴とする請求の範囲第 1 2項に記載の音声認識装置。

1 4 . 前記変換関数記憶手段に記憶されている変換関数を削除する変換関数削除手段をさらに備える

1 5 . 前記変換関数削除手段は、前記変換関数記憶手段に記憶されている 1 以上の変換関数のうちの、所定の削除条件を満たす変換関数を削除することを特徴とする請求の範囲第 1 4項に記載の音声認識装置。

1 6 . 前記変換関数削除手段は、前記変換関数記憶手段に記憶されている 1 以上の変換関数のうちの、所定の閾値以下の発話数の入力音声が割り当てられている変換関数を、所定の削除条件を満たす変換関数として削除する

ことを特徴とする請求の範囲第 1 5項に記載の音声認識装置。

1 7 . 前記変換関数削除手段は、

前記変換関数を、前記変換関数記憶手段から削除し、

削除した変換関数に割り当てられていた入力音声すべてについて、その入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるのに最適な変換関数を、前記変換関数記憶手段に残っている 1以上の変換関数の中から検出し、その最適な変換関数に、前記入力音声を割り当てし直すことを特徴とする請求の範囲第 1 4項に記載の音声認識装置。

1 8 . 前記変換関数削除手段は、前記変換関数への入力音声の割り当てをし直した後、

その後、前記音声記憶手段に記憶された入力音声すべてについて、その入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるのに最適な変換関数を、前記変換関数記憶手段に記憶された 1以上の変換関数の中から検出し、その最適な変換関数に、前記入力音声を割り当てし直すことを、前記変換関数への入力音声の割り当てが変化しなくなるまで繰り返すことを特徴とする請求の範囲第 1 7項に記載の音声認識装置。

1 9 . 前記変換阛数選択手段は、前記変換関数記憶手段に記憶された 1以上の変換関数それぞれによって、前記入力音声と前記音響モデルのうちの一方を変換したものと、他方とのマッチング処理を行ったときに、最も尤度の高い音声認識結果が得られる前記変換関数を選択する

2 0 . 入力音声と、音声認識に用いる音響モデルのうちの一方を変換し、他方に適応させるモデル適応を行うときの、前記入力音声または音響モデルのうちの一方を変換する 1以上の変換関数を用い、前記入力音声を音声認識する音声認識方法であって、

前記入力音声とその入力音声に対応する前記音響モデルのうちの一方を、前記 1以上の変換関数それぞれによつて変換した変換結果に基づき、前記 1以上の変換関数の中から、前記入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数を検出し、その最適な変換関数に、前記入力音声を割り当てる割り当てステップと、 '

前記変換関数が割り当てられた前記入力音声を記憶する音声記憶ステップと前記 1以上の変換関数のうち、前記割り当てステップにおいて新たな入力音声が割り当てられた変換関数を、その変換関数に割り当てられているすべての入力音声を用いて更新する変換関数更新ステップと、

前記 1以上の変換関数の中から、前記入力音声と前記音響モデルのうちの一方を変換するのに用いる前記変換関数を選択する変換関数選択ステップと、前記変換関数選択ステップおいて選択された前記変換関数によって、前記入力音声と前記音響モデルのうちの一方を変換する変換ステツプと、

前記入力音声と前記音響モデルのうちの一方を前記変換関数によって変換したものと、他方とのマッチング処理を行い、そのマッチング処理結果に基づいて、前記入力音声の音声認識結果を出力するマ

を備えることを特徴とする音声認識方法。

2 1 . 入力音声と、音声認識に用いる音響モデルのうちの一方を変換し、他方に適応させるモデル適応を行うときの、前記入力音声または音響モデルのうちの一方を変換する 1以上の変換関数を用い、前記入力音声を音声認識する音声認識処理を、コンピュータに行わせるプログラムであって、

前記入力音声とその入力音声に対応する前記音響モデルのうちの一方を、前記 1以上の変換関数それぞれによって変換した変換結果に基づき、前記 1以上の変換関数の中から、前記入力音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数を検出し、その最適な変換関数に、前記入力音声を割り当てる割り当てステップと、

前記変換関数が割り当てられた前記入力音声を記憶する音声記憶ステツプと , 前記 1以上の変換関数のうち、前記割り当てステップにおいて新たな入力音声が割り当てられた変換関数を、その変換関数に割り当てられているすべての入力音声を用いて更新する変換関数更新ステップと、

前記 1以上の変換関数の中から、前記入力音声と前記音響モデルのうちの一方を変換するのに用いる前記変換関数を選択する変換関数選択ステップと、前記変換関数選択ステップおいて選択された前記変換関数によって、前記入力音声と前記音響モデルのうちの一方を変換する変換ステップと、

前記入力音声と前記音響モデルのうちの一方を前記変換関数によって変換したものと、他方とのマッチング処理を行い、そのマッチング処理結果に基づいて、前記入力音声の音声認識結果を出力するマッチングステップと

を備えることを特徴とするプログラム。

2 2 . 入力音声と、音声認識に用いる音響モデルのうちの一方を変換し、他方に適応させるモデル適応を行うときの、前記入力音声または音響モデルのうちの一方を変換する 1以上の変換関数を用い、前記入力音声を音声認識する音声認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、

前記 1以上の変換関数の中から、前記入力音声と前記音響モデルのうちの一方を変換するのに用いる前記変換関数を選択する変換関数選択ステツプと、前記変換関数選択ステップおいて選択された前記変換関数によって、前記入力音声と前記音響モデルのうちの一方を変換する変換ステツプと、

を備えるプログラムが記録されている

ことを特徴とする記録媒体。