WO2001065541A1

WO2001065541A1 - Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement

Info

Publication number: WO2001065541A1
Application number: PCT/JP2001/001127
Authority: WO
Inventors: Yasuharu Asano; Katsuki Minamino; Hiroaki Ogawa; Helmut Lucke
Original assignee: Sony Corporation
Priority date: 2000-02-28
Filing date: 2001-02-16
Publication date: 2001-09-07
Also published as: EP1215662A4; US20020173958A1; CN1365488A; JP4802434B2; CN1157712C; US7881935B2; EP1215662A1

Description

明細書音声認識装置及び音声認識方法、並びに記録媒体技術分野本発明は、音声認識装!！及び音声認識方法、並びに記録媒体に関し、特に、例えば、音響的な特徴量が不安定な単語を含む音声であっても、少ないリソースで精度の良い音声認識を行うことができるようにする音声認識装置及び音声認識方法、並びに記録媒体に関する。背景技術図 1は、従来の音声認識装置の一例を示している。

ュ一ザが究した音声は、マイクロホン 1に入力される。マイクロホン 1は、入力された音声を、電気信号としての音声信号に変換する。この音声信号は、 A / D (AnaIo_g/Di_gital)変換部 2に供給される。 A / D変換部 2は、マイクロホン 1 から出力されるアナログ信号である音声信号をサンプリング、量子化し、デイジタル信号である音声デ一夕に変換する。この音声データは、特徴抽出部 3に供給される。

特徴抽出部 3は、 A / D変換部 2からの音声データについて、適当なフレーム毎に音響処理を施し、これにより、例えば、 M F C C (Mel Frequency Cepstrum Coefficient)等の特徴量を抽出し、マッチング部 4に供給する。なお、特徴抽出部 3では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スぺクトル対等の特徴量を抽出することが可能である。

マッチング部 4は、特徴抽出部 3からの特徴量を用いて、音響モデルデータべ —ス 5、辞書データベース 6及び文法データベース 7を必要に応じて参照しながら、マイクロホン 1に入力された音声（入力音声）を、例えば、連続分布 H M M 法等に基づいて音声認識する。即ち、音響モデルデータベース 5は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布 H M M法に基づいて音声認識を行うので、音響モデルとしては、 H M M (Hi dden Markov Model)が用いられる。辞書データべ一ス 6は、認識対象の各単語（語彙）について、その究音に関する情報（音韻情報）が記述された単語辞書を記憶している。文法データベース 7は、辞書データベース 6の単語辞書に登録されている各単語が、どのように連鎖、すなわちつながるかを記述した文法規則 (言語モデル）を記憶している。ここで、文法規則としては、例えば、文脈自由文法（C F G ) や、統計的な単語連鎖確率（N— g r a m ) などに基づく規則を用いることができる。

マッチング部 4は、辞書データベース 6の単語辞書を参照することにより、音響モデルデ一夕ベース 5に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部 4は、幾つかの単語モデルを、文法デ一夕ベース 7に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布 H M M法によって、マイクロホン 1に入力された音声を認識する。即ち、マツチング部 4は、特徴抽出部 3が出力する時系列の特徴量が観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を音声の認識結果として出力する。

具体的には、マッチング部 4は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を音声認識結果として出力する。

スコア計算は、一般に、音響モデルデータベース 5に記憶された音響モデルによって与えられる音響的なスコア（以下、適宜、音響スコアという）と、文法デ —夕べ一ス 7に記憶された文法規則によって与えられる言語的なスコア（以下、適宜、言語スコアという）とを総合評価することで行われる。

即ち、音響スコアは、例えば、 H M M法による場合には、単語モデルを構成する音響モデルから、特徴抽出部 3が出力する特徴量の系列が観測される確率（出現する確率）に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖（連接）する確率に基づいて求められる。そして、各単語についての音響スコァと言語スコアとを総合評価して得られる最終的なスコア（以下、適宜、最終スコアという）に基づいて音声認識結果が確定される。

具体的には、ある N個の単語からなる単語列における k番目の単語を w_kとして、その単語 w_kの音響スコアを A ( w_k) と、言語スコアを L ( w_k) と、それぞれ表すとき、その単語列の最終スコア Sは、例えば、式 1にしたがって計算される。

S =∑ ( A ( w_k) + C _k x L ( w_k) ) · · · ( 1 )

但し、 ∑は、 kを 1から Nに変えてのサメーシヨンをとることを表す。また、 C _kは、単語 w_kの言語スコア L ( w_k) にかける重みを表す。

マッチング部 4では、例えば、式 1に示す最終スコアを最も大きくする Nと、単語列 w _{l 5} w₂， · · ·， w_Nを求めるマッチング処理が行われ、その単語列 w w₂， · · ·， w_Nが、音声認識結果として出力される。

以上のような処理が行われることにより、図 1の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューョ一ク」、「に」、「行きたい」、「です」といった各単語に、音響スコア及び言語スコアが与えられ、それらを総合評価して得られる最終スコアが最も大きいときと、単語列「ニューヨーク」、「に」、「行きたい」、「です」が音声認識結果として出力される。

ところで、上述の場合において、辞書デ一夕ベース 6の単語辞書に、「ニューヨーク」、「に」、「行きたい」及び「です」の 5単語が登録されているとすると、これらの 5単語を用いて構成し得る 5単語の並びは、 5 ⁵通り存在する。従つて、単純には、マッチング部 4では、この 5 ⁵通りの単語列を評価し、その中から、ユーザの発話に最も適合するもの、すなわち最終スコアを最も大きくするものを決定しなければならない。単語辞書に登録する単語数が増えれば、その単語数分の単語の並びの数は、単語数の単語数乗通りになるから、評価の対象としなければならない単語列は膨大な数となる。

さらに、一般には、発話中に含まれる単語の数は未知であるから、 5単語の並びからなる単語列だけでなく、 1単語、 2単語、 · · · からなる単語列も、評価の対象とする必要がある。従って、評価すべき単語列の数は、さらに膨大なものとなるから、そのような膨大な単語列の中から、音声認識結果として最も確からしいものを、計算量及び使用するメモリ容量の観点から効率的に決定することは、非常に重要な問题である。

計算量及びメモリ容量の効率化を図る方法としては、例えば、音響スコアを求める過程において、その途中で得られる音響スコアが所定の閾値以下となった場合に、そのスコア計算を打ち切るという音響的な枝刈り手法や、言語スコアに基づいて、スコア計算の対象とする単語を絞り込む言語的な枝刈り手法がある。これらの枝刈り手法によれば、スコア計算の対象が、所定の判断基準（例えば、上述したような計算途中の音響スコアや、単語に与えられる言語スコア）に基づいて絞り込まれることで、計算量の削減を図ることができる。しかしながら、その反面、絞り込みを強くすると、即ち、判断基準を厳しくすると、本来、音声認識結果として正しいものまでも枝刈りされてしまい、誤認識が生じることになる。従って、枝刈り手法による場合には、音声認識結果として正しいものが枝刈りされないように、ある程度のマ一ジンをもたせた絞り込みを行う必要があり、このため、計算量を大きく削減することは困難である。

また、音響スコアを求める場合に、スコア計算の対象となっているすべての単語について独立に行うと、その計算量が大きくなることから、複数の単語について音響スコアの計算の一部を共通化（共有化）する方法が提案されている。この共通化の方法としては、単語辞書の単語のうち、その先頭の音韻が同一のものについて、その先頭の音韻から、同一になっている音韻までは、音響モデルを共通に用い、それ以後の異なる音韻には、音響モデルを個々に用いることにより、全体として 1つの木構造のネットワークを構成し、これを用いて、音響スコアを求める方法がある。具体的には、例えば、いま、単語「秋田」と「曙」を考え、「秋田」の音韻情報が「akita」であり、「曙」の音韻情報が「akebono」であるとすると、単語「秋田」と「曙」の音響スコアは、それぞれの先頭から 2番目までの音韻 a, kについては兼用で計算される。そして、単語「秋田」の残りの音韻 k，i，t，a、及び単語「曙」の残りの音韻 _e,b，o，n，oについては、それそれ独立に音響スコアが計算される。従って、この方法によれば、音響スコアの計算量を大幅に低減することができる。

この方法では、共通化されている部分である音響スコアが兼用で計算される部分において、その音響スコアの計算の対象となっている単語を決定することができない。即ち、上述の単語「秋田」と「曙」の例でいえば、それそれの先頭から 2番目までの音韻 a，kについて音響スコアが計算されている場合は、その音響スコァが計算されている単語が、「秋田」であるのか、又は「曙」であるのかを同定することができない。

この場合、「秋田」については、その 3番目の音韻 iについて音響スコアの計算が開始されたときに、その計算対象が「秋田」であることを同定することができ、「曙」についても、その 3番目の音韻 eについての音響スコアの計算が開始されたときに、その計算対象が「曙」であることを同定することができる。

従って、音響スコアの計算の一部を共通化してしまうと、単語の音響スコアの計算の開始時に、その単語を同定することができないため、その単語について、言語スコアを考慮することができない。その結果、単語の音響スコアの開始前に、上述したような言語的な枝刈り手法を用いることが困難となり、無駄な計算が行われることがある。

さらに、音響スコアの計算の一部を共通化する場合、単語辞書のすべての単語を対象として、上述したような木構造のネットワークが構成されるから、これを保持するための大きなメモリ容量が必要となる。

また、計算量及びメモリ容量の効率化を図る方法としては、音響スコアを計算する場合に、単語辞書のすべての単語を対象とするのではなく、その音響スコアの計算の対象とする単語を予備的に選択（予備選択）し、その予備選択された単語についてだけ、音響スコアを計算する方法がある。

ここで、予備選択の方法は、例えば、 L. R. Bahl, S. V. De Gennaro, P. S . Gopalakrishnan and R. L. Mercer, "A Fast Approximate Acoustic Match for Large Vocabulary Speech Recognition", IEEE Trans. Speech and Audio Proc, vol . 1, p.59-67, 1993等に記載されている。

予備選択は、一般に、それほど精度の高くない、簡易的な音響モデルや文法規則を用いて行われる。即ち、予備選択は、単語辞書の単語すベてを対象として行われるため、精度の高い音響モデルや文法規則を用いて予備選択を行うと、リアル夕ィム性等を維持するのに、計算量ゃメモリ容量といったリソースが多く必要となる。そこで、予備選択は、簡易的な音響モデルや文法規則を用いることで、大語彙を対象とした場合でも、比較的少ないリソースで、高速に行うことが可能となっている。

予備選択を行う音声認識装置では、予備選択された単語についてだけマツチング処理を行えば良いので、マッチング処理は、精度の高い音響モデルや文法規則を用いても、少ないリソースで、高速に行うことができる。従って、予備選択を行う音声認識装置は、大語彙を対象として音声認識を行う場合に、特に有用である。

ところで、予備選択は、ある単語について、特徴量の系列（特徴量系列）を用いてのマッチング処理が終了し、とりあえず確からしい終点が求められた後に、その終点を始点として、その始点に対応する時刻以後の特徴量系列を用いて行われる。即ち、予備選択は、連続発話された音声に含まれる単語どうしの境界（単語境界）が、最終的に確定していない時点で行われる。

従って、予備選択に用いられる特徴量系列の始点ゃ終点が、対応する単語の始点や終点からずれている場合には、その単語の直前の単語や直後の単語の音韻の特徴量を含む特徴量系列や、対応する単語の最初や最後の部分の特徴量が欠けた特徴量系列、即ち、いわば音響的に安定していない特徴量系列を用いて、予備選択が行われることになる。

このため、簡易的な音響モデルを用いる予備選択では、発話中に含まれる単語が選択されないことが起こり得る。特に、例えば、日本語の助詞や助動詞、英語の冠詞や前置詞などの音韻数が短い単語については、そのような選択漏れが生じる可能性が高い。

そして、予備選択において、正しい単語が選択されない場合には、その単語についてマツチング処理が行われないから、音声認識結果は誤つたものとなる。そこで、予備選択において、単語を選択するときの音響的又は言語的な判断基準を緩くして、選択される単語の数を多くする方法や、精度の高い音響モデル及び文法規則を用いる方法がある。

しかしながら、予備選択において、単語を選択するときの音響的又は言語的な判断基準を緩くすると、音声認識結果としてそれほど可能性の高くない単語の多くが、マッチング処理の対象となり、予備選択に比較して 1単語あたりの負荷の重いマッチング処理に要するリソースが大きく増大する。

また、予備選択において、精度の高い音響モデル及び文法規則を用いる場合には、予備選択に要するリソースが大きく増大する。発明の開示本発明は、このような状況に鑑みてなされたものであり、必要なリソースの増加を極力抑えながら、音声認識精度を向上させることができるようにするものである。

本発明に係る音声認識装置は、音声認識の対象とする単語群から、 1以上の第 1の単語を、特徴量を用いて計算される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を、第 1の尺度とは異なる第 2の尺度に基づいて選択する選択手段と、選択手段において選択された第 1及び第 2の単語について、スコアを計算するスコア計算手段とを備える。

選択手段には、音韻数を、第 2の尺度として、音韻数が所定の条件を満たす単語を、第 2の単語として選択させることができる。また、選択手段には、品詞を、第 2の尺度として、品詞が所定の条件を満たす単語を、第 2の単語として選択させることができる。さらに、選択手段には、言語的な尤度を、第 2の尺度として、言語的な尤度が高い単語を、第 2の単語として選択させることができる。また、本発明の音声認識装置には、音声認識結果を記憶する記憶手段をさらに備えることができ、この場合、選択手段には、記憶手段に記憶されていることを、第 2の尺度として、記憶手段に記憶されている音声認識結果に含まれる単語を、第 2の単語として選択させることができる。

また、本発明に係る音声認識装置は、音声認識結果を修正するための入力を与える入力手段をさらに備えることができる。この場合、記憶手段は、入力手段からの入力にしたがって修正された音声認識結果を記憶する。また、選択手段は、音声の特徴量を用いて、スコアを計算させ、そのスコアに基づいて、第 1の単語を選択する。

本究明に係る音声認識方法は、音声認識の対象とする単語群から、 1以上の第 1の単語を、特徴量を用いて計算される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を、第 1の尺度とは異なる第 2の尺度に基づいて選択する選択ステツプと、選択ステツプにおいて選択された第 1及び第 2の単語について、スコアを計算するスコア計算ステツプとを備える。

本究明に係る記録媒体は、音声認識の対象とする単語群から、 1以上の第 1の単語を、特徴量を用いて計算される第 1の尺度に基づいて選択するとともに、 1 以上の第 2の単語を、第 1の尺度とは異なる第 2の尺度に基づいて選択する選択ステップと、選択ステップにおいて選択された第 1及び第 2の単語について、スコァを計算するスコア計算ステップとを備えるプログラムが記録されている。本発明に係る音声認識装置及び音声認識方法、並びに記録媒体は、音声認識の対象とする単語群から、 1以上の第 1の単語が、特徴量を用いて計算される第 1 の尺度に基づいて選択されるとともに、 1以上の第 2の単語が、第 1の尺度とは異なる第 2の尺度に基づいて選択され、その選択された第 1及び第 2の単語について、スコアが計算される。図面の簡単な説明図 1は、従来の音声認識装置の一例を示すプロック図である。

図 2は、本発明に係る音声認識装置の一例を示すプロック図である。

図 3は、単語接続情報を説明するための図である。

図 4は、音声認識装置の処理を説明するためのフローチヤ一トである。

図 5は、本発明に係る音声認識装置の他の例を示すプロック図である。

図 6は、音声認識装置の処理を説明するためのフローチャートである。

図 7は、本発明を適用したコンピュータの一例を示すプロック図である。発明を実施するための最良の形態図 2は、本究明に係る音声認識装置の一例を示している。なお、図中、図 1 に示す装置と対応する部分については、同一の符号を付し、以下では、その詳細な説明は適宜省略する。

特徴量抽出部 3が出力するユーザが発した音声の特徴量の系列は、フレーム単位で制御部 1 1に供給され、制御部 1 1は、特徴量抽出部 3からの特徴量を特徴量記憶部 1 2に供給する。

制御部 1 1は、単語接続情報記憶部 1 6に記憶された単語接続情報を参照してマツチング部 1 4を制御する。さらに、制御部 1 1は、マッチング部 1 4が前述した図 1のマッチング部 4と同様のマッチング処理を行うことにより得られるマツチング処理結果としての音響スコアや言語スコア等に基づいて、単語接続情報を生成し、その単語接続情報によって、単語接続情報記憶部 1 6の記憶内容を更新する。また、制御部 1 1は、単語接続情報記憶部 1 6に記憶された単語接続情報に基づいて最終的な音声認識結果を確定して出力する。

特徴量記憶部 1 2は、制御部 1 1から供給される特徴量の系列を、例えば、ュ —ザの音声の認識結果が得られるまで記憶する。なお、制御部 1 1は、音声区間の開始時刻を基準（例えば 0 ) とする、特徴抽出部 3が出力する特徴量が得られた時刻（以下、適宜、抽出時刻という）を、その特徴量とともに特徴量記憶部 1 2に供給するようになっており、特徴量記憶部 1 2は、特徴量をその抽出時刻とともに記憶する。特徴量記憶部 1 2に記憶された特徴量及びその抽出時刻は、単語予備選択部 1 3及びマッチング部 1 4において必要に応じて参照することができるようになつている。

単語予備選択部 1 3は、マッチング部 1 4からの要求に応じ、単語接続情報記憶部 1 6、音響モデルデ一夕べ一ス 1 7 A、辞書デ一夕ベース 1 8 A及び文法デ —夕べ一ス 1 9 Aを必要に応じて参照しながら、マッチング部 1 4でマッチング処理の対象とする 1以上の単語を選択する単語予備選択処理を、特徴量記憶部 1 2に記憶された特徴量を用いて行う。

マッチング部 1 4は、制御部 1 1からの制御に基づき、単語接続情報記憶部 1 6、音響モデルデータベース 1 7 B、辞書データベース 1 8 B及び文法デ一夕べ —ス 1 9 Bを必要に応じて参照しながら、単語予備選択部 1 3からの単語予備選択処理の結果得られる単語を対象としたマッチング処理を、特徴量記憶部 1 2に記憶された特徴量を用いて行い、そのマッチング処理の結果を制御部 1 1 に供給する。

単語接続情報記憶部 1 6は、制御部 1 1から供給される単語接続情報をユーザの音声の認識結果が得られるまで記憶する。

ここで、単語接続情報は、最終的な音声認識結果の候補となる単語列を構成する単語どうしの接続（連鎖又は連接）関係を表すもので、各単語の音響スコア及び言語スコア並びに各単語に対応する発話の閧始時刻及び終了時刻も含んでいる ( 即ち、図 3は、単語接続情報記憶部 1 6に記憶される単語接続情報を、グラフ構造を用いて示している。

図 3に示す例において、単語接続情報としてのグラフ構造は、単語を表すァ一ク（図 3において、〇印どうしを結ぶ線分で示す部分）と、単語どうしの境界を表すノード（図 3において〇印で示す部分）とから構成されている。

ノードは、時刻情報を有しており、この時刻情報は、そのノードに対応する特徴量の抽出時刻を表す。上述したように、抽出時刻は、音声区間の開始時刻を 0 とする、特徴抽出部 3が出力する特徴量が得られた時刻であるから、図 3において、音声区間の開始、即ち、最初の単語の先頭に対応するノード Nod_{e i}が有する時刻情報は 0となる。ノードは、アークの始端及び終端となるが、始端のノード (始端ノード）、又は終端のノード（終端ノード）が有する時刻情報は、それそれ、そのノードに対応する単語の発話の鬨始時刻、又は終了時刻となる。

なお、図 3では、左から右方向が、時間の経過を表しており、従って、あるァークの左右にあるノードのうち、左側のノードが始端ノードとなり、右側のノードが終端ノ一ドとなる。

アークは、そのアークに対応する単語の音響スコア及び言語スコアを有しており、このアークが、終端ノードとなっているノードを始端ソードとして、順次接続されていくことにより、音声認識結果の候補となる単語の系列が構成されてい < _Q 即ち、制御部 1 1においては、まず最初に、音声区間の開始を表すノード Nod_{e i} に対して、音声認識結果として確からしい単語に対応するアークが接続される。図 3の実施の形態では、「今日」に対応するアーク Ar_{C l}、「いい」に対応するァーク Arc_e、及び「天気 j に対応する Arc„が接続されている。なお、音声認識結果として確からしい単語かどうかは、マツチング部 1 4において求められる音響スコア及び言語スコアに基づいて決定される。

そして、以下、同様にして、「今日」に対応するアーク Ar_Clの終端である終端ノード Node₂、「いい」に対応するアーク Arc₆の終端である終端ノード Node₇、「天気」に対応する Ar_{C l l}の終端である終端ノード Nocle ₁₂それそれに対して、同様に、確からしい単語に対応するアークが接続されていく。

以上のようにしてアークが接続されていくことで、音声区間の開始を始点として、左から右方向に、アークとノードで構成される 1以上のパスが構成されて行くが、例えば、そのパスのすべてが、音声区間の最後（図 3では、時刻 T ) に到達すると、制御部 1 1において、音声区間の開始から最後までに形成された各パスについて、そのパスを構成するアークが宥している音響スコア及び言語スコアが累積され、最終スコアが求められる。そして、例えば、その最終スコアが最も高いパスを構成するアークに対応する単語列が、音声認識結果として確定されて出力される。

具体的には、図 3において、例えば、ノード Node 1から、「今日」に対応するアーク Arc,、ノード Node₂、「は」に対応するアーク Arc₂、ノード Node₃、「いい」に対応するアーク Arc₃、ノード Node₄、「天気」に対応するアーク Arc₄、ノード Node₅、「ですね」に対応するアーク Arc₅、及びノード Node₆で構成されるパスについて、最も高い最終スコアが得られた場合には、単語列「今日」、「は」、「いい」、「天気」、「ですね」が、音声認識結果として出力されることになる。なお、上述の場合には、音声区間内にあるノードについて、必ずアークを接続して、音声区間の開始から最後にまで延びるパスを構成するようにしたが、このようなパスを構成する過程において、それまでに構成されたパスについてのスコァから、音声認識結果として不適当であることが明らかであるパスに関しては、その時点で、パスの構成を打ち切る（その後に、アークを接続しない）ようにすることが可能である。

上述のようなパスの構成ルールに従えば、 1つのアークの終端が、次に接続される 1以上のアークの始端ノードなり、基本的には、枝葉が拡がるように、パスが構成されて行くが、例外的に、 1つのアークの終端が、他のアークの終端に一- 致する場合、つまり、あるアークの終端ノードと、他のアークの終端ノードとが同一のノードに共通化される場合がある。

文法規則として、例えば、バイグラムを用いた場合には、別のノードから延びる 2つのアークが、同一の単語に対応するものであり、さらに、その単語の発話の終了時刻も同一であるときには、その 2つのアークの終端は一致する。

図 3において、ノ一ド Node₇を始端として延びるアーク Arc₇、及びノード Node₁₃ を始端として延びるアーク Arc₁₃は、いずれも「天気」に対応するものであり、その発話の終了時刻も同一であるため、その終端ノードは、同一のノード Node₈に共通化されている。

なお、ノードの共通化は行わないようにすることも可能であるが、メモリ容量の効率化の観点からは、行うのが好ましい。

図 3では、文法規則としてバイグラムを用いているが、その他、例えば、トラィグラム等を用いる場合も、ノードの共通化は可能である。

さらに、単語接続情報記憶部 1 6に記憶されている単語接続情報は、単語予備選択部 1 3及びマッチング部 1 4において、必要に応じて参照することができるようになつている。

図 2に戻り、音響モデルデータベース 1 7 A及び 1 7 Bは、基本的には、図 1 の音響モデルデータベース 5において説明したような音響モデルを記憶している但し、音響モデルデ一夕ベース 1 7 Bは、音響モデルデータベース 1 7 Aよりも精度の高い処理が可能な高精度の音響モデルを記憶している。即ち、音響モデルデータベース 1 7 Aにおいて、各音素や音節について、例えば、前後のコンテキストに依存しない 1パターンの音響モデルだけが記憶されているとすると、音響モデルデータベース 1 7 Bには、各音素や音節について、例えば、前後のコンテキス卜に依存しない音響モデルの他、単語間にまたがるコンテキス卜に依存する音響モデル、つまり、クロスワードモデルや、単語内のコンテキストに依存する音響モデルも記憶されている。

辞書データベース 1 8 A及び 1 8 Bは、基本的には、図 1の辞書データベース 6において説明したような単語辞書を記憶している。

即ち、辞書データベース 1 8 A及び 1 8 Bの単語辞書には、同一セットの単語が登録されている。但し、辞書データベース 1 8 Bの単語辞書は、辞書データべース 1 8 Aの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶している。即ち、辞書デ一夕ベース 1 8 Aの単語辞書には、例えば、各単語に対して、 1通りの音韻情報（読み）だけ登録されているとすると、辞書データベース 1 8 Bの単語辞書には、例えば、各単語に対して、複数通りの音韻情報が登録されている。

具体的には、例えば、単語「お早う」に対して、辞書データべ一ス 1 8 Aの単語辞書には、 1通りの音韻情報「おはよう」だけが、辞書データベース 1 8 Bの単語辞書には、「おはよう」の他、「おはよ一」や「おはよ」が、それそれ音韻情報として登録されている。

文法データベース 1 9 A及び 1 9 Bは、基本的には、図 1の文法データベース 7において説明したような文法規則を記憶している。

但し、文法データべ一ス 1 9 Bは、文法データベース 1 9 Aよりも精度の高い処理が可能な高精度の文法規則を記憶している。即ち、文法データベース 1 9 A が、例えば、ュニグラム（単語の生起確率）に基づく文法規則を記憶しているとすると、文法デ一夕べ一ス 1 9 Bは、例えば、バイグラム（直前の単語との関係を考慮した単語の生起確率）や、トライグラム（直前の単語及びそのさらに 1つ前の単語との関係を考慮した単語の生起確率）、文脈自由文法等に基づく文法規則を記憶している。

以上のように、音響モデルデータベース 1 7 Aには、各音素や音節について、 1パターンの音響モデルが、音響モデルデータベース 1 7 Bには、各音素や音節について、複数パターンの音響モデルが、それそれ記憶されている。また、辞書データベース 1 8 Aには、各単語について、 1通りの音韻情報が、辞書デ一夕べ —ス 1 8 Bには、各単語について、複数通りの音韻情報が、それそれ記憶されている。そして、文法データベース 1 9 Aには、簡易な文法規則が、文法デ一夕べ —ス 1 9 Bには、精度の高い文法規則が、それぞれ記憶されている。

これにより、音響モデルデータベース 1 Ί A、辞書データベース 1 8 A及び文法データベース 1 9 Aを参照する単語予備選択部 1 3では、それほど精度は高くないが、多くの単語を対象として、迅速に、音響スコアや言語スコアを求めることができる。また、音響モデルデータベース 1 7 B、辞書データベース 1 8 B、及び文法データベース 1 9 Bを参照するマッチング部 1 4では、ある程度の数の単語を対象として、迅速に、精度の高い音響スコアや言語スコアを求めることができる。

ここでは、音響モデルデータベース 1 Ί A及び 1 7 Bそれそれに記憶させる音響モデルの精度について優劣を設けるようにしたが、音響モデルデータベース 1 7 A及び 1 7 Bには、いずれにも同一の音響モデルを記憶させることができ、この場合、音響モデルデータべ一ス 1 7 A及び 1 7 Bは、 1つの音響モデルデータベースに共通化することができる。同様に、辞書データベース 1 8 A及び 1 8 B の単語辞書それそれの記憶内容や、文法データベース 1 9八及び 1 9 Bそれぞれの文法規則も同一にすることができる。

次に、図 4のフローチャートを参照して、図 2の音声認識装置による音声認識処理について説明する。

ユーザが発話を行うと、その発話としての音声は、マイクロホン 1及び A / D 変換部 2を介することにより、ディジタルの音声データとされ、特徴抽出部 3に供給される。特徴抽出部 3は、そこに供給される音声デ一夕から、音声の特徴量を、フレームごとに順次抽出し、制御部 1 1に供給する。

制御部 1 1は、何らかの手法で音声区間を認識するようになっており、音声区間においては、特徴抽出部 3から供給される特徴量の系列を、各特徴量の抽出時刻と対応付けて、特徴量記憶部 1 2に供給して記憶させる。

さらに、制御部 1 1は、音声区間の開始後、ステップ S 1において、音声区間の開始を表すノード（以下、適宜、初期ノードという）を生成し、単語接続情報記憶部 1 6に供給して記憶させる。即ち、制御部 1 1は、ステツブ S 1において、図 3におけるノード Node ,を、単語接続情報記憶部 1 6に記憶させる。

そして、ステップ S 2に進み、制御部 1 1は、単語接続情報記憶部 1 6の単語接続情報を参照することで、途中ノードが存在するかどうかを判定する。

即ち、上述したように、図 3に示した単語接続情報においては、終端ノードに、アークが接続されていくことにより、音声区間の開始から最後にまで延びるパスが形成されて行くが、ステップ S 2では、終端ノードのうち、まだアークが接続されておらず、かつ、音声区間の最後にまで到達していないものが、途中ノード (例えば、図 3におけるノード Node₈や、 Node₁₀， Nocle„) として検索され、そのような途中ノ一ドが存在するかどうかが判定される。

上述したように、音声区間は何らかの手法で認識され、さらに、終端ノードに対応する時刻は、その終端ノ一ドが有する時刻情報を参照することで認識することができるから、アークが接続されていない終端ノードが、音声区間の最後に到達していない途中ノードであるかどうかは、音声区間の最後の時刻と、終端ノードが有する時刻情報とを比較することで判定することができる。

ステップ S 2において、途中ノードが存在すると判定された場合、ステップ S 3に進み、制御部 1 1は、情報接続情報の中に存在する途中ノードのうちの 1つを、それに接続するアークとしての単語を決定するノード（以下、適宜、注目ノ ―ドという）として選択する。

即ち、制御部 1 1は、情報接続情報の中に 1つの途中ノードしか存在しない場合には、その途中ノードを注目ノードとして選択する。また、制御部 1 1は、情報接続情報の中に複数の途中ノードが存在する場合には、複数の途中ノードのうちの 1つを注目ノードとして選択する。具体的には、制御部 1 1は、例えば、複数の途中ノードそれそれが有する時刻情報を参照し、その時刻情報が表す時刻が最も古いもの（音声区間の開始側のもの）、又は最も新しいもの（音声区間の終わり側のもの）を、注目ノードとして選択する。また、制御部 1 1は、例えば、初期ノードから、複数の途中ノードそれそれに至るまでのパスを構成するアークが有する音響スコア及び言語スコアを累積し、その累積値（以下、適宜、部分累積スコアという）が最も大きくなるパス、又は小さくなるパスの終端になっている途中ノードを、注目ノードとして選択する。

その後、制御部 1 1は、注目ノードが有する時刻情報を閧始時刻としてマッチング処理を行う旨の指令（以下、適宜、マッチング処理指令という）を、マヅチング部 1 4に出力する。

マッチング部 1 4は、制御部 1 1からマッチング処理指令を受信すると、注目ノード、及びそれが有する時刻情報を、単語予備選択部 1 3に供給し、単語予備選択処理を要求して、ステップ S 4に進む。

ステップ S 4では、単語予備選択部 1 3は、マッチング部 1 4から、単語予備選択処理の要求を受信すると、注目ノードに接続されるアークとなる単語の候補を選択する単語予備選択処理を、辞書データベース 1 8 Aの単語辞書に登録された単語を対象として行う。

即ち、単語予備選択部 1 3は、言語スコア及び音響スコアを計算するのに用いる特徴量の系列の開始時刻を注目ノードが有する時刻情報から認識し、その開始時刻以降の必要な特徴量の系列を特徴量記憶部 1 2から読み出す。さらに、単語予備選択部 1 3は、辞書データべ一ス 1 8 Aの単語辞書に登録された各単語の単語モデルを音響モデルデ一夕ベース 1 7 Aの音響モデルを接続することで構成し、その単語モデルに基づき、特徴量記憶部 1 2から読み出した特徴量の系列を用いて音響スコアを計算する。

単語予備選択部 1 3は、各単語モデルに対応する単語の言語スコアを文法デー夕べ一ス 1 9 Aに記憶された文法規則に基づいて計算する。即ち、単語予備選択部 1 3は、各単語の言語スコアを例えばュニグラムに基づいて求める。

単語予備選択部 1 3においては、単語接続情報を参照することにより、各単語の音響スコアの計算をその単語の直前の単語（注目ノ一ドが終端となっているァークに対応する単語）に依存するクロスヮ一ドモデルを用いて行うことが可能である。但し、クロスワードモデルを用いる場合には、用いない場合に比較して音響スコアの計算量は増大することになる。

また、単語予備選択部 1 3においては、単語接続情報を参照することにより、各単語の言語スコアの計算を、その単語が、その直前の単語と連鎖する確率を規定するバイグラムに基づいて行うことが可能である。但し、バイグラム（さらには、トライグラム等）に基づいて言語スコアの計算を行う場合には、ュニグラムに基づいて行う場合に比較してその計算量は増大することになる。

単語予備選択部 1 3は、以上のようにして、各単語について音響スコア及び言語スコアを求めると、その音響スコア及び言語スコアを総合評価したスコア（以下、適宜、単語スコアという）（第 1の尺度）を求め、その上位 L個を、マヅチング処理の対象とする単語としてマッチング部 1 4に供給する。

さらに、単語予備選択部 1 3は、ステップ S 4において、辞書データベース 1 8 Aに登録されている 1以上の単語を、音響スコアが反映された単語スコアとは異なる尺度（第 2の尺度）に基づいて選択してマッチング部 1 4に供給する。即ち、単語予備選択部 1 3は、辞書デ一夕ベース 1 8 Aに登録されている単語のうち、例えば、音素数又は音韻数が、所定値以下の短い単語及び所定の品詞の単語（例えば、英語における前置詞や冠詞、日本語における助詞や助動詞など）などの一般に発話時間が短い単語をその音響スコアに関係なく選択してマツチング部 1 4に供給する。この場合、発話時間が短い単語は、必ず、マッチング処理の対象とされる。

単語予備選択部 1 3において、上述のように、音響スコアに関係のない特定の尺度で選択される単語を、以下、適宜、特定単語という。

マッチング部 1 4は、単語予備選択部 1 3から、単語スコアに基づいて選択された L個の単語と、単語スコアに関係ない所定の条件（尺度）に基づいて選択された特定単語を受信すると、ステップ S 5において、それらの単語を対象としてマッチング処理を行う。

即ち、マッチング部 1 4は、言語スコア及び音響スコアを計算するのに用いる特徴量の系列の開始時刻を注目ノードが有する時刻情報から認識し、その開始時刻以降の必要な特徴量の系列を特徴量記憶部 1 2から読み出す。さらに、マッチング部 1 4は、辞書データベース 1 8 Bを参照することで、単語予備選択部 1 3 からの単語の音韻情報を認識し、その音韻情報に対応する音響モデルを音響モデルデ—夕ベース 1 7 Bから読み出して接続することで単語モデルを構成する。マッチング部 1 4は、上述のようにして構成した単語モデルに基づき、特徴量記憶部 1 2から読み出した特徴量系列を用いて単語予備選択部 1 3からの単語の音響スコアを計算する。マッチング部 1 4は、単語接続情報を参照することにより、単語の音響スコアの計算をクロスワードモデルに基づいて行うようにすることが可能である。さらに、マッチング部 1 4は、文法データべ一ス 1 9 Bを参照することで、単語予備選択部 1 3からの単語の言語スコアを計算する。即ち、マッチング部 1 4 は、例えば、単語接続情報を参照することにより、単語予 (1選択部 1 3からの単語の直前の単語と、さらにその前の単語を認識し、トライグラムに基づく確率から単語予備選択部 1 3からの単語の言語スコアを求める。

マツチング部 1 4は、以上のようにして、単語予備選択部 1 3からの L個の単語と、特定単語のすべて（以下、適宜、これらをまとめて、選択単語とぃゔ）についてその音響スコア及び言語スコアを求め、ステップ S 6に進む。ステップ S 6では、選択単語それそれについてその音響スコア及び言語スコアを総合評価した単語スコアが求められ、その単語スコアに基づいて単語接続情報記憶部 1 6に記憶された単語接続情報が更新される。

即ち、ステップ S 6では、マッチング部 1 4は、選択単語について単語スコアを求め、例えば、その単語スコアを所定の閾値と比較すること等によって、注目ノードに接続するアークとしての単語を選択単語の中から絞り込む。マッチング部 1 4は、その絞り込みの結果残った単語を、その音響スコア、言語スコア及びその単語の終了時刻とともに、制御部 1 1に供給する。

なお、単語の終了時刻は、音響スコアを計算するのに用いた特徴量の抽出時刻から認識される。また、ある単語について、その終了時刻としての蓋然性の高い抽出時刻が複数得られた場合には、その単語については、各終了時刻と、対応する音響スコア及び言語スコアとのセットが、制御部 1 1に供給される。

制御部 1 1は、上述のようにしてマッチング部 1 4から供給される単語の音響スコア、言語スコア、及び終了時刻を受信すると、マッチング部 1 4からの各単語について、単語接続情報記憶部 1 6に記憶された単語接続情報（図 3 ) における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部 1 1は、各アークに対して、対応する単語、並びにその音響スコア及び言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。そして、ステップ S 2に戻り、以下、同様の処理が繰り返される。

以上のように、単語接続情報は、マッチング部 1 4の処理結果に基づいて、逐次更新されるので、単語予備選択部 1 3及びマッチング部 1 4は、常時、最新の単語接続情報を利用して処理を行うことが可能となる。

なお、制御部 1 1は、単語接続情報を更新する際に、可能であれば、上述したような終端ノードの共通化を行う。

一方、ステップ S 2において、途中ノードが存在しないと判定された場合、ステツプ S 7に進み、制御部 1 1は、単語接続情報を参照することで、その単語接続情報として構成された各パスについて単語スコアを累積することで、最終スコァを求め、例えば、その最終スコアが最も大きいパスを構成するアークに対応する単語列をユーザの発話に対する音声認識結果として出力して処理を終了する。以上のように、単語予備選択部 1 3において、音響的な特徴量から計算される音響スコアを含む単語スコアに基づいて音声認識結果として確からしい単語を選択する他、例えば、日本語の助詞や助動詞、英語の冠詞や前置詞、その他の音韻数が短い音響的な特徴量が不安定な単語を音響的な特徴量から計算される音響スコアとは関係ない尺度に基づいて選択し、マッチング部 1 4において、それらの単語をマッチング処理の対象とするようにしたので、音響的な特徴量が不安定な単語が単語予備選択部 1 3で選択されないことによる音声認識精度の劣化を防止することができる。

この場合、単語予備選択部 1 3において、単語を選択するときの枝刈り（絞り込み）の範囲を小さくしたり、精度の高い音響モデル及び文法規則を用いているわけではないので処理に必要なリソース（演算量やメモリ等）を極力低減することができる。

また、音響的な特徴量が不安定な音韻数の短い単語が、必ずマッチング処理の対象とされるため、単語予備選択部 1 3において、音響スコアを含む単語スコアに基づいて選択される単語は、音響的な特徴量が比較的安定している音韻数の長い単語だけであっても良い。単語予備選択部 1 3では、より簡易な音響モデルや文法規則を用いても、正しい単語の選択漏れが生じないこととなり、その結果、単語予備選択部 1 3の処理に必要なリソースを低減しながら音声認識精度を向上させることができる。

さらに、単語予備選択部 1 3において、音響スコアを含む単語スコアに基づいて選択される単語が、音響的な特徴量が比較的安定している音韻数の長い単語だけとなる場合には、単語を選択するときの音響的又は言語的な判断基準としてより厳しいものを用い、音響スコアや言語スコアに基づいて選択される単語の数を少なくしても正しい単語の選択漏れが生じないこととなり、その結果、マツチング部 1 4の処理に必要なリソースを低減しながら音声認識精度を向上させることができる。

上述の場合には、単語予備選択部 1 3において、究話時間という尺度に基づいて、究話時間が短い単語をその音響スコアに関係なく選択するようにすることで、音響的な特徴量が不安定な単語が、単語予備選択部 1 3で選択されないことによる音声認識精度の劣化を防止するようにしたが、その他、単語予備選択部 1 3には、単語スコアに基づいて選択される単語とは別に、音響スコアとは関係がない尺度、即ち、音声の特徴量とは無関係の尺度である、例えば、言語スコアにのみ基づいて単語を選択させるようにすることができ、この場合もリソースを低減しながら音声認識精度を向上させることができる。

即ち、単語予備選択部 1 3には、例えば、注目ノードに至るまでのパスの、注目ノード側の N— 1単語の系列に接続する可能性の高い単語を、統計的な単語連鎖確率（N— g r a m ) に基づく文法規則から得られる言語スコアにのみ基づいて選択させることができる。この場合、特徴量から計算される音響スコアは考慮されずに単語が選択されることから、音響的な特徴量が不安定であることによつて音響スコアが小さくなり、それに起因して単語スコアも小さくなつてしまう単語が選択されないことによる音声認識精度の劣化を防止することができる。

また、言語スコアの計算は、音響スコアの計算に比較して計算量が非常に少なくて済むことから、リソースの增加を最小限に抑えることができる。

上述のように、統計的な単語連鎖確率に基づく文法規則から得られる言語スコァのみに基づいて行う単語の選択は、文法デ一夕べ一ス 1 9 Aにそのような文法規則を記憶させておくことで容易に行うことが可能である。

次に、図 5は、本発明に係る音声認識装置の他の例を示すブロック図であり、図 2に示すものと共通する部分については、同一の符号を付して詳細な説明は省略する。即ち、図 5の音声認識装置は、認識結果記憶部 2 1が新たに設けられている他は、図 2の音声認識装置と共通する。

認識結果記憶部 2 1には、制御部 1 1が出力する音声認識結果が供給されるようになつており、認識結果記憶部 2 1は、その音声認識結果を記憶する。なお、認識結果記憶部 2 1は、例えば、 1つ又は複数の音声認識結果を記憶することができる分の記憶容量を有しており、また、その記憶容量の分だけ音声認識結果を記憶すると、次に供給される音声認識結果を、最も古い記憶値に上書きする形で記憶するようになっている。従って、認識結果記憶部 2 1では、最新の音声認識結果の履歴が記憶される。そして、認識結果記憶部 2 1 に記憶された最新の音声認識結果の履歴は、単語予備選択部 1 3が参照することができるようになつている。

次に、図 6のフローチャートを参照して、図 5の音声認識装置による音声認識処理について説明する。

図 5の音声認識装置は、ステップ S 1 1乃至 S 1 7において、基本的に、. 図 4 のステツブ S 1乃至 S 7における場合とそれそれ同様の処理を行う。

ステップ S 1 7において、制御部 1 1が、最終スコアが最も大きいパスを構成するアークに対応する単語列をユーザの発話に対する音声認識結果として出力した後は、ステップ S 1 8に進み、制御部 1 1は、その音声認識結果を認識結果記憶部 2 1に供給して記憶させて処理を終了する。

但し、ステップ S 1 4では、単語予備選択部 1 3は、次のような単語予備選択処理を行う。

即ち、単語予備選択部 1 3は、図 4のステップ S 4における場合と同様に、注目ノードが有する時刻情報における開始時刻以降の必要な特徴量の系列を特徴量記憶部 1 2から読み出し、辞書データべ一ス 1 8 Aの単語辞書に登録された各単語について、特徴量記憶部 1 2から読み出した特徴量の系列を用いて音響スコアを計算するとともに、文法データべ一ス 1 9 Aに記憶された文法規則に基づいて言語スコアを計算し、その音響スコァ及び言語スコァを総合評価した単語スコァ (第 1の尺度）を求める。単語予備選択部 1 3は、単語スコアが上位 L位以内の単語をマッチング処理の対象とする単語としてマッチング部 1 4に供給する。単語予備選択部 1 3は、辞書データべ一ス 1 8 Aに登録されている単語のうちの 1以上を認識結果記憶部 2 1に記憶されているという尺度（第 2の尺度）に基づいて選択してマッチング部 1 4に供給する。

ユーザが過去に行った究話に含まれる単語は、経験的に、その後の究話において再度発話されることが多い。そこで、図 5の単語予備選択部 1 3は、認識結果記憶部 2 1に記憶されている音声認識結果を構成する単語と同一の単語を、辞書データベース 1 8 Aから特定単語として選択し、マツチング処理の対象とする単語としてマッチング部 1 4に供給する。

マッチング部 1 4は、単語予備選択部 1 3から単語スコアに基づいて選択された L個の単語と、単語スコアに関係ない所定の条件（尺度）（ここでは、認識結果記憶部 2 1 に記憶されているという尺度）に基づいて選択された特定単語を受信すると、ステップ S 1 5において、それらの単語を対象としてマッチング処理を行う。

この場合も、単語予備選択部 1 3において、音響スコアとは関係ない尺度に基づいて単語が選択されるので、例えば、環境雑音や回線雑音等に起因して音声の特徴量が大きな揺らぎを荷し、そのような特徴量から計算される音響スコアを反映した単語スコアによっては選択されない単語であっても、精度の高い音響モデルを用いずに、マッチング処理の対象とされることになり、少ないリソースで音声認識精度を向上させることができる。

なお、音声認識装置には、図 5に点線で示すように、ユーザが、音声認識結果を修正するための入力を与えるときに操作するキ一ボード等の入力部 2 2をさらに設けることが可能である。この場合、制御部 1 1が出力した音声認識結果に対してユーザが入力部 2 2を操作することにより、その修正を行ったときには、制御部 1 1には、自身が出力した音声認識結果に替えて（あるいは、その音声認識結果とともに）、その修正された音声認識結果を認識結果記憶部 2 1に記憶させるようにすることができる。この場合においても、上述した場合と同様に、少ないリソースで音声認識精度を向上させることができる。

上述した一連の処理は、ハードウェアにより行うこともでき、あるいは、ソフトウエアにより行うこともできる。一連の処理をソフトウエアによって行う場合には、そのソフトウェアを構成するプログラムが汎用のコンピュータ等にィンスト一ルされる。

図 7は、上述した一連の処理を実行するプログラムがィンストールされるコンピュー夕の一例を示している。

プログラムは、コンピュー夕に内蔵されている記録媒体としてのハードデイスク 1 0 5や R O M 1 0 3に予め記録しておくことができる。

プログラムは、フロッピ一ディスク、 CD-ROM(Compact Disc Rea d Only Memory) , MO(Magneto optical)デイスク， DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体 1 1 1に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリム一バブル記録媒体 1 1 1は、いわゆるパッケージソフトウェアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体 1 1 1 からコンビユー夕にインスト一ルする他、ダウン口一ドサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、 LAN (Local Area Network), インターネットといったネットヮ一クを介して、コンビュ一夕に有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを通信部 1 0 8で受信し、内蔵するハ一ドディスク 1 0 5にィンストールすることがでぎる。

コンビュ一夕は、 CPU(Central Processing Unit) 1 0 2を内蔵している。 CPU 1 0 2には、バス 1 0 1 を介して、入出力ィンタフエース 1 1 0が接続されており、 CPU 1 0 2は、入出力インタフェース 1 1 0を介して、ユーザによって、キ —ボードや、マウス、マイクロホン等で構成される入力部 1 0 7が操作等されることにより指令が入力されると、それにしたがって、 ROM(Read Only Memory) 1 0 3に格納されているプログラムを実行する。あるいは、また、 CPU 1 0 2は、ハードディスク 1 0 5に格納されているプログラム、衛星若しくはネヅトワークから転送され、通信部 1 0 8で受信されてハードディスク 1 0 5にィンストールされたプログラム、又はドライブ 1 0 9に装着されたリム一バブル記録媒体 1 1 1から読み出されてハ一ドディスク 1 0 5にィンストールされたプログラムを、 RAM(Random Access Memory) 1 0 4にロードして実行する。これにより、 CPU 1 0 2は、上述したフローチャートにしたがった処理、あるいは上述したブロヅク図の構成により行われる処理を行う。 CPU 1 0 2は、その処理結果を、必要に応じて、例えば、入出力インタフェース 1 1 0を介して、 LCD(Liqukl Crystal Display)やスピーカ等で構成される出力部 1 0 6から出力、あるいは、通信部 1 0 8から送信、さらには、ハードディスク 1 0 5に記録等させる。

ここで、本発明において、コンビュ一夕に各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチヤ一トとして記載された順序に沿つて時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、 1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュー夕に転送されて実行されるものであってもよい。上述のように、単語予備選択部 1 3において、辞書デ一夕べ一ス 1 8 Aに登録された単語群から、特徴量を用いて計算される単語スコアに基づいて単語を選択するとともに、単語スコアとは異なる尺度に基づいて発話時間の短い単語や、言語的に、直前に認識された単語に接続しやすい単語、過去の音声認識結果に含まれる単語をも選択し、その選択した単語をマッチング処理の対象とするようにしたので、単語予備選択処理にあたって、精度の高い音響モデルを用いなくても、所定の単語の選択漏れを防止することができ、その結果、必要なリソースの増加を極力抑えながら音声認識精度の劣化を防止することができる。

さらに、マッチング処理の対象とする単語を、単語スコアとは異なる尺度、即ち、音声の特徴量を用いて計算される音響スコアに関係がなく、音声の特徴量の影響を受けない尺度に基づいて選択するようにしたので、例えば、雑音環境下において、その雑音の影響を受けることなく、マッチングの対象とする単語を選択することができ、音声認識装置の雑音耐性を向上させることができる。

マッチング部 1 4でスコア計算の対象となる単語は、単語予備選択部 1 3においてあらかじめ選択されているから、マヅチング部 1 4による各単語のスコア計算は、前述したような、音響スコアの計算の一部を共通化する木構造のネットヮ —クを構成せずに、各単語ごとに独立して行うことができる。この場合、マッチング部 1 4において各単語についてのスコア計算を時分割で行うようにすることにより、その計算のために確保する必要のあるメモリ容量を小さく抑えることができる。

マッチング部 1 4によるスコア計算は、各単語ごとに、時間的に独立して行うことができ、スコア計算に要するメモリ容量を使い回すことにより、必要とするメモリ容量を小さく抑えることができる。

この場合、単語のスコア計算を開始するときに、その単語が、どの単語であるのかを同定することができるから、そのスコア計算の初期の段階で、言語スコアを適用して枝刈りを行うことが可能となり、その結果、前述したような、単語を同定することができないことによつて無駄な計算が行われることを防止することができる。

なお、図 2や図 5に示した音声認識装置は、例えば、音声によってデータべ一スの検索を行う場合や、各種の機器の操作を行う場合、各機器へのデータ入力を行う場合、音声対話システム等に適用可能である。より具体的には、例えば、音声による地名の問合せに対して、対応する地図情報を表示するデータベース検索装置や、音声による命令に対して、荷物の仕分けを行う産業用ロボット、キーボ一ドの代わりに音声入力によりテキスト作成を行うディクテ一ションシステム、ユーザとの会話を行うロボッ卜における対話システム等に適用可能である。また、単語予備選択部 1 3において、音韻数や品詞に基づいて選択される特定単語は、他の単語とは区別して、単語辞書に登録しておくことが可能である。さらに、上述の例では、単語予備選択部 1 3において、音響スコア及び言語スコアを総合評価した単語スコアに基づいて L個の単語を選択するようにしたが、 L個の単語は、その他、例えば、音響スコアだけに基づいて選択することも可能である。

また、マ、ソチング処理の対象とする単語を音響スコアが反映された単語スコアとは異なる尺度に基づいて選択する場合においては、その尺度として、複数の尺度を用いることが可能であり、これにより、例えば、究話時間の短い単語と、過去の音声認識結果に含まれる単語の両方を、必ず、マッチング処理の対象とする単語とすること等が可能である。産業上の利用可能性本発明は、音声認識の対象とする単語群から、 1以上の第 1の単語が、特徴量を用いて計算される第 1の尺度に基づいて選択されるとともに、 1以上の第 2の単語が、第 1の尺度とは異なる第 2の尺度に基づいて選択され、その選択された第 1及び第 2の単語について、スコアが計算されるので、第 2の単語が第 1の尺度に基づいて選択されないことによる音声認識精度を劣化を防止することができる。

Claims

請求の範囲

1 . 入力された音声に対してその音声認識結果の音響的な尤度を反映したスコアを計算し、そのスコアに基づいて前記音声を認識する音声認識装置において、前記音声の特徴量を抽出する抽出手段と、

音声認識の対象とする単語群から 1以上の第 1の単語を前記特徴量を用いて計算される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を前記第 1の尺度とは異なる第 2の尺度に基づいて選択する選択手段と、

前記選択手段において選択された前記第 1及び第 2の単語について前記スコアを計算するスコア計算手段と、

前記スコアに基づいて前記音声の音声認識結果としての単語列を確定する確定手段とを備える音声認識装置。

2 . 前記選択手段は、音韻数を前記第 2の尺度として音韻数が所定の条件を満たす単語を前記第 2の単語として選択する請求の範囲第 1項記載の音声認識装置。

3 . 前記選択手段は、品詞を前記第 2の尺度として品詞が所定の条件を満たす単語を前記第 2の単語として選択する請求の範囲第 1項記載の音声認識装置。

4 . 前記選択手段は、言語的な尤度を前記第 2の尺度として言語的な尤度が高い単語を前記第 2の単語として選択する請求の範囲第 1項記載の音声認識装置。

5 . 上記装置は、さらに音声認識結果を記憶する記憶手段を備え、

前記選択手段は、前記記憶手段に記憶されていることを前記第 2の尺度として前記記憶手段に記憶されている音声認識結果に含まれる単語を前記第 2の単語として選択する請求の範囲第 1項記載の音声認識装置。

6 . 上記装置は、さらに音声認識結果を修正するための入力を与える入力手段をさらに備え、

前記記憶手段は、前記入力手段からの入力にしたがって修正された音声認識結果を記憶する請求の範囲第 5項記載の音声認識装置。

7 . 前記選択手段は、前記音声の特徴量を用いて前記スコアを計算し、そのスコァに基づいて前記第 1の単語を選択する請求の範囲第 1項記載の音声認識装置。

8 . 入力された音声に対してその音声認識結果の音響的な尤度を反映したスコアを計算し、そのスコアに基づいて前記音声を認識する音声認識方法において、前記音声の特徴量を抽出する抽出ステツプと、

音声認識の対象とする単語群から 1以上の第 1の単語を前記特徴量を用いて計箅される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を前記第 1の尺度とは異なる第 2の尺度に基づいて選択する選択ステツプと、

前記選択ステツプにおいて選択された前記第 1及び第 2の単語について前記スコアを計算するスコア計算ステップと、

前記スコアに基づいて前記音声の音声認識結果としての単語列を確定する確定ステツプとを備える音声認識方法。

9 . 入力された音声に対して、その音声認識結果の音響的な尤度を反映したスコァを計算し、そのスコアに基づいて前記音声を認識する音声認識処理をコンビュ —夕に行わせるプログラムが記録されている記録媒体において、

上記プログラムは、

前記音声の特徴量を抽出する抽出ステツプと、

音声認識の対象とする単語群から 1以上の第 1の単語を前記特徴量を用いて計算される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を前記第 1の尺度とは異なる第 2の尺度に基づいて選択する選択ステツプと、

前記選択ステツプにおいて選択された前記第 1及び第 2の単語について前記スコアを計算するスコア計算ステヅプと、

前記スコアに基づいて前記音声の音声認識結果としての単語列を確定する確定ステップとを備えることを特徴とする記録媒体。