WO2006075648A1

WO2006075648A1 - 音声認識システム、音声認識方法及び音声認識プログラム

Info

Publication number: WO2006075648A1
Application number: PCT/JP2006/300269
Authority: WO
Inventors: Shinya Ishikawa; Kiyoshi Yamabana
Original assignee: Nec Corporation
Priority date: 2005-01-17
Filing date: 2006-01-12
Publication date: 2006-07-20
Also published as: CN101120397A; EP1852847A4; US20080133237A1; JPWO2006075648A1; CN101120397B; US7930180B2; JP5103907B2; EP1852847A1

Abstract

【課題】　マルチパス音声認識の各パスを並列して処理することで、高速に音声認識を行う。【解決手段】　距離計算手段１１１は、音声特徴量の時系列データに関するフレーム同期の全音響モデルと各フレームの距離値を距離値バッファ１４１に書き込む。先読み手段１２１は、複数の距離値バッファ１４４～１４２から距離値を受け取り、各認識単位の優劣である先読み値を計算し、先読み値バッファ１４２に書き込む。単語列照合手段１３１は複数の距離値バッファ１４５及び先読み値バッファ１５３～距離値バッファ１４３及び先読み値バッファ１５２から情報を受け取り、先読み値を利用して適宜照合単語を取捨選択しながらフレーム同期に発声全体を認識し、認識結果を生成する。

Description

明細書

音声認識システム、音声認識方法及び音声認識プログラム

技術分野

[0001] 本発明は、例えば高精度かつ高速な大語彙連続音声認識 (Large Vocabulary Con tinuous Speech Recognition:LVCSR)に適した音声認識システム、音声認識方法及び音声認識プログラムに関する。

背景技術

[0002] 近年、非特許文献 1に記載されて、るように、高精度かつ高速な LVCSRを実現しようとする試みが盛んになされている。この LVCSRでは、探索空間が非常に大きくなるため、探索アルゴリズムの設計は重要である。この探索アルゴリズムにおいて、探索の過程でトレリス上の節点までの累積スコアだけでなく当該節点以降の累積スコア（の推定値)も併せて考慮する「先読み」 t 、う方法が広く用いられて、る。この技術に関連する音声認識システムを、第一従来例として図 5に示す。以下、この図面に基づき説明する。

[0003] 第一従来例の音声認識システム 700は、データ処理装置 710及びデータ記憶装置 720によって構成されている。データ記憶装置 720は、複数フレームに渡る音声を蓄積する音声バッファ 721と、音声バッファ 721に蓄積された音声に対して、音声とは逆向きに処理して作成される音声の先読み値を保存する先読み値バッファ 722と、を備える。データ処理装置 710は、前記先読み値を作成し先読み値バッファ 722に保存する距離計算'先読み手段 711と、音声バッファ 721及び先読み値バッファ 722 の各値を利用して通常の単語照合処理を行う距離計算 ·単語列照合手段 712とを備える。

[0004] 音声認識システム 700は以下のように動作する。まず、距離計算'先読み手段 711 は、次のように動作する。入力される音声特徴量の時系列データが音声バッファ 721 に蓄積されるまで待ち、その後その音声を時間と逆順に処理して各フレームに対する先読み値を作成し、これを先読み値バッファ 722に蓄積する。音声バッファ 721に対して処理が完了すると、距離計算 ·単語列照合手段 712にその旨を通知する。続いて、距離計算 ·単語列照合手段 712は、次のように動作する。音声バッファ 721及び先読み値バッファ 722を参照して連続単語照合を行い、音声バッファ 721及び先読み値バッファ 722内の処理が完了すると、距離計算 ·先読み手段 711にその旨を通知する。その後、距離計算'先読み手段 711は、音声バッファ 721にデータが蓄積されるまで再び待ち、同様の処理を繰り返す。連続単語照合結果は距離計算'単語列照合手段 712内に保持されており、全ての音声特徴量を処理した時点で結果が出力される。

[0005] 次に、特許文献 1に記載された音声認識システムを、第二従来例として図 6に示す。以下、この図面に基づき説明する。

[0006] 第二従来例の音声認識システム 800は、分析部 801と、複数の単語レベルプロセッサ 821〜823と、複数の文レベルプロセッサ 861, 862とから成る三段の処理部を持つ。音声認識システム 800によれば、分析部 801に入力される音声信号に同期して各単語レベルプロセッサ 821〜823及び各文レベルプロセッサ 861, 862力入力 · 出力を行うことにより、すなわち並列処理を行うことにより、全体を単一のプロセッサで行う場合に比べて、処理を高速化できる。なお、 804はデータ転送部、 807は転送指示部、 808は優先順位変更部、 831, 832, 833, 851, 852は FIFOである。

[0007] 非特許文献 1 :「大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討」情報処理学会論文誌 vol.40, No.4 1999年 4月、堀貴明、岡直生、加藤正治、伊藤彰典、好田正紀

特許文献 1：特開平 4 232998号公報「音声認識装置」

発明の開示

発明が解決しょうとする課題

[0008] し力しながら、第一従来例の問題点は、一つの処理手段で逐次的に処理するので、組込み向けの低電力 CPUでは認識速度が不十分なことである。これを第二従来例のように複数の処理手段で行えば高速ィ匕が期待できるものの、第二従来例ではフレーム同期に処理を行うことが前提となっている。そのため、複数のフレームをバッファに貯めた後、時間と逆順に処理を行う必要がある先読み処理を含む第一従来例にお！、ては、これをそのまま組み合わせることはできな！、。 [0009] そこで、本発明の目的は、第一従来例に相当する音声認識システムの並列化を実現することにより、更に高速な認識が可能となる、音声認識システム等を提供することにある。

課題を解決するための手段

[0010] 本発明の前提となる音声認識システムを、図 7に示す。以下、図 7に基づき説明する。この音声認識システム 900は、データ処理装置 910及びデータ記憶装置 920によって構成される。データ処理装置 910は、距離計算手段 911と、先読みのみを行う先読み手段 912と、単語照合のみを行う単語列照合手段 913とを有する。データ記憶装置 920は、複数のフレームを収容可能な距離値バッファ 921及び先読み値バッファ 922を一つずつ有する。距離計算手段 911は、全音響モデルに対する距離値を計算し、後段の先読み手段 912及び単語列照合手段 913において新たに距離計算を行わない。しかしながら、このような音声認識システム 900では、図 8のタイムチヤ一トに示すように、同時に一つの処理し力行うことができな、。

[0011] そこで、本発明に係る音声認識システムは、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算手段と、前記距離計算手段による距離値の生成と並行して、前記距離計算手段で既に生成された距離値を用いて先読み値を生成する先読み手段と、前記距離計算手段による距離値の生成及び前記先読み手段による先読み値の生成と並行して、前記距離計算手段で既に生成された距離値及び前記先読み手段で既に生成された先読み値を用いて単語照合を行って認識結果を生成する単語列照合手段を有することを特徴とするものである。このように、三つの手段が並列的に処理を実行できるので、高速な音声認識が可能となる。

[0012] 例えば、前記距離計算手段で生成された距離値を格納する距離値バッファと、前記先読み手段で生成された先読み値を格納する先読み値バッファとをそれぞれ複数備え、前記各距離値バッファは、前記距離計算手段で前記距離値が書き込まれ、その後前記先読み手段で前記距離値が読み出され、その後前記単語列照合手段で前記距離値が読み出され、前記各先読み値バッファは、前記先読み手段で前記先読み値が書き込まれ、その後前記単語列照合手段で前記先読み値が読み出され、前記距離計算手段が前記距離値を書き込んで！/ヽる前記距離値バッファと、前記先読み手段が前記距離値を読み出して!/ヽる前記距離値バッファと、前記単語列照合手段が前記距離値を読み出している前記距離値バッファとはそれぞれ異なり、かつ、前記先読み手段が前記先読み値を書き込んで、る前記先読み値バッファと、前記単語列照合手段が前記先読み値を読み出している前記先読み値バッファとはそれぞれ異なる、としてちよい。

[0013] また、前記距離計算手段、前記先読み手段及び前記単語照合手段の処理量が均一になるように、前記距離値バッファ又は前記先読み値バッファのノッファ長を決定するノッファ長決定手段を更に備えた、としてもよい。この場合は、バッファ長決定手段によって、速度に対して最適なバッファ長が決定されるので、認識速度が向上する

[0014] 更に、前記距離計算手段、前記先読み手段及び前記単語列照合手段の動作を監視し、前記距離計算手段が前記距離値バッファに前記距離値をこれ以上書き込めなくなつた時、かつ前記先読み手段及び前記単語列照合手段が前記距離値バッファから前記距離値を全て読み出した時、かつ前記先読み手段が前記先読み値バッファにこれ以上前記先読み値を書き込めなくなった時、かつ前記単語列照合手段が前記先読み値バッファから前記先読み値を全て読み出した時に、前記距離計算手段が書き込みに用いていた前記距離値バッファを前記先読み手段の次の読み出し用とし、前記先読み手段が読み出しに用いていた前記距離値バッファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記距離値バッファを前記距離計算手段の次の書き込み用とし、前記先読み手段が書き込みに用いていた前記先読み値バッファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記先読み値バッファを前記先読み手段の次の書き込み用とする、ノッファ管理手段を更に備えた、としてもよい。この場合は、最小限のバッファ数で、本発明の効果が得られる。

[0015] 本発明に係る音声認識方法は、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算ステップと、この距離計算ステップにおける前記距離値の生成と並行して、当該距離計算ステップで既に生成された距離値を用いて先読み値を生成する先読みステップと、前記距離計算ステップにおける前記距離値の生成と、前記先読みステップにおける前記先読み値の生成とに並行して、前記距離計算ステップで既に生成された距離値及び前記先読みステップで既に生成された先読み値を用いて単語照合を行って認識結果を生成する単語列照合ステップとを有することを特徴とするものである。

[0016] 本発明に係る音声認識プログラムは、音声認識システムを構成するコンピュータ〖こ、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する機能と、前記距離値を継続して生成して、る時に、既に生成された距離値を用いて先読み値を生成する機能と、前記距離値を継続して生成してヽる時及び前記先読み値を継続して生成している時に、既に生成された距離値及び既に生成された先読み値を用いて単語照合を行って認識結果を生成する機能を実行させることを特徴とするものである。

[0017] さらに、本発明の第一の音声認識システムは、共有メモリ上に、複数のフレームを収めることができる先読み値バッファ及び距離値バッファをそれぞれ複数有し、また距離計算、先読み及び音声認識を行う各手段を有し、これらの三手段において、複数フレームを納めることができるバッファを単位としたバッチ的な三並列処理を行うシステムとする。また、本発明の第二の音声認識システムは、第一の音声認識システムに加えて、バッファ長決定手段を有する。このバッファ長決定手段は、距離計算、先読み及び音声認識手段と通信を行って、距離計算、先読み及び音声認識手段で用 V、るバッファの長さを決定する。

[0018] 更に、距離計算手段と先読み手段と単語列照合手段を備え、それらが並列して動作することを特徴とする音声認識システムとしてもよい。また、前記音声認識システムにおいて、距離値バッファと先読み値バッファとを複数備え、距離計算手段、先読み手段及び単語列照合手段において別々のバッファを用い、処理済のバッファを距離計算処理から先読み処理へ、先読み処理から単語照合処理へと受け渡して並列処理することを特徴とする音声認識システムとしてもよい。また、前記音声認識システムにおいて、距離計算手段、先読み手段及び単語照合手段と通信し、バッファ長を決定するバッファ長決定手段を持つことを特徴とする音声認識システムとしてもよい。発明の効果

[0019] 本発明によれば、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する処理と、既に生成された距離値を用いて先読み値を生成する処理と、既に生成された距離値及び既に生成された先読み値を用いて単語照合を行って認識結果を生成する処理とを実行することにより、複数の処理を並列的に実行できるので、音声の認識速度を向上できる。

発明を実施するための最良の形態

[0020] 図 1は、本発明に係る音声認識システムの第一実施形態を示すブロック図である。

以下、この図面に基づき説明する。

[0021] 本実施形態の音声認識システム 100は、距離計算手段 111、先読み手段 121及び単語列照合手段 131を備えたことを特徴とする。距離計算手段 111は、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する。先読み手段 121は、距離計算手段 111が距離値を生成している時に、距離計算手段 111で既に生成された距離値を用いて先読み値を生成する。単語列照合手段 131は、距離計算手段 11 1が距離値を生成して、る時及び先読み手段 121が先読み値を生成して、る時に、距離計算手段 111で既に生成された距離値及び先読み手段 121で既に生成された先読み値を用いて単語照合を行って認識結果を生成する。このように、三つの手段が並列的に処理を実行できるので、高速な音声認識が可能となる。

[0022] また、音声認識システム 100は、距離計算手段 111で生成された距離値を格納する複数の距離値バッファ 141〜145と、先読み手段 121で生成された先読み値を格納する複数の先読み値バッファ 151〜 153とを備えて、る。各距離値バッファ 141〜 145は、距離計算手段 111で距離値が書き込まれ、その後先読み手段 121で距離値が読み出され、その後単語列照合手段 131で距離値が読み出される。各先読み値バッファ 151〜153は、先読み手段 121で先読み値が書き込まれ、その後単語列照合手段 131で先読み値が読み出される。ある時に、距離計算手段 111が距離値を書き込んでいる距離値バッファ 141と、先読み手段 121が距離値を読み出している距離値バッファ 142と、単語列照合手段 131が距離値を読み出している距離値バッファ 143とは、それぞれ異なる。先読み手段 121が先読み値を書き込んでいる先読み値バッファ 151と、単語列照合手段 131が先読み値を読み出して、る先読み値バッファ 152とは、それぞれ異なる。 [0023] 更に詳しく説明する。本実施形態の音声認識システム 100は、プログラム制御により動作するデータ処理装置 110, 120, 130と、情報を記憶するデータ記憶装置 140 とを含む。データ処理装置 110, 120, 130は、それぞれ異なるプロセッサを有するので、並列処理が可能である。なお、並列処理が可能なプロセッサを用いれば、データ処理装置を一つにすることもできる。

[0024] データ記憶装置 140は、距離値バッファ 141, 142, 143と、先読み値バッファ 151 , 152と、 0個以上の距離値バッファ 144と、 0個以上の距離値バッファ 145と、 0個以上の先読み値バッファ 153とを備えている。距離値バッファ 145のバッファ数と先読み値バッファ 153のバッファ数とは同数である。距離値バッファ 141〜145は、あるフレーム区間の音声に対応したバッファであり、各フレームで入力された音声特徴量に対する各音響モデルの距離値を保存している。先読み値バッファ 151〜153は、あるフレーム区間の音声及びその距離値に対応したバッファであり、各フレームで、そのフレーム以降の音響情報から計算した各認識単位に対する優劣である先読み値を保持している。

[0025] データ処理装置 110は距離計算手段 111を備え、データ処理装置 120は先読み手段 121を備え、データ処理装置 130は単語列照合手段 131を備える。距離計算手段 111は、入力される音声特徴量の時系列の各フレームに対し、その音響特徴量と各音響モデルとの距離値を計算して、距離値バッファ 141に書き込む。先読み手段 121は、距離値バッファ 142から距離値を読み出し、その距離値バッファ 142内の各フレームの各認識単位に対して、その優劣情報である先読み値を計算し、先読み値バッファ 151に書き込む。単語列照合手段 131は、距離値バッファ 143及び先読み値バッファ 152から同フレームにおける距離値及び先読み値を読み出し、各認識単位の先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、その発声全体に対する認識結果を生成する。

[0026] 図 2は、音声認識システム 100の動作を示すタイムチャートである。以下、図 1及び図 2に基づき、音声認識システム 100の動作を説明する。

[0027] 処理の始めに、距離計算手段 111は距離値バッファ 141をデータ記憶装置 140内に確保する（図 2では (1))。続いて、分析済みの音声として音響特徴量の時系列データが、距離計算手段 111に供給される。すると、距離計算手段 111は、入力される音響時系列に同期して距離値を計算し、これを距離値バッファ 141に書き込む。距離値バッファ 141がー杯になった時、それを複数の距離値バッファ 144の末尾にカロえ、新たに距離値バッファ 141をデータ記憶装置 140内に確保し、処理を継続する。

[0028] 先読み手段 121は、距離値バッファ 142が与えられている時は、そこ力も各フレームの距離値を取り出し、各フレームの各認識単位に対して先読み値を計算し、これを先読み値バッファ 151に書き込む。先読み値バッファ 151がー杯になった場合は、距離値バッファ 142を複数の距離値バッファ 145の末尾に追加するとともに、先読み値ノッファ 151を複数の先読み値バッファ 153の末尾に追加する。この場合及び動作開始直後は、距離値バッファ 142及び先読み値バッファ 151が与えられていない。そのため、複数の距離値バッファ 144から先頭のものを取り出して距離値バッファ 142 とし、新たに先読み値バッファ 151をデータ記憶装置 140内に確保し、処理を継続する。

[0029] これにより、図 2の距離値バッファ (1X2X3X4)で示すように、距離計算手段 111で処理された距離値バッファは、その順に先読み手段 121で処理される。図 2において、 A、 B、 C、 Dはそれぞれ距離値バッファ (1X2X3X4)に対応する先読み値バッファである。

[0030] 単語列照合手段 131は、距離値バッファ 143及び先読み値バッファ 152が与えられている時は、そこ力各フレームの距離値と各認識単位の先読み値とを取り出し、先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、一発声の認識結果を生成する。距離値バッファ 143内及び先読み値バッファ 152内の全てのフレームを処理した時は、距離値バッファ 143及び先読み値バッファ 152はメモリを開放する。この時及び動作開始直後は、距離値バッファ 143及び先読み値バッファ 152が与えられていないので、複数の距離値バッファ 145及び複数の先読み値バッファ 153から先頭のもの（図 2においては、（1)と A、（2)と B、（3)と C、 (4) と D)を取り出してそれぞれ距離値バッファ 143及び先読み値バッファ 152とし、処理を継続する。この時、取り出すバッファが無くなれば発声終端であるので、そこまでの認識結果を最終的な音声認識結果として出力する。 [0031] 本実施形態の音声認識システム 100によれば、三つの処理手段である距離計算手段 111、先読み手段 121及び単語列照合手段 131が独立して並列に処理できるので、第一従来例の音声認識システムに比べて音声認識速度が向上する。

[0032] また、本実施形態の音声認識システム 100は、次のように要約できる。距離計算手段 111は、音声特徴量の時系列データを受け取り、フレーム同期に全音響モデルと各フレームとの距離値を計算し、距離値バッファ 141に書き込む。距離値バッファ 14 1がー杯になると、先読み手段 121への引渡し待ちの複数の距離値バッファ 144の末尾に追加する。先読み手段 121は、複数の距離値バッファ 144から距離値バッファ 142を受け取り、各フレームにおいて各認識単位の優劣である先読み値を計算し、先読み値バッファ 151に書き込む。先読み値バッファ 151がー杯になると距離計算手段 131への引渡し待ちの複数の距離値バッファ 145及び先読み値バッファ 153の末尾にそれぞれ追加する。単語列照合手段 131は複数の距離値バッファ 145及び先読み値バッファ 153から距離値バッファ 143及び先読み値バッファ 152を受け取り、先読み値を利用して適宜照合単語を取捨選択しながらフレーム同期に発声全体を認識し、認識結果を生成する。このように、マルチパス音声認識の各パスを並列して処理することにより、高速に音声認識を行うことができる。

[0033] 図 3は、本発明に係る音声認識システムの第二実施形態を示すブロック図である。

以下、この図面に基づき説明する。ただし、図 1と同じ部分は同じ符号を付すことにより説明を省略する。

[0034] 本実施形態の音声認識装置 200は、バッファ長決定手段 211を備えたことを特徴とする。バッファ長決定手段 211は、距離計算手段 111、先読み手段 121及び単語照合手段 131の処理量が均一になるように、距離値バッファ 141〜145又は先読み値ノッファ 151〜153のバッファ長を決定する。本実施形態によれば、バッファ長決定手段 211によって、速度に対して最適なバッファ長が決定されるので、認識速度が向上する。

[0035] 更に詳しく説明する。音声認識装置 200は、データ処理装置 210が、図 1のデータ処理装置 110の構成に加え、バッファ長決定手段 211を有する点で異なる。バッファ長決定手段 211は、距離計算手段 111、先読み手段 121及び単語列照合手段 131 と通信を行い、最適なバッファ長を計算する。例えば、先読み手段 121及び単語列照合手段 131のいずれかの 1バッファあたりの実行時間と距離計算手段 131の 1バッファあたりの実行時間との差がある値以上になった時、その遅れ分だけバッファ長を長くする。距離計算手段 111は、バッファ長決定手段 211からバッファ長を受け取り、計算済みの距離値を捨てない範囲で、受け取った時刻以降の距離値バッファの長さを上記バッファ長に近づける。上述した以外の動作は第一実施形態と同じである。

[0036] 次に、本実施形態の効果について説明する。先読み手段 121がある場合、 1バッファの長さを長めにすることで先読み処理の速度も向上し、先読み精度も向上する。したがって、単語列照合手段 131の速度も向上する。本実施形態では、先読み手段 1 21及び単語列照合手段 131に処理の遅れが起きたときに最上流の距離計算手段 1 11からバッファ長を長くすることにより、先読み手段 121及び単語列照合手段 131ともに高速ィ匕されるので、三つの処理手段の処理量をより均一化できる。

[0037] 図 4は、本発明に係る音声認識システムの第三実施形態を示すブロック図である。

[0038] 本実施形態の音声認識システム 300は、バッファ管理手段 341を備えたことを特徴とする。バッファ管理手段 341は、距離計算手段 311、先読み手段 321及び単語列照合手段 331の動作を監視し、距離計算手段 311が距離値バッファ 141に距離値をこれ以上書き込めなくなった時、かつ先読み手段 321及び単語列照合手段 331が距離値バッファ 142, 143から距離値を全て読み出した時、かつ先読み手段 321が先読み値バッファ 151にこれ以上先読み値を書き込めなくなった時、かつ単語列照合手段 331が先読み値バッファ 152から先読み値を全て読み出した時に、距離値バッファ 141を先読み手段 321の次の読み出し用とし、距離値バッファ 142を単語列照合手段 331の次の読み出し用とし、距離値バッファ 143を距離計算手段 311の次の書き込み用とし、先読み値バッファ 151を単語列照合手段 331の次の読み出し用とし、先読み値バッファ 152を先読み手段 321の次の書き込み用とする。本実施形態によれば、最小限のバッファ数で、本発明の効果が得られる。

[0039] 更に詳しく説明する。音声認識システム 300は、プログラム制御により動作するデータ処理装置 310, 320, 330, 340と、情報を記憶するデータ記憶装置 350とを含む

[0040] データ記憶装置 350は、距離値バッファ 141, 142, 143と、先読み値バッファ 151 , 152とを備えている。距離値バッファ 141, 142, 143は、あるフレーム区間の音声に対応したバッファであり、各フレームで入力された音声特徴量に対する各音響モデルの距離値を保存している。先読み値バッファ 151, 152は、あるフレーム区間の音声及びその距離値に対応したバッファであり、各フレームで、そのフレーム以降の音響情報力計算した各認識単位に対する優劣である先読み値を保持している。

[0041] データ処理装置 310は距離計算手段 311を備え、データ処理装置 320は先読み手段 321を備え、データ処理装置 330は単語列照合手段 331を備え、データ処理装置 340はバッファ管理手段 341を備える。距離計算手段 331は、入力される音声特徴量の時系列の各フレームに対し、その音響特徴量と各音響モデルの距離値を計算して、これを距離値バッファ 141に書き込む。先読み手段 321は、距離値バッファ 142から距離値を読み出し、そのバッファ内の各フレームの各認識単位に対して、その優劣情報である先読み値を計算し、これを先読み値バッファ 151に書き込む。単語列照合手段 331は、距離値バッファ 143及び先読み値バッファ 152から同フレームにおける距離値及び先読み値を読み出し、各認識単位の先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、その発声全体に対する認識結果を生成する。

[0042] 次に、音声認識システム 300の動作にっ、て説明する。分析済みの音声として音響特徴量の時系列データが、距離計算手段 311に供給される。距離計算手段 311 は、入力される音響時系列に同期して距離値を計算し、距離値バッファ 141に書き込む。距離値バッファ 141がー杯になった時、待ち状態になる。先読み手段 321は、距離値バッファ 142が与えられている時は、そこ力も各フレームの距離値を取り出し、各フレームの各認識単位に対して先読み値を計算し、先読み値バッファ 151に書き込む。先読み値バッファ 151がー杯になった場合、待ち状態になる。

[0043] 単語列照合手段 331は、距離値バッファ 143及び先読み値バッファ 152が与えられている時は、そこ力各フレームの距離値と各認識単位の先読み値とを取り出し、先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、一発声の認識結果を生成する。距離値バッファ 143及び先読み値バッファ 1 52内の全てのフレームを処理した時、待ち状態になる。

[0044] バッファ管理手段 341は、距離計算手段 311、先読み手段 321及び単語列照合手段 331の状態を監視し、全て待ち状態になった時、距離値バッファ 141を距離値バッファ 142へ、距離値バッファ 142を距離値バッファ 143へ、距離値バッファ 143を距離値バッファ 141へ移動し、先読み値バッファ 151と先読み値バッファ 152とを入れ替え、その後、距離計算手段 331、先読み手段 321及び単語列照合手段 331の待ち状態を解除する。

[0045] 単語列照合手段 331は、処理するデータが距離値バッファ 143及び先読み値バッファ 152内に無くなれば発声終端であるので、そこまでの認識結果を最終的な音声認識結果として出力する。

[0046] 本実施形態の音声認識システム 300によれば、三つの処理手段である距離計算手段 311、先読み手段 321及び単語列照合手段 331が独立して並列に処理できるので、第一従来例の音声認識システムに比べて音声認識速度が向上する。

図面の簡単な説明

[0047] [図 1]本発明に係る音声認識システムの第一実施形態を示すブロック図である。

[図 2]図 1の音声認識システムの動作を示すタイムチャートである。

[図 3]本発明に係る音声認識システムの第二実施形態を示すブロック図である。

[図 4]本発明に係る音声認識システムの第三実施形態を示すブロック図である。

[図 5]音声認識システムの第一従来例を示すブロック図である。

[図 6]音声認識システムの第二従来例を示すブロック図である。

[図 7]本発明の前提となる音声認識システムを示すブロック図である。

[図 8]図 7の音声認識システムの動作を示すタイムチャートである。

符号の説明

[0048] 100, 200, 300 音声認識システム

110, 120, 130, 210, 310, 320, 330, 340 データ処理装置

140, 350 データ記憶装置 141, 142, 143, 144, 145 距離値バッファ

151, 152, 153 先読み値バッファ

111, 311 距離計算手段

121， 321 先読み手段

131, 331 単語列照合手段

211 バッファ長決定手段

341 バッファ管理手段

Claims

請求の範囲

[1] 順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算手段と、

前記距離計算手段による距離値の生成と並行して、前記距離計算手段で既に生成された距離値を用いて先読み値を生成する先読み手段と、

前記距離計算手段による距離値の生成及び前記先読み手段による先読み値の生成と並行して、前記距離計算手段で既に生成された距離値及び前記先読み手段で既に生成された先読み値を用いて単語照合を行って認識結果を生成する単語列照合手段と、

を備えたことを特徴とする音声認識システム。

[2] 前記距離計算手段で生成された距離値を格納する距離値バッファと、

前記先読み手段で生成された先読み値を格納する先読み値バッファとをそれぞれ複数備え、

前記各距離値バッファは、前記距離計算手段からの前記距離値の書き込み、前記先読み手段への前記距離値の読み出し、及び前記単語列照合手段への前記距離値の読み出しの動作が行われ、

前記各先読み値バッファは、前記先読み手段からの前記先読み値の書き込み、及び前記単語列照合手段への前記先読み値の読み出しの動作が行われ、

前記距離計算手段からの前記距離値が書き込まれている前記距離値バッファと、前記先読み手段への前記距離値が読み出されている前記距離値バッファと、前記単語列照合手段への前記距離値が読み出されている前記距離値バッファとはそれぞれ異なり、

かつ、前記先読み手段からの前記先読み値が書き込まれて!/、る前記先読み値バッファと、前記単語列照合手段への前記先読み値が読み出されている前記先読み値ノッファとはそれぞれ異なる、

請求項 1記載の音声認識システム。

[3] 前記距離計算手段、前記先読み手段及び前記単語照合手段の処理量が均一になるように、前記距離値バッファ又は前記先読み値バッファのバッファ長を決定するバッファ長決定手段を更に備えた、

請求項 2記載の音声認識システム。

[4] バッファ管理手段を備え、

前記バッファ管理手段は、

前記距離計算手段、前記先読み手段及び前記単語列照合手段の動作を監視する機能と、

前記距離計算手段が前記距離値バッファに前記距離値を必要以上書き込めなくなり、かつ前記先読み手段及び前記単語列照合手段が前記距離値バッファから前記距離値を全て読み出し、かつ前記先読み手段が前記先読み値バッファに必要以上前記先読み値を書き込めなくなり、かつ前記単語列照合手段が前記先読み値バッファ力前記先読み値を全て読み出したことを条件として、

前記距離計算手段が書き込みに用いていた前記距離値バッファを前記先読み手段の次の読み出し用とし、前記先読み手段が読み出しに用いていた前記距離値バッファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いて!/、た前記距離値バッファを前記距離計算手段の次の書き込み用とし、前記先読み手段が書き込みに用いて、た前記先読み値バッファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記先読み値バッファを前記先読み手段の次の書き込み用として動作させる機能を有する請求項 2記載の音声認識システム。

[5] 順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算ステップと、

この距離計算ステップにおける前記距離値の生成と並行して、当該距離計算ステツプで既に生成された距離値を用いて先読み値を生成する先読みステップと、前記距離計算ステップにおける前記距離値の生成と、前記先読みステップにおける前記先読み値の生成とに並行して、前記距離計算ステップで既に生成された距離値及び前記先読みステップで既に生成された先読み値を用いて単語照合を行って認識結果を生成する単語列照合ステップと、

を備えたことを特徴とする音声認識方法。

[6] 前記距離計算ステップで生成された距離値を格納する距離値バッファと、前記先読みステップで生成された先読み値を格納する先読み値バッファとをそれぞれ複数用い、

前記距離値バッファに対して、前記距離計算ステップにおける前記距離値の書き込みと、前記先読みステップにおける前記距離値の読み出しと、前記単語列照合ステツプにおける前記距離値の読み出しとを並行して行い、

前記先読み値バッファに対して、前記先読みステップにおける前記先読み値の書き込みと、前記単語列照合ステップにおける前記先読み値の読み出しとを並行して行い、

前記距離計算ステップで前記距離値を書き込んで！/ヽる前記距離値バッファと、前記先読みステップで前記距離値を読み出して！/ヽる前記距離値バッファと、前記単語列照合ステップで前記距離値を読み出して、る前記距離値バッファとを異ならせ、かつ、前記先読みステップで前記先読み値を書き込んでいる前記先読み値バッファと、前記単語列照合ステップで前記先読み値を読み出している前記先読み値バッファとをそれぞれ異ならせる請求項 5記載の音声認識方法。

[7] 前記距離計算ステップ、前記先読みステップ及び前記単語照合ステップの処理量を均一にするように、前記距離値バッファ又は前記先読み値バッファのバッファ長を決定する請求項 6記載の音声認識方法。

[8] 前記距離計算ステップ、前記先読みステップ及び前記単語列照合ステップの動作を監視するノッファ管理ステップを備え、

前記バッファ管理ステップにお、て、

前記距離計算ステップで前記距離値バッファに前記距離値を必要以上書き込めなくなり、かつ前記先読みステップ及び前記単語列照合ステップで前記距離値バッファから前記距離値を全て読み出した時、かつ前記先読みステップで前記先読み値バッファに必要以上前記先読み値を書き込めなくなり、かつ前記単語列照合ステップで前記先読み値バッファから前記先読み値を全て読み出したことを条件として、前記距離計算ステップで書き込みに用いて、た前記距離値バッファを前記先読みステップでの次の読み出し用とし、前記先読みステップで読み出しに用いていた前記距離値バッファを前記単語列照合ステップでの次の読み出し用とし、前記単語列照合ステップで読み出しに用いて、た前記距離値バッファを前記距離計算ステップでの次の書き込み用とし、前記先読みステップで書き込みに用いていた前記先読み値ノッファを前記単語列照合ステップでの次の読み出し用とし、前記単語列照合ステツプで読み出しに用いて、た前記先読み値バッファを前記先読みステップでの次の書き込み用として動作させる請求項 6記載の音声認識方法。

[9] 音声認識システムを構成するコンピュータに、

順次入力した音声特徴量と各音響モデルとの間の距離値を生成する機能と、前記距離値を継続して生成している時に、既に生成された距離値を用いて先読み値を生成する機能と、

前記距離値を継続して生成して、る時及び前記先読み値を継続して生成して、る時に、既に生成された距離値及び既に生成された先読み値を用いて単語照合を行つて認識結果を生成する機能を実行させることを特徴とする音声認識プログラム。

[10] 前記生成された距離値を書込み及び読み出すための距離値バッファの機能と、前記生成された先読み値を書込み及び読み出すための先読み値バッファの機能を複数実行させ、

前記距離値バッファによる書込みと読み出しの機能を並行処理させ、かつ前記先読み値バッファによる書込みと読み出しの機能を並行処理させる請求項 9記載の音声認識プログラム。

[11] 前記距離計算手段、前記先読み手段及び前記単語照合手段の処理量を均一にするように、前記距離値バッファ又は前記先読み値バッファのバッファ長を決定する機能を実行させる請求項 10記載の音声認識プログラム。

[12] 前記距離計算手段、前記先読み手段及び前記単語列照合手段の動作を監視するノッファ管理機能を実行させ、

前記バッファ管理機能は、

前記距離値バッファに前記距離値を必要以上書き込めなくなくなり、前記距離値バッファから前記距離値を全て読み出した時、かつ前記先読み手段が前記先読み値ノッファに必要以上前記先読み値を書き込めなくなった時、かつ前記単語列照合手段が前記先読み値バッファ力前記先読み値を全て読み出したことを条件として、前記距離計算手段が書き込みに用いていた前記距離値バッファを前記先読み手段の次の読み出し用とし、前記先読み手段が読み出しに用いていた前記距離値バッファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いて!/、た前記距離値バッファを前記距離計算手段の次の書き込み用とし、前記先読み手段が書き込みに用いて、た前記先読み値バッファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記先読み値バッファを前記先読み手段の次の書き込み用として機能させる請求項 10記載の音声認識プログラム。