WO2002005266A1

WO2002005266A1 - Systeme de reconnaissance de la parole, procede de reconnaissance de la parole et programme de reconnaissance de la parole

Info

Publication number: WO2002005266A1
Application number: PCT/JP2001/005950
Authority: WO
Inventors: Tomoe Kawane; Takeo Kanamori
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2000-07-10
Filing date: 2001-07-09
Publication date: 2002-01-17
Also published as: DE60122893T2; JP2002091487A; EP1300832B1; EP1300832A4; KR100482477B1; CN1386265A; US20020173957A1; CN1227647C; DE60122893D1; KR20020033791A; EP1300832A1; JP4880136B2

Description

明細書音声認識装置、音声認識方法および音声認識プログラム技術分野

本発明は、話者により発声された音声を認識する音声認識装置、音声認識方法および音声認識プログラムに関する。背景技術

近年、音声認識に関する技術の発展が著しい。この音声認識とは、コンピュー夕または機械などが人間の音声を自動的に理解することである。例えば、この音声認識を用いることにより、コンピュータまたは機械などを人間の音声に応じて動作させたり、人間の音声を文字に変換させたりすることができる。

音声認識では、発声された音声が有する周波数スぺクトルなどの物理的特徴を抽出し、予め記憶されている母音、子音または単語の物理的特徴の型と比較する方法が主に用いられる。しかし、複数の不特定の話者の音声認識を行う場合には、話者各々の個人差による音声の有する物理的特徴の相違が要因となり正確な音声認識を行うことができない。また、特定の話者の音声認識を行う場合にも、昼夜などの周囲環境の変化による雑音（ノイズ）、または話者の体調などによる音声の有する物理的特徴の変化が、音声認識を行う際の認識率を低下させる要因となり正確な音声認識を行うことができない。

図 1 3は音声認識を行う際の音声レベルと認識率との関係の一例を示す模式図である。図 1 3に示す模式図は、縦軸が認識率（％) を示し、横軸が音声レベル ( d B ) を示す。ここで、音声レベルとは、音声パワーのレベルを意味し、例えば 0 d Bは、負荷抵抗 6 0 0 Ω、端子間電圧 0 . 7 7 5 V、消費電力 1 mWをいう。

図 1 3に示すように、従来の音声認識では、音声レベルが一 1 9 d Bよりも低い場合、または音声レベルが一 2 d Bよりも高い場合に認識率が低下する傾向がある。従来の音声認識においては、母音、子音または単語の物理的特徴の型である音声レベルを予め記憶する際の音声レベルの近傍において認識率が高くなつている。すなわち、予め記憶される音声レベルと入力される音声レベルとを比較して音声認識を行うため、音声レベルが低い場合から高い場合まで平均的に高い認識率を得ることはできない。

そこで、実開昭 5 9— 6 0 7 0 0号公報には、音声を入力する際に使用するマイク口アンプに A G C回路（Auto Gain Cont oro l ler：自動利得制御回路）を用いて常に入力される音声レベルをほぼ一定にする音声認識装置が開示されている。また、実開平 0 1— 1 3 7 4 9 7号公報および特開昭 6 3— 0 1 4 2 0 0号公報には、適当な手段により話者に音声レベルを知らせ、最適な音声レベルの発声を行うように促す音声認識装置が開示されている。

しかしながら、実開昭 5 9 - 6 0 7 0 0号公報に開示された音声認識装置では、 A G C回路により増幅する必要のない音声以外の雑音（ノイズ）も増幅され、増幅された雑音によって認識率が低下する場合がある。さらに、入力される音声には、 1単語ごとに言葉の抑揚を示すアクセントが存在する。そのため、入力される音声レベルを A G C回路によって頻繁に増幅したり増幅しなかったりすることにより、ほぼ一定のレベルに増幅された音声の波形に歪みが生じる。この音声の波形の歪みにより、一単語ごとに含まれる言葉の抑揚を示すアクセントが歪みを生じ認識率が低下する。

一方、実開平 0 1— 1 3 7 4 9 7号公報および特開昭 6 3— 0 1 4 2 0 0号公報に開示された音声認識装置では、周囲環境の変化または話者自身の体調不良などの影響により、話者によって入力される音声レベルが予め定められた規定値に達しない場合がある。また、話者が予め定められた規定の音声レベルを発声しても、音声認識装置が認識しない場合などがある。例えば、話者により発声される音声レベルは個人特有の物理的特徴であり、無理に発声を変化させると物理的特徴が異質のものとなり、かえって音声認識の認識率を低下させる場合などがある発明の開示

本発明の目的は、話者の音声レベルに左右されずに音声認識の認識率を向上させることができる音声認識装置、音声認識方法および音声認識プログラムを提供することである。

本発明の一局面に従う音声認識装置は、デジタル音声信号を入力する入力手段と、入力手段により入力される音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する音声レベル推定手段と、音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて入力手段により入力される音声区間のデジタル音声信号のレベルを調整する音声レベル調整手段と、音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識を行う音声認識手段とを備えたものである。

本発明に係る音声認識装置においては、入力手段によりデジタル音声信号が入力され、入力手段により入力される音声区間内の予め定められた時間内のデジ夕ル音声信号に基づいて音声レベル推定手段により音声区間の音声レベルが推定される。音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて入力手段により入力される音声区間のデジタル音声信号のレベルが音声レベル調整手段により調整され、音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識手段により音声認識が行われる。

この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。

音声レベル推定手段は、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定するものでもよい。

この場合、通常、音声区間内の最初の所定時間内の音声レベルの立ち上がり部分により音声区間の全体の音声レベルを判断することができる。したがって、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベルの推定を行うことにより、音声区間内の音声レベルを短時間で正確に推定することができる。

音声レベル推定手段は、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号の平均値を音声区間の音声レベルとして推定するものでもよい。

この場合、音声区間の最初の所定時間内のデジタル音声信号の平均値を算出することにより、音声区間の音声レベルをより正確に推定することができる。音声レベル調整手段は、予め設定された目標レベルと音声レベル推定手段により推定される音声レベルとの比により定まる増幅率で入力手段により入力される音声区間のデジタル音声信号のレベルを増幅または減衰させるものでもよい。

この場合、目標レベルと推定された音声レベルとの比により定まる増幅率で音声区間のデジタル信号のレベルを増加または減衰させることにより、音声区間の音声レベルを目標レベルに設定することができる。

音声認識装置は、入力手段により入力されるデジタル音声信号が音声レベル推定手段により推定される音声レベルとともに同期して音声レベル調整手段に与えられるように入力手段により入力されるデジタル音声信号を遅延させる遅延回路をさらに備えたものでもよい。

この場合、デジタル音声信号に対応した音声レベルの推定値を用いて音声レべルを調整することができる。これにより、音声区間の音声レベルを正確に調整することができる。

音声レベル推定手段は、入力手段により入力される音声区間の開始点を検出する音声検出部と、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する音声レベル推定部と、音声レベル推定部により推定された音声レベルを保持する保持回路と、音声検出部による検出に応答して入力手段により入力される音声区間のデジタル音声信号を蓄積するとともに蓄積された音声区間のデジタル音声信号を保持回路に保持された音声レベルと同期させて音声レベル調整手段に出力する蓄積回路とを含むものでもよい。この場合、入力手段により入力される音声区間のデジタル音声信号の開始点が音声検出部により検出され、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベル推定部により音声区間の音声レベルが推定される。音声レベル推定部により推定された音声レベルが保持回路により保持され、音声検出部による検出に応答して入力手段により入力される音声区間のデジタル音声信号が蓄積回路に蓄積されるとともに蓄積された音声区間のデジタル音声信号が保持回路に保持された音声レベルと同期させて蓄積回路により音声レベル調整手段に出力される。

この場合、音声区間の開始点からデジタル音声信号が蓄積回路に蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルが調整される。これにより、デジタル音声信号を正確な音声レベルに調整することができ、音声認識の認識率を向上させることができる。

蓄積回路は、入力手段により入力される音声区間のデジタル音声信号を交互に蓄積するとともに蓄積された音声区間のデジタル音声信号を交互に音声レベル調整手段に出力する第 1および第 2のバッファを含んでもよい。

この場合、複数の単語を含む長い時間の音声が入力されても、第 1および第 2 のバッファに音声区間のデジタル音声信号が交互に蓄積されるとともに第 1または第 2のバッファから音声区間のデジタル音声信号が出力される。これにより、複数の単語を含む長い時間の音声の認識を小さな容量の第 1または第 2のバッファを用いて行うことができる。

音声認識手段は、音声認識結果を音声レベル調整手段に帰還させ、音声レベル調整手段は、音声認識手段により帰還された音声認識結果に基づいて音声レベルの調整程度を変更するものでもよい。

この場合、音声認識結果を再び音声レベルの調整に用いて音声レベルの調整程度を変更することにより、音声レベルの調整程度が適切でない場合に音声レベルの調整程度を適切な状態に近づけることができる。

音声レベル調整手段は、音声認識手段による音声認識が不可能な場合に音声レベルの増幅率を上昇させるものでもよい。

この場合、音声認識が不可能な場合に音声レベルの増幅率を上昇させることにより、音声認識が不可能な音声レベルを音声認識が可能な音声レベルに調整することができる。

音声認識装置は、音声レベル推定手段により推定された音声レベルが予め定められた範囲内にある場合に音声レベル調整手段を不能動化し、音声レベル推定手段により推定された音声レベルが予め定められた範囲内にない場合に音声レベル調整手段を能動化するとともに音声レベル推定手段により推定された音声レベルを予め定められた範囲内の音声レベルに変更して音声レベル調整手段に与える非線形処理部をさらに含んでもよい。

この場合、予め定められた範囲内にない音声レベルの場合にのみ、予め定められた範囲内の音声レベルに変更して音声レベルの調整を行うことができる。これにより、話者の音声が有する言葉の抑揚を示すアクセントに無用な歪みを与えることを防止することができる。

他の局面に従う音声認識方法は、デジタル音声信号を入力するステップと、音声区間内の一部の時間内の入力されたデジタル音声信号に基づいて音声区間の音声レベルを推定するステップと、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルを調整するステップと、調整されたデジタル音声信号に基づいて音声認識を行うステップとを備えたものである。

本発明に係る音声認識方法においては、デジタル音声信号が入力され、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが調整され、調整されたデジタル音声信号に基づいて音声認識が行われる。

この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。音声レベルを推定するステップは、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定することを含んでもよい。

この場合、通常、音声区間内の最初の所定時間内の音声レベルの立ち上がり部分により音声区間の全体の音声レベルを判断することができる。したがって、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベルの推定を行うことにより、音声区間内の音声レベルを短時間で芷確に推定することができる。

音声レベルを推定するステップは、音声区間内の最初の所定時間内のデジタル音声信号の平均値を音声区間の音声レベルとして推定することを含んでもよい。

この場合、音声区間の最初の所定時間内のデジタル音声信号の平均値を算出することにより、音声区間の音声レベルをより正確に推定することができる。デジタル音声信号のレベルを調整するステップは、予め設定された目標レベルと推定される音声レベルとの比により定まる増幅率で音声区間のデジタル音声信号のレベルを増幅または減衰させることを含んでもよい。

音声認識方法は、音声区間のデジタル音声信号が推定される音声レベルとともに同期してデジタル音声信号のレベルを調整するステップに与えられるようにデジタル音声信号を遅延させるステップをさらに備えたものである。

音声レベルを推定するステップは、音声区間のデジタル音声信号の開始点を検出するステップと、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定するステップと、推定された音声レベルを保持するステップと、デジタル音声信号の開始点の検出に応答して音声区間のデジタル音声信号を蓄積するとともに蓄積された音声区間のデジタル音声信号を保持された音声レベルと同期させて出力するステップとを含んでもよい。この場合、音声区間のデジタル音声信号の開始点が検出され、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルが保持され、音声区間のデジタル音声信号の開始点の検出に応答して音声区間のデジタル音声信号が蓄積されるとともに蓄積された音声区間のデジタル音声信号が保持された音声レベルと同期させて出力される。この場合、音声区間の開始点からデジタル音声信号が蓄積回路に蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルが調整される。これにより、デジタル音声信号を正確な音声レベルに調整することができ、音声認識の認識率を向上させることができる。

蓄積するステップは、音声区間のデジタル音声信号を第 1および第 2のバッファに交互に蓄積するとともに蓄積された音声区間のデジタル音声信号を第 1および第 2のバッファから交互に出力するステップを含んでもよい。

音声認識を行うステップは、音声認識結果をデジタル音声信号のレベルを調整するステップに帰還させることを含み、デジタル音声信号のレベルを調整するステツプは、帰還された音声認識結果に基づいて音声レベルの調整程度を変更することを含んでもよい。

この場合、音声認識結果を再び音声レベルの調整に用いて音声レベルの調整程度を変更することにより、音声レベルの調整程度が適切でない場合に繰り返し音声レベルの調整程度を適切なレベルに近づけることができる。

デジタル音声信号のレベルを調整するステップは、音声認識が不可能な場合に音声レベルの増幅率を上昇させることを含んでもよい。

この場合、音声認識が不可能な場合に音声レベルの増幅率を上昇させることにより、音声認識が不可能な音声レベルを音声認識が可能な音声レベルに調整することができる。音声認識方法は、推定された音声レベルが予め定められた範囲内にある場合にデジタル音声信号のレベルを調整することを不能動化し、推定された音声レベルが予め定められた範囲内にない場合に調整するステツプを能動化するとともに推定された音声レベルを予め定められた範囲内の音声レベルに変更して変更された音声レベルをデジタル音声信号のレベルを調整するために用いるステップをさらに備えたものである。

さらに他の局面に従う音声認識プログラムは、コンピュータ読み取り可能な音声認識プログラムであって、デジタル音声信号を入力する処理と、入力される音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する処理と、推定された音声レベルおよび予め設定された目標レベルに基づいて入力される音声区間のデジタル音声信号のレベルを調整する処理と、調整されたデジタル音声信号に基づいて音声認識を行う処理とをコンピュータに実行させるものである。

本発明に係る音声認識プログラムにおいては、デジタル音声信号が入力され、入力される音声区間内の予め定められた時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルおよび予め設定された目標レベルに基づいて入力される音声区間のデジタル音声信号のレベルが調整され、調整されたデジタル音声信号に基づいて音声認識が行われる。

本発明によれば、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。図面の簡単な説明

図 1は、本発明の第 1の実施の形態における音声認識装置の一実施例を示すブロック図

図 2は、音声認識プログラムを実行するためのコンピュータの構成を示すプロック図

図 3は、話者により発声された "らぐび一" の音声スペクトルを示す波形図図 4は、本発明の第 2の実施の形態における音声認識装置を示すプロック図図 5は、（a ) は図 4のマイクロホンの出力波形図、（b ) は音声信号（信号成分）と雑音成分との比を示す図

図 6は、図 4の音声検出部の動作を示すフローチャート

図 7は、 2単語を話者が発声した場合におけるバッファのデジタル音声信号の入出力を表す模式図

図 8は、本発明の第 3の実施の形態における音声認識装置の一例を示すブロック図

図 9は、図 8に示す音声レベル調整帰還部における音声レベルの調整を行う際の動作を説明するフローチヤ一ト

図 1 0は、本発明の第 4の実施の形態における音声認識装置の一例を示すプロック図

図 1 1は、図 1 0の信号非線形処理部に入力される音声レベルの推定値と図 1 0の音声認識部における認識率との関係を示す図

図 1 2は、信号非線形処理部の処理動作を示すフローチャート

図 1 3は、音声認識を行う際の音声レベルと認識率との関係の一例を示す模式発明を実施するための最良の形態

(第 1の実施の形態）

図 1は本発明の第 1の実施の形態における音声認識装置の一実施例を示すプロック図である。

図 1に示すように、音声認識装置は、マイクロホン 1、 A/D (アナログ—デジタル）コンバータ 2、信号遅延部 3、音声レベル推定部 4、音声レベル調整部 5および音声認識部 6を含む。

図 1に示すように、話者により発声された音声は、マイクロホン 1により集音される。集音された音声は、マイクロホン 1の働きによりアナログ音声信号 S A に変換され A/Dコンバータ 2に出力される。 AZDコンバータ 2は、出力されるアナログ音声信号 S Aをデジタル音声信号 D Sに変換し、信号遅延部 3および音声レベル推定部 4に与える。音声レベル推定部 4は、与えられるデジタル音声信号 D Sから音声レベルの推定値 L V Lの算出を行う。ここで、音声レベルとは、音声パワー（音声エネルギー）のレベルを意味する。この音声レベルの推定値 L V Lの算出については後述する。

信号遅延部 3は、後述する予め定められた音声レベル立ち上がり時間 T Lに相当する遅延量分のみ遅延させたデジタル音声信号 D Sを音声レベル調整部 5に与える。音声レベル調整部 5は、音声レベル推定部 4から与えられる音声レベルの推定値 L V Lに同期して信号遅延部 3により与えられるデジタル音声信号 D Sの音声レベルの調整を行う。音声レベル調整部 5は、音声レベルの調整後の出力 C T R L— O U Tを音声認識部 6に与える。音声認識部 6は、音声レベル調整部 5 により与えられる音声レベルの調整後の出力 C T R L _〇U Tに基づき音声認識を行う。

第 1の実施の形態における音声認識装置においては、マイクロホン 1および A /Ό (アナログ一デジタル）コンバータ 2が入力手段に相当し、信号遅延部 3が遅延回路に相当し、音声レベル推定部 4が音声レベル推定手段に相当し、音声レベル調整部 5が音声レベル調整手段に相当し、音声認識部 6が音声認識手段に相当する。なお、信号遅延部 3、音声レベル推定部 4、音声レベル調整部 5および音声認識部 6は、それぞれ信号遅延回路、音声レベル推定回路、音声レベル調整回路および音声認識回路により構成することができる。また、信号遅延部 3、音声レべル推定部 4、音声レベル調整部 5および音声認識部 6をコンピュータおよび音声認識プログラムにより表現することができる。

ここで、音声認識プログラムを実行するためのコンピュータについて説明する。図 2は音声認識プログラムを実行するためのコンピュータの構成を示すプロック図である。 ·

コンピュータは、 CPU (中央演算処理装置） 500、入出力装置 501、 R OM (リードオンリメモリ） 502、 RAM (ランダムアクセスメモリ） 503 、記録媒体 504、記録媒体駆動装置 505および外部記録装置 506を含む。入出力装置 50 1は、他の装置との間で情報の送受信を行う。本実施の形態の入出力装置 501は、図 1の AZDコンバータ 2からデジタル音声信号 DSを入力する。 ROM502にはシステムプログラムが記録される。記録媒体駆動装置 505は、 CD— ROMドライブ、フロッピィディスクドライブ等からなり、 C D— R〇M、フロッピィディスク等の記録媒体 504に対してデータの読み書きを行う。記録媒体 504には、音声認識プログラムが記録されている。外部記録装置 506は、ハードディスク装置などからなり、記録媒体駆動装置 505を介して記録媒体 504から読み込まれた音声認識プログラムを記録する。 CPU 5 00は、外部記録装置 506に記録された音声認識プログラムを RAM 503上で実行する。これにより、図 1の信号遅延部 3、音声レベル推定部 4、音声レべル調整部 5および音声認識部 6の機能が実行される。

次に、図 1の音声レベル推定部 4による音声レベルの推定値 LVLの算出方法および音声レベル調整部 5による音声レベルの調整方法について説明する。

まず、音声レベル推定部 4による音声レベルの推定値 LVLの算出方法について説明を行う。音声レベル推定部 4に入力されるデジタル音声信号 DSを、 DS (X) (x= 1 , 2, …， Q) とする。ここで、 Xは、予め定められた音声レべルの立ち上がり時間 TL内での Q個の時点を表し、 DS (X) は Q個の時点でのデジタル音声信号 DSの値を表す。この場合、音声レベルの推定値 LVLは、次式のように表される。

L VL= (∑ ID S (x) \)/Q ··· (1)

式（1) によれば、音声レベルの推定値 LVLは、予め定められた音声レベル立ち上がり時間 TL内の Q個の時点でのデジタル音声信号 DS (X) の絶対値の累積加算を Qで除算することにより得られる平均値である。このようにして、音声レベル推定部 4において音声レベルの推定値 LVLが算出される。

次に、音声レベル調整部 5による音声レベルの調整方法について説明する。音声レベル調整部 5において、予め定められた音声レベルの目標値を TRG— L V Lと表す。この場合、音声レベルの調整値 LVL— CTRLは、次式のように表される。 '

L VL_CTRL=TRG_L VL/L VL … (2)

式（2) によれば、音声レベルの調整値 LVL— CTRLは、予め定められた音声レベルの目標値 TRG— L VLを音声レベルの推定値 L VLにより除算することにより算出される。

また、音声レベルの調整後の出力 CTRL— OUTは、音声レベルの調整値 L VL— CTRLを用いて次式のように表される。

CTRL— OUT (X) =D S (X) XL VL_CTRL … (3) ここで、 Xは時間を表す。式（3) によれば、音声レベルの調整後の出力 CT RL— OUT (X) は、予め定められた音声レベル立ち上がり時間 TLにおけるデジタル音声信号 DS (X) に音声レベルの調整値 LVL— CTRLを乗算した値となる。このように、音声レベル調整部 5は、音声レベルの調整を行い調整後の出力 CTRL— OUT (X) を音声認識部 6に与える。

次に、図 1に示す信号遅延部 3の予め定められた音声レベル立ち上がり時間 T Lについて図を用いて説明する。

図 3は話者により発声された "らぐび一" の音声スペクトルを示す波形図である。図 3において、縦軸が音声レベルを示し、横軸が時間を示す。

図 3に示すように、 "らぐび一" という一単語の音声スペクトルは、 "ら" の部分の音声レベルが高くなつている。すなわち、音声レベルの高い部分が、 1単語ごとに言葉の抑揚を示すアクセントの部分である。ここで、図 3に示すように、話者により発声された音声の開始時間 TSから発声された音声レベルの値がピーク値 Pに到達するまでの時間を音声レベル立ち上がり時間 TLとする。一般に、音声レベル立ち上がり時間 TLは Osec (秒）〜100msec (ミリ秒）以内に存在し、本発明の実施の形態では、音声レベル立ち上がり時間 TLは、 100msec とする。

例えば、この音声レベル立ち上がり時間 TLを短時間に設定すると音声認識の認識率の低下を招くこととなる。図 3に示すように "らぐび一" という単語を話者が発声した場合、音声レベル立ち上がり時間を TL' で示すように短く設定した場合を考える。この場合、図 1に示す信号遅延部 3において入力されるデジタル音声信号 DSを音声レベル立ち上がり時間 TL' 分のみ遅延させても、音声レベル推定部 4により適切な音声レベルの推定値 LVLが算出されず、本来目標とする音声レベルの推定値 LVLよりも低い音声レベルの推定値が算出される。その後、音声レベル調整部 5に目標よりも低い音声レベルの推定値が与えられ、音声レベル調整部 5によりデジタル音声信号 D Sの音声レベルの値が誤つて調整される。これにより、音声認識部 6に誤ったデジタル音声信号 DSが入力され音声認識の認識率が低下する。

' 上記のように、信号遅延部 3において音声区間の最初の音声レベル立ち上がり時間 TLを 1 00msecに設定することにより、音声区間全体の音声レベルを音声レベル推定部 4により算出することができる。これにより、音声区間のデジタル音声信号 DSのレベルが一律に調整されるので、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができ音声認識の認識率を向上させることができる。

(第 2の実施の形態）

次に、本発明の第 2の実施の形態における音声認識装置について図を用いて説明する。

図 4は本発明の第 2の実施の形態における音声認識装置を示すブロック図である。

図 4に示すように、音声認識装置は、マイクロホン 1、 AZDコンバータ 2、音声レベル推定部 4、音声レベル調整部 5、音声認識部 6、音声検出部 7、音声レベル保持部 8、選択部 1 1， 1 2、バッファ 2 1およびバッファ 22を含む。図 4に示すように、話者により発声された音声は、マイクロホン 1により集音される。集音された音声は、マイクロホン 1の働きによりアナログ音声信号 S A に変換され A/Dコンバータ 2に出力される。 A/Dコンバータ 2は、出力されるアナログ音声信号 S Aをデジタル音声信号 DSに変換し、音声レベル推定部 4 、音声検出部 7および選択部 1 1に与える。音声レベル推定部 4は、与えられるデジタル音声信号 D Sから音声レベルの推定値 L V Lの算出を行う。第 2の実施の形態における音声レベル推定部 4による音声レベルの推定値 LVLの算出は、第 1の実施の形態における音声レベル推定部 4による音声レベルの推定値 LVL の算出方法と同様である。

音声レベル推定部 4は、 A/Dコンバータ 2から与えられるデジタル音声信号 DSに基づいて、一単語ごとに音声レベルの推定値 LVLを算出し、算出される音声レベルの推定値 LVLを順次音声レベル保持部 8に与える。ここで、音声レベル保持部 8は、音声レベル保持部 8内に設けられる保持レジスタに、次に音声レベル推定部 4により算出される音声レベルの推定値 LVLが与えられるまで前回の音声レベルの推定値 LVLを保持し、音声レベル推定部 4によって算出される音声レベルの推定値 LVLが与えられるごとに、前回の音声レベルの推定値 L VLが保持されている保持レジスタに、新たに与えられた音声レベルの推定値 L VLを上書き保存する。また、この保持レジス夕は、データ容量 Mを有している。

一方、音声検出部 7は、 AZDコンバータ 2により与えられるデジタル音声信号 DSから図 3の音声の開始時間 TSを検出し、 AZDコンバータ 2から与えられるデジタル音声信号 DSをバッファ 2 1に与えるように選択部 1 1に制御信号 C I S 1を与えるとともに、選択部 1 1により与えられるデジタル音声信号 DS を蓄積するようにバッファ 2 1に制御信号 CB 1を与える。バッファ 2 1， 2 2 は、ぞれぞれ容量 Lを有している。

選択部 1 1は、音声検出部 7により与えられる制御信号 C I S 1に応答して、 AZDコンバータ 2から与えられるデジタル音声信号 DSをバッファ 2 1に与える。バッファ 2 1は、音声検出部 7から与えられる制御信号 CB 1に応答して、選択部 1 1を介して与えられるデジタル音声信号 DSを蓄積する。そして、バッファ 21は、蓄積可能な容量 Lのデジタル音声信号 DSを蓄積した際に、音声検出部 7に満杯信号 F 1を与える。それにより、音声検出部 7は、バッファ 21を介して、音声レベル保持部 8に音声レベルの推定値 LVLを出力させる制御信号 SL 1を与える。

また、音声検出部 7は、バッファ 21から与えられる満杯信号 F 1に応答して、 A/Dコンバータ 2から与えられるデジタル音声信号 DSをバッファ 22に与えるように選択部 1 1に制御信号 C I S 2を与えるとともに、選択部 1 1から与えられるデジタル音声信号 D Sを蓄積するようにバッファ 22に制御信号 CB 2 を与える。さらに、音声検出部 7は、バッファ 2 1に制御信号 CB〇 1を与え、選択部 12に制御信号 COS 1を与える。

選択部 1 1は、音声検出部 7により与えられる制御信号 C I S 2に応答して、 A/Dコンバータ 2から与えられるデジタル音声信号 DSをバッファ 22に与える。バッファ 22は、音声検出部 7により与えられる制御信号 CB 2に応答して、選択部 1 1を介して与えられるデジタル音声信号 DSを蓄積する。

一方、バッファ 21は、音声検出部 7により与えられる制御信号 CBO lに応答して、バッファ 21に蓄積されたデジタル音声信号 DSを選択部 12を介して音声レベル調整部 5に与える。

そして、バッファ 22は、音声検出部 7から与えられる制御信号 CB 2に応答して、選択部 1 1を介して与えられるデジタル音声信号 DSを蓄積する。バッファ 22は、蓄積可能な容量 Lのデジタル音声信号 DSを蓄積した際に、音声検出部 7に満杯信号 F 2を与える。それにより、音声検出部 7は、バッファ 22を介して音声レベル保持部 8に音声レベルの推定値 LVLを出力させる制御信号 S L 2を与える。

また、音声検出部 7は、バッファ 22から与えられる満杯信号 F 2に応答して、 A/Dコンバータ 2から与えられるデジタル音声信号 DSをバッファ 2 1に与えるように選択部 1 1に制御信号 C I S 1を与える。さらに、音声検出部 7は、バッファ 22に制御信号 CBO 2を与え、選択部 12に制御信号 COS 2を与える。一方、バッファ 22は、音声検出部 7により与えられる制御信号 CB〇 2に応答して、バッファ 22に蓄積されたデジタル音声信号 DSを選択部 12を介して音声レベル調整部 5に与える。

音声レベル保持部 8は、内部の保持レジスタに保持された音声レベルの推定値 L VLをバッファ 21から与えられる制御信号 S L 1またはバッファ 22から与えられる制御信号 SL 2に応答して音声レベル調整部 5に与える。ここで、音声レベル保持部 8内に設けられる保持レジスタの容量 Mとバッファ 21， 22の容量 Lとは、ほぼ同一の容量であるため、選択部 12を介して与えられるデジタル音声信号 D Sに対応する音声レベルの推定値 L V Lが、音声レベル保持部 8から出力される。

音声レベル調整部 5は、音声レベル保持部 8により与えられる音声レベルの推定値 LVLに基づいて、選択部 12を介して得られるデジタル音声信号 DSの調整を行う。第 2の実施の形態における音声レベル調整部 5によるデジタル音声信号 DSの調整方法は、第 1の実施の形態における音声レベル調整部 5によるデジタル音声信 ^DSの調整方法と同様である。音声レベル調整部 5は、音声レベルの調整後の出力 CTRL— OUTを音声認識部 6に与える。音声認識部 6は、音声レベル調整部 5により与えられる音声レベルの調整後の出力 CTRL— OUT に基づき音声認識を行う。

第 2の実施の形態における音声認識装置においては、マイクロホン 1および A /D (アナログ一デジタル）コンバータ 2が入力手段に相当し、音声レベル推定部 4が音声レベル推定手段に相当し、音声レベル調整部 5が音声レベル調整手段に相当し、音声認識部 6が音声認識手段に相当し、音声検出部 7が音声検出部に相当し、音声レベル保持部 8が保持回路に相当し、バッファ 2 1， 22が蓄積回路に相当する。

図 5 (a) は図 4のマイクロホン 1の出力波形図であり、図 5 (b) は音声信号（信号成分）（S) と雑音成分（N) との比（Sノ N) を示す図である。

図 5 (a) に示すように、マイクロホン 1の出力波形は、雑音成分と音声信号からなる。そして、音声信号を含む音声区間では、出力波形の音声レベルの値が高くなる。また、図 5 (b) に示すように、図 4の音声検出部 7は、音声信号（音声成分 ) と雑音成分との比である SZN値が低い場合は雑音区間であると判定し、音声信号（音声成分）と雑音成分との比である S/N値が高い場合は音声区間であると判定する。

図 6は図 4の音声検出部 7の動作を示すフローチャートである。

まず、図 6に示すように、音声検出部 7は、入力されるデジタル音声信号 DS が音声信号であるか否かを判定する（ステップ S 6 1)。入力されるデジタル音声信号 DSが音声信号でない場合には、次回に入力されるデジタル音声信号 DS が音声信号と判定されるまで待機する。一方、入力されるデジタル音声信号 DS が音声信号であると判定された場合、音声検出部 7は、図 4の選択部 1 1に与えられるデジタル音声信号 DSをバッファ 21に与えるように選択部 1 1に制御信号 C I S 1を与える（ステップ S 62)。そして、音声検出部 7は、バッファ 2 1にデジタル音声信号 DSを蓄積するように制御信号 CB 1を与える（ステップ S 63)。

次いで、音声検出部 7は、バッファ 21により蓄積可能な容量 Lのデジタル音声信号 DSを蓄積した際に出力される満杯信号 F 1を受信したか否かを判定する (ステップ S 64)。音声検出部 7は、バッファ 2 1から満杯信号 F 1を受信していない場合には、引き続きステップ S 63を繰り返す。一方、音声検出部 7は、バッファ 21から満杯信号 F 1を受信した場合には、図 4の選択部 1 1に与えられるデジタル音声信号 D Sをバッファ 22に与えるように選択部 1 1に制御信号 C I S 2を与える（ステップ S 65)。そして、音声検出部 7は、さらにバッファ 22にデジタル音声信号 D Sを蓄積するように制御信号 CB 2を与える（ステツプ S 66)。また、音声検出部 7は、制御信号 C I S 2および制御信号 CB 2を出力した後に、選択部 12にバッファ 2 1から与えられる蓄積されたデジ夕ル音声信号 D Sを音声レベル調整部 5に与えるように制御信号 C O S 1を与える (ステップ S 67)。

次いで、音声検出部 7は、音声レベル保持部 8にバッファ 21を介して制御信号 S L 1を与える（ステップ S 68)。音声レベル保持部 8は、バッファ 2 1を介して与えられる制御信号 SL 1に応答して、音声レベル保持部 8内の保持レジス夕に繰り返し記憶されている音声レベルの推定値 LVLを音声レベル調整部 5 に与える。

次いで、音声検出部 7は、バッファ 21に制御信号 CBO 1を与え、蓄積されたデジタル音声信号 DSを音声レベル調整部 5に出力させる（ステップ S 69) 。続いて、音声検出部 7は、バッファ 21に蓄積された全てのデジタル音声信号 DSが音声レベル調整部 5に出力されたか否かを判定する（ステップ S 70)。ここで、バッファ 21から全てのデジタル音声信号 DSが出力されていない場合には、再度、バッファ 2 1に制御信号 CBO 1を与え蓄積されたデジタル音声信号 DSを音声レベル調整部 5に出力させる。一方、バッファ 21に蓄積されたデジタル音声信号 DSが全て出力された場合、音声検出部 7は、バッファ 2 1にバッファ内のデータを消去（クリア）するように制御信号 CRを与える（ステップ S 7 1)。

図 7は 2単語を話者が発声した場合におけるバッファ 21およびバッファ 22 のデジタル音声信号 D Sの入出力を表す模式図である。

図 7に示すように、バッファ 21には、音声区間（S) の一単語（W1) の開始時点において、音声検出部 7により制御信号 CB 1が与えられ、バッファ 21 へのデジタル信号 DSの入力が開始される。ここで、バッファ 21およびバッファ 22は F I FO (First In First Out) タイプのメモリで構成されており、またバッファ 21およびバッファ 22のメモリ容量 Lはほぼ同一である。

バッファ 21へのデジタル音声信号 DSの入力は、一単語（W1) のほぼ全てにおいて行われ、バッファ 21に蓄積可能な容量 Lのデジタル音声信号 D Sが蓄積されるとバッファ 2 1は音声検出部 7に満杯信号 F 1を出力する。バッファ 2 1は、満杯信号 F 1を出力した後、バッファ 21内に蓄積されたデジタル音声信号 DSを音声検出部 7により与えられる制御信号 CBO 1に応答して出力する。一方、バッファ 22は、音声検出部 7により与えられる制御信号 CB 2に応答してデジタル音声信号 D Sの蓄積を開始する。

バッファ 22は、蓄積可能な容量 Lのデジタル音声信号 DSが蓄積された場合に、音声検出部 7に満杯信号 F 2を出力する。一方、バッファ 22の蓄積の間にバッファ 21に蓄積されたデジタル音声信号 DSは、全て音声レベル調整部 5に出力された後、音声検出部 7により制御信号 C Rが与えられバッファ 2 1内のデ —夕が消去（クリア）される。それにより、バッファ 2 1には、音声検出部 7により再度デジタル音声信号 D Sを蓄積させる制御信号 C B 1が与えられる。上記のように、音声区間の開始点からデジタル音声信号が蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを正確に調整することができる。したがって、音声認識を正確な音声レベルで調整することにより音声認識の認識率を向上させることができる。

また、複数の単語を含む長い時間のデジタル音声信号 D Sが入力されても、交互に蓄積および出力を行うことができる。これにより、小さい容量のバッファを用いても音声認識を行うことができる。

なお、本発明の実施の形態においては、バッファを用いることとしたが、これに限らず、他の蓄積回路を用いてもよい。さらに、バッファの内部にカウンタを設けて、音声検出部 7によりバッファの内部のカウンタを監視させて満杯信号 F 1 , F 2または制御信号 C Rを出力してもよい。

(第 3の実施の形態）

図 8は本発明の第 3の実施の形態における音声認識装置の一例を示すブロック図である。

図 8に示すように、音声認識装置は、マイクロホン 1、 A/D (アナログ—デジタル）コンバータ 2、信号遅延部 3、音声レベル推定部 4、音声レベル調整帰還部 9および音声認識帰還部 1 0を含む。

図 8に示すように、話者により発声された音声は、マイクロホン 1により集音される。集音された音声は、マイクロホン 1の働きによりアナログ音声信号 S A に変換され AZDコンバータ 2に出力される。 AZDコンバータ 2は、出力されるアナログ音声信号 S Aをデジタル音声信号 D Sに変換し、信号遅延部 3および音声レベル推定部 4に与える。音声レベル推定部 4は、与えられるデジタル音声信号 D Sから音声レベルの推定値 L V Lの算出を行う。ここで、第 3の発明の実施の形態における音声レベル推定部 4による音声レベルの推定値 L V Lの算出方法については、第 1の実施の形態における音声レベル推定部 4による音声レベルの推定値 L V Lの算出方法と同様である。音声レベル推定部 4は、音声レベルの推定値 L V Lを算出し音声レベル調整帰還部 9に与える。音声レベル調整帰還部 9は、音声レベル推定部 4により与えられる音声レベルの推定値 L V Lに基づいて、音声レベルの推定値 L V Lに同期して信号遅延部 3により与えられるデジタル音声信号 D Sのレベルの調整を行う。音声レベル調整帰還部 9は、音声レベルの調整後の出力 CTRL— OUTを音声認識帰還部 10に与える。音声認識帰還部 10は、音声レベル調整帰還部 9により与えられる調整後の出力 C T R L— 0 UTに基づき音声認識を行い、音声認識が失敗したときに音声レベル制御信号 RCを音声レベル調整帰還部 9に与える。この音声レベル調整帰還部 9および音声認識帰還部 10の動作については後述する。

第 3の実施の形態における音声認識装置においては、マイク口ホン.1および A ZD (アナログ—デジタル）コンバータ 2が入力手段に相当し、信号遅延部 3が遅延回路に相当し、音声レベル推定部 4が音声レベル推定手段に相当し、音声レベル調整帰還部 9が音声レベル調整手段に相当し、音声認識帰還部 1 0が音声認識手段に相当する。

図 9は図 8に示す音声レベル調整帰還部 9における音声レベルの調整を行う際の動作を説明するフローチャートである。

図 9に示すように、まず、音声レベル調整帰還部 9は、音声認識帰還部 10による音声レベル制御信号 RCが入力されたか否かを判定する（ステップ S 9 1) 。次に、音声レベル調整帰還部 9は、音声認帰還識部 10により音声レベル制御信号 RCが入力されていない場合には、音声認識帰還部 1 0による音声レベル制御信号 RCが入力されたと判定されるまで待機する。一方、音声認識帰還部 10 から音声レベル制御信号 RCが入力されたと判定された場合には、音声レベル調整帰還部 9は、変数 Kに 1を加算する（ステップ S 92)。

ここで、複数の段階の音声レベルの目標値が予め設定されており、変数 Kとは、この複数の段階を表す変数である。ここで、本実施の第 3の形態においては、変数 Kは 1から Rまでの値を有し、音声レベルの目標値 TRG— L VL (K) の取りうる値は、 TRG— LVL (1), TRG_L VL (2), 〜TRG— LVL (R) とする。次いで、音声レベル調整帰還部 9は、変数 Kが最大値 Rよりも大きいか否かを判定する（ステップ S 93)。ここで、音声レベル調整帰還部 9は、変数 Kが最大値 Rよりも大きいと判定した場合には、変数 Kを最小値 1に戻し（ステップ S 94)、音声レベルの目標値 TRG— L VLを TRG— L VL (1) に設定する (ステップ S 95)。

一方、音声レベル調整帰還部 9は、変数 Kが最大値 R以下と判定した場合、音声レベルの目標値 TRG— L VLを TRG— L VL (K) に設定する（ステップ例えば、最初、音声レベルの目標値 TRG— L VLが、 TRG— LVL (2) に設定されているとする。そして、音声認識帰還部 10が音声認識に失敗して音声認識を行うことができない場合には、制御信号 RCが音声レベル調整帰還部 9 に出力される。音声レベル調整帰還部 9は、音声レベルの目標値 TRG— L VL (2) を音声レベルの目標値 TRG— L VL (3) に変更し、再度の話者からの音声入力を待つ。

このように、音声レベルの目標値 TRG_L VLを TRG— L VL (2), T RG_L VL (3)， TRG— LVL (4) と順次に変更し、音声認識が成功した時点で音声レベルの目標値 TRG一 LVLが固定される。また、音声レベルの目標値 TRG— L VLが最大値である TRG— L VL (R) に設定されても音声認識に失敗した場合には、次に音声レベルの目標値 TRG— LVLを最小値である TRG— LVL (1) に戻し、再度の話者からの音声入力を待つ。

このようして、音声レベルの目標値 TRG—LV Lが音声認識に最適な値に設定される。

上記のように、音声認識結果が失敗であった場合に、再び音声レベル調整帰還部 9において、音声レベルの調整程度を順次上げていくことができる。また、音声レベルの調整程度が、予め定めた音声レベルの最大値に到達しても、再度音声レベルを最小値に戻して調整程度を順次上げることができる。これにより、音声レベルの調整程度が適切でなく音声認識に失敗した場合には、繰り返し音声レべルの調整程度を順次変更することができるので音声認識の認識率を向上させることができる。なお、上記実施の形態においては、音声認識に失敗した場合には、再度話者からの音声入力により音声レベルの目標値 TRG— LVL (K) を順次変更することとしたが、これに限らず、話者の音声入力を保持する手段を設け、音声認識に失敗した場合には、音声入力を保持する手段により保持されている音声入力を用いることにより音声レベルの目標値 TRG— L VL (K) を順次変更させてもよい。

(第 4の実施の形態）

図 10は本発明の第 4の実施の形態における音声認識装置の一例を示すプロック図である。

図 10に示すように、音声認識装置は、マイクロホン 1、 A/D (アナログ— デジタル）コンバータ 2、信号遅延部 3、音声レベル推定部 4、音声レベル調整部 5、音声認識部 6および信号非線形処理部 1 1を含む。

図 10に示すように、話者により発声された音声は、マイクロホン 1により集音される。集音された音声は、マイクロホン 1の働きによりアナログ音声信号 S Aに変換され AZDコンパ一タ 2に出力される。 AZDコンバータ 2は、出力されるアナログ音声信号 S Aをデジタル音声信号 DSに変換し、信号遅延部 3および音声レベル推定部 4に与える。音声レベル推定部 4は、与えられるデジタル音声信号 DSから音声レベルの推定値 LVLの算出を行う。ここで、第 4の実施の形態における音声レベル推定部 4による音声レベルの推定値 LVLの算出方法については、第 1の実施の形態における音声レベル推定部 4による音声レベルの推定値 LVLの算出方法と同様である。音声レベル推定部 4は、与えられるデジ夕ル音声信号 DSおよび音声レベルの推定値 LVLを信号非線形処理部 1 1に与える。信号非線形処理部 1 1は、音声レベル推定部 4により与えられる音声レベルの推定値 LVLに応じて後述する非線形処理を行い、非線形処理を行った音声レベルの推定値 LVLを音声レベル調整部 5に与える。

一方、信号遅延部 3は、音声レベル立ち上がり時間 TLに相当する遅延量分のみ遅延させたデジタル音声信号 DSを音声レベル調整部 5に与える。ここで、第 4の実施の形態における音声レベル立上り時間 TLに相当する遅延量分は、 10 0ms e cとする。音声レベル調整部 5は、信号非線形処理部 1 1から与えられる音声レベルの推定値 L VLに応じて信号遅延部 3により与えられるデジタル音声信号 DSの音声レベルの調整を行う。音声レベル調整部 5は、音声レベルの調整後の出力 CTRL— OUTを音声認識部 6に与える。音声認識部 6は、音声レベル調整部 5により与えられる音声レベルの調整後の出力 C T R L— OU Tに応じて音声認識を行う。

第 4の実施の形態における音声認識装置においては、マイクロホン 1および A /D (アナログ一デジタル）コンバータ 2が入力手段に相当し、信号遅延部 3が遅延回路に相当し、音声レベル推定部 4が音声レベル推定手段に相当し、音声レベル調整部 5が音声レベル調整手段に相当し、音声認識部 6が音声認識手段に相当し、信号非線形処理部 1 1が非線形処理部に相当する。

図 1 1は図 10の信号非線形処理部 1 1に入力される音声レベルの推定値 LV Lと図 10の音声認識部 6における認識率との関係を示す図である。

図 1 1に示すように、図 10の音声認識部 6における認識率は、音声レベルの推定値 LVLに依存している。音声レベルの推定値 LVLがー 19 dB以上— 2 d B以下の範囲にある場合には、認識率が 80 %以上を示す。そして、特に音声レベルの推定値 LVLが低い（一 19 dB以下）場合、または音声レベルの推定値 LVLが高い（一 2 d B以上）場合には、音声認識の認識率が急激に低下するこのことから、本発明の第 4の実施の形態における信号非線形処理部 1 1においては、入力される音声レベルの推定値 LVLがー 1 9 dBから一 2 dBまでの範囲内に存在するように音声レベルの推定値 LVLを調整する。

図 12は信号非線形処理部 1 1の処理動作を示すフローチャートである。

図 12に示すように、信号非線形処理部 1 1は、音声レベル推定部 4により入力される音声レベルの推定値 LVLが— 1 9 d B以上— 2 dB以下であるか否かを判定する（ステップ S 10 1)。

信号非線形処理部 1 1は、入力される音声レベルの推定値 LVLが— 1 9 dB 以上一 2 dB以下の値であると判定した場合には、音声レベル調整部 5を不能動化させる。すなわち、音声レベル調整部 5において式（2) に示す音声レベルの調整値 L VL— CTRLは 1となる。一方、信号非線形処理部 1 1は、入力される音声レベルの推定値 LVLがー 1 9 dB以上— 2 dB以下の値でないと判定した場合、音声レベルの推定値 LVL を— 10 dBに設定する（ステップ S 102)。

上記のように、信号非線形処理部 1 1は、音声レベルの推定値 LVLが認識率 80%以上を満たすように、音声レベルの推定値 LVLを設定するため、音声認識部 6において入力されるデジタル音声信号 DSの音声認識の認識率を向上させることができる。すなわち、音声レベルの推定値 LVLが予め定められた範囲内にない場合にのみ、音声レベルの推定値を予め定められた範囲内の音声レベルの推定値に変更して音声レベルの調整を行い、音声レベルの推定値が予め定められた範囲内のにある場合には、音声レベル調整部 5における増幅率を 1にして音声レベル調整部 5を不能動化にすることにより音声レベルの調整を行わない。これにより、簡易に話者の音声が有する言葉の抑揚であるアクセントに無用な歪みを与えることを防止し音声認識を行うことができるので音声認識の認識率を向上させることができる。

なお、上記実施の形態においては、音声レベルの推定値を一 1 9 d Bから— 2 dBに調整することとしたが、これに限定されず、音声認識を行う際に予め設定される音声レベルの推定値または音声認識率の高い音声レベル推定値に調整すればよい。

Claims

請求の範囲

1 . デジタル音声信号を入力する入力手段と、

前記入力手段により入力される音声区間内の一部の時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定する音声レベル推定手段と、前記音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて前記入力手段により入力される前記音声区間のデジタル音声信号のレベルを調整する音声レベル調整手段と、

前記音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識を行う音声認識手段とを備えた、音声認識装置。

2 . 前記音声レベル推定手段は、

前記入力手段により入力される前記音声区間内の最初の所定時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定する、請求項 1記載の音声

3 . 前記音声レベル推定手段は、

前記入力手段により入力される前記音声区間内の最初の所定時間内のデジタル音声信号の平均値を前記音声区間の音声レベルとして推定する、請求項 2記載の

4 . 前記音声レベル調整手段は、

前記予め設定された目標レベルと前記音声レベル推定手段により推定される音声レベルとの比により定まる増幅率で前記入力手段により入力される前記音声区間のデジタル音声信号のレベルを増幅または減衰させる、請求項 1記載の音声認

5 . 前記音声区間のデジタル音声信号が前記音声レベル推定手段により推定される音声レベルとともに同期して前記音声レベル調整手段に与えられるように前記入力手段により入力されるデジタル音声信号を遅延させる遅延回路をさらに備えた、請求項 1記載の音声認識装置。

6 . 前記音声レベル推定手段は、

前記入力手段により入力される前記音声区間のデジタル音声信号の開始点を検出する音声検出部と、

前記入力手段により入力される前記音声区間内の最初の所定時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定する音声レベル推定部と、前記音声レベル推定部により推定された音声レベルを保持する保持回路と、前記音声検出部による検出に応答して前記入力手段により入力される前記音声区間のデジタル音声信号を蓄積するとともに蓄積された前記音声区間のデジタル音声信号を前記保持回路に保持された音声レベルと同期させて前記音声レベル調整手段に出力する蓄積回路とを含む、請求項 1記載の音声認識装置。

7 . 前記蓄積回路は、

前記入力手段により入力される前記音声区間のデジタル音声信号を交互に蓄積するとともに蓄積された前記音声区間のデジタル音声信号を交互に前記音声レべル調整手段に出力する第 1および第 2のバッファを含む、請求項 6記載の音声認

8 . 前記音声認識手段は、音声認識結果を前記音声レベル調整手段に帰還させ、前記音声レベル調整手段は、前記音声認識手段により帰還された音声認識結果に基づいて前記音声レベルの調整程度を変更する、請求項 1記載の音声認識装置

9 . 前記音声レベル調整手段は、前記音声認識手段による音声認識が不可能な場合に前記音声レベルの増幅率を上昇させる、請求項 8記載の音声認識装置。

1 0 . 前記音声レベル推定手段により推定された音声レベルが予め定められた範囲内にある場合に前記音声レベル調整手段を不能動化し、前記音声レベル推定手段により推定された音声レベルが予め定められた範囲内にない場合に前記音声レベル調整手段を能動化するとともに前記音声レベル推定手段により推定された音声レベルを前記予め定められた範囲内の音声レベルに変更して前記音声レベル調整手段に与える非線形処理部をさらに備えた、請求項 1記載の音声認識装置。

1 1 . デジタル音声信号を入力するステップと、

音声区間内の一部の時間内の前記入力されたデジタル音声信号に基づいて前記音声区間の音声レベルを推定するステップと、

前記推定された音声レベルおよび予め設定された目標レベルに基づいて前記音声区間のデジタル音声信号のレベルを調整するステップと、

前記調整されたデジタル音声信号に基づいて音声認識を行うステップとを備えた、音声認識方法。

1 2 . 前記音声レベルを推定するステップは、

前記音声区間内の最初の所定時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定することを含む、請求項 1 1記載の音声認識方法。

1 3 . 前記音声レベルを推定するステップは、

前記音声区間内の最初の所定時間内のデジタル音声信号の平均値を前記音声区間の音声レベルとして推定することを含む、請求項 1 2記載の音声認識方法。

1 4 . 前記デジタル音声信号のレベルを調整するステップは、

前記予め設定された目標レベルと前記推定される音声レベルとの比により定まる増幅率で前記音声区間のデジタル音声信号のレベルを增幅または減衰させることを含む、請求項 1 1記載の音声認識方法。

1 5 . 前記音声区間のデジタル音声信号が前記推定される音声レベルとともに同期して前記デジタル音声信号のレベルを調整するステップに与えられるように前記デジタル音声信号を遅延させるステップをさらに備えた、請求項 1 1記載の音声認識方法。

1 6 . 前記音声レベルを推定するステップは、

前記音声区間のデジタル音声信号の開始点を検出するステップと、

前記音声区間内の最初の所定時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定するステップと、

前記推定された音声レベルを保持するステップと、

前記デジタル音声信号の開始点の検出に応答して前記音声区間のデジタル音声信号を蓄積するとともに蓄積された前記音声区間のデジタル音声信号を前記保持された音声レベルと同期させて出力するステップとを含む、請求項 1 1記載の音声認識方法。

1 7 . 前記蓄積するステップは、

前記音声区間のデジタル音声信号を第 1および第 2のバッファに交互に蓄積するとともに蓄積された前記音声区間のデジタル音声信号を第 1および第 2のバッファから交互に出力するステップを含む、請求項 1 6記載の音声認識方法。

1 8 . 前記音声認識を行うステップは、音声認識結果を前記デジタル音声信号のレベルを調整するステツプに帰還させることを含み、

前記デジタル音声信号のレベルを調整するステップは、前記帰還された音声認識結果に基づいて前記音声レベルの調整程度を変更することを含む、請求項 1 1 記載の音声認識方法。

1 9 . 前記デジタル音声信号のレベルを調整するステップは、前記音声認識が不可能な場合に前記音声レベルの増幅率を上昇させることを含む、請求項 1 8記載の音声認識方法。

2 0 . 前記推定された音声レベルが予め定められた範囲内にある場合に前記デジタル音声信号のレベルを調整することを不能動化し、前記推定された音声レベルが予め定められた範囲内にない場合に前記調整するステツプを能動化するとともに前記推定された音声レベルを前記予め定められた範囲内の音声レベルに変更して変更された音声レベルを前記デジタル音声信号のレベルを調整するために用いるステップをさらに備えた、請求項 1 1のいずれかに記載の音声認識方法。

2 1 . コンピュータ読み取り可能な音声認識プログラムであって、

デジタル音声信号を入力する処理と、

前記入力される音声区間内の一部の時間内のデジタル音声信号に基づいて前記音声区間の音声レベルを推定する処理と、

前記推定された音声レベルおよび予め設定された目標レベルに基づいて前記入力される前記音声区間のデジタル音声信号のレベルを調整する処理と、

前記調整されたデジタル音声信号に基づいて音声認識を行う処理とを、前記コンピュータに実行させる、音声認識プログラム。