WO2005020212A1

WO2005020212A1 - 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器

Info

Publication number: WO2005020212A1
Application number: PCT/JP2004/010841
Authority: WO
Inventors: Toshio Akabane
Original assignee: Sharp Kabushiki Kaisha
Priority date: 2003-08-22
Filing date: 2004-07-29
Publication date: 2005-03-03
Also published as: JP2005070367A; CN1839427B; CN1839427A; JP4301896B2

Abstract

　信号分析装置は、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段と、各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段とを有する。このように構成することにより、高騒音環境下においても安定した音声認識精度があげられる。また、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる。

Description

明細書

信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器

技術分野

[0001] 本発明は、入力された音声 ·音響信号を分析する信号分析装置、信号処理装置および信号分析装置を用いた音声認識装置に関する。本発明は、またそのような処理をコンピュータに実行させる信号分析プログラム、信号処理プログラムおよび音声認識プログラムに関する。本発明は、またそのようなプログラムを記録した記録媒体に関する。本発明はまたそのような信号分析装置を搭載した電子機器に関する。

背景技術

[0002] 音声認識に用いられる信号分析手段では、信号の入力から数十ミリ秒程度の区間を、数ミリ秒から数十ミリ秒程度の間隔でずらしながら、信号を抽出し、分析フレームとし、各分析フレームにおける入力信号の波形から、音響パラメータを計算し、音響パラメータの時系列とする。

[0003] 特定話者音声認識では、得られた時系列の音響パラメータを、予め登録した音響パラメータの時系列パターン (標準パターン)と照合して、入力に最も類似した標準パターンを認識結果とする。

[0004] 不特定話者音声認識の場合には、予め大量のデータから音響パラメータを計算し、音声単位ごとに計算した音響パラメータの統計量を求め、確率的音響モデルを作成する。同時に、この音声単位ごとの確率的音響モデルを連結して、単語モデルまたは文章モデルを作成する。入力信号から分析された音響パラメータについて、前記単語モデルまたは文章モデルに対する確率尤度を計算し、比較して、最も高い確率尤度の単語モデルまたは文章モデルを認識結果とする。ここでレ、う音声単位としては、例えば音素、音節、または単語などの単位が用いられる。

[0005] このように、音声認識を行うためには、音響パラメータを求める信号分析技術は、認識性能を決める重要な技術である。このため、雑音や回線の回線特性などの歪による影響を受けにくい信号分析技術が必要とされる。非特許文献 1には、このような信号分析技術として用いられる、帯域エネルギーをケプストラム係数に変換する MFCC (Mel Frequency Cepstrum Coefficient)力 S不されてレヽる。

[0006] 図 1は、 MFCCを求めるための手順を示すフローチャートである。以下、図 1を用いて、 MFCCの分析方法を説明する。 MFCCでは、まず、分析フレームごとに音声波形を信号分析器に入力し (ステップ S101)、フレームの切り出し区間の両端に急激な変化が起こらないように、ノ、ミング窓関数を掛ける（ステップ S102)。次に、 FFT (Fas t Fourier Transform :高速フーリエ変換）を用いて、各フレームにおける線形周波数軸上のエネルギーを求める（ステップ S103)。この線形周波数軸上のエネルギ一は、メル周波数軸上で等分割した帯域ごとにまとめられ、帯域エネルギーに変換される（ステップ S104)。変換された帯域エネルギーは、帯域ごとに対数変換される（ステツプ S105)。次に、各帯域におけるパワーをコサイン変換することで、 MFCCが求められる（ステップ S106)。求められた MFCCは、信号分析器から出力される（ステツプ S107)。このように、メル周波数軸上で等分割して求められたケプストラム係数を、メル周波数ケプストラム係数 (MFCC)という。メル周波数は、人間の聴覚特性に準じた周波数単位であり、低い周波数での分解能が、高い周波数での分解能に比べて細かくなる。このため、 MFCCは、同じ次数のケプストラムであれば、線形周波数軸を用いた場合に比べて、音声認識性能に優れることが知られている。

[0007] なお、本明細書中では、ステップ S101—ステップ S105を周波数分析ステップ（ステツプ S201)と、ステップ S106からステップ S107をパラメータ変換ステップ（ステツプ S202)とレ、う場合がある。

[0008] しかし、実際の音声認識は、家庭、オフィス、自動車、屋外などの背景雑音、または装置自身から発生する冷却ファンなどの騒音や、電磁的に波形に混入する加法的な騒音などの加法性雑音の存在下で行われる。さらに、マイクロホンあるいは音声伝達回路などの伝達特性や、話者がマイクロホンに向かう際の距離や角度が異なることによる音響特性の変化などの乗法的な歪が存在する。 MFCCは、これらの騒音や歪の影響を受けやすい。このため、 MFCCを用いた音声認識では、騒音の大きな環境下で使用する場合や回線特性の歪が大きい使用方法をする場合には、認識性能が大幅に低下するという問題がある。これらの騒音や歪の影響を低減させるために、以下に述べるような信号分析方法が用いられてレ、る。

[0009] [SS法、及びその簡易化手法]

[0010] 非特許文献 2には、加法性雑音の影響を少なくする方法として、スペクトル減算（S S : spectral subtraction)法が開示されている。この方法は、入力音声信号を周波数分析して入力の振幅スペクトルまたはパワー（2乗)スペクトルを求め、雑音区間で推定された推定雑音スペクトルに所定の係数ひを乗じ、このスペクトル減算係数ひを乗じた後の推定雑音スぺクトノレを入力スペクトルから減じることで、雑音成分を抑圧する方法である。この方法では、音声品質を向上させるためには、多数の帯域に分割して処理をする必要がある。

[0011] また、特許文献 1には、この SS法を改善し、帯域分割を少なくして雑音成分を抑圧する方法が開示されている。

[0012] [CMS法]

[0013] 非特許文献 1には、乗法性の歪の影響を低減する方法として、 CMS法（Cepstm m Mean Subtraction :ケプストラム平均除法）が開示されている。この方法は、 C MN法（Cepstrum Mean Normalization :ケプストラム平均正規化法）とも呼ばれる。これは、乗法性歪が、発声された音声のケプストラムの長時間平均として得られる、という仮定に基づく。具体的には、ケプストラム係数から、入力音声のケプストラム係数の平均値を差し引いて、回線やマイクロホンなどの音響系の特性に基づく歪の影響を低減できる。このことは、ケプストラムのコサイン変換である対数スペクトルの歪を差し引くことと等価である。

[0014] しかし、実際の入力音声においては、音声の音源位置と雑音の音源位置とが異なる。音声区間と雑音区間とでは、正規化すべき回線特性が異なるため、音声区間の平均ケプストラムを雑音区間に適用することは、雑音区間のケプストラムを不安定にし、認識性能に悪影響を及ぼすという問題がある。このため、雑音区間に適用できる C MS法の改良法が検討されてレ、る。

[0015] [E—CMN法]

[0016] 非特許文献 3および特許文献 2には、 CMS法の改良法である E— CMN法が提案されている。 E— CMN法は、音声区間のケプストラム平均と、非音声区間のケプストラム平均とを別個に求め、音声区間と、非音声区間とで、別個に正規化処理を行う。この方法により、誤認識率を低減させることができる。

[0017] [音声検出]

[0018] 上記した SS法、その簡易化手法、 E—CMN法は、いずれの方法においても、音声区間と非音声区間とを区別するために、音声検出を必要とする。音声検出技術の標準的な方法は、携帯電話に用いる音声通信の規格などに開示されている。音声検出は、一般に、入力信号の短時間におけるエネルギーの変化、スペクトル形状の変化などに基づいて、入力信号を、音声区間と雑音区間とに時間的に分割することによつて行なわれる。

特許文献 1：特開 2001 - 228893号公報

特許文献 2：特開平 10 - 254494号公報

非特許文献 1 :鹿野清宏ら編著、「音声認識システム」、第 1版、株式会社オーム社、平成 13年 5月 15日、 p. 13-15

特 3午文献 2 : S. Boll, 「 uppression of acousticnoise m speech using spectral subtractionj , IEEE Trans. ASSP, 1979， vol.ASSP— 27， no. 2， pp. 113-120

非特許文献 3 :庄境誠、外 2名、「ケプストラム平均正規化法と HMM合成法に基づくモデル適応化法 E - CMN/PMCと自動車内音声認識への適用」、電子情報通信学会論文誌、社団法人電子情報通信学会、 1997、第 J80-D - II卷、第 10号、 p. 2

636-2644

発明の開示

[0019] しかし、上記信号分析方法およびこれらの分析方法に使用する音声認識方法には

、以下のような問題がある。

[0020] [SS法、及びその簡易化手法に関する問題点]

[0021] SS法は、音声区間で雑音区間のスペクトルを減算するので、雑音の少ない環境での入力音声を推定する場合には、優れる。しかし、雑音区間においては、雑音のパヮ一は小さくなる力 S、雑音のスペクトル形状自体は変わらない。現在主流である統計に基づく音声認識を行う場合には、予め統計的に学習した雑音とは異なるスペクトル形状の雑音が入力すると、雑音区間の照合精度が低下する。このため、雑音区間を音声区間と誤って照合するため、全体として高い認識精度が得られない。この認識精度の低下を防ぐためには、何らかの適応的なスペクトル補正が必要となる。その方法の一つが、 E-CMN法のように雑音スペクトルを正規化する方法である。し力し、 E- CMN法には、以下のような問題がある。

[0022] [E— CMN法に関する問題点]

[0023] 上記したように、 E— CMN法では、音声区間と雑音区間とで、独立にケプストラム平均を求めるので、より正確に回線特性を正規化できる。特にこの方法によると、雑音区間のスペクトル形状を平坦ィ匕できるので、 SS法では解決できなレ、、雑音区間の照合精度を改善することができる。

[0024] しかし、音声区間と雑音区間との判断は、音声区間の検出精度に依存する。このために、高騒音環境では、音声区間の切り出し精度が低下し、誤ったケプストラム平均値を元に正規化を行うため、認識精度に悪影響を及ぼすという問題がある。以下に、音声検出の問題点を述べる。

[0025] [雑音区間の長さ]

[0026] SS法や E— CMN法では、雑音スペクトルの推定は、音声区間を検出する際に、雑音区間と判断された区間に対して行われる。しかし、実際に信号分析装置を使用する環境において、装置が動作を開始したすぐ後に、音声が発声された場合には、雑音スペクトルを推定するための十分な雑音区間長が得られない。このため、雑音の適応ができなレ、、あるいは誤った雑音を適応するという問題がある。

[0027] [音声区間検出の困難性]

[0028] 静かな環境では、音声区間と雑音区間とは容易に分離できる。このため、音声パヮ一の時間変化を利用すれば、発声区間を検出するのは比較的容易である。しかし、高騒音環境で、 SN比が低い場合には、音声区間の始点ゃ終点の精度が低下するため、発声の区間内であっても、音声は、音声のパワーが大きい一部の区間を除けば、ほとんどの部分が雑音に坦もれる。このため、音声区間と非音声区間との差が曖昧になり、音声区間を検出することが困難となる。

[0029] このような SN比が低い音声の発声区間を周波数分析し、対数変換したスペクトルを観察すると、音声のパワーが優位な周波数帯域では、音声のスペクトルが表される。一方、それ以外の雑音のパワーが優位な周波数帯域では、雑音のスペクトルが表される。すなわち、音声の発声区間であっても、帯域により、雑音を表している場合がある。このため、従来の方法のように、全周波数帯域を一括して音声区間と雑音区間とに分離する方法では、回線歪を受けた音声のスペクトル平均を正確に求めることは難しい。逆に、音声区間が検出できない場合には、本来の音声区間も雑音区間として処理される。このため、雑音のスぺクトノレ平均さえも正確に求めることができない。

[0030] それゆえに、本発明の目的は、高騒音環境下においても、音声認識精度の高い信号分析装置および信号処理装置を提供することにある。

[0031] また、本発明の他の目的は、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる信号分析装置および信号処理装置を提供することにある。

[0032] 本発明のさらに他の目的は、雑音および音響特性の歪の影響を受けにくい音声認識装置を提供することにある。

[0033] 本発明のさらに他の目的は、低 SN比での音声認識精度が向上するように改良された音声認識装置を提供することにある。

[0034] 本発明のさらに他の目的は、そのような音声認識装置を搭載した電子機器を提供することにある。

[0035] 本発明のさらに他の目的は、雑音および音響特性の歪の影響を受けにくい音声認識を行なうことができるように改良された信号分析プログラム、信号処理プログラムおよび音声認識プログラムを提供することにある。

[0036] 本発明のさらに他の目的は、低 SN比での音声認識精度が向上するように改良された信号分析プログラム、信号処理プログラムおよび音声認識プログラムを提供することにある。

[0037] 本発明のさらに他の目的は、そのようなプログラムを記録した記録媒体を提供することにある。

[0038] 上記課題を解決するために、本発明の信号分析装置は、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネノレギーを求める正規化手段と、を有する。

[0039] この構成によれば、抽出された帯域エネルギーが帯域ごとに正規化される。この結果、音声区間の検出を明確に行わなくても、信号分析ができるので、音声区間の検出誤りを避けることができる。また、雑音区間が短い場合に生ずる、雑音の適応ができないという問題、あるいは誤った雑音を適応するという問題を回避できる。

[0040] ここで、正規化とは、雑音の種類や大きさ、回線の特性、マイクへの入力感度などの環境の要因により生ずる、入力される信号のエネルギー分布が移動する量を少なくすることを意味する。具体的には、正規化は、信号のエネルギー分布の平均を減算して、直流成分を減衰させる方法、環境雑音の値を減算する方法などにより行う。また、本明細書中では、正規化には、入力レベルのエネルギー分布の広がり方を制御することも含まれる。

[0041] 本発明の信号分析装置において、前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されるのが好ましレ、。この構成によれば、入力信号の直流成分を含めて低周波成分を減衰するので、最も簡単な構成で正規化することができる。

[0042] また好ましくは、本発明の信号分析装置は、前記抽出された帯域エネルギーの系列から、帯域ごとの条件付平均値を第 1のレベルとして計算するレベル計算手段を有し、前記正規化手段は、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の第 1のレベルを所定の係数で乗じた値を減算する。

[0043] この構成によれば、計算された第 1のレベルを用いて、入力信号の当該帯域エネルギ一が正規化される。すなわち、帯域ごとに、より正確な正規化を行うことができる。

[0044] なお、帯域エネルギーの平均値は、信号レベルと雑音レベルの 2つに限られず、雑音 Aのレベルと雑音 Bのレベル、あるいは特定の信号 Xのレベルと特定の信号 Yのレベルなど、信号分析装置の使用環境や使用用途により、 2つ、あるいは 3つ以上のレベルに分類することができる。本明細書中では、これら複数のレベルのうち、基準となるレベルを第 1のレベルと呼び、それ以外のレベルを、第 2のレベル、第 3のレベルなどという。なお、本明細書中では、主として、第 1のレベルとして雑音のレベルを用い、第 2のレベルとして音声のレベルを用いている。

[0045] 雑音レベルは、入力された帯域エネルギーのうち、雑音を表現していると想定される、相対的に低いエネルギーが分布している集合の平均を示し、音声レベルは、同じぐ音声を表現していると推定される、相対的に高いエネルギーが分布している集合の平均を示す。本明細書中で、これらの雑音レベルまたは音声レベルのように、エネルギ一の高低のような条件の下で分割したエネルギーの平均を「条件付平均」ということ力 Sfeる。

[0046] 本発明の信号分析装置において、雑音と音声のような条件を採用した場合、エネルギ一分布の中で、相対的にエネルギーの低い集合と高い集合とを、離散的に区分するのではなぐ中間的な入力範囲を連続的に扱うことが望ましい。すなわち、音声区間を検出せずに、フレームごとに、帯域エネルギーの大きさから、音声らしさ、雑音らしさを連続値で判断することが望ましレ、。

[0047] また、好ましくは、上記信号分析装置において、前記レベル計算手段は、前記第 1 のレベルの計算に加え、前記抽出された帯域エネルギーの系列から、第 1のレベルとは異なる、帯域ごとの条件付き平均値の少なくとも 1つを、第 2のレベルとして計算し、前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の第 1のレベルおよび第 2のレベルをそれぞれ所定の係数で乗じた値を減算する。

[0048] この構成によれば、計算された第 1のレベルと第 2のレベルとを用いて、帯域エネルギ一が正規化され、計算された音声レベルを用いて、帯域エネルギーからの減算量が決定されるので、より正確な正規化が可能となる。なお、第 1のレベルとは異なる、帯域ごとの条件付き平均値は、 1つには限られず、複数あってもよレ、。

[0049] 好ましくは、上記信号分析装置は、前記帯域エネルギーの値に応じて 1つまたは複数の正規化係数を求める正規化係数取得手段をさらに有し、前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の前記第 1のレベルまたは前記第 1のレベルおよび複数のレベルに前記正規化係数を乗じた値を減算する。

[0050] この構成によると、 1つまたは複数の帯域ごとの条件付平均値に対応する、帯域ェネルギ一の値に応じた 1つまたは複数の正規化係数が求められる。この結果、 1つまたは複数の条件付平均値を反映して減算量を調整できるので、より正確な正規化が可能となる。

[0051] 本発明の信号処理装置は、信号の正規化を逐次的に行う信号処理装置であって、入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算手段と、前記第 1 のレベルに所定の係数を乗じた値を入力信号から減算する正規化手段と、前記第 1 のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段とを備える。前記レベル計算手段は、前記更新係数を用いて、第 1のレベルを入力信号に近づけることにより、第 1のレベルを入力信号の条件付平均値とする。

[0052] この構成によれば、例えば特定の周波数帯域における入力信号などの、一次元の入力信号についても、正規化して、信号処理を行うことができる。すなわち、入力エネルギ一のエネルギー分布の広がりを入力エネルギーの高低などから検出し、更新係数を求めて、第 1のレベルを入力信号に近づけることにより、入力信号のエネルギー分布が環境により変動することを抑制できる。

[0053] 好ましくは、上記信号処理装置は、前記第 1のレベルと前記入力信号との差に基づいて、正規化係数を取得する正規化係数取得手段を備える。前記正規化手段は、前記第 1のレベルに正規化係数を乗じた値を入力信号から減算し、入力レベルに応じて減算量を制御する。

[0054] また、好ましくは、上記信号処理装置において、前記レベル計算手段は、入力信号に基づいて複数のレベルを更新して記憶する。前記正規化手段は、前記複数のレベルにそれぞれ所定の係数を乗じた値を入力信号から減算する。前記更新係数取得手段は、前記第 1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求める。前記レベル計算手段は、前記複数のレベルの更新係数を用いて、前記求められた複数のレベルを更新して、入力の分布に適した正規化を行う。

[0055] さらに、好ましくは、上記信号処理装置において、前記レベル計算手段は、入力信号に基づいて複数のレベルを更新して記憶する。前記正規化手段は、前記複数のレベルにそれぞれ所定の係数を乗じた値を入力信号から減算する。前記更新係数取得手段は、前記第 1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求める。前記正規化係数取得手段は、複数のレベルに対応した複数の正規化係数を求める。前記正規化手段は、前記複数のレベルのそれぞれに対応した正規化係数を、それぞれのレベルに乗じた値を入力信号力減算し、入力のレべルに応じて適した正規化を行う。

[0056] 上記信号分析装置において、各帯域でのレベル計算手段および正規化手段は、上記信号分析装置を用いる構成としてもよい。すなわち、各帯域での信号処理手段として、本発明の信号処理装置を用レ、ることができる。

[0057] 上記信号分析装置は、低周波に属する帯域と、高周波に属する帯域とでは、所定の係数を異なる値に設定して処理するのが好ましい。この構成によれば、雑音領域と音声領域とのように、周波数により信号のエネルギー分布が異なる場合に、正確に正規化できる。

[0058] 好ましくは、上記の信号分析装置は、各時刻の入力信号から得られた帯域ごとの帯域エネルギーを、対数エネルギーとして処理する。対数で正規化を行うと、回線特性による歪の影響を除去することができる。

[0059] 本発明の音声認識装置は、上記信号分析装置と、信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段と、前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを有する。本発明の信号分析装置を用いると、雑音や回線特性による歪に強い音響パラメータが得られるので、音声認識装置に用いると、音声認識精度を向上させることができる。

[0060] 好ましくは、上記音声認識装置は、 MFCC (Mel Frequency Cepstrum Coef ficients)パラメータの抽出過程において、各帯域エネルギーの正規化を行う。この構成によると、正規化された帯域エネルギーからケプストラムパラメータへ線形変換を行うことにより、正規化されたケプストラム係数を求めることができる。

[0061] この発明の他の局面に従う、コンピュータに実行させるための信号分析プログラムは、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出ステップと、前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化ステップとを備える。

[0062] この発明のさらに他の局面に従う、コンピュータに信号の正規化を逐次的に行わせる信号分析プログラムは、入力信号に基づいて第 1のレベルを更新し、記憶するレべル計算ステップと、前記第 1のレベルに所定の係数を乗じた値を入力信号力減算する正規化ステップと、前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得ステップとを備える。前記レベル計算手段ステップは、前記更新係数を用いて、第 1のレベルを入力信号に近づけることにより、第 1のレベルを入力信号の条件付平均値とする。

[0063] この発明のさらに他の局面に従う、音声認識をコンピュータに実行させるための音声認識プログラムは、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出ステップと、前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化ステップと、帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換ステップと、前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識ステップとを備える。

[0064] この発明のさらに他の局面に従う発明は、コンピュータに実行させるための信号分析プログラムを記録した記録媒体にかかる。前記信号分析プログラムは、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出ステップと、前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化ステップと備える。

[0065] この発明のさらに他の局面に従う発明は、コンピュータに信号の正規化を逐次的に行わせる信号分析プログラムを記録したコンピュータ読み取り可能な記録媒体にかかる。前記信号分析プログラムは、入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算ステップと、前記第 1のレベルに所定の係数を乗じた値を入力信号力減算する正規化ステップと、前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得ステップとを備える。前記レベル計算手段ステップは、前記更新係数を用いて、第 1のレべノレを入力信号に近づけることにより、第 1のレベルを入力信号の条件付平均値とする。 [0066] この発明のさらに他の局面に従う発明は、音声認識をコンピュータに実行させるための音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体に力かる。前記音声認識プログラムは、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出ステップと、前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化ステツプと、帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換ステップと、前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識ステップとを備える。

[0067] この発明のさらに他の局面に従う発明は、音声認識装置を備えた電子機器にかかる。前記音声認識装置は、信号分析装置と、信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段と、前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを備える。前記信号分析装置は、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、前記抽出された帯域ェネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段とを備える。入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて、機能を選択し、実行する。

[0068] 本発明の電子機器は、雑音や回線特性による歪の影響を受けにくい。この結果、家庭で使用する音声認識型のリモコンや、携帯電話などの電子機器として利用するのが好ましい。

[0069] 本発明の信号分析装置は、以下の効果を有する。

[0070] (1)本発明では、全周波数帯域における音声区間を検出せずに、周波数帯域ごとに得られた各時刻の入力信号からの帯域エネルギーを用いて、帯域ごとに別個に、条件付帯域エネルギーのレベルを計算し、各帯域エネルギーを正規化する。すなわち、音声の発声区間であっても、雑音エネルギーが優位な帯域については、雑音区間として処理され、音声のエネルギーが優位な帯域のみが音声区間として処理される。この結果、入力信号の回線特性をより正確に正規化できる。

[0071] 本発明の信号分析装置においても、音声と雑音とが混在する場合には、帯域ごとの音声と雑音との判断を誤る場合はある。しかし、帯域ごとに別個に、音声と雑音とを区別するので、帯域全体で、音声と雑音とを区別する場合に比べて、その影響を低減できる。すなわち、本発明の構成によれば、音声区間と雑音区間との区間検出誤りを低減できる。

[0072] (2)本発明の信号分析装置では、帯域ごとに帯域エネルギーの正規化を行う際に、対数スペクトル領域で、正規化処理を行う。対数スペクトル領域で正規化処理を行うと、対数スペクトルの線形変換 (コサイン変換)であるケプストラム係数で補正を行う CMN法と同様の効果が得られる。この結果、マイクロホンなどの影響による回線特性の歪を正規化することができる。すなわち、音声認識時の雑音スペクトルが、学習時の雑音スペクトルと異なっていても、認識精度が大幅に劣化することを防止できる。なお、 SS法のように、振幅レベルで減算を行うこともできる力回線特性の歪を正規化することができない。

[0073] また、本発明の信号分析装置では、帯域ごとに雑音レベルと音声レベルとを別個に求めて、帯域ごとの雑音レベルまたは帯域ごとの音声レベルを正規化するので、 E— CMN法と同様の効果が得られる。

[0074] (3)本発明の信号分析装置では、抽出された帯域エネルギーの系列から、音声と雑音との判断を行う。すなわち、発声区間であっても、一部の帯域は、雑音として判断される。このため、スペクトル形状の異なる音素からなる発声であれば、音声発声区間内に、ほぼ全周波数帯域の雑音レベルの推定が完了する。すなわち、本発明の信号分析装置では、雑音区間が存在しなくても、雑音レベルの推定が可能となる。

[0075] 本発明の信号分析装置は、特に、電池駆動を前提とした携帯型機器に用いることが望ましい。電池駆動をする携帯型機器では、電池の消費量を抑えるために、発声のときだけ、入力信号が分析される。すなわち、雑音区間が存在しない使用態様であつても、等価的に雑音スペクトルが推定できるので、回線特性の歪のみならず、雑音などの歪も正規化することができる。

図面の簡単な説明 [0076] [図 1]MFCCを求めるための手順を示すフローチャートである。

[図 2]従来の MFCC分析を行う信号分析装置の構成を示すブロック図である。

[図 3]MFCC法を用いた従来の E— CMN法による分析を行う信号分析装置の構成を示すブロック図である。

[図 4]本発明の信号分析装置の構成を示す図である。

[図 5]本発明にかかる信号分析処理の流れを示すフローチャートである。

[図 6]本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数、正規化帯域エネルギーとの対応関係を示す図である。

[図 7]正規化手段として低域遮断フィルタを用いた本発明の信号分析手段の構成を示す図である。

[図 8]音声波形を含む音響信号の例を示す図である。

[図 9]図 8に示した音声波形を含む音響信号のスペクトログラムを簡略化した図である

[図 10]図 9に示したスぺクトルを従来の E— CMN法を用レ、て正規化する場合の正規化処理を行う範囲を示す図である。

[図 11]図 9に示したスぺ外ルを、本発明の信号分析装置を用いて正規化する場合の正規化処理を行う範囲を示す図である。

[図 12]図 8に示す音声波形を含む音響信号が入力された場合に、 E-CMN法による雑音スペクトルの適応が進行する様子を示す図である。

[図 13]図 8に示す音声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音スペクトルの適応が進行する様子を示す図である。

[図 14]本発明の音声認識装置を用いた音声認識システムの例を示すブロック図である。

[図 15]本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成を示す図である。

発明を実施するための最良の形態

[0077] 以下に、本発明を実施するための最良の形態を、図面を参照しながら説明する。本発明を実施するための最良の形態を、 MFCC法と、 E— CMN法と、比較しながら説明する。なお、本発明は、これらによって限定されるものではない。

[0078] [MFCC法の構成]

[0079] 図 2は、従来の MFCC分析を行う信号分析装置の構成を示すブロック図である。図中、参照符合 101は周波数分析手段を、参照符合 102はパラメータ変換手段を示す。周波数分析手段 101は、図 1の周波数分析ステップ (ステップ S201)の処理を行い、パラメータ変換手段 102は、図 1のパラメータ変換ステップ (ステップ S202)の処理を行う。

[0080] [E—CMN法の構成]

[0081] 図 3は、 MFCC法を用いた従来の E— CMN法による分析を行う信号分析装置の構成を示すブロック図である。この図では、図 3の MFCC分析を行う信号分析装置の構成に、さらに入力信号から音声区間を検出する音声区間検出手段 203と、平均更新手段 201と、減算処理手段 202とが追加された構成となっている。入力された音声を、周波数分析手段 101とパラメータ計算手段 102とで処理することにより、 MFCC力 S 求められる。同時に、入力された音声は音声区間検出手段 203で処理され、音声区間が検出される。平均更新手段は、ノメータ計算手段 102から得られた平均ケプストラムを、音声区間検出手段 203で得られた音声区間情報を用いて、更新する。具体的には、音声区間であれば、音声の平均ケプストラムを更新し、非音声区間であれば、雑音の平均ケプストラムを更新する。減算処理手段 202は、音声区間検出手段 203で得られた音声区間情報を用いて、音声区間であればパラメータ計算手段 1 02から出力された現在のケプストラムから、音声の平均ケプストラムを減算し、非音声区間であれば、ノメータ計算手段 102から出力された現在のケプストラムから、雑音の平均ケプストラムを減算する。

[0082] 音声区間検出方法としては、フレームごとの短時間信号パワーや、フレームごとのスペクトルの概形を用いて、音声区間を検出することが一般に行われている。これらの方法には、携帯電話などの音声通話に用いられる標準的な方法が用いられている

[0083] [本発明の構成]

[0084] 図 4は、本発明の信号分析装置の構成を示す図である。本発明では、図 4の MFC C分析に用いる信号分析装置の周波数分析手段 101とパラメータ計算手段 102との間に、帯域ごとに、更新係数取得手段 301とレベル計算手段 302と正規化手段 303 と正規化係数取得手段 304とが設けられている。また、本発明の周波数帯域分析手段 101は、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段 3 05と、この各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段 306とから構成される。

[0085] 更新係数取得手段 301は、信号が入力される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段 101で求めた現在の帯域ごとの帯域ェネルギ一とを比較し、レベル計算手段 302でレベルの更新に用いられる更新係数を得る

[0086] レベル計算手段 302は、前記更新係数取得手段 301で得られた更新係数を用いて、入力エネルギーと、雑音レベルや音声レベルとの差をもとに、雑音レベルや音声レベルを更新し、記憶する。具体的な方法は、後述する。

[0087] 正規化係数取得手段 304は、上記更新係数取得手段 301と同様に、信号が入力される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段 10 1で求めた現在の帯域ごとの帯域エネルギーとを比較し、正規化手段 303で用いる正規化係数を計算する。

[0088] 正規化手段 303は、前記正規化係数取得手段 304で求めた正規化係数と、前記レベル計算手段 302で求めた音声レベルや雑音レベルを用いて、前記周波数分析手段 101で求めた現在の帯域エネルギーを正規化し、出力する。

[0089] この実施形態では、更新係数取得手段 301と正規化係数取得手段 304とを別の構成にしているが、両者は類似した処理を行うため、更新係数取得手段 301と正規化係数取得手段 304とを同一の構成としてもよい。

[0090] CMS法や E— CMN法の文献における実装では、単語や文章を発声した時の毎回の音声を蓄えて、その音声レベルのレベルを求めて正規化して認識を行う、あるいは 1回前の発声のレベルを用いて正規化をするように記載されている。しかし、発声が終了してから認識処理を行うのは、応答が遅いために現実的ではない。また、携帯型の装置などでは、 1回前の使用環境が、現在の使用環境と同じである保証はない。そこで、本実施の形態では、発声ごとのレベルや、 1回前の発声のレベルではなく、実時間に雑音レベルなどを更新し、この更新された雑音レベルを用いて、実時間で帯域エネルギーを正規化する態様を説明する。なお、本発明の信号分析装置は、発声ごとのレベルや、 1回前の発声のレベルを用いて帯域エネルギーを正規化することとしてもよレ、。

[0091] [動作]

[0092] 図 5は、本発明に力、かる信号分析処理の流れを示すフローチャートである。図 6は、本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数、正規化帯域エネルギーとの対応関係を示す図である。以下に、本発明の信号分析の処理を、図 5と図 6を用いて詳細に説明する。なお、雑音は低いエネルギーであり、音声は高いエネルギーであることを利用して、更新係数や正規化係数を適用する。

[0093] 周波数分析ステップ（ステップ S201)とパラメータ分析ステップ（ステップ S202)とで行う処理は、図 1の処理と同様である。

[0094] 本発明の信号分析装置は、入力信号を 2以上の帯域に分割できれば、原理的には動作する。また、周波数軸としては、メル周波数軸以外にも、パーク周波数軸や線形周波数軸であっても動作する。なお、音声認識を目的として、信号分析を行う場合には、周波数分析における帯域分割数や周波数スケールは、 MFCCに準拠した値でよぐ分割数は 10から 30程度が妥当である。例えば、 11kHzでサンプリングした音声であれば、メル周波数軸上で 24帯域に分割し、 12次元のケプストラムへ変換する構成であれば、有効であることが、実験により確認されている。従来の MFCCの処理における周波数分析ステップと、ノメータ変換ステップの処理を、本発明の信号分析装置に流用することで、処理量が増加することを抑制できる。

[0095] ステップ S203 ステップ S205で行う処理は、帯域ごとに独立して行われる。係数取得ステップ (ステップ S203)は、周波数分析ステップ (ステップ S201)で求められた帯域エネルギーと、入力信号の入力時刻以前に求められた帯域ごとの雑音レベルとの差から、更新係数および正規化係数を求める。次に、帯域ごとに求められた更新係数を元に、前記帯域の雑音レベルを更新する（ステップ S204)。次に、ステップ S2 04で更新された、帯域の雑音レベルと、正規化係数を用いて、その帯域の帯域エネルギーを正規化する（ステップ S205)。正規化された帯域エネルギーを、ケプストラム係数に変換する (ステップ S202)。

[0096] なお、本実施形態では、正規化された帯域エネルギーを、音声認識に一般的に用いられるケプストラム係数に変換した。しかし、必ずしもケプストラム係数に変換する必要はなぐ正規化されたエネルギーをそのまま出力する構成としてもよい。

[0097]

[0098] 次に、図 6を用いて、更新係数を用いて、帯域エネルギーにおける雑音レベルを更新する方法について説明する。図 6(c)は、入力帯域エネルギーと更新係数との関係を示す図である。

[0099] なお、雑音レベルを推定する方法としては、入力エネルギーのヒストグラムを計算して、下方の数⁰ を雑音レベルとして採用する方法もある。しかし、ヒストグラムを計算するためにはある程度長い入力が必要となる。このため、次に説明する、実時間で逐次的に雑音レベルを更新する処理を行うのが好ましい。

[0100] 時亥 Ijtでの雑音レベルを N (t)、入力帯域エネルギーを E (t)、更新係数を a (t)とすると、雑音レベル N(t)の更新は例えば次のように行われる。なお、雑音レベル、入力帯域エネルギーの単位は、デシベル（dB)を基準と考える。

[0101] N(t)= (1-ct (t)) *N(t-l) + a (t) *E(t)…式（1)

[0102] a (t)= 0 (N(t-1)+R < E(t)のとき）

[0103] a (t) = A* (l-(E(t)-N(t-l))/R)

(N(t-l) <E(t)≤ N(t-l) +R のとき）

[0104] ひ (t)= A (E(t)≤ N(t-l) のとき）

[0105] ここで、 Aは、最大の更新係数を示し、 0以上、 1以下の値である。 Aは、例えば 0.0 2程度の値とする。 Rは、雑音と音声のエネルギーの境界範囲を示し、例えば 2dB程度とする。この更新係数は、入力された帯域エネルギーの時系列の中で、特に低いエネルギーが分布してレ、る場合の平均値を求めることができるので、雑音レベルを更新すること力できる。

[0106] 上記式にぉレ、て、 ( a (t) /A)は、雑音らしさを示す指標と考えることができる。

[0107] 雑音レベルの初期値 N(O)を、 N(0) =E(1)とすれば、素早い立ち上がり特性が得られ、良い認識結果が得られることが実験的に確かめられている。

[0108] 上記の式を用いて雑音レベルを更新すれば、雑音の下方への変化に対しては、比較的速く追従し、上方への変化に対しては、徐々に追従速度が遅くなり、 1フレームの間に R(dB)よりも大きな雑音の増加がある場合は、全く追従しなレ、。このような雑音の変化速度への追従は、 Aと Rのパラメータによって制御することができる。 Aを 0.0 2とした場合は、 0.5Hz程度よりも遅い雑音の変化に対しては、上方へも追従するようになる。一般に音声の変化速度は、 1秒間に数個から十数個の音素が入れ替わることから、数 Hzから数十 Hzの成分が多い。一方、背景雑音はそれよりも遅い場合が多レ、。ただし、突発性の雑音により、急激に雑音エネルギーが上昇することがあると、その後追従できなくなる。このため、 a (t)の下限を 0ではなぐ微小な値、例えば 0· 001程度とすることで、数秒の後に追従するように設定することができる。

[0109] これらのパラメータの動作確認には、帯域ごとのエネルギー変化速度を調整した人ェ的なデータを入力することにより、追従速度を確認することができる。

[0110] 時亥 Ijtでの音声レベルを S (t)、入力帯域エネルギーを E (t)、更新係数を γ (t)とすると、音声レベル S (t)の更新は例えば次のように行う。

[0111] S(t) = (1- Ύ ；-l) + y (t) *E(t)--- 式 2

[0112] Ύ (t)= C (N(t-l) +R < E(t)のとき）

[0113] Ύ (t)= C* (E(t)-N(t-1)/R)

[0114] (N(t-l) <E(t)≤ N(t-l) +R のとき） [0115] Ύ (t) = 0 (E (t)≤ N (t-l ) のとき）

[0116] ここで、 Cは、最大の更新係数を示し、 1以下の値である。 Cは、上記 Aと同様に、例えば 0. 02程度の値とする。 Rは、雑音と音声のエネルギーの境界範囲を示し、上記雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。この更新係数は、入力された帯域エネルギーの時系列の中で、特に高いエネルギーが分布してレ、る場合の平均値を求めることができるので、音声レベルを更新することができる。

[0117] 初期値 S (0)には、前回の発声における最後の S (t)を用いることが好ましい。最後の S (t)が得られない場合には、 S (0) =0を用いることで、よい結果が得られることが、実験的に確認されている。ここで、（γ (t) ZC)は、音声らしさを示す指標と考えることができる。

[0118] 音声レベルに関しては、更新を行わず、固定的な値を用いることもできる。この場合には、多量の音声データから平均的な音声レベルを計算して用いることが効果的でめる。

[0119] 雑音レベルと音声レベルとを更新するためには、入力信号の時系列から雑音区間か音声区間かを判断することが必要である。式 1および式 2では、両区間の検出は 2 値的に求めるのではなぐ中間的な値をとることができる（図 6 (c) )。雑音区間と音声区間との判断は、周波数帯域ごとに行われる。このため、各帯域で判断された雑音区間と音声区間は、他の帯域で判断された雑音区間と音声区間とは異なる。さらに、各帯域で判断された雑音区間と音声区間とは、実際の話者の発声区間とも異なる。

[0120] 更新係数は、全ての周波数帯域で共通である必要はない。帯域ごとに異なる更新係数を予め保持しておくことにより、帯域ごとに最適な更新係数を適応することができる。

例えば、低周波数帯域での雑音が比較的ゆっくりと変動する場合には、低周波数帯域の更新係数の最大値 Aを小さくすることで、音声入力に対して誤って追従して更新される危険性が少なくなる。

[0121] [雑音レベル、音声レベルの簡略取得例]

[0122] 雑音レベルを求める方法として、入力時刻まで入力エネルギーの最小値を雑音レベルとすることもできる。これは、上記式（1)において、エネルギーの境界範囲を OdB とし、最大の更新係数を 1とした場合と考えることができる。また、音声レベルについても、入力時刻まで入力エネルギーの最大値を音声レベルとすることもできる。これは、雑音は低いエネルギーで、音声は高いエネルギーであることを利用したものである。

[0123] 雑音レベル、音声レベルを求める方法としては、この例に限られるものではなぐェネルギー分布の範囲内で、低い値と高い値とを求めることができる方法であれば、雑音レベル、音声レベルを求めることができる。

[0124] [正規化基準]

[0125] 次に、図 6を用いて、正規化係数を用いて、帯域エネルギーを正規化する方法について説明する。図 6(b)は、入力帯域エネルギーと正規化係数との関係を示す図である。

[0126] 時亥での雑音レベルを N (t)、入力帯域エネルギーを E (t)、正規化係数を β (t)とすると、正規化帯域エネルギー E' (t)は例えば次の式により求められる。なお、雑音レベル、エネルギーの単位は、デシベル（dB)とする。

[0127] E，（t)= E(t)-i3 (t) ^Ν(ΐ)··· 式 3

[0128] β (t) = 0 (N(t-l) +R < E(t)のとき）

[0129] β (t) = B* (l_(E(t)_N(t_l))/R)

[0130] (N(t-l) <E(t)≤ N(t-l) +R のとき）

[0131] β (t) = B (E(t) ≤ N(t_l)のとき）

[0132] ここで、 Bは、最大の減算量を示し、 1以下の値である。 Bは、例えば 0.5程度の値とする。 Rは、雑音と音声のエネルギーの境界範囲を示し、例えば 2dB程度とする。 R は、上記更新係数での境界領域と同じ値としてもよいし、異なる値としてもよい。

[0133] 次に、雑音レベルに加え、音声レベル S(t)を用いて、帯域エネルギーを正規化する方法を説明する。音声レベルを用いた帯域エネルギーの正規化は、例えば、下式により計算できる。

[0134] E，（t)= E(t)-j3 (t) *N(t)-5 (t) *S(t)--- 式 4 [0135] δ (t) = D (N(t-l) +R < E(t)のとき）

[0136] δ (t) = D* (E(t)-N(t-1))/R [0137] (N(t-l) <E(t)≤ N(t-l) +R のとき）

[0138] δ (t) = 0 (E(t) ≤ N(t_l)のとき）

[0139] ここで、 Dは、最大の減算量を示し、 1以下の値である。 Dは、上記 Bと同様に、例えば 0.5程度の値とする。 Rは、雑音と音声のエネルギーの境界範囲を示し、上記雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。

[0140] この例では、入力エネルギー E(t)と雑音レベル N(t)との差を用いて、音声レベルの正規化係数を求めた。この方法を用いると、話者や回線の特性による認識精度の低下を低減できる。なお、入力エネルギー E(t)と音声レベル S(t)との差を用いて、音声レベルの正規化係数を求めることもできる。

[0141] この例では、帯域エネルギーを正規化するために、音声レベルや雑音レベルに所定の計算で求めた係数を掛けて入力帯域エネルギー力減算する方法を示した。しかし、正規化を行うためには、この方法に限られず、例えば、入力エネルギーを音声レベルで割るなどの除法による方法でも、正規化の効果が得られる場合がある。入力のダイナミックレンジや環境変化の大きさに応じて、適宜正規化方法を変える構成としてもよい。

[0142] 図 6 (a)は、式 3と式 4とを用いて正規化された正規化帯域エネルギーと、入力された帯域エネルギーとの関係を示す図である。雑音レベルと音声レベルとを両方用いる場合を、 Ε ' =Ε—β * Ν— δ * S のグラフに示す。 D = 0とした場合、すなわち雑音のエネルギーだけを用いる場合を、 Ε ' =Ε—β * Ν のグラフに示す。各帯域の雑音レベルと音声レベルの大きさに応じて、適宜適用する正規化係数を変えて、帯域エネルギーを正規化することができる。この他にも、使用する環境が、非常に雑音の安定した場所である場合などには、雑音の適用は必要なくなるので、 Β = 0とすることで、音声レベルのみを使用することができる。

[0143] [低域遮断フィルタを用いる場合]

[0144] 雑音と音声との境界領域の幅 R (dB)を非常に大きな値とした場合には、ほぼ全区間で雑音レベルを一定の更新係数 Aで更新し、ほぼ全区間の入力帯域エネルギーに対して一定の正規化係数 Bで減算することになる。これを簡単に実現するには、図 7に示すように、各帯域に低域遮断フィルタを設ける構成とすればよい。図 7は、正規化手段として低域遮断フィルタ 307を用いた本発明の信号分析手段の構成を示す図である。すなわち、入力信号を周波数分析した後、各帯域のエネルギーについて低域遮断を行い、その後、音声パラメータへと変換することにより、ある程度の正規化の効果が得られる。この場合の低域遮断フィルタは、音声によるスペクトルの変化速度である 1Hzから 10Hz程度よりも低い周波数、すなわち 1Hz以下の周波数を遮断するものが好ましい。

[0145] この構成の実現の例として、 tをフレーム、低域遮断フィルタへの入力を x (t)、出力

[0146] y (t) =x (t) -z (t)

[0147] z (t) =x (t) *0. 02 + z (t) *0. 98 のような処理を行うと、フレーム周期力 S l Omsであれば'、 0. 5Hzで、 _l dB、 0. 24Hz で、約 _3dB、 0Hzで、 -5. 7dBの減衰特性となる。なお、この構成の実現の例は上記式に従うものに限られない。

[0148] また、周波数帯域の低域と高域とで、雑音の変化速度が異なるような環境では、帯域ごとに異なる特性の低域遮断フィルタで構成することにより、より使用環境に適した性能改善を図ることができる。

[0149] [スペクトルからみた本実施の形態の動作]

[0150] 次に、本発明の実施の形態を、図に基づいてスペクトルの視点で説明する。

[0151] 図 8は、音声波形を含む音響信号の例を示す図である。図中、横軸は時間を、縦軸は振幅を示す。この図では、時間 tl力 t2の区間が発声区間を表し、表示されてレ、る時間の全体に騒音が含まれていることを示している。

[0152] 図 9は、図 8に示した音声波形を含む音響信号のスペクトログラムを簡略化した図である。図中、横軸は時間を、縦軸は周波数を示す。時間 tlから t2の区間が発声区間を表す。実際の音声スペクトルは連続値である力この図の例では、簡単のため、他の部分より相対的にエネルギーが高い領域を閉曲線で閉じ、網掛けで示している。

[0153] 図 10は、図 9に示したスぺクトノレを従来の E— CMN法を用いて正規化する場合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切りは分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは周波数帯域を示す。他の部分より相対的にエネルギーが高い領域を閉曲線で閉じている。また、網掛けされている部分は音声区間としての適用範囲であり、それ以外の部分は雑音区間としての適用範囲である。

[0154] E— CMN法を用いる場合、ケプストラム係数を正規化するに際して、周波数帯域を選択して正規化することはできない。このため、音声区間と判断された時間 tlから t2 の区間では、音声のケプストラム係数が更新され、それ以外の区間では、雑音のケプストラム係数が更新される。更新されたケプストラム係数を用いて、それぞれの区間のケプストラムが正規化される。このため、音声区間に雑音が含まれている場合には、誤ってケプストラム係数が更新されることになる。

[0155] 図 11は、図 9に示したスペクトルを、本発明の信号分析装置を用いて正規化する場合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切りは分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは周波数帯域を示す。また、網掛けされている部分は、音声区間としての適用範囲であり、それ以外の部分は雑音区間としての適用範囲である。

[0156] 本発明の場合、帯域ごとに音声区間と雑音区間とを判断する。この結果、音声の発声区間（tl一 t2)に関係なぐ周囲の雑音より高いエネルギーを持つ帯域とフレーム（図の網掛け部分)では、その帯域の音声レベルが更新され、この更新された音声レベルを用いて帯域エネルギーが正規化される。それ以外の部分では、音声の発声区間（tl一 t2)であっても、エネルギーが低ぐ雑音区間と判断されるので、その帯域の雑音レベルが更新され、この更新された雑音レベルを用いて帯域エネルギーが正規化される。

[0157] すなわち、本発明によれば、音声区間判断の際に、従来のように明らかな非音声区間が存在しなくてもよい。複数の種類の音素が含まれる音声であれば、音声区間に含まれる全ての帯域にぉレ、て、雑音レベルを更新できる。

[0158] なお、図 11では、簡単のため、図中に網掛け部分を設けて、音声区間と雑音区間とは、明確な境界が存在するように図示した。しかし、式 1一式 4からわかるように、音声区間と雑音区間とは、明確な境界が存在しない。実際は、帯域エネルギーの雑音レベル N (t)から N (t) +Rの範囲で、徐々に切り替わるように処理を行う。 R = 0の場合にのみ、図 11のような明確な境界が形成される。

[0159] [雑音区間のない入力の例]

[0160] 図 12は、図 8に示す音声波形を含む音響信号が入力された場合に、 E— CMN法による雑音スペクトルの適応が進行する様子を示す図である。図 13は、図 8に示す音声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音スベクトルの適応が進行する様子を示す図である。図中、網掛け部分は、雑音が正しく推定された帯域とフレームとを示す。

[0161] ここでは、特に雑音区間がない入力の例として、発声開始時刻と同じ時刻 tlから装置への入力が開始した場合を示す。電池駆動の携帯型装置では、音声入力が、ボタンなどの指示で開始する。このような場合に、雑音区間がない入力が行われると考えられる。

[0162] 無響室などの特殊な場合を除き、入力雑音のレベルが事前にわからない実環境用のシステムにおいて、雑音区間が存在しない入力音声に対しての音声切り出しは不可能である。この場合に、最初の入力フレームを、音声と解釈するか、雑音と解釈するかは、システムの設計による。 [0163] 最初の入力フレームを雑音と解釈するシステムの場合に、 E— CMN法を適用すると、図 12の時刻 tlから t2までの発声区間は、全て雑音区間として認識される。このため、誤った雑音スペクトルが推定される。これにより、第 1発声は、雑音として平坦化されるため、認識することができなくなる。そして、音声の入力が終わる t2以後に、本来の雑音レベルの推定がされる。

[0164] 一方、最初の入力フレームを音声と解釈するシステムの場合であっても、 E-CMN 法を適用すると、図 12の時刻 tl力も t2までの発声区間、雑音スペクトルが推定できない。このため、 t2付近の語尾の認識精度に問題を生ずる。

[0165] 最初の入力フレームを雑音と解釈するシステムの場合に、本発明の信号分析装置を用いると、音声の優位な帯域では、雑音スペクトルの推定誤りを生ずる。しかし、スぺクトル形状が変化し、帯域の音声パワーが雑音パワー以下になった時点で、その帯域の雑音パワーが推定される。図 13の例では、発声が終了する時刻 t2よりも早い時刻 t3で、雑音パワーの推定が終了する。したがって、時刻 t3から t2の間では、正しく雑音スぺ外ルを正規化できる。すなわち、本発明の信号分析装置を用いると、 E- CMN法を用いる場合よりも、早く正しい正規化が可能となる。また、雑音の推定が完了した帯域では、完了時刻以降に、その帯域のパワーが上昇すると、音声パワーが推定されるので、発声の途中から、精度の良い音声認識が可能となる。

[0166] このように、本発明の信号分析装置を用いると、ボタンなどによって音声入力開始を指示する装置であっても、最初の発声から高精度の音声認識を行うことができる。

[0167] 以上説明したように、本発明の信号分析装置では、音声発声中にも雑音スぺクトノレの推定ができる。この結果、発音中に、徐々に雑音スペクトルが変化するような場合でも、その変化がゆっくりと進むものであれば、雑音の変化に適応して、正規化を行うこと力 Sできる。したがって、本発明の信号分析装置を音声認識装置に適用すれば、より安定した音声認識ができる音声認識装置が得られる。

[0168] [音声認識装置とその認識方法]

[0169] 図 14は、本発明の音声認識装置を用いた音声認識システムの例を示すブロック図である。音声認識システムは、一般に音響モデル学習装置 401と音声認識装置 402 とを有して構成される。 [0170] 音声データベース 403は、音響モデルを学習するためのものである。主として、パ一ソナルコンピュータや、ワークステーションの固定ディスクなどに格納されている。参照符合 404は、本発明の信号分析装置を用いた信号分析手段である。実際は、図 6に示す構成のものや、図 6で示す構成に、さらに音響パラメータの時間的な変化量を求める部分を追加した構成で、使用される。参照符合 405は、音響モデル学習手段であり、音声データベースの発声内容を記録した言語データベース 406と、前記信号分析手段 404の出力から、統計的に各音素あるいは各音節といった音声単位毎に統計を求める。モデルは一般に隠れマルコフモデルを用いる場合が一般的である。

[0171] 参照符合 407は、音響モデル学習手段 405で求めた音響モデルを示す。参照符合 408は別途作成した言語辞書である。言語辞書 408は、単語を音素列で表した単語辞書や、単語間の接続制限を規定した文法データを含む。言語辞書 408の作成は、手作業で行ってもよぐ言語データベース 406に含まれる文章から単語間の接続確率を統計で求めてもょレ、。

[0172] 参照符合 409は、信号分析装置 404と同様の信号分析を行う信号分析手段である。参照符合 410は、尤度演算手段を示し、前記音響モデル 407の各統計量と、信号分析手段 409で求めた音響パラメータから、各時刻の入力信号に対する各音声単位の尤度を求める。参照符合 411は照合手段であり、求められた各音声単位の尤度の時系列から尤もらしい言語的な仮説の尤度を計算し、尤度の高い順に候補を出力する。音声認識方法としては、尤度演算や照合手段を明確に分離しない実装もあり得る。

[0173] [プログラム、電子機器]

[0174] 音声認識は、一般に、汎用あるいは信号処理用の CPUを用いて、デジタル処理で、実行される。図 15は、本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成を示す図である。

[0175] 参照符合 501は、パーソナルコンピュータを始めデジタル機器におけるデータゃァドレスのバスを示す。各処理手段は、このバスに接続されており、各々の処理を行う。参照符合 502は、ボタンやキーボード、マイクなどの複数の入力手段を示す。音声入力は、マイクから入力される場合に限られず、別の機器で電気信号に変換されたものを、通信回線を介して入力する場合もある。参照符合 503は、入力手段 502からの指示に従い、機器を制御し、また入力された音声を音声認識する CPUを示す。参照符合 504は、 CPUが処理するための作業用のメモリ、および、音声認識プログラムを含むプログラムメモリである。参照符合 505は、ディスプレイやブザー、スピーカ、ランプなどの出力装置である。音声を認識した結果は、候補として表示される場合もあるし、認識結果を受けて何らかの処理が行われる場合もあり、さらには処理された結果を表示する場合もある。この電子機器が携帯電話の場合は、これらの処理ブロックに、図示しない無線通信手段が追加される。パーソナルコンピュータや携帯型情報機器などでは、通信手段や外部記憶装置などが追加される。

[0176] 音声認識装置により認識した結果に基づレ、て、機能を選択し、実行する例としては、例えばテレビのチャンネルを切り替える操作、ビデオ装置の再生や停止などの操作、エアコンの温度設定などが挙げられる。また、情報端末の場合であれば、通信の制御、プログラムの実行制御、文字の入力などが挙げられる。

[0177] 信号分析プログラムあるいは音声認識プログラムを含むこれらの装置の制御プログラムは、プログラム記録媒体に記録された情報処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、 RAM (ランダム'アクセス'メモリ）とは別体に設けられた ROM (リード 'オンリー'メモリ）でなるプログラムメディアである。または、外部補助記録装置に装着されて読み出されるプログラムメディアが好ましレ、。尚、何れの場合においても、上記プログラムメディアから情報処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有してレ、てもよレ、し、上記 RAMに設けられたプログラム記憶エリア（図示せず）にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有してレ、てもよレ、。尚、上記プログラムメディアから RAMの上記プログラム記録エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。

[0178] ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク、ハードデイクス等の磁気 CD (コンパクトディスク）一 ROM、 MO (光磁気）ディスク、 MD (ミニディスク)、 DVD ( デジタル多用途ディスク）等の光ディスクのディスク系、 IC (集積回路)カードや光力ード等のカード系、マスク ROM、 EPROM (紫外線消去型 ROM)、 EEPROM (電気的消去型 ROM)、フラッシュ ROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。

[0179] また、上記実施の形態における音声認識装置あるいは電子機器は、モデムを備えてインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットヮークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されてレ、るものとする。あるいは、別の記録媒体からインストールされるものとする。

[0180] 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

産業上の利用可能性

[0181] 本発明を利用した電子機器は、雑音や回線特性による歪の影響を受けにくい。この結果、家庭で使用する音声認識型のリモコンや、携帯電話などの電子機器として利用される。

Claims

請求の範囲

[1] 入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段と、

前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、

前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェネルギーを求める正規化手段とを有する信号分析装置。

[2] 請求項 1に記載の信号分析装置であって、

前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されてレ、る。

[3] 請求項 1に記載の信号分析装置であって、

前記抽出された帯域エネルギーの系列から、帯域ごとの条件付平均値を、第 1のレベルとして計算するレベル計算手段を有し、

前記正規化手段は、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の第 1のレベルを所定の係数で乗じた値を減算する。

[4] 請求項 3に記載の信号分析装置であって、

前記レベル計算手段は、前記第 1のレベルの計算に加え、前記抽出された帯域ェネルギ一の系列から、第 1のレベルとは異なる、帯域ごとの条件付き平均値の少なくとも 1つを、第 2のレベルとして計算し、

前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の第 1のレベルおよび第 2のレベルをそれぞれ所定の係数で乗じた値を減算する。

[5] 請求項 3に記載の信号分析装置であって、

前記帯域エネルギーの値に応じて 1つまたは複数の正規化係数を求める正規化係数取得手段をさらに有し、

前記正規化手段は、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の前記第 1のレベルまたは前記第 1のレベルおよび複数のレベルに前記正規化係数を乗じた値を減算する。

[6] 請求項 4に記載の信号分析装置であって、

前記第 1のレベルが、音声を含まない背景雑音の、帯域ごとの条件付き平均値であり、

前記第 2のレベルが、音声の、帯域ごとの条件付き平均値である。

[7] 信号の正規化を逐次的に行う信号処理装置であって、

入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算手段と、前記第 1のレベルに所定の係数を乗じた値を入力信号力減算する正規化手段と前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段とを備え、

前記レベル計算手段は、前記更新係数を用いて、第 1のレベルを入力信号に近づけることにより、第 1のレベルを入力信号の条件付平均値とする。

[8] 請求項 7に記載の信号処理装置であって、

前記第 1のレベルと前記入力信号との差に基づいて、正規化係数を取得する正規化係数取得手段を備え、

前記正規化手段は、前記第 1のレベルに正規化係数を乗じた値を入力信号力減算し、入力レベルに応じて減算量を制御する。

[9] 請求項 7に記載の信号処理装置であって、

前記レベル計算手段は、入力信号に基づレ、て複数のレベルを更新して記憶し、前記正規化手段は、前記複数のレベルにそれぞれ所定の係数を乗じた値を入力信号から減算し、

前記更新係数取得手段は、前記第 1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、

前記レベル計算手段は、前記複数のレベルの更新係数を用いて、前記求められた複数のレベルを更新して、入力の分布に適した正規化を行う。

[10] 請求項 8に記載の信号処理装置であって、

前記レベル計算手段は、入力信号に基づいて複数のレベルを更新して記憶し、前記正規化手段は、前記複数のレベルにそれぞれ所定の係数を乗じた値を入力信号から減算し、

前記正規化係数取得手段は、複数のレベルに対応した複数の正規化係数を求め前記正規化手段は、前記複数のレベルのそれぞれに対応した正規化係数をそれぞれのレベルに乗じた値を入力信号から減算し、入力のレベルに応じて適した正規化を行う。

[11] 請求項 3に記載の信号分析装置であって、

各帯域でのレベル計算手段および正規化手段は、信号の正規化を逐次的に行う信号処理装置を含み、

前記信号処理装置は、入力信号に基づいて第 1のレベルを更新し、記憶する手段と、

前記第 1のレベルに所定の係数を乗じた値を入力信号力減算する手段と、前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段とを備え、

前記レベル計算手段は、前記更新係数を用いて、前記第 1のレベルを入力信号に近づけることにより前記第 1のレベルを入力信号の条件付平均値とする。

[12] 請求項 11に記載の信号分析装置であって、

低周波に属する帯域と、高周波に属する帯域とでは、前記所定の係数を異なる値とする。

[13] 請求項 1に記載の信号分析装置であって、

各時刻の入力信号力得られた帯域ごとの帯域エネルギーを、対数エネルギーとして処理する。

[14] 請求項 1に記載の信号分析装置と、

信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段を有し、

前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを、有する音声認識装置。

[15] 請求項 14に記載の音声認識装置であって、 MFCC (Mel Frequency Cepstrum Coefficients)パラメータの抽出過程において、各帯域エネルギーの正規化を行う。

[16] 入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出ステップと、

前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェネルギーを求める正規化ステップと、を備えたコンピュータに実行させるための信号分析プログラム。

[17] コンピュータに信号の正規化を逐次的に行わせる信号分析プログラムであって、入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算ステップと、前記第 1のレベルに所定の係数を乗じた値を入力信号から減算する正規化ステツプと、

前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得ステップとを備え、

前記レベル計算手段ステップは、前記更新係数を用いて、第 1のレベルを入力信号に近づけることにより、第 1のレベルを入力信号の条件付平均値とする。

[18] 入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出ステップと、

前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェネルギーを求める正規化ステップと、

帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換ステップと、

前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識ステップとを備えた、音声認識をコンピュータに実行させるための音声認識プログラム。

[19] コンピュータに実行させるための信号分析プログラムを記録した記録媒体であって、前記信号分析プログラムは、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割. 前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出ステップと、

前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェネルギーを求める正規化ステップと備える。

[20] コンピュータに信号の正規化を逐次的に行わせる信号分析プログラムを記録したコンピュータ読み取り可能な記録媒体であって、

前記信号分析プログラムは、

入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算ステップと、前記第 1のレベルに所定の係数を乗じた値を入力信号から減算する正規化ステツプと、

[21] 音声認識をコンピュータに実行させるための音声認識プログラムを記録したコンビュータ読み取り可能な記録媒体であって、

前記音声認識プログラムは、

入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出ステップと、

前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識ステップとを備える。

[22] 音声認識装置を備えた電子機器であって、前記音声認識装置は、

信号分析装置と、

前記信号分析装置から得られた、帯域ごとに正規化された帯域エネルギーから、音響パラメータを求めるパラメータ変換手段と、

前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを備え、

前記信号分析装置は、

入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、

前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェネルギーを求める正規化手段とを備え、入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて、機能を選択し、実行する。