WO2007141923A1

WO2007141923A1 - ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム

Info

Publication number: WO2007141923A1
Application number: PCT/JP2007/050491
Authority: WO
Inventors: Takayuki Arakawa; Masanori Tsujikawa
Original assignee: Nec Corporation
Priority date: 2006-06-02
Filing date: 2007-01-16
Publication date: 2007-12-13
Also published as: US20090259461A1; US8401844B2; CN101460996B; CN101460996A; JPWO2007141923A1; JP5262713B2

Abstract

　複数の音素毎又は音声をクラスターに分割した単位毎に、音圧と特徴量の組によって構成される音声モデルを音声モデル格納部３に格納しておく。入力信号が与えられたとき、特徴量変換部２で特徴量及び音圧を算出し、音圧比較部４で入力信号と音声モデルそれぞれとの音圧の比を求め、距離算出部５で入力信号と音声モデルそれぞれとの特徴量の距離を算出し、ゲイン算出部６で音圧の比と距離との情報とからゲインの値を算出し、音圧補正部７で入力信号の音圧を補正する。

Description

明細書

ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム技術分野

[0001] 本発明は、入力信号の音圧に依存せず出力信号の音圧を一定にするゲイン制御システム、ゲイン制御方法、ゲイン制御プログラム、及びこのゲイン制御方法を用いた音声認識システム、音声認識方法、音声認識プログラムに関する。

背景技術

[0002] 本明細書で用いる用語にっ、て定義しておく。

[0003] 「音圧」とは、その音声があるときの気圧の上昇分とする。単位は [N/m2]。この量は、音声の持つエネルギーの平方根、音声波形の振幅値に比例する。

[0004] 「音圧レベル」とは、対象とする音声の音圧と基準音圧との比の対数値とする。単位は [dB]。具体的には、次式（1)のように定義される。

[0005] 音圧レベル =20 loglO (対象とする音声の音圧 Z基準音圧） · · ' (1)

[0006] 「ゲイン」とは、出力信号の音圧と入力信号の音圧との比とする。具体的には次式（ 2)のように定義される。

[0007] ゲイン =出力信号の音圧 Ζ入力信号の音圧 · · ·(¾

[0008] 通常の音声通信用又は音声録音用に用いられるゲイン制御装置の目的は、入力信号を人が聞きやすい音圧に変形して出力することにある。

[0009] これに対して、音声認識用に用いられるゲイン制御装置の目的は、入力信号の音圧と予め学習によって用意された音声モデルの音圧とを一致させる、ことにある。

[0010] 音声モデルとは、非特許文献 1に記載されているように、音声スペクトルを特徴量に変換し、その出現確率を HMM (Hidden Markov Model)や GMM (Gaussian Mixture Model)のような確率モデルで表したものである。

[0011] 図 9は、特許文献 1に記載の、音声通信用又は音声録音用に用いられる、ゲイン制御装置の構成を示す図である。図 9のゲイン補正装置では、音声信号が入力される入力信号取得部 1と、予め設定された互いに異なった周波数帯域の信号のみ通過させる複数の帯域分割フィルタ手段 11と、帯域分割フィルタ手段 11それぞれの出力する信号を絶対値変換する絶対値変換手段 12と、帯域分割フィルタ手段 11で分割された周波数帯域毎に重み付けするデータを格納しておく重み付けデータ格納手段 1 3と、絶対値変換された値に重み付けデータを乗算する乗算部 14と、重み付けした値を加算する加算部 15と、加算された値を補正するゲイン補正手段 16と、補正された値と比較されるスレッシュルドレベルデータを格納しておくスレッシュルドレベル格納手段 17と、補正された値とスレッシュルドレベルデータを比較する比較手段 18と、比較手段 18の比較結果によりゲイン値を発生するゲイン発生手段 19と、ゲイン値の変動量を緩やかにする放絡線発生手段 20と、放絡線発生手段 20が出力するゲイン値を入力信号に乗算し音圧レベルを補正する音圧補正部 7と、を備えている。このような構成とすることにより、入力信号が音声である可能性の高い周波数帯域毎に重み付けができ、重み付けされた信号に基づ、てゲイン制御が行われる。

[0012] し力しながら、図 9の構成では、図 10に示すように、音素毎の音圧の違いを考慮せず常に一定の音圧の出力とするために、不自然な音声が出力される可能性がある。

[0013] 例えば、母音と子音であれば、母音の方が一般的に大きな音圧、子音の方が小さな音圧と考えられるが、図 9の構成では、この差を考慮せず、一定の音圧の出力としてしまう為に、過度に子音が強調された音声となる。

[0014] このことは、ゲイン制御装置を、音圧の情報を必要とする音声認識装置と組み合わせて使用する場合に、大きな問題となり、認識性能の劣化につながる。

[0015] さらに、雑音の周波数帯域が目的とする音声の周波数帯域と重なるような場合には、雑音を強調してしまうという問題もある。

[0016] 次に、音声認識用に用いられるゲイン制御装置について説明する。通常の音声認識では、音圧の変動に頑健な認識とするために、音圧に依存するケプストラムの 0次成分やパワー特徴量などを使わずに認識を行う。

[0017] し力し、雑音下での有効な音声認識手法として知られる、 PMC (Parallel Model Co mbination)法などのように、音声モデルを雑音に適応させる手法では、音圧に依存するケプストラムの 0次の情報が必要となるため、ゲイン制御法が必要となる（非特許文献 2)。

[0018] 図 11に、クリーン音響モデル (クリーン音声モデル）と雑音モデル力雑音適応モデルを合成する手法の一例である PMC法を例示する。

[0019] 予めクリーンな音声をケプストラムの形で学習した音声モデルに対し、逆コサイン変換、指数変換を施すことで、スペクトルの形に変形し、クリーン音声スペクトルを得る。

[0020] 発声前の無音区間などで学習した雑音モデルに対し、逆コサイン変換、指数変換を施すことで、スペクトルの形に変形し、雑音スペクトルを得る。

[0021] 次に、上記クリーン音声スペクトルに対し、レベル調整係数 g (「レベル補正係数」ともいう）を乗じ、上記雑音スペクトルと足し合わせ、雑音適応音声スペクトルを算出する。

[0022] 続、て、上記雑音適応スペクトルに、対数変換、コサイン変換を施すことで、雑音適応音声モデルを得る。

[0023] 認識時には、入力信号と、雑音適応音声モデルを比較照合することにより認識を行

[0024] PMC法では、レベル補正係数 gを乗することで、音声モデルの音圧と入力信号から算出した雑音モデルの音圧の混合比を調整している。

[0025] したがって、レベル調整係数 gを乗することは、一種のゲイン制御と考えることができる。

[0026] 非特許文献 3や非特許文献 4では、上記レベル調整係数 gを、尤度最大化の指針に基づき推定している。

[0027] 具体的には、

(A)予め複数の音圧の音声モデルを用意しておき、尤度が最大となるものを選択する方法や、

(B)ゲインの値を変数として扱、、音声モデルを構成する各ガウス分布毎に尤度が最大となるように繰り返し推定する方法

がある。

[0028] 上記 2つの方法では、学習時の音声の音圧に基づいて、ゲインの制御を行うために、音素ごとの音圧の違、を反映したゲインの制御が可能となる。

[0029] し力しながら、予め複数の音圧の音声モデルを用意しておく方法 (A)では、正確な推定を行うために全ての音素毎に音圧を変えた多くの音声モデルを用意しておく必要があり、容量や計算量の面で多くのコストがかかる。

[0030] ゲインを変数として扱ヽ繰り返し推定する方法 (B)では、繰り返し推定を行うことで、多くの計算コストがかかる、という問題と、最初に設定したゲインの値が異なるとまったく違う音素に引き込まれてしまう、という問題がある。

[0031] 特許文献 1 :特開 2004— 15125号公報

非特干文献 1 : Guorong Xuan, Wei Zhang, Peiqi Chai, EM Algorithms of uaussian Mixture Model and Hidden Markov Model", IEEE International Conference on Image Processing ICIP 2001, vol.1, pp.145- 148.2001年

非特許文献 2 : M.J. F. Gales and S.J.Young, "Robust Continuous Speech Recognition Using Parallel Model Combination",IEEE Trans.SAP— 4,No.5,pp.352— 359. 1996年 9 月

非特許文献 3 :Y.Minami and S.Furui, "A Maximum Likelihood Procedure for a Unive rsal Adaptation Method Based on HMM Composition", IEEE ICASSP'95, 129— 132.1 995年

非特許文献 4 :高田健司，外山淳， "SZN比に自動適合する HMM合成法を用いた単語認識"，電子情報通信学会技術研究報告， SP2002— 97 ρρ · 19 - 24 2002 年

非特許文献 5 : Richard O.Duda, Petter E.Hart, David G.Stork 著，尾上守夫監訳， "パターン識別"， Joh Willey &Sons. 新技術コミュニケーション， pp. 528— 52 9

非特干文献 6： Steven F.Boll, Suppression of Acoustic Noise in Speech Using Spectr al Subtraction," IEEE Trans. ASSP 27, pp.113— 120, 1979年

発明の開示

発明が解決しょうとする課題

[0032] 上記したように、従来のシステムは、下記記載の課題を有して、る。

[0033] 第 1の問題点は、従来の音声通信用又は音声録音用に用いられているゲイン制御技術では、音素毎の音圧の違いが考慮されていないため、不自然な音声が出力される、ということである。 [0034] 第 2の問題点は、従来の音声通信用又は音声録音用に用いられているゲイン制御技術では、雑音の周波数帯域が目的とする音声の周波数帯域と重なるような場合には、雑音を強調してしまう、ということである。

[0035] 第 3の問題点は、従来の音声認識用に用いられている尤度最大化の指針に基づくゲイン制御技術では、音声認識用に用意する全ての音素毎に複数の音圧の音声モデルを用意する、又は音素それぞれに対し複数回の推定を行うために、容量や計算量の面で多くのコストがかかる、ということである。

[0036] 第 4の問題点は、従来の音声認識用に用いられている尤度最大化の指針に基づくゲイン制御技術では、最初に設定したゲインの値が異なると、全く違う音素に引き込まれてしまう、とヽうことである。

[0037] したがって、本発明の目的は、音素毎の音圧の違いを反映することにより、自然な音声を出力可能とするゲイン制御装置、プログラムを提供することにある。

[0038] 本発明の別の目的は、不要な雑音を強調することなぐ目的とする音声を正しく強調するゲイン制御装置、プログラムを提供することにある。

[0039] 本発明のさらに別の目的は、少な、容量及び計算コストでゲイン制御装置、プログラムを提供することにある。

[0040] 本発明のさらに別の目的は、音素の特徴を維持したまま音圧の制御を行うゲイン制御装置、プログラムを提供することにある。

課題を解決するための手段

[0041] 本願で開示される発明は、上記課題を解決するため、概略以下のように構成される

[0042] 本発明に係る第 1のゲイン制御システムは、入力信号取得部と、特徴量変換部と、音声モデル格納部と、音圧比較部と、距離算出部と、ゲイン値算出手段と、音圧補正手段を備える。上記音声モデル格納部には複数の音素毎又は特徴量の距離に応じて、音声をクラスターに分割した単位毎に用意した特徴量と音圧とを持つ音声モデルを格納する。

[0043] 本発明に係る第 1のゲイン制御方法は、

入力信号を取得し単位時間毎に切り分ける入力信号取得工程と、上記単位時間毎に切り分けられた入力信号から特徴量を算出する特徴量変換ェ程と、

音素毎又は音声をクラスターに分割した単位毎に特徴量と音圧の情報を持つ音声モデルを格納する音声モデル格納工程と、

上記単位時間毎に切り分けられた入力信号と上記音声モデルそれぞれとの音圧の比を算出する音圧比較工程と、

上記単位時間毎に切り分けられた入力信号と上記音声モデルそれぞれとの特徴量の距離を算出する距離算出工程と、

上記音圧の比を音声モデルについて重み付き平均することでゲインを算出するゲイン値算出工程と、

算出されたゲインを用いて入力信号の音圧を補正する音圧補正工程と、を含む。

[0044] 本発明に係る第 1のゲイン制御プログラムは、

入力信号を取得し単位時間毎に切り分ける処理と、単位時間毎の入力信号を特徴量に変換する処理と、

単位時間毎の入力信号と音声モデルそれぞれとの音圧を比較する処理と、単位時間毎の入力信号と音声モデルそれぞれとの特徴量の距離を算出する処理と、

音圧の比を複数の音声モデルについて重み付き平均することでゲイン値を算出する処理と、

算出されたゲイン値を用いて入力音声の音圧レベルを補正する処理と、を実行させるプログラムよりなる。

[0045] 力かる構成としたことで、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを使用することにより、音素毎の音圧の違いを反映することができ、第 1の目的を達成することができる。

[0046] また、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを使用することにより、不要な雑音を強調することなぐ目的とする音声を正しく強調することができ、第 2の目的を達成することができる。

[0047] また、音素又はクラスター単位毎に特徴量と音圧の情報を持つ音声モデルを用意し、入力信号と音声モデルそれぞれとの音圧の比を複数音素モデルに対して距離に応じた重み付き平均をすることによってゲインを算出することで、全ての音素毎に音圧の異なる複数のモデルを用意する、又は複数回の推定を行う必要が無くなるために、少ない容量及び計算コストで済み、第 3の目的を達成することができる。

[0048] また、ゲイン制御用の音声モデルは音声認識用の音声モデルとは別に用意することができる為、容量、計算量の制約に応じて適切な大きさの音声モデルを用意でき、第 3の目的を達成することができる。

[0049] 本発明に係る第 2のゲイン制御方法は、第 1のゲイン制御方法において、

ゲイン値算出工程において上記音圧の比を複数の音声モデルに対して距離に応じた重み付き平均をすることでゲイン値を算出する代わりに、

上記音圧の比を複数の音声モデルに対して上記距離と音素又はクラスター単位の出現頻度情報の両方を考慮して重み付き平均をすることでゲイン値を算出する。

[0050] このような構成とすることにより、音素の特徴を正確に推定することができ、第 4の目的を達成することができる。

[0051] 本発明に係る第 3のゲイン制御方法は、第 1のゲイン制御方法において、

入力信号から雑音成分を推定する工程と、

入力信号から上記雑音成分を抑圧し、音声信号を算出する工程とを含み、第 1のゲイン制御方法における特徴量変換工程に対して、入力信号から特徴量を算出する代わりに、入力信号から雑音成分を抑圧した音声信号から特徴量を算出する。

[0052] 力かる構成としたことで、第 1のゲイン制御方法に比べて、より雑音成分を強調することなく目的とする音声を正しく強調することができる。

[0053] 本発明に係る第 4のゲイン制御方法は、

第 3のゲイン制御方法における音圧補正工程に対して、

算出されたゲインを用いて入力信号の音圧を補正する代わりに、算出されたゲインを用いて入力信号力雑音成分を抑圧したクリーンな成分のみを取り出したクリーン音声信号の音圧を補正する。

[0054] 本発明に係る第 5のゲイン制御方法は、第 1のゲイン制御方法における音圧補正工程の代わりに、算出されたゲインと入力信号から音圧の調整がなされた特徴量を算出する特徴量変換工程を含む。

発明の効果

[0055] 本発明の第 1の効果は、予め所定の音圧の音声で学習された音声モデルを使用することにより、音素毎の音圧の違いを反映することができる、ということである。

[0056] 本発明の第 2の効果は、音素毎又は音声をクラスターに分割した単位毎に音声モデルを使用することにより、不要な雑音を強調することなぐ目的とする音声を正しく強調することができる。

[0057] 本発明の第 3の効果は、ゲインの算出に音素毎又は音声をクラスターに分割した単位毎に用意した音声モデルに対して距離による重み付き平均を行うことにより、音素全てに対して音圧の異なる複数のモデルを用意する、又は複数回の推定を行う必要が無くなるために、少な、容量及び計算コストで済む。

[0058] 本発明の第 4の効果は、ゲインの算出に音素毎又は音声をクラスターに分割した単位毎に用意した音声モデルに対して距離による重み付き平均を行うことにより、音素の特徴を維持したまま音圧の制御が行うことができる。

図面の簡単な説明

[0059] [図 1]本発明の第 1の実施例のシステムの構成を示す図である。

[図 2]本発明の第 1の発明の実施例における処理手順を示す流れ図である。

[図 3]本発明の第 1の実施例における入力音圧と出力音圧の特性を示す図である。

[図 4]本発明の第 2の実施例のシステムの構成を示す図である。

[図 5]本発明の第 3の実施例のシステムの構成を示す図である。

[図 6]本発明の第 4の実施例のシステムの構成を示す図である。

[図 7]本発明の第 5の実施例のシステムの構成を示す図である。

[図 8]本発明の第 6の実施例のシステムの構成を示す図である。

[図 9]従来のゲイン制御システム雑音抑圧システムの構成を示すブロック図である。

[図 10]従来のゲイン制御システムの入力音圧と出力音圧の特性を示す図である。

[図 11]従来の音声モデルと雑音モデルの合成法を示す図である。

符号の説明 1 入力信号取得部

2 特徴量変換部

3 音声モデル格納部

3，音声モデル格納部

3a 音声モデルの音圧値

3b 音声モデルの特徴量

3c 音声モデルの出現頻度 (事前確率)

4 音圧比較部

5 距離算出部

6 ゲイン値算出部

6，ゲイン値算出部

7 音圧補正部

8 雑音推定部

9 クリーン音声推定部

10 第二の特徴量変換手段

11 帯域分割フィルタ手段

12 絶対値変換手段

13 重み付けデータ格納手段

14 乗异

15 加算部

16 ゲイン補正手段

17 スレッシュルドレベル格納手段

18 比較手段

19 ゲイン発生手段

20 放絡線発生手段

発明を実施するための最良の形態

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。本発明は、予め所定の音圧の音声で学習され、それぞれ音圧情報と特徴量を含む音声モデルを、音素毎又はクラスター単位で記憶する音声モデル格納部（3)と、入力信号を単位時間毎に切り出して分析し特徴量を導出する手段 (2)と、前記音声モデル格納部に格納されて、る前記音声モデルの特徴量（ μ j)と前記入力信号の特徴量 (C(t))の距離から、それぞれの音声モデル jが選ばれる確率 (P(j|C(t)))を算出し、前記入力信号の特徴量のうち音圧に依存する特徴量と、前記音声モデル格納部に格納されている前記音声モデルの音圧情報との差 0,j-C(0,t))を、前記確率を用いて音声モデルそれぞれに対して重み付けしてゲイン (g)を算出する手段 (4、 5 、 6)を、備え、入力信号の音圧を予め学習によって用意された音声モデルの音素又はクラスター毎の音圧に一致させる制御が行われる。本発明は、入力信号の音圧を調整し出力するゲイン制御システムであって、入力デバイス力入力される音声信号を取得し単位時間毎に切り出す入力信号取得部（1)と、前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する特徴量変換部 (2)と、複数の音素毎、又は音声をクラスターに分割した単位毎に、特徴量と音圧 (音圧に依存する特徴量：例えばケプストラムの 0次成分)の情報を持つ音声モデルを格納する音声モデル格納部（3)と、前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する距離算出部 (5)と、前記単位時間毎に切り出された入力信号の音圧 (音圧に依存する特徴量）と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する音圧比較部 (4)と、前記音声モデルそれぞれに対して算出された、距離と、音圧の比とに基づき、ゲインを算出するゲイン値算出部 (6)と、前記ゲイン値算出部で算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する音圧補正部（7)と、を含む。

[0062] 本発明の別の実施の形態において、音声モデル格納部（図 4の 3' )が、音声モデルの出現頻度情報をさらに記憶保持しており、前記ゲイン値算出部 (6')は、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、力ゲインを算出する。

[0063] 本発明においては、前記ゲイン値算出部において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出するようにしてもよい。

[0064] 本発明の別の実施の形態においては、前記入力信号から雑音成分を取得する雑音推定部 (図 5の 8)と、前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力するクリーン音声推定部 (図 5の 9)と、を備え、前記特徴量変換部（2)は、前記クリーン音声推定部力も出力される、雑音成分を抑圧した信号を入力し、入力した信号の特徴量及び音圧を取り出すようにしてもよい。

[0065] 本発明の別の実施の形態においては、前記音圧補正部（7)が、前記クリーン音声推定部 (9)から出力される、雑音成分を抑圧した信号を入力し、音圧を補正するようにしてもよい。

[0066] 本発明の別の実施の形態においては、前記音圧補正部（7)が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御するようにしてもょヽ。

[0067] 本発明のさらに別の実施の形態においては、前記音圧補正部（7)のかわりに、前記ゲイン値算出部で算出されたゲインと、前記入力信号とから音声認識で使用する特徴量を算出する第二の特徴量変換部（図 7の 10)を備え、前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行うようにしてもよ!ヽ。

[0068] 本発明のさらに別の実施の形態においては、前記音圧補正部のかわりに、前記ゲイン値算出部で算出されたゲインを用いて、前記特徴量変換部で求められた特徴量を補正し、音声認識で使用する特徴量を算出する第二の特徴量変換部（図 8の 10) を備え、前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行うようにしてもよい。以下、実施例に即して説明する。

[0069] <実施例 1 >

図 1は、本発明の第 1の実施例の構成を示す図である。図 1を参照すると、本発明の第 1の実施例は、入力信号を取得し単位時間毎に切り出す入力信号取得部 1と、単位時間毎の入力信号から特徴量と音圧を算出する特徴量変換部 2と、音声モデルを格納する音声モデル格納部 3と、単位時間毎の入力信号と上記音声モデルそれぞれとの音圧を比較し音圧の比を求める音圧比較部 4と、単位時間毎の入力信号と音声モデルそれぞれとの特徴量の距離を求める距離算出部 5と、音圧比較部 4によつて算出された音圧の比と距離算出部で算出された距離とからゲインを算出するゲイン値算出部 6と、ゲイン値算出部 6で算出されたゲインを用いて入力信号の音圧を補正する音圧補正部 7と、を備えている。

[0070] 音声モデル格納部 3は、複数の音素毎又は音声をクラスターに分割した単位毎に用意された複数の音声モデルが格納されて、る。

[0071] ここで、「音素」とは、母音や子音、無声音や有声音、又は、同じ"あ"の音であっても、前後の音の並びなどによって音声を分類したものである。

[0072] また、「クラスター」とは、音素をまとめあげたもの、及び、音声を特徴量の距離に応じて分割したものである。

[0073] クラスター分割法としては、例えば「K— means法」（非特許文献 5)を用いることができる。「K— means法」とは、与えられたデータを距離に応じて、 K個のクラスターに分類する手法である。

[0074] 音声モデルは、音圧 3aと、特徴量 3bとから構成される。音圧 3aとしては、ケプストラムの 0次成分を用いる。特徴量 3bとしては、音声を特徴量に変換した値そのものを用 Vヽても良、し、その値を出力する確率密度分布を用いても良!、。

[0075] 音圧 3aと特徴量 3bは、 "Expectation Maximization" (EM)アルゴリズムなどを用いて予め学習して用意する（非特許文献 1)。また、 EMアルゴリズムを用いてクラスターを決定することちできる。

[0076] 次に、図 1及び図 2のフローチャートを参照して、本実施例の全体の動作について詳細に説明する。

[0077] 入力信号を単位時間周期ごとに窓掛けして切り出し、フーリエ解析することによって算出されたスペクトル量を、 X(f,t)で表す。ただし、 fは周波数方向の番号、 tは時間方向の番号（フレーム番号）を示す。

[0078] 特徴量変換部 2で、入力信号から特徴量を算出する。ここで、特徴量として使用するのは、

•スぺクトノレ、 •対数スペクトル、

•ケプストラム、

'ピッチ、

'パワー、

'この Δ (—階差分)量、

• Δ Δ (二階差分量）

などの量である。

[0079] 本実施例では、ケプストラムを特徴量とすることとする。ケプストラムは式 (3)で算出される（ステップ Sl)。

[0080] C(t) = DCT[ log[X(t)] ] · · · (3)

[0081] ただし、

X(t)は X(f,t)を要素として持つベクトルである。

C(t)は C(i,t)を要素として持つベクトルである（ただし、 iはケプストラム次元を示す）

DCT[ ]は離散コサイン変換を示す。

[0082] 次のステップ S2及びステップ S3は、音声モデル格納部 3に格納されている音声モデルそれぞれに対して行われるものとする。音圧比較部 4において、入力信号の音圧と音声モデルとの音圧の比較を行う（ステップ S2)。

[0083] 具体的には、ケプストラムの 0次成分が音圧の対数値の情報を表すことから、音声モデルの持つケプストラムの 0次成分 (音声モデル格納部 3の音圧 3a)と、特徴量変換部 2で算出された入力信号のケプストラムの 0次成分 C(0,t)との差を算出する。

[0084] μ — C(0,t) · ' ·(4)

o,j

[0085] ただし、 μ は、 j番目の音声モデルが持つケプストラムの 0次成分 (音声モデル格

o,j

納部 3の音圧 3a)を示す。

[0086] 次に、距離算出部 5において、入力信号の特徴量と音声モデルの持つ特徴量との距離を算出する。（ステップ S3)。

[0087] 次に、ゲイン値算出部 6において、モデルそれぞれに対し音圧比較部 4で算出されケプストラムの 0次成分の差と、距離算出部 5で算出された距離とからゲインを推定する（ステップ S4)。

[0088] 具体的には、まず音声モデル jの選ばれる確率 (正規化された尤度) P(j|C(t))を次式で求める。

[0089] P0'|C(t))= d[C(t), μ 1 /∑ d[C(t), ] · ' ·(5)

j J Γ

[0090] 式（5)において、 d[C(t), μ は、入力信号の特徴量 (ケプストラム）と、潘目の音声モデルの持つ特徴量との距離を示す。この距離は距離算出部 5で計算される (0次ケプストラムは含まない)。また、式（5)の分母の j'は、音声モデルを示し、 j'に関する距離 d[C(t), ]の和は、複数の音声モデルに関しての和を示す。この和は、音声モデル格納部 3に格納されている、全ての音声モデルに対して行っても良い。あるいは、距離の近い上位数個に関して行うなどしても良い。なお、式（5)の確率の導出は、ケプストラム以外の特徴量を用いて計算してもよ!/、ことは勿論である。

[0091] 次に、この確率 P(j|C(t》を用いて音声モデルそれぞれに対し重み付き平均 (期待値 )を取ることで、ゲイン g(t)の値を算出する。

[0092] g (t)= βχρ[∑{(^ — C(0,t》 P(j|C(t))}] · ' ·(6)

j 0,j

[0093] 上式（6)において、 exp[ ]を施すのは、式（3)で log[ ]を施し対数領域の量に変形しているのを、元に戻すためである。

[0094] 上式（6)において、 jに関する和は、複数のモデルに関しての和を示す。この和は、式（5)と同じモデルに関して行われる。

[0095] また、本実施例では、ケプストラムの 0次の項の差を、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じて、重み付け平均する例を示したが、式 (6)の代わりに、次式（7)に示すように、ケプストラムの 0次の項の差に、 exp[ ]を施し、音圧の比に戻してから、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じて重み付け平均するようにしてもょ、。

[0096] g (t)=∑ {exp[ μ - C(0,t)] P(j|C(t))} · · · (7)

j 0,j

[0097] また、単位時間毎の入力信号 (の特徴量)との距離が最も近、音声モデルに対するケプストラムの 0次の項の差から、ゲイン g(t)を算出しても良、。

[0098] g (t)= βχρ[ ^ — C(0,t)] · ' ·(8)

0,k

[0099] ただし、 kは単位時間毎の入力信号との距離が最も近い音声モデルを示す。 [0100] 最後に、音圧補正部 7は、ゲイン値算出部 6で算出されたゲイン g (t)と、入力信号 f,t)の積を取り、入力信号の音圧レベルを補正する (ステップ S5)。

[0101] Y(f,t) = g(t) X(f,t) · ' ·(9)

[0102] ただし、 Y(f,t)は補正された信号を示す。 Y(f,t)〖こお、て、 X(f,t)と同様、 fは周波数方向の番号、 tは時間方向の番号（フレーム番号）を示す。

[0103] 本実施例では、入力信号を単位時間毎に切り出した単位であるフレーム毎に音圧レベルを補正する例を示した力ゲイン g(t)に関して複数のフレームに対して、平滑化又は平均を取るなどして、複数のフレームに対して音圧レベルを補正しても良い。

[0104] 次に、本実施例の作用効果について説明する。

[0105] 本実施例によれば、予め所定の音圧の音声で学習された音声モデルを使用することにより、図 3に示すように、音素毎の音圧の違いを反映することができる。

[0106] また、本実施例によれば、音声モデルを使用することにより、不要な雑音を強調することなく、目的とする音声を正しく強調することができる。

[0107] さらに、本実施例によれば、ゲインの算出に、単位時間毎の入力信号と音声モデルそれぞれとの距離に応じた重み付き平均を用いることにより、全ての音素毎に、複数の音圧のモデルを用意する、あるいは、複数回の推定を行う必要が無くなるために、少な!/、容量及び計算コストで済む。

[0108] <実施例 2>

図 4は、本発明の第 2の実施例の構成を示す図である。図 4を参照すると、本発明の第 2の実施例において、音声モデル格納部 3'は、音素毎又は音声を分割したクラスター単位毎に、音圧と特徴量と、音声モデルの出現頻度 (事前確率)とを含む。すなわち、音声モデル格納部 3'には、第 1の実施例の音声モデル格納部 3に、出力頻度情報が追加されている。また、本発明の第 2の実施例において、ゲイン値算出部 6 'は、音声モデルそれぞれに対し、音圧比較部 4によって算出された音圧の比と、音圧モデルそれぞれに対し、距離算出部 5で算出された距離と、音声モデルそれぞれの出現頻度 (事前確率)と、力ゲインを算出する。

[0109] 音声モデル格納部 3'に格納されている音声モデルは、それぞれ音圧 3aと特徴量 3 bと出現頻度（事前確率) 3cと、カゝら構成される。特に制限されないが、本実施例では、音声モデルとして、 GMMを用いる。 GMM以外にも、音声認識用に用いられる H

MMなどを用いることもできる。

[0110] 音圧 3aとしては、前記実施例と同様、ケプストラムの 0次を用いる。また、特徴量 3b としては、音声を特徴量に変換した値そのものを用いても良いし、その値を出力する確率密度分布を用いても良い。

[0111] また、出現頻度 (事前確率） 3cは、複数の音声モデルの中で、対象とする音声モデルが出現する頻度である。

[0112] 音圧 3a、特徴量 3b、出現頻度（事前確率） 3cは、 Expectation Maximization (EM) アルゴリズムなどを用いて学習しておく（非特許文献 1)。

[0113] 本実施例は、前記第 1の実施例に対し、ステップ S4のゲイン値算出での処理が置き換わったものになっている。

[0114] ゲイン値算出部 6'では、音声モデルそれぞれに対し音圧比較部 4で算出されケプストラムの 0次成分の差と、音声モデルそれぞれに対して、距離算出部 5で算出された距離と、対応する音声モデルの出現頻度 3cとから、ゲインを推定する。

[0115] 具体的には、まず音声モデル jの選ばれる確率 (事後確率)を算出する。

[0116] P0'|C(t))= P0) d[C(t), μ ] / ∑ Ρθ") d[C(t), μ ] · · · (10)

j j j

[0117] 式（10)において、 d[C(t), μ ]は、入力信号の特徴量 (ケプストラム）と潘目の音声モ

J

デルの持つ特徴量との距離を示す (C(t)にお、て C(0,t)は除かれる)。

[0118] P(j)は、潘目の音声モデルの出現頻度を示す。

[0119] 分母の』に関する和 {∑ P0" ) d[C(t), μ ,]}は、複数の音声モデルに関しての和を示す。この和は、音声モデル格納部 3'に格納されている全ての音声モデルに対して行っても良、し、距離の近、上位数個に関して行うなどしても良、。

[0120] この確率 P(j|C(t》を用いて音声モデルそれぞれに対し重み付き平均 (期待値)を取ることでゲイン値を算出する。具体的には、前記第 1の実施例と同様、式 (6)、（7)又は式 (8)を用いて算出する。

[0121] 次に、本実施例の作用効果について説明する。

[0122] 前記第 1の実施例に対して、音声モデルの選ばれる確率を求める際に、予め学習によって用意した出現頻度 (事前確率)の情報を用いることで、音素の特徴を正確に推定できる。

[0123] <実施例 3 >

図 5は、本発明の第 3の実施例の構成を示す図である。図 5を参照すると、本発明の第 3の実施例は、前記第 1の実施例に加えて、入力信号から雑音成分を取得する雑音推定部 8と、入力信号と雑音推定部 8で推定された雑音から、音声を推定して出力するクリーン音声推定部 9をさらに備えて、る。

[0124] 雑音推定部 8では、例えば入力信号の最初の数フレームを非音声区間とみなし、この区間での入力信号の平均値から雑音を推定する。

[0125] クリーン音声推定部 9では、非特許文献 6に示すスペクトル減算法などの雑音抑圧手法を用いて、入力音声と、雑音推定部 8で得られた雑音成分の情報から、雑音成分を除去したクリーンな音声を推定して出力する。なお、スペクトル減算法とは、スぺタトル領域で周波数成分毎に入力信号から雑音成分を減算する手法である。

[0126] 特徴量変換部 2は、クリーン音声推定部 9から出力される、雑音成分を抑圧したタリーン音声を入力し、クリーン音声の特徴量及び音圧を取り出す。

[0127] 本発明の第 3の実施例によれば、図 1の第 1の実施例 (雑音推定部 8、クリーン音声推定部 9を無し)と比べて、雑音成分を強調することなぐ目的とする音声を正しく強調することができる。

[0128] <実施例 4>

次に、本発明の第 4の実施例について説明する。図 5に示した前記第 3の実施例では、音圧補正部 7は、ゲイン値算出部 6で算出されたゲインを用いて入力信号の音圧を補正している。これに対して、図 6を参照すると、本発明の第 4の実施例では、音圧補正部 7は、ゲイン値算出部 6で算出されたゲインを用いて、クリーン音声推定部 9で推定されたクリーン音声の音圧を補正する。

[0129] <実施例 5 >

次に、本発明の第 5の実施例について説明する。図 7を参照すると、本発明の第 5 の実施例は、図 1の第 1の実施例において、ゲインを用いて入力信号の音圧を補正する音圧補正部 7を、ゲインと入力信号とから、音声認識で使用する特徴量を算出する第二の特徴量変換部 10に置き換えたものである。他の構成は、前記第 1の実施例と同様である。

[0130] 入力信号から特徴量を算出する特徴量変換部 2と、ゲインと入力信号から特徴量を算出する第二の特徴量変換部 10とでは、異なる特徴量を使用しても良い。

[0131] 例えば、特徴量変換部 10では、音圧に依存しな、量を特徴量とし、ゲイン制御をした上で、特徴量変換部 2では音圧に依存する特徴量を使用することもできる。

[0132] <実施例 6 >

次に、本発明の第 6の実施例について説明する。前記第 5の実施例では、第二の特徴量変換部 10は、ゲイン値算出部 6で算出されたゲインと入力信号とから音声認識で使用する特徴量を算出している。図 8を参照すると、本発明の第 6の実施例では、第二の特徴量変換部 10は、ゲイン値算出部 6によって算出されたゲインを用いて、特徴量変換部 2で算出された特徴量を補正し、音声認識で使用する第二の特徴量とする。例えば第二の特徴量変換部 10は、特徴量変換部 2で算出された特徴量に、ゲインを乗する等の処理を行う。

[0133] <実施例 7>

次に、本発明の第 7の実施例について説明する。本発明の第 7の実施例は、図 11 に示すような音声モデルを雑音に適応させる手法において、前記第 1の実施例のゲイン算出部 6で算出されたゲインを用いて、図 11に示すレベル調整係数を求める構成となっている。また、入力信号を切り出した時間単位毎にゲイン値算出部 6で算出されたゲインを直接用いるのではなぐ複数フレーム及び複数発声に渡って平均化しても良い。また、前記第 1乃至第 6までの実施例は、互いに組み合わせて使用することちでさる。

[0134] 本発明によれば、音声の音圧を一定にでき、聞き易い明瞭な音声の通信及び録音ができる。

[0135] また、音声認識システムと組み合わせて用いることで、音声の音圧の変動に頑健な認識が可能となる。また、補聴器などにも応用可能である。

[0136] 以上、本発明を上記実施例に即して説明した力本発明は上記実施例の構成にのみ制限されるものでなぐ本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims

請求の範囲

[1] 入力信号の音圧を調整し出力するゲイン制御システムであって、

前記入力信号を単位時間毎に切り出し、前記単位時間毎に切り出された入力信号を、音素、又は、音声をクラスターに分割した単位に類別する手段と、

前記単位時間毎に切り出された入力信号の音圧が、音素毎、又はクラスター単位毎に設定した音圧に一致するようにゲインを算出する手段と、

前記算出されたゲインを用いて、前記単位時間毎、又は複数単位時間に渡って、前記入力信号の音圧を制御する手段と、

を備えている、ことを特徴とするゲイン制御システム。

[2] 前記単位時間毎に切り出された入力信号から特徴量を分析する手段を備え、前記特徴量のうち音圧に依存する特徴量を、前記入力信号の音圧とする、ことを特徴とする請求項 1記載のゲイン制御システム。

[3] 入力信号の音圧を調整し出力するゲイン制御システムであって、

入力デバイス力入力される音声信号を取得し単位時間毎に切り出す入力信号取得部と、

前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する特徴量変換部と、

複数の音素毎、又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを格納する音声モデル格納部と、

前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する距離算出部と、

前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する音圧比較部と、前記音声モデルそれぞれに対して算出された、距離と、音圧の比とに基づき、ゲインを算出するゲイン値算出部と、

前記ゲイン値算出部で算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する音圧補正部と、を含む、ことを特徴とするゲイン制御システム。

[4] 前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており前記ゲイン値算出部は、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されて、る音声モデルそれぞれの出現頻度と、力もゲインを算出する、ことを特徴とする請求項 3記載のゲイン制御システム。

[5] 前記ゲイン値算出部において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する、ことを特徴とする請求項 3又は 4記載のゲイン制御システム。

[6] 前記入力信号から雑音成分を取得する雑音推定部と、

前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力するクリーン音声推定部と、

を備え、

前記特徴量変換部は、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、入力した信号の特徴量及び音圧を取り出す、ことを特徴とする請求項 3乃至 5のいずれか一記載のゲイン制御システム。

[7] 前記音圧補正部が、前記クリーン音声推定部から出力される、雑音成分を抑圧した信号を入力し、音圧を補正する、ことを特徴とする請求項 6記載のゲイン制御システム。

[8] 前記音圧補正部が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する、ことを特徴とする請求項 3乃至 5のいずれか一記載のゲイン制御システム。

[9] 請求項 3乃至 8の、ずれか一に記載のゲイン制御システムが、

前記音圧補正部のかわりに、

前記ゲイン値算出部で算出されたゲインと、前記入力信号とから音声認識で使用する特徴量を算出する第二の特徴量変換部を備え、

前記第二の特徴量変換部で算出された特徴量を用いて音声認識を行う、ことを特徴とする音声認識システム。

[10] 請求項 3乃至 8のいずれか一に記載の前記ゲイン制御システムが、

前記音圧補正部のかわりに、

前記ゲイン値算出部で算出されたゲインを用いて、前記特徴量変換部で求められた特徴量を補正し、音声認識で使用する特徴量を算出する第二の特徴量変換部を備え、

[11] 算出されたゲインを基に、音声モデルを雑音に適応させ、前記雑音に適応した音声モデルを用いて音声認識を行う手段を備えてヽる、ことを特徴とする請求項 9又は 10記載の音声認識システム。

[12] 入力信号の音圧を調整し出力するゲイン制御方法であって、

入力信号を単位時間毎に切り出し、

前記単位時間毎に切り出された入力信号を、音素単位、又は、音声をクラスターに分割した単位に類別し、

前記単位時間毎に切り出された入力信号の音圧が、音素毎、又はクラスター単位毎に設定した音圧に一致するようにゲインを算出し、

前記単位時間毎、又は複数単位に渡って音圧を制御する、ことを特徴とするゲイン制御方法。

[13] 入力信号の音圧を調整し出力するゲイン制御方法であって、

音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを音声モデル格納部に格納しておき、

入力デバイス力入力される音声信号を取得し単位時間毎に切り出す工程と、前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する工程と、前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する工程と、前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する工程と、前記音声モデルそれぞれに対して算出された、距離及び音圧の比に基づき、ゲインを算出する工程と、

前記算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する工程と、

を含む、ことを特徴とするゲイン制御方法。

[14] 前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており前記ゲインを算出する工程において、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、からゲインを算出する、ことを特徴とする請求項 13記載のゲイン制御方法。

[15] 前記ゲインを算出する工程において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する、ことを特徴とする請求項 13又は 14記載のゲイン制御方法

[16] 前記入力信号から雑音成分を取得する工程と、

前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力する工程と、

を含み、

前記特徴量を算出する工程では、前記雑音成分を抑圧した信号を前記入力信号として入力し、特徴量及び音圧を取り出す、ことを特徴とする請求項 13乃至 15のいずれか一記載のゲイン制御方法。

[17] 前記音圧を補正する工程が、前記雑音成分を抑圧した信号を入力し、音圧を補正する、ことを特徴とする請求項 16記載のゲイン制御方法。

[18] 前記音圧を補正する工程が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する、ことを特徴とする請求項 13乃至 15のいずれか一記載のゲイン制御方法。

[19] 前記音圧を補正する工程の代わりに、算出されたゲインと入力信号力音圧の調整がなされた特徴量を算出する工程を含む、ことを特徴とする請求項 13記載ののゲイン制御方法。

[20] 入力信号の音圧を調整し出力するゲイン制御を行うコンピュータに、

入力信号を単位時間毎に切り出し、前記単位時間毎に切り出された入力信号を、音素単位、又は、音声をクラスターに分割した単位に類別する処理、

前記単位時間毎に切り出された入力信号の音圧が、音素毎、又はクラスター単位毎に設定した音圧に一致するようにゲインを算出し、前記単位時間毎、又は複数単位に渡って音圧を制御する処理、

を実行させるプログラム。

[21] 入力信号の音圧を調整し出力するゲイン制御を行うコンピュータであって、

音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを格納して、る音声モデル格納部を備え、

音素毎又は音声をクラスターに分割した単位毎に、特徴量と音圧の情報を持つ音声モデルを音声モデル格納部に格納しておく処理と、

入力デバイス力入力される音声信号を取得し単位時間毎に切り出す処理と、前記単位時間毎に切り出された入力信号から特徴量及び音圧を算出する処理と、前記単位時間毎に切り出された入力信号の特徴量と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの特徴量との距離を算出する処理と、前記単位時間毎に切り出された入力信号の音圧と、前記音声モデル格納部に格納されている前記音声モデルそれぞれの音圧との比を算出する処理と、

前記音声モデルそれぞれに対して算出された、距離及び音圧の比に基づき、ゲインを算出する処理と、

前記算出されたゲインを用いて、単位時間毎に切り出された入力信号の音圧を補正する処理と、

を前記コンピュータに実行させるプログラム。

[22] 請求項 21記載のプログラムにおいて、

前記音声モデル格納部が、音声モデルの出現頻度情報をさらに記憶保持しており前記ゲインを算出する処理において、前記音声モデルそれぞれに対し算出された、距離と、音圧の比と、前記音声モデル格納部に格納されている音声モデルそれぞれの出現頻度と、力もゲインを算出する処理を、前記コンピュータに実行させるプログラム。

[23] 請求項 21記載のプログラムにおいて、

前記ゲインを算出する処理において、単位時間毎に切り出された入力信号と音声モデルとの距離を用いて、単位時間毎に切り出された入力信号と音声モデルとの音圧の比を音素、又は、音声をクラスターに分割した単位について、重み付き平均することで、ゲインを算出する処理を、前記コンピュータに実行させるプログラム。

[24] 請求項 21記載のプログラムにおいて、

前記入力信号から雑音成分を取得する処理と、

前記入力信号から前記雑音推定部で推定された雑音成分を抑圧した信号を算出し、雑音成分を抑圧した信号を出力する処理と、

前記特徴量を算出する処理において、前記雑音成分を抑圧した信号を前記入力信号として入力し、特徴量及び音圧を取り出す処理と、

を、前記コンピュータに実行させるプログラム。

[25] 請求項 21記載のプログラムにおいて、

前記音圧を補正する処理が、前記雑音成分を抑圧した信号を入力し、音圧を補正する処理を、前記コンピュータに実行させるプログラム。

[26] 請求項 21記載のプログラムにおいて、

前記音圧を補正する処理が、前記単位時間毎に求めたゲインを、複数の前記単位時間に渡って、平滑化又は平均化し、複数の前記単位時間に渡って音圧を制御する処理を、前記コンピュータに実行させるプログラム。

[27] 前記音圧を補正する処理の代わりに、算出されたゲインと入力信号から音圧の調整がなされた特徴量を算出する処理を、前記コンピュータに実行させるプログラム。

[28] 予め所定の音圧の音声で学習され、各々が、音圧に依存する第 1の特徴量と第 2 の特徴量とを含む音声モデルを、音素毎又はクラスター単位で記憶する音声モデル格納部と、

入力信号を単位時間毎に切り出して分析し特徴量を導出する手段と、前記音声モデル格納部に格納されて!ヽる前記音声モデルの第 2の特徴量と、前記入力信号の対応する特徴量との距離に基づき、それぞれの音声モデルが選ばれる確率を算出し、前記入力信号の特徴量のうち音圧に依存する特徴量と、前記音声モデル格納部に格納されてヽる前記音声モデルの第 1の特徴量との差を、前記確率を用いて、音声モデルそれぞれに対して重み付けしてゲインを算出する手段を、備え、入力信号の音圧を予め学習によって用意された音声モデルの音素又はクラスター毎の音圧に一致させる制御が行われる、ことを特徴とする、音声認識用のゲイン制御装置。

[29] 前記音声モデル格納部が、音声モデルの出現頻度をさらに記憶し、

前記音声モデル格納部に格納されて!ヽる音声モデルの前記第 2の特徴量と、前記入力信号の対応する特徴量との距離と、音声モデルの出現頻度を用いて、それぞれの音声モデルが選ばれる確率を算出する、ことを特徴とする、請求項 28記載の音声認識用のゲイン制御装置。

[30] 予め所定の音圧の音声で学習され、各々が、音圧に依存する第 1の特徴量と第 2 の特徴量を含む音声モデルを、音素毎又はクラスター単位で記憶する音声モデル格納部と、

入力信号を単位時間毎に切り出して分析し特徴量を導出する手段と、音声モデルの第 2の特徴量に関して、単位時間毎の入力信号の特徴量との距離が最も近い音声モデルを選択し、前記音声モデルの音圧に依存する第 1の特徴量と、前記入力信号の特徴量のうち音圧に依存する特徴量との差に基づき、ゲインを算出する手段を、

備え、入力信号の音圧を予め学習によって用意された音声モデルの音素又はクラスター毎の音圧に一致させる制御が行われる、ことを特徴とする、音声認識用のゲイン制御装置。

[31] 前記音圧に依存する第 1の特徴量としてケプストラムの 0次成分を用い、

前記第 2の特徴量として、 0次成分以外のケプストラム、スペクトル、対数スペクトル、ピッチ、パワー、これらのいずれかの一階又は二階の差分量のうち、少なくとも 1つを用いる、請求項 28乃至 30のいずれか一に記載の音声認識用のゲイン制御装置。

[32] 予め所定の音圧の音声で学習された音声モデルを音声モデル格納部に記憶しておさ、

前記音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行う手段と、前記音圧の比較結果と前記特徴量の距離とからゲインを算出する手段と、を備えている、ことを特徴とするゲイン制御装置。

[33] 予め所定の音圧の音声で学習された音声モデルを記憶して、る音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されて、る音声モデルそれぞれに対して行、、

前記音圧の比較結果と前記特徴量の距離とからゲインを算出する、

上記各工程を含む、ことを特徴とするゲイン制御方法。

[34] 予め所定の音圧の音声で学習された音声モデルを記憶して、る音声モデル格納部を参照可能なコンピュータに、

前記音声モデル格納部を参照し、入力信号の音圧と音声モデルの音圧の比較、及び、前記入力信号の特徴量と音声モデルの持つ特徴量との距離の算出を、前記音声モデル格納部に格納されている音声モデルそれぞれに対して行う処理と、前記音圧の比較結果と前記特徴量の距離とからゲインを算出する処理と、を実行させるプログラム。