JPS6257040B2

JPS6257040B2 -

Info

Publication number: JPS6257040B2
Application number: JP56063991A
Authority: JP
Inventors: Yukio Tabei; Isamu Nose
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1981-04-30
Filing date: 1981-04-30
Publication date: 1987-11-28
Also published as: JPS57179898A

Description

【発明の詳細な説明】

本発明は音声認識装置において、発声強度の異
なる音声に対しても良好な認識を可能にする音声
振輻正規化方式に関するものである。音声の始端、終端の検出は、話者が高雑音下の
環境にない限りは、発声前後のパワーは発声時に
比較して小さな値を示すので、発声された音声を
増幅率一定の増幅器で受けて、固定の閾値でレベ
ルを検出することにより行うのが簡単な方式であ
る。上記の方法は簡単ではあるが声の小さな話者を
考慮して増幅率を高目にしておくとと、周囲雑音
を増幅して音声として検出しやすく、また周囲雑
音の影響を考慮して増幅率を低目にしておくと、
声の小さい発声において、発声レベルの小さな部
分の検出ができなくなり、又増幅率を高目にして
おくと発声レベルが大きい場合には増幅器が飽和
してしまうという欠点があつた。さらに個人差に
基づく声の大小だけでなく、発声音声の種類によ
つて同一話者の発声でも音声の振幅が異なるため
話者毎に振幅の正規化を行つても発声音声毎に振
幅の正規化を行わない方式では、発声音声の違い
による振幅の変動を考慮していないため、良好な
音声波形が得られないという欠点があつた。本発明は従来の技術の上記欠点を改善するもの
で、その目的は、発声レベルの異なる話者と発声
音声の種類による振幅の変動に対し、適応的に増
幅率を変化させる音声振幅正規化方式を提供する
ことにあり、その特徴は、入力音声を増幅器によ
り増幅した後認識する音声認識装置において、一
つ前に発声した音声の特徴パラメータと、当該音
声の認識結果に従つて、後続の音声に対する増幅
器の増幅率を適応的に決定することにある。好ましくは、特徴パラメータは、音声データ部
分のパワースペクトルの平均値又は最大値とす
る。以下図面により実施例を説明する。第１図は本
発明の第１の実施例を示すブロツク図であり、１
１は音声信号入力端子、１２は増幅器、１３は周
波数分析部、１４は認識部、１５は差分演算部、
１６は増幅率選択部の如く構成されており、以下
動作について説明する。発声された音声はマイクロフオン等で電気信号
に変換され音声信号入力端子１１を通して増幅器
１２により、ある定められた増幅率で増幅され、
周波数分析部１３に送られる。周波数分析部１３は、例えば第２図に示すよう
に構成される。第２図において、２１は帯域波
器群、２２は整流器群、２３は低域波器群、２
４はマルチプレクサ、２５はAD変換器の如く構
成されており以下周波数分析部の動作について説
明する。増幅された信号はＮ個の帯域波器に加わり、
各帯域波器は入力信号の帯域内の成分を発生す
る。各帯域波器の出力はそれぞれ整流器群２２
により整流され、低域波器群２３により時間的
に平滑され、マルチプレクサ２４により選ばれた
低域波器の出力がAD変換器２５によりデイジ
タル量に変換されて、ある周期Ｔで標本化され
る。通常Ｎは８〜30であり、Ｔとしては８〜20ｍ
Ｓがとられる。マルチプレクサ２４の切り換え時
間は、低域波器の出力変化に比べて無視できる
ので低域波器群２３の出力は同時に標本化され
ると考えられる。以下第ｊ番目の標本化時点での
第ｎ番目の低域波器群の出力をｘ_o(j)、（ｎ＝
１、２、…、Ｎ）とする。第１図において周波数分析部１３により得られ
たパラメータ系列ｘ_o(j)、（ｎ＝１、２、…、Ｎ）
（ｊ＝１、２、…、Ｊ）が認識部１４に送られ、
認識結果が差分演算部１５に出力され、差分演算
部１５と増幅率選択部１６により次の発声語に対
する増幅率が決定される。以下増幅率の決定法について説明する。差分演算部１５は第３図のように構成されてお
り、３１は平均／対数変換回路、３２はレジス
タ、３３はテーブル、３４は差分／除算回路であ
る。あらかじめ決められたＭ語の認識対象語をＢ
_i、（ｉ＝１、２、…、Ｍ）とし、これらに対応し
てそれぞれ標準的な平均パワー対数値Ｐ_i（ｉ＝
１、２、…、Ｍ）をあらかじめテーブル３３に格
納しておく。格納状態を第４図に示す。平均／対
数変換回路３１には周波数分析部１３から得られ
たパラメータ系列ｘ_o(j)、（ｎ＝１、２、…、Ｎ）
（ｊ＝１、２、…、Ｊ）が入力として加わり、話
者の発声した認識対象語の平均パワー対数値Ｐが
次のように計算される。Ｊ×Ｔは発声された単語の時間長を表わし、通
常１秒以下である。認識部１４により発声された
音声が第ｋ番目のＢ_kであると、認識されると、
その結果はレジスタ３２に保持され、テーブル３
３を参照して対応する第ｋ番目の標準的な平均パ
ワー対数値Ｐ_kが求められと共に差分／除算回
路３４に入力され、次式で定義される△Ｐが計算
される。 △Ｐ＝（Ｐ_k−）／Ｃ …(2) ここでＣは用意すべき増幅率の個数から決まるあ
らかじめ定められた定数である。増幅率が大きす
ぎた場合には△Ｐは負の値を示し、増幅率が小さ
すぎた場合には△Ｐは正の値を示す。増幅器１２
の現時点での増幅率をＡ_gとし、次の音声に対す
る増幅率をＡ_hとすると、Ａ_gとＡ_hとの間にはの関係があることが望しい。第１図の差分演算部１５の出力△Ｐは増幅率選
択部１６に送られＡ_hが決定される。増幅率選択
部１６及び増幅器１２は第５図の如く構成され
る。第５図にて５１は増幅器、５２及び５３−１，
５３−２，…５３−ｒは抵抗、５４は切換回路、
５５は第３図の差分／除算回路３４の出力信号
線、５６は加算器、５７はレジスタである。レジ
スタ５７は発声音声毎の増幅率を格納するための
ものであつて初期値としてA₀（定数）が格納さ
れるが、ある時点でＡ_gが格納されているとす
る。増幅率Ａ_gの場合の音声に対する△Ｐが信号
線５５にて送られてくると、加算器５６にて(4)式
の演算が行われる。Ａ_h＝Ａ_g＋△Ｐ …(4) (3)式は(4)式の演算により満足される。加算器５６の出力であるＡ_hはレジスタ５７に
格納され、レジスタ５７の出力は切換回路５４の
切換制御信号となつていて増幅器５１に対し増幅
率を決定する抵抗５３−１，５３−２，…，５３
−ｒの一つを選択する。レジスタ５７の内容は発
声音声毎に順次適応的に更進される。なお、本実
施例ではフイードバツク抵抗を切換えて増幅率を
制御しているが増幅器の入力側の抵抗を切換えて
も良い事は明白であり、又抵抗５２は切換時にフ
イードバツクループが一瞬接断しないように挿入
されている。以上説明したように、第１の実施例では、ある
話者の音声の平均パワーと認識結果とを用いて次
に発声する音声に対する増幅率を決定しているた
め、増幅率が一定の増幅器を用いた従来の方法に
比べて話者の違いと発声音声の違いによる発声レ
ベルの変動を発声音声毎に適応的に正規化できる
ため、良好な音声波形を得ることができ、認識率
を高める利点がある。第１の実施例では、発声された音声の平均パワ
ーと認識結果とを用いて次の発声語に対する増幅
率を決定するようになつているが、演算量を少く
する意味から平均パワーを用いる代わりに、第２
の実施例として音声の最大パワー（以下′とす
る）を用いても音声振幅正規化の効果は十分得ら
れる。この場合は、第１の実施例のテーブル中の
Ｐ_i、（ｉ＝１、２、…、Ｍ）に相当するのは標準
的な最大パワー（以下Ｐ_i′、（ｉ＝１、２、…
Ｍ）とする）であり(2)式に相当するのは第ｈ番目
の認識結果に対して △P′＝（Ｐ_k′−Log′）／Ｃ …(5) である。ただし最大パワーとは次式で定義され
る。′＝max（ｘ＾(1)、ｘ＾(2)、…、ｘ＾(j)、…、
ｘ＾
(j)）ここで

【式】である。第３図においてテーブル３３の内容をＰ_i（ｉ＝１、
２、…、Ｍ）からＰ_i′（ｉ＝１、２、…、Ｍ）に
変更しておけば良く、(4)式に相当するのはＡ_h＝Ａ_g＋△P′ …(6) であり、第１の実施例と同様な音声振幅正規化効
果が得られる。第１の実施例では、周波数分析部１３の一例と
してアナログ帯域波器群による分析を対象とし
て記述したが、デイジタルフイルタを用いても周
波数分析機能は変わるところがなく後の処理は同
一で良く、音声振幅正規化効果は変わらない。ま
た第１、第２の実施例では次の発声語に対する増
幅率を決定するのに特徴パラメータとして平均パ
ワーあるいは最大パワーを用いているので、必ず
しも周波数分析の必要はなく、周波数分析部１３
の代わりにハードウエアが簡単な自己相関分析を
用いても良く、その場合パワーは第０次の自己相
関関数で得られる。本発明は、話者の１つ前に発声した音声の認識
結果と特徴パラメータを用いて次に発声される音
声に対する増幅率を決定するため、発声レベルの
違いを正規化できるので特定、不特定話者を問わ
ず音声認識装置に利用してその効果は大きい。

【図面の簡単な説明】

第１図は本発明の装置を示すブロツク図、第２
図は周波数分析部の一実施例、第３図は差分演算
部のブロツク部、第４図はテーブル内の格納状態
を示す図、第５図は増幅率選択回路のブロツク図
である。１１……音声信号入力端子、１２……増幅器、
１３……周波数分析部、１４……認識部、１５…
…差分演算部、１６……増幅率選択部、２１……
帯域波器群、２２……整流器群、２３……低域
波器群、２４……マルチプレクサ、２５……
AD変換器、３１……平均／対数変換回路、３２
……レジスタ、３３……テーブル、３４……差
分／除算回路、５１……増幅器、５２……抵抗、
５３−１，５３−２，…，５３−ｒ……抵抗、５
４……切換回路、５５……信号線、５６……加算
器、５７……レジスタ。

Claims

【特許請求の範囲】

１入力音声を増幅器により増幅した後認識する
音声認識装置において、同一話者が一つ前に発声
した音声データ部分のパワースペクトルの平均値
又は最大値を特徴パラメータとし、特徴パラメー
タと発声された音声の認識結果とに従つて後続の
音声に対する前記増幅器の増幅率を決定すること
を特徴とする音声振幅正規化方式。