JPS6257040B2 - - Google Patents
Info
- Publication number
- JPS6257040B2 JPS6257040B2 JP56063991A JP6399181A JPS6257040B2 JP S6257040 B2 JPS6257040 B2 JP S6257040B2 JP 56063991 A JP56063991 A JP 56063991A JP 6399181 A JP6399181 A JP 6399181A JP S6257040 B2 JPS6257040 B2 JP S6257040B2
- Authority
- JP
- Japan
- Prior art keywords
- amplification factor
- speech
- voice
- amplifier
- uttered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000003321 amplification Effects 0.000 claims description 28
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 28
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Description
本発明は音声認識装置において、発声強度の異
なる音声に対しても良好な認識を可能にする音声
振輻正規化方式に関するものである。 音声の始端、終端の検出は、話者が高雑音下の
環境にない限りは、発声前後のパワーは発声時に
比較して小さな値を示すので、発声された音声を
増幅率一定の増幅器で受けて、固定の閾値でレベ
ルを検出することにより行うのが簡単な方式であ
る。 上記の方法は簡単ではあるが声の小さな話者を
考慮して増幅率を高目にしておくとと、周囲雑音
を増幅して音声として検出しやすく、また周囲雑
音の影響を考慮して増幅率を低目にしておくと、
声の小さい発声において、発声レベルの小さな部
分の検出ができなくなり、又増幅率を高目にして
おくと発声レベルが大きい場合には増幅器が飽和
してしまうという欠点があつた。さらに個人差に
基づく声の大小だけでなく、発声音声の種類によ
つて同一話者の発声でも音声の振幅が異なるため
話者毎に振幅の正規化を行つても発声音声毎に振
幅の正規化を行わない方式では、発声音声の違い
による振幅の変動を考慮していないため、良好な
音声波形が得られないという欠点があつた。 本発明は従来の技術の上記欠点を改善するもの
で、その目的は、発声レベルの異なる話者と発声
音声の種類による振幅の変動に対し、適応的に増
幅率を変化させる音声振幅正規化方式を提供する
ことにあり、その特徴は、入力音声を増幅器によ
り増幅した後認識する音声認識装置において、一
つ前に発声した音声の特徴パラメータと、当該音
声の認識結果に従つて、後続の音声に対する増幅
器の増幅率を適応的に決定することにある。 好ましくは、特徴パラメータは、音声データ部
分のパワースペクトルの平均値又は最大値とす
る。 以下図面により実施例を説明する。第1図は本
発明の第1の実施例を示すブロツク図であり、1
1は音声信号入力端子、12は増幅器、13は周
波数分析部、14は認識部、15は差分演算部、
16は増幅率選択部の如く構成されており、以下
動作について説明する。 発声された音声はマイクロフオン等で電気信号
に変換され音声信号入力端子11を通して増幅器
12により、ある定められた増幅率で増幅され、
周波数分析部13に送られる。 周波数分析部13は、例えば第2図に示すよう
に構成される。第2図において、21は帯域波
器群、22は整流器群、23は低域波器群、2
4はマルチプレクサ、25はAD変換器の如く構
成されており以下周波数分析部の動作について説
明する。 増幅された信号はN個の帯域波器に加わり、
各帯域波器は入力信号の帯域内の成分を発生す
る。各帯域波器の出力はそれぞれ整流器群22
により整流され、低域波器群23により時間的
に平滑され、マルチプレクサ24により選ばれた
低域波器の出力がAD変換器25によりデイジ
タル量に変換されて、ある周期Tで標本化され
る。通常Nは8〜30であり、Tとしては8〜20m
Sがとられる。マルチプレクサ24の切り換え時
間は、低域波器の出力変化に比べて無視できる
ので低域波器群23の出力は同時に標本化され
ると考えられる。以下第j番目の標本化時点での
第n番目の低域波器群の出力をxo(j)、(n=
1、2、…、N)とする。 第1図において周波数分析部13により得られ
たパラメータ系列xo(j)、(n=1、2、…、N)
(j=1、2、…、J)が認識部14に送られ、
認識結果が差分演算部15に出力され、差分演算
部15と増幅率選択部16により次の発声語に対
する増幅率が決定される。 以下増幅率の決定法について説明する。 差分演算部15は第3図のように構成されてお
り、31は平均/対数変換回路、32はレジス
タ、33はテーブル、34は差分/除算回路であ
る。 あらかじめ決められたM語の認識対象語をB
i、(i=1、2、…、M)とし、これらに対応し
てそれぞれ標準的な平均パワー対数値Pi(i=
1、2、…、M)をあらかじめテーブル33に格
納しておく。格納状態を第4図に示す。平均/対
数変換回路31には周波数分析部13から得られ
たパラメータ系列xo(j)、(n=1、2、…、N)
(j=1、2、…、J)が入力として加わり、話
者の発声した認識対象語の平均パワー対数値Pが
次のように計算される。 J×Tは発声された単語の時間長を表わし、通
常1秒以下である。認識部14により発声された
音声が第k番目のBkであると、認識されると、
その結果はレジスタ32に保持され、テーブル3
3を参照して対応する第k番目の標準的な平均パ
ワー対数値Pkが求められと共に差分/除算回
路34に入力され、次式で定義される△Pが計算
される。 △P=(Pk−)/C …(2) ここでCは用意すべき増幅率の個数から決まるあ
らかじめ定められた定数である。増幅率が大きす
ぎた場合には△Pは負の値を示し、増幅率が小さ
すぎた場合には△Pは正の値を示す。増幅器12
の現時点での増幅率をAgとし、次の音声に対す
る増幅率をAhとすると、AgとAhとの間には の関係があることが望しい。 第1図の差分演算部15の出力△Pは増幅率選
択部16に送られAhが決定される。増幅率選択
部16及び増幅器12は第5図の如く構成され
る。 第5図にて51は増幅器、52及び53−1,
53−2,…53−rは抵抗、54は切換回路、
55は第3図の差分/除算回路34の出力信号
線、56は加算器、57はレジスタである。レジ
スタ57は発声音声毎の増幅率を格納するための
ものであつて初期値としてA0(定数)が格納さ
れるが、ある時点でAgが格納されているとす
る。増幅率Agの場合の音声に対する△Pが信号
線55にて送られてくると、加算器56にて(4)式
の演算が行われる。 Ah=Ag+△P …(4) (3)式は(4)式の演算により満足される。 加算器56の出力であるAhはレジスタ57に
格納され、レジスタ57の出力は切換回路54の
切換制御信号となつていて増幅器51に対し増幅
率を決定する抵抗53−1,53−2,…,53
−rの一つを選択する。レジスタ57の内容は発
声音声毎に順次適応的に更進される。なお、本実
施例ではフイードバツク抵抗を切換えて増幅率を
制御しているが増幅器の入力側の抵抗を切換えて
も良い事は明白であり、又抵抗52は切換時にフ
イードバツクループが一瞬接断しないように挿入
されている。 以上説明したように、第1の実施例では、ある
話者の音声の平均パワーと認識結果とを用いて次
に発声する音声に対する増幅率を決定しているた
め、増幅率が一定の増幅器を用いた従来の方法に
比べて話者の違いと発声音声の違いによる発声レ
ベルの変動を発声音声毎に適応的に正規化できる
ため、良好な音声波形を得ることができ、認識率
を高める利点がある。 第1の実施例では、発声された音声の平均パワ
ーと認識結果とを用いて次の発声語に対する増幅
率を決定するようになつているが、演算量を少く
する意味から平均パワーを用いる代わりに、第2
の実施例として音声の最大パワー(以下′とす
る)を用いても音声振幅正規化の効果は十分得ら
れる。この場合は、第1の実施例のテーブル中の
Pi、(i=1、2、…、M)に相当するのは標準
的な最大パワー(以下Pi′、(i=1、2、…
M)とする)であり(2)式に相当するのは第h番目
の認識結果に対して △P′=(Pk′−Log′)/C …(5) である。ただし最大パワーとは次式で定義され
る。′=max(x^(1)、x^(2)、…、x^(j)、…、
x^
(j))ここで
なる音声に対しても良好な認識を可能にする音声
振輻正規化方式に関するものである。 音声の始端、終端の検出は、話者が高雑音下の
環境にない限りは、発声前後のパワーは発声時に
比較して小さな値を示すので、発声された音声を
増幅率一定の増幅器で受けて、固定の閾値でレベ
ルを検出することにより行うのが簡単な方式であ
る。 上記の方法は簡単ではあるが声の小さな話者を
考慮して増幅率を高目にしておくとと、周囲雑音
を増幅して音声として検出しやすく、また周囲雑
音の影響を考慮して増幅率を低目にしておくと、
声の小さい発声において、発声レベルの小さな部
分の検出ができなくなり、又増幅率を高目にして
おくと発声レベルが大きい場合には増幅器が飽和
してしまうという欠点があつた。さらに個人差に
基づく声の大小だけでなく、発声音声の種類によ
つて同一話者の発声でも音声の振幅が異なるため
話者毎に振幅の正規化を行つても発声音声毎に振
幅の正規化を行わない方式では、発声音声の違い
による振幅の変動を考慮していないため、良好な
音声波形が得られないという欠点があつた。 本発明は従来の技術の上記欠点を改善するもの
で、その目的は、発声レベルの異なる話者と発声
音声の種類による振幅の変動に対し、適応的に増
幅率を変化させる音声振幅正規化方式を提供する
ことにあり、その特徴は、入力音声を増幅器によ
り増幅した後認識する音声認識装置において、一
つ前に発声した音声の特徴パラメータと、当該音
声の認識結果に従つて、後続の音声に対する増幅
器の増幅率を適応的に決定することにある。 好ましくは、特徴パラメータは、音声データ部
分のパワースペクトルの平均値又は最大値とす
る。 以下図面により実施例を説明する。第1図は本
発明の第1の実施例を示すブロツク図であり、1
1は音声信号入力端子、12は増幅器、13は周
波数分析部、14は認識部、15は差分演算部、
16は増幅率選択部の如く構成されており、以下
動作について説明する。 発声された音声はマイクロフオン等で電気信号
に変換され音声信号入力端子11を通して増幅器
12により、ある定められた増幅率で増幅され、
周波数分析部13に送られる。 周波数分析部13は、例えば第2図に示すよう
に構成される。第2図において、21は帯域波
器群、22は整流器群、23は低域波器群、2
4はマルチプレクサ、25はAD変換器の如く構
成されており以下周波数分析部の動作について説
明する。 増幅された信号はN個の帯域波器に加わり、
各帯域波器は入力信号の帯域内の成分を発生す
る。各帯域波器の出力はそれぞれ整流器群22
により整流され、低域波器群23により時間的
に平滑され、マルチプレクサ24により選ばれた
低域波器の出力がAD変換器25によりデイジ
タル量に変換されて、ある周期Tで標本化され
る。通常Nは8〜30であり、Tとしては8〜20m
Sがとられる。マルチプレクサ24の切り換え時
間は、低域波器の出力変化に比べて無視できる
ので低域波器群23の出力は同時に標本化され
ると考えられる。以下第j番目の標本化時点での
第n番目の低域波器群の出力をxo(j)、(n=
1、2、…、N)とする。 第1図において周波数分析部13により得られ
たパラメータ系列xo(j)、(n=1、2、…、N)
(j=1、2、…、J)が認識部14に送られ、
認識結果が差分演算部15に出力され、差分演算
部15と増幅率選択部16により次の発声語に対
する増幅率が決定される。 以下増幅率の決定法について説明する。 差分演算部15は第3図のように構成されてお
り、31は平均/対数変換回路、32はレジス
タ、33はテーブル、34は差分/除算回路であ
る。 あらかじめ決められたM語の認識対象語をB
i、(i=1、2、…、M)とし、これらに対応し
てそれぞれ標準的な平均パワー対数値Pi(i=
1、2、…、M)をあらかじめテーブル33に格
納しておく。格納状態を第4図に示す。平均/対
数変換回路31には周波数分析部13から得られ
たパラメータ系列xo(j)、(n=1、2、…、N)
(j=1、2、…、J)が入力として加わり、話
者の発声した認識対象語の平均パワー対数値Pが
次のように計算される。 J×Tは発声された単語の時間長を表わし、通
常1秒以下である。認識部14により発声された
音声が第k番目のBkであると、認識されると、
その結果はレジスタ32に保持され、テーブル3
3を参照して対応する第k番目の標準的な平均パ
ワー対数値Pkが求められと共に差分/除算回
路34に入力され、次式で定義される△Pが計算
される。 △P=(Pk−)/C …(2) ここでCは用意すべき増幅率の個数から決まるあ
らかじめ定められた定数である。増幅率が大きす
ぎた場合には△Pは負の値を示し、増幅率が小さ
すぎた場合には△Pは正の値を示す。増幅器12
の現時点での増幅率をAgとし、次の音声に対す
る増幅率をAhとすると、AgとAhとの間には の関係があることが望しい。 第1図の差分演算部15の出力△Pは増幅率選
択部16に送られAhが決定される。増幅率選択
部16及び増幅器12は第5図の如く構成され
る。 第5図にて51は増幅器、52及び53−1,
53−2,…53−rは抵抗、54は切換回路、
55は第3図の差分/除算回路34の出力信号
線、56は加算器、57はレジスタである。レジ
スタ57は発声音声毎の増幅率を格納するための
ものであつて初期値としてA0(定数)が格納さ
れるが、ある時点でAgが格納されているとす
る。増幅率Agの場合の音声に対する△Pが信号
線55にて送られてくると、加算器56にて(4)式
の演算が行われる。 Ah=Ag+△P …(4) (3)式は(4)式の演算により満足される。 加算器56の出力であるAhはレジスタ57に
格納され、レジスタ57の出力は切換回路54の
切換制御信号となつていて増幅器51に対し増幅
率を決定する抵抗53−1,53−2,…,53
−rの一つを選択する。レジスタ57の内容は発
声音声毎に順次適応的に更進される。なお、本実
施例ではフイードバツク抵抗を切換えて増幅率を
制御しているが増幅器の入力側の抵抗を切換えて
も良い事は明白であり、又抵抗52は切換時にフ
イードバツクループが一瞬接断しないように挿入
されている。 以上説明したように、第1の実施例では、ある
話者の音声の平均パワーと認識結果とを用いて次
に発声する音声に対する増幅率を決定しているた
め、増幅率が一定の増幅器を用いた従来の方法に
比べて話者の違いと発声音声の違いによる発声レ
ベルの変動を発声音声毎に適応的に正規化できる
ため、良好な音声波形を得ることができ、認識率
を高める利点がある。 第1の実施例では、発声された音声の平均パワ
ーと認識結果とを用いて次の発声語に対する増幅
率を決定するようになつているが、演算量を少く
する意味から平均パワーを用いる代わりに、第2
の実施例として音声の最大パワー(以下′とす
る)を用いても音声振幅正規化の効果は十分得ら
れる。この場合は、第1の実施例のテーブル中の
Pi、(i=1、2、…、M)に相当するのは標準
的な最大パワー(以下Pi′、(i=1、2、…
M)とする)であり(2)式に相当するのは第h番目
の認識結果に対して △P′=(Pk′−Log′)/C …(5) である。ただし最大パワーとは次式で定義され
る。′=max(x^(1)、x^(2)、…、x^(j)、…、
x^
(j))ここで
【式】である。第3
図においてテーブル33の内容をPi(i=1、
2、…、M)からPi′(i=1、2、…、M)に
変更しておけば良く、(4)式に相当するのは Ah=Ag+△P′ …(6) であり、第1の実施例と同様な音声振幅正規化効
果が得られる。 第1の実施例では、周波数分析部13の一例と
してアナログ帯域波器群による分析を対象とし
て記述したが、デイジタルフイルタを用いても周
波数分析機能は変わるところがなく後の処理は同
一で良く、音声振幅正規化効果は変わらない。ま
た第1、第2の実施例では次の発声語に対する増
幅率を決定するのに特徴パラメータとして平均パ
ワーあるいは最大パワーを用いているので、必ず
しも周波数分析の必要はなく、周波数分析部13
の代わりにハードウエアが簡単な自己相関分析を
用いても良く、その場合パワーは第0次の自己相
関関数で得られる。 本発明は、話者の1つ前に発声した音声の認識
結果と特徴パラメータを用いて次に発声される音
声に対する増幅率を決定するため、発声レベルの
違いを正規化できるので特定、不特定話者を問わ
ず音声認識装置に利用してその効果は大きい。
2、…、M)からPi′(i=1、2、…、M)に
変更しておけば良く、(4)式に相当するのは Ah=Ag+△P′ …(6) であり、第1の実施例と同様な音声振幅正規化効
果が得られる。 第1の実施例では、周波数分析部13の一例と
してアナログ帯域波器群による分析を対象とし
て記述したが、デイジタルフイルタを用いても周
波数分析機能は変わるところがなく後の処理は同
一で良く、音声振幅正規化効果は変わらない。ま
た第1、第2の実施例では次の発声語に対する増
幅率を決定するのに特徴パラメータとして平均パ
ワーあるいは最大パワーを用いているので、必ず
しも周波数分析の必要はなく、周波数分析部13
の代わりにハードウエアが簡単な自己相関分析を
用いても良く、その場合パワーは第0次の自己相
関関数で得られる。 本発明は、話者の1つ前に発声した音声の認識
結果と特徴パラメータを用いて次に発声される音
声に対する増幅率を決定するため、発声レベルの
違いを正規化できるので特定、不特定話者を問わ
ず音声認識装置に利用してその効果は大きい。
第1図は本発明の装置を示すブロツク図、第2
図は周波数分析部の一実施例、第3図は差分演算
部のブロツク部、第4図はテーブル内の格納状態
を示す図、第5図は増幅率選択回路のブロツク図
である。 11……音声信号入力端子、12……増幅器、
13……周波数分析部、14……認識部、15…
…差分演算部、16……増幅率選択部、21……
帯域波器群、22……整流器群、23……低域
波器群、24……マルチプレクサ、25……
AD変換器、31……平均/対数変換回路、32
……レジスタ、33……テーブル、34……差
分/除算回路、51……増幅器、52……抵抗、
53−1,53−2,…,53−r……抵抗、5
4……切換回路、55……信号線、56……加算
器、57……レジスタ。
図は周波数分析部の一実施例、第3図は差分演算
部のブロツク部、第4図はテーブル内の格納状態
を示す図、第5図は増幅率選択回路のブロツク図
である。 11……音声信号入力端子、12……増幅器、
13……周波数分析部、14……認識部、15…
…差分演算部、16……増幅率選択部、21……
帯域波器群、22……整流器群、23……低域
波器群、24……マルチプレクサ、25……
AD変換器、31……平均/対数変換回路、32
……レジスタ、33……テーブル、34……差
分/除算回路、51……増幅器、52……抵抗、
53−1,53−2,…,53−r……抵抗、5
4……切換回路、55……信号線、56……加算
器、57……レジスタ。
Claims (1)
- 1 入力音声を増幅器により増幅した後認識する
音声認識装置において、同一話者が一つ前に発声
した音声データ部分のパワースペクトルの平均値
又は最大値を特徴パラメータとし、特徴パラメー
タと発声された音声の認識結果とに従つて後続の
音声に対する前記増幅器の増幅率を決定すること
を特徴とする音声振幅正規化方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56063991A JPS57179898A (en) | 1981-04-30 | 1981-04-30 | Voice amplitude normalization system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56063991A JPS57179898A (en) | 1981-04-30 | 1981-04-30 | Voice amplitude normalization system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS57179898A JPS57179898A (en) | 1982-11-05 |
JPS6257040B2 true JPS6257040B2 (ja) | 1987-11-28 |
Family
ID=13245249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56063991A Granted JPS57179898A (en) | 1981-04-30 | 1981-04-30 | Voice amplitude normalization system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS57179898A (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58125099A (ja) * | 1982-01-20 | 1983-07-25 | パイオニア株式会社 | 音声認識装置 |
JPS58173797A (ja) * | 1982-04-05 | 1983-10-12 | 日産自動車株式会社 | 車両用音声認識装置 |
JPS60200299A (ja) * | 1984-03-23 | 1985-10-09 | 日本電気株式会社 | 音声認識装置 |
JPS6180200A (ja) * | 1984-09-27 | 1986-04-23 | 株式会社日立製作所 | 音声認識装置 |
JPS63220198A (ja) * | 1987-03-09 | 1988-09-13 | 日本電気アイシーマイコンシステム株式会社 | 音声分析装置 |
JPH01129636U (ja) * | 1988-02-19 | 1989-09-04 | ||
JPH04293939A (ja) * | 1991-03-25 | 1992-10-19 | Asahi Chem Ind Co Ltd | 多孔膜の改質方法 |
JPH056926U (ja) * | 1991-07-03 | 1993-01-29 | 株式会社ケンウツド | 音声認識装置用音量調整回路 |
-
1981
- 1981-04-30 JP JP56063991A patent/JPS57179898A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS57179898A (en) | 1982-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108630202B (zh) | 语音识别装置、语音识别方法以及记录介质 | |
JP4764995B2 (ja) | 雑音を含む音響信号の高品質化 | |
EP0077194B1 (en) | Speech recognition system | |
JP2962732B2 (ja) | 補聴器用信号処理システム | |
Hellwarth et al. | Automatic conditioning of speech signals | |
JP2004507141A (ja) | 音声強調システム | |
JP2013109346A (ja) | 自動利得制御 | |
US8223979B2 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise | |
US7539614B2 (en) | System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes | |
KR20200026896A (ko) | 음성 신호 레벨링 | |
JPS6257040B2 (ja) | ||
JP5863928B1 (ja) | 音声調整装置 | |
JPS60247697A (ja) | 音声対話装置 | |
CN113555033A (zh) | 语音交互系统的自动增益控制方法、装置及系统 | |
JP3553828B2 (ja) | 音声蓄積再生方法および音声蓄積再生装置 | |
US6539350B1 (en) | Method and circuit arrangement for speech level measurement in a speech signal processing system | |
JP3961616B2 (ja) | 話速変換方法および話速変換機能付補聴器 | |
US20220165287A1 (en) | Context-aware voice intelligibility enhancement | |
JPH09311696A (ja) | 自動利得調整装置 | |
JP4127155B2 (ja) | 聴覚補助装置 | |
JP3393532B2 (ja) | 録音音声の音量正規化方法およびこの方法を実施する装置 | |
JPH08250944A (ja) | 自動音量制御方法およびこの方法を実施する装置 | |
JP2966452B2 (ja) | 音声認識装置の雑音除去システム | |
JP2975808B2 (ja) | 音声認識装置 | |
JPH0773175B2 (ja) | 自動利得制御装置 |