JPS63503487A

JPS63503487A - 音声処理装置

Info

Publication number: JPS63503487A
Application number: JP62503341A
Authority: JP
Inventors: フォーズ　ニコラス・ジョン・アーノルド
Original assignee: ブリティシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニ
Priority date: 1986-06-02
Filing date: 1987-05-29
Publication date: 1988-12-15
Anticipated expiration: 2011-12-11
Also published as: EP0248609B1; ATE183009T1; KR880701435A; DE3750314D1; JPH0677894A; DE3750314T2; HK137096A; EP0248609A1; US4912766A; JP2561850B2; FI92113B; FI872450A; FI92113C; CA1310418C; DK282587A; WO1987007750A1; JP2654503B2; EP0750291A1; ATE109582T1; FI872450A0

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】音声処理装置〔技術分野〕本発明は自動利得制御機能を備えた音声処理装置に関し、特に音声認識に関する。

〔背景技術〕

自動音声認識装置は、可聴音声信号から抽出した特徴を比較することにより動作する。ＦＪｊｗ！ｉシようとする音声から抽出した特徴を既知の発話から抽出して蓄えた特徴と比較する。

正確な認識のために、異なる時間に話された同じ語または音から抽出した特徴が、十分に類似していることが重要である。しかし、音声のダイナミックレンジが広い場合、特に、マイクロホンにより受信される音声レベルが非常に広い範囲にわたって変化するハンドフリー電話の場合には、特徴を類似させることが困難になる。この音声レベルの変化を補償するため、多くの音声認識装置では何らかの形態の自動利得制御（ＡＧＣ）が用いられている。

自動利得制御回路は、特徴抽出回路が使用する平均信号レベルをある所定の時間にわたって可能なかぎりほぼ一定に保つことができるように、利得を制御する。

したがって、静かな発話のときには、大声の発話に比較して大きな利得が与えられる。この形態の自動利得制御回路は、連続音声を入力信号とする場合には良好に動作する。

これは、ある時間が経過すると自動利得制御回路が信号レベルを最適化し、矛盾のない特徴抽出ができるようになるからである。しかし、無音の場合には、自動利得制御回路の利得が背景雑音により決定されるレベルまで増加し、発話の開始時には、自動利得制御回路の利得が高く設定されてしまう。発話中には回路の利得が自動的に制限される。利得変化の速度は、自動利得制御回路の「アタック３時間により決定される。したがって、発話の開始時には利得が非常に大きくなり、そのときに抽出される特徴は、その後に利得が制限されたときに抽出される同じ特徴に比較して、非常に大きなエネルギをもつことになる。

この歪の効果は入力信号レベルに依存し、音声レベルが高くなるほど歪が大きくなる。したがって、抽出された最初の幾つかの特徴は、理論的には同等な蓄えられた特徴と対応せず、認識特性が不十分となることがある。

本発明はこの問題を解決することを目的とする。

〔発明の開示〕

本発明は音声処理装置を提供するものであり、音声信号を受け取る入力と、音声信号からスペクトラムのパラメータを抽出する信号処理手段と、この抽出されたパラメータを二値化するアナログ・ディジタル変換器と、このアナログ・ディジタル変換器に供給される信号レベルを制御する自動利得制御手段とを備えた音声処理装置において、スペクトラムのパラメータを少なくとも一時的に蓄え、この蓄えられたパラメータのそれぞれについて上記利得制御手段により加えられた利得を示す利得係数を蓄え、標本化周期の終了時に、その周期の間に蓄えた利得係数が異なる場合にはその係数をその周期に蓄えられた最も小さい利得係数と等しい値に設定し、これに比例して、対応して蓄えられたスペクトラムのパラメータの大きさを調整することを特徴とする。

本発明の音声処理装置を音声認識装置として構成する場合には、自動利得制御手段としてディジタルに切り替え可能な減衰器を用い、音声認識を実行するマイクロプロセッサにより利得を決定する。マイクロプロセッサが利得を制御することにより、アナログ・ディジタル変換器（これは、アナログで自動利得制御を行う場合でも、特徴抽出回路と認識装置を制御するマイクロプロセッサとの間に必要である）のダイナミックレンジを越えないようにする（自動利得制御を適応させている間を除いて）。従来のアナログ自動利得制御と本発明装置との基本的な差異は、本発明装置ではマイクロプロセッサが利得の設定値を制御し、これにより、抽出されたそれぞれの特徴に対して使用された利得を蓄えることができることである。発話が終了した後に、マイクロプロセッサが完了した発話に対して最適な利得設定値を決定する。蓄えられた特徴は、すべて最適利得設定値で規格化される。このようにして、矛盾のない特徴の組を入力信号利得に独立に抽出できる。

本発明の実施例について添付図面を参照して説明する。

〔図面の簡単な説明〕

第１図は本発明実施例音声認識装置の概略的な構成図。

〔発明を実施するための最良の形態３本特許出願ではテンプレート・マツチングを用いた音声認識装置を参照して本発明を説明するが、従来から用いられているどのような音声認識装置、例えば確率モデル化（ｓｔｏｃｈａｓｔｉｃ　ｉ＋ｏｄｅｌｉｎｇ）、マルコフ・チェーン（Ｍａｒｃｏｖ　ｃｈａｉｎｅｓ）　、ダイナミック・タイムヮーピング（ｄｙｎａｍｉｃ−ｔｉｍｅｗａｒｐｉｎｇ）、音素認ｔｍ　（ｐｈｏｎｅｍｅ−ｒｅｃｏｇｎａｔｉｏｎ）でも同様に本発明を実施できる。

音声認識は、複数（一般には８ないし１６）のフィルタ・チャネルからのエネルギ白線を比較することを基本とする。音声が存在するときには、各フィルタ・チャネルからのエネルギ・スペクトラムをアナログ・ディジタル変換器で二値化してテンプレートを作成し、これをメモリに蓄える。

認識の初期段階は「トレーニング」と呼ばれ、認識装置に認識すべき語を話して参照テンプレートを生成する。認識すべき語に対する参照テンプレートが作成されると、音声認識を実行できる。

認識装置に発話を入力すると、メモリ内の参照テンプレートと比較できる試験テンプレートを作成し、最も似ているものを見つけ出す。

本発明の音声認識装置の基本的な構成要素を第１図に示す。マイクロホン１から入力され増幅器２により増幅された音声信号は、フィルタ・バンク３ａを通過する。フィルタ・バンク３ａでは、音声信号が複数（この実施例では１６）の周波数帯に濾波され、この信号が整流器４により整流される。濾波され整流された信号は、低域通過フィルタ３ｂにより平滑化され、この後に、マルチプレクサ５により順番に標本化される。マルチプレクサ５は、得られた単一チャネルの信号をディジタル自動利得制御回路８に供給する。ディジタル自動利得制御回路８は出力信号をアナログ・ディジタル変換器６に供給し、このアナログ・ディジタル変換器６から、二値化信号ストリームが制御用のマルチプレクサ７に供給される。

マルチプレクサは、それぞれのフィルタ・チャネルを２０マイクロ秒間にわたり読み取り、それが終了すると次のフィルタ・チャネルの読み取りを行う。ｌＯミリ秒のタイムスロットのそれぞれの終了時に、それぞれのチャネルでその期間に標本化されたエネルギを蓄える。トレーニング時および認識動作時に生成されるテンプレートは、それぞれのフィルタ・チャネルに対して約１００タイムスロツトの標本を含む。

ディジタル自動利得制御回路は以下の方法で動作する。マルチプレクサがフィルタ・チャネルを読み取る毎に、マイクロプロセッサは、そのチャネルのエネルギ・レベルを読み取ってアナログ・ディジタル変換器が過負荷となっているか否か、すなわち利得が大き過ぎないか否かを判断する。利得が大き過ぎるとマイクロプロセッサが判断したときには、ディジタル自動利得制御回路の利得を１段階ずつ減少させ、再びチャネルのエネルギ・レベルを観測する。利得を１段階減少させることは、利得を１．５ｄＢ引き下げることに対応する。利得が十分に引き下げられてアナログ・ディジタル変換器の過負荷を防止できるとマイクロプロセッサが判断するまで、マルチプレクサは次のチャネルの読み取りを開始しない。マルチプレクサが次のフィルタの読み取りを開始するときには、新しいチャネルのエネルギ・レベルによってアナログ・ディジタル変換器の過負荷が生じないかぎり、ディジタル利得制御回路の利得を前のチャネルで得られた低レベルに維持する。新しいチャネルのエネルギ・レベルにより過負荷が生じたときには、上述したと同様に利得を１段階ずつ引き下げる。マルチプレクサが最後のフィルタ・チャネルを読み取ったとき、マイクロプロセッサは、すべてのチャネルのエネルギ・レベルについて、その利得係数（この係数は、マイクロプロセッサに接続されたメモリに、エネルギ・レベル情報として一緒に蓄えられている）をマイクロプロセッサにより確立した新しい最小値で割って規格化する。このようにして、初期入力信号利得およびテンプレートを作成する間の利得変化と独立に、矛盾のない特徴の組を抽出できる。

音声認識装置はまた、音声または語の開始および終了を高精度に検出する必要がある。本発明の音声認識装置は、以下の技術を使用する。

Ａ、背景雑音のエネルギ・レベルを３２タイムスロツトにわたりに測定して蓄え（ｌＯミリ秒に１標本）、これと同時に、最大雑音エネルギについて、上述と同様に自動利得制御回路の利得を調節（削減）する。

Ｂ、それぞれのタイムスロットにおけるフィルタの値を総て加算し、これを１６（フィルタ・チャネルの数）で除算し、ディジタル自動利得制御回路の利得を示す利得係数を乗算し、それぞれのタイムスロットを比較して最大値を見つけることより、最大エネルギの標本を見つける。

Ｃ０音声が存在すると判断するために必要なしきい値をステップＢでめた最大雑音エネルギの１．５倍に設定する。

Ｄ、それぞれのフィルタ・チャネルに対する平均雑音エネルギを見つけて蓄え（それぞれのチャネルについて、３２タイムスロット全体のエネルギの和をめ、これを３２で割る）、雑音テンプレートを確立する。

Ｅ、これらの後にフィルタ・バンクを１０ミリ秒毎に走査し、平均フィルタ・エネルギがステップＣで計算した雑音／音声しきい値を越えるまで、１００タイムスロツトの標本を蓄えることのできる一時循環メモリにデータを蓄える。

Ｆ、３２個の標本を得た後に雑音／音声しきい値を越えていない場合には、ディジタル自動利得制御回路の利得が低く設定されていないことを確認するための検査を行う。この検査は、３２タイムスロツトの間に蓄えたフィルタ・チャネル値の最大値を見つけることにより行う。最大レベルがアナログ・ディジタル変換器の最大許容入力レベルより１．５ｄＢ以上低ければ、自動利得制御の利得を１段階増加させ、利得を１．５ｄＢ増加させる。３２個の標本を得た後でもしきい値を越えず、ディジタル自動利得制御回路の設定が正しい場合には、最新の３２個の標本について最大エネルギを見つけ（ステップＢと同様）、１．５を乗算する（ステップＣと同様）ことにより、雑音／音声しきい値を再び計算する。

Ｇ、雑音／音声しきい値を越えたときには、１００個の標本が入力されるか、または２０個の連続する標本に対してエネルギ・レベルが雑音／音声しきい値以下になるまで、フィルタ・バンクを１０ミリ秒毎に走査し、フィルタのデータをメモリに蓄え、音声テンプレートを生成する。上述したように、データ入力中にアナログ・ディジタル変換器が過負荷となったときには、自動利得制御の設定を１段階減少させ、そのフィルタ・チャネルに対するデータを再処理する。１６個のフィルタ・チャネルを走査するうちにディジタル自動利得制御回路の利得が低下した場合には、全１６チヤネルからのデータを再入力し、これにより、すべてのフィルタ・データを同一の自動利得制御設定値に対応させる。使用される自動利得制御の値には、フィルタ・データと一緒にメモリに記憶する。各タイムスロットの開始時に使用される自動利得制御の設定値は前の時間フレームから得られ、音声処理中には利得を減らすことができるだけである　（増加させることはできない）。テンプレートを作成する期間の終了時にすべてのテンプレート・データを一定の自動利得制御設定値で規格化するので、利得を増加できなくても問題はない。

Ｈ０音声／雑音の検出しきい値により音声の開始を確実に検出できるように、音声検出前の１５タイムスロツトの標本を一時循環メモリから「音声」テンプレートの前部に送り出す。

１、音声を検出するまでに１００個以上の標本を処理した場合には、一時循環メモリ内の最も古い３２個の時間フレームを解析して（ステップＤと同様）、雑音テンプレートを再度計算する。

音声検出前に１００個未満の標本しか処理していない場合には、ステップＤで確立した音声テンプレートを以下のステップで使用する。

３０以上のステップにより、音声テンプレートを作成するための自動利得制御の最小利得設定値がわかり、この設定値に対して音声テンプレートと雑音テンプレートとの双方が規格化され、これにより、双方のテンプレートが入力された値を含み、その利得が開始時から使用される。

Ｋ、規格化された雑音テンプレートを規格化された音声テンプレートの各時間フレームから減算する。

Ｌ、規格化された音声テンプレートの最大エネルギを見つけ、新しい雑音／音声しきい値、すなわち最大エネルギから１８ｄＢを引いた値を計算する。この新しいしきい値を使用して、規格化された音声テンプレートを走査し、音声の開始点および終了点を判定する。

Ｍ０次に、音声テンプレートから開始点と終了点とを除去し、メモリに蓄えるか（トレーニングの場合）、または認識のために使用する。表に、３２０　ミリ秒（１０ミリ秒のタイムスロット４３２個）にわたって背景雑音を測定したときの、メモリに蓄えられた値を例を示す。

（以下本頁余白）実際のＤＡＧＣＩ　２　３　４　５　６　７　８　９　１０１１　１２１３１４１５１６工ネルギ間４２１０２２０２３２２４５２２４２１６１６７１８８１７６２３４２５０１？７１３４１７０２１３２０９４０８フ４２１１２１８２３０２５０２２０２２２１７０１９０１７３２３０２５５１７０１３７１？２２１５２１２４０９し４２１０２２２２３４２４７２１６２２５１７１１８９１７ｇ　２３３２５３１７１１４０１７０２１４２０８４１０１４　２］３２２０２３１２５１２１８２２３１６６１８４１７４２３０２５０１６８１３３１６５２２０２１６４０８ム４２１５２１７２２８２５３２２０２２０１６０１８６１８０２３１２５４１６６１３２１６４２２３２２０４０９平均雑音テンプレートデイジタル自動利得制御（ＤＡＧＣ＞の値「４」は、アナログ・ディジタル変換器に出力する信号を６ｄＢ減衰させることに等価であり、「実際の」エネルギを計算するために、すべてのフィルタ・バンクの値を二倍した。

最大実エネルギ（すべてのフィルタの平均）は−４１０、テンプレートの記録を開始または終了するしきい値は−６１５であった。

〔産業上の利用可能性〕

本発明の基本的な利用形態は音声認識装置であり、そのような応用を例に説明した。しかし、当業者であれば、本発明を音声認識装置に利用するだけでなく、音声信号を処理して特徴を抽出するどのような装置でも利用できる。

本発明の音声処理装置は、従来からの音声処理装置では背景雑音およびそのレベルの変化が問題となるような場合に利用するに適する。このような利用例として、本発明をハンドフリー電話、特にセルラ無線端末装置（ｃｅｌｌｕｌａｒ　ｒａｄｉｏ　ｔｅｒｍｉｎａｌ）を用いたハンドフリー電話に利用できる。セルラ無線端末装置は、自動車内でしばしば使用され、音声認識を利用して、手を用いることなく呼接続およびダイヤリングを行うことができる装置である。しかし、風、道路およびエンジンの雑音が大きく変動し、音声の正確な認識が困難となる。このような利用形態のハンドフリー電話で音声認識を行うには、背景雑音があっても、命令を繰り返すという機械的必要なしに、音声による命令を正しく聴き取って動作する必要がある。

本発明により認識精度が改善されるため、本発明の音声処理装置は上述した利用形態において特に効果がある。

国際調査報告　。２，７゜９３□ｚｎｎｔ７ｇ−、、、、、、＾、−＝、、ＰＣＴ／ＧＢ　Ｂ１１００３７６　−２−入ＮＮＥＸ　Ｔｏ　ＴＨＥ　ＩＮＴＥλＮＡＴＺＯＮＡＬ　５ＥＡＲＣヨ　艮ＥＰＯＲＴ　ＯＮ

Claims

【特許請求の範囲】

１．音声信号が供給される入力手段と、音声信号からスペクラムのパラメータを抽出する信号処理手段と、この抽出されたパラメータを二値化するアナログ・ディジタル変換器と、このアナログ・ディジタル変換器に供給される信号レベルを制御する自動利得制御手段とを備えた音声処理装置において、スペクトラムのパラメータを一時的に蓄えると共に、蓄えられたパラメータのそれぞれについて、上記利得制御手段が加えた利得を表す利得係数を蓄える手段と、標本化周期の終了時に、その周期の間に蓄えた利得係数が異なる場合にはその係数をその周期に蓄えられた最も小さい利得係数と等しい値に設定し、これと共に、対応して蓄えられたスペクトラムのパラメータの大きさを調整する手段とを備えたことを特徴とする音声処理装置。
２．信号処理手段は、長さｔのタイムスロットにおいて特定の周波数帯に含まれるエネルギに対応してスペクトラムのパラメータを抽出する構成であり、それぞれの抽出されたパラメータについてアナログ・ディジタル変換器に供給する信号レベルを時間ｔを細分した時間内に決定し、この信号レベルがあらかじめ定められたレベルより大きいときには利得を低減し、この信号レベルを再び評価し、最終的なレベルが上記あらかじめ定められたレベル以下となるまで信号強度の評価および利得の低減をタイムスロットの時間ｔ内で繰り返す手段を備えた請求項１記載の音声処理装置。
３．あらかじめ定められたレベルは、アナログ・ディジタル変換器のダイナミックレンジの最大レベルに設定される請求項２記載の音声処理装置。
４．信号処理手段は、長さｔの一つのタイムスロットに含まれるスペクトラムのパラメータを多数の別々の周波数帯に対してそれぞれ確立する構成であり、異なる周波数帯を順番に読み取り、それぞれの周波数帯の最終的な利得係数を次に読み取る周波数帯の初期利得係数として使用する手段を備えた請求項２記載の音声処理装置。
５．標本化周期は長さｔの複数のタイムスロットを含む請求項２ないし４のいずれかに記載の音声処理装置。
６．音声処理装置は音声認識装置として構成された請求項１ないし５のいずれかに記載の音声処理装置。
７．利得制御手段は、入力のひとつがアナログ・ディジタル変換器の二値化出力に接続されたマイクロプロセッサの制御によりディジタルに切り替えられる減衰器を含み、この減衰器の利得はマイクロプロセッサにより決定される構成である請求項１ないし６のいずれかに記載の音声処理装置。
８．音声命令に応答して機能を選択する音声認識装置を備えたセルラ無線端末装置において、上記音声認識装置は請求項１ないし５のいずれかに記載の音声処理装置を含むことを特徴とするセルラ無線端末装置。