JPS62242999A

JPS62242999A - 音声認識における雑音補償

Info

Publication number: JPS62242999A
Application number: JP62083678A
Authority: JP
Inventors: ナイジエル・チヤールズ・セジウイツク; ジヨン・ニコラス・ホウムズ
Original assignee: National Research Development Corp UK
Current assignee: National Research Development Corp UK
Priority date: 1986-04-04
Filing date: 1987-04-03
Publication date: 1987-10-23
Also published as: EP0240329A2; GB2188763A; GB8608288D0; GB8707770D0; EP0240329A3; GB2188763B

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音の認識において雑音効果を緩和する装置およ
び方法、特に動的時間歪曲法（ｄｙｎａｍｌ　ｃｔｉｍ
ｅ　ｗａｒｐｉｎｇ　ＤＴＷ　）を用いての音声認識に
おいて全語／ＩＰターン整合を行なうための装置と方法
に係わる。

音声認障装置の多くハ、マイクロフォンから入力される
信号を電子アナログフィルタとして構成したフィルタパ
ンクまたはそれに相当する集積回路信号処理装置等によ
って分析して入力のスペクトル分析を行なう。こうして
得た信号を平滑化し、通常１０ミリセカンド毎の短時間
ノーワースベクトル（フレームと称する）の推定値を得
る。これらの出力・信号が認識プロセスにおいて使用さ
れる。

その後、認、＆装置のトレーニングを何なう間ＫＭ得で
れたテンプレートスペクトルと入カスーξクトルの比較
を１通常は「距離」測定値を算出することによって行な
う。

全語式自動音声ｆ！識法の用途は、背景の雑音が高レベ
ルの環境であることが多い。この背景雑音に一定の場合
もあろうが、大抵は時間の経過と共に徐々にスペクトル
が変化して行くことが多い。

従来の雑音効果軽減方法、および本発明に関する記載に
おいて「入力」という用語は、動作中の音声認識ｇ＆置
に対する入力を指す。また「セル」という用語は、入力
音声またはトレーニング用音声における特定フレームの
時定フィルタパンクのチャネルのレベルを指す。スペク
トルの各部分を別個に保持しない音響分析法（Ｍ形予側
コード化法やセフストラム法（ｃｅＸｒｕｍ　ｍ＠ｔｈ
ｏｄ　）等）は雑音補償が不十分であるため、フィルタ
パンク分析法を採用する。音響分析法の場合、偏号スペ
クトルの雑音部分と主として音声による成分とを混合し
てしまうため、その後スペクトルのどの部分が雑音によ
る汚染を受けているかを判別できなくなる。

背景雑音信号は経時変化に伴なって推定する必要がある
。これは音声が存在しない時のマイクロフォン信号を使
用して行なうことがでさる。また雑音信号のみを供給す
るマイクロフォンを別個に使用しても行なうことができ
る。

雑音レベルの誦い条件下では低レベル領域のスペクトル
にしか相違のない語どうしをどこが雑音による汚染がひ
どいか全区別することは原則的に不可能であることが認
めら′！′した。従って語を同定する上で真の証拠とな
るスペクトルの高レベル部分の任意の音声情報全十分に
利用し、しがも雑音汚染がひどすぎて使用に適でない任
意情報を無視でさる方法が必要となる。

Ｄ、　Ｈ，クランド（Ｋｌａｔｔ　）著、［スペクトル
整合用ディジタルフィルタパンクＪ　（Ｐｒｏｅ、　Ｉ
ＥＥＥＩｎｔ＠Ｃｏｎｆ、　ｏｎ　Ａｃｏｕｓｔｉｃｍ
、　Ｓｐ・・ａｈ　ａｎｄＳｌｇｎａｌ　　Ｐｒｏｃ＠
ｓｓｉｎｇ、Ｐｈ１ｌａｄｓｌｐｈｌａ、ＰＡ。

１９７６、ｐｐ５７３−５７６）の中でクラットは、雑
音の存在下で有効なスペクトル距離測定値を求めること
が困難であることを認めた上で、フィルタパンク分析器
と共に「雑音マスキング」ｆｆ−匣用することを提唱し
ている。この方法では比較するフレーム対毎に真なる複
合雑音マスクを使用する。

各フノームの各チャネルに１＋Ａしてマスクを、テンプ
レートｊ？よび入カスベクトルと関連する雑音レベルの
うち高い方のレベルと等しくする。対応するチャネルの
マスクより下の各入力またはテンプレートセルについて
は、マスク値に置き代える。

次に逼味付き平方ユークリッド距離測定値を用いて、マ
スクされた入カスベクトルとテンプレートスペクトルの
比較を行なう。この方法によると基底にある音声が類似
の語が常によく整合するようになるが、どちらも同じ値
でマスクしているため、２つの雑音汚染セルの雑音レベ
ルがたまたま異なることかあってもそこから偽の距離測
定値が誘導されること（ｆ′ｉない。クラットの方法は
入手し得る情報を全部使用しているわけではない。比較
する２つの・９ターンが、著しく差異の大きい雑音レベ
ルと１先述している場合を考えてみよう。もし１音しヘ
ｔｖ　）＋２い／’Ｐターンからのセルが雑音レベルの
すぐ上にあり、かつこｒｔを雑音レベルの低いノ母ター
ンの雑音レベルに近いセルと比較する場合は、クラット
のアルゴリズムではマスキング分しない−Ｃｔより小孕
い距離が与えられる。ところが基底にある音声１５号間
の真の距離は、少なくともマスクはれないセル間の距癲
でちることは明白で、−ｂる。

クラットの方法を下の表１に示す。表中でｆは入カッセ
ルレベル、ｔはテンプレートのセルレベル、Ｃは入力の
誰音レベルとテンプレートの鞠音レベルのうち高い方に
等しい複合マスクレベルである。

表　　　１クラットの雑音マスキング法の限界を克服する試みの１
つとして、英国特許出願第２１３７７９１Ａ号（ブリド
ル他（Ｂｒ１ｄｌｅ　＠ｔ　ｍｌ）　）は雑音補償の几
めの雑音標識法について記成している。この方法もクラ
ットの方法と同様、トレーニング中も動作中も雑音スペ
クトルの連続的推定を維持しておく必要がある。音声が
分析器に入るに従がって各セルを標識化するが、この時
その時点でのそのチャネルに関する雑音推定値よりセル
レベルの方が高ければ音声と標識し、そうでなければ雑
音として標識する。フレームをマスクするので１はなく
標識化するところがクラットの方法と異なる点であり、
入力フレームについては入力の雑音推定＋＋ｆａに従っ
てこれを行ない、テンプレートフレームについてはテン
プレートの雑音推定値に従って行なう。その後の整合に
おいて（従来の！霜アルゴリズムによる）１入力セルお
よびテンプレートセルが音声として標識されているか雑
音として４遣されているかによって距離測定値を算出す
る。もし比較する２つのセルのうち大きい方が音声とし
てえ低い方のセルが雑音として標識されている場合でも
、その距離が少なくとも測定距離でなければならないこ
とは周知である。大きい方のセルが雑音として標識され
ている場合は、基底にある音声信号間の差の大きさを明
らかにする例証がなくなる。この場合プリドルらは測定
距離を無視し、同一であるか等斤を含むスペクトルが４
の完全な腎合金与えるのを防止するべく、ゼロではない
一定の「・１音距離」を加算すること全提唱している。

プリドルらの方法を下の表２に示す。表中のｆおよびｔ
は表１で定義した通りであり、Ｄは経験的に選択した一
定の雑音距離である。

表　　２プリドルらの方法は、クラットの方法に比較して入手し
得る情報をうまく利用していると言える。

しかしテンプレートセルがｅｌ！されていないのに入力
に標識されている場合は、テンプレートセルレベルが入
力レベルと父差する時に使用される距離に有害な不連続
が生じる。

本発明のＩ耳１の局面によると、音響システムのトレー
ニング方法が提供される。この方法は、認識すべき音を
周波数スペクトルの各領域において連続的時間に第１形
式および第２形式の信号の何れかで表わすことによって
、見本音からマスクされたテンプレート信号を生成する
ことから成る。

前記第１形式の信号は、全トレーニングエ、程において
その領域で遭遇する最高雑音レベルより信号レベルの方
が商い各領域の見本音を表わす信号レベルであり、一方
の前記第２形式の信号は、該領域の信号レベルの方が前
記ｋＤ雑音レベルより低い場合に前記最高雑音レベルを
表わすマスキングレベルである。

スペクトル領域は通常の場合チャネルである。

クラットおよびプリドルらの方法は対称法であり、距離
の算出を行なう際にテンプレートと入力を区別していな
い。しかし、考慮に入れるべき固有の非対称性が存在す
る友め、有効なテンプレートフレーム全部が１つ１つの
入力フレームと比較きれる。もし雑音レベルがトレーニ
ング中に変化した場合は、同じ入力セルに関する距離測
定値が異なる蝿音値を用いて準備されたテンプレート間
で擬似的に相異する可能性がある。

本発明の第１局面には、このような問題の大半を克服で
きるという利点がある。

本発明の第２局面によ゛ると、音声から誘導された信号
の処理に使用する装置が提供される。この装置は、一機数のマスクされたテンプレート信号を記憶する手段
であって該信号のそれぞれが認識すべき音の周波数スペ
クトルを表わし、かつそれぞれがテンプレート信号の生
成時にその領域にあった最高雑音レベルの方が生成に使
用された入力信号より高かった全ての領域においてマス
キングレベルで表わされ、各粗域のマスキングレベルカ
ッの領域のｍ記最高雉音レベルを茨わしているＪ手段と
。

−入力雑音レベルを推定する手段と。

−、Ｊ　識中は、雑斤レベル以下の入力信号の周波数ス
ペクトル領域があればそれをその領域の雑音レベルを表
わすマスキングレベルで表わすことによってマスクされ
た入力信号をｈ　辞する手段と、−ｖ＆識中は、マスク
され九谷入力信号の各領域とマスクされたテンプレート
セルの対応領域との比較を、対応領域にＩＡする所定規
則の中の第１規則と少なくとももう１つの規則に従って
行なうことによって入力信号の周波数スペクトルの各明
域に関する距雅曲１定埴を誘導する手段と會含んで成り
、前記所定規則が、（ａ）マスクされた入力１８号およびテンプレートイｇ
号が共にマスクされない信号レベルによって表わされる
場合は、それらのマスクされない信号レベルから距離１
１１１１定値を、ト尋することと、（ｂ）マスクされた
入力１Ｊ号およびテンプレート信号がそれぞれマスキン
グレベルとマスクされない信号レベルとで表わされる場
合で、かつマスキングレベルの方がマスクされない（ｇ
号しベルより晶イＬ）Ｊ合は、距ｌ？１！夕１１定値を
所定値とし、その他の場合はマスキングレベルとマスク
されない信号レベルから化１１＋Ｉ測定値を誘導するこ
とと。

（ｃ）マスクされた入力（Ｍ号およびテンプレート１３
号がそれぞれマスクされない信号レベルとマスキングレ
ベルとで表わされる場合は、マスクされない信号レベル
とマスキングレベルとから距ｌｉａ測定値を誘導するこ
とと、（ｄ）マスクされた入力信号およびテンプレート信号が
共にマスキングレベルで表わされる場合で、かつ入力の
マスキングレベルの方がテンプレートのマスキングレベ
ルより高い場合は、距離測定値を１ｒｒｌ−ｔたは異な
る所定値とし、その他の場合はマスキングレベルから距
離測定値を訪害することとから成る。

本発明がクラットの方法とプリドルらの方法の長所を維
持しながらかつそれらの方法の限界を克服し得たのは、
主としてトレーニング中の最大雑音レベルによってテン
プレートをマスクし友ことによる。

距離測定値を誘導する際は、上記の規則を全て適用する
のが望ましく、ま九前記所定値は同じ値とし、ゼロにす
るのが望ましい。

２つの信号レベル間の差を二乗することによって、２つ
のレベルから距離測定値を誘導することができる。次に
規則（ｂ）　、　（ｅ）　、　（ｄ）を挙けた理由を示
す。もしテンプレートのセル値が雑音の結果であれば、
例えそれが入力セルより大きくても特に処理する必要は
ない。テンプレート信号は全てトレーニング時の最高雑
音セルレベルに関してマスクされているため、トレーニ
ング時の雑音閾値以下のすぺでの競うテンプレートセル
は全て同じ距離を与えるからである。雑音レベル以上の
テンプレートセルは、正確には距離に対する寄与の仕方
が異なるものとなる。従ってテンプレートを生成した音
声信号が異なるものであるという証拠が無い場合は、各
テンプレートに関して距離が同一になるが、入手し得る
情報で確実なものは使用される。

以上に概略的に示した状況において、「雑音距離」を望
ましくはゼロにすべきであり、そうでないとテンプレー
トセルの値が入力雑音レベルと又差する時に距離測定に
有害な中断を生じる恐れがある。

雑音入力レベルを推定する手段は、捕音信号のみを与え
る別個のマイクロフォンを含むか、あるいは１つのマイ
クロフォンで雑音のみと雑音プラス音声とを区別するた
めの手段を富むことができる。

本発明はまた、本発明の第２局面に対応する方法も含む
。

次に添付図面を参照しながら本発明の実施態様について
例示的に説明することにする。

具体例第１図において、マイクロフォン１０が認識すべき音／
ｌＪを受け、これを非線形増幅器１１に通してダイナミ
ックレンジの広い入力信号とした後。

結果的に得られた信号がアナログ／ディジタル（Ａ／Ｄ
　）変換器１２に達する。デイジタルフイ゛ルタバンク
１３が、周波数スペクトルの各部分における信号の信号
・／ペルを表わす出力信号を供給する。図では出力を４
つしか示していないが、実際には１０個から２０個の間
が普通である。各肝域フィルタから出される信号を１通
常１０ミリセカンド毎に出力イイ号ケ出す平滑器１４に
送る。これらのより長い時間の一区切りがフレームとし
て知られ、平滑化された各出力（スペクトル部分に対応
する）が１つのチャネルレベルとして知うレる。フレー
ム１つのチャネルレベルがセルトじて・Ｊ：コられるも
のである。

次にマスク回路１５において雑音のマスキング１行なう
。ここでは、Ｋ声の無い１［芋にＦ：零ｒ戻部１０〜１
４および１音推定ｚＨ＞　ｔ　ｓによって分析された入
力准Ｐスペクトルが、−Ｈ（声認誦中の各フレームのｈ
チャネルの入力雑音レベルと比較される。このようなス
ペクトルの例を示したのが第２（ａ）図であり、市直軸
が信号レベルを、水平軸は周波数を表わす。ここでは連
続的に示！ているが実際にはこの例の場合では上述のフ
ィルタパンクの出力から作成したものである。マスキン
グは、ｉｆｆレベルの方が入力レベルより高い場合は必
ず人カスベクトルの代わりに雑音スペクトルを用いるこ
と７Ｊ）ら成る。従ってｅ　２　（ａ１図の各領域でマ
スクされた入力は、その領域の２本の線のうち上の方か
ら成る。

マスクされたテンプレートは先のトレーニングにおいて
例えば構成部１０〜１４および１８を用いて生成され、
各テンプレートが発声されｔ語１つを表わす。１２（ｂ
）図に示す標識付テンプレートスペクトルのようなスペ
クトルが、トレーニングにおいて雑音スペクトルとして
生成される。この雑音スペクトルは、トレーニング中に
見られる各チャネルの最大雑音レベルから形成される。

このようなスペクトルの１例が、第２（ｂ）図に示した
標識付テンプレート准音スＲクトルである。次に各チャ
ネルの２つのレベルのうち高い方を取って、マスクシタ
テンプレートスペクトルを各認識すぺ＠語毎に形１ｆｆ
ｌＬ、記憶装置１６に記ｉ、はさせる。

認、Ｉｌ＆はｒ）ＴＷゾロセッサ１７によって行なう、
、ＤＴＷグロセツサ１７は距離の一１１定を下の表３に
準じて算出する方法をとる以外は従来のものと同じであ
る。衣３１Ｆ、ｆとｔは先に使用した値をとり、ＡとＢ
はそれぞれ入力セルとテンプレートセルの雑音レベルで
ある。

表　　　３ ■ １２（ｅ）図も距離測定値の算出方法を示しており、マ
スキングしていないレベルヲ実線で、マスキングを施し
たレベルを破線で示している。図を領域外けし、各領域
の距離測定法を下の水平軸に示している。

本発明は上に特定的に示した以外にも色々な方法で実施
することができる。例えば、ここに示したよりな瞳別回
路の・践つか、あるいはその全部に代えて１つまたはそ
れ以上のマイクロプロセッサ、時に信号プロセッサ集積
回路を用いてもよい。構成部１０〜１４および１７につ
いては多ぐの変形例および代害物が周知となっているが
、その殆んどを本発明の実施に用いることができる。

【図面の簡単な説明】

第１図は不発明の１実施態様を使用した音声語、１１に
装置のブロック線図、第２（ａ）図は入カスベクトルと
それに関連する雑音スペクトルを示す図、第２（ｂ）図
はテンプレートスペクトルとそれに関連する雑音スペク
トル金示す図、第２（Ｃ）図は雑音マスキングの実行方
法および測定距離の誘導方法を示す図である。１０・・・マイクロフォン、１２・・・（Ａ／Ｄ　）変
換器、１３・・・ディジタルフィルタパンク、１４・・
・平滑器、１５・・・マスク回路、１６・・・マスクテ
ンプレート記憶装置、１７・・・田Ｗプロセッサ、１８
・・・雑音推定器。

Claims

【特許請求の範囲】（１）音響認識システムのトレーニング方法であつて、
認識すべき音を周波数スペクトルの各領域において連続
時間的に第１形式および第２形式の信号のいずれかで表
わすことによって、見本音からマスクされたテンプレー
ト信号を生成することから成り、前記第１形式の信号は
、マスクテンプレート信号の実効的生成を行なう間にそ
の領域で遭遇する最高雑音レベルより信号レベルの方が
高い各領域の見本音を表わす信号レベルであり、前記第
２形式の信号は、該領域の信号が前記最高雑音レベルよ
り低い場合に前記最高雑音レベルを表わすマスキングレ
ベルである方法。（２）スペクトル領域が一波によって誘導されるチャネ
ルである、特許請求の範囲第１項に記載の方法。（３）音声から誘導された信号の処理に使用する装置で
あって、 −複数のマスクされたテンプレート信号を記憶する手段であって、該信号のそれぞれが認識すべき
音の周波数スペクトルを表わし、かつそれぞれがテンプ
レート信号の生成時にその領域にあった最高雑音レベル
の方が生成に使用された入力信号より高かった全ての領
域においてマスキングレベルによって表わされ、各領域
のマスキングレベルがその領域での前記最高雑音レベル
を表わしている該手段と、 −入力雑音レベルを推定する手段と、 −認識中に、雑音レベル以下の入力信号の周波数領域があればそれをその領域の雑音レベルを表わ
すマスキングレベルで表わすことによってマスクされた
入力信号を誘導する手段と、 −認識中に、マスクされた各入力信号の各領域とマスクされたテンプレート信号の対応領域との比
較を、対応領域に関する所定規則の中の第１の規則と少
なくとももう１つの規則に従って行なうことによって入
力信号の周波数スペクトルの各領域に関する距離測定値
を誘導する手段とを含んで成り、前記所定規則が、（ａ）マスクされた入力信号およびテンプレート信号が
共にマスクされない信号レベルによって表わされる場合
は、それらのマスクされない信号レベルから距離測定値
を誘導することと、（ｂ）マスクされた入力信号およびテンプレート信号が
それぞれマスキングレベルとマスクされない信号レベル
で表わされる場合で、かつマスキングレベルの方がマス
クされない信号レベルより高い場合は、距離測定値を所
定値とし、その他の場合はマスキングレベルとマスクさ
れない信号レベルから距離測定値を誘導することと、（ｃ）マスクされた入力信号およびテンプレート信号が
それぞれマスクされない信号レベルとマスキングレベル
で表わされる場合は、マスクされない信号レベルとマス
キングレベルとから距離測定値を誘導することと、（ｄ）マスクされた入力信号およびテンプレート信号が
共にマスキングレベルで表わされる場合で、かつ入力の
マスキングレベルの方がテンプレートのマスキングレベ
ルより高い場合は、距離測定値を同一または異なる所定
値とし、その他の場合はマスキングレベルから距離測定
値を誘導することから成る装置。スペクトル領域がろ波によって誘導されるチャネルである、特許請求の範囲第３項に記載の装置。（５）前記各領域に関する距離測定値を誘導する手段が
、該距離測定値の誘導される２つのレベル間の差を二乗
することによってそれを行なうように構成されている、
特許請求の範囲第３項に記載の装置。（６）前記雑音入力レベルを推定するための手段が第１
マイクロフォンを含み、前記マスクされた入力レベルを
誘導する手段が第２マイクロフォンを別個に含んでいる
、特許請求の範囲第３項に記載の装置。（７）前記雑音入力レベルを推定する手段と前記マスク
された入力レベルを誘導する手段とが共有のマイクロフ
ォンと、雑音と雑音プラス音声を分離する共有の手段と
を有している、特許請求の範囲第３項に記載の装置。（８）音声から誘導された信号を処理するのに使用され
る方法であって、 −複数のマスクされたテンプレート信号を記憶する段階であって、該信号のそれぞれが認識すべき
音の周波数スペクトルを表わし、かつそれぞれがテンプ
レート信号の生成時にその領域にあった最高雑音レベル
の方が生成に使用された入力信号より高かった全ての領
域においてマスキングレベルによって表わされ、各領域
のマスキングレベルがその領域での前記最高雑音レベル
を表わしている該段階と、 −入力雑音レベルを推定する段階と、 −認識中に、雑音レベル以下の入力信号の周波数スペクトルの領域があればそれをその領域の雑音
レベルを表わすマスキングレベルで表わすことによって
マスクされた入力信号を誘導する段階と、 −認識中に、マスクされた各入力信号の各領域とマスクされたテンプレート信号の対応領域との比
較を、対応領域に関する所定の規則の中の第１規則と少
なくとももう１つの規則に従って行なう段階とを含んで
成る入力信号の周波数スペクトルの各領域に関する距離
測定の誘導段階とを含み、前記所定規則が、（ａ）マス
クされた入力信号およびテンプレート信号が共にマスク
されない信号レベルで表わされる場合は、それらのマス
クされない信号レベルから距離測定値を誘導することと
、（ｂ）マスクされた入力信号およびテンプレート信号
がそれぞれマスキングレベルとマスクされない信号レベ
ルで表わされる場合で、かつマスキングレベルの方がマ
スクされない信号レベルより高い場合は距離測定値を所
定値とし、その他の場合はマスキングレベルとマスクさ
れない信号レベルとから誘導することと、（ｃ）マスクされた入力信号およびテンプレート信号が
それぞれマスクされない信号レベルとマスキングレベル
で表わされる場合は、マスクされない信号レベルとマス
キングレベルとから距離測定値を誘導することと、（ｄ）マスクされた入力信号およびテンプレート信号が
共にマスキングレベルによって表わされる場合で、かつ
入力のマスキングレベルの方がテンプレートのマスキン
グレベルより高い場合は距離測定値を同一または異なる
所定値とし、その他の場合はマスキングレベルから距離
測定値を誘導することとから成る方法。（９）スペクトル領域がろ波によって誘導されるチャネ
ルである、特許請求の範囲第８項に記載の方法。（１０）各距離測定値が、距離測定値を誘導する２つの
信号レベル間の差を二乗することによって誘導される、
特許請求の範囲第８項に記載の方法。