JPS62265700A - 音声認識における雑音補償 - Google Patents

音声認識における雑音補償

Info

Publication number
JPS62265700A
JPS62265700A JP62083679A JP8367987A JPS62265700A JP S62265700 A JPS62265700 A JP S62265700A JP 62083679 A JP62083679 A JP 62083679A JP 8367987 A JP8367987 A JP 8367987A JP S62265700 A JPS62265700 A JP S62265700A
Authority
JP
Japan
Prior art keywords
input signal
level
speech
noise level
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62083679A
Other languages
English (en)
Inventor
ナイジエル・チヤールズ・セジウイツク
ジヨン・ニコラス・ホウムズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Research Development Corp UK
Original Assignee
National Research Development Corp UK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Research Development Corp UK filed Critical National Research Development Corp UK
Publication of JPS62265700A publication Critical patent/JPS62265700A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、音声認識における雑音影響を緩和するための
装置及び方法、特に推計学的語型を用いた音声認識にお
ける全語パターン整合に係わる。
改良された〕9タ一ン整合は単純なテンプレートの代シ
に推計学的語型を用いて、即ち会話が隠しタマルコ7法
(ベルシステムズテクニカルジャーナル誌(Bell 
Systems Technical Jou−rna
l )第62巻、 1983年4月4日号、  103
5.頁〜1074頁に掲載されたレビンンン(Levi
nson )、ラピナー(Rrabiner )及びソ
ンディ(Sondhi)による「マルコフ法の確率関数
理論の自動音声認識への応用序説(An Introd
uction to the App−1icatio
n of the Theory of Probab
ilisticFunctions of a Mar
kov Process to Automatic8
peech Recognition Jを参照するこ
と)によって近似され得るとの仮定に基づいて完成され
た。
要するに、大音声は例えばフィルタのバンクによって分
析された周波数であり、また各フィルタ内の得られた信
号レベルは平滑化されてふつう10ミリ秒毎に短期ノ9
ワースベクトル(フレームト呼ばれる)の推定値を提供
する。これらの信号は多数の確率密度関数(p、 d、
 f、 s )と共にさらに処理された後、チャネル出
力を生じる大信号が認識すべき語を代表する有限状態機
械であるマルコフモデル内の状態に一致する確率を与え
る。各マルコフモデルは多数の状態を含み、通例では各
状態にかかわる各チャネルについて1つのp、 d、 
f、が存在する。p、 d、 f、 sは認識すべき語
の実例を用いてg識装置をあらかじめ訓練することによ
って得られる。作動時には、認識装置は、−現在の音響
が各状態から立上がる尤度(li″klihood)と
、iルコ7モデル内で1つの状態からもう1つの状態に
移行する確率とを考慮することによって生じる可能性の
最も高い語を計算するためにマルコフモデルを使用する
。ピテルビ(viterbi )計算法を、この基準に
基づいて最も可能性の高い語を見出すために用いてもよ
い。
実際的には尤度の対数の負数が用いられ、さらに本明細
書では、動的時間ひずみ(DTW)g識装置をまねて、
簡単のため「距離」として引用される。
p、 d、 f、s状態はしばしば対角共分散行列によ
る多変数の正規分布であると考えられ、従って各フィル
タ、Sンクチャネ/17に対して平均m及び分散$によ
って特定される。これは現在広く普及して用いられてい
る会話信号の粗い近似である。本明細書の理論は対角共
分散行列による多変数の正規分布ではないp、 d、f
、 s、をもつ推計学的モデルにも等しく適用できる。
本明細書では「入力」という語は作動中の会話認識装置
への入力を意味し、「セル」という語は入力あるいは訓
NKおける特定フレーム内の特定フィルタバンクチャネ
ルあるいは等個物のレベルを意味する。フィルタバンク
分析は一般に本発明にとって好ましい。何故ならばスペ
クトル分#11(例えば直線予測コード化法又はセブヌ
トラム法)の様々な部分を保存しない音声分析法は雑音
補償にそれほど従順ではないからである。これらの他の
音声分析法は、信号スペクトルの雑音部分を主として会
話によりひき起こされる要素と混合し、従ってスペクト
ルのどちらの部分が雑音によって汚染されているかを識
別できないからである。背景騒音信号は経時的変化につ
れて推定される必要がある。これは音声が無いときのマ
イククツオン信号を用いて行なうことができる。また雑
音信号だけを与える分離マイクロフォンを用いて行なう
こともできる。
高雑音状態においては、スペクトルの低レベル領域内で
のみ差異のある語の間ではどこが雑音によってひどく汚
染されているかを識別することは原則的に不可能である
ことが認められた。飴認識のための真の根拠として働き
得るスペクトルの高レベル部分内の任意の音声情報を全
部利用し、但し雑音によって損なわれすぎて使用できな
い任意情報を無視できる技術が求められる。
訓練過程の音声は雑音に完全に汚染されておらず、かつ
入力セルfが雑音レベルを上端わっているとき、さらに
対角共分散行列による多変数の正規分布の場合には、各
チャネルのp、 d、 f、は次の形をもつ。
従って距離は、 である。
しかし入力セルが雑音でうるさいことが分かったときの
状況は極めて様々である。その実際値が下に位置を占め
る信号に敏感に係わる可能性がなく、実際には雑音によ
る信号の機会相殺のため全く低くさえあり得る。指って
うるさい入力セルの距離測定を導出する様々な方法を用
いることが必要である。
本発明の第1の局面によれば、音声認識に使用するため
の装置で、 一周波数スベクトル内の各領域における各信号レベルを
代表する複数個の入力信号を認識作業中に送出する手段
と、 一入力信号が認識すべき音声グループの有限状態機械モ
デル内の状態から立上がる尤度を指示する確率密度関数
を衣わすp、 d、 f、値の複数グループを記1、ば
するための手段と、 一入力雑音レベルを推定する手段と、及び−入力信号、
記憶されたp、 d、f、値及ぶモデルから、それぞれ
の距1lIII測定値を用いて音声を認識するための手
段と を含む装置が提供される。
前記各距離測定値は、1入力信号及び前記値の1グルー
プによって代表される1つのp、 d、 f、から導出
される。各距離測定値は、入力信号が対応するスペクト
ル領域内で雑音レベルに係わる所定レベルを上端わると
きは、1つのp、 d、 f、から領域信号レベルを得
る尤度を代表し、また入力信号が所定レベルを下端わる
かあるいはこれに等しいときは前記所定レベルを下端わ
る領域信号レベルを前記p、 d、 f、から得る累積
的尤度を代表する。
音声グループは普通、装置が音声認識用でありがつスペ
クトル領域が普通はチャネルである場合の語である。
本発明の第1局面の利点は、入力信号が確実であるとき
にそれらを距離測定値を得るのに用いられることである
。つまりそれらが所定レベルを1廻わるとき、どれがそ
のレベルに近いかあるいは等しいかということである。
入力信号が信頒できないときは、入力信号の代りに所定
レベルが使用される。これは入力信号が雑音レベルに近
いかあるいはそれより低く、そのため所定レベルが雑音
レベルを上廻壓いならば下側に位置する音声信号のレベ
ルに関する確実な情報がないためである。従って雑音レ
ベルまでのすべてのレベルについてp、d、 f、の累
積分布を用いると、雑音レベルのp、 d、f、から導
出される確率を用いるよりももつと信頼性のある状態比
較を得ることができる。
音声認識手段は、雑音レベル以下の入力信号の任意のチ
ャネルを、このチャネル内の雑音レベルを代aするマス
キングレベルで表わすことによって認識作業のあいだマ
スクされた入力信号を導出するための手段を含んでもよ
い。
入力雑音レベルを推定するための手段は、雑音信号だけ
を録音する分離マイクロフォンかあるいは単一マイクロ
7オンで雑音のみ及び雑音プラスかの様々な分布が有効
であることが判明したが、但し正規分布が普通は音声認
識に用いられる。正規分布を想定すると、各尤度測定値
は雑音レベルが入力信号を下回わるときは−In(N(
f、m、 S’) :]から導出されるのが好ましく、
!た雑音レベルが入力信号を1廻わるときは−IZI(
err ((A−m)/s)]から導出されるのが好ま
しい。但し人は入力信号に対応するスペクトル領域にお
ける雑音レベルであり、既知の累積距離関数はerf(
yl=/yN(x、o、 1)dxでl)、N(X、 
0.1)は正規分布1)、 d、 f、 K相当する(
但しXは独立変数、平均はゼロに等しく、史に分散は1
に等しい)。
本発明はまた本発明の第1の局面に相当する方法をも含
む。
池の間頌は、訓練中に標本発言がある程度雑音で汚染さ
れているp、 d、 f、 sを代表する値グループを
導出するという点である。これは特に音声品質が雑音の
丸めに変化するか、あるいは雑音及び音声品質が環境と
切離し得ない状況にある場合に重要である6例えば、航
空機特に緊急事態における強勢誘導音声変化及び高雑音
レベル内の呼び声が挙げられる。この問題の解決法は、
それほど厳しくない雑音項境内の改良にも有効でちるは
ずでろる。
もし任意の1つのp、d、 f、を導出するために用い
られる↓11定値の大きな部分が雑音で損なわれていれ
ば、下側に位置する音声分布の確実な推定を行なう見込
みは存在し危い。但しいずれのチャネルに対しても重要
なのは、様々な状況が様々な下側に位置する分布をもつ
ことを暗示するべきだというような根拠が状態/eラメ
ータを推定するときに考慮されなければならないことで
ある。
従って本発明の第2の局面によれば、音声認識システム
を訓練する方法が提供される。このシステムは、 −名目上同じ音声の反復から複数グループの入力信号を
導出し、各グループは周波数スペクトル内の各領域にお
ける信号レベルの代表であシ。
−入力信号が認識すべき音声グループの語いのための有
限状態機械モデル内の状態から立上がる尤度を指示する
確率密度関数を代表するp、d、 f。
値の複数個のグループを導出し、 −p、d、f、値は対応するスペクトル領域内の雑音レ
ベルを1廻わる入力信号からのみ導出され、さらにとの
導出はグレープ値が雑音レベルを1廻わる入力信号から
のみ得られるけれども全確率関数を実質的に代表するよ
うに行なわれることから成る。
好ましくは周波数スペクトルの各領域内で用いられる雑
音レベルは、語い内の全音声の訓練反復全体についてそ
の領域に対する入力信号を導出する際に見出される最高
値である。
もし正規分布が各p、d、f、についてのものであり、
p、d、f、s  が非相関的であ)、かつ各グループ
値が真の平均mと真の分散52を含んでいると仮定すれ
ば、m及びSは次の式から推定される。
B  −m ここでBは雑音レベル、Mは雑音レベルを上廻わる標本
の平均、Fは雑音レベルを下履わる入力信号の比率、e
rf (F)は上に定義した通シである。
そして Q (F)=: N(erf−’ (F)、0.1) 
実際にQ(F)及びerf−’ CF)は予め計算され
た値の表中の調査によって発見されることができる。
もし1状態のために用いられた訓練セル測定値の半分以
上がやかましいと識別されれば、それは下側に位置する
平均が事実上雑音レベル以下であることを意味する。従
って真の平均と分散を推定することを試みるのに分布の
尾部だけを用いるのは賢明ではない。
従って本発明の他の特徴によれば、一定平均及び一定分
散は訓練において導出されたp、d、 f、を代表する
いずれかの前記グループ内の前記値に置き換えられる。
この場合雑音である入力信号比率が所定値以上であシ、
0.5以上で代表的には0.8に等しい。
比率が所定値以下である場合は方程式1及び2を用いる
ことができる。しかし好ましくは例えば0.5及び0.
8間の比率の範囲については、平均及び分散値の平滑移
行が方程式1及び2の中のBを、B及び調査表から導出
され九Fに従かう関数に置換えることによって、さらに
F値のこの範囲内でerf −’ (F)及びQ(F)
Kついての表を概算的に修正することによって中断なし
で行なわれる。
標準最小分散を、偶然に低すぎる計算分散値に到る限定
訓練の全推計学的上デルをもって危険を克服するために
、すべての計算分散に加えることも好ましい。もし標準
最小分散が非常に大きく選択されれば、すべての状態に
ついての分散は事実上等しくなシ、距離はDTW整合で
広く用いられているユークリッド距離の二乗に減少する
。もしそれが小さくされ過ぎると、不適当なりl+練を
介して立上がる信頼性のない統計に大きな意味付けを与
えすぎる危険がある。従って任意の与えられた実際条件
の下で性能を最適化するために、実験によって標準最小
分散を決定するのが望ましい。
もし前記グループ値を導出するさいに1特定p、d、f
、について標準最小分散がそのp、d、f、について前
記グループ値を導出するために用いられる多数の入力信
号標本の関数を介して測定されるならばそれは有利であ
り、多数の標本から導出された分散が少数の標本だけか
ら導出される等しい分散よりも真の音声可変性を代表す
る可能性が高いからである。
本発明は発明の第2の局面の方法に対応する装置をも含
む。
次に本発明の幾つかの具体例を、添付図面を参照して例
として以下に説明する。
具体例 第1図では、マイクロフォン10は認識するべき音声を
受信し、入力信号の広い動的範囲について可能くするた
め非線形増幅器11を通過したあと、得られる信号はア
ナログ−ディジタル変換器(A/D)12に達する。デ
ィノタルフィルタバンク13は、周波数スペクトルの様
々な部分の信号の信号レベルを代表する出力信号を提供
する。図には4つの出力だけを示しているが、実際は普
通は10〜20ある。それぞれの帯域フィルタからの信
号は普通は10ミリ秒ごとに出力信号を発出する平滑装
置14に送られる。これらのより長い期間はそれぞれフ
レームとして公知であり、各平滑装置の出力(スペクト
ル部分に対応する)はチャネルレベルとして知られ、さ
らに1フレームは1セルとして知られる。
次KM音マスキングはマスカー回路15で行なわれ、こ
こで入力雑音スペクトルは構成部lO〜14及び雑音推
定器20によって廿声関隔に分析される。回路」5は各
チャネルに対して2個の信号を発出し、1つはチャネル
内の信号がやかましいかどうかを表わし、1つはこのチ
ャネル内の信号レベルを表わす。これらの信号のための
2本の結線16及び17を第1図には1チヤネルについ
てだけ図示したが、他のチャネルについても同様の結線
が備えられる。
2つの信号は、普通はマイクロプロセッサシステムかあ
るいは信号プロ七ツナ集積回路を用いたシステムである
YA/コフ認識装置18に送られる。
システムは隠れたマルコフモデルを用いる従来形認識を
実施するよう紀プログラム化されており、但し尤度(距
離測定値で表わす)は下表に従って、さらに正確に言え
ば表の第2欄内の第1数式に常に従って決定される。
本発明は雑音より下のレベルの入力に係わるから、入力
信号レベルが入力雑音レベルにあるか又は入力雑音より
下のレベルにある状況が考察される。下側釦位置する音
声について確実に知られた准−の情報は、それが雑音マ
スクより下にあるということである。マルコフ状態p、
d、f、の平均がマスクされた入力セルレベルより高い
及び低いときの状態をそれぞれ第2(a)図及び第2(
b)図に示す。
ここでmは平均、Aは入力雑音レベルである。
第2(a)図では、七デルに関連して、音声レベルは正
規分布、但し一定雑音(短期間での)であると仮定すれ
ば、p、d、f、の平均は入力雑音レベルより下である
。このことは、入力音声レベルが分布のハツチングで示
した右側テールを占めないことを意味する。もし音声が
実際にこの分布から立上がるならば、マスクを超えるレ
ベルを与える可能性は小さく、従って観察されたデータ
は第2(a)図のp、a、 f、によって生じるものに
対して極めて僅かな根拠を与える。求める小さい距離測
定値がこの場合八ツテングしない部分の負の対数によっ
て与えられ、これはp、d、f、即ち1以下の総面積に
ほぼ等しい。第2(b)図の場合は逆があてはまる。
このp、d、 f、はハツチングしていない領域のレベ
ルを与える小さい可能性だけがあるから、この場合の距
離測定値は高い。従ってp、d、f、の累積分布関数は
p、d、f、を直接用いるよりむしろ距離を推定するた
め雑音マスク入力セルのために用いられ、これはaG2
4a1図及び第27bJ図に示す状況の両方についてあ
てはまる。上の表に示す雑音マークセルと非マークセル
の処理誤差は重要な問題ではない。何故ならこれは単に
、認識決定に影響する様々な状態及び任意の1人カセル
についての距離に対しての相対的寄与にすぎず、すべて
の距離寄与はp、d、f、から直接にか、ちるいはp、
d、f。
の累積分布関数からのどちらかから同じ方法で計算され
る。
正規分布の場合は、累積分布関数は単純数式としては得
られず、但しその値は唯1つの・Qラメ−タ(A−m)
/sに左右され、公表された表から得られる。必要な1
次補間は表中の値の間で使用できる。
認識装置18による認識は記憶19によって保持された
モデルの状態に関するp、d、f、sに左右される。各
p、a、 f、は平均m及び分散S2 によって表わさ
れ、値m及びSは上表によって尤度が計算できるように
認識装置18に与えられる。各フレームにおいて尤度は
入力セルとp、d、f、の各組合せKついて計算され、
これらの尤度、モデルの状態間の移行確率及び先行フレ
ームからの累積確率は、このフレーム内でどちらの音声
が最も発せられる可能性が高いかを決定するために用い
られる。この方法は従来法で計算された尤度について知
られておシ、例えば上に挙げたレビンソン他による論文
を参照されたい。
訓練中にもし測定値の半分以下がやかましければ、平均
及び分散の合理的推定が第3図の截頭形分布から得られ
る。平均m及び分散S2をもつ訓練セル値の正規分布を
考慮されたい。この場合観測値の1部F(F<0.5)
は雑音マスクレベルBを用いる結果として左側テールか
ら取除かれた。
M(残りの標本の平均)及びFが与えられれば、m及び
Sの優れた推定量が上記の方程式l及び2によって与え
られることが示され得る。第1図の装置が用いられるが
、但しマルコフg識装置として使用されるプロセッサ回
路又はマイクロプロセッサが下に示す計算法を実施する
べくプログラム化され、記憶19はp、d、f、sのノ
9ラメータとマルコフモデルを記憶する。
一11練中の認識すべき語いの各語は何回も、標準的に
は5回反復され、次の計算法が各フレーム内の各セルに
ついて実施される。
(坦 各反復において各フレーム内のそのセルについて
得られた信号レベルを記憶する。
(b)  各チャネルについて適当なマスキングレベル
を決定する(例えば全語いを訓練する間に生じる最大雑
音レベルを検出することKよって)。
(C)  適当なマスキングレベルを上履わる記憶信号
レベルの割合を決定する。
(d)  (1)  もしこの割合が0.5より大きい
かあるいはこれに等しければ、方程式1及び2を用いて
最大雑音レベルを上履わるこれらの記憶レベルの平均及
び分散から真の平均と分散を見積る。あるいは (2)  もし割合が0.2より低いかあるいはこれに
等しければ、所定の平均及び分散を割当てる。あるいは (3)  もし割合が0.2及び0.5の間であれば、
平均と分散を決定するのに方程式1及び2を使うが、但
しBを尊大雑音レベルに左右される関数及び比率FKI
Jt替え、 erf−’CF)及びQ (F)の代りに
適切に修正された関数、例えばFが0.2及び0.5の
間で変化するにつれて重み付きが変わるこれらの関数及
び定数の重み付き合計を用いる (e)  現在語が反復されている間に生じるフレーム
数の関数によって所定最小分散を測る (f)  (d)で決定した分散を(e)で決定した測
定所定最小分散に加える。そして (g)  (d)で決定した平均と(f)で決定した分
散を記憶19に記憶し、認識に用いるp、d、f、s 
 として表わす。
本発明は特定的に説明した方法以外にも多くの方法で実
施してもよい。例えばセル出力を得るため、他の多くの
技術を用いることができ、また回路12〜15のうちの
いくつかあるいは全部を信号処理装置又はマイクロプロ
セッサに置換えてもよい。ヤルコフモデル形成以外の他
の技術を用いて認識を実施してもよいし、正規分布以外
の分布のp、d、f、、s  を用いてもよい。真の平
均の認識及びり11練過程で尤度及び累積尤度を得るた
め、他の関数を用いてもよく、分散を他の関数に従って
評価してもよい。p、d、f、s  の代表値を得るた
め、手順d(2)、d(3)、(e)及び(f)のうち
のいくつかあるいは全部を省略してもよい。
【図面の簡単な説明】
第1図は本発明を用いた装置の構成図、第2(a)図及
び第2(b)図は認識作業中の様々な入力雑音条件の下
での確率密度関数の説明図、及び第3図は訓練中に雑音
によって部分的にマスクされた確率密度関数から真の平
均を導出する説明図である。 10・・・マイクロフォン、11・・・非線形増幅器、
12・・・A/Dコンバータ、 13・・・ディジタル
フィルタバンク、14・・・平滑装置、   15・・
・マスク装置、16.17・・・結 線、    18
・・・マルコフ認識装置、19・・・PDF記憶装置、
 20・・・雑音推定器。

Claims (18)

    【特許請求の範囲】
  1. (1)音声認識に使用するための装置であつて、−周波
    数スペクトル内の各領域における各信号レベルを代表す
    る複数個の入力信号を認識作業中に導出する手段と、 −認識すべき音声グループの有限状態機械モデル内の状
    態から入力信号が立上がる尤度を指示する確率密度関数
    を表わすp、d、f、値の複数グループを記憶するため
    の手段と、 −入力雑音レベルを推定する手段と、及び −入力信号、記憶されたp、d、f、値及びモデルから
    、それぞれの距離測定値を用いて音声を認識するための
    手段と から成つており、前記各距離測定値は、1入力信号及び
    前記値の1グループによつて代表される1つのp、d、
    f、から導出され、各距離測定値は、入力信号が対応す
    るスペクトル領域内で雑音レベルに係わる所定レベルを
    上廻わるときは1つのp、d、f、から領域信号レベル
    を得る尤度を代表し、また入力信号が所定レベルを下廻
    わるかあるいはこれに等しいときは前記所定レベルを下
    廻わる領域信号レベルを前記p、d、f、から得る累積
    的尤度を代表する、装置。
  2. (2)入力信号を導出する手段がフィルタのバンクを含
    み、さらに領域がフィルタに対応するチャネルである、
    特許請求の範囲第1項に記載の装置。
  3. (3)音声認識手段が、雑音レベル以下の入力信号の任
    意のチャネルを前記チャネル内の雑音レベルを代表する
    マスキングレベルをもつて表わすことによつて認識作業
    中でマスクされた入力信号を導出するための手段を含む
    、特許請求の範囲第1項に記載の装置。
  4. (4)雑音レベルを推定する手段が雑音を感知する第1
    マイクロフォンを含み、入力信号を導出する手段が雑音
    プラス認識すべき音声を感知する第2分離マイクロフォ
    ンを含む、特許請求の範囲第1項に記載の装置。
  5. (5)入力信号を導出する手段と雑音レベルを推定する
    手段が共通のマイクロフォンを含み、さらに雑音のみと
    雑音プラス認識すべき音声の間を区別する手段を含んで
    いる、特許請求の範囲第1項に記載の装置。
  6. (6)音声認識手段が、雑音レベルが入力信号より低い
    ときは 1/21n(2π)+1n(s)+[(f−m)^2]
    /(2s^2)から、雑音レベルが入力信号より高いと
    きは−1n〔erf((A−m)/s)〕から各前記距
    離測定値を導出するべく構成されており、ここでAは入
    力信号に対応するスペクトル領域内の雑音レベル、fは
    認識すべき音声による1領域内の入力レベル、またm及
    びsはその距離測定値が導出されるp、d、f、を表わ
    す平均と分散である、特許請求の範囲第1項に記載の装
    置。
  7. (7)音声認識に使用する方法であつて、 −認識作業中に周波数スペクトル内の各領域内の信号レ
    ベルをそれぞれ代表する複数個の入力信号を導出し、 −認識すべき音声グループの有限状態機械モデル内の状
    態から入力信号が立上がる尤度を指示する確率密度関数
    を表わすp、d、f、値の複数グループを記憶し、 −入力雑音レベルを推定し、さらに −入力信号、記憶されたp、d、f、値及びモデルから
    、それぞれの距離測定値を用いて音声を認識し、前記各
    距離測定値は1入力信号及び前記値の1グループによつ
    て代表される1つのp、d、f、から導出され、各距離
    測定値は入力信号が対応するスペクトル領域内で雑音レ
    ベルに係わる所定レベルを上廻わるときは1つのp、d
    、f、から領域信号レベルを得る尤度を代表し、また入
    力信号が所定レベルを下廻わるかあるいはこれに等しい
    ときは前記所定レベルを下廻わる領域信号レベルを前記
    p、d、f、から得る累積的尤度を代表する、 手順から成る方法。
  8. (8)音声グループが語であり、さらに領域がフィルタ
    リングによつて規定されるチャネルである、特許請求の
    範囲第7項に記載の方法。
  9. (9)各前記距離測定値が、雑音レベルが入力信号より
    低いときは 1/21n(2π)+1n(s)+[(f−m)^2]
    /(2s^2)から、雑音レベルが入力信号より高いと
    きは−1n〔erf((A−m)/s)〕から導出され
    、ここでAは入力信号に対応するスペクトル領域内の雑
    音レベル、fは認識すべき音声による1領域内の入力レ
    ベル、またm及びsはその距離測定値が導出されるp、
    d、f、を表わす平均と分散である、特許請求の範囲第
    7項に記載の方法。
  10. (10)音声認識システムを訓練する方法であつて、−
    名目上同じ音声の反復から複数グループの入力信号を導
    出し、各グループは周波数スペクトル内の各領域におけ
    る信号レベルの代表であり、−入力信号が認識すべき音
    声グループの語いのための有限状態機械モデル内の状態
    から立上がる尤度を指示する確率密度関数を代表するp
    、d、f、値の複数個のグループを導出し、 −p、d、f、値は対応するスペクトル領域内の雑音レ
    ベルを上廻わる入力信号からのみ導出され、さらにこの
    導出はこのグループ値が雑音レベルを上廻わる入力信号
    からのみ得られるにもかかわらず、実質的に全確率関数
    を代表するように行なわれる ことから成る方法。
  11. (11)周波数スペクトルの各領域内で用いられる雑音
    レベルが、語い内の全音声の訓練反復全体についてその
    領域に対する入力信号を導出する際に見出される最高値
    である、特許請求の範囲第10項に記載の方法。
  12. (12)各p、d、f、が正規分布をもつものと仮定さ
    れ、さらにp、d、f、値の各グループが分布の真の平
    均m及び真の分散s^2を含む、特許請求の範囲第10
    項に記載の方法。
  13. (13)m及びsが m=[M.erf^−^1(F)−B.Q(F)]/[
    erf^−^1(F)−Q(F)]s=(B−m)/[
    erf^−^1(F)]から決定され、ここでBは雑音
    レベル、Mは雑音レベルを上廻わる標本の平均、Fは雑
    音レベルを下廻わる入力信号の比率、erf(F)は上
    に規定した通りで、また Q(F)=N(erf^−^1(F)、0、1)である
    、特許請求の範囲第12項に記載の方法。
  14. (14)一定平均及び一定分散が訓練において導出され
    たp、d、f、を表わすいずれかの前記グループ内の前
    記値に置き換えられ、この場合雑音である入力信号比率
    が0.5以上の所定値を超える、特許請求の範囲第12
    項に記載の方法。
  15. (15)所定値が0.8である、特許請求の範囲第14
    項に記載の方法。
  16. (16)前記比率が所定値とさらに低く定められた値と
    の間にあれば、値の平滑な移行が2つの所定値の間に含
    まれる範囲をこえて行なわれる、特許請求の範囲第14
    項に記載の方法。
  17. (17)標準最小分散がすべての計算分散値に加えられ
    、標準最小分散は異なつた状態についての分散がかなり
    差があるような値をもつ、特許請求の範囲第12項に記
    載の方法。
  18. (18)前記グループ値を導出する際に、特定p、d、
    f、についての標準最小分散が、そのp、d、f、につ
    いての前記グループ値を導出するために用いられる多数
    の入力信号標本の関数によつて測定される、特許請求の
    範囲第12項に記載の方法。
JP62083679A 1986-04-04 1987-04-03 音声認識における雑音補償 Pending JPS62265700A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB8608289 1986-04-04
GB868608289A GB8608289D0 (en) 1986-04-04 1986-04-04 Noise compensation in speech recognition

Publications (1)

Publication Number Publication Date
JPS62265700A true JPS62265700A (ja) 1987-11-18

Family

ID=10595708

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62083679A Pending JPS62265700A (ja) 1986-04-04 1987-04-03 音声認識における雑音補償

Country Status (4)

Country Link
US (1) US4905286A (ja)
EP (1) EP0240330A3 (ja)
JP (1) JPS62265700A (ja)
GB (2) GB8608289D0 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411928B2 (en) * 1990-02-09 2002-06-25 Sanyo Electric Apparatus and method for recognizing voice with reduced sensitivity to ambient noise
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
JP3154487B2 (ja) * 1990-02-28 2001-04-09 エス・アール・アイ・インターナシヨナル 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
CA2042926C (en) * 1990-05-22 1997-02-25 Ryuhei Fujiwara Speech recognition method with noise reduction and a system therefor
DE69132645T2 (de) * 1990-05-28 2002-04-18 Matsushita Electric Ind Co Ltd Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
US5161204A (en) * 1990-06-04 1992-11-03 Neuristics, Inc. Apparatus for generating a feature matrix based on normalized out-class and in-class variation matrices
US6418424B1 (en) 1991-12-23 2002-07-09 Steven M. Hoffberg Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US5903454A (en) 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
FR2704111B1 (fr) * 1993-04-16 1995-05-24 Sextant Avionique Procédé de détection énergétique de signaux noyés dans du bruit.
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
EP0720146A1 (en) * 1994-12-30 1996-07-03 AT&T Corp. A method for measuring speech masking properties
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
US5832440A (en) * 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
GB0013541D0 (en) * 2000-06-02 2000-07-26 Canon Kk Speech processing system
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US6631348B1 (en) * 2000-08-08 2003-10-07 Intel Corporation Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
US6833913B1 (en) * 2002-02-26 2004-12-21 Kla-Tencor Technologies Corporation Apparatus and methods for optically inspecting a sample for anomalies
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7013272B2 (en) * 2002-08-14 2006-03-14 Motorola, Inc. Amplitude masking of spectra for speech recognition method and apparatus
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
US7362801B2 (en) * 2003-12-18 2008-04-22 Lsi Logic Corporation Method for accurate estimation of noise for data modems
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US7774202B2 (en) 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
ES2354962T3 (es) * 2007-07-13 2011-03-21 Dolby Laboratories Licensing Corporation Nivel de señal de audio variable con el tiempo usando una densidad de probabilidad estimada variable con el tiempo del nivel.
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US10020576B2 (en) 2013-03-15 2018-07-10 Orbital Sciences Corporation Systems and methods for reconfigurable faceted reflector antennas
JP6106611B2 (ja) * 2014-01-17 2017-04-05 日本電信電話株式会社 モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1116300A (en) * 1977-12-28 1982-01-12 Hiroaki Sakoe Speech recognition system
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
GB2137791B (en) * 1982-11-19 1986-02-26 Secr Defence Noise compensating spectral distance processor
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement

Also Published As

Publication number Publication date
GB2188764B (en) 1990-01-17
EP0240330A2 (en) 1987-10-07
EP0240330A3 (en) 1988-07-27
GB2188764A (en) 1987-10-07
GB8707771D0 (en) 1987-05-07
GB8608289D0 (en) 1986-05-08
US4905286A (en) 1990-02-27

Similar Documents

Publication Publication Date Title
JPS62265700A (ja) 音声認識における雑音補償
Droppo et al. Evaluation of the SPLICE algorithm on the Aurora2 database.
Ghosh et al. Robust voice activity detection using long-term signal variability
Moattar et al. A simple but efficient real-time voice activity detection algorithm
EP2058797B1 (en) Discrimination between foreground speech and background noise
EP0970462B1 (en) Recognition system
EP0470245B1 (en) Method for spectral estimation to improve noise robustness for speech recognition
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
Deng et al. Sparse hidden Markov models for speech enhancement in non-stationary noise environments
JPH09160584A (ja) 音声適応化装置および音声認識装置
CN107180644B (zh) 使用基于码本的方法的基于卡尔曼滤波的语音增强
Mack et al. Single-Channel Dereverberation Using Direct MMSE Optimization and Bidirectional LSTM Networks.
Tran et al. Nonparametric uncertainty estimation and propagation for noise robust ASR
Coto-Jimenez et al. Hybrid speech enhancement with wiener filters and deep lstm denoising autoencoders
Yoma et al. Improving performance of spectral subtraction in speech recognition using a model for additive noise
EP0240329A2 (en) Noise compensation in speech recognition
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
So et al. A non-iterative Kalman filtering algorithm with dynamic gain adjustment for single-channel speech enhancement
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
JPH0449952B2 (ja)
KR101897242B1 (ko) 잡음을 포함하는 음성의 음질 향상 방법
Stadtschnitzer et al. Reliable voice activity detection algorithms under adverse environments
Lee et al. Recognition of noisy speech by a nonstationary AR HMM with gain adaptation under unknown noise
Beritelli et al. A speech recognition system based on dynamic characterization of background noise