JPS62242999A - 音声認識における雑音補償 - Google Patents

音声認識における雑音補償

Info

Publication number
JPS62242999A
JPS62242999A JP62083678A JP8367887A JPS62242999A JP S62242999 A JPS62242999 A JP S62242999A JP 62083678 A JP62083678 A JP 62083678A JP 8367887 A JP8367887 A JP 8367887A JP S62242999 A JPS62242999 A JP S62242999A
Authority
JP
Japan
Prior art keywords
level
signal
region
masked
masking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62083678A
Other languages
English (en)
Inventor
ナイジエル・チヤールズ・セジウイツク
ジヨン・ニコラス・ホウムズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Research Development Corp UK
Original Assignee
National Research Development Corp UK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Research Development Corp UK filed Critical National Research Development Corp UK
Publication of JPS62242999A publication Critical patent/JPS62242999A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音の認識において雑音効果を緩和する装置およ
び方法、特に動的時間歪曲法(dynaml ctim
e warping DTW )を用いての音声認識に
おいて全語/IPターン整合を行なうための装置と方法
に係わる。
音声認障装置の多くハ、マイクロフォンから入力される
信号を電子アナログフィルタとして構成したフィルタパ
ンクまたはそれに相当する集積回路信号処理装置等によ
って分析して入力のスペクトル分析を行なう。こうして
得た信号を平滑化し、通常10ミリセカンド毎の短時間
ノーワースベクトル(フレームと称する)の推定値を得
る。これらの出力・信号が認識プロセスにおいて使用さ
れる。
その後、認、&装置のトレーニングを何なう間KM得で
れたテンプレートスペクトルと入カスーξクトルの比較
を1通常は「距離」測定値を算出することによって行な
う。
全語式自動音声f!識法の用途は、背景の雑音が高レベ
ルの環境であることが多い。この背景雑音に一定の場合
もあろうが、大抵は時間の経過と共に徐々にスペクトル
が変化して行くことが多い。
従来の雑音効果軽減方法、および本発明に関する記載に
おいて「入力」という用語は、動作中の音声認識g&置
に対する入力を指す。また「セル」という用語は、入力
音声またはトレーニング用音声における特定フレームの
時定フィルタパンクのチャネルのレベルを指す。スペク
トルの各部分を別個に保持しない音響分析法(M形予側
コード化法やセフストラム法(ceXrum m@th
od )等)は雑音補償が不十分であるため、フィルタ
パンク分析法を採用する。音響分析法の場合、偏号スペ
クトルの雑音部分と主として音声による成分とを混合し
てしまうため、その後スペクトルのどの部分が雑音によ
る汚染を受けているかを判別できなくなる。
背景雑音信号は経時変化に伴なって推定する必要がある
。これは音声が存在しない時のマイクロフォン信号を使
用して行なうことがでさる。また雑音信号のみを供給す
るマイクロフォンを別個に使用しても行なうことができ
る。
雑音レベルの誦い条件下では低レベル領域のスペクトル
にしか相違のない語どうしをどこが雑音による汚染がひ
どいか全区別することは原則的に不可能であることが認
めら′!′した。従って語を同定する上で真の証拠とな
るスペクトルの高レベル部分の任意の音声情報全十分に
利用し、しがも雑音汚染がひどすぎて使用に適でない任
意情報を無視でさる方法が必要となる。
D、 H,クランド(Klatt )著、[スペクトル
整合用ディジタルフィルタパンクJ (Proe、 I
EEEInt@Conf、 on Acousticm
、 Sp・・ah andSlgnal  Proc@
ssing、Ph1ladslphla、PA。
1976、pp573−576)の中でクラットは、雑
音の存在下で有効なスペクトル距離測定値を求めること
が困難であることを認めた上で、フィルタパンク分析器
と共に「雑音マスキング」ff−匣用することを提唱し
ている。この方法では比較するフレーム対毎に真なる複
合雑音マスクを使用する。
各フノームの各チャネルに1+Aしてマスクを、テンプ
レートj?よび入カスベクトルと関連する雑音レベルの
うち高い方のレベルと等しくする。対応するチャネルの
マスクより下の各入力またはテンプレートセルについて
は、マスク値に置き代える。
次に逼味付き平方ユークリッド距離測定値を用いて、マ
スクされた入カスベクトルとテンプレートスペクトルの
比較を行なう。この方法によると基底にある音声が類似
の語が常によく整合するようになるが、どちらも同じ値
でマスクしているため、2つの雑音汚染セルの雑音レベ
ルがたまたま異なることかあってもそこから偽の距離測
定値が誘導されること(f′iない。クラットの方法は
入手し得る情報を全部使用しているわけではない。比較
する2つの・9ターンが、著しく差異の大きい雑音レベ
ルと1先述している場合を考えてみよう。もし1音しヘ
tv )+2い/’Pターンからのセルが雑音レベルの
すぐ上にあり、かつこrtを雑音レベルの低いノ母ター
ンの雑音レベルに近いセルと比較する場合は、クラット
のアルゴリズムではマスキング分しない−Ctより小孕
い距離が与えられる。ところが基底にある音声15号間
の真の距離は、少なくともマスクはれないセル間の距癲
でちることは明白で、−bる。
クラットの方法を下の表1に示す。表中でfは入カッセ
ルレベル、tはテンプレートのセルレベル、Cは入力の
誰音レベルとテンプレートの鞠音レベルのうち高い方に
等しい複合マスクレベルである。
表   1 クラットの雑音マスキング法の限界を克服する試みの1
つとして、英国特許出願第2137791A号(ブリド
ル他(Br1dle @t ml) )は雑音補償の几
めの雑音標識法について記成している。この方法もクラ
ットの方法と同様、トレーニング中も動作中も雑音スペ
クトルの連続的推定を維持しておく必要がある。音声が
分析器に入るに従がって各セルを標識化するが、この時
その時点でのそのチャネルに関する雑音推定値よりセル
レベルの方が高ければ音声と標識し、そうでなければ雑
音として標識する。フレームをマスクするので1はなく
標識化するところがクラットの方法と異なる点であり、
入力フレームについては入力の雑音推定++faに従っ
てこれを行ない、テンプレートフレームについてはテン
プレートの雑音推定値に従って行なう。その後の整合に
おいて(従来の!霜アルゴリズムによる)1入力セルお
よびテンプレートセルが音声として標識されているか雑
音として4遣されているかによって距離測定値を算出す
る。もし比較する2つのセルのうち大きい方が音声とし
てえ低い方のセルが雑音として標識されている場合でも
、その距離が少なくとも測定距離でなければならないこ
とは周知である。大きい方のセルが雑音として標識され
ている場合は、基底にある音声信号間の差の大きさを明
らかにする例証がなくなる。この場合プリドルらは測定
距離を無視し、同一であるか等斤を含むスペクトルが4
の完全な腎合金与えるのを防止するべく、ゼロではない
一定の「・1音距離」を加算すること全提唱している。
プリドルらの方法を下の表2に示す。表中のfおよびt
は表1で定義した通りであり、Dは経験的に選択した一
定の雑音距離である。
表  2 プリドルらの方法は、クラットの方法に比較して入手し
得る情報をうまく利用していると言える。
しかしテンプレートセルがel!されていないのに入力
に標識されている場合は、テンプレートセルレベルが入
力レベルと父差する時に使用される距離に有害な不連続
が生じる。
本発明のI耳1の局面によると、音響システムのトレー
ニング方法が提供される。この方法は、認識すべき音を
周波数スペクトルの各領域において連続的時間に第1形
式および第2形式の信号の何れかで表わすことによって
、見本音からマスクされたテンプレート信号を生成する
ことから成る。
前記第1形式の信号は、全トレーニングエ、程において
その領域で遭遇する最高雑音レベルより信号レベルの方
が商い各領域の見本音を表わす信号レベルであり、一方
の前記第2形式の信号は、該領域の信号レベルの方が前
記kD雑音レベルより低い場合に前記最高雑音レベルを
表わすマスキングレベルである。
スペクトル領域は通常の場合チャネルである。
クラットおよびプリドルらの方法は対称法であり、距離
の算出を行なう際にテンプレートと入力を区別していな
い。しかし、考慮に入れるべき固有の非対称性が存在す
る友め、有効なテンプレートフレーム全部が1つ1つの
入力フレームと比較きれる。もし雑音レベルがトレーニ
ング中に変化した場合は、同じ入力セルに関する距離測
定値が異なる蝿音値を用いて準備されたテンプレート間
で擬似的に相異する可能性がある。
本発明の第1局面には、このような問題の大半を克服で
きるという利点がある。
本発明の第2局面によ゛ると、音声から誘導された信号
の処理に使用する装置が提供される。この装置は、 一機数のマスクされたテンプレート信号を記憶する手段
であって該信号のそれぞれが認識すべき音の周波数スペ
クトルを表わし、かつそれぞれがテンプレート信号の生
成時にその領域にあった最高雑音レベルの方が生成に使
用された入力信号より高かった全ての領域においてマス
キングレベルで表わされ、各粗域のマスキングレベルカ
ッの領域のm記最高雉音レベルを茨わしているJ手段と
−入力雑音レベルを推定する手段と。
−、J 識中は、雑斤レベル以下の入力信号の周波数ス
ペクトル領域があればそれをその領域の雑音レベルを表
わすマスキングレベルで表わすことによってマスクされ
た入力信号をh 辞する手段と、−v&識中は、マスク
され九谷入力信号の各領域とマスクされたテンプレート
セルの対応領域との比較を、対応領域にIAする所定規
則の中の第1規則と少なくとももう1つの規則に従って
行なうことによって入力信号の周波数スペクトルの各明
域に関する距雅曲1定埴を誘導する手段と會含んで成り
、前記所定規則が、 (a)マスクされた入力18号およびテンプレートイg
号が共にマスクされない信号レベルによって表わされる
場合は、それらのマスクされない信号レベルから距離1
1111定値を、ト尋することと、(b)マスクされた
入力1J号およびテンプレート信号がそれぞれマスキン
グレベルとマスクされない信号レベルとで表わされる場
合で、かつマスキングレベルの方がマスクされない(g
号しベルより晶イL)J合は、距l?1!夕11定値を
所定値とし、その他の場合はマスキングレベルとマスク
されない信号レベルから化11+I測定値を誘導するこ
とと。
(c)マスクされた入力(M号およびテンプレート13
号がそれぞれマスクされない信号レベルとマスキングレ
ベルとで表わされる場合は、マスクされない信号レベル
とマスキングレベルとから距lia測定値を誘導するこ
とと、 (d)マスクされた入力信号およびテンプレート信号が
共にマスキングレベルで表わされる場合で、かつ入力の
マスキングレベルの方がテンプレートのマスキングレベ
ルより高い場合は、距離測定値を1rrl−tたは異な
る所定値とし、その他の場合はマスキングレベルから距
離測定値を訪害することとから成る。
本発明がクラットの方法とプリドルらの方法の長所を維
持しながらかつそれらの方法の限界を克服し得たのは、
主としてトレーニング中の最大雑音レベルによってテン
プレートをマスクし友ことによる。
距離測定値を誘導する際は、上記の規則を全て適用する
のが望ましく、ま九前記所定値は同じ値とし、ゼロにす
るのが望ましい。
2つの信号レベル間の差を二乗することによって、2つ
のレベルから距離測定値を誘導することができる。次に
規則(b) 、 (e) 、 (d)を挙けた理由を示
す。もしテンプレートのセル値が雑音の結果であれば、
例えそれが入力セルより大きくても特に処理する必要は
ない。テンプレート信号は全てトレーニング時の最高雑
音セルレベルに関してマスクされているため、トレーニ
ング時の雑音閾値以下のすぺでの競うテンプレートセル
は全て同じ距離を与えるからである。雑音レベル以上の
テンプレートセルは、正確には距離に対する寄与の仕方
が異なるものとなる。従ってテンプレートを生成した音
声信号が異なるものであるという証拠が無い場合は、各
テンプレートに関して距離が同一になるが、入手し得る
情報で確実なものは使用される。
以上に概略的に示した状況において、「雑音距離」を望
ましくはゼロにすべきであり、そうでないとテンプレー
トセルの値が入力雑音レベルと又差する時に距離測定に
有害な中断を生じる恐れがある。
雑音入力レベルを推定する手段は、捕音信号のみを与え
る別個のマイクロフォンを含むか、あるいは1つのマイ
クロフォンで雑音のみと雑音プラス音声とを区別するた
めの手段を富むことができる。
本発明はまた、本発明の第2局面に対応する方法も含む
次に添付図面を参照しながら本発明の実施態様について
例示的に説明することにする。
具体例 第1図において、マイクロフォン10が認識すべき音/
lJを受け、これを非線形増幅器11に通してダイナミ
ックレンジの広い入力信号とした後。
結果的に得られた信号がアナログ/ディジタル(A/D
 )変換器12に達する。デイジタルフイ゛ルタバンク
13が、周波数スペクトルの各部分における信号の信号
・/ペルを表わす出力信号を供給する。図では出力を4
つしか示していないが、実際には10個から20個の間
が普通である。各肝域フィルタから出される信号を1通
常10ミリセカンド毎に出力イイ号ケ出す平滑器14に
送る。これらのより長い時間の一区切りがフレームとし
て知られ、平滑化された各出力(スペクトル部分に対応
する)が1つのチャネルレベルとして知うレる。フレー
ム1つのチャネルレベルがセルトじて・J:コられるも
のである。
次にマスク回路15において雑音のマスキング1行なう
。ここでは、K声の無い1[芋にF:零r戻部10〜1
4および1音推定zH> t sによって分析された入
力准Pスペクトルが、−H(声認誦中の各フレームのh
チャネルの入力雑音レベルと比較される。このようなス
ペクトルの例を示したのが第2(a)図であり、市直軸
が信号レベルを、水平軸は周波数を表わす。ここでは連
続的に示!ているが実際にはこの例の場合では上述のフ
ィルタパンクの出力から作成したものである。マスキン
グは、iffレベルの方が入力レベルより高い場合は必
ず人カスベクトルの代わりに雑音スペクトルを用いるこ
と7J)ら成る。従ってe 2 (a1図の各領域でマ
スクされた入力は、その領域の2本の線のうち上の方か
ら成る。
マスクされたテンプレートは先のトレーニングにおいて
例えば構成部10〜14および18を用いて生成され、
各テンプレートが発声されt語1つを表わす。12(b
)図に示す標識付テンプレートスペクトルのようなスペ
クトルが、トレーニングにおいて雑音スペクトルとして
生成される。この雑音スペクトルは、トレーニング中に
見られる各チャネルの最大雑音レベルから形成される。
このようなスペクトルの1例が、第2(b)図に示した
標識付テンプレート准音スRクトルである。次に各チャ
ネルの2つのレベルのうち高い方を取って、マスクシタ
テンプレートスペクトルを各認識すぺ@語毎に形1ff
lL、記憶装置16に記i、はさせる。
認、Il&はr)TWゾロセッサ17によって行なう、
、DTWグロセツサ17は距離の一11定を下の表3に
準じて算出する方法をとる以外は従来のものと同じであ
る。衣31F、fとtは先に使用した値をとり、AとB
はそれぞれ入力セルとテンプレートセルの雑音レベルで
ある。
表   3 ■ 12(e)図も距離測定値の算出方法を示しており、マ
スキングしていないレベルヲ実線で、マスキングを施し
たレベルを破線で示している。図を領域外けし、各領域
の距離測定法を下の水平軸に示している。
本発明は上に特定的に示した以外にも色々な方法で実施
することができる。例えば、ここに示したよりな瞳別回
路の・践つか、あるいはその全部に代えて1つまたはそ
れ以上のマイクロプロセッサ、時に信号プロセッサ集積
回路を用いてもよい。構成部10〜14および17につ
いては多ぐの変形例および代害物が周知となっているが
、その殆んどを本発明の実施に用いることができる。
【図面の簡単な説明】
第1図は不発明の1実施態様を使用した音声語、11に
装置のブロック線図、第2(a)図は入カスベクトルと
それに関連する雑音スペクトルを示す図、第2(b)図
はテンプレートスペクトルとそれに関連する雑音スペク
トル金示す図、第2(C)図は雑音マスキングの実行方
法および測定距離の誘導方法を示す図である。 10・・・マイクロフォン、12・・・(A/D )変
換器、13・・・ディジタルフィルタパンク、14・・
・平滑器、15・・・マスク回路、16・・・マスクテ
ンプレート記憶装置、17・・・田Wプロセッサ、18
・・・雑音推定器。

Claims (1)

  1. 【特許請求の範囲】 (1)音響認識システムのトレーニング方法であつて、
    認識すべき音を周波数スペクトルの各領域において連続
    時間的に第1形式および第2形式の信号のいずれかで表
    わすことによって、見本音からマスクされたテンプレー
    ト信号を生成することから成り、前記第1形式の信号は
    、マスクテンプレート信号の実効的生成を行なう間にそ
    の領域で遭遇する最高雑音レベルより信号レベルの方が
    高い各領域の見本音を表わす信号レベルであり、前記第
    2形式の信号は、該領域の信号が前記最高雑音レベルよ
    り低い場合に前記最高雑音レベルを表わすマスキングレ
    ベルである方法。 (2)スペクトル領域が一波によって誘導されるチャネ
    ルである、特許請求の範囲第1項に記載の方法。 (3)音声から誘導された信号の処理に使用する装置で
    あって、 −複数のマスクされたテンプレート信号を 記憶する手段であって、該信号のそれぞれが認識すべき
    音の周波数スペクトルを表わし、かつそれぞれがテンプ
    レート信号の生成時にその領域にあった最高雑音レベル
    の方が生成に使用された入力信号より高かった全ての領
    域においてマスキングレベルによって表わされ、各領域
    のマスキングレベルがその領域での前記最高雑音レベル
    を表わしている該手段と、 −入力雑音レベルを推定する手段と、 −認識中に、雑音レベル以下の入力信号の 周波数領域があればそれをその領域の雑音レベルを表わ
    すマスキングレベルで表わすことによってマスクされた
    入力信号を誘導する手段と、 −認識中に、マスクされた各入力信号の各 領域とマスクされたテンプレート信号の対応領域との比
    較を、対応領域に関する所定規則の中の第1の規則と少
    なくとももう1つの規則に従って行なうことによって入
    力信号の周波数スペクトルの各領域に関する距離測定値
    を誘導する手段とを含んで成り、前記所定規則が、 (a)マスクされた入力信号およびテンプレート信号が
    共にマスクされない信号レベルによって表わされる場合
    は、それらのマスクされない信号レベルから距離測定値
    を誘導することと、 (b)マスクされた入力信号およびテンプレート信号が
    それぞれマスキングレベルとマスクされない信号レベル
    で表わされる場合で、かつマスキングレベルの方がマス
    クされない信号レベルより高い場合は、距離測定値を所
    定値とし、その他の場合はマスキングレベルとマスクさ
    れない信号レベルから距離測定値を誘導することと、 (c)マスクされた入力信号およびテンプレート信号が
    それぞれマスクされない信号レベルとマスキングレベル
    で表わされる場合は、マスクされない信号レベルとマス
    キングレベルとから距離測定値を誘導することと、 (d)マスクされた入力信号およびテンプレート信号が
    共にマスキングレベルで表わされる場合で、かつ入力の
    マスキングレベルの方がテンプレートのマスキングレベ
    ルより高い場合は、距離測定値を同一または異なる所定
    値とし、その他の場合はマスキングレベルから距離測定
    値を誘導することから成る装置。 スペクトル領域がろ波によって誘導される チャネルである、特許請求の範囲第3項に記載の装置。 (5)前記各領域に関する距離測定値を誘導する手段が
    、該距離測定値の誘導される2つのレベル間の差を二乗
    することによってそれを行なうように構成されている、
    特許請求の範囲第3項に記載の装置。 (6)前記雑音入力レベルを推定するための手段が第1
    マイクロフォンを含み、前記マスクされた入力レベルを
    誘導する手段が第2マイクロフォンを別個に含んでいる
    、特許請求の範囲第3項に記載の装置。 (7)前記雑音入力レベルを推定する手段と前記マスク
    された入力レベルを誘導する手段とが共有のマイクロフ
    ォンと、雑音と雑音プラス音声を分離する共有の手段と
    を有している、特許請求の範囲第3項に記載の装置。 (8)音声から誘導された信号を処理するのに使用され
    る方法であって、 −複数のマスクされたテンプレート信号を 記憶する段階であって、該信号のそれぞれが認識すべき
    音の周波数スペクトルを表わし、かつそれぞれがテンプ
    レート信号の生成時にその領域にあった最高雑音レベル
    の方が生成に使用された入力信号より高かった全ての領
    域においてマスキングレベルによって表わされ、各領域
    のマスキングレベルがその領域での前記最高雑音レベル
    を表わしている該段階と、 −入力雑音レベルを推定する段階と、 −認識中に、雑音レベル以下の入力信号の 周波数スペクトルの領域があればそれをその領域の雑音
    レベルを表わすマスキングレベルで表わすことによって
    マスクされた入力信号を誘導する段階と、 −認識中に、マスクされた各入力信号の各 領域とマスクされたテンプレート信号の対応領域との比
    較を、対応領域に関する所定の規則の中の第1規則と少
    なくとももう1つの規則に従って行なう段階とを含んで
    成る入力信号の周波数スペクトルの各領域に関する距離
    測定の誘導段階とを含み、前記所定規則が、(a)マス
    クされた入力信号およびテンプレート信号が共にマスク
    されない信号レベルで表わされる場合は、それらのマス
    クされない信号レベルから距離測定値を誘導することと
    、(b)マスクされた入力信号およびテンプレート信号
    がそれぞれマスキングレベルとマスクされない信号レベ
    ルで表わされる場合で、かつマスキングレベルの方がマ
    スクされない信号レベルより高い場合は距離測定値を所
    定値とし、その他の場合はマスキングレベルとマスクさ
    れない信号レベルとから誘導することと、 (c)マスクされた入力信号およびテンプレート信号が
    それぞれマスクされない信号レベルとマスキングレベル
    で表わされる場合は、マスクされない信号レベルとマス
    キングレベルとから距離測定値を誘導することと、 (d)マスクされた入力信号およびテンプレート信号が
    共にマスキングレベルによって表わされる場合で、かつ
    入力のマスキングレベルの方がテンプレートのマスキン
    グレベルより高い場合は距離測定値を同一または異なる
    所定値とし、その他の場合はマスキングレベルから距離
    測定値を誘導することとから成る方法。 (9)スペクトル領域がろ波によって誘導されるチャネ
    ルである、特許請求の範囲第8項に記載の方法。 (10)各距離測定値が、距離測定値を誘導する2つの
    信号レベル間の差を二乗することによって誘導される、
    特許請求の範囲第8項に記載の方法。
JP62083678A 1986-04-04 1987-04-03 音声認識における雑音補償 Pending JPS62242999A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB868608288A GB8608288D0 (en) 1986-04-04 1986-04-04 Noise compensation in speech recognition
GB8608288 1986-04-04

Publications (1)

Publication Number Publication Date
JPS62242999A true JPS62242999A (ja) 1987-10-23

Family

ID=10595707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62083678A Pending JPS62242999A (ja) 1986-04-04 1987-04-03 音声認識における雑音補償

Country Status (3)

Country Link
EP (1) EP0240329A3 (ja)
JP (1) JPS62242999A (ja)
GB (2) GB8608288D0 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2196460B (en) * 1986-10-03 1991-05-15 Ricoh Kk Methods for comparing an input voice pattern with a registered voice pattern and voice recognition systems
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
FR2631147B1 (fr) * 1988-05-04 1991-02-08 Thomson Csf Procede et dispositif de detection de signaux vocaux
JP2974423B2 (ja) * 1991-02-13 1999-11-10 シャープ株式会社 ロンバード音声認識方法
EP0720146A1 (en) * 1994-12-30 1996-07-03 AT&T Corp. A method for measuring speech masking properties
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
DE29718636U1 (de) * 1997-10-21 1998-02-12 Rosenbaum, Lothar, 56727 Mayen Phonetische Steuer-, Eingabe- und Kommunikationseinrichtung mit akustischer Rückmeldung, insbesondere für Holzbearbeitungsmaschinen
US6236950B1 (en) * 1998-10-30 2001-05-22 Caterpiller Inc. Automatic stencil generation system and method
SE521465C2 (sv) 1999-06-07 2003-11-04 Ericsson Telefon Ab L M Mobiltelefon med taligenkänningssystem innehållande en beräkningsenhet för spektralavstånd.
CN111356897B (zh) 2020-02-24 2021-02-19 长江存储科技有限责任公司 用于半导体芯片表面形貌计量的系统和方法
CN111406198B (zh) 2020-02-24 2021-02-19 长江存储科技有限责任公司 用于半导体芯片表面形貌计量的系统和方法
WO2021168613A1 (en) 2020-02-24 2021-09-02 Yangtze Memory Technologies Co., Ltd. Systems and methods for semiconductor chip surface topography metrology
CN111386441B (zh) 2020-02-24 2021-02-19 长江存储科技有限责任公司 用于半导体芯片表面形貌计量的系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1116300A (en) * 1977-12-28 1982-01-12 Hiroaki Sakoe Speech recognition system
GB2137791B (en) * 1982-11-19 1986-02-26 Secr Defence Noise compensating spectral distance processor

Also Published As

Publication number Publication date
EP0240329A2 (en) 1987-10-07
GB2188763A (en) 1987-10-07
GB8608288D0 (en) 1986-05-08
GB8707770D0 (en) 1987-05-07
EP0240329A3 (en) 1988-07-27
GB2188763B (en) 1989-01-18

Similar Documents

Publication Publication Date Title
NO20031611D0 (no) Balansert objektsporer i en bildesekvens
US8036884B2 (en) Identification of the presence of speech in digital audio data
Miller Pitch detection by data reduction
JPS62242999A (ja) 音声認識における雑音補償
US20110091043A1 (en) Method and apparatus for detecting audio signals
US4665548A (en) Speech analysis syllabic segmenter
GB2137791A (en) Noise Compensating Spectral Distance Processor
Zheng et al. A comparative study of feature and score normalization for speaker verification
Mowlaee et al. A MAP criterion for detecting the number of speakers at frame level in model-based single-channel speech separation
JPH03114100A (ja) 音声区間検出装置
US11615800B2 (en) Speaker recognition method and system
CN112581975A (zh) 基于信号混叠和双声道相关性的超声波语音指令防御方法
JP3107905B2 (ja) 音声認識装置
CN115148208B (zh) 音频数据处理方法、装置、芯片及电子设备
Radfar et al. A new algorithm for two-speaker pitch tracking in single channel paradigm
JPH09247800A (ja) 左右音像方向抽出方法
Hu et al. Efficient estimation of perceptual features for speech recognition.
US20220199074A1 (en) A dialog detector
Morales-Cordovilla et al. A robust pitch extractor based on dtw lines and casa with application in noisy speech recognition
JPH04264596A (ja) 雑音下音声認識方法
Haniu et al. A study on a speech recognition method based on the selective sound segregation in noisy environment
Thienpondt et al. Speaker Embeddings With Weakly Supervised Voice Activity Detection For Efficient Speaker Diarization
JPH0376471B2 (ja)
JPS5926796A (ja) 音声認識装置
Detection Paper G