JPS63502304A - 高雑音環境における言語認識のためのフレ−ム比較法 - Google Patents

高雑音環境における言語認識のためのフレ−ム比較法

Info

Publication number
JPS63502304A
JPS63502304A JP87500806A JP50080687A JPS63502304A JP S63502304 A JPS63502304 A JP S63502304A JP 87500806 A JP87500806 A JP 87500806A JP 50080687 A JP50080687 A JP 50080687A JP S63502304 A JPS63502304 A JP S63502304A
Authority
JP
Japan
Prior art keywords
energy level
channel
energy
frame
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP87500806A
Other languages
English (en)
Inventor
ガーソン・イラ アラン
リンズレイ・ブレット ルイス
Original Assignee
モトロ−ラ・インコ−ポレ−テツド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by モトロ−ラ・インコ−ポレ−テツド filed Critical モトロ−ラ・インコ−ポレ−テツド
Publication of JPS63502304A publication Critical patent/JPS63502304A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 高雑音環境における言語認識のためのフレーム比較性発明の背景 本発明は、−i的には、音声認識システムにおける言語(ワード)認識の実行に 関するものであり、特に、高雑音存在中の言語(ワード)認識に関する。
音声認識システムにおける長い間の相変らずの問題は、高雑音環境における十分 な性能を達成するのが困難なことである。
音声認識システムは、背景雑音が、認識プロセスの品質を激しく低下することが 多い環境にある。
高雑音環境に対する認識システムの初期進展は、典型的に、頭据えつけ(hea d mounted) 、または手持ち(hand−held)マイクロホンを 利用した。そのようなシステムは、口にマイクロホンを近づけて配置することを 要求し、背景騒音問題の克服を試みた。この型のシステムに対しては、この方法 はともかく有効な解決方法であるかも知れないが、頭据えつけ、または手持ちマ イクロホンは、多数のシステムに対し実際的でも満足できるものでもない。
最も望ましい型の認識システムは、手を束縛せずに動作するシステムである。ド ライブ中のように、操縦者が操縦装置を手動操作しなければならない場合には、 手を束縛しないシステムが特に実際的である。このような環境での高背景騒音の ため、音声認識システムは操縦者をマイクロホンの手動操作より解放するととも に、背景騒音より言語を正確に識別する能力がなければならない、この種のシス テムは、操縦者の生産性及び集中力に実質的改善を提供する。
勿論、以前に、高雑音環境における言語認識を正確に達成する試みが行なわれた 。ある方法ではスペクトル減法を使用し、音声より背景騒音の推定を引き算し、 音声を言語テンプレート・メモリに整合した。典型的に、テンプレート・メモリ は等時限(equal time 1nterval)のフレームに区分される 。同様に入力音声は、マツチング・プロセスが始まる前にフレームに分割される 。入力音声よりの各フレームはそこで、テンプレート・メモリからのフレームと 比較される。整合は、メモリのテンプレートのフレームに対応する入力音声のフ レームのシーケンス(sequence)により描写される。
個々の言語テンプレート・マツチング技術にかかわらず、スペクトル減法は、普 通、テンプレートとマツチングの前に推定背景騒音が入力音声より引き算される のを必要とする。
より好結果の認識システムには、特殊のスペクトル・マツチング技術に背景騒音 を実際に考慮するものもある。しかしながらこれらのシステムはしばしば、音声 を表現する入力フレームと言語テンプレート中のフレームを比較する複雑な方法 を必要とする。そのような複雑性の追加は、かなりおそい認識プロセスとなるか 、または、非常に専門化した高速システムアーキテクチャへ制限される効果とな る。
必要とするものは、背景騒音の存在を補償し、入力フレームと言語テンプレート ・フレームを比較する簡単な方法である。
このような方法は、コンピュータ的に速く、特殊なハードウェア・アーキテクチ ャを要すべきではない。
発明の目的と要約 したがって本発明の口約は、高雑音中の音声認識のため、入力フレームと言語テ ンプレート・フレームを比較し、その結果が高1m精度であり、コンピュータ的 効果である改良された方法を提供することである。
本発明の他の目的は、切り捨て(truncated)検索技術を含み、限りな い数の言語テンプレート検索技術に使用可能な改良された方法を提供することで ある。
本発明は、高雑音環境における音声認識のため、言語テンプレート・フレームに 入力フレームをマツチングする改良された方法を教示する。本方法は、言語テン プレート・フレーム及び入力フレームの両方を表現するため、スペクトル・チャ ネルの効用を用いる。この方法の特別のステップは、用いられる各チャネルに対 し3つのエネルギー・レベルを決定することを含む。
レベルは、背景騒音エネルギーを表現する第ルベル、入力フレーム・エネルギー を表現する第2レベル、言語テンプレート・フレーム・エネルギーを表現する第 3レベルを含む、1つ、または、2つのチャネルにおいて第2レベルが第ルベル より小さい時の定数値を含み、各チャネルに数値が割当てられる。
これらの数値は、入力フレームと言語テンプレート・フレーム間の距離計算を形 成するのに使用される。
図面の簡単な説明 第1図は、本発明に関するブロック配置を図示する音声認識システムの構成図で ある。
第2図は、音声認識システムに用いられる言語テンプレートに対する従来技術モ デルを図示したものである。
第3図は、本発明にもとづく、言語テンプレート・フレームに比較されている入 力フレームの例を図示するグラフである。
第4図は、本発明にもとづき、入力フレーム及び言語テンプレート・フレーム間 の距離計算を形成するためのステップを図示する全般的流れ図である。
第5図aは、第4図に図示されるステップを特に図示する拡大流れ図である。
第5図すは、第5図aの流れ図の続きである。
好ましい実施例の詳細説明 第1図は本発明に関するブロックを図示する音声認識システムの構成図である。
まず入力音声は音響プロセッサ2により、システムの訓練(training) のため、即ち、音声語い(vocabulary)の確立のため、チャネル・バ ンク情報に変換される。音響プロセッサは音声をフィルタ・バンク情報に変換す る。フィルタ・バンク情報を形成する1つの方法は、R,W、5hafer、L 、R,Rabinerおよび。。
Herrmannにci、す、′音声分析のためのFIRディジタル・フィルタ ・バンク”Ba1lシステム技術ジヤーナル、Vol、54No、3PP、53 1−544.1975年3月に説明されている。
訓練プロセッサ4は、変換音声よりエンドポイント(終点)を検出し、テンプレ ート・メモリ6に記憶のための言語テンプレートを形成する。L、R,Rabi ner及びM、R,Samburが“分離発声のエンドポイント決定のためのア ルゴリズム”Ba1lシステム技術ジヤーナル、Vo 1,54No。
2、PP297−315.1975年2月に説明しているような、多くの訓練プ ロセッサがこの口約に使用可能である。
訓練がひとたび完了すれば、訓練プロセッサ4はディスエーブルにされ、システ ムは音声認識のため構成される。音響プロセッサ2によりプロセスされる音声は 、距離計算器10及び暗騒音推定器8により使用される。背景騒音推定器8は音 声と共に入力される雑音の近似値を計算する。このような推定器は、Rober tJ、McAulay及びMarilyn L、Malpassによる。“ソフ ト−決定抑制フィルタを使用する音声増強”と題する論文、音響、音声及び信号 プロセッシングに関するI EEE会報、Vol、ASSP−28,No、2゜ PP137−145.1980年4月に説明されている。
距離計算器10は、音響プロセッサ2からの変換音声、テンプレート・メモリ6 からの言語テンプレート、及び、推定器8からの背景騒音レベルを用い、各入力 フレーム及び言語テンプレートからのフレームの間の、類似点または距離の尺度 を形成する。認識器12は、比較のために、テンプレート・メモリ6から適当な フレームを、距離計算器10に供給する。この制御を供給のため使用できる有名 な認識構造は数多くあるが、その1つは、Br1dle、Brown、及び、C hamberlainにより“連続言語認識のためのアルゴリズム”、音響、音 声及び信号プロセに関する1 982 I EEE国際会議会報、PP899− 902に説明されている。しかしながら距離計算器10に計算される距離は、シ ステムにより使用されるどの認識器に対しても重大である。言語テンプレートが 制御され、または、置かれる様式に関係なく、計算距離が正確でなければ、認識 器は言語テンプレートに対する正確な整合を確認することができない。
分語言語(ワード)検索技術の改良は、最近、入力音声発声をマツチングするた め、フレーム毎の仕方で音声テンプレートに対し、一連のフレームとして表現さ れる認識モデルのサイレンス(silence)状態を使用する。典型的には音 声認識システムは、LPCパラメータ、チャネル・バンク情報または線(ライン )スペクトル対のような特徴データを用い音声発声を表現するであろう。語い( vocabulary)は、話し言語を言語テンプレートと表現することで形成 される。入力音声フレームが言語テンプレート・フレームと比較される時、距離 計算が形成される。入力言語を表現する1連の入力フレームに比較される多くの 言語(ワード)テンプレートに対し、最小距離計算を持つテンプレートは、通常 入力言語(ワード)がその言語(ワード)テンプレートに整合されることを示す 。
サイレンス状態は典型的言語(ワード)検索技術において、入力フレーム、サイ レンスを示す、適当な距離尺度を用い、言語(ワード)モデルの中のサイレンス フレームとマツチングすることにより使用される。第2図は、初期のサイレンス 状態13及び終りのサイレンス状態を添えられた言語(ワード)テンプレート・ モデルを図示する。内部状態14は、前に記憶された現実の言語(ワード)テン プレート・フレームを表わす。サイレンス状態の使用は、高雑音環境で動作する 言語認識システムの性能を非常に増大できる。雑音中では言語−の初期及び/ま たは、終期は、その中に埋もれる可能性がある故に、高雑音中の言語の終点(e ndpoints)の正確な決定はきわめて困難である。サイレンス状813及 び15は、モデルが比較される話される言語(ワード)の初め及び終りを見つけ る手助けが出来る* G、D、Forney、Jr、による”Vi terbi アルゴリズム”と題し、tLW、1“ び骨”プロセラシン゛に’* IEEE ” Vol、61.No、3.1973年3月の論文に説明されるような、状態 シーケンス推定方法の使用は、言語モデル中のサイレンス状態で、入力言語の初 め及び終りを知る必要なく、デコーディング・プロセスを容易にすることが出来 る。
第2図は、入力フレームを言語(ワード)テンプレートと比較するための多くの 方法に使用可能な1つのモデルを図示する。
しかしながら、用いられる方法の型式に関係なく、フレーム毎の比較技術の使用 は、比較されるフレームの各月にたいし距離計算が形成されることを必要とする 。
使用される方法の型式にかかわらず、この方法は、多くの可能性のある言語テン プレートを識別するため、言語テンプレート検索技術に対し十分正確な距離計算 を形成しなければならない。著しいレベルの背景騒音が存在し、しばしば、それ が言語のレベルを超えても、この方法は、なお識別可能な距離計算を形成できな ければならな°い。
第3図は、本発明によるその様な方法の1例を図示するグラフである。この例で は各フレームは、各“K”周波数チャネルのエネルギー・レベルに関するチャネ ル・バンク情報を含む。
このチャネルは水平軸上に示される。垂直軸には、相対的な対数大きさ対数大き さ尺度が描かれている。グラフに描かれるのは、3つのエネルギー・レベル16 .18及び20で、それぞれ、入力フレーム16、言語テンプレート・フレーム 18及び推定雑音最低限度20を代表する0点線はバッファ・レベ2し22を代 表する。バッファ・レベル22は、特定のチャネルiの騒音最低限度に定数を加 えたものより決定される。この定数は異なる応用に対して変化するであろうが、 本実施例においては3dB以上を表わす数値が好ましい、各チャネルiにおいて 入力フレーム・レベル16はバッファ・レベル22と比較される。
入力フレーム・レベル16がバッファ22より大きければ、24、即ち、C,− 1に示される如(、そのチャネルには10割当てが行なわれる。若し入力フレー ム・チャネルが実質的に雑音最低限度以上であれば、そのチャネルを決定するの に、C!24が用いられる。“実質的に3には3dBバツフアと云う。
レベルを相対的類似の大きさに変化するために必要なチャネルのエネルギー正規 化は、後で検討される。しかしながら第3図に図示されるレベルは、本発明の説 明を助けるだけの意味であるのは注意されるべきである。エネルギー正規化後の 実際レベルは、図示されるものとは多分異なるであろう。
正規化の後、入力フレーム・レベル16がバッファレベル22より大きい、即ち C3=1のチャネルでは、入力フレーム・レベルは言語テンプレート・レベル1 8より引算される。この例ではチャネル1.2.3及び9でのみC,=1である 故に、減算は4個のみである。各減算を表わす絶対値は部分的距離計算のため蓄 積される。
C!=00チャネル、チャネル4−8では、ある数値が割当てられる。この数値 は、言語テンプレート・フレーム18及び入力フレーム・レベル16の差に依存 する。言語テンプレート・レベル18及び入力フレーム・レベル16の間の差が あらかじめ選択した公称(nominal)差より大きくない場合には、その公 称差はそのチャネルに対する割当て数値となる。そ用いられる。雑音最低限度2 0に非常に近い入力フレーム・レベルが、実際音声自体より有力な雑音である時 に、これはおきる、すべてのチャネルからの割当て数値の全蓄積は全距離計算の 形成に使用される。この全距離計算は入力フレーム及び言語テンプレート・フレ ーム間の音響的類似性の尺度を表わす。比較的低い全距離計算は、2つの類似音 響フレームを示す。全距離計算の零は完全整合を表示する。
与えられた例と一致する方法を実行することにより、言語テンプレート及び話さ れる言語(ワード)を表現する一連の入力フレームとの間の類似性をを決定する 有効な計算がめられることが出来た。
さて第4図には、上に説明されるフレーム比較方法の全般流れ図が図示される。
流れ図は、入力フレームが背景騒音レベルより著しく大きいエネルギーを持つチ ャネルの決定より開始する。これがブロック30である。これは、入力フレーム ・レベルよりバッファ・レベルを引算し、その結果を零と比較することで行なわ れる。その差が正の場合には、C1=1で、チャネルは著しく背景騒音より大き いと考えられる。
ブロック34では、どのチャネルに対してもC1=1であるかを決定するテスト が行なわれる。テスト結果が肯定であれば、入力フレーム及び言語テンプレート ・フレーム・エネルギー・レベルの両方に対し正規化がめられる。これがブロッ ク32である。正規化がめられず、言語テンプレート・エネルギーが入力フレー ムのエネルギーより非常に異なる場合には、それらの間の距離は音響的類似性は 殆ど無いことを示すであろう。
従来技術は典型的に、各特定チャネルの対数エネルギー(I。
g energy)よりフレーム中の全チャネルの平均対数エネルギーを引算す ることにより、正規化した。しかしながら、著しい量の背景騒音が存在する時に は、これはあまり良く働かない。入力フレームに著しいエネルギーが存在するチ ャネルのみの平均エネルギー・レベルにもとづく各レベルの正規化により、より 代表的正規化が計算可能である。第3図の例では、これはC4=1の場合である 。
例えば、入力フレーム・エネルギー・レベル、X、及び、言語テンプレート・フ レーム・エネルギー・レベル、Yは、Kチャネルで以下のように正規化出来る。
著しいエネルギーがチャネルiの入力に存在する場合、C1=1とする。著しい エネルギーは存在しない場合、C,=Oとする。そこで各チャネルiに対し、文 −よ(KX、”C,に対しSuml =1)/ (KCIに対し3umz=1) を減することにより正規化され、同様にY、は(KYi”−C8に対しSumi  =1)/ (KC,に対しSumz=1)を減することにより正規化される。
それ故に平均エネルギーはC4=1を有するチャネルのみより決定される。
単−人力フレームごとに処理される時、いくつかの言語(ワード)テンプレート ・フレームが典型的に比較されるが、大部分の認識器(recognizor) にたいして活性チャネル(C4=1)の決定及び入力フレームの正規化は、入力 フレームごとに一回だけ実行されるべきであることは注意されるべきである。
全チャネルが、著しい入力フレーム・エネルギーを持たない、即ち、全チャネル にたいしC,=Oであれば、全チャネルにた 2いする数値割当ては同一である 。この割当ては、入力フレーム・レベル及びテンプレート・フレーム・レベルの 間の予期差(expected differential)を表わし、所定値 である。この予期差を“e″に等しくすれば、Kチャネル★ にたいし全距離計算は“Ke″として容易に計算できる。これはブロック38に 図示される。
どれかのチャネルが活性的であれば、そのチャネルにたいする正規化入力フレー ム・レベルと正規化言語テンプレート・フレーム・レベルの間の絶対差を示す適 当数値が割当てられる。
これら数値割当ての蓄積が全距離計算器(DIST)を決定する。これがブロッ ク36である。著しいエネルギーのないチャネルにたいしては、適当な数値割当 て決定のため追加テストがなされる。これら追加テスト及び割当て数値は、第5 図a、第5図すの流れ図で検討される。
さて第5図aを参照するに、拡張した第4図の流れが図示される。この拡張流れ 図に用いられる各変数の定義は以下に表記される。
X=各チャネルに対する入力フレーム・レベルY=各チャネルに対する言語(ワ ード)テンプレート・フレム・レベル N−各チャネルに対する推定前景騒音レベルに=チャネルの総数 d−N−の上のバッファ差 e=チャネル距離に対する所定予期値 C=入カフレームの各チャネルに対する著しいエネルギーの標識 i−チャネル番号(ナンバー) T=入力フレーム・チャネル・レベルを引算した言語テンプレート・フレーム・ チャネル・レベル DIST=全距離計算 第4図のブロック30は第5図のブロック40より50に拡張される。各チャネ ルiにおいて、入力フレームのエネルギー・レベルが推定背景騒音レベルNより 著しく大きいかどうか定める決定がなされる。これがブロック42である。これ は、バッファ・レベルを入力フレーム・レベルと比較して行なわれる。
バッファ・レベルは、雑音レベルにバッファ差を加えたものと定義される。入力 フレーム・レベルがバッファ・レベルよす大きいか、または等しければ、それは C,=1とセットすることにより示され、これはブロック44である。入力フレ ーム・レベルがバッファ・レベルより小さければ、それはC4=0とセットする ことにより示される。これはブロック46である。ブロック42より46への手 順は、ブロック40.48及び50により図示の如く、各チャネルに対し繰り返 される。
第4図のブロック34はこれ以上の拡張を必要としない。入力フレーム・レベル が、どのチャネルで著しいエネルギーを持つか決定するため、テストがなされ、 どのチャネルで01=1であるかを表示する。少な(とも1つのチャネルでC, =1であれば、流れはブロック32に進む。全チャネルでC,=Oであれば、所 定の全距離計算“K*e”は距離尺度として割当てられる。これはブロック38 である。
第5図すにすすみ、第4図のブロック32はブロック52より58へと拡張され る。あらゆるチャネルで入力フレーム・レベル及び言語テンプレート・フレーム ・レベルの両方は、異なるエネルギー・レベルの類似波形とスペクトル的に比較 するため正規化される。ブロック52.58及び59は、各チャネルにおける正 規化を示す。入力フレームは、その平均レベルを入力フレーム・レベルより減す ることにより、各チャネルで正規化される。前に検討されたように、入力フレー ムの平均レベルは、”C,=1のチャネル数”で、割算される“C,=1のチャ ネル・レベルの和”と決定される。これはブロック54に図示される。ブロック 56は言語テンプレート・フレーム・レベルに対する並列正規化を図示する。ど の特定の平均レベルの決定は、入力フレーム・レベルが少しばかりのチャネルで ノマツファ・レベルを超える場合において、残りのチャネルは合成正規化レベル に著しく加重値を与えるべきでないから重要である。若しそれらが合成レベルに 著しい加重値を与えるとすれば、正規化プロセスは、言語エネルギーのみに存在 するより背景騒音により影響されるであろう。
第5図すでは、ブロック36がブロック60より76まで拡張されるのが図示さ れる。各チャネルに適当な数値を割当てるため、2つの尺度(measurem ent)かつ(られる。
第1の尺度は、正規化言語テンプレート・フレーム・レベル及び正規化入力フレ ーム・レベルの間の差である。この差は、ブロック62で知られる如く“T″と 表示される。Tの絶対値は、そのチャネルのCiが1であれば、即ち、その入力 フレーム・レベルがバッファ・レベルより大きければ、そのチャネルに割当てら れる値となる。そのC1テストはブロック64に図示され、Tの絶対値はブロッ ク66にて距離計算、DISTに蓄積されるのが図示される。
第2尺度はブロック68で、バッファ・レベルが入力フレーム・レベルより大き い、即ち、C,=Oのチャネルに対してのり68でTを零と比較し、言語テンプ レート・フレーム・レベルがバッファ・レベルより小さいのが検出できる。これ は、C6−0であるから、この点では入力フレーム・レベルがバッファ・レベル より小さいと知られている故である。よって、言語テンプレート・レベルが入力 フレーム・レベルより小さければ、つづいて、言語テンプレート・フレームはバ ッファ・レベルより小さいということである。これは重大である°、何故なら、 両レベルがバッファ・レベルより小さければ本当のレベル比較はなされ得ない。
そこで、予期値“e”が割当てられる。全距離計算はブロック70の蓄積する“ e”で示される。
言語テンプレート・フレーム・レベルがバッファ・レベルより小さいのが検出さ れないと(Too)、このレベル及び大体バッファ・レベルより小さい入力フレ ーム・レベルの間に、多少正確な尺度がつくられうると信じられる。この尺度が 前に選択した公称差より大きくなければ、この差はそのチャネルにおける割当て 値となる。この値は応用により異なるかもしれないが、この値は値“e”である のが好ましい0尺度が差より大きければ、“t”の値はチャネルに割当てられる 値となる。これはブロック72に図示され、′e”か“T″の値のいづれか大き い方が、全距離計算、DISTに蓄積される。この数値割当てプロセス及び蓄積 は、ブロック70.74及び76により示されるように、各チャネルで行なわれ る。これら蓄積値は、話される言語からのフレーム及び潜在的マツチング言語テ ンプレートからのフレームの間の正確な距離尺度を代表する全距離計算、DIS Tとなる。
バッファ差、d及び所定予期チャネル値、eは、他のチャネルに対しては異なる かもしれないことは注意されるべきである。
さらに以上説明の技術は、ブロック66及び72に適切な変更をなすことにより 、ユークリッドまたはウェイト付きユークリッド距離尺度で言語に変更されるの も可能である。
この方法は、音声発声の表示にチャネル・バンク型情報を用いるいかなる音声認 識システムにも適用できるが、この方法がトランケート検索技術で使用される時 には問題を生ずる。ビーム・デコーディングのようなトランケート検索技術は、 最良の現在パスに対する蓄積距離のしきい値内に蓄積距離を持つデコーディング ・パスを拡張するのみである。この検索計略は検索時間を短縮し、技術上既知で ある。参考、B、Lowerre。
Ha r p y 音声認識システム”Ph、D、論文、コンピュータ科学部、 Carnegie−Mel Ion大学、1977゜トランケート検索でこの方 法を用いる時に生ずる問題は、背景騒音レベルに近い入力フレームにおけるエネ ルギー・レベルに関係する。これは、C1=oを有するチャネルの差によって示 される。そのような入力フレームが多くの音声テンプレート・フレームに比較さ れる時、各結果の全距離計算は非常に類似であるであろう。これは、フレーム間 の識別距離尺度に影響しない。この例では、検索はもはやトランケートされない 。何故なら全部の距離計算はしきい値より小さいであろう。そこで、いかなるデ コーディング・パスも徹底的比較より排除されることは出来ない。
本発明によれば、この問題の1つの解決は、′エネルギーしきい値”と呼ばれる 。この意味でエネルギーしきい値は、言語テンプレートの高エネルギーしきい値 は、言語テンプレートの高エネルギ一部分と、比較的低入力フレーム・エネルギ ーとの整合(matching)を禁止する。入力フレーム・エネルギー、なる べくは全チャネルに対する平均エネルギーが、背景騒音エネルギーよりほんの僅 か大きく、音声テンプレート・フレーム・エネルギーが全音声テンプレートの最 大エネルギーに略々等しければ、入力フレームは言語テンプレート・フレームに 非類憤と考えられるであろう、これは、トランケート検索計略に追加類似度尺度 を提供する。異なる言語テンプレートの各フレームに対する距離計算が識別的で なければ、エネルギーしきい値が使用できる。これは、話される言語からの入力 フレームが比較的低エネルギーで、言語テンプレート・フレームが比較的高エネ ルギーを持てば、マツチング言語テンプレート・フレームに対応できない故であ る。
好ましいエネルギーしきい値テストは、下記の通りである。
言語テンプレート・フレームの平均エネルギーが言語テンプレートの最高エネル ギ−12dB以内で、また、入力フレーム平均エネルギーが1谷(va 11  ey) ”に6dB加えたものより小さければ、言語テンプレート・フレームは 入力フレームに対応しない。
用語“谷(valley)”は、現フレームに関係し、直前に検出され音声の最 低エネルギー・レベルを表わすようにめられる。谷検出器に関するより以上の情 報に対しては、米国特許第4.378.603号を参照することがよい。
“エネルギーしきい値”と組合せで第5図a、第5図すに説明されるフレーム比 較法を使用することにより、このフレーム比較法は限りない数の言語検索技術に おいて使用可能である。
準 特衣昭63−502304 (7) 国際調査報告

Claims (10)

    【特許請求の範囲】
  1. 1.チャネル・バンク情報が、フレーム及びテンプレートとして音声を表現する のに用いられ、且つフレームにより表現され、音声認識プロセスの間検索用に記 憶される音声認識システムにおいて、 各チャネルに対し、入力背景騒音エネルギーを代表する第1エネルギー・レベル を決定するステツプ、各チャネルに対し、入力フレーム・エネルギーを代表する 第2エネルギー・レベルを決定するステツプ、各チャネルに対し、テンプレート ・フレーム・エネルギーを代表する第3エネルギー・レベルを検索するステツプ 、各チャネルにおいて、前記第2及び第3エネルギー・レベルの間の差に対応し 、しかも、ある特定のチャネルにおいて、前記第2エネルギー・レベルが前記第 1エネルギー・レベルより小さい時には所定の定数値を含む値を割当てるステツ プ、前記入力フレームと、前記定数値における言語テンプレート・フレームとの 間に距離尺度を発生するステツプ、を具える高雑音環境における言語識別用のフ レーム比較法。
  2. 2.前記値は、1チャネルに割当てられる少なくとも1つの所定値を含み、前記 第2、第3エネルギー・レベルは、前記第1エネルギー・レベル以下である前記 請求の範囲第1項記載の高雑音環境における言語識別用のフレーム比較法。
  3. 3.前記第2エネルギー・レベルが前記第1エネルギー・レベルより大きいチャ ネルに対する平均にもとづく前記第2エネルギー・レベルを正規化するステツプ を更に具える前記請求の範囲第1項記載の高雑音環境における言語識別用のフレ ーム比較法。
  4. 4.チャネル・バンク情報が、フレーム及びテンプレートとして音声を表現する のに用いられ、且つフレームにより表現され、音声認識のトランケートされた検 索プロセスの間検索用に記憶される音声認識システムにおいて、入力背景騒音エ ネルギーを代表する第1エネルギー・レベルを決定するステツプ、 入力フレーム・エネルギーを代表する第2エネルギー・レベルを決定するステツ プ、 テンプレート・フレーム・エネルギーを代表する第3エネルギー・レベルを検索 するステツプ、 前記第3エネルギー・レベルが所定定数より小さい時に、トランケートされた検 索プロセスに対し前記入力フレームと、前記言語テンプレート・フレーム間の類 似性を示し、前記第2エネルギー・レベルを前記第1エネルギー・レベルと比較 するステツプ、 を具える高雑音環境における言語識別用のフレーム比較法。
  5. 5.前記第2エネルギー・レベルは、入力フレームの平均チャネル値を表わす前 記請求の範囲第4項記載の高雑音環境における言語識別用のフレーム比較法。
  6. 6.チャネル・バンク情報は、フレーム及びテンプレートとして音声を表現する のに用いられ、且つフレームにより表現され、音声認識プロセスの間検索のため 記憶される音声認識システムにおいて、 各チャネルに対する入力背景騒音エネルギーを代表する第1エネルギーを決定す る手段、各チャネルに対する各チャネルに対する入力フレーム・エネルギーを代 表する第2エネルギー・レベルを決定する手段、各チャネルに対するテンプレー ト・フレーム・エネルギーを代表する第3エネルギー・レベルを検索ずる手段、 各チャネルにおける前記第2及び第3エネルギー・レベル間の差に対応し、しか も、ある特定のチャネルにおいて前記第2エネルギー・レベルが前記第1エネル ギー・レベルより小さい時に所定定数を含む手段、 前記値より前記入力フレーム及び前記言語テンプレート・フレーム間の距離尺度 を発生する手段、を具える高雑音環境における言語識別用のフレーム比較装置。
  7. 7.前記値は、1チャネルに割当てられる少なくとも1つの所定値を含み、前記 第2、第3エネルギー・レベルは前記第1エネルギー・レベル以下である前記請 求の範囲第6項記載の装置。
  8. 8.前記第2エネルギー・レベルは、前記第1エネルギー・レベルより大きいチ ャネルに対する平均に基づいて前記第2エネルギー・レベルを正規化する手段を 更に含む前記請求の範囲第6項記載の装置。
  9. 9.チャネル・バンク情報がフレーム及びテンプレートとして音声を表現するの に用いられ、且つフレームにより表現され、音声認識のトランケートされたテン プレート検索プロセスの間検索のため記憶される。音声認識システムにおいて、 入力背景騒音エネルギーを代表する第1エネルギー・レベルを決定する手段、 入力フレーム・エネルギーを代表する第2エネルギー・レベルを決定する手段、 テンプレート・フレーム・エネルギーを代表する第3エネルギー・レベルを検索 する手段、 前記第3エネルギー・レベルが所定定数より小さい時にトランケートされた検索 プロセスに対し前記入力フレーム及び前記言語テンプレート・フレーム間の類似 性を示すように前記第2エネルギー・レベルを前記第1エネルギー・レベルと比 較する手段、 を具える装置。
  10. 10.前記第2エネルギー・レベルは入力フレームの平均チャネル値を表わす前 記請求の範囲第9項記載の装置。
JP87500806A 1986-01-06 1986-12-29 高雑音環境における言語認識のためのフレ−ム比較法 Pending JPS63502304A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US81659886A 1986-01-06 1986-01-06
US816598 1986-01-06
PCT/US1986/002826 WO1987004294A1 (en) 1986-01-06 1986-12-29 Frame comparison method for word recognition in high noise environments

Publications (1)

Publication Number Publication Date
JPS63502304A true JPS63502304A (ja) 1988-09-01

Family

ID=25221081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP87500806A Pending JPS63502304A (ja) 1986-01-06 1986-12-29 高雑音環境における言語認識のためのフレ−ム比較法

Country Status (5)

Country Link
EP (1) EP0255529A4 (ja)
JP (1) JPS63502304A (ja)
CA (1) CA1301338C (ja)
FI (1) FI873567A (ja)
WO (1) WO1987004294A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
EP0763811B1 (en) * 1990-05-28 2001-06-20 Matsushita Electric Industrial Co., Ltd. Speech signal processing apparatus for detecting a speech signal
DE69121312T2 (de) * 1990-05-28 1997-01-02 Matsushita Electric Ind Co Ltd Geräuschsignalvorhersagevorrichtung
KR960005741B1 (ko) * 1990-05-28 1996-05-01 마쯔시다덴기산교 가부시기가이샤 음성신호부호화장치
JP3033061B2 (ja) * 1990-05-28 2000-04-17 松下電器産業株式会社 音声雑音分離装置
EP0459362B1 (en) * 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Voice signal processor
US6937674B2 (en) * 2000-12-14 2005-08-30 Pulse-Link, Inc. Mapping radio-frequency noise in an ultra-wideband communication system
US9536523B2 (en) 2011-06-22 2017-01-03 Vocalzoom Systems Ltd. Method and system for identification of speech segments

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
GB1569450A (en) * 1976-05-27 1980-06-18 Nippon Electric Co Speech recognition system
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
GB2137791B (en) * 1982-11-19 1986-02-26 Secr Defence Noise compensating spectral distance processor

Also Published As

Publication number Publication date
FI873567A0 (fi) 1987-08-18
EP0255529A4 (en) 1988-06-08
WO1987004294A1 (en) 1987-07-16
FI873567A (fi) 1987-08-18
CA1301338C (en) 1992-05-19
EP0255529A1 (en) 1988-02-10

Similar Documents

Publication Publication Date Title
Hansen Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect
US4918732A (en) Frame comparison method for word recognition in high noise environments
Hori et al. The MERL/SRI system for the 3rd CHiME challenge using beamforming, robust feature extraction, and advanced speech recognition
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
US20080208578A1 (en) Robust Speaker-Dependent Speech Recognition System
Chowdhury et al. Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR
Chougule et al. Robust spectral features for automatic speaker recognition in mismatch condition
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Poorjam et al. A parametric approach for classification of distortions in pathological voices
JPS63502304A (ja) 高雑音環境における言語認識のためのフレ−ム比較法
Vanderreydt et al. A novel channel estimate for noise robust speech recognition
JP3798530B2 (ja) 音声認識装置及び音声認識方法
Yamamoto et al. Robust i-vector extraction tightly coupled with voice activity detection using deep neural networks
Bhukya et al. End point detection using speech-specific knowledge for text-dependent speaker verification
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
Barai et al. An ASR system using MFCC and VQ/GMM with emphasis on environmental dependency
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Zegers Memory time span in lstms for multi-speaker source separation
Nahar et al. Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Menne Learning acoustic features from the raw waveform for automatic speech recognition
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.