JPS61179499A - テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム - Google Patents

テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム

Info

Publication number
JPS61179499A
JPS61179499A JP60214381A JP21438185A JPS61179499A JP S61179499 A JPS61179499 A JP S61179499A JP 60214381 A JP60214381 A JP 60214381A JP 21438185 A JP21438185 A JP 21438185A JP S61179499 A JPS61179499 A JP S61179499A
Authority
JP
Japan
Prior art keywords
keyword
template
filler
segments
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60214381A
Other languages
English (en)
Other versions
JPH0774960B2 (ja
Inventor
アラン・ローレンス・ヒギンズ
ロバート・イー・ウオールフオード
ローレンス・ジヨージ・バーラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Standard Electric Corp
Original Assignee
International Standard Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Standard Electric Corp filed Critical International Standard Electric Corp
Publication of JPS61179499A publication Critical patent/JPS61179499A/ja
Publication of JPH0774960B2 publication Critical patent/JPH0774960B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の技術分野] この発明は、音声中のキーワードの発生を検出するシス
テムおよび方法に関する。
[発明の技術的背景] 従来のキーワード認識システムは例えばブリチッシュ・
アコステイカル・ソサヤテイ・スプグ・ミーティング1
973年4月1〜4頁に記載されている。このシステム
では検出されるべきキーワードの話された例のパラメー
タ表示からエラスティック・テンプレートが導出される
。入って来る音声の同様のパラメータ表示が連続的にこ
れらのテンプレートと比較され、音声とテンプレートが
導出されるキーワードとの間の類似性が測定される。入
って来る音声のセグメントが対応するテンプレートと充
分に類似しているとき、あるキーワードが話されたもの
とされる。キーワードテンプレートは、話す速度および
発音法における変化のために時間的に伸長または圧縮さ
れることができるから、エラスティックと呼ばれる。
[発明の解決すべき問題点] 従来の方法で使用されているシステムはしばしばキーワ
ードが話されたという誤った指示または警報を与える。
これらの誤った警報は入って来る音声がキーワードと類
似した音響パターンを含んでいる時に生じる。誤った警
報の頻度はキーワードの音響パターンの言語中のユニー
クさに依存している。別の欠点は、従来の方法を使用す
るシステムは多量の計算電力を必要とすることである。
さらに、これらの方法の性質は実時間(リアルタイム)
で動作する実際のシステムを構成することが困難である
ことである。これらの欠点がキーワードi!識システム
の実用的な開発を制限していた。
この発明は、連続的な話された音声中のキーワードの発
生を検出する方法を使用するシステムを提供するもので
ある。
[問題点の解決手段] この発明の方法は、従来の方法よりも強力な決定方法を
使用する。その決定方法はキーワード仮定と観測された
音声がキーワードではないという別の仮定の両者を評価
するものである。すぐれた言語モデルが後者の仮定を評
価するために使用される。このモデルによる言語の任意
の発音は一組のフィラー(filter)テンプレート
の連鎖によって近似される。このシステムは制限されな
い自然の音声におけるキーワードの発生の自動検出を可
能にする。このシステムは特定の発音者によって訓練さ
れることができ、或いは発音者に無関係に機能すること
ができる。
[発明の実施例] 以下、添附図面を参照にしてこの発明の原理を実施例に
よって説明する。
この発明によるキーワード認識またはワードスポットシ
ステムはキーワードに対してのみならず言語中の全ての
音声に対するモデルを使用する。
この発明の方法は、入って来る音声と従来の方法のよう
にキーワードから導出されたエラスティック・テンプレ
ートとの間の類似性を連続的に測定する。さらに、入っ
て来る音声と一般的な言語モデルとの間の類似性を測定
する。キーワードは、キーワード・テンプレートに対す
る類似性が一般的な言語モデルに対する類似性より充分
に大きいときに検出されたものとする。
一般的な言語モデルは、訓練発音から導出された予め記
録された音声の例えば50〜500の短いセグメントの
セットからなる。これらのセグメントは以下フィラー・
テンプレートと呼ぶ。それらは言語を話す人によって使
用された音響空間を覆うゴールによって選ばれる。これ
は例えば訓練発音のセグメント化および統計的集団解析
によって行われる。それらの期間は音素(フォニーム)
の期間と音節(シラブル)の期間との間の範囲にある。
モデルによる言語の任意の発音はそれらの順序に制限さ
れることなくフィラー・テンプレートの連鎖によって近
似される。一般言語モデルとしてのフィラー・テンプレ
ートの使用はこの発明のユニークな特徴である。
この発明は、構文に束縛されることのない変形連続音声
11(C3R)システムを使用して構成される。C8R
システムはキーワードテンプレートとフィラーテンプレ
ートの組合わせを使用し、入力音声と最もよく一致した
連鎖テンプレートのシーケンスを決定する。C8Rシス
テムは本出願人の1982年11月3日出願の米国特許
出願439018号、1983年3月9日出願の米国特
許出願473422号明細書に記載されたようなものが
使用できる。理想に近い、すなわちゼロに近いエラー率
の動作において、キーワードテンプレートは話されたキ
ーワードと整合し、フィラーテンプレートは残りの全て
の音声と整合する。キーワードテンプレートが最良の整
合のテンプレートシーケンス中に現われるとき、キーワ
ードが話されたものとされる。
この発明は、新しいテンプレートが部分テンプレートス
トリングに連鎖されたときには、一定のペナルティが部
分ストリングスコアに追加されるように変形することに
よって、現在あるC8Rシステムを使用することができ
る。マルコフ(Markov )モデルの状態としてフ
ィラーテンプレートを見ると、連鎖ペナルティは対数転
移確率に類似している。固定ペナルティの使用は全ての
転移が等しい確率であると仮定することと等価である。
ペナルティの値はそれ故フィラーテンプレートの数の対
数に反比例する。またフィラーおよびキーワードテンプ
レートの相対的期間について、正の連鎖ペナルティの供
給は、短いテンプレートまたはフィラーに関して長いテ
ンプレートまたはキーワードの認識の可能性を増加させ
る。それはより少ないペナルティしか生じないからであ
る。
したがってペナルティはフィラーテンプレートセットを
変形せずにシステムの動作点を調整する手段を与える。
この発明は、キーワード検出に対してより強力な決定方
法を使用することによって従来の方法の欠点に対処する
ものである。従来の方法はキーワードを与えた音響的デ
ータの条件確率を算定するものであるが、この発明は、
音響的データを与えたキーワードの条件確率を算定する
ものである。
後者の量はキーワード検出に必要な情報である。
この発明は、従来の方法で行われていた冗長度計算の必
要性をなくすものである。増加した効率は大きさ順序に
よる所要の計算を減少する。
キーワード認識システムのブロック図が第1図に示され
ている。マイクロホン101からの入力音声は音響アナ
ライザ102の入力に与えられる。音響アナライザ10
2は音声を短いフレームに分割し、その出力に各フレー
ムのパラメータ表示を出力する。音響アナライザによっ
て行われる音響的解析の特定の形式はこの発明では厳密
なものではなく、前記米国特許出願明細書に記載された
ような音響アナライザを使用することもできる。例えば
10ミリ秒のフレームの大きさの16チヤンネルバンド
バスフイルタによる解析が使用できる。これらのスペク
トルパラメータは、選択スイッチ103によって選択さ
れたシステム動作モードに応じて3つの方法のいずれか
で処理することができる。3つのモードとは認識モード
、キーワード訓練モード、およびフィラーテンプレート
訓練モードである。
認識モードにおいては音響アナライザのスペクトルパラ
メータ出力は変形されたC8Rシステム104の入力に
与えられる。このC8Rシステム104によって行われ
るC3Rアルゴリズムは前述したような変形を除いては
この発明にとってクリティカルなものではない。変形C
8Rシステムは認識されるべき入力音声に最も良く整合
する蓄積されたフィラーおよびキーワードテンプレート
の連鎖シーケンスを決定する。変形C8Rシステムの出
力はテンプレートラベルのストリングであり、それにお
いて各ラベルは最良の整合のテンプレートシーケンスに
おける一つのテンプレートを表わしている。例えば各テ
ンプレートは数を割当てられ、ラベルはその数を表わす
多ピットであってよい。この出力はキーワードテンプレ
ートサーチサブシステム109に与えられ、それは例え
ば多ビツト表示である場合には入力テンプレートラベル
を蓄積されたキーワードテンプレートラベルと比較する
キーワードテンプレートラベル用の蓄積fI@を有する
多ピット比較器であってもよい。キーワードテンプレー
トサブシステム109はその場合にはキーワードが話さ
れたことの指示およびどのキーワードが話されるかの指
示を与える。
キーワード訓練モードにおいては、使用者は各キーワー
ドを別々に話し、音響アナライザのスペクトルパラメー
タ出力は例えば前記米国特許出願明細書に記載された検
出器のようなエネルギベースの終点(end  pai
nt)検出器105の入力に供給される。キーワードの
終点はこの終点検出器105によって決定される。各キ
ーワードのスペクトルパラメータはキーワードテンプレ
ート蓄積装置10Bに入力される。フィラーテンプレー
ト訓練モードにおいては、使用者はwi中の音の合理的
なサンプリングを含む充分に長い任意の発音をする。
テキストの一節を読上げるのが適当であり、それにキー
ワードを含むことは必要ない。音響アナライザ102の
出力に生じたスペクトルパラメータのストリングはフィ
ラーテンプレート導出サブシステム107の入力に与え
られ、導出されたフィラーテンプレートはフィラーテン
プレート記憶装置108に記憶される。フィラーテンプ
レート導出サブシステム107はスペクトルパラメータ
のストリングをフィラーテンプレートとして使用される
短いセグメントに分割する。
フィラーテンプレート導出の作業を行なう一つの方法は
発音のスベクトロダラムの視覚検査による訓練発音のシ
ラベルの人手によるマークである。
その結果のセグメントはほぼシラベル(音節)に対応し
、それらのセットは広範囲の異なった音を表わす目標に
より選択され、フィラーテンプレート記憶装置108中
に記憶される。
フィラーテンプレート導出の作業を行なう別の方法は自
動的であり、2段の過程を使用する。訓練発音からの音
声データはまずセグメントに分割される。これらのセグ
メントは統計的クラスタ解析装置に入力として供給され
る。この統計的クラスタ解析装置はセグメント間の距離
の測定に基づいて数学的関数を最大にするセグメントの
サブセットを選択する。選択されたサブセットに属すセ
グメントはフィラーテンプ5レートとして使用される。
このフィラーテンプレート導出方法は第2図に示されて
いる。これら二つのフィラーテンプレート導出方法の特
性はほとんど等しく、フィラーテンプレートの選択は臨
界的なものではないことを示している。自動的な方法は
多くの態様で構成することができ、それはセグメント化
および統計的クラスタ解析のために使用する技術によっ
て興なっている。セグメント化および統計的クラスタ解
析のために使用する方法は臨界的なものではなく、等し
い長さのセグメント化および基本的カバーリング(co
vering)解析を使用して良好な結果が得られる。
セグメント化を行なう方法の一つでは、音響アナライザ
の出力から得られた訓練データベース101Aはセグメ
ント化回路10713によって例えば100ミリ秒の等
しい長さのセグメントに分割される。セグメント化を行
なう別の方法においては、セグメントの長さは等しくな
く、セグメントの境界はスペクトル変化の割合いの測定
に基づいて選択される。別のアルゴリズムをこの形式の
セグメント化を達成するために考えることができるが、
目標はスペクトルが迅速に変化する場合には短いセグメ
ントを、スペクトルがゆっくりと変化する場合には長い
セグメントを生成することである。
セグメント化を行なうさらに別の方法においては、多く
の人の集団の音声から導出された原型のセグメントのセ
ットが使用される。原型のセグメントはテンプレートと
して使用され、C8Rシステムを使用して訓練発音と整
合される。セグメント境界は連鎖している原型のセグメ
ント間の境界に一致されたテスト発音のフレーム間にマ
ークされる。
統計的クラスタ解析は統計的クラスタ解析装置107 
Cによって行われ、セグメント化過程により供給された
入力セグメントの大きなセットを相対的に表わす出力セ
グメントセットを選択するために使用される。統計的ク
ラスタ解析を行なう一つの方法は、統計学の文献に記載
されているような周知のに平均アルゴリズムを使用して
入力セグメントと最も近い出力セグメントとの闇の平均
距離を最小にするように出力セグメントを選択するもの
である。統計的クラスタ解析を行なう別の方法は、カバ
ーリング解析とも呼ばれる方法であって、入力セグメン
トと最も近い出力セグメントとの間の距離が特定の公差
よりも小さいことを保証するように出力セグメントを選
択することにより訓練データをカバーするセグメントの
セットを選択するものである。選択された各セグメント
の近傍の訓練データの密度が計算され、どの密度が最大
であるかについてさらにセグメントに対して選択が行わ
れる。例えばカバーリング解析の1方法では最初の入力
セグメントが出力セグメントであるとされる。それから
後続する各入力セグメントが全ての出力セグメント(最
初はただ1個である)と比較される。もしも、最も近い
出力セグメントまでの距離が特定の公差よりも大きけれ
ば、その入力セグメントは出力セグメントのセットに加
えられる。K平均およびカバーリング解析の両方の方法
において、使用されるセグメント間の距離の測定はセグ
メントの対応するフレーム間の平均2乗ユークリッド距
離である。
不可欠のものではないが、キーワードテンプレートのセ
グメントから追加のフィラーテンプレートを生成するこ
とによって前述の過程を使用して導出されたフィラーテ
ンプレートのセットを増加させることは有効である。例
えば、これは各キーワードテンプレートをフィラーテン
プレートの平均期間に大体同じである等しい長さのセグ
メントに分割することによって行われる。各キーワード
テンプレートから生成された数個のフィラーテンプレー
トによって、キーワードセグメントは直接追加のフィラ
ーテンプレートとして使用される。
この発明は、音声による命令あるいは制御ワードを使用
する機械動作の制御に使用することができる。例えば、
この発明は、音声により電話することを命令したり、あ
るいはテキスト編集のようなオフィスの装置の音声制御
および玩具の音声制御に使用することができる。
別の応用はゆるい構文上の束縛を使用した連続的音声i
!識クシステムおけるものである。現在のC8Rシステ
ムは非常に厳しい制限をもった構文で話されるように文
節を定めることが必要である。
しかしながら、多くの用途においてメツセージの内容は
ワードの小さなサブセットによって構成される。これら
の用途では、メツセージの解読はキーワードのv:tm
によって導かれている。使用者は許容されるワードの順
序を示す複雑なグラフを常に参照する必要はない。その
ような能力は特に人と機械の対話に依存するシステムに
おいて価値がある。
この発明はまた、自動化された航空機予約システム、コ
ンピュータで援助される指令システムおよび情報検索シ
ステムに使用することができる。
この発明の別の応用は会話の要旨の自動抽出である。さ
らに別の応用は、音声11!lシステム中で使用するた
めの、および連続音声認識システム中の基準テンプレー
トの自動更新に使用するための自然に話す文節からの基
準テンプレートの自動抽出である。
以上、この発明を好ましい実施例と関連して説明したが
、当業者には自明の多くの別の実施態様、変形および応
用が特許請求の範囲に記載された本願発明の技術的範囲
に含まれることを理解すべきである。
【図面の簡単な説明】
第1図はこの発明のキーワード認識システムの実施例の
ブロック図を示し、第2図はフィラーテンプレート導出
のための1実施例のブロック図を     ゝ示す。 101・・・マイクロホン、102・・・音響アナライ
ザ、103・・・選択スイッチ、104・・・変形C8
Rシステム、105・・・終点検出器、106・・・キ
ーワードテンプレート記憶装置、107・・・フィラー
テンプレート導出装置、108・・・フィラーテンプレ
ート記憶装瞳。

Claims (32)

    【特許請求の範囲】
  1. (1)観測する音声を1個以上のキーワードおよび1個
    以上の任意の言語発音の表示と比較し、前記キーワード
    との比較および前記任意の言語発音との比較のいずれが
    最良の整合を与えるかを決定することを特徴とする観測
    する音声中のキーワードを認識する方法。
  2. (2)前記任意の言語発音はフィラーテンプレートのセ
    ットの連鎖によつて近似される特許請求の範囲第1項記
    載の方法。
  3. (3)前記表示が蓄積される特許請求の範囲第1項記載
    の方法。
  4. (4)1個以上の任意の訓練発音の表示を導出し、かつ
    1個以上のキーワードの表示を導出する特許請求の範囲
    第1項記載の方法。
  5. (5)1個以上の任意の訓練発音の表示を導出する過程
    は、前記任意の訓練発音をセグメント化し、フィラーテ
    ンプレートとして前記セグメントのサブセットを選択す
    るために前記セグメントの統計的クラスタ解析を行ない
    、前記フィラーテンプレートを連結する特許請求の範囲
    第4項記載の方法。
  6. (6)1個以上の任意の訓練発音の表示を導出する過程
    は、追加のフィラーテンプレートとして使用するために
    前記フィラーテンプレートの平均期間にほぼ近似する期
    間の等しい長さのセグメントに前記1個以上のキーワー
    ドの表示を分割する過程を有する特許請求の範囲第5項
    記載の方法。
  7. (7)前記セグメントに分割する過程は、複数の人の音
    声から連続する原型セグメントを導出し、前記連続する
    原型セグメント間の境界に整合される前記任意の訓練発
    音のフレーム間のセグメント境界をマークすることによ
    つて前記原型セグメントを前記任意の訓練発音に整合さ
    せる過程を有する特許請求の範囲第5項記載の方法。
  8. (8)前記統計的クラスタ解析を実行する過程は、入力
    セグメントとこの入力セグメントに最も近い出力セグメ
    ントとの間平均距離を最小にする過程を有する特許請求
    の範囲第5項記載の方法。
  9. (9)前記入力セグメントとこの入力セグメントに最も
    近い出力セグメントとの間平均距離を最小にする過程は
    、K平均アルゴリズムを有する特許請求の範囲第8項記
    載の方法。
  10. (10)前記統計的クラスタ解析を実行する過程は、任
    意の入力セグメントとこの入力セグメントに最も近い出
    力セグメントとの間の距離が特定の公差より小さいよう
    に出力セグメントを選択する過程を有する特許請求の範
    囲第5項記載の方法。
  11. (11)前記選択する過程は、最初の入力セグメントを
    出力セグメントと見なして、それに後続する各セグメン
    トを全ての出力セグメントと比較し、もしもその最も近
    い出力セグメントまでの距離が特定の公差より大きいな
    らば前記後続するセグメントを出力セグメントとする過
    程を有する特許請求の範囲第10項記載の方法。
  12. (12)前記比較する過程は、連鎖されないテンプレー
    トが部分的テンプレートストリングに連結されたとき前
    記部分的テンプレートストリングに一定のペナルティを
    加える過程を有する特許請求の範囲第5項記載の方法。
  13. (13)観測する音声がキーワードであるという第1の
    前提を評価する過程と、 観測する音声がキーワードでないという第2の前提を評
    価する過程とを有することを特徴とする観測する音声中
    のキーワードを認識する方法。
  14. (14)前記第2の前提を評価する過程は、前記観測す
    る音声を一般的言語モデルと比較する過程を有する特許
    請求の範囲第13項記載の方法。
  15. (15)前記評価の結果を比較し、どれに最良の整合の
    評価を与えるかの指示を与える過程を有する特許請求の
    範囲第13項記載の方法。
  16. (16)観測する音声を1個以上のキーワードおよび1
    個以上の任意の言語発音の表示と比較する手段と、 前記キーワードとの比較および前記任意の言語発音との
    比較のいずれが最良の整合を与えるかを決定する手段と
    を具備していることを特徴とする観測する音声中のキー
    ワードを認識するシステム。
  17. (17)前記比較手段に結合された、フィラーテンプレ
    ートのセットの連鎖により前記任意の言語発音を近似す
    るための手段を具備している特許請求の範囲第16項記
    載のシステム。
  18. (18)前記比較手段に結合された、前記表示を蓄積す
    るための手段を具備している特許請求の範囲第16項記
    載のシステム。
  19. (19)前記比較手段に結合された前記1個以上のキー
    ワードの表示を導出する手段と、前記比較手段に結合さ
    れた前記1個以上の任意の訓練発音の表示を導出する手
    段とを具備している特許請求の範囲第16項記載のシス
    テム。
  20. (20)前記1個以上の任意の訓練発音の表示を導出す
    る手段は、前記任意の訓練発音をセグメント化する手段
    と、このセグメント化する手段に結合されて前記セグメ
    ントのサブセットをフィラーテンプレートとして選択す
    るために前記セグメントの統計的クラスタ解析を行なう
    手段と、前記解析を行なう手段に結合されて前記フィラ
    ーテンプレートを連結する手段とを具備している特許請
    求の範囲第19項記載のシステム。
  21. (21)前記比較する手段は、連鎖されていないテンプ
    レートが部分的テンプレートストリングに連結されると
    き前記部分的テンプレートストリングのスコアに一定の
    ペナルティを加える手段を具備している特許請求の範囲
    第16項記載のシステム。
  22. (22)観測する音声がキーワードであるという第1の
    前提を評価する手段と、 観測する音声がキーワードでないという第2の前提を評
    価する手段とを具備していることを特徴とする観測する
    音声中のキーワードを認識するシステム。
  23. (23)前記第2の前提を評価する過程は、前記観測す
    る音声を一般的言語モデルと比較する手段を具備してい
    る特許請求の範囲第22項記載の方法。
  24. (24)前記第1および第2の評価手段に結合されて前
    記評価の結果を比較する手段と、、前記比較する手段に
    結合されてどれに最良の整合の評価を与えるかの指示を
    与える手段とを具備している特許請求の範囲第22項記
    載のシステム。
  25. (25)入力手段と フィラーテンプレート蓄積手段と、 キーワードテンプレート蓄積手段と、 前記フィラーテンプレート蓄積手段およびキーワードテ
    ンプレート蓄積手段に結合されて前記蓄積されたフィラ
    ーテンプレートおよび前記蓄積されたキーワードテンプ
    レートの連鎖シーケンスを生成する手段と、 前記連鎖シーケンスを生成する手段と前記入力手段に結
    合されて、前記蓄積されたフィラーテンプレートおよび
    前記キーワードテンプレートの連鎖シーケンスのいずれ
    が前記入力手段に与えられた観測する音声のパラメータ
    表示と最良の整合をするかを決定する手段とを具備して
    いることを特徴とする観測する音声中のキーワードを認
    識するシステム。
  26. (26)前記入力手段に結合されて前記観測する音声の
    パラメータ表示を生成する手段を具備している特許請求
    の範囲第25項記載のシステム。
  27. (27)前記決定する手段に結合されてキーワードテン
    プレートが最良の整合を与える場合に指示を与える手段
    を具備している特許請求の範囲第25項記載のシステム
  28. (28)前記決定する手段に結合されてキーワードテン
    プレートが最良の整合を与える場合に前記最良の整合の
    キーワードテンプレートの識別を行なう手段を具備して
    いる特許請求の範囲第25項記載のシステム。
  29. (29)前記フィラーテンプレート蓄積手段に結合され
    て前記フィラーテンプレートを出力する手段を具備して
    いる特許請求の範囲第25項記載のシステム。
  30. (30)前記フィラーテンプレートを出力する手段は、
    任意の訓練発音をセグメント化する手段と、このセグメ
    ント化する手段に結合されてフィラーテンプレートとし
    て前記セグメントのサブセットを選択するために前記セ
    グメントの統計的クラスタ解析を行なう手段とを具備し
    ている特許請求の範囲第25項記載のシステム。
  31. (31)前記キーワードテンプレート蓄積手段に結合さ
    れて前記キーワードテンプレートを出力する手段を具備
    している特許請求の範囲第25項記載のシステム。
  32. (32)前記キーワードテンプレートを出力する手段は
    、前記入力手段に結合されて1個以上のキーワードのパ
    ラメータ表示を出力する手段と前記表示の終点を決定す
    る手段とを具備している特許請求の範囲第31項記載の
    システム。
JP60214381A 1984-09-28 1985-09-27 テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム Expired - Lifetime JPH0774960B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US65595884A 1984-09-28 1984-09-28
US655958 1984-09-28

Publications (2)

Publication Number Publication Date
JPS61179499A true JPS61179499A (ja) 1986-08-12
JPH0774960B2 JPH0774960B2 (ja) 1995-08-09

Family

ID=24631070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60214381A Expired - Lifetime JPH0774960B2 (ja) 1984-09-28 1985-09-27 テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム

Country Status (4)

Country Link
EP (1) EP0177854B1 (ja)
JP (1) JPH0774960B2 (ja)
AT (1) ATE48486T1 (ja)
DE (1) DE3574640D1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
EP1246164A1 (en) * 2001-03-30 2002-10-02 Sony France S.A. Sound characterisation and/or identification based on prosodic listening
ES2291403T3 (es) * 2002-08-21 2008-03-01 Siemens Aktiengesellschaft Procedimiento para el reconocimiento de voz.
US8661018B2 (en) 2010-08-10 2014-02-25 Lockheed Martin Corporation Data service response plan generator

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823097A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置
JPS5876892A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
JPS59119400A (ja) * 1982-12-25 1984-07-10 富士通株式会社 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823097A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置
JPS5876892A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
JPS59119400A (ja) * 1982-12-25 1984-07-10 富士通株式会社 音声認識装置

Also Published As

Publication number Publication date
ATE48486T1 (de) 1989-12-15
EP0177854A1 (en) 1986-04-16
JPH0774960B2 (ja) 1995-08-09
DE3574640D1 (de) 1990-01-11
EP0177854B1 (en) 1989-12-06

Similar Documents

Publication Publication Date Title
US5218668A (en) Keyword recognition system and method using template concantenation model
KR970001165B1 (ko) 대화자 훈련의 음성 인식기 및 그 사용방법
JP2986313B2 (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
US7016835B2 (en) Speech and signal digitization by using recognition metrics to select from multiple techniques
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPH0422276B2 (ja)
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JPH05341797A (ja) 文脈依存型音声認識装置および方法
JPH05265483A (ja) 複数の出力を与える音声認識法
KR20010086402A (ko) 음성인식 장치
CN111489743A (zh) 一种基于智能语音技术的运营管理分析系统
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPS61179499A (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JPS6138479B2 (ja)
JP2002169592A (ja) 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
KR100504982B1 (ko) 환경 적응형 다중 음성인식 장치 및 음성인식 방법
CN113689885A (zh) 基于语音信号处理的智能辅助引导系统
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP2943473B2 (ja) 音声認識方法
JPH08211893A (ja) 音声認識装置
JPH0997095A (ja) 音声認識装置
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3357752B2 (ja) パターンマッチング装置
JP3231365B2 (ja) 音声認識装置
JP2943445B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term