JPS6326700A - 音声認識システム - Google Patents

音声認識システム

Info

Publication number
JPS6326700A
JPS6326700A JP10169187A JP10169187A JPS6326700A JP S6326700 A JPS6326700 A JP S6326700A JP 10169187 A JP10169187 A JP 10169187A JP 10169187 A JP10169187 A JP 10169187A JP S6326700 A JPS6326700 A JP S6326700A
Authority
JP
Japan
Prior art keywords
sentence
word
hypothesis
error
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10169187A
Other languages
English (en)
Other versions
JP3124277B2 (ja
Inventor
ウィリアム エム フィッシャー
マイケル エル マックマーン
ジョージ アール ドッディングトン
エンリコ エル ボッチェリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS6326700A publication Critical patent/JPS6326700A/ja
Application granted granted Critical
Publication of JP3124277B2 publication Critical patent/JP3124277B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) 本発明は、音声の機械認識に関する。
(従来技術とその問題点) 従来、音声の機械認識は極めて困難な問題であった。問
題全体に取り掛かるより、むしろ、問題を特定の分野に
服定してその認識の課題を簡単化する試みがなされた。
従来、話者依存型及び話者独立型の双方の孤立語認識、
及び数字認識について、多くの仕事がなされてきた。現
在のシステムは、幾つかの適用分野については意にかな
う程度に良り働りが、極めて不自然な条件下でも完全に
信頼し得る認識では決してない。
連続語認識(Continuous Word Rec
ognition )(以下、CWRと略記する))は
孤立語認識より難しい。語と語をどのように連結して文
を形成するかということと同様に、どの語が実際に話さ
れたかということを決定することについて一層大きな問
題がある。
何らの拘束もなしに全ての話された文を認識する試みは
、現在の技術では成就し得ないと思われる。問題分野を
狭める試みが先になされた結果、成る語の後につづくこ
とが許される語を決定する文法又はその他の抑制方法が
用いられるようになった。1つの語が認識されるとき、
文法によって許されるその次の語の組が決定される。次
に、語仮定装置が、次の発話をその組と比較するように
指示される。
このような従来のシステムは、使いこなすことのできる
倍量及び文法に関して極めて厳格に制限されており、そ
の結果、誤認率が許し難いほど高い。発話中にどこかで
認識が起ると、回復はしばしば困難又は不可能であり、
発話を中止して初めからやり直さなければならない。
(発明の摘要) 従って、本発明の目的は、相当複雑な倍量及び文法を使
いこなすことのできる頑丈な音声認識システムを提供す
ることである。
本発明の他の目的は、幾つかの候補となる文を並行的に
考慮して、その中から最善のものを選ぶことのできる音
声L’QMシステムを提供することである。
従って、本発明は、緩く結合した語仮定装置と車認識装
置とを提供する。この語仮定装置は、入力音声信号に基
づいて定常的に語仮定を作る。車認識装置は、その語仮
定を組み立てて、許容し得る不完全文及び完全文とする
。語仮定装置の出力は、車認識装置からのフィードバッ
クに拘束されない。語と語の間の時間的ギャップ及び重
なりを測定する場合には、補助的な選択規準を包含させ
ることもでききる。
本発明の特徴は、特許請求の範囲の欄に明確に′記載し
である0本発明の上記の、及びその他の、目的及び利点
は以下の記載から明らかとなろう。
また、限定ではなく例示を目的として、添付図面に好適
な実施例を示す。
(実施例) 第1図は、本発明の音声認識システム10のブロック図
である0語仮定装置12は入力音声信号を受は取り、こ
れを、その倍電中の基準鋳型と比較し、語仮定を作る。
入力音声信号はデジタル信号であることが好ましく、そ
して、語仮定装置12は、一連の音声サンプルを分割し
てフレームとし、線形予測符号化(linear pr
edictive coding(LPCと略記))パ
ラメータを抽出し、このLPGパラメータを1組の非相
関特徴すなわち主特徴ベクトル(Principal 
Feature Vector (PFVと略記))に
変換し、これを、語!基準鋳型に記憶されているPFV
パラメータと比較する6語仮定装置は一般的に当業界に
おいて知られており、そして、本発明に応用することの
できる語仮定装置の例が、1983年1月28日に出願
されて本出願の譲受人たるテキサスインスッルメンツ社
に譲渡されたジョージ・ドラジントン等によるr話者依
存連続音声語認識装置jと題した米国特許出願第461
,884号、及び、1984年12月27日に出願され
てテキサスインスッルメンツ社に譲渡されたジョージ・
ドラジントン等による「話者独立音声認識方法及びシス
テム」と題した米国特許出願第687.103号に記載
されている。PFVの用途はドラジントン等の下記の論
文に記述されている。’Doddington、et 
al、Recognition of 5peechu
nder 5tress and in No1se、
Proceedings of theICASSP、
1986.nus+ber 14.10.page 7
33 J6語仮定に含まれる情報を第2図に示す。この
情報は仮定された語と、エラー値と、その語の出発時及
び終了時とから成る。エラー値は、仮定装置12がその
推測時に置く信顛度を示し、そして、仮定された語の鋳
型と実際の語のパラメータとの間の「距離jを示す適当
な規準によって決定される。エラーの比較的に大きな値
は仮定が正しくない可能性が大きいことを示し、エラー
の比較的に小さな値は語が正しく認識された可能性が高
いことを示す。
出発時と終了時とは、仮定語を発生させた入力音声発音
の実際の開始時と停止時とである。実際の発話の長さは
、(停止時)−(出発時)で与えられる。これらの値は
、認識全体を改善するため、下記のように、車認識装置
14によって利用される。
語仮定は車認識装置14に送られ、同装置はその語仮定
から文を構成することを試みる。仮定から文を組立てる
認識装置14の動作を助けるために文法明細が使われる
。その文法は好ましくはを限状態文法であって、システ
ム10により妥当であると認識される文を限定する。車
認識装置14が首尾よく文を認識すると、その認識され
た文は音声認識システム10から出力される。
従来のシステムとは異なって、語仮定装置12と車認識
装置14とは密接には結合されていない。
すなわち、車認識装置14と語仮定装置12との間には
直接のフィードバックがないのである。語仮定装置12
は、その基準鋳型と調和する全ての仮定を定常的に作る
。この点において、その車認識装置により妥当な後続語
であると認められる語のみを仮定するように語仮定装置
を拘束制御する文し?2識装置を用いる従来のシステム
とは異なるのである。この方法によると、仮定装置12
はもっと多数の考えられる語を作ることとなり、車認識
装置14がもっと複雑になる。その代わり、システムの
柔軟性が高まり、文法中におけるその現在位置について
r変心する」能力を持つこととなる。
本明細書においては、1語」及び1文」という用語は、
その一般的意味に限定されない。本明細書においては、
語は音声発話の基本単位であり、文はそのような基本単
位から成る構造体である。
例えば、r語jは音素であることができ、そのような音
素から成る1文」は英語の単語に対応することができる
。あるいは、発話の基本単位は句であることができ、そ
の場合には1語」は実際上3つ又は4つの英単語から成
り、1文」は3つの句から成る構造体となる5゜従って
、ここに記載した実施例では1語」及び1文」という用
語を、選ばれた文法に拘束される英単語及び英語の文を
意味するものとして用いているが、本発明はそのように
限定されないということが理解されるであろう。
語仮定装置12の認識限界は、多数の仮定が作られるレ
ベルに設定するのが好ましい。すなわち、妥当な仮定が
作られたか否かを決定する規準が緩められ、あるいは広
げられている。これは、仮定装置12がしばしば単一の
発話に対して複数の仮定を作るということを意味する。
そのような状態を第3図に示す。これは、’FOLIT
EEN DEGREES Jという発話によって作られ
ることのある幾つかの仮定を示す。仮定装置の倍量が’
 FOURJ、’ FOUIITY J及び’ FOU
RTEEN Jという語を含んでいるとすると、仮定装
置12は’ FO[IRTEEN Jという語の発音中
にこれら3語の全てを妥当な語として作るであろう。音
声システムが例えば航法システムに情報を入力するため
に使われている場合には、車認識装置14がr FOI
JR度」、r FOURTY度」、及びr FOURT
EEN度」という句を弁別し得るということが重要であ
る。
本発明の車認識装置14は、語自体の認識についての信
頼を示すエラー項に加えて、語と語の重なり又はその間
のギャップに対するエラー項を導入することによって、
上記の弁別を行なっている。
ギヤツブ及び重なりエラー項の大きさは、連続する語の
間の不適合度と共に増大する。r FOUR度」という
仮定は期間1.−12のギャップを有する。
r FO1lRTY度Jはt、−1のギャップ期間を有
する。r FOURTEEN度」と1.−14のギ+−
/プ期間を有する。車認識装置14は、仮定語の一部分
として語仮定装置12から送られる出発時及び終了時情
報を用いて、それらのギャップ期間と、それに対応する
ギャップ・エラーとを計算する。
第3図において、’ FOuRJ、’ FOtlRTY
 J 、及び’ FOURTEEN ’Jが略々等しい
語エラーを作ると仮定すると(これは、合理的な仮定で
ある)、r FOtlRTEEN度」という句がギャッ
プ・エラーを最小化するので、車認識装置14は、最も
適当なものとしてその句を選択するであろう。部分及び
全文エラー計算にギャップ・エラーを含めると、車認識
装置14は全入力発話のより大きな部分を説明する仮定
を選ぶこととなる。
第4図は重なりに関連する問題を示す。語認識装置14
は’ 5EVENJ 、  ’ AVAILABLE」
及び’ UNAVAILABLEJという語を認識する
と仮定している。また、文法は’ 5EVEN AVA
ILABLEJ及び’ 5EVEN UNAVAILA
BLEJという文断片を許容するものと仮定している。
’ 5EVEN AVAILABLHJという語が連続
的発話として話されるとき、語仮定装置12は時点t、
において仮定’ 5EVENJを作り、時点し、におい
て仮定’ AVAILABLEJとr IINAVAI
LABIIEJとを作ると期待することができる。この
後の2つの仮定は略々同一の後エラーを有する。仮定r
 St!VENUNAVAILABLEJは期間1.−
11の重ナリヲ生ずるノニ対して、r 5EVHNJと
いう語と’AVAILABLEJという語との間には重
なりがないことを検出し、選択することによって、文認
識装置14は正しい発語を決定する。
与えられた点までの文仮定又は不完全文仮定についての
エラー関数は である。ここで、 N=文の中の語仮定の数 E−1−語仮定iについての平均(フレーム)エラー 1、=語仮定iの開始時点 1、==語語仮iの終端時点 12=音声時間の開始 ERIil =ギャップ及び重なりエラーについてのエ
ラー関数 単純な場合には、関数EGとEOとは線形となることが
できる。すなわち、ギャップ・エラーと重なりエラーと
は、ギャップ期間及び重なり期間の増大とともに線形に
増大する。
精度を高めるため、非線形エラー関数を用いることがで
きる。第5図は、重なり及びギャップの計算に好適な関
数のグラフを示す。重なりの量がゼロである時には、追
加のエラー環は導入しない。
重なり量が正であれば重なりが生じたのであり、重なり
が量が負であれば語仮定と語仮定の間にギャップが生じ
たのである。
第5図の右側の曲線30は、重なりについての所望のエ
ラー関数を示す。時点(。まで、重なり量が相当小さい
時には、重なりエラーは小さい。
toより大きい重なりについては、重なりエラーは急速
に増大する。この型の関数は、語と語の間にしばしば生
じる副次調音効果を考慮するものである。すなわち、略
々同一の音が1つの語の終端部と次の語の先頭にあると
、その音は通常唯一の音として発せられるのである0時
間t0は実施の際の事情に応じて適宜決めるべきもので
あるが、好ましくは長さが約2音素、略々60ミリ秒で
ある。重なりが150〜200ミリ秒の期間に達するま
でに、重なりペナルティ−は相当大きくなっているはず
である。当然に、これらの数字の全ては、話者の話す速
さなどの条件に応じて大幅に変更することができる。
ギャップ・エラーは、第5図の左側に示したようる2種
類に分けることが好ましい。例えば話者が黙って次の語
を考える時など、何も発話されていない時に生じる仮定
語間のギャップには重いペナルティ−を課すべきではな
い。従って、入力音声信号のエネルギーが成る限界値よ
り低い値を示す時には、文認識装置は何も発話されてい
ないと決定して、下側の曲線32で示される低いエラー
値を適用する。この低いエラー値は、希望する場合には
、ゼロであってもよい。しかし、音声エネルギーが受信
されている時に2つの語仮定間にギャップ・エラーが生
じたら、上側の曲線34で示されるように比較的に高い
エラー値をそのギャップ・エラーに適用する。これは、
ギャップで分離された連続する2つの語仮定は、話者は
発話中であることが知られている時には、発話のうちの
あるべき所にない部分であると推定されて1g絶される
傾向があるという事実を考慮したものである。
これは、例えば、第3図に示されており、この場合、話
者が実際にr TEEN 、を発音している間にギャッ
プを仮定すると大きなギャップ・エラーとなって、その
文は拒絶される。
ギャップ及び重なりエラー計算は、文の始まりと終りに
用いることができる。文の始まりと仮定された第1語の
開始との間の遅れは、仮定された最後の語と文の終りと
の間の遅れと同様に、ギャップ・エラーとして数えられ
る。文の始点と終点を精密に突き止めることは必要でな
い。文の始まりが最初に仮定される語の始まりより前で
ある時には、全ての仮定がギャップ・エラーを示すこと
となるということが分るであろう。実際、それらのギャ
ップ・エラーは、文エラーを比較する時に相殺される。
従って、文の始まり(t2)が最初に仮定される語の開
始(t、)より遅くないということだけが必要である。
それより遅れて第1語が始まる文仮定は、ギャップ・エ
ラーでペナルティ−を課される。そのため、文認識装W
14は、発話の始まりに話が開始することの原因となる
文仮定を選ぶ傾向がある。同様の計算が文の終りについ
て成り立つが、その場合、話者が話し続けていれば、文
が心完結したという仮定はギャップ・エラーでペナルテ
ィ−を課される。
音声認識装置10の性能を改善するため、許容される文
の組を制限することが好ましい。車認識装置14は、識
別可能な文の選択を制限するため、成る種の文法を用い
る。実施を容易にするために、この文法は好ましくは有
限の数の節点、又は状態、を有する有限状態文法である
第6図は、極めて筒車な有限状態文法のグラフである。
この文法は、言葉による指令で電話をかけるために有用
であろう。第6図に示されているように、7桁の数を用
いる必要のある外線番号に、又は4桁の内線の使用のみ
を必要とする内線番号に電話をかけるために用いること
ができる。各遷移を引き起こす発話は、図上の遷移路の
隣に示されている。rd、を付した遷移は、第7図に詳
しく示されているが、どの数字を用いてもよいことを示
す。状態対8.10及び9.10の間の遷移d、は、交
換の第1数字がO又は1から始まってはならないという
点で、制限が厳しい。
第6図の文法から許容し得る文の組を第1に示す。
表1に示した許容し得る文は、第6図の指向グラフの矢
印をたどることによって作ることができるということは
容易に分る。
表1 CALL dddd CALL EXTENSION ddddPLACE 
CALL dddd PLACIE CALL EXTENSION ddd
dCALL 01lTSIDE d、dd ddddC
ALL   01JTSIDf!   Nt1MBEl
?   d、dd   ddddPLACE CALL
 0UTSID[! NUMBERdldd dddd
PLACE CALL 0UTSIDE dldd d
dddこの文法は有限状態マシンと見做すことができ、
可能な状態の各々は番号付き節点で表わされる。
文法によって許容される全ての可能な文は、指向グラフ
の全ての可能な経路をたどることによって作ることがで
きる。例えば、許容される文r CALLEXTENS
(ON ddddJは、文法を、状Aid(出発)、2
.4.5.6.7を通らせる。節点7の周囲には正方形
があり、これが終末節点であることを示す。すなわち、
車認識装置が節点7に達すると、同装置は完全文が発話
されたと仮定として処理する。
第6図のグラフで表わされるような車認識装置14の文
法は、発話の認識を補助するために色々な方法で用いる
ことができる。最もU単な方法は、与えられた節点から
、その節点から許容された次の語の組に属する語のみが
語仮定装置12によって仮定され得るように、語仮定装
置12が参照する給量を車認識装置14が制御する、と
いう方法である。例えば、このシステムにおいて若し車
認識装置14が現在は節点2に存すると決定したならば
、文仮定装置12は、’ 0UTSIDEJ %’ [
EXTENSIONJという語又は数字のみを認識する
ように第2図の倍電制御信号によって拘束される。
この種の構成においては、車認識装置14は予測手段と
して使われ、システムの性能を改善するために語仮定装
置12と緊密に結合されている。
しかし、そのような予測認識技術には幾つかの欠点があ
る。若しシステムが「正しくない」節点に達すると、回
復させる方法がない。これとは対照的に、好適な実施例
は、−複数の仮定を並行的に考慮することを可能にする
グイナミソク・プログラミング(以下、DPと略記する
)技術を用いる。
文法を通る単一の経路に拘束されるのではなく、DP技
術は、車認識装置が、色々な語に関する全ての情報を与
えられて最善の経路を選ぶことを可能にする。この技術
は、前述のギャップ及び重なりエラー技術を利用する。
これは、先の緊密結合型システムで用いられた局所最適
化レベルではなくて、文レベル又は不完全文レベルで、
与えられた経路エラーを最適化する。
好適なりP技術においては、車認識装置14は語仮定装
置12から語仮定を受は取って、その語を適用すること
のできるグラフ中の全ての節点を決定する。例えば、第
6図において、数字が発話されると、車認識装置14は
、その数字を節点4.5.6.7.11.12の全てと
対応させようと試みる。発話された数字が2ないし9の
範囲内にあれば、車認識装置14は、それを節点10と
も関連させようと試みる。
現仮定が妥当である各節点について、車認識装置14は
、バックワード・ポインタを伴なうDPを用いて、それ
については現仮定が最後の語となる全ての可能な文断片
を決定する。現仮定が成る節点において試験される時、
新らしい妥当な文断片を作るために、その節点は先行節
点に通じる妥当な文断片を持っていなければならない。
例えば、第1の数字が仮定された時、認識装置14はそ
の数字を上記節点と比較しようと試みる。若し数字が文
の第1発話であれば、文法は状態Oであるので、数字の
仮定は妥当でないとされて拒絶される。
すなわち、それに対しては数字が妥当な遷移であり得る
ような節点は、いずれも、節点Oの先行状態を持たない
’ CALL Jという発話が受は取られると、文法を
節点2へ移す不完全文として項目が作られる。次に数字
が仮定されると、節点4が妥当な先行節点く節点2)を
持っているので、r CALL第1数字」として文断片
が仮定される。節点5.6.7.10.11.12につ
いては、先行節点で終る妥当卒不完全文が存在しないの
で、これらの節点はまた妥当な不完全文を作らない。
DP技術は数個の仮定不完全文を作り、その全てが並行
的に考慮される。文仮定が節点7に達すると、完全文が
仮定される。その点で、少くとも1つの妥当な完全文が
仮定されており、方程式(1)に示したように全文エラ
ーが計算される0語又はギャップ及び重なりのエラーに
起因して文エラーが大き過ぎると、その文仮定は拒絶さ
れる。若し文エラーが所定の限界値より低ければ、その
文仮定は保存される。好適な実施例においては、話者が
発話を止めたか、又は短時間内に大して良くない不完全
文仮定が作られた場合に限って、妥当な文仮定は発話さ
れた文として認められる。例えば、800ミリ秒の間荷
も発話されなければ、話者は文法において文を完成させ
たと考えられるので、その文仮定を認容することができ
る。若し補足的発話がなされ、且つ、その結果、現行の
文仮定よりエラーが低い不完全文仮定又は完全文仮定が
作られたならば、車認識装置14は前の文仮定を拒絶し
て後の方を選ぶ。若しその補足的発話が現行の文仮定よ
りエラーの低い不完全文仮定又は完全文仮定を作らなけ
れば、その仮定は認容される。
認識された文を作る前に音声が止む必要はなく、そのよ
うな作文は文法によって決定される。
単純な例として、rcALL dddd  (沈黙)」
という発話は車認識装置14に完全文を認識させる。
認識装置のこの説明の目的上、その発話の認識のときに
語仮定装置12は「悪い」仮定を作らないと仮定される
であろう。しかし、実用時には、仮定装置12は大して
良(ないかも知れない仮定を作るであろうから、全文エ
ラー計算及び色々なギャップ及び重なりのエラー計算を
使う目的は、文エラー値の簡単な比較によって正しい発
話を正しくないものに優先させて認識させることである
’ CALL Jという仮定は節点2に対してのみ妥当
であるから、車認識装置12は、節点2に対応し値CA
LLを持った不完全文を作る。最初の数字が受は取られ
た時、節点4は、現在妥当な文断片を含む先行節点をも
持った数字仮定に対して唯一妥当な節点である。すなわ
ち、節点4から節点2へのバック・ポインタは、節点2
に対応する文断片があることを示す。節点5.6.7.
10.11.12の各々から1段逆行しても、文断片を
終結させる節点は存在しないので、最初の数字が節点5
.6.7.10.11又は12に適合するという仮定は
拒絶される。
節点4が最初の数字の結果として妥当な不完全文と関連
させられているので、2番目の数字が受は取られた時、
それは節点5に適用することができる。また、その2番
目の数字は節点4に適合すると仮定することもできる。
従って、今、車認識装置14は、’CALLJ 、  
’ CALL第1数字J1r CALL第1数字 第2
数字」、及びr CALL第2数字」という不完全文仮
定を保留している。若しこの点で車認識装置が停止すれ
ば、r (、ALL第1数字 第2数字」という断片が
、受は取られた音声データを一番良(説明するので、こ
の断片が選ばれるべきである。すなわち、各語について
の語エラーが略々同程度であると仮定すると、より長い
文仮定がギャップ・エラーを最小にするのである。
この手続きは、r CALL第″l数字 第2数字第3
数字 第4数字jという文仮定が受は取られるまで、続
行される。この点で、「第4数字」が節点7に指定され
て、完全文が仮定される。話者が話をやめる時、方程式
(1)で計算された全文エラーが所定の限界値より小さ
ければ、この仮定が実際の文として認められる。
もっと複雑な発話はr PLACE CALL Oll
TSIDENtlMBER5436789(沈黙)Jで
あろう。第6図のグラフを見れば分るように、車認識装
置14は幾つかの不完全文仮定を並行的に考慮する。例
えば’ PLACE CALL 5436J トイう完
全文は、r PLACECALL 0UTSID[NI
IMBER5436Jという不完全文と並行的に、妥当
な仮定として考慮される。’ CALL Jという語と
「第1数字jとの間に相当のギヤツブがあるので、ギャ
ップ・エラーを含めると、より短い文仮定がずっと大き
なエラー計算結果を持つこととなる。従って、結局、よ
り長い仮定が車認識装置14によって選ばれることとな
る。
表■は、r PLACECALL 0UTSID[! 
NO台BER5436789(沈黙)」という文を認識
するときの車認識装置14の動作を示す。説明の目的の
上、語仮定装置12は誤った仮定を作らないと再び仮定
している。
各発話について、表■は、第6図のグラフのどの節点が
それと関連することとなるかを示し、且つ、先に妥当な
節点への全てのバック・ポインタを示す。妥当な不完全
文とまだ関連していない節点へのバック・ポインタは作
られない。従って、節点12が仮定と関連させられた後
まで、節点4から節点12へはバック・ポインタは作ら
れない。
これは、’6Jという発話が受は取られた後にはじめて
起る事である。
各節点に複数の語仮定が関連することがあるので、表■
はそれらのアルファベットの添え字で区別している。節
点’4ajには’5Jという数が関連し、節点’4 t
zには’4Jという発話が関連する。不完全文仮定又は
完全文仮定は、現行の語仮定から出発節点への逆行ポイ
ンタによって定義される。例えば、表Hによると、rP
l、ACE CALLOUTSIDE NUMBER5
436789Jという文仮定は、節点7から節点Oへ、
7d、6d、5d、4d、12a、lla、10a、9
.8.2.1.0という順序でバックポインタをたどる
。r PLACECALL 543Jという不完全文仮
定は、節点6a、5a、4a、2.1.0を通ってバン
クポインタをたどる。
表■ PLACE        1       0 (出
発点)CALL               2  
             10tlTSll)E  
   8      2NIJM旺R9B ’5J           4a         
 210a           9 ’4J           4b         
 25a           4a 10b           9 11a         10a ’3J          4c          
25b           4b 5a          5a 10c           9 11b         10b 12a         lla ’6J           4d         
125c           4c 6b           5b 7a           5a 10d          9 11c         10c 12b         llb ’7J          4e         1
2a5d          4d 6c          5c 7b          5b 10e         9 1id         10d 12c         llc ’8J         4 f        12
a5e          4e 6d          5d 7c          6c 10f          9 1 1  e’         1 0 e12d 
        lid ’9J         4g        12a
5f          4f 6e          5e 7d          6d 10g         9 11f         10f 表■を調べれば分るように、語仮定が節点と関連させら
れる毎に成る決定をしなければならない。
その決定には、各節点についてどの節点が正しい先行節
点であるかを決定することが含まれる。例えば、’ C
ALL Jが節点2に指定した時には、先行節点は節点
O又は節点1である。各可能性について文エラー計算(
方程式1)を行ない、一番良いものを選ぶ。表■に示さ
れているように、節点2について選ばれる先行節点は節
点lであり、これは’ CALL Jより’PLACE
 CALLJという不完全文仮定を選択する。この選択
は、r CALL Jという不完全文仮定が’ PLA
CE Jという語の発話に相当するギャップを含んでい
るので、なされたのである。
また、複数の仮定が単一の先行節点に指定される場合も
ある。例えば、’7Jが節点5dに指定された時、可能
な先行節点は4a、4b、4C14dである。この4つ
の可能性を持った先行節点を調べて一番良いものを選ば
なければならない。
本例においては、不完全文仮定4dは、5dと組み合わ
された時、最善の後続不完全文仮定を産み出す、ギャッ
プ及び重なりのエラー、及び実際の語エラーに与えられ
る重み因子に依存して、先行節点のうちの幾つかが、表
■に示したものとは別様に選択されることもある。
語仮定が節点及び特定の先行節点と関連させられる毎に
、文認識装置14は新たなデータ対象を作る。そのデー
タ対象が第10図に示されており、その節点で終る不完
全文又は完全文についての文仮定として作用する。与え
られた節点についての全ての仮定が同じ状態のポインタ
で連接されたリストに形成され、節点は前の状態のポイ
ンタを用いて先行節点と連接される。
完全文仮定のエラー値は、現節点から先の節点へ、最低
の得点を与える経路をたどる回帰的手続きによって計算
される。中間の不完全文エラーが各節点と共に記憶され
るので、この手続きは、ルベルの回帰を点検しなければ
ならないだけである。この追跡を行なう最高レベルのア
ルゴリズムを方程式(2)、(3)に示す。
文エラー=不完全文エラー(節点?)   (2)不完
全文エラー(節点n)=語エラー(節点n)+ギャップ
・重なりエラー(節点n、節点n−1)+不完全文エラ
ー(節点n −1”)      (31方程式(2)
、(3)はDPアルゴリズムを実行するものである。方
程式(2)は単に方程式(1)の回帰的実行に過ぎない
表■に示されているようる、極めて簡単な文法を持った
極めて簡単な発話であっても、多数の不完全文仮定を考
慮する結果となることがある。実用システムにおいては
、計算能力とメモリー・リソースとは無限であり、「悪
い」不完全文仮定を除去するために幾つかの案のうちの
いずれをも採用することができよう。
最も簡単なのは、所定の限界値より大きい全エラーを持
った全ての不完全文仮定を単に除去することである。こ
れは、極端に大きなギヤツブ・エラーを持った不完全文
仮定を除去するのに役立つ。
表■に示された例においては、「囲しL8Jという不完
全文仮定は妥当であると見做される。実際には、’ C
ALL Jと「8」との間のギャップが途方もなく大き
いので、この文が好適な完全文仮定となることはなさそ
うである。従って、文認識装置14は、後の計算ステッ
プのためにこの不完全文仮定を保留せずに直ちにこれを
拒絶することができる。
もっと限定的な方法は、各語仮定について単一の文仮定
のみを保留することである。上記の例では、最善の仮定
のみが節点に指定され、成る節点に対する重複した措定
(例えば4a、4b、4c・・・)は排除される。この
案は幾分限定的であり、エラーからの回復を一層困難に
する。表Hに示された全ての計算が完了する時までに、
分認識装置14は、実際に発話された文をその最善の仮
定として認めるべきである。この仮定は、受は取られた
音声データを最も良く説明し、認識された語と語の間の
ギャップ及び重なりのエラーを最小にする。他の全ての
仮定はギヤツブ・エラーを導入し、正しい仮定のそれよ
り大きな全文エラー値を与える。
現在のCWRシステムは、話者が話をやめる時に妥当な
文を作ろうと試みる。すなわち、沈黙が成る限界値より
長くなると認識装置は文の終りと見做して、最善のマツ
チングを見出そうとする。
本方法を用いれば認識装置14は発話の間の休止を容易
に理解することができる。認識装置14は、もっと良い
不完全文仮定があれば、完全文仮定を認めない。話者が
文の途中で休止すると、文認識装置14はただ音声が′
m続するのを待つだけである。完全文仮定が成る所定限
界値より小さなエラーを持つ場合に限って、認知された
文が作られる。
沈黙のギャップと関連するギヤツブ・エラーは小さいの
で、全文エラー計算値は影響を受けない。
理論上は、休止の長さには限界がない。話者は文を始め
、中断し、週末に帰宅し、数日後に復帰してその文を完
成させることができる。沈黙に対して割り当てられたギ
ャップ・エラーがOであれば(これは全く、ありそうな
事である)、認識された完全文は、単一の完全発話の結
果として認識されるものと同一であろう。実際には、こ
れが望ましい状態であることは稀である。文中に任意に
大きなギャップが生じるのを禁止するために、「タイム
アウト」を用いてギャップを制限することができる。こ
のタイムアウトを越える期間中、沈黙が続き、又は仮定
される語が無ければ、文認識装置14は、ユーザーの実
行又は好みに応じて、それまでのところでは最善の不完
全文仮定又は完全文仮定を出力するか、又は出発状態に
戻ることができる。例えば1分間のタイムアウトを設定
すると、システムは、その長さの休止後、ユーザーはそ
の文を終結させたいのではないと見做す。
ギャップ及び重なりのエラーを最小化するために、「語
」と「語」の間の過渡期にはしばしば副次調音その他の
効果が存在することを認識することが重要である。さも
なければ連続して話された語と語との間に現われるかも
知れないギャップ・エラーを最小化するため、そのギャ
ップ・エラーが現実には存在しない時には、余分の状態
を文法に導入する必要があることがある。例えば、続け
て「3」と「8」という数字を言う間に話者が遷検音を
挿入することは極めてありふれたことである。
実際の発音は、しばしば、’ three−/IE/−
eight Jに似て聞こえる。ここで/IE/は、’
 three Jの終りの/I/と’ eight」の
始めの/E/との間の遷移音である。話者が実際には数
字3と8との間に全くギャップを残さなかったとしても
、’/IE/Jに対して仮定される語は無いので、認識
装置14はそこにギャップを加える。これが、その文に
ついて計算されたエラー値をゆがめる。
第8図は、数字3と8とが文法に従って妥当な発話を形
成することができる時はいつでも、文法に遷移状態を挿
入することを示す。その遷移音は第8図に’3 : 8
Jとして示されており、その遷移音を包含させる話者は
、文法をして状態を直接にA−4C→Dと変化させるの
ではなくA→B→C−Dと変化させる。この種の遷移効
果を考慮すると、システムの認識能力が大幅に向上し、
且つ、色々なユーザーの発話習慣が一様でない話者独立
型認識システムに特に有益である。
第9図は実施例の望ましい補足的特徴を示す。
第1に、rメタ・コマンド」をシステムに含めることが
望ましい。これらのコマンドは、どの状態からでも妥当
な遷移であるところのコマンドであると定義される。こ
のようなコマンドの例は’ABORT J及び’ CA
NCEL Jである。「^BORT Jというコマンド
は、認識装置を、その現位置に無関係に、文法全体中の
出発状態?こりセットするために使うことができる。’
 CANCEL Jコマンドは、以下に説明するバンク
切換文法(bank−switchedgrammar
 )の現文法の始めまで後退させるために使うことがで
きる。これらの種類のコマンドは、認識システムが現在
の最善の不完全文仮定をコンピュータ・ディスプレイ・
スクリーンなどの視覚表示装置に映し出す場合に特に有
用である。ユーザーは認識装置の動作をそのスクリーン
で観察することができ、ABO1?Tコマンドを発し、
あるいは希望通りに別に入力コマンドを変更することが
できる。第1図に示したように、どの状態もメタ・コマ
ンドM1については妥当な先行状態であり、文法中のど
の状態も適当なメタ・コマンドM2、M3又はM4につ
いて妥当な先行状態である。
第9図は、限られた計算能力を持ったシステムに極めて
有用な他の特徴をも示す。これは、文法及び倍電のバン
ク切換えに関連する。第9図は、もっと大規模で且つ複
雑な文法の一部を成す3つの文法G1、G2及びG3の
一部分を示す。文法G1において終末節点50.52に
達すると、その事はシステムに対して、文法G2又はG
3についてのデータをシステムに装填するべきことを示
すのであり、そのいずれもが妥当である。斯文法G2又
はG3の妥当な初期状B54.56への遷移は自動的に
行なわれる。その時、処理装置は斯文法に従って処理を
続行することができる。
新しい文法又は倍電への遷移は、先の文法において終末
節点に達する毎になされる。英文の終りや、音声に休止
がある場合に切換えが起る必要はない。文法は、音声が
′m続している間に、その文法で定義された文の終りを
検出することができるので、入力音声に生じることのあ
る沈黙を参照せずに、下位文法G1、G2、及びG3の
終末節点を希望通りに捜し出すことができる。
新しい文法は新しい倍電を伴っていることもある。処理
能力又は記憶容量が限られているために認識システムの
倍電か限られている場合には、新しい文法を装填したと
きに倍型鋳型の新らしいバンクに切換えることが必要で
あるか又は望ましい。
文法と倍電とが同時にバンク切換えされる必要はない。
共通ラインに沿ったそのような断絶は多くの場合に起り
がちなのであるが。
メタ・コマンドABORTは、倍量と文法との全ての組
合せに対して有効であるはずである。現行文法の出発状
態にリセットするメタ・コマンドCANCELは、各文
法について僅かに異なる。メタコマンドM2、M3及び
M4は、それぞれ文法G1、G2及びG3をリセットす
る。若しCANCELコマンドが成るシステムで実行さ
れるなら、それは給電及び文法の全ての組合せについて
有効であるはずである。
文法及び給量のバンクの切換えは、r事実上の文法」及
びr事実上の語テコと称することができる。これは単に
、システム全体に適用する文法又は倍量が、処理装置に
よって一時に直接処理することのできるものより大きい
ことを意味する。この事は、コンピュータシステムにお
ける事実上のメモリーという概念に幾分似ており、この
場合その事実上のメモリーははるかに大きく、且つその
処理装置はそのメモリーに直接アクセスすることができ
る。
倍型及び文法をバンク切換えするという事は文認識装置
14と語仮定装置12との間のフィードバックを意味す
る、という事が理解されよう。ずなわち、詔仮定装置1
2は、文認識装置Cよる倍型の選択に拘束されて、成る
語のみを仮定する。
従って、バンク切換えシステムにおいては、語仮定装置
12と文認識装置14との分離は完全ではない。しかし
、結合の程度は、典型的な緊密結合システムの場合より
はるかに小さい。バンク切換えシステムにおいても、現
行の倍電内での仮定の自由選択は許容されている。与え
られた倍量と文法との紹合せの働きの範囲内で、語仮定
装置I2と文認識装五1・1との分離は完全である。シ
ステム10のリソースが躍られているが故に、そしてそ
の限られたリソースによって決まる程度に、結合が起る
だけである。
文法と倍量との切換えがなされるのに成る時間が必要と
されよう。この時間が僅か数十ミリ秒であったとしても
、典型的には10ないし20ミリ秒の長さのデータフレ
ーワを用いる認識システムにとっては、これは長い遅れ
である。従って、数値化された人力音声データに使われ
るバッファーをシステムが備えていることが好ましい。
このバッファーは、倍電又は文法のバンク切換え操作が
なされる間もデータを収集し続けることができ、そして
、次に、それが停止していた点から処理を続けることが
できる。それ故、入って来る音声を一切逃がさずに、小
さなシステムで大規模且つ複雑な倍量及び文法を用いる
ことができる。
(発明の効果) 上記の音声認識システムは、頑丈で低コストのシステム
となる。分離した語仮定装置と文L’l 識装面とを用
いたので、システムの動作に柔軟性があり、誤った語仮
定から回復するチャンスが大きい。
ギャップ及び重なりエラーを用いるので、誤った仮定を
文法に関しても時間に関しても文脈中に置(ことができ
るから、文認識装置が誤った仮定に対して寛容となり、
システムの性能が向上している。倍量と文法とをバンク
切換えするので、比較的に簡単なシステムで複雑な仕事
をこなすことができ、また、ユーザーは、メタ・コマン
ドを使って、発生した如何なるシステム・エラーからも
容易に回復することができる。
本システムは、利用可能な技術を使って容易に実施する
ことができる。語仮定装置〃12と文認識装置14とは
、関連するメモリー及びコントローラと共に、パーソナ
ルコンピュータ用の単一のボードーヒで実行することが
できる。例えば、’I’ M 3320信号処理装置を
語仮定装置12と文認識装置14とのために使うことが
できる。上記の認識手続きは、既知の原理に従って、機
械語、フォートラン、又は他の希望のもので容易に実行
することができる。
上記のシステムによって本発明を説明したが、当業者は
これを様々に修正若しくは変形することができるという
ことを理解するであろう。そのような変更は本発明の精
神に属するのであって、その範囲は特許請求の範囲によ
って明6′αに示される。
以上の記載に関連して、以下の各項を開示する。
(1)特許請求の範囲に記載したシステムにおいて、前
記語認識装置は、音声人力を、jバばれた倍量中の語に
対応する基準鋳型と比較することによって語仮定を作る
ことを特徴とするシステム。
(2)上記第1項に記載したシステムにおいて、各語仮
定は、仮定された語と、仮定された詔の基準鋳型と音声
入力との近さを指示するエラー値と、仮定された語の開
始時及び終息時との識別子を含むことを特徴とするシス
テム。
(3)特許請求の範囲に記載したシステムQJおいて、
前記語仮定装置によって作られた語仮定は文認識装置に
拘束されないことを特徴とする特許ム。
(4)特許請求の範囲に記載したシステムにおいて、前
記車認識装置は、各語仮定を、許容し得る文を定める文
法と比較し、且つ、その文法に従ってその仮定された語
をもって妥当に終端する全ての不完全文及び完全文につ
いて不完全文仮定及び完全文仮定を作ることを特徴とす
るシステム。
(5)特許請求の範囲に記載したシステムにおいて、前
記車認識装置は、各語仮定を、許容し得る文を定める文
法と比較し、その文法に従ってその仮定された語をもっ
て終端する全ての妥当な不完全文仮定及び完全文仮定の
部分集合を作ることを特徴とするシステム。
(6)特許請求の範囲に記載したシステムにおいて、車
認識装置は、各語仮定を、許容し得る文を定める文法と
比較し、且つ、その仮定語をもって妥当に終端する不完
全文又は完全文について1つの不完全文仮定又は完全文
仮定を作り、その文法に従って最善の仮定を完成させる
ことを特徴とするシステム。
(71(a)  音声を表わす入力信号を受信するステ
ップと、 (b)  その入力信号を、特許し得る語の倍量を表わ
す基準鋳型と比較するステップと、(C)  ステップ
(′b)の比較に基づいて複数の語仮定を作るステップ
と、 tdl  語仮定を、仮定された語の各々をもって終端
する許容可能な不完全文を定める文法明細と比較するス
テップと、 (el  その文法明細に従って、仮定された語を連結
して不完全及び完全文とするステップと、(f)  全
ての不完全及び完全文について不完全文エラー及び完全
文エラーを算定するステップと、 (沿 ステップ(f)に基づいて完全文仮定を選ぶステ
ップとから成ることを特徴とする音声認識方法。
(8)上記第7項に記載したシステムにおいて、ステッ
プ(f)は、 (fl)  不完全文仮定の先の仮定語の末端と現仮定
語の始端との間の時間差を決定するステップと、 (f2)  ステップ(fl)で決定された時間差に誤
りを割り当てるステップと、 (f3)  ステップ(f2)で割り当てられたエラー
を、仮定された語と実際の入力音声との適合の近さを表
わすエラーと、先の語仮定をもって終端する不完全文に
ついて算定された不完全文エラーと合計するステップと
から成ることを特徴とする方法。
(9)上記第8項に記載した方法において、(f4)不
完全文仮定及び完全文仮定の各々をその全長にわたって
最適化するステップを更に含んでおり、そのステップに
おいて、全エラーが低い完全文仮定及び完全文仮定は全
エラーが高いものに優先して保存されることを特徴とす
る方法。
α〔上記第7項に記載した方法において、基準鋳型の倍
量は、文法によって許容される選ばれた語の対の間に通
例光せられる移行音を表わす鋳型を含んでいることを特
徴とするシステム。
Qυ 一連の仮定された語から成る文について文エラー
を計算する方法であって、 (a)  各々の仮定された語について始点と終点とを
決定するステップと、 (b)  誤って仮定された語の可能性を示す語エラー
を各語について決定するステップと、(C1連続する仮
定された語と語との間にギャップが生じるか否かを決定
するステップと、+d)  ステップ(C1で決定され
たギャップにエラー値を指定するステップと、 (ill)  連続する仮定された語と語との間に重な
りが生じるか否かを決定するステップと、(f)  ス
テップ(e)で決定された重なりにエラー値を指定する
ステップと、 (g)  その語エラー、ギャップ・エラー及び重なり
エラーを合計するステップとから成ることを特徴とする
方法。
(2)上記第11項に記載した方法において、(hl 
 最初の仮定された語の始点と文の始点との間にギャッ
プが生じるか否かを決定するステップと、 (1)  ステップ(h)で決定されたギャップにエラ
ー値を指定するステップと、 (J)最後に仮定された語の終点と文の終点との間にギ
ャップが生じるか否かを決定するステップと、 (k)  ステップ(」)で決定されたギャップにエラ
ー値を指定するステップと、 (1)ステップ(11及び(k)で指定されたエラーを
ステップ(g)の加算結果に合算するステップとを含む
ことを特徴とする方法。
α美 上記第12項記載の方法において、各語が仮定さ
れる時にギャップ・エラーと語エラーとが指定され、語
が仮定される毎に、それまでに指定されていた全てのエ
ラーを合計することによって不完全文エラーが計算され
ることを特徴とする方法。
04)上記第11項記載の方法において、ギャップ・エ
ラーが、仮定された語を生じなか、った音声に相当する
ギャップに対してのみ、ステップ(d)において、指定
される方法。
Oω 上記第11項記載の方法において、ギャップ・エ
ラーが仮定された語を生じなかった音声に相当するギャ
ップに対してのみ、ステップ(1)及び(klにおいて
、指定される方法。
0[9各々が語エラーと出発時と終末時とを伴っている
一連の仮定された語に対応する最善の文仮定を決定する
方法であって、 (al  各々の仮定された語を文法明細と比較するス
テップと、 (h)  文法の制限の中で、存在している不完全文仮
定の末尾に各々の仮定された語を付加することができる
か否かを決定し、その存在している不完全文仮定を識別
するステップと、(C)  識別された不完全文仮定の
末尾に各々の仮定された語を付加して新らしい不完全文
仮定を作るステップと、 (d)  不完全文仮定が文法明細の範囲内で完全文で
あるか否かを決定するステップと、(e)  各完全文
仮定について完全文仮定エラーを計算するステップと、 (f)  ステップ(e)の結果に基づいて完全文仮定
を選択するステップとから成ることを特徴とする方法。
0η 上記第16項に記載した方法において、選択され
る完全文仮定は、所定限界値より小さな完全文仮定エラ
ーを最初に持ち、・且つ、それ自身のものより小さい完
全文仮定エラーを持った次の完全文仮定が存在しない完
全文仮定であることを特徴とする方法。
0匂 上記第16項に記載した方法において、選択され
る完全文仮定は、所定限界値より小さな完全文仮定エラ
ーを持ち、且つ、その完全文仮定エラーが計算された後
所定期間内に作られたそれ自身の完全文仮定エラーより
小さな完全文仮定エラーを持った次の完全文仮定が存在
しない完全文仮定であることを特徴とする方法。
Q’fl  上記第16項記載の方法において、新らし
い不完全文を仮定する毎に不完全文仮定エラーを計算し
、ステップ(e)は、新たに付加された仮定語に終る不
完全文仮定について不完全文仮定エラーを計算するステ
ップから成ることを特徴とする方法。
(21上記第19項に記載した方法において、不完全文
仮定エラーの計算は、 (g)  各々の仮定された語に語エラーを関連させる
ステップと、 (hl  ステップ(b)で識別された不完全文仮定の
中の最後の語の終了後に開始する各々の仮定された語に
ギャップ・エラーを関連させるステップと、 (1)  ステップ(′b)で識別された不完全文仮定
の中の最後の語の終了前に開始する各々の仮定された語
に重なりエラーを関連させるステップと、(」)  ス
テップ(f)、(g)及びfh)で各々の仮定された語
に関連させられたエラーを、ステップ(blで識別され
た不完全文仮定の不完全文エラーと合算するステップと
、 (kl  祈らしい不完全文仮定エラーを、ステップ(
C1で作られた新らしい不完全仮定と関連させるステッ
プとから成ることを特徴とする方法。
(21)上記第20項に記載した方法において、連続す
る仮定された語と語との間のギヤツブに沈黙が伴ってい
るときにはステップ(g)のギャップエラーは0である
ことを特徴とする方法。
(22)上記第16項に記載した方法において、(Iり
仮定される語が無いまま所定期間が経過したならば不完
全文仮定を最善の完全文仮定として選択するステップを
含むことを特徴とする方法。
(23)上記第16項記載の方法において、((6)仮
定される語が無いまま所定期間が経過したならば最善の
文決定を流産させるステップを含むことを特徴とする方
法。
(24)上記第16項に記載した方法において、文法明
細は、結合された語と語の選択された対の間に普通に生
じる移行発音を表わす状態を含むことを特徴とする方法
(25)連続音声発話を認識する方法において、(al
  一連の語仮定を作るステ・7プと、(bl  各々
の仮定された語を文法明細と比較するステップと、 (C1文法明細の制限に従って各語仮定を先の不完全文
仮定の末尾に付加することによって不完全文仮定と完全
文仮定とを作るステップと、(d)  最も低い文エラ
ーを持つ完全文仮定を選択するステップとから成ること
を特徴とする方法。
(26)上記第25項記載の方法において、(e)  
完全文が選択された時、第2文法明細に移行し、この第
2文法明細に従って他の不完全文及び完全文を作ること
を特徴とする方法。
(27)上記第26項に記載した方法において、第1文
法に従う完全文の後に休止が続かなければならないこと
を特徴とする方法。
【図面の簡単な説明】
第1図は音声認識システムのブロック図である。 第2図は語仮定のデータ対象を示す。 第3図は1つの発話についての3つの仮定のタイミング
図である。 第4図は発話のタイミング図である。 第5図は音声信号中の重なり及びギャップに起因するエ
ラーを示すグラフである。 第6図は音声認識に用いる文法を定義する状態図である
。 第7図は第6図の一部を詳細に示す図である。 第8図は遷移状態を示す文法定義に用いられる状態図の
一部分である。 第9図は複数の下位文法の組の使用を示す状態図である
。 第10図は文仮定のデータ対象である。

Claims (1)

  1. 【特許請求の範囲】 音声入力から語仮定を作る語認識装置と、 前記語認識装置に接続され、語仮定から不完全文仮定及
    び完全文仮定を作る文認識装置とから成ることを特徴と
    する音声認識システム。
JP62101691A 1986-04-25 1987-04-24 音声認識システム Expired - Fee Related JP3124277B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US85653486A 1986-04-25 1986-04-25
US856534 1986-04-25

Publications (2)

Publication Number Publication Date
JPS6326700A true JPS6326700A (ja) 1988-02-04
JP3124277B2 JP3124277B2 (ja) 2001-01-15

Family

ID=25323876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62101691A Expired - Fee Related JP3124277B2 (ja) 1986-04-25 1987-04-24 音声認識システム

Country Status (3)

Country Link
EP (1) EP0242743B1 (ja)
JP (1) JP3124277B2 (ja)
DE (1) DE3786822T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010126266A (ja) * 2008-11-25 2010-06-10 Nikka Whisky Distilling Co Ltd 樽搬出入作業システム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3732849A1 (de) * 1987-09-29 1989-04-20 Siemens Ag System-architektur fuer ein akustisches mensch/maschine-dialogsystem
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
FR2674524B1 (fr) * 1991-03-25 1993-05-21 Adir Nouveaux amides alkyl heterocycliques, leur procede de preparation et les compositions pharmaceutiques qui les contiennent.
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
DE4397100C2 (de) * 1992-12-31 2003-02-27 Apple Computer Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
DE4407833A1 (de) * 1994-03-09 1995-09-14 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln einer Folge von Wörtern aus einem Sprachsignal
DE4412930A1 (de) * 1994-04-15 1995-10-19 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern
DE19857070A1 (de) * 1998-12-10 2000-06-15 Michael Mende Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes
FR2790586B1 (fr) * 1999-03-05 2001-05-18 Auralog Procede et dispositif de reconnaissance vocale
DE10229207B3 (de) * 2002-06-28 2004-02-05 T-Mobile Deutschland Gmbh Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
KR20200048976A (ko) * 2018-10-31 2020-05-08 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60122475A (ja) * 1983-11-15 1985-06-29 Nec Corp パタン認識装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60501180A (ja) * 1983-03-28 1985-07-25 エクソン リサ−チ アンド エンジニアリング カンパニ− スピ−チ認識方法および装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60122475A (ja) * 1983-11-15 1985-06-29 Nec Corp パタン認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010126266A (ja) * 2008-11-25 2010-06-10 Nikka Whisky Distilling Co Ltd 樽搬出入作業システム

Also Published As

Publication number Publication date
DE3786822T2 (de) 1994-01-13
EP0242743B1 (en) 1993-08-04
DE3786822D1 (de) 1993-09-09
JP3124277B2 (ja) 2001-01-15
EP0242743A1 (en) 1987-10-28

Similar Documents

Publication Publication Date Title
US4882757A (en) Speech recognition system
Soong et al. A Tree. Trellis based fast search for finding the n best sentence hypotheses in continuous speech recognition
EP0769184B1 (en) Speech recognition methods and apparatus on the basis of the modelling of new words
US6092045A (en) Method and apparatus for speech recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
EP0527650B1 (en) Speech recognition apparatus
US5737723A (en) Confusable word detection in speech recognition
US7395205B2 (en) Dynamic language model mixtures with history-based buckets
US6374212B2 (en) System and apparatus for recognizing speech
JPS6326700A (ja) 音声認識システム
US6178401B1 (en) Method for reducing search complexity in a speech recognition system
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JPH0123798B2 (ja)
JP4729902B2 (ja) 音声対話システム
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
US5875425A (en) Speech recognition system for determining a recognition result at an intermediate state of processing
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3468572B2 (ja) 対話処理装置
Diwan et al. Reduce and reconstruct: ASR for low-resource phonetic languages
Barnard et al. Real-world speech recognition with neural networks
JP2871420B2 (ja) 音声対話システム
JP4475380B2 (ja) 音声認識装置及び音声認識プログラム
Gorniak et al. Augmenting user interfaces with adaptive speech commands
JP2980382B2 (ja) 話者適応音声認識方法および装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees