JPS62231996A

JPS62231996A - 音声認識方法

Info

Publication number: JPS62231996A
Application number: JP62043238A
Authority: JP
Inventors: ラリツト・ライ・バール; ピーター・ビンセント・デソーザ; スチーブン・ビンセント・デジエナロ; ロバート・レロイ・マーサー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-03-27
Filing date: 1987-02-27
Publication date: 1987-10-12
Also published as: JPH0431600B2; US4718094A; EP0239016A2; EP0239016B1; EP0239016A3; DE3783154T2; DE3783154D1; CA1257697A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】以下の順序で本発明を説明する。

Ａ、産業上の利用分野Ｂ、従来技術Ｃ１発明が解決しようとする問題点り１問題点を解決するための手段Ｅ、実施例Ｅｌ　音声認識装置の環境Ｅｌ、１一般的説明（第１．２．３図）Ｅｌ、２　聴覚
モデル及びその音響プロセッサ中での応用（第４．５．
６．７．８．９．１０図）Ｅｌ、６　精密突合せ（第６．１１図）Ｅｌ、４　基本
的な高速突合せ（第１２．１６．１４図）Ｅｌ、５　代替高速突合せ（第１５．１６図）。

Ｅ　１．６　　最初の５個のラベルに基づく突合せ（第
１６図（ｂ））Ｅｌ、７　単音のツリー構造及び高速突合せ（第１７図
）Ｅｌ、８　言語モデル（第１８図）Ｅｌ、９　スタック解読装置（第１９．２０．２１．２
２図）Ｅｌ、１０　　音標基本形の形成（第３図）Ｅｌ、１１
　　フエネーム基本形の形成（第２３．２４図）Ｅ１１２　ワード−モデルの訓練Ｅｌ、１３　　高速突合せ方法のサンプルの流れ図（第
２５．２６．２７．２８．２９．３０．６１．３２．３５．３４．３５図）Ｅｌ、１４　　ポーリングによる語粟からの尤度の高い
ワードの選択（第３６．３７．３９．４０図）Ｃ２複数の独立したワード・スコアからの各総ワード・
スコアの決定（第４１．４２．４３．４４．４５．４６図）Ｆ９発明の効果Ａ、産業上の利用分野本発明はテキストの通信に応答して単語の語粟から１つ
の単語を選択する方法に関する。特定の実施例として、
本発明は音声認識の文脈における単語の選択に関する。

Ｂ、従来技術（１）高速近似音響一致に関連する従来及び現在の技術代表的には、音声認識装置即ち音声認識マシンの目的は
自然の音声を成る他の形式、例えば書面形式に自動的に
変換する事である。この目的を達成するのに、多（の一
般的な試みが考えられている。一つの試みは人間の音声
翻訳方法である。他の試みは統計的な文脈として音声を
調べるものである。

統計的な試み自体の中には、いくつかの技術が考えられ
ていて、例えば１９８３年刊「パターン分析及び機械知
能に関するＩＥＦ、Ｅ論文集」第ＰＡＭＩ−５巻、第２
号、第１７．９．−１９０頁中のバール、ジエリネツク
及びマーサー共著の論文「連続的音声認識への最大尤度
法Ｊ　（Ｂａｈｌ、　Ｊｅｌｉｎｅｋ、ａｎｄ　Ｍｅｒ
ｅｅｒ、”Ａ　Ｍａｘｉｍｕｍ　Ｌｉｋｅｌｉｈｏｏｄ
Ａｐｐｒｏａｃｈ　　ｔｏ　　Ｃｏｎｔｉｎｕｏｕｓ　
　ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、”ＩＥＥＥ　
　Ｔｒａｎｓａｃｔｉｏｎｓｏｎ　　Ｐａｔｔｅｒｎ　
Ａｎａｌｙｓｉｓ　ａｎｄ　ＭａｃｈｉｎｅＩｎｔｅｌ
ｌｉｇｅｎｃｅ、Ｖｏｌｕｍｅ　　ＰＡＭｒ−５、Ｎｕ
ｍｂｅｒ　２、ｐｐ１７９−１９０（１９８３））に開
示されている。この論文中には音声認識装置の代表的な
モデルとして、テキスト発生装置の出力に話者が追従す
るものを説明している。テキスト発生装置が言うべき事
柄を決め、話者が自然音声の波形を発生する。自然音声
の波形は音波プロセッサに導入され、これからの出力が
言語解読装置に導入される。使用する技術に依存して、
上述の素子は種々の方法で結びつけられる。上述のボー
ル（Ｂａｈｌ）等の論文では話者と音響プロセッサが音
波チャネルとして機能する様に組合されている。この時
話者は音声波形としてのテキストを与え、音響プロセッ
サはラベル（記号もしくはフエネーム（ｆｅｎｅｍｅ）
とも云う）のストリングを言語解読装置に与えるデータ
圧縮装置として働く。

ラベルは多くの方法のうち任意の方法で発生出来、通常
まとめて、順次ラベルｙｙｙ　　・・・より構成される
ストリングＹとして表わされている。

言語解読装置の目的は導入されるラベルのストリングに
基づいて原話者のテキストを成る予定の形式で表現する
事にある。

上述の論文では、１つの音響プロセッサ＠１１・ＩＢＭ
センチ秒音響プロセッサ（Ｃ８ＡＰ）・Φ・は音声波形
をパラメータ・ベクトルのストリングに変換するものと
説明されている。各パラメータ・ベクトルを記憶されて
いるプロトタイプ（即ち標準ベクトル）と比較して、パ
ラメータ・ベクトルと各プロトタイプ間の距離を決定す
る。一番近いプロトタイプのラベルがその波形パラメー
タ・ベクトルに割当てられる。ラベルは種々の形式のう
ちの任意のものでよ（、現存の技術に従って種々の方法
の中から決定される。

言語解読装置の目的は導入するラベルと装置の語彙中の
単語間に一致を見出す事にある。

上述のボール（Ｂａｈｌ　）等の論文に述べられた統計
的方法では、言語解読装置はラベルｙ１ｙ２ｙ３・・・
のストリングを発生する確率が最も高いワード・ストリ
ングＷを決定する事を目的とする。数学的にこの事は次
の式で表わされる。

Ｍａｘ　　Ｐｒ　（ｗ　ｌ　Ｙ　）　　　　　　　　　
　　（１）この式はＹが与えられたという条件の下です
べてのワード・ストリングＷにわたってＷの発生確率が
最大な確率を示す。良く知られた確率論に従えば、この
式は次の様に表わせる。

Ｐｒ（ＷＩＹ）＝Ｐｒ（Ｗ）ｘＰｒ（ＹＩＷ）／Ｐｒ（
Ｙ）　　　（２）ここでＰｒ（Ｙ）はＷと独立である。

所与のワード・ストリングＷの発生確率であるＰｒ（Ｗ
）は言語解読装置中の言語モデルによって決定される。

解読過程の成る時点で、成る初期サブストリング、例え
ばｙｙ　　・・・ｙＴが一時的にワード・ストリングＷ
１Ｗ２・−・Ｗ　として解読されたものと仮定する。本
発明は語彙中の他の単語と比較した場合、成る値のｋに
ついてＰｒ（Ｗ（ｎ＋１）”１”’　°ｙＴｙＴ＋１°”　°
ｙＴ十に’Ｗ１・−−ｗ）が相対的に大きくなる様な候補単語Ｗｎ＋１の組を決定
する事を目的とする。

Ｐｒ（ＹＩＷ）を決定する場合には、マルコフ・モデル
を考慮に入れる。いくつかの言語解読技術によって必要
とされる計算の回数は上記ボール（Ｂａｈｌ　）等の論
文に、特に語儒の数が５０００語以上の程度と大きい場
合にはかなり高い事が示されている。

従って言語解読の主要な問題は、過度の計算時間を要せ
ず、解読の際の正確さを犠牲にしないで語彙中のワード
・ストリングのＰｒ（ＹＩＷ）を決定する事であった。

本発明の目的はこの問題の解決にある。

（２）ポーリングに関連する従来及び現在の技術音声認
識の統計方法では、音波波形が最初音波プロセッサによ
ってラベル即ちフエネームのストリングに変換される。

各々が前影を同定するラベルは代表的には略２００の異
なるラベルのアルファベットから選択される。この様な
ラベルの発生については種々の文献、例えば１９７６年
刊「ＩＥＥＥ論文集」第６４巻、第５３２−５５６頁の
「統計的方法による連続的な音声認識」（”Ｃｏｎｔｉ
ｎｕｏｕｓＳｐｅｅｃｈ　　Ｒｅｃｏｇｎｉｔｉｏｎ　
　ｂｙ　ＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏｄｓ”、Ｐ
ｒｏｃｅｅｄｉｎｇｓ　　ｏｆ　　Ｉ　ＥＥＥ。

Ｖｏｌｕｍｅ　　６４、ｐｐ５３２−５５６（１９７６
））及び特開昭６１−１２６６００号公報に説明されて
いる。

音声認識を達成するのにラベルを使用する時には、マル
コフ・モデル単音マシン（確率有限状態マシンとも呼ば
れる）を使用する。マルコフ・モデルは通常、複数の状
態及び状態間の遷移を含んでいる。さらにマルコフ・モ
デルには通常（ａ）発生する各遷移の確率及び（ｂ）種
々の遷移時の各ラベルの発生確率が割当てられている。

マルコフ・モデルモしくはマルコフ源については種々の
論文、例えば１９８３年３月刊「パターン解析及び機械
知能に関するＩ　ＥＥＥ論文集」第Ｐ　ＡＭ　Ｉ−５巻
、第２号中のり、Ｒボール、Ｆジエリネツク及びＲ０Ｌ
マーサー著「連続的音声認識のための最大尤度法Ｊ　（
”Ａ　Ｍａｘｉｍｕｍ　Ｌｉｋｅｌｉｈｏｏｄ　Ａｐｐ
ｒｏａｃｈＴｏ　　Ｃｏｎｔｉｎｕｏｕｓ　　５ｐｅｅ
ｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ”、Ｉ　　ＥＥＥ　　　
Ｔｒａｎｓａｃｔｉｏｎｓ　　ＰａｔｔｅｒｎＡｎａｌ
ｙｓｉｓ　　ａｎｄ　Ｍａｃｈｉｎｅ　　Ｉｎｔｅｌｌ
ｉｇｅｎｃｅ。

Ｖｏｌｕｍｅ　　ＰＡＭＩ−５、Ｎｕｍｂｅｒ　２、Ｍ
ａｒｃｈ１９８６、ｂｙ　　Ｌ、　Ｒ，Ｂａｈｌ、　Ｆ
、　Ｊｅｌｉｎｅｋ。

ａｎｄ　　Ｒ，Ｌ、Ｍｅｒｅｅｒ）に説明がある。

ラベルノ発生トマルコフ・モデル単音マシンを使用する
１つの音声認識方法では上述の様に音響波の突合せを使
用する。音響突合せ法は中程度に効果的である。しかし
ながら、音響突合せ法は通常莫大な量の計算を必要とす
る。

従って音響突合せ法に代り、もしくはこれと−緒に使用
出来る計算上安価な方法が要望される。

ポーリングはこの目的を達成するのに、マルコフ・モデ
ル単音マシンと所与の発話台本（ｕｔｔｅｒｅｄｓｃｒ
ｉｐｔ）に応答して発生されるラベルを使用する技術で
ある。

（３）総スコアに関連する従来及び現在の技術有効な単
語（具体的には音声）認識装置のための市場プロジェク
トが種々の刊行物に報告されている。音声認識装置単独
で年間数１０００万乃至数１０億ドルにわたる販売予測
がなされている。

従って、大きな語粟、例えば５０００語以上の語柔から
選択した単語を翻訳出来る効率的な音声認識装置を製造
するのにかなりな努力がなされている。

１つの通常の技術は各単語に１個当てテンプレートを形
成する事を含む。発声された音声は次にテンプレートと
突合され、どのテンプレートがその音声に最も良く当て
はまるかが決定される。ワードの発声は時間毎に変動す
るので、この様な装置は動的に時間軸にひずみを与える
手段、もしくは伸張手段及びパターンを記憶しであるテ
ンプレートに合わせる時間的調節手段を含んでいる。

テンプレート、音響突合せ、もしくは他の方法に基づく
音声認識を遂行する際の一つの主要な目的は過剰な計算
時間を必要としないで選択したワードの正確さを増大す
る事が望まれる。本発明の第６の態様はこの目的に向け
られる。

Ｃ０発明が解決しようとする問題点本発明の目的は、比較的短い計算時間を費すだけで音声
単語を正確に認識する方法を与える事にある。

Ｄ０問題点を解決するための手段（１）近似音響突合せ法の概要本発明に従い、言語解読装置には語集中のどの単語が特
定のラベルのス）　ＩＪングを発生する最大の確率を有
するかを決定する手段が与えられる。

この目的を達成するのに、本発明は正確さを不轟に失わ
ないで突合せの決定を行うために、単語と多くの近似を
伴うラベルを統計的に突合せ装置及び方法を与える。さ
らに、本発明では、単語が似た夫々の音声の始まりを有
する限り、類似した音声の始まりを有する単語が同時に
導入ラベルと突合される。

本発明で具体化される近似では、各語粟の単語は一連の
単音（ｐｈｏｎｅ）で表される。各単音は単音マシンで
表わされる。各単音マシンは正確に（ａ）複数の状態、
（ｂ）状態から状態への遷移及び各遷移に関連する確率
並びに（Ｃ）所与の遷移時に所与の単語マシンによって
所与のラベルが発生される実際の出力確率を有するもの
として特徴付けられる。各単音マシン（所定の単音に対
応）が所与の遷移時において所与のラベルが発生される
確率を決定する。これ等の特性に基づいてワードの一致
スコアを決定する事が可能であるが計算の数が多くなる
。

本発明に従い、各単音マシンはその中のすべての遷移に
おける各ラベルの実際のラベル（発生）確率を特定の置
換値で置換える事によって簡単にする事が好ましい。特
定の置換値は置換値を使用した時の単音の一致スコアが
実際のラベル確率を置換値で置換えない精密突合せによ
って得られる一致スコアより大きく見積った値になる様
に選択する事が好ましい。この条件を満足する１つの方
法は所与の単音マシン中の所与のラベルに対応するどの
確率もその置換値よりも太き（ない様に各置換値を選択
する事である。単音マシン中の実際のラベルの確率を対
応する置換値で置換する事によって、ワードの一致スコ
アを決定する際の計算回数が着しく減少する。さらに置
換値は太き目に見積られている事が好ましいので、結果
の一致スコアは置換なしで従来決定されていたスコアよ
りも小さくなる事はない。この様にして候補単語を見過
す事な（計算回数を減少するという目的が達成される。

他の近似は単語とラベルのストリング間の一致スコアの
決定に導入される追加の因子、即ち各特定の単音マシン
に関連するラベル長分布に関する。即ち各単音マシンに
は、ラベルの最小数Ｌｍ１ｎ及び最大数Ｌｍａｘ間に含
まれる各ラベル数が発生される確率分布が存在する。本
発明に従い計算を容易にし、計算を減少するために、ラ
ベル長確率分布（ラベルの最小長と最大炎の間にある）
は一様であると考え、ラベルの各長さく　ＬｍｉｎとＬ
ｍａｘの間にある）の確率は同じであるとする。

他の単純化手段として、本発明は単音マシンによって調
べられるラベルの数に制限を加えて、対応するワードと
導入するラベルのストリング間の一致値を決定する。こ
の追加の特徴によって異なる長さのワードの一致スコア
を比較によって求める際の解読の遅延及び不等の減少と
いう目的が達成される。

さらに本発明に従い、基本的な高速突合せ（所与の単音
マシンの各ラベルの実際のラベル確率を夫々の置換値で
近似する）もしくは代替高速突合せ（同様に所定の単音
に対するラベル長確率を特定の値で近似する）によって
候補単語のリストを誘導し、候補単語を相続し精密突合
せ単音マシンでもしくは言語モデルで処理して単一の単
語を求めるか、必要に応じて成る確率の高い代替単語を
求める。

単語の始まりを同時に処理する目的を達成するために、
本発明は単語もしくは単語の１部をツリー（木）構造に
配列した音声の基本形として定義する。各基本形は一連
の単音として表わされ、単音の各々にはそれ自身の単音
マシンが対応している。各基本形毎に一連の単音マシン
がツリーの根から延びている。２つもしくはそれ以上の
基本形が根を始点として同じ音声の始まりを有する限り
、単音マシンの共通の枝が与えられる。従って、基本形
が同じ始まシを有する限り、同じ単音マシンを通して同
時に処理する事によって、２もしくはそれ以上の基本形
が候補ワードとして選択されるか除去される。この方法
も正確さを失う事なく計算回数を減少するという目的を
達成する。

好ましい実施例では、本発明は音波の突合せを言語解読
装置で行う。言語解読装置中で各単音マシンは（ａ）複
数の状態及び状態間の遷移、（ｂ）確率Ｔ（ｉ−＋ｊ）
を有する遷移ｔ　ｒ　（ｓ　ｊ／　Ｓｉ　）　（ここで
確率Ｔ（ｉ→ｊ）の各々は現在の状態をＳｉとして状態Ｓ、に遷移する確率を示し、Ｓ　とＳＪ　　
　　　　　　　　　　　　　　　　　　　　　　ｌ　　
　　　ｊは同じ状態でも異なる状態でもよいものとする
）並びに（ｃ）実際のラベル確率（ここで各実際のラベ
ルの確率ｐ（ｙｋｌｌ→ｊ）は所与の単音マシ／で１つ
の状態から次の状態への所与の遷移の時にラベルｙｋが
発生する確率を示す。ｋはラベルを同定する記号である
）を有するものとして特徴付けられる。各単音マシンは
（ａ）上記各単音マシン中の各ｙ　に単一の特定の値ｐ
　’　（ｙ　ｋ）をに割当てる装置（ｂ）所与の単音機械中の各遷移で各実際
の出力確率ｐ（ｙｂＨ→ｊ）を対応するｙ　に割当てら
れた単一の特定値ｐ’（ｙｋ）で置に換える装置を含む。置換値は特定の単音機械中の任意の
遷移における対応するラベルｙｋのための最大の実際の
ラベル確率に少なくとも等しい事が好ましい。

（２）ポーリング（投票法）の概要本発明は又正しい次の単語として認識される単語数を減
少する他の方法を与える。即ち本発明はアルファベット
中の各ラベルが語彙中の各単語に「投票」するための表
を設けたポーリング方法に関する。この投票は所与の鵬
語が所与のラベルを発生する尤度を反映している。得票
数は訓練期間中に誘導したラベルの出力確率及び遷移確
率から計算される。

本発明の一実施例に従って音波プロセッサによってラベ
ルのス）　ＩＪソング発生される時に、問題としている
単語を選択する。投票表からストリング中の各ラベルを
同定して、問題のワードに対応する各ラベルの得票を決
定する。問題にしている単語のためのラベルの得票のす
べてを累積し、組合して尤度スコアを与える。語彙中の
各単語に対して処理を繰返して各単語の尤度スコアを得
る。

尤度スコアから類似の候補単語のリストを誘導する。

第２の実施例では各ラベルが語僕中の各単語に対して対
えるペナルティ（拒否権）を含む第２の表が形成される
。所与のラベルに割当てられるペナルティは単語が所与
のラベルを発生しない尤度を示す。第２の実施例ではラ
ベルの得票とペナルティの両方を考慮に入れて、ラベル
のストリングに基づき所与の単語のための尤度スコアを
決定する。

長さを考慮に入れる時は、尤度スコアは単語の尤度スコ
アを評価する際に考慮に入れたラベルの数を基にしてス
ケール変換する事が好ましい。

さらに、発生されたラベルのストリングに沿って単語の
終り時間が決定出来ない時のために、本発明は相継ぐ時
間間隔で計算される尤度スコアを与え、問題にしている
単語がこれに関連して複数の相継ぐ尤度スコアを有する
様にする。本発明はさらに問題にしている単語の最良尤
度スコアを問題にしている単語に割当てる。この時好ま
しくは語彙中のすべての他の単語の尤度スコアに関して
比較を行う。

本発明に従い、単語の語柔から類似の単語を選択する方
法が与えられる。この方法では、各単語は少なくとも１
つの確率有限状態単音マシンの系列で表わされ、音響プ
ロセッサが話された入力に応答して音響ラベルを発生す
る。この方法は（、）アルファベット中の各ラベルが語
彙中の各単語に投票するための第１の表を形成する。各
ラベルの問題にしている単語に対する投票が、その得票
を与えるラベルを発生した単語の尤度を示す。さらにこ
の方法には（ｂ）各ラベルに語彙中の各単語のためのペ
ナルティが割当てられている第２の表を形成する（所与
の単語の所与のラベルに割当てられたペナルティは所与
の単語のモデルに従って発生されない所与のラベルの尤
度を示す）、（Ｃ）所与のラベルのストリングに対して
、特定の単語のためのストリング中のすべてのラベルの
投票とその特定の単語のだめのストリング中にないすべ
てのラベルのペナルティを組合せて特定の単語の尤度を
決定する段階を含む事が好ましい。

さらにこの方法は特定の単語と同様にすべての単語につ
いて段階（、）、（ｂ）及び（Ｃ）を繰返して各単語の
ための尤度スコアを与える追加の段階（ｄ）を含む事が
好ましい。

もし必要ならば、上述の方法は既に説明した近似音響突
合せ技術と同時に使用される。

本発明のポーリング技術は語彙中のどの単語が８９プロ
セツサによって発生した音響ラベルのストリングに対応
するかを示す、相対的に高い尤度を有するかを決定する
高速で、計算が簡単な、効率的技術を与える。

（３）総合的な組合せワード・スコアを発生する技術の
概要本発明は又、複数の独立したアルゴリズムを４え、各ア
ルゴリズムに従って、ボキャプラリ中の各ワードに対し
て、別個のワード・スコアを誘導する事によって高速で
正確な音声（もしくは単語）認識を達成する事に向けら
れる。所与の単語の複数のワード・スコアを組合せて総
スコアを発生し、この総スコアを語彙中の他の単語のた
めに誘導した夫々の総スコアと比較して相対的尤度を決
定する。単一のアルゴリズムからのワード・スコアでな
く総スコアを使用すると、計算回数を著しく増大する事
なく正確さが増大する。

高速音声突合せアルゴリズムは近似値を形成して、訓練
期間中に発生したマルコフ・モデルの総計量を変更する
事を含む。近似総計量を使用する事によって、計算回数
を減少し、計算が繰返し演算によって行われる音響突合
せが遂行出来る。高速突合せアルゴリズムに従って、語
彙中の各単語には近似統計量に基づいて評価される尤度
スコアが割当てられる。相対的に高い高速突合せスコア
を有する単語が候補単語の順序リストを形成する。

候補単語は次に精密音響突合せを受け、訓練中（近似が
適用される前）に発生した統計量に基づいて計算が行わ
れる。

第２のアルゴリズム、即ち精密突合せアルゴリズムは訓
練中に決定した統計量（近似は適用されていない）に基
づいてワード・スコアを誘導する。

本発明の一つのモードでは、語彙中の各単語は精密突合
せを受け、夫々のワード・スコアを決定する。本発明の
他のモードでは、精密突合せは高速突合せアルゴリズム
に従って選択した候補ワードの様な、語彙中の成る単語
だけに適用される。

第３のアルゴリズムはポーリングを含む。ポーリングで
音声はラベル即ち記号のストリングに変換される。具体
的に説明すると、ラベルのアルファベットが決定され、
音声の各区間毎に、音声の成る予定の特性に基づいてラ
ベルが選択される。

語雲中の各単語はマルコフの「単音」モデルのシ−ケン
スとして定義される。各マルコフ「単音」モデルは複数
の遷移及び遷移の一部におけるラベルの発生確率を有す
る。各ラベルの確率は所与の単音モデルの所与の遷移の
際に所与のラベルを発生する（もしくはラベルを出力す
る）所与の単音モデルの確率を表わす。この確率は訓練
期間中に累積したデータから決定される。問題にしてい
る単語中に含まれる各単音モデル中のラベルの発生確率
に基づいて、問題の単語のための対応するラベルの得票
が決定される。さらに、各問題にしている各ラベルにペ
ナルティが割当てられる。従って各ラベルは語彙中の各
単語に対して投票及びオプションであるがペナルティを
有する。ラベルのス）　ＩＪングが未知の音声の発声に
応答して発生される時、単語のだめの各ラベルの投票及
びペナルティが組合され、単語のポーリング・スコアが
与えられる。第３のアルゴリズム従い、語彙中の単語に
はポーリング・ワード・スコアが決定される。

本発明に従えば、少なくとも２つの独立したアルゴリズ
ムから誘導した複数のワード・スコアが組合きれ、増強
された総ワード・スコアが与えられる。ここで独立した
アルゴリズムには（ａ）ポーリング・アルゴリズム及び
音響突合せアルゴリズム（例えば高速突合せアルゴリズ
ムもしくは精密突合せアルゴリズム）及び（ｂ）高速突
合せアルゴリズム及び精密突合せアルゴリズムを含む。

各アルゴリズムでは異なるマルコフ・モデルの組を使用
する事が好ましい。

本発明の他の目的に従えば、総ワード・スコアの各成分
は他の成分に関して重み付けする事が好ましい。この点
に関して、総ワード・スコアは、２つの独立したワード
・スコアの組合せである事が好ましいものとして説明さ
れたが、３つ以上の独立したワード・スコアの組合せで
よい事に注意されたい。

高速突合せアルゴリズムを使用する本発明のモードでは
、高速一致ワード・スコアは２つの機能を果す。第１に
、高速一致ワード・スコアは候補ワードの短かいリスト
を作成するのに使用され、第２に、総ワード・スコアを
決定する要素とじて使用される。換言すると、本発明は
組合せ総ワード・スコアを形成する追加の目的のための
候補リス）ｆ形成するのに使用するデータを導き出す。

テストのデータに基づくと、第１の型のマルコフ・モデ
ルから形成される基本形に基づく高速一致ワード・スコ
アと、第２の型のマルコフ拳モデルから形成した基本形
に基づく精密一致ワード・スコアを組合せる事によって
発生した総ワード・スコアを使用する事によって、高速
突合せアルゴリズムによって誘導した候補ワードに単に
精密突合せを適用する音声認識装置と比較して３０％乃
至５０％の誤り率の改善がみられる事がわかった。

Ｅ　実施例Ｅｌ　音声認識装置の環境Ｅｌ、１一般的説明第１図に音声認識装置１０００の一般的ブロック図が示
されている。装置１０００はスタック解読装置１００２
’！ｉ−含み、これには音響プロセッサ（ＡＰ）１００
４、高速近似音響突合せを行うアレイ・プロセッサ１０
０６、精密音響突合せを行うアレイ・プロセッサ１００
８．言語モデル１０１０及びワーク・ステーション１０
１２が接続されている。

音響プロセッサ１００４は音声波形の入力をラベルもし
くはフエネーム（ｆｅｎｅｍｅ）に変換する様に設計さ
れている。ラベルの各々は一般的な意味で、対応する前
影を同定する。本発明の装置では、音響プロセッサ１０
０４は人間の耳という独特なモデルに依存し、これＫつ
いては本出願人に係る特願昭６１−１６９９３号に開示
されている。

音響プロセッサ１００４からのラベルもしくはフエネー
ムはスタック解読装置１００２に導入する。論理的な意
味で、スタック解読装置１００２は第２図に示した装置
を含む。即ち、スタック解読装置１００２は探索装置１
０２０を含み、装置１０２０はワーク・ステーション１
０１２と接続し、夫々のインターフェイス１０２２．１
０２４．１０２６及び１０２８を介して音響プロセッサ
（ＡＰ）１００４、高速突合せ（ＦＭ）プロセッサ１０
０６、精密突合せ（ＤＭ）プロセッサ１００８及び言語
モデル（ＬＭ）１０１０に接続されている。

動作について説明すると、音響プロセッサ１゜０４から
のフエネームは探索装置１０２０によって高速突合せプ
ロセッサ１００６に送られる。高速突合せ手順について
は以下に説明されるが簡単に説明すると、突合せの目的
はラベルの所与のストリングに対して最も尤度の高い単
語（単数もしくは複数）を決定する事である。

高速突合せは語彙中の単語を調べて、導入するラベルの
所与のストリングに対する候補単語の数を減少する様に
設計されている。高速突合せはマルコフ・モデルとも呼
ばれる、確率論的有限状態機械に依存する。

一度高速突合せによって、候補単語の数が減少ｆると、
スタック解読装置１００２は言語モデル１０１０と通信
し、言語モデル１０１０は好ましくは存在する３字組に
基づぎ、高速突合せ候補リスト中の各候補単語の文脈上
の尤度を決定する。

精密突合せは言語モデル計算に基づいて、話された単語
である尤度が妥当である、高速突合せ候補リスト中の単
語を検査する事が好ましい。精密突合せは第３図に示し
た様にマルコフ・モデル単音装置によって遂行される。

精密突合せの後に、言語モデルが再び呼出され、単語の
尤度を決定する事が好ましい。

スタック解読装置１００２は高速突合せ、精密突合せか
ら誘導した情報を使用して、言語モデルを適用し、発生
したラベルのストリングのための単語の最も尤度の高い
経路、もしくはシーケンスを決定する様に設計されてい
る。

最も尤度の高いワード・シーケンスを見出すための２つ
の従来の方法はビテルビ（Ｖｉｔｅｒｂｉ）解読法及び
単一スタック解読法である。これ等の技術の各々は上田
の１連続的音声認識のための最大尤度法」と題する論文
の夫々第Ｖ章及び第４章に説明さｎている。

単一スタック解読技術において、長さが変化する経路が
尤度に従って単一のスタック中にリストされ、解読はこ
の単一のスタックに基づいて行われる。単一スタック解
読は尤度が一部経路の長さに依存し、従って一般に正規
化が使用される事を考えに入れなければならない。

ピテルピ技術は正規化を必要とせず、一般に小さなタス
クの場合に使用される。

代替方法として、解読は小さな語霊装置を使用し、確か
らしいワード・シーケンスとして各確からしい単語の組
合せを調べ、どの組合せが発生されたラベル・ストリン
グを発生する確率が最大であるかを決定する。この技術
のための計算回数は大きな語粟の場合は実用的でない。

スタック解読装置１００２は要するに他の装置を制御す
るが多（の計算は行わない。従ってスタック解読装置１
００２はＶＭ／システム壽プロダクト入門リリース３　
（Ｖｉｒｔｕａｌ　　Ｍａｃｈｉｎｅ／Ｓｙｓｔｅｍ　
ｐｒｏｄｕｃｔ　　ＩｎｔｒｏｄｕｃｔｉｏｎＲｅｌｅ
ａｓｅ　　３　）　　（１９８３）の様な刊行物に説明
されている様にＩＢＭ　　ＶＭ／３７０オペレーティン
グ・システムによって走行するプロセッサ４ろ４１を含
む事が好ましい。大量の計算を実行するアレイ・プロセ
ッサは市販の浮動小数点装置（ＦＰＳ　）１９０Ｌで具
体化される。

最良ワード・シーケンスもしくは経路を決定するための
多重スクッキング及び独特な決定戦略はり、　Ｒ，ボー
ル（Ｂａｈｌ）、Ｆジェリネック（Ｊｅｌｉｎｅｋ）及
びＲ，Ｌ、マーテ（Ｍｅｒｅｅｒ）によって発明されて
いて、以下のＥｌ、　１０の項で説明する。

Ｅｌ、２　聴覚モデル及びその音響プロセッサ中での応
用第４図に上述の音波プロセッサ１１００の’１の実施例
が示されている。音響入力（例えば自然の音声）がアナ
ログ・ディジタル変換装置１１０２に導入され、予定の
速度でサンプルされる。代表的なサンプリング速度は５
０マイクロ秒毎に１サンプルである。ディジタル信号の
緑を整形するために時間窓発生装置１１０４が与えられ
る。窓１１０４の出力は高速フーリエ変換（ＦＦＴ　）
装置１１０６に導入され、各時間窓毎に周波数スペクト
ル出力が与えられる。

次にＦＦＴ装置１１０６の出力が処理されて、ラベル３
’１　）’２・・・ｙｆの発生が準備される。

４つの装置、即ち特徴選択装置１１０８、クラスタ装置
１１１０、プロトタイプ装置１１１２及びラベラ１１１
４が協同してラベルを発生する。ラベルを発生する際に
プロトタイプは選択した特徴に基づく、空間中の点（も
しくはベクトル）として定義され、次に音声入力が同じ
選択された特徴によって特徴付けられ、空間中にプロト
タイプと比較される対応する点（もしくはベクトル）が
与えられる。

具体的に説明すると、プロトタイプを決める際には、点
の集合をクラスタ装置１１１ｏによって夫々クラスタと
して分類する。クラスタの決定方法は音声に適用される
ガウス分布の様な確率分布に基づいている。各クラスタ
の重心もしくは他の特性に関連するプロトタイプはプロ
トタイプ装置１１１２によって発生される。同じ基準に
よって選択された特徴によって特徴付けられる、発生さ
れたプロトタイプ及び音波入力はラベラ１１１４に導入
する。ラベラ１１１４は比較手順を遂行し、ラベルを特
定の音波入力に割当てる。

適切な特徴の選択は音響（音声）入力を表わすラベルを
誘導する際の主要因子である。現在説明している音響プ
ロセッサは改良した特徴選択装置１１０８を含む。本発
明の音響プロセッサに従い聴覚モデルが誘導され、音声
認識装置の音響プロセッサに適用される。第５図を参照
して、聴覚モデルを説明する。

第５図は人間の耳の内部を示す。具体的に説明すると内
部毛細胞１２００はこれから液体を含む溝に延びる端部
１２０２を有する。内部毛細胞の上流には外部毛細胞１
２０６があって、これから溝１２０４に延びる端部１２
０６がある。

内部毛細胞１２００及び外部毛細胞１２０６に関連して
情報を脳に伝える神経が存在する。具体的には、ニュー
ロンが電気化学的変化を受けて電気的インパルスを生じ
、これを神経を通して処理のために脳に伝える。電気的
化学的変化の評価は基底膜１２１０の機械的運動によっ
てシミュレートされる。

従来、基底膜１２１０は音波入力のための周波数分析器
として働き、基底膜１２１０に沿う部分は夫々の臨界周
波数帯に応答する事がわかっている。対応する周波数帯
に応答する基底膜の異なる部分は音波入力を知覚する際
の音の大きさにインパクトを与える。即ち、調子（トー
ン）の大きさは類似のパワーの強さの２つのトーンが同
じ周波数帯を占有する場合よりも、２つのトーンが異な
る周波数帯を占有する場合に大きく知覚される。

基底膜１２１０には２２個程度の臨界周波数帯がある事
がわかっている。

基底膜１２１０の周波数応答に一致する様に本発明の好
ましい音響プロセッサ１１００は音波入力を物理的に臨
界周波数帯の一部もしくはすべてに割当て、各画定した
臨界周波数帯の信号成分を別々に調べる。この機能はＦ
ＦＴ装置１１０６（第４図）からの信号を適切にフィル
タして各臨界周波数帯毎に別個の信号を特徴選択装置１
１０８に与える事によって達成される。

この別個の人力は又時間窓発生装置１１０４によって時
間フレーム（好ましくは２５．６ｍ秒）に区分される。

従って特徴選択装置１１０８は好ましくは２２個の信号
を含み、信号の各々が時間的に継起する１つのフレーム
中での所与の周波数帯の音波強度を示す。

フィルタ操作は第６図の通常の臨界帯域フィルタ１３０
０によって遂行される事が好ましい。別個の信号は次に
周波数の関数として知覚された音の大きさくラウドネス
）の変動に応答する等音の大きさ変換装置１３０２によ
って処理される。ここで、１つの周波数の所与のｄＢレ
ベルの第１のトーンは、第２の周波数の同じ所与のｄＢ
レベルの第２のトーンと知覚される音の大きさが異なる
事に注意されたい。変換装置１３０２は実験データによ
って種々の周波数帯中の信号を変換して、各々が同じ音
の大きさのスケールによって測定される様にする。例え
ば変換装置１３０２は１９３６年に行われたフレクチャ
（Ｆｌｅｔｃｈｅｒ）及びマンソン（Ｍｕｎｓｏｎ）の
研究に改良したものに基づいて音波のパワーを等しい音
の大きさに変換する事が好ましい。上述の研究の改良し
た結果を第７図に示す。第７図によれば、Ｘ印を含む等
ラウドネス曲線で示した様に４０ｄＢのレベルの１ＫＨ
ｚのトーンの音の大きさのレベルは６０ｄＢレベルの１
００Ｈｚのトーンの音の大きさに略等しい事がわかる。

変換装置１３０２は第７図の曲線の輪郭に従って音の大
きさを調節し、周波数に無関係に等しい音の大きさにな
る様にする。

音の大きさは周波数に依存するだけでな（、第７図の１
つの周波数のところを眺めるとわかる様にパワーの変化
率と音の大きさの変化率は対応しない。即ち音の強さ、
即ち振幅の変化はすべての点で知覚した音の大きさの変
化に等しく反映されない。例えば１００Ｈｚの周波数の
ところで、約１１０ｄＢの点から１０ｄＢ変化した場合
の音の大きさの変化は２０ｄＢの点から１０ｄＢ変化し
た場合の知覚される音の大きさの変化よりもはるかに太
きい。この差を音の大きさを圧縮する音の大きさスケー
リング装置１３０４に与える。音の大きさスケーリング
装置はホン（ｐｈｏｎ）を単位とする音の大きさの振幅
をソーン（ｓｏｎｅ　）で置換える事によってパワーｐ
　ｔ−ｐ　１／３に圧縮する。

第８図は実験的に決定したホン対ソーンの関係を示す。

ソーンを使用する事によって、本発明のモデルは大きな
音声信号の振幅でも略正確さを保持出来る。１ホンは４
０ｄＢにおけるＩＫＨｚのトーンの音の大きさとして定
義されている。

再び第６図を参照するに、各臨界周波数帯に関連する等
しい大きさ、大きさスケール変換済信号に操作を加える
新規な時間変動応答装置１６ｏ６が示されている。具体
的に説明すると、調べた各周波数に対して、各時間フレ
ーム毎に神経ファイアリング率ｆが決定される。

ファイアリング率ｆは本発明のプロセッサでは次の様に
定義される。

ｆ　＝（Ｓｏ＋ＤＬ　）ｎ　　　　　　　　　　　（１
）ここでｎは神経送信器の数、Ｓｏは音波波形入力と無
関係な神経ファイアリングに関連する自発ファイアリン
グ定数、Ｌは音の大きさの測定量、Ｄは変位定数である
。（Ｓｏ）ｎは音波入力が存在するかどうかに関係なく
生ずる自発神経ファイアリング率に対応し、ＤＬｎは音
波入力によるファイアリング率に対応する。

重要な事は、ｎの値が本発明の音波プロセッサでは次の
式に従って時間が経つと変化する事である。

ｄｎ／ｄｔ＝Ａｏ−（Ｓｏ＋Ｓｈ＋ＤＬ）ｎ　　　　　
（２）ここでＡｏは補充定数、ｓｈは自発神経送信器減
衰定数である。式（２）の新らしい関係は神経送信器が
成る割合い（Ａｏ　）で発生し、　（、）減衰率（ｓｈ
ｘｎ）（ｂ）自発ファイアリング率（ＳｏＸｎ）及び（
ｃ）音波入力による神経ファイアリングによって失われ
る事を示している。これ等のモデル化した現象の推定位
置を第５図に示す。

式（２）は又本発明の音響プロセッサは神経送信器の次
の数及び次のファイアリング率が現在の条件、少なくと
も神経送信器の条件に多面的に依存する事を反映してい
る。即ち時刻（ｔ＋Δｔ）における神経送信器の量は時
刻ｔにおけるその量にｄｎ／ｄｔΔｔを加えたものに等
しい。即ちｎ（ｔ＋Δｔ　）＝ｎ　（ｔ　）　＋　ｄ　
ｎ／ｄ　ｔ△ｔ（３）式（１）、（２）及び（３）は時
間変動解析装置を表わし、この事は聴覚系が時間的に適
応性を示すらしい事、聴覚神経上の信号が音波入力に関
して非線形性を示す事を示唆している。従って、本発明
の音響プロセッサは神経系の見かけの時間変動によシよ
く一致する様に音声認識装置中に非線形信号処理を具体
化した第１のモデルを与える。

式（１）及び（２）中の未知数の数を減らすために、本
発明の音響プロセッサは一定の音の大きさＬに適用され
る次の式（４）を使用する。

Ｓ　ｏ　＋’Ｓ　ｈ　＋Ｄ　Ｌ＝　１　／　Ｔ　　　　
　　　　　　　（４）Ｔは音波入力が発生した後に聴覚
の応答が最大値の３７％に降下するのに要する時間であ
る。Ｔは音の大きさの関数であり、本発明の音響プロセ
ッサでは種々の音の大きさのレベルに対する応答の減衰
を表わす現存のグラフから導出される。即ち一定の音の
大きさのトーンが発生すると、第１の高いレベルの応答
を発生し、その後応答は時定数Ｔかかつて定常状態のレ
ベルに向う。音波入力がない時はＴ　”　Ｔ　ｏであり
、Ｔｏは５０ｍ秒の程度である。Ｌ　　の大きさの場合
はＴ＝Ｔｍａｘでａ　Ｘあり、３０秒程度である。Ａｏ＝１として、Ｌ＝０の時
は１／（Ｓｏ＋Ｓｈ）は５センチ秒である。　ＬがＬｍ
ｌＬｘでＬ＝２０ソーンの時は次の式（５）を得る。

Ｓｏ＋５ｈ−）１０（２０）＝１／３０　　　　　　　
　　（５）上述のデータ及び式から、Ｓｏ及びｓｈは次
の様に式（６）及び（７）で表わせる。

Ｓｏ＝ＤＬｍ、、／（Ｒ＋　（ＤＬ、、、ｘＴＯＲ）　
　１）　（６）Ｓｈ＝１／Ｔｏ−８ｏ　　　　　　　　
　　　　（７）ここでｆ正常状態１はｄｎ／ｄｔが０である時の所与の音の大
きさにおけるファイアリング率である。

Ｒは音波プロセッサ中に残った唯一の変数である事に注
意されたい。従ってプロセッサのバホーマンスを変更す
るためにはＲだけを変更する。即ちＲはバホーマ／スを
変更するために調節される単一のパラメータであり、パ
ホーマンスの変更ハ過渡的効果に関する定常状態の効果
を最小にする事を意味する。定常状態の効果を最小にす
る事が望ましいのは一般に周波数応答の差、話者の差、
背景雑音及び音声信号の定常状態部分には影響を与える
が過渡的部分には影響を与えない歪のために、類似の音
声入力に対して出力バター／に一貫性がないからである
。Ｒの値は完全な音声認識装置の誤シ率を最適化する様
にセットされる事が好ましい。この様にして見出した適
切な値はＲ；１゜５である。Ｓｏ及びｓｈの値は夫々は
０．０８８８及び０．１１１１１１であり、Ｄは０．０
０６６６である事がわかる。

第９図を参照するに、本発明の音響プロセッサの流れ図
が示されている。２５．６　ｍ秒の時間７レームでディ
ジタル化され、好ましくは２０ＫＨｚの間隔でサンプル
された音声はノ１ニング窓１３２０を通過して、その出
力がディジタル・フーリエ変換（ＤＦＴ）１３２２を好
ましくは１０ｍ秒の時間間隔で受ける。変換出力は装置
１５２４によってフィルタされ、少なくとも１つの周波
数帯の各々、好ましくけすべての臨界周波数帯、少なく
ともそのうち２０の各々についてパワー密度が出力が与
えられる。ノζワー密度は次に対数の大きさから音の大
きさのレベルに変換される（段階１３２６）。この変換
は第７図の修正グラフに従って容易に遂行される。この
後のプロセスは段階１３６０の閾値の更新を含む。

この段階は第１０図に示されている。

第１０図で、感じ閾値Ｔ　及び聴覚閾値Ｔｈが各フィル
タされた周波数帯ｍに対して夫々１２０ｄＢ及びＯｄＢ
に決められる。次に段階１３４２で音声カウンタ、総フ
レーム・レジスタ及びヒストグラム・レジスタをリセッ
トする。各ヒストグラムは柱（ピン）を含み、柱の各々
は所与の周波数帯毎にパワーもしくは成る類似の測定量
の夫々の範囲にあるサンプル数もしくはカウントを含む
。

現在の実施例のヒストグラムでは各所与の周波数帯に対
してセンチ秒単位の数を含む。この数は音の大きさが複
数の音の大きさの範囲の各々の中にある時間を示す。例
えば第３の周波数帯ではパワーが１０ｄＢと２０ｄＢの
間に２０センチ秒を含む。同じ様に２０番目の周波数帯
ではパワーの５０ｄＢ及び６０　ｄＢ　の間に総計１０
００センチ秒のうち１５０センチ秒を含む。サンプル（
即ちセンチ秒）の総数と在中に含まれるカウントから、
百分率が誘導される。

夫々の周波数帯のフィルタ出力のフレームを段階１３４
４で調べて、フィルタ毎に１つずつ存在する適切なヒス
トグラム中の柱を段階１３４６でインクレメントする。

次の段階１３４８で各フィルタ（ｆｆｌｌち周波数）毎
に振幅が５５ｄＢを越える柱の総数をインクレメントし
て、段階１３５０で音声の存在を示すフィルタの数を調
べる。もし音声の存在を示す最小数のフィルタ（例えば
２０個甲乙個）がなければ、段階１６４４中で次のフレ
ームを調べる。段階１３５０で音声を示す十分な数のフ
ィルタが存在する事が発見されると、段階１３５２で音
声カウンタをインクレメントする。

段階１３５２で音声カウンタは１０秒の音声が発生する
迄インクレメントされ、段階１３５４でこの事を判定し
て、段階１３５６で各フィルタ毎にＴｆ及びＴｈの新ら
しい値をヒストグラムから決定する。

新らしいＴｆ及びＴｈ値は所与のフィルタに対して次の
様にして求める。Ｔｆの場合は１０００（１０秒）の柱
の上から第３５番目のサンプル（即ち音声の９６．５％
のところにある）を保持する注のｄＢ値をＢＩＮＨとし
て、Ｔ、を次の様に決める。

Ｔ　ｒ　”　Ｂ　Ｉ　Ｎ　Ｈ＋　４０　ｄ　ＢＴｈの場
合には、最低の柱から（０，１）Ｘ（総在中の音声カウ
ント）番目の値を含む柱のｄＢ値をＢＩＮＬとする。即
ちＢＩＮＬは音声として分類されるサンプル数にならな
い、ヒストグラム中のサンプル数の１％のところに当る
、ヒストグラム中の柱（ビン）である。次ＫＴｈをＴｈ
＝Ｂ■ＮＬ−３０ｄＢと決める。

第９図を参照するに、音声振幅は上述の様に、更新した
閾値に基づいてノーンに変換され、スケール変換される
（段階１５６０及び１３３２）。

ノーンを誘導し、スケール変換を行う代替方法は（柱を
インクレメントした後に）フィルタの振幅ａを取出して
次の式に従ってｄＢに変換するものである。

ａｄＢ＝２０１ｏｇ１０（ｉＬ）　　１０　　　　　　
（９）、　次にフィルタの振幅を０から１２０の間の範
囲にスケール変換して次式に従って等しい大きさにする
。

ａｅｑｌ＝１２０（ａｄＢ−Ｔｈ）／（Ｔｆ−Ｔｈ）（
１ｏ）次Ｋａ””’を大きさのレベル（ホン）からノー
ン（１ｋＨｚの場合に４０ｄＢの信号を１ソーンとする
）を単位とする大きさの近似値にする事が好ましい。

ＬｄＢ＝　（ａ”ｑ′！−３０）、／４　　　　　　　
（１１）ノーンを単位とする音の大きさは次の様に近似
される。

Ｌ　（近似）　＝　１ｏ　（ＬｄＢ）／２０　　　　　
（１２）次に段階１３３４で音の大きさくノーン）Ｌを
式（１）及び（２）の入力として与え、段階１３３５で
各周波数帯に対する出力ファイアリング率を決定する。

２２０周波数帯がある場合には２２次元のベクトルが相
続く時間フレーム中の音声入力を特徴付ける。しかしな
がら一般には通常のメル（ｍｅｌｌ）スケール変換フィ
ルタ・バンクを使用シて２０個の周波数帯を調べる。

次の時間フレームを処理する（段階１３３６）前に、段
階１３３７で式（３）に従いｎの次の状態を決定する。

これ迄に説明して来た音波プロセッサは応用に際して、
ファイアリング率ｆ及び神経受信器の数ｎが大きなりＣ
ペデスタルを有する様に改良される。即ちｆ及びｎに関
する式の動的な範囲が重要な場合には、ペデスタルの高
さを減少するために次の式を誘導する。

定常状態で、音波入力信号がない場合（Ｌ＝　０）につ
いて、式（２）を解いて定常内部状態ｎ′を求める。

ｎ’＝Ａ　（Ｓｏ＋Ｓｈ）　　　　　　　　　　　　（
１３）神経受信器の内部状態数、（１）は次の様に定常
状態部分と変動部分とで表わせる。

ｎ　（ｔ）＝ｎ’＋ｎ″（ｔ）　　　　　　　　　　　
（１４）式（１）及び（１４）を連立して、ファイアリ
ング率に関する次式を得る。

ｆ　（ｔ　）＝　（Ｓｏ＋Ｄ　ｘＬ　）　（ｎ’＋ｎ“
（ｔ））　　　　（１５）項Ｓｏ　Ｘ　ｎ’は定数であ
るが、すべての他の項はｎの可変部分かＤＸＬで表わさ
れた入力信号部分を含む。将来、処理は出力ベクトル間
の差の平方だけを含む様になり、定数項がなくなるであ
ろう。

ｎ′に式（１３）を代入して、次式を得る。

ｆ“（ｔ）＝（Ｓｏ＋ＤｘＬ）ｘ（ｎ”＋Ａ／（Ｓｏ＋
５ｈ））　　（１６）式（３）を考慮に入れて、次の状
態は次の様になる。

ｎ（ｔ＋Δｔ）：＝ｎ’（ｔ＋Δｔ　）　＋　ｎ“（ｔ
＋Δｔ）　　　　（１７）＝ｎ“（ｔ）＋Ａ　　（Ｓｏ
＋Ｓｈ＋ＤＬ）Ｘ（ｎ’＋ｎ”（ｔ））　　　（１８）
＝ｎ“（ｔ）　　（Ｓｈｘｎ“（ｔ）　　（Ｓｏ＋Ａｏ
ＸＬＡ）ｎ“（１）−（ＡｏＸＬＡＸＤ）／（Ｓｏ＋Ｓ
ｈ）＋Ａｏ−（（ＳｏＸＡｏ）＋　（ＳｈｘＡｏ））／
（Ｓｏ＋Ｓｈ）　　　　　　　（１９）この式（１９）
はすべての定数項を無視して次の様に書画される。

ｎ″（ｔ＋Δｔ）＝＝　ｎ”（ｔ）（１−３ｏΔｔ）−
’ｆ“（ｔ〕（２０）ここで式（１５）と（２０）が各
１０ミリ秒の時間フレーム毎に各フィルタに適用される
出力式及び状態更新方程式となる。これ等の式を適用し
た結果は各１０ミリ秒毎の２０要素のベクトルとなる。

ベクトルの各要素はメル・スケール変換したフィルタ・
バンク中の夫々の周波数帯のファイアリング率に対応す
る。

略２００のプロトタイプ・ベクトルが前もって決定され
ている。各プロトタイプ・ベクトルの各要素は予定の値
を持つ。さらに各プロトタイプ・ベクトルは夫々のラベ
ルによって同定される。

１ａミリ秒の間隔の内部を調べ、２０個のファイアリン
グ率を出力ベクトルにする。この出力ベクトルを各プロ
トタイプ・ベクトルと比較する。

次に最も近いプロトタイプ・ベクトルのラベルをその時
間間隔に割当てる。ベクトルの距離を測るのては種々の
良く知られた方法が使用される。

直ぐ前に説明した実施例の場合には、ｆ、　ｄｎ／ｄｔ
及びｎ　（ｔ＋１　）の式をファイアリング率ｆ及び次
の状態ｎ（ｔ＋△ｔ）に対する特別な場合の式を定義す
る式（１１）及び（１６）で置換える点を除（・て第９
図の流れ図が適用される。

種々の式中の項に与えられる値（即ちｔ。＝５センチ秒
、ｔＬｍａｘ＝６センチ秒、Ａｏ＝１、Ｒ＝１．５及び
Ｌ　　　＝＞ｏ）は他の値にセットされ、ａｘ項Ｓｏ、Ｓｈ及びＤも他の項が異なった値にセットされ
るので、好ましい値０．０８８８．０．１１１１１及び
０．００６６６とは異なる点に注意されたい。

本発明の音波モデルはハードウェアとして浮動小数点シ
ステムＦＰＳ１９０Ｌ及びＰＬ／Ｉプログラミング言語
を使用して実施されたが、他の種々のソフトウェア及び
ハードウェアでも実施出来る。

Ｅｌ、６　精密突合せ第６図に、サンプルの精密突合せ単音マシン２０００が
示されている。各精密突合せ単音マシンは（、）複数の
状態Ｓ１、（ｂ）遷移の一部は異なる状態間で行われ、
一部は１つの状態から自分自身に戻り、各遷移には確率
が対応する複数の遷移及び（Ｃ）特定の遷移の時に発生
される各ラベルの実際のラベル確率によって特徴付けら
れる確率論的有限状態マ／ンである。

第３図では７つの状態Ｓ１乃至Ｓ７及び１６の遷移ｔ　
１乃至ｔ、１３が与えられている。第３図で単音マシン
２０００は破線の経路を有する３つの遷移、即ち遷移ｔ
ｒ１１、ｔ、１２及びｔｒｌ３を有する。これ等の３つ
の遷移の各々では単音はラベルを発生する事な（１つの
状態から他の状態に変化する。従ってこの様な遷移は空
遷移と呼ばれる。遷移ｔｒｌ乃至ｔｒ１０の場合にはラ
ベルが発生する。特に遷移ｔｒｌ乃至ｔｒ１０では１乃
至それ以上のラベルが区別可能な確率で発生される。各
遷移には、発生出来る各ラベルに確率が伴う事が望まし
い。即ち音波チャネルによって選択的に発生されるラベ
ルが２００ある時には、各遷移（空でない）はそれに関
連して２００の実際のラベル確率があり、各確率は対応
するラベルが特定の遷移で発生される確率に対応する。

遷移ｔｒ１の実際のラベル確率は記号ｐとこれに続く角
括弧でかこまれた数字１乃至２００で表わされる。数字
が与えられたラベルを示す。種々の実際のラベル確率は
ラベル及び対応する４移に関連して記憶される。

ラベル）’Ｉ　　Ｙ２　Ｙｚ、のストリングが所与の単
音に対応する精密突合せ単音マシン２０００に提示され
て突合せが行われる。精密突合せ単音マシンに関連する
手順を第１１図を参照して説明する。

第１１図は第３図の単音マシンのトレリス図である。単
音マシンの場合と同様に、トレリス図は状態Ｓ１から状
態Ｓ７への空遷移を示し、状態Ｓ１から状態Ｓ２への及
び状態Ｓ１から状態Ｓ４への遷移を示している。他の状
態間の遷移も示されている。トレリス図は又水平方向に
時間目盛を有する。開始時間確率ｑ。及びｑｌは成る単
音が時間１＝１　　もしくは１＝１１で開始する開始時
開催率を示す。各開始時間も　及びｔｌでの種々の遷移
が示されている。この点に関して相継ぐ開始時間（及び
終り時間）間の間隔は長さがラベルの時間間隔に等しい
事が好ましい。

精密突合せ単音マシン２０００を使用して、所与の単音
マシンが導入ストリングのラベルにどの程度近いかを決
定するため、単音の終り時間分布を求めて、単音の一致
値を決定するのに使用する。

終り時間分布に依存する記法は突合せ手順に関連して本
明細書で説明される単音マシンのすべての実施例に共通
である。終り時間分布を発生して精密突合せを遂行する
ために、精密突合せ単音マシン２０００は正確で複雑な
計算を行う。

第１１図のトレリス図を参照して、先ず時刻ｔ＝ｔｏの
開始時間及び終り時間を持つのに必要な計算を考える。

第６図に述べられた例示的単音マシン構造に従って今の
場合を考えると、次の確率が適用される。

Ｐ　ｒ　（Ｓ　７、ｔ”　ｔ□）＝ＱＯＸＴ（１→７）
＋Ｐｒ（Ｓ２、ｔ　＝　ｔ　）　Ｘ　Ｔ　（２→７　）
　＋　Ｐ　ｒ　（Ｓ　３．１＝１ｏ）ＸＴ（５→７）　
　　　　　　　　　　　　（２１）ここでＰｒは確率を
示し、Ｔは２つの小括弧内に示した状態間の遷移確率を
示す。上の式は終り時間が時刻ｔ＝ｔｏで生ずる６つの
条件の夫々の確率を示している。さらに、ｔ　”：　ｔ
　□における終り時間が現在の例では状態Ｓ７で発生す
る様に限定されている事を示す。

次に終り時間１＝１　　を調べると、状態Ｓ１以外の各
状態に関連する計算を行わなければならない事がわかる
。

状態Ｓ１は前の単音の終り時間に始まる。説明の目的の
ために、状態Ｓ４に関する計算のみを説明する。状態Ｓ
４の場合の計算は次の様に行われる。

Ｐｒ（Ｓ　　　ｔ＝ｔ　）＝＝Ｐｒ（Ｓｌ、ｔ＝ｔｏ）
ＸＴ（１→４）ＸＰｒ（ｙ　１１”４）＋Ｐｒ（Ｓ４、
ｔ＝ｔｏ）　ｘ’ｒ　（４−＋４）ＸＰｒ（ｙ１１４−
＋４）（２２）換言すれば、上述の式（２２）は時刻ｔ　＝：　ｔ　１
において状態Ｓ４にある単音マシンの確率は次の２項（
、）時刻１＝１ｏにおいて状態Ｓ１にある確率に、状態
Ｓ　から状態Ｓ４に遷移する確率（Ｔ）を掛け、さらに
状態Ｓ　から状態Ｓ４に遷移する時に所与のラベルｙ１
が発生される確率（Ｐｒ）を掛けだもの、（ｂ）時刻１
＝１゜に状態Ｓ４にある確率、これに状態Ｓ４から自分
自身に遷移する確率、さらにこれに状態Ｓ４から自分自
身に遷移する確率を掛けたものの和に依存する。

同じ様にして、他の状態（状態Ｓ１を除く）に関連する
計算を遂行して、単音が時刻ｔ　”　ｔ　ｉにおいて特
定の状態にある対応する確率を発生する。

一般に所与の時刻において問題にしている状態にある確
率を決定する際には、精密な突合せは（、）問題にして
いる状態に導く遷移を有する各画の状態及びこの様な前
の状態の各々の確率を認識し、（ｂ）この様な各画の状
態に対して、ラベル・ストリングに従い前の状態の各々
から現在の状態間の遷移時に発生されなければならない
ラベルの確率を表わす値を認識し、（Ｃ）各画の状態の
確率と、ラベルの確率を表わす夫々の値を組合して対応
する遷移についての問題にしている状態の確率を与える
。問題にしている状態にある全体的な確率はこの状態に
導（すべての遷移について、問題の状態の確率から決定
される。状態Ｓ７のための計算には単音が状態Ｓ７に終
る時刻１＝１１で単音の開始及び終了を可能ならしめる
６つの空遷移に関連する項を含む事に注意されたい。

時刻１＝１　　及び１＝１１に関する確率の決定の場合
と同じ様に、他の一連の終り時間における確率の決定は
終り時間分布を形成するために発生する事が好ましい。

所与の単音に対する終り時間分布の値は所与の単音がど
の程度良く導入ラベルに一致するかの表示を与える。

どの程度良く単語が導入されるラベルのストリングと一
致するかを決定するために、単語を表わす単音が順次処
理される。各単音は確率値の終り時間分布を発生する。

単音の一致値は終り時間の確率を合計し、和の対数を取
る事によって得られる。次の単音の開始分布は例えば各
位を和で割り、各位をスケーリングしてスケール変換し
た和の合計が１になる様に、終り時間の分布を正規化す
る事によって誘導される。

所与の単語もしくはワード・ストリングについて調べる
べき単音の数りを決定するのに少なくとも２つの方法が
ある。第１の深さ優先法では基本形に沿って計算を行い
、各相継ぐ単音から移動小計を計算する。小計が基本形
に沿う所与の単音の位置に対する予定の閾値以下である
事がわかると、計算は終了する。これに代る第１の幅優
先法では各単語中の同じ単音の位置について計算する。

各単語の第１の単音、各単語の第２の単音等々について
計算を行う。

第１の幅優先法では種々の単語に対して同数の単音にわ
たる計算を同じ相対単音位置数の計算と比較する。いず
れの方法でも一致値が最大であるワードが目的のワード
である。

精密突合せは浮動小数点装置１９０Ｌのための固有アセ
ンブラであるＡＰＡＬ（アレイ脅プロセッサ・アセンブ
リ言語・ａ　＊　Ａｒｒａｙ　ＰｒｏｃｅｓｓｏｒＡｓ
ｓｅｍｂｌｙ　　Ｌａｎｇｕａｇｅ）で具体化される。

精密突合せは実際のラベル確率（即ち所与の単音が所与
の遷移で所与のラベルｙを発生する確率）、各単音マシ
ンに対する遷移確率及び予定の開始時間後の所与の時刻
に所与の単音が所与の状態にある確率の各々を記憶する
のに莫大なメモリを必要とする。上述のＦＰＳ１９０Ｌ
は終り時間、例えば終り時間の確率の対数和である事が
好ましい和に基づく一致値、前に発生した終りの確率に
基づく開始時間、単語中の順番にならんだ単音の一致値
に基づく単語−数値のための種々の計算を行う様にセッ
トされる。さらに、精密突合せは突合せ手順中の尾部確
率を考慮に入れる事が好ましい。

尾部確率は単語に関係ない相継ぐラベルの尤度の測定量
である。単一の具体例では、所与の尾部確率は他のラベ
ルに続くラベルの尤度に対応する。

この尤度は例えば成るサンプルの音声によって発生され
るラベルのストリングから容易に決定される。

従って精密突合せは基本形、マルコフ・モデルのための
統計量及び尾部確率を記憶するのに十分な記憶装置が必
要である。各単語が略１０個の単音を含む５０００語の
語粱の場合には、基本形に５０００Ｘ１０のメモリが必
要する。７０の弁別可能な単音（各単音に対してマルコ
フ・モデルが与えられる）、２００の弁別可能なラベル
、任意のラベルが発生される確率を有する１０の遷移が
存在する場合には、この統計量に７０Ｘ１０Ｘ２００位
置必要とする。しかしながら、単音マシンは３つの部分
、即ち開始部分、中間部分及び終り部分に分割して、そ
の各々に統計量を対応させる事が好ましい（６つの自己
ループは後続の部分に含ませる事が好ましい）。従って
、記憶に必要な場所は７０Ｘ５Ｘ２００に減少する。尾
部確率に関しては、２００Ｘ２００の記憶位置が必要で
ある。この様な例では、５０にの整数メモリ及び８２に
の浮動小数点メモリで十分動作する。

精密突合せは音標的な単音よりもフエネミックな単音を
使用する事によって具体化される事に注意されたい。付
表１はフエネミック精密突合せの主要な計算上の核に対
応するプログラム・リストを示す。付表１のルーチンは
現在の単語のフエネーム基本形に対応する格子に延び、
単一の時間ステップで時間的に前進する。サブルーチン
ＥＸＴＬＯＯＰが主ルーチンである。従ってパイプライ
ンが開始して、主ループに必要な部分的計算が遂行され
る。主ループの後に、計算上のパイプライン中に残され
た部分が空になる。

Ｅｌ、４　基本的な高速突合せ詳細な突合せは計算上高価になるので、基本的高速突合
せ及び正確さを中程度に犠牲にして計算の要件を減少す
る代替高速突合せが与えられる。

高速突合せは精密突合せと関連して使用する事が好まし
く、高速突合せは語粟かもの類似の候補単語をリストし
、精密な突合せは精々リスト上の候補ワードについて遂
行する事が好ましい。

高速近似音声突合せにおいては、各単音マシンは所与の
単音マシン中のすべての遷移での各ラベルのための実際
のラベル確率を特定の置換値で置換える事によって簡単
になる。特定の置換値は、置換値を使用した時の所与の
単音のための一致値が実際のラベル確率を置換値で置換
しない精密突合せによって与えられる一致値より大きく
見積られる様に選択される事が好ましい。この条件を満
足する１方法は所与の単音マシンの所与のラベルに対応
する確率がその置換値よりも犬ぎ（なる様に各置換値を
選択する方法である。単音マシンの実際のラベルの確率
を対応する置換値と置換える事によって、ワードのため
の一致スコアを決定する際に必要な計算回数が著しく減
少する。さらに、置換値は太き（見積られているので、
結果の一致スコアは置換値を使用しないで前に決定され
ていた値よυも小さくはない。

マルコフ・モデルを有する言語解読装置の音波突合せを
遂行する特定の実施例では、その中の各単音マシンは、
訓練によって（、）複数の状態及び状態間の遷移経路（
ｂ）　Ｓ　ｉ及びＳｊが同一状態でも異なる状態でもよ
−・とじて、現在の状態をＳｉとして、状態Ｓｊへの遷
移確率を表わす確率Ｔ（ｉ　−＋　ｊ　）を有する遷移
ｔｒ（ＳｉｌＳｊ）及び（Ｃ）実際のラベル確率を有す
る様になる事によって特徴付けられる。ここで各実際の
ラベル確率ｐ（ｙｌ＋；→Ｊ）はラベルｙｋが１つの状
態からその後の状態への所与の遷移の際に所与の単音機
械によって発生される確率を示し、ｋはラベルを同定す
る記号である。各単音マシンは（ａ）各単音マシン中の
各へに単一の特定値ｐ′（ｙｋ）を割当てる装置、及び
（ｂ）所与の単音マシンの各遷移で各実際の（出力）ラ
ベル確率を対応する葎に割当てた単一の特定の値ｐ’（
ｙｋ）によって置換する装置を含む。

置換値は特定の単音マシンにおける任意の遷移時におけ
る対応するラベルｙｋの最大の実際のラベル確率程少な
（とも大きい事が好ましい。高速突合せの実施例は導入
するラベルに対応して、語集中の最も尤度の高い単語と
して選択された１０乃至１００の程度の候補単語のリス
トを作成するのに使用される。候補単語は言語モデルと
照合され、精密な突合せを受ける事が好ましい。精密突
合せによって考慮される単語の数を語彙中の単語の１％
の程度に削減する事によって、計算上のコストが著しく
減少され、しかも正確さが保持される。

基本的な高速突合せは所与の単音マシン中で所与のラベ
ルが発生されるすべての遷移で、所与のラベルの実際の
ラベル確率を単一の値で置換する事によって詳細な突合
せを簡単にする。即ち、ラベルが発生確率を有する、所
与の単音マシンの遷移に拘らず、確率が単一の特定の値
によって置換される。この値は所与の単音マシン中の任
意の遷移において発生したラベルの最大の確率程少なく
とも大きい、大きく見積られた値である。

ラベル確率の置換値を所与の単音マシンの所与のラベル
についての実際のラベル確率の最大値にセットする事に
よって、基本的な高速突合せによって発生する一致値は
精密突合せによって生じた一致値と少なくとも同程度に
高い事が保証される。

この様にして、基本的な高速突合せは代表的には各単音
の突合せ値を大きく見積り、従って一般により多くの単
語が候補単語として選択される。精密突合せに従い候補
と考えられる単語も基本的高速突合せに従う検査に合格
する。

第１２図を参照すると、基本的高速突合せのための単音
マシン３０００が示されている。ラベル（又記号及びフ
エネームとも呼ばれる）は開始時間分布と共に基本的高
速単音マシン３０００に導入する。開始時間分布とラベ
ルのストリング入力は上述の精密突合せ単音マシンに導
入するものと同じである。開始時間は時によっては複数
の時間にわたる分布をなさず、例えば沈黙の間隔に続き
、単音が始まる正確な時刻であってもよい。しかしなが
ら（以下詳細に説明する様に）音声が続（時は、終り時
間分布を使用して開始時間の分布を決定する。単音マシ
ン３０００は特定の単音のための終り時間分布を発生し
、発生した終り時間分布から特定の単語のための一致値
を発生する。ワードの一致値は成分の単音、ワード中の
少な（とも最初のｈ個の単音の一致値の和として定義さ
れる。

次に第１３図を参照するに、基本的高速突合せの計算図
が示されている。基本的高速突合せの計算は単音の開始
時間の分布、単音によって発生・されるラベルの数即ち
長さ及び各ラベルｙｋに関連する置換値ｐ／ｙｋだけに
関連する。所与の単音マシン中の所与のラベルのすべて
の実際のラベル確率を対応する置換値で置換し、遷移確
率を長さの分布確率で置換する事によって、基本的高速
突合せは（所与の単音マシン中の遷移毎に異なる）実際
のラベル確率及び所与の時間に所与の状態にある確率を
使用する必要をなくする。

この点に関して、長さの分布は精密突合せモデルから決
定される。具体的には、長さの分布中の各長さに対して
、各状態を個々に調べ、各状態を調べ、各状態に対して
（ａ）特定のラベルの長さが与えられて及び（ｂ）遷移
に沿つ出力にかかわらず現在調べている状態が生じた種
々の遷移経路を決定する。各問題にしている状態に向う
すべての遷移経路のすべての確率を加算し、すべての問
題にしている状態の和を加えて分布の所与の長さの確率
を示す。上記の手順を各長さについて繰返す。

突合せ手順の好ましい形に従えば、これ等の計算はマル
コフ・モデルの分野で知られているトレリス図を参照し
て行なう。

トレリス構造に溢５枝を共有する遷移経路に対して計算
は各校毎に一度必要であり、共通の枝を含む各経路に対
して行う。

第１３図では、例として２つの制限が含まれる。

先ず単音によって発生されるラベルの長さを０１１．２
もしくは３とし夫々の確率をＬｏ、１１、ｔ２及びｔ３
とする。開始時間も制御されていて確率ｑｏ１ｑ１、ｑ
２及びｑ３を有する４つの開始時間のみが許されている
。これ等の制限の下に次の式が問題にしている単音の終
り分布を決定する。

’ｏ”ｑｏ’。

Φ１”ｑｉ　ｔｏ　＋ｑｏ　ｔｏ　＋）１Φ２”Ｑ２　
ＬＯ＋ｑ１　ｔｉ　ｐ２＋ｑｏ　！−２ＰＩ　Ｐ２Ｏ３
”Ｑ３　ｔＯ＋ｑ２　ｔｌ　ｐ３”ｑ１ｔ２　ｐ２　Ｐ
３＋ｑ２　ｔ５１）１　ｐ２　ｐ３ Φ４″’１３　ｔｌ　ｐ４”Ｑ２　ｔ２　ｐ５　ｐ４＋
ｑ１　ｔ３　Ｐ２　ｐ５　ｐ４Φ５　”Ｑ３　ｔ２　ｐ
４　ｐ５　＋ｑ２　ｔ３　Ｐ３　ｐ４　ｐ５Φ６：ｑ３
ｔ３ｐ４ｐ５ｐ６上の式を調べると、Φ３は４つの開始時間の各々に対応
する項を含む。最初の項は単音が時刻ｔ＝＝ｊｓで開始
しＯの長さのラベルを発生する確率を示す。即ちこの場
合単音は同じ時刻に始まって終る。第２の項は単音が時
刻ｔ＝ｔ２で開始し、ラベルの長さが１であり、この単
音によってラベル３が発生する確率を示している。第６
項は単音が時刻１＝１１で開始し、ラベルの長さが２（
即ちラベル２及び６）であり、この単音によってラベル
２及び６が発生する事を示している。同様に、第４項は
時刻ｔ＝ｔｏで単音が開始し、ラベルの長さが６であり
、この単音によって３つのラベノペラベル１．２、及び
３が発生される確率を示している。

基本的な高速突合せで必要な計算と精密突合せによって
必要な計算を比較すると、後者よりも前者が比較的簡単
な事は明らかである。この点に関して、ｐ′ｙｋ値はラ
ベルの長さの確率の場合と同様にすべての式中の各出現
では同じに保持される事に注意されたい。さらに長さ及
び開始時間に制限があるので後者の終り時間の計算が簡
単になる。

例えばＱ６の場合単音は時刻１＝１６で開始し、この終
り時間に当てはまるにはこの単音によってすべての３つ
のラベル４．５及び６が発生しなければならない。

問題にしている単音のため一致値を発生するためには、
決定した終り時間の分布に沿って終り時間の確率が合計
される。もし望まれるならば、和の対数を取って、次式
を与える。

一数値＝ｌｏｇ１ｏ（Φ０＋・・・・・・・・・・・・
＋Φ６）上述の如く、単語の一致スコアは特定の単語中
の相継ぐ単音のための一致値を加算する事によって容易
に決定される。開始時間分布の発生を説明するために、
第１４図を参照されたい。第１４図（−）で、単語ＴＨ
Ｅ　１が繰返され、その成分の単音に分割されている。

第１４図（ｂ）に、ラベルのストリングが時間軸上に描
かれている。第１４図（Ｃ）には最初の開始時間分布が
図示されている。

この第１の開始時間分布は最も近い前の単音（沈黙とい
う単語を含む前の単語中の）の終り時間分布から導かれ
る。ラベル入力及び第１４図（Ｃ）の開始時間分布に基
づいて、単音ＤＨの終り時間分布ΦＤＨが発生される。

次の単音ＵＨの開始時間分布は第１４図（ｄ）中の閾値
（Ａ）を越える前の単音の終り時間分布中の時間を認識
する事によって決定される。（Ａ）は各終り時間の分布
に対して個々に決定される。（Ａ）は問題にしている単
音の終り時間分布の和の関数である事が好ましい。時刻
ａとｂの間隔は単音ＵＨの開始時間分布がセットされる
時間を表わす（第１４図（、）を参照）。第１４図（、
）中の時刻Ｃとｄの間隔は単音ＤＨのための終り時間分
布が閾値（Ａ）を越える時間及び次の単音の開始時間分
布がセットされる時間に対応する。開始時間分布の値は
例えば閾値（Ａ）を越える終り時間の和によって各終り
時間の値を割る事によって、終り時間分布を正規化する
事によって得られる。

基本的な高速突合せ単音機械６０００は浮動小数点装置
１９０Ｌ中でＡＰＡＬプログラムによって具体化される
。他のハードウェア及びソフトウェアを使用して、本発
明に従う突合せ手順の特定の形式を開発する事が出来る
。

Ｅ　１．５　　代替高速突合せ基本的な高速突合せは単独で或いは好ましくは精密突合
せもしくは言語モデルと関連して計算を太いに減少する
事が出来る。さらに計算の要件を減少するために、本発
明は２つの長さ、即ち最小の長さし　・　及び最大の長
さＬ　　の間のラベｍｉｎ　　　　　　　　　　　　　
　　　　　　　　ｍａＸ　　・ル長分布を均一にする事
によって精密突合せを簡単にする事が出来る。基本的な
高速突合せでは所与の長さ、即ち匂、１１、β２等の所
与の長さのラベルを発生する確率は代表的には異なる値
を有する。代替高速突合せの場合は、ラベルの各長さの
確率が単一の均一な値によって置換される。

最小の長さは原長さ分布の非０の確率を有する最小の長
さに等しくする事が好ましい。もし望まれるならば、他
の長さが選択出来る。最大の長さの選択は最小の長さの
選択よりも任意であるが、最小値より短かいそして最大
値よりも長い長さの確率が０にセットされる点で重要で
ある。長さの確率を最小の長さと最大の長さ間に存在す
るものだけに限定する事によって、均一な疑似分布を与
える事が出来る。一つの方法では、均一な確率は疑似分
布上の平均確率としてセット出来る。他の方法では、均
一な確率を長さ確率の最大のものとし、これをセットす
る。

すべてのラベル長の確率を等しいと特徴付ける効果は上
述の基本的突合せにおける終り時間分布のための式を参
照する事によって容易に明らかであろう。具体的には、
長さの確率が定数として因数分解して外に出す事が出来
る事である。

Ｌｍｉｎ’ｔｌ”ｏにセットし、すべての長さの確率を
単一の定数値で置換すると、終り時間分布は次の様に特
徴付けられる。

θ。＝Φｍ／ｌ＝ｑｍ＋θｍｍ−１ｐここでｌは単一の均一な置換値を示し、ｐｍに対する値
は時刻ｍにおいて所与の単音において発生される所与の
ラベルのための置換値に対応する事が好ましい。

上記のθ　のための式から一致値は次の様に定義される
。

−数値＝ｌｏｇ１（１（θ。＋θ１＋−−−＋θｍ）　
＋　Ｊｏｇｌｏ（Ｊ）基本的高速突合せと代替高速突合
せを比較すると、代替高速突合せ単音マシンを使用する
事忙よって、加算及び乗算の回数が太いに減少する事が
わかる。

Ｌｍｉｎ＝００場合の基本的高速突合せは長さの確率を
考慮しなければならない点で４０回の乗算及び２０回の
加算を必要とする事がわかった。代替高速突合せでは、
θ□が帰納的に決定され、各相継ぐθ。に対して１回の
乗算及び１回の加算で十分である。

さらにどの様にして高速突合せが計算を簡単にするかを
第１５図及び第１６図を参照して説明する。第１５図（
、）には最小の長さＬｍｉｎ＝０に対応する単音マシン
の実施例３１００を示す。最大の長さを無限大として、
長さの分布が一様であるものとする。第１５図（ｂ）に
は、単音マシン３１００から生じたトレリス図が示され
ている。ｑｎ以後の開始時間が開始時間の分布の外部に
あるものと仮定すると、ｍくｎである各相継ぐθ□のす
べての決定には１回の加算及び１回の乗算が必要である
。その後の終り時間の決定の場合には、唯一回の乗算が
必要とされ、加算は必要でない。第１６図は、Ｌｍｉｎ
”４の場合を示す。第１６図（、）はそのための単音マ
シン３２００の特定の実施例を示し、第１６図（ｂ）は
対応するトレリス図を示す。Ｌｍ、ｎ＝４であるため釦
、第１６図（ｂ）のトレリス図はｕ、ｖ、ｗ及び２と記
された経路に沿って０の確率を有する。θ４及びθ。間
に延びる終り時間の場合には、４回の乗算及び１回の加
算が必要な事が明らかである。ｎ＋４より大きい終り時
間の場合には一回の乗算が必要で、加算は必要でない。

この実施例はＦＰＳ　１９０Ｌ上のＡＰＡＬコードで実
施される。

付表２に高速（近似）突合せの主な計算上の核に対応す
るプログラム・リストが与えられている。

コードはＬｍ、ｎ＝４の場合に対応する。必要に応じて
第１５図もしくは第１６図の実施例には追加の状態を付
加出来る事に注意されたい。

Ｅｌ、６　最初の５個のラベルに基づ（突合せ基本的な
高速突合せ及び代替高速突合せをさらに改良するために
、単音マシンに導入したストリングの最初の５個のラベ
ルの突合せのみを考慮する。ラベルは音波チャネルの音
響プロセッサによって、センチ秒当り１ラベルの割合い
で発生すると仮定すると、Ｊにとっての理想的な値は１
００である。換言すると、音声の１秒程度に対応するラ
ベルが与えられ、単音と単音マシンに導入されるラベル
間の一致が決定される。検査されるラベルの数を制限し
て、２つの利点が得られる。第１に、解読の遅延が減少
し、第２に短い単語のスコアを長い単語°と比較する際
の問題が実質的に避けられる。Ｊの長さは勿論必要に応
じて変化出来る。

調べられるラベルの数を制限した効果は第１６図（ｂ）
のトレリス図を参照すると明らかである。

本発明の改良がない場合には、高速一致スコアは図の一
番下に沿う確率θ□の和である。即ちｔ＝ｔｏ（ＬｍＩ
ｎ＝００場合）もしくはｔ＝　ｔ４（Ｌｍｉｎ＝４の場
合）に始まる各時刻に状態ｓ４にある確率がθ□として
決定され、すべてのθ□が加算される。Ｌｍ、ｎ＝４の
場合には、ｔ４の前の任意の時刻に状態Ｓ４にある確率
は０である。改良方法の場合には、θ□の和は時刻Ｊに
終る。第１６図（ｂ）において、時刻Ｊは時刻ｔｎや２
に対応する。

５個の時間間隔にわたる５個のラベルの検査が終了する
と、一致スコアを決定するための次の２つの確率の和が
得られる。先ず上述の様にトレリス図の一番下の行に沿
う、時刻Ｊ−１迄の行計算が存在する。時刻Ｊ−１迄の
各時刻に状態ｓ４にある確率を合計して行スコアが形成
する。第２に、単音が時刻Ｊに各人々の状態Ｓ。乃至ｓ
４にある確率の和に対応する列スコアが存在する。即ち
列スコアは単音のための一致スコアは行スコアト列スコアを加えて
この和の対数を取る事によって得られる。

次の単音のための高速突合せを続けるために、一番下の
行に沿って、一番下の行に沿う値（好ましくは時刻Ｊを
含む）を使用し、次の単音の開始時刻分布を誘導する。

ｂ個の連続する単音のための一致スコアを決定した後の
すべての単音の総計は上述の如くすべての単音のための
一致スコアの和である。

上述の基本的な高速突合せ及び代替高速突合せにおいて
終り時間の確率が発生される方法を調べる際に、列スコ
アの決定値は高速突合せの計算値と容易に一致しない事
に注意されたい。調べるラベルの数を制限する改良方法
を高速突合せ及び代替突合せにより良（適合させるため
に、本発明の突合せ技術は列スコアを追加の行スコアに
よって置換する。即ち、追加の行スコアは時刻ＪとＪ十
にの間にある状態Ｓ４（第１６図（ｂ））にある単音に
ついて決定する。ここでＫは任意の単音マシン中の状態
の最大数である。

従って単音マシンに１０個の状態がある時は、本発明の
改良方法は確率を決定するトレリス図の各々の一番下の
行に沿う１０個の終り時間を追加する。一番下の行に沿
う時刻Ｊ＋に迄のすべての確率を加えて、所与の単音に
対する一致スコアを発生する。上述の降に、連続した単
音の一致スコアを加えてワード一致スコアにする。

この実施列はＦＰＳ１９０Ｌ上でＡＰＡＬコードを使用
して具体化されたが、他のハードウェア上の他のコード
でも具体化される。

Ｅ　１．７　　単音のツリー構造及び高速突合せ最大の
ラベル数に制限があるもしくはない基本的な高速突合せ
もしくは代替高速突合せを使用する事によって、単音一
致値を決定する際に必要な計算時間が著しく減少する。

さらに、詳細な突合せを高速突合せから誘導したワード
について遂行した時も計算の節約が出来る。

一度決定した単音一致値は第１７図に示したツリー構造
の枝に沿って比較され、どの単音の経路が最も確率が高
いかが決定される。第１７図において、ＤＨ及びＵＨｌ
（点４１０２から現われて枝４１０４に至る）の単音一
致値は合計した時話されたワード”ｔｈｅ″に対しては
単音ＭＸから分岐する単音の種々のシーケンスよりもは
るかに犬きな値にならなければならない。この点に関し
て、最初の単音ＭＸの単音一致値は一度だけ計算され、
これから延びる各基本形に対して使用される事に注意さ
れたい（枝４１０４及び４１０６を参照）。

さらに枝の最初のシーケンスに沿って計算した総スコア
が閾値よりもはるかに低いか、枝の他のシーケンスのた
めの総スコアよりもはるかに低い事がわかると最初のシ
ーケンスから延びるすべての基本形は候補単語としては
同時に除外される。例えば４１０８乃至４１１８に関連
する基本形はＭＸが確からしい経路でない事が決定され
た時に同時に棄却される。

高速突合せの実施例とツリー構造を使用する事によって
、候補ワードの順序リストがかなり計算を節約して発生
される。

記憶の条件に関連して、単音のツリー構造、単音の統計
量及び尾部確率を記憶する必要がある。

ツリー構造に関連して、２５０００のアーク及び各アー
クを特徴付ける４つのデータワードが存在する。第１の
データワードは後継アーク即ち単音へのインデックスを
表わす。第２のデータワードは枝に沿う後継単音の数を
示す。第３のデータワードはツリー中のどのノードにア
ークが存在するかを示す。第４のデータワードは現在の
単音を示す。従ってツリー構造には、２５０００Ｘ４の
記憶スペースを必要とする高速突合せでは、１ｏ。

個の弁別可能な単音及び２００個の弁別可能なフエネー
ムが存在する。フエネームが単音中の任意の開所で単一
の確率を有する場合には１００Ｘ２００の統計量のため
のメモリが必要である。最後に、尾部確率のための２０
０ｘ２００メモリ空間が必要である。高速突合せには１
００にの整数及び６０にの浮動小数点メモリで十分であ
る。

Ｅｌ、８　言語モデル上述の如く、３字組の様な構文のワードに関連する情報
を記憶する言語モデルが正確な単語の選択を増強するた
めに与えられる。言語モデルについての文献はすでに存
在する。

言語モデル１０１０は好ましくは一意的な文字を有する
事が好ましい。具体的には、改良３字組方法が使用され
る。この方法に従って、サンプル・テキストを調べて、
語彙中の単語の順序６組、順序対、単一単語の尤度を決
定する。最も尤度の高い単語の６組及び最も尤度の高い
単語対のリストが形成される。このとき、３組の尤度は
３組のリストには存在せず、対の尤度は対のリスト中に
は存在しない。

言語モデルに従い、問題の単理に２つの単語が続く時は
問題にしている単語と２つの先行単語が３組リスト上に
存在するかどうかの決定がなされる。もし存在するなら
ば、３組に割当てられて記憶されている確率が示される
。もし問題にしている単語と２つの先行単語が６組リス
トにない時は問題にしている単語と隣接先行単語が対リ
スト上にあるかどうかの決定がなされる。もし存在する
ならば、対の確率が６組リストに存在しない６組の確率
と乗算され、この積が問題の単語に割当てられる。もし
問題の単語及びその先行単語が３組リストにも、対リス
トにもない場合には、問題にしているワード単独の確率
に６組中に存在しない６組の尤度及び対リストに存在し
ない対の確率を乗算する。次にこの積を問題にして−・
る単語に割当てている。

第１８図を参照するに、音響突合せに使用する単音マシ
ンの訓練方法の流れ図５０００が示されている。段階５
００２では、代表的には５０００ワ一ド程度の単語の語
粟が定義される。次に段階５００２で各単語を単音マシ
ンのシーケンスによって表わす。単音マシンは例として
音標型（ｐｈｏＨｔｉｃ）の単音マシンとして説明する
がフエネーム型の単音のシーケンスでもよい。単語を音
標型の単音マシンのシーケンスとしてもしくはフエネー
ム型の単音マシンのシーケンスによって表わす方法を以
下に説明する。単語の単音マシンのシーケンスを単語の
基本形と呼ぶ事にする。

段階５００６において、単語の基本形を以下説明する様
にツリー構造に配列する。各単語の基本形の各単音マシ
ンの統計量はＦジエリネツクの論文［統計的方法による
連続音声認識Ｊ　（Ｆ、　Ｊｅｌｉｎｅｋ″Ｃｏｎｔｉ
ｎｕｏｕｓ　　５ｐｅｅｃｈ　　Ｒｅｃｏｇｎｉｔｉｏ
ｎｂｙ　　５ｔａｔｉｓｔｉｃａｌ　　Ｍｅｔｈｏｄｓ
”）中に説明されている良（知られた順方向−逆方向ア
ルゴリズムによって決定される。改良訓練手順（段階５
００８）はＥ　１．１２の項で説明する。

段階５００９で、精密突合せに使用する実際のパラメー
タ値もしくは統計量に代る値を決定する１、例えば、実
際のラベル確率に代る値が決定される。

段階５０１０で、決定した値を記憶した実際の確率に置
換え、各単語中の基本形中の単音が近似置換値を含む様
にする。基本的高速突合せに関連するすべての近似操作
は段階５０１０で行われる。

次に音声突合せが増強されるべきかどうかの決定がなさ
れる・（段階５０１１）。もし必要がなければ基本的近
似突合せのための決定値が使用するためにセットされ、
他の近似に関連する他の推定値はセットされない（段階
５０１２）。もし増強が必要ならば、段階５０１８に従
う。段階５０１８では均一なス）　ＩＪング長分布が決
定される。次にさらに増強が必要かどうかの決定がなさ
れる（段階５０２０）。もし必要がなければ、ラベル確
率出力値及びストリング長確率値を近似してセットし音
波突合せに使用する（段階５０１２）。さらに増強が望
まれる時は発生したストリングの最初の５個のラベルに
制限する（段階５．０２２）。

増強を要したかどうかにかかわらず、決定したパラメー
タ値が段階５０１２でセットされ、各単語の基本形をな
す単音マシンが所望の近似筐で一］１練され、高速近似
突合せを可能にする。

Ｅ　１．１０　　スタック解読装置第１図の音声認識装置に使用される好ましいスタック解
読装置は本出願人に係る特願昭６１−５２０４９号に説
明されている。好ましいスタック解読装置について次に
説明する。

第１９図には相継ぐラベル間隔、即ちラベル位置に複数
個の相継ぐラベルｙｙ　　・・・が示されている。

第２０図には成る発生される単語の複数の単語経路、即
ち経路Ａ、経路Ｂ及び経路Ｃが示されている。第１９図
の構文”ｔｏ　　ｂｅ　　ｏｒ　　ｎｏｔ　　ｔ。

ｂｅ＋＋では、経路Ａは項目”　ｔｏ　　ｂｅ　　ｏｒ
　”に、経路Ｂは’ｔｗｏｂ”に、経路Ｃは項目？１ｔ
００Ｉ＋に対応する。

単語のシーケンスを表わす単語経路Ｗの場合には最も尤
度の高い終り時間（ラベル・ストリング中では２つの単
語間の境界ラベルとして表わされる）は１９８０年９月
刊のＩＢＭテクニカル・ディスクロージャー・ブレティ
ン第２３巻第５号のり、Ｒポール、Ｆジエリネツク及び
Ｒ，Ｌマーサ共著の［高速音響突合せ計算Ｊ（”Ｆａｓ
ｔｅｒ　ＡｃｏｕｓｔｉｃＭａｔｃｈ　　Ｃｏｍｐｕｔ
ａｔｉｏｎ”ｂｙ　　Ｌ、Ｒ，ＢａｈｌｌＦ、　Ｊｅｌ
ｉｎｅｋ、　ａｎｄ　　Ｒ，Ｌ、Ｍｅｒｃｅｒ　　ｉｎ
　ｔｈｅＩＢＭ　　Ｔｅｃｈｎｉｃａｌ　　Ｄｉｓｃｌ
ｏｓｕｒｅＢｕｌｌｅｔｉｎ　　ｖｏｌｕｍｅ　　２５
、ｎｕｍｂｅｒ　　４、Ｓｅｐｔｅｍｂｅｒ　　１９８
０）と題する論文に説明されている、良（知られている
方法で見出すことが出来る。簡単に説明すると、この論
文は２つの類似の関連事項（、）単語（もしくはワー・
ド・シーケンス）によってどの程度のラベル・ストリン
グが考慮されるか（ｂ）どのラベル間隔にラベル中スト
リングの一部に対応する部分文章が終るかを見出す方法
を論じている。

任意のワード経路に対して、ラベル・ストリングの最終
のラベルから境界ラベル迄を含む各ラベルもしくはラベ
ル間隔に関連する尤度値が存在する。所与の単語経路に
対するすべての尤度値は組合された時、所与の単語経路
の「尤度ベクトル」を表わす。従って各単語経路には、
対応する尤度ベクトルが存在する。尤度値Ｌｔを第２０
図に示す。

単語経路Ｗ１、Ｗ２、・・・ＷＢの集りのラベル間隔ｔ
における尤度包路線Ａ、は数学的に次の様に定義される
。

Δ　＝　ｍａｘ　（Ｌ　（Ｗ’　）、ｏｓｓ、Ｌ、（Ｗ
’））即ち各ラベル間隔に対して、尤度包路線はワード
経路の集り中の任意の単語経路の最大の尤度値である。

尤度包路線１０４０を第２０図に示す。

単語経路は完全な文章に対応する限り完全であると考え
られる。完全な経路は文章の終りに来た時に話者が入力
する事、例えばボタンを押す事によって同定される事が
好ましい。導入した入力はラベル間隔と同期して文章の
終りを示す。完全な単語経路はこれに単語を付加して延
長出来ないものである。部分単語経路は不完全な文章に
対応し、延長する事が出来る。

部分経路は「生き」もしくは「死に」の２つに分類出来
る。単語経路は既に延長されているならば「死んで」い
てそうでない時は「生き」ている。

この分類によれば、すでに延長されていて１つもしくは
それ以上の延長単語経路をなす経路は後に延長が再考慮
されない。

各単語経路は又尤度包路線に関連して「良好」もしくは
「不良」として特徴付けられる。単語境界に対応するラ
ベルで、単語経路が最大尤度包路線のΔ内にある尤度値
を有する時は「良好」と呼ばれ、そうでない時は「不良
」と呼ばれる。Δは一定値であり、最大尤度包路線の各
位をこの値だけ減少させて、良好／不良の閾値レベルに
使用する事が好ましい。

各ラベルの間隔に対して、スタック要素が存在する。６
生きた単語経路にはその境界ラベル忙対応するラベル間
隔に対応してスタック要素が割当てられる。スタック要
素は０．１もしくはそれ以上の単語以上のワード経路項
目を有し、これ等の項目は尤度値の順にリストされてい
る。

第１図に示したスタック解読装置１００２によって遂行
される段階について説明される。

尤度包路線を形成して、どの単語経路が良好であるかを
決定する方法を第２１図の代表的な流れ図で示す。

第２１図の段階５０５ｏで先ず空経路を第１のスタック
に導入する。前に決定されている完全な経路があれば、
これを含むスタック要素が与えられる（段階５０５２）
。スタック（完全要素）中の各完全な経路はこれに関連
して尤度ベクトルを有する。境界ラベルで最大の尤度を
有する完全な経路の尤度ベクトルが最初に最大の尤度包
路線となる。もし完全な経路がスタック（完全）要素中
になければ最大の尤度包路線は各ラベル間隔で−（２）
に初期設定される。さらに完全な経路が特定出来ない時
も、最大の尤度包路線は−（資）に初期設定される。包
路線の初期設定を段階５０５４及び５０５６に示す。

最大の尤度包路線を初期設定した後に、これから予定の
量△を引いて減少した尤度の上にΔ良好領域を、減少し
た尤度の下にΔ不良領域を形成する。△の値が探索の幅
を制御する。Δが大きい程可能な延長について考慮しな
ければならない単語経路の数が多くなる。１０ｇ１０を
り、の決定に使用する時は、△に２．０の値を与えると
満足な結果が与えられる。Δの値は必ずしもそうである
必要はないが、ラベル間隔の長さに沿って一様である事
が好ましい。

もしワード経路が△良好領域中の境界ラベルに尤度を有
すると、その単語経路は良好とマークされ、そうでない
時は、単語経路は不良とマークされる。

第２１図に示した様に、尤度包路線を更新し、単語経路
に良好もしくは不良をマークするためのループは最大の
未マーク単語経路を発見する事から始まる（段階５０５
８）。最大の単語経路長に対応するスタック中に１個以
上の未マーク単語経路がある時には、境界ラベルで最大
の尤度を有する単語経路を選択する。もし単語経路を見
出すと、もしその境界ラベルの尤度が△良好領域内にあ
る時はその単語経路に良好とマークし、そうでない時は
不良とマークする（段階５０６０）。単語経路が不良と
マークされた時は、他の未マークの生き経路を見出して
、マークする（段階５０６２）。

もし単語経路が良好とマークされた場合には、尤度包路
線を更新して、良好とマークされた経路の尤度値を含ま
せる。即ち各ラベル間隔に対して、更新尤度値を（、）
尤度包路線中の現在の尤度値と（ｂ）良好とマークされ
た単語経路値に関連する尤度のうちの大きな方に決定す
る。この段階は段階５０６４及び５０６６に示されてい
る。包路線を更新した後、再び最長最良の未マーク生き
単語経路を見付ける（段階５０５８）。

次にこのループを未マークの単語経路がなくなる迄繰返
す。次に良好とマークされた最短の単語経路を選択する
。もし最短長を有する良好な経路が１つ以上ある時には
、その境界ラベルで最大の尤度を有するものを選択する
（段階５０７０）。

次に選択した最短の経路を延長する。即ち少なく共１つ
の尤度の高い後継ワードを上述の様に高速突合せ、言語
モデル、精密突合せ及び言語モデル手順によって決定す
る。各尤度の高い後継単語毎に、延長した単語経路を形
成する。換言すると延長単語経路は選択した最短単語経
路の終りに尤度の高い後継単語を付加する事によって形
成される。

選択した最短単語経路を延長単語経路にした後に、選択
単語経路を項目があったスタックから除去し、各延長し
た単語経路を適切なスタックに導入する。具体的には延
長した単語経路はその境界ラベルに対応するスタックの
項目となる（段階５０７２）。

段階５０７２に関する選択した経路の延長操作を第２２
図に示す。段階５０７０で経路を発見した後、次の手続
を行って、適当な突合せにより単語経路を延長する。

段階６０００で、経路を発見する。適切な音響突合せ（
もしくは成る他の技術）によって、ワード・スコアを誘
導し、各単語毎にセット中に記憶する。ここでセットは
語蕾でもよ（語貧から選択した相対的に尤度の高い単語
のリストでもよい。

セット中の各単語のワード・スコアは段階６００２で記
憶する。ワード・スコアは相対尤度を示し、スコアに従
ってリストされる。次に（上述の）言語モデルを段階６
００４で適用する。次にワード・スコア情報及び言語モ
デル情報をスタック解読装置に供給して、最良経路を形
成するワードを決定する。近似突合せ、精密突合せ及び
言語モデル疋よって決定した尤度の高い単語を第２１図
の段階５０７０で発見した経路の延長に使用する。第２
２図で決定した尤度の高い単語の各々を別個に発見した
単語経路に付加して、複数の単語経路を形成する。

再び第２１図を参照するに、延長経路を形成し、スタッ
クを再形成した後は、段階５０５２からの処理が繰返さ
れる。

従って各繰返しは最短の最良単語経路を選択してこれを
延長する事を含む。１回の繰返しで「不良」とマークさ
れた単語経路も後の繰返しで「良好」となる事がある。

従って良好もしくは不良として生きている単語の特徴付
けは各繰返毎に独立してなされる。実際に尤度包路線は
繰返し毎に大きくは変化しないので、単語経路が良好で
あるか不良であるかを決定する計算は効率的である。さ
らに、正規化は必要でない。

完全な文章を同定した時のために、段階５０７４を与え
る事が好ましい。即ち生きた未マークの単語経路がなく
なり、延長すべき良好な単語経路がなくなった時は、解
読が完了する。

文章の終りを同定出来ない連続した音声の場合には、経
路の延長は連続して進行するか、装置のユーザの予定の
単語数だけ進行する。

Ｅ　１．１１　　音標基本形の形成基本形を形成するのに使用出来るマルコフ・モデル単音
マシンの１つの型は音標に基づくものである。即ち各単
音マシンは国際音標字母（Ｉｎｔｅｒｎａｔｉｏｎａｌ
Ｐｈｏｎｅｔｉｃ　　Ａｌｐｈａｂｅｔ）に含まれてい
る様な所与の音標に対応している。

所与のワードは音標のシーケンスより成り、各音標には
夫々単音マシンが対応している。各単音マシンは多くの
状態及び状態間の多（の遷移を含む。遷移の一部はフエ
ネーム出力を発生する事が出来るが、成るもの（空遷移
と呼ばれる）は発生する事が出来ない。上述の様に各単
音マシンに関連する統計量は（、）所与の４移が発生す
る確率、（ｂ）所与の遷移で特定のフエネームが発生す
る尤度を含む。各非空遷移には各フエネームに関連する
成る確率がある事が好ましい。第１表に示したフエネー
ム・アルファベット中には２００のフエネームを含む事
が好ましい。音標基本形を形成するのに使用する単音マ
シンを第３図に示す。各ワードにはこの様な単音マシン
のシーケンスが与えられる。統計即ち確率量は既知の単
語を発声する訓練期間中に単音マシン中に導入される。

種々の音標単音マシン中における遷移確率及びフエネー
ム確率は既知の音標を少なく共１回発声する時に発生さ
れるフエネーム・ストリングに注目し、良く知られた順
方向−逆方向アルゴリズムを適用する事によって訓練中
に決定される。

単音ＤＨとして同定される１つの単音のための統計量の
サンプルを第２表に示す。近似的に第３図の単音マシン
の遷移ｔ１、ｔｒ２及びｔｒ８のラベル確率出力分布を
単一の分布で表わし、遷移ｔｒ３、ｔｒ４、ｔｒ５及び
ｔｒ９を単一の分布で表わし、遷移ｔｒ６、ｔｒ７、及
びｔｒｌＯを単一の分布で表わす。この事は第２表の欄
４．５．６に割当てたアーク（即ち遷移）によって示さ
れている。第２表は各遷移の確率及び単音ＤＨの夫々開
始、中央もしくは終りに発生されるラベル（即ちフエネ
ーム）の確率を示している。ＤＨ単音の場合、例えば状
態Ｓ１から状態Ｓ２への遷移確率は１３．０７２４５で
あり、状態Ｓ　から状態Ｓ４への遷移確率は０．９２７
５７である（最初の状態から起り得る遷移は２つしかな
いので、この和は１に等シい）。ラベル確率については
ＤＨ単音は単音の終り部分、即ち第２表の欄６でフエネ
ームＡＥ１６（第１表参照）を発生する確率が０．０９
１である。又第２表には各ノード（状態）に関連するカ
ウントが示されている。ノード・カウントは訓練中にこ
の単音が各ノード（状態）にある回数を示している。第
２表に示した様な統計値は各単音マシン毎に存在する。

音標単音マシンをワード基本形のシーケンスに配列する
事は代表的には音声学者によって行われ、通常自動的に
は行われない。

Ｅ　１．１２　　フエネーム基本形の形成第２３図はフ
エネーム単音の例を示す。フエネーム単音は２つの状態
及び３つの遷移を有する。

空遷移は破線で示され、ラベルを発生しない状態１から
状態２への経路をなしている。状態１における自己ルー
プはここで任意の数のラベルが発生される事を示してい
る。状態１と状態２間の非空遷移はラベルを発生する事
が出来る。各遷移及び遷移時の各ラベルに関連する確率
は音標型の基本形に関連して前に説明したのと同様に、
ｄｌｌｌｌ開期間中定される。

フエネーム・ワード基本形はフエネーム単音の連結によ
って構成される。その方法は本出願人に係る特願昭６１
〜１６９９３号に説明されている。

フエネーム・ワード基本形は対応するワードを多数回発
生して発生する事が好ましい。その方法は本出願人に係
る特願昭６１−３２０５２号に開示されている。簡単に
説明すると、多数の発話から基本形を成長する方法は次
の段階を含む。

（ａｌ　　ワード・セグメントの多重発話を夫々のフェ
ネームのストリングに変換する。

（ｂ）フエネーム型マルコフーモデル単音マシンの組を
決める。

（ｃ）多くのフエネーム・ストリングを形成するための
最良の単一の単音マシンＰ１を決定する。

（ｄｌ　　多くのフエネーム・ストリングを発生するた
めの形ＰＩＰ２もしくはＰ２Ｐ１をなす２つの最良単音
基本形を決定する。

ｆｅ）　　各フエ坏−ム・ストリングに対して２つの最
良単音基本形を配列する。

ｉｆ）　　各フエネーム・ストリングを左部分と右部分
に分割する。

左の部分は２つの単音基本形の第１の単音マシンに対応
し、右の部分は２つの単音基本形の第２の単音マシンに
対応する。

（ｇ）　　各左部分を左部分ス）　ＩＪングとし、各右
部分を右部分ストリングとして同定する。

ｆｈ）　　多重発話に対応するフエネーム・ストリング
の組と同様に左部分ストリングの組を処理する。

ただしその単一の単音基本形が最良の２つの単音基本形
よりも部分ストリングを発生する確率が高い時は部分ス
トリングがさらに分割されない様にする段階を設ける。

（１）多重発話に対応するフェネーム・ストリングの組
と同様に右部分ストリングの組を処理する。

ただしその単一の単音基本形が最良の２つの単音基本形
よりも部分ストリングを発生する確率が高い時に部分ス
１１ングがさらに分割されない様にする段階を設ける。

ｆｊｌ　　分割されていない単一の単音を対応するフェ
ネーム部分ストリングの順番に対応した順序に連結する
。

モデル要素の数は代表的な場合、ワードの発話によって
得られるフエネームの数に略等しい。次に基本形モデル
を訓練する（即ち統計値を充当する）。それには既知の
言葉を音波プロセッサに向けて発声する。音波プロセッ
サはこれに応答してラベルのス）　ＩＪングを発生する
。既知の発話及び発生したラベルに基づいて、上述の順
方向−逆方向アルゴリズムによってワード参モデルの統
計量を誘導する。

第２４図には、フエネーム単音に対応する格子が示され
ている。この格子は音標型精密突合せに関連する第１１
図に示した格子よりも簡単である。

上述の様に、第２４図の格子によって一時に１時間間隔
を処理するフエネーム精密突合せ処理方法を付表１に示
す。

Ｅｌ、１ろ　ワード・モデルの訓練ワード・モデルの訓練は正しい単語の確率を他の単語に
関連する確率に関して高める様に各ワード・モデルの統
計量を決定する。その戦略は発話語の正しい正本のラベ
ル出力の確率と他の（正本でない）確率間の差を最大に
する事であり、他の方法の様に所与の正本に対するラベ
ルの確率を最大にする事ではない。

この方法は、通信されたワード入力に応答して出力アル
ファベットより選択した出力から語粟の単語を解読する
。そのために語彙中の単語を少な（とも１つの確率有限
状態モデルの基本形で表わす。各確率モデルは遷移確率
の項目及び出力確率の項目を有する。少なくとも成る確
率項目の各々に対する値を記憶する装置を使用して、確
率項目の値を決定するため、既知の単語入力の通信に応
答して発生する出力の該既知の単語のための基本形によ
って発生される尤度が、少な（とも１つの他の単語のた
めの基本形によって発生される出力の尤度に関して高く
なる様に、記憶した値の少なくとも一部をバイアスする
段階を含む。

各ワード（即ち独立ワード（Ｉｅｘｅｍｅ）と呼ばれる
単語の弁別性のある発音）は順番に１つもしくはそれ以
上の確率有限状態マシンによって表わされる事が好まし
い。各マシンは単音の集合中の単音に対応する。各単音
は音標の要素、ラベル（もしくはフエネーム）もしくは
音声の成る予定の特徴と関連し、これ等の要素毎にマル
コフ・モデルが特定される。

訓練台本は代表的な場合、一連の既知のワードより編集
される。

この方法によって、確率項目に関連する確率値は次の様
に評価される。

各確率項目に対して、設定された推定値θ′が存在する
。推定値θ′と訓練中に発生したラベルが与えもれると
、単一カウントと呼ばれる値が決定される。単一カウン
トは一般に訓練データに基づいて発生する事象の（予測
）回数に関連する。単一カウントの１つの特定の定義は
（ａ）成るラベルのストリングｙ　（ｂ）設定された推
定値θ′及び（Ｃ）特定の時刻ｔが与えられた時の特定
の遷移τ１及び状態Ｓ、の確率として定義されるもので
ある。

上述の単一カウントは一般に知られている順方向−逆方
向アルゴリズムもしくはバウムーベルヒ（Ｂａｕｍ−Ｗ
ｅｌｃｈ）アルゴリズムを適用して決定される。

上述の定義に従い、単一カウントは次式によって表わす
事が出来る。

Ｐｒ（ＳＪ、ｒ、ＩＹ、θ、ｔ）各時刻を毎に特定のＳ・、τ１、Ｙ、θ′に対する単一
カウントを加算して、対応する遷移確率項目のための４
移累積カウントを決定する事が出来る。４移累積カウン
トは確率の和であるから、その値は１を越える。各遷移
確率項目毎に、夫々の４移確率項目を記憶する事が好ま
しい。所与の遷移で得られる累積カウントを状態Ｓｊか
ら取られるすべての遷移に対する累積カウントの和で除
算する事によって、夫々の改称確率項目のための現在の
確率値が決定される。現在の確率値は記憶されて、夫々
、の遷移確率項目に関連付けられる事が好ましい。

ラベル出力確率項目についても、単一カウントが加算さ
れる。これ等の確率項目の各々に対して、加算ストリン
グ中の対応するラベルがラベル出力確率項目に対応する
ラベルであるすべてのラベル時間毎に、特定のＳｌ、τ
１、Ｙ、及びθ′に対する単一カウントについて加算が
なされる。この場合の和はラベル出力累積カウントであ
り、対応するラベル出力確率項目に関連して記憶する事
が好ましい。この累積カウントを特定のＳｌ、ｔ１τ１
Ｙ及びθ′に対するすべてのラベル時刻に対して加えた
単一カウントの和によって除算する事により、現在の確
率値を夫々のラベル出力確率項目について決定する。

この訓練方法に従って、発話される既知の単語の訓練用
台本（ｓｃｒｉｐｔ）、各確率項目のための初期確率値
及び訓練中に発音した各ワードのための候補単語のリス
トが記述される。

候補単語のリストは高速近似音響突合せの様な手順によ
って決定される。任意の発声された単語に対して、正し
い既知の単語と正しくない単語がある（正しくない単語
は既知の単語として誤って解読される、最大の尤度を有
する事が好ましい）。

確率項目の現在の確率値は先ず正しい単語基本形もしく
は正しくない単語基本形中の各確率項目に対してプラス
・カウント値及びマイナス・カウント値を計算する事に
よって決定される。プラス・カウント値は（各確率項目
に対する）対応する確率項目のための累積カウントに加
算され、マイナス・カウント値は累積カウントから減算
される。

プラス・カウント値は良（知られた順方向−逆方向アル
ゴリズムを適用し、好ましくはこれから生じた統計量を
スケール変換する事によって正しい（即ち既知の）ワー
ドの単語基本形中の各確率項目毎に計算される。プラス
・カウント値の加算はストリングＹに都合のよい様にカ
ウント値（及びこれから誘導される確率項目）をバイア
スし、Ｙを正しいワード・モデルの相対的により尤度の
高い出力にする。

所与の確率項目のためのマイナス・カウント値は順方向
−逆方向アルゴリズムを適用して、あたかも正しくない
単語が話されて、ラベルのストリングを発生した場合の
様にして計算される。既知のワードの１回の発生から誘
導されるマイナス・カウント値は（プラス・カウント値
を加算する前後の）対応する累積カウントの最新の値か
ら減算される。この減算は正しくない単語の基本形中の
確率項目を計算するのに使用される累積カウントをスト
リングＹかも離す様にバイアスする。

これ等の隣接する累積カウントに基づいて、確率項目の
ための確率値を再計算して記憶する。

上述の語彙中の各単語のための上述の段階に従って、カ
ウント及び確率値として記憶される値が調節され、解読
のための正確さが増強される。

上述の方法は他の技術によって決定されたカウント値を
改良して音声を解読して語雲中の認識済単語にする段階
を改良する。

Ｅ　１．１４　　高速突合せ方法のサンプルの流れ口笛
１７図に示したツリーが第２５図に再現されている。第
２５図にはツリー中の点を同定する数が与えられている
。ツリーを記憶する１つの良（知られた技術は従来、予
備配列（ｐｒｅｏｒｄｅｒｉｎｇ）と呼ばれている。予
備配列法に従えば、最左のノードば１と同定され、これ
に相継ぐノードを有する上方の枝が続く。この枝のノー
ドの番号は順に大きくなっている。ノードの番号の割当
ては上の枝に沿って、ノード１−２−３−４によって示
した様に進む。ノード４は特定の方法で発音されたワー
ドである独立ワード（ｌｅｘｅｍｅ）が終るノードであ
る。ノード４は「葉」として同定される。

葉に到達すると、ツリーは左方向に、まだ番号が付され
ていないノードを有する１つもしくはそれ以上の枝を有
するノードに到達する迄追跡される。

この時ツリーはノード６迄戻り、これから次の枝が続（
。複数の枝が共通のノードかも延出している時は、この
様な枝は最高の枝を最先にして相継いで追跡する事が好
ましい。ノード５はノード４の後の他の葉として同定さ
れる。再びノード３に戻り、他の葉ノード６にラベルを
付す。ノード３かものすべての枝を追跡して、ノードに
番号を付すと、ツリーはノード２に戻る様に追跡される
。

ノード２から予備配列手順によって、ノード７．８及び
９にラベルを付す。次にツリーをノード１迄追跡して、
ノード１からノード１０を同定し、その様にラベルを付
す。

予備配列に関連して、ツリーは次の表Ａに示した様に記
憶される。左欄中にノードは１乃至１゜としてす°スト
されている。次の欄中にはノードに対応する単音が記憶
される。第３の欄はツリーの主ノード、今の場合ノード
１を基準としてノードが存在するレベルを示す。例えば
ノード１はレベル１にあり、ノード２はレベル２にあり
、ノード７はレベル６にある。第４欄中のビットは当該
ノードが葉を表わすかどうかを示す。もし葉を表わす場
合には、最後の欄はその葉に対応するワード（ｌｅｘｅ
ｍｅ）を記憶する。この記憶情報は正確な枝及びこれに
沿う位置を同定する。この予備配列に従うと、単音のシ
ーケンス（ｌｅｘｅｍｅに対応する）が稠密に記憶され
、容易に同定可能になる。

表Ａツリー構造の重要性は第２６図に示した流れ図を参照す
ると明らかであろう。第２６図は項Ｆ：１゜７で説明し
たツリー構造を利用する高速突合せ方法の１つの実施例
７２００を示す。

流れ図で先ず初期設定ルーチン７２ｏ２を呼起す。初期
設定ルーチンについては第２７図に関連して詳細に説明
する。基本的には、初期設定段階７２０２は候補単語の
リストを空にし、処理をツリーのベースに戻す。

初期設定段階７２０２の後、段階７２０４でツソー中の
任意のその後のノードが調べられるかについて決定がな
される。もし存在しなければ、枝は追跡する必要がなく
、候補の独立ワードの夫々のスコアのリストが段階７２
０６で与えられる。

もし段階７２０４でさらにノードが残っている事がわか
ると、段階７２０８で次のノードの単音レベルが求めら
れる。予備配列に基づ（単音レベルは次の）−ドがツリ
ーのペースからどれ程距っているかを示す。次に段階７
２１０で、処理がバックアップ・モードもしくは延長モ
ードのいずれで行われるかの決定がなされる。ツリーに
沿う単音のスコアに基づいて、ツリーに沿う枝がふされ
しくすくすると、バックアップ・モードが呼出される。

この時は突合せ計算を遂行する事な（１時に１ノードだ
け逆方向に追跡する。バックアップはノードが除去され
ていないレベルに進む（もしあれば）。この事は段階７
２１２において反映され、そのレベルは休止レベルと比
較される。もしこのレベルが休止レベルに等しいか、こ
れより小さい時は、処理は段階７２０４に戻る。そうで
ない時には、処理は段階７２１４で延長モードに導入す
る。バックアップ・モードにな〜・時には、処理は延長
モードにあり、現在の枝は、段階７２１６で次の単音を
加える事によって延長される。

もし枝のスコアが成る閾値より小さいと、この枝は候補
として除去され（段階７２１８）、段階７２２０でモー
ドはバックアップにセットされ、休止レベルが現在のレ
ベルにセットされ、モードは再ヒバツクアップにセット
される（以下同様）。

この動作は段階７２１２で述べられた如きノード・レベ
ルに到達する迄行われる。単音及びレベルをセットし、
処理は段階７２０４に戻る。

段階７２１８で枝が候補の枝として残される事がわかっ
た時は、段階７２２４で最後の単音の出力が上述の様に
正規化され、分布が（上述の様に）予定の長さに切つめ
られる。次に段階７２２６で、単音がツリーの葉にあた
る（従って独立したワードを表わす）かどうかの決定が
なされる。もし葉でなければ、単音及びレベルがセット
され、処理は段階７２０４に戻る。もし葉であれば段階
７２２８で、その独立ワード及びスコアが独立ワード（
もしくはワード）候補リストに記憶され、単音及びレベ
ルを得た後に処理は段階７２０４に戻る。

第２７図を参照すると、初期設定ルーチン７２０２は段
階７３０２で開始し、枝スコア（０レベルの）が０にさ
れる。段階７５０４で、閾値がツリーを通る枝に対して
セットされる。即ち、単音のシーケンス（ツリーに沿う
枝に対応する）に沿うノードに対して閾値スコアがセッ
トされる。閾値スコアはレベルの関数でもよく、もしく
はすべでのレベルに適用される一定値でもよい。上述の
様に、ツリーの（独立ワードを表わす）枝に沿う単音毎
に開始時間及び終り時間分布が決定される。

段階７３０６において、前の精密突合せからの分布がロ
ードされ、段階７３０８で処理は延長モードにセットさ
れる。段階７ろ１０において、候補の独立ワード（もし
くはワード）のリストが空にされ、処理は段階７６１２
にツリーの根に戻り、処理を始める。

第２８図は第２６図の段階７２１６に示した現在の枝を
延長する段階の詳細を示す。具体的に説明すると、段階
７４０２において、上述の突合せ計算の出力和を０にセ
ットする。段階７４０４で、開始時間分布を（代表的に
は最新の終り時間分布から）得る。上述の様に、最大の
時間の限界は、調べるべきラベルの最大数を決定する事
によってセットされる（段階７４０６）。次に段階７４
０８で単音の突合せを遂行して、これからＩＮＣスコア
を誘導する。ＩＮＣスコアは枝を延長する事によって生
ずるインクレメンタル・スコアを表わす。突合せ中に得
た出力分布（上述の式ψ）を段階７４１０で保管し段階
７４１２中で枝スコアを更新する。更新によって枝スコ
アはＢ、＝ｌｔ−１）＋ＩＮＣになる。ここでｉはレベ
ルを示す。

第２９図は第２６図の段階７４０８の詳細を示す。段階
７５０２で、単音突合せを初期設定する。

その後、開始時間分布の計算が完了したかどうかの判定
がなされる（段階７５０４）。この決定は開始時間の分
布が０値に達したかどうかを示す。

もし完了していれば、段階７５０６において共通のルー
プを実行する。完了していなければ、ラベルのストリン
グ中の他のラベルを突合せ処理に含める。この段階７５
０８は１時間スライスの延長と呼ばれる。次に段階７５
１０でＴＩＭＥ（時間）をインクレメントしてＴ　ＩＭ
Ｅ＝Ｔ　ＩＭＥ＋１にし、段階７５０４に戻る。

第３０図を参照して、第２６図の段階７５０２の単音突
合せ初期設定段階を最初の２つの時間スライスについて
詳細に説明する。段階７６０２において、ラベル時間０
の出力分布（０ＵＴＤ　Ｉ　ＳＴ）を０にセットする。

段階７６０４において、最初のラベル時間の出力分布を
０にセットし、フエネーム確率（ＦＥＮＰＲＯＢ　）を
ラベルＦＥＮ（１）を発生した単音（ＰＨＯＮＥ）の確
率にセットし、値５ＴＡＴＥ（状態）１をラベル時間０
の開始時間分布にフエネーム確率（ＦＥＮＰＲＯＢ）を
乗算した値にセットし、ＯＵＴＳＵＭを０ＵＴＤ　Ｉ　
Ｓ　Ｔ　（２）に等しくセットする。

近似高速突合せでは、フエネーム確率は上述の項Ｅ　１
．５で説明した様に近似値である。要約すると、各単音
は複数の状態を有し、状態から状態へ延びる複数の遷移
（アーク）を有する。所与のラベルを発生する各４移に
おいて、各確率は訓練期間中に誘導されたデータに基づ
いて決定される。

成る遷移の各々にはアルファベット中の各ラベルの夫々
に対してラベル確率が存在する。１つの単音中にラベル
を発生出来る１０個の遷移があり、アルファベット中に
２００個のラベルが存在する時は、単音には２０００個
の実際のラベル確率が関連する。基本的な近似高速突合
せは単音中の任意の遷移における、問題にしているラベ
ルの最高の確率を決定して、問題にしているラベルに対
して決定された実際のラベル確率をこの最高の確率で置
換する事が好ましい。

実際のラベル確率値を近似値で置換するアルゴリズムは
第６１図に示されている。第３１図において、■は単音
のインデックス値、Ｊは遷移のインデックス値、Ｆはフ
エネーム（もしくはラベル）のインデックス値、Ａ（Ｉ
、Ｊ、Ｆ）は単音Ｉの遷移ＪにおけるフエネームＦの実
際の（精密突合せ）ラベル確率を表わす。Ｂ（Ｉ、Ｆ）
は単音工のためのフエネームのための近似（高速突合せ
）ラベル確率を表わす。第６１図の流れ図はすべての単
音が同数（Ｊ□Ｘ）の遷移を有するものと仮定している
。しかしながらＪｎｌａｘは単音毎に変化する事が望ま
しい。

第６０図の流れ図を出力分布式Φ。乃至Φ６と比較する
と、０ＵＴＤＩＳＴ（Ｔ）はΦ１に対応し、ＦＥＮＰＲ
ＯＢはｐ　もしくはｐ２の様な確率に対応し、Ｓ　Ｔ　
Ａ　ＲＴ　（Ｔ）は開始時間分布ｑＴに対応する事が明
らかである。ラベル長変数１．は特に第３０図には示さ
れていない事に注意されたい。

しかしながら最小ラベル長は（例として）２に選択され
、４　及びＩｌｌは０であり、従ってＯＵＴＤ　Ｉ　Ｓ
　Ｔ　（０）及び０ＵＴＤＩＳＴ（１）も０にセットさ
れる。段階７６０４は第１のラベル時間スライスで変数
をセットし、段階７６０６で第２のラベル時間スライス
に関連する変数をセットする。

従って、１時間スライス延長段階７’５０８（第２９図
）はラベル時間Ｔ＝３で開始しく段階７６０８）及び終
り時間値（ＥＮＤＴ　ＩＭＥ　）は開始分布の点＋２に
等しくセットされる（段階７６１０）。

第３２図に段階７５０８（第２９図）の詳細を示す。各
時刻Ｔ毎に、出力分布は第１時間に発生されるラベルの
確率、時刻（Ｔ−１）の出力分布及び状態１で発生され
るラベルの確率の関数として示されている。ＯＵＴＳＵ
Ｍ（出力和）は前のＯＵＴＳＵＭ値をＯＵ　Ｔ　Ｄ　ｒ
　Ｓ　Ｔ　（Ｔ）だけインクレメントしたものである。

第３０図及び第′５２図は相継ぐ０ＵＴＤＩＳＴ及びＯ
ＵＴＳＵＭ値を決定するのに遂行される計算の帰納的性
質を示して−・る。

第３３図は共通ループ段階７５０６（第２９図）を詳細
に示す。段階７８０２でＴの値をＥＮＤＴＩＭＥ（終り
時間）＋１に等しくセットする。段階７８０４は５ＴＡ
ＴＥ因子を含まない点を除き１時間スライス延長に対比
出来る。段階７８０４の後に、Ｔをインクレメントしく
段階７８０６）、段階７８０８でＴを限界値と比較する
（Ｔ≦ＴＩＭＥ−眼界値）。段階７８０４は決定段階７
８０８の結果として時間の限界に到達する迄繰返される
。

第３４図は段階７４１２（第２８図）の詳細な流れ図を
示す。段階７９０２で、ＰＨ０ＮＥＳＣＯＲＥ（単音ス
コア）はＯＵＴＳＵＭの対数に等しくセットされる。そ
の後段階７９０４でＢＲＡＮＣＨ８ＣＯＲＥ（枝スコア
）を前のレベルのＢＲＡＮＣＨ３ＣＯＲＥに段階７９０
２のＰ　ＨＯＮ−ＥＳＣＯＲＰを加えた値に等しくセッ
トする。

正規化段階７２２４（第２６図）の詳細を第３６図に示
す。段階７９５２乃至７９６２は出力分布の重要でない
部分を切捨てて、出力分布値を定数値、例えば１に正規
化する。具体的には、出力分布値Φｉはこれが段階７９
５２でセットした閾値の上もしくは下のいずれにあるか
に依存して残されるか廃棄される。代表的には出力分布
値の和によって表わされる正規化スケールが段階７９５
４中で決定される。閾値要件を満足する最初の（時間的
な）出力分布及び最後の出力分布は夫々段階７９５６及
び７９５８で左方境界及び右方境界として指定される。

左方境界（ＬＢ）と右方墳界（ＲＢ）間の出力分布値を
段階７９６０で正規化スケールによってスケール変換（
例えば割算）する。段階７９６２で、スケール変換した
出力分布を将来の使用にそなえて保管し、次のレベルを
開始する。

Ｅ　１．１５　　ポーリングによる語粟かもの尤度の高
い単語の選択第３６図は第３６．１図及び第３６．２図の結合方法を
示す。

この第３６図は流れ図８０００を示す。第３６゜１図に
示した様に最初単語の語粟を段階８００２で記述する。

語雲はユーザに依存するが、標準のオフィスの通信文用
語もしくは技術用語に関連するものである。語彙中には
５０００語もしくはそれ以上の程度の単語が存在するが
、単語の数は変化可能である。

各単語は項Ｅ　１．１０もしくはＥ　１．１１の項目で
説明したマルコフ・モデル単音マシンのシーケンスによ
って表わされる。即ち、各ワードは順次的音標型単音マ
シンで構成した基本形もしくは順次的フエネーム型単音
マシンで構成した基本形として表わされる。

次に段階８００６で各ワードの各ラベルのための「投票
」が決定される。投票決定段階８００６は第３７図、第
５８図、第３９図及び第４０図を参照して説明する。

第６７図は所与の単音マシンＰ、のための音声ラベルの
分布のグラフを示す。示されたカウントは訓練中に発生
した統計量から抽出したものである。訓練中、既知の単
音シーケンスに対応する既知の言葉が発声されて、これ
に応答してラベルのストリングが発生される。既知の単
音が発声される時に各ラベルが発生される回数が訓練中
に与えられる。各単音毎に、第３７図の分布が発生する
。

第３７図に示した訓練データから情報を抽出する外に、
所与の単音のためのラベルの予定数が訓練データから誘
導される。即ち所与の単音に対応する既知の言語が発声
され、所与の単音のラベルの数が記録される。この情報
から、所与の単音に対するラベルの最も尤度の高い即ち
予想数が決定される。第３８図は各単音に対する予想数
を示すグラフ表示図である。単音がフエネミツク単音に
対応する場合には単音のラベルの予想数は代表的な場合
、平均略１である。音標的単音の場合には、ラベルの数
は大きく変動する。

訓練データからのグラフの情報の抽出は「統計的方法に
よる連続的音声認識」と題する付表１１に詳細に説明し
た順方向−逆方向アルゴリズムから得た情報を使用して
達成される。簡単に説明すると、順方向−逆方向アルゴ
リズムは（、）マルコフ・モデルの初期状態から状態ｉ
迄を順方向に眺め・　て、順方向バス中で状態ｉに達す
る迄の統計量を求め、（ｂ）マルコフ・モデルの最後の
状態から状態（ｉ＋１）迄を逆方向に眺める事によって
、逆方向パス中の状態（ｉ＋１　）から最後の状態迄の
統計量を決定する事によって単音中の状態ｌと状態（ｉ
＋１）間の各単音の遷移の確率を決定する事を含む。状
態ｉが与えられたとして状態ｉかも状態（ｉ＋１　）迄
の遷移確率及びこの遷移時のうベル出力を他の統計量と
組合せる事によって、成るラベルのストリングで発生す
る問題の遷移の確率を決定する。上記の論文の付表…に
このアルゴリズムの数学理論及び応用について詳細に述
べられているので、これ以上の説明は行わない。各単語
は表Ｂの単語１及び単語２で示した様な単音の予定のシ
ーケンスである事がわかっている。

表　　Ｂ単語１ｆＰ　　Ｐ　　Ｐ　　Ｐ　　　Ｐ　　　−−−）
単語２（Ｐ　　Ｐ　　Ｐ　　Ｐ　　ｏ・佛）各単語のた
めの単音シーケンス並びに第３７図及び第３８図に関し
て論ぜられ情報が与えられると、特定の問題のワードＷ
について、所与のラベルが何回発生されるかについての
決定がなされる。

単語１の場合には、単音Ｐ１のラベル１、単音３のラベ
ル１、単音Ｐ６のラベル等々のカウント数の和としてラ
ベル１が予想される回数が計算される。同じ様に単語１
について、単音Ｐ１のラベル２、単音Ｐ３のラベル２等
々のカウント数の和としてラベル２が予想される回数が
計算される。単語１のための各ラベルの予想回数は２０
０個のラベルの各々について上述の段階を遂行する事に
よって評価される。

第６９図に、特定の単語（例えば単語１）の各ラベルの
ための予想カウントが示されている。

第６９図に示した所与の単語の予想ラベル・カウントか
ら、所与の単語の各ラベルの「得票」が評価される。所
与の単語Ｗ′のラベルＬ′の得票は単語Ｗ′がラベルＬ
′を発生する尤度を表す。得票は単語Ｗ′がＬ′を発生
する確率の対数に対応する事が好ましい。即ち得票は次
の式で表わされる事が好ましい。

得票＝ｌｏｇ１ｏ（Ｐｒ（Ｌ′ＩＷ′））得票は表Ｃに
示した表中に記憶される。ワード１乃至Ｗの各々に対し
て、各ラベルには２重添字を有するＶで表わした得票が
関連している。添字の最初の要素はラベルに対応し、第
２の要素は単語に対応している。従ってｖ１２は単語２
のラベル１の得票を示す。

表　　Ｃ再び第３６図を参照するに、ポーリング（投票）による
語粟から尤度の高い候補単語を選択する方法が未知の発
話人力に応答してラベルを発生する段階８００８を含む
ものとして示されている。この動作は音響プロセッサ１
００４（第１図）によって遂行される。

発生したラベルを第０表で検索して問題の単語を求める
。問題の単語のための各発生したラベルの得票を取出す
。次に得票を累積して問題の単語の総得票を求める。例
えばラベル１．６及び５が発生した場合には、得票Ｖ　
　、Ｖ　　及びｖ５１を評価して組合せる。得票が確率
の対数である時には、これ等を加算して単語１の総得票
を得る。

同じ手順を語柔中の各単語について行い、各単語のラベ
ル１．６及び５の総得票を求める。

本発明の１つの実施例に従い、各単語のための累積得票
が単語の゛ための尤度として使用される。

最高の累積得票を有するｎ個の単語（ｎは予定の整数で
ある）を候補単語として決定し、これを後に、上述の精
密突合せ及び言語モデルによって処理する。

他の実施例では、得票と同じ様に単語のペナルティを評
価する。即ち各単語に対しペナルティを決定して割当て
る（段階８０１２）。ペナルティは問題にしているラベ
ルが所与の単語によって発生されない尤度を示す。ペナ
ルティを決定する方法は種々存在する。フエネーム基本
形を表示する単語を決定する一つの方法は各フエ不−ム
性の単音が唯一つのラベルを発生すると仮定する方法で
ある。所与のラベル及び問題にしているフエネミツク単
音の場合に、所与のラベルのペナルティは問題にしてい
るフエネミツク単音によって任意の他のラベルが発生さ
れる確率の対数である。単音Ｐ２のためのラベル１のペ
ナルティは従って任意のラベル２乃至２００が１を発生
するラベルである確率の対数である。フエネミック単音
の場合には１つのラベルの出力を仮定しているが、この
事は正確ではないが、ペナルティを評価するのに十分で
ある事が立証されている。各単音のためのラベルのペナ
ルティを一度決定すると、既知の単音のシーケンスで構
成される単語のペナルティが容易に決定出来る。

各単語毎の各ラベルのペナルティを表りに示す。

各ペナルティばＰＥＮとこれに続（２つの添字によって
示されている。添字の最初の要素はラベルを示し、第２
の要素は単語を示している。

再び第３６図を参照するに、段階８００８で発生したラ
ベルを調べて、ラベル・アルファベット中のどのラベル
が発生されていないかを知る。発生していない各ラベル
のペナルティを各ワード毎に評価する。所与の単語の総
ペナルティを求めるために、所与の単語の発生していな
い各ラベルのペナルティを検索して、すべてのこの様な
ペナルティを累積する（段階８０１４）。もし各ペナル
ティが「空」確率の対数に対応する場合には、所与の単
語のペナルティをすべてのラベルについて加算する。上
述の手順を語粟の各単語について繰返して、各単語に、
発生したラベルのストリングに対して総得票及び総ペナ
ルティを得る。

各単語について総得票及び総ペナルティが誘導されると
、尤度スコアが２つの値を組合す事によって決定される
（段階８０１６）。もし望まれるならば総得票に重み付
けを行って総ペナルティよりも太き（する事、もしくは
その逆の重み付けを行う事が出来る。

さらに各ワードの尤度スコアは投票されるラペルの数の
長さに基づいてスケール変換する事が好ましい（段階８
０１８）。具体的には、ともに確率の対数の和として表
わされる総得票と総ペナルティを互に加算した後、最後
の和を、発生された得票及びペナルティを計算する際に
含まれた音声ラベルの数で除算する。この結果がスケー
ル変換した尤度スコアである。

本発明の他の態様は、ストリング中のどのラベルが投票
及びペナルティの計算で考慮されるかを決定する事に関
する。単語の終りを同定し、これに対応するラベルを知
った時は、知られた開始時間と知られた終り時間の間で
発生したすべてのラベルを考慮する事が好ましい。しか
しながら終り時間がわからない時は（段階８０２０　）
、本発明は次の方法を使用する。すなわち、基準終り時
間を決めて、相継ぐ時間間隔の基準終り時間の後に繰返
し尤度スコアを評価する（第３６．２図段階８０２２）
。例えばワードの発声の５００ｍ秒後に、各ワードの（
スケール変換した）尤度スコアを５０ｍ秒間隔で１００
０ｍ秒迄評価する。この例では各ワードは１０個のくス
ケール変換）尤度スコアを有する。

１０個の尤度スコアのうちどれを所与の単語に割当てる
べきかを選択するには慣用的な方法を採用する。具体的
には、所与の単語に対して得た一連の尤度スコアに対し
て、同じ時間間隔で得た他の単語の尤度スコアに関し最
大の尤度スコアを選択する（段階８０２４　）。次にこ
の最大の尤度スコアを各時間間隔のすべての尤度スコア
から減算する。ここで所与の時間間隔の最大の尤度スコ
アは０にセットされ、他のより尤度の低い単語は負の値
になる。所与の単語の最小の負の尤度スコアを単語のた
めの相対尤度スコアとしてこれて割当てる。

尤度スコアを各単語に割当てた時、最大の尤度スコアを
有するｎ個のワードがポーリングから生ずる候補単語と
して選択される（段階８０２６）。

本発明の一実施例では、ポーリングから生ずるｎ個の単
語が単語数削減リストとして与えられ、これ等のワード
が精密突合せ及び言語モデルに従つて処理される。この
実施例におけるポーリングによって得た削減リストが上
述の音声高速突合せに代り使用される。この点に関して
、音声高速突合せはツリー状の格子構造を与え、この格
子構造中に単語の基本形が順次単音として導入される。

この時同じ最初の単音を有する単語がツリー構造に沿う
共通の枝に添う。２０００語の語雲の場合、ポーリング
方法はツリー状の格子構造を含む高速音声突合せよりも
２乃至３倍速い事がわかっている。

しかしながら、音波高速突合せ及びポーリングを結合し
て使用する事も出来る。即ち訓練したマルコフ・モデル
及び発生したラベルのストリングより、近似高速突合せ
が段階８０２８でポーリングと並列に行われる。１つの
リストは音響突合せによって、１つのリストはポーリン
グによって与えられる。慣用的な方法では、１つのリス
トの項目を他のリストの引数に使用する。最良の候補単
語の数をさらに減少したい場合には、両方のリスト中に
現われるワードだけを次の処理に保留する。

段階８０３００２つの技術の相互作用は音声認識装置の
精度及び計算上の目的に依存する。さらに他の代替実施
例として、格子型の音響高速突合せが順次にポーリング
表に適用される。

ポーリングを遂行するための装置８１００を第４０図に
示す。装置８１０２は上述の如く訓練によって得られた
ワード・モデルを記憶している。

ワード・モデルの統計量から、得票発生装置８１０４が
各単語の各ラベルの得票を評価し、得票発生装置８１０
６中に得票を記憶する。

同じ様に、ペナルティ発生装置８１ｏ８が語彙中の各単
語の各ラベルのペナルティを評価し、この値をペナルテ
ィ表記憶装置８１１ｏに導入する。

単語尤度スコア評価装置８１１２は未知の音声入力に応
答して音響プロセッサ８１１４によって発生されたラベ
ルを受取る。単語選択装置８１１６によって選択された
所与の単語に対して、単語尤度スコア評価装置８１１２
は選択した単語の各発生したラベルの得票を、発生しな
かった各ラベルのペナルティと互に組合せる。尤度スコ
ア評価装置８１１２は上述の様に尤度スコアをスケール
変換する装置を含む。尤度スコア評価装置は又必ずしも
必要でないが、基準時間に続く相継ぐ時間間隔でスコア
を繰返して評価する装置を含んでいる。

尤度スコア評価装置８１１２はワード−スコアをワード
・リスト装置８１２０に与える。ワード・リスト装置は
割当てられた尤度スコアに従って単語を並べる。

ポーリングから誘導したワード・リストを近似音波突合
せによって誘導したリストと組合せる実施例の場合には
、リスト比較装置８１２２が与えられる。リスト比較装
置は入力として（い（つかの実施例で上述した様に）ワ
ード・リスト装置からポーリング・リストを、音響高速
突合せからはリストを受取る。

記憶及び計算に必要な手段を減少するために、いくつか
の特徴が与えられる。先ず、得票及びペナルティは０及
び２５５間の整数として形式化される。第２に実際のペ
ナルティをＰＥＮ＝ａ（得票）＋ｂとして対応する得票
から計算した近似ペナルティで置換える。ここで、ａ、
ｂは定数であり、最小２乗回帰法によって決定される。

第６に、ラベルは各クラスが少な（とも一つのラベルを
含む様な音声のクラスに分類される。ラベルのクラスへ
の割当ては音声クラスとワード間の相互情報量を最大に
する様に階層的にラベルをクラスタ化する様に決定出来
る。

さらに本発明に従い、沈黙の期間は（良（知られた方法
）で検出され、無視される事に注意されたい。

本発明はＩＢＭ　　ＭＶＳシステム上のＰＬ／Ｉで実施
されるが、他のシステム上の他のプログラム言語でも実
施出来る。

Ｅ２　複数の独立したワード・スコアからの各総ワード
・スコアの決定第４１図を参照するに、本発明の一般の実施例に従う情
報の流れ図９０００が示されている（本発明の特定の方
法に従う制御の流れ図は第４１図から容易に誘導出来る
。この点で、第４１図は単一のプロセッサ・システムも
しくは複数のワード・スコアを並列に発生する多重プロ
セッサ・システムに適用出来る事に注意されたい）。段
階９００２で、単語をワードの集合から選択する。単語
の集合は処理された時、どの単語が第１図の音響プロセ
ッサ１００４の様な音響プロセッサによって発生される
ラベルのストリングに最も良く一致するかを評価するた
めの単語を含んでいる。ワード・スコアは（文脈中の）
ワードの尤度もしくは（文脈から）独立したワード（ｌ
ｅｘｅｍｅ）の尤度を表わす様に決定される事に注意さ
れたい。独立したワードは複数の発音の仕方があるもの
として認められている単語の１つの発音に対応している
（例えば上述のＴＨＥ　１及びＴＨＥ２はワードＴ　Ｈ
Ｅ　”の２つの独立ワードである）。

選択した特定の単語に対して、発生されたラベルはＮ個
の独立したマルコフ・モデル・アルゴリズムの各々で適
用を受ける（段階９００６乃至９ｏｉｏ）。独立したマ
ルコフ・モデルは一般にマルコフ・モデルの異なる集合
の基本形に基づくアルゴリズムとしてもしくは異なるマ
ルコフ・モデル・データが夫々のワード・スコアを発生
するのに使用されるもの、或はその両方として特徴付け
られる。

従って、以下に説明する様に、アルゴリズムは異なるマ
ルコフ・モデルに基づく基本形に基づくか、１つのアル
ゴリズムがマルコフ・モデルカラ誘導されるポーリング
・データを使用し、他のアルゴリズムが音波突合せデー
タを使用するか、もしくはこれ等の組合せである時に独
立していると呼ばれる。

夫々の独立したマルコフ・モデルφアルゴリズムについ
て、夫々のワード・スコア（ＷＳｌ乃至ＷＳＮ）が発生
される。これ等の種々のワード・スコアが段階９０１２
で組合され、例えば加算されて選択した問題にしている
総ワード・スコアＴＳを形成する。もしく段階９０１４
で判断されてわかる様に）集合中の各単語の総スコアが
求められていない場合には、段階９０１６でワードの集
合から他のワードを選択してその総スコアを決定する。

各単語に化スコア（ＴＳ）が割当てられた後に、化スコ
アを言語モデルと関連してスタック解読装置（項Ｅ１．
９のスタック解読装置の説明を参照）で使用される。化
スコア（ＴＳ　）の使用は段階９０−１８に示されてい
る。具体的には高い化スコアを有し、言語モデルに基づ
き十分な尤度を有する単語が第２２図で説明した段階５
０７０及び５０７２に従って発見した選択経路を延長す
るのに使用される。

次に第４２図を参照するに、特定の実施例９１００のた
めの情報の流れが示されている。

マルコフ・モデルの第１の型（例えば単音マルコフ・モ
デル）の単語の基本形（Ｂ１）が先ず記憶される。基本
形Ｂ１を有する、問題にしている単語を段階９１０４で
選択する。

問題にしている単語から、発声入力に応答して発生され
たラベルのストリングを問題にしている単語の基本形Ｂ
１に適用する事によって高速一致ワード・スコア（ＷＳ
Ｆ）を発生する。高速一致スコアは単音マルコフ・モデ
ルから構成された基本形について遂行する事が好ましい
。即ち高速問題にしている一致ワード・スコアを決定す
るのに基本的な高速突合せもしくは（上述の）代替高速
突合せの１つを使用する。高速一致ワード・スコアは語
彙中の各単語毎に決定される（段階９１０８及び９１１
０）。

語彙中のすべての単語に高速一致ワード・スコア（ＷＳ
Ｆ）が割当てられると、単語はスコアの大きさに従って
順序リストにされる（段階９１１２）。順序リストの上
位のい（つかの単語を候補単語として特徴付け、語彙中
の他の単語は問題にしない。基本的な近似（即ち高速）
突合せもしくはその増強実施例として上述された様に段
階９１０２乃至９１１２の結果、さらに処理する必要が
ある単語の数は５０００語以上から２０乃至１００語に
減少する。

各語粟について、第２の型のマルコフ・モデルによって
決定される基本形Ｂ２も存在する。高速突合せに使用し
た第１の型のマルコフ・モデルが単音型のものである時
には第２の聾のマルコフ・モデルはフエ不−ム型である
事が好ましい。高速突合せの後に残った候補単語のため
の基本形を含む基本形の各々を最初に記憶する。

候補単語の１つを段階９１１６で選択して、段階９１Ｃ
ｊ２で発生したラベルを精密突合せ法に従って選択した
候補単語の基本形Ｂ２に適用する。

発生したラベルに基づき選択した候補単語に対して精密
一致スコア（ＷＳＤ）を発生する（段階９１１８）。所
与の候補単語のための高速一致スコアと所与の候補単語
のための精密一致スコアから、段階９１２０で化スコア
（ＴＳ）を形成する。（段階９１２２及び段階９１２４
の結果として）各候補単語について化スコアが決定され
ると、化スコアがスタック解読に使用される（段階９１
２６）。

第４３図を参照するに、１つのアルゴリズムはポーリン
グを含み、他のアルゴリズムは音響突合せを含んでいる
。この実施例９２００では、単語の集合は段階９２０２
で決定される。この単語の集合は語粱中の単語でもよ（
、高速突合せもしくは処理すべき単語の数を減少するた
めの成る他の技法を適用する事によって誘導した縮小し
た候補単語のリストでもよい。

数階９２０４で、単語を単語の集合から選択し、段階９
２０６のマルコフ・モデル基本形に基づいてポーリング
・アルゴリズムからワード・スコアを発生する。項Ｅ　
１．１４で上述したポーリング・アルゴリズムに従って
、各ラベルは語集中の各単語に対して夫々投票権を有し
、各ラベルは語彙中の各単語に対する夫々ペナルティ（
拒否権）を有する。即ち各投票は特定の単語で生ずる特
定のラベルの尤度を示す尺度である。一方各ペナルティ
はラベルが特定の単語で発生しない事を示す尤度の尺度
である。上述の様に所与の単語及びストリング中の所与
の発生ラベルに対して、所与の単語に対する、ストリン
グ中のラベルの得票を加算し、所与の単語に対する、ス
）　ＩＪング中のラベルのペナルティを加算する。段階
９２０８でペナルティの相と得票の和を組合して所与の
単語のポーリング・ワード・スコア（ｗｓｐ）を与える
。上述のポーリング・アルゴリズムは項Ｅ　１．１４で
提案した様に修正もしくは変更が出来る。さらに望まれ
るならば、ポーリング・アルゴリズムにはペナルティを
使用しないで投票だけを含ませる事が出来る。

段階９２１０及び９２１２に関連して、すべてのワード
にポーリング・ワード・スコア（ｗｓｐ）が割当てられ
ると段階９２２０で単語が再び選択される。発生したラ
ベル及び選択した単語を表わすマルコフ・モデル（段階
９２２２）に基づいて、音響一致ワード・スコア（ＷＳ
Ｍ）が発生される（段階９２２４）。音響一致スコアは
精密一致スコアでも高速一致スコアでもよく、基本形は
音標マルコフ・モデルもしくはフエネミツク・マルコフ
・モデルでもよい。さらに段階９２０６及び９２２２の
マルコフ・モデルは本発明の原理に従い同じ型もしくは
異なる型のものでよい。段階９２２６及び９２２８に関
連して、単語の集合中の各単語にＷＳＭスコアが割当て
られる。

集合の各単語がポーリング・スコア（ｗｓｐ）及び音響
一致スコア（ＷＳＭ）を持つと、単語が段階９２ろ０で
選択され、段階９２３２で総スコア（ＴＳ）が評価され
る。各単語の総スコアはポーリング・スコアと音響一致
スコアの和であるが、各スコアは適当と見做される方法
で重み付けられる。段階９２３２の総スコアはＴＳ＝ａ
　　ＷＳＰ＋ｂ＊ＷＳＭとして同定される。ここでＷＳ
Ｐは問題にしている単語のポーリング・スコアヲＷＳＭ
は該ワードの音響一致スコアを表わしている。

ａ及びｂは夫々２つのスコアの重み付は係数を表わして
いる。段階９２３４及び９２３６に関連して、単語の集
合中の各単語に総スコアが割当てられる。スタック解読
過程（段階９２３８）は高い総スコアを有する単語を使
用する。

本発明のさらに他の特定の実施例９３００を情報の流れ
図として第４４図に示す。段階９３０２において、問題
にしている単語が選択される。段階９６０４で、問題に
している単語に対して、フエネミソク基本形に基づく精
密突合せが遂行されスコア（ＷＳｌ）が発生される。発
生されるスコアは発声入力に応答して段階９３０６で発
生されるラベルのストリングに基づいている。段階９３
０８において、第２の精密突合せが遂行されスコア（ｗ
ｓ２）が発生される。段階９３０８で発生したスコアは
段階９３０６で発生したラベルのストリングに基づいて
いる。段階９３１０で、問題にしている単語に対して総
スコアが決定される。

段階９３１２及び９６１４に関連して、単語の集合中の
各単語は問題にしている単語として処理され、各単語が
対応する総スコアを持つ様になる。

次に総スコアをスコア解読（段階９３１６）に使用され
る。

第４５図を参照して、第４２図の方法に対応する構造９
４００を説明する。スタック解読装置９４０２は高速突
合せ過程９４０４及び精密突合せ過程９４０６を呼出し
、単語の集合例えば単語の語粟もしくはこれから選択し
た単語のリスト中の単語に対して夫々高速一致スコア及
び精密一致スコアを発生する。問題にしているワードの
高速一致スコア（ＷＳ’Ｆ）及び精密一致スコア（ＷＳ
Ｄ）が総スコア過程段階９４０８によって組合される（
ＴＳ二ＣＷＳＦ十ｄＷＳＤ）。

第４６図を参照して、第４３図の方法を具体化した構造
９５００を説明する。具体的には、スタック解読装置９
５０２が選択した単語経路に沿う次の単語を選択し、該
次の単語の終り時間分布を知る。次にこの終り時間を後
続の次の単語のための開始時間分布として使用する。終
り時間分布は高速突合せアルゴリズム・プロセッサ９５
０４及びポーリング・アルゴリズム−プロセッサ９５０
６に送られる。ラベル発生装置９５０８からのラベルに
基づいて、高速一致スコアとポーリング・スコアが夫々
のプロセッサ９５０４によって決定される。より尤度の
高い単語の夫々のスコア（候補ワード発生装置９５１０
によって決定される）が夫々記憶装置９５１２及び９５
１４中に記憶される。次に総スコア・プロセッサ９５１
６が記憶したスコアを組合して、総スコアをスタック解
読装置９５０２に与え、次のワード選択処理を行う。

Ｆ１発明の効果以上のように、本発明の方法によれば、比較的短い計算
時間で音声単語を正確に認識する事が可能になる。

−へ（イ）寸の唖へのへ・１Ｌｆｌい＝ ↑　ま寸　　ｄ骨　　’（＋へ似　　トｌへ沫　　トＩへ壇　　１へ七
ロ　− ｕＬｌ’ｃＪ　　ＬＪＩｕＷ　　１．ＪＷＬＪ　　ＬＪ
−ｉ−Ｉ　　Ｗｌ−１１−Ｉ　　Ｔ−’ＪＪＪ　　Ｊ、
Ｊ、Ｊ　　、Ｊ−−Ｊ−、Ｊ　　Ｊ−一　〇＋　　　　
　　　　　　　　　　　　　　　　　　　＋　　　　＋
　６ムー〇−〇ｑ、＋。

罪←− 付　　表　　　２ＦＩＬＥ　ＦＭＫＥＲＮ　ＡＰＡＬ　Ａ２＊サブルーチ
ンＡＰＦＭこのプログラムはＦＰＳアレイ・プロセッサで音波高速
突合せを行う。このプログラムは長ざの分布の明示がな
くて走行する修正高速突合せである。

サブルーｆ７Ｅ　ＶＡ　Ｌ　Ｐ　Ｐこのルーチンは現在の格子ノードについて実際の高速突
合せ計算を遂行する。主プログラムはこのルーチンだけ
を呼出して有効なノードだけを評価し、葉に対応する空
ノードは評価しない。

初期設定・・・現在の格子ノード番号が与えられたとし
て、対応するクリンク番号を検索し、開始時間分布の長
さ、境界スタック中の開始時間分布へのポインタ及びフ
エネームの流れへのオフセットの様な突合せパラメータ
を設定する。

最初の０の個数＝４：開始時間分布に４個の０を充填。５ＤＬＥＮを４だけイ
ンクレメントして開始時間分布が終った後のループ動作
を簡単にする。

出力分布（時間−１）、出力和を初期設定し、乗算器を
クリアして最初の時間スライスのフエネーム確率を０に
セットする。

出力分布（０）＝０．０；出力和　　　　＝０．０；フエネーム確率＝０．０；状態ｉ　　　　　＝ｏ、ｏ；状態２　　　　　＝０．０；状態３　　　　　＝０．Ｏ；状態４　　　　　＝０．０； −Ｎロ　　　　　　　　　　　　ω 最初のループ；最初の０の個数＝４現在の時間の出力分布値を計算し、出力和を更新し、次
の時間スライスのだめのフエネーム確率を計算する。

時刻＝１から開始時間長＋４迄を実行；出力分布（時間
）＝７エネーム確率×（出力分布（時刻−１）子状態１
）出力和＝出力利子出力分布（時刻）状態１＝状態２×フエネーム確率状態２＝状態６×フエネーム確率状態６＝状態４×フエネーム確率状態４＝Ｓｔアレイ（時刻）フエネーム確率＝ｆｄアレイ（局所バッファ（最初のフ
エネーム＋時刻））×尾部バッファ（最初のフエネーム
＋時刻）終り。

一第２のループ時間は現在開始時間＋最初の０の個数に等しく、開始時
間分布の計算が終シ、すべての内部状態はＯＫ等しい。

従ってこのコードの節はすべての初期０の場合に共通で
ある。

時間制限（開切時間長＋ｌｄ長−１）もしくは出力がル
ープの切断点以下に下る迄ループ動作を続ける。

時間＝開始長＋１＋初期０＋時間の限界か出力分布（時
間）≧ルーズの切断迄実行出力分布（時間）＝７エネーム確率＊比出力布（時間−
１）出力分布和＝出力利子出力分布（時間）７エネーム確率
＝ｆｄアレイ（局所バッファ（最初のフエネーム十時間
））×尾部バッファ（最初のフエネーム十時間）終シ

【図面の簡単な説明】

第１図は本発明を実施するンステムの環境の一般的プロ
ック図である。第２図は第１図のスタック解読装置を特
に詳細に示したブロック図である。第３図は精密突合せ単音マシンを示す図である。第４図は音響プロセッサ中の装置を示したブロック図で
ある。第５図は代表的な人間の耳及び音響モデルの対応
素子を示した断面図である。第６図は音響プロセッサの
一部を示したブロック図である。第７図は音の大きさ対
周波数のグラフ表示図である。第８図はノーンとホンの
関係を示すグラフ表示図である。第９図は第４図の音響
プロセッサに従って音波が特徴付けられる方法を示す流
れ図である。第１０図は第９図で閾値が更新される方法
を示した流れ図である。第１１図は精密突合せ手順のト
レリス図である。第１２図は突合せを遂行するのに使用
する単音マシンのブロック図である。第１３図は成る条
件が課された突合せ手順中に使用する時間の分布図であ
る。第１４図（、）、（ｂ）、（ｃ）、（ｄ）及び（ｅ
）は単音、ラベルのス）　ＩＪング並びに突合せ処理中
に決定される開始及び終シ時間の相互関係を示すグラフ
表示図である。第１５図（ａ）は最小長が０の特定の単
音マシンを示す図である。第１５図（ｂ）は第１５図（
、）に対応する時間図である。第１６図（ａ）は最小長
が４である単音マシンを示す図であシ、第１６図（ｂ）
はこれに対応する時間図である。第１７図は多くの単語
を同時に処理出来る単音のツリー構造の図である。第１
８図は音響突合せを遂行するための単音マシンの訓練段
階を示す流れ図である。第１９図はスタック解読段階を
示す図である。第２０図は夫々の単語経路及び尤度包絡
線のための尤度ベクトルを示すグラフ表示図である。第
２１図はスタック解読手順を表わす流れ図である。第２
２図は音響突合せから得た単語によって単語経路が延長
される方法を示した図である。第２３図はフエネミツク
単語マシンを示した図である。第２４図は複数の順次フ
エネミツク単音マシンのためのトレリス図である。第２
５図は予備配列に使用する単音ツリー構造の一部を示す
図である。第２６図乃至第３０図及び第６２図乃至第３
５図はどの様にして音響突合せが遂行されるかを示す流
れ図である。第６１図乃至第３５図は精密音声突合せに
使用する実際のラベル確率を近似高速音響突合せで置換
える段階を示す流れ図である。第３６図は第３６．１図
及び第３６．２図の結合方法を示す図であり、第３６．
１図及び第３６．２図は本発明のポーリング突合せ方法
を示す図である。第３７図はラベルのカウント分布を示
すグラフ表示図である。第３８図は訓練期間中に各単音
が発生する各ラベルの回数を示したグラフ表示図である
。第３９図は各ラベル毎のワードのカウントの予想数を
示したグラフ表示図である。第４０図はポーリングを遂
行する本発明の装置を示すブロック図である。第４１図
は複数の独立したワード・スコアから総ワード・スコア
を示す情報の流れ図である。第４２図、第４３図及び第
４４図は夫々複数の独立したワード・スコアから総ワー
ド・スコアを発生する特定の実施例を示すブロック図で
ある。第４５図は総ワード・スコアを精密一致ワード・
スコア及び高速一致ワード・スコアから誘導する１つの
構造実施例を示すブロック図である。第４６図は総ワー
ド・スコアを発生するための、高速一致ワード・スコア
発生装置及びポーリング・ワード・スコア発生装置を示
す構造ブロック図である。１０００・・・・音声認識装置、１００２・・・・スタ
ック解読装置、１００４・・・・音響プロセッサ、１０
０６・・・・高速突合せプロセッサ、１００８・・・・
精密突合せプロセッサ、１０１２・・・・ワークステー
ション、１０１０・・・・言語モデル。出願人　インターナ９タナノいビン木ス・マシーＺズ・
コーポレークヨン→Ｑ←ＣΔ酸モ撚　〉）Ｊ第９図特徴つ”ｔｌ第１１図檎叡突令也のトしリス図時ｆ罰単音マシン第１２図時内分坤日第１３図・　　　　　　　　　　耕ミ　法第１９図久々７・・′橢写Ｌδ１−丁Ｕ情才２２図第２８因フエ￥しツク単音マシシ第２４図フ１キミソク単音マシンｔｌ　　　　ｔ２　　　　ｔ３ ←”０オ　３６・１　口才　３７回ボーリ〉グ２３１う尊ｉ４第４０　圀ラベルの千ぞ麦よ

Claims

【特許請求の範囲】

（１）音声認識装置中で音声入力に対応する単語の尤度
を評価するため、（ａ）単語の語彙中の問題にしている単語に対して、音
響突合せ第１のアルゴリズムに基づいて問題にしてる単
語を表わす第１のワード・スコアを発生する段階、（ｂ）上記問題にしている単語に対して、上記第１のア
ルゴリズムとは異なる第２の独立したアルゴリズムに基
づいて第２のワード・スコアを発生する段階、（ｃ）少なく共上記第１のワード・スコア及び第２のワ
ード・スコアから問題にしている単語のための総ワード
・スコアを形成する段階を有する、音声入力に対応する単語の尤度評価方法。