JPS62194295A - ワード・マルコフ・モデル生成方法 - Google Patents

ワード・マルコフ・モデル生成方法

Info

Publication number
JPS62194295A
JPS62194295A JP61032052A JP3205286A JPS62194295A JP S62194295 A JPS62194295 A JP S62194295A JP 61032052 A JP61032052 A JP 61032052A JP 3205286 A JP3205286 A JP 3205286A JP S62194295 A JPS62194295 A JP S62194295A
Authority
JP
Japan
Prior art keywords
phoneme
word
probability
label
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61032052A
Other languages
English (en)
Other versions
JPH0372995B2 (ja
Inventor
ラリツト・ライ・バール
ピーター・ビンセント・デソーザ
ロバート・レロイ・マーサー
マイケル・アラン・ピチエニイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP61032052A priority Critical patent/JPS62194295A/ja
Publication of JPS62194295A publication Critical patent/JPS62194295A/ja
Publication of JPH0372995B2 publication Critical patent/JPH0372995B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。
A、産業上の利用分野 B、開示の概要 C2従来の技術 り6発明が解決しようとする問題点 E1問題点を解決するための手段 F、実施例 Fl、 音声認識システムの環境(第2図〜第4図) F 2.  聴覚モデルおよび音声語Rシステムの音響
プロセッサにおけるその実現(第8図〜第14図) F 3.  精密突合せ(第4図、第15図、第16図
) F 4.  音素木構造(第17図) F 5.  言語モデル(第2図) F 6.  概算による整形(第18図)F 7.  
音響突合せにより選択されたワードによるワード・パス
の延長(第5図〜第7図、第19図) F 8.  ワードの複数の発声から構築するマルコフ
・モデル(第1A図、第1B図、第1C図、第20図〜
第26図) G9発明の効果 A、産業上の利用分野 本発明は一般に音声認識の分野、詳細に説明すれば、音
声認識システムにおける基本形式の構築に係わる。
B、開示の概要 本発明は、ワードの発音で発声ごとの変動を考慮に入れ
たフエネメの基本形式を構築する問題に取組むものであ
る。詳細に述べれば、本発明は、(a)  ワードの複
数の発声をそれぞれのフエネメ・ストリングに変換し、 (b)  フエネメのマルコフ・モデル音素マシンのセ
ットを形成し、 (c)  複数のフエネメ・ストリングを生成するため
最良の1つの音素マシンP1を確定し、(d)  複数
のフエネメ・ストリングを生成するため形式P1P2ま
たはP 2 P 1の最良の2つの音素基本形式を確定
し、 (a)  各々のフエネメ・ストリングに対して最良の
2つの音素基本形式を整列させ、 (f)  各々のフエネメ・ストリングを左の部分と右
の部分に分割し、左の部分は2つの音素基本形式の第1
の音素マシンに対応させ、右の部分は2つの音素基本形
式の第2の音素マシンに対応させ、 (g’l  左の部分の各々を左サブストリング、右の
部分の各々を右サブストリングとして識別し、(h) 
 複数の発声に対応するフエネメ・ストリングのセット
と同じように左サブストリングのセットおよび右すプス
) IJングのセットを処理し、更に、その単一音素基
本形式が、最良の2音素基本形式が生成するよシも高い
確率でそのサブストリングを生成する場合には、そのサ
ブストリングのそれ以上分割を禁止するステップを含み
、 (i)  未分割の単一音素を、それらが対応するフエ
ネメ・サブストリングの順序に対応する順序に連結する ステップを含むワード・セグメントの語零でワードのフ
エネメ基本形式を構築する方法に係わる。
C1従来の技術 ある音声認識システムでは、音響プロセッサは音声を入
力として受取り、それにラベルのストリングを生成する
。これらのラベルは、音響プロセッサによりアルファベ
ット、すなわち入力された音声の成る特徴に基づいた独
特なラベルのセットから選択する。
一般に、音響プロセッサは、センチ秒間隔にわたって入
力された音声のパワー・スペクトルの特徴を検査し、(
フエネメと呼ばれる)ラベルを各間隔に割当てる。従っ
て、入力された音声に従つて、音響プロセッサは対応す
るフエネメのストリングを生成する。
音声を認識する統計的な方法では、限定されたセットの
モデルが決められる。各モデルは、マルコフ・モデル、
すなわち確率的に限定された状態の音!マシンであって
、フエネメを生成する。この手法は、  IElil:
E会報:パターン分析および計算機情報(PAMI)第
5巻第2号(i983年3月号)のエル・アール・バー
ル外の論文“連続音声を認識する最尤法″(L、R,B
ahl  et  al。
”A Maximum Likelihood  Ap
proachto  Continuous  5pe
ech Recognittou”。
IE EE  Transactiou  on  P
atternAnalys js  and Mach
 ine  Intel:1!tgence。
Vol、 PAMr−5,A2. March  19
83 )などに記載されている。
確率的な方法に従って、各音素マシンは、その特徴とし
て、 (a)複数の状態、 (b)状態間の遷移(各遷移はそれに関連した確率を有
する)、 (c)  少なくともいくつかの遷移の各々の、その特
定のフエネメを生成する確率を表わす複数の出力確率 を有する。音素77ンは、フエネメを生成しないナル遷
移を含むことがある。通常、非ナル遷移では、アルファ
ベットの各フエネメに割当てられた確率がある。
入力された音声がフエネメあストリングに変換された後
、音素マシンを検査し、その音素マシンの尤度を確定し
て該ストリング中にフエネメのサブストリングを生成す
ることができる。検査は音素ごとに実行し、サブストリ
ングを生成する各音素マシンのそれぞれの尤度を確定す
ることができる。同様に、音素のシーケンスの検査は、
そのシーケンスで音素の尤度を確定するように行い、該
生成されたストリングに7エネメを生成することもでき
る。
IBM社の研究により、種々の型の音素マシンが認めら
れている。1つの型は“音標型音素マシン″で、(発声
された場合に)フエネメ・ストリングのフエネメを生成
する所与の音標要素の尤度を反映する統計値を記憶する
。もう1つの型は°。
フエネメ型音素マシン″で、(発声された場合に)フエ
ネメ・ストリングのフエネメを生成する所与のフエネメ
要素の尤度を反映する統計値を記憶する。
フエネメの音素マシンは2つの状態S1およびS2を有
する。1つの非ナル遷移はSlからそれ自身に戻る。も
う1つの非ナル遷移およびナル遷移はSlと82の間で
行われる。
語粟中の各ワードは、“ワード基本形式”と呼ばれる所
定の音素シーケンス(すなわち音素マシン)で表現され
る。フエネメ基本形式は、所与のワードを表現するよう
に連結されているフエネメ音素シーケンスである。音標
の基本形式は、所与のワードを表現するように連結され
ている音標の音素シーケンスである。
入力された音声にワードが適合する尤度は、そのために
、ストリング中にフエネメを生成する基本形式の確率を
反映する。すなわち、フエネメ・ストリングを生成する
最高の確率を有する基本形式は、入力音声に最も密接に
適合するワードを表す。
基本形式が、それによって表現されるワードにいかに良
く対応するかは、確率的な方法により得られる精度に影
響する重要な要因である。
語粟中のワードごとに基本形式を決める1つの手法はシ
ングルトン・フエネメ基本形式の手法と呼ばれる。この
手法では、各ワードは1回だけ発声される。各々のフエ
ネメに関連して、そのワードの1つの発声で生成される
のは、そのフエネメを生成する最高の確率を有する音素
マシンである。
シングルトン・フエネメ基本形式の手法では、各音素マ
シンは1つのフエネメに関連する。従って、ストリング
中の生成されたフエネメごとに、1つの最も見込みのあ
る対応する音素マシンがある。ワードの発声に対応する
音素マシンのシーケンスはそのワードを表す。
D1発明が解決しようとする問題点 シングルトン・フエネメ基本形式の手法にはいくつかの
問題を伴う。特定のワードの発声はかなシ変動すること
がある。基本形式を構築する1つの発声が、そのワード
の別の時点での発音とかなシ異なる場合、音声認識の質
が低下することがある。
しかしながら、各ワードの複数の発声に基づいた基本形
式を構築するのは簡単なことではない。
ちなみに、複数の発声が接合する最大の確率を有する音
素シーケンスすなわち基本形式はB=P 1P2’・・
・Pm(PH(i=1.2、・・・・、m)は音素であ
る)は、 /7  Pr (B l−r 11fi2fj3°””
 i 1i )i = 1 である。ここでfil ・・・・f、1. は1番目の
発声のフエネメ・ストリングである。この式による計算
は既知のあらゆる方法によっても受入れがたい高い費用
がかかる。
本発明の目的は、ワード・セグメントの発音で、その1
つの発声と別の発声の間に起こりうる変化を考慮に入れ
ることにより、シングルトン・フエネメ基本形式の手法
を改良することである。ワード・セグメントは通常のワ
ードまたはその一部分を用いることができる。
更に本発明の目的は、反復するプロセスにより基本的な
基本形式を改良することである。
更に本発明の目的は、音標の音素または他の型の音素か
ら構築された基本形式も同様に使用できるようにするこ
とである。
E1問題点を解決するための手段 本発明により、各基本形式は、時間すなわち計算上のき
びしい要求なしに有効に基本形式を構築できる、いわゆ
る個別解決方式で、対応するワード・セグメントの複数
の発声に基づいて構築する。
詳細に述べれば、本発明の1つの実施例は下記ステップ
を含む。
(a)ワード・セグメントの複数の発声をそれぞれのフ
エネメ・ストリングに変換する。
(b)フエネメのマルコフ・モデル音素マシンのセット
を形成する。
(c)複数のフエネメ・ストリングを生成するため最良
の単一音素マシンP1を確定する。
(d)  複数のフエネメ・ストリングを生成するため
形式P1P2またはP2P1の最良の2音素基本形式を
確定する。
(a)  各々のフエネメ・ストリングに対して最iの
2音素基本形式を整列させる。
(f)  各々のフエネメ・ストリングを左の部分と右
の部分に分割し、左の部分は2音素基本形式の第1の音
素マシンに対応させ、右の部分は2音素基本形式の第2
の音素マシンに対応させる。
0)左の部分の各々を左サブストリング、右の部分の各
々を右サブストリングとして識別する。
(h)左サブストリングのセットを、複数の発声に対応
するフエネメ・ストリングのセットと同じように処理し
、更に、その単一音素基本形式が、最良の2音素基本形
式が生成するよりも高い確率でそのサブストリングを生
成する場合に1そのサブストリングのそれ以上の分割を
禁止する。
0)右サブストリングのセットを、複数の発声に対応す
るフエネメ・ストリングのセットと同じように処理し、
更に、その単一音素基本形式が、最良の2音素基本形式
が生成するようも高い確率でそのサブス) IJングを
生成する場合に、そのサブストリングのそれ以上の分割
を禁止する。
(j)  未分割の単一音素を、それらが対応するフエ
ネメ・サブストリングの順序に対応する順序に連結する
F、実施例 F 1.  音声認識システムの環境(第2図〜第4図
)第2図は本発明の環境を与える音声認識システム10
00の概要ブロック図を示す。このシステムは、スタッ
ク・デコーダ1002.およびそれに接続された音響プ
ロセッサ(AP)1004、高速概算音響突合せを実行
するアレイ・プロセッサ1006、精密な音響突合せを
実行するアレイ・プロセッサ1008.言語モデル10
10.ならびにワークステーション1012を含tr。
音響プロセッサ1004は、音声波形入力をラベル、す
なわち、その各々が対応する単音符号を大体識別するフ
エネメのストリングに変換するように設計されている。
一般に単音符号は、スペクトル・エネルギまたは他の特
徴に関するガウス分布もしくは他の分布を反映すること
ができるクラスタ化アルゴリズムにより定義される。本
システムでは、音響プロセッサ1004は、人間の聴覚
の独特なモデルに基づくもので、米国特許出願第06/
665401号(i984年10月26日出願)に記載
されている。
音響プロセッサ1004からのラベル、すなわちフエネ
メはスタック・デコーダ1002に送られる。第3図は
、スタック・デコーダ1002の論理装置を示す。すな
わち、スタック・デコーダ1002は探索装置1020
、およびそれに接続すしたワークステーション1012
、インタフェース1022.1024.1026ならび
に1028を含む。これらのインタフェースの各々は、
音響プロセッサ1004.アレイ・プロセッサ1006
.1008ならびに言語モデル1010にそれぞれ接続
される。第2図に示すシステムにおいて、音響プロセッ
サ1004からのフエネメは探索装置1020によりア
レイ・プロセッサ1006(高速突合せ)に送付される
。アレイ・プロセッサ1006は、ワードの語粟でワー
ドを検査し、所与の到来ラベルのストリングの候補ワー
ドの数を少なくするように設計されている。高速突合せ
は確率的に限定された状態マシン(本明細書ではマルコ
フ・モデル音素マシンともいう)で行う。
精密突合せは、これらのワードを、話されたワードとし
て適度の尤度を有する高速突合せ候補リストから、言語
モデル計算により検査することが望ましい。
代替的に、精密突合せを、語禽中の各ワードに用いるこ
とができる。この場合は、高速突合せは省略する。精密
突合せは、音素が音標型の場合の、第4図に示すような
マルコフ・モデル音素マシンにより実行する。
精密突合せの後、言語モデルを再び呼出し、ワードの尤
度を決定することが望ましい。
高速突合せ、言語モデル、精密突合せ、および言語モデ
ル手順は、本発明を利用することができる1つのシステ
ムとして認識しなければならない。
(音標、フエネメ、または他の音素の型の)精密突合せ
しか含まないシステムも同様に本発明を利用することが
できる。
スタック・デコーダ1002の目的は、ラベルy1y2
y3・・・・のストリングに最高の確率を与えるワード
・ストリングを決定することである。
これは数学的には次のように表現する。
Max (Pr (W l Y )       (i
)これは全ワード・ストリングWにわたってYを与える
Wの最大確率である。周知のように、 Pr(WIY)
は次のように書くことができる。
Pr (WIY)=Pr(w)Pr(WIY)/Pr(
Y)ただし、Pr(Y)はWに無関係である。
連続するワードW0の最も起こりうるパス(すなわち列
)を決定する1つの方法は、それぞれの可能なパスを調
べ、復号しようとするラベル・ストリングを生じるパス
の各々の確率を決定することである。そして、関連する
最高の確率を有するパスを選択する。5000ワードの
語粟の場合、この方法は、特にワードの列が長いとき、
扱いにくくなり、非実際的である。
最尤ワード列W中を発見する公知の他の2つの方法は、
ビテルビ(Viterbi)復号化およびスタック復号
化である。これらの手法の各々は、パターン解析および
マシン情報に関するI EEE会報、PAMI第5巻第
2号、1983年6月号記載のエル・アール・バール外
の論文、パ連続音声認識の最尤アプローチ’ (L  
RBahl  at al、”A Maximum L
ikelthood Approach  t。
Con日nuous  5peech  Recogn
ition、”I  EFJE  Transacti
ons   on  PatternAnalysis
  and  Machine  Intellige
nce。
Vol、PAMr−5、A2 、March  198
3)の第7項および第■項にそれぞれ記載されている。
この論文のスタック復号手法は単一のスタック復号化に
関連する。すなわち、長さの異なるパスは尤度により単
一スタックにリストされ、復号はこの単一のスタックに
基づいて行われる。単一スタック復号は、尤度がいくら
かパスの長さに左右され、従って一般に正規化が行われ
るという事実によるものである。しかしながら、正規化
は、もし正規化ファクタが正しく、推定されなければ、
不適切な探索により過度の探索および探索エラーを生じ
ることがある。
ビテルビ手法は、正規化は必要としないが、一般に小さ
なタスクの場合にしか実際的ではない。
大規模な語粟を使用すると、基本的に時間に同期するビ
テルビ・アルゴリズムは、非同期の音響突合せ成分とイ
ンタフェースしなければならないことがある。この場合
、インタフェースは適切ではないという結果になる。
エル・アール・バーン(L、R,Bahl )他の発明
による代替の新規装置および方法(後述)は、最も起こ
りうるワード列Woを、他の手法に比し低い計算要求と
高い精度で復号することができる方法に関係する。特に
、多重スタック復号および独特の決定方法により所与の
時刻にどのワード列を展開すべきかを決定することを特
徴とする手法が設けられている。この決定方法に従って
、相対的に長さの短かいパスは、その短かさの故に不利
にはならないが、その代り、その相対的な尤度により判
定される。第5図、第6図および第7図に示す新規の装
置および方法について下記に詳細に説明する。
スタック・デコーダ1002は、実際には、他の要素を
制御するように作用するが、実行する計算の量は多くは
ない。従って、スタック・デコーダ1002は、IBM
  VM/370t’:L/−fインク・システム(モ
デル155.VS2.+)’)−ス1.7)の制御の下
にランする4641プロセツサを含むことが望ましい。
相当な量の計算を実行するプレイ・プロセッサは、フロ
ーティング・ポイント・システム(FPS)社製の市販
の19OLにより実現されている。
F 2.  聴覚モデルおよび音声認識システムの音響
プロセッサにおけるその実現(第8図〜第14図) 第8図は、前述のような音響プロセッサ1100の特定
の実施例を示す。音響波入力(例えば、自然の音声)が
、所定の速度でサンプリングするA / D変換器11
02に入る。代表的なサンプリング速度は毎50マイク
ロ秒当り1サンプルである。ディジタル信号の端を整形
するために、時間窓発生器1104が設けられている。
時間窓発生器1104の出力は、時間窓ごとに周波数ス
ペクトル出力を与えるFFT (高速フーリエ変換)装
置1106に入る。
そして、FFT装置1106の出力は、ラベルLL  
・・・・L、を生成するように処理される。
特徴選択装置1108.クラスタ装置1110、原型装
置1112および記号化装置1114は共同してラベル
を生成する。ラベルを生成する際、原型は、選択された
特徴に基づき空間に点(またはベクトル)として形成さ
れる。音響入力は、選択された同じ特徴により、原型に
比較しうる対応する点(またはベクトル)を空間に供給
するように特徴づけられている。
詳細に言えば、原型を定義する際、クラスタ装置111
0により点のセットを集めてクラスタに群化する。クラ
スタを形成する方法は、音声に適用される(ガウス分布
のような)確率分布に基づいている。各クラスタの原型
は、(クラスタの中心軌跡または他の特徴に関連して)
原型装置1112により生成される。生成された原型お
よび音響入力(どちらも同じ特徴が選択されている)は
記号化装置1114に入る。記号化装置1114は比較
手順を実行し、その結果、特定の音響入力にラベルを割
当てる。
適切な特徴の選択は、音響(音声)波入力を表すラベル
を取出す際の重要な要素である。音響プロセッサは改良
された特徴選択装置1108に関係する。音響プロセッ
サに従って、独特の聴覚モデルが取出され使用される。
聴覚モデルを、第9図により説明する。
第9図は人間の内耳の部分を示す。詳細に述べれば、白
毛細胞1200と、液体を含有する溝1204に広がる
末端部1202が詳細に示されている。また、白毛細胞
1200から上流には、外来細胞1206と、溝120
4に広がる末端部1208が示されている。白毛細胞1
200と外来細胞1206には、脳に情報を伝達する神
経が結合している。電気化学的変化は、基底膜1210
の機械的運動により刺激される。
基底膜1210が音響波入力の周波数分析器として作用
し、基底膜1210に沿った部分がそれぞれの臨界周波
数バンドに応答することは従来から知られている。対応
する周波数バンドに応答する基底膜1210のそれぞれ
の部分は、音響波形入力を知覚する音量に影響を与える
。すなわち、トーンの音量は、類似のパワーの強度の2
つのトーンが同じ周波数バンドを占有する場合よりも、
2つのトーンが別個の臨界周波数バンドにある場合の方
が大きく知覚される。基底膜1210により規定された
220等級の臨界周波数バンドがあることが分っている
基底膜12100周波数レスポンスに合わせて、本発明
は良好な形式で、臨界周波数バンドの一部または全部に
入力された音響波形を定め、次いで、規定された臨界周
波数バンドごとに別個に信号成分を検査する。この機能
は、FF’T装置1106(第8図)からの信号を適切
に濾波し、検査された臨界周波数バンドごとに特徴選択
装置1108に別個の信号を供給することにより行われ
る。
別個の入力も、時間官発生器1104により(できれば
25.6417秒の)時間フレームにブロックされる。
それゆえ、特徴選択装置1108は22の信号を含むこ
とが望ましい。これらの信号の各々は、時間フレームご
とに所与の周波数バンドの音の強さを表す。
信号は、第10図の通常の臨界バンド・フィルタ130
0により濾波することが望ましい。次いで、信号は個別
に、音量の変化を周波数の関数として知覚する音量等化
変換器1302により処理する。ちなみに、1つの周波
数で所与のdBレベルの第1のトーンの知覚された音量
は、もう1つの周波数で同じdBレベルの第2のトーン
の音量と異なることがある。音量等化変換器1302は
、経験的なデータに基づき、それぞれの周波数バンドの
信号を変換して各々が同じ音量尺度で測定されるように
する。例えば、音量等化変換器1302は、1933年
のフレクチャおよびムンソン(Fletcher  a
nd Munson )の研究に多少変更を加えること
により、音響エネルギを同等の音量に写像することがで
きる。第11図は前記研究に変更を加えた結果を示す。
第11図により、40dBで1kHzのトーンシま60
dBで100Hzのトーンの音量レベルに対応すること
が分る。
音量等化変換器1302は、第11図に示す曲線に従っ
て音量を調整し、周波数と無関係に同等の音量を生じさ
せる。
周波数への依存性のほか、第11図で特定の周波数を調
べれば明らかなように、パワーの変化は音量の変化に対
応しない。すなわち、音の強度、すなわち振幅の変動は
、すべての点で、知覚された音量の同様の変化に反映右
れない。例えば、100Hzの周波数では、110dB
付近における1 0 dBの知覚された音量変化は、2
0dB付近における1 0 dBの知覚された音量変化
よシもずっと大きい。この差は、所定の方法で音量を圧
縮する音量圧縮装置1304により処理する。音量圧縮
装置1604は、ホン単位の音量振幅測定値をソーン単
位に置換えることにより、パワーPをその立方根P1/
3に圧縮することができる。
第12図は、経験的に決められた既知のホン対ソーンの
関係を示す。ンーン単位の使用により、本発明のモデル
は大きな音声信号振幅でもほぼ正確な状態を保持する。
1ソーンは、1kHzのトーンで40dBの音量と規定
されている。
第10図には、新規の時変レスポンス装置1306が示
されている。この装置は、各臨界周波数バンドに関連し
た音量等化および音量圧縮信号により動作する。詳細に
述べれば、検査された周波数バンドごとに、神経発火率
fが各時間フレームで決められる。発火率fは本発明の
音響プロセッサに従って次のように定義される。
f =(So+DL) n         (i)た
だし、nは神経伝達物質の量:Soは音響波形入力と無
関係に神経発火にかかわる自発的な発火定数;Lは音量
測定値;Dは変位定数である。
5o−n は音響波入力の有無に無関係に起きる自発的
な神経発火率に相当し、DLnは音響波入力による発火
率に相当する。
重要な点は、本発明では、nの値は次式により時間とと
もに変化するという特徴を有することである。
dn/dt=Ao−(So+Sh+DL)n    (
2)ただし、Aoは補充定数:Shは自発的な神経伝達
物質減衰定数である。式(2)に示す新しい関数は、神
経伝達物質が一定の割合Aoで生成されながら、(a)
  減衰(Sh−n)、(b)  自発的な発火(So
−n)、および(C)音響波入力による神経発火(DL
−n)により失われることを考慮している。これらのモ
デル化された現象は第9図に示された場所で起きるもの
と仮定する。
式(2)で明らかなように、神経伝達物質の欠食および
次発火車が少なくとも神経伝達物質の現量の自乗に比例
しておシ、本発明の音響プロセッサが非線形であるとい
う事実を示している。すなわち、状態(t+Δt)での
神経伝達物質の量は、状態(t + dn/d t・Δ
t)での神経伝達物質の量に等しい。よって、 n(t+Δt)=n(t)+(dn/dt)−△t  
(3)が成立する。
式(i)、(2)および(6)は、時変信号分析器の動
作を表す。時変信号分析器は、聴覚器官系が時間に適応
性を有し、聴神経の信号が音響波入力と非直線的に関連
させられるという事実を示している。ちなみに、本発明
の音響プロセッサは、神経系統の明白な時間的変化によ
りよく追随するように、音声認識システムで非線形信号
処理を実施する最初のモデルを提供するものである。
式(i)および(2)において未知の項数を少なくする
ため、本発明では、一定の音量りに適用される次式を用
いる。
So +Sh +DL = 1 /T        
(4)ただし、Tはオーディオ波入力が生成された後、
聴覚レスポンスがその最大値の37%に低下するまでの
時間の測定値である。Tは、音量の関数であり、本発明
の音響プロセッサにより、種々の音量レベルのレスポン
スの減衰を表示する既知のグラフから取出す。すなわち
、一定の音量のトーンが生成されると、最初、高いレベ
ルのレスポンスが生じ、その後、レスポンスは時定数T
により、安定した状態のレベルに向って減衰する。音響
波入力がない場合、T=Toである。これは50ミリ秒
程度である。音量がLmaXの場合、T=TmalXで
ある。これは30ミリ秒程度である。Ao=1に設定す
ることにより、1/(So+Sh)は、L=0の場合、
5センチ秒と決定される。LがLmaxでs Lmax
=20ンーンの場合、次式が成立つ。
So +Sb +D (20) = 1/30    
   (5)前記データおよび式により、Soおよびs
hは下記に示す式(6)および(7)により決まる。
5o=DL   /[R+(DL    T  R)−
1]max            max   0S
h ” 1 /’roso(7) ただし、 f安定状態は、d n /d tが00場合、所与の音
量での発火率を表わす。
Rは、音響プロセッサに残っている唯一の変数である。
それゆえ、このプロセッサの性能はRを変えるだけで変
更される。すなわち、Rは、性能を変更するのに調整す
ることができる1つのパラメータで、通常は、過渡状態
の効果に対し安定状態の効果を最小限にすることを意味
する。類似の音声入力の場合に出カバターンが一貫性に
欠けることは一般に、周波数レスポンスの相違、話者の
差異、背景雑音ならびに、(音声信号の安定状態部分に
は影響するが過渡部分には影響しない)歪みにより生ず
るから、安定状態の効果を最小限にすることが望ましい
。Rの値は、完全な音声認識システムのエラー率を最適
化するように設定することが望ましい。このようにして
見つかった最適値はR= 1.5である。その場合、S
oおよびshの値はそれぞれ0.0888および[1,
11111であシ、Dの値は0.00666が得られる
第13図は本発明による音響プロセッサの動作の流れ図
である。できれば、20k)I  でサンプリングされ
た、25.6ミIJ秒の時間フレーム中のディジタル化
音声は、ノ・ユング窓1520を通過し、その出力は1
0ミリ秒間隔で、DFT 1522において2重フーリ
エ変換されることが望ましい。変換出力はブロック16
24で濾波され、少なくても1つの周波数バンド(でき
ればすべての臨界周波数バンドか、または少なくとも2
0のバンド)の各々にパワー密度出力を供給する。次い
で、パワー密度はブロック1526で、記録された大き
さから音量レベルに変換される。この動作は、第11図
のグラフの変更により、または、後に第14図に概要を
示すプロセスにより取出された限界値に基づいて実行さ
れる。
第14図において、最初に濾波された周波数バンドmの
各々の感覚限界T および可聴限界Thがそれぞれ、1
20dBおよびOdBになるように設定される(ブロッ
ク1540 )。その後、音声カウンタ、合計フレーム
・レジスタおよびヒストグラム・レジスタをリセットす
る(ブロック1342)。
ヒストグラムの各々はビン(bin )を含み、ビンの
各々は、(所与の周波数バンドで)二クワ−または類似
の測定値がそれぞれのレンジ内にある間のサンプル数す
なわちカウントを表す。本発明では、ヒストグラムは、
(所与の周波数バンドごとに)音量が複数の音量レンジ
の各々の中にある期間のセンチ秒数を表すことが望まし
い。例えば、第3の周波数バンドでは、10dBと20
 dBのパワーの間が20センチ秒の場合がある。同様
に、第20の周波数バンドでは、50dBと60 dB
の間に、合計1000センチ秒のうちの150センチ秒
がある場合がある。合計サンプル数(すなわちセンチ秒
)およびビンに含まれたカウントから百分位数が取出さ
れる。
ブロック1644で、それぞれの周波数バンドのフィル
タ出力のフレームが検査され、ブロック1346で、適
切なヒストグラム(フィルタ当91つ)中のビンが増分
される。ブロック1348で、振幅が55dBを越える
ビンの合計数がフィルタ(すなわち周波数バンド)ごと
に集計され、音声の存在を示すフィルタ数を決定する。
ブロック1650で、音声の存在を示す最小限(例えば
20のうちの6)のフィルタがない場合、ブロック13
44で次のフレームを検査する。音声の存在を示す十分
なフィルタがある場合、ブロック1652で、音声カウ
ンタを増分する。音声カウンタは、ブロック1354で
音声が10秒間現われ、ブロック1356で新しいT、
およびThの値がフィルタごとに決定されるまで増分さ
れる。
所与のフィルタの新しいT、およびThの値は次のよう
に決定される。Tfの場合、1000ビンの最上位から
35番目のサンプルを保持するビンのdB値(すなわち
、音量の96.5番目の百分位数)はB工NHと定義さ
れ、T、はT、 =B INH+40dBに設定される
。Thの場合、最下位のビンから(0,01)(ビン総
数−音声カウント)番目の値を保持するビンのdB値が
B工NLと定義される。すなわち、B■NLは、ヒスト
グラム中の、音声として分類されたものを除いたサンプ
ル数の1チのビンである。ThはTh=B■NL  3
0dBと定義される。
第13図のブロック1360および1 ’332で、音
の振幅は、前述のように、限界値を更新し、更新された
限界値に基づいてソーン単位に変換され、圧縮される。
ソーン単位を導入し圧縮する代替方法は、(ビンが増分
された後)フィルタ振幅“a″を取出し、次式忙よりd
Bに変換する。
a”=201og1(i(a)  10     (9
)次に、フィルタ振幅の各々は、次式により同等の音量
を与えるようKOdBと120 dB  の間のレンジ
に圧縮される。
aeq’=120(a   Th)/(T(T)、) 
(i0)。
次にaeqlは次式により、音量レベル(ホン単′位)
からソーン単位の音量の近似値に変換(40dBでlK
H2の信号を1に写像)することが望ましい。
LdB= (a”1−30 ) / 4      (
i1)次に、ンーン単位の音量の近似値しsは次式で与
えられる。
L  =10(L   )/20        (i
2)ステップ1334で、L、は式(i)および(2)
の入力として使用され、周波数ノ(ンドごとの出力発火
率fを決定する。22周波数バンドの場合、22次元の
ベクトルが、連続する時間フレームにわたる音響波入力
を特徴づける。しかしながら、一般に、20周波数バン
ドは、メルでスケーリングされた通常のフィルタ・バン
クを用いて検査する。
次の時間フレームを処理する前に、ブロック1337で
、nの“次状態”を式(3)に従って決定する。
前述の音響プロセッサは、発火率fおよび神経伝達物質
量nが大きいDCペデスタルを有する場合の使用につい
ての改善を必要とする。すなわち。
fおよびnの式の項のダイナミックレンジが重要な場合
、下記の式を導いてペデスタルの高さを下げる。
安定状態で、かつ音響波入力信号が存在しない(L=0
)場合、式(2)は次のように安定状態の内部状態n′
 について解くことができる。
n’ =A / (So + Sh )       
 (i3)神経伝達物質の量n(i)の内部状態は、次
のように安定状態部分および変動部分として示される。
n(t)=n’+n”(t)          (i
4)式(i)および(i4)を結合すると、次のように
発火率が得られる。
f(t)=(So+D−L)(n’+n”(t))(i
5)So−n′の項は定数であるが、他のすべての項は
、nの変動部分か、または(D−L)により表わされた
入力信号を含む。爾後の処理は出力ベクトル間の差の二
乗のみ忙関連するので、定数項は無視される。式(i5
)および(i3)から次式が得られる。
f“(t)=(SO+D−L) ・C(n” (t)+
D−L−A)/(SO+5h))          
(i6)式(3)を考慮すると、1次状態”は次のよう
Kなる。
n(t+Δt)=n’(t+Δt)+n“(t+Δt)
    (i7)n(t+△t)==n“(t)+A−
(So+Sh+DIIL) −(n’ +n″(t))
             (i8)n(t+Δt )
==n#(t )−(Sh−n″(t)  (So+A
o−L  )・n″(t)−(AO−LA・D)/(S
O十Sh)+Ao−(So−Ao)+(Sh−Ao))
/(So+Sh)            (i9)式
(i9)はすべての常数環を無視すれば次のようになる
n’(を十Δt)=n“(t)(I  So・Δ1)−
f“(i)式(i5)および(20)は、それぞれの1
0ミリ秒時間フレーム中に各フィルタに適用される出力
式および状態更新式を構成する。これらの式の使用結果
は10ミリ秒ごとの20要素のベクトルであシ、このベ
クトルの各要素は、メルでスケーリングされたフィルタ
・パンクにおけるそれぞれの周波数バンドの発火率に対
応する。
前述の実施例に関し、第13図の流れ図は、発火率fお
よび゛次状態”n(t+Δt)の特別の場合の式をそれ
ぞれ定義する式(i1)および(i6)により、f、d
n/dtおよびn(t+Δt)の式を置換える以外は当
てはまる。
それぞれの式の項に特有の値(すなわち、10=5 c
sec、t L=3 csec%Ao=1、R=1゜5
およびLmax=20)は他の値に設定することができ
、So 、ShおよびDの項は、他の項が異なった値に
設定されると、それぞれの望ましい値0.0888.0
.11111、および0.00666とは異なる値にな
る。
本発明は種々のソフトウェアまたは/%−ドウエアによ
り実施することができる。
F 3.  精密突合せ(第4図、第15図、第16図
)第4図は一例として音標型の音素マシン2000を示
す。音標型突合せの各マシンは、確率的に限定された状
態マシンであり、 (a)  複数の状態Sl:   。
(b)  複数の遷移tr(Sj−8t):ある遷移は
異なった状態間で、ある遷移は同じ状態間で遷移し、各
遷移は対応する確率を有する:(c)  特定の遷移で
生成しうるラベルごとに対応する実際のラベル確率 を有することを特徴とする。
第4図では、7つの状態s  −87ならびに15の遷
移tr1〜tr13が精密突合せ音素マシン2000に
設けられ、その中の3つの遷移trll、tr12およ
びtr13のバスは破線で示されている。これらの3つ
の遷移の各々で、音素はラベルを生成せずに1つの状態
から別の状態に変わることがある。従って、このような
遷移はナル遷移と呼ばれる。遷移tr1〜tr 10に
沿って、ラベルを生成することができる。詳細に述べれ
ば、遷移tr1〜tr10の各々に沿って少なくとも1
つのラベルは、そこに生成される独特の確率を有するこ
とがある。遷移ごとに、システムで生成することができ
る各ラベルに関連した確率がある。すなわち、もし選択
的に音響チャンネルにより生成することができるラベル
が200あれば、(ナルではない)各遷移はそれに関連
した“実際のラベル確率”を200有し、その各々は、
対応するラベルが特定の遷移で音素により生成される確
率に対応する。遷移tr1の実際のラベル確率は、図示
のように、記号Pと、それに続くブラケットに囲まれた
1〜2000列で表わされる。これらの数字の各々は所
与のラベルを表す。ラベル1の場合は、精密突合せ音素
マシン2000が遷移tr1 でラベル1を生成する確
率P〔1〕がある。種々の実際のラベル確率は、ラベル
および対応する遷移に関連して記憶されている。
ラベルy1 y2 y5・・・・のストリングが、所与
の音素に対応する精密突合せ音素マシン2000に捷示
されると、突合せ手順が実行される。精密突合せ音素マ
シンに関連した手順について第15図により説明する。
第15図は第4図の音素マシンのトレリス図である。前
記音素マシンの場合のように、このトレリス図も状態S
1から状態S7へのナル遷移、状態S1から状態S2へ
の遷移、および状態S1から状態S4への遷移を示す。
他の状態間の遷移も示されている。また、トレリス図は
水平方向に、測定された時刻を示す。開始時確率q。%
  ql、およびq2は、音素がその音素の時刻t =
t o。
1=1  またはt =t 2のそれぞれにおいて開始
時刻を有する確率を表す。各開始時刻におけるぞれぞれ
の遷移も示されている。ちなみに、連続する開始(およ
び終了)時刻の間隔は、ラベルの時間間隔に等しい長さ
であることが望ましい。
精密突合せ音素マシン2000を用いて所与の音素が到
来ストリングのラベルにどれくらいぴったりと突合され
るかを決定する際、その音素の終了時刻分布を探索して
、その音素の突合せ値を決めるのに使用する。精密な突
合せを実行するため終了時刻分布を生成する際、精密突
合せ音素マシン2000は、正確で複雑な計算を必要と
する。
最初に、第15図のトレリス図により、時刻t=toで
開始時刻および終了時刻を得るのに必要な計算について
調べる。第4図に示された音素マシン構造の例の場合は
、下記の確率式が当てはまる。
Pr(S7.t=to)=qo−T(i→7)+Pr(
S2゜t=to)−T(2→7)+ Pr(S3.t=to)− T(3→7)       (21) ただし、Prは確率を表し、Tは括弧内の2つの状態の
間の遷移確率を表す。この式は、t=t。
で終了時刻になることがある3つの状態のそれぞれの確
率が、この例では、状態S7における終了時刻生起に限
定されることを示する。
次に、終了時刻t=t1を調べると、状態S1以外のあ
らゆる状態に関する計算を行わなければならない。状態
S1は前の音素の終了時刻で開始する。説明の都合上、
状態S4に関する計算だけを示す。
S4の場合、計算は次のようになる。
pr(S4.t=t1)=pr(sl、t=to)−’
r(i−+4)・Pr(yl、1→4)+ Pr(s4.t=to)T(4→4) spy (yl 、 4→4)   (22)式(22
)は、時刻t =t 1で音素マシンが状態S4である
確率は下記の2つの項: (a)  時刻1=1oで状態S1である確率に、状態
S1から状態S4への遷移確率を乗じ、更に、生成中の
ストリング中の所与のラベルy1が状態S1から状態S
4へ遷移する確率を乗じて得た値と、(b)時刻t =
t oで状態s4である確率に、状態S4からそれ自身
への遷移確率を乗じ、更に、状態S4からそれ自身に遷
移するものとして所与のラベルy1を生成する゛確率を
乗じて得た値と の和によって決まることを示す。
同様に、(状態S1を除く)他の状態に関する計算も実
行され、その音素が時刻t :” t 1で特定の状態
である対応する確率を生成する。一般に、所与の時刻に
対象状態である確率を決定する際、精密な突合せは、 (a)  対象状態に導く遷移を生じる前の各状態およ
び前記前の各状態のそれぞれの確率を認識し、(b”l
  前記前の状態ごとに、そのラベル・ストリングに適
合するように、前記網の各状態と現在の状態の間の遷移
で生成しなければならないラベルの確率を表す値を認識
し、 (c)前の各状態の確率とラベル確率を表すそれぞれの
値を組合せて、対応する遷移による対象状態の確率を与
える。
対象状態である全体的な確率は、それに導くすべての遷
移による対象状態確率から決定される。
状態S7に関する計算は、3つのナル遷移に関する項を
含み、その音素が状態S7で終了する音素たより時刻t
 ”” t 1で開始・終了することを可能にする。
時刻t=toおよびt ” t 1に関する確率を決定
する場合のように、他の終了時刻の組の確率の決定は、
終了時刻分布を形成するように行うことが望ましい。所
与の音素の終了時刻分布の値は、所与の音素がどれ位良
好に到来ラベルに突合されるかを表示する。
ワードがどれ位良好に到来ラベルに突合されるかを決定
する際、そのワードを表す音素は順次に処理される。各
音素は確率値の終了時刻分布を生成する。音素の突合せ
値は、終了時刻確率を合計し、その合計の対数をとるこ
とにより得られる。
次の音素の開始時刻分布は終了時刻分布を正規化するこ
とにより引出される。この正規化では、例えば、それら
の値の各々を、それらの合計で割ることによりスケーリ
ングし、スケーリングされた値の合計が1になるように
する。
所与のワードまたはワード・ストリングの検査すべき音
素数りを決定する方法が少なくとも2つある。深さ優先
方法では、計算は基本形式に沿って行う(連続する音素
の各々により連続して小計を計算する)。この小計がそ
れに沿った所与の音素位置の所定の限界値以下であると
分った場合、計算は終了する。もう1つの方法、幅優先
方法では、各ワードにおける類似の音素位置の計算を行
う。計算は、各ワードの第1の音素の計算、続いて各ワ
ードの第2の音素の計算というように、順次に行う。幅
優先方法では、それぞれのワードの同数の音素に沿った
計算値は、相対的に同じ音素位置で比較する。いずれの
方法でも、突合せ値の雇大の和を有するワードが、求め
ていた目的ワードである。
精密な突合せはAPAL (アレイ・プロセッサ・アセ
ンブリ言語)で実現されている。これは、70−ティン
グ・ポイント・システムズ社(Flootjng  P
o1nt  Systems、、Inc、)製のアセン
ブラ190Lである。ちなみに、精密な突合せは、実際
のラベル確率(すなわち、所与の音素が所与の遷移で所
与のラベルとyを生成する確率)、音素マシンごとの遷
移確率、および所与の音素が所定の開始時刻後の所与の
時刻で所与の状態である確率の各々を記憶するためにか
なシのメモリを必要とする。前述の19OLは、終了時
刻、できれば終了時刻確率の対数和に基づいた突合せ値
、前に生成された終了時刻確率に基づいた開始時刻、お
よびワード中の頑次音素の突合せ値に基づいたワード突
合せ得点のそれぞれの計算をするようにセットアンプさ
れる。更に、精密な突合せは、突合せ手順の末尾確率を
計算することが望ましい。末尾確率はワードとは無関係
に連続するラベルの尤度を測定する。簡単な実施例では
、所与の末尾確率はもう1つのラベルに続くラベルの尤
度に対応する。この尤度は、例えば、成るサンプル音声
により生成されたラベルのストリングから容易に決定さ
れる。
それ故、精密な突合せは基本形式、マルコフ・モデルの
統計値、および末尾確率を含むのに十分な記憶装置を備
える。各ワードが約10の音素を含む5000ワードの
語索の場合、基本痛式は5000X10の記憶量を必要
とする。(音素ごとにマルコフ・モデルを有する)70
の別個の音素、200の別個のラベル、および任意のラ
ベルが生成される確率を有する1oの遷移がある場合、
統計値は70X10X200の記憶ロケーションを必要
とすることになる。しかしながら、音素マシンは3つの
部分(開始部分、中間部分および終了部分)に分割され
、統計表はそれに対応することが望ましい(3つの自己
ループの1つが各部分に含まれることが望ましい)。従
って、記憶要求は60X2X200に減少する。末尾確
率に関しては、200X200の記憶ロケーションが必
要である。この配列では、50にの整数および82にの
浮動小数点の記憶装置であれば満足に動作する。
以上の説明は、第4図に示すような音標型音素マシンの
シーケンスを含む音標基本形式に関するものである。
しかしながら、更に、前記概設した精密突合せと類似の
精密突合せでフェネメ基本形式を使用することがある。
第16図は、7エネメ音素マシン(その例は第19図に
示す)に基づいた格子を示す。この図は、任意の所与の
時刻に、3つの遷移の中のどれかが生じうろことを示す
。(破線表示の)ナル遷移は、ラベルを生成せずに、あ
る状態から別の状態に移る。2番目の遷移は、ある状態
からそれ自身への自己ループ中にラベルの生成を可能に
する。3番目の遷移は、ある状態から別の状態への遷移
中にラベルの生成を可能にする。
前に示唆したように、高速突合せは、(第2図に示され
てはいるが、)任意選択である。下記の説明は、精密な
突合せで検査するワード数を少なくする高速突合せを含
む環境に関連する。しかしながら、希望すれば、高速突
合せを省略することができ、その場合は、各ワードは精
密な突合せにより処理される。
F 4.  音素木構造(第17図) 音素突合せ値は、いったん確定されると、第17図に示
すように、木構造4100の分枝に沿って比較し、音素
のどのパスが最も起こシうるかを゛判定する。第17図
において、(点41o2かち分枝4104に出る)話さ
れたワードthe″の音素DHおよびUHlの音素突合
せ値の和は、音素MXから分岐する音素のそれぞれのシ
ーケンスの場合よシもずっと高い値でなければならない
ちなみに、最初の音素MXの音素突合せ値は1回だけ計
算され、それから広がる各基本形式に使用される。(分
枝41o4および41o6を参照されたい。)更に、分
枝の最初のシーケンスに沿って計算された合計得点が、
限界値よりもずっと低いか、普たは分岐の他のシーケン
スの合計得点よシもずっと低いことが分ると、最初のシ
ーケンスから広がるすべての基本形式は同時に候補ワー
ドから削除されることがある。例えば、分枝4108〜
4118に関連した基本形式は、MXが起こりそりなバ
スでないことが確定されると、同時に捨てられる。高速
突合せ実施例および木構造により、順序づけられた候補
ワードのリストが生成され、それに伴なう計算は大幅に
節約される。
記憶要求については、音素の木構造、音素の統計値、お
よび末尾確率が記憶されることになっている。木構造に
ついては、25000の弧と6弧を特徴づける4つのデ
ータワードがある。第1のデータワードは後続の弧すな
わち音素の指標を表す。第2のデータワードは分枝に沿
った後続の音素の数を表わす。第6のデータワードは木
構造のどのノードに弧が置かれているかを表す。第4の
データワードは現在の音素を表す。従って、この木構造
の場合、250[]OX4の記憶空間が必要である。高
速突合せでは、100の異なった音素と200の異なっ
た7エネメがある。フエネメは音素中のどこかで生成さ
れる1つの確率を有するから、100X200の統計的
確率の記憶空間が必要である。末尾構造については、2
00X200の記憶空間が必要である。高速突合せの場
合、100にの整数と60にの浮動小数点の記憶空間が
あれば十分である。
F 5.  言語モデル(第2図) 前述のように、文脈中のワードに関する(三重字のよう
な)情報を記憶する言語モデルを包含することにより、
正しくワードを選択する確率を高めることができる。言
語モデルは前記論文に記載されている。
言語モデル1010は独特の文字を有することが望まし
い。詳細に言えば、修正三重手法が使用される。本発明
に従って、サンプル・テキストが検査され、語粟中の、
順序づけられた三重ワードおよびワード対ならびに単一
ワードの各々の尤度を確定する。そして、最も起こシう
る三重ワードおよびワード対のリストが形成される。更
に、三重ワードのリスト中にない三重ワードおよびワー
ド対のリスト中にないワード対の尤度がそれぞれ決定さ
れる。
言語モデルに従って、対象ワードが2ワードに続く場合
、この対象ワードと先行する2ワードが三重ワードのリ
ストにあるかどうかについて判定する。三重ワードのリ
ストにある場合、その三重ワードに割当てられた、記憶
されている確率が指定される。対象ワードと先行2ワー
ドが三重ワードのリストにない場合は、その対象ワード
とそれに隣接する先行ワードがワード対のリストにある
かどうかについて判定する。ワード対のリストにある場
合、そのワード対の確率と、前述の三重ワードのリスト
に三重ワードがない確率を掛け、その積を対象ワードに
割当てる。対象ワードを含む前記三重ワードおよびワー
ド対がそれぞれ三重ワードのリストおよびワード対のリ
ストにない場合には、対象ワードだけの確率に、前述の
三重ワードが三重ワードのリストにない確率、ならびに
ワード対がワード対のリストにない確率を掛け、その積
を対象ワードに割当てる。
F 6.  概算による整形(第18図)第18図の流
れ図は音響突合せで使用する音素マシンの整形を示す。
ブロック5002で、ワードの語業(一般的に5000
ワードのオーダ)が定義される。ブロック5004で、
各ワードを音素マシンのシーケンスにより表示する。音
素マシンは、例えば、音標型音素マシンとして表示され
ているが、代替的に、フエネメ音素のシーケンスを含む
こともある。音標型音素マシンのシーケンスまたはフエ
ネメ型音素マシンのシーケンスによるワードの表示につ
いては下記に説明する。ワードの音素マシン・シーケン
スはワード基本形式と呼ぶ。
ブロック5006で、ワード基本形式を前述の木構造に
配列する。各ワードの基本形式での音素マシンごとの統
計は、IEEE会報第64巻(i976年)532〜5
56頁記載のエフ・ジエリネクの論文“統計的方法によ
る連続音声認識”(F、Jelinek、”Conti
nuous  SpeechRecognition 
 by  StatisticalMethods”P
roceedings  of  the  I EE
E、Vat、 64,1976、pp562−556)
に示された周知のフォワード・バンクワード・アルゴリ
ズムによる整形により決定される(ブロック5008)
ブロック5009で、精密な突合せに用いる値を記憶す
る。ブロック5010で、高速突合せ手順に対応する概
算をそれぞれのモデルに使用する。
概算は、実際の統計値と概算統計値との取替え、および
(または)突合せで検査するラベル数の限定に関係する
ことがある。
高速突合せで使用する概算パラメータ値はブロック50
12で設定する。この時点で、それぞれのワード基本形
式の各音素マシンは所望の概算によって整形されている
。更に、精密突合せ音素マシンも形成される。精密な突
合せだけで、または高速突合せと共に音響突合せを実行
することができる。それぞれのワード基本形式の音素は
、木構造のパスに7Bって検査される。
F7  音響突合せにより選択されたワードによるワー
ド・パスの延長(第5図〜第7図、第19図) 次に、第2図の音声認識で使用する良好なスタック復号
方法について説明する。
第5図および第6図において、連続する°゛ラベル間隔
″すなわち“ラベル位置”で生成された複数の連続ラベ
ルy1・・・・が示されている。
また、第6図には、生成された複数のワード・パス、ス
なわちバスA1パスBおよびパスCが示されている。第
5図の文脈で、パスAはエントリ″’to  be  
or”に、パスBはエントリ tvr。
b#に、パスCはエントリ“too” に対応するであ
ろう。対象ワード・パスの場合、終了している最高の確
率を対象ワード・パスが有するラベル(すなわち等測的
にラベル間隔)がある。このようなラベルを”境界ラベ
ル”という。
ワードのシーケンスを表わすワード・パスWの場合、最
も起とシうる終了時刻(2ワ一ド間の“境界ラベル″と
してラベル・ストリングに表示されている)は、IBM
技術開示会報、第23巻第4号、1980年9月号、エ
ル・アール・ノく−ル外の論文“高速音響突合せ計算”
 (L、R,Bahlet  al、”Faater 
 AcouL口cMatchComputationτ
I BM TechnicalDisclosure 
 Bulletin、Vol、23.A4゜Septe
mber  1980 )  に記載されているような
既知の方法により発見することができる。簡単に言えば
、この論文は、下記の2つの重要な事項; (a)  どれだけ多くのラベル・ストリングYがワー
ド(またはワード・シーケンス)によるものであるか、
(b)どのラベル間隔で、(ラベル・ストリングの部分
に対応する)部分的な文が終了するか に取組む方法について説明している。
任意の所与のワード・パスの場合、ラベル・ストリング
の最初のラベル−境界ラベルを含む各々のラベルすなわ
ちラベル間隔に関連した゛尤度値″がある。所与のワー
ド・パスの尤度値の全部は一括して、所与のワード・パ
スの“尤度ベクトル”を表わす。従って、ワード・パス
ごとに、対応する尤度ベクトルがある。尤度値し、は第
6図に示されている。
2 、。
ワード・パスWl、W、  ・・、W8′の集まりのラ
ベル間隔tでの“尤度包絡線”Jtは数学的に次のよう
に定義される。
At=ma x (L t (Wl) 、 ・”・、 
Lt (W3) )すなわち、ラベル間隔ごとに、尤度
包絡線は前記集シの中の任意のワード・パスに関連した
最高の尤度値を含む。第6図に尤度包絡線8040が示
されている。
ワード・パスは、完全な文に対応する場合には“完全”
とみなされる。完全なパスは、入力している話者が、文
の終了に達したとき、例えばボタンを押すことにより識
別されることが望ましい。
入力は、文終了をマークするラベル間隔と同期される。
完全なワード・パスは、それにワードを付加して延長す
ることはできない。部分的なワード・パスは不完全な文
に対応し、延長することができる。
部分的なパスは生きている”または”死んでいる″バス
に分類される。ワード・パスは、それが既に延長されて
いるときは“死んでいる″が、まだ延長されていないと
きは“生きている”。この分類により、既に延長されて
少なくとも1つの、よυ長く延長されたワード・パスを
形成しているパスは、次の時刻で延長が再び考慮される
ことはない。
各々のワード・パスは、尤度包絡線に対して”良い”、
または”悪い″ものとして特徴づけることが可能である
。ワード・パスは、その境界ラベルに対応するラベルで
、そのワード・パスが、最大尤度包絡線内にある尤度値
を有する場合は良いワード・パスである。その他の場合
は、ワード・パスは悪いワード・パスである。最大尤度
包絡線の6値を一定の値だけ減少して良い(悪い)限界
レベルとして作用させることは、望ましいことではある
が、必ずしも必要ではない。
ラベル間隔の各々についてスタック要素がある。
生きているワード・パスの各々は、このような生きてい
るパスの境界ラベルに対応するラベル間隔に対応するス
タック要素に割当てられる。スタック要素は、(尤度値
の順序にリスト化されている)0.1またはより多くの
ワード・パス・・エントリヲ有することがある。
次に、第2図のスタック・デコーダ1002により実行
されるステップについて説明する。
尤度包結線を形成し、どのワード・パスが良いかを決定
することは、第7図のスタック復号手法の流れ図に示す
ように相互に関係する。
第7図の流れ図において、ブロック8050で、最初に
、ナル・パルスが第1のスタック(0)に入る。ブロッ
ク8o52で、前に確定されている完全なパスを含む(
完全な)スタック要素が、もしあれば、供給される。(
完全な)スタック要素中の完全なパスの各々は、それに
関連する尤度ベクトルを有する。その境界ラベルに最高
の尤度を有する完全なパスの尤度ベクトルは、最初に最
尤包絡線を決める。もしく完全な)スタック要素に完全
なパスがなければ、最尤包絡線は各ラベル間隔で一閃に
初期設定される。更に完全なパスが指定されていない場
合にも、最尤包絡線が−に初期設定されることがある。
包絡線の初期設定はブロック8054および8056で
行われる。
最尤包絡線は、初期設定された後、所定の量だけ減少さ
れ、減少された尤iの上方に△−良い領域を形成し、減
少された尤度の下方にΔ−悪い領域を形成する。Δが大
きければ大きいほど、延長が可能とみなされるワード・
パス数が大きくなる。
L を確定するのにlogloを用いる場合、Δの値が
2であれば満足すべき結果が得られる。Δの値がラベル
間隔の長さに沿って均一であることは、望ましいけれど
も、必ずしも必要ではない。
ワード・パスが、Δ−良い領域内にある境界ラベルに尤
度を有する場合、そのワード・パスは”良い″とマーク
される。その他の場合には、ワード・パスは“悪い″と
マークされる。
第7図に示すように、尤度包絡線を更新し、ワード・パ
スを“良い“(延長が可能な)パス、または”悪い”パ
スとしてマークするループは、マークされていない最長
ワード・パスを探すブロック8058で始まる。2以上
のマークされていないワード・パスが最長のワード・バ
ス長に対応するスタックにある場合、その境界ラベルに
最高の尤度を有するワード・パスが選択される。ワード
・パスが発見された場合、ブロック8060で、その境
界ラベルでの尤度がΔ−良い領域内にあるかどうかを調
べる。もし良い領域内になければ、ブロック8062で
、Δ−悪い領域内のパスとマークし、ブロック8058
で、次のマークされていない生きているパスを探す。も
し良い領域内にあれば、ブロック8064で、Δ−良い
領域内のパスとマークし、ブロック8066で、尤度包
絡線を更新して、”良い”とマークされたパスの尤度値
を包含する。すなわち、ラベル間隔ごとに、更新された
尤度値は、(a)  その尤度包線内の現在の尤度値と
、(b)  ”良い”とマークされたワード・パスに関
連した尤度値 の間のよシ大きい尤度値として確定される。この動作は
ブロック8064および8066で行われる。包絡線が
更新された後、ブロック8058に戻り、マークされて
いない最長、最良の生きているワード・パスを再び探す
このループは、マークされていないワード・パスがなく
なるまで反復される。マークされていないワード・パス
がなくなると°、ブロック8070で、最短の”良い″
とマークされたワード・パスが選択される。もし、最短
の長さを有する2以上の“良い”ワード・パスがあれば
、ブロック8072で、その境界ラベルに最高の尤度を
有するワード・パスが選択され、選択された最短のパス
は延長される。すなわち、少なくとも1つの、見込みの
ある後続ワードが、前述のように、高速突合せ、言語モ
デル、精密突合せ、および言語モデル手順を良好に実行
することKより確定される。見込みのある後続ワードご
とに、延長されたワード・パスが形成される。詳細に述
べれば、延長されたワード・パスは、選択された最短ワ
ード・パスの終りに、見込みのある後続ワードを付加す
ることにより形成される。
選択された最短ワード・パスが、延長されたワード・パ
スを形成した後、該選択されたワード・パスは、それが
エントリであったスタックから除去され、その代わシに
、各々の延長されたワード・パスは適切なスタックに挿
入される。特に、延長されたワード・パスはその境界ラ
ベルに対応するスタックへのエントリになる(ブロック
8072)。
ブロック8072における選択されたパルスを延長する
動作を第19図の流れ図に関連して説明する。
第19図のブロック6000で、(第2図の)音響プロ
セッサ10o4はラベルのストリングを生成する。ラベ
ルのストリングはブロック6002に入力として供給さ
れ、ブロック6002で、基本の、または改良された概
算突合せ手順の1つが実行され、順序づけられた候補ワ
ードのリストを得る。その後、ブロック6004で、前
記言語モデルを前述のように使用する。言語モデルを使
用した後、ブロック6006で、残っている対象ワード
は、生成されたラベルと一緒に精密突合せプロセッサに
送られる。ブロック6008で、精密な突合せは、残っ
ている候補ワードのリストを生じ、言語モデルに良好に
提示される。(概算突合せ、精密突合せおよび言語モデ
ルにより確定された)見込みのあるワードは;第7図の
ブロック8070で発見されたパスの延長に用いる。ブ
ロック6008(第19図)で確定された、見込みのあ
るワードの各々は、発見されたワード・パスに別個に付
加され、複数の延長されたワード・パスを形成すること
ができる(ブロック6010)。
第7図で、延長バスが形成され、スタックが再形成され
た後、ブロック8052に戻ってプロセスを反復する。
従って、反復ごとに、最短、最良の゛良い”ワード・パ
スが選択され、延長される。ある反復で″悪い″バスと
マークされたワード・パスは後の反復で”良い”パスに
なることがある。よって、生きているワード・パスが6
良い”パスか、 ”悪い”パスかという特徴は、各々の
反復で独立して付与される。実際には、尤度包絡線は1
つの反復と次の反復とで大幅には変化しないので、ワー
ド・パスが良いか悪いかを決定する計算は効率的に行わ
れる。更に、正規化も不要になる。
完全な文を識別する場合、ブロック8074を包含する
ことが望ましい。すなわち、生きているワード・パスで
マークされずに残っているものはなく、延長すべき”良
い”ワード・パスがない場合、復号は終了する。その境
界ラベルのそれぞれに最高の尤度を有する完全なワード
・パスが、入力ラベル・ストリングの最も見込みのある
ワード・シーケンスとして識別される。
文終了が識別されない連続音声の場合、バス延長は、継
続して行われるか、またはそのシステムのユーザが希望
する所定のワード数まで行われる。
F 8.  ワードの複数の発声から構築するマルコフ
・モデル(第1A図、第1B図、第1C図、第20図〜
第26図) 第1A図、第1B図からなる流れ図(第1A図、第1B
図の配置関係は第1C図に示す)は、基本的な基本形式
を構築するステップの概略を示す。
“基本形式”は、音声認識システムの語禽で見つかった
ワード・セグメント(aワードであることが望ましい)
を表す音素マシンのシーケンスである。
ワード・セグメントは、辞書ワードであることが望まし
いが、辞書ワードのシラブルのような、辞書ワードの所
定の部分を示すこともある。
第1A図、第1B図の本発明の実施例の最初のステップ
(ブロック9000)で、ワード・セグメントの発声を
7エネメ(すなわちラベル)のストリングに変換する。
前述のように、一般に音響プロセッサは、ワード・セグ
メントの発声に応答してフエネメのストリングを生成す
る。発声ごとに、それに対応するフエネメ・ストリング
がある。
第20図はNのフエネメ・ストリングFS1〜FSNを
示す。これらのフエネメ・ストリングはそれぞれ、対応
する所与のワード・セグメントの発声に応答して生成さ
れる。各ブロックはストリング中の7エネメを表す。こ
れらのフエネメは、各ストリングで、フエネメ1〜li
  として識別される。
本発明に従って、1組の音素マシン(すなわちマルコフ
・モデル)が形成される。各音素マシンは、少なくとも
2つの状態:それぞれが成る状態から成る状態に移る遷
移:各遷移に関連した確率:および、少なくとも幾つか
の遷移について複数の出力確率(各出力確率は、所与の
7エネメを特定の遷移において生成する尤度に対応する
)を有することを特徴とする。第21図は簡単なサンプ
ルのフエネメ音素マシン9002を示す。
音素マシン9002は状態S1およびS2を有する。1
つの遷移t1は状態S1から出てそれ自身に戻シ、確率
Pt1(S11S1)を有する。遷移t1の場合、フエ
ネメf1〜frnの各々を遷移t1で生成するのに関連
するそれぞれの確率がある。同様に、状態S1およびS
2の間の遷移t2は、(a)  それに関連した確率p
、(s2Is1)、(b)  フエネメf1〜fmの各
々を生成するそれの確率 を有する。ナル遷移t3は、出力すなわちフエネメを生
成しない遷移を表わし、それに関連するPt3(S21
81)を有する。音素マシン9002′は、それにより
、(遷移t1’7f反復する場合のように)任意数のフ
エネメの生成を可能にするが、遷移t3が続く場合は、
フエネメは生成されない。
各音素マシンはそれ建関連する異なった確率すなわち統
計値を有する。同じ組の音素マシンが同じ構成を有し統
計値だけが異なることは、望ましいことではあるが、必
ずしも必要ではない。統計値は一般に、整形セツション
中に決められる。
音’Xマシンのセットが形成され、所与のワード・セグ
メントの発声により生成されたフエネメ・ストリングの
すべてに適用された場合、どの音素マシンが長さ1の最
良の基本形式を与えるかKついて決定がなされる(ブロ
ック9004)。音素長1の最良の基本形式(Pl)は
、セット内の各音素マシンの検査、ならびに、音素ごと
の、フエネメ・ストリングFS1〜FSNの各々を生成
する確率の決定により見つかる。特定の音素マシンごと
に取出されたN個の確率は、それらの積をとることによ
り、その特定の音素マシンに割当てられる同時確率を生
じる。最高の同時確率を生じる音素マシンは長さ1の最
良の基本形式P1として選択される。
音素P1を保持しつつ、P1P2またはP 2 P 1
の形式を有する長さ2の最良の基本形式を探す。
すなわち、各音素なPlの後縁に付加してそれぞれの順
序づけられた音素対を形成し、かつ各音素なPlの前縁
に付加してそれぞれの順序づけられた音素対を形成する
。そして、各々の順序づけられた音素対の同時確率が得
られる。フエネメ・ストリングを生成する最高の同時確
率を生じる顆序づけられた音素対が、長さ2の最良の基
本形式とみなされる(ブロック900(S)。
次に、長さ2の最良の基本形式、すなわち、最高の同時
確率の順序づけられた対を、周知のビテルビ整列のよう
に整列させる(ブロック9008)。
簡増に言えば、整列は、各ストリング中のどのフエネメ
が、順序づけられた音素対のそれぞれの音素に対応する
かを表す。(この時点で、音素は音素マシンにより表示
されている。それゆえ、音素および音素マシンの項は対
応する存在である。)整列に続き、フエネメ・表トリン
グFS1〜FSNの各々で一致点をみつける。フエネメ
・ストリングFS  −FSNの各々について、一致点
は、(長さ2の最良の基本形式の)音素P1およびP2
が接する見込みが最大の点として定義される。別の見方
として、一致点は、フエネメ・ストリングFS −FS
Nの各々を左部分と右部分に分ける点とみなすこともで
きる。この場合、すべてのフエネメ・ストリングの左部
分は共通する単音セットを表わし、すべてのフエネメ・
ストリングの右部分も同様に共通する単音セットを表す
(ブロック9010)。左部分の各々は左すブス) I
Jング、右部分の各々は右サブストリングとみなされる
(ブロック9012)。
その後、左サブストリングおよび右サブストリングは、
個別処理方式により、類似してはいるが、別個に扱われ
る。
左すプス) IJングの場合、その代わりに最高の同時
確率を有する最良の単一音素基本形式PLを見つける(
ブロック9014)。音素PLを保持しながら、セット
中の各音素をその前に付加した順序で対を形成し、かつ
セット中の各音素をその後に付加した順序で対を形成す
る。次いで、左サブストリングでフエネメを生成する最
高の同時確率を有する一定順序の対PLPAtたはPA
PLを見つける(ブロック9016)。前述のように、
これは左サブストリングの長さ2の最良の基本形式とみ
なされる。
左サブストリングの長さ2の最良の同時確率を、同時確
率PLだけと比較する(第1B図のブロック9018)
。同時確率PLの方が大きい場合、連結された基本形式
に音素PLを配置する(ブロック9020)。同時確率
PLの方が小さい場合、PP  またはPAPLを左サ
ブストリングに対しA し整列させる(ブロック9022)。左サブストリング
の各々で一致点が見つかり、各左サブストリングはその
時点で、(新しい)左部分と(新しい)右部分に分割さ
れる(ブロック9024)。
同じ手順が、最初に分割されたフエネメ・ストリングF
S1〜FS、の各右サブストリングにも適用される。(
ブロック9030からの)最良の1つの基本形式PRと
、ブロック9064で見つかった長さ2の最良の基本形
式PRPBまたはPRPRとが、ブロック9032で比
較される。PRの同時確率の方が大きい場合、連結され
た基本形式に音素PRを配置する(ブロック9020)
PRの方が小さい場合には、2つの音素の基本形式の整
列を行い、各右サブストリングをその一致点で左部分と
右部分に分割する(ブロック9036)。
分割サイクルは、長さ2の最良の基本形式が最良の1つ
の音素の基本形式よシも高い同時確率を有するサブスト
リングごとに反復する。すなわち、サブストリングを2
つの部分に分割し、その一方または双方を(整列後)新
しいサブストリングに分割する動作を、1つの音素基本
形式しか残らなくなるまで、次々に実行することができ
る。
1つの音素の基本形式は、その基本形式が表すサブスト
リングと同じ順序で連結される。連結された基本形式は
、フエネメ・ストリングFS1〜FSNの連続するサブ
ストリングに対応する、連続する1つの音素を表す。後
に説明するように、サブストリングは0..1、または
2以上のフエネメを含み、それが発声ごとに発音が変化
する原因となる。
前述の連結された基本形式はワード・セグメント、例え
ば語業ワードの基本的な基本形式を表す。
連結された基本形式の改良は第22図の流れ図に組込ま
れている。第22図は、第1B図で、1つの音素(PL
およびPR)を配置し、連結された基本形式を形成する
ブロック9020から続く。
この改良により、連結された基本形式をフエネメ・スト
リングに対して整列させる(ブロック9050)。フエ
ネメ・ストリングF S i〜FSNの各々に対し、こ
の整列は、そのストリング中のフエネメが(もしあれば
)それぞれの音素マシンに対応することを表わし、音素
対応に基づいたストリングの分割に役立つ(ブロック9
052)。
分割されるセクションごとに分析を行い、その分割に最
良の1つの音素を確定する(ブロック9054)。整列
により、分割されたセクション内のフエネメの最良の単
一音素は、前に整列され連結された基本形式中の単一音
素と異なることがある。
両者が異なる場合(ブロック9058)、各最良の単一
音素を、前に整列され連結された基本形式中の対応する
単一音素と置換え、新たに連結された基本形式を生成す
る(ブロック9056)。
次いで、新しい基本形式は、必要なら、整列(ブロック
9050)、分割(9052)、新しい最良の音素の探
索(ブロック9054)、ならびに、連結された基本形
式での音素の置換えを適切に行う。第22図の流れ図に
示すように、このサイクルは、連続的に処理される基本
形式を得るように反復することができる。
連結された基本形式中の古い最良の音素が所与の分割の
新しい最良の音素と同じ場合(ブロック9058)、こ
の音素は連結された基本形式中の所定位置に固定される
(ブロック9060)。すべての音素がそれぞれの順序
の位置に固定されると、改良された基本形式が生じる(
ブロック9062)。
第23図〜第26図によりフエネメ基本形式について説
明する。Plはフエネメ・ストリングFS1〜FSNの
長さ1の最良の基本形式であることが最初に分っている
Plを1つの音素として用い、フエネメ・ストリングF
S1〜FSNの最良の順序の音素対を形成するように第
2の音素を決定する。これは第23図に示されている。
第24図では、フエネメ・ストリングFS1〜FSNの
各々は、音素P1が音素P2に接する見込みが最大の点
で分割される。
第25図では、左部分と右部分が決められる。これらの
部分は、その後、第23図の複数のフエネメ・ストリン
グのように別個に検査される。個別処理により、各スト
リング中のフエネメは連続的により多くの音素により表
示される。所与の音素の確率が、取出された2つの音素
の確率よりも大きい場合、分割は停止され、このような
分割されない音素のシーケンスに沿ったそれぞれの位置
に、所与の音素を配置する。
第26図は配置された1つの音素P1のサンプルで、そ
れに対応するフエネメ・ストリングFS1〜FSNのサ
ブストリングを表す。FSlでは、音素P1は1つの7
エネメに関連し、FS2では、Plはナルに関連し、F
S3では、Plは2つのフエネメの生成に関連する。以
下同様である。
基本形式を改良するには、連結された基本形式に対する
各々の発声のフエネメ・ストリングのビテルビ整列を実
行する。連結された基本形式では音素ごとに順次、それ
に対して整列されだフエネメが決定される。音素に対し
て整列されるフエネメがない場合、その音素は削除され
る。その他の場合には、それにより整列された(すなわ
ち、そのために分割されたセクション中の)フエネメを
生成する確率を最大化する音素を見つけ、前からある音
素を、前からあるその音素が最大確率の音素である見込
みがより小さい場合、取替える。希望により、このステ
ップは反復されることもあり、反復されないこともある
。反復される場合、その反復は音素が取替えられると終
了する。
本発明は、X8Mシステム3084のMVSにおいてP
L/Iで実現されているが、種々の計算システムの中の
任意のシステムにおいて種々の言語の中の任意の言語で
実現することもできる。
最良の基本形式は、前述の実施例により、同時確率が各
フエネメ・ストリングに関連した確率の積になっている
場合、最高の同時確率を有する基本形式として特徴づけ
られている。最良の基本形式および層高の同時確率は本
発明に従って別な方法で決められることがある。ちなみ
に、最高平均確率、または所定のある分布は、最高の同
時確率を決定する際に使用することができる。
更に、本発明は、同時に6以上の部分に分割することに
より実施されることがある。例えば、発声ごとのフエネ
メ・ストリングを、最初に6つの部分(左、中央および
右のセクション)に分割することがある。次に、分割さ
れた各々のセクションは、個別処理方式で別個に検査さ
れる。しかしながら、3以上に分割するよりも、2つに
分割されたセクションの方が望ましい。
また、分割および整列の順序に一定の制限はない。1つ
の実施例では、分割および整列は、分割が停止するまで
実行され、連続的に小さくなる左の部分を決める。連結
された基本形式における最も左の音素は、それにより最
初に決められる。その後、連結された基本形式で左から
2番目の音素が決められる。代替方法として、本発明は
分割および整列する他のルーチンにより、連結された基
本形式で所望の音素を選択することも企図している。
G1発明の効果 本発明により音声認識システムで構築される基本形式を
改良することができる。
【図面の簡単な説明】
第1A図および第1B図は本発明により複数の発声に基
づいたワード・セグメントの基本的な基本形式を構築す
る方法を示す流れ図、第1c図は第1A図と第1B図の
配置関係を示す図、第2図は本発明を実施しうるシステ
ム環境の概要ブロック図、第3図は第2図のシステム環
境の中のスタック・デコーダを詳細に示したブロック図
、第4図は整形セツション中に得られた統計値たより記
憶装置で識別され、表示される音標型音素マシンを示す
図、第5図は連続するスタック復号のステップを示す図
、第6図はスタック復号手法を示す図、第7図はスタッ
ク復号手法の流れ図、第8図は音響プロセッサの要素を
示す図、第9図は音響モデルの構成要素を形成する場所
を表わす代表的な人間の耳の部分を示す図、第10図は
音響プロセッサの部分を示すブロック図、第11図は音
響プロセッサの設計に用いる。音の強度と周波数の関係
を示す図、第12図はソーンとホンの関係を示す図、第
13図は第8図の音響プロセッサにより音響の特徴をど
のように示すかを表す流れ図、第14図は第13図で限
界値をどのように更新するかを示す流れ図、第15図は
精密突合せ手順のトレリスすなわち格子を示す図、第1
6図は突合せを実行するのに用いる音素マシンを示す図
、第17図は同時に複数のワードの処理を可能にする音
素の木構造を示す図、第18図はマルコフ・モデル音素
マシンの整形を示す流れ図、第19図はワード・パスの
延長を示す流れ図、第20図は1つのワード・セグメン
トの〃の発声から得たフエネメ・シーケンスを示す図、
第21図はサンプルのフエネメ型音素マシンを示す図、
第22図はワード・セグメントの基本形式を向上させる
ため第1A図および第1B図の流れ図に付加する流れ図
、第25図は複数の発声の1つに応答して生成される各
フエネメ・ストリングに使用する音素の長さ2の最良の
基本形式を示す図、第24図は音素P1が音素P2に一
貫して接する点に決められた点で分割された各フエネメ
・ストリングを示す図、第25図は左の部分と右の部分
として識別される分割された部分を示す図、第26図は
フエネメ・ストリングFS1〜FSNの各々の音素およ
び対応する部分を示す図である。 1000・・・・音声認識システム、1002・・・・
スタック・デコーダ、1004・・・・音響プロセッサ
、1006,1o08・・・・アレイ・プロセッサ、1
010・・・・言語モデル、1012・・・・ワークス
テーション、1020・・・・探索装置、1o22.1
024.1026.1028・・・・インタフェース。 出 H人 インターサジ6七〜いビジネス・マシーンズ
・コー汁も−クタン復代理人 弁理士  合     
1)    潔第5図 ”To BE ORNOT  To BE’ &スフ・
ソゲ−7aスf %−/ 7’煩贋ムY→ 呂 −〉 藪ゞ モ 第13図 音響アロー2.fの動作の流水 第15図 網1乞マッナンク゛格多 時間 tl     t2     t3 フェネメ音索マシンに基フ゛いた十6子第16図 e ′″′1 →綜 Aω フエネメのシーブンス 第20図 フェネメy−I素マシンのすりフ″′ンレ第21図 P+         P2 長さ20鴛哀の基本形式 7エネメ・ヌトリヅグの分秒1 第24図 友部分     ち部分 鰭1さ剌たち側合と左部分 N口

Claims (1)

  1. 【特許請求の範囲】 音響プロセッサを有する音声認識システムにおいて、ワ
    ードのフエネメ基本形式を構築する際のワードごとの複
    数発声処理方法であつて、 (a)ワードの発声に応答して音響プロセッサにより生
    成されたフエネメ・ストリングを入力として供給し、 (b)複数の発声のそれぞれについてステップ(a)を
    反復し、 (c)入力されたフエネメ・ストリングの各々における
    一致点の位置を決め、その一致点でフエネメ・ストリン
    グの各々を左部分と右部分に分割し、(i)入力された
    フエネメ・ストリングのすべての左部分が単音の共通シ
    ーケンスを表わし、(ii)入力されたフエネメ・スト
    リングのすべての右部分が単音の共通部分を表わす ステップを含むことを特徴とするワードごとの複数発声
    処理方法。
JP61032052A 1986-02-18 1986-02-18 ワード・マルコフ・モデル生成方法 Granted JPS62194295A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61032052A JPS62194295A (ja) 1986-02-18 1986-02-18 ワード・マルコフ・モデル生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61032052A JPS62194295A (ja) 1986-02-18 1986-02-18 ワード・マルコフ・モデル生成方法

Publications (2)

Publication Number Publication Date
JPS62194295A true JPS62194295A (ja) 1987-08-26
JPH0372995B2 JPH0372995B2 (ja) 1991-11-20

Family

ID=12348092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61032052A Granted JPS62194295A (ja) 1986-02-18 1986-02-18 ワード・マルコフ・モデル生成方法

Country Status (1)

Country Link
JP (1) JPS62194295A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01265297A (ja) * 1987-12-16 1989-10-23 Internatl Business Mach Corp <Ibm> マルコフ・モデル単語ベースフオーム構築方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01265297A (ja) * 1987-12-16 1989-10-23 Internatl Business Mach Corp <Ibm> マルコフ・モデル単語ベースフオーム構築方法

Also Published As

Publication number Publication date
JPH0372995B2 (ja) 1991-11-20

Similar Documents

Publication Publication Date Title
US4833712A (en) Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4759068A (en) Constructing Markov models of words from multiple utterances
US4980918A (en) Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4977599A (en) Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
Reddy Computer recognition of connected speech
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US4748670A (en) Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
JPH0431600B2 (ja)
JPH10508392A (ja) トリー構成確率密度に基づくパターン認識の方法及びシステム
JPH05265483A (ja) 複数の出力を与える音声認識法
US20040172249A1 (en) Speech synthesis
EP0238697B1 (en) Method of constructing baseform models of words from multiple utterances for speech recognition
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPS62194295A (ja) ワード・マルコフ・モデル生成方法
EP0238695B1 (en) Automatic generation of simple markov model stunted baseforms for words in a vocabulary
Chang et al. Chinese dialect identification using segmental and prosodic features
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2905686B2 (ja) 音声認識装置
JP3584002B2 (ja) 音声認識装置および音声認識方法
EP0238698B1 (en) Method and apparatus for generating word model baseforms for speech recognition
Salvi Developing acoustic models for automatic speech recognition
Athanaselis et al. Recognising verbal content of emotionally coloured speech
JPH0372996B2 (ja)
KR100304665B1 (ko) 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법
JPS62194292A (ja) 連続ワード音声認識方法