JPS62194291A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS62194291A
JPS62194291A JP61032048A JP3204886A JPS62194291A JP S62194291 A JPS62194291 A JP S62194291A JP 61032048 A JP61032048 A JP 61032048A JP 3204886 A JP3204886 A JP 3204886A JP S62194291 A JPS62194291 A JP S62194291A
Authority
JP
Japan
Prior art keywords
phoneme
word
machine
label
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61032048A
Other languages
English (en)
Other versions
JPH0372992B2 (ja
Inventor
ラリツト・ライ・バール
ピーター・ビンセント・デソーザ
ロバート・レロイ・マーサー
マイケル・アラン・ピチエニイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP61032048A priority Critical patent/JPS62194291A/ja
Publication of JPS62194291A publication Critical patent/JPS62194291A/ja
Publication of JPH0372992B2 publication Critical patent/JPH0372992B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。
A、産業上の利用分野 B、開示の概要 C1従来の技術 り0発明が解決しようとする問題点 E1問題点を解決するだめの手段 F、実施例 F 1.  音声認識システムの環境 Fla、全般的説明(第4図〜第9図)Fib、聴覚モ
デルおよび音声認識システムの音響プロセッサにおける
その実現(、第10図〜第16図) F 1 c、精密マツチング(第6図、第17図)F’
ld、基本高速マツチング(第18図〜第20図) F 1 e、代替高速マツチング(第21図、第22図
) Flf、最初のJレベルに基づいたマツチング(第22
図) Flg、音素木構造および高速マツチング実施例(第2
3図) Flh、言語モデル(第4図、第24図)Flj、スタ
ック・デコーダ(第7図〜第9図、第25図) F 1 k、音標型基本形態の構築 F 2.  開始音素マシンおよび終了音素マシンを含
む音素マシンのセットの形成(第1A図〜第6図、第2
6図〜第32図) F 3.表 G1発明の効果 A、産業上の利用分野 本発明はワードt−特徴づける際に使用することができ
る音響モデルを生成する分野に係る。
B、開示の概要 本発明は生成された音響ラベルのストリング(音標型音
素マシンのセットの形成を含む)とマツチングさせるこ
とができるワード基本形態を構築する装置および方法を
開示する。各音素マシンが(i)複数の状態、(i1)
それぞれがある状態からある状態に移す複数の遷移、(
iiil遷移ごとの記憶された確率、および(IV)記
憶されたラベル出力確率、を有する場合、各ラベル出力
確率は、対応するラベルを生成する前記各音素マシンの
確率に対応し;前記音標型音素マシンのセットが開始音
素マシンのサプセツIf含むように形成されている場合
、各開始音素マシンの記憶された確率は、音声セグメン
トの始めに発声される音標要素の少なくとも1つに対応
し;前記音標型音素マシンのセットが終了音素マシンの
サブセットを含むように形成されている場合、各終了音
素マシンの記憶された確率は、音声セグメントの終りに
発声される少なくとも1つの音標要素に対応する。ワー
ド基本形態は、該セットから選択された音素マシンの連
結により構築される。
C0従来の技術 本発明の背景または環境を与える発明として、米国特許
出願第067665401号(i984年10月26日
出願)、および同第06/672974号(i984年
11月19日出願)がある。
音声を認識する確率的方法では、前書波形は最初、音響
プロセッサによシ、ラベル・ストリンクに変換される。
ラベルのアルファベット(集合)は典型的には約200
種類のラベルからなシ、このラベルを用いて対応する音
響タイプを特定する。
このようなラベルの生成は、種々の論文ならびに前記米
国特許出願第06/665401号に記載されている。
簡単に言えば、音響入力を分割して連続する時間フレー
ムに入れ、時間フレームごとにラベルを割当てる。ラベ
ルは通常、エネルギ特性に基づいて形成される。
音声認識のためにラベルを使用する際のマルコフ・モデ
ル(確率的な有限状態マシン)は既に提案されている。
マルコフ・モデルは通常、複数の状態とそれらの状態の
間の遷移とを含む。更に、マルコフ・モデルは通常、(
a)各遷移の生起確率、および(b)m々の遷移で各ラ
ベルを生成するそれぞれの確率に関し、それに割当てら
れた確率を有する。マルコフ・モデル(マたは等価的に
マルコフ・ソース)は、I EEE会報:パターン分析
および計′X機情報(PAMI)第5巻第2号(i98
6年5月)179〜190頁記載のエル・アール・バー
ル外の論文“連続音声を認識する最尤法“(L、R,B
6111 6t al、−A MaximumLtke
lihood Approach to Contin
uousSpeech  Recognition”、
I EEETransactions  on  Pa
ttern  Analysisand Machin
e  Intelligence、Vol。
PAMI−5、No、2、March 1985 )の
ような種々の論文で説明されている。マルコフ・モデル
・マシンは、マルコフ・モデル音素マシン、または単に
音素マシンともいう。
音声を認識する際、語重中のどのワード(複数の場合も
ある)が音響プロセッサにより生成されたラベル・スト
IJングを生じる最高の尤度を有するかを決定するマツ
チング・プロセスが実行すれる。このようなマツチング
手順の1つが前記米国特許出願筒06/672974号
に示されている。
それによれば、音響マツチングは、(a)語重中の各ワ
ードヲ、マルコフ−モデル音素マシンのシーケンスによ
り特徴づけ、(bJ各ワードが表わす音素マシンのシー
ケンスの、音響プロセッサにより生成されたラベルのス
トリングを生じるそれぞれの尤度を決定することにより
実行される。各ワードが表わi音素マシンのシーケンス
はワード基本形態に対応する。
ワード基本形態を形成する際には、最初に、その基本形
態の溝築に用いる音素マシンの性質を定義する必要があ
る。前記米国特許出願第06/672974号で、音標
型音素マシンから構築されたワード基本形態が示されて
いる。この場合、各音素マシンは音標型の単音に対応し
、7つの状態と16の遷移を含む。詳細に言えば、それ
ぞれが対応する音標要素を表わす約70音素のセットが
基本形態を構築する基礎になっている。一般にワードの
基本形態は、音声学者がワードをそれぞれの音標セグメ
ントに分解し、対応する音素マシンを各音標セグメント
に割当てることにより構築されている。
従来は、70音素の各々は、所与の等級に対応する単音
がワードの最初、中央または末尾のいずれで生じたかと
は無関係に、所与の単音等級を表わした。例えば、”k
″の単音は、”cat”の場合のようなワードの最初、
“5eat”の場合のようなワードの中央、または“b
ack”の場合のようなワードの末尾のいずれの場合に
生じても、音素kにより表示されていた。
D3発明が解決しようとする問題点 本発明は、所定の音はその音が沈黙期間に隣接する、す
なわち沈黙期間に先行または後続するかどうかによシ異
なったエネルギ特性を衣わすという知見に基づく。特に
本発明は、沈黙期間が先行する場合は音によってはエネ
ルギが増強され、沈黙期間が後続する場合は音によって
はエネルギが減衰するという事実に基づいている。エネ
ルギ特性は一般に、音響入力の生成すべきラベルを決め
る際に音響プロセッサによシ使用されるので、ワードの
始めまたは終シで生じる音かどうかによってエネルギの
増強または減衰を生じ、異なったラベルが生成されるこ
とがある。
従って本発明は、音がワードの始めに発声される場合に
エネルギの増強を伴なういくつかの第1の型の音素マシ
ンと、音がワードの終りに発声される場合にエネルギの
減衰を伴なういくつかの第2の型の音素マシンを定義す
る。更に、発声される音が大きなエネルギの増強または
減衰を伴なわない場合に対応する第3の型の音素マシン
がある。
第1の型の音素マシンを開始音素マシン、第2の型の音
素マシンを終了音素マシン、第6の型の音素マシンを共
通音素マシンという。
開始音素マシンの統計値は沈黙からの遷移を反映し、終
了音素マシンの統計値は沈黙への遷移を反映する。共通
音素マシンは、ワードの中央で発声される音°、もつと
一般的に言えば、沈黙への遷移または沈黙からの遷移が
音素マシンの統計値に大きくは影響しないワード位置で
発声される音に対応する統計値を有することが望ましい
所定の音は、その音がワードのどの部分で発声されても
対応するエネルギ特性が大きく変化しない場合、それに
関連した共通音素マシンだけを有する。
本発明に従って、複数の開始音素マシンおよび終了音素
マシンが設けられ、所定の音が沈黙期間に隣接して生じ
る場合のエネルギ特性を与える。
このように本発明によシ、所与のワードは、それに対応
する開始音素マシンを有する対象音で開始する場合、そ
の開始音素マシンで始まり、かつその対象音の共通音素
マシンが後続する基本形態を得るように構成される。同
様に、本発明により、所与のワードがそれに対応する終
了音素マシンを有する対象音で終了する場合、そのワー
ドは、その終了音素マシンで終了し、かつその対象音の
共通音素マシンが先行する基本形態を得るように構成さ
れる。
従って本発明の目的は、(ワード基本形態を構築スる)
マルコフ・モデルのセットに、沈黙への遷移、または沈
黙からの遷移で生起する単音に対応するマルコフ・モデ
ルを包含し、このような基本形態を使用するワード認識
システムにおける精度を高めるようにすることである。
更に本発明の目的は、類似のエネルギ増強特性を有する
音をひとまとめにして、そのグループに属するすべての
音の単一開始音素マシンを定義するとともに、類似のエ
ネルギ減衰特性を有する音をひとまとめにして、そのグ
ループに属するすべての音の単一終了音素マシンを定義
することによシ、音素マシンの総数を制限することであ
る。
E1問題点を解決するための手段 前記目的を達成する方法は下記ステップを含む。
(a)各音素マシンが、(i)複数の状態、(i1)そ
れぞれがある状態からある状態に移る複数の遷移、(i
ff)遷移ごとの記憶された確率、(iv)記憶された
ラベル出力確率(各ラベル出力確率は対応するラベルを
生成する前記各音素マシンの確率に対応する)を有する
場合に、音標型音素マシンの七ッtf−形成する。
(b)前記音標型音素マシンのセットが開始音素マシン
のサブセットを含むように形成されている場合、谷開始
音素マシンの記憶された確率は、音声セグメントの最初
に発声される少なくとも1つの音標型要素に対応する。
(c)ワードがそれに対応する所与の開始音素マシンを
有する音標型要素で始まシ、所与の開始音素マシンで始
まるワード基本形態を有する場合、各ワード基本形態を
音素マシンのシーケンスとして構築する。
本発明の方法は更に次の特徴を有する。すなわち、前記
音標型音素マシンのセットは終了音素マシンのサブセラ
トラ含むように形成され、各終了音素マシンの記憶され
た確率は、音声セグメントの末尾で発声される少なくと
も1つの単一音標型要素に対応する。また、ワードがそ
れに対応する所与の終了音素マシンを有する音標型要素
で終了し、所与の終了音素マシンで終了するワード基本
形態を有する場合、各ワード基本形態は音素マシンのシ
ーケンスとして構築される。
前記目的を達成する本発明の装置はマルコフ・モデル音
素マシンのセットを含む。各音素マシンは、(i)複数
の状態、(i1)それぞれがある状態からある状態に移
る複数の遷移、(iii)遷移ごとの確率を記憶する手
段、Ov)ラベル出力確率を記憶する手段(各ラベル出
力確率は、識別された遷移で前記各音素マシンが特定の
ラベルを生成する確率に対応する。音素マシンの一部が
開始音素マシンを含む場合、各開始音素マシンは、(i
)音の集合からの少なくとも1つの音に関連し、かつ(
i1)ワードの開始で少なくとも1つの関連音の発声か
ら遷移確率およびラベル出力確率が整形される。)、な
らびに、各ワード基本形態を音素マシンのシーケンスと
して構築する手段(前記構築手段は、対象ワード基本形
態に対応するワードが所与の開始音素マシンに関連した
音で開始する場合、対象ワード基本形態の先頭に所与の
開始音素マシンを置く手段を含む。)を有することを特
徴とする。
更に、本発明の装置の特徴として、音素マシンの一部は
終了音素マシン(各終了音素マシンは、(i)音の集合
からの少なくとも1つの音に関連し、かつ(i1)音声
セグメントの終シで少なくとも1つの関連音の発声から
遷移確率およびラベル出力確率が整形される。)を含み
、前記構築手段は更に、対象ワード基本形態に対応する
ワードが所与の終了音素に関連した音で終了する場合、
対象フード基本形態の末尾に所与の終了音素マシンを置
く手段を含む。
更に、本発明の装置は、それぞれが発声開始時にエネル
ギ増強の影響を受ける音に対応し、エネルギ増強の影響
を受けない場合の音を表わす共通音素マシンも含み、そ
の場合、前記構築手段は更に、開始音素マシンおよび後
続の共通音素マシン(%定の音がワードを開始し、開始
音素マシンがそれに関連する場合、特定の音に対応する
)を包含する手段を含む。
F、実施例 F 1.  音声認識システムの環境 Fla、全般的説明(第4図〜第9図)第4図は音声認
識システム1000の概要ブロック図を示す。このシス
テムは、スタック・デコーダ1002、およびそれに接
続された音響プロセッサ(AP)1004、高速概算音
響マツチングを実行するアレイ・プロセッサ1006、
精密音響マツチングを実行するアレイ・プロセッサ10
08、言語モデル1010、ならびにワークステーショ
ン1012を含む。
音響プロセッサ1004は、音声波形入力を、その各々
が対応する単音符号を大まかに識別するラベルのストリ
ング、すなわちフィーニーム(フロント・エンドから得
られた微小音素をこのように呼ぶ。原則としてはフロン
ト・エンドから得られるものに限られない)に変換する
ように設計されている。本システムでは、音響プロセッ
サ1004は、人間の聴覚の独特なモデルに基づくもの
で、米国特許出願第06/665401号(i984年
10月26日出願)に記載されている。
音響プロセッサ1004からのラベル、すなわちフィー
ニームはスタック・デコーダ1002に送られる。第5
図は、スタック・デコーダ1002の論理素子を示す。
すなわち、スタック・デコーダ1002は探索装置10
20、およびそれに接続されたワークステーション10
12、インタフェース1022.1024.1026な
らびに1028’i含む。これらのインタフェースの各
々は、音響プロセッサ1004、アレイ・プロセッサ1
006.100Bならびに言語モデル1010にそれぞ
れ接続される。動作中、音響プロセッサ1004からの
フィーニームは探索装置1020によりアレイ・プロセ
ッサ1006(高速突合せ)に送られる。下記に説明す
る高速マツチング手順は前記米国特許第0676729
74号(i984年11月19日出願)にも記載されて
いる。
マツチングの目的は、簡単にいえば、所与のラベル・ス
トリングの最も見込みのあるワード(複数ワードの場合
もある)を決定することである。
高速マツチングはワードの語粟中のワードを検査すると
ともに、所与の到来ラベルのストリングの候補ワードの
数を少なくするように設計されている。高速マツチング
は確率的な有限状態マシン(本明細書ではマルコフ・モ
デルともいう)に基づくものである。
高速マツチングが候補ワード数を減少した後、スタック
・デコーダ1002は、言語モデル1010と対話し、
できtば、現に存在する三重字に基づき、高速マツチン
グ候補リスト中の各候補ワー ドの文脈上の尤度を確定
する。
精密マツチングは、これらのワードを、話されたワード
として適度の尤度を有する高速マツチング候補リストか
ら、言語モデル計算に基づいて検査することが望ましい
。精密マツチングも前記米国特許出願筒0676729
74号(i984年11月19日出願)に記載されてい
る。精密マツチングは、第6図に示すようなマルコフ・
モデルの音素マシンにより実行する。
精密マツチングの後、再び言語モデルを呼出し、ワード
の尤度を決定することが望ましい。本発明のスタック・
デコーダ1002は、−高速マツチング、精密マツチン
グ、および言語モデルの使用から得られた情報を用いて
一生成されたラベル・ストリングのワードの最も見込み
のあるパスすなわちシーケンスを確定するように設計て
れている。
最も見込みのあるワード・シーケンスを見つける従来の
2つの方法はビタービ(Viterbi )復号化およ
び単一スタック復号化である。これらの方法の各々は、
前記バール外の論文”連続音声を認識する最尤法″で説
明している。ビタービ復号化は該論文のセクションVに
、単一スタック復号化は同じくセクション■に記載され
ている。
単一スタック復号化手法では、異なる長さのパスは単一
スタックに尤度に従って記載され、単一スタックに基づ
いて復号が行なわれる。単一スタック復号化は尤度がバ
ス長にいくらか依存しているという事実によるものであ
るので、一般に正規化が用いられる。
ビタービの手法は正規化を必要とせず、一般に小規模の
タスクに向いている。
もう1つの代替方法では、ワードの可能な組合せの各々
を起こりうるワード・シーケンスとして検査し、どの組
合せが生成されたラベル・ストリングを生じる最高の確
率を有するかを決定することにより、小規模の語粟体系
で復号化を実行することができる。この手法に必要な計
算量は、大規模な語粟体系の場合には膨大となり、非実
用的である。
スタック・デコーダ1002は、実際には、他の要素を
制御するように作用するが、実行する計算は多くはない
。それ故、スタック・デコーダ1002は、VM(仮想
計算機)/システム・プロダクト・イントロダクション
・リリース3(i985)のような出版物に記載されて
いるように、IBM  VM/370オペレーティング
・7ステムの制御の下にランする4641プロ七ツサを
含むことが望ましい。相当な量の計算を実行するアレイ
・プロセッサは、70−テイ/グ・ポイント・システム
(FPS)社製の市販の19OLにより実現されている
第7図、第8図および第9図は、エル・アール・バール
(L、R,Bahl )外の発明による多重スタック手
法および独特の判定方式を含む斬新な手法を示す。
第7図に、継続したラベル間隔で生成された複数の継続
したラベルy1y2・・・・が示されている。
また、第8図には複数のワード・バス、すなわちバスA
1バスBおよびバスCが示されている。
第7図との関連で、バスAはエントリ”to  beO
r”、バスBはエントリ゛tW、o  b ” %パス
Cはエンl−IJ“too″に対応することがある。対
象ワード・バスごとに、゛その対象ワード・バスが終了
している”最高の確率を有するラベルがあり、このよう
なラベルを境界ラベルという。
ワードのシーケンスを表わすワード・バスWの最も見込
みのある終了時刻(境界ラベルとしてラベル・ストリン
グに表示されている)は、IBM技術開示会報第26巻
第4号(i980年9月号)のエル・アール・バール外
の論文“音響突合せ計算の高速化”(L、R,Bahl
  et  al、 @FasterAcouattc
  Match  Computation”s IB
M  Technical  Disclosure 
 Bulletin%Vo1.25、No、4、Sep
tember 1980 )に記載されている、2つの
ワードの間の見込みのある境界を探索する既知の方法に
より見つけることができる。簡単に言えば、この論文は
、下記の2つの重要な事項: (a)どれだけ多くのラベル・ス) IJングYがワー
ド(またはワード・シーケンス)によるものであるか、
(b)どのラベル間隔で、(ラベル・ストリングの部分
に対応する)部分的な文が終了するか、に取組む方法に
ついて論じている。
所与のワード・バスにはいずれも、ラベル・ストリング
の最初のラベルから境界ラベルまでを含む各々のラベル
またはラベル間隔に関連した“尤度値″がある。つま9
、所与のワード・バスの尤度値はすべて所与のワード・
バスの“尤度ベクトル″を表わすので、ワード・バスご
とに、対応する尤度ベクトルがある。尤度値L は第8
図に示されている。
ワード・バスW1、W2、・・・・、W3の集まりのラ
ベル間隔りでの゛尤度包絡線″Δ、は数学的に次のよう
に定義される。
A  =max(L  (W )、・・・・、L(W3
))すなわち、ラベル間隔ごとに、尤度包絡線は、前記
集シの中の任:ぼのワード・バス江関連1−た最高の尤
度値を含む。第8図に尤度包絡線1040が示されてい
る。
ワード・バスは、完全な文に対応する場合には“完全″
とみなされる。完全なバスは、入力している話者が、文
の終了に達したとき、例えばボタンを押して識別するこ
とが望ましい。入力された入力は、文終了をマークする
ラベル間隔と同期される。完全なワード・バスは、それ
にワードを付加して延長することはできない。部分的な
ワード・バスは不完全な文に対応するので延長すること
ができる。
部分的なパスは“生きている”パスまたは“死んでいる
”パスに分類される。ワード・ノくスは、それが既に延
長されているときは”死んでいる“が、まだ延長されて
いないときは“生きている″。
この分類により、既に延長されて少なくとも1ワ一ド以
上延長されたワード・パス?形成しているパスは、次の
時刻で延長が再び考慮されることはない。
各々のワード・パスは、尤度包絡線に対して“良い“パ
ス、または“悪い”パスとして特徴づけることができる
。ワード・パスは、その境界ラベルに対応するラベルで
、そのワード・パスが、最大尤度包絡線内にある尤度値
を有する場合は良いワード・パスである。その他の場合
は、ワード・パスは悪いワード・パスである。最大尤度
包絡線の6値を一定の値だけ減少して良い(悪い)限界
レベルを変更することは、望ましいことではあるが、必
ずしも必要ではない。
ラベル間隔の各々についてスタック要素がある。
生きているワード・パスの各々は、このような生きてい
るパスの境界ラベルに対応するラベル間隔に対応するス
タック要素に割当てられる。スタック要素は、(尤度値
の順序に記載されている)0.1またはより多くのワー
ド・パス・エントリを有することがある。
次に、第4図のスタック・デコーダ1002により実行
されるステップについて説明する。
尤度包絡IWを形成し、どのワード・パスか良いかを決
定することは、第9図のスタック復号手法の流れ図に示
すように相互関係を有する。
第9図の流れ図において、ブロック1050で、最初に
、ナル・パスが第1のスタック(0)に入る。
ブロック1052で、前に確定されている完全なパスを
含む(完全な)スタック要素が、もしあれば供給される
。(完全な)スタック要素中の完全なパスの各々は、そ
れに関連する尤度ベクトルを有する。その境界ラベルに
最高の尤度を有する完全なパスの尤度ベクトルは、最初
に最大色)絡線を決める。もしく完全な)スタック要素
に完全なパスがなければ、最尤包絡線は各ラベル間隔で
−ωに初期設定される。更に、完全なパスが指定されて
いない場合にも、最尤包絡線が−ωに初期設定されるこ
とがある。包絡線の初期設定はブロック1054および
1056で行なわれる。
最尤包絡線は、初期設定された後、所定の量Δだけ減少
され、減少された尤度を超えるΔ規定の良い領域を形成
し、減少された尤度を下まわるΔ規定の悪い領域を形成
する。Δが太きければ太きいほど、延長が可能とみなさ
れるワード・パス数が大きくなる。L を確定するのに
logloを用いる場合、Δの値が2.0であれば満足
すべき結果が得られる。Δの値がラベル間隔の長さに沿
って均一であることは、望ましいけれども、必ずしも必
要ではない。
ワード・パスがその境界ラベルに、Δ規定の良い領域内
にある尤度を有する場合、そのワード・パスは“良い”
とマークされる。その他の場合は、ワード・パスは”悪
い“とマークされる。
第9図に示すように、尤度包絡線を更新し、ワード・パ
スを“良い″(延長が可能な)パス、または”悪い”パ
スとしてマークするループは、マークされていない最長
ワード・パスを探すブロック1058で始まる。2以上
のマークされていないワード・パスが、最長のワード・
パス長に対応するスタックにある場合、その境界ラベル
に最高の尤度を有するワード・パスが選択される。ワー
ド・パスが発見された場合、ブロック1060で、その
境界ラベルでの尤度がΔ規定の良い領域内にあるかどう
かを調べる。もし良い領域内になければ、ブロック10
62で、Δ規定の悪い領域内のパスとマークし、ブロッ
ク1058で、次のマークされていない生きているパス
を探す。もし良い領域内にあれば、ブロック1064で
、Δ規定の良い領域内のパスとマークし、ブロック10
66で、尤度包絡[−更新して、”良い”とマークされ
たパスの尤度値を包含する。すなわち、ラベル間隔ごと
に、更新された尤度値は、 (a)その尤度包絡線内の現在の尤度値と、(b)°良
い”とマークされたワード・パスに関連した尤度値 の間のより大きい尤度値として確定される。この動作は
ブロック1064および1066で行なわれる。包絡線
が更新された後、ブロック1058に戻り、マークされ
ていない最長、最良の生きているワード・パスを再び探
す。
このループは、マークされていないワード・パスがなく
なるまで反復される。マークされていないワード・パス
がなくなると、ブロック1070で、最短の“良い″と
マークされたワード・パスが選択される。もし、最短の
長さを有する2以上の”良い″ワード・パスがあれば、
ブロック1072で、その境界ラベルに最高の尤度を有
するワード・パスが選択され、選択された最短のパスは
延長される。すなわち、少なくとも1つの見込みのある
後続ワードが、前述のように、高速マツチング、言語モ
デル、精密マツチング、および言語モデル手順を良好に
実行することによシ確定される。見込みのある後続ワー
ドごとに、延長されたワード・パスが形成される。詳細
に述べれば、延長されたワード・パスは、選択された最
短ワード・パスの末尾に、見込みのある後続ワードを付
加することにより形成される。
選択された最短ワード・パスが、延長されたワード・パ
スを形成した後、該選択されたワード・パスは、それが
エントリであったスタックから除去され、その代シに、
各々の延長されたワード・パスは適切なスタックに挿入
される。特に、延長されたワード・パスは、その境界ラ
ベルに対応するスタックへのエントリになる(ブロック
1072)。
延長されたパスが形成され、そのスタックが再形成され
た後、ブロック1052に戻り、プロセスが反復される
従って、反復ごとに、最短、最良の”良い″ワード・パ
スが選択され、延長される。ある反復で“悪い″パスと
マークされたワード・パスは後の反復で”良い″パスに
なることがあるので、生きているワード・パスが“良い
″パスか、゛悪い”パスかという特徴は、各々の反復で
独自に付与される。実際には、尤度包絡線は1つの反復
と次の反復とで大幅には変化しないので、ワード・パス
が良いか悪いかを決定する計算が効率的に行なわれ、正
規化も不快になる。
完全な文を識別する場合、ブロック1074を包含する
ことが望ましい。すなわち、生きているワード・パスで
マークされずに残っているものはなく、延長すべき”良
い”ワード・パスがない場合、複号は終了する。その境
界ラベルのそれぞれに最高の尤度を有する完全なワード
・パスが、入力ラベル・ストリングの最も見込みのある
ワード・シーケンスとして識別される。
文終了が識別されない連続音声の場合、パス延長は、継
続して行なわれる、すなわち、そのシステムのユーザが
希望する所定のワード数について行なわれる。
Flb、聴覚モデルおよび音声認識システムの音響プロ
セッサにおけるその実現(第10図〜第16図)第10
図は、前述のような音響プロセッサ1100の特定の実
施例を示す。音響波入力(例えば自然の音声)が、所定
の速度でサンプリングするA / D変換器1102に
入る。代弐的なサンプリング速度は毎50マイクロ秒当
り1サンプルである。ディジタル信号の端を整形するた
めに、時間窓発生器1104が設けられている。時間窓
発生器1104の出力は、時間窓ごとに周波数スペクト
ル出力を与えるFFT (高速フーリエ変換)装置11
06に入る。
そして、FFT装置1106の出力は、ラベルL 1L
 2・・・・L、を生成するように処理される。特徴選
択装置1108、クラスタ装置1110、原型装[11
12および記号化装置1114は共同してラベルを生成
する。ラベルを生成する際、原型は、選択された特徴に
基づき空間に点(またはベクトル)として形成される。
音響入力は、選択された同じ特徴により、原型に比較し
7うる対応する点(またはベクトル)を空間に供給する
ように特徴づけられている。
詳細に言えば、原型を定義する際、クラスタ装置111
0により点のセットをそれぞれクラスタとしてまとめる
。クラスタを形成する方法は、音声に適用される(ガウ
ス分布のよりな)確率分布に基づいている。各クラスタ
の原型は、(クラスタの中心軌跡または他の特徴に関連
して)原型装置1112により生成される。生成された
原型および音響入力(どちらも同じ特徴が選択されてい
る)は記号化装置1114に入る。記号化装置1114
は比較手順を実行し、その結果、特定の音響入力にラベ
ルを割当てる。
ちなみに、音響入力にラベルを割当てる手法は音声認識
以外の応用のために考案されている。従って、このよう
な手法ならびにそのための記号化装置は一般に音声認識
システムに利用することができる。
適切な特徴の選択は、音4f(音声)波入力を表わすラ
ベルを取出す際の重要な要素である。ここに説明する音
響プロセッサは改良された特徴選択装置1108e含む
。この音響プロセッサに従って、聴覚モデルが取出され
、音声認識システ、ムの音響プロセッサで使用される。
第11図により聴覚モデルを説明する。
第11図は人間の内耳の部分を示す。詳細に述べれば、
白毛細胞1200と、液体を含有する溝1204に広が
る末端部1202が詳細に示されている。また、白毛細
胞1200から上流には、外系細胞1206と、溝12
04に広がる末端部1208が示されている。白毛細胞
1200と外系細胞1206には、脳に情報を伝達する
神経が結合している。特に、ニューロンが電気化学的変
化を受け、電気パルスが神経に沿って脳に運ばれ、処理
されることになる。電気化学的変化は、基底膜1210
の機械的運動により刺激される。
基底膜1210か音響波入力の周波数分析器として作用
し、基底膜1210に沿った部分がそれぞれの臨界周波
数バンドに応答することは従来から知られている。対応
する周波数バンドに応答する基底膜1210のそれぞれ
の部分は、音響波形入力を知覚する音量に影響を与える
。すなわち、トーンの音量は、類似のパワーの強度の2
つのトーンが同じ周波数バンドを占有する場合よりも、
2つのトーンが別個の臨界周波数バンドにある場合の方
が大きく知覚される。基底膜1210によシ規定された
22の等級の臨界周波数バンドがあることが分っている
基底膜1210の周波数レスポンスに合わせて、本発明
は良好な形式で、臨界周波数バンドの一部または全部に
入力された音響波形を物理的に定め、次いで、規定され
た臨界周波数バンドごとに別個に信号成分を検査する。
この機能は、FFT装置1106(第10図)からの信
号に3m切に濾波し、検査された臨界周波数バンドごと
に特徴選択装置1108に別個の信号を供給することに
より行なわれる。
別個の入力も、時間窓発生器1104により(できれば
25.6ミlJ秒の)時間フレームにブロックされる。
それゆえ、特徴選択装#1108は22の信号を含むこ
とが望ましい。これらの信号の各々は、時間フレームご
とに所与の周波数バンドの音の強さ全光わす。
信号は、第12図の通常の臨界バンド・フィルタ150
0により濾波することが望ましい。次いで、信号は個別
に、音量の変化を周波数の関数として知覚する音量等化
変換器1602により処理する。ちなみに、1つの周波
数で所与のdBレベルの第1のトーンの知覚された音量
は、もう1つの周波数で同じdBレベルの第2のトーン
の音tと異なることがある。音量等化変換器1602は
、経験的なデータに基づき、それぞれの周波数バンドの
信号を変換して各々が同じ音量尺度で測定されるように
する。例えば、音量等化変換器1602は、1965年
のフレクチャおよびムンンン(Fletcher  a
nd Munson−)の研究に多少変更を加えること
によシ、音響エネルギを同等の音量に写像することがで
きる。第13図は前記研究に変更を加えた結果を示す。
第13図により、40clRでI KHzのトーンは6
0dBで100Hzのトーンの音量レベルに対応するこ
とが分る。
音量等化変換器1302は、第16図に示す曲線に従っ
て音量を調整し、周波数と無関係に同等の音量を生じさ
せる。
周波数への依存性のほか、第13図で特定の周波数を調
べれば明らかなように、パワーの変化は音量の変化に対
応しない。すなわち、音の強度、すなわち振幅の変動は
、すべての点で、知覚された音量の同様の変化に反映さ
れない。例えば、100 Hzの周波数では、110d
B付近における10dBの知覚された音量変化は、20
dB付近における10dBの知覚された音量変化よシも
ずっと太きい。この差は、所定の方法で音量を圧縮する
音量圧縮装置1304により処理する。音量圧縮装置1
604は、ホン単位の音量振幅測定値をンーン単位に置
換えることにより、パワーPをその立方根p 1/3に
圧縮することができる。
第14図は、経験的に決められた既知のホン対ソーンの
関係を示す。ソーン単位の使用により、本発明のモデル
は大きな音声信号振幅でもほぼ正確な状態を保持する。
1ソーンは、IKHzのトーンで40dBの音量と規定
されている。
第12図には、新規の時変レスポンス装r1t1306
が示されている。この装置は、各臨界周波数バンドに関
連した音量等化および音量圧縮信号により動作する。詳
細に述べれば、検査された周波数バンドごとに、神経発
火率fが各時間フレームで決められる。発火率fは本発
明の音響プロセッサに従って次のように定義される。
r = (SO+DL )n           (
i)ただし、nは神経伝達物質の量;Soは音響波形入
力と無関係に神経発火にかかわる自発的な発火定数;L
は音量測定値;Dは変位定数である。
5o−nは音響波入力の有無に無関係に起きる自発的な
神経発火率に相当し、DLnは音響波入力による発火率
に相当する。
重要な点は、本発明では、nの値は次式により時間とと
もに変化するという特徴を有することである。
dn/dt=Ao−(So+Sh+DL)n    (
2)ただし、Aoは補充定数;Shは自発的な神経伝達
物質減衰定数である。式(2)に示す新しい関係は、神
経伝達物質が一定の割合Aoで生成されながら、(a)
減衰(Sh−n)、(b)自発的な発火(So・n)、
および(c)音響波入力による神経発火(DL・n)に
より失われることを考慮している。これらのモデル化さ
れた現象は第11図に示された場所で起きるものと仮定
する。
式(2)で明らかなように、神経伝達物質の欠食および
次発火車が少なくとも神経伝達物質の現量の自乗に比例
しており、本発明の音響プロセッサが非線形であるとい
う事実を示している。すなわち、状態(t+Δt)での
神経伝達物質の量は、状態(t+dn/dt・Δt)で
の神経伝達物質の量に等しい。よって、 n(t+Δt ) = n(tl+ (dn/d t 
) ・Δt(3)が成立する。
式(i)、(2)および(6)は、時変信号分析器の動
作を衣わす。時変信号分析器は、聴覚器官系が時間に適
応性を有し、聴神経の信号が音響波入力と非直線的に関
連させられるという事実を示している。
ちなみに、本発明の音響プロセッサは、神経系統の明白
な時間的変化によりよく追随するように、音声認識シス
テムで非線形信号処理を実施する最初のモデルを提供す
るものである。
式(i)および(2)において未知の項数を少なくする
ため、本発明では、一定の音[Lに適用される次式を用
いる。
So+Sh+DL= 1/T         (4)
ただし、Tはオーディオ波入力が生成された後、聴覚レ
スポンスがその最大値の57%に低下するまでの時間の
測定値である。・Tは、音量の関数であり、本発明の音
響プロセッサにより、種々ノ音量レベルの17スボンス
の減衰’r[示する既知のグラフから取出す。すなわち
、一定の音量のトーンが生成されると、最初、高いレベ
ルのレスポンスが生じ、その後、レスポンスは時定数T
によシ、安定した状態のレベルに向って減衰する。音響
波入力がない場合、T=Toである。これは50ミリ秒
程度である。音量がL  の場合、T=TmaXmax である。これは30ミリ秒程度である。AO=1に設定
することにより、1/(So+Sh)は、L=0の場合
、5センチ秒と決定される。LがLmaxで、L  =
20ソーンの場合、次式が成立つ。
a X So + Sh + D (20) = 1/30  
     (5)前記データおよび式により、SOおよ
びshは下記に示す式(6)および(力により決まる。
So=DLmaX/〔R+(DLm8xToR)−1〕
(6)S h =1 / T o  S o     
     (7)ただし、 f安定状態は、d n / d tがOの場合、所与の
音量での発火率を表わす。
Rは、音響プロセッサに残っている唯一の変数である。
それゆえ、このプロセッサの性能はRを変えるだけで変
更される。すなわち、Rは、性能を変更するのに調整す
ることができる1つのパラメータで、通常は、過渡状態
の効果に対し安定状態の効果を最小限にすることを意味
する。類似の音声入力の場合に出カバターンが一貫性に
欠ける 、ことは一般に、周波数レスポンスの相違、話
者の差異、背景雑音ならびに、(音声信号の安定状態部
分には影響するが過渡部分には影響しない)歪みにより
生ずるから、安定状態の効果を最小限にすることが望ま
しい。Rの値は、完全な音声認識システムのエラー率を
最適化するように設定することが望ましい。このように
して見つかった最適値はR= 1.5である。その場合
、SoおよびshO値はそれぞれ0.0888および0
.11111であり、Dの値は0. OO666が得ら
れる。
第15図は本発明による音響プロセッサの動作の流れ図
である。できれば、20KHzでサンプリングされた、
25.6ミリ秒の時間フレーム中のディジタル化音声は
、ハニング窓1320’i通過し、その出力は10ミリ
秒間隔で、DFT1322において2重フーリエ変換さ
れることが望ましい。
変換出力はブロック1324で濾波され、少なくとも1
つの周波数バンド(できればすべての臨界周波数バンド
か、または少なくとも20のバンド)の各々にパワー密
度出力を供給する。次いで、パワー密度はブロック15
26で、記録された大きさから音量レベルに変換される
。この動作は、第16図のグラフの変更によシ容易に実
行される。
その彼のプロセスの概要(ブロック1560の限界値更
新を含む)は第16図に示されている。
第16図において、最初に、濾波された周波数バンドm
の各々の感覚限界Tfおよび可聴限界Thがそれぞれ、
120dBおよびOdBになるように設定される(ブロ
ック1340)。その後、音声カウンタ、合計フレーム
・レジスタおよびヒストグラム・レジスタをリセットす
る(ブロック1342)。
ヒストグラムの各々はビン(bjn)i含み、ビンの各
々は、(所与の周波数バンドで)パワーまたは類似の測
定値がそれぞれのレンジ内にある間のサンプル数すなわ
ちカラントラ表わす。本発明では、ヒストグラムは、(
所与の周波数バンドごとに)音量が複数の音量レンジの
各々の中にある期間のセンチ秒数を表わすことが望まし
い。例えば、第6の周波数バンドでは、10dBと20
dBのパワーの間が720センチ秒の場合がある。同様
に、第20の周波数バンドでは、50dBと60dBの
間に、合計1000センチ秒のうちの150センチ秒が
ある場合がある。合計サンプル数(すなわちセンチ秒)
およびビンに含まれたカウントから百分位数が取出され
る。
ブロック1644で、それぞれの周波数バンドのフィル
タ出力のフレームが検査され、ブロック1346で、適
切なヒストグラム(フィルタ当り1つ)中のビンが増分
される。ブロック1648で、振幅が55dBを越える
ビンの合計数がフィルタ(すなわち周波数バンド)ごと
に集計され、音声の存在を示すフィルタ数を決定する。
ブロック1350で、音声の存在を示す最小限(例えば
20のうちの6)のフィルタがない場合、ブロック16
44で次のフレームを検査する。音声の存在を示す十分
なフィルタがある場合、ブロック1352で、音声カウ
ンタを増分する。音声カウンタは、ブロック1354で
音声が10秒間現われ、ブロック1356で新しいT 
およびThの値がフィルタごとに決定されるまで増分さ
れる。
所与のフィルタの新しいT およびT、の値は次のよう
に決定される。T、の場合、1000ビンの最上位から
35番目のサンプルを保持するビンのdB値(すなわち
、音量の96.5番目の百分位数)はBrNHと定義さ
れ、T、はT、=BINH+40dBに設定される。T
、の場合、最下位のビンから(0,01)(ビン総数−
音声カウント)番目の値を保持するビンのdB値がBI
NLと定義される。
すなわち、BrNLは、ヒストグラム中の、音声として
分類されたものを除いたサンプル数の1%のビンである
。T はT  =BINL−30dBと定義h される。
第15図のブロック1330および1652で、音の振
幅は、前述のように、限界値を更新し、更新された限界
値に基づいてノーン単位に変換され、圧縮される。ノー
ン単位を導入し圧縮する代替方法は、(ビンが増分され
だ後)フィルタ振幅”a”を取出し、次式によりdBに
変換する。
d B                  (91a
  = 20 iog1o(a)  10次に、フィル
タ振幅の各々は、次式により同等の音量を与えるように
OdBと120 dBの間のレンジに圧縮される。
aeq−120(adB−T  )/(’r −’r 
)(io)h       fh 次に、aeqIは次式によシ、音量レベル(ホン単位)
からノーン単位の音量の近似値に変換(40dBでIK
Hzの信号を1に写像)することが望ましい。
LdB= (aeq’ −30)/ 4     C1
1)次に、ノーン単位の音量の近似値L は次式で与え
られる。
L  =10(LdB)/20      (i2)ス
テップ1334で、L は式(i)および(2)の入力
として使用され、ブロック1335で、周波数バンドご
との出力発火率fを決定する。22周波数バンドの場合
、22次元のベクトルが、連続する時間フレームにわた
る音響波入力を特徴づける。
しかしながら、一般に、20周波数バンドは、メルでス
ケーリングされた通常のフィルタ・バンクを用いて検査
する。
ブロック1366で次の時間フレームを処理する前に、
ブロック1367で、nの“次状態”を式(!I)に従
って決定する。
前述の音響プロセッサは、発火率fおよび神経伝達物質
量nが大きいDCペデスタルを有する場合の使用につい
ての改善を必要とする。すなわち、fおよびnの式の項
のダイナミックレンジが重要な場合、下記の式を導いて
ペデスタルの高さを下げろ。
安定状態で、かつ音響波入力信号が存在しない(L=0
 )場合、式(2Jは次のように安定状態の内部状態n
′について解くことができる。
n’  =A/(So  +  sh  )     
            (i3ン神経伝達物質の量n
 (tJの内部状態は、次のように安定状態部分および
変動部分として示される。
n (t)= n’ + n”(t)        
   (i4)式(i)および(i4)’に結合すると
、次のように発火率が得られる。
f(t)=(So+D−L) (n’ +n”(t))
    (i5)So−n′の項は定数であるが、他の
すべての項は、nの変動部分か、または(D−L)によ
シ表わされた入力信号を含む。爾後の処理は出力ベクト
ル間の差の自乗のみに関連するので、定数項は無視され
る。式(i5)および(i3)から次式が得られる。
f″(t)=(So+D−L)・〔(n′(t)+D−
L−Al/(So+Sh):]          (
i6)式(3)を考慮すると、“次状態”は次のように
なる。
n(t+Δt)=n’(t+Δt) + n” (t+Δt )        (i7)n
(t+Δt ) = n”(t)+A −(So+Sh
+D−L) ・(n’+n”(t))   (i8)n
(t+Δt ) −n”(t)  (5h−n″ft)
−(So+Ao−LA) ・n”(t)−(Ao−LA
−D)/(So+Sh)+Ao−(So−Ao )+(
5h−Ao))/(So+Sb )         
 (i9)式(i9)はすべての常数項を無視すれば次
のようになる。
n”(t + Δt ) = n”(t)(i−8o・
Δt)−r”(t)              (2
0)式(i5)および(20)は、それぞれの10ミリ
秒時間フレーム中に各フィルタに適用される出力式およ
び状態更新式を構成する。これらの式の使用結果は10
ミリ秒ごとの20要素のベクトルであり、このベクトル
の各要素は、メルでスケーリングされたフィルタ・バン
クにおけるそれぞれの周波数バンドの発火率に対応する
前述の実施例に関し、第16図の流れ図は、発火率fお
よび”次状態″n(t+Δt)の特別の場合の式をそれ
ぞれ定義する式(i1)および(i6)によシ、f、d
n/dtおよびn(t+Δt)の式を置換える以外は当
てはまる。
それぞれの式の項に特有の値(すなわち、1O−5cs
ecs  tL=3 csec、Ao= 1% R=1
.5およびL   =20)は他の値に設定することが
ax でき、So、ShおよびDの項は、他の項が異なった値
に設定されると、それぞれの望ましい値060888.
0.11111、および0.00666とは異なる値に
なる。
本発明は種々のソフトウェアまたはハードウェアにより
実施することができる。
Flc、精密マツチング(第6図、第17図)第6図は
一例として精密マツチング音素マシン2000を示す。
音標型マツチングの各マシンは、確率的な有限状態マシ
ンであり、 (a)複数の状態S、; ! (bl複数の遷移tr(s、ls、):ある遷移は異な
つた状態間で、ある遷移は同じ状態間で遷移し、各遷移
は対応する確率を有する; (c)特定の遷移で生成しうるラベルごとに対応する実
際のラベル確率 を有することを特徴とする。
第6図では、7つの状態81〜S7ならびに13の遷移
tri〜tr13が精密マツチング音素マシン2000
に設けられ、その中の6つの遷移t「11、tr12お
よびtr1!+のパスは破線で示されている。これらの
6つの遷移の各々で、音素はラベルを生成せずに1つの
状態から別の状態に変ることがある。従って、このよう
な遷移はナル遷移と呼ばれる。遷移tr1〜tr10に
沿って、ラベルを生成することができる。詳細に述べれ
ば、遷移tr1〜tr10の各々に沿って少なくとも1
つのラベルは、そこに生成される独特の確率を有するこ
とがある。遷移ごとに、システムで生成することができ
る各ラベルに関連した確率がある。すなわち、もし選択
的に音響チャンネルによシ生成することができるラベル
が200あれば、(ナルではない)各遷移はそれに関連
した“実際のラベル確率″7f!:200有し、その各
々は、対応するラベルが特定の遷移で音素により生成さ
れる確率に対応する。遷移triの実際のラベル確率は
、図示のように、記号Pと、それに続くブラケットに囲
まれた1〜200の列で表わされる。これらの数字の各
々は所与のラベルを表わす。ラベル1の場合は、精密突
合せ音素マシン2000が遷移triでラベル1を生成
する確率P〔1」がある。種々の実際のラベル確率は、
ラベルおよび対応する遷移に関連して記憶されている。
ラベルY1Y2Y3・・・・のストリングが、所与の音
素に対応する精密突合せ音素マシン2000に提示され
ると、突合せ手順が実行される。精密突合せ音素マシン
に関連した手順について第17図により説明する。
第17図は第6図の音素マシンのトレリス図である。前
記音素マシンの場合のように、このトレリス図も状態S
 から状態S7へのナル遷移、状態S から状態S へ
の遷移、および状態S1から状態S4への遷移を示す。
他の状態間の遷移も示されている。また、トレリス図は
水平方向に、測定された時刻を示す。開始時確率q。、
およびq は、音素がその音素の時刻1=1oまたはt
=t1のそれぞれにおいて開始時刻を有する確率を表わ
す。各開始時刻におけるそれぞれの遷移も示されている
。ちなみに、連続する開始(および終了)時刻の間隔は
、ラベルの時間間隔に等しい長さであることが望ましい
精密マツチング音素マシン2000を用いて所与の音素
が到来ストリングのラベルにどれくらいぴったりとマツ
チングするかを決定する際、その音素の終了時刻分布を
探索して、その音素のマツチング値を決めるのに使用す
る。終了時刻分布に依存して精密マツチングを実行する
方法は、マツチング手順に関して本発明で説明するすべ
ての音素マシンの実施例に共通である。精密なマツチン
グを実行するため終了時刻分布を生成する醗、精密マツ
チング音素マシン2000は、正確で複雑なgt算を必
要とする。
最初に、第17図のトレリス図により、時刻t=toで
開始時刻および終了時刻を得るのに必要な計算について
調べる。第6図に示された音素マシン構造の例の場合は
、下記の確率式が当てはまる。
P r (S 7、t = t o ) = q o−
T (i→7)+ P r (S  t =t o )
・T(2→7)2ゝ + P r (S  t =t o )・T(5→7)
3゛ ただし、Prは確率を表わし、Tは括弧内の2つの状態
の間の遷移確率を表わす。この式は、を−toで終了時
刻になることがある3つの状態のそれぞれの確率を示す
。更に、1=1oの終了時刻は、状態S7における現在
の生起例に限定される。
次に、終了時刻t=t1を調べると、状態S1以外のあ
らゆる状態に関する計算を行なわなければならない。状
態S1は前の音素の終了時刻で開始する。説明の都合上
、状態S4に関する計算だけを示す。
S4の場合、計算は次のようになる。
Pr(S4、t=t1)=Pr(Sl、1=10)−T
(i−4)・Pr(yl、1→4) +Pr(S、s、1=10)・T(4→4)・Pr(y
l、4−4)        (22)式(22)は、
時刻1=1  で音素マシンが状態S4である確率は下
記の2つの項: (at時刻1=1  で状態S1である確率に、状態S
 から状態S4への遷移確率を乗じ、更に、生酸中のス
トリング中の所与のラベル−y−が状態S から状態S
4へ遷移する確率を乗じて得た値と、(b)時刻1=1
  で状態S4である確率に、状態S4からそれ自身へ
の遷移確率を乗じ、更に、状態S4からそれ自身に遷移
するものとしてその間に所与のラベル−y−を生成する
確率を乗じて得た値と の相によって決まることを示す。
同様に、(状態S1を除く)他の状態に関する計算も実
行され、その音素が時刻1=11で特定の状態である対
応する確率を生成する。一般に、所与の時刻に対象状態
である確率を決定する際、精密なマツチングは、 (aJ対象状態に導く遷移を生じる前の各状態および前
記前の各状態のそれぞれの確率を認識し、(b)前記前
の状態ごとに、そのラベル・ストリングに適合するよう
に、前記前の各状態と現在の状態の間の遷移で生成しな
ければならないラベルの確率を表わす値を認識し、 (c)前の各状態の確率とラベル確率を表わすそれぞれ
の値を組合せて、対応する遷移による対象状態の確率を
与える。
対象状態である全体的な確率は、それに導くすべての遷
移による対象状態確率から決定される。
状態S7に関する計算は、3つのナル遷移に関する項を
含み、その音素が状態S7で終了する音素により時刻1
=11で開始・終了することを可能にする。時刻1=1
  および1=11に関する確率を決定する場合のよう
に、他の終了時刻の組の確率の決定は、終了時刻分布を
形成するように行なうことが望ましい。所与の音素の終
了時刻分布の値は、所与の音素がどれ位良好に到来ラベ
ルにマツチングされるかを表示する。
ワードがどれ位良好に到来ラベルにマツチングされるか
を決定する際、そのワードを表わす音素は順次に処理さ
れる。各音素は確率値の終了時刻分布を生成する。音素
のマツチング値は、終了時刻確率?合計し、その合計の
対数をとることにより得られる。次の音素の開始時刻分
布は終了時刻分布を正規化することにより引出される。
この正規化では、例えば、それらの値の各々を、それら
の合計で割ることによりスケーリングし、スケーリング
された値の合計が1になるようにする。
所与のワードまたはワード・ストリングの検査すべき音
素数りを決定する方法が少なくとも2つある。深さ優先
方法では、計算は基本形式に沿って行なう(連続する音
素の各々により連続して小計を計算する)。この小計が
それに沿った所与の音素位置の所定の限界値以下である
と分った場合、計算は終了する。もう1つの方法、幅優
先方法では、各ワードにおける類似の音素位置の計算を
行なう。計算は、各ワードの第1の音素の計算、続いて
各ワードの第2の音素の計算というように、順次に行な
う。幅優先方法では、それぞれのワードの同数の音素に
沿った計算値は、相対的に同じ音素位置で比較する。い
ずれの方法でも、マツチング値の最大の祁?有するワー
ドが、求めていた目的ワードである。
精密なマツチングはAPAL(アレイ・プロセッサ・ア
センブリ言語)で実現されている。これは、フローティ
ング・ポイント・システムズ社(Floating  
 Po1nt   Systemss  Inc、  
ン  11騒のアセンブラ190Lである。ちなみに、
精密マツチングは、実際のラベル確率(すなわち、所与
の音素が所与の遷移で所与のラベルyk生成する確率)
、音素マシンごとの遷移確率、および所与の音素が所定
の開始時刻後の所与の時刻で所与の状態である確率の各
々を記憶するためにかなシのメモリを必要とする。前述
の190Lは、終了時刻、できれば終了時刻確率の対数
和に基づいたマツチング値、前に生成された終了時刻確
率に基づいた開始時刻、およびワード中の順次音素のマ
ツチング値に基づいたワードマツチング得点のそれぞれ
の計算をするようにセットアツプされる。更に、精密な
マツチングは、マツチング手順の末尾確率を計算するこ
とが望ましい。末尾確率はワードとは無関係に連続する
ラベルの尤度を測定する。
簡単な実施例では、所与の末尾確率はもう1つのラベル
に続くラベルの尤度に対応する。この尤度は、例えば、
成るサンプル音声にょシ生成されたラベルのストリング
から容易に決定される。
それ故、精密なマツチングでは基本形態、マルコフ・モ
デルの統計値、および末尾確率を含むのに十分な記憶装
置を備える。各ワードが約10の音素を含む5000ワ
ードの語粟の場合、基本形Mは5000X10の記憶量
を必要とする。(音素ごとにマルコフ・モデルを有する
)70の別個の音素、200の別個のラベル、および任
意のラベルが生成する確率を有する1oの遷移がある場
合、統計値は70X10x200の記憶ロケーションを
必要とすることになる。しかしながら、音素マシンは6
つの部分(開始部分、中間部分および終了部分)に分割
され、統計表はそれに対応することが望ましい。(3つ
の自己ループの1つが連続する部分に含まれることが望
ましい。)従って、記憶要求は70X3X200に減少
する。末尾確率に関しては、200X200の記憶ロケ
ーションが必要である。この配列では、50にの整数お
よび82にの浮動小数点の記憶領域があれば満足に動作
する。
更に、従来のシステムは7oの異なった音素を含んでい
るが、本発明はそれぞれの音素マシンにより約96の音
素を供給する。
Fld、基本高速マツチング(第18図〜第20図) 精密マツチングの計算には高い費用がかかるから、精度
をあまり犠牲にしないで所要の計算を少なくする基本高
速qツチングおよび代替高速マツチングを行なう。高速
マツチングは精密マツチングに関連して使用することが
望ましい。高速マツチングは、語葉から見込みのある候
補ワードを取出してリストに載せ、精密マツチングは大
抵の場合、このリストの候補ワードで実行される。
高速概算音響マツチング手法は前記米国特許出願第06
/672974号(i984年11月19日出願)に記
載されている。高速概算音響マツチングでは、各音素マ
シンは、所与の音素マシンにおけるすべての遷移でラベ
ルごとの実際のラベル確率を特定の置換え値と取替える
ことばより簡略化することが望ましい。特定の置換え値
は、その置換え値を使用する場合に所与の音素のマツチ
ング値が、その置換え値が実際のラベル確率を取替えな
い場合の精密マツチングにより得られるマツチング値を
過大評価するように選択することが望ましい。この条件
を保証する1つの方法q、所与の音素マシン中の所与の
ラベルに対応する確率がどれもその[換え値よりも大き
くないように各々の置換え値を選択する方法である。音
素マシン中の実際のラベル確率を、対応する置換え値と
取替えることにより、ワードのマツチング得点全決定す
る際の所要計算tを太幅に減少することができる。更に
置換え値は過大評価することが望ましいので、その結果
得られたマツチング得点は、前に置換えずに決定された
場合よりも少なくなる。
マルコフ・モデルを有する言語デコーダで音響マツチン
グを実行する特定の実施例において、各音素は、整形に
より、 (a)複数の状態および状態間の遷移パス、(b)確率
T(i4j) −その各々は、現在の状態S、が与えら
れると状態S、に遷移する確率をI         
              J表わす(ただし、・S
、とS、は同じ状態の場合もめl     」 れば異なった状態の場合もある)−を有する遷移tr(
S、lS、)、 tc)実際のラベル確率(各々の実際のラベル確率p(
ykIi−j)は所与の音素マシンにより、1つの状態
から次の状態への所与の遷移においてラベルy%にはラ
ベルを識別する記号)を生成する確率全表わす)を生じ
ることを特徴とする。
各音素マシンは、 (a)前記各音素マシン中の各y、に1つの特定の値p
′(yk)を割当てる手段、 (b)所与の音素マシン中の各遷移で各々の実際の出力
確率p(y  It−j)金、対応するykに割に 当てられた1つの特定の値p’ (yB、 )に取替え
る手段 を含む。置換え値は、少なくとも、特定の音素マシン中
の任意の遷移で対応するykラベルの実際の最大ラベル
確率の大きさであることが望ましい。高速マツチング実
施例は、到来ラベルに対応する語檗で最も起こりうるワ
ードとして選択された10乃至100程度の候補ワ:ド
のリスH−形成するように使用される。候補ワードは言
語モデルおよび精密なマツチングに従属することが望ま
しい。精密なマツチングで考慮するワード数を、語檗中
のワードの約1%に切詰めることにより、計算費用は、
精度を維持しながら太幅に減少される。
基本高速マツチングは、すべての遷移における所与のラ
ベルの実際のラベル確率を1つの値と置換えることによ
り簡略化し、所与のラベルを所与の音素マシンで生成す
ることができる。すなわち、ラベルが生じる確率を有す
る所与の音素マシンにおける遷移とは無関係に、その確
率を、1つの特定の値に置換える。この値は少なくとも
、所与の音素マシン中の任意の遷移で生ずるラベルの最
大の確率の大きさの過大評価値であることが望ましい。
ラベル確率置換え値を、所与の音素マシン中の所与のラ
ベルの実際のラベル確率の最大値として設定することに
よシ、基本高速マツチングによシ生成されたマツチング
値が少なくとも、精密なマツチングの使用から生じるよ
うなマツチング値と同じ大きさであることが保証される
。このように、基本高速マツチングは一般に各音素のマ
ツチング値を過大評価するので、より多くのワードが一
般に、候補ワードとして選択される。精密なマツチング
により候補とみなされるワードも、基本高速マツチング
に従って合格する。
第18図は基本高速マツチング音素マシン6000を示
す。ラベル(記号およびフィーニームとも呼ばれるンは
開始時刻分布と一緒に基本高速突合せ音素マシン300
0に入る。開始時刻分布およびラベル・ストリングの入
力は、前述の精密マツチング音素マシンの入力に似てい
る。開始時刻は、時には、複数の時刻にわたる分布では
ないことがあるが、その代り、例えば、沈黙間隔に続く
正確な(音素開始)時刻を表わすこともある。しかしな
がら、音声が連続している場合、終了時刻分布は、(後
に詳細に説明するように)開始時刻分布を形成するのに
用いられる。基本高速マツチング音素マシン6000は
、終了時刻分布を生成するとともに、生成された終了時
刻分布からの特定の音素のマツチング値を生成する。ワ
ードのマツチング得点は、構成する音素(少なくともそ
のワードの最初のh音素)のマツチング値の和として定
義される。
第19図は基本高速マツチ、ング計″11.ヲ示す。基
本高速マツチング計算は、開始時刻分布、音素により生
成されたラベルの数または長さ、および各々のラベルy
 に関連した置換え値p’(yk)だけに関連する。所
与の音素マシン中の所与のラベルの実際のラベル確率を
すべて、対応する置換え値と取替えることによシ、基本
高速マツチングは、遷移確率を長さ分布確率と取替える
ので、(所与の音素マシンで遷移ごとに異なることがあ
るう実際のラベル確率、ならびに所与の時刻に所与の状
態にある確率を含むことが不要になる。
ちなみに、長さ分布は精密なマツチングモ、デルから決
定される。詳細に説明すれば、長さ分布の長さごとに、
この手順は、各状態を個々に検査し、状態ごとに、それ
ぞれの遷移パスを決定することが望ましい。それにより
、現に検査された状態は、(a)特定のラベルの長さを
与えられると、(b)遷移に沿った出力と無関係に生ず
ることがある。各々の目的状態への特定の長さのすべて
の遷移パスの確率は合計され、次いで、すべての目的状
態の合計は加算され、分布中の所与の長さの確率f!:
表わす。以上の手順は各々の長さについて反復実行され
る。良好なマツチング手順の形式に従って、これらの計
算は、マルコフ・モデリングの技術で知られているよう
にトレリス図に関して行なわれる。トレリス構造に沿っ
て分枝を共有する遷移パスの場合、共通分枝ごとの計算
は一度だけ行なえばよく、その結果は共通分枝を含む各
々のパスに加えられる。
第19図において、例として2つの制限が含まれている
。最初に、音素により生成されたラベルの長さは、それ
ぞれ確率1゜、11.12および16を有する0、1.
2、または6である場合がある。
開始時刻も制限され、それぞれが確率q。、ql、q 
およびq3を有する4つの開始時刻だけが許される。す
なわち、L(io、11.12.13)およびQ(q□
−ql、q2、q3)が仮定される。これらの制限によ
シ、目的音素の終r分布は下記の式のように定義される
’0=qO’0 翳=q11o+qo11p1 ’2”q2’O+91’ IP2+qO’2p1P20
6=q310+q211p3+q112p2p6+qO
’!l”1p2”3 ’4”q311p4+q2’2P3”4””ql 13
p2p5p4’5=q312P4p5+q2’りP3p
4p5’6=95’5p4P5Pに れらの式を調べると、Φ3は4つの開始時刻の各々に対
応する項を含んでいることが分る。その第1項は音素が
時刻L =t sで開始し、かつ長さ0のラベル(音素
は開始すると同時に終了するンを生成する確率を表わす
。第2項は音素が時刻t=L2で開始し、かつラベルの
長さが1であり、かつラベル3がその音素により生成さ
れる確率を衣わす。第3項は音素が時刻t=t1で開始
し、かつラベルの長さが2(すなわちラベル2および6
)であり、かつラベル2および3がその音素により生成
される確率を表わす。同様に、第4項は音素が時刻1 
= 10で開始し、かつラベルの長さが5であり、かつ
6つのラベル1.2および6がその音素により生成され
る確率を表わす。
基本高速マツチングに要する計算と精密マツチングに要
する計算を比較すると、前者は後者よシも相対的に簡単
であることが分る。ちなみに、p ’(y)の値は、す
べての式に出現するごとに、ラベルの長さの確率の場合
のように同じ値のままである。
更に、長さおよび開始時刻の制限により、後の終了時刻
計算がより簡単になる。例えば、Φ6で、音素は時刻t
=t3で開始し、3つのレベ〃4.5および6はすべて
、その終了時刻の音素によシ生成して使用しなければな
らない。
対象音素のマツチング値を生成する際、形成された終了
時刻分布に沿った終了時刻確率が合計される。必要なら
、次式のようにその対数をとる。
マツチング値=log1o(Φ0+・・・・+Φ6)前
述のように、ワードのマツチング得点は、特定のワード
中の連続する音素のマツチング値を合計することにより
容易に決定される。
次に、第20図により開始時刻分布の生成について説明
する。第20図In)において、ワードTHE1がその
構成音素に分解され、反復される。第20図(b)では
、ラベルのストリングが時間軸に沿って示されている。
第20図(e)は、最初の開始時刻分布を示す。最初の
開始時刻分布は、(沈黙ワードを含むことがある先行ワ
ードにおける)最新の先行音素の終了時刻分布から引出
されている。第20図(c)のラベル入力および開始時
刻分布に基づいて、音素DHの終了時刻分布ΦDHが生
成される(第20図(d))。次の音素UHIの開始時
刻分布は、前の音素終了分布が第20図(d)の限界値
Aを、起えた時刻を認識することによシ決定される。A
は終了時刻分布ごとに個々に決定される。Aは、対象音
素の終了時刻分布の値の相の関数である。従って、時刻
aと時刻すの間隔は、音素UH1の開始時刻分布が設定
される時間を表わす。第20図(e)において、時刻C
と時刻dの間隔は、音素DIの終了時刻分布が限界値A
i越え、かつ次の音素の開始時刻分布が設定される時間
に相当する。開始時刻分布の値は、例えば、限界値Aを
越える終了時刻の和で各終了時刻値を割って終了時刻分
布を正規化することにより得られる。
基本高速マツチング音素マシン6000は、前記フロー
ティング・ポイント・システムズ社の、APALプログ
ラムによるアセンブラ190Lで実現されている。また
、本明細書の説明に従って、他のハードウェアおよびソ
フトウェアを用いて本発明の特定の形式を展開すること
もできる。
Fle、代替高速マツチング(第21図、第22図)単
独で、またはできれば精密なマツチングおよび言語モデ
ルと共に使用された基本高速マツチングは、計算所要量
を大幅に少なくする。計算所要量を更に少なくするため
、本発明は更に、2つの長さく最小長L 、 および最
大炎L  )の間にmtn             
      max均一なラベル艮分布を形成すること
によジ精密なマツチングを簡略化する。基本高速マツチ
ングでは、所与の長さのラベル(すなわち、1o、11
.12等)を生成する確率は一般に異なる値を得る。
代替高速マツチングにより、ラベルの各々の長さの確率
fI:iつの均一な値と取替える。
最小長は、最初の長さの分布で非Oの確率を有する最小
の長さに等しいことが望ましいが、希望により、他の長
さを選択することもできる。最大炎の選択は最小長の選
択よりも任意であるが、最小よりも小さく最大よりも大
きい長さの確率は0に設定される。長さの確率が最小長
と最大炎の間にだけ存在するように設定することにより
、均一の擬似分布を示すことができる。一つの方法とし
て、均一確率は、擬似分布による平均確率として設定す
ることができる。代替方法として、均−確率は、長さ確
率の最大値として設定し、均一値と取替えることができ
る。
ラベルの長さの確率をすべて等しくすることによる効果
は、前述の基本高速マツチングにおける終了時刻分布の
式から容易に認められる。詳細に述べれば、長さの確率
は定数として取出すごとができる。
L、  全0にセットし、かつすべての長さの確 l 
n 率を1つの定数の値と取替えることにより、終了時刻分
布は次のように表示される。
θ =Φ /1=q +θ +p      (23)
mm          mmm ただし、”1″は1つの均一の置換え値であジ、p の
値は、所与の音素で時刻mに生成される所与のラベルの
置換え値に対応することが望ましい。
前述のθ の式の場合、マツチング値は次のように定義
される。
マツチング値” I C1g 1o (θ0+01+・
・・・十−)+ lo g 1o(i)      (
24)基本高速マツチングと代替高速マツチングを比較
すると、所要の加算および乗算数は、代替高速マツチン
グ音素マシンを使用することにより、大幅に少なくなる
。L 、 =00場合、基本高速マ l n ツチングは、長さの確率を考慮しなければならないので
、40回の乗算と20回の加算を必要としたが、代替高
速マツチングの場合は、θ が繰返し決定されるので、
連続するθ の各々について1回の乗算と1回の加算で
済むことが分る。
第21図および第22図は、代替高速マツチングによる
計算の簡略化を詳細に示す。第21図(、)は、最小長
L 、=0に相当する音素マシン61In 00の実施例を示す。最大長は、長さ分布が均一になる
ように無限大に仮定する。第21図(b)は、音素マシ
ン6100から生じるトレリス図を示す。
q 以後の開始時刻を開始時刻分布の外側と仮定すると
、m(nの場合、連続するθ の各々の決定はすべて、
1回の加算と1回の乗算で足りる。
それ以後の終f時刻を決定する場合は、1回の乗算だけ
でよく、加算は不要である。
第22図(a)は、最小長L 、=4の場合の特定 l
 n の音素マシン3200の実施例を示し、第22図(b)
は、それに対応するトレリス図を示す。L 。
 1 n =4であるから、第22図(b)のトレリス図は、記号
U、V、Wおよび2のバスに沿って0確率を生じる。θ
4とθ。の間の終了時刻の場合、4回の乗算と1回の加
算が必要である。n+4よりも大きい終r時刻の場合は
、1回の乗算だけでよく、加算は不安である。この実施
例は、前記FPS社の190L上のAPALコードで実
現されている。
所望の追加状態を第21図または第22図の実施例に付
加することができる。例えば、L 、のl n 値を変更せずに、ナル遷移を有する任意数の状態を包含
することができる。
Flf、最初のJレベルに基づいたマツチング(第22
図) 基本高速マツチングおよび代替高速マツチングを更に改
良するため、音素マシンに入るストリングの最初のJラ
ベルのマツチングだけを考慮するようにする。ラベルが
音響チャンネルの音響プロセッサによシ、毎センチ秒ご
とに1ラベルの割合で生成されるものと仮定すると、J
の妥当な値は100である。換言すれば、約1秒の音声
に対応するラベルが供給され、音素と音素マシンに入る
ラベルとのマツチングを確定する。検査するラベル数ヲ
限定することにより、2つの利点が得られる。第1は、
復号遅延の減少であり、第2は、短かいワードの得点と
長いワードの得点を比較する問題を十分に回避できるこ
とである。もちろん、Jの長ざは希望によシ変更するこ
とができる。
検査するラベル数を限定することによる効果は、第22
図(b)のトレリス図により観察することができる。本
発明による改良を伴なわない場合、高速マツチング得点
は、この図面の最下部の行に沿ったθ の確率の昶であ
る。すなわち、1=1o (L 、 =0の場合)また
はt=t  (L  、  =4mln       
              4    mtnの場合
)で開始する各時刻に状態S4である確率は、θ とし
て確定され、次いで、すべてのθ□は合計される。L、
=4の場合、t4以前の任 l n 意の時刻に状態S4である確率は0である。前記改良に
より、θ の利金とることは、時刻Jで終了する。第2
2図(b)で、時刻Jは時刻tn+2に相当する。
時刻Jまでの区間を越えたJラベルの検査を終了するこ
とにより、マツチング得点を決定する際に、下記の2つ
の確率の和が生じる。第1に、前述のように、このトレ
リス図の最下部の行に沿った行計算がある。しかし、こ
の計算は時刻J−1までである。時刻J−1までの各時
刻に状態S4である確率が合計され、行得点を得る。第
2に、その音素が時刻JにS。−84のそれぞれの状態
である確率の和に相当する列得点がある。この列得点は
下記のように計算される。
音素のマツチング得点は、行得点と列得点を合計して、
その並の対数をとることによシ得られる。
次の音素の高速マツチングを継続するには、最下部の行
(時刻Jを含むことが望ましい)に沿った値を用いて、
次の音素の開始時刻分布を取出す。
5回の連続音素の各々のマツチング得点を確定した後、
前述のように、全音素の合計はその音素のすべてのマツ
チング得点の和である。
前述の基本高速マツチングおよび代替高速マツチングの
実施例で終了時刻の確率を生成する方法を調べると、列
得点の確定は、高速マツチング計算に容易に適合しない
ことが分る。検査するラベル数を限定するための改良を
前記高速マツチングおよび代替マツチングによシよく適
応させるため、本発明は、列得点を追加行得点と置換え
ることを可能にする。すなわち、(第22図(blで)
時刻JおよびJ+にの間で状態S4である音素の追加行
得点が確定される。ただし、Kは任意の音素マシンにお
ける最大状態数である。それゆえ、任意の音素マシンが
10の状態を有する場合、本発明の改良によシ、そのト
レリス図の最下部の行に沿って10の終了時刻が付加さ
れ、その各々について確率が決定される。時刻J+Kま
での最下位の行に沿ったすべての確率(時刻J+にでの
確率を含む)が加算され、所与の音素のマツチング得点
を生成する。前述のように、連続する音素のマツチング
値を合計し、ワードのマツチング得点を得る。
この実施例は前述のFPS社の190L上のAPALコ
ードで実現されているが、このシステムの他の部分の場
合のように、他のハードウェアで他のコードにより実現
することもできる。
Flg、音素木構造および高速マツチング実施例(第2
3図) 基本高速マツチングまたは代替高速マツチングを(最大
ラベル制限がある場合またはない場合に)使用すること
により、音素マツチング値を決定する際に必要な計算時
間が大幅に少なくなる。更に高速マツチングで得たリス
ト中のワードで精密マツチングを実行する場合でさえも
、計算量が太幅に節約される。
音素マツチング値は、いったん確定されると、第23図
に示すように、木構造41000分校に沿って比較が行
なわれ、音素のどのパスが最も起こりうるかを判定する
。第26図において、(点4102から分枝4104に
出す)話されたワードthe”の音素DI(およびUH
lの音素マツチング値の和は、音素MXから分岐する音
素のそれぞれのシーケンスの場合よりもずっと高い値で
なければならない。ちなみに、最初の音素MXの音素マ
ツチング値は1回だけ計算され、それから広がる各基本
形態に使用される。(分枝4104および4106を参
照されたい。)更に、分枝の最初のシーケンスに沿って
計算された合計得点が、限界値よりもずっと低いか、ま
たは分枝の他のシーケンスの会計得点よりもずっと低い
ことが分ると、最初のシーケンスから広がるすべての基
本形態は同時に候補ワードから削除されることがある。
例えば、分枝4108〜4118に関連した基本形態は
、MXが見込みのあるパスではないと決定された場合、
同時に捨てられる。
高速マツチング実施例および木構造により、一定順序の
候補ワードのリストが作成され、それに伴なう計算は大
幅に節約される。
記憶要求については、音素の木構造、音素の統計値、お
よび末尾確率が記憶されることになっている。木構造に
ついては、25000の弧と各々の弧を特徴づける4つ
のデータワードがある。第1のデータワードは後続の弧
すなわち音素の指標ヲ衣わす。第2のデータワードは分
枝に沿った後続の音素数を表わす。第3のデータフード
は木構造のどのノードに弧が置かれているか金表わす。
第4のデータワードは現在の音素を表わす。従って、こ
の木構造の場合、25000X4の記憶空間が必要であ
る。高速マツチングでは、100の異なった音素と20
0の異なったフィーニームがある。フィーニームは音素
中のどこかで生成される1つの確率を有するから、10
0X200の統計的確率の記憶空間が必要である。末尾
構造については、200X200の記憶空間が必要であ
る。
従って、高速マツチングの場合、100にの整数を記憶
する空間と60にの浮動小数点を記憶する空間があれば
十分である。
Flh、言語モデル(第4図、第24図)前述のように
、文脈中のワードに関する(三重字のような)情報を記
憶する言語モデルを包含することにより、ワードを正し
く選択する確率を高めることができる。言語モデルは前
記論文に記載されている。
言語モデル1010(第4図)は一意性の文字を有する
ことが望ましい。すなわち、修正三重字法が使用される
。本発明に従って、サンプル・テキスIf検査し、語雲
中の一定順序の三重ワードおよびワード対ならびに単一
ワードの各々の尤度を確定する。そして、最も見込みの
ある三重ワードおよびフード対のリストが形成される。
更に、三重ワードのリストにはない三重ワード、および
ワード対のリストにはないワード対の尤度がそれぞれ決
定される。
言語モデルに従って、対象ワードが2ワードに続く場合
、この対象ワードおよび先行2ワードが三重ワードのリ
ストにあるかどうかが判定される。
三重ワードのリストにある場合、その三重ワードに割当
てられた、記憶されている確率が指定される。対象ワー
ドと先行2ワードが三重ワードのリストにない場合は、
その対象ワードとそれに隣接する先行ワードがワード対
のリストにあるかどうかについて判定する。ワード対の
リストにある場合は、そのワード対の確率と、前述の三
重ワードのリストに三重ワードがない確率を掛け、その
積を対象ワードに割当てる。対象ワードを含む前記三重
ワードおよびワード対がそれぞれ三重ワード。
のリストおよびワード対のリストにない場合には、対象
ワードだけの確率に、前述の三重ワードが三重ワードの
リストにない確率、ならびにワード対がワード対のリス
トにない確率を掛け、その積を対象ワードに割当てる。
第24図の流れ図5000は音響マツチングで使用する
音素マシンの整形を示す。ブロック5002で、ワード
の語粟(一般に5000ワ1−ドのオーダ)を定義する
。次に、各ワードは音素マシンのシーケンスにより表示
される。例えば、音素マシンは、音標型音素マシンとし
て表示されているが、代替的に、フィーニーム型音素の
シーケンスを含むことがある。音標型音素マシンのシー
ケンス、マタハフイーニーム型音素マシンのシーケンス
によるワードの表示について下記に説明する。
ワードの音素マシン・シーケンスはワード基本形態とい
う。
ブロック5006で、ワード基本形態を前述の木構造に
配列する。各ワード基本形態の音素マシンごとの統計値
は、rEEE会報第64巻(i976年)記載のエフ・
ジエリネクの論文“統計的方法による連続音声認識”(
F、Jelinek、”Continuous  5p
eech  Recognitionby  5tat
istical  Methods”、Proceed
ingsof  the  IEEE、Vol、64.
1976)  に示された周知のフォワード・バックワ
ード・アルゴリズムによる整形によシ決められる(ブロ
ック5008)。    。
ブロック5009で、精密マツチングで使用する実際の
パラメータ値すなわち統計値に代る値を決める。例えば
、実際のラベル出力確率に代る値を確定する。ブロック
5010で、確定された値が、記憶された実際の確率に
取って代9、各ワード基本形態中の音素が概算置換え値
を含むようにする。基本高速マツチングに関する概算は
すべてブロック5010で実行される。
次にブロック5011で、音響マツチングが向上を要す
るかどうか全決定する。向上を要しない場合は、基本概
算マツチングのために確定された値を使用のために設定
し、他の概算に関する別の推定呟は設定しない(ブロッ
ク5012)。向上を必要とする場合には、ブロック5
018に進む。
ブロック5018で、ストリングの長さの均一なない場
合は、ラベル出力確率値およびストリング長確率値を概
算し、音響マツチングで使用するように設定する。更に
向上を必要とする場合には、ブロック5022で、音響
マツチングを、生成されたスl−IJソング最初のJラ
ベルに限定する。改良された実施例の1つを選択するか
どうかにかかわらず、確定したパラメータ値はブロック
5012で設定され、その結果、各ワード基本形態中の
各音素マシンは、所望の概算値により整形され、高速概
算マツチングを可能にする。
Flj、スタック・デコーダ(第7図〜第9図、第25
図) 次に、第4図の音声認識システムで用いる不発明の良好
なスタック・デコーダについて説明する。
第7図に、連続するラベル間隔、すなわちラベル位置で
生成された複数の連続するラベル’! I M 2・・
・・が示されている。
また、第8図には複数の生成されたワード・パス、すな
わちパスA、パスBおよびパスCが示されている。第7
図との関連で、パスAはエンドIJ“to  be  
or”に、パスBはエントリ”t w 。
b″に、パスCはエントリ“too”に対応することが
ある。対象ワード・パスごとに、その対象ワード・パス
が終了している最高の確率を有するラベル(すなわち、
等制約にラベル間隔)があり、このようなラベルを境界
ラベルという。
ワードのシーケンスtiわすワード・パスWごとに、最
も見込みのある終了時刻−ラベル・ストリングにおいて
2つのワードの間の境界ラベルとして表わされるーは、
IBM技術開示会報第25巻第4号(i980年9月号
)記載のエル・アール・バール外の論文、”音響マツチ
ング計算の高速化” (L、R,Bahl  et  
als ”FasterAcoustic  Matc
h  Computation”1 IBM  Tec
hnical  Disclosure  Bulle
目1、Vol、25、No、 4、September
  1980 )で述べられているような既知の方法に
よシ見つけることができる。簡単に言えば、この論文は
、次の2つの類似の関心事、すなわち、 fa)ワード(tたはワード・シーケンス)がどれだけ
多くのラベル・ストリングを生じるか、(b)どのラベ
ル間隔で、部分的な文−ラベル・ストリングの部分に対
応する−が終了するかに取組む方法について論じている
所与のワード・パスにはいずれも、ラベル・ストリング
の最初のラベル−境界ラベルを含む各々のラベルすなわ
ちラベル間隔に関連した“尤度値″がある。つまり、所
与のワード・パスの尤度値はすべて所与のワード・パス
の”尤度ベクトル″を表わすので、ワード・パスごとに
、対応する尤度ベクトルがある。尤度値しtは第8図に
示されている。
ワード・パスW1、W2、・・・・、Waの集まシのラ
ベル間隔tでの“尤度包路線”A、は数学的に次のよう
に定義される。
/1 =max(L (W )、・・・・、Lt(W’
))すなわち、ラベル間隔ごとに、尤度包絡線は前記集
りの中の任意のワード・パスに関連した最高の尤度値を
含む。第8図に尤度包絡@1040が示されている。
ワード・パスは、完全な文に対応する場合には”完全″
とみなされる。完全なパスは、入力している話者が、文
の終了に達したとき、例えばポタンを押して識別するこ
とが望ましい。入力は、文終了をマークするラベル間隔
と同期される。完全なワード・パスは、それにワードを
付加して延長することはできない。部分的なワード・パ
スは不完全な文に対応するので、延長することができる
部分的なパスは”生きている″バスまたは”死んでいる
”パスに分類される。ワード・パスは、それが既に延長
されているときは“死んでいる”が、まだ延長されてい
ないときは”生きている″。
この分類により、既に延長されて少なくとも1ワ一ド以
上延長されたワード・パスを形成しているパスは、次の
時刻で延長が再び考慮されることはない。
各々のワード・パスは、尤度包絡線に対して“良い”パ
ス、または“悪い″パスとして特徴づけることができる
。ワード・パスは、その境界ラベルに対応するラベルで
、そのワード・パス力、Δの最大尤度包絡線内にある尤
度値を有する場合は良いワード・パスである。その他の
場合は、ワード・パスは悪いワード・パスである。最大
尤度包絡線の6値を一定の値Δだけ減少して良い(悪い
)限界レベルを決めるけれど、このΔを変更することは
、望ましいことではあるが、必ずしも必要ではない。
ラベル間隔の各々についてスタック要素がある。
生きているワード・パスの各々は、このような生きてい
るパスの境界ラベルに対応するラベル間隔に対応するス
タック要素に割当てられる。スタック要素は、(尤度値
の順序に記載されている)0.1またはより多くのワー
ド・パス・エントリを有することがある。
次に、第4図のスタック・デコーダ1002により実行
されるステップについて説明する。
第9図の流れ図に示すように、尤度包絡線の形成と、良
いワード・パスはどれかの決定は相互に関係している。
第9図の流れ図において、ブロック1050で、最初に
、ナル・パルスが第1のスタック(0)に入る。
ブロック1052で、前に確定されている完会々バスを
含む(完全な)スタック要素が、もしあれば、供給され
る。(完全な)スタック要素中の完全なパスの各々は、
それに関連する尤度ベクトルを有する。その境界ラベル
に最高の尤度を有する完全なパスの尤度ベクトルは、最
初に最尤包絡線を決める。もしく完全な)スタック要素
に完全なパスがなければ、最尤包絡線は各ラベル間隔で
一ωに初期設定される。更に、完全なパスが指定されて
いない場合にも、最尤包絡線が一ωに初期設定されるこ
とがある。包絡線の初期設定はブロック1054および
1056で行なわれる。
最尤包絡線は、初期設定された後、所定の量Δだけ減少
され、減少された尤度を上まわるΔ規定の良い領域を形
成し、減少された尤度を下まわるΔ規定の悪い領域を形
成する。Δの値は探索の幅を制御する。Δが大きければ
大きいほど、延長が可能とみなされるワード・パス数が
大きくなる。
L’を確定するのに10 g 1oを用いる場合、Δの
値が2.0であれば満足すべき結果が得られる。Δの値
かラベル間隔の長さに沿って均一であることは、望まし
いけれども、必ずしも必要ではない。
ワード・パスが、Δ規定の良い領域内にある境界ラベル
に尤度を有する場゛合、そのワード・パスは“良い”と
マークされる。その他の場合には、ワード・パスは”悪
い”とマークされる。
第9図に示すように、尤度包絡#を更新し、ワード・パ
スを“良い”(延長か可能な)パス、または”悪い″パ
スとしてマークするループは、マークされていない最長
ワード・パスを探すブロック1058で始まる。2以上
のマークされていないワード・パスが、最長のワード・
パス長に対応するスタックにある場合、その境界ラベル
に最高の尤度を有するワード・パスが選択される。ワー
ド・パスが発見された場合、ブロック1060で、その
境界ラベルでの尤度がΔ規定の良い領域内にあるかどう
かを調べる。もし良い領域内になければ、ブロック10
62で、Δ規定の悪い領域内のパスとマークし、ブロッ
ク1058で、次のマークされていない生きているパス
を探す。もし良い領域内にあれば、ブロック1064で
、Δ規定の良い領域内のパスとマークし、ブロック10
66で、尤度包絡線を更新して、“良い″とマークされ
たパスの尤度値を包含する。すなわち、ラベル間隔ごと
に、更新された尤度値は、 (a)その尤度包線内の現在の尤度値と、(b)“良い
”とマークされたワード・パスに関連した尤度値 の間のより大きい尤度値として確定される。この動作は
ブロック1064および1066で行なわれる。包絡線
が更新された後、ブロック1058に戻り、マークされ
ていない最長、最良の生きているワード・パスを再び探
す。
このループは、マークされていないワード・パスがなく
なるまで反復される。マークされていないワード・パス
がなくなると、ブロック1070で、最短の“良い″と
マークされたワード・パスが選択される。もし、最短の
長さを有する2以上の”良い”ワード・パスがあれば、
ブロック1072で、その境界ラベルに最高の尤度を有
するワード・パスが選択され、選択された最短のパスは
延長される。すなわち、少なくとも1つの、見込みのあ
る後続ワードが、前述のように、高速マツチング、言語
モデル、精密マツチング、および言語モデル手順を良好
に実行することにより確定される。見込みのある後続ワ
ードごとに、延長されたワード・パスが形成される。詳
細に述べれば、延長されたワード・パスは、選択された
最短ワード・パスの終りに、見込みのある後続ワードを
付加することにより形成される。
選択された最短ワード・パスが、延長されたワード・パ
スを形成した後、該選択されたワード・パスは、それが
エントリであったスタックから除去され、その代りに、
各々の延長されたワード・パスは適切なスタックに挿入
される。特に、延長されたワード・パスはその境界ラベ
ルに対応するスタックへのエントリになる(ブロック1
072)。
ブロック1072における選択されたパルスを延長する
動作を第25図の流れ図に関連して説明する。ブロック
1070でパスが見つかった後、次の手順を実行し、そ
れにより、ワード・パスまたはパスは適切な概算マツチ
ングに基づいて延長される。
第25図のブロック6000で、(第4図の)音響プロ
セッサ1004は前述のようにラベルのストリングを生
成する。ラベルのストリングはブロック6002に入力
として供給され、ブロック6002で、基本の、または
改良された概算マツチング手順の1つが実行され、前述
のように一定順序の候補ワードのリストを得る。その後
、ブロック6004で、前記言語モデルを前述のように
使用する。言語モデルを使用した後、ブロック6006
で、残っている対象ワードは、生成されたラベルと一緒
に精密マツチング・プロセッサに送られる。ブロック6
008で、精密なマツチングは残っている候補ワードの
リス)f生じ、言語モデルに良好に提示される。(概算
マツチング、精密マツチングおよび言語モデルにより確
定された)見込みのあるワードは、第9図のブロック1
070で発見されたパスの延長に用いる。ブロック60
08(第25図)で確定された、見込みのあるワードの
各々は、発見されたワード・パスに別個に付加され、複
数の延長されたワード・パスを形成することができる(
ブロック6010)。
第9図で、延長パスが形成され、スタックが再形成され
た後、ブロック1052に戻ってプロセスを反復する。
従って、反復ごとに、最短、最良の“良い”ワード・パ
スが選択され、延長される。ある反復で”悪い”パスと
マークされたワード・パスは後の反復で“良い”パスに
なることがあるので、生きているワード・パスが“良い
”パスか、”悪い″パスかという特徴は、各々の反復で
独立して付与される。実際には、尤度包絡線は1つの反
復と次の反復とで大幅には変化しないので、ワード・パ
スが良いか悪いかを決定する計算は効率的に行なわれ、
正規化も不要になる。
完全な文を識別する場合、ブロック1074i包含する
ことが望ましい。すなわち、生きているワード・パスで
マークされずに残っているものはなく、延長すべき”良
い”ワード・パスがない場合、復号は終了する。その境
界ラベルのそれぞれに最高の尤度を有する完全なワード
・バスが、入力ラベル・ストリングの最も見込みのある
ワード・シーケンスとして識別される。
文終了が識別されない連続音声の場合、パス延長は、継
続して行なわれるか、またはそのシステムのユーザが希
望する所定のワード数まで行なわれる。
Flに、音標型基本形態の構築 基本形態を形成する際に使用しうるマルコフ・モデル音
素マシンの1つの型は音標に基づくものである。すなわ
ち、各音素マシンは所与の音標の単音に対応する。
所与のワードごとに、それに対応するそれぞれの音素マ
シンを有する音標型単音のシーケンスがある。各音素マ
シンは、いくつかの状態およびそれらの間の遷移を含み
、それらの中には、フィーニーム出力を生成できるもの
もあり、できないもの(ナル遷移という)もある。前述
のように、各音素マシンに関する統計値は、 (a)生起する所与の音素の確率、および(b)所与の
遷移で特定のフィーニームが生成される尤度を含む。各
々の非ナル遷移では、各フィーニームに関連した確率が
あることが望ましい。第1表に示すフィーニーム・アル
ファベット(、集合)巾約200のフィーニームがある
。第6図に、音標型基本形態を形成する際に用いる音素
マシンを示す。このような音素マシンのシーケンスはワ
ードごとに与えられる。統計値、すなわち確率は、既知
のワードを発声する整形フェーズで音素マシンに入れら
れる。種々の音標型音素マシンにおける遷移確率および
フィーニーム確率は、整形中に、既知の音標型単音を少
なくと°も1回発声した場合に生成するフィーニーム・
ストリング(複数の場合もある)に、周知のフォワード
・バンクワード・アルゴリズムを適用することにより決
定される。
音素DHとして識別された1つの音素の統計値のサンプ
ルが第2表に示されている。概算として、第6図の音素
マシンの遷移tri、tr2およびtr8のラベル出力
確率分布、遷$ t r 5、tr4、fr5およびt
r9のラベル出力確率分布、ならびに遷移tr6、tr
7およびtrloのラベル出力確率分布がそれぞれ、単
一の分布によQ表示されてbる。これは、第2表でそれ
ぞれの列の弧(すなわち遷移)へのラベル4.5または
6の割当てにより示されている。第2表は、音素DHの
最初、中間または最後でそれぞれ生成される各遷移の確
率ならびにラベル(すなわちフィーニーム)の確率全示
す。DH音素の場合、例えば、状態S1から状態S2へ
遷移する確率は0.07245と計算され、状態S か
ら状態S4へ遷移する確率は0.92757である。(
なんとなれば、最初の状態から起こりうる遷移は2つだ
けであるから、両者の確率の相は1に等しい。)ラベル
出力確率に関しでは、DH音素は、その音素の最後の部
分、ナなりち第2表のラベル6の列でフィーニームAE
16(第1表参照)を生成する確率0.091を有する
。また、第2表には、各ノード(すなわち状態)に関連
したカウントが示されている。ノード・カウントは、整
形中、その音素が対応する状態であつた回数を表わす。
第2表のような統計値はフオニーム・マシンごとに存在
する。
音標型音素マシンをワード基本形態に配列するのは、一
般に、音声学者により実行されるので、通常、自動的に
は行なわれない。
音標型基本形態は精密マツチングおよび高速概算マツチ
ングで良好に使用されている。音標型基本形態は音声学
者の判断に依存し、自動的ではないから、音標型基本形
態は正確ではないことが時々ある。
F 2.  開始音素マシンおよび終了音素マシンを含
む音素マシンのセットの形成(第1A図〜第3図、第2
6図〜第32図) 前項で説明した基本形態構築の際に用いる音素マシンは
、音素マシンの集合から選択される。前述のように、従
来の音声認識システムの生成方式では、各々の音(また
は、詳細にいえば各々の音標型要素)は単一音素マシン
にだけ関連していた。
各音素マシンは、前述のように、遷移およびそれに関す
る確率、ならびにその遷移に関連したラベル出力確率を
含む。従って、音素マシンは、それに対応する音標型単
音が発声された場合に、その音素マシンの所与の遷移で
所与のラベルを生成する尤度を指す統計値を含む。この
統計値は、既知の音声を発声して音響プロセッサ100
4(第4図)に入力し、既知のフォワード・バンクワー
ド・アルゴリズムを適用する整形期間中に取出される。
整形中に取出される統計値は大部分、既知の音声が発声
されたとき音響プロセッサ1004により生成されたラ
ベルにより決定されるが、音響プロセッサ1004によ
り生成されるラベルは、話された入力に対応するエネル
ギ関連特性により決定される。第26図に示すワードW
I LLのスペクトル写真ならびに第27図に示すワー
ドWILLの波形により、沈黙状態から“W″音を蓄積
する間のエネルギ特性は、エネルギ蓄積に続く“W”音
のエネルギ特性と著しく異なることが分る。
本発明以前は、音すなわち音標型要素が、沈黙期間に続
くワードの最初に生じたか、ワードの中央で生じたか、
またはワードの最後に生じたかどうかは区別されなかっ
た。本発明に従って、これらの区別がされるようになっ
た。
第26図および第27図に示すワードWILL”の最初
の0.1秒の部分は“W″音の蓄積を表わし、その直後
の波形部分は、沈黙による影響が少ない“W”音に相当
する。
“W″音のエネルギ蓄積とその後の部分を、−従来のシ
ステムの生成方式のように一単一音素としてひとまとめ
にして扱うことは、システムに誤シを生じることになる
。すなわち、“W″音の単一音素マシンは、−W”音が
ワードの最初、ワードの最後、およびワード内で生じる
すべての場合を、その統計値に混合していた。それ故、
単一音素マシンは、エネルギ蓄積ならびにエネルギ減衰
が混在した統計値を含んでいたのである。
本発明に従って、所与の単音−”W″音のような−は、
それに関連して複数の音素マシンを有することがある。
例えば、W”音は、発声されたとき沈黙による影響を受
けない、”W“音の統計値を包含する共通音素マシンを
有する。共通音素マシンは、沈黙期間に隣接しない、“
W″音の発声により生成される統計値を含む。従って、
共通音素には、エネルギの蓄積または減衰に関するエネ
ルギ特性が混入されない。更に、“W″音は、沈黙期間
からの遷移で“W″音の発声に関する統計値全反映する
開始音素マシン、ならびに、沈黙期間直前の”W″音の
発声に関する統計値を反映する終了音素マシンも含む。
“W”音の開始音素マシンは0NSETLXtたは0N
LXと表示し、“W″音の終了音素マシンはTRAIL
LXまたはTRLXと表示する。
共通音素マシンはWXと表示する。各々の音素マシンは
別個に形成され、それぞれがそれ自身の確率およびラベ
ル確率を有する。W″音に関連した6つの音素マシンの
異なった統計値が第6表、第4表および第5表に示され
ている。
第5表で、音素マシン0NLXは第2表における統計値
と同様に構成された統計値を有する。音素マシンの最初
、中間および末尾のセクションで種々のラベルを生成す
る確率が3列に示されている。ある状態から別の状態°
への遷移確率も示されている。第28図は、(第6図の
音素マシンのような)音素マシンの遷移をどのように分
類して6つのセクションを設けるかを示す。
第3表の統計値は整形期間中に取出され、特定の話者に
適用するものである。
整形中、サンプルの既知のテキストは、この話者により
発声される。既知のテキストから、そのテキストに対応
する音素のシーケンスが決められる。既知のワードが発
声されると、ラベル(すなわちフィーニーム)のストリ
ングが生成される。
ラベルは、ビタービ整列のような、通常の方法によるシ
ーケンスで音素マシンに対して整列させられる。生成さ
れたラベルと既知のテキストの音素との間の対応は、各
音素マシンで見つかったそれぞれの確率を確定するため
の基礎になる。例えば、沈黙が先行した“W″音は、整
形期間中、既知の間隔で複数回生起することがある。“
W″音に沈黙が先行する場合に特定のラベル−例えばW
X7−が生成される回数だけ処理され、第3衣に示すよ
うな確率が与えられる。詳細に言えば、“W”音の開始
音素マシンは、その音素マシンの中央でラベルWX7i
生成する0、056の確率、ならびにその音素マシンの
末尾でラベルWX7’i生成する0、 197の確率を
有する。また、第3表では、開始音素0NLXの、状態
1と状態4の間の遷移確率は0.67274であるが、
状態1と状態2の間の遷移確率は0.52570である
本発明の重要性は、第6衣、第4表および第5表を比較
すれば明白である。第4表および第5光は、ラベル出力
WX7−第3表に示されているーを、主要なラベル出力
として含んでいない。
更に、第5表では、状態1から状態4への遷移は確率1
.0ヲ有し、それに並行する状態1から状態2への確率
は0である。これらの点が、前述の第6表の統計値と著
しく異なっている。
第3表、第4衣および第5表に示された統計値の有意な
差異は、“W″音のすべての生起を一ワード中の位置と
無関係に−ひとまとめにして単一音素マシンの統計値に
することにより、誤りが生じることがあることを示す。
それぞれが音素のシーケンスを含むワード基本形式を形
成する際、これらの音素は所定の音素セットから選択さ
れる。単一音素マシン方式を用いた従来の生成方式では
、(前述のように)約70の音素があった。本発明に従
って、音素セットは、14の開始音素および12の終了
音素からなる26音素を追加することが望ましい。第6
表はこれらの追加音素を示す。
第6衆で、各々の音(すなわち音標型要素)は、それ自
身の開始音素マシンおよび終了音素マシンを有しない。
このような配列は本発明の範囲内ではあるが、210音
素マシン−音ごとに3音素−の目録は、大量の整形デー
タが得られない場合には、太きすぎるものとみなされる
。従って、沈黙期間に隣接するかどうかにかかわらず、
統計値に大きな変化を示さない一定の音は、それに対応
する共通音素マシンだけを有する。このような単音等級
はPX、TXおよびKXを含む。これら?無音声閉鎖と
いう。無音声閉鎖はワード中の位置の影響を受けないの
で、単一音素により表示される。
更に、一定の単音等級のグループはエネルギ蓄積に関し
極めて類似の統計値を有するので、このようなグループ
ごとに、1つの開始音素マシンが与えられる。その1つ
が、第6衆で、8つの音(すなわち音標型要素ンが関連
している開始音素マシン0NSETAA、またはQNA
Aである。同様に、一定の音のグループはエネルギ減衰
に関し極めて類似の統計値を有するので、このようなグ
ループごとに、1つの終了音素マシンが与えられる。例
えば、第6表で、7つの音が終了音素マシンTRAIL
AA、またはTRAAに関連している。このような分類
によジ、そのための音響統計値を生成するのに必要な音
素マシンおよび整形データが少なくて済む。この分類か
らは、210音素マシンを用いるシステムに関する性能
上の重大な妥協は生じていない。
第6表は、本発明で用いた識別子に対応する標準音標記
号も表示している。ここで特記すべき点は、本発明は、
(図示の記萼で識別される)従来の音標要素の一部を包
含することが望ましく、しかも、国際音標アルファベッ
ト以外の音の他の型も考慮していることである。
第6表で、接尾部”0”を有する音素はアクセントのな
い母音を指し、接尾部“1″を有する音素はアクセント
のある母音を指す。
次に第7表は、音素マシンが本発明の良好な実施例に従
って形成される音素のすべてを識別する。
第7表に示す音素のセットから、ワードの基本形式が構
築される。再びワードWI LL”について考えると、
その基本形式は、第29図に示す音素(すなわち、等測
的に音素マシン)のシーケンスとして形成される。ワー
ドWILL”の音標スペリングは第60図に示されてい
る。音素マシン0NLXは“W″音の開始音素マシンを
表わす。(ONLX音素マシンは、“Ω”または”hw
″音標要素で始まる基本形態の最初の音素マシンでもあ
る。) ワードWILL”の0NLX音素マシンの後に”W”音
の共通音素マシンに対応する音素マシンWXが続く。そ
の後に、rX1音素マシン、LX共通音素マシン、およ
びTRLX音素マシンが続く。
語粟中の各ワードは同様に(第29図に示されたワード
WILL″の基本形態のような)基本形態により表示さ
れる。各ワードを形成する際、対象ワードを含む音素が
決定され、次いで、それらの音素に対応する音素マシン
が連結される。
コンピュータに記憶された目録で、各ワードは、それに
対応する音素マシンのシーケンスにより表示され、その
だめの統計値は音素マシンごとに記憶される。記憶所要
量を減少させるため、各音素マシンを対応する識別子に
よシ衣示し、ワード基本形態を、音素マシン識別子のシ
ーケンスとして形成することができる。例えば、ワード
WILL”の基本形式は識別子のシーケンス:45−2
7−81−12−5.5に対応する。識別子43は音素
マシン0NLXに対応し、識別子27は音素マシンWX
に対応する。以下、同様に対応する。
音素マシンごとに、整形期間後、メモリの一部分に、第
2弐〜第5表に示されたような統計値が記憶される。対
象ワードが考慮されると、構成音素マシン識別子の統計
値が検索される。
他の2つの基本形態の例として、第61図および第62
図にワードBOG″およびワードDOG”の基本形態が
それぞれ示されている。どちらの基本形態も開始音素マ
シン0NBXで始まる。
ワードBOG″は、0NBXに続いて、音素マシンBX
、AW1、GXおよびTRBXt−含む。
ワードDOG”は、0NBXに続いて、音素マシンDX
、AWI、GXおよびTRBXのシーケンスを含む。”
B“と“D″の音のエネルギ蓄積が類似していることか
ら、同じ開始音素マシンが使用される。0NBX音素マ
シンを整形する際、それにより表示される単音(すなわ
ち音標要素)のどれかの発声を統計値の生成に組込むこ
とが望ましい。この条件は、複数の音(すなわち音標要
素)に対応する他の種々の開始音素マシンおよび終了音
素マシンにも適用することが望ましい。
第1A図および第1B図の流れ図で基本形態を構築する
手順を説明する。ブロック8002で、開始音素マシン
、共通音素マシンおよび終了音素マシンから、音素マシ
ンのセットが形成される。
次にブロック8004で、ワードの@粟からワードが選
択される。ブロック8006で、ワードは、複数の音標
要素、または一般的に音として、ワード′″WI LL
”のW−I−1のような所定の順序で特徴づけられる。
次にブロック8008で、所定順序の最初の音標要素を
調べ、それに対応する開始音素マシンがあるかどうかを
決める。対応する開始音素マシンがある場合は、ブロッ
ク8010で、対応する開始音素マシンを検索し、ブロ
ック8012で、最初の2つの音素マシンを、最初の音
標要素の開始音素マシンとそれに続く共通音素マシンと
してセットする。最初の音標要素に対応する開始音素マ
シンがない場合は、ブロック8013で、その共通音素
マシンを検索する。この共通音素マシンは基本形態の開
始fc表わす。
次にブロック8014で、次の音標要素がない場合は、
ブロック8015に進み、最初の音標要素がそれに関連
した終了音素を有するかどうかを決める。終了音素がな
い場合は、その基本形態は、開始音素(マシン)とそれ
に続く共通音素(マシン)とみなされる。最初の音標要
素に関連した終了音素かめる場合は、ブロック8016
で、その終了音素は共通音素に付加されるので、ワード
基本形態は、最初の音標要素の開始音素マシン、共通音
素マシンおよび終了音素マシンを含む。
ブロック8014で、次の音標要素がある場合、ブロッ
ク8017で、次の音標要素を検査し、次の音標要素の
順序が最後であるかどうかを決める。
それが最後である場合は、ブロック8018で、その音
標要素がそれに関連した終了音素マシンを有するかどう
かを決める。終了音素マシンがある場合は、ブロック8
020で、その基本形態は、最初の音標要素に対応する
共通音素マシンとそれに続く終了音素マシン全付加する
ことにより完成される。関連した終了音素マシンがない
場合は、ブロック8022で、最後の音標要素の共通音
素マシンは、その基本形態の末尾に付加される。
ブロック8017で、次の音標要素が最後ではない場合
には、ブロック8024で、音標要素の共通音素を、前
に配列されている音素マシンに付加する。最後の音標要
素に対応する音素マシン(複数の場合もめる)が付加さ
れるまで、連続する音素マシンが付加され、音素マシン
のシーケンスを延長する。
次に、第2A図および第2B図で、本発明による音素マ
シンの形成を説明する。最初、ブロック8100で、例
えば、国際音標アルファベットから選択された音標要素
のように、音が定義される。
音の集りは、音声により形成される単音の種類を衣わす
。ブロック8102で、それぞれがそれに関する統計値
を記憶する手段を有する複数の音素マシンが形成される
。次にブロック8104で、所与の音を、最初の音のセ
ット(その各々はそれに割当てられた開始音素マシンを
得ることになっている)を選択する。エネルギ蓄積によ
る影響をかなり受ける音が最初のセットを形成すること
が望ましい。(前述のように、十分な整形データが得ら
れる場合には、すべての音で最初のセラトラ形成するこ
とができる。)次にブロック8106で、所与の音に開
始音素マシンが割当てられる。
ブロック8108で、割当てられた開始音素マシンの統
計値を、音声セグメント(例えばワード)の最初での発
声から取出す−この発声は所与の音に対応する単音、す
なわち類似のエネルギ蓄積特性を有する単音である。
次にブロック8110で、所与の音から共通音素マシン
を形成し、ブロック8112で、そのための統計値を生
成する。ブロック8114で、開始音素マシンを得るこ
とになっている谷単音が、所与の音として処理された後
、2番目の単音等級のセットの所与の音(終了音素マシ
ンがそれに割当てられることになっている)が形成され
る。
ブロック8116で、2番目のセットから所与の音を選
択し、ブロック8118で、終了音素マシンをそれに割
当てる。ブロック8120で、割当てられた終了音素の
統計値を、音声セグメントの末尾で生じる発声−所与の
音に対応する単音、すなわち類似のエネルギ減衰特性を
有する単音の発声−から生成する。その後、ブロック8
122で、所与の単音の共通音素マシンが割当てられ、
ブロック8124で、統計値が前に決定されていなかっ
た場合、統計値が生成される。ブロック8126で、す
べての音(終了音素マシンがそれに割当てられることに
なっている)が所与の音素として選択されたかどうかを
判定する。選択されていた場合は、すべての音素マシン
が形成されている。選択されていない場合には、前に選
択されなかった音を所与の音として選択し、前述のブロ
ック8118〜8126の動作を反復する。
第2A図および第2B図は、本発明に従って種々の方法
で変更することができる。第1に、開始音素マシンだけ
を探索する場合は、ブロック8116〜8126は省略
することができる。同様に、終了音素マシンだけを探索
する場合は、ブロック8104〜8114は省略するこ
とができる。第2に、希望により、最初の音のセットと
2番目の音のセットは同時に生成することができる。
更に、単一の開始音素マシンまたは終了音素マシンを2
つ以上の音に割当てる動作ステップが、これらの実施例
に関連する。この場合、統計値は1回生成するだけでよ
く、各音に適切に使用する。
最初に、どの音がそれに割当てられた開始音素マシンお
よび終了音素マシンを得るべきかについて決定し、それ
により、ブロック8104および8116の最初のセッ
トと2番目のセット全それぞれ形成することが望ましい
音声認識において、本発明は、音素マシン数を増した基
本形態を形成する装置を提供する。この装置の例を第3
図に示す。
第3図に、複数の音素マシン8202〜8212が示さ
れている。各音素マシンは音素マシン8202と同様に
構築され、それぞれが、(a)遷移確率メモリ8214
 、 (b)ラベル確率メモリ8216、ならびに(c
)状態識別子および遷移識別子メモリ8218を含む。
音素マシン8202および8204を含む複数の音素マ
シンは共通音素マシンであり、音素マシン8206およ
び8208i含む複数の音素マシンは開始音素マシンで
ある。また、音素マシン8210および8212t−含
む複数の音素マシンは終了音素マシンである。各音素マ
シン8202〜8212のそれぞれのメモリには、音素
マシン贅形装ft8220により、統計値が記憶されて
いる。
各ワードはあらかじめ音素のシーケンスとして形成され
、これらのシーケンスは記憶装置8260に記憶されて
いる。基本形式構築装置8240は、記憶装置8230
からの音素シーケンス情報と、音素マシーン整形装置8
220によ、り取出された統計値を組合せて、音素マシ
ンのシーケンスを構築する。所与のワードの音素マシン
のシーケンスは、そのワードの基本形態を表わし、音響
マツチング(前記F1c〜F’If項に記載されている
)に使用される。すなわち、認識すべき未知の音声が発
声されると、(第4図の)音響プロセッサ1004はそ
れに応じてラベルのストリングを生成する。本発明は、
改良された音声マシンのセットからの音素マシンで形成
される基本形態と前記ストリング中のラベルとのマツチ
ングを可能にする。
本発明により追加された音素マシンを使用することによ
り、音声認識の精度および速度がかなり改IIさ扛る。
ちなみに、本発明は分離されたワードの音声認識システ
ムならびに連続音声の音声認識システムに使用すること
ができる。分離されたワードの場合、それぞれのワード
の後に小休止がある。従って、各ワードの開始および終
了には、多くの場合、エネルギの蓄積および減衰力ある
。本発明は、このようなシステムに特によく適合する。
連続音声の場合は、複数のワードが結合し、通常、旬間
に小休止があるので、エネルギの蓄積および減衰部分を
有する各ワード基本形態を特徴づける代りに、旬間の開
始音素マシンおよび減衰音素マシンの供給を示す。分離
されたワードおよび連続音声句は、包括的な用語の“音
声セグメント″に含まれる。
音声セグメントは2つの沈黙期間の間の音声部分とみな
される。
−0l−+■へロー〜(イ)寸り’Okのα01”−1
”b r’s NQ)■ののののωのの■αの(k 0
1−へ唖寸の+0へのαローへ寸  寸  唖  り 
 j  0 0  い  の  い  叩  の  ”
−0−tel   M)I′Ir++のαローへうhの
へO−へ(イ)寸へCI CI OC10(l CI 
C)ロOOロOO口臂 N′i F Oロ0ロロロOロロOO口OC10−賊 −F −−−−−−−へ              
  ん入 一一一一一一一一一一一一″′    州N1  CI
   Mコ  ロ 9(−0寸0 葛へ [相]  唖       −0ゞ ロ雫 N)   ロ N)   ロ   Nり   O 噴口ぐ口 ^ 蛸   へFいO 口C1000口0   0           C)
CIロロ   0 ロ哨  −匂  ロ 余 第6表種々の音 0NSETAW + (AWI 、OI 1 ) ;0
 0’ 0NSETEE→(EEl>; 富 m   n   y ONSETSH→(SH,ZH) ; Z :)ク コ :″′ ↑   ↑   ↑   ↑   ↑   ↑Q  Φ
  コ  :+all!    Φ  1) 0 − 
  リ  Φ   つ  −ロ  o  くコ  り 
 e!8!   Q  内  0  ・−リ  Φ  
吟  −oo<p=+璧 −・)00 ・  c+  −>  >  c   I
N  N  (>  −t  −1+  3+G6発明
の効果 本発明により、改良されたワード基本形式を構築し、音
声認識の精度ならびに速度を向上させることができる。
【図面の簡単な説明】
第1A図および第1B図は本発明により基本形態を構築
する方法を示す流れ図、第1C図は第1A図と第1B図
の配置関係を示す図、第2A図および第2B図は改良さ
れた基本形態の構築に使用するために本発明に従って開
始音素マシン、共通音素マシン、および終了音素マシン
を形成する方法を示す流れ図、第2C図は第2A図と第
2B図の配置関係を示す図、第3図は開始音素マシン、
共通音素マシン、および終了音素マシンから形成された
改良型ワード基本形態を構築する装置を示すブロック図
、第4図は本発明を実施しうるシステム環境の概要ブロ
ック図、第5図は第4図のシステム環境の中のスタック
・デコーダを詳細に示したブロック図、第6図は整形セ
ツション中に得られた統計値により記憶装置で識別され
、表示される精密マツチング音素マシンを示す図、第7
図は連続するスタック復号のステップを示す図、第8図
はそれぞれのワード・パスの尤度ベクトルおよび尤度包
絡線を示す図、第9図はスタック復号手順のステップを
示す流れ図、第10図は音響プロセッサの要素を示す図
、第11図は音響モデルの構成要素を形成する場所を表
わす代表的な人間の耳の部分を示す図、第12図は音響
プロセッサの部分を示すブロック図、第13図は音響プ
ロセッサの設計に用いる、音の強度と周波数の関係を示
す図、第14図はソー7とホンの関係を示す図、第15
図は第10回の音響プロセッサにより音響を特徴づける
方法を示す流れ図、第16図は第15図で限界値を更新
する方法を示す流れ図、第17図は精密マツチング手順
のトレリスすなわち格子を示す図、第18図はマツチン
グを実行するのに用いる音素マシンを示す図、第19図
は特定の条件を有するマツチング手順で用いる時刻分布
図、第20図(al〜telは音素、ラベル・ストリン
グおよび、マツチング手順で決定された開始・終了時刻
の間の相互関係を示す図、第21図ta+およびfbl
は最小の長さが0の特定の音素マシンおよびそれに対応
する開始時刻分布を示す図、第22図fatおよび(b
lは最小の長さ4の特定の音素マシンおよびそれに対応
するトレリスを示す図、第26図は同時に複数ワードの
処理を可能にする音素の木構造を示す図、第24図は整
形されたワード基本形態を形成する際に実行するステッ
プを示す流れ図、第25図はワード・パスを延長する際
に実行するステップを示す流れ図、第26図は分離して
話されたワードWI LLのスペクトル写真、第27図
は分離して話されたワードWILLの波形を示す図、第
28図は3つの統計的部分:最初、中間、最後に分割さ
れた音標型音素マシンを示す図、第29図はワードWI
LL”を本発明により連続5音素を含む基本形態で示し
た図、第30図はワード”W I L L ”の標準音
標スペリングを連続3音標スペリングで示した図、第6
1図はワードBOG”の音素のシーケンスを本発明によ
り示した図、第32図はワード″DOG”の音素のシー
ケンスを本発明により示した図である。 1000・・・・音声認識システム、1002・・・・
スタック・デコーダ、1004・・・・音響プロセッサ
、1006.1008・・・・アレイφプロセッサ、1
010・・・・言語モデル、1012・・・・ワークス
テーション、1020・・・・探索装置、1022.1
024.1026.1028・・・・インタフェース。 出願人インを→5タナル・ビジネス・マンーンズ・コゴ
曵トクタン復代理人 弁理士  澤   1)  俊 
  夫第7図 ”To BE ORNOT To BE″とXり、ック
イbスプヅプ; 礪臂コ′/士 。 −〉 転 X 第15図 青害フ゛ロー27寸のすか作のプしれ 第17図 樗乞マツテン7°°ネジ子 竜虎マシン 第18図 時ま11分叶困 第19図 ワードWILLのス〈クトル写具 第26図 ワードWILLの消ヨ杉 第27図 0NLX −WX −TXI −LX−TRLXワード
”W工しビの屋A畑す慈。 第29図 l ワード−WILL″ の唾材宗スマ1ルア゛第30図 ONθX−BX−AWI−GX−TRBXワード“’B
OG”の材ゾβ層。 第31図 0NBX −DX −AWI−GX−丁RBXワード’
DOG″の婆本形だ、 第32図

Claims (1)

  1. 【特許請求の範囲】 生成された音響ラベルのストリングとマッチングさせる
    ことができるワード基本形態を構築する方法であつて、 音標型音素マシンのセットを形成するステップを含み、
    該音素マシンのそれぞれが、(i)複数の状態、(ii
    )各々がある状態からある状態に移る複数の遷移、(i
    ii)遷移ごとの記憶された確率、および(iv)各々
    が対応するラベルを生成する前記各音素マシンの確率に
    対応する記憶されたラベル出力確率を有し、 前記音標型音素マシンのセットが開始音素マシンのサブ
    セットを含むように形成され、各開始音素マシンの記憶
    された確率が音声セグメントの最初に発声される音標要
    素の少なくとも1つに対応する ようにしたことを特徴とするワード基本形態構築方法。
JP61032048A 1986-02-18 1986-02-18 音声認識方法 Granted JPS62194291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61032048A JPS62194291A (ja) 1986-02-18 1986-02-18 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61032048A JPS62194291A (ja) 1986-02-18 1986-02-18 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62194291A true JPS62194291A (ja) 1987-08-26
JPH0372992B2 JPH0372992B2 (ja) 1991-11-20

Family

ID=12347981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61032048A Granted JPS62194291A (ja) 1986-02-18 1986-02-18 音声認識方法

Country Status (1)

Country Link
JP (1) JPS62194291A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11970013B2 (en) 2020-01-09 2024-04-30 Seiko Epson Corporation Recording device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11970013B2 (en) 2020-01-09 2024-04-30 Seiko Epson Corporation Recording device

Also Published As

Publication number Publication date
JPH0372992B2 (ja) 1991-11-20

Similar Documents

Publication Publication Date Title
US5202952A (en) Large-vocabulary continuous speech prefiltering and processing system
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US4759068A (en) Constructing Markov models of words from multiple utterances
US4977599A (en) Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4833712A (en) Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
EP4018437B1 (en) Optimizing a keyword spotting system
CN101777347B (zh) 一种模型互补的汉语重音识别方法及系统
JPH0431600B2 (ja)
JPH1097276A (ja) 音声認識方法及び装置並びに記憶媒体
Shaikh Naziya et al. Speech recognition system—a review
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
US5764851A (en) Fast speech recognition method for mandarin words
Bisikalo et al. Precision Automated Phonetic Analysis of Speech Signals for Information Technology of Text-dependent Authentication of a Person by Voice.
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPS62194291A (ja) 音声認識方法
Kuzdeuov et al. Speech command recognition: Text-to-speech and speech corpus scraping are all you need
Syed et al. Concatenative Resynthesis with Improved Training Signals for Speech Enhancement.
EP0238695B1 (en) Automatic generation of simple markov model stunted baseforms for words in a vocabulary
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPS62194292A (ja) 連続ワード音声認識方法
JPH0372995B2 (ja)
Arrabothu Using syllable boundary information for query-by-example spoken term detection
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language
JP3841342B2 (ja) 音声認識装置および音声認識プログラム