JPS62231995A

JPS62231995A - 音声認識方法

Info

Publication number: JPS62231995A
Application number: JP62043234A
Authority: JP
Inventors: ラリツト・ライ・バール; ピーター・フイツツヒユー・ブラウン; ピーター・ヴインセント・デソーザ; ロバート・レロイ・マーサー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-03-27
Filing date: 1987-02-27
Publication date: 1987-10-12
Also published as: US4827521A; JPH0372998B2; EP0240679A1; EP0240679B1; DE3778579D1; CA1262188A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】以下の順序で本発明を説明する。

Ａ、産業上の利用分野Ｂ、従来技術Ｃ１発明が解決しようとする問題点り９問題点を解決するための手段Ｅ、実施例（１）　　音声認識システムの全体的説明（Ｉｔ）　　
単語表現マルコフ・モデルの学習の改善（Ａ）　　概観（Ｂ）　　カウントに基づく、遷移確率及びラベル出力
確率の決定（Ｃ）カウント値の決定の）Ｂａｕｍ−Ｗｅｌｃｈアルゴリズム（Ｅ）　　詳細
マツチング（Ｆｌ　　近似的高速マツチング（Ｇｌ　　音声学的ベースフオームの構築Ｆ１発明の効
果Ａ、産業上の利用分野本発明は、音声認識システムに於て単語を特徴付けるた
めに用いることができる確率的音響モデルのための学習
、即ち確率及び統計の決定の分野に係る。

Ｂ、従来技術マルコフ・モデリングは、音声認識を含む種々の分野で
用いられている確率的手法である。一般的には、マルコ
フ・モデルは、複数の状態、状態間に延びる遷移、並び
に各遷移の発生及びそれらの遷移の少なくとも幾つかの
各々に於ける出力（予め定義された一組の出力からの）
の発生に関する確率として表わされる。

マルコフ・モデルの一般的概念は知られているが、その
概念を音声認識に於て用いられるように適合させる、マ
ルコフ・モデリングの特定の方法論及び実施は、未だ研
究課題である。多くの論文が、実験的な音声認識の情況
に於けるマルコフ・モデルの使用について論じている。

それらの論文には、例えば、Ｆ、Ｊｅｌｉｎｅｋによる
’ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈ　　Ｒｅｃｏｇｎ
ｉｔｉｏｎ　ｂｙ　ＳｔａｔｉｓｔｉｃａｌＭｅｔｈｏ
ｄｓ、”Ｐｒｏｃｅｅｄｉｎｇｓ　　ｏｆ　　ｔｈｅ　
　ＩＥＥＥ。

第６４巻、第４号（１９７６年）並びにり、Ｒ，Ｂａｈ
ｌ　。

Ｆ、　Ｊｅ　１１ｎｅｋ、及びＲ，Ｌ、Ｍｅｒｃｅｒに
よる”Ａ　Ｍａｘｉｍｕｍ　Ｌｉｋｅｌｉｈｏｏｄ　　
Ａｐｐｒｏａｃｈｔｏ　　Ｃｏｎｔｉｎｕｏｕｓ　　５
ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔ’ｉｏｎ、”第ＰＡＭＩ
−５巻、第２号（１９８３年５月）等がある。

マルコフ（又は同様な）・モデルを用いた音声認識に対
する１つの実験的な確率的方法に於ては、音響波形が初
めにラベル系列に変換される。各々１つの音のタイプを
識別するそれらのラベルは、別個のラベルから或るアル
ファベット（集合）から選択される。各単語に１つのマ
ルコフ・モデルが割当てられる。他のマルコフ・モデル
の場合と同様に、それらの”単語モデル”は、（、）複
数の状態（初期状態から開始して、最終状態で終了する
）、及び（ｂ）状態間に延びる遷移を含む。各単語モテ
ノペ即チ”ペースフオーム”について、（、）遷移に関
連する確率と、（ｂ）ラベル出力確率とを反映する値を
記憶する手段が存在する。各ラベル出力確率は、所与の
ラベルが所与の遷移に於て生じる尤度に対応するように
意図されている。

マルコフ・モデルに関して統計を発生させて確率を決定
するプロセスは、”学習′”と呼ばれる。

単語モデルの学習を行う場合、典型的には、既知の発声
（以下に於ては、或る語彙中の単語の発声と考える）の
学習スクリプトが、システムのユーザにより音響プロセ
ッサ中に発声される。音響プロセッサは、ユーザによる
既知単語の発声に応答してラベル系列を発生する。学習
スクリプトの発声に応答して発生されたラベルから、統
計が発生され、それらから確率が決定される。

゛最大尤度学習パと呼ばれる、学習に対する１つの方法
が、マルコフ・モデリングに於て一般的に用いられてい
る。この方法によれば、学習データが発生される尤度を
最大にする統計が見出される。即ち、ラベルａ１ａ２　
・・・の系列Ａ及びマルコフ・モデルＭが与えられたと
き、式ｐｒ（ＡＩＭ）を最大にする統計が求められる。

その最大尤度方法に於ては、モデルＭが与えられたとき
の系列Ａの確率が最大になるように、モデルＭの統計が
定義される。この方法は、妥当に正確な結果を与える。

しかし、その最大尤度方法は、単語のデコーディングの
精度を最大にするために特に適したものではない。単語
モデルは近似的なものであるので、Ｍを与えられたとき
のＡの確率を最大にする統計の定義と、発声入力に対し
て正しい単語を与える精度を最大にする統計の定義との
間には相違がある。その相違の結果、最大尤度方法のみ
を頼りに学習された単語モデルは、不精確さの問題を或
る程度有している。

確率的音声認識システムの精度が、確率値を含む単語モ
デルの精度に大きく依存するという点で、単語モデルの
精度は、達成できる妥当な高さであることか極めて重要
である。

Ｃ６発明が解決しようとする問題点本発明の目的は、好ましくは音声認識の環境に於て、単
語のデコーディングの精度を最大にする方法で、マルコ
フ＃モデル及び同様なモデルの学習を行うことである。

具体的に云えば、本発明は、正しい単語の確率を、他の
単語に関連する確率に関して大きくする方法で、各モデ
ルに関する統計を決定することに係る。その原理は、他
の方法の場合の如（、スクリプトを与えられたときのラ
ベルの確率を最大にするよりも、ラベル出力を与えられ
たときの発声された単語の正しいスクリプトの確率と、
任意の他の（正しくない）スクリプトの確率との相違を
最大にすることである。

Ｄ０問題点を解決するための手段上記目的を達成するために、本発明は、コミュニケート
された単語人力に応答して発生された、出力のアルファ
ベットから選択された出力から語檗中の単語がデコード
され、上記語彙中の各単語が少なくとも１つの確率的有
限状態モデルのベースフオームにより表わされ、各確率
的モデルが遷移確率項目と出力確率項目とを有し、そし
て少なくとも幾つかの確率項目の各々について確率値が
記憶されるシステムに於て、或る既知単語久方のコミュ
ニケーションに応答して発生された出力が該既知単語の
ためのベースフオームにより生じる尤度を、上記の発生
された出方が他の少なくとも１つの単語のためのベース
フオームにより生じる各々の尤度に関して、大きくする
ために、記憶された確率値の少なくとも幾つかにバイア
スを加えることを含む、確率値の決定方法を提供する。

各単語モデルは、１つ又はそれ以上の連続する確率的有
限状態マシーンにより表わされることが好ましい。各マ
シーンは、−組の単音からの１つの”単音（ｐ　ｈ　ｏ
　ｎ　ｅ　）　”に対応する。各単音は、マルコフ・モ
デル又は同種のものを指定することができる、音声学的
要素、ラベル即ちフィーニーム（ｆｅｎｅｍｅ−フロン
ト・エンド・プロセッサ等力ら得られる音素）、又は何
らかの他の予め定義された音声の特徴付けと相互関係を
有している。

学習スクリプトは、典型的には、一連の既知単語より成
り、各単語は一連の単音を構成し、従って各単語は一連
の単音マシーンにより表わすことができる。

本発明の方法によれば、確率項目に関連する確率値は次
の如く評価される。各確率項目に関して、定義された予
測値θ′が存在する。

予測値θ′及び学習中に発生されたラベルが与えられた
とき、°゛単単一カウント色呼ばれる値が決定される。

一般的には、”単一カウント″は、或る事象が学習デー
タに基づいて生じた（予測された）回数に関連する。゛
°単一カウント″の１つの特定の定義は、（ａ）或る一
定のラベル系列Ｙ、（ｂ）定義された予測値θ′、及び
（ｃ）或る特定の時間ｔを与えられたときの、或る特定
の遷移τ。

及び状態Ｓｊの確率である。

上記単一カウントは、周知のフォワード・バックワード
・アルゴリズム、又はＢａｕｍ−Ｗｅｌｃｈアルゴリズ
ムを適用することによって決定される。

上記定義によれば、単一カウントは次式で表わすことが
できる。

ｐ　ｒ　（ｓ　ｊ−、τＨＩ　Ｙｓθ′、ｔ）各時間り
の特定のＳｊ、τ４、Ｙ、及びθ′のための単一カウン
トを合計することにより、゛°遷移累計カウント”が対
応する遷移確率項目について決定される。遷移累計カウ
ントは確率の合計であるため、その値は１を越えること
がある。各遷移確率項目について、各々の累計カウント
が記憶されることが好ましい。所与の遷移のためのその
累計カウントを、状態Ｓｊから取出すことができるすべ
ての遷移のための累計カウントの合計で割ることにより
、各々の遷移確率項目のための現在の確率値が決定され
る。その現在の確率値は、好ましくは、その各々の遷移
確率項目に関連して記憶されることが好ましい。

ラベル出力確率項目についても、単一カウントが合計さ
れる。それらの確率項目の各々に関して、或る特定のＳ
３、τ１、Ｙ、及びθ′のための単一カウントの合計が
、ラベル系列に於ける対応する発生されたラベルがその
ラベル出力確率項目に対応するラベルである、すべての
ラベル時間について得られる。この場合の合計は、“ラ
ベル出力累計カウント″であり、それに対応するラベル
出力確率項目に関連して記憶されることが好ましい。

この累計カウントを、特定のＳｊ、τｉ、Ｙ、及びθ′
のためのすべてのラベル時間に亘る単一カウントの合計
で割ることにより、各々のラベル出力確率項目のための
現在の確率値が決定される。

本発明の方法は、確率的単語、より具体的には音声の認
識システムに於ける単語のデコーディングの精度を高め
るために、上記の確率項目の現在の確率値を改善するこ
とに係る。

本発明の方法によれば、発声された既知単語の学習スク
リプト、各確率項目のための初期確率値、及び学習中に
発声された各単語のための候補単語のリストが規定され
る。候補単語リストは、本出願人による特願昭６０−２
５５２０５号明細書に記載されているマツチング手順の
如き手順によって定義される。すべての既知の発声され
た単語に対して、”正しい”既知の単語及び”正しくな
い”単語（好ましくは、既知単語として誤ってデコード
される最大尤度を有している正しくない単語）が存在す
る。確率項目の現在の確率値は、正しい単語のベースフ
オーム又は正しくない単語のベースフオームに於ける各
確率項目のための”プラス・カウント値″及び”マイナ
ス・カウント値′°を初めに計算することによって決定
される。

プラス・カウント値は対応する確率項目（各確率項目）
のための累計カウントに加えられ、マイナス・カウント
値は上記累計カウントから差引かれる。それらの調整さ
れた累計カウントに基づき、確率項目のための確率値が
再び計算されて記憶される。′プラス・カウント値″は
、周知のフォワード・バックワード・アルゴリズムを適
用し、好ましくはその結果束じる統計を基準化すること
により、正しい（即ち、既知の）単語のベースフオーム
に於ける各確率項目について計算される。その加算は、
カウント値（及びそれらから引出された確率項目）を系
列Ｙの方へ近づ（ようにバイアスさせて、系列Ｙが正し
い単語モデルのより高い尤度の出力に思われるようにす
る。

所与の確率項目のためのマイナス・カウント値は、あた
かも正しくない単語が発声されて、そのラベル系列が生
じたかのようにフォワード・パックワード・アルゴリズ
ムを適用することにより計算される。その既知単語の単
一の発声から引出されたマイナス・カウント値は、（゛
プラス・カウント値″との加算の前又は後に）対応する
累計カウントの最も最近の値から差引かれる。その減算
は、正しくない単語のベースフオームに於ける確率項目
の計算に用いられた累計カウントを系列Ｙから離れるよ
うにバイアスさせる。

語彙中の各単語に上記ステラフを行うことにより、記憶
されたカウント値及び確率値がデコーディングの精度を
高めるように調整される。

従って、本発明の目的は、デコーディング・エラーをゼ
ロにするように確率及び統計全決定することでちり、又
音声から語粱中の単語へのテコ−ディングを改善するた
めに他の技術により決定されるカウント値を改善するこ
とである。

Ｅ、実施例次に、本出願人による特願昭６’０−２５５２０５号明
細書を参照して、本発明の方法に係る背景及び環境につ
いて説明する。

印　音声認識システムの全体的説明第１図に於て、音声認識システム１０００の全体的ブロ
ック図が示されている。システム１０００は、音６プロ
セツサ１００４が接続されているスタック・デコーダ１
００２、近似的な高速音響マツチングを行うために用い
られるアレイ・プロセッサ１００６、詳細な音響マツチ
ングを行うために用いられるアレイ・プロセッサ１００
８、言語モデル１０１０．及びワーク・ステーション１
０１２を含む。

音響プロセッサ１００４は、音声波形人力を、一般的に
は各々が対応する音の種類を識別するラベル系列に変形
させるように設計されている。このシステムに於て、音
響プロセッサ１００４は、人間の耳のユニークなモデル
に基づいており、本出願人による特願昭６０−２１１２
２９号明細書に記載されている。上記明細書は、音声入
力に応答してラベルを発生させる特に有効な方法を開示
している。

音響プロセッサ１００４かものラベル（本明細書に於て
は、”フィーニーム″とも呼ばれる）は、スタック・デ
コーダ１００２に入る。論理的には、スタックΦデコー
ダ１００２は、第２図に示されている素子により表わす
ことができる。即ち、スタック・デコーダ１００２はサ
ーチ素子１０２０を含み、サーチ素子１０２０は、ワー
ク・ステーション１０１２とコミュニケートシ、又各々
インタフェース１０２２．１０２４．１０２６、及び１
０２８’ｉ経て、音響プロセッサのプロセス、高速マツ
チング・プロセッサのプロセス、詳細マツチング中プロ
セッサのプロセス、及ヒ言語モデルのノ゛ロセスとコミ
ュニケートスル。

動作に於て、音響プロセンサ１００４により発生された
フィーニームは、サーチ素子１０２０によす高速マツチ
ング・プロセッサ１００６にコミュニケートされる。詳
細マツチング及ヒｆｉｈ速マツチングの手１１＠につい
て以下に説明するが、前述の特願昭６０−２５５２０５
号明細書にも記載されている。簡単に云えば、音響マツ
チングの目的は、音響学に基づき、所与のラベル系列に
関して最も尤度の高い１つ又は複数の単語を決定するこ
とである。この目的の達成に於て、各単語は、少なくと
も１つの確率的有限状態マシーンにより表わされる。典
型的には、各単語は、一連のそのようなマシーンによっ
て表わされる。

各確率的有限状態マシーンは、（ａ）複数の状態Ｓ、、
（ｂ）幾つかは或る状態から他の状態へ延びており、他
の幾つかは或る状態から延びてそれ自体へ戻り、各々が
各々に関連して対応する確率を有している、複数の遷移
ｔｒ（ＳｊＩＳ、）、及び（ｃ）或る特定の遷移に於て
発生することができる各ラベルに関する、対応する実際
のラベル出力確率によって特徴付けられる。便宜上、等
価的に、多数の遷移を、あたかも単一の遷移であるかの
ように、一群にまとめて、単一の組のラベル出力確率を
それに関連させてもよい。

それらのマシーンをうめる確率は、学習スクリプトがユ
ーザにより発声される学習セツション中に引出されるデ
ータに基づいて決定される。その引出されたデータは、
ユーザの特定の発声特性に対応する。

語彙中の単語を調べそして入力ラベルの所与の系列のた
めの候補単語の数を減少させるために、学習された単語
モデル（即ち、単語のペースフオーム）を用いて、高速
の近似的音響マツチングが行われる。その高速マツチン
グに従って、確率値の少なくとも幾つかについて近似値
が求められる。

七扛から、それらの近似された確率値に基づいて、マツ
チングが行われる。

言語モデル１０１０は、高速マツチング用候補リストに
於ける候補単語の如き、種々の単語の各々の前後関係か
らみた尤度を、好ましくは存在するトリグラムに基づい
て、決定する。この方法については、従来の文献に於て
一般的に報告されている。

詳細マツチングは、単独でも又は高速マツチングと組合
わせても行われる。単独で行われると皮は、各単語モデ
ルに対応する近似されていない確率値が、対応する単語
のマツチング・スコアの決定に於て考察される。詳細マ
ツチングは、語粱中の各単語について、スコアを調べて
供給する。

高速マツチングと組合わせて用いられるときは、詳細マ
ツチングは、発声された単語で、島る妥当な尤度を有し
且つ好ましくは言語モデルの計算に基づ（妥当な尤度を
有している、高速マツチング用候補リストからの単語を
調べる。

音響マツチング及び言語モデルから引出された１つ又は
複数の単語が、スタック・デコーダ１００２により用い
られる。具体的には、スタック・デコーダ１００２は、
高速マツチング、詳細マツチング、及び言語モデルの適
用により引出された情報を用いて、発生されたラベルの
系列のための最も尤度の高い単語の径路又はシーケンス
を決定するように設計されている。

最も尤度の高い単語のシーケンスを見出すための従来の
２つの技術は、ビタビ・デコーディング及び単一スタッ
ク・デコーディングである。それらの各技術は、Ｂａｈ
ｌ、　Ｊｅｌｉｎｅｋ、及びＭｅｒｃｅｒによる論文″
Ａ　Ｍａｘｉｍｕｍ　ＬｉｋｅｌｉｈｏｏｄＡｐｐｒｏ
ａｃｈ　　ｔｏ　　Ｃｏｎｔｉｎｕｏｕｓ　　５ｐｅｅ
ｃｈ第１７９頁乃至第１９０頁（１９８３年）に記載さ
れている。ビタビ・デコーディングは、上記論文の第５
節に、単一スタック・デコーディングは第６節に記載さ
れている。

単一スタック・デコーディング技術に於ては、異なる長
さの径路が尤度に従って単一スタックにリストされ、デ
コーディングはその単一スタックに基づいて行われる。

単一スタック・テコ−ディングは、尤度が或る程度径路
の長さに依存し、従って標準化が一般的に用いられるこ
とを考慮に入れなければならない。

ビタビ技術は、標準化を必要とせず、一般的には小さな
仕事に実用的である。

スタック・デコーダ１００２は、他の素子を制御するよ
うに働（が、多くの計算を行わない。従って、スタック
・デコーダ１００２は、好ましくの如き出版物に記載さ
れている如き、ＩＢＭ　　ＶＭ／１７０オペレーティン
グ争システムの下で動作する４３４１（商品名）を含む
。相当な計算を行つアレイ・プロセッサは、市販のＦｌ
ｏａｔｉｎｇＰｏｉｎｔ　Ｓｙｓｔｅｍ、　Ｉｎｃ、製
（ＦＰＳ）１９０Ｌを用いて実現された。

上記システムの概略的説明に於て、値を割当てなければ
ならない確率項目を有するマルコフ・モデルは、高速マ
ツチング・プロセッサ１００６及び詳細マツチング・プ
ロセッサ１００８に於て用いられる。本発明の方法は、
単語記識の精度を高めるために、音響マツチング・プロ
セッサに於て用いられる確率項目の値を調整することを
含む。

（１］）単語表現マルコフ・モデルの学習の改善仄）　
概観第６図は、本発明の１つの一般的実施例を示す流れ図で
ある。ステップ１１０２に於て、語雲単語の学習スクリ
プトが発声される。ステップ１１０４に於て、学習スク
リプトの発声に応答して、ラベルが発生される。このラ
ベリングは、第１図に関連して既に述べた音響プロセッ
サ１００２により行われる。

好ましくは、２００個の異なるラベルがあり、各ラベル
は或る時間間隔を占めることができる１つの音の種類を
識別する。用いられるラベルのアルファベットを定義す
る技術については、従来の文献に於て論じられている。

或る特定の技術が、前述の特願昭６０−２１１２２９号
明細書に詳述さｎている。そのフーロセスは、大まかに
云えば、音声の特徴を選択するステップ、複数のクラス
タ又は領域に区分された空間として音声を定義するステ
ップ、及び各領域にプロトタイプを割振るステップを含
む。予め定義されたパラメータの値に基づいて、種々の
プロトタイプの特性からの入力音声の特性の距離が決定
される。それから、。最も近い”プロトタイプが、音声
の或る特定の時間間隔に関連付けられる。各プロトタイ
プは、１つのラベルとして識別される。従って、音声の
連続する時間間隔には、連続するラベルが存在する。

クラスタの形成、特徴の選択、及びプロトタイプの距離
の測定のための技術は周知である。

第３図のステップ１１０６に於て、語喧中の各単語カマ
ルコフｅモデルの単語のベースフオームとして表わされ
る。即ち、各単語は、一連の連結された確率的有限状態
マシーンにより表わされる。

（連結されたシーケンスも１つの確率的有限状態マシー
ンである。）構成している各マシーンは１つの”単音”
マシーンである。前述の如く、単音は、音声学（即ち、
音素）に基づいて特徴付けられてもよく、又はラベル（
即ち、フィーニーム）に基づいて特徴付けられてもよい
。音声学的、フィーニーム的、又は他の特徴付けに関係
なく、各単音マシーンは、（、）複数の状態Ｓ４、（ｂ
）ＳｊがＳ・と同じ状態であってもなくてもよく、各々
が各々に関連して対応する確率を有している、複数の遷
移ｔ　ｒ　（ｓ　ｉ　ｌ　Ｓｌ　）、及び（Ｃ）或る特
定の遷移に於て発生することができる各ラベルに関する
、対応する実際のラベル出力確率を含む。

音声学的単音マシーンの場合、各単音マシーンは、国際
音標文字に於ける１つの要素の如き或る音声学的要素に
対応する。音声学的単音マシーンの一例が第４図に示さ
れている。

第４図に於て、単音マシーン１２００には、７個の状態
Ｓ１乃至Ｓ７及び１３個の遷移ｔｒｌ乃至ｔｒ１３が設
けられている。第４図は又、単音マシーンが、点線の径
路を有する３つの遷移、即ち遷移Ｌｒ’１１、ｔｒ’１
２、及びｔｒｌろを有することを示している。それらの
３つの遷移の各々に於ては、単音は、ラベルを生じずに
或る状態から他の状態へ変化することができ、従ってそ
のような遷移はナル遷移と呼ばれる。ラベルは、遷移ｔ
ｒｌ乃至ｔｒ１ｏに沿って生じることができる。

具体的に云えば、各遷移ｔｒ　　乃至ｔｒ１ｏに沿つて
、１つ又はそれ以上のラベルが、その遷移で発生される
別個の確率を有することができる。好ましくは、音響プ
ロセッサが発生することができる各ラベルに関連する確
率が、各遷移について存在する。即ち、音響チャネルが
２００個のラベルを選択的に発生することができる場合
、各遷移（ナルでない）は、該遷移に関連して２００個
の゛実際のラベル出力確率″を有し、各ラベル出力確率
は、その対応するラベルがその単音によりその特定の遷
移に於て発生される尤度を示す確率値を有する。遷移ｔ
ｒ１のための実際のラベル出力確率は、角括弧で挿まれ
た数字１乃至２００の列を伴った記号ｐにより表わされ
、各数字は所与のラベルを表わしている。ラベル１に関
しては、単音マシーン１２００が遷移ｔＪに於てラベル
１を発生する確率ｐ〔１〕が存在する。種々の実際のラ
ベル出力確率は、そのラベル、及び所与の単音のための
対応する遷移に関連して記憶される。

７０個の異なる単音、例えば、各音声学的要素に１つの
単音が存在する場合、すべての単音マシーンを考慮に入
れた、別個の確率の総数は、ラベル出力確率と遷移確率
との合計である。確率の総数は以下の通りである。

２００〔発生可能な別個のラベル〕ｘ　１ｏ　（１単音マシーン当りの非ナル遷移〕×７０
〔別個の単音〕１４０．０００〔ラベル出力確率〕１３〔１単音当りの遷移〕 ×７０〔別個の単音〕９１０〔遷移確率〕従って、知られていなければならない（又は予測されね
ばならない）確率の総数は、１４０．００ＯＸ９１０＝
１４Ｇ、９１０である。１４０，９１０個のエントリー
を有するリストがメモリに記憶されることが好ましい。

後述する如く、エントリーの総数は、他の種類の単音が
用いられる場合、又は遷移が相互にマージされる場合に
は、異なることがある。いずれの場合中も、各エントリ
ーは、ラベル出力確率又は遷移確率（又はマージされた
或は結合された事象を表わす何らかの確率）のいずれか
に対応する、単一の“確率項目“のだめのものである。

各確率項目の値は、学習中に決定された”カウント′°
かも引出される。各゛カウント″は、或る既知入力に応
答して或る特定のラベル世力の系列が発生されるとき、
所与の時間に於て所与の単音マシーンに於ける状態から
取出されている所与の遷移の如き、各々の事象が生じる
確率を表わす。

好ましくは、カウント値及び確率項目値は、初めに最大
尤度デコーディング技術に従って決定される。即ち、カ
ウント統計及び確率項目値は、式ｐ　ｒ　（ｙ　ｔｎ　
ｇ　ｌ　Ｍ）を最大にするように計算される。上記式に
於て、Ｙｔｎｇは初期学習中に発生されたラベルの系列
であり、Ｍはマルコフ・モデルである。以下に詳述する
如（、異なる種類のカウント（例えば、単一カウント及
び累計カウント）を、対応する異なる事象を表わすよう
に定義することができる。

本発明の方法によれば、各々の確率項目のための値が、
デコーディングの性能を改善するように調整される。具
体的に云えば、確率項目が引出されるカウントの値が、
正しい単語のデコーディングの方へバイアス即ち調整さ
れる。

第５図は、第４図の単音マシーン１２００のトレリスを
示す。このトレリスは、状態Ｓ１から状態Ｓ７へのナル
遷移並びに状態Ｓ１から状態Ｓ２へ及び状態Ｓ　かも状
態Ｓ４への非ナル遷移を示している。他の状態の間の遷
移も示されている。

このトレリスは又、水平方向に測定された時間を示して
いる。或る単音が時間ｔ＝ｔｏに於て開始時間を有する
確率を表わすために、開始時間の確率ｑ。を決定するこ
とができる。開始時間ｔ。に於て、種々の遷移が示され
ている。この点に於て、連続する時間の間の時間間隔は
、ラベルの時間間隔と長さが等しいことが好ましい。第
５図に於ては、革−の単音が単一の時間間隔について示
されている。

音声学的単音マシーンの代りに、フィーニーム的単音マ
シーンを単語のベースフオームの構築に用いてもよい。

音声学的単音（典型的には、２゜０個）でなく、フィー
ニーム的単音（典型的には、７０個）を用いた場合には
、確率の総数が変化する。フィーニーム的単音を用いた
場合には、１単語中の単音の数は典型的にはより大きい
が、遷移の選択の延数は典型的にはより小さい。不発明
の方法は、単音の種類に関係なく、適用される。フィー
ニーム的単音より或るフィーニーム的単語のベースフオ
ームを構築するための装置及び方法論については、本出
願人による特願昭６１−１６９９６号明細書に開示され
ている。

各フィーニーム的単音マシーンは、第６図に示す如き構
造を有する。一連のフィーニーム的単音マ７−ンのトレ
リスを第７図に示す。

第８（ａ）図及び第８（ｂ）図は、音声学的単語のベー
スフオームを表わしている。第８（ａ）図に於ては、所
与の単語に対応する一連の音声学的単音の一例が、ＰＰ
７及びｐｐｉｏを伴ったＰＰ１であるように示されてい
る。”ｐｐ’“は、音声学的単音を表わす。末尾の数字
は各々、７０個（又は、それ以上）の単音の組に於ける
或る特定の単音を識別する。例えば、第８（ａ）図及び
＠８（ｂ）図のベースフオームは、単語”ＴＨＥ”のた
めのベースフオームであるものとする。’　Ｔ　Ｔ（Ｅ
　”の１つの音声学的スペリングは、ＤＨ−ＵＨｌ　−
ＸＸである。この例によれば、ＰＰ１は単音ＤＨに対応
し、ＰＰ７は単音ＵＨ１に対応し、ＰＰ１０は単音ＸＸ
に対応する。

単音ＰＰ１は第８（ｂ）図に示す如き確率を有する。即
ち、第１遷移はｐ（ｔｒｉ、１）として表わされている
確率を有し、第２遭移はｐＣｔｒ２Ｐ１〕として表わさ
れている確率を有し、他の各遷移についても同様である
。遷移ｔｒ１には、又ラベル出力確率の配列体、即ちＰ
ｐ１’（１）、ＰＰ１　’　（２，１１６１，及びｐｐ
１’（２００）も存在する。添字Ｐ１はその組の音声学
的単音１として単音を識別し、単一のプライム符号（′
）は第１遷移を示す。従って、ｐＰ１’（１）は、音声
学的単音ＰＰＩが遷移１に於てラベル１を生じる確率を
表わしている。

第８（ｂ）図には、説明を簡単にするために、代表的な
確率のみが示されている。例えば、音声学的単音ＰＰ７
について、１つだけ示されている遷移の確率は第１遷移
の確率であり、即ちｐ（ｔｒ１ｐ７）である。又、遷移
ｔｒ１に於けるラベル出力確率の配列体が、角括弧内に
２００個のラベルを有するｐ、７′として示されている
。詳細に示せば、第８（ｂ）図は各遷移について確率を
含むことになる。各非ナル遷移についても、各々の可能
なラベル出力に関する確率が存在する。

各音声学的単音の各確率は、メモリ中に記憶された各々
のための値を有している。所与の単語（例えば、”ＴＨ
Ｅ”）は、その所与の単語に対応する音声学的単音（例
えば、ＤＨ，ＵＨｌ、及びＸＸ）Ｋ関連する、記憶され
た確率値により特徴付けることができる。

第９図に於ては、或る単語が、次に示す表１のフィーニ
ームに各々対応する、一連のフィーニーム的単音により
表わされて℃・る。単語”ＴＨＥ”′は、３つの音声学
的単音でなく、恐らく６０個の連結した、２状態のフィ
ーニーム的単音により表わされる。その場合、単語”Ｔ
　ＨＥ　”は、構成するフィーニーム的単音に対応する
遷移確率及びラベル出力確率によって特徴付けられる。

？Ｃ’Ｊ　　蛸　寸　Ｌｎ　　’Ｏｈ　　の　かへＩ’
ｈ　＋’−ｈω■■の■ ＦＣＳＪ　Ｉ／）寸の−へ哨マＰＣ’Ｊ　ｍ　寸Ｌｎ　Ｃ＞のα ＯＣＩ　ＣＩ　ＯＯＯＯＯ０ＯＯ００口０００口　Ｃへ　　ひのα 罰１０　Ｃ）　ＯＯＯＯＣＩ　ＣＩ　ＯＯＯＣＩ　ＯＯＯＯ
Ｏ００例えば、そのノーケンスに於ける第１のフィーニ
ーム的単音は、ＦＰ２００である。ＦＰ２００は、３つ
の遷移を有し、それらは各々の確率ｐ〔Ｌｒ１Ｆ２ｏｏ
〕、ｐ［：Ｌｒ２　　　　　〕、及びｐ〔むｒ３Ｆ２０
０）を有している。Ｆ’Ｐ２００の２つの非ナル遷移１
及び２は、各々に関連するラベル出力確率を有している
。

フィーニーム的単音Ｆ　Ｐ　２００に伴う、フィーニー
ム的単音ＦＰ１０及び後続のフィーニーム的単音も、各
々に関連する対応する確率を有している。それらの一連
のフィーニーム的単音は、それらの関連する確率ととも
に、“ＴＨＥ”の如き、単語を定義する。

各単音（音声学的又はフィーニーム的）は、多数の遷移
確率及びラベル出力確率を含み、それらは集合的に゛確
率項目°°と呼ばれる。各確率項目に、メモリの一部が
割当てられ、対応する値がその部分に記憶される。精度
を高めるために本発明の方法に従って調整されるのは、
それらの値である。

確率項目のための値の記憶は、第６図のステップ１１０
８に示されている。初めに記憶されている値の発生は、
従来の種々の学習技術に於ける任意の技術によって行わ
れる。例えば、前述の論文″Ｃｏｎｔｉｎｕｏｕｓ　　
５ｐｅｅｃｈ　　Ｒｅｃｏｇｎｉｔｉｏｎｂｙ　　５ｔ
ａｔｉｓｔｉｃａｌ　　Ｍｅｔｈｏｄｓ″は、その第７
節に於て、或る学習手順について記載している。

具体的に云えば、その学習は、以下に簡単に説明する周
知のフォワード・バックワード・アルゴリズムに関連し
て記載されている。フォワード・バックワード・アルゴ
リズムによって、カウントのためのイ直が引出され、そ
れらのカウント値から、各確率項目のための確率値が計
算される。本発明の方法は、それらの確率値、及びそれ
らの確率値が引出されるカウント値を改善する。

前述の如く、各単語のペースフオームは一連。

単音として特徴付けられ、各単音はそれに関連する確率
項目（及びそれらのための確率値）により特徴付けられ
る。従って、それらの確率値を記憶し、割当てることに
より、マルコフ単語モデル（即ち、ベースフオーム）を
特徴付けることができる。

一連の５つの音声学的単音ＤＨ，ＵＨＩ、及びＸＸによ
り表わされたときの単語”ＴＨＥ”につ（・て再び考察
すると、各単音は、第４図の単音マ／−ン１２００の如
き単音マシーンにより表わされる。学習セツション中に
、単語”ＴＨＥ”を構成している５つの音声学的単音が
発声され、それらに応答してラベル（即ち、フィーニー
ム）ノ系列が発生される。発生されたラベルに基づき、
フォワード−バンクワード・アルゴリズムが第１０図て
示されている如きトレリスを経て進められ、種々の遷移
が調べられる。後述される如（、フォワード・バックワ
ード・アルゴリズムを用いてカウントのための値が決定
され、そのような値が記憶されそして本発明の方法に従
って調整される。

そのカウント・データから、種々の確率項目のための改
良された値が決定されて記憶される。

後述される如（、記憶された確率項目の値は、フォワー
ド・バンクワード・アルゴリズムにより発生されたカウ
ントから初めに計算された値、又は本発明の方法に従っ
て予め調整された値のいずれかを表わす。一貫性を与え
るために、ステップ１１０８に於て記憶された値は、い
ずれの場合も、以下に於て“現在”の記憶された値と呼
ばれる。

再び第３図に於て、ステップ１１０８中に記憶された値
を強調するプロセスが、ステップ１１１０に於て開始さ
れる。ステップ１１１０に於て、”新しい”単語が語集
かも選択される。その”新しい”単語は、発声された単
語のスクリプトに於ける次の単語であることが好ましい
。その選択された単語が、”主題の”単語であり、その
ための単語モデルが後続のステップに従って調べられる
。

ステップ１１１２に於て、主題の単語が一回発声される
。ステップ１１１４に於て、上記の単一の発声に応答し
て、対応するラベル系列が発生される。発生されたラベ
ル系列に対して、マツチング手順が行われ、候補単語の
順序付けられたリストが形成される。その順序付けられ
たリストを得るだめの１つのマツチング手順は、以下に
述べられ、又前述の特願昭６０−２５５２０５号明細書
にも記載されている、高速マツチングである。

”正しいパ単語と呼ばれる、実際の発声された単語は、
歳知である。更に、音響マツチング中に形成された候補
リストから、少（とも１つの”正しくない”単語が、ス
テップ１１１６に於て、選択される。主題の単語が発声
されたとき、”正しくない”単語が誤って選択される見
込みのない場合には、ステップ１１１８に於て、ステッ
プ１１１０に戻る決定が成される。それから、新しい主
題の単語が選択される。

主題の単語が発声されたとき、”正しくない″単語が誤
って選択される尤度が、定義された妥当な尤度であれば
、°正しい″単語及び°正しくない″単語のための現在
の確率項目値が調整される。

より具体的に、主題の単語の１回の発声について考察す
る。必ずしも必要ではないが、好ましくは、その１回の
発声は、初めの学習セツションの後に発声される。正し
い単語にフォワード・バックワード・アルゴリズムを適
用することにより、その１回の発声から、正しい単語の
ためのベースフオームに於ける各確率項目について、多
数の゛。

プラス″・カウントが計算される。それらの゛プラス°
′・カウントは、ステップ１１２０に於て計算される。

所望ならば、それらの”プラス°°・カウントは、基準
化され又は重み付けられる。゛プラス”・カウントは、
各々の記憶されたカウントに対応し、各々の記憶された
カウントの現在の値への加数として働く。その増加は、
”正しい″単語のための確率項目の計算に用いられた各
々の記憶されたカウントについて、ステップ１１２２に
於て行われる。即ち、正しい単語のためのベースフオー
ムに含まれる１４０９１０個の確率項目の各々について
、それに関するカウントが認識され、そのための記憶さ
れた”現在の”値が、対応する“プラス”・カウント値
、又はそれに関する基準化された又は重み付けられた値
で増加される。

”正しい″単語の確率項目の計算に用いられたカウント
の０現在の″記憶された値を増加させることに加えて、
本発明の方法は又、”正しくない”単語のためのベース
フオームに含まれている確率項目の計算に用いられたカ
ウントの“現在の′値を調整することも特徴とする。こ
の点に於て、主題の（°正しい′）単語は発声されるが
、”正しくない“単語のための単語モデルは考察される
。

”正しくない″単語のためのベースフオームに関連する
カウントは、それに関連する記憶された”現在の°値を
有している。主題の単語の１回の発声に基づいて、ステ
ップ１１２４に於て、”マイナス′°・カウント値が、
”正しくない”単語のためのベースフオームについて計
算される。それから、各々の０マイナス″・カウント値
、又はそれに関する基準化された又は重み付けられた値
が、負のバイアス値として働く。

正しい単語に関連する所与のカウントには、その所与の
カウントの記憶された値に加えられる゛プラス・カウン
ト値″（又は、その関連する値）が存在する。同様に、
正しくない単語に関連する所与のカウントには、その所
与のカウントの記憶された値から差引かれる゛マイナス
・カウント値°゛（又は、関連する値）が存在する。正
しい単語及び正しくない単語に関連する所与のカウント
については、その所与のカウントは、°′プラス・カウ
ント値″（又は、関連する値）で増加され、そして”マ
イナス・カウント値“（又は、関連する値）で減少され
る。その結果、各々の所与のカウントについて、調整さ
れた値が得られる。後に、ステップ１１２８に於て、そ
れらの調整されたカウントから確率項目が再計算され、
それに応じて”正しい”単語の方へ近づきそして”正し
くない″単語から離れるようにバイアスされる。

再び第１０図に於て、第４図に示されている如き単音マ
シーンに基づ（トレリスの一部が示されている。具体的
に云えば、３つの連続するラベルの時間間隔に亘る単音
モデルが示されている。その単音モデルは、特定の１つ
又は複数の単音の発声を表わすことができる極めて多数
のトラックを定義している。例えば、所与の単音につい
て、１つの可能なトラックは、時間ｔ。に於て、状態Ｓ
１から開始し、それから状態Ｓ２へ進むことができる。

そのトラックは、時間Ｌ　に於ける状態Ｓ２かも時間ｔ
　に於ける状態Ｓ３へ、それから状態Ｓ７（最終状態）
へと続（ことができる。所与の単音はより短かい長さを
有してもよく、より多数の時間間隔に亘って延びてもよ
い。そのトレリスは、或る発声をトラッキングすること
ができる体系を表わしている。フォワード・バンクワー
ド・アルゴリズムは、後述される如く、上記トレリスに
於ける遷移及びそれらの遷移に於けるラベル出力確率に
関連する種々の確率を決定するステップのアウトライン
をなす。

第１０図のトレリスが、単語″Ｔ　ＨＥ　”に於ける如
き単音ＤＨに対応するものと仮定する。説明のため、１
つの確率項目について考察する。その確率項目は、遷移
τ１に於てラベルｆ、を生じる尤度に関連する。この例
に於ては、ｆｈは、ラベル・アルファベット中の１つの
ラベルＴＨ１に対応する（表１参照）。初めの学習中に
、遷移τ１に於て生じているラベルＴＨ１に対応する確
率項目のための予備的な値が記憶される。そのラベルＴ
Ｈ１の確率項目のための予備値は、好ましくは単音ＤＨ
の多数の発声に基づいて、記憶されているカウント値か
ら計算される。遷移τｉに於て生じているラベルＴＨＩ
に関する確率項目のための学習中に引出された予備値は
、０．０７であると仮定する。又、ＤＨの単音マシーン
に於ける特定の遷移τ、に於けるラベルＴＨ１の発生は
、１４０゜９１０個の確率項目のリストに於ける確率項
目９００１として識別されるものと仮定する。従って、
確率項目９００１は、記憶された現在の確率値０゜０７
を有している。他の各確率項目についても、予備値が同
様に記憶される。更に、確率項目の確率の計算に用いら
れる各カウントについても、予備値が記憶される。確率
項目９００１の計算に用いられたカウントの１つＣ０Ｕ
ＮＴＸは、６の予備値を有するものと仮定する。後述す
る如（、Ｃ０ＵＮＴＸは、累計カウントである。

すべてのカウント及び確率項目について値が記憶されて
、本発明が進められる。説明のため、１正しい”単語”
Ｔｌ（Ｅ”について、所与の語粟のだめの高速音響マツ
チングは、”ＴＨＥＮ”が候補単語であることを示すも
のと仮定する。その後、詳細マツチングは、単語”　Ｔ
　ＨＥ　Ｎ　”が、既知の単語”　Ｔ　ＨＥ　’“の単
一の発生に基づいて（第３図のステップ１１１４）誤っ
て選択される（ステップ１１１６）尤度が最も大きい”
正しくない″単語であることを示す。そのとき、単語”
ＴＨＥＮ”のためのマツチング・スコアは、音響マツチ
ングに従って、単語”　Ｔ　ＨＥ”のためのマツチング
・スコアの何らかの予め定義された限界内にあることが
見出される。

それから、正しい単語のためのベースフオームに於ける
各カウントのための”プラス・カウント値パ（ある場合
）が、フォワード・バックワード・アルゴリズムを適用
することにより、単一の発生に基づいて計算される。上
記の例を続けて、確率項目９００１、即ち単音ＤＨに於
ける遷移τ。

に於て生じているラベルＴＨ１、のための値の計算に用
いられるＣ０ＵＮＴＸは、正しい単語”ＴＨＥ　”の単
一の発声に応答して生じた１、５のパブラス・カウント
値″を有するものと仮定する。その“プラス・カウント
値″１５は、必ずしも必要ではないが好ましくは、何ら
かの係数、例えば１／２により基準化される。（その係
数を決定することができる１つの方法を以下に述べる。

）その基準化された値０．７５が、カウントＣ０ＵＮＴ
Ｘのための前に記憶された値乙に加えられる。その結果
、Ｃ０ＵＮＴＸの値が、６．７５に調整される。

又、′正しくない“単語°“Ｔ　ＨＥ　Ｎ　”に対応す
る”Ｃ０ＵＮＴＸ”のための”マイナス・カウント値”
（ある場合）も、フォワード・バックワード・アルゴリ
ズムを適用することにより決定される。その”マイナス
・カウント値パは、０．０４であると仮定する。その”
マイナス・カウント値”も、必ずしも必要ではないが好
ましくは、例えば１／２により基準化される。その場合
、“マイナス・カウント値″は０．０２の値を有する。

その”マイナス・カウント値゛は、Ｃ０ＵＮＴＸの値に
適用される減数として働く。従って、Ｃ０ＵＮＴＸは、
６　＋　０．７５−０．０２　＝　６．７５に調整され
る。

カウントが正しい単語のベースフオームと正しくない単
語のベースフオームとの両方に於て用いられる場合には
、それに関連する現在の記憶された値は、゛°プラス・
カウント値″で増加され、その合計が゛マイナス・カウ
ント値″で減少される。

加算及び減算のＩＩＩ序は重要ではない。更に、カウン
トが正しい単語のベースフオーム又は正しくない単語の
ベースフオームのいずれかだけに於て用いられる場合に
は、各々のカウントのための現在の記憶された値に対し
て、各々”プラス・カウント値”が加えられ又は”マイ
ナス・カウント値”が差引かれる。カウントのための記
憶された値が調整されると、その調整された値は後に用
いられるためにメモリに入れられる。具体的に云えば、
各々の調整された値は、後のカウントの調整に於て、現
在の記憶された値として働（。後述される如く、カウン
ト値が連続的に適切に調整されるように、単語を相次い
で発声してもよい。

第６図のステップ１１３０に於て、発声されるべきすべ
ての単語が主題の単語であったかについて、決定が成、
される。そうでない場合には、新しい単語が選択され、
ステップ１１１０から始まるプロセスがその新しい単語
について繰返される。

発声されるべきすべての単語が主題の単語であったとき
、繰返しは終了し、不発明の方法に従って、確率値が、
繰返しの終りに於けるそれらの値に基づいて調整された
カウントから再計算される（ステップ１１２８）。それ
から、確率項目の現在の記憶された確率値を用いて、次
の繰返しに於ける音響マツチング・スコア及びカウント
値が決定される。次の繰返しには、再定義された単語モ
デルをステップ１１０８に於ける出発点として、プロセ
ス全体が反復される（ステップ１１３２参照）。

本発明の方法によれば、所与の確率項目のためのカウン
ト値の増加及び減少は、連続する単語が所与の１回の繰
返しの間に発声されるとき、多数回行うことができる。

又、複数の繰返しの場合も同様である。更に、所与の単
語に於ける幾つかの確率項目の計算に、同一のカウント
が用〜・られる場合には、そのカウントは１回の繰返し
に於て数回調整することができる。

次に、第１１図は、本発明の方法の或る特定の実施例を
示す流れ図である。第１１図の実施例に於て、各カウン
トは、記憶された”現在の′°値を有する。各カウント
の記憶された゛現在の”値は、゛プラス・カウント値”
及び１マイナス・カウント値′°により適切に調整され
る。用語６カウント′。

値の１つの定義が以下に提案されているが、本発明の方
法の実施に於て他の定義を用いることもできることを認
識されたい。

第１１図の実施例は、ステップ１４０２から開始される
。ステップ１４０２に於て、多数の変数が導入されて、
セットされる。それらの変数は、流れ図に示されるに従
って、以下に定義される。

それらの変数は、所望ならば、変更可能である。

ステップ１４０４に於て、補助的な予備処理ステップが
設けられている。その予備処理ステップに於ては、すべ
ての遷移確率分布が、最高の確率を次に高い確率で置換
えてから、その分布を再び標準化することにより、゛°
平滑化”′される。上記予備処理ステップの間に、次の
開始（５ｔａｒｔ−ｕｐ）事象が行われる。

（１１ｎ＝１にセットする；ｆ２）　　Ｘ＝ｎ番目の出力分布に於ける２番目に高い
ラベル出力確率にセットする；（６）ｎ番目の出力分布に於ける最高出力確率：Ｘにセ
ットする；（４）ｎ番目の出力分布を再標準化する；（５１ｎ　＝
　ｎ　＋　１にセットする；そして、（６１ｎ＞出力分
布数であるかどうかを決定し、そうでなければ、予備処
理ループは上記ステップ（２）に戻り、そうであれば、
予備処理が終了して、ステップ１４０６に進む。

上記予備処理ステップは、本発明の方法の重要なステッ
プではないが、背景として示されている。

ステップ”１４０６に於て、発声された単語の数を表わ
す、変数■が１に於て開始される。ステップ１４１０に
於て、■４目の単語のための”正しい′”単語のベース
フオームのための対ｅ（７！ｏｇ）確率、即ちり。がセ
ットされる。その工番目の単語は、発声される既知の（
又は、主題の）単語である。ｌｏｇ確率ＬＣの値は、音
響マツチング中に決定される。

ステップ１４１２に於て、１番目の単語の単一の発声に
応答して発生されたラベルを生じている尤度が最大であ
る”正しくない″単語のＩｌｏｇ確率がＬＩとしてセッ
トされる。ステップ１４１４に於て、ＬｏがＬｌを値Ｒ
だけ超えたかを決定するために、２つのｌｏｇ確率が比
較される。Ｒは、典型的には略１０にセットされる、負
でない閾値である。Ｌ（がＬｌを係数Ｒだけ超えたなら
ば、ステップ１４１６に於て、新しい単語を呼出すため
にＩが増分される。すべての単語が呼出されていなけれ
ば、プロセスはステップ１４１０に戻り、新しい単語に
ついて処理が継続される。発声されるべきすべての単語
が呼出されたならば、カウントの記憶された”現在の°
値として働く、カウントの前に調整された値を用いて開
始される、プロセス全体が反復される（ステップ１４１
８及び１４２０）。そのプロセスは、変数Ｉ　ＴＥＲが
ステップ１４２２に於てインデックスされて、ＮＩＴＥ
Ｒのためにセットされた値を超える迄（ステップ１４２
４　）、繰返される。

ＬｏがＬｌをＲよりも大きい値だけ超えていない場合に
は、Ｌｌがり。を超えたかについて決定が成される（ス
テップ１４５０）。これは、音４１マツチングが、′正
しい”単語よりも高いマツチングの値を有する°“正し
くない”単語をリストしたときに生じる。ＬＩがＬｃを
超えた場合には、ステップ１４６２に於て、変数Ｋが値
Ｍに等しくセットされる。Ｍは、プログラムにパラメー
タとして供給される負でない閾値である。典型的には、
Ｍは、１乃至１０の範囲内である。それよりも大きな値
は、より迅速な収束を生じるが、より粗雑な調整を生じ
る。

Ｌｌがり。よりも大きくなく且つり。とＲよりも小さい
値だけ異なる場合には、ステップ１４３４に於て、Ｋが
Ｍ（Ｒ−Ｌｃ＋ＬＩ　）／Ｈにセットてれる。ステップ
１４６２及び１４３４の後、変数Ｊが１にセットされる
。変数Ｊは、カウント識別子である。変数Ｔ、が、識別
された５番目のＪ）ラントのための現在の記憶された値
に等しくセントサれる。初めの繰返しの初めの調整に於
ては、記憶された値は、識別されたカウントのために入
れられた初めの値である。所与のカウントのための記憶
された値は、１つ又はそれ以上の前の繰返しの結果とし
て先に調整された、上記所与のカウントのための値を表
わすことができる（ステップ１４３６）。

ステップ１４３８に於て、変数Ｚ。Ｊが決定される。変
数Ｚ。Ｊは、正しいベースフオームに対応する単語の単
一の発声が与えられたとぎ、正しい単語のベースフオー
ムに基づいて、Ｊ″４目のカウントに対応する事象が生
じる回数を示す、”プラス・カウント値“を表わす。即
ち、既知の単語の発声に応答して発生されたラベルにつ
いて、各々のＪ市目のカウントのための゛°プラス・カ
ウント値°′を決定するために、“°正しいパ単語のベ
ースフオームにフォワード・バックワード−フルボリズ
ムが行われる。これは、ステップ１４３８に於て、”正
しい″単語のベースフオームに於ける確率項目の計算に
用いられる各カウントについて行われる。

ステップ１４４０に於て、変数ｚＩＪは、正しいベース
フオームに対応する単語の単一の発声が与えられたとき
、正しくない単語のベースフオームに基づいて、５番目
のカウントに対応する事象が生じる回数を示す、”マイ
ナス・カウント値”を表わす。即ち、既知の単語の発声
に応答して発生されたラベルについて、各々の５番目の
カウントのための０マイナス・カウント値”を決定する
ために、正しくない単語のベース７オームにフォワード
・バンクワード・アルゴリズムが行われる。

各々の５番目のカウントのための記憶された値が、゛プ
ラス・カウント値”ｚｏＪをＫで基準化し、”マイナス
・カウント値°゛をＫで基準化し、そして次の計算を行
う（ステップ１　、！１４４　）ことによって、調整さ
れる。

Ｔ、（調整された）　＝ＫＺ　ｃ　ＪＫＺ　ｒ　Ｊ＋　
Ｔ　、ｒ°゛プラスカウント値″及び”マイナス・カウ
ント値゛は各々、同一の係数Ｋにより基準化されて示さ
れている。これらの条件の下では、正しいカウント事象
の発生は、正しくないカウント事象の発生と均等な平衡
状態になる。これは、好ましいことであるが、本発明の
方法は、１プラス・カウント値″が”マイナス・カウン
ト値゛°と異なるように、重み付けを行うことを意図し
ている。

更に、各々の調整されたカウントは、前の零でないカウ
ントが零又は負の値に減少されないようにするために、
最小閾値を有している。この最小レベルは、例えば、０
．１程度である。

カウントＴＪが調整された後、ステップ１４４６に於て
、変数Ｊが増分される。Ｊの増分された値が、調整され
るべとカウントの数を示す数と比較される（ステップ１
４４８）。この点に於て、調整されるべきカウントの数
は、正しい単語のベースフオーム又は正しくない単語の
ベースフオーム又はそれらの両方に於ける確率項目の計
算に用いられるカウントだけに等しいことが好ましいこ
とが観察される。又は、１４０，９１０個の確率項目の
ための各カウントが、各発声について、調整されてもよ
い。この後者の場合には、カウントの多（に零調整が必
要である。

ステップ１４４８に於て決定される如く、調整されるべ
きすべてのカウントが未だ更新さｎていない場合には、
前に調べられていないカウントが選択され、”プラス・
カウント値”（ある場合）及び”マイナス・カウント値
”（ある場合）が決定され、そのための記憶されたカウ
ントが、既に概略的に述べた如く、調整される。

すべての適当なカウントが調整された後、ステップ１４
１６に於て、■が増分される。ステップ１４１８及び後
続のステップが、既に述べた如（、続いて行われる。具
体的に云えば、カウントのための調整された値を用いて
、繰返しの終りに、確率項目値が再計算される。それか
ら、確率項目のための再計算された値が記憶され、音響
マツチングに用いられているマルコフ・モデルに適切に
適用される。例えば、第８（ｂ）図に示されている確率
項目のための調整された値が、そのための前のすべての
値と置換えられて、高速音響マツチング及び詳細マツチ
ングに於て用いられる。工が増分される度に、異なる単
語の発声が調べられることを認識されたい。しかし、所
望ならば、同一の単語を、異なるＩの値に於て、−回よ
りも多（発声してもよい。

確率の決定遷移確率及びラベル出力確率は、”カウント”により定
義される。”カウントパは、典型的には、或る特定の事
象が生じる回数（予測される）を定義する。本発明の方
法に於ては、゛°単一カウント′。

及び゛累計カウント″が存在する。特に指定しない限り
、単独で用いられた”カウント″は、１単一カウント”
を意味する。

確率項目のための予測値θ′及び学習中に発生されたラ
ベル系列を与えられたとき、”単一カウント″は、（、
）或る一定のラベル系列Ｙ、（ｂ）定義された予測値θ
′、及び（ｃ）或る特定の時間ｔを与えられたときの、
或る特定の遷移τ１及び状態らの確率として定義される
。上記の各単一カウントは、周知のフォワード・バンク
ワード・アルゴリズム、又はＢａｕｍ−Ｗｅｌｃｈアル
ゴリズムを適用することにより決定される。

上記定義に従って、単一カウントは、次式により表わさ
れる。

Ｐｒ　（Ｓｊ、　ｆｔ　ｌ　Ｙ、θ′、ｔ）上記単一カ
ウントの計算に於て、θ′はＰｒ’の特徴付けに於て、
暗に示されているものとして、除くことができる。Ｂａ
ｙｅｓの定理を適用すると、上記式は次のようになる。

Ｐｒ’（ｒ；、Ｓｊ、Ｙｌｔ）／Ｐｒ′（Ｙ）Ｐ　ｒ　
’　（Ｙ）は、パラメータθ′を用いて計算されたフォ
ワード・バス確率から引出された確率として識別される
。従って、問題は、次の確率の計算に変形される。

すべての１、ｔについて、Ｐｒ’（ｒ、Ｓ　　　Ｙｌｔ
）１ゝ　　　Ｊゝ上記式は、各々のｌ、ｔについて、マルコフ・モデルが
ラベル系列Ｙを生じそして遷移τ１が時間１に於て取出
された確率を表わす。

各時間ｔに於ける特定のＳ４、τ１、Ｙ、及びθ′のた
めの単一カウントを合計することにより、対応する遷移
確率項目のための”避移累計カウントパが決定される。

遷移累計カウントは確率の合計であるため、その値は１
を超えることがある。各遷移確率項目について、各々の
累計カウントが記憶される。所与の遷移のためのその累
計カウントを、τ１の初期状態と同じ初期状態から取出
すことができる、すべての遷移のための累計カウントの
合計で割ることにより、各々の遷移確率項目のための現
在の確率値が計算される。その現在の確率値は、その各
々の遷移確率項目に関連して記憶されることが好ましい
。

各遷移確率項目は、好ましくは、予測されるように、次
の如く定義される。

上記式から、各遷移確率はカウントにより定義されるこ
とが明らかである。分子は、累計カウント、即ち任意の
時間乃至時間Ｔ＋１に於ける所与の遷移τ１のための単
一カウント値の合計であり、分母は、時間Ｔ＋１迄のす
べての時間に亘って取出されたて。と同じ初期状態を有
する、すべての可能な遷移τ１乃至τえに亘って取出さ
れた単一カウント値の合計を表わす。

更に、すべての非ナル遷移に於ける各ラベル出力確率も
カウントにより定義されることが好ましい。即ち、遷移
τ　及び状態Ｓｊを与えられたときに生じるラベルｆｈ
のための予測されるラベル出力確率Ｐ　ｒ　’は数学的
に次の如く表わされる。

上記式に於て、ｆｈはラベルのアルファベットから選択
された或る特定のラベルに対応し、ｙ。

は時間間隔ｔに於て発生されたラベルに対応する。

分子に於ける各々の合計された項は、発生されたラベル
出力が系列Ｙであったときに、系列Ｙに於て発生された
ラベルｙ　がラベルｆｈであり、ラベルｙ、が状態Ｓ、
からの遷移τ１上に生じた確率を表わす。

分子に於ける合計は、”ラベル出力累計カウント″であ
り、好ましくは、それに対応するラベル出力確率項目に
関連して記憶される。この累計カウントを、特定のＳ・
、τ１、Ｙ、及びθ′のためのすべてのラベル時間に亘
る単一カウントの合計で割ることにより、各々のラベル
出力確率項目のための現在の確率値が決定される。

従って、遷移確率及びラベル出力確率は、カウント調整
を繰返した後、カウントから容易に計算される。

第１２図に示されている表から、更新された即ち調整さ
れた確率項目のための値をカウントに基いて計算するこ
とができる。その８４列には、合計されると、その確率
項目に関連する累計カウントになる値を有する単一カウ
ントがリストされている。第５列には、合計されると、
分母になり、その分母で上記累計カウントを割ると、そ
の確率項目の値になる値を有する単一カウントがリスト
されている。第１３図は、フォワード・バックワード・
アルゴリズムにより計算された単一カウント値を示して
いる。第１２図及び第１３図に示されている情報の入力
及び記憶は従来の技術によって容易に行われる。

ＦＣ）　　カウント値の決定カウントのための値の決定には、周知のフォワード・バ
ンクワード・アルゴリズムが用いられる。

ｉ、ｊ、及びｔのすべてのイ直、即ちＰ　ｒ　’　（Ｓ
　ｊｓτ１１Ｙ、ｔ）の値が、各カウントのための値と
して決定されて記憶される。

フォワード・バックワード・アルゴリズムの詳細につい
ては、前述の論文゛ＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈ
　　Ｒｅｃｏｇｎｉｔｉｏｎ　ｂｙ　Ｓｔａｔｉｓｔｉ
ｃａｌＭｅｔｈｏｄｓ”の付録１１１に記載されている
。

次に、フォワード・バックワード・アルゴリズムの基本
的概念を、第１４図を参照して、非ナル遷移について説
明する。第１４図に於て、時間は横方向に測定されてい
る。各時間間隔は、ラベルが発生することができる時間
間隔に対応する。ラベルｙ　乃至ｙＴは、時間間隔１乃
至Ｔ＋１の間に発生されているように示されている。縦
方向に、連続する状態が示されている。第１４図のトレ
リスに於て、時間、状態、遷移、及びラベルの発生が示
されている。

確率Ｐ　”　（Ｓ　ｊＮ　Ｔ　Ｉ　Ｉ　Ｙ　、ｔ　）は
、積の３つの成分として表わすことができる。その第１
成分は、ラベルｙ　乃至ｙ　　　を生じる確率と組合わ
さ１　　　　　　　ｔ−１れた、状態Ｓ、に存在する確率（時間ｔに於ける）であ
る。この成分は、αｔ（Ｊ）として表わされる。

積の第２成分は、状態Ｓ、から遷移τ、を取出しそして
ラベルｙ、を生じる確率である。これは、次の如く、表
わすことができる。

ｐｒ（ｒ−ｌｓ　　）Ｐｒ（ｙ、Ｉｓ、、τ１）　　　
　ｊこの第２成分は、遷移確率項目（遷移τ１に於ける）又
はラベル出力確率項目（ラベルｆｈのための）のための
、先に定義された、現在の記憶された値に基づいている
。

積の第３成分は、β　　　（ｋ）として表わされｔ＋ｉる。この第６成分は、状態Ｓｋ（時間ｔ＋１に於ける）
に於て開始されるラベルｙ　　　乃至ｙ。

ｔ＋１を生じる確率を表わす。

τ　がナル遷移を表わすときは、或る特定のうベルがそ
の調べられた遷移中に生じる必要条件は存在しないので
、それらの成分は簡単になる。

α確率はフォワード・バス確率と呼ばれ、又Ｐｒ（Ｓ、
ｔ）として示される。連続するαが、次式により、時間
１に於て開始して再帰的に決定される。

α１（１）＝１．０ｆｆ、（Ｓ）＝Σａｃｍ（Ｓ）”ｔ−１（σ）Ｐｒ（ｙ
、、σ−ｓ）＋Σ６ｔｎ（Ｓ）”ｔ（σ）Ｐｒ（σ→Ｓ
）・・・ｔ〉１の場合上記式に於て、ｎ（Ｓ）は、状態Ｓへのナル遷移を有す
る状態のセットを表わし、ｍ（Ｓ）は、状態Ｓへの非ナ
ル遷移を有する状態のセットを表わす。

フォワード・バスに従って、時間１．２、・・・、Ｔ＋
１について順次に、α、（Ｓ）の値が８＝１．２、°・
・、ＳＦについて順次に計算される。上記ＳＦは最終マ
ルコフ・モデル状態である。これは、αに関する式を再
帰的に解（ことＫより行われる。計算は、時間及び状態
に関して前方に進められる。

バックワード・バスは、確率βｔ（ｓ）、即ち時間ｔに
於て状態Ｓから開始する出力ラベル系列を完了する確率
を決定することを含む。βも、αの場合と同様な計算を
満足させる。主な相違は、フォワード・バスが状態１に
於て開始して、それがら時間的に前方に進むのに対し、
バンクワード・バスは最終状態（ＳＦ）に於て開始し、
時間的に後方にそして状態を経て後方に進むことである
。

Ｎ（Ｓ）はＳからナル遷移を経て達することができる状
態のセットを表わし、Ｍ（Ｓ）はＳから非ナル遷移を経
て達することができる状態のセットを表わすものとする
と、次の式が適用される。

β　　　（ｓ　　）＝ｉ、。

Ｔ＋Ｉ　　　　Ｆ βｔ＝ΣσεＭ（ｓ）Ｐｒ（ｙＳ−σ）βｔ＋１（σ）
＋Σａ５Ｎ（８）Ｐｒ（Ｓ−σ）ね（σ）・・・ｔ＜Ｔ
の場合バンクワード・バスに於ては、時間二Ｔ＋１、Ｔ、・・
・、１について順次に、β、（Ｓ）の値が、上記漸化式
を用いて、５＝ＳＦ、５Ｆ−１、・・・、１について＋
１ｍ次に計算される。

所与の’％　　ＪＮ及びｔの各々について３つの成分が
決定されると、それらに対応するカウント値が容易に計
算される。

フォワード・パックワード・アルゴリズムは、初めに、
初期の又は現在の記憶されたカウント値の決定に用いら
れ、それからグラス・カウント値及びマイナス・カウン
ト値について用いられる。

ｉＤ）　　Ｂａｕｍ−ＷｅｌｃｈアルゴリズムＢａｕｍ
−Ｗｅｌａｈ　　アルゴリズムに従って、゛°最最尤尤
度確率が求められる。具体的に云えば、Ｐｒ（ＹＩＭ）
の項が局所的な最大値に近づくように、次の手＋Ｉ＠が
用いられる。

初めに、遷移確率項目及びラベル出力確率項目のための
確率値について初期値が選択される。

次に、フォワード・バンクワード・アルゴリズムを用い
て、既に概略的に述べた如く、記憶されたカウント値が
計算される。カウント値が計算されると、遷移確率項目
及びラベル出力確率項目のための確率値が再計算される
。

フォワード・バックワード・アルゴリズム及びその後の
遷移確率及びラベル出力確率の再計算は、収束が得られ
る迄、反復される。収束が得られた時点に於て、Ｂａｕ
ｍ−Ｗｅｌｃｈアルゴリズムに基づいて、最大化が達成
される。

最大化が達成された後に得られた確率項目のための値が
、本発明の方法による値の調整のための開始点として働
くことが好ましい。

Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムについては、Ｌ。

Ｅ、Ｂａｕｍ等による論文”Ａ　ＭａｘｉｍｉｚａＬｉ
ｏｎＴｅｃｈｎｉｑｕｅ　　Ｏｃｃｕｒｒｉｎｇ　　ｉ
ｎ　　ｔｈｅＳｔａｔｉｓｔｉｃａｌ　Ａｎａｌｙｓｉ
ｓ　ｏｆ　ＰｒｏｂａｂｉｌｉｓｔｉｃＦｕｎｃｔｉｏ
ｎｓ　　ｏｆ　　Ｍａｒｋｏｖ　　Ｃｈａｉｎｓ”、第
４１巻、第１６４頁乃至第１７１頁（１９７０年）に記
載されている。

単音マシーン１２００を用いて、所与の単音が入力系列
のラベルにどのように近くマツチングするかを決定する
とき、上記単音のための終了時間分布が求められて、該
単音のためのマツチング値の決定に用いられる。このよ
うな終了時間分布への依存は、マツチング手順に関して
本明細書に述べられている単音マシーンのすべての実施
例について共通である。詳細マツチングを行うために終
了時間分布を生じるとき、単音マシーン１２００は厳密
且つ複雑な計算を含む。

第１０図のトレリスに於て、時間ｔ”ｔ（＋に於て開始
時間及び終了時間の両方を有する必要のある計算につい
て初めに考察する。これを第４図に示されている単音マ
７−ン構造の場合について述べろと、次の確率が適用さ
れる。

Ｐｒ（Ｓ７、ｔ＝ｔｏ）＝ｑｏＴ（１→７）＋　Ｐｒ（
Ｓ２１　Ｌ＝ｔ□）Ｔ（２→７）＋　Ｐｒ（３３１ｔ”
ｔｏ）Ｔ（３→７）上記式に於て、Ｐｒは”・・・の確
率′°を表わし、Ｔは括弧内に示されている２つの状態
の間の遷移確率を表わし、ｑ　は時間１＝１ｏに於ける
開始時間分布である。上記式は、時間ｔ　”　ｔ　ｏに
於て終了時間が生じることのできる６つの条件のための
各確率を示す。更に、時間ｔ　”　ｔ　ｏに於ける終了
時間はこの例では状態Ｓ７に於ける発生に限定されるこ
とが観察される。

次に、時間ｔ　”　ｔ　１に於ける終了時間については
、状態Ｓ１以外のすべての状態に関する計算が行われね
ばならない。状態Ｓ１は前の単音の終了時間に於て開始
する。説明のため、状態Ｓ４に関する計算についてのみ
示す。

状態Ｓ４について、計算は次のように行われる。

Ｐｒ　（Ｓ４１　ｔ＝ｔ　１）＝　ｐｒ（８１１ｔ＝ｔ
ｏ）Ｔ（１−＋４）Ｐｒ（ｙｌｌ−４）＋Ｐｒ（８４１
ｔ＝ｔ（１）Ｔ（４−＋４）Ｐｒ（ｙ１４−４）上記式
は、単音マシーンが時間ｔ　”　ｔ　１に於て状態Ｓ４
にある確率が、次の２項の合計に依存することを示して
いる。

（ａ）　　時間ｔ＝ｔｏに於て状態Ｓ１である確率に、
状態Ｓ　かも状態Ｓ４への遷移の確率（Ｔ）を乗じ、そ
れに更に状態Ｓ１から状態Ｓ４への遷移を与えられたと
きに系列中の所与のラベル（ｙ）が発生される確率（Ｐ
ｒ）を乗じたもの。

（ｂｌ　　時間ｔ　”　ｔ　ｏに於て状態Ｓ４である確
率に、状態Ｓ４からそれ自体への遷移の確率を乗じ、そ
れに更に状態Ｓ４からそれ自体への遷移を与えられたと
きに所与のラベル（ｙ）を生じる確率を乗じたもの。

同様に、その単音が時間ｔ　”　ｔ　ｉに於て或る特定
の状態にある対応する確率を発生させるために、他の状
態（状態Ｓ１を除く）に関する計算も行われる。一般的
には、所与の時間に於て主題の状態にある確率の決定に
於て、詳細マツチングは、（、）主題の状態へ導く遷移
を有する各々の前の状態及び各々のそのような前の状態
の各々の確率を認識し、（ｂ）ラベル系列に一致するた
めには各々のそのような前の状態と現在の状態との間の
遷移に於て発生されている筈であるラベルの確率を表わ
す値を、各々のそのような前の状態について認識し、そ
して（Ｃ）各々の前の状態の確率と、ラベル出力確率を
表わす各々の値とを組合わせて、対応する遷移に亘る主
題の状態の確率を得る。主題の状態である全体的確率は
、それへ導くすべての遷移に亘る主題の状態の確率から
決定される。状態Ｓ７に関する計算は、状態Ｓ７に於て
終了する単音が時間１＝１．に於て開始しそして終了す
ることを可能にしている３つのナル遷移に関する項を含
む。

時間ｔ＝ｔｏ及びｔ＝ｔ１に関する確率の決定と同様に
、一連の他の終了時間についての確率の決定が、終了時
間分布を形成するために発生されることが好ましい。所
与の単音についての終了時間分布の値は、その所与の単
音がどのように良（入力ラベルにマツチングしているか
を示す。

単語がどのように良（入力ラベルの系列にマツチングし
ているかの決定に於ては、その単語を表わす単音が順次
に処理される。各単音は確率値の終了時間分布を発生す
る。単音のためのマツチング値は、終了時間の確率を合
計し、それからその合計の対数をとることによって得ら
れる。次の単音のための開始時間分布は終了時間分布を
標準化することにより引出される。その標準化は、例え
ば、その各々の基醜化された値の合計が１になるように
各々の値を合計で割ることにより各々の値を基準化する
ことによって行われる。

所与の単語又は単語系列について調べるべき単音の数り
を決定する方法は少なくとも２つあること全認識された
い。深さを第一とする方法に於ては、計算がベースフオ
ームに沿って行われ、連続する各単音について小計が繰
返し計算される。その小計が、上記ベースフオームに沿
った所与の単音の位置について予め定義された閾値より
も小さいことが見出されたとき、その計算が停止される
。

又は、幅を第一とする方法に於ては、各単語に於ける同
様な単音位置について計算が行われる。各単語に於ける
第１の単音、第２の単音、・・・というように計算が行
われる。この幅を第一とする方法に於ては、種々の単語
のための同数の単音に沿って行われる計算が、それらに
沿った単音の同一の相対的位置に於て比較される。いず
れの方法に於ても、マツチング値の最大の合計を有して
いる単語が、求められる対象である。

詳細マツチングは、Ｆ’ＰＳ１９０Ｌのための固有アセ
ンブラであるＡＰＡＬ（アレイ・プロセッサ・アセンブ
リ言語）に於て実現されている。この点に於て、詳細マ
ツチングは、実際のラベル出力確率（即ち、所与の単音
が所与の遷移に於て所与のラベルｙを発生する確率）、
各単音マシーンのための遷移確率、及び所与の単音が定
義された開始時間後の所与の時間に於て所与の状態にあ
る確率の各々を記憶するために、かなりのメモリを必要
とすることを認識されたい。上記ＦＰＳ１９０Ｌは、終
了時間、即ち例えば終了時間の確率の合計の対数である
ことが好ましい合計に基づくマツチング値と、前に発生
された終了時間の確率に基づ（開始時間と、及び単語に
於ける連続する単音のためのマツチング値に基づ（単語
マツチング・スコアとの計算を行うために設けられてい
る。

更に、詳細マツチングは、マツチング手順に於て゛°テ
イル（ｔａｉｌ）確率”を考慮に入れることが好ましい
。ラベル確率は、単語に関係な（、連続するラベルの尤
度を測定する。或る簡単な実施例に於ては、所与のラベ
ル確率は、他のラベルに従うラベルの尤度に対応する。

その尤度は、例えば幾つかのサンプル音声により発生さ
れたラベル系列から容易に決定される。

従って、詳細マツチングは、ベースフオーム、マルコフ
・モデルのための統計、及びラベル確率を含むために充
分な記憶装置を要する。各単語が略１０個の単音を含ん
でいる、５０００個の単語の語瞳については、それらの
ペースフオームは、５０００Ｘ１０個のメモリを必要と
する。７０個の別個の単音（各単音についてマルコフ・
モデルを有する）と、２００個の別個のラベルと、いず
れかのラベルが生じている確率を有する１０個の遷移と
が存在する場合には、その統計は７０×１０Ｘ２００個
の位置を要することになる。しかし、単音マシーンは、
統計が対応している、６つの部分、即ち、開始部分、中
間部分、及び終了部分に分割されることが好ましい。（
３つのセルフ・ループは連続部分に含まれることが好ま
しい。）従って、記憶装置の必要条件は７０Ｘ３Ｘ２０
０個である。ラベル確率に関しては、２００Ｘ２００個
の記憶装置が必要とされる。この配置に於ては、５０に
の整数及び８２にの浮動小数点の記憶装置が満足な動作
を行う。更に、初期のシステムは７０個の異なる単音を
含んでいたが、本発明の方法は、各々単音マシーンを有
する９６個程度の単音を含むこともできる。

（Ｆｌ　　近似的高速マツチング詳細マツチングは計算に於て高価であるため、精度を犠
牲にせずに必要とされる計算を減少させる、基本的高速
マツチング及び代替的高速マツチングが用いられる。好
ましくは、詳細マツチングと組合わせて、高速マツチン
グが用いられる。高速マツチングは語雲からの尤度の高
い候補単語をリストし、詳細マツチングは高速マツチン
グ・リスト上の候補単語について行われる。

近似的高速音響マツチング技術は、前述の本出願人によ
る特願昭６０−２５５２０５号明細書の主題である。そ
の近似的高速音響マツチングに於ては、所与の単音マシ
ーンに於けるすべての遷移に於ける各ラベルのための実
際のラベル出力確率を特定の置換えの値で置換えること
により、各単音マシーンが簡単化されることが好ましい
。特定の置換えの値は、その置換えの値が用いられた場
合の所与の単音のためのマツチング値が、その置換えの
値が実際のラベル出力確率の代りに用いられない場合に
詳構マツチングにより得られたマツチング値よりも過大
評価になるように選択されることが好ましい。その条件
を達成する１つの方法は、所与の単音マシーンに於ける
所与のラベルに対応するいずれの確率も、その置換えの
値より犬き（ないよう罠、各々の置換えの値を選択する
ことである。単音マシーンに於ける実際のラベル出力確
率を対応する置換えの値で置換えることにより、単語の
ためのマツチング・スコアの決定に必要な計算の数が著
しく・減少する。更に、置換えの値は過大評価されるこ
とが好ましいので、その結果得られたマツチング・スコ
アは、置換えせずに前に決定されたマツチング・スコア
より小さくならない。

マルコフ・モデルを用いた言語学的デコーダに於て音響
マツチングを行う特定の実施例に於ては、各単音マシー
ンは、学習により、（ａ）複数の状態及び状態間の遷移
の径路、（ｂ）状態ね及び現在の状態Ｓ　は同一の状態
であっても、異なる状態であってもよいが、現在の状態
Ｓ、が与えられたときに、状態Ｓ、への遷移の確率を各
々表わす確率Ｔ（ｉ→ｊ）を有する遷移ｔｒ（ｓｊｌｓ
、）、及び（ｃ）　ｋはラベルを識別する表示である各
々の実際のラベル出力確率ｐ（ｙｋｌｉ−Ｄが、所与の
単音マシーンにより或る状態から後の状態への所与の遷
移に於てラベルｙｋの生じる確率を示している、実際の
ラベル出力確率を有するように特徴付けられ、各単音マ
シーンは、（、）各単音マシーンに於ける各々のｙ　に
単一の特定の値ｐ′（ｙｋ）を割当てるための手段、及
び（ｂ）所与の単音マシーンに於ける各遷移に於ける各
々の実際のラベル出力確率ｐ（ｙ　　Ｈ→ｊ）を、対応
するｙ、に割に当てられた単一の特定の値ｐ′（ｙｋ）で置換えるため
の手段を含んでいる。その置換えの値は、特定の単音マ
シーンに於ける任意の遷移に於ける対応するラベルｙｋ
のための最大の実際のラベル出力確率と少なくとも同程
度の大きさであることが好ましい。入力ラベルに対応す
る尤度が最大である語雲中の単語として選択された１０
乃至１００個程度の候補単語のリストを定義するために
、高速マツチングが用いられる。それらの候補単語は、
言、悟モデル及び詳細マツチングを施されることが好ま
しい。詳細マツチングにより考察される単語の数を、語
葉中１％程度の単語に減らすことにより、計算コストが
者しく減少し且つ精度も維持される。

基本的高速マツチングは、所与の単音マシーンに於て所
与のラベルが発生することができるすべての遷移に於け
る所与のラベルのための実際のラベル出力確率を単一の
値で置換えることにより、詳細マツチングを簡単化する
。即ち、ラベルが発生する確率を有する所与の単音マシ
ーンに於ける遷移に関係なく、その確率が単一の特定の
値で置換えられる。その値は大きく見積られ、そのラベ
ルが所与の単音マシーンに於ける任意の遷移に於て生じ
る最大の確率と少なくとも同程度であることが好ましい
。

ラベル出力確率の置換えの値を、所与の単音マシーンに
於ける所与のラベルのための実際のラベル出力確率の最
大として設定することにより、基本的高速マツチングを
用いて発生されたマツチング値が、詳細マツチングを用
いて得られるマツチング値と少なくとも同程度の大きさ
になるようにすることができる。このように、基本的高
速マツチングは、典型的には、より多（の単語が一般的
に候補単語として選択されるように、各単音のマツチン
グ値を太き（見積る。詳細マツチングに従って候補と考
えられた単語は、基本的高速マツチングも通過する。

第１５図に於て、基本的高速マツチングのための単音マ
シーン３０００が示されている。ラベル（記号及びフィ
ーニームとも呼ばれる）は、開始時間分布とともに、基
本的高速マツチングの単音マシーン６０００に入る。そ
れらの開始時間分布及びラベル系列入力は、前述の単音
マシーンに入るものと同様である。その開始時間は、場
合によっては、複数の時間に亘る分布でないこともあり
、例えば沈黙の間隔に続いている、単音が開始する精確
な時間であることもあることを認識されたい。

しかし、音声が連続的である場合には、開始時間分布を
定義するために終了時間分布が用いられる（以下に詳述
する如く）。単音マシーン３０００は、終了時間分布を
発生し、発生された終了時間分布から特定の単音のため
のマツチング値を発生する。或る単語のためのマツチン
グ・スコアは、構成要素の単音、少なくとも単語に於け
る初めのｈ個の単音のためのマツチング値の合計として
定義される。

第１６図は、基本的高速マツチングの計算を行うために
有用な図を示している。基本的高速マツチングの計算は
、開始時間分布（Ｑ）、単音により生じたラベルの数又
は長さ、及び各ラベルｙｋに関連する置換えの値ｐ′ｙ
ｋのみに関係する・所与の単音マシーンに於ける所与の
ラベルのためのすべての実際のラベル出力確率を、対応
する置換えの値で置換えることにより、基本的高速マツ
チングは、遷移確率を長さ分布確率と置換え、そして実
際のラベル出力確率（所与の単音マシーンに於ける各遷
移について異なることがある）及び所与の時間に於て所
与の状態にある確率を含む必要性を除く。

この点に於て、長さ分布は詳細マツチング・モデルから
決定される。具体的に云えば、その手順は、長さ分布り
の各長さについて、各状態を個々に調べ、そして（、）
特定のラベルの長さが与えられたとき且つ（ｂ）遷移に
沿った出力に関係なく、現在調べられている状態が生じ
ることができる種々の遷移の径路を各状態について決定
することが好ましい。各主題状態へ上記特定の長さを有
するすべての遷移の径路の確率が合計され、それから該
分布に於ける所与の長さの確率を示すために、すべての
主題状態の確率が合計される。上記手順が、各長さにつ
いて反復される。マツチング手順のその好ましい形に従
って、それらの計算は、マルコフ・モデリングの技術分
野に於て知られている如きトレリスに関して行われる。

トレリス構造に沿って分岐を共有する遷移の径路につい
ては、各々の共通の分岐のための計算は、一度だけ行え
ばよく、その計算がその共通の分岐を含む各径路に適用
される。

第１６図に於ては、例として、２つの条件が含まれてい
る。第１の条件として、その単音により発生されたラベ
ルの長さは０．１．２、又は３であることができ、各々
１ｏ１１１．１２、及び１３の確率を有するものと仮定
されている。又、開始時間も限定されており、各々ｑ□
、Ｑ１、ｑ２、及びｑ３の確率を有する、４つの開始時
間だけが可能である。これらの条件の下で、次式は、主
題の単音の終了時間分布を次の如く定義する。

Φｏ””ｑｏ’。

Φ１＝ｑ１１０　＋ｑＯ’１ｐ１ Φ２＝ｑ２１０＋ｑ１１１ｐ２＋ｑ０１２ｐ１ｐ２ψ３
＝ｑ３１０＋ｑ２１１ｐ６＋ｑ１１２ｐ２ｐ３＋ｑ０１
５ｐ１ｐ２ｐ３ψ４：ｑ３１１ｐ４＋ｑ２１２ｐ３ｐ４
＋ｑ１１５ｐ２ｐ３ｐ４Φ５”ｑ５１２ｐ４ｐ５＋ｑ２
１３”３”４ｐ５（１）６＝ｑ３１３ｐ４ｐ５ｐ６上記式に於て、Φ３は４つの開始時間の各々に対応する
項を含んでいる。その第１項は、単音が時間ｔ　：　ｔ
　３に於て開始し、零ラベルの長さを生じる、即ち単音
が同一時間に於て開始しそして終了する、確率を表わし
ている。第２項は、単音が時間ｔ＝ｔ２に於て開始し、
ラベルの長さが１であり、そしてラベル６が該単音によ
り生じる確率を表わしている。第３項は、単音が時間１
＝１１に於て開始し、ラベルの長さが２（即ち、ラベル
２及び３）であり、そしてラペ□ル２及び３が該単音に
より生じる確率を表わしている。同様に、第４項は、単
音が時間ｔ　”　ｔ　ｏに於て開始し、ラベルの長さが
３であり、そして３つのラベル１．２、及び３が該単音
により生じる確率を表わしている。

基本的高速マツチングに於て必要とされる計算と、詳細
マツチングに於て必要とされる計算との比較は、前者が
後者よりも簡単であることを示唆さの確率の場合と同様
に、すべての式に於ける各出現について同じであること
に注目されたい。更に、上記の長さ及び開始時間の条件
を用いた場合には、より後の終了時間のための計算がよ
り簡単になる。例えば、Φ６に於ては、単音は時間ｔ＝
ｔ３に於て開始する筈であり、その終了時間が適合する
には、すべての６つのラベル４．５、及び６が該単音に
より生じる筈である。

主題の単音のためのマツチング値の発生に於ては、定義
された終了時間分布に沿った終了時間の確率が合計され
る。所望ならば、次式を得るために合計の対数がとられ
る。

マツチング値＝ｌｏｇ　　　（Φ　＋φ・・＋の６）前
述の如く、或る単語のためのマツチング・スコアは、特
定の単語に於ける連続する単音のためのマツチング値を
合計することにより容易に決定される。

次に、第１７　（ａ）図乃至第１７　（ｅ）図を参照し
て、開始時間分布の発生について述べる。第１７（、）
図に於て、単語”ＴＨＥ”１が反復され、構成要素の単
音に分解される。第１７（ｂ）図に於ては、ラベル系列
が時間に亘って示されている。第１７　（ｃ）図に於て
は、第１の開始時間分布が示されている。第１の開始時
間分布は、最も最近の前の単音（沈黙の”単語゛°を含
むこともある前の単語に於ける）の終了時間分布から引
出される。ラベル入力及び第１７　（ｃ）図の開始時間
分布に基き、単音ＤＨのための終了時間分布Φ。Ｈが発
生される。次の単音ＵＨのための開始時間分布は、前の
単音の終了時間分布が第１７　（ａ）図に於ける閾値（
Ａ）を超えた時間を認識することによって決定される。

閾値（Ａ）は、各終了時間分布について個々に決定され
る。好ましくは、（Ａ）は、主題の単音のだめの終了時
間分布の値の合計の関数である。従って、時間ａ及びｂ
の間の間隔は、単音ＵＨのための開始時間分布が設定さ
れる時間を表わす（第１７　（ｅ）図参照）。第１７　
（ｅ）図に於ける時間Ｃ及びｄの間の間隔は、単音ＤＨ
のための終了時間分布が閾値（Ａ）を超えそして次の単
音の開始時間分布が設定される時間に対応する。開始時
間分布の値は、終了時間分布を標準化することにより得
られ、この標準化は、例えば、各終了時間の値を、閾値
（Ａ）を超える終了時間の値の合計で割ることにより行
われる。

基本的高速マツチングの単音マシーン３０００は、ＡＰ
ＡＬプログラムを用いたＦＰＳ１９０Ｌに於て実現され
ている。本明細書の開示に従って、特定の形のマツチン
グ手順を行うために、他のノ・−ドウエア及びソフトウ
ェアを用いてもよい。

（Ｇ）音声学的ベースフオームの構築ベースフオームの形成に用いることができる、１つの型
のマルコフ・モデル単音マシーンは、音声学に基いてい
る。即ち、各単音マシーンは、所与の音声学的音声に対
応する。

所与の単語について、各々に対応する単音マシーンを各
々有している、一連の音声学的音声が存在する。各単音
マシーンは、多数の状態及び状態間の遷移を有し、それ
らの幾つかはフィーニーム出力を生じることができ、他
の幾つか（ナル遷移と呼ばれる）はそれらを生じること
ができない。

前述の如く、各単音マシーンに関する統計は、（、）所
与の遷移が生じる確率、及び（ｂ）特定のフィーニーム
が所与の遷移に於て生じる尤度を含む。好ましくは、非
ナル遷移には、各フィーニームに関連する何らかの確率
が存在する。表１に示されているフィーニーム・アルフ
ァベットには、約２００個のフィーニームが存在する。

音声学的ベースフオームの形成に用いられた単音マシー
ンが第４図に示されている。一連のそのような単音マシ
ーンが各単語について設けられている。確率項目の値が
本発明の方法に従って決定される。種々の音声学的単音
マシーンに於ける遷移確率及びフィーニーム確率は、学
習中に、既知の音声学的音声が少なくとも−回発声され
たときに生じたフィーニーム系列を記録し、周知のフォ
ワード・バックワード・アルゴリズムを適用することに
よって決定される。

次に示す表２は、単音ＤＨとして識別された１つの単音
のための統計の１例を示している。

のい− 寸口！寸さマロ Δ　　　（イ）口１つの近似として、第４図の単音マシーンの遷移ｔｒ１
、Ｌｒ２、及びｔｒＢが単一の分布により表わされ、遷
移ｔｒ３、Ｌｒ４、Ｌｒ５、及びＬｒ９が単一の分布に
より表わされ、そして遷移ｔｒ６、Ｌｒ７、及びｔｒｌ
ｏが単一の分布により表わされている。これは、表２に
於て、それらのアーク（即ち、遷移）を各々の列４．５
、又は６に割当てることにより示されている。表２は、
各遷移の確率、及びラベル（即ち、フィーニーム）が単
音ＤＨの始め、中間、又は終りの各々に於て生じる確率
を示している。単音ＤＨについては、例えば、状態Ｓ　
かも状態Ｓ２への遷移の確率は００７２４３として記憶
されている。状態Ｓ１から状態Ｓ４への遷移の確率は０
．９２７５７である。（これらは初期状態からの２つだ
けの可能な遷移であるので、それらの合計は１に等しい
。）ラベル出力確率については、単音ＤＨは、該単音の
終りの部分、即ち表２の列６に於てフィーニームＡＥ１
３（表１を参照）を生じる確率０．０９１を有している
。

又、表２には、各ノード（即ち、状態）に関連するカウ
ントが示されている。そのノード・カウントは、該単音
が対応する状態に存在した、学習中の回数を示す。表２
に示す如き統計は、各単音マシーンについて見出される
。

音声学的単音マシーンを単語のベースフオームのシーケ
ンスに配列することは、典型的には、音声学者によって
行われ、通常は、自動的には行われない。

以上に於て、本発明の方法をその実施例について説明し
たが、本発明の範囲を逸脱することな（、他の種々の変
更も可能であることを理解されたい。

Ｆ１発明の効果本発明の方法によれば、好ましくは音声認識の環境に於
て、単語のデコーディングの精度を最大にする方法で、
マルコフ・モデル及び同様なモデルの学習が行われる。

【図面の簡単な説明】

第１図は本発明の方法が実施されている音声認識システ
ムを示すブロック図、第２図は第１図のシステムを更に
詳細に示すブロック図、第６図は不発明の方法の一実施
例に於けるステップを示す流れ図、第４図は１つの音声
学的単音マシーンを示す図、第５図は１つの時間間隔に
於ける第４図の音声学的単音マシーンのトレリスを示す
図、第６図は１つのフィーニーム的単音マシーンヲ示ス
図、第７図は６つの連結したフィーニーム的単音マシー
ンのトレリスを示す図、第８（ａ）図及び第８（ｂ）図
は代表的確率を含む、連続する３つの音声学的単音マシ
ーンを示す図、第９図は代表的確率を含む、連続する３
つのフィーニーム的単音マシーンを示す図、第１０図は
３つの時間間隔に亘る音声学的単音マシーンのトレリス
を示す図、第１１図は本発明の方法の一実施例に於ける
ステップを示す流れ図、第１２図は確率項目及びカウン
トを示す図表、第１３図は単一カウント情報を示す図表
、第１４図はトレリスに於ける遷移τ１を示す図、第１
５図は単音マシーンを示す図、第１６図は予め定義され
た条件を与えられたときの単音の開始時間及び終了時間
を示す図、第１７　（ａ）図乃至第１７　（ｅ）図は連
続する単音に於ける開始時間と終了時間との間の関係を
示す図である。１０００・・・・音声認識システム、１００２・・・・
スタック・デコーダ、１００４・・・・音響プロセッサ
、１００６・・・・アレイ・プロセッサ（近似的高速マ
ツチング・プロセッサ）、１ｏｏａ・・・・アレイ・プ
ロセッサ（詳細マツチング・プロセッサ）、１０１０・
・・・言語モデル、１０１２・・・・ワーク・ステーシ
ョン、１０２０・・・・サーチ素子、１０２２．１０２
４．１０２６．１０２８・・・・インタフェース、１２
００．３０００・・・・単音マシーン。出願人　　インターナショナル・ビジネス・マン−クズ
・コー示リージョン復代理人　弁理士　　澤　　　１）
　　俊　　　夫第４ｖＡ１つめ層声学的軍音マシーシｔｏ＋１吋閘第６図１つのフィーニーム的第７図ｔｌ　　　　７２　　　　ｔ３第１２区第１３図ＩさパＳ１５図ｇ本ｆｉ”ｌａ遠ズッ千ジグのγ二めの第１６図単音の開胎時肉及び−終了時内

Claims

【特許請求の範囲】

出力アルファベットから、コミュニケートされた単語入
力に応答して選択された出力が語彙中の単語にデコード
され、上記語彙中の各単語が少なくとも１つの確率的有
限状態モデルのベースフォームにより表わされ、各確率
的モデルが遷移確率項目と出力確率項目とを有し、そし
て少なくとも幾つかの確率項目の各々について確率値が
記憶されるシステムに於て、或る既知単語入力のコミュ
ニケーションに応答して発生された出力が該既知単語の
ためのベースフォームにより生じる尤度を、上記の発生
された出力が他の少なくとも１つの単語のためのベース
フォームにより生じる各々の尤度に関して、大きくする
ために、記憶された確率値の少なくとも幾つかにバイア
スを加えることを含む、確率値の決定方法。