JPS62231995A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS62231995A
JPS62231995A JP62043234A JP4323487A JPS62231995A JP S62231995 A JPS62231995 A JP S62231995A JP 62043234 A JP62043234 A JP 62043234A JP 4323487 A JP4323487 A JP 4323487A JP S62231995 A JPS62231995 A JP S62231995A
Authority
JP
Japan
Prior art keywords
probability
word
value
count
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62043234A
Other languages
English (en)
Other versions
JPH0372998B2 (ja
Inventor
ラリツト・ライ・バール
ピーター・フイツツヒユー・ブラウン
ピーター・ヴインセント・デソーザ
ロバート・レロイ・マーサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS62231995A publication Critical patent/JPS62231995A/ja
Publication of JPH0372998B2 publication Critical patent/JPH0372998B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。
A、産業上の利用分野 B、従来技術 C1発明が解決しようとする問題点 り9問題点を解決するための手段 E、実施例 (1)  音声認識システムの全体的説明(It)  
単語表現マルコフ・モデルの学習の改善(A)  概観 (B)  カウントに基づく、遷移確率及びラベル出力
確率の決定 (C)カウント値の決定 の)Baum−Welchアルゴリズム(E)  詳細
マツチング (Fl  近似的高速マツチング (Gl  音声学的ベースフオームの構築F1発明の効
果 A、産業上の利用分野 本発明は、音声認識システムに於て単語を特徴付けるた
めに用いることができる確率的音響モデルのための学習
、即ち確率及び統計の決定の分野に係る。
B、従来技術 マルコフ・モデリングは、音声認識を含む種々の分野で
用いられている確率的手法である。一般的には、マルコ
フ・モデルは、複数の状態、状態間に延びる遷移、並び
に各遷移の発生及びそれらの遷移の少なくとも幾つかの
各々に於ける出力(予め定義された一組の出力からの)
の発生に関する確率として表わされる。
マルコフ・モデルの一般的概念は知られているが、その
概念を音声認識に於て用いられるように適合させる、マ
ルコフ・モデリングの特定の方法論及び実施は、未だ研
究課題である。多くの論文が、実験的な音声認識の情況
に於けるマルコフ・モデルの使用について論じている。
それらの論文には、例えば、F、Jelinekによる
’ContinuousSpeech  Recogn
ition by StatisticalMetho
ds、”Proceedings  of  the 
 IEEE。
第64巻、第4号(1976年)並びにり、R,Bah
l 。
F、 Je 11nek、及びR,L、Mercerに
よる”A Maximum Likelihood  
Approachto  Continuous  5
peech Recognit’ion、”第PAMI
−5巻、第2号(1983年5月)等がある。
マルコフ(又は同様な)・モデルを用いた音声認識に対
する1つの実験的な確率的方法に於ては、音響波形が初
めにラベル系列に変換される。各々1つの音のタイプを
識別するそれらのラベルは、別個のラベルから或るアル
ファベット(集合)から選択される。各単語に1つのマ
ルコフ・モデルが割当てられる。他のマルコフ・モデル
の場合と同様に、それらの”単語モデル”は、(、)複
数の状態(初期状態から開始して、最終状態で終了する
)、及び(b)状態間に延びる遷移を含む。各単語モテ
ノペ即チ”ペースフオーム”について、(、)遷移に関
連する確率と、(b)ラベル出力確率とを反映する値を
記憶する手段が存在する。各ラベル出力確率は、所与の
ラベルが所与の遷移に於て生じる尤度に対応するように
意図されている。
マルコフ・モデルに関して統計を発生させて確率を決定
するプロセスは、”学習′”と呼ばれる。
単語モデルの学習を行う場合、典型的には、既知の発声
(以下に於ては、或る語彙中の単語の発声と考える)の
学習スクリプトが、システムのユーザにより音響プロセ
ッサ中に発声される。音響プロセッサは、ユーザによる
既知単語の発声に応答してラベル系列を発生する。学習
スクリプトの発声に応答して発生されたラベルから、統
計が発生され、それらから確率が決定される。
゛最大尤度学習パと呼ばれる、学習に対する1つの方法
が、マルコフ・モデリングに於て一般的に用いられてい
る。この方法によれば、学習データが発生される尤度を
最大にする統計が見出される。即ち、ラベルa1a2 
・・・の系列A及びマルコフ・モデルMが与えられたと
き、式pr(AIM)を最大にする統計が求められる。
その最大尤度方法に於ては、モデルMが与えられたとき
の系列Aの確率が最大になるように、モデルMの統計が
定義される。この方法は、妥当に正確な結果を与える。
しかし、その最大尤度方法は、単語のデコーディングの
精度を最大にするために特に適したものではない。単語
モデルは近似的なものであるので、Mを与えられたとき
のAの確率を最大にする統計の定義と、発声入力に対し
て正しい単語を与える精度を最大にする統計の定義との
間には相違がある。その相違の結果、最大尤度方法のみ
を頼りに学習された単語モデルは、不精確さの問題を或
る程度有している。
確率的音声認識システムの精度が、確率値を含む単語モ
デルの精度に大きく依存するという点で、単語モデルの
精度は、達成できる妥当な高さであることか極めて重要
である。
C6発明が解決しようとする問題点 本発明の目的は、好ましくは音声認識の環境に於て、単
語のデコーディングの精度を最大にする方法で、マルコ
フ#モデル及び同様なモデルの学習を行うことである。
具体的に云えば、本発明は、正しい単語の確率を、他の
単語に関連する確率に関して大きくする方法で、各モデ
ルに関する統計を決定することに係る。その原理は、他
の方法の場合の如(、スクリプトを与えられたときのラ
ベルの確率を最大にするよりも、ラベル出力を与えられ
たときの発声された単語の正しいスクリプトの確率と、
任意の他の(正しくない)スクリプトの確率との相違を
最大にすることである。
D0問題点を解決するための手段 上記目的を達成するために、本発明は、コミュニケート
された単語人力に応答して発生された、出力のアルファ
ベットから選択された出力から語檗中の単語がデコード
され、上記語彙中の各単語が少なくとも1つの確率的有
限状態モデルのベースフオームにより表わされ、各確率
的モデルが遷移確率項目と出力確率項目とを有し、そし
て少なくとも幾つかの確率項目の各々について確率値が
記憶されるシステムに於て、或る既知単語久方のコミュ
ニケーションに応答して発生された出力が該既知単語の
ためのベースフオームにより生じる尤度を、上記の発生
された出方が他の少なくとも1つの単語のためのベース
フオームにより生じる各々の尤度に関して、大きくする
ために、記憶された確率値の少なくとも幾つかにバイア
スを加えることを含む、確率値の決定方法を提供する。
各単語モデルは、1つ又はそれ以上の連続する確率的有
限状態マシーンにより表わされることが好ましい。各マ
シーンは、−組の単音からの1つの”単音(p h o
 n e ) ”に対応する。各単音は、マルコフ・モ
デル又は同種のものを指定することができる、音声学的
要素、ラベル即ちフィーニーム(feneme−フロン
ト・エンド・プロセッサ等力ら得られる音素)、又は何
らかの他の予め定義された音声の特徴付けと相互関係を
有している。
学習スクリプトは、典型的には、一連の既知単語より成
り、各単語は一連の単音を構成し、従って各単語は一連
の単音マシーンにより表わすことができる。
本発明の方法によれば、確率項目に関連する確率値は次
の如く評価される。各確率項目に関して、定義された予
測値θ′が存在する。
予測値θ′及び学習中に発生されたラベルが与えられた
とき、°゛単単一カウント色呼ばれる値が決定される。
一般的には、”単一カウント″は、或る事象が学習デー
タに基づいて生じた(予測された)回数に関連する。゛
°単一カウント″の1つの特定の定義は、(a)或る一
定のラベル系列Y、(b)定義された予測値θ′、及び
(c)或る特定の時間tを与えられたときの、或る特定
の遷移τ。
及び状態Sjの確率である。
上記単一カウントは、周知のフォワード・バックワード
・アルゴリズム、又はBaum−Welchアルゴリズ
ムを適用することによって決定される。
上記定義によれば、単一カウントは次式で表わすことが
できる。
p r (s j−、τHI Ysθ′、t)各時間り
の特定のSj、τ4、Y、及びθ′のための単一カウン
トを合計することにより、゛°遷移累計カウント”が対
応する遷移確率項目について決定される。遷移累計カウ
ントは確率の合計であるため、その値は1を越えること
がある。各遷移確率項目について、各々の累計カウント
が記憶されることが好ましい。所与の遷移のためのその
累計カウントを、状態Sjから取出すことができるすべ
ての遷移のための累計カウントの合計で割ることにより
、各々の遷移確率項目のための現在の確率値が決定され
る。その現在の確率値は、好ましくは、その各々の遷移
確率項目に関連して記憶されることが好ましい。
ラベル出力確率項目についても、単一カウントが合計さ
れる。それらの確率項目の各々に関して、或る特定のS
3、τ1、Y、及びθ′のための単一カウントの合計が
、ラベル系列に於ける対応する発生されたラベルがその
ラベル出力確率項目に対応するラベルである、すべての
ラベル時間について得られる。この場合の合計は、“ラ
ベル出力累計カウント″であり、それに対応するラベル
出力確率項目に関連して記憶されることが好ましい。
この累計カウントを、特定のSj、τi、Y、及びθ′
のためのすべてのラベル時間に亘る単一カウントの合計
で割ることにより、各々のラベル出力確率項目のための
現在の確率値が決定される。
本発明の方法は、確率的単語、より具体的には音声の認
識システムに於ける単語のデコーディングの精度を高め
るために、上記の確率項目の現在の確率値を改善するこ
とに係る。
本発明の方法によれば、発声された既知単語の学習スク
リプト、各確率項目のための初期確率値、及び学習中に
発声された各単語のための候補単語のリストが規定され
る。候補単語リストは、本出願人による特願昭60−2
55205号明細書に記載されているマツチング手順の
如き手順によって定義される。すべての既知の発声され
た単語に対して、”正しい”既知の単語及び”正しくな
い”単語(好ましくは、既知単語として誤ってデコード
される最大尤度を有している正しくない単語)が存在す
る。確率項目の現在の確率値は、正しい単語のベースフ
オーム又は正しくない単語のベースフオームに於ける各
確率項目のための”プラス・カウント値″及び”マイナ
ス・カウント値′°を初めに計算することによって決定
される。
プラス・カウント値は対応する確率項目(各確率項目)
のための累計カウントに加えられ、マイナス・カウント
値は上記累計カウントから差引かれる。それらの調整さ
れた累計カウントに基づき、確率項目のための確率値が
再び計算されて記憶される。′プラス・カウント値″は
、周知のフォワード・バックワード・アルゴリズムを適
用し、好ましくはその結果束じる統計を基準化すること
により、正しい(即ち、既知の)単語のベースフオーム
に於ける各確率項目について計算される。その加算は、
カウント値(及びそれらから引出された確率項目)を系
列Yの方へ近づ(ようにバイアスさせて、系列Yが正し
い単語モデルのより高い尤度の出力に思われるようにす
る。
所与の確率項目のためのマイナス・カウント値は、あた
かも正しくない単語が発声されて、そのラベル系列が生
じたかのようにフォワード・パックワード・アルゴリズ
ムを適用することにより計算される。その既知単語の単
一の発声から引出されたマイナス・カウント値は、(゛
プラス・カウント値″との加算の前又は後に)対応する
累計カウントの最も最近の値から差引かれる。その減算
は、正しくない単語のベースフオームに於ける確率項目
の計算に用いられた累計カウントを系列Yから離れるよ
うにバイアスさせる。
語彙中の各単語に上記ステラフを行うことにより、記憶
されたカウント値及び確率値がデコーディングの精度を
高めるように調整される。
従って、本発明の目的は、デコーディング・エラーをゼ
ロにするように確率及び統計全決定することでちり、又
音声から語粱中の単語へのテコ−ディングを改善するた
めに他の技術により決定されるカウント値を改善するこ
とである。
E、実施例 次に、本出願人による特願昭6’0−255205号明
細書を参照して、本発明の方法に係る背景及び環境につ
いて説明する。
印 音声認識システムの全体的説明 第1図に於て、音声認識システム1000の全体的ブロ
ック図が示されている。システム1000は、音6プロ
セツサ1004が接続されているスタック・デコーダ1
002、近似的な高速音響マツチングを行うために用い
られるアレイ・プロセッサ1006、詳細な音響マツチ
ングを行うために用いられるアレイ・プロセッサ100
8、言語モデル1010.及びワーク・ステーション1
012を含む。
音響プロセッサ1004は、音声波形人力を、一般的に
は各々が対応する音の種類を識別するラベル系列に変形
させるように設計されている。このシステムに於て、音
響プロセッサ1004は、人間の耳のユニークなモデル
に基づいており、本出願人による特願昭60−2112
29号明細書に記載されている。上記明細書は、音声入
力に応答してラベルを発生させる特に有効な方法を開示
している。
音響プロセッサ1004かものラベル(本明細書に於て
は、”フィーニーム″とも呼ばれる)は、スタック・デ
コーダ1002に入る。論理的には、スタックΦデコー
ダ1002は、第2図に示されている素子により表わす
ことができる。即ち、スタック・デコーダ1002はサ
ーチ素子1020を含み、サーチ素子1020は、ワー
ク・ステーション1012とコミュニケートシ、又各々
インタフェース1022.1024.1026、及び1
028’i経て、音響プロセッサのプロセス、高速マツ
チング・プロセッサのプロセス、詳細マツチング中プロ
セッサのプロセス、及ヒ言語モデルのノ゛ロセスとコミ
ュニケートスル。
動作に於て、音響プロセンサ1004により発生された
フィーニームは、サーチ素子1020によす高速マツチ
ング・プロセッサ1006にコミュニケートされる。詳
細マツチング及ヒfih速マツチングの手11@につい
て以下に説明するが、前述の特願昭60−255205
号明細書にも記載されている。簡単に云えば、音響マツ
チングの目的は、音響学に基づき、所与のラベル系列に
関して最も尤度の高い1つ又は複数の単語を決定するこ
とである。この目的の達成に於て、各単語は、少なくと
も1つの確率的有限状態マシーンにより表わされる。典
型的には、各単語は、一連のそのようなマシーンによっ
て表わされる。
各確率的有限状態マシーンは、(a)複数の状態S、、
(b)幾つかは或る状態から他の状態へ延びており、他
の幾つかは或る状態から延びてそれ自体へ戻り、各々が
各々に関連して対応する確率を有している、複数の遷移
tr(SjIS、)、及び(c)或る特定の遷移に於て
発生することができる各ラベルに関する、対応する実際
のラベル出力確率によって特徴付けられる。便宜上、等
価的に、多数の遷移を、あたかも単一の遷移であるかの
ように、一群にまとめて、単一の組のラベル出力確率を
それに関連させてもよい。
それらのマシーンをうめる確率は、学習スクリプトがユ
ーザにより発声される学習セツション中に引出されるデ
ータに基づいて決定される。その引出されたデータは、
ユーザの特定の発声特性に対応する。
語彙中の単語を調べそして入力ラベルの所与の系列のた
めの候補単語の数を減少させるために、学習された単語
モデル(即ち、単語のペースフオーム)を用いて、高速
の近似的音響マツチングが行われる。その高速マツチン
グに従って、確率値の少なくとも幾つかについて近似値
が求められる。
七扛から、それらの近似された確率値に基づいて、マツ
チングが行われる。
言語モデル1010は、高速マツチング用候補リストに
於ける候補単語の如き、種々の単語の各々の前後関係か
らみた尤度を、好ましくは存在するトリグラムに基づい
て、決定する。この方法については、従来の文献に於て
一般的に報告されている。
詳細マツチングは、単独でも又は高速マツチングと組合
わせても行われる。単独で行われると皮は、各単語モデ
ルに対応する近似されていない確率値が、対応する単語
のマツチング・スコアの決定に於て考察される。詳細マ
ツチングは、語粱中の各単語について、スコアを調べて
供給する。
高速マツチングと組合わせて用いられるときは、詳細マ
ツチングは、発声された単語で、島る妥当な尤度を有し
且つ好ましくは言語モデルの計算に基づ(妥当な尤度を
有している、高速マツチング用候補リストからの単語を
調べる。
音響マツチング及び言語モデルから引出された1つ又は
複数の単語が、スタック・デコーダ1002により用い
られる。具体的には、スタック・デコーダ1002は、
高速マツチング、詳細マツチング、及び言語モデルの適
用により引出された情報を用いて、発生されたラベルの
系列のための最も尤度の高い単語の径路又はシーケンス
を決定するように設計されている。
最も尤度の高い単語のシーケンスを見出すための従来の
2つの技術は、ビタビ・デコーディング及び単一スタッ
ク・デコーディングである。それらの各技術は、Bah
l、 Jelinek、及びMercerによる論文″
A Maximum LikelihoodAppro
ach  to  Continuous  5pee
ch第179頁乃至第190頁(1983年)に記載さ
れている。ビタビ・デコーディングは、上記論文の第5
節に、単一スタック・デコーディングは第6節に記載さ
れている。
単一スタック・デコーディング技術に於ては、異なる長
さの径路が尤度に従って単一スタックにリストされ、デ
コーディングはその単一スタックに基づいて行われる。
単一スタック・テコ−ディングは、尤度が或る程度径路
の長さに依存し、従って標準化が一般的に用いられるこ
とを考慮に入れなければならない。
ビタビ技術は、標準化を必要とせず、一般的には小さな
仕事に実用的である。
スタック・デコーダ1002は、他の素子を制御するよ
うに働(が、多くの計算を行わない。従って、スタック
・デコーダ1002は、好ましくの如き出版物に記載さ
れている如き、IBM  VM/170オペレーティン
グ争システムの下で動作する4341(商品名)を含む
。相当な計算を行つアレイ・プロセッサは、市販のFl
oatingPoint System、 Inc、製
(FPS)190Lを用いて実現された。
上記システムの概略的説明に於て、値を割当てなければ
ならない確率項目を有するマルコフ・モデルは、高速マ
ツチング・プロセッサ1006及び詳細マツチング・プ
ロセッサ1008に於て用いられる。本発明の方法は、
単語記識の精度を高めるために、音響マツチング・プロ
セッサに於て用いられる確率項目の値を調整することを
含む。
(1])単語表現マルコフ・モデルの学習の改善仄) 
概観 第6図は、本発明の1つの一般的実施例を示す流れ図で
ある。ステップ1102に於て、語雲単語の学習スクリ
プトが発声される。ステップ1104に於て、学習スク
リプトの発声に応答して、ラベルが発生される。このラ
ベリングは、第1図に関連して既に述べた音響プロセッ
サ1002により行われる。
好ましくは、200個の異なるラベルがあり、各ラベル
は或る時間間隔を占めることができる1つの音の種類を
識別する。用いられるラベルのアルファベットを定義す
る技術については、従来の文献に於て論じられている。
或る特定の技術が、前述の特願昭60−211229号
明細書に詳述さnている。そのフーロセスは、大まかに
云えば、音声の特徴を選択するステップ、複数のクラス
タ又は領域に区分された空間として音声を定義するステ
ップ、及び各領域にプロトタイプを割振るステップを含
む。予め定義されたパラメータの値に基づいて、種々の
プロトタイプの特性からの入力音声の特性の距離が決定
される。それから、。最も近い”プロトタイプが、音声
の或る特定の時間間隔に関連付けられる。各プロトタイ
プは、1つのラベルとして識別される。従って、音声の
連続する時間間隔には、連続するラベルが存在する。
クラスタの形成、特徴の選択、及びプロトタイプの距離
の測定のための技術は周知である。
第3図のステップ1106に於て、語喧中の各単語カマ
ルコフeモデルの単語のベースフオームとして表わされ
る。即ち、各単語は、一連の連結された確率的有限状態
マシーンにより表わされる。
(連結されたシーケンスも1つの確率的有限状態マシー
ンである。)構成している各マシーンは1つの”単音”
マシーンである。前述の如く、単音は、音声学(即ち、
音素)に基づいて特徴付けられてもよく、又はラベル(
即ち、フィーニーム)に基づいて特徴付けられてもよい
。音声学的、フィーニーム的、又は他の特徴付けに関係
なく、各単音マシーンは、(、)複数の状態S4、(b
)SjがS・と同じ状態であってもなくてもよく、各々
が各々に関連して対応する確率を有している、複数の遷
移t r (s i l Sl )、及び(C)或る特
定の遷移に於て発生することができる各ラベルに関する
、対応する実際のラベル出力確率を含む。
音声学的単音マシーンの場合、各単音マシーンは、国際
音標文字に於ける1つの要素の如き或る音声学的要素に
対応する。音声学的単音マシーンの一例が第4図に示さ
れている。
第4図に於て、単音マシーン1200には、7個の状態
S1乃至S7及び13個の遷移trl乃至tr13が設
けられている。第4図は又、単音マシーンが、点線の径
路を有する3つの遷移、即ち遷移Lr’11、tr’1
2、及びtrlろを有することを示している。それらの
3つの遷移の各々に於ては、単音は、ラベルを生じずに
或る状態から他の状態へ変化することができ、従ってそ
のような遷移はナル遷移と呼ばれる。ラベルは、遷移t
rl乃至tr1oに沿って生じることができる。
具体的に云えば、各遷移tr  乃至tr1oに沿つて
、1つ又はそれ以上のラベルが、その遷移で発生される
別個の確率を有することができる。好ましくは、音響プ
ロセッサが発生することができる各ラベルに関連する確
率が、各遷移について存在する。即ち、音響チャネルが
200個のラベルを選択的に発生することができる場合
、各遷移(ナルでない)は、該遷移に関連して200個
の゛実際のラベル出力確率″を有し、各ラベル出力確率
は、その対応するラベルがその単音によりその特定の遷
移に於て発生される尤度を示す確率値を有する。遷移t
r1のための実際のラベル出力確率は、角括弧で挿まれ
た数字1乃至200の列を伴った記号pにより表わされ
、各数字は所与のラベルを表わしている。ラベル1に関
しては、単音マシーン1200が遷移tJに於てラベル
1を発生する確率p〔1〕が存在する。種々の実際のラ
ベル出力確率は、そのラベル、及び所与の単音のための
対応する遷移に関連して記憶される。
70個の異なる単音、例えば、各音声学的要素に1つの
単音が存在する場合、すべての単音マシーンを考慮に入
れた、別個の確率の総数は、ラベル出力確率と遷移確率
との合計である。確率の総数は以下の通りである。
200〔発生可能な別個のラベル〕 x 1o (1単音マシーン当りの非ナル遷移〕×70
〔別個の単音〕 140.000〔ラベル出力確率〕 13〔1単音当りの遷移〕 ×70〔別個の単音〕 910〔遷移確率〕 従って、知られていなければならない(又は予測されね
ばならない)確率の総数は、140.00OX910=
14G、910である。140,910個のエントリー
を有するリストがメモリに記憶されることが好ましい。
後述する如く、エントリーの総数は、他の種類の単音が
用いられる場合、又は遷移が相互にマージされる場合に
は、異なることがある。いずれの場合中も、各エントリ
ーは、ラベル出力確率又は遷移確率(又はマージされた
或は結合された事象を表わす何らかの確率)のいずれか
に対応する、単一の“確率項目“のだめのものである。
各確率項目の値は、学習中に決定された”カウント′°
かも引出される。各゛カウント″は、或る既知入力に応
答して或る特定のラベル世力の系列が発生されるとき、
所与の時間に於て所与の単音マシーンに於ける状態から
取出されている所与の遷移の如き、各々の事象が生じる
確率を表わす。
好ましくは、カウント値及び確率項目値は、初めに最大
尤度デコーディング技術に従って決定される。即ち、カ
ウント統計及び確率項目値は、式p r (y tn 
g l M)を最大にするように計算される。上記式に
於て、Ytngは初期学習中に発生されたラベルの系列
であり、Mはマルコフ・モデルである。以下に詳述する
如(、異なる種類のカウント(例えば、単一カウント及
び累計カウント)を、対応する異なる事象を表わすよう
に定義することができる。
本発明の方法によれば、各々の確率項目のための値が、
デコーディングの性能を改善するように調整される。具
体的に云えば、確率項目が引出されるカウントの値が、
正しい単語のデコーディングの方へバイアス即ち調整さ
れる。
第5図は、第4図の単音マシーン1200のトレリスを
示す。このトレリスは、状態S1から状態S7へのナル
遷移並びに状態S1から状態S2へ及び状態S かも状
態S4への非ナル遷移を示している。他の状態の間の遷
移も示されている。
このトレリスは又、水平方向に測定された時間を示して
いる。或る単音が時間t=toに於て開始時間を有する
確率を表わすために、開始時間の確率q。を決定するこ
とができる。開始時間t。に於て、種々の遷移が示され
ている。この点に於て、連続する時間の間の時間間隔は
、ラベルの時間間隔と長さが等しいことが好ましい。第
5図に於ては、革−の単音が単一の時間間隔について示
されている。
音声学的単音マシーンの代りに、フィーニーム的単音マ
シーンを単語のベースフオームの構築に用いてもよい。
音声学的単音(典型的には、2゜0個)でなく、フィー
ニーム的単音(典型的には、70個)を用いた場合には
、確率の総数が変化する。フィーニーム的単音を用いた
場合には、1単語中の単音の数は典型的にはより大きい
が、遷移の選択の延数は典型的にはより小さい。不発明
の方法は、単音の種類に関係なく、適用される。フィー
ニーム的単音より或るフィーニーム的単語のベースフオ
ームを構築するための装置及び方法論については、本出
願人による特願昭61−16996号明細書に開示され
ている。
各フィーニーム的単音マシーンは、第6図に示す如き構
造を有する。一連のフィーニーム的単音マ7−ンのトレ
リスを第7図に示す。
第8(a)図及び第8(b)図は、音声学的単語のベー
スフオームを表わしている。第8(a)図に於ては、所
与の単語に対応する一連の音声学的単音の一例が、PP
7及びppioを伴ったPP1であるように示されてい
る。”pp’“は、音声学的単音を表わす。末尾の数字
は各々、70個(又は、それ以上)の単音の組に於ける
或る特定の単音を識別する。例えば、第8(a)図及び
@8(b)図のベースフオームは、単語”THE”のた
めのベースフオームであるものとする。’ T T(E
 ”の1つの音声学的スペリングは、DH−UHl −
XXである。この例によれば、PP1は単音DHに対応
し、PP7は単音UH1に対応し、PP10は単音XX
に対応する。
単音PP1は第8(b)図に示す如き確率を有する。即
ち、第1遷移はp(tri、1)として表わされている
確率を有し、第2遭移はpCtr2P1〕として表わさ
れている確率を有し、他の各遷移についても同様である
。遷移tr1には、又ラベル出力確率の配列体、即ちP
p1’(1)、PP1 ’ (2,1161,及びpp
1’(200)も存在する。添字P1はその組の音声学
的単音1として単音を識別し、単一のプライム符号(′
)は第1遷移を示す。従って、pP1’(1)は、音声
学的単音PPIが遷移1に於てラベル1を生じる確率を
表わしている。
第8(b)図には、説明を簡単にするために、代表的な
確率のみが示されている。例えば、音声学的単音PP7
について、1つだけ示されている遷移の確率は第1遷移
の確率であり、即ちp(tr1p7)である。又、遷移
tr1に於けるラベル出力確率の配列体が、角括弧内に
200個のラベルを有するp、7′として示されている
。詳細に示せば、第8(b)図は各遷移について確率を
含むことになる。各非ナル遷移についても、各々の可能
なラベル出力に関する確率が存在する。
各音声学的単音の各確率は、メモリ中に記憶された各々
のための値を有している。所与の単語(例えば、”TH
E”)は、その所与の単語に対応する音声学的単音(例
えば、DH,UHl、及びXX)K関連する、記憶され
た確率値により特徴付けることができる。
第9図に於ては、或る単語が、次に示す表1のフィーニ
ームに各々対応する、一連のフィーニーム的単音により
表わされて℃・る。単語”THE”′は、3つの音声学
的単音でなく、恐らく60個の連結した、2状態のフィ
ーニーム的単音により表わされる。その場合、単語”T
 HE ”は、構成するフィーニーム的単音に対応する
遷移確率及びラベル出力確率によって特徴付けられる。
?C’J  蛸 寸 Ln  ’Oh  の かへI’
h +’−hω■■の■ FCSJ I/)寸の−へ哨マ PC’J m 寸Ln C>のα OCI CI OOOOO0 OO00口000口  C へ  ひ のα 罰1 0 C) OOOOCI CI OOOCI OOOO
O00例えば、そのノーケンスに於ける第1のフィーニ
ーム的単音は、FP200である。FP200は、3つ
の遷移を有し、それらは各々の確率p〔Lr1F2oo
〕、p[:Lr2     〕、及びp〔むr3F20
0)を有している。F’P200の2つの非ナル遷移1
及び2は、各々に関連するラベル出力確率を有している
フィーニーム的単音F P 200に伴う、フィーニー
ム的単音FP10及び後続のフィーニーム的単音も、各
々に関連する対応する確率を有している。それらの一連
のフィーニーム的単音は、それらの関連する確率ととも
に、“THE”の如き、単語を定義する。
各単音(音声学的又はフィーニーム的)は、多数の遷移
確率及びラベル出力確率を含み、それらは集合的に゛確
率項目°°と呼ばれる。各確率項目に、メモリの一部が
割当てられ、対応する値がその部分に記憶される。精度
を高めるために本発明の方法に従って調整されるのは、
それらの値である。
確率項目のための値の記憶は、第6図のステップ110
8に示されている。初めに記憶されている値の発生は、
従来の種々の学習技術に於ける任意の技術によって行わ
れる。例えば、前述の論文″Continuous  
5peech  Recognitionby  5t
atistical  Methods″は、その第7
節に於て、或る学習手順について記載している。
具体的に云えば、その学習は、以下に簡単に説明する周
知のフォワード・バックワード・アルゴリズムに関連し
て記載されている。フォワード・バックワード・アルゴ
リズムによって、カウントのためのイ直が引出され、そ
れらのカウント値から、各確率項目のための確率値が計
算される。本発明の方法は、それらの確率値、及びそれ
らの確率値が引出されるカウント値を改善する。
前述の如く、各単語のペースフオームは一連。
単音として特徴付けられ、各単音はそれに関連する確率
項目(及びそれらのための確率値)により特徴付けられ
る。従って、それらの確率値を記憶し、割当てることに
より、マルコフ単語モデル(即ち、ベースフオーム)を
特徴付けることができる。
一連の5つの音声学的単音DH,UHI、及びXXによ
り表わされたときの単語”THE”につ(・て再び考察
すると、各単音は、第4図の単音マ/−ン1200の如
き単音マシーンにより表わされる。学習セツション中に
、単語”THE”を構成している5つの音声学的単音が
発声され、それらに応答してラベル(即ち、フィーニー
ム)ノ系列が発生される。発生されたラベルに基づき、
フォワード−バンクワード・アルゴリズムが第10図て
示されている如きトレリスを経て進められ、種々の遷移
が調べられる。後述される如(、フォワード・バックワ
ード・アルゴリズムを用いてカウントのための値が決定
され、そのような値が記憶されそして本発明の方法に従
って調整される。
そのカウント・データから、種々の確率項目のための改
良された値が決定されて記憶される。
後述される如(、記憶された確率項目の値は、フォワー
ド・バンクワード・アルゴリズムにより発生されたカウ
ントから初めに計算された値、又は本発明の方法に従っ
て予め調整された値のいずれかを表わす。一貫性を与え
るために、ステップ1108に於て記憶された値は、い
ずれの場合も、以下に於て“現在”の記憶された値と呼
ばれる。
再び第3図に於て、ステップ1108中に記憶された値
を強調するプロセスが、ステップ1110に於て開始さ
れる。ステップ1110に於て、”新しい”単語が語集
かも選択される。その”新しい”単語は、発声された単
語のスクリプトに於ける次の単語であることが好ましい
。その選択された単語が、”主題の”単語であり、その
ための単語モデルが後続のステップに従って調べられる
ステップ1112に於て、主題の単語が一回発声される
。ステップ1114に於て、上記の単一の発声に応答し
て、対応するラベル系列が発生される。発生されたラベ
ル系列に対して、マツチング手順が行われ、候補単語の
順序付けられたリストが形成される。その順序付けられ
たリストを得るだめの1つのマツチング手順は、以下に
述べられ、又前述の特願昭60−255205号明細書
にも記載されている、高速マツチングである。
”正しいパ単語と呼ばれる、実際の発声された単語は、
歳知である。更に、音響マツチング中に形成された候補
リストから、少(とも1つの”正しくない”単語が、ス
テップ1116に於て、選択される。主題の単語が発声
されたとき、”正しくない”単語が誤って選択される見
込みのない場合には、ステップ1118に於て、ステッ
プ1110に戻る決定が成される。それから、新しい主
題の単語が選択される。
主題の単語が発声されたとき、”正しくない″単語が誤
って選択される尤度が、定義された妥当な尤度であれば
、°正しい″単語及び°正しくない″単語のための現在
の確率項目値が調整される。
より具体的に、主題の単語の1回の発声について考察す
る。必ずしも必要ではないが、好ましくは、その1回の
発声は、初めの学習セツションの後に発声される。正し
い単語にフォワード・バックワード・アルゴリズムを適
用することにより、その1回の発声から、正しい単語の
ためのベースフオームに於ける各確率項目について、多
数の゛。
プラス″・カウントが計算される。それらの゛プラス°
′・カウントは、ステップ1120に於て計算される。
所望ならば、それらの”プラス°°・カウントは、基準
化され又は重み付けられる。゛プラス”・カウントは、
各々の記憶されたカウントに対応し、各々の記憶された
カウントの現在の値への加数として働く。その増加は、
”正しい″単語のための確率項目の計算に用いられた各
々の記憶されたカウントについて、ステップ1122に
於て行われる。即ち、正しい単語のためのベースフオー
ムに含まれる140910個の確率項目の各々について
、それに関するカウントが認識され、そのための記憶さ
れた”現在の”値が、対応する“プラス”・カウント値
、又はそれに関する基準化された又は重み付けられた値
で増加される。
”正しい″単語の確率項目の計算に用いられたカウント
の0現在の″記憶された値を増加させることに加えて、
本発明の方法は又、”正しくない”単語のためのベース
フオームに含まれている確率項目の計算に用いられたカ
ウントの“現在の′値を調整することも特徴とする。こ
の点に於て、主題の(°正しい′)単語は発声されるが
、”正しくない“単語のための単語モデルは考察される
”正しくない″単語のためのベースフオームに関連する
カウントは、それに関連する記憶された”現在の°値を
有している。主題の単語の1回の発声に基づいて、ステ
ップ1124に於て、”マイナス′°・カウント値が、
”正しくない”単語のためのベースフオームについて計
算される。それから、各々の0マイナス″・カウント値
、又はそれに関する基準化された又は重み付けられた値
が、負のバイアス値として働く。
正しい単語に関連する所与のカウントには、その所与の
カウントの記憶された値に加えられる゛プラス・カウン
ト値″(又は、その関連する値)が存在する。同様に、
正しくない単語に関連する所与のカウントには、その所
与のカウントの記憶された値から差引かれる゛マイナス
・カウント値°゛(又は、関連する値)が存在する。正
しい単語及び正しくない単語に関連する所与のカウント
については、その所与のカウントは、°′プラス・カウ
ント値″(又は、関連する値)で増加され、そして”マ
イナス・カウント値“(又は、関連する値)で減少され
る。その結果、各々の所与のカウントについて、調整さ
れた値が得られる。後に、ステップ1128に於て、そ
れらの調整されたカウントから確率項目が再計算され、
それに応じて”正しい”単語の方へ近づきそして”正し
くない″単語から離れるようにバイアスされる。
再び第10図に於て、第4図に示されている如き単音マ
シーンに基づ(トレリスの一部が示されている。具体的
に云えば、3つの連続するラベルの時間間隔に亘る単音
モデルが示されている。その単音モデルは、特定の1つ
又は複数の単音の発声を表わすことができる極めて多数
のトラックを定義している。例えば、所与の単音につい
て、1つの可能なトラックは、時間t。に於て、状態S
1から開始し、それから状態S2へ進むことができる。
そのトラックは、時間L に於ける状態S2かも時間t
 に於ける状態S3へ、それから状態S7(最終状態)
へと続(ことができる。所与の単音はより短かい長さを
有してもよく、より多数の時間間隔に亘って延びてもよ
い。そのトレリスは、或る発声をトラッキングすること
ができる体系を表わしている。フォワード・バンクワー
ド・アルゴリズムは、後述される如く、上記トレリスに
於ける遷移及びそれらの遷移に於けるラベル出力確率に
関連する種々の確率を決定するステップのアウトライン
をなす。
第10図のトレリスが、単語″T HE ”に於ける如
き単音DHに対応するものと仮定する。説明のため、1
つの確率項目について考察する。その確率項目は、遷移
τ1に於てラベルf、を生じる尤度に関連する。この例
に於ては、fhは、ラベル・アルファベット中の1つの
ラベルTH1に対応する(表1参照)。初めの学習中に
、遷移τ1に於て生じているラベルTH1に対応する確
率項目のための予備的な値が記憶される。そのラベルT
H1の確率項目のための予備値は、好ましくは単音DH
の多数の発声に基づいて、記憶されているカウント値か
ら計算される。遷移τiに於て生じているラベルTHI
に関する確率項目のための学習中に引出された予備値は
、0.07であると仮定する。又、DHの単音マシーン
に於ける特定の遷移τ、に於けるラベルTH1の発生は
、140゜910個の確率項目のリストに於ける確率項
目9001として識別されるものと仮定する。従って、
確率項目9001は、記憶された現在の確率値0゜07
を有している。他の各確率項目についても、予備値が同
様に記憶される。更に、確率項目の確率の計算に用いら
れる各カウントについても、予備値が記憶される。確率
項目9001の計算に用いられたカウントの1つC0U
NTXは、6の予備値を有するものと仮定する。後述す
る如(、C0UNTXは、累計カウントである。
すべてのカウント及び確率項目について値が記憶されて
、本発明が進められる。説明のため、1正しい”単語”
Tl(E”について、所与の語粟のだめの高速音響マツ
チングは、”THEN”が候補単語であることを示すも
のと仮定する。その後、詳細マツチングは、単語” T
 HE N ”が、既知の単語” T HE ’“の単
一の発生に基づいて(第3図のステップ1114)誤っ
て選択される(ステップ1116)尤度が最も大きい”
正しくない″単語であることを示す。そのとき、単語”
THEN”のためのマツチング・スコアは、音響マツチ
ングに従って、単語” T HE”のためのマツチング
・スコアの何らかの予め定義された限界内にあることが
見出される。
それから、正しい単語のためのベースフオームに於ける
各カウントのための”プラス・カウント値パ(ある場合
)が、フォワード・バックワード・アルゴリズムを適用
することにより、単一の発生に基づいて計算される。上
記の例を続けて、確率項目9001、即ち単音DHに於
ける遷移τ。
に於て生じているラベルTH1、のための値の計算に用
いられるC0UNTXは、正しい単語”THE ”の単
一の発声に応答して生じた1、5のパブラス・カウント
値″を有するものと仮定する。その“プラス・カウント
値″15は、必ずしも必要ではないが好ましくは、何ら
かの係数、例えば1/2により基準化される。(その係
数を決定することができる1つの方法を以下に述べる。
)その基準化された値0.75が、カウントC0UNT
Xのための前に記憶された値乙に加えられる。その結果
、C0UNTXの値が、6.75に調整される。
又、′正しくない“単語°“T HE N ”に対応す
る”C0UNTX”のための”マイナス・カウント値”
(ある場合)も、フォワード・バックワード・アルゴリ
ズムを適用することにより決定される。その”マイナス
・カウント値パは、0.04であると仮定する。その”
マイナス・カウント値”も、必ずしも必要ではないが好
ましくは、例えば1/2により基準化される。その場合
、“マイナス・カウント値″は0.02の値を有する。
その”マイナス・カウント値゛は、C0UNTXの値に
適用される減数として働く。従って、C0UNTXは、
6 + 0.75−0.02 = 6.75に調整され
る。
カウントが正しい単語のベースフオームと正しくない単
語のベースフオームとの両方に於て用いられる場合には
、それに関連する現在の記憶された値は、゛°プラス・
カウント値″で増加され、その合計が゛マイナス・カウ
ント値″で減少される。
加算及び減算のIII序は重要ではない。更に、カウン
トが正しい単語のベースフオーム又は正しくない単語の
ベースフオームのいずれかだけに於て用いられる場合に
は、各々のカウントのための現在の記憶された値に対し
て、各々”プラス・カウント値”が加えられ又は”マイ
ナス・カウント値”が差引かれる。カウントのための記
憶された値が調整されると、その調整された値は後に用
いられるためにメモリに入れられる。具体的に云えば、
各々の調整された値は、後のカウントの調整に於て、現
在の記憶された値として働(。後述される如く、カウン
ト値が連続的に適切に調整されるように、単語を相次い
で発声してもよい。
第6図のステップ1130に於て、発声されるべきすべ
ての単語が主題の単語であったかについて、決定が成、
される。そうでない場合には、新しい単語が選択され、
ステップ1110から始まるプロセスがその新しい単語
について繰返される。
発声されるべきすべての単語が主題の単語であったとき
、繰返しは終了し、不発明の方法に従って、確率値が、
繰返しの終りに於けるそれらの値に基づいて調整された
カウントから再計算される(ステップ1128)。それ
から、確率項目の現在の記憶された確率値を用いて、次
の繰返しに於ける音響マツチング・スコア及びカウント
値が決定される。次の繰返しには、再定義された単語モ
デルをステップ1108に於ける出発点として、プロセ
ス全体が反復される(ステップ1132参照)。
本発明の方法によれば、所与の確率項目のためのカウン
ト値の増加及び減少は、連続する単語が所与の1回の繰
返しの間に発声されるとき、多数回行うことができる。
又、複数の繰返しの場合も同様である。更に、所与の単
語に於ける幾つかの確率項目の計算に、同一のカウント
が用〜・られる場合には、そのカウントは1回の繰返し
に於て数回調整することができる。
次に、第11図は、本発明の方法の或る特定の実施例を
示す流れ図である。第11図の実施例に於て、各カウン
トは、記憶された”現在の′°値を有する。各カウント
の記憶された゛現在の”値は、゛プラス・カウント値”
及び1マイナス・カウント値′°により適切に調整され
る。用語6カウント′。
値の1つの定義が以下に提案されているが、本発明の方
法の実施に於て他の定義を用いることもできることを認
識されたい。
第11図の実施例は、ステップ1402から開始される
。ステップ1402に於て、多数の変数が導入されて、
セットされる。それらの変数は、流れ図に示されるに従
って、以下に定義される。
それらの変数は、所望ならば、変更可能である。
ステップ1404に於て、補助的な予備処理ステップが
設けられている。その予備処理ステップに於ては、すべ
ての遷移確率分布が、最高の確率を次に高い確率で置換
えてから、その分布を再び標準化することにより、゛°
平滑化”′される。上記予備処理ステップの間に、次の
開始(5tart−up)事象が行われる。
(11n=1にセットする; f2)  X=n番目の出力分布に於ける2番目に高い
ラベル出力確率にセットする; (6)n番目の出力分布に於ける最高出力確率:Xにセ
ットする; (4)n番目の出力分布を再標準化する;(51n =
 n + 1にセットする;そして、(61n>出力分
布数であるかどうかを決定し、そうでなければ、予備処
理ループは上記ステップ(2)に戻り、そうであれば、
予備処理が終了して、ステップ1406に進む。
上記予備処理ステップは、本発明の方法の重要なステッ
プではないが、背景として示されている。
ステップ”1406に於て、発声された単語の数を表わ
す、変数■が1に於て開始される。ステップ1410に
於て、■4目の単語のための”正しい′”単語のベース
フオームのための対e(7!og)確率、即ちり。がセ
ットされる。その工番目の単語は、発声される既知の(
又は、主題の)単語である。log確率LCの値は、音
響マツチング中に決定される。
ステップ1412に於て、1番目の単語の単一の発声に
応答して発生されたラベルを生じている尤度が最大であ
る”正しくない″単語のIlog確率がLIとしてセッ
トされる。ステップ1414に於て、LoがLlを値R
だけ超えたかを決定するために、2つのlog確率が比
較される。Rは、典型的には略10にセットされる、負
でない閾値である。L(がLlを係数Rだけ超えたなら
ば、ステップ1416に於て、新しい単語を呼出すため
にIが増分される。すべての単語が呼出されていなけれ
ば、プロセスはステップ1410に戻り、新しい単語に
ついて処理が継続される。発声されるべきすべての単語
が呼出されたならば、カウントの記憶された”現在の°
値として働く、カウントの前に調整された値を用いて開
始される、プロセス全体が反復される(ステップ141
8及び1420)。そのプロセスは、変数I TERが
ステップ1422に於てインデックスされて、NITE
Rのためにセットされた値を超える迄(ステップ142
4 )、繰返される。
LoがLlをRよりも大きい値だけ超えていない場合に
は、Llがり。を超えたかについて決定が成される(ス
テップ1450)。これは、音41マツチングが、′正
しい”単語よりも高いマツチングの値を有する°“正し
くない”単語をリストしたときに生じる。LIがLcを
超えた場合には、ステップ1462に於て、変数Kが値
Mに等しくセットされる。Mは、プログラムにパラメー
タとして供給される負でない閾値である。典型的には、
Mは、1乃至10の範囲内である。それよりも大きな値
は、より迅速な収束を生じるが、より粗雑な調整を生じ
る。
Llがり。よりも大きくなく且つり。とRよりも小さい
値だけ異なる場合には、ステップ1434に於て、Kが
M(R−Lc+LI )/Hにセットてれる。ステップ
1462及び1434の後、変数Jが1にセットされる
。変数Jは、カウント識別子である。変数T、が、識別
された5番目のJ)ラントのための現在の記憶された値
に等しくセントサれる。初めの繰返しの初めの調整に於
ては、記憶された値は、識別されたカウントのために入
れられた初めの値である。所与のカウントのための記憶
された値は、1つ又はそれ以上の前の繰返しの結果とし
て先に調整された、上記所与のカウントのための値を表
わすことができる(ステップ1436)。
ステップ1438に於て、変数Z。Jが決定される。変
数Z。Jは、正しいベースフオームに対応する単語の単
一の発声が与えられたとぎ、正しい単語のベースフオー
ムに基づいて、J″4目のカウントに対応する事象が生
じる回数を示す、”プラス・カウント値“を表わす。即
ち、既知の単語の発声に応答して発生されたラベルにつ
いて、各々のJ市目のカウントのための゛°プラス・カ
ウント値°′を決定するために、“°正しいパ単語のベ
ースフオームにフォワード・バックワード−フルボリズ
ムが行われる。これは、ステップ1438に於て、”正
しい″単語のベースフオームに於ける確率項目の計算に
用いられる各カウントについて行われる。
ステップ1440に於て、変数zIJは、正しいベース
フオームに対応する単語の単一の発声が与えられたとき
、正しくない単語のベースフオームに基づいて、5番目
のカウントに対応する事象が生じる回数を示す、”マイ
ナス・カウント値”を表わす。即ち、既知の単語の発声
に応答して発生されたラベルについて、各々の5番目の
カウントのための0マイナス・カウント値”を決定する
ために、正しくない単語のベース7オームにフォワード
・バンクワード・アルゴリズムが行われる。
各々の5番目のカウントのための記憶された値が、゛プ
ラス・カウント値”zoJをKで基準化し、”マイナス
・カウント値°゛をKで基準化し、そして次の計算を行
う(ステップ1 、!144 )ことによって、調整さ
れる。
T、(調整された) =KZ c JKZ r J+ 
T 、r°゛プラスカウント値″及び”マイナス・カウ
ント値゛は各々、同一の係数Kにより基準化されて示さ
れている。これらの条件の下では、正しいカウント事象
の発生は、正しくないカウント事象の発生と均等な平衡
状態になる。これは、好ましいことであるが、本発明の
方法は、1プラス・カウント値″が”マイナス・カウン
ト値゛°と異なるように、重み付けを行うことを意図し
ている。
更に、各々の調整されたカウントは、前の零でないカウ
ントが零又は負の値に減少されないようにするために、
最小閾値を有している。この最小レベルは、例えば、0
.1程度である。
カウントTJが調整された後、ステップ1446に於て
、変数Jが増分される。Jの増分された値が、調整され
るべとカウントの数を示す数と比較される(ステップ1
448)。この点に於て、調整されるべきカウントの数
は、正しい単語のベースフオーム又は正しくない単語の
ベースフオーム又はそれらの両方に於ける確率項目の計
算に用いられるカウントだけに等しいことが好ましいこ
とが観察される。又は、140,910個の確率項目の
ための各カウントが、各発声について、調整されてもよ
い。この後者の場合には、カウントの多(に零調整が必
要である。
ステップ1448に於て決定される如く、調整されるべ
きすべてのカウントが未だ更新さnていない場合には、
前に調べられていないカウントが選択され、”プラス・
カウント値”(ある場合)及び”マイナス・カウント値
”(ある場合)が決定され、そのための記憶されたカウ
ントが、既に概略的に述べた如く、調整される。
すべての適当なカウントが調整された後、ステップ14
16に於て、■が増分される。ステップ1418及び後
続のステップが、既に述べた如(、続いて行われる。具
体的に云えば、カウントのための調整された値を用いて
、繰返しの終りに、確率項目値が再計算される。それか
ら、確率項目のための再計算された値が記憶され、音響
マツチングに用いられているマルコフ・モデルに適切に
適用される。例えば、第8(b)図に示されている確率
項目のための調整された値が、そのための前のすべての
値と置換えられて、高速音響マツチング及び詳細マツチ
ングに於て用いられる。工が増分される度に、異なる単
語の発声が調べられることを認識されたい。しかし、所
望ならば、同一の単語を、異なるIの値に於て、−回よ
りも多(発声してもよい。
確率の決定 遷移確率及びラベル出力確率は、”カウント”により定
義される。”カウントパは、典型的には、或る特定の事
象が生じる回数(予測される)を定義する。本発明の方
法に於ては、゛°単一カウント′。
及び゛累計カウント″が存在する。特に指定しない限り
、単独で用いられた”カウント″は、1単一カウント”
を意味する。
確率項目のための予測値θ′及び学習中に発生されたラ
ベル系列を与えられたとき、”単一カウント″は、(、
)或る一定のラベル系列Y、(b)定義された予測値θ
′、及び(c)或る特定の時間tを与えられたときの、
或る特定の遷移τ1及び状態らの確率として定義される
。上記の各単一カウントは、周知のフォワード・バンク
ワード・アルゴリズム、又はBaum−Welchアル
ゴリズムを適用することにより決定される。
上記定義に従って、単一カウントは、次式により表わさ
れる。
Pr (Sj、 ft l Y、θ′、t)上記単一カ
ウントの計算に於て、θ′はPr’の特徴付けに於て、
暗に示されているものとして、除くことができる。Ba
yesの定理を適用すると、上記式は次のようになる。
Pr’(r;、Sj、Ylt)/Pr′(Y)P r 
’ (Y)は、パラメータθ′を用いて計算されたフォ
ワード・バス確率から引出された確率として識別される
。従って、問題は、次の確率の計算に変形される。
すべての1、tについて、Pr’(r、S   Ylt
)1ゝ   Jゝ 上記式は、各々のl、tについて、マルコフ・モデルが
ラベル系列Yを生じそして遷移τ1が時間1に於て取出
された確率を表わす。
各時間tに於ける特定のS4、τ1、Y、及びθ′のた
めの単一カウントを合計することにより、対応する遷移
確率項目のための”避移累計カウントパが決定される。
遷移累計カウントは確率の合計であるため、その値は1
を超えることがある。各遷移確率項目について、各々の
累計カウントが記憶される。所与の遷移のためのその累
計カウントを、τ1の初期状態と同じ初期状態から取出
すことができる、すべての遷移のための累計カウントの
合計で割ることにより、各々の遷移確率項目のための現
在の確率値が計算される。その現在の確率値は、その各
々の遷移確率項目に関連して記憶されることが好ましい
各遷移確率項目は、好ましくは、予測されるように、次
の如く定義される。
上記式から、各遷移確率はカウントにより定義されるこ
とが明らかである。分子は、累計カウント、即ち任意の
時間乃至時間T+1に於ける所与の遷移τ1のための単
一カウント値の合計であり、分母は、時間T+1迄のす
べての時間に亘って取出されたて。と同じ初期状態を有
する、すべての可能な遷移τ1乃至τえに亘って取出さ
れた単一カウント値の合計を表わす。
更に、すべての非ナル遷移に於ける各ラベル出力確率も
カウントにより定義されることが好ましい。即ち、遷移
τ 及び状態Sjを与えられたときに生じるラベルfh
のための予測されるラベル出力確率P r ’は数学的
に次の如く表わされる。
上記式に於て、fhはラベルのアルファベットから選択
された或る特定のラベルに対応し、y。
は時間間隔tに於て発生されたラベルに対応する。
分子に於ける各々の合計された項は、発生されたラベル
出力が系列Yであったときに、系列Yに於て発生された
ラベルy がラベルfhであり、ラベルy、が状態S、
からの遷移τ1上に生じた確率を表わす。
分子に於ける合計は、”ラベル出力累計カウント″であ
り、好ましくは、それに対応するラベル出力確率項目に
関連して記憶される。この累計カウントを、特定のS・
、τ1、Y、及びθ′のためのすべてのラベル時間に亘
る単一カウントの合計で割ることにより、各々のラベル
出力確率項目のための現在の確率値が決定される。
従って、遷移確率及びラベル出力確率は、カウント調整
を繰返した後、カウントから容易に計算される。
第12図に示されている表から、更新された即ち調整さ
れた確率項目のための値をカウントに基いて計算するこ
とができる。その84列には、合計されると、その確率
項目に関連する累計カウントになる値を有する単一カウ
ントがリストされている。第5列には、合計されると、
分母になり、その分母で上記累計カウントを割ると、そ
の確率項目の値になる値を有する単一カウントがリスト
されている。第13図は、フォワード・バックワード・
アルゴリズムにより計算された単一カウント値を示して
いる。第12図及び第13図に示されている情報の入力
及び記憶は従来の技術によって容易に行われる。
FC)  カウント値の決定 カウントのための値の決定には、周知のフォワード・バ
ンクワード・アルゴリズムが用いられる。
i、j、及びtのすべてのイ直、即ちP r ’ (S
 jsτ11Y、t)の値が、各カウントのための値と
して決定されて記憶される。
フォワード・バックワード・アルゴリズムの詳細につい
ては、前述の論文゛ContinuousSpeech
  Recognition by Statisti
calMethods”の付録111に記載されている
次に、フォワード・バックワード・アルゴリズムの基本
的概念を、第14図を参照して、非ナル遷移について説
明する。第14図に於て、時間は横方向に測定されてい
る。各時間間隔は、ラベルが発生することができる時間
間隔に対応する。ラベルy 乃至yTは、時間間隔1乃
至T+1の間に発生されているように示されている。縦
方向に、連続する状態が示されている。第14図のトレ
リスに於て、時間、状態、遷移、及びラベルの発生が示
されている。
確率P ” (S jN T I I Y 、t )は
、積の3つの成分として表わすことができる。その第1
成分は、ラベルy 乃至y   を生じる確率と組合わ
さ1       t−1 れた、状態S、に存在する確率(時間tに於ける)であ
る。この成分は、αt(J)として表わされる。
積の第2成分は、状態S、から遷移τ、を取出しそして
ラベルy、を生じる確率である。これは、次の如く、表
わすことができる。
pr(r−ls  )Pr(y、Is、、τ1)   
 j この第2成分は、遷移確率項目(遷移τ1に於ける)又
はラベル出力確率項目(ラベルfhのための)のための
、先に定義された、現在の記憶された値に基づいている
積の第3成分は、β   (k)として表わされt+i る。この第6成分は、状態Sk(時間t+1に於ける)
に於て開始されるラベルy   乃至y。
t+1 を生じる確率を表わす。
τ がナル遷移を表わすときは、或る特定のうベルがそ
の調べられた遷移中に生じる必要条件は存在しないので
、それらの成分は簡単になる。
α確率はフォワード・バス確率と呼ばれ、又Pr(S、
t)として示される。連続するαが、次式により、時間
1に於て開始して再帰的に決定される。
α1(1)=1.0 ff、(S)=Σacm(S)”t−1(σ)Pr(y
、、σ−s)+Σ6tn(S)”t(σ)Pr(σ→S
)・・・t〉1の場合 上記式に於て、n(S)は、状態Sへのナル遷移を有す
る状態のセットを表わし、m(S)は、状態Sへの非ナ
ル遷移を有する状態のセットを表わす。
フォワード・バスに従って、時間1.2、・・・、T+
1について順次に、α、(S)の値が8=1.2、°・
・、SFについて順次に計算される。上記SFは最終マ
ルコフ・モデル状態である。これは、αに関する式を再
帰的に解(ことKより行われる。計算は、時間及び状態
に関して前方に進められる。
バックワード・バスは、確率βt(s)、即ち時間tに
於て状態Sから開始する出力ラベル系列を完了する確率
を決定することを含む。βも、αの場合と同様な計算を
満足させる。主な相違は、フォワード・バスが状態1に
於て開始して、それがら時間的に前方に進むのに対し、
バンクワード・バスは最終状態(SF)に於て開始し、
時間的に後方にそして状態を経て後方に進むことである
N(S)はSからナル遷移を経て達することができる状
態のセットを表わし、M(S)はSから非ナル遷移を経
て達することができる状態のセットを表わすものとする
と、次の式が適用される。
β   (s  )=i、。
T+I    F βt=ΣσεM(s)Pr(yS−σ)βt+1(σ)
+Σa5N(8)Pr(S−σ)ね(σ)・・・t<T
の場合 バンクワード・バスに於ては、時間二T+1、T、・・
・、1について順次に、β、(S)の値が、上記漸化式
を用いて、5=SF、5F−1、・・・、1について+
1m次に計算される。
所与の’%  JN及びtの各々について3つの成分が
決定されると、それらに対応するカウント値が容易に計
算される。
フォワード・パックワード・アルゴリズムは、初めに、
初期の又は現在の記憶されたカウント値の決定に用いら
れ、それからグラス・カウント値及びマイナス・カウン
ト値について用いられる。
iD)  Baum−WelchアルゴリズムBaum
−Welah  アルゴリズムに従って、゛°最最尤尤
度確率が求められる。具体的に云えば、Pr(YIM)
の項が局所的な最大値に近づくように、次の手+I@が
用いられる。
初めに、遷移確率項目及びラベル出力確率項目のための
確率値について初期値が選択される。
次に、フォワード・バンクワード・アルゴリズムを用い
て、既に概略的に述べた如く、記憶されたカウント値が
計算される。カウント値が計算されると、遷移確率項目
及びラベル出力確率項目のための確率値が再計算される
フォワード・バックワード・アルゴリズム及びその後の
遷移確率及びラベル出力確率の再計算は、収束が得られ
る迄、反復される。収束が得られた時点に於て、Bau
m−Welchアルゴリズムに基づいて、最大化が達成
される。
最大化が達成された後に得られた確率項目のための値が
、本発明の方法による値の調整のための開始点として働
くことが好ましい。
Baum−Welchアルゴリズムについては、L。
E、Baum等による論文”A MaximizaLi
onTechnique  Occurring  i
n  theStatistical Analysi
s of ProbabilisticFunctio
ns  of  Markov  Chains”、第
41巻、第164頁乃至第171頁(1970年)に記
載されている。
単音マシーン1200を用いて、所与の単音が入力系列
のラベルにどのように近くマツチングするかを決定する
とき、上記単音のための終了時間分布が求められて、該
単音のためのマツチング値の決定に用いられる。このよ
うな終了時間分布への依存は、マツチング手順に関して
本明細書に述べられている単音マシーンのすべての実施
例について共通である。詳細マツチングを行うために終
了時間分布を生じるとき、単音マシーン1200は厳密
且つ複雑な計算を含む。
第10図のトレリスに於て、時間t”t(+に於て開始
時間及び終了時間の両方を有する必要のある計算につい
て初めに考察する。これを第4図に示されている単音マ
7−ン構造の場合について述べろと、次の確率が適用さ
れる。
Pr(S7、t=to)=qoT(1→7)+ Pr(
S21 L=t□)T(2→7)+ Pr(331t”
to)T(3→7)上記式に於て、Prは”・・・の確
率′°を表わし、Tは括弧内に示されている2つの状態
の間の遷移確率を表わし、q は時間1=1oに於ける
開始時間分布である。上記式は、時間t ” t oに
於て終了時間が生じることのできる6つの条件のための
各確率を示す。更に、時間t ” t oに於ける終了
時間はこの例では状態S7に於ける発生に限定されるこ
とが観察される。
次に、時間t ” t 1に於ける終了時間については
、状態S1以外のすべての状態に関する計算が行われね
ばならない。状態S1は前の単音の終了時間に於て開始
する。説明のため、状態S4に関する計算についてのみ
示す。
状態S4について、計算は次のように行われる。
Pr (S41 t=t 1)= pr(811t=t
o)T(1−+4)Pr(yll−4)+Pr(841
t=t(1)T(4−+4)Pr(y14−4)上記式
は、単音マシーンが時間t ” t 1に於て状態S4
にある確率が、次の2項の合計に依存することを示して
いる。
(a)  時間t=toに於て状態S1である確率に、
状態S かも状態S4への遷移の確率(T)を乗じ、そ
れに更に状態S1から状態S4への遷移を与えられたと
きに系列中の所与のラベル(y)が発生される確率(P
r)を乗じたもの。
(bl  時間t ” t oに於て状態S4である確
率に、状態S4からそれ自体への遷移の確率を乗じ、そ
れに更に状態S4からそれ自体への遷移を与えられたと
きに所与のラベル(y)を生じる確率を乗じたもの。
同様に、その単音が時間t ” t iに於て或る特定
の状態にある対応する確率を発生させるために、他の状
態(状態S1を除く)に関する計算も行われる。一般的
には、所与の時間に於て主題の状態にある確率の決定に
於て、詳細マツチングは、(、)主題の状態へ導く遷移
を有する各々の前の状態及び各々のそのような前の状態
の各々の確率を認識し、(b)ラベル系列に一致するた
めには各々のそのような前の状態と現在の状態との間の
遷移に於て発生されている筈であるラベルの確率を表わ
す値を、各々のそのような前の状態について認識し、そ
して(C)各々の前の状態の確率と、ラベル出力確率を
表わす各々の値とを組合わせて、対応する遷移に亘る主
題の状態の確率を得る。主題の状態である全体的確率は
、それへ導くすべての遷移に亘る主題の状態の確率から
決定される。状態S7に関する計算は、状態S7に於て
終了する単音が時間1=1.に於て開始しそして終了す
ることを可能にしている3つのナル遷移に関する項を含
む。
時間t=to及びt=t1に関する確率の決定と同様に
、一連の他の終了時間についての確率の決定が、終了時
間分布を形成するために発生されることが好ましい。所
与の単音についての終了時間分布の値は、その所与の単
音がどのように良(入力ラベルにマツチングしているか
を示す。
単語がどのように良(入力ラベルの系列にマツチングし
ているかの決定に於ては、その単語を表わす単音が順次
に処理される。各単音は確率値の終了時間分布を発生す
る。単音のためのマツチング値は、終了時間の確率を合
計し、それからその合計の対数をとることによって得ら
れる。次の単音のための開始時間分布は終了時間分布を
標準化することにより引出される。その標準化は、例え
ば、その各々の基醜化された値の合計が1になるように
各々の値を合計で割ることにより各々の値を基準化する
ことによって行われる。
所与の単語又は単語系列について調べるべき単音の数り
を決定する方法は少なくとも2つあること全認識された
い。深さを第一とする方法に於ては、計算がベースフオ
ームに沿って行われ、連続する各単音について小計が繰
返し計算される。その小計が、上記ベースフオームに沿
った所与の単音の位置について予め定義された閾値より
も小さいことが見出されたとき、その計算が停止される
又は、幅を第一とする方法に於ては、各単語に於ける同
様な単音位置について計算が行われる。各単語に於ける
第1の単音、第2の単音、・・・というように計算が行
われる。この幅を第一とする方法に於ては、種々の単語
のための同数の単音に沿って行われる計算が、それらに
沿った単音の同一の相対的位置に於て比較される。いず
れの方法に於ても、マツチング値の最大の合計を有して
いる単語が、求められる対象である。
詳細マツチングは、F’PS190Lのための固有アセ
ンブラであるAPAL(アレイ・プロセッサ・アセンブ
リ言語)に於て実現されている。この点に於て、詳細マ
ツチングは、実際のラベル出力確率(即ち、所与の単音
が所与の遷移に於て所与のラベルyを発生する確率)、
各単音マシーンのための遷移確率、及び所与の単音が定
義された開始時間後の所与の時間に於て所与の状態にあ
る確率の各々を記憶するために、かなりのメモリを必要
とすることを認識されたい。上記FPS190Lは、終
了時間、即ち例えば終了時間の確率の合計の対数である
ことが好ましい合計に基づくマツチング値と、前に発生
された終了時間の確率に基づ(開始時間と、及び単語に
於ける連続する単音のためのマツチング値に基づ(単語
マツチング・スコアとの計算を行うために設けられてい
る。
更に、詳細マツチングは、マツチング手順に於て゛°テ
イル(tail)確率”を考慮に入れることが好ましい
。ラベル確率は、単語に関係な(、連続するラベルの尤
度を測定する。或る簡単な実施例に於ては、所与のラベ
ル確率は、他のラベルに従うラベルの尤度に対応する。
その尤度は、例えば幾つかのサンプル音声により発生さ
れたラベル系列から容易に決定される。
従って、詳細マツチングは、ベースフオーム、マルコフ
・モデルのための統計、及びラベル確率を含むために充
分な記憶装置を要する。各単語が略10個の単音を含ん
でいる、5000個の単語の語瞳については、それらの
ペースフオームは、5000X10個のメモリを必要と
する。70個の別個の単音(各単音についてマルコフ・
モデルを有する)と、200個の別個のラベルと、いず
れかのラベルが生じている確率を有する10個の遷移と
が存在する場合には、その統計は70×10X200個
の位置を要することになる。しかし、単音マシーンは、
統計が対応している、6つの部分、即ち、開始部分、中
間部分、及び終了部分に分割されることが好ましい。(
3つのセルフ・ループは連続部分に含まれることが好ま
しい。)従って、記憶装置の必要条件は70X3X20
0個である。ラベル確率に関しては、200X200個
の記憶装置が必要とされる。この配置に於ては、50に
の整数及び82にの浮動小数点の記憶装置が満足な動作
を行う。更に、初期のシステムは70個の異なる単音を
含んでいたが、本発明の方法は、各々単音マシーンを有
する96個程度の単音を含むこともできる。
(Fl  近似的高速マツチング 詳細マツチングは計算に於て高価であるため、精度を犠
牲にせずに必要とされる計算を減少させる、基本的高速
マツチング及び代替的高速マツチングが用いられる。好
ましくは、詳細マツチングと組合わせて、高速マツチン
グが用いられる。高速マツチングは語雲からの尤度の高
い候補単語をリストし、詳細マツチングは高速マツチン
グ・リスト上の候補単語について行われる。
近似的高速音響マツチング技術は、前述の本出願人によ
る特願昭60−255205号明細書の主題である。そ
の近似的高速音響マツチングに於ては、所与の単音マシ
ーンに於けるすべての遷移に於ける各ラベルのための実
際のラベル出力確率を特定の置換えの値で置換えること
により、各単音マシーンが簡単化されることが好ましい
。特定の置換えの値は、その置換えの値が用いられた場
合の所与の単音のためのマツチング値が、その置換えの
値が実際のラベル出力確率の代りに用いられない場合に
詳構マツチングにより得られたマツチング値よりも過大
評価になるように選択されることが好ましい。その条件
を達成する1つの方法は、所与の単音マシーンに於ける
所与のラベルに対応するいずれの確率も、その置換えの
値より犬き(ないよう罠、各々の置換えの値を選択する
ことである。単音マシーンに於ける実際のラベル出力確
率を対応する置換えの値で置換えることにより、単語の
ためのマツチング・スコアの決定に必要な計算の数が著
しく・減少する。更に、置換えの値は過大評価されるこ
とが好ましいので、その結果得られたマツチング・スコ
アは、置換えせずに前に決定されたマツチング・スコア
より小さくならない。
マルコフ・モデルを用いた言語学的デコーダに於て音響
マツチングを行う特定の実施例に於ては、各単音マシー
ンは、学習により、(a)複数の状態及び状態間の遷移
の径路、(b)状態ね及び現在の状態S は同一の状態
であっても、異なる状態であってもよいが、現在の状態
S、が与えられたときに、状態S、への遷移の確率を各
々表わす確率T(i→j)を有する遷移tr(sjls
、)、及び(c) kはラベルを識別する表示である各
々の実際のラベル出力確率p(ykli−Dが、所与の
単音マシーンにより或る状態から後の状態への所与の遷
移に於てラベルykの生じる確率を示している、実際の
ラベル出力確率を有するように特徴付けられ、各単音マ
シーンは、(、)各単音マシーンに於ける各々のy に
単一の特定の値p′(yk)を割当てるための手段、及
び(b)所与の単音マシーンに於ける各遷移に於ける各
々の実際のラベル出力確率p(y  H→j)を、対応
するy、に割に 当てられた単一の特定の値p′(yk)で置換えるため
の手段を含んでいる。その置換えの値は、特定の単音マ
シーンに於ける任意の遷移に於ける対応するラベルyk
のための最大の実際のラベル出力確率と少なくとも同程
度の大きさであることが好ましい。入力ラベルに対応す
る尤度が最大である語雲中の単語として選択された10
乃至100個程度の候補単語のリストを定義するために
、高速マツチングが用いられる。それらの候補単語は、
言、悟モデル及び詳細マツチングを施されることが好ま
しい。詳細マツチングにより考察される単語の数を、語
葉中1%程度の単語に減らすことにより、計算コストが
者しく減少し且つ精度も維持される。
基本的高速マツチングは、所与の単音マシーンに於て所
与のラベルが発生することができるすべての遷移に於け
る所与のラベルのための実際のラベル出力確率を単一の
値で置換えることにより、詳細マツチングを簡単化する
。即ち、ラベルが発生する確率を有する所与の単音マシ
ーンに於ける遷移に関係なく、その確率が単一の特定の
値で置換えられる。その値は大きく見積られ、そのラベ
ルが所与の単音マシーンに於ける任意の遷移に於て生じ
る最大の確率と少なくとも同程度であることが好ましい
ラベル出力確率の置換えの値を、所与の単音マシーンに
於ける所与のラベルのための実際のラベル出力確率の最
大として設定することにより、基本的高速マツチングを
用いて発生されたマツチング値が、詳細マツチングを用
いて得られるマツチング値と少なくとも同程度の大きさ
になるようにすることができる。このように、基本的高
速マツチングは、典型的には、より多(の単語が一般的
に候補単語として選択されるように、各単音のマツチン
グ値を太き(見積る。詳細マツチングに従って候補と考
えられた単語は、基本的高速マツチングも通過する。
第15図に於て、基本的高速マツチングのための単音マ
シーン3000が示されている。ラベル(記号及びフィ
ーニームとも呼ばれる)は、開始時間分布とともに、基
本的高速マツチングの単音マシーン6000に入る。そ
れらの開始時間分布及びラベル系列入力は、前述の単音
マシーンに入るものと同様である。その開始時間は、場
合によっては、複数の時間に亘る分布でないこともあり
、例えば沈黙の間隔に続いている、単音が開始する精確
な時間であることもあることを認識されたい。
しかし、音声が連続的である場合には、開始時間分布を
定義するために終了時間分布が用いられる(以下に詳述
する如く)。単音マシーン3000は、終了時間分布を
発生し、発生された終了時間分布から特定の単音のため
のマツチング値を発生する。或る単語のためのマツチン
グ・スコアは、構成要素の単音、少なくとも単語に於け
る初めのh個の単音のためのマツチング値の合計として
定義される。
第16図は、基本的高速マツチングの計算を行うために
有用な図を示している。基本的高速マツチングの計算は
、開始時間分布(Q)、単音により生じたラベルの数又
は長さ、及び各ラベルykに関連する置換えの値p′y
kのみに関係する・所与の単音マシーンに於ける所与の
ラベルのためのすべての実際のラベル出力確率を、対応
する置換えの値で置換えることにより、基本的高速マツ
チングは、遷移確率を長さ分布確率と置換え、そして実
際のラベル出力確率(所与の単音マシーンに於ける各遷
移について異なることがある)及び所与の時間に於て所
与の状態にある確率を含む必要性を除く。
この点に於て、長さ分布は詳細マツチング・モデルから
決定される。具体的に云えば、その手順は、長さ分布り
の各長さについて、各状態を個々に調べ、そして(、)
特定のラベルの長さが与えられたとき且つ(b)遷移に
沿った出力に関係なく、現在調べられている状態が生じ
ることができる種々の遷移の径路を各状態について決定
することが好ましい。各主題状態へ上記特定の長さを有
するすべての遷移の径路の確率が合計され、それから該
分布に於ける所与の長さの確率を示すために、すべての
主題状態の確率が合計される。上記手順が、各長さにつ
いて反復される。マツチング手順のその好ましい形に従
って、それらの計算は、マルコフ・モデリングの技術分
野に於て知られている如きトレリスに関して行われる。
トレリス構造に沿って分岐を共有する遷移の径路につい
ては、各々の共通の分岐のための計算は、一度だけ行え
ばよく、その計算がその共通の分岐を含む各径路に適用
される。
第16図に於ては、例として、2つの条件が含まれてい
る。第1の条件として、その単音により発生されたラベ
ルの長さは0.1.2、又は3であることができ、各々
1o111.12、及び13の確率を有するものと仮定
されている。又、開始時間も限定されており、各々q□
、Q1、q2、及びq3の確率を有する、4つの開始時
間だけが可能である。これらの条件の下で、次式は、主
題の単音の終了時間分布を次の如く定義する。
Φo””qo’。
Φ1=q110 +qO’1p1 Φ2=q210+q111p2+q012p1p2ψ3
=q310+q211p6+q112p2p3+q01
5p1p2p3ψ4:q311p4+q212p3p4
+q115p2p3p4Φ5”q512p4p5+q2
13”3”4p5(1)6=q313p4p5p6 上記式に於て、Φ3は4つの開始時間の各々に対応する
項を含んでいる。その第1項は、単音が時間t : t
 3に於て開始し、零ラベルの長さを生じる、即ち単音
が同一時間に於て開始しそして終了する、確率を表わし
ている。第2項は、単音が時間t=t2に於て開始し、
ラベルの長さが1であり、そしてラベル6が該単音によ
り生じる確率を表わしている。第3項は、単音が時間1
=11に於て開始し、ラベルの長さが2(即ち、ラベル
2及び3)であり、そしてラペ□ル2及び3が該単音に
より生じる確率を表わしている。同様に、第4項は、単
音が時間t ” t oに於て開始し、ラベルの長さが
3であり、そして3つのラベル1.2、及び3が該単音
により生じる確率を表わしている。
基本的高速マツチングに於て必要とされる計算と、詳細
マツチングに於て必要とされる計算との比較は、前者が
後者よりも簡単であることを示唆さの確率の場合と同様
に、すべての式に於ける各出現について同じであること
に注目されたい。更に、上記の長さ及び開始時間の条件
を用いた場合には、より後の終了時間のための計算がよ
り簡単になる。例えば、Φ6に於ては、単音は時間t=
t3に於て開始する筈であり、その終了時間が適合する
には、すべての6つのラベル4.5、及び6が該単音に
より生じる筈である。
主題の単音のためのマツチング値の発生に於ては、定義
された終了時間分布に沿った終了時間の確率が合計され
る。所望ならば、次式を得るために合計の対数がとられ
る。
マツチング値=log   (Φ +φ・・+の6)前
述の如く、或る単語のためのマツチング・スコアは、特
定の単語に於ける連続する単音のためのマツチング値を
合計することにより容易に決定される。
次に、第17 (a)図乃至第17 (e)図を参照し
て、開始時間分布の発生について述べる。第17(、)
図に於て、単語”THE”1が反復され、構成要素の単
音に分解される。第17(b)図に於ては、ラベル系列
が時間に亘って示されている。第17 (c)図に於て
は、第1の開始時間分布が示されている。第1の開始時
間分布は、最も最近の前の単音(沈黙の”単語゛°を含
むこともある前の単語に於ける)の終了時間分布から引
出される。ラベル入力及び第17 (c)図の開始時間
分布に基き、単音DHのための終了時間分布Φ。Hが発
生される。次の単音UHのための開始時間分布は、前の
単音の終了時間分布が第17 (a)図に於ける閾値(
A)を超えた時間を認識することによって決定される。
閾値(A)は、各終了時間分布について個々に決定され
る。好ましくは、(A)は、主題の単音のだめの終了時
間分布の値の合計の関数である。従って、時間a及びb
の間の間隔は、単音UHのための開始時間分布が設定さ
れる時間を表わす(第17 (e)図参照)。第17 
(e)図に於ける時間C及びdの間の間隔は、単音DH
のための終了時間分布が閾値(A)を超えそして次の単
音の開始時間分布が設定される時間に対応する。開始時
間分布の値は、終了時間分布を標準化することにより得
られ、この標準化は、例えば、各終了時間の値を、閾値
(A)を超える終了時間の値の合計で割ることにより行
われる。
基本的高速マツチングの単音マシーン3000は、AP
ALプログラムを用いたFPS190Lに於て実現され
ている。本明細書の開示に従って、特定の形のマツチン
グ手順を行うために、他のノ・−ドウエア及びソフトウ
ェアを用いてもよい。
(G)音声学的ベースフオームの構築 ベースフオームの形成に用いることができる、1つの型
のマルコフ・モデル単音マシーンは、音声学に基いてい
る。即ち、各単音マシーンは、所与の音声学的音声に対
応する。
所与の単語について、各々に対応する単音マシーンを各
々有している、一連の音声学的音声が存在する。各単音
マシーンは、多数の状態及び状態間の遷移を有し、それ
らの幾つかはフィーニーム出力を生じることができ、他
の幾つか(ナル遷移と呼ばれる)はそれらを生じること
ができない。
前述の如く、各単音マシーンに関する統計は、(、)所
与の遷移が生じる確率、及び(b)特定のフィーニーム
が所与の遷移に於て生じる尤度を含む。好ましくは、非
ナル遷移には、各フィーニームに関連する何らかの確率
が存在する。表1に示されているフィーニーム・アルフ
ァベットには、約200個のフィーニームが存在する。
音声学的ベースフオームの形成に用いられた単音マシー
ンが第4図に示されている。一連のそのような単音マシ
ーンが各単語について設けられている。確率項目の値が
本発明の方法に従って決定される。種々の音声学的単音
マシーンに於ける遷移確率及びフィーニーム確率は、学
習中に、既知の音声学的音声が少なくとも−回発声され
たときに生じたフィーニーム系列を記録し、周知のフォ
ワード・バックワード・アルゴリズムを適用することに
よって決定される。
次に示す表2は、単音DHとして識別された1つの単音
のための統計の1例を示している。
のい− 寸口 !寸さ マロ Δ   (イ)口 1つの近似として、第4図の単音マシーンの遷移tr1
、Lr2、及びtrBが単一の分布により表わされ、遷
移tr3、Lr4、Lr5、及びLr9が単一の分布に
より表わされ、そして遷移tr6、Lr7、及びtrl
oが単一の分布により表わされている。これは、表2に
於て、それらのアーク(即ち、遷移)を各々の列4.5
、又は6に割当てることにより示されている。表2は、
各遷移の確率、及びラベル(即ち、フィーニーム)が単
音DHの始め、中間、又は終りの各々に於て生じる確率
を示している。単音DHについては、例えば、状態S 
かも状態S2への遷移の確率は007243として記憶
されている。状態S1から状態S4への遷移の確率は0
.92757である。(これらは初期状態からの2つだ
けの可能な遷移であるので、それらの合計は1に等しい
。)ラベル出力確率については、単音DHは、該単音の
終りの部分、即ち表2の列6に於てフィーニームAE1
3(表1を参照)を生じる確率0.091を有している
又、表2には、各ノード(即ち、状態)に関連するカウ
ントが示されている。そのノード・カウントは、該単音
が対応する状態に存在した、学習中の回数を示す。表2
に示す如き統計は、各単音マシーンについて見出される
音声学的単音マシーンを単語のベースフオームのシーケ
ンスに配列することは、典型的には、音声学者によって
行われ、通常は、自動的には行われない。
以上に於て、本発明の方法をその実施例について説明し
たが、本発明の範囲を逸脱することな(、他の種々の変
更も可能であることを理解されたい。
F1発明の効果 本発明の方法によれば、好ましくは音声認識の環境に於
て、単語のデコーディングの精度を最大にする方法で、
マルコフ・モデル及び同様なモデルの学習が行われる。
【図面の簡単な説明】
第1図は本発明の方法が実施されている音声認識システ
ムを示すブロック図、第2図は第1図のシステムを更に
詳細に示すブロック図、第6図は不発明の方法の一実施
例に於けるステップを示す流れ図、第4図は1つの音声
学的単音マシーンを示す図、第5図は1つの時間間隔に
於ける第4図の音声学的単音マシーンのトレリスを示す
図、第6図は1つのフィーニーム的単音マシーンヲ示ス
図、第7図は6つの連結したフィーニーム的単音マシー
ンのトレリスを示す図、第8(a)図及び第8(b)図
は代表的確率を含む、連続する3つの音声学的単音マシ
ーンを示す図、第9図は代表的確率を含む、連続する3
つのフィーニーム的単音マシーンを示す図、第10図は
3つの時間間隔に亘る音声学的単音マシーンのトレリス
を示す図、第11図は本発明の方法の一実施例に於ける
ステップを示す流れ図、第12図は確率項目及びカウン
トを示す図表、第13図は単一カウント情報を示す図表
、第14図はトレリスに於ける遷移τ1を示す図、第1
5図は単音マシーンを示す図、第16図は予め定義され
た条件を与えられたときの単音の開始時間及び終了時間
を示す図、第17 (a)図乃至第17 (e)図は連
続する単音に於ける開始時間と終了時間との間の関係を
示す図である。 1000・・・・音声認識システム、1002・・・・
スタック・デコーダ、1004・・・・音響プロセッサ
、1006・・・・アレイ・プロセッサ(近似的高速マ
ツチング・プロセッサ)、1ooa・・・・アレイ・プ
ロセッサ(詳細マツチング・プロセッサ)、1010・
・・・言語モデル、1012・・・・ワーク・ステーシ
ョン、1020・・・・サーチ素子、1022.102
4.1026.1028・・・・インタフェース、12
00.3000・・・・単音マシーン。 出願人  インターナショナル・ビジネス・マン−クズ
・コー示リージョン復代理人 弁理士  澤   1)
  俊   夫第4vA 1つめ層声学的軍音マシーシ to+1 吋閘 第6図 1つのフィーニーム的 第7図 tl    72    t3 第12区 第13図 Iさ パS15図 g本fi”la遠ズッ千ジグのγ二めの第16図 単音の開胎時肉及び−終了時内

Claims (1)

    【特許請求の範囲】
  1. 出力アルファベットから、コミュニケートされた単語入
    力に応答して選択された出力が語彙中の単語にデコード
    され、上記語彙中の各単語が少なくとも1つの確率的有
    限状態モデルのベースフォームにより表わされ、各確率
    的モデルが遷移確率項目と出力確率項目とを有し、そし
    て少なくとも幾つかの確率項目の各々について確率値が
    記憶されるシステムに於て、或る既知単語入力のコミュ
    ニケーションに応答して発生された出力が該既知単語の
    ためのベースフォームにより生じる尤度を、上記の発生
    された出力が他の少なくとも1つの単語のためのベース
    フォームにより生じる各々の尤度に関して、大きくする
    ために、記憶された確率値の少なくとも幾つかにバイア
    スを加えることを含む、確率値の決定方法。
JP62043234A 1986-03-27 1987-02-27 音声認識方法 Granted JPS62231995A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/845,201 US4827521A (en) 1986-03-27 1986-03-27 Training of markov models used in a speech recognition system
US845201 1986-03-27

Publications (2)

Publication Number Publication Date
JPS62231995A true JPS62231995A (ja) 1987-10-12
JPH0372998B2 JPH0372998B2 (ja) 1991-11-20

Family

ID=25294636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62043234A Granted JPS62231995A (ja) 1986-03-27 1987-02-27 音声認識方法

Country Status (5)

Country Link
US (1) US4827521A (ja)
EP (1) EP0240679B1 (ja)
JP (1) JPS62231995A (ja)
CA (1) CA1262188A (ja)
DE (1) DE3778579D1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
GB9116255D0 (en) * 1991-07-27 1991-09-11 Dodd Nigel A Apparatus and method for monitoring
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5615286A (en) * 1995-05-05 1997-03-25 Bell Communications Research, Inc. Method for determining a most likely sequence of states
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
EP0849723A3 (en) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
WO2002001549A1 (en) * 2000-06-15 2002-01-03 Intel Corporation Speaker adaptation using weighted feedback
US6728674B1 (en) 2000-07-31 2004-04-27 Intel Corporation Method and system for training of a classifier
US6788243B2 (en) 2001-09-06 2004-09-07 Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence Hidden Markov modeling for radar electronic warfare
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7143073B2 (en) * 2002-04-04 2006-11-28 Broadcom Corporation Method of generating a test suite
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
CN109473093B (zh) * 2018-12-13 2023-08-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
US11664044B2 (en) 2019-11-25 2023-05-30 Qualcomm Incorporated Sound event detection learning
US11410677B2 (en) 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
US4383135A (en) * 1980-01-23 1983-05-10 Scott Instruments Corporation Method and apparatus for speech recognition
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4520500A (en) * 1981-05-07 1985-05-28 Oki Electric Industry Co., Ltd. Speech recognition system
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system

Also Published As

Publication number Publication date
US4827521A (en) 1989-05-02
JPH0372998B2 (ja) 1991-11-20
EP0240679A1 (en) 1987-10-14
EP0240679B1 (en) 1992-04-29
DE3778579D1 (de) 1992-06-04
CA1262188A (en) 1989-10-03

Similar Documents

Publication Publication Date Title
JPS62231995A (ja) 音声認識方法
CN110603583B (zh) 语音识别系统和用于语音识别的方法
JP2543148B2 (ja) 音声認識装置を学習させる装置
US5502791A (en) Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US5621859A (en) Single tree method for grammar directed, very large vocabulary speech recognizer
US5515475A (en) Speech recognition method using a two-pass search
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
US4882759A (en) Synthesizing word baseforms used in speech recognition
JPH0581918B2 (ja)
US20140025379A1 (en) Method and System for Real-Time Keyword Spotting for Speech Analytics
EP0706171A1 (en) Speech recognition method and apparatus
US8494847B2 (en) Weighting factor learning system and audio recognition system
JPH02273795A (ja) 連続音声認識方法
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
US5764851A (en) Fast speech recognition method for mandarin words
JPH08211889A (ja) 木構造を用いたパターン適応化方式
JP2002358097A (ja) 音声認識装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP2005091504A (ja) 音声認識装置
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
Digalakis et al. Continuous Speech Dictation on ARPA's North American Business News Domain