JPS62231993A

JPS62231993A - 音声認識方法

Info

Publication number: JPS62231993A
Application number: JP61065030A
Authority: JP
Inventors: 黒田　明裕; 雅史西村; 菅原　一秀
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-03-25
Filing date: 1986-03-25
Publication date: 1987-10-12
Also published as: EP0243009A1; CA1256562A; US4829577A; DE3773039D1; JPH0355837B2; EP0243009B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野この発明はマルコフ・モデルを利用した音声認識方法に
関し、とくに話者適応を簡易に行えるようにしたもので
ある。

Ｂ、従来の技術マルコフ・モデルを利用した音声認識は確率的な観点か
ら音声の認識を行おうとするものである。

たとえばそのうちの１つの手法では単語ごとにマルコフ
・モデルが設定される。通常このマルコフ・モデルには
複数の状態と、これら状態の間の遷移が規定され、これ
ら遷移にはその生起確率と、その遷移においてラベル（
シンボル）を出力する確率とが割り当てられる。未知入
力音声はラベルの系列に変換され、こののち単語マルコ
フ・モデルの各々がこのラベル系列を生成する確率を、
上述の遷移生起確率およびラベル出力確率（以下これら
をパラメータと呼ぶ）に基づいて決定し、ラベル生成確
率が最大となる単語マルコフ・モデルを求める。そして
この結果に基づいて認識を行う。

このマルコフ・モデルを利用した音声認識では、パラメ
ータを統計的に推定することができ、このため認識精度
を向上させることができる。

なお、この認識手法については以下の論文に詳細が記載
されている。

（１）　　“Ａ　Ｍａｘｉｍｕｍ　Ｌｉｋｅｌｉｈｏｏ
ｄ　Ａｐｐｒｏａｃｈｔｏ　Ｃｏｎｔｉｎｕｏｕｓ　５
ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　”（Ｉ　ＥＥＥ
　　Ｔｒａｎｓａｃｔｉｏｎｓ　　ｏｎ　Ｐａｔｔｅｒ
ｎＡｎａｌｙＳｉｓ　ａｎｄ　Ｍａｃｈｉｎｅ　　Ｉｎ
ｔｅｌｌｉｇｅｎｃｅ。

ＰＡＭＩ−５巻、２号、ｐｐ、１７９−１９０．１９８
３、Ｌａ１ｉｔ　　ＲＢａｈ１％ＦｒｅｄｅｒｉｃｋＪ
ｅｌｉｎｅｋおよびＲｏｂｅｒｔ　Ｌ、Ｍｅｒｃｅｒ）
（２１’　Ｃｏｎｔｉｎｕｏｕｓ　５ｐｅｅｃｈ　Ｒｅ
ｃｏｇｎｉｔｉｏｎｂｙ　　５ｔａｔｉｓｔｉｃａｌ　
　Ｍｅｔｈｏｄｓ”（Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　
　ｔｈｅ　　Ｉ　ＥＥＥ　　６４巻）１９７６、ｐｐ、
５３２−５５６、ＦｒｅｄｅｒｉｃｋＪｅｌｉｎｅｋ）（３）　　”　Ａｎ　　Ｉｎｔｒｏｄｕｃｔｉｏｎ　　
ｔｏ　　ｔｈｅＡｐｐｌｉｃａｔｉｏｎ　　ｏｆ　　ｔ
ｈｅ　　Ｔｈｅｏｒｙ　　ｏｆＰｒｏｂａｂｉｌｉｓｔ
ｉｃ　Ｆｕｎｃｔｉｏｎｓ　ｏｆ　ａ　ＭａｒｋｏｖＰ
ｒｏｃｅｓｓ　　ｔｏ　　Ａｕｔｏｍａｔｉｃ　　Ｓｐ
ｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ”（Ｔｈｅ　　Ｂｅ　
１１　　Ｓｙｓ　ｔｅｍＴｅｃｈｎｉｃａｌ　　Ｊｏｕ
ｒｎａｌ　　６４巻、４号、１９８６．４月、Ｓ、Ｅ、
Ｌｅｖｉｎｓｏｎ、　Ｌ、Ｒ，ＲａｂｉｎｅｒおよびＭ
、Ｍ、５ｏｎｄｈｉ）ところでマルコフ・モデルを利用した音声認識では学習
用に膨大な量の音声データが必要であり、また学習を行
うのにも多くの時間を必要とする。

しかも所定の話者の音声データで学習を行ったシステム
では他の話者の認識精度が十分ではない場合が多い。ま
た、同一話者であっても、学習時と認識時との間にかな
りの時間を置き、そのため環境が異なってしまうと、認
識精度が低下する。

Ｃ０発明が解決しようとする問題点この発明は以上の事情を考慮してなされたものであり、
一旦学習を行ったシステムを、学習時と異なる環境に適
応化させることができ、しかもその適応化を比較的簡易
に行うことかできる音声認識方法を提供することを目的
としている。

Ｄ９問題点を解決するための手段この発明では、以上の目的を達成するために、初期の学
習時にマルコフ・モデルのパラメータを推定するのに用
いたイベントの頻度を保持してお（。つぎに適応化用デ
ータについてマルコフ・モデルのパラメータを参照して
適応化用データのイベントの頻度を求める。そして以上
の２種類のイベントの頻度の双方を利用して新しいパラ
メータを推定するようにしている。

一例として第２図に示すトレリスを考えよう。

第２図において横軸は時間経過を示し、縦軸はマルコフ
・モデルの状態を示す。入力ラベル系列は時間軸にｆ３
５　ｗ　　　ｗ　　・・・Ｗｔである。フル１嘱　　　
２コツ・モデルの状態は時間の経過にともなって初期状態
Ｉから最終状態Ｆへと種々のパスに沿って変化していく
。図の破線はパスの全体を示す。この場合ｉからｊへ状
態が遷移し、しかもこの際ラベルｋを出力する頻度Ｃ＊
（’％　Ｊｓ　ｋ　）、すなわち第２図の矢印で示すパ
スを通ってｋを出力する頻度をパラメータＰ（ｉ、Ｊｌ
ｋ）から求めることができる。ただしＰ（ｉｓ　　Ｌ　
ｋ）は１からｊへ遷移し、しかもｋを出力する確率であ
る。他方マルコフ・モデルが状態ｉにある頻度Ｓ＊（ｉ
　）すなわち括弧で示す時点で状態１にある頻度はＣ＊
（ｊ）ｊｘｋ）の和をＪおよびｋについて求めれば得る
ことができる。そして頻度Ｃ＊（ｉ、　　ｊ、　ｋ）お
よびＳ　　（ｉ）の性質から、新たなパラメータＰ′（
１％　ｊ、ｋ）をの推定式から得ることができる。

このような推定を繰り返していけば、学習データを正確
に反映したパラメータＰ。（ｆｘ　　ｊ％ｋ）を得るこ
とができる。なおゼロのサフィックスは学習完了時の値
であることを示す。したがってＳ。、Ｃ＊は学習完了時
の頻度を表わす。

この発明では適応化を行うのに、パラメータＰ。

（１％　　Ｊ、ｋ）を用いて適応化用音声データに関す
る頻度Ｃ＊（ｉ、ｊ、ｋ）およびＳ１＊（１）を求める
。そしてつぎの式を用いて適応化後の新たなパラメータ
Ｐ１い、ｊ、ｋ）を得るようにする。

ただし０くλく１すなわち推定を行うのに必要な頻度を補間により求めて
いるのである。このようにすると初期学習で得たパラメ
ータＰ。（ｉ、１％　ｋ）を異なる環境下の認識に適応
化させることができる。

またこの発明ではｃ　　＊＝Ｐ　（ｌ、Ｌ　ｋ）・Ｓ＊
（ｉ）Ｐであることを利用してＰｌ（１、ｊ、ｋ）の推定を行うようにしてもよい。この場合頻度Ｃ＊（１
％　ｊｓ　ｋ）を保持しておく必要がなくなる。

また初期学習データと適応化用データとが大幅に異なる
場合にはＰ。（ｒｓ　　Ｊ、ｋ）にかえてつぎのものを
利用するとよい。

（１−μ）ＰＯ（ｆｘ　ｊｓ　ｋ）＋μｅ　　　ｏ≦μ
≦１ここでｅは所定の小さな定数であり、実際は１／（
ラベルの数）Ｘ（分岐の数）である。

なお以下の実施例ではマルコフ・モデルの確率パラメー
タとして１の状態から１の状態に遷移するときに１のラ
ベルを出力する確率を用いる場合につき説明するが、状
態遷移生起確率と、ラベル出力確率とを個別のパラメー
タとして用いる場合にもこの発明を適用できる。

Ｅ、実施例以下この発明を単語音声認識に適用した一実施例につい
て図面を参照しながら説明しよう。

第１図はこの実施例を全体として示すものであり、この
第１図において、入力音声データはマイクロホン１およ
び増幅器２を介してアナログ・デジタル（Ａ／Ｄ　）変
換器３に供給され、ここでデジタル・データとされる。

デジタル化された音声データは特徴ｌ抽出装置４に供給
される。特徴ｌ抽出装置４はたとえばフローティング亀
ポイント・システムズ社製のアレイプロセッサとするこ
とができる。この特徴量抽出装置４においては、まず音
声データが離散フーリエ変換されたのち２０チャネル分
のバンド・パス・フィルタのそれぞれの出力として取り
出される。この出力は１０ｍ秒ごとに２０ｍ秒のウィン
ドウを介して次段のラベル付は装置５に送出される。ラ
ベル付は装置５はラベル・プロトタイプ辞書６を参照し
て順次ラベル付けを行っていく。なお辞書６のラベルｅ
プロトタイプはクラスタリングにより生成されたもので
あり、その個数は１２８である。

ラベル付けはたとえば第３図に示すように行われる。第
６図においてＸは入力の特徴量、Ｙ、は第１番目のプロ
トタイプの特徴量、Ｎはプロトタイプの個数（＝１２８
）、ｄｉｓｔ　（Ｘ、　Ｙ、　）はＸとＹ、とのユーク
リッド距離、ｍは各時点までのｄｉｓｔ（Ｘ％　Ｙ、）
の最小値である。なおｍは非常に大きな値ＶＫ最初設定
される。図から明らかなように入力の特徴量Ｘはプロト
タイプの特徴量の各々と順次比較されていき、最も似て
いる、すなわち距離の小さいものが観測されたラベル（
ラベル番号）Ｐとして出力されていく。

このようにしてラベル付は装置５からは、ラベル間の間
隔が１０ｍ秒のラベル系列が出力されていく。

ラベル付は装置５からのラベル系列は切換装置７を介し
て学習装置８、適応化装置９および認識装置１０のいず
れか１つに供給される。学習装置８および適応化装置９
の動作の詳細についてはのちに第４図以降の図を参照し
て説明する。初期学習時には切換装置７が学習装置８が
わに切シ換わってラベル系列を学習装置８に供給する。

学習装置８はラベル系列を利用してマルコフ・モデルの
学習を行いパラメータ・テーブル１１のパラメータ値を
決定する。適応化を行う際には切換装置７が適応化装置
９がわに切り換わり、適応化装置９がラベル系列を利用
してパラメータ・テーブル１１のパラメータ値を適応化
する。認識を行う際には切換装置７が認識装置１０がわ
に切り換わり、認識装置１０はラベル系列とパラメータ
・テーブルとに基づいて入力音声の認識を行う。この認
識装置１０はフォワード計算またはビタービφアルゴリ
ズムに基づくものとすることができる。これらアルゴリ
ズムの詳細については前述の論文（２）を参照されたい
。

認識装置１ｏの出力はワークステーション１２に供給さ
れ、たとえばその表示装置に表示される。

なお第１図において破線のブロックで囲まれた部分は実
際にはホストコンピュータ上にソフトウェアとして実現
されている。ホストコンピュータ上シてはＩＢＭ社の３
０８３処理装置、オペレーション・ンステムとしてはＣ
ＭＳ、言語としてはＰＬ／１を用いた。もちろん、ハー
ドウェアで実現してもよい。

つぎに学習装置８の動作の詳細について説明する。

第４図は初期学習の手順を示すものであシ、この図にお
いて、まず単語マルコフΦモデルの各々について規定を
行う（ステップ１６）。この例では単語の個数を２００
としている。単語マルコフ・モデルは第５図に示すよう
なものである。この図では黒のドツトが状態の各々を示
し、矢印が遷移の各々を示している。状態の個数は初期
状態工および最終状態Ｆを含めて８である。遷移の種類
としては、隣りの状態への遷移ｔＮ、１つ状態をステッ
プする遷移ｔＳおよび同一の状態をループする遷移ｔＬ
の３つがある。単語のラベル数は約４０〜５０個であり
、単語のラベル系列はループやステップを加味しながら
初期状態■から最終状態Ｆへとマツチングさせられてい
く。

単語マルコフ・モデルの規定は第１図のパラメータ・テ
ーブルを暫定的に確立することである。

具体的には第６図に示すようなテーブル・フォーマット
を各単語ごとに割シ当て、そののちパラメータＰ（ｉ、
Ｌ　　ｋ）の初期設定を行う。なおパ５Ｊ−夕Ｐ（ｉ％
　１％　ｋ）はマルコフ・モデルにおいて状態ｉからＪ
への遷移が起こり、かつこの遷移時にラベルｋが出力さ
れる確率を表わす。また初期設定では隣りへの遷移、ル
ープ遷移およびスキップ遷移がそれぞれ０．９　：　０
．０５　：　０．０５で起こり、かつ各遷移でラベルは
均等にすなわち１／１２８の割合いで出力されるものと
して、各パラメータを設定している。

単語マルコフ・モデルの規定ののち、初期学習用データ
を入力する（ステップ１４）。この初期学習用データは
認識対象語業の２００個の単語をそれぞれ５回ずつ発声
して得たものである。同一の単語についての５回の発声
は１まとめにされており、かつ発声の各々はどの単語の
何番目のものかがわかるようにされている。ここでは具
体的な１つの単語の発声の集合をＵ＝（ｕｌ、ｕ２、・
・・、ＵＳ）で表わし、発声の各々ｕｎをｕｎ＝Ｗｎ１
”　　ｎ２・・・Ｗｎｔｎで表わすことにしよう。

なおＷ　・・・は観測ラベルを表わす。

初期学習用データの入力が終了すると、つぎにフォワー
ド計算およびバックワード計算を行う（ステップ１５）
。以下の手順はすべて単語について行われるが、ここで
は便宜上１つの単語の発声の集合Ｕについてのみ考える
こととする。フォワード計算およびバックワード計算は
つぎのようなフォワード値ｆ（＋、ｘ％　ｎ）およびバ
ックワード値ｂ（ｉ、ｘ、　　ｎ）を計算するものであ
る。

ｆ（ｉ、ｘ、ｎ）ニラベル系列Ｕ　に対し時刻Ｏで初期
状態■から始まって時刻Ｘに状態ｌに到る頻度ｂ（！、Ｘ％　　ｎ）ニラペル系列Ｕ　に対し時刻ｔ　
で最終状態Ｆから始まって時刻Ｘに状態ｉに戻る頻度フォワード計算およびバックワード計算はつぎのような
式により順次簡易に求めることができる。

１≦Ｘ≦ｔ　の場合ｆい、ｘ、ｎ）＝Σ（ｆ　（ｉ　−に、　ｘ−１、ｎ）
・に＝ＱＰｔ、（ｉ−に、ｉ、ｗｎｘ月ただい　Ｐｔ−１はそのときパラメータ・テーブルにス
トアされているパラメータであ５．にはマルコフ・モデ
ルにより決まり、ここではに＝０．１．２である。

バンクワード計算ｘ　＝ｔ　　の場合ｂ（ｉ、ｊ、ｎ）Ｏ≦ｘ　（Ｌ　　の場合ｂ（ｉ、ｘ、ｎ）＝Σ（ｂ（ｉ＋に、　ｘ−１−１、ｎ）・Ｐ−（１１１
＋に、ｗｎｘ＋１））ｋ＝Ｏｔ１タタｌ、Ｅはマルコフ・モデルの状態数である。

フォワード計算およびバックワード計算が終了すると、
つぎにラベル列ｕｎのフォワード値ｆ（ｉ、ｘ、ｎ）お
よびバックワード値ｂ（ｉ、Ｘ１ｎ）に基づいてラベル
列Ｕ　において状態ｉからＪに遷移して、しかもラベル
ｋを出力する頻度ｃｏｕｎｔ　（１，３％に％ｎ）を求
める（ステップ１６）。頻度ｃｏｕｎｔ　（ｉ、ｊ、に
、ｎ　）はつぎの式から求めることができる。

ｃｏｕｎｔ（ｉ、ｊ、に、ｎ）・Ｐ　ｔ−１（５コ、”ｎｘ）上式は第７図を参照して容易に理解することができる。

第７図はこの実施例の単語マルコフ・モデルにラベル列
ｕ　（”Ｗｎｌ”ｎ２・・・Ｗｎｔｎ　）をマツチング
させた際のトレリスを示す。時間に沿って、（Ｗ　　）
も表示されている。丸で囲まｎ　　　　　　ｎ　ＸれたＷ　はｗ　　　＝にすなわちδ（ｗｋ）＝１ｎｘ　
　　　　　ｎｘ　　　　　　　　　　　　　　　　　　
　　ｎｘ。

の場合を示す。そして矢印の付されたラベルＷ。Ｘの観
測時点Ｘで、状態ｉ（第７図では状態３）からｊ（同４
）に遷移するバスを考えることにする。

第７図ではこのバスｐの両端の格子点を黒丸で示した。

この場合バスｐでマルコフ・モデルかに−Ｗ　　を出力
する確率はＰ　　　（ｉ、ｊ、ｗ　　）ｎｘｔ−１ｎｘである。また破線ｆで示すように初期状態Ｉから状態！
、時刻（Ｘ−１）の黒丸の格子点まで到る頻度はフォワ
ード値ｆ（ｉ、ｘ−１、ｎ）で表わされ、他方破線すで
示すように最終状態Ｆから状態ｊ、時刻Ｘの黒丸の格子
まで戻る頻度はバックワード値ｂ（ｊ、ｘ、ｎ）で表わ
される。したかってパスｐでに＝ｗ　　ｆ出力する頻度
はＸｆ（ｉ、ｘ−１、”）・ｂ（ｊｓ　”ｓ　ｎ）”Ｐｔ　
１（１％　ｊ％Ｗｎρである。ｃｏｕｎｔ　（ｉ、ｊ、
に、ｎ　）は丸印の付されたラベルについて頻度の和を
とったものであり（δ（ｗ、ｋ）の操作がこれに対応す
る）、Ｘ上述の式で表わされることがわかる。すなわちｃｏｕｎ
ｔ（ｉ、４％に、ｎ）＋＋ｂ（ｊ、　ｘ、　ｎ）＊Ｐ、　　、（ｔ、　ｊ、ｗ
ｎρ）である。

ラベル系列ｕ（ｎ＝１〜５）のそれぞれの頻度ｃｏｕｎ
ｔ　（ｉ、ｊ、に、ｎ　）を得たら、つぎにラベル系列
の集合Ｕすなわち所定単語の字書用データ全体くわたる
頻度”ｔ（’ｓ　　４％　’ｋ　）を求める（ステップ
１７）。なお、ラベル系列Ｕ　はそれぞれ異なシ、ラベ
ル系列Ｕ　の各々が生起する頻度（総合確率Ｔ　）も異
なる。したがって頻度ｃｏｕｎｔ　（！、Ｊｌに％ｎ）
を総合確率Ｔ　で正規化しておく必要がある。なおＴ　
　＝ｆ（Ｅ、ｔ。

ｎ　　　　　　　　　　　　　　　ｎｎ）である（ただしＥ＝８）。

対象単語の学習用データにわたる頻度Ｃｔ　（Ｉ、Ｊ％
ｋ）はで求める。

つぎに頻度ｃｏｕｎｔ　（ｉｓ　　ｊｓ　ｋ％　ｎ）に
基づいて、対象単語の学習用データにわたって状態ｉに
ある頻度Ｓ　ｔ　（ｉ）を、同様にして求める（ステッ
プ１８）頻度Ｃｔ（’ｓ　　４％　ｋ）およびＳ　ｔ　（ｉ　）
からつぎのパラメータＰｔ−Ｈ（１％　４％　ｋ）をつ
ぎのように推定する（ステップ１９）。

以上の推定プロセスすなわちステップ１４〜１９までは
予定回数たとえば５回繰り返して対象単語の学習を終了
する（ステップ２０）。他の単語についても同様の学習
が行われる。

学習が終了すると、以降の音声認識用に最終的なパラメ
ータＰＯ（１％　　Ｊ％　ｋ）がパラメータ・テーブル
（第１図）に確定され、また最終回の推定に用いた頻度
Ｓ。（ｉ）もストアされる。この頻度Ｓ。（ｉ）は以下
述べる適応化に用いるものである。

つぎに適応化装置９の動作について第８図を参照しなが
ら説明しよう。なお第８図において第４図と対応する箇
所には対応する符号を付してそれぞれの詳細な説明は省
略することにする。

第８図においては、まず適応化用のデータを入力する（
ステップ１４Ａ）。この適応化用データは、これから音
声を入力しようとしている話者が認識対象語粟について
１語に１回発声を行って得たものである。こののちステ
ップ１５Ａ〜１８Ａに示すように前述の学習時と同様の
操作を行っていく。そして最後に、推定に用いる２つの
頻度をそれぞれ補間により求め、つぎのようにして新た
なパラメータＰ１（１％　　４％　ｋ）ｔ−得る（ステ
ップ２１）。

ただし０≦λ≦１この例では適応化のための推定のプロセスを一度とした
が複数回行ってもよい。なお、実際にはＣ（ｉ、　ｊ、
　ｋ）＝Ｐｏ（ｉ、　ｊ、　ｋ）・Ｓ　ｏ　（ｔ　）で
あるからｐ　１（ｒ、ｊ、ｋ）の推定にはつぎの式を用
いる。

Ｐｌ（１％ｊ％ｋ）なお第８図のｃｏｕｎｔ　（ｔ、ｊ、に％　ａ　）のａ
は適応化用データのラベル系列に関するものであること
を示す。

以上で適応化を終了する。こののち適応化の対象となっ
た話者の音声は高精度に認識される。

この実施例によれば少ないデータのみでしかも短かい学
習時間でシステムを異なる環境に適応化させることがで
きる。

また適応化用のデータの性質（信頼度等）に応じて補間
の内分比λを調整することにより、システムの最適化を
実現することができる。

なおマルコフ・モデルの状態数をＸ１分岐数をＹｌ　ラ
ベル数ｆｔＺとすると５（ｉ）によるデータの増加量は
Ｘ個である。他方Ｐ。（Ｉｓ　Ｊ、ｋ）のデータの量は
ＸＹＺである。したがってこの適応化にい。

また適応化のプロセスは初期学習のプロセスと同一の部
分が多いのでプログラムまたはハードウェアの一部を両
プロセスで共用できる利点がある。

また単語単位に適応化を行うことができるので、たとえ
ば誤認識のあった単語について再度適応化を行うように
できる。もちろん誤認識があってはじめてその単語の適
応化を行うようにしてもよい。

つぎに上述実施例の変形例について説明しよう。

この変形では初期学習用データと適応化用データの性質
が大幅に異なる場合に対処することができる。

第９図はこの変形例における適応化プロセスを示すもの
である。なお、この図において第８図と対応する箇所に
は対応する番号を付してそれぞれの詳細な説明を省略す
る。

第９図の変形例では、適応化用データで新たな頻度ｃ１
（ｔ、Ｌ　ｋ）および５１（１）を求める際にパラメー
タＰ。（１％　ｊ、ｋ）をつぎのように補間するように
している（ステップ２２）。

札（＋、　ｊ％ｋ）＝ｃ（１−μ）ｐｏ（ｔ、　ｊｓ　
ｋ）＋μｅすなわちパラメータＰ□（ｊ、ｊｓ　ｋ）と
小さな値ｅとを内分比μで補間したものを用いている。

適応化の際の学習プロセスでも、パラメータが実際の値
にどの程度良好に収束するかは、初期値に大きく依存す
る。初期学習時に起こることが少な）たパスが、適応化
用データでは多数起こることもあシ得る。このような場
合小さな値ｅをパラメータＰ。（ｉｚ　ｊ、ｋ）に加算
しておけば、より好ましい収束が起こる。

Ｆ０発明の詳細な説明したように、この発明によれば少ないデータで、
しかも短かい時間で音声認識システムの適応化を行うこ
とができる。またそのだめの記憶容量や、プログラムの
ステップ数およびハードウェア構造の増加は極めて小さ
い。また適応化のデータの性質に応じて補間の内分比を
変化させることによシシステムを最適化させることがで
きる。

【図面の簡単な説明】

第１図はこの発明の一実施例を示すブロック図、第２図
はこの発明を説明するだめの図、第５図は第１図例のラ
ベル付は装置５を説明するフローチャート、第４図は第
１図例の学習装置８の動作を説明するフローチャート、
第５図、第６図および第７図は第４図の動作の流れを説
明するための図、第８図は第１図例の適応化装置の動作
を説明するための図、第９図は第１図例の変形例を説明
するフローチャートである。８・・・・学習装置、９・・・・適応化装置。出願人　インタサ砿し・ビジネス・マツ−２ズ・コーポ
レーション復代理人　弁理士　　澤　　　１）　　俊　
　　夫時間（１〜１）第２にＬ第５図Ｆ　　０−−−−　　°−−−　　　　　、、−夕ω１
″＋２　　　　　　　　　　　　″Ｉｎ第７図、７’＋、　８　：’：

Claims

【特許請求の範囲】

（１）複数の状態、これら状態の１つから同一または他
の状態の１つへの遷移およびこれら遷移の各々において
ラベルの各々を出力する確率を有する確率モデルを、認
識単位ごとに設定するステップと、上記認識単位ごとに、対応する初期トレーニング用音声
データを入力してラベルの系列を生成するステップと、上記ラベルの系列を、対応する上記確率モデルに繰り返
し入力して上記確率を順次更新するステップであつて、
つぎのサブ・ステップを含むものと、（ａ）上記ラベルの系列を、対応する上記確率モデルに
入力したときに上記遷移の各々において上記ラベルの各
々が出力される第１の頻度を求めるサブ・ステップ、（ｂ）上記ラベルの系列を、対応する上記確率モデルに
入力したときに上記状態の各々がとられる第２の頻度を
求めるサブ・ステップと、（ｃ）上記第１の頻度を第２の頻度で割つて新たな確率
を得るサブ・ステップ、上記確率を順次更新するステップで最後に得られた上記
第１の頻度および第２の頻度を保持するステップと、上記認識単位ごとに、対応する適応化用音声データを入
力して第２のラベルの系列を生成するステップと、上記第２のラベルの系列を、対応する上記確率モデルに
入力したときに上記遷移の各々において上記ラベルの各
々が出力される第６の頻度を求めるステップと、上記第２のラベルの系列を、対応する上記確率モデルに
入力したときに上記状態の各々がとられる第４の頻度を
求めるステップと、上記第１の頻度および第３の頻度を補間して第５の頻度
を得るステップと、上記第２の頻度および第３の頻度を補間して第６の頻度
を得るステップと、上記第５の頻度を第６の頻度で割つて適応化用音声デー
タに適応化された確率を得るステップとを有する音声認
識方法。
（２）上記第１の頻度は上記確率および第２の頻度の積
として間接的に保持される特許請求の範囲第１項の記載
の音声認識方法。
（３）上記適応化用音声データを入力する上記確率モデ
ルの確率は平滑化処理が行われている特許請求の範囲第
１項または第２項記載の音声認識方法。