JPS63259697A

JPS63259697A - 音声認識方法

Info

Publication number: JPS63259697A
Application number: JP63078322A
Authority: JP
Inventors: ステファン　エリオット　リビンソン
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1987-04-03
Filing date: 1988-04-01
Publication date: 1988-10-26
Also published as: EP0285353A2; ES2047029T3; SG22094G; DE3886080T2; HK107994A; AU1404288A; EP0285353A3; DE3886080D1; US4852180A; CA1336207C; AU596510B2; EP0285353B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（発明の背景）［産業上の利用分野］本発明は音声認識システムに関し、特に、話者独立形式
のこの種の音声認識システムに関する。

［従来技術の説明コ音声処理領域においては音声認識は３つの総括的な種類
の問題の最も困難なものであるということか一般的に認
識されている。もちろん音声の符号化は今までにおいて
最も商業的な種類の音声処理装置であり、そして、音声
合成用のなんらかの商業的な装置も存在する。

それにもかかわらず、音声認識問題ば非常に手に負えな
いものである。大部分の認識システムはその能力が相異
なる話者からの音声を認識したり、極めて焦点を絞った
、すなわち、タスク指向の環境で極めて制限されたＭ素
置上を認識する能力において制限されていた。連続音声
認識を可能にする音声認識システムを持つことは望まし
いことであるということも広く認識されている。

最近、数ワードを基礎とする連続音声認識システムか製
作されている０例えば、この製作された１つのシステム
はエム、アール、シュロータ、イーデー、カルガー、ペ
ースト　スイッツアラント（Ｍ、Ｒ，５ｃｈｒｏｅｄａ
ｒ、　　Ｅｄ、、Ｋａｒｇａｒ、　　ＢａｓｅｄＳｗｉ
ｔｚｅｒｌａｎｄ）よりの「スピーチ　アンド　スピー
カー　レコクニション（Ｓｐｅｅｃｈ　　ａｎｄ　　５
ｐｅａｋａｒ　　Ｒｅｃｏｇｎｉｔｉｏｎ）Ｊ、１４９
−９６ページ、１９８５年、におけるニス、イー。

レビンソン（Ｓ、Ｅ、Ｌｅｖｉｎｓｏｎ）及びエル、ア
ール、ラビナー（Ｌ、Ｒ，Ｒａｂｉｎａｒ）による「ア
　タスク−オリエンテッド　カンパセーショナル　モー
ト　スピーチ　アンダスタンディング　システム（Ａ　
　Ｔａ５ｋ−Ｏｒｉａｎｔｅｄ　　Ｃｏｎｖｅｒｓａｔ
ｉｏｎａｌ　　Ｍ。

ｄｅ　　５ｐｅｅｃｈ　　Ｕｎｄｅｒｓｔａｎｄｉｎｇ
　　Ｓｙｓｔｅｍ）Ｊにより記載されたシステムである
。このシステム及び最近開発された他の類似のシステム
は第１にワードに基づくものである。これらのシステム
は特定の限定された方法で正確に音声を認識することは
成功したか、基本的な音響パターンとしてのワードの使
用は広い語愛にわたって多くの話者の流暢な講演を受は
入れられるように、現在の動作規制条件を緩和する可能
性を除去してしまう。

ワードベースのこの試みに対してしばしば示唆される代
替方法は短期間の比較的わずかの音声単位くすべてのワ
ードはこの単位で構成することができる）が測定可能な
音響的な特徴により規定されるいわゆる音響（ａｃｏｕ
ｓｔｉｃ）／音声（ｐｈｏｎｅｔｉｃ）方法である。一
般的に言えば、この方法に基づく音声認識は３つのステ
ップで起こる。第１に、音声信号はその構成要素の音声
（ｐｈｏｎｅｔｉｃ）単位に分割され、この構成単位は
更にそれらの測定可能な音響的な（ａｃｏｕｓｔｉｃ）
特徴に基づいて分類される。第２に、その音声単位はそ
の選択された音声単位の点ですべての語嚢のワードを記
載する辞書を部分的に使用してなんらかのベースでワー
ドを形成するように組み合される。第３に、このワード
は何らかの文法仕様にしたかって文を形成するように組
合される。

この基本的な方法論のまったく異なる具体例のいくつか
は、上記の構成要素とは若干異なっても文献で見つける
ことがてきる０例えば、１９７５年２月の［アイイーイ
ーイー　トランズアクションズ　オン　アクーステイク
ス、スピーチ　アンド　シフナル　ブロセシンク（ＩＥ
ＥＥ　　Ｔｒａｎｓａｃｔｉｏｎｓ　　ｏｎ　　Ａｃｏ
ｕｓｔｉｃｓ、５ｐｅｅｃｈ　　ａｎｄ　　Ｓｉｇｎａ
ｌ　　Ｐｒｏｃｅｓｓｉｎｇ）Ｊ、Ｖｏｌ、ＡＳＳＰ−
２３、Ｎｏ、１．１９７５年２月、ｐｐ、２〜ｉ。

においてダブリュ、エイ、ウッズ（Ｗ、Ａ、Ｗ。

ｏｄｓ）による「モチベーション　アント　オーバービ
ュー　オン　スピーチリス：アン　エクスベリメンタル
　プロトタイプ　フォー　スピーチアンタースタンディ
ング　リサーチ（Ｍｏｔｉｖａｔｉｏｎ　　ａｎｄ　　
Ｏｖｅｒｖｉｅｗ　　ｏｆＳＰＥＥＣＨＬＩＳ：　　Ａ
ｎ　　Ｅｘｐｅｒｉｍｅｎｔａｌ　　Ｐｒｏｔｏｔｙｐ
ｅ　　ｆｏｒ　　５ｐａｅｃｈ　　　Ｕｎｄｅｒｓｔａ
ｎｄｉｎｇ　　　Ｒｅ５ｅａｒｃｈ）Ｊの論文を参照、
これらのシステムはすべて非常に複雑なものであって、
これらのシステム中に上に概略した基本構成要素は時く
は変形した構成で存在する。これらの全システムかすべ
ての統語論及びすべての語嚢に関して完全に取扱い可能
であるとは限らないということはそれらか使用の点で非
常に制限される（例えば、タスク指向であって、例えば
１月の石のサンプル情報の検索）ということを意味する
。

従って本発明の目的は、すべての文法及び辞書及びすべ
ての話者を包括する能力が強大で、容易に拡張可能とな
るように方法的に組織化されているシステムを提供する
ことである。

本発明の更に他の目的は容易に、しかも複雑ないわゆる
動的時間歪曲（ｔｉｍｅ−ｗａｒｐｉｎｇ）技術なしに
音声の期間的な変動を扱うようなシステムを提供するこ
とである。

（発明の概要）本発明によれば、上記の種類の音＃／音声認識方法は、
各ステップか発声の波形から得られる音声期間情報及び
音声符号候補のアレイのそれぞれのメンバーに関する尤
度信号（ｌｉｋｓｌｉｈ。

ａｄ　　ｓｉｇｎａｌ）及び候補ワードのアレイのそれ
ぞれのメンバーに関する尤度信号に正しく応答するよう
になっている。

更に、本発明の非常に重要な特徴によれば、候補ワード
の間での適切なワードを選択する能力は、候補ワードア
レイのそれぞれのメンバーを、発声の対応部分を表す音
響的な特徴信号と比較し、配列することにより改善され
る。

このワード選択プロセスの出力は各ワードごとの最良の
候補のみからなり、これらの候補は最初に述べた最終文
選択ステップに入力される。一般的に、各ワードごとの
いくつかの候補を文選択ステップに入力することは必要
である。これは、特に英語におけるワードの最終的な不
明確さか文の形成に関係する文法的な規則によってのみ
解決できるからである。やはり句及び文を形成するため
に文法の規則を適用する、従来提案された技術のどれも
かこの装置の最終部分では利用することかできる。

本発明は更なる発展、精巧さ及び拡張の為に有力なシス
テムを提供する。これは、上記の音声認識システムとは
異なり、この本発明は上記の音響的／音声的な方法のア
ウトラインに明確に且つ直接にまねているが、更に非常
に複雑な用途で実行することが可能であるからである０
本発明が直接的で簡易なのは、従来技術で使用される包
括度の劣る音韻学的規則の代りに言語の音響的／音声的
構造のモデルとして連続可変期間秘匿マルコフモデルを
使用するからである。「マルコフ」なる用語は音声信号
に潜在する蒼然的ではあるが、直接的には観測不可能な
事象に関するものである。

本発明で使用される連続可変期間秘匿マルコフモデルは
ワードを直接あわらすよりも、むしろ音声の音響的／音
声的構造を表す、音声単位は潜在的なマルコフ鎖の観測
できない状態で識別される。このシステムの他のパラメ
ータは、動的なプロクラミンクアルゴリズムが発声の音
声的な改変を得るために使用することかできるように構
成されている。

本発明の好適な実施例では、認識の辞書アクセスステッ
プは発音辞書に基づいており、各記載事項は秘匿マルコ
フ鎖の状態を表す音声符号について正射影で表現される
。この好適な実施例のいくつかの他の特徴は以下に明ら
かになる。

この認識方法は測定時に条件付けられる最大の可能性か
あり、かつ文法的に正しく形成された文章をワード格子
から回復することにより従来型の文章認識方法により容
易に完成される。この認識方法の最終部分は、本発明に
より提供される候補アレイ及び尤度信号のために更に効
率的に作用することが期待される。

［実施例の説明］（１）一般説明第１図の実施例においては、入力音声の流れは例示的に
話者から得られるが、他の機械からの音声の流れを使用
してもよい、この音声の流れはブロック１１として示し
た公知の種類の装置に流れて線形予測符号化解析（通常
ＬＰＧ解析と呼ばれる）を受ける。ブロック１１の装置
のための基本的な組織及び構成はアイイーイーイー　ト
ランズアクションズ　オン　アク−スティック　スピー
チ　アント　シグナル　プロセッシング（ＩＥＥＥ　　
Ｔｒａｎｓａｃｔｉｏｎｓ　　ｏｎ　　Ａｃｏｕｓｔｉ
ｃ　　５ｐａｅｃｈ　　ａｎｄ　　ＳｉｇｎａｌＰｒｏ
ｃｅｓｓｉｎｇ）Ｊ、Ｖｏｌ、ＡＳＳＰ−２３、Ｎｏ、
１．１９７５年２月の論文ミニマムプレディクシミン　
レシジュアル　プリンシプル　アプライド　ツー　スピ
ーチ　レコグニション（Ｍｉｎｉｍｕｍ　　Ｐｒｅｄｉ
ｃｔｉｏｎ　　Ｒｅ５ｉｄｕａｌ　　Ｐｒ１ｎｃｉｐｌ
ｅ　　Ａｐｐｌｆｅｄ　　ｔｏ　　５ｐｅｅｃｈ　　Ｒ
ｅｃｏｇｎｉｔｉｏｎ）Ｊにおいてエフ　イタクラ［Ｆ
、Ｉｔａｋｕｒａ）によりいくぶん詳しく開示されてい
る。また現代の大規模集積電子技術で、いくつかの他の
構成が可能であり、その例かエル、アール、ラビナー（
Ｌ、Ｒ，Ｒａｂｉｎｅｒ）との木発明者の上記論文の第
２図である。

結果として生じる音声の特徴信号の組は次にシステム部
分１２における技術の組み合せにより処理され、ある程
度の可能性を持って音声セグメントを検出したり、この
セグメントのアレイである高価な期間情報を提供する。

システム部分１２における処理のためのアルゴリズムは
、いわゆる連続可変期間秘匿マルコフモデルである記憶
モデル１３にアクセスする。これはコンピュータ　スピ
ーチ　アンド　ランクエツジ（ＣｏｍｐｕｔｅｒＳｐｅ
ｅｃｈ　　ａｎｄ　　Ｌａｕｎｇａｇｅ）Ｊ、Ｖｏｌ、
１．ｐｐ、２９〜４４．アカデミツクプレス　インク（
ロンドン）リミテッド（１９８８）（Ａｃａｄｅｍｉｃ
　　Ｐｒｅｓｓ　　Ｉｎｃ。

（Ｌｏｎｄｏｎ）Ｌ′ｔｄ、）の本発明者の論文「コン
ティニュアスリー　バリアプル　デュレイション　ヒド
ン　マルコフ　モデルズ　フォーオートマチイック　ス
ピーチ　リコグニション（Ｃｏｎｔｉｎｕｏｕｓｌｙ　
　ＶａｒｉａｂｌｅＤｕｒａｔｉｏｎ　　Ｈｉｄｄｅｎ
　　ＭａｒｋｏｖＭｏｄｅｌｓ　　　ｆｏｒ　　　Ａｕ
ｔｏｍａｔｉｃ　　　５ｐｅａｃｈ　　Ｒｅｃｏｇｎｉ
ｔｉｏｎ）Ｊに記載されている。そして補足的な音声情
報を好都合に活用する調査及び分類技術をシステム部分
１２で提供する（以下詳述する）６次に、音声セグメン
ト及び期間候補の場合には、システム部分１４か辞書１
５（コンピュータに電子的に記憶した大記憶装置）に対
して、なるべくなら、１対の音声セグメントを用いてア
クセスし、候補ワードのアレイを得ることが望ましい。

次に整列手順が、ブロック１１のＬＰＧ解析からの音響
的特徴に応答して、システム部分１６で実行されて１図
示の候補ワード用の見込み信号を計算する。

装置１１２〜１６はデジタルコンピュータにより実行さ
れる。この例は２例えば、オハイオ州アクトンのアライ
アント　コンピュータ　コーポレーション（Ａｌｌｉａ
ｎｔ　　Ｃｏｍｐｕｔｅｒ　　Ｃｏｒｐｏｒａｔｉｏｎ
）により製造されているＡ１１ｉａｎｔ　　ＦＸ−８型
のデジタルコンビュ−タである。記憶モデル１３、辞書
１５及び文章認識装置１７はすべて記憶装置内に記憶さ
れた所定の情報を大量に使用する。

整列装置１６の出力は従来技術の文章認識装置１７に供
給される。この文章認識装置１７はワード候補の中で残
っている不明確さを解決して最良の文章を選択するタイ
プのものでよい。

本発明の基本的な理解は次の点を考慮することによって
得ることかできる。ここで提案された音響的／音声的実
施例の１つの基本的な点はスピーチか少数のシンボルに
基づく符号であるという仮定に基づく、これらの符号の
実体は不明であるか、これらのものの物理的な徴候は音
響信号の測定を行うことにより直接観察することかでき
る。

これらの仮定の下で、かつ、多くの以前の研究者による
実験にかんがみて、いわゆる秘匿マルコフ鎖のような現
象をモデル化することはまったく当然なことである。符
号のシンボルは離散的で、未知で直接的には観察不可能
であるので、マルコフ鎖と普通呼ばれる潜在的で観察不
可能な蓋然的な一連の事象の状態てそれらのシンボルを
識別することは合理的である。一方、音響信号は利用可
能であってそのスペクトル及び時間的特徴は符号のシン
ボルと相関関係があると考えられている。従って信号を
音響的な観察よりなる一組の統計的分散により表すと共
に、マルコフ鎖の各状態と１つの分散を関係付けること
が適切である。信号の情報の時間的符号化を説明するた
めには、状態の期間を蓋然的に特徴付ける機構を持たな
ければならない。

（２）詳細な説明次に、連続可変期間秘匿マルコフモデルはかなり整然と
音声信号のいくつかの本質的な面を補足しているように
思われる。音声単位（すなわち、符号シンボル）は秘匿
状態（ｑ＋）＋＝＋　　により表される。秘匿マルコフ
鎖の状態遷移確率ａｌＪは音声の音声構造（すなわち、
符号自体）を説明する。シンボルの音響相関は時間指示
観察０ｔｅＲ’である。このスペクトル情報はｉｎ濃度
（ｈＪ　（ｏｔ　））　−４の組に含まれており、そし
て、期間的情報は期間濃度（ｄｊ　（ｔ））ｊ−＋の組
に存在する。

ｄ次元観測濃度はガウス型で、期間濃度はガンマ分散型
であるべきである。これらの仮定の下で、ｎ状態モデル
のパラメータは状態遷移確率ａＢ、ｌ≦ｉ、ｊ≦ｎ、観
測手段、ｋｊｈ、　　ｌ≦ｊ＜ｎ、１＜ｋ＜ｄ、観測共
分散ｕＪｍ＋、１＜ｊ≦ｎ、１≦に、１．≦ｄ、そして
、期間形状及び場所のパラメータνｊ及びηｊ１≦ｊ≦
ｎである。

このパラメータ化のために、最適な組の値を計算する方
法か知られている。この１つの方法は以下に述べる。

秘匿マルコフモデルの基づくいくつかの音声認識装置で
は、各語嚢のワードは異なるモデルにより表され、その
尤度関数は与えられた入力について推定され、そして、
パイシアン（Ｂａｙｅｓ　１ａｎ）分類方法で使用する
ことができる。しかしながら、本システムにおいては、
状態シーケンスは支配的な役割りを演じる。これは、こ
の状態シーケンスか音声的な改変を生じるからである。

尤度関数も後で解るごとく、それ程重要でない目的のた
めに使用される。

本音響／音声システムにおいては、主要問題は与えられ
た音声信号に対応する状態シーケンスを如何に決定する
かである。これは、なるべくなう、期間濃度を説明する
動的プロゲラミンクアルゴリズムによって達成されるこ
とか好ましい。

αＬ　　（ｊ）を状ｓｊで終る状態シーケンスの尤度で
あるとする。この尤度は状態及び観察シーケンスの共同
尤度を時間ｔまでにこの時間ｔを含めて最大にするもの
である。この量は反復的に次の式から計算することがで
きる。

この場合１≦ｊ≦ｎ及び１≦ｔ≦Ｔである。

（式ｌの用語は付録Ａで定義しである）。

同時に次の式を設定すれば、 β、Ｇ）　＝　（ｉ、τ）−ａｒｇｍａｘ　（ｃｂ（ｊ
））、　　　　　　　　　（２）−丁最終状態から次の式にもとることかでき、それにより、
所望の状態シーケンスを再構築して入力の音声改変を得
ることかできる。一連のワードとして式１〜３から得ら
れる音声改変を解釈するタスクは、不規則な挿入、削除
及び文字の交換及びワード間の空間の除去により崩壊し
た本文を読むタスクとは異なつてはいない、音声認識を
する際の本発明の方法は辞書アクセスの心理言語概念に
基づいている。

辞書アクセスの概念の基本的な前提はワードが辞書に記
憶されて音響的な特徴の点よりもむしろなんらかの音声
的な正射影でワードか表されるということである。スピ
ーチを理解する認識ステップでは、ワードは部分的な音
声情報に基づいて辞書から検索される。音声−辞書マツ
ピンクはこうして本来多一対−１であって２種類の不明
瞭さをもたらす、すなわち、まず第１に、音声シーケン
スは散ワードに共通となることかある。第２にワードは
いくつかの互いに異なる音声シーケンスに基づいて検索
することかてきる。第１の形態の不明瞭性により認識問
題は更に困難となり、後半の処理ステップで解決されな
ければならない、しかしながら、この第２の種類は利点
がある。音声的な改変は改悪となるので、一定のワード
に関する多数の手掛りが必要である。＊発明で使用され
る部分的な辞書アクセス方法は補足的な音声情報を活用
する方法を好都合に提供する。

ここで使用される技術の特定形状は次の通りである０式
１〜３の推定から生じる音声改変は次の状態シーケンス
であると仮定する、ｑ”Ｑ１＋ｑ２１”ＴＬ’ｌ電＋ｌ＋…會（ＩＩ＋Ｐｌ
−川Ｑｓψ（４）ここでｑｌはｌ≦ｉ≦Ｎの場合のその
シーケンスの第１番目の状態の番号である。

ここで１≦ｔ≦Ｎ−ｐ（ｐは一定）の場合法の形態のす
べてのｐ＋ｌの集合を考える。

ｑ”　ｑ＋＋　　Ｑ＋＋１　山−ｌｑｌ＋Ｐ　　　　　
　　　　　　　　　　　　　　　　　　（５）このｑの
各々はパッシング関数の変数として考その値ａは辞書の
アドレスである。素数Ｐは辞書の記録数よりも大きくな
るように選ばれている。この場合、辞書は小シーケンス
として９を含む正射影表示をａ番目の記録が持つように
構成されている。辞書も第３番目の記録が９を含む他の
ワードに対しリンクを持つように構成されている。この
鎖の最後のワードはリンクを有していない、一般に、各
辞書の項目は１つ以上のｐ＋１の集合を含んでいるので
それぞれに別のリンクを持たなければならない。これら
のリンクはすべて辞書の正射影表示から自動的に発生す
ることができ、そして、手動的に構成される必要はない
。

このような技術の数学的な面及びコンピュータの計算の
更なる詳細はデー、イー、ヌース（Ｄ。

１：、Ｋｎｕｔｈ）による本「ザ　アート　オブコンピ
ュータ　プログラミング（Ｔｈｅ　　Ａｒｔｏｆ　　Ｃ
ｏｍｐｕｔｅｒ　　Ｐｒｏｇｒａｍｍｉｎｇ）Ｊアディ
ソンーウェスリー（Ａｄｄｉｓ。

ｎ−Ｗｅｓｌａｙ）、Ｖｏｌ、１、ｐＰ、２３０〜２３
１及びＶｏｌ、３、ｐｐ、５０６〜５４２、特に、「探
索及び分類」に関する部分で見ることができる。

上記の辞書アクセス方法はワードの場所のだいたいの推
定１例えば、スピーチの流れの中でのそれぞれの始めと
終りを与える効果を有している。

上述のように、これらの場所は首尾一貫しない傾向があ
る。その不明確さを解決するために、本発明は音響測定
及び音声改変から更に多くの情報を抽出して、信号の最
適解釈が得られる仕方でその情報を表現する必要がある
。特に、ワー１’ｙか時間期間（τ０、τ、）に現れる
尤度Ｌ（ν１τ０、τ、）を計算することが望まれる。

アクセス方法により発見されたすべてのワードについて
一度計算か行われると、この情報はフード格子と呼ばれ
るグラフによって有効に表現することかできる。

まずその問題に対する理論的に最適な試みを考える。

アクセスされるワードνは正射影２Ｉ！ｔｈ１、ａ２、
・・・、４．を有し、この正射影では音声改変に匹敵す
る小シーケンスはｑ＝５＋　。

６１＋Ｉ＋　　・・・、ａｌ、、であるとする、更に、
最も初期のステップで、νか時間τ。で始まり、そして
、τ、までに終ると仮定する。すると、４はその期間内
のどこかで発生したはずであり、状態ＱＩはある時間；
、＠（τ０、τ、）において終り、そして、もちろん、
１≦ｉ＜ｍの場合には’ｒ　ｉｌ！　＞　（１である。

Ｌ（ν１τ０、τ、）の合理的な定義は、状態遷移時間
卆。、ヲ１、・・・、９．の制限を満足するすべての選択にわ
たってＯ”ｃｏ、　　・・・、０）１及び亀８．４□、
・・・ａ、の共同尤度の最大値である。すなわち、ここてＴはすべての可能な状８遷移時間の組である、す
なわち、Ｔ−（丸、も１．−９ζ１？ｏくもくモ１く・・・くζ
ニー＞、　　　（８）（７）で定義したように、Ｌ（ν
１τ。、τ、）は次の式から計算することができる、（９）は正しいが、この式はＴの基数が、一般的には非
常に大きいので、実際には役立たずである。

しかしながら、Ｌ（ν１τ。、τ、）を計算する効率的
な方法が存在する。γｔ（′ｑ＋）を０τ。・・・０．
及び′ｑｔ　＋　’：ｑ□・・・、’１１（７）最大共
同対数光度とする０次に、γｔ　　（′ｑム）はに繰り
返して計算することかできる、最後に、ｌｏｇ［Ｌ（ｖ　ｌ　ｓ、ｂ＞］−？、　（（１＋１１
）　　　　　　　　（１１）上記の辞書のアクセス及び
整列方法により多くの辞書の仮説が発生される。そのい
くつかは首尾一貫しない、これらすべての仮説を便利な
形で保持して後で不明瞭な点を解決し、それにより最良
の文を回復するようにしたい。

この要件を満足するデータ構造はワード格子である。こ
のワード格子の水平方向は時間を表し、そして、代替的
な辞書の仮説を垂直方向に配列して首尾一貫しない仮説
か同一の水平方向ではあるか別々の垂直位置を持つ複数
組のツロウクとして現れるようにする。このようなデー
タ構造は有向グラフとしてコンピュータの中に便宜上記
憶されており、この有向グラフの先端はワード境界であ
り、この有向グラフの縁部は時間的に常に前向きのそれ
ぞれの対数尤度により重み付けられたワードである。今
、尤度しくν１τム、τｊ）を持っτ１からτ、までの
期間にワードνを表す縁部を（τ蔦、シ、τＪ、Ｌν）
によって表すことにする。もちろん、一般には、対応す
るグラフを切り離すギャップ及び重複がその格子に存在
する。この問題は、発声時間が適切な実験的に選定され
た互いの付近内にあるときはいつも２つの明確な境界を
識別することによって除去される。

次に第３′図と第４図の流れ図をみる。コンピュータの
中央処理装置の動作の第１ステツプは適切な開始条件に
中央処理レジスタのすべてをリセットすることである。

装置１１からの入力データは入力レジスタに記憶される
量のアレイとして入力されるが、このアレイを流れ図で
示したようにアレイｂＩτとして示す。

ブロック３５でのすべての処理は初期の記憶値を設定す
る。ブロック３６と３７は状態インデックスと時間イン
デックスを増分させる。ブロック３８〜３９はＭ察の対
数確率の和を計算する。

ブロック４０〜４４は最初の状態で生じる第１のｔ個の
観測の最大尤度を計算する。

ブロック４５〜５４は任意の状態シーケンスから生じる
最初のｔ個の観測の最大確率を計算する。

ブロック５５〜５９は最後の！１１測が生した最も可能
性ある状態及びａ測シーケンスの尤度を決定する。

ブロック３０から終りまでは最適状態シーケンスを再構
成する。

上記の方法への入力データよりなる最初のアレイのため
に必要なパラメータのすべては今や計算され、そして、
プロセスは次に入力データよりなる次のアレイの処理に
向かう、第３図及び第４図の流れ図にわたって反復的な
サイクリングから生しる各組のデータは、上記の式１．
２及び３の最終計算に使用されるメモリ内の適出な場所
に記憶することができ、それにより、入力の音声改変か
最終的に各サイクルの所望の状態シーケンスから再構成
されるようにする。

上記のように、結果として生じる音声改変を解釈するタ
スクはａａのワードからなるテキストの読みに似ていて
、不規則な挿入、削除及び置換が存在する。

ここて使用される技術の１つの特定形状は第５図と第６
図に示しである。

ρ＝１の特別な場合については、バッジ関数の式（６）
は第６図に示したようにＨＥＡＤテーブルで置換するこ
とかできる。ＨＥＡＤテーブルの意味及び構成について
は、ヌース（Ｋｎｕｔｈ）、Ｖｏｌ、３（上記）を参照
、　ｑ”（Ｉｔｑｔｅｌ　＝　１　、　Ｊの場合、ＨＥ
ＡＤテーブルｒの記入行ｊと記入列ｊは９を含む辞書の
記録アドレスである。このテーブルも容易に自動的にａ
成される。ＨＥＡＤテーブルによる方法はｐ＝２以上に
一般化することかできるが、最終的には役立たずになる
。

式７の定義を使用することは必要てなく、又式１０の反
復を使用することも必要ではない、これは１次の完全に
簡単で大いに有効な発見的手法か存在するためである。

ここでは単にＬ（ν１τ。、τ、）が０τ０　・・・０
τ、及び４の共同尤度として定義する。この場合、状態
遷移時間は式２から計算される状態期間により決定され
る。

こうして、代りに、以前に計算された音声改変分割を使
用してＴにわたり最大化なしに式（９）から容易にｌｏ
ｇ［Ｌ（ν１τ。τ、）コを計算することができる。

式４〜ｌＯの最も重要な計算を達成するためのフローチ
ャートは第７図に示しである。このフローチャートは第
８図の整列図と共に、コンピュータ内の種々の大規模記
憶装置内に現在記憶された以前のステップの種々の結果
が整列ステップで如何に協力するかを示す、この最初の
アクセスはブロック７３に示しである。第８図に示した
整列はブロック７５〜７７により示される。ブロック８
は次の式からのワードの尤度の計算及びその候補リスト
の記憶内容を示す。

注意：あるｋ、■については、ブロック８０はリンクされたリストか如何に使用されて
次の候補ワードにアクセスするかを示す。

ブロック８１はそのリスト内の最後のリンクのための試
験である。この試験が成功すると、制御は状態カウンタ
に戻され、そして１次の状態対がＨＥＡＤテーブルに送
られる。ブロック８３は最後の状態対のための試験を示
す、この試験が成功すると、ブロック８４に制御が移り
、そこで、最良の候補が選ばれてプロセスが終る。

この整列プロセスは評価された状態シーケンスが辞書の
記録に対していかに匹敵し得るかを示す、一般的には、
この匹敵は完全ではなく、推定の候補ワードの情報シー
ケンスに部分的に匹敵する多数の状態シーケンスか存在
する。

なお、ちなみに、動的プログラミングに基づく整列アル
ゴリズムのような他の整列アルゴリズムが可能あるが、
できるならば動的時間歪曲を避けることが本発明の目的
である。これらの他のアルゴルズムは、第１図に示した
別個の整列ステップを用いる概念を導入した本発明の特
徴に一致する。

第７図の整列手順について最終的に述べれば、原則的に
は、ｑのすべての対の隣接状態は整列プロセスにおける
キーとして使用されるべきである。

車認識装置１７の詳細はこの発明の重要な部分ではない
ので、この車認識装置の適切な機構は１９８１年７月７
日発行の本出願人による米国特許第４，２７７．６４４
号に開示されたものでもよい。

上記の技術の代替として、種々の他の文認識技術を使用
することかできるということは多くの技術者に直ちに明
らかであろう。

桁０〜９を認識するためには、２２状悪のモデルを第９
図に示すように構成することができる。

潜在的な存在するマルコフ釦の構造を簡単化するために
３つの状態か複製されて全部で２５のモデルになる。各
セグメントに関連するベクトルは集められ、そして、平
均、共分散、期間及び期間の標準偏差の最尤推定量が計
算される。あるセグメントについて得られた値は対応す
る状態に５ｉ２連するパラメータ値として使用される。

潜在的なマルコフ鎖の遷移確率はすべての桁が等しく起
こりそっであるという仮定で推定される。この仮定が与
えられると、各遷移か発生する回数を数えることは簡単
なことであり、この発生カウントから遷移確率が容易に
得られる。

第９図は、音声認識技術者が音声区域内に生じるこれ以
上単純化できない秘匿プロセス要素の最も生じ得る表現
又は、少なくとも、これらの要素の最も便利な表現とし
て受は入れるにいたった音声要素の種類を示す。

本発明によるシステムで要求される不変性及び能力のレ
ベル対複雑さのレベルに依存して上記の技術で作り得る
種々の変形例のことは多くの当業者に直ちに明らかであ
ろう。

付録Ａｃｅｎｔｅｒ；１１．ｑ、−状態ｊ〇　−時間ｔにおける特徴ベクトルｔ α、　−〇　〇　・・・０　およびＱＬ　Ｑ２・・・ｑ
ｋの共同ロッグ確率Ｊｔ　　　　　１２ｔ β　　−前状態と時間への指示」ｔＳ、τ■　Σ謹１ｂｊｔ−、＋θ 」 δ　−状態ｂｊ−最大期間−Ｑｊ時Ω、のロッグ確率ｄ
ｊｔ＝ｑｊ時の期間ｔのロッグ確率ａ、、−ｑ、からｑ、までの遷移確率ＪＬ　　　　　　　Ｉ　　　　　　　Ｊπ、　−ｔ−ｏ
におけるｑ、の確率Ｊ　　　　　　　　　　　　　　　　　Ｊｐ−ｏ　　ｏ
　　・・・Ｏおよび荊古。・・・會１の共同ロッグ確率
１２　　　　　ｔｑ、−概算の状態シーケンスにおけるｊ番目状態」ｄ、−Ｑ−の期間」　　　　　　Ｊ ■−候補ワードＷ　−辞書への１番目登録Ｗ−最良の候補ワードＣ−ｎ番目候補ワード

【図面の簡単な説明】

第１図は新規な音Ｗ／音声認識システムの新規な構成の
略図、第２図は上記のウッズ（Ｗｏｏｄｓ）の論文が代表する
従来技術の略図、第３図は第１図の実施例に要求される、音声セグメント
及び期間を検出する最適化アルゴリズムの流れ図、第４図は第３図のフローチャートの連続部分の図、第５図はワード検出のための最初の辞書アクセス手順で
実施される動作のいくつかを表すブロック線図、第６図は以下に説明される第７図のフローチャートで使
用されるいくつかの概念を説明する図、第７図は整列ス
テップに関するフローチャート。第８図は整列ステップにおける対をなす隣接音声セグメ
ントの使用の概念を示す図、及び第９図は本明細書に開
示した辞書アクセス手順の一部として使用される桁０〜
９に関する簡単な音Ｉ＃／音声モデルの実施フローチャ
ートである。出願人：アメリカン　テレホン　アンドテレグラフ　カ
ムバニーＦＩＧ、４ＦＩｏ、　　５詳　　工ＦＩＧ、　　６ＦＩＧ、　８

Claims

【特許請求の範囲】

（１）言語を表わす種々の信号記憶部を有する信号記憶
及び処理システムで実施される種類の音声認識方法にお
いて、発声を受けて、この発声の連続時間フレーム部分をこの
時間フレーム部分の各々を表わす音響特徴信号に変換す
るステップ、一連の音声部分信号をその一連の音響特徴信号に割り当
てるステップ、その一連の音響特徴信号及びその割り当てられた音声部
分信号に応答してその割り当てられた音声部分信号の各
々ごとに第１の尤度信号を発生するステップ、一連の割り当てられた音声部分信号に応答して辞書記憶
部から可能性ある音声シンボルシーケンスを検出するス
テップ、この検出された各音声シンボルシーケンスが前記の発声
である尤度を表わす第２の尤度信号を発生するステップ
、及び、その検出されたシーケンス及び尤度信号に応答して好適
な音声シンボルシーケンスを選択するステップ、からな
り、前記割り当てるステップは前記の一連の音声特徴信号に
音声期間信号を割り当て、及び、第１の尤度信号を発生するステップ、検出するステップ
及び第２の尤度信号を発生するステップはすべて音声期
間信号に部分的に応答することを特徴とする音声認識方
法。
（２）第２の尤度信号を発生するステップ及び選択する
ステップは共に、第２の尤度信号を音声シンボルシーケンス用に改変する
ように、各検出音声シンボルシーケンスを対応する音響
特徴信号と整列させるステップを含むことを特徴とする
特許請求の範囲第１項に記載の音声認識方法。
（３）整列させるステップはその対応するシーケンス内
の対をなす検出された音声シンボルと比較して、ワード
選択を容易にするために、その各シーケンスにすべての
対をなす隣接割り当て音声セグメントを使用することよ
りなることを特徴とする特許請求の範囲第２項に記載の
音声認識方法。
（４）割り当てるステップは発声の言語の構造の音響／
音声モデル（このモデルは連続可変期間秘匿マルコフモ
デルとして知られる）を使用することよりなることを特
徴とする特許請求の範囲第１項又は第２項のいずれかに
記載の音声認識方法。
（５）割り当てるステップは発声言語の構造の音響／音
声モデル（このモデルは連続可変期間秘匿マルコフモデ
ルとして知られる）を使用することよりなり、そして、整列するステップはその対応するシーケンス内の対をな
す検出された音声シンボルと比較してワード選択を容易
にするためにその各シーケンスにおいてすべての対の隣
接割り当て音声セグメントを使用することよりなること
を特徴とする特許請求の範囲第２項に記載の音声認識方
法。