JPS63502145A

JPS63502145A - 音声認識システムにおけるデ−タ整理の最適方法

Info

Publication number: JPS63502145A
Application number: JP87500570A
Authority: JP
Inventors: ジャーソン・アイラ　アラン; リンズレイ・ブレット　ルイス
Original assignee: モトロ−ラ・インコ−ポレ−テッド
Priority date: 1986-01-03
Filing date: 1986-12-18
Publication date: 1988-08-18
Anticipated expiration: 2016-05-21
Also published as: CA1299750C; HK40596A; US4905288A; EP0252946A4; KR880700986A; EP0252946A1; JP3168562B2; WO1987004290A1; KR950008539B1; DE3688747D1; DE3688747T2; EP0252946B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】音声認識システムにおけるデータ整理の最適方法発明の背景本発明はワード・テンプレートの生成の実施に係り、とくに、音声認識システムにおいてワード・テンプレートを表わすデータの整理の実施に関する。

アナログの波形のディジタル記憶を必要とするシステムにおいては、正確な表現を具現するために莫大な量の記憶装置を割り当てなければならない。ワード認識がこのような正確度に依存する音声認識システムにおいて、ディジタル的に音声を記憶するには大量の記憶装置を必要とする。

このことは、多数の用語（ボキャブラリ）を必要とする音声認識システムについてとくにあてはまる。この用語内の各ワードは、一般的にワード・テンプレートによって表わされる。各々のワード・テンプレートは、等しい時間間隔に区分化され、話されたワードを表現するフレームを含んでいる。多数の用語を音声認識システムに実際的にあてはめるには、二つの問題を克服しなければならない。

第１の問題は、用語をディジタル的に記憶するために大量の記憶装置を必要とすることである。記憶装置は、コストもかかり回路基板実装も崇むものである。

第２の問題は、この代表表現データの処理に必要な計算時間である。一般に、計算時間はテンプレート・データに必要な記憶装置の容量にしたがって直線的に増加する。多数の用語を利用するシステムにおいては、これら二つの問題はリアルタイムでの音声認識システムの実際的作動に対して最悪の難点になっている。したがって、所要のテンプレート・データを整理する必要性は音声認識の技術分野で十分に認識されている。

テンプレート・データの整理は、音響的に類似しているワード・テンプレート内の音に適用することができる。音声は一般的に等間隔に時間区分化（セグメント化）される。

各々の区分はフレームと呼ばれている。たとえば、ゆっくり話されるワードは同 −音の単に長い継続にすぎない音声のフレームを多くの場合有している。音響的に類似した音を有しているフレームは繰返して表現される必要がないので、これらのフレームを代表表現フレームに組み合せることが検討されている。このようにフレームを組み合せることを゛クラスタリング（クラスタ化）と呼んでいる。

任意の数のワード・テンプレート・フレームをクラスタリングすると、各フレーム内の代表表現データの僅かな変化に起因して、合成フレームは原フレームに関して幾分かひずんだものになる。一般的に、２個以上のフレームが音響的に類似しているものと測定された場合は、フレームをクラスタリングすることによって過度のひずみが生じることはない。フレーム間の正確な類似性測度を決定する手法が、２個以上のフレームをクラスタ化すべきか否かを決定するために用いられている。

フレーム情報の類似性は、代表表現データのタイプに依存するハミング（Ｈａ＋ｎ＋ｎｉｎｇ）計算またはチェビシェフ（Ｃｈｅｂｙｓｈｅｖ）計算のような、ディスタンス計算を使用して通常の場合測定される。連続するフレーム間の“ディスタンス（Ｄｉｓｔａｎｃｅ）’が所定のディスタンス（隔たり）より小であれば、ワード・テンプレートからの２個の連続するフレームは１個の単独フレームにクラスタすることができる。

それらの間で計算されたディスタンスが小であるフレームをクラスタリングすることによって、音声を代表表現するデータを整理することができる。

しかしながら、この要領によるフレームのクラスタ化はワード・テンプレート内のフレームの数量が大きい場合に問題になる。ワード・テンプレートを“最適″ に整理するためには、代表表現ワード・テンプレートは、各々の代表表現フレームに対するひずみ判定基準を満足させることはもとより、最少数の代表表現フレームを有するように生成されなければならない。一般的に、このことはワード・テンプレート内のフレームのすべての可能性あるクラスタ化を試験することを必要とする。クラスタは他のクラスタのシーケンスがひずみ判定基準を満足させる一層少ないクラスタを有する結果となることのないように選択されなければならない。以後、このクラスタのシーケンスをこのワード・テンプレートに対するクラスタ・バス（Ｃ１ｕｓｔｅｒ　ｐａｔｈ）と呼ぶことにする。ひずみが最小になり、かつクラスタ数が最少になるクラスタ・バスが、最適クラスタ・バスである。多数のフレームを有するワード・テンプレートに関しては、最適クラスタ・バスを探索することは甚だしい量の計算を招く結果になる。たとえば、３個のフレームで構成されているワード・テンプレートを考えるものとする。考慮すべき合計４通りの可能性あるクラスタ・バス、すなわち、１２３．１２３．１２３．１２３（各々のクラスタにはアンダラインが施しである）が存在する。５個のフレームで構成されるワード・テンプレートに対しては、考慮すべき１６通りの可能性のあるクラスタ・バスが存在する。

一般に、Ｎ個のフレームで構成されたワード・テンプレートには、２　（Ｎ−１＋通りの考慮すべき可能性あるバスが存在する。１５個のフレームで構成されるワード・テンプレートでは、テンプレート−・データを最適に整理する恐らくただ１通りのクラスタ形成をめて１６．３８４通りの可能性あるクラスタ・バスを考慮することが必要になる。これらの可能性の各々について考慮する計算の必要量は、リアルタイムの環境では実際的なものではない。

この方法でクラスタリングを実施する場合に起こる他の問題は、それぞれ特有のタイプの音声表現特徴データに対して適切なりラスタ化方法を整合させることに関係している。一般的に、フィルタ・バンク情報（ｆｉｌｔｅｒ　ｂａｎｋｉｎｆｏｒｍａｔｌｏｎ）または線形予測係数（１１ｎｅａｒ　ｐｒｅｄｉｃｔｉｖｅｃｏｅｆｆ’１ｃｉｅｎｔ）　（Ｌ　Ｐ　Ｇ　）情報が、音声を表ワスタメニ使用フレームのグループ化は、ＬＰＧ情報が生じるひずみと同一のひずみを必ずしも生じるとは限らない。したがって、一つのタイプの特徴データに対する最小クラスタ組み合せは、他のタイプの特徴データに対して最小でないかもしれされたディスタンス測度に対しても効果的に最適クラスタ・バスを生成可能なワード・テンプレート・データに対するクラスタ化の方法である。

発明の目的と概要したがって、本発明の目的はデータ整理処理の完了後はひずみ判定基準を満足しつつさらにすぐれたデータ整理を結果として生じるような他の可能性のあるデータ整理が存在しないように特徴データを整理するデータ整理の方法を提供することである。

本発明の他の目的は、入力音声に対しての最適に整理された代表表現データの組を見い出す際の所要計算を最適化するデータ整理方法を提供することである。

本発明のさらなる目的は、音声を表わすために使用された特徴データに対しディスタンス測度を与えられたデータ整理によって、受けたひずみを定義するデータ整理の方法を提供することである。

本発明のさらに次の目的は、有限長のフレームのシーケンスに適用可能であることはもとより、無限長のフレームのシーケンスに適用可能であるデータ整理の方法を提供することである。

要約すると、本発明は各々の９代表表現フレームに関連するひずみ測度を生成することと各々のひずみ測度をひずみスレッショルドと比較することを含む組み合せ処理を用いて初期（ｉｎｉｔｉａｌ）フレームを複数の代表表現フレームに組み合せることによって、これら初期フレームのシーケンスを１組の整理代表表現フレームに整理する最適方法および装置について記述するものである。これらの代表表現フレームから、代表表現フレームの数を最少化するための１組の相互排除的なフレームが決定され、これによってこの組内の各々の代表表現フレームは連続する初期フレームのない関連ひずみ測度を有することになる。

図面の簡単な説明本発明に基づく他の目的、特徴、および利点は、添付図面に関連した以下の説明によって一層明らかになるであろう。なお、図面中の類似エレメントは同一の番号で示しである。

第１図は、本発明により音声認識テンプレートから音声を合成する手法を図示した全体的ブロック図、第２図は、本発明による音声認識および音声合成を使用したユーザ会話型制御システムを有する音声通信装置のブロック図・第３図は、バンズ・フリー音声認識／音声合成制御シスる好ましい実施例の詳細ブロック図、第４ａ図は、第３図のデータ整理器（３２２）の詳細ブロック図、第４ｂ図は、第４ａ図のエネルギー正規化ブロック　４１０によって行なわれる一連のステップを示すフローチャート、第４ｃ図は、第４ａ図の区分化／圧縮ブロック　４２０の特有のハードウェア構成の詳細ブロック図、第５ａ図は、本発明によるクラスタを形成するためフ、ｌｚ　−ムに区分化された話されたワードのグラフ表現、第５ｂ図は、本発明による、ある特別のワード・テンプレートに対して形成されつつある出力クラスタを例示する図、第５Ｃ図は、本発明による任意の部分クラスタ・バスの可能な形成を示す表、第５ｄおよび５８図は、第４ａ図の区分化／圧縮ブロック　４２０によって行なわれるデータ整理処理の基本的実施を図説するフローチャート、第５ｒ図は、先に決定されたクラスタからのデータ整理ワード・テンプレートの形成を示している、第５ｅ図のトレースバックおよび出力クラスタ・ブロック　５８２の詳細フローチャート、第５ｇ図は、部分的トレースバックに応用可能な、本発明による、２４個のフレームに対するクラスタリングパスを図説するトレースバック・ポインタ表、第５ｈ図は、フレーム接続トリーの形で図説されている第５ｇ図のトレースバック・ポインタ表のグラフ表現、第５１図は、フレーム接続トリー内の共通フレームにトレーシング・バックすることによって３個のクラスタが出力完了した後のフレーム接続トリーを示す第５ｈ図のグラフ表現、第６ａおよび６ｂ図は、第４ａ図の差分符号化ブロック　４３０によって行なわれる一連のステップを示すフローチャート、第Ｂｅ図は、第３図のテンプレート記憶装置１８０の１個のフレームの特別のデータ形式を示す汎用化記憶域割当て図、第７ａ図は、本発明による、各々の平均フレームがワード・モデル内の状態によって表わされている複数平均フレームにクラスタされているフレームのグラフ表現、第７ｂ図は、第３図の認識プロセッサ１２０のテンプレート記憶装置１６０との関係を図説するこのプロセッサ１２０の詳細ブロック図、第７ｃ図は、本発明によるワード解読に必要な一連のステップのある実施例を図説するフローチャート、第７ｄおよび７０図は、本発明による状態解読に必要なステップの一実施例を図説するフローチャート、第８ａ図は、第３図のデータ伸長器ブロック　３４６の詳細ブロック図、第８ｂ図は、第８ａ図の差分解読ブロック　８０２によって行なわれる一連のステップを示すフローチャート、第８ｃ図は、第８ａ図のエネルギー正規化解除ブロック　８０４によって行なわれる一連のステップを示すフローチャート、第８ｄ図は、第８ａ図のフレーム繰返しブロック　８０６によって行なわれる一連のステップを示すフローチャート、第９ａ図は、第３図のチャネル・バンク音声シンセサイザ３４０の詳細ブロック図、第９ｂ図は、第９ａ図のモジュレータ／バンドパス・フィルタ構成９８０の他の実施例、第９Ｃ図は、第９ａ図のピッチ・パルス源９２０の好ましい実施例の詳細ブロック図、そして第９ｄ図は、第９ａおよび９０図の種々の波形を図説したグラフ表現である。

実　施　例さて添付図面を参照する。第１図は、本発明のユーザ会話型制御システム１００の全体的ブロック図である。電子装置１５０は、音声認識／音声合成制御システムの結合を十分に保証する複雑などのような電子装置をも含むことができる。この好ましい実施例においては、電子装置１５０は移動式無線電話機のような音声通信装置を表わしている。

ユーザの話した入力音声はマイクロフォン１０５に印加されるが、このマイクロフォン１０５は電気入力音声信号を制御システムに供給する音響カップラとして働いている。音響プロセッサ１１０は、入力音声信号に基づいて音響的特徴の抽出を行なう。ユーザが話した各々の入力ワードの振幅／周波数パラメータとして定義されたワードの特徴は、これによって音声認識プロセッサ１２０とトレーニング・プロセッサ１７０とに供給される。この音響プロセッサ１１０はさらに、入力音声信号を音声認識制御システムにインタフェースするためのアナログ・ディジタル変換器のような信号調整装置を含むことができる。音響プロセッサ１１０については、第３図に関係してさらに詳しく後述する。

トレーニング・プロセッサ１７０は、音響プロセッサ１１０からのこのワード特徴情報を操作して、テンプレート記憶装置１６０に記憶されるべきワード認識テンプレートを生成する。トレーニング手順の間、入力ワード特徴はそれらの終点を位置指定することによって個々のワードに配列される。トレーニング手順がワード特徴コンシステンシ（ｃｏｎ−ｓｉｓｔｅｏｃｙ）に対して複数のトレーニング発声を収容するように設計されている場合は、その複数の発声は平均化されて単一のワード・テンプレートを形成することができる。

さらに、大部分の音声認識システムは、１つのテンプレートとして記憶されるために音声情報のすべてを必要としないので、ある種類のデータ整理はしばしばトレーニング・プロセッサ１７０で行なわれることがありテンプレート記憶装置の必要量を軽減している。これらのワード・テンプレートはテンプレート記憶装置１６０に記憶され、音声合成プロセッサ１４０はもとより音声認識プロセッサ１２０の使用に供されている。本発明の好ましい実施例に使用されている的確なトレーニング手順が、第２図に説明しである。

認識モードにおいては、音声認識プロセッサ１２０は音響プロセッサ１１０によって供給されたワード特徴情報を、テンプレート記憶装置ＩＢＯによって供給されたワード認識テンプレートと比較する。ユーザの話した入力音声から引き出された現在ワード特徴情報の音響特徴がテンプレート記憶装置から引き出されたある特別の予め記憶されているワード・テンプレートに十分にマツチした場合は、認識プロセッサ１２０は認識されたこの特別のワードを表わす装置制御データを装置コントローラ　１３０に供給する。適切な音声認識装置についてのさらに詳しい説明およびこの実施例がデータ整理をトレーニング手順に取り入れる方法については、第３図から第５図に付随する説明に記述しである。

装置コントローラ１３０は、全制御システムの電子装置１５０に対するインタフェースをとっている。この装置コントローラ　１３０は、認識プロセッサ１２０から構成される装置制御データを個々の電子装置による使用に適合できる制御信号に変換する。これらの制御信号は、装置がユーザによって命令されたとおりの特定の作動機能を行なうことを可能ならしめる。（この装置コントローラ　１３０はさらに、第１図に示しである他のエレメントに関係する付加的な監視機能を実施することができる。）この技術分野で周知なものであるとともに本発明と併用するのに′適格な装置コントローラの例は、マイクロコンピュータである。ハードウェア具現の細部に関しては、第３図を参照されたい。

装置コントローラ　１３０はさらに、電子装置１５０の作動状態を表わす装置ステータス・データをも供給する。このデータは、テンプレート記憶装置１６０からのワード認識テンプレートと共に音声合成プロセッサ１４０に印加される。この音声合成プロセッサ１４０はステータス・データを利用して、いずれのワード認識テンプレートがユーザが認識可能な返答音声に合成されるかを決定する。音声合成プロセッサ１４０はステータス・データによって制御される内部返答記憶装置をさらに含み″録音済み（ｃａｎｎｅｄ）”の返答ワードをユーザに対して提供することができる。いずれの場合も、音声返答信号がスピーカ　１４５を通して出力されると、ユーザは電子装置の作動状態（ｏｐｅｒａｔｉｎｇ　５ｔａｔｕｓ）を通知される。

上述のとおり、第１図は本発明が電子装置の作動パラメータ（ｏｐｅｒａｔｉｎｇ　ｐａｒａｍｅｔｅｒｓ）を制御するために音声認識を利用するユーザ会話型制御システムを提供する方法と、装置の作動状態を表わす返答音声をユーザに対して発生さ第２図は、たとえば二方向無線システム、電話システム、相互通信システム等のようないかなる無線または地上通信線利用音声通信システムの一部をも構成する音声通信装置に対するユーザ会話型制御システムの応用についての一層詳細な説明を提供している。音響プロセッサ１１Ｏ１認識プロセツサ１２０、テンプレート記憶装置１６０、および装置コントローラ　１３０は、第１図の対応するブロックと構造および動作の上で同一である。、しかしながら、制御システム２００の図は音声通信装置２１０の内部構造を説明している。

音声通信ターミナル２２５は、たとえば、電話機ターミナルまたは通信コンソールのような音声通信装置２１０の主要電子回路を表わしている。本実施例においては、マイクロフォン２Ｑ５とスピーカ　２４５とは音声通信装置それ自体に内蔵されている。このマイクロフォン／スピーカ装置の典型的な例は、電話機のハンドセットであろう。音声通信ターミナル２２５は、音声通信装置の作動ステータス情報を装置コントローラ　１３０にインタフェースする。この作動ステータス情報は、ターミナル自体の機能ステータス・データ（たとえば、チャネル・データ、サービス情報、作動モード・メツセージ等）、音声認識制御システムのユーザ・フィードバック情報（たとえば、ディレクトリの内容、ワード認准検証、作動モード・ステータス等）を具備することも可能であり、または通信リンクに、関するシステム・ステータスΦデータ（たとえば、ロス・オブ・ライン、システム・ビジー、無効アクセス・コード等）を含むことも可能である。

トレーニング・モードまたは認識モードのいずれにおいても、ユーザの話した入力音声の特徴は音響プロセッサ１１０によって抽出される。スイッチ２１５の位置“Ａ″によって第２図に表わされているトレーニング・モードにおいては、ワード特徴情報はトレーニング・プロセッサ１７０のワード平均化器２２０に印加される。前述のとおり、システムが複数の発声を共に平均化し°て単一のワード・テンプレートを形成するように設計されている場合は、平均化処理はワード平均化器２２０によって行なわれる。ワード平均化処理を使用することによって、トレーニング・プロセッサは同一ワードの２つ以上の発声間の微小変化を考慮に入れることが可能になり、これによって一層信頼できるワード・テンプレートを生成することができる。多くのワード平均化手法を用いることが可能である。たとえば、一つの方法としてはすべてのトレーニング発声のうちの同様のワード特徴、のみを組み合せてそのワード・テンプレートに対する“最良“の特徴のセットを生成することが挙げられる。

他の手法としてはすべてのトレーニング発声を単に比較していずれの発声が“最良“のテンプレートを生じるかを決定することであろう。さらに他のワード平均化手法としては、Ｊｏｕｒｎａｌ　ｏｆ　ｔｈｅ　Ａｃｏｕｓｔｉｃ　５ｏｃｉｅｔｙ　ｏｒＡｍｅｒｉｃａのｖｏｌ。

８８　（１９８０年１１月）の　１，２７１〜１．２７Ｅｉ頁にり、　Ｒ，Ｒａｂｉｎｅｒおよ　び」、Ｇ、ν１ｌｐｏｎが記述した”Ａ　Ｓｉｍｐ目ｆｌｅｄ　ＲｏｂｕｓｔＴｒａｉｎｉｎｇ　Ｐｒｏｃｅｄｕｒｅ　ｆｏｒ　５ｐｅａｋｅｒ　Ｔｒａｉｎｅｄ、　１ｓｏｌａｔｅｄＷｏｒｄ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｓｙｓｔｅｍｓ　（スピーカ・トレーンド・アイソレーティッド・ワード認識システム用の簡略・強靭なトレーニング手順）”と称するものがある。

データ整理器２３０は、ワード平均化器の存否に従って、ワード平均化器２２０からの平均化ワード・データに基づいて、または音響プロセッサ１１０から直接供給されるワード特徴情報に基づいて、データ整理を行なう。いずれの場合も、整理処理はこの“原始″ワード特徴データを区分化することと、各々の区分内のデータを組み合せることとから成っている。テンプレートに対する記憶域必要量は、“整理”ワード特徴データを生成するための区分化データの差分符号化（ｄｉｆｆｅｒｅｎｔｉａｌ　ｅｎｃｏｄｉｎｇ）によってさらに削減される。本発明のこの特殊データ整理手法は、第４および５図に関連して十分に説明されている。要約すると、データ整理器２３０は原始ワード・データを圧縮して、テンプレート記憶域必要量を最小化するとともに音声認識計算時間を削減するものである。

トレーニング・プロセッサ１７０によって供給された整理ワード特徴データは、テンプレート記憶装置１６０にワード認識テンプレートとして記憶される。スイッチ２１５の位置“Ｂ”によって示されている認識モードにおいては、認識プロセッサ１２０は入力ワード特徴信号をワード認識テンプレートと比較する。有効コマンド・ワードが認識されると、認識プロセッサ１２０は装置コントローラ　１３０に命令して対応する音声通信装置制御機能が音声通信ターミナル２２５によって実行されることを可能ならしめる。このターミナル２２５は、ターミナル・ステータス・データの形で装置コントローラ　１３０に作動ステータス情報を送り返すことによって装置コントローラ　１３０に応答する。このデータは、ユーザに現在の装置の作動ステータスを通告するための適切な音声返答信号を合成する目的で、制御システムによる使用が可能である。このイベントのシーケンスは、次の例を参照することによって一層明確に理解されるであろう。

合成プロセッサ１４０は、音声シンセサイザ２４０、データ伸長器２５０、および返答記憶装置２６０によって構成されている。この構成の合成プロセッサは、（テンプレート記憶装置１６０に記憶されている）ユーザ生成用語から“テンプレート”応答を発生することはもとより（返答記憶装置２６０に記憶されている）予め記憶された用語から“録音済み“の返答をユーザに対して発生する能力を有している。

音声シンセサイザ２４０および返答記憶装置２６０は第３図に関連してさらに説明を加え、そしてデータ伸長器２５０は第８ａ図に関する記述に十分に詳しく説明しである。共同して、合成プロセッサ１４０のブロックはスピーカ　２４５に対する音声返答信号を発生する。従って、第２図は音声認識および音声合成の両方に単一のテンプレート記憶装置を使用する手法を説明している。

記憶された電話番号ディレクトリから音声制御ダイヤリングを使用する“自動化（ｓｍａｒｔ）”電話ターミナルの簡略化例をここで用いて、第２図の制御システムの作用を説明することにする。最初は、トレーニングされていないスピーカ依存音声認識システムは、コマンド・ワードを認識することができない。従って、おそらく特殊のコードを電話機キーバッドに入力することによって、ユーザは装置を手動で刺激（ｐｒｏｎ＋ｐｔ）　Ｌ、てトレーニング手順を開始させなければならない。装置コントローラ　１３０は、スイッチ　２１５をトレーニング・モード（位置“ｌ”）に入るように指示する。装置コントローラ　１３０はつぎに音声シンセサイザ２４０に対して、返答記憶装置２６０から得られた“録音済み”の返答である事前に定義された句ＴＲＡＩＮＩＮＧ　ＶＯＣＡＢＵＬＡＲＹ　ＯＮＥ（トレーニング用語１）に返答するように命令する。ユーザはつぎに、５ＴＯＰＥ　（記憶）またはＲＥＣＡＬＬ　（再呼出し）のようなコマンド・ワードをマイクロフォン２０５に対して発声することによってコマンド・ワード用語を確立し始める。

この発声の特徴は、先ず音響プロセッサ１１０によって抽出され、つぎにワード平均化器２２０また。はデータ整理器２３０のいずれかに印加される。同一ワードの複数の発声を受け入れるように特殊の音声認識システムが設計されている場合は、ワード平均化器２２０は特にそのワードを最もよく表わしている１組の平均化ワード特徴を生成する。システムがワード平均化能力を有していない場合は、（複数の発声の平均化されたワード特徴ではなく）単一の発声ワード特徴がデータ整理器２３０に印加される。このデータ整理処理は、不必要すなわち重複した特徴データを除去し、残りのデータを圧縮し、かつ“整理′ワード認識テンプレートをテンプレート記憶装置１６０に提供する。数字の認識のためシステムをトレーニングするため同様な手順が続く。

コマンド・ワード用語によってシステムがトレーニングに入ると、ユーザは電話ディレクトリの名前および番号を入力することによってトレーニング手順を続けなければならない。この作業を完成させるため、ユーザは以前にトレーニングされているコマンド・ワードＥＮＴＥＲ（入力）を発声する。この発生が有効なユーザ・コマンドとして認識されると、装置コントローラ　１３０は音声シンセサイザ２４０に、返答メモリ　２６０に記憶された″録音済み“の句ＤＩＧＩＴＳＰＬＥＡＳＥ　？　（数字をどうぞ？）によって返答するように命令する。適切な電話番号数字（たとえば、５５５−１２３４）を入力すると、ユーザはＴＥｌ？ＭＩＮＡＴＥ　（終り）と発声し、システムはＮＡＭＥ　ＰＬＥＡＳＥ　（お名前をどうぞ？）と返答して対応するディレクトリの名前（たとえば、５ＷＩＴＨ（スミス））のユーザ入力を促す。このユーザ会話型処理は、電話番号ディレクトリが適切な電話芯および数字で完全に埋まるまで続く。

電話をかける場合は、ユーザはコマンド・ワードＲＥＣＡＬＬ（再呼出し）を単に発声する。この発声が認識プロセッサ１２０によって有効なユーザ・コマンドとして認識されると、装置コントローラ　Ｊ、　３０は音声シンセサイザ２４０に返答記憶装置２６０によって供給された合成情報によって口頭の返答ＮＡＭＥ　？　（名前は？）を発生するように指示する。ユーザはここで、ダイヤルしようとする電話番号に対応するディレクトリ・インデックス内の名前（たとえば、ＪＯＮＥＳ　（ジョンズ））を話すことによって応答する。このワードは、もしそれがテンプレート記憶装置１６０に記憶されている所定の名前インデックスに一致すれば、有効なディレクトリ入力と認識されるであろう。有効であれば、装置コントローラ　１３０はデータ伸長器２５０に対してテンプレート記憶装置１８０から適切な整理ワード認識テンプレートを取得するとともに合成のためのデータ伸長処理を行なうように指示する。データ伸長器２５０は、整理ワード特徴データを“アンパック″するとともに了解可能な返答ワードのための正しいエネルギー輪郭を復元する。この伸長ワード・テンプレート・データはつぎに、音声シンセサイザ２４０に供給される。テンプレート・データと返答記憶装置のデータとの両者を使用して、音声シンセサイザ２４０は（データ伸長器２５０を通してテンプレート記憶装置１６０から）句ＪＯＮＥＳ・・・（返答記憶装置２６０から）　ＦＩＶＥ−ＦＩＶＥ−ＦＩＶＥ、　５ＩＸ−８ＥＶＥＮ−ＥＩＧＨＴ− ＮＩＮＥ　（５−’５−５．８−７−８−９）を生成する。

ユーザはつぎにコマンド・ワード５ＥＮＤ　（送れ）を話す。

このワードは、制御システムによって認識されると、装置コントローラ　１３０に対して電話番号ダイヤリング情報を音声通信ターミナル２２５に送るように命令するものである。

このターミナル２２５は、適切な通信リンクを経由してこのダイヤリング情報を出力する。電話接続が確立すると、音声通信ターミナル２２５はマイクロフォン２０５からのマイクロフォン音声を適切な゛送信路に、そして適切な受信音声路からの受信音声をスピーカ　２４５にインタフェースする。正しい電話接続が確立されない場合は、ターミナル・コントローラ　２２５は適切な通信リンク・ステータス情報を装置コントローラ　１３０に提供する。従って、装置コントロー゛う１３０は音声シンセサイザ２４０に対して、返答ワード５ＹＳＴＥ）ＩＢＵＳＹ　（システム話中）のような、供給されたステータス情報に対応する適切な返答ワードを発生するように命令する。このような方法で、ユーザは通信リンクの状態について通告され、そしてユーザ会話型音声制御ディレクトリ・ダイヤリングが達成される。

上記の作用説明は、本発明に基づく音声認識テンプレートから音声を合成する単なる１つの応用に過ぎないものである。この新規な手法は、たとえば、通信コンソール、二方向無線等の音声通信装置に対して、数多くの応用が考えられるものである。本実施例においては、本発明の制御システムは移動無線電話機に使用されている。

音声認識および音声合成は車両操縦手が４の両眼を道路に集中することを可能ならしめるが、従来のハンドセットまたは手持ちマイクロフォンは操縦手が舵輪（ハンドル）に両手を掛けることや正しい手動（または自動）変速を実行することを不能にするものである。この理由から、本実施例の制御システムは音声通信装置のハンズフリー制御を提供するためスビーカフォンを内蔵している。このスピーカフォンは、送／受音声切換機能および受信／返答音声多重化機能を行なうものである。

ここで第３図を参照すると、制御システム３００は第２図の対応諸ブロックと同一の音響プロセッサ・ブロック　１１０、トレーニング・プロセッサ・ブロック　１７０、認識プロセッサ・ブロック　１２０、テンブレニド記憶装置ブロック　１６０、装置コントローラ・ブロック　１３０、および合成プロセッサ・ブロック　１４０を使用している。しかしながら、マイクロフォン３０２とスピーカ　３７５とは音声通信ターミナルの一体化部分ではない。その代りに、マイクロフォン３０２からの入力音声信号はスビーカフオン３６０を経由して無線電話機３５０に導かれる。同様に、スビーカフオン３６０は制御システムからの合成音声と通信リンクからの受信音声との多重化の制御をも行なっている。このスピーカフオンの切換／多重化構成のさらに詳しい解析については後述することにする。ここで、音声通信ターミナルを、無線周波数（ＲＰ）チャネルを経由して適切な通信・リンクを提供するための送信機および受信機を有する無線電話機として、第３図によって説明する。この無線ブロックの詳細については後述する。

一般的にユーザの口からやや遠いところに（たとえば、車両の日よけ板上に）離れて装着されているマイクロフォン３０２は、ユーザの音声を制御システム３００に音響的に結合する。この音声信号は入力音声信号３０５を生じるため、前置増幅器３０４によって通常の場合増幅される。この音声入力は音響プロセッサ１１０に直接印加され、そして切換えられたマイクロフォン音声ライン３１５を介して無線電話機３５０に印加される前にスピーカフォン３６０によって切換えられる。

前述のとおり、音響プロセッサ１１０はユーザの話した入力音声の特徴を抽出し、ワード特徴情報をトレーニング・プロセッサ１７０と認識プロセッサ１２０との両者に供給する。

この音響プロセッサ１１０は先ず、アナログ・ディジタル（Ａ／Ｄ＞コンバータ　３１０によってアナログ入力音声をディジタル形式に変換する。このディジタル・データは、特徴抽出機能をディジタル的に行なう特徴抽出器３１２に印加される。ブロック　３１２ではいかなる特徴抽出方法でも使用可能であるが、本実施例は特殊の形の“チャネル・バンク”特徴抽出を使用している。このチャネル・バンクの処理方法によると、音声入力信号周波数スペクトルはバンドパスフィルタのバンクによって複数の個々のスペクトル帯域に分割され、そして各々の帯域に存在するエネルギー量の評価に基づいて適切なワード特徴データが生成される。この種類の特徴抽出器は、Ｂｅ１ｌ　ＳＹｓｔｅｍ　Ｔｅｃｈｎｉｃａｌ　Ｊｏｕｒｎａｌ（ベル・システム・テクニカル・ジャーナル）のＶｏｌ、８２゜Ｎｏ、５　（１９８３年５月〜６月）１．３１１〜１，３３５頁にＢ、　Ａ。

ＤａｕｔｒｉｃｈＳＬ、　Ｒ，Ｒａｂｉｎｅｒ　、およびＴ、　Ｂ、　Ｍａｒｔｉｎによる“Ｔｈｅ　Ｅｆｆｅｃｔｓ　ｏｆＳｅｌｅｃｔｅｄ　Ｓｌｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｔｅｃｈｎｉ−ｑｕｅｓ　ｏｎ　ｔｈｅ　Ｐｅｒｒｏｒｍａｎｃｅ　ｏｆａ　Ｆｉｌｔｅｒ　Ｂａｎｋ　Ｂａ５ｅｄ　ｌ５ｏ−Ｉａｔｅｄ　Ｗｏｒｄ　Ｒｅｃｏｇｎｉｚｅｒ　（選択信号処理手法の、アイ？ル−テッドワード認識器に基づくフィルタ・バンクの性能に及ぼす影響）”と題する論文に説明されている。適切なディジタル・フィルタ・アルゴリズムは、Ｌ、　Ｒ，ＲａｂｉｎｅｒおよびＢ、　ＧｏｌｄによるＴｈｅｏｒｙ　ａｎｄ　Ａｐｐｌｊｃａｔｊｏｎ　ｏｒ　ＤｉｇｉｔａｌＳｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　（ディジタル信号処理の原理と応用）（Ｐｒｅｎｔｉｅｅ　Ｈａｌｌ、　Ｅｎｇｌｅｗｏｏｄ　Ｃ１１ｆｆ’ｓ、　Ｎ、Ｊ、、　１９７５）の第４章に説明されている。

トレーニング・プロセッサ１７０は、このワード特徴データを使用してテンプレート記憶装置１６０に記憶されるべきワード認識テンプレートを生成する。先ず、エンドポイント検出器３１８はユーザのワードの適切な始端および終端位置を探し出す。これらの両エンドポイントは、入力ワード特徴データの時変全エネルギーの評価に基づいている。こ“Ａｎ　Ａｌｇｏｒｉｔｈｍ　ｆ’ｏｒ　Ｄｅｔｅｒｍｉｎｉｎｇ　ｔｈｅ　Ｅｎｄｐｏｊｎｔｓ　ｏｒＩｓｏｌａｔｅｄ　ｕｔｔｅｒａｎｃｅｓ　（分離した発声のエンドポイントを決定するアルゴリズム） ″と題するり、　Ｒ，ＲａｂｉｎｅｒおよびＭ、　Ｒ，Ｓａｍｂｕｒの論文に説明されている。

ワード平均化器３２０は、ユーザによって話された同一ワードの数個の発声を組み合せて一層正確なテンプレートを生成する。第２図において前述したように、いかなる適切なワード平均化スキームをも使用することが可能であり、またはワード平均化機能を全く省略することも可能である。

データ整理器３２２は、ワード平均化器３２０からの“原始”ワード特徴データを使用し、整理ワード認識テンプレートとしてテンプレート記憶装置１゛６０に記憶するための“整理”ワード特徴データを生成する。データ整理処理は、エネルギー・データを正規化し、ワード特徴データを区分化し、さらに各々の区分内のデータを組み合せることより基本的に成っている。組合せ区分が生成された後、記憶域必要量はフィルタ・データの差分符号化によってさらに削減される。データ整理器３２２の実際の正規化、区分化および差分符号化のステップについては、第４および５図に関連して詳しく説明しである。テンプレート記憶装置１６０の整理データ形式を示す全記憶域割当て図については、第Ｂｅ図を参照されたい。

エンドポイント検出器３１８、ワード平均化器３２０、およびデータ整理器３２２は、トレーニング・プロセッサ１７０を構成している。トレーニング・モードにおいては、装置コントローラ　１３０からのトレーニング制御信号３２５は、これら３つのブロックに対して、テンプレート記憶装置１６０に記憶するための新しいワード・テンプレートを生成するように命令する。しかし、認識モードにおいては、この機能は音声認識時には必要でないので、トレーニング制御信号８２５はこれらのブロックに対して新しいワード・テンプレートの生成処理を一時中止するように指示する。従うて、トレーニング・プロセッサ１７０はトレーニング・モードにおいてのみ使用される。

テンプレート記憶装置１６０は、認識プロセッサ１２０において入力音声と突き合せられるべきワード認識チンプレートラ記憶する。このテンプレート記憶装置１６０は、任意のアドレス構成で形成することができる標準ランダムアクセス記憶装置（ＲＡＭ）で一般的に成っている。音声認識システムに使用可能な汎用ＲＡ）ｌとしては、東芝５５［ｉ５８Ｋ　Ｘ８スタティックＲＡＭがある。しかしながら、システムがオフになった場合にワード・テンプレートが保持されるように、不揮発性ＲＡＭを使用することが好ましい。本実施例においては、ＥＥＰＲＯＭ　（電気的消去可能・プログラム可能読出し専用記憶装置）がテンプレート記憶装置１１１ｉ０として機能している。

テンプレート記憶装置１６０に記憶されているワード認識テンプレートは、音声認識プロセッサ１２０および音声合成プロセッサ１４０に供給される。認識モードにおいては、認識プロセッサ１２０はこれらの予め記憶されたワード・テンプレートを音響プロセッサ１１０より供給された入力ワード特徴と比較する。本実施例においては、この認識プロセッサ１２０は２個の異なるブロック・・・すなわちテンプレート・デコーダ３２８と音声認識器３２６とから構成されていると考えることができる。テンプレート・デコーダ３２８は、音声認識器３２Ｂがその比較機能を実行できるように、テンプレート記憶装置より供給された整理特徴データを翻訳する。

簡単に言うと、テンプレート・デコーダ３２８はテンプレート記憶装置から整理データを得る効果的な“ニブル−モード・アクセス手法“を実施し、かつ音声認識器３２６が情報を利用できるように整理データについて差分デコーディングを行なう。テンプレート・デコーダ３２８については、第７ｂに関する説明に詳しく述べである。

上述のことから、データ整理器３２２を使用して特徴データをテンプレート記憶装置１６０に記□憶するための整理データの形式に圧縮する手法と、整理ワード・テンプレート情報をデコードするためにテンプレート・デコーダ３２８を使用することとは、本発明がテンプレート記憶域必要量を軽減することを可能ならしめている。

実際の音声認識比較処理を行なう音声認識器３２Ｂは、数種の音声認識アルゴリズムの１つを使用することができる。

本実施例の認識アルゴリズムは、近連続音声認識、ダイナミック・タイム・ワービング、エネルギー正規化、およびチェビシェフのディスタンス・メトリック（Ｃｈｅｂｙｓｈｅｖｄｉｓｔａｎｃｅ　ｍｅｔｒｉｃ）を取り入れてテンプレートとの突合せ（一致）を決定している。詳しい説明については、第７ａ図３〜５月、Ｖｏｌ、　２．８９９〜９０２頁に’Ａｎ　Ａｌｇｏｒｉｔｈａ　ｆｏｒｃｏｎｎｅｃｔｅｄ　Ｗｏｒｄ　Ｒｅｃｏｇｎｉｔｉｏｎ　（連結ワード認識に関するアルゴリズム）”と題してＪ、　Ｓ、　ＢｒｉｄｌｅＳＭ、　Ｄ、　Ｂｒｏｗｎ　。

およびＲ，Ｍ、　Ｃｈａｎ＋ｂｅｒｌａｉｎが記述しているような従来技術の認識アルゴリズムも使用可能である。

本実施例においては、８ビツトのマイクロコンピュータが音声認識器３２Ｂの機能を果している。その上、第３図の数個の他の制御システム・ブロックがＣ０ＤＥＣ／ＦＩＬＴＥＲ（符復号器／フィルタ）およびＤＳＰ　（ディジタル信号プロセッサ）の助けをかりて同一マイクロコンピュータによって部分的に使用されている。本発明に使用可能な音声認識器３２６用の代替ハードウェア構成はｓ　ＪＥＥＥＩｎｔｅｒｎａＮｏｎａｌｃｏｎｒｅｒｅｎｅｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ、５ｐｅｅｃｈ、ａｎｄ　ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ　（音響、音声、および信号処理に関するＩＥＥＥ国際会議）　（１９８２年３〜５月）　、Ｖｏｌ、２．８６３〜８６６頁に”Ａ　Ｒｅａｌ−Ｔｌｍｅ　Ｈａｒｄｗａｒｅ　Ｃｏｎｔｉｎｕｏｕｓ　５ｐｅｅｃｈ　ＲｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍ　（リアルタイム・ハードウェア連続音声認識システム″と題してＪ、　Ｐｅｃｋｈａｎ＋、　Ｊ、　Ｇｒｅｅｎ、　Ｊ、　Ｃａｎｎｉｎｇ、およびｐ、　５ｔｅｖｅｎｓが記述した論文に記載されているとともに、関連事項もこの論文に収録されている。従って、本発明はいかなる特定のハードウェアまたはいかなる特定の種類の音声認識にも限定されるものではない。さらに詳しく言えば、本発明は分離または連続ワード認識の使用と、ソフトウェアに基礎を置〈実施またはハードウェアに基礎を置〈実施の使用とを意図している。

制御ユニット　３３４およびディレクトリ記憶装置３３２から成る装置コントローラ　１３０は、音声認識プロセッサ１２０および音声合成プロセッサ１４０を２方向インタフェース−バスによって無線電話機３５０にインタフェースする役割を果している。制御ユニット　３３４は一般的には、ラジオ・ロジック　３５２からのデータを制御システムの他のブロックにインタフェースする能力を有する制御マイクロプロセッサでアル。この制御ユニット　３３４は、制御ヘッドのアンロッキング、電話呼出しの設定、電話呼出しの終了等のような無線電話機３５０の運用制御をも行なう。無線機に対する個々のハードウェア・インタフェース構造に依存して制御ユニット　３３４は、ＤＴＭＦダイヤリング、インタフェース・バスの多重化、および制御機能意志決定のような特殊制御機能を実施するための他のサブ・ブロックを取り入れることができる。その上、制御ユニッ°ト３３４のデータ・インタフェース機能はラジオ・ロジック　３５？、の現存ハードウェア内に組。

み込むことができる。従って、ハードウェア特殊制御プログラムが、無線機のタイプごとにまたは電子装置への適用の種類ごとに通常の場合用意されている。

ディレクトリ記憶装置３３２、すなわち、ＥＥＰＲＯＭは複数の電話番号を記憶し、これによってディレクトリ・ダイヤリングを可能ならしめている。記憶される電話番号ディレクトリ情報は電話番号を入力するトレーニング処理の量制御ユニット　８３４からディレクトリ記憶装置３３２に送出され、一方、このディレクトリ情報は有効なディレクトリ・ダイヤリング・コマンドの認識に応答して制御ユニット　３３４に供給される。使用されている個々の装置によって、ディレクトリ記憶装置３３２を電話装置°自体に組み込むことが一層経済的でありうる。しかしながら一般的には、コントローラ・ブロック　１３０は電話ディレクトリ記憶機能、電話番号ダイヤリング機能、および無線運用制御機能を実行する。

コントローラ・ブロック　１３０はさらに、無線電話機の作動ステータスを表わす異なる種類のステータス情報を音声合成プロセッサ１４０に供給する。このステータス情報は、ディレクトリ記憶装置３３２に記憶された電話番号（５５５− １２３４″等）、テンプレート記憶装置１８０に記憶されたディレクトリ名前（ “スミス２、“ジョンズ等）、ディレクトリ・ステータス情報（“ディレクトリ・フル°、“名前は“等）、音声認識ステータス情報（“レディ”、“ユーザの番号は′等）、または無線電話機ステータス情報（“コール・ドロップド”、“ システム・ビジー″等）のような情報を含むことができる。従って、コントローラ・ブロック　１３０はユーザ会話型音声認識／音声合成制御システムの核心をなすものである。

音声合成プロセッサ・ブロック　１４０は、音声返答機能を果している。テンプレート記憶装置１６０に記憶されているワード認識テンプレートは５．テンプレートからの音声合成を必要とする時にはいつでもデータ伸長器３４６に供給される。前述のとおり、データ伸長°器３４６はテンプレート記憶装置１６０からの整理ワード特徴データを“アンバック”して、チャネル・バンク音声シンセサイザ３４０に対して“テンプレート”音声応答データを提供する。データ伸長器３４６の詳しい説明事項については、第８ａ図以降を参照されたい。

システム・コントローラが“録音済み２の返答ワードが要求されていると判断した場合は、返答記憶装置３４４は音声返答データをチャネル・バンク音声シンセサイザ３４０に供給する。この返答記憶装置３４４は一般的にＲＯＭまたはＥＦＲＯＭで構成されている。本実施例においては、Ｉｎｔｅｌ“録音済み”または “テンプレート“音声返答データのいずれかを使用して、チャネル・バンク音声シンセサイザ３４０はこれらの返答ワードを合成するとともに、これらのワードをディジタル・アナログ（Ｄ／Ａ）コンバータ３４２に対して出力する。この音声返答はこの後ユーザに対して送られる。本実施例においては、チャネル・バンク音声シンセサイザ３４０は、１４チヤネルのボコーダの音声合成部分である。

このようなボコーダの一例が、ＩＥＥ　ＰＲＯＣ，、Ｖｏｌ。

１２７、　ｐｔ、　Ｐ、　ｎｏ、１　（１９８０年２月）の５３〜６０頁に“Ｔｈｅ　ＪＳＲＵＣｈａｎｎｅｌ　■ｏｃｏｄｅｒ　（ＪＳＲＵチャネル・ボコーダ）″と題するＪ、　Ｎ、　Ｈｏｌｍｅｓの論文に記載されている。チャネル・バ、ンク・シンセサイザに供給される情報は通常の場合、入力音声をボイス化（ｖｏｔｅｅｄ）するかまたは非ボイス化（ｕｎｖｏｉ　ｃｅｄ）するか、もしあればピッチ・レート、および１４個のフィルタの各々の利得を含んでいる。しかしながら、この技術分野の熟練者にとって明らかであるように、いかなる種類の音声シンセサイザでも基本的音声合成機能を果すために使用することができる。

チャンネル・バンク音声シンセサイザ３４０の詳細な構成が、第９ａ図以降に関して詳細に記述しである。

上述のとおり、本発明は音声認識テンプレートからの音声合成を行なって音声通信装置に対するユーザ会話型制御システムを提供する方法を教えるものである。

本実施例においては、音声通信装置は細分化（ｅｅｌ　１ｕｌａｒ）移動無線電話機のようなラジオ・トランシーバである。しかしながら、ハンズフリ一式ユーザ会話型動作を保証するいかなる音声通信装置も使用可能である。たとえば、ハンズフリー制御を必要とするいかなる単向ラジオ・トランシーバも本発明の改良制御システムを利用することができる。

つぎに第３図の無線電話機ブロック　３５０を見ると、ラジオ・ロジック　３５２は実際の無線運用制御機能を果している。

とくに、このロジックは周波数シンセサイザ３５６に対してチャネル情報を送信機３５３および受信機３５７に供給するように指示を与える。この周波数シンセサイザ３５６の機能は、水晶制御チャネル発信器によっても行なうことができる。

送受切換器３５４は、送信機３５３および受信機３５７をアンテナ３５９を通して無線周波数（１７Ｐ）チャネルにインタフェースする。単向ラジオ・トランシーバの場合は、送受切換器３５４の機能はＲＰスイッチによって行なうことができる。代表的無線電話機回路構成の一層詳しい説明については、’ＤＹＮＡ　Ｔ、Ａ、Ｃ，Ｃｅ１ｌｕｌａｒ　Ｍｏｂｉｌｅ　Ｔｅ１ｅｐｈｏｎｅ　（ＤＹＮＡ、　Ｔ、　Ａ。

Ｃ１細分化移動電話機）“と題するＭｏｔｏｒｏｌａ　ＩｎｓｔｒｕｃｔｉｏｎＭａｎｕａｌ　（モトローラ・インストラクション・マニュアル）８８Ｐ８１０６８Ｅ４０を参照されたい。

本出願においてＶＳＰ　（車両スピーカフォン）とも命名されているスピーカフォン３６０は、ユーザの話した音声を制御システムと無線電話送信機音声に、合成音声返答信号をユーザに、そして無線電話機からの受信音声をユーザに、ハンズフリ一式で音響結合する手段を提供する。前述のとおり、前置増幅器３０４はマイクロフォン３０２によって供給された音声信号を増幅し、音響プロセッサ１１０に対する入力音声信号３０５を生成する。この入力音声信号３０５はｖＳＰ送信音声スイッチ　３６２にも印加されるが、このスイッチ３６２は入力信号３０５を送信音声３１５を介して無線送信機３５３に導く。この■ＳＰ送信スイッチ３６２は、ｖＳＰ信号検出器３６４によって制御される。この信号検出器３６４は、入力信号３０５の振幅を受信音声３５５の振幅と比較してｖＳＰ切換え機能を果している。

移動無線機のユーザの送話中、信号検出器３６４は検出器出力３６１を通して正の制御信号を供給して送信音声スイッチ３６２を閉じ、かつ検出器出力３６３を通して負の制御信号を供給して受信音声スイッチ３６８を開く。これと反対に、地上通信線相手方の送話中は、信号検出器３６４は逆の極性の信号を供給して受信音声スイッチ３６８を閉じる傍ら、送信音声スイッチ３６２を開く。受信音声スイッチが閉じている間は、無線電話機受信機３５７からの受信機音声３５５は受信音声スイッチ３６８を通して、切換えられた受信音声出力３６７によってマルチプレクサ３７０に向って経路を取る。ある種の通信システムにおいては、音声スイッチ３６２および３６８を、信号検出器からの制御信号に応答して、大きさが等しいが反対の減衰をもたらす可変利得装置と置換する方が有利であるかも知れない。マルチプレクサ３７０は、制御ユニット　３３４からの多重信号３３５に応答してボイス返答音声３４５と切換えられた受信音声３６７とのいずれかに切換える。制御ユニットがステータス情報を音声シンセサイザに送出すると、マルチプレクサ信号３３５はマルチプレクサ３７０に対してボイス返答音声をスピーカに導くように指示する。■ＳＰ音声３６５は通常の場合、スピーカ　３７５に印加される前に音声増幅器３７２によって増幅される。本文に記載されている車両スビーカフォンの実施例は、本発明に適用可能な多くの可能性ある構成の１つに過ぎないこと留意されたい。

要約すると、第３図はユーザが話したコマンドに基づいて無線電話機のオペレーティング・パラメータを制御するためのハンズフリ一式ユーザ会話型音声認識制御システムを有する無線電話機を説明するものである。このコントロールシステムは、音声認識テンプレート記憶装置または“録音済み”応答返答記憶装置からの音声合成によってユーザに対して可聴のフィードバックを提供する。車両スビーカフォンは、ユーザが話した入力音声の制御システムおよび無線機送信機への、制御システムからの音声返答信号のユーザへの、そして受信機音声のユーザへの、ハンズフリ一式音響結合を提供する。認識テンプレートからの音声合成を実施することによって、無線電話機の音声認識制御システムの性能および融通性を著しく向上させる。

２、データ整理およびテンプレート記憶装置第４ａ図は、データ整理器３２２の拡大ブロック図を示したものである。前述のとおり、データ整理ブロック　３２２はワード平均化器３２０からの原始ワード特徴データを使用し、テンプレート記憶装置１６０に記憶する整理ワード特徴データを生成する。このデータ整理機能は３つのステップによって行なわれる、すなわち、（１）エネルギー正規化ブロック　４１０はチャネル・エネルギーの平均値を減じることによってチャネル・エネルギーに対する記憶値の範囲（レンジ）を縮小し、（２）区分化／圧縮ブロック　４２０はワード特徴データを区分化するとともに類似フレームを音響的に組み合せて゛クラスタ”を形成し、７そして（３）差分符号化ブロック　４３０は、実際のチャネル・エネルギー・データではなく、記憶のため隣接チャネル間の差を生成し、記憶装置の必要量をさらに軽減する。これらの３つの処理がすべて行なわれると、各フレームに対する整理データ形式は第６Ｃ図に示すように僅か９バイト内に記憶される。要するに、データ整理器３２２は原始ワード・データを整理データ形式へと“パック”し、記憶装置の必要量を最小限度にする。

第４ｂ図のフローチャートは、面図のエネルギー正規化ブロック　４１０によって行なわれる一連のステップを示している。ブロック　４４０でスタートすると、ブロック　４４１は以後の計算に使用される変数を初期化する。フレーム・カウントＦＣは、データ整理されるべきワードの第１フレームに対応するように１に初期化される。チャネル合計ＣＴは、チャネル−バンク特徴抽出器３１２のチャネルに一致するチャネルの合計数に初期化される。本実施例においては、１４チヤンネルの特徴抽出器が使用されている。

次に、フレーム合計ＦＴがブロック　４４２で計算される。このフレーム合計ＦＴは、テンプレート記憶装置に記憶されるべきワードについてのフレームの合計数である。このフレーム合計情報は、トレーニング・プロセッサ１７０から利用可能である。説明のため、５００ミリ秒の持続時間の入力ワードの音響的特徴が１０ミリ秒ごとに（ディジタル的に）サンプルされるものとする。各々の１０ミリ秒の時間区分をフレームと称する。従って　５００ミリ秒のワードは５０フレームから成っていることになる。この理由によって、ＦＴは５０に等しい。

ブロック　４４３は、このワードのすべてのフレームの処理が完了したか否かを試験する。現在のフレーム・カウントＦＣがフレーム合計ＦＴより大であれば、このワードのフレームで未正規化のものはないことになり、このワードに対するエネルギー正規化処理はブロック　４４４で終了する。しかし、ＦＣがＦＴよりも大でない場合は、エネルギー正規化処理は次のワード・フレームについて継続する。５０フレームのワードの上記の例によって続けてゆくと、このワードの各フレームはブロック　４４５から４５２までの間にエネルギー正規化され、フレーム−カウントＦＣはブロック　４５３においてインクレメントされ、そしてＦＣはブロック　４４３において試しメントされることになる。フレーム・カウントＦＣの５１がフレーム合計ＦＴの５０と比較されると、ブロック　４４３はブロック　４４４においてエネルギー正規化処理を終了することになる。

実際のエネルギー正規化手順は、テンプレート記憶装置内に記憶されている値の範囲を減少させるため、各々の個々のチャネルから、チャネル全体の平均値を減することに−ム・エネルギー（ＡｖＧＥＮＧ）は下記の式によって計算される。

−ＣＴＡＶＧＥＮＧ　−Σ’ＣＨ（ｉ）／ＣＴ上式において、ＣＩ（ｉ）は個々のチャネル・エネルギー、そしてＣＴはチャネルの合計数に等しい。本実施例においては、エネルギーは対数的エネルギーとして記憶され、かつエネルギー正規化処理は各々のチャネルの対数的エネルギーから平均の対数的エネルギーを実際には減じることに留意されたい。

平均フレーム・エネルギーＡＶＧＥＮＧはブロック　４４Ｂにおいて出力され、各々のフレームに対するチャネル・データの末尾位置に記憶される（第６Ｃ図のバイト９参照）。４ビツト内に平均フレーム・エネルギーを効果的に記憶するため、ＡＶＧＥＮＧは全テンプレートのピーク・エネルギー値に正規化され、そして３ｄＢステツプに量子化される。ピーク・エネルギーが値１５（４ビツト最大）を割り当てられると、テンプレート内の合計エネルギーの変化は１６ステツプｘ３ｄＢ／ステップ−４［！ｄＢとなる。好ましい実施例においては、この平均エネルギー正規化／量子化は区分化／圧縮処理（ブロック　４２０）時の高精度計算を可能ならしめるためチャネル１４の差分符号化（第６ａ図）の後に行なわれる。

ブロック　４４７は、チャネル・カウントＣＣを１に設定する。

ブロック　４４８は、チャネル・力゛ウンタＣＣによってアドレスされたチャネル・エネルギーをアキュムレータに読み込む。

ブロック　４４９は、ブロック　４４８において読み込まれたチャネル・エネルギーからブロック　４４５において計算された平均エネルギーを減じる。このステップは正規化チャネル・エネルギー・データを生成し、このデータはブロック　４５０において（区分化／圧縮ブロック　４２０に）出力される。ブロック　４５１はチャネル・カウンタをインクレメントし、そしてブロック　４５２はすべてのチャネルが正規化されたか否かを確かめる。新しいチャネル・カウントがチャネル合計より大でない場合は、処理は次のチャネル・エネルギーが読まれるブロック　４４８に戻る。しかし、フレームのすべてのチャネルが正規化完了していれば、フレーム・カウントはブロック　４５３においてインクレメントされ、データの次のフレームを取得する。すべてのフレームが正規化されると、データ整理器３２２のエネルギー正規化処理はブロック４４４で終了する。

第４ｃ図は、データ整理器のブロック　４２０の実施状態を示すブロック図である。入力特徴データは、初期フレーム記憶装置すなわちブロック　５０２のフレーム内に記憶される。

この記憶に用いる記憶装置はＲＡＭであることが好ましい。

区分化コントローラすなわちブロック　５０４は、クラスタ処理の対象になるべきフレームの制御および指定を行なう。

Ｍｏｔｏｒｏｌａ　（モトローラ）タイプ６８０５マイクロブロセッ、すのような多くのマイクロプロセッサがこの目的のため使用可能である。

本発明は、入力フレームに関連するひずみ測度を先ず計算して平均化前にフレーム間の類似性を決定することによって入力フレームが平均化について考慮されることを必要とする。この計算は、ブロック　５０４で使用しているマイクロプロセッサと類似または同一のマイクロプロセッサで行なうことが好ましい。この計算の詳細について以下に説明する。

組合せるべきフレームが決定すると、フレーム平均化器すなわちブロック　５０８はそれらのフレームを１つの代表平均フレームに組み合せる。この場合も、ブロック　５０４の場合と同様なタイプの処理手段を使用して平均化のため指定されたフレームを組み合せることができる。

データを効果的に整理するため、結果のワード・テンプレートは認識処理が劣化する点にまで変形しない範囲でなるべく少ないテンプレート記憶装置を占有するべきである。

換言すると、ワード・テンプレートを表わす情報の量は最小化されると同時に認識の正確度を最大化しなければならない。この両極端は矛盾することであるが、各々のクラスタに対して最小ひずみレベルが許容されるならば、ワード・テンプレート・データを最小化することができる。

第５ａ図は、ある与えられたひずみレベルに対し、フレームをクラスタ処理する方法を説明しているものである。音声はフレーム　５１０にグループ化された特徴データとして描かれている。５個の中央フレーム５１０はクラスタ　５１２を形成している。このクラスタ　５１２は、代表平均フレーム５１４に組み合されている。この平均フレーム　５１４は、システムに使用されている固有のタイプの特徴データに従って多くの周知の平均化方法で生成することができる。クラスタが許容のひずみレベルを満たしているか否かを判断するために、従来技術のひずみ試験を使用することができる。しかしながら、平均フレーム　５１４は類似性の測度を得るためクラスタ　５１２内のフレーム　５１０の各々と比較されることが好ましい。平均フレーム　５１４とクラスタ　５１２内の各フレーム５１０との間のディスタンスは、ディスタンスＤｉ−Ｄ５で示しである。これらのディスタンスのうちの１つが許容ひずみレベルすなわちスレッショルド・ディスタンスを越えている場合は、クラスタ　５１２は結果としてのワード・テンプレートとしては認められない。このスレッショルド・ディスタンスを超過していない場合は、クラスタ　５１２は平均フレーム　５１４として表わされている可能クラスタとして認められる。

有効クラスタを決定するこの手法は、ピークひずみ測定と呼ばれている。本実施例は２種類のピークひずみ判定基準すなわちピーク・エネルギーひずみおよびピーク・スペクトルひずみを使用している。数学的には、これは次のような式で表わされる。

Ｄ−ｗａｘ　［０１，Ｄ２．　Ｄ３．　Ｄ４．　Ｄ５］、ここにＤ１〜Ｄ５は上述のとおり各々のディスタンスを表わす。

これらのひずみ測度は、平均フレームへと組合されるべきフレームを規制する局部制約条件として使用されている。

Ｄがエネルギーまたはスペクトルひずみのいずれかに対して所定のひずみスレッショルドを超過した場合は、このクラスタは排除される。すべてのクラスタに対して同一の制約条件を維持することによって、結果としてのワード・テンプレートの相関的な品位を実現できる。

このクラスタ処理手法は、ワード・テンプレートを表わすデータを最適条件で整理するためのダイナミック・プログラミングとともに使用されている。ダイナミック・プログラミングの原理は、数学的に次の式で表わすことができる。

ＹＯ−０、およびＹｊ−ｍｉｎ　［Ｙｉ＋Ｃｉｊ］、（すべてのｉに対して）ここに、Ｙｊはノード０からノードｊまでの最小コスト・バス（ｌｅａｓｔ　ｃｏｓｔ　ｐａｔｈ）のコスト、Ｃｉｊはノードｉからノードｊに移る際に受けるコストである。この整数値ｉおよびｊは可能なノード数にわたっている。

この原理を本発明によるワード・テンプレートの整理に適用するため、いくつかの仮定を設ける。これらの仮定は、テンプレート内の情報は時間的に等しく間隔どりされた一連のフレーム（ａ　５ｅｒｉｅｓ　ｏｒｆｒａｍｅ　）の形であること、フレームを平均フレームへと組み合せる適切な方法が存在すること、平均フレームを原フレームと比較する有意義なひずみ測度が存在すること、およびフレームは隣接フレームとのみ組み合されることである。

本発明の主要目的は、所定のひずみスレッショルドを超過する。クラスタが全無存在しないと言う規制条件に従って、テンプレートを表わす最小組のクラスタを見出すことである。

下記の定義が、ダイナミック・プログラミングの原理の本発明に基づくデータ整理への適用を可能ならしめる。

Ｙｊは最初のｊフレームに対するクラスタの組合せであり、ＹＯは、この点においてはクラスタが存在しないことを意味するナル・バス（ｎｕｌ　Ｉ　ｐａｔｈ）であり、そしてフレームｉ＋１からｊのクラスタがひずみ判定基準を満足すればＣ１ｊ＝１であり、さもなければＣｉｊ　−無限大であること。

このクラスタ処理方法は、ワード・テンプレートの最初のフレームでスタートする最適クラスタ・バスを生成する。

テンプレート内の各フレームにおいて割当てられたクラスタ・バスは、これらのクラスタ・バスは全ワードに対するクラスタ処理を完全に定義しないので、部分パスと呼ばれる。この方法は、　°フレーム０゛に関連するナル・バスを初期化すること、すなわちｙｏ−ｏにすることで開始する。

このことは、ゼロ・フレームのテンプレートはそれに関連する０個のクラスタを有することを示している。各バスの相対品位を示すために、合計バスひずみが各々のバスに割り当てられる。いかなる合計ひずみ測度でも使用可能であるが、ここに述べる実施例の場合は現在のバスを定義するすべてのクラスタからのピーク・スペクトルひずみの最大値を使用している。従って、ナル・バスすなわちＹＯはゼロ合計パスひずみＴＰＤを割り当てられる。

最初の部分バスすなわちクラスタの組合せを見出すために、部分バスＹ１は次のように定義されている。

Ｙｌｌ（フレーム１における部分バス）　−ＹＯ＋ＣＤ、１上式は、１個のフレームの許容クラスタはナル・バスＹＯを取り、かつフレーム１までのすべてのフレームを付加することによって形成できることを表わしている。このため、平均フレームは実際のフレームに等しいことから、部分バスＹ１に対する合計コストは１クラスタであり、そして合計パスひずみはゼロである。

第２の部分バスＹ２の形成には、２つの可能性を考慮する必要がある。この可能性は下記のとおりである。

Ｙ２−　ｍｉｎ　［ＹＯ＋　Ｃ０，２；Ｙｌ、＋０１，２コ　。

第１の可能性は、フレーム１および２が１つのクラスタに組み合されたナル・バスＹＯである。第２の可能性は、クラスタとしての第１のフレームすなわち部分バスＹ１に第２のクラスタとしての第２のフレームを加えたものである。

この第１の可能性は１個のクラスタのコストを有し、また第２の可能性は２個のクラスタのコストを有している。

整理を最適化する目的は最も少ないクラスタを得ることであるので、第１の可能性が好ましい。Ｍｌの可能性に対する合計コストは１クラスタである。そのＴＰＤは、各フレームと２個のフレームの平均との間のピークひずみに等しい。

第１の可能性が所定のスレッショルド値を超過する局部ひずみを有している場合は、第２の可能性が選択される。

部分バスＹ３を形成するためには、下記の３つの可能性が存在する。

Ｙ３−ａ＋ｉｎ　［ＹＯ＋Ｃ０，３；　、　゛部分バスＹ３の形成は、部分バスＹ２の形成時にいずれのバスが選択されたかと言うことに依存している。部分バスＹ２は最適に形成されたものであるので、はじめの２つの可能性のうちの１つは考慮しない。従って、部分バスＹ２において選択されなかったバスは部分バスＹ３に関して考慮する必要がない。莫大な数のフレτムに対してこの手法を実行すると、絶対に最適なものとならないであろうバスを探索することなく大域的最適化解法が実現される。従９て、データ整理に要する計算時間が実質的に削減される。

第５ｂ図は、４フレームのワー°ド・テンプレートにおける最適部分バスを形成する一例を図説している。ＹｌからＹ４までの各々の部分バスは、別個の列で示しである。クラスタ処理のために考慮されるべきフレームは、アングラインが施しである。ＹＯ＋ＣＯ，１と定義しである第１の部分バスは、ただ１つの選択５２０を有している。単一フレームがそれ自体によってクラスタされる。

部分バスＹ２に関しては、最適形成は最初の２個のフレームを有する１つのクラスタ、°選択５２２を含んでいる。。この例では、局部ひずみスレッショルドを超過していると仮定すると、第２の選択５２４を取ることになる。これらの２個の組合せフレーム　５２２の上の×、印は、これらの２個のフレームを組み合せても見込みのある平均フレームとして考慮されないことを示している。以後、これを無効化選択と呼ぶことにする。フレーム２までの最適クラスタ形成は、各々が１個のフレーム５２４を有する２個のクラスタで構成されている。

部分バスＹ３については、３組の選択がある。第１の選択５２Ｂは最も望ましいものであるが、部分バスＹ２の最初の２個のフレーム　５２２を組み合せ、るとスレッショルドを超過することから、これは一般的に排除されるであろう。これは常時真実であるとは限らないのそ留意されたい。実際の最適化アルゴリズムは、部分バスＹ２の選択５２２が無効であるということのみでこの組合せを直ちに排除することはしないであろう。ひずみスレッショルドを既に超過しているクラスタに付加フレームを算入することは、副次的に局部ひずみを減少せしめる。しかし、このことはまれなことである。本例においては、このような算入は考慮していない。

無効組合せの大規模組合せも無効になるであろう。選択５３０は、選択５２２が排除されることによって無効になる。

従って、Ｘ印が第１および第３の選択５２６および５３０の上に付してあり、その各々の無効化を表示している。このため、第３の部分バスＹ３はただ２つの選択すなわち第２の５２８および第４の５３２を有している。この第２の選択５２８が一層最適（クラスタがより少ない）であり、本例においては、局部ひずみスレッショルドを超過していないものと化される。この無効化は第４の選択５３２の上のｘｘ印によって示されている。フレーム３までの最適クラスタ形成は、２つのクラスタ　５２８から成っている。第１のクラスタは第１のフレームのみを含んでいる。第２のクラスタはフレーム２および３を含んでいる。

第４の部分バスＹ４は、４つの選択対象の概念の組を有している。Ｘ印は、選択５３４．５３８．５４２、および５４８が第２の部分バスＹ２から無効になった選択５２２の結果として無効であることを示している。この結果、単に選択５３６．５４０．５４４、および５４Ｂのみを考慮すればよいことになる。

Ｙ３までの最適クラスタ化は５３２ではなく５２８であるため、選択５４６は非最適選択となることが分るので、これはｘｘ印で示されているように無効になる。残りの３つの選択のうち選択５３Ｂは代表クラスタの数を最小限にするので、この選択５３６を次に選択する。本例においては、選択５３６は局部ひずみスレッショルドを超過しないものとする。従って、全ワード・テンプレートに対する最適クラスタ形成は２個のクラスタのみで構成される。第１のクラスタは第１のフレームのみを含んでいる。第２のクラスタはフレーム２からフレーム４までを含んでいる。部分バスＹ４は最適に整理されたワード・テンプレートを表わしている。数学的には、この最適部分バスは、Ｙ１＋Ｃ１，４と定義される。

上記のパス形成手順は、各々の部分バスに対するクラスタ形成を選択的に配列することによって改善することができる。フレームは部分バスの最後のフレームからその部分バスの最初のフレームに向かってクラスタ化が可能である。

たとえば、部分バスＹＩＯの形成に際しては、クラスタ化の配列順序は：　Ｙ９＋Ｃ９，ｌＯ；’Ｙ８＋Ｃ８，１０；　Ｙ７＋Ｃ７，１０ｉ等である。フレームｌＯで構成されるクラスタが先ず考慮される。

このクラスタを定義する情報は保存され、フレーム９が加えられてクラスタＣ８，ｌＯとなる。クラスタ化フレーム９および１０が局部ひずみスレッショルドを超過する場合は、クラスタＣ９，ｌＯを定義する情報は部分バスＹ９に付加される付加クラスタと考えられない。クラスタ化フレーム９および１０が局部ひずみスレッショルドを超過しない場合は、クラスタ０８．１０が考慮される。スレッショルドを超過するまでフレームがクラスタに加えられ、スレッショルド超過時点でＹＩＯにおける部分バスの探索は完了する。次に、最適部分バス、すなわち最も少ないクラスタを有するバスがＹＩＯに対するすべての前の部分バスから選択される。このクラスタ化の選択順序は、可能性のあるクラスタ組合せの試験を限定し、これによって計算時間を削減する。

一般に、任意の部分バスＹｊにおいて、最大ｊクラスタ組合せが試験される。第５ｃ図はこのようなバスに対する選択順序づけを図説している。最適部分バスは数学的に次のように定義される。

Ｙｊ−ＩＩｌｉｎ　［Ｙｊ−１＋ｃｊ−１，ｊ　ニー：　Ｙｌ＋Ｃ１，ｊ　；ｙｏ＋ｃＯ，ｊ］　。

上式において、ｍｉｎはひずみ判定基準を満足するクラスタ・バス内の最小クラスタ数である。第５ｃ図の水平軸上にマークが付してあり、各々のフレームを示している。縦に示しである列は、部分バスＹｊに対するクラスタ形成可能性である。最下段のかっこの組すなわちクラスタ可能性Ｎｏ、　１は、第１の可能性あるクラスタ形成を決定する。この形成は、それ自体でクラスタされる単一フレームｊと、最適部分バスＹｊ−１とを含んでいる。低コストのパスが存在するか否かを判断するため、可能性Ｎｏ、　２が試験される。部分バスＹｊ−２がフレームｊ−２までは最適であるので、フレームｊとｊ−１とのクラスタ化がフレームｊまでの他の形成の存否を決定する。ひずみスレッショルドを超過するまで、フレームｊは付加隣接フレームによってクラスタされる。ひずみスレッショルドを超過すると、部分バスＹｊに対する探索は完了し、そして最も少ないクラスタを有するバスがＹｊとして取られる。

このような方法でクラスタ化を順序づけることによって、フレームｊに直接隣接しているフレームのみのクラスタ化を強制する。他の利点は、無効化選択をクラスタされるべきフレームの決定の際に使用しないことである。このため、いかなる単一部分バスに対しても、最小数のフレームがクラスタ化のために試験され、そして部分パスごとに１つのクラスタ化を定義する情報のみが記憶装置に記憶される。

各々の部分パスを定義する情報は、次の３つのパラメータを含んでいる。

（１）総計バス・コスト、すなわち、そのバス内のクラスタ数。

（２）形成された直前のバスを示すトレースバック・ポインタ（ｔｒａｃｅ−ｂａｄ　ｐｏｉｎｔｅｒ）　ｏたとえば、部分パスｙ６が（Ｙ３＋Ｃ３，８）と定義された場合、Ｙ６におけるトレースバック・ポインタは部分バスＹ３を指す。

（３）バスの総合ひずみを反映する、現在のバスに対する全バスひずみ（ＴＰＤ）。

このトレースバック・ポインタは、そのバス内のクラスタを定義する。

全パスひずみは、バスの品位を反映している。これは、各々が等しい最小コスト（クラスタ数）を有している２っの可能性あるバス形成のいずれが最も望ましいものであるかを決定するために使用される。

次の例はこれらのパラメータの応用について説明している。

部分パスＹ８に関して次の組合せが存在するものとする。

Ｙ８−　Ｙ３十Ｃ３，８または　Ｙ５＋Ｃ５，８部分パスＹ３および部分パスＹ５のコストが相等しく、かつクラスタＣ３，８およびＣ５，８が共に局部ひずみ制約条件を満たすものとする。

所望の最適形成は最小のＴＰＤを有するものである。

ピークひずみ試験を使用して、部分パスＹ８に対する最適形成は次のように決定される。

ａｋｉｎ　［ｍａｘ［Ｙ３　；クラスタ　４−８のピークひずみ〕；ＴＰＤｍａｘ［Ｙ５　；クラスタ　６−８のピークひずみ］］。

ＰＤいずれの形成が最小ＴＰＤを有しているかによって、トレースバック・ポインタはＹ３かＹ５のいずれかに設定される。

ここで第５ｄ図を見ると、この図はｊフレーム列に対する部分パスの形成に関するフローチャートを示している。このフローチャートは４個のフレームを有する、すなわちＮ−４の場合のワード・テンプレートに関するものである。

結果としてのデータ整理テンプレートは、Ｙｊ　−Ｙ１＋ＣＩ、４である第５ｂ図による例と同一である。

ナル・バス、すなわち部分パスＹＯは、コスト、トレースバック・ポインタおよびＴＰＤとともに初期化される（ブロック　５５０）。各々の部分パスはＴＰＤ　、コストおよびＴＢＰに対する各自の組の値を有していることに留意されたい。フレーム・ポインタｊは１に初期化され、第１の部分パスＹｌを示す（ブロック　５５２）。第５ｅ図のフローチャートの第２の部分に続き、第２のフレーム・ポインタには０に初期化される（ブロック　５５４）。第２のフレーム・ポインタは、その部分パスのクラスタ処理にどの程度さかのぼってクラスタを考慮するかを指定するために使用される。従って、クラスタ処理のために考慮されるべきフレームはに＋１からｊまでが指定される。

これらのフレームは平均化され（ブロック　５５Ｇ）　、そしてクラスタひずみが生成される（ブロック　５５８）。部分パスの第１のクラスタが形成されつつあるか否かを判断するため試験が行なわれる（ブロック　５６２）。この時点において、第１の部分パスが形成中である。従って、必要なパラメータを設定することによって、クラスタは記憶装置内に定義される（ブロック　５６４）。これは第１の部分パスの第１のクラスタであるので、トレースバック・ポインタ（ＴＢＰ）はナル・ワードに、コストは１に設定され、そしてＴＰＤは０のままである。

フレームｊで終結するバスに対するコストは、“ｊで終結するバスのコスト（バスｊのクラスタの数）”プラス“加えられる新しいクラスタの１°として設定される。大規模クラスタ形成に対する試験は、ブロック　５８６に示しである第２のフレーム・ポインタｋをデクレメントすることによって開始する。この時点において、ｋは−１にデクレメントされるので、無効フレーム・クラスタを防止するための試験が行なわれる（ブロック　５６８）。ブロック　５６８において実施した試験からの肯定の結果は、すべての部分パスの形成が完了しそして最適性の試験が完了したことを示すものである。第１の部分パスは、数学的にＹｌ−ＹＯ＋　Ｃ０，１と定義される。このバスは第１のフレームを含む１個のクラスタで構成されている。ブロック　５７０に示す試験は、すべてのフレームがクラスタ化されたか否かを判断する。クラスタ化されるフレームがまだ３個ある。次の部分パスは、第１のフレーム・ポインタｊをインクレメントすることによって初期化される（ブロック　５７２）。第２のフレーム・ポインタはｊの前の１フレームに初期化される（ブロック５５４）。従って、ｊはフレーム２を指し、ｋはフレーム１を指す。

フレーム２はブロック　５５６において単独に平均される。

ブロック　５６２において行なわれる試験で、ｊかに＋１に等しいことを決定し、流れは第１の部分パスＹ２を定義するためのブロック　５６４に進む。ポインタには、次のクラスタを考慮するためブロック　５６６においてデクレメントされる。

フレーム１および２は平均されてＹＯ＋００．２を形成しくブロック　５５Ｂ）　、そしてひずみ測度が生成される（ブロック５５８）。これは形成される第１のパスではないので（ブロック　５６２）　、流れはブロック　５６０に進む。

ひずみ測度はスレッショルドと比較される（ブロック　５６ｏ）。本例においては、フレーム１と２とを組み合せるとスレッショルドをＹ１＋Ｃ１，２が部分パスＹ２として保存されているが、そのままフローチャートはブロック　５８０に分岐する。

このブロック　５８０に示したス・チップは、いずれかの付加フレームが既にスレッショルドを超過しているこれらのフレームと共にクラスタ化されるべきであるが否がを判断するための試験を行なうものである。一般的には、はとんどのデータの性質に起因して、この時点で付加フレームを加えることはさらにひずみスレッショルドの超過を招く結果となるものである。しかしながら、生成されたひずみ測度のスレッショルド超過が約２０％を越えない場合は、ひずみスレッショルドを超過することなく付加フレームがクラスタ化可能であることが分かっている。さらにクラスタ化を望む場合は、第２のフレーム・ポインタが新しいクラスタを指定するためにデクリメントされる（ブロック　５６Ｂ）。

さもなければ、すべてのフレームがクラスタ化されたが否かを示す試験が実施される（ブロック　５７ｏ）。

次の部分パスは、ｊを３に等しく設定して初期化される（ブロック　５７２）。

第２のフレーム・ポインタは２に初期化される。フレーム３は単独に平均化され（ブロック５５６）、そしてひずみ測度が生成される（ブロック　５５８）。

これはＹ８に対して形成された第１のパスであるので、この新しい、パスは定義されかつ記憶装置に保存される（ブロック　５６４）。第２のフレーム・ポインタはデクリメントされ（ブロック　５６Ｂ）　、大規模クラスタを指定する。この大規模クラスタは、フレーム２および３で構成されている。

これらのフレームは平均化され（ブロック　５５Ｂ）　、ひずみが生成される（ブロック　５５８）。これは形成される第１のパスではないので（ブロック　５８２）　、流れはブロック５６０に進む。この例では、スレッショルドを超過しない（ブロック　５６０）。このパスＹ１＋Ｃ１，３は２個のクラスタを有し、３個のクラスタを有するパスＹ２＋０２，３よりもさらに最適のものであるので、パスＹ１＋Ｃ１，３は以前に保存されたパスＹ２十〇２．３に部分パスＹ３として取って代わる。ｋが０にデクリメントされると、大規模クラスタが指定される（ブロック５６６）。

フレーム１〜３は平均化され（ブロック　５５６）、別、のひずみ測度が生成される（ブロック　５５８）。この例では、スレッショルドを超過する（ブロック　５６０）。付加フレームがクラスタ化されることはなく　（ブロック　５８０）　１．すべてのフレームがクラスタ化されたか否かを判断するため試験が再び行なわれる（ブロック　５７０）。フレーム４が未だクラスタ化されていないので、ｊが次の部分パスＹ４のためにインクレメントされる。第２のフレーム・ポインタはフレーム３に設定され、そしてクラスタ化処理が繰り返される。

、　フレーム４は単独に平均化される（ブロック　５５６）。再び、これは形成された最初のパスであり（ブロック　５６２）、このパスはＹ４に対して定義される（ブロック　５６４）。この部分パスＹ３＋０３，４は、３個のクラスタのコストを有している。大規模クラスタが指定され（ブロック　５８Ｂ）　、フレーム３および４がクラスタ化される。

フレーム３および４は平均化される（ブロック　５５６）。

本例においては、これらのひずみ測度はスレッショルドを超過しない（ブロック　５６０）。この部分パスＹ２＋Ｃ２，４は３個のクラスタのコストを有している。これは以前のパス（Ｙ３＋Ｃ３，４）と同一のコストを有しているので、流れはブロック　５７４および５７Ｂを通してブロック　５７８に進み、ＴＰＤはいずれのパスが最も小さいひずみを有しているかを判断するため調べられる。現在のパス（Ｙ２＋Ｃ２，４）が以前のパス（Ｙ３＋０３．４）よりも低いＴＰＤを有していれば（ブロック５７ｇ）　、このパスは以前のパスに取って代るであろうしくブロック　５６４）　、さもなければ流れはブロック　５６６に進む。

大規模クラスタが指定され（ブロック　５８Ｂ）　、フレーム２〜４がクラスタ化される。

フレーム２〜４は平均化される（ブロック　５５６）。本例においては、これらのひずみ測度はまたもスレッショルドを超過しない。この部分パスＹ１＋Ｃ１，４は２個のクラスタのコストを有している。これは以前のパス以外の部分パスＹ４に代するさらに最適のパスであるので、このパスは以前のパスに代って定義される（ブロック　５６４）。大規模クラスタが指定され（ブロック　５６Ｂ）　、そしてフレーム１〜４がクラスタ化される。

フレーム１〜４を平均化すると、本例においては、ひずみスレッショルドを超過する（ブロック　５６０）。クラスタ化は停止される（ブロック　５８０）。すべてのフレームのクラスタ化が完了したので（ブロック　５７０）　、各々のクラスタを定義している記憶情報はこの４フレームのデータ整理ワード・テンプレートに対する最適パスを定義するが（ブロック　５８２）　、これは数学的にはＹ４−　Ｙ１＋’ＣＩ、４と定義される。

本例は第３図からの最適データ整理ワード、・テンプレートの形成を説明している。フローチャートは、下記の順序による各々の部分パスに対するクラスタ化の試験を説明しＹ３　：　ｌ　２主４　１２ユ４０２３４Ｙ４：１２３４　１２３４　１２３４　＄１２３４゜フレームを示している数字は、各々のクラスタ試験に対してアングラインが付しである。スレッショルドを超過するクラスタは先頭に付した′＊゛印によって示されている。

本例においては、１０種類のクラスタ・パスが探索される。

一般に、この手順を使用する場合は、Ｎをワード・テンプレート内のフレーム数とすると、多くて［Ｎ　（Ｎ＋１）］／２個のクラスタ・パスが最適クラスタ形成を探索するために必要である。１５フレームのワード・テンプレートに関しては、すべての可能性ある組合せを、試行する探索のための１８．３８４のパスに比して、最大１２０のパスの探索を必要とすることになる。従って、本発明に基づいてこのような手順を使用すると、計算時間の著しい削減が実現される。

第５ｄおよび５ｅ図のブロック　５５２．５６８．５５４．５６２、および５８０を変更することによって、計算時間をさらに削減することができる。ブロック　５６８は、第２のフレーム・ポインタｋに設定される限界を示している。この例では、ｋはフレームＯにおけるナル・パス、すなわち部分パスＹＯによってのみ制限される。ｋは各クラスタの長さを定義するために使用されるので、クラスタ化されるフレームの数はｋに制約条件を付与することによって制約することができる。すべての与えられたひずみスレッショルドに対して、クラスタ化された場合に、このひずみスレッショルドを超過するひずみを生じさせるクラスタ数が常に存在する筈である。これに対して、ひずみスレッショルドを超過するひずみを絶対に生じない最小クラスタ形成が常に存在する筈である。従って、最大クラスタ・サイズＭＡＸＣ８と最小クラスタ・サイズ旧ＮＣ８とを定義することによって、第２のフレーム・ポインタｋを制約することができる。

ＭＩＮＣ８Ｌｔブロック　５５２．５５４、および５６２に適用することにする。ブロック　５５２に関しては、ｊは）ｌ　＋　ＮＣ３に初期化される。ことになる。ブロック　５５４に関しては、このステップにおいてｋから１を減するのではなく、旧ＮＣ８が減じられることになる。このことはｋを各々の新しい部分、パスに対して、あるフレーム数だけ戻すことになる。この結果、旧ＮＣ３よりも少ないフレームを有するクラスタは平均化されないことになる。旧ＮＣ８を収容するため、ブロック　５６２はｊ−に＋１ではなくｊ−に＋旧ＮＣ３の試験を表わすべきであることに留意されたい。

ＭＡＸＣＳはブロック　５６８に適用されることになる。

限界はＯ（ｋ＜０）以前のフレームまたはＭＡＸＣＳ（ｋ　＜　０−　ＭＡＸＣＳ）で指定されたちの以前のフレームになる。

これによって、ＭＡＸＣＳを超過することが分かつているクラスタの試験を避けることができる。

第５ｅ図の方法による場合は、これらの制約条件は数学的に次のように表わすことができる。

ｋ　＞　ｊ　−ＭＡＸＣＳ　および　ｋ〉０；　並びにｋくｊ−旧ＮＣ９および　ｊ、〉旧ＮＣ８。

たとえば、部分パスＹ１５に対してＭＡＸＣＳ　−５、および旧ＮＣ３−２とすると、最初のクラスタはフレーム１５および１４で構成され、最後のクラスタはフレーム１５〜１１で構成される。ｊは旧ＮＣ８より大または旧ＮＣ８と等しくなけれｉｆならないと言う制約条件は、クラスタが最初の旧ＮＣＳフレーム内に形成することを防止する。

サイズＭＩＮＣ８におけるクラスタはひずみスレ・ノショルドに対して試験（ブロック　５６０）されないことに注目されたい（ブロック　５６２）。このことは、有効部分ノくスがすべてＹｊＳｊ　＞ＭＩＮＣ３に対して存在することを保証する。。

本発明に基づいてこのような制約条件を使用すること（こよって、探索対象のパス数はＭＡＸＣＳとＭＩＮＣ８との間の差１こ従って削減される。

第５ｒ図は、第５ｅ図のブロック　５８２をさらに詳細に示している。この第５ｆ図は、逆の方向に各クラスタからトレースバック・ポインタ（第５ｅ図のプロ・ツク　５６４内のＴＢＰ）を使用することによってデータ整理後の出力クラスタを生成する方法を説明している。２つのフレーム・ポインタＴＢおよびＣＦが初期化される（ブロック　５９０）。ＴＢは最後のフレームのトレースバック・ポインタに初期化される。現在エンド・フレーム・ポインタであるＣＦは、ワード・テンプレートの最終フレームに初期化される。第５ｄおよび５８図力）らの例においては、ＴＢはフレーム１を、そしてＣ１１ｉフレーム４を指すことになる。フレームＴＢ＋１〜ＣＦは平均化されて、合成ワード・テンプレートに対する出力フレームを形成゛する（ブロック　５９２）。各々の平均化フレームに対する変数、またはクラスタは組み合されるフレーム数を記憶する。これは“リピート・カウント”と呼ばれ、ＣＦ−ＴＢから計算することかできる。第６Ｃ図以下を参照されたい。すべてのクラスタが出力されたか否かを判断するため試験が行なわれる（ブロック　５９４）。出力が完了していない場合は、ＣＦをＴＢに等しく設定しかつＴＢを新しいフレームＣＰのトレースノくツク・ポインタに設定することによって、次のクラスタが指示される。この手順は、すべてのクラスタが平均、化されかつ出力されて合成ワード・テンプレートを形成するまでユニークな応用を説明している。このトレ」ス、（・ツク・ポインタは、一般に無限長データと呼ばれている不定数のフレームを有するデータからクラスタを出力するための部分トレースバック・モードにおいて使用される。これは、有限数のフレーム例えば４個を有するワード・テンプレートを使用している第３および５図で説明した例とは異なるものである。

第５ｇ図は連続の２４個のフレームを示しているが、この各々のフレームには部分パスを定義するトレースノ（・ツク・ポインタが割り当てられている。この例では、旧ＮＣＳは２に、そしてＭＡＸＣＳは５に設定しである。部分トレースノくツクを無限長データに応用するには、入力データの部分を定義するためにクラスタ化されたフレームが連続的１こ出力されることを必要とする。従って、部分トレースノ（・ツクのスキームにトレースバック・ポインタを応用することによって、連続データを整理することができる。

第５ｈ図は、フレーム１０で集中し、フレーム２１〜２４で終結するすべての部分バスを図説している。フレーム１〜４．５〜７、および８〜ＩＯは最適クラスタであると判明したものであり、また集中点はフレーム１０であるので、これらのフレームは出力可能である。

第５１図は、フレーム１〜４．５〜７、および８〜ｌｏが出力された後の残りのトリーを示している。第５ｇおよび５ｂ図は、フレームＯにおけるナル・・ポインタを示している。第５１図の形成の後、フレーム１０の集中点は新しいナル・ポインタの位置を指定している。この集中点を経てトレース・バックし、かつその点からフレームを出力することによって、無限長データを収容することができる。

一般に、フレームｎとすると、トレースバックを開始すべき点はｎ、ｎ−１、ｎ −２、−ｎ　−ＭＡＸＣ３であるが、これはこれらのバスが依然として有効であり、かつさらに入力データと組み合せることが可能であるからである。

第６ａおよび６ｂ図のフローチャートは、第４ａ図の差分符号している。ブロック　６６０でスタートし、この差分符号化処理は、各チャンネルの実際のエネルギー・データの代りに、隣接チャネル間の差を生成して記憶することによって、テンプレート記憶装置の必要量を軽減している。この差分符号化処理は、第４ｂ図において説明したように、フレーム・バイ・フレームのベースで作動している。従って、初期化ブロック　６６１は、フレーム・カウントＰＣを１に、そしてチャネル合計ＣＴを１４に設定している。ブロック　６６２は以前のとおりフレーム合計ＦＴを計算する。ブロック　６６３は、ワードのすべてのフレームが符号化されたか否かを確認するための試験を行なう。すべてのフレームが処理完了していれば、差分符号化はブロック　６６４で終結する。

ブロック　６６５は、チャネル・カウントＣＣを１に等しく設定することによって、実際の差分符号化手順を開始する。

チャネル１のエネルギー正規化データが、ブロック　６６Ｂにおいてアキュムレータに読み込まれる。ブロック　６６７は、記憶域削減のためチャネル１のデータを１．５ｄＢ段階に量子化する。特徴抽出器３１２からのチャネル・データは、８ビツト／バイトを使用して最初０．３７６ｄＢ／段階として表わされる。１．５ｄＢ増分に量子化される場合は、９［ｉｄＢのエネルギー範囲（２６Ｘ　１．５ｄＢ）を表わすためには６ビツトしか要しないことになる。最初のチャネルは、隣接チャネルの差を決定するための基準を形成するため、差分符号化されない。

チャネル・データの量子化・制限化値をチャネル差分の計算に使用しないものとすると、著しい量子化エラーがブロック　４３０の差分符号化処理に混入する可能性がある。このため、内部変数）？ＱＶ　、すなわちチャネル・データの再編成量子化値を差分符号化ループの内部に導入してこのエラーを考慮している。チャネル１は差分符号化されないので、ブロック　６６８は、将来使用のためのチャネルＩ　ＲＱＶを、チャネル１の量子化データの値を単にそれに割り当てることによって、形成する。以下に説明するブロック　６７５は、残りのチャネルのためのＲＱＶを形成する。従って、量子化されたチャネル１のデータはブロック　６６９において（、テンプレート記憶装置１６０に）出力される。

チャネル・カウンタはブロック　６７０においてインクレメントされ、そして次のチャネル・データがブロック　６７１においてアキュムレータに読み込まれる。ブロック　６７２は、このチャネルデータのエネルギーを１．５ｄＢ／ステツプで量子化する。差分符号化は、実際のチャネル値ではなくチャネル間の差を記憶するので、ブロック　６７３は次式に基づいて隣接チャネルの差を決定する。

チャネル（ＣＣ）差分−〇〇　（ＣＣ）データー〇〇　（ＣＣ−１）　ＲＱＶ上記においてＣＨ（ＣＣ−１）　ＲＱＶは、前のループのブロック６７５またはＣＣ−２においてはブロック　６６８において形成された前のチャネルの再編成量子化値である。

ブロック　６７４はこのチャネル差分ビット値を、−８〜＋７最大に制限する。

このビット値を制約するとともにエネルギー値を量子化することによって、隣接チャネル差分の範囲は一１２ｄＢ／＋１０．５ｄＢになる。異なる応用による異なる量子化値またはビット制限も考えられるが、上記結果は得られた値が本応用について十分なものであることを示している。

その上、制限チャネル差分は４ビツトの符号付き数であるので、１バイトについて２個の値の記憶が可能である。従って、ここで説明した制限および量子化手順は所要データ記憶量を実質的に削減している。

しかしながら、各々の差分の制限および量子化値が次のチャネルの差分形成に使用されないとすると、著しい再編成エラーを招くことになる。ブロック　６７５は、次のチャネル差分を形成する前に量子化および制限化データから各チャネル差分を再編成することによって、このエラーを考慮に入れている。内部変数ＲＱＶは次式によって各チャネルに対して形成される。

チャネル（ＣＣ）　ＲＱＶ　−ＣＨ（ＣＣ−１）　ＲＱＶ　十ＣＨ（ＣＯ）　（７）差分上式において、ＣＩ　（ＣＣ−１）　ＲＱＶは前のチャネル差分の再編成量子化値である。従って、差分符号化ループ内にＲＱＶ変数を使用することによって、量子化エラーが後続チャネルに伝搬することを防止する。

ブロック　６７６は、量子化／制限化チャネル差分を、この差分が１バイトについて２個の値が記憶されるように、テンプレート記憶装置に出力する（第６ｃ図参照）。ブロック６７７は、すべてのチャネルが符号化されたか否かを確認するための試験である。チャネルが残っている場合は、手順がブロック　６７０から繰り返される。チャネル・カウントＣＣがチャネル合計ＣＴに等しい場合は、フレーム・カウントＦＣは以前のとおりブロック　６７８においてインクレメントされそしてブロック　６６３において試験される。

以下の計算は、本発明によって達成される整理データ・レートを説明するものである。特徴抽出器３１２は１４個のチャネルの各々に対する８ビツトの対数チャネル・エネルギー値を生成するが、この場合最下位のビットはｄＢの３／８を表わす。従って、データ整理器ブロック　３２２に印加される原始ワード・データの１フレームは、８ビツト／バイトで、１４バイトのデータで構成され、１００フレーム／秒では１１．２００ビット／秒に等しい。

エネルギー正規化および区分化／圧縮手順が実施された後は、１フレームにつき１６バイ１〜のデータを必要とする。

（１４個のチャネルの各々に対して１バイト、平均フレーム・エネルギーＡＶＧＥＮＧに対して１バイト、およびリピート・カウントに対して１バイト）。このように、データ・レートは８ビツト／バイト、１００フレーム／秒において１６バイトのデータとして計算することができ、リピート・カウントについて平均４フレームと仮定すると、３．２００ビット／秒が得られる。

ブロック　４３０の差分符号化処理が完了した後、テンプレート記憶装置１６０の各フレームは第６Ｃ図の整理データ形式に示すようになる。リピート・カウントは、バイト１に記憶される。量子化・エネルギー正規化されたチャネル１のデータは、バイト２に記憶される。バイト３〜９は、２チヤネルの差分が各々のバイトに記憶されるように分割されテイル。換言すれば、差分符号化されたチャネル２のデータはバイト３の上位ニブルに記憶され、そしてチャネル３のデータは同一バイトの下位ニブルに記憶される。チャネル１４の、差分はバイト９の上位ニブルに記憶され、そして平均化フレーム・エネルギーすなわちＡＶＧＥＮＧはバイト９の下位ニブルに記憶される。９バイト／フレームのデータ、８ビツト／バイト、　１００フレーム／秒、そして平均リピート・カウントを４とすると、データ・レートは　１．８００ビット／秒となる。

従って、差分符号化ブロック　４３０は１６バイトのデータを９バイトに整理している。リピート・カウント値が２〜１５の間にあれば、このリピート・カウントも４ビツトのニブル内に記憶可能である。すなわち、このリピート・カウント・データ形式を、記憶装置必要量を８．５バイト／フレームにさらに削減するように再配列することができる。その上、このデータ整理処理は、データ・レートを少なくとも係数６だけ減少させている（１１．２００−１．８００）。この結果、音声認識システムの複雑性と記憶装置必要量とを大幅に軽減し、これによって音声認識用語範囲の増大を可能ならしめている。

３、復号化（ｄ　ｅｃｏｄ　ｉ　ｎｇ）アルゴリズム第７ａ図は、第４ａ図のブロック　４２０に関して説明したとおり、３個の平均フレーム　７２２に組み合せたフレーム７２０を有する改良形ワード・モデルを示している。各々の平均フレーム７２２は、１つのワード・モデル内のステー）　（ｓｔａｔｅ）として示しである。各ステートは１つ以上のサブステート（５ｕｂｓｔａｔｅ）を含んでいる。サブステートの数は、このステートを形成するために組み合されたフレームの数に依存している。各サブステートは、入力フレームと平均フレームとの間の類似点測度すなわちディスタンス・スコア（ｄｉｓｔａｎｃｅ　５ｃｏｒｅｓ）を累積する関連ディスタンス・アキュムレータを有している。この改良形ワード・モデルの実施態様について第７ｂ図で説明する。

この第７ｂ図は、第３図からのブロック　１２０を、テンプレート記憶装置１８０との関係を含み特に詳しく示すために展開拡大したものである。音声認識器３２６は展開拡大されて、認識器制御ブロック　７３０１ワード・モデル・デコーダ７３２、ディスタンスＲＡＭ　７３４　、ディスタンス計算器７３６およびステート・デコーダ７３８を含んでいる。テンプレート・デコーダ３２８とテンプレート記憶装置とに関しては、この音声認識器３２６に続いて説明する。

認識器制御ブロック　７３０は、認識処理を調整するために使用されている。この調整は、（隔離ワード認識に対する）エンドポイントの検出、ワード・モデルの最良累積ディスタンス・スコアの追跡、（連結すなわち連続ワード認識のための）ワードの連結に使用されるリンク・テーブルの維持、特殊認識処理に必要な特殊ディスタンス計算、およびディスタンスＲＡＭ　７３４の初期化を含むものである。認識器制御はさらに、音響プロセッサからのデータの緩衝をも行なう。

入力音声の各々のフレームに対して、認識器はテンプレート記憶装置内のすべての有効ワード・テンプレートを更新する。認識器制御器７３０の特殊必要条件は、Ａｃｏｕ−ｓｔｉｃｓ、　５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　（音響、音声、および信号の処理）に関する１９８２年のＩ　ＥＥＥ国際会議の議事録の８９９−９０２頁にＡｎ　Ａｌｇｏｒｉｔｈｍ　ｆｏｒ　Ｃｏｎｎｅｃｔｅｄ　ＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎ　（連結ワード認識のためのアルゴリズム）′と題する論文にＢｒ１ｄｅ　、　Ｂｒｏｗｎ　、およびＣｈａｍｂｅｒｌａｌｎが記述している。この認識器制御器ブロックによって使用されている対応制御プロセッサについては、Ａｃｏｕｓｔｔｃｓ。

５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　（音響・音声、および信号の処理）に関する１９８２年のｌ　ＥＥＥ国際会議の議事録の８６３〜８６６頁に”Ａ　Ｒｅａｌ−Ｔｉｍｅ　Ｈａｒｄｗａｒｅ　Ｃｏｎｔｉｎｕｏｕｓ　ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ　Ｓｙｓｔｅｍ　（リアルタイム・ハードウェア連続音声認識システム）＃と題する論文にＰｅｃｋｈａｒＡＳＧｒｅｅｎ　ｓＣａｎｎｉｎｇ　、および５ｔｅｐｈｅｎｓが記述している〇ディスタンスＲＡＭ　７３４は、デコード処理に対して最新のすべてのサブステートに関して使用された累積ディスタンスを内容として有している。１９７７年、Ｃａｒｎｅｇｉｅ−Ｍｅｔ　ＪｏｎＵｎｉｖｅｒｓｉｔｙ　（カーネギ−・メロン大学）のＣｏｌｌ１ｐｕｔｅｒＳｃｉｅｎｃｅ　Ｄｅｐｔ、　（Ｄンピュータ科学部）のＰｈ、　Ｄ、　Ｄｉｓｓｅｒ−ｔａｔｉｏｎ　（博士論文）の”Ｔｈｅ　Ｈａｒｐｙ　５ｐｅｅｃｈ　Ｒｅｃｏｇｎ１ｔｉｏｎＳｙｓｔｅｍ　（バービイ音声認識システム）”にＢ、　Ｌｏｖｅｒｒｅが記述しているようなビーム復号化を使用する場合は、このディスタンスＲＡＭ　７３４は現在有効であるサブステートを識別するためのフラグを含むことになる。前記の“Ａｎ　Ａｌｇｏ−ｒｌｔｈｍ　ｆ’ｏｒ　Ｃｏｎｎｅｃｔｅｄ　Ｗｏｒｄ　Ｒｅｃｏｇｎｉｔｉｏｎ　（連結ワード認識のためのアルゴリズム）″に記述されているように連結ワード認識処理を使用する場合は、ディスタンスＲＡＭ　７３４は各々のサブステートに対するリンキング・ポインタをも含むことになる。

ディスタンス計算器７３６は、現在の入力フレームと処理中のステートとの間のディスタンスを計算する。ディスタンスは通常の場合、音声を表わすためそのシステムが使用している特徴データのタイプに基づいて計算される。帯域ろ（′ａ）波されたデータはユークリッド（Ｅｕｃｌ　１ｄｅａｎ）またはチェビシェフ（Ｃｈｅｂｙｃｈｅｖ）のディスタンス計算を使用することができるが、この計算については１９８３年５〜６月のＢｅ１ｌ　Ｓｙｓｔｅｍ　Ｔｅｃｈｎｉｃａｌ　Ｊｏｕｒｎａｌ　（ベル・システム・テクニカル・ジャーナル）　Ｖｏｌ、６２．　Ｎｏ、５の　１．３１１〜１．３３８頁にＢ、　Ａ、　Ｄａｕｔｒｌｃｈ、　Ｌ、　Ｒ，Ｒａｂｉｎｅｒ　ＳＴ、　Ｂ、　Ｍａｒｔｉｎが’　ＴｈｅＥｆｆｅｃｔｓ　ｏｆ’　５ｅｌｅｃｔｅｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｔｅｃｈｎｉｑｕｅｓ　ｏｎｔｈｅ　Ｐｅｒｆ’ｏｒｉａｎｃｅ　ｏｆ’　Ｆｉｌｔｅｒ−Ｂａｎｋ−Ｂａｓｅｄ　ｌ５ｏｌａｔｅｄ　ＷｏｒｄＲｅｃｏｇｎｉｚｅｒ　（選択信号処理手法のフィルタ・バンクに基づくワード認識器の性能に及ぼす影響）”と題して発表した論文に記述しである。ＬＰＧデータは対数尤度比ディスタンス計算（ｌｏｇ−１ｊｋｅｌｉｈｏｏｄ　ｒａｔｉｏ　ｄｉｓｔａｎｃｅ　ｃａｌｃｕｌａｔｉｏｎ）を使用することができ、この計算については１９７５年２月のＩＥＥＥ　Ｔｒａｎｓ、Ａｃｏｕｓｔｌｃｓ、５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ（音響１、音声および信号の処理）　ＶＯｌ、　ＡＳＳＰ−２３＜７）　６７〜７２頁に“旧ｎｆｕｍ　Ｐｒｅｄｉｃｔｉｏｎ　Ｒｅ５ｉｄｕａｌ　Ｐｒ１ｎｃｉｐｌｅ　Ａｐｐｌｉｅｄ　ｔ。

５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　（音声認識に応用される最小、予測残留の原理）′と題してＦ、　Ｉｔａｋｕｒａが発表した論文に記述されている。

本実施例はチャネル・バンク情報とも呼ばれているろ波データを使用しているので、チェビシェフ計算またはユークリッド計算のいずれでも構わない。

ステートデコーダ７３８は、入力フレーム処理時の各々の現在有効ステートについてディスタンスＲＡＭを更新する。

換言すれば、ワード・モデルデコーダ７３２によって処理された各々のワード・モデルについて、ステートデコーダ７３８はディスタンスＲＡＭ　７３４内の所要累積ディスタンスを更新する。このステートデコーダは、入力フレームとディスタンス計算器７３６によって決定された現在ステートとの間のディスタンス、および、勿論のことであるが、現在ステートを表わすテンプレート記憶装置データをも利用する。

第７ｃ図は、各々の入力フレームを処理するためにワード・モデル・デコーダ７３２が行なう諸ステップをフローチャートの形で示している。１９７７年のカーネギ−・メロン大学の計算機科学部の博士論文″Ｔｈｅ　Ｈａｒｐｙ　５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉ−ｔｉｏｎ　Ｓｙｓｔｅｍ　（バービイ音声認識システム）”にＢ、　Ｌｏｖｅｒ「ｅが記述しているビーム復号処理のような切捨て探索手法（ｔｒｕｎｃａｔｅｄ　ｓｅａｒｃｈｉｎｇ　Ｌｅｃｈｎｉｑｕｅ）を含み、多数のワード探索手法を復号処理のために使用することができる。切捨て探索手法を実施する場合は、音声認識器制御器７３０がスレッショルド・レベルと最良累積ディスタンスを保持していることが必要であることに留意されたい。

第７ｃ図のブロック　７４０において、認識器制御器（第７ｂ図のブロック　７３０）から３つの変数が抽出される。これらの３つの変数は、ＰＣＡＤＳＰＡＤおよびテンプレートＰＴＲである。

このテンプレートＰＴＲは、ワード・モデルデコーダを正しいワード・テンプレートに向けるために使用される。

ＰＣＡＤは、直前のステートからの累積ディスタンスを表わしている。この累積されたディスタンスは、シーケンス中のワード−モデルの直前のステートから存在しているものである。

ＰＡＤは直前の連続ステートから必ずしも必要ではないが、直前の累積ディスタンスを表わしている。ＰＡＤは、直前のステートが最小ドウエル・タイム０（ゼロ）を有する場合、すなわち直前のステートがともにスキップ可能な場合は、ＰＣＡＤと異なることができる。

隔離ワード認識システムにおいては、ＰＡＤおよびＰＣＡＤは、一般的には認識器制御器によって０（ゼロ）に初期化される。連結または連続ワード認識システムにおいては、ＰＡＤおよびＰＣＡＤの初期値は他のワード・モデルの出力から決定することができる。

第７ｃ図のブロック　７４２において、ステート・デコーダは個々のワード・モデルの第１のステートに対する復号化機能を行なる。このステートを表わすデータは、認識器制御器から供給されたテンプレートＰＴＲによって識別される。

このステート・デコーダ・ブロックについては、第７ｄ図で詳述する。

そのワード・モデルのすべてのステートが復号されたか否かを判断するためブロック　７４４で試験が行なわれる復号化が完了していない場合は、更新されたテンプレートＰＴＩ？を伴って、流れはステー　ト・デコーダ、すなわちブロック７４２に戻る。このワード・モデルのすべてのステートが復号されている場合は、累積ディスタンス、ＰＣＡＤとＰＡＤとがブロック　７４８において認識器制御器に戻される。この時点において、認識器制御器は復号すべき新しいワード・モデルを典型的に指定することになる。すべてのワード・モデルの処理が完了すると、音響プロセッサからの次のデータ・フレームの処理を開始しなければならない。入力の最後のフレームが復号された場合の隔離ワード認識システムについては、各々のワード・モデルに対してワード・モデル・デコーダによって返されたＰＣＡＤは、入力発声をそのワード・モデルに突き合せるための全累積ディスタンスを表わしていることになる。一般的には、最低の全累積ディスタンスを有するワード・モデルが、認識された音声によって表わされたものとして選択されることになる。テンプレートの突合せが決定すると、この情報は制御ユニット　３３４に伝達される。

第７ｄ図は、各々のワード−モデルの各々のステートに対する実際のステート復号化処理を行なうだめのフローチャート、すなわち第７Ｃ図のブロック　７４２．を拡張拡大したものを示している。累積ディスタンス、すなわちＰＣＡＤおよびＰＡＤはブロック　７５０に伝達される。ブロック　７５０において、ワード・モデル・ステートと入力フレームとのディスタンスが計算され、入力フレーム・ディスタンスを意味するＩＦＤと呼ばれる変数として記憶される。

このスーテートに対する最大ドウエルは、テンプレート記憶装置から移送される（ブロック　７５１）。この最大ドウエルは、ワード・テンプレートの各々の平均フレームに組み合されるフレーム数から決定され、そしてステート内のサブステート数に等しいものである。実際にこのシステムは、組み合されるフレームの数として、最大ドウエルを定義する。これは、ワード・トレーニング時には特徴抽出器（第３図のブロック　３１０）は入力音声を認識処理時の２倍のレートでサンプルするからである。最大ドウエルを平均化されたフレーム数に等しく設定することによって、認識時に話されるワードがテンプレートによって表わされるワードの時間長の２倍までである場合、話されたワードのワード・モデルとの突合せ（整合）を可能ならしめる。

各々のステートに対する最小ドウエルは、ステートデコード処理時に決定される。ステートの最大ドウエルのみがステート・デコーダ・アルゴリズムに伝達されるので、最小ドウエルは４で除算された最大ドウエルの整数部として計算される（ブロック　７５２）。これによって、認識時に話されるワードがテンプレートによって表わされるワードの時間長の半分である場合、話されたワードのワード・モデルとの突合せを可能ならしめる。

ドウエル・カウンタ、すなわちサブステート・ポインタｉはブロック　７５４において初期化され、処理中の現在ドウエル・カウントを表示する。各々のドウエル・カウントは、サブステートと呼ばれる。各々のステートに対するサブステートの最大数は、前述のとおり、最大ドウエルに基づいて定義される。この実施例においては、復号化処理を容易ならしめるため、サブステートは逆の順序で処理される。

従って、最大ドウエルはステート内のサブステートの全数として定義されるので、“ｉ″は最初最大ドウエルに等しく設定される。

ブロック　７５６において、一時的累積ディスタンスＴＡＤは、ＩＰＡＤ（１）と呼ばれているサブステートｉの累積ディスタンスと現在入力フレーム・ディスタンスＩＦＤとの和に等しい値に設定される。この累積ディスタンスは、前に処理された入力フレームから更新され、かつ第７ｂ図のブロック　フ３４のディスタンスＲＡＭに記憶されているものと仮定する。

Ｉ　ＰＡＤは、すべてのワード・モデルのすべてのサブステートに対する認識処理の最初の入力フレームに先立ち０に設定サブステート・ポインタはブロック　７５８においてデクレメントされる。このポインタが０に到達しない場合は（ブロック　７６０）　、このサブステートの新しい累積ディスタンスＩＦＡＤ　（１＋１）は、前のサブステートに対する累積ディスタンスＩＰＡＤ（１）と現在入力フレーム・ディスタンス１．ＰＤとの和に等しい値に設定される（ブロック　７６２）。そうでない場合は、流れは第７ｅ図のブロック　７６８に進む。

ブロック　７６４で試験が行なわれ、このステートが現在サブステートから退出可能であるか否か、すなわち“１２が最小ドウエルよりも大であるか否かまたは最小ドウエルと等しいか否かを判断する。“ｉ″が最小ドウエルより小になるまで、一時的累積ディスタンスＴＡＤは前のＴＡＤまたはＩＦＡＤ　（１＋１）のいずれかの最小値に更新される（ブロック７６６）。換言すれば、ＴＡＤは現在ステートを出る最良累積ディスタンスとして定義される。

第７ｅ図のブロック　７６８に続き、最初のサブステートに対する累積ディスタンスは、ＰＡＤであるステートに入る最良累積ディスタンスに設定される。

現在ステートに対する最小ドウエルが０であるか否かを判断するため試験が行なわれる（ブロック　７７０）。最小ドウニル値ゼロは、このワード・テンプレートの復号化においてさらに正確な突合せをもたらすために現在ステートをスキップすることができることを示している。そのステートに対する最小ドウエルがゼロでない場合は、ＰＡＤの一時的累積デイスタンスＴＡＤに等しく設定されるが、これはＴＡＤがこのステートからの最良累積ディスタンスを含んでいることによるものである（ブロック　７）２）。最小ドウエルがゼロである場合は、前のステートの累積ディスタンス出力、ＰＣＡＤ、またはこのステートからの最良累積ディスタンス出力ＴＡＤのいずれかの最小値として設定される（ブロック　７７４）。ＰＡＤは、次のステートに入ることが可能になる最良累積ディスタンスを表わしている。

ブロック　７７６において、前の連続累積ディスタンスＰＣＡＤは現在ステー）　ＴＡＤを出る最良累積ディスタンスに等しく設定される。この変数は、次のステートが最小ドウニル値ゼロを有している場合このステートに対するＰＡＤを完成させるために必要である。２つの隣接ステートが両方ともスキップされることのないように、最小許容最大ドウエルは２であることに注目されたい。

最後に、現在ステートに対するディスタンスＲＡＭポインタが更新されてそのワード・モデル内の次のステートを指す（ブロック　７７８）。このステップは、アルゴリズムを一層効果的にするためにサブステートが終りから始めまで復号化されるので必要なものである。

付録Ａに示した表は、入力フレームが３つのステートＡ１ＢおよびＣを有するワード・モデル（第７ａ図に類似）によって処理される例に適用された第７ｃ、　７ｄおよび７ｅ図のフローチャートを説明するものである。この例では、前の諸フレームはすでに処理済みであるものと仮定している。従って、この表はステートＡ、ＢおよびＣの各々のサブステートに対する“旧累積ディスタンス（ＩＦ、ＡＤ）”を示すカラムを含んでいる。

この表の上部に、この例の具現に伴って参照する情報を用意しである。３つのステートは、Ａ、Ｂ、およびＣにそれぞれ対する最大ドウエル３．８および４を有している。

各々のステートに対する最小ドウエルは、それぞれ０．２および１としてテーブルに示しである。これらは、最大ドウエル１／４の整数部として、第７ｄ図のブロック　７５２によって計算されていることに留意されたい。この表の上部にはさらに、第７ｄ図のブロック　７５０に基づく各々のステートに対する人力フレームディスタンス（ＩＦＤ）が示しである。

この情報もこの表に示すべきものではあるが、表の短縮化・簡略化のため表から除外しである。適切なブロックのみを表の左側に示しである。

この例は第７ｃ図のブロック　７４０で始まる。前の累積ディスタンスＰＣＡＤおよびＰＡＤ　、並びに復号中のワード・テンプレートの第１ステートを指すテンプレート・ポインタが認識器制御器から受け取られる。従って、この表の第１列に、ステートＡはＰＣＡＤおよびＰＡＤとともに記録されている。

第７ｄ図に移り、ディスタンス（ＩＦＤ）が計算され、最大ドウエルがテンプレート記憶装置から検索され、最小ドウエルが計算され、そしてサブステート・ポインタ″１２が初期化さ、れる。最大ドウエル、最小ドウエル、およびＩＦＤ情報は既に表の上部に用意されているので、ポインタの初期化のみが表内に示されることが必要である。第２行目は３、すなわち最後のサブステートに設定されたｉを示し、そして前の累積ディスタンスがディスタンスＲＡ）Ｉから検索される。

ブロック　７５６において、一時的累積ディスタンスＴＡＤが計算され、表の第３行目に記録される。

ブロック　７６０で行なわれた試験は表に記録されないが、表の第４行目はすべてのサブステートが処理されていないのでブロック　７６２に移る流れを示している。

表の第４行目は、サブステート・ポインタのデクレメント（ブロック　７５８）および新累積ディスタンスの計算（ブロック　７６２）の両者を示している。従って、記録されるものはｌ−２、対応する旧ＩＦＡＤおよび１４に設定された新累積ディスタンス、すなわち、現在のサブステートに対する前の累積ディスタンスに当該ステートに対する入力フレーム・ディスタンスを加算したものである。

ブロック　７６４で実施された試験の結果は肯定である。表の５行目は、現在ＴＡＤまたはＩＦＡＤ（３）のいずれかの最小値として更新された一時的累積デイスタンスＴＡＤを示している。この場合は、後者であり、ＴＡＤ＝１４となる。

流れはブロック　７５８に戻る。ポインタはデクレメントされ、第２のサブステートに対する累積ディスタンスが計算される。これは６行目に示しである。

第１のサブステートは同様に処理され、この時点におけるｉは０に等しいものとして検出され、そして流れはブロック　７６０からブロック　７６８に進む。ブロック　７６８において、ＩＰＡＤは現在ステートへの累積ディスタンスＰＡＤに基づいて第１のサブステートに対して設定される。

ブロック　７７０において、最小ドウエルが０であるか否かについて試験される。０の場合は、現在ステートは最小ドウエル値０によってスキップ可能であるので、流れはブロック　７７４に進みこのブロックでＰＡＤは一時的累積デイスタンスＴＡＤまたは前の累積ディスタンスＰＣＡＤの最小値から決定される。ステートＡに対しては最小ドウエル−０であるので、ＰＡＤは９　（ＴＡＤ）および５　（ＰＣＡＤ）の最小ドウエルのうちの５に設定される。ＰＣＡＤはこれに続いてＴＡＤに等しく設定される（ブロック　７７Ｂ）。

最後に、第１のステートは、ワード・モデル内の次のステートに更新されたディスタンスＲＡＭポインタによって完全に処理される（ブロック　７７８）。

流れは第７Ｃ図のフローチャートに戻ってテンプレート・ポインタを更新し、そして第７ｄ図に戻り（ブロック　７５０）ワード−モデルの次のステートに備える。このステートは、それぞれ５と９であるＰＡＤとＰＣＡＤとが以前のステートから移って来たものでありかつこのステートに対する最小ドウエルはゼロに等しくなく、ブロック　７６Ｂはすべてのサブステートに対して実行されないことを除き、以前と同様に処理される。従って、ブロック　７７４ではなくブロック　７７２が処理される。

ワード・モデルの第３のステートは、第１および第２のステートと同一のラインに沿って処理される。Ｓ３のステートの処理完了後、第７Ｃ図のフローチャートは認識器制御器のための新しいＰＡＤおよびＰＣＡＤ変数の処理に戻る。

要約すると、ワード・モデルの各ステートは逆の順序で一度に１サブステートだけ更新される。あるステートから次のステートに最適ディスタンスを桁上げするために、２つの変数が使用される。第１の変数ＰＣＡＤは、前の連続ステートから最小累積ディスタンスを桁上げする。第２の変数ＰＡＤは最小累積ディスタンスを現在ステートに桁上げし、（ＰＣＡＤと同じ）前のステートからの最小累積ディスタンス出力かまたは、前のステートがＯの最小ドウエルを有している場合は、前のステートからの最小累積ディスタンス出力と第２の前のステートからの最小累積ディスタンス出力とのうちの最小値のいずれかである。処理対象サブステート数を決定するため、最小ドウエルと最大ドウエルとが各ステート内に紹み合されているフレームの数に基づいて計算される。

第７ｃ、　７ｄ、および７８図は、各データ整理ワード・テンプレートの最適復号化を可能ならしめるものである。指定されたサブステートを逆の順序で復号することによって、処理時間が最小化される。しかしながら、リアルタイムの処理には各々のワード・テンプレートが迅速にアクセスされなければならないことを必要とするので、データ整、理ワードψテンプレートを容易に抽出するための特殊な配置が必要となる。

第７ｂ図のテンプレート・デコーダ３２８は、高速な方法でテンプレート記憶装置１６０から特殊形式化ワード・テンプレートを抽出するために使用されている。各々のフレームは第６ｃ図の差分形式でテンプレート記憶装置内に記憶されているので、テンプレート・デコーダ３２８はワード・モデル・デコーダ７３２が過度のオーバヘッドを伴うことなく符号化データをアクセスすることを可能ならしめるための特殊アクセス手法を使用している。

このワード・モデル・デコーダ７３２は、テンプレート記憶装置１６０をアドレスして復号対象の適切なテンプレートを指定する。アドレス・バスが両デコーダによって共用されているので、同一情報がテンプレート・デコーダ３２８に供給される。アドレスはテンプレート内の平均フレームを特に指す。各々のフレームは、ワード・モデル内のステートを表わしている。復号化を必要とするステートごとに、アドレスは一般的に変化する。

第６ｃ図の整理データ形式を再び参照すると、ワード・テンプレート・フレームのアドレスが送出されると、テンプレート・デコーダ３２８はニブル・アクセスの方法でバイト３〜９．をアクセスする。各々のバイトは８ビツトとして読み取られ、そして分離される。下位４ビツトは符号拡張を伴って一時レジスタに格納される。上位４ビツトは符号拡張を伴って下位４ビツトにシフトされ、別の一時レジスタに格納される。差分バイトの各バイトは、この方法で検索される。リピート・カウントおよびチャネル１のデータは正常の８ビツト・データ・バス・アクセスで検索され、そしてテンプレート・デコーダ３２８内に一時的に格納される。

リピート・カウント（最大ドウエル）は直接的にステート・デコーダに移り、チャネル１のデータと（今説明したように分離されかつ８ビツトに拡張された）チャネル２〜１４の差分データとは、ディスタンス計算器７３６に移る前に、第８ｂ図以降のフローチャートに基づいて差分的に復号される。

ツク図が示しである。以下に説明するように、データ伸長ブロック　３４６は第３図のデータ整理ブロック　３２２の逆の機能を果している。整理ワード・データは、テンプレート記憶装置１６０から、差分復号ブロック　８０２に印加される。ブロック　８０２で行なわれる復号化機能は、第４ａ図の差分符号化ブロック４３０で行なわれたものと本質的に逆のアルゴリルゴリズムは、現在のチャネル差分を前のチャネル・データに加算することによって、テンプレート記憶装置１８０内に記憶されている整理ワード特徴データを“アンパック“している。このアルゴリズムについては第８ｂ図のフローチャートで詳述する。

つぎに、エネルギー正規化解除（ｅｎｅｒｇｙ　ｄｅｎｏｒｍａｌｉｚａ−ｔｉｏｎ）ブロック　８０４は、第４ａ図のエネルギー正規化ブロック　４１０において行なったものと逆のアルゴリズムを生じることによって、チャネル・データに対する正しいエネルギー輪郭を回復するものである。この正規化解除手順は、すべてのチャネルの平均エネルギー値をテンプレートに記憶されている各々のエネルギー正規化チャネル値に加算する。

ブロック　８０４のエネルギー正規化解除アルゴリズムについては、第８Ｃ図のフローチャートで詳述する。

最後に、フレーム繰返しブロック　８０６は第４ａ図の区分化／圧縮ブロック　４２０によって単一フレームに圧縮されたフレーム数を決定するとともに、適当に補償するためのフレーム繰返し機能を行なう。第８ｄ図のフローチャートが示しているように、このフレーム繰返しブロック　８０６は同一のフレーム・データ“Ｒ゛、回数を出力するが、ここにＲはテンプレート記憶装置１６０から得られた事前記憶リピート・カウントである。従って、テンプレート記憶装置からの整理ワード・データは、音声シンセサイザによって解読可能な“アンパックド” ワード・データを形成するために伸長される。

第８ｂ図のフローチャートは、データ伸長器３４６の差分復号化ブロック　８０２によって行なわれるステップを図説している。スタート・ブロック　８１０に続いて、ブロック　８１１は以後のステップで使用される変数を初期化する。フレーム・カウン゛トＰＣは合成対象のワードの第１フレームに対応するべく１に初期化され、チャネル合計ＣＴはチャネルバンク・シンセサイザ内のチャネルの合計数（本実施例の場合は１４）に初期化される。

つぎに、フレーム合計ＦＴがブロック　８１２において計算される。フレーム合計ＦＴは、テンプレート記憶装置から得られたワード内のフレームの合計数である。ブロック　８１３はこのワードのすべてのフレームが差分的に復号されたか否かを試験する。現フレーム・カウントＰＣがフレーム合計ＦＴより大であれば、そのワードのフレームで復号対象のものは残っていないことになり、そのワードに対する復号化処理はブロック　８１４で終結する。しかしながらＦＣがＦＴより大でなければ、差分復号化処理はそのワードの次のフレームに関して続けられる。ブロック　８１３の試験は、すべてのチャネル・データの終りを表示するためテンプレート記憶装置内に記憶されているデータ・フラグ（標識）をチェックすることによって選択的に行なわれる。

各フレームの実際の差分復号化処理はブロック　８１５で始まる。先ず、チャネル・カウントＣＣはブロック　８１５で１に等しく設定され、テンプレート記憶装置１６０から最初に読み出されるべきチャネル・データを決定する。次に、チャネル１の正規化エネルギーに対応する全バイト・データが、ブロック　８１６においてテンプレートから読み出される。チャネル１のデータは差分符号化されていないので、この１つのチャネルのデータは（エネルギー正規化解除ブロック８０４に）ブロック　８１７を経由して直ちに出力される。チャネル・カウンタＣＣはブロック　８１８においてインクレメントされ、次のチャネル・データの記憶位置を指す。ブロック８１９はチャネルＣＣに対して差分符号化チャネル・データ（差分）をアキュムレータに読み込む。ブロック　８２０はチャネルＣＣ −１のデータをチャネルＣＣの差分に加算することによって、チャネルＣＣのデータを形成する差分復号化機能を実行している。たとえば、Ｃ０−２であれば、ブロック　８２０の方程式は次のようになる。

チャネル２のデーターチャネル１のデーターチャネル２の差分ブロック　８２１は、以後の処理のために、このチャネルＣＣのデータをエネルギー正規化解除ブロック　８０４に出力する。

ブロック　８２２は、データのフレームの終りを示すことになる、現在チャネル・カウントＣＧがチャネル合計ＣＴに等しいか否かを確認するため試験を行なう。ＣＣがＣＴに等しくない場合は、チャネル・カウントはブロック　８１８で増分され、そして、差分復号処理が次のチャネルについて行なイっれる。

すべて、のチャネルが復号化されると（ＣＣがＣＴに等しくなると）、フレーム・カウントＦＣはブロック　８２３でインクレメントされ、データの終り試験を行なうためブロック　８１３で比較される。すべてのフレームが復号化されると、データ伸長器３４６の差分復号処理はブロック　８１４で終結する。

第８ｃ図は、エネルギー正規化解除ブロック　８０４が行なう一連のステップを図説している。ブロック　８２５でスタートした後、諸変数の初期化がブロック　８２６で行なわれる。再び、フレーム・カウントＰＣは合成対象のワードの第１フレームに対応するべく１に初期化され、そしてチャネル合計ＣＴはチャネル・バンク・シンセサイザ内のチャネルの合計数（この場合は１４）に初期化される。フレーム合計ＦＴはブロック　８２７で計算され、そしてフレーム・カウントはブロック　８１２および８１３で前に試験されたように、ブロック８２８で試験される。このワードのすべてのフレームが処理されると（ＦＣがＦＴより大）、一連のステップはブロック８２９で終結する。しかしながら、フレームが依然として処理を必要とする場合は（ＰＣがＦＴより大でない）、エネルギー正規化解除機能が実行される。

ブロック　８３０において、平均フレーム・エネルギーＡＶＧＥＮＧがフレームＦＣに対するテンプレートから得られる。

これに続いて、ブロック　８３１はチャネル・カウントＣＣを１に等しく設定する。差分復号化ブロック　８ｏ２（第８ｂ図のブロック　８２０）におけるチャネル差分から形成されたチャネル・データはブロック　８３２において読み出される。このフレームは、エネルギー正規化ブロック　４１Ｏ（第４図）における各チャネルから平均エネルギーを減算することによって正規化されているので、このフレームは各チャネルに平均エネルギーを逆加算することによって同様に回復（正規化解除）される。従って、このチャネルは次式に基づいてブロック　８３３において正規化解除される。たとえば、ＣＣ−１であれば、ブロック　８３３の方程式は次のようになる。

チャネル１のエネルギー−チャネル１のデータ＋平均エネルギーこの正規化解除されたチャネル・エネルギーは、ブロック　８３４によって（フレーム繰返しブロック　８０６に）出力される。次のチャネルは、ブロック　８３５においてチャネル・カウントをインクレメントしかつすべてのチャネルが正規化解除されたか否かを確認するためブロック　８３６においてチャネル・カウントを試験することによって得られる。すべてのチャネルが未だに処理されていない（ＣＣがＣＴより大でない）場合は、正規化解除手順がブロック　８３２から始まって繰り返される。そのフレームのすべてのチャネルが処理されている（ＣＣがＣＴより大である）場合は、フレーム・カウントがブロック　８３７においてインクレメントされ、そして以前のとおりブロック　８２８において試験される。要約すると、第８ｃ図はチャネル・エネルギーが平均エネルギーを各チャネルに逆加算することによって正規化解除される方法を図説したものである。

ここで第８ｄ図を参照すると、第８ａ図のフレーム繰返しブロック　８０６で実施される一連のステップをフローチャートで示している。この場合も、処理はフレーム・カウントＦＣを１、チャネル合計ＣＴを１４にブロック　８４１において先ず初期化することによって、ブロック　８４０でスタートする。ブロック　８４２において、ワード内のフレーム数を表わしているフレーム合計ＦＴが従前のとおり計算される。

前の２つのフローチャートと異なり、個々のチャネル処理が完了しているので、フレームのすべてのチャネル・エネルギーがブロック　８４３において同時に得られる。次に、フレームＰＣのリピート・カウントＲｅがブロック　８４４においてテンプレート・データから読み出される。このリピート・カウントＲＣは、第４図の区分化／圧縮ブロック　４２０において実行されたデータ圧縮アルゴリズムから単一のフレームに組み合されたフレーム数に対応している。換言すれば、このＲＣは各々のフレームの“最大ドウニル”である。このリピート・カウントは、特定フレーム″ＲＣ″回数を出力するために使用される。

ブロック　８４５は、音声シンセサイザに対してフレームＰＣの全チャネル・エネルギーＣＨ（１−１４）　ＥＮＧを出力する。これは“アンパックド′チャネル・エネルギー・データが出力された最初の回を表わしている。このリピート・カランｈｌ？ｃは次にブロック　８４６において１だけデクレメントされる。たとえば、フレームＦＣが前に組み合されていなかった場合は、ＲＣの記憶値は１に等しい筈であり、ＲＣのデクレメント値はゼロに等しいことになる。ブ、ロック　８４７はこのリピート・カウントを試験する。ＲＣがゼロに等しくない場合は、チャネル・エネルギーの特定フレームはブロック　８４５において再び出力される。ＲＣはブロック　８４６において再びデクレメントされ、ブロック　８４７において再び試験される。

ＲＣがゼロにデクレメントされると、チャネル・データの次のフレームが得られる。このようにして、リピート・カウントＲｅは同一フレームがシンセサイザに出力される回数を表わしている。

次のフレームを得るために、フレーム・カウントＰＣはブロック　８４８においてインクレメントされ、ブロック　８４９において試験される。そのワードのすべてのフレームの処理が完了すると、フレーム繰返しブロック　８０６に対応する一連のステップはブロック　８５０で終結する。さらにフレームの処理を要する場合は、フレーム繰返し機能はブロック８４３から継続される。

前述のとおり、データ伸長ブロック　３４６は、データ整理ブロック　３２２によって“パック”された記憶テンプレート・データを“アンパック“する逆の機能を本質的に実施するものである。ブロック　８０２．８０４、および８０Ｂの別個の機能が、第８ｂ、　８ｃ、および８ｄのフローチャートで図説したワードバイワード・ベースではな（、フレームバイフレーム・ベースで実施可能であることに注目されたい。いずれの場合も、これはデータ整理手法と整理テンプレート形式手法とデータ伸長手法との組合せであり、本発明の低データ・レートにおける音声認識テンプレートから了解可能音声の合成を可能ならしめるものである。

第３図の説明のとおり、データ伸長ブロック　３４６によって供給された“テンプレート“ワード音声（ボイス）返答データと返答記憶装置３４４から供給された“録音済み′ワード音声（ボイス）返答データとの両者がチャネル・バンク音声シンセサイザ３４０に印加される。この音声シンセサイザ３４０は、制御ユニット　３３４からのコマンド信号に応答して、これらのデータ源の１つを選択する。両データ源３４４および３４６は、合成すべきワードに対応する予め記憶された音響特徴情報を含んでいる。

この音響特徴情報は、特徴抽出器３１２の帯域幅に対応する指定の周波数帯域幅内の音響エネルギーを各々が表わしている複数のチャネル利得値（チャネル・エネルギー）で構成されている。しかしながら、ボイシング（ｖｏｉｃｉｎｇ）またはピッチ情報のような他の音声合成パラメータを記憶するための用意は整理テンプレート記憶装置形式には何もない。これは、ボイシングやピッチ情報は通常の場合音声認識プロセッサ１２０に設けられていないことによるものである。従って、この情報はテンプレート記憶装置の必要量の軽減に基本的に含まれていないのが普通である。個々のハードウェア構成に基づいて、返答記憶装置３４４はボイシングおよびピッチ情報を提供することもしないこともできる。

以下のチャンネル・バンク・シンセサイザの説明は、ボイシングおよびピッチ情報はいずれの記憶装置にも記憶されていないものと仮定している。従って、チャネル・バンク音声シンセサイザ３４０はボイシングおよびピッチ情報を欠いているデータ源からワードを合成しなければならない。

本発明の一つの重要な特徴は、この問題に直接対処していることである。

第９ａ図は、Ｎ個のチャネルを有するチャネル・バンク音声シンセサイザ８４０の詳細なブロック図を示している。チャネル・データ人力９１２および９１４は、返答記憶装置３４４およびデータ伸長器３４６のチャネル・データ出力をそれぞれ表わしている。従って、スイッチ・アレイ　９１０は装置制御ユニット　３３４によって供給された“データ源決定“を表わしている。たとえば、″録音済み”ワードが合成されるべき場合は、返答記憶装置３４４からのチャネル・データ入力９１２がチャネル利得値９１５として選択される。テンプレート・ワードが合成されるべき場合は、データ伸長器３４６からのチャネル・データ人力９１４が選択される。いずれの場合も、チャネル利得値９１５はローパスフィルタ　９４０に経路付けされる。

このローパスフィルタ　９４０は、フレームツウフレーム（ｆ’　ｒａｍｅ−ｔｏ−ｆ’　ｒａｍｅ）チャネル利得変化の段階不連続性を変調器への供給前に平滑するように機能する。これらの利得平滑フィルタは、２次パターウォース（Ｂａｔｔｅｒｖｏｒｔｈ）ローパスフィルタとして一般的に構成されている。本実、絶倒においては、このローパスフィルタ　９４０は約２８　Ｈｚの一３ｄＢのカットオフ周波数を有している。

平滑化チャネル利得値９４５は次にチャネル利得変調器９５０に印加される。この変調器は、個別のチャネル利得値に応答して励起信号の利得を調整する役割を果している。

本実施例においては、変調器９５０は２つの所定のグループ、すなわち、第１の励起信号入力を有する第１の所定のグループ（１番〜Ｍ番）と、第２の励起信号入力を有する第２の変調器グループ（Ｍ＋１番〜Ｎ番）とに分割されている。

第９ａ図から理解できるように、第１の励起信号９２５はピッチ・パルス源９２０から出力され、第２の励起信号９３５はノイズ源９３０から出力される。これらの励起源については以下の図でさらに詳しく説明する。

音声シンセサイザ３４０は、本発明による１分割ボイシング（ｓｐｌｉｔ　ｖｏｉｃｉｎｇ）”と呼ばれる手法を使用している。この手法は、音声シンセサイザが外部ボイシング情報を使用することなくチャネル利得値９１５のごとき外部発生音響特徴情報から音声を復元することを可能ならしめるものである。この好ましい実施例は、ピッチ・パルス源（ボイスド励起）とノイズ源（アンボイスド励起）とを区別して変調器への単一ボイスド／アンボイスド励起信号を発生させるボイシング・スイッチ（ｖｏｔｅｉｎｇ　５ｗ１ｔｃｈ）を使用していない。対照的に、本発明はチャネル利得値から生成された音響特徴情報を２つの所定グループに“分割（ｓｐｌｉｔ）−”している。低い周波数チャネルに通常対応する第１の所定グループは、ボイスド励起信号９２５を変調する。高い周波数チャネルに通常対応するチャネル利得値の第２の所定グループは、アンボイスド励起信号９３５を変調する。共に、低い周波数および高い周波数チャネル利得値は個々に帯域ろ（濾）波されかつ組み合されて高品位音声信号を発生する。

１４チヤネルのシンセサイザ（Ｎ　−１４）に対する″９１５分割”　（Ｍ−９）が音声の質の改善にすぐれた結果をもたらすことが判明している。しかしながら、ボイスド／アンボイスド・チャネル“分割”は個々のシンセサイザの応用において音声の品位特性を最大化するために変化させることが可能であることは、この技術分野の熟練者にとって明らかなことである。

変調器１〜Ｎは、ある特定のチャネルの音響特徴情報に応答して、適当な励起信号を振幅変調するように作動する。

換言すれば、チャネルＭに対するピッチ・パルス（バズ）またノイズ（ヒス）励起信号は、このチャネルＭに対するチャネル利得値によって乗じられる。変調器９５０によって行なわれる振幅変調は、ディジタル信号処理（ＤＳＰ）手法を使用するソフトウェアで容易に実行可能である。同様に、変調器９５０はこの技術分野で周知のアナログ線形乗算器によって、実施可能である。

変調励起信号９５５の両グループ（１〜Ｍ、およびＭ＋ｌ〜Ｎ）は、次にバンドパスフィルタ　９６０に印加されてＮ個の音声チャネルを復元する。前述のとおり、本実施例は周波数範囲２５０Ｈｚ〜３，４００Ｈｚをカバーする１４チヤネルを使用している。その上、好ましい実施例はＤＳＰ手法を使用してバンドパスフィルタ　９６０の機能をソフトウェアでディジタｗｏｏｄ　ＣＮｒｆｓ、　Ｎ、　Ｊ、、　１９７５年）と題するり、　Ｒ，ＲａｂｌｎｅｒおよびＢ、　Ｇｏｌｄの論文の第６章に記述されている。

濾波されたチャネル出力９６５は、合計回路９７０において組み合される。ここでも、チャネル・コンバイナ（ｃｈａｎｎｅｌｃｏｍｂｉｎｅｒ）の機能は、ＤＳＰ手法を使用してソフトウェア的に、または合計回路を使用してハードウェア的に実施することが可能で、Ｎ個のチャネルを単一の復元音声信号９７５に組み合せることができる。

変調器／バンドパスフィルタ構成部９８０の代替実施例が第９ｂ図に示しである。この図は、この構成部が先ず励起信号９３５（または９２５）をバンドパスフィルタ　９６０に印加し、次に変調器９５０においてチャネル利得値９４５で濾波励起信号を振幅変調することで機能的に等価であることを図説している。この代替構成部９８０゛は、チャネルを復元する機能が依然として達成されているので、等価チャネル出力９６５を生成する。

ノイズ源９３０は、“ヒス“と呼ばれるアンボイスド励起信号９３５を発生する。このノイズ源出力は一般的に、第９ｄ図の波形９３５に示すとおりの一定平均電力の一連のランダムな振幅パルスである。これに対し、ピッチ・パルス源９２０は、“バズと呼ばれる一定平均電力のボイスド励起ピッチ・パルスのパルス列を発生する。一般的なピッチ・パルス源は、外部ピッチ周期ｆｏによって決定されるピッチφパルスφレートを有している。所望のシンセサイザ音声信号の音響解析から決定されたこのピッチ周期情報は、通常使用ボコーダのチャネル利得情報とともに伝送されるか、またはボイスド／アンボイスド決定およびチャネル利得情報とともに″録音済み゛ワード記憶装置に記憶されるであろう。しかしながら前述のとおり、この好ましい実施例の整理テンプレート記憶装置形式は、これらの音声シンセサイザ・パラメータのすべてが音声認識に必要でないので、これらをすべて記憶するようになっていない。従って、本発明の他の特徴は事前記憶のピッチ情報を要することなく高品位合成音声信号を提供することを指向している。

この好ましい実施例のピッチ・パルス源９２０は、第９０図にさらに詳しく説明しである。ピッチ・パルス・レートが合成されたワードの長さにわたって減少するようにピッチ・パルス周期を変えることによって、合成音声品位の著しい改善が達成可能であることが判明している。従って、励起信号９２５は、一定平均電力および事前可変レートのピッチパルスからむしろ構成される。この可変レートは、合成対象ワードの長さの関数として、かつ実験的に決定される定ピツチ・レート変化の関数として決定される。本実施例においては、このピッチ・パルス・レートはワードの長さにわたり７１ノームバイフレーム・ベースで直線的に減少する。しかしながら、他の応用においては、異なる音声音特性を生成するために異なる可変レートが所望されることもある。

第９ｃ図によると、ピッチ・パルス源９２０は、ピッチ・レート制御ユニット　９４０、ピッチ争レート・ジェネレータ９４２、およびピッチ・パルス・ジェネレータ　９４４で構成されている。ピッチ・レート制御ユニット　９４０は、ピッチ周期が変化する可変レートを決定する。本実施例においては、ピッチ・レートはピッチ・スタート・コンスタントから初期化されたピッチ・チェンジ・コンスタントから決定され、ピッチ周期情報９２２を提供する。このピッチ・レート制御ユニット　９４０の機能は、プログラム可能ランプ・ジェネレータによってハードウェア的に、またはマイクロコンピュータを制御することによってソフトウェア的に実施することができる。この制御ユニット　９４０の作動については、次の図に関連して十分詳しく説明する。

ピッチ・レート・ジェネレータ　９４２は、このピッチ周期情報を利用して規則正しい間隔でピッチ・レート信号９２３を発生している。この信号はインパルス、立上りエツジ、または他のタイプのピッチ・パルス周期を伝達する信号であり得る。このピッチ・レート・ジェネレータ　９４２は、ピッチ周期情報９２２に等しいパルス列を供給するタイマ、カウンタ、またはクリスタル・クロック発振器で構わない。

本実施例においても、ピッチ・レート・ジェネレータ　９４２の機能はソフトウェア的に実施される。

ピッチ・レート信号９２３は、ピッチ・パルス励起信号９２５に対する所望の波形を生成するためピッチ・パルス・ジェネレータ　９４４によって使用される。

このピッチ・パルス・ジェネレータ９４４は、ハードウェア波形成形回路、すなわちピッチ・レート信号９２３でクロックされる単ショット、または、本実施例の場合のように、所望の波形情報を有するＲＯＭ参照テーブル（ＲＯＭ　１ｏｏｋ−ｕｐ　ｔａｂｌｅ）であってもよい。励起信号９２５は、インパルス、チャープ（周波数掃引正弦波）または他の広帯域波形の波形を示すであろう。

従って、このパルスの性質は所望される特殊の励起信号に依存することになる。

励起信号９２５は一定平均電力のものでなければならないので、ピッチ・パルス・ジェネレータ　９４４もまた、振幅制御信号としてピッチ・レート信号９２３またはピッチ周期９２２を利用している。ピッチ・パルスの振幅はピッチ周期の平方根に比例する係数によって定められ、一定平均電力を得る。。この場合も、各パルスの実際の振幅は、所望の励起信号の性質に依存する。

第９ｃ図のピッチ・パルス源９２０に、適用した場合の第９ｄ図の以下の記述は、可変ピッチ・パルス・レートを生成するため本実施例において行なう一連のステップを説明している。第１に、合成されるべき特定のワードに対するワード長ＷＬがテンプレート記憶装置から読み出される。このワード長は、合成されるべきワードのフレームの合計数である。

本実施例においては、ＷＬはワード・テンプレートのすべてのフレームに対するすべてのリピート・カウントの合計である。第２に、ピッチ・スタート・コンスタントＰＳＣとピッチ・チェンジ・コンスタントＦＣＣとは、シンセサイザ・コントローラ内の所定の記憶位置から読み出される。第３に、ワード分割（ｗｏｒｄ　ｄｉｖｉｓｉｏｎ）の数は、ワード長警りをピッチ・チェンジ・コンスタントＦＣＣによって除算することによって計算される。このワード分割ＶＤは同一ピッチ値を有する連続フレームの数を示している。たとえば、波形９２１はワード長３フレーム、ピッチ・スタート・コンスタント５９、およびピンチ・チェンジ・コンスタント３を図説している。従って、この簡単な例においては、ワード分割はワード長（３）をピッチ・チェンジ・コンスタント（３）で除算することによりて計算され、ピッチ・チェンジ間のフレームの数を１に等しく設定する。

ｗＬ−２４およびＰＣＣ−４である場合はさらに繁雑な例となり、ワード分割は６個のフレームごとに発生することになる。

ピッチ・スタート・コンスタント５９は、ピッチ・パルス間のサンプル回数の数を表わしている。たとえば、８ＫＨｚのサンプリング・レートにおいては、ピッチ・パルスの間に５９のサンプル回数（各々その持続時間は１２５マイクロ秒）が存在することになる。従って、ピッチ周期は５９ｘ　１．２５マイクロ秒−７．３７５ミリ秒、すなわち１３５．６Ｈｚとなる。各々のワード分割の後、ピッ、チ・スタート・コンスタントは、ピッチ・レートがワードの長さにわたって減少するように、１だけインクレメントされる（すなわち、６０−　１３３．３Ｈｚ。

８１−１３１．１Ｈｚ）。ワード長が長すぎた場合、すなわちピッチ・チェンジ・コンスタントが短すぎた場合は、数個の連続フレームが同一ピッチ値を有することになる。このピッチ周期情報は、波形９２２によって第９ｄ図に表わされている。

この波形９２２が示すように、このピッチ周期情報は電圧レベルを変化させることによってハードウェア感覚的に、または異なるピッチ周期値によってソフトウェア的に表わすことができる。

ピッチ周期情報９２２がピッチ・レート・ジェネレータ９４２に印加されると、ピッチ・レート信号波形９２３が生成される。この波形９２３は、ピッチ・レートが可変ピッチ周期によって決定されたレートで減少しつつあることを、簡単な方法で示している。ピッチ・レート信号９２３がピッチ・パルス・ジェネレータ　９４４に印加されると、励起波形９２５が生成される。この波形９２５は、一定の平均電力を有する波形９２３の単なる波形成形変化である。ノイズ源９３０（ヒス）の出力を表わしている波形９３５は、周期的ボイスド励起信号とランダムアンボイスド励起信号との間の差を示している。

上述のとおり、本発明はボイシングまたはピッチ情報を必要とすることなく音声を合成する方法および装置を提供するものである。本発明の音声シンセサイザは、“分割ボイシング″の手法およびピッチ・パルス・レートがワードの長さにわたって減少するようにピッチ・パルス周期を変化させる方法を使用している。いずれかの手法を単独で使用することが可能であるが、分割ボイシングと可変ピッチ・パルス・レートとを組合せることによって、外部ボイシングまたはピッチ情報を必要とすることなく自然に響く音声を生成することができる。

本発明の特定の実施例を示して説明したが、この技術分野における熟練によってさらに変更および改善を施すことが可能であろう。本明細書に開示されかつ請求の範囲に記載された原理に基づくこれらの変更等はすべて本発明の範囲にはいるものである。

５７０か３一ψ Ｎゝ−ト°゛モチ゛ル・−ｒ′ｔｈ−゛）３文・　リフ叶手−Ｆ７４４へ特衣昭６３−５０２１４５　（３３）

Claims

【特許請求の範囲】

１．音声が初期フレームのシーケンスとして表わされる音声処理システムにおける、前記初期フレームのシーケンスを代表表現フレームの一つの整理された組に整理する方法であって、ａ）初期フレームを複数の代表表現フレームに組み合せ、ａ′）各々の前記代表表現フレームに関連したひずみ測度を生成するステップ、およびｂ′）各々の前記ひずみ測度を所定のひずみスレッショルドと比較するステップを含む組み合せのステップ、並びにｂ）代表表現フレームの数を最少化するように前記代表表現フレームの組を決定するステップで、これによって前記組内の各々の代表表現フレームが連続する初期フレームの唯一の副組を表わしかつ前記ひずみスレッショルドを超過しない関連ひずみ測度を有するような、決定のステップを具備することを特徴とする方法。
２．音声が初期フレームのシーケンスとして表わされる音声処理システムにおける、前記初期フレームのシーケンスを代表表現フレームの一つの整理された組に整理する方法であって、ａ）ｍ＜ｎとして前記シーケンス内フレームをｍからｎで命名した場合、シーケンス内の各々の初期フレームで終結しかつ各々が一連の組み合せられた初期フレームで構成される複数のクラスタ・バスを形成する形成のステップ、ｂ）ｍ≦ｊ ≦ｎかつｊは前記一連のフレーム内の１個のフレームを指定する整数とした場合、フレームｊからｎ＋１のフレームより付加代表表現フレームを形成し、ａ′）前記付加代表表現フレームに関連するひずみ測度を生成するステップ、およびｂ′）前記ひずみ測度を所定のひずみスレッショルドと比較するステップを含む形成のステップ、並びにｃ）前記ひずみ測度が前記ひずみスレッショルドを超過しない場合には前記付加代表表現フレームを前記前に形成されたクラスタ・パスに付加し、これによって代表表現フレームの結果としての整理された組がフレームｊ−１において形成された前記クラスタ・パスに付加された前記付加代表表現フレームによって構成されるようにする付加のステップを具備することを特徴とする方法。
３．前記方法はさらに、他のクラスタ・パスが一層少ない代表表現フレームを有していると決定された場合は少なくとも一つの前記クラスタ・パスを無効化するステップを含む請求の範囲１または２に記載の方法。
４．前記方法はさらに、集中基準フレームを決定するステップを含む請求の範囲１または２に記載の方法。
５．前記方法はさらに、１組の代表表現フレームに関連したひずみ測度を決定するステップを含む請求の範囲２に記載の方法。
６．音声が初期フレームのシーケンスとして表わされる音声処理システムにおける、前記初期フレームのシーケンスを代表表現フレームの一つの整理された組に整理する装置であって、ａ）初期フレームを複数の代表表現フレームに組み合せ、ａ′）各々の前記代表表現フレームに関連したひずみ測度を生成する手段、およびｂ′）各々の前記ひずみ測度を所定のひずみスレッショルドと比較する手段を含む組み合せの手段、並びにｂ）代表表現フレームの数を最少化するように前記代表表現フレームの組を決定し、これによって前記組内の各々の代表表現フレームが連続する初期フレームの唯一の副組を表わしかつ前記ひずみスレッショルドを超過しない関連ひずみ測度を有するような決定の手段を具備することを特徴とする方法。
７．音声が初期フレームのシーケンスとして表わされる音声処理システムにおける、前記初期フレームのシーケンスを代表表現フレームの一つの整理された組に整理する装置であって、ａ）ｍ＜ｎとして前記シーケンス内フレームをｍからｎで命名した場合、シーケンス内の各々の初期フレームで終結しかつ各々が一連の組み合せられた初期フレームで構成される複数のクラスタ・パスを形成する形成の手段、ｂ）ｍ≦ｊ≦ｎかつｊは前記一連のフレーム内の１個のフレームを指定する整数とした場合、フレームｊからｎ＋１のフレームより付加代表表現フレームを形成し、ａ）前記付加代表表現フレームに関連するひずみ測度を生成する手段、およびｂ）前記ひずみ測度を所定のひずみスレッショルドと比較する手段を含む形成の手段、並びにｃ）前記ひずみ測度が前記ひずみスレッショルドを超過しない場合には前記付加代表表現フレームを前記前に形成されたクラスタ・パスに付加し、これによって代表表現フレームの結果としての整理された組がフレ−ムｊ−１において形成された前記クラスタ・パスに付加された前記付加代表表現フレームによって構成されるようにする付加の手段を具備することを特徴とする装置。
８．前記装置はさらに、他のクラスタ・パスが一層少ない代表表現フレームを有していると決定された場合は少なくとも一つの前記クラスタ・パスを無効化する手段を含む請求の範囲６または７に記載の装置。
９．前記装置はさらに、集中基準フレームを決定する手段を含む請求の範囲６または７に記載の装置。
１０．前記装置はさらに、１組の代表表現フレームに関連したひずみ測度を決定する手段を含む請求の範囲７に記載の装置。