JPS63502145A - 音声認識システムにおけるデ−タ整理の最適方法 - Google Patents

音声認識システムにおけるデ−タ整理の最適方法

Info

Publication number
JPS63502145A
JPS63502145A JP87500570A JP50057087A JPS63502145A JP S63502145 A JPS63502145 A JP S63502145A JP 87500570 A JP87500570 A JP 87500570A JP 50057087 A JP50057087 A JP 50057087A JP S63502145 A JPS63502145 A JP S63502145A
Authority
JP
Japan
Prior art keywords
frames
frame
block
word
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP87500570A
Other languages
English (en)
Other versions
JP3168562B2 (ja
Inventor
ジャーソン・アイラ アラン
リンズレイ・ブレット ルイス
Original Assignee
モトロ−ラ・インコ−ポレ−テッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by モトロ−ラ・インコ−ポレ−テッド filed Critical モトロ−ラ・インコ−ポレ−テッド
Publication of JPS63502145A publication Critical patent/JPS63502145A/ja
Application granted granted Critical
Publication of JP3168562B2 publication Critical patent/JP3168562B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Complex Calculations (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 音声認識システムにおけるデータ整理の最適方法発明の背景 本発明はワード・テンプレートの生成の実施に係り、とくに、音声認識システム においてワード・テンプレートを表わすデータの整理の実施に関する。
アナログの波形のディジタル記憶を必要とするシステムにおいては、正確な表現 を具現するために莫大な量の記憶装置を割り当てなければならない。ワード認識 がこのような正確度に依存する音声認識システムにおいて、ディジタル的に音声 を記憶するには大量の記憶装置を必要とする。
このことは、多数の用語(ボキャブラリ)を必要とする音声認識システムについ てとくにあてはまる。この用語内の各ワードは、一般的にワード・テンプレート によって表わされる。各々のワード・テンプレートは、等しい時間間隔に区分化 され、話されたワードを表現するフレームを含んでいる。多数の用語を音声認識 システムに実際的にあてはめるには、二つの問題を克服しなければならない。
第1の問題は、用語をディジタル的に記憶するために大量の記憶装置を必要とす ることである。記憶装置は、コストもかかり回路基板実装も崇むものである。
第2の問題は、この代表表現データの処理に必要な計算時間である。一般に、計 算時間はテンプレート・データに必要な記憶装置の容量にしたがって直線的に増 加する。多数の用語を利用するシステムにおいては、これら二つの問題はリアル タイムでの音声認識システムの実際的作動に対して最悪の難点になっている。し たがって、所要のテンプレート・データを整理する必要性は音声認識の技術分野 で十分に認識されている。
テンプレート・データの整理は、音響的に類似しているワード・テンプレート内 の音に適用することができる。音声は一般的に等間隔に時間区分化(セグメント 化)される。
各々の区分はフレームと呼ばれている。たとえば、ゆっくり話されるワードは同 −音の単に長い継続にすぎない音声のフレームを多くの場合有している。音響的 に類似した音を有しているフレームは繰返して表現される必要がないので、これ らのフレームを代表表現フレームに組み合せることが検討されている。このよう にフレームを組み合せることを゛クラスタリング(クラスタ化)と呼んでいる。
任意の数のワード・テンプレート・フレームをクラスタリングすると、各フレー ム内の代表表現データの僅かな変化に起因して、合成フレームは原フレームに関 して幾分かひずんだものになる。一般的に、2個以上のフレームが音響的に類似 しているものと測定された場合は、フレームをクラスタリングすることによって 過度のひずみが生じることはない。フレーム間の正確な類似性測度を決定する手 法が、2個以上のフレームをクラスタ化すべきか否かを決定するために用いられ ている。
フレーム情報の類似性は、代表表現データのタイプに依存するハミング(Ha+ n+ning)計算またはチェビシェフ(Chebyshev)計算のような、 ディスタンス計算を使用して通常の場合測定される。連続するフレーム間の“デ ィスタンス(Distance)’が所定のディスタンス(隔たり)より小であ れば、ワード・テンプレートからの2個の連続するフレームは1個の単独フレー ムにクラスタすることができる。
それらの間で計算されたディスタンスが小であるフレームをクラスタリングする ことによって、音声を代表表現するデータを整理することができる。
しかしながら、この要領によるフレームのクラスタ化はワード・テンプレート内 のフレームの数量が大きい場合に問題になる。ワード・テンプレートを“最適″ に整理するためには、代表表現ワード・テンプレートは、各々の代表表現フレー ムに対するひずみ判定基準を満足させることはもとより、最少数の代表表現フレ ームを有するように生成されなければならない。一般的に、このことはワード・ テンプレート内のフレームのすべての可能性あるクラスタ化を試験することを必 要とする。クラスタは他のクラスタのシーケンスがひずみ判定基準を満足させる 一層少ないクラスタを有する結果となることのないように選択されなければなら ない。以後、このクラスタのシーケンスをこのワード・テンプレートに対するク ラスタ・バス(C1uster path)と呼ぶことにする。ひずみが最小に なり、かつクラスタ数が最少になるクラスタ・バスが、最適クラスタ・バスであ る。多数のフレームを有するワード・テンプレートに関しては、最適クラスタ・ バスを探索することは甚だしい量の計算を招く結果になる。たとえば、3個のフ レームで構成されているワード・テンプレートを考えるものとする。考慮すべき 合計4通りの可能性あるクラスタ・バス、すなわち、123.123.123. 123(各々のクラスタにはアンダラインが施しである)が存在する。5個のフ レームで構成されるワード・テンプレートに対しては、考慮すべき16通りの可 能性のあるクラスタ・バスが存在する。
一般に、N個のフレームで構成されたワード・テンプレートには、2 (N−1 +通りの考慮すべき可能性あるバスが存在する。15個のフレームで構成される ワード・テンプレートでは、テンプレート−・データを最適に整理する恐らくた だ1通りのクラスタ形成をめて16.384通りの可能性あるクラスタ・バスを 考慮することが必要になる。これらの可能性の各々について考慮する計算の必要 量は、リアルタイムの環境では実際的なものではない。
この方法でクラスタリングを実施する場合に起こる他の問題は、それぞれ特有の タイプの音声表現特徴データに対して適切なりラスタ化方法を整合させることに 関係している。一般的に、フィルタ・バンク情報(filter bankin formatlon)または線形予測係数(11near predictiv ecoeff’1cient) (L P G )情報が、音声を表ワスタメニ 使用フレームのグループ化は、LPG情報が生じるひずみと同一のひずみを必ず しも生じるとは限らない。したがって、一つのタイプの特徴データに対する最小 クラスタ組み合せは、他のタイプの特徴データに対して最小でないかもしれされ たディスタンス測度に対しても効果的に最適クラスタ・バスを生成可能なワード ・テンプレート・データに対するクラスタ化の方法である。
発明の目的と概要 したがって、本発明の目的はデータ整理処理の完了後はひずみ判定基準を満足し つつさらにすぐれたデータ整理を結果として生じるような他の可能性のあるデー タ整理が存在しないように特徴データを整理するデータ整理の方法を提供するこ とである。
本発明の他の目的は、入力音声に対しての最適に整理された代表表現データの組 を見い出す際の所要計算を最適化するデータ整理方法を提供することである。
本発明のさらなる目的は、音声を表わすために使用された特徴データに対しディ スタンス測度を与えられたデータ整理によって、受けたひずみを定義するデータ 整理の方法を提供することである。
本発明のさらに次の目的は、有限長のフレームのシーケンスに適用可能であるこ とはもとより、無限長のフレームのシーケンスに適用可能であるデータ整理の方 法を提供することである。
要約すると、本発明は各々の9代表表現フレームに関連するひずみ測度を生成す ることと各々のひずみ測度をひずみスレッショルドと比較することを含む組み合 せ処理を用いて初期(initial)フレームを複数の代表表現フレームに組 み合せることによって、これら初期フレームのシーケンスを1組の整理代表表現 フレームに整理する最適方法および装置について記述するものである。これらの 代表表現フレームから、代表表現フレームの数を最少化するための1組の相互排 除的なフレームが決定され、これによってこの組内の各々の代表表現フレームは 連続する初期フレームのない関連ひずみ測度を有することになる。
図面の簡単な説明 本発明に基づく他の目的、特徴、および利点は、添付図面に関連した以下の説明 によって一層明らかになるであろう。なお、図面中の類似エレメントは同一の番 号で示しである。
第1図は、本発明により音声認識テンプレートから音声を合成する手法を図示し た全体的ブロック図、第2図は、本発明による音声認識および音声合成を使用し たユーザ会話型制御システムを有する音声通信装置のブロック図・ 第3図は、バンズ・フリー音声認識/音声合成制御シスる好ましい実施例の詳細 ブロック図、 第4a図は、第3図のデータ整理器(322)の詳細ブロック図、 第4b図は、第4a図のエネルギー正規化ブロック 410によって行なわれる 一連のステップを示すフローチャート、第4c図は、第4a図の区分化/圧縮ブ ロック 420の特有のハードウェア構成の詳細ブロック図、 第5a図は、本発明によるクラスタを形成するためフ、lz −ムに区分化され た話されたワードのグラフ表現、第5b図は、本発明による、ある特別のワード ・テンプレートに対して形成されつつある出力クラスタを例示する図、第5C図 は、本発明による任意の部分クラスタ・バスの可能な形成を示す表、 第5dおよび58図は、第4a図の区分化/圧縮ブロック 420によって行な われるデータ整理処理の基本的実施を図説するフローチャート、 第5r図は、先に決定されたクラスタからのデータ整理ワード・テンプレートの 形成を示している、第5e図のトレースバックおよび出力クラスタ・ブロック  582の詳細フローチャート、 第5g図は、部分的トレースバックに応用可能な、本発明による、24個のフレ ームに対するクラスタリングパスを図説するトレースバック・ポインタ表、 第5h図は、フレーム接続トリーの形で図説されている第5g図のトレースバッ ク・ポインタ表のグラフ表現、第51図は、フレーム接続トリー内の共通フレー ムにトレーシング・バックすることによって3個のクラスタが出力完了した後の フレーム接続トリーを示す第5h図のグラフ表現、 第6aおよび6b図は、第4a図の差分符号化ブロック 430によって行なわ れる一連のステップを示すフローチャート、第Be図は、第3図のテンプレート 記憶装置180の1個のフレームの特別のデータ形式を示す汎用化記憶域割当て 図、第7a図は、本発明による、各々の平均フレームがワード・モデル内の状態 によって表わされている複数平均フレームにクラスタされているフレームのグラ フ表現、第7b図は、第3図の認識プロセッサ120のテンプレート記憶装置1 60との関係を図説するこのプロセッサ120の詳細ブロック図、 第7c図は、本発明によるワード解読に必要な一連のステップのある実施例を図 説するフローチャート、第7dおよび70図は、本発明による状態解読に必要な ステップの一実施例を図説するフローチャート、第8a図は、第3図のデータ伸 長器ブロック 346の詳細ブロック図、 第8b図は、第8a図の差分解読ブロック 802によって行なわれる一連のス テップを示すフローチャート、第8c図は、第8a図のエネルギー正規化解除ブ ロック 804によって行なわれる一連のステップを示すフローチャート、第8 d図は、第8a図のフレーム繰返しブロック 806によって行なわれる一連の ステップを示すフローチャート、第9a図は、第3図のチャネル・バンク音声シ ンセサイザ340の詳細ブロック図、 第9b図は、第9a図のモジュレータ/バンドパス・フィルタ構成980の他の 実施例、 第9C図は、第9a図のピッチ・パルス源920の好ましい実施例の詳細ブロッ ク図、そして 第9d図は、第9aおよび90図の種々の波形を図説したグラフ表現である。
実 施 例 さて添付図面を参照する。第1図は、本発明のユーザ会話型制御システム100 の全体的ブロック図である。電子装置150は、音声認識/音声合成制御システ ムの結合を十分に保証する複雑などのような電子装置をも含むことができる。こ の好ましい実施例においては、電子装置150は移動式無線電話機のような音声 通信装置を表わしている。
ユーザの話した入力音声はマイクロフォン105に印加されるが、このマイクロ フォン105は電気入力音声信号を制御システムに供給する音響カップラとして 働いている。音響プロセッサ110は、入力音声信号に基づいて音響的特徴の抽 出を行なう。ユーザが話した各々の入力ワードの振幅/周波数パラメータとして 定義されたワードの特徴は、これによって音声認識プロセッサ120とトレーニ ング・プロセッサ170とに供給される。この音響プロセッサ110はさらに、 入力音声信号を音声認識制御システムにインタフェースするためのアナログ・デ ィジタル変換器のような信号調整装置を含むことができる。音響プロセッサ11 0については、第3図に関係してさらに詳しく後述する。
トレーニング・プロセッサ170は、音響プロセッサ110からのこのワード特 徴情報を操作して、テンプレート記憶装置160に記憶されるべきワード認識テ ンプレートを生成する。トレーニング手順の間、入力ワード特徴はそれらの終点 を位置指定することによって個々のワードに配列される。トレーニング手順がワ ード特徴コンシステンシ(con−sisteocy)に対して複数のトレーニ ング発声を収容するように設計されている場合は、その複数の発声は平均化され て単一のワード・テンプレートを形成することができる。
さらに、大部分の音声認識システムは、1つのテンプレートとして記憶されるた めに音声情報のすべてを必要としないので、ある種類のデータ整理はしばしばト レーニング・プロセッサ170で行なわれることがありテンプレート記憶装置の 必要量を軽減している。これらのワード・テンプレートはテンプレート記憶装置 160に記憶され、音声合成プロセッサ140はもとより音声認識プロセッサ1 20の使用に供されている。本発明の好ましい実施例に使用されている的確なト レーニング手順が、第2図に説明しである。
認識モードにおいては、音声認識プロセッサ120は音響プロセッサ110によ って供給されたワード特徴情報を、テンプレート記憶装置IBOによって供給さ れたワード認識テンプレートと比較する。ユーザの話した入力音声から引き出さ れた現在ワード特徴情報の音響特徴がテンプレート記憶装置から引き出されたあ る特別の予め記憶されているワード・テンプレートに十分にマツチした場合は、 認識プロセッサ120は認識されたこの特別のワードを表わす装置制御データを 装置コントローラ 130に供給する。適切な音声認識装置についてのさらに詳 しい説明およびこの実施例がデータ整理をトレーニング手順に取り入れる方法に ついては、第3図から第5図に付随する説明に記述しである。
装置コントローラ130は、全制御システムの電子装置150に対するインタフ ェースをとっている。この装置コントローラ 130は、認識プロセッサ120 から構成される装置制御データを個々の電子装置による使用に適合できる制御信 号に変換する。これらの制御信号は、装置がユーザによって命令されたとおりの 特定の作動機能を行なうことを可能ならしめる。(この装置コントローラ 13 0はさらに、第1図に示しである他のエレメントに関係する付加的な監視機能を 実施することができる。)この技術分野で周知なものであるとともに本発明と併 用するのに′適格な装置コントローラの例は、マイクロコンピュータである。ハ ードウェア具現の細部に関しては、第3図を参照されたい。
装置コントローラ 130はさらに、電子装置150の作動状態を表わす装置ス テータス・データをも供給する。このデータは、テンプレート記憶装置160か らのワード認識テンプレートと共に音声合成プロセッサ140に印加される。こ の音声合成プロセッサ140はステータス・データを利用して、いずれのワード 認識テンプレートがユーザが認識可能な返答音声に合成されるかを決定する。音 声合成プロセッサ140はステータス・データによって制御される内部返答記憶 装置をさらに含み″録音済み(canned)”の返答ワードをユーザに対して 提供することができる。いずれの場合も、音声返答信号がスピーカ 145を通 して出力されると、ユーザは電子装置の作動状態(operating 5ta tus)を通知される。
上述のとおり、第1図は本発明が電子装置の作動パラメータ(operatin g parameters)を制御するために音声認識を利用するユーザ会話型 制御システムを提供する方法と、装置の作動状態を表わす返答音声をユーザに対 して発生さ第2図は、たとえば二方向無線システム、電話システム、相互通信シ ステム等のようないかなる無線または地上通信線利用音声通信システムの一部を も構成する音声通信装置に対するユーザ会話型制御システムの応用についての一 層詳細な説明を提供している。音響プロセッサ11O1認識プロセツサ120、 テンプレート記憶装置160、および装置コントローラ 130は、第1図の対 応するブロックと構造および動作の上で同一である。、しかしながら、制御シス テム200の図は音声通信装置210の内部構造を説明している。
音声通信ターミナル225は、たとえば、電話機ターミナルまたは通信コンソー ルのような音声通信装置210の主要電子回路を表わしている。本実施例におい ては、マイクロフォン2Q5とスピーカ 245とは音声通信装置それ自体に内 蔵されている。このマイクロフォン/スピーカ装置の典型的な例は、電話機のハ ンドセットであろう。音声通信ターミナル225は、音声通信装置の作動ステー タス情報を装置コントローラ 130にインタフェースする。この作動ステータ ス情報は、ターミナル自体の機能ステータス・データ(たとえば、チャネル・デ ータ、サービス情報、作動モード・メツセージ等)、音声認識制御システムのユ ーザ・フィードバック情報(たとえば、ディレクトリの内容、ワード認准検証、 作動モード・ステータス等)を具備することも可能であり、または通信リンクに 、関するシステム・ステータスΦデータ(たとえば、ロス・オブ・ライン、シス テム・ビジー、無効アクセス・コード等)を含むことも可能である。
トレーニング・モードまたは認識モードのいずれにおいても、ユーザの話した入 力音声の特徴は音響プロセッサ110によって抽出される。スイッチ215の位 置“A″によって第2図に表わされているトレーニング・モードにおいては、ワ ード特徴情報はトレーニング・プロセッサ170のワード平均化器220に印加 される。前述のとおり、システムが複数の発声を共に平均化し°て単一のワード ・テンプレートを形成するように設計されている場合は、平均化処理はワード平 均化器220によって行なわれる。ワード平均化処理を使用することによって、 トレーニング・プロセッサは同一ワードの2つ以上の発声間の微小変化を考慮に 入れることが可能になり、これによって一層信頼できるワード・テンプレートを 生成することができる。多くのワード平均化手法を用いることが可能である。た とえば、一つの方法としてはすべてのトレーニング発声のうちの同様のワード特 徴、のみを組み合せてそのワード・テンプレートに対する“最良“の特徴のセッ トを生成することが挙げられる。
他の手法としてはすべてのトレーニング発声を単に比較していずれの発声が“最 良“のテンプレートを生じるかを決定することであろう。さらに他のワード平均 化手法としては、Journal of the Acoustic 5oci ety orAmericaのvol。
88 (1980年11月)の 1,271〜1.27Ei頁にり、 R,Ra binerおよ び」、G、ν1lponが記述した”A Simp目fled  RobustTraining Procedure for 5peake r Trained、 1solatedWord Recognition  Systems (スピーカ・トレーンド・アイソレーティッド・ワード認識シ ステム用の簡略・強靭なトレーニング手順)”と称するものがある。
データ整理器230は、ワード平均化器の存否に従って、ワード平均化器220 からの平均化ワード・データに基づいて、または音響プロセッサ110から直接 供給されるワード特徴情報に基づいて、データ整理を行なう。いずれの場合も、 整理処理はこの“原始″ワード特徴データを区分化することと、各々の区分内の データを組み合せることとから成っている。テンプレートに対する記憶域必要量 は、“整理”ワード特徴データを生成するための区分化データの差分符号化(d ifferential encoding)によってさらに削減される。本発 明のこの特殊データ整理手法は、第4および5図に関連して十分に説明されてい る。要約すると、データ整理器230は原始ワード・データを圧縮して、テンプ レート記憶域必要量を最小化するとともに音声認識計算時間を削減するものであ る。
トレーニング・プロセッサ170によって供給された整理ワード特徴データは、 テンプレート記憶装置160にワード認識テンプレートとして記憶される。スイ ッチ215の位置“B”によって示されている認識モードにおいては、認識プロ セッサ120は入力ワード特徴信号をワード認識テンプレートと比較する。有効 コマンド・ワードが認識されると、認識プロセッサ120は装置コントローラ  130に命令して対応する音声通信装置制御機能が音声通信ターミナル225に よって実行されることを可能ならしめる。このターミナル225は、ターミナル ・ステータス・データの形で装置コントローラ 130に作動ステータス情報を 送り返すことによって装置コントローラ 130に応答する。このデータは、ユ ーザに現在の装置の作動ステータスを通告するための適切な音声返答信号を合成 する目的で、制御システムによる使用が可能である。このイベントのシーケンス は、次の例を参照することによって一層明確に理解されるであろう。
合成プロセッサ140は、音声シンセサイザ240、データ伸長器250、およ び返答記憶装置260によって構成されている。この構成の合成プロセッサは、 (テンプレート記憶装置160に記憶されている)ユーザ生成用語から“テンプ レート”応答を発生することはもとより(返答記憶装置260に記憶されている )予め記憶された用語から“録音済み“の返答をユーザに対して発生する能力を 有している。
音声シンセサイザ240および返答記憶装置260は第3図に関連してさらに説 明を加え、そしてデータ伸長器250は第8a図に関する記述に十分に詳しく説 明しである。共同して、合成プロセッサ140のブロックはスピーカ 245に 対する音声返答信号を発生する。従って、第2図は音声認識および音声合成の両 方に単一のテンプレート記憶装置を使用する手法を説明している。
記憶された電話番号ディレクトリから音声制御ダイヤリングを使用する“自動化 (smart)”電話ターミナルの簡略化例をここで用いて、第2図の制御シス テムの作用を説明することにする。最初は、トレーニングされていないスピーカ 依存音声認識システムは、コマンド・ワードを認識することができない。従って 、おそらく特殊のコードを電話機キーバッドに入力することによって、ユーザは 装置を手動で刺激(pron+pt) L、てトレーニング手順を開始させなけ ればならない。装置コントローラ 130は、スイッチ 215をトレーニング ・モード(位置“l”)に入るように指示する。装置コントローラ 130はつ ぎに音声シンセサイザ240に対して、返答記憶装置260から得られた“録音 済み”の返答である事前に定義された句TRAINING VOCABULAR Y ONE(トレーニング用語1)に返答するように命令する。ユーザはつぎに 、5TOPE (記憶)またはRECALL (再呼出し)のようなコマンド・ ワードをマイクロフォン205に対して発声することによってコマンド・ワード 用語を確立し始める。
この発声の特徴は、先ず音響プロセッサ110によって抽出され、つぎにワード 平均化器220また。はデータ整理器230のいずれかに印加される。同一ワー ドの複数の発声を受け入れるように特殊の音声認識システムが設計されている場 合は、ワード平均化器220は特にそのワードを最もよく表わしている1組の平 均化ワード特徴を生成する。システムがワード平均化能力を有していない場合は 、(複数の発声の平均化されたワード特徴ではなく)単一の発声ワード特徴がデ ータ整理器230に印加される。このデータ整理処理は、不必要すなわち重複し た特徴データを除去し、残りのデータを圧縮し、かつ“整理′ワード認識テンプ レートをテンプレート記憶装置160に提供する。数字の認識のためシステムを トレーニングするため同様な手順が続く。
コマンド・ワード用語によってシステムがトレーニングに入ると、ユーザは電話 ディレクトリの名前および番号を入力することによってトレーニング手順を続け なければならない。この作業を完成させるため、ユーザは以前にトレーニングさ れているコマンド・ワードENTER(入力)を発声する。この発生が有効なユ ーザ・コマンドとして認識されると、装置コントローラ 130は音声シンセサ イザ240に、返答メモリ 260に記憶された″録音済み“の句DIGITS PLEASE ? (数字をどうぞ?)によって返答するように命令する。適切 な電話番号数字(たとえば、555−1234)を入力すると、ユーザはTEl ?MINATE (終り)と発声し、システムはNAME PLEASE (お 名前をどうぞ?)と返答して対応するディレクトリの名前(たとえば、5WIT H(スミス))のユーザ入力を促す。このユーザ会話型処理は、電話番号ディレ クトリが適切な電話芯および数字で完全に埋まるまで続く。
電話をかける場合は、ユーザはコマンド・ワードRECALL(再呼出し)を単 に発声する。この発声が認識プロセッサ120によって有効なユーザ・コマンド として認識されると、装置コントローラ J、 30は音声シンセサイザ240 に返答記憶装置260によって供給された合成情報によって口頭の返答NAME  ? (名前は?)を発生するように指示する。ユーザはここで、ダイヤルしよ うとする電話番号に対応するディレクトリ・インデックス内の名前(たとえば、 JONES (ジョンズ))を話すことによって応答する。このワードは、もし それがテンプレート記憶装置160に記憶されている所定の名前インデックスに 一致すれば、有効なディレクトリ入力と認識されるであろう。有効であれば、装 置コントローラ 130はデータ伸長器250に対してテンプレート記憶装置1 80から適切な整理ワード認識テンプレートを取得するとともに合成のためのデ ータ伸長処理を行なうように指示する。データ伸長器250は、整理ワード特徴 データを“アンパック″するとともに了解可能な返答ワードのための正しいエネ ルギー輪郭を復元する。この伸長ワード・テンプレート・データはつぎに、音声 シンセサイザ240に供給される。テンプレート・データと返答記憶装置のデー タとの両者を使用して、音声シンセサイザ240は(データ伸長器250を通し てテンプレート記憶装置160から)句JONES・・・(返答記憶装置260 から) FIVE−FIVE−FIVE、 5IX−8EVEN−EIGHT− NINE (5−’5−5.8−7−8−9)を生成する。
ユーザはつぎにコマンド・ワード5END (送れ)を話す。
このワードは、制御システムによって認識されると、装置コントローラ 130 に対して電話番号ダイヤリング情報を音声通信ターミナル225に送るように命 令するものである。
このターミナル225は、適切な通信リンクを経由してこのダイヤリング情報を 出力する。電話接続が確立すると、音声通信ターミナル225はマイクロフォン 205からのマイクロフォン音声を適切な゛送信路に、そして適切な受信音声路 からの受信音声をスピーカ 245にインタフェースする。正しい電話接続が確 立されない場合は、ターミナル・コントローラ 225は適切な通信リンク・ス テータス情報を装置コントローラ 130に提供する。従って、装置コントロー ゛う130は音声シンセサイザ240に対して、返答ワード5YSTE)IBU SY (システム話中)のような、供給されたステータス情報に対応する適切な 返答ワードを発生するように命令する。このような方法で、ユーザは通信リンク の状態について通告され、そしてユーザ会話型音声制御ディレクトリ・ダイヤリ ングが達成される。
上記の作用説明は、本発明に基づく音声認識テンプレートから音声を合成する単 なる1つの応用に過ぎないものである。この新規な手法は、たとえば、通信コン ソール、二方向無線等の音声通信装置に対して、数多くの応用が考えられるもの である。本実施例においては、本発明の制御システムは移動無線電話機に使用さ れている。
音声認識および音声合成は車両操縦手が4の両眼を道路に集中することを可能な らしめるが、従来のハンドセットまたは手持ちマイクロフォンは操縦手が舵輪( ハンドル)に両手を掛けることや正しい手動(または自動)変速を実行すること を不能にするものである。この理由から、本実施例の制御システムは音声通信装 置のハンズフリー制御を提供するためスビーカフォンを内蔵している。このスピ ーカフォンは、送/受音声切換機能および受信/返答音声多重化機能を行なうも のである。
ここで第3図を参照すると、制御システム300は第2図の対応諸ブロックと同 一の音響プロセッサ・ブロック 110、トレーニング・プロセッサ・ブロック  170、認識プロセッサ・ブロック 120、テンブレニド記憶装置ブロック  160、装置コントローラ・ブロック 130、および合成プロセッサ・ブロ ック 140を使用している。しかしながら、マイクロフォン302とスピーカ  375とは音声通信ターミナルの一体化部分ではない。その代りに、マイクロ フォン302からの入力音声信号はスビーカフオン360を経由して無線電話機 350に導かれる。同様に、スビーカフオン360は制御システムからの合成音 声と通信リンクからの受信音声との多重化の制御をも行なっている。このスピー カフオンの切換/多重化構成のさらに詳しい解析については後述することにする 。ここで、音声通信ターミナルを、無線周波数(RP)チャネルを経由して適切 な通信・リンクを提供するための送信機および受信機を有する無線電話機として 、第3図によって説明する。この無線ブロックの詳細については後述する。
一般的にユーザの口からやや遠いところに(たとえば、車両の日よけ板上に)離 れて装着されているマイクロフォン302は、ユーザの音声を制御システム30 0に音響的に結合する。この音声信号は入力音声信号305を生じるため、前置 増幅器304によって通常の場合増幅される。この音声入力は音響プロセッサ1 10に直接印加され、そして切換えられたマイクロフォン音声ライン315を介 して無線電話機350に印加される前にスピーカフォン360によって切換えら れる。
前述のとおり、音響プロセッサ110はユーザの話した入力音声の特徴を抽出し 、ワード特徴情報をトレーニング・プロセッサ170と認識プロセッサ120と の両者に供給する。
この音響プロセッサ110は先ず、アナログ・ディジタル(A/D>コンバータ  310によってアナログ入力音声をディジタル形式に変換する。このディジタ ル・データは、特徴抽出機能をディジタル的に行なう特徴抽出器312に印加さ れる。ブロック 312ではいかなる特徴抽出方法でも使用可能であるが、本実 施例は特殊の形の“チャネル・バンク”特徴抽出を使用している。このチャネル ・バンクの処理方法によると、音声入力信号周波数スペクトルはバンドパスフィ ルタのバンクによって複数の個々のスペクトル帯域に分割され、そして各々の帯 域に存在するエネルギー量の評価に基づいて適切なワード特徴データが生成され る。この種類の特徴抽出器は、Be1l SYstem Technical  Journal(ベル・システム・テクニカル・ジャーナル)のVol、82゜ No、5 (1983年5月〜6月)1.311〜1,335頁にB、 A。
DautrichSL、 R,Rabiner 、およびT、 B、 Mart inによる“The Effects ofSelected Slgnal  Processing Techni−ques on the Perror mance ofa Filter Bank Ba5ed l5o−Iate d Word Recognizer (選択信号処理手法の、アイ?ル−テッ ドワード認識器に基づくフィルタ・バンクの性能に及ぼす影響)”と題する論文 に説明されている。適切なディジタル・フィルタ・アルゴリズムは、L、 R, RabinerおよびB、 GoldによるTheory and Applj catjon or DigitalSignal Processing ( ディジタル信号処理の原理と応用)(Prentiee Hall、 Engl ewood C11ff’s、 N、J、、 1975)の第4章に説明されて いる。
トレーニング・プロセッサ170は、このワード特徴データを使用してテンプレ ート記憶装置160に記憶されるべきワード認識テンプレートを生成する。先ず 、エンドポイント検出器318はユーザのワードの適切な始端および終端位置を 探し出す。これらの両エンドポイントは、入力ワード特徴データの時変全エネル ギーの評価に基づいている。こ“An Algorithm f’or Det ermining the Endpojnts orIsolated ut terances (分離した発声のエンドポイントを決定するアルゴリズム) ″と題するり、 R,RabinerおよびM、 R,Samburの論文に説 明されている。
ワード平均化器320は、ユーザによって話された同一ワードの数個の発声を組 み合せて一層正確なテンプレートを生成する。第2図において前述したように、 いかなる適切なワード平均化スキームをも使用することが可能であり、またはワ ード平均化機能を全く省略することも可能である。
データ整理器322は、ワード平均化器320からの“原始”ワード特徴データ を使用し、整理ワード認識テンプレートとしてテンプレート記憶装置1゛60に 記憶するための“整理”ワード特徴データを生成する。データ整理処理は、エネ ルギー・データを正規化し、ワード特徴データを区分化し、さらに各々の区分内 のデータを組み合せることより基本的に成っている。組合せ区分が生成された後 、記憶域必要量はフィルタ・データの差分符号化によってさらに削減される。デ ータ整理器322の実際の正規化、区分化および差分符号化のステップについて は、第4および5図に関連して詳しく説明しである。テンプレート記憶装置16 0の整理データ形式を示す全記憶域割当て図については、第Be図を参照された い。
エンドポイント検出器318、ワード平均化器320、およびデータ整理器32 2は、トレーニング・プロセッサ170を構成している。トレーニング・モード においては、装置コントローラ 130からのトレーニング制御信号325は、 これら3つのブロックに対して、テンプレート記憶装置160に記憶するための 新しいワード・テンプレートを生成するように命令する。しかし、認識モードに おいては、この機能は音声認識時には必要でないので、トレーニング制御信号8 25はこれらのブロックに対して新しいワード・テンプレートの生成処理を一時 中止するように指示する。従うて、トレーニング・プロセッサ170はトレーニ ング・モードにおいてのみ使用される。
テンプレート記憶装置160は、認識プロセッサ120において入力音声と突き 合せられるべきワード認識チンプレートラ記憶する。このテンプレート記憶装置 160は、任意のアドレス構成で形成することができる標準ランダムアクセス記 憶装置(RAM)で一般的に成っている。音声認識システムに使用可能な汎用R A)lとしては、東芝55[i58K X8スタティックRAMがある。しかし ながら、システムがオフになった場合にワード・テンプレートが保持されるよう に、不揮発性RAMを使用することが好ましい。本実施例においては、EEPR OM (電気的消去可能・プログラム可能読出し専用記憶装置)がテンプレート 記憶装置111i0として機能している。
テンプレート記憶装置160に記憶されているワード認識テンプレートは、音声 認識プロセッサ120および音声合成プロセッサ140に供給される。認識モー ドにおいては、認識プロセッサ120はこれらの予め記憶されたワード・テンプ レートを音響プロセッサ110より供給された入力ワード特徴と比較する。本実 施例においては、この認識プロセッサ120は2個の異なるブロック・・・すな わちテンプレート・デコーダ328と音声認識器326とから構成されていると 考えることができる。テンプレート・デコーダ328は、音声認識器32Bがそ の比較機能を実行できるように、テンプレート記憶装置より供給された整理特徴 データを翻訳する。
簡単に言うと、テンプレート・デコーダ328はテンプレート記憶装置から整理 データを得る効果的な“ニブル−モード・アクセス手法“を実施し、かつ音声認 識器326が情報を利用できるように整理データについて差分デコーディングを 行なう。テンプレート・デコーダ328については、第7bに関する説明に詳し く述べである。
上述のことから、データ整理器322を使用して特徴データをテンプレート記憶 装置160に記□憶するための整理データの形式に圧縮する手法と、整理ワード ・テンプレート情報をデコードするためにテンプレート・デコーダ328を使用 することとは、本発明がテンプレート記憶域必要量を軽減することを可能ならし めている。
実際の音声認識比較処理を行なう音声認識器32Bは、数種の音声認識アルゴリ ズムの1つを使用することができる。
本実施例の認識アルゴリズムは、近連続音声認識、ダイナミック・タイム・ワー ビング、エネルギー正規化、およびチェビシェフのディスタンス・メトリック( Chebyshevdistance metric)を取り入れてテンプレー トとの突合せ(一致)を決定している。詳しい説明については、第7a図3〜5 月、Vol、 2.899〜902頁に’An Algoritha forc onnected Word Recognition (連結ワード認識に関 するアルゴリズム)”と題してJ、 S、 BridleSM、 D、 Bro wn 。
およびR,M、 Chan+berlainが記述しているような従来技術の認 識アルゴリズムも使用可能である。
本実施例においては、8ビツトのマイクロコンピュータが音声認識器32Bの機 能を果している。その上、第3図の数個の他の制御システム・ブロックがC0D EC/FILTER(符復号器/フィルタ)およびDSP (ディジタル信号プ ロセッサ)の助けをかりて同一マイクロコンピュータによって部分的に使用され ている。本発明に使用可能な音声認識器326用の代替ハードウェア構成はs  JEEEInternaNonalconrerenee on Acoust ics、5peech、and SignalProcessing (音響、 音声、および信号処理に関するIEEE国際会議) (1982年3〜5月)  、Vol、2.863〜866頁に”A Real−Tlme Hardwar e Continuous 5peech RecognitionSyste m (リアルタイム・ハードウェア連続音声認識システム″と題してJ、 Pe ckhan+、 J、 Green、 J、 Canning、およびp、 5 tevensが記述した論文に記載されているとともに、関連事項もこの論文に 収録されている。従って、本発明はいかなる特定のハードウェアまたはいかなる 特定の種類の音声認識にも限定されるものではない。さらに詳しく言えば、本発 明は分離または連続ワード認識の使用と、ソフトウェアに基礎を置〈実施または ハードウェアに基礎を置〈実施の使用とを意図している。
制御ユニット 334およびディレクトリ記憶装置332から成る装置コントロ ーラ 130は、音声認識プロセッサ120および音声合成プロセッサ140を 2方向インタフェース−バスによって無線電話機350にインタフェースする役 割を果している。制御ユニット 334は一般的には、ラジオ・ロジック 35 2からのデータを制御システムの他のブロックにインタフェースする能力を有す る制御マイクロプロセッサでアル。この制御ユニット 334は、制御ヘッドの アンロッキング、電話呼出しの設定、電話呼出しの終了等のような無線電話機3 50の運用制御をも行なう。無線機に対する個々のハードウェア・インタフェー ス構造に依存して制御ユニット 334は、DTMFダイヤリング、インタフェ ース・バスの多重化、および制御機能意志決定のような特殊制御機能を実施する ための他のサブ・ブロックを取り入れることができる。その上、制御ユニッ°ト 334のデータ・インタフェース機能はラジオ・ロジック 35?、の現存ハー ドウェア内に組。
み込むことができる。従って、ハードウェア特殊制御プログラムが、無線機のタ イプごとにまたは電子装置への適用の種類ごとに通常の場合用意されている。
ディレクトリ記憶装置332、すなわち、EEPROMは複数の電話番号を記憶 し、これによってディレクトリ・ダイヤリングを可能ならしめている。記憶され る電話番号ディレクトリ情報は電話番号を入力するトレーニング処理の量制御ユ ニット 834からディレクトリ記憶装置332に送出され、一方、このディレ クトリ情報は有効なディレクトリ・ダイヤリング・コマンドの認識に応答して制 御ユニット 334に供給される。使用されている個々の装置によって、ディレ クトリ記憶装置332を電話装置°自体に組み込むことが一層経済的でありうる 。しかしながら一般的には、コントローラ・ブロック 130は電話ディレクト リ記憶機能、電話番号ダイヤリング機能、および無線運用制御機能を実行する。
コントローラ・ブロック 130はさらに、無線電話機の作動ステータスを表わ す異なる種類のステータス情報を音声合成プロセッサ140に供給する。このス テータス情報は、ディレクトリ記憶装置332に記憶された電話番号(555− 1234″等)、テンプレート記憶装置180に記憶されたディレクトリ名前( “スミス2、“ジョンズ等)、ディレクトリ・ステータス情報(“ディレクトリ ・フル°、“名前は“等)、音声認識ステータス情報(“レディ”、“ユーザの 番号は′等)、または無線電話機ステータス情報(“コール・ドロップド”、“ システム・ビジー″等)のような情報を含むことができる。従って、コントロー ラ・ブロック 130はユーザ会話型音声認識/音声合成制御システムの核心を なすものである。
音声合成プロセッサ・ブロック 140は、音声返答機能を果している。テンプ レート記憶装置160に記憶されているワード認識テンプレートは5.テンプレ ートからの音声合成を必要とする時にはいつでもデータ伸長器346に供給され る。前述のとおり、データ伸長°器346はテンプレート記憶装置160からの 整理ワード特徴データを“アンバック”して、チャネル・バンク音声シンセサイ ザ340に対して“テンプレート”音声応答データを提供する。データ伸長器3 46の詳しい説明事項については、第8a図以降を参照されたい。
システム・コントローラが“録音済み2の返答ワードが要求されていると判断し た場合は、返答記憶装置344は音声返答データをチャネル・バンク音声シンセ サイザ340に供給する。この返答記憶装置344は一般的にROMまたはEF ROMで構成されている。本実施例においては、Intel“録音済み”または “テンプレート“音声返答データのいずれかを使用して、チャネル・バンク音声 シンセサイザ340はこれらの返答ワードを合成するとともに、これらのワード をディジタル・アナログ(D/A)コンバータ342に対して出力する。この音 声返答はこの後ユーザに対して送られる。本実施例においては、チャネル・バン ク音声シンセサイザ340は、14チヤネルのボコーダの音声合成部分である。
このようなボコーダの一例が、IEE PROC,、Vol。
127、 pt、 P、 no、1 (1980年2月)の53〜60頁に“T he JSRUChannel ■ocoder (JSRUチャネル・ボコー ダ)″と題するJ、 N、 Holmesの論文に記載されている。チャネル・ バ、ンク・シンセサイザに供給される情報は通常の場合、入力音声をボイス化( voteed)するかまたは非ボイス化(unvoi ced)するか、もしあ ればピッチ・レート、および14個のフィルタの各々の利得を含んでいる。しか しながら、この技術分野の熟練者にとって明らかであるように、いかなる種類の 音声シンセサイザでも基本的音声合成機能を果すために使用することができる。
チャンネル・バンク音声シンセサイザ340の詳細な構成が、第9a図以降に関 して詳細に記述しである。
上述のとおり、本発明は音声認識テンプレートからの音声合成を行なって音声通 信装置に対するユーザ会話型制御システムを提供する方法を教えるものである。
本実施例においては、音声通信装置は細分化(eel 1ular)移動無線電 話機のようなラジオ・トランシーバである。しかしながら、ハンズフリ一式ユー ザ会話型動作を保証するいかなる音声通信装置も使用可能である。たとえば、ハ ンズフリー制御を必要とするいかなる単向ラジオ・トランシーバも本発明の改良 制御システムを利用することができる。
つぎに第3図の無線電話機ブロック 350を見ると、ラジオ・ロジック 35 2は実際の無線運用制御機能を果している。
とくに、このロジックは周波数シンセサイザ356に対してチャネル情報を送信 機353および受信機357に供給するように指示を与える。この周波数シンセ サイザ356の機能は、水晶制御チャネル発信器によっても行なうことができる 。
送受切換器354は、送信機353および受信機357をアンテナ359を通し て無線周波数(17P)チャネルにインタフェースする。単向ラジオ・トランシ ーバの場合は、送受切換器354の機能はRPスイッチによって行なうことがで きる。代表的無線電話機回路構成の一層詳しい説明については、’DYNA T 、A、C,Ce1lular Mobile Te1ephone (DYNA 、 T、 A。
C1細分化移動電話機)“と題するMotorola Instruction Manual (モトローラ・インストラクション・マニュアル)88P810 68E40を参照されたい。
本出願においてVSP (車両スピーカフォン)とも命名されているスピーカフ ォン360は、ユーザの話した音声を制御システムと無線電話送信機音声に、合 成音声返答信号をユーザに、そして無線電話機からの受信音声をユーザに、ハン ズフリ一式で音響結合する手段を提供する。前述のとおり、前置増幅器304は マイクロフォン302によって供給された音声信号を増幅し、音響プロセッサ1 10に対する入力音声信号305を生成する。この入力音声信号305はvSP 送信音声スイッチ 362にも印加されるが、このスイッチ362は入力信号3 05を送信音声315を介して無線送信機353に導く。この■SP送信スイッ チ362は、vSP信号検出器364によって制御される。この信号検出器36 4は、入力信号305の振幅を受信音声355の振幅と比較してvSP切換え機 能を果している。
移動無線機のユーザの送話中、信号検出器364は検出器出力361を通して正 の制御信号を供給して送信音声スイッチ362を閉じ、かつ検出器出力363を 通して負の制御信号を供給して受信音声スイッチ368を開く。これと反対に、 地上通信線相手方の送話中は、信号検出器364は逆の極性の信号を供給して受 信音声スイッチ368を閉じる傍ら、送信音声スイッチ362を開く。受信音声 スイッチが閉じている間は、無線電話機受信機357からの受信機音声355は 受信音声スイッチ368を通して、切換えられた受信音声出力367によってマ ルチプレクサ370に向って経路を取る。ある種の通信システムにおいては、音 声スイッチ362および368を、信号検出器からの制御信号に応答して、大き さが等しいが反対の減衰をもたらす可変利得装置と置換する方が有利であるかも 知れない。マルチプレクサ370は、制御ユニット 334からの多重信号33 5に応答してボイス返答音声345と切換えられた受信音声367とのいずれか に切換える。制御ユニットがステータス情報を音声シンセサイザに送出すると、 マルチプレクサ信号335はマルチプレクサ370に対してボイス返答音声をス ピーカに導くように指示する。■SP音声365は通常の場合、スピーカ 37 5に印加される前に音声増幅器372によって増幅される。本文に記載されてい る車両スビーカフォンの実施例は、本発明に適用可能な多くの可能性ある構成の 1つに過ぎないこと留意されたい。
要約すると、第3図はユーザが話したコマンドに基づいて無線電話機のオペレー ティング・パラメータを制御するためのハンズフリ一式ユーザ会話型音声認識制 御システムを有する無線電話機を説明するものである。このコントロールシステ ムは、音声認識テンプレート記憶装置または“録音済み”応答返答記憶装置から の音声合成によってユーザに対して可聴のフィードバックを提供する。車両スビ ーカフォンは、ユーザが話した入力音声の制御システムおよび無線機送信機への 、制御システムからの音声返答信号のユーザへの、そして受信機音声のユーザへ の、ハンズフリ一式音響結合を提供する。認識テンプレートからの音声合成を実 施することによって、無線電話機の音声認識制御システムの性能および融通性を 著しく向上させる。
2、データ整理およびテンプレート記憶装置第4a図は、データ整理器322の 拡大ブロック図を示したものである。前述のとおり、データ整理ブロック 32 2はワード平均化器320からの原始ワード特徴データを使用し、テンプレート 記憶装置160に記憶する整理ワード特徴データを生成する。このデータ整理機 能は3つのステップによって行なわれる、すなわち、(1)エネルギー正規化ブ ロック 410はチャネル・エネルギーの平均値を減じることによってチャネル ・エネルギーに対する記憶値の範囲(レンジ)を縮小し、(2)区分化/圧縮ブ ロック 420はワード特徴データを区分化するとともに類似フレームを音響的 に組み合せて゛クラスタ”を形成し、7そして(3)差分符号化ブロック 43 0は、実際のチャネル・エネルギー・データではなく、記憶のため隣接チャネル 間の差を生成し、記憶装置の必要量をさらに軽減する。これらの3つの処理がす べて行なわれると、各フレームに対する整理データ形式は第6C図に示すように 僅か9バイト内に記憶される。要するに、データ整理器322は原始ワード・デ ータを整理データ形式へと“パック”し、記憶装置の必要量を最小限度にする。
第4b図のフローチャートは、面図のエネルギー正規化ブロック 410によっ て行なわれる一連のステップを示している。ブロック 440でスタートすると 、ブロック 441は以後の計算に使用される変数を初期化する。フレーム・カ ウントFCは、データ整理されるべきワードの第1フレームに対応するように1 に初期化される。チャネル合計CTは、チャネル−バンク特徴抽出器312のチ ャネルに一致するチャネルの合計数に初期化される。本実施例においては、14 チヤンネルの特徴抽出器が使用されている。
次に、フレーム合計FTがブロック 442で計算される。このフレーム合計F Tは、テンプレート記憶装置に記憶されるべきワードについてのフレームの合計 数である。このフレーム合計情報は、トレーニング・プロセッサ170から利用 可能である。説明のため、500ミリ秒の持続時間の入力ワードの音響的特徴が 10ミリ秒ごとに(ディジタル的に)サンプルされるものとする。各々の10ミ リ秒の時間区分をフレームと称する。従って 500ミリ秒のワードは50フレ ームから成っていることになる。この理由によって、FTは50に等しい。
ブロック 443は、このワードのすべてのフレームの処理が完了したか否かを 試験する。現在のフレーム・カウントFCがフレーム合計FTより大であれば、 このワードのフレームで未正規化のものはないことになり、このワードに対する エネルギー正規化処理はブロック 444で終了する。しかし、FCがFTより も大でない場合は、エネルギー正規化処理は次のワード・フレームについて継続 する。50フレームのワードの上記の例によって続けてゆくと、このワードの各 フレームはブロック 445から452までの間にエネルギー正規化され、フレ ーム−カウントFCはブロック 453においてインクレメントされ、そしてF Cはブロック 443において試しメントされることになる。フレーム・カウン トFCの51がフレーム合計FTの50と比較されると、ブロック 443はブ ロック 444においてエネルギー正規化処理を終了することになる。
実際のエネルギー正規化手順は、テンプレート記憶装置内に記憶されている値の 範囲を減少させるため、各々の個々のチャネルから、チャネル全体の平均値を減 することに−ム・エネルギー(AvGENG)は下記の式によって計算される。
−CT AVGENG −Σ’CH(i)/CT上式において、CI(i)は個々のチャ ネル・エネルギー、そしてCTはチャネルの合計数に等しい。本実施例において は、エネルギーは対数的エネルギーとして記憶され、かつエネルギー正規化処理 は各々のチャネルの対数的エネルギーから平均の対数的エネルギーを実際には減 じることに留意されたい。
平均フレーム・エネルギーAVGENGはブロック 44Bにおいて出力され、 各々のフレームに対するチャネル・データの末尾位置に記憶される(第6C図の バイト9参照)。4ビツト内に平均フレーム・エネルギーを効果的に記憶するた め、AVGENGは全テンプレートのピーク・エネルギー値に正規化され、そし て3dBステツプに量子化される。ピーク・エネルギーが値15(4ビツト最大 )を割り当てられると、テンプレート内の合計エネルギーの変化は16ステツプ x3dB/ステップ−4[!dBとなる。好ましい実施例においては、この平均 エネルギー正規化/量子化は区分化/圧縮処理(ブロック 420)時の高精度 計算を可能ならしめるためチャネル14の差分符号化(第6a図)の後に行なわ れる。
ブロック 447は、チャネル・カウントCCを1に設定する。
ブロック 448は、チャネル・力゛ウンタCCによってアドレスされたチャネ ル・エネルギーをアキュムレータに読み込む。
ブロック 449は、ブロック 448において読み込まれたチャネル・エネル ギーからブロック 445において計算された平均エネルギーを減じる。このス テップは正規化チャネル・エネルギー・データを生成し、このデータはブロック  450において(区分化/圧縮ブロック 420に)出力される。ブロック  451はチャネル・カウンタをインクレメントし、そしてブロック 452はす べてのチャネルが正規化されたか否かを確かめる。新しいチャネル・カウントが チャネル合計より大でない場合は、処理は次のチャネル・エネルギーが読まれる ブロック 448に戻る。しかし、フレームのすべてのチャネルが正規化完了し ていれば、フレーム・カウントはブロック 453においてインクレメントされ 、データの次のフレームを取得する。すべてのフレームが正規化されると、デー タ整理器322のエネルギー正規化処理はブロック444で終了する。
第4c図は、データ整理器のブロック 420の実施状態を示すブロック図であ る。入力特徴データは、初期フレーム記憶装置すなわちブロック 502のフレ ーム内に記憶される。
この記憶に用いる記憶装置はRAMであることが好ましい。
区分化コントローラすなわちブロック 504は、クラスタ処理の対象になるべ きフレームの制御および指定を行なう。
Motorola (モトローラ)タイプ6805マイクロブロセッ、すのよう な多くのマイクロプロセッサがこの目的のため使用可能である。
本発明は、入力フレームに関連するひずみ測度を先ず計算して平均化前にフレー ム間の類似性を決定することによって入力フレームが平均化について考慮される ことを必要とする。この計算は、ブロック 504で使用しているマイクロプロ セッサと類似または同一のマイクロプロセッサで行なうことが好ましい。この計 算の詳細について以下に説明する。
組合せるべきフレームが決定すると、フレーム平均化器すなわちブロック 50 8はそれらのフレームを1つの代表平均フレームに組み合せる。この場合も、ブ ロック 504の場合と同様なタイプの処理手段を使用して平均化のため指定さ れたフレームを組み合せることができる。
データを効果的に整理するため、結果のワード・テンプレートは認識処理が劣化 する点にまで変形しない範囲でなるべく少ないテンプレート記憶装置を占有する べきである。
換言すると、ワード・テンプレートを表わす情報の量は最小化されると同時に認 識の正確度を最大化しなければならない。この両極端は矛盾することであるが、 各々のクラスタに対して最小ひずみレベルが許容されるならば、ワード・テンプ レート・データを最小化することができる。
第5a図は、ある与えられたひずみレベルに対し、フレームをクラスタ処理する 方法を説明しているものである。音声はフレーム 510にグループ化された特 徴データとして描かれている。5個の中央フレーム510はクラスタ 512を 形成している。このクラスタ 512は、代表平均フレーム514に組み合され ている。この平均フレーム 514は、システムに使用されている固有のタイプ の特徴データに従って多くの周知の平均化方法で生成することができる。クラス タが許容のひずみレベルを満たしているか否かを判断するために、従来技術のひ ずみ試験を使用することができる。しかしながら、平均フレーム 514は類似 性の測度を得るためクラスタ 512内のフレーム 510の各々と比較される ことが好ましい。平均フレーム 514とクラスタ 512内の各フレーム51 0との間のディスタンスは、ディスタンスDi−D5で示しである。これらのデ ィスタンスのうちの1つが許容ひずみレベルすなわちスレッショルド・ディスタ ンスを越えている場合は、クラスタ 512は結果としてのワード・テンプレー トとしては認められない。このスレッショルド・ディスタンスを超過していない 場合は、クラスタ 512は平均フレーム 514として表わされている可能ク ラスタとして認められる。
有効クラスタを決定するこの手法は、ピークひずみ測定と呼ばれている。本実施 例は2種類のピークひずみ判定基準すなわちピーク・エネルギーひずみおよびピ ーク・スペクトルひずみを使用している。数学的には、これは次のような式で表 わされる。
D−wax [01,D2. D3. D4. D5]、ここにD1〜D5は上 述のとおり各々のディスタンスを表わす。
これらのひずみ測度は、平均フレームへと組合されるべきフレームを規制する局 部制約条件として使用されている。
Dがエネルギーまたはスペクトルひずみのいずれかに対して所定のひずみスレッ ショルドを超過した場合は、このクラスタは排除される。すべてのクラスタに対 して同一の制約条件を維持することによって、結果としてのワード・テンプレー トの相関的な品位を実現できる。
このクラスタ処理手法は、ワード・テンプレートを表わすデータを最適条件で整 理するためのダイナミック・プログラミングとともに使用されている。ダイナミ ック・プログラミングの原理は、数学的に次の式で表わすことができる。
YO−0、および Yj−min [Yi+Cij]、(すべてのiに対して)ここに、Yjはノー ド0からノードjまでの最小コスト・バス(least cost path) のコスト、Cijはノードiからノードjに移る際に受けるコストである。この 整数値iおよびjは可能なノード数にわたっている。
この原理を本発明によるワード・テンプレートの整理に適用するため、いくつか の仮定を設ける。これらの仮定は、テンプレート内の情報は時間的に等しく間隔 どりされた一連のフレーム(a 5eries orframe )の形である こと、 フレームを平均フレームへと組み合せる適切な方法が存在すること、 平均フレームを原フレームと比較する有意義なひずみ測度が存在すること、およ び フレームは隣接フレームとのみ組み合されることである。
本発明の主要目的は、所定のひずみスレッショルドを超過する。クラスタが全無 存在しないと言う規制条件に従って、テンプレートを表わす最小組のクラスタを 見出すことである。
下記の定義が、ダイナミック・プログラミングの原理の本発明に基づくデータ整 理への適用を可能ならしめる。
Yjは最初のjフレームに対するクラスタの組合せであり、 YOは、この点においてはクラスタが存在しないことを意味するナル・バス(n ul I path)であり、そしてフレームi+1からjのクラスタがひずみ 判定基準を満足すればC1j=1であり、さもなければCij −無限大である こと。
このクラスタ処理方法は、ワード・テンプレートの最初のフレームでスタートす る最適クラスタ・バスを生成する。
テンプレート内の各フレームにおいて割当てられたクラスタ・バスは、これらの クラスタ・バスは全ワードに対するクラスタ処理を完全に定義しないので、部分 パスと呼ばれる。この方法は、 °フレーム0゛に関連するナル・バスを初期化 すること、すなわちyo−oにすることで開始する。
このことは、ゼロ・フレームのテンプレートはそれに関連する0個のクラスタを 有することを示している。各バスの相対品位を示すために、合計バスひずみが各 々のバスに割り当てられる。いかなる合計ひずみ測度でも使用可能であるが、こ こに述べる実施例の場合は現在のバスを定義するすべてのクラスタからのピーク ・スペクトルひずみの最大値を使用している。従って、ナル・バスすなわちYO はゼロ合計パスひずみTPDを割り当てられる。
最初の部分バスすなわちクラスタの組合せを見出すために、部分バスY1は次の ように定義されている。
Yll(フレーム1における部分バス) −YO+CD、1上式は、1個のフレ ームの許容クラスタはナル・バスYOを取り、かつフレーム1までのすべてのフ レームを付加することによって形成できることを表わしている。このため、平均 フレームは実際のフレームに等しいことから、部分バスY1に対する合計コスト は1クラスタであり、そして合計パスひずみはゼロである。
第2の部分バスY2の形成には、2つの可能性を考慮する必要がある。この可能 性は下記のとおりである。
Y2− min [YO+ C0,2;Yl、+01,2コ 。
第1の可能性は、フレーム1および2が1つのクラスタに組み合されたナル・バ スYOである。第2の可能性は、クラスタとしての第1のフレームすなわち部分 バスY1に第2のクラスタとしての第2のフレームを加えたものである。
この第1の可能性は1個のクラスタのコストを有し、また第2の可能性は2個の クラスタのコストを有している。
整理を最適化する目的は最も少ないクラスタを得ることであるので、第1の可能 性が好ましい。Mlの可能性に対する合計コストは1クラスタである。そのTP Dは、各フレームと2個のフレームの平均との間のピークひずみに等しい。
第1の可能性が所定のスレッショルド値を超過する局部ひずみを有している場合 は、第2の可能性が選択される。
部分バスY3を形成するためには、下記の3つの可能性が存在する。
Y3−a+in [YO+C0,3; 、 ゛部分バスY3の形成は、部分バス Y2の形成時にいずれのバスが選択されたかと言うことに依存している。部分バ スY2は最適に形成されたものであるので、はじめの2つの可能性のうちの1つ は考慮しない。従って、部分バスY2において選択されなかったバスは部分バス Y3に関して考慮する必要がない。莫大な数のフレτムに対してこの手法を実行 すると、絶対に最適なものとならないであろうバスを探索することなく大域的最 適化解法が実現される。従9て、データ整理に要する計算時間が実質的に削減さ れる。
第5b図は、4フレームのワー°ド・テンプレートにおける最適部分バスを形成 する一例を図説している。YlからY4までの各々の部分バスは、別個の列で示 しである。クラスタ処理のために考慮されるべきフレームは、アングラインが施 しである。YO+CO,1と定義しである第1の部分バスは、ただ1つの選択5 20を有している。単一フレームがそれ自体によってクラスタされる。
部分バスY2に関しては、最適形成は最初の2個のフレームを有する1つのクラ スタ、°選択522を含んでいる。。この例では、局部ひずみスレッショルドを 超過していると仮定すると、第2の選択524を取ることになる。これらの2個 の組合せフレーム 522の上の×、印は、これらの2個のフレームを組み合せ ても見込みのある平均フレームとして考慮されないことを示している。以後、こ れを無効化選択と呼ぶことにする。フレーム2までの最適クラスタ形成は、各々 が1個のフレーム524を有する2個のクラスタで構成されている。
部分バスY3については、3組の選択がある。第1の選択52Bは最も望ましい ものであるが、部分バスY2の最初の2個のフレーム 522を組み合せ、ると スレッショルドを超過することから、これは一般的に排除されるであろう。これ は常時真実であるとは限らないのそ留意されたい。実際の最適化アルゴリズムは 、部分バスY2の選択522が無効であるということのみでこの組合せを直ちに 排除することはしないであろう。ひずみスレッショルドを既に超過しているクラ スタに付加フレームを算入することは、副次的に局部ひずみを減少せしめる。し かし、このことはまれなことである。本例においては、このような算入は考慮し ていない。
無効組合せの大規模組合せも無効になるであろう。選択530は、選択522が 排除されることによって無効になる。
従って、X印が第1および第3の選択526および530の上に付してあり、そ の各々の無効化を表示している。このため、第3の部分バスY3はただ2つの選 択すなわち第2の528および第4の532を有している。この第2の選択52 8が一層最適(クラスタがより少ない)であり、本例においては、局部ひずみス レッショルドを超過していないものと化される。この無効化は第4の選択532 の上のxx印によって示されている。フレーム3までの最適クラスタ形成は、2 つのクラスタ 528から成っている。第1のクラスタは第1のフレームのみを 含んでいる。第2のクラスタはフレーム2および3を含んでいる。
第4の部分バスY4は、4つの選択対象の概念の組を有している。X印は、選択 534.538.542、および548が第2の部分バスY2から無効になった 選択522の結果として無効であることを示している。この結果、単に選択53 6.540.544、および54Bのみを考慮すればよいことになる。
Y3までの最適クラスタ化は532ではなく528であるため、選択546は非 最適選択となることが分るので、これはxx印で示されているように無効になる 。残りの3つの選択のうち選択53Bは代表クラスタの数を最小限にするので、 この選択536を次に選択する。本例においては、選択536は局部ひずみスレ ッショルドを超過しないものとする。従って、全ワード・テンプレートに対する 最適クラスタ形成は2個のクラスタのみで構成される。第1のクラスタは第1の フレームのみを含んでいる。第2のクラスタはフレーム2からフレーム4までを 含んでいる。部分バスY4は最適に整理されたワード・テンプレートを表わして いる。数学的には、この最適部分バスは、Y1+C1,4と定義される。
上記のパス形成手順は、各々の部分バスに対するクラスタ形成を選択的に配列す ることによって改善することができる。フレームは部分バスの最後のフレームか らその部分バスの最初のフレームに向かってクラスタ化が可能である。
たとえば、部分バスYIOの形成に際しては、クラスタ化の配列順序は: Y9 +C9,lO;’Y8+C8,10; Y7+C7,10i等である。フレーム lOで構成されるクラスタが先ず考慮される。
このクラスタを定義する情報は保存され、フレーム9が加えられてクラスタC8 ,lOとなる。クラスタ化フレーム9および10が局部ひずみスレッショルドを 超過する場合は、クラスタC9,lOを定義する情報は部分バスY9に付加され る付加クラスタと考えられない。クラスタ化フレーム9および10が局部ひずみ スレッショルドを超過しない場合は、クラスタ08.10が考慮される。スレッ ショルドを超過するまでフレームがクラスタに加えられ、スレッショルド超過時 点でYIOにおける部分バスの探索は完了する。次に、最適部分バス、すなわち 最も少ないクラスタを有するバスがYIOに対するすべての前の部分バスから選 択される。このクラスタ化の選択順序は、可能性のあるクラスタ組合せの試験を 限定し、これによって計算時間を削減する。
一般に、任意の部分バスYjにおいて、最大jクラスタ組合せが試験される。第 5c図はこのようなバスに対する選択順序づけを図説している。最適部分バスは 数学的に次のように定義される。
Yj−IIlin [Yj−1+cj−1,j ニー: Yl+C1,j ;y o+cO,j] 。
上式において、minはひずみ判定基準を満足するクラスタ・バス内の最小クラ スタ数である。第5c図の水平軸上にマークが付してあり、各々のフレームを示 している。縦に示しである列は、部分バスYjに対するクラスタ形成可能性であ る。最下段のかっこの組すなわちクラスタ可能性No、 1は、第1の可能性あ るクラスタ形成を決定する。この形成は、それ自体でクラスタされる単一フレー ムjと、最適部分バスYj−1とを含んでいる。低コストのパスが存在するか否 かを判断するため、可能性No、 2が試験される。部分バスYj−2がフレー ムj−2までは最適であるので、フレームjとj−1とのクラスタ化がフレーム jまでの他の形成の存否を決定する。ひずみスレッショルドを超過するまで、フ レームjは付加隣接フレームによってクラスタされる。ひずみスレッショルドを 超過すると、部分バスYjに対する探索は完了し、そして最も少ないクラスタを 有するバスがYjとして取られる。
このような方法でクラスタ化を順序づけることによって、フレームjに直接隣接 しているフレームのみのクラスタ化を強制する。他の利点は、無効化選択をクラ スタされるべきフレームの決定の際に使用しないことである。このため、いかな る単一部分バスに対しても、最小数のフレームがクラスタ化のために試験され、 そして部分パスごとに1つのクラスタ化を定義する情報のみが記憶装置に記憶さ れる。
各々の部分パスを定義する情報は、次の3つのパラメータを含んでいる。
(1)総計バス・コスト、すなわち、そのバス内のクラスタ数。
(2)形成された直前のバスを示すトレースバック・ポインタ(trace−b ad pointer) oたとえば、部分パスy6が(Y3+C3,8)と定 義された場合、Y6におけるトレースバック・ポインタは部分バスY3を指す。
(3)バスの総合ひずみを反映する、現在のバスに対する全バスひずみ(TPD )。
このトレースバック・ポインタは、そのバス内のクラスタを定義する。
全パスひずみは、バスの品位を反映している。これは、各々が等しい最小コスト (クラスタ数)を有している2っの可能性あるバス形成のいずれが最も望ましい ものであるかを決定するために使用される。
次の例はこれらのパラメータの応用について説明している。
部分パスY8に関して次の組合せが存在するものとする。
Y8− Y3十C3,8または Y5+C5,8部分パスY3および部分パスY 5のコストが相等しく、かつクラスタC3,8およびC5,8が共に局部ひずみ 制約条件を満たすものとする。
所望の最適形成は最小のTPDを有するものである。
ピークひずみ試験を使用して、部分パスY8に対する最適形成は次のように決定 される。
akin [max[Y3 ;クラスタ 4−8のピークひずみ〕;TPD max[Y5 ;クラスタ 6−8のピークひずみ]]。
PD いずれの形成が最小TPDを有しているかによって、トレースバック・ポインタ はY3かY5のいずれかに設定される。
ここで第5d図を見ると、この図はjフレーム列に対する部分パスの形成に関す るフローチャートを示している。このフローチャートは4個のフレームを有する 、すなわちN−4の場合のワード・テンプレートに関するものである。
結果としてのデータ整理テンプレートは、Yj −Y1+CI、4である第5b 図による例と同一である。
ナル・バス、すなわち部分パスYOは、コスト、トレースバック・ポインタおよ びTPDとともに初期化される(ブロック 550)。各々の部分パスはTPD  、コストおよびTBPに対する各自の組の値を有していることに留意されたい 。フレーム・ポインタjは1に初期化され、第1の部分パスYlを示す(ブロッ ク 552)。第5e図のフローチャートの第2の部分に続き、第2のフレーム ・ポインタには0に初期化される(ブロック 554)。第2のフレーム・ポイ ンタは、その部分パスのクラスタ処理にどの程度さかのぼってクラスタを考慮す るかを指定するために使用される。従って、クラスタ処理のために考慮されるべ きフレームはに+1からjまでが指定される。
これらのフレームは平均化され(ブロック 55G) 、そしてクラスタひずみ が生成される(ブロック 558)。部分パスの第1のクラスタが形成されつつ あるか否かを判断するため試験が行なわれる(ブロック 562)。この時点に おいて、第1の部分パスが形成中である。従って、必要なパラメータを設定する ことによって、クラスタは記憶装置内に定義される(ブロック 564)。これ は第1の部分パスの第1のクラスタであるので、トレースバック・ポインタ(T BP)はナル・ワードに、コストは1に設定され、そしてTPDは0のままであ る。
フレームjで終結するバスに対するコストは、“jで終結するバスのコスト(バ スjのクラスタの数)”プラス“加えられる新しいクラスタの1°として設定さ れる。大規模クラスタ形成に対する試験は、ブロック 586に示しである第2 のフレーム・ポインタkをデクレメントすることによって開始する。この時点に おいて、kは−1にデクレメントされるので、無効フレーム・クラスタを防止す るための試験が行なわれる(ブロック 568)。ブロック 568において実 施した試験からの肯定の結果は、すべての部分パスの形成が完了しそして最適性 の試験が完了したことを示すものである。第1の部分パスは、数学的にYl−Y O+ C0,1と定義される。このバスは第1のフレームを含む1個のクラスタ で構成されている。ブロック 570に示す試験は、すべてのフレームがクラス タ化されたか否かを判断する。クラスタ化されるフレームがまだ3個ある。次の 部分パスは、第1のフレーム・ポインタjをインクレメントすることによって初 期化される(ブロック 572)。第2のフレーム・ポインタはjの前の1フレ ームに初期化される(ブロック554)。従って、jはフレーム2を指し、kは フレーム1を指す。
フレーム2はブロック 556において単独に平均される。
ブロック 562において行なわれる試験で、jかに+1に等しいことを決定し 、流れは第1の部分パスY2を定義するためのブロック 564に進む。ポイン タには、次のクラスタを考慮するためブロック 566においてデクレメントさ れる。
フレーム1および2は平均されてYO+00.2を形成しくブロック 55B)  、そしてひずみ測度が生成される(ブロック558)。これは形成される第1 のパスではないので(ブロック 562) 、流れはブロック 560に進む。
ひずみ測度はスレッショルドと比較される(ブロック 56o)。本例において は、フレーム1と2とを組み合せるとスレッショルドをY1+C1,2が部分パ スY2として保存されているが、そのままフローチャートはブロック 580に 分岐する。
このブロック 580に示したス・チップは、いずれかの付加フレームが既にス レッショルドを超過しているこれらのフレームと共にクラスタ化されるべきであ るが否がを判断するための試験を行なうものである。一般的には、はとんどのデ ータの性質に起因して、この時点で付加フレームを加えることはさらにひずみス レッショルドの超過を招く結果となるものである。しかしながら、生成されたひ ずみ測度のスレッショルド超過が約20%を越えない場合は、ひずみスレッショ ルドを超過することなく付加フレームがクラスタ化可能であることが分かってい る。さらにクラスタ化を望む場合は、第2のフレーム・ポインタが新しいクラス タを指定するためにデクリメントされる(ブロック 56B)。
さもなければ、すべてのフレームがクラスタ化されたが否かを示す試験が実施さ れる(ブロック 57o)。
次の部分パスは、jを3に等しく設定して初期化される(ブロック 572)。
第2のフレーム・ポインタは2に初期化される。フレーム3は単独に平均化され (ブロック556)、そしてひずみ測度が生成される(ブロック 558)。
これはY8に対して形成された第1のパスであるので、この新しい、パスは定義 されかつ記憶装置に保存される(ブロック 564)。第2のフレーム・ポイン タはデクリメントされ(ブロック 56B) 、大規模クラスタを指定する。こ の大規模クラスタは、フレーム2および3で構成されている。
これらのフレームは平均化され(ブロック 55B) 、ひずみが生成される( ブロック 558)。これは形成される第1のパスではないので(ブロック 5 82) 、流れはブロック560に進む。この例では、スレッショルドを超過し ない(ブロック 560)。このパスY1+C1,3は2個のクラスタを有し、 3個のクラスタを有するパスY2+02,3よりもさらに最適のものであるので 、パスY1+C1,3は以前に保存されたパスY2十〇2.3に部分パスY3と して取って代わる。kが0にデクリメントされると、大規模クラスタが指定され る(ブロック566)。
フレーム1〜3は平均化され(ブロック 556)、別、のひずみ測度が生成さ れる(ブロック 558)。この例では、スレッショルドを超過する(ブロック  560)。付加フレームがクラスタ化されることはなく (ブロック 580 ) 1.すべてのフレームがクラスタ化されたか否かを判断するため試験が再び 行なわれる(ブロック 570)。フレーム4が未だクラスタ化されていないの で、jが次の部分パスY4のためにインクレメントされる。第2のフレーム・ポ インタはフレーム3に設定され、そしてクラスタ化処理が繰り返される。
、 フレーム4は単独に平均化される(ブロック 556)。再び、これは形成 された最初のパスであり(ブロック 562)、このパスはY4に対して定義さ れる(ブロック 564)。この部分パスY3+03,4は、3個のクラスタの コストを有している。大規模クラスタが指定され(ブロック 58B) 、フレ ーム3および4がクラスタ化される。
フレーム3および4は平均化される(ブロック 556)。
本例においては、これらのひずみ測度はスレッショルドを超過しない(ブロック  560)。この部分パスY2+C2,4は3個のクラスタのコストを有してい る。これは以前のパス(Y3+C3,4)と同一のコストを有しているので、流 れはブロック 574および57Bを通してブロック 578に進み、TPDは いずれのパスが最も小さいひずみを有しているかを判断するため調べられる。現 在のパス(Y2+C2,4)が以前のパス(Y3+03.4)よりも低いTPD を有していれば(ブロック57g) 、このパスは以前のパスに取って代るであ ろうしくブロック 564) 、さもなければ流れはブロック 566に進む。
大規模クラスタが指定され(ブロック 58B) 、フレーム2〜4がクラスタ 化される。
フレーム2〜4は平均化される(ブロック 556)。本例においては、これら のひずみ測度はまたもスレッショルドを超過しない。この部分パスY1+C1, 4は2個のクラスタのコストを有している。これは以前のパス以外の部分パスY 4に代するさらに最適のパスであるので、このパスは以前のパスに代って定義さ れる(ブロック 564)。大規模クラスタが指定され(ブロック 56B)  、そしてフレーム1〜4がクラスタ化される。
フレーム1〜4を平均化すると、本例においては、ひずみスレッショルドを超過 する(ブロック 560)。クラスタ化は停止される(ブロック 580)。す べてのフレームのクラスタ化が完了したので(ブロック 570) 、各々のク ラスタを定義している記憶情報はこの4フレームのデータ整理ワード・テンプレ ートに対する最適パスを定義するが(ブロック 582) 、これは数学的には Y4− Y1+’CI、4と定義される。
本例は第3図からの最適データ整理ワード、・テンプレートの形成を説明してい る。フローチャートは、下記の順序による各々の部分パスに対するクラスタ化の 試験を説明しY3 : l 2主4 12ユ40234Y4:1234 123 4 1234 $1234゜フレームを示している数字は、各々のクラスタ試験 に対してアングラインが付しである。スレッショルドを超過するクラスタは先頭 に付した′*゛印によって示されている。
本例においては、10種類のクラスタ・パスが探索される。
一般に、この手順を使用する場合は、Nをワード・テンプレート内のフレーム数 とすると、多くて[N (N+1)]/2個のクラスタ・パスが最適クラスタ形 成を探索するために必要である。15フレームのワード・テンプレートに関して は、すべての可能性ある組合せを、試行する探索のための18.384のパスに 比して、最大120のパスの探索を必要とすることになる。従って、本発明に基 づいてこのような手順を使用すると、計算時間の著しい削減が実現される。
第5dおよび5e図のブロック 552.568.554.562、および58 0を変更することによって、計算時間をさらに削減することができる。ブロック  568は、第2のフレーム・ポインタkに設定される限界を示している。この 例では、kはフレームOにおけるナル・パス、すなわち部分パスYOによっての み制限される。kは各クラスタの長さを定義するために使用されるので、クラス タ化されるフレームの数はkに制約条件を付与することによって制約することが できる。すべての与えられたひずみスレッショルドに対して、クラスタ化された 場合に、このひずみスレッショルドを超過するひずみを生じさせるクラスタ数が 常に存在する筈である。これに対して、ひずみスレッショルドを超過するひずみ を絶対に生じない最小クラスタ形成が常に存在する筈である。従って、最大クラ スタ・サイズMAXC8と最小クラスタ・サイズ旧NC8とを定義することによ って、第2のフレーム・ポインタkを制約することができる。
MINC8Ltブロック 552.554、および562に適用することにする 。ブロック 552に関しては、jは)l + NC3に初期化される。ことに なる。ブロック 554に関しては、このステップにおいてkから1を減するの ではなく、旧NC8が減じられることになる。このことはkを各々の新しい部分 、パスに対して、あるフレーム数だけ戻すことになる。この結果、旧NC3より も少ないフレームを有するクラスタは平均化されないことになる。旧NC8を収 容するため、ブロック 562はj−に+1ではなくj−に+旧NC3の試験を 表わすべきであることに留意されたい。
MAXCSはブロック 568に適用されることになる。
限界はO(k<0)以前のフレームまたはMAXCS(k < 0− MAXC S)で指定されたちの以前のフレームになる。
これによって、MAXCSを超過することが分かつているクラスタの試験を避け ることができる。
第5e図の方法による場合は、これらの制約条件は数学的に次のように表わすこ とができる。
k > j −MAXCS および k〉0; 並びにkくj−旧NC9および  j、〉旧NC8。
たとえば、部分パスY15に対してMAXCS −5、および旧NC3−2とす ると、最初のクラスタはフレーム15および14で構成され、最後のクラスタは フレーム15〜11で構成される。jは旧NC8より大または旧NC8と等しく なけれifならないと言う制約条件は、クラスタが最初の旧NCSフレーム内に 形成することを防止する。
サイズMINC8におけるクラスタはひずみスレ・ノショルドに対して試験(ブ ロック 560)されないことに注目されたい(ブロック 562)。このこと は、有効部分ノくスがすべてYjSj >MINC3に対して存在することを保 証する。。
本発明に基づいてこのような制約条件を使用すること(こよって、探索対象のパ ス数はMAXCSとMINC8との間の差1こ従って削減される。
第5r図は、第5e図のブロック 582をさらに詳細に示している。この第5 f図は、逆の方向に各クラスタからトレースバック・ポインタ(第5e図のプロ ・ツク 564内のTBP)を使用することによってデータ整理後の出力クラス タを生成する方法を説明している。2つのフレーム・ポインタTBおよびCFが 初期化される(ブロック 590)。TBは最後のフレームのトレースバック・ ポインタに初期化される。現在エンド・フレーム・ポインタであるCFは、ワー ド・テンプレートの最終フレームに初期化される。第5dおよび58図力)らの 例においては、TBはフレーム1を、そしてC11iフレーム4を指すことにな る。フレームTB+1〜CFは平均化されて、合成ワード・テンプレートに対す る出力フレームを形成゛する(ブロック 592)。各々の平均化フレームに対 する変数、またはクラスタは組み合されるフレーム数を記憶する。これは“リピ ート・カウント”と呼ばれ、CF−TBから計算することかできる。第6C図以 下を参照されたい。すべてのクラスタが出力されたか否かを判断するため試験が 行なわれる(ブロック 594)。出力が完了していない場合は、CFをTBに 等しく設定しかつTBを新しいフレームCPのトレースノくツク・ポインタに設 定することによって、次のクラスタが指示される。この手順は、すべてのクラス タが平均、化されかつ出力されて合成ワード・テンプレートを形成するまでユニ ークな応用を説明している。このトレ」ス、(・ツク・ポインタは、一般に無限 長データと呼ばれている不定数のフレームを有するデータからクラスタを出力す るための部分トレースバック・モードにおいて使用される。これは、有限数のフ レーム例えば4個を有するワード・テンプレートを使用している第3および5図 で説明した例とは異なるものである。
第5g図は連続の24個のフレームを示しているが、この各々のフレームには部 分パスを定義するトレースノ(・ツク・ポインタが割り当てられている。この例 では、旧NCSは2に、そしてMAXCSは5に設定しである。部分トレースノ くツクを無限長データに応用するには、入力データの部分を定義するためにクラ スタ化されたフレームが連続的1こ出力されることを必要とする。従って、部分 トレースノ(・ツクのスキームにトレースバック・ポインタを応用することによ って、連続データを整理することができる。
第5h図は、フレーム10で集中し、フレーム21〜24で終結するすべての部 分バスを図説している。フレーム1〜4.5〜7、および8〜IOは最適クラス タであると判明したものであり、また集中点はフレーム10であるので、これら のフレームは出力可能である。
第51図は、フレーム1〜4.5〜7、および8〜loが出力された後の残りの トリーを示している。第5gおよび5b図は、フレームOにおけるナル・・ポイ ンタを示している。第51図の形成の後、フレーム10の集中点は新しいナル・ ポインタの位置を指定している。この集中点を経てトレース・バックし、かつそ の点からフレームを出力することによって、無限長データを収容することができ る。
一般に、フレームnとすると、トレースバックを開始すべき点はn、n−1、n −2、−n −MAXC3であるが、これはこれらのバスが依然として有効であ り、かつさらに入力データと組み合せることが可能であるからである。
第6aおよび6b図のフローチャートは、第4a図の差分符号している。ブロッ ク 660でスタートし、この差分符号化処理は、各チャンネルの実際のエネル ギー・データの代りに、隣接チャネル間の差を生成して記憶することによって、 テンプレート記憶装置の必要量を軽減している。この差分符号化処理は、第4b 図において説明したように、フレーム・バイ・フレームのベースで作動している 。従って、初期化ブロック 661は、フレーム・カウントPCを1に、そして チャネル合計CTを14に設定している。ブロック 662は以前のとおりフレ ーム合計FTを計算する。ブロック 663は、ワードのすべてのフレームが符 号化されたか否かを確認するための試験を行なう。すべてのフレームが処理完了 していれば、差分符号化はブロック 664で終結する。
ブロック 665は、チャネル・カウントCCを1に等しく設定することによっ て、実際の差分符号化手順を開始する。
チャネル1のエネルギー正規化データが、ブロック 66Bにおいてアキュムレ ータに読み込まれる。ブロック 667は、記憶域削減のためチャネル1のデー タを1.5dB段階に量子化する。特徴抽出器312からのチャネル・データは 、8ビツト/バイトを使用して最初0.376dB/段階として表わされる。1 .5dB増分に量子化される場合は、9[idBのエネルギー範囲(26X 1 .5dB)を表わすためには6ビツトしか要しないことになる。最初のチャネル は、隣接チャネルの差を決定するための基準を形成するため、差分符号化されな い。
チャネル・データの量子化・制限化値をチャネル差分の計算に使用しないものと すると、著しい量子化エラーがブロック 430の差分符号化処理に混入する可 能性がある。このため、内部変数)?QV 、すなわちチャネル・データの再編 成量子化値を差分符号化ループの内部に導入してこのエラーを考慮している。チ ャネル1は差分符号化されないので、ブロック 668は、将来使用のためのチ ャネルI RQVを、チャネル1の量子化データの値を単にそれに割り当てるこ とによって、形成する。以下に説明するブロック 675は、残りのチャネルの ためのRQVを形成する。従って、量子化されたチャネル1のデータはブロック  669において(、テンプレート記憶装置160に)出力される。
チャネル・カウンタはブロック 670においてインクレメントされ、そして次 のチャネル・データがブロック 671においてアキュムレータに読み込まれる 。ブロック 672は、このチャネルデータのエネルギーを1.5dB/ステツ プで量子化する。差分符号化は、実際のチャネル値ではなくチャネル間の差を記 憶するので、ブロック 673は次式に基づいて隣接チャネルの差を決定する。
チャネル(CC)差分−〇〇 (CC)データー〇〇 (CC−1) RQV上 記においてCH(CC−1) RQVは、前のループのブロック675またはC C−2においてはブロック 668において形成された前のチャネルの再編成量 子化値である。
ブロック 674はこのチャネル差分ビット値を、−8〜+7最大に制限する。
このビット値を制約するとともにエネルギー値を量子化することによって、隣接 チャネル差分の範囲は一12dB/+10.5dBになる。異なる応用による異 なる量子化値またはビット制限も考えられるが、上記結果は得られた値が本応用 について十分なものであることを示している。
その上、制限チャネル差分は4ビツトの符号付き数であるので、1バイトについ て2個の値の記憶が可能である。従って、ここで説明した制限および量子化手順 は所要データ記憶量を実質的に削減している。
しかしながら、各々の差分の制限および量子化値が次のチャネルの差分形成に使 用されないとすると、著しい再編成エラーを招くことになる。ブロック 675 は、次のチャネル差分を形成する前に量子化および制限化データから各チャネル 差分を再編成することによって、このエラーを考慮に入れている。内部変数RQ Vは次式によって各チャネルに対して形成される。
チャネル(CC) RQV −CH(CC−1) RQV 十CH(CO) ( 7)差分上式において、CI (CC−1) RQVは前のチャネル差分の再編 成量子化値である。従って、差分符号化ループ内にRQV変数を使用することに よって、量子化エラーが後続チャネルに伝搬することを防止する。
ブロック 676は、量子化/制限化チャネル差分を、この差分が1バイトにつ いて2個の値が記憶されるように、テンプレート記憶装置に出力する(第6c図 参照)。ブロック677は、すべてのチャネルが符号化されたか否かを確認する ための試験である。チャネルが残っている場合は、手順がブロック 670から 繰り返される。チャネル・カウントCCがチャネル合計CTに等しい場合は、フ レーム・カウントFCは以前のとおりブロック 678においてインクレメント されそしてブロック 663において試験される。
以下の計算は、本発明によって達成される整理データ・レートを説明するもので ある。特徴抽出器312は14個のチャネルの各々に対する8ビツトの対数チャ ネル・エネルギー値を生成するが、この場合最下位のビットはdBの3/8を表 わす。従って、データ整理器ブロック 322に印加される原始ワード・データ の1フレームは、8ビツト/バイトで、14バイトのデータで構成され、100 フレーム/秒では11.200ビット/秒に等しい。
エネルギー正規化および区分化/圧縮手順が実施された後は、1フレームにつき 16バイ1〜のデータを必要とする。
(14個のチャネルの各々に対して1バイト、平均フレーム・エネルギーAVG ENGに対して1バイト、およびリピート・カウントに対して1バイト)。この ように、データ・レートは8ビツト/バイト、100フレーム/秒において16 バイトのデータとして計算することができ、リピート・カウントについて平均4 フレームと仮定すると、3.200ビット/秒が得られる。
ブロック 430の差分符号化処理が完了した後、テンプレート記憶装置160 の各フレームは第6C図の整理データ形式に示すようになる。リピート・カウン トは、バイト1に記憶される。量子化・エネルギー正規化されたチャネル1のデ ータは、バイト2に記憶される。バイト3〜9は、2チヤネルの差分が各々のバ イトに記憶されるように分割されテイル。換言すれば、差分符号化されたチャネ ル2のデータはバイト3の上位ニブルに記憶され、そしてチャネル3のデータは 同一バイトの下位ニブルに記憶される。チャネル14の、差分はバイト9の上位 ニブルに記憶され、そして平均化フレーム・エネルギーすなわちAVGENGは バイト9の下位ニブルに記憶される。9バイト/フレームのデータ、8ビツト/ バイト、 100フレーム/秒、そして平均リピート・カウントを4とすると、 データ・レートは 1.800ビット/秒となる。
従って、差分符号化ブロック 430は16バイトのデータを9バイトに整理し ている。リピート・カウント値が2〜15の間にあれば、このリピート・カウン トも4ビツトのニブル内に記憶可能である。すなわち、このリピート・カウント ・データ形式を、記憶装置必要量を8.5バイト/フレームにさらに削減するよ うに再配列することができる。その上、このデータ整理処理は、データ・レート を少なくとも係数6だけ減少させている(11.200−1.800)。この結 果、音声認識システムの複雑性と記憶装置必要量とを大幅に軽減し、これによっ て音声認識用語範囲の増大を可能ならしめている。
3、復号化(d ecod i ng)アルゴリズム第7a図は、第4a図のブ ロック 420に関して説明したとおり、3個の平均フレーム 722に組み合 せたフレーム720を有する改良形ワード・モデルを示している。各々の平均フ レーム722は、1つのワード・モデル内のステー) (state)として示 しである。各ステートは1つ以上のサブステート(5ubstate)を含んで いる。サブステートの数は、このステートを形成するために組み合されたフレー ムの数に依存している。各サブステートは、入力フレームと平均フレームとの間 の類似点測度すなわちディスタンス・スコア(distance 5cores )を累積する関連ディスタンス・アキュムレータを有している。この改良形ワー ド・モデルの実施態様について第7b図で説明する。
この第7b図は、第3図からのブロック 120を、テンプレート記憶装置18 0との関係を含み特に詳しく示すために展開拡大したものである。音声認識器3 26は展開拡大されて、認識器制御ブロック 7301ワード・モデル・デコー ダ732、ディスタンスRAM 734 、ディスタンス計算器736およびス テート・デコーダ738を含んでいる。テンプレート・デコーダ328とテンプ レート記憶装置とに関しては、この音声認識器326に続いて説明する。
認識器制御ブロック 730は、認識処理を調整するために使用されている。こ の調整は、(隔離ワード認識に対する)エンドポイントの検出、ワード・モデル の最良累積ディスタンス・スコアの追跡、(連結すなわち連続ワード認識のため の)ワードの連結に使用されるリンク・テーブルの維持、特殊認識処理に必要な 特殊ディスタンス計算、およびディスタンスRAM 734の初期化を含むもの である。認識器制御はさらに、音響プロセッサからのデータの緩衝をも行なう。
入力音声の各々のフレームに対して、認識器はテンプレート記憶装置内のすべて の有効ワード・テンプレートを更新する。認識器制御器730の特殊必要条件は 、Acou−stics、 5peech and Signal Proce ssing (音響、音声、および信号の処理)に関する1982年のI EE E国際会議の議事録の899−902頁にAn Algorithm for  Connected WordRecognition (連結ワード認識のた めのアルゴリズム)′と題する論文にBr1de 、 Brown 、およびC hamberlalnが記述している。この認識器制御器ブロックによって使用 されている対応制御プロセッサについては、Acousttcs。
5peech and Signal Processing (音響・音声、 および信号の処理)に関する1982年のl EEE国際会議の議事録の863 〜866頁に”A Real−Time Hardware Continuo us SpeechRecognition System (リアルタイム・ ハードウェア連続音声認識システム)#と題する論文にPeckharASGr een sCanning 、および5tephensが記述している〇ディス タンスRAM 734は、デコード処理に対して最新のすべてのサブステートに 関して使用された累積ディスタンスを内容として有している。1977年、Ca rnegie−Met JonUniversity (カーネギ−・メロン大 学)のColl1puterScience Dept、 (Dンピュータ科学 部)のPh、 D、 Disser−tation (博士論文)の”The  Harpy 5peech Recogn1tionSystem (バービイ 音声認識システム)”にB、 Loverreが記述しているようなビーム復号 化を使用する場合は、このディスタンスRAM 734は現在有効であるサブス テートを識別するためのフラグを含むことになる。前記の“An Algo−r lthm f’or Connected Word Recognition  (連結ワード認識のためのアルゴリズム)″に記述されているように連結ワー ド認識処理を使用する場合は、ディスタンスRAM 734は各々のサブステー トに対するリンキング・ポインタをも含むことになる。
ディスタンス計算器736は、現在の入力フレームと処理中のステートとの間の ディスタンスを計算する。ディスタンスは通常の場合、音声を表わすためそのシ ステムが使用している特徴データのタイプに基づいて計算される。帯域ろ(′a )波されたデータはユークリッド(Eucl 1dean)またはチェビシェフ (Chebychev)のディスタンス計算を使用することができるが、この計 算については1983年5〜6月のBe1l System Technica l Journal (ベル・システム・テクニカル・ジャーナル) Vol、 62. No、5の 1.311〜1.338頁にB、 A、 Dautrlc h、 L、 R,Rabiner ST、 B、 Martinが’ TheE ffects of’ 5elected Signal Processin g Techniques onthe Perf’oriance of’  Filter−Bank−Based l5olated WordRecog nizer (選択信号処理手法のフィルタ・バンクに基づくワード認識器の性 能に及ぼす影響)”と題して発表した論文に記述しである。LPGデータは対数 尤度比ディスタンス計算(log−1jkelihood ratio dis tance calculation)を使用することができ、この計算につい ては1975年2月のIEEE Trans、Acoustlcs、5peec h and Signal Processing(音響1、音声および信号の 処理) VOl、 ASSP−23<7) 67〜72頁に“旧nfum Pr ediction Re5idual Pr1nciple Applied  t。
5peech Recognition (音声認識に応用される最小、予測残 留の原理)′と題してF、 Itakuraが発表した論文に記述されている。
本実施例はチャネル・バンク情報とも呼ばれているろ波データを使用しているの で、チェビシェフ計算またはユークリッド計算のいずれでも構わない。
ステートデコーダ738は、入力フレーム処理時の各々の現在有効ステートにつ いてディスタンスRAMを更新する。
換言すれば、ワード・モデルデコーダ732によって処理された各々のワード・ モデルについて、ステートデコーダ738はディスタンスRAM 734内の所 要累積ディスタンスを更新する。このステートデコーダは、入力フレームとディ スタンス計算器736によって決定された現在ステートとの間のディスタンス、 および、勿論のことであるが、現在ステートを表わすテンプレート記憶装置デー タをも利用する。
第7c図は、各々の入力フレームを処理するためにワード・モデル・デコーダ7 32が行なう諸ステップをフローチャートの形で示している。1977年のカー ネギ−・メロン大学の計算機科学部の博士論文″The Harpy 5pee ch Recogni−tion System (バービイ音声認識システム )”にB、 Lover「eが記述しているビーム復号処理のような切捨て探索 手法(truncated searching Lechnique)を含み 、多数のワード探索手法を復号処理のために使用することができる。切捨て探索 手法を実施する場合は、音声認識器制御器730がスレッショルド・レベルと最 良累積ディスタンスを保持していることが必要であることに留意されたい。
第7c図のブロック 740において、認識器制御器(第7b図のブロック 7 30)から3つの変数が抽出される。これらの3つの変数は、PCADSPAD およびテンプレートPTRである。
このテンプレートPTRは、ワード・モデルデコーダを正しいワード・テンプレ ートに向けるために使用される。
PCADは、直前のステートからの累積ディスタンスを表わしている。この累積 されたディスタンスは、シーケンス中のワード−モデルの直前のステートから存 在しているものである。
PADは直前の連続ステートから必ずしも必要ではないが、直前の累積ディスタ ンスを表わしている。PADは、直前のステートが最小ドウエル・タイム0(ゼ ロ)を有する場合、すなわち直前のステートがともにスキップ可能な場合は、P CADと異なることができる。
隔離ワード認識システムにおいては、PADおよびPCADは、一般的には認識 器制御器によって0(ゼロ)に初期化される。連結または連続ワード認識システ ムにおいては、PADおよびPCADの初期値は他のワード・モデルの出力から 決定することができる。
第7c図のブロック 742において、ステート・デコーダは個々のワード・モ デルの第1のステートに対する復号化機能を行なる。このステートを表わすデー タは、認識器制御器から供給されたテンプレートPTRによって識別される。
このステート・デコーダ・ブロックについては、第7d図で詳述する。
そのワード・モデルのすべてのステートが復号されたか否かを判断するためブロ ック 744で試験が行なわれる復号化が完了していない場合は、更新されたテ ンプレートPTI?を伴って、流れはステー ト・デコーダ、すなわちブロック 742に戻る。このワード・モデルのすべてのステートが復号されている場合は 、累積ディスタンス、PCADとPADとがブロック 748において認識器制 御器に戻される。この時点において、認識器制御器は復号すべき新しいワード・ モデルを典型的に指定することになる。すべてのワード・モデルの処理が完了す ると、音響プロセッサからの次のデータ・フレームの処理を開始しなければなら ない。入力の最後のフレームが復号された場合の隔離ワード認識システムについ ては、各々のワード・モデルに対してワード・モデル・デコーダによって返され たPCADは、入力発声をそのワード・モデルに突き合せるための全累積ディス タンスを表わしていることになる。一般的には、最低の全累積ディスタンスを有 するワード・モデルが、認識された音声によって表わされたものとして選択され ることになる。テンプレートの突合せが決定すると、この情報は制御ユニット  334に伝達される。
第7d図は、各々のワード−モデルの各々のステートに対する実際のステート復 号化処理を行なうだめのフローチャート、すなわち第7C図のブロック 742 .を拡張拡大したものを示している。累積ディスタンス、すなわちPCADおよ びPADはブロック 750に伝達される。ブロック 750において、ワード ・モデル・ステートと入力フレームとのディスタンスが計算され、入力フレーム ・ディスタンスを意味するIFDと呼ばれる変数として記憶される。
このスーテートに対する最大ドウエルは、テンプレート記憶装置から移送される (ブロック 751)。この最大ドウエルは、ワード・テンプレートの各々の平 均フレームに組み合されるフレーム数から決定され、そしてステート内のサブス テート数に等しいものである。実際にこのシステムは、組み合されるフレームの 数として、最大ドウエルを定義する。これは、ワード・トレーニング時には特徴 抽出器(第3図のブロック 310)は入力音声を認識処理時の2倍のレートで サンプルするからである。最大ドウエルを平均化されたフレーム数に等しく設定 することによって、認識時に話されるワードがテンプレートによって表わされる ワードの時間長の2倍までである場合、話されたワードのワード・モデルとの突 合せ(整合)を可能ならしめる。
各々のステートに対する最小ドウエルは、ステートデコード処理時に決定される 。ステートの最大ドウエルのみがステート・デコーダ・アルゴリズムに伝達され るので、最小ドウエルは4で除算された最大ドウエルの整数部として計算される (ブロック 752)。これによって、認識時に話されるワードがテンプレート によって表わされるワードの時間長の半分である場合、話されたワードのワード ・モデルとの突合せを可能ならしめる。
ドウエル・カウンタ、すなわちサブステート・ポインタiはブロック 754に おいて初期化され、処理中の現在ドウエル・カウントを表示する。各々のドウエ ル・カウントは、サブステートと呼ばれる。各々のステートに対するサブステー トの最大数は、前述のとおり、最大ドウエルに基づいて定義される。この実施例 においては、復号化処理を容易ならしめるため、サブステートは逆の順序で処理 される。
従って、最大ドウエルはステート内のサブステートの全数として定義されるので 、“i″は最初最大ドウエルに等しく設定される。
ブロック 756において、一時的累積ディスタンスTADは、IPAD(1) と呼ばれているサブステートiの累積ディスタンスと現在入力フレーム・ディス タンスIFDとの和に等しい値に設定される。この累積ディスタンスは、前に処 理された入力フレームから更新され、かつ第7b図のブロック フ34のディス タンスRAMに記憶されているものと仮定する。
I PADは、すべてのワード・モデルのすべてのサブステートに対する認識処 理の最初の入力フレームに先立ち0に設定サブステート・ポインタはブロック  758においてデクレメントされる。このポインタが0に到達しない場合は(ブ ロック 760) 、このサブステートの新しい累積ディスタンスIFAD ( 1+1)は、前のサブステートに対する累積ディスタンスIPAD(1)と現在 入力フレーム・ディスタンス1.PDとの和に等しい値に設定される(ブロック  762)。そうでない場合は、流れは第7e図のブロック 768に進む。
ブロック 764で試験が行なわれ、このステートが現在サブステートから退出 可能であるか否か、すなわち“12が最小ドウエルよりも大であるか否かまたは 最小ドウエルと等しいか否かを判断する。“i″が最小ドウエルより小になるま で、一時的累積ディスタンスTADは前のTADまたはIFAD (1+1)の いずれかの最小値に更新される(ブロック766)。換言すれば、TADは現在 ステートを出る最良累積ディスタンスとして定義される。
第7e図のブロック 768に続き、最初のサブステートに対する累積ディスタ ンスは、PADであるステートに入る最良累積ディスタンスに設定される。
現在ステートに対する最小ドウエルが0であるか否かを判断するため試験が行な われる(ブロック 770)。最小ドウニル値ゼロは、このワード・テンプレー トの復号化においてさらに正確な突合せをもたらすために現在ステートをスキッ プすることができることを示している。そのステートに対する最小ドウエルがゼ ロでない場合は、PADの一時的累積デイスタンスTADに等しく設定されるが 、これはTADがこのステートからの最良累積ディスタンスを含んでいることに よるものである(ブロック 7)2)。最小ドウエルがゼロである場合は、前の ステートの累積ディスタンス出力、PCAD、またはこのステートからの最良累 積ディスタンス出力TADのいずれかの最小値として設定される(ブロック 7 74)。PADは、次のステートに入ることが可能になる最良累積ディスタンス を表わしている。
ブロック 776において、前の連続累積ディスタンスPCADは現在ステー)  TADを出る最良累積ディスタンスに等しく設定される。この変数は、次のス テートが最小ドウニル値ゼロを有している場合このステートに対するPADを完 成させるために必要である。2つの隣接ステートが両方ともスキップされること のないように、最小許容最大ドウエルは2であることに注目されたい。
最後に、現在ステートに対するディスタンスRAMポインタが更新されてそのワ ード・モデル内の次のステートを指す(ブロック 778)。このステップは、 アルゴリズムを一層効果的にするためにサブステートが終りから始めまで復号化 されるので必要なものである。
付録Aに示した表は、入力フレームが3つのステートA1BおよびCを有するワ ード・モデル(第7a図に類似)によって処理される例に適用された第7c、  7dおよび7e図のフローチャートを説明するものである。この例では、前の諸 フレームはすでに処理済みであるものと仮定している。従って、この表はステー トA、BおよびCの各々のサブステートに対する“旧累積ディスタンス(IF、 AD)”を示すカラムを含んでいる。
この表の上部に、この例の具現に伴って参照する情報を用意しである。3つのス テートは、A、B、およびCにそれぞれ対する最大ドウエル3.8および4を有 している。
各々のステートに対する最小ドウエルは、それぞれ0.2および1としてテーブ ルに示しである。これらは、最大ドウエル1/4の整数部として、第7d図のブ ロック 752によって計算されていることに留意されたい。この表の上部には さらに、第7d図のブロック 750に基づく各々のステートに対する人力フレ ームディスタンス(IFD)が示しである。
この情報もこの表に示すべきものではあるが、表の短縮化・簡略化のため表から 除外しである。適切なブロックのみを表の左側に示しである。
この例は第7c図のブロック 740で始まる。前の累積ディスタンスPCAD およびPAD 、並びに復号中のワード・テンプレートの第1ステートを指すテ ンプレート・ポインタが認識器制御器から受け取られる。従って、この表の第1 列に、ステートAはPCADおよびPADとともに記録されている。
第7d図に移り、ディスタンス(IFD)が計算され、最大ドウエルがテンプレ ート記憶装置から検索され、最小ドウエルが計算され、そしてサブステート・ポ インタ″12が初期化さ、れる。最大ドウエル、最小ドウエル、およびIFD情 報は既に表の上部に用意されているので、ポインタの初期化のみが表内に示され ることが必要である。第2行目は3、すなわち最後のサブステートに設定された iを示し、そして前の累積ディスタンスがディスタンスRA)Iから検索される 。
ブロック 756において、一時的累積ディスタンスTADが計算され、表の第 3行目に記録される。
ブロック 760で行なわれた試験は表に記録されないが、表の第4行目はすべ てのサブステートが処理されていないのでブロック 762に移る流れを示して いる。
表の第4行目は、サブステート・ポインタのデクレメント(ブロック 758) および新累積ディスタンスの計算(ブロック 762)の両者を示している。従 って、記録されるものはl−2、対応する旧IFADおよび14に設定された新 累積ディスタンス、すなわち、現在のサブステートに対する前の累積ディスタン スに当該ステートに対する入力フレーム・ディスタンスを加算したものである。
ブロック 764で実施された試験の結果は肯定である。表の5行目は、現在T ADまたはIFAD(3)のいずれかの最小値として更新された一時的累積デイ スタンスTADを示している。この場合は、後者であり、TAD=14となる。
流れはブロック 758に戻る。ポインタはデクレメントされ、第2のサブステ ートに対する累積ディスタンスが計算される。これは6行目に示しである。
第1のサブステートは同様に処理され、この時点におけるiは0に等しいものと して検出され、そして流れはブロック 760からブロック 768に進む。ブ ロック 768において、IPADは現在ステートへの累積ディスタンスPAD に基づいて第1のサブステートに対して設定される。
ブロック 770において、最小ドウエルが0であるか否かについて試験される 。0の場合は、現在ステートは最小ドウエル値0によってスキップ可能であるの で、流れはブロック 774に進みこのブロックでPADは一時的累積デイスタ ンスTADまたは前の累積ディスタンスPCADの最小値から決定される。ステ ートAに対しては最小ドウエル−0であるので、PADは9 (TAD)および 5 (PCAD)の最小ドウエルのうちの5に設定される。PCADはこれに続 いてTADに等しく設定される(ブロック 77B)。
最後に、第1のステートは、ワード・モデル内の次のステートに更新されたディ スタンスRAMポインタによって完全に処理される(ブロック 778)。
流れは第7C図のフローチャートに戻ってテンプレート・ポインタを更新し、そ して第7d図に戻り(ブロック 750)ワード−モデルの次のステートに備え る。このステートは、それぞれ5と9であるPADとPCADとが以前のステー トから移って来たものでありかつこのステートに対する最小ドウエルはゼロに等 しくなく、ブロック 76Bはすべてのサブステートに対して実行されないこと を除き、以前と同様に処理される。従って、ブロック 774ではなくブロック  772が処理される。
ワード・モデルの第3のステートは、第1および第2のステートと同一のライン に沿って処理される。S3のステートの処理完了後、第7C図のフローチャート は認識器制御器のための新しいPADおよびPCAD変数の処理に戻る。
要約すると、ワード・モデルの各ステートは逆の順序で一度に1サブステートだ け更新される。あるステートから次のステートに最適ディスタンスを桁上げする ために、2つの変数が使用される。第1の変数PCADは、前の連続ステートか ら最小累積ディスタンスを桁上げする。第2の変数PADは最小累積ディスタン スを現在ステートに桁上げし、(PCADと同じ)前のステートからの最小累積 ディスタンス出力かまたは、前のステートがOの最小ドウエルを有している場合 は、前のステートからの最小累積ディスタンス出力と第2の前のステートからの 最小累積ディスタンス出力とのうちの最小値のいずれかである。処理対象サブス テート数を決定するため、最小ドウエルと最大ドウエルとが各ステート内に紹み 合されているフレームの数に基づいて計算される。
第7c、 7d、および78図は、各データ整理ワード・テンプレートの最適復 号化を可能ならしめるものである。指定されたサブステートを逆の順序で復号す ることによって、処理時間が最小化される。しかしながら、リアルタイムの処理 には各々のワード・テンプレートが迅速にアクセスされなければならないことを 必要とするので、データ整、理ワードψテンプレートを容易に抽出するための特 殊な配置が必要となる。
第7b図のテンプレート・デコーダ328は、高速な方法でテンプレート記憶装 置160から特殊形式化ワード・テンプレートを抽出するために使用されている 。各々のフレームは第6c図の差分形式でテンプレート記憶装置内に記憶されて いるので、テンプレート・デコーダ328はワード・モデル・デコーダ732が 過度のオーバヘッドを伴うことなく符号化データをアクセスすることを可能なら しめるための特殊アクセス手法を使用している。
このワード・モデル・デコーダ732は、テンプレート記憶装置160をアドレ スして復号対象の適切なテンプレートを指定する。アドレス・バスが両デコーダ によって共用されているので、同一情報がテンプレート・デコーダ328に供給 される。アドレスはテンプレート内の平均フレームを特に指す。各々のフレーム は、ワード・モデル内のステートを表わしている。復号化を必要とするステート ごとに、アドレスは一般的に変化する。
第6c図の整理データ形式を再び参照すると、ワード・テンプレート・フレーム のアドレスが送出されると、テンプレート・デコーダ328はニブル・アクセス の方法でバイト3〜9.をアクセスする。各々のバイトは8ビツトとして読み取 られ、そして分離される。下位4ビツトは符号拡張を伴って一時レジスタに格納 される。上位4ビツトは符号拡張を伴って下位4ビツトにシフトされ、別の一時 レジスタに格納される。差分バイトの各バイトは、この方法で検索される。リピ ート・カウントおよびチャネル1のデータは正常の8ビツト・データ・バス・ア クセスで検索され、そしてテンプレート・デコーダ328内に一時的に格納され る。
リピート・カウント(最大ドウエル)は直接的にステート・デコーダに移り、チ ャネル1のデータと(今説明したように分離されかつ8ビツトに拡張された)チ ャネル2〜14の差分データとは、ディスタンス計算器736に移る前に、第8 b図以降のフローチャートに基づいて差分的に復号される。
ツク図が示しである。以下に説明するように、データ伸長ブロック 346は第 3図のデータ整理ブロック 322の逆の機能を果している。整理ワード・デー タは、テンプレート記憶装置160から、差分復号ブロック 802に印加され る。ブロック 802で行なわれる復号化機能は、第4a図の差分符号化ブロッ ク430で行なわれたものと本質的に逆のアルゴリルゴリズムは、現在のチャネ ル差分を前のチャネル・データに加算することによって、テンプレート記憶装置 180内に記憶されている整理ワード特徴データを“アンパック“している。こ のアルゴリズムについては第8b図のフローチャートで詳述する。
つぎに、エネルギー正規化解除(energy denormaliza−ti on)ブロック 804は、第4a図のエネルギー正規化ブロック 410にお いて行なったものと逆のアルゴリズムを生じることによって、チャネル・データ に対する正しいエネルギー輪郭を回復するものである。この正規化解除手順は、 すべてのチャネルの平均エネルギー値をテンプレートに記憶されている各々のエ ネルギー正規化チャネル値に加算する。
ブロック 804のエネルギー正規化解除アルゴリズムについては、第8C図の フローチャートで詳述する。
最後に、フレーム繰返しブロック 806は第4a図の区分化/圧縮ブロック  420によって単一フレームに圧縮されたフレーム数を決定するとともに、適当 に補償するためのフレーム繰返し機能を行なう。第8d図のフローチャートが示 しているように、このフレーム繰返しブロック 806は同一のフレーム・デー タ“R゛、回数を出力するが、ここにRはテンプレート記憶装置160から得ら れた事前記憶リピート・カウントである。従って、テンプレート記憶装置からの 整理ワード・データは、音声シンセサイザによって解読可能な“アンパックド” ワード・データを形成するために伸長される。
第8b図のフローチャートは、データ伸長器346の差分復号化ブロック 80 2によって行なわれるステップを図説している。スタート・ブロック 810に 続いて、ブロック 811は以後のステップで使用される変数を初期化する。フ レーム・カウン゛トPCは合成対象のワードの第1フレームに対応するべく1に 初期化され、チャネル合計CTはチャネルバンク・シンセサイザ内のチャネルの 合計数(本実施例の場合は14)に初期化される。
つぎに、フレーム合計FTがブロック 812において計算される。フレーム合 計FTは、テンプレート記憶装置から得られたワード内のフレームの合計数であ る。ブロック 813はこのワードのすべてのフレームが差分的に復号されたか 否かを試験する。現フレーム・カウントPCがフレーム合計FTより大であれば 、そのワードのフレームで復号対象のものは残っていないことになり、そのワー ドに対する復号化処理はブロック 814で終結する。しかしながらFCがFT より大でなければ、差分復号化処理はそのワードの次のフレームに関して続けら れる。ブロック 813の試験は、すべてのチャネル・データの終りを表示する ためテンプレート記憶装置内に記憶されているデータ・フラグ(標識)をチェッ クすることによって選択的に行なわれる。
各フレームの実際の差分復号化処理はブロック 815で始まる。先ず、チャネ ル・カウントCCはブロック 815で1に等しく設定され、テンプレート記憶 装置160から最初に読み出されるべきチャネル・データを決定する。次に、チ ャネル1の正規化エネルギーに対応する全バイト・データが、ブロック 816 においてテンプレートから読み出される。チャネル1のデータは差分符号化され ていないので、この1つのチャネルのデータは(エネルギー正規化解除ブロック 804に)ブロック 817を経由して直ちに出力される。チャネル・カウンタ CCはブロック 818においてインクレメントされ、次のチャネル・データの 記憶位置を指す。ブロック819はチャネルCCに対して差分符号化チャネル・ データ(差分)をアキュムレータに読み込む。ブロック 820はチャネルCC −1のデータをチャネルCCの差分に加算することによって、チャネルCCのデ ータを形成する差分復号化機能を実行している。たとえば、C0−2であれば、 ブロック 820の方程式は次のようになる。
チャネル2のデーターチャネル1のデーターチャネル2の差分 ブロック 821は、以後の処理のために、このチャネルCCのデータをエネル ギー正規化解除ブロック 804に出力する。
ブロック 822は、データのフレームの終りを示すことになる、現在チャネル ・カウントCGがチャネル合計CTに等しいか否かを確認するため試験を行なう 。CCがCTに等しくない場合は、チャネル・カウントはブロック 818で増 分され、そして、差分復号処理が次のチャネルについて行なイっれる。
すべて、のチャネルが復号化されると(CCがCTに等しくなると)、フレーム ・カウントFCはブロック 823でインクレメントされ、データの終り試験を 行なうためブロック 813で比較される。すべてのフレームが復号化されると 、データ伸長器346の差分復号処理はブロック 814で終結する。
第8c図は、エネルギー正規化解除ブロック 804が行なう一連のステップを 図説している。ブロック 825でスタートした後、諸変数の初期化がブロック  826で行なわれる。再び、フレーム・カウントPCは合成対象のワードの第 1フレームに対応するべく1に初期化され、そしてチャネル合計CTはチャネル ・バンク・シンセサイザ内のチャネルの合計数(この場合は14)に初期化され る。フレーム合計FTはブロック 827で計算され、そしてフレーム・カウン トはブロック 812および813で前に試験されたように、ブロック828で 試験される。このワードのすべてのフレームが処理されると(FCがFTより大 )、一連のステップはブロック829で終結する。しかしながら、フレームが依 然として処理を必要とする場合は(PCがFTより大でない)、エネルギー正規 化解除機能が実行される。
ブロック 830において、平均フレーム・エネルギーAVGENGがフレーム FCに対するテンプレートから得られる。
これに続いて、ブロック 831はチャネル・カウントCCを1に等しく設定す る。差分復号化ブロック 8o2(第8b図のブロック 820)におけるチャ ネル差分から形成されたチャネル・データはブロック 832において読み出さ れる。このフレームは、エネルギー正規化ブロック 41O(第4図)における 各チャネルから平均エネルギーを減算することによって正規化されているので、 このフレームは各チャネルに平均エネルギーを逆加算することによって同様に回 復(正規化解除)される。従って、このチャネルは次式に基づいてブロック 8 33において正規化解除される。たとえば、CC−1であれば、ブロック 83 3の方程式は次のようになる。
チャネル1のエネルギー−チャネル1のデータ+平均エネルギー この正規化解除されたチャネル・エネルギーは、ブロック 834によって(フ レーム繰返しブロック 806に)出力される。次のチャネルは、ブロック 8 35においてチャネル・カウントをインクレメントしかつすべてのチャネルが正 規化解除されたか否かを確認するためブロック 836においてチャネル・カウ ントを試験することによって得られる。すべてのチャネルが未だに処理されてい ない(CCがCTより大でない)場合は、正規化解除手順がブロック 832か ら始まって繰り返される。そのフレームのすべてのチャネルが処理されている( CCがCTより大である)場合は、フレーム・カウントがブロック 837にお いてインクレメントされ、そして以前のとおりブロック 828において試験さ れる。要約すると、第8c図はチャネル・エネルギーが平均エネルギーを各チャ ネルに逆加算することによって正規化解除される方法を図説したものである。
ここで第8d図を参照すると、第8a図のフレーム繰返しブロック 806で実 施される一連のステップをフローチャートで示している。この場合も、処理はフ レーム・カウントFCを1、チャネル合計CTを14にブロック 841におい て先ず初期化することによって、ブロック 840でスタートする。ブロック  842において、ワード内のフレーム数を表わしているフレーム合計FTが従前 のとおり計算される。
前の2つのフローチャートと異なり、個々のチャネル処理が完了しているので、 フレームのすべてのチャネル・エネルギーがブロック 843において同時に得 られる。次に、フレームPCのリピート・カウントReがブロック 844にお いてテンプレート・データから読み出される。このリピート・カウントRCは、 第4図の区分化/圧縮ブロック 420において実行されたデータ圧縮アルゴリ ズムから単一のフレームに組み合されたフレーム数に対応している。換言すれば 、このRCは各々のフレームの“最大ドウニル”である。このリピート・カウン トは、特定フレーム″RC″回数を出力するために使用される。
ブロック 845は、音声シンセサイザに対してフレームPCの全チャネル・エ ネルギーCH(1−14) ENGを出力する。これは“アンパックド′チャネ ル・エネルギー・データが出力された最初の回を表わしている。このリピート・ カランhl?cは次にブロック 846において1だけデクレメントされる。た とえば、フレームFCが前に組み合されていなかった場合は、RCの記憶値は1 に等しい筈であり、RCのデクレメント値はゼロに等しいことになる。ブ、ロッ ク 847はこのリピート・カウントを試験する。RCがゼロに等しくない場合 は、チャネル・エネルギーの特定フレームはブロック 845において再び出力 される。RCはブロック 846において再びデクレメントされ、ブロック 8 47において再び試験される。
RCがゼロにデクレメントされると、チャネル・データの次のフレームが得られ る。このようにして、リピート・カウントReは同一フレームがシンセサイザに 出力される回数を表わしている。
次のフレームを得るために、フレーム・カウントPCはブロック 848におい てインクレメントされ、ブロック 849において試験される。そのワードのす べてのフレームの処理が完了すると、フレーム繰返しブロック 806に対応す る一連のステップはブロック 850で終結する。さらにフレームの処理を要す る場合は、フレーム繰返し機能はブロック843から継続される。
前述のとおり、データ伸長ブロック 346は、データ整理ブロック 322に よって“パック”された記憶テンプレート・データを“アンパック“する逆の機 能を本質的に実施するものである。ブロック 802.804、および80Bの 別個の機能が、第8b、 8c、および8dのフローチャートで図説したワード バイワード・ベースではな(、フレームバイフレーム・ベースで実施可能である ことに注目されたい。いずれの場合も、これはデータ整理手法と整理テンプレー ト形式手法とデータ伸長手法との組合せであり、本発明の低データ・レートにお ける音声認識テンプレートから了解可能音声の合成を可能ならしめるものである 。
第3図の説明のとおり、データ伸長ブロック 346によって供給された“テン プレート“ワード音声(ボイス)返答データと返答記憶装置344から供給され た“録音済み′ワード音声(ボイス)返答データとの両者がチャネル・バンク音 声シンセサイザ340に印加される。この音声シンセサイザ340は、制御ユニ ット 334からのコマンド信号に応答して、これらのデータ源の1つを選択す る。両データ源344および346は、合成すべきワードに対応する予め記憶さ れた音響特徴情報を含んでいる。
この音響特徴情報は、特徴抽出器312の帯域幅に対応する指定の周波数帯域幅 内の音響エネルギーを各々が表わしている複数のチャネル利得値(チャネル・エ ネルギー)で構成されている。しかしながら、ボイシング(voicing)ま たはピッチ情報のような他の音声合成パラメータを記憶するための用意は整理テ ンプレート記憶装置形式には何もない。これは、ボイシングやピッチ情報は通常 の場合音声認識プロセッサ120に設けられていないことによるものである。従 って、この情報はテンプレート記憶装置の必要量の軽減に基本的に含まれていな いのが普通である。個々のハードウェア構成に基づいて、返答記憶装置344は ボイシングおよびピッチ情報を提供することもしないこともできる。
以下のチャンネル・バンク・シンセサイザの説明は、ボイシングおよびピッチ情 報はいずれの記憶装置にも記憶されていないものと仮定している。従って、チャ ネル・バンク音声シンセサイザ340はボイシングおよびピッチ情報を欠いてい るデータ源からワードを合成しなければならない。
本発明の一つの重要な特徴は、この問題に直接対処していることである。
第9a図は、N個のチャネルを有するチャネル・バンク音声シンセサイザ840 の詳細なブロック図を示している。チャネル・データ人力912および914は 、返答記憶装置344およびデータ伸長器346のチャネル・データ出力をそれ ぞれ表わしている。従って、スイッチ・アレイ 910は装置制御ユニット 3 34によって供給された“データ源決定“を表わしている。たとえば、″録音済 み”ワードが合成されるべき場合は、返答記憶装置344からのチャネル・デー タ入力912がチャネル利得値915として選択される。テンプレート・ワード が合成されるべき場合は、データ伸長器346からのチャネル・データ人力91 4が選択される。いずれの場合も、チャネル利得値915はローパスフィルタ  940に経路付けされる。
このローパスフィルタ 940は、フレームツウフレーム(f’ rame−t o−f’ rame)チャネル利得変化の段階不連続性を変調器への供給前に平 滑するように機能する。これらの利得平滑フィルタは、2次パターウォース(B attervorth)ローパスフィルタとして一般的に構成されている。本実 、絶倒においては、このローパスフィルタ 940は約28 Hzの一3dBの カットオフ周波数を有している。
平滑化チャネル利得値945は次にチャネル利得変調器950に印加される。こ の変調器は、個別のチャネル利得値に応答して励起信号の利得を調整する役割を 果している。
本実施例においては、変調器950は2つの所定のグループ、すなわち、第1の 励起信号入力を有する第1の所定のグループ(1番〜M番)と、第2の励起信号 入力を有する第2の変調器グループ(M+1番〜N番)とに分割されている。
第9a図から理解できるように、第1の励起信号925はピッチ・パルス源92 0から出力され、第2の励起信号935はノイズ源930から出力される。これ らの励起源については以下の図でさらに詳しく説明する。
音声シンセサイザ340は、本発明による1分割ボイシング(split vo icing)”と呼ばれる手法を使用している。この手法は、音声シンセサイザ が外部ボイシング情報を使用することなくチャネル利得値915のごとき外部発 生音響特徴情報から音声を復元することを可能ならしめるものである。この好ま しい実施例は、ピッチ・パルス源(ボイスド励起)とノイズ源(アンボイスド励 起)とを区別して変調器への単一ボイスド/アンボイスド励起信号を発生させる ボイシング・スイッチ(voteing 5w1tch)を使用していない。対 照的に、本発明はチャネル利得値から生成された音響特徴情報を2つの所定グル ープに“分割(split)−”している。低い周波数チャネルに通常対応する 第1の所定グループは、ボイスド励起信号925を変調する。高い周波数チャネ ルに通常対応するチャネル利得値の第2の所定グループは、アンボイスド励起信 号935を変調する。共に、低い周波数および高い周波数チャネル利得値は個々 に帯域ろ(濾)波されかつ組み合されて高品位音声信号を発生する。
14チヤネルのシンセサイザ(N −14)に対する″915分割” (M−9 )が音声の質の改善にすぐれた結果をもたらすことが判明している。しかしなが ら、ボイスド/アンボイスド・チャネル“分割”は個々のシンセサイザの応用に おいて音声の品位特性を最大化するために変化させることが可能であることは、 この技術分野の熟練者にとって明らかなことである。
変調器1〜Nは、ある特定のチャネルの音響特徴情報に応答して、適当な励起信 号を振幅変調するように作動する。
換言すれば、チャネルMに対するピッチ・パルス(バズ)またノイズ(ヒス)励 起信号は、このチャネルMに対するチャネル利得値によって乗じられる。変調器 950によって行なわれる振幅変調は、ディジタル信号処理(DSP)手法を使 用するソフトウェアで容易に実行可能である。同様に、変調器950はこの技術 分野で周知のアナログ線形乗算器によって、実施可能である。
変調励起信号955の両グループ(1〜M、およびM+l〜N)は、次にバンド パスフィルタ 960に印加されてN個の音声チャネルを復元する。前述のとお り、本実施例は周波数範囲250Hz〜3,400Hzをカバーする14チヤネ ルを使用している。その上、好ましい実施例はDSP手法を使用してバンドパス フィルタ 960の機能をソフトウェアでディジタwood CNrfs、 N 、 J、、 1975年)と題するり、 R,RablnerおよびB、 Go ldの論文の第6章に記述されている。
濾波されたチャネル出力965は、合計回路970において組み合される。ここ でも、チャネル・コンバイナ(channelcombiner)の機能は、D SP手法を使用してソフトウェア的に、または合計回路を使用してハードウェア 的に実施することが可能で、N個のチャネルを単一の復元音声信号975に組み 合せることができる。
変調器/バンドパスフィルタ構成部980の代替実施例が第9b図に示しである 。この図は、この構成部が先ず励起信号935(または925)をバンドパスフ ィルタ 960に印加し、次に変調器950においてチャネル利得値945で濾 波励起信号を振幅変調することで機能的に等価であることを図説している。この 代替構成部980゛は、チャネルを復元する機能が依然として達成されているの で、等価チャネル出力965を生成する。
ノイズ源930は、“ヒス“と呼ばれるアンボイスド励起信号935を発生する 。このノイズ源出力は一般的に、第9d図の波形935に示すとおりの一定平均 電力の一連のランダムな振幅パルスである。これに対し、ピッチ・パルス源92 0は、“バズと呼ばれる一定平均電力のボイスド励起ピッチ・パルスのパルス列 を発生する。一般的なピッチ・パルス源は、外部ピッチ周期foによって決定さ れるピッチφパルスφレートを有している。所望のシンセサイザ音声信号の音響 解析から決定されたこのピッチ周期情報は、通常使用ボコーダのチャネル利得情 報とともに伝送されるか、またはボイスド/アンボイスド決定およびチャネル利 得情報とともに″録音済み゛ワード記憶装置に記憶されるであろう。しかしなが ら前述のとおり、この好ましい実施例の整理テンプレート記憶装置形式は、これ らの音声シンセサイザ・パラメータのすべてが音声認識に必要でないので、これ らをすべて記憶するようになっていない。従って、本発明の他の特徴は事前記憶 のピッチ情報を要することなく高品位合成音声信号を提供することを指向してい る。
この好ましい実施例のピッチ・パルス源920は、第90図にさらに詳しく説明 しである。ピッチ・パルス・レートが合成されたワードの長さにわたって減少す るようにピッチ・パルス周期を変えることによって、合成音声品位の著しい改善 が達成可能であることが判明している。従って、励起信号925は、一定平均電 力および事前可変レートのピッチパルスからむしろ構成される。この可変レート は、合成対象ワードの長さの関数として、かつ実験的に決定される定ピツチ・レ ート変化の関数として決定される。本実施例においては、このピッチ・パルス・ レートはワードの長さにわたり71ノームバイフレーム・ベースで直線的に減少 する。しかしながら、他の応用においては、異なる音声音特性を生成するために 異なる可変レートが所望されることもある。
第9c図によると、ピッチ・パルス源920は、ピッチ・レート制御ユニット  940、ピッチ争レート・ジェネレータ942、およびピッチ・パルス・ジェネ レータ 944で構成されている。ピッチ・レート制御ユニット 940は、ピ ッチ周期が変化する可変レートを決定する。本実施例においては、ピッチ・レー トはピッチ・スタート・コンスタントから初期化されたピッチ・チェンジ・コン スタントから決定され、ピッチ周期情報922を提供する。このピッチ・レート 制御ユニット 940の機能は、プログラム可能ランプ・ジェネレータによって ハードウェア的に、またはマイクロコンピュータを制御することによってソフト ウェア的に実施することができる。この制御ユニット 940の作動については 、次の図に関連して十分詳しく説明する。
ピッチ・レート・ジェネレータ 942は、このピッチ周期情報を利用して規則 正しい間隔でピッチ・レート信号923を発生している。この信号はインパルス 、立上りエツジ、または他のタイプのピッチ・パルス周期を伝達する信号であり 得る。このピッチ・レート・ジェネレータ 942は、ピッチ周期情報922に 等しいパルス列を供給するタイマ、カウンタ、またはクリスタル・クロック発振 器で構わない。
本実施例においても、ピッチ・レート・ジェネレータ 942の機能はソフトウ ェア的に実施される。
ピッチ・レート信号923は、ピッチ・パルス励起信号925に対する所望の波 形を生成するためピッチ・パルス・ジェネレータ 944によって使用される。
このピッチ・パルス・ジェネレータ944は、ハードウェア波形成形回路、すな わちピッチ・レート信号923でクロックされる単ショット、または、本実施例 の場合のように、所望の波形情報を有するROM参照テーブル(ROM 1oo k−up table)であってもよい。励起信号925は、インパルス、チャ ープ(周波数掃引正弦波)または他の広帯域波形の波形を示すであろう。
従って、このパルスの性質は所望される特殊の励起信号に依存することになる。
励起信号925は一定平均電力のものでなければならないので、ピッチ・パルス ・ジェネレータ 944もまた、振幅制御信号としてピッチ・レート信号923 またはピッチ周期922を利用している。ピッチ・パルスの振幅はピッチ周期の 平方根に比例する係数によって定められ、一定平均電力を得る。。この場合も、 各パルスの実際の振幅は、所望の励起信号の性質に依存する。
第9c図のピッチ・パルス源920に、適用した場合の第9d図の以下の記述は 、可変ピッチ・パルス・レートを生成するため本実施例において行なう一連のス テップを説明している。第1に、合成されるべき特定のワードに対するワード長 WLがテンプレート記憶装置から読み出される。このワード長は、合成されるべ きワードのフレームの合計数である。
本実施例においては、WLはワード・テンプレートのすべてのフレームに対する すべてのリピート・カウントの合計である。第2に、ピッチ・スタート・コンス タントPSCとピッチ・チェンジ・コンスタントFCCとは、シンセサイザ・コ ントローラ内の所定の記憶位置から読み出される。第3に、ワード分割(wor d division)の数は、ワード長警りをピッチ・チェンジ・コンスタン トFCCによって除算することによって計算される。このワード分割VDは同一 ピッチ値を有する連続フレームの数を示している。たとえば、波形921はワー ド長3フレーム、ピッチ・スタート・コンスタント59、およびピンチ・チェン ジ・コンスタント3を図説している。従って、この簡単な例においては、ワード 分割はワード長(3)をピッチ・チェンジ・コンスタント(3)で除算すること によりて計算され、ピッチ・チェンジ間のフレームの数を1に等しく設定する。
wL−24およびPCC−4である場合はさらに繁雑な例となり、ワード分割は 6個のフレームごとに発生することになる。
ピッチ・スタート・コンスタント59は、ピッチ・パルス間のサンプル回数の数 を表わしている。たとえば、8KHzのサンプリング・レートにおいては、ピッ チ・パルスの間に59のサンプル回数(各々その持続時間は125マイクロ秒) が存在することになる。従って、ピッチ周期は59x 1.25マイクロ秒−7 .375ミリ秒、すなわち135.6Hzとなる。各々のワード分割の後、ピッ 、チ・スタート・コンスタントは、ピッチ・レートがワードの長さにわたって減 少するように、1だけインクレメントされる(すなわち、60− 133.3H z。
81−131.1Hz)。ワード長が長すぎた場合、すなわちピッチ・チェンジ ・コンスタントが短すぎた場合は、数個の連続フレームが同一ピッチ値を有する ことになる。このピッチ周期情報は、波形922によって第9d図に表わされて いる。
この波形922が示すように、このピッチ周期情報は電圧レベルを変化させるこ とによってハードウェア感覚的に、または異なるピッチ周期値によってソフトウ ェア的に表わすことができる。
ピッチ周期情報922がピッチ・レート・ジェネレータ942に印加されると、 ピッチ・レート信号波形923が生成される。この波形923は、ピッチ・レー トが可変ピッチ周期によって決定されたレートで減少しつつあることを、簡単な 方法で示している。ピッチ・レート信号923がピッチ・パルス・ジェネレータ  944に印加されると、励起波形925が生成される。この波形925は、一 定の平均電力を有する波形923の単なる波形成形変化である。ノイズ源930 (ヒス)の出力を表わしている波形935は、周期的ボイスド励起信号とランダ ムアンボイスド励起信号との間の差を示している。
上述のとおり、本発明はボイシングまたはピッチ情報を必要とすることなく音声 を合成する方法および装置を提供するものである。本発明の音声シンセサイザは 、“分割ボイシング″の手法およびピッチ・パルス・レートがワードの長さにわ たって減少するようにピッチ・パルス周期を変化させる方法を使用している。い ずれかの手法を単独で使用することが可能であるが、分割ボイシングと可変ピッ チ・パルス・レートとを組合せることによって、外部ボイシングまたはピッチ情 報を必要とすることなく自然に響く音声を生成することができる。
本発明の特定の実施例を示して説明したが、この技術分野における熟練によって さらに変更および改善を施すことが可能であろう。本明細書に開示されかつ請求 の範囲に記載された原理に基づくこれらの変更等はすべて本発明の範囲にはいる ものである。
570か3 一ψ N ゝ−ト°゛モチ゛ル・−r′th−゛)3文・ リフ叶手−F744へ 特衣昭63−502145 (33)

Claims (10)

    【特許請求の範囲】
  1. 1.音声が初期フレームのシーケンスとして表わされる音声処理システムにおけ る、前記初期フレームのシーケンスを代表表現フレームの一つの整理された組に 整理する方法であって、 a)初期フレームを複数の代表表現フレームに組み合せ、a′)各々の前記代表 表現フレームに関連したひずみ測度を生成するステップ、および b′)各々の前記ひずみ測度を所定のひずみスレッショルドと比較するステップ を含む組み合せのステップ、並びに b)代表表現フレームの数を最少化するように前記代表表現フレームの組を決定 するステップで、これによって前記組内の各々の代表表現フレームが連続する初 期フレームの唯一の副組を表わしかつ前記ひずみスレッショルドを超過しない関 連ひずみ測度を有するような、決定のステップを具備することを特徴とする方法 。
  2. 2.音声が初期フレームのシーケンスとして表わされる音声処理システムにおけ る、前記初期フレームのシーケンスを代表表現フレームの一つの整理された組に 整理する方法であって、 a)m<nとして前記シーケンス内フレームをmからnで命名した場合、シーケ ンス内の各々の初期フレームで終結しかつ各々が一連の組み合せられた初期フレ ームで構成される複数のクラスタ・バスを形成する形成のステップ、b)m≦j ≦nかつjは前記一連のフレーム内の1個のフレームを指定する整数とした場合 、フレームjからn+1のフレームより付加代表表現フレームを形成し、a′) 前記付加代表表現フレームに関連するひずみ測度を生成するステップ、および b′)前記ひずみ測度を所定のひずみスレッショルドと比較するステップ を含む形成のステップ、並びに c)前記ひずみ測度が前記ひずみスレッショルドを超過しない場合には前記付加 代表表現フレームを前記前に形成されたクラスタ・パスに付加し、これによって 代表表現フレームの結果としての整理された組がフレームj−1において形成さ れた前記クラスタ・パスに付加された前記付加代表表現フレームによって構成さ れるようにする付加のステップ を具備することを特徴とする方法。
  3. 3.前記方法はさらに、他のクラスタ・パスが一層少ない代表表現フレームを有 していると決定された場合は少なくとも一つの前記クラスタ・パスを無効化する ステップを含む請求の範囲1または2に記載の方法。
  4. 4.前記方法はさらに、集中基準フレームを決定するステップを含む請求の範囲 1または2に記載の方法。
  5. 5.前記方法はさらに、1組の代表表現フレームに関連したひずみ測度を決定す るステップを含む請求の範囲2に記載の方法。
  6. 6.音声が初期フレームのシーケンスとして表わされる音声処理システムにおけ る、前記初期フレームのシーケンスを代表表現フレームの一つの整理された組に 整理する装置であって、 a)初期フレームを複数の代表表現フレームに組み合せ、a′)各々の前記代表 表現フレームに関連したひずみ測度を生成する手段、および b′)各々の前記ひずみ測度を所定のひずみスレッショルドと比較する手段 を含む組み合せの手段、並びに b)代表表現フレームの数を最少化するように前記代表表現フレームの組を決定 し、これによって前記組内の各々の代表表現フレームが連続する初期フレームの 唯一の副組を表わしかつ前記ひずみスレッショルドを超過しない関連ひずみ測度 を有するような決定の手段 を具備することを特徴とする方法。
  7. 7.音声が初期フレームのシーケンスとして表わされる音声処理システムにおけ る、前記初期フレームのシーケンスを代表表現フレームの一つの整理された組に 整理する装置であって、 a)m<nとして前記シーケンス内フレームをmからnで命名した場合、シーケ ンス内の各々の初期フレームで終結しかつ各々が一連の組み合せられた初期フレ ームで構成される複数のクラスタ・パスを形成する形成の手段、b)m≦j≦n かつjは前記一連のフレーム内の1個のフレームを指定する整数とした場合、フ レームjからn+1のフレームより付加代表表現フレームを形成し、a)前記付 加代表表現フレームに関連するひずみ測度を生成する手段、および b)前記ひずみ測度を所定のひずみスレッショルドと比較する手段 を含む形成の手段、並びに c)前記ひずみ測度が前記ひずみスレッショルドを超過しない場合には前記付加 代表表現フレームを前記前に形成されたクラスタ・パスに付加し、これによって 代表表現フレームの結果としての整理された組がフレ−ムj−1において形成さ れた前記クラスタ・パスに付加された前記付加代表表現フレームによって構成さ れるようにする付加の手段 を具備することを特徴とする装置。
  8. 8.前記装置はさらに、他のクラスタ・パスが一層少ない代表表現フレームを有 していると決定された場合は少なくとも一つの前記クラスタ・パスを無効化する 手段を含む請求の範囲6または7に記載の装置。
  9. 9.前記装置はさらに、集中基準フレームを決定する手段を含む請求の範囲6ま たは7に記載の装置。
  10. 10.前記装置はさらに、1組の代表表現フレームに関連したひずみ測度を決定 する手段を含む請求の範囲7に記載の装置。
JP50057087A 1986-01-03 1986-12-18 音声認識システムにおけるデータ整理の最適方法 Expired - Fee Related JP3168562B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US81616386A 1986-01-03 1986-01-03
US816163 1986-01-03
PCT/US1986/002779 WO1987004290A1 (en) 1986-01-03 1986-12-18 Optimal method of data reduction in a speech recognition system

Publications (2)

Publication Number Publication Date
JPS63502145A true JPS63502145A (ja) 1988-08-18
JP3168562B2 JP3168562B2 (ja) 2001-05-21

Family

ID=25219842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50057087A Expired - Fee Related JP3168562B2 (ja) 1986-01-03 1986-12-18 音声認識システムにおけるデータ整理の最適方法

Country Status (8)

Country Link
US (1) US4905288A (ja)
EP (1) EP0252946B1 (ja)
JP (1) JP3168562B2 (ja)
KR (1) KR950008539B1 (ja)
CA (1) CA1299750C (ja)
DE (1) DE3688747T2 (ja)
HK (1) HK40596A (ja)
WO (1) WO1987004290A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1261472A (en) * 1985-09-26 1989-09-26 Yoshinao Shiraki Reference speech pattern generating method
JPH0782359B2 (ja) * 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
US5146538A (en) * 1989-08-31 1992-09-08 Motorola, Inc. Communication system and method with voice steering
US5271089A (en) * 1990-11-02 1993-12-14 Nec Corporation Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
US5195168A (en) * 1991-03-15 1993-03-16 Codex Corporation Speech coder and method having spectral interpolation and fast codebook search
US5152007A (en) * 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
US5485621A (en) * 1991-05-10 1996-01-16 Siemens Corporate Research, Inc. Interactive method of using a group similarity measure for providing a decision on which groups to combine
EP0588932B1 (en) * 1991-06-11 2001-11-14 QUALCOMM Incorporated Variable rate vocoder
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
GB2272554A (en) * 1992-11-13 1994-05-18 Creative Tech Ltd Recognizing speech by using wavelet transform and transient response therefrom
US5351046A (en) * 1993-05-28 1994-09-27 Adcox Thomas A Method and system for compacting binary coded decimal data
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6009383A (en) * 1997-10-30 1999-12-28 Nortel Networks Corporation Digital connection for voice activated services on wireless networks
KR100277105B1 (ko) * 1998-02-27 2001-01-15 윤종용 음성 인식 데이터 결정 장치 및 방법
US6208969B1 (en) 1998-07-24 2001-03-27 Lucent Technologies Inc. Electronic data processing apparatus and method for sound synthesis using transfer functions of sound samples
US6073093A (en) * 1998-10-14 2000-06-06 Lockheed Martin Corp. Combined residual and analysis-by-synthesis pitch-dependent gain estimation for linear predictive coders
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
DE10054583C2 (de) * 2000-11-03 2003-06-18 Digital Design Gmbh Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
US20030046084A1 (en) * 2001-08-28 2003-03-06 Blair Wyman Method and apparatus for providing location-specific responses in an automated voice response system
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
EP2115742B1 (en) * 2007-03-02 2012-09-12 Telefonaktiebolaget LM Ericsson (publ) Methods and arrangements in a telecommunications network
CN104137501B (zh) * 2012-01-26 2017-10-20 惠普发展公司,有限责任合伙企业 用于识别推送通信模式的系统和方法
US9373338B1 (en) * 2012-06-25 2016-06-21 Amazon Technologies, Inc. Acoustic echo cancellation processing based on feedback from speech recognizer

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56101200A (en) * 1980-01-16 1981-08-13 Matsushita Electric Ind Co Ltd Compacting method of voice pattern
JPS58137899A (ja) * 1982-02-12 1983-08-16 日本電気株式会社 パタン認識装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1162398B (de) * 1961-10-24 1964-02-06 Ibm Verdichter fuer Daten, die aus Bits verschiedener Wertigkeit bestehen
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
US3812291A (en) * 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier
DE2657365C2 (de) * 1976-12-17 1978-11-02 Siemens Ag, 1000 Berlin Und 8000 Muenchen Verfahren und Schaltungsanordnung zur Durchführung des Verfahrens zur Rahmensynchronisierung eines Zeitmultiplexsystems
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
US4328395A (en) * 1980-02-04 1982-05-04 Texas Instruments Incorporated Speech synthesis system with variable interpolation capability
US4449233A (en) * 1980-02-04 1984-05-15 Texas Instruments Incorporated Speech synthesis system with parameter look up table
US4624009A (en) * 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
US4513436A (en) * 1980-09-16 1985-04-23 Oki Electric Industry, Co., Ltd. Speech recognition system
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
US4449190A (en) * 1982-01-27 1984-05-15 Bell Telephone Laboratories, Incorporated Silence editing speech processor
US4520499A (en) * 1982-06-25 1985-05-28 Milton Bradley Company Combination speech synthesis and recognition apparatus
US4550425A (en) * 1982-09-20 1985-10-29 Sperry Corporation Speech sampling and companding device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56101200A (en) * 1980-01-16 1981-08-13 Matsushita Electric Ind Co Ltd Compacting method of voice pattern
JPS58137899A (ja) * 1982-02-12 1983-08-16 日本電気株式会社 パタン認識装置

Also Published As

Publication number Publication date
CA1299750C (en) 1992-04-28
HK40596A (en) 1996-03-15
US4905288A (en) 1990-02-27
EP0252946A4 (en) 1988-05-31
KR880700986A (ko) 1988-04-13
EP0252946A1 (en) 1988-01-20
JP3168562B2 (ja) 2001-05-21
WO1987004290A1 (en) 1987-07-16
KR950008539B1 (ko) 1995-07-31
DE3688747D1 (de) 1993-08-26
DE3688747T2 (de) 1993-10-28
EP0252946B1 (en) 1993-07-21

Similar Documents

Publication Publication Date Title
JPS63502145A (ja) 音声認識システムにおけるデ−タ整理の最適方法
JPS63502303A (ja) デ−タ整理ワ−ド・テンプレ−トを使用する音声認識システムにおけるワ−ド認識
JPS63502302A (ja) 外部のボイシングまたはピッチ情報を使用することなく音声を合成する方法および装置
US5165008A (en) Speech synthesis using perceptual linear prediction parameters
US4661915A (en) Allophone vocoder
Spanias Speech coding: A tutorial review
EP1159736B1 (en) Distributed voice recognition system
US4424415A (en) Formant tracker
EP0255523B1 (en) Method and apparatus for synthesizing speech from speech recognition templates
EP0071716A2 (en) Allophone vocoder
CN111199747A (zh) 人工智能通信系统及通信方法
GB2266213A (en) Digital signal coding
JPH046600A (ja) 音声認識装置
JPH03288900A (ja) 音声認識装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees