WO2000022607A1

WO2000022607A1 - Dispositif et procede d'apprentissage, dispositif et procede de reconnaissance et support d'enregistrement

Info

Publication number: WO2000022607A1
Application number: PCT/JP1999/005619
Authority: WO
Inventors: Tetsujiro Kondo; Norifumi Yoshiwara
Original assignee: Sony Corporation
Priority date: 1998-10-09
Filing date: 1999-10-12
Publication date: 2000-04-20
Also published as: EP1039446A1; EP1863014B1; EP2056290B1; EP1039446B1; US7072829B2; US20050096902A1; EP1863014A2; EP1039446A4; US6449591B1; EP1863013A2; DE69941499D1; EP2056290A1; US20020184011A1; EP1863013B1; EP1863014A3; KR100729316B1; DE69941999D1; EP1863013A3; DE69943018D1; KR20010032920A

Description

明細書学習装置及び学習方法、認識装置及び認識方法、並びに記録媒体技術分野本発明は、学習装置及び学習方法、認識装置及び認識方法、並びに記録媒体に関し、特に、例えば、音声などの、いわば非線形な時間成分を有する信号を、その時間成分を考慮せずに認識を行うことができるようにする学習装置及び学習方法、認識装置及び認識方法、並びに記録媒体に関する。

また、本発明は、特に、例えば、状態の遷移等を、十分に表現可能なモデルを提供することにより、音声等の認識率を向上させることができるようにする学習装置及び学習方法、認識装置及び認識方法、並びに記録媒体に関する。

さらに、本発明は、特に、例えば、音声の認識を、音声と、その発話がなされたときの口唇の画像とに基づいて行う場合に、音声と画像のパラメータを、いわば同一の重みで扱うことができるようにすることにより、認識性能を向上させることができるようにする学習装置及び学習方法、認識装置及び認識方法、並びに記録媒体に関する。背景技術例えば、音声については、同一人が同一単語を発話しても、その長さが、発話ごとに、非線形に伸縮する。したがって、音声認識を行う場合には、その非線形な時間の伸縮に対処する必要があり、例えば、 D P (Dynami c Programming) マッチング法は、非線形な時間軸伸縮を行うことにより時間正規化（D T W (Dynami c Time Warpin g) ) を行いながら、標準パターンとのマッチングを行う手法の 1つとして知られている。

しかしながら、 D Pマッチング法により時間軸伸縮を行っても、入力された音声の音素と、標準パターンの音素とが正しく対応する保証はなく、音素どうしが正しく対応しない場合には、誤認識することになる。

一方、音声の非線形な時間成分を考慮せずにマッチングを行うことができれば、上述したような時間軸伸縮に起因する誤認識を防止することができることになる。

また、例えば、音声を認識するアルゴリズムとしては、従来より、 H M (Hi dden Markov Models) 法などが知られている。離散 H M M法では、予め学習を行うことにより、認識対象に対応するモデルが求められ、各モデルから、入力された音声に対応する入力系列が観測される確率（観測確率）力そのモデルに与えられた状態遷移確率（ある状態から他の状態へ遷移（自分自身への遷移も含むのが一般的である）する確率）や出力確率（状態が遷移するときに、あるコード（ラベル）（シンボル）が出力される確率）に基づいて計算される。そして、その観測確率に基づいて、入力された音声の認識が行われる。

ところで、 H MM法における学習は、システムの製作者が、モデルの状態数や状態遷移の形態（例えば、ある状態からの状態の遷移 /2

は、自分自身と自分の右隣の状態のいずれか一方にのみ限られるなどといった状態遷移の制限）を決定し、そのようなモデルを用いて行われる。

しかしながら、システムの製作者が、いわば勝手に決定した状態数や状態遷移の形態のモデルが、認識対象が有する本来の状態数や状態遷移の形態に沿うものとは限らない。そして、システムの製作者が決定したモデルが、認識対象が有する本来の状態数や状態遷移の形態に沿わないものである場合には、そのモデルによっては、認識対象の定常状態や過渡状態を正確に表現することができず、その結果、認識率が劣化するおそれがある。

さらに、例えば、音声の認識は、その音声から、特徴パラメータを抽出し、その特徴パラメータを、基準となる標準パラメータ（標準パターン）と比較することで行われる。

ところで、音声の認識を、その音声のみに基づいて行う場合には、その認識率を向上させるのに、ある程度の限界がある。そこで、音声の認識を、その音声の他、発話を行っている話者の口唇を撮影した画像などをも用いて行うことにより、その認識率を向上させる方法が考えられる。

そして、この場合、音声から抽出した特徴パラメータと、口唇の画像から抽出した特徴パラメータとを統合（結合）して、いわば統合パラメータとし、この統合パラメータを用いて、音声の認識を行うことが考えられる。

しかしながら、音声の特徴パラメータと、画像の特徴パラメータとを、単に並べて（つなぎ合わせて）統合パラメータとし、認識を行う場合には、音声又は画像のうちのいずれか一方の影響を強く受け、即ち、いずれか一方の特徴パラメータの重みが大きく、認識率の向上の妨げになるおそれがある。

発明の開示

本発明は、このような実情に鑑みてなされたものであり、本発明の目的は、信号が有する時間成分を考慮せずに認識を行うことができるようにすることにより、認識率を向上させることができるようにするものである。

また、本発明の目的は、認識対象が有する本来の状態数等を、十分に表現可能なモデルを提供することにより、音声等の認識率を向上させることができるようにするものである。

さらに、本発明の目的は、音声や画像などの異なる入力の特徴パラメータを、同等の重みで扱うことができるようにし、これにより、認識性能を向上させることができるようにするものである。

以上の目的を達成するために、本発明に係る学習装置は、時系列の学習データから得られた、コードべクトルを示す識別子の系列から、各識別子の期待度数を算出する算出手段を備えることを特徴とする。

本発明に係る学習方法は、時系列の学習データから得られた、コ一ドべクトルを示す識別子の系列から、各識別子の期待度数を算出することを特徴とする。

本発明に係る記録媒体は、時系列の学習データから得られた、コ一ドべクトルを示す識別子の系列から、各識別子の期待度数を算出する算出ステップを有するプログラムが記録されていることを特徴とする。

本発明に係る認識装置は、入力データをベクトル量子化し、コードべクトルを示す識別子の系列を出力するべクトル量子化手段と、入力データが、認識対象に対応するものであるかどうかの適正さを. 入力データから得られる識別子の系列及び識別子の期待度数を用いて求める適正さ検出手段と、その適正さに基づいて、入力データが認識対象に一致するか否かを認識する認識手段とを備えることを特徴とする。

本発明に係る認識方法は、入力データをベクトル量子化し、コードべクトルを示す識別子の系列を出力し、入力データが、認識対象に対応するものであるかどうかの適正さを、入力データから得られる識別子の系列、及び識別子が観測されることが期待される期待度数を用いて求め、その適正さに基づいて、入力データが認識対象に一致するか否かを認識することを特徴とする。

本発明に係る記録媒体は、入力データをベクトル量子化し、コードべクトルを示す識別子の系列を出力するべクトル量子化ステップと、入力データが、認識対象に対応するものであるかどうかの適正さを、入力データから得られる識別子の系列、及び識別子が観測されることが期待される期待度数を用いて求める適正さ検出ステップと、その適正さに基づいて、入力データが認識対象に一致するか否かを認識する認識ステップとを有するプログラムが記録されていることを特徴とする。

本発明に係る学習装置及び学習方法、並びに記録媒体においては、時系列の学習データから得られた識別子の系列から、各識別子の期待度数が算出される。本発明に係る認識装置及び認識方法、並びに記録媒体においては. 入力データをべクトル量子化し、コードべクトルを示す識別子の系列が出力され、入力データが、認識対象に対応するものであるかどうかの適正さが、入力データから得られる識別子の系列、及び識別子が観測されることが期待される期待度数を用いて求められる。そして、その適正さに基づいて、入力データが認識対象に一致するか否かが認識される。

本発明に係る学習装置は、標準系列と、コードべクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段を備えることを特徴とする。

本発明に係る学習方法は、標準系列と、コードベクトルとの間の距離を算出し、その距離の推移を出力することを特徴とする。

本発明に係る記録媒体は、標準系列と、コードべクトルとの間の距離を算出し、その距離の推移を出力する距離算出ステップを有するプログラムが記録されていることを特徴とする。

本発明に係る認識装置は、標準系列と、コードブックの各コードベタトルとの間の距離の推移を表す、少なくとも 1つの認識对象に対応した距離推移モデルを記憶している記憶手段と、時系列の入力データを、コードブックを用いてベクトル量子化し、コードべクトルに対応する識別子の系列を出力するべクトル量子化手段と、距離推移モデルと、入力データについての識別子の系列とに基づいて、入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識手段とを備えることを特徴とする。

本発明に係る認識方法は、時系列の入力データを、コードブックを用いてベタトル量子化して、コードべクトルに対応する識別子の系列を出力し、標準系列とコードべクトルとの間の距離の推移を表す、少なくとも 1つの認識対象に対応した距離推移モデルと、入力データについての識別子の系列とに基づいて、入力データが少なくとも 1つの認識対象に一致するか否かを認識することを特徴とする _c 本発明に係る記録媒体は、時系列の入力データを、コードブックを用いてベタトル量子化して、コードべクトルに対応する識別子の系列を出力するべクトル量子化ステップと、標準系列とコードべクトルとの間の距離の推移を表す、少なくとも 1つの認識対象に対応した距離推移モデルと、入力データについての識別子の系列とに基づいて、入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識ステップとを有するプログラムが記録されていることを特徴とする。

本発明に係る認識装置は、時系列の第 1及び第 2の入力データを統合し、時系列の統合データを出力する統合手段と、時系列の統合データに基づくべクトルから得られる距離の推移に基づいて、第 1 又は第 2のデータが少なくとも 1つの認識対象に一致するか否かを認識する認識手段とを備えることを特徴とする。

本発明に係る認識方法は、時系列の第 1及び第 2の入力データを統合し、時系列の統合データを出力し、時系列の統合データに基づくべクトルから得られる距離の推移に基づいて、第 1又は第 2のデータが少なくとも 1つの認識対象に一致するか否かを認識することを特徴とする。

本発明に係る記録媒体は、時系列の第 1及び第 2の入力データを統合し、時系列の統合データを出力する統合ステップと、時系列の統合データに基づくべクトルから得られる距離の推移に基づいて、第 1又は第 2のデータが少なくとも 1つの認識対象に一致するか否かを認識する認識ステップとを有するプログラムが記録されていることを特徴とする。

本発明に係る学習装置及び学習方法、並びに記録媒体においては、標準系列と、コードベクトルとの間の距離が算出され、その距離の推移が出力される。

本発明に係る認識装置及び認識方法、並びに記録媒体においては、時系列の入力データが、コードブックを用いてベタトル量子化され、コードベクトルに対応する識別子の系列が出力される。そして、標準系列とコ一ドべクトルとの間の距離の推移を表す、少なぐとも 1 つの認識対象に対応した距離推移モデルと、入力データについての識別子の系列とに基づいて、入力データが少なくとも 1つの認識対象に一致するか否かが認識される。

本発明に係る認識装置及び認識方法、並びに記録媒体においては、時系列の第 1及び第 2の入力データが統合され、時系列の統合データが出力される。そして、その時系列の統合データに基づくベタトルから得られる距離の推移に基づいて、第 1又は第 2のデータが少なくとも 1つの認識対象に一致するか否かが認識される。

本発明に係る学習装置は、正規化係数に基づいて、複数の特徴パラメ一タそれぞれを正規化する特徴パラメータ正規化手段と、正規化された複数の特徴パラメータそれぞれについて、標準パラメータとの距離を算出する距離算出手段と、複数の特徴パラメータのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、正規化係数を変更する変更手段とを備えることを特徴とする。本発明に係る学 ¾方法は、正規化係数に基づいて、複数の特徴パラメータそれぞれを正規化し、正規化された複数の特徴パラメータそれぞれについて、標準パラメータとの距離を算出し、複数の特徴パラメータのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、正規化係数を変更することを特徴とする。

本発明に係る記録媒体は、正規化係数に基づいて、複数の特徴パラメータそれぞれを正規化する特徴パラメータ正規化ステップと、正規化された複数の特徴パラメータそれぞれについて、標準パラメータとの距離を算出する距離算出ステップと、複数の特徴パラメ一タのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、正規化係数を変更する変更ステップとを有するプログラムが記録されていることを特徴とする。

本発明に係る認識装置は、複数の入力データそれぞれの特徴パラメータを正規化する正規化手段と、正規化された複数の特徴パラメータを統合し、統合パラメータとする統合手段と、統合パラメータに基づいて、複数の入力データの 1以上が認識対象に対するものか否かを認識する認識手段とを備えることを特徴とする。

本発明に係る認識方法は、複数の入力データそれぞれの特徴パラメータを正規化し、正規化された複数の特徴パラメ一タを統合して統合パラメータとし、統合パラメータに基づいて、複数の入力データの 1以上が認識対象に対するものか否かを認識することを特徴とする。

本発明に係る記録媒体は、複数の入力データをそれぞれについて、特徴パラメータを検出する検出ステップと、複数の入力データそれぞれの特徴パラメータを正規化する正規化ステップと、正規化された複数の特徴パラメータを統合し、統合パラメータとする統合ステップと、統合パラメータに基づいて、複数の入力データの 1以上が認識対象に対するものか否かを認識する認識ステップとを有するプ口グラムが記録されていることを特徴とする。

本発明に係る学習装置及び学習方法、並びに記録媒体においては、正規化係数に基づいて、複数の特徴パラメータそれぞれが正規化され、正規化された複数の特徴パラメータそれぞれについて、標準パラメータとの距離が算出される。そして、複数の特徴パラメータのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、正規化係数が変更される。

本発明に係る認識装置及び認識方法、並びに記録媒体においては、複数の入力データそれぞれの特徴パラメータが正規化され、正規化された複数の特徴パラメータが統合されて統合パラメータとされる。そして、統合パラメータに基づいて、複数の入力データの 1以上が認識対象に対するものか否かが認識される。図面の簡単な説明図 1は、本発明を適用した音声認識装置の一実施の形態の構成例を示すプロック図である。

図 2は、図 1の音声認識装置の処理を説明するためのフローチヤ一トである。

図 3は、図 1の信号処理部 1 1 ,の一実施の形態の構成例を示すブロック図である。図 4は、図 3の信号処理部 1 1 ,の処理を説明するためのフローチヤートである。

図 5は、全体重心、上重心、下重心、分割重心を示す図である。図 6 A， 6 Bは、図 3の楕円近似部 4 8 U及び 4 8 Dの処理を説明するための図である。

図 7は、図 3の口唇パラメータ出力部 4 9が出力する口唇の特徴パラメータを説明するための図である。

図 8は、図 1のメディァ間正規化部 2 1が用いる正規化係数の学習を行う学習装置の一実施の形態の構成例を示すプロック図である。図 9は、図 8の学習装置の処理を説明するためのフローチヤ一トである。

図 1 0は、図 1の距離推移方式マツチング部 3 1の一実施の形態の構成例を示すブロック図である。

図 1 1 A , 1 1 Bは、図 1 0の時間軸正規化部 6 1の処理を説明するための図である。

図 1 2 A， 1 2 Bは、図 1 0の距離推移モデル記憶部 6 5に記憶されている距離推移モデルを説明するための図である。

図 1 3は、図 1 0の距離推移方式マッチング部 3 1の処理を説明するためのフローチャートである。

図 1 4は、距離推移モデルを求める学習を行う学習装置の一実施の形態の構成例を示すプロック図である。

図 1 5 A， 1 5 B , 1 5 Cは、図 1 4の時間軸正規化部 7 1の処理を説明するための図である。

図 1 6は、図 1 4の距離計算部 7 2が出力する距離の推移を示す図である。図 1 7は、図 1 4の学習装置の処理を説明するためのフローチヤートである。

図 1 8は、図 1の空間分布方式マッチング部 3 2の一実施の形態の構成例を示すプロック図である。

図 1 9は、図 1 8の空間分布方式マッチング部 3 2の処理を説明するためのフローチヤ一トである。

図 2 0は、図 1 8の期待度数記憶部 8 4に記憶されている期待度数を求める学習を行う学習装置の一実施の形態の構成例を示すプロック図である。

図 2 1は、図 2 0の学習装置の処理を説明するためのフローチヤ一トである。

図 2 2は、図 1の判定回路 4の構成例を示すプロック図である。図 2 3は、図 2 2の判定回路 4の処理を説明するためのフローチヤートである。

図 2 4は、本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。発明を実施するための最良の形態図 1は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。この音声認識装置には、ユーザが発話した音声をマイク口フォンで集音した発話データの他、そのユーザが発話している口唇をビデオカメラで撮影した画像のデータ（画像データ）、ュ —ザが発話した環境における雑音のデータ（雑音データ）、その他のユーザの発話（音声）を認識するのに役立ちうるデータ（例えば、ユーザが発話を行っている場所を入力するボタンが装置に設けられている場合において、そのボタンが操作されたときの、その操作に対応する信号や、音声認識を行う環境の温度を計測する温度センサの出力など）力時系列に、順次入力されるようになされており、これらのデータを必要に応じて考慮して、発話データの認識が行われるようになされている。

即ち、パラメータ化回路 1には、上述した発話データ、口唇の画像データ、雑音データ、その他のデータ（ここでは、いずれもディジタルデータとする）が入力されるようになされている。そして、パラメータ化回路 1は、そこに入力される各種のデータそれぞれを処理するための信号処理部 1 1 ，乃至 1 1 _Nを有しており、発話データ、口唇の画像データ、雑音データ、その他のデータを、対応する信号処理部 1 1 _n ( n = 1， 2， · · ·， N ： Nは、パラメータ化回路 1に入力可能な信号の最大の種類数）において処理することにより、各データの特徴を表す特徴パラメータの抽出等を行うようになされている。パラメータ化回路 1で抽出された特徴パラメータは、統合パラメータ生成回路 ₂に供給されるようになされている。ここで、図 1の実施の形態では、信号処理部 1 1 ！， 1 1 ₂、又は 1 1 _Nそれぞれにおいて、口唇の画像データ、発話データ、又は雑音データが処理されるようになされている。なお、発話データや雑音データなどの音声（音響）データの特徴パラメータとしては、例えば、線形予測係数や、ケプストラム（Cepstrum) 係数、パワー、線スぺクトル対（Line Spectrum Pair) 、ゼロクロスなどがある。また、口唇の画像データの特徴パラメータについては、後述する。統合パラメータ生成回路 2は、メディア間正規化部 2 1及び統合パラメータ生成部 2 2で構成され、パラメータ化回路 1からの各種の信号の特徴パラメータを統合した統合パラメータを生成するようになされている。

即ち、メディア間正規化部 2 1は、パラメータ化回路 1からの各種の信号の特徴パラメータを、同一の重み（スケール）で扱うことができるように正規化し、統合パラメータ生成部 2 2に出力するようになされている。統合パラメータ生成部 2 2は、メディア間正規化部 2 1から供給される、各種の信号の、正規化された特徴パラメ —タを統合する（つなぎ合わせる）ことにより、統合パラメータを生成し、マツチング回路 3に出力するようになされている。

マッチング回路 3は、統合パラメータと、標準パターン（認識対象のモデル）とのマッチングを行い、そのマッチング結果を、判定回路 4に出力するようになされている。マッチング回路 3は、距離推移方式マッチング部 3 1及び空間分布方式マッチング部 3 2を有している。距離推移方式マッチング部 3 1は、後述する距離推移モデルを用いて、後述する距離推移方式による統合パラメータのマッチングを行い、そのマッチング結果を、判定回路 4に出力するようになされている。空間分布方式マッチング部 3 2は、後述する空間分布方式による統合パラメータのマツチングを行い、そのマツチング結果を、判定回路 4に出力するようになされている。

判定回路 4は、マッチング回路 3の出力、即ち、ここでは、距離推移方式マッチング部 3 1及ぴ空間分布方式マッチング部 3 2におけるマッチング結果に基づいて、ユーザの発話（音声）を認識し、その認識結果としての、例えば、単語を出力するようになされている。次に、図 2のフローチャートを参照して、図 1の音声認識装置の処理について説明する。音声認識装置では、発話データ、口唇の画像データ、雑音データ等が入力されると、それらのデータが、パラメータ化回路 1に供給される。なお、パラメータ化回路 1には、口唇の画像データとともに、あるいは口唇の画像データに替えて、発話者のジスチヤを撮影した画像データや、喉の（筋肉の）動きを撮影した画像データ（又は喉の動きを計測するセンサの出力）等を入力するようにすることも可能である。

パラメータ化回路 1は、ステップ S 1において、発話データ、口唇の画像データ、雑音データ等を処理し、それぞれのデータについて、特徴パラメータを抽出する。各データの特徴パラメータは、統合パラメータ生成回路 2に供給される。

統合パラメータ生成回路 ₂のメディア間正規化部 ₂ 1は、ステツプ S 2において、パラメータ化回路 1からの各データの特徴パラメータを正規化し、その正規化された特徴パラメータを、統合パラメータ生成部 2 2に供給する。統合パラメータ生成部 2 2は、ステツプ S 3において、メディア間正規化部 2 1からの各データの正規化された特徴パラメータを統合し、統合パラメータとする。この統合パラメータは、マッチング回路 3の距離推移方式マッチング部 3 1 及ぴ空間分布方式マッチング部 3 2に供給され、ステップ S 4に進む。

ステップ S 4では、距離推移方式マッチング部 3 1が、統合パラメータ生成回路 2からの統合パラメータのマツチングを、距離推移方式によって行う。さらに、ステップ S 4では、空間分布方式マツチング部 3 2が、統合パラメータ生成回路 2からの統合パラメータのマッチングを、空間分布方式によって行う。そして、距離推移方式マッチング部 3 1及ぴ空間分布マッチング部 3 2によるマツチング結果は、判定回路 4に供給される。判定回路 4は、ステップ S 5 において、マッチング回路 3からのマッチング結果に基づき、発話データの認識を行い、その認識結果（音声認識結果）を出力して、処理を終了する。

次に、図 1におけるパラメータ化回路 1の信号処理部 1 1 ,は、上述したように、口唇の画像データを処理し、その特徴パラメータを抽出するようになっているが、図 3は、そのような信号処理部 1 1 ,の構成例を示している。

口唇の画像データは、 Y I Q変換部 4 1に供給されるようになされており、 Y I Q変換部 4 1は、口唇の画像データを、 Y I Qで表される信号に変換するようになされている。即ち、信号処理部 1 1 ,に入力される口唇の画像データは、例えば、 R G B ( Red, Green, Blue) で表現されており、 Y I Q変換部 4 1は、そのような R G B で表現された口唇の画像データを、 Y I Qで表現されたものに変換し、 Q成分抽出部 4 2に供給するようになされている。

Q成分抽出部 4 2は、 Y I Q変換部 4 1からの Y I Qで表現された口唇の画像データのうちの、 Q成分の信号レベルが閾値以上となつている画素を抽出し、その画素を、口唇を構成する画素（以下、適宜、口唇画素という）として、全体重心算出部 4 3、上重心/下重心算出部 4 4、分割重心算出部 4 5、及び分割部 4 6に出力するようになされている。

全体重心算出部 4 3は、 Q成分抽出部 4 2からの口唇画素全体の重心（以下、適宜、全体重心という）を求め、上重心下重心算出部 4 4及び分割重心算出部 4 5に供給するようになされている。上重心 Z下重心算出部 4 4は、後述する上重心及び下重心を求めるようになされている。即ち、上重心/下重心算出部 4 4は、全体重心算出部 4 3からの全体重心に基づいて、口唇画素を、上唇を構成する画素（以下、適宜、上唇画素という）と、下唇を構成する画素（以下、適宜、下唇画素という）とに仮に分割するようになされている。さらに、上重心下重心算出部 4 4は、上唇画素全体の重心（以下、適宜、上重心という）、及び下唇画素全体の重心（以下、適宜、下重心という）を求め、分割重心算出部 4 5に出力するようになされている。

分割重心算出部 4 5は、口唇画素を、上唇画素と下唇画素とに最終的に分割するための、その分割の基準となる点（以下、適宜、分割重心という）を、全体重心算出部 4 3からの全体重心、並びに上重心下重心算出部 4 4からの上重心及び下重心に基づいて求め、分割部 4 6に出力するようになされている。

分割部 4 6は、 Q成分抽出部 4 2からの口唇画素を、分割重心算出部 4 5からの分割重心に基づいて、上唇画素と下唇画素とに分割し、上唇画素はミラー領域生成部 4 7 Uに、下唇画素はミラー領域生成部 4 7 Dに、それぞれ出力するようになされている。

ミラー領域生成部 4 7 Uは、上唇画素について、後述するミラー領域を構成し、上唇画素とともに、楕円近似部 4 8 Uに供給するようになされている。ミラー領域生成部 4 7 Dは、下唇画素について、ミラー領域を構成し、下唇画素とともに、楕円近似部 4 8 Dに供給するようになされている。

楕円近似部 4 8 Uは、ミラー領域生成部 4 7 Uからの上唇画素とそのミラー領域を近似する楕円を求め、その楕円を規定するパラメータ（楕円パラメータ）を、口唇パラメータ出力部 4 9に供給するようになされている。楕円近似部 4 8 Dは、ミラー領域生成部 4 7

Dからの下唇画素とそのミラー領域を近似する楕円を求め、その楕円を規定する楕円パラメータを、口唇パラメータ出力部 4 9に供給するようになされている。

口唇パラメータ出力部 4 9は、楕円近似部 4 8 U及ぴ 4 8 Dからの楕円パラメータのうち、重複するものを削除し、残りを、口唇の特徴を表す特徴パラメータである口唇パラメータとして出力するようになされている。

次に、図 4のフローチャートを参照して、図 3の信号処理部 1 1

,の処理について説明する。 Y I Q変換部 4 1は、例えば、 R G Bで表現された口唇の画像データを受信すると、ステップ S 1 1において、 Y I Q変換行列を用いて、その画像データを、 Y I Qで表現されたものに変換し、 Q成分抽出部 4 2に供給する。

Q成分抽出部 4 2は、ステップ S 1 2において、 Y I Q変換部 4

1からの Y I Qで表現された口唇の画像データのうちの、 Q成分が閾値以上となっている画素を抽出し、その画素を、口唇画素として、全体重心算出部 4 3、上重心下重心算出部 4 4、分割重心算出部 4 5、及び分割部 4 6に出力する。

ここで、本件発明者が行った調査によれば、口唇を構成する画素

(口唇画素）は、比較的、 Q成分が大きくなり、 Q成分の大きい画素を抽出することで、口唇画素を比較的精度良く抽出することができることが分かっている。なお、 Q成分は、赤系統の色の成分であるが、 R G Bで表現された画像から、同じく赤系統の色の成分である R成分が大きい画素を抽出するよりは、 Q成分の大きい画素を抽出した方が口唇画素を比較的精度良く抽出することも、本件発明者が行った調査から分かっている。

全体重心算出部 4 3は、 Q成分抽出部 4 2から、口唇画素を受信すると、ステップ S 1 3において、図 5に◎印で示すような、その口唇画素全体の重心（全体重心）を求め、上重心/下重心算出部 4 4及び分割重心算出部 4 5に供給して、ステップ S 1 4に進む。ステツプ S 1 4では、上重心 Z下重心算出部 4 4において、上重心及び下重心が算出される。

即ち、上重心/下重心算出部 4 4は、図 5に示すような、全体重心を通る水平方向の直線によって、 Q成分抽出部 4 2からの口唇画素を、仮に上下に 2分割する。ここで、本実施の形態では、口唇の画像データとして、発話を行っているユーザを正面から撮影して得られるものが供給されるものとしている。

さらに、上重心 Z下重心算出部 4 4は、口唇画素を、上述したようにして上下 2分割したものの上側又は下側の画素を、それぞれ上唇を構成する画素（上唇画素）又は下唇を構成する画素（下唇画素）として、図 5に X印で示すような上重心又は下重心をそれぞれ求める。この上重心及び下重心は、分割重心算出部 4 5に供給される。

分割重心算出部 4 5は、ステップ S 1 5において、分割重心を求める。即ち、分割重心算出部 4 5は、上重心/下重心算出部 4 4における場合と同様に、全体重心を通る水平方向の直線によって、 Q 成分抽出部 4 2からの口唇画素を、上下に 2分割することで、上唇画素と下唇画素とに分け、それぞれの画素数をカウントする。さらに、分割重心算出部 4 5は、上重心と下重心とを通る線分を、上唇画素の画素数と下唇画素の画素数との比に従って内分し、その内分点を、分割重心とする。この分割重心は、分割部 4 6に供給される。分割部 4 6は、ステップ S 1 6において、分割重心算出部 4 5からの、図 5において · 印で示す分割重心を通る水平方向の直線によつて、 Q成分抽出部 4 2からの口唇画素を、上下に 2分割することにより、最終的な上唇画素と下唇画素とに分け、上唇画素はミラー領域生成部 4 7 Uに、下唇画素はミラー領域生成部 4 7 Dに、それぞれ出力する。

そして、ステップ S 1 7において、ミラー領域生成部 4 7 Uは、上唇画素について、ミラー領域を構成し、ミラー領域生成部 4 7 D は、下唇画素について、ミラー領域を構成する。即ち、ミラー領域生成部 4 7 Uは、図 6 Aに示すように、上唇画素について、分割重心を通る水平方向の直線（以下、適宜、上下分割線という）に線対称な領域を、そのミラー領域として生成し、上唇画素とともに、楕円近似部 4 8 Uに供給する。また、ミラー領域生成部 4 7 Dは、図 6 Bに示すように、下唇画素について、上下分割線に線対称な領域を、そのミラー領域として生成し、下唇画素とともに、楕円近似部 4 8 Dに供給する。

その後、ステップ S 1 8において、楕円近似部 4 8 Uは、図 6 A に示すように、上唇画素とそのミラー領域を近似する、分割重心を中心とする楕円を、例えば、最小二乗法によって求める。楕円近似部 4 8 Dも、図 6 Bに示すように、下唇画素とそのミラー領域を近似する、分割重心を中心とする楕円を、最小二乗法によって求める。即ち、いま、分割重心の X又は y座標を、 x。又は y。と表すと、横径（x軸方向（水平方向）の半径）又は縦径（y軸方向（垂直方向）の半径）を、それぞれ 1 / a ^1/2又は 1 Z b ^1/2とする楕円は、次式で表すことができる。

a ( X — X o) ² + b y — y o) ' = 1

• … (1 ) したがって、上唇画素、及びそのミラー領域を構成する画素を近似する二乗誤差を最小にする楕円は、次式を解くことで求めることができる。

I -x-xofiy-yo)² } o)⁴

• · · (2) ここで、式（2) において、 ∑は、上唇画素、及びそのミラー領域を構成する画素すべてについてのサメーションを表す。

楕円近似部 48Uは、上唇画素とそのミラー領域を近似する、分割重心を中心とする楕円の横径及ぴ縦径を、式（2) を解くことにより求め、上唇を近似する楕円の楕円パラメータとして、口唇パラメータ出力部 49に供給する。楕円近似部 48 Dも、楕円近似部 4 8 Uにおける場合と同様にして、下唇画素とそのミラー領域を近似する楕円の横径及ぴ縦径を求め、口唇パラメータ出力部 49に供給する。

口唇パラメータ出力部 49は、ステップ S 1 9において、楕円近似部 48 U又は 48 Dからの楕円パラメータのうち、重複するものを削除する。即ち、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径は、理想的には、図 7に示すように、一致するはずであり、口唇パラメータ出力部 4 9は、その一致する横径の 1つを削除し、残りの横径、並びに上唇画素とそのミラー領域を近似する楕円の縦径（以下、適宜、上縦径という）及び下唇画素とそのミラー領域を近似する楕円の縦径（以下、適宜、下縦径という）の 3つの楕円パラメータを、口唇の特徴パラメータとして出力し、処理を終了する。

なお、信号処理部 1 1 ！は、以上の処理を、例えば、 1フレームの口唇の画像データが供給されるごとに繰り返す。

ここで、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径は、上述したように、理想的には、一致するはずであるが、楕円を、最小二乗法によって求める場合には、僅かな差ではあるが、一致しないことが多い。そこで、横径についてだけは、図 3において点線で示すように、楕円近似部 4 8 Uと 4 8 Dとの間でデータをやりとりすることにより、上唇を近似する楕円の二乗誤差と、下唇を近似する楕円の二乗誤差との和を求め、その和を最小にする楕円の横径を求めるようにすることができる。

なお、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径とを、それぞれ独立に、最小二乗法によって求めた後、そのうちのいずれか一方のみを選択したり、また、その 2つの横径の平均値を計算することによつても、 2つの横径を 1つに、いわばまとめることが可能であるが、上唇又は下唇を最も良く近似する楕円のうちのいずれか一方の横径を選択する場合には、選択されなかった方の楕円による近似の精度が悪化し、また、 2つの横径の平均値を計算する場合には、その平均値を横径とする楕円が、上唇及び下唇を精度良く近似するとは限らないため、楕円による上唇及び下唇の近似の精度を、ある程度高く維持するためには、上述したように、上唇を近似する楕円の二乗誤差と、下唇を近似する楕円の二乗誤差との和を求め、その和を最小にする楕円の横径を求めるようにするのが望ましい。

以上のように、口唇画素を、上唇画素と下唇画素とに 2分割し、それぞれを近似する楕円を求め、その楕円を表す横径及び縦径を、口唇の特徴を表す特徴パラメータとするようにしたので、この特徴パラメータによれば、口唇の動き等を、忠実に再現することができる。

さらに、口唇を楕円で近似することにより、口唇の画像データが多少のノイズを有していても、そのノイズに対して、ロバスト性のある特徴パラメータを得ることができる。

さらに、口唇を近似する楕円の横径、上縦径、及び下縦径である特徴パラメータは、人が、他人又は自身の口唇を見た場合に、視覚的に得る口唇の動きに連動するから、その特徴パラメータの検証を行う場合に、その検証効率を向上させることができる。

また、特徴パラメータが、横径、上縦径、下縦径の 3つで済むので、例えば、口唇の上下左右の 4つの端点を特徴パラメータとする場合に比較して、少ない数の特徴パラメータで、口唇を、効率良く表現することができる。

その結果、例えば、図 1に示すように、信号処理部 1 1 ，が出力する口唇の特徴パラメータと、信号処理部 1 1 ₂が出力する発話データの特徴パラメータとを、送信装置 5から、例えば、電話回線や、 C A T V (Cabl e Televi si on) 、インターネット、衛星回線などの伝送媒体 6を介して、受信装置 7に伝送し、受信装置 7において、口唇の特徴パラメータに基づいて、人の顔の画像を動かしながら、発話データの特徴パラメータに基づいて音声を再生するような場合において、送信装置 5から受信装置 7に送信する口唇の特徴パラメ一タのデータ量が少なくて済むようになる。

さらに、図 3の実施の形態においては、口唇画素全体の重心（全体重心）を求め、その全体重心に基づき、口唇画素を、上唇画素と下唇画素とに仮に分割し、上重心及び下重心を求め、さらに、分割重心を求め、その分割重心に基づき、口唇画素を、最終的な上唇画素と下唇画素とに分割するようにしたので、実際には、上唇を構成する画素が、誤って下唇画素とされたり、逆に、下唇を構成する画素が、誤って上唇画素とされたりするケースを少なくすることができる。即ち、一般には、下唇の表面積が上唇の表面積より広いため、全体重心は、下唇寄りに位置する。その結果、全体重心に基づき、口唇画素を、上唇画素と下唇画素とに分割した場合には、実際には、下唇を構成する画素が、誤って上唇画素とされるケースが多くなる。これに対して、全体重心に基づき、口唇画素を、上唇画素と下唇画素とに仮に分割し、上重心及び下重心を求め、さらに、分割重心を求めて、その分割重心に基づき、口唇画素を、最終的な上唇画素と下唇画素とに分割する場合には、分割重心が、上重心寄りに位置することとなるため、下唇を構成する画素が、誤って上唇画素とされるケースを少なくすることができる。

なお、図 3の実施の形態では、発話者（ユーザ）の口唇を楕円で近似するようにしたが、その他、例えば、目などの人の顔の、口唇以外の器官も、上述の場合と同様にして、楕円で近似することが可能である。

また、図 3の実施の形態では、口唇を、上唇と下唇とに 2分割するようにしたが、その他、例えば、さらに、上唇のみを左右に 2分割することにより、合計で 3分割し、各分割部分を楕円近似したり、上唇及び下唇の両方を左右に 2分割することにより、合計で 4分割し、各分割部分を楕円近似したりすることも可能である。

次に、図 1のメディア間正規化部 2 1は、上述したように、パラメータ化回路 1からの各種のデータの特徴パラメータを、同一の重みで扱うことができるように正規化するが、この正規化は、各特徴パラメータに、正規化係数を乗算することで行われるようになされている。そして、その正規化係数は、学習を行うことにより求められるようになされており、図 8は、そのような学習を行う学習装置の一実施の形態の構成例を示している。

なお、ここでは、説明を簡単にするために、異なる 2つのメディァである画像と音声の特徴パラメータの重みを同一にするための正規化係数を求める学習について説明する。

仮正規化部 5 1には、べクトル量子化に用いるドブックを生成するためのドべクトル学習パラメータ（コードブック生成データ）としての、画像の特徴パラメータ P j及び音声の特徴パラメータ V i , j (認識対象とする各音韻について、複数セットの特徴パラメータ P 及び音声の特徴パラメータ V i . j ) が供給されるようになされており、仮正規化部 5 1は、正規化係数制御部 5 5からの正規化係数によって、特徴パラメータ P i . j及び音声の特徴パラメータ V i , jを、仮に正規化し、コードブック作成部 5 2に供給するようになされている。即ち、本実施の形態では、例えば、画像の特徴パラメータ Pし iの重みを基準とし、その重みに、音声の特徴パラメータ V i. jの重みを一致させるために、音声の特徴パラメータ V i. jに対して、正規化係数制御部 5 5からの正規化係数 _αが乗算される。したがって、画像の特徴パラメータ Ρ 』には、正規化係数として 1が乗算されると考えることができる。

ここで、特徴パラメータ P 〗及ぴ Vi, jの行を表すサフィックス i は、その特徴パラメータ P 』， V jが抽出された時刻（時間）を表し、列を表すサフィックス j は、特徴パラメータ P i, i， V _it j の次数（次元）を表す（したがって、（P i, ,, P i.₂， · · · ， P い V i. V ,, 2 , · · · ， V i. ) 力ある時刻 i における特徴パラメータ（特徴ベクトル）である）。また、図 8では、特徴パラメータ Pし jにカツコ付きのサフィックス（k) を付して、 P ^{( k )} し jと示してあるが、これは、 kが異なれば、異なる学習用のデータから生成された特徴パラメータであることを表している。 V ^{( k)} jのサフィックス（k) についても、同様である。

なお、本実施の形態においては、画像の特徴パラメータ P 』としては、例えば、上述した口唇を近似する楕円の横径、上縦径、下縦径を用いることができ、この場合、特徴パラメータ Pし』の次数 Lは 3次となる。また、音声の特徴パラメータ Vi, iとしては、例えば、 8次の線スペクトル対を用いることができ、この場合、特徴パラメータ Vし』の次数 Mは 8次となる。

コードブック作成部 5 2は、仮の正規化がなされた特徴パラメ一タとしてのコードべクトル学習パラメータ P i, 〗及ぴ V 〗を用いて、ベタトル量子化部 54におけるべクトル量子化に用いるコードブックを生成し、ベタトル量子化部 54に供給するようになされている。ここで、コードブック作成部 5 2は、例えば、 L BG (Linde, B uzo, Gray) アルゴリズムに従って、コードブックを作成するようになされている。

L B Gアルゴリズムは、いわばバッチ型学習アルゴリズムで、学習サンプル（学習データ）としての特徴パラメータと、コードブックを構成するコードべクトル（代表べクトル）（最初は、適当な初期値が与えられる）との距離に対応して、特徴パラメータ空間を最適分割するポロノイス（Voronois) 分割、及ぴボロノイス分割により得られる、特徴パラメータ空間の各部分領域の重心への、コードべクトルの更新を繰り返し行うことにより、コードブックのコードベタトルを、局所的に最適な位置に収束させるようになつている。

ここで、学習サンプルの集合を _{X i} ( j = 0， 1， · · ·， J - 1 ) と、コードべタトノレの集合を Y = { y y i, · · ·， y_Na- >} と（N aはコードべクトルの数を表し、任意に設定される）、それぞれするとき、ポロノイス分割では、学習サンプルの集合 X】が、コードベクトル Yの集合によって、 N a個の部分集合 S i ( i = 0 , .1， · · ·， N a— 1 ) に分割される。即ち、学習サンプル χ』とコードベクトル y iとの間の距離を d (_{X j}， y と表した場合、 i と等しくない t ( t = 0 , 1， · · ·， N a— 1 ) すべてについて、式

d ( , y■, < d ( x , y t)

• · · (3) が成り立つとき、学習サンプルは、部分集合 S iに属する（x』e S J とされる。 05

28 また、ベクトノレ V 。， V ,， · · · ， V M— _tについてのセントロイド 1 心) C 、V。， V i， · · · ， V M -') 、式

M-l

argmin

Qvo, vi, ···, VM-I)= d{v,v_m)

v M

• · · (4) で定義するとき、コードベクトルの更新では、コードベクトルが、式

y . = C ( { S i} )

• · · (5) に従って更新される。

なお、式（4) の右辺 a r g m i n {} は、 {} 内の値を最小にするベクトル Vを意味する。また、式（5) による、いわゆるクラスタリング手法は、 k平均クラスタリング法（k-means法）と呼ばれる。

また、 L B Gアルゴリズムについては、例えば、「音声 '画像ェ学」、中田和男、南敏著、昭晃堂、昭和 6 2年の第 2 9ページ乃至第 3 1ページなどに、その詳細が記載されている。

ここで、図 8の実施の形態において、コードブック作成部 5 2が出力するコードブックの要素 S 』及ぴ Tし』の行を表すサフィックス i， j は、コード # iに対応するコードベクトルの j番目の要素であることを表している。したがって、（S ij, S i.², · · ·， S ,, L, Τ ,, ,, Τし ₂， · · · ， Τ ,, Μ) は、コード# iに対応するコードベクトルを表す。また、コードベクトルの要素 Sし jは、画像に対応しており、要素 T i . jは、音声に対応している。

仮正規化部 5 3には、正規化係数 αの学習のための正規化係数学習パラメータとしての画像の特徴パラメータ P i . 』及び音声の特徴パラメータ V i . j (ここでは、コードベクトル学習パラメータとは異なる画像、音声から得られたものとする）が供給されるようになされており、仮正規化部 5 3は、仮正規化部 5 1 と同様に、正規化係数制御部 5 5からの正規化係数によって、特徴パラメータ P _{i f} j及び音声の特徴パラメータ V i , 』を、仮に正規化し、ベクトル量子化部 5 4 に供給するようになされている。即ち、仮正規化部 5 3は、正規化係数学習パラメータとしての画像の特徴パラメータ P i , jと音声の特徴パラメータ V 』のうちの音声の特徴パラメータ V , , jに対して、正規化係数制御部 5 5からの正規化係数ひを乗算し、ベタトル量子化部 5 4に出力するようになされている。

なお、仮正規化部 5 3には、正規化係数学習パラメータが複数セット供給されるようになされており、仮正規化部 5 3は、その複数セットの正規化係数学習パラメータそれぞれについて、正規化を行うようになっている。

ベタトル量子化部 5 4は、コードブック作成部 5 2からの最新のコードブックを用いて、仮正規化部 5 3から供給される正規化された正規化係数学習パラメータをべクトル量子化し、そのべクトル量子化による量子化誤差を、正規化係数制御部 5 5に供給するようになされている。

即ち、ベクトル量子化部 5 4は、コードブックのコードベクトルそれぞれ（標準パラメータ）と、正規化された正規化係数学習パラメータとの距離（ユークリッド距離）（Euc l i dean di stance) を、画像と音声それぞれについて計算し、その距離のうちの最も短いものを、量子化誤差として、正規化係数制御部 5 5に供給するようになされている。つまり、正規化された正規化係数学習パラメータのうちの画像の特徴パラメータ P iと、コードブックにおけるドべクトルそれぞれの画像に関する要素 S 』からなるベタトルとの距離が算出され、その距離の最も短いものが、画像についての量子化誤差として、正規化係数制御部 5 5に供給されるとともに、正規化された正規化係数学習パラメータのうちの音声の特徴パラメータ α V と、コードブックにおけるドべクトルそれぞれの音声に関する要素 T ,からなるベタトルとの距離が算出され、その距離の最も短いものが、音声についての量子化誤差として、正規化係数制御部 5 5に供給されるようになされている。

正規化係数制御部 5 5は、ベタトル量子化部 5 4からの画像と音声についての量子化誤差を、すべての正規化係数学習パラメータに関して、それぞれ累積（積算）し、その画像と音声についての累積値が等しくなるように、仮正規化部 5 1及び 5 3に供給する正規化係数 αを変更するようになされている。

次に、図 9のフローチャートを参照して、図 8の学習装置が行う処理（正規化係数学習処理）について説明する。図 8の学習装置においては、まず最初に、コードベクトル学習パラメータが仮正規化部 5 1に供給されるとともに、正規化係数学習パラメータが仮正規化部 5 3に供給され、正規化係数制御部 5 5から、正規化係数 αの初期値が、仮正規化部 5 1及び 5 3に供給される。

そして、ステップ S 2 1において、仮正規化部 5 1は、ドべクトル学習パラメータのうちの、音声の特徴パラメータ V に対して、正規化係数制御部 5 5からの正規化係数 _αを乗算し、これにより、コードベクトル学習パラメータを仮に正規化して、コードブック作成部 5 2に供給する。

コードブック作成部 5 2は、仮正規化部 5 1から、正規化されたドべクトル学習パラメータを受信すると、ステップ S 2 2において、そのコードベクトル学習パラメータを用い、 L B Gアルゴリズムにより、ベタトル量子化部 5 4がべクトル量子化を行うのに用いるドブックを作成し、ベタトル量子化部 5 4に供給する。一方、仮正規化部 5 3は、ステップ S 2 3において、正規化係数学習パラメータのうちの音声の特徴パラメータ V ,に対して、正規化係数制御部 5 5からの正規化係数 αを乗算し、これにより、正規化係数学習パラメータを仮に正規化して、ベタトル量子化部 5 4に供給する。

ベクトル量子化部 5 4は、コードブック作成部 5 2から、最新のコードブックを受信するとともに、仮正規化部 5 3から、最新の正規化された正規化係数学習パラメータを受信すると、ステップ S 2 4において、仮正規化部 5 3からの正規化係数学習パラメータを、ドブック作成部 5 2からのドブックを用い、画像と音声それぞれについてベタトル量子化を行い、それぞれの量子化誤差を、正規化係数制御部 5 5に供給する。

即ち、ステップ S 2 4では、ベクトル量子化部 5 4は、正規化された正規化係数学習パラメータのうちの画像の特徴パラメータ（画像パラメータ） P i . iと、コードベクトルのうちの画像に関する要素 S ,からなるベタトルとの距離を算出し、その距離の最も短いものを、画像についての量子化誤差として、正規化係数制御部 5 5に供給するとともに、正規化された正規化係数学習パラメータのうちの音声の特徴パラメータ（音声パラメータ） a V i, )と、コードべクトルのうちの音声に関する要素 Tし jからなるベタトルとの距離を算出し、その距離のうち、最も短いものを、音声についての量子化誤差として、正規化係数制御部 5 5に供給する。

ここで、仮正規化部 5 3には、上述したように、複数の正規化係数学習パラメータが供給されるため、べクトル量子化部 5 4にも、仮正規化された正規化係数学習パラメータが複数セット供給される力、ベクトル量子化部 5 4は、その複数の正規化された正規化係数学習パラメータそれぞれについて、順次、上述したような画像及び音声についての量子化誤差を求め、正規化係数制御部 5 5に供給するようになっている。

ステップ S 2 4では、さらに、正規化係数制御部 5 5が、ベタトル量子化部 5 4から供給される画像と音声についての量子化誤差を、すべての正規化係数学習パラメータについて、それぞれ累積し、それぞれの量子化誤差の累積値 D Pと Dvを求める。この画像と音声についての量子化誤差の累積値 D_Pと Dvは、正規化係数制御部 5 5に供給されて記憶される。

そして、ステップ S 2 5に進み、正規化係数制御部 5 5は、すべての αに関して、画像と音声についての量子化誤差の累積値 D Pと D Vを求めたかどうかを判定する。即ち、本実施の形態では、例えば、 aを、その初期値を 0. 0 0 1 として、 0. 0 0 1力、ら 2. 0 0 0 までの範囲を、 0. 0 0 1刻みに変更（ここでは、増加）して、累積値 D_Pと Dvを求めることとしており、正規化係数制御部 5 5は、ステップ S 2 5において、そのような範囲の αに関して、画像と音声についての量子化誤差の累積値 D Pと D vを求めたかどうかを判定する。

ステップ S 2 5において、すべてのひに関して、まだ、累積値 D Pと D vが求められていないと判定された場合、ステップ S 2 6に進み、正規化係数制御部 5 5は、正規化係数ひを上述したように変更し、仮正規化部 5 1及ぴ 5 3に供給する。そして、ステップ S 2 1 に戻り、以下、変更後の正規化係数 αを用いて、同様の処理が繰り返される。

—方、ステップ S 2 5において、すべての αに関して、累積値 D Ρと D vが求められたと判定された場合、ステップ S 2 7に進み、正規化係数制御部 5 5は、ステップ S 2 4で記憶した各値の αに関する画像についての量子化誤差 D Pと、音声についての量子化誤差 D v との差分の絶対値 i D P— D v I を計算する。さらに、正規化係数制御部 5 5は、各値の αに関する差分絶対値 I D P— D v I の最小値を与える《、即ち、理想的には、画像についての量子化誤差 D Pと、音声についての量子化誤差 D vとが同一になる場合の αを検出する。そして、ステップ S 2 8に進み、正規化係数制御部 5 5は、その最小の絶対値 i D P— D v I を与える正規化係数ひを、画像と音声の特徴パラメータを、同一の重みで扱うことができるように正規化することのできるものとして出力し、処理を終了する。

以上のように、画像と音声の特徴パラメータからなる統合パラメータであるコードべクトル学習パラメータを正規化し、その正規化されたコードべクトル学習パラメータを用いて、コードプックを生成する一方、画像と音声の特徴パラメータからなる統合パラメータである正規化係数学習パラメータを仮に正規化し、その正規化された正規化係数学習パラメータのうちの画像又は音声の特徴パラメ一タそれぞれについて、生成されたコードブックを用いてベタトル量子化を行うことにより、量子化誤差の累積値を求め、その累積値どうしが等しくなるように、正規化係数を変更するようにしたので、画像と音声などといった異なるメディアの特徴パラメータを、同等の重みで极ぅことができるように正規化を行うことができる正規化係数を求めることができる。

その結果、例えば、音声から抽出した特徴パラメータと、口唇の画像から抽出した特徴パラメータとを、正規化係数によつて正規化し、さらに、それらを統合して、統合パラメータとし、この統合パラメータを用いて、音声の認識を行う場合においては、音声又は画像のうちのいずれか一方の影響を強く受けることにより、認識率の向上の妨げられることを防止することが可能となる。

さらに、統合パラメータを構成する各メディアの特徴パラメータが、認識率に与える影響の検証を、容易に行うことが可能となる。なお、図 8の実施の形態では、画像と音声の 2種類の特徴パラメータの重みを同一にするための正規化係数ひを求める学習について説明したが、 3種類以上の特徴パラメータ、あるいは、画像や音声の他のメディァの特徴パラメータの重みを同一にするための正規化係数を求める学習も、同様に行うことが可能である。

また、上述した正規化係数の学習方法は、特徴パラメータの種類や次元に依存するものではないため、特徴パラメータの種類や次元に関係なく適用可能である。

次に、図 1 0は、図 1の距離推移方式マッチング部 3 1の構成例を示している。時間軸正規化部 6 1には、統合パラメータ生成回路 2 (図 1 ) から、例えば、ある単語が発話されたときの統合パラメータが時系列に供給されるようになされており、時間軸正規化部 6 1は、その時系列の統合パラメータの時間軸正規化を行うようになされている。

即ち、ある単語が発話されたときの発話時間を t とすると、その単語の発話による統合パラメータのある要素の時間変化は、例えば、図 1 1 Aに示すようになるが、図 1 1 Aにおける発話時間 tは、同一人による同一単語の発話であっても、発話ごとに変動する。そこで、時間軸正規化部 6 1は、発話時間 tが、図 1 1 Bに示すように、一律に、時間 T _cとなるように、時間軸正規化を行うようになされている。なお、例えば、いま、図 1の音声認識装置において、単語認識を行うものとすると、時間 T cは、認識対象の単語を発話したときの一般的な発話時間よりも十分長い時間に設定されている。したがつて、時間軸正規化部 6 1では、図 1 1 Aに示した時系列の統合パラメータが、いわば時間軸方向に間延びしたように変更される。なお、時間軸正規化の手法は、これに限定されるものではない。

時間軸正規化後の統合パラメータは、時間軸正規化部 6 1からべクトル量子化部 6 2に供給されるようになされている。ベタトル量子化部 6 2は、コードブック記憶部 6 3に記憶されたコードブックを用いて、時間軸正規化された時系列の統合パラメータを、順次、ベクトル量子化し、そのベクトル量子化結果としてのコード、即ち、統合パラメータとの距離が最も近いコードべクトルに対応するコードを、順次、距離計算部 6 4に供給するようになされている。

コードブック記憶部 6 3は、ベタトル量子化部 6 2がベクトル量子化に用いるコードブックを記憶している。距離計算部 64は、距離推移モデル記憶部 6 5に記憶されている、認識対象の単語の距離推移モデルから、ベタトル量子化部 6 2が出力するコードの系列が観測されるときの、コードべクトルとの距離を、時間ごとに累積し、その累積値を、ソート部 6 6に供給するようになされている。

距離推移モデル記憶部 6 5は、例えば、図 1 2 Bに示すような、認識対象の単語の時系列の統合パラメータ（標準系列）と、コードブック記憶部 6 3に記憶されたコードブックの各コードべクトルとの間の距離の推移を表す距離推移モデルを記憶している。即ち、距離推移モデル記憶部 6 5は、後述する学習により得られる、図 1 2 Bに示したような距離推移モデルを、認識対象とされている単語それぞれについて記憶している。

なお、図 1 2 Bの実施の形態では、コードブック記憶部 6 3に記憶されたコードブックが、 J + 1個のコードべクトル C。乃至 C jを有するものとしてある。また、図 1 2 Aは、距離推移モデルをダラフで、図 1 2 Bは、距離推移モデルを表で、それぞれ表している。ここで、図 1 2 Bの表において、コードベクトル C ,の行に注目すれば、その行に記載した各時刻 t。， t t 2, · · ' における距離 D c j to, D o t ,, Dcj _{t 2}, · · ' が図 1 2 Aのグラフにおけるコードべクトル C jに対する距離の推移を表す。

ソート部 6 6は、距離計算部 64から供給される、認識対象の各単語の距離推移モデルについての距離の累積値のうち、その値が小さいものから、上位 N b個を選択し（N bは自然数）、統合パラメータと距離推移モデルとのマッチング結果として、判定回路 4に出力するようになされている。以上のように構成される距離推移方式マッチング部 3 1では、距離推移方式によるマッチングが行われるようになされており、この距離推移方式によるマッチング処理について、図 1 3のフローチヤートを参照して説明する。

時間軸正規化部 6 1は、統合パラメータ生成回路 2から、ある単語の発話に対応する時系列の統合パラメータを受信すると、ステツプ S 3 1において、その時系列の統合パラメータを時間軸正規化し、ベタトル量子化部 6 2に出力する。ベタトル量子化部 6 2は、ステップ S 3 2において、コードブック記憶部 6 3に記憶されたコードブックを参照することで、時間軸正規化部 6 1からの時系列の統合パラメータを、順次、ベタトル量子化し、そのべクトル量子化結果としての、統合パラメータとの距離を最も短くするコードべクトルに対応するコードの系列を、順次、距離計算部 6 4に供給する。距離計算部 6 4は、ステップ S 3 3において、距離推移モデル記憶部 6 5に記憶されている、認識対象の単語の距離推移モデルから、べクトル量子化部 6 2が出力するコードの系列が観測されるときの、コードべクトルとの距離を累積する。

即ち、ベクトル量子化部 6 2が出力するコードの系列のうち、時刻 tのコードを _{S t} ( t = 0 , 1， · · ·， T c) と表すと、距離計算部 6 4は、ベタトル量子化部 6 2が最初に出力するコード s。に対応するコードベクトル C』 ( j = 0 , 1， · · ·， J ) についての、時刻 # 0における距離を、距離推移モデルを参照することで求める。具体的には、例えば、コード s。に対応するコードベクトルが C。である場合には、図 1 2 Aにおいて、コードベクトル C。からの距離の推移を表している曲線上の、時刻 # 0における距離が求められる。さらに、距離計算部 64は、べクトル量子化部 6 2が 2番目に出力するコード s 'に対応するコードべクトノレ C〗との、時刻 # 1における距離を、距離推移モデルを参照することで求める。以下、同様にして、距離計算部 64は、ベクトル量子化部 6 2が最後に出力するコード s _TCに対応するコードべクトル C』との、時刻 # Tcにおける距離までを、距離推移モデルを参照することで、順次求めていき、それらの距離の累積値を計算する。

したがって、ベクトル量子化部 6 2が、時刻 # 0， # 1， # 2， • · ' において、例えば、コード s。， s。， s · · · を出力する場合には、コード s。に対応するコードベクトル C。との、時刻 # 0 における距離 D_c0t。、コード s。に対応するコードべクトル C。との、時刻 # 1における距離 D_c。 _{t l}、コード s ,に対応するコードべクトル C ,との、時刻 # 2における距離 D_{c lT2}， · · ·の加算値が、累積値として求められる。

そして、距離計算部 64は、距離推移モデル記憶部 6 5に記憶されたすべての距離推移モデルそれぞれについて、距離の累積値を計算すると、それらの距離の累積値を、ソート部 6 6に出力し、ステップ S 34に進む。

ステップ S 34では、ソート部 6 6において、距離計算部 64からの、認識対象の各単語の距離推移モデルについての距離の累積値のうち、その値が小さいものから、上位 N b個が選択され、ステツプ S 3 5に進み、統合パラメータと距離推移モデルとのマッチング結果として、判定回路 4に出力され、処理を終了する。

次に、図 1 4は、図 1 0の距離推移モデル記憶部 6 5に記憶させる距離推移モデルを求める学習を行う学習装置の一実施の形態の構成例を示している。時間軸正規化部 7 1には、距離推移モデルを求める学習を行うのに用いる時系列の学習統合パラメータが供給されるようになされており、時間軸正規化部 7 1は、図 1 0の時間軸正規化部 6 1 と同様に、学習統合パラメータを時間軸正規化し、距離計算部 7 2に供給するようになされている。

ここで、時間軸正規化部 7 1には、例えば、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが複数セット供給されるようになされており、時間軸正規化部 7 1は、その複数セットの学習統合パラメータそれぞれについて時間軸正規化を行い、それらを 1の学習統合パラメータにまとめて出力するようになされている。即ち、時間軸正規化部 7 1には、例えば、図 1 5 Aに示すように、ある単語について、継続時間が必ずしも同一でない複数

(図 1 5 Aにおいては、 N c個）の学習統合パラメータが供給されるようになされており、時間軸正規化部 7 1は、その複数の学習統合パラメータの継続時間が、図 1 5 Bに示すように、いずれも時間 T cとなるように時間軸正規化を行う。そして、時間軸正規化部 7 1 は、図 1 5 Cに示すように、時間軸正規化を行った複数の学習統合パラメータの、同一時刻のサンプル値どうしの、例えば、平均値を計算し、その平均値を、各時刻におけるサンプル値とする 1つの学習統合パラメータを生成する。

なお、複数の学習統合パラメータを、 1つの学習統合パラメータにまとめる方法は、これに限定されるものではない。また、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが 1つだけしか用意されていない場合には、時間軸正規化部 7 1は、その 1つの学習統合パラメータを時間軸正規化して、そのまま出力するようになされている。

距離計算部 7 2は、図 1 6に示すように、コードブック記憶部 7 3に記憶されたコードブックの各コードべクトノレと、時間軸正規化部 7 1から供給される時系列の学習統合パラメータとの距離を、順次計算し、その距離の推移、即ち、時間軸正規化された、時刻 # 0 乃至 # T cまでの学習統合パラメータと、各コードべクトルとの距離の推移を、多項式表現化部 7 4に供給するようになされている。コードブック記憶部 7 3は、図 1 0のコードブック記憶部 6 3に記憶されているコードブックと同一のコードブックを記憶している。なお、コードブック記憶部 6 3及ぴ 7 3におけるコードブックは、コードブック作成部 5 2 (図 8 ) が作成したものと同一のものであつても良いし、異なるものであっても良い。

多項式表現化部 7 4は、距離計算部 7 2から供給されるコードべクトルとの間の距離の推移を近似する多項式を求め、距離推移モデルとして出力するようになされている。即ち、多項式表現化部 7 4 では、図 1 6に示したような距離の推移が、図 1 2 Aに示したような多項式で表される曲線で近似されるようになされている。

次に、図 1 7のフローチヤ一トを参照して、図 1 4の学習装置の処理について説明する。時間軸正規化部 7 1に対しては、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが複数セット供給され、時間軸正規化部 7 1は、ステップ S 4 1において、その複数セットの学習統合パラメータそれぞれについて時間軸正規化を行い、それらを 1の学習統合パラメータにまとめて、距離計算部 7 2に出力する。距離計算部 7 2は、ステップ S 4 2において、図 1 6に示したような、コードブック記憶部 7 3に記憶されたドブックの各コードべクトルと、時間軸正規化部 7 1から供給される時系列の学習統合パラメータとの距離を、順次計算し、その距離の推移を、多項式表現化部 7 4に供給する。

多項式表現化部 7 4では、ステップ S 4 3において、距離計算部 7 2から供給される、学習統合パラメータ（標準系列）とコードべクトルとの間の距離の推移を近似する N d次の多項式が、例えば、最小二乗法により求められる。

即ち、時刻 tにおける学習統合パラメータと、コードベクトル C jとの間の距離を近似する N d次の多項式 f i ( t ) は、次のように表すことができる。

f j ( t ) = a ,o+ a ji t ¹+ a _J 2 t ²-f - · - + a _jNd t ^Nd

• · · (6 ) したがって、距離計算部 7 2において求められた、時刻 tにおける学習統合パラメータと、コードべクトル C )との間の距離 f j ( t ) を用いて、次式を解くことで、最小二乗法により、式（6 ) a j 2, · a j N dを求めるさる,

( 7 ) 多項式表現化部 7 4は、式（ 7 ) を、コードべクトル C。， C • · · ， C；それぞれについて解くことで、次式に示すような、学習統合パラメータと、コードベクトル C ₀， C · · . ， C jそれぞれとの間の距離の推移を近似する N d次の多項式 f 』 ( t ) を規定する係数のセット Aを求める。

。00 αο ι ao2 ίϊ0Νί/-1 «ΟΝί

a\ o a\ l a

Oyo。ゾ. l Qji

• · · ( 8 ) その後、ステップ S 4 4に進み、多項式表現化部 7 4は、式 ( 8 ) の係数のセット Aで近似される距離の推移と、図 1 6に示したような実際の距離の推移との二乗誤差の、各コードべクトノレ C】についての累積値を求め、係数のセット Aとともに記憶して、ステツプ S 4 5に進む。ステップ S 4 5では、多項式表現化部 7 4は、予め用意された範囲のすべての次数 N dについて、上述したような二乗誤差の累積値を求めたかどうかを判定する。ステップ S 4 5において、予め用意された範囲のすべての次数 N dについて、まだ、二乗誤差の累積値を求めていないと判定された場合、ステップ S 4 6 に進み、多項式表現化部 7 4は、式（6 ) に示した多項式 f j ( t ) の次数 N dを、まだ二乗誤差の累積値を求めていない値に変更する _c そして、ステップ S 4 3に戻り、変更後の次数 N dについて、以下、同様の処理が繰り返される。また、ステップ S 4 5において、予め用意された範囲のすべての次数 N dについて、二乗誤差の累積値を求めたと判定され £場合、ステップ S 4 7に進み、多項式表現化部 7 4は、ステップ S 4 4で記憶した、予め用意された範囲のすべての次数 N dについての距離の推移の二乗誤差の累積値のうちの最小値を検出し、その最小値とともに記憶している、多項式 f i ( t ) を規定する係数のセット Aを. 単語の距離推移モデルとして出力して、処理を終了する。

なお、以上の処理は、認識対象の各単語についてそれぞれ行われる。

以上のように、時系列の学習統合パラメータについて、時間軸の正規化を行い、その時間軸正規化された学習統合パラメータ（標準系列）と、コードベクトルとの間の距離を算出し、その距離の推移を表す距離推移モデルを求めるようにしたので、認識対象が有する本来の状態数や状態遷移の形態に沿うモデルを得ることができる。したがって、そのような距離推移モデルによれば、認識対象の定常状態や過渡状態が正確に表現され、その結果、認識率を向上させることができる。

また、距離の推移を、多項式で近似するようにしたので、その多項式を規定する係数だけで、即ち、少ないデータ量で、距離の推移を表現することができる。

ざらに、距離の推移を近似する多項式の次数 N dを、二乗誤差の累積値が最小になるように決定するようにしたので、その多項式により、精度良く、距離の推移を表現することができる。

なお、図 1 4では、統合パラメータを、学習用のデータとして用いるようにしたが、単一の特徴パラメータで認識を行う場合には、その単一の特徴パラメータを、学習用のデータとして用いて、学習を行えば良い。

また、上述した距離推移モデルの学習方法は、特徴パラメータの種類や次元に依存するものではないため、特徴パラメータの種類や次元に関係なく適用可能である。

さらに、上述の場合には、図 1 6に示したような実際の距離の推移を、図 1 2 Aに示したように多項式で近似された距離推移モデルを用いてマッチングを行うようにしたが、マッチングは、図 1 6に示したような実際の距離の推移をそのまま距離推移モデルとして用いて行うことも可能である。

次に、図 1 8は、図 1の空間分布方式マッチング部 3 2の構成例を示している。ベクトル量子化部 8 1には、図 1の統合パラメータ生成回路 2から統合パラメータが時系列に供給されるようになされており、ベタトル量子化部 8 1は、その時系列の統合パラメータを、コードブック記憶部 8 2に記憶されたコードブックを用いてべクトル量子化し、そのベクトル量子化結果としてのコードの系列を、順次、カイ二乗（ズ ²) 検定部 8 3に供給するようになされている。コードブック記憶部 8 2は、ベタトル量子化部 8 1におけるべクトル量子化に用いられるコードブックを記憶している。

カイ二乗検定部 8 3は、期待度数記憶部 8 4を参照し、ベタトル量子化部 8 1からのコード系列の空間分布が、認識対象の単語が発話されたときに得られるコード系列の空間分布に類似しているかどう力即ち、ベクトル量子化部 8 1に供給された統合パラメータ力認識対象の単語に対応するものであるかどうかの適正さを、カイ二乗検定（Hi Square Test) を行うことにより求め、ソート部 8 5に供給するようになされている。

期待度数記憶部 8 4は、コードブック記憶部 8 2に記憶されたコ一ドブックのコ一ドべクトルに対応する各コードについて、認識対象の単語に対応する統合パラメータが入力されたときに観測される

(ベタトル量子化部 8 1に供給されたときに、そこから出力される）期待度数を記憶している。

ソート部 8 5は、カイ二乗検定部 8 3から供給される、入力された統合パラメータが認識対象の単語に対応するものであるかどうかの適正さに基づいて、適正さが上位 N b個となる単語を選択し、空間分布方式によるマッチング結果として、判定回路 4 (図 1 ) に出力するようになされている。

以上のように構成される空間分布マッチング部 3 2では、空間分布方式によるマッチングが行われるようになされており、この空間分布方式によるマッチング処理について、図 1 9のフローチャートを参照して説明する。

認識すべき統合パラメータは、時系列に、べクトル量子化部 8 1 に供給され、べクトル量子化部 8 1は、ステップ S 5 1において、時系列の統合パラメータを、順次べクトル量子化し、そのべクトル量子化結果としてのコードの系列を、カイ二乗検定部 8 3に供給する。

カイ二乗検定部 8 3は、ステップ S 5 2において、べクトル量子化部 8 1からのコード系列の空間分布を求める。即ち、カイ二乗検定部 8 3は、ベクトル量子化部 8 1からのコード系列において、各コードが観測される回数（以下、適宜、観測度数という）をカウントする。そして、ステップ S 5 3に進み、カイ二乗検定部 8 3は、各コードの観測度数と、期待度数記憶部 8 4に記憶された、認識対象の単語の発話がなされたときに観測されることが期待される各コ一ドの回数である期待度数とを用いてカイ二乗検定を行うことにより、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似している度合い（以下、適宜、類似度という）を求め、ソート部 8 5に供給する。即ち、カイ二乗検定部 8 3は、あるコード # j の観測度数を F jと表すとともに、ある単語 Wのあるコード# j の期待度数を f ,と表すと、次式に示すズ ² (カイ二乗）を計算し、例えば、その逆数を、単語 Wに対する類似度として、ソート部 8 5に供給する。

• · · ( 9 ) なお、式（9 ) に示したズ ²は、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似しているほど小さくなる。したがって、その逆数である類似度は、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似しているほど大きくなる。

ソート部 8 5は、カイ二乗検定部 8 3から、認識対象の単語すベてにいての類似度を受信すると、ステップ S 5 4において、そのうちの類似度の高い上位 N b個を選択し、ステップ S 5 5に進み、空間分布方式によるマッチング結果として、判定回路 4に出力して、処理を終了する。

以上のような空間分布方式によるマッチングによれば、統合パラメータ空間における、入力された統合パラメータの分布状態と、認識対象の単語の統合パラメータの分布状態との類似性が、カイ二乗検定により求められるため、その類似性は、入力された音声の時間的変動に影響を受けない。即ち、入力された音声の時間（音声区間の長さ）は、カイ二乗検定に用いる観測度数に影響するが、各コードの観測度数それぞれが、音声区間の長さに比例した値だけ増減すると予測されるため、カイ二乗検定結果は影響を受けない。したがつて、音声が有する時間成分を考慮せずに認識を行うことができ、その結果、認識率を向上させることが可能となる。

次に、図 2 0は、図 1 8の期待度数記憶部 8 4に記憶されている認識対象の各単語についての各コードの期待度数を求める学習を行う学習装置の一実施の形態の構成例を示している。ベタトル量子化部 9 1には、認識対象の単語について、期待度数の学習を行うための時系列の学習統合パラメータが供給されるようになされており、ベクトル量子化部 9 1は、時系列の学習統合パラメータを、コードブック記憶部 9 2に記憶されたコードブックを用いてベタトル量子化し、そのベクトル量子化結果としてのコードの系列を、期待度数算出部 9 3に供給するようになされている。

コードブック記憶部 9 2は、図 1 8のコードブック記憶部 8 2が記憶しているコードブックと同一のコードブックを記憶している。なお、コードブック記憶部 8 2及ぴ 9 2におけるコードブックは、コードブック作成部 5 2 (図 8 ) が作成したものと同一のものであつても良いし、異なるものであっても良い。期待度数算出部 9 3は、ベタトル量子化部 9 1からのコードの系列において、各コードが観測される回数をカウントするようになされている。

次に、図 2 1のフローチャートを参照して、図 2 0の学習装置の処理について説明する。ベタトル量子化部 9 1には、認識対象の 1 の単語について、例えば、複数の時系列の学習統合パラメータ（異なる話者が発話したり、同一の話者が複数回発話して得られたもの）が供給されるようになされており、ステップ S 6 1では、その統合パラメータの数をカウントするための変数 i力 S、例えば、 1に初期化され、ステップ S 6 2に進む。

ステップ S 6 2では、複数の学習統合パラメータのうちの最初の学習統合パラメータが、ベタトル量子化部 9 1に供給され、ベタトル量子化部 9 1は、その学習統合パラメータをべクトル量子化する。そのべクトル量子化の結果得られるコードの系列は、期待度数算出部 9 3に供給され、ステップ S 6 3に進む。

ステップ S 6 3では、ベタトル量子化部 9 1からのコードの系列において、各コードが観測される回数が積算され、これにより各コードの観測度数が求められる。そして、ステップ S 6 4に進み、まだ、次に処理すべき学習統合パラメータがあるかどうかが判定され、あると判定された場合、ステップ S 6 5に進み、変数 iが 1だけィンクリメントされる。そして、ステップ S 6 2に進み、その次に処理すべき学習統合パラメータを対象に、同様の処理が繰り返される。即ち、これにより、ある単語についての複数の学習統合パラメータから観測される各コードの観測度数が積算されていく。

一方、ステップ S 6 4において、次に処理すべき学習統合パラメータがないと判定された場合、ステップ S 6 6に進み、各コードの観測度数の積算値が、例えば、変数 iで除算され、即ち、ある単語についての複数の学習統合パラメータから観測される各コードの観測度数の平均値が求められ、その各コードの観測度数の平均値が、その単語についての各コードの期待度数として出力されて、処理を終了する。なお、図 2 1の処理は、認識対象の単語それぞれについて行われる。

次に、図 2 2は、図 1 の判定回路 4の構成例を示している。スコァ算出部 1 0 1には、距離推移方式マッチング部 3 1が出力する、距離推移方式による上位 N b個のマツチング結果が供給されるようになっており、スコア算出部 1 0 2には、空間分布方式マッチング部 3 2が出力する、空間分布方式による上位 N b個のマッチング結果が供給されるようになっている。スコア算出部 1 0 1は、距離推移方式による上位 N b個のマツチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部 1 0 3に出力するようになっている。スコア算出部 1 0 2は、空間分布方式による上位 N b 個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部 1 0 3に出力するようになっている。

スコァ加算部 1 0 3は、スコア算出部 1 0 1 と 1 0 2それぞれからの上位 N b個のマッチング結果の中から、同一単語のマッチング結果どうしのスコアを加算し、その加算値を、最大スコア検出部 1 0 4に供給するようになっている。

最大スコア検出部 1 0 4は、スコア加算部 1 0 3から供給されるスコアのうちの最大値を検出し、その最大のスコアを与える単語を、最終的な音声認識結果として出力するようになつている。次に、図 2 3のフローチャートを参照して、図 2 2の判定回路 4 の処理について説明する。スコア算出部 1 0 1に対して、距離推移方式マッチング部 3 1から、距離推移方式による上位 N b個のマツチング結果が供給されるとともに、スコア算出部 1 0 2に対して、空間分布方式マッチング部 3 2から、空間分布方式による上位 N b 個のマッチング結果が供給されると、ステップ S 7 1において、スコア算出部 1 0 1は、距離推移方式による上位 N b個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部 1 0 3に出力するとともに、スコア算出部 1 0 2は、空間分布方式による上位 N b個のマツチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部 1 0 3に出力する。

ここで、マッチング結果に対して付すスコアは、例えば、マッチング結果の順位に対して線形に変化する値であっても良いし、非線形に変化する値であっても良い。

スコア加算部 1 0 3は、ステップ S 7 2において、スコア算出部 1 0 1 と 1 0 2それぞれからの上位 N b個のマッチング結果の中から、同一単語のマッチング結果どうしのスコアを加算し、その加算値を、最大スコア検出部 1 0 4に出力する。なお、スコア加算部 1 0 3は、スコア算出部 1 0 1 と 1 0 2それぞれからの上位 N b個のマツチング結果のいずれか一方にしか含まれない単語については、その単語に付されたスコアを、そのまま最大スコア検出部 1 0 4に供給する。

最大スコア検出部 1 0 4は、ステップ S 7 3において、スコア加算部 1 0 3から供給されるスコアのうちの最大値を検出し、その最大のスコアを与える単語を、最終的な音声認識結果として出力して、処理を終了する。

次に、上述した一連の処理を行う、各ブロック図で表される装置は、専用のハードウェアにより実現することもできるし、ソフトゥエアにより実現することもできる。ソフトウェアによって実現する場合には（この場合、上述した各ブロック図は、機能ブロックを表している図であるということができる）、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。そこで、図 2 4は、上述した一連の処理を実行するプログラムがィンストールされるコンピュータの一実施の形態の構成例を示している。プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク 2 0 5や R O M 2 0 3に予め記録しておくことができる。

あるいはまた、プログラムは、フロッピーディスク、 C D— R O M (Compact Di sc Read Only Memory) 、 M O (Magneto Optical) ディスク、 D V D (Digital Versati le Di sc) 、磁気ディスク、半導体メモリなどのリムーバブル記録媒体 2 1 1に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体 2 1 1は、いわゆるパッケージソフトウェアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体 2 1 1からコンピュータにインストールする他、ダウンロードサイト力ら、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、 L A N (Local Area Network) 、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部 2 0 8で受信し、内蔵するハードディスク 2 0 5にインスト一ルすることができる。

コンピュータは、 C PU (Central Processing Unit) 2 0 2を内蔵している。 C PU 2 0 2には、バス 20 1を介して、入出力インタフエース 1 20が接続されており、 C PU 2 02は、入出力インタフエース 1 20を介して、ユーザによって、キーボードゃマウス等で構成される入力部 2 0 7が操作されることにより指令が入力されると、それに従って、 ROM (Read Only Memory) 2 0 3に格納されているプログラムを実行する。あるいは、また、 C PU 2 0 2 は、ハードディスク 20 5に格納されているプログラム、衛星若しくはネットワークから転送され、通信部 208で受信されてハードディスク 2 0 5にィンストールされたプログラム、又はドライブ 2 09に装着されたリムーバブル記録媒体 2 1 1から読み出されてハードディスク 20 5にィンストールされたプログラムを、 RAM (Random Access Memory) 2 04にロードして実行する。これにより、 C PU 2 02は、上述したフローチャートに従った各種の処理を実行する。そして、 C PU 2 0 2は、その処理結果を、必要に応じて、例えば、入出力インタフェース 1 2 0を介して、 L CD (Li quid Crystal Display) やスピーカ等で構成される出力部 2 06から出力、あるいは、通信部 20 8から送信、さらには、ハードディスク 2 05に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチヤートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、 1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

以上、本発明を適用した音声認識装置について説明したが、本発明は、その他、例えば、話者や、画像その他を認識する装置などにも適用可能である。産業上の利用可能性本発明に係る学習装置及び学習方法、並びに記録媒体によれば、時系列の学習データから得られた識別子の系列から、各識別子の期待度数が算出される。したがって、その期待度数を用いることにより、信号が有する時間成分を考慮せずに認識を行うことが可能となる。

本発明に係る認識装置及び認識方法、並びに記録媒体によれば、入力データをべクトル量子化することにより、コードべクトルを示す識別子の系列が出力され、入力データが、認識対象に対応するものであるかどうかの適正さが、入力データから得られる識別子の系列及び識別子の期待度数を用いて求められる。そして、その適正さに基づいて、入力データが認識対象に一致するか否かが認識される。したがって、入力データが有する時間成分を考慮せずに認識を行うことができ、その結果、認識率を向上させることが可能となる。本発明に係る学習装置及び学習方法、並びに記録媒体によれば、標準系列と、コードベクトルとの間の距離が算出され、その距離の推移を表す距離推移モデルが出力される。したがって、その距離推移モデルにより、認識対象の定常状態や過渡状態が正確に表現されるようになる。

本発明に係る認識装置及び認識方法、並びに記録媒体によれば、時系列の入力データが、コードブックを用いてベクトル量子化され、コードベクトルに対応する識別子の系列が出力される。そして、標準系列とコードべクトルとの間の距離の推移を表す距離推移モデルと、入力データについての識別子の系列とに基づいて、入力データが少なくとも 1つの認識対象に一致するか否かが認識される。したがって、認識率を向上させることが可能となる。

本発明に係る認識装置及び認識方法、並びに記録媒体によれば、時系列の第 1及び第 2の入力データが統合され、時系列の統合データが出力される。そして、その時系列の統合データに基づくベタトルから得られる距離の推移に基づいて、第 1又は第 2の入力データが少なくとも 1つの認識対象に一致するか否かが認識される。したがって、認識率を向上させることが可能となる。

本発明に係る学習装置及び学習方法、並びに記録媒体によれば、正規化係数に基づいて、複数の特徴パラメータそれぞれが正規化され、正規化された複数の特徴パラメータそれぞれについて、標準パラメータとの距離が算出される。そして、複数の特徴パラメータのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、正規化係数が変更される。したがって、複数の特徴パラメータそれぞれを、同等の重みで扱うことができるように正規化を行うことができる正規化係数を求めることが可能となる。

本発明に係る認識装置及び認識方法、並びに記録媒体によれば、複数の入力データそれぞれの特徴パラメータが正規化され、正規化された複数の特徴パラメータが統合されて統合パラメータとされる ₍ そして、統合パラメータに基づいて、複数の入力データの 1以上が認識対象に対するものか否かが認識される。したがって、認識に当たり、ある入力データの影響を強く受けることを防止することが可能となる。

Claims

請求の範囲

1 . 入力系列をベクトル量子化し、そのベクトル量子化結果に基づいて、上記入力系列が認識対象に一致するか否かを認識するために用いる、上記べクトル量子化結果が観測されることが期待される期待度数を求めるための学習を行う学習装置であって、

時系列の学習データをべクトル量子化し、コードべクトルを示す識別子の系列を出力するべクトル量子化手段と、

上記時系列の学習データから得られた上記識別子の系列から、各識別子の期待度数を算出する算出手段とを備える学習装置。

2 . 上記ベクトル量子化手段は、時系列の学習データそれぞれについて、その学習データとの距離が最も近いコードべクトルの識別子を出力することを特徴とする請求の範囲第 1項に記載の学習装置。

3 . 上記算出手段は、同一の認識対象の認識のための学習に用いられる複数の学習データそれぞれについての識別子の期待度数の平均値を、その識別子の最終的な期待度数として求めることを特徴とする請求の範囲第 1項に記載の学習装置。

4 . 入力系列をべクトル量子化し、そのべクトル量子化結果に基づいて、上記入力系列が認識対象に一致するか否かを認識するために用いる、上記べクトル量子化結果が観測されることが期待される期待度数を求めるための学習を行う学習方法であって、

時系列の学習データをべクトル量子化し、コードべクトルを示す識別子の系列を出力し、

上記時系列の学習データから得られた上記識別子の系列から、各識別子の期待度数を算出する学習方法。

5 . 入力系列をべクトル量子化し、そのべクトル量子化結果に基づいて、上記入力系列が認識対象に一致するか否かを認識するために用いる、上記べクトル量子化結果が観測されることが期待される期待度数を求めるための学習を、コンピュータに行わせるプログラムが記録されている記録媒体であって、

時系列の学習データをべクトル量子化し、コードべクトルを示す識別子の系列を出力するべクトル量子化ステップと、

上記時系列の学習データから得られた上記識別子の系列から、各識別子の期待度数を算出する算出ステップとを有するプログラムが記録されている記録媒体。

6 . 時系列の入力データが認識対象に一致するか否かを認識する認識装置であって、

べクトル量子化に用いられるコードブックのコードべクトルに対応する各識別子について、上記入力データが入力されたときに観測されることが期待される期待度数を記憶している記憶手段と、上記入力データをべクトル量子化し、コードべクトルを示す識別子の系列を出力するべクトル量子化手段と、

上記入力データが、認識対象に対応するものであるかどうかの適正さを、上記入力データから得られる上記識別子の系列、及び上記識別子の期待度数を用いて求める適正さ検出手段と、

上記適正さに基づいて、上記入力データが認識対象に一致するか否かを認識する認識手段とを備える認識装置。

7 . 上記ベクトル量子化手段は、時系列の入力データそれぞれについて、その入力データとの距離が最も近いコードべクトルの識別子を出力することを特徴とする請求の範囲第 6項に記載の認識装置。

8 . 上記適正さ検出手段は、上記適正さを、カイ二乗検定を行うことにより求めることを特徴とする請求の範囲第 6項に記載の認識

9 . 上記時系列の入力データは、音声の特徴パラメータと、その音声の発話がなされているときの口唇の画像の特徴パラメータとを統合した統合パラメータであることを特徴とする請求の範囲第 6項に記載の認識装置。

1 0 . 時系列の入力データが認識対象に一致するか否かを認識するを行う認識方法であって、

上記入力データをべクトル量子化することにより、コードべクトルを示す識別子の系列を出力し、

上記入力データが、認識対象に対応するものであるかどうかの適正さを、上記入力データから得られる上記識別子の系列、及び上記識別子が観測されることが期待される期待度数を用いて求め、その適正さに基づいて、上記入力データが認識対象に一致するか否かを認識する認識方法。

1 1 . 時系列の入力データが認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、

上記入力データをべクトル量子化し、コードべクトルを示す識別子の系列を出力するべクトル量子化ステップと、

上記入力データが、認識対象に対応するものであるかどうかの適正さを、上記入力データから得られる上記識別子の系列、及び上記識別子が観測されることが期待される期待度数を用いて求める適正さ検出ステップと、その適正さに基づいて、上記入力データが認識対象に一致するか否かを認識する認識ステップとを有するプログラムが記録されている記録媒体。

1 2 . 標準系列と、ベタトル量子化に用いられるコードべクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習装置であって、

時系列の学習データについて、時間軸の正規化を行い、上記標準系列を出力する正規化手段と、

上記標準系列と、上記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段とを備える学習装置。

1 3 . 上記距離の推移を多項式で近似する近似手段をさらに備える請求の範囲第 1 2項に記載の学習装置。

1 4 . 上記近似手段は、上記コードブックのコードベクトルのうち、上記標準系列との距離を最小にするものとの距離の累積値が最小となるように、上記多項式の次数を決定することを特徴とする請求の範囲第 1 3項に記載の学習装置。

1 5 . 標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習方法であって、

時系列の学習データについて、時間軸の正規化を行い、上記標準系列を出力し、

上記標準系列と、上記コードベクトルとの間の距離を算出し、その距離の推移を出力する学習方法。

1 6 . 標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を、コンピュータに行わせるプログラムが記録されている記録媒体であつて、

時系列の学習データについて、時間軸の正規化を行い、上記標準系列を出力する正規化ステップと、

上記標準系列と、上記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出ステップとを有するプログラムが記録されている記録媒体。

1 7 . 時系列の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識装置であって、

複数のコードべクトノレと、各コードべクトルを示す識別子とからなるコードブックを記憶しているコードブック記憶手段と、標準系列と、上記コードブックの各コードべクトルとの間の距離の推移を表す、少なくとも 1つの認識対象に対応した距離推移モデルを記憶しているモデル記憶手段と、

上記時系列の入力データを、上記コードブックを用いてべクトル量子化し、上記識別子の系列を出力するべクトル量子化手段と、上記距離推移モデルと、上記入力データについての識別子の系列とに基づいて、上記入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識手段とを備える認識装置。

1 8 . 上記記憶手段は、上記標準系列とコードベクトルとの間の距離の推移を多項式で近似したものを、上記距離推移モデルとして記憶していることを特徴とする請求の範囲第 1 7項に記載の認識装置。

1 9 . 上記時系列の入力データについて、時間軸の正規化を行う正規化手段をさらに備え、上記べクトル量子化手段は、正規化された上記入力データをべクトル量子化することを特徴とする請求の範囲第 1 7項に記載の認識

2 0 . 上記時系列の入力データは、音声の特徴パラメータと、その音声の発話がなされているときの口唇の画像の特徴パラメータとを統合した統合パラメータであることを特徴とする請求の範囲第 1 7項に記載の認識装置。

2 1 . 上記認識手段は、上記識別子の系列と上記距離推移モデルとに基づいて、上記識別子ごとの距離を累積し、その累積された距離に基づいて、上記入力データが少なくとも 1つの認識対象に一致するか否かを認識することを特徴とする請求の範囲第 1 7項に記載の認識装置。

2 2 . 上記べクトル量子化手段は、上記入力データとの間の距離が最も近い上記コードべクトルの識別子を出力することを特徴とする請求の範囲第 1 7項に記載の認識装置。

2 3 . 上記モデル記憶手段は、複数の上記距離推移モデルを記憶していることを特徴とする請求の範囲第 1 7項に記載の認識装置。

2 4 . 時系列の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識方法であって、

上記時系列の入力データを、複数のコードベクトルと、各コードベタトルを示す識別子とからなるコードブックを用いてベタトル量子化し、上記識別子の系列を出力し、

標準系列と上記コードべクトルとの間の距離の推移を表す、少なくとも 1つの認識対象に対応した距離推移モデルと、上記入力データについての識別子の系列とに基づいて、上記入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識方法。

2 5 . 時系列の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプロダラムが記録されている記録媒体であって、

上記時系列の入力データを、複数のコードベクトルと、各コードべクトルを示す識別子とからなるコードブックを用いてべクトル量子化し、上記識別子の系列を出力するべクトル量子化ステップと、標準系列と上記コードべクトルとの間の距離の推移を表す、少なくとも 1つの認識対象に対応した距離推移モデルと、上記入力データについての識別子の系列とに基づいて、上記入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識ステップとを有するプログラムが記録されている記録媒体。

2 6 . 時系列の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識装置であって、

時系列の第 1及び第 2の入力データを統合し、時系列の統合データを出力する統合手段と、

上記時系列の統合データに基づくベタトルから得られる距離の推移に基づいて、上記第 1又は第 2の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識手段とを備える認識装置。

2 7 . 上記認識手段は、上記時系列の統合データに基づくベタトルから得られる距離の推移に基づいて行われる第 1のマツチング処理、及ぴ上記時系列の統合データに基づくベタトルから得られる空間分布に基づいて行われる第 2のマツチング処理を行い、上記第 1 及び第 2のマッチング処理の結果に基づいて、上記第 1又は第 2の入力データが少なくとも 1つの認識対象に一致するか否かを認識することを特徴とする請求の範囲第 2 6項に記載の認識装置。

2 8 . 上記認識手段は、ベクトル量子化に用いられるコードブックのコ一ドべクトルと、標準系列との間の距離の推移を表す距離推移モデルから、上記統合データに基づくベタトルを、上記コードブックを用いてベタトル量子化したべクトル量子化結果が観測されるときの上記距離を累積し、その累積結果に基づいて、上記第 1又は第 2のデータが少なくとも 1つの認識対象に一致するか否かを認識することを特徴とする請求の範囲第 2 6項に記載の認識装置。

2 9 . 時系列の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識方法であって、

時系列の第 1及び第 2の入力データを統合し、時系列の統合データを出力し、

上記時系列の統合データに基づくベタトルから得られる距離の推移に基づいて、上記第 1又は第 2の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識方法。

3 0 . 時系列の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、

時系列の第 1及び第 2の入力データを統合し、時系列の統合データを出力する統合ステップと、

上記時系列の統合データに基づくべクトルから得られる距離の推移に基づいて、上記第 1又は第 2の入力データが少なくとも 1つの認識対象に一致するか否かを認識する認識ステップとを有するプログラムが記録されている記録媒体。

3 1 . 複数の入力データについて、それぞれの特徴を表す特徴パラメータの正規化に用いる正規化係数を求めるための学習を行う学習装置であって、

上記正規化係数に基づいて、複数の特徴パラメータそれぞれを正規化する特徴パラメータ正規化手段と、

正規化された上記複数の特徴パラメータそれぞれについて、標準パラメータとの距離を算出する距離算出手段と、

上記複数の特徴パラメータのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、上記正規化係数を変更する変更手段とを備える学習装置。

3 2 . ベタトル量子化に用いるコードブックを生成するためのコ一ドブック生成データを、上記正規化係数に基づいて正規化するコ一ドブック生成データ正規化手段と、

正規化された上記コードブック生成データを用いて、上記コ一ドブックを生成するコードブック生成手段とをさらに備え、

上記距離算出手段は、上記コードブックにおけるコードべクトルのうち、上記特徴パラメータに最も近いものを、上記標準パラメ一タとして、その特徴パラメータとの距離を算出することを特徵とする請求の範囲第 3 1項に記載の学習装置。

3 3 . 上記複数の入力データは、少なくとも画像と音声のデータを含むことを特徴とする請求の範囲第 3 1項に記載の学習装置。

3 4 . 複数の入力データについて、それぞれの特徴を表す特徴パラメータの正規化に用いる正規化係数を求めるための学習を行う学習方法であって、

上記正規化係数に基づいて、複数の特徴パラメータそれぞれを正規化し、正規化された上記複数の特徴パラメータそれぞれについて、標準パラメータとの距離を算出し、

上記複数の特徴パラメータのうちの任意の 1つについての距離と, 他の任意の 1つについての距離とが等しくなるように、上記正規化係数を変更する学習方法。

3 5 . 複数の入力データについて、それぞれの特徴を表す特徴パラメータの正規化に用いる正規化係数を求めるための学習を、コンピュータに行わせるプログラムが記録されている記録媒体であつて、上記正規化係数に基づいて、複数の特徴パラメータそれぞれを正規化する特徴パラメータ正規化ステップと、

正規化された上記複数の特徴パラメータそれぞれについて、標準パラメータとの距離を算出する距離算出ステップと、

上記複数の特徴パラメータのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、上記正規化係数を変更する変更ステップとを有するプログラムが記録されている記録媒体。

3 6 . 複数の入力データそれぞれについて、特徴パラメータを検出する検出手段と、

上記複数の入力データそれぞれの特徴パラメータを正規化する正規化手段と、

正規化された複数の特徴パラメータを統合し、統合パラメータとする統合手段と、

上記統合パラメータに基づいて、上記複数の入力データの 1以上が認識対象に対するものか否かを認識する認識手段とを備える認識

3 7 . 上記正規化手段は、上記特徴パラメータを、正規化係数に基づいて正規化することを特徴とする請求の範囲第 3 6項に記載の

3 8 . 上記正規化係数は、上記正規化係数に基づいて、複数の特徴パラメータそれぞれを正規化し、

正規化された上記複数の特徴パラメータそれぞれについて、標準パラメータとの距離を算出し、

上記複数の特徴パラメータのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、上記正規化係数を変更することにより得られたものであることを特徴とする請求の範囲第 3 7項に記載の認識装置。

3 9 . 上記正規化係数は、ベタトル量子化に用いるコードブックを生成するためのコードブック生成データを、上記正規化係数に基づいて正規化し、その正規化された上記コードブック生成データを用いて、上記コードブックを生成し、上記コードブックにおけるコードベクトルのうち、上記特徴パラメータに最も近いものを、上記標準パラメ一タとして、その特徴パラメータとの距離を算出し、上記複数の特徴パラメータのうちの任意の 1つについての距離と、他の任意の 1つについての距離とが等しくなるように、上記正規化係数を変更することにより得られたものであることを特徴とする請求の範囲第 3 7項に記載の認識装置。

4 0 . 上記複数の入力データは、少なくとも画像と音声のデータを含むことを特徴とする請求の範囲第 3 6項に記載の認識装置。

4 1 . 上記認識手段は、上記音声を認識することを特徴とする請求の範囲第 4 0項に記載の認識装置。

4 2 . 上記統合パラメータを時間軸方向に正規化する時間軸正規化手段をさらに備えることを特徴とする請求の範 ffl第 3 6項に記载の認識装置。

4 3 . 複数の入力データそれぞれについて、特徴パラメータを出力し、

上記複数の入力データそれぞれの特徴パラメータを正規化し、正規化された複数の特徴パラメータを統合して統合パラメータとし、

上記統合パラメータに基づいて、上記複数の入力データの 1以上が認識対象に対するものか否かを認識する認識方法。

4 4 . コンピュータに実行させるプログラムが記録されている記録媒体であって、

複数の入力データをそれぞれについて、特徴パラメータを検出する検出ステップと、

上記複数の入力データそれぞれの特徴パラメ一タを正規化する正規化ステップと、

正規化された複数の特徴パラメータを統合し、統合パラメ一タとする統合ステップと、

上記統合パラメータに基づいて、上記複数の入力データの 1以上が認識対象に対するものか否かを認識する認識ステップとを有するプログラムが記録されている記録媒体。