WO1998029864A1

WO1998029864A1 - Appareil et procede de reconnaissance, et appareil et procede d'apprentissage

Info

Publication number: WO1998029864A1
Application number: PCT/JP1997/004755
Authority: WO
Inventors: Tetsujiro Kondo
Original assignee: Sony Corporation
Priority date: 1996-12-26
Filing date: 1997-12-22
Publication date: 1998-07-09
Also published as: DE69730705T2; EP0896319A4; EP0896319A1; KR100578260B1; JPH10187186A; JP3702978B2; CN1119795C; EP0896319B1; US6396954B1; CN1214141A; DE69730705D1; KR19990087263A

Description

明細書認識装置および認識方法、並びに学習装置および学習方法技術分野本発明は、認識装置および認識方法、並びに学習装置および学習方法に関する。特に、例えば、音声や物体などを、その音声データや画像データだけでなく、他のデータをも用いて認識することにより、その認識精度を向上させることができるようにする認識装置および認識方法、並びに学習装置および学習方法に関する。背景技術従来の、例えば、音声を認識する音声認識装置では、マイクロフオン（マイク）から出力される音声データを（音響）分析し、その分析結果を用いて、ユーザが発した音声を認識するようになっている。

しかしながら、従来の音声認識装置では、マイクからの音声データの分析結果だけを用いて音声認識を行っているため、その認識性能は、ある程度の限界があった。

即ち、話者の発話の認識にあたっては、マイクからの音声データだけでなく、その相手の表情や口の動きなども重要な要素であると考えられ、従って、そのような種々の要素を考慮すべきである。また、音声認識装置は、防音室などのように、認識対象である音声だけがマイクに入力されるような環境で使用されることはほとんどなく、それ以外の様々な雑音が存在する環境下で使用されることが多い。即ち、最近では、音声認識装置を備えた、例えばナビグーシヨンシステムが実用化されつつあるが、この場合、音声認識装置には、認識すべき話者の音声の他、自動車に装備された C D (Comp act Di sc) プレーヤが出力する音や、エンジン音、エアコンデイショナの音、その他の雑音が入力される。そして、このような雑音が混ざった音声データから雑音だけを取り除くのは困難であるため、認識性能を向上させるには、認識対象の音声以外の音である雑音も加味する必要がある。

さらに、従来の音声認識装置では、マイクから出力される音声データに対して、所定の分析処理を施して、その特徴パラメータを求め、その特徴パラメータのパラメータ空間における距離などに基づいて、音声を認識されるようになっている。しかしながら、認識にあたって重要な特徴パラメータは、音声認識装置が使用される環境によって変化すると考えられる。発明の開示本発明は、このような状況に鑑みてなされたものであり、本発明の目的は、音声その他の認識を行う認識装置の認識性能を向上させることができるようにするものである。

請求項 1に記載の認識装置は、複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行う第 1のクラス分類手段と、複数種類の入力データを統合した統合パラメータを構成する統合パラメータ構成手段と、第 1のクラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶している標準パラメータ記憶手段と、第 1のクラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段とを備えることを特徴とする。

請求項 5に記載の認識方法は、複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行うとともに、複数種類の入力データを統合した統合パラメータを構成し、クラス分類の結果得られるクラスに対応する標準のパラメータが登録されたテーブルと、統合パラメータとに基づいて、認識対象を認識することを特徴とする。

請求項 6に記載の学習装置は、複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行う第 1のクラス分類手段と、複数種類の入力データを統合した統合パラメータを構成する統合パラメータ構成手段と、統合パラメータを、第 1のクラス分類手段が出力するクラスごとに分類する分類手段とを備えることを特徴とする。

請求項 9に記載の学習方法は、複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行うとともに、複数種類の入力データを統合した統合パラメータを構成し、統合パラメータを、クラス分類の結果得られるクラスごとに分類することを特徴とする。

請求項 1に記載の認識装置においては、第 1のクラス分類手段は. 複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行い、統合パラメータ構成手段は、複数種類の入力データを統合した統合パラメータを構成するようになつている。標準パラメータ記憶手段は、第 1のクラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶しており、認識手段は、第 1のクラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識するようになっている。

請求項 5に記載の認識方法においては、複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行うとともに、複数種類の入力データを統合した統合パラメータを構成し、クラス分類の結果得られるクラスに対応する標準のパラメータが登録されたテーブルと、統合パラメータとに基づいて、認識対象を認識するようになつている。

請求項 6に記載の学習装置においては、第 1のクラス分類手段は、複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行い、統合パラメータ構成手段は、複数種類の入力データを統合した統合パラメータを構成するようになつている。分類手段は、統合パラメータを、第 1のクラス分類手段が出力するクラスごとに分類するようになつている。

請求項 9に記載の学習方法においては、複数種類の入力データを, その性質に応じて、所定のクラスに分類するクラス分類を行うとともに、複数種類の入力データを統合した統合パラメータを構成し、統合パラメータを、クラス分類の結果得られるクラスごとに分類するようになっている。図面の簡単な説明

図 1は、本発明を適用したナビゲーションシステムの構成例を示すブロック図である。

図 2は、本発明を適用した音声認識装置の第 1の実施の形態の構成例を示すブロック図である。

図 3は、前処理部 2 1の処理を説明するための図である。

図 4は、本発明を適用した学習装置の第 1の実施の形態の構成例を示すプロック図である。

図 5は、パラメータ空間を示す図である。

図 6は、本発明を適用した音声認識装置の第 2の実施の形態の構成例を示すブロック図である。

図 7は、本発明を適用した学習装置の第 2の実施の形態の構成例を示すブロック図である。

図 8は、本発明を適用した音声認識装置の第 3の実施の形態の構成例を示すプロック図である。

図 9は、本発明を適用した学習装置の第 3の実施の形態の構成例を示すブロック図である。

発明を実施するための最良の形態図 1は、本発明を適用したナビゲーションシステムの一実施の形態の構成例を示している。

このナビゲーシヨンシステムは、自動車などに装備され、システム制御部 1、位置測定装置 2、データベース装置 3、入力装置 4、および出力装置 5を備え、例えばボタンなどの操作による他、対話的に発せられる入力音声に対応して、装置の制御が行われるようになっている。なお、このナビゲーシヨンシステムは、例えば携帯して用いることもできる。

システム制御部 1は、システムを構成する各プロックとの間で情報の送受を行い、システム全体の動作を制御するようになっている。位置測定装置 2は、 G P S (Global Po s i t ioning System) 衛星からの電波を受信したり、例えばジャィ口スコープや車速センサなどの測定装置を用いて現在地を測定するようになっている。データべ一ス装置 3には、例えば複数のスケールの、電子化された地図情報、その他のナビゲーシヨンに必要な情報が記録（記憶）されており、そこからは、システム制御部 1からの指令に基づいて必要な情報が検索され、システム制御部 1に供給されるようになっている。

入力装置 4には、ナビゲーションシステムに所定の処理を行わせるためのボタンやジョイスティック、音声を入力するためのマイク、ユーザを撮像するための C C D (Charge Coup l ed Devi ce) カメラ、さらには、自動車の振動を測定するための加速度センサや、湿度や温度を測定するためのセンサ、その他の各種のセンサなどが装備されている。入力装置 4からは、ボタンやジョイスティックなどの操作に対応した信号がシステム制御部 1に送信されるようになっている。さらに、入力装置 4は、音声認識装置を有しており、入力された音声を音声認識し、その音声認識結果を、システム制御部 1に送信するようにもなつている。

出力装置 5は、画像その他を表示するための、例えば液晶モニタや C R T ( Cathod Ray Tube) 、音声その他を出力するためのスピー力、テキスト情報から合成音を生成する音声合成装置などを有しており、システム制御部 1から送られてくる情報のうちの、例えば地図情報や現在位置情報などを表示したり、また音声情報を出力したりするようになつている。さらに、出力装置 5は、システム制御部 1からテキスト情報が送信されてきた場合には、そのテキスト情報に対応する音声を音声合成装置に合成させて出力するようにもなつている。

以上のように構成されるナビゲーションシステムには、例えば、ユーザが目的地としての地名を発話すると、その音声は、入力装置 4が内蔵する音声認識装置で音声認識され、その音声認識結果が、システム制御部 1に供給される。システム制御部 1は、目的地としての地名の音声認識結果を受信すると、位置測定装置 2の出力から現在地を認識し、さらに、データベース装置 3に記憶された地図情報を参照することで、現在地から目的地までのルートを求める。そして、システム制御部 1は、そのルートを表した地図情報を、出力装置 5に供給して表示させるとともに、そのルートを案内する合成音を出力装置 5が内蔵する音声合成装置に生成させて出力させる。従って、この場合、ユーザは、容易に目的地にたどりつくことができる。

次に、図 2は、図 1の入力装置 4が内蔵する音声認識装置の第 1 の実施の形態の構成例を示している。

入力部 1 0は、マイク 1 1、 C C Dカメラ 1 2、マイク 1 3、センサ 1 4、アンプ 1 5、 A Z D変換器 1 6、アンプ 1 7、 A / D変換器 1 8、および 1 9から構成され、それらからは、運転者であるユーザの音声を認識するために用いられる各種の入力データが出力される。

具体的には、マイク 1 1は、例えば指向性を有するものであり、運転者であるユーザの方向に向けて設置されている。従って、マイク 1 1には、主としてユーザの音声が入力される。マイク 1 1に入力された音声は、音声信号に変換され、アンプ 1 5を介することにより増幅されて、 A D変換器 1 8に供給される。 AZD変換器 1 8では、アンプ 1 5を介して供給されるアナログの音声信号が、所定のサンプリングクロックにしたがってサンプリングされ、さらに、所定の量子化ステップで量子化されることにより、ディジタル信号である音声データに変換される。 AZD変換器 1 8が出力する音声データは、前処理部 20に供給される。

C CDカメラ 1 2は、ュ一ザの口の部分を撮影するように設置されており、この CCDカメラ 1 2で撮像されたユーザの口の部分は、画像信号とされ、 A/D変換器 1 6に供給される。 AZD変換器 1 6は、 AZD変換器 1 8における場合と同様に、アナログの画像信号を、画像データに変換して、前処理部 2 1に供給する。

マイク 1 3は、例えば、無指向性のもので、主としてユーザの音声以外の音が入力される。即ち、例えば、エンジン音や、自動車に装備されたラジオ受信機や CDプレーヤなどから出力される音、ェアコンデイショナの音、さらに、窓が開いている場合には、外部の雑音などが入力される。マイク 1 3に入力された音は、アンプ 1 7 または AZD変換器 1 9において、上述のアンプ 1 5または A/D 変換器 1 8における場合とそれぞれ同様に処理され、これにより音声データとされて、前処理部 22に供給される。

センサ 1 4は、自動車の振動を測定するための加速度センサや、湿度や温度を測定するためのセンサなどで、その出力は、前処理部 2 3に供給される。なお、加速度センサの出力からは、例えば、自動車が振動することにより生じる騒音の程度（大きさ）がわかる。また、湿度や温度を測定するためのセンサの出力からは、例えば、雨が降っているかどうかがわかり、さらに、雨が降っていれば、その雨の音の程度がわかる。

前処理部 2 0乃至 2 3では、それぞれに供給されるデータが分析され、その特徴を表す特徴パラメータが求められる。

即ち、前処理部 2 0および 2 2では、音声データから、例えば、そのゼロクロス数や、所定の周波数帯域ごとのパワー、線形予測係数、ケプストラム係数などが、所定の時間としての音声フレーム単位で求められ、特徴パラメータとして、クラス分類用データ構成部 2 4および統合パラメータ構成部 2 6に出力される。

前処理部 2 1では、ユーザの口の部分の画像データから、例えば、図 3に示すように、ユーザの口の横の長さ 1^および縦の長さ L ₂が求められ、その比 L i/ L ₂が、特徴パラメータとして、クラス分類用データ構成部 2 4および統合パラメータ構成部 2 6に出力される。あるいは、また、前処理部 2 1では、ユーザの口の部分の画像データから動きベクトルや、エッジ、 D C T (離散コサイン変換）係数などが求められ、特徴パラメータとして、クラス分類用データ構成部 2 4および統合パラメータ構成部 2 6に出力される。

前処理部 2 3では、センサ 1 4の出力が分析されることにより、上述したように、例えば、自動車が振動することにより生じる騒音の程度（大きさ）を反映する特徴パラメータや、雨の音の程度を反映する特徴パラメータなどが求められ、やはり、クラス分類用データ構成部 2 4および統合パラメータ構成部 2 6に出力される。

クラス分類用データ構成部 2 4は、前処理部 2 0乃至 2 4が出力する特徴パラメータの少なくとも一部を、クラス分類に用いるクラス分類用データとして、クラス分類部 2 5に出力する。クラス分類部 2 5では、クラス分類用データ構成部 2 4からのクラス分類用デ —タを、その性質に応じて、所定のクラスに分類するクラス分類を行う。

即ち、クラス分類部 2 5は、クラス分類用データを構成する特徴パラメータの値のパターンにあらかじめ割り当てられた値を、そのクラス分類用データのクラスとして、適応判定部 2 7に供給する。ここで、特徴パラメータを表すのに、例えば、 Aビットが割り当てられている場合に、そのような特徴パラメ一タを B個集めてクラス分類用データを構成すると、そのようなクラス分類用データを構成する特徴パラメータの値のパターン数は、（2 ^A) ^B通りとなる。従つて、 Aまたは Bが大きいと、クラス数が莫大な数となり、その後の処理の迅速化が困難となる。

そこで、クラス分類を行う前の前処理として、クラス分類用データには、それを構成する特徴パラメータのビット数を低減するための処理である、例えば A D R C (Adaptive Dynami c Range Coding) 処理などが施される。

即ち、 A D R C処理では、まず、クラス分類用データを構成する B個の特徴パラメータから、その値の最大のもの（以下、適宜、最大特徴パラメータという）と最小のもの（以下、適宜、最小特徴パラメータという）とが検出される。そして、最大特徴パラメータの値 M A Xと最小特徴パラメータの値 M I Nとの差分 D R (二 M A X - M I N ) が演算され、この D Rをクラス分類用データの局所的なダイナミックレンジとし、このダイナミックレンジ D Rに基づいて、クラス分類用データを構成する各特徴パラメータが、元の割当ビット数 Aより少ない Cビットに再量子化される。つまり、クラス分類用データを構成する各特徴パラメータから最小特徴パラメータの値 M I Nが減算され、各減算値が、 D R / 2 ^Cで除算される。

その結果、クラス分類用データを構成する各特徴パラメータは C ビットで表現されるようになる。従って、例えば C = l とした場合、 B個の特徴パラメータのパターン数は、（ 2 ¹) ^B通りになり、 A D R C処理を行わない場合に比較して、パターン数を非常に少ないものとすることができる。

また、クラス分類用データを構成する特徴パラメータのパターン数を少なくする観点からは、クラス分類用データを構成する特徴パラメータの数 Bは、あまり大きな値にしない方が望ましい。但し、特徴パラメータの数 Bは、少なすぎても、適切なクラス分類が行われないおそれがある。従って、特徴パラメ一タの数 Bは、これらをバランスさせて決めるのが望ましい。

一方、統合パラメータ構成部 2 6は、前処理部 2 0乃至 2 4が出力する特徴パラメータの少なくとも一部を統合して（集めて）統合パラメータとして、適応判定部 2 7に出力する。

ここで、統合パラメータは、クラス分類用データを構成する特徴パラメータと同一のものを統合して構成しても良いし、また、クラス分類用データを構成する特徴パラメータとは異なるものを統合して構成しても良い。

適応判定部 2 7は、標準パラメータ記憶部 2 8およびマッチング部 2 9から構成されており、クラス分類部 2 5または統合パラメ一タ構成部 2 6からクラスまたは統合パラメータをそれぞれ受信すると、まずクラス分類部 2 5から受信したクラスに対応する標準パラメータが登録された標準パラメータテーブルを、標準パラメータ記憶部 2 8から選択する。

即ち、標準パラメータ記憶部 2 8は、後述する学習装置（図 4 ) による学習処理によって得られる、例えば音素に対応する標準パラメータが登録されている標準パラメータテーブルを、クラスごと分けて記憶しており、マッチング部 2 9では、そのクラスごとの標準パラメータテーブルの中から、クラス分類部 2 5が出力したクラスに対応するものが選択される。

さらに、マッチング部 2 9は、選択された標準パラメータテープルに登録されている標準パラメ一タそれぞれと、統合パラメータ構成部 2 6からの統合パラメータとの、例えば、ユークリッド距離を算出し、そのユークリツド距離を最も小さくする標準パラメータに対応する音素を、音声認識結果として出力する。

従って、この音声認識装置によれば、主としてユーザの音声が入力されるマイク 1 1から出力される音声データだけでなく、 C C D カメラ 1 2が出力する画像データから得られる、例えばユーザの口の状態や動き、マイク 1 3が出力する音声データやセンサ 1 4の出力から得られる、例えば雑音の種類や周波数帯域成分などをも用いて、ユーザの音声が認識されるので、その認識率を向上させることができる。

また、クラスごとに、標準パラメ一タテーブルを用意し、入力部 1 0が出力する複数種類のデータのクラスに対応する標準パターンテーブルを選択するようにしたので、入力部 1 0が出力する複数種類のデータに基づいて、ユーザの音声を認識するのに最適な標準パターンテーブルを用いることができ、その結果、認識率をさらに向上させることが可能となる。

次に、図 4は、図 2の標準パラメータ記憶部 2 8に記憶させる、クラスごとの標準パラメータテーブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。

入力部 3 0 (マイク 3 1、 C CDカメラ 3 2、マイク 3 3、センサ 3 4、アンプ 3 5、 0変換器3 6、アンプ 3 7、 A D変換器 3 8、および 3 9 ) 、前処理部 4 0乃至 4 3 Aクラス分類用データ構成部 4 4、クラス分類部 4 5、または統合パラメータ構成部 4 6 は、図 2の音声認識装置における入力部 1 0 (マイク 1 1、 CCD カメラ 1 2、マイク 1 3、センサ 1 4、アンプ 1 5、 A/D変換器 1 6、アンプ 1 7、 AZD変換器 1 8、および 1 9) 、前処理部 2 0乃至 2 3、クラス分類用データ構成部 24、クラス分類部 2 5、または統合パラメータ構成部 2 6とそれぞれ同様に構成されている。メモリ 4 7は、そのアドレス端子（AD) に、クラス分類部 4 5が出力するクラスがアドレスとして与えられるようになつており、統合パラメータ構成部 4 6が出力する統合パラメータを記憶するようになっている。

以上のように構成される学習装置では、入力部 3 0に学習を行うための学習データが入力される。即ち、マイク 3 1には、例えば、ある話者が発話した音声が入力される。また、そのときの話者の口の部分が、 C CDカメラ 3 2で撮像される。さらに、マイク 3 3には、例えば、各種の自動車のエンジン音や、 CDプレーヤで再生された曲、雨の音、エアコンディショナの音、その他の雑音が入力される。センサ 3 4に対しては、各種の振動や、また、マイク 3 3に雨フ音が入力されるときには、その雨が降っている状態における温度、湿度などが与えられる。

入力部 3 0に入力された学習データとしての各種のデータは、前処理部 4 0乃至 4 3、クラス分類用データ構成部 4 4、クラス分類部 4 5、または統合パラメータ構成部 4 6において、図 2の前処理部 2 0乃至 2 3、クラス分類用データ構成部 2 4、クラス分類部 2 5、または統合パラメ一タ構成部 2 6における場合とそれぞれ同様に処理され、これにより、メモリ 4 7には、クラス分類部 4 5からクラスが供給されるとともに、統合パラメータ構成部 4 6から統合パラメータが供給される。

メモリ 4 7は、クラス分類部 4 5からのクラスに対応するァドレスに、統合パラメータ構成部 4 6からの統合パラメータを、標準パラメータとして記憶する。

以上の処理が、多くの話者が発話した各音素について、マイク 3 3に入力する雑音、およびセンサ 3 4への入力を様々なものに変えて行われる。

その結果、メモリ 4 7には、同一のクラスに属する統合パラメ一タが、各アドレスに分類されて記憶される。

図 2の標準パラメータ記憶部 2 8には、メモリ 4 7の各ァドレスに記憶された統合パラメータ（の集合）力標準パラメータとして、各クラスに対応する標準パラメータテーブルに登録されたものが記憶されている。

この学習装置によれば、例えば、マイク 3 3に雑音を入力しなかつた場合と、入力した場合とでは、クラス分類部 4 5において異なるクラスに分類され、その結果、雑音がある場合に最適な標準パラメータテーブルと、雑音がない場合に最適な標準パラメータテープルとが作成されることになる。そして、図 2の音声認識装置では、クラス分類部 4 5の出力と同一のクラスがクラス分類部 2 5から出力されるから、雑音がある場合には、その場合に最適な標準パラメ —タテ一ブルが、また、雑音がない場合にも、その場合に最適な標準パラメータテーブルが選択されることになる。

なお、学習装置においては、標準パラメータは、上述のように、雑音がある場合とない場合とで異なるクラスに分類され、また、雑音の種類やレベル、さらには、話者が発話した音素の種類や、話者が男性であるか、あるいは女性であるかなどによっても異なるクラスに分類されることが予想されるが、標準パラメータが、どのように分類されるかは、特に問題とならない。これは、例えば、音声認識装置の入力部 1 0への入力が、学習装置の入力部 3 0 と同一であれば、音声認識装置のクラス分類部 2 5におけるクラス分類結果は、学習装置のクラス分類部 4 5におけるクラス分類結果と同一になり、従って、音声認識装置では、入力部 1 0への入力と同一の入力から得られた標準パラメータ、即ち、その入力に対して最適な標準パラメータを用いて音声認識が行われるからである。

また、図 4の学習装置において、メモリ 4 7には、各クラスごとに、ある音素についての統合パラメータが複数記憶される場合がある。即ち、学習においては、 1 の話者に、様々な雑音環境下で、同一の音素を発話してもらい、さらに、このような発話を、多数の話者に行ってもらうため、あるクラスのある音素について、パラメ一タ空間のある程度の範囲に散らばる複数の統合パラメータが得られる場合がある。

具体的には、例えば、図 5 ( A ) は、簡単のために、統合パラメータが 3つの成分 P ,， P ₂， P ₃を有するものとして、 3次元のパラメータ空間を表しているが、このようなパラメータ空間に、あるクラスに対して得られた音素「ァ」や「ィ」についての統合パラメータをプロットすると、その点は、ある程度の範囲に散らばる。

そこで、このような、ある程度の範囲に散らばるすべての点を、その音素についての標準パラメータとしても良いが、その他、例えば、図 5 ( B ) に示すように、その範囲の重心などを求め、これを、その音素の標準パラメータとすることなども可能である。

次に、図 6は、図 1の入力装置 4が内蔵する音声認識装置の第 2 の実施の形態の構成例を示している。なお、図中、図 2における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この音声認識装置は、標準パラメータ記憶部 2 8に代えて、標準パラメータ記憶部 2 8 ,乃至 2 8 «が設けられ、さらに、クラス分類用データ構成部 5 1およびクラス分類部 5 2が新たに設けられている他は、図 2の音声認識装置と基本的に同様に構成されている。

クラス分類用データ構成部 5 1は、入力部 1 0が出力する複数種類のデータから、クラス分類用データを構成し、クラス分類部 5 2 に出力する。クラス分類部 5 2は、クラス分類用データ構成部 5 1 が出力するクラス分類用データをクラス分類し、そのクラス分類結果としてのクラスを、前処理部 2 0乃至 2 3に供給する。

この場合、前処理部 2 0乃至 2 3では、クラス分類部 5 2が出力するクラスに対応した前処理が行われる。即ち、例えば、マイク 1 1に入力された音声が母音などの有声音である場合は、ゼロクロス数などよりも、線形予測係数ゃケプストラム係数などの方が、また、マイク 1 1に入力された音声が無声音である場合は、線形予測係数やケプストラム係数などよりも、ゼロクロス数や周波数帯域ごとのパワー、無音の期間などの方が、音声の特徴をとらえ易い。さらに、マイク 1 3に入力される雑音のレベルが小さい場合は、その雑音による影響は考慮する必要がないが、そのレベルが大きい場合には、雑音による影響を考慮して音声認識を行うのが望ましい。また、ュ一ザの口の動きがほとんどない場合は、その動きべクトルは考慮する必要がなく、逆に、動きがある場合には、その動きべクトルを考盧して音声認識を行うのが望ましい。さらに、自動車の振動がほとんどない場合や、雨が降っていない場合などには、センサ 1 4の出力を考慮する必要はないが、その逆の場合は、センサ 1 4の出力を考慮して音声認識を行うのが望ましい。

つまり、認識の対象である音声は勿論、その他の要因に関しても、音声を認識するにあたって最適な特徴パラメータ（より正答率の高い認識結果を得るための特徴パラメータ）は、場合によって変化すると考えられる。

そこで、図 6の音声認識装置では、入力部 1 0が出力するデータからクラス分類用データを構成し、それをクラス分類することで、幾つかの場合に分け、各場合について最適な特徴パラメータが、前処理部 2 0乃至 2 3で求められる。

従って、図 6の実施の形態では、適応判定部 2 7 (マッチング部 2 9 ) において距離計算する際のパラメータ空間が、クラス分類部 5 2のクラス分類結果によって変化することになる。即ち、適応判定部 2 7では、クラス分類部 5 2が出力するクラスに対応するパラメータ空間における距離が計算され、その距離に基づいて、音声認識結果が出力される。

なお、ここでは、クラス分類部 5 2において、クラス分類用度データ構成部 5 1が出力するクラス分類用データが、 M個のクラスのうちのいずれかにクラス分類されるものとする。

また、前処理部 2 0乃至 2 3には、クラス分類部 5 2が出力するクラスに対応した種類の特徴パラメータを出力させる他、同一の特徴パラメータであっても、その次数を変化させたり（例えば、 8次や 1 2次その他の線形予測係数を出力させたり）、また、特徴パラメータを出力させないようにする（例えば、自動車が静かな場所で停止している場合には、マイク 1 3およびセンサ 1 4の出力は考慮する必要がないと考えられるので、前処理部 2 2および 2 3には特に処理を行わせないようにする）ことなども可能である。

クラス分類部 5 2が出力するクラスは、前処理部² 0乃至 2 3の他、適応判定部 2 7にも供給される。適応判定部 2 7は、上述したように、 M個の標準パラメータ記憶部 2 8 ,乃至 2 8 Mを有しており、この標準パラメータ記憶部 2 8 i乃至 2 8 Mそれぞれには、クラス分類部 5 2が出力する M個のクラスそれぞれに対応するパラメータ空間における標準パラメータが記憶されている。

さらに、標準パラメータ記憶部 2 8„ (但し、 m = 1， 2， · · ·， M) には、図 2の標準パラメータ記憶部 2 8における場合と同様に、クラス分類部 2 5が出力するクラスごとの標準パラメータテーブルが記憶されている。なお、標準パラメータ記憶部 2 8 !乃至 2 8 _Mが記憶している標準パラメータテーブルは、後述する学習装置（図 7 ) において学習により求められるようになつている。

適応判定部 2 7では、クラス分類部 5 2からクラスを受信すると、標準パラメータ記憶部 2 8 i乃至 2 8 _Mの中から、そのクラスに対応するものが選択される（標準パラメータ記憶部 2 8 乃至 2 8 Mの中から選択されたものを、以下、適宜、標準パラメータ記憶部 2 8 _msと記載する）。

一方、前処理部 2 0乃至 2 3が出力する特徴パラメータは、クラス分類用データ構成部 2 4を介してクラス分類部 2 5に供給されることでクラス分類され、そのクラス分類結果としてのクラスが、適応判定部 2 7に供給される。また、前処理部 2 0乃至 2 3が出力する特徴パラメータは、統合パラメータ構成部 2 6にも供給され、そこで、統合パラメータとされる。なお、統合パラメータ構成部 2 6 では、適応判定部 2 7で選択された標準パラメータ記憶部 2 8 _msが記憶している標準パラメータテーブルに登録されている標準パラメ一タと同一のパラメータ空間におけるパラメータが、統合パラメータとして構成される。

統合パラメータ構成部 2 6で得られた統合パラメータは、適応判定部 2 7に供給される。適応判定部 2 7では、標準パラメータ記憶部 2 8 _msが記憶している標準パラメータテーブルから、クラス分類部 2 5が出力したクラスに対応するものが選択され、マッチング部 2 9において、その標準パラメータテーブルに登録されている標準パラメータそれぞれと、統合パラメ一タ構成部 2 6からの統合パラメータとの距離が算出される。そして、その距離を最も小さくする標準パラメータに対応する音素が、音声認識結果として出力される。以上のように、クラス分類部 5 2が出力するクラスに対応した前処理を行い、各場合において最適な特徴パラメ一タを得るようにしたので、各場合に最適なパラメータ空間における距離に基づいて、より精度の高い音声認識結果を得ることが可能となる。

次に、図 7は、図 6の標準パラメータ記憶部 2 8 ,乃至 2 8 Mに記憶させる、クラスごとの標準パラメータテ一ブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。なお、図中、図 4における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この学習装置は、メモリ 4 7に代えて、メモリ 4 7 !乃至 4 7 _Mが設けられ、さらに、クラス分類用データ構成部 6 1、クラス分類部 6 2、およびセレクタ 6 3が新たに設けられている他は、図 4の学習装置と基本的に同様に構成されている。

クラス分類用データ構成部 6 1またはクラス分類部 6 2では、図 6のクラス分類用データ構成部 5 1またはクラス分類部 5 2における場合とそれぞれ同様の処理が行われ、その結果得られるクラスが、前処理部 4 0乃至 4 3およびセレクタ 6 3に供給される。前処理部 4 0乃至 4 3では、図 6の前処理部 2 0乃至 2 3における場合と同様に、クラス分類部 6 2が出力するクラスに対応した前処理が行われ、これにより、いまの場合に最適な特徴パラメータが出力される。以下、クラス分類用データ構成部 4 4、クラス分類部 4 5、または統合パラメータ構成部 4 6において、図 6のクラス分類用データ構成部 2 4、クラス分類部 2 5、または統合パラメータ構成部 2 6 における場合とそれぞれ同様の処理が行われ、その結果、クラス分類部 4 5からはクラスが、統合パラメータ構成部 4 6からは統合パラメータが、それぞれ出力される。

一方、セレクタ 6 3では、クラス分類部 6 2が出力するクラスにしたがって、メモリ 4 7 !乃至 4 7 Mのうちのいずれかのチップセレクト（C S ) 端子に選択信号が出力される。即ち、これにより、メモリ 4 7 至 4 7 _Mのうち、クラス分類部 6 2が出力するクラスに対応するものが選択される。

また、クラス分類部 4 5が出力するクラスは、メモリ 4 7 乃至 4 7 Mのアドレス（A D ) 端子に供給されており、これにより、統合パラメータ構成部 4 6が出力する統合パラメータは、メモリ 4 7 乃至 4 7 Mのうちの、クラス分類部 6 2が出力するクラスに対応するものの、クラス分類部 4 5が出力するクラスに対応するァドレスに記憶される。

図 6の標準パラメータ記憶部 2 8 乃至 2 8 Mそれぞれには、以上のようにしてメモリ 4 7 ,乃至 4 7 Mそれぞれの各ァドレスに記憶された統合パラメータ（の集合）力標準パラメータとして、各クラス

(クラス分類部 2 5が出力するクラス）に対応する標準パラメータテーブルに登録されたものが記憶されている。

なお、この場合においても、図 6の標準パラメ一タ記憶部 2 8 乃至 2 8„それぞれには、図 5で説明したように、ある範囲に散らばる統合パラメータの重心などを標準パラメータとして記憶させるようにすることが可能である。

次に、図 8は、図 1の入力装置 4が内蔵する音声認識装置の第 3 の実施の形態の構成例を示している。なお、図中、図 6における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この音声認識装置は、前処理部 7 1乃至 7 4が新たに設けられ、前処理部 2 0乃至 2 3に代えて、前処理部 7 1乃至 7 4の出力が統合パラメータ構成部 2 6に供給される他は、図 6の音声認識装置と同様に構成されている。

前処理部 7 1乃至 7 4には、前処理部 2 0乃至 2 3に対する入力と同一の入力が与えられるようになつている。さらに、前処理部 7 1乃至 7 4には、クラス分類部 5 2が出力するクラスも供給されるようになっている。

前処理部 7 1乃至 7 4では、クラス分類部 5 2が出力するクラスに対応した前処理が行われ、これにより、いまの場合に最適な特徴パラメータが、統合パラメータ構成部 2 6に出力される。但し、ここでは、前処理部 7 1乃至 7 4それぞれと、前処理部 2 0乃至 2 3 それぞれとでは、基本的に異なる前処理が行われるようになっている。即ち、ここでは、前処理部 2 0乃至 2 3の出力からは、クラス分類部 2 5が出力するクラスが、最終的に得られるのに対し、前処理部 7 1 の出力からは、統合パラメータ構成部 2 6が出力する統合パラメータが得られる。そこで、前処理部 2 0乃至 2 3では、クラス分類部 2 5においてクラス分類を行うのに最適な特徴パラメータ力クラス分類部 5 2が出力するクラスに対応して求められ、他方、前処理部 7 1乃至 7 4では、音声認識に用いるのに最適な統合パラメータを構成するのに最適な特徴パラメータが、クラス分類部 5 2 が出力するクラスに対応して求められる。

次に、図 9は、図 8の標準パラメータ記憶部 2 8！乃至 2 8 Mに記憶させる、クラスごとの標準パラメータテーブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。なお、図中、図 7における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この学習装置は、前処理部 8 1乃至 8 4が新たに設けられ、前処理部 4 0乃至 4 3に代えて、前処理部 8 1乃至 8 4の出力が統合パラメータ構成部 4 6に供給される他は、図 7の学習装置と基本的に同様に構成されている。

前処理部 4 0乃至 4 3では、図 8の前処理部 2 0乃至 2 3における場合と同様に、クラス分類部 4 5においてクラス分類を行うのに最適な特徴パラメータが、クラス分類部 6 2が出力するクラスに対応して求められ、また、前処理部 8 1乃至 8 4では、図 8の前処理部 7 1乃至 7 4における場合と同様に、音声認識に用いるのに最適な統合パラメータを構成するのに最適な特徴パラメータが、クラス分類部 6 2が出力するクラスに対応して求められる。

なお、図 9の学習装置による学習により得られる統合パラメータ力 S、図 8の標準パラメ一タ記憶部 2 8 ,乃至 2 8 «に記憶されるが、この場合も、学習により得られた統合パラメ一タをすべて記憶させるのではなく、図 5で説明したように、ある範囲に散らばる統合パラメータの重心などを標準パラメータとして記憶させるようにすることが可能である。

以上、本発明を適用した音声認識装置について説明したが、本発明は、音声以外の、例えば、画像や文字、人物その他を対象とした認識装置にも適用可能である。

なお、本実施の形態では、認識対象であるユーザの音声の他に、 C C Dカメラ 3 2、マイク 3 3、およびセンサ 3 4の出力を用いて認識を行うようにしたが、この認識に用いるデータは、これらに限定されるものではない。

また、図 2の実施の形態では、前処理部 2 0乃至 2 3の出力から、クラス分類用データを構成し、クラス分類部 2 5に、そのクラス分類用データをクラス分類させるようにしたが、クラス分類部 2 5には、その他、例えば、入力部 1 0の出力から直接クラス分類用データを構成し、これをクラス分類させるようにすることなども可能である。

さらに、図 6乃至図 9の実施の形態においては、前処理部 2 0乃至 2 3， 4 0乃至 4 3， 7 1乃至 7 3， 8 1乃至 8 3に、クラスを供給し、そのクラスに対応した前処理を行わせるようにしたが、前処理部 2 0乃至 2 3， 4 0乃至 4 3， 7 1乃至 7 3， 8 1乃至 8 3 には、クラスに対応した関数を供給するようにし、この関数にしたがった演算を行わせることで、そのクラスに対応した前処理を行わせるようにすることも可能である。

また、本実施の形態では、説明を簡単にするため、マッチング部 2 9において、あるパラメータ空間における、統合パラメータと標準パラメータとの距離に基づいて、音声認識結果を得るようにした力マッチング部 2 9には、その他、時系列に得られる統合パラメータと標準パラメータとの系列の間の距離や、そのような系列が観測される確率を算出させ、これに基づいて音声認識結果を求めさせるようにすることも可能である。さらに、マッチング部 2 9には、クラス分類部 2 5や 5 2が出力するクラスごとに、異なる音声認識アルゴリズムを用いて、音声認識を行わせるようにすることも可能である。

さらに、図 2、図 6、および図 8で説明した音声認識装置、並びに図 4、図 7、および図 9で説明した学習装置は、ハードウェアで実現することは勿論、 C P Uやメモリなどを有するマイクロプロセッサのアプリケーションとしてソフトウェアで実現することも可能である。産業上の利用可能性請求項 1に記載の認識装置および請求項 5に記載の認識方法によれば、複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類が行われるとともに、複数種類の入力データを統合した統合パラメータが構成され、クラス分類の結果得られるクラスに対応する標準のパラメータが登録されたテーブルと、統合パラメータとに基づいて、認識対象が認識される。従って、各場合ごとに適切なテーブルが用いられるので、認識性能を向上させることが可能となる。

請求項 6に記載の学習装置および請求項 9に記載の学習方法によれば、複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類が行されるとともに、複数種類の入力データを統合した統合パラメータが構成され、その統合パラメータが、クラス分類の結果得られるクラスごとに分類される。従って、各場合ごとに、認識に用いるのに最適なパラメータを得ることが可能となる。

Claims

請求の範囲

1 . 所定の認識対象を、複数種類の入力データから認識する認識装置であって、

前記複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行う第 1 のクラス分類手段と、

前記複数種類の入力データを統合した統合パラメータを構成する統合パラメータ構成手段と、

前記第 1 のクラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶している標準パラメータ記憶手段と、

前記第 1のクラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、前記統合パラメータとに基づいて、前記認識対象を認識する認識手段と

を備えることを特徴とする認識装置。

2 . 前記入力データを分析し、その特徴パラメータを求める分析手段をさらに備え、

前記第 1のクラス分類手段は、前記特徴パラメータに基づいて、前記クラス分類を行う

ことを特徴とする請求の範囲第 1項記載の認識装置。

3. 前記入力データを、前記第 1のクラス分類手段が出力するクラスに対応して分析し、その特徴パラメータを求める分析手段と、前記複数種類の入力データそれぞれの前記特徴パラメータを用いて前記クラス分類を行う第 2のクラス分類手段と

をさらに備え、前記統合パラメータ構成手段は、前記複数種類の入力データそれぞれの前記特徴パラメータを統合して、前記統合パラメータを構成し、

前記標準パラメータ記憶手段は、前記第 1のクラス分類手段が出力するクラスごとであって、前記第 2のクラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶しており、

前記認識手段は、前記第 1および第 2のクラス分類手段が出力する両方のクラスに対応するテーブルに登録された標準のパラメータと、前記統合パラメータとに基づいて、前記認識対象を認識することを特徴とする請求の範囲第 1項記載の認識装置。

4 . 前記認識対象は、所定の話者が発した音声であり、

前記複数種類の入力データは、少なくとも、その音声データと、話者の口を撮影して得られる画像データとを含む

ことを特徴とする請求の範囲第 1項記載の認識装置。

5 . 所定の認識対象を、複数種類の入力データから認識する認識方法であって、

前記複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行うとともに、前記複数種類の入力データを統合した統合パラメータを構成し、

前記クラス分類の結果得られるクラスに対応する標準のパラメ一タが登録されたテーブルと、前記統合パラメータとに基づいて、前

§匚^¾識対象を S^ B或 —る

ことを特徴とする認識方法。

6 . 所定の認識対象を、複数種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、

前記統合パラメータを、前記第 1のクラス分類手段が出力するクラスごとに分類する分類手段と

を備えることを特徴とする学習装置。

7 . 前記入力データを分析し、その特徴パラメータを求める分析手段をさらに備え、

ことを特徴とする請求の範囲第 6項記載の学習装置。

8 . 前記入力データを、前記第 1 のクラス分類手段が出力するクラスに対応して分析し、その特徴パラメ一タを求める分析手段と、前記複数種類の入力データそれぞれの前記特徴パラメ一タを用いて前記クラス分類を行う第 2のクラス分類手段と

をさらに備え、

前記統合パラメータ構成手段は、前記複数種類の入力データそれぞれの前記特徴パラメータを統合して、前記統合パラメータを構成し、

前記分類手段は、前記統合パラメ一タを、前記第 1 のクラス分類手段が出力するクラスごとであって、前記第 2のクラス分類手段が出力するクラスごとに分類する

ことを特徴とする請求の範囲第 6項記載の学習装置。

9 . 所定の認識対象を、複数種類の入力データから認識するのに用いる標準のパラメータを求める学習方法であって、

前記複数種類の入力データを、その性質に応じて、所定のクラスに分類するクラス分類を行うとともに、前記複数種類の入力データを統合した統合パラメ一タを構成し、

前記統合パラメータを、前記クラス分類の結果得られるクラスごとに分類する

ことを特徴とする学習方法。