WO2002080141A1

WO2002080141A1 - Appareil de traitement du son

Info

Publication number: WO2002080141A1
Application number: PCT/JP2002/003248
Authority: WO
Inventors: Masanori Omote; Helmut Lucke
Original assignee: Sony Corporation
Priority date: 2001-03-30
Filing date: 2002-04-01
Publication date: 2002-10-10
Also published as: EP1376536A1; US7228276B2; KR20030007793A; CN1462428A; JP2002358095A; US20040030552A1

Description

明細書

音声処理装置技術分野

本発明は、音声処理装置に関し、特に、例えば、音声認識の対象とする単語等の語句を登録する辞書を、容易に更新することができるようにする音声処理装置に関する。背景技術

従来の音声認識装置においては、音声認識の対象とする単語が登録された辞書を参照することにより、ユーザの発話が音声認識される。

従って、音声認識装置において、音声認識の対象となるのは、辞書に登録された単語（以下、適宜、登録語という）だけであり、辞書に登録されていない単語は認識することができない。いま、辞書に登録されていない語彙を未登録語というものとすると、従来の音声認識装置では、ユーザの発話に、未登録語が含まれる場合には、その未登録語が、辞書に登録されているいずれかの単語（登録語）に認識され、その結果、未登録語は誤認識される。さらに、未登録語が誤認識されると、その誤認識が、未登録語の前後の単語等の認識にも影響する場合がありこの場合、未登録語の前後の単語等も誤認識されることになる。

従って、未登録語については、何らかの対処を施す必要があり、従来より種々の方法が提案されている。

例えば、特開平 9一 8 1 1 8 1号公報には、未登録語を検出するためのガーべジモデルと、母音等の幾つかの音素ごとにクラスタリングされた HMM (Hidden Markov Model)とを同時に用い、未登録語に許可する音韻系列を制限することによって、未登録語の検出を、そのための計算量を低減して行う音声認識装置が開示されている。

また、例えば、特願平 1 1一 2 4 5 4 6 1号には、データベースにない未登録語について、単語の概念に基づき、データベースにある単語との間の類似度を計算し、未登録語を含む単語の集合について、適切な並びの単語列を構成して出力する情報処理装置が開示されている。

さらに、例ュ、 Dictionary Learning : Performance Through Consistency , Tilo Sloboda, Proceedings of ICASSP 95， vol. 1, pp. 453-456, 1995には、単語の音声区間に対応する音韻系列を検出し、コンフュージョンマトリクス（con fusion matrix)によって、音声的に近い音韻系列を削除することにより、効果的に、異音（variants)を含む辞書を構成する方法が開示されている。

また、例えば、「単語発声の複数サンプルを利用した未知語の音韻系列の推定」、伊藤克亘他、電子情報通信学会論文誌、 Vol. J83-D-II No. 11 pp. 215 2-2159, 2 0 0 0年 1 1月には、複数の音声サンプルから音韻系列を推定し、未知語（未登録語）を辞書に登録する際の音韻系列の推定精度を向上させる方法が開示されている。

ところで、未登録語に対する対処法のうちの代表的なものの 1つとしては、入力音声に未登録語が含まれる場合に、その未登録語を、辞書に登録し、以後は、登録語としてしまう方法がある。

未登録語を辞書に登録するには、まず、その未登録語の音声区間を検出し、その音声区間における音声の音韻系列を認識する必要がある。ある音声の音韻系列を認識する方法としては、例えば、音韻タイプライタと呼ばれる方法があり、音韻タイプライタでは、基本的に、すべての音韻に対する自由な遷移を許可するガ一ベジモデルを用いて、入力音声に対する音韻系列が出力される。

さらに、未登録語を辞書に登録するには、未登録語の音韻系列をクラスタリングする必要がある。即ち、辞書においては、各単語の音韻系列が、その単語のクラスタにクラスタリングされて登録されており、未登録語を辞書に登録するには、その未登録語の音韻系列をクラスタリングする必要がある。

未登録語の音韻系列をクラスタリングする方法としては、その未登録語を表す見出し（例えば、未登録語の読み）を、ユーザに入力してもらい、その見出しで表されるクラスタに、未登録語の音韻系列をクラスタリングする方法があるが、この方法では、ユーザが見出しの入力を必要とすることから面倒である。

また、未登録語が検出されるたびに、新たなクラスタを生成し、未登録語の音韻系列を、その新たなクラスタにクラスタリングする方法がある。しかしながら. この方法では、未登録語が検出されるたびに、辞書に、新たなクラスタに対応するエントリが登録されることとなるから、辞書が大規模になり、その後の音声認識に要する処理量や時間が増大することになる。発明の開示

本発明は、このような状況に鑑みてなされたものであり、辞書の大規模化を避けて、未登録語の辞書への登録等を、容易に行うことができるようにするものである。

本発明の音声処理装置は、既に求められている、音声をクラスタリングしたクラスタの中から、入力音声を新たなメンバとして加えるクラスタを検出するクラスタ検出手段と、入力音声を、クラスタ検出手段において検出されたクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割するクラスタ分割手段と、クラスタ分割手段によるクラスタの分割結果に基づいて、辞書を更新する更新手段とを備えることを特徴とする。

本発明の音声処理方法は、既に求められている、音声をクラスタリングしたクラスタの中から、入力音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、入力音声を、クラスタ検出ステップにおいて検出されたクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割するクラスタ分割ステツプと、クラスタ分割ステツプによるクラスタの分割結果に基づいて、辞書を更新する更新ステップとを備えることを特徴とする。

本発明のプログラムは、既に求められている、音声をクラスタリングしたクラスタの中から、入力音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、入力音声を、クラスタ検出ステップにおいて検出されたクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割するクラスタ分割ステップと、クラスタ分割ステップによるクラスタの分割結果に基づいて、辞書を更新する更新ステップとを備えることを特徴とする。

本発明の記録媒体は、既に求められている、音声をクラスタリングしたクラスタの中から、入力音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、入力音声を、クラスタ検出ステップにおいて検出されたクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割するクラスタ分割ステップと、クラスタ分割ステップによるクラスタの分割結果に基づいて、辞書を更新する更新ステップとを備えるプログラムが記録されていることを特徴とする。

本発明においては、既に求められている、音声をクラスタリングしたクラスタの中から、入力音声を新たなメンバとして加えるクラスタが検出される。さらに. 入力音声が、検出されたクラスタの新たなメンバとされ、そのクラスタが、そのクラスタのメンバに基づいて分割される。そして、その分割結果に基づいて、辞書が更新される。図面の簡単な説明

図 1は、本発明を適用したロポットの一実施の形態の外観構成例を示す斜視図である。

図 2は、口ポットの内部構成例を示すブロック図である。

図 3は、図 1のロボットのコントローラの機能的構成例を示すプロック図である。

図 4は、本発明の第 1実施形態が適用される音声認識装置としての、図 1の口ボットの音声認識部の構成例を示すプロック図である。

図 5は、単語辞書を示す図である。

図 6は、文法規則を示す図である。

図 7は、図 4の音声認識部の特徴べクトルバッファの記憶内容を示す図である, 図 8は、スコアシートを示す図である。

図 9は、図 4の音声認識部の音声認識処理を説明するフローチヤ一トである。図 1 0は、図 9の未登録語処理の詳細を説明するフローチャートである。

図 1 1は、図 9のクラスタ分割処理の詳細を説明するフローチャートである。図 1 2は、シミュレーション結果を示す図である。

図 1 3は、本発明の第 2実施形態が適用された音声認識装置のハードウェアの構成例を示す図である。

図 1 4は、図 1 3の音声認識装置のソフトウェアの構成例を示すプロック図である。

図 1 5は、図 1 4の音声認識装置の特徴べクトルバッファの記憶内容を示す図である。

図 1 6は、図 1 4の音声認識装置の音声認識処理を説明するフローチャートである。

図 1 7は、図 1 6の未登録語消去処理の詳細を説明するフローチャートである: 発明を実施するための最良の形態

図 1は、本発明を適用したロボットの一実施の形態の外観構成例を示しており . 図 2は、その電気的構成例を示している。

本実施の形態では、ロボットは、例えば、犬等の四つ足の動物の形状のものとなっており、胴体部ユエット 2の前後左右に、それぞれ脚部ユエット 3 A, 3 B : 3 C , 3 Dが連結されるとともに、胴体部ユニット 2の前端部と後端部に、それぞれ頭部ュ-ット 4と尻尾部ュニット 5が連結されることにより構成されている _t 尻尾部ュ-ット 5は、胴体部ュニット 2の上面に設けられたベース部 5 Bから. 2自由度をもって湾曲または摇動自在に引き出されている。

胴体部ユエット 2には、口ポット全体の制御を行うコントローラ 1 0、ロボットの動力源となるバッテリ 1 1、並びにバッテリセンサ 1 2および熱センサ 1 3 からなる内部センサ部 1 4などが収納されている。頭部ユニット 4には、「耳」に相当するマイク（マイクロホン） 1 5、「目」に相当する C CD (Charge Coupled Device)カメラ 1 6、触覚に相当するタツチセンサ 1 7、「口」に相当するスピーカ 1 8などが、それぞれ所定位置に配設されている。また、頭部ユエット 4には、口の下顎に相当する下顎部 4 Aが 1自由度をもって可動に取り付けられており、この下顎部 4Aが動くことにより、ロボットの口の開閉動作が実現されるようになっている。

脚部ュ-ット 3 A乃至 3Dそれぞれの関節部分や、脚部ュニット 3 A乃至 3 D それぞれと胴体部ュニット 2の連結部分、頭部ュニット 4と胴体部ュニット 2の連結部分、頭部ュニット 4と下顎部 4 Aの連結部分、並びに尻尾部ュ-ット 5と胴体部ユニット 2の連結部分などには、図 2に示すように、それぞれァクチユエータ 3 AAi乃至 3 AA_K、 3 BAL乃至 3 BA_K、 3 CAL乃至 3 CA_K、 3 DA₁乃至 3 DA_K、乃至 4A_L、 5 および 5 A₂が配設されている。

頭部ユニット 4におけるマイク 1 5は、ユーザからの発話を含む周囲の音声 (音）を集音し、得られた音声信号を、コントローラ 1 0に送出する。 CCD力メラ 1 6は、周囲の状況を撮像し、得られた画像信号を、コントローラ 1 0に送出する。

タツチセンサ 1 7は、例えば、頭部ユニット 4の上部に設けられており、ユーザからの「なでる」や「たたく」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ 1 0に送出する。

胴体部ュ-ット 2におけるバッテリセンサ 1 2は、バッテリ 1 1の残量を検出し、その検出結果を、バッテリ残量検出信号としてコントローラ 1 0に送出する, 熱センサ 1 3は、ロボット内部の熱を検出し、その検出結果を、熱検出信号としてコントローラ 1 0に送出する。

コントローラ 1 0は、 C PU (Central Processing Unit) 1 OAやメモリ 1 0 B等を内蔵しており、 C PU 1 0Aにおいて、メモリ 1 0 Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。

即ち、コントローラ 1 0は、マイク 1 5や、 CCDカメラ 1 6、タツチセンサ 1 7、バッテリセンサ 1 2、熱センサ 1 3から与えられる音声信号、画像信号、圧力検出信号、バッテリ残量検出信号、熱検出信号に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断する。

さらに、コントローラ 10は、この判断結果等に基づいて、続く行動を決定し- その決定結果に基づいて、ァクチユエータ 3 乃至 3 AA_K、 3 BAL乃至 3 BA_K、 3 CA_t乃至 3 CA_K、 3 DAL乃至 3DA_K、 4A_L乃至 4A_L、 5 Α_1Λ 5 A ₂のうちの必要なものを駆動させる。これにより、頭部ユニット 4を上下左右に振らせたり、下顎部 4 Αを開閉させる。さらには、尻尾部ユニット 5を動かせたり、各脚部ユニット 3 A乃至 3Dを駆動して、ロボットを歩行させるなどの行動を行わせる。

また、コントローラ 10は、必要に応じて、合成音を生成し、スピーカ 1 8に供給して出力させたり、ロボットの「目」の位置に設けられた図示しない LED (Light Emitting Diode) を点灯、消灯または点滅させる。

以上のようにして、ロボットは、周囲の状況等に基づいて自律的に行動をとるようになつている。

次に、図 3は、図 2のコントローラ 10の機能的構成例を示している。なお、図 3に示す機能的構成は、 CPU10Aが、メモリ 10 Bに記憶された制御プログラムを実行することで実現されるようになっている。

コントローラ 10は、特定の外部状態を認識するセンサ入力処理部 50、センサ入力処理部 50の認識結果を累積して、感情や、本能、成長の状態を表現するモデル記憶部 5 1、センサ入力処理部 50の認識結果等に基づいて、続く行動を決定する行動決定機構部 52、行動決定機構部 52の決定結果に基づいて、実際にロボットに行動を起こさせる姿勢遷移機構部 53、各ァクチユエータ 3 A 丄乃至 5 および 5 A₂を駆動制御する制御機構部 54、並びに合成音を生成する音声合成部 5 5から構成されている。

センサ入力処理部 50は、マイク 1 5や、 CCDカメラ 16、タツチセンサ 1 7等から与えられる音声信号、画像信号、圧力検出信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示等を認識し、その認識結果を表す状態認識情報を、モデル記憶部 5 1および行動決定機構部 5 2に通知する。

即ち、センサ入力処理部 5 0は、音声認識部 5 O Aを有しており、音声認識部 5 O Aは、マイク 1 5から与えられる音声信号について音声認識を行う。そして、音声認識部 5 O Aは、その音声認識結果としての、例えば、「歩け」、「伏せ」、「ボールを追いかけろ」等の指令その他を、状態認識情報として、モデル記憶部 5 1および行動決定機構部 5 2に通知する。

また、センサ入力処理部 5 0は、画像認識部 5 0 Bを有しており、画像認識部 5 0 Bは、 C C Dカメラ 1 6から与えられる画像信号を用いて、画像認識処理を行う。そして、画像認識部 5 0 Bは、その処理の結果、例えば、「赤い丸いもの」や、「地面に対して垂直なかつ所定高さ以上の平面」等を検出したときには、

「ポールがある」や、「壁がある」等の画像認識結果を、状態認識情報として、モデル記憶部 5 1および行動決定機構部 5 2に通知する。

さらに、センサ入力処理部 5 0は、圧力処理部 5 0 Cを有しており、圧力処理部 5 0 Cは、タツチセンサ 1 7から与えられる圧力検出信号を処理する。そして、圧力処理部 5 0。は、その処理の結果、所定の閾値以上で、かつ短時間の圧力を検出したときには、「たたかれた（しかられた）」と認識し、所定の閾値未満で、かつ長時間の圧力を検出したときには、「なでられた（ほめられた）」と認識して、その認識結果を、状態認識情報として、モデル記憶部 5 1および行動決定機構部 5 2に通知する。

モデル記憶部 5 1は、ロボットの感情、本能、成長の状態を表現する感情モデル、本能モデル、成長モデルをそれぞれ記憶、管理している。

ここで、感情モデルは、例えば、「うれしさ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状態（度合い）を、所定の範囲（例えば、一 1 . 0乃至 1 . 0 等）の値によってそれぞれ表し、センサ入力処理部 5 0からの状態認識情報や時間経過等に基づいて、その値を変化させる。本能モデルは、例えば、「食欲」、「睡眠欲」、「運動欲」等の本能による欲求の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部 5 0からの状態認識情報や時間経過等に基づいて、その値を変化させる。成長モデルは、例えば、「幼年期」、「青年期」、「熟年期」、「老年期」等の成長の状態（度合い）を、所定の範囲の値によつてそれぞれ表し、センサ入力処理部 5 0からの状態認識情報や時間経過等に基づいて、その値を変化させる。

モデル記憶部 5 1は、上述のようにして感情モデル、本能モデル、成長モデルの値で表される感情、本能、成長の状態を、状態情報として、行動決定機構部 5 2に送出する。

なお、モデル記憶部 5 1には、センサ入力処理部 5 0から状態認識情報が供給される他、行動決定機構部 5 2から、口ポットの現在または過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになつており、モデル記憶部 5 1は、同一の状態認識情報が与えられても、行動情報が示すロポットの行動に応じて、異なる状態情報を生成するようになつている。

即ち、例えば、ロボットが、ユーザに挨拶をし、ユーザに頭を撫でられた場合には、ユーザに挨拶をしたという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部 5 1に与えられ、この場合、モデル記憶部 5 1では、 Γうれしさ」を表す感情モデルの値が増加される。

一方、ロボットが、何らかの仕事を実行中に頭を撫でられた場合には、仕事を実行中であるという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部 5 1に与えられ、この場合、モデル記憶部 5 1では、「うれしさ」を表す感情モデルの値は変化されない。

このように、モデル記憶部 5 1は、状態認識情報だけでなく、現在または過去の口ポトの行動を示す行動情報も参照しながら、感情モデルの値を設定する。これにより、例えば、何らかのタスクを実行中に、ユーザが、いたずらするつもりで頭を撫でたときに、「うれしさ」を表す感情モデルの値を増加させるような、不自然な感情の変化が生じることを回避することができる。

なお、モデル記憶部 5 1は、本能モデルおよび成長モデルについても、感情モデルにおける場合と同様に、状態認識情報おょぴ行動情報の両方に基づいて、その値を増減させるようになつている。また、モデル記憶部 5 1は、感情モデル、本能モデル、成長モデルそれぞれの値を、他のモデルの値にも基づいて増減させるようになっている。

行動決定機構部 5 2は、センサ入力処理部 5 0からの状態認識情報や、モデル記憶部 5 1からの状態情報、時間経過等に基づいて、次の行動を決定し、決定された行動の内容を、行動指令情報として、姿勢遷移機構部 5 3に送出する。

即ち、行動決定機構部 5 2は、ロボットがとり得る行動をステート（状態）（s tate)に対応させた有限オートマトンを、ロポットの行動を規定する行動モデルとして管理しており、この行動モデルとしての有限ォートマトンにおけるステートを、センサ入力処理部 5 0からの状態認識情報や、モデル記憶部 5 1における感情モデル、本能モデル、または成長モデルの値、時間経過等に基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。

ここで、行動決定機構部 5 2は、所定のトリガ（trigger)があったことを検出すると、ステートを遷移させる。即ち、行動決定機構部 5 2は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、モデル記憶部 5 1から供給される状態情報が示す感情や、本能、成長の状態の値が所定の閾値以下または以上になったとき等に、ステートを遷移させる。

なお、行動決定機構部 5 2は、上述したように、センサ入力処理部 5 0からの状態認識情報だけでなく、モデル記憶部 5 1における感情モデルや、本能モデル、成長モデルの値等にも基づいて、行動モデルにおけるステートを遷移させることから、同一の状態認識情報が入力されても、感情モデルや、本能モデル、成長モデルの値（状態情報）によっては、ステートの遷移先は異なるものとなる。

その結果、行動決定機構部 5 2は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいていない」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「お手」という行動をとらせる行動指令情報を生成し、これを、姿勢遷移機構部 5 3に送出する。

また、行動決定機構部 5 2は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいている」ことを表している場合において、状態認識情報が、

「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「手のひらをぺろぺろなめる」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部 5 3に送出する。また、行動決定機構部 5 2は、例えば、状態情報が、「怒っている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、状態情報が、「お腹がすいている」ことを表していても、また、「お腹がすいていない」ことを表していても、「ぶいと横を向く」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部 5 3に送出する。

なお、行動決定機構部 5 2では、上述したように、ロボットの頭部や手足等を動作させる行動指令情報の他、ロボットに発話を行わせる行動指令情報も生成される。口ポットに発話を行わせる行動指令情報は、音声合成部 5 5に供給されるようになつており、音声合成部 5 5に供給される行動指令情報には、音声合成部 5 5に生成させる合成音に対応するテキスト等が含まれる。そして、音声合成部 5 5は、行動決定部 5 2から行動指令情報を受信すると、その行動指令情報に含まれるテキストに基づき、合成音を生成し、スピーカ 1 8に供給して出力させる _c これにより、スピーカ 1 8からは、例えば、口ポットの鳴き声、さらには、「お腹がすいた」等のユーザへの各種の要求、「何？」等のユーザの呼びかけに対する応答その他の音声出力が行われる。また、行動決定機構部 5 2は、合成音を出力する場合には、下顎部 4 Aを開閉させる行動指令情報を、必要に応じて生成し, 姿勢遷移機構部 5 3に出力する。この場合、合成音の出力に同期して、下顎部 4 Aが開閉し、ユーザに、口ポットがしゃべっているかのような印象を与えることができる。

姿勢遷移機構部 5 3は、行動決定機構部 5 2から供給される行動指令情報に基づいて、ロボットの姿勢を、現在の姿勢から次の姿勢に遷移させるための姿勢遷移情報を生成し、これを制御機構部 5 4に送出する。

制御機構部 5 4は、姿勢遷移機構部 5 3からの姿勢遷移情報にしたがって、了クチユエータ 3 乃至 5 および 5 A₂を駆動するための制御信号を生成し- これを、ァクチユエータ 3 乃至 5 および 5 A₂に送出する。これにより、ァクチユエータ 3 A Ai乃至 5 および 5 A₂は、制御信号にしたがって駆動し, ロボットは、自律的に行動を起こす。

次に、図 4は、図 3の音声認識部 5 O Aの構成例を示している。

マイク 1 5からの音声信号は、 A D (Analog Digital)変換部 2 1に供給される _c A D変換部 2 1は、マイク 1 5からのアナログ信号である音声信号をサンプリング、量子化し、ディジタル信号である音声データに AZD変換する。この音声データは、特徴抽出部 2 2に供給される。

特徴抽出部 2 2は、そこに入力される音声データについて、適当なフレームごとに、例えば、 M F C C (Mel Frequency Cepstrum Coefficient)分析を行い、その分析の結果得られる M F C Cを、特徴ベクトル（特徴パラメータ）として、マツチング部 2 3と未登録語区間処理部 2 7に出力する。なお、特徴抽出部 2 2では、その他、例えば、線形予測係数、ケプストラム係数、線スぺクトル対、所定の周波数帯域ごとのパワー (フィルタバンクの出力) 等を、特徴べクトゾレとして抽出することが可能である。

マッチング部 2 3は、特徴抽出部 2 2からの特徴べクトルを用いて、音響モデル記憶部 2 4、辞書記憶部 2 5、および文法記憶部 2 6を必要に応じて参照しながら、マイク 1 5に入力された音声（入力音声）を、例えば、連続分布 HMM (H idden Markov Model)法に基づいて音声認識する。

即ち、音響モデル記憶部 2 4は、音声認識する音声の言語における個々の音素や、音節、音韻などのサブワードについて音響的な特徴を表す音響モデル（例えば、 HMMの他、 D P (Dynamic Programing)マッチングに用いられる標準パターン等を含む）を記憶している。なお、ここでは、連続分布 HMM法に基づいて音声認識を行うこととしているので、音響モデルとしては、 HMM (Hidden Markov Model)が用いられる。

辞書記憶部 2 5は、認識対象の各単語ごとにクラスタリングされた、その単語の発音に関する情報（音韻情報）と、その単語の見出しとが対応付けられた単語辞書を記憶している。

ここで、図 5は、辞書記憶部 2 5に記憶された単語辞書を示している。

図 5に示すように、単語辞書においては、単語の見出しと、その音韻系列とが対応付けられており、音韻系列は、対応する単語ごとにクラスタリングされている。図 5の単語辞書では、 1つのエントリ（図 3の 1行） 1 1つのクラスタに相当する。

なお、図 5においては、見出しは、ローマ字と日本語（仮名漢字）で表してあり、音韻系列は、ローマ字で表してある。但し、音韻系列における「N」は、撥音「ん」を表す。また、図 5では、 1つのエントリに、 1つの音韻系列を記述してあるが、 1つのエントリには、複数の音韻系列を記述することも可能である。図 4に戻り、文法記憶部 2 6は、辞書記憶部 2 5の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則を記憶している。

ここで、図 6は、文法記憶部 2 6に記憶された文法規則を示している。なお、図 6の文法規則は、 E B N F (Extended Backus Naur Form)で記述されている。図 6においては、行頭から、最初に現れる「；」までが、 1つの文法規則を表している。また、先頭に「$」が付されたアルファベット（列）は、変数を表し、「$」が付されていないアルファベット（列）は、単語の見出し（図 5に示したローマ字による見出し）を表す。さらに、 []で囲まれた部分は、省略可能であることを表し、「|」は、その前後に配置された見出しの単語（あるいは変数）のうちのいずれか一方を選択することを表す。

従って、図 6において、例えば、第 1行（上から 1行目）の文法規則「$ co l = [kono I sono] iro wa j は、変数 $col力「このいろ（色）は」または「そのいろ（色）は」という単語列であることを表す。

なお、図 6に示した文法規則においては、変数 $ s i lと $ garbageが定義されていないが、変数 $ s i lは、無音の音響モデル（無音モデル）を表し、変数 $garbag eは、基本的には、音韻どうしの間での自由な遷移を許可したガーベジモデルを表す。

再び図 4に戻り、マツチング部 2 3は、辞書記憶部 2 5の単語辞書を参照することにより、音響モデル記憶部 2 4に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部 2 3は、幾つかの単語モデルを、文法記憶部 2 6に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴ベクトルに基づき、連続分布 HMM法によって、マイク 1 5に入力された音声を認識する。

即ち、マッチング部 2 3は、特徴抽出部 2 2が出力する時系列の特徴べクトルが観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列の見出しを、音声の認識結果として出力する。

より具体的には、マッチング部 2 3は、接続された単語モデルに対応する単語列について、各特徴べクトルの出現確率（出力確率）を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列の見出しを、音声認識結果として出力する。

以上のようにして出力される、マイク 1 5に入力された音声の認識結果は、状態認識情報として、モデル記憶部 5 1および行動決定機構部 5 2に出力される。ここで、図 6の実施の形態では、第 9行（上から 9行目）に、ガーベジモデルを表す変数 $garbageを用いた文法規則（以下、適宜、未登録語用規則という） r$pat l = $colorl $garbage $ color2 ;」がある力マツチング部 2 3は、この未登録語用規則が適用された場合には、変数 $garbag_eに対応する音声区間を、未登録語の音声区間として検出する。さらに、マッチング部 2 3は、未登録語用規則が適用された場合における変数 $garbageが表すガーベジモデルにおける音韻の遷移としての音韻系列を、未登録語の音韻系列として検出する。そして、マツチング部 2 3は、未登録語用規則が適用された音声認識結果が得られた場合に検出される未登録語の音声区間と音韻系列を、未登録語区間処理部 2 7に供給する。

なお、上述の未登録語用規則 $patl = $colorl $garbage $color2 ;」によれば、変数 $colorlで表される、単語辞書に登録されている単語 (列) の音韻系列と、変数 $color2で表される、単語辞書に登録されている単語（列）の音韻系列との間にある 1つの未登録語が検出されるが、本発明は、発話に、複数の未登録語が含まれている場合や、未登録語が、単語辞書に登録されている単語 (列) の間に挟まれていない場合であっても、適用可能である。

未登録語区間処理部 2 7は、特徴抽出部 2 2から供給される特徴べクトルの系列（特徴ベクトル系列）を一時記憶する。さらに、未登録語区間処理部 2 7は、マッチング部 2 3から未登録語の音声区間と音韻系列を受信すると、その音声区間における音声の特徴べクトル系列を、一時記憶している特徴べクトル系列から検出する。そして、未登録語区間処理部 2 7は、マッチング部 2 3からの音韻系列（未登録語）に、ユニークな ID ddentification)を付し、未登録語の音韻系列と、その音声区間における特徴ベクトル系列とともに、特徴ベクトルバッファ 2 8に供給する。

特徴べクトルバッファ 2 8は、例えば、図 7に示すように、未登録語区間処理部 2 7から供給される未登録語の ID、音韻系列、および特徴べクトル系列を対応付けて一時記憶する。

ここで、図 7においては、未登録語に対して、 1からのシーケンシャルな数字が、 IDとして付されている。従って、例えば、いま、特徴べクトルバッファ 2 8において、 N個の未登録語の ID、音韻系列、および特徴ベクトル系列が記憶されている場合において、マッチング部 2 3が未登録語の音声区間と音韻系列を検出すると、未登録語区間処理部 2 7では、その未登録語に対して、 N + 1が、 IDとして付され、特徴べクトルバッファ 2 8では、図 7に点線で示すように、その未登録語の ID、音韻系列、および特徴ベクトル系列が記憶される。

再び図 4に戻り、クラスタリング部 2 9は、特徴べクトルバッファ 2 8に新たに記憶された未登録語（以下、適宜、新未登録語という）について、特徴べクトルバッファ 2 8に既に記憶されている他の未登録語（以下、適宜、既記憶未登録語という）それぞれに対するスコアを計算する。 '

即ち、クラスタリング部 2 9は、新未登録語を入力音声とし、かつ、既記憶未登録語を、単語辞書に登録されている単語とみなして、マッチング部 2 3における場合と同様にして、新未登録語について、各既記憶未登録語に対するスコアを計算する。具体的には、クラスタリング部 2 9は、特徴ベクトルバッファ 2 8を参照することで、新未登録語の特徴べクトル系列を認識するとともに、既記憶未登録語の音韻系列にしたがって音響モデを接続し、その接続された音響モデルから、新未登録語の特徴べクトル系列が観測される尤度としてのスコアを計算する。

なお、音響モデルは、音響モデル記憶部 2 4に記憶されているものが用いられる。

クラスタリング部 2 9は、同様にして、各既記憶未登録語について、新未登録語に対するスコアも計算し、そのスコアによって、スコアシート記憶部 3 0に記憶されたスコアシートを更新する。

さらに、クラスタリング部 2 9は、更新したスコアシートを参照することにより、既に求められている、未登録語（既記憶未登録語）をクラスタリングしたクラスタの中から、新未登録語を新たなメンバとして加えるクラスタを検出する。さらに、クラスタリング部 2 9は、新未登録語を、検出したクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割し、その分割結果に基づいて、スコアシート記憶部 3 0に記憶されているスコアシートを更新する。スコアシート記憶部 3 0は、新未登録語についての、既記憶未登録語に対するスコアや、既記憶未登録語についての、新未登録語に対するスコア等が登録されたスコアシートを記憶する。

ここで、図 8は、スコアシートを示している。

スコアシートは、未登録語の「ID」、「音韻系列」、「クラスタナンパ」、「代表メンバ ID」、および「スコア」が記述されたエントリで構成される。

未登録語の「ID」と「音韻系列」としては、特徴ベクトルバッファ 2 8に記憶されたものと同一のものが、クラスタリング部 2 9によって登録される。「クラスタナンパ」は、そのエントリの未登録語がメンバとなっているクラスタを特定するための数字で、クラスタリング部 2 9によって付され、スコアシートに登録される。「代表メンバ ID」は、そのエントリの未登録語がメンバとなっているクラスタを代表する代表メンバとしての未登録語の IDであり、この代表メンバ IDによって、未登録語がメンバとなっているクラスタの代表メンバを認識することができる。なお、クラスタの代表メンバは、クラスタリング部 2 9によって求められ、その代表メンバの IDが、スコアシートの代表メンバ IDに登録される ₍ 「スコア」は、そのエントリの未登録語についての、他の未登録語それぞれに対するスコアであり、上述したように、クラスタリング部 2 9によって計算される, 例えば、いま、特徴ベクトルバッファ 2 8において、 N個の未登録語の ID、音韻系列、および特徴ベクトル系列が記憶されているとすると、スコアシートには、その N個の未登録語の ID、音韻系列、クラスタナンパ、代表メンバ Π)、おょぴスコアが登録されている。

そして、特徴べクトルバッファ 2 8に、新未登録語の ID、音韻系列、および特徴べクトル系列が新たに記憶されると、クラスタリング部 2 9では、スコアシートが、図 8において点線で示すように更新される。

即ち、スコアシートには、新未登録語の ID、音韻系列、クラスタナンパ、代表メンバ ID、新未登録語についての、既記憶未登録語それぞれに対するスコア (図 8におけるスコア s (N+l, l)，s (N+l, 2) , · · - , s (N+l, N) ) が追加される。さらに、スコアシートには、既記憶未登録語それぞれについての、新未登録語に対するスコア（図 8における s (l，N+l) , s (2，N+l) , · · ■， s (N, N+l) ) が追加される。さらに、後述するように、スコアシートにおける未登録語のクラスタナンパと代表メンバ ID力必要に応じて変更される。

なお、図 8の実施の形態においては、 IDが iの未登録語（の発話）についての、 IDが jの未登録語（の音韻系列）に対するスコアを、 s (i，j)として表してある。

また、スコアシート（図 8 ) には、 ID が i の未登録語（の発話）についての、 IDが iの未登録語（の音韻系列）に対するスコア s (i，i)も登録される。但し、このスコア s (i，i)は、マッチング部 2 3において、未登録語の音韻系列が検出されるときに計算されるため、クラスタリング部 2 9で計算する必要はない。

再び図 4に戻り、メンテナンス部 3 1は、スコアシート記憶部 3 0における、更新後のスコアシートに基づいて、辞書記憶部 2 5に記憶された単語辞書を更新する。

ここで、クラスタの代表メンバは、次のように決定される。即ち、例えば、クラスタのメンバとなっている未登録語のうち、他の未登録語それぞれについてのスコアの総和（その他、例えば、総和を、他の未登録語の数で除算した平均値でも良い）を最大にするものが、そのクラスタの代表メンバとされる。従って、この場合、クラスタに属するメンバのメンバ IDを kで表すこととすると、次式で示される値 K ( ek) を IDとするメンバが、代表メンバとされることになる。

K=max,, {∑ s (k , k) }

• · ■ ( 1 ) 但し、式（1 ) において、 max_k {}は、 {}内の値を最大にする kを意味する。また、 k'は、 kと同様に、クラスタに属するメンバの IDを意味する。さらに、 ∑ は、 k，を、クラスタに属するメンバすベての IDに亘つて変化させての総和を意味する。

なお、上述のように代表メンバを決定する場合、クラスタのメンバが、 1または 2つの未登録語であるときには、代表メンバを決めるにあたって、スコアを計算する必要はない。即ち、クラスタのメンバが、 1つの未登録語である場合には、その 1つの未登録語が代表メンバとなり、クラスタのメンバが、 2つの未登録語である場合には、その 2つの未登録語のうちのいずれを、代表メンバとしても良い。

また、代表メンバの決定方法は、上述したものに限定されるものではなく、その他、例えば、クラスタのメンバとなっている未登録語のうち、他の未登録語それぞれとの特徴べクトル空間における距離の総和を最小にするもの等を、そのクラスタの代表メンバとすることも可能である。

以上のように構成される音声認識部 5 O Aでは、マイク 1 5に入力された音声を認識する音声認識処理と、未登録語に関する未登録語処理が行われるようになつている。

そこで、まず最初に、図 9のフローチャートを参照して、音声認識処理について説明する。

ユーザが発話を行うと、その発話された音声は、マイク 1 5および A D変換部 2 1を介することにより、ディジタレの音声データとされ、特徴抽出部 2 2に供給される。特徴抽出部 2 2は、ステップ S 1において、音声データを、所定のフレーム単位で音響分析することにより、特徴べクトルを抽出し、その特徴べクトルの系列を、マツチング部 2 3および未登録語区間処理部 2 7に供給する。

マッチング部 2 3は、ステップ S 2において、特徴抽出部 2 3からの特徴べクトル系列について、上述したようにスコア計算を行い、ステップ S 3に進む。ステツプ S 3では、マッチング部 2 3は、スコア計算の結果得られるスコアに基づいて、音声認識結果となる単語列の見出しを求めて出力する。

さらに、マッチング部 2 3は、ステップ S 4に進み、ユーザの音声に、未登録語が含まれていたかどうかを判定する。

ステップ S 4において、ユーザの音声に、未登録語が含まれていないと判定された場合、即ち、上述の未登録語用規則「$patl = $colorl $garbage $color2 ；」が適用されずに、音声認識結果が得られた場合、ステップ S 5をスキップして、処理を終了する。

また、ステップ S 4において、ユーザの音声に、未登録語が含まれていると判定された場合、即ち、未登録語用規則「$patl = $colorl $garbage $color2 ;」が適用されて、音声認識結果が得られた場合、ステップ S 5に進み、マッチング部 2 3は、未登録語用規則の変数 $garbag_eに対応する音声区間を、未登録語の音声区間として検出するとともに、その変数 $garbageが表すガーベジモデルにおける音韻の遷移としての音韻系列を、未登録語の音韻系列として検出し、その未登録語の音声区間と音韻系列を、未登録語区間処理部 2 7に供給して、処理を終了する。

一方、未登録語区間処理部 2 7は、特徴抽出部 2 2から供給される特徴べクトル系列を一時記憶しており、マッチング部 2 3から未登録語の音声区間と音韻系列が供給されると、その音声区間における音声の特徴べクトル系列を検出する。さらに、未登録語区間処理部 2 7は、マッチング部 2 3からの未登録語（の音韻系列）に IDを付し、未登録語の音韻系列と、その音声区間における特徴べクトル系列とともに、特徴べクトルバッファ 2 8に供給する。

以上のようにして、特徴ベクトルバッファ 2 8に、新たな未登録語（新未登録語）の ID、音韻系列、および特徴べクトル系列が記憶されると、未登録語処理が行われる。

即ち、図 1 0は、未登録語処理を説明するフローチャートを示している。未登録語処理では、まず最初に、ステップ S 1 1において、クラスタリング部 2 9が、特徴ベクトルバッファ 2 8から、新未登録語の IDと音韻系列を読み出し、ステップ S 1 2に進む。

ステップ S 1 2では、クラスタリング部 2 9が、スコアシート記憶部 3 0のスコアシートを参照することにより、既に求められている（生成されている）クラスタが存在するかどうかを判定する。

ステップ S 1 2において、既に求められているクラスタが存在しないと判定された場合、即ち、新未登録語が、初めての未登録語であり、スコアシートに、既記憶未登録語のエントリが存在しない場合、ステップ S 1 3に進み、クラスタリング部 2 9は、その新未登録語を代表メンバとするクラスタを新たに生成し、その新たなクラスタに関する情報と、新未登録語に関する情報とを、スコアシート記憶部 3 0のスコアシートに登録することにより、スコアシートを更新する。

即ち、クラスタリング部 2 9は、特徴ベクトルバッファ 2 8から読み出した新未登録語の IDおよび音韻系列を、スコアシート（図 8 ) に登録する。さらに、クラスタリング部 2 9は、ユニークなクラスタナンパを生成し、新未登録語のクラスタナンパとして、スコアシートに登録する。また、クラスタリング部 2 9は、新未登録語の IDを、その新未登録語の代表メンバ IDとして、スコアシートに登録する。従って、この場合は、新未登録語は、新たなクラスタの代表メンバとなる。

なお、いまの場合、新未登録語とのスコアを計算する既記憶未登録語が存在しないため、スコアの計算は行われない。

ステップ S 1 3の処理後は、ステップ S 2 2に進み、メンテナンス部 3 1は、ステップ S 1 3で更新されたスコアシートに基づいて、辞書記憶部 2 5の単語辞書を更新し、処理を終了する。

即ち、いまの場合、新たなクラスタが生成されているので、メンテナンス部 3

1は、スコアシートにおけるクラスタナンバを参照し、その新たに生成されたクラスタを認識する。そして、メンテナンス部 3 1は、そのクラスタに対応するェントリを、辞書記憶部 2 5の単語辞書に追加し、そのエントリの音韻系列として、新たなクラスタの代表メンバの音韻系列、つまり、いまの場合は、新未登録語の音韻系列を登録する。

一方、ステップ S 1 2において、既に求められているクラスタが存在すると判定された場合、即ち、新未登録語が、初めての未登録語ではなく、従って、スコァシート（図 8 ) に、既記憶未登録語のエントリ（行）が存在する場合、ステツプ S 1 4に進み、クラスタリング部 2 9は、新未登録語について、各既記憶未登録語それぞれに対するスコアを計算するとともに、各既記憶未登録語それぞれについて、新未登録語に対するスコアを計算する。

即ち、例えば、いま、 IDが 1乃至 Nの N個の既記憶未登録語が存在し、新未登録語の IDを N+1 とすると、クラスタリング部 2 9では、図 8において点線で示した部分の新未登録語についての N個の既記憶未登録語それぞれに対するスコァ s (N+l, l)，s (N+l，2) , · . .，s (N+l，N)と、 N個の既記憶未登録語それぞれについての新未登録語に対するスコア s (l，N+l)，s (2, N+l)， · ■ .， s (N, N+l)が計算される。なお、クラスタリング部 2 9において、これらのスコアを計算するにあたっては、新未登録語と N個の既記憶未登録語それぞれの特徴べクトル系列が必要となるが、これらの特徴べクトル系列は、特徴べクトルバッファ 2 8を参照することで認、識される。

そして、クラスタリング部 2 9は、計算したスコアを、新未登録語の IDおよぴ音韻系列とともに、スコアシート（図 8 ) に追加し、ステップ S 1 5に進む。ステップ S 1 5では、クラスタリング部 2 9は、スコアシート（図 8 ) を参照することにより、新未登録語についてのスコア s (N+l, i) (i=l, 2, - ■ ·，Ν)を最も高く（大きく）する代表メンバを有するクラスタを検出する。即ち、クラスタリング部 2 9は、スコアシートの代表メンバ IDを参照することにより、代表メンバとなっている既記憶未登録語を認識し、さらに、スコアシートのスコアを参照することで、新未登録語についてのスコアを最も高くする代表メンバとしての既記憶未登録語を検出する。そして、クラスタリング部 2 9は、その検出した代表メンバとしての既記憶未登録語のクラスタナンパのクラスタを検出する。

その後、ステップ S 1 6に進み、クラスタリング部 2 9は、新未登録語を、ステツプ S 1 5で検出したクラスタ（以下、適宜、検出クラスタという）のメンバに加える。即ち、クラスタリング部 2 9は、スコアシートにおける新未登録語のクラスタナンパとして、検出クラスタの代表メンバのクラスタナンバを書き込む _c そして、クラスタリング部 2 9は、ステップ S 1 7において、検出クラスタを, 例えば、 2つのクラスタに分割するクラスタ分割処理を行い、ステップ S 1 8に進む。ステップ S 1 8では、クラスタリング部 2 9は、ステップ S 1 7のクラスタ分割処理によって、検出クラスタを 2つのクラスタに分割することができたかどうかを判定し、分割することができたと判定した場合、ステップ S 1 9に進む。ステップ S 1 9では、クラスタリング部 2 9は、検出クラスタの分割により得られる 2つのクラスタ（この 2つのクラスタを、以下、適宜、第 1の子クラスタと第 2の子クラスタという）どうしの間のクラスタ間距離を求める。

ここで、第 1と第 2の子クラスタどうしの間のクラスタ間距離とは、例えば、次のように定義される。

即ち、第 1の子クラスタと第 2の子クラスタの両方の任意のメンバ（未登録語）の IDを、 kで表すとともに、第 1と第 2の子クラスタの代表メンバ（未登録語）の IDを、それぞれ klまたは k2で表すこととすると、次式で表される値 D (kl，k2)を、第 1と第 2の子クラスタどうしの間のクラスタ間距離とする。

D (kl, k2) =maxval_k {abs (log (s (k， kl) )一 log (s (k， k2) ) ) }

• · · ( 2 ) 伹し、式（2 ) において、 abs ()は、 0内の値の絶対値を表す。また、 maxvalk {}は、 kを変えて求められる {}内の値の最大値を表す。また、 logは、自然対数または常用対数を表す。

いま、 IDが iのメンバを、メンバ tti と表すこととすると、式 ( 2 ) におけるスコアの逆数 l/s (k, kl)は、メンバ #kと代表メンバ kl との距離に相当し、スコァの逆数 l/s (k，k2)は、メンバ #k と代表メンバ k2 との距離に相当する。従って- 式 ( 2 ) によれば、第 1と第 2の子クラスタのメンバのうち、第 1の子クラスタの代表メンバ #kl との距離と、第 2の子クラスタの代表メンバ #k2との距離との差の最大値が、第 1と第 2の子クラスタどうしの間の子クラスタ間距離とされることになる。

なお、クラスタ間距離は、上述したものに限定されるものではなく、その他、例えば、第 1の子クラスタの代表メンバと、第 2の子クラスタの代表メンバとの D Pマッチングを行うことにより、特徴べクトル空間における距離の積算値を求め、その距離の積算値を、クラスタ間距離とすることも可能である。

ステップ S 1 9の処理後は、ステップ S 2 0に進み、クラスタリング部 2 9は、第 1と第 2の子クラスタどうしのクラスタ間距離が、所定の閾値 ε より大である (あるいは、閾値 ε以上である）かどうかを判定する。

ステップ S 2 0において、クラスタ間距離が、所定の閾値 _Ε より大であると判定された場合、即ち、検出クラスタのメンバとしての複数の未登録語が、その音響的特徴からいって、 2つのクラスタにクラスタリングすべきものであると考えられる場合、ステップ S 2 1に進み、クラスタリング部 2 9は、第 1と第 2の子クラスタを、スコアシート記憶部 3 0のスコアシートに登録する。

即ち、クラスタリング部 2 9は、第 1と第 2の子クラスタに、ユニークなクラスタナンバを割り当て、検出クラスタのメンバのうち、第 1の子クラスタにクラスタリングされたもののクラスタナンバを、第 1の子クラスタのクラスタナンパにするとともに、第 2の子クラスタにクラスタリングされたもののクラスタナンバを、第 2の子クラスタのクラスタナンパにするように、スコアシートを更新する。

さらに、クラスタリング部 2 9は、第 1の子クラスタにクラスタリングされたメンバの代表メンバ IDを、第 1の子クラスタの代表メンバの IDにするとともに. 第 2の子クラスタにクラスタリングされたメンバの代表メンバ IDを、第 2の子クラスタの代表メンバの IDにするように、スコアシートを更新する。

なお、第 1と第 2の子クラスタのうちのいずれか一方には、検出クラスタのクラスタナンパを割り当てるようにすることが可能である。

クラスタリング部 2 9が、以上のようにして、第 1と第 2の子クラスタを、スコアシートに登録すると、ステップ S 2 1から S 2 2に進み、メンテナンス部 3 丄力 S、スコアシートに基づいて、辞書記憶部 2 5の単語辞書を更新し、処理を終了する。

即ち、いまの場合、検出クラスタが、第 1と第 2の子クラスタに分割されたため、メンテナンス部 3 1は、まず、単語辞書における、検出クラスタに対応するエントリを削除する。さらに、メンテナンス部 3 1は、第 1と第 2の子クラスタそれぞれに対応する 2つのエントリを、単語辞書に追加し、第 1の子クラスタに対応するェントリの音韻系列として、その第 1の子クラスタの代表メンバの音韻系列を登録するとともに、第 2の子クラスタに対応するェントリの音韻系列として、その第 2の子クラスタの代表メンバの音韻系列を登録する。

一方、ステップ S 1 8において、ステップ S 1 7のタラスタ分割処理によって、検出クラスタを 2つのクラスタに分割することができなかったと判定された場合、あるいは、ステップ S 2 0において、第 1と第 2の子クラスタのクラスタ間距離 1 所定の閾値 ε より大でないと判定された場合（従って、検出クラスタのメンバとしての複数の未登録語の音響的特徴が、第 1と第 2の 2つの子クラスタにクラスタリングするほど似ていないものではない場合）、ステップ S 2 3に進み、クラスタリング部 2 9は、検出クラスタの新たな代表メンバを求め、スコアシートを更新する。

即ち、クラスタリング部 2 9は、新未登録語をメンバとして加えた検出クラスタの各メンバについて、スコアシート記憶部 3 0のスコアシートを参照することにより、式（1 ) の計算に必要なスコア s (k，，k)を認識する。さらに、クラスタリング部 2 9は、その認識したスコア s (k'，k)を用い、式（1 ) に基づき、検出クラスタの新たな代表メンバとなるメンバの IDを求める。そして、クラスタリング部 2 9は、スコアシート（図 8 ) における、検出クラスタの各メンバの代表メンバ IDを、検出クラスタの新たな代表メンバの IDに書き換える。

その後、ステップ S 2 2に進み、メンテナンス部 3 1が、スコアシートに基づいて、辞書記憶部 2 5の単語辞書を更新し、処理を終了する。

即ち、いまの場合、メンテナンス部 3 1は、スコアシートを参照することにより、検出クラスタの新たな代表メンバを認識し、さらに、その代表メンバの音韻系列を認識する。そして、メンテナンス部 3 1は、単語辞書における、検出クラスタに対応するエントリの音韻系列を、検出クラスタの新たな代表メンバの音韻系列に変更する。次に、図 1 1のフローチャートを参照して、図 1 0のステップ S 1 7のクラスタ分割処理の詳細について説明する。

クラスタ分割処理では、まず最初に、ステップ S 3 1において、クラスタリング部 2 9力新未登録語がメンバとして加えられた検出クラスタから、まだ選択していない任意の 2つのメンバの組み合わせを選択し、それぞれを、仮の代表メンバとする。ここで、この 2つの仮の代表メンバを、以下、適宜、第 1の仮代表メンバと第 2の仮代表メンノという。

そして、ステップ S 3 2に進み、クラスタリング部 2 9は、第 1の仮代表メンバと、第 2の仮代表メンバを、それぞれ代表メンバとすることができるように、検出クラスタのメンバを、 2つのクラスタに分割することができるかどうかを判定する。

ここで、第 1または第 2の仮代表メンバを代表メンバとすることができるかどうかは、式（1 ) の計算を行う必要があるが、この計算に用いられるスコア s (k ' , k)は、スコアシートを参照することで認識される。

ステップ S 3 2において、第 1の仮代表メンバと、第 2の仮代表メンバを、それぞれ代表メンバとすることができるように、検出クラスタのメンバを、 2つのクラスタに分割することができないと判定された場合、ステップ S 3 3をスキップして、ステップ S 3 4に進む。

また、ステップ S 3 2において、第 1の仮代表メンバと、第 2の仮代表メンバを、それぞれ代表メンパとすることができるように、検出クラスタのメンバを、 2つのクラスタに分割することができると判定された場合、ステップ S 3 3に進み、クラスタリング部 2 9は、第 1の仮代表メンバと、第 2の仮代表メンバが、それぞれ代表メンパとなるように、検出クラスタのメンバを、 2つのクラスタに分割し、その分割後の 2つのクラスタの組を、検出クラスタの分割結果となる第 1および第 2の子クラスタの候補（以下、適宜、侯補クラスタの組という）として、ステップ S 3 4に進む。

ステップ S 3 4では、クラスタリング部 2 9は、検出クラスタのメンバの中で- まだ、第 1と第 2の仮代表メンバの組として選択していない 2つのメンバの組

(組み合わせ）があるかどうかを判定し、あると判定した場合、ステップ S 3 1 に戻り、まだ、第 1と第 2の仮代表メンバの組として選択していない、検出クラスタの 2つのメンバの組が選択され、以下、同様の処理が繰り返される。

また、ステップ S 3 4において、第 1と第 2の仮代表メンバの組として選択していない、検出クラスタの 2つのメンバの組がないと判定された場合、ステップ S 3 5に進み、クラスタリング部 2 9は、候補クラスタの組が存在するかどうかを判定する。

ステップ S 3 5において、候捕クラスタの組が存在しないと判定された場合、ステップ S 3 6をスキップして、リターンする。この場合は、図 1 0のステップ S 1 8において、検出クラスタを分割することができなかったと判定される。一方、ステップ S 3 5において、候補クラスタの組が存在すると判定された場合、ステップ S 3 6に進み、クラスタリング部 2 9は、候補クラスタの組が複数存在するときには、各候補クラスタの組の 2つのクラスタどうしの間のクラスタ間距離を求める。そして、クラスタリング部 2 9は、クラスタ間距離が最小の候補クラスタの組を求め、その候補クラスタの組を、検出クラスタの分割結果として、即ち、第 1と第 2の子クラスタとして、リターンする。なお、候補クラスタの組が 1つだけの場合は、その候捕クラスタの組が、そのまま、第 1と第 2の子クラスタとされる。

この場合は、図 1 0のステップ S 1 8において、検出クラスタを分割することができたと判定される。

以上のように、クラスタリング部 2 9において、既に求められている、未登録語をクラスタリングしたクラスタの中から、新未登録語を新たなメンパとして加えるクラスタ（検出クラスタ）を検出し、新未登録語を、その検出クラスタの新たなメンバとして、検出クラスタを、その検出クラスタのメンバに基づいて分割するようにしたので、未登録語を、その音響的特徴が近似しているものどうしに容易にクラスタリングすることができる。さらに、メンテナンス部 3 1において、そのようなクラスタリング結果に基づいて、単語辞書を更新するようにしたので、単語辞書の大規模化を避けながら、未登録語の単語辞書への登録を、容易に行うことができる。

また、例えば、仮に、マッチング部 2 3において、未登録語の音声区間の検出を誤ったとしても、そのような未登録語は、検出クラスタの分割によって、音声区間が正しく検出された未登録語とは別のクラスタにクラスタリングされる。そして、このようなクラスタに対応するエントリ力単語辞書に登録されることになるが、このエントリの音韻系列は、正しく検出されなかった音声区間に対応するものとなるから、その後の音声認識において、大きなスコアを与えることはない。従って、仮に、未登録語の音声区間の検出を誤ったとしても、その誤りは、その後の音声認識には、ほとんど影響しない。

ここで、図 1 2は、未登録語の発話を行って得られたクラスタリングのシミュレーシヨン結果を示している。なお、図 1 2においては、各エントリ（各行）が、 1つのクラスタを表している。また、図 1 2の左欄は、各クラスタの代表メンバ (未登録語）の音韻系列を表しており、図 1 2の右欄は、各クラスタのメンバとなっている未登録語の発話内容と数を表している。

即ち、図 1 2において、例えば、第 1行のエントリは、未登録語「風呂」の 1 つの発話だけがメンバとなっているクラスタを表しており、その代表メンバの音韻系列は、「doroa：」（ドロア一）になっている。また、例えば、第 2行のェントリは、未登録語「風呂」の 3つの発話がメンバとなっているクラスタを表しており、その代表メンバの音韻系列は、「kuroJ (クロ）になっている。

さらに、例えば、第 7行のエントリは、未登録語「本」の 4つの発話がメンバとなっているクラスタを表しており、その代表メンバの音韻系列は、「NhoNde : s uj (ンホンデース）になっている。また、例えば、第 8行のエントリは、未登録語「オレンジ」の 1つの発話と、未登録語「本」の 1 9の発話がメンバとなつているクラスタを表しており、その代表メンバの音韻系列は、「ohoN」（ォホン）になっている。他のエントリも、同様のことを表している。図 1 2によれば、同一の未登録語の発話について、良好にクラスタリングされていることが分かる。

なお、図 1 2の第 8行のエントリにおいては、未登録語「オレンジ」の 1つの発話と、未登録語「本」の 1 9の発話が、同一のクラスタにクラスタリングされている。このクラスタは、そのメンバとなっている発話から、未登録語「本」のクラスタとなるべきであると考えられるが、未登録語「オレンジ」の発話も、そのクラスタのメンバとなっている。しかしながら、このクラスタも、その後に、未登録語「本」の宪話がさらに入力されていくと、クラスタ分割され、未登録語「本」の発話だけをメンバとするクラスタと、未登録語「オレンジ」の発話だけをメンバとするクラスタにクラスタリングされると考えられる。

以上、本発明を、エンターテイメント用のロボット（疑似ペットとしてのロボット）に適用した場合について説明したが、本発明は、これに限らず、例えば、音声認識装置を搭載した音声対話システムその他に広く適用することが可能である。また、本発明は、現実世界のロボットだけでなく、例えば、液晶ディスプレィ等の表示装置に表示される仮想的なロボットにも適用可能である。

なお、第 1実施の形態においては、上述した一連の処理を、 C P U 1 0 Aにプログラムを実行させることにより行うようにしたが、一連の処理は、それ専用のハードウエアによって行うことも可能である。

ここで、プログラムは、あらかじめメモリ 1 0 B (図 2 ) に記憶させておく他、フレキシブルディスク、 CD-ROM (Compact Disc Read Only Memory) , M0 (Magneto optical)ディスク， DVD (Digital Versatile Disc) , 磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。そして、このようなリムーバブル記録媒体を、いわゆるパッケ一ジソフトウェアとして提供し、ロボット (メモリ 1 0 B ) にインストールするようにすることができる。

また、プログラムは、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、無線で転送したり、 LAN (Local Area Network) , インターネットといったネットワークを介して、有線で転送し、メモリ 1 0 Bにインストールすることができる。

この場合、プログラムがバージョンアップされたとき等に、そのバージョンァップされたプログラムを、メモリ 1 0 Bに、容易にインストールすることができる。

なお、上述した例において、 C P U 1 O Aに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチヤ一トとして記載された順序に沿つて時系列に処理する必要はなく、並列的あるいは個別に実行される処理 (例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、 1の C P Uにより処理されるものであっても良いし、複数の C P Uによって分散処理されるものであっても良い。

また、図 4の音声認識部 5 O Aも、専用のハードウェアにより実現することもできるし、ソフトウェアにより実現することもできる。音声認識部 5 O Aをソフトウエアによって実現する場合には、そのソフトウェアを構成するプログラムが. 汎用のコンピュータ等にインストールされる。

そこで、図 1 3は、音声認識部 5 O Aを実現するためのプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

即ち、図 1 3には、本発明が適用される他の例の音声認識装置 9 1が示されている。

図 1 3に示されるように、プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク 1 0 5や R OM 1 0 3に予め記録しておくことがでさる。 ' あるいはまた、プログラムは、フレキシブルディスク、 CD- ROM, M0 ディスク: DVD、磁気ディスク、半導体メモリなどのリムーパプル記録媒体 1 1 1に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体 1 1 1は、いわゆるパッケージソフトウェアとして提供することがでさる。なお、プログラムは、上述したようなリムーバブル記録媒体 1 1 1からコンビユータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、 LAN、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部 1 0 8で受信し、内蔵するハ一ドディスク 1 0 5にインストールすることができる。

音声認識装置 9 1は、 CPU (Central Processing Unit) 1 0 2を内蔵している。 CPU 1 0 2には、バス 1 0 1を介して、入出力ィンタフェース 1 1 0が接続されており、 CPU 1 0 2は、入出力ィンタフェース 1 1 0を介して、ユーザによって, キーボードや、マウス、マイク、 A D変換器等で構成される入力部 1 0 7が操作等されることにより指令が入力されると、それにしたがって、 R0M (Read Only Me mory) 1 0 3に格納されているプログラムを実行する。あるいは、また、 CPU 1 0 2は、ハードディスク 1 0 5に格納されているプログラム、衛星若しくはネットワークから転送され、通信部 1 0 8で受信されてハードディスク 1 0 5にインストールされたプログラム、またはドライブ 1 0 9に装着されたリムーバブル記録媒体 1 1 1から読み出されてハードディスク 1 0 5にインストールされたプログラムを、 RAM (Random Access Memory) 1 0 4にロードして実行する。これにより. CPU 1 0 2は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、 CPU 1 0 2は、その処理結果を、必要に応じて、例えば、入出力インタフェース 1 1 0を介して、 LCD (Liqu id Crystal Display)等のディスプレイや、スピーカ、 D A (Digital Analog)変換器等で構成される出力部 1 0 6から出力、あるいは、通信部 1 0 8から送信、さらには、ハードディスク 1 0 5に記録等させる。

図 1 4は、音声認識装置 9 1のソフトウェアプログラムの構成例を表している, このソフトウェアプログラムは、複数のモジュールにより構成される。各モジュールは、 1つの独立したアルゴリズムを持ち、かつ、そのアルゴリズムに従って固有の動作を実行する。即ち、各モジュールは、 RAM I 3に記憶され、 CPU 1 1により適宜読み出され、実行される。

図 1 4に示される各モジュールは、図 4に示される各ブロックに対応する。即ち、音響モデルバッファ 1 3 3は音響モデル記憶部 2 4に、辞書バッファ 1 3 4 は辞書記憶部 2 5に、文法バッファ 1 3 5は文法記憶部 2 6に、特徴抽出モジュール 1 3 1は特徴抽出部 2 2に、マツチングモジュール 1 3 2はマツチング部 2 3に、未登録語区間処理モジュール 1 3 6は未登録区間処理部 2 7に、特徴べクトノレバッファ 1 3 7は特徴べクトルバッファ 2 8に、クラスタリングモジュール 1 3 8はクラスタリング部 2 9に、スコアシートバッファ 1 3 9にはスコアシート記憶部 3 0に、メンテナンスモジュール 1 4 0はメンテナンス部 3 1に、それぞれ対応する。

ただし、この例においては、図 1 3の入力部 1 0 7において、マイクロホンにより入力されるアナログの音声信号が、 AD変換部により、サンプリングされ、量子化されて、デジタルの音声データに A/D変換（Analog / Digital変換）され、特徴抽出モジュール 1 3 1に供給されるものとする。

また、この例においては、特徴べクトルバッファ 1 3 7には、例えば、図 1 5 に示されるように、未登録語区間処理モジュール 1 3 6より供給される未登録語の ID、音韻系列、特徴ベクトル系列、および記録時刻が対応付けられて記憶される。換言すると、特徴べクトルバッファ 1 3 7には、複数の未登録語のェントリ（行）により構成されるデータ群が記憶されている。

図 1 5の例では、未登録語に対して、 1からのシーケンシャルな数字が、 ID として付されている。従って、例えば、いま、特徴べクトルバッファ 1 3 7において、 N個の未登録語の ID、音韻系列、特徴べクトル系列、および記録時刻が記憶されているものとすると、マッチングモジュール 1 3 2が未登録語の音声区間と音韻系列を新たに検出すると、未登録語区間処理モジュール 1 3 6では、その未登録語に対して、 N+1 力 S ID として付され、特徴べクトルバッファ 1 3 7では. 図 1 5に点線で示されるように、その未登録語の ID (N+1) 、音韻系列、特徴べクトル系列、および、記録時刻が記憶される。ここで、図 1 5の各エントリは、図 7に示したエントリに、記録時刻を追加したものとなっている。この記録時刻は、エントリが特徴ベクトルバッファ 1 3 7 に記憶（記録）された時刻を表すが、その使用方法については、後述する。

なお、後述するように、クラスタリングモジュール 1 3 8は、新たな未登録語をクラスタリングする場合、特徴ベクトルバッファ 1 3 7に記憶されている「特徴ベクトル」を参照するが、未登録語がクラスタリングされる場合に参照されるこのような「音声情報」を、以下、「発話情報」と称する。

即ち、「発話情報」は、「特徴ベクトル」のみに限定されるものではなく、例えば、特徴抽出モジュール 1 3 1に供給される音声データ等の「PCM (Pulse Cod e Modulation) 信号」でもよい。この場合、特徴べクトルバッファ 1 3 7には、「特徴ベクトル系列」の代わりに、この「PCM信号」が記憶される。

このように、音声認識装置 9 1には、上述した各モジュールが設けられているので、音声認識装置 9 1は、図 4の音声認識部 5 0 Aと同様の動作を実行することができる。なお、これらの各モジュールの説明、および、音声認識部 5 O Aに対応する動作の説明は省略する。

ところで、音声認識部 5 O Aは、いまクラスタリングした未登録語の音声波形 (例えば、デジタルの音声データ等) または特徴べクトル (例えば、デジタルの音声デユタに対して MFCC (Mel Frequency Cepstrura Coefficient) 分析が施された場合に得られる MFCC等）を、今後、新たに入力される未登録語をクラスタリングするための発話情報として、所定の記憶領域またはメモリとしての特徴べクトルバッファ 2 8に記憶する必要がある。

即ち、音声認識部 5 O Aは、上述した処理のうち、既に求められている、音声をクラスタリングしたクラスタの中から、未登録語を新たなメンバとして加えるクラスタを検出する処理を実行する場合、特徴べクトルバッファ 2 8として機能する記憶領域またはメモリに記憶されている過去の発話情報を参照する。

このように、音声認識部 5 O Aは、未登録語に対応する発話情報を全て記憶していくために、未登録語の入力量または入力回数が増加すると（多くの未登録語を獲得すると）、記憶領域またはメモリを大きく消費することとなる。

そこで、図 1 4の実施の形態においては、所定の条件が満たされる場合、特徴ベタトノレバッファ 1 3 7に記憶されている発話情報のうちの所定のものと、それに関連する各種のデータを消去する特徴べクトル消去モジュール 1 4 1が、さらに設けられている。

具体的には、例えば、特徴ベクトル消去モジュール 1 4 1は、スコアシートバッファ 1 3 9に図 8と同様のスコアシートが記憶されている場合、そのスコアシートを参照して、所定のクラスタに属するメンバの数が、所定の第 1の数を超えたと判定した場合、特徴べクトルバッファ 1 3 7に記憶されているデータの中で- その所定のクラスタに属するメンバのうちの第 2の数のメンバの発話情報と、それに関連する各種のデータを消去する。ここで、メンバに関連する各種のデータには、そのメンバの IDや音韻系列等の他、そのメンバに関するスコアシート上のデータ等も含まれる。

これにより、特徴べクトル消去モジュール 1 4 1は、クラスタの大きさがある一定以上の大きさになることを防止することができるので、メモリ (RA 1 0 3 等）の消費を抑制させることができるだけでなく、音声認識装置 9 1の動作速度の遅れを防止すること、即ち、そのパフォーマンスが悪くなることを防止することができる。

なお、上述の第 1と第 2の数については、例えば、第 1の数が第 2の数以上である関係があるものとする。また、消去する第 2の数のメンバは、例えば、図 1 5に示した記録時刻の古い順に選択することが可能である。

さらに、特徴べクトル消去モジュール 1 4 1は、例えば、未参照時間演算モジユール 1 4 2より供給されてくる所定のクラスタの未参照時間が、所定の時間を超えたと判定した場合、特徴べクトルバッファ 1 3 7に記憶されているデータの中で、その所定のクラスタに属 ^ "るメンバの発話情報と、それに関連する各種のデータを消去する。

即ち、未参照時間演算モジュール 1 4 2は、例えば、所定のクラスタに属する各メンパの発話情報が特徴べクトルバッファ 1 3 7に記憶された各時刻（図 1 5 における記録時刻）のうちの最新の時刻（所定のクラスタに最後にクラスタリングされた未登録語についてのエントリが特徴べクトルバッファ 1 3 7に記憶された時刻）を、その所定のクラスタの最終参照時刻として、特徴ベクトルバッファ 1 3 7より取得する。

さらに、未参照時間演算モジュール 1 4 2は、現在の時刻から、取得した最終参照時刻を減算して、所定のクラスタが参照されていない未参照時間を演算し、特徴べクトル消去モジュール 1 4 1に供給する。

なお、ここでは、未参照時間演算モジュール 1 4 2は、全てのクラスタに対して、所定の時間間隔で、それらのクラスタの未参照時間を演算するものとするが. 未参照時間を演算するクラスタの数は特に限定されない。即ち、未参照時間演算モジュール 1 4 2は、ユーザ等により指定されたクラスタの未参照時間のみを演また、未参照時間演算モジュール 1 4 2の演算方法も限定されない。例えば、この例においては、特徴べクトルバッファ 1 3 7に記憶された各記録時刻に基づいて、未参照時間が演算されたが、これらの記録時刻は、特徴ベクトルバッファ

1 3 7に記憶されることは必須とされず、この場合、未参照時間演算モジュール

1 4 2は、所定のクラスタの最終参照時刻を、直接監視し、かつ記憶することで、未参照時間を演算するようにしてもよい。

ここで、上述の場合には、特徴べクトル消去モジュール 1 4 1において、未参照時間演算モジュール 1 4 2より供給される未参照時間を参照して、特徴べクトルバッファ 1 3 7に記憶されているデータの中で、メンバの新規登録が長い時間行われていないクラスタに属するメンバすベての発話情報と、それに関連する各種のデータを消去するようにしたが、クラスタのメンバすべてではなく、その一部のメンバのみの発話情報と、それに関連するデータを消去するようにしても良レ、。

さらに、上述の場合には、クラスタに最後に登録されたメンバ（未登録語）の記録時刻を、そのクラスタの最終参照時刻とするようにしたが、クラスタの最終参照時刻としては、その他、例えば、図 1 0のステップ S 1 5において検出クラスタとして検出された時刻や、ステップ S 2 1において子クラスタとして登録された時刻などの、何らかの処理でクラスタが参照された時刻を採用することが可能である。

また、特徴べクトル消去モジュール 1 4 1には、例えば、所定のクラスタに対する消去指示（トリガ信号）が入力部 1 0 7 (例えば、キーボード等）より供給された場合に、特徴べクトルバッファ 1 3 7に記憶されている、その所定のクラスタに属するメンバの全部または一部の発話情報と、それに関連する各種のデータを消去させることができる。

このように、特徴べクトル消去モジュール 1 4 1に、音声認識装置 9 1の内部状態によらず、その外部からの刺激によって、所定の特徴べクトル系列を消去させる場合には、例えば、音声認識装置 9 1を上述した図 1のペットロボット等に搭載することにより、強い刺激によっておこる記憶喪失をそのロボットに実現することができる。

さらに、特徴べクトル消去モジュール 1 4 1には、例えば、情動制御モジユール 1 4 3より供給された情動のパラメータの値（情動量）力所定の値（量）を超えた場合、特徴べクトルバッファ 1 3 7に記憶されているデータの中で、所定のクラスタに属するメンバの全部または一部の発話情報と、それに関連する各種のデータを消去させることができる。

なお、例えば、いま、音声認識装置 9 1が、図 1の口ポットに実装されているものとすると、情報制御モジュール 1 4 3は、図 3のモデル記憶部 5 1により実現することができる。即ち、この場合、モデル記憶部 5 1は、上述したように、感情モデル、本能モデル、および成長モデルの値で表される感情、本能、および成長の状態である状態情報を、情動量として、特徴べクトル消去モジュール 1 4 1に供給することになる。

このように、特徴べクトル消去モジュール 1 4 1は、情動制御モジュール 1 4 3より供給される情動量（情動のパラメータの値（モデルの値））を参照して、特徴べクトルバッファ 1 3 7に記憶されている所定の発話情報を消去すること力 S できるので、例えば、図 1の口ポットに強い怒りなどが起こった場合（「怒り」のパラメータの値が所定の値を超えた場合）、いわゆる「ど忘れ」をそのロポットに実現することができる。

また、特徴べクトル消去モジュール 1 4 1には、例えば、メモリ使用量演算モジュール 1 4 4により供給されたメモリ (例えば、特徴ベクトルバッファ 1 3 7 およびスコアシートバッファ 1 3 9等を含む図 1の RAM I 0 3等）の総使用量が、所定の量を超えた場合に、特徴べクトルバッファ 1 3 7に記憶されている、所定のクラスタに属するメンバの全部または一部の発話情報と、それに関連する各種のデータを消去させることができる。

即ち、メモリ使用量演算モジュール 1 4 4は、メモリの総使用量（消費量）を常時演算し、特徴べクトル消去モジュール 1 4 1に所定の間隔で供給する。

このように、特徴ベクトル消去モジュール 1 4 1は、メモリ（RAM I 0 3等）の消費量を常時監視し、その消費量がある一定以上の量になると、その消費量を減らすべく、特徴べクトルバッファ 1 3 7に記憶されているクラスタのメンバ

(未登録語）の発話情報と、それに関連する各種のデータを消去するので、メモリ（RAM 1 0 3等）の消費を抑制させることができるだけでなく、音声認識装置 9 1の動作速度の遅れを防止すること、即ち、そのパフォーマンスが悪くなることを防止することができる。

なお、この例においては、特徴ベクトル消去モジュール 1 4 1は、上述したように、クラスタのメンバの数 (特徴べクトルバッファ 1 3 7に記憶されている同一クラスタのメンバについてのエントリの数）、未参照時間演算モジュール 1 4 2より供給される未参照時間、情動制御モジュール 1 4 3から供給される情動量、または、メモリ使用量演算モジュール 1 4 4より供給されるメモリの消費量といつたパラメータの値が、予め設定されている所定の閾値を超えるか否かを判定し、所定の閾値を超えると判定した場合、所定の条件を満たすと判定し、クラスタのメンバの全部または一部を消去するように構成されているが、メンバ（の発話情報等）の消去方法はこれに限定されない。

例えば、特徴べクトル消去モジュール 1 4 1は、このような判定処理を特に行わずに、単にトリガ信号（上述した入力部 1 0 7より供給されてくる消去指示等）が入力された場合に、所定の条件を満たすと判定し、所定の発話情報を消去するように構成してもよい。

この場合、情動制御モジュール 1 4 3、未参照時間演算モジュール 1 4 2、およびメモリ使用量演算モジュール 1 4 4において、例えば、それぞれ上述した判定処理を行うようにし、これらの判定処理において、これらのモジュールに対応するパラメータ（情動量、未参照時間、または、メモリ総使用量等）の値が、所定の閾値を超えると判定した場合、所定のトリガ信号を特徴べクトル消去モジュール 1 4 1に供給するようにすることができる。

なお、特徴べクトル消去モジュール 1 4 1に供給されるトリガ信号は、上述したものに限定されることなく、上述した以外の条件、例えば、ユーザ等により後から設定される任意の条件により発生されるトリガ信号等でもよい。

また、特徴べクトル消去モジュール 1 4 1は、上述したように、所定の条件が満たされると判定すると、特徴べクトノレバッファ 1 3 7に記憶されているメンバの発話情報等のうちの所定のものを消去するが、この消去される発話情報等は任意に選択（設定）することが可能であり、また、消去される発話情報等の個数も任意に選択（設定）することが可能である。例えば、ユーザまたは製造者等は、上述したそれぞれの条件によって、消去する発話情報を個別に設定することも可能である。

なお、音声認識装置 9 1の音声認識精度を維持しながら、そのパフォーマンスの低下を防止する観点からは、例えば、次のようなメンバを優先的に消去するようにするのが望ましい。

即ち、クラスタのメンバの一部を消去する場合においては、クラスタの代表メンバ、および、その代表メンバとの距離があまり大きくないメンバ（代表メンバに対するスコアが大きいメンバ）等が消去されると、クラスタの構成そのものが大きく変化する恐れがあるため、このようなメンバ以外のメンバを優先的に消去するのが望ましい。

また、メンバの数が少ないクラスタのメンバ、代表メンバとの距離が大きく離れているメンバ、および、メンバの新規登録が長い時間行われていないクラスタのメンバ等は、音声認識精度に大きく影響するものではないと考えられるので、優先的に消去するのが望ましい。

また、特徴べクトル消去モジュール 1 4 1は、特徴べクトルバッファ 1 3 7に記憶されているメンバの発話情報と、それに関連する各種のデータを消去するが. この各種のデータには、上述したように、スコアシートバッファ 1 3 9に記憶されているスコアシートも含まれる。

即ち、特徴べクトル消去モジュール 1 4 1は、特徴べクトルバッファ 1 3 7に記憶されているメンバの発話情報等を消去した場合、あわせて、スコアシートのうちのその消去されたメンバに関する各種のデータも消去する。

例えば、いま、図 1 5の IDが 3であるエントリ（行）のデータ（ID、音韻系列、特徴べクトル系列（発話情報）、および記録時刻）が特徴べクトル消去モジユール 1 4 1によって消去されたものとすると、特徴べクトル消去モジュール 1 4 1は、さらに、図 8のスコアシートの中で、 IDが 3であるェントリ (行) のデータ（ID、音韻系列、クラスタナンパ、代表メンバ ID、およびスコア s ( 3 i ) ( iは、 1乃至 N+1の値））を消去するとともに、他の IDのメンバと、 ID が 3であるメンバとのスコア s ( j , 3 ) ( j は、 1乃至 N+1の値）を消去する, また、この場合、クラスタリングモジュール 1 3 8は、その消去されたメンバが属していたクラスタ、即ち、上述した例では、図 8の IDが 3であるメンバが属していたクラスタ (クラスタナンパが 1であるクラスタ) に対して代表メンバを再選抜し（求めなおし）、代表メンバが変更された場合（代表メンバとして I Dが 1であるメンバ以外のメンバが選択された場合）には、全てのクラスタの構成が変更される可能性があるため、全ての IDの未登録語を対象に再クラスタリングを行う。

なお、再クラスタリングの方法は、特.に限定されないが、例えば、 k- means法を採用することができる。

この場合、クラスタリングモジュール 1 3 8は、次に示される（1 ) 乃至 ( 3 ) の処理を実行する。ただし、いま、スコアシートバッファ 1 3 9のスコアシートには、 N個の未登録語が登録されており、これらの未登録語が k個のクラスタにそれぞれ分割されているものとする。

( 1 ) N個の未登録語のうちの K個の任意のものを、初期クラスタ中心とし、それらの初期クラスタ中心がそれぞれ仮の代表メンバとなる k個のクラスタを生成する。

( 2 ) 全てのデータ（N個の未登録語）について、 k個の代表メンバとのスコアを再演算し、 N個の未登録語それぞれを、その再演算したスコアを最も高くする代表メンバが属するクラスタのメンバとして登録する。

( 3 ) 新たにメンバが登録された k個のクラスタの代表メンバをそれぞれ選抜する。

なお、上述した（2 ) の処理において、スコアは、スコアシートを参照することにより、実際の演算を行わなくても求めることができる。伹し、クラスタリングモジュール 1 3 8では、上述した（2 ) の処理において、スコアを実際に演算してもよく、この場合、 N個の未登録語の発話情報を必要とするが、これらの発話情報は、特徴べクトルバッファ 1 3 7を参照することで認識される。

また、クラスタリングモジュール 1 3 8において、実際にスコアを演算する場合に、発話情報として、特徴ベクトル系列の代わりに PCM信号（音声データ）が特徴べクトルバッファ 1 3 7に記憶されているときには、クラスタリングモジュール 1 3 8は、この PCM信号に基づいて、スコアを演算する。

さらに、 k-means法による再クラスタリングにより、消去された未登録語が属していたクラスタ以外のクラスタの構成が変更された場合には、クラスタリングモジュール 1 3 8および特徴べクトル消去モジュール 1 4 1では、この未登録語の消去処理に対する他への影響が大きいものとみなして、その未登録語の消去自体をとりやめ、その消去に伴って起こる全ての処理（スコアシートの更新処理、再クラスタリング処理等）をキャンセルし、消去前の状態に戻す（未登録語の消去直前の状態まで遡る undo処理を実行する）ようにすることができる。

次に、図 1 6のフローチャートを参照して、図 1 4の音声認識装置 9 1の音声認識処理について説明する。

なお、この例においては、特徴べクトルバッファ 1 3 7には、図 1 5に示されるデータが記憶され、スコアシートバッファ 1 3 9には、図 8に示されるスコアシートが記憶されるものとする。また、発話情報としては、特徴ベクトル系列を採用するものとする。

ステップ S 1 0 1において、特徴べクトル消去モジュール 1 4 1は、未登録語の消去が指示されたか否かを判定する。

この例においては、特徴べクトル消去モジュール 1 4 1は、例えば、次に示される（1 ) 乃至（5 ) のうちのいずれかの条件が満たされた場合、未登録語の消去が指示されたと判定する。

( 1 ) スコアシートバッファ 1 3 9のスコアシートに登録されているクラスタのうちの所定のものに属するメンバの数が、所定の数を超えた場合

( 2 ) 未参照時間演算モジュール 1 4 2より供給された所定のクラスタの未参照時間が、所定の時間を超えた場合

( 3 ) 消去指示（トリガ信号）が入力部 1 0 7より供給された場合

( 4 ) 情動制御モジュール 1 4 3より供給された情動のパラメータの値（情動量） 1 所定の値（量）を超えた場合

( 5 ) メモリ使用量演算モジュール 1 4 4より供給されたメモリ（RAM 1 0 3等）の総使用量が、所定の量を超えた場合

特徴べクトル消去モジュール 1 4 1は、ステップ S 1 0 1において、未登録語の消去が指示されたと判定した場合、ステップ 1 0 2において、その指示された未登録語（以下、消去対象の未登録語と称する）に対する「未登録語消去処理」を実行し、ステップ S 1 0 1に戻り、未登録語の消去が指示されたか否かを再度判定する。

この例の「未登録語消去処理」の詳細は、図 1 7に示されている。そこで、この例の「未登録語消去処理」を、図 1 7を参照して説明する。

はじめに、ステップ S 1 2 1において、特徴べクトル消去モジュー^ 4 1は、特徴べクトルバッファ 1 3 7に記憶されているデータの中で、消去対象の未登録語に対応するデータを消去する。

例えば、図 1 5において、消去対象の未登録語が、 IDが 3である未登録語であるものとすると、図 1 5に示されるデータのうちの IDが 3であるエントリ (行）のデータ（ID、音韻系列、特徴べクトル（発話情報）、および、記録時刻）が消去される。

ステップ S 1 2 2において、特徴ベクトル消去モジユーノレ 1 4 1は、スコアシートバッファ 1 3 9のスコアシートを訂正する。

例えば、いま、ステップ S 1 2 1の処理で、上述したように、 IDが 3であるエントリのデータが消去されたとすると、ステップ S 1 2 2では、図 8のスコアシートのデータのうちの ID が 3であるエントリ（行）のデータ（ID、音韻系列、クラスタナンパ、代表メンバ ID、および、スコア s ( 3 , i ) (iは、 1乃至 N +1の値））が消去されるとともに、その消去された IDが 3である未登録語と、他の IDの未登録語とのスコア s ( j , 3) ( jは、 1乃至 N+1の値）が消去される。

ステップ S 1 2 3において、クラスタリングモジュール 1 3 8は、消去対象の未登録語が属していたクラスタの代表メンバを再選する（求める）。

この例においては、消去対象の未登録語は、 IDが 3である未登録語とされているので、図 8のスコアシートに示されるクラスタナンパが 1であるクラスタ (IDが 3である未登録語が属していたクラスタ）の代表メンバが上述した方法により再選される。

ステップ S 1 2 4において、クラスタリングモジュール 1 3 8は、代表メンバが変更されたか否かを判定し（ステップ S 1 2 3の処理で再選された代表メンバ力その処理の直前の代表メンバと異なるか否かを判定し）、代表メンバが変更されていないと判定した場合、リターンする。即ち、図 1 6のステップ S 1 0 2 の処理が終了され、ステップ S 1 0 1に戻り、それ以降の処理が繰り返される。例えば、いま、ステップ S 1 2 3の処理で IDが 1であるメンバが代表メンバとして再選された場合、代表メンバが変更されていないと判定され、一方、再選された代表メンバがそれ以外の IDのメンバであった場合、代表メンバが変更されたと判定される。

ステップ S 1 2 4において、クラスタリングモジュール 1 3 8は、代表メンバが変更されたと判定した場合、ステップ S 1 2 5において、全ての未登録語（この例においては、図 8のスコアシートに登録されている未登録語のうちの ID力 S 3であるものを除く全ての未登録語）を対象に再クラスタリングが行われる。即ち、クラスタリングモジュール 1 3 8は、例えば、全ての未登録語を、上述した k-means法により再クラスタリングする。

ステップ S 1 2 6において、クラスタリングモジュール 1 3 8は、消去対象の未登録語が属していたクラスタ以外のクラスタの構成が変更されたか否かを判定し（例えば、クラスタに属するメンバが変更されたか否かや、クラスタの代表メンバが他のメンバに変更されたか否かなどを判定し）、クラスタの構成が変更されていないと判定した場合、ステップ S 1 2 8に進み、メンテナンスモジュール 1 4 0は、ステップ S 1 2 2で更新（訂正）されたスコアシートに基づいて、辞書バッファ 1 3 4の単語辞書を更新し、リターンする。

即ち、いまの場合、消去対象の未登録語が属していたクラスタの新たな代表メンバが再選され (ステップ S 1 2 3 ) 、その新たな代表メンバが、元の代表メンバから変更されているので（ステップ S 1 2 4 ) 、メンテナンスモジュール 1 4 0は、スコアシートを参照し、新たな代表メンバが求められたクラスタを認識する。そして、メンテナンスモジュール 1 4 0は、辞書バッファ 1 3 4の単語辞書における、新たな代表メンバが求められたクラスタに対応するェントリの音韻系列として、その新たな代表メンバの音韻系列を登録する。

一方、ステップ S 1 2 6において、クラスタリングモジュール 1 3 8が、クラスタの構成が変更されたと判定した場合、ステップ S 1 2 7において、クラスタリングモジユーノレ 1 3 8および特徴べクトル消去モジュール 1 4 1は、特徴べクトルバッファ 1 3 7とスコアシートバッファ 1 3 9の記憶内容を、消去前の元の状態に戻す（ステップ S 1 2 1の処理が実行される前の状態に戻す）。即ち、クラスタリングモジュール 1 3 8および特徴べクトル消去モジュール 1 4 1は、消去対象の未登録語を消去する直前の状態まで遡る undo処理を実行し、リターンする。

なお、ステップ S 1 2 6および S 1 2 7の処理（Undo処理）は、省略されてもよい。即ち、音声認識装置 9 1は、クラスタの変更を許可して、 Undo処理を実行しないようにしてもよい。

また、ステップ S 1 2 6および S 1 2 7の処理を実行させるか否かを、音声認識装置 9 1の外部より（ユーザ等により）選択できるように音声認識装置 9 1を構成してもよい。

ここで、図 1 7の未登録語消去処理において、 1つのクラスタのメンバすベて力消去対象の未登録語となり、そのメンバが消去された場合には、そのメンバが属していたクラスタ自体が消去されることと等価である。この場合、そのクラスタについて、新たな代表メンバを求める必要はないため（求めることはできないため）、ステップ S 1 2 2の処理後、ステップ S 1 2 3および S 1 2 4の処理はスキップされ、ステップ S 1 2 5 , S 1 2 6の処理が順次行われる。そして、ステップ S 1 2 6において、クラスタの構成が変更されていないと判定された場合、ステップ S 1 2 8に進み、メンテナンスモジュール 1 4 0は、ステップ S 1 2 2で更新（訂正）されたスコアシートに基づいて、辞書バッファ 1 3 4の単語辞書を更新し、リターンする。

即ち、いまの場合、あるクラスタのメンバすべてが消去されることにより、そのクラスタ自体が消去されており、メンテナンスモジュール 1 4 0は、スコアシートを参照することで、その消去されたクラスタを認識する。そして、メンテナンスモジュール 1 4 0は、辞書バッファ 1 3 4の単語辞書における、消去されたクラスタに対応するェントリを消去する。

このように、辞書バッファ 1 3 4の単語辞書における、あるクラスタに対応するエントリが消去されることにより、上述した「記憶喪失」や「ど忘れ」が実現されることになる。

図 1 6に戻り、ステップ S 1 0 1において、未登録語の消去が指示されていないと判定された場合、ステップ S 1 0 2において、特徵抽出モジュール 1 3 1は、音声が入力されたか否かを判定する。

ステップ S 1 0 2において、音声が入力されていないと判定された場合、ステップ S 1 0 1に戻り、それ以降の処理が繰り返される。

即ち、特徴べクトル消去モジュール 1 4 1は、未登録語の消去（特徴べクトルバッファ 1 3 7に記憶されているその未登録語に対応する発話情報の消去）が指示されたか否かを常時判定するとともに、特徴抽出モジュール 1 3 1は、特徴べクトル消去モジュール 1 4 1とは独立して、音声が入力されたか否かを常時判定する。

いま、ユーザが発話を行ったものとすると、その発話された音声は、入力部 1 0 7のマイクロホンおよび A D変換部を介することにより、デジタルの音声データとされ、特徴抽出モジュール 1 3 1に供給される。

このとき、特徴抽出部モジュール 1 3 1は、ステップ S 1 0 3において、音声が入力されたか否かを判定し、音声が入力された場合（音声が入力されたと判定した場合）、ステップ S 1 0 4において、その音声データを、所定のフレーム単位で音響分析することにより、特徴ベクトルを抽出し、その特徴ベクトルの系列を、マッチングモジュール 1 3 2およぴ未登録語区間処理モジュール 1 3 6に供給する。

即ち、ステップ S 1 0 4乃至 S 1 0 8の処理は、上述した図 9のステップ S 1 乃至 S 5と同様の処理である。従って、ステップ S 1 0 4乃至 S 1 0 8の処理の説明は、省略する。

上述したように、特徴べクトル消去モジュール 1 4 1は、所定の条件が満たされると判定した場合、特徴べクトルバッファ 1 3 7に記憶されているデータの中で、クラスタリングへの影響が少ないと判断されるメンバの発話情報（図 1 5の例では、特徴ベクトル系列）と、それに関連するデータ（図 1 5の例では、 ID、音韻系列、および記録時刻）を消去するので、未登録語を自動獲得する機能を損なうことなく、記憶領域の消費を抑制することができる。

さらにまた、この特徴べクトル消去モジュール 1 4 1は、メンバに関連するデータとして、スコアシートバッファ 1 3 9に記憶されているスコアシートも訂正する（不要なデータを消去する）ので、記憶領域の消費をより抑制することがでぎる。

さらに、メンテナンスモジュール 1 4 0は、訂正後のスコアシ一トに基づいて- 単語辞書を更新するので、例えば、口ポットにおいて、「記憶喪失」や「ど忘れ」を実現することができ、そのエンタテイメント性を向上させることができる _c なお、上述した例においても、記録媒体に記録されるプログラムを記述するステツプは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、図 1 4の各モジュールは、その機能を果たすものであれば、その形態は限定されない。即ち、ハードウェアなどでモジュールが構成されてもよい。その場合、製造者等は、これらの各モジュールを、図 1 4に示されるようにそれぞれ接続すればよい。換言すると、上述した図 3の音声認識部 5 O Aの代わりに、図 1 4に対応するハドウエアを音声認識部として利用してもよい。

なお、上述した実施の形態においては、 HMM法により音声認識を行うようにしたが、本発明は、その他、例えば、 D Pマッチング法等により音声認識を行う場合にも適用可能である。ここで、例えば、 D Pマッチング法による音声認識を行う場合には、上述のスコアは、入力音声と標準パターンとの間の距離の逆数に相当する。

また、上述した実施の形態では、未登録語をクラスタリングし、そのクラスタリング結果に基づいて、単語辞書に、未登録語を登録するようにしたが、本発明は、単語辞書に登録されている登録語についても適用可能である。

即ち、同一単語の発話についてであっても、異なる音韻系列が得られる場合があることから、単語辞書に、 1つの単語について、 1つの音韻系列だけを登録しておく場合には、その単語の発話として、単語辞書に登録された登録語の音韻系列と異なる音韻系列が得られるときには、発話が、その登録語に認識されないことがある。これに対して、本発明によれば、同一の単語についての異なる発話が. 音響的に類似したものどうしにクラスタリングされることとなるので、そのクラスタリング結果に基づいて、単語辞書を更新することにより、同一の単語について、多種の音韻系列が、単語辞書に登録されることになり、その結果、同一単語にっき、種々の音韻に対処した音声認識を行うことが可能となる。

なお、単語辞書に登録する、未登録語のクラスタに対応するエントリには、音韻系列の他、例えば、次のようにして見出しを記述することができる。

即ち、例えば、行動決定機構部 5 2において、画像認識部 5 0 Bや圧力処理部 5 0 Cが出力する状態認識情報を、図 3において点線で示すように、音声認識部 5 O Aに供給するようにし、音声認識部 5 O Aのメンテナンス部 3 1 (図 4 ) において、その状態認識情報を受信するようにする。

一方、特徴ベクトルバッファ 2 8、ひいては、スコアシート記憶部 3 0においては、未登録語が入力された絶対時刻（時間）も記憶しておくようにし、メンテナンス部 3 1において、スコアシート記憶部 3 0におけるスコアシートの絶対時刻を参照することにより、未登録語が入力されたときの、行動決定機構部 5 2から供給される状態認識情報を、その未登録語の見出しとして認識する。

そして、メンテナンス部 3 1において、単語辞書の、未登録語のクラスタに対応するエントリには、そのクラスタの代表メンバの音韻系列とともに、その見出しとしての状態認識情報を登録するようにする。この場合、マッチング部 2 3には、単語辞書に登録された未登録語の音声認識結果として、その未登録語の見出しとしての状態認識情報を出力させることが可能となり、さらに、その見出しとしての状態認識情報に基づいて、ロボットに所定の行動をとらせることが可能となる。

具体的には、例えば、単語「赤 J が未登録語であるとして、 C C D 1 6において、赤い物体が撮像されたときには、例えば、「赤い」という状態認識情報が、画像認識部 5 0 Bから、行動決定機構部 5 2を介して、音声認識部 5 0 Aに供給されるが、そのときに、ユーザが、未登録語としての「赤」を発話すると、音声認識部 5 O Aでは、その未登録語「赤」の音韻系列が求められる。

そして、この場合、音声認識部 5 O Aでは、未登録語「赤」の音韻系列と、その見出しとしての状態認識情報「赤い」とが、未登録語「赤」のエントリとして- 単語辞書に追加される。

その結果、次に、ユーザが「赤」と発話したときには、その発話についてのスコアとしては、単語辞書に登録されている未登録語「赤」の音韻系列に対するものが大きくなり、音声認識部 5 O Aでは、その見出しとなっている状態認識情報「赤い」力音声認識結果として出力されることになる。

この音声認識結果は、音声認識部 5 O Aから行動決定機構部 5 2に供給される力この場合、行動決定機構部 5 2では、画像認識部 5 0 Bの出力に基づいて、周囲の赤い物体を探し出し、その赤い物体に向かっていくような行動を、ロポットにとらせるようにすることが可能となる。

即ち、この場合、ロボットは、最初は、発話「赤」を音声認識することはできないが、口ポットが、赤い物体を撮像しているときに、ユーザが、「赤」と発話すると、口ポットにおいて、その発話「赤」と、撮像されている赤い物体とが対応付けられ、その後は、ユーザが、「赤」と発話すると、その発話「赤」が音声認識され、周囲にある赤い物体に向かって歩行していくようになる。この場合、口ポットが、ユーザの言っていることを学習し、成長していっているかのような印象を、ユーザに与えることができる。なお、図 1 3の音声認識装置 9 1における場合も、同様である。

また、上述した実施の形態においては、スコアシートに、スコアを記憶しておくようにしたが、スコアは、必要に応じて、再計算するようにすることも可能でめる。

また、上述した実施の形態では、検出クラスタを、 2つのクラスタに分割するようにしたが、検出クラスタは、 3以上のクラスタに分割することが可能である < さらに、検出クラスタは、一定以上のクラスタ間距離となる任意の数のクラスタに分割することも可能である。

さらに、上述した実施の形態では、スコアシート（図 8 ) に、スコアの他、未登録語の音韻系列や、クラスタナンパ、代表メンバ ID等を登録するようにしたが、これらのスコア以外の情報は、スコアシートに登録するのではなく、スコアとは別に管理することが可能である。産業上の利用可能性

本発明によれば、既に求められている、音声をクラスタリングしたクラスタの中から、入力音声を新たなメンバとして加えるクラスタが検出される。さらに、入力音声が、検出されたクラスタの新たなメンバとされ、そのクラスタが、そのクラスタのメンバに基づいて分割される。そして、その分割結果に基づいて、辞書が更新される。従って、例えば、辞書の大規模化を避けて、辞書に登録されていない未登録語の辞書への登録等を、容易に行うことが可能となる。

Claims

請求の範囲

1 . 入力音声を処理し、その処理結果に基づいて、言語処理に用いられる辞書を更新する音声処理装置であって、

既に求められている、音声をクラスタリングしたクラスタの中から、前記入力音声を新たなメンバとして加えるクラスタを検出するクラスタ検出手段と、前記入力音声を、前記クラスタ検出手段において検出されたクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割するクラスタ分割手段と、

前記クラスタ分割手段によるクラスタの分割結果に基づいて、前記辞書を更新する更新手段と

を備えることを特徴とする音声処理装置。

2 . 前記辞書は、音声認識の対象とする語彙の音韻系列を記憶しており、前記更新手段は、分割後のクラスタのメンバを代表する代表メンバに対応する音声の音韻系列を、前記辞書の新たなエントリとして加えることにより、または前記辞書のエントリを、分割後のクラスタのメンバを代表する代表メンバに対応する音声の音韻系列に変更することにより、前記辞書を更新する

ことを特徴とする請求の範囲第 1項に記載の音声処理装置。

3 . 前記クラスタ検出手段は、

前記クラスタのメンバから前記入力音声が観測される尤度を、前記クラスタのメンバに対する前記入力音声についてのスコアとして計算し、

前記クラスタの中から、前記入力音声について求められる前記スコアを最も高くする、前記クラスタのメンバを代表する代表メンバを求め、

その代表メンバを代表とするクラスタを、前記入力音声を新たなメンバとして加えるクラスタとして検出する

4 . 前記入力音声は、前記辞書にあらかじめ登録されていない未登録語であることを特徴とする請求の範囲第 1項に記載の音声処理装置。

5 . 前記クラスタのメンバを代表する代表メンバを、そのクラスタの他のメンバについてのスコアの総和を最大にするメンバとする場合において、

前記クラスタ分割手段は、前記入力音声をメンバとしたクラスタを、そのクラスタのメンバのうちの 2つが前記代表メンパとなる第 1および第 2のクラスタの 2つのクラスタの組に分割する

ことを特徴とする請求の範囲第 3項に記載の音声処理装置。

6 . 前記クラスタ分割手段は、第 1および第 2のクラスタの 2つのクラスタの組が複数組存在する場合、前記入力音声をメンバとしたクラスタを、前記第 1のクラスタと第 2のクラスタとのクラスタ間距離を最小にする 2つのクラスタに分割する

ことを特徴とする請求の範囲第 5項に記載の音声処理装置。

7 . 前記クラスタ分割手段は、前記第 1のクラスタと第 2のクラスタとのクラスタ間距離を最小にする 2つのクラスタどうしのクラスタ間距離が所定の閾値より大である場合に、前記入力音声をメンバとしたクラスタを、その 2つのクラスタに分割する

ことを特徴とする請求の範囲第 6項に記載の音声処理装置。

8 . 前記クラスタのメンバについて、各クラスタの各メンバに対するスコアを記憶する記憶手段をさらに備える

9 . 前記辞書は、音声認識の対象とする語彙の音韻系列を記憶しており、前記辞書の音韻系列にしたがって構成される音響モデルに基づいて、音声を認識する音声認識手段をさらに備える

1 0 . 前記音響モデルは、 HMM (Hidden Markov model)である

ことを特徴とする請求の範囲第 9項に記載の音声処理装置。

1 1 . 前記音声認識手段は、サブヮード単位の前記 HMMを接続することにより、前記辞書の音韻系列に対応する音響モデルを構成し、その音響モデルに基づいて、音声を認識する

1 2 . 前記音声認識手段は、所定の文法規則にも基づいて、音声を認識することを特徴とする請求の範囲第 9項に記載の音声処理装置。

1 3 . 前記音声認識手段は、前記所定の文法規則に基づいて、前記入力音声の所定の区間を切り出し、

前記クラスタ検出手段およびクラスタ分割手段は、前記所定の区間の前記入力音声を対象として処理を行う

ことを特徴とする請求の範囲第 1 2項に記載の音声処理装置。

1 4 . 前記音声認識手段は、前記入力音声から、前記辞書に登録されていない未登録語の区間を、前記所定の区間として切り出す

ことを特徴とする請求の範囲第 1 3項に記載の音声処理装置。

1 5 . 前記音声認識手段は、ガーベジモデルを用いた前記所定の文法規則に基づいて、前記未登録語の区間を切り出す

ことを特徴とする請求の範囲第 1 4項に記載の音声処理装置。

1 6 . 前記クラスタ分割手段は、 E M (Expectation Maximum)法により、前記クラスタを分割する

1 7 . 前記クラスタ検出手段においてクラスタを検出するための、前記入力音声に関する音声情報を記憶する記憶手段と、

所定の条件が満たされると判定した場合、前記記憶手段に記憶された前記音声情報のうちの所定のものを消去する消去手段と

をさらに備えることを特徴とする請求の範囲第 1項に記載の音声処理装置。

1 8 . 前記記憶手段に記憶される前記音声情報は、前記入力音声のデジタルデータである

ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。

1 9 . 前記入力音声のデジタルデータより、前記入力音声の所定の特徴を表す特徴べクトルを抽出する特徴抽出手段をさらに備え、

前記記憶手段に記憶される前記音声情報は、前記特徴抽出手段により抽出された前記入力音声の前記特徴べクトルである

ことを特徴とする請求の範囲第 1 8項に記載の音声処理装置。

2 0 . 前記消去手段は、所定の前記クラスタに属する前記メンバの数が、所定の数を超えた場合、前記所定の条件が満たされると判定する

• ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。

2 1 . 前記クラスタが参照されていない未参照時間を演算する未参照時間演算手段をさらに備え、

前記消去手段は、前記未参照時間演算手段により演算された前記クラスタの前記未参照時間が、所定の時間を超えた場合、前記所定の条件が満たされると判定する

2 2 . トリガ信号を入力する入力手段をさらに備え、

前記消去手段は、前記入力手段により前記トリガ信号が入力された場合、前記所定の条件が満たされると判定する

2 3 . 情動のパラメータを制御する情動制御手段をさらに備え、

前記消去手段は、前記情動制御手段により制御された前記情動のパラメータの値が、所定の値を超えた場合、前記所定の条件が満たされると判定する

2 4 . 前記記憶手段の記憶領域の使用量を演算する記憶領域使用量演算手段をさらに備え、

前記消去手段は、前記記憶領域使用量演算手段により演算された前記記憶領域の使用量が、所定の量を超えた場合、前記所定の条件が満たされると判定することを特徴とする請求の範囲第 1 7項に記載の音声処理装置。

2 5 . 前記記憶手段に記憶された音声情報に対応する音声を再クラスタリングするクラスタリング手段をさらに備える

2 6 . 前記更新手段は、前記クラスタリング手段による再クラスタリング結果にも基づいて、前記辞書を更新する

ことを特徴とする請求の範囲第 2 5項に記載の音声処理装置。

2 7 . 前記消去手段により前記音声情報が消去された場合、消去された前記音声情報に対応する音声が属していた前記クラスタの前記メンバを代表する新たな代表メンバを選抜する代表メンバ選抜手段をさらに備え、

前記クラスタリング手段は、前記代表メンバ選抜手段により選抜された前記新たな代表メンバが、元の代表メンバとは異なる場合、前記記憶手段に記憶されている全ての前記音声情報を再クラスタリングする

ことを特徴とする請求の範困第 2 5項に記載の音声処理装置。

2 8 . 前記クラスタリング手段により再クラスタリングされた前記クラスタの構成が、前記クラスタリング手段により再クラスタリングされる直前の前記クラスタの構成と異なる場合、前記消去手段による前記音声情報に対する処理が実行される直前の状態に戻す消去処理取消手段をさらに備える

ことを特徴とする請求の範囲第 2 7項に記載の音声処理装置。

2 9 . 前記クラスタリング手段は、 k- means法により再クラスタリングを行うことを特徴とする請求の範囲第 2 7項に記載の音声処理装置。

3 0 . 入力音声を処理し、その処理結果に基づいて、言語処理に用いられる辞書を更新する音声処理方法であって、

既に求められている、音声をクラスタリングしたクラスタの中から、前記入力音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、前記入力音声を、前記クラスタ検出ステップにおいて検出されたクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割するクラスタ分割ステップと、

前記クラスタ分割ステップによるクラスタの分割結果に基づいて、前記辞書を更新する更新ステップと

を備えることを特徴とする音声処理方法。

3 1 . 入力音声を処理し、その処理結果に基づいて、言語処理に用いられる辞書を更新する音声処理を、コンピュータに行わせるプログラムであって、既に求められている、音声をクラスタリングしたクラスタの中から、前記入力音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、前記入力音声を、前記クラスタ検出ステツプにおいて検出されたクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割するクラスタ分割ステップと、

を備えることを特徴とするプログラム。

3 2 . 入力音声を処理し、その処理結果に基づいて、言語処理に用いられる辞書を更新する音声処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、

既に求められている、音声をクラスタリングしたクラスタの中から、前記入力音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、前記入力音声を、前記クラスタ検出ステツプにおいて検出されたクラスタの新たなメンバとし、そのクラスタを、そのクラスタのメンバに基づいて分割するクラスタ分割ステップと、

を備えるプログラムが記録されている

ことを特徴とする記録媒体。