WO2002080141A1 - Appareil de traitement du son - Google Patents

Appareil de traitement du son Download PDF

Info

Publication number
WO2002080141A1
WO2002080141A1 PCT/JP2002/003248 JP0203248W WO02080141A1 WO 2002080141 A1 WO2002080141 A1 WO 2002080141A1 JP 0203248 W JP0203248 W JP 0203248W WO 02080141 A1 WO02080141 A1 WO 02080141A1
Authority
WO
WIPO (PCT)
Prior art keywords
cluster
voice
unit
dictionary
processing device
Prior art date
Application number
PCT/JP2002/003248
Other languages
English (en)
French (fr)
Inventor
Masanori Omote
Helmut Lucke
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US10/296,797 priority Critical patent/US7228276B2/en
Priority to EP02708744A priority patent/EP1376536A1/en
Publication of WO2002080141A1 publication Critical patent/WO2002080141A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Description

明細書
音声処理装置 技術分野
本発明は、 音声処理装置に関し、 特に、 例えば、 音声認識の対象とする単語等 の語句を登録する辞書を、 容易に更新することができるようにする音声処理装置 に関する。 背景技術
従来の音声認識装置においては、 音声認識の対象とする単語が登録された辞書 を参照することにより、 ユーザの発話が音声認識される。
従って、 音声認識装置において、 音声認識の対象となるのは、 辞書に登録され た単語 (以下、 適宜、 登録語という) だけであり、 辞書に登録されていない単語 は認識することができない。 いま、 辞書に登録されていない語彙を未登録語とい うものとすると、 従来の音声認識装置では、 ユーザの発話に、 未登録語が含まれ る場合には、 その未登録語が、 辞書に登録されているいずれかの単語 (登録語) に認識され、 その結果、 未登録語は誤認識される。 さらに、 未登録語が誤認識さ れると、 その誤認識が、 未登録語の前後の単語等の認識にも影響する場合があり この場合、 未登録語の前後の単語等も誤認識されることになる。
従って、 未登録語については、 何らかの対処を施す必要があり、 従来より種々 の方法が提案されている。
例えば、 特開平 9一 8 1 1 8 1号公報には、 未登録語を検出するためのガーべ ジモデルと、 母音等の幾つかの音素ごとにクラスタリングされた HMM (Hidden Markov Model)とを同時に用い、 未登録語に許可する音韻系列を制限することに よって、 未登録語の検出を、 そのための計算量を低減して行う音声認識装置が開 示されている。
また、 例えば、 特願平 1 1一 2 4 5 4 6 1号には、 データベースにない未登録 語について、 単語の概念に基づき、 データベースにある単語との間の類似度を計 算し、 未登録語を含む単語の集合について、 適切な並びの単語列を構成して出力 する情報処理装置が開示されている。
さらに、 例 ュ、 Dictionary Learning : Performance Through Consistency , Tilo Sloboda, Proceedings of ICASSP 95, vol. 1, pp. 453-456, 1995には、 単語の音声区間に対応する音韻系列を検出し、 コンフュージョンマトリクス(con fusion matrix)によって、 音声的に近い音韻系列を削除することにより、 効果的 に、 異音(variants)を含む辞書を構成する方法が開示されている。
また、 例えば、 「単語発声の複数サンプルを利用した未知語の音韻系列の推 定」 、 伊藤克亘 他、 電子情報通信学会論文誌、 Vol. J83-D-II No. 11 pp. 215 2-2159, 2 0 0 0年 1 1月には、 複数の音声サンプルから音韻系列を推定し、 未知語 (未登録語) を辞書に登録する際の音韻系列の推定精度を向上させる方法 が開示されている。
ところで、 未登録語に対する対処法のうちの代表的なものの 1つとしては、 入 力音声に未登録語が含まれる場合に、 その未登録語を、 辞書に登録し、 以後は、 登録語としてしまう方法がある。
未登録語を辞書に登録するには、 まず、 その未登録語の音声区間を検出し、 そ の音声区間における音声の音韻系列を認識する必要がある。 ある音声の音韻系列 を認識する方法としては、 例えば、 音韻タイプライタと呼ばれる方法があり、 音 韻タイプライタでは、 基本的に、 すべての音韻に対する自由な遷移を許可するガ 一ベジモデルを用いて、 入力音声に対する音韻系列が出力される。
さらに、 未登録語を辞書に登録するには、 未登録語の音韻系列をクラスタリン グする必要がある。 即ち、 辞書においては、 各単語の音韻系列が、 その単語のク ラスタにクラスタリングされて登録されており、 未登録語を辞書に登録するには、 その未登録語の音韻系列をクラスタリングする必要がある。
未登録語の音韻系列をクラスタリングする方法としては、 その未登録語を表す 見出し (例えば、 未登録語の読み) を、 ユーザに入力してもらい、 その見出しで 表されるクラスタに、 未登録語の音韻系列をクラスタリングする方法があるが、 この方法では、 ユーザが見出しの入力を必要とすることから面倒である。
また、 未登録語が検出されるたびに、 新たなクラスタを生成し、 未登録語の音 韻系列を、 その新たなクラスタにクラスタリングする方法がある。 しかしながら. この方法では、 未登録語が検出されるたびに、 辞書に、 新たなクラスタに対応す るエントリが登録されることとなるから、 辞書が大規模になり、 その後の音声認 識に要する処理量や時間が増大することになる。 発明の開示
本発明は、 このような状況に鑑みてなされたものであり、 辞書の大規模化を避 けて、 未登録語の辞書への登録等を、 容易に行うことができるようにするもので ある。
本発明の音声処理装置は、 既に求められている、 音声をクラスタリングしたク ラスタの中から、 入力音声を新たなメンバとして加えるクラスタを検出するクラ スタ検出手段と、 入力音声を、 クラスタ検出手段において検出されたクラスタの 新たなメンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて分割する クラスタ分割手段と、 クラスタ分割手段によるクラスタの分割結果に基づいて、 辞書を更新する更新手段とを備えることを特徴とする。
本発明の音声処理方法は、 既に求められている、 音声をクラスタリングしたク ラスタの中から、 入力音声を新たなメンバとして加えるクラスタを検出するクラ スタ検出ステップと、 入力音声を、 クラスタ検出ステップにおいて検出されたク ラスタの新たなメンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて 分割するクラスタ分割ステツプと、 クラスタ分割ステツプによるクラスタの分割 結果に基づいて、 辞書を更新する更新ステップとを備えることを特徴とする。
本発明のプログラムは、 既に求められている、 音声をクラスタリングしたクラ スタの中から、 入力音声を新たなメンバとして加えるクラスタを検出するクラス タ検出ステップと、 入力音声を、 クラスタ検出ステップにおいて検出されたクラ スタの新たなメンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて分 割するクラスタ分割ステップと、 クラスタ分割ステップによるクラスタの分割結 果に基づいて、 辞書を更新する更新ステップとを備えることを特徴とする。
本発明の記録媒体は、 既に求められている、 音声をクラスタリングしたクラス タの中から、 入力音声を新たなメンバとして加えるクラスタを検出するクラスタ 検出ステップと、 入力音声を、 クラスタ検出ステップにおいて検出されたクラス タの新たなメンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて分割 するクラスタ分割ステップと、 クラスタ分割ステップによるクラスタの分割結果 に基づいて、 辞書を更新する更新ステップとを備えるプログラムが記録されてい ることを特徴とする。
本発明においては、 既に求められている、 音声をクラスタリングしたクラスタ の中から、 入力音声を新たなメンバとして加えるクラスタが検出される。 さらに. 入力音声が、 検出されたクラスタの新たなメンバとされ、 そのクラスタが、 その クラスタのメンバに基づいて分割される。 そして、 その分割結果に基づいて、 辞 書が更新される。 図面の簡単な説明
図 1は、 本発明を適用したロポットの一実施の形態の外観構成例を示す斜視図 である。
図 2は、 口ポットの内部構成例を示すブロック図である。
図 3は、 図 1のロボットのコントローラの機能的構成例を示すプロック図であ る。
図 4は、 本発明の第 1実施形態が適用される音声認識装置としての、 図 1の口 ボットの音声認識部の構成例を示すプロック図である。
図 5は、 単語辞書を示す図である。
図 6は、 文法規則を示す図である。
図 7は、 図 4の音声認識部の特徴べク トルバッファの記憶内容を示す図である, 図 8は、 スコアシートを示す図である。
図 9は、 図 4の音声認識部の音声認識処理を説明するフローチヤ一トである。 図 1 0は、 図 9の未登録語処理の詳細を説明するフローチャートである。
図 1 1は、 図 9のクラスタ分割処理の詳細を説明するフローチャートである。 図 1 2は、 シミュレーション結果を示す図である。
図 1 3は、 本発明の第 2実施形態が適用された音声認識装置のハードウェアの 構成例を示す図である。
図 1 4は、 図 1 3の音声認識装置のソフトウェアの構成例を示すプロック図で ある。
図 1 5は、 図 1 4の音声認識装置の特徴べクトルバッファの記憶内容を示す図 である。
図 1 6は、 図 1 4の音声認識装置の音声認識処理を説明するフローチャートで ある。
図 1 7は、 図 1 6の未登録語消去処理の詳細を説明するフローチャートである: 発明を実施するための最良の形態
図 1は、 本発明を適用したロボットの一実施の形態の外観構成例を示しており . 図 2は、 その電気的構成例を示している。
本実施の形態では、 ロボットは、 例えば、 犬等の四つ足の動物の形状のものと なっており、 胴体部ユエット 2の前後左右に、 それぞれ脚部ユエット 3 A, 3 B : 3 C , 3 Dが連結されるとともに、 胴体部ユニット 2の前端部と後端部に、 それ ぞれ頭部ュ-ット 4と尻尾部ュニット 5が連結されることにより構成されている t 尻尾部ュ-ット 5は、 胴体部ュニット 2の上面に設けられたベース部 5 Bから. 2自由度をもって湾曲または摇動自在に引き出されている。
胴体部ユエット 2には、 口ポット全体の制御を行うコントローラ 1 0、 ロボッ トの動力源となるバッテリ 1 1、 並びにバッテリセンサ 1 2および熱センサ 1 3 からなる内部センサ部 1 4などが収納されている。 頭部ユニット 4には、 「耳」 に相当するマイク (マイクロホン) 1 5、 「目」 に相当する C CD (Charge Coupled Device)カメラ 1 6、 触覚に相当するタツチ センサ 1 7、 「口」 に相当するスピーカ 1 8などが、 それぞれ所定位置に配設さ れている。 また、 頭部ユエット 4には、 口の下顎に相当する下顎部 4 Aが 1自由 度をもって可動に取り付けられており、 この下顎部 4Aが動くことにより、 ロボ ットの口の開閉動作が実現されるようになっている。
脚部ュ-ット 3 A乃至 3Dそれぞれの関節部分や、 脚部ュニット 3 A乃至 3 D それぞれと胴体部ュニット 2の連結部分、 頭部ュニット 4と胴体部ュニット 2の 連結部分、 頭部ュニット 4と下顎部 4 Aの連結部分、 並びに尻尾部ュ-ット 5と 胴体部ユニット 2の連結部分などには、 図 2に示すように、 それぞれァクチユエ ータ 3 AAi乃至 3 AAK、 3 BAL乃至 3 BAK、 3 CAL乃至 3 CAK、 3 DA1乃 至 3 DAK、 乃至 4AL、 5 および 5 A2が配設されている。
頭部ユニット 4におけるマイク 1 5は、 ユーザからの発話を含む周囲の音声 (音) を集音し、 得られた音声信号を、 コントローラ 1 0に送出する。 CCD力 メラ 1 6は、 周囲の状況を撮像し、 得られた画像信号を、 コントローラ 1 0に送 出する。
タツチセンサ 1 7は、 例えば、 頭部ユニット 4の上部に設けられており、 ユー ザからの 「なでる」 や 「たたく」 といった物理的な働きかけにより受けた圧力を 検出し、 その検出結果を圧力検出信号としてコントローラ 1 0に送出する。
胴体部ュ-ット 2におけるバッテリセンサ 1 2は、 バッテリ 1 1の残量を検出 し、 その検出結果を、 バッテリ残量検出信号としてコントローラ 1 0に送出する, 熱センサ 1 3は、 ロボット内部の熱を検出し、 その検出結果を、 熱検出信号とし てコントローラ 1 0に送出する。
コントローラ 1 0は、 C PU (Central Processing Unit) 1 OAやメモリ 1 0 B等を内蔵しており、 C PU 1 0Aにおいて、 メモリ 1 0 Bに記憶された制御プ ログラムが実行されることにより、 各種の処理を行う。
即ち、 コントローラ 1 0は、 マイク 1 5や、 CCDカメラ 1 6、 タツチセンサ 1 7、 バッテリセンサ 1 2、 熱センサ 1 3から与えられる音声信号、 画像信号、 圧力検出信号、 バッテリ残量検出信号、 熱検出信号に基づいて、 周囲の状況や、 ユーザからの指令、 ユーザからの働きかけなどの有無を判断する。
さらに、 コントローラ 10は、 この判断結果等に基づいて、 続く行動を決定し- その決定結果に基づいて、 ァクチユエータ 3 乃至 3 AAK、 3 BAL乃至 3 BAK、 3 CAt乃至 3 CAK、 3 DAL乃至 3DAK、 4AL乃至 4AL、 5 Α 5 A 2のうちの必要なものを駆動させる。 これにより、 頭部ユニット 4を上下左右に 振らせたり、 下顎部 4 Αを開閉させる。 さらには、 尻尾部ユニット 5を動かせた り、 各脚部ユニット 3 A乃至 3Dを駆動して、 ロボットを歩行させるなどの行動 を行わせる。
また、 コントローラ 10は、 必要に応じて、 合成音を生成し、 スピーカ 1 8に 供給して出力させたり、 ロボットの 「目」 の位置に設けられた図示しない LED (Light Emitting Diode) を点灯、 消灯または点滅させる。
以上のようにして、 ロボットは、 周囲の状況等に基づいて自律的に行動をとる ようになつている。
次に、 図 3は、 図 2のコントローラ 10の機能的構成例を示している。 なお、 図 3に示す機能的構成は、 CPU10Aが、 メモリ 10 Bに記憶された制御プロ グラムを実行することで実現されるようになっている。
コントローラ 10は、 特定の外部状態を認識するセンサ入力処理部 50、 セン サ入力処理部 50の認識結果を累積して、 感情や、 本能、 成長の状態を表現する モデル記憶部 5 1、 センサ入力処理部 50の認識結果等に基づいて、 続く行動を 決定する行動決定機構部 52、 行動決定機構部 52の決定結果に基づいて、 実際 にロボットに行動を起こさせる姿勢遷移機構部 53、 各ァクチユエータ 3 A 丄 乃至 5 および 5 A2を駆動制御する制御機構部 54、 並びに合成音を生成する 音声合成部 5 5から構成されている。
センサ入力処理部 50は、 マイク 1 5や、 CCDカメラ 16、 タツチセンサ 1 7等から与えられる音声信号、 画像信号、 圧力検出信号等に基づいて、 特定の外 部状態や、 ユーザからの特定の働きかけ、 ユーザからの指示等を認識し、 その認 識結果を表す状態認識情報を、 モデル記憶部 5 1および行動決定機構部 5 2に通 知する。
即ち、 センサ入力処理部 5 0は、 音声認識部 5 O Aを有しており、 音声認識部 5 O Aは、 マイク 1 5から与えられる音声信号について音声認識を行う。 そして、 音声認識部 5 O Aは、 その音声認識結果としての、 例えば、 「歩け」 、 「伏せ」 、 「ボールを追いかけろ」 等の指令その他を、 状態認識情報として、 モデル記憶部 5 1および行動決定機構部 5 2に通知する。
また、 センサ入力処理部 5 0は、 画像認識部 5 0 Bを有しており、 画像認識部 5 0 Bは、 C C Dカメラ 1 6から与えられる画像信号を用いて、 画像認識処理を 行う。 そして、 画像認識部 5 0 Bは、 その処理の結果、 例えば、 「赤い丸いも の」 や、 「地面に対して垂直なかつ所定高さ以上の平面」 等を検出したときには、
「ポールがある」 や、 「壁がある」 等の画像認識結果を、 状態認識情報として、 モデル記憶部 5 1および行動決定機構部 5 2に通知する。
さらに、 センサ入力処理部 5 0は、 圧力処理部 5 0 Cを有しており、 圧力処理 部 5 0 Cは、 タツチセンサ 1 7から与えられる圧力検出信号を処理する。 そして、 圧力処理部 5 0。は、 その処理の結果、 所定の閾値以上で、 かつ短時間の圧力を 検出したときには、 「たたかれた (しかられた) 」 と認識し、 所定の閾値未満で、 かつ長時間の圧力を検出したときには、 「なでられた (ほめられた) 」 と認識し て、 その認識結果を、 状態認識情報として、 モデル記憶部 5 1および行動決定機 構部 5 2に通知する。
モデル記憶部 5 1は、 ロボットの感情、 本能、 成長の状態を表現する感情モデ ル、 本能モデル、 成長モデルをそれぞれ記憶、 管理している。
ここで、 感情モデルは、 例えば、 「うれしさ」 、 「悲しさ」 、 「怒り」 、 「楽 しさ」 等の感情の状態 (度合い) を、 所定の範囲 (例えば、 一 1 . 0乃至 1 . 0 等) の値によってそれぞれ表し、 センサ入力処理部 5 0からの状態認識情報や時 間経過等に基づいて、 その値を変化させる。 本能モデルは、 例えば、 「食欲」 、 「睡眠欲」 、 「運動欲」 等の本能による欲求の状態 (度合い) を、 所定の範囲の 値によってそれぞれ表し、 センサ入力処理部 5 0からの状態認識情報や時間経過 等に基づいて、 その値を変化させる。 成長モデルは、 例えば、 「幼年期」 、 「青 年期」 、 「熟年期」 、 「老年期」 等の成長の状態 (度合い) を、 所定の範囲の値 によつてそれぞれ表し、 センサ入力処理部 5 0からの状態認識情報や時間経過等 に基づいて、 その値を変化させる。
モデル記憶部 5 1は、 上述のようにして感情モデル、 本能モデル、 成長モデル の値で表される感情、 本能、 成長の状態を、 状態情報として、 行動決定機構部 5 2に送出する。
なお、 モデル記憶部 5 1には、 センサ入力処理部 5 0から状態認識情報が供給 される他、 行動決定機構部 5 2から、 口ポットの現在または過去の行動、 具体的 には、 例えば、 「長時間歩いた」 などの行動の内容を示す行動情報が供給される ようになつており、 モデル記憶部 5 1は、 同一の状態認識情報が与えられても、 行動情報が示すロポットの行動に応じて、 異なる状態情報を生成するようになつ ている。
即ち、 例えば、 ロボットが、 ユーザに挨拶をし、 ユーザに頭を撫でられた場合 には、 ユーザに挨拶をしたという行動情報と、 頭を撫でられたという状態認識情 報とが、 モデル記憶部 5 1に与えられ、 この場合、 モデル記憶部 5 1では、 Γう れしさ」 を表す感情モデルの値が増加される。
一方、 ロボットが、 何らかの仕事を実行中に頭を撫でられた場合には、 仕事を 実行中であるという行動情報と、 頭を撫でられたという状態認識情報とが、 モデ ル記憶部 5 1に与えられ、 この場合、 モデル記憶部 5 1では、 「うれしさ」 を表 す感情モデルの値は変化されない。
このように、 モデル記憶部 5 1は、 状態認識情報だけでなく、 現在または過去 の口ポ トの行動を示す行動情報も参照しながら、 感情モデルの値を設定する。 これにより、 例えば、 何らかのタスクを実行中に、 ユーザが、 いたずらするつも りで頭を撫でたときに、 「うれしさ」 を表す感情モデルの値を増加させるような、 不自然な感情の変化が生じることを回避することができる。
なお、 モデル記憶部 5 1は、 本能モデルおよび成長モデルについても、 感情モ デルにおける場合と同様に、 状態認識情報おょぴ行動情報の両方に基づいて、 そ の値を増減させるようになつている。 また、 モデル記憶部 5 1は、 感情モデル、 本能モデル、 成長モデルそれぞれの値を、 他のモデルの値にも基づいて増減させ るようになっている。
行動決定機構部 5 2は、 センサ入力処理部 5 0からの状態認識情報や、 モデル 記憶部 5 1からの状態情報、 時間経過等に基づいて、 次の行動を決定し、 決定さ れた行動の内容を、 行動指令情報として、 姿勢遷移機構部 5 3に送出する。
即ち、 行動決定機構部 5 2は、 ロボットがとり得る行動をステート (状態) (s tate)に対応させた有限オートマトンを、 ロポットの行動を規定する行動モデル として管理しており、 この行動モデルとしての有限ォートマトンにおけるステー トを、 センサ入力処理部 5 0からの状態認識情報や、 モデル記憶部 5 1における 感情モデル、 本能モデル、 または成長モデルの値、 時間経過等に基づいて遷移さ せ、 遷移後のステートに対応する行動を、 次にとるべき行動として決定する。
ここで、 行動決定機構部 5 2は、 所定のトリガ(trigger)があったことを検出 すると、 ステートを遷移させる。 即ち、 行動決定機構部 5 2は、 例えば、 現在の ステートに対応する行動を実行している時間が所定時間に達したときや、 特定の 状態認識情報を受信したとき、 モデル記憶部 5 1から供給される状態情報が示す 感情や、 本能、 成長の状態の値が所定の閾値以下または以上になったとき等に、 ステートを遷移させる。
なお、 行動決定機構部 5 2は、 上述したように、 センサ入力処理部 5 0からの 状態認識情報だけでなく、 モデル記憶部 5 1における感情モデルや、 本能モデル、 成長モデルの値等にも基づいて、 行動モデルにおけるステートを遷移させること から、 同一の状態認識情報が入力されても、 感情モデルや、 本能モデル、 成長モ デルの値 (状態情報) によっては、 ステートの遷移先は異なるものとなる。
その結果、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っていない」 こ と、 および 「お腹がすいていない」 ことを表している場合において、 状態認識情 報が、 「目の前に手のひらが差し出された」 ことを表しているときには、 目の前 に手のひらが差し出されたことに応じて、 「お手」 という行動をとらせる行動指 令情報を生成し、 これを、 姿勢遷移機構部 5 3に送出する。
また、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っていない」 こと、 および 「お腹がすいている」 ことを表している場合において、 状態認識情報が、
「目の前に手のひらが差し出された」 ことを表しているときには、 目の前に手の ひらが差し出されたことに応じて、 「手のひらをぺろぺろなめる」 ような行動を 行わせるための行動指令情報を生成し、 これを、 姿勢遷移機構部 5 3に送出する。 また、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っている」 ことを表 している場合において、 状態認識情報が、 「目の前に手のひらが差し出された」 ことを表しているときには、 状態情報が、 「お腹がすいている」 ことを表してい ても、 また、 「お腹がすいていない」 ことを表していても、 「ぶいと横を向く」 ような行動を行わせるための行動指令情報を生成し、 これを、 姿勢遷移機構部 5 3に送出する。
なお、 行動決定機構部 5 2では、 上述したように、 ロボットの頭部や手足等を 動作させる行動指令情報の他、 ロボットに発話を行わせる行動指令情報も生成さ れる。 口ポットに発話を行わせる行動指令情報は、 音声合成部 5 5に供給される ようになつており、 音声合成部 5 5に供給される行動指令情報には、 音声合成部 5 5に生成させる合成音に対応するテキス ト等が含まれる。 そして、 音声合成部 5 5は、 行動決定部 5 2から行動指令情報を受信すると、 その行動指令情報に含 まれるテキス トに基づき、 合成音を生成し、 スピーカ 1 8に供給して出力させる c これにより、 スピーカ 1 8からは、 例えば、 口ポットの鳴き声、 さらには、 「お 腹がすいた」 等のユーザへの各種の要求、 「何?」 等のユーザの呼びかけに対す る応答その他の音声出力が行われる。 また、 行動決定機構部 5 2は、 合成音を出 力する場合には、 下顎部 4 Aを開閉させる行動指令情報を、 必要に応じて生成し, 姿勢遷移機構部 5 3に出力する。 この場合、 合成音の出力に同期して、 下顎部 4 Aが開閉し、 ユーザに、 口ポットがしゃべっているかのような印象を与えること ができる。
姿勢遷移機構部 5 3は、 行動決定機構部 5 2から供給される行動指令情報に基 づいて、 ロボットの姿勢を、 現在の姿勢から次の姿勢に遷移させるための姿勢遷 移情報を生成し、 これを制御機構部 5 4に送出する。
制御機構部 5 4は、 姿勢遷移機構部 5 3からの姿勢遷移情報にしたがって、 了 クチユエータ 3 乃至 5 および 5 A2を駆動するための制御信号を生成し- これを、 ァクチユエータ 3 乃至 5 および 5 A2に送出する。 これにより、 ァクチユエータ 3 A Ai乃至 5 および 5 A2は、 制御信号にしたがって駆動し, ロボットは、 自律的に行動を起こす。
次に、 図 4は、 図 3の音声認識部 5 O Aの構成例を示している。
マイク 1 5からの音声信号は、 A D (Analog Digital)変換部 2 1に供給される c A D変換部 2 1は、 マイク 1 5からのアナログ信号である音声信号をサンプリン グ、 量子化し、 ディジタル信号である音声データに AZD変換する。 この音声デ ータは、 特徴抽出部 2 2に供給される。
特徴抽出部 2 2は、 そこに入力される音声データについて、 適当なフレームご とに、 例えば、 M F C C (Mel Frequency Cepstrum Coefficient)分析を行い、 そ の分析の結果得られる M F C Cを、 特徴ベクトル (特徴パラメータ) として、 マ ツチング部 2 3と未登録語区間処理部 2 7に出力する。 なお、 特徴抽出部 2 2で は、 その他、 例えば、 線形予測係数、 ケプストラム係数、 線スぺクトル対、 所定 の周波数帯域ごとのパワー (フィルタバンクの出力) 等を、 特徴べク トゾレとして 抽出することが可能である。
マッチング部 2 3は、 特徴抽出部 2 2からの特徴べクトルを用いて、 音響モデ ル記憶部 2 4、 辞書記憶部 2 5、 および文法記憶部 2 6を必要に応じて参照しな がら、 マイク 1 5に入力された音声 (入力音声) を、 例えば、 連続分布 HMM (H idden Markov Model)法に基づいて音声認識する。
即ち、 音響モデル記憶部 2 4は、 音声認識する音声の言語における個々の音素 や、 音節、 音韻などのサブワードについて音響的な特徴を表す音響モデル (例え ば、 HMMの他、 D P (Dynamic Programing)マッチングに用いられる標準パター ン等を含む) を記憶している。 なお、 ここでは、 連続分布 HMM法に基づいて音 声認識を行うこととしているので、 音響モデルとしては、 HMM (Hidden Markov Model)が用いられる。
辞書記憶部 2 5は、 認識対象の各単語ごとにクラスタリングされた、 その単語 の発音に関する情報 (音韻情報) と、 その単語の見出しとが対応付けられた単語 辞書を記憶している。
ここで、 図 5は、 辞書記憶部 2 5に記憶された単語辞書を示している。
図 5に示すように、 単語辞書においては、 単語の見出しと、 その音韻系列とが 対応付けられており、 音韻系列は、 対応する単語ごとにクラスタリングされてい る。 図 5の単語辞書では、 1つのエントリ (図 3の 1行) 1 1つのクラスタに 相当する。
なお、 図 5においては、 見出しは、 ローマ字と日本語 (仮名漢字) で表してあ り、 音韻系列は、 ローマ字で表してある。 但し、 音韻系列における 「N」 は、 撥 音 「ん」 を表す。 また、 図 5では、 1つのエントリに、 1つの音韻系列を記述し てあるが、 1つのエントリには、 複数の音韻系列を記述することも可能である。 図 4に戻り、 文法記憶部 2 6は、 辞書記憶部 2 5の単語辞書に登録されている 各単語が、 どのように連鎖する (つながる) かを記述した文法規則を記憶してい る。
ここで、 図 6は、 文法記憶部 2 6に記憶された文法規則を示している。 なお、 図 6の文法規則は、 E B N F (Extended Backus Naur Form)で記述されている。 図 6においては、 行頭から、 最初に現れる 「;」 までが、 1つの文法規則を表 している。 また、 先頭に 「$」 が付されたアルファベット (列) は、 変数を表し、 「$」 が付されていないアルファベット (列) は、 単語の見出し (図 5に示した ローマ字による見出し) を表す。 さらに、 []で囲まれた部分は、 省略可能である ことを表し、 「|」 は、 その前後に配置された見出しの単語 (あるいは変数) の うちのいずれか一方を選択することを表す。
従って、 図 6において、 例えば、 第 1行 (上から 1行目) の文法規則 「$ co l = [kono I sono] iro wa j は、 変数 $col力 「このいろ (色) は」 または 「そ のいろ (色) は」 という単語列であることを表す。
なお、 図 6に示した文法規則においては、 変数 $ s i lと $ garbageが定義されて いないが、 変数 $ s i lは、 無音の音響モデル (無音モデル) を表し、 変数 $garbag eは、 基本的には、 音韻どうしの間での自由な遷移を許可したガーベジモデルを 表す。
再び図 4に戻り、 マツチング部 2 3は、 辞書記憶部 2 5の単語辞書を参照する ことにより、 音響モデル記憶部 2 4に記憶されている音響モデルを接続すること で、 単語の音響モデル (単語モデル) を構成する。 さらに、 マッチング部 2 3は、 幾つかの単語モデルを、 文法記憶部 2 6に記憶された文法規則を参照することに より接続し、 そのようにして接続された単語モデルを用いて、 特徴ベクトルに基 づき、 連続分布 HMM法によって、 マイク 1 5に入力された音声を認識する。
即ち、 マッチング部 2 3は、 特徴抽出部 2 2が出力する時系列の特徴べク トル が観測されるスコア (尤度) が最も高い単語モデルの系列を検出し、 その単語モ デルの系列に対応する単語列の見出しを、 音声の認識結果として出力する。
より具体的には、 マッチング部 2 3は、 接続された単語モデルに対応する単語 列について、 各特徴べク トルの出現確率 (出力確率) を累積し、 その累積値をス コアとして、 そのスコアを最も高くする単語列の見出しを、 音声認識結果として 出力する。
以上のようにして出力される、 マイク 1 5に入力された音声の認識結果は、 状 態認識情報として、 モデル記憶部 5 1および行動決定機構部 5 2に出力される。 ここで、 図 6の実施の形態では、 第 9行 (上から 9行目) に、 ガーベジモデル を表す変数 $garbageを用いた文法規則 (以下、 適宜、 未登録語用規則という) r$pat l = $colorl $garbage $ color2 ;」 がある力 マツチング部 2 3は、 この 未登録語用規則が適用された場合には、 変数 $garbageに対応する音声区間を、 未登録語の音声区間として検出する。 さらに、 マッチング部 2 3は、 未登録語用 規則が適用された場合における変数 $garbageが表すガーベジモデルにおける音 韻の遷移としての音韻系列を、 未登録語の音韻系列として検出する。 そして、 マ ツチング部 2 3は、 未登録語用規則が適用された音声認識結果が得られた場合に 検出される未登録語の音声区間と音韻系列を、 未登録語区間処理部 2 7に供給す る。
なお、 上述の未登録語用規則 $patl = $colorl $garbage $color2 ;」 によれ ば、 変数 $colorlで表される、 単語辞書に登録されている単語 (列) の音韻系列 と、 変数 $color2で表される、 単語辞書に登録されている単語 (列) の音韻系列 との間にある 1つの未登録語が検出されるが、 本発明は、 発話に、 複数の未登録 語が含まれている場合や、 未登録語が、 単語辞書に登録されている単語 (列) の 間に挟まれていない場合であっても、 適用可能である。
未登録語区間処理部 2 7は、 特徴抽出部 2 2から供給される特徴べクトルの系 列 (特徴ベク トル系列) を一時記憶する。 さらに、 未登録語区間処理部 2 7は、 マッチング部 2 3から未登録語の音声区間と音韻系列を受信すると、 その音声区 間における音声の特徴べク トル系列を、 一時記憶している特徴べク トル系列から 検出する。 そして、 未登録語区間処理部 2 7は、 マッチング部 2 3からの音韻系 列 (未登録語) に、 ユニークな ID ddentification)を付し、 未登録語の音韻系 列と、 その音声区間における特徴ベク トル系列とともに、 特徴ベク トルバッファ 2 8に供給する。
特徴べク トルバッファ 2 8は、 例えば、 図 7に示すように、 未登録語区間処理 部 2 7から供給される未登録語の ID、 音韻系列、 および特徴べクトル系列を対 応付けて一時記憶する。
ここで、 図 7においては、 未登録語に対して、 1からのシーケンシャルな数字 が、 IDとして付されている。 従って、 例えば、 いま、 特徴べクトルバッファ 2 8において、 N個の未登録語の ID、 音韻系列、 および特徴ベク トル系列が記憶 されている場合において、 マッチング部 2 3が未登録語の音声区間と音韻系列を 検出すると、 未登録語区間処理部 2 7では、 その未登録語に対して、 N + 1が、 IDとして付され、 特徴べクトルバッファ 2 8では、 図 7に点線で示すように、 その未登録語の ID、 音韻系列、 および特徴ベクトル系列が記憶される。
再び図 4に戻り、 クラスタリング部 2 9は、 特徴べクトルバッファ 2 8に新た に記憶された未登録語 (以下、 適宜、 新未登録語という) について、 特徴べクト ルバッファ 2 8に既に記憶されている他の未登録語 (以下、 適宜、 既記憶未登録 語という) それぞれに対するスコアを計算する。 '
即ち、 クラスタリング部 2 9は、 新未登録語を入力音声とし、 かつ、 既記憶未 登録語を、 単語辞書に登録されている単語とみなして、 マッチング部 2 3におけ る場合と同様にして、 新未登録語について、 各既記憶未登録語に対するスコアを 計算する。 具体的には、 クラスタリング部 2 9は、 特徴ベクトルバッファ 2 8を 参照することで、 新未登録語の特徴べク トル系列を認識するとともに、 既記憶未 登録語の音韻系列にしたがって音響モデ を接続し、 その接続された音響モデル から、 新未登録語の特徴べクトル系列が観測される尤度としてのスコアを計算す る。
なお、 音響モデルは、 音響モデル記憶部 2 4に記憶されているものが用いられ る。
クラスタリング部 2 9は、 同様にして、 各既記憶未登録語について、 新未登録 語に対するスコアも計算し、 そのスコアによって、 スコアシート記憶部 3 0に記 憶されたスコアシートを更新する。
さらに、 クラスタリング部 2 9は、 更新したスコアシートを参照することによ り、 既に求められている、 未登録語 (既記憶未登録語) をクラスタリングしたク ラスタの中から、 新未登録語を新たなメンバとして加えるクラスタを検出する。 さらに、 クラスタリング部 2 9は、 新未登録語を、 検出したクラスタの新たなメ ンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて分割し、 その分割 結果に基づいて、 スコアシート記憶部 3 0に記憶されているスコアシートを更新 する。 スコアシート記憶部 3 0は、 新未登録語についての、 既記憶未登録語に対する スコアや、 既記憶未登録語についての、 新未登録語に対するスコア等が登録され たスコアシートを記憶する。
ここで、 図 8は、 スコアシートを示している。
スコアシートは、 未登録語の 「ID」 、 「音韻系列」 、 「クラスタナンパ」 、 「代表メンバ ID」 、 および 「スコア」 が記述されたエントリで構成される。
未登録語の 「ID」 と 「音韻系列」 としては、 特徴ベク トルバッファ 2 8に記憶 されたものと同一のものが、 クラスタリング部 2 9によって登録される。 「クラ スタナンパ」 は、 そのエントリの未登録語がメンバとなっているクラスタを特定 するための数字で、 クラスタリング部 2 9によって付され、 スコアシートに登録 される。 「代表メンバ ID」 は、 そのエントリの未登録語がメンバとなっている クラスタを代表する代表メンバとしての未登録語の IDであり、 この代表メンバ IDによって、 未登録語がメンバとなっているクラスタの代表メンバを認識する ことができる。 なお、 クラスタの代表メンバは、 クラスタリング部 2 9によって 求められ、 その代表メンバの IDが、 スコアシートの代表メンバ IDに登録される ( 「スコア」 は、 そのエントリの未登録語についての、 他の未登録語それぞれに対 するスコアであり、 上述したように、 クラスタリング部 2 9によって計算される, 例えば、 いま、 特徴ベク トルバッファ 2 8において、 N個の未登録語の ID、 音韻系列、 および特徴ベク トル系列が記憶されているとすると、 スコアシートに は、 その N個の未登録語の ID、 音韻系列、 クラスタナンパ、 代表メンバ Π)、 お ょぴスコアが登録されている。
そして、 特徴べク トルバッファ 2 8に、 新未登録語の ID、 音韻系列、 および 特徴べク トル系列が新たに記憶されると、 クラスタリング部 2 9では、 スコアシ ートが、 図 8において点線で示すように更新される。
即ち、 スコアシートには、 新未登録語の ID、 音韻系列、 クラスタナンパ、 代 表メンバ ID、 新未登録語についての、 既記憶未登録語それぞれに対するスコア (図 8におけるスコア s (N+l, l),s (N+l, 2) , · · - , s (N+l, N) ) が追加される。 さ らに、 スコアシートには、 既記憶未登録語それぞれについての、 新未登録語に対 するスコア (図 8における s (l,N+l) , s (2,N+l) , · · ■, s (N, N+l) ) が追加され る。 さらに、 後述するように、 スコアシートにおける未登録語のクラスタナンパ と代表メンバ ID力 必要に応じて変更される。
なお、 図 8の実施の形態においては、 IDが iの未登録語 (の発話) について の、 IDが jの未登録語 (の音韻系列) に対するスコアを、 s (i,j)として表して ある。
また、 スコアシート (図 8 ) には、 ID が i の未登録語 (の発話) についての、 IDが iの未登録語 (の音韻系列) に対するスコア s (i,i)も登録される。 但し、 このスコア s (i,i)は、 マッチング部 2 3において、 未登録語の音韻系列が検出 されるときに計算されるため、 クラスタリング部 2 9で計算する必要はない。
再び図 4に戻り、 メンテナンス部 3 1は、 スコアシート記憶部 3 0における、 更新後のスコアシートに基づいて、 辞書記憶部 2 5に記憶された単語辞書を更新 する。
ここで、 クラスタの代表メンバは、 次のように決定される。 即ち、 例えば、 ク ラスタのメンバとなっている未登録語のうち、 他の未登録語それぞれについての スコアの総和 (その他、 例えば、 総和を、 他の未登録語の数で除算した平均値で も良い) を最大にするものが、 そのクラスタの代表メンバとされる。 従って、 こ の場合、 クラスタに属するメンバのメンバ IDを kで表すこととすると、 次式で 示される値 K ( ek) を IDとするメンバが、 代表メンバとされることになる。
K=max,, {∑ s (k , k) }
• · ■ ( 1 ) 但し、 式 (1 ) において、 maxk {}は、 {}内の値を最大にする kを意味する。 ま た、 k'は、 kと同様に、 クラスタに属するメンバの IDを意味する。 さらに、 ∑ は、 k,を、 クラスタに属するメンバすベての IDに亘つて変化させての総和を意 味する。
なお、 上述のように代表メンバを決定する場合、 クラスタのメンバが、 1また は 2つの未登録語であるときには、 代表メンバを決めるにあたって、 スコアを計 算する必要はない。 即ち、 クラスタのメンバが、 1つの未登録語である場合には、 その 1つの未登録語が代表メンバとなり、 クラスタのメンバが、 2つの未登録語 である場合には、 その 2つの未登録語のうちのいずれを、 代表メンバとしても良 い。
また、 代表メンバの決定方法は、 上述したものに限定されるものではなく、 そ の他、 例えば、 クラスタのメンバとなっている未登録語のうち、 他の未登録語そ れぞれとの特徴べク トル空間における距離の総和を最小にするもの等を、 そのク ラスタの代表メンバとすることも可能である。
以上のように構成される音声認識部 5 O Aでは、 マイク 1 5に入力された音声 を認識する音声認識処理と、 未登録語に関する未登録語処理が行われるようにな つている。
そこで、 まず最初に、 図 9のフローチャートを参照して、 音声認識処理につい て説明する。
ユーザが発話を行うと、 その発話された音声は、 マイク 1 5および A D変換部 2 1を介することにより、 ディジタ レの音声データとされ、 特徴抽出部 2 2に供 給される。 特徴抽出部 2 2は、 ステップ S 1において、 音声データを、 所定のフ レーム単位で音響分析することにより、 特徴べク トルを抽出し、 その特徴べクト ルの系列を、 マツチング部 2 3および未登録語区間処理部 2 7に供給する。
マッチング部 2 3は、 ステップ S 2において、 特徴抽出部 2 3からの特徴べク トル系列について、 上述したようにスコア計算を行い、 ステップ S 3に進む。 ス テツプ S 3では、 マッチング部 2 3は、 スコア計算の結果得られるスコアに基づ いて、 音声認識結果となる単語列の見出しを求めて出力する。
さらに、 マッチング部 2 3は、 ステップ S 4に進み、 ユーザの音声に、 未登録 語が含まれていたかどうかを判定する。
ステップ S 4において、 ユーザの音声に、 未登録語が含まれていないと判定さ れた場合、 即ち、 上述の未登録語用規則 「$patl = $colorl $garbage $color2 ;」 が適用されずに、 音声認識結果が得られた場合、 ステップ S 5をスキップし て、 処理を終了する。
また、 ステップ S 4において、 ユーザの音声に、 未登録語が含まれていると判 定された場合、 即ち、 未登録語用規則 「$patl = $colorl $garbage $color2 ;」 が適用されて、 音声認識結果が得られた場合、 ステップ S 5に進み、 マッチング 部 2 3は、 未登録語用規則の変数 $garbageに対応する音声区間を、 未登録語の 音声区間として検出するとともに、 その変数 $garbageが表すガーベジモデルに おける音韻の遷移としての音韻系列を、 未登録語の音韻系列として検出し、 その 未登録語の音声区間と音韻系列を、 未登録語区間処理部 2 7に供給して、 処理を 終了する。
一方、 未登録語区間処理部 2 7は、 特徴抽出部 2 2から供給される特徴べクト ル系列を一時記憶しており、 マッチング部 2 3から未登録語の音声区間と音韻系 列が供給されると、 その音声区間における音声の特徴べクトル系列を検出する。 さらに、 未登録語区間処理部 2 7は、 マッチング部 2 3からの未登録語 (の音韻 系列) に IDを付し、 未登録語の音韻系列と、 その音声区間における特徴べク ト ル系列とともに、 特徴べクトルバッファ 2 8に供給する。
以上のようにして、 特徴ベクトルバッファ 2 8に、 新たな未登録語 (新未登録 語) の ID、 音韻系列、 および特徴べクトル系列が記憶されると、 未登録語処理 が行われる。
即ち、 図 1 0は、 未登録語処理を説明するフローチャートを示している。 未登録語処理では、 まず最初に、 ステップ S 1 1において、 クラスタリング部 2 9が、 特徴ベクトルバッファ 2 8から、 新未登録語の IDと音韻系列を読み出 し、 ステップ S 1 2に進む。
ステップ S 1 2では、 クラスタリング部 2 9が、 スコアシート記憶部 3 0のス コアシートを参照することにより、 既に求められている (生成されている) クラ スタが存在するかどうかを判定する。
ステップ S 1 2において、 既に求められているクラスタが存在しないと判定さ れた場合、 即ち、 新未登録語が、 初めての未登録語であり、 スコアシートに、 既 記憶未登録語のエントリが存在しない場合、 ステップ S 1 3に進み、 クラスタリ ング部 2 9は、 その新未登録語を代表メンバとするクラスタを新たに生成し、 そ の新たなクラスタに関する情報と、 新未登録語に関する情報とを、 スコアシート 記憶部 3 0のスコアシートに登録することにより、 スコアシートを更新する。
即ち、 クラスタリング部 2 9は、 特徴ベク トルバッファ 2 8から読み出した新 未登録語の IDおよび音韻系列を、 スコアシート (図 8 ) に登録する。 さらに、 クラスタリング部 2 9は、 ユニークなクラスタナンパを生成し、 新未登録語のク ラスタナンパとして、 スコアシートに登録する。 また、 クラスタリング部 2 9は、 新未登録語の IDを、 その新未登録語の代表メンバ IDとして、 スコアシートに登 録する。 従って、 この場合は、 新未登録語は、 新たなクラスタの代表メンバとな る。
なお、 いまの場合、 新未登録語とのスコアを計算する既記憶未登録語が存在し ないため、 スコアの計算は行われない。
ステップ S 1 3の処理後は、 ステップ S 2 2に進み、 メンテナンス部 3 1は、 ステップ S 1 3で更新されたスコアシートに基づいて、 辞書記憶部 2 5の単語辞 書を更新し、 処理を終了する。
即ち、 いまの場合、 新たなクラスタが生成されているので、 メンテナンス部 3
1は、 スコアシートにおけるクラスタナンバを参照し、 その新たに生成されたク ラスタを認識する。 そして、 メンテナンス部 3 1は、 そのクラスタに対応するェ ントリを、 辞書記憶部 2 5の単語辞書に追加し、 そのエントリの音韻系列として、 新たなクラスタの代表メンバの音韻系列、 つまり、 いまの場合は、 新未登録語の 音韻系列を登録する。
一方、 ステップ S 1 2において、 既に求められているクラスタが存在すると判 定された場合、 即ち、 新未登録語が、 初めての未登録語ではなく、 従って、 スコ ァシート (図 8 ) に、 既記憶未登録語のエントリ (行) が存在する場合、 ステツ プ S 1 4に進み、 クラスタリング部 2 9は、 新未登録語について、 各既記憶未登 録語それぞれに対するスコアを計算するとともに、 各既記憶未登録語それぞれに ついて、 新未登録語に対するスコアを計算する。
即ち、 例えば、 いま、 IDが 1乃至 Nの N個の既記憶未登録語が存在し、 新未 登録語の IDを N+1 とすると、 クラスタリング部 2 9では、 図 8において点線で 示した部分の新未登録語についての N個の既記憶未登録語それぞれに対するスコ ァ s (N+l, l),s (N+l,2) , · . .,s (N+l,N)と、 N個の既記憶未登録語それぞれにつ いての新未登録語に対するスコア s (l,N+l),s (2, N+l), · ■ ., s (N, N+l)が計算 される。 なお、 クラスタリング部 2 9において、 これらのスコアを計算するにあ たっては、 新未登録語と N個の既記憶未登録語それぞれの特徴べク トル系列が必 要となるが、 これらの特徴べク トル系列は、 特徴べク トルバッファ 2 8を参照す ることで認、識される。
そして、 クラスタリング部 2 9は、 計算したスコアを、 新未登録語の IDおよ ぴ音韻系列とともに、 スコアシート (図 8 ) に追加し、 ステップ S 1 5に進む。 ステップ S 1 5では、 クラスタリング部 2 9は、 スコアシート (図 8 ) を参照 することにより、 新未登録語についてのスコア s (N+l, i) (i=l, 2, - ■ ·,Ν)を最 も高く (大きく) する代表メンバを有するクラスタを検出する。 即ち、 クラスタ リング部 2 9は、 スコアシートの代表メンバ IDを参照することにより、 代表メ ンバとなっている既記憶未登録語を認識し、 さらに、 スコアシートのスコアを参 照することで、 新未登録語についてのスコアを最も高くする代表メンバとしての 既記憶未登録語を検出する。 そして、 クラスタリング部 2 9は、 その検出した代 表メンバとしての既記憶未登録語のクラスタナンパのクラスタを検出する。
その後、 ステップ S 1 6に進み、 クラスタリング部 2 9は、 新未登録語を、 ス テツプ S 1 5で検出したクラスタ (以下、 適宜、 検出クラスタという) のメンバ に加える。 即ち、 クラスタリング部 2 9は、 スコアシートにおける新未登録語の クラスタナンパとして、 検出クラスタの代表メンバのクラスタナンバを書き込む c そして、 クラスタリング部 2 9は、 ステップ S 1 7において、 検出クラスタを, 例えば、 2つのクラスタに分割するクラスタ分割処理を行い、 ステップ S 1 8に 進む。 ステップ S 1 8では、 クラスタリング部 2 9は、 ステップ S 1 7のクラス タ分割処理によって、 検出クラスタを 2つのクラスタに分割することができたか どうかを判定し、 分割することができたと判定した場合、 ステップ S 1 9に進む。 ステップ S 1 9では、 クラスタリング部 2 9は、 検出クラスタの分割により得ら れる 2つのクラスタ (この 2つのクラスタを、 以下、 適宜、 第 1の子クラスタと 第 2の子クラスタという) どうしの間のクラスタ間距離を求める。
ここで、 第 1と第 2の子クラスタどうしの間のクラスタ間距離とは、 例えば、 次のように定義される。
即ち、 第 1の子クラスタと第 2の子クラスタの両方の任意のメンバ (未登録 語) の IDを、 kで表すとともに、 第 1と第 2の子クラスタの代表メンバ (未登 録語) の IDを、 それぞれ klまたは k2で表すこととすると、 次式で表される値 D (kl,k2)を、 第 1と第 2の子クラスタどうしの間のクラスタ間距離とする。
D (kl, k2) =maxvalk {abs (log (s (k, kl) )一 log (s (k, k2) ) ) }
• · · ( 2 ) 伹し、 式 (2 ) において、 abs ()は、 0内の値の絶対値を表す。 また、 maxvalk {}は、 kを変えて求められる {}内の値の最大値を表す。 また、 logは、 自然対数 または常用対数を表す。
いま、 IDが iのメンバを、 メンバ tti と表すこととすると、 式 ( 2 ) における スコアの逆数 l/s (k, kl)は、 メンバ #kと代表メンバ kl との距離に相当し、 スコ ァの逆数 l/s (k,k2)は、 メンバ #k と代表メンバ k2 との距離に相当する。 従って- 式 ( 2 ) によれば、 第 1と第 2の子クラスタのメンバのうち、 第 1の子クラスタ の代表メンバ #kl との距離と、 第 2の子クラスタの代表メンバ #k2との距離との 差の最大値が、 第 1と第 2の子クラスタどうしの間の子クラスタ間距離とされる ことになる。
なお、 クラスタ間距離は、 上述したものに限定されるものではなく、 その他、 例えば、 第 1の子クラスタの代表メンバと、 第 2の子クラスタの代表メンバとの D Pマッチングを行うことにより、 特徴べク トル空間における距離の積算値を求 め、 その距離の積算値を、 クラスタ間距離とすることも可能である。
ステップ S 1 9の処理後は、 ステップ S 2 0に進み、 クラスタリング部 2 9は、 第 1と第 2の子クラスタどうしのクラスタ間距離が、 所定の閾値 ε より大である (あるいは、 閾値 ε以上である) かどうかを判定する。
ステップ S 2 0において、 クラスタ間距離が、 所定の閾値 Ε より大であると判 定された場合、 即ち、 検出クラスタのメンバとしての複数の未登録語が、 その音 響的特徴からいって、 2つのクラスタにクラスタリングすべきものであると考え られる場合、 ステップ S 2 1に進み、 クラスタリング部 2 9は、 第 1と第 2の子 クラスタを、 スコアシート記憶部 3 0のスコアシートに登録する。
即ち、 クラスタリング部 2 9は、 第 1と第 2の子クラスタに、 ユニークなクラ スタナンバを割り当て、 検出クラスタのメンバのうち、 第 1の子クラスタにクラ スタリングされたもののクラスタナンバを、 第 1の子クラスタのクラスタナンパ にするとともに、 第 2の子クラスタにクラスタリングされたもののクラスタナン バを、 第 2の子クラスタのクラスタナンパにするように、 スコアシートを更新す る。
さらに、 クラスタリング部 2 9は、 第 1の子クラスタにクラスタリングされた メンバの代表メンバ IDを、 第 1の子クラスタの代表メンバの IDにするとともに. 第 2の子クラスタにクラスタリングされたメンバの代表メンバ IDを、 第 2の子 クラスタの代表メンバの IDにするように、 スコアシートを更新する。
なお、 第 1と第 2の子クラスタのうちのいずれか一方には、 検出クラスタのク ラスタナンパを割り当てるようにすることが可能である。
クラスタリング部 2 9が、 以上のようにして、 第 1と第 2の子クラスタを、 ス コアシートに登録すると、 ステップ S 2 1から S 2 2に進み、 メンテナンス部 3 丄力 S、 スコアシートに基づいて、 辞書記憶部 2 5の単語辞書を更新し、 処理を終 了する。
即ち、 いまの場合、 検出クラスタが、 第 1と第 2の子クラスタに分割されたた め、 メンテナンス部 3 1は、 まず、 単語辞書における、 検出クラスタに対応する エントリを削除する。 さらに、 メンテナンス部 3 1は、 第 1と第 2の子クラスタ それぞれに対応する 2つのエントリを、 単語辞書に追加し、 第 1の子クラスタに 対応するェントリの音韻系列として、 その第 1の子クラスタの代表メンバの音韻 系列を登録するとともに、 第 2の子クラスタに対応するェントリの音韻系列とし て、 その第 2の子クラスタの代表メンバの音韻系列を登録する。
一方、 ステップ S 1 8において、 ステップ S 1 7のタラスタ分割処理によって、 検出クラスタを 2つのクラスタに分割することができなかったと判定された場合、 あるいは、 ステップ S 2 0において、 第 1と第 2の子クラスタのクラスタ間距離 1 所定の閾値 ε より大でないと判定された場合 (従って、 検出クラスタのメン バとしての複数の未登録語の音響的特徴が、 第 1と第 2の 2つの子クラスタにク ラスタリングするほど似ていないものではない場合) 、 ステップ S 2 3に進み、 クラスタリング部 2 9は、 検出クラスタの新たな代表メンバを求め、 スコアシー トを更新する。
即ち、 クラスタリング部 2 9は、 新未登録語をメンバとして加えた検出クラス タの各メンバについて、 スコアシート記憶部 3 0のスコアシートを参照すること により、 式 (1 ) の計算に必要なスコア s (k,,k)を認識する。 さらに、 クラスタ リング部 2 9は、 その認識したスコア s (k',k)を用い、 式 (1 ) に基づき、 検出 クラスタの新たな代表メンバとなるメンバの IDを求める。 そして、 クラスタリ ング部 2 9は、 スコアシート (図 8 ) における、 検出クラスタの各メンバの代表 メンバ IDを、 検出クラスタの新たな代表メンバの IDに書き換える。
その後、 ステップ S 2 2に進み、 メンテナンス部 3 1が、 スコアシートに基づ いて、 辞書記憶部 2 5の単語辞書を更新し、 処理を終了する。
即ち、 いまの場合、 メンテナンス部 3 1は、 スコアシートを参照することによ り、 検出クラスタの新たな代表メンバを認識し、 さらに、 その代表メンバの音韻 系列を認識する。 そして、 メンテナンス部 3 1は、 単語辞書における、 検出クラ スタに対応するエントリの音韻系列を、 検出クラスタの新たな代表メンバの音韻 系列に変更する。 次に、 図 1 1のフローチャートを参照して、 図 1 0のステップ S 1 7のクラス タ分割処理の詳細について説明する。
クラスタ分割処理では、 まず最初に、 ステップ S 3 1において、 クラスタリン グ部 2 9力 新未登録語がメンバとして加えられた検出クラスタから、 まだ選択 していない任意の 2つのメンバの組み合わせを選択し、 それぞれを、 仮の代表メ ンバとする。 ここで、 この 2つの仮の代表メンバを、 以下、 適宜、 第 1の仮代表 メンバと第 2の仮代表メンノ という。
そして、 ステップ S 3 2に進み、 クラスタリング部 2 9は、 第 1の仮代表メン バと、 第 2の仮代表メンバを、 それぞれ代表メンバとすることができるように、 検出クラスタのメンバを、 2つのクラスタに分割することができるかどうかを判 定する。
ここで、 第 1または第 2の仮代表メンバを代表メンバとすることができるかど うかは、 式 (1 ) の計算を行う必要があるが、 この計算に用いられるスコア s (k ' , k)は、 スコアシートを参照することで認識される。
ステップ S 3 2において、 第 1の仮代表メンバと、 第 2の仮代表メンバを、 そ れぞれ代表メンバとすることができるように、 検出クラスタのメンバを、 2つの クラスタに分割することができないと判定された場合、 ステップ S 3 3をスキッ プして、 ステップ S 3 4に進む。
また、 ステップ S 3 2において、 第 1の仮代表メンバと、 第 2の仮代表メンバ を、 それぞれ代表メンパとすることができるように、 検出クラスタのメンバを、 2つのクラスタに分割することができると判定された場合、 ステップ S 3 3に進 み、 クラスタリング部 2 9は、 第 1の仮代表メンバと、 第 2の仮代表メンバが、 それぞれ代表メンパとなるように、 検出クラスタのメンバを、 2つのクラスタに 分割し、 その分割後の 2つのクラスタの組を、 検出クラスタの分割結果となる第 1および第 2の子クラスタの候補 (以下、 適宜、 侯補クラスタの組という) とし て、 ステップ S 3 4に進む。
ステップ S 3 4では、 クラスタリング部 2 9は、 検出クラスタのメンバの中で- まだ、 第 1と第 2の仮代表メンバの組として選択していない 2つのメンバの組
(組み合わせ) があるかどうかを判定し、 あると判定した場合、 ステップ S 3 1 に戻り、 まだ、 第 1と第 2の仮代表メンバの組として選択していない、 検出クラ スタの 2つのメンバの組が選択され、 以下、 同様の処理が繰り返される。
また、 ステップ S 3 4において、 第 1と第 2の仮代表メンバの組として選択し ていない、 検出クラスタの 2つのメンバの組がないと判定された場合、 ステップ S 3 5に進み、 クラスタリング部 2 9は、 候補クラスタの組が存在するかどうか を判定する。
ステップ S 3 5において、 候捕クラスタの組が存在しないと判定された場合、 ステップ S 3 6をスキップして、 リターンする。 この場合は、 図 1 0のステップ S 1 8において、 検出クラスタを分割することができなかったと判定される。 一方、 ステップ S 3 5において、 候補クラスタの組が存在すると判定された場 合、 ステップ S 3 6に進み、 クラスタリング部 2 9は、 候補クラスタの組が複数 存在するときには、 各候補クラスタの組の 2つのクラスタどうしの間のクラスタ 間距離を求める。 そして、 クラスタリング部 2 9は、 クラスタ間距離が最小の候 補クラスタの組を求め、 その候補クラスタの組を、 検出クラスタの分割結果とし て、 即ち、 第 1と第 2の子クラスタとして、 リターンする。 なお、 候補クラスタ の組が 1つだけの場合は、 その候捕クラスタの組が、 そのまま、 第 1と第 2の子 クラスタとされる。
この場合は、 図 1 0のステップ S 1 8において、 検出クラスタを分割すること ができたと判定される。
以上のように、 クラスタリング部 2 9において、 既に求められている、 未登録 語をクラスタリングしたクラスタの中から、 新未登録語を新たなメンパとして加 えるクラスタ (検出クラスタ) を検出し、 新未登録語を、 その検出クラスタの新 たなメンバとして、 検出クラスタを、 その検出クラスタのメンバに基づいて分割 するようにしたので、 未登録語を、 その音響的特徴が近似しているものどうしに 容易にクラスタリングすることができる。 さらに、 メンテナンス部 3 1において、 そのようなクラスタリング結果に基づ いて、 単語辞書を更新するようにしたので、 単語辞書の大規模化を避けながら、 未登録語の単語辞書への登録を、 容易に行うことができる。
また、 例えば、 仮に、 マッチング部 2 3において、 未登録語の音声区間の検出 を誤ったとしても、 そのような未登録語は、 検出クラスタの分割によって、 音声 区間が正しく検出された未登録語とは別のクラスタにクラスタリングされる。 そ して、 このようなクラスタに対応するエントリ力 単語辞書に登録されることに なるが、 このエントリの音韻系列は、 正しく検出されなかった音声区間に対応す るものとなるから、 その後の音声認識において、 大きなスコアを与えることはな い。 従って、 仮に、 未登録語の音声区間の検出を誤ったとしても、 その誤りは、 その後の音声認識には、 ほとんど影響しない。
ここで、 図 1 2は、 未登録語の発話を行って得られたクラスタリングのシミュ レーシヨン結果を示している。 なお、 図 1 2においては、 各エントリ (各行) が、 1つのクラスタを表している。 また、 図 1 2の左欄は、 各クラスタの代表メンバ (未登録語) の音韻系列を表しており、 図 1 2の右欄は、 各クラスタのメンバと なっている未登録語の発話内容と数を表している。
即ち、 図 1 2において、 例えば、 第 1行のエントリは、 未登録語 「風呂」 の 1 つの発話だけがメンバとなっているクラスタを表しており、 その代表メンバの音 韻系列は、 「doroa:」 (ドロア一) になっている。 また、 例えば、 第 2行のェン トリは、 未登録語 「風呂」 の 3つの発話がメンバとなっているクラスタを表して おり、 その代表メンバの音韻系列は、 「kuroJ (クロ) になっている。
さらに、 例えば、 第 7行のエントリは、 未登録語 「本」 の 4つの発話がメンバ となっているクラスタを表しており、 その代表メンバの音韻系列は、 「NhoNde : s uj (ンホンデース) になっている。 また、 例えば、 第 8行のエントリは、 未登 録語 「オレンジ」 の 1つの発話と、 未登録語 「本」 の 1 9の発話がメンバとなつ ているクラスタを表しており、 その代表メンバの音韻系列は、 「ohoN」 (ォホ ン) になっている。 他のエントリも、 同様のことを表している。 図 1 2によれば、 同一の未登録語の発話について、 良好にクラスタリングされ ていることが分かる。
なお、 図 1 2の第 8行のエントリにおいては、 未登録語 「オレンジ」 の 1つの 発話と、 未登録語 「本」 の 1 9の発話が、 同一のクラスタにクラスタリングされ ている。 このクラスタは、 そのメンバとなっている発話から、 未登録語 「本」 の クラスタとなるべきであると考えられるが、 未登録語 「オレンジ」 の発話も、 そ のクラスタのメンバとなっている。 しかしながら、 このクラスタも、 その後に、 未登録語 「本」 の宪話がさらに入力されていくと、 クラスタ分割され、 未登録語 「本」 の発話だけをメンバとするクラスタと、 未登録語 「オレンジ」 の発話だけ をメンバとするクラスタにクラスタリングされると考えられる。
以上、 本発明を、 エンターテイメント用のロボット (疑似ペットとしてのロボ ット) に適用した場合について説明したが、 本発明は、 これに限らず、 例えば、 音声認識装置を搭載した音声対話システムその他に広く適用することが可能であ る。 また、 本発明は、 現実世界のロボットだけでなく、 例えば、 液晶ディスプレ ィ等の表示装置に表示される仮想的なロボットにも適用可能である。
なお、 第 1実施の形態においては、 上述した一連の処理を、 C P U 1 0 Aにプ ログラムを実行させることにより行うようにしたが、 一連の処理は、 それ専用の ハードウエアによって行うことも可能である。
ここで、 プログラムは、 あらかじめメモリ 1 0 B (図 2 ) に記憶させておく他、 フレキシブルディスク、 CD-ROM (Compact Disc Read Only Memory) , M0 (Magneto optical)ディスク, DVD (Digital Versatile Disc) , 磁気ディスク、 半導体メモ リなどのリムーバブル記録媒体に、 一時的あるいは永続的に格納 (記録) してお くことができる。 そして、 このようなリムーバブル記録媒体を、 いわゆるパッケ 一ジソフトウェアとして提供し、 ロボット (メモリ 1 0 B ) にインス トールする ようにすることができる。
また、 プログラムは、 ダウンロードサイ トから、 ディジタル衛星放送用の人工 衛星を介して、 無線で転送したり、 LAN (Local Area Network) , インターネット といったネットワークを介して、 有線で転送し、 メモリ 1 0 Bにインス トールす ることができる。
この場合、 プログラムがバージョンアップされたとき等に、 そのバージョンァ ップされたプログラムを、 メモリ 1 0 Bに、 容易にインス トールすることができ る。
なお、 上述した例において、 C P U 1 O Aに各種の処理を行わせるためのプロ グラムを記述する処理ステップは、 必ずしもフローチヤ一トとして記載された順 序に沿つて時系列に処理する必要はなく、 並列的あるいは個別に実行される処理 (例えば、 並列処理あるいはオブジェクトによる処理) も含むものである。
また、 プログラムは、 1の C P Uにより処理されるものであっても良いし、 複 数の C P Uによって分散処理されるものであっても良い。
また、 図 4の音声認識部 5 O Aも、 専用のハードウェアにより実現することも できるし、 ソフトウェアにより実現することもできる。 音声認識部 5 O Aをソフ トウエアによって実現する場合には、 そのソフトウェアを構成するプログラムが. 汎用のコンピュータ等にインス トールされる。
そこで、 図 1 3は、 音声認識部 5 O Aを実現するためのプログラムがインスト ールされるコンピュータの一実施の形態の構成例を示している。
即ち、 図 1 3には、 本発明が適用される他の例の音声認識装置 9 1が示されて いる。
図 1 3に示されるように、 プログラムは、 コンピュータに内蔵されている記録 媒体としてのハードディスク 1 0 5や R OM 1 0 3に予め記録しておくことがで さる。 ' あるいはまた、 プログラムは、 フレキシブルディスク、 CD- ROM, M0 ディスク: DVD、 磁気ディスク、 半導体メモリなどのリムーパプル記録媒体 1 1 1に、 一時 的あるいは永続的に格納 (記録) しておくことができる。 このようなリムーバブ ル記録媒体 1 1 1は、 いわゆるパッケージソフトウェアとして提供することがで さる。 なお、 プログラムは、 上述したようなリムーバブル記録媒体 1 1 1からコンビ ユータにインス トールする他、 ダウンロードサイトから、 ディジタル衛星放送用 の人工衛星を介して、 コンピュータに無線で転送したり、 LAN、 インターネッ ト といったネットワークを介して、 コンピュータに有線で転送し、 コンピュータで は、 そのようにして転送されてくるプログラムを、 通信部 1 0 8で受信し、 内蔵 するハ一ドディスク 1 0 5にインストールすることができる。
音声認識装置 9 1は、 CPU (Central Processing Unit) 1 0 2を内蔵している。 CPU 1 0 2には、 バス 1 0 1を介して、 入出力ィンタフェース 1 1 0が接続され ており、 CPU 1 0 2は、 入出力ィンタフェース 1 1 0を介して、 ユーザによって, キーボードや、 マウス、 マイク、 A D変換器等で構成される入力部 1 0 7が操作 等されることにより指令が入力されると、 それにしたがって、 R0M (Read Only Me mory) 1 0 3に格納されているプログラムを実行する。 あるいは、 また、 CPU 1 0 2は、 ハードディスク 1 0 5に格納されているプログラム、 衛星若しくはネット ワークから転送され、 通信部 1 0 8で受信されてハードディスク 1 0 5にインス トールされたプログラム、 またはドライブ 1 0 9に装着されたリムーバブル記録 媒体 1 1 1から読み出されてハードディスク 1 0 5にインストールされたプログ ラムを、 RAM (Random Access Memory) 1 0 4にロードして実行する。 これにより. CPU 1 0 2は、 上述したフローチャートにしたがった処理、 あるいは上述したブ ロック図の構成により行われる処理を行う。 そして、 CPU 1 0 2は、 その処理結 果を、 必要に応じて、 例えば、 入出力インタフェース 1 1 0を介して、 LCD (Liqu id Crystal Display)等のディスプレイや、 スピーカ、 D A (Digital Analog)変 換器等で構成される出力部 1 0 6から出力、 あるいは、 通信部 1 0 8から送信、 さらには、 ハードディスク 1 0 5に記録等させる。
図 1 4は、 音声認識装置 9 1のソフ トウェアプログラムの構成例を表している, このソフトウェアプログラムは、 複数のモジュールにより構成される。 各モジュ ールは、 1つの独立したアルゴリズムを持ち、 かつ、 そのアルゴリズムに従って 固有の動作を実行する。 即ち、 各モジュールは、 RAM I 3に記憶され、 CPU 1 1に より適宜読み出され、 実行される。
図 1 4に示される各モジュールは、 図 4に示される各ブロックに対応する。 即 ち、 音響モデルバッファ 1 3 3は音響モデル記憶部 2 4に、 辞書バッファ 1 3 4 は辞書記憶部 2 5に、 文法バッファ 1 3 5は文法記憶部 2 6に、 特徴抽出モジュ ール 1 3 1は特徴抽出部 2 2に、 マツチングモジュール 1 3 2はマツチング部 2 3に、 未登録語区間処理モジュール 1 3 6は未登録区間処理部 2 7に、 特徴べク トノレバッファ 1 3 7は特徴べク トルバッファ 2 8に、 クラスタリングモジュール 1 3 8はクラスタリング部 2 9に、 スコアシートバッファ 1 3 9にはスコアシー ト記憶部 3 0に、 メンテナンスモジュール 1 4 0はメンテナンス部 3 1に、 それ ぞれ対応する。
ただし、 この例においては、 図 1 3の入力部 1 0 7において、 マイクロホンに より入力されるアナログの音声信号が、 AD変換部により、 サンプリングされ、 量子化されて、 デジタルの音声データに A/D変換 (Analog / Digital変換)され、 特徴抽出モジュール 1 3 1に供給されるものとする。
また、 この例においては、 特徴べクトルバッファ 1 3 7には、 例えば、 図 1 5 に示されるように、 未登録語区間処理モジュール 1 3 6より供給される未登録語 の ID、 音韻系列、 特徴ベクトル系列、 および記録時刻が対応付けられて記憶さ れる。 換言すると、 特徴べクトルバッファ 1 3 7には、 複数の未登録語のェント リ (行) により構成されるデータ群が記憶されている。
図 1 5の例では、 未登録語に対して、 1からのシーケンシャルな数字が、 ID として付されている。 従って、 例えば、 いま、 特徴べクトルバッファ 1 3 7にお いて、 N個の未登録語の ID、 音韻系列、 特徴べクトル系列、 および記録時刻が記 憶されているものとすると、 マッチングモジュール 1 3 2が未登録語の音声区間 と音韻系列を新たに検出すると、 未登録語区間処理モジュール 1 3 6では、 その 未登録語に対して、 N+1 力 S ID として付され、 特徴べクトルバッファ 1 3 7では. 図 1 5に点線で示されるように、 その未登録語の ID (N+1) 、 音韻系列、 特徴べ ク トル系列、 および、 記録時刻が記憶される。 ここで、 図 1 5の各エントリは、 図 7に示したエントリに、 記録時刻を追加し たものとなっている。 この記録時刻は、 エントリが特徴ベクトルバッファ 1 3 7 に記憶 (記録) された時刻を表すが、 その使用方法については、 後述する。
なお、 後述するように、 クラスタリングモジュール 1 3 8は、 新たな未登録語 をクラスタリングする場合、 特徴ベクトルバッファ 1 3 7に記憶されている 「特 徴ベク トル」 を参照するが、 未登録語がクラスタリングされる場合に参照される このような 「音声情報」 を、 以下、 「発話情報」 と称する。
即ち、 「発話情報」 は、 「特徴ベクトル」 のみに限定されるものではなく、 例 えば、 特徴抽出モジュール 1 3 1に供給される音声データ等の 「PCM (Pulse Cod e Modulation) 信号」 でもよい。 この場合、 特徴べクトルバッファ 1 3 7には、 「特徴ベク トル系列」 の代わりに、 この 「PCM信号」 が記憶される。
このように、 音声認識装置 9 1には、 上述した各モジュールが設けられている ので、 音声認識装置 9 1は、 図 4の音声認識部 5 0 Aと同様の動作を実行するこ とができる。 なお、 これらの各モジュールの説明、 および、 音声認識部 5 O Aに 対応する動作の説明は省略する。
ところで、 音声認識部 5 O Aは、 いまクラスタリングした未登録語の音声波形 (例えば、 デジタルの音声データ等) または特徴べクトル (例えば、 デジタルの 音声デユタに対して MFCC (Mel Frequency Cepstrura Coefficient) 分析が施さ れた場合に得られる MFCC等) を、 今後、 新たに入力される未登録語をクラスタ リングするための発話情報として、 所定の記憶領域またはメモリとしての特徴べ ク トルバッファ 2 8に記憶する必要がある。
即ち、 音声認識部 5 O Aは、 上述した処理のうち、 既に求められている、 音声 をクラスタリングしたクラスタの中から、 未登録語を新たなメンバとして加える クラスタを検出する処理を実行する場合、 特徴べクトルバッファ 2 8として機能 する記憶領域またはメモリに記憶されている過去の発話情報を参照する。
このように、 音声認識部 5 O Aは、 未登録語に対応する発話情報を全て記憶し ていくために、 未登録語の入力量または入力回数が増加すると (多くの未登録語 を獲得すると) 、 記憶領域またはメモリを大きく消費することとなる。
そこで、 図 1 4の実施の形態においては、 所定の条件が満たされる場合、 特徴 ベタトノレバッファ 1 3 7に記憶されている発話情報のうちの所定のものと、 それ に関連する各種のデータを消去する特徴べク トル消去モジュール 1 4 1が、 さら に設けられている。
具体的には、 例えば、 特徴ベク トル消去モジュール 1 4 1は、 スコアシートバ ッファ 1 3 9に図 8と同様のスコアシートが記憶されている場合、 そのスコアシ ートを参照して、 所定のクラスタに属するメンバの数が、 所定の第 1の数を超え たと判定した場合、 特徴べク トルバッファ 1 3 7に記憶されているデータの中で- その所定のクラスタに属するメンバのうちの第 2の数のメンバの発話情報と、 そ れに関連する各種のデータを消去する。 ここで、 メンバに関連する各種のデータ には、 そのメンバの IDや音韻系列等の他、 そのメンバに関するスコアシート上 のデータ等も含まれる。
これにより、 特徴べク トル消去モジュール 1 4 1は、 クラスタの大きさがある 一定以上の大きさになることを防止することができるので、 メモリ (RA 1 0 3 等) の消費を抑制させることができるだけでなく、 音声認識装置 9 1の動作速度 の遅れを防止すること、 即ち、 そのパフォーマンスが悪くなることを防止するこ とができる。
なお、 上述の第 1と第 2の数については、 例えば、 第 1の数が第 2の数以上で ある関係があるものとする。 また、 消去する第 2の数のメンバは、 例えば、 図 1 5に示した記録時刻の古い順に選択することが可能である。
さらに、 特徴べクトル消去モジュール 1 4 1は、 例えば、 未参照時間演算モジ ユール 1 4 2より供給されてくる所定のクラスタの未参照時間が、 所定の時間を 超えたと判定した場合、 特徴べクトルバッファ 1 3 7に記憶されているデータの 中で、 その所定のクラスタに属 ^ "るメンバの発話情報と、 それに関連する各種の データを消去する。
即ち、 未参照時間演算モジュール 1 4 2は、 例えば、 所定のクラスタに属する 各メンパの発話情報が特徴べクトルバッファ 1 3 7に記憶された各時刻 (図 1 5 における記録時刻) のうちの最新の時刻 (所定のクラスタに最後にクラスタリン グされた未登録語についてのエントリが特徴べク トルバッファ 1 3 7に記憶され た時刻) を、 その所定のクラスタの最終参照時刻として、 特徴ベク トルバッファ 1 3 7より取得する。
さらに、 未参照時間演算モジュール 1 4 2は、 現在の時刻から、 取得した最終 参照時刻を減算して、 所定のクラスタが参照されていない未参照時間を演算し、 特徴べク トル消去モジュール 1 4 1に供給する。
なお、 ここでは、 未参照時間演算モジュール 1 4 2は、 全てのクラスタに対し て、 所定の時間間隔で、 それらのクラスタの未参照時間を演算するものとするが. 未参照時間を演算するクラスタの数は特に限定されない。 即ち、 未参照時間演算 モジュール 1 4 2は、 ユーザ等により指定されたクラスタの未参照時間のみを演 また、 未参照時間演算モジュール 1 4 2の演算方法も限定されない。 例えば、 この例においては、 特徴べクトルバッファ 1 3 7に記憶された各記録時刻に基づ いて、 未参照時間が演算されたが、 これらの記録時刻は、 特徴ベク トルバッファ
1 3 7に記憶されることは必須とされず、 この場合、 未参照時間演算モジュール
1 4 2は、 所定のクラスタの最終参照時刻を、 直接監視し、 かつ記憶することで、 未参照時間を演算するようにしてもよい。
ここで、 上述の場合には、 特徴べクトル消去モジュール 1 4 1において、 未参 照時間演算モジュール 1 4 2より供給される未参照時間を参照して、 特徴べクト ルバッファ 1 3 7に記憶されているデータの中で、 メンバの新規登録が長い時間 行われていないクラスタに属するメンバすベての発話情報と、 それに関連する各 種のデータを消去するようにしたが、 クラスタのメンバすべてではなく、 その一 部のメンバのみの発話情報と、 それに関連するデータを消去するようにしても良 レ、。
さらに、 上述の場合には、 クラスタに最後に登録されたメンバ (未登録語) の 記録時刻を、 そのクラスタの最終参照時刻とするようにしたが、 クラスタの最終 参照時刻としては、 その他、 例えば、 図 1 0のステップ S 1 5において検出クラ スタとして検出された時刻や、 ステップ S 2 1において子クラスタとして登録さ れた時刻などの、 何らかの処理でクラスタが参照された時刻を採用することが可 能である。
また、 特徴べクトル消去モジュール 1 4 1には、 例えば、 所定のクラスタに対 する消去指示 (トリガ信号) が入力部 1 0 7 (例えば、 キーボード等) より供給 された場合に、 特徴べクトルバッファ 1 3 7に記憶されている、 その所定のクラ スタに属するメンバの全部または一部の発話情報と、 それに関連する各種のデー タを消去させることができる。
このように、 特徴べク トル消去モジュール 1 4 1に、 音声認識装置 9 1の内部 状態によらず、 その外部からの刺激によって、 所定の特徴べク トル系列を消去さ せる場合には、 例えば、 音声認識装置 9 1を上述した図 1のペットロボット等に 搭載することにより、 強い刺激によっておこる記憶喪失をそのロボットに実現す ることができる。
さらに、 特徴べクトル消去モジュール 1 4 1には、 例えば、 情動制御モジユー ル 1 4 3より供給された情動のパラメータの値 (情動量) 力 所定の値 (量) を 超えた場合、 特徴べクトルバッファ 1 3 7に記憶されているデータの中で、 所定 のクラスタに属するメンバの全部または一部の発話情報と、 それに関連する各種 のデータを消去させることができる。
なお、 例えば、 いま、 音声認識装置 9 1が、 図 1の口ポットに実装されている ものとすると、 情報制御モジュール 1 4 3は、 図 3のモデル記憶部 5 1により実 現することができる。 即ち、 この場合、 モデル記憶部 5 1は、 上述したように、 感情モデル、 本能モデル、 および成長モデルの値で表される感情、 本能、 および 成長の状態である状態情報を、 情動量として、 特徴べクトル消去モジュール 1 4 1に供給することになる。
このように、 特徴べク トル消去モジュール 1 4 1は、 情動制御モジュール 1 4 3より供給される情動量 (情動のパラメータの値 (モデルの値) ) を参照して、 特徴べク トルバッファ 1 3 7に記憶されている所定の発話情報を消去すること力 S できるので、 例えば、 図 1の口ポットに強い怒りなどが起こった場合 ( 「怒り」 のパラメータの値が所定の値を超えた場合) 、 いわゆる 「ど忘れ」 をそのロポッ トに実現することができる。
また、 特徴べクトル消去モジュール 1 4 1には、 例えば、 メモリ使用量演算モ ジュール 1 4 4により供給されたメモリ (例えば、 特徴ベクトルバッファ 1 3 7 およびスコアシートバッファ 1 3 9等を含む図 1の RAM I 0 3等) の総使用量が、 所定の量を超えた場合に、 特徴べクトルバッファ 1 3 7に記憶されている、 所定 のクラスタに属するメンバの全部または一部の発話情報と、 それに関連する各種 のデータを消去させることができる。
即ち、 メモリ使用量演算モジュール 1 4 4は、 メモリの総使用量 (消費量) を 常時演算し、 特徴べクトル消去モジュール 1 4 1に所定の間隔で供給する。
このように、 特徴ベク トル消去モジュール 1 4 1は、 メモリ (RAM I 0 3等) の消費量を常時監視し、 その消費量がある一定以上の量になると、 その消費量を 減らすべく、 特徴べク トルバッファ 1 3 7に記憶されているクラスタのメンバ
(未登録語) の発話情報と、 それに関連する各種のデータを消去するので、 メモ リ (RAM 1 0 3等) の消費を抑制させることができるだけでなく、 音声認識装置 9 1の動作速度の遅れを防止すること、 即ち、 そのパフォーマンスが悪くなるこ とを防止することができる。
なお、 この例においては、 特徴ベクトル消去モジュール 1 4 1は、 上述したよ うに、 クラスタのメンバの数 (特徴べク トルバッファ 1 3 7に記憶されている同 一クラスタのメンバについてのエントリの数) 、 未参照時間演算モジュール 1 4 2より供給される未参照時間、 情動制御モジュール 1 4 3から供給される情動量、 または、 メモリ使用量演算モジュール 1 4 4より供給されるメモリの消費量とい つたパラメータの値が、 予め設定されている所定の閾値を超えるか否かを判定し、 所定の閾値を超えると判定した場合、 所定の条件を満たすと判定し、 クラスタの メンバの全部または一部を消去するように構成されているが、 メンバ (の発話情 報等) の消去方法はこれに限定されない。
例えば、 特徴べク トル消去モジュール 1 4 1は、 このような判定処理を特に行 わずに、 単にトリガ信号 (上述した入力部 1 0 7より供給されてくる消去指示 等) が入力された場合に、 所定の条件を満たすと判定し、 所定の発話情報を消去 するように構成してもよい。
この場合、 情動制御モジュール 1 4 3、 未参照時間演算モジュール 1 4 2、 お よびメモリ使用量演算モジュール 1 4 4において、 例えば、 それぞれ上述した判 定処理を行うようにし、 これらの判定処理において、 これらのモジュールに対応 するパラメータ (情動量、 未参照時間、 または、 メモリ総使用量等) の値が、 所 定の閾値を超えると判定した場合、 所定のトリガ信号を特徴べクトル消去モジュ ール 1 4 1に供給するようにすることができる。
なお、 特徴べクトル消去モジュール 1 4 1に供給されるトリガ信号は、 上述し たものに限定されることなく、 上述した以外の条件、 例えば、 ユーザ等により後 から設定される任意の条件により発生されるトリガ信号等でもよい。
また、 特徴べクトル消去モジュール 1 4 1は、 上述したように、 所定の条件が 満たされると判定すると、 特徴べクトノレバッファ 1 3 7に記憶されているメンバ の発話情報等のうちの所定のものを消去するが、 この消去される発話情報等は任 意に選択 (設定) することが可能であり、 また、 消去される発話情報等の個数も 任意に選択 (設定) することが可能である。 例えば、 ユーザまたは製造者等は、 上述したそれぞれの条件によって、 消去する発話情報を個別に設定することも可 能である。
なお、 音声認識装置 9 1の音声認識精度を維持しながら、 そのパフォーマンス の低下を防止する観点からは、 例えば、 次のようなメンバを優先的に消去するよ うにするのが望ましい。
即ち、 クラスタのメンバの一部を消去する場合においては、 クラスタの代表メ ンバ、 および、 その代表メンバとの距離があまり大きくないメンバ (代表メンバ に対するスコアが大きいメンバ) 等が消去されると、 クラスタの構成そのものが 大きく変化する恐れがあるため、 このようなメンバ以外のメンバを優先的に消去 するのが望ましい。
また、 メンバの数が少ないクラスタのメンバ、 代表メンバとの距離が大きく離 れているメンバ、 および、 メンバの新規登録が長い時間行われていないクラスタ のメンバ等は、 音声認識精度に大きく影響するものではないと考えられるので、 優先的に消去するのが望ましい。
また、 特徴べク トル消去モジュール 1 4 1は、 特徴べク トルバッファ 1 3 7に 記憶されているメンバの発話情報と、 それに関連する各種のデータを消去するが. この各種のデータには、 上述したように、 スコアシートバッファ 1 3 9に記憶さ れているスコアシートも含まれる。
即ち、 特徴べク トル消去モジュール 1 4 1は、 特徴べク トルバッファ 1 3 7に 記憶されているメンバの発話情報等を消去した場合、 あわせて、 スコアシートの うちのその消去されたメンバに関する各種のデータも消去する。
例えば、 いま、 図 1 5の IDが 3であるエントリ (行) のデータ (ID、 音韻系 列、 特徴べク トル系列 (発話情報) 、 および記録時刻) が特徴べク トル消去モジ ユール 1 4 1によって消去されたものとすると、 特徴べク トル消去モジュール 1 4 1は、 さらに、 図 8のスコアシートの中で、 IDが 3であるェントリ (行) の データ (ID、 音韻系列、 クラスタナンパ、 代表メンバ ID、 およびスコア s ( 3 i ) ( iは、 1乃至 N+1の値) ) を消去するとともに、 他の IDのメンバと、 ID が 3であるメンバとのスコア s ( j , 3 ) ( j は、 1乃至 N+1の値) を消去する, また、 この場合、 クラスタリングモジュール 1 3 8は、 その消去されたメンバ が属していたクラスタ、 即ち、 上述した例では、 図 8の IDが 3であるメンバが 属していたクラスタ (クラスタナンパが 1であるクラスタ) に対して代表メンバ を再選抜し (求めなおし) 、 代表メンバが変更された場合 (代表メンバとして I Dが 1であるメンバ以外のメンバが選択された場合) には、 全てのクラスタの構 成が変更される可能性があるため、 全ての IDの未登録語を対象に再クラスタリ ングを行う。
なお、 再クラスタリングの方法は、 特.に限定されないが、 例えば、 k- means法 を採用することができる。
この場合、 クラスタリングモジュール 1 3 8は、 次に示される (1 ) 乃至 ( 3 ) の処理を実行する。 ただし、 いま、 スコアシートバッファ 1 3 9のスコア シートには、 N個の未登録語が登録されており、 これらの未登録語が k個のクラ スタにそれぞれ分割されているものとする。
( 1 ) N個の未登録語のうちの K個の任意のものを、 初期クラスタ中心とし、 それらの初期クラスタ中心がそれぞれ仮の代表メンバとなる k個のクラスタを生 成する。
( 2 ) 全てのデータ (N個の未登録語) について、 k個の代表メンバとのス コアを再演算し、 N個の未登録語それぞれを、 その再演算したスコアを最も高く する代表メンバが属するクラスタのメンバとして登録する。
( 3 ) 新たにメンバが登録された k個のクラスタの代表メンバをそれぞれ選 抜する。
なお、 上述した (2 ) の処理において、 スコアは、 スコアシートを参照するこ とにより、 実際の演算を行わなくても求めることができる。 伹し、 クラスタリン グモジュール 1 3 8では、 上述した (2 ) の処理において、 スコアを実際に演算 してもよく、 この場合、 N個の未登録語の発話情報を必要とするが、 これらの発 話情報は、 特徴べク トルバッファ 1 3 7を参照することで認識される。
また、 クラスタリングモジュール 1 3 8において、 実際にスコアを演算する場 合に、 発話情報として、 特徴ベク トル系列の代わりに PCM信号 (音声データ) が 特徴べク トルバッファ 1 3 7に記憶されているときには、 クラスタリングモジュ ール 1 3 8は、 この PCM信号に基づいて、 スコアを演算する。
さらに、 k-means法による再クラスタリングにより、 消去された未登録語が属 していたクラスタ以外のクラスタの構成が変更された場合には、 クラスタリング モジュール 1 3 8および特徴べク トル消去モジュール 1 4 1では、 この未登録語 の消去処理に対する他への影響が大きいものとみなして、 その未登録語の消去自 体をとりやめ、 その消去に伴って起こる全ての処理 (スコアシートの更新処理、 再クラスタリング処理等) をキャンセルし、 消去前の状態に戻す (未登録語の消 去直前の状態まで遡る undo処理を実行する) ようにすることができる。
次に、 図 1 6のフローチャートを参照して、 図 1 4の音声認識装置 9 1の音声 認識処理について説明する。
なお、 この例においては、 特徴べクトルバッファ 1 3 7には、 図 1 5に示され るデータが記憶され、 スコアシートバッファ 1 3 9には、 図 8に示されるスコア シートが記憶されるものとする。 また、 発話情報としては、 特徴ベクトル系列を 採用するものとする。
ステップ S 1 0 1において、 特徴べク トル消去モジュール 1 4 1は、 未登録語 の消去が指示されたか否かを判定する。
この例においては、 特徴べク トル消去モジュール 1 4 1は、 例えば、 次に示さ れる (1 ) 乃至 (5 ) のうちのいずれかの条件が満たされた場合、 未登録語の消 去が指示されたと判定する。
( 1 ) スコアシートバッファ 1 3 9のスコアシートに登録されているクラス タのうちの所定のものに属するメンバの数が、 所定の数を超えた場合
( 2 ) 未参照時間演算モジュール 1 4 2より供給された所定のクラスタの未 参照時間が、 所定の時間を超えた場合
( 3 ) 消去指示 (トリガ信号) が入力部 1 0 7より供給された場合
( 4 ) 情動制御モジュール 1 4 3より供給された情動のパラメータの値 (情 動量) 1 所定の値 (量) を超えた場合
( 5 ) メモリ使用量演算モジュール 1 4 4より供給されたメモリ (RAM 1 0 3等) の総使用量が、 所定の量を超えた場合
特徴べクトル消去モジュール 1 4 1は、 ステップ S 1 0 1において、 未登録語 の消去が指示されたと判定した場合、 ステップ 1 0 2において、 その指示された 未登録語 (以下、 消去対象の未登録語と称する) に対する 「未登録語消去処理」 を実行し、 ステップ S 1 0 1に戻り、 未登録語の消去が指示されたか否かを再度 判定する。
この例の 「未登録語消去処理」 の詳細は、 図 1 7に示されている。 そこで、 こ の例の 「未登録語消去処理」 を、 図 1 7を参照して説明する。
はじめに、 ステップ S 1 2 1において、 特徴べク トル消去モジュー^ 4 1は、 特徴べク トルバッファ 1 3 7に記憶されているデータの中で、 消去対象の未登録 語に対応するデータを消去する。
例えば、 図 1 5において、 消去対象の未登録語が、 IDが 3である未登録語で あるものとすると、 図 1 5に示されるデータのうちの IDが 3であるエントリ (行) のデータ (ID、 音韻系列、 特徴べク トル (発話情報) 、 および、 記録時 刻) が消去される。
ステップ S 1 2 2において、 特徴ベク トル消去モジユーノレ 1 4 1は、 スコアシ ートバッファ 1 3 9のスコアシートを訂正する。
例えば、 いま、 ステップ S 1 2 1の処理で、 上述したように、 IDが 3である エントリのデータが消去されたとすると、 ステップ S 1 2 2では、 図 8のスコア シートのデータのうちの ID が 3であるエントリ (行) のデータ (ID、 音韻系列、 クラスタナンパ、 代表メンバ ID、 および、 スコア s ( 3 , i ) (iは、 1乃至 N +1の値) ) が消去されるとともに、 その消去された IDが 3である未登録語と、 他の IDの未登録語とのスコア s ( j , 3) ( jは、 1乃至 N+1の値) が消去され る。
ステップ S 1 2 3において、 クラスタリングモジュール 1 3 8は、 消去対象の 未登録語が属していたクラスタの代表メンバを再選する (求める) 。
この例においては、 消去対象の未登録語は、 IDが 3である未登録語とされて いるので、 図 8のスコアシートに示されるクラスタナンパが 1であるクラスタ (IDが 3である未登録語が属していたクラスタ) の代表メンバが上述した方法 により再選される。
ステップ S 1 2 4において、 クラスタリングモジュール 1 3 8は、 代表メンバ が変更されたか否かを判定し (ステップ S 1 2 3の処理で再選された代表メンバ 力 その処理の直前の代表メンバと異なるか否かを判定し) 、 代表メンバが変更 されていないと判定した場合、 リターンする。 即ち、 図 1 6のステップ S 1 0 2 の処理が終了され、 ステップ S 1 0 1に戻り、 それ以降の処理が繰り返される。 例えば、 いま、 ステップ S 1 2 3の処理で IDが 1であるメンバが代表メンバ として再選された場合、 代表メンバが変更されていないと判定され、 一方、 再選 された代表メンバがそれ以外の IDのメンバであった場合、 代表メンバが変更さ れたと判定される。
ステップ S 1 2 4において、 クラスタリングモジュール 1 3 8は、 代表メンバ が変更されたと判定した場合、 ステップ S 1 2 5において、 全ての未登録語 (こ の例においては、 図 8のスコアシートに登録されている未登録語のうちの ID力 S 3であるものを除く全ての未登録語) を対象に再クラスタリングが行われる。 即 ち、 クラスタリングモジュール 1 3 8は、 例えば、 全ての未登録語を、 上述した k-means法により再クラスタリングする。
ステップ S 1 2 6において、 クラスタリングモジュール 1 3 8は、 消去対象の 未登録語が属していたクラスタ以外のクラスタの構成が変更されたか否かを判定 し (例えば、 クラスタに属するメンバが変更されたか否かや、 クラスタの代表メ ンバが他のメンバに変更されたか否かなどを判定し) 、 クラスタの構成が変更さ れていないと判定した場合、 ステップ S 1 2 8に進み、 メンテナンスモジュール 1 4 0は、 ステップ S 1 2 2で更新 (訂正) されたスコアシートに基づいて、 辞 書バッファ 1 3 4の単語辞書を更新し、 リターンする。
即ち、 いまの場合、 消去対象の未登録語が属していたクラスタの新たな代表メ ンバが再選され (ステップ S 1 2 3 ) 、 その新たな代表メンバが、 元の代表メン バから変更されているので (ステップ S 1 2 4 ) 、 メンテナンスモジュール 1 4 0は、 スコアシートを参照し、 新たな代表メンバが求められたクラスタを認識す る。 そして、 メンテナンスモジュール 1 4 0は、 辞書バッファ 1 3 4の単語辞書 における、 新たな代表メンバが求められたクラスタに対応するェントリの音韻系 列として、 その新たな代表メンバの音韻系列を登録する。
一方、 ステップ S 1 2 6において、 クラスタリングモジュール 1 3 8が、 クラ スタの構成が変更されたと判定した場合、 ステップ S 1 2 7において、 クラスタ リングモジユーノレ 1 3 8および特徴べク トル消去モジュール 1 4 1は、 特徴べク トルバッファ 1 3 7とスコアシートバッファ 1 3 9の記憶内容を、 消去前の元の 状態に戻す (ステップ S 1 2 1の処理が実行される前の状態に戻す) 。 即ち、 ク ラスタリングモジュール 1 3 8および特徴べク トル消去モジュール 1 4 1は、 消 去対象の未登録語を消去する直前の状態まで遡る undo処理を実行し、 リターン する。
なお、 ステップ S 1 2 6および S 1 2 7の処理 (Undo処理) は、 省略されて もよい。 即ち、 音声認識装置 9 1は、 クラスタの変更を許可して、 Undo処理を 実行しないようにしてもよい。
また、 ステップ S 1 2 6および S 1 2 7の処理を実行させるか否かを、 音声認 識装置 9 1の外部より (ユーザ等により) 選択できるように音声認識装置 9 1を 構成してもよい。
ここで、 図 1 7の未登録語消去処理において、 1つのクラスタのメンバすベて 力 消去対象の未登録語となり、 そのメンバが消去された場合には、 そのメンバ が属していたクラスタ自体が消去されることと等価である。 この場合、 そのクラ スタについて、 新たな代表メンバを求める必要はないため (求めることはできな いため) 、 ステップ S 1 2 2の処理後、 ステップ S 1 2 3および S 1 2 4の処理 はスキップされ、 ステップ S 1 2 5 , S 1 2 6の処理が順次行われる。 そして、 ステップ S 1 2 6において、 クラスタの構成が変更されていないと判定された場 合、 ステップ S 1 2 8に進み、 メンテナンスモジュール 1 4 0は、 ステップ S 1 2 2で更新 (訂正) されたスコアシートに基づいて、 辞書バッファ 1 3 4の単語 辞書を更新し、 リターンする。
即ち、 いまの場合、 あるクラスタのメンバすべてが消去されることにより、 そ のクラスタ自体が消去されており、 メンテナンスモジュール 1 4 0は、 スコアシ ートを参照することで、 その消去されたクラスタを認識する。 そして、 メンテナ ンスモジュール 1 4 0は、 辞書バッファ 1 3 4の単語辞書における、 消去された クラスタに対応するェントリを消去する。
このように、 辞書バッファ 1 3 4の単語辞書における、 あるクラスタに対応す るエントリが消去されることにより、 上述した 「記憶喪失」 や 「ど忘れ」 が実現 されることになる。
図 1 6に戻り、 ステップ S 1 0 1において、 未登録語の消去が指示されていな いと判定された場合、 ステップ S 1 0 2において、 特徵抽出モジュール 1 3 1は、 音声が入力されたか否かを判定する。
ステップ S 1 0 2において、 音声が入力されていないと判定された場合、 ステ ップ S 1 0 1に戻り、 それ以降の処理が繰り返される。
即ち、 特徴べク トル消去モジュール 1 4 1は、 未登録語の消去 (特徴べクトル バッファ 1 3 7に記憶されているその未登録語に対応する発話情報の消去) が指 示されたか否かを常時判定するとともに、 特徴抽出モジュール 1 3 1は、 特徴べ クトル消去モジュール 1 4 1とは独立して、 音声が入力されたか否かを常時判定 する。
いま、 ユーザが発話を行ったものとすると、 その発話された音声は、 入力部 1 0 7のマイクロホンおよび A D変換部を介することにより、 デジタルの音声デー タとされ、 特徴抽出モジュール 1 3 1に供給される。
このとき、 特徴抽出部モジュール 1 3 1は、 ステップ S 1 0 3において、 音声 が入力されたか否かを判定し、 音声が入力された場合 (音声が入力されたと判定 した場合) 、 ステップ S 1 0 4において、 その音声データを、 所定のフレーム単 位で音響分析することにより、 特徴ベク トルを抽出し、 その特徴ベク トルの系列 を、 マッチングモジュール 1 3 2およぴ未登録語区間処理モジュール 1 3 6に供 給する。
即ち、 ステップ S 1 0 4乃至 S 1 0 8の処理は、 上述した図 9のステップ S 1 乃至 S 5と同様の処理である。 従って、 ステップ S 1 0 4乃至 S 1 0 8の処理の 説明は、 省略する。
上述したように、 特徴べクトル消去モジュール 1 4 1は、 所定の条件が満たさ れると判定した場合、 特徴べクトルバッファ 1 3 7に記憶されているデータの中 で、 クラスタリングへの影響が少ないと判断されるメンバの発話情報 (図 1 5の 例では、 特徴ベクトル系列) と、 それに関連するデータ (図 1 5の例では、 ID、 音韻系列、 および記録時刻) を消去するので、 未登録語を自動獲得する機能を損 なうことなく、 記憶領域の消費を抑制することができる。
さらにまた、 この特徴べクトル消去モジュール 1 4 1は、 メンバに関連するデ ータとして、 スコアシートバッファ 1 3 9に記憶されているスコアシートも訂正 する (不要なデータを消去する) ので、 記憶領域の消費をより抑制することがで ぎる。
さらに、 メンテナンスモジュール 1 4 0は、 訂正後のスコアシ一トに基づいて- 単語辞書を更新するので、 例えば、 口ポットにおいて、 「記憶喪失」 や 「ど忘 れ」 を実現することができ、 そのエンタテイメント性を向上させることができる c なお、 上述した例においても、 記録媒体に記録されるプログラムを記述するス テツプは、 記載された順序に沿って時系列的に行われる処理はもちろん、 必ずし も時系列的に処理されなくとも、 並列的あるいは個別に実行される処理をも含む ものである。
また、 図 1 4の各モジュールは、 その機能を果たすものであれば、 その形態は 限定されない。 即ち、 ハードウェアなどでモジュールが構成されてもよい。 その 場合、 製造者等は、 これらの各モジュールを、 図 1 4に示されるようにそれぞれ 接続すればよい。 換言すると、 上述した図 3の音声認識部 5 O Aの代わりに、 図 1 4に対応するハ ドウエアを音声認識部として利用してもよい。
なお、 上述した実施の形態においては、 HMM法により音声認識を行うように したが、 本発明は、 その他、 例えば、 D Pマッチング法等により音声認識を行う 場合にも適用可能である。 ここで、 例えば、 D Pマッチング法による音声認識を 行う場合には、 上述のスコアは、 入力音声と標準パターンとの間の距離の逆数に 相当する。
また、 上述した実施の形態では、 未登録語をクラスタリングし、 そのクラスタ リング結果に基づいて、 単語辞書に、 未登録語を登録するようにしたが、 本発明 は、 単語辞書に登録されている登録語についても適用可能である。
即ち、 同一単語の発話についてであっても、 異なる音韻系列が得られる場合が あることから、 単語辞書に、 1つの単語について、 1つの音韻系列だけを登録し ておく場合には、 その単語の発話として、 単語辞書に登録された登録語の音韻系 列と異なる音韻系列が得られるときには、 発話が、 その登録語に認識されないこ とがある。 これに対して、 本発明によれば、 同一の単語についての異なる発話が. 音響的に類似したものどうしにクラスタリングされることとなるので、 そのクラ スタリング結果に基づいて、 単語辞書を更新することにより、 同一の単語につい て、 多種の音韻系列が、 単語辞書に登録されることになり、 その結果、 同一単語 にっき、 種々の音韻に対処した音声認識を行うことが可能となる。
なお、 単語辞書に登録する、 未登録語のクラスタに対応するエントリには、 音 韻系列の他、 例えば、 次のようにして見出しを記述することができる。
即ち、 例えば、 行動決定機構部 5 2において、 画像認識部 5 0 Bや圧力処理部 5 0 Cが出力する状態認識情報を、 図 3において点線で示すように、 音声認識部 5 O Aに供給するようにし、 音声認識部 5 O Aのメンテナンス部 3 1 (図 4 ) に おいて、 その状態認識情報を受信するようにする。
一方、 特徴ベク トルバッファ 2 8、 ひいては、 スコアシート記憶部 3 0におい ては、 未登録語が入力された絶対時刻 (時間) も記憶しておくようにし、 メンテ ナンス部 3 1において、 スコアシート記憶部 3 0におけるスコアシートの絶対時 刻を参照することにより、 未登録語が入力されたときの、 行動決定機構部 5 2か ら供給される状態認識情報を、 その未登録語の見出しとして認識する。
そして、 メンテナンス部 3 1において、 単語辞書の、 未登録語のクラスタに対 応するエントリには、 そのクラスタの代表メンバの音韻系列とともに、 その見出 しとしての状態認識情報を登録するようにする。 この場合、 マッチング部 2 3には、 単語辞書に登録された未登録語の音声認識 結果として、 その未登録語の見出しとしての状態認識情報を出力させることが可 能となり、 さらに、 その見出しとしての状態認識情報に基づいて、 ロボットに所 定の行動をとらせることが可能となる。
具体的には、 例えば、 単語 「赤 J が未登録語であるとして、 C C D 1 6におい て、 赤い物体が撮像されたときには、 例えば、 「赤い」 という状態認識情報が、 画像認識部 5 0 Bから、 行動決定機構部 5 2を介して、 音声認識部 5 0 Aに供給 されるが、 そのときに、 ユーザが、 未登録語としての 「赤」 を発話すると、 音声 認識部 5 O Aでは、 その未登録語 「赤」 の音韻系列が求められる。
そして、 この場合、 音声認識部 5 O Aでは、 未登録語 「赤」 の音韻系列と、 そ の見出しとしての状態認識情報 「赤い」 とが、 未登録語 「赤」 のエントリとして- 単語辞書に追加される。
その結果、 次に、 ユーザが 「赤」 と発話したときには、 その発話についてのス コアとしては、 単語辞書に登録されている未登録語 「赤」 の音韻系列に対するも のが大きくなり、 音声認識部 5 O Aでは、 その見出しとなっている状態認識情報 「赤い」 力 音声認識結果として出力されることになる。
この音声認識結果は、 音声認識部 5 O Aから行動決定機構部 5 2に供給される 力 この場合、 行動決定機構部 5 2では、 画像認識部 5 0 Bの出力に基づいて、 周囲の赤い物体を探し出し、 その赤い物体に向かっていくような行動を、 ロポッ トにとらせるようにすることが可能となる。
即ち、 この場合、 ロボットは、 最初は、 発話 「赤」 を音声認識することはでき ないが、 口ポットが、 赤い物体を撮像しているときに、 ユーザが、 「赤」 と発話 すると、 口ポットにおいて、 その発話 「赤」 と、 撮像されている赤い物体とが対 応付けられ、 その後は、 ユーザが、 「赤」 と発話すると、 その発話 「赤」 が音声 認識され、 周囲にある赤い物体に向かって歩行していくようになる。 この場合、 口ポットが、 ユーザの言っていることを学習し、 成長していっているかのような 印象を、 ユーザに与えることができる。 なお、 図 1 3の音声認識装置 9 1における場合も、 同様である。
また、 上述した実施の形態においては、 スコアシートに、 スコアを記憶してお くようにしたが、 スコアは、 必要に応じて、 再計算するようにすることも可能で める。
また、 上述した実施の形態では、 検出クラスタを、 2つのクラスタに分割する ようにしたが、 検出クラスタは、 3以上のクラスタに分割することが可能である < さらに、 検出クラスタは、 一定以上のクラスタ間距離となる任意の数のクラスタ に分割することも可能である。
さらに、 上述した実施の形態では、 スコアシート (図 8 ) に、 スコアの他、 未 登録語の音韻系列や、 クラスタナンパ、 代表メンバ ID等を登録するようにした が、 これらのスコア以外の情報は、 スコアシートに登録するのではなく、 スコア とは別に管理することが可能である。 産業上の利用可能性
本発明によれば、 既に求められている、 音声をクラスタリングしたクラスタの 中から、 入力音声を新たなメンバとして加えるクラスタが検出される。 さらに、 入力音声が、 検出されたクラスタの新たなメンバとされ、 そのクラスタが、 その クラスタのメンバに基づいて分割される。 そして、 その分割結果に基づいて、 辞 書が更新される。 従って、 例えば、 辞書の大規模化を避けて、 辞書に登録されて いない未登録語の辞書への登録等を、 容易に行うことが可能となる。

Claims

請求の範囲
1 . 入力音声を処理し、 その処理結果に基づいて、 言語処理に用いられる辞書 を更新する音声処理装置であって、
既に求められている、 音声をクラスタリングしたクラスタの中から、 前記入力 音声を新たなメンバとして加えるクラスタを検出するクラスタ検出手段と、 前記入力音声を、 前記クラスタ検出手段において検出されたクラスタの新たな メンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて分割するクラス タ分割手段と、
前記クラスタ分割手段によるクラスタの分割結果に基づいて、 前記辞書を更新 する更新手段と
を備えることを特徴とする音声処理装置。
2 . 前記辞書は、 音声認識の対象とする語彙の音韻系列を記憶しており、 前記更新手段は、 分割後のクラスタのメンバを代表する代表メンバに対応する 音声の音韻系列を、 前記辞書の新たなエントリとして加えることにより、 または 前記辞書のエントリを、 分割後のクラスタのメンバを代表する代表メンバに対応 する音声の音韻系列に変更することにより、 前記辞書を更新する
ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
3 . 前記クラスタ検出手段は、
前記クラスタのメンバから前記入力音声が観測される尤度を、 前記クラスタの メンバに対する前記入力音声についてのスコアとして計算し、
前記クラスタの中から、 前記入力音声について求められる前記スコアを最も高 くする、 前記クラスタのメンバを代表する代表メンバを求め、
その代表メンバを代表とするクラスタを、 前記入力音声を新たなメンバとして 加えるクラスタとして検出する
ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
4 . 前記入力音声は、 前記辞書にあらかじめ登録されていない未登録語である ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
5 . 前記クラスタのメンバを代表する代表メンバを、 そのクラスタの他のメン バについてのスコアの総和を最大にするメンバとする場合において、
前記クラスタ分割手段は、 前記入力音声をメンバとしたクラスタを、 そのクラ スタのメンバのうちの 2つが前記代表メンパとなる第 1および第 2のクラスタの 2つのクラスタの組に分割する
ことを特徴とする請求の範囲第 3項に記載の音声処理装置。
6 . 前記クラスタ分割手段は、 第 1および第 2のクラスタの 2つのクラスタの 組が複数組存在する場合、 前記入力音声をメンバとしたクラスタを、 前記第 1の クラスタと第 2のクラスタとのクラスタ間距離を最小にする 2つのクラスタに分 割する
ことを特徴とする請求の範囲第 5項に記載の音声処理装置。
7 . 前記クラスタ分割手段は、 前記第 1のクラスタと第 2のクラスタとのクラ スタ間距離を最小にする 2つのクラスタどうしのクラスタ間距離が所定の閾値よ り大である場合に、 前記入力音声をメンバとしたクラスタを、 その 2つのクラス タに分割する
ことを特徴とする請求の範囲第 6項に記載の音声処理装置。
8 . 前記クラスタのメンバについて、 各クラスタの各メンバに対するスコアを 記憶する記憶手段をさらに備える
ことを特徴とする請求の範囲第 5項に記載の音声処理装置。
9 . 前記辞書は、 音声認識の対象とする語彙の音韻系列を記憶しており、 前記辞書の音韻系列にしたがって構成される音響モデルに基づいて、 音声を認 識する音声認識手段をさらに備える
ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
1 0 . 前記音響モデルは、 HMM (Hidden Markov model)である
ことを特徴とする請求の範囲第 9項に記載の音声処理装置。
1 1 . 前記音声認識手段は、 サブヮード単位の前記 HMMを接続することによ り、 前記辞書の音韻系列に対応する音響モデルを構成し、 その音響モデルに基づ いて、 音声を認識する
ことを特徴とする請求の範囲第 9項に記載の音声処理装置。
1 2 . 前記音声認識手段は、 所定の文法規則にも基づいて、 音声を認識する ことを特徴とする請求の範囲第 9項に記載の音声処理装置。
1 3 . 前記音声認識手段は、 前記所定の文法規則に基づいて、 前記入力音声の 所定の区間を切り出し、
前記クラスタ検出手段およびクラスタ分割手段は、 前記所定の区間の前記入力 音声を対象として処理を行う
ことを特徴とする請求の範囲第 1 2項に記載の音声処理装置。
1 4 . 前記音声認識手段は、 前記入力音声から、 前記辞書に登録されていない 未登録語の区間を、 前記所定の区間として切り出す
ことを特徴とする請求の範囲第 1 3項に記載の音声処理装置。
1 5 . 前記音声認識手段は、 ガーベジモデルを用いた前記所定の文法規則に基 づいて、 前記未登録語の区間を切り出す
ことを特徴とする請求の範囲第 1 4項に記載の音声処理装置。
1 6 . 前記クラスタ分割手段は、 E M (Expectation Maximum)法により、 前記 クラスタを分割する
ことを特徴とする請求の範囲第 1項に記載の音声処理装置。
1 7 . 前記クラスタ検出手段においてクラスタを検出するための、 前記入力音 声に関する音声情報を記憶する記憶手段と、
所定の条件が満たされると判定した場合、 前記記憶手段に記憶された前記音声 情報のうちの所定のものを消去する消去手段と
をさらに備えることを特徴とする請求の範囲第 1項に記載の音声処理装置。
1 8 . 前記記憶手段に記憶される前記音声情報は、 前記入力音声のデジタルデ ータである
ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。
1 9 . 前記入力音声のデジタルデータより、 前記入力音声の所定の特徴を表す 特徴べクトルを抽出する特徴抽出手段をさらに備え、
前記記憶手段に記憶される前記音声情報は、 前記特徴抽出手段により抽出され た前記入力音声の前記特徴べクトルである
ことを特徴とする請求の範囲第 1 8項に記載の音声処理装置。
2 0 . 前記消去手段は、 所定の前記クラスタに属する前記メンバの数が、 所定 の数を超えた場合、 前記所定の条件が満たされると判定する
• ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。
2 1 . 前記クラスタが参照されていない未参照時間を演算する未参照時間演算 手段をさらに備え、
前記消去手段は、 前記未参照時間演算手段により演算された前記クラスタの前 記未参照時間が、 所定の時間を超えた場合、 前記所定の条件が満たされると判定 する
ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。
2 2 . トリガ信号を入力する入力手段をさらに備え、
前記消去手段は、 前記入力手段により前記トリガ信号が入力された場合、 前記 所定の条件が満たされると判定する
ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。
2 3 . 情動のパラメータを制御する情動制御手段をさらに備え、
前記消去手段は、 前記情動制御手段により制御された前記情動のパラメータの 値が、 所定の値を超えた場合、 前記所定の条件が満たされると判定する
ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。
2 4 . 前記記憶手段の記憶領域の使用量を演算する記憶領域使用量演算手段を さらに備え、
前記消去手段は、 前記記憶領域使用量演算手段により演算された前記記憶領域 の使用量が、 所定の量を超えた場合、 前記所定の条件が満たされると判定する ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。
2 5 . 前記記憶手段に記憶された音声情報に対応する音声を再クラスタリング するクラスタリング手段をさらに備える
ことを特徴とする請求の範囲第 1 7項に記載の音声処理装置。
2 6 . 前記更新手段は、 前記クラスタリング手段による再クラスタリング結果 にも基づいて、 前記辞書を更新する
ことを特徴とする請求の範囲第 2 5項に記載の音声処理装置。
2 7 . 前記消去手段により前記音声情報が消去された場合、 消去された前記音 声情報に対応する音声が属していた前記クラスタの前記メンバを代表する新たな 代表メンバを選抜する代表メンバ選抜手段をさらに備え、
前記クラスタリング手段は、 前記代表メンバ選抜手段により選抜された前記新 たな代表メンバが、 元の代表メンバとは異なる場合、 前記記憶手段に記憶されて いる全ての前記音声情報を再クラスタリングする
ことを特徴とする請求の範困第 2 5項に記載の音声処理装置。
2 8 . 前記クラスタリング手段により再クラスタリングされた前記クラスタの 構成が、 前記クラスタリング手段により再クラスタリングされる直前の前記クラ スタの構成と異なる場合、 前記消去手段による前記音声情報に対する処理が実行 される直前の状態に戻す消去処理取消手段をさらに備える
ことを特徴とする請求の範囲第 2 7項に記載の音声処理装置。
2 9 . 前記クラスタリング手段は、 k- means法により再クラスタリングを行う ことを特徴とする請求の範囲第 2 7項に記載の音声処理装置。
3 0 . 入力音声を処理し、 その処理結果に基づいて、 言語処理に用いられる辞 書を更新する音声処理方法であって、
既に求められている、 音声をクラスタリングしたクラスタの中から、 前記入力 音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、 前記入力音声を、 前記クラスタ検出ステップにおいて検出されたクラスタの新 たなメンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて分割するク ラスタ分割ステップと、
前記クラスタ分割ステップによるクラスタの分割結果に基づいて、 前記辞書を 更新する更新ステップと
を備えることを特徴とする音声処理方法。
3 1 . 入力音声を処理し、 その処理結果に基づいて、 言語処理に用いられる辞 書を更新する音声処理を、 コンピュータに行わせるプログラムであって、 既に求められている、 音声をクラスタリングしたクラスタの中から、 前記入力 音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、 前記入力音声を、 前記クラスタ検出ステツプにおいて検出されたクラスタの新 たなメンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて分割するク ラスタ分割ステップと、
前記クラスタ分割ステップによるクラスタの分割結果に基づいて、 前記辞書を 更新する更新ステップと
を備えることを特徴とするプログラム。
3 2 . 入力音声を処理し、 その処理結果に基づいて、 言語処理に用いられる辞 書を更新する音声処理を、 コンピュータに行わせるプログラムが記録されている 記録媒体であって、
既に求められている、 音声をクラスタリングしたクラスタの中から、 前記入力 音声を新たなメンバとして加えるクラスタを検出するクラスタ検出ステップと、 前記入力音声を、 前記クラスタ検出ステツプにおいて検出されたクラスタの新 たなメンバとし、 そのクラスタを、 そのクラスタのメンバに基づいて分割するク ラスタ分割ステップと、
前記クラスタ分割ステップによるクラスタの分割結果に基づいて、 前記辞書を 更新する更新ステップと
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
PCT/JP2002/003248 2001-03-30 2002-04-01 Appareil de traitement du son WO2002080141A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/296,797 US7228276B2 (en) 2001-03-30 2002-04-01 Sound processing registering a word in a dictionary
EP02708744A EP1376536A1 (en) 2001-03-30 2002-04-01 Sound processing apparatus

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2001097843 2001-03-30
JP2001-97843 2001-03-30
JP2002069603A JP2002358095A (ja) 2001-03-30 2002-03-14 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2002-69603 2002-03-14

Publications (1)

Publication Number Publication Date
WO2002080141A1 true WO2002080141A1 (fr) 2002-10-10

Family

ID=26612647

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/003248 WO2002080141A1 (fr) 2001-03-30 2002-04-01 Appareil de traitement du son

Country Status (6)

Country Link
US (1) US7228276B2 (ja)
EP (1) EP1376536A1 (ja)
JP (1) JP2002358095A (ja)
KR (1) KR20030007793A (ja)
CN (1) CN1462428A (ja)
WO (1) WO2002080141A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813928B2 (en) 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070265834A1 (en) * 2001-09-06 2007-11-15 Einat Melnick In-context analysis
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP4392581B2 (ja) * 2003-02-20 2010-01-06 ソニー株式会社 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US7110949B2 (en) * 2004-09-13 2006-09-19 At&T Knowledge Ventures, L.P. System and method for analysis and adjustment of speech-enabled systems
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US7729478B1 (en) * 2005-04-12 2010-06-01 Avaya Inc. Change speed of voicemail playback depending on context
EP1884923A4 (en) * 2005-05-27 2009-06-03 Panasonic Corp VOICE EDITING DEVICE, VOICE EDITING METHOD, AND VOICE EDITING PROGRAM
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP4181590B2 (ja) * 2006-08-30 2008-11-19 株式会社東芝 インタフェース装置及びインタフェース処理方法
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
JP5386692B2 (ja) * 2007-08-31 2014-01-15 独立行政法人情報通信研究機構 対話型学習装置
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP2009157119A (ja) * 2007-12-27 2009-07-16 Univ Of Ryukyus 音声単語自動獲得方法
JP5454469B2 (ja) 2008-05-09 2014-03-26 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8064290B2 (en) * 2009-04-28 2011-11-22 Luidia, Inc. Digital transcription system utilizing small aperture acoustical sensors
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
WO2012075640A1 (en) * 2010-12-10 2012-06-14 Panasonic Corporation Modeling device and method for speaker recognition, and speaker recognition system
US9117444B2 (en) 2012-05-29 2015-08-25 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
CN103219007A (zh) * 2013-03-27 2013-07-24 谢东来 语音识别方法及装置
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
KR102246900B1 (ko) * 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US10515150B2 (en) * 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10382623B2 (en) 2015-10-21 2019-08-13 Genesys Telecommunications Laboratories, Inc. Data-driven dialogue enabled self-help systems
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US20180268844A1 (en) * 2017-03-14 2018-09-20 Otosense Inc. Syntactic system for sound recognition
US20180254054A1 (en) * 2017-03-02 2018-09-06 Otosense Inc. Sound-recognition system based on a sound language and associated annotations
JP6711343B2 (ja) * 2017-12-05 2020-06-17 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
JP7000268B2 (ja) * 2018-07-18 2022-01-19 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
CN115171702A (zh) * 2022-05-30 2022-10-11 青岛海尔科技有限公司 数字孪生声纹特征处理方法、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5745680A (en) * 1980-08-30 1982-03-15 Fujitsu Ltd Pattern recognition device
JPS6125199A (ja) * 1984-07-14 1986-02-04 日本電気株式会社 音声認識方式
JP2002160185A (ja) * 2000-03-31 2002-06-04 Sony Corp ロボット装置、ロボット装置の行動制御方法、外力検出装置及び外力検出方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5745680A (en) * 1980-08-30 1982-03-15 Fujitsu Ltd Pattern recognition device
JPS6125199A (ja) * 1984-07-14 1986-02-04 日本電気株式会社 音声認識方式
JP2002160185A (ja) * 2000-03-31 2002-06-04 Sony Corp ロボット装置、ロボット装置の行動制御方法、外力検出装置及び外力検出方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IWAHASHI NAOTO, TAMURA MASANORI: "Chikaku joho kara no gainen kozo no chushutsu ni motoduki onsei nyuryoku ni yoru gengo kakutoku", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU (ONSEI GENGO JOHO SHORI), 28-1, vol. 99, no. 91, 29 October 1999 (1999-10-29), pages 1 - 8, XP002953834 *
NAKAMURA ATSUSHI: "Gijiteki gakushu deta o mochiita tango spotting yo gabeji model gakushu no", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS KENKYU HOKOKU (ONSEI), SP95-107, vol. 95, no. 431, 15 December 1995 (1995-12-15), pages 99 - 104, XP002953835 *
RABINER LAWRENCE, JUANG BIING HWANG: "Fundamentals of speech recognition", PRENTICE HALL PTR, 1993, pages 267 - 274, XP002953836 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813928B2 (en) 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program

Also Published As

Publication number Publication date
EP1376536A1 (en) 2004-01-02
US7228276B2 (en) 2007-06-05
KR20030007793A (ko) 2003-01-23
CN1462428A (zh) 2003-12-17
JP2002358095A (ja) 2002-12-13
US20040030552A1 (en) 2004-02-12

Similar Documents

Publication Publication Date Title
WO2002080141A1 (fr) Appareil de traitement du son
JP4296714B2 (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
JP6550068B2 (ja) 音声認識における発音予測
CN1202512C (zh) 用于识别连续和分立语音的语音识别系统
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
EP1701338B1 (en) Speech recognition method
JP2001188555A (ja) 情報処理装置および方法、並びに記録媒体
JP2002268699A (ja) 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
JP2001188553A (ja) 音声合成装置および方法、並びに記録媒体
JP2001154685A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2002116792A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
WO2002082423A1 (fr) Dispositif d&#39;elaboration de suites de mots
JP4587009B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4600736B2 (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4706893B2 (ja) 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2001154693A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002307349A (ja) ロボット装置、情報学習方法、プログラム及び記録媒体
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2004170756A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP2003271172A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2004309523A (ja) ロボット装置の動作パターン共有システム、ロボット装置の動作パターン共有方法、及びロボット装置
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP4639533B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2002708744

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020027016297

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 028016467

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 1020027016297

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 10296797

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2002708744

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2002708744

Country of ref document: EP