JPWO2002099545A1

JPWO2002099545A1 - マン・マシン・インターフェースユニットの制御方法、並びにロボット装置及びその行動制御方法

Info

Publication number: JPWO2002099545A1
Application number: JP2003502598A
Authority: JP
Inventors: トーマスケムプ; ラルフコンペ; ラッケルタト; 藤田　雅博; 雅博藤田; 活樹南野; 河本　献太; 献太河本; 里香堀中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-06-01
Filing date: 2002-06-03
Publication date: 2004-09-16
Also published as: EP1406135A1; EP1406135B1; WO2002099545A1; US20040039483A1; EP1262844A1; EP1406135B8; EP1406135A4; US6862497B2

Abstract

本発明では、マン・マシン・インタフェースユニットを制御する汎用性のある方法が提案されており、少なくとも実行すべき目標行動（ｔ）を導出及び／又は初期設定し、ユーザを任意の現在状態（ｅｃ）から最終状態（ｅｆ）としての任意の所望の目標状態（ｅｔ）へと導くために、学習サンプル（ｌ）が使用される。この学習サンプル（ｌ）は、任意のユーザが実行した行動（ａ）の前の初期状態（ｅｉ）、当該行動後の最終状態（ｅｆ）及び当該実行した行動（ａ）を表すデータトリプルから構成される。

Description

技術分野
本発明は、マン・マシン・インターフェースユニットの制御方法、並びにロボット装置及びその行動制御方法に関し、特に動作及び／又はエンターテイメント能力を学習するステップを有するマン・マシン・インターフェースユニットの制御方法、並びにそのようなマン・マシン・インターフェースユニットの制御方法が適用されるロボット装置及びその行動制御方法に関する。
背景技術
今日では、装置或いは機器を容易且つ信頼性よく使用可能とし、ユーザの便宜を図るため、多くの装置或いは機器にマン・マシン・インターフェース技術やマン・マシン対話システムが採用されている。
従来、このような装置或いは機器に組み込まれたマン・マシン・インターフェースユニットを制御するシステムにおいては、ユーザの行動或いは期待に対して最適な動作を生成するために、共通の知識及び／又はユーザ研究から得られた所定のルールが使用されていた。
しかしながら、これらの所定のルールは、固定化されたものであり、マン・マシン・インターフェースユニットを制御する上述のシステムにおける動作可能性は、一般ルール及び／又はユーザ独立ルールと動作とを組み合わせるに留まっていた。これは、多くの場合、すなわち殆どのユーザにとって、平均的には最善の解決法であるが、最適な解決法とはいえなかった。
発明の開示
本発明は、上述の実情に鑑みて提案されるものであって、柔軟且つ信頼性よく、ユーザの動作、期待、或いは質問に対応することを可能とするマン・マシン・インターフェースユニットの制御方法を提供することを目的とする。
この目的は、請求の範囲第１項に記載するマン・マシン・インターフェースユニットの制御方法によって達成される。マン・マシン・インターフェースユニットの制御方法についての好ましい実施例は、従属項の範囲内にある。また、この目的は、請求の範囲第１９項に記載するマン・マシン・インターフェースユニットの制御システム、及び請求の範囲第２０項に記載するコンピュータプログラム製品によって達成される。
マン・マシン・インタフェースユニットを制御する本発明の方法においては、少なくとも１人のユーザに関して、ある行動を実行する前の初期状態とその行動を実行した後の最終状態とが検出される。また、初期状態、最終状態及び実行した行動を示すデータトリプルが学習サンプルとして収集される。この学習サンプルは、実行すべき目標行動を少なくとも導出及び／又は初期設定し、ユーザを任意の現在状態から所望の目標状態へと導くために使用される。
したがって、本発明の基本概念は、少なくとも１人のユーザについて実行される行動に関して、特にマン・マシン・インタフェースユニット自体或いはそれに結合された実行ユニットによって、ある行動を実行する前のユーザの初期状態及びその行動を実行した後の最終状態、又はユーザの初期状態及び／又は最終状態に対応し、若しくは表示するデータを導出することにある。そして、初期状態、最終状態、及び初期状態と最終状態との間に実行された行動を表すデータトリプルとして学習サンプルが生成される。さらに、この学習サンプルは収集されて、実行すべき目標行動を少なくとも導出及び／又は初期設定するために使用される。ユーザは、この目標行動によって任意の現在状態から任意の所望の目標状態へと導かれる。
従来におけるマン・マシン・インタフェースユニットの制御方法とは対照的に、本発明の方法には特に柔軟性があるが、それはこの方法が、結果的にユーザ独立となっている固定化された所定のルールに依存していないためである。本発明の方法では、起こっている状況及びユーザとマン・マシン・インタフェースユニットとの間のインタラクションから選択的（ａｌｔｅｒｎａｔｉｖｅｌｙ）又は追加的（ａｄｄｉｔｉｏｎａｌｌｙ）にデータを獲得する。つまり、実行された行動前後のユーザの状態を測定し、対応するデータを得る。したがって、実行された行動により、行動前のユーザの初期状態と行動後のユーザの最終状態とが対応付けられる。
何れの場合にも異なる状態を表示するためには、現在状態データ若しくは初期状態データを受取り、及び／又は生成することが好ましい。これらの現在状態データ又は初期状態データは、ユーザの現在状態及び／又は初期状態にそれぞれ対応し、及び／又はそれらの状態を示している。
さらに、何れの場合も、最終状態データ又は目標状態データが受取られ、及び／又は生成される。これらの最終状態データ又は目標状態データは、ユーザの最終状態及び目標状態にそれぞれ対応し、及び／又はそれらの状態を示している。
それに加えて、行動データ及び目標行動データを受取り、及び／又は生成することもできる。これらの行動データ及び目標行動データは、実行した行動及び本発明の方法の他の好ましい実施例により導出された目標行動に対応し、及び／又はそれらの行動を示している。
本発明の好ましい、効果的な実施例によれば、異なる状態を自然且つ標準的に記述し、表示することができる。この実施例では、現在状態、初期状態、最終状態及び／又は目標状態、そして特にそれらの表示データ及び／又は対応データを、何れの場合にも、埋込み位相多様体（ｅｍｂｅｄｄｉｎｇｔｏｐｏｌｏｇｉｃａｌｍａｎｉｆｏｌｄ）によって、特に２次元の埋込み位相多様体によって表示し、及び／又はその埋込み位相多様体の形でモデル化する。
選択的又は追加的に、実行した行動、目標行動、及び／又はそれらの対応データ及び／又は表示データは、何れの場合にも、埋込み位相多様体により表示し、及び／又はその埋込み位相多様体の形でモデル化することができる。
もちろん、この埋め込み位相多様体は、ユーザ毎に別個の多様体として形成し、導出し、及び／又は使用することもできる。選択的又は追加的に、複数のユーザを等価なユーザからなるいくつかのクラスに分割し、このクラスの各々について別個の多様体を形成し、導出し、及び／又は使用することもできる。また、選択的に、全てのユーザ用に共通又は全体的な多様体を導出し、及び／又は使用することもできる。なお、これは追加的に実施することもできる。
ここで、異なる状態を記述するためにユーザのいくつかの特性を用いることができるが、本発明のもう１つの効果的な実施例によれば、上述したユーザの現在状態、初期状態、最終状態、そして目標状態として、感情状態を使用することが好ましい。
実行した又は実行すべき各行動は、ユーザの少なくとも１つの初期状態を少なくとも１つの最終状態又は目標状態と対応付けるものとして捉えることができる。したがって、ある意味においては、初期状態及び特定の行動の数対が１つの最終状態と対応付けられる。また、全ての状態及び行動を位相多様体として理解することもできるため、全ての学習サンプルに基づき、トランスモーションマッピングＴと呼ばれるマッピングを各ユーザ別に定義することもできる。このトランスモーションマッピングＴは、以下の式１、

により示すことができる。ここで、Ｅは感情多様体を意味し、ユーザ状態又はその状態データについての位相多様体の１つである。また、Ａは行動多様体を意味し、行動又は行動データについての位相多様体の１つであり、ｅ_ｉ，ｅ_ｆ，ａは多様体Ｅ及びＡの各要素をそれぞれ意味する。

の別の要素Ｔ（ｅ，ａ）が割当てられている。したがって、トランスモーションマッピングＴ及び行動多様体Ａにより、ＥからＥへのマッピングＴａの一群が定義される。
もちろん、トランスモーションマッピングＴは一般的にはユーザ依存であるが、ユーザ独立及び／又は一般的な部分或いはコンポーネントを含めることもできる。
ユーザを現在状態から所望の最終状態へと導くために特定の目標行動を選択する方法は多種多様である。本発明の好ましい実施例によれば、任意のユーザの任意の初期状態及び／又は目標状態について、任意の現在状態、最終状態及び実行済みの行動を含む既にサンプリングされた学習サンプルから、初期状態及び現在状態及び／又は最終状態及び目標状態及び／又はそれらのデータが近隣の位相にある行動が、目標行動として選択される。
この措置が特に効果的であるのは、上述した状態の少なくとも１つ及び／又は行動が正確に適合しない場合である。この近傍（ｖｉｃｉｎｉｔｙ）又は近隣（ｎｅｉｇｈｂｏｕｒｈｏｏｄ）位相の概念に基づいて、隣接サンプルを任意の学習サンプルに関して等価のサンプルとして使用することができる。
この近傍及び／又は近隣を導出及び／又は記述するために、状態及び／又は行動の距離測定、計量（ｍｅｔｒｉｃ）、連続性、方向、ベクトル特性等を相互に使用することが特に効果的である。
任意のユーザの所望の初期状態若しくは現在状態と最終状態若しくは目標状態とを相互に変換すること、又は別の状態と直接対応付けることができない場合もあり得る。したがって、本発明の好ましい実施例によれば、任意のユーザを目標状態へと導き、ユーザの所望の最終状態に最も適合するようにするために、実行すべき一連の行動を目標行動として実行すべきものとして、導出又は初期設定することが効果的である。その結果、上述した一連の行動により、感情多様体を通る経路が特徴付けられ、定義される。
例えば、既に得られている学習サンプルからの任意の行動を目標行動として使用したとしても、ユーザを初期状態から最終状態に導こうとした際に良好な結果を得るには不十分であるかもしれない。したがって、良好な結果を達成するために、導出された目標行動及び／又はそのデータに修正を含めること、及び／又は修正を行うこともできる。
この修正は、位相、距離、計量、連続性、方向、ベクトル特性等に基づき、確率測定によりランダムに導入することもできる。
学習サンプルは、例えば１日に数個というゆっくりとしたペース又は低率にしか得られないと考えられるため、学習サンプル、特に位相多様体を導出するために用いた学習サンプルを一般化することが特に効果的である。したがって、得られた学習サンプルは、位相多様体Ｅ及びＡにおける基準点及び／又は測定点の役割を果たし、その一般化は、測定点間における補間の役割を果たす。
一般化のステップは、特に共通の及び／又は全体的な位相多様体を導出するために、異なるユーザからの学習サンプルを平均化及び／又は重み付けするステップとすることもできる。この際、異なるユーザは、その典型的な状態及び／又は行動に基づいて、特に感情に基づいて集団化することもできる。
追加的又は選択的に、上述した学習サンプルの一般化ステップに、特に射影等により行動多様体Ａの次元を減らすステップを少なくとも含ませることもできる。これにより、自由度が低下させられ、いくつかのクラスの行動が識別され、相互に等価とされる。
さらに、この学習サンプルの一般化ステップは、任意の学習サンプルの近傍又は近隣の範囲を拡大及び／又は縮小するステップを含むこともでき、任意の学習サンプルの内部では、初期状態、最終状態及び目標行動の全てのデータトリプル又はデータトリプレットがこの任意の学習サンプルと等価であると分類される。これが特に実行されるのは、目標行動及び／又は最終状態が全ての初期状態について妥当である地点までである。追加的又は選択的に、最終状態が無関係となり、状態の変化の方向だけが考慮される地点まで、この措置が実行される。
何れの場合もマン・マシン・インタフェースユニットを制御する本発明の方法及び／又はそのステップを実行及び／又は実現することが可能なマン・マシン・インタフェースユニットの制御システム、装置、デバイス等を提供することが、本発明の別の実施の形態である。
それに加えて、コンピュータ、デジタル処理手段等により実行された際にマン・マシン・インタフェースユニットを制御する本発明の方法及び／又はそのステップを実行及び／又は実現するのに適したコンピュータプログラム手段からなるコンピュータプログラム製品を提供することが、本発明の別の実施の形態である。
本発明の上記形態及びその他の形態は、以下の説明を考慮に入れることにより、さらに明瞭になるであろう。
マン・マシン・インタフェースの実行、及び／又はユーザを楽しませユーザに応答するという目標は、エンターテイメントロボット等のような人工システムによっても達成することができる。特にこの目標は、ユーザの感情又は感情変化の位相マップ若しくは位相多様体を推定することにより達成することができる。簡単な例においては、この位相マップ又は位相多様体は、２次元感情平面により形成することができる。位相マップ又は位相多様体は、可能なシステム動作の多次元空間全体に亘って定義される。このようなマップ或いは多様体が与えられることにより、本発明のシステム又は方法によれば、任意の初期感情から任意の所望の感情へとユーザを導くことができる。マップ機能は、いくつかの発見的関係（ｈｅｕｒｉｓｔｉｃｒｅｌａｔｉｏｎｓｈｉｐｓ）、又は現在までに公知の任意の従来技術により初期設定することができる。この方法及びシステムは、使用中にユーザの感情を測定することにより、その性能を自動的に改善する。これにより、この方法及びシステムは、マップの粗さを改善し、及び／又はユーザ依存マップ若しくは多様体を作成することができる。
公知の技術のマン・マシン・インタフェースユニット又はデバイス及び特にエンターテイメントロボットは、ユーザ研究及び／又は共通の知識から導出される所定のルールを使用している。これらの所定のルールは固定化されたものであり、例えばユーザを楽しませるという目標のために実行すべき行動のタイプと、潜在的にはユーザの現在の感情とを決定する際に使用される。しかしながら、この固定化されたルールは、静的なものであり、ユーザに依存するものではない。この決定過程を簡素化するために提案されている従来技術の方法の中には、ユーザを楽しませ、適切な行動を行うために、ユーザ依存戦略の学習を組込むことができるものがある。しかしながら、個々の観測を任意に一般化することができ、これにより、システムがユーザ独立モードとユーザ依存モードとの両方の性能を漸増的に改善することを可能にする優れたアルゴリズムは未だ提案されていない。
人間の状態、特に人間の感情の多様性は、位相多様体として、特に２次元マップとして示すことができる。この２次元マップにおいては、２つの軸は快楽（ｐｌｅａｓｕｒｅ）及び覚醒（ａｒｏｕｓａｌ）を表している。このような平面において、右上の領域は、喜び（ｄｅｌｉｇｈｔｅｄ）、幸福（ｂｌｉｓｓｆｕｌ）、興奮（ｅｘｃｉｔｅｄ）等の感情状態を表している。また、左上の領域は、例えば、恐怖（ｔｅｒｒｉｆｉｅｄ）、怒り（ａｎｇｒｙ）、嫌悪（ｄｉｓｇｕｓｔｅｄ）の感情状態を表している。また、右下の領域は、例えば、満足（ｃｏｎｔｅｎｔ）及びリラックス（ｒｅｌａｘｅｄ）の感情を含み、左下の領域は悲しみ（ｓａｄｎｅｓｓ）、憂鬱（ｄｅｐｒｅｓｓｉｏｎ）、退屈（ｂｏｒｅｄｏｍ）等の感情を表している。
この多様体又は平面状で相互に近接している感情は、類似の感情である。感情を感情多様体又は感情平面上の１地点から近接した別の地点へと変える方が、遠く離れた地点へと変えるよりは簡単である。感情多様体又は感情平面のこの位相特性が本発明の根拠となっている。
適切な行動を行う、又はユーザを楽しませるという課題における適切な行動は、ユーザの現在の感情及び状況、及び所望の状況又は感情の変化に加えて、ユーザのアイデンティティに大きく依存している。しかしながら、マン・マシン・インタフェースユニットにおいては、特に、大量販売しなければならないエンターテイメントロボットにおいては、ユーザのアイデンティティは事前には不明である。したがって、システムのエンターテイメント能力は、必然的に一般的なユーザ独立行動の集合に限定されることになる。これは平均的には最善の解決法ではあるが、殆ど全ての個々のユーザにとっては次善の解決法である。したがって、性能及びエンタテイメント能力は、各オーナを最適化目標として、エンターテイメントロボットの各ユニット又はマン・マシン・インタフェースユニットが独立して学習すべきである。
もしシステムがシステムによる何らかの行動前後のユーザの感情を検出することができれば、この測定結果を学習サンプルとして利用することができ、学習サンプルから、類似の状況における将来の決定を導出することができる。しかしながら、学習サンプルは、１日に数個という低い割合でしか得られない。これまでのところ、学習サンプルが事前には未知の頻度で漸増的に送り込まれた場合に、エンターテイメントロボット又はマン・マシン・インタフェースユニットがどのようにして個々の学習サンプルを利用することができるのかについて、技術的に公知の方法はない。
ここで、サンプルの集合、すなわち学習サンプルが与えられたと仮定し、各サンプルが、（ａ）初期ユーザ感情を示した感情多様体又は感情平面上の初期地点、（ｂ）デバイスの行動、例えばエンタテイメントロボットの行動又は対話手段（ｃｈａｔｔｅｒｂｏｘ）の対話戦略を記述した多次元ベクトル、及び（ｃ）デバイスの行動が知覚された後の最終ユーザ感情を示した感情多様体又は感情平面上の最終地点、からなるものとする。この場合、各学習サンプルは、マップ又は多様体上に置くことができ、感情多様体又は感情平面上の初期地点から始まって最終地点を指し示し、上記（ｂ）に記述された行動多様体の多次元行動ベクトルの属性を有するベクトルとして記述することができる。各サンプルは、相互に独立して感情平面内に置くことができる。あらゆるユーザは、一般的には固有の感情マップ又は感情多様体を有しており、そこでは、そのユーザの学習サンプルだけが追加され、記述され、及び／又は一般化される。
このような感情多様体又は感情マップが存在しているか、又は任意のユーザ用に導出された場合、ユーザの何らかの初期状態又は感情と、所望の目標状態又は感情とが与えられれば、適切な行動を見つけることは簡単であり、煩わしさもない。これは、初期状態又は感情に対応する地点の少なくとも近傍又は近隣から始まり、各ユーザの感情多様体又は感情マップの内部の任意の目標感情又は状態に対応する地点の近隣又は近傍への正確な方向を指し示す適切な行動ベクトルを選択することにより実現される。次に、ユーザの初期状態を目標状態又は最終状態へと導くために、明確な行動ベクトルにより記述された行動が実行され、実施される。ここで、古い任意の行動を繰り返すのではなく、その古い行動を若干或いはランダムに修正することは有益であり、一般化性能を高めることにもなる。この措置は、戦略のさらなる改善の余地をもたらす展開的方法（ｅｖｏｌｕｔｉｏｎａｒｙｗａｙ）で好結果を収めた戦略を繰返すことと等価である。
通常、感情マップには、学習サンプル又はサンプルベクトルが散在しているため、サンプルベクトルの集合を一般化することが本発明の方法及びアルゴリズムの性能レベルにとって極めて重要である。これは、学習サンプルが典型的には１日に数個という非常にゆっくりと低率でしか入ってこないにもかかわらず、この方法及びシステムは最初のサンプルから直ちに学習を始める必要があるためであり、また、一般的且つユーザ独立である開始ルールの集合を考慮に入れることもあるためである。
この一般化は、いくつかの技術を使用して実現することができる。まず第１に、異なるユーザのサンプルベクトルの学習サンプルを１つのユーザ独立サンプルに加えることにより、ユーザの感情多様体又は感情マップを簡単に平均化することができる。追加的に、ユーザのクラス別、又は全てのユーザについての全体的若しくは共通の感情多様体若しくはマップを導出することもできる。
第２に、行動次元を減らすために多次元行動ベクトル又は行動データの射影を求めることができ、これにより、行動多様体又は行動空間の次元の数が減らされる。
第３に、サンプルベクトル又は学習サンプルが任意の初期感情に対して妥当であると考えられる領域を、単一の例が全ての初期感情に対して典型的であると考えることができる地点まで広げることができる。
第４に、完全に無関係であると見なされ、感情変化ベクトルの方向だけが考慮される地点まで、目標領域を同様の方法で広げることができる。
これらの一般化は、相互に独立して使用することもでき、また、組み合わせることもできる。特に、入手可能なサンプルが殆どない場合には、サンプル行動を見つけられるまで一般化の度合いを高めることにより、システムは、常に適当な行動を見つけることができる。これにより、システムは、たった１つの観測又は学習サンプルでさえ利用することになる。また、感情マップに含まれる有益な学習サンプルが次第に増加するにつれて、一般化、すなわち制約条件の緩和の度合いを次第に低くし、次の行動を演繹的に求めることを可能にすることにより、あらゆる追加学習サンプルによって非常に自然且つ漸増的にシステム性能が高められる。
この新しい方法及びアルゴリズムによれば、最初のサンプルの観測から始めてシステム性能が漸増的に改善されるともに、感情変化の非常に精密なモデルをも可能とされる。同様のアルゴリズムは、コア及び精密モデルの両方に使用することができる。
本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施例から一層明らかにされるであろう。
発明を実施するための最良の形態
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。以下の実施の形態では、先ず、ユーザの動作、期待、或いは感情等に対応してマン・マシン・インタフェースユニットを動作させる、本発明の基本原理となるマン・マシン・インタフェースユニットの制御方法及びシステムについて説明し、次いでこの制御方法及びシステムを、少なくとも感情モデルを有し、感情に応じて表出する行動を変化させることのできる自律型のエンターテイメントロボットに適用した具体例について説明する。
（１）マン・マシン・インタフェースユニットの制御方法
マン・マシン・インタフェースユニットを制御する本発明の方法及びシステムの好ましい実施の形態を図１のフローチャートに示す。この図１では、ステップＳ０〜ステップＳ１２により実施の形態を記述している。
先ずステップＳ０において、この方法及びシステムは、実行開始に際して初期化され、次にステップＳ１において、一般情報、及び／又は一般的（ｇｅｎｅｒａｌ）及び／又は包括的（ｇｅｎｅｒｉｃ）行動モデルが、予め定義されたデータベースＤＢから読み出される。このデータベースＤＢから得られた１次情報に基づき、本実施例の方法及びシステムの初期動作が構築される。
続いてステップＳ２において、任意のユーザの初期状態ｅ_ｉ、すなわち感情が現在状態ｅ_ｃ：ｅ_ｉ＝ｅ_ｃとして検出される。検出された初期状態ｅ_ｉは、特定の初期状態データＩＳＤ（ＩｎｉｔｉａｌＳｔａｔｕｓＤａｔａ）の形で内部表示される。
ステップＳ３では、ユーザを導くべき所望の目標状態及び／又は個々の目標状態データＴＳＤ（ＴａｒｇｅｔＳｔａｔｕｓＤａｔａ）が受け取られ、獲得され、及び／又は生成される。なお、上述したデータベースＤＢから明瞭なサンプルデータを得ることができ、また、ユーザから直接得ることや外部制御ユニットから得ることもできる。
ステップＳ４では、ある任意のデータトリプル＜ｅ_ｉ，ａ，ｅ_ｔ＞に近似した適切な学習サンプルｌ＝＜ｅ_ｉ’，ａ，ｅ_ｔ’＞が入手可能か否かが判別される。すなわち、ｌ＝＜ｅ_ｉ’，ａ，ｅ_ｔ’＞がｌ＝＜ｅ_ｉ，ａ，ｅ_ｔ＞の状態でデータベースＤＢ内に存在するか否かが判別される。
もし存在する場合には、ステップＳ５において学習サンプルｌがデータベースＤＢから読み出され、その後、ステップＳ６において、学習サンプルｌにおける行動ａが抽出され、導出すべき目標行動として、すなわちｔ：＝ａとして定義される。一方、任意のデータトリプル＜ｅ_ｉ，ａ，ｅ_ｔ＞に近似した適切な学習サンプルｌ＝＜ｅ_ｉ′，ａ，ｅ_ｔ′＞が、特に本実施の形態における方法又はシステムの実行開始時に発見できない場合には、ステップＳ７において最も近い他の学習サンプルｌ又は一般ルールがデータベースＤＢから読み出される。
ステップＳ８では、適切な目標行動ｔが、所与の情報から、包括的情報を一般化する過程から、及び／又は最も近い学習サンプルから導出され生成される。
なお、ステップＳ６及び／又はステップＳ８の後に、すなわちステップＳ９の前に、目標行動ｔを何らかの修正ルールに従って、及び／又はランダムに修正することもできる。
続いてステップＳ９において、導出された目標行動ｔを設定し、実行する。
ステップＳ１０では、実行した目標行動ｔの結果としてのユーザの最終状態ｅ_ｆが検出され、続くステップＳ１１において、データトリプル＜ｅ_ｉ，ａ，ｅ_ｆ＞が再び呼び出され、新しい学習サンプルｌとして評価される。
ステップＳ１２では、ユーザの最終状態ｅ_ｆが所望の目標状態ｅ_ｔと比較される。そして、評価データ（比較データ）が得られ、新しい学習サンプル＜ｅ_ｉ，ａ，ｅ_ｆ＞と共にデータベースＤＢに記録される。外部制御装置又はユーザが本実施の形態の方法及びシステムの実行を終了するまで、ステップＳ２以降のステップが繰り返される。
ここで、感情多様体ＥＭ（ＥｍｏｔｉｏｎＭａｎｉｆｏｌｄｓ）、感情データ多様体ＥＤＭ（ＥｍｏｔｉｏｎＤａｔａＭａｎｉｆｏｌｄｓ）、行動多様体ＡＭ（ＡｃｔｉｏｎＭａｎｉｆｏｌｄｓ）及び行動データ多様体ＡＤＭ（ＡｃｔｉｏｎＤａｔａＭａｎｉｆｏｌｄｓ）間の対応関係を概略的に図２に示す。
図２の上部において、マン・マシン・インタフェースユニットを特徴付けるユーザの感情多様体ＥＭ及び行動多様体ＡＭにより構成された直積演算又はテンソ

ョンマッピングＴにより、感情多様体（マップ）ＥＭと対応付けられている。各

Ｔ（ｅ_ｉ，ａ）として、ユーザの少なくとも１つの最終状態（感情）ｅ_ｆ：∈ＥＭにマッピングされる。ここで、ｅ_ｉはユーザの任意の初期状態（感情）であり、ａはシステムが実行することのできる行動である。定義Ｔａ（ｅ_ｉ）：＝Ｔ（ｅ_ｉ，ａ）により、行動多様体ＡＭは、ＥからＥへの一群のマッピングＴａを生成する。
射影演算子又は射影過程Ｐにより、感情多様体ＥＭ及び行動多様態ＡＭの下部又は内部表示部、すなわち対応する感情データ多様体（マップ）ＥＤＭ及び対応する行動データ多様体（マップ）ＡＤＭが得られる。なお、これらの多様体（マップ）は、この例においてはデカルト座標系により表示されている。
したがって、初期状態データＩＳＤは、測定、検出及び表示生成過程により、すなわち射影過程Ｐにより、ＩＳＤ：＝Ｐ（ｅ_ｉ）として、生成される。また、追加的に適切なトランスモーションマッピングＰＴ及びＰＴ_ａが定義される。ここで、最終状態ｅ_ｆ：は、ＦＳＤ：＝Ｐ（ｅ_ｆ）により感情データ多様体ＥＤＭに射影される。また、最終状態データＦＳＤは、ＦＳＤ：＝ＰＴ_ａ（ＩＳＤ）により初期状態データＩＳＤと対応付けられる。
なお、本実施の形態の制御方法の実行効率を多ユーザ機器用に発展させるために、ユーザ識別過程を含めることもできる。この場合、ユーザ識別は、音声認識及び／又は聴覚感情検出システム若しくは過程に基づくものとすることができる。
（２）ロボット装置への応用
以上説明したマン・マシン・インタフェースユニットの制御方法及びシステムは、例えば、少なくとも感情モデルを有し、感情に応じて実行する行動を変化させることのできる自律型のエンターテイメントロボットに適用することができる。
このエンターテイメントロボット等のロボット装置に必要な機能のうち、最も重要且つ基本的なものの１つとして、人間の感情を捉えることが挙げられ（ＰｉｃａｒｄＲ．（１９９７）ＡｆｆｅｃｔｉｖｅＣｏｍｐｕｔｉｎｇ，ＭＩＴＰｒｅｓｓ．）、特に人間の感情を認識すると共に自身の感情を表現することが必要となる。
ここで、ロボット装置が例えばユーザである人間の感情に応じて行動を変化させることができれば、人間との親密性を高めるために非常に有効に働く。また、単に社交性の向上だけではなく、上述したマン・マシン・インタフェースユニットの制御方法を応用し、ロボット装置の行動によって人間の感情をロボット装置が望む感情に導くことができれば、ロボット装置の側からの人間とのインタラクションの幅を広げることができる。このような機能は、学習機能を持つロボット装置においては特に有効に作用する。
そこで、以下では、先ず、感情モデルを有し、感情に応じて表出させる行動を変化させることのできる自律型のロボット装置の構成について説明し、次いで、このロボット装置において、上述したマン・マシン・インタフェースユニットの制御方法及びシステムが適用された要部を説明する。なお、以下の説明では、ロボット装置の一例として、４足歩行型のいわゆるペット型ロボットを用いて説明するが、ロボット装置は、感情モデルに応じて動作するものであれば適用可能であり、移動手段も、４足歩行、さらには脚式移動方式に限定されない。
（２−１）ロボット装置の構成
図３に示すように、本実施の形態におけるロボット装置１は、「犬」等の動物を模した形状のいわゆるペット型ロボットとされ、胴体部ユニット２の前後左右にそれぞれ脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが連結されると共に、胴体部ユニット２の前端部及び後端部にそれぞれ頭部ユニット４及び尻尾部ユニット５が連結されて構成されている。
胴体部ユニット２には、図４に示すように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１、フラッシュＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）カードインターフェース回路１３及び信号処理回路１４が内部バス１５を介して相互に接続されることにより形成されたコントロール部１６と、このロボット装置１の動力源としてのバッテリ１７とが収納されている。また、胴体部ユニット２には、ロボット装置１の向きや動きの加速度を検出するための角速度センサ１８及び加速度センサ１９なども収納されている。
また、頭部ユニット４には、外部の状況を撮像するためのＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラ２０と、使用者からの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出するためのタッチセンサ２１と、前方に位置する物体までの距離を測定するための距離センサ２２と、外部音を集音するためのマイクロホン２３と、鳴き声等の音声を出力するためのスピーカ２４と、ロボット装置１の「目」に相当するＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）（図示せず）などがそれぞれ所定位置に配置されている。
さらに、各脚部ユニット３Ａ〜３Ｄの関節部分や各脚部ユニット３Ａ〜３Ｄ及び胴体部ユニット２の各連結部分、頭部ユニット４及び胴体部ユニット２の連結部分、並びに尻尾部ユニット５の尻尾５Ａの連結部分などにはそれぞれ自由度数分のアクチュエータ２５_１〜２５_ｎ及びポテンショメータ２６_１〜２６_ｎが配設されている。例えば、アクチュエータ２５_１〜２５_ｎはサーボモータを構成として有している。サーボモータの駆動により、脚部ユニット３Ａ〜３Ｄが制御されて、目標の姿勢或いは動作に遷移する。
そして、これら角速度センサ１８、加速度センサ１９、タッチセンサ２１、距離センサ２２、マイクロホン２３、スピーカ２４及び各ポテンショメータ２６_１〜２６_ｎなどの各種センサ並びにＬＥＤ及び各アクチュエータ２５_１〜２５_ｎは、それぞれ対応するハブ２７_１〜２７_ｎを介してコントロール部１６の信号処理回路１４と接続され、ＣＣＤカメラ２０及びバッテリ１７は、それぞれ信号処理回路１４と直接接続されている。
信号処理回路１４は、上述の各センサから供給されるセンサデータや画像データ及び音声データを順次取り込み、これらをそれぞれ内部バス１５を介してＤＲＡＭ１１内の所定位置に順次格納する。また信号処理回路１４は、これと共にバッテリ１７から供給されるバッテリ残量を表すバッテリ残量データを順次取り込み、これをＤＲＡＭ１１内の所定位置に格納する。
このようにしてＤＲＡＭ１１に格納された各センサデータ、画像データ、音声データ及びバッテリ残量データは、この後ＣＰＵ１０がこのロボット装置１の動作制御を行う際に利用される。
実際上ＣＰＵ１０は、ロボット装置１の電源が投入された初期時、胴体部ユニット２の図示しないＰＣカードスロットに装填されたメモリカード２８又はフラッシュＲＯＭ１２に格納された制御プログラムをＰＣカードインターフェース回路１３を介して又は直接読み出し、これをＤＲＡＭ１１に格納する。
また、ＣＰＵ１０は、この後上述のように信号処理回路１４よりＤＲＡＭ１１に順次格納される各センサデータ、画像データ、音声データ及びバッテリ残量データに基づいて自己及び周囲の状況や、使用者からの指示及び働きかけの有無などを判断する。
さらに、ＣＰＵ１０は、この判断結果及びＤＲＡＭ１１に格納した制御プログラムに基づいて続く行動を決定すると共に、当該決定結果に基づいて必要なアクチュエータ２５_１〜２５_ｎを駆動させることにより、頭部ユニット４を上下左右に振らせたり、尻尾部ユニット５の尻尾５Ａを動かせたり、各脚部ユニット３Ａ〜３Ｄを駆動させて歩行させるなどの行動を行わせる。
また、この際ＣＰＵ１０は、必要に応じて音声データを生成し、これを信号処理回路１４を介して音声信号としてスピーカ２４に与えることにより当該音声信号に基づく音声を外部に出力させたり、上述のＬＥＤを点灯、消灯又は点滅させる。
このようにしてこのロボット装置１においては、自己及び周囲の状況や、使用者からの指示及び働きかけに応じて自律的に行動し得るようになされている。
（２−２）制御プログラムのソフトウェア構成
ここで、ロボット装置１における上述の制御プログラムのソフトウェア構成は、図５に示すようになる。この図５において、デバイス・ドライバ・レイヤ３０は、この制御プログラムの最下位層に位置し、複数のデバイス・ドライバからなるデバイス・ドライバ・セット３１から構成されている。この場合、各デバイス・ドライバは、ＣＣＤカメラ２０（図４）やタイマ等の通常のコンピュータで用いられるハードウェアに直接アクセスすることを許されたオブジェクトであり、対応するハードウェアからの割り込みを受けて処理を行う。
また、ロボティック・サーバ・オブジェクト３２は、デバイス・ドライバ・レイヤ３０の最下位層に位置し、例えば上述の各種センサやアクチュエータ２５_１〜２５_ｎ等のハードウェアにアクセスするためのインターフェースを提供するソフトウェア群でなるバーチャル・ロボット３３と、電源の切換えなどを管理するソフトウェア群でなるバワーマネージャ３４と、他の種々のデバイス・ドライバを管理するソフトウェア群でなるデバイス・ドライバ・マネージャ３５と、ロボット装置１の機構を管理するソフトウェア群でなるデザインド・ロボット３６とから構成されている。
マネージャ・オブジェクト３７は、オブジェクト・マネージャ３８及びサービス・マネージャ３９から構成されている。オブジェクト・マネージャ３８は、ロボティック・サーバ・オブジェクト３２、ミドル・ウェア・レイヤ４０、及びアプリケーション・レイヤ４１に含まれる各ソフトウェア群の起動や終了を管理するソフトウェア群であり、サービス・マネージャ３９は、メモリカード２８（図４）に格納されたコネクションファイルに記述されている各オブジェクト間の接続情報に基づいて各オブジェクトの接続を管理するソフトウェア群である。
ミドル・ウェア・レイヤ４０は、ロボティック・サーバ・オブジェクト３２の上位層に位置し、画像処理や音声処理などのこのロボット装置１の基本的な機能を提供するソフトウェア群から構成されている。また、アプリケーション・レイヤ４１は、ミドル・ウェア・レイヤ４０の上位層に位置し、当該ミドル・ウェア・レイヤ４０を構成する各ソフトウェア群によって処理された処理結果に基づいてロボット装置１の行動を決定するためのソフトウェア群から構成されている。
なお、ミドル・ウェア・レイヤ４０及びアプリケーション・レイヤ４１の具体なソフトウェア構成をそれぞれ図６に示す。
ミドル・ウェア・レイヤ４０は、図６に示すように、騒音検出用、温度検出用、明るさ検出用、音階認識用、距離検出用、姿勢検出用、タッチセンサ用、動き検出用及び色認識用の各信号処理モジュール５０〜５８並びに入力セマンティクスコンバータモジュール５９などを有する認識系６０と、出力セマンティクスコンバータモジュール６８並びに姿勢管理用、トラッキング用、モーション再生用、歩行用、転倒復帰用、ＬＥＤ点灯用及び音再生用の各信号処理モジュール６１〜６７などを有する出力系６９とから構成されている。
認識系６０の各信号処理モジュール５０〜５８は、ロボティック・サーバ・オブジェクト３２のバーチャル・ロボット３３によりＤＲＡＭ１１（図４）から読み出される各センサデータや画像データ及び音声データのうちの対応するデータを取り込み、当該データに基づいて所定の処理を施して、処理結果を入力セマンティクスコンバータモジュール５９に与える。ここで、例えば、バーチャル・ロボット３３は、所定の通信規約によって、信号の授受或いは変換をする部分として構成されている。
入力セマンティクスコンバータモジュール５９は、これら各信号処理モジュール５０〜５８から与えられる処理結果に基づいて、「うるさい」、「暑い」、「明るい」、「ボールを検出した」、「転倒を検出した」、「撫でられた」、「叩かれた」、「ドミソの音階が聞こえた」、「動く物体を検出した」又は「障害物を検出した」などの自己及び周囲の状況や、使用者からの指令及び働きかけを認識し、認識結果をアプリケーション・レイヤ４１（図４）に出力する。
アプリケーション・レイヤ４１は、図７に示すように、行動モデルライブラリ７０、行動切換モジュール７１、学習モジュール７２、感情モデル７３及び本能モデル７４の５つのモジュールから構成されている。
行動モデルライブラリ７０には、図８に示すように、「バッテリ残量が少なくなった場合」、「転倒復帰する」、「障害物を回避する場合」、「感情を表現する場合」、「ボールを検出した場合」などの予め選択されたいくつかの条件項目にそれぞれ対応させて、それぞれ独立した行動モデル７０_１〜７０_ｎが設けられている。
そして、これら行動モデル７０_１〜７０_ｎは、それぞれ入力セマンティクスコンバータモジュール５９から認識結果が与えられたときや、最後の認識結果が与えられてから一定時間が経過したときなどに、必要に応じて後述のように感情モデル７３に保持されている対応する情動のパラメータ値や、本能モデル７４に保持されている対応する欲求のパラメータ値を参照しながら続く行動をそれぞれ決定し、決定結果を行動切換モジュール７１に出力する。
なお、この実施の形態の場合、各行動モデル７０_１〜７０_ｎは、次の行動を決定する手法として、図９に示すような１つのノード（状態）ＮＯＤＥ_０〜ＮＯＤＥ_ｎから他のどのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移するかを各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに間を接続するアークＡＲＣ_１〜ＡＲＣ_ｎに対してそれぞれ設定された遷移確率Ｐ_１〜Ｐ_ｎに基づいて確率的に決定する有限確率オートマトンと呼ばれるアルゴリズムを用いる。
具体的に、各行動モデル７０_１〜７０_ｎは、それぞれ自己の行動モデル７０_１〜７０_ｎを形成するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎにそれぞれ対応させて、これらノードＮＯＤＥ_０〜ＮＯＤＥ_ｎごとに図１０に示すような状態遷移表８０を有している。
この状態遷移表８０では、そのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎにおいて遷移条件とする入力イベント（認識結果）が「入力イベント名」の列に優先順に列記され、その遷移条件についてのさらなる条件が「データ名」及び「データ範囲」の列における対応する行に記述されている。
したがって、図１０の状態遷移表８０で表されるノードＮＯＤＥ_１００では、「ボールを検出（ＢＡＬＬ）」という認識結果が与えられた場合に、当該認識結果と共に与えられるそのボールの「大きさ（ＳＩＺＥ）」が「０から１０００」の範囲であることや、「障害物を検出（ＯＢＳＴＡＣＬＥ）」という認識結果が与えられた場合に、当該認識結果と共に与えられるその障害物までの「距離（ＤＩＳＴＡＮＣＥ）」が「０から１００」の範囲であることが他のノードに遷移するための条件となっている。
また、このノードＮＯＤＥ_１００では、認識結果の入力がない場合においても、行動モデル７０_１〜７０_ｎが周期的に参照する感情モデル７３及び本能モデル７４にそれぞれ保持された各情動及び各欲求のパラメータ値のうち、感情モデル７３に保持された「喜び（ＪＯＹ）」、「驚き（ＳＵＲＰＲＩＳＥ）」若しくは「悲しみ（ＳＵＤＮＥＳＳ）」のいずれかのパラメータ値が「５０から１００」の範囲であるときには他のノードに遷移することができるようになっている。
また、状態遷移表８０では、「他のノードへの遷移確率」の欄における「遷移先ノード」の行にそのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎから遷移できるノード名が列記されていると共に、「入力イベント名」、「データ値」及び「データの範囲」の列に記述された全ての条件が揃ったときに遷移できる他の各ノードＮＯＤＥ_０〜ＮＯＤＥ_ｎへの遷移確率が「他のノードへの遷移確率」の欄内の対応する箇所にそれぞれ記述され、そのノードＮＯＤＥ_０〜ＮＯＤＥ_ｎに遷移する際に出力すべき行動が「他のノードへの遷移確率」の欄における「出力行動」の行に記述されている。なお、「他のノードへの遷移確率」の欄における各行の確率の和は１００［％］となっている。
したがって、図１０の状態遷移表８０で表されるノードＮＯＤＥ_１００では、例えば「ボールを検出（ＢＡＬＬ）」し、そのボールの「ＳＩＺＥ（大きさ）」が「０から１０００」の範囲であるという認識結果が与えられた場合には、「３０［％］」の確率で「ノードＮＯＤＥ_１２０（ｎｏｄｅ１２０）」に遷移でき、そのとき「ＡＣＴＩＯＮ１」の行動が出力されることとなる。
各行動モデル７０_１〜７０_ｎは、それぞれこのような状態遷移表８０として記述されたノードＮＯＤＥ_０〜ＮＯＤＥ_ｎがいくつも繋がるようにして構成されており、入力セマンティクスコンバータモジュール５９から認識結果が与えられたときなどに、対応するノードＮＯＤＥ_０〜ＮＯＤＥ_ｎの状態遷移表を利用して確率的に次の行動を決定し、決定結果を行動切換モジュール７１に出力するようになされている。
図７に示す行動切換モジュール７１は、行動モデルライブラリ７０の各行動モデル７０_１〜７０_ｎからそれぞれ出力される行動のうち、予め定められた優先順位の高い行動モデル７０_１〜７０_ｎから出力された行動を選択し、当該行動を実行すべき旨のコマンド（以下、これを行動コマンドという。）をミドル・ウェア・レイヤ４０の出力セマンティクスコンバータモジュール６８に送出する。なお、この実施の形態においては、図８において下側に表記された行動モデル７０_１〜７０_ｎほど優先順位が高く設定されている。
また、行動切換モジュール７１は、行動完了後に出力セマンティクスコンバータモジュール６８から与えられる行動完了情報に基づいて、その行動が完了したことを学習モジュール７２、感情モデル７３及び本能モデル７４に通知する。
一方、学習モジュール７２は、入力セマンティクスコンバータモジュール５９から与えられる認識結果のうち、「叩かれた」や「撫でられた」など、使用者からの働きかけとして受けた教示の認識結果を入力する。
そして、学習モジュール７２は、この認識結果及び行動切換モジュール７１からの通知に基づいて、「叩かれた（叱られた）」ときにはその行動の発現確率を低下させ、「撫でられた（誉められた）」ときにはその行動の発現確率を上昇させるように、行動モデルライブラリ７０における対応する行動モデル７０_１〜７０_ｎの対応する遷移確率を変更する。
他方、感情モデル７３は、「喜び（ｊｏｙ）」、「悲しみ（ｓａｄｎｅｓｓ）」、「怒り（ａｎｇｅｒ）」、「驚き（ｓｕｒｐｒｉｓｅ）」、「嫌悪（ｄｉｓｇｕｓｔ）」及び「恐れ（ｆｅａｒ）」の合計６つの情動について、各情動ごとにその情動の強さを表すパラメータを保持している。そして、感情モデル７３は、これら各情動のパラメータ値を、それぞれ入力セマンティクスコンバータモジュール５９から与えられる「叩かれた」及び「撫でられた」などの特定の認識結果と、経過時間及び行動切換モジュール７１からの通知などに基づいて周期的に更新する。
具体的には、感情モデル７３は、入力セマンティクスコンバータモジュール５９から与えられる認識結果と、そのときのロボット装置１の行動と、前回更新してからの経過時間などに基づいて所定の演算式により算出されるそのときのその情動の変動量をΔＥ［ｔ］、現在のその情動のパラメータ値をＥ［ｔ］、その情動の感度を表す係数をｋ_ｅとして、以下の式２、

によって次の周期におけるその情動のパラメータ値Ｅ［ｔ＋１］を算出し、これを現在のその情動のパラメータ値Ｅ［ｔ］と置き換えるようにしてその情動のパラメータ値を更新する。また、感情モデル７３は、これと同様にして全ての情動のパラメータ値を更新する。
なお、各認識結果や出力セマンティクスコンバータモジュール６８からの通知が各情動のパラメータ値の変動量ΔＥ［ｔ］にどの程度の影響を与えるかは予め決められており、例えば「叩かれた」といった認識結果は「怒り」の情動のパラメータ値の変動量ΔＥ［ｔ］に大きな影響を与え、「撫でられた」といった認識結果は「喜び」の情動のパラメータ値の変動量ΔＥ［ｔ］に大きな影響を与えるようになっている。
ここで、出力セマンティクスコンバータモジュール６８からの通知とは、いわゆる行動のフィードバック情報（行動完了情報）であり、行動の出現結果の情報であり、感情モデル７３は、このような情報によっても感情を変化させる。これは、例えば、「吠える」といった行動により怒りの感情レベルが下がるといったようなことである。なお、出力セマンティクスコンバータモジュール６８からの通知は、上述した学習モジュール７２にも入力されており、学習モジュール７２は、その通知に基づいて行動モデル７０_１〜７０_ｎの対応する遷移確率を変更する。
なお、行動結果のフィードバックは、行動切換モジュール７１の出力（感情が付加された行動）によりなされるものであってもよい。
一方、本能モデル７４は、「運動欲（ｅｘｅｒｃｉｓｅ）」、「愛情欲（ａｆｆｅｃｔｉｏｎ）」、「食欲（ａｐｐｅｔｉｔｅ）」及び「好奇心（ｃｕｒｉｏｓｉｔｙ）」の互いに独立した４つの欲求について、これら欲求ごとにその欲求の強さを表すパラメータを保持している。そして、本能モデル７４は、これらの欲求のパラメータ値を、それぞれ入力セマンティクスコンバータモジュール５９から与えられる認識結果や、経過時間及び行動切換モジュール７１からの通知などに基づいて周期的に更新する。
具体的には、本能モデル７４は、「運動欲」、「愛情欲」及び「好奇心」については、認識結果、経過時間及び出力セマンティクスコンバータモジュール６８からの通知などに基づいて所定の演算式により算出されるそのときのその欲求の変動量をΔＩ［ｋ］、現在のその欲求のパラメータ値をＩ［ｋ］、その欲求の感度を表す係数ｋ_ｉとして、所定周期で以下の式３、

を用いて次の周期におけるその欲求のパラメータ値Ｉ［ｋ＋１］を算出し、この演算結果を現在のその欲求のパラメータ値Ｉ［ｋ］と置き換えるようにしてその欲求のパラメータ値を更新する。また、本能モデル７４は、これと同様にして「食欲」を除く各欲求のパラメータ値を更新する。
なお、認識結果及び出力セマンティクスコンバータモジュール６８からの通知などが各欲求のパラメータ値の変動量ΔＩ［ｋ］にどの程度の影響を与えるかは予め決められており、例えば出力セマンティクスコンバータモジュール６８からの通知は、「疲れ」のパラメータ値の変動量ΔＩ［ｋ］に大きな影響を与えるようになっている。
なお、本実施の形態においては、各情動及び各欲求（本能）のパラメータ値がそれぞれ０から１００までの範囲で変動するように規制されており、また係数ｋ_ｅ、ｋ_ｉの値も各情動及び各欲求ごとに個別に設定されている。
一方、ミドル・ウェア・レイヤ４０の出力セマンティクスコンバータモジュール６８は、図６に示すように、上述のようにしてアプリケーション・レイヤ４１の行動切換モジュール７１から与えられる「前進」、「喜ぶ」、「鳴く」又は「トラッキング（ボールを追いかける）」といった抽象的な行動コマンドを出力系６９の対応する信号処理モジュール６１〜６７に与える。
そしてこれら信号処理モジュール６１〜６７は、行動コマンドが与えられると当該行動コマンドに基づいて、その行動を行うために対応するアクチュエータ２５_１〜２５_ｎ（図４）に与えるべきサーボ指令値や、スピーカ２４（図４）から出力する音の音声データ及び又は「目」のＬＥＤに与える駆動データを生成し、これらのデータをロボティック・サーバ・オブジェクト３２のバーチャル・ロボット３３及び信号処理回路１４（図４）を順次介して対応するアクチュエータ２５_１〜２５_ｎ又はスピーカ２４又はＬＥＤに順次送出する。
このようにしてロボット装置１においては、制御プログラムに基づいて、自己（内部）及び周囲（外部）の状況や、使用者からの指示及び働きかけに応じた自律的な行動を行うことができるようになされている。
（２−３）ロボット装置における適用部分
上述のロボット装置１において、上述したマン・マシン・インタフェースユニットの制御方法及びシステムが適用された要部を説明する。
ここで、言葉によるものを除けば、人間は主として２つの方法で感情を表現することができる。すなわち、顔の表情の変化（Ｅｋｍａｎ，Ｐ．（１９８２）Ｅｍｏｔｉｏｎｓｉｎｔｈｅｈｕｍａｎｆａｃｅ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ）と、声のイントネーションの変化（Ｂａｎｓｅ，Ｒ．ａｎｄＳｈｅｒｅｒ，Ｋ．Ｒ．，（１９９６）ＡｃｏｕｓｔｉｃＰｒｏｆｉｌｅｓｉｎＶｏｃａｌＥｍｏｔｉｏｎＥｘｐｒｅｓｓｉｏｎ，ＪｏｕｒｎａｌｏｆＰｅｒｓｏｎａｌｉｔｙａｎｄＳｏｃｉａｌＰｓｙｃｈｏｌｏｇｙ，７０（３）：６１４−６３６）とである。
そこで、本実施の形態におけるロボット装置１は、ユーザについて得られた画像信号及び／又は音声信号によりユーザの感情を推定し、この推定結果に応じて行動を変化させるものとする。
具体的にロボット装置１は、図１１に示すように、入力部１０１と、内部状態モデル１０２と、ユーザ音声認識部１０３と、ユーザ画像認識部１０４と、短期記憶部（ＳＴＭ：ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）１０５と、感情推定部１０６と、長期記憶部（ＬＴＭ：ＬｏｎｇＴｅｒｍＭｅｍｏｒｙ）１０７と、行動選択部１０８とを備えている。
入力部１０１は、例えば図４に示したＣＣＤカメラ２０からの画像信号や、マイクロホン２３からの音声信号（音響信号）の他、タッチセンサ２１等の各種センサからのセンサ情報を入力する。
内部状態モデル１０２は、図７に示した感情モデル７３及び本能モデル７４に対応し、「喜び（ｊｏｙ）」、「悲しみ（ｓａｄｎｅｓｓ）」、「怒り（ａｎｇｅｒ）」、「驚き（ｓｕｒｐｒｉｓｅ）」、「嫌悪（ｄｉｓｇｕｓｔ）」及び「恐れ（ｆｅａｒ）」の何れかを表す情動パラメータと、「運動欲（ｅｘｅｒｃｉｓｅ）」、「愛情欲（ａｆｆｅｃｔｉｏｎ）」、「食欲（ａｐｐｅｔｉｔｅ）」及び「好奇心（ｃｕｒｉｏｓｉｔｙ）」の何れかを表す欲求パラメータとを感情推定部１０６に供給する。
ユーザ音声認識部１０３は、入力部１０１からユーザが発した声に基づく音声データが供給されると、この音声の強さ及び基本周波数（ピッチ）に基づいて、後述するようにして感情を検出し、検出された情動の種類とその尤度とを短期記憶部１０５に供給する。
ユーザ画像認識部１０４は、入力部１０１からユーザの画像信号が供給されると、この画像から後述するようにして顔領域を抽出し、抽出された顔画像の表情からユーザの感情を検出し、検出された情動の種類とその尤度とを短期記憶部１０５に供給する。
短期記憶部１０５は、ロボット装置１の短期記憶を司る部分であり、ユーザ音声認識部１０３及び／又はユーザ画像認識部１０４から供給された情動の種類とその尤度とを一時的に保持し、これを感情推定部１０６に供給する。ここで、ユーザ音声認識部１０３とユーザ画像認識部１０４との双方から情動の種類とその尤度が供給されるとは限らず、一方のみから供給された場合には、その供給された情動の種類及び尤度を一時的に保持する。例えば、ユーザがロボット装置１の背後から声をかけたような場合、ロボット装置１は、ユーザの顔の表情を認識することができないため、短期記憶部１０５には、ユーザの声から検出した情動の種類及びその尤度のみがユーザ音声認識部１０３から供給される。
感情推定部１０６は、ユーザ音声認識部１０３及び／又はユーザ画像認識部１０４で検出され、短期記憶部１０５から供給された情動の種類及びその尤度に基づいて、上述した感情多様体におけるユーザの現在状態ｅ_ｃを求め、このデータを行動選択部１０８に供給する。また、感情推定部１０６は、内部状態モデル１０２から供給されたロボット装置１の情動パラメータ及び本能パラメータに基づいて、上述した感情多様体におけるロボット装置１の現在状態を求め、このデータを行動選択部１０８に供給する。
長期記憶部１０７は、ロボット装置１の長期記憶を司る部分であり、予め学習された複数のデータトリプル＜ｅ_ｉ，ａ，ｅ_ｆ＞が上述した学習サンプルｌとして記憶されている。
行動選択部１０８は、図７に示した行動モデルライブラリ７０及び行動切換モジュール７１に対応する。この行動選択部１０８は、感情推定部１０６から供給されたユーザの現在状態ｅ_ｃを初期状態ｅ_ｉとし、この初期状態ｅ_ｉと所望の目標状態ｅ_ｔとに基づいて、データトリプル＜ｅ_ｉ，＊，ｅ_ｔ＞に近似する学習サンプルｌ＝＜ｅ_ｉ’，ａ，ｅ_ｔ’＞を長期記憶部１０７から読み出す。そして、行動選択部１０８は、学習サンプルｌにおける行動ａを目標行動ｔとして、すなわちｔ：＝ａとして設定し、この目標行動ｔを行動モデル７０_１〜７０_ｎから選択して出力する。なお、本実施の形態では、この目標状態ｅ_ｔとして、感情推定部１０６から供給されたロボット装置１の現在状態を用いるものとする。これにより、ロボット装置１は、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように、自身の行動を切り換えることができるようになる。
このように、ロボット装置１は、ユーザの声の調子やユーザの顔の表情からユーザの感情を推定し、この推定結果に応じて、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように、行動を変化させることができる。
以下、上述したユーザ音声認識部１０３及びユーザ画像認識部１０４における感情認識処理とその感情に基づく行動選択処理とについて詳細に説明する。
（２−３−１）音声に基づく感情認識
ユーザ音声認識部１０３は、ユーザが発した音声の強さ及び基本周波数（ピッチ）に基づいて、例えば「喜び（ｊｏｙ／ｐｌｅａｓｕｒｅ）」、「悲しみ（ｓｏｒｒｏｗ／ｓａｄｎｅｓｓ／ｇｒｉｅｆ）」、「怒り（ａｎｇｒｙ）」及び「平静（ｃａｌｍ／ｎｅｕｔｒａｌ）」の合計４つの情動を検出する。なお、検出する情動の種類がこの４つに限定されるものではないことは勿論である。ここで、入力音声を各感情に分類するアルゴリズムとしては、例えばＰｉｅｒｒｅ−ｙｖｅｓＯｕｄｅｙｅｒによる報告（Ｐｉｅｒｒｅ−ｙｖｅｓＯｕｄｅｙｅｒ（２００１）ＡｌｇｏｒｉｔｈｍａｎｄＦｅａｔｕｒｅｓ，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＨｕｍａｎｏｉｄｓＣｏｎｆｅｒｅｎｃｅ）にあるように、各種考えられるが、以下では一例として、ナイーブ・ベイズ・クラス分類アルゴリズム（ＮａｉｖｅＢａｙｅｓｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍ）を用いるものとする。
具体的にユーザ音声認識部１０３は、図１２に示すように、音声入力部１１１と、特徴量抽出部１１２と、感情検出部１１３と、分類部（ｃｌａｓｓｉｆｉｅｒ）１１４と、感情音声データベース１１５と、結果出力部１１６とを有している。ここで、分類部１１４は、上述した４つの情動にそれぞれ対応する喜び分類器（ｃｌａｓｓｉｆｉｅｒ）１１４_１、悲しみ分類器１１４_２、怒り分類器１１４_３及び平静分類器１１４_４を有している。
音声入力部１１１は、図４に示したマイクロホン２３からの音声信号（音響信号）のうちユーザの発した声がＡ／Ｄ変換されたデジタル音声信号を入力する。音声入力部１１１は、このデジタル音声信号を特徴量抽出部１１２に供給する。
特徴量抽出部１１２は、音声入力部１１１から供給されたデジタル音声信号から、声の強さ（ｉｎｔｅｎｓｉｔｙ）及び声の高さ（ｐｉｔｃｈ）を特徴量として抽出する。ここで、声の強さは信号のパワーとして与えられ、声の高さは信号の基本周波数として与えられる。なお、この基本周波数を求める手法としては種々提案されており、例えば音声波形の自己相関関数を用いる手法や、スペクトルを用いる手法などがある。
特徴量抽出部１１２は、デジタル音声信号に対して微小時間間隔毎に、例えば１０ｍｓ毎に声の強さ及び高さを抽出する。この際、声の強さは、ローパス・フィルタ及びハイパス・フィルタを通した信号からそれぞれ求められる。この結果、声の強さと声の高さに関する３次元ベクトルの系列が１つのデジタル音声信号に対して得られる。そして、特徴量抽出部１１２は、この３次元ベクトル系列に対して、各次元毎に、平均値、最大値、最小値、最大値と最小値との差、分散、中央値を求める。この結果、３×６＝１８個の特徴量が得られ、特徴量抽出部１１２は、この１８次元ベクトルを感情検出部１１３に供給する。
感情検出部１１３は、特徴量抽出部１１２から供給された１８次元ベクトルについて、ナイーブ・ベイズ・クラス分類アルゴリズムに従い、分類部１１４の各分類器（ｃｌａｓｓｉｆｉｅｒ）１１４_１〜１１４_４を用いて、上述した「喜び（ｊｏｙ／ｐｌｅａｓｕｒｅ）」、「悲しみ（ｓｏｒｒｏｗ／ｓａｄｎｅｓｓ／ｇｒｉｅｆ）」、「怒り（ａｎｇｒｙ）」及び「平静（ｃａｌｍ／ｎｅｕｔｒａｌ）」の何れかに分類する。
このナイーブ・ベイズ・クラス分類アルゴリズムについて簡単に説明する。ｎ次元の入力ベクトル（ａ＿１，ａ＿２，．．．，ａ＿ｎ）に対してクラスｃ＿ｊの生起確率Ｐ（ｃ＿ｊ｜ａ＿１，ａ＿２，．．．，ａ＿ｎ）を最大化するｃ＿ｊを求めるという問題は、ベイズ（Ｂａｙｅｓ）の定理より、以下の式４、

を最大化するｃ＿ｊを求めるという問題に定式化される。ここで、各次元の独立性を仮定すると、この問題は、以下の式５、

を最大化するクラスｃ＿ｊを求める問題に帰着される。
そして、Ｐ（ａ＿ｉ｜ｃ＿ｊ）を例えば正規分布で与えられる確率密度関数を用いてモデル化することにより、入力ベクトル（ａ＿１，ａ＿２，．．．，ａ＿ｎ）に対して、クラスｃ＿ｊの生起確率が求められる。
すなわち、上述した１８次元ベクトルの各次元について各情動に対応する確率密度関数を用いて尤度を計算することにより、各情動に対応する１８次元ベクトルの尤度が計算される。
なお、この確率密度関数は、各情動に対応する音声データが多数記憶された感情音声データベース１１５を用いて推定することができる。例えば、ある感情に対応する音声データが１０００発話分ある場合、それぞれの音声データについての特徴量（上述の１８次元ベクトル）を抽出し、その特徴量ベクトルの各次元に対応したデータから平均μと分散σとを求めることで、以下の式６、

で示される確率密度関数が推定される。
感情検出部１１３は、特徴量抽出部１１２から供給された１８次元ベクトルについて、喜び分類器（ｃｌａｓｓｉｆｉｅｒ）１１４_１、悲しみ分類器１１４_２、怒り分類器１１４_３及び平静分類器１１４_４における確率密度関数から各情動の尤度を求める。そして、感情検出部１１３は、この尤度を比較し、最も尤度の高い情動の種類とその尤度とを、検出結果として結果出力部１１６に供給する。
結果出力部１１６は、感情検出部１１３から供給された情動の種類とその尤度とを、上述の図１１に示した短期記憶部１０５に出力する。
（２−３−２）顔の表情に基づく感情認識
ユーザ画像認識部１０４は、ユーザの顔画像の表情に基づいて、例えば「喜び（ｊｏｙ）」、「悲しみ（ｓａｄｎｅｓｓ）」、「怒り（ａｎｇｅｒ）」、「驚き（ｓｕｒｐｒｉｓｅ）」、「嫌悪（ｄｉｓｇｕｓｔ）」及び「恐れ（ｆｅａｒ）」の合計６つの情動を検出する。なお、検出する情動の種類がこの６つに限定されるものではないことは勿論であり、この６つの情動の何れでもない場合には、「平静（ｃａｌｍ／ｎｅｕｔｒａｌ）」として検出される。
ここで、顔の表情を記述するために、本実施の形態では、Ｅｋｍａｎ及びＦｒｉｅｓｅｎによって提案されたＦＡＣＳ（ＦａｃｉａｌＡｃｔｉｏｎＣｏｄｉｎｇＳｙｓｔｅｍ）と呼ばれる表情記述方法を用いる。このＦＡＣＳとは、表情をアクションユニット（ＡＵ：ＡｃｔｉｏｎＵｎｉｔ）と呼ばれる、（ａ）解剖学的に独立し（表情筋）、（ｂ）視覚的に識別可能な、（ｃ）表情動作の最小単位、に従って分類し、このＡＵの強度の組み合わせによって、人間の表情を定量的に記述するものである。但し、ＦＡＣＳは本来、心理学の分野で表情を記述し分析することを目的に提案されたものであり、図１３に抜粋を示すように、各ＡＵの定義自体には定性的な表現が用いられている。
上述した６つの情動のそれぞれが生起したときに表出する表情を基本６表情といい、Ｅｋｍａｎ及びＦｒｉｅｓｅｎによって、この基本６表情とＡＵとの関連性が明らかにされている。なお、この関連性は、基本的に文化・性別・年齢等の個人差に影響されないものとされている。すなわち、人間の表情をＡＵによって表現（認識）できれば、これを上述した６つの情動にマッピングすることができる。
そこで、本実施の形態におけるユーザ画像認識部１０４は、画像信号を入力として各ＡＵの強度を出力とするデータ変換操作であるＦＡＣＳコーディングを利用し、入力された画像信号から各ＡＵによって特徴付けられた上述の６つの情動を検出する。
具体的にユーザ画像認識部１０４は、図１４に示すように、画像入力部１２１と、顔検出部１２２と、アラインメント部１２３と、差分画像生成部１２４と、顔画像データベース１２５と、データ変換部１２６と、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）部１２７と、結果出力部１２８とを有している。
画像入力部１２１は、図４に示したＣＣＤカメラ２０からの画像信号を入力し、この画像信号を顔検出部１２２に供給する。
顔検出部１２２は、先ず画像入力部１２１から供給された画像信号に基づくフレーム画像を縮小率が異なる複数のスケール画像に変換する。例えば、顔検出部１２２は、フレーム画像を０．８倍ずつ順次縮小して５段階（１．０倍、０．８倍、０．６４倍、０．５１倍、０．４１倍）のスケール画像に変換する。そして、顔検出部１２２は、各スケール画像について、画像左上を起点として順に右下まで、適当な画素分を右側又は下側にずらしながらスキャンするようにして、４００（＝２０×２０）画素の矩形領域を切り出し、テンプレート画像とのマッチングをとって、顔画像か否かを判断する。但し、この時点で顔画像であると判断された矩形領域（以下、スコア画像という。）には、実際には顔画像以外の判断誤りの画像が多数含まれるため、顔検出部１２２は、サポートベクターマシン（ＳＶＭ）により、顔、非顔の識別を行う。
このような技術としては、Ｂ．Ｓｈｏｌｋｏｐｈらの報告（Ｂ．Ｓｈｏｌｋｏｐｈ，Ｃ．Ｂｕｒｇｅｓ，Ａ．Ｓｍｏｌａ（１９９９）ＡｄｖａｎｃｅｉｎＫｅｒｎｅｌＭｅｔｈｏｄｓＳｕｐｐｏｒｔＶｅｃｔｏｒＬｅａｒｎｉｎｇ，ＴｈｅＭＩＴＰｒｅｓｓ）やＶ．Ｖａｐｎｉｃの報告（Ｖ．Ｖａｐｎｉｃ（１９９９）ＴｈｅＮａｔｕｒｅｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙＳｅｃｏｎｄＥｄｉｔｉｏｎ，Ｓｐｒｉｎｇｅｒ）に開示されている技術が挙げられる。
上述のＳＶＭは、識別関数に線形識別器（パーセプトロン）を用いた学習機械であり、カーネル関数を使うことで非線形区間に拡張することができる。また、識別関数の学習では、クラス間分離のマージンを最大にとるように行われ、その解は２次数理計画法を解くことで得られるため、グローバル解に到達できることを理論的に保証できる。この処理の詳細は次の通りである。
先ず、上述したスコア画像から顔以外の背景部分を除くため、画像の４隅を切り取ったマスクを用いて、４００（＝２０×２０）画素あるスコア画像から３６０画素分を抽出する。次に、照明による撮像対象物の輝度が変化することを前提として、照明による輝度の勾配を補正して、ヒストグラム平滑化或いはコントラストノーマライゼーションを施す。続いて、顔検出に利用する識別関数の学習を行う。学習用のデータとして最初に顔データ、非顔データそれぞれ所定の枚数を用いて、暫定的な識別関数を得る。それから、暫定的に得られた識別関数を様々なデータベース上の画像に試して顔の検出を行い、その結果、検出に成功したものを顔データ、失敗したものを非顔データとして学習データに追加し、さらに学習をし直す。
顔検出部１２２は、以上のようにしてスコア画像内に顔データが存在するか否かを判断し、存在する場合には、そのスコア画像を顔画像として、アラインメント部１２３に供給する。
アラインメント部１２３は、顔検出部１２２から供給された顔画像について、アラインメント処理を行う。つまり、後述する差分画像生成部１２４で２枚の顔画像の差分を正しく得るためには顔の位置を制度よく求める必要があり、また、顔の中の眼、鼻の位置は人によって異なるため、これらの位置を正規化する必要もある。そこで、アラインメント部１２３は、得られた顔画像に対して、目尻、鼻腔、唇端などの特徴点を抽出して眼と鼻の位置同定を行い、検出された眼と鼻が定められた位置になるようにアフィン変換で回転・伸縮（モーフィング処理）を行うことにより、アラインメント処理を行う。アラインメント部１２３は、このアラインメント後の顔画像を差分画像生成部１２４に供給する。
差分画像生成部１２４は、アラインメント部１２３から供給されたアラインメント後の顔画像と、顔画像データベース１２５に記憶されているアラインメント後の無表情（ニュートラル）顔画像との差分を計算し、差分画像を生成する。差分画像生成部１２４は、生成した差分画像をデータ変換部１２６に供給する。
データ変換部１２６は、ガボア（Ｇａｂｏｒ）・フィルタを用いて３６０画素分のスコア画像をベクトル変換し、得られたベクトル群をさらに１本の特徴ベクトルに変換する。
ここで、人間の視覚細胞には、ある特定の方位に対して選択性を持つ細胞が存在することが既に判っている。これは、垂直の線に対して反応する細胞と、水平の線に対して反応する細胞で構成される。上述のガボア・フィルタは、これと同様に、方位選択性を持つ複数のフィルタで構成される空間フィルタである。
なお、低周波でのフィルタリングでは、フィルタリング後のイメージ全てをベクトルとして保持しておくのは冗長であるため、ダウンサンプリングして、ベクトルの次元を落とすようにしてもよい。この場合、ダウンサンプリングされた複数のベクトル群が並べられて、１本の特徴ベクトルが生成される。
そして、データ変換部１２６は、ガボア・フィルタリングによって得られた特徴ベクトルをベクトル量子化し、ベクトル量子化後の特徴ベクトルをＨＭＭ部１２７に供給する。
ＨＭＭ部１２７は、データ変換部１２６から供給されたベクトル量子化後の特徴ベクトルについて、隠れマルコフモデルを用いて、上述した「喜び（ｊｏｙ）」、「悲しみ（ｓａｄｎｅｓｓ）」、「怒り（ａｎｇｅｒ）」、「驚き（ｓｕｒｐｒｉｓｅ）」、「嫌悪（ｄｉｓｇｕｓｔ）」及び「恐れ（ｆｅａｒ）」の何れかに分類する。ここで、ＨＭＭ部１２７は、予め各情動を表す顔画像でトレーニングされており、供給された特徴ベクトルについて、各情動の尤度を求める。なお、各情動とＡＵとの対応付けとしては、例えば以下のようなものが挙げられる。
「喜び（ｊｏｙ）」・・・・・ＡＵ６＋１２
「悲しみ（ｓａｄｎｅｓｓ）」・・ＡＵ１及びＡＵ１＋４
「怒り（ａｎｇｅｒ）」・・・・ＡＵ４
「驚き（ｓｕｒｐｒｉｓｅ）」・・ＡＵ１＋２
「嫌悪（ｄｉｓｇｕｓｔ）」・・・ＡＵ２＋４
「恐れ（ｆｅａｒ）」・・・・ＡＵ１＋２＋４
ＨＭＭ部１２７は、得られた各情動の尤度を比較し、最も尤度の高い情動の種類とその尤度とを、検出結果として結果出力部１２８に供給する。
結果出力部１２８は、ＨＭＭ部１２７から供給された情動の種類とその尤度とを、上述の図１１に示した短期記憶部１０５に出力する。
なお、上述した例では、ＨＭＭ部１２７の入力として、ガボア・フィルタリングによって得られ、ベクトル量子化された特徴ベクトルを用いるものとして説明したが、これに限定されるものではなく、例えばＪａｍｅｓＪ．Ｌｉｅｎらの報告（ＪａｍｅｓＪ．Ｌｉｅｎｅｔａｌ．（１９９８）ＡｕｔｏｍａｔｅｄＦａｃｉａｌＥｘｐｒｅｓｓｉｏｎＲｅｃｏｇｎｉｔｉｏｎＢａｓｅｄｏｎＦＡＣＳＡｃｔｉｏｎＵｎｉｔｓ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＦＧ’９８，Ａｐｒｉｌ１４−１６）に開示されているように、特徴点のトラッキング結果や、顔面各部位の動きベクトル（ｏｐｔｉｃａｌｆｌｏｗ）を用いるようにしても構わない。
（２−３−３）感情に基づく行動選択
上述したように、ロボット装置１は、「喜び（ｊｏｙ）」、「悲しみ（ｓａｄｎｅｓｓ）」、「怒り（ａｎｇｅｒ）」、「驚き（ｓｕｒｐｒｉｓｅ）」、「嫌悪（ｄｉｓｇｕｓｔ）」及び「恐れ（ｆｅａｒ）」という合計６つの情動を有するが、これらの各情動は、複数次元の位相空間、例えば図１５に示すように、快度（ｐｌｅａｓａｎｔｎｅｓｓ）、覚醒度（ａｃｔｉｖａｔｉｏｎ）及び確信度（ｃｅｒｔａｉｎｔｙ）を３軸とする３次元位相空間中の空間領域に対応付けられる。
ここで、「快度」は、ロボット装置１の本能がどれだけ満たされているかの度合い、「覚醒度」は、生物のバイオリズムによって決定される、起きているか寝ているかの度合い、「確信度」は、現在ロボット装置１が注目しているものを確信をもって認識できる度合いをそれぞれ示すパラメータである。
図１１に示した感情推定部１０６は、ユーザ音声認識部１０３及び／又はユーザ画像認識部１０４で検出され、短期記憶部１０５から供給された情動の種類及びその尤度に基づいて、ユーザの現在感情を、先ず位相空間中の一点にマッピングする。具体的には、例えば検出された情動が「喜び（ｊｏｙ）」であり、その尤度が０．８である場合、感情推定部１０６は、図１６に示すように、位相空間の原点から検出された喜びの情動に対応する空間領域の中心へと向かうベクトルｊに尤度０．８を乗算し、得られたベクトルによって示される座標Ｊ（ｐ，ａ，ｃ）を暫定的にユーザの現在感情を示す座標とする。
なお、ユーザ音声認識部１０３で検出された情動の尤度とユーザ画像認識部１０４で検出された情動の尤度とが異なる場合、感情推定部１０６は、例えば両者の平均尤度を用いて位相空間中にマッピングすることができる。また、ユーザ音声認識部１０３で検出された情動とユーザ画像認識部１０４で検出された情動とが異なる場合、感情推定部１０６は、例えば予め定めた一方の情動のみを用いて位相空間中にマッピングすることができる。
そして、感情推定部１０６は、ユーザの現在感情を表す位相空間中の座標を、例えば「快度」及び「覚醒度」を２軸とする位相平面上に投影し、これにより得られた座標をユーザの現在状態ｅ_ｃとして設定する。同様に、感情推定部１０６は、ロボット装置１の現在状態（感情）を表す位相空間上の点を、「快度」及び「覚醒度」を２軸とする位相平面上に投影し、これにより得られた座標をユーザの目標状態ｅ_ｔとして設定する。
行動選択部１０８は、感情推定部１０６から供給されたユーザの現在状態ｅ_ｃを初期状態ｅ_ｉとし、ユーザをこの初期状態ｅ_ｉから目標状態ｅ_ｔに導くような理想的な目標行動として行動＊を仮定する。すなわち、図１７に示すように、「快度」及び「覚醒度」を２軸とする位相平面上の座標として与えられる初期状態ｅ_ｉは、行動＊によって、位相平面上の他の座標として与えられる目標状態ｅ_ｔに変換される。そして、行動選択部１０８は、データトリプル＜ｅ_ｉ，＊，ｅ_ｔ＞に近似する学習サンプルｌ＝＜ｅ_ｉ’，ａ，ｅ_ｔ’＞を長期記憶部１０７から読み出す。行動選択部１０８は、学習サンプルｌにおける行動ａを目標行動ｔとして、すなわちｔ：＝ａとして設定し、この目標行動ｔを行動モデル７０_１〜７０_ｎから選択して出力する。
以上のようにして、ロボット装置１は、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように、自身の行動を切り換える。
以下、上述したロボット装置１の行動制御方法について、図１８のフローチャートを用いて説明する。
先ずステップＳ２０において、ロボット装置１は、行動制御の実行開始に際して初期化され、次にステップＳ２１において、初期状態ｅ_ｉ、すなわちユーザの現在の感情が現在状態ｅ_ｃ：ｅ_ｉ＝ｅ_ｃとして検出される。
続いてステップＳ２２では、ロボット装置１の現在の感情を、ユーザを導くべき目標状態ｅ_ｔとして設定する。
ステップＳ２３では、長期記憶部１０７に記憶されている学習サンプルｌ＝＜ｅ_ｉ’，ａ，ｅ_ｔ’＞の中に、＜ｅ_ｉ，＊，ｅ_ｔ＞に近似したものがあるか否かが判別される。具体的には、以下の式７、

で表される距離Ｄｉｓｔと閾値Ｔｈとを比較し、距離Ｄｉｓｔが閾値Ｔｈよりも小さいか否かが判別される。ここで、上式においてα、βは、所定の定数である。
もし距離Ｄｉｓｔが閾値Ｔｈよりも小さい場合には、＜ｅ_ｉ’，ａ，ｅ_ｔ’＞と＜ｅ_ｉ，＊，ｅ_ｔ＞とが近似しているとして、ステップＳ２４において学習サンプルｌが長期記憶部１０７から読み出され、導出すべき行動が目標行動ｔ：＝ａとして設定される。一方、距離Ｄｉｓｔが閾値Ｔｈ以上である場合には、ステップＳ２５において最も近い他の学習サンプルｌ＝＜ｅ_ｉ’，ａ，ｅ_ｔ’＞が長期記憶部１０７から読み出される。ステップＳ２６では、導出すべき行動が目標行動ｔ：＝ａ’として設定される。
続いてステップＳ２７において、導出された目標行動ｔが実行される。
ステップＳ２８では、実行した目標行動ｔの結果としてのユーザの最終状態ｅ_ｆが検出され、続くステップＳ２９において、データトリプル＜ｅ_ｉ，ｔ，ｅ_ｆ＞が一時的に記憶される。
ステップＳ３０では、学習サンプルｌが修正され、又は新たなデータトリプル＜ｅ_ｉ，ｔ，ｅ_ｆ＞が長期記憶部１０７に記憶される。例えば、データトリプル＜ｅ_ｉ，＊，ｅ_ｔ＞とデータトリプル＜ｅ_ｉ，ｔ，ｅ_ｆ＞との距離Ｄｉｓｔ_１と、データトリプル＜ｅ_ｉ，＊，ｅ_ｔ＞とデータトリプル＜ｅ_ｉ’，ａ，ｅ_ｔ’＞との距離Ｄｉｓｔ_２とが比較され、距離Ｄｉｓｔ_１が距離Ｄｉｓｔ_２よりも小さければ、以下の式８、

によって定義されるデータトリプル＜ｅ_ｉ″，ａ，ｅ_ｔ″＞によって、学習サンプルｌ中のデータトリプル＜ｅ_ｉ’，ａ，ｅ_ｔ’＞が置き換えられて修正される。ここで、上式においてｋは、｜ｋ｜＜１を満たす所定の定数である。一方、距離Ｄｉｓｔ_２が距離Ｄｉｓｔ_１以上であれば、データトリプル＜ｅ_ｉ，ｔ，ｅ_ｆ＞が学習サンプルｌに追加され、長期記憶部１０７に記憶される。
そして、外部制御装置又はユーザによって実行終了されるまで、ステップＳ２１以降のステップが繰り返される。
以上のように、本実施の形態におけるロボット装置１は、上述したマン・マシン・インタフェースユニットの制御方法及びシステムを適用することにより、ユーザの声の調子やユーザの顔の表情からユーザの感情を推定し、この推定結果に応じて、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように行動を変化させることができる。
なお、本発明は、上述した実施の形態のみに限定されるものではなく、本発明の要旨を変更しない範囲において種々の変更が可能であることは勿論である。
例えば、上述した実施の形態では、ロボット装置１の現在感情をユーザを導くための目標感情ｅ_ｔとして説明したが、これに限定されるものではなく、所望の感情状態を目標状態ｅ_ｔとして設定することが可能である。
また、上述した実施の形態では、ユーザ或いはロボット装置１の状態を位相平面上の一点として表現したが、これに限定されるものではなく、例えば図１５に示したような位相空間上の一点として表現するようにしても構わない。
産業上の利用可能性
上述したような本発明に係るマン・マシン・インタフェースユニットの制御方法及びシステムによれば、ある行動を実行する前の初期状態（感情）、その行動を実行した後の最終状態（感情）、及び実行した行動を示すデータトリプルを学習サンプルとして予め収集しておくことにより、ユーザを任意の現在状態から所望の目標状態へと導くような行動が設定可能となる。また、このマン・マシン・インタフェースユニットの制御方法及びシステムを、例えば、少なくとも感情モデルを有し、感情に応じて表出する行動を変化させることのできる自律型のロボット装置に適用することにより、ロボット装置は、例えばユーザの感情の推定結果に応じて、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように行動を変化させることができ、エンターテイメント性が向上する。
【図面の簡単な説明】
図１は、本実施の形態におけるマン・マシン・インタフェースユニットの制御方法及びシステムを説明するフローチャートである。
図２は、感情多様体、感情データ多様体、行動多様体及び行動データ多様体間の対応関係を説明する図である。
図３は、本実施の形態におけるロボット装置の外観構成を示す斜視図である。
図４は、同ロボット装置の回路構成を示すブロック図である。
図５は、同ロボット装置のソフトウェア構成を示すブロック図である。
図６は、同ロボット装置のソフトウェア構成におけるミドル・ウェア・レイヤの構成を示すブロック図である。
図７は、同ロボット装置のソフトウェア構成におけるアプリケーション・レイヤの構成を示すブロック図である。
図８は、同アプリケーション・レイヤの行動モデルライブラリの構成を示すブロック図である。
図９は、同ロボット装置の行動決定のための情報となる有限確率オートマトンを説明する図である。
図１０は、同有限確率オートマトンの各ノードに用意された状態遷移表を示す図である。
図１１は、同ロボット装置において、マン・マシン・インタフェースユニットの制御方法が適用された要部を説明する図である。
図１２は、同ロボット装置のユーザ音声認識部の内部構成を説明する図である。
図１３は、ユーザの顔の表情認識に用いられる顔の動作単位（ＡＵ）を説明する図である。
図１４は、同ロボット装置のユーザ画像認識部の内部構成を説明する図である。
図１５は、同ロボット装置の情動を表す３次元位相空間を説明する図である。
図１６は、同３次元位相空間中の一点に感情状態がマッピングされる一例を説明する図である。
図１７は、位相平面上の初期状態が目標状態に変換される様子を説明する図である。
図１８は、同ロボット装置の行動制御方法を説明するフローチャートである。

Claims

マン・マシン・インタフェースユニットを制御する方法において、
少なくとも１人のユーザに関して、実行した行動（ａ）の前の初期状態（ｅ_ｉ）及び当該行動後の最終状態（ｅ_ｆ）を検出し、
上記初期状態（ｅ_ｉ）、上記最終状態（ｅ_ｆ）及び上記実行した行動（ａ）を表すデータトリプルを学習サンプル（ｌ）として収集し、
上記学習サンプル（ｌ）が、実行すべき目標行動を少なくとも導出及び／又は初期設定することによりユーザを任意の現在状態（ｅ_ｃ）から任意の所望の目標状態（ｅ_ｔ）へと導くために使用されること
を特徴とする前記方法。
請求の範囲第１項記載の方法であって、
いずれの場合も、上記ユーザの上記現在状態（ｅ_ｃ）及び上記初期状態（ｅ_ｉ）にそれぞれ対応し、及び／又はそれらの状態を表示する現在状態データ若しくは初期状態データ（ＣＳＤ、ＩＳＤ）が受け取られ、及び／又は生成されることを特徴とする前記方法。
請求の範囲第１項又は第２項記載の方法であって、
いずれの場合も、上記ユーザの上記最終状態（ｅ_ｆ）及び上記目標状態（ｅ_ｔ）にそれぞれ対応し、及び／又はそれらの状態を表示する最終状態データ若しくは目標状態データ（ＦＳＤ、ＴＳＤ）が受け取られ、及び／又は生成されることを特徴とする前記方法。
請求の範囲第１項乃至第３項のいずれか１項記載の方法であって、
上記実行した行動（ａ）及び上記導出された目標行動（ｔ）にそれぞれ対応し、及び／又はそれらの行動を表示する行動データ（ＡＤ）及び目標行動データ（ＴＡＤ）が受け取られ、及び／又は生成されることを特徴とする前記方法。
請求の範囲第１項乃至第４項のいずれか１項記載の方法であって、
上記現在状態、上記初期状態、上記最終状態及び／又は上記目標状態（ｅ_ｃ、ｅ_ｉ、ｅ_ｆ、ｅ_ｔ）、並びにその表示データ及び／又は対応データ（ＣＳＤ、ＩＳＤ、ＦＳＤ、ＴＳＤ）がいずれの場合も特に２次元である埋込み位相多様体（ＥＭ、ＤＭ）により表示され、及び／又はその埋込み位相多様体の形でモデル化されることを特徴とする前記方法。
請求の範囲第５項記載の方法であって、
別個の多様体が個別のユーザ及び／又はユーザのクラス用に導出及び／又は使用され、及び／又は、
全てのユーザ用に共通の又は全体的な多様体が導出及び／又は使用されることを特徴とする前記方法。
請求の範囲第１項乃至第６項のいずれか１項記載の方法であって、
上記実行した行動（ａ）、上記導出された目標行動（ｔ）及び／又は上記表示データ及び／又は対応データ（ＡＤ、ＴＡＤ）がいずれの場合も特に２次元である埋込み位相多様体（ＡＭ、ＡＤＭ）により表示され、及び／又はその埋込み位相多様体の形でモデル化されることを特徴とする前記方法。
請求の範囲第１項乃至第７項のいずれか１項記載の方法であって、
上記現在状態、上記初期状態、上記最終状態及び／又は上記目標状態（ｅ_ｃ、ｅ_ｉ、ｅ_ｆ、ｅ_ｔ）として感情状態が使用されることを特徴とする前記方法。
請求の範囲第１項乃至第８項のいずれか１項記載の方法であって、
各ユーザについて、学習サンプル（ｌ）の集合（Ｌ）に基づき、トランスモーションマッピング（Ｔ）

が導出され、
Ｅが状態又はその状態データについての位相多様体（ＥＭ、ＥＤＭ）の１つである感情多様体を意味し、Ａが行動又は行動データについての位相多様体（ＡＭ、ＡＤＭ）の１つである行動多様体を意味し、ｅ_ｉ，ｅ_ｆ，ａが感情多様体Ｅ及び行動多様体Ａの各要素をそれぞれ意味すること
を特徴とする前記方法。
請求の範囲第１項乃至第９項のいずれか１項記載の方法であって、
任意のユーザの任意の所望の初期状態及び／又は目標状態（ｅ_ｉ、ｅ_ｔ）について、任意の現在状態（ｅ_ｃ）、最終状態（ｅ_ｆ）及び実行済みの行動（ａ）を含む既にサンプリングされた学習サンプルから、初期状態及び現在状態（ｅ_ｉ、ｅ_ｃ）及び／又は最終状態及び目標状態（ｅ_ｆ、ｅ_ｔ）及び／又はそれらのデータ（ＩＳＤ、ＣＳＤ、ＦＳＤ、ＴＳＤ）が近傍の位相にある行動（ａ）が、目標行動（ｔ）として選択されることを特徴とする前記方法。
請求の範囲第１０項記載の方法であって、
上記近傍を導出及び／又は記述するために、上記状態（ｅ_ｉ、ｅ_ｃ、ｅ_ｆ、ｅ_ｔ）及び／又は行動（ａ、ｔ）の距離測定、計量、連続性、方向及び／又はベクトル特性が使用されることを特徴とする前記方法。
請求の範囲第１項乃至第１１項のいずれか１項記載の方法であって、
任意のユーザを目標状態（ｅ_ｔ）へと導き、上記ユーザにとっての任意の所望の最終状態（ｅ_ｆ）に最も適合するようにするために、実行すべき一連の行動（ａ）が上記目標行動（ｔ）として実行すべきものとして導出又は初期設定されることを特徴とする前記方法。
請求の範囲第１項乃至第１２項のいずれか１項記載の方法であって、
導出された目標行動（ｔ）及び／又はそのデータ（ＴＡＤ）に修正が含められ、及び／又は修正が行われることを特徴とする前記方法。
請求の範囲第１３項記載の方法であって、
上記修正が、位相、距離、計量、連続性、方向及び／又はベクトル特性に基づき、確率測定によりランダムに導入されることを特徴とする前記方法。
請求の範囲第１項乃至第１４項のいずれか１項記載の方法であって、
得られた学習サンプル（ｌ）が、特に上記位相多様体（ＥＭ、ＥＤＭ、ＡＭ、ＡＤＭ）を導出するために生成されることを特徴とする前記方法。
請求の範囲第１５項記載の方法であって、
特に共通の及び／又は全体的な位相多様体を導出するために、上記学習サンプル（ｌ）を一般化するステップが、少なくとも、異なるユーザからの学習サンプル（ｌ）を平均化及び／又は加重するステップからなり、上記異なるユーザが、その典型的な状態及び／又は行動に応じて、特に感情に基づき集団化されることを特徴とする前記方法。
請求の範囲第１５項又は第１６項記載の方法であって、
上記学習サンプル（ｌ）を一般化するステップが、少なくとも、特に射影により行動多様体（ＡＭ、ＡＤＭ）の次元を減らすステップからなることを特徴とする前記方法。
請求の範囲第１５項乃至第１７項のいずれか１項記載の方法であって、
上記学習サンプル（ｌ）を一般化するステップが、少なくとも、任意の学習サンプル（ｌ）の近傍の範囲を拡大及び／又は縮小するステップからなり、特に、最終状態（ｅ_ｆ）及び／又は目標行動（ｔ）が全ての初期状態（ｅ_ｉ）について有効である地点まで、及び／又は最終状態（ｅ_ｆ）が無関係となり、状態の変化の方向だけが考慮される地点まで、上記任意の学習サンプル（ｌ）の内部において、初期状態（ｅ_ｉ）、最終状態（ｅ_ｆ）及び目標行動（ｔ）の全てのトリプルが上記任意の学習サンプル（ｌ）と等価であると分類されることを特徴とする前記方法。
請求の範囲第１項乃至第１８項のいずれか１項記載のマン・マシン・インタフェースユニットの制御方法及び／又はそのステップを実行及び／又は実現することが可能なマン・マシン・インタフェースユニットの制御システム。
コンピュータ又はデジタル信号処理手段により実行された際に請求の範囲第１項乃至第１８項のいずれか１項記載のマン・マシン・インタフェースユニットの制御方法及び／又はそのステップを実行及び／又は実現するのに適したコンピュータプログラム手段からなるコンピュータプログラム製品。
内部及び外部の状況に応じて行動するロボット装置であって、
上記ロボット装置のユーザの状態を検出する状態検出手段と、
上記ユーザの所望の目標状態を設定する目標状態設定手段と、
上記状態検出手段によって検出された上記ユーザの状態を、上記目標状態に導くために実行すべき行動を決定する行動決定手段と、
上記決定された行動を実行する制御手段と
を備えることを特徴とするロボット装置。
請求の範囲第２１項記載のロボット装置であって、
さらに学習手段を備え、
上記状態検出手段によって検出された上記ユーザの状態を、上記目標状態に導くために実行すべき行動は、上記学習手段によって更新されること
を特徴とするロボット装置。
請求の範囲第２２項記載のロボット装置であって、
上記学習手段は、上記ユーザに関して、実行した行動の前の初期状態、当該行動後の最終状態及び当該実行した行動を表すデータトリプルを学習サンプルとして収集し、
上記行動決定手段は、上記学習サンプルに基づいて上記実行すべき行動を決定すること
を特徴とするロボット装置。
請求の範囲第２１項記載のロボット装置であって、
上記ユーザの状態及び上記目標状態は、上記ユーザの感情状態であることを特徴とするロボット装置。
請求の範囲第２４項記載のロボット装置であって、
上記目標状態設定手段は、上記目標状態として、上記ロボット装置の感情状態を用いることを特徴とするロボット装置。
請求の範囲第２４項記載のロボット装置であって、
さらに音声認識手段及び画像認識手段を備え、
上記状態検出手段は、上記ユーザの音声及び顔画像から上記ユーザの上記ユーザの状態として感情状態を検出すること
を特徴とするロボット装置。
請求の範囲第２４項記載のロボット装置であって、
上記感情状態は、複数次元からなる位相空間中の座標として表現でき、
上記ユーザの状態及び上記目標状態は、上記位相空間中の座標として与えられること
を特徴とするロボット装置。
請求の範囲第２４項記載のロボット装置であって、
上記感情状態は、複数次元からなる位相空間中の座標として表現でき、
上記ユーザの状態及び上記目標状態は、上記位相空間中の座標を上記複数次元のうちの２次元からなる位相平面に投影した座標として与えられること
を特徴とするロボット装置。
内部及び外部の状況に応じて自律的に行動するロボット装置の行動制御方法であって、
上記ロボット装置のユーザの状態を検出する状態検出工程と、
上記ユーザの所望の目標状態を設定する目標状態設定工程と、
上記状態検出工程にて検出された上記ユーザの状態を、上記目標状態に導くために実行すべき行動を決定する行動決定工程と、
当該決定された行動を実行する制御工程と
を有することを特徴とする前記方法。
請求の範囲第２９項記載の方法であって、
さらに学習工程を有し、
上記状態検出工程にて検出された上記ユーザの状態を、上記目標状態に導くために実行すべき行動は、上記学習工程にて更新されることを特徴とする前記方法。
請求の範囲第３０項記載の方法であって、
上記学習工程では、上記ユーザに関して、実行した行動の前の初期状態、当該行動後の最終状態及び当該実行した行動を表すデータトリプルが学習サンプルとして収集され、
上記行動決定工程では、上記学習サンプルに基づいて上記実行すべき行動が決定されること
を特徴とする前記方法。
請求の範囲第２９項記載の方法であって、
上記ユーザの状態及び上記目標状態は、上記ユーザの感情状態であることを特徴とする前記方法。
請求の範囲第３２項記載の方法であって、
上記目標状態設定工程では、上記目標状態として、上記ロボット装置の感情状態が用いられることを特徴とする前記方法。
請求の範囲第３２項記載の方法であって、
さらに音声認識工程及び画像認識工程を有し、
上記状態検出工程では、上記ユーザの音声及び顔画像から上記ユーザの状態として感情状態が検出されること
を特徴とする前記方法。
請求の範囲第３２項記載の方法であって、
上記感情状態は、複数次元からなる位相空間中の座標として表現でき、
上記ユーザの状態及び上記目標状態は、上記位相空間中の座標として与えられること
を特徴とする前記方法。
請求の範囲第３２項記載の方法であって、
上記感情状態は、複数次元からなる位相空間中の座標として表現でき、
上記ユーザの状態及び上記目標状態は、上記位相空間中の座標を上記複数次元のうちの２次元からなる位相平面に投影した座標として与えられること
を特徴とする前記方法。