WO2002099545A1

WO2002099545A1 - Man-machine interface unit control method, robot apparatus, and its action control method

Info

Publication number: WO2002099545A1
Application number: PCT/JP2002/005441
Authority: WO
Inventors: Thomas Kemp; Ralf Kompe; Raquel Tato; Masahiro Fujita; Katsuki Minamino; Kenta Kawamoto; Rika Horinaka
Original assignee: Sony International (Europe) Gmbh; Sony Corporation
Priority date: 2001-06-01
Filing date: 2002-06-03
Publication date: 2002-12-12
Also published as: US20040039483A1; EP1406135A4; EP1406135B1; EP1406135A1; EP1262844A1; US6862497B2; EP1406135B8; JPWO2002099545A1

Description

明細書マン . マシン . ィンターフェースュニットの制御方法、並びにロボット装置及びその行動制御方法技術分野本発明は、マン ' マシン ' インターフェースユニットの制御方法、並びにロボット装置及びその行動制御方法に関し、特に動作及び/又はエンターテイメント能力を学習するステップを有するマン 'マシン 'インターフェースュニットの制御方法、並びにそのようなマン ' マシン ' インターフェースュニットの制御方法が適用されるロボット装置及びその行動制御方法に関する。景技術今日では、装置或いは機器を容易且つ信頼性よく使用可能とし、ユーザの便宜を図るため、多くの装置或いは機器にマン ' マシン 'ィンターフェース技術やマン · マシン対話システムが採用されている。

従来、このような装置或いは機器に組み込まれたマン ·マシン ·ィンターフェースュニットを制御するシステムにおいては、ユーザの行動或いは期待に対して最適な動作を生成するために、共通の知識及び Z又はユーザ研究から得られた所定のルールが使用されていた。

しかしながら、これらの所定のルールは、固定化されたものであり、マン 'マシン ·ィンターフェースュニットを制御する上述のシステムにおける動作可能性は、一般ルール及び/又はユーザ独立ルールと動作とを組み合わせるに留まっていた。これは、多くの場合、すなわち殆どのユーザにとって、平均的には最善の解決法であるが、最適な解決法とはいえなかった。発明の開示本発明は、上述の実情に鑑みて提案されるものであって、柔軟且つ信頼性よく . ユーザの動作、期待、或いは質問に対応することを可能とするマン ' マシン 'ィンターフェースュニットの制御方法を提供することを目的とする。

この目的は、請求の範囲第 1項に記載するマン · マシン · ィンターフェースュュットの制御方法によって達成される。マン ' マシン ' インターフェースュニットの制御方法についての好ましい実施例は、従属項の範囲内にある。また、この目的は、請求の範囲第 1 9項に記載するマン · マシン · ィンターフェースュニットの制御システム、及び請求の範囲第 2 0項に記載するコンピュータプログラム製品によって達成される。

マン · マシン ·ィンタフェースュニットを制御する本発明の方法においては、少なくとも 1人のユーザに関して、ある行動を実行する前の初期状態とその行動を実行した後の最終状態とが検出される。また、初期状態、最終状態及び実行した行動を示すデータトリプルが学習サンプルとして収集される。この学習サンプルは、実行すべき目標行動を少なくとも導出及び/又は初期設定し、ユーザを任意の現在状態から所望の目標状態へと導くために使用される。

したがって、本発明の基本概念は、少なくとも 1人のユーザについて実行される行動に関して、特にマン ·マシン ·ィンタフエースュニット自体或いはそれに結合された実行ュニットによって、ある行動を実行する前のユーザの初期状態及びその行動を実行した後の最終状態、又はユーザの初期状態及び/又は最終状態に対応し、若しくは表示するデータを導出することにある。そして、初期状態、最終状態、及び初期状態と最終状態との間に実行された行動を表すデータトリプルとして学習サンプルが生成される。さらに、この学習サンプルは収集されて、実行すべき目標行動を少なくとも導出及び/又は初期設定するために使用される。ユーザは、この目標行動によつて任意の現在状態から任意の所望の目標状態へと導かれる。

従来におけるマン ' マシン · ィンタフェースュニットの制御方法とは対照的に、本発明の方法には特に柔軟性があるが、それはこの方法が、結果的にユーザ独立となっている固定化された所定のルールに依存していないためである。本発明の方法では、起こっている状況及びユーザとマン · マシン ·ィンタフェースュ-ットとの間のインタラクションから選択的（alt ernat ivel y) 又は追加的（addi t i o nal ly) にデータを獲得する。つまり、実行された行動前後のユーザの状態を測定し、対応するデータを得る。したがって、実行された行動により、行動前のユーザの初期状態と行動後のユーザの最終状態とが対応付けられる。

何れの場合にも異なる状態を表示するためには、現在状態データ若しくは初期状態データを受取り、及び Z又は生成することが好ましい。これらの現在状態データ又は初期状態データは、ユーザの現在状態及び Z又は初期状態にそれぞれ対応し、及び又はそれらの状態を示している。

さらに、何れの場合も、最終状態データ又は目標状態データが受取られ、及びノ又は生成される。これらの最終状態データ又は目標状態データは、ユーザの最終状態及び目標状態にそれぞれ対応し、及び/又はそれらの状態を示している。それに加えて、行動データ及ぴ目標行動データを受取り、及び又は生成することもできる。これらの行動データ及び目標行動データは、実行した行動及び本発明の方法の他の好ましい実施例により導出された目標行動に対応し、及びノ又はそれらの行動を示している。

本発明の好ましい、効果的な実施例によれば、異なる状態を自然且つ標準的に記述し、表示することができる。この実施例では、現在状態、初期状態、最終状態及び/又は目標状態、そして特にそれらの表示データ及び/又は対応データを、何れの場合にも、埋込み位相多様体（embedding topologi cal mani fol d) によつて、特に 2次元の埋込み位相多様体によって表示し、及び/又はその埋込み位相多様体の形でモデル化する。

選択的又は追加的に、実行した行動、目標行動、及びノ又はそれらの対応データ及び/又は表示データは、何れの場合にも、埋込み位相多様体により表示し、及び/又はその埋込み位相多様体の形でモデル化することができる。

もちろん、この埋め込み位相多様体は、ユーザ毎に別個の多様体として形成し、導出し、及び/又は使用することもできる。選択的又は追加的に、複数のユーザを等価なユーザからなるいくつかのクラスに分割し、このクラスの各々について別個の多様体を形成し、導出し、及び/又は使用することもできる。また、選択的に、全てのユーザ用に共通又は全体的な多様体を導出し、及び/又は使用することもできる。なお、これは追加的に実施することもできる。

ここで、異なる状態を記述するためにユーザのいくつかの特性を用いることができるが、本発明のもう 1つの効果的な実施例によれば、上述したユーザの現在状態、初期状態、最終状態、そして目標状態として、感情状態を使用することが好ましい。

実行した又は実行すべき各行動は、ユーザの少なくとも 1つの初期状態を少なくとも 1つの最終状態又は目標状態と対応付けるものとして捉えることができる。したがって、ある意味においては、初期状態及び特定の行動の数対が 1つの最終状態と対応付けられる。また、全ての状態及び行動を位相多様体として理解することもできるため、全ての学習サンプルに基づき、トランスモーションマツピング Tと呼ばれるマツビングを各ユーザ別に定義することもできる。このトランスモーションマッピング Tは、以下の式 1、

式 1.

T ； E ® A→ E

< ei . α > ζ E (g) A → ef : = Ύ ( ei , ) = Ί ( ei ) ζ E により示すことができる。ここで、 Eは感情多様体を意味し、ユーザ状態又はその状態データについての位相多様体の 1つである。また、 Aは行動多様体を意味し、行動又は行動データについての位相多様体の 1つであり、 e i， e _f， aは多様体 E及び Aの各要素をそれぞれ意味する。

直積演算 E X A又はテンソル演算 E ® A の各対 < _e , _a〉には、感情多様体 E の別の要素 T ( e , a ) が割当てられている。したがって、トランスモーションマツビング T及び行動多様体 Aにより、 Eから Eへのマツビング T aの一群が定義される。

もちろん、トランスモーションマッビング Tは一般的にはユーザ依存であるが、ユーザ独立及び/又は一般的な部分或いはコンポーネントを含めることもできる。ユーザを現在状態から所望の最終状態へと導くために特定の目標行動を選択する方法は多種多様である。本発明の好ましい実施例によれば、任意のユーザの任意の初期状態及び/又は目標状態について、任意の現在状態、最終状態及び実行済みの行動を含む既にサンプリングされた学習サンプルから、初期状態及び現在状態及び/又は最終状態及び目標状態及び/又はそれらのデータが近隣の位相にある行動が、目標行動として選択される。

この措置が特に効果的であるのは、上述した状態の少なくとも 1つ及び又は行動が正確に適合しない場合である。この近傍（v i cini ty) 又は近隣（ne i ghbou rhood) 位相の概念に基づいて、隣接サンプルを任意の学習サンプルに関して等価のサンプルとして使用することができる。

この近傍及び/又は近隣を導出及び/又は記述するために、状態及び Z又は行動の距離測定、計量（metric) 、連続性、方向、べクトル特性等を相互に使用することが特に効果的である。

任意のユーザの所望の初期状態若しくは現在状態と最終状態若しくは目標状態とを相互に変換すること、又は別の状態と直接対応付けることができない場合もあり得る。したがって、本発明の好ましい実施例によれば、任意のユーザを目標状態へと導き、ユーザの所望の最終状態に最も適合するようにするために、実行すべき一連の行動を目標行動として実行すべきものとして、導出又は初期設定することが効果的である。その結果、上述した一連の行動により、感情多様体を通る経路が特徴付けられ、定義される。

例えば、既に得られている学習サンプルからの任意の行動を目標行動として使用したとしても、ユーザを初期状態から最終状態に導こうとした際に良好な結果を得るには不十分であるかもしれない。したがって、良好な結果を達成するために、導出された目標行動及び Z又はそのデータに修正を含めること、及び又は修正を行うこともできる。

この修正は、位相、距離、計量、連続性、方向、ベタトル特性等に基づき、確率測定によりランダムに導入することもできる。

学習サンプルは、例えば 1日に数個というゆつくりとしたペース又は低率にしか得られないと考えられるため、学習サンプル、特に位相多様体を導出するために用いた学習サンプルを一般化することが特に効果的である。したがって、得られた学習サンプルは、位相多様体 E及び Aにおける基準点及び Z又は測定点の役割を果たし、その一般化は、測定点間における捕間の役割を果たす。

一般化のステップは、特に共通の及び Z又は全体的な位相多様体を導出するために、異なるユーザからの学習サンプルを平均化及び/又は重み付けするステップとすることもできる。この際、異なるユーザは、その典型的な状態及びノ又は行動に基づいて、特に感情に基づいて集団化することもできる。

追加的又は選択的に、上述した^習サンプルの一般化ステップに、特に射影等により行動多様体 Aの次元を減らすステップを少なくとも含ませることもできる _c これにより、自由度が低下させられ、いくつかのクラスの行動が識別され、相互に等価とされる。

さらに、この学習サンプルの一般化ステップは、任意の学習サンプルの近傍又は近隣の範囲を拡大及び/又は縮小するステップを含むこともでき、任意の学習サンプルの内部では、初期状態、最終状態及び目標行動の全てのデータトリプル又はデータトリプレツトがこの任意の学習サンプルと等価であると分類される。これが特に実行されるのは、目標行動及び/又は最終状態が全ての初期状態について妥当である地点までである。追加的又は選択的に、最終状態が無関係となり、状態の変化の方向だけが考慮される地点まで、この措置が実行される。

何れの場合もマン 'マシン .インタフヱ一スユニットを制御する本発明の方法及び又はそのステップを実行及び Z又は実現することが可能なマン · マシン · インタフェースユニットの制御システム、装置、デバイス等を提供することが、本発明の別の実施の形態である。

それに加えて、コンピュータ、デジタル処理手段等により実行された際にマン ' マシン 'インタフェースュニットを制御する本発明の方法及び/又はそのステップを実行及び Z又は実現するのに適したコンピュータプログラム手段からなるコンピュータプログラム製品を提供することが、本発明の別の実施の形態である。本発明の上記形態及びその他の形態は、以下の説明を考慮に入れることにより、さらに明瞭になるであろう。

マン 'マシン 'ィンタフェースの実行、及び又はユーザを楽しませユーザに応答するという目標は、エンターティメントロボット等のような人工システムによっても達成することができる。特にこの目標は、ユーザの感情又は感情変化の位相マップ若しくは位相多様体を推定することにより達成することができる。簡単な例においては、この位相マップ又は位相多様体は、 2次元感情平面に'より形成することができる。位相マップ又は位相多様体は、可能なシステム動作の多次元空間全体に亘つて定義される。このようなマップ或いは多様体が与えられることにより、本発明のシステム又は方法によれば、任意の初期感情から任意の所望の感情へとユーザを ¾くことができる。マップ機能は、いくつかの発見的関係

(heur i s t i c relat ionsh ips) 、又は現在までに公知の任意の従来技術により初期設定することができる。この方法及びシステムは、使用中にユーザの感情を測定することにより、その性能を自動的に改善する。これにより、この方法及びシステムは、マップの粗さを改善し、及び Z又はユーザ依存マップ若しくは多様体を作成することができる。

公知の技術のマン · マシン ·ィンタフェースュニット又はデバイス及び特にェンターティメントロボットは、ユーザ研究及び z又は共通の知識から導出される所定のルールを使用している。これらの所定のルールは固定化されたものであり、例えばユーザを楽しませるという目標のために実行すべき行動のタイプと、潜在的にはユーザの現在の感情とを決定する際に使用される。しかしながら、この固定化されたルールは、静的なものであり、ユーザに依存するものではない。 · この決定過程を簡素化するために提案されている従来技術の方法の中には、ユーザを楽しませ、適切な行動を行うために、ユーザ依存戦略の学習を組込むことができるものがある。しかしながら、個々の観測を任意に一般化することができ、これにより、システムがユーザ独立モードとユーザ依存モードとの両方の性能を漸増的に改善することを可能にする優れたアルゴリズムは未だ提案されていない。人間の状態、特に人間の感情の多様性は、位相多様体として、特に 2次元マツプとして示すことができる。この 2次元マップにおいては、 2つの軸は快楽（pi easure) 及び覚醒（arousal) を表している。このような平面において、右上の領域は、喜び（del i ghted) 、幸福（bl i ssful) 、興奮（exc i ted) 等の感情状態を表している。また、左上の領域は、例えば、恐怖（terri fi ed) 、怒り（angry) 、嫌悪（d i sgust ed) の感情状態を表している。また、右下の領域は、例えば、満足 ( content) 及びリラックス（relaxed) の感情を含み、左下の領域は悲しみ（sa dness) 、憂鬱（depress ion) 、退屈（boredom) 等の感情を表している。

この多様体又は平面状で相互に近接している感情は、類似の感情である。感情を感情多様体又は感情平面上の 1地点から近接した別の地点へと変える方が、遠く離れた地点へと変えるよりは簡単である。感情多様体又は感情平面のこの位相特性が本発明の根拠となっている。

適切な行動を行う、又はユーザを楽しませるという課題における適切な行動は、ユーザの現在の感情及び状況、及び所望の状況又は感情の変化に加えて、ユーザのアイデンティティに大きく依存している。しかしながら、マン 'マシン ' インタフエースユニットにおいては、特に、大量販売しなければならないエンターティメントロボットにおいては、ユーザのアイデンティティは事前には不明である。したがって、システムのエンターテイメント能力は、必然的に一般的なユーザ独立行動の集合に限定されることになる。これは平均的には最善の解決法ではあるが、殆ど全ての個々のユーザにとっては次善の解決法である。したがって、性能及びエンタテイメント能力は、各オーナを最適化目標として、エンターティメントロボットの各ュニット又はマン ' マシン 'インタフェースユニットが独立して学習すべきである。

もしシステムがシステムによる何らかの行動前後のユーザの感情を検出することができれば、この測定結果を学習サンプルとして利用することができ、学習サンプルから、類似の状況における将来の決定を導出することができる。しかしながら、学習サンプルは、 1 sに数個という低い割合でしか得られない。これまでのところ、学習サンプルが事前には未知の頻度で漸増的に送り込まれた場合に、エンターティメントロボット又はマン · マシン ·ィンタフェースュニッ卜がどのようにして個々の学習サンプルを利用することができるのかについて、技術的に公知の方法はない。

ここで、サンプルの集合、すなわち学習サンプルが与えられたと仮定し、各サンプルが、（a ) 初期ユーザ感情を示した感情多様体又は感情平面上の初期地点、 ( b ) デバイスの行動、例えばエンタテイメントロボットの行動又は対話手段 ( chatter box) の対話戦略を記述した多次元べクトル、及び（c ) デバイスの行動が知覚された後の最終ユーザ感情を示した感情多様体又は感情平面上の最終地点、からなるものとする。この場合、各学習サンプルは、マップ又は多様体上に置くことができ、感情多様体又は感情平面上の初期地点から始まって最終地点を指し示し、上記（b ) に記述された行動多様体の多次元行動ベクトルの属性を有するベクトルとして記述することができる。各サンプルは、相互に独立して感情平面内に置くことができる。あらゆるユーザは、一般的には固有の感情マップ又は感情多様体を有しており、そこでは、そのユーザの学習サンプルだけが追加され、記述され、及び/又は一般化される。

このような感情多様体又は感情マップが存在しているか、又は任意のユーザ用に導出された場合、ユーザの何らかの初期状態又は感情と、所望の目標状態又は感情とが与えられれば、適切な行動を見つけることは簡単であり、煩わしさもなレ、。これは、初期状態又は感情に対応する地点の少なくとも近傍又は近隣から始まり、各ユーザの感情多様体又は感情マップの内部の任意の目標感情又は状態に対応する地点の近隣又は近傍への正確な方向を指し示す適切な行動べクトルを選択することにより実現される。次に、ユーザの初期状態を目標状態又は最終状態へと導くために、明確な行動ベクトルにより記述された行動が実行され、実施される。ここで、古い任意の行動を繰り返すのではなく、その古い行動を若干或いはランダムに修正することは有益であり、一般化性能を高めることにもなる。この措置は、戦略のさらなる改善の余地をもたらす展開的方法（evolut ionary wa y) で好結果を収めた戦略を繰返すことと等価である。

通常、感情マップには、学習サンプル又はサンプルベクトルが散在しているため、サンプルべクトルの集合を一般化することが本発明の方法及びアルゴリズムの性能レベルにとって極めて重要である。これは、学習サンプルが典型的には 1 日に数個という非常にゆつくりと低率でしか入ってこないにもかかわらず、この方法及びシステムは最初のサンプルから直ちに学習を始める必要があるためであり、また、一般的且つユーザ独立である開始ルールの集合を考慮に入れることもあるためである。

この一般化は、いくつかの技術を使用して実現することができる。まず第 1に、異なるユーザのサンプルべクトルの学習サンプルを 1つのユーザ独立サンプルに加えることにより、ユーザの感情多様体又は感情マップを簡単に平均化することができる。追加的に、ユーザのクラス別、又は全てのユーザについての全体的若しくは共通の感情多様体若しくはマップを導出することもできる。

第 2に、行動次元を減らすために多次元行動べクトル又は行動データの射影を求めることができ、これにより、行動多様体又は行動空間の次元の数が減らされる。

第 3に、サンプルべクトル又は学習サンプルが任意の初期感情に対して妥当であると考えられる領域を、単一の例が全ての初期感情に対して典型的であると考えることができる地点まで広げることができる。

第 4に、完全に無関係であると見なされ、感情変化べクトルの方向だけが考慮される地点まで、目標領域を同様の方法で広げることができる。

これらの一般化は、相互に独立して使用することもでき、また、組み合わせることもできる。特に、入手可能なサンプルが殆どない場合には、サンプル行動を見つけられるまで一般化の度合いを高めることにより、システムは、常に適当な行動を見つけることができる。これにより、システムは、たった 1つの観測又は学習サンプルでさえ利用することになる。また、感情マップに含まれる有益な学習サンプルが次第に増加するにつれて、一般化、すなわち制約条件の緩和の度合いを次第に低くし、次の行動を演繹的に求めることを可能にすることにより、あらゆる追加学習サンプルによって非常に自然且つ漸増的にシステム性能が高められる。

この新しい方法及びアルゴリズムによれば、最初のサンプルの観測から始めてシステム性能が漸増的に改善されるともに、感情変化の非常に精密なモデルをも可能とされる。同様のアルゴリズムは、コア及び精密モデルの両方に使用することができる。

本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施例から一層明らかにされるであろう。図面の簡単な説明図 1は、本実施の形態におけるマン · マシン ·ィンタフェースュニットの制御方法及びシステムを説明するフローチヤ一トである。

図 2は、感情多様体、感情データ多様体、行動多様体及び行動データ多様体間の対応関係を説明する図である。

図 3は、本実施の形態におけるロボット装置の外観構成を示す斜視図である。図 4は、同ロボット装置の回路構成を示すプロック図である。

図 5は、同ロボット装置のソフトウェア構成を示すプロック図である。

図 6は、同ロポッ卜装置のソフトウェァ構成におけるミドル ' ウェア ' レイヤの構成を示すプロック図である。

図 7は、同ロボット装 ©のソフトウェア構成におけるアプリケーション · レイャの構成を示すプロック図である。

図 8は、同アプリケーション · レイヤの行動モデルライブラリの構成を示すプロック図である。

図 9は、同ロボット装置の行動決定のための情報となる有限確率ォートマトンを説明する図である。

図 1 0は、同有限確率オートマトンの各ノードに用意された状態遷移表を示す図である。

図 1 1は、同ロボット装置において、マン ' マシン 'インタフェースュニットの制御方法が適用された要部を説明する図である。

図 1 2は、同ロボット装置のユーザ音声認識部の内部構成を説明する図である。図 1 3は、ユーザの顔の表情認識に用いられる顔の動作単位（A U ) を説明する図である。

図 1 4は、同ロボット装置のユーザ画像認識部の内部構成を説明する図である。図 1 5は、同ロボット装置の情動を表す 3次元位相空間を説明する図である。図 1 6は、.同 3次元位相空間中の一点に感情状態がマッピングされる一例を説明する図である。

図 1 7は、位相平面上の初期状態が目標状態に変換される様子を説明する図でめる。

図 1 8は、同ロボット装置の行動制御方法を説明するフローチャートである。発明を実施するための最良の形態以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。以下の実施の形態では、先ず、ユーザの動作、期待、或いは感情等に対応してマン ' マシン 'インタフェースュニットを動作させる、本発明の基本原理となるマン · マシン ·ィンタフェースュニットの制御方法及びシステムについて説明し、次いでこの制御方法及びシステムを、少なくとも感情モデルを有し、感情に応じて表出する行動を変化させることのできる自律型のエンターティメントロボットに適用した具体例について説明する。

( 1 ) マン · マシン · インタフェースュニットの制御方法

マン ·マシン ·ィンタフェースュニットを制御する本発明の方法及びシステムの好ましい実施の形態を図 1のフローチャートに示す。この図 1では、ステップ S 0〜ステップ S 1 2により実施の形態を記述している。

先ずステップ S 0において、この方法及びシステムは、実行開始に際して初期化され、次にステップ S 1において、一般情報、及び/又は一般的（general) 及び/又は包括的（generic) 行動モデルが、予め定義されたデータベース D Bから読み出される。このデータベース D Bから得られた 1次情報に基づき、本実施例の方法及びシステムの初期動作が構築される。

続いてステップ S 2において、任意のユーザの初期状態 e すなわち感情が現在状態 e。： e i = e。として検出される。検出された初期状態 e；は、特定の初期状態データ I S D (Initial Status Data) の形で内部表示される。

ステップ S 3では、ユーザを導くべき所望の目標状態及び Z又は個々の目標状態データ T S D (Target Status Data) が受け取られ、獲得され、及び Z又は生成される。なお、上述したデータベース D Bから明瞭なサンプルデータを得ることができ、また、ユーザから直接得ることや外部制御ユニットから得ることもできる。

ステップ S 4では、ある任意のデータトリプル < e a , e _t〉に近似した適切な学習サンプル 1 =< e ， a , e >が入手可能か否かが判別される。すなわち、 l =< e i，， a , 6 >が 1 = < 6 ₁ , a , e _t >の状態でデータベース D B内に存在するか否かが判別される。

もし存在する場合には、ステップ S 5において学習サンプル 1がデータベース D Bから読み出され、その後、ステップ S 6において、学習サンプル 1 における行動 aが抽出され、導出すべき目標行動として、すなわち t ： = aとして定義される。一方、任意のデータトリプル < e a , e _t >に近似した適切な学習サンプル 1 = < 6 , _a , e 〉が、特に本実施の形態における方法又はシステムの実行開始時に発見できない場合には、ステップ S 7において最も近い他の学習サンプル 1又は一般ルールがデータベース D Bから読み出される。

ステップ S 8では、適切な目標行動 tが、所与の情報から、包括的情報を一般化する過程から、及び/又は最も近い学習サンプルから導出され生成される。なお、ステップ S 6及び/又はステップ S 8の後に、すなわちステップ S 9の前に、目標行動 tを何らかの修正ルールに従って、及び/又はランダムに修正することもできる。

続いてステップ S 9において、導出された目標行動 tを設定し、実行する。ステップ S 1 0では、実行した目標行動 tの結果としてのユーザの最終状態 e _fが検出され、続くステップ S 1 1において、データトリプルく e a , e _f 〉が再び呼び出され、新しい学習サンプル 1 として評価される。

ステップ S 1 2では、ユーザの最終状態 e _fが所望の目標状態 e _tと比較される。そして、評価データ（比較データ）が得られ、新しい学習サンプル < e a , e f 〉と共にデータベース D Bに記録される。外部制御装置又はユーザが本実施の形態の方法及びシステムの実行を終了するまで、ステップ S 2以降のステップが繰り返される。

ここで、感情多様体 E M (Emotion Manifolds) 、感情データ多様体 E D M (E mot ion Data Manifolds) 、行動多様体 A M (Action Mani folds) 及び行動データ多様体 A D M (Act ion Data Manifolds) 間の対応関係を概略的に図 2に示す。図 2の上部において、マン ' マシン ' インタフェースュニットを特徴付けるュ一ザの感情多様体 E M及び行動多様体 A Mにより構成された直積演算又はテンソル演算 E ® A は、一般的に任意のユーザに固有である、いわゆるトランスモーシヨンマッピング Tにより、感情多様体（マップ） ΕΜと対応付けられている。各対く e a > S E ® A は、トランスモーションマッピング Tにより、 e _f : = T ( e _{i ;} a) として、ユーザの少なくとも 1つの最終状態（感情） e E EM にマッピングされる。ここで、 e iはユーザの任意の初期状態（感情）であり、 a はシステムが実行することのできる行動である。定義 T a ( e ： =T ( _{e i}, a ) により、行動多様体 AMは、 Eから Eへの一群のマッピング T aを生成する。射影演算子又は射影過程 Pにより、感情多様体 E M及び行動多様態 AMの下部又は内部表示部、すなわち対応する感情データ多様体（マップ） EDM及び対応する行.動データ多様体（マップ） ADMが得られる。なお、これらの多様体（マップ）は、この例においてはデカルト座標系により表示されている。

したがって、初期状態データ I S Dは、測定、検出及び表示生成過程により、すなわち射影過程 Pにより、 I S D ： = P (e i) として、生成される。また、追加的に適切なトランスモーションマッビング P T及び P T_aが定義さ.れる。ここで、最終状態 e _f : は、 F SD : = P ( e _t) により感情データ多様体 E D Mに射影される。また、最終状態データ F S Dは、 F SD ： = P T_a ( I S D) により初期状態データ I SDと対応付けられる。

なお、本実施の形態の制御方法の実行効率を多ユーザ機器用に発展させるために、ユーザ識別過程を含めることもできる。この場合、ユーザ識別は、音声認識及び/又は聴覚感情検出システム若しくは過程に基づくものとすることができる。

(2) ロボット装置への応用

以上説明したマン ·マシン · インタフェースュニットの制御方法及びシステムは、例えば、少なくとも感情モデルを有し、感情に応じて実行する行動を変化させることのできる自律型のエンターティメントロボットに適用することができる。このエンターティメントロボット等のロボット装置に必要な機能のうち、最も重要且つ基本的なものの 1つとして、人間の感情を捉えることが挙げられ（Pica rd R. (1997) Affective Computing, MIT Press. ) 、特に人間の感情を認識すると共に自身の感情を表現することが必要となる。

ここで、ロボット装置が例えばユーザである人間の感情に応じて行動を変化させることができれば、人間との親密性を高めるために非常に有効に働く。また、単に社交性の向上だけではなく、上述したマン · マシン ·ィンタフェースュニットの制御方法を応用し、ロボット装置の行動によって人間の感情をロボット装置が望む感情に導くことができれば、ロボット装置の側からの人間とのィンタラタシヨンの幅を広げることができる。このような機能は、学習機能を持つロボット装置においては特に有効に作用する。

そこで、以下では、先ず、感情モデルを有し、感情に応じて表出させる行動を変化させることのできる自律型のロボット装匱の構成について説明し、次いで、このロボット装置において、上述したマン · マシン · インタフェースュニットの制御方法及びシステムが適用された要部を説明する。なお、以下の説明では、口ボット装置の一例として、 4足歩行型のいわゆるぺット型ロボットを用いて説明するが、ロボット装置は、感情モデルに応じて動作するものであれば適用可能であり、移動手段も、 4足歩行、さらには脚式移動方式に限定されない。

( 2 — 1 ) ロボット装置の構成

図 3に示すように、本実施の形態におけるロボット装置 1は、「犬」等の動物を模した形状のいわゆるぺット型ロボットとされ、胴体部ュニット 2の前後左右にそれぞれ脚部ユニット 3 A , 3 B , 3 C , 3 Dが連結されると共に、胴体部ュニット 2の前端部及び後端部にそれぞれ頭部ュニット 4及び尻尾部ュニット 5が連結されて構成されている。

胴体部ユニット 2には、図 4に示すように、 C P U (Central Processing Uni t) 1 0、 D R A M (Dynami c Random Access Memory) 1 1、フラッシュ R O M

(Read O nly Memory) 1 2、 P C (Personal Computer) カードインターフエ一ス回路 1 3及び信号処理回路 1 4が内部バス 1 5を介して相互に接続されることにより形成されたコントロール部 1 6 と、このロボット装置 1の動力源としてのバッテリ 1 7とが収納されている。また、胴体部ユニット 2には、ロボット装置 1の向きや動きの加速度を検出するための角速度センサ 1 8及び加速度センサ 1 9なども収納されている。

また、頭部ユニット 4には、外部の状況を撮像するための C C D (Charge Cou pled Device) カメラ 2 0と、使用者からの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出するためのタツチセンサ 2 1と、前方に位置する物体までの距離を測定するための距離センサ 2 2と、外部音を集音するためのマイクロホン 2 3と、鳴き声等の音声を出力するためのスピーカ 2 4と、ロボット装置 1の「目」に相当する L E D (Light Emitting Diode) (図示せず）などがそれぞれ所定位置に配置されている。

さらに、各脚部ュニット 3 A〜 3 Dの関節部分や各脚部ュニット 3 A〜 3 D及び胴体部ュニット 2の各連結部分、頭部ュニット 4及び胴体部ュニット 2の連結部分、並びに尻尾部ュニット 5の尻尾 5 Aの連結部分などにはそれぞれ自由度数分のァクチユエータ 2 5 i〜 2 5 _n及ぴポテンショメータ 2 6₁〜 2 6。が配設されている。例えば、ァクチユエ一タ 2 5 _L〜 2 5„はサーボモータを構成として有している。サーボモータの駆動により、脚部ユニット 3 A〜 3 Dが制御されて、目標の姿勢或いは動作に遷移する。

そして、これら角速度センサ 1 8、加速度センサ 1 9、タツチセンサ 2 1、距離センサ 2 2、マイクロホン 2 3、スピー力 2 4及び各ボテンシ' aメータ 2 6 !~ 2 6 »などの各種センサ並びに L E D及び各ァクチユエータ 2 5 〜 2 5„は、それぞれ対応するハブ 2 7₁〜 2 7„を介してコントロール部 1 6の信号処理回路 1 4と接続され、 C C Dカメラ 2 0及ぴバッテリ 1 7は、それぞれ信号処理回路 1 4と直接接続されている。

信号処理回路 1 4は、上述の各センサから供給されるセンサデータや画像データ及び音声データを順次取り込み、これらをそれぞれ内部バス 1 5を介して D R AM 1 1内の所定位置に順次格納する。また信号処理回路 1 4は、これと共にバッテリ 1 7から供給されるバッテリ残量を表すバッテリ残量データを順次取り込み、これを DRAM 1 1内の所定位置に格納する。

このようにして D RAM 1 1に格納された各センサデータ、画像データ、音声データ及びバッテリ残量データは、この後 C PU 1 0がこのロボット装置 1の勤作制御を行う際に利用される。

実際上 C PU 1 0は、ロボット装置 1の電源が投入された初期時、胴体部ュニット 2の図示しない P Cカードスロットに装填されたメモリカード 2 8又はフラッシュ ROM 1 2に格納された制御プログラムを P Cカードィンターフェース回路 1 3を介して又は直接読み出し、これを DRAM 1 1に格納する。また、 C PU 1 0は、この後上述のように信号処理回路 1 4より D RAM 1 1 に順次格納される各センサデータ、画像データ、音声データ及びバッテリ残量データに基づいて自己及び周囲の状況や、使用者からの指示及び働きかけの有無などを判断する。

さらに、 C PU 1 0は、この判断結果及び DRAM 1 1に格納した制御プログラムに基づいて続く行動を決定すると共に、当該決定結果に基づいて必要なァクチユエータ 2 5 t〜 2 5„を駆動させることにより、頭部ュニット 4を上下左右に振らせたり、尻尾部ユニット 5の尻尾 5 Aを動かせたり、各脚部ユニット 3 A〜 3 Dを駆動させて歩行させるなどの行動を行わせる。

また、この際 C PU 1 0は、必要に応じて音声データを生成し、これを信号処理回路 1 4を介して音声信号としてスピーカ 24に与えることにより当該音声信号に基づく音声を外部に出力させたり、上述の L EDを点灯、消灯又は点滅させる。

このようにしてこのロボット装置 1においては、自己及び周囲の状況や、使用者からの指示及び働きかけに応じて自律的に行動し得るようになされている。

( 2 - 2) 制御プログラムのソフトウェア構成

ここで、ロボット装置 1における上述の制御プログラムのソフトウェア構成は、図 5に示すようになる。この図 5において、デバイス · ドライノく · レイヤ 3 0は、この制御プログラムの最下位層に位置し、複数のデバイス · ドライバからなるデバイス ' ドライノく 'セット 3 1から構成されている。この場合、各デバイス · ドライバは、 CCDカメラ 20 (図 4) やタイマ等の通常のコンピュータで用いられるハードウエアに直接アクセスすることを許されたオブジェクトであり、対応するハードウエアからの割り込みを受けて処理を行う。

また、ロボティック ·サーバ .オブジェクト 3 2は、デバイス ' ドライバ ' レィャ 3 0の最下位層に位置し、例えば上述の各種センサゃァクチユエータ 2 5 〜 2 5 _n等のハードウエアにアクセスするためのィンターフェースを提供するソフトウェア群でなるバーチャル 'ロボット 3 3と、電源の切換えなどを管理するソフトウエア群でなるパワーマネージャ 3 4と、他の種々のデバイス ' ドライバを管理するソフトウェア群でなるデバイス · ドライノく ·マネージャ 3 5と、ロボット装置 1の機構を管理するソフトウェア群でなるデザィンド ' ロボット 3 6とから構成されている。

マネージャ ··オブジェクト 3 7は、オブジェクト ·マネージャ 3 8及びサービス 'マネージャ 3 9から構成されている。ォブジェクト ·マネージャ 3 8は、口ボティック ·サーバ ·ォブジェクト 3 2、ミドル . ウェア ' レイヤ 4 0、及びァプリケーシヨン . レイヤ 4 1に含まれる各ソフトゥヱァ群の起動や終了を管理するソフトウェア辟であり、サービス 'マネージャ 3 9は、メモリカード 2 8 (図 4 ) に格納されたコネクションファイルに記述されている各オブジェクト間の接続情報に基づいて各ォブジェクトの接続を管理するソフトウェア群である。

ミドル ' ウェア . レイヤ 4 0は、口ボテイツク .サーバ ·オブジェクト 3 2の上位層に位置し、画像処理や音声処理などのこのロボット装置 1の基本的な機能を提供するソフトウェア群から構成されている。また、アプリケーション ' レイャ 4 1は、ミドル ' ウェア ' レイヤ 4 0の上位層に位置し、当該ミドル ' ウェア - レイヤ 4 0を構成する各ソフトウェア群によって処理された処理結果に基づいてロボット装置 1の行動を決定するためのソフトウェア群から構成されている。なお、ミドル · ウェア ' レイヤ 4 0及びアプリケーション ' レイヤ 4 1の具体なソフトウェア構成をそれぞれ図 6に示す。

ミドル . ウェア · レイヤ 4 0は、図 6に示すように、騷音検出用、温度検出用、明るさ検出用、音階認識用、距離検出用、姿勢検出用、タツチセンサ用、動き検出用及び色認識用の各信号処理モジュール 5 0〜 5 8並びに入力セマンティクスコンバータモジュール 5 9などを有する認識系 6 0と、出力セマンティクスコンバータモジュール 6 8並びに姿勢管理用、トラッキング用、モーション再生用、歩行用、転倒復帰用、 L E D点灯用及び音再生用の各信号処理モジュール 6 1〜 6 7などを有する出力系 6 9とから構成されている。

認識系 6 0の各信号処理モジュール 5 0〜 5 8は、口ボティック ·サーバ ·ォブジェクト 3 2のバーチャル ' ロボット 3 3により D R A M 1 1 (図 4 ) 力ら読み出される各センサデータや画像データ及び音声データのうちの対応するデータを取り込み、当該データに基づいて所定の処理を施して、処理結果を入力セマンティクスコンバータモジュール 5 9に与える。ここで、例えば、バーチヤノレ · 口ボット 3 3は、所定の通信規約によって、信号の授受或いは変換をする部分として構成されている。

入力セマンティクスコンバータモジュール 5 9は、これら各信号処理モジユール 5 0〜 5 8から与えられる処理結果に基づいて、「うるさい」、「暑い」、「明るい」、「ボールを検出した」、「転倒を検出した」、「撫でられた」、「叩かれた」、「ドミソの音階が問こえた」、「動く物体を検出した」又は「障害物を検出した」などの自己及び周囲の状況や、使用者からの指令及び働きかけを認識し、認識結果をアプリケーション ' レイヤ 4 1 (図 4) に出力する。

アプリケーション · レイヤ 4 1は、図 7に示すように、行動モデルライプラリ 7 0、行動切換モジュール 7 1、学習モジュール 7 2、感情モデル 7 3及び本能モデル 7 4の 5つのモジユーノレから構成されている。

行動モデルライブラリ 70には、図 8に示すように、「バッテリ残量が少なくなった場合」、「転倒復帰する」、「障害物を回避する場合」、「感情を表現する場合」、「ボールを検出した場合」などの予め選択されたいくつかの条件項目にそれぞれ対応させて、それぞれ独立した行動モデル 7 0 i〜 7 0„が設けられている。

そして、これら行動モデル 7 0 〜 7 0„は、それぞれ入力セマンティクスコンバータモジュール 5 9から認識結果が与えられたときや、最後の認識結果が与えられてから一定時間が経過したときなどに、必要に応じて後述のように感情モデル 7 3に保持されている対応する情動のパラメータ値や、本能モデル 7 4に保持されている対応する欲求のパラメータ値を参照しながら続く行動をそれぞれ決定し、決定結果を行動切換モジュール 7 1に出力する。

なお、この実施の形態の場合、各行動モデル 7 0 〜 7 0 _nは、次の行動を決定する手法として、図 9に示すような 1つのノード（状態） NODE。〜NOD E_n から他のどのノード NODE。〜 NOD E_nに遷移するかを各ノード NO D E。〜N OD E„に間を接続するアーク AR Ci ARCnに対してそれぞれ設定された遷移確率 Pi Pnに基づいて確率的に決定する有限碓率ォ一トマトンと呼ばれるアルゴリズムを用いる。

具体的に、各行動モデル 70 i〜 70 _nは、それぞれ自己の行動モデル 70 i〜 7 0 _nを形成するノード1^00£。〜 00 £„にそれぞれ対応させて、これらノード NODE。〜NODE_nごとに図 1 0に示すような状態遷移表 8 0を有している。この状態遷移表 8 0では、そのノード NODE。〜NOD E„において遷移条件とする入力イベント（認識結果）力 S 「入力イベント名」の列に優先順に列記され、その遷移条件についてのさらなる条件が「データ名」及び「データ範囲」の列における対応する行に記述されている。

したがって、図 1 0の状態遷移表 8 0で表されるノード NO D E！。。では、「ボールを検出（BAL L) 」という認識結果が与えられた場合に、当該認識結果と共に与えられるそのボールの「大きさ（S I Z E) 」が「0から 1000」の範囲であることや、「障害物を検出（OB S TAC LE) 」という認識結果が与えられた場合に、当該認識結果と共に与えられるその障害物までの「距離（D I S TAN C E) 」が「0から 100」の範囲であることが他のノードに遷移するための条件となっている。

また、このノード NOD E i。。では、認識結果の入力がない場合においても、行動モデル 7 (^〜ァ 0„が周期的に参照する感情モデル 7 3及び本能モデル 74にそれぞれ保持された各情動及び各欲求のパラメータ値のうち、感情モデル 7 3に保持された「喜び（J OY) 」、「驚き（SUR P R I S E) 」若しくは「悲しみ（SUDNE S S) 」のいずれかのパラメータ値が「50から 100」の範囲であるときには他のノードに遷移することができるようになつている。

また、状態遷移表 8 0では、「他のノードへの遷移確率」の欄における「遷移先ノード J の行にそのノード NOD E。〜 NOD E_nから遷移できるノード名が列記されていると共に、「入力イベント名」、「データ値」及び「データの範囲」の列に記述された全ての条件が揃ったときに遷移できる他の各ノード NOD E。〜 NO DE_nへの遷移確率が「他のノードへの遷移確率」の欄内の対応する箇所にそれぞれ記述され、そのノード NOD E。〜 NO DE_nに遷移する際に出力すべき行動が「他のノードへの遷移確率」の欄における「出力行動」の行に記述されている。なお、「他のノードへの遷移確率」の欄における各行の確率の和は 1 0 0 [%] となっている。

したがって、図 1 0の状態遷移表 8 0で表されるノード NODE 。。では、例えば「ボールを検出（BAL L) 」し、そのボールの「S I Z E (大きさ）」

「0から 1000」の範囲であるという認識結果が与えられた場合には、「30 [%] 」の確率で「ノード NOD E ₁₂。（node 120) 」に遷移でき、そのとき「 AC T I O 1 J の行動が出力されることとなる。

各行動モデル 7 0 〜 7 0 _nは、それぞれこのような状態遷移表 8 0として記述されたノード N〇 D E。〜 NOD E„がいくつも繋がるようにして構成されており . 入力セマンティクスコンバータモジュール 5 9から認識結果が与えられたときなどに、対応するノード NODE。〜 NODE„の状態遷移表を利用して確率的に次の行動を決定し、決定結果を行動切換モジュール 7 1に出力するようになされている。

図 7に示す行動切換モジュール 7 1は、行動モデルライプラリ 70の各行動モデル 7 0 t〜 7 0„からそれぞれ出力される行動のうち、予め定められた優先順位の高い行動モデル 7 0 i〜 7 0。から出力された行動を選択し、当該行動を実行すべき旨のコマンド（以下、これを行動コマンドという。）をミドル ' ウェア ' レィャ 4 0の出力セマンティクスコンバータモジユーノレ 6 8に送出する。なお、この実施の形態においては、図 8において下側に表記された行動モデル 7 0^ 7 0 ■>ほど優先順位が高く設定されている。

また、行動切換モジュール 7 1は、行動完了後に出力セマンティクスコンバータモジュール 6 8から与えられる行動完了情報に基づいて、その行動が完了したことを学習モジュール 7 2、感情モデル 7 3及び本能モデル 74に通知する。

一方、学習モジュール 7 2は、入力セマンティクスコンバータモジュール 5 9 から与えられる認識結果のうち、「叩かれた」や「撫でられた」など、使用者からの働きかけとして受けた教示の認識結果を入力する。

そして、学習モジュール 7 2は、この認識結果及び行動切換モジュール 7 1からの通知に基づいて、「叩かれた（叱られた）」ときにはその行動の発現確率を低下させ、「撫でられた（誉められた）」ときにはその行動の発現確率を上昇させるように、行動モデルライブラリ 70における対応する行動モデル 7 (^〜ァ 0 _nの対応する遷移確率を変更する。

他方、感情モデル 7 3は、「喜び（joy) 」、「悲しみ（sadness) 」、「怒り (anger) 」、「驚き（surpri se) J 、「嫌悪（di sgust) 」及び「恐れ（fea r) 」の合計 6つの情動について、各情動ごとにその情動の強さを表すパラメータを保持している。そして、感情モデル 7 3は、これら各情動のパラメータ値を、それぞれ入力セマンティタスコンバータモジュール 5 9から与えられる「叩かれた」及び「撫でられた」などの特定の認識結果と、経過時間及び行動切換モジュール 7 1からの通知などに基づいて周期的に更新する。

具体的には、感情モデル 7 3は、入力セマンティクスコンバータモジュール 5 9から与えられる認識結果と、そのときのロボット装置 1の行動と、前回更新してからの経過時間などに基づいて所定の演算式により算出されるそのときのその情動の変動量を Δ Ε [ t ] 、現在のその情動のパラメータ値を E [ t ] 、その情動の感度を表す係数を k _eとして、以下の式 2、

式 2

E[/+l] = E[/] + X Λ E[†] によって次の周期におけるその情動のパラメータ値 Ε [ t + 1 ] を算出し、これを現在のその情動のパラメータ値 E [ t ] と置き換えるようにしてその情動のパラメータ値を更新する。また、感情モデル 7 3は、これと同様にして全ての情動のパラメータ値を更新する。

なお、各認識結果や出力セマンティクスコンバータモジュール 6 8からの通知が各情動のパラメータ値の変動量 Δ Ε [ t ] にどの程度の影響を与えるかは予め決められており、例えば「叩かれた」といった認識結果は「怒り」の情動のパラメータ値の変動量 Δ Ε [ t ] に大きな影響を与え、「撫でられた」といった認識結果は「喜び」の情動のパラメータ値の変動量 Δ Ε [ t ] に大きな影響を与えるようになっている。

ここで、出力セマンティクスコンバータモジュー^ ^ 6 8からの通知とは、いわゆる行動のフィードバック情報（行動完了情報）であり、行動の出現結果の情報であり、感情モデル 7 3は、このような情報によっても感情を変化させる。これは、例えば、「吠える」といった行動により怒りの感情レベルが下がるといったようなことである。なお、出力セマンティクスコンバータモジュール 6 8からの通知は、上述した学習モジュール 7 2にも入力されており、学習モジュール 7 2 は、その通知に基づいて行動モデル 7 0 〜 7 0 _nの対応する遷移確率を変更する。なお、行動結果のフィードバックは、行動切換モジュール 7 1の出力（感情が付加された行動）によりなされるものであってもよい。

—方、本能モデル 7 4は、「運動欲（exerc i se) 」、「愛情欲（affecti on) 」、「食欲（appet i te) J 及び「好奇心（curios i ty) 」の互いに独立した 4つの欲求について、これら欲求ごとにその欲求の強さを表すパラメータを保持している。そして、本能モデル 7 4は、これらの欲求のパラメ一タ値を、それぞれ入力セマンテイクスコンバータモジュール 5 9から与えられる認識結果や、経過時間及び行動切換モジュール 7 1からの通知などに基づいて周期的に更新する。

具体的には、本能モデル 7 4は、「運動欲」、「愛情欲」及び「好奇心」については、認識結果、経過時間及び出力セマンティクスコンバータモジュール 6 8 からの通知などに基づいて所定の演算式により算出されるそのときのその欲求の変動量を Δ Ι [ k ] 、現在のその欲求のパラメータ値を I [ k ] 、その欲求の感度を表す係数 k iとして、所定周期で以下の式 3、

式 3

I[/f+l] = I [ん] + ki X Δ I [ん] を用いて次の周期におけるその欲求のパラメ—タ値 I [ k + 1 ] を算出し、この演算結果を現在のその欲求のパラメータ値 I [ k ] と置き換えるようにしてその欲求のパラメータ値を更新する。また、本能モデル 7 4は、これと同様にして「食欲」を除く各欲求のパラメータ値を更新する。

なお、認識結果及び出力セマンティクスコンバータモジュール 6 8からの通知などが各欲求のパラメータ値の変動量△ I [ k ] にどの程度の影響を与えるかは予め決められており、例えば出力セマンティクスコンバータモジュール 6 8からの通知は、「疲れ」のパラメータ値の変動量△ I [ k ] に大きな影響を与えるようになっている。

なお、本実施の形態においては、各情動及び各欲求（本能）のパラメータ値がそれぞれ 0から 1 0 0までの範囲で変動するように規制されており、また係数 k k の値も各情動及び各欲求ごとに個別に設定されている。

—方、ミドル' ウェア ' レイヤ 4 0の出力セマンティクスコンバータモジユール 6 8は、図 6に示すように、上述のようにしてアプリケーション ' レイヤ 4 1 の行動切換モジュール 7 1から与えられる「前進」、「喜ぶ」、「鳴く」又は

「トラッキング（ボールを追いかける） j といった抽象的な行動コマンドを出力系 6 9の対応する信号処理モジュール 6 1 〜 6 7に与える。

そしてこれら信号処理モジュール 6 1 〜 6 7は、行動コマンドが与えられると当該行動コマンドに基づいて、その行動を行うために対応するァクチユエータ 2 S L S S- (図 4 ) に与えるべきサーボ指令値や、スピーカ 2 4 (図 4 ) から出力する音の音声データ及び又は「目」の L E Dに与える駆動データを生成し、これらのデータをロボティック ·サーバ ·ォブジェクト 3 2のバーチヤノレ · ロボット 3 3及び信号処理回路 1 4 (図 4 ) を順次介して対応するァクチユエータ 2 5 L〜 2 5 _n又はスピーカ 2 4又は L E Dに順次送出する。

このようにしてロボット装置 1においては、制御プログラムに基づいて、自己 (内部）及び周囲（外部）の状況や、使用者からの指示及び働きかけに応じた自律的な行動を行うことができるようになされている。

( 2 - 3 ) ロボット装置における適用部分

上述のロボット装置 1において、上述したマン ' マシン 'インタフェースュニットの制御方法及びシステムが適用された要部を説明する。

ここで、言葉によるものを除けば、人間は主として 2つの方法で感情を表現することができる。すなわち、顔の表情の変化（Ekman，P. (1982) Emotions in th e human face, Cambridge University Press, し ambridge) と、尸のイノ ^ネ¹ -""、ノョンの変ィ匕（Banse,R. and Sherer, K. R. , (1996) Acoustic Profiles in Vocal Emotion Expression, Journal of Personality and Social Psychology, 70(3) : 614-636) とである。

そこで、本実施の形態におけるロボット装置 1は、ユーザについて得られた画像信号及び/又は音声信号によりユーザの感情を推定し、この推定結果に応じて行動を変化させるものとする。

具体的にロボット装置 1は、図 1 1に示すように、入力部 1 0 1と、内部状態モデル 1 0 2と、ユーザ音声認識部 1 0 3と、ユーザ画像認識部 1 0 4と、短期記憶部（STM : Short Term Memory) 1 0 5と、感情推定部 1 0 6と、長期記憶部 (LTM : Long Term Memory) 1 0 7と、行動選択部 1 0 8とを備えている。

入力部 1 0 1は、例えば図 4に示した C C Dカメラ 2 0からの画像信号や、マイク口ホン 2 3からの音声信号（音響信号）の他、タツチセンサ 2 1等の各種センサからのセンサ情報を入力する。

内部状態モデル 1 0 2は、図 7に示した感情モデル 7 3及び本能モデル 7 4に対応し、「喜び（joy) 」、「悲しみ（sadness) 」、「怒り（anger) 」、「驚き ( surpri se) 」、「嫌悪（disgust) 」及び「恐れ（fear) 」の何れかを表す情動パラメータと、「運動欲（exerc i se) 」、「愛情欲（affect i on) 」、「食欲（a ppet ite) 」及び「好奇心（ curios ity) 」の何れ力 ¾r表す欲永ノフメータと感情推定部 1 0 6に供給する。

ユーザ音声認識部 1 0 3は、入力部 1 0 1からユーザが発した声に基づく音声データが供給されると、この音声の強さ及び基本周波数（ピッチ）に基づいて、後述するようにして感情を検出し、検出された情動の種類とその尤度とを短期記億部 1 0 5に供給する。

ユーザ画像認識部 1 0 4は、入力部 1 0 1からユーザの画像信号が供給されると、この画像から後述するようにして顔領域を抽出し、抽出された顔画像の表情からユーザの感情を検出し、検出された情動の種類とその尤度とを短期記憶部 1

0 5に供給する。

短期記憶部 1 0 5は、ロボット装置 1の短期記憶を司る部分であり、ユーザ音声認識部 1 0 3及び Z又はユーザ画像認識部 1 0 4から供給された情動の種類とその尤度とを一時的に保持し、これを感情推定部 1 0 6に供給する。ここで、ュ一ザ音声認識部 1 0 3とュ一ザ画像認識部 1 0 4との双方から情動の種類とその尤度が供給されるとは限らず、一方のみから供給された場合には、その供給された情動の種類及び尤度を一時的に保持する。例えば、ユーザがロボット装置 1の背後から声をかけたような場合、ロボット装置 1は、ユーザの顔の表情を認識することができないため、短期記憶部 1 0 5には、ユーザの声から検出した情動の種類及びその尤度のみがユーザ音声認識部 1 0 3から供給される。感情推定部 1 0 6は、ユーザ音声認識部 1 0 3及び/又はユーザ画像認識部 1 0 4で検出され、短期記憶部 1 0 5から供給された情動の種類及びその尤度に基づいて、上述した感情多様体におけるユーザの現在状態 e。を求め、このデータを行動選択部 1 0 8に供給する。また、感情推定部 1 0 6は、内部状態モデル 1 0 2から供給されたロボット装置 1の情動パラメータ及び本能パラメータに基づいて、上述した感情多様体におけるロボット装置 1の現在状態を求め、このデータを行動選択部 1 0 8に供給する。

長期記憶部 1 0 7は、ロボット装置 1の長期記憶を司る部分であり、予め学習された複数のデータトリプル < e i , a , e _f 〉が上述した学習サンプル 1 として記憶されている。

行動選択部 1 0 8は、図 7に示した行動モデルライブラリ 7 0及び行動切換モジュール 7 1に対応する。この行動選択部 1 0 8は、感情推定部 1 0 6から供給されたユーザの現在状態 e。を初期状態 e iとし、この初期状態 e iと所望の目標状態 e ,とに基づいて、データトリプル < e *， e _t >に近似する学習サンプル 1 e ι ' , a , e >を長期記憶部 1 0 7から読み出す。そして、行動選択部 1 0 8は、学習サンプル 1における行動 aを目標行動 t として、すなわち t ： = a として設定し、この目標行動 tを行動モデル 7 (^〜ァ 0 _nから選択して出力する。なお、本実施の形態では、この目標状態 e _tとして、感情推定部 1 0 6から供給されたロボット装置 1の現在状態を用いるものとする。これにより、ロボット装置 1は、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように、自身の行動を切り換えることができるようになる。

このように、ロボット装置 1は、ユーザの声の調子やユーザの顔の表情からュ

—ザの感情を推定し、この推定結果に応じて、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように、行動を変化させることができる。

以下、上述したユーザ音声認識部 1 0 3及びユーザ画像認識部 1 0 4における感情認識処理とその感情に基づく行動選択処理とについて詳細に説明する。

( 2 - 3 - 1 ) 音声に基づく感情認識

ユーザ音声認識部 1 0 3は、ユーザが発した音声の強さ及び基本周波数（ピッチ) に基づいて、例は「喜び ( jov/pleasurej 」、「悲しみ ( sorrow/sadness /grief) 」、「怒り（angry) 」及び「平静（calm/neutral) 」の合計 4つの情動を検出する。なお、検出する情動の種類がこの 4つに限定されるものではないことは勿論である。ここで、入力音声を各感情に分類するアルゴリズムとしては、例ば Pi erre - yves Oudeyerによる報告 (Pierre-yves Oudeyer (2001) Algorith m and Features, Proceedings of the Humanoi ds Conference) iこめるよつ ίこ、各，種考えられるが、以下では一例として、ナイーブ 'ベイズ ' クラス分類アルゴリズム (Naive Bayes classi f icat ion algorithm) を用いるものとする。

具体的にユーザ音声認識部 1 0 3は、図 1 2に示すように、音声入力部 1 1 1 と、特徴量抽出部 1 1 2と、感情検出部 1 1 3と、分類部（class ifi er) 1 1 4 と、感情音声データベース 1 1 5と、結果出力部 1 1 6とを有している。ここで、分類部 1 1 4は、上述した 4つの情動にそれぞれ対応する喜び分類器（class if i er) 1 1 4 悲しみ分類器 1 1 4 ₂、怒り分類器 1 1 4 ₃及び平静分類器 1 1 4 を有している。 .

音声入力部 1 1 1は、図 4に示したマイクロホン 2 3からの音声信号（音響信号）のうちユーザの発した声が A Z D変換されたデジタル音声信号を入力する。音声入力部 1 1 1は、このデジタル音声信号を特徴量抽出部 1 1 2に供給する。特微量抽出部 1 1 2は、音声入力部 1 1 1から供給されたデジタル音声信号から、声の強さ（intens ity) 及ぴ声の高さ（pi tch) を特徴量として抽出する。ここで、声の強さは信号のパワーとして与えられ、声の高さは信号の基本周波数として与えられる。なお、この基本周波数を求める手法としては種々提案されており、例えば音声波形の自己相関関数を用いる手法や、スペクトルを用いる手法などがある。

特徴量抽出部 1 1 2は、デジタル音声信号に対して微小時間間隔毎に、例えば 1 0 m s毎に声の強さ及び髙さを抽出する。この際、声の強さは、ローパス · フィルタ及びハイパス · フィルタを通した信号からそれぞれ求められる。この結果、声の強さと声の高さに関する 3次元べクトルの系列が 1つのデジタル音声信号に対して得られる。そして、特徴量抽出部 1 1 2は、この 3次元べクトル系列に対して、各次元毎に、平均値、最大値、最小値、最大値と最小値との差、分散、中央値を求める。この結果、 3 X 6 = 1 8個の特徴量が得られ、特徴量抽出部 1 1 2は、この 1 8次元べクトルを感情検出部 1 1 3に供給する。

感情検出部 1 1 3は、特徴量抽出部 1 1 2から供給された 1 8次元べクトノレについて、ナイーブ 'ベイズ ' クラス分類アルゴリズムに従い、分類部 1 1 4の各分類器（classifier) 1 1 A i l 1 4₄を用いて、上述した「喜び（joy/pleasu re) 」、 I悲しみ (sorrow/sadness/grief) 」、 ι恋り (angry) 」及び「平 (calm/neutral) 」の何れかに分類する。

このナイーブ 'ベイズ . クラス分類アルゴリズムについて簡単に説明する。 n 次元の入力ベクトル（a_l, a— 2， ...， a_n) に対してクラス c一 jの生起確率 P (c— j | a— l，a_2, ... , a_n)を最大化する c— jを求めるという問題は、ベイズ（Bayes) の定理より、以下の式 4、

式 4

？ (a I, a 2, ... , a n \ c j) P(c f) を最大化する c„jを求めるという問題に定式化される, で、各次元の独立性を仮定すると、この問題は、以下の式 5、

式 5

を最大化するクラス c_jを求める問題に帰着される。

そして、 P(a_i |c—j)を例えば正規分布で与えられる確率密度関数を用いてモデル化することにより、入力ベクトル（a_l，a_2，...，a_n) に対して、クラス c— jの生起確率が求められる。

すなわち、上述した 1 8次元べクトルの各次元について各情動に対応する確率密度関数を用いて尤度を計算することにより、各情動に対応する 1 8次元べクトルの尤度が計算される。

なお、この確率密度関数は、各情動に対応する音声データが多数記憶された感情音声データベース 1 1 5を用いて推定することができる。例えば、ある感情に対応する音声データが 1 0 0 0発話分ある場合、それぞれの音声データについての特徴量（上述の 1 8次元べクトル）を抽出し、その特徴量べクトルの各次元に対応したデータから平均 μと分散 σとを求めることで、以下の式 6、

式 6 = ^i- exp{- _^Ji¾

2π σ ^ζび²

で示される確率密度関数が推定される。

感情検出部 1 1 3は、特徴量抽出部 1 1 2から供給された 1 8次元べクトルについて、喜び分類器（classifier) 1 1 4 悲しみ分類器 1 1 4₂、怒り分類器 1 1 4₃及び平静分類器 1 1 4₄における確率密度関数から各情動の尤度を求める。そして、感情検出部 1 1 3は、この尤度を比較し、最も尤度の高い情動の種類とその尤度とを、検出結果として結果出力部 1 1 6に供給する。

結果出力部 1 1 6は、感情検出部 1 1 3から供給された情動の種類とその尤度とを、上述の図 1 1に示した短期記憶部 1 0 5に出力する。

( 2— 3— 2) 顔の表情に基づく感情認識

ユーザ画像認識部 1 04は、ユーザの顔画像の表情に基づいて、例えば「喜び (joy) 」、「悲しみ（sadness) 」、「怒り（anger) 」、「驚き（surprise) 」 . 「嫌悪（disgust) 」及び「恐れ（fear) 」の合計 6つの情動を検出する。なお、検出する情動の種類がこの 6つに限定されるものではないことは勿論であり、この 6つの情動の何れでもない場合には、「平静（calm/neutral) 」として検出される。

ここで、顔の表情を記述するために、本実施の形態では、 Ekman及び Friesenによって提案された F AC S (Facial Action Coding System) と呼ばれる表情記述方法を用いる。この F AC Sとは、表情をアクションユニット（AU:Action Uni t) と呼ばれる、（a) 解剖学的に独立し（表情筋）、（b) 視覚的に識別可能な、

( c ) 表情動作の最小単位、に従って分類し、この AUの強度の組み合わせによつて、人間の表情を定量的に記述するものである。但し、 F AC Sは本来、心理学の分野で表情を記述し分析することを目的に提案されたものであり、図 1 3に抜粋を示すように、各 AUの定義自体には定性的な表現が用いられている。上述した 6つの情動のそれぞれが生起したときに表出する表情を基本 6表情といい、 Ekman及び Friesenによって、この基本 6表情と A Uとの関連性が明らかにされている。なお、この関連性は、基本的に文化 ·性別 ·年齢等の個人差に影響されないものとされている。すなわち、人間の表情を A Uによって表現（認識）できれば、これを上述した 6つの情動にマッビングすることができる。

そこで、本実施の形態におけるユーザ画像認識部 1 0 4は、画像信号を入力として各 A Uの強度を出力とするデータ変換操作である F A C S コーディングを利用し、入力された画像信号から各 A Uによって特徴付けられた上述の 6つの情動を検出する。

具体的にユーザ画像認識部 1 0 4は、図 1 4に示すように、画像入力部 1 2 1 と、顔検出部 1 2 2と、アラインメント部 1 2 3と、差分画像生成部 1 2 4と、顔画像データベース 1 2 5と、データ変換部 1 2 6と、 H MM (Hidden Markov Model) 部 1 2 7と、結果出力部 1 2 8とを有している。

画像入力部 1 2 1は、図 4に示した C C Dカメラ 2 0からの雨像信号を入力し、この画像信号を顔検出部 1 2 2に供給する。

顔検出部 1 2 2は、先ず画像入力部 1 2 1から供給された画像信号に基づくフレーム画像を縮小率が異なる複数のスケール画像に変換する。例えば、顔検出部 1 2 2は、フレーム画像を 0 . 8倍ずつ順次縮小して 5段階（ 1 . 0倍、 0 . 8 倍、 0 . 6 4倍、 0 . 5 1倍、 0 . 4 1倍）のスケール画像に変換する。そして、顔検出部 1 2 2は、各スケール画像について、画像左上を起点として順に右下まで、適当な画素分を右側又は下側にずらしながらスキャンするようにして、 4 0 0 ( = 2 0 X 2 0 ) 画素の矩形領域を切り出し、テンプレート画像とのマツチングをとって、顔画像か否かを判断する。但し、この時点で顔画像であると判断された矩形領域（以下、スコア画像という。）には、実際には顔画像以外の判断誤りの画像が多数含まれるため、顔検出部 1 2 2は、サポートベクターマシン（S V M) により、顔、非顔の識別を行う。

このような技術としては、 B. Sholkophらの報告（B. Sholkoph, C. Burges, A. Sm ola (1999) Advance in Kernel Methods Support Vector Learning, The MIT Pr ess) や V. Vapnicの報告 (V. Vapnic (1999) The Nature of Stat istical Learnin g Theory Second Edit ion, Springer) に開示されている技術が挙げられる。上述の S V Mは、識別関数に線形識別器（パーセプトロン）を用いた学習機械であり、カーネル関数を使うことで非線形区間に拡張することができる。また、識別関数の学習では、クラス間分離のマージンを最大にとるように行われ、その解は 2次数理計画法を解くことで得られるため、グローバル解に到達できることを理論的に保証できる。この処理の詳細は次の通りである。

先ず、上述したスコア画像から顔以外の背景部分を除くため、画像の 4隅を切り取ったマスクを用いて、 4 0 0 ( = 2 0 X 2 0 ) 画素あるスコア画像から 3 6 0画素分を抽出する。次に、照明による撮像対象物の輝度が変化することを前提として、照明による輝度の勾配を補正して、ヒストグラム平滑化或いはコントラストノーマライゼーシヨンを施す。続いて、顔検出に利用する識別関数の学習を行う。学習用のデータとして最初に顔データ、非顔データそれぞれ所定の枚数を用いて、暫定的な識別関数を得る。それから、暫定的に得られた識別関数を様々なデータベース上の画像に試して顔の検出を行い、その結果、検出に成功したものを顔データ、失敗したものを非顔データとして学習データに追加し、さらに学習をし直す。

顔検出部 1 2 2は、以上のようにしてスコア画像内に顏データが存在するか否かを判断し、存在する場合には、そのスコア画像を顔画像として、ァラインメント部 1 2 3に供給する。

アラインメント部 1 2 3は、顔検出部 1 2 2から供給された顔画像について、ァラインメント処理を行う。つまり、後述する差分画像生成部 1 2 4で 2枚の顔画像の差分を正しく得るためには顔の位置を制度よく求める必要があり、また、顔の中の眼、鼻の位置は人によって異なるため、これらの位置を正規化する必要もある。そこで、ァラインメント部 1 2 3は、得られた顔画像に対して、目尻、鼻腔、唇端などの特徴点を抽出して眼と鼻の位置同定を行い、検出された眼と鼻が定められた位置になるようにァフィン変換で回転 ·伸縮（モーフィング処理）を行うことにより、アラインメント処理を行う。アラインメント部 1 2 3は、このァラインメント後の顔画像を差分画像生成部 1 2 4に供給する。

差分画像生成部 1 2 4は、ァラインメント部 1 2 3から供給されたァラインメント後の顔画像と、顔画像データベース 1 2 5に記憶されているァラインメント後の無表情（ニュートラル）顔画像との差分を計算し、差分画像を生成する。差分画像生成部 1 2 4は、生成した差分画像をデータ変換部 1 2 6に供給する。データ変換部 1 2 6は、ガボア（Gabor) · フィルタを用いて 3 6 0画素分のスコア画像をべクトル変換し、得られたべクトル群をさらに 1本の特徴べクトルに変換する。

ここで、人間の S覚細胞には、ある特定の方位に対して選択性を持つ細胞が存在することが既に判っている。これは、垂直の線に対して反応する細胞と、水平の線に対して反応する細胞で構成される。上述のガボァ · フィルタは、これと同様に、方位選択性を持つ複数のフィルタで構成される空間フィルタである。

なお、低周波でのフィルタリングでは、フィルタリング後のイメージ全てをべクトルとして保特しておくのは冗長であるため、ダウンサンプリングして、べクトルの次元を落とすようにしてもよい。この場合、ダウンサンプリングされた複数のべクトル群が並べられて、 1本の特徴べクトルが生成される。

そして、データ変換部 1 2 6は、ガボァ · フィルタリングによって得られた特徴べクトルをべクトル量子化し、べクトル量子化後の特徴べクトルを HMM部 1 2 7に供給する。 .

HMM部 1 2 7は、データ変換部 1 2 6から供給されたべクトル量子化後の特徴べクトルについて、隠れマルコフモデルを用いて、上述した「喜び（joy) 」、「悲しみ（sadness) 」、「怒り（anger) 」、「驚き（surprise) 」、「嫌悪 (disgust) 」及び「恐れ（fear) 」の何れかに分類する。ここで、 HMM部 1 2 7は、予め各情動を表す顔画像でトレーニングされており、供給された特徴べクトルについて、各情動の尤度を求める。なお、各情動と AUとの対応付けとしては、例えば以下のようなものが挙げられる。

「喜び（joy) 」 AU 6 + 1 2

「悲しみ（sadness) 」 · ' 111及びリ 1 + 4

「怒り（anger) 」 ' · · · AU 4

「驚き（surprise) 」 · · AU 1 + 2

「嫌悪（disgust) 」 · · ' AU 2 + 4 「恐れ（fear) 」 . · · ' AU 1 + 2 + 4

HMM部1 2 7は、得られた各情動の尤度を比較し、最も尤度の高い情動の種類とその尤度とを、検出結果として結果出力部 1 2 8に供給する。

結果出力部 1 2 8は、 HMM部 1 2 7から供給された情動の種類とその尤度とを、上述の図 1 1に示した短期記憶部 1 0 5に出力する。

なお、上述した例では、 HMM部 1 2 7の入力として、ガボア · フィルタリングによって得られ、ベタトル量子化された特徴べクトルを用いるものとして説明したが、これに限定されるものではなく、例えば James J. Lienらの報告（James J. し len et al. (1998) Automated Facial Expression Recognition Based on FACS Action Units, Proceedings of FG' 98, April 14一 16) ίこ開示されて！/ヽるように、特徴点のトラッキング結果や、顔面各部位の動きべクトル（optical flo w) を用いるようにしても構わない。

( 2 - 3 - 3) 感情に基づく行動選択

上述したように、ロボット装置 1は、「喜び（joy) 」、「悲しみ（sadnes s) 」、「怒り（anger) 」、「驚き（surprise) 」、「嫌悪（disgust) 」及び

「恐れ（fear) j という合計 6つの情動を有するが、これらの各情動は、複数次元の位相空間、例えば図 1 5に示すように、快度（pleasantness) 、覚醒度（ac tivation) 及び確信度（certainty) を 3軸とする 3次元位相空間中の空間領域'こ対応付けられる。

ここで、「快度」は、ロボット装置 1の本能がどれだけ満たされているかの度合い、「覚醒度」は、生物のバイオリズムによって決定される、起きているか寝ているかの度合い、「確信度」は、現在ロボット装置 1が注目しているものを確信をもつて認識できる度合いをそれぞれ示すパラメータである。

図 1 1に示した感情推定部 1 0 6は、ユーザ音声認識部 1 0 3及びノ又はユーザ画像認識部 1 04で検出され、短期記憶部 1 0 5から供給された情動の種類及びその尤度に基づいて、ユーザの現在感情を、先ず位相空間中の一点にマツピングする。具体的には、例えば検出された情動が「喜び（joy) 」であり、その尤度が 0. 8である場合、感情推定部 1 0 6は、図 1 6に示すように、位相空間の原点から検出された喜びの情動に対応する空間領域の中心へと向かうベタトル j に尤度 0 . 8を乗算し、得られたべクトルによって示される座標 J (p, a, c) を暫定的にユーザの現在感情を示す座標とする。

なお、ユーザ音声認識部 1 0 3で検出された情動の尤度とユーザ画像認識部 1 0 4で検出された情動の尤度とが異なる場合、感情推定部 1 0 6は、例えば両者の平均尤度を用いて位相空間中にマッピングすることができる。また、ユーザ音声認識部 1 0 3で検出された情動とユーザ画像認識部 1 0 4で検出された情動とが異なる場合、感情推定部 1 0 6は、例えば予め定めた一方の情動のみを用いて位相空間中にマッビングすることができる。

そして、感情推定部 1 0 6は、ユーザの現在感情を表す位相空間中の座標を、例えば「快度」及び「覚醒度」を 2軸とする位相平面上に投影し、これにより得られた座標をユーザの現在状態 e。として設定する。同様に、感情推定部 1 0 6は- ロボット装置 1の現在状態（感情）を表す位相空間上の点を、「快度」及び「覚醒度」を 2軸とする位相平面上に投影し、これにより得られた座標をユーザの目標状態 e _tとして設定する。

行動選択部 1 0 8は、感情推定部 1 0 6から供給されたユーザの現在状態 e。を初期状態 e iとし、ユーザをこの初期状態 e iから目標状態 e _tに導くような理想的な目標行動として行動 *を仮定する。すなわち、図 1 7に示すように、「快度」及び「覚醒度」を 2軸とする位相平面上の座標として与えられる初期状態 e iは、行動 *によって、位相平面上の他の座標として与えられる目標状態 e _tに変換される。そして、行動選択部 1 0 8は、データトリプル < e * , e _t >に近似する学習サンプル 1 = < e ， a , e 〉を長期記憶部 1 0 7から読み出す。行動選択部 1 0 8は、学習サンプル 1 における行動 aを目標行動 tとして、すなわち t ： = aとして設定し、この目標行動 tを行動モデル 7 0 i〜 7 0 _nから選択して出力する。

以上のようにして、ロボット装置 1は、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように、自身の行動を切り換える。

以下、上述したロボット装置 1の行動制御方法について、図 1 8のフローチヤ一トを用いて説明する。

先ずステップ S 2 0において、ロボット装置 1は、行動制御の実行開始に際して初期化され、次にステップ S 2 1において、初期状態すなわちユーザの現在の感情が現在状態 e。： e i = e。として検出される。

続いてステップ S 2 2では、ロボット装匱 1の現在の感情を、ユーザを導くベき目標状態 e _tとして設定する。

ステップ S 2 3では、長期記憶部 1 0 7に記憶されている学習サンプル 1 =< e , a , 6 >の中に、く e i, *， e _t >に近似したものがあるか否かが判別される。具体的には、以下の式 7、

式 7

Oist ― comp (<ei, *, e†>, < ei a, eV>^

= a|| ei - ei， || + β|| et - et， ||

で表される距離 Distと閾値 Thとを比較し、距離 Distが閾値 Thよりも小さいか否かが判別される。ここで、上式において a、 ]3は、所定の定数である。

もし距離 Distが閾値 Thよりも小さい場合には、く e ， a , e _t'〉と < e _i, *, e _t >とが近似しているとして、ステップ S 24において学習サンプル 1 が長期記億部 1 0 7から読み出され、導出すべき行動が目標行動 t ： = a として設定される。一方、距離 Distが閾値 Th以上である場合には、ステップ S 2 5において最も近い他の学習サンプル 1 =< _e ， _a', e 〉が長期記憶部 1 0 7から読み出される。ステップ S 2 6では、導出すべき行動が目標行動 t ： = a 'として設定される。

続いてステップ S 2 7において、導出された目標行動 tが実行される。

ステップ S 2 8では、実行した目標行動 tの結果としてのユーザの最終状態 e _fが検出され、続くステップ S 2 9において、データトリプルく e t , e _f 〉が一時的に記憶される。

ステップ S 3 0では、学習サンプル 1 が修正され、又は新たなデータトリプル < e t , e _f >が長期記憶部 1 0 7に記憶される。例えば、データトリプル < e * , e _t>とデータトリプル < e t , e ί〉との距離 Dis と、データトリプル < _{e i}, *, e _t >とデータトリプル < e ， a , e _t' >との距離 Dist₂とが比較され、距離 Dis が距離 Dist ₂よりも小さければ、以下の式 8、式 8

ei " = ei ' + ic · ei

et " = ei ' + k · et

によって定義されるデータトリプルく e ， a , e ' >によって、学習サンプル 1中のデータトリプルく e ， a , e _t '〉が置き換えられて修正される。ここで、上式において kは、 I k I < 1を満たす所定の定数である。一方、距離 Di st ₂が距離 Dis 以上であれば、データトリプル < e t , e f〉が学習サンプル 1に追加され、長期記憶部 1 0 7に記憶される。

そして、外部制御装置又はユーザによって実行終了されるまで、ステップ S 2 1以降のステップが繰り返される。

以上のように、本実施の形態におけるロボット装置 1は、上述したマン .マシン ' インタフェースュニットの制御方法及びシステムを適用することにより、ュ一ザの声の調子やユーザの顔の表情からユーザの感情を推定し、この推定結果に応じて、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように行動を変化させることができる。

なお、本発明は、上述した実施の形態のみに限定されるものではなく、本発明の要旨を変更しない範囲において種々の変更が可能であることは勿論である。例えば、上述した実施の形態では、ロボット装置 1の現在感情をユーザを導くための目標感情 _{e t}として説明したが、これに限定されるものではなく、所望の感情状態を目標状態 e _tとして設定することが可能である。

また、上述した実施の形態では、ユーザ或いはロボット装置 1の状態を位相平面上の一点として表現したが、これに限定されるものではなく、例えば図 1 5に示したような位相空間上の一点として表現するようにしても構わない。産業上の利用可能性上述したような本発明に係るマン · マシン ·ィンタフェースュニットの制御方法及びシステムによれば、ある行動を実行する前の初期状態（感情）、その行動を実行した後の最終状態（感情）、及び実行した行動を示すデータトリプルを学習サンプルとして予め収集しておくことにより、ユーザを任意の現在状態から所望の目標状態へと導くような行動が設定可能となる。また、このマン · マシン ' インタフェースユニットの制御方法及ぴシステムを、例えば、少なくとも感情モデルを有し、感情に応じて表出する行動を変化させることのできる自律型のロボット装置に適用することにより、ロボット装置は、例えばユーザの感情の推定結果に応じて、ユーザの感情状態を自身の現在の情動と近似する感情状態に導くように行動を変化させることができ、エンターティメント性が向上する。

Claims

請求の範囲

1. マン ' マシン ' インタフェースユニットを制御する方法において、

少なくとも 1人のユーザに関して、実行した行動（a) の前の初期状態（e i) 及び当該行動後の最終状態（e _f) を検出し、

上記初期状態（e i) 、上記最終状態（e _f) 及び上記実行した行動（a) を表すデータトリプルを学習サンプル（ 1 ) として収集し、

上記学習サンプル（ 1 ) 、実行すべき目標行動を少なくとも導出及び Z又は初期設定することによりユーザを任意の現在状態（e j から任意の所望の目標状態（e _t) へと導くために使用されること

を特徴とする前記方法。

2. 請求の範囲第 1項記載の方法であって、

いずれの場合も、上記ユーザの上記現在状態（e。）及び上記初期状態（e i) にそれぞれ対応し、及び/又はそれらの状態を表示する現在状態データ若しくは初期状態データ（C S D、 I S D) が受け取られ、及び/又は生成されることを特徴とする前記方法。

3. 請求の範囲第 1項又は第 2項記載の方法であって、

いずれの場合も、上記ユーザの上記最終状態（e _f) 及び上記目標状態（e _t) にそれぞれ対応し、及び/又はそれらの状態を表示する最終状態データ若しくは目標状態データ（F SD、 T SD) が受け取られ、及び又は生成さ.れることを特徴とする前記方法。

4. 請求の範囲第 1項乃至第 3項のいずれか 1項記載の方法であって、

上記実行した行動（a ) 及び上記導出された目標行動（ t ) にそれぞれ対応し、及びノ又はそれらの行動を表示する行動デ一タ（AD) 及び目標行動データ（T AD) が受け取られ、及び/又は生成されることを特徴とする前記方法。

5. 請求の範囲第 1項乃至第 4項のいずれか 1項記載の方法であって、

上記現在状態、上記初期状態、上記最終状態及びノ又は上記目標状態（e。、 e i、 e _f、 e t) 、並びにその表示データ及び/又は対応データ（C SD、 I S D、 F S D、 T S D) がいずれの場合も特に 2次元である埋込み位相多様体（EM、 DM) により表示され、及び/又はその埋込み位相多様体の形でモデル化されることを特徴とする前記方法。

6. 請求の範囲第 5項記載の方法であって、

別個の多様体が個別のユーザ及び/又はユーザのクラス用に導出及び/又は使用され、及び Z又は、

全てのユーザ用に共通の又は全体的な多様体が導出及び Z又は使用されることを特徴とする前記方法。

7. 請求の範囲第 1項乃至第 6項のいずれか 1項記載の方法であって、

上記実行した行動（a ) 、上記導出された目標行動（ t ) 及び/又は上記表示データ及び/又は対応データ（AD、 TAD) がいずれの場合も特に 2次元である埋込み位相多様体（AM、 ADM) により表示され、及びノ又はその埋込み位相多様体の形でモデル化されることを特徴とする前記方法。

8. 請求の範囲第 1項乃至第 7項のいずれか 1項記載の方法であって、

上記現在状態、上記初期状態、上記最終状態及び Z又は上記目標状態（e。、 e i、 e e t) として感情状態が使用されることを特徴とする前記方法。

9. 請求の範囲第 1項乃至第 8項のいずれか 1項記載の方法であって、

各ユーザについて、学習サンプル（ 1 ) の集合（L) に基づき、トランスモーシ 3ンマッビング (T)

T ： E Θ A→ E

く eに a > E (g) A → ef： = Ί (ei , a ) = Ία ( ei ) ζ Ε

が導出され、

Εが状態又はその状態データについての位相多様体（EM、 EDM) の 1つである感情多様体を意味し、 Aが行動又は行動データについての位相多様体（AM、 ADM) の 1つである行動多様体を意味し、 e i， e _£， aが感情多様体 E及び行動多様体 Aの各要素をそれぞれ意味すること

を特徴とする前記方法。

1 0. 請求の範囲第 1項乃至第 9項のいずれか 1項記載の方法であって、任意のュ一ザの任意の所望の初期状態及び/又は目標状態（e e _t) について、任意の現在状態（e。）、最終状態（e _f) 及び実行済みの行動（a ) を含む既にサンプリングされた学習サンプルから、初期状態及び現在状態（_{e i}、 e _c) 及び/又は最終状態及び目標状態（_{e i}、 e _t) 及び Z又はそれらのデータ（ I S D; C S D、 F S D、 T S D) が近傍の位相にある行動（a ) 、目標行動 ( t ) として選択されることを特徴とする前記方法。

1 1. 請求の範囲第 1 0項記載の方法であって、

上記近傍を導出及びノ又は記述するために、上記状態（e " e。、 e _f、 e t) 及び/又は行動（a、 t ) の距離測定、計量、連続性、方向及び/又はべクトル特性が使用されることを特徴とする前記方法。

1 2. 請求の範囲第 1項乃至第 1 1項のいずれか 1項記載の方法であって、任意のユーザを目標状態（e _t) へと導き、上記ユーザにとっての任意の所望の最終状態（e _f) に最も適合するようにするために、実行すべき一連の行動（a ) が上記目標行動（ t ) として実行すべきものとして導出又は初期設定されることを特徴とする前記方法。

1 3. 請求の範囲第 1項乃至第 1 2項のいずれか 1項記載の方法であって、導出された目標行動（ t ) 及び/又はそのデータ（TAD) に修正が含められ、及び/又は修正が行われることを特徴とする前記方法。

1 4. 請求の範囲第 1 3項記載の方法であって、

上記修正が、位相、距離、計量、連続性、方向及び/又はべクトル特性に基づき、確率測定によりランダムに導入されることを特徴とする前記方法。

1 5. 請求の範囲第 1項乃至第 1 4項のいずれか 1項記載の方法であって、得られた学習サンプル（ 1 ) が、特に上記位相多様体（EM、 EDM, AM、 ADM) を導出するために生成されることを特徴とする前記方法。

1 6. 請求の範囲第 1 5項記載の方法であって、

特に共通の及び/又は全体的な位相多様体を導出するために、上記学習サンプル（ 1 ) を一般化するステップが、少なくとも、異なるユーザからの学習サンプル（ 1 ) を平均化及び/又は加重するステップからなり、上記異なるユーザが、その典型的な状態及びノ又は行動に応じて、特に感情に基づき集団化されることを特徴とする前記方法。

1 7. 請求の範囲第 1 5項又は第 1 6項記載の方法であって、

上記学習サンプル（ 1 ) を一般化するステップが、少なくとも、特に射影により行動多様体（AM、 ADM) の次元を減らすステップからなることを特徴とする前記方法。

1 8. 詰求の範囲第 1 5項乃至第 1 7項のいずれか 1項記載の方法であって、上記学習サンプル（ 1 ) を一般化するステップが、少なくとも、任意の学習サンプル（ 1 ) の近傍の範囲を拡大及び/又は縮小するステップからなり、特に、最終状態（e _f) 及び/又は目標行動（ t) が全ての初期状態（ _{e i}) について有効である地点まで、及び Z又は最終状態（e ,) が無関係となり、状態の変化の方向だけが考慮される地点まで、上記任意の学習サンプル（ 1 ) の内部において、初期状態（e i) 、最終状態（e _f) 及び目標行動（ t) の全てのトリプルが上記任意の学習サンプル（ 1 ) と等価であると分類されることを特徴とする前記方法。

1 9. 請求の範囲第 1項乃至第 1 8項のいずれか 1項記載のマン ·マシン · ィンタフエースュニットの制御方法及び/又はそのステップを実行及び Z又は実現することが可能なマン · マシン · ィンタフェースュニットの制御システム。

20. コンピュータ又はデジタル信号処理手段により実行された際に請求の範囲第 1項乃至第 1 8項のいずれか 1項記載のマン ' マシン ' インタフェースュニットの制御方法及ぴノ又はそのステップを実行及び/又は実現するのに適したコンピュータプログラム手段からなるコンピュータプログラム製品。

2 1. 内部及び外部の状況に応じて行動するロボット装置であって、

上記ロボット装置のユーザの状態を検出する状態検出手段と、

上記ユーザの所望の目標状態を設定する目標状態設定手段と、

上記状態検出手段によって検出された上記ユーザの状態を、上記目標状態に導くために実行すべき行動を決定する行動決定手段と、

上記決定された行動を実行する制御手段と

を備えることを特徴とするロボット装置。

2 2. 請求の範囲第 21項記載のロボット装置であって、さらに学習手段を備え、

上記状態検出手段によって検出された上記ユーザの状態を、上記目標状態に導くために実行すべき行動は、上記学習手段によって更新されること

を特徴とするロボット装置。

2 3 . 請求の範囲第 2 2項記載のロボット装置であって、

上記学習手段は、上記ユーザに関して、実行した行動の前の初期状態、当該行動後の最終状態及び当該実行した行動を表すデータトリプルを学習サンプルとして収集し、

上記行動決定手段は、上記学習サンプルに基づいて上記実行すべき行動を決定すること

を特徴とするロボット装置。

2 4 . 請求の範囲第 2 1項記載のロボット装置であって、

上記ユーザの状態及び上記目標状態は、上記ユーザの感情状態であることを特徴とするロボット装置。

2 5 . 請求の範囲第 2 4項記載のロボット装置であって、

上記目標状態設定手段は、上記目標状態として、上記ロボット装置の感情状態を用いることを特徴とするロボット装置。

2 6 . 請求の範囲第 2 4項記載のロボット装置であって、

さらに音声認識手段及び画像認識手段を備え、

上記状態検出手段は、上記ユーザの音声及び顔画像から上記ユーザの上記ユーザの状態として感情状態を検出すること

を特徴とするロボット装置。

2 7 . 請求の範囲第 2 4項記載のロボット装置であって、

上記感情状態は、複数次元からなる位相空間中の座標として表現でき、上記ユーザの状態及び上記目標状態は、上記位相空間中の座標として与えられること

を特徴とするロボット装置。

2 8 . 請求の範囲第 2 4項記載のロボット装置であって、

上記感情状態は、複数次元からなる位相空間中の座標として表現でき、上記ユーザの状態及び上記目標状態は、上記位相空間中の座標を上記複数次元のうちの 2次元からなる位相平面に投影した座標として与えられること

を特徴とするロボット装置。

2 9 . 内部及び外部の状況に応じて自律的に行動するロボット装置の行動制御方法であって、

上記ロボット装置のユーザの状態を検出する状態検出工程と、

上記ユーザの所望の目標状態を設定する目標状態設定工程と、

上記状態検出ェ極にて検出された上記ユーザの状態を、上記目標状態に導くために実行すべき行動を決定する行動決定工程と、

当該決定された行動を実行する制御工程と

を有することを特徴とする前記方法。

3 0 . 請求の範囲第 2 9項記載の方法であって、

さらに学習工程を有し、

上記状態検出工程にて検出された上記ユーザの状態を、上記目標状態に導くために実行すべき行動は、上記学習工程にて更新されることを特徴とする前記方法。

3 1 . 請求の範囲第 3 0項記載の方法であって、

上記学習工程では、上記ユーザに関して、実行した行動の前の初期状態、当該行動後の最終状態及び当該実行した行動を表すデータトリプルが学習サンプルとして収集され、

上記行動決定工程では、上記学習サンプルに基づいて上記実行すべき行動が決定されること

を特徴とする前記方法。

3 2 . 請求の範囲第 2 9項記載の方法であって、

上記ユーザの状態及び上記目標状態は、上記ユーザの感情状態であることを特徴とする前記方法。

3 3 . 請求の範囲第 3 2項記載の方法であって、

上記目標状態設定工程では、上記目標状態として、上記ロボット装置の感情状態が用いられることを特徴とする前記方法。

3 4 . 請求の範囲第 3 2項記載の方法であって、さらに音声認識工程及び画像認識工程を有し、

上記状態検出工程では、上記ユーザの音声及び顔画像から上記ユーザの状態として感情状態が検出されること

を特徴とする前記方法。

3 5 . 請求の範囲第 3 2項記載の方法であって、

を特徴とする前記方法。

3 6 . 請求の範囲第 3 2項記載の方法であって、

を特徴とする前記方法。