WO2005076258A1

WO2005076258A1 - ユーザ適応型装置およびその制御方法

Info

Publication number: WO2005076258A1
Application number: PCT/JP2005/001219
Authority: WO
Inventors: Koji Morikawa
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-02-03
Filing date: 2005-01-28
Publication date: 2005-08-18
Also published as: JPWO2005076258A1; JP3924583B2; US7684977B2; US20060287850A1

Abstract

　インタフェース部（１０）において、入力部（１）はユーザ（７）の発話などの入力信号を取得し、入力処理部（２）がこの入力信号を処理して、ユーザ（７）に関する情報を検出する。この検出結果を基にして、応答内容決定部（３）はユーザ（７）への応答内容を決定する。一方、応答方法調整部（４）は入力信号の処理状態や入力信号から検出されたユーザ（７）に関する情報などに基づいて、発話速度などユーザ（７）への応答方法を調整する。

Description

明細書

ユーザ適応型装置およびその制御方法

技術分野

[0001] 本発明は、ユーザからの入力を受けて情報やサービスを提供するインタフェースを備えた装置に関するものであり、具体的には、ユーザとの相互作用によって動作する家庭用ロボット、情報端末、家電機器などに関する。

背景技術

[0002] ユーザに利用されることを前提とした機器とユーザとの間には、インタフェースが必要である。インタフェースの 1つとして、ユーザと機器との相互作用の履歴から、提供する情報やサービスを調整する適応型のインタフェースがある。この適応型インタフエースによって、各ユーザの違いや個性に応じて機器が適応することができ、各ユーザにとって使レ、やすレ、操作インタフェースが実現される。

[0003] 従来の適応型インタフェースとしては、例えば、ユーザの操作系列を観察して操作を代行するものや、ユーザに擬似感情を提示して人間と親しみやすレ、インタフェースを構成するもの、生体情報に応じてインタフェースを適応させるもの、などがあった。また広い意味では、情報推薦などの機能も、各ユーザに適した情報を提示するという意味で適応型インタフェースであるとレ、える。

[0004] このような適応型インタフェースは、（1)ユーザの特定の状態や入力を受け、（2)ュ一ザの状態を判定し、（3)サービスやインタフェースを調整する、ことによって、ユーザにとって使レ、やすレ、インタフェースの提供を目指してきた。

[0005] この適応型インタフェースの改善に関する従来技術の例が、特許文献 1， 2に示されている。

[0006] 例えば特許文献 1では、機械翻訳システムを例にとって、ユーザ適応の状況を調整する方法が提案されている。機械翻訳では、入力される文書のジャンル (新聞記事、マニュアルなど）によって、翻訳に必要な翻訳例の辞書や語彙等が変化するので、そのジャンルなどを適応的に切り替える。ところがこのジャンルの切換は必ずしもうまくいかないので、ジャンル切換の候補をユーザに見てもらレ、、ジャンル指定の精度を挙げようとするものである。これは適応型インタフェースにおいて、適応がスムーズに行かない可能性への対処を狙ったものである。

[0007] また特許文献 2では、 WEBブラウザの GUIインタフェースを例にとって、インタフエースの配置等を擬似感情というモデルを基にして決定している。すなわち、インタフヱースの要素を擬似的な感情を生起させるものとして扱レ、、その感情の表出をインタフエースの配置として表す。人間の擬似感情変化の特性を利用しているために、人間の感覚にあったユーザインタフェースの適応ができるとされている。

[0008] また、人間と機械とのインタフェースに関する注目すべき知見が、非特許文献 1一 3 に示されている。

[0009] 非特許文献 1では、ユーザがネットワークを通して人間またはコンピュータとゲーム（シリトリ）をする場合、対戦者が人間であると教示したときと、コンピュータであると教示したときとにおいて、同じコンピュータプログラムを相手にした場合でも、ユーザの興味の持続時間や反応が異なっていたことが報告されている。

[0010] また、非特許文献 2によると、ユーザが伝言を依頼するというタスクについて、ロボットに対するとき、コンピュータの画面に対するとき、そして人間に対するときの 3種類の場合では、タスク終了後のインタビューで発話のしゃすさが変化したとレ、う結果が得られている。

[0011] さらに、非特許文献 3では、人間同士のコミュニケーションにおいて、言葉によるバ一バル情報だけでなぐ音声の周辺言語やうなずき、まばたき、表情、身振り'手振りなどのノンバーバル情報が、話し手と聞き手とを相互に引き込むいわゆる引き込み現象を起こしており、これによつてコミュニケーションが円滑になつていることが示されている。また、情動変動と密接に関連した心拍間隔変動や呼吸の引き込みなどの生理的側面での引込も、重要な役割を果たしているとの指摘がある。

特許文献 1 :特開平 9 - 81350号公報

特許文献 2：特開 2000-330676号公報（特に、段落 0062)

特許文献 3 :特開 2003— 150194号公報（特に、段落 0009— 0011 , 0072) 非特許文献 1 :山本吉伸、松井孝雄、開一夫、梅田聡、安西祐一郎、「計算システムとのインタラクション一楽しさを促進する要因に関する一考察一」、日本認知科学会「認知科学」、第 1卷、第 1号、 PP. 107— 120、共立出版、 1994年 5月

非特許文献 2：原田悦子、「音声インタフェイスにおけるエイジェント性と社会的文脈の効果:伝言実験による検討」、日本認知科学会第 19回大会、 pp.14-15、 2002年 6 月

非特許文献 3 :渡辺富夫、「身体的コミュニケーションにおける引き込みと身体性一心が通う身体的コミュニケーションシステム E-COSMICの開発を通して一」、ベビーサイエンス、 Vol.2, pp.4- 12、 2002年

発明の開示

発明が解決しょうとする課題

[0012] 適応型インタフェースは、ユーザに適応することによって、より使いやすいインタフエースを実現しょうとするものであり、ユーザにより良く適応するための工夫も数多くなされてきた。し力、しながら、実世界のアプリケーションにおいては、機器の側が必ずしも常に、ユーザに適応できるわけではなかった。

[0013] し力、しながら、従来の構成では、機器が想定した範囲内でユーザに適応できる工夫はなされているものの、ユーザが想定範囲外の行動をした場合の対応については、あまり検討されていなレ、。また、どのように適応すればよいかは分かる力機器の能力として実現不可能な場合もあり、このような場合の対応についても、十分な検討はされていない。提案されている技術としては、エラーメッセージに類する情報を提示する程度のものにとどまつていた。

[0014] し力ながら、ユーザに「知りません」「わかりません」「もう一度お願いします」などのメッセージを繰り返し提示するだけでは、ユーザは、装置に反応を期待して働きかけていた分、期待を裏切られた気分になり、落胆してしまう。この状態が繰り返されると、ユーザは装置に対して働きかけても無駄と感じ、やがて装置自体を使わなくなつてしまフ。

[0015] 前記の問題に鑑み、本発明は、ユーザとのインタフェースを備えた機器として、ただ単にユーザに応答するだけでなぐユーザに常に適応できるわけではないことを考慮して、ユーザ自身にさほど意識させることなくその行動や印象の変化を促し、ユーザと機器との円滑なインタラクションを実現することを課題とする。課題を解決するための手段

[0016] 本発明では、次の点に着目している。すなわち、機器からユーザへの働きかけにおいては、提供する情報やサービスの内容そのものと、その提供方法（ユーザへの応答方法）とは、分けて考えることができる。そして、ユーザへの応答方法を調整することによって、ユーザの行動や、ユーザが機器から受ける印象が、変わり得る、と考えられる。このような観点を、本発明では積極的に活用する。

[0017] 以下、順を追ってこれらの概念について説明する。

[0018] 装置がユーザに対して情報を提示する場合に、情報の内容が同じであっても、応答方法が異なると、ユーザに与える印象やユーザの反応が変わってくることがある。

[0019] 例えば音声対話において、機器がユーザに謝る場合を考えると、「すみません」という発話が情報の内容に相当し、発話速度、イントネーション、画面に表示したエージェントの頭を下げる等の動作などがユーザへの応答方法に相当する。この場合、同じ「すみません」という発話でも、その発話速度、イントネーション、エージェントの体の動き等の情報提示方法によっては、実は謝っていないように感じさせたり、ユーザをさらに不機嫌にさせることもできる。

[0020] また、カーナビや情報端末におけるレストラン検索において、「何が食べたいですか」という発話をユーザにする場合でも、発話速度やイントネーションの変化によって、ユーザに様々な印象を与えることができる。例えば早口で尋ねることによって、「早く答えて欲しい」というような言外の意味が付与されたり、イントネーションの付け方次第では、「別に聞きたくないが聞いている」というような印象を与えることもあり得る。

[0021] また別の例として、家庭用ロボットがユーザにコップを渡すという場合を考えてみる。

「コップを取ってほしレ、」という要求に対するロボットの応答動作において、ユーザにコップを渡すときの手の動かし方や動作速度は、何通りもある。ユーザにコップを渡すとレ、うサービス機能自体は実現できても、その動作の仕方や速度などの応答方法によつては、「いやいや動いている」「恐怖感を感じる」「無愛想に見える」などの印象を持たれてしまう。

[0022] このように、同じ情報やサービスを提供する場合であっても、その応答方法の調整次第では、ユーザに与える印象がガラリと変わることがある、と考えられる。 [0023] また、上述の非特許文献 1は、人間は、機器を相手にしているときでも、自分の思い込みによって、楽しく時間を過ごしたり、つまらなく時間を過ごしたりする可能 ¾があることを示唆している。また非特許文献 2も、ユーザが対面する機器の種類によって、ュ一ザの反応が変化しうることを示している。これらの事例から、（1 )ユーザは機器に対する印象や思い込みによって、機器に対する反応形態を変化させること、（2)ユーザは対面する機器の形態などによって使いやすさが変化することがわかる。

[0024] この知見を、インタフェース設計の観点から考え直すと、同じ情報やサービスを提供する場合であっても、ユーザへの応答方法というインタフェースの部分を調整することによって、ユーザの印象や反応は制御できると考えられる。これが、本発明の要点である。ユーザへの応答方法の調整は、いわば副次的な情報伝達手段といえる。

[0025] 次に、ユーザへの応答方法を何に基づいて調整するか、という点について考察する。

[0026] 応答方法の調整の指標として用いる情報としては、何種類か考えられる。例えば、機器の内部処理がどれぐらいできているか、すなわち入力信号の処理状態を指標とすること力と考えられる。

[0027] 例えば、機器の処理がユーザに追いついていないとき、情報内容をユーザに提供するとともに、その提供方法を調整して、「もっとゆっくりと話して欲しい」「あなたが対面している機器はそんなに早く対応できる機器ではない」という言外のメッセージをュ一ザに伝えることができる。これにより、ユーザは、機器の処理が追いついていないことを意識的、無意識的を問わずに理解し、自然に機器への対応を変更することが予想される。例えば、情報提供方法として発話速度を調整するものとすると、機器の内部処理がユーザからの発話等についていけないとき、機器が自らの発話速度を下げる（ゆっくり話す)方向に調整すると、ユーザは、機器がっレ、てきてレ、なレ、ことを感じて、発話のテンポを落としたりすると考えられる。これは、上述の非特許文献 3に示された人間同士のコミュニケーションにおける引込現象を、ユーザと機器との間でも成り立たせることを意図してレ、る。

[0028] なお、特許文献 3では、ユーザの発話が早口すぎて誤認識された場合に、システム側からの発話をユーザの発話速度に比べてゆっくりした発話速度で行うことにより、もつとゆっくりした認識し易い発話速度で発話するように自然に誘導する旨が、開示されている。

[0029] また、入力信号から検出した、ユーザの状態や機嫌などの情報を基にして、ユーザへの応答方法を調整してもよいし、ユーザと機器のインタラクションの成立度合いに応じて調整してもよい。また、ユーザに関する知識を学習する機器であれば、その学習度合に応じて、応答方法を調整してもよい。

[0030] さらに、本願発明者らは、後述する実験等から、機器側から誘導を行ったとしても、ユーザは必ずしも機器の誘導に引き込まれなレ、、という新たな知見を得た。そして、この新たな知見から、ユーザに対する自然誘導と、強制誘導とを、組み合わせて用いる構成が好ましい、と考えた。自然誘導と強制誘導とを組み合わせることによって、自然誘導できるユーザに対しては、ユーザに意識させないように誘導することができ、一方、自然誘導できないユーザに対しては、強制誘導により確実に誘導することができる。つまり、不快感を与えるような機会を最小限に抑えつつ、かつ、確実に、ユーザを誘導すること力 sできる。

[0031] すなわち、本発明は、ユーザとのやりとりを行うユーザ適応型装置において、ユーザの動作、状態および要求のうち少なくともいずれか 1つを示す入力信号を取得し、取得された入力信号を処理してユーザに関する情報を検出し、この検出結果を基にしてユーザへの応答内容を決定し、かつ、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれか 1つに基づいて、ユーザへの応答方法を調整し、決定された応答内容を、調整された応答方法によって出力するものである。そして、出力に対するユーザの反応を検出し、このユーザの反応に、調整した応答方法によって期待された変化がみられないとき、ユーザに変化を促すための応答内容を決定するものである。

[0032] 本発明によると、入力信号を処理して検出されたユーザに関する情報から、ユーザへの応答内容が決定されるとともに、ユーザへの応答方法が、入力信号の処理状態、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なくともいずれ力、 1つに基づいて、調整される。これにより、ユーザの行動や印象の変化を促すように、応答方法を調整することができるので、ユーザに対する自然誘導が実現でき、ユーザと装置との間で円滑なインタラクションを実現すること力 Sできる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、ユーザに変化を促すための応答内容が決定されるので、強制的に、ユーザを誘導することができる。

[0033] 従来の適応型インタフェースは、ユーザの状況を観察して、そのユーザに合わせることによって利便性の向上を図っていたが、本発明では、必ずしも常にユーザに適応できるわけではないことを考慮して、応答方法の調整によって、ユーザの機器に対する働きかけ方や印象の変化を促進するようにしている。これにより、従来ではユーザが不満に思うような状況であっても、ユーザの印象変化を促すことによってユーザの不満をやわらげることができ、円滑なインタフェースとしての役割を果たすことができる。

[0034] 次に、ユーザの行動変化や印象変容を促進するために調整する、ユーザへの応答方法の例を示す。

[0035] 機器が音声対話において発話を行うとき、発話速度、用いる語彙、イントネーションをユーザへの応答方法として調整する。

[0036] ロボット等の機器が「つかむ」「持ち上げる」「渡す」とレ、つたァクチユエータの動作を行うとき、ァクチユエータの動作速度をユーザへの応答方法として調整する。

[0037] 機器が有益な情報を推薦するとき、画面に表示したエージェントの形態、例えば顔の表情や服装をユーザへの応答法として調整する。

発明の効果

[0038] 本発明によると、機器側からユーザへの応答方法を調整することによって、ユーザの機器に対する印象や行動の変化を促すことができるので、ユーザと機器とのより円滑なコミュニケーションを実現することができる。さらに、ユーザの反応に、調整した応答方法によって期待された変化がみられないときには、強制的にユーザを誘導すること力 Sできる。

図面の簡単な説明

[0039] [図 1]図 1は、本発明の構成の概念図である。

[図 2]図 2は、第 1の実施形態のイメージ図であり、ユーザが家庭用ロボットに箱をとつてきてもらう場合を示す図である。

[図 3]図 3 (a)は図 2の状況における対話の例、図 3 (b)は発話速度と認識度との関係を示すグラフである。

[図 4]図 4は、本発明の第 1の実施形態に係るユーザ適応型装置におけるインタフエース部の構成を示すブロック図である。

[図 5]図 5は、図 4の構成の動作を示すフローチャートである。

園 6]図 6は、本発明の第 2の実施形態に係るユーザ適応型装置におけるインタフエース部の構成を示すブロック図である。

[図 7]図 7は、図 6の構成の動作を示すフローチャートである。

園 8]図 8は、第 3の実施形態のイメージ図であり、情報端末からユーザに対して情報推薦を行う場合を示す図である。

園 9]図 9は、本発明の第 3の実施形態に係るユーザ適応型装置におけるインタフエース部の構成を示すブロック図である。

[図 10]図 10は、実験 1において得られた、各被験者の文章読み上げの単独発話時の発話速度である。

[図 11]図 11は、発話速度の変化の分類を示す模式図である。

園 12]図 12は、実験 1の結果を示すグラフである。

園 13]図 13は、実験 2における対話順序である。

[図 14]図 14は、実験 2の結果を示すグラフである。

符号の説明

1 入力部

2 入力処理部

3 応答内容決定部

4 応答方法調整部

6 出力部

7, 11 ユーザ

10 インタフェース咅

12 ロボッ卜 13 情報端末

14 画面

15A, 15B エージェ

20 インタフェースき

21 音声入力部

22 音声認識部

23 発話内容決定部

24 認識状態検出部

25 話速決定部

26 音声出力部

30 インタフェースき

31 状態入力部

32 状態認識部

33 動作入力部

34 動作内容決定部

35 動作ずれ認識部

36 動作速度決定部

37 動作出力部

40 インタフェース咅

41 入力部

42 入力処理部

43 処理状態検出部

44 記憶部

45 情報内容決定部

46 応答方法決定部

47 出力部

発明を実施するための最良の形態

本発明の第 1態様では、ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置として、前記インタフェース部は、ユーザの動作、状態および要求のうち少なくともいずれか 1つを示す入力信号を、取得する入力部と、前記入力部によって取得された入力信号を処理し、前記ユーザに関する情報を検出する入力処理部と、前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する応答内容決定部と、前記入力処理部における処理状態、前記入力信号から検出された前記ユーザに関する情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれ力 4つに基づいて、前記ユーザへの応答方法を調整する応答方法調整部と、前記応答内容決定部によって決定された応答内容を、前記応答方法調整部によって調整された応答方法によって、出力する出力部とを備え、前記入力処理部は、前記出力部の出力に対する前記ユーザの反応を検出するものであり、かつ、前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき、前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定するよう、指示するものを提供する。

[0042] 本発明の第 2態様では、当該ユーザ適応型装置はユーザと音声対話を行うものであり、前記入力部は前記ユーザの発話を音声信号として取得し、前記入力処理部は前記音声信号に対して音声認識処理を行い、前記ユーザの発話内容を検出し、前記応答内容決定部は前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定し、前記応答方法調整部は前記音声認識処理における認識状態を基にして発話方法を調整する第 1態様のユーザ適応型装置を提供する。

[0043] 本発明の第 3態様では、前記応答方法調整部は、前記発話方法として、発話速度、語彙およびイントネーションのうち少なくともいずれ力 4つを調整する第 2態様のュ一ザ適応型装置を提供する。

[0044] 本発明の第 4態様では、前記応答方法調整部は、前記発話方法として、発話速度を調整するものであり、かつ、前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する第 2態様のユーザ適応型装置を提供する。 [0045] 本発明の第 5態様では、前記応答方法調整部は、前記ユーザの発話速度が前記目標値に近づレ、たとき、発話速度を前記目標値に近づくように変更する第 4態様のユーザ適応型装置を提供する。

[0046] 本発明の第 6態様では、前記応答方法調整部は、前記発話方法として、発話速度を調整するものであり、かつ、ユーザの発話速度の目標値を、ユーザに応じて決定する第 2態様のユーザ適応型装置を提供する。

[0047] 本発明の第 7態様では、当該ユーザ適応型装置はユーザに対して動作を提供するものであり、前記入力部は前記ユーザの状態および動作を示す信号を入力するものであり、前記入力処理部は前記入力部に入力された信号を処理して前記ユーザの要求を認識するものであり、前記応答内容決定部は前記入力処理部によって認識された前記ユーザの要求に応じて前記ユーザに提供する動作内容を決定し、前記応答方法調整部は前記入力部に入力された信号から前記ユーザと当該ユーザ適応型装置との間の動作の協調度合を認識し、認識した動作の協調度合に応じて動作の提供方法を調整する第 1態様のユーザ適応型装置を提供する。

[0048] 本発明の第 8態様では、前記応答方法調整部は、動作の提供方法として動作速度を調整する第 ₇態様のユーザ適応型装置を提供する。

[0049] 本発明の第 9態様では、当該ユーザ適応型装置は、ユーザに情報提供を行うものであり、かつ、前記ユーザの嗜好モデルを学習する機能を有しており、前記入力部は、ユーザからの要求を示す信号を取得し、前記入力処理部は、前記入力部によって取得された信号からユーザからの要求を判断し、前記応答内容決定部は、前記入力処理部によって判断されたユーザからの要求を基にして前記嗜好モデルを参照して前記ユーザに提供する情報内容を決定し、前記応答方法調整部は、前記嗜好モデルの学習度合を基にして情報の提供方法を調整する第 1態様のユーザ適応型装置を提供する。

[0050] 本発明の第 10態様では、前記応答方法調整部は、情報の提供方法として、語彙、および、画面に表示するエージェントの形態のうち少なくともいずれ力 4つを調整する第 9態様のユーザ適応型装置を提供する。

[0051] 本発明の第 11態様では、ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法として、前記ユーザの動作、状態および要求のうち少なくともいずれか

1つを示す入力信号を取得する第 1のステップと、前記第 1のステップにおいて取得した入力信号を処理し、前記ユーザの情報を検出する第 2のステップと、前記第 2のステップにおける検出結果を基にして、前記ユーザへの応答内容を決定する第 3のステップと、前記入力信号の処理状態、前記入力信号から検出された前記ユーザの情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれ力、 1つに基づいて、前記ユーザへの応答方法を調整する第 4のステップと、前記第 3のステップにおいて決定した応答内容を、前記第 4のステップにおいて調整した応答方法によって出力する第 5のステップと、前記第 5のステップにおける出力に対する前記ュ一ザの反応を検出する第 6のステップと、前記第 6のステップにおレ、て検出した前記ユーザの反応に、前記第 4のステップにおいて調整した応答方法によって期待された変化がみられないとき、前記ユーザに変化を促すための応答内容を決定する第 7 のステップとを備えたものを提供する。

[0052] まず、本発明の主たる概念を、図 1の構成図を用いて説明する。図 1は本発明に係るユーザ適応型装置におけるインタフェース部 10の構成の概要を示す図である。図 1に示すようなインタフェース部 10は、ロボットや情報端末などユーザ 7に対して機能や情報を提供するユーザ適応型装置の一部として組み込まれる。そして、装置の他の構成部分に対してユーザ 7に関する情報を提供し、また、他の構成部分からの出力を受けて、ユーザ 7に応答する。

[0053] 入力部 1はユーザ 7からの働きかけを入力する。ユーザ 7からの働きかけとしては、発話、仕草、表情、スィッチやキーボード、マウスの操作、ユーザの生理的状態などが考えられる。入力部 1は、これらの情報を機器に取り込むためのセンサが搭載されているか、または当該センサと通信可能になっており、ユーザの情報を、機器内部で処理可能な電気信号として取得する。すなわち、入力部 1は、ユーザ 7の動作、状態および要求のうち少なくとも 1つを示す入力信号を取得する。

[0054] 入力処理部 2は、入力部 1によって取得された入力信号を処理して、ユーザ 7の状態や意図や要求といったレベルの表現に変換する。すなわち、ユーザ 7の情報を検出する。 [0055] 応答内容決定部 3は、入力処理部 2によって取得されたユーザの状態や意図や要求から、機器の反応を決定して出力部 6に出力する。すなわち、入力処理部 2による検出結果を基にして、ユーザ 7への応答内容を決定する。

[0056] 入力部 1から、入力処理部 2、応答内容決定部 3および出力部 6までの一連の処理の流れは、従来のインタフェースと同様のものである。これに対して本発明では、ユーザ 7への応答方法を調整する応答方法調整部 4が、設けられてレ、る。

[0057] 応答方法調整部 4は、ユーザ 7への応答方法を調整する。すでに述べたように、ュ一ザ 7に提供する情報やサービスの内容そのものと、その提供方法とは分けて考えることができ、比較的独立に制御可能である。本発明では、応答方法を変化させて、ュ一ザ側の適応を促すのが特徴の 1つである。このときのユーザの適応は、意図的なものではなぐ自然な反応の結果としてなされるものであり、その自然な反応を促すように応答方法を調整する。これにより、ユーザ 7は、装置に対して不満を感じることがなくなり、円滑なコミュニケーションを装置と行うことができる。

[0058] ここで、応答方法の調整は、ユーザと装置との情報やサービスのやり取りが、どの程度円滑に行われているかに応じて、行うものとする。あるいは、ユーザの要求と機器の可能な動作とがー致している度合に応じて、応答方法を調整するものとする。

[0059] 具体的には例えば、入力処理部 2における処理状態に応じて行えばよい。例えば、ユーザと音声対話を行う装置の場合には、音声認識処理の処理状態に応じて、発話速度などの応答方法を調整する。音声認識処理の処理状態から、音声認識が順調に行われてレ、る力、ユーザとの音声対話が成立してレ、るかどうかを検知することができる。

[0060] また、入力信号力検出されたユーザ 7に関する情報に応じて、応答方法を調整してもよい。例えば、音声対話の場合には、出力した合成音声に対するユーザの反応（例えば、言葉が通じていないような兆候が見られる力に応じて調整すればよいし、口ボットとの協調作業の例では、ロボットとユーザとの間の動作の協調度合 (動作がずれなく行われてレ、る力に応じて調整すればょレ、。

[0061] さらに、装置が、ユーザの好みなどユーザに関する知識を学習する機能を有する場合には、その学習度合に応じて、応答方法を調整してもよい。もちろん、これ以外の情報を基にして応答方法を調整してもよいし、複数の情報を組み合わせて判断してあよい。

[0062] 以下、本発明の実施の形態について、図面を参照しながら説明する。

[0063] (第 1の実施形態）

本発明の第 1の実施形態では、音声対話機能を搭載した機器を例にとって説明を行う。本実施形態で想定しているのは、ユーザから音声によって働きかけることができ、機器の方からもユーザに対して合成音声によって働きかけることができる、いわゆる音声対話が可能な情報端末や家庭用ロボットなどの機器である。これらの機器では、人間同士のコミュニケーションと同様に、ユーザと機器との間でコミュニケーションをとりながら、ユーザに対して所望の情報やサービスを提供する。

[0064] 一般に、ユーザが音声によって機器に話しかけるとき、なんらかの機器動作に対して期待を持つ。そして、機器が期待通りに動作している場合は、ユーザは機器を自然と利用できるが、一方、期待と異なる動作が多い場合は、ユーザは機器に対して不信感を持ってしまうと考えられる。現在、人型ロボットとユーザとの間では、音声によるコミュニケーションが必ずしも円滑に実現されていないが、その理由の 1つとして、人型ロボットが、その外見や口調からユーザに期待されるほどには会話ができないことが挙げられる。これは、ネコ型や犬型のロボットでは、語彙や発話方法が限定されてレ、るにもかかわらず、ユーザとのコミュニケーションが成り立っているように見える現象とは対照的である。

[0065] まず、本実施形態が実現されたときのイメージを、図 2および図 3を用いて説明する

[0066] 図 2はユーザが家庭用ロボットに荷物をとつてきてもらう場合を概念的に示す図である。図 2において、 11はユーザ、 12は本実施形態に係るインタフェース機能を有する家庭用ロボット、 BX1 , BX2, BX3は箱である。ユーザ 11はロボット 12に対して、音声によって要求を伝える。ここでは、ユーザ 11は「白い箱 BX1をとつてくる」ことをロボット 12に対して要求するものとする。ロボット 12は音声によってユーザ 11に応えるとともに、ユーザ 11の要求に従った動作を行う。またロボット 12は、ユーザ 11の発話の認識度に応じて、自己の発話速度を調整する。 [0067] 図 3 (a)は図 2の状況における対話の例であり、 Aはユーザ 11の発話、 Bはロボット 1 2の発話である。図 3 (a)では、各発話内容について発話速度を示しており、またユーザ 11の発話 Aについては、ロボット 12の認識処理の良さを表す認識度を示している。図 3 (b)は発話速度と認識度との関係を示すグラフである。ここでは、説明の簡易化のために、発話速度と認識度には便宜的な数字を与えている。

[0068] まず、ユーザ 11が「箱を持ってきて」とロボット 12に要求する。このときの発話速度は 100であり、認識度は 60であったとする。一般に音声認識処理では、認識性能が最も発揮できる適切な発話速度があり、図 3 (b)の関係によると、認識性能が最も良レ、のは発話速度が 90付近である。ここで、発話速度の目標値を 90と設定する。現在のユーザ 12の発話速度はこの目標値よりも高いため、ロボット 12は、ユーザ 12の発話速度を下げるような方策を採る。ここでは、ユーザ 11の適応を促すベぐロボット 12 自らの発話速度を、目標値の 90よりも低ぐ 80に下げる。

[0069] また、ロボット 12は、どの箱 BX1 , BX2, BX3を持っていけばよいのか特定できないので、どの箱を持ってきて欲しいかを確認するための発話内容を作成する。この結果、ロボット 12はユーザ 11に対して、「どの箱ですか？」と発話速度を 80にして問いかける。

[0070] ロボット 12の問いかけに対して、ユーザ 11は「白い箱です」と答える。このときユーザ 11は、ロボット 12の発話速度に影響されて、自分では特に意識することなぐ発話速度を低下させる。この結果、発話速度が 90に変化し、認識度は 80に大きく改善される。すなわち、ロボット 12からユーザ 11に対して、発話内容が伝達されるとともに、認識処理が良好に行えるような働きかけがなされる。

[0071] ロボット 12は、ユーザ 11から要求されたタスクが「白い箱 BX1をとつてくる」ことであることを正確に認識し、白い箱 BX1の受け渡しを、「はいどうぞ」と言いながら行う。このとき、ユーザ 11の発話速度は認識処理が良好に行える適切な値になっており、適応促進の必要がなくなつたので、自己の発話速度をユーザ 11と同じ 90に調整する。

[0072] 以後、ユーザ 11とロボット 12は、認識処理に適切な発話速度で互いにコミュニケ一シヨンが取れるようになる。また、ユーザ 11の発話速度に変化が見られ、認識度が低下した場合は、適宜、上述したように、発話速度を調整すればよい。このように、ユーザ 11から要求されたタスクをこなしつつ、自己の発話速度を調整してユーザ 12の発話速度を適切な範囲に制御することによって、認識処理が常に適切に行えるようにシステムを維持することができる。

[0073] なお、上述したように、ユーザの発話速度が目標値よりも高いときは、システム側の発話速度をこの目標値よりも低く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。また、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいュ一ザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。

[0074] また、ユーザの発話速度が、逆に、目標値よりも低いときは、システム側の発話速度をこの目標値よりも高く設定することにより、ユーザの発話速度を目標値に近づけやすくすることができる。この場合も、ユーザの発話速度が目標値に近づいたとき、システム側の発話速度も、当初の設定から、目標値に近づくように、変更するのが好ましレ、。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ュ一ザの発話速度を誘導する必要がなレ、ので、コミュニケーションが行レ、やすレ、ユーザの発話速度に近い、目標値に、発話速度を設定しなおせばよい。

[0075] また、ユーザの発話速度の目標値は、必ずしも機器側の都合のみによって決定されるものではない。後述するように、発話速度には個人差が大きいので、発話速度の目標値は、ユーザに応じて決定するのが好ましい。すなわち、認識性能が適切に得られる範囲内で、ユーザの発話速度に近い値に目標値を設定することによって、ュ一ザが機器の発話に対して違和感を感じないような発話速度の誘導が可能となる。例えば、発話速度がとても遅い人には、機器側の最適値ではなぐ認識性能が得られる発話速度の範囲の下限付近に、目標値を設定すればよい。また、発話速度が速い人には、認識可能な発話速度の範囲の上限付近に、目標値を設定すればよい。

[0076] 以下、本実施形態に係る制御方法について、具体的に説明する。図 4は本実施形態に係るユーザ適応型装置におけるインタフェース部 20の構成を示すブロック図である。上述の例では、図 4に示すインタフェース部 20がロボット 12に内蔵されている。図 4において、認識状態検出部 24および話速決定部 25が、応答方法調整部に相当しており、また、音声入力部 21、音声認識部 22、発話内容決定部 23および音声出力部 26が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当している。

[0077] 音声入力部 21はユーザ 11からの音声入力を取得する部分であり、通常は、音声を取得するためのマイク等によって構成される。ユーザ 11が発した音声は、音声入力部 21によって、インタフェース部 20内部で処理可能な電気信号に変換される。

[0078] 音声認識部 22は音声入力部 21によって取得された音声の電気信号を処理して、ユーザ 11の発話内容に変換する。すなわち、いわゆる音声認識処理を行う。発話内容決定部 23は、音声認識部 22によって処理された音声認識結果を基にして、ユーザ 11に対する発話内容を決定する。発話内容決定部 23には、例えば、「ありがとう」に対して「どういたしまして」、「一はどこにありますカに対して「一にあります」など、各種の対話例力 S、ルールや知識ベースとして格納されている。

[0079] 認識状態検出部 24は音声認識部 22から認識状態に関する信号を取得し、認識状態の良否を検出する。ユーザ 11の発話は、必ずしも音声認識処理しやすいものばかりではないので、その処理結果は誤りを含むことが多い。また、大抵の音声認識処理では、その処理結果に対する信頼度を表す信号が得られる。例えば、ニューラルネットワークを利用した音声認識では、各認識結果の候補とともに出力される出力値を、各認識結果に対する信頼度として扱うことが可能である。この出力値が 0— 1の範囲で得られるとき、例えば出力値が 0. 9のときは、その認識結果は間違っていないことが多ぐ逆に出力値が 0. 5のときは、認識結果の信頼度は低いがとりあえず出力されている、といったことが読み取れる。認識状態検出部 24は、音声認識部 22から得られるこのような値から、認識状態の良否の程度を算出する。

[0080] 話速決定部 25は、認識状態検出部 24が算出した認識状態の程度を基にして、ュ一ザ 11に対する発話の発話速度を決定する。具体的には例えば、インタフェース部 20に内部パラメータとして記憶されている発話速度の値を、調整する。音声認識処理では、一般に、認識率が最も高くなる適切な発話速度が存在し、これから離れるにつれて認識率が低下することが知られている。 [0081] 音声出力部 26は例えば、 D/A変換部を含む回路部とスピーカとによって構成されており、発話内容決定部 23によって決定された発話内容を示す合成音声を、話速決定部 25によって決定された発話速度に従って作成し、出力する。

[0082] 図 4の構成の動作を、図 5のフローチャートを用いて説明する。

[0083] ユーザ 11が発話すると、まず音声入力部 21によって、その音声を取得し、電気信号に変換する（Sl l)。そして、音声認識部 22によって、ステップ S11において生成された電気信号を用いて音声認識処理を行う（S12)。

[0084] 次に、認識状態検出部 24が、音声認識部 22から取得した信号を基にして、音声認識の認識状態が良いか否かを判断する（S13)。ここでの判断は例えば、音声認識処理におレ、て特定された複数の認識候補に係る、例えば上述したニューラルネットヮークにおける出力値のような信頼度を表すデータの、ばらつき具合を基にして行う。すなわち、特定の候補のみの信頼度が高い場合は、認識状態が良いと判断し、一方、どの候補の信頼度も低い場合は、認識状態が悪いと判断する。また、認識処理そのものが成功せずに認識候補が得られない場合も、認識状態が悪いと判断する。

[0085] ステップ S13において、認識状態が良いと判断されたときは、ステップ S14に進む。

ステップ S14では、話速決定部 25において、適応促進のための発話速度の制御を行わないものとする。すなわち、例えば発話速度を、前回設定された値と同じ値にしたり、ユーザの発話速度に合わせたりする。ユーザの発話速度に合わせるのは、コミュニケーシヨンが良好な場合は、ユーザも装置も発話速度は似ていると推測されるからである。

[0086] 一方、認識状態が悪いと判断されたときは、ステップ S 15に進む。ステップ S 15では、認識状態検出部 24によって、ユーザ 11の発話速度が速すぎるか否かが判断される。すなわち、音声認識部 22における認識状態からユーザ 11の現在の発話速度を計算し、この発話速度をインタフェース部 20が予め記憶してレ、る最適な発話速度と比較する。そしてユーザ 11の発話速度の方が速いときは (Yes)、話速決定部 25が発話速度を現在の設定よりも遅くする（S16)。一方、ユーザ 11の発話速度の方が遅レ、ときは (No)、話速決定部 25が発話速度を現在の設定よりも速くする（S17)。発話速度の調整は、例えば、現在の発話速度に対して一定量を減じたり加えたりすることによって、または、 1よりも小さな、若しくは大きな一定量を乗じたりすることによって、実現できる。

[0087] ステップ S 14, S16, S 17によって発話速度が調整された後、または、発話速度の調整と並行して、発話内容決定部 23が、音声認識部 22によって認識されたユーザ 1 1の発話内容に対する応答内容を決定する（S18)。そして、音声出力部 26は、発話内容決定部 23によって決定された発話内容を、話速決定部 25によって決定された発話速度でユーザ 11に対して出力する（S 19)。

[0088] 上述した動作をユーザ 11から見ると、ユーザ 11の発話に対して、装置の音声応答の発話速度が若干変化することになる。ユーザ 11は、装置との音声対話に際しても、人間同士のコミュニケーションの際に見られるような引き込み現象によって、装置の発話速度に合わせて、自分自身の発話速度を自然に落としたり速めたりすると考えられる。このような発話速度の変化は、ユーザ 11が自分で意識的に行うものではない。すなわち、ユーザ 11には何ら意識させずに、自然にその発話速度を制御することができ、これにより、認識が容易な発話入力を得ることができるので、認識率も向上し、対話を円滑に進めることができる。

[0089] 従来の音声対話型のインタフェースでは、音声認識ができない場合、「もう一度お願いします」とか「ゆっくり話してください」等の発話を行い、ユーザに対して、意識的に装置に合わせて話をするように促す対応をしていた。このため、それまでの対話の流れが中断されてしまい、ユーザにとって利用しにくい面があった。

[0090] これに対して本実施形態によると、ユーザの発話が不明瞭なときでも、応対は継続しながら発話速度を調整することによって、ユーザに意識させることなく発話速度の変化を促して、コミュニケーションを円滑にすることができる。このとき、ユーザは機器に対して何力ら意図的に適応する必要はなぐユーザが他の人と自然に行っている相互引込のプロセスが実現されている。したがって、ユーザと機器との音声対話を、ユーザに負担をかけることなぐ円滑に行うことができる。

[0091] なお、本実施形態では、ユーザへの応答方法の調整として、発話速度を調整するものとしたが、本発明はこれに限られるものではない。例えば、発話語彙を調整してもよい。発話語彙の調整によって、ユーザが発話内容を聞いたときの印象を変化させること力 Sできる。語彙を変化させるパターンの例としては、例えば子供の話す語彙と大人の話す語彙、丁寧度合の異なる語彙 (例えば、丁寧な話し方と乱暴な話し方）、親密度合の異なる語彙 (親しげな話し方とビジネスライクな話し方）などが考えられる。

[0092] また、発話のイントネーションを調整してもよレ、。イントネーションの調整によって、同じ文言であっても、ユーザの話し方をゆっくりにしたり、穏やかにしたり、落ち着かせたりすること力引き込みによって可能になると考えられる。もちろん、発話速度、語彙、イントネーションなどの応答方法の全部または一部を組み合わせて、調整してもよい

[0093] また、応答方法の調整によって、必ずしも、ユーザの反応がシステム側の想定通りに変化するとは限らない。例えば、後述する実験の結果から示唆されるように、人とシステムとの対話において、システム側が発話速度を調整しても、一部のユーザは自分の発話速度を変化させない。したがって、応答方法を調整してもユーザの反応が期待したようには変化しない場合は、直接的にユーザに要求を伝えるような出力を行うのが好ましい。

[0094] すなわち、入力処理部 2は、出力部 6の出力に対するユーザ 7の反応を検出し、ュ一ザ 7の反応に、応答方法調整部 4によって調整された応答方法によって期待された変化がみられないときは、応答内容決定部 3に対し、ユーザ 7に変化を促すための応答内容を決定するよう、指示するのが好ましい。例えば、発話速度を変化させてもユーザ 7の発話速度に変化が見られない場合は、入力処理部 2は、発話速度の変化を促すような応答内容を決定するよう、応答内容決定部 3に指示する。この指示を受けて、応答内容決定部 3は、ユーザ 7との対話を成立させるための発話内容に加えて、例えば「もう少しゆっくり話していただけませんか？」などといったメッセージを追加する。これにより、発話速度を下げてほしい、というようなシステム側の要求を、ユーザ 7に対して直接的に伝えることができる。

[0095] 人間が応答方法の調整によって影響を受けることを実証するために、次の 2つの実験を実施した。ここでは、対話における発話速度に着目し、人と人が対話しているときに相手の発話速度の影響をどの程度受けるか (実験 1)、人と機器が対話しているときに機器の発話速度の影響をどの程度受ける力 ^実験 2)、という 2つの実験を行った [0096] <実験 1 >

実験 1では、人同士の対話状況を観察し、その発話速度を記録'解析することによつて、被験者の発話速度が相手の発話速度によって変化するのかを観察した。実験には、大学生を中心に 10人に被験者として参加してもらった。

[0097] まず、各被験者にニュース原稿の朗読などの単独発話をしてもらい、そのときの発話速度を、相手の影響を受けていないという意味で、その被験者の標準的な発話速度とした。なお、発話速度は、 1秒間に発声される文字数 (発話音声に含まれる文字数 ÷発話に要した時間）によって算出することとした。

[0098] 図 10は各被験者の標準的な発話速度を示す。図 10から分かるように、実験に参加した被験者群では、発話速度は 6. 88文字 Z秒一 10. 69文字/秒まで分布しており、発話が遅い人と早い人との差は 1. 5倍以上あり、かなりのばらつきが見られる。発話速度の平均は 8. 84文字/秒である。

[0099] 次に、被験者同士の対話実験を行った。実験に用いる対話文として、英会話等の語学教材に使用されるような 9つの文例を用意した。各文例では、先に発話をする A さん役と Aさんに応答して発話を行う Bさん役とが設定されており、 Aさんと Bさんの発話が交互に数回ずつ含まれている。このような文例を用いることによって、発話内容のやりとりとともに、発話方法 (この実験では発話速度）の情報についてもやりとりが生じるので、その影響を観察することができる。

[0100] 実験では、被験者 10人を 2人ずつに分け、その 2人の間で Aさん役と Bさん役を設定して対話文例を読み上げてもらい、その対話を録音した。次に、被験者の組み合わせを変えて、各被験者が、別の相手と別の対話文を読みようにした。 1人の被験者力見ると、 9人の相手と、内容が異なる 9つの文例を読むように、順番を設定した。この結果、毎回 5組の対話データが得られ、被験者の組み合わせを変えた 9回の対話を行うことによって、合計 45対話の記録を得ることができた。個人ごとに見れば、計 9 0発話のデータを得ることができた。

[0101] そして、録音した対話データから、発話速度を算出した。このとき、対話中において発話速度はわずかながら変化しているので、対話中の発話速度の平均を求め、これを各対話における被験者の発話速度とみなした。したがって、この実験では、一回の対話中における発話速度の変化は考慮していない。

[0102] 図 11に示すように、発話速度の変化を、相手に対してどのように変化したカという観点から 4とおりに分類した。ここで、自分 (Aさん）の普段の発話速度を Vda、相手（ Bさん）の普段の発話速度を Vdb、対話文例 nの時の自分の発話速度 Vna、対話文例 nの時の相手の発話速度を Vnbとする。図 11では、上下方向に発話速度の軸をとつており、その軸上に発話速度 Vda、 Vna、 Vnbの位置を示している。

事例 1 (a)：自分よりも発話速度の速い相手との対話 (Vdaく Vnb)において、自分の普段の発話速度よりも速く発話 (Vdaく Vna)した。

事例 2 (b)：自分よりも発話速度の速い相手との対話 (Vdaく Vnb)において、自分の普段の発話速度よりも遅く発話 (Vda > Vna)した。

事例 3 (c)：自分よりも発話速度の遅い相手との対話 (Vda > Vnb)において、自分の普段の発話速度よりも速く発話 (Vdaく Vna)した。

事例 4 (d)：自分よりも発話速度の遅い相手との対話 (Vda > Vnb)において、自分の普段の発話速度よりも遅く発話 (Vda > Vna)した。

[0103] 発話速度の軸における、自分の発話速度 Vda, Vnaと相手の発話速度 Vnbとの位置関係によって、相手に合わせたかどうか、どの程度合わせたかを求めることができる。発話速度は、引き込み現象が発生すると考えた場合、相手と同調する方向に変化するはずであり、上の 4通りの事例のうち事例 1と事例 4が、相手に同調する方向に変化した場合である。また自分の発話速度の変化量は、（Vna-Vda)で求められる。

[0104] そこで、本願発明者は、次のような引き込み判別式を作成した。

D = sign (Vnb— Vda) X sign (Vna-Vda) X abs (Vna-Vda) …（数 1) ここで、 signはプラスやマイナスの符号のみを抽出する関数、 absは絶対値を抽出する関数である。 D > 0のときは、発話速度が相手と同調したことを示し、 Dく 0のときは、発話速度が相手と同調しなかったことを示す。また、 Dの値の大小は、発話速度がどの程度同調した力を示す。

[0105] 図 12は実験 1で得られた発話データについて上の判別式 Dの値をプロットしたダラフである。図 12において、横軸は被験者 ID、縦軸は判別式 Dの値で単位は（文字 Z 秒)である。例えば、被験者 3 (横軸上）が被験者 6と対話したとき、判別式 D = 2であつた。すなわち、被験者 3は被験者 6に対して、 2 [文字/秒]分だけ同調した、と考えられる。

[0106] 図 12から分かるように、多くの発話において、発話速度が相手に合わせるように変化している。実験で取得された 90発話のうち、 57発話（63%)において、 D > 0となつている。また、この 90発話で構成される 45対話のうち、被験者がお互いに相手に合わせようとしている場合（お互いの Dの値が正だった場合）は 18対話 (40%)、 Aさん役は Bに合わせようとしてレ、るが Bさん役が合わせてレ、なレ、場合は 10対話（22%)、その逆が 11対話（24%)、ぉ互レ、が合わせてレ、なレ、場合が 6対話（13%)であった。よって、ほとんどの対話において、いずれかの被験者の発話速度が相手に合わせる方向に変化していたことが観察された。

[0107] なお、一部の発話において、相手に合わせるような変化が見られなかった原因としては、例えば、対話文例の中に「え一つと」など普通の読上げ速度と異なる速度で読む単語が含まれており、発話速度が的確に算出できなかったこと、被験者によっては相手の発話速度による影響を受けにくい人がいること、などが考えられる。

[0108] このように、実験 1における人同士の対話実験によって、被験者は普段、様々な読上げ速度で文章を読んでいるにも関わらず、その発話速度が、対話相手の発話速度に合わせるように変化することが多いことが確認された。また、この現象は、対話文の内容によらずに見られることも分かった。さらに、被験者によって適応特性などが異なることも見受けられたことから、被験者ごとの適応特性なども考慮することによって、さらに適応が促進されると考えられる。

[0109] <実験 2 >

上述の実験 1では、人同士の対話における発話速度の適応を観察したが、次に、人が自動応答システムと対話を行った場合に、その発話速度がどの程度変化するかを観察した。実験には、大学生を中心に 6人に被験者として参加してもらった。

[0110] この実験で使用された自動応答システムは、ユーザの発話の終了を検出した後に、予め録音しておいた音声ファイルを再生することによって、被験者との対話を実現するものである。システムが再生する音声として、一人の女性が単独で対話文を朗読している際の音声を録音したものを用いた。この録音した音声から音声編集ソフトゥェァを用いて、ピッチ値を保ったまま時間方向に対して 80% · 120%に伸縮した音声を作成した。これによつて、発話時間を 80%に変換したファイルが発話速度が最も高くなり、順に 80% (速い発話、 High)、 100% (録音そのまま、 Middle)、 120% (遅い発話、 Low)の三種類の発話速度の音声ファイルが用意された。

[0111] 被験者には、自動応答システムと三種類の対話を行うというタスクが与えられた。対話文として、実験 1で用いた 9つの対話文のうちの対話 2， 5, 9を用いた。これらの対話文は、実験 1において被験者にとって発話速度の同調が見られやすかつたものである。また、被験者には対話文における Bさんの役割力対話システムには Aさんの役割が与えられた。

[0112] 図 13は実験 2における対話順序を示す表である。図 13において、各欄の最初の数字は、対話文の番号、 HMLの記号は発話速度を表している。 Mが録音ファイルそのままの速度、 Lは遅い発話、 Hが速い発話を示す。例えば「2_H」は、対話文 2の H ( 速い発話)と対話したことを表す。また図 13に示すように、各被験者にとって、対話文の内容は毎回違うものにした。

[0113] 図 14は実験 2で得られた発話データについて上の判別式 Dの値をプロットしたダラフである。この図 14から、ほとんどの対話において、被験者の発話速度がシステムに合わせていることが分かる。実験で取得された 18対話のうち、 16対話において、判別式 D > 0となっている。

[0114] 以上の二つの実験から、人間は、相手が実際の人間であっても、自動応答システムから流される音声であっても、その対話の内容によらず相手の発話速度に合わせるように、自分の発話速度が影響される、と考えることができる。また、この発話速度の変化は、特に意識されなくても起きてレ、ると考えられる。

[0115] (第 2の実施形態）

本発明の第 2の実施形態では、ユーザとの協調動作を行うロボットを例にとって説明を行う。家庭等において利用されるロボットは、情報端末やソフトウェアエージェントと異なり、ユーザとのインタフェースとしては、言語や情報のやり取りの他に、物理的な物体のやりとりや共同作業も行う。この場合、機器（ロボット）からユーザに提供するものとしては、情報以外にも、物の操作、ジエスチヤ、作業などが考えられ、これらを本実施形態では「動作」と呼ぶ。この「動作」についても、動作自体が提供する機能の他に、動作をどのように提供するかという「方法」の側面があり、この「方法」によっても、ユーザが受け取る印象は大きく変化する。本実施形態では、「動作」を提供する「方法」を調整することによって、ユーザの適応を促す例について説明する。

[0116] また、第 1の実施形態では、機器内部における音声認識の状態に応じて、発話速度を調整した。これに対して本実施形態では、動作「方法」を調整する際に、外部に出力した「動作」とユーザの動作とのずれ、または協調度合を参照する点が、第 1の実施形態と大きく異なっている。

[0117] 次に、動作を提供する方法について追加説明する。通常の使用の場合は、協調動作がスムーズに行われるためには、ロボットも、ユーザの動作速度と同じような速度で動作することが必要になる。し力、しながら、ユーザがかなり速い動作をしていて、これと同速度の動作が機構等の制約からロボットの能力を超えている場合や、例えば熱いお茶や刃物を渡すときなど、ユーザと同等速度で動作すると安全が確保できない場合は、ロボットは、ユーザと同等速度に動作するのではなぐロボットが要求する理想的な動作速度になるように、ユーザの適応を促進させる必要がある。これによつて、ユーザは、ロボットの動作速度に対して、常に不満を持つことなぐ協調的な行動をとることができる。

[0118] また、動作速度を調整することによって、スムーズな協調動作を実現できるだけでなぐユーザに対して様々な印象を副次的に与えることができる。例えば、速い動作は、「きびきび動いていて頼もしい」というような印象を与え、逆に、ゆっくりとした動作は「落ち着いている」というような印象を与えることができる。

[0119] また、ロボットの動作速度はユーザの行動速度に影響を与える。すなわち、人間同士なら互レ、に引き込まれる性質の動作であれば、ロボットとユーザの間でも弓 Iき込み力 S起こりうる。例えば、物を渡すというタスクは、ロボットがゆったりとした動きで物を渡せば、このロボットのゆったりとした動きに影響されて、ユーザの方もゆっくりとした動作で物を受け取ると考えられる。

[0120] 以下、図 6および図 7を用いて、第 2の実施形態について説明する。 [0121] 図 6は本実施形態に係るユーザ適応型装置としてのロボットにおけるインタフェース部 30の構成を示すブロック図である。ここでは、自律的に移動する能力とアームによる物体操作能力とを持ち、自ら移動して物を動かすことができるロボットを想定している。図 6において、状態入力部 31および動作入力部 33が入力部に相当し、動作ずれ認識部 35および動作速度決定部 36が応答方法調整部に相当している。また、状態認識部 32、動作内容決定部 34および動作出力部 37が、入力処理部、応答内容決定部および出力部に、それぞれ対応している。

[0122] 状態入力部 31はロボットに向き合つているユーザ 11の状態を取得する。ユーザ 11 の状態とは、ロボットへのジエスチヤによる指示や、表情や、行動などを指す。状態入力部 31は例えば、ユーザ 11を撮影するためのカメラや、発話を入力するためのマイクなどによって構成されており、また、ユーザ 11の生理的状態を測定するセンサ（3次元位置センサ、発汗センサ、脳波計など）との通信が可能になっているのが好ましレ、

[0123] 状態認識部 32は状態入力部 31によって取得された信号を処理して、ユーザ 11の状態を認識して出力する。その出力内容は、ユーザ 11のロボットに対する要求内容や、疲れている、楽しいなどといったユーザ 11の生理的状態などである。動作内容決定部 34は状態認識部 32の出力を受けて、どんな機能や動作をユーザ 11に対して実際に出力するかを決定する。

[0124] 動作入力部 33は、ロボットとユーザ 11との協調動作が良好に行われているか否かを判定するために設けられており、ユーザ 11の動作を映すカメラや、ロボットハンドに装着された圧力センサ等によって構成されている。なお、動作入力部 33を構成するカメラなどの要素は、状態入力部 31と共用されてもかまわない。

[0125] 動作ずれ認識部 35は、動作入力部 33の出力を受けて、ユーザ 11とロボットの動きのずれを認識する。このずれは、ユーザ 11とロボットとの間の動作の協調度合を示す指標として用レ、られる。

[0126] 例えば、ユーザが「雑誌を取って」とロボットに頼み、ロボットが指定された雑誌を取つてきてユーザに渡す動作を考える。この場合、ロボットが雑誌を持った手を差し出す動作と、ユーザが雑誌を受け取るために手を差し出す動作とで、そのスピードとタイミングがー致しているとき、スムーズな雑誌の受け渡しが実現できる。もし、互いの動作のスピードが一致していないときは、ユーザは雑誌を受け取るという単純な動作でも、ストレスや不満を感じることが予想される。具体的には、もしロボットの手の動作がユーザの動作よりもかなり速いときは、ユーザは危険を感じて手を出すどころか思わず手を引っ込めてしまうだろうし、逆にロボットの動作がかなり遅いときは、ユーザは出した手を、雑誌が手元に来るまで止めたままで待たなければならない。

[0127] 同様に、例えば、ユーザが「これ片付けておいて」とコップをロボットに渡す場合も、互いの動作のスピードやタイミングがずれていると、スムーズな受け渡しができない。

[0128] このようなユーザの不満につながる動作のずれを認識するの力動作ずれ認識部 3 5である。具体的には、カメラ画像からユーザとロボット自身の動作速度を測定したり、ロボットが物を渡す動作を完了してからユーザが物を受け取るまでの時間を測定したりすることによって、互いの動作のずれは認識できる。ユーザが物を受け取つたことは、ロボットハンドに装着された圧力センサ等で検出可能である。

[0129] 動作速度決定部 36は、動作ずれ認識部 35によって認識されたユーザとロボットとの動作のずれと、状態認識部 32から認識されたユーザの状態を用いながら、ロボットにとつてどのようなスピードが理想的である力、どんな印象を与えたいカ安全の観点力はどのようなスピードが理想的であるか、などを勘案して、目標の協調動作速度を決定する。動作出力部 37は、動作内容決定部 34によって決定された動作や機能を、動作速度決定部 36によって決定された動作速度によって、ユーザ 37に対して出力する。

[0130] 図 7は図 6の構成の動作を示すフローチャートである。図 7のフローを上述の第 1の実施形態における図 5のフローと比較すると、ユーザとのインタフェース力動作によるもの力、、音声（会話）によるものかという相違はある力基本的な流れはほぼ同様である。ただし、図 7では、ユーザとロボットの協調動作における動作のずれを認識するステップ S23を含む点力図 5と異なる。すなわち本実施形態では、ロボットとの動作の協調度合を判定すベぐロボットにとっての理想的な動作速度と現在のユーザの動作速度とのずれを認識するステップ S23を有し、その動作のずれに応じて、ロボットの動作速度を調整するようにしてレ、る。 [0131] 以上のように本実施形態によると、ユーザとロボットが協調動作を行う際に、互いの動作のずれからロボットの動作速度を調整することによって、よりスムーズな協調動作を実現ですることができる。

[0132] (第 3の実施形態）

本発明の第 3の実施形態では、ユーザに情報を推薦する情報端末を例にとって説明を行う。本実施形態では、情報端末の画面にエージェントを表示して、このエージヱントがユーザの好みに応じた情報を音声によって提示するものとする。

[0133] また、第 1の実施形態では、音声認識の状態に応じて発話速度等の出力方法を調整し、第 2の実施形態では、ユーザとロボットの協調作業における動作のずれに応じて動作速度等の出力方法を調整した。これに対して本実施形態では、情報端末側でユーザの嗜好モデルを学習するものとし、その学習度合に応じて、エージヱントの形態（見た目）や語彙等の情報の提供方法を調整するものとする。すなわち、外部から得たユーザに関する知識の量を、提供方法の調整に反映させる点が、第 1および第 2の実施形態とは異なっている。

[0134] まず、本実施形態が実現されたときのイメージを、図 8を用いて説明する。

[0135] 図 8は情報端末からユーザに対してエージェントによってレストラン情報を提供する場合を概念的に示す図である。図 8において、 13は本実施形態に係るインタフエ一ス機能を有する情報端末、 14は表示画面、 15A, 15Bはエージェントである。同図中、（a)はユーザの嗜好モデルがあまり学習されていないときの状態、（b)はユーザの嗜好モデルが学習された後の状態である。

[0136] 情報端末 13では、ユーザとのやり取りの中から、ユーザの嗜好モデルを学習する。

学習の初期段階では、嗜好モデルはまだ十分には学習されていないため、ユーザがどのような推薦情報を好むか明確には分力ない。このため、ユーザが情報推薦機能に対して過大な期待を持っていると、推薦されたものが気に入らないとき、落胆する度合が大きくなる。

[0137] 図 8 (a)の例では、幼児のような外見のエージェント 15Aを画面 14に出し、発話の語彙も「おいしいでちゆよ」と幼児語にしている。すなわち、あた力も幼児が推薦する力、のように情報提供方法を調整することによって、ユーザが仮に推薦情報を気に入らない場合でも、情報端末 13に対する印象をさほど悪くならないようにしている。これにより、ユーザが怒ったり不愉快になったりすることが少なくなると考えられる。

[0138] 逆に、図 8 (b)に示すように、ユーザとのやり取りによってその嗜好モデルが学習された後は、情報端末 13は、ユーザの嗜好に合った情報をいわば自信を持って推薦すること力 Sできる。この場合は、力、しこまった服装の大人の外見のエージェント 15Bを画面 14に出し、発話の語彙も「〇〇様にふさわしいレストランです」という秘書や執事のような言葉遣いにする。このときに幼児のような表現では、推薦内容に対する信頼を損なう可能性もある。

[0139] このように、ユーザの嗜好モデルの学習度合に応じて、エージェントの外見や語彙といった情報提供方法を調整することによって、ユーザの印象の変化を促すことができる。これにより、推薦情報が適切でない可能性があるときは、ユーザの不満を和らげるような方法によって情報提供を行い、情報提供サービスの信頼を失わないようにするとともに、推薦情報が適切であるときは、ユーザの受容度を高めることができる。

[0140] 図 9は本実施形態に係るユーザ適応型装置としての情報端末におけるインタフエ一ス部 40の構成を示すブロック図である。図 9において、処理状態検出部 43および応答方法決定部 46によって、応答方法調整部が構成されている。また、入力部 41、入力処理部 42、情報内容決定部 45および出力部 47が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当してレ、る。

[0141] 図 9において、入力部 41はキーボードゃタツチパネル、マイク等を通してユーザからの働きかけを受け付ける。入力部 41はユーザ 11の発話や指示を電気信号に変換する。また入力部 41は、後述の出力部 47から出力された情報に対するユーザの反応も取得する。入力処理部 42は、入力部 41からの信号を受けて、ユーザ 11の要求内容を判定する。またユーザ 11が喜んでいるか、うれしく思っているかなど、出力部 4 7から出力された情報に対するユーザ 11の反応に関する情報も取得する。

[0142] 処理状態検出部 43は、入力処理部 42の出力を受けて、記憶部 44に格納されているユーザ 11の嗜好モデルを更新する。例えば、ユーザからの要求内容と、ユーザに提供した情報内容と、そのときのユーザの反応とを、併せて記憶する。単純に、過去の履歴を記憶するようにしてもよいし、カテゴリー化して記憶してもよい。すなわち、記憶部 44に蓄えられた嗜好モデルは、ユーザ 11とのやりとりを重ねることによって、徐々に精度の高いものに変化していく。

[0143] 情報内容決定部 45は、入力処理部 42によって判定されたユーザ 11の要求内容と、記憶部 44に格納された嗜好モデルとから、今回のユーザ 11の要求に対する出力内容を決定する。

[0144] 応答方法決定部 46は記憶部 44に格納された嗜好モデルの学習度合に応じて、語彙ゃエージェントの外見といった情報の提供方法を調整する。すなわち、嗜好モデルが、ユーザの好みをどの程度正確に反映しているかによって、情報の提供方法を調整する。そして、出力部 47は、情報内容決定部 45によって決定された情報内容を、応答方法決定部 46によって決定された提供方法によって、出力する。

[0145] ここでは、情報の提供方法の調整によって、ユーザ 11に対して自分がどの程度ュ一ザ 11の好みを把握しているかを間接的に示すものとする。すなわち、ユーザ 11の好みがまだ正確には把握できておらず、推薦する情報が必ずしも適切ではない可能性が高いときは、それを提供方法の調整によって伝える。例えば、「一などはいかがでしようか」というような言い回しを用いる。反対に、ユーザ 11の好みがきちんと学習できているときは、それも提供方法の調整によって伝える。例えば、「一がぴったりだよ」などといった語彙を用いる。

[0146] 人間同士のコミュニケーションにおいても、初対面でお互いによく知らない者同士の対話の語彙と、旧知の仲の者同士の語彙とではかなり違っている。また、語彙の用い方によって、「親しみやすい」「よそよそしい」などという印象も相手に与えてしまう。

[0147] 従来の手法でも、ユーザに親しみを感じてもらうために、親しげな話し方を導入したものもある。ところ力本実施形態で示したようなユーザの嗜好を学習する情報端末では、学習初期には、ユーザの期待通りの情報を提供することが困難なために、親しげな話し方がユーザの不興を買レ、、カ^って逆効果になってしまうおそれがある。また、学習が進んだにもかかわらず、いつまでも丁寧に応答していると、ユーザが親しみを感じなレ、ことも予想される。

[0148] そこでここでは、ユーザの嗜好が十分に学習できていない初期の段階では、初対面の人間同士が用いるような語彙で情報推薦を行う。これにより、仮に推薦情報が適切でなくても、お互いのことをよく知らないために起きたことであり、しょうがないと理角军してもらえる。また、ユーザの嗜好が十分に学習できた後は、親しげに情報推薦することによって、装置に対して親しみを感じてもらうことができる。

[0149] また、語彙以外でも、例えば、 CGで作成して画面に表示したエージェントの外見を、学習初期では、フォーマルな格好をして登場させ、学習が進むにつれてカジュアルな格好に変化させるようにしてもよい。この場合も、ユーザが受ける印象が変化して、スムーズなコミュニケーションが実現できると考えられる。

[0150] このように本実施形態によると、ユーザに提供できる情報推薦のレベルや、ユーザに関する知識の量に応じて、情報の提供方法を調整することによって、仮に推薦情報があまり適していないときでも、ユーザは自然に受け入れることができる。これにより、ユーザは情報端末側の学習過程を特に意識することなぐ機器と自然に相互動作を繰り返すうちに、ユーザの好みが次第に学習される。

[0151] なお、本実施形態では、情報推薦を例にとって説明を行ったが、それ以外でも例えば、ユーザが情報端末から対話によって情報を取得する場合でも、応用可能である

[0152] また、各実施形態で示したインタフェース部における機能や処理は、ハードウェア若しくはソフトウェア、またはこれらの組合せによって実現することができる。

[0153] なお、上述の実施形態では、個別の事例として説明した力 S、家庭用ロボットなどの高度な機能を持つ機器は、音声対話能力、協調作業能力、情報推薦能力その他を併せて持つことができ、同時並行的に、または統合的に、ユーザへの応答方法を調整すること力 Sできる。複数の応答方法を同時に調整することによって、ユーザはより自然なコミュニケーションを取ることができるようになる。

産業上の利用可能性

[0154] 本発明では、機器とユーザとのコミュニケーションがより円滑になるので、ユーザインタフエースを有する機器全般、特に、ユーザ側の適応を促すのが効果的と考えられる家庭用ロボット、情報端末、家電機器などに有用である。

Claims

請求の範囲

[1] ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置であって、前記インタフェース部は、

ユーザの動作、状態および要求のうち少なくともいずれ力 4つを示す入力信号を、取得する入力部と、

前記入力部によって取得された入力信号を処理し、前記ユーザに関する情報を検出する入力処理部と、

前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する応答内容決定部と、

前記入力処理部における処理状態、前記入力信号から検出された前記ユーザに関する情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれ力 1つに基づいて、前記ユーザへの応答方法を調整する応答方法調整部と、前記応答内容決定部によって決定された応答内容を、前記応答方法調整部によつて調整された応答方法によって、出力する出力部とを備え、

前記入力処理部は、

前記出力部の出力に対する前記ユーザの反応を検出するものであり、かつ、前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき、前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定するよう、指示するものである

ことを特徴とするユーザ適応型装置。

[2] 請求項 1において、

当該ユーザ適応型装置は、ユーザと音声対話を行うものであり、

前記入力部は、前記ユーザの発話を音声信号として取得し、

前記入力処理部は、前記音声信号に対して音声認識処理を行い、前記ユーザの発話内容を検出し、

前記応答内容決定部は、前記入力処理部によって検出された前記ユーザの発話内容を基にして、前記ユーザへの発話内容を決定し、

前記応答方法調整部は、前記音声認識処理における認識状態を基にして、発話方法を調整する

ことを特徴とするユーザ適応型装置。

[3] 請求項 2において、

前記応答方法調整部は、前記発話方法として、発話速度、語彙およびイントネーシヨンのうち少なくともいずれか 1つを調整するものである

ことを特徴とするユーザ適応型装置。

[4] 請求項 2において、

前記応答方法調整部は、

前記発話方法として、発話速度を調整するものであり、かつ、

前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前記目標値よりも低く設定する

ことを特徴とするユーザ適応型装置。

[5] 請求項 4において、

前記応答方法調整部は、

前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を、前記目標値に近づくように、変更する

ことを特徴とするユーザ適応型装置。

[6] 請求項 2において、

前記応答方法調整部は、

ユーザの発話速度の目標値を、ユーザに応じて、決定する

ことを特徴とするユーザ適応型装置。

[7] 請求項 1において、

当該ユーザ適応型装置は、ユーザに対して動作を提供するものであり、前記入力部は、前記ユーザの状態および動作を示す信号を入力するものであり、前記入力処理部は、前記入力部に入力された信号を処理して、前記ユーザの要求を認識するものであり、前記応答内容決定部は、前記入力処理部によって認識された前記ユーザの要求に応じて、前記ユーザに提供する動作内容を決定し、

前記応答方法調整部は、前記入力部に入力された信号から、前記ユーザと当該ュ一ザ適応型装置との間の動作の協調度合を認識し、認識した動作の協調度合に応じて、動作の提供方法を調整する

ことを特徴とするユーザ適応型装置。

[8] 請求項 7において、

前記応答方法調整部は、動作の提供方法として、動作速度を調整することを特徴とするユーザ適応型装置。

[9] 請求項 1において、

当該ユーザ適応型装置は、ユーザに情報提供を行うものであり、かつ、前記ユーザの嗜好モデルを学習する機能を有しており、

前記入力部は、ユーザからの要求を示す信号を取得し、

前記入力処理部は、前記入力部によって取得された信号から、ユーザからの要求を判断し、

前記応答内容決定部は、前記入力処理部によって判断されたユーザからの要求を基にして、前記嗜好モデルを参照して、前記ユーザに提供する情報内容を決定し、前記応答方法調整部は、前記嗜好モデルの学習度合を基にして、情報の提供方法を調整する

ことを特徴とするユーザ適応型装置。

[10] 請求項 9において、

前記応答方法調整部は、情報の提供方法として、語彙、および、画面に表示するエージェントの形態のうち少なくともいずれ力、 1つを、調整する

ことを特徴とするユーザ適応型装置。

[11] ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法であって、前記ユーザの動作、状態および要求のうち少なくともいずれ力 4つを示す入力信号を、取得する第 1のステップと、

前記第 1のステップにおいて取得した入力信号を処理し、前記ユーザの情報を検出する第 2のステップと、

前記第 2のステップにおける検出結果を基にして、前記ユーザへの応答内容を決定する第 3のステップと、

前記入力信号の処理状態、前記入力信号から検出された前記ユーザの情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれか 1つに基づいて、前記ユーザへの応答方法を調整する第 4のステップと、

前記第 3のステップにおいて決定した応答内容を、前記第 4のステップにおいて調整した応答方法によって、出力する第 5のステップと、

前記第 5のステップにおける出力に対する前記ユーザの反応を検出する第 6のステップと、

前記第 6のステップにおいて検出した前記ユーザの反応に、前記第 4のステップにおいて調整した応答方法によって期待された変化がみられないとき、前記ユーザに変化を促すための応答内容を決定する第 7のステップとを備えた

ことを特徴とする制御方法。