WO2019187590A1

WO2019187590A1 - 情報処理装置、情報処理方法、プログラム

Info

Publication number: WO2019187590A1
Application number: PCT/JP2019/002812
Authority: WO
Inventors: 前田　祐児
Original assignee: ソニー株式会社
Priority date: 2018-03-29
Filing date: 2019-01-28
Publication date: 2019-10-03

Abstract

ユーザの音声による問いかけに応答する装置として、ユーザの感情を安定させ、落ち着いた発話が行われるように促す。このために、ユーザの発した音声を認識し、またユーザに関する検出情報に基づいてユーザの感情を認識する。そして音声認識結果及び感情認識結果に基づいて、ユーザの発した音声に対応する応答に、ユーザの感情が平静になるような要素が加わるようにした応答データを生成する。

Description

情報処理装置、情報処理方法、プログラム

　本技術は情報処理装置、情報処理方法、プログラムに関し、特にユーザの発話音声を認識して応答を行う技術に関する。

　ユーザの心身状況を認識する技術が知られている。例えば下記特許文献１は、ユーザの心身状況を判定する判定手段で判定されたユーザの心身状況に基づいて、提示手段による情報の提示を制御すると技術が記載されている。この場合の情報提示とは音楽、映画、ゲームなどが想定されている。

特開２００５－２３７５６１号公報

　ところで近年、ユーザの発話音声を認識し、その内容に応じた制御を行う機器が開発されている。例えば「エージェント装置」と呼ばれる機器では、ユーザの問いかけに応じて音声による応答を行ったり、ネットワーク接続された各種機器の制御を行うことができるようにされている。
　このようなエージェント装置では、ユーザの発話音声の内容を正しく認識することが重要であり、音声認識技術は研究が進められているが、正しい音声内容の認識のための要素としては、ユーザ側の問題もある。
　即ち人は、感情によって発話音声が大きく左右される。例えば感情状態によっては発話音声の起伏が激しくなったり、語調が変化したり、呂律が回らなくなったりする。このように平静でない状態での発話は、音声認識が困難となる。

　そこで本技術では、音声認識を行う場合に、ユーザに対してなるべく平静な状態で発話を促すことができるようにし、もって音声認識性能の向上をはかる。

　本技術に係る情報処理装置は、ユーザの発した音声を認識する音声認識部と、前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識部と、前記音声認識部の認識結果及び前記感情認識部の認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成部と、を備える。
　ユーザの音声による問いかけに対する応答データを生成する情報処理装置を想定する。通常は例えば音声により、ユーザの問いかけに対した応答を出力する。これに加え、ユーザの感情の認識結果により、例えばユーザが通常の感情状態でないと推定された場合は、ユーザが平静になるような応答内容や応答態様での応答出力を行う。

　上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、感情認識結果が平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が成功した場合とで、異なる応答データを生成することが考えられる。
　音声認識が成功して問いかけの内容が判定できることで、問いかけに対する回答内容を応答データに加えることができる。その上で、ユーザが平静であるか否かにより応答データを異なるようにする。

　上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、感情認識結果が平静で音声認識が失敗した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成することが考えられる。
　音声認識に失敗した場合は、例えば聞き取れなかった旨の応答を行うように応答データを生成するが、ユーザが平静であるか否かにより応答データの内容を変化させる。

　上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、感情認識結果が非平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成することが考えられる。
　即ちユーザの感情が平静でないときにおいて、音声認識が成功したか失敗したかにより、応答の内容を変化させる。

　上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、感情認識結果が平静で音声認識が成功した場合と、感情認識結果が平静で音声認識が失敗した場合と、感情認識結果が非平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成することが考えられる。
　即ちユーザの感情が平静であるか否か、及び音声認識が成功したか失敗したかの組み合わせに応じて応答の内容を変化させる。

　上記した本技術に係る情報処理装置においては、前記ユーザの周囲に人がいるか否かを検出する周囲人検出部を備え、前記応答生成部は、前記周囲人検出部の検出結果により、応答出力の態様を選択することが考えられる。
　応答出力の態様とは、例えば音声出力、画像出力、光出力、振動出力、温度変化出力、芳香出力などの別をいう。情報処理装置は、応答するユーザの周囲に他の人がいるかいないかに応じて、応答出力態様を選択する。

　上記した本技術に係る情報処理装置においては、前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択することが考えられる。
　音声応答出力の態様のうち、例えばテキストデータを音声で出力する音声出力では、その応答の内容を当該ユーザ以外の人にも聞かれてしまう。そこで周囲の人に聞かれないように、それ以外の応答態様を選択する。

　上記した本技術に係る情報処理装置においては、前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を画像で表す応答出力以外の応答出力の態様を選択することが考えられる。
　例えばテキストデータを画像で表す画像出力すると、モニタ装置の態様によっては、そのテキストデータの内容を当該ユーザ以外の人に見られてしまうことがある。そこで平静を促すような応答の場合、テキストデータの表示も避けるようにする。

　上記した本技術に係る情報処理装置においては、前記応答生成部は、前記ユーザが通話中であると判定したときは、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択することが考えられる。
　通話中であることを検出した場合は、テキストデータを音声で出力する音声出力は選択せずに、他の手法で応答を行う。

　上記した本技術に係る情報処理装置においては、前記感情認識部は、ユーザに関する検出情報として、前記ユーザを撮像した画像情報、前記ユーザの発話音声情報、前記ユーザの生体情報の少なくとも１つを用いて前記ユーザの感情を認識することが考えられる。
　例えば撮像装置、マイクロホン、各種生体センサを利用する。

　上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部が認識した感情のカテゴリーに応じて応答データの追加、修正、又は加工を行うことが考えられる。
　例えば単に平静であるか否かに加え、怒っている、悲しんでいる、喜んでいる等の感情のカテゴリーも判定し、応答処理に反映させる。

　上記した本技術に係る情報処理装置においては、前記音声認識部は、音声認識の成否の情報と、音声内容の認識結果の情報を前記応答生成部に供給することが考えられる。
　音声内容の認識結果とは、ユーザの発話音声の内容を例えばテキストデータとして示す情報である。音声認識部はこのような情報と、認識成否の情報を応答生成部に提供する。

　本技術に係る情報処理方法は、ユーザの発した音声を認識する音声認識手順と、前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識手順と、前記音声認識手順での認識結果及び前記感情認識手順での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成手順とを情報処理装置が実行する。
　本技術に係るプログラムは、上記方法の各手順の処理を情報処理装置に実行させるプログラムである。
　このような方法、プログラムにより情報処理装置による感情に応じた応答を実現する。

　本技術によれば、ユーザが音声を介してコミュニケーションするための情報処理装置において、ユーザの感情状態が平静でなく、音声を認識することが困難と見られる場合に、ユーザが平静になることを目的とした応答をすることにより、スムーズな音声認識を可能にすることができる。
　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の実施の形態のシステム構成のブロック図である。実施の形態の情報処理装置の配置形態の説明図である。実施の形態の情報処理装置の配置形態の説明図である。実施の形態の情報処理装置のハードウエア構成のブロック図である。実施の形態の音声認識及び感情状態に応じた応答例の説明図である。実施の形態の情報処理装置の第１の処理例のフローチャートである。実施の形態の情報処理装置の第２の処理例のフローチャートである。実施の形態の感情のカテゴリーに応じた応答例の説明図である。

　以下、実施の形態を次の順序で説明する。
＜１．情報処理装置を含む構成例＞
＜２．音声認識と感情認識に応じた応答データ及び応答態様の処理＞
＜３．感情カテゴリーに応じた応答データの処理＞
＜４．まとめ及び変形例＞

＜１．情報処理装置を含む構成例＞
　本開示の実施の形態としての情報処理装置を含むシステム構成例について図１で説明する。

　図１には、音声認識部１０、感情認識部１１、応答生成部１２、周囲人検出部１３、通話部１４、スイッチ部１５，１６，１７，１８，１９、音声センサ２１、画像センサ２２、生体情報センサ２３、音声出力装置３１、画像表示装置３２、通知装置３３を示している。

　このうち、実施の形態の情報処理装置１は、最小限の構成としては、破線で囲ったように音声認識部１０、感情認識部１１、応答生成部１２を備える装置とされる。
　但し情報処理装置１としては、さらに周囲人検出部１３を有する構成も想定される。
　また情報処理装置１として通話部１４を有する構成も想定される。
　また情報処理装置１として音声センサ２１、画像センサ２２、生体情報センサ２３の全部又は一部を有する場合もある。
　また情報処理装置１として音声出力装置３１、画像表示装置３２、通知装置３３の全部又は一部を有する場合もある。
　スイッチ部１５～１９は情報処理装置１に含まれる場合、含まれない場合、さらには存在しない場合の各種が考えられる。
　つまり、実施の形態の情報処理装置１は、音声認識部１０、感情認識部１１、応答生成部１２を少なくとも備える装置であればよく、多様な構成例が想定される。

　情報処理装置１はいわゆるエージェント装置としての応答データを生成する。ここでいうエージェント装置とは、ユーザの発話音声を認識し、その内容に応じた応答を返したり機器制御を行う装置としている。
　なお、以下の説明において「ユーザ」とは、当該エージェント装置に問いかけを行うユーザ、又はエージェント装置が主たる対象としているユーザを指す。このような「ユーザ」以外に他の人物が周囲に存在する場合は、それらの人についてはユーザとは言わず、「他人」「人」等と表現する。
　また、「応答データ」とは、ユーザに対する応答を行うための各種の情報を指す。例えば音声応答を行うことを想定した場合、音声出力のためのテキストデータ、テキストデータを読み上げた音声信号、応答としての音楽等の音声信号は応答データに含まれる。
　また本実施の形態では音声以外の応答出力も行うが、その場合の画像信号、画像表示の制御信号、各種出力の制御信号等も応答データに含まれる。

　図１の各部を説明する。
　音声センサ２１は、マイクロホンにより構成され、主にユーザの発話音声を集音し、音声入力信号ｓＡを出力する。もちろんマイクロホンであるため、ユーザの発話音声以外の周囲の音も集音する。但し、主に人の声を認識する目的での帯域フィルタ等が設けられることもある。
　音声センサ２１からの音声入力信号ｓＡは音声認識部１０、通話部１４に供給される。また音声入力信号ｓＡはスイッチ部１５を介して感情認識部１１にも供給可能とされる。さらに音声入力信号ｓＡはスイッチ部１６を介して周囲人検出部１３にも供給可能とされる。

　画像センサ２２は、撮像装置（カメラ）により構成され、周囲の光景を撮像して画像信号ｓＰとして出力する。この画像センサ２２は、主にユーザの顔や身体、周囲の人の存在などが撮像できるように設置される。
　画像センサ２２からの画像信号ｓＰはスイッチ部１５を介して感情認識部１１に供給可能とされる。さらに画像信号ｓＰはスイッチ部１６を介して周囲人検出部１３にも供給可能とされる。

　生体情報センサ２３はユーザの生体情報を検出する各種の生体センサを示している。
　生体情報とは、脈拍数、心拍数、心電図情報、筋電、呼吸情報（例えば呼吸の速さ、深さ、換気量など）、発汗、ＧＳＲ（皮膚電気反応）、血圧、血中酸素飽和濃度、皮膚表面温度、脳波（例えばα波、β波、θ波、δ波の情報）、血流変化、眼の状態などである。
　具体的には生体情報センサ２３は、例えば腕時計型、眼鏡型、ペンダント型などとされてユーザの身体に装着されるものや、衣服、帽子などに装着されるものなどが考えられる。また赤外線等を用いた人感センサも考えられる。
　生体情報センサ２３からの生体情報信号ｓＦはスイッチ部１５を介して感情認識部１１に供給可能とされる。さらに生体情報信号ｓＦはスイッチ部１６を介して周囲人検出部１３にも供給可能とされる。

　なお、音声センサ２１、画像センサ２２、生体情報センサ２３を示したが、エージェント装置を構成する場合に必ずしもこれらが全て備えられる必要はない。ユーザの発話音声を認識するために、エージェント装置としては、音声センサ２１は少なくとも必要となるが、画像センサ２２，生体情報センサ２３は、設けられない場合も考えられる。

　感情認識部１１と周囲人検出部１３には、センシング情報（音声入力信号ｓＡ、画像信号ｓＰ、生体情報信号ｓＦ）の内、どれか一つを送ってもよいし、複数を送ってもよい。
　また、感情認識部１１および周囲人検出部１３に送られるセンシング情報は必ずしも同じものである必要はない。
　スイッチ部１５，１６は感情認識部１１、周囲人検出部１３への入力信号のスイッチとしているが、例えばこれらスイッチ部１５，１６は制御信号ｓ１、ｓ２によりオン／オフ制御される。
　これらの制御信号ｓ１、ｓ２によるスイッチ制御は、感情認識部１１、周囲人検出部１３が行っても良いし、応答生成部１２の制御によるものでもよい。或いは外部機器からの制御でも良い。さらにスイッチ部１５，１６は特に設けられず、音声入力信号ｓＡ、画像信号ｓＰ、生体情報信号ｓＦは、常時、感情認識部１１、周囲人検出部１３に供給されるようにしてもよい。

　音声認識部１０は、ユーザの発した音声を認識する処理を行う。即ち音声認識部１０は、音声センサ２１からの音声入力信号ｓＡを解析し、ユーザの発話音声の内容を認識する。
　そして音声認識部１０は、認識した内容を示す音声認識結果Ｄ１と、認識の成否を示す音声認識成否結果Ｄ２を応答生成部１２に出力する。
　音声認識結果Ｄ１は例えばテキストデータとしてユーザの発話内容を示した情報であることが考えられる。
　音声認識成否結果Ｄ２は、例えば成否を示す１ビット信号でも良いし、認識成功の確度を示す情報でもよい。例えば認識失敗、成功確度低、成功確度高、認識成功などと段階的に示す情報とされたり、成功確度を数値で示した情報などである。
　なお、音声認識部１０による音声認識結果Ｄ１、音声認識成否結果Ｄ２は、感情認識部１１に供給されることもある。

　感情認識部１１は、ユーザに関するセンシング情報（音声入力信号ｓＡ、画像信号ｓＰ、生体情報信号ｓＦ）に基づいて、ユーザの感情を認識する処理を行う。
　感情認識部１１は、音声入力信号ｓＡによってユーザの発話音声の語調、音の強さなどを分析することで、平静状態や非平静状態を推定できる。
　また感情認識部１１は、音声認識部１０による音声認識結果Ｄ１、音声認識成否結果Ｄ２を入力し、例えば内容の形態素解析、ワード抽出等を行うことで、ユーザがどのような言葉遣いをしているかを判定し、感情状態の推定に用いることができる。音声認識成否結果Ｄ２による成否結果自体も、感情推定の一要素となり得る。
　また感情認識部１１は、画像信号ｓＰにより、ユーザの行動を解析できる。これにより落ち着いた行動か否かを判定するなどしてユーザの感情状態の推定できる。また感情認識部１１は、ユーザの目の撮像画像から、目の動き（視線方向の変化やまばたき）を判定し、落ち着いた状態か否かの判定要素とすることもできる。
　また感情認識部１１は、生体情報信号ｓＦを解析してユーザの感情状態の推定が可能である。生体情報信号ｓＦからは、例えばユーザの緊張状態や興奮状態、穏やかな状態、うとうとしている状態、快適、不快な状態などを判定できる。このような判定に応じてユーザの感情状態の推定を行うことができる。
　感情認識部１１は、これらの感情認識処理を行い、感情認識結果Ｄ３を応答生成部１２に出力する。

　なお、感情認識結果Ｄ３は、平静／非平静の２値の情報でもよいし、平静から非平静までを段階的に示した情報でもよい。
　さらには、非平静状態における感情のカテゴリーを示す情報を含むようにしてもよい。感情のカテゴリーとは、例えば喜怒哀楽などの、どのような感情状態にあるかを示すもので、例えば喜び、怒り、悲しみ、などの別をいう。

　周囲人検出部１３は、周囲に人がいるか否かを検出する処理を行う。
　周囲人検出部１３は音声入力信号ｓＡにより、ユーザの周辺に他人がいるか否かを判定する。
　また周囲人検出部１３は画像信号ｓＰから、ユーザ以外の人物が撮像されているか否かを画像解析により判定することができる。
　また周囲人検出部１３は、ユーザの生体情報信号ｓＦから、周囲の人の存在を推定できる。例えば周囲に人がいるときの生体反応モデルを基準にすることで、他人の存在の可能性を推定できる。
　周囲人検出部１３は、これらのような処理を単独又は複合的に行って、周囲の他人の存在の有無を判定し、周囲人検出結果Ｄ４を応答生成部１２に出力する。
　周囲人検出結果Ｄ４は、周囲に他人がいるか否かの２値の情報でもよいし、可能性を段階的に、或いは数値で示す情報でもよい。他人の人数の判定情報を含めてもよい。

　通話部１４は音声通話を行う部位である。
　ユーザは通話部１４の機能を用いて電話回線や所定のネットワークなどを介した通話を行うことができる。
　通話部１４は、通話中は通話中信号Ｄ５を応答生成部１２に出力し、応答生成部１２が通話中であることを認識できるようにしている。
　また通話部１４は、通話音声（通話相手の声）の音声信号ｓＨを音声出力部３１に出力することができる。
　また通話部１４は、ユーザ、通話相手およびエージェントの３者で会話する場合に、応答生成部１２より応答生成信号Ｄ６を受信し、通話相手に送信することができる。

　応答生成部１２は、音声認識部１１の認識結果（音声認識結果Ｄ１、音声認識成否結果Ｄ２）及び感情認識部１２の認識結果（感情認識結果Ｄ３）に基づいて、ユーザの発した音声に対応する応答に、ユーザの感情が平静になるような要素が加わるようにした応答データを生成する処理を行う。
　また応答生成部１２は、周囲人検出部１３からの周囲人検出結果Ｄ４により、応答データを変更したり、応答態様を設定する処理も行う。
　また応答生成部１２は、通話部１４からの通話中信号Ｄ５により、通話中である場合には、通話中ではない場合と比べて応答データを変更したり、応答態様を変化させる処理も行う。
　これらの応答生成部１２の処理の具体例については後述する。

　応答生成部１２は、応答データを例えばテキストデータとして生成したり、各種制御信号として生成する。これらの応答データに基づいた応答出力が、音声出力装置３１、画像表示装置３２、通知装置３３の一部又は全部により行われる。

　音声出力装置３１は、スピーカ及びその駆動回路（アンプ）により構成され、音声出力を行う。音声出力装置３１にはスイッチ部１７を介して応答生成部１２からの応答データに基づく音声信号や制御信号が供給される。
　音声出力装置３１は、例えば音声信号をスピーカ出力する。例えば音声出力装置３１は、応答としての音声や、音楽、電子音、環境音等を、応答生成部１２の制御に応じて音声出力する。
　なお音声出力装置３１は、応答生成部１２からの音声信号を出力するのみとしてもよいし、音源部等を備え、応答生成部１２から指示された音を発生させる装置としてもよい。
　また音声出力装置３１は通話部１４からの通話音声信号ｓＨの供給により通話音声を出力できる。

　画像表示装置３２は、スイッチ部１８を介して応答生成部１２から供給された画像データに基づく画像表示や、応答生成部１２からの指示による画像表示を行う。
　即ちユーザに対する応答として、例えば画像、文字、キャラクタ、アイコン等の表示を行うことができる装置を、画像表示装置３２として示している。例えばユーザに平静を促すイメージ画像などの表示も行う。

　通知装置３３は、ユーザに対する応答を何らかの手法で行う装置を総括的に示している。
　応答は応答内容を明示する明示的な応答に限られない。
　通知装置３３としては、例えば振動装置として、ユーザにバイブレーション知覚させる装置が考えられる。
　また通知装置３３としては、画像表示を行う以外の発光装置として、発光、各種パターンの発光、各種の色の発光などを行う装置も考えられる。
　また通知装置３３としては、照明機器として、明暗、照明色等を変化させる装置も考えられる。
　また通知装置３３としては、エアコンディショナー等として、ユーザの周囲温度を変化させる装置が考えられる。
　また通知装置３３としては、芳香剤により匂いを発したり、匂いを変化させる装置が考えられる。
　これらの通知装置３３はスイッチ部１９を介して応答生成部１２から供給された制御信号に応じて必要な動作を行う。
　これらの通知装置３３は、振動、光、照明、温度、匂いなどにより、ユーザに平静を促す応答を行うことができる。

　これらの音声出力装置３１、画像表示装置３２、通知装置３３は、例えば家庭内ネットワークシステムなどとして応答生成部１２と通信を行うことができるものであれば良い。或いは応答生成部１２と一体的に形成される装置でもよい。
　応答生成部１２は、音声出力装置３１、画像表示装置３２、通知装置３３のどの装置を用いて応答出力を行うか、即ち応答出力態様の一要素としての出力機器を選択できる。

　スイッチ部１７、１８、１９は、それぞれ制御信号ｓ３、ｓ４、ｓ５によりオン／オフ制御される。
　これらの制御信号ｓ３、ｓ４、ｓ５によるスイッチ制御は、応答生成部１２が行っても良いし、或いは外部機器からの制御でも良い。さらにスイッチ部１７，１８，１９は特に設けられず、応答生成部１２が音声出力装置３１、画像表示装置３２、通知装置３３に対する出力を選択するものとしてもよい。

　以上の図１の構成として、情報処理装置１を含むエージェント装置が実現される。
　情報処理装置１の配置形態は多様に考えられるため、それを図２，図３で例示する。なお、図２，図３で示す情報処理装置１は、音声認識部１０、感情認識部１１、応答生成部１２を有する装置、又はこれらに周囲人検出部１３又は通話部１４を加えた装置を想定している。

　図２Ａは、エージェント装置４としての機器が、センサ装置２や応答装置３とは別体に設けられる例である。
　センサ装置２とは、図１の音声センサ２１，画像センサ２２，生体情報センサ２３の全部又は一部を指す。
　応答装置３とは、図１の音声出力装置３１、画像表示装置３２、通知装置３３の全部又は一部を指す。
　エージェント装置４は、センサ装置２からのセンシング情報に基づいて応答データを生成し、応答装置３によりユーザに対する応答を実行させる。
　この場合、エージェント装置４内に情報処理装置１が配置される例としている。

　図２Ｂは、エージェント装置４がセンサ装置２と情報処理装置１を装備している例である。例えばエージェント装置４が音声センサ２１としてのマイクロホンや画像センサ２２としてのカメラを備える例などが想定される。このようなエージェント装置４が、音声出力装置３１等の応答装置３を制御する。

　図２Ｃは、応答装置３自体がエージェント装置４としての機能を備え、情報処理装置１、センサ装置２を備えている例である。例えばテレビジョン受像器、スピーカ装置等としての応答装置３が、音声センサ２１としてのマイクロホンや画像センサ２２としてのカメラを備え、ユーザの問いかけに対する応答を行うことができるようにしたものである。

　図３Ａは情報処理装置１がネットワーク５を介して通信可能なサーバ６に設けられる例である。
　この場合、エージェント装置４は通信端末として構成される。エージェント装置４はセンサ装置２からのセンシング情報を受け付けると、それをサーバ６に送信する。サーバ６では情報処理装置１により応答データを生成し、エージェント装置４に返信する。
　エージェント装置４は受信した応答データに応じて応答装置３を制御し、ユーザに対する応答出力を実行させる。

　図３Ｂは、同じく情報処理装置１がネットワーク５を介して通信可能なサーバ６に設けられる例であるが、エージェント装置４は、単なる端末ではなく、センシング及び応答も行う機器とした例である。即ちエージェント装置４はセンサ装置２、応答装置３を備える。
　エージェント装置４はセンサ装置２によりセンシング情報を取得してサーバ６に送信する。サーバ６では情報処理装置１により応答データを生成し、エージェント装置４に返信する。エージェント装置４は受信した応答データに応じて応答装置３によりユーザに対する応答出力を実行する。

　以上の各例のように、システム形態や、実際の機器の構成は多様である。もちろん以上の例示以外にも各種考えられる。
　いずれにしても本実施の形態では、音声認識部１０、感情認識部１１、応答生成部１２を少なくとも含む情報処理装置１が後述する処理を行うことで、ユーザの感情状態に応じた適切な応答を行うことができる。

　音声認識部１０、感情認識部１１、応答生成部１２を含む情報処理装置１を含む機器は、例えば、図４に示されるようなコンピュータ装置１７０として実現できる。

　図４において、コンピュータ装置１７０のＣＰＵ（Central Processing Unit）１７１は、ＲＯＭ（Read Only Memory）１７２に記憶されているプログラム、または記憶部１７８からＲＡＭ（Random Access Memory）１７３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ１７３にはまた、ＣＰＵ１７１が各種の処理を実行する上において必要なデータなども適宜記憶される。
　ＣＰＵ１７１、ＲＯＭ１７２、およびＲＡＭ１７３は、バス１７４を介して相互に接続されている。このバス１７４にはまた、入出力インタフェース１７５も接続されている。

　入出力インタフェース１７５には、キーボード、マウスなどよりなる入力部１７６、ＬＣＤ（Liquid Crystal Display）或いは有機ＥＬ（Electro-Luminescence）パネルなどよりなるディスプレイ、並びにスピーカなどよりなる出力部１７７、ハードディスクなどより構成される記憶部１７８、モデムなどより構成される通信部１７９が接続される場合がある。通信部１７９は、インターネットを含むネットワークを介しての通信処理を行う。

　入出力インタフェース１７５にはまた、必要に応じてドライブ１８０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１８１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部１７８にインストールされる。
　上述した音声認識部１０、感情認識部１１、応答生成部１２、周囲人検出部１３等をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、ネットワークや記録媒体からインストールされる。

　この記録媒体は、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク、光ディスク、光磁気ディスク、若しくは半導体メモリなどよりなるリムーバブルメディア１８１により構成される。或いは、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているＲＯＭ１７２や、記憶部１７８に含まれるハードディスクなどでも構成される。

　このようなコンピュータ装置１７０において、例えばＣＰＵ１７１がプログラムに基づく動作を行うことで音声認識部１０、感情認識部１１、応答生成部１２、周囲人検出部１３等が実現される。
　入力部１７６が音声センサ２１、画像センサ２２、生体情報センサ２３とされる場合もある。
　出力部１７７が音声出力装置３１、画像表示装置３２、通知装置３３とされる場合もある。

＜２．音声認識と感情認識に応じた応答データ及び応答態様の処理＞
　以下、実施の形態の音声認識と感情認識に応じた応答データの生成について説明し、また応答態様を変化させることについて説明する。これは主に応答生成部１２による処理の具体例となる。

　応答生成部１２は、送られてきた音声認識結果Ｄ１、音声認識成否結果Ｄ２、感情認識結果Ｄ３、周囲人検出結果Ｄ４および音声通話部からの通話中か否かを示す通話中信号Ｄ５を用いて、ユーザへの応答のための応答データを生成する。

　この際、各入力に応じて次の通り応答を生成する。図５にケースＣ１、Ｃ２，Ｃ３，Ｃ４として示している。
　このケースＣ１～Ｃ４は、音声認識結果Ｄ１、音声認識成否結果Ｄ２、感情認識結果Ｄ３に応じた各場合として、応答データの内容や応答出力態様が異なるケースである。

　ケースＣ１は、感情認識結果Ｄ３によりユーザが平静であると判定され、音声認識成否結果Ｄ２により音声認識成功と判定された場合である。
　この場合、応答生成部１２は通常の音声応答としての応答データを生成する。即ち音声認識結果Ｄ１によりユーザの問いかけ内容を把握し、その問いかけに対する応答データを生成する。応答データは問い欠けに対応する音声の応答データとする。例えば応答生成部１２は、ユーザの質問に対する回答のテキストデータ、或いはその音声データを応答データとして生成する。
　もちろんユーザが何かを依頼する問いかけを行ったような場合、例えば「明かりをつけて」と言った場合は、応答生成部１２は、音声により「わかりました」等の出力を行うとともに、通知装置３３の１つである照明装置を制御して点灯を実行させる制御も行うように、音声応答と機器制御の情報を含む応答データを生成する。
　いずれにしてもこのケースＣ１では、応答生成部１２は、ユーザの問いかけに対して返事となる音声出力を含む必要動作を実現するための応答データを生成する。

　ケースＣ２は、感情認識結果Ｄ３によりユーザが平静であると判定されたが、音声認識成否結果Ｄ２により音声認識失敗と判定された場合である。
　この場合、ユーザの発話内容がわからないため、エージェント装置４としては対応できない。そこで応答生成部１２は、音声認識に失敗した旨を通知するための応答データを生成する。具体的には聞き取れなかった旨のメッセージ音声（例えば「聞き取れなかったのでもう一度言ってくれませんか」等）を出力するための応答データを生成する。

　ケースＣ３は、感情認識結果Ｄ３によりユーザが平静ではないと判定され、一方、音声認識成否結果Ｄ２により音声認識成功と判定された場合である。
　この場合、応答生成部１２は、音声認識結果に応じた応答をするとともに、ユーザの感情状態が平静になることを目的とした応答を行うように、応答データを生成する。
　例えばユーザの問いかけに対する回答としての音声や、必要な機器制御を行うための応答データを生成するとともに、ユーザに落ち着くことを促す音声内容を含む応答データを生成する。これにより、ユーザに対して平静でないことを伝え、落ち着かせるようにする。

　ケースＣ４は、感情認識結果Ｄ３によりユーザが平静ではないと判定され、さらに音声認識成否結果Ｄ２により音声認識失敗と判定された場合である。
　この場合、応答生成部１２は、ユーザの感情状態が平静になることを目的とした応答をするように、応答データを生成する。
　例えばこの場合は、ユーザに落ち着くことを促す音声内容の応答データを生成する。これにより、ユーザに対して平静でないことを伝え、落ち着かせるようにする。特にこの場合は、聞き取れなかった旨の音声は含まないようにすることが望ましい。

　例えば以上のケースＣ１～Ｃ４のように応答生成部１２は、音声認識部１０の認識結果による応答内容を、感情認識部１１の認識結果を用いて異なるようにする。
　このケースＣ１～Ｃ４では、基本的に音声出力装置３１による音声出力としての出力態様で応答を行い、場合によっては必要な機器制御も行うことになる。

　応答生成部１２は、さらに、周囲人検出部１３から送られた周囲人検出結果Ｄ４に基づいて場合分けを行い、応答データの内容又は出力態様を異なるようにすることもできる。
　例えば、周囲人検出結果Ｄ４として周囲に応答対象のユーザ以外に人がいないとされた場合は、ケースＣ１～Ｃ４のいずれかで応答データを生成する一方、周囲に他人がいる場合は、ケースＣ１１～Ｃ１４のような応答データ生成や応答出力態様の設定を行う。

　ケースＣ１１は、感情認識結果Ｄ３によりユーザが平静であると判定され、音声認識成否結果Ｄ２により音声認識成功と判定され、かつ周囲に他人がいると判定された場合である。
　この場合、上述のケースＣ１と同様に応答データを生成する。特に音声で応答しても不都合はないからである。
　なお、ケースＣ１とは音声内容を異なるようにするなどの例も考えられる。例えば他人がいない場合は打ち解けた口調とするが、他人がいる場合は応答音声の口調を丁寧にするなどである。

　ケースＣ１２は、感情認識結果Ｄ３によりユーザが平静であると判定されたが、音声認識成否結果Ｄ２により音声認識失敗と判定され、さらに周囲に他人がいると判定された場合である。
　この場合、ケースＣ２と同様にユーザの発話内容がわからないため、エージェント装置４としては対応できない。そこで応答生成部１２は、音声認識に失敗した旨を通知するための応答データを生成する。
　但しこの場合、音声以外の出力態様で、聞き取れなかった旨のメッセージを出力するように応答データを生成する。例えば周囲の人に気づかれにくいような画像表示態様によりメッセージ表示を行う。

　ケースＣ１３は、感情認識結果Ｄ３によりユーザが平静ではないと判定され、一方、音声認識成否結果Ｄ２により音声認識成功と判定され、さらに周囲に他人がいると判定された場合である。
　この場合、応答生成部１２は、音声認識結果に応じた応答をするとともに、ユーザの感情状態が平静になることを目的とした非音声の応答を行うように、応答データを生成する。
　即ちユーザに落ち着くことを促す応答データを生成する。これは非音声の出力態様で応答を行うものとする。例えば発光、所定パターンの振動、芳香剤散布、照明、エアコン等の制御データを応答データに加える。
　発光パターンや振動により平静でないことを通知したり、照明をゆっくり落としたり、芳香剤により安らぎを与えたり、エアコンにより、より快適な温度にするなどである。
　ユーザの問いかけに対する回答としては、音声で行っても良いし、ユーザが平静でないことを考慮して文字表示等で行うようにしてもよい。また音声で出力する場合は、出力音声を、優しい口調、穏やかな口調となるような制御データを生成したり、そのような音声信号を生成したりしてもよい。

　ケースＣ１４は、感情認識結果Ｄ３によりユーザが平静ではないと判定され、さらに音声認識成否結果Ｄ２により音声認識失敗と判定され、かつ周囲に他人がいると判定された場合である。
　この場合、応答生成部１２は、ユーザの感情状態が平静になることを目的とした非音声の応答をするように、応答データを生成する。
　例えばこの場合は、ユーザに落ち着くことを促す音声以外の動作を実行させる応答データを生成する。例えば発光、所定パターンの振動、芳香剤散布、照明、エアコン等の制御データを応答データに加える
　これにより、ユーザに対して平静でないことを伝え、落ち着かせるようにする。特にこの場合は、聞き取れなかった旨の通知は含まないようにすることが望ましい。
　なお、ユーザに平静を促す応答としては、「落ち着きましょう」等のメッセージを　画像表示装置３２で表示させるという出力態様もあり得るが、このケースＣ１４の場合は、このような平静を促す内容を明示する出力は望ましくない。周囲の人に見られる可能性があるためである。

　以上のケースＣ１１～Ｃ１４のように応答生成部１２は、周囲に人がいると検出された場合は、ユーザに平静になることを目的とした応答については、音声以外の出力態様で実行するように応答データを生成する。これにより、ユーザが自尊心を傷つけられたり、他人に恥ずかしい思いを抱くことなく、平静な感情状態を取り戻すようにしむける。

　さらに応答生成部１２は、ユーザが通話中である場合には、応答データの内容又は出力態様を異なるようにすることもできる。
　例えば、通話中でなければ、応答生成部１２はケースＣ１～Ｃ４のいずれかで応答データを生成する一方、通話中はケースＣ２１～Ｃ２４のように応答データを生成する。

　ケースＣ２１は、感情認識結果Ｄ３によりユーザが平静であると判定され、音声認識成否結果Ｄ２により音声認識成功と判定され、かつ通話中と判定された場合である。
　この場合、上述のケースＣ１と同様に応答データを生成する。特に音声で応答しても不都合はないからである。もちろんケースＣ１とは異なる応答データを生成してもよい。
　なお、ユーザ、通話相手、及びエージェント装置４による三者通話も可能である。従って、ユーザの問いかけに対して、通話相手にも聞こえるように音声応答を行うことが好適となる場合が想定される。
　或いは、ユーザの補助として通話を解析するということも考えられる。その場合、通話相手に気づかれないように通話中のユーザにアドバイス等をするために、音声以外の出力態様で応答を行うように応答データを生成することも考えられる。

　ケースＣ２２は、感情認識結果Ｄ３によりユーザが平静であると判定されたが、音声認識成否結果Ｄ２により音声認識失敗と判定され、さらに通話中と判定された場合である。
　この場合、ケースＣ２と同様にユーザの発話内容がわからないため、エージェント装置４としては対応できない。そこで応答生成部１２は、音声認識に失敗した旨を通知するための応答データを生成する。但し、音声以外の出力態様で、聞き取れなかった旨のメッセージを出力する。例えば画像表示装置３２を用いてメッセージを表示するなどとする。これにより通話相手に気づかれないようにし、ユーザが通話相手に対して恥ずかしく思うことがないようにする。

　ケースＣ２３は、感情認識結果Ｄ３によりユーザが平静ではないと判定され、一方、音声認識成否結果Ｄ２により音声認識成功と判定され、さらに通話中と判定された場合である。
　この場合、応答生成部１２は、音声認識結果に応じた応答をするとともに、ユーザの感情状態が平静になることを目的とした非音声の応答を行うように、応答データを生成する。
　即ちユーザに落ち着くことを促す応答データを生成する。これは非音声の出力態様で応答を行うものとする。例えば発光、所定パターンの振動、芳香剤散布、照明、エアコン等の制御データを応答データに加える。
　ユーザの問いかけに対する回答としては、音声で行うように応答データを生成し、通話相手にも聞こえるようにする。

　ケースＣ２４は、感情認識結果Ｄ３によりユーザが平静ではないと判定され、さらに音声認識成否結果Ｄ２により音声認識失敗と判定され、かつ通話中と判定された場合である。
　この場合、応答生成部１２は、ユーザの感情状態が平静になることを目的とした非音声の応答をするように、応答データを生成する。
　例えばこの場合は、ユーザに落ち着くことを促す音声以外の動作を実行させる応答データを生成する。例えば発光、所定パターンの振動、芳香剤散布、照明、エアコン等の制御データを応答データに加える
　これにより、ユーザに対して平静でないことを伝え、落ち着かせるようにする。特にこの場合は、聞き取れなかった旨の通知は含まないようにすることが望ましい。
　なお、通話中であって、通話相手には平静を促す応答が気づかれない態様として、「落ち着きましょう」等のメッセージを　画像表示装置３２で表示させるという出力態様もあり得る。

　以上のケースＣ２１～Ｃ２４のように応答生成部１２は、通話中であるか否かにより、ユーザに平静になることを目的とした応答の内容や出力態様を変化させるように応答データを生成する。これにより、ユーザが自尊心を傷つけられたり、通話相手に対して恥ずかしい思いを抱くことなく、平静な感情状態を取り戻すようにしむける。

　なお、もちろん上記の組み合わせで、周囲に人がおらずかつ通話中でない場合（ケースＣ１～Ｃ４）、周囲に人がいる場合（ケースＣ１１～Ｃ１４）、通話中の場合（ケースＣ２１～Ｃ２４）の３つで応答態様や応答内容を切り替えることもできる。
　その場合、通話中でかつ周囲に人がいるときは、周囲に人がいる場合（ケースＣ１１～Ｃ１４）に該当するとすることが考えられる。

　以上のような各ケースに対応した情報処理装置１の第１の処理例を図６で説明する。この図６は音声認識部１０、感情認識部１１の処理による結果を受信した、応答生成部１２の処理という観点で示している。従ってこの図６の処理とともに音声認識部１０、感情認識部１１各部の処理が実行されている。
　そしてこの第１の処理例は、図５のケースＣ１，Ｃ２，Ｃ３，Ｃ４に対応する場合の処理例である。

　図６の処理は音声入力が行われるごとに開始される。
　応答生成部１２はステップＳ１００で、音声認識部１０からの音声認識結果Ｄ１及び音声認識成否結果Ｄ２を取得する。

　応答生成部１２はステップＳ１０１で、音声認識成否結果Ｄ２を確認し、音声認識部１０による音声認識が成功したか否かにより処理を分岐する。
　音声認識が成功した場合は、応答生成部１２はステップＳ１０２で、音声認識結果Ｄ１の内容を解析し、当該認識した音声はエージェント装置４に対するユーザの問いかけであって、応答が必要であるか否かを判定する。
　例えばエージェント装置４に対する問いかけではないとして応答が不要と判定した場合は、そのまま図６の処理を終える。

　一方、エージェント装置４への問いかけであり応答が必要と判定したら、応答生成部１２はステップＳ１０３に進み、応答内容を示す応答データを生成する。この時点では、例えば問いかけ内容に応答する内容としてのテキストデータを生成する。
　そして応答生成部１２はステップＳ１０４で音声認識フラグＦａ＝０とし、ステップＳ１０６に進む。
　音声認識が失敗した場合は、応答生成部１２はステップＳ１０５で音声認識フラグＦａ＝１とし、ステップＳ１０６に進む

　ステップＳ１０６で応答生成部１２は、感情認識部１１からの感情認識結果Ｄ３を取得し、ユーザの感情状態を認識する。
　そしてステップＳ１０７で応答生成部１２は、ユーザの感情状態が平静であるか否かにより処理を分岐する。
　ユーザの感情状態が平静とされた場合、応答生成部１２はステップＳ１０７からＳ１０８に進め、音声認識フラグＦａ＝０であるか否かを確認する。
　音声認識フラグＦａ＝０であれば、ステップＳ１１３に進み、応答データを出力する。即ち、ステップＳ１０３で生成した応答データとしてのテキストデータ、もしくはそのテキストデータに即した音声信号を音声出力装置３１に出力する。これにより、音声出力装置３１から応答音声が出力される。以上は、図５のケースＣ１に相当する場合である。

　ステップＳ１０８で音声認識フラグＦａ＝０ではない場合は、音声認識に失敗した場合であるため、ステップＳ１０３での応答データ生成は行われていない。そこで応答生成部１２はステップＳ１０９に進み、ユーザに再発話を要請する応答データを生成し、ステップＳ１１３で応答データを音声出力装置３１に出力する。これにより、ケースＣ２として、聞き取れなかったために再発話を要請する音声の応答が行われる。

　ステップＳ１０７でユーザが平静でないと判定された場合は、応答生成部１２はステップＳ１１０で音声認識フラグＦａ＝０であるか否かを確認する。
　音声認識フラグＦａ＝０であれば、ステップＳ１１２に進み、ステップＳ１０３で生成した回答内容を示す応答データに、平静を促す応答データを追加する。そしてステップＳ１１３で応答データを出力する。
　即ち、ステップＳ１０３で生成した応答データとしてのテキストデータ、もしくはそのテキストデータに即した音声信号を音声出力装置３１に出力するとともに、平静を促すテキストデータもしくはそのテキストデータに即した音声信号を音声出力装置３１に出力する。
　これにより、音声出力装置３１から問い合わせに対する回答とともに、平静を促す応答音声が出力される。ケースＣ３に相当する場合である。
　なお、ステップＳ１１２では、ステップＳ１０３で生成した回答内容の表現を変えたり、或いは発音する声や声の調子を変えるような応答データの変更を行っても良い。例えば通常より優しい音声になるようにするなどの応答データの変更である。

　ステップＳ１１０で音声認識フラグＦａ＝０ではない場合は、音声認識に失敗した場合であるため、応答データは生成されていない。応答生成部１２はステップＳ１１１に進み、ユーザに平静を促す応答データを生成し、ステップＳ１１３で応答データを音声出力装置３１に出力する。これにより、平静を促す応答音声が出力される。ケースＣ４に相当する場合である。

　以上の処理により、例えば図５のケースＣ１，Ｃ２，Ｃ３，Ｃ４により応答内容を変更する動作が実現される。
　なお、以上では音声出力装置３１を用いる例を述べたが、もちろん各場合に画像表示装置３２や通知装置３３を複合的に用いても良い。

　続いて図７により、情報処理装置１の第２の処理例を説明する。この図７は音声認識部１０、感情認識部１１、周囲人検出部１３の処理による結果、及び通話中信号Ｄ５を受信した、応答生成部１２の処理という観点で示している。従ってこの図７の処理とともに音声認識部１０、感情認識部１１、周囲人検出部１３、通知装置３３等の各部の処理が実行されている。
　この第２の処理例は、図５の全てのケースＣ１～Ｃ２４に対応する場合の処理例である。なお図６と同一の処理については同一のステップ番号を付し、重複説明を避ける。

　図７のステップＳ１００～Ｓ１０７までは図６と同様であるため、ステップＳ１０７以降を説明する。
　ステップＳ１０７でユーザが平静であるとされた場合、応答生成部１２はステップＳ１２６で音声認識フラグＦａ＝０であるか否かを確認する。
　音声認識フラグＦａ＝０の場合は、応答生成部１２はステップＳ１２８に進んで応答出力の態様として音声出力態様、即ち音声出力装置３１による出力を選択する。なお、画像表示装置３２や通知装置３３を複合的に用いるようにしても良い。
　そしてステップＳ１６０に進み、応答データを出力する。即ち、ステップＳ１０３で生成した応答データとしてのテキストデータ、もしくはそのテキストデータに即した音声信号を音声出力装置３１に出力する。
　これにより、音声出力装置３１から応答音声が出力される。これは、図５のケースＣ１，Ｃ１１，Ｃ２１のいずれかにあたる場合となる。

　ステップＳ１２６で音声認識フラグＦａ＝０でない場合、応答生成部１２はステップＳ１２７で感情認識フラグＦｍ＝０としてステップＳ１２３に進む。

　またステップＳ１０７でユーザが平静ではないとされた場合、応答生成部１２はステップＳ１２０で感情認識フラグＦｍ＝１とする。
　そして応答生成部１２はステップＳ１２１に進み、感情のカテゴリーを判定する。なお、この処理に関する説明については後述する。この処理は行わずに、平静か平静ではないかのみを判定するようにしてもよい。

　ステップＳ１２３で応答生成部１２は、周囲人検出部１３からの周囲人検出結果Ｄ４を取得する。そしてステップＳ１２４で応答生成部１２は、周囲に人がいるか否かにより処理を分岐する。
　また、周囲に人がいないとされた場合、応答生成部１２はステップＳ１２５で通話中信号Ｄ５を確認し、ユーザが通話中であるか否かにより処理を分岐する。

　そして周囲に人がおらず、また通話中でもない場合、応答生成部１２の処理はステップＳ１３０、Ｓ１３１で処理を分岐することになる。
　応答生成部１２はステップＳ１３０で音声認識フラグＦａを確認し、ステップＳ１３１で感情認識フラグＦｍを確認する。

　ステップＳ１３０で音声認識フラグＦａ＝０となっているのは、ユーザは平静ではないが音声認識に成功した場合である（Ｆａ＝０、Ｆｍ＝１の場合）。
　このときはステップＳ１３２でケースＣ３に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　例えば応答生成部１２はステップＳ１０３で生成した回答としての応答データに、平静を促す応答データを追加する。
　ステップＳ１０３で生成した応答データの口調を変更するようにしてもよい。
　そして応答生成部１２は応答出力態様として音声出力装置３１による音声出力を選択する。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ３で説明した内容・態様の応答出力が行われる。

　ステップＳ１３１で感情認識フラグＦｍ＝０となっているのは、ユーザは平静であるが音声認識に失敗した場合である（Ｆａ＝１、Ｆｍ＝０の場合）。
　そこで応答生成部１２はステップＳ１３３でケースＣ２に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　例えば応答生成部１２は再発話を要請するメッセージの応答データを生成し、応答出力態様として音声出力装置３１による音声出力を選択する。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ２で説明した内容・態様の応答出力が行われる。

　ステップＳ１３１で感情認識フラグＦｍ＝１となっているのは、ユーザは平静ではなくしかも音声認識に失敗した場合である（Ｆａ＝１、Ｆｍ＝１の場合）。
　そこで応答生成部１２はステップＳ１３４でケースＣ４に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　例えば応答生成部１２は平静を促す応答データを生成し、応答出力態様として音声出力装置３１による音声出力を選択する。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ４で説明した内容・態様の応答出力が行われる。

　ステップＳ１２４で周囲に人がいることが検出された場合、応答生成部１２の処理はステップＳ１４０、Ｓ１４１で処理を分岐することになる。
　応答生成部１２はステップＳ１４０で音声認識フラグＦａを確認し、ステップＳ１４１で感情認識フラグＦｍを確認する。

　ステップＳ１４０で音声認識フラグＦａ＝０となっているのは、ユーザは平静ではないが音声認識に成功した場合である（Ｆａ＝０、Ｆｍ＝１の場合）。
　このときはステップＳ１４４でケースＣ１３に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　例えば応答生成部１２はステップＳ１０３で生成した回答としての応答データに、平静を促す応答データを追加する。平静を促す応答データは、メッセージ等を出力するテキスト表現に限らず、通知装置３３の制御データとしてもよい。
　またステップＳ１０３で生成した応答データのテキスト表現を例えば優しい表現に変更するようにしてもよい。
　そして応答生成部１２は各応答データに対応する応答出力態様を設定する。例えば回答としての応答データについては、音声出力装置３１又は画像表示装置３２を選択する。平静を促す応答データについては通知装置３３による音声以外の出力を選択する。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ１３で説明した内容・態様の応答出力が行われる。

　ステップＳ１４１で感情認識フラグＦｍ＝０となっているのは、ユーザは平静であるが音声認識に失敗した場合である（Ｆａ＝１、Ｆｍ＝０の場合）。
　そこで応答生成部１２はステップＳ１４２でケースＣ１２に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　例えば応答生成部１２は再発話を要請するメッセージの応答データを生成し、応答出力態様として画像表示装置３２による画像表示を選択する。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ１２で説明した内容・態様の応答出力が行われる。

　ステップＳ１４１で感情認識フラグＦｍ＝１となっているのは、ユーザは平静ではなくしかも音声認識に失敗した場合である（Ｆａ＝１、Ｆｍ＝１の場合）。
　そこで応答生成部１２はステップＳ１４３でケースＣ１４に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　例えば応答生成部１２は平静を促す応答データとしての制御データを生成し、応答出力態様として通知装置３３を選択する。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ１４で説明した内容・態様の応答出力が行われる。

　ステップＳ１２５でユーザが通話中とされた場合、応答生成部１２の処理はステップＳ１５０、Ｓ１５１で処理を分岐することになる。
　応答生成部１２はステップＳ１５０で音声認識フラグＦａを確認し、ステップＳ１５１で感情認識フラグＦｍを確認する。

　ステップＳ１５０で音声認識フラグＦａ＝０となっているのは、ユーザは平静ではないが音声認識に成功した場合である（Ｆａ＝０、Ｆｍ＝１の場合）。
　このときはステップＳ１４４で上記同様にケースＣ２３に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ２３で説明した内容・態様の応答出力が行われる。
　なお、ここではケースＣ１３とＣ２３で同じ処理内容としたが、これらの場合に処理内容を変えるようにしてもよい。

　ステップＳ１５１で感情認識フラグＦｍ＝０となっているのは、ユーザは平静であるが音声認識に失敗した場合である（Ｆａ＝１、Ｆｍ＝０の場合）。
　そこで応答生成部１２はステップＳ１５２でケースＣ２２に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　例えば応答生成部１２は再発話を要請するメッセージの応答データを生成し、応答出力態様として画像表示装置３２による画像表示を選択する。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ２２で説明した内容・態様の応答出力が行われる。

　ステップＳ１５１で感情認識フラグＦｍ＝１となっているのは、ユーザは平静ではなくしかも音声認識に失敗した場合である（Ｆａ＝１、Ｆｍ＝１の場合）。
　そこで応答生成部１２はステップＳ１５３でケースＣ２４に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
　例えば応答生成部１２は平静を促す応答データとしての制御データを生成し、応答出力態様として通知装置３３を選択する。
　そしてステップＳ１６０で応答データを出力する。これによりケースＣ２４で説明した内容・態様の応答出力が行われる。

　以上の図７の処理例により、図５の各ケースに応じた応答内容、応答態様での応答が実行される。

　以上の図６又は図７の処理により、ユーザが音声を介してコミュニケーションするエージェント装置４として、ユーザの感情状態が平静でなく、音声認識が困難とみられる場合に、ユーザが平静になることを目的とした応答をすることにより、スムーズな音声認識を可能にすることができる。
　また、仮に音声認識に成功しても、ユーザの感情状態が平静でないと判断された場合は、以後音声認識が困難になる恐れがあることから、ユーザが平静になることを目的とした応答をすることが実現される。

　また、ユーザの感情状態を平静にする応答を、周囲に人がいる状況で音声により行うと、場合によりユーザの自尊心が傷つけられる恐れがある。
　そこで図７の処理のように、周囲に人がいる場合に、ユーザにだけわかるような応答（画像、その他通知方法）で行うことにより、ユーザのみに感情状態が平静になることを目的とした応答を行うことができる。
　また同様に、通話中も通話相手に気づかれないように、ユーザのみに感情状態が平静になることを目的とした応答を行うことができる。

　なお、図６，図７ではステップＳ１０２で応答不要とされた場合は特に処理を行わないものとしたが、その場合もステップＳ１０６に進むようにしてもよい。
　即ちエージェント装置４に対する問いかけでない場合でも、ユーザの感情に応じて、平静を促す応答を行うようにする。
　これにより、その後の問い合わせでの音声認識の成功確率を上げることができる。
　またユーザが周囲の人や通話相手に憤怒の感情を表している場合にも、それらの人に知られないように、ユーザのみに平静を促すような出力ができ、ユーザの感情が平静になることを期待できる。

＜３．感情カテゴリーに応じた応答データの処理＞
　ところで図７のステップＳ１２１として感情のカテゴリーを判定することを述べた。
　感情のカテゴリーに応じて、各ケースにおける応答データの追加・修正・変更を行うようにすることもできる。

　感情認識部１１は、ユーザの感情が平静か、平静でない場合どのカテゴリーにあるかを認識するようにする。平静でない感情状態の例としては、例えば悲嘆、歓喜、憤怒、動揺などが挙げられる。
　応答生成部１２は、このような感情のカテゴリーを含む感情認識結果Ｄ３を受信し、ステップＳ１２１での認識結果に基づいてユーザへの応答を設定する。

　図８に一例を示す。例えばスマートフォン等の携帯端末がエージェント装置４とされ、情報処理装置１を備えているものとしている。
　感情認識部１１がユーザの感情が悲嘆の状態にあると出力し、応答生成部１２が音声認識を続けることが難しいと判定した場合、応答生成部１２は例えば「どうされました、ちょっと深呼吸しましょうか」のような、直接的に感情を指摘するのではなく、婉曲してユーザが平静な感情となるような応答をするように応答データを生成する。
　これによりユーザはあたかも人間と会話しているような、穏やかなコミュニケーションを取ることができる。

　感情認識部１１がユーザの感情が歓喜の状態にあると出力した場合も、応答生成部１２は「ご機嫌よさそうですね、じっくり聞かせてくださいよ」といった、自然にユーザが落ち着いて話したくなるような応答をするように制御する。これにより、以降の音声認識がスムーズになる効果が期待できる。

　一方、音声通話時などで、感情認識部１１がユーザの感情が憤慨の状態にあると出力した場合、応答生成部１２は、音声によってユーザに通知するのではなく、例えばバイブレーションでユーザに通知する。これにより通話相手または周囲にいる他者に知られずにユーザに平静な状態を取り戻すように促すことができる。

　このように感情のカテゴリーに応じて、応答内容を追加、修正したり、応答出力態様を切り替えることで、よりユーザの感情状態に適した応答が実現できる。

　なお、ユーザの発話に対する音声認識は高い信頼度を示しているが、感情認識では平静でないと見られるものの、どのカテゴリー(歓喜、悲嘆、憤怒など)か判定できない場合、応答生成部１２は、感情状態を考慮しない、通常の音声認識の通りの応答を返すことも考えられる。
　また、ユーザの発話に対する音声認識の信頼度が高くなく、感情認識の結果、感情状態は平静か、またはどのカテゴリーにあるか判定できない場合、応答生成部１２は、例えば「ごめんなさい、もう一回言ってください。」のような謝罪しつつ再度の発話を促す応答を返すことも考えられる。

＜４．まとめ及び変形例＞
　以上の実施の形態では次のような効果が得られる。
　実施の形態の情報処理装置１は、ユーザの発した音声を認識する音声認識部１０と、ユーザに関する検出情報に基づいてユーザの感情を認識する感情認識部１１と、音声認識部１０の認識結果及び感情認識部１１の認識結果に基づいて、ユーザの発した音声に対応する応答に、ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成部１２とを備えている。
　このような実施の形態の情報処理装置１は、ユーザとの対話により応答を返すエージェント装置として、ユーザの問いかけに対する応答を行うことができるが、加えて、ユーザの感情が特別な状態にあるときに、それに応じた対応ができる。
　例えば非常に喜んでいる、悲しんでいる、怒っている、などの特別な感情状態にあるときに、ユーザに平静に戻ることを促す出力が行われるようにしている。これによりユーザを落ち着かせ、平静な発話を促す。また興奮した行動を取らないように促し、適切な生活状況が維持されるようにすることができる。従ってユーザの補助を行う機器として適切な対応となる。
　そして、ユーザが興奮した状態にあるときは、早口になったり、声の起伏が激しかったりするなどして、音声が聞き取りにくくなる。つまりユーザ音声を認識する情報処理装置１としては、ユーザが興奮状態にあるときは、音声認識の成功率が低下する。そこでユーザが上記のような特別な感情状態にあるときに平静になるように促すことで、ユーザを平静な発話を行う状態となるように導き、音声認識の成功率が上がるようにする。もって、エージェント装置４としてのレスポンスも良好になり、装置性能が実質的に向上するという効果がある。

　実施の形態では応答生成部１２は、感情認識部１１の認識結果が平静であるか否かと、音声認識部１０の音声認識が成功したか否かを確認するようにしている。
　そして応答生成部１２は、感情認識結果が平静で音声認識が成功した場合（ケースＣ１）と、感情認識結果が非平静で音声認識が成功した場合（ケースＣ３）とで、異なる応答データを生成する例を述べた。
　つまり音声認識が成功して問いかけの内容が判定できる場合、問いかけに対する回答内容を応答データに加えることができる。その上で、ユーザが平静であるか否かにより応答データを異なるようにする。
　例えばユーザが平静ではないと認識したときには、問い合わせに対応する内容とともに、平静になるように促す言葉を加え、ともに音声で出力する。これにより、ユーザの感情状態に応じた対応が可能となる。

　また実施の形態では応答生成部１２は、感情認識結果が平静で音声認識が失敗した場合（ケースＣ２）と、感情認識結果が非平静で音声認識が失敗した場合（ケースＣ４）とで、異なる応答データを生成する例を述べた。
　つまり音声認識に失敗した場合は、例えば聞き取れなかった旨の応答を行うように応答データを生成するが、ユーザが平静であるか否かにより応答データの内容を変化させる。
　例えばユーザが平静ではないと認識したときには、聞き取れないと指摘することよりも、平静になるように促す言葉を応答データとして生成し、音声で出力する。これにより、ユーザの感情状態に応じた対応を行う。
　特にユーザの言葉を聞き取れない場合とは、ユーザが興奮した語調となっていることが原因である場合も多い。そこで、ユーザに平静を促すようにするだけでも、言葉が聞き取りやすくなることが期待できる。
　また、感情が高ぶっているときに、聞き取れなかったことを敢えて指摘しないということも、ユーザを落ち着かせるという目的に沿って好適である。

　また実施の形態では応答生成部１２は、感情認識結果が非平静で音声認識が成功した場合（ケースＣ３）と、感情認識結果が非平静で音声認識が失敗した場合（ケースＣ４）とで、異なる応答データを生成する例を述べた。
　即ちユーザの感情が平静でないときにおいて、音声認識が成功したか失敗したかにより、応答の内容を変化させる。
　例えばユーザが平静ではないと認識したときには、聞き取れた場合は、その内容に対する応答とともに、ユーザに落ち着きを促す言葉を加える。聞き取れなかった場合は、聞き取れないと指摘することよりも、平静になるように促す言葉のみを応答データとして生成する。例えばこれのように応答データを設定し、音声で出力する。これにより、ユーザの感情が非平静のときに、音声内容を聞き取れたか否かに応じた対応を行うことができる。
　特にユーザの問いかけを聞き取れた場合は、それに対する応答も適切に行うことで、ユーザを平静に促すためには好適となる。
　またユーザの言葉を聞き取れない場合とは、上述もしたが、ユーザが興奮した語調となっていることが原因である場合も多いため、ユーザに平静を促すようにするだけでも、言葉が聞き取りやすくなることが期待できる。また、感情が高ぶっているときに、聞き取れなかったことを指摘しないことも、ユーザを落ち着かせるという目的に沿って好適である。

　実施の形態では応答生成部１２は、感情認識結果が平静で音声認識が成功した場合（ケースＣ１）と、感情認識結果が平静で音声認識が失敗した場合（ケースＣ２）と、感情認識結果が非平静で音声認識が成功した場合（ケースＣ３）と、感情認識結果が非平静で音声認識が失敗した場合（ケースＣ４）とで、異なる応答データを生成する例を述べた。
　即ちユーザの感情が平静であるか否か、及び音声認識が成功したか失敗したかの組み合わせに応じて応答の内容を変化させる。
　これによりユーザの感情状態と、ユーザの問いかけを認識できたか否かの組み合わせの状況を想定して、それぞれ適切な応答を情報処理装置１が実行できる。

　実施の形態の情報処理装置１は、ユーザの周囲に人がいるか否かを検出する周囲人検出部１３を備え、応答生成部１２は、周囲人検出部１３の検出結果により、応答出力の態様を選択する例を述べた（ケースＣ１１～Ｃ１４、図７参照）。なお応答出力の態様とは、例えば音声出力、画像出力、光出力、振動出力、温度変化出力、芳香出力などの別である。
　これによりユーザの周囲に人がいるかいないかの状況に応じて、ユーザに応答を表現できる。例えばユーザに平静を促す場合に、単に音声で呼びかけると、周りに人がいる場合、そのユーザが恥ずかしい思いを抱いたり、自尊心を傷つけてしまう可能性がある。そこで、周囲の人に知られないような態様で、当該ユーザに対する応答を伝える。当該ユーザにのみわかるように伝えることで、当該ユーザにとっても感情を高ぶらせずに自然に応答を受け止めることができる。

　実施の形態では、応答生成部１２は、周囲人検出部１３の検出結果によりユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択することを述べた。
　音声応答出力の態様のうち、例えばテキストデータを音声で出力する音声出力では、その応答の内容を当該ユーザ以外の人にも聞かれてしまう。そこで周囲の人に聞かれないように、それ以外の応答態様を選択する。
　これにより、周囲の人には、当該ユーザに対する応答、例えば「落ち着きましょう」等の平静を促す言葉が認識されないようにすることができ、ユーザの自尊心を傷つけたり、恥ずかしい思いをしたりすることをなくすことができる。
　なおテキストデータを表現しない音、例えば平静を促すための特定の音や音楽を出力することは、周囲に人がいる場合でも選択できる応答出力の態様と考えることができる。

　実施の形態では、応答生成部１２は、周囲人検出部１３の検出結果によりユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を画像で表す応答出力以外の応答出力の態様を選択する例を挙げた。
　例えばテキストデータを画像で表す画像出力すると、モニタ装置の態様によっては、そのテキストデータの内容を当該ユーザ以外の人に見られてしまう。そこで平静を促すような応答の場合、テキストデータの表示も避けるようにする。
　これも同様に、周囲の人に、当該ユーザに対する例えば「落ち着きましょう」等の平静を促す言葉が認識されないようにすることができる。
　もちろんテキストデータを表現しない画像、例えば平静を促すための特定の画像を出力することは、周囲に人がいる場合でも選択できる応答出力の態様と考えることができる。

　実施の形態では、応答生成部１２は、ユーザが通話中であると判定したときは、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する例を述べた（ケースＣ２１～Ｃ２４、図７参照）。
　通話中は、音声で応答すると通話相手に聞こえてしまう可能性もあり、また当該ユーザにとっても、通話中に話しかけられるのは認識しづらい。或いはうるさく感じてしまう。このため、音声で「落ち着きましょう」等の平静を促す言葉を出力すると、逆効果となることもある。そこで、ユーザが興奮しているなど特別な感情にあるときには、音声以外の態様で、平静を促すような応答を行うようにする。これにより、通話相手にも気づかれず、ユーザ本人にも素直に受け止めやすい応答を行うことができる。

　実施の形態の感情認識部１１は、ユーザに関する検出情報として、ユーザを撮像した画像情報（画像信号ｓＰ）、ユーザの発話音声情報（音声入力信号ｓＡ）、ユーザの生体情報（生体情報信号ｓＦ）の少なくとも１つを用いてユーザの感情を認識する例を挙げた。
　画像情報、発話音声情報、生体情報の少なくとも１つを用いれば、ユーザの感情状態が平静であるか否かを推定できる。特に複合的に用いることで、例えば怒っている状態、悲しんでいる状態、非常に喜んでいる状態などは的確に認識できる。これによって適切な感情推定を行うことができる。

　実施の形態では、応答生成部１２は、感情認識部１１が認識した感情のカテゴリーに応じて応答データの追加、修正、又は加工を行う例を述べた（図８参照）。
　これにより感情のカテゴリーに応じた応答が可能となり、よりユーザの状態に適応したレスポンスを返すことができる。

　実施の形態では、音声認識部１０は、音声認識の成否の情報（音声認識成否結果Ｄ２）と、音声内容の認識結果の情報（音声認識結果Ｄ１）を応答生成部１２に供給する例を述べた。
　これにより応答生成部１２は、音声認識結果を適切に判定できる。

　実施の形態のプログラムは、上述の音声認識部１０、感情認識部１１、及び図６又は図７で示した応答生成部１２の処理を、例えばＣＰＵ、ＤＳＰ等、或いはこれらを含むデバイスとして情報処理装置１に実行させるプログラムである。
　即ち実施の形態のプログラムは、ユーザの発した音声を認識する音声認識処理と、ユーザに関する検出情報に基づいてユーザの感情を認識する感情認識処理と、音声認識処理での認識結果及び感情認識処理での認識結果に基づいて、ユーザの発した音声に対応する応答に、ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成処理とを情報処理装置に実行させるプログラムである。
　このようなプログラムにより、本開示の情報処理装置１を実現できる。即ち音声認識部１０、感情認識部１１、応答生成部１２としての機能を備えた装置である。

　このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのＨＤＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記録しておくことができる。
　あるいはまた、フレキシブルディスク、ＣＤ－ＲＯＭ(Compact Disc Read Only Memory)、ＭＯ(Magnet optical)ディスク、ＤＶＤ(Digital Versatile Disc)、ブルーレイディスク（Blu-ray Disc（登録商標））、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
　また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。

　またこのようなプログラムによれば、実施の形態の情報処理装置１の広範な提供に適している。例えばパーソナルコンピュータ、携帯型情報処理装置、携帯電話機、ゲーム機器、ビデオ機器、ＰＤＡ（Personal Digital Assistant）等にプログラムをダウンロードすることで、当該パーソナルコンピュータ等を、本開示の情報処理装置１とすることができる。
　また対話型ロボット、家電製品などの各種の機器におけるＣＰＵを当該プログラムにより動作させることで、実施の形態の情報処理装置１を実現できる。

　なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

　なお本技術は以下のような構成も採ることができる。
　（１）
　ユーザの発した音声を認識する音声認識部と、
　前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識部と、
　前記音声認識部の認識結果及び前記感情認識部の認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成部と、を備えた
　情報処理装置。
　（２）
　前記応答生成部は、
　前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
　感情認識結果が平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が成功した場合とで、異なる応答データを生成する
　上記（１）に記載の情報処理装置。
　（３）
　前記応答生成部は、
　前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
　感情認識結果が平静で音声認識が失敗した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成する
　上記（１）又は（２）に記載の情報処理装置。
　（４）
　前記応答生成部は、
　前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
　感情認識結果が非平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成する
　上記（１）乃至（３）のいずれかに記載の情報処理装置。
　（５）
　前記応答生成部は、
　前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
　感情認識結果が平静で音声認識が成功した場合と、
　感情認識結果が平静で音声認識が失敗した場合と、
　感情認識結果が非平静で音声認識が成功した場合と、
　感情認識結果が非平静で音声認識が失敗した場合とで、
　異なる応答データを生成する
　上記（１）乃至（４）のいずれかに記載の情報処理装置。
　（６）
　前記ユーザの周囲に人がいるか否かを検出する周囲人検出部を備え、
　前記応答生成部は、前記周囲人検出部の検出結果により、応答出力の態様を選択する
　上記（１）乃至（５）のいずれかに記載の情報処理装置。
　（７）
　前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する
　上記（６）に記載の情報処理装置。
　（８）
　前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を画像で表す応答出力以外の応答出力の態様を選択する
　上記（６）又は（７）に記載の情報処理装置。
　（９）
　前記応答生成部は、前記ユーザが通話中であると判定したときは、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する
　上記（１）乃至（８）のいずれかに記載の情報処理装置。
　（１０）
　前記感情認識部は、ユーザに関する検出情報として、前記ユーザを撮像した画像情報、前記ユーザの発話音声情報、前記ユーザの生体情報の少なくとも１つを用いて前記ユーザの感情を認識する
　上記（１）乃至（９）のいずれかに記載の情報処理装置。
　（１１）
　前記応答生成部は、前記感情認識部が認識した感情のカテゴリーに応じて応答データの追加、修正、又は加工を行う
　上記（１）乃至（１０）のいずれかに記載の情報処理装置。
　（１２）
　前記音声認識部は、音声認識の成否の情報と、音声内容の認識結果の情報を前記応答生成部に供給する
　上記（１）乃至（１１）のいずれかに記載の情報処理装置。
　（１３）
　ユーザの発した音声を認識する音声認識手順と、
　前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識手順と、
　前記音声認識手順での認識結果及び前記感情認識手順での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成手順と、
　を情報処理装置が実行する情報処理方法。
　（１４）
　ユーザの発した音声を認識する音声認識処理と、
　前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識処理と、
　前記音声認識処理での認識結果及び前記感情認識処理での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成処理と、
　を情報処理装置に実行させるプログラム。

　１…情報処理装置、２…センサ装置、３…応答装置、４…エージェント装置、５…ネットワーク、６…サーバ、１０…音声認識部、１１…感情認識部、１２…応答生成部、１３…周囲人検出部、１４…通話部、１５，１６，１７，１８，１９…スイッチ部、２１…音声センサ、２２…画像センサ、２３…生体情報センサ、３１…音声出力装置、３２…画像表示装置、３３…通知装置

Claims

　ユーザの発した音声を認識する音声認識部と、
　前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識部と、
　前記音声認識部の認識結果及び前記感情認識部の認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成部と、を備えた
　情報処理装置。
　前記応答生成部は、
　前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
　感情認識結果が平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が成功した場合とで、異なる応答データを生成する
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
　感情認識結果が平静で音声認識が失敗した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成する
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
　感情認識結果が非平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成する
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
　感情認識結果が平静で音声認識が成功した場合と、
　感情認識結果が平静で音声認識が失敗した場合と、
　感情認識結果が非平静で音声認識が成功した場合と、
　感情認識結果が非平静で音声認識が失敗した場合とで、
　異なる応答データを生成する
　請求項１に記載の情報処理装置。
　前記ユーザの周囲に人がいるか否かを検出する周囲人検出部を備え、
　前記応答生成部は、前記周囲人検出部の検出結果により、応答出力の態様を選択する
　請求項１に記載の情報処理装置。
　前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する
　請求項６に記載の情報処理装置。
　前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を画像で表す応答出力以外の応答出力の態様を選択する
　請求項６に記載の情報処理装置。
　前記応答生成部は、前記ユーザが通話中であると判定したときは、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する
　請求項１に記載の情報処理装置。
　前記感情認識部は、ユーザに関する検出情報として、前記ユーザを撮像した画像情報、前記ユーザの発話音声情報、前記ユーザの生体情報の少なくとも１つを用いて前記ユーザの感情を認識する
　請求項１に記載の情報処理装置。
　前記応答生成部は、前記感情認識部が認識した感情のカテゴリーに応じて応答データの追加、修正、又は加工を行う
　請求項１に記載の情報処理装置。
　前記音声認識部は、音声認識の成否の情報と、音声内容の認識結果の情報を前記応答生成部に供給する
　請求項１に記載の情報処理装置。
　ユーザの発した音声を認識する音声認識手順と、
　前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識手順と、
　前記音声認識手順での認識結果及び前記感情認識手順での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成手順と、
　を情報処理装置が実行する情報処理方法。
　ユーザの発した音声を認識する音声認識処理と、
　前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識処理と、
　前記音声認識処理での認識結果及び前記感情認識処理での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成処理と、
　を情報処理装置に実行させるプログラム。