JPWO2016158792A1

JPWO2016158792A1 - 情報処理装置、制御方法、およびプログラム

Info

Publication number: JPWO2016158792A1
Application number: JP2017509929A
Authority: JP
Inventors: 淳己大村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-31
Filing date: 2016-03-25
Publication date: 2018-02-01
Anticipated expiration: 2036-03-25
Also published as: CN107408028A; WO2016157658A1; US10776070B2; US20180107445A1; EP3279791A1; WO2016158792A1; CN107408028B; JP6760267B2; EP3279791A4

Abstract

現在の周辺環境に応じて適切な応答出力方法を決定することで、音声認識システムの利便性を向上することが可能な情報処理装置、制御方法、およびプログラムを提供する。ユーザの発話に対する応答を生成し、現在の周辺環境に応じて応答出力方法を決定し、前記決定された応答出力方法で前記生成された応答を出力するよう制御する。

Description

本開示は、情報処理装置、制御方法、およびプログラムに関する。

従来から、ユーザの発話に対して音声認識・意味解析を行い、音声により応答する技術の開発が行われている。特に昨今の音声認識アルゴリズムの進歩とコンピュータ技術の発展により、音声認識処理を実用的な時間で行うことが可能となり、音声を用いたＵＩ（ユーザインタフェース）がスマートフォンやタブレット端末等において普及してきている。

例えばスマートフォンやタブレット端末等に搭載された音声ＵＩのアプリケーションでは、ユーザの音声による質問に対して音声で応答したり、ユーザの音声による指示に対して対応する処理を実行したりすることが可能となる。

特開２０１４−１３２３９６号公報

しかしながら、声を発するのが好ましくない環境や騒音が大きい環境においては、音声ＵＩの使い勝手が悪かった。例えば上記特許文献１では、マナーモードにセットされた携帯端末に着信があると、相手側の音声をテキストに変換してユーザに提示し、ユーザがテキストで応答すると、そのテキストを相手側には音声変換して伝えることで、疑似的な音声電話のやり取りを可能とする携帯端末システムが提案されている。これによれば、声を発するのが好ましくない環境や騒音が大きい環境においても、音声電話を行う携帯端末の使い勝手が向上される。

ただし、上記携帯端末システムによる音声−テキスト変換による疑似的な音声電話のやり取りは、予めマナーモードに設定されている際に適用されるものであって、その時のユーザ状況や環境に応じて自動的に設定されるものではない。

そこで、本開示では、現在の周辺環境に応じて適切な応答出力方法を決定することで音声認識システムの利便性を向上することが可能な情報処理装置、制御方法、およびプログラムを提案する。

本開示によれば、ユーザの発話に対する応答を生成する応答生成部と、現在の周辺環境に応じて応答出力方法を決定する決定部と、前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、を備える情報処理装置を提案する。

本開示によれば、ユーザの発話に対する応答を生成することと、現在の周辺環境に応じて応答出力方法を決定することと、前記決定された応答出力方法で前記生成された応答を出力するよう出力制御部により制御することと、を含む制御方法を提案する。

本開示によれば、コンピュータを、ユーザの発話に対する応答を生成する応答生成部と、現在の周辺環境に応じて応答出力方法を決定する決定部と、前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、として機能させるプログラムを提案する。

以上説明したように本開示によれば、現在の周辺環境に応じて適切な応答出力方法を決定することで音声認識システムの利便性を向上することが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態による音声認識システムの概要を説明するための図である。本実施形態による情報処理装置の構成の一例を示す図である。本実施形態による音声認識システムの動作処理を示すフローチャートである。本実施形態によるサブディスプレイが設けられている情報処理装置の一例を示す図である。本実施形態による応答出力を通信端末から行う旨をサブディスプレイで通知する場合について説明する図である。本実施形態による出力許容レベルを示す表示例を示す図である。本実施形態の他の例による情報処理装置の構成の一例を示す図である。本実施形態の他の例による通知処理を示すフローチャートである。本実施形態の他の例によるPublic通知の方法を説明する図である。本実施形態の他の例によるPrivate通知の方法を説明する図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、説明は以下の順序で行うものとする。
１．本開示の一実施形態による音声認識システムの概要
２．構成
３．動作処理
４．応答出力例
４−１．音声による応答出力
４−２．表示による応答出力
４−３．機器連携による応答出力
４−４．動的な応答出力
４−５．出力許容レベルの通知
５．複数ユーザ環境下における出力
６．まとめ

＜＜１．本開示の一実施形態による音声認識システムの概要＞＞
本開示の一実施形態による音声認識システムは、ユーザの発話に対して音声認識・意味解析を行い、音声により応答を行う基本機能を有する。以下、図１を参照して本開示の一実施形態による音声認識システムの概要について説明する。

図１は、本開示の一実施形態による音声認識システムの概要を説明するための図である。図１に示す情報処理装置１は、ユーザの発話に対して音声認識・意味解析を行い、ユーザへの応答を音声により出力することが可能な音声ＵＩエージェント機能を有する。情報処理装置１の外観は特に限定しないが、例えば図１に示すような円柱形状であってもよく、部屋の床やテーブルの上等に設置される。また、情報処理装置１には、ＬＥＤ（Light Emitting Diode）等の発光素子により形成された発光部１８が側面の水平方向中央領域を囲むよう帯状に設けられている。情報処理装置１は、発光部１８の全体を光らせたり、一部を光らせたりすることで、ユーザに対して情報処理装置１の状態を知らせることが可能である。例えば情報処理装置１は、ユーザと対話している際は発光部１８においてユーザの方向すなわち発話者方向を一部光らせることで、図１に示すようにユーザに視線を向けているように見せることができる。また、情報処理装置１は、応答生成中やデータ検索中は発光部１８で光が側面上を回っているように制御することで、処理中であることをユーザに知らせることができる。

ここで、従来、音声ＵＩの応答は一意に音声出力により行われていた。しかしながら、時間帯が夜間であったり、ユーザの周辺で子供が寝ていたりする場合には音声による応答出力が好ましくない。また、騒音が大きい環境においても、音声による応答出力は好ましくない。

そこで、本開示による一実施形態による音声認識システムでは、ユーザの現在の状態に応じて、適切な応答出力方法を決定することで、音声認識システムの利便性を向上させることを可能とする。

具体的には、情報処理装置１は、例えば図１に示すように壁２０に画像を投影して表示する機能を有し、夜の時間帯やユーザの近くで赤ちゃんが寝ている場合には応答をテキスト化して壁２０に投影する出力方法に自動的に切り替え、音声による応答出力を回避し、音声による応用出力が好ましくない環境において適切な応答を行うことができる。図１に示す例では、ユーザの発話「明日は晴れるかな？」に対して、情報処理装置１が、認識した発話内容を示す発話内容画像２１ａと、テキスト化した応答「明日は晴れるようですよ」を示す応答画像２１ｂと、応答内容に付随する応答関連画像２１ｃを壁２０に投影している。これによりユーザは、自身の発話が情報処理装置１に正しく認識されたことを把握し、また、当該発話に対する応答を目視で認識することができる。

以上、本開示による音声認識システムの概要について説明した。なお情報処理装置１の形状は図１に示す円柱形状に限定されず、例えば立方体、球体、多面体等であってもよい。続いて、本開示の一実施形態による音声認識システムを実現する情報処理装置１の基本構成および動作処理について順次説明する。

＜＜２．基本構成＞＞
図２は、本実施形態による情報処理装置１の構成の一例を示す図である。図２に示すように、情報処理装置１は、制御部１０、通信部１１、マイクロホン１２、スピーカ１３、カメラ１４、測距センサ１５、投影部１６、記憶部１７、および発光部１８を有する。

（制御部１０）
制御部１０は、情報処理装置１の各構成を制御する。制御部１０は、ＣＰＵ（Central
Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、および不揮発性メモリを備えたマイクロコンピュータにより実現される。また、本実施形態による制御部１０は、図２に示すように、音声認識部１０ａ、意味解析部１０ｂ、応答生成部１０ｃ、レベル算出部１０ｄ、決定部１０ｅ、および出力制御部１０ｆとしても機能する。

音声認識部１０ａは、情報処理装置１のマイクロホン１２により収音されたユーザの音声を認識し、文字列への変換を行い、発話テキストを取得する。また、音声認識部１０ａは、音声の特徴に基づいて声を出している人を識別したり、音声の発生源すなわち発話者の方向を推定したりすることも可能である。

意味解析部１０ｂは、音声認識部１０ａにより取得された発話テキストに対して自然言語処理等を用いて意味解析を行う。意味解析の結果は、応答生成部１０ｃに出力される。

応答生成部１０ｃは、意味解析結果に基づいて、ユーザの発話に対する応答を生成する。例えば応答生成部１０ｃは、ユーザの発話が「明日の天気」を求めるものである場合、ネットワーク上の天気予報サーバから「明日の天気」に関する情報を取得し、応答を生成する。

レベル算出部１０ｄは、現在の周辺環境に基づいて、応答の出力許容レベルを算出する。本明細書において、応答の出力許容レベルとは、ユーザに許容される（あるいはユーザにとって好ましい）応答出力の度合いを示すものであって、例えば音声出力が好ましい環境では出力許容レベルが高く算出され、音声出力が好ましくなく、表示出力が好ましい環境では出力許容レベルが低く算出される。また、表示出力が好ましい環境において、ユーザ周辺の環境に応じて表示内容の制限や表示装置の選択、または輝度制限等が望まれる状況の場合、さらに出力許容レベルが低く算出される。一方、音声出力が好ましい環境においても、ユーザ周辺の環境に応じて音量を押さえる必要がある場合には出力許容レベルが低く算出され、一方、音量を上げる必要がある場合には出力許容レベルが高く算出される。また、本実施形態による「出力許容レベル」は、所謂マナーモードレベルと称されてもよい。この場合、音声出力が好ましい環境ではマナーモードレベルが低く算出され、音声出力は好ましくなく、表示出力が好ましい環境ではマナーモードが高く算出される。

また、周辺環境（すなわちシステムの利用環境）を判断するには様々な要素が存在するため、レベル算出部１０ｄは、以下に説明する様々な要素の少なくとも１以上に応じて現在の周辺環境を判断して適切な出力許容レベルを算出する。

・時間帯
レベル算出部１０ｄは、時間帯に応じて出力許容レベルを算出してもよい。例えば夜間においては、既に就寝している人や隣家への配慮をする必要があるため、レベル算出部１０ｄは出力許容レベルを低く算出する。時間帯に応じた出力許容レベルは、ユーザまたはシステムが予め設定してもよい。また、時間帯は、情報処理装置１に内蔵の時計部（不図示）から取得されてもよいし、ネットワーク上の所定サーバから取得されてもよい。

・外部音源の存在
レベル算出部１０ｄは、外部音源の存在に応じて出力許容レベルを算出してもよい。例えば、ＴＶ、ラジオ、音楽スピーカ、工事騒音などの外部音源が存在する環境では、音声による応答出力は外部音源の存在を邪魔してしまうため好まれない。したがってレベル算出部１０ｄは、出力方法が「表示」に切り替えられるよう、出力許容レベルを低く算出する。また、レベル算出部１０ｄは、外部音源が存在する場合であっても重要度が高い応答の場合は、出力許容レベルを高く算出し、外部音源にかき消されないよう応答出力の音量を上げようにしてもよい。なお外部音源には、音声ＵＩを介さない人同士の会話や電話による会話も含まれる。外部音源の存在は、情報処理装置１に設けられたマイクロホン１２により収音された音声信号に基づいて検知される。また、マイクロホン１２には情報処理装置１自身が発する音声（自発音）が入力されてしまう場合もあるが、自発音は例えばエコーキャンセルによりキャンセルすることが可能であり、制御部１０は純粋な外部音源だけを検知することができる。

・ユーザ環境
レベル算出部１０ｄは、対象者であるユーザ周辺の様子（すなわちユーザ環境）に応じて出力許容レベルを算出してもよい。例えばユーザの付近で人（赤ちゃんを含む）が寝ている際は、音声による出力は好ましくない環境であるため、レベル算出部１０ｄは、出力方法が「表示」に切り替えられるよう出力許容レベルを低く算出する。また、表示出力する際に表示装置の明るさで寝ている人に迷惑をかけないために、表示装置の輝度を落とすよう、レベル算出部１０ｄは出力許容レベルをさらに低く算出してもよい。なおレベル算出部１０ｄは、情報処理装置１の照度センサ（不図示）により検知された部屋の照度もユーザ周辺の様子として取得し、出力許容レベルを算出してもよい。

また、家庭空間に情報処理装置１が設置され、客人等の非登録ユーザがユーザ周辺に存在する場合、レベル算出部１０ｄは、応答内容のプライバシーを考慮して、音声ではなく表示による出力が行われるよう出力許容レベルを低く算出する。また、プライバシー保護を重視する場合、レベル算出部１０ｄは、壁２０への投影による表示ではなく、ユーザが所持するスマートフォン等の通信端末に表示させる出力方法に切り替えるよう出力許容レベルをさらに低く算出する。ユーザ周辺の様子は、情報処理装置１に設けられたマイクロホン１２、およびカメラ１４等により取得され得る。

・ユーザの様子
レベル算出部１０ｄは、ユーザの様子に応じて出力許容レベルを算出してもよい。例えばユーザが小声で発話したときは、音声ＵＩからも小声で返答されることが期待され、大声が適切でない環境であると判断されるため、レベル算出部１０ｄは出力許容レベルを低く算出する。なお小声が否かの判別は、ユーザの普段の発話音量と比較して行われてもよいし、ユーザによる口元に手を添える等の動作に基づいて行われてもよい。ユーザの様子は、情報処理装置１に設けられたマイクロホン１２、およびカメラ１４等により取得され得る。また、レベル算出部１０ｄは、音声コマンド、ジェスチャー、本体操作（ハードウェアボタン（不図示）の操作等）、またはリモートコントローラ（不図示）操作等によりユーザ自身が明示的に出力許容レベルを指定した場合、これに基づいて出力許容レベルを算出してもよい。

・ユーザの位置
レベル算出部１０ｄは、情報処理装置１に対するユーザの位置に応じて出力許容レベルを算出してもよい。例えばユーザの位置が情報処理装置１に近い場合、応答出力の音量を下げてもユーザには聞こえるため、レベル算出部１０ｄは出力許容レベルを低く算出してもよい。このように音量を下げることで、近くに居る対象ユーザには聞こえるが、離れた場所に居る他の人物には聞こえ難くなり、応答の音漏れを軽減することができる。情報処理装置１に対するユーザの位置は、例えば情報処理装置１に設けられた測距センサ１５により取得され得る。

・アクセスシビリティの考慮
レベル算出部１０ｄは、アクセスシビリティを考慮して出力許容レベルを算出してもよい。例えば、ユーザが耳に障害を持っていたり、老人であったり、聞き返しが多い場合、レベル算出部１０ｄは、音声ではなく表示で応答を出力するよう、出力許容レベルを低く算出する。これにより、ユーザはストレスなく音声ＵＩを利用することができる。一方、視力が悪いユーザや、通常掛けている眼鏡を外しているユーザの場合、レベル算出部１０ｄは、表示ではなく音声で応答出力されるよう出力許容レベルを高く算出してもよい。アクセスシビリティを考慮する際に用いられるユーザの身体的特徴に関する情報は、例えば記憶部１７から取得され得る。

以上、周辺環境を判断する際の要素について説明した。レベル算出部１０ｄは、上記各要素の少なくとも１以上に基づいて、現在の周辺環境に適切な出力許容レベルを算出する。また、レベル算出部１０ｄは、要素毎に算出した出力許容レベルに重み付けを行った上で加算した和を、最終的な出力許容レベルとして算出してもよい。

決定部１０ｅは、現在の周辺環境に応じて応答出力方法を決定する。例えば決定部１０ｅは、レベル算出部１０ｄにより算出された出力許容レベルに基づいて応答出力方法を決定する。応答出力方法は、例えば音声による出力方法または画像表示（投影による画像表示を含む）による出力方法が想定され、また、音声出力時における音量や指向性、表示出力時における表示装置の選択（投影部１６（メインディスプレイ）／サブディスプレイ／連携する外部表示装置）や輝度調整等も決定される。

出力制御部１０ｆは、決定部１０ｅで決定された応答出力方法に従って、応答生成部１０ｃにより生成された応答を出力するよう制御する。本実施形態による具体的な応答出力例については後述する。

（通信部１１）
通信部１１は、外部装置とデータの送受信を行う。例えば通信部１１は、ネットワーク上の所定サーバと接続し、応答生成部１０ｃによる応答生成に必要な情報を受信する。また、通信部１１は、周辺の機器と連携し、出力制御部１０ｆの制御に従って対象機器に応答データを送信する。

（マイクロホン１２）
マイクロホン１２は、周辺の音声を収音し、音声信号として制御部１０に出力する機能を有する。また、マイクロホン１２は、アレイマイクロホンにより実現されていてもよい。

（スピーカ１３）
スピーカ１３は、出力制御部１０ｆの制御に従って音声信号を音声に変換して出力する機能を有する。

（カメラ１４）
カメラ１４は、情報処理装置１に設けられた撮像レンズにより周辺を撮像し、撮像画像を制御部１０に出力する機能を有する。また、カメラ１４は、３６０度カメラまたは広角カメラ等により実現されてもよい。

（測距センサ１５）
測距センサ１５は、情報処理装置１とユーザやユーザの周辺に居る人物との距離を測定する機能を有する。測距センサ１５は、例えば光センサ（発光・受光タイミングの位相差情報に基づいて対象物までの距離を測定するセンサ）により実現される。

（投影部１６）
投影部１６は、表示装置の一例であって、壁やスクリーンに画像を（拡大して）投影することで表示する機能を有する。

（記憶部１７）
記憶部１７は、情報処理装置１の各構成が機能するためのプログラムを格納する。また、記憶部１７は、レベル算出部１０ｄが出力許容レベルを算出する際に用いる各種パラメータや、決定部１０ｅが出力許容レベルに応じて出力方法を決定する際に用いる各種閾値を格納する。また、記憶部１７は、ユーザの登録情報を格納する。ユーザの登録情報には、個人識別用情報（音声の特徴量、顔画像、人画像（身体画像を含む）の特徴量、氏名、識別番号等）、年齢、性別、趣味・嗜好、属性（主婦、会社員、学生等）、特徴（視力が悪い、耳が聞こえ難い等）、およびユーザが所有する通信端末に関する接続情報等が含まれる。

（発光部１８）
発光部１８は、ＬＥＤ等の発光素子により実現され、全灯、一部点灯、点滅、または点灯位置の制御等が可能である。例えば発光部１８は、制御部１０の制御にしたがって音声認識部１０ａにより認識された発話者の方向を一部点灯することで、発話者の方向に視線を向けているように見せることができる。

以上、本実施形態による情報処理装置１の構成について具体的に説明した。なお、図２に示す構成は一例であって、本実施形態はこれに限定されない。例えば、情報処理装置１は、周辺環境に関する情報を取得するために、ＩＲ（infrared：赤外線）カメラ、深度カメラ、ステレオカメラ、または人感センサ等をさらに備えていてもよい。また、情報処理装置１に設けられるマイクロホン１２、スピーカ１３、カメラ１４、および発光部１８等の設置位置は特に限定しない。また、本実施形態による制御部１０の各機能は、通信部１１を介して接続されるクラウド上にあってもよい。

＜＜３．動作処理＞＞
次に、本実施形態による音声認識システムの動作処理について図３を参照して具体的に説明する。

図３は、本実施形態による音声認識システムの動作処理を示すフローチャートである。図３に示すように、まずステップＳ１０３において、情報処理装置１は、各種センサにより周辺環境をセンシングする。具体的には、情報処理装置１は、マイクロホン１２、カメラ１４、または測距センサ１５により外部音源の存在、周辺に存在する人物（ユーザを含む）の位置、状態等を取得し、また、情報処理装置１に内蔵された時計部（不図示）若しくはネットワーク上の所定サーバから現在時刻を取得し得る。なおＳ１０３に示す周辺環境のセンシングは、後述する処理と並行して継続され得る。

次いで、ステップＳ１０６において、情報処理装置１の制御部１０は、マイクロホン１２から収音した音声信号の音声認識および意味解析によりユーザによる発話を検知する。すなわち、制御部１０は、音声認識部１０ａによりマイクロホン１２で収音した音声信号の認識を行い、変換した文字列の意味解析を意味解析部１０ｂにより行い、発話を検知し、検知した発話の意味解析結果を応答生成部１０ｃに出力する。

次に、ステップＳ１０９において、レベル算出部１０ｄは、現在の周辺環境に基づいて出力許容レベルを算出する。具体的には、レベル算出部１０ｄは、システム利用環境における様々な要素（外部音源の存在、ユーザ環境、ユーザの振る舞い、ユーザの位置等）に基づいて、音声による応答出力が好ましい（許容される）環境であるか否かを示す出力許容レベルを算出する。

次いで、ステップＳ１１２において、決定部１０ｅは、レベル算出部１０ｄにより算出された出力許容レベルに基づいて応答の出力方法を決定する。例えば、音声による応答出力が好ましくない環境であることを示す出力許容レベルが算出された場合、決定部１０ｅは、表示による出力方法に決定する。

続いて、ステップＳ１１５において、出力制御部１０ｆは、応答生成部１０ｃが意味解析部１０ｂによる発話の意味解析結果に対して生成したユーザの発話に対する応答を、決定部１０ｅにより決定された出力方法で出力するよう制御する。これにより、本実施形態による音声ＵＩシステムでは、ユーザの発話に対する応答が音声に限定されず、表示出力等、環境に応じて最適な出力方法を自動的に決定して応答することが可能となる。例えば夜間やユーザの隣で赤ちゃんが寝ている場合には、音声による応答は好ましくないため、情報処理装置１は、投影部１６により応答画像を投影して表示することで、最適な出力方法で応答することができる。このような応答出力例について、以下詳細に説明する。

＜＜４．応答出力例＞＞
＜４−１．音声による応答出力＞
上述したように、本実施形態による情報処理装置１（音声ＵＩエージェント機能）は、出力許容レベルが高い場合は音声で応答出力を行う。例えば情報処理装置１の決定部１０ｅは、出力許容レベルが第１の閾値よりも高い場合、スピーカ１３から全方位に向けて通常時の音量で音声出力による応答を行う出力方法に決定する。

また、決定部１０ｅは、出力許容レベルが第１の閾値よりも低い場合、スピーカ１３から通常時の音量よりも小さい音量で音声出力による応答を行う出力方法に決定する。このとき情報処理装置１は測距センサ１５等によりユーザの位置を把握し、ユーザが情報処理装置１から離れた位置にいる場合はユーザに対して装置に近づくよう音声または表示で指示してもよい。また、スピーカ１３が指向性を有する場合、決定部１０ｅは、対象ユーザにだけ音声を届けるよう指向性制御する音声出力方法に決定してもよい。以上説明した出力方法により、対象ユーザ以外には応答が聞こえないようにすることができる。

＜４−２．表示による応答出力＞
また、本実施形態による音声ＵＩは、出力許容レベルが低い場合、音声による応答出力を避けて表示による応答出力に切り替える。例えば、情報処理装置１の決定部１０ｅは、出力許容レベルが第２の閾値よりも低い場合、音声出力ではなく表示による応答出力に決定する。具体的には、決定部１０ｅは、投影部１６により応答を示す応答画像２１ｂや応答関連画像２１ｃを壁２０に投影させて表示する方法（図１参照）に決定する。

（輝度調整）
また、決定部１０ｅは、出力許容レベルが第３の閾値よりも低い場合、表示装置の輝度を落として応答出力する方法に決定する。これにより、例えば夜間の時間帯や付近で人が寝ている場合にユーザの発話に対して突然表示装置がＯＮになって（または投影が行われて）明るくなり、寝ている人を起こしてしまうといった事態を回避することができる。なお上述した第１〜第３の閾値は、第１の閾値より第２の閾値が低く、また、第２の閾値より第３の閾値が低い関係性を有する。

（サブディスプレイ）
また、情報処理装置１にサブディスプレイが設けられている場合、決定部１０ｅは、出力許容レベルに応じて当該サブディスプレイを利用した出力方法に決定することも可能である。ここで、図４に、サブディスプレイ１９が設けられている情報処理装置１ｘの一例を示す。図４に示すように、円柱形状で形成された情報処理装置１ｘの側面上に設けられるサブディスプレイ１９は、投影部１６による表示に比べると、表示領域が小さく、解像度が低いといった表示上の制限があることが想定されるが、応答文を端的なテキストで表示することで、サブディスプレイ１９でも応答出力が可能となる。また、このように小さな表示領域で応答することで、応答内容がユーザ以外の人物に見られることを回避し、プライバシーを保護することも可能となる。

＜４−３．機器連携による応答出力＞
また、本実施形態による情報処理装置１は、外部装置との機器連携が可能な場合、出力許容レベルに応じて、外部装置から応答を出力する方法に決定することも可能である。例えば決定部１０ｅは、周辺に設置されているＴＶやＰＣ等の表示画面から表示出力する方法や、ユーザが所持する携帯電話端末、スマートフォン、またはウェアラブル端末等の通信端末に所定のアプリケーションやメールを用いてプッシュ通知する方法に決定してもよい。なおＴＶやＰＣが他の人物により使用されている場合は、これらの装置への応答出力は他の人物の邪魔になるため、回避する。また、ユーザが所持する通信端末から応答出力する場合、出力制御部１０ｆは、その旨をサブディスプレイ１９等に表示してユーザに通知してもよい。以下、図５を参照して説明する。

図５は、本実施形態による応答出力を通信端末３から行う旨をサブディスプレイ１９で通知する場合について説明する図である。図１９に示すように、情報処理装置１がユーザの所持する通信端末３に応答情報を送信して通信端末３から出力させる場合、例えばサブディスプレイ１９には、通信端末３に応答情報を送信したことを示すアイコン等が表示される。これによりユーザは、自身の通信端末３から応答が行われることを直感的に把握することができる。

また、決定部１０ｅは、情報処理装置１が設置されている部屋とは別の部屋（ユーザの自室）に設置されているＴＶ等の表示装置と連携して、当該別の部屋の表示装置から応答出力する方法に決定することも可能である。これにより、ユーザ周辺に居る人物に応答内容が見られることや、ユーザ周辺で寝ている人を起こしてしまうことを回避することができる。また、この際、出力制御部１０ｆは、別の部屋の表示装置で応答する旨をサブディスプレイ１９等に表示してユーザに通知する。

また、決定部１０ｅは、ユーザがイヤホンやヘッドホン等の音声出力装置を使用している場合、当該音声出力装置から応答を行う出力方法に決定してもよい。この場合、出力制御部１０ｆは、通信部１１を介して当該音声出力装置に対して応答を行うための音声信号を送信する。さらに、決定部１０ｅは、ユーザが所持する携帯電話端末、スマートフォン、ウェアラブル端末等の表示画面でも併せて応答出力を行い、音声と表示の両方で応答出力する方法に決定してもよい。

＜４−４．動的な応答出力＞
また、本実施形態による決定部１０ｅは、継続的に観測される周辺環境の変化に応じて変化する出力許容レベルに応じて、対話中に応答出力方法を変更してもよい。

例えば通常の音声対話を行っている際に、何らかの要因により出力許容レベルが低くなった場合、決定部１０ｅは、途中から表示出力に切り替えてもよい。このとき、対話が中途半端である場合は、出力制御部１０ｆは直前の対話内容を表示して、ユーザと音声ＵＩの対話がスムーズに進むようにする。一方、発話と表示出力により対話が行われている際に、何らかの要因により出力許容レベルが高くなった場合、決定部１０ｅは、途中から音声出力に切り替えてもよい。このとき、対話が中途半端である場合は、出力制御部１０ｆは現在の対話が終了するまで表示による応答出力と音声による応答出力とを並列して行い、スムーズな応答出力方法の切り替えを実現する。

＜４−５．出力許容レベルの通知＞
また、本実施形態では、現在の出力許容レベルをアイコン等によりサブディスプレイ１９や、壁２０への投影により表示してユーザに通知することも可能である。これによりユーザは、出力許容レベルの設定に応じた出力制限が行われていることを直感的に把握することができる。ここで、本実施形態による出力許容レベルを示す表示例を図６に示す。

図６の表示例３０ａ〜３０ｅに示すように、出力許容レベルは、音声出力の状態を示すアイコン３１、表示出力の状態を示すアイコン３２、表示出力における輝度の状態を示すアイコン３３を用いて表される。

例えば図６の１段目左に示す表示例３０ａでは、表示出力状態を示すアイコン３２ａと輝度状態を示すアイコン３３ａにバツ印が付され、バツ印が付されていないアイコン３１ａにより音声出力状態であることが示される。また、音声出力状態を示すアイコン３１ａの下方には「音量：２」と表示され、音声出力の状態が具体的に明示されている。例えば通常の音量が５の場合、出力許容レベルに応じて音量が小さく制御されていることが分かる。

図６の２段目左に示す表示例３０ｂでは、音声出力状態を示すアイコン３１ｂにバツ印が付され、バツ印が付されていないアイコン３２ｂ、３３ｂにより表示出力状態であることが示される。

図６の３段目左に示す表示例３０ｃでは、音声出力状態を示すアイコン３１ｃにバツ印が付され、バツ印が付されていないアイコン３２ｃ、３３ｃにより表示出力状態であることが示される。また、輝度状態を示すアイコン３３ｃの下方には「４０％」と表示され、出力許容レベルに応じて表示装置の輝度が制限されていることが分かる。

図６の１段目右に示す表示例３０ｄでは、音声出力状態を示すアイコン３１ｄにバツ印が付され、バツ印が付されていないアイコン３２ｄ、３３ｄにより表示出力状態であることが示される。また、表示出力状態を示すアイコン３２ｄの下方には「サブ」と表示され、出力許容レベルに応じて表示領域等に制限のあるサブディスプレイ１９から応答出力されることが分かる。

図６の２段目右に示す表示例３０ｅでは、声出力状態を示すアイコン３１ｅにバツ印が付され、バツ印が付されていないアイコン３２ｅ、３３ｅにより表示出力状態であることが示される。表示出力状態を示すアイコン３２ｅの下方には「端末」と表示され、出力許容レベルに応じてユーザ所有のスマートフォンや携帯電話端末、タブレット端末、またはウェアラブル端末等の通信端末から応答出力されることが分かる。

以上、図６を参照して出力許容レベルの表示例について説明したが、図６に示す表示例は一例であって、本実施形態による出力許容レベルの通知はこれに限定されない。例えば情報処理装置１は、出力許容レベルを数値化して表示してもよいし、出力許容レベルに段階がある場合は当該段階を表示してもよい。また、情報処理装置１は、出力許容レベルの段階を示す所定の色で発光部１８を照明するよう制御してもよいし、発光部１８の輝度を落として間接的に出力制限モード（出力許容レベルに応じて出力が制限されている状態）であることを伝えてもよい。

＜＜５．複数ユーザ環境下における出力＞＞
＜５−１．概要＞
次に、本実施形態の他の例として、複数ユーザ環境下における出力について説明する。上述した実施形態では、主に一のユーザを前提として説明したが、家庭空間等では複数のユーザが存在する環境が想定される。

例えば、特開2015-18502号公報には、家族でメッセージ交換ができるSNSシステムを利用して、家庭のデバイスに生じたエラーを家族全員に通知し、各ユーザの属性に応じた適切な解決策を提供する情報通知装置が記載されている。かかる特許文献では、複数ユーザを前提として各ユーザの属性に応じた解決策を提供しているが、通知の性質として匿名性（誰に対する通知であるかを隠す）や秘匿性（通知内容を隠す）が要求される点については何ら考慮されていない。

例えば、家族が寛ぐリビング等に情報処理装置１が置かれている場合、ある特定のユーザに対する通知が家族の前で行われると通知内容が他の家族にも知られてしまうが、内容によっては知られたくない場合も想定される。

そこで、本実施形態の他の例として、複数ユーザに利用されることを前提とした場合における特定ユーザへの出力（通知）の仕組みについて説明する。

本実施形態の他の例による情報処理装置１ａの形状については特に限定しないが、例えば図１を参照して説明した情報処理装置１と同様の円柱形状であってもよいし、立方体、球体、若しくは多面体等であってもよい。また、情報処理装置１ａは、部屋の床やテーブルの上等に設置される。また、情報処理装置１ａは、自走可能なロボットのようなものでもよい。続いて、情報処理装置１ａの構成について図７を参照して説明する。

＜５−２．構成＞
図７は、本実施形態の他の例による情報処理装置１ａの構成の一例を示す図である。図７に示すように、情報処理装置１ａは、制御部１００、通信部１１、マイクロホン１２、スピーカ１３、カメラ１４、測距センサ１５、投影部１６、記憶部１７、および発光部１８を有する。図２を参照して説明した構成と同符号の構成については、ここでの説明は省略する。

制御部１００は、情報処理装置１ａの各構成を制御する。制御部１００は、ＣＰＵ、ＲＯＭ、ＲＡＭ、および不揮発性メモリを備えたマイクロコンピュータにより実現される。また、本実施形態による制御部１００は、図７に示すように、音声認識部１０ａ、意味解析部１０ｂ、応答生成部１０ｃ、通知情報取得部１０ｇ、通知タイプ決定部１０ｈ、環境認識部１０ｉ、および出力制御部１０ｊとしても機能する。

音声認識部１０ａ、意味解析部１０ｂ、および応答生成部１０ｃは、図２を参照して説明した同符号の構成と同様の機能を有する。

通知情報取得部１０ｇは、ユーザへの通知情報を取得する。例えば通知情報取得部１０ｇは、ユーザのスケジュール情報に基づくリマインダー通知や、天気、交通、ニュース等の一般的な通知情報、特定ユーザへのメッセージ通知等、システム側から自動的に発信する通知情報を取得する。これらの通知情報は、記憶部１７から取得されてもよいし、通信部１１を介してネットワーク上から取得されてもよい。

通知タイプ決定部１０ｈは、通知情報取得部１０ｇにより取得した通知情報のタイプ（すなわち、種類）を決定する。本実施形態による通知の種類は、通知の公開性および通知対象者に応じて以下のように設定される。
Public
all：全てのユーザが確認可能な、全てのユーザに向けた通知。一般的な情報通知や家族全体に対する通知等が想定される。
Public
person：全てのユーザが確認可能であるが、特定のユーザのみを対象とする通知。例えば家族内の特定の誰かへの通知（母親へのリマインダー通知等）が想定される。
Private
group：特定グループのみが確認可能な通知。例えば「大人」、「両親」、「女性」、「子供」、「親戚」等のグループである。グループの設定は事前にユーザによりカスタマイズされ得る。
Private
person：特定のユーザのみが確認可能な、特定のユーザのみを対象とする通知。

通知タイプ決定部１０ｈは、取得した通知情報のタイプ（種類）を通知内容に応じて決定する。例えば通知タイプ決定部１０ｈは、誰宛のどのような通知であるかに応じて、「Public all」、「Public person」、「Private group」、または「Private person」のいずれのタイプであるかを判断する。また、通知タイプは、予めユーザにより任意に設定されていてもよい。また、予めユーザにより明示的に通知対象者が限定されている場合、通知タイプ決定部１０ｈは、「Private」通知と決定する。また、通知情報発信元のアプリケーション毎に通知タイプが設定されていてもよい。例えばスケジューラーの個人への予定通知がPrivate personに設定されていてもよい。

環境認識部１０ｉは、周辺環境を認識する。例えば環境認識部１０ｉは、カメラ１４により撮像された周辺の撮像画像や、測距センサ１５によるセンサデータに基づいて、周辺ユーザの位置や、周辺に居るユーザの認識（例えば顔認識）を行う。また、環境認識部１０ｉは、撮像画像等から性別、年代等の属性を取得し、周辺にいる人物のグループを認識することも可能である。例えば、環境認識部１０ｉは、撮像画像に基づいて、両親グループ、子供グループ、女性グループ、ゲストグループ（家族以外）、カスタムグループ（お父さんとＡちゃん等）を認識する。

出力制御部１０ｊは、応答生成部１０ｃにより生成された応答を、スピーカ１３、投影部１６、または発光部１８から出力するよう制御する。

また、出力制御部１０ｊは、環境認識部１０ｉによる環境認識結果と、通知タイプ決定部１０ｈにより決定された通知タイプに応じて、スピーカ１３、投影部１６、または発光部１８から適切な出力（ユーザ通知）を行う。例えば出力制御部１０ｊは、Public通知（「Public all」または「Public person」）であれば全てのユーザが確認可能な通知方法で通知し、Private通知（「Private group」または「Private person」）であれば対象ユーザのみが確認可能な方法で通知するよう制御する。この際、出力制御部１０ｊは、周辺環境に応じて通知方法を変更し得る。具体的な通知方法については、図９Ａ、図９Ｂを参照して後述する。

＜５−３．動作処理＞
続いて、本実施形態の他の例による動作処理について図８を参照して説明する。図８は、本実施形態の他の例による通知処理を示すフローチャートである。

図８に示すように、まず、ユーザへの通知情報があるか否かを判断する（ステップＳ２０３）。

次いで、通知情報がある場合（すなわち通知情報取得部１０ｇによりユーザへの通知情報が取得された場合）（ステップＳ２０３／Ｙｅｓ）、通知タイプ決定部１０ｈは、当該通知情報の通知タイプを決定する（ステップＳ２０６）。

次に、環境認識部１０ｉは、周辺環境情報を取得し（ステップＳ２０９）、周辺環境を認識する（ステップＳ２１２）。例えば環境認識部１０ｉは、測距センサ１５によりユーザがいる方向（位置）を認識したり、カメラ１４により周辺にいるユーザの顔を認識したりする。

次いで、出力制御部１０ｊは、通知のタイプおよび現在の環境に応じて通知が可能か否かを判断する（ステップＳ２１８）。例えば出力制御部１０ｊは、通知タイプがPrivateの場合、周辺に複数のユーザがいるときは通知不可能と判断し、対象のユーザのみである場合は通知可能と判断する。また、出力制御部１０ｊは、通知タイプがPublicの場合、周辺に複数のユーザがいても通知可能と判断する。

通知不可能と判断された場合（ステップＳ２１８／Ｎｏ）、出力制御部１０ｊは、例えば記憶部１７に格納する通知キューに当該通知情報を追加して通知を見送ってもよい。この場合、一定時間毎に本動作処理が繰り返され、上記ステップＳ２０３で通知情報取得部１０ｇは通知キューからも通知情報を取得する。

一方、通知可能と判断された場合（ステップＳ２１８／Ｙｅｓ）、出力制御部１０ｊは、適切な通知方法で通知を行うよう制御する。

以上、本実施形態の他の例による通知処理について説明した。続いて、通知タイプおよび環境に応じた通知方法の具体例について図９Ａおよび図９Ｂを参照して説明する。

＜５−４．通知例＞
（５−４−１．Public通知）
図９Ａは、Public通知の方法について説明する図である。図９Ａ左側には、Public allタイプの通知例を示す。Public allタイプは、例えば家族全体への一般的な情報通知（天気、交通、ニュース、家族の予定）や、家族への推薦情報（写真、音楽等）が想定される。具体的には、例えば情報処理装置１ａは、図示するように「今日は夕方から雨が降りそうですよ」といった発話をスピーカ１３から出力したり、発光部１８を発光（予め設定された通知内容に応じた発光（色、点滅等））させたりする。また、情報処理装置１ａに表示部が設けられている場合、当該表示部に通知情報を表示してもよいし、投影部１６で通知情報を壁等に投影してもよい。また、情報処理装置１ａは、香り（匂い）を出力する機能を有する場合、通知情報があることを全てのユーザに気付かせるために香りを出力してユーザの注目を集めてから、発話や発光、表示、投影等により通知を行うようにしてもよい。

図９Ａ右側には、Public personタイプの通知例を示す。Public personタイプは、家族全体に確認されてもよい特定ユーザへの通知（秘匿性のない通知）であって、例えば家族内でのメッセージ通知等が想定される。具体的には、例えば情報処理装置１ａは、図示するように「パパは今日夕飯いらなくなったそうです」といった父親からのメッセージを発話し、当該メッセージが母親宛の場合は発光部１８を母親用の色に点灯させる。メッセージを発話する際、誰宛のメッセージであるかは、発光部１８の色の他、スピーカ１３から出力する音楽（ＢＧＭ；Background Music）、発話音声の声色、香り等で識別させることが可能である。また、表示や投影により通知を行う場合は、「ママさんへパパは今日夕飯いらなくなったそうです」というように誰宛へのメッセージであるかを文字で示すようにしてもよい。

（５−４−２．Private通知）
図９Ｂは、Private通知の方法について説明する図である。図９Ｂ左側には、Private
groupタイプの通知例を示す。Private groupタイプは、特定グループへの秘匿性のある通知であって、例えば子供には秘匿にしたい親宛の通知（子供へのプレゼントに関する通知、子供の学友関係のトラブル通知、学費の相談）等が想定される。この場合、情報処理装置１ａは、図示したように親グループ等特定のグループに対してのみ通知を行う。具体的には、例えば情報処理装置１ａは、特定グループのユーザを近くに呼び寄せて小さな音声で「ＡＢＣ人形入荷したそうです」（子供へのプレゼントについての情報）と発話したり、有線／無線（Blue tooth（登録商標）等）で接続されたイヤホンを通して発話したりする。通知対象者の特定グループのユーザに近付いて来て貰うことにより、通知情報の秘匿性を確保することができる。

ユーザを近くに呼び寄せる方法は、例えば以下のようなものが挙げられる。
・特定グループのユーザに直接話し掛ける。例えば「ご両親さん、ちょっとこちらに来て頂けませんか？」等。
・空気の渦を特定グループのユーザに向けて噴射し、特定グループのユーザにだけ近づいてきてもらう。
・特定グループのユーザを表す特定の光（色、点滅パターン等）を発光部１８から出力してユーザに気付いてもらう。
・表示や投影により特定グループの名称を示してユーザに気付いてもらう。若しくは特定グループのユーザを表す特定の光（色、点滅パターン等）を表示や投影により出力してもよい。
・特定グループに対応するＳＥ（Sound Effect；効果音）やＢＧＭを流してユーザに気付いてもらう。
・特定グループのユーザが情報処理装置１ａを見ている時にだけ、発光部１８や表示、投影により特別なフィードバック（目線を合わせてウインクする等のアイコンタクト、うなずき等）を行い、ユーザに気付いてもらう。
・特定グループの各ユーザが保持するデバイス（スマートフォン、ウェアラブル端末等）を振動させて気付いてもらう。

また、情報処理装置１ａは、スピーカーアレイで特定グループのユーザ方向のみ発話が聞こえるようにしてもよい。また、情報処理装置１ａは、特定グループのユーザに通知情報がある旨だけを発話し、具体的な内容は特定グループの各ユーザが保持するデバイス（スマートフォン、ウェアラブル端末、各ユーザの自室のテレビ等）に転送してもよい。

また、図９Ｂ右側には、Private personタイプの通知例を示す。Private personタイプは、特定ユーザへの秘匿性のある通知であって、例えばユーザ個人の趣味・嗜好に応じた推薦（音楽、映画、本、イベント等）や、仕事メールの内容通知等が想定される。この場合、情報処理装置１ａは、図示したように特定のユーザに対してのみ通知を行う。具体的には、例えば情報処理装置１ａは、特定ユーザを近くに呼び寄せて小さな音声で「ＤＤの写真集が発売みたいですよ」（個人の趣味・嗜好に応じた商品の推薦情報）と発話したり、有線／無線（Blue tooth（登録商標）等）で接続されたイヤホンを通して発話したりする。通知対象者のユーザに近付いて来て貰うことにより、通知情報の秘匿性を確保することができる。

ユーザを近くに呼び寄せる方法は、上述した例えば以下のようなものが挙げられる。
・特定ユーザに直接話し掛ける。例えば「娘ちゃん、ちょっとこちらに来て頂けませんか？」等。
・空気の渦を特定ユーザに向けて噴射し、特定ユーザにだけ近づいてきてもらう。
・特定ユーザを表す特定の光（色、点滅パターン等）を発光部１８から出力してユーザに気付いてもらう。
・表示や投影により特定ユーザの名前を示してユーザに気付いてもらう。若しくは特定ユーザを表す特定の光（色、点滅パターン等）を表示や投影により出力してもよい。
・特定ユーザに対応するＳＥ（Sound Effect；効果音）やＢＧＭを流してユーザに気付いてもらう。
・特定ユーザが情報処理装置１ａを見ている時にだけ、発光部１８や表示、投影により特別なフィードバック（目線を合わせてウインクする等のアイコンタクト、うなずき等）を行い、ユーザに気付いてもらう。
・特定ユーザが保持するデバイス（スマートフォン、ウェアラブル端末等）を振動させて気付いてもらう。

また、情報処理装置１ａは、スピーカーアレイで特定ユーザ方向のみ発話が聞こえるようにしてもよい。また、情報処理装置１ａは、特定ユーザに通知情報がある旨だけを発話し、具体的な内容は特定ユーザが保持するデバイス（スマートフォン、ウェアラブル端末、各ユーザの自室のテレビ等）に転送してもよい。

なお、Private groupタイプおよびPrivate personタイプの通知において、特定グループまたは特定ユーザにのみ通知する他の方法として、以下のようなものも挙げられる。
・情報処理装置１ａが自走できる場合、情報処理装置１ａ自体が特定グループまたは特定ユーザに近付いて情報を通知してもよい。また、可能な限り自走して特定グループまたは特定ユーザに近付いて、その後上述したようなユーザを近くに呼び寄せる方法を用いてもよい。
・特定グループまたは特定ユーザが情報処理装置１ａの設置場所に近付いて来た時に通知するようにしてもよい。

また、上述した方法では誰宛の通知情報であるかが他のユーザにも認識されてしまうが、情報処理装置１ａは、さらに通知の匿名性を確保（誰宛の通知情報であるかを秘匿）することも可能である。

具体的には、例えば情報処理装置１ａは、カメラ１４（ＲＧＢカメラ等）、測距センサ１５、ＩＲ（InfraRed）等のセンシングデバイスにより、通知可能な範囲に特定ユーザ以外のユーザがいないことを確認した上で、発話や表示、投影により通知を行うようにしてもよい。また、特定ユーザのみ居る場合が望ましいが、他のユーザが十分に離れている場合も、発話や表示、投影により通知を行うようにしてもよい。有線／無線接続した特定ユーザのイヤホンを介して発話する際や、特定ユーザが保持するデバイスへ通知情報を転送する場合は、このようなセンシングデバイスを用いなくてもよい。

また、情報処理装置１ａは、特定ユーザ（ターゲットユーザ）や特定ユーザ以外のユーザ（非ターゲットユーザ）の位置を、各ユーザが保持するデバイスのGPS情報に基づいて把握したり、各ユーザの普段の行動習慣（例えば平日は会社で外出等）に基づいて把握したりすることも可能である。例えば情報処理装置１ａは、特定ユーザの行動習慣情報を利用して通知タイミングを見計らうことが可能である。

また、匿名性が確保できない状況の場合は、イヤホン接続による直接の音声出力や特定ユーザ保持のデバイスへの転送など、匿名性が確保できる方法に切り替えるようにしてもよい。

また、情報処理装置１ａは、予め特定ユーザとの間でやり取り（発話応答）を行っている場合、その文脈の流れを用いて通知することで、他のユーザが居ても他のユーザには分からないよう通知することが可能である。

例えば、事前にあるユーザが「クリスマスプレゼントのＡＢＣ人形が入荷したら教えてね」と情報処理装置１ａに伝えておいた場合、情報処理装置１ａは、「頼まれていた件、来たみたいですよ」と発話して特定ユーザに通知する。他のユーザ（非ターゲットユーザ）は前後の文脈が分からないため、何の情報であるかが分からず、通知情報の秘匿性が保たれる。このような文脈を用いた通知方法は、他にも以下のようなものが挙げられる。
・日付を用いる：「昨日頼まれていたこと、大丈夫です」
・誰のことかだけを示す：「Ｂさんから頼まれていたこと、大丈夫です」
・指示語を用いる：「あのことです」「あれのことです」
・固有のＩＤを用いる：「Ａ１０３のことです」「タスク１３です」
・隠語を用いる：「パインのことです」「ブックです」
・暗号表示や暗号発話を用いる：「○□△＃％」

なお、情報処理装置１ａは、さらに通知情報の重要度に応じて発話方法を切り替えてもよい。例えば通知情報の重要度が高い場合は発話、発光、表示、または投影等により通知を行い、重要度が低い場合は上述した通知タイプに応じた適切な方法で通知するようにしてもよい。

＜＜６．まとめ＞＞
上述したように、本開示の実施形態では、音声ＵＩによる応答時に、現在の周辺環境に応じて適切な応答出力方法を決定することで、音声認識システムの利便性を向上することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上述した情報処理装置１に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、本技術は以下のような構成も取ることができる。
（１）
ユーザの発話に対する応答を生成する応答生成部と、
現在の周辺環境に応じて応答出力方法を決定する決定部と、
前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、
を備える、情報処理装置。
（２）
前記決定部は、音声による応答出力または表示による応答出力を決定する、前記（１）に記載の情報処理装置。
（３）
前記決定部は、前記現在の周辺環境に応じて、前記音声による応答出力時における音量または指向性の制御を決定する、前記（２）に記載の情報処理装置。
（４）
前記決定部は、前記現在の周辺環境に応じて、前記表示による応答出力時における表示装置の選択、または輝度調整を決定する、前記（２）に記載の情報処理装置。
（５）
前記表示装置は、メインディスプレイ、サブディスプレイ、および連携する外部表示装置のいずれかから選択される、前記（４）に記載の情報処理装置。
（６）
前記情報処理装置は、
前記現在の周辺環境に基づいて出力許容レベルを算出する算出部をさらに備え、
前記決定部は、前記算出された出力許容レベルに応じて前記応答出力方法を決定する、前記（２）〜（５）のいずれか１項に記載の情報処理装置。
（７）
前記現在の周辺環境は、時間帯、外部音源の存在、ユーザ環境、ユーザの様子、ユーザの位置、およびユーザの身体的特徴の少なくともいずれかを含む、前記（６）に記載の情報処理装置。
（８）
前記決定部は、前記出力許容レベルが所定の閾値を上回るか否かに応じて前記応答出力方法を決定する、前記（６）または（７）に記載の情報処理装置。
（９）
前記決定部は、対話中に周辺環境が変化して前記出力許容レベルも変化した場合、変化した前記出力許容レベルに応じて前記応答出力方法を変更する、前記（６）〜（８）のいずれか１項に記載の情報処理装置。
（１０）
前記出力制御部は、前記出力許容レベルをユーザに通知するよう制御する、前記（６）〜（９）のいずれか１項に記載の情報処理装置。
（１１）
ユーザの発話に対する応答を生成することと、
現在の周辺環境に応じて応答出力方法を決定することと、
前記決定された応答出力方法で前記生成された応答を出力するよう出力制御部により制御することと、
を含む、制御方法。
（１２）
コンピュータを、
ユーザの発話に対する応答を生成する応答生成部と、
現在の周辺環境に応じて応答出力方法を決定する決定部と、
前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、
として機能させる、プログラム。

１情報処理装置
３通信端末
１０制御部
１０ａ音声認識部
１０ｂ意味解析部
１０ｃ応答生成部
１０ｄレベル算出部
１０ｅ決定部
１０ｆ出力制御部
１１通信部
１２マイクロホン
１３スピーカ
１４カメラ
１５測距センサ
１６投影部
１７記憶部
１８発光部
１９サブディスプレイ
２０壁
２１ａ発話内容画像
２１ｂ応答画像
２１ｃ応答関連画像
３０ａ〜３０ｅ表示例
３１〜３３アイコン

Claims

ユーザの発話に対する応答を生成する応答生成部と、
現在の周辺環境に応じて応答出力方法を決定する決定部と、
前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、
を備える、情報処理装置。
前記決定部は、音声による応答出力または表示による応答出力を決定する、請求項１に記載の情報処理装置。
前記決定部は、前記現在の周辺環境に応じて、前記音声による応答出力時における音量または指向性の制御を決定する、請求項２に記載の情報処理装置。
前記決定部は、前記現在の周辺環境に応じて、前記表示による応答出力時における表示装置の選択、または輝度調整を決定する、請求項２に記載の情報処理装置。
前記表示装置は、メインディスプレイ、サブディスプレイ、および連携する外部表示装置のいずれかから選択される、請求項４に記載の情報処理装置。
前記情報処理装置は、
前記現在の周辺環境に基づいて出力許容レベルを算出する算出部をさらに備え、
前記決定部は、前記算出された出力許容レベルに応じて前記応答出力方法を決定する、請求項２に記載の情報処理装置。
前記現在の周辺環境は、時間帯、外部音源の存在、ユーザ環境、ユーザの様子、ユーザの位置、およびユーザの身体的特徴の少なくともいずれかを含む、請求項６に記載の情報処理装置。
前記決定部は、前記出力許容レベルが所定の閾値を上回るか否かに応じて前記応答出力方法を決定する、請求項６に記載の情報処理装置。
前記決定部は、対話中に周辺環境が変化して前記出力許容レベルも変化した場合、変化した前記出力許容レベルに応じて前記応答出力方法を変更する、請求項６に記載の情報処理装置。
前記出力制御部は、前記出力許容レベルをユーザに通知するよう制御する、請求項６に記載の情報処理装置。
ユーザの発話に対する応答を生成することと、
現在の周辺環境に応じて応答出力方法を決定することと、
前記決定された応答出力方法で前記生成された応答を出力するよう出力制御部により制御することと、
を含む、制御方法。
コンピュータを、
ユーザの発話に対する応答を生成する応答生成部と、
現在の周辺環境に応じて応答出力方法を決定する決定部と、
前記決定された応答出力方法で前記生成された応答を出力するよう制御する出力制御部と、
として機能させる、プログラム。