WO2019142420A1

WO2019142420A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2019142420A1
Application number: PCT/JP2018/038757
Authority: WO
Inventors: 真里斎藤; 亜由美中川; 宇津木　慎吾
Original assignee: ソニー株式会社
Priority date: 2018-01-22
Filing date: 2018-10-18
Publication date: 2019-07-25
Also published as: US11935449B2; US20200357321A1

Abstract

【課題】複数のユーザのそれぞれに入力の受付可否を明確に知覚させる。【解決手段】ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部、を備え、前記出力制御部は、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御する、情報処理装置が提供される。また、プロセッサが、ユーザ入力に対する認識処理の結果に基づく出力を制御すること、を含み、前記制御することは、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御すること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関する。

　近年、情報処理技術の発展により、複数人のユーザが同時に同一のシステムを利用するシーンが増加している。例えば、特許文献１には、コンピュータセッションにおいて、複数ユーザ間の音声通話を実現し、また発話者を識別するための視覚情報を表示する技術が開示されている。特許文献１に記載の技術によれば、受聴者が、複数存在し得る発話者の存在や状態を視認し、発話者ごとに音声通話の可否を設定することなどが可能となる。

特開２００５－１００４２０号公報

　一方、特許文献１に記載されるように、複数のユーザが同時に入力を行い得るシステムの場合、処理能力や仕様上の観点から、同時に入力が可能なユーザの数が制限されることも想定される。例えば、音声認識処理において、常時音声認識が可能な状態を保つ場合、誤作動が生じる可能性が高くなる。また、あるユーザに対し音声認識処理を提供している場合において、その場にいる全員の発話に対しても受付が可能な状態とする場合、システムとの対話とは関係のない会話をしている人物の発話により誤動作の可能性が高まるため、同時に音声入力が可能なユーザの数を制限することが重要となる。また、上記のような同時入力に係る制限がない場合であっても、ユーザ入力に対する処理の実行可否が動的に切り替わるシステムにおいては、当該実行可否に係る状態をユーザごとに提示することが重要となる。

　そこで、本開示では、複数のユーザのそれぞれに入力の受付可否を明確に知覚させることが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

　本開示によれば、ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部、を備え、前記出力制御部は、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御する、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、ユーザ入力に対する認識処理の結果に基づく出力を制御すること、を含み、前記制御することは、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御すること、をさらに含む、情報処理方法が提供される。

　以上説明したように本開示によれば、複数のユーザのそれぞれに入力の受付可否を明確に知覚させることが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係るセッション状態の表示について説明するための図である。本開示の一実施形態に係るセッション状態の表示について説明するための図である。同実施形態に係る比較端末が、複数のユーザに共通してセッション状態を示す場合の一例である。同実施形態に係る情報処理端末が出力する付加情報の一例である。同実施形態に係る情報処理システムの構成例を示すブロック図である。同実施形態に係る情報処理端末の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。同実施形態に係る出力制御部により制御される付加情報の遷移例を示す図である。同実施形態に係る出力制御部２５０による複数のシンボルの表示制御について説明するための図である。同実施形態に係る出力制御部２５０による複数のシンボルの表示制御について説明するための図である。同実施形態に係る出力制御部による外部シンボルの表示制御について説明するための図である。同実施形態に係る出力制御部による外部シンボルの表示制御について説明するための図である。同実施形態に係る出力制御部による外部シンボルの表示制御について説明するための図である。同実施形態に係る付加情報とモーダルとの関係をまとめた図である。同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。同実施形態に係る情報処理サーバによる出力制御の流れを示すフローチャートである。同実施形態に係る外部シンボルの表示制御の流れを示すフローチャートである。本開示の一実施形態に係るハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．概要
　　１．２．システム構成例
　　１．３．情報処理端末１０の機能構成例
　　１．４．情報処理サーバ２０の機能構成例
　　１．５．出力制御の具体例
　　１．６．動作の流れ
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．概要＞＞
　まず、本開示の一実施形態の概要について説明する。上述したように、近年においては、複数のユーザによる同時利用を許容する装置が多く存在する。上記のような装置には、例えば、家庭や職場などにおいて、ユーザからの入力を受け付け、当該入力への応答を出力するエージェント装置が挙げられる。エージェント装置は、例えば、ユーザが発話により入力した質問に対する回答を音声や視覚情報などを用いて出力したり、ユーザの依頼に対応した機能の提供などを行うことができる。

　この際、多くのエージェント装置は、ユーザの発話を常に受け付けるのではなく、所定の起動ワードを検出した場合にのみ上記発話を受け付ける状態に遷移することで、装置への入力を意図していないユーザの発話（例えば、ユーザ同士の会話など）に起因する誤作動を防止することができる。

　一方、質問や依頼ごとに起動ワードを入力することは、ユーザにとって煩雑であるため、起動ワードにより発話の受付状態へと遷移した場合、当該受付状態をある程度の時間継続させ、ユーザによる複数の発話に対する処理を連続で実行することも想定される。なお、本開示では、発話の受付状態、すなわちユーザの発話を認識し、当該認識に基づく処理を実行可能な状態を、ユーザと装置との対話に係るセッションが開いている、と表現する。

　上記のような処理によれば、一度の起動ワードにより、セッションが開いている状態を継続することで、ユーザの連続した発話を許容し、起動ワードの入力に係る煩雑さを大きく低減することが可能である。

　しかし、この場合、ユーザに対し、セッションの継続に係る状態（以下、単に、セッション状態、と称する）を示すことが重要となる。図１Ａおよび図１Ｂは、本開示の一実施形態に係るセッション状態の表示について説明するための図である。

　図１Ａには、本実施形態における比較端末９０による情報出力の一例が示されている。また、図１Ｂには、本実施形態に係る情報処理端末１０による情報出力の一例が示されている。比較端末９０および情報処理端末１０は、ユーザＵの発話ＵＯを認識し、当認識の結果に基づく応答をプロジェクションにより画像投影により出力する機能を有する。

　図１Ａおよび図１Ｂには、比較端末９０および情報処理端末１０がそれぞれ出力する表示領域ＤＡにおいて、ディナースポットに係る情報が提示される場合の一例が示されている。また、比較端末９０および情報処理端末１０は、表示領域ＤＡ上にユーザＵとの対話を行うエージェント機能に対応したシンボルＡＳを表示してよい。シンボルＡＳは、表示領域ＤＡにおいてエージェント機能を実体化した視覚表現であり、ユーザＵは、シンボルＡＳに対し、種々の発話を投げかけ、当該発話に対する機能提供を享受することができる。

　なお、図１Ａには、比較端末９０が、セッション状態に係る提示を行わない場合の一例が示されている。この場合、ユーザＵは、セッションが開いている状態か、あるいはセッションが切れている状態かを知覚することができないことから、実際にはセッションが切れている状態であっても、起動ワードなしに発話ＵＯを入力しようとすることが想定される。この場合、図１Ａに示すように、比較端末９０は、発話ＵＯに対する認識処理を実行しないため、当該認識処理に基づく応答処理も実行されないこととなる。

　一方、図１Ｂには、本実施形態に係る情報処理端末１０がセッション状態に係る提示を行う場合の一例が示されている。図１Ｂに示す一例の場合、情報処理端末１０は、シンボルＡＳの中心を表す球状体の周囲に、セッションが開いていることを示す付加情報ＡＩを出力している。本実施形態に係る情報処理端末１０による上記の表現によれば、ユーザＵは、付加情報ＡＩを視認することで、セッションが開いている状態であることを把握することができ、起動ワードなしに発話ＵＯを入力し、また情報処理端末１０が発話ＵＯに対する回答に対応する音声発話ＳＯを出力することができる。

　このように、本実施形態に係る情報処理端末１０によれば、セッション状態を表示することで、ユーザにセッションが開いているか否かを直観的に知覚させ、発話の直前における起動ワードの要否を判断させることができる。

　一方、複数のユーザが同時に装置を利用する場合、セッションをユーザごとに複数設定し、対話を制御することが想定される。この場合、セッション状態をユーザごとに示すこと重要となる。

　図２は、本実施形態における比較端末９０が、複数のユーザに共通してセッション状態を示す場合の一例である。図２では、ユーザＵ１に対しセッションが開かれており、かつユーザＵ２に対しては、セッションが開いていない場合の一例が示されている。この際、比較端末９０は、ユーザＵ１に対しセッションが開かれていることから、当該セッションの状態を示す付加情報ＡＩを表示している。

　また、付加情報ＡＩを視認したユーザＵ２は、自身に対してもセッションが開いていると誤認し、発話ＵＯを行っている。しかし、実際には、ユーザＵ２に対してはセッションが開いていないことから、比較端末９０は、発話ＵＯに対する認識処理を実行せず、当該認識処理に基づく応答処理も実行されないこととなる。

　本開示に係る技術思想は、上記のような点に着目して発想されたものであり、複数のユーザのそれぞれに入力の受付可否を明確に知覚させることを可能とする。このために、本発明の一実施形態に係る情報処理装置は、複数のユーザが存在する状況において、ユーザ入力に対する認識処理の実行可否状態の出力を、ユーザごとに動的に制御することを特徴の一つとする。

　図３は、本実施形態に係る情報処理端末１０が出力する付加情報の一例である。例えば、図３の左には、個人識別ができている２人のユーザＵ１およびＵ２が存在し、両ユーザに対しセッションが開いている場合に出力される付加情報の一例が示されている。

　この場合、情報処理端末１０は、ユーザＵ１およびユーザＵ２にそれぞれ対応する２つの付加情報ＡＩ１およびＡＩ２を表示してよい。また、この際、情報処理端末１０は、ユーザＵ１およびユーザＵ２が識別できていることを、付加情報の色や模様などにより表してもよい。図３の左に示す一例の場合、情報処理端末１０は、ユーザＵ１に対応する付加情報ＡＩ１と、ユーザＵ２に対応する付加情報ＡＩ２とで、それぞれ異なる模様を用いている。この際、情報処理端末１０は、ユーザごとに予め設定された色や模様を用いてもよい。

　さらに、情報処理端末１０は、色の濃淡や模様の密度などにより、ユーザごとのセッション状態を表すことができる。例えば、図３の左に示す一例の場合、情報処理端末１０は、ユーザＵ１およびＵ２の両方にセッションが開いていることから、付加情報ＡＩ１およびＡＩ２の模様の密度を高く設定している。図３の中央に示す一例の場合、情報処理端末１０は、ユーザＵ２に対するセッションが開いていない状態であることから、対応する付加情報ＡＩ２の模様の密度を低く設定している。すなわち、図３の中央に示す一例の場合、ユーザＵ１は、識別されており、かつセッションが開いている状態であり、ユーザＵ２は、識別はされているが、セッションが開いていない状態である。

　このように、本実施形態に係る情報処理端末１０によれば、ユーザごとの識別状態やセッション状態を、直観的に提示することが可能である。また、本実施形態に係る情報処理端末１０は、セッション状態、識別状態に加え、検出状態に係る情報を出力してもよい。図３の右には、情報処理端末１０が、個人識別ができているユーザＵ１に対応する付加情報ＡＩ１に加え、検出はできているが個人識別ができていないユーザＵ３に対する付加情報ＡＩ３を出力する場合の一例が示されている。

　図３の右に示す一例の場合、情報処理端末１０は、ユーザＵ３の個人識別ができていないことを、ドット模様を有する付加情報ＡＩ３により表現している。なお、色を用いて付加情報ＡＩ３を表現する場合、情報処理端末１０は、例えば、グレーなどを用いて、個人識別ができていないことを示してもよい。また、情報処理端末１０は、個人識別ができていない状態も同様に、セッション状態を色の濃淡や模様の密度により示すことができる。

　また、情報処理端末１０は、それぞれのユーザが検出された方向を、対応する付加情報の形状などにより示してよい。図３に示す一例の場合は、情報処理端末１０は、楕円形で示す付加情報ＡＩ～ＡＩ３の下端を、対応するユーザを検出した方向に向けることで、検出方向を示している。

　このように、本実施形態に係る情報処理端末１０によれば、複数のユーザに係る検出状態、検出方向、識別状態、およびセッション状態を、ユーザごとに表現することが可能となる。本実施形態に係る情報処理端末１０が有する上記の機能によれば、各ユーザは、自身に係る検出状態、識別状態、またセッション状態を直観的に知覚し、状況に応じた発話を行うことが可能となる。なお、上記のような情報をユーザに提示できる要件が満たされる場合、情報処理端末１０は、音や触覚によるフィードバックなど、視覚以外の表現を用いて、情報提示を行ってもよい。

　＜＜１．２．システム構成例＞＞
　次に、本開示の一実施形態に係る情報処理システムの構成例について説明する。図４は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図４を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０および情報処理サーバ２０は、互いに通信が行えるように、ネットワーク３０を介して接続される。

　（情報処理端末１０）
　本実施形態に係る情報処理端末１０は、情報処理サーバ２０による制御に基づいて、ユーザの入力などに対する視覚情報や音声情報を出力する情報処理装置である。本実施形態に係る情報処理端末１０は、特に、複数のユーザが存在する状況において、ユーザ入力に対する認識処理の実行可否状態をユーザごとに出力すること、を特徴の一つとする。

　本実施形態に係る情報処理端末１０は、例えば、スマートフォン、タブレット、汎用コンピュータ、据え置き型または自律移動型の専用装置であってもよい。

　（情報処理サーバ２０）
　本実施形態に係る情報処理サーバ２０は、ユーザ入力に対する認識処理の結果に基づいて、情報処理端末１０の挙動を制御する情報処理装置である。この際、本実施形態に係る情報処理サーバ２０は、複数のユーザが存在する場合において、ユーザ入力に対する認識処理の実行可否状態の出力を、ユーザごとに動的に制御すること、を特徴の一つとする。

　（ネットワーク３０）
　ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図４を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０および情報処理サーバ２０が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．３．情報処理端末１０の機能構成例＞＞
　次に、本実施形態に係る情報処理端末１０の機能構成例について説明する。図５は、本実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。図５を参照すると、本実施形態に係る情報処理端末１０は、表示部１１０、音声出力部１２０、音声入力部１３０、撮像部１４０、センサ部１５０、制御部１６０、およびサーバ通信部１７０を備える。

　（表示部１１０）
　本実施形態に係る表示部１１０は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部１１０は、例えば、情報処理サーバ２０による制御に基づいて、認識処理の実行可否状態を示す付加情報を表示する。

　このために、本実施形態に係る表示部１１０は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部１１０は、プロジェクション機能により視覚情報を出力してもよい。

　（音声出力部１２０）
　本実施形態に係る音声出力部１２０は、音声を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部１２０は、例えば、情報処理サーバ２０による制御に基づいて、ユーザの発話に対する回答を音声により出力する。このために、本実施形態に係る音声出力部１２０は、スピーカやアンプなどの音声出力装置を備える。

　（音声入力部１３０）
　本実施形態に係る音声入力部１３０は、ユーザの発話や、情報処理端末１０の周囲で発生する周囲音などの音情報を収集する機能を有する。音声入力部１３０が収集する音情報は、情報処理サーバ２０による音声認識に用いられる。本実施形態に係る音声入力部１３０は、音情報を収集するための複数のマイクロフォンを備える。

　（撮像部１４０）
　本実施形態に係る撮像部１４０は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部１４０が撮像した画像情報は、情報処理サーバ２０によるユーザの検出や識別に用いられる。本実施形態に係る撮像部１４０は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。

　（センサ部１５０）
　本実施形態に係るセンサ部１５０は、周囲環境やユーザに関する種々のセンサ情報を収集する機能を有する。センサ部１５０が収集したセンサ情報は、例えば、情報処理サーバ２０によるユーザ検出に用いられる。センサ部１５０は、例えば、赤外線センサを含む人感センサなどを備える。

　（制御部１６０）
　本実施形態に係る制御部１６０は、情報処理端末１０が備える各構成を制御する機能を有する。制御部１６０は、例えば、各構成の起動や停止を制御する。また、制御部１６０は、情報処理サーバ２０により生成される制御信号を表示部１１０や音声出力部１２０に入力する。また、本実施形態に係る制御部１６０は、後述する情報処理サーバ２０の出力制御部２５０と同等の機能を有してもよい。

　（サーバ通信部１７０）
　本実施形態に係るサーバ通信部１７０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う機能を有する。具体的には、サーバ通信部１７０は、音声入力部１３０が収集した音情報や、撮像部１４０が撮像した画像情報、センサ部１５０が収集したセンサ情報を情報処理サーバ２０に送信する。また、サーバ通信部１７０は、情報処理サーバ２０から、シンボルや付加情報の出力に係る制御信号などを受信する。

　以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図５を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０は、図５に示す構成のすべてを必ずしも備えなくてもよい。例えば、情報処理端末１０は、撮像部１４０やセンサ部１５０などを備えない構成をとることもできる。また、上述したように、本実施形態に係る制御部１６０は、情報処理サーバ２０の出力制御部２５０と同等の機能を有してもよい。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．４．情報処理サーバ２０の機能構成例＞＞
　次に、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について説明する。図６は、本実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。図６を参照すると、本実施形態に係る情報処理サーバ２０は、音声認識部２１０、意味解析部２２０、ユーザ認識部２３０、ユーザ状態推定部２４０、出力制御部２５０、ユーザＤＢ２６０、提示情報ＤＢ２７０、および端末通信部２８０を備える。

　（音声認識部２１０）
　本実施形態に係る音声認識部２１０は、情報処理端末１０が収集したユーザの発話に係る音情報に基づいて、音声認識処理を実行する。

　（意味解析部２２０）
　本実施形態に係る意味解析部２２０は、音声認識部２１０が認識したユーザの発話に係る意味解析を行う。この際、意味解析部２２０は、ユーザＤＢ２６０に保存されるユーザの発話傾向などに基づいて、ユーザ個人ごとに最適化された意味解析を行ってもよい。本実施形態に係る出力制御部２５０は、意味解析部２２０が解析した発話の意味に基づいて、当該発話に対応する回答などを情報処理端末１０に出力させることができる。

　（ユーザ認識部２３０）
　本実施形態に係るユーザ認識部２３０は、情報処理端末１０が収集した音情報、画像情報、センサ情報などに基づいて、ユーザの検出、識別を行う。この際、ユーザ認識部２３０は、ユーザＤＢ２６０に保存されるユーザの音声データや顔画像データとの比較を行うことにより、ユーザの識別を行うことができる。

　（ユーザ状態推定部２４０）
　本実施形態に係るユーザ状態推定部２４０は、情報処理端末１０が収集した音情報、画像情報、センサ情報に基づいて、ユーザに係る種々の状態を推定する。本実施形態に係るユーザ状態推定部２４０は、例えば、情報処理端末１０が備える複数のマイクロフォンが収集した音情報や、顔検出結果などに基づいて、ユーザの検出方向を推定してよい。

　（出力制御部２５０）
　本実施形態に係る出力制御部２５０は、ユーザ入力に対する認識処理結果に基づいて、情報処理端末１０の挙動を制御する機能を有する。本実施形態に係る出力制御部２５０は、複数のユーザが存在する状況において、ユーザ入力に対する認識処理の実行可否状態の出力を、ユーザごとに動的に制御すること、を特徴の一つとする。

　より具体的には、本実施形態に係る出力制御部２５０は、認識処理に係るセッション状態、ユーザの検出有無、検出方向、識別状態などに係る表示を制御してよい。

　また、本実施形態に係る出力制御部２５０は、意味解析部２２０が解析した発話の意味に基づいて、種々の情報を情報処理端末１０に出力させる機能を有する。この際、出力制御部２５０は、例えば、意味解析部２２０が解析した発話の意味に基づいて、提示情報ＤＢ２７０が蓄積する情報の検索を行い、発話の意味に対応した情報を取得することで、当該情報に対応する音声や視覚情報を情報処理端末１０に出力させることができる。

　（ユーザＤＢ２６０）
　本実施形態に係るユーザＤＢ２６０は、ユーザに係る種々の情報を広く記憶する。ユーザＤＢ２６０は、例えば、ユーザの氏名、年齢、性別などの基本情報に加え、顔画像や音声特徴、嗜好や傾向などの情報を記憶する。

　（提示情報ＤＢ２７０）
　本実施形態に係る提示情報ＤＢ２７０は、ユーザに提示することを目的とした種々の情報を蓄積する。提示情報ＤＢ２７０は、例えば、レストランなどを含むスポット情報や、一般知識などを蓄積してもよい。

　（端末通信部２８０）
　本実施形態に係る端末通信部２８０は、ネットワーク３０を介して、情報処理端末１０との情報通信を行う。例えば、端末通信部２８０は、情報処理端末１０から、音情報、画像情報、センサ情報などを受信する。また、端末通信部２８０は、出力制御部２５０が生成した出力制御に係る制御信号を情報処理端末１０に送信する。

　以上、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図６を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。例えば、上記に示した構成は、複数の装置により分散されて実現されてもよい。また、上述したように、情報処理端末１０と情報処理サーバ２０が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．５．出力制御の具体例＞＞
　次に、本実施形態に係る出力制御部２５０による出力制御について、具体例を挙げながら説明する。上述したように、本実施形態に係る出力制御部２５０は、音声認識処理の実行可否状態の出力を、ユーザごとに動的に制御することができる。

　また、本実施形態に係る出力制御部２５０は、音声認識処理に基づいたユーザとの対話を行うエージェント機能に対応する表示領域上のシンボルの表示を制御してよい。この際、本実施形態に係る出力制御部２５０は、複数ユーザに係る検出有無や検出方向、識別状態、およびセッション状態と、上記のシンボルとを、ユーザが同時に視認できるように表下制御を行うこと、を特徴の一つとする。

　上述したように、本実施形態に係るシンボルは、表示領域においてエージェント機能を実体化した視覚表現であり、ユーザは、シンボルに対し、種々の発話を投げかけ、当該発話に対する機能提供を享受することができる。このため、シンボルとセッション状態などとを同時に視認できる位置に表示させることで、ユーザが視線を動かさずに、状態を認識しながら発話を行うことが可能となり、ユーザの利便性を向上させることができる。

　なお、エージェント機能を、例えば、人や擬人化した動物などの生物により表現することも可能であるが、本実施形態に係る出力制御部２５０は、シンボルを、生物を模倣しない抽象的な視覚情報として表示させてよい。エージェント機能を人型などにより表現する場合、エージェントに対する印象はユーザの嗜好などに強く影響され、また利用されるシーンが限定されることが想定される。このため、本実施形態に係る出力制御部２５０は、抽象的な視覚情報によりシンボルを表現することで、よりユーザやシーンを選ばないエージェント機能を提供することが可能である。

　ここで、本実施形態に係る出力制御部２５０により制御される付加情報の遷移について具体例を挙げて説明する。図７は、本実施形態に係る出力制御部２５０により制御される付加情報の遷移例を示す図である。

　まず、図７の上段左には、ユーザＵ１が起動ワードを用いて発話を行った場合に表示される付加情報の一例が示されている。この際、出力制御部２５０は、識別されたユーザＵ１に対応する模様を用いた付加情報ＡＩ１を情報処理端末１０に表示させる。また、出力制御部２５０は、ユーザＵ１に対するセッションが開かれていることを、付加情報ＡＩ１の模様の密度を高く設定することにより表すことができる。

　さらには、上述したように、出力制御部２５０は、ユーザＵ１が検出された検出方向を付加情報ＡＩ１の形状により表現することが可能である。具体的には、出力制御部２５０は、楕円形で表す付加情報ＡＩ１の下端が検出方向を向くように、付加情報ＡＩ１の出力を動的に制御してよい。なお、上記の検出方向は、表示領域上におけるシンボルＡＳの表示位置を基準とした検出方向であってよい。

　続いて、図７の上段中央には、ユーザＵ２が表示領域の向かって右から登場し、起動ワードを用いて発話を行った場合に表示される付加情報の一例が示されている。この際、出力制御部２５０は、識別されたユーザＵ２に対応する模様を用いた付加情報ＡＩ２を情報処理端末１０に表示させる。また、出力制御部２５０は、ユーザＵ２に対するセッションが開かれていることを、付加情報ＡＩ２の模様の密度を高く設定することにより表す。また、出力制御部２５０は、ユーザＵ２の検出方向を付加情報ＡＩ２の形状により表してよい。

　また、出力制御部２５０は、ユーザＵ１に係るセッション状態と識別状態が維持していることを、付加情報ＡＩ１により継続して表してよい。なお、ユーザＵ１の検出方向に変化があった場合は、出力制御部２５０は、当該検出方向に応じて付加情報ＡＩ１の形状を動的に変化させることができる。以下の流れにおいては、ユーザの検出方向に関する説明は省略する。

　続いて、図７の上段右には、ユーザＵ３が表示領域の中央付近に登場し、起動ワードを用いて発話を行った場合に表示される付加情報の一例が示されている。この際、出力制御部２５０は、ユーザＵ３の個人識別ができなかったことから、不明のユーザを示すドット模様を用いて付加情報ＡＩ３を表示させている。また、出力制御部２５０は、ユーザＵ３（不明ユーザ）に対するセッションが開かれていることを、付加情報ＡＩ３のドット模様の密度を高く設定することにより表している。

　続いて、図７の下段左には、ユーザＵ２が情報処理端末１０の付近からいなくなり、ユーザＵ１およびＵ３の識別状態およびセッション状態が維持されている場合に表示される付加情報の一例が示されている。この際、出力制御部２５０は、検出されなくなったユーザＵ２に対応する付加情報ＡＩ２の表示を情報処理端末１０に停止される。

　続いて、図７の下段中央には、不明ユーザであるユーザＵ３が所定時間より長く発話を行わなかったことなどによりセッションが切れた場合に表示される付加情報の一例が示されている。この際、出力制御部２５０は、ユーザＵ３に対するセッションが切れたことに基づいて、付加情報ＡＩ３に係るドット模様の密度を低下させる。一方、出力制御部２５０は、ユーザＵ１が発話を継続して行っていることから、セッション状態が維持されていることを、付加情報ＡＩ１の模様の密度を維持することで表現してよい。

　続いて、図７の下段右には、ユーザＵ２が再度、表示領域の向かって右から登場し、起動ワードを用いた発話を行わなかった場合に表示される付加情報の一例が示されている。この際、出力制御部２５０は、ユーザＵ２に対応する模様を用いた付加情報ＡＩ２を再度表示させ、また、当該模様の密度を低く設定することで、ユーザＵ２に対するセッションが開いていないことを表現する。また、出力制御部２５０は、ユーザＵ１およびユーザＵ３の識別状態、セッション状態に変化がないことに基づいて、付加情報ＡＩ１およびＡＩ３の出力表現を維持してよい。

　以上、本実施形態に係る出力制御部２５０による付加情報の出力制御について、具体例を挙げながら説明した。このように、本実施形態に係る出力制御部２５０によれば、音声認識処理に係るセッション状態や、ユーザの検出有無、検出方向、識別状態を、ユーザごとに動的に表示させることができる。本実施形態に係る出力制御部２５０が有する上記の機能によれば、各ユーザは、自身の検出情報や識別状態を把握し、また、セッションが開いているか否かを視認することで、起動ワードの要否を判断することができ、ストレスなくシステムを利用することが可能となる。

　また、本実施形態に係る付加情報は、上述したような検出有無、検出方向、識別状態、およびセッション状態のほか、音声認識状態の実行状態や、音声認識処理の結果に基づく応答生成処理（例えば、検索処理を含む）の実行状態を含んでよい。本実施形態に係る出力制御部２５０は、上記のような実行状態を表す付加情報ＡＩと、シンボルＡＳとを、ユーザが同時に視認できるように表示制御を行うことができる。

　出力制御部２５０は、例えば、上記のような実行状態を、色の明滅、膨張や収縮などの形状の変化、回転などの挙動により、セッション状態などと同時に表現することが可能である。本実施形態に係る出力制御部２５０が有する上記の機能によれば、ユーザが、シンボルＡＳを注視しながら、視線の移動を伴わず種々の状態を把握することができ、利便性をより向上させることが可能となる。

　次に、本実施形態に係る出力制御部２５０によるシンボルおよび付加情報の表示位置に係る制御について説明する。本実施形態に係る出力制御部２５０は、上記で述べたシンボルや付加情報の表示位置を、種々の状況に応じて制御することが可能である。

　例えば、家庭や職場などにおいて、単一のエージェント機能が複数のユーザにより利用される場合、出力制御部２５０は、家族や職場の一員として受け入れられやすいような位置に、シンボルおよび付加情報を表示させてよい。

　具体的には、出力制御部２５０は、識別された複数のユーザの検出方向や、検知された当該複数のユーザの発話ターンに基づいて、発話を行うユーザの中間位置にシンボルおよび付加情報を表示し、依頼等に対する応答を行わせてもよい。また、出力制御部２５０は、あるユーザから別のユーザへ発話ターンが切り替わる場合、交代して発話を行うユーザの検出方向にシンボルを移動させる、などの表示制御を行うことができる。

　本実施形態に係る出力制御部２５０が有する上記の機能によれば、実際の人間が行うような、発話者間の相対位置や発話中の人物に着目した挙動をシンボルに行わせることができ、より親しみやすいユーザインタフェースを実現することが可能となる。

　また、出力制御部２５０は、ユーザの属性や状態など基づいて、シンボルおよび付加情報の表示位置を制御してもよい。例えば、ユーザが子供である場合や、ユーザが座っている状態の場合、出力制御部２５０は、表示領域の低位置にシンボルを表示させてよい。一方、ユーザが大人である場合や、ユーザが立っている状態の場合、出力制御部２５０は、表示領域の高位置にシンボルを表示させてよい。

　また、出力制御部２５０は、ユーザからの入力に依らない主体的な情報提示を行う場合、シンボルがより目立つように表示制御を行ってもよい。この際、出力制御部２５０は、例えば、シンボルを表示領域のより高位置に表示させてもよい。また、出力制御部２５０は、シンボルを通常状態よりも大きく表示させてもよい。また、出力制御部２５０は、シンボルを情報通知するユーザにより接近させる、などの制御を行ってよい。

　このように、本実施形態に係る出力制御部２５０は、ユーザの検出位置などの種々の状況に応じて、シンボルの表示位置を動的に制御することが可能である。

　また、本実施形態に係る出力制御部２５０は、複数のエージェント機能に対応する複数のシンボルの表示を制御してもよい。例えば、家庭において各ユーザが専用のエージェント機能を有している場合、出力制御部２５０は、各ユーザが有する複数のエージェント機能に対応するシンボルの表示を動的に制御することができる。

　図８Ａよび図８Ｂは、本実施形態に係る出力制御部２５０による複数のシンボルの表示制御について説明するための図である。図８Ａには、各ユーザがそれぞれ専用のエージェント機能を有しており、また各エージェントが、専属するユーザ以外の発話を受け付けない場合におけるシンボルの表示例が示されている。

　図８Ａに示す一例の場合、出力制御部２５０は、ユーザＵ１が有する専用エージェント機能に対応するシンボルＡＳ１、およびユーザＵ２が有する専用エージェント機能に対応するシンボルＡＳ２の表示を同時に制御している。

　この際、出力制御部２５０は、検出されたユーザＵ１およびＵ２の検出位置（検出方向）に基づいて、シンボルＡＳ１およびＡＳ２の表示位置を動的かつ独立的に制御してよい。具体的には、出力制御部２５０は、ユーザＵ１およびユーザＵ２の間で会話が行われており、かつエージェント機能への呼びかけがない場合、シンボルＡＳ１およびＡＳ２が、ユーザＵ１およびＵ２の間に入らないよう、シンボルＡＳ１およびＡＳ２を、それぞれユーザＵ１およびＵ２の脇に表示させてもよい。また、この際、出力制御部２５０は、検出されたユーザＵ１およびＵ２の位置変化に追随するよう、シンボルＡＳ１およびＡＳ２の表示を制御することができる。

　また、図８Ｂには、各ユーザがそれぞれ専用のエージェント機能を有しているが、各エージェントは、所有者であるユーザ以外の発話にも対応する場合におけるシンボルの表示例が示されている。この場合、出力制御部２５０は、図８Ａの場合に示した一例とは異なり、シンボルＡＳ１およびＡＳ２を、ユーザＵ１およびＵ２の間に表示させてもよいが、ユーザＵ１およびＵ２の間の会話を妨害しないよう、例えば、ユーザＵ１およびＵ２の頭部より高い位置に表示させるなどの制御を行ってよい。また、出力制御部２５０は、発話を行ったユーザの方向にシンボルＡＳ１およびＡＳ２を近づける、あるいは近づけた後に元の位置に戻す（視線を向けるような動作）などの表示制御を行ってもよい。

　また、出力制御部２５０の表示制御対象は、情報処理サーバ２０により提供される内部エージェント機能に対応するシンボルに限定されない。本実施形態に係る出力制御部２５０は、第三者により提供されるエージェント機能に対応する外部シンボルの表示を制御してもよい。

　図９Ａ～図９Ｃは、本実施形態に係る出力制御部２５０による外部シンボルの表示制御について説明するための図である。図９Ａ～図９Ｃでは、出力制御部２５０が、内部エージェント機能に対応するシンボルＡＳと、第三者により提供される外部エージェント機能に対応する外部シンボルＥＳとに係る表示制御を同時に行っている。なお、外部シンボルＥＳは、旅行業者により提供される外部エージェント機能に対応するシンボルであってよい。

　ここで、本実施形態に係る出力制御部２５０は、図９Ａに示すように、表示領域ＤＡにおいて内部エージェント機能に対応するシンボルＡＳを表示する内部エリアＩＡと、外部シンボルを表示する外部エリアＥＡを設定してよい。また、この際、出力制御部２５０は、ユーザの発話に係る情報が、外部エリアＥＡに配置される外部シンボルＥＳに対応する外部エージェント機能には伝達されないよう制御を行う。

　例えば、図９Ａに示す一例の場合、ユーザＵ１およびＵ２は、賞与に係る情報、通常の旅行費用に関する情報、家族の個人情報などを含む発話ＵＯ１およびＵＯ２を行っている。この際、出力制御部２５０は、上記のような機微情報が、外部エリアＥＡに伝達されないように制御することで、情報が不用意に外部に流出することを防ぐことができる。

　一方、外部エージェント機能を利用する際、本実施形態に係る出力制御部２５０は、ユーザの発話内容を一般化し、外部シンボルに係る外部エージェント機能に引き渡してよい。図９Ｂに示す一例の場合、出力制御部２５０は、図９Ａに示す発話ＵＯ１およびＵＯ２の内容を一般化した引き渡し情報ＳＩを生成し、表示領域ＤＡ上に表示させ、外部エージェント機能に問い合わせを行う旨を示す音声発話ＳＯ１を出力させている。このように、生成した引き渡し情報ＳＩを表示領域ＤＡ上に表示させることで、ユーザは、どのような情報が外部に送信されるのかを明確に把握することができる。

　なお、出力制御部２５０は、外部エージェント機能が提供するＡＰＩの形式に合わせて、図９Ｂに示すような引き渡し情報ＳＩを生成してよい。図９Ｂに示す一例の場合、出力制御部２５０は、旅行ツアーの検索のために定義された予算、場所、日時、人数のような項目を含む引き渡し情報ＳＩを生成している。また、この際、出力制御部２５０は、図９Ａに示す発話ＵＯ１に含まれる賞与の情報などから予算を自動的に設定し、発話ＵＯ２に含まれる誕生日の情報やユーザＤＢ２６０に記憶される家族構成の情報から日時および人数を自動で設定している。

　また、出力制御部２５０は、外部エージェント機能から、送信した引き渡し情報ＳＩに基づく回答を受信した場合、図９Ｂに示すように、外部シンボルＥＳに対応付けて、音声発話ＳＯ２や視覚情報を出力させてよい。

　また、この際、発話ＵＯ３のような、詳細の取得や、外部エージェント機能との直接対話に係る要求が検出された場合、出力制御部２５０は、外部シンボルＥＳを内部エリアＩＡに移動させ、ユーザと外部シンボルＥＳに係る外部エージェント機能とが直接対話できるように制御を行ってよい。

　図９Ｃには、図９Ｂに示す発話ＳＯ３に基づいて、内部エリアＩＡに移動された外部シンボルＥＳが示されている。この場合、出力制御部２５０が、内部エリアに表示される外部シンボルＥＳに係る外部エージェント機能に、発話ＵＯ４などの内容をそのまま送信することで、外部エージェント機能がユーザＵＩおよびＵ２と直接対話することを許容することができる。

　このように、本実施形態に係る出力制御部２５０によれば、内部エージェント機能に対応するシンボルと、外部エージェント機能に対応する外部シンボルの表示領域を明確に分離し、情報伝達のレベルを制御することで、機微情報が外部へ流出することを防ぐことができる。また、本実施形態に係る出力制御部２５０が有する上記の機能によれば、ユーザの要求に基づいて、外部エージェント機能とユーザの直接対話を許容することで、セキュリティ性と利便性を両立することが可能である。なお、本実施形態に係る外部エージェント機能は、人工知能による機能提供のほか、オペレータなどの有人対応により実現される機能であってもよい。

　以上、本実施形態に係る出力制御部２５０が有する機能について詳細に説明した。上述したように、本実施形態に係る出力制御部２５０は、エージェント機能に対応するシンボルおよび種々の付加情報に係る表示を動的に制御することができる。上記の付加情報には、認識処理の実行可否状態、ユーザの検出状態および識別状態に係る情報が広く含まれる。

　なお、上記では、出力制御部２５０が、音声認識処理に係るセッション状態を付加情報の一つとして表示させる場合を例に述べたが、本実施形態に係る認識処理および実行可否状態は係る例に限定されない。本実施形態に係る認識処理には、例えば、ジェスチャ認識や感情推定などの技術が広く含まれ得る。上記のような技術を用いた装置が複数のユーザにおいて利用される場合であっても、同時に機能提供が可能なユーザの数は有限であることから、ユーザごとに認識処理の実行可否状態を示すことは、同様に重要となる。

　このため、本実施形態に係る出力制御部２５０は、種々の認識処理に係る実行可否状態、ユーザの検出状態および識別状態を、複数のモーダルを用いて表現することが可能である。図１０は、本実施形態に係る付加情報とモーダルとの関係をまとめた図である。図１０を参照すると、出力制御部２５０は、例えば、表示体の方向などのモーダル１を用いて、ユーザの検出状態を表してもよい。また、出力制御部２５０は、表示体の色などのモーダル２を用いて、ユーザの識別状態を表すことができる。また、出力制御部２５０は、表示体の明度などのモーダル３を用いて、認識処理の実行可否を表してもよい。

　このように、本実施形態に係る出力制御部２５０は、複数のモーダルを用いることで、種々の認識処理に係る実行可否状態を多様に表現することが可能である。このため、上記までに述べた付加情報の表現方法はあくまで一例であり、本実施形態に係る出力制御部２５０は、他の出力表現を用いて情報処理端末１０に付加情報を表示させてもよい。以下、出力制御部２５０による付加情報の多様な表示制御について、例を挙げながら説明を続ける。

　図１１Ａ～図１５は、本実施形態に係る出力制御部２５０による出力表現のバリエーションについて説明するための図である。図１１Ａおよび図１１Ｂには、出力制御部２５０が、ユーザの検出状態および識別状態に係る付加情報を、シンボルＡＳとは別途にユーザごとに表現する場合の一例が示されている。

　図１１Ａに示す一例の場合、出力制御部２５０は、ユーザＵ１およびユーザＵ２に対応する模様を用いて、ユーザＵ１およびＵ２の識別状態を示す付加情報ＡＩ１およびＡＩ２をそれぞれ別途に出力させている。この際、出力制御部２５０は、ユーザＵ１およびＵ２が識別されていることを、付加情報ＡＩおよびＡＩ２の模様の密度を高く設定することにより表している。

　一方、図１１Ｂに示す一例では、ユーザＵ２が識別されなくなったことから、出力制御部２５０は、ユーザＵ２に対応する付加情報ＡＩ２の模様の密度を低下するように表示させている。このように、本実施形態に係る出力制御部２５０は、ユーザの識別状態に係る付加情報ＡＩを、シンボルＡＳとは別途に表示させることも可能である。

　また、図１２Ａおよび図１２Ｂには、出力制御部２５０が、シンボルＡＳ自体の表示を変化させることで、付加情報を表現する場合の一例が示されている。例えば、図１２Ａおよび図１２Ｂに示す一例の場合、出力制御部２５０は、シンボルＡＳの大きさを変化させることにより、セッションが開いているか否かを表現している。

　具体的には、図１２Ａでは、出力制御部２５０は、通常の状態よりもシンボルＡＳを大きく表示させ強調させることにより、セッションが開いていることを表している。一方、図１２Ｂでは、出力制御部２５０は、シンボルＡＳを図１２Ａの状態より小さく表示させることで、セッションが開いていないこと、すなわち起動ワードが必要なことを表している。このように、本実施形態に係る出力制御部２５０は、別途の表示体を用いず、シンボルＡＳのみを用いてセッション状態などの付加情報を表現することも可能である。なお、図１２Ａおよび図１２Ｂでは、出力制御部２５０がシンボルＡＳの大きさを変化させることによりセッション状態を表現する場合を例に述べたが、出力制御部２５０は、例えば、色や明度、形状の変化などによりセッション状態を表してもよい。

　また、図１３は、出力制御部２５０が、シンボルＡＳの挙動により付加情報を表現する場合の一例が示されている。図１３に示す一例の場合、出力制御部２５０は、シンボルＡＳが、セッションが開いているユーザの周囲を浮遊するように表示制御を行っている。また、この際、出力制御部２５０は、ユーザＵ１およびユーザＵ２に対しセッションが開いていることを、浮遊するシンボルＡＳの挙動により表現している。

　具体的には、出力制御部２５０は、浮遊するシンボルＡＳが、ユーザＵ１またはユーザＵ２に近づいた際、輪を描くような回転運動Ｒ１およびＲ２を行うよう表示を制御することで、セッションが開いていることを表現している。このように、本実施形態に係る出力制御部２５０は、シンボルＡＳの挙動をモーダルの一つとして用いることが可能である。

　また、図１４には、出力制御部２５０が、単一の輪により複数のユーザに対応する付加情報を表現する場合の一例が示されている。図３や図７では、出力制御部２５０が、複数のユーザに対応する付加情報を独立した複数の輪を用いて表現する場合の一例を示した。一方、出力制御部２５０は、図１４に示すように、単一の輪を用いて複数のユーザに対応する付加情報を表現することも可能である。

　例えば、図１４の左に示す一例の場合、出力制御部２５０は、輪の一部を太くすることで、ユーザの検出方向に係る付加情報ＡＩ１およびＡＩ２を表している。なお、出力制御部２５０は、輪の一部の明度を上げることで検出方向を示してもよい。

　また、図１４の右に示す一例の場合、出力制御部２５０は、輪の一部に各ユーザに対応した模様を適用することで、各ユーザの識別状態に係る付加情報ＡＩ１～ＡＩ３を表現している。

　また、図１５には、出力制御部２５０が、複数の球状態を用いて各ユーザに対応する付加情報を表現する場合の一例が示している。図３や図７では、シンボルＡＳが単一の球状体により表現される場合を例に示した。一方、出力制御部２５０は、シンボルＡＳが複数のユーザに対応する複数の球状体を有するように表示制御を行い、当該球状体により各ユーに対応する付加情報を表現してもよい。

　例えば、図１５に示す一例の場合、出力制御部２５０は、３つの球状体を用いて３名のユーザにそれぞれ対応する付加情報ＡＩ１～ＡＩ３を表現している。図１５の左に示す一例では、出力制御部２５０は、輪の上における付加情報ＡＩ１～ＡＩ３の位置により各ユーザの検出方向を表しており、図１５の右に示す一例では、出力制御部２５０は、輪の中心における付加情報ＡＩ１～ＡＩ３の位置を制御することにより、各ユーザの検出方向を表している。また、出力制御部２５０は、各球状体に各ユーザに対応する模様を適用することで、各ユーザの識別状態を表してよい。

　以上、本実施形態に係る出力制御部２５０による出力表現のバリエーションについて説明した。このように、本実施形態に係る出力制御部２５０は、セッション状態、ユーザの検出方向、ユーザの識別状態などの付加情報を、緯度、模様、形状、明度、また挙動などの各種のモーダルを用いて表現することが可能である。

　また、出力制御部２５０は、例えば、情報処理端末１０が備えるＬＥＤなどの光源を用いて、上記のような付加情報を表現してもよい。例えば、エージェントに対する呼びかけが所定時間以上行われない場合、出力制御部２５０は、エージェント機能に対応するシンボルを表示領域から情報処理端末１０に格納するような表示制御を行うこともできる。この際、出力制御部２５０は、シンボルが情報処理端末１０に格納されている場合であっても、情報処理端末１０が外装に備える光源により、ユーザの検出方向や識別状態などを表現することが可能である。

　また、出力制御部２５０は、エージェントの感情を含む種々の状態を付加情報の一つとして表現してもよい。この際、出力制御部２５０は、上述したような種々のモーダルを用いることで、エージェントの状態を多様に表現することが可能である。

　＜＜１．６．動作の流れ＞＞
　次に、本実施形態に係る情報処理サーバ２０の動作の流れについて詳細に説明する。まず、本実施形態に係る情報処理サーバ２０による出力制御の基本的な流れについて説明する。

　図１６は、本実施形態に係る情報処理サーバ２０による出力制御の流れを示すフローチャートである。図１６を参照すると、まず、端末通信部２８０が、情報処理端末１０が収集した収集情報を受信する（Ｓ１１０１）。上記の収集情報には、音情報、画像情報、およびセンサ情報が含まれる。

　次に、ユーザ認識部２３０が、ステップＳ１１０１において受信された収集情報に基づいて、ユーザの検出を行う（Ｓ１１０２）。ユーザ認識部２３０は、例えば、画像情報に基づく人検出や、人感センサが収集したセンサ情報などに基づいて、ユーザを検出することができる。

　続いて、ユーザ認識部２３０は、ステップＳ１１０１において受信された収集情報に基づいて、ユーザの識別を行う（Ｓ１１０３）。ユーザ認識部２３０は、例えば、画像情報に基づく顔認識や、音情報に基づく話者認識により、ユーザの識別を行ってもよい。

　次に、ユーザ状態推定部２４０が、ステップＳ１１０２において検出されたユーザの検出方向を取得する（Ｓ１１０４）。ユーザ状態推定部２４０は、例えば、ユーザが撮像された画像情報や、複数のマイクロフォンにより取得されたユーザの発話を含む音情報に基づいて、ユーザの検出方向を取得することができる。

　次に、音声認識部２１０がステップＳ１１０１において受信された音情報に基づく音声認識処理を実行し、意味解析部２２０が、音声認識処理の結果に基づく意味解析を行う（Ｓ１１０５）。

　ここで、ステップＳ１１０５において認識されたユーザの発話に起動ワードが含まれる場合、出力制御部２５０は、当該起動ワードを発話したユーザに対しセッションを開く制御を行う（Ｓ１１０６）。

　続いて、出力制御部２５０は、ステップＳ１１０４において取得されたユーザの検出方向などに基づいて、シンボルの表示位置を決定する（Ｓ１１０７）。

　続いて、出力制御部２５０は、ステップＳ１１０４において取得されたユーザの検出方向や、ステップＳ１１０３において取得されたユーザの識別状態、またセッション状態などの付加情報に係る出力制御を行う（Ｓ１１０８）。

　また、出力制御部２５０は、ステップＳ１１０５において解析されたユーザの発話意図に応じた音声発話などの出力制御を実行する（Ｓ１１０９）。

　次に、本実施形態に係る外部シンボルの表示制御の流れについて詳細に説明する。図１７は、本実施形態に係る外部シンボルの表示制御の流れを示すフローチャートである。

　図１７を参照すると、まず、出力制御部２５０が、外部シンボルが表示領域内に設定した外部エリアに表示されるよう制御を行う（Ｓ１２０１）。

　次に、音声認識部２１０が収集されたユーザの発話に係る音情報に基づく音声認識処理を実行し、意味解析部２２０が、音声認識処理の結果に基づく意味解析を行う（Ｓ１２０２）。

　次に、出力制御部２５０が、ステップＳ１２０２において解析されたユーザの発話内容を一般化し引き渡し情報を生成する（Ｓ１２０３）。

　続いて、出力制御部２５０は、ステップＳ１２０３において生成した引き渡し情報を、外部エージェント機能に送信する（Ｓ１２０４）。

　次に、出力制御部２５０が、ステップＳ１２０４において送信した引き渡し情報に対応する回答を外部エージェント機能から受信する（Ｓ１２０５）。

　続いて、出力制御部２５０は、ステップＳ１２０５において受信した回答に係る出力制御を行う（Ｓ１２０７）。

　ここで、ユーザから、外部エージェント機能との直接対話に係る要求があった場合（Ｓ１２０７：Ｙｅｓ）、出力制御部２５０は、外部シンボルを表示領域内に設定した内部エリアに移動させ、ユーザと外部エージェント機能との直接対話を許容する（Ｓ１２０８）。

　一方、外部エージェント機能との直接対話に係る要求が検出されない場合（Ｓ１２０７：Ｎｏ）、出力制御部２５０は、待機状態に復帰する。

　＜２．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０に共通するハードウェア構成例について説明する。図１８は、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。図１８を参照すると、情報処理端末１０および情報処理サーバ２０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（プロセッサ８７１）
　プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示の一実施形態に係る情報処理サーバ２０は、ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部２５０を備える。また、本開示の一実施形態に係る出力制御部２５０は、複数のユーザが存在する状況において、ユーザ入力に対する認識処理の実行可否状態の出力を、ユーザごとに動的に制御すること、を特徴の一つとする。係る構成によれば、複数のユーザのそれぞれに入力の受付可否を明確に知覚させることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本明細書の情報処理サーバ２０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ２０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部、
　を備え、
　前記出力制御部は、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御する、
情報処理装置。
（２）
　前記出力制御部は、前記ユーザの検出方向に係る情報の出力を、前記ユーザごとに動的に制御する、
前記（１）に記載の情報処理装置。
（３）
　前記出力制御部は、前記ユーザの識別状態に係る情報の出力を、前記ユーザごとに動的に制御する、
前記（１）または（２）に記載の情報処理装置。
（４）
　前記出力制御部は、前記ユーザの検出有無に係る情報の出力を、前記ユーザごとに動的に制御する、
前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
　前記認識処理は、音声認識処理を含み、
　前記出力制御部は、前記音声認識処理のセッション状態に係る情報の出力を、前記ユーザごとに動的に制御する、
前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記出力制御部は、前記音声認識処理に基づいた前記ユーザとの対話を行うエージェント機能に対応する表示領域上のシンボルの表示を制御する、
前記（５）に記載の情報処理装置。
（７）
　前記出力制御部は、前記セッション状態、前記ユーザの検出方向、前記ユーザの識別状態のうち少なくともいずれかと、前記シンボルとを、前記ユーザが同時に視認できるように表示制御を行う、
前記（６）に記載の情報処理装置。
（８）
　前記出力制御部は、前記音声認識処理の実行状態または前記音声認識処理の結果に基づく応答生成処理の実行状態のうち少なくとも一方と、前記シンボルとを、前記ユーザが同時に視認できるように表示制御を行う、
前記（６）または（７）に記載の情報処理装置。
（９）
　前記出力制御部は、前記セッション状態、前記ユーザの検出方向、前記ユーザの識別状態のうち少なくともいずれかを、色、模様、形状、または挙動の変化により表現する、
前記（７）に記載の情報処理装置。
（１０）
　前記出力制御部は、前記ユーザの検出位置に基づいて、前記シンボルの表示位置を動的に制御する、
前記（６）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記出力制御部は、前記シンボルが前記ユーザの位置変化に追随するように表示制御を行う、
前記（１０）に記載の情報処理装置。
（１２）
　前記出力制御部は、前記ユーザ同士が会話を行っている場合、前記ユーザ同士の会話を妨害しない位置に前記シンボルを表示させる、
前記（１０）または（１１）に記載の情報処理装置。
（１３）
　前記出力制御部は、第三者により提供されるエージェント機能に対応する外部シンボルの表示を制御する、
前記（１）～（１２）のいずれかに記載の情報処理装置。
（１４）
　前記出力制御部は、内部エージェント機能に対応するシンボルを表示する内部エリアと前記外部シンボルを表示する外部エリアを分離し、前記外部エリアには、前記ユーザの発話に係る情報が伝達しないよう制御を行う、
前記（１３）に記載の情報処理装置。
（１５）
　前記出力制御部は、前記ユーザの発話内容を一般化し、前記外部シンボルに係るエージェント機能に引き渡す、
前記（１４）に記載の情報処理装置。
（１６）
　前記出力制御部は、前記ユーザからの要求に基づいて、前記外部シンボルを前記内部エリアに移動させ、前記ユーザと前記外部シンボルに係るエージェント機能とが直接対話できるように制御を行う、
前記（１４）または（１５）に記載の情報処理装置。
（１７）
　前記出力制御部は、前記シンボルを、生物を模倣しない抽象的な視覚情報により表示させる、
前記（６）～（１２）のいずれかに記載の情報処理装置。
（１８）
　前記ユーザ入力に対する音声認識処理を実行する音声認識部、
　をさらに備える、
前記（１）～（１７）のいずれかに記載の情報処理装置。
（１９）
　前記出力制御部による制御に基づいて、前記認識処理の実行可否状態を、前記ユーザごとに表示する表示部、
　をさらに備える、
前記（１）～（１８）のいずれかに記載の情報処理装置。
（２０）
　プロセッサが、ユーザ入力に対する認識処理の結果に基づく出力を制御すること、
　を含み、
　前記制御することは、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御すること、
　をさらに含む、
情報処理方法。

　１０　　　情報処理端末
　１１０　　表示部
　１２０　　音声出力部
　１３０　　音声入力部
　１４０　　撮像部
　１５０　　センサ部
　１６０　　制御部
　１７０　　サーバ通信部
　２０　　　情報処理サーバ
　２１０　　音声認識部
　２２０　　意味解析部
　２３０　　ユーザ認識部
　２４０　　ユーザ状態推定部
　２５０　　出力制御部
　２６０　　ユーザＤＢ
　２７０　　提示情報ＤＢ
　２８０　　端末通信部

Claims

　ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部、
　を備え、
　前記出力制御部は、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御する、
情報処理装置。
　前記出力制御部は、前記ユーザの検出方向に係る情報の出力を、前記ユーザごとに動的に制御する、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記ユーザの識別状態に係る情報の出力を、前記ユーザごとに動的に制御する、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記ユーザの検出有無に係る情報の出力を、前記ユーザごとに動的に制御する、
請求項１に記載の情報処理装置。
　前記認識処理は、音声認識処理を含み、
　前記出力制御部は、前記音声認識処理のセッション状態に係る情報の出力を、前記ユーザごとに動的に制御する、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記音声認識処理に基づいた前記ユーザとの対話を行うエージェント機能に対応する表示領域上のシンボルの表示を制御する、
請求項５に記載の情報処理装置。
　前記出力制御部は、前記セッション状態、前記ユーザの検出方向、前記ユーザの識別状態のうち少なくともいずれかと、前記シンボルとを、前記ユーザが同時に視認できるように表示制御を行う、
請求項６に記載の情報処理装置。
　前記出力制御部は、前記音声認識処理の実行状態または前記音声認識処理の結果に基づく応答生成処理の実行状態のうち少なくとも一方と、前記シンボルとを、前記ユーザが同時に視認できるように表示制御を行う、
請求項６に記載の情報処理装置。
　前記出力制御部は、前記セッション状態、前記ユーザの検出方向、前記ユーザの識別状態のうち少なくともいずれかを、色、模様、形状、または挙動の変化により表現する、
請求項７に記載の情報処理装置。
　前記出力制御部は、前記ユーザの検出位置に基づいて、前記シンボルの表示位置を動的に制御する、
請求項６に記載の情報処理装置。
　前記出力制御部は、前記シンボルが前記ユーザの位置変化に追随するように表示制御を行う、
請求項１０に記載の情報処理装置。
　前記出力制御部は、前記ユーザ同士が会話を行っている場合、前記ユーザ同士の会話を妨害しない位置に前記シンボルを表示させる、
請求項１０に記載の情報処理装置。
　前記出力制御部は、第三者により提供されるエージェント機能に対応する外部シンボルの表示を制御する、
請求項１に記載の情報処理装置。
　前記出力制御部は、内部エージェント機能に対応するシンボルを表示する内部エリアと前記外部シンボルを表示する外部エリアを分離し、前記外部エリアには、前記ユーザの発話に係る情報が伝達しないよう制御を行う、
請求項１３に記載の情報処理装置。
　前記出力制御部は、前記ユーザの発話内容を一般化し、前記外部シンボルに係るエージェント機能に引き渡す、
請求項１４に記載の情報処理装置。
　前記出力制御部は、前記ユーザからの要求に基づいて、前記外部シンボルを前記内部エリアに移動させ、前記ユーザと前記外部シンボルに係るエージェント機能とが直接対話できるように制御を行う、
請求項１４に記載の情報処理装置。
　前記出力制御部は、前記シンボルを、生物を模倣しない抽象的な視覚情報により表示させる、
請求項６に記載の情報処理装置。
　前記ユーザ入力に対する音声認識処理を実行する音声認識部、
　をさらに備える、
請求項１に記載の情報処理装置。
　前記出力制御部による制御に基づいて、前記認識処理の実行可否状態を、前記ユーザごとに表示する表示部、
　をさらに備える、
請求項１に記載の情報処理装置。
　プロセッサが、ユーザ入力に対する認識処理の結果に基づく出力を制御すること、
　を含み、
　前記制御することは、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御すること、
　をさらに含む、
情報処理方法。