WO2019021553A1

WO2019021553A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2019021553A1
Application number: PCT/JP2018/016400
Authority: WO
Inventors: 亜由美中川; 貴宣小俣
Original assignee: ソニー株式会社
Priority date: 2017-07-26
Filing date: 2018-04-23
Publication date: 2019-01-31
Also published as: US11244682B2; EP3660838A1; US20200143813A1; EP3660838A4

Abstract

【課題】音声発話による情報提示において、重要部の出力位置をユーザに知覚させる。【解決手段】情報提示に係る音声発話の出力を制御する出力制御部、を備え、前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、情報処理装置が提供される。また、プロセッサが、情報提示に係る音声発話の出力を制御すること、を含み、前記制御することは、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　近年、音声を用いてユーザに情報提示を行う種々の装置が普及している。また、音声による情報提示に関し、ユーザの利便性を高めるための技術が多く開発されている。例えば、特許文献１には、合成音声に係る発話時間を表示する音声合成装置が開示されている。

実開昭６０－３８９８号公報

　特許文献１に記載の音声合成装置によれば、ユーザが出力される音声の長さを把握することが可能となる。しかし、特許文献１に記載の技術では、ユーザが求める情報に対応する音声がいつ出力されるかを当該ユーザに知覚させることが困難である。

　そこで、本開示では、音声発話による情報提示において、重要部の出力位置をユーザに知覚させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示によれば、情報提示に係る音声発話の出力を制御する出力制御部、を備え、前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、情報提示に係る音声発話の出力を制御すること、を含み、前記制御することは、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させること、をさらに含む、情報処理方法が提供される。

　また、本開示によれば、コンピュータを、情報提示に係る音声発話の出力を制御する出力制御部、を備え、前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、情報処理装置、として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、音声発話による情報提示において、重要部の出力位置をユーザに知覚させることが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態の概要について説明するための図である。同実施形態に係る情報処理システムのシステム構成例を示すブロック図である。同実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。同実施形態に係る問い合わせ発話に基づく個別モデルの生成について説明するための図である。同実施形態に係るユーザの応答発話に基づく個別モデルの生成について説明するための図である。同実施形態に係るユーザの応答発話に基づく個別モデルの生成について説明するための図である。同実施形態に係る情報提示に対するユーザの反応に基づく個別モデルの生成について説明するための図である。同実施形態に係る共通モデルに基づく出力制御について説明するための図である。同実施形態に係るユーザの属性に対応する共通モデルを用いた出力制御について説明するための図である。同実施形態に係る複数の係る複数のユーザに対応した出力制御について説明するための図である。同実施形態に係る操作入力の受け入れ可否制御について説明するための図である。同実施形態に係るユーザの集中度に基づく操作入力の受け入れ可否制御について説明するための図である。同実施形態に係る集中度の表示制御について説明するための図である。同実施形態に係る情報処理サーバによる処理の流れを示すフローチャートである。本開示の一実施形態に係る情報処理端末と情報処理サーバとに共通するハードウェア構成例である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．実施形態の概要
　　１．２．システム構成例
　　１．３．情報処理端末１０の機能構成例
　　１．４．情報処理サーバ２０の機能構成例
　　１．５．モデル構築と出力制御の詳細
　　１．６．複数のユーザに対応した出力制御
　　１．７．処理の流れ
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．実施形態の概要＞＞
　まず、本開示の一実施形態の概要について説明する。上述したとおり、近年では、音声発話によりユーザに情報提示を行う種々の装置が普及している。上記のような装置は、例えば、ユーザの発話による問い合わせに対し、当該問い合わせに対応する回答を音声や視覚情報を用いてユーザに提示することが可能である。

　また、上記のような装置は、問い合わせに対する回答のみならず、種々の情報をユーザに発信することができる。例えば、上記のような装置は、学習したユーザの嗜好等に応じた推薦情報を音声発話や視覚情報によりユーザに提示してもよい。

　しかし、一般的に、音声発話による情報提示では、重要な情報がどのタイミングで出力されるのかをユーザが把握することが困難である。このため、ユーザは、求める情報が出力されるまで音声発話を傾聴する必要があり、高い集中力を求められる。

　また、ユーザが音声発話を最後まで傾聴した場合であっても、ユーザが求める情報が出力されない場合も想定される。この場合、ユーザの時間を不必要に消費させることとなり、利便性を低下させる要因となり得る。

　本開示に係る技術思想は、上記の点に着目して発想されたものであり、音声発話による情報提示において、重要部の出力位置をユーザに知覚させることを可能とする。このために、本開示の一実施形態に係る情報処理装置、情報処理方法、およびプログラムは、音声発話を出力させると共に、当該音声発話における重要部の出力位置を視覚的に表示させること、を特徴の一つとする。

　図１は、本開示の一実施形態の概要について説明するための図である。図１には、情報処理端末１０が、ユーザＵ１に対し、レストランの情報を音声発話ＳＯ１および視覚情報ＶＩ１を用いて提示する場合の例が示されている。情報処理端末１０は、後述する情報処理サーバ２０による制御に基づいて、上記の処理を実行してよい。本開示の一実施形態に係る情報処理サーバ２０は、例えば、ユーザＵ１の問い合わせに対する回答として、レストランＡの情報を情報処理端末１０に出力させることができる。

　この際、本実施形態に係る情報処理サーバ２０は、図１に示すように、音声発話における重要部の出力位置を視覚情報ＶＩ１として情報処理端末１０に出力させてよい。より具体的には、本実施形態に係る情報処理サーバ２０は、音声発話ＳＯ１に係る全体の出力の長さを示すバーＢと、音声発話ＳＯ１の出力に係る現在位置を示すポインタＰとを含む視覚情報ＶＩ１を情報処理端末１０に出力させる。すなわち、ポインタＰは、音声発話ＳＯ１の出力に係る進捗を示す情報である。ユーザＵ１は、バーＢとポインタＰとを視認することで、音声発話ＳＯ１の出力に係る進捗度合いを把握することができる。

　さらに、本実施形態に係る情報処理サーバ２０は、図１に示すように、音声発話ＳＯ１における重要部ＩＰの出力位置をバーＢ上に表示させることができる。ここで、上記の重要部ＩＰとは、音声発話において、ユーザにとってより優先度が高いと推定される情報を含む区間であってよい。

　例えば、レストランＡに係る情報提示には、レストランＡに係る所在や予算、雰囲気、口コミなど種々の情報が含まれ得る。この際、本実施形態に係る情報処理サーバ２０は、上記の情報提示において、ユーザＵ１にとってより優先度が高い情報を推定し、情報提示に対応する音声発話において当該優先度が高い情報を含む区間を重要部ＩＰとして設定する。また、情報処理サーバ２０は、設定した重要部ＩＰの出力位置をバーＢ上に表示させることができる。

　図１に示す一例の場合、情報処理サーバ２０は、ユーザＵ１にとってより優先度が高いと推定される金額情報を含む区分を重要部ＩＰとして設定し、金額情報と比較して優先度の劣る所在や雰囲気などの情報を含む区間を非重要部として設定している。また、情報処理サーバ２０は、重要部ＩＰと非重要部とを含む音声発話を情報処理端末１０に出力させると共に、当該音声発話における重要部ＩＰの出力位置を表示させている。

　なお、本実施形態に係る情報処理サーバ２０は、ユーザの嗜好、特性、属性などに基づいて優先度および重要部を設定することができる。情報処理サーバ２０は、例えば、ユーザの嗜好、特性、属性などに基づいて提示する情報のカテゴリごとに優先度を算出し、優先度が閾値以上の情報を含む区間を重要部として設定してもよい。また、情報処理サーバ２０は、提示情報の中でより優先度の高い情報を含む区間を重要部として設定することもできる。

　なお、情報処理サーバ２０は、複数の重要部を設定することも可能である。例えば、レストランＡに係る情報提示において、金額情報と口コミ情報の優先度が高い場合、情報処理サーバ２０は、音声発話において金額情報や口コミ情報を含む区間をそれぞれ重要部として設定してよい。

　このように、本実施形態に係る情報処理サーバ２０によれば、ユーザＵ１が音声発話ＳＯ１における重要部ＩＰの出力位置を視覚的に把握することが可能となる。このため、ユーザＵ１は、重要部ＩＰが出力されるまでの間は音声発話ＳＯ１を適度に聞き流したり、重要部ＩＰの出力後には音声発話ＳＯ１に対する停止処理やバージイン発話などの操作入力を行うことで、時間をより有効に活用することが可能となる。以下、本実施形態に係る情報処理サーバ２０が有する上記の機能について詳細に説明する。

　＜＜１．２．システム構成例＞＞
　次に、本開示の一実施形態に係る情報処理システムのシステム構成例について説明する。図２は、本実施形態に係る情報処理システムのシステム構成例を示すブロック図である。図２を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０と情報処理サーバ２０とは、互いに通信が行えるようにネットワーク３０を介して接続される。

　（情報処理端末１０）
　本実施形態に係る情報処理端末１０は、情報処理サーバ２０による制御に基づいて、ユーザに対し音声発話および視覚情報を用いた情報提示を行う情報処理装置である。この際、本実施形態に係る情報処理端末１０は、音声発話における重要部の出力位置を視覚的に表示することを特徴の一つとする。

　本実施形態に係る情報処理端末１０は、音声出力機能および表示機能を有する種々の装置として実現され得る。本実施形態に係る情報処理端末１０は、例えば、携帯電話、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、据え置き型または自律移動型の専用装置であってもよい。

　（情報処理サーバ２０）
　本実施形態に係る情報処理サーバ２０は、情報処理端末１０による音声発話と視覚情報の出力を制御する機能を有する情報処理装置である。この際、本実施形態に係る情報処理サーバ２０は、音声発話における重要部の出力位置を情報処理端末１０に視覚的に表示させることを特徴の一つとする。

　（ネットワーク３０）
　ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係る情報処理システムのシステム構成例について説明した。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０および情報処理サーバ２０が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．３．情報処理端末１０の機能構成例＞＞
　次に、本実施形態に係る情報処理端末１０の機能構成例について説明する。図３は、本実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。図３を参照すると、本実施形態に係る情報処理端末１０は、表示部１１０、音声出力部１２０、音声入力部１３０、撮像部１４０、センサ部１５０、制御部１６０、およびサーバ通信部１７０を備える。

　（表示部１１０）
　本実施形態に係る表示部１１０は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部１１０は、例えば、情報処理サーバ２０による制御に基づいて、音声発話における重要部の出力位置を視覚的に表示することができる。

　このために、本実施形態に係る表示部１１０は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部１１０は、プロジェクション機能により視覚情報を出力してもよい。

　（音声出力部１２０）
　本実施形態に係る音声出力部１２０は、音声発話などを含む聴覚情報を出力する機能を有する。本実施形態に係る音声出力部１２０は、例えば、情報処理サーバ２０による制御に基づいて、ユーザの問い合わせに対応する回答などを音声発話により出力することができる。このために、本実施形態に係る音声出力部１２０は、スピーカやアンプなどの音声出力装置を備える。

　（音声入力部１３０）
　本実施形態に係る音声入力部１３０は、ユーザによる発話や背景音などの音情報を収集する機能を有する。音声入力部１３０が収集する音情報は、情報処理サーバ２０による音声認識や行動認識に用いられる。実施形態に係る音声入力部１３０は、音情報を収集するためのマイクロフォンを備える。

　（撮像部１４０）
　本実施形態に係る撮像部１４０は、ユーザや周囲環境を含む画像を撮像する機能を有する。撮像部１４０が撮像した画像は、情報処理サーバ２０によるユーザ認識や行動認識に用いられる。本実施形態に係る撮像部１４０は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。

　（センサ部１５０）
　本実施形態に係るセンサ部１５０は、ユーザの行動に関する種々のセンサ情報を収集する機能を有する。センサ部１５０が収集したセンサ情報は、情報処理サーバ２０によるユーザの状態認識や行動認識に用いられる。センサ部１５０は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、光センサ、振動センサ、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）信号受信装置などを備える。

　（制御部１６０）
　本実施形態に係る制御部１６０は、情報処理端末１０が備える各構成を制御する機能を有する。制御部１６０は、例えば、各構成の起動や停止を制御する。また、制御部１６０は、情報処理サーバ２０により生成される制御信号を表示部１１０や音声出力部１２０に入力することができる。また、本実施形態に係る制御部１６０は、後述する情報処理サーバ２０の出力制御部２３０と同等の機能を有してもよい。

　（サーバ通信部１７０）
　本実施形態に係るサーバ通信部１７０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う機能を有する。具体的には、サーバ通信部１７０は、音声入力部１３０が収集した音情報、撮像部１４０が撮像した画像情報、センサ部１５０が収集したセンサ情報を情報処理サーバ２０に送信する。また、サーバ通信部１７０は、情報処理サーバ２０から視覚情報や音声発話の出力に係る制御信号、人工音声を受信する。

　以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０は、図３に示す構成のすべてを必ずしも備えなくてもよい。情報処理端末１０は、撮像部１４０やセンサ部１５０などを備えない構成をとることもできる。また、上述したように、本実施形態に係る制御部１６０は、情報処理サーバ２０の出力制御部２３０と同等の機能を有してもよい。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．４．情報処理サーバ２０の機能構成例＞＞
　次に、本実施形態に係る情報処理サーバ２０の機能構成例について説明する。図４は、本実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。図４を参照すると、本実施形態に係る情報処理サーバ２０は、認識部２１０、設定部２２０、出力制御部２３０、音声合成部２４０、記憶部２５０、および端末通信部２６０を備える。また、記憶部２５０は、ユーザＤＢ２５２、モデルＤＢ２５４、およびコンテンツＤＢ２５６を備える。

　（認識部２１０）
　本実施形態に係る認識部２１０は、ユーザに係る種々の認識を行う機能を有する。例えば、認識部２１０は、情報処理端末１０が収集したユーザの発話や画像と、ユーザＤＢ２５２に予め記憶されるユーザの音声特徴や画像とを比較することでユーザの認識を行うことができる。

　また、認識部２１０は、情報処理端末１０が収集した音情報や画像、センサ情報に基づいて、ユーザの行動や状態を認識することができる。例えば、認識部２１０は、情報処理端末１０が収集したユーザの発話に基づいて音声認識を行い、ユーザの問い合わせやバージイン発話を検出することができる。また、例えば、認識部２１０は、情報処理端末１０が収集した画像やセンサ情報に基づいて、ユーザの視線、表情、ジェスチャ、行動などをを認識することができる。

　（設定部２２０）
　本実施形態に係る設定部２２０は、音声発話における重要部を設定する機能を有する。設定部２２０は、音声発話においてユーザにとってより優先度が高いと推定される情報を含む区間を重要部として設定する。この際、本実施形態に係る設定部２２０は、ユーザごとに設定される個別モデル、または複数のユーザに共通して設定される共通モデルに基づいて、優先度および重要部の設定を行ってよい。設定部２２０は、例えば、認識部２１０が認識したユーザに対応する個別モデルを後述するモデルＤＢ２５４から取得して優先度および重要部の設定を行うことができる。

　また、設定部２２０は、例えば、認識部２１０がユーザを認識できなかった場合には、全ユーザに共通する共通モデルに基づいて、重要部を設定してもよい。また、設定部２２０は、認識部２１０が認識したユーザの属性に基づいて、複数の共通モデルから当該属性に対応する共通モデルを取得し、重要部の設定を行うことも可能である。設定部２２０は、例えば、認識部２１０が認識したユーザの性別、年齢、使用言語などに基づいて、共通モデルを取得することができる。

　また、本実施形態に係る設定部２２０は、音声発話に対するユーザの応答発話や反応などに基づいて、個別モデルを生成する機能を有する。設定部２２０が有する機能の詳細については、別途後述する。

　（出力制御部２３０）
　本実施形態に係る出力制御部２３０は、情報提示に係る音声発話の出力を制御する機能を有する。また、本実施形態に係る出力制御部２３０は音声発話を出力させると共に、当該音声発話における重要部の出力位置を視覚的に表示させる機能を有する。この際、本実施形態に係る出力制御部２３０は、図１に示したように、バーＢやポインタＰを用いて、音声発話の出力に係る進捗と重要部の出力位置とを関連付けて表示させてもよい。

　また、本実施形態に係る出力制御部２３０は、音声発話の出力中における操作入力の受け入れ可否を制御する機能を有する。本実施形態に係る出力制御部２３０が有する機能の詳細については、別途後述する。

　（音声合成部２４０）
　本実施形態に係る音声合成部２４０は、出力制御部２３０による制御に基づいて、情報処理端末１０により出力される人工音声を合成する機能を有する。

　（記憶部２５０）
　本実施形態に係る記憶部２５０は、ユーザＤＢ２５２、モデルＤＢ２５４、およびコンテンツＤＢ２５６を備える。

　（（ユーザＤＢ２５２））
　本実施形態に係るユーザＤＢ２５２は、ユーザに関する種々の情報を記憶する。ユーザＤＢ２５２は、例えば、ユーザの顔画像や音声特徴などを記憶する。また、ユーザＤＢ２５２は、ユーザの性別、年齢、嗜好、傾向などの情報を記憶してもよい。

　（（モデルＤＢ２５４））
　本実施形態に係るモデルＤＢ２５４は、ユーザごとに設定される個別モデルや、複数のユーザに共通する共通モデルを記憶する。上述したように、上記の共通モデルは、すべてのユーザに共通するモデルであってもよいし、ユーザの属性ごとに設定されるモデルであってもよい。設定部２２０は、認識部２１０によるユーザの認識結果に基づいて対応するモデルをモデルＤＢ２５４から取得し、重要部の設定を行うことができる。

　（（コンテンツＤＢ２５６））
　本実施形態に係るコンテンツＤＢ２５６は、例えば、レストランの情報など種々のコンテンツを記憶する。本実施形態に係る出力制御部２３０は、コンテンツＤＢ２５６に記憶される情報を用いて、ユーザの問い合わせに対応する回答や、推薦情報、広告などを、音声発話や視覚情報を用いて出力させることができる。なお、本実施形態に係るコンテンツは、必ずしもコンテンツＤＢ２５６に記憶されなくてもよい。本実施形態に係る出力制御部２３０は、例えば、ネットワーク３０を介して別の装置からコンテンツを取得してもよい。

　（端末通信部２６０）
　本実施形態に係る端末通信部２６０は、ネットワーク３０を介して、情報処理端末１０との情報通信を行う機能を有する。具体的には、端末通信部２６０は、情報処理端末１０から発話などの音情報、画像情報、センサ情報を受信する。また、端末通信部２６０は、出力制御部２３０が生成した制御信号や、音声合成部２４０が合成した人工音声を情報処理端末１０に送信する。

　以上、本実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図４を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。例えば、情報処理サーバ２０は、必ずしも図４に示す構成のすべてを備えなくてもよい。認識部２１０、設定部２２０、音声合成部２４０、および記憶部２５０は、情報処理サーバ２０とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．５．モデル構築と出力制御の詳細＞＞
　次に、本実施形態に係る情報処理サーバ２０によるモデル構築と出力制御の詳細について説明する。上述したように、本実施形態に係る情報処理サーバ２０は、重要部と非重要部とを含む音声発話を出力させると共に、当該音声発話における重要部の出力位置を視覚的に表示させることを特徴の一つとする。情報処理サーバ２０が有する上記の特徴によれば、音声発話における重要部の出力位置をユーザに明確に知覚させることができ、音声発話を用いた情報提示の利便性を大きく向上させることが可能となる。

　この際、本実施形態に係る情報処理サーバ２０は、認識したユーザに対応するモデルを用いて優先度および重要部の設定を行うことができる。より具体的には、本実施形態に係る設定部２２０は、認識部２１０による認識結果に基づいて、ユーザごとに設定される個別モデル、または複数のユーザに共通して設定される共通モデルを取得し、優先度および重要部の設定を行うことができる。

　上述したように、本実施形態に係る重要部は、音声発話により提示される情報のうち、ユーザにとってより優先度が高いと推定される情報を含む区間である。例えば、図１に例示したレストランに係る情報提示の場合、ユーザによって重要視する情報、すなわち優先度の高い情報は異なることが推定される。例えば、あるユーザは価格情報に関心を持つ一方、別のユーザは、雰囲気や立地などを重要視することも考えられる。

　このため、本実施形態に係る情報処理サーバ２０は、ユーザごとに個別モデルを生成し、当該個別モデルに基づいて重要部の設定を行うことで、ユーザごとのニーズに応じた出力制御を実現することが可能である。この際、本実施形態に係る設定部２２０は、例えば、ユーザの発話に基づいて、個別モデルを生成してもよい。ここで、上記のユーザの発話は、例えば、問い合わせに係る発話を含む。

　図５は、本実施形態に係る問い合わせ発話に基づく個別モデルの生成について説明するための図である。図５には、ユーザＵ１が情報処理端末１０に対し、発話ＵＯ１およびＵＯ２による問い合わせを行っている状況が示されている。ここで、問い合わせに係る発話ＵＯ１およびＵＯ２は、共にレストランの情報提示に対するリクエストであってよい。

　この際、本実施形態に係る設定部２２０は、認識部２１０が認識したユーザＵ１の発話ＵＯ１およびＵＯ２に含まれる語彙に基づいてユーザＵ１に対応する個別モデルを生成することができる。設定部２２０は、例えば、発話ＵＯ１に含まれる「安いお店」をいう語彙や、発話ＵＯ２に含まれる「予算は、３０００円」という語彙に基づいて、ユーザＵ１が価格を重要視する傾向にあることを推定し、当該推定結果を反映した個別モデルを生成してよい。

　また、上記のユーザの発話は、問い合わせに限定されない。本実施形態に係る設定部２２０は、出力された音声発話に対するユーザの応答発話に基づいて、個別モデルの生成を行うことも可能である。

　図６Ａおよび６Ｂは、ユーザの応答発話に基づく個別モデルの生成について説明するための図である。図６Ａには、情報処理端末１０が出力する音声発話ＳＯ２に対し、ユーザＵ１が応答を示す発話ＵＯ３を行っている状況が示されている。この際、ユーザＵ１は、音声発話ＳＯ２に含まれる価格情報が出力されたタイミングで発話ＵＯ３を行っており、また、発話ＵＯ３は、次のレストラン情報の出力を指示するバージイン発話である。

　この際、本実施形態に係る設定部２２０は、応答を示す発話ＵＯ３が検出された際に出力されていた情報が価格情報であること、また、発話ＵＯ３が次のレストラン情報の出力を指示するバージイン発話であることに基づいて、ユーザＵ１が価格を重要視する傾向にあることを推定し、当該推定結果を反映した個別モデルを生成してよい。

　また、図６Ｂには、情報処理端末１０が出力する音声発話ＳＯ３に対し、ユーザＵ１が応答を示す発話ＵＯ４を行っている状況が示されている。この際、ユーザＵ１は、音声発話ＳＯ３に含まれる価格情報が出力されたタイミングで発話ＵＯ４を行っており、また、発話ＵＯ４は、詳細情報の出力を指示するバージイン発話である。

　この際、本実施形態に係る設定部２２０は、応答を示す発話ＵＯ４が検出された際に出力されていた情報が価格情報であること、また、発話ＵＯ４が詳細情報の出力を指示するバージイン発話であることに基づいて、ユーザＵ１が価格を重要視する傾向にあることを推定し、当該推定結果を反映した個別モデルを生成することができる。

　このように、本実施形態に係る設定部２２０は、バージイン発話などの応答発話と出力中の音声発話とに基づいて、ユーザが重要視する項目を推定し、個別モデルを生成することが可能である。本実施形態に係る設定部２２０が有する上記の機能によれば、出力される音声発話に対するユーザの応答発話をモニタリングすることで、ユーザが重要視する項目を精度高く推定することが可能となる。

　また、本実施形態に係る設定部２２０は、発話に依らないユーザの反応に基づいて、個別モデルの生成を行ってもよい。図７は、情報提示に対するユーザの反応に基づく個別モデルの生成について説明するための図である。図７には、情報処理端末１０が出力する音声発話ＳＯ４および視覚情報ＶＩ４に対するユーザＵ１の反応が示されている。ここで、上記の反応には、例えば、ユーザの表情、視線、ジェスチャ、行動などを含まれる。図７に示す一例では、ユーザＵ１が、視覚情報ＶＩ４に含まれる価格情報を注視している状況が示されている。

　この際、本実施形態に係る設定部２２０は、ユーザＵ１が表示される価格情報を注視していることに基づいて、ユーザＵ１が価格を重要視する傾向にあることを推定し、当該推定結果を反映した個別モデルを生成することができる。

　設定部２２０は、例えば、立地や雰囲気に関する情報の音声出力時にユーザＵ１が当該音声出力を集中して聴いていないことが認識された場合、ユーザＵ１が立地や雰囲気を重要視していないと推定し、当該推定結果を個別モデルに反映してもよい。このように、本実施形態に係る設定部２２０によれば、ユーザの種々の反応に基づいた精度の高い個別モデルを生成することが可能である。

　以上、本実施形態に係る個別モデルについて詳細に説明した。続いて、本実施形態に係る共通モデルに基づく出力制御について詳細に説明する。例えば、ユーザの傾向に関する情報が十分に蓄積されていない場合や、情報処理端末１０が不特定多数のユーザに用いられる装置である場合など、個々のユーザに対し個別モデルに基づく出力制御を行うことが困難な状況も想定される。このような場合、本実施形態に係る情報処理サーバ２０は、複数のユーザに共通して設定される共通モデルに基づいて、重要部の出力位置を表示させてもよい。

　図８は、本実施形態に係る共通モデルに基づく出力制御について説明するための図である。図８には、天気の問い合わせに係るユーザＵ１の発話ＵＯ５と、発話ＵＯ５に対応して情報処理端末１０が出力する音声発話ＳＯ５および視覚情報ＶＩ５とが示されている。

　この際、本実施形態に係る設定部２２０は、複数のユーザに共通する共通モデルに従い、重要部の設定を行うことができる。図８に示す一例の場合、設定部２２０は、音声発話ＳＯ５が含む情報のうち、ユーザＵ１の問い合わせに係る回答に該当する情報を重要部として設定している。具体的には、設定部２２０は、音声発話ＳＯ５が含む情報のうち、問い合わせに係る発話ＵＯ５に対応する回答部分「１０度です」を重要部として設定してよい。このように、本実施形態に係る共通モデルに基づく出力制御では、ユーザの問い合わせに対する回答部分を重要部として設定することで、ユーザにとってより優先度の高い情報の出力位置をユーザに知覚させることも可能である。

　また、本実施形態に係る情報処理サーバ２０は、ユーザの属性に対応する共通モデルに基づいて重要部の出力位置を表示させることもできる。例えば、５０代男性のユーザと２０代女性のユーザでは、異なる項目を重要視する傾向がある場合も想定される。このため、本実施形態に係る設定部２２０は、認識部２１０が認識したユーザの属性に対応した共通モデルを用いて重要部の設定を行うことで、より精度の高い重要部の設定を実現することが可能である。

　図９は、本実施形態に係るユーザの属性に対応する共通モデルを用いた出力制御について説明するための図である。図９に示す一例の場合、設定部２２０は、認識部２１０が認識したユーザＵ１の性別や年齢に基づいて取得した共通モデルに基づいて、ユーザＵ１が該当する属性のユーザは価格情報を重要視する傾向があることを推定し、当該価格情報を重要部として設定することができる。

　本実施形態に係る設定部２２０が有する上記の機能によれば、ユーザの個人データが不足している場合や、存在しない場合であっても、精度の高い重要部推定を実現することができ、ユーザの利便性を高めることが可能となる。なお、ユーザの属性に対応する共通モデルは、予め設定されるものであってもよいし、個人モデルの転用により生成されるものであってもよい。例えば、設定部２２０は、生成した複数の個人モデルを属性ごとに平均化することで属性に対応する共通モデルを生成することも可能である。

　以上、本実施形態に係る個人モデルおよび共通モデルに基づく出力制御について説明した。なお、上記の説明では、出力制御部２３０がバーＢやポインタＰなどを用いて重要部の出力位置を視覚的に表示させることを主に説明したが、本実施形態に係る出力制御部２３０は、上記の例に限らず種々の出力制御を行うことが可能である。

　本実施形態に係る出力制御部２３０は、例えば、図９に示すように、カウントダウンＣを表示することで、重要部ＩＰが音声出力されるまでの時間をより明示的にユーザに提示してもよい。また、出力制御部２３０は、例えば、「３０００円」という価格情報を予め視覚情報ＩＶ６に含ませることで、重要部を視覚的にユーザに提示することも可能である。

　また、出力制御部２３０は、重要部の音声発話に係る出力態様を制御してもよい。例えば、図９に示す一例の場合、出力制御部２３０は、「よく聞いてください！」という強調句を含んだ音声発話ＳＯ６を出力させることで、ユーザＵ１に重要部が出力されることを強調している。また、出力制御部２３０は、音声出力ＳＯ６に係る音量や声色、韻律などを制御することで、ユーザＵ１の注意を引くことも可能である。

　＜＜１．６．複数のユーザに対応した出力制御＞＞
　次に、本実施形態に係る複数のユーザに対応した出力制御について説明する。上記の説明においては、単一のユーザに対する出力制御について説明した。一方、本実施形態に情報処理サーバ２０は、複数のユーザが存在する場合であっても、それぞれのユーザに対応した重要部の出力位置表示を適切に制御することが可能である。

　図１０は、本実施形態に係る複数の係る複数のユーザに対応した出力制御について説明するための図である。図１０には、複数のユーザＵ１およびＵ２、情報処理端末１０により出力される視覚情報ＩＶ７、音声発話ＳＯ７およびＳＯ８が示されている。

　この際、本実施形態に係る設定部２２０は、認識部２１０が認識したユーザＵ１よびＵ２に対応するモデルをそれぞれモデルＤＢ２５４から取得し、ユーザＵ１およびＵ２に対しそれぞれ別途に重要部の設定を行う。図１０に示す一例の場合、設定部２２０は、ユーザＵ１に対しては価格情報を重要部として設定し、ユーザＵ２に対しては立地情報を重要部として設定している。

　また、出力制御部２３０は、設定部２２０が設定した重要度に基づいて、複数のユーザＵ１およびＵ２のそれぞれに対応した重要部ＩＰ１およびＩＰ２の出力位置を表示させている。このように、本実施形態に係る情報処理サーバ２０によれば、複数のユーザが存在する場合であっても、当該複数のユーザに対応する個別モデルに基づいて、ユーザのそれぞれに対応した重要部の出力位置を表示させることができる。本実施形態に係る情報処理サーバ２０が有する上記の機能によれば、複数のユーザが、それぞれが求める情報がいつ出力されるのかを把握することができ、より利便性の高い情報提示を実現することが可能となる。

　また、この際、本実施形態に係る出力制御部２３０は、認識されたユーザの位置に応じて音声発話や視覚情報の出力を制御してもよい。例えば、図１０に示す一例の場合、出力制御部２３０は、価格情報を含む音声発話ＳＯ７をユーザＵ１の位置する方向に出力させ、立地情報を含む音声発話ＳＯ８をユーザＵ２の位置する方向に出力させている。出力制御部２３０は、音声出力部１２０が有するビームフォーミング機能を制御することで、上記の処理を実現することが可能である。

　また、出力制御部２３０は、図１０に示すように、ユーザＵ１が重要視する価格情報をユーザＵ１が視認しやすい位置に表示させ、ユーザＵ２が重要視する立地情報をユーザＵ２が視認しやすい位置に表示させてもよい。本実施形態に係る出力制御部２３０が有する上記の機能によれば、ユーザがより重要部に係る情報を知覚しやすくなり、情報提示の利便性を高めることができる。

　また、本実施形態に係る出力制御部２３０は、複数のユーザに係る重要部の出力位置に応じて、音声発話の出力中における操作入力の受け入れ可否を制御してもよい。図１１は、本実施形態に係る操作入力の受け入れ可否制御について説明するための図である。図１１には、図１０の場合と同様に、ユーザＵ１およびＵ２にそれぞれ対応する重要部ＩＰ１およびＩＰ２の出力位置が視覚情報ＶＩ８として示されている。

　この際、ユーザＵ１は、自身が重要視する価格情報に対応する重要部ＩＰ１の出力が終了したタイミングで、次のレストラン情報の出力を指示する発話ＵＯ６を行っている。しかし、図１１を参照すると、上記のタイミングでは、ユーザＵ２が重要視する立地情報に対応する重要部ＩＰ２の音声出力が完了していないことがわかる。

　このような場合、本実施形態に係る出力制御部２３０は、ユーザＵ２に対応する重要部ＩＰ２に対応する音声出力が完了するまでの間は、ユーザＵ１による操作有力を受け入れない制御を行ってよい。すなわち、本実施形態に係る出力制御部２３０は、第１のユーザ（ユーザＵ２）に対応する重要部の出力前または出力中における第２のユーザ（ユーザＵ１）による操作入力を受け入れないことで、第１のユーザが重要部に対応する音声発話を聞き逃すことを防止することができる。

　また、この際、出力制御部２３０は、図１１に示すように、アイコンＩ１などを表示させることで、明示的に操作入力を受け付けないことを示してもよい。なお、上記のような操作入力には、図１１に示すようなバージイン発話や、ボタン操作などによる情報出力の停止処理が含まれる。本実施形態に係る出力制御部２３０が有する上記の機能によれば、重要部の音声出力が完了する前における他のユーザによる割り込み処理を効果的に防止することが可能となる。

　一方、本実施形態に係る出力制御部２３０は、重要部の出力前に検出された操作入力に基づいて、音声発話や視覚情報の出力を制御することもできる。例えば、図１１に示すタイミングで、ユーザＵ１がバージイン発話である発話ＵＯ６を行った場合、出力制御部２３０は、重要部ＩＰ２の音声出力が完了していないことに基づいて、重要部ＩＰ２に対応する音声出力を完了させてから、次のレストラン情報の提示に移行してもよい。また、出力制御部２３０は、重要部ＩＰ２に対応する対応する立地情報を視覚情報ＶＩ８として表示させてから、次のレストラン情報の提示に移行することもできる。

　また、他方で、本実施形態に係る出力制御部２３０は、第１のユーザに対応する重要部の出力中に第２のユーザの操作入力を検出した場合、第１のユーザの集中度に基づいて、操作入力の受け入れ可否を制御することも可能である。

　図１２は、本実施形態に係るユーザの集中度に基づく操作入力の受け入れ可否制御について説明するための図である。図１２に示す一例では、図１１の場合と同様に、ユーザＵ１が、自身が重要視する価格情報に対応する重要部ＩＰ１の音声出力が終了したタイミングで、次のレストラン情報の出力を指示する発話ＵＯ７を行っている。

　一方、図１２に示す一例では、ユーザＵ２は、自身が重要視する立地情報に対応する重要部ＩＰ２の音声出力が開始されているにも関わらず、音声発話ＳＯ１０を聴いていない。このような場合、本実施形態に係る出力制御部２３０は、重要部ＩＰ２に対応する音声出力中にユーザＵ２の集中度が低いと検出されたことに基づいて、ユーザＵ１による操作入力を受け入れ、次のレストラン情報の提示に移行してもよい。本実施形態に係る出力制御部２３０が有する上記の機能によれば、音声発話に集中していないユーザの影響を排除し、他のユーザによる指示を優先的に受け入れることで、全体の利便性を効率的に向上させることが可能となる。

　また、本実施形態に係る出力制御部２３０は、認識部２１０が検出したユーザの集中度を視覚的に表示させてもよい。図１３は、本実施形態に係る集中度の表示制御について説明するための図である。図１３には、複数のユーザが共有する仮想空間において表示される視覚情報ＶＩ１０が示されている。このように、本実施形態に係る出力制御部２３０は、例えば、ヘッドマウントディスプレイ型の情報処理端末１０により表示される視覚情報ＶＩ１０の出力制御を実現することができる。

　この際、出力制御部２３０は、例えば、仮想キャラクターＣによる情報提示の出力を制御してもよい。具体的には、出力制御部２３０は、仮想キャラクターＣに係る視覚情報の制御や、仮想キャラクターＣの台詞に対応する音声発話ＳＯ１１の出力を制御する。また、出力制御部２３０は、音声発話ＳＯ１１における重要部ＩＰ１やＩＰ２の出力位置をバーＢやポインタＰを用いて表示させる。

　このような仮想空間においては、複数のユーザは互いに実体を知覚できない場合も多く、各ユーザは、例えば、アバターＡなどを介して他のユーザの状態を把握することができる。このため、各ユーザは、他のユーザが実際にどれだけ集中して発話音声ＳＯ１１に傾聴しているかを判断することが困難である。

　このため、本実施形態に係る出力制御部２３０は、アバターＡと当該アバターＡに対応するユーザの集中度を示すアイコンＩ２とを対応付けて表示させることで、他のユーザに、アバターＡに対応するユーザの音声発話ＳＯ１１に対する集中度を知覚させることができる。

　例えば、視覚情報ＶＩ１０が図１２に示したユーザＵ２の視点であり、アバターＡに対応するユーザがユーザＵ１である場合、ユーザＵ２は、アイコンＩ２を視認することで、ユーザＵ１が重要部ＩＰ１に対応する音声出力に集中していることを把握することができる。このように、本実施形態に係る出力制御部２３０が有する上記の機能によれば、ユーザが他のユーザの集中度を視覚的に把握することが可能となり、不本意に他のユーザの傾聴行動を阻害することを防ぐことが可能となる。

　＜＜１．７．処理の流れ＞＞
　次に、本実施形態に係る情報処理サーバ２０による処理の流れについて詳細に説明する。図１４は、本実施形態に係る情報処理サーバ２０による処理の流れを示すフローチャートである。

　図１４を参照すると、まず、情報処理サーバ２０の端末通信部２６０が、情報処理端末１０により収集された収集情報を受信する（Ｓ１１０１）。ここで、上記の収集情報には、ユーザの発話を含む音情報、ユーザを含む画像情報、またユーザに係るセンサ情報が含まれる。

　続いて、認識部２１０は、ステップＳ１１０１において受信された収集情報に基づいて、ユーザの認識を行う（Ｓ１１０２）。また、認識部２１０は、継続してユーザの状態や行動を認識し、集中度などの算出を行ってよい。

　次に、設定部２２０は、ステップＳ１１０２において認識されたユーザに対応するモデルをモデルＤＢ２５４から取得する（Ｓ１１０３）。この際、設定部２２０は、ステップＳ１１０２において特定されたユーザに対応する個別モデルを取得してもよいし、認識されたユーザの属性に対応する共通モデルを取得してもよい。

　続いて、設定部２２０は、ステップＳ１１０３において取得したモデルに基づいて、音声発話における重要部の設定を行う（Ｓ１１０４）。

　次に、出力制御部２３０は、ステップＳ１１０４において設定された重要部を含む音声発話に対応する人工音声を音声合成部２４０に合成させる（Ｓ１１０５）。

　続いて、出力制御部２３０は、音声発話の出力制御を行うと共に、ステップＳ１１０３において設定された重要部と、ステップＳ１１０５において合成された人工音声とに基づいて算出した当該重要部の出力位置を表示部１１０に表示させる（Ｓ１１０６）。

　また、出力制御部２３０は、ステップＳ１１０６における出力制御と並行して、ユーザによる操作入力の受け入れ可否を制御する（Ｓ１１０７）。

　また、設定部２２０は、音声発話に対するユーザの応答発話や反応が検出された場合、当該応答発話や反応に基づいて、対応するモデルを更新する（Ｓ１１０８）。

　＜２．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０に共通するハードウェア構成例について説明する。図１５は、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。図１５を参照すると、情報処理端末１０および情報処理サーバ２０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示の一実施形態に係る情報処理サーバ２０は、情報処理端末１０に音声発話を出力させると共に、当該音声発話における重要部の出力位置を視覚的に表示させることができる。係る構成によれば、音声発話による情報提示において、重要部の出力位置をユーザに知覚させることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本明細書の情報処理サーバ２０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ２０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　情報提示に係る音声発話の出力を制御する出力制御部、
　を備え、
　前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、
情報処理装置。
（２）
　前記音声発話は、ユーザにとってより優先度が高いと推定される情報を含む前記重要部と、前記重要部と比較して優先度の劣る情報を含む非重要部と、を含む、
前記（１）に記載の情報処理装置。
（３）
　前記出力制御部は、前記音声発話の出力に係る進捗と前記重要部の出力位置とを関連付けて出力させる、
前記（１）または（２）に記載の情報処理装置。
（４）
　前記出力制御部は、ユーザごとに設定される個別モデルに基づいて前記重要部の出力位置を表示させる、
前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
　前記出力制御部は、複数の前記ユーザに係る前記個別モデルに基づいて、複数の前記ユーザのそれぞれに対応した前記重要部の出力位置を表示させる、
前記（４）に記載の情報処理装置。
（６）
　前記出力制御部は、複数のユーザに共通して設定される共通モデルに基づいて前記重要部の出力位置を表示させる、
前記（１）～（３）のいずれかに記載の情報処理装置。
（７）
　前記出力制御部は、前記ユーザの属性に対応する前記共通モデルに基づいて前記重要部の出力位置を表示させる、
前記（６）に記載の情報処理装置。
（８）
　前記出力制御部は、前記音声発話の出力中における操作入力の受け入れ可否を制御する、
前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
　前記出力制御部は、第１のユーザに対応する前記重要部の出力前または出力中における第２のユーザによる前記操作入力を受け入れない、
前記（８）に記載の情報処理装置。
（１０）
　前記出力制御部は、第１のユーザに対応する前記重要部の出力中に第２のユーザの前記操作入力を検出した場合、前記第１のユーザの集中度に基づいて、前記操作入力の受け入れ可否を制御する、
前記（８）に記載の情報処理装置。
（１１）
　前記出力制御部は、前記重要部の出力前または出力中に検出された前記操作入力に基づいて、前記音声発話または視覚情報のうち少なくともいずれかの出力を制御する、
前記（８）～（１０）のいずれかに記載の情報処理装置。
（１２）
　前記操作入力は、バージイン発話を含む、
前記（８）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記個別モデルは、前記ユーザの発話に基づいて生成される、
前記（４）または（５）に記載の情報処理装置。
（１４）
　前記個別モデルは、前記情報提示に対する前記ユーザの反応に基づいて生成される、
前記（４）、５、または１３に記載の情報処理装置。
（１５）
　認識されたユーザに基づいて前記重要部を設定する設定部、
　をさらに備える、
前記（１）～（１４）のいずれかに記載の情報処理装置。
（１６）
　前記設定部は、前記ユーザごとに対応する個別モデルを生成する、
前記（１５）に記載の情報処理装置。
（１７）
　前記出力制御部による制御に基づいて前記重要部の出力位置を表示する表示部、
　をさらに備える、
前記（１）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記出力制御部による制御に基づいて前記音声発話を出力する音声出力部、
　をさらに備える、
前記（１）～（１７）のいずれかに記載の情報処理装置。
（１９）
　プロセッサが、情報提示に係る音声発話の出力を制御すること、
　を含み、
　前記制御することは、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させること、
　をさらに含む、
情報処理方法。
（２０）
　コンピュータを、
　情報提示に係る音声発話の出力を制御する出力制御部、
　を備え、
　前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、
　情報処理装置、
として機能させるためのプログラム。

　１０　　　情報処理端末
　１１０　　表示部
　１２０　　音声出力部
　１３０　　音声入力部
　１４０　　撮像部
　１５０　　センサ部
　１６０　　制御部
　１７０　　サーバ通信部
　２０　　　情報処理サーバ
　２１０　　認識部
　２２０　　設定部
　２３０　　出力制御部
　２４０　　音声合成部
　２５０　　記憶部
　２５２　　ユーザＤＢ
　２５４　　モデルＤＢ
　２５６　　コンテンツＤＢ
　２６０　　端末通信部

Claims

　情報提示に係る音声発話の出力を制御する出力制御部、
　を備え、
　前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、
情報処理装置。
　前記音声発話は、ユーザにとってより優先度が高いと推定される情報を含む前記重要部と、前記重要部と比較して優先度の劣る情報を含む非重要部と、を含む、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記音声発話の出力に係る進捗と前記重要部の出力位置とを関連付けて出力させる、
請求項１に記載の情報処理装置。
　前記出力制御部は、ユーザごとに設定される個別モデルに基づいて前記重要部の出力位置を表示させる、
請求項１に記載の情報処理装置。
　前記出力制御部は、複数の前記ユーザに係る前記個別モデルに基づいて、複数の前記ユーザのそれぞれに対応した前記重要部の出力位置を表示させる、
請求項４に記載の情報処理装置。
　前記出力制御部は、複数のユーザに共通して設定される共通モデルに基づいて前記重要部の出力位置を表示させる、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記ユーザの属性に対応する前記共通モデルに基づいて前記重要部の出力位置を表示させる、
請求項６に記載の情報処理装置。
　前記出力制御部は、前記音声発話の出力中における操作入力の受け入れ可否を制御する、
請求項１に記載の情報処理装置。
　前記出力制御部は、第１のユーザに対応する前記重要部の出力前または出力中における第２のユーザによる前記操作入力を受け入れない、
請求項８に記載の情報処理装置。
　前記出力制御部は、第１のユーザに対応する前記重要部の出力中に第２のユーザの前記操作入力を検出した場合、前記第１のユーザの集中度に基づいて、前記操作入力の受け入れ可否を制御する、
請求項８に記載の情報処理装置。
　前記出力制御部は、前記重要部の出力前または出力中に検出された前記操作入力に基づいて、前記音声発話または視覚情報のうち少なくともいずれかの出力を制御する、
請求項８に記載の情報処理装置。
　前記操作入力は、バージイン発話を含む、
請求項８に記載の情報処理装置。
　前記個別モデルは、前記ユーザの発話に基づいて生成される、
請求項４に記載の情報処理装置。
　前記個別モデルは、前記情報提示に対する前記ユーザの反応に基づいて生成される、
請求項４に記載の情報処理装置。
　認識されたユーザに基づいて前記重要部を設定する設定部、
　をさらに備える、
請求項１に記載の情報処理装置。
　前記設定部は、前記ユーザごとに対応する個別モデルを生成する、
請求項１５に記載の情報処理装置。
　前記出力制御部による制御に基づいて前記重要部の出力位置を表示する表示部、
　をさらに備える、
請求項１に記載の情報処理装置。
　前記出力制御部による制御に基づいて前記音声発話を出力する音声出力部、
　をさらに備える、
請求項１に記載の情報処理装置。
　プロセッサが、情報提示に係る音声発話の出力を制御すること、
　を含み、
　前記制御することは、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させること、
　をさらに含む、
情報処理方法。
　コンピュータを、
　情報提示に係る音声発話の出力を制御する出力制御部、
　を備え、
　前記出力制御部は、前記音声発話を出力させると共に、前記音声発話における重要部の出力位置を視覚的に表示させる、
　情報処理装置、
として機能させるためのプログラム。