JPWO2017179262A1

JPWO2017179262A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JPWO2017179262A1
Application number: JP2018511890A
Authority: JP
Inventors: 祐平滝; 真一河野; 佑輔中川; 邦仁澤井; 亜由美加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-04-12
Filing date: 2017-01-24
Publication date: 2019-02-14
Anticipated expiration: 2037-01-24
Also published as: US11100944B2; DE112017001987T5; JP6943237B2; CN108885594B; US20210193168A1; WO2017179262A1; CN108885594A; KR20180134339A

Abstract

【課題】ユーザ間でメッセージが交換される場面における利便性を向上させることが可能な、情報処理装置、情報処理方法、およびプログラムを提案する。
【解決手段】音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力を制御する出力制御部、を備え、前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、情報処理装置。
【選択図】図１３

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、例えばチャットなど、ネットワークを介してユーザ間でコミュニケーションを行うための技術が各種開発されている。チャットでは、テキストや音声などを参加者間でリアルタイムに交換することができる。

また、テキスト情報と音声情報とを変換する技術も提案されている。例えば、下記特許文献１には、一方のユーザにより入力されたテキストを音声データに変換し、そして、変換された音声データを、別のユーザが利用するイヤフォンに出力する技術が記載されている。

特開２００４−１２９１７４号公報

ところで、ユーザ間でメッセージが交換される場面に特許文献１に記載の技術を適用することを想定すると、特許文献１に記載の技術では、相手ユーザの状況に関する情報がユーザに通知されない。このため、特許文献１に記載の技術では、例えば、ユーザからのメッセージを相手ユーザが待っている状況をユーザが把握することが困難であった。

そこで、本開示では、ユーザ間でメッセージが交換される場面における利便性を向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

本開示によれば、音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力を制御する出力制御部、を備え、前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、情報処理装置が提供される。

また、本開示によれば、音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力をプロセッサが制御すること、を含み、前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、情報処理方法が提供される。

また、本開示によれば、コンピュータを、音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力を制御する出力制御部、として機能させるための、プログラムであって、前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、プログラムが提供される。

以上説明したように本開示によれば、ユーザ間でメッセージが交換される場面における利便性を向上させることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

各実施形態に共通する情報処理システムの構成例を示した説明図である。第１の実施形態による端末２０の構成例を示した機能ブロック図である。第１の実施形態によるメッセージの交換処理の流れを示したシーケンス図である。第１の実施形態によるサーバ１０の構成例を示した機能ブロック図である。第１の実施形態による制限時間算出用ＤＢ１２４の構成例を示した説明図である。第１の実施形態による発話特性係数テーブル１２６の構成例を示した説明図である。第１の実施形態によるセンシング情報係数テーブル１２８の構成例を示した説明図である。第１の実施形態による指示代名詞有無係数テーブル１３０の構成例を示した説明図である。第１の実施形態による時間情報係数テーブル１３２の構成例を示した説明図である。第１の実施形態によるインジケータの表示例を示した説明図である。第１の実施形態によるインジケータの表示例を示した説明図である。第１の実施形態によるインジケータの表示例を示した説明図である。第１の実施形態による動作の全体的な流れを示したフローチャートである。第１の実施形態によるインジケータ表示要否判定処理の流れを示したフローチャートである。第１の実施形態による返信制限時間算出処理の流れを示したフローチャートである。第１の実施形態によるインジケータ停止判定処理の流れを示したフローチャートである。第２の実施形態による動作の一部を示したシーケンス図である。第２の実施形態による動作の一部を示したシーケンス図である。第３の実施形態による動作を示したシーケンス図である。第４の実施形態による動作を示したシーケンス図である。各実施形態に共通するサーバ１０のハードウェア構成例を示した説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じて端末２０ａおよび端末２０ｂのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、端末２０ａおよび端末２０ｂを特に区別する必要が無い場合には、単に端末２０と称する。

また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
１．情報処理システムの構成
２．第１の実施形態
３．第２の実施形態
４．第３の実施形態
５．第４の実施形態
６．ハードウェア構成
７．変形例

＜＜１．情報処理システムの構成＞＞
まず、本開示の各実施形態に共通する情報処理システムの構成例について、図１を参照して説明する。図１に示すように、各実施形態に共通する情報処理システムは、サーバ１０、端末２０、および、通信網３０を含む。

本開示の各実施形態では、例えば二人のユーザ２がチャットを行う場面を想定する。より具体的には、一方のユーザ２ａは、音声入力によるチャット（音声チャット）を行い、かつ、もう一方のユーザ２ｂは、テキスト入力によるチャット（テキストチャット）を行う。例えば、二人のユーザは、同じビデオゲームをプレイしながら、チャットを行う。なお、テキストチャットでは、ユーザは、例えばキーボードなどの入力装置や、表示画面に表示されるソフトウェアキーボードなどを用いてテキストを入力することも可能であるし、または、音声テキスト入力によりテキストを入力することも可能である。

＜１−１．端末２０＞
端末２０は、ユーザ２がチャットを行うために使用する装置である。なお、図１では、端末２０がゲーム機である例を示しているが、かかる例に限定されない。例えば、端末２０は、汎用ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット端末、スマートフォンなどの携帯電話、または、例えばＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）やヘッドセットなどのウェアラブルデバイスであってもよい。なお、以下では、端末２０がゲーム機である例を中心として説明を行う。

ここで、図２を参照して、端末２０の機能構成の例について説明する。図２に示すように、端末２０は、例えば、制御部２００、集音部２２０、操作部２２２、測定部２２４、表示部２２６、音声出力部２２８、および、通信部２３０を有する。

制御部２００は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのハードウェアを用いて、端末２０の動作を全般的に制御する。

集音部２２０は、外部の音声を集音する。また、集音部２２０は、集音した音声を制御部２００へ伝達する。

操作部２２２は、ユーザの入力を受け付ける。また、操作部２２２は、受け付けた内容を制御部２００へ伝達する。

測定部２２４は、例えば、カメラ、汗センサー、温度センサーなどの各種のセンサーを含む。測定部２２４は、例えばユーザの状態に関する測定を行う。また、測定部２２４は、測定した結果を制御部２００へ伝達する。

表示部２２６は、本開示における出力部の一例である。表示部２２６は、制御部２００の制御に従って、表示画面を表示する。

音声出力部２２８は、本開示における出力部の一例である。音声出力部２２８は、制御部２００の制御に従って、音声を出力する。

通信部２３０は、例えば通信網３０を介して、他の装置との間で情報を送受信する。例えば、通信部２３０は、制御部２００の制御に従って、集音部２２０により集音された音声をサーバ１０へ送信する。また、通信部２３０は、他のユーザにより入力されたメッセージなどをサーバ１０から受信する。

なお、端末２０の構成は、上述した例に限定されない。例えば、集音部２２０、操作部２２２、測定部２２４、表示部２２６、および、音声出力部２２８のうちいずれか一以上は、端末２０の外部に設けられてもよい。

＜１−２．サーバ１０＞
サーバ１０は、本開示における情報処理装置の一例である。サーバ１０は、端末２０間で、入力されたメッセージの交換を制御する。例えば、サーバ１０は、音声チャットユーザ２ａにより入力された音声をそのまま、テキストチャットユーザ２ｂが使用する端末２０ｂへ伝達することも可能であるし、または、入力された音声を音声認識した結果を端末２０ｂへ伝達することも可能である。また、サーバ１０は、テキストチャットユーザ２ｂにより入力されたテキストをＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）を用いて音声に変換し、そして、変換後の音声を、音声チャットユーザ２ａが使用する端末２０ａへ伝達する。これにより、音声チャットユーザ２ａおよびテキストチャットユーザ２ｂは、同一のチャット方法を用いる場合と同じような感覚でチャットを行うことができる。

｛１−２−１．メッセージの交換処理の流れ｝
ここで、図３を参照して、音声チャットユーザ２ａとテキストチャットユーザ２ｂとの間でのメッセージの交換処理の流れについて具体的に説明する。図３に示したように、まず、音声チャットユーザ２ａは、発話を行う（Ｓ１１）。そして、音声チャットユーザ２ａが使用する端末２０ａは、発話の音声を集音し、そして、集音した音声をサーバ１０へ送信する（Ｓ１３）。

その後、サーバ１０は、受信した音声を、テキストチャットユーザ２ｂが使用する端末２０ｂへ送信する（Ｓ１５）。

その後、端末２０ｂの音声出力部２２８ｂは、受信した音声を出力する（Ｓ１７）。その後、テキストチャットユーザ２ｂは、例えば操作部２２２を使用して、テキストを入力する（Ｓ１９）。そして、入力が完了すると、端末２０ｂは、入力されたテキストをサーバ１０へ送信する（Ｓ２１）。

その後、サーバ１０は、受信したテキストをＴＴＳ機能により音声に変換する（Ｓ２３）。そして、サーバ１０は、変換した音声を端末２０ａへ送信する（Ｓ２５）。

その後、端末２０ａの音声出力部２２８ａは、受信した音声を出力する（Ｓ２７）。

＜１−３．通信網３０＞
通信網３０は、通信網３０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網３０は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網３０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

＜１−４．課題の整理＞
以上、各実施形態に共通する情報処理システムの構成について説明した。ところで、一般的に、テキストチャットでは、音声チャットと比較して、メッセージの入力に長時間を要する。このため、音声チャットユーザとテキストチャットユーザとの間でのチャットでは、音声チャットユーザが、テキストチャットユーザからの返信を待つ時間が長くなり、不満に感じ得る。そこで、例えば、テキストチャットユーザからの返信を待つことを音声チャットユーザが許容可能な時間の長さなどの情報をテキストチャットユーザが知ることが可能であることが望まれる。

そこで、上記事情を一着眼点にして、第１の実施形態によるサーバ１０を創作するに至った。後述するように、第１の実施形態によれば、サーバ１０は、音声チャットユーザによる発話の検出に基づいて、テキストチャットユーザからの返信に関する音声チャットユーザの待ち状況を示す情報（以下、音声チャットユーザの待ち状況を示す情報と称する）の出力を制御することが可能である。これにより、テキストチャットユーザは、メッセージの入力時において、音声チャットユーザの待ち状況を把握することができる。

＜＜２．第１の実施形態＞＞
＜２−１．構成＞
次に、第１の実施形態について説明する。まず、第１の実施形態によるサーバ１０の構成について詳細に説明する。図４は、第１の実施形態によるサーバ１０の構成例を示した機能ブロック図である。図４に示すように、サーバ１０は、制御部１００、通信部１２０、および、記憶部１２２を有する。

｛２−１−１．制御部１００｝
制御部１００は、サーバ１０に内蔵される、後述するＣＰＵ１５０や、ＲＡＭ１５４などのハードウェアを用いて、サーバ１０の動作を全般的に制御する。また、図４に示すように、制御部１００は、音声解析部１０２、感情推定部１０４、返信制限時間算出部１０６、および、出力制御部１０８を有する。

｛２−１−２．音声解析部１０２｝
（２−１−２−１．発話特性の解析）
音声解析部１０２は、端末２０から受信された音声を解析する。例えば、音声解析部１０２は、受信された音声の発話特性を解析する。ここで、発話特性は、例えば、声の音量、話速、または、ピッチなどである。

（２−１−２−２．音声認識）
また、音声解析部１０２は、受信された音声の音声認識、および、構文解析を行う。例えば、音声解析部１０２は、受信された音声の音声認識を行い、そして、認識結果に基づいて、発話文章のモダリティ解析を行う。ここで、モダリティ解析は、文章の言語的な種類（例えば、「否定」、「感嘆」、「勧誘」、および「疑問」など）を解析することである。

また、音声解析部１０２は、モダリティ解析の結果に基づいて、発話文章のモダリティが、応答を必要とするモダリティであるか否かを判定する。例えば、モダリティ解析により解析されたモダリティの種類が「条件」、「問いかけ」、「働きかけ」、または「勧誘」である場合には、音声解析部１０２は、当該モダリティが、応答を必要とするモダリティであると判定する。また、解析されたモダリティの種類が上記以外のモダリティである場合には、音声解析部１０２は、当該モダリティが、応答を必要としないモダリティであると判定する。

｛２−１−３．感情推定部１０４｝
感情推定部１０４は、端末２０から受信される各種のセンシング結果に基づいて、当該端末２０を使用しているユーザの感情を推定する。例えば、感情推定部１０４は、撮影されたユーザの顔画像に基づいて表情を解析することにより、ユーザの感情（例えば、怒っている、悲しんでいる、または、楽しんでいるなど）を推定する。また、感情推定部１０４は、受信された音声を解析することにより、ユーザの感情を推定することも可能である。

｛２−１−４．返信制限時間算出部１０６｝
返信制限時間算出部１０６は、所定の基準に基づいて、テキストチャットユーザに関するメッセージの返信制限時間を算出する。ここで、当該返信制限時間は、例えば、テキストチャットユーザからの返信を待つことを音声チャットユーザが許容する（または、待っていても不快に感じない）と推定される最大の時間に対応する。また、所定の基準は、検出された音声チャットユーザの発話の特性を含み得る。また、所定の基準は、受信された（音声チャットユーザの）音声に基づいて感情推定部１０４により推定された感情の結果を含み得る。また、所定の基準は、音声チャットユーザの状態に関するセンシング結果を含み得る。また、所定の基準は、受信された（音声チャットユーザの）音声が音声解析部１０２により音声認識された結果を含み得る。

例えば、返信制限時間算出部１０６は、音声解析部１０２による解析結果、感情推定部１０４による推定結果、および、後述する制限時間算出用ＤＢ１２４の登録内容に基づいて、当該返信制限時間を算出する。一例として、返信制限時間算出部１０６は、まず、制限時間算出用ＤＢ１２４に格納されている各減少係数に基づいて、基準時間からの減少率を算出する。そして、返信制限時間算出部１０６は、算出した減少率を基準時間に乗じることにより、当該返信制限時間を算出する。ここで、基準時間の長さは、例えば、端末２０の種類や、サービス（チャットサービスなど）の種類ごとに予め定められ得る。そして、返信制限時間算出部１０６は、ユーザが使用している端末２０の種類、または、ユーザが使用しているサービスの種類に対応付けられている基準時間に対して、算出した減少率を乗じることにより、当該返信制限時間を算出する。

（２−１−４−１．制限時間算出用ＤＢ１２４）
制限時間算出用ＤＢ１２４は、返信制限時間を算出するために用いられる減少係数が格納されるデータベースである。この制限時間算出用ＤＢ１２４は、例えば記憶部１２２に記憶され得る。図５は、制限時間算出用ＤＢ１２４の構成例を示した説明図である。図５に示すように、制限時間算出用ＤＢ１２４は、発話特性係数テーブル１２６、センシング情報係数テーブル１２８、指示代名詞有無係数テーブル１３０、および、時間情報係数テーブル１３２を含む。

図６は、発話特性係数テーブル１２６の構成例を示した説明図である。図６に示すように、発話特性係数テーブル１２６では、例えば発話の音量および話速と、減少係数１２６０とが対応付けられている。図６に示した例では、発話の音量が「通常」であり、かつ、話速が「通常より速い」場合には、減少係数は「０．８」である。なお、発話特性係数テーブル１２６では、発話の音量や話速に限定されず、例えば、発話のピッチ、または、発話の音声に基づいて推定された感情の結果などが追加的に、あるいは、代替的に対応付けられてもよい。

図７は、センシング情報係数テーブル１２８の構成例を示した説明図である。図７に示すように、センシング情報係数テーブル１２８では、例えば、音声以外のセンシング情報（顔画像など）に基づく感情推定の結果、および、発汗量のセンシング結果と、減少係数１２８０とが対応付けられている。図７に示した例では、感情推定の結果が「怒り」であり、かつ、発汗量が「通常より多い」場合には、減少係数は「０．５」である。なお、センシング情報係数テーブル１２８では、感情推定の結果や発汗量に限定されず、例えば、視線の検出結果（表示部２２６を見ているか否かなど）、操作部２２２の検出結果（操作部２２２を把持しているか否かや、操作部２２２に指が接触しているか否かなど）、または、行動認識結果（ゲームプレイ状況など）などが追加的に、あるいは、代替的に対応付けられてもよい。

図８は、指示代名詞有無係数テーブル１３０の構成例を示した説明図である。図８に示すように、指示代名詞有無係数テーブル１３０では、指示代名詞の有無と、減少係数１３３００とが対応付けられている。図８に示した例では、受信された音声の音声認識結果の中に指示代名詞が「有る」場合には、減少係数は「０．８」である。

図９は、時間情報係数テーブル１３２の構成例を示した説明図である。図９に示すように、時間情報係数テーブル１３２では、音声認識結果に含まれる単語が示す時期と、減少係数１３２０とが対応付けられている。図９に示した例では、該当の音声の音声認識結果の中に「現在」を示す単語がある場合には、減少係数は「０．８」である。なお、図６〜図９に示した個々の減少係数の値はあくまで一例であり、かかる例に限定されず、任意の値が登録され得る。

（２−１−４−２．制限時間の算出例）
ここで、返信制限時間算出部１０６が、図６〜図９に示した各種のテーブルに基づいてメッセージの返信制限時間を算出する例について説明する。例えば、基準時間が「３０秒」であり、発話特性係数テーブル１２６から決定される減少係数が「０．８」であり、センシング情報係数テーブル１２８から決定される減少係数が「１．０」であり、指示代名詞有無係数テーブル１３０から決定される減少係数が「０．８」であり、かつ、時間情報係数テーブル１３２から決定される減少係数が「１．０」であるとする。この場合、返信制限時間算出部１０６は、基準時間に対して上記の全ての減少係数を乗じることにより、当該返信制限時間を「１９秒」と算出する（３０（秒）×０．８×１．０×０．８×１．０≒１９（秒））。

｛２−１−５．出力制御部１０８｝
（２−１−５−１．待ち状況を示す情報の出力開始・終了）
出力制御部１０８は、音声チャットユーザによる発話の検出に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。例えば、出力制御部１０８は、検出された発話に対する音声解析部１０２による解析結果に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。一例として、出力制御部１０８は、検出された発話の文章が、応答を必要とするモダリティであるか否かの判定結果に基づいて、音声チャットユーザの待ち状況を示す情報の出力を開始させる。例えば、検出された発話文章が、応答を必要とするモダリティであると音声解析部１０２により判定された場合には、出力制御部１０８は、当該音声チャットユーザの待ち状況を示す情報の出力を開始させる。また、検出された発話文章が、応答を必要としないモダリティであると音声解析部１０２により判定された場合には、出力制御部１０８は、当該音声チャットユーザの待ち状況を示す情報の出力を開始させない。

また、音声チャットユーザの待ち状況を示す情報の出力が開始された後には、出力制御部１０８は、所定の条件に基づいて、当該音声チャットユーザの待ち状況を示す情報の出力を終了させる。例えば、テキストチャットユーザによるメッセージの入力が完了した場合には、出力制御部１０８は、当該音声チャットユーザの待ち状況を示す情報の出力を終了させる。また、当該音声チャットユーザの待ち状況を示す情報の出力時からの経過時間が、所定の上限時間を超えた際には、出力制御部１０８は、当該音声チャットユーザの待ち状況を示す情報の出力を終了させる。ここで、所定の上限時間は、事前に定められた時間であってもよいし、返信制限時間算出部１０６により算出された返信制限時間に所定の時間が加算された時間であってもよいし、または、当該返信制限時間と同一であってもよい。

（２−１−５−２．ＧＵＩによる提示）
ここで、音声チャットユーザの待ち状況を示す情報の出力例についてさらに詳細に説明する。例えば、出力制御部１０８は、返信制限時間算出部１０６により算出された返信制限時間を含むインジケータを、当該音声チャットユーザの待ち状況を示す情報として、テキストチャットユーザ側の表示部２２６に表示させる。

図１０は、インジケータの表示例（表示画面４０）を示した説明図である。例えば、図１０に示すように、出力制御部１０８は、表示画面４０において、テキスト入力欄４２と、インジケータ５０とを一緒に表示させる。ここで、テキスト入力欄４２は、テキストチャットユーザがテキスト（メッセージ）を入力するための入力欄である。また、図１０に示すように、インジケータ５０は、メータ５２を含む。メータ５２は、返信制限時間と、インジケータ５０の表示開始時からの経過時間との差（以下、残り時間と称する場合がある）を示す表示である。この表示例によれば、テキストチャットユーザは、メッセージの返信を待つことを音声チャットユーザが許容可能な残り時間を随時知ることができる。その結果、テキストチャットユーザは、例えば、返信のメッセージの入力を急ぐべきか否かを判断することができる。

また、図１０におけるインジケータ５０の右端は、返信制限時間算出部１０６により算出された返信制限時間の長さを示す。例えば、返信制限時間の長さが「２分」である場合では、返信制限時間の長さが「１分」である場合よりも、インジケータ５０の長さが２倍長くなる。また、インジケータ５０の表示開始時では、メータ５２の右端とインジケータ５０の右端とは一致され得る。または、インジケータ５０の長さは、返信制限時間の長さによらずに固定であり、かつ、後述するようにメータ５２の長さが変化する速度が、返信制御時間に応じて変化させてもよい。例えば、返信制限時間の長さが「２分」である場合では、出力制御部１０８は、返信制限時間の長さが「１分」である場合よりも「２倍」の速度でメータ５２の長さを短くさせてもよい。

但し、かかる例に限定されず、インジケータ５０の右端は所定の時間（例えば３分など）に定められてもよい。そして、この場合、返信制限時間が所定の時間未満である場合には、インジケータ５０の表示開始時において、メータ５２は、インジケータ５０よりも短く表示されることになる。

‐時間の経過に応じた表示制御
また、出力制御部１０８は、インジケータの表示開始時からの時間の経過に応じて、インジケータの表示態様を変化させることが可能である。図１１は、時間の経過に応じて、インジケータ５０の表示が変化される例を示した説明図である。なお、図１１では、（ａ）、（ｂ）、（ｃ）、（ｄ）の順に、より長い時間が経過した際のインジケータ５０の表示例を示している。図１１に示したように、出力制御部１０８は、インジケータ５０の表示開始時からの経過時間が長い（つまり、残り時間が短い）ほど、メータ５２の長さを短くする。さらに、図１１に示したように、出力制御部１０８は、例えば、返信制限時間に対する残り時間の長さの割合に応じて、メータ５２の表示色を変化させてもよい。例えば、図１１の（ｂ）に示したように、返信制限時間に対する残り時間の割合が「５０％」未満になった場合には、出力制御部１０８は、メータ５２の表示色を「Ｃａｕｔｉｏｎ」を示す表示色に変化させる。また、図１１の（ｃ）に示したように、返信制限時間に対する残り時間の割合が「３０％」未満になった場合には、出力制御部１０８は、メータ５２の表示色を「Ｗａｒｎｉｎｇ」を示す表示色に変化させる。これらの表示例によれば、返信制限時間までの残り時間が短いことをテキストチャットユーザに強調して示すことができる。

なお、図１１の（ｄ）は、テキストチャットユーザがメッセージを送信した以後のインジケータ５０の表示例を示している。図１１の（ｄ）に示したように、メッセージが送信された後は、出力制御部１０８は、例えば、メータ５２のみを非表示にさせたり、または、インジケータ５０を非表示にさせる。なお、上記の説明では、インジケータ５０とメータ５２とが異なるものとして説明したが、かかる例に限定されず、インジケータ５０はメータ５２と同一であってもよい。

‐補助表示
さらに、出力制御部１０８は、図１１に示したように、インジケータ５０の近辺（例えば右隣）に補助表示５４を表示させてもよい。ここで、補助表示５４は、音声チャットユーザの待ち状況を示す情報の一例である。

例えば、返信制限時間に対する残り時間の割合と、テキスト（例えば、「ＯＫ」、「Ｈｕｒｒｙｕｐ！」、「Ｈｅｉｓａｎｇｒｙ！！！」など）とが対応付けて予めテーブルに登録され得る。そして、この場合、出力制御部１０８は、現在の残り時間の割合と、テーブルの登録内容とに応じて、補助表示５４として表示されるテキストの種類を逐次更新してもよい。

または、出力制御部１０８は、感情推定部１０４により推定された感情の結果を補助表示５４として表示させてもよい。例えば、音声チャットユーザによる発話の検出時において、音声チャットユーザが怒っていることが感情推定部１０４により推定された場合には、出力制御部１０８は、（経過時間に関わらず）「Ｈｅｉｓａｎｇｒｙ！！！」というテキストを補助表示５４として表示させてもよい。さらに、音声チャットユーザの感情がリアルタイムに推定可能である場合には、出力制御部１０８は、感情の推定結果が変化する度に、補助表示５４の表示内容を逐次更新してもよい。

または、出力制御部１０８は、音声チャットユーザの状態に関するセンシング結果（例えば、表示部２２６を見ているか否か、操作部２２２を把持しているか否かなど）を補助表示５４として表示させてもよい。なお、図１１では、補助表示５４としてテキストが表示される例を示しているが、かかる例に限定されず、例えばアイコンなどの画像が表示されてもよい。

‐制限時間超過時の表示例
また、図１２は、インジケータの表示開始時からの経過時間が返信制限時間を超過した場合におけるインジケータの表示例を示した説明図である。図１２の（ａ）に示したように、経過時間が返信制限時間を超過した際には、出力制御部１０８は、テキスト入力欄４２を点滅させてもよい。または、図１２の（ｂ）に示したように、出力制御部１０８は、テキスト入力欄４２を点滅させつつ、ＯＳＫ（Ｏｎ−ＳｃｒｅｅｎＫｅｙｂｏａｒｄ）６０を表示画面に表示させてもよい。これにより、テキストチャットユーザにテキストの入力を強制することができる。

（２−１−５−３．音による提示）
または、出力制御部１０８は、音声チャットユーザの待ち状況を示す音声を、テキストチャットユーザが使用する端末２０の音声出力部２２８に出力させることも可能である。例えば、音声チャットユーザによる発話が検出された際に、出力制御部１０８は、返信制限時間算出部１０６により算出された返信制限時間を読み上げる音声を音声出力部２２８に出力させてもよい。

または、時間の長さ（または残り時間の割合）と、音の種類とが対応付けて予めテーブルに登録され得る。そして、音声チャットユーザによる発話が検出された際に、出力制御部１０８は、返信制限時間算出部１０６により算出された返信制限時間の長さ（または「１００％」）と、テーブルの登録内容とに応じた種類の音を音声出力部２２８に出力させてもよい。さらに、出力制御部１０８は、現在の残り時間の長さ（または残り時間の割合）と、テーブルの登録内容とに応じて、出力される音の種類を逐次更新してもよい。これにより、テキストチャットユーザは、残り時間が後どの程度であるかを知ることができる。

または、時間の長さ（または残り時間の割合）と、所定の音（例えばベル音やビープ音など）が出力される時間間隔の長さとが対応付けて予めテーブルに登録され得る。例えば、残り時間の長さ（または残り時間の割合）が少ないほど、出力される音の時間間隔が短くなるように登録され得る。そして、音声チャットユーザによる発話が検出された際に、出力制御部１０８は、返信制限時間算出部１０６により算出された返信制限時間の長さ（または「１００％」）に対応付けてテーブルに登録されている時間間隔で、所定の音を音声出力部２２８に出力させてもよい。さらに、出力制御部１０８は、現在の残り時間の長さ（または残り時間の割合）と、テーブルの登録内容とに応じて、音が出力される時間間隔を逐次更新してもよい。これにより、テキストチャットユーザは、残り時間が後どの程度であるかを知ることができる。

なお、当該待ち状況を示す音声の出力時からの経過時間が返信制限時間を超過した際には、出力制御部１０８は、例えば図１２に示したように、表示画面に表示されているテキスト入力欄４２を点滅させてもよい。

（２−１−５−４．振動による提示）
または、出力制御部１０８は、音声チャットユーザの待ち状況を示す振動を、例えばテキストチャットユーザが使用する端末２０の操作部２２２に出力させることも可能である。

例えば、時間の長さ（または残り時間の割合）と、振動の種類とが対応付けて予めテーブルに登録され得る。一例として、時間の長さ（または残り時間の割合）が大きいほど、より快適であると評価されている振動パターンがテーブルに登録されてもよい。そして、音声チャットユーザによる発話が検出された際に、出力制御部１０８は、返信制限時間算出部１０６により算出された返信制限時間の長さ（または「１００％」）と、テーブルの登録内容とに応じた種類の振動を操作部２２２に出力させてもよい。さらに、出力制御部１０８は、現在の残り時間の長さ（または残り時間の割合）と、テーブルの登録内容とに応じて、出力される振動の種類を逐次更新してもよい。

または、時間の長さ（または残り時間の割合）と、所定の種類の振動が出力される時間間隔の長さとが対応付けて予めテーブルに登録され得る。例えば、残り時間の長さ（または残り時間の割合）が少ないほど、出力される振動の時間間隔が短くなるように登録され得る。そして、音声チャットユーザによる発話が検出された際に、出力制御部１０８は、返信制限時間算出部１０６により算出された返信制限時間の長さ（または「１００％」）に対応付けてテーブルに登録されている時間間隔で、所定の振動を操作部２２２に出力させてもよい。さらに、出力制御部１０８は、現在の残り時間の長さ（または残り時間の割合）と、テーブルの登録内容とに応じて、振動が出力される時間間隔を逐次更新してもよい。

または、残り時間の割合（または時間の長さ）と、操作部２２２において振動が出力される部位とが対応付けて予めテーブルに登録され得る。例えば、残り時間の割合が小さいほど、振動が出力される部位がより多くなるように登録され得る。そして、出力制御部１０８は、現在の残り時間の割合（または残り時間の長さ）と、テーブルの登録内容とに応じて、振動が出力される部位を逐次変化させてもよい。

なお、当該待ち状況を示す振動の出力時からの経過時間が返信制限時間を超過した際には、出力制御部１０８は、例えば図１２に示したように、表示画面に表示されているテキスト入力欄４２を点滅させてもよい。

（２−１−５−５．残り時間の増減）
なお、出力制御部１０８は、所定の条件に基づいて、（テキストチャットユーザの返信に関する）残り時間を増減させることも可能である。さらに、残り時間を増減した際には、出力制御部１０８は、増減後の残り時間に応じた態様で、インジケータを表示させたり、音を出力させたり、または、振動を出力させる。

例えば、テキストチャットユーザが返信する前では、出力制御部１０８は、音声チャットユーザによる新たな発話が検出される度に、現在の残り時間に対して所定の時間を加算してもよい。

または、テキストチャットユーザが返信する前で、かつ、音声チャットユーザにより新たに発話されたことが検出された際には、出力制御部１０８は、当該新たな発話に応じて、現在の残り時間を増減させてもよい。例えば、「早く返信して！」などの、メッセージの返信を急かすようなキーワードが音声チャットユーザにより新たに発話されたことが検出された際には、出力制御部１０８は、残り時間を所定の時間だけ短縮してもよい。

または、テキストチャットユーザが返信する前で、かつ、感情推定部１０４による感情の推定結果が変化した際には、出力制御部１０８は、感情の推定結果の変化に応じて、残り時間を増減させてもよい。例えば、発話の検出時における感情の推定結果が「通常」であり、かつ、テキストチャットユーザが返信する前において音声チャットユーザの感情の推定結果が「怒っている」に変化した際には、出力制御部１０８は、残り時間を所定の時間だけ短縮してもよい。また、発話の検出時における感情の推定結果が「怒っている」であり、かつ、テキストチャットユーザが返信する前において音声チャットユーザの感情の推定結果が「通常」に変化した際には、出力制御部１０８は、現在の残り時間に対して所定の時間を加算してもよい。

‐変形例
なお、変形例として、３人以上のユーザ間でメッセージが交換される場面では、出力制御部１０８は、いずれかのテキストチャットユーザに関する残り時間を増減させることも可能である。例えば、音声チャットユーザが一人存在し、かつ、テキストチャットユーザが複数人存在する場面では、出力制御部１０８は、所定の条件に基づいて、テキストチャットユーザごとに、メッセージの返信に関する残り時間の増減量を変化させてもよい。

一例として、音声チャットユーザが教師であり、テキストチャットユーザが生徒である場面での適用例について説明する。例えば、授業中に教師が「○○について分かる人いる？」という質問を発話し、そして、複数の生徒のうちのいずれか（以下、生徒Ａと称する）が、当該発話に対してメッセージを返信したとする。この場合、出力制御部１０８は、生徒Ａの残り時間を「０秒」にし、かつ、生徒Ａ以外の生徒全員に関して、現在の残り時間に対して所定の時間を加算してもよい。この制御例によれば、例えば、当該質問に関してより詳細に調べたり、考えるための時間を生徒Ａ以外の生徒に与えることが可能となる。また、同じ質問に対して複数の生徒に回答させることにより、授業を活発化させることができる。

また、別の例として、遠隔地にいる教師（音声チャットユーザ）と複数の生徒（テキストチャットユーザ）とが英会話のグループレッスンを行っており、かつ、教師が使用する端末２０（ＰＣなど）の表示部に複数の生徒の映像が表示されている場面での適用例について説明する。例えば、当該複数の生徒の映像のうちのいずれに教師の視線が向けられているかが例えば表示部の近辺に設置されているカメラにより検出され、かつ、教師が質問の発話を行ったとする。この場合、出力制御部１０８は、教師の視線が向けられていることが検出された映像に対応する生徒に関してのみ残り時間を増加させてもよい。または、この場合、出力制御部１０８は、教師の視線が向けられていることが検出された生徒が閲覧する表示部にのみインジケータを表示させ、かつ、当該質問に対する返信のメッセージを該当の生徒にのみ入力させてもよい。

｛２−１−６．通信部１２０｝
通信部１２０は、他の装置との間で情報の送受信を行う。例えば、通信部１２０は、出力制御部１０８の制御に従って、音声チャットユーザの待ち状況を示す情報を、テキストチャットユーザが使用する端末２０へ送信する。また、通信部１２０は、ユーザによる発話の音声や、入力されたテキストなどを端末２０から受信する。

｛２−１−７．記憶部１２２｝
記憶部１２２は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部１２２は、制限時間算出用ＤＢ１２４などを記憶する。

＜２−２．動作＞
以上、第１の実施形態による構成について説明した。次に、第１の実施形態による動作の一例について、図１３〜図１６を参照して説明する。

｛２−２−１．動作の全体的な流れ｝
まず、第１の実施形態による動作の全体的な流れについて、図１３を参照して説明する。なお、ここでは、音声チャットユーザとテキストチャットユーザとの間でチャットを開始した後の動作例について説明する。また、サーバ１０は、音声チャットユーザの待ち状況を示す情報としてインジケータを表示させる例について説明する。

図１３に示したように、まず、音声チャットユーザが発話を行う。そして、音声チャットユーザが使用する端末２０ａは、発話された音声を集音し、そして、集音した音声を逐次サーバ１０へ送信する（Ｓ１０１）。

その後、サーバ１０は、後述する「インジケータ表示要否判定処理」を行う（Ｓ１０３）。そして、インジケータの表示が必要ではないと判定された場合には（Ｓ１０５：Ｎｏ）、再びＳ１０１の処理が実行される。

一方、インジケータの表示が必要であると判定された場合には（Ｓ１０５：Ｙｅｓ）、サーバ１０は、後述する「返信制限時間算出処理」を行う（Ｓ１０７）。

続いて、サーバ１０の出力制御部１０８は、Ｓ１０７の処理結果に応じたインジケータを、テキストチャットユーザが使用する端末２０ｂ（の表示部２２６）に表示を開始させる（Ｓ１０９）。

その後、サーバ１０は、後述する「インジケータ表示終了判定処理」を行う（Ｓ１１１）。そして、インジケータの表示を終了しないと判定された場合には（Ｓ１１３：Ｎｏ）、サーバ１０は、例えば所定の時間待機した後に、再びＳ１１１の処理を行う。一方、インジケータの表示を終了すると判定された場合には（Ｓ１１３：Ｙｅｓ）、本動作は終了する。

｛２−２−２．インジケータ表示要否判定処理｝
ここで、Ｓ１０３における「インジケータ表示要否判定処理」の詳細な動作について、図１４を参照して説明する。図１４に示したように、まず、音声解析部１０２は、Ｓ１０１で受信された音声の音声認識を行う（Ｓ２０１）。そして、音声解析部１０２は、音声認識の結果に基づいて、発話文章のモダリティ解析を行う（Ｓ２０３）。そして、応答を必要とするモダリティであると判定された場合には（Ｓ２０５：Ｙｅｓ）、出力制御部１０８は、インジケータの表示が必要であると判定する（Ｓ２０７）。そして、当該「インジケータ表示要否判定処理」は終了する。

一方、応答を必要としないモダリティであると判定された場合には（Ｓ２０５：Ｎｏ）、次に、出力制御部１０８は、前回検出された発話から所定の時間が経過したか否かを判定する（Ｓ２０９）。前回の発話から所定の時間が経過している場合には（Ｓ２０９：Ｙｅｓ）、出力制御部１０８は、Ｓ１０１で受信された音声に対応する発話が、新コンテキストでの最初の発話であると判定する（Ｓ２１１）。そして、出力制御部１０８は、上述したＳ２０７の処理を行う。

一方、前回の発話から所定の時間が経過していない場合には（Ｓ２０９：Ｎｏ）、出力制御部１０８は、Ｓ２０１の音声認識の結果が、会話終了を示す単語を含むか否かを判定する（Ｓ２１３）。ここで、会話終了を示す単語は、例えば「さようなら」「バイバイ」「もう寝るよー」「また明日」などであってもよい。また、会話終了を示す単語は、チャットの履歴情報に基づいて構築される単語リストに登録されていてもよい。なお、この単語リストは、例えば、チャットの履歴情報に基づいて、最終発話の単語を収集することなどに基づいて構築され得る。

該当の音声認識の結果が、会話終了を示す単語を含まない場合には（Ｓ２１３：Ｎｏ）、出力制御部１０８は、上述したＳ２０７の処理を行う。一方、該当の音声認識の結果が、会話終了を示す単語を含む場合には（Ｓ２１３：Ｙｅｓ）、出力制御部１０８は、インジケータの表示が不要であると判定する（Ｓ２１５）。そして、当該「インジケータ表示要否判定処理」は終了する。

｛２−２−３．返信制限時間算出処理｝
次に、Ｓ１０７における「返信制限時間算出処理」の詳細な動作について、図１５を参照して説明する。図１５に示したように、まず、返信制限時間算出部１０６は、Ｓ２０１で解析された該当の音声の発話特性を取得する（Ｓ３０１）。続いて、返信制限時間算出部１０６は、音声テキストチャットユーザに関する例えば顔画像、視線の検出結果、または、行動認識結果などの、音声以外のセンシング情報を取得する（Ｓ３０３）。なお、これらのセンシング情報は、Ｓ１０１において端末２０が発話の音声と一緒にサーバ１０へ送信してもよいし、または、Ｓ３０３において端末２０がサーバ１０へ送信してもよい。

続いて、返信制限時間算出部１０６は、Ｓ２０１で解析された該当の発話の文章に関する指示代名詞の有無の解析結果を取得する（Ｓ３０５）。

続いて、返信制限時間算出部１０６は、Ｓ２０１で解析された該当の発話の文章に関する時間情報の解析結果を取得する（Ｓ３０７）。

続いて、返信制限時間算出部１０６は、Ｓ３０１〜Ｓ３０７で取得された情報、および、制限時間算出用ＤＢ１２４の登録内容に基づいて、基準時間からの減少率を算出する（Ｓ３０９）。

その後、返信制限時間算出部１０６は、基準時間に対して、Ｓ３０９で算出された減少率を乗じることにより、返信制限時間を算出する（Ｓ３１１）。

｛２−２−４．インジケータ表示終了判定処理｝
次に、Ｓ１１１における「インジケータ表示終了判定処理」の詳細な動作について、図１６を参照して説明する。図１６に示したように、まず、出力制御部１０８は、Ｓ１０１で検出された発話に関して、テキストチャットユーザが返信済みであるか否かを判定する（Ｓ４０１）。テキストチャットユーザが返信済みである場合には（Ｓ４０１：Ｙｅｓ）、出力制御部１０８は、インジケータの表示を終了させることを判定する（Ｓ４０３）。そして、当該「インジケータ表示終了判定処理」は終了する。

一方、テキストチャットユーザがまだ返信していない場合には（Ｓ４０１：Ｎｏ）、出力制御部１０８は、音声チャットユーザから新たな発話が検出されたか否かを判定する（Ｓ４０５）。音声チャットユーザからの新たな発話が検出された場合には（Ｓ４０５：Ｙｅｓ）、出力制御部１０８は、例えば公知の技術を用いて文間関係の推定を行うことにより、検出された新たな発話（以下、「新たな発話」と称する）と、Ｓ１０１で検出された発話（以下、対象の発話と称する）とが関係があるか否かを判定する（Ｓ４０７）。例えば、新たな発話の文章と、対象の発話の文章との文間関係が「事柄の同一性に基づく関係」（例えば「同等」、「簡略」、「詳細」、「例示」、「参照」、「補足」など）であると推定される場合には、出力制御部１０８は、新たな発話が対象の発話と関係がある（つまり、発話が継続している）と判定する。

新たな発話が対象の発話と関係が無いと判定された場合には（Ｓ４０７：Ｎｏ）、サーバ１０は、上述したＳ４０３の処理を行う。一方、新たな発話が対象の発話と関係があると判定された場合には（Ｓ４０７：Ｙｅｓ）、出力制御部１０８は、インジケータの表示を終了させないことを判定する（Ｓ４０９）。その後、当該「インジケータ表示終了判定処理」は終了する。

また、Ｓ４０５において、新たな発話が検出されていない場合には（Ｓ４０５：Ｎｏ）、次に、出力制御部１０８は、Ｓ１０９におけるインジケータの表示開始時からの経過時間が所定の上限時間を超えたか否かを判定する（Ｓ４１１）。

経過時間が上限時間を超えた場合には（Ｓ４１１：Ｙｅｓ）、サーバ１０は、上述したＳ４０３の処理を行う。一方、経過時間が上限時間を超えていない場合には（Ｓ４１１：Ｎｏ）、サーバ１０は、上述したＳ４０９の処理を行う。

｛２−２−５．変形例｝
なお、第１の実施形態による動作は、上述した例に限定されない。例えば、図１３に示したＳ１０７の処理は、Ｓ１０３よりも前に実行されてもよい。

＜２−３．効果＞
以上説明したように、第１の実施形態によれば、音声チャットユーザとテキストチャットユーザとの間でメッセージが交換される場面において、サーバ１０は、音声チャットユーザによる発話の検出に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。これにより、テキストチャットユーザは、メッセージの入力時において、音声チャットユーザの待ち状況を把握することができる。

例えば、サーバ１０は、音声チャットユーザによる発話の検出に基づいて返信制限時間を算出し、そして、算出した返信制限時間含むインジケータをテキストチャットユーザ側の表示部２２６に表示させる。そして、このインジケータは、当該返信制限時間と、インジケータの表示開始時からの経過時間との差を示すメータを含む。これにより、テキストチャットユーザは、メッセージの返信を待つことを音声チャットユーザが許容可能な残り時間を随時知ることができる。その結果、テキストチャットユーザは、例えば、返信のメッセージの入力を急ぐべきか否かを判断することができる。

＜２−４．変形例＞
なお、第１の実施形態は、上記の説明に限定されない。例えば、サーバ１０がインジケータをテキストチャットユーザ側の表示部２２６ｂにのみ表示させる例について説明したが、かかる例に限定されず、サーバ１０は、同じインジケータを音声チャットユーザ側の表示部２２６ａにも表示させてもよい。これにより、音声チャットユーザは、テキストチャットユーザが閲覧しているインジケータの内容を把握することができる。

＜＜３．第２の実施形態＞＞
以上、第１の実施形態について説明した。上述したように、一般的に、テキストチャットでは、音声チャットと比較して、メッセージの入力に長時間を要する。そこで、音声チャットユーザとテキストチャットユーザとの間でチャットを行う場面におけるユーザビリティの低下を抑制するために、さらに、テキストチャットユーザの入力状況を音声チャットユーザが確認可能であることが望ましい。

次に、第２の実施形態について説明する。後述するように、第２の実施形態によれば、サーバ１０は、テキストチャットユーザによるテキストの入力状況に基づいて、音声チャットユーザに対するフィードバック音声（以下、ＦＢ音声と称する）の出力を制御することが可能である。なお、第２の実施形態では、テキストチャットユーザが音声テキスト入力を行う場面での適用例について説明する。但し、かかる例に限定されず、テキストチャットユーザが例えばハードウェアキーボードやソフトウェアキーボードなどを用いてテキスト入力を行う場面にも概略同様に適用可能である。

＜３−１．構成＞
次に、第２の実施形態によるサーバ１０の構成について詳細に説明する。なお、第２の実施形態によるサーバ１０に含まれる構成要素は第１の実施形態と同様である。以下では、第１の実施形態と異なる内容についてのみ説明を行う。

｛３−１−１．出力制御部１０８｝
第２の実施形態による出力制御部１０８は、テキストチャットユーザによるテキストの入力状況に基づいて、音声チャットユーザが使用する端末２０の音声出力部２２８にＦＢ音声を出力させる。例えば、予め定められている音声ＦＢタイミングになった場合には、出力制御部１０８は、ＦＢ音声を音声出力部２２８に出力させる。ここで、音声ＦＢタイミングは、例えば、「メッセージの入力開始時」、「メッセージの入力中」、「メッセージの入力終了時」、および、「メッセージの送信時」などである。なお、「メッセージの入力中」は、例えば、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）により検出される（音声テキスト入力の）発話区間のうち、発話の音量が所定の閾値を超えたタイミングである。

例えば、音声ＦＢタイミングと、音声の種類とが対応付けて予めＦＢ音声テーブル（図示省略）に登録され得る。一例として、「メッセージの送信時」に対応付けて「○○さんからメッセージです」といった音声がＦＢ音声テーブルに登録されてもよい。そして、この場合、いずれかの音声ＦＢタイミングに達する度に、出力制御部１０８は、当該音声ＦＢタイミングに対応付けてＦＢ音声テーブルに格納されているＦＢ音声を音声出力部２２８に出力させる。なお、このＦＢ音声テーブルは、記憶部１２２に記憶され得る。

＜３−２．動作＞
以上、第２の実施形態による構成について説明した。次に、第２の実施形態による動作について、図１７および図１８を参照して説明する。図１７に示したように、まず、テキストチャットユーザが使用する端末２０ｂは、テキストチャットユーザにより音声テキスト入力が開始されるまで待機する（Ｓ５０１）。そして、テキストチャットユーザにより音声テキスト入力が開始された場合には（Ｓ５０１：Ｙｅｓ）、端末２０ｂは、テキスト入力が開始されたことの通知をサーバ１０へ送信する（Ｓ５０３）。

その後、サーバ１０の出力制御部１０８は、「メッセージの入力開始時」に対応付けてＦＢ音声テーブルに格納されているＦＢ音声を抽出する。そして、通信部１２０は、出力制御部１０８の制御に従って、抽出したＦＢ音声を、音声チャットユーザが使用する端末２０ａへ送信する（Ｓ５０５）。その後、端末２０ａは、受信した音声を出力する（Ｓ５０７）。

また、Ｓ５０３の後に、端末２０ｂは、テキストチャットユーザにより音声テキスト入力が終了されたか否かを判定する（Ｓ５０９）。音声テキスト入力がなされている間は（Ｓ５０９：Ｎｏ）、端末２０ｂは、テキストチャットユーザの発話の音量が所定の閾値を超えるまで待機する（Ｓ５１１）。そして、発話の音量が所定の閾値を超えた場合には（Ｓ５１１：Ｙｅｓ）、端末２０ｂは、入力中であることの通知をサーバ１０へ送信する（Ｓ５１３）。

その後、サーバ１０の出力制御部１０８は、「メッセージの入力中」に対応付けてＦＢ音声テーブルに格納されているＦＢ音声を抽出する。そして、通信部１２０は、出力制御部１０８の制御に従って、抽出したＦＢ音声を端末２０ａへ送信する（Ｓ５１５）。その後、端末２０ａは、受信した音声を出力する（Ｓ５１７）。

ここで、Ｓ５０９において音声テキスト入力が終了された場合（Ｓ５０９：Ｙｅｓ）における動作について、図１８を参照して説明する。図１８に示したように、まず、端末２０ｂは、テキスト入力が終了したことの通知をサーバ１０へ送信する（Ｓ５２１）。

その後、サーバ１０の出力制御部１０８は、「メッセージの入力終了時」に対応付けてＦＢ音声テーブルに格納されているＦＢ音声を抽出する。そして、通信部１２０は、出力制御部１０８の制御に従って、抽出したＦＢ音声を端末２０ａへ送信する（Ｓ５２３）。その後、端末２０ａは、受信した音声を出力する（Ｓ５２５）。

また、Ｓ５２１の後、端末２０ｂは、入力されたメッセージをサーバ１０へ送信する（Ｓ５２７）。そして、サーバ１０の出力制御部１０８は、「メッセージの送信時」に対応付けてＦＢ音声テーブルに格納されているＦＢ音声を抽出する。そして、通信部１２０は、出力制御部１０８の制御に従って、抽出したＦＢ音声を端末２０ａへ送信する（Ｓ５２９）。その後、端末２０ａは、受信した音声を出力する（Ｓ５３１）。

なお、図１８に示したＳ５３３〜Ｓ５３７の処理は、図３に示したＳ２３〜Ｓ２７と同様である。

＜３−３．効果＞
以上説明したように、第２の実施形態によるサーバ１０は、テキストチャットユーザによるテキストの入力状況に基づいて、音声チャットユーザに対するＦＢ音声の出力を制御する。このため、テキストチャットユーザからのメッセージを待っている際に、音声チャットユーザは、テキストチャットユーザの入力状況を確認することができる。従って、音声チャットユーザのユーザビリティの低下を抑制することができる。

＜＜４．第３の実施形態＞＞
以上、第２の実施形態について説明した。上述したように、第１の実施形態および第２の実施形態では、テキストチャットユーザが入力したメッセージは、ＴＴＳ読み上げにより音声チャットユーザに伝達される。ところで、一般的に、ＴＴＳ読み上げでは、テキストが平坦に読み上げられるので、読み上げの音声を聴くユーザは、情報を聞き逃しやすい。その結果、音声チャットユーザとテキストチャットユーザとの間においてコミュニケーションの円滑さが低下する場合がある。

次に、第３の実施形態について説明する。後述するように、第３の実施形態によれば、サーバ１０は、テキストチャットユーザにより入力されたメッセージからのキーワードの抽出に基づいて、音声チャットユーザに対して出力される当該メッセージの音声の出力態様を変化させることが可能である。これにより、テキストチャットユーザによるメッセージの重要部分を音声チャットユーザが聞き逃すことを抑制することができる。ここで、キーワードは、例えば、日時や場所などを示す単語であり得る。

＜４−１．構成＞
次に、第３の実施形態によるサーバ１０の構成について詳細に説明する。なお、第３の実施形態によるサーバ１０に含まれる構成要素は第１の実施形態と同様である。

｛４−１−１．出力制御部１０８｝
第３の実施形態による出力制御部１０８は、テキストチャットユーザにより入力されたメッセージからのキーワードの抽出に基づいて、音声チャットユーザに対して出力される当該メッセージの音声の出力態様を変化させる。

例えば、出力制御部１０８は、入力されたメッセージから抽出されるキーワードの音声が出力される回数を多くすることが可能である。一例として、出力制御部１０８は、まず、テキストチャットユーザにより入力されたメッセージの音声を、音声チャットユーザ側の音声出力部２２８ａに出力させ、その後、出力制御部１０８は、当該メッセージから抽出されたキーワードの音声だけを音声出力部２２８ａに出力させる。一例として、「そうだね、明日の９時にトロッコルームに集合で」というメッセージがテキストチャットユーザにより入力され、かつ、「明日」、「９時」、および「トロッコルーム」がキーワードとして抽出されるとする。この場合、出力制御部１０８は、まず、ＴＴＳによる「そうだね、明日の９時にトロッコルームに集合で」という音声を音声出力部２２８ａに出力させ、その後、ＴＴＳによる「明日９時トロッコルーム」といった、キーワードだけの音声を音声出力部２２８ａに出力させる。

または、出力制御部１０８は、入力されたメッセージから抽出されたキーワードの部分の音声を異ならせて当該メッセージの音声を出力させることが可能である。例えば、出力制御部１０８は、入力されたメッセージから抽出されたキーワードの部分の音量を、キーワード以外の部分の音量よりも大きくさせて、ＴＴＳによる当該メッセージの音声を音声出力部２２８ａに出力させる。または、出力制御部１０８は、入力されたメッセージから抽出されたキーワードの部分の音声の種類を、キーワード以外の部分の音声の種類と異ならせて、ＴＴＳによる当該メッセージの音声を音声出力部２２８ａに出力させてもよい。

または、出力制御部１０８は、入力されたメッセージから抽出されたキーワードの部分の音声の速度を異ならせて当該メッセージの音声を出力させることが可能である。例えば、入力されたメッセージから抽出されたキーワードの前後で音声の出力を一時停止させるとともに、キーワードの部分の音声を、キーワード以外の部分の音声よりも例えば０．８倍などの低速にして、ＴＴＳによる当該メッセージの音声を音声出力部２２８ａに出力させてもよい。

＜４−２．動作＞
以上、第３の実施形態による構成について説明した。次に、第３の実施形態による動作について、図１９を参照して説明する。図１９に示したように、まず、テキストチャットユーザは、端末２０ｂに対してメッセージを入力する（Ｓ６０１）。そして、端末２０ｂは、入力されたメッセージをサーバ１０へ送信する（Ｓ６０３）。

その後、サーバ１０の出力制御部１０８は、受信されたメッセージからキーワードを抽出する（Ｓ６０５）。そして、出力制御部１０８は、受信されたメッセージと、抽出したキーワードとに基づいて、当該メッセージに関して該当のキーワードを強調する音声をＴＴＳにより生成する（Ｓ６０７）。

その後、通信部１２０は、出力制御部１０８の制御に従って、生成された音声を端末２０ａへ送信する（Ｓ６０９）。その後、端末２０ａは、受信した音声を出力する（Ｓ６１１）。

＜４−３．効果＞
以上説明したように、第３の実施形態によるサーバ１０は、テキストチャットユーザにより入力されたメッセージからのキーワードの抽出に基づいて、音声チャットユーザに対して出力される当該メッセージの音声の出力態様を変化させる。このため、音声チャットユーザは、該当のメッセージに含まれるキーワードをより確実に聞くことができる。その結果、例えば音声チャットユーザがテキストチャットユーザに対して聞き直す回数が減少するなど、円滑なコミュニケーションを実現することができる。

＜＜５．第４の実施形態＞＞
以上、第３の実施形態について説明した。ところで、音声チャットユーザとテキストチャットユーザとの間でチャットを行う場面では、通常、音声チャットユーザの発話時にテキストチャットユーザが音声を発したとしても、当該音声は音声チャットユーザに伝達されない。このため、音声チャットユーザは、例えば相槌などの、テキストチャットユーザが聞いていることを示す音声情報を得られないので、自然なコミュニケーションをし難く感じ得る。

次に、第４の実施形態について説明する。後述するように、第４の実施形態によれば、サーバ１０は、音声チャットユーザによる発話の検出に基づいて、音声チャットユーザに対して、ＴＴＳによる自動の相槌の音声の出力を制御することが可能である。

＜５−１．構成＞
次に、第４の実施形態によるサーバ１０の構成について詳細に説明する。なお、第４の実施形態によるサーバ１０に含まれる構成要素は第１の実施形態と同様である。

｛５−１−１．出力制御部１０８｝
第４の実施形態による出力制御部１０８は、音声チャットユーザによる発話が検出された場合に、テキストチャットユーザが聞いているか否かの推定結果に基づいて、音声チャットユーザに対する、ＴＴＳによる相槌の音声の出力を制御する。例えば、音声チャットユーザによる発話が検出され、かつ、テキストチャットユーザが音声チャットユーザの発話を聞いていることが推定される場合には、出力制御部１０８は、ＴＴＳによる相槌の音声を音声チャットユーザ側の音声出力部２２８に出力させる。一例として、音声チャットユーザによる発話が検出された後において、音声チャットユーザの発話の音量が相対的に低下した際、または、音声チャットユーザの発話が途切れてから所定の時間が経過した際に、出力制御部１０８は、ＴＴＳによる相槌の音声を音声チャットユーザ側の音声出力部２２８に出力させる。

なお、出力制御部１０８は、テキストチャットユーザが音声チャットユーザの発話を聞いているか否かを例えば以下のような方法により推定することが可能である。例えば、出力制御部１０８は、音声チャットユーザの発話の音声がテキストチャットユーザ側の音声出力部２２８ｂに出力されているか否かに基づいて、テキストチャットユーザが当該発話を聞いているか否かを判定してもよい。または、出力制御部１０８は、テキストチャットユーザがイヤフォンまたはヘッドフォンを装着しているか否かの検出結果に基づいて、テキストチャットユーザが当該発話を聞いているか否かを判定してもよい。または、出力制御部１０８は、テキストチャットユーザの行動認識の結果に基づいて、テキストチャットユーザが当該発話を聞いているか否かを判定してもよい。例えば、音声チャットユーザとテキストチャットユーザとがコンピュータゲームをしている場合には、出力制御部１０８は、テキストチャットユーザのコンピュータゲームへの集中度の検出結果に基づいて、テキストチャットユーザが当該発話を聞いているか否かを判定してもよい。なお、例えば、操作部２２２ｂに対する操作頻度の検出結果、テキストチャットユーザの視線の検出結果、または、音声チャットユーザの発話の検出時におけるゲームの状況などに基づいて、コンピュータゲームへの集中度は判定され得る。

一例として、「どうしようかなぁ、今１万ルピーしかないから」という発話が音声チャットユーザにより行われ、かつ、「どうしようかなぁ」という発話の直後に音量が一時的に低下する場面での適用例について説明する。この場合、出力制御部１０８は、まず、「どうしようかなぁ」という発話の直後に例えば「うん」という、ＴＴＳによる相槌の音声を音声出力部２２８ａに出力させる。そして、出力制御部１０８は、「今１万ルピーしかないから」という発話の直後に、例えば「うんうん」という、ＴＴＳによる相槌の音声を音声出力部２２８ａに出力させてもよい。

＜５−２．動作＞
以上、第４の実施形態による構成について説明した。次に、第４の実施形態による動作について、図２０を参照して説明する。図２０に示したように、まず、音声チャットユーザが使用する端末２０ａは、音声チャットユーザによる発話が検出されるまで待機する（Ｓ７０１）。そして、音声チャットユーザによる発話が検出された場合には（Ｓ７０１：Ｙｅｓ）、端末２０ａは、検出した発話の音声をサーバ１０へ逐次送信する（Ｓ７０３）。

その後、サーバ１０の通信部１２０は、制御部１００の制御に従って、受信された音声を、テキストチャットユーザが使用する端末２０ｂへ送信する（Ｓ７０５）。さらに、通信部１２０は、センシング情報の提供要求を端末２０ｂへ送信する（Ｓ７０７）。

その後、端末２０ｂは、例えば測定部２２４による測定結果などのセンシング情報をサーバ１０へ送信する（Ｓ７０９）。

その後、サーバ１０の出力制御部１０８は、受信されたセンシング情報に基づいて、テキストチャットユーザが、音声チャットユーザの発話を聞いているか否かを判定する（Ｓ７１１）。テキストチャットユーザが音声チャットユーザの発話を聞いていないと判定される場合には（Ｓ７１１：Ｎｏ）、サーバ１０は再びＳ７０７の処理を行う。

一方、テキストチャットユーザが音声チャットユーザの発話を聞いていると判定される場合には（Ｓ７１１：Ｙｅｓ）、音声チャットユーザの発話の音量が閾値以上低下するまで、または、音声チャットユーザの発話が途切れ、かつ、途切れたタイミングから所定の時間が経過するまで、サーバ１０は待機する（Ｓ７１３）。

そして、Ｓ７１３の条件が満たされた場合には（Ｓ７１３：Ｙｅｓ）、出力制御部１０８は、ＴＴＳにより相槌の音声を生成する。そして、通信部１２０は、出力制御部１０８の制御に従って、生成された音声を端末２０ａへ送信する（Ｓ７１５）。その後、端末２０ａは、受信した音声を出力する（Ｓ７１７）。

｛５−２−１．変形例｝
なお、第４の実施形態による動作は、上述した例に限定されない。例えば、Ｓ７０７の処理が行われずに、端末２０ｂはセンシング情報をサーバ１０へ自動的に送信してもよい。例えば、端末２０ｂは、センシング情報を常時取得し、そして、所定の時間間隔で、取得したセンシング情報をサーバ１０へ送信してもよい。

＜５−３．効果＞
以上説明したように、第４の実施形態によるサーバ１０は、音声チャットユーザによる発話が検出された場合に、テキストチャットユーザが聞いているか否かの推定結果に基づいて、音声チャットユーザに対する、ＴＴＳによる相槌の音声の出力を制御する。このため、音声チャットユーザの発話をテキストチャットユーザが聞いていることを、音声チャットユーザに直感的に知らせることができる。従って、音声チャットユーザはより自然にコミュニケーションを行うことができる。

＜＜６．ハードウェア構成＞＞
次に、各実施形態に共通するサーバ１０のハードウェア構成について、図２１を参照して説明する。図２１に示すように、サーバ１０は、ＣＰＵ１５０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１５２、ＲＡＭ１５４、バス１５６、インターフェース１５８、ストレージ装置１６０、および、通信装置１６２を備える。

ＣＰＵ１５０は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ１０内の動作全般を制御する。また、ＣＰＵ１５０は、サーバ１０において制御部１００の機能を実現する。なお、ＣＰＵ１５０は、マイクロプロセッサなどのプロセッサにより構成される。

ＲＯＭ１５２は、ＣＰＵ１５０が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。

ＲＡＭ１５４は、例えば、ＣＰＵ１５０により実行されるプログラムなどを一時的に記憶する。

バス１５６は、ＣＰＵバスなどから構成される。このバス１５６は、ＣＰＵ１５０、ＲＯＭ１５２、およびＲＡＭ１５４を相互に接続する。

インターフェース１５８は、ストレージ装置１６０、および通信装置１６２を、バス１５６と接続する。

ストレージ装置１６０は、記憶部１２２として機能する、データ格納用の装置である。ストレージ装置１６０は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または記憶媒体に記録されたデータを削除する削除装置などを含む。

通信装置１６２は、例えば通信網３０などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置１６２は、無線ＬＡＮ対応通信装置、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。この通信装置１６２は、通信部１２０として機能する。

＜＜７．変形例＞＞
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、各実施形態による情報処理システムの構成は、上述した例に限定されない。例えば、音声チャットユーザとテキストチャットユーザとは互いに異なる種類の端末を使用してもよい。一例として、音声チャットユーザが使用する端末には、表示部２２６が設けられておらず、かつ、テキストチャットユーザが使用する端末には、表示部２２６が設けられていてもよい。

また、上述した各実施形態では、サーバ１０が音声解析部１０２および感情推定部１０４を有する例について説明したが、かかる例に限定されない。例えば、サーバ１０の代わりに、端末２０が、音声解析部１０２の機能を有してもよい。この場合、端末２０が、音声テキストチャットユーザによる発話の内容を解析することも可能である。また、端末２０は、感情推定部１０４の機能の一部または全部を有してもよい。

また、上述した各実施形態の動作における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。

また、上述した各実施形態によれば、ＣＰＵ１５０、ＲＯＭ１５２、およびＲＡＭ１５４などのハードウェアを、上述した各実施形態によるサーバ１０の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力を制御する出力制御部、
を備え、
前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、情報処理装置。
（２）
前記第１のユーザの待ち状況を示す情報は、メッセージの返信制限時間を含む、前記（１）に記載の情報処理装置。
（３）
前記情報処理装置は、所定の基準に基づいて前記メッセージの返信制限時間を算出する返信制限時間算出部をさらに備える、前記（２）に記載の情報処理装置。
（４）
前記所定の基準は、検出された前記第１のユーザの発話の特性を含む、前記（３）に記載の情報処理装置。
（５）
前記発話の特性は、発話の音量または話速を含む、前記（４）に記載の情報処理装置。
（６）
前記所定の基準は、検出された前記第１のユーザの発話に基づいた感情推定の結果を含む、前記（３）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記所定の基準は、前記第１のユーザの状態に関するセンシング結果を含む、前記（３）〜（６）のいずれか一項に記載の情報処理装置。
（８）
前記所定の基準は、検出された前記第１のユーザの発話の音声認識の結果を含む、前記（３）〜（７）のいずれか一項に記載の情報処理装置。
（９）
前記第１のユーザの待ち状況を示す情報は、インジケータを含み、
前記インジケータは、前記メッセージの返信制限時間と、前記インジケータの表示開始時からの経過時間との差を示す、前記（２）〜（８）のいずれか一項に記載の情報処理装置。
（１０）
前記出力制御部は、前記インジケータの表示開始時からの時間の経過に応じて、前記インジケータの表示態様を変化させる、前記（９）に記載の情報処理装置。
（１１）
前記第１のユーザの待ち状況を示す情報は、検出された前記第１のユーザの発話に基づいた感情推定の結果を含む、前記（１）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記出力制御部は、さらに、検出された前記第１のユーザの発話の音声認識の結果に基づいて、前記第１のユーザの待ち状況を示す情報の出力を出力部に開始させる、前記（１）〜（１１）のいずれか一項に記載の情報処理装置。
（１３）
前記出力制御部は、さらに、前記音声認識の結果に対するモダリティ解析の結果に基づいて、前記第１のユーザの待ち状況を示す情報の出力を出力部に開始させる、前記（１２）に記載の情報処理装置。
（１４）
前記第１のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第２のユーザによるメッセージの入力に基づいて、前記第１のユーザの待ち状況を示す情報の出力を出力部に終了させる、前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記第１のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第１のユーザの待ち状況を示す情報の出力開始時からの経過時間に基づいて、前記第１のユーザの待ち状況を示す情報の出力を出力部に終了させる、前記（１）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
前記出力制御部は、さらに、前記第１のユーザによる発話の検出後における、前記第２のユーザによるテキストの入力状況に基づいて、前記第１のユーザに対するフィードバック音声の出力を制御する、前記（１）〜（１５）のいずれか一項に記載の情報処理装置。
（１７）
前記出力制御部は、さらに、前記第２のユーザにより入力されたメッセージからのキーワードの抽出に基づいて、前記第１のユーザに対して出力される前記メッセージの音声の出力態様を変化させる、前記（１）〜（１６）のいずれか一項に記載の情報処理装置。
（１８）
前記出力制御部は、前記第１のユーザによる発話の検出に基づいて、さらに、前記第１のユーザに対する相槌の音声の出力を制御する、前記（１）〜（１７）のいずれか一項に記載の情報処理装置。
（１９）
音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力をプロセッサが制御すること、
を含み、
前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、情報処理方法。
（２０）
コンピュータを、
音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力を制御する出力制御部、
として機能させるための、プログラムであって、
前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、プログラム。

１０サーバ
２０端末
３０通信網
１００、２００制御部
１０２音声解析部
１０４感情推定部
１０６返信制限時間算出部
１０８出力制御部
１２０、２３０通信部
１２２記憶部
１２４制限時間算出用ＤＢ
１２６発話特性係数テーブル
１２８センシング情報係数テーブル
１３０指示代名詞有無係数テーブル
１３２時間情報係数テーブル
２２０集音部
２２２操作部
２２４測定部
２２６表示部
２２８音声出力部

Claims

音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力を制御する出力制御部、
を備え、
前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、情報処理装置。
前記第１のユーザの待ち状況を示す情報は、メッセージの返信制限時間を含む、請求項１に記載の情報処理装置。
前記情報処理装置は、所定の基準に基づいて前記メッセージの返信制限時間を算出する返信制限時間算出部をさらに備える、請求項２に記載の情報処理装置。
前記所定の基準は、検出された前記第１のユーザの発話の特性を含む、請求項３に記載の情報処理装置。
前記発話の特性は、発話の音量または話速を含む、請求項４に記載の情報処理装置。
前記所定の基準は、検出された前記第１のユーザの発話に基づいた感情推定の結果を含む、請求項３に記載の情報処理装置。
前記所定の基準は、前記第１のユーザの状態に関するセンシング結果を含む、請求項３に記載の情報処理装置。
前記所定の基準は、検出された前記第１のユーザの発話の音声認識の結果を含む、請求項３に記載の情報処理装置。
前記第１のユーザの待ち状況を示す情報は、インジケータを含み、
前記インジケータは、前記メッセージの返信制限時間と、前記インジケータの表示開始時からの経過時間との差を示す、請求項２に記載の情報処理装置。
前記出力制御部は、前記インジケータの表示開始時からの時間の経過に応じて、前記インジケータの表示態様を変化させる、請求項９に記載の情報処理装置。
前記第１のユーザの待ち状況を示す情報は、検出された前記第１のユーザの発話に基づいた感情推定の結果を含む、請求項１に記載の情報処理装置。
前記出力制御部は、さらに、検出された前記第１のユーザの発話の音声認識の結果に基づいて、前記第１のユーザの待ち状況を示す情報の出力を出力部に開始させる、請求項１に記載の情報処理装置。
前記出力制御部は、さらに、前記音声認識の結果に対するモダリティ解析の結果に基づいて、前記第１のユーザの待ち状況を示す情報の出力を出力部に開始させる、請求項１２に記載の情報処理装置。
前記第１のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第２のユーザによるメッセージの入力に基づいて、前記第１のユーザの待ち状況を示す情報の出力を出力部に終了させる、請求項１に記載の情報処理装置。
前記第１のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第１のユーザの待ち状況を示す情報の出力開始時からの経過時間に基づいて、前記第１のユーザの待ち状況を示す情報の出力を出力部に終了させる、請求項１に記載の情報処理装置。
前記出力制御部は、さらに、前記第１のユーザによる発話の検出後における、前記第２のユーザによるテキストの入力状況に基づいて、前記第１のユーザに対するフィードバック音声の出力を制御する、請求項１に記載の情報処理装置。
前記出力制御部は、さらに、前記第２のユーザにより入力されたメッセージからのキーワードの抽出に基づいて、前記第１のユーザに対して出力される前記メッセージの音声の出力態様を変化させる、請求項１に記載の情報処理装置。
前記出力制御部は、前記第１のユーザによる発話の検出に基づいて、さらに、前記第１のユーザに対する相槌の音声の出力を制御する、請求項１に記載の情報処理装置。
音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力をプロセッサが制御すること、
を含み、
前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、情報処理方法。
コンピュータを、
音声入力を使用する第１のユーザによる発話の検出に基づいて、テキスト入力を使用する第２のユーザからの返信に関する前記第１のユーザの待ち状況を示す情報の出力を制御する出力制御部、
として機能させるための、プログラムであって、
前記第１のユーザと前記第２のユーザとの間で、入力されたメッセージが交換される、プログラム。