JPWO2017179262A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JPWO2017179262A1
JPWO2017179262A1 JP2018511890A JP2018511890A JPWO2017179262A1 JP WO2017179262 A1 JPWO2017179262 A1 JP WO2017179262A1 JP 2018511890 A JP2018511890 A JP 2018511890A JP 2018511890 A JP2018511890 A JP 2018511890A JP WO2017179262 A1 JPWO2017179262 A1 JP WO2017179262A1
Authority
JP
Japan
Prior art keywords
user
voice
output
information processing
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018511890A
Other languages
English (en)
Other versions
JP6943237B2 (ja
Inventor
祐平 滝
祐平 滝
真一 河野
真一 河野
佑輔 中川
佑輔 中川
邦仁 澤井
邦仁 澤井
亜由美 加藤
亜由美 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017179262A1 publication Critical patent/JPWO2017179262A1/ja
Application granted granted Critical
Publication of JP6943237B2 publication Critical patent/JP6943237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/234Monitoring or handling of messages for tracking messages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザ間でメッセージが交換される場面における利便性を向上させることが可能な、情報処理装置、情報処理方法、およびプログラムを提案する。
【解決手段】音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、を備え、前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理装置。
【選択図】図13

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、例えばチャットなど、ネットワークを介してユーザ間でコミュニケーションを行うための技術が各種開発されている。チャットでは、テキストや音声などを参加者間でリアルタイムに交換することができる。
また、テキスト情報と音声情報とを変換する技術も提案されている。例えば、下記特許文献1には、一方のユーザにより入力されたテキストを音声データに変換し、そして、変換された音声データを、別のユーザが利用するイヤフォンに出力する技術が記載されている。
特開2004−129174号公報
ところで、ユーザ間でメッセージが交換される場面に特許文献1に記載の技術を適用することを想定すると、特許文献1に記載の技術では、相手ユーザの状況に関する情報がユーザに通知されない。このため、特許文献1に記載の技術では、例えば、ユーザからのメッセージを相手ユーザが待っている状況をユーザが把握することが困難であった。
そこで、本開示では、ユーザ間でメッセージが交換される場面における利便性を向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
本開示によれば、音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、を備え、前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理装置が提供される。
また、本開示によれば、音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力をプロセッサが制御すること、を含み、前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理方法が提供される。
また、本開示によれば、コンピュータを、音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、として機能させるための、プログラムであって、前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、プログラムが提供される。
以上説明したように本開示によれば、ユーザ間でメッセージが交換される場面における利便性を向上させることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
各実施形態に共通する情報処理システムの構成例を示した説明図である。 第1の実施形態による端末20の構成例を示した機能ブロック図である。 第1の実施形態によるメッセージの交換処理の流れを示したシーケンス図である。 第1の実施形態によるサーバ10の構成例を示した機能ブロック図である。 第1の実施形態による制限時間算出用DB124の構成例を示した説明図である。 第1の実施形態による発話特性係数テーブル126の構成例を示した説明図である。 第1の実施形態によるセンシング情報係数テーブル128の構成例を示した説明図である。 第1の実施形態による指示代名詞有無係数テーブル130の構成例を示した説明図である。 第1の実施形態による時間情報係数テーブル132の構成例を示した説明図である。 第1の実施形態によるインジケータの表示例を示した説明図である。 第1の実施形態によるインジケータの表示例を示した説明図である。 第1の実施形態によるインジケータの表示例を示した説明図である。 第1の実施形態による動作の全体的な流れを示したフローチャートである。 第1の実施形態によるインジケータ表示要否判定処理の流れを示したフローチャートである。 第1の実施形態による返信制限時間算出処理の流れを示したフローチャートである。 第1の実施形態によるインジケータ停止判定処理の流れを示したフローチャートである。 第2の実施形態による動作の一部を示したシーケンス図である。 第2の実施形態による動作の一部を示したシーケンス図である。 第3の実施形態による動作を示したシーケンス図である。 第4の実施形態による動作を示したシーケンス図である。 各実施形態に共通するサーバ10のハードウェア構成例を示した説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じて端末20aおよび端末20bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、端末20aおよび端末20bを特に区別する必要が無い場合には、単に端末20と称する。
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
1.情報処理システムの構成
2.第1の実施形態
3.第2の実施形態
4.第3の実施形態
5.第4の実施形態
6.ハードウェア構成
7.変形例
<<1.情報処理システムの構成>>
まず、本開示の各実施形態に共通する情報処理システムの構成例について、図1を参照して説明する。図1に示すように、各実施形態に共通する情報処理システムは、サーバ10、端末20、および、通信網30を含む。
本開示の各実施形態では、例えば二人のユーザ2がチャットを行う場面を想定する。より具体的には、一方のユーザ2aは、音声入力によるチャット(音声チャット)を行い、かつ、もう一方のユーザ2bは、テキスト入力によるチャット(テキストチャット)を行う。例えば、二人のユーザは、同じビデオゲームをプレイしながら、チャットを行う。なお、テキストチャットでは、ユーザは、例えばキーボードなどの入力装置や、表示画面に表示されるソフトウェアキーボードなどを用いてテキストを入力することも可能であるし、または、音声テキスト入力によりテキストを入力することも可能である。
<1−1.端末20>
端末20は、ユーザ2がチャットを行うために使用する装置である。なお、図1では、端末20がゲーム機である例を示しているが、かかる例に限定されない。例えば、端末20は、汎用PC(Personal Computer)、タブレット端末、スマートフォンなどの携帯電話、または、例えばHMD(Head Mounted Display)やヘッドセットなどのウェアラブルデバイスであってもよい。なお、以下では、端末20がゲーム機である例を中心として説明を行う。
ここで、図2を参照して、端末20の機能構成の例について説明する。図2に示すように、端末20は、例えば、制御部200、集音部220、操作部222、測定部224、表示部226、音声出力部228、および、通信部230を有する。
制御部200は、例えばCPU(Central Processing Unit)やRAM(Random Access Memory)などのハードウェアを用いて、端末20の動作を全般的に制御する。
集音部220は、外部の音声を集音する。また、集音部220は、集音した音声を制御部200へ伝達する。
操作部222は、ユーザの入力を受け付ける。また、操作部222は、受け付けた内容を制御部200へ伝達する。
測定部224は、例えば、カメラ、汗センサー、温度センサーなどの各種のセンサーを含む。測定部224は、例えばユーザの状態に関する測定を行う。また、測定部224は、測定した結果を制御部200へ伝達する。
表示部226は、本開示における出力部の一例である。表示部226は、制御部200の制御に従って、表示画面を表示する。
音声出力部228は、本開示における出力部の一例である。音声出力部228は、制御部200の制御に従って、音声を出力する。
通信部230は、例えば通信網30を介して、他の装置との間で情報を送受信する。例えば、通信部230は、制御部200の制御に従って、集音部220により集音された音声をサーバ10へ送信する。また、通信部230は、他のユーザにより入力されたメッセージなどをサーバ10から受信する。
なお、端末20の構成は、上述した例に限定されない。例えば、集音部220、操作部222、測定部224、表示部226、および、音声出力部228のうちいずれか一以上は、端末20の外部に設けられてもよい。
<1−2.サーバ10>
サーバ10は、本開示における情報処理装置の一例である。サーバ10は、端末20間で、入力されたメッセージの交換を制御する。例えば、サーバ10は、音声チャットユーザ2aにより入力された音声をそのまま、テキストチャットユーザ2bが使用する端末20bへ伝達することも可能であるし、または、入力された音声を音声認識した結果を端末20bへ伝達することも可能である。また、サーバ10は、テキストチャットユーザ2bにより入力されたテキストをTTS(TextToSpeech)を用いて音声に変換し、そして、変換後の音声を、音声チャットユーザ2aが使用する端末20aへ伝達する。これにより、音声チャットユーザ2aおよびテキストチャットユーザ2bは、同一のチャット方法を用いる場合と同じような感覚でチャットを行うことができる。
{1−2−1.メッセージの交換処理の流れ}
ここで、図3を参照して、音声チャットユーザ2aとテキストチャットユーザ2bとの間でのメッセージの交換処理の流れについて具体的に説明する。図3に示したように、まず、音声チャットユーザ2aは、発話を行う(S11)。そして、音声チャットユーザ2aが使用する端末20aは、発話の音声を集音し、そして、集音した音声をサーバ10へ送信する(S13)。
その後、サーバ10は、受信した音声を、テキストチャットユーザ2bが使用する端末20bへ送信する(S15)。
その後、端末20bの音声出力部228bは、受信した音声を出力する(S17)。その後、テキストチャットユーザ2bは、例えば操作部222を使用して、テキストを入力する(S19)。そして、入力が完了すると、端末20bは、入力されたテキストをサーバ10へ送信する(S21)。
その後、サーバ10は、受信したテキストをTTS機能により音声に変換する(S23)。そして、サーバ10は、変換した音声を端末20aへ送信する(S25)。
その後、端末20aの音声出力部228aは、受信した音声を出力する(S27)。
<1−3.通信網30>
通信網30は、通信網30に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網30は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網30は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
<1−4.課題の整理>
以上、各実施形態に共通する情報処理システムの構成について説明した。ところで、一般的に、テキストチャットでは、音声チャットと比較して、メッセージの入力に長時間を要する。このため、音声チャットユーザとテキストチャットユーザとの間でのチャットでは、音声チャットユーザが、テキストチャットユーザからの返信を待つ時間が長くなり、不満に感じ得る。そこで、例えば、テキストチャットユーザからの返信を待つことを音声チャットユーザが許容可能な時間の長さなどの情報をテキストチャットユーザが知ることが可能であることが望まれる。
そこで、上記事情を一着眼点にして、第1の実施形態によるサーバ10を創作するに至った。後述するように、第1の実施形態によれば、サーバ10は、音声チャットユーザによる発話の検出に基づいて、テキストチャットユーザからの返信に関する音声チャットユーザの待ち状況を示す情報(以下、音声チャットユーザの待ち状況を示す情報と称する)の出力を制御することが可能である。これにより、テキストチャットユーザは、メッセージの入力時において、音声チャットユーザの待ち状況を把握することができる。
<<2.第1の実施形態>>
<2−1.構成>
次に、第1の実施形態について説明する。まず、第1の実施形態によるサーバ10の構成について詳細に説明する。図4は、第1の実施形態によるサーバ10の構成例を示した機能ブロック図である。図4に示すように、サーバ10は、制御部100、通信部120、および、記憶部122を有する。
{2−1−1.制御部100}
制御部100は、サーバ10に内蔵される、後述するCPU150や、RAM154などのハードウェアを用いて、サーバ10の動作を全般的に制御する。また、図4に示すように、制御部100は、音声解析部102、感情推定部104、返信制限時間算出部106、および、出力制御部108を有する。
{2−1−2.音声解析部102}
(2−1−2−1.発話特性の解析)
音声解析部102は、端末20から受信された音声を解析する。例えば、音声解析部102は、受信された音声の発話特性を解析する。ここで、発話特性は、例えば、声の音量、話速、または、ピッチなどである。
(2−1−2−2.音声認識)
また、音声解析部102は、受信された音声の音声認識、および、構文解析を行う。例えば、音声解析部102は、受信された音声の音声認識を行い、そして、認識結果に基づいて、発話文章のモダリティ解析を行う。ここで、モダリティ解析は、文章の言語的な種類(例えば、「否定」、「感嘆」、「勧誘」、および「疑問」など)を解析することである。
また、音声解析部102は、モダリティ解析の結果に基づいて、発話文章のモダリティが、応答を必要とするモダリティであるか否かを判定する。例えば、モダリティ解析により解析されたモダリティの種類が「条件」、「問いかけ」、「働きかけ」、または「勧誘」である場合には、音声解析部102は、当該モダリティが、応答を必要とするモダリティであると判定する。また、解析されたモダリティの種類が上記以外のモダリティである場合には、音声解析部102は、当該モダリティが、応答を必要としないモダリティであると判定する。
{2−1−3.感情推定部104}
感情推定部104は、端末20から受信される各種のセンシング結果に基づいて、当該端末20を使用しているユーザの感情を推定する。例えば、感情推定部104は、撮影されたユーザの顔画像に基づいて表情を解析することにより、ユーザの感情(例えば、怒っている、悲しんでいる、または、楽しんでいるなど)を推定する。また、感情推定部104は、受信された音声を解析することにより、ユーザの感情を推定することも可能である。
{2−1−4.返信制限時間算出部106}
返信制限時間算出部106は、所定の基準に基づいて、テキストチャットユーザに関するメッセージの返信制限時間を算出する。ここで、当該返信制限時間は、例えば、テキストチャットユーザからの返信を待つことを音声チャットユーザが許容する(または、待っていても不快に感じない)と推定される最大の時間に対応する。また、所定の基準は、検出された音声チャットユーザの発話の特性を含み得る。また、所定の基準は、受信された(音声チャットユーザの)音声に基づいて感情推定部104により推定された感情の結果を含み得る。また、所定の基準は、音声チャットユーザの状態に関するセンシング結果を含み得る。また、所定の基準は、受信された(音声チャットユーザの)音声が音声解析部102により音声認識された結果を含み得る。
例えば、返信制限時間算出部106は、音声解析部102による解析結果、感情推定部104による推定結果、および、後述する制限時間算出用DB124の登録内容に基づいて、当該返信制限時間を算出する。一例として、返信制限時間算出部106は、まず、制限時間算出用DB124に格納されている各減少係数に基づいて、基準時間からの減少率を算出する。そして、返信制限時間算出部106は、算出した減少率を基準時間に乗じることにより、当該返信制限時間を算出する。ここで、基準時間の長さは、例えば、端末20の種類や、サービス(チャットサービスなど)の種類ごとに予め定められ得る。そして、返信制限時間算出部106は、ユーザが使用している端末20の種類、または、ユーザが使用しているサービスの種類に対応付けられている基準時間に対して、算出した減少率を乗じることにより、当該返信制限時間を算出する。
(2−1−4−1.制限時間算出用DB124)
制限時間算出用DB124は、返信制限時間を算出するために用いられる減少係数が格納されるデータベースである。この制限時間算出用DB124は、例えば記憶部122に記憶され得る。図5は、制限時間算出用DB124の構成例を示した説明図である。図5に示すように、制限時間算出用DB124は、発話特性係数テーブル126、センシング情報係数テーブル128、指示代名詞有無係数テーブル130、および、時間情報係数テーブル132を含む。
図6は、発話特性係数テーブル126の構成例を示した説明図である。図6に示すように、発話特性係数テーブル126では、例えば発話の音量および話速と、減少係数1260とが対応付けられている。図6に示した例では、発話の音量が「通常」であり、かつ、話速が「通常より速い」場合には、減少係数は「0.8」である。なお、発話特性係数テーブル126では、発話の音量や話速に限定されず、例えば、発話のピッチ、または、発話の音声に基づいて推定された感情の結果などが追加的に、あるいは、代替的に対応付けられてもよい。
図7は、センシング情報係数テーブル128の構成例を示した説明図である。図7に示すように、センシング情報係数テーブル128では、例えば、音声以外のセンシング情報(顔画像など)に基づく感情推定の結果、および、発汗量のセンシング結果と、減少係数1280とが対応付けられている。図7に示した例では、感情推定の結果が「怒り」であり、かつ、発汗量が「通常より多い」場合には、減少係数は「0.5」である。なお、センシング情報係数テーブル128では、感情推定の結果や発汗量に限定されず、例えば、視線の検出結果(表示部226を見ているか否かなど)、操作部222の検出結果(操作部222を把持しているか否かや、操作部222に指が接触しているか否かなど)、または、行動認識結果(ゲームプレイ状況など)などが追加的に、あるいは、代替的に対応付けられてもよい。
図8は、指示代名詞有無係数テーブル130の構成例を示した説明図である。図8に示すように、指示代名詞有無係数テーブル130では、指示代名詞の有無と、減少係数13300とが対応付けられている。図8に示した例では、受信された音声の音声認識結果の中に指示代名詞が「有る」場合には、減少係数は「0.8」である。
図9は、時間情報係数テーブル132の構成例を示した説明図である。図9に示すように、時間情報係数テーブル132では、音声認識結果に含まれる単語が示す時期と、減少係数1320とが対応付けられている。図9に示した例では、該当の音声の音声認識結果の中に「現在」を示す単語がある場合には、減少係数は「0.8」である。なお、図6〜図9に示した個々の減少係数の値はあくまで一例であり、かかる例に限定されず、任意の値が登録され得る。
(2−1−4−2.制限時間の算出例)
ここで、返信制限時間算出部106が、図6〜図9に示した各種のテーブルに基づいてメッセージの返信制限時間を算出する例について説明する。例えば、基準時間が「30秒」であり、発話特性係数テーブル126から決定される減少係数が「0.8」であり、センシング情報係数テーブル128から決定される減少係数が「1.0」であり、指示代名詞有無係数テーブル130から決定される減少係数が「0.8」であり、かつ、時間情報係数テーブル132から決定される減少係数が「1.0」であるとする。この場合、返信制限時間算出部106は、基準時間に対して上記の全ての減少係数を乗じることにより、当該返信制限時間を「19秒」と算出する(30(秒)×0.8×1.0×0.8×1.0≒19(秒))。
{2−1−5.出力制御部108}
(2−1−5−1.待ち状況を示す情報の出力開始・終了)
出力制御部108は、音声チャットユーザによる発話の検出に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。例えば、出力制御部108は、検出された発話に対する音声解析部102による解析結果に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。一例として、出力制御部108は、検出された発話の文章が、応答を必要とするモダリティであるか否かの判定結果に基づいて、音声チャットユーザの待ち状況を示す情報の出力を開始させる。例えば、検出された発話文章が、応答を必要とするモダリティであると音声解析部102により判定された場合には、出力制御部108は、当該音声チャットユーザの待ち状況を示す情報の出力を開始させる。また、検出された発話文章が、応答を必要としないモダリティであると音声解析部102により判定された場合には、出力制御部108は、当該音声チャットユーザの待ち状況を示す情報の出力を開始させない。
また、音声チャットユーザの待ち状況を示す情報の出力が開始された後には、出力制御部108は、所定の条件に基づいて、当該音声チャットユーザの待ち状況を示す情報の出力を終了させる。例えば、テキストチャットユーザによるメッセージの入力が完了した場合には、出力制御部108は、当該音声チャットユーザの待ち状況を示す情報の出力を終了させる。また、当該音声チャットユーザの待ち状況を示す情報の出力時からの経過時間が、所定の上限時間を超えた際には、出力制御部108は、当該音声チャットユーザの待ち状況を示す情報の出力を終了させる。ここで、所定の上限時間は、事前に定められた時間であってもよいし、返信制限時間算出部106により算出された返信制限時間に所定の時間が加算された時間であってもよいし、または、当該返信制限時間と同一であってもよい。
(2−1−5−2.GUIによる提示)
ここで、音声チャットユーザの待ち状況を示す情報の出力例についてさらに詳細に説明する。例えば、出力制御部108は、返信制限時間算出部106により算出された返信制限時間を含むインジケータを、当該音声チャットユーザの待ち状況を示す情報として、テキストチャットユーザ側の表示部226に表示させる。
図10は、インジケータの表示例(表示画面40)を示した説明図である。例えば、図10に示すように、出力制御部108は、表示画面40において、テキスト入力欄42と、インジケータ50とを一緒に表示させる。ここで、テキスト入力欄42は、テキストチャットユーザがテキスト(メッセージ)を入力するための入力欄である。また、図10に示すように、インジケータ50は、メータ52を含む。メータ52は、返信制限時間と、インジケータ50の表示開始時からの経過時間との差(以下、残り時間と称する場合がある)を示す表示である。この表示例によれば、テキストチャットユーザは、メッセージの返信を待つことを音声チャットユーザが許容可能な残り時間を随時知ることができる。その結果、テキストチャットユーザは、例えば、返信のメッセージの入力を急ぐべきか否かを判断することができる。
また、図10におけるインジケータ50の右端は、返信制限時間算出部106により算出された返信制限時間の長さを示す。例えば、返信制限時間の長さが「2分」である場合では、返信制限時間の長さが「1分」である場合よりも、インジケータ50の長さが2倍長くなる。また、インジケータ50の表示開始時では、メータ52の右端とインジケータ50の右端とは一致され得る。または、インジケータ50の長さは、返信制限時間の長さによらずに固定であり、かつ、後述するようにメータ52の長さが変化する速度が、返信制御時間に応じて変化させてもよい。例えば、返信制限時間の長さが「2分」である場合では、出力制御部108は、返信制限時間の長さが「1分」である場合よりも「2倍」の速度でメータ52の長さを短くさせてもよい。
但し、かかる例に限定されず、インジケータ50の右端は所定の時間(例えば3分など)に定められてもよい。そして、この場合、返信制限時間が所定の時間未満である場合には、インジケータ50の表示開始時において、メータ52は、インジケータ50よりも短く表示されることになる。
‐時間の経過に応じた表示制御
また、出力制御部108は、インジケータの表示開始時からの時間の経過に応じて、インジケータの表示態様を変化させることが可能である。図11は、時間の経過に応じて、インジケータ50の表示が変化される例を示した説明図である。なお、図11では、(a)、(b)、(c)、(d)の順に、より長い時間が経過した際のインジケータ50の表示例を示している。図11に示したように、出力制御部108は、インジケータ50の表示開始時からの経過時間が長い(つまり、残り時間が短い)ほど、メータ52の長さを短くする。さらに、図11に示したように、出力制御部108は、例えば、返信制限時間に対する残り時間の長さの割合に応じて、メータ52の表示色を変化させてもよい。例えば、図11の(b)に示したように、返信制限時間に対する残り時間の割合が「50%」未満になった場合には、出力制御部108は、メータ52の表示色を「Caution」を示す表示色に変化させる。また、図11の(c)に示したように、返信制限時間に対する残り時間の割合が「30%」未満になった場合には、出力制御部108は、メータ52の表示色を「Warning」を示す表示色に変化させる。これらの表示例によれば、返信制限時間までの残り時間が短いことをテキストチャットユーザに強調して示すことができる。
なお、図11の(d)は、テキストチャットユーザがメッセージを送信した以後のインジケータ50の表示例を示している。図11の(d)に示したように、メッセージが送信された後は、出力制御部108は、例えば、メータ52のみを非表示にさせたり、または、インジケータ50を非表示にさせる。なお、上記の説明では、インジケータ50とメータ52とが異なるものとして説明したが、かかる例に限定されず、インジケータ50はメータ52と同一であってもよい。
‐補助表示
さらに、出力制御部108は、図11に示したように、インジケータ50の近辺(例えば右隣)に補助表示54を表示させてもよい。ここで、補助表示54は、音声チャットユーザの待ち状況を示す情報の一例である。
例えば、返信制限時間に対する残り時間の割合と、テキスト(例えば、「OK」、「Hurry up!」、「He is angry!!!」など)とが対応付けて予めテーブルに登録され得る。そして、この場合、出力制御部108は、現在の残り時間の割合と、テーブルの登録内容とに応じて、補助表示54として表示されるテキストの種類を逐次更新してもよい。
または、出力制御部108は、感情推定部104により推定された感情の結果を補助表示54として表示させてもよい。例えば、音声チャットユーザによる発話の検出時において、音声チャットユーザが怒っていることが感情推定部104により推定された場合には、出力制御部108は、(経過時間に関わらず)「He is angry!!!」というテキストを補助表示54として表示させてもよい。さらに、音声チャットユーザの感情がリアルタイムに推定可能である場合には、出力制御部108は、感情の推定結果が変化する度に、補助表示54の表示内容を逐次更新してもよい。
または、出力制御部108は、音声チャットユーザの状態に関するセンシング結果(例えば、表示部226を見ているか否か、操作部222を把持しているか否かなど)を補助表示54として表示させてもよい。なお、図11では、補助表示54としてテキストが表示される例を示しているが、かかる例に限定されず、例えばアイコンなどの画像が表示されてもよい。
‐制限時間超過時の表示例
また、図12は、インジケータの表示開始時からの経過時間が返信制限時間を超過した場合におけるインジケータの表示例を示した説明図である。図12の(a)に示したように、経過時間が返信制限時間を超過した際には、出力制御部108は、テキスト入力欄42を点滅させてもよい。または、図12の(b)に示したように、出力制御部108は、テキスト入力欄42を点滅させつつ、OSK(On−Screen Keyboard)60を表示画面に表示させてもよい。これにより、テキストチャットユーザにテキストの入力を強制することができる。
(2−1−5−3.音による提示)
または、出力制御部108は、音声チャットユーザの待ち状況を示す音声を、テキストチャットユーザが使用する端末20の音声出力部228に出力させることも可能である。例えば、音声チャットユーザによる発話が検出された際に、出力制御部108は、返信制限時間算出部106により算出された返信制限時間を読み上げる音声を音声出力部228に出力させてもよい。
または、時間の長さ(または残り時間の割合)と、音の種類とが対応付けて予めテーブルに登録され得る。そして、音声チャットユーザによる発話が検出された際に、出力制御部108は、返信制限時間算出部106により算出された返信制限時間の長さ(または「100%」)と、テーブルの登録内容とに応じた種類の音を音声出力部228に出力させてもよい。さらに、出力制御部108は、現在の残り時間の長さ(または残り時間の割合)と、テーブルの登録内容とに応じて、出力される音の種類を逐次更新してもよい。これにより、テキストチャットユーザは、残り時間が後どの程度であるかを知ることができる。
または、時間の長さ(または残り時間の割合)と、所定の音(例えばベル音やビープ音など)が出力される時間間隔の長さとが対応付けて予めテーブルに登録され得る。例えば、残り時間の長さ(または残り時間の割合)が少ないほど、出力される音の時間間隔が短くなるように登録され得る。そして、音声チャットユーザによる発話が検出された際に、出力制御部108は、返信制限時間算出部106により算出された返信制限時間の長さ(または「100%」)に対応付けてテーブルに登録されている時間間隔で、所定の音を音声出力部228に出力させてもよい。さらに、出力制御部108は、現在の残り時間の長さ(または残り時間の割合)と、テーブルの登録内容とに応じて、音が出力される時間間隔を逐次更新してもよい。これにより、テキストチャットユーザは、残り時間が後どの程度であるかを知ることができる。
なお、当該待ち状況を示す音声の出力時からの経過時間が返信制限時間を超過した際には、出力制御部108は、例えば図12に示したように、表示画面に表示されているテキスト入力欄42を点滅させてもよい。
(2−1−5−4.振動による提示)
または、出力制御部108は、音声チャットユーザの待ち状況を示す振動を、例えばテキストチャットユーザが使用する端末20の操作部222に出力させることも可能である。
例えば、時間の長さ(または残り時間の割合)と、振動の種類とが対応付けて予めテーブルに登録され得る。一例として、時間の長さ(または残り時間の割合)が大きいほど、より快適であると評価されている振動パターンがテーブルに登録されてもよい。そして、音声チャットユーザによる発話が検出された際に、出力制御部108は、返信制限時間算出部106により算出された返信制限時間の長さ(または「100%」)と、テーブルの登録内容とに応じた種類の振動を操作部222に出力させてもよい。さらに、出力制御部108は、現在の残り時間の長さ(または残り時間の割合)と、テーブルの登録内容とに応じて、出力される振動の種類を逐次更新してもよい。
または、時間の長さ(または残り時間の割合)と、所定の種類の振動が出力される時間間隔の長さとが対応付けて予めテーブルに登録され得る。例えば、残り時間の長さ(または残り時間の割合)が少ないほど、出力される振動の時間間隔が短くなるように登録され得る。そして、音声チャットユーザによる発話が検出された際に、出力制御部108は、返信制限時間算出部106により算出された返信制限時間の長さ(または「100%」)に対応付けてテーブルに登録されている時間間隔で、所定の振動を操作部222に出力させてもよい。さらに、出力制御部108は、現在の残り時間の長さ(または残り時間の割合)と、テーブルの登録内容とに応じて、振動が出力される時間間隔を逐次更新してもよい。
または、残り時間の割合(または時間の長さ)と、操作部222において振動が出力される部位とが対応付けて予めテーブルに登録され得る。例えば、残り時間の割合が小さいほど、振動が出力される部位がより多くなるように登録され得る。そして、出力制御部108は、現在の残り時間の割合(または残り時間の長さ)と、テーブルの登録内容とに応じて、振動が出力される部位を逐次変化させてもよい。
なお、当該待ち状況を示す振動の出力時からの経過時間が返信制限時間を超過した際には、出力制御部108は、例えば図12に示したように、表示画面に表示されているテキスト入力欄42を点滅させてもよい。
(2−1−5−5.残り時間の増減)
なお、出力制御部108は、所定の条件に基づいて、(テキストチャットユーザの返信に関する)残り時間を増減させることも可能である。さらに、残り時間を増減した際には、出力制御部108は、増減後の残り時間に応じた態様で、インジケータを表示させたり、音を出力させたり、または、振動を出力させる。
例えば、テキストチャットユーザが返信する前では、出力制御部108は、音声チャットユーザによる新たな発話が検出される度に、現在の残り時間に対して所定の時間を加算してもよい。
または、テキストチャットユーザが返信する前で、かつ、音声チャットユーザにより新たに発話されたことが検出された際には、出力制御部108は、当該新たな発話に応じて、現在の残り時間を増減させてもよい。例えば、「早く返信して!」などの、メッセージの返信を急かすようなキーワードが音声チャットユーザにより新たに発話されたことが検出された際には、出力制御部108は、残り時間を所定の時間だけ短縮してもよい。
または、テキストチャットユーザが返信する前で、かつ、感情推定部104による感情の推定結果が変化した際には、出力制御部108は、感情の推定結果の変化に応じて、残り時間を増減させてもよい。例えば、発話の検出時における感情の推定結果が「通常」であり、かつ、テキストチャットユーザが返信する前において音声チャットユーザの感情の推定結果が「怒っている」に変化した際には、出力制御部108は、残り時間を所定の時間だけ短縮してもよい。また、発話の検出時における感情の推定結果が「怒っている」であり、かつ、テキストチャットユーザが返信する前において音声チャットユーザの感情の推定結果が「通常」に変化した際には、出力制御部108は、現在の残り時間に対して所定の時間を加算してもよい。
‐変形例
なお、変形例として、3人以上のユーザ間でメッセージが交換される場面では、出力制御部108は、いずれかのテキストチャットユーザに関する残り時間を増減させることも可能である。例えば、音声チャットユーザが一人存在し、かつ、テキストチャットユーザが複数人存在する場面では、出力制御部108は、所定の条件に基づいて、テキストチャットユーザごとに、メッセージの返信に関する残り時間の増減量を変化させてもよい。
一例として、音声チャットユーザが教師であり、テキストチャットユーザが生徒である場面での適用例について説明する。例えば、授業中に教師が「○○について分かる人いる?」という質問を発話し、そして、複数の生徒のうちのいずれか(以下、生徒Aと称する)が、当該発話に対してメッセージを返信したとする。この場合、出力制御部108は、生徒Aの残り時間を「0秒」にし、かつ、生徒A以外の生徒全員に関して、現在の残り時間に対して所定の時間を加算してもよい。この制御例によれば、例えば、当該質問に関してより詳細に調べたり、考えるための時間を生徒A以外の生徒に与えることが可能となる。また、同じ質問に対して複数の生徒に回答させることにより、授業を活発化させることができる。
また、別の例として、遠隔地にいる教師(音声チャットユーザ)と複数の生徒(テキストチャットユーザ)とが英会話のグループレッスンを行っており、かつ、教師が使用する端末20(PCなど)の表示部に複数の生徒の映像が表示されている場面での適用例について説明する。例えば、当該複数の生徒の映像のうちのいずれに教師の視線が向けられているかが例えば表示部の近辺に設置されているカメラにより検出され、かつ、教師が質問の発話を行ったとする。この場合、出力制御部108は、教師の視線が向けられていることが検出された映像に対応する生徒に関してのみ残り時間を増加させてもよい。または、この場合、出力制御部108は、教師の視線が向けられていることが検出された生徒が閲覧する表示部にのみインジケータを表示させ、かつ、当該質問に対する返信のメッセージを該当の生徒にのみ入力させてもよい。
{2−1−6.通信部120}
通信部120は、他の装置との間で情報の送受信を行う。例えば、通信部120は、出力制御部108の制御に従って、音声チャットユーザの待ち状況を示す情報を、テキストチャットユーザが使用する端末20へ送信する。また、通信部120は、ユーザによる発話の音声や、入力されたテキストなどを端末20から受信する。
{2−1−7.記憶部122}
記憶部122は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部122は、制限時間算出用DB124などを記憶する。
<2−2.動作>
以上、第1の実施形態による構成について説明した。次に、第1の実施形態による動作の一例について、図13〜図16を参照して説明する。
{2−2−1.動作の全体的な流れ}
まず、第1の実施形態による動作の全体的な流れについて、図13を参照して説明する。なお、ここでは、音声チャットユーザとテキストチャットユーザとの間でチャットを開始した後の動作例について説明する。また、サーバ10は、音声チャットユーザの待ち状況を示す情報としてインジケータを表示させる例について説明する。
図13に示したように、まず、音声チャットユーザが発話を行う。そして、音声チャットユーザが使用する端末20aは、発話された音声を集音し、そして、集音した音声を逐次サーバ10へ送信する(S101)。
その後、サーバ10は、後述する「インジケータ表示要否判定処理」を行う(S103)。そして、インジケータの表示が必要ではないと判定された場合には(S105:No)、再びS101の処理が実行される。
一方、インジケータの表示が必要であると判定された場合には(S105:Yes)、サーバ10は、後述する「返信制限時間算出処理」を行う(S107)。
続いて、サーバ10の出力制御部108は、S107の処理結果に応じたインジケータを、テキストチャットユーザが使用する端末20b(の表示部226)に表示を開始させる(S109)。
その後、サーバ10は、後述する「インジケータ表示終了判定処理」を行う(S111)。そして、インジケータの表示を終了しないと判定された場合には(S113:No)、サーバ10は、例えば所定の時間待機した後に、再びS111の処理を行う。一方、インジケータの表示を終了すると判定された場合には(S113:Yes)、本動作は終了する。
{2−2−2.インジケータ表示要否判定処理}
ここで、S103における「インジケータ表示要否判定処理」の詳細な動作について、図14を参照して説明する。図14に示したように、まず、音声解析部102は、S101で受信された音声の音声認識を行う(S201)。そして、音声解析部102は、音声認識の結果に基づいて、発話文章のモダリティ解析を行う(S203)。そして、応答を必要とするモダリティであると判定された場合には(S205:Yes)、出力制御部108は、インジケータの表示が必要であると判定する(S207)。そして、当該「インジケータ表示要否判定処理」は終了する。
一方、応答を必要としないモダリティであると判定された場合には(S205:No)、次に、出力制御部108は、前回検出された発話から所定の時間が経過したか否かを判定する(S209)。前回の発話から所定の時間が経過している場合には(S209:Yes)、出力制御部108は、S101で受信された音声に対応する発話が、新コンテキストでの最初の発話であると判定する(S211)。そして、出力制御部108は、上述したS207の処理を行う。
一方、前回の発話から所定の時間が経過していない場合には(S209:No)、出力制御部108は、S201の音声認識の結果が、会話終了を示す単語を含むか否かを判定する(S213)。ここで、会話終了を示す単語は、例えば「さようなら」「バイバイ」「もう寝るよー」「また明日」などであってもよい。また、会話終了を示す単語は、チャットの履歴情報に基づいて構築される単語リストに登録されていてもよい。なお、この単語リストは、例えば、チャットの履歴情報に基づいて、最終発話の単語を収集することなどに基づいて構築され得る。
該当の音声認識の結果が、会話終了を示す単語を含まない場合には(S213:No)、出力制御部108は、上述したS207の処理を行う。一方、該当の音声認識の結果が、会話終了を示す単語を含む場合には(S213:Yes)、出力制御部108は、インジケータの表示が不要であると判定する(S215)。そして、当該「インジケータ表示要否判定処理」は終了する。
{2−2−3.返信制限時間算出処理}
次に、S107における「返信制限時間算出処理」の詳細な動作について、図15を参照して説明する。図15に示したように、まず、返信制限時間算出部106は、S201で解析された該当の音声の発話特性を取得する(S301)。続いて、返信制限時間算出部106は、音声テキストチャットユーザに関する例えば顔画像、視線の検出結果、または、行動認識結果などの、音声以外のセンシング情報を取得する(S303)。なお、これらのセンシング情報は、S101において端末20が発話の音声と一緒にサーバ10へ送信してもよいし、または、S303において端末20がサーバ10へ送信してもよい。
続いて、返信制限時間算出部106は、S201で解析された該当の発話の文章に関する指示代名詞の有無の解析結果を取得する(S305)。
続いて、返信制限時間算出部106は、S201で解析された該当の発話の文章に関する時間情報の解析結果を取得する(S307)。
続いて、返信制限時間算出部106は、S301〜S307で取得された情報、および、制限時間算出用DB124の登録内容に基づいて、基準時間からの減少率を算出する(S309)。
その後、返信制限時間算出部106は、基準時間に対して、S309で算出された減少率を乗じることにより、返信制限時間を算出する(S311)。
{2−2−4.インジケータ表示終了判定処理}
次に、S111における「インジケータ表示終了判定処理」の詳細な動作について、図16を参照して説明する。図16に示したように、まず、出力制御部108は、S101で検出された発話に関して、テキストチャットユーザが返信済みであるか否かを判定する(S401)。テキストチャットユーザが返信済みである場合には(S401:Yes)、出力制御部108は、インジケータの表示を終了させることを判定する(S403)。そして、当該「インジケータ表示終了判定処理」は終了する。
一方、テキストチャットユーザがまだ返信していない場合には(S401:No)、出力制御部108は、音声チャットユーザから新たな発話が検出されたか否かを判定する(S405)。音声チャットユーザからの新たな発話が検出された場合には(S405:Yes)、出力制御部108は、例えば公知の技術を用いて文間関係の推定を行うことにより、検出された新たな発話(以下、「新たな発話」と称する)と、S101で検出された発話(以下、対象の発話と称する)とが関係があるか否かを判定する(S407)。例えば、新たな発話の文章と、対象の発話の文章との文間関係が「事柄の同一性に基づく関係」(例えば「同等」、「簡略」、「詳細」、「例示」、「参照」、「補足」など)であると推定される場合には、出力制御部108は、新たな発話が対象の発話と関係がある(つまり、発話が継続している)と判定する。
新たな発話が対象の発話と関係が無いと判定された場合には(S407:No)、サーバ10は、上述したS403の処理を行う。一方、新たな発話が対象の発話と関係があると判定された場合には(S407:Yes)、出力制御部108は、インジケータの表示を終了させないことを判定する(S409)。その後、当該「インジケータ表示終了判定処理」は終了する。
また、S405において、新たな発話が検出されていない場合には(S405:No)、次に、出力制御部108は、S109におけるインジケータの表示開始時からの経過時間が所定の上限時間を超えたか否かを判定する(S411)。
経過時間が上限時間を超えた場合には(S411:Yes)、サーバ10は、上述したS403の処理を行う。一方、経過時間が上限時間を超えていない場合には(S411:No)、サーバ10は、上述したS409の処理を行う。
{2−2−5.変形例}
なお、第1の実施形態による動作は、上述した例に限定されない。例えば、図13に示したS107の処理は、S103よりも前に実行されてもよい。
<2−3.効果>
以上説明したように、第1の実施形態によれば、音声チャットユーザとテキストチャットユーザとの間でメッセージが交換される場面において、サーバ10は、音声チャットユーザによる発話の検出に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。これにより、テキストチャットユーザは、メッセージの入力時において、音声チャットユーザの待ち状況を把握することができる。
例えば、サーバ10は、音声チャットユーザによる発話の検出に基づいて返信制限時間を算出し、そして、算出した返信制限時間含むインジケータをテキストチャットユーザ側の表示部226に表示させる。そして、このインジケータは、当該返信制限時間と、インジケータの表示開始時からの経過時間との差を示すメータを含む。これにより、テキストチャットユーザは、メッセージの返信を待つことを音声チャットユーザが許容可能な残り時間を随時知ることができる。その結果、テキストチャットユーザは、例えば、返信のメッセージの入力を急ぐべきか否かを判断することができる。
<2−4.変形例>
なお、第1の実施形態は、上記の説明に限定されない。例えば、サーバ10がインジケータをテキストチャットユーザ側の表示部226bにのみ表示させる例について説明したが、かかる例に限定されず、サーバ10は、同じインジケータを音声チャットユーザ側の表示部226aにも表示させてもよい。これにより、音声チャットユーザは、テキストチャットユーザが閲覧しているインジケータの内容を把握することができる。
<<3.第2の実施形態>>
以上、第1の実施形態について説明した。上述したように、一般的に、テキストチャットでは、音声チャットと比較して、メッセージの入力に長時間を要する。そこで、音声チャットユーザとテキストチャットユーザとの間でチャットを行う場面におけるユーザビリティの低下を抑制するために、さらに、テキストチャットユーザの入力状況を音声チャットユーザが確認可能であることが望ましい。
次に、第2の実施形態について説明する。後述するように、第2の実施形態によれば、サーバ10は、テキストチャットユーザによるテキストの入力状況に基づいて、音声チャットユーザに対するフィードバック音声(以下、FB音声と称する)の出力を制御することが可能である。なお、第2の実施形態では、テキストチャットユーザが音声テキスト入力を行う場面での適用例について説明する。但し、かかる例に限定されず、テキストチャットユーザが例えばハードウェアキーボードやソフトウェアキーボードなどを用いてテキスト入力を行う場面にも概略同様に適用可能である。
<3−1.構成>
次に、第2の実施形態によるサーバ10の構成について詳細に説明する。なお、第2の実施形態によるサーバ10に含まれる構成要素は第1の実施形態と同様である。以下では、第1の実施形態と異なる内容についてのみ説明を行う。
{3−1−1.出力制御部108}
第2の実施形態による出力制御部108は、テキストチャットユーザによるテキストの入力状況に基づいて、音声チャットユーザが使用する端末20の音声出力部228にFB音声を出力させる。例えば、予め定められている音声FBタイミングになった場合には、出力制御部108は、FB音声を音声出力部228に出力させる。ここで、音声FBタイミングは、例えば、「メッセージの入力開始時」、「メッセージの入力中」、「メッセージの入力終了時」、および、「メッセージの送信時」などである。なお、「メッセージの入力中」は、例えば、VAD(Voice Activity Detection)により検出される(音声テキスト入力の)発話区間のうち、発話の音量が所定の閾値を超えたタイミングである。
例えば、音声FBタイミングと、音声の種類とが対応付けて予めFB音声テーブル(図示省略)に登録され得る。一例として、「メッセージの送信時」に対応付けて「○○さんからメッセージです」といった音声がFB音声テーブルに登録されてもよい。そして、この場合、いずれかの音声FBタイミングに達する度に、出力制御部108は、当該音声FBタイミングに対応付けてFB音声テーブルに格納されているFB音声を音声出力部228に出力させる。なお、このFB音声テーブルは、記憶部122に記憶され得る。
<3−2.動作>
以上、第2の実施形態による構成について説明した。次に、第2の実施形態による動作について、図17および図18を参照して説明する。図17に示したように、まず、テキストチャットユーザが使用する端末20bは、テキストチャットユーザにより音声テキスト入力が開始されるまで待機する(S501)。そして、テキストチャットユーザにより音声テキスト入力が開始された場合には(S501:Yes)、端末20bは、テキスト入力が開始されたことの通知をサーバ10へ送信する(S503)。
その後、サーバ10の出力制御部108は、「メッセージの入力開始時」に対応付けてFB音声テーブルに格納されているFB音声を抽出する。そして、通信部120は、出力制御部108の制御に従って、抽出したFB音声を、音声チャットユーザが使用する端末20aへ送信する(S505)。その後、端末20aは、受信した音声を出力する(S507)。
また、S503の後に、端末20bは、テキストチャットユーザにより音声テキスト入力が終了されたか否かを判定する(S509)。音声テキスト入力がなされている間は(S509:No)、端末20bは、テキストチャットユーザの発話の音量が所定の閾値を超えるまで待機する(S511)。そして、発話の音量が所定の閾値を超えた場合には(S511:Yes)、端末20bは、入力中であることの通知をサーバ10へ送信する(S513)。
その後、サーバ10の出力制御部108は、「メッセージの入力中」に対応付けてFB音声テーブルに格納されているFB音声を抽出する。そして、通信部120は、出力制御部108の制御に従って、抽出したFB音声を端末20aへ送信する(S515)。その後、端末20aは、受信した音声を出力する(S517)。
ここで、S509において音声テキスト入力が終了された場合(S509:Yes)における動作について、図18を参照して説明する。図18に示したように、まず、端末20bは、テキスト入力が終了したことの通知をサーバ10へ送信する(S521)。
その後、サーバ10の出力制御部108は、「メッセージの入力終了時」に対応付けてFB音声テーブルに格納されているFB音声を抽出する。そして、通信部120は、出力制御部108の制御に従って、抽出したFB音声を端末20aへ送信する(S523)。その後、端末20aは、受信した音声を出力する(S525)。
また、S521の後、端末20bは、入力されたメッセージをサーバ10へ送信する(S527)。そして、サーバ10の出力制御部108は、「メッセージの送信時」に対応付けてFB音声テーブルに格納されているFB音声を抽出する。そして、通信部120は、出力制御部108の制御に従って、抽出したFB音声を端末20aへ送信する(S529)。その後、端末20aは、受信した音声を出力する(S531)。
なお、図18に示したS533〜S537の処理は、図3に示したS23〜S27と同様である。
<3−3.効果>
以上説明したように、第2の実施形態によるサーバ10は、テキストチャットユーザによるテキストの入力状況に基づいて、音声チャットユーザに対するFB音声の出力を制御する。このため、テキストチャットユーザからのメッセージを待っている際に、音声チャットユーザは、テキストチャットユーザの入力状況を確認することができる。従って、音声チャットユーザのユーザビリティの低下を抑制することができる。
<<4.第3の実施形態>>
以上、第2の実施形態について説明した。上述したように、第1の実施形態および第2の実施形態では、テキストチャットユーザが入力したメッセージは、TTS読み上げにより音声チャットユーザに伝達される。ところで、一般的に、TTS読み上げでは、テキストが平坦に読み上げられるので、読み上げの音声を聴くユーザは、情報を聞き逃しやすい。その結果、音声チャットユーザとテキストチャットユーザとの間においてコミュニケーションの円滑さが低下する場合がある。
次に、第3の実施形態について説明する。後述するように、第3の実施形態によれば、サーバ10は、テキストチャットユーザにより入力されたメッセージからのキーワードの抽出に基づいて、音声チャットユーザに対して出力される当該メッセージの音声の出力態様を変化させることが可能である。これにより、テキストチャットユーザによるメッセージの重要部分を音声チャットユーザが聞き逃すことを抑制することができる。ここで、キーワードは、例えば、日時や場所などを示す単語であり得る。
<4−1.構成>
次に、第3の実施形態によるサーバ10の構成について詳細に説明する。なお、第3の実施形態によるサーバ10に含まれる構成要素は第1の実施形態と同様である。
{4−1−1.出力制御部108}
第3の実施形態による出力制御部108は、テキストチャットユーザにより入力されたメッセージからのキーワードの抽出に基づいて、音声チャットユーザに対して出力される当該メッセージの音声の出力態様を変化させる。
例えば、出力制御部108は、入力されたメッセージから抽出されるキーワードの音声が出力される回数を多くすることが可能である。一例として、出力制御部108は、まず、テキストチャットユーザにより入力されたメッセージの音声を、音声チャットユーザ側の音声出力部228aに出力させ、その後、出力制御部108は、当該メッセージから抽出されたキーワードの音声だけを音声出力部228aに出力させる。一例として、「そうだね、明日の9時にトロッコルームに集合で」というメッセージがテキストチャットユーザにより入力され、かつ、「明日」、「9時」、および「トロッコルーム」がキーワードとして抽出されるとする。この場合、出力制御部108は、まず、TTSによる「そうだね、明日の9時にトロッコルームに集合で」という音声を音声出力部228aに出力させ、その後、TTSによる「明日 9時 トロッコルーム」といった、キーワードだけの音声を音声出力部228aに出力させる。
または、出力制御部108は、入力されたメッセージから抽出されたキーワードの部分の音声を異ならせて当該メッセージの音声を出力させることが可能である。例えば、出力制御部108は、入力されたメッセージから抽出されたキーワードの部分の音量を、キーワード以外の部分の音量よりも大きくさせて、TTSによる当該メッセージの音声を音声出力部228aに出力させる。または、出力制御部108は、入力されたメッセージから抽出されたキーワードの部分の音声の種類を、キーワード以外の部分の音声の種類と異ならせて、TTSによる当該メッセージの音声を音声出力部228aに出力させてもよい。
または、出力制御部108は、入力されたメッセージから抽出されたキーワードの部分の音声の速度を異ならせて当該メッセージの音声を出力させることが可能である。例えば、入力されたメッセージから抽出されたキーワードの前後で音声の出力を一時停止させるとともに、キーワードの部分の音声を、キーワード以外の部分の音声よりも例えば0.8倍などの低速にして、TTSによる当該メッセージの音声を音声出力部228aに出力させてもよい。
<4−2.動作>
以上、第3の実施形態による構成について説明した。次に、第3の実施形態による動作について、図19を参照して説明する。図19に示したように、まず、テキストチャットユーザは、端末20bに対してメッセージを入力する(S601)。そして、端末20bは、入力されたメッセージをサーバ10へ送信する(S603)。
その後、サーバ10の出力制御部108は、受信されたメッセージからキーワードを抽出する(S605)。そして、出力制御部108は、受信されたメッセージと、抽出したキーワードとに基づいて、当該メッセージに関して該当のキーワードを強調する音声をTTSにより生成する(S607)。
その後、通信部120は、出力制御部108の制御に従って、生成された音声を端末20aへ送信する(S609)。その後、端末20aは、受信した音声を出力する(S611)。
<4−3.効果>
以上説明したように、第3の実施形態によるサーバ10は、テキストチャットユーザにより入力されたメッセージからのキーワードの抽出に基づいて、音声チャットユーザに対して出力される当該メッセージの音声の出力態様を変化させる。このため、音声チャットユーザは、該当のメッセージに含まれるキーワードをより確実に聞くことができる。その結果、例えば音声チャットユーザがテキストチャットユーザに対して聞き直す回数が減少するなど、円滑なコミュニケーションを実現することができる。
<<5.第4の実施形態>>
以上、第3の実施形態について説明した。ところで、音声チャットユーザとテキストチャットユーザとの間でチャットを行う場面では、通常、音声チャットユーザの発話時にテキストチャットユーザが音声を発したとしても、当該音声は音声チャットユーザに伝達されない。このため、音声チャットユーザは、例えば相槌などの、テキストチャットユーザが聞いていることを示す音声情報を得られないので、自然なコミュニケーションをし難く感じ得る。
次に、第4の実施形態について説明する。後述するように、第4の実施形態によれば、サーバ10は、音声チャットユーザによる発話の検出に基づいて、音声チャットユーザに対して、TTSによる自動の相槌の音声の出力を制御することが可能である。
<5−1.構成>
次に、第4の実施形態によるサーバ10の構成について詳細に説明する。なお、第4の実施形態によるサーバ10に含まれる構成要素は第1の実施形態と同様である。
{5−1−1.出力制御部108}
第4の実施形態による出力制御部108は、音声チャットユーザによる発話が検出された場合に、テキストチャットユーザが聞いているか否かの推定結果に基づいて、音声チャットユーザに対する、TTSによる相槌の音声の出力を制御する。例えば、音声チャットユーザによる発話が検出され、かつ、テキストチャットユーザが音声チャットユーザの発話を聞いていることが推定される場合には、出力制御部108は、TTSによる相槌の音声を音声チャットユーザ側の音声出力部228に出力させる。一例として、音声チャットユーザによる発話が検出された後において、音声チャットユーザの発話の音量が相対的に低下した際、または、音声チャットユーザの発話が途切れてから所定の時間が経過した際に、出力制御部108は、TTSによる相槌の音声を音声チャットユーザ側の音声出力部228に出力させる。
なお、出力制御部108は、テキストチャットユーザが音声チャットユーザの発話を聞いているか否かを例えば以下のような方法により推定することが可能である。例えば、出力制御部108は、音声チャットユーザの発話の音声がテキストチャットユーザ側の音声出力部228bに出力されているか否かに基づいて、テキストチャットユーザが当該発話を聞いているか否かを判定してもよい。または、出力制御部108は、テキストチャットユーザがイヤフォンまたはヘッドフォンを装着しているか否かの検出結果に基づいて、テキストチャットユーザが当該発話を聞いているか否かを判定してもよい。または、出力制御部108は、テキストチャットユーザの行動認識の結果に基づいて、テキストチャットユーザが当該発話を聞いているか否かを判定してもよい。例えば、音声チャットユーザとテキストチャットユーザとがコンピュータゲームをしている場合には、出力制御部108は、テキストチャットユーザのコンピュータゲームへの集中度の検出結果に基づいて、テキストチャットユーザが当該発話を聞いているか否かを判定してもよい。なお、例えば、操作部222bに対する操作頻度の検出結果、テキストチャットユーザの視線の検出結果、または、音声チャットユーザの発話の検出時におけるゲームの状況などに基づいて、コンピュータゲームへの集中度は判定され得る。
一例として、「どうしようかなぁ、今1万ルピーしかないから」という発話が音声チャットユーザにより行われ、かつ、「どうしようかなぁ」という発話の直後に音量が一時的に低下する場面での適用例について説明する。この場合、出力制御部108は、まず、「どうしようかなぁ」という発話の直後に例えば「うん」という、TTSによる相槌の音声を音声出力部228aに出力させる。そして、出力制御部108は、「今1万ルピーしかないから」という発話の直後に、例えば「うんうん」という、TTSによる相槌の音声を音声出力部228aに出力させてもよい。
<5−2.動作>
以上、第4の実施形態による構成について説明した。次に、第4の実施形態による動作について、図20を参照して説明する。図20に示したように、まず、音声チャットユーザが使用する端末20aは、音声チャットユーザによる発話が検出されるまで待機する(S701)。そして、音声チャットユーザによる発話が検出された場合には(S701:Yes)、端末20aは、検出した発話の音声をサーバ10へ逐次送信する(S703)。
その後、サーバ10の通信部120は、制御部100の制御に従って、受信された音声を、テキストチャットユーザが使用する端末20bへ送信する(S705)。さらに、通信部120は、センシング情報の提供要求を端末20bへ送信する(S707)。
その後、端末20bは、例えば測定部224による測定結果などのセンシング情報をサーバ10へ送信する(S709)。
その後、サーバ10の出力制御部108は、受信されたセンシング情報に基づいて、テキストチャットユーザが、音声チャットユーザの発話を聞いているか否かを判定する(S711)。テキストチャットユーザが音声チャットユーザの発話を聞いていないと判定される場合には(S711:No)、サーバ10は再びS707の処理を行う。
一方、テキストチャットユーザが音声チャットユーザの発話を聞いていると判定される場合には(S711:Yes)、音声チャットユーザの発話の音量が閾値以上低下するまで、または、音声チャットユーザの発話が途切れ、かつ、途切れたタイミングから所定の時間が経過するまで、サーバ10は待機する(S713)。
そして、S713の条件が満たされた場合には(S713:Yes)、出力制御部108は、TTSにより相槌の音声を生成する。そして、通信部120は、出力制御部108の制御に従って、生成された音声を端末20aへ送信する(S715)。その後、端末20aは、受信した音声を出力する(S717)。
{5−2−1.変形例}
なお、第4の実施形態による動作は、上述した例に限定されない。例えば、S707の処理が行われずに、端末20bはセンシング情報をサーバ10へ自動的に送信してもよい。例えば、端末20bは、センシング情報を常時取得し、そして、所定の時間間隔で、取得したセンシング情報をサーバ10へ送信してもよい。
<5−3.効果>
以上説明したように、第4の実施形態によるサーバ10は、音声チャットユーザによる発話が検出された場合に、テキストチャットユーザが聞いているか否かの推定結果に基づいて、音声チャットユーザに対する、TTSによる相槌の音声の出力を制御する。このため、音声チャットユーザの発話をテキストチャットユーザが聞いていることを、音声チャットユーザに直感的に知らせることができる。従って、音声チャットユーザはより自然にコミュニケーションを行うことができる。
<<6.ハードウェア構成>>
次に、各実施形態に共通するサーバ10のハードウェア構成について、図21を参照して説明する。図21に示すように、サーバ10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、ストレージ装置160、および、通信装置162を備える。
CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ10内の動作全般を制御する。また、CPU150は、サーバ10において制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。
RAM154は、例えば、CPU150により実行されるプログラムなどを一時的に記憶する。
バス156は、CPUバスなどから構成される。このバス156は、CPU150、ROM152、およびRAM154を相互に接続する。
インターフェース158は、ストレージ装置160、および通信装置162を、バス156と接続する。
ストレージ装置160は、記憶部122として機能する、データ格納用の装置である。ストレージ装置160は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または記憶媒体に記録されたデータを削除する削除装置などを含む。
通信装置162は、例えば通信網30などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置162は、無線LAN対応通信装置、LTE(Long Term Evolution)対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。この通信装置162は、通信部120として機能する。
<<7.変形例>>
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、各実施形態による情報処理システムの構成は、上述した例に限定されない。例えば、音声チャットユーザとテキストチャットユーザとは互いに異なる種類の端末を使用してもよい。一例として、音声チャットユーザが使用する端末には、表示部226が設けられておらず、かつ、テキストチャットユーザが使用する端末には、表示部226が設けられていてもよい。
また、上述した各実施形態では、サーバ10が音声解析部102および感情推定部104を有する例について説明したが、かかる例に限定されない。例えば、サーバ10の代わりに、端末20が、音声解析部102の機能を有してもよい。この場合、端末20が、音声テキストチャットユーザによる発話の内容を解析することも可能である。また、端末20は、感情推定部104の機能の一部または全部を有してもよい。
また、上述した各実施形態の動作における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。
また、上述した各実施形態によれば、CPU150、ROM152、およびRAM154などのハードウェアを、上述した各実施形態によるサーバ10の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、
を備え、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理装置。
(2)
前記第1のユーザの待ち状況を示す情報は、メッセージの返信制限時間を含む、前記(1)に記載の情報処理装置。
(3)
前記情報処理装置は、所定の基準に基づいて前記メッセージの返信制限時間を算出する返信制限時間算出部をさらに備える、前記(2)に記載の情報処理装置。
(4)
前記所定の基準は、検出された前記第1のユーザの発話の特性を含む、前記(3)に記載の情報処理装置。
(5)
前記発話の特性は、発話の音量または話速を含む、前記(4)に記載の情報処理装置。
(6)
前記所定の基準は、検出された前記第1のユーザの発話に基づいた感情推定の結果を含む、前記(3)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記所定の基準は、前記第1のユーザの状態に関するセンシング結果を含む、前記(3)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記所定の基準は、検出された前記第1のユーザの発話の音声認識の結果を含む、前記(3)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記第1のユーザの待ち状況を示す情報は、インジケータを含み、
前記インジケータは、前記メッセージの返信制限時間と、前記インジケータの表示開始時からの経過時間との差を示す、前記(2)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記出力制御部は、前記インジケータの表示開始時からの時間の経過に応じて、前記インジケータの表示態様を変化させる、前記(9)に記載の情報処理装置。
(11)
前記第1のユーザの待ち状況を示す情報は、検出された前記第1のユーザの発話に基づいた感情推定の結果を含む、前記(1)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記出力制御部は、さらに、検出された前記第1のユーザの発話の音声認識の結果に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に開始させる、前記(1)〜(11)のいずれか一項に記載の情報処理装置。
(13)
前記出力制御部は、さらに、前記音声認識の結果に対するモダリティ解析の結果に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に開始させる、前記(12)に記載の情報処理装置。
(14)
前記第1のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第2のユーザによるメッセージの入力に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に終了させる、前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記第1のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第1のユーザの待ち状況を示す情報の出力開始時からの経過時間に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に終了させる、前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
前記出力制御部は、さらに、前記第1のユーザによる発話の検出後における、前記第2のユーザによるテキストの入力状況に基づいて、前記第1のユーザに対するフィードバック音声の出力を制御する、前記(1)〜(15)のいずれか一項に記載の情報処理装置。
(17)
前記出力制御部は、さらに、前記第2のユーザにより入力されたメッセージからのキーワードの抽出に基づいて、前記第1のユーザに対して出力される前記メッセージの音声の出力態様を変化させる、前記(1)〜(16)のいずれか一項に記載の情報処理装置。
(18)
前記出力制御部は、前記第1のユーザによる発話の検出に基づいて、さらに、前記第1のユーザに対する相槌の音声の出力を制御する、前記(1)〜(17)のいずれか一項に記載の情報処理装置。
(19)
音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力をプロセッサが制御すること、
を含み、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理方法。
(20)
コンピュータを、
音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、
として機能させるための、プログラムであって、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、プログラム。
10 サーバ
20 端末
30 通信網
100、200 制御部
102 音声解析部
104 感情推定部
106 返信制限時間算出部
108 出力制御部
120、230 通信部
122 記憶部
124 制限時間算出用DB
126 発話特性係数テーブル
128 センシング情報係数テーブル
130 指示代名詞有無係数テーブル
132 時間情報係数テーブル
220 集音部
222 操作部
224 測定部
226 表示部
228 音声出力部

Claims (20)

  1. 音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、
    を備え、
    前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理装置。
  2. 前記第1のユーザの待ち状況を示す情報は、メッセージの返信制限時間を含む、請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、所定の基準に基づいて前記メッセージの返信制限時間を算出する返信制限時間算出部をさらに備える、請求項2に記載の情報処理装置。
  4. 前記所定の基準は、検出された前記第1のユーザの発話の特性を含む、請求項3に記載の情報処理装置。
  5. 前記発話の特性は、発話の音量または話速を含む、請求項4に記載の情報処理装置。
  6. 前記所定の基準は、検出された前記第1のユーザの発話に基づいた感情推定の結果を含む、請求項3に記載の情報処理装置。
  7. 前記所定の基準は、前記第1のユーザの状態に関するセンシング結果を含む、請求項3に記載の情報処理装置。
  8. 前記所定の基準は、検出された前記第1のユーザの発話の音声認識の結果を含む、請求項3に記載の情報処理装置。
  9. 前記第1のユーザの待ち状況を示す情報は、インジケータを含み、
    前記インジケータは、前記メッセージの返信制限時間と、前記インジケータの表示開始時からの経過時間との差を示す、請求項2に記載の情報処理装置。
  10. 前記出力制御部は、前記インジケータの表示開始時からの時間の経過に応じて、前記インジケータの表示態様を変化させる、請求項9に記載の情報処理装置。
  11. 前記第1のユーザの待ち状況を示す情報は、検出された前記第1のユーザの発話に基づいた感情推定の結果を含む、請求項1に記載の情報処理装置。
  12. 前記出力制御部は、さらに、検出された前記第1のユーザの発話の音声認識の結果に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に開始させる、請求項1に記載の情報処理装置。
  13. 前記出力制御部は、さらに、前記音声認識の結果に対するモダリティ解析の結果に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に開始させる、請求項12に記載の情報処理装置。
  14. 前記第1のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第2のユーザによるメッセージの入力に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に終了させる、請求項1に記載の情報処理装置。
  15. 前記第1のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第1のユーザの待ち状況を示す情報の出力開始時からの経過時間に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に終了させる、請求項1に記載の情報処理装置。
  16. 前記出力制御部は、さらに、前記第1のユーザによる発話の検出後における、前記第2のユーザによるテキストの入力状況に基づいて、前記第1のユーザに対するフィードバック音声の出力を制御する、請求項1に記載の情報処理装置。
  17. 前記出力制御部は、さらに、前記第2のユーザにより入力されたメッセージからのキーワードの抽出に基づいて、前記第1のユーザに対して出力される前記メッセージの音声の出力態様を変化させる、請求項1に記載の情報処理装置。
  18. 前記出力制御部は、前記第1のユーザによる発話の検出に基づいて、さらに、前記第1のユーザに対する相槌の音声の出力を制御する、請求項1に記載の情報処理装置。
  19. 音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力をプロセッサが制御すること、
    を含み、
    前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理方法。
  20. コンピュータを、
    音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、
    として機能させるための、プログラムであって、
    前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、プログラム。
JP2018511890A 2016-04-12 2017-01-24 情報処理装置、情報処理方法、およびプログラム Active JP6943237B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016079571 2016-04-12
JP2016079571 2016-04-12
PCT/JP2017/002213 WO2017179262A1 (ja) 2016-04-12 2017-01-24 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2017179262A1 true JPWO2017179262A1 (ja) 2019-02-14
JP6943237B2 JP6943237B2 (ja) 2021-09-29

Family

ID=60042514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018511890A Active JP6943237B2 (ja) 2016-04-12 2017-01-24 情報処理装置、情報処理方法、およびプログラム

Country Status (6)

Country Link
US (1) US11100944B2 (ja)
JP (1) JP6943237B2 (ja)
KR (1) KR20180134339A (ja)
CN (1) CN108885594B (ja)
DE (1) DE112017001987T5 (ja)
WO (1) WO2017179262A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7392259B2 (ja) * 2018-12-04 2023-12-06 日本電気株式会社 学習支援装置、学習支援方法およびプログラム
CN112786031B (zh) * 2019-11-01 2022-05-13 思必驰科技股份有限公司 人机对话方法及系统
US11184362B1 (en) * 2021-05-06 2021-11-23 Katmai Tech Holdings LLC Securing private audio in a virtual conference, and applications thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2004170983A (ja) * 2002-11-15 2004-06-17 Samsung Electronics Co Ltd 付加情報提供機能付きのテキスト/音声変換装置及びその方法
JP2008070994A (ja) * 2006-09-12 2008-03-27 Sharp Corp メッセージ交換端末
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
JP2014029670A (ja) * 2012-06-25 2014-02-13 Konami Digital Entertainment Co Ltd メッセージ閲覧システム、サーバ、端末装置、制御方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2661701B2 (ja) * 1988-05-12 1997-10-08 キヤノン株式会社 情報処理方法
JP2002123289A (ja) * 2000-10-13 2002-04-26 Matsushita Electric Ind Co Ltd 音声対話装置
JP2004129174A (ja) 2002-08-06 2004-04-22 Ricoh Co Ltd 情報通信装置、情報通信プログラム、及び記録媒体
US20080096533A1 (en) * 2006-10-24 2008-04-24 Kallideas Spa Virtual Assistant With Real-Time Emotions
US7895277B2 (en) * 2007-10-17 2011-02-22 International Business Machines Corporation Conditional reminders for conveyed electronic messages
US8442490B2 (en) * 2009-11-04 2013-05-14 Jeffrey T. Haley Modify function of driver's phone during acceleration or braking
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
RU2530267C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ коммуникации пользователя с информационной диалоговой системой
US9306899B1 (en) * 2015-02-27 2016-04-05 Ringcentral, Inc. System and method for determining presence based on an attribute of an electronic message
WO2016189350A1 (en) * 2015-05-23 2016-12-01 Yogesh Chunilal Rathod Calling to user(s) for real-time sharing, participation, e-commerce, workflow, communication & collaboration in the event of acceptance of call by caller user(s)
US10262555B2 (en) * 2015-10-09 2019-04-16 Microsoft Technology Licensing, Llc Facilitating awareness and conversation throughput in an augmentative and alternative communication system
US10453449B2 (en) * 2016-09-01 2019-10-22 Amazon Technologies, Inc. Indicator for voice-based communications
US10580404B2 (en) * 2016-09-01 2020-03-03 Amazon Technologies, Inc. Indicator for voice-based communications
DK180130B1 (da) * 2018-05-07 2020-06-02 Apple Inc. Multi-participant live communication user interface

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2004170983A (ja) * 2002-11-15 2004-06-17 Samsung Electronics Co Ltd 付加情報提供機能付きのテキスト/音声変換装置及びその方法
JP2008070994A (ja) * 2006-09-12 2008-03-27 Sharp Corp メッセージ交換端末
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
JP2014029670A (ja) * 2012-06-25 2014-02-13 Konami Digital Entertainment Co Ltd メッセージ閲覧システム、サーバ、端末装置、制御方法およびプログラム

Also Published As

Publication number Publication date
US11100944B2 (en) 2021-08-24
DE112017001987T5 (de) 2018-12-20
JP6943237B2 (ja) 2021-09-29
CN108885594B (zh) 2022-03-11
US20210193168A1 (en) 2021-06-24
WO2017179262A1 (ja) 2017-10-19
CN108885594A (zh) 2018-11-23
KR20180134339A (ko) 2018-12-18

Similar Documents

Publication Publication Date Title
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
JP6058053B2 (ja) 記録制御システム、システム及びプログラム
CN107825429B (zh) 对话装置和方法
CN107704169B (zh) 虚拟人的状态管理方法和系统
US20200236070A1 (en) Information processing system and information processing method
WO2016089594A2 (en) Conversation agent
JP6585733B2 (ja) 情報処理装置
CN113287175B (zh) 互动式健康状态评估方法及其系统
WO2017179262A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109147780A (zh) 自由聊天场景下的语音识别方法及系统
WO2013071738A1 (zh) 一种个人专用生活协助装置和方法
WO2016206642A1 (zh) 机器人的控制数据的生成方法及装置
JP6598227B1 (ja) 猫型会話ロボット
JP2014149571A (ja) コンテンツ検索装置
CN110196900A (zh) 用于终端的交互方法和装置
JP7474211B2 (ja) ユーザから発話された名詞を忘却する対話プログラム、装置及び方法
JP7123028B2 (ja) 情報処理システム、情報処理方法、及びプログラム
EP4006900A1 (en) System with speaker representation, electronic device and related methods
KR20190023610A (ko) 회의 중 휴식 시간 제안 방법, 전자장치 및 시스템
JP2023091218A (ja) 情報処理装置、情報処理方法及びプログラム
JP2020024556A (ja) 情報処理システム、端末装置、情報処理装置およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210823

R151 Written notification of patent or utility model registration

Ref document number: 6943237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151