WO2020026850A1

WO2020026850A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2020026850A1
Application number: PCT/JP2019/028448
Authority: WO
Inventors: 亜由美中川; 高橋　慧
Original assignee: ソニー株式会社
Priority date: 2018-08-03
Filing date: 2019-07-19
Publication date: 2020-02-06
Also published as: JP2020021025A

Abstract

【課題】音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝える。【解決手段】情報処理装置は、制御部を有する。制御部は、第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成し、上記発話情報のうち、上記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成する。また制御部は、上記第１のユーザまたは上記第２のユーザに対して、上記第１の提示情報を提示する第１のタイミングと、上記第２の提示情報を提示する上記第１のタイミングとは異なる第２のタイミングとを制御する。

Description

情報処理装置、情報処理方法及びプログラム

　本技術は、ネットワークを介した音声によるユーザ間のコミュニケーションを制御可能な情報処理装置、情報処理方法及びプログラムに関する。

　従来から、例えばビデオチャット等、ネットワークを介したユーザ間のコミュニケーションを実現するための技術が知られている。下記特許文献１には、その一例として、頭部装着型の装置を利用したシステムが開示されている。

特開２０１３－２５８５５５号公報

　ところで、上記特許文献１に記載のような従来のリアルタイムのコミュニケーションにおいては、相手の音声や映像をそのままユーザに提示しない方がよい場合もある。しかし、上記特許文献１に記載のような従来技術では、当該観点は考慮されていない。

　以上のような事情に鑑み、本技術の目的は、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、制御部を有する。制御部は、第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成し、上記発話情報のうち、上記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成する。また制御部は、上記第１のユーザまたは上記第２のユーザに対して、上記第１の提示情報を提示する第１のタイミングと、上記第２の提示情報を提示する上記第１のタイミングとは異なる第２のタイミングとを制御する。

　これにより情報処理装置は、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。ここで属性とは、音声または映像が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、センサ等でそのまま検出可能なものもあれば、検出したデータをさらに分析することで取得可能なものもある。

　上記第１の情報の処理は第１の負荷を有し、上記第２の情報の処理は上記第１の負荷よりも大きい第２の負荷を有してもよい。

　上記制御部は、上記第１の提示情報を上記第２の提示情報よりも先に提示してもよい。

　これにより情報処理装置は、負荷の小さい処理に基づく第１の提示情報を、負荷の大きい処理に基づく第２の提示情報よりも先に提示することで、発話情報に応じて極力リアルタイムに提示情報を提示できる。

　上記制御部は、上記第１の情報の処理として、上記第１のユーザの感情を推定する処理を実行してもよい。

　上記制御部は、上記第１のユーザの感情を、上記第１の属性として検出された上記音声の音圧または周波数に基づいて推定してもよい。

　これにより情報処理装置は、例えば音圧が平均的な音圧よりも大きい場合や周波数が平均的な周波数よりも低い場合等に発話ユーザの感情の起伏があると推定することができる。

　上記制御部は、上記第１のユーザの感情を、上記第１の属性として上記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定してもよい。

　これにより情報処理装置は、ユーザの表情、姿勢、ジェスチャに大きな変化があった場合等に発話ユーザの感情の起伏があると推定することができる。

　上記制御部は、第１の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成してもよい。

　これにより情報処理装置は、第１のユーザから第２のユーザへの発話に対して第２のユーザが反応しない場合でも、あたかも反応しているように第１のユーザに見せることができる。

　上記制御部は、第１の提示情報として、上記第２のユーザの相槌を示す映像情報を生成してもよい。

　これにより情報処理装置は、第１のユーザから第２のユーザへの発話を第２のユーザが聞いていないまたは理解していない場合でも、あたかも聞いているまたは理解しているように第１のユーザに見せることができる。

　上記制御部は、上記第２の情報の処理として、上記発話に含まれる言語の解析処理を実行してもよい。

　上記制御部は、上記第２の提示情報として、上記解析された言語の内容を基に上記音声または映像を改変した発話情報を生成してもよい。

　これにより情報処理装置は、第１の提示情報によってリアルタイムな情報を提示しながらも、より時間をかけて発話を言語解析し、解析結果に応じて改変した第２の提示情報を生成することで、第１のユーザの発話が第２のユーザに伝えるには適切でない場合により適切な表現に改変して第２のユーザに伝えることができる。

　上記制御部は、上記第１の提示情報または上記第２の提示情報を、上記第１のユーザまたは上記第２のユーザの映像に重畳可能なＡＲ（Augmented Reality）情報として生成してもよい。

　これにより情報処理装置は、ＡＲ情報をユーザの映像に重畳することで、例えばユーザの感情を強調したり補足して示したりすることができる。

　上記制御部は、上記発話情報に代えてまたは上記発話情報に加えて上記第１の提示情報または上記第２の提示情報が提示されていることを通知する通知情報を生成してもよい。

　これにより情報処理装置は、ユーザに、発話相手の生の音声または映像が改変されていることを把握させることができる。

　上記制御部は、上記第１の提示情報と上記第２の提示情報とを繋ぐ第３の提示情報を生成してもよい。

　これにより情報処理装置は、第１の提示情報と第２の提示情報との間にずれがあった場合でも、それによる違和感をユーザに与えるのを防ぐことができる。この場合第３の提示情報は、第１の提示情報と第２の提示情報のずれが大きい場合には両者をフェード加工した映像または音声であってもよいし、ずれが小さい場合には両者をモーフィング加工した映像であってもよいし、ずれが中程度であれば何らかの繋ぎのアクションを示す映像であってもよい。

　本技術の他の形態に係る情報処理方法は、
　第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成し、
　上記発話情報のうち、上記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成し、
　上記第１のユーザまたは上記第２のユーザに対して、上記第１の提示情報を提示する第１のタイミングと、上記第２の提示情報を提示する上記第１のタイミングとは異なる第２のタイミングとを制御する、ことを含む。

　本技術の他の形態に係るプログラムは、情報処理装置に、
　第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成するステップと、
　上記発話情報のうち、上記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成するステップと、
　上記第１のユーザまたは上記第２のユーザに対して、上記第１の提示情報を提示する第１のタイミングと、上記第２の提示情報を提示する上記第１のタイミングとは異なる第２のタイミングとを制御するステップと、を実行させる。

　以上のように、本技術によれば、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。しかし、当該効果は本技術を限定するものではない。

本技術の第１実施形態に係るビデオ通話システムの構成を示した図である。上記ビデオ通話システムが有するビデオ通話サーバのハードウェア構成を示した図である。上記ビデオ通話システムが有する機能ブロック構成を示した図である。上記ビデオ通話システムによる映像／音声の提示処理の流れを示したフローチャートである。上記ビデオ通話システムにおける映像／音声の書き換え処理の具体例を示した図である。上記ビデオ通話システムにおける映像／音声の書き換え処理の他の具体例を示した図である。上記ビデオ通話システムにおける映像／音声の書き換え処理の他の具体例を示した図である。上記ビデオ通話システムにおける映像／音声の書き換え時のフィードバック処理について説明した図である。上記ビデオ通話システムにおける、文節間の時間が短い発話の例を示した図である。上記ビデオ通話システムにおける、ユーザの表情を示すＡＲ表現の例を示した図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

［システムの概要］
　図１は、本技術の一実施形態に係るビデオ通話システムの構成を示した図である。

　同図に示すように、本システムは、ビデオ通話サーバ１００とユーザ端末２００とを有する。ビデオ通話サーバ１００とユーザ端末２００、及び、ユーザ端末２００同士は、インターネット等のネットワーク５０を介して通信可能である。

　ユーザ端末２００（２００Ａ，２００Ｂ）は、ビデオ通話によるコミュニケーションの当事者であるユーザの端末であり、例えばスマートフォン、タブレットコンピュータ、ＰＣ（Personal Computer）等である。各ユーザ端末２００には、ビデオ通話を行うためのアプリケーションがインストールされている。本実施形態では、例えば双方のユーザのうち一方がカスタマー、他方がカスタマーセンターのオペレータである場合が想定されている。

　ビデオ通話サーバ１００は、双方のユーザ端末２００間のコミュニケーションにおけるユーザの発話を示す映像または音声を検知し、当該検知結果に応じて映像または音声をそのまま相手方のユーザに提示することが望ましくないと判断されるような場合等、必要に応じて映像または音声を書き換えて各ユーザに提示する。

　双方のユーザの映像または音声に書き換えの必要のない場合には、各ユーザの映像及び映像はビデオ通話サーバ１００を介さずにPeer to Peerにより相手方のユーザ端末２００へ伝送される。

［ビデオ通話サーバのハードウェア構成］
　図２は、上記ビデオ通話サーバ１００のハードウェア構成を示した図である。

　同図に示すように、ビデオ通話サーバ１００は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、およびＲＡＭ（Random Access Memory）１３を含む。また、ビデオ通話サーバ１００は、ホストバス１４、ブリッジ１５、外部バス１６、インタフェース１７、入力装置１８、出力装置１９、ストレージ装置２０、ドライブ２１、接続ポート２２、通信装置２３を含んでもよい。さらに、ビデオ通話サーバ１００は、必要に応じて、撮像装置２６、およびセンサ２７を含んでもよい。ビデオ通話サーバ１００は、ＣＰＵ１１に代えて、またはこれとともに、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などの処理回路を有してもよい。

　ＣＰＵ１１は、演算処理装置および制御装置として機能し、ＲＯＭ１２、ＲＡＭ１３、ストレージ装置２０、またはリムーバブル記録媒体２４に記録された各種プログラムに従って、ビデオ通話サーバ１００内の動作全般またはその一部を制御する。ＲＯＭ１２は、ＣＰＵ１１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ１３は、ＣＰＵ１１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。ＣＰＵ１１、ＲＯＭ１２、およびＲＡＭ１３は、ＣＰＵバスなどの内部バスにより構成されるホストバス１４により相互に接続されている。さらに、ホストバス１４は、ブリッジ１５を介して、ＰＣＩ（Peripheral Component Interconnect/Interface）バスなどの外部バス１６に接続されている。

　入力装置１８は、例えば、タッチパネル、物理ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置１８は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、ビデオ通話サーバ１００の操作に対応したスマートフォンやスマートウォッチなどの外部接続機器２５であってもよい。入力装置１８は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ１１に出力する入力制御回路を含む。ユーザは、この入力装置１８を操作することによって、ビデオ通話サーバ１００に対して各種のデータを入力したり処理動作を指示したりする。

　出力装置１９は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置１９は、例えば、ＬＣＤ（Liquid Crystal Display）または有機ＥＬ（Electro-Luminescence）ディスプレイなどの表示装置、スピーカなどの音声出力装置などでありうる。出力装置１９は、ビデオ通話サーバ１００の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。

　ストレージ装置２０は、ビデオ通話サーバ１００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置２０は、例えば、ＨＤＤ（Hard Disk Drive）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置２０は、例えばＣＰＵ１１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ２1は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体２４のためのリーダライタであり、ビデオ通話サーバ１００に内蔵、あるいは外付けされる。ドライブ２1は、装着されているリムーバブル記録媒体２４に記録されている情報を読み出して、ＲＡＭ１３に出力する。また、ドライブ２1は、装着されているリムーバブル記録媒体２４に記録を書き込む。

　接続ポート２２は、機器をビデオ通話サーバ１００に接続するためのポートである。接続ポート２２は、例えば、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポートなどでありうる。また、接続ポート２２は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートなどであってもよい。接続ポート２２に外部接続機器２５を接続することで、ビデオ通話サーバ１００と外部接続機器２５との間で各種のデータが交換されうる。

　通信装置２３は、例えば、通信ネットワーク５０に接続するための通信デバイスなどで構成された通信インタフェースである。通信装置２３は、例えば、ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、またはＷＵＳＢ（Wireless USB）用の通信カードなどでありうる。また、通信装置２３は、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置２３は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置２３に接続される通信ネットワーク５０は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などを含みうる。

　撮像装置２６は、例えば、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）またはＣＣＤ（Charge Coupled Device）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成するカメラである。撮像装置２６は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ２７は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ（マイクロフォン）などの各種のセンサである。センサ２７は、例えばビデオ通話サーバ１００の筐体の姿勢など、ビデオ通話サーバ１００自体の状態に関する情報や、ビデオ通話サーバ１００の周辺の明るさや騒音など、ビデオ通話サーバ１００の周辺環境に関する情報を取得する。また、センサ２７は、ＧＰＳ（Global Positioning System）信号を受信して装置の緯度、経度および高度を測定するＧＰＳ受信機を含んでもよい。

　上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

　図示しないが、ユーザ端末２００のハードウェア構成も上記ビデオ通話サーバ１００のハードウェア構成と基本的に同一であり、ＣＰＵ、ＲＡＭ、入力装置、出力装置、ストレージ装置、通信装置等のコンピュータとしての基本的な要素に加えて、撮像装置（カメラ）や各種センサ（マイク等）を有する。

　ユーザ端末２００のカメラ及びマイクは、コミュニケーションの当事者であるユーザの発話を示す映像及び音声を取得する。発話ユーザの映像は、通話相手のユーザ端末２００のディスプレイに表示されてもよいし、当該ユーザ端末２００に接続されたプロジェクタやＡＲ（Augmented Reality）機器に表示されてもよい。また発話ユーザの音声は、通話相手のユーザ端末２００のスピーカから出力されてもよいし、当該ユーザ端末２００に接続されたイヤホンやヘッドホン、スピーカ、その他のヒアラブル機器から出力されてもよい。

　また各ユーザ端末２００のストレージ装置は、通話中の各ユーザが発話した音声データをログとして記憶していてもよい。

［ビデオ通話システムの機能ブロック構成］
　図３は、上記ビデオ通話サーバ１００及びユーザ端末２００からなるビデオ通話システムが有する機能ブロック（モジュール）構成を示した図である。

　同図に示すように、本システムは、音声／映像検知部１１０、言語以外処理部１２０、言語処理部１３０、検知結果出力部１４０、映像／音声書き換え部１５０、映像提示部１６０、及び音声提示部１７０を有する。

　音声／映像検知部１１０は、ユーザ端末２００のカメラ及びマイクロフォンから取得されビデオ通話サーバ１００に受信された発話情報から音声及び映像を検知し、その属性に応じて言語以外処理部１２０と言語処理部１３０に処理を指示する。

　言語以外処理部１２０は、上記発話情報に含まれる音声及び映像のうち、発話（言葉）の内容そのものではなく、比較的処理負荷の小さい（短時間で検出可能な）所定の属性の情報を認識して発話ユーザの感情を推定する。言い換えれば、言語以外処理部１２０は、「早い検出処理」の実行部である。

　すなわち、言語以外処理部１２０は、上記音声については、例えば音圧、周波数、発話タイミング、キレ（抑揚）、所定の定型句（感嘆詞等）の有無等の属性（第１の属性）を基に感情を推定する。すなわち、ここでいう属性とは、音声が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、例えば上記音圧や周波数のようにセンサ等でそのまま検出可能なものもあれば、上記発話タイミング等、検出したデータ（音圧）をさらに分析することで取得可能なものもある。

　具体的には、言語以外処理部１２０は、音声の音圧が平均的な音圧ｄよりも大きくなった場合にユーザの感情の起伏があると推定し、音声の周波数が平均的な周波数ｈよりも低くなった場合にはユーザに怒りの起伏があると推定する。

　また、ディープラーニングにより怒りの感情とそれ以外の感情が学習されている場合、言語以外処理部１２０は、その学習済みモデルに音声を入力して怒りとそれ以外を判別してもよい。

　また言語以外処理部１２０は、ユーザが、通話相手のユーザがまだ発言途中であるのにも関わらず割り込んで発話した場合には感情の起伏があると推定してもよい。

　また言語以外処理部１２０は、言語解析によらずに検出可能な、環状の起伏に繋がるような兆候ワード（例えば、「え？！」等の感嘆詞）をユーザの音声から検出した場合には、その後に感情の起伏があると推定する。

　また言語以外処理部１２０は、映像については、例えばユーザの表情、視線、姿勢、ジェスチャ、またはユーザ（人間）が検出できるか否か等の属性（第１の属性）を基に感情を推定する。具体的には、言語以外処理部１２０は、ユーザの眼が大きくなり眉毛が中央に引き寄せされるような表情の変化を認識した場合にはユーザに怒りの起伏が有ると推定する。すなわち、ここでいう属性とは、映像が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、上記視線やユーザの有無等のように直接的に検出可能なものもあれば、表情や姿勢等のように、検出したデータをさらに分析することで取得可能なものもある。

　言語処理部１３０は、上記発話情報に含まれる音声及び映像のうち、その属性（第２の属性）としての発話（言葉）の内容そのものを解析して発話ユーザの感情を推定する。当該言語は、上記言語以外処理部１２０が処理する属性の情報に比べて、処理負荷の大きい（短時間では検出できない）属性の情報であると言える。言い換えれば、言語処理部１３０は、「遅い検出処理」の実行部である。

　検知結果出力部１４０は、上記言語以外処理部１２０と言語処理部１３０の処理結果に応じて映像／音声書き換え部１５０にユーザの発話を示す映像または音声の書き換えを指示する。

　映像／音声書き換え部１５０は、上記ユーザの発話を示す映像または音声を、上記推定されたユーザの感情に応じて書き換えて、書き換えた映像を映像提示部１６０に出力させ、書き換えた音声を音声提示部１７０に出力させる。

　ここで、映像／音声書き換え部１５０は、上記言語以外処理部１２０による処理結果に応じて、定型の音声や映像を元の音声や映像に付加する。

　具体的には、映像／音声書き換え部１５０は、例えば、ユーザＡとユーザＢとのビデオ通話において、ユーザＡの発話からユーザＡが怒っていることが推定される場合、ユーザＡが視聴するユーザＢの音声に、「あ、」といった感嘆詞や、「えっと」といったフィラー語等、言葉を繋ぐための声を挿入したり、「すみません」といった定型文をユーザＢが発話する前に挿入したりする。これによりビデオ通話システムは、相手の発言に反応しないユーザがあたかも発言しているかのように相手ユーザに見せることができる。

　また映像／音声書き換え部１５０は、上記のようにユーザＡが怒っていると推定される場合、例えばユーザＢが頭を下げている映像や相槌を打っているような映像等、ユーザＢがユーザＡの発話内容を理解している、または謝罪の意を示しているような映像を挿入する。

　また映像／音声書き換え部１５０は、上記言語以外処理部１２０及び言語処理部１３０によってユーザの感情の推定に失敗した場合には、例えば発話ユーザの通話相手のユーザが聞こえなかったふりをしているような映像を挿入してもよい。

　また、映像／音声書き換え部１５０は、上記言語処理部１３０による処理結果に応じて、元の音声や映像を改変する。

　例えば映像音声書き換え部１５０は、ユーザＡの発話内容に関する言語解析処理の結果、ユーザＡがユーザＢに対して怒っていることが推定された場合には、ユーザＡの発話内容をよりやわらかい表現に変換するように音声を改変したり、ユーザＡの表情をより柔和な表情に変換するように映像を改変したりする。これによりビデオ通話システムは、ユーザの発言や表情をより感情の起伏が小さくなる方向に改変し、ユーザ感のトラブルを回避することができる。

　このようにＣＰＵ１１は、以上の各機能ブロックを用いて、第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理（早い検出処理）の結果を基に第１の提示情報を生成し、上記発話情報のうち、上記第１の属性とは異なる第２の属性に関する第２の情報の処理（遅い検出処理）の結果を基に第２の提示情報を生成する。そしてＣＰＵ１１は、上記第１のユーザまたは上記第２のユーザに対して、上記第１の提示情報を提示する第１のタイミングと、上記第２の提示情報を提示する上記第１のタイミングとは異なる第２のタイミングとを制御する。

［ビデオ通話システムの動作］
　次に、以上のように構成されたビデオ通話システムの動作について説明する。当該動作は、ビデオ通話サーバ１００やユーザ端末２００のＣＰＵ及び通信部等のハードウェアと、記憶部に記憶されたソフトウェアとの協働により実行される。以下の説明では、便宜上、主にＣＰＵを動作主体として説明する。

　図４は、上記ビデオ通話システムによる映像／音声の提示処理の動作の流れを示したフローチャートである。同図では、ユーザ端末２００Ａのユーザがカスタマーであり、ユーザ端末２００Ｂのユーザがコールセンターのオペレータであり、例えばカスタマーからコールセンターへの発信に基づいて両者がビデオ通話する場合を想定する。

　同図に示すように、ユーザ端末２００Ａのカメラ及びマイクが、カスタマーの映像及び音声を取得する（ステップ４１）。

　続いてユーザ端末２００ＡのＣＰＵは、上記マイクで取得したカスタマーの音声をストレージ装置に録音する（ステップ４２）。

　続いてユーザ端末２００のＣＰＵは、上記カスタマーの映像及び音声をビデオ通話サーバ１００へ送信する（ステップ４３）。

　上記カスタマーの映像及び音声を受信したビデオ通話サーバ１００のＣＰＵ１１は、上記言語以外処理部１２０により、当該映像及び音声について「早い検出処理（カスタマーの声のトーンから感情推定）」を実行する（ステップ４４）。

　当該早い検出処理により、ＣＰＵ１１は、カスタマーの怒りの感情が閾値以上であるか否か（例えば、音声の音圧が平均的な音圧ｄよりも大きいか否か、または、音声の周波数が平均的な周波数ｈよりも低いか否か）を判断する（ステップ４５）。

　上記怒りの感情が閾値以上であると判断した場合（Ｙｅｓ）、ＣＰＵ１１は、上記映像／音声書き換え部１５０により、カスタマーの映像及び音声を、怒りのレベルを減らした映像及び音声に書き換える（ステップ４６）。

　続いてＣＰＵ１１は、上記書き換えたカスタマーの映像及び音声をオペレータのユーザ端末２００Ｂへ送信する。ユーザ端末２００ＢのＣＰＵは当該映像及び音声をディスプレイ及びスピーカ（またはヘッドフォン）から出力する（ステップ４７）。

　続いてＣＰＵ１１は、上記ユーザ端末２００Ｂのカメラ及びマイクで取得されビデオ通話サーバ１００に受信されたオペレータの映像及び音声を、上記書き換えた文脈に合わせて書き換える（ステップ４８）。例えばＣＰＵ１１は、オペレータの映像を、オペレータが謝る（頭を下げる）映像に書き換える。

　続いてＣＰＵ１１は、上記書き換えたオペレータの映像及び音声をカスタマーのユーザ端末２００Ａに送信する。ユーザ端末２００ＡのＣＰＵは当該映像及び音声をディスプレイ及びスピーカ（またはヘッドフォン）から出力する（ステップ４９）。

　続いてＣＰＵ１１は、カスタマーの音声について、上記言語処理部１３０により、「遅い検出処理（音声を言語解析して文意を分析）」を実行する（ステップ５０）。

　当該遅い検出処理により、ＣＰＵ１１は、例えばカスタマーの音声が怒りの感情を含むものであると判断した場合、上記映像／音声書き換え部１５０により、当該音声を、怒りのレベルを減らした音声に書き換える（ステップ５１）。

　続いてＣＰＵ１１は、カスタマーの映像及び書き換えた音声をオペレータのユーザ端末２００Ｂへ送信する。ユーザ端末２００ＢのＣＰＵは当該映像及び音声をディスプレイ及びスピーカ（またはヘッドフォン）から出力する（ステップ５２）。

　一方、上記ステップ４５において、カスタマーの怒りの感情が閾値未満であると判断した場合（Ｎｏ）、ＣＰＵ１１は、オリジナルのオペレータの映像及び音声をカスタマーのユーザ端末２００Ａに送信する。ユーザ端末２００ＡのＣＰＵは当該オリジナルの映像及び音声をディスプレイ及びスピーカ（またはヘッドフォン）から出力する（ステップ５３）。

　またそれに続き、ＣＰＵ１１は、オリジナルのカスタマーの映像及び音声をオペレータのユーザ端末２００Ｂに送信する。ユーザ端末２００ＢのＣＰＵは当該オリジナルの映像及び音声をディスプレイ及びスピーカ（またはヘッドフォン）から出力する（ステップ５４）。

　図５は、以上説明した流れの一例をタイムチャートとして示した図である。同図に示すように、ユーザ端末２００ＡのユーザＡが、「何言ってるんだよ」という発話をした場合、ＣＰＵ１１は、上記言語以外処理部１２０によって、音声のレベルを基にユーザＡの怒りを検出する。

　すると、ＣＰＵ１１は、映像／音声書き換え部１５０により、オペレータの実映像を、怒りの検出直後の時点から、オペレータが謝る映像に書き換えてカスタマーに提示する。当該謝る映像の再生が終了すると、オペレータの映像は実映像に切り替えられる。

　また一方で、ＣＰＵ１１は、上記言語処理部１３０によって、上記「何言っているんだよ」という発話を言語解析し、怒りを表していることを検出すると、映像／音声書き換え部１３０により、当該表現をよりソフトな表現（例えば、「少し意味が分かりませんでした」）に書き換えてオペレータに提示する。

　このような処理により、システムは、コールセンターで働くオペレータのストレスを軽減し、ユーザやオペレータが激号するのを防ぐことができる。

　以上説明したように、本実施形態によれば、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。

［変形例］
　本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。

（他のユースケース）
　上述の実施形態においては、映像及び音声の書き換え処理の例として、図５のようにユーザの怒りを和らげるように書き換える例を示したが、当該書き換え処理はこれに限られない。

　例えば、ユーザ端末２００ＡのユーザＡの発話を、ユーザ端末２００ＢのユーザＢへ翻訳して伝えるケースにも本技術は適用可能である。

　この場合、図６に示すように、ＣＰＵ１１は、上記言語以外処理部１２０を用いた「早い検出処理」により、ユーザＡの音声の音圧レベルの変化から会話の切れ目を検出する。するとＣＰＵ１１は、映像／音声書き換え部１５０により、ユーザ端末２００Ｂのカメラによって取得されたユーザＢの実映像を、当該会話の切れ目に応じたタイミングでユーザＢがうなずく映像に書き換えてユーザＡに提示する。当該うなずく映像の再生が終了すると、ユーザＢの映像は実映像に切り替えられる。

　また一方で、ＣＰＵ１１は、上記言語処理部１３０を用いた「遅い検出処理」により、上記ユーザＡの音声を言語分析して文意を取得し、映像／音声書き換え部１５０により、当該文意を所定の言語に翻訳してオペレータに提示する。

　このような処理により、システムは、ユーザ間で言語の相違がある場合に、厳密な意味解析によらずともユーザのリアクションを先に表出することで、相手のユーザを安心させたり、和ませたり、会話を盛り上げたりすることができる。

　また、あるユーザの発話が相手のユーザにとって不快な表現である場合に、それをフィルタリングするケースにも本技術は適用可能である。

　この場合、図７に示すように、例えば視聴者参加型のライブ放送におけるコメントの投稿にビデオ通話システムが用いられる場合、ある視聴者Ａが発話すると、ＣＰＵ１１は、上記言語以外処理部１２０を用いた「早い検出処理」により、視聴者Ａの怒りや、不適切な定型句を検出する。するとＣＰＵ１１は、映像／音声書き換え部１５０により、アイドルＩと複数の視聴者が含まれる実映像を、視聴者Ａのユーザ端末２００から取得された音声を削除した映像に書き換えて他の視聴者及びアイドルＩに提示する。

　また一方で、ＣＰＵ１１は、上記言語処理部１３０を用いた「遅い検出処理」により、上記視聴者Ａの音声を言語分析して不適切な部分を判定し、映像／音声書き換え部１５０により、不適切な部分の音声を適切な表現の音声に書き換えて他の視聴者及びアイドルＩに提示する。

　また、ユーザがすぐに反応を返せない状況である場合に、そのユーザに代わって反応を返すケースにも本技術は適用可能である。

　例えば、ビデオ通話の着信を受けたユーザが運転中や離席中等、反応を返せない場合、ＣＰＵ１１は、ユーザがユーザ端末２００のカメラに写っていない、または視線を向けていないことを検出すると、当該カメラの映像を、ＶＲ（Virtual Reality）で表現されたユーザを模したキャラクタが、反応を返せない理由等を発話する映像に書き換えて相手のユーザに提示してもよい。

　また、ビデオ通話のユーザ間で知識レベルが異なる場合にそのレベル差を合わせるためにも本技術は適用可能である。

　例えば、ビデオ通話の一方のユーザの年齢と他方のユーザの年齢とが所定歳（例えば３０歳等）以上離れていることが例えば各ユーザのプロファイル情報等から検知された場合、ＣＰＵ１１は、上記言語以外処理部１２０によって、年齢が下のユーザの映像を、相槌等を含む映像に書き換えて年齢が上のユーザに向けて提示すると共に、上記言語処理部１３０によって、年齢が上のユーザの発話を、年齢が下のユーザ用に安易な表現に書き換えて提示してもよい。

（書き換え前の映像及び音声のログ）
　上述の実施形態において、ユーザの映像及び音声が書き換えられた場合でも、書き換え前の映像及び音声のデータは、ビデオ通話サーバ１００またはユーザ端末２００においてログとして記憶されていてもよい。

　当該ログは、発話した本人または第三者が後で視聴できてもよい。例えば、コールセンターを想定した場合、オペレータの上司等がカスタマーとオペレータの実際の会話のログを視聴できてもよい。

　また、副音声のように、書き換え後の映像及び音声のチャンネルと、書き換え前の映像及び音声のチャンネルとが、ユーザによって切替可能とされてもよい。この場合、例えばビデオ通話サーバ１００は、書き換え後の映像及び音声をユーザ端末２００へ送信すると同時に、書き換え前の映像及び音声を録画しておき、ユーザ端末２００からの切替要求が有った場合に、ユーザ端末２００へ送信する映像及び音声を書き換え前のものに切り替えてもよい。

（書き換えに関するユーザへのフィードバック）
　また、ＣＰＵ１１は、ユーザの映像または音声を書き換えた場合には、それを必要に応じてユーザにリアルタイムにフィードバックしてもよい。

　例えば図８Ａに示すように、話し手Ａが怒っており、聞き手Ｂが謝っている映像を見せる場合において、ＣＰＵ１１は、書き換えられた聞き手Ｂ側に対して、例えばその書き換えを通知するアイコンＩを映像に加えてもよいし、ユーザＢのどのような点が書き換えられたのかを示すログが記載されたウィンドウＷを映像に加えてもよい。

　また同図Ｂに示すように、話し手Ａが怒っている映像・音声を柔和に書き換えて聞き手Ｂに見せる場合において、ＣＰＵ１１は、聞き手Ｂ側に対して、相手Ａの映像・音声が書き換えられていることを通知するアイコンＩを映像に加えてもよいし、相手Ａが本当は何と言っていたのか、書き換え前の映像・音声にアクセス可能なリンクボタンＬを映像に加えてもよい。

　また同図Ｃに示すように、話し手Ｂが発した不適切な映像・音声を書き換えて、聞き手Ａに見せる場合（図７のようなアイドルとファンの関係）においては、ＣＰＵ１１は、聞き手Ａ側で表示される映像に対しては、上記アイコンＩと共に、書き換え前の映像・音声へのリンクボタンＬを追加し、話し手Ｂ側で表示される映像に対しては、上記アイコンＩと共に、話し手Ｂ側への注意を促す文言が記載されたウィンドウＷを追加することで、聞き手Ａと話し手Ｂの双方に書き換えをフィードバックしてもよい。

（処理がうまくいかない場合）
　上述の実施形態において、言語以外処理部１２０による早い検出処理として、ユーザの音声の音圧レベルの変化によって発話の切れ目を検出し、遅い検出処理として発話内容を書き換える場合、各検出処理がうまくいかない場合も考えられる。

　例えば、図９に示すように、話し手Ａが長い間話している場合、音圧レベルに大きな切れ目がないので、話し手Ａに対する出力（例えば、聞き手Ｂの相槌の提示）ができない。このような場合、ＣＰＵ１１は、当該話し手Ａの音声に対して、負荷の比較的かからない言語解析処理を実行してもよい。

　より具体的には、ＣＰＵ１１は、上記音声について、言語認識処理のうち文法解析のみ実行して文の切れ目を検知し、話し手Ａへ提示する聞き手Ｂの映像を、上記切れ目において聞き手Ｂが相槌を打つ映像に書き換えてもよい。

　また、言語処理部１３０による遅い検出処理において、文章が難解で解析が難しく、ユーザが怒っていることは分かるものの書き換えに時間を要してしまうと判断した場合、ＣＰＵ１１は、その代替処理として、ユーザの音声を、それが示す文章自体は変えずに、ボイスチェンジャーによってより柔らかい声質に変更してもよい。または、ＣＰＵ１１は、ユーザ端末２００において例えばソフトウェアエージェントとして機能するキャラクタオブジェクトが存在する場合、当該キャラクタにＴＴＳ（Text To Speech）を用いて発声させるようにユーザ端末２００を制御してもよい。

（書き換えのレベル）
　上述の実施形態において、システムは、映像及び音声の書き換えのレベルを複数設定してもよい。この場合、レベルは、１）ユーザが手動で設定する場合、２）ある程度自動的に設定される場合、３）上記１）２）に関係なくシステム都合で設定される場合が考えられる。

　上記１）の場合、ＣＰＵ１１は、ユーザ端末２００のビデオ通話アプリケーションの設定メニューを介したユーザの入力に応じて、ユーザの通話相手の表出またはユーザ自身の表出を変更するように設定可能である。

　具体的には、ユーザの通話相手の発言内容や表情を変更したり、自身の発言として定型文を提示したり自身の表情を変更したりといった設定が可能である。この場合、ユーザは、誰（通話相手・自分）の何（発言・表情等）を変更するのかを選択可能であってもよい。

　上記２）の場合、ＣＰＵ１１は、書き換え対象とする発話文言の内容を、予めプロファイル情報として有する人と環境の各レベルを用いて、ある程度自動的に設定してもよい。

　例えば、ＣＰＵ１１は、ビデオ通話のユーザが学生か労働者か、会話内容がプライベートに関するものかビジネスに関するものか等に応じて書き換えのレベルを変更してもよい（学生のプライベートな会話の書き換えのレベルは、労働者のビジネスの会話のそれよりも大きく設定されてもよい）。

　またＣＰＵ１１は、人と環境のレベルの関係性について、予めプロファイル情報として有するのに加えて、または代えて、通話内容のフィードバックによって学習してもよい。

　上記３）の場合、ＣＰＵ１１は、上述したように、言語以外処理部１２０が会話の切れ目を検出できない、言語処理部１３０が言語解析に時間を要している等、処理がうまくいかない場合に、強制的に上記処理を実行してもよい。

（ＡＲを用いた書き換え）
　上述の実施形態では、ユーザの映像の書き換えとして、ユーザの表情やジェスチャを書き換える例が示された。それだけでなく、ＣＰＵ１１は、ＡＲ（Augmented Reality）情報を用いてその他の要素を映像に付加してもよい。

　例えば、ＣＰＵ１１は、ユーザが怒っていることや喜んでいることを検出した場合、怒りや喜びを示すＡＲ画像表現をそのユーザの映像の近傍に加えて相手ユーザに提示してもよい。図１０は、ユーザの怒りを示すＡＲ画像表現９０がユーザの映像に重畳して表示された例を示している。

　またＣＰＵ１１は、画像表現９０に加えて、または代えて、ユーザの感情に対応する効果音を付加して相手ユーザに提示してもよい。

　これらの処理においてＣＰＵ１１は、感情が表出しているユーザの年齢に応じて画像表現や効果音等を変更してもよい。

（実映像と書き換え映像とのずれに関する処理）
　上述の実施形態において、ＣＰＵ１１は、言語以外処理部１２０によって検出された情報に基づいて提示される情報（第１の提示情報）と、言語処理部１３０によって検出された情報に基づいて提示される情報（第２の提示情報）とのずれを繋ぐ情報（第３の提示情報）を生成して両者間に挿入してもよい。またＣＰＵ１１は同様に、上記第１の提示情報または第２の提示情報と実映像とのずれを繋ぐ情報を生成して両者間に挿入してもよい。

　すなわち、上記映像が書き換えられる場合、映像は、実映像→書き換え映像（早い処理）→書き換え映像（遅い処理）→実映像という順に切り替えられることになるが、これらの各切替タイミングにおいてＣＰＵ１１は切替前の映像と切替後の映像とを繋ぐ映像を生成して挿入する。これにより映像切替時にユーザが違和感を感じることが回避される。

　この場合ＣＰＵ１１は、切替前後のユーザの映像におけるずれの大きさ（差分）を検知し、それに応じて両映像の繋ぎ方を変更してもよい。

　具体的には、上記ずれが小さい（第１閾値未満である）場合、ＣＰＵ１１は、切替前後の映像をモーフィングで繋いでもよい。

　また上記ずれが中程度（第１閾値以上第２閾値未満である）場合、ＣＰＵ１１は、切替前後の映像間に、ユーザの何らかのアクションを示す映像を挿入してもよい。

　また上記ずれが大きい（第２閾値以上）場合には、切替前後の映像をフェードで繋いでもよい。またＣＰＵ１１は、フェードに代えて、映像フレーム上のユーザの位置とは離れた位置（例えばフレームの四隅等）にＶＲ等で相手ユーザの注意を惹くような画像表現を重畳して注目点を逸らし、ずれが気づかれないようにしてもよい。

　上記ずれとしては、映像中のユーザの写っている位置や姿勢等、フレーム間の差分で検出できるずれの他、感情や声のトーン等のずれも有り得る。ＣＰＵ１１は、そのようなずれを上記言語以外処理部１２０等で検出することができる。

　またＣＰＵ１１は、上記書き換えた映像と実映像とのずれが大きい場合には、書き換え映像（遅い処理による）を実映像に戻さずに、書き換えた映像をそのまま提示し続けてもよい。

　また、通話する一方のユーザに提示される映像と他方のユーザに提示される映像とにおいて、実映像へ戻すか否かの処理が異なっていてもよい（非対称処理）。例えば、カスタマーとオペレータのビデオ通話において、ＣＰＵ１１は、カスタマー側に提示されるオペレータの映像は、書き換えた映像のまま維持してもよいが、オペレータ側に提示されるカスタマーの映像は、書き換え映像の終了後には実映像に戻してもよい。

　また、１対複数のビデオ通話（カスタマーとビデオ通話するオペレータが同時に複数存在する場合）において、ＣＰＵ１１は、一方のオペレータに提示される映像については書き換え処理を実行し、他方のオペレータ（例えばオペレータの上司）に提示される映像については書き換え処理を実行しなくてもよい。

　または、ＣＰＵ１１は、一方のオペレータに提示される映像の書き換えレベルと他方のオペレータに提示される映像の書き換えレベルを異ならせてもよい。

　さらにＣＰＵ１１は、１（ユーザＡ）対複数（ユーザＢ，Ｃ）のビデオ通話において、ユーザＡの発話言語をユーザＢは理解できるがユーザＣが理解できない場合、ユーザＢに提示されるユーザＡの映像については翻訳せずに実映像を提示し、ユーザＣに提示されるユーザＡの映像については翻訳して提示してもよい。

（発話の内容自体の書き換え）
　上述の実施形態においては、ＣＰＵ１１が、ユーザの発話の意味する内容は変えずに表現の程度を書き換える（より柔らかい表現にする）例を示した。しかし、ＣＰＵ１１は、発話内容によっては、その内容自体を書き換えてもよい。

　すなわちＣＰＵ１１は、発話内容を変化させても問題ない意思決定系の発話がされた場合、受け手に都合のいいように書き換えてもよい。

　例えばＣＰＵ１１は、言語処理部１３０によって、ユーザＡとユーザＢとの間の通話内容が、ユーザＡがユーザＢに何らかの事項を依頼するものであり、かつ、その依頼の具体的な条件が定まっていないと判断した場合には、その条件に関する部分の文言を具体的な条件を示す文言に書き換えてもよい。

　例えば、ユーザＡの発話が、「明日の飲み会の店、どこでもいいから予約して」というあいまいな依頼であった場合、ＣＰＵ１１は、「明日の飲み会の店、横浜の中華料理店を予約して」という具体的な依頼に書き換えてもよい。

　またＣＰＵ１１は、その際、依頼者であるユーザＡの個人モデル（嗜好、予定、言動）等を参照して、それに適した内容にユーザＡの発話を書き換えてもよい。

　またＣＰＵ１１は、上記書き換えが原因で依頼を受けたユーザＢに不都合が生じた場合（例えばユーザＡの怒りを検出した場合）、ユーザＡの書き換え前の発話をユーザＢに提示してもよい。

（その他の変形例）
　上述の各実施形態においては、ビデオ通話サーバ１００のＣＰＵ１１が、ビデオ通話サーバ１００が有する言語以外処理部１２０、言語処理部１３０、映像／音声書き換え部１５０等の機能ブロックを用いて映像及び音声を書き換える例を示したが、これらの機能ブロックはビデオ通話サーバ１００以外のクラウド上のデバイスやユーザ端末２００のいずれに備えられていてもよく、それらのＣＰＵによって実行されてもよい。

［その他］
　本技術は以下のような構成もとることができる。
（１）
　第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成し、前記発話情報のうち、前記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成し、前記第１のユーザまたは前記第２のユーザに対して、前記第１の提示情報を提示する第１のタイミングと、前記第２の提示情報を提示する前記第１のタイミングとは異なる第２のタイミングとを制御する制御部
　を具備する情報処理装置。
（２）
　上記（１）に記載の情報処理装置であって、
　前記第１の情報の処理は第１の負荷を有し、前記第２の情報の処理は前記第１の負荷よりも大きい第２の負荷を有する
　情報処理装置。
（３）
　上記（２）に記載の情報処理装置であって、
　前記制御部は、前記第１の提示情報を前記第２の提示情報よりも先に提示する
　情報処理装置。
（４）
　上記（１）～（３）のいずれかに記載の情報処理装置であって、
　前記制御部は、前記第１の情報の処理として、前記第１のユーザの感情を推定する処理を実行する
　情報処理装置。
（５）
　上記（４）に記載の情報処理装置であって、
　前記制御部は、前記第１のユーザの感情を、前記第１の属性として検出された前記音声の音圧または周波数に基づいて推定する
　情報処理装置。
（６）
　上記（４）に記載の情報処理装置であって、
　前記制御部は、前記第１のユーザの感情を、前記第１の属性として前記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定する
　情報処理装置。
（７）
　上記（４）～（６）のいずれかに記載の情報処理装置であって、
　前記制御部は、第１の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成する
　情報処理装置。
（８）
　上記（４）～（６）のいずれかに記載の情報処理装置であって、
　前記制御部は、第１の提示情報として、前記第２のユーザの相槌を示す映像情報を生成する
　情報処理装置。
（９）
　上記（４）～（８）のいずれかに記載の情報処理装置であって、
　前記制御部は、前記第２の情報の処理として、前記発話に含まれる言語の解析処理を実行する
　情報処理装置。
（１０）
　上記（９）に記載の情報処理装置であって、
　前記制御部は、前記第２の提示情報として、前記解析された言語の内容を基に前記音声または映像を改変した発話情報を生成する
　情報処理装置。
（１１）
　上記（１）～（１０）のいずれかに記載の情報処理装置であって、
　前記制御部は、前記第１の提示情報または前記第２の提示情報を、前記第１のユーザまたは前記第２のユーザの映像に重畳可能なＡＲ（Augmented Reality）情報として生成する
　情報処理装置。
（１２）
　上記（１）～（１１）のいずれかに記載の情報処理装置であって、
　前記制御部は、前記発話情報に代えてまたは前記発話情報に加えて前記第１の提示情報または前記第２の提示情報が提示されていることを通知する通知情報を生成する
　情報処理装置。
（１３）
　上記（１）～（１２）のいずれかに記載の情報処理装置であって、
　前記制御部は、前記第１の提示情報と前記第２の提示情報とを繋ぐ第３の提示情報を生成する
　情報処理装置。
（１４）
　第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成し、
　前記発話情報のうち、前記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成し、
　前記第１のユーザまたは前記第２のユーザに対して、前記第１の提示情報を提示する第１のタイミングと、前記第２の提示情報を提示する前記第１のタイミングとは異なる第２のタイミングとを制御する
　情報処理方法。
（１５）
　情報処理装置に、
　第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成するステップと、
　前記発話情報のうち、前記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成するステップと、
　前記第１のユーザまたは前記第２のユーザに対して、前記第１の提示情報を提示する第１のタイミングと、前記第２の提示情報を提示する前記第１のタイミングとは異なる第２のタイミングとを制御するステップと
　を実行させるプログラム。

　１１…ＣＰＵ
　１９…出力装置
　２６…撮像装置
　２３…通信装置
　１００…ビデオ通話サーバ
　１２０…言語以外処理部
　１３０…言語処理部
　１５０…映像／音声書き換え部
　２００…ユーザ端末

Claims

　第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成し、前記発話情報のうち、前記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成し、前記第１のユーザまたは前記第２のユーザに対して、前記第１の提示情報を提示する第１のタイミングと、前記第２の提示情報を提示する前記第１のタイミングとは異なる第２のタイミングとを制御する制御部
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第１の情報の処理は第１の負荷を有し、前記第２の情報の処理は前記第１の負荷よりも大きい第２の負荷を有する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記制御部は、前記第１の提示情報を前記第２の提示情報よりも先に提示する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記制御部は、前記第１の情報の処理として、前記第１のユーザの感情を推定する処理を実行する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記制御部は、前記第１のユーザの感情を、前記第１の属性として検出された前記音声の音圧または周波数に基づいて推定する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記制御部は、前記第１のユーザの感情を、前記第１の属性として前記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記制御部は、第１の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記制御部は、第１の提示情報として、前記第２のユーザの相槌を示す映像情報を生成する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記制御部は、前記第２の情報の処理として、前記発話に含まれる言語の解析処理を実行する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記制御部は、前記第２の提示情報として、前記解析された言語の内容を基に前記音声または映像を改変した発話情報を生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記制御部は、前記第１の提示情報または前記第２の提示情報を、前記第１のユーザまたは前記第２のユーザの映像に重畳可能なＡＲ（Augmented Reality）情報として生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記制御部は、前記発話情報に代えてまたは前記発話情報に加えて前記第１の提示情報または前記第２の提示情報が提示されていることを通知する通知情報を生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記制御部は、前記第１の提示情報と前記第２の提示情報とを繋ぐ第３の提示情報を生成する
　情報処理装置。
　第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成し、
　前記発話情報のうち、前記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成し、
　前記第１のユーザまたは前記第２のユーザに対して、前記第１の提示情報を提示する第１のタイミングと、前記第２の提示情報を提示する前記第１のタイミングとは異なる第２のタイミングとを制御する
　情報処理方法。
　情報処理装置に、
　第１のユーザから第２のユーザへの発話を示す音声または映像を含む発話情報のうち、第１の属性に関する第１の情報の処理の結果を基に第１の提示情報を生成するステップと、
　前記発話情報のうち、前記第１の属性とは異なる第２の属性に関する第２の情報の処理の結果を基に第２の提示情報を生成するステップと、
　前記第１のユーザまたは前記第２のユーザに対して、前記第１の提示情報を提示する第１のタイミングと、前記第２の提示情報を提示する前記第１のタイミングとは異なる第２のタイミングとを制御するステップと
　を実行させるプログラム。