WO2023095531A1

WO2023095531A1 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2023095531A1
Application number: PCT/JP2022/040089
Authority: WO
Inventors: 陽方川名; 保乃花尾崎; 真理安田; 麻紀井元
Original assignee: ソニーグループ株式会社
Priority date: 2021-11-25
Filing date: 2022-10-27
Publication date: 2023-06-01
Also published as: CN118251883A; JPWO2023095531A1

Abstract

聞き手と話し手との立場から、映像、音声、操作に関する情報の開示レベルを制御することができる情報処理装置、情報処理方法および情報処理プログラムを提案する。テレプレゼンス装置５０が、第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される第１利用者の第１センシング情報と、センシング装置を用いて取得される第２利用者の第２センシング情報とを取得する。テレプレゼンス装置５０は、第１センシング情報と第２センシング情報とに対応する第１利用者の状況と第２利用者の状況とを基にして、第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する。

Description

情報処理装置、情報処理方法および情報処理プログラム

　本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。

　遠隔地にいるユーザ同士が、あたかも対面しているような感覚を享受することができるコミュニケーションツールとして、テレプレゼンスシステムがある。

　テレプレゼンスシステムを利用する場合に、カメラ機能を用いないで、話し手と聞き手との間で会話を行うと、相手の状況がわからず、快適なコミュニケーションを行うことが難しい。一方、カメラ機能を用いて会話を行う場合、相手の表情や仕草を知ることができるものの、カメラによって監視されているような感覚を与えてしまう場合がある。

　上記課題に対して、特許文献１では、テレプレゼンス中に、話し手となるユーザの声や表情、動作に合わせて、ユーザの発話内容に関する文字情報に適宜効果をつけて提示することで、会話をサポートする技術が提案されている。また、特許文献２では、話し手の映像または音声をそのまま相手方のユーザに提示することが望ましくないと判断される場合に、必要に応じて映像または音声を書き換えて各ユーザに提示する技術が提案されている。

特開２０２１－７１６３２号公報特開２０２１－２１０２５号公報

　上記の従来技術によれば、コミュニケーション中における話し手のみの状態や音声内容を基にしてコンテンツの内容や提示の制御を行っており、聞き手の状況を十分に考慮しておらず、改善の余地があった。

　そこで、本開示では、聞き手と話し手との立場から、映像、音声、操作に関する情報の開示レベルを制御することができる情報処理装置、情報処理方法および情報処理プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される前記第１利用者の第１センシング情報と、センシング装置を用いて取得される前記第２利用者の第２センシング情報とを取得する取得部と、前記第１センシング情報と前記第２センシング情報とに対応する前記第１利用者の状況と前記第２利用者の状況とを基にして、前記第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する情報処理部とを有する。

本実施形態に係るテレプレゼンスシステムの構成を示す図である。非言語情報を説明するための図である。非言語情報の開示レベルの設定例を示す図である。本実施形態に係るテレプレゼンス装置の構成例を示す図である。非言語情報の開示レベルの特定方法を説明するための図（１）である。非言語情報の開示レベルの特定方法を説明するための図（２）である。本実施形態に係るテレプレゼンス装置５０の処理手順を示すフローチャートである。開示レベルの制御の一例を説明するための図である。サーバ１００の構成例を示す図である。テレプレゼンス装置、サーバの機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本願の開示する情報処理装置、情報処理方法および情報処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．実施形態に係るテレプレゼンスシステムの構成
　　　１－２．非言語情報の定義
　　　１－３．非言語情報の開示レベルの定義
　　　１－４．実施形態に係るテレプレゼンス装置の構成
　　　１－５．開示レベルの特定
　　　１－５－１．話し手の状況を検出する処理
　　　１－５－１－１．コミュニケーションの内容
　　　１－５－１－２．外部環境の変化
　　　１－５－１－３．人の状態
　　　１－５－１－４．話し手と聞き手との関係性
　　　１－５－２．聞き手の状況を検出する処理
　　　１－５－２－１．外部環境要因
　　　１－５－２－２．人の内部状態
　　　１－５－２－３．人の行動状態
　　　１－５－２－４．感情表現
　　　１－６．実施形態に係るテレプレゼンス装置の処理手順
　　　１－７．非言語情報の開示レベルの制御の一例
　　　１－８．実施形態に係る効果
　　２．その他の実施形態
　　３．ハードウェア構成
　　４．むすび

［１．実施形態］
［１－１．実施形態に係るテレプレゼンスシステムの構成］
　まず、図１を用いて、本実施形態に係るテレプレゼンスシステムの一例を説明する。図１は、実施形態に係るテレプレゼンスシステムの構成を示す図である。図１に示すように、このプレゼンスシステムは、テレプレゼンス装置５０ａ，５０ｂと、サーバ１００とを有する。テレプレゼンス装置５０ａ，５０ｂと、サーバ１００とは、ネットワーク５を介して相互に接続される。

　テレプレゼンス装置５０ａは、地点Ａのユーザ１Ａによって操作される。テレプレゼンス装置５０ｂは、地点Ｂのユーザ１Ｂによって操作される。以下の説明では、テレプレゼンス装置５０ａ，５０ｂを特に区別しない場合には、テレプレゼンス装置５０と表記する。ユーザ１Ａ，１Ｂは、テレプレゼンス装置５０を用いて、オンライン会議等を行う。

　本実施形態に係るテレプレゼンスシステムでは、映像、音声、操作といった情報を、テレプレゼンス装置５０ａと、テレプレゼンス装置５０ｂとの間でリアルタイムに送受信する（双方向通信を行う）。このように、テレプレゼンスシステムでは、情報をリアルタイムでやり取りし、ユーザ１Ａおよびユーザ１Ｂに、あたかも対面しているような感覚を享受させることで、インタラクティブな環境を提供する。

　本実施形態では、地点Ａと地点Ｂとの２点間で双方向通信を行うこととするが、他の複数地点を加えた３地点以上で双方向通信を行うこともできる。

　サーバ１００は、ユーザ１Ａとユーザ１Ｂとがオンライン会議等を行っている間に、テレプレゼンス装置５０の間で送受信される情報に関するログ情報を記録する装置である。サーバ１００は、テレプレゼンス装置５０に、ログ情報を通知する。

　また、サーバ１００は、ユーザの特性情報を管理する。特性情報は、ユーザの名前、性別、年齢、人間関係等の情報を有する。サーバ１００は、特性情報を、テレプレゼンス装置５０に通知する。

［１－２．非言語情報の定義］
　図１に示したテレプレゼンスシステムを用いて相手とコミュニケーションをする際、コンテンツを提示・共有したり、音声通話を用いたりして、情報をやり取りする。この際、コンテンツや言語以外の手がかりとして得られる情報を、本実施形態では「非言語情報」と定義する。

　図２は、非言語情報を説明するための図である。図２に示すように、非言語情報は、映像（Vision）、音声（Sound）、操作（Operation）の３種類に分類される。映像は、目で見ることができる情報である。たとえば、映像には、ユーザの表情、視線／まばたき、頷き／首振り、姿勢、ジェスチャ、髪型、服装の情報が含まれる。音声は、耳で聞くことができる情報である。音声には、ユーザの声の大きさ／高さ、声の速さ／発話量、声の明るさ、相槌、ため息、しゃっくり、咳の情報が含まれる。操作は、アプリケーションソフトウェアにおけるユーザの動作の情報である。操作には、カーソル移動、キー入力、表示領域の情報が含まれる。

　ユーザ１Ａとユーザ１Ｂとがコミュニケーションを行っている間に、テレプレゼンス装置５０は、カメラ機能およびマイク機能を制御することで、相手と受け渡しする非言語情報の種類と量を調整することができる。本実施形態では、非言語情報の開示レベルを複数段階で設定する。

［１－３．非言語情報の開示レベルの定義］
　図３は、非言語情報の開示レベルの設定例を示す図である。原則として、映像、音声、操作の各項目を開示すればするほど、非言語情報の開示レベルは高くなる。本実施形態では、映像、音声、操作の各項目の重要度を、情報量の大きさから、映像＞音声＞操作とし、開示レベルに対応させている。また、映像の中でも、一部の項目だけ開示することで、レベルを分類することもできる。

　図３に示す例では、開示レベルのレベル値を１～４とし、レベル値が大きいほど、より多くの種類、量の非言語情報が相手側に開示される。開示レベル４では、映像（すべて）、音声、操作が相手側に開示される。開示レベル３では、映像（一部）、音声、操作が相手側に開示される。開示レベル２では、音声と操作とが相手側に開示される。開示レベル１では、操作のみが相手側に開示される。

　本実施形態では、テレプレゼンス装置５０が、非言語情報の開示レベルを特定し、開示レベルに応じた非言語情報を、相手側のテレプレゼンス装置５０に送信する場合について説明するが、サーバ１００が、テレプレゼンス装置５０の代わりに開示レベルを特定するように構成してもよい。

［１－４．実施形態に係るテレプレゼンス装置の構成］
　次に、図１に示したテレプレゼンス装置５０の構成について説明する。図４は、本実施形態に係るテレプレゼンス装置５０の構成例を示す図である。ここでは、テレプレゼンス装置５０ａを用いて説明を行う。図４に示すように、このテレプレゼンス装置５０ａは、通信部５１、入力部５２、出力部５３、記憶部５４、制御部５５を有する。

　通信部５１は、たとえば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部５１は、ネットワーク５と有線又は無線で接続され、ネットワーク５を介して、サーバ１００、テレプレゼンス装置５０ｂとの間で情報の送受信を行う。

　入力部５２は、カメラ５２ａ、マイク５２ｂ、各種センサ５２ｃを有する。カメラ５２ａは、映像を撮影するための装置である。マイク５２ｂは、音を集音する装置である。図示を省略するが、入力部５２は、キーボードやマウス等の入力装置が含まれていてもよい。

　各種センサ５２ｃは、生体情報を測定する生体センサ、外部環境情報を測定する外部環境センサ等を含む。生体情報は、ユーザの体温、発汗量、血圧、心拍等の情報に対応する。外部環境情報は、テレプレゼンス装置５０ａがある周囲の環境（気温、温度、湿度）等の情報に対応する。

　カメラ５２ａ、マイク５２ｂ、各種センサ５２ｃは、１つずつではなく、複数存在していてもよい。また、カメラ５２ａ、マイク５２ｂ、各種センサ５２ｃは、テレプレゼンス装置５０ａと一体である必要はなく、持ち運び可能なウェアラブル型デバイスでもよい。

　出力部５３は、ディスプレイ５３ａ、スピーカー５３ｂ、アクチュエーター５３ｃを有する。ディスプレイ５３ａは、画像を表示する装置である。スピーカー５３ｂは、音を出力する装置である。アクチュエーター５３ｃは、振動、熱、匂い、風等を発生させる装置である。

　ディスプレイ５３ａ、スピーカー５３ｂ、アクチュエーター５３ｃは、１つずつではなく、複数存在していてもよい。

　記憶部５４は、たとえば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部５４は、第１センシング情報５４ａ、第２センシング情報５４ｂ、ログ情報５４ｃ、特性情報５４ｄ、開示レベル情報５４ｅを有する。

　第１センシング情報５４ａは、テレプレゼンス装置５０ａ側のカメラ５２ａに撮影される画像情報、テレプレゼンス装置５０ａ側のマイク５２ｂに集音される音声情報、テレプレゼンス装置５０ａ側の各種センサ５２ｃによって測定される生体情報、外部環境情報に対応する。

　第２センシング情報５４ｂは、テレプレゼンス装置５０ｂ側のカメラに撮影された画像情報、テレプレゼンス装置５０ｂ側のマイクに集音された集音される音声情報、テレプレゼンス装置５０ｂ側の各種センサによって測定される生体情報、外部環境情報に対応する。

　ログ情報５４ｃは、テレプレゼンス装置５０ａ、５０ｂ（あるいは、他のテレプレゼンス装置）の間で過去に送受信された情報を有する。過去に送受信された情報は、図２で説明した非言語情報であってもよいし、利用状況、議事録、チャットの履歴のような他の情報であってもよい。ログ情報５４ｃは、サーバ１００から通知される。

　特性情報５４ｄは、ユーザの名前、性別、年齢、人間関係等の情報を有する。特性情報５４ｄは、サーバ１００から通知される。

　開示レベル情報５４ｅは、後述する制御部５５の情報処理部５５ｂによって設置される開示レベルの情報である。

　制御部５５は、たとえば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、テレプレゼンス装置５０内部に記憶されたプログラムがＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部５５は、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。制御部５５は、取得部５５ａ、情報処理部５５ｂ、通信制御部５５ｃを有する。

　取得部５５ａは、非対面のコミュニケーション中において、カメラ５２ａから画像情報を取得し、第１センシング情報５４ａに登録する。取得部５５ａは、マイク５２ｂから音声情報を取得し、第１センシング情報５４ａに登録する。取得部５５ａは、各種センサ５２ｃから生体情報、外部環境情報を取得し、第１センシング情報５４ａに登録する。

　取得部５５ａは、非対面のコミュニケーション中において、テレプレゼンス装置５０ｂから、第２センシング情報５４ｂを取得し、記憶部５４に登録する。

　取得部５５ａは、サーバ１００から、ログ情報５４ｃ、特性情報５４ｄを取得する。取得部５５ａは、ログ情報５４ｃ、特性情報５４ｄを記憶部５４に登録する。

　情報処理部５５ｂは、第１センシング情報５４ａ、第２センシング情報５４ｂ、ログ情報５４ｃ、特性情報５４ｄを基にして、「話し手」から「聞き手」に非言語情報を通知する場合の開示レベルを特定する。情報処理部５５ｂは、特定した開示レベルの情報を、開示レベル情報５４ｅとして、記憶部１４０に登録する。

　情報処理部５５ｂは、所定期間毎に、開示レベルを特定する処理を繰り返し実行し、開示レベルを特定する度に、開示レベル情報５４ｅを更新する。以下の説明では、地点Ａのユーザ１Ａを「話し手」とし、地点Ｂのユーザ１Ｂを「聞き手」とする。情報処理部５５ｂは、開示レベルの初期値を、開示レベル情報５４ｅに設定しておく。

　通信制御部５５ｃは、開示レベル情報５４ｅに設定された開示レベルに応じて、テレプレゼンス装置５０ａからテレプレゼンス装置５０ｂに送信される非言語情報の種類および量を制御する。

　通信制御部５５ｃは、開示レベルが「４」である場合には、入力部５２から入力される映像（すべて）、音声、操作の非言語情報を、テレプレゼンス装置５０ｂに送信する。

　通信制御部５５ｃは、開示レベルが「３」である場合には、入力部５２から入力される映像（一部）、音声、操作の非言語情報を、テレプレゼンス装置５０ｂに送信する。たとえば、映像（一部）は、カメラ５２ａに撮影されるユーザ１Ａの映像のうち、顔領域の映像のみを、テレプレゼンス装置５０ｂに送信する。映像（一部）として、何の映像をテレプレゼンス装置５０ｂに送信するのかは、予め設定される。

　通信制御部５５ｃは、開示レベルが「２」である場合には、入力部５２から入力される音声、操作の非言語情報を、テレプレゼンス装置５０ｂに送信する。

　通信制御部５５ｃは、開示レベルが「１」である場合には、入力部５２から入力される操作の非言語情報を、テレプレゼンス装置５０ｂに送信する。

　なお、通信制御部５５ｃは、テレプレゼンス装置５０ｂから、非言語情報を受信した場合には、受信した非言語情報を出力部５３に出力させる。テレプレゼンス装置５０ｂから送信される非言語情報は、テレプレゼンス装置５０ｂ側で特定された開示レベルに基づいて制御された種類、量の非言語情報となる。

［１－５．開示レベルの特定］
　図４で説明したテレプレゼンス装置５０ａの情報処理部５５ｂは、第１センシング情報５４ａを基にして、話し手の状況を特定し、第２センシング情報５４ｂを基にして、聞き手の状況を検出する。

　たとえば、話し手の状況を、「話し手が聞き手（相手）の非言語情報を知りたいのか、知りたくないのか」とする。聞き手の状況を、「聞き手が自身の非言語情報を話し手（相手）に伝えたいのか、伝えたくないのか」とする。情報処理部５５ｂは、検出した結果を基にして、開示レベルを特定する。

　図５および図６は、非言語情報の開示レベルの特定方法を説明するための図である。まず、図５について説明する。図５に示すように、話し手、聞き手の状況によって、コミュニケーションの状況を４つのパターンに分類する。

　たとえば、話し手が「相手の情報が知りたい」、聞き手が「自分の情報を伝えたい」場合には、「第１パターン」に対応する。話し手が「相手の情報が知りたくない」、聞き手が「自分の情報を伝えたい」場合には、「第２パターン」に対応する。

　話し手が「相手の情報が知りたい」、聞き手が「自分の情報を伝えたくない」場合には、「第３パターン」に対応する。話し手が「相手の情報が知りたくない」、聞き手が「自分の情報を伝えたくない」場合には、「第４パターン」に対応する。

　図５に示した各パターンに対して、非言語情報の開示レベルのレベル値が、左上にいくほど大きくなるように、マッピングを行うと、図６に示すものとなる。すなわち、コミュニケーションの状況が第１パターンとなる場合には、開示レベルは「４」となる。コミュニケーションの状況が第２パターンとなる場合、または、第３パターンとなる場合、開示レベルは「２－３」となる。コミュニケーションの状況が第４パターンとなる場合には、開示レベルは「１」となる。

　上記において、コミュニケーションの状況が第２パターンとなる場合、または、第３パターンとなる場合、開示レベルは「２－３（２でも３でもよい）」としたが、以降の説明では、第２，３パターンに対応する開示レベルを「２」として説明を行う。第２、３パターンに設定される開示レベルを適宜変更してもよいが、第２、３パターンに設定される開示レベルは、第４パターンの開示レベルよりも大きく、第１パターンの開示レベルよりも小さいという条件を満たすものとする。

［１－５－１．話し手の状況を検出する処理］
　情報処理部５５ｂが実行する、話し手の状況（話し手が聞き手（相手）の非言語情報を知りたいのか、知りたくないのか）を検出する処理の一例について説明する。情報処理部５５ｂは、第１センシング情報５４ａ、第２センシング情報５４ｂ、ログ情報５４ｃ、特性情報５４ｄを基にして、以下の処理を実行する。以下では、様々な検出方法を示すが、情報処理部５５ｂは、何れか一つの検出方法を用いてもよいし、複数の検出方法を複合的に用いてもよい。情報処理部５５ｂは、複数の検出方法を実行し、各判定結果が分かれる場合には、重み付きの多数決等によって、話し手の状況を判定する。

［１－５－１－１．コミュニケーションの内容］
　話し手は、非対面コミュニケーション中に、一定時間以上話しているが、聞き手側から何のリアクションも返ってこなかったり、質問や提案をしても返答がなかった場合には、聞き手が自分の話を聞いているか不安になり、聞き手側の非言語情報を知りたくなる。

　たとえば、情報処理部５５ｂは、第１センシング情報５４ａの音声情報に対して音声解析を行い、話し手が質問や提案をしているか否かを判別する。また、ログ情報５４ｃには、サーバ１００のタイムスタンプ機能によって、話し手、聞き手についての発話の開始時刻、終了時刻等の情報が登録されているものとする。

　情報処理部５５ｂは、話し手が、質問や提案をした時刻から、所定時間以上、聞き手からの発話がない場合には、話し手の状況が「聞き手の非言語状態を知りたい」であると判定する。一方、情報処理部５５ｂは、話し手が、質問や提案をした時刻から、所定時間以内に、聞き手からの発話がある場合には、話し手の状況が「聞き手の非言語状態を知りたくない」であると判定する。

　情報処理部５５ｂは、第１センシング情報５４ａの画像情報を解析して、話し手の表情が所定の表情（困っている表情）である場合、所定のジェスチャー（手を振る）等を行っている場合に、話し手の状況が「聞き手の非言語状態を知りたい」であると判定してもよい。

［１－５－１－２．外部環境の変化］
　話し手は、非対面コミュニケーション中に、聞き手側から、たとえば、テレビの音、赤ん坊の泣き声、工事音、雨音といった所定の外部環境の音が聞こえてきた場合に、聞き手側の周辺環境をはじめとする非言語情報を知りたくなる。

　たとえば、情報処理部５５ｂは、第２センシング情報５４ｂの音声情報に対して音声解析を行い、所定の外部環境の音が含まれるか否かを判定する。情報処理部５５ｂは、第２センシング情報５４ｂの音声情報に、所定の外部環境の音が含まれている場合には、話し手の状況が「聞き手の非言語状態を知りたい」であると判定する。一方、情報処理部５５ｂは、第２センシング情報５４ｂの音声情報に、所定の外部環境の音が含まれてない場合には、話し手の状況が「聞き手の非言語状態を知りたくない」であると判定する。

　情報処理部５５ｂは、第１センシング情報５４ａの画像情報を解析し、話し手の表情が所定の表情（困っている表情）であるかを更に判定して、話し手の状況を判定してもよい。

［１－５－１－３．人の状態］
　話し手は、非対面コミュニケーション中に、聞き手側から、咳、舌打ち、ため息といった、一般的に聞こえると不快に感じる音、声が聞こえてきたり、相手の表情が眠そうであったり、退屈そうであったりすると、聞き手の心理状態をはじめとする非言語情報を知りたくなる。

　たとえば、情報処理部５５ｂは、第２センシング情報５４ｂの音声情報に対して音声解析を行い、不快に感じられる所定の音、声（咳、舌打ち、ため息）が含まれるか否かを判定する。情報処理部５５ｂは、第２センシング情報５４ｂの音声情報に、不快に感じられる所定の音が含まれている場合には、話し手の状況が「聞き手の非言語状態を知りたい」であると判定する。一方、情報処理部５５ｂは、第２センシング情報５４ｂの音声情報に、不快に感じられる所定の音が含まれてない場合には、話し手の状況が「聞き手の非言語状態を知りたくない」であると判定する。

　情報処理部５５ｂは、第２センシング情報５４ｂの画像情報を解析し、聞き手の表情が所定の表情（眠そうな顔、退屈そうな顔）であるかを更に判定して、話し手の状況を判定してもよい。また、情報処理部５５ｂは、第１センシング情報５４ａの生体情報を基にして、脈拍、体温の変化の特徴が、聞き手の眠さ、退屈さを示す特徴であるか否かを判定して、話し手の状況を判定してもよい。

［１－５－１－４．話し手と聞き手との関係性］
　話し手と聞き手とは、初対面の場合、お互い相手がどういった人物なのかを知るために、非言語情報が欲しくなる。一方で、お互い過去に何度もコミュニケーションを実施していて、対手のことが十分に把握できている場合や、あるいは、相手に対して嫌悪感といった悪い感情を持っている場合には、相手の非言語情報が欲しくない。

　情報処理部５５ｂは、ログ情報５４ｃを基にして、話し手と聞き手との過去のコミュニケーションの回数を計数し、コミュニケーションの回数が所定回数未満の場合には、話し手の状況が「聞き手の非言語状態を知りたい」であると判定する。一方、情報処理部５５ｂは、コミュニケーションの回数が所定回数未満の場合には、話し手の状況が「聞き手の非言語状態を知りたくない」であると判定する。

　情報処理部５５ｂは、特性情報５４ｄを基にして、話し手と聞き手との人間関係を参照し、人間関係が良好でない場合には、上記のログ情報５４ｃの判定結果によらず、話し手の状況が「聞き手の非言語状態を知りたくない」であると判定してもよい。

［１－５－２．聞き手の状況を検出する処理］
　情報処理部５５ｂが実行する、聞き手の状況（聞き手が自身の非言語情報を話し手（相手）に伝えたいのか、伝えたくないのか）を検出する処理の一例について説明する。情報処理部５５ｂは、第１センシング情報５４ａ、第２センシング情報５４ｂ、ログ情報５４ｃ、特性情報５４ｄを基にして、以下の処理を実行する。以下では、様々な検出方法を示すが、情報処理部５５ｂは、何れか一つの検出方法を用いてもよいし、複数の検出方法を複合的に用いてもよい。情報処理部５５ｂは、複数の検出方法を実行し、各判定結果が分かれる場合には、重み付きの多数決等によって、聞き手の状況を判定する。

　また、本実施形態では、話し手側のテレプレゼンス装置５０ａの情報処理部５５ｂが、聞き手の状況を検出する場合について説明するが、聞き手側のテレプレゼンス装置５０ｂが、自身のセンシング情報を基にして、聞き手の状況を検出し、情報処理部５５ｂに通知するように構成してもよい。

［１－５－２－１．外部環境要因］
　話し手が話しているにも関わらず、聞き手が一時的にその場（テレプレゼンス装置５０または地点）を離れる必要が発生することがコミュニケーション中において考えられる。たとえば、聞き手が自宅の自席でテレプレゼンスシステムを用いてコミュニケーションを行っている間に、宅配便がきた、電話がかかってきた、雨が降ってきたなどといったイベントが発生する場合がある。この場合には、聞き手はそのイベントに対応しなければならない。しかし、このとき、聞き手が話し手に非言語情報（映像）を開示してしまうと、相手の気分を損ねたり、話を途中で遮ってしまったりする可能性がある。よって、聞き手は、所定のイベントが発生した場合に、自身の非言語情報を伝えたくない。

　たとえば、情報処理部５５ｂは、第２センシング情報５４ｂの画像情報、音声情報を解析し、所定のイベントが発生したか否かを判定する。情報処理部５５ｂは、画像情報から、聞き手がいなくなった場合、音声情報に、インターホンの音、電話の呼び出し音、雨の音が含まれる場合に、所定のイベントが発生したと判定する。

　情報処理部５５ｂは、所定のイベントが発生した場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたくない」であると判定する。一方、情報処理部５５ｂは、所定のイベントが発生していない場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたい」であると判定する。

［１－５－２－２．人の内部状態］
　聞き手の外見や健康状態に起因する、寝起き、寝ぐせがひどい、体調不良、ひげを剃っていない、ノーメイクなどといったときは、相手に対する失礼の意識から、自分の非言語情報を相手（話し手）に伝えたくない。または、話し手の話にそもそも興味がなかった場合、その様子を相手に悟られたくないので、自身の非言語情報を相手に伝えたくない。

　たとえば、情報処理部５５ｂは、第２センシング情報５４ｂの画像情報に対して表情解析を実行し、聞き手の内部状態が所定の状態（寝起き、寝ぐせがひどい、体調不良、ひげを剃っていない、ノーメイク）に該当するか否かを判定する。情報処理部５５ｂは、第２センシング情報５４ｂの生体情報（体温、心拍に関する情報）を用いて、聞き手の内部状態が所定の状態であるか否かを判定してもよい。

　情報処理部５５ｂは、聞き手の内部状態が所定の状態である場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたくない」であると判定する。一方、情報処理部５５ｂは、聞き手の内部状態が所定の状態でない場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたい」であると判定する。

［１－５－２－３．人の行動状態］
　非対面コミュニケーション中に、聞き手が何か別のことをしながら話し手とコミュニケーションを行う場合がある。聞き手は、コミュニケーションをしながら、同時に何か別のこと（ネットサーフィン、スマホゲーム、子供の世話など）をしている場合、その様子を相手に見られたくなく、自分の非言語情報を相手に伝えたくない。

　たとえば、情報処理部５５ｂは、第２センシング情報５４ｂの状態解析を行い、所定の行動（ネットサーフィン、スマホゲーム、子供の世話）をしている場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたくない」であると判定する。一方、情報処理部５５ｂは、第２センシング情報５４ｂの状態解析を行い、所定の行動をしていない場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたい」であると判定する。

［１－５－２－４．感情表現］
　非対面コミュニケーション中、聞き手は、話し手の話をちゃんと聞いていることをアピールしたい時、あるいは質問があるとき、または感謝の意といった感情表現を相手に伝えたくなる場合があり、自分の非言語情報を相手に伝えたくなる。

　情報処理部５５ｂは、第２センシング情報５４ｂの画像情報を解析し、聞き手の顔の向きや視線の滞留具合から、聞き手が話をちゃんと聞いているか否かを判定する。情報処理部５５ｂは、顔の向きや、視線の位置が所定時間一定の方向に向かっている場合には、聞き手が話をちゃんと聞いていると判定する。

　情報処理部５５ｂは、第２センシング情報５４ｂの音声情報に対して、音声解析技術による言語解析を実行し、聞き手の音声が疑問形である場合、声のイントネーションに変化がみられる場合に、聞き手が話し手に質問を行いたいと判定する。

　情報処理部５５ｂは、第２センシング情報５４ｂの音声情報に対して、音声解析技術による言語解析を実行し、聞き手の音声に所定の単語（ありがとう、助かった等）が含まれている場合に、聞き手が感謝の意を伝えたいと判定する。情報処理部５５ｂは、第２センシング情報５４ｂの画像情報に対して画像解析を行い、頷きの回数を計数し、頷きの回数が所定回数以上となった場合に、聞き手が感謝の意を伝えたいと判定してもよい。

　情報処理部５５ｂは、第２センシング情報５４ｂの画像情報に対して画像解析を行い、表情（話したがっている表情）、ジェスチャなどから、全体的な感情状態（話を聞いているか否か、質問があるか否か、感謝の意を伝えたいか否か等）を判定してもよい。

　情報処理部５５ｂは、上記の判定の結果、話を聞いている場合、質問がある場合、感謝の意を伝えたい場合に、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたい」であると判定する。一方、情報処理部５５ｂは、話を聞いている、質問がある、感謝の意を伝えたい、のいずれのものにも当てはまらない場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたくない」であると判定する。

［１－６．実施形態に係るテレプレゼンス装置の処理手順］
　続いて、図４に示したテレプレゼンス装置５０の処理手順の一例について説明する。図７は、本実施形態に係るテレプレゼンス装置５０の処理手順を示すフローチャートである。図７に示すように、テレプレゼンス装置５０ａの取得部５５ａは、入力部５２から第１センシング情報５４ａの取得を開始し、テレプレゼンス装置５０ｂから第２センシング情報５４ｂの取得を開始する（ステップＳ１０１）。

　テレプレゼンス装置５０の取得部５５ａは、サーバ１００から、ログ情報５４ｃ、特性情報５４ｄを取得する（ステップＳ１０２）。テレプレセンス装置５０の情報処理部５５ｂは、ユーザ認識を実行する（ステップＳ１０３）。たとえば、ステップＳ１０３において、情報処理部５５ｂは、テレプレゼンスシステムを用いて非対面コミュニケーションを行う地点に、対象となるユーザがいるか否かを取得する。

　テレプレゼンス装置５０ａは、テレプレゼンス装置５０ｂとの非対面コミュニケーションを開始する（ステップＳ１０４）。情報処理部５５ｂは、開示レベルを初期値に設定する（ステップＳ１０５）。たとえば、開示レベルの初期値を開示レベル「１」とするが、適宜変更してもよい。

　テレプレゼンス装置５０ａの通信制御部５５ｃは、テレプレゼンス装置５０ｂとの間で、開示レベルに応じた非言語情報の送受信を開始する（ステップＳ１０６）。

　情報処理部５５ｂは、第１センシング情報５４ａを基にして、話し手の状況を特定する（ステップＳ１０７）。情報処理部５５ｂは、第２センシング情報５４ｂを基にして、聞き手の状況を特定する（ステップＳ１０８）。情報処理部５５ｂは、話し手の状況と、聞き手の状況とを基にして、開示レベルを更新する（ステップＳ１０９）。

　テレプレゼンス装置５０ａは、処理を継続する場合には（ステップＳ１１０，Ｙｅｓ）、ステップＳ１０７に移行する。一方、テレプレゼンス装置５０ａは、処理を継続しない場合には、非対面コミュニケーションを終了する（ステップＳ１１１）。

［１－７．非言語情報の開示レベルの制御の一例］
　本実施形態に係るテレプレゼンスシステムを用いて非対面コミュニケーションを行った場合の開示レベルの制御の一例について説明する。図８は、開示レベルの制御の一例を説明するための図である。図８では、異なる地点にいる人物１Ａと人物１Ｂとが、テレプレゼンス装置５０を用いて非対面コミュニケーションを行った際の、お互いの非言語情報の開示レベルの変化を示している。

　人物１Ａを話し手、人物１Ｂを聞き手とし、人物１Ａから、人物１Ｂに送信される非言語情報の開示レベルを「第１開示レベル」とする。一方、人物１Ｂを話し手、人物１Ａを聞き手とし、人物１Ｂから、人物１Ａに送信される非言語情報の開示レベルを「第２開示レベル」とする。

　図８の横軸は、コミュニケーションの開始から終了までの時間に対応する軸である。線分６ａは、「話し手」がどちらであったかを示す。線分６ｂは、「聞き手」がどちらであったかを示す。図８に示す例では、コミュニケーション開始直後は、人物１Ａが話し手、人物１Ｂが聞き手となっており、コミュニケーションの途中で何度か入れ替わっている。

　人物１Ａと人物１Ｂとは旧知の仲であり、お互いのことを事前に把握しているものとする。図８の説明では、第１開示レベルと、第２開示レベルの初期値をレベル１とする。時刻ｔ_１～ｔ_６において、コミュニケーション中のおける話し手の状況、聞き手の状況が図８に示すように変化したものとする。

　時刻ｔ_１について説明する。時刻ｔ_１において、人物１Ａが話し手であり、人物１Ｂが聞き手である。このとき、人物１Ｂが、人物１Ａの話している内容について質問したくなった場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手に伝えたい」となる。これによって、図５に示したコミュニケーションの状況は、第４パターンから第２パターンに変化し、第２開示レベルは、１から２に変化する。これによって、テレプレゼンス装置５０ｂは、開示レベル２に基づく、非言語情報をテレプレゼンス装置５０ａに送信する。

　時刻ｔ_２について説明する。時刻ｔ_２において、人物１Ｂが話し手であり、人物１Ａが聞き手である。このとき、人物１Ｂは、人物１Ａが自分の話をちゃんと聞いていてくれるか不安になった場合には、話し手の状況が「話し手が聞き手の非言語情報を知りたい」となる。これによって、図５に示したコミュニケーションの状況は、第２パターンから第１パターンに変化し、第１開示レベルは、１から４に変化する。これによって、テレプレゼンス装置５０ａは、第１開示レベル４に基づく、非言語情報をテレプレゼンス装置５０ｂに送信する。

　時刻ｔ_３について説明する。時刻ｔ_３において、人物１Ｂが話し手であり、人物１Ａが聞き手である。このとき、人物１Ａは、人物１Ｂが話しているにも関わらず、一時的にその場を離れることになった場合には、聞き手の状況が「聞き手が自身の非言語情報を話し手（相手）に伝えたくない」となる。これによって、図５に示したコミュニケーションの状況は、第３パターンに変換し、第１開示レベルは、４から２に変化する。これによって、テレプレゼンス装置５０ａは、第１開示レベル２に基づく、非言語情報をテレプレゼンス装置５０ｂに送信する。

　時刻ｔ_４について説明する。時刻ｔ_４において、人物１Ｂが話し手であり、人物１Ａが聞き手である。このとき、人物１Ａは、人物１Ｂが話しているにも関わらず、休憩、あるいは、飲食をしたくなったものとする。この場合、聞き手の状況が「聞き手が自身の非言語情報を話し手（相手）に伝えたくない」となる。なお、人物１Ａは、ストレッチや飲食する様子を人物１Ｂに見せたくないが、音声会話は引き続き可能である。これによって、図５に示したコミュニケーションの状況は、第３パターンに変換し、第１開示レベルは、４から２に変化する。なお、時刻ｔ_３から時刻ｔ_４の間に、第１開示レベルが、４に更新されているものとする。

　時刻ｔ_５について説明する。時刻ｔ_５において、人物１Ａと、人物１Ｂとがお互いに休憩を欲したり、あるいは話すのをやめて各自ワーク座標をすることになった。このとき、人物１Ａ、１Ｂの状況は、「話し手が、聞き手の非言語状態を知りたくない」、「聞き手が自身の非言語情報を話し手に伝えたくない」となる。これによって、図５に示したコミュニケーションの状況は、第４パターンに変換し、第１開示レベル、第２開示レベルは、１に変化する。テレプレゼンス装置５０ａは、第１開示レベル１に基づく、非言語情報をテレプレゼンス装置５０ｂに送信する。テレプレゼンス装置５０ｂは、第２開示レベル１に基づく、非言語情報をテレプレゼンス装置５０ａに送信する。

　時刻ｔ_６について説明する。時刻ｔ_６において、人物１Ａと、人物１Ｂとがお互いに理解し得ているが、残り時間が迫っている中で最終確認または総括のタイミングとなる。話の理解度を確認するため、話の理解度を確認するため、お互い相手の非言語情報が欲しい状況下である。このとき、人物１Ａ、１Ｂの状況は、「話し手が、聞き手の非言語状態を知りたい」、「聞き手が自身の非言語情報を話し手に伝えたい」となる。これによって、図５に示したコミュニケーションの状況は、第１パターンに変換し、第１開示レベル、第２開示レベルは、１から４に変化する。テレプレゼンス装置５０ａは、第１開示レベル４に基づく、非言語情報をテレプレゼンス装置５０ｂに送信する。テレプレゼンス装置５０ｂは、第２開示レベル４に基づく、非言語情報をテレプレゼンス装置５０ａに送信する。

［１－８．実施形態に係る効果］
　上記のように、本実施形態に係るテレプレゼンス装置５０が、第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される第１利用者の第１センシング情報と、センシング装置を用いて取得される第２利用者の第２センシング情報とを取得する。テレプレゼンス装置５０は、第１センシング情報と第２センシング情報とに対応する第１利用者の状況と第２利用者の状況とを基にして、第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する。これによって、聞き手と話し手との立場から、映像、音声、操作に関する非言語情報の開示レベルを特定することができる。

　テレプレゼンス装置５０は、開示レベルを基にして、第１利用者と第２利用者との間で送受信される情報の種類および量を制御する。これによって、聞き手と話し手との立場に応じた情報の種別、量によって、非言語情報を送受信することができる。たとえば、快適な意思伝達コミュニケーションを実現できる、話し手、聞き手それぞれお互い嫌な気持にならない、コミュニケーションを途中で中断する必要や心配がない、非対面コミュニケーション中のストレスを軽減できる、非対面コミュニケーション中における時間の有効活用に貢献できる、非対面コミュニケーション内容の理解度を向上させることができる等の効果も得られる。

　テレプレゼンス装置５０は、マイク、カメラ、センサのうち少なくとも一つのセンシング装置を用いて取得された第１センシング情報と第２センシング情報とを取得する。これによって、開示レベルを特定するための情報を取得することができる。

　テレプレゼンス装置５０は、第１センシング情報と第２センシング情報とを基に、第１利用者の状況として、第１利用者が前記第２利用者の情報を知りたいか否かを判定し、第１センシング情報と第２センシング情報とを基に、第２利用者の状況として、第２利用者が第１利用者の情報を伝えたいか否かを判定する。これによって、開示レベルを特定するための話し手の状況、聞き手の状況を判定することができる。

　テレプレゼンス装置５０は、第１センシング情報と第２センシング情報とを基にして、第１利用者と第２利用者とのコミュニケーション内容を特定し、コミュニケーション内容を基にして、第１利用者の状況を判定する。これによって、コミュニケーション内容に応じた第１利用者（話し手）の状況を特定することができる。

　テレプレゼンス装置５０は、第２センシング情報を基にして、第２利用者の外部環境を特定し、外部環境を基にして、第１利用者の状況を判定する。これによって、第２利用者（聞き手）の外部環境の変化に応じた第１利用者（話し手）の状況を特定することができる。

　テレプレゼンス装置５０は、第２センシング情報に、第１利用者に対して不快な状況を確認可能な情報が含まれているか否かを特定し、特定結果を基にして、第１利用者の状況を判定する。これによって、第２利用者（聞き手）の状態に応じた第１利用者（話し手）の状況を特定することができる。

　テレプレゼンス装置５０は、第２センシング情報を基にして、第２利用者の外部環境要因を特定し、外部環境要因を基にして、第２利用者の状況を判定する。これによって、第２利用者（聞き手）の外部環境要因（宅配便の呼び出し、雨、電話の呼び出し）等に応じた第２利用者（聞き手）の状況を特定することができる。

　テレプレゼンス装置５０は、第２センシング情報を基にして、第２利用者の外見または健康状態を特定し、特定した第２利用者の外見または健康状態を基にして、第２利用者の状況を判定する。これによって、第２利用者（聞き手）の内部状態に応じた第２利用者（聞き手）の状況を特定することができる。

　テレプレゼンス装置５０は、第２センシング情報を基にして、第２利用者の行動状態を特定し、特定した行動状態を基にして、利用者の状況を判定する。これによって、第２利用者（聞き手）の行動状態に応じた第２利用者（聞き手）の状況を特定することができる。

　テレプレゼンス装置５０は、第２センシング情報を基にして、第２利用者の感情表現を特定し、特定した感情表現を基にして、前記利用者の状況を判定する。これによって、第２利用者（聞き手）の感情表現に応じた第２利用者（聞き手）の状況を特定することができる。

［２．その他の実施形態］
　上記の実施形態で説明したテレプレゼンスシステムに含まれるテレプレゼンス装置５０ａ，５０ｂ、サーバ１００の処理は一例であり、その他の処理を実行してもよい。

　上述した本実施形態のテレプレゼンスシステムでは、テレプレゼンス装置５０の情報処理部５５ｂが、第１センシング情報５４ａ、第２センシング情報５４ｂを基にして、非言語情報の開示レベルを特定していたが、これに限定されるものではない。たとえば、サーバ１００が、テレプレゼンス装置５０ａ，５０ｂから第１センシング情報５４ａ、第２センシング情報５４ｂを取得し、開示レベルを特定してもよい。この場合には、サーバ１００は、特定した開示レベルを、テレプレゼンス装置５０ａ，５０ｂに通知し、開示レベルに応じた非言語情報のデータ通信を実行させる。

　ここで、開示レベルを特定するサーバ１００の構成について説明する。図９は、サーバ１００の構成例を示す図である。図９に示すように、このサーバ１００は、通信部１１０、入力部１２０、出力部１３０、記憶部１４０、制御部１５０を有する。

　通信部１１０は、たとえば、ＮＩＣ等によって実現される。通信部１１０は、ネットワーク５と有線又は無線で接続され、ネットワーク５を介して、サーバ１００、テレプレゼンス装置５０との間で情報の送受信を行う。

　入力部１２０は、キーボードやマウス等の入力装置に対応する。

　出力部１３０は、ディスプレイ等の表示装置に対応する。

　記憶部１４０は、たとえば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４０は、第１センシング情報５４ａ、第２センシング情報５４ｂ、ログ情報５４ｃ、特性情報５４ｄ、開示レベル情報５４ｅを有する。

　第１センシング情報５４ａ、第２センシング情報５４ｂ、ログ情報５４ｃ、特性情報５４ｄ、開示レベル情報５４ｅに関する説明は、上述した説明と同様であるため、同一の符号を付して、説明を省略する。

　制御部１５０は、たとえば、ＣＰＵやＭＰＵ等によって、テレプレゼンス装置５０内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１５０は、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。制御部１５０は、取得部１５０ａ、情報処理部１５０ｂ、通知部１５０ｃを有する。

　取得部１５０ａは、テレプレゼンス装置５０ａから、第１センシング情報５４ａを取得し、記憶部１４０に登録する。取得部１５０ａは、テレプレゼンス装置５０ｂから、第２センシング情報５４ｂを取得し、記憶部１４０に登録する。

　取得部１５０ａは、各テレプレゼンス装置５０の間で実行されるコミュニケーション中に送受信される情報をログ情報５４ｃとして取得し、記憶部１４０に登録する。取得部１５０ａは、入力部１２０等から入力される情報であって、ユーザの名前、性別、年齢、人間関係等の情報を、特性情報５４ｄとして取得し、記憶部１４０に登録する。

　情報処理部１５０ｂは、第１センシング情報５４ａ、第２センシング情報５４ｂ、ログ情報５４ｃ、特性情報５４ｄを基にして、「話し手」から「聞き手」に非言語情報を通知する場合の開示レベルを特定する。情報処理部１５０ｂは、特定した開示レベルの情報を、開示レベル情報５４ｅとして、記憶部１４０に登録する。情報処理部１５０ｂに関するその他の処理は、上述した情報処理部５５ｂと同様である。

　通知部１５０ｃは、情報処理部１５０ｂよって登録された開示レベル情報５４ｅを、テレプレゼンス装置５０に通知する。

　上記のように、サーバ１００が、テレプレゼンス装置５０ａ，５０ｂから第１センシング情報５４ａ、第２センシング情報５４ｂを取得し、開示レベルを特定し、特定した開示レベルの情報を、テレプレゼンス装置５０ａ，５０ｂに通知する。これによって、テレプレゼンス装置５０の間で、開示レベルに応じた非言語情報のデータ通信を実行させることができる。

［３．ハードウェア構成］
　上述してきた各実施形態に係るテレプレゼンス装置５０、サーバ１００等の情報機器は、たとえば、図１０に示すような構成のコンピュータ１０００によって実現される。図１０は、テレプレゼンス装置５０、サーバ１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。以下、実施形態に係るテレプレゼンス装置５０を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インタフェース１５００、及び入出力インタフェース１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インタフェース１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインタフェースである。例えば、ＣＰＵ１１００は、通信インタフェース１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インタフェース１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインタフェースである。例えば、ＣＰＵ１１００は、入出力インタフェース１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インタフェース１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインタフェースとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　たとえば、コンピュータ１０００が実施形態に係るテレプレゼンス装置５０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部５５等の機能を実現する。また、ＨＤＤ１４００には、本開示に係るプログラムや、記憶部５４内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、図１０で説明したコンピュータ１０００によって、サーバ１００の機能を実現することも可能である。たとえば、かかるサーバ１００に対応するコンピュータのＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１５０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１４０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

［４．むすび］
　情報処理装置は、第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される前記第１利用者の第１センシング情報と、センシング装置を用いて取得される前記第２利用者の第２センシング情報とを取得する取得部と、前記第１センシング情報と前記第２センシング情報とに対応する前記第１利用者の状況と前記第２利用者の状況とを基にして、前記第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する情報処理部とを備える。これによって、聞き手と話し手との立場から、映像、音声、操作に関する非言語情報の開示レベルを特定することができる。

　情報処理装置は、前記開示レベルを基にして、前記第１利用者と第２利用者との間で送受信される情報の種類および量を制御する通信制御部を更に備える。これによって、聞き手と話し手との立場に応じた情報の種別、量によって、非言語情報を送受信することができる。

　情報処理装置は、マイク、カメラ、センサのうち少なくとも一つのセンシング装置を用いて取得された前記第１センシング情報と前記第２センシング情報とを取得する。これによって、開示レベルを特定するための情報を取得することができる。

　前記第１利用者は、前記第２利用者に対して話をする話し手の利用者であり、前記第２利用者は、前記第１利用者からの話を聞く聞き手の利用者であり、情報処理装置は、前記第１センシング情報と前記第２センシング情報とを基に、前記第１利用者の状況として、前記第１利用者が前記第２利用者の情報を知りたいか否かを判定し、前記第１センシング情報と前記第２センシング情報とを基に、前記第２利用者の状況として、前記第２利用者が前記第１利用者の情報を伝えたいか否かを判定する処理を更に実行する。これによって、開示レベルを特定するための話し手の状況、聞き手の状況を判定することができる。

　情報処理装置は、前記第１センシング情報と前記第２センシング情報とを基にして、前記第１利用者と前記第２利用者とのコミュニケーション内容を特定し、前記コミュニケーション内容を基にして、前記第１利用者の状況を判定する。これによって、コミュニケーション内容に応じた第１利用者（話し手）の状況を特定することができる。

　情報処理装置は、前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の外部環境を特定し、前記外部環境を基にして、前記第１利用者の状況を判定する。これによって、第２利用者（聞き手）の外部環境の変化に応じた第１利用者（話し手）の状況を特定することができる。

　情報処理装置は、前記情報処理部は、前記第２センシング情報に、前記第１利用者に対して不快な状況を確認可能な情報が含まれているか否かを特定し、特定結果を基にして、前記第１利用者の状況を判定する。これによって、第２利用者（聞き手）の状態に応じた第１利用者（話し手）の状況を特定することができる。

　情報処理装置は、前記第２センシング情報を基にして、前記第２利用者の外部環境要因を特定し、前記外部環境要因を基にして、前記第２利用者の状況を判定する。これによって、第２利用者（聞き手）の外部環境要因（宅配便の呼び出し、雨、電話の呼び出し）等に応じた第２利用者（聞き手）の状況を特定することができる。

　情報処理装置は、前記第２センシング情報を基にして、前記第２利用者の外見または健康状態を特定し、特定した前記第２利用者の外見または健康状態を基にして、前記第２利用者の状況を判定する。これによって、第２利用者（聞き手）の内部状態に応じた第２利用者（聞き手）の状況を特定することができる。

　情報処理装置は、前記第２センシング情報を基にして、前記第２利用者の行動状態を特定し、特定した前記行動状態を基にして、前記第２利用者の状況を判定する。これによって、第２利用者（聞き手）の行動状態に応じた第２利用者（聞き手）の状況を特定することができる。

　情報処理装置は、前記第２センシング情報を基にして、前記第２利用者の感情表現を特定し、特定した前記感情表現を基にして、前記第２利用者の状況を判定する。これによって、第２利用者（聞き手）の感情表現に応じた第２利用者（聞き手）の状況を特定することができる。

　なお、本技術は、以下のような構成も取ることができる。
（１）
　第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される前記第１利用者の第１センシング情報と、センシング装置を用いて取得される前記第２利用者の第２センシング情報とを取得する取得部と、
　前記第１センシング情報と前記第２センシング情報とに対応する前記第１利用者の状況と前記第２利用者の状況とを基にして、前記第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する情報処理部と
　を備える情報処理装置。
（２）
　前記開示レベルを基にして、前記第１利用者と第２利用者との間で送受信される情報の種類および量を制御する通信制御部を更に備える前記（１）に記載の情報処理装置。
（３）
　前記取得部は、マイク、カメラ、センサのうち少なくとも一つのセンシング装置を用いて取得された前記第１センシング情報と前記第２センシング情報とを取得する前記（１）または（２）に記載の情報処理装置。
（４）
　前記第１利用者は、前記第２利用者に対して話をする話し手の利用者であり、前記第２利用者は、前記第１利用者からの話を聞く聞き手の利用者であり、
　前記情報処理部は、前記第１センシング情報と前記第２センシング情報とを基に、前記第１利用者の状況として、前記第１利用者が前記第２利用者の情報を知りたいか否かを判定し、前記第１センシング情報と前記第２センシング情報とを基に、前記第２利用者の状況として、前記第２利用者が前記第１利用者の情報を伝えたいか否かを判定する処理を更に実行する前記（１）～（３）のいずれか一つに記載の情報処理装置。
（５）
　前記情報処理部は、前記第１センシング情報と前記第２センシング情報とを基にして、前記第１利用者と前記第２利用者とのコミュニケーション内容を特定し、前記コミュニケーション内容を基にして、前記第１利用者の状況を判定する前記（１）～（４）のいずれか一つに記載の情報処理装置。
（６）
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の外部環境を特定し、前記外部環境を基にして、前記第１利用者の状況を判定する前記（１）～（５）のいずれか一つに記載の情報処理装置。
（７）
　前記情報処理部は、前記第２センシング情報に、前記第１利用者に対して不快な状況を確認可能な情報が含まれているか否かを特定し、特定結果を基にして、前記第１利用者の状況を判定する前記（１）～（６）のいずれか一つに記載の情報処理装置。
（８）
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の外部環境要因を特定し、前記外部環境要因を基にして、前記第２利用者の状況を判定する前記（１）～（７）のいずれか一つに記載の情報処理装置。
（９）
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の外見または健康状態を特定し、特定した前記第２利用者の外見または健康状態を基にして、前記第２利用者の状況を判定する前記（１）～（８）のいずれか一つに記載の情報処理装置。
（１０）
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の行動状態を特定し、特定した前記行動状態を基にして、前記第２利用者の状況を判定する前記（１）～（９）のいずれか一つに記載の情報処理装置。
（１１）
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の感情表現を特定し、特定した前記感情表現を基にして、前記第２利用者の状況を判定する前記（１）～（１０）のいずれか一つに記載の情報処理装置。
（１２）
　第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される前記第１利用者の第１センシング情報と、センシング装置を用いて取得される前記第２利用者の第２センシング情報とを取得し、
　前記第１センシング情報と前記第２センシング情報とに対応する前記第１利用者の状況と前記第２利用者の状況とを基にして、前記第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する
　情報処理方法。
（１３）
　コンピュータを、
　第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される前記第１利用者の第１センシング情報と、センシング装置を用いて取得される前記第２利用者の第２センシング情報とを取得する取得部と、
　前記第１センシング情報と前記第２センシング情報とに対応する前記第１利用者の状況と前記第２利用者の状況とを基にして、前記第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する情報処理部と
　として機能させるための情報処理プログラム。

　　　５　　ネットワーク
　　５０ａ，５０ｂ　テレプレゼンス装置
　　５１，１１０　　通信部
　　５２，１２０　　入力部
　　５２ａ　カメラ
　　５２ｂ　マイク
　　５２ｃ　各種センサ
　　５３，１３０　　出力部
　　５３ａ　ディスプレイ
　　５３ｂ　スピーカー
　　５３ｃ　アクチュエーター
　　５４，１４０　　記憶部
　　５４ａ　第１センシング情報
　　５４ｂ　第２センシング情報
　　５４ｃ　ログ情報
　　５４ｄ　特性情報
　　５４ｅ　開示レベル情報
　　５５，１５０　　制御部
　　５５ａ，１５０ａ　取得部
　　５５ｂ，１５０ｂ　情報処理部
　　５５ｃ　通信制御部
　１００　　サーバ
　１５０ｃ　通知部

Claims

　第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される前記第１利用者の第１センシング情報と、センシング装置を用いて取得される前記第２利用者の第２センシング情報とを取得する取得部と、
　前記第１センシング情報と前記第２センシング情報とに対応する前記第１利用者の状況と前記第２利用者の状況とを基にして、前記第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する情報処理部と
　を備える情報処理装置。
　前記開示レベルを基にして、前記第１利用者と第２利用者との間で送受信される情報の種類および量を制御する通信制御部を更に備える請求項１に記載の情報処理装置。
　前記取得部は、マイク、カメラ、センサのうち少なくとも一つのセンシング装置を用いて取得された前記第１センシング情報と前記第２センシング情報とを取得する請求項１に記載の情報処理装置。
　前記第１利用者は、前記第２利用者に対して話をする話し手の利用者であり、前記第２利用者は、前記第１利用者からの話を聞く聞き手の利用者であり、
　前記情報処理部は、前記第１センシング情報と前記第２センシング情報とを基に、前記第１利用者の状況として、前記第１利用者が前記第２利用者の情報を知りたいか否かを判定し、前記第１センシング情報と前記第２センシング情報とを基に、前記第２利用者の状況として、前記第２利用者が前記第１利用者の情報を伝えたいか否かを判定する処理を更に実行する請求項１に記載の情報処理装置。
　前記情報処理部は、前記第１センシング情報と前記第２センシング情報とを基にして、前記第１利用者と前記第２利用者とのコミュニケーション内容を特定し、前記コミュニケーション内容を基にして、前記第１利用者の状況を判定する請求項４に記載の情報処理装置。
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の外部環境を特定し、前記外部環境を基にして、前記第１利用者の状況を判定する請求項４に記載の情報処理装置。
　前記情報処理部は、前記第２センシング情報に、前記第１利用者に対して不快な状況を確認可能な情報が含まれているか否かを特定し、特定結果を基にして、前記第１利用者の状況を判定する請求項４に記載の情報処理装置。
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の外部環境要因を特定し、前記外部環境要因を基にして、前記第２利用者の状況を判定する請求項４に記載の情報処理装置。
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の外見または健康状態を特定し、特定した前記第２利用者の外見または健康状態を基にして、前記第２利用者の状況を判定する請求項４に記載の情報処理装置。
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の行動状態を特定し、特定した前記行動状態を基にして、前記第２利用者の状況を判定する請求項３に記載の情報処理装置。
　前記情報処理部は、前記第２センシング情報を基にして、前記第２利用者の感情表現を特定し、特定した前記感情表現を基にして、前記第２利用者の状況を判定する請求項３に記載の情報処理装置。
　第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される前記第１利用者の第１センシング情報と、センシング装置を用いて取得される前記第２利用者の第２センシング情報とを取得し、
　前記第１センシング情報と前記第２センシング情報とに対応する前記第１利用者の状況と前記第２利用者の状況とを基にして、前記第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する
　情報処理方法。
　コンピュータを、
　第１利用者と第２利用者とがオンラインを介した通話を行っている間に、センシング装置を用いて取得される前記第１利用者の第１センシング情報と、センシング装置を用いて取得される前記第２利用者の第２センシング情報とを取得する取得部と、
　前記第１センシング情報と前記第２センシング情報とに対応する前記第１利用者の状況と前記第２利用者の状況とを基にして、前記第１利用者と第２利用者との間で送受信される情報の開示レベルを特定する情報処理部と
　として機能させるための情報処理プログラム。