WO2024014266A1

WO2024014266A1 - 制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2024014266A1
Application number: PCT/JP2023/023473
Authority: WO
Inventors: 一平反畑; 英寛小松; 龍正小池; 吉弘田村; 義純田中
Original assignee: ソニーグループ株式会社
Priority date: 2022-07-13
Filing date: 2023-06-26
Publication date: 2024-01-18

Abstract

本技術は、離れた場所にいるユーザ同士の動作に応じた効果音を適切に出力させることができるようにする制御装置、制御方法、情報処理装置、情報処理方法、およびプログラムに関する。本技術の一実施の形態に係る制御装置は、第１のユーザの行動に応じた第１の効果音を、第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、第１の効果音と異なる効果音を、第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる。本技術は、複数のユーザがテレプレゼンスシステムを用いてインタラクションを行うアプリケーションに適用することができる。

Description

制御装置、制御方法、情報処理装置、情報処理方法、およびプログラム

　本技術は、特に、離れた場所にいるユーザ同士の動作に応じた効果音を適切に出力させることができるようにした制御装置、制御方法、情報処理装置、情報処理方法、およびプログラムに関する。

　離れた場所にある空間を映像と音声で繋ぐことによって、あたかも同じ空間にいるかのような自然なコミュニケーションを可能としたテレプレゼンスシステムがある。

　それぞれのユーザがいる空間に設けられたコミュニケーション装置の大型のディスプレイには相手方のユーザが映る映像が表示され、スピーカからは相手方のユーザの音声が出力される。大型のディスプレイとスピーカの他に、例えば、カメラとマイクがコミュニケーション装置に設けられる。

　一方のユーザが使用するコミュニケーション装置のカメラにより撮影された映像とスピーカにより集音された音声が相手方のユーザが使用するコミュニケーション装置において出力されることにより、お互いのユーザは、相手の顔を見ながら会話などを行うことができる。

国際公開第２０１７／０６１５７７号国際公開第２０２０／２１３２９２号

　このようなテレプレゼンスシステムを利用して仮想的な物体を投げ合うようなアプリケーションが提案されている。仮想的な物体を投げたり受け取ったりすることに応じて効果音が出力される。

　それぞれの空間において同じ効果音が同じタイミングで出力されるとした場合、一方の空間において出力された効果音と、他方の空間において出力され、テレプレゼンスシステムを経由して一方の空間に届く効果音とが二重に聞こえ、臨場感が損なわれてしまうことがある。テレプレゼンスシステムを経由して届く効果音は、システムの遅延などによって通常遅れて聞こえる。

　本技術はこのような状況に鑑みてなされたものであり、離れた場所にいるユーザ同士の動作に応じた効果音を適切に出力させることができるようにするものである。

　本技術の一側面の制御装置は、第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる制御部を備える。

　本技術の他の側面の情報処理装置は、第１のユーザの行動を検出する検出部と、前記第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させる出力制御部と、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる他の情報処理装置に対して、前記第１のユーザが所定の行動をとったタイミングを示す情報を送信する通信制御部とを備える。

　本技術の一側面においては、第１のユーザの行動に応じた第１の効果音が、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力され、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音が、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力される。

　本技術の他の側面においては、第１のユーザの行動が検出され、前記第１のユーザの行動に応じた第１の効果音が、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力される。また、ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる他の情報処理装置に対して、前記第１のユーザが所定の行動をとったタイミングを示す情報が送信される。

本技術の一実施形態に係る仮想キャッチボールシステムの構成例を示す図である。それぞれのユーザがいる空間に設けられる構成の詳細を示す図である。スローイング側の効果音の例を示す図である。スローイング側の効果音の例を示す図である。キャッチング側の効果音の例を示す図である。効果音の種類を示す図である。仮想キャッチボールシステムを実現するシステム構成の例を示す図である。腕振り時に聞こえる音を示す図である。仮想物体を投げた時に聞こえる音を示す図である。仮想物体を投げた後に聞こえる音を示す図である。仮想物体を投げた後に聞こえる他の音を示す図である。キャッチング時に聞こえる音を示す図である。映像と音の入出力の時系列を示す図である。それぞれのユーザが聴く音の音空間の例を示す図である。それぞれのユーザが聴く音の音空間の他の例を示す図である。テレプレゼンスシステムを実現する各装置の機能構成例を示すブロック図である。効果音システムを実現する各装置の機能構成例を示すブロック図である。スローイング側の情報処理装置の処理について説明するフローチャートである。キャッチング側の情報処理装置の処理について説明するフローチャートである。効果音制御サーバの処理について説明するフローチャートである。仮想キャッチボールシステムの他の構成例を示す図である。仮想キャッチボールシステムの他の構成例を示す図である。仮想キャッチボールシステムの他の構成例を示す図である。コンピュータの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．仮想キャッチボールシステムの構成
　２．仮想キャッチボールの効果音
　３．各装置の構成例
　４．各装置の動作
　５．変形例

＜＜仮想キャッチボールシステムの構成＞＞
　図１は、本技術の一実施形態に係る仮想キャッチボールシステムの構成例を示す図である。

　図１に示す仮想キャッチボールシステム１は、離れた場所にいる２人のユーザが、映像と音を通じて仮想的なキャッチボールを行うことに用いられるシステムである。実際のキャッチボールにおいて用いられるボールに相当する仮想物体が、ユーザの動作に応じてユーザ間を仮想的に移動することによって仮想キャッチボールが行われる。

　図１の例においては、仮想キャッチボールを体験する人物としてユーザＡとユーザＢが示されている。ユーザＡとユーザＢは、それぞれ、スマートフォンなどの携帯端末１１Ａ，１１Ｂを片手で持っている。

　例えば、ユーザＡがスローイングを行う場合、ユーザＡは、携帯端末１１Ａを持っている腕を振ることによって仮想物体を投げ、ユーザＢがいる空間に仮想物体を到達させる。ユーザＢは、ユーザＡが投げた仮想物体をキャッチする。

　同様に、ユーザＢがスローイングを行う場合、ユーザＢは、携帯端末１１Ｂを持っている腕を振ることによって仮想物体を投げ、ユーザＡがいる空間に仮想物体を到達させる。ユーザＡは、ユーザＢが投げた仮想物体をキャッチする。

　このように、２人のユーザは、スローイングとキャッチングを交互に行うことによって、仮想キャッチボールを続けることになる。

　破線＃１で囲んで示す構成が、ユーザＡが使用する構成となり、破線＃２で囲んで示す構成が、ユーザＢが使用する構成となる。ユーザＡ側の構成とユーザＢ側の構成は、インターネットやLANなどのネットワーク１０１を介して接続される。ネットワーク１０１には、コミュニケーション管理サーバ１１１と効果音制御サーバ１１２が接続される。

　破線＃１で囲んで示すように、ユーザＡ側の構成として、コミュニケーション装置２１Ａ、効果音用スピーカ２２Ａ、および情報処理装置２３Ａが設けられる。携帯端末１１Ａと情報処理装置２３Ａは、無線LAN、Bluetooth（登録商標）などの無線通信を介して接続される。

　コミュニケーション装置２１Ａは、大型のディスプレイを有する装置である。ユーザＡは、コミュニケーション装置２１Ａの前方に設定された立ち位置に携帯端末１１Ａを持った状態で立ち、ユーザＢとの仮想キャッチボールを行う。ユーザＡの立ち位置とコミュニケーション装置２１Ａの間の床に、複数のスピーカから構成される効果音用スピーカ２２Ａが設けられる。

　このようなユーザＡ側の構成と同じ構成がユーザＢ側にも設けられる。破線＃２で囲んで示すように、ユーザＢ側の構成として、コミュニケーション装置２１Ｂ、効果音用スピーカ２２Ｂ、および情報処理装置２３Ｂが設けられる。携帯端末１１Ｂと情報処理装置２３Ｂは、無線通信を介して接続される。

　ユーザＢは、コミュニケーション装置２１Ｂの前方に設定された立ち位置に携帯端末１１Ｂを持った状態で立ち、ユーザＡとの仮想キャッチボールを行う。ユーザＢの立ち位置とコミュニケーション装置２１Ｂの間の床に、複数のスピーカから構成される効果音用スピーカ２２Ｂが設けられる。

　コミュニケーション装置２１Ａとコミュニケーション装置２１Ｂの間では映像と音声の送受信が行われる。コミュニケーション管理サーバ１１１は、コミュニケーション装置２１Ａとコミュニケーション装置２１Ｂの間の映像と音声の送受信を管理する。

　効果音制御サーバ１１２は、情報処理装置２３Ａとの間で通信を行うとともに、情報処理装置２３Ｂとの間で通信を行う。効果音制御サーバ１１２は、情報処理装置２３Ａから送信されてきた情報を情報処理装置２３Ｂに送信し、情報処理装置２３Ｂから送信されてきた情報を情報処理装置２３Ａに送信する。

　以下、適宜、コミュニケーション装置２１Ａとコミュニケーション装置２１Ｂを区別する必要がない場合、まとめて、コミュニケーション装置２１という。効果音用スピーカ２２Ａと効果音用スピーカ２２Ｂを区別する必要がない場合、まとめて、効果音用スピーカ２２といい、情報処理装置２３Ａと情報処理装置２３Ｂを区別する必要がない場合、まとめて、情報処理装置２３という。ユーザＡ側とユーザＢ側の他の構成についても、適宜、同様にまとめて説明する。

　図２は、それぞれのユーザがいる空間に設けられる構成の詳細を示す図である。

　図２のＡは、ユーザＡがいる空間に設けられる構成を示す。

　ユーザＡ側のコミュニケーション装置２１Ａは、ディスプレイ３１Ａ、カメラ３２Ａ、マイク３３Ａ、およびスピーカ３４Ａが、コミュニケーション装置２１Ａの全体の動作を制御するPCなどの制御装置（図示せず）に接続されることによって構成される。

　ディスプレイ３１Ａは、コミュニケーション装置２１Ｂから送信されてきた映像を表示させる。コミュニケーション装置２１Ｂから送信されてくる映像にはユーザＢの全身が映っている。

　カメラ３２Ａは、コミュニケーション装置２１Ａから離れた位置に立つユーザＡを撮影する。カメラ３２Ａにより撮影された映像は、コミュニケーション装置２１Ｂに対して送信される。

　マイク３３Ａは、ユーザＡがいる空間の音を集音する。マイク３３Ａが集音する音には、ユーザＡの音声、効果音用スピーカ２２Ａが出力する効果音、スピーカ３４Ａが出力する音などの、ユーザＡがいる空間において聞こえる各種の音が含まれる。マイク３３Ａにより集音された音は、コミュニケーション装置２１Ｂに対して送信される。

　スピーカ３４Ａは、コミュニケーション装置２１Ｂから送信されてきた、ユーザＢがいる空間の音を出力する。コミュニケーション装置２１Ｂからは、コミュニケーション装置２１Ｂのマイク（マイク３３Ｂ）によって集音された、ユーザＢがいる空間の音が送信されてくる。

　図２のＡに示すように、情報処理装置２３Ａに接続された効果音用スピーカ２２Ａは、スピーカ２２Ａ－１乃至２２Ａ－４の４台のスピーカにより構成される。ユーザＡの立ち位置を基準として、最も近い位置にスピーカ２２Ａ－１が設けられ、その先に、スピーカ２２Ａ－２、スピーカ２２Ａ－３、スピーカ２２Ａ－４が並べて設けられる。スピーカ２２Ａ－１乃至２２Ａ－４は例えば等間隔に並べられる。

　スピーカ２２Ａ－１乃至２２Ａ－４を用いた効果音の出力が情報処理装置２３Ａにより制御される。スピーカ２２Ａ－１乃至２２Ａ－４から出力される効果音の詳細については後述する。

　図２のＢは、ユーザＢがいる空間に設けられる構成を示す。ユーザＢ側の構成として、ユーザＡ側の構成と同じ構成が設けられる。重複する説明については適宜省略する。

　ユーザＢ側のコミュニケーション装置２１Ｂは、ディスプレイ３１Ｂ、カメラ３２Ｂ、マイク３３Ｂ、およびスピーカ３４Ｂが、コミュニケーション装置２１Ｂの全体の動作を制御するPCなどの制御装置（図示せず）に接続されることによって構成される。

　ディスプレイ３１Ｂは、コミュニケーション装置２１Ａから送信されてきた映像を表示させる。コミュニケーション装置２１Ａから送信されてくる映像にはユーザＡの全身が映っている。

　カメラ３２Ｂは、コミュニケーション装置２１Ｂから離れた位置に立つユーザＢを撮影する。カメラ３２Ｂにより撮影された映像は、コミュニケーション装置２１Ａに対して送信される。

　マイク３３Ｂは、ユーザＢがいる空間の音を集音する。マイク３３Ｂが集音する音には、ユーザＢの音声、効果音用スピーカ２２Ｂが出力する効果音、スピーカ３４Ｂが出力する音などの、ユーザＢがいる空間において聞こえる各種の音が含まれる。マイク３３Ｂにより集音された音は、コミュニケーション装置２１Ａに対して送信される。

　スピーカ３４Ｂは、コミュニケーション装置２１Ａから送信されてきた、ユーザＡがいる空間の音を出力する。コミュニケーション装置２１Ａからは、コミュニケーション装置２１Ａのマイク３３Ａによって集音された、ユーザＡがいる空間の音が送信されてくる。

　図２のＢに示すように、情報処理装置２３Ｂに接続された効果音用スピーカ２２Ｂは、スピーカ２２Ｂ－１乃至２２Ｂ－４の４台のスピーカにより構成される。ユーザＢの立ち位置を基準として、最も近い位置にスピーカ２２Ｂ－１が設けられ、その先に、スピーカ２２Ｂ－２、スピーカ２２Ｂ－３、スピーカ２２Ｂ－４が並べて設けられる。スピーカ２２Ｂ－１乃至２２Ｂ－４は例えば等間隔に並べられる。

　スピーカ２２Ｂ－１乃至２２Ｂ－４を用いた効果音の出力が情報処理装置２３Ｂにより制御される。スピーカ２２Ｂ－１乃至２２Ｂ－４から出力される効果音の詳細については後述する。

　コミュニケーション装置２１Ａとコミュニケーション装置２１Ｂの間の映像と音声の送受信がリアルタイムで行われることにより、それぞれのユーザは、離れた場所にいる相手の姿を見て、相手と会話をしながら仮想キャッチボールを行うことができる。コミュニケーション装置２１は、相手のいる空間の様子を覗くことができるいわば窓としての機能を有する。

＜＜仮想キャッチボールの効果音＞＞
　ここで、効果音用スピーカ２２（効果音用スピーカ２２Ａ、効果音用スピーカ２２Ｂ）から出力される効果音について説明する。仮想キャッチボールを演出するための効果音、仮想物体が移動することを表現する効果音などの各種の効果音が効果音用スピーカ２２から出力される。

＜スローイング側の効果音＞
　図３は、スローイング側の効果音の例を示す図である。

　図３の例においては、スローイングを行うユーザとしてユーザＡが示されている。ユーザＡの前方には、スピーカ２２Ａ－１乃至２２Ａ－４が順に並び、その先にコミュニケーション装置２１Ａのディスプレイ３１Ａが設けられる。

　スローイングを開始するユーザＡは、図３の上段に示すように、携帯端末１１Ａのボタンを押す。スローイングの開始時に押すボタンとして、携帯端末１１Ａの物理的なボタンが用いられるようにしてもよいし、携帯端末１１Ａのディスプレイに表示されたボタンが用いられるようにしてもよい。

　ボタンを押しながら振りかぶり、携帯端末１１Ａを持つ腕を振ることに応じて、図３の中段に示すように、「ヒュー！」などの腕振り音がスピーカ２２Ａ－１から出力される。腕振り音は、ユーザＡが腕を振っていることを表現する効果音である。

　携帯端末１１Ａには、加速度センサなどの各種のセンサが搭載されている。ユーザＡの腕振り時の加速度が速いほど激しい音が鳴るといったように、腕振り音はユーザＡの腕振り時の加速度に応じて変化する。

　周波数、音量、音の種類などを加速度に応じて変化させることによって、腕振り音の変化が実現される。後述する他の効果音の変化も、周波数、音量、音の種類などのうちの少なくともいずれかの組み合わせを変化させることによって実現される。

　携帯端末１１Ａを持つ腕振りの途中でボタンを離した場合、図３の下段に示すように、「シュッ！」などのリリース音がスピーカ２２Ａ－１から出力される。ボタンを離すことは、実際のキャッチボールでいう、ボールを投げることに相当する。ボタンを離すことに応じて、仮想物体の移動が開始される。リリース音は、ユーザＡが仮想物体を投げたことを表現する効果音である。

　図４は、図３の効果音に続けて出力されるスローイング側の効果音の例を示す図である。

　ボタンを離すことによって仮想物体を投げた後、「ビューン！」などの飛翔音の出力が開始される。飛翔音は、ユーザＡが投げた仮想物体がユーザＢに向けて移動していることを表現する効果音である。

　図４の上段に示すように、ユーザＡがボタンを離した直後の時刻ｔ_Ａにおいては、ユーザＡに最も近い位置にあるスピーカ２２Ａ－１から飛翔音が出力される。図４の上から２段目、３段目、４段目にそれぞれ示すように、時刻ｔ_Ａの後の時刻ｔ_Ａ＋１、時刻ｔ_Ａ＋２、時刻ｔ_Ａ＋３の各時刻においては、スピーカ２２Ａ－２、スピーカ２２Ａ－３、スピーカ２２Ａ－４から飛翔音が出力される。

　このように、飛翔音の出力に用いるスピーカが、ユーザＡに近い位置にあるスピーカから、離れた位置にあるスピーカに順に切り替えられる。飛翔音の音源位置が移動することにより、ユーザＡがいる空間において、ユーザＡから遠ざかるように仮想物体が移動していること（飛んでいること）が表現される。

　仮想物体の速度が速いほど激しい音が鳴るといったように、飛翔音が仮想物体の速度に応じて変化する。例えば、ユーザＡがボタンを離すタイミングの直前と直後の所定の期間における加速度に基づいて、仮想物体の速度が情報処理装置２３Ａにより算出され、飛翔音の出力に反映される。

　また、飛翔音の出力に用いるスピーカの切り替えタイミングが仮想物体の速度に応じて変化する。例えば、仮想物体の速度が速いほど音源位置がより速く移動するように、飛翔音の出力に用いるスピーカがより速いタイミングで切り替えられる。

＜キャッチング側の効果音＞
　図５は、キャッチング側の効果音の例を示す図である。

　図５の例においては、キャッチングを行うユーザとしてユーザＢが示されている。ユーザＢの前方には、スピーカ２２Ｂ－１乃至２２Ｂ－４が順に並び、その先にコミュニケーション装置２１Ｂのディスプレイ３１Ｂが設けられる。

　キャッチング側の効果音の出力は、例えば、ユーザＡが仮想物体を投げたタイミングを基準として、映像と音声の遅延に相当する時間の経過後のタイミングで開始される。これにより、仮想物体を投げるユーザＡの映像がディスプレイ３１Ｂに表示されるのに合わせて、キャッチング側の効果音の出力が開始されることになる。このようなキャッチング側における効果音の出力開始のタイミングが例えば効果音制御サーバ１１２により制御される。

　キャッチング側の効果音として、「ピッ！」などのガイド音が断続的に３回出力される。図５の上段に示すように、キャッチング側における効果音の出力開始時刻である時刻ｔ_Ｂにおいては、ユーザＢから最も離れた位置にあるスピーカ２２Ｂ－４からガイド音が出力される。図５の上から２段目、３段目にそれぞれ示すように、時刻ｔ_Ｂの後の時刻ｔ_Ｂ＋１、時刻ｔ_Ｂ＋２の各時刻において、スピーカ２２Ｂ－３、スピーカ２２Ｂ－２からガイド音が出力される。

　３回のガイド音は、例えば一定の時間間隔（リズム）で出力される。仮想物体の速度が速いほど短い時間間隔で出力されるといったように、ガイド音の時間間隔が仮想物体の速度に応じて変化する。例えば、仮想物体を投げるときに携帯端末１１Ａにより計測された加速度の情報が、効果音制御サーバ１１２を介して情報処理装置２３Ａから情報処理装置２３Ｂに対して送信され、ガイド音の出力タイミングに反映される。

　このように、ガイド音の出力に用いられるスピーカが、ユーザＢから離れた位置にあるスピーカから、近い位置にあるスピーカに順に切り替えられる。ガイド音の音源位置が移動することにより、ユーザＢに近付くように移動する仮想物体が表現される。

　３回のガイド音の出力後の時刻ｔ_Ｂ＋３においてユーザＢが携帯端末１１Ｂのボタンを押した場合、図５の下段に示すように、「バシッ！」などのキャッチ音がスピーカ２２Ｂ－１から出力される。キャッチ音は、仮想物体をユーザＢがキャッチしたことを表現する効果音である。キャッチ時に押すボタンとして、携帯端末１１Ｂの物理的なボタンが用いられるようにしてもよいし、携帯端末１１Ｂのディスプレイに表示されたボタンが用いられるようにしてもよい。

　ユーザＢがボタンを押すタイミング、すなわち、仮想物体をキャッチするタイミングが適切なタイミングであるほど激しい音が出力されるといったように、キャッチ音は、ユーザＢによるキャッチングのタイミングに応じて変化する。例えば、３回目のガイド音の出力タイミングからユーザＢがボタンを押したタイミングまでの間隔が、ガイド音の時間間隔に近いほど、キャッチングのタイミングとして適切なタイミングとして判断される。情報処理装置２３Ｂにおいては、ユーザＢの操作に応じて、キャッチングのタイミングの適切さの程度が算出され、キャッチ音の出力に反映される。

　このように、ユーザＢは、ガイド音を聴いて、仮想物体のキャッチングのタイミングを計ることになる。ガイド音は、仮想物体が移動していることを表現するとともに、キャッチングのタイミングをガイドする効果音となる。ガイド音に合わせてキャッチングのタイミングを計ることによって、仮想キャッチボールにゲーム性が生じる。

　ユーザＢが仮想物体を仮想的にキャッチした場合、ユーザＡとユーザＢは役割を交代する。ユーザＢがスローイング側のユーザになり、ユーザＡがキャッチング側のユーザになることによって、仮想キャッチボールが続けられる。

　ユーザＢが仮想物体を投げた場合、図３、図４を参照して説明した効果音と同じ効果音が効果音用スピーカ２２Ｂを用いて情報処理装置２３Ｂにより出力される。また、ユーザＡがキャッチングを行う場合、図５を参照して説明した効果音と同じ効果音が効果音用スピーカ２２Ａを用いて情報処理装置２３Ａにより出力される。

＜効果音のまとめ＞
　図６は、以上のような効果音の種類を示す図である。

　図６の上段に示すように、腕振り音、リリース音、飛翔音が、スローイングを行うユーザの行動に応じた効果音として、スローイング側のユーザがいる空間において出力される。

　腕振り音が腕振り動作の加速度に応じて変化することにより、スローイングを行うユーザは、仮想物体の速度を認識することができる。

　また、仮想物体を投げたときに腕振り音の出力が停止し、リリース音と飛翔音が出力されることにより、スローイングを行うユーザは、仮想物体が自分の手元から放たれたことを認識することができる。

　一方、図６の下段に示すように、ガイド音とキャッチ音が、キャッチングを行うユーザの行動に応じた効果音として、キャッチング側のユーザがいる空間において出力される。例えば、ガイド音は、仮想物体が自分の場所に到達するのを待つという行動に応じた効果音である。キャッチ音は、仮想物体をキャッチするという行動に応じた効果音である。

　３回のガイド音が一定の時間間隔で断続的に出力されることにより、キャッチングを行うユーザは、仮想物体が自分の場所に到達するまでのおおよその時間を認識することができる。音源位置が移動するガイド音の出力中に、音源位置が固定のアンカー音が出力されるようにしてもよい。BGMなどのアンカー音が効果音用スピーカ２２のいずれかのスピーカから出力されることにより、キャッチングを行うユーザは、ガイド音とともにアンカー音を聴くことになる。これにより、ガイド音の音源位置の変化が強調され、仮想物体が到達するまでの時間の認識が容易になる。

　また、ボタンを押して仮想物体をキャッチしたときにキャッチ音が出力されることにより、キャッチングを行うユーザは、自分の手元に仮想物体が到達したことを認識することができる。

　このように、仮想キャッチボールシステム１においては、スローイング側のユーザがいる空間とキャッチング側のユーザがいる空間のそれぞれの空間において、異なる種類の効果音が、異なるタイミングで出力される。これにより、ユーザ間で移動する仮想物体のやりとり（キャッチボール）を、音だけで成立させることが可能となる。

　図３、図４の例においては、ユーザＡの立ち位置を基準として、スピーカ２２Ａ－４がディスプレイ３１Ａの前方の位置に設けられるものとしたが、ディスプレイ３１Ａの後方の位置に設けられるようにしてもよい。仮想物体を投げたときの飛翔音が、ディスプレイ３１Ａに映るユーザＢの後方から時刻ｔ_Ａ＋３において出力されることになるため、ユーザＢがいる空間に仮想物体が到達したことを表現することができる。

　図５の例においては、ユーザＢの立ち位置を基準として、スピーカ２２Ｂ－４がディスプレイ３１Ｂの前方の位置に設けられるものとしたが、ディスプレイ３１Ｂの後方の位置に設けられるようにしてもよい。１回目のガイド音が、ディスプレイ３１Ｂに映るユーザＡの後方から時刻ｔ_Ａにおいて出力されることになるため、ユーザＡがいる空間から仮想物体が移動してきたことを表現することができる。

　このように、ユーザの立ち位置から最も離れた位置にあるスピーカをディスプレイ３１の後方に設置することにより、効果音の音響効果を強調することが可能となる。

＜各空間で聞こえる音について＞
　図７は、仮想キャッチボールシステム１を実現するシステム構成の例を示す図である。

　図７に示すように、仮想キャッチボールシステム１は、テレプレゼンスシステム１５１と効果音システム１５２により構成される。テレプレゼンスシステム１５１は、コミュニケーション装置２１を用いたユーザ間のコミュニケーションを実現するシステムである。効果音システム１５２は、効果音の出力を制御するシステムである。

　図７の例においては、情報処理装置２３Ａと効果音用スピーカ２２Ａの間にはオーディオ機器２４Ａが設けられる。また、情報処理装置２３Ａは、アクセスポイント２５Ａを介してネットワーク１０１に接続される。オーディオ機器２４Ａとアクセスポイント２５Ａは、ユーザＡがいる空間に設けられるデバイスである。

　同様に、情報処理装置２３Ｂと効果音用スピーカ２２Ｂの間にはオーディオ機器２４Ｂが設けられる。また、情報処理装置２３Ｂは、アクセスポイント２５Ｂを介してネットワーク１０１に接続される。オーディオ機器２４Ｂとアクセスポイント２５Ｂは、ユーザＢがいる空間に設けられるデバイスである。

　このように、効果音の出力は、ユーザ間のコミュニケーションを実現するシステムとは別のシステムによって制御される。ユーザＡとユーザＢは、それぞれ、テレプレゼンスシステム１５１の音と効果音システム１５２の音を聴くことになる。

　具体的には、ユーザＡは、効果音用スピーカ２２Ａから出力される効果音とともに、コミュニケーション装置２１Ａのスピーカ３４Ａから出力されるテレプレゼンスシステム１５１経由の音を聴くことになる。例えばユーザＢがいる空間で出力された効果音がコミュニケーション装置２１Ｂのマイク３３Ｂによって集音されたタイミングでは、その効果音が、テレプレゼンスシステム１５１経由の音としてコミュニケーション装置２１Ａのスピーカ３４Ａから聞こえる。

　反対に、ユーザＢは、効果音用スピーカ２２Ｂから出力される効果音とともに、コミュニケーション装置２１Ｂのスピーカ３４Ｂから出力されるテレプレゼンスシステム１５１経由の音を聴くことになる。例えばユーザＡがいる空間で出力された効果音がコミュニケーション装置２１Ａのマイク３３Ａによって集音されたタイミングでは、その効果音が、テレプレゼンスシステム１５１経由の音としてコミュニケーション装置２１Ｂのスピーカ３４Ｂから聞こえる。

　図８乃至図１２を参照して、仮想キャッチボール中の各タイミングで聞こえる音について説明する。ここでも、上述したようにユーザＡがスローイング側のユーザであり、ユーザＢがキャッチング側のユーザであるものとする。

・腕振りのタイミング
　図８は、ユーザＡの腕振り時に聞こえる音を示す図である。

　吹き出し＃２１に示すように、携帯端末１１Ａを持つ腕をユーザＡが振った場合、吹き出し＃２２に示すように腕振り音が効果音用スピーカ２２Ａから出力される。ユーザＡは、目の前にある効果音用スピーカ２２Ａから出力された腕振り音を聴くことになる。

　効果音用スピーカ２２Ａから出力された腕振り音は、吹き出し＃２３に示すようにコミュニケーション装置２１Ａのマイク３３Ａによって集音され、吹き出し＃２４に示すように、テレプレゼンスシステム１５１経由の音としてコミュニケーション装置２１Ｂのスピーカ３４Ｂから出力される。ユーザＢは、テレプレゼンスシステム１５１経由の腕振り音によって、ユーザＡが腕を振ったことを認識することができる。

・仮想物体を投げたタイミング
　図９は、仮想物体を投げた時に聞こえる音を示す図である。

　吹き出し＃３１に示すように、携帯端末１１Ａのボタンを離してユーザＡが仮想物体を投げた場合、吹き出し＃３２に示すようにリリース音が効果音用スピーカ２２Ａから出力される。ユーザＡは、目の前にある効果音用スピーカ２２Ａから出力されたリリース音を聴くことになる。

　効果音用スピーカ２２Ａから出力されたリリース音は、吹き出し＃３３に示すようにコミュニケーション装置２１Ａのマイク３３Ａによって集音され、吹き出し＃３４に示すように、テレプレゼンスシステム１５１経由の音としてコミュニケーション装置２１Ｂのスピーカ３４Ｂから出力される。ユーザＢは、テレプレゼンスシステム１５１経由のリリース音によって、ユーザＡが仮想物体を投げたことを認識することができる。

　テレプレゼンスシステム１５１上で送受信される映像の遅延と音声の遅延が同じである場合、仮想物体を投げているユーザＡの姿が映る映像の表示タイミングと同じタイミングで、リリース音がスピーカ３４Ｂから出力される。

・仮想物体を投げた後１
　図１０は、仮想物体を投げた後に聞こえる音を示す図である。

　ユーザＡが仮想物体を投げた後、吹き出し＃４１に示すように飛翔音が効果音用スピーカ２２Ａから出力される。ユーザＡは、自分から遠ざかるように音源位置が移動する飛翔音によって、仮想物体が離れていくことを認識することができる。

　効果音用スピーカ２２Ａから出力された飛翔音は、吹き出し＃４２に示すようにコミュニケーション装置２１Ａのマイク３３Ａによって集音され、吹き出し＃４３に示すように、テレプレゼンスシステム１５１経由の音としてコミュニケーション装置２１Ｂのスピーカ３４Ｂから出力される。ユーザＢは、テレプレゼンスシステム１５１経由の飛翔音によって、ユーザＡがいる空間において仮想物体が移動していることを認識することができる。

・仮想物体を投げた後２
　図１１は、仮想物体を投げた後に聞こえる他の音を示す図である。

　ユーザＡが仮想物体を投げた後、吹き出し＃５１に示すように、ガイド音が効果音用スピーカ２２Ｂから出力される。ユーザＢは、音源位置が移動するガイド音によって、仮想物体が近付いていることを認識することができる。

　効果音用スピーカ２２Ｂから出力されたガイド音は、吹き出し＃５２に示すようにコミュニケーション装置２１Ｂのマイク３３Ｂによって集音され、吹き出し＃５３に示すように、テレプレゼンスシステム１５１経由の音としてコミュニケーション装置２１Ａのスピーカ３４Ａから出力される。ユーザＡは、テレプレゼンスシステム１５１経由のガイド音によって、ユーザＢがいる空間において仮想物体が移動していることを認識することができる。

・キャッチングのタイミング
　図１２は、ユーザＢのキャッチング時に聞こえる音を示す図である。

　吹き出し＃６１に示すように、携帯端末１１Ｂのボタンを押してユーザＢがキャッチングを行った場合、吹き出し＃６２に示すようにキャッチ音が効果音用スピーカ２２Ｂから出力される。ユーザＢは、目の前にある効果音用スピーカ２２Ｂから出力されたキャッチ音を聴くことになる。

　効果音用スピーカ２２Ｂから出力されたキャッチ音は、吹き出し＃６３に示すようにコミュニケーション装置２１Ｂのマイク３３Ｂによって集音され、吹き出し＃６４に示すように、テレプレゼンスシステム１５１経由の音としてコミュニケーション装置２１Ａのスピーカ３４Ａから出力される。ユーザＡは、テレプレゼンスシステム１５１経由のキャッチ音によって、ユーザＢが仮想物体をキャッチしたことを認識することができる。

・映像と音の入出力の時系列
　図１３は、映像と音の入出力の時系列を示す図である。

　図１３の左側が、ユーザＡがいる空間における映像と音の入出力を示す。図１３の左端にはユーザＡの行動と携帯端末１１Ａの操作のタイミングが示されている。図１３には、ユーザＡが仮想物体をキャッチしたタイミングを基準として、それ以降の映像と音の入出力の時系列が示されている。

　また、図１３の右側が、ユーザＢがいる空間における映像と音の入出力を示す。図１３の右端にはユーザＢの行動と携帯端末１１Ｂの操作のタイミングが示されている。

　時刻ｔ０においてユーザＡが仮想物体をキャッチした場合、効果音用スピーカ２２Ａからキャッチ音が出力される。効果音用スピーカ２２Ａから出力されたキャッチ音は、破線矢印Ａ１の先に示すようにコミュニケーション装置２１Ａのマイク３３Ａにより集音される。このとき、仮想物体をキャッチしたユーザＡの姿が、矢印Ａ２の先に示すようにコミュニケーション装置２１Ａのカメラ３２Ａにより撮影される。

　仮想物体をキャッチしたことに続けて、ユーザＡが振りかぶりって腕を振った場合、効果音用スピーカ２２Ａから腕振り音が出力される。効果音用スピーカ２２Ａから出力された腕振り音は、破線矢印Ａ３の先に示すようにコミュニケーション装置２１Ａのマイク３３Ａにより集音される。図示を省略しているが、このとき、腕を振っているユーザＡの姿が、コミュニケーション装置２１Ａのカメラ３２Ａにより撮影される。腕振り音の出力等は、ユーザＡがボタンを離す時刻ｔ１まで続けられる。

　ユーザＢがいる空間においては、矢印Ａ１１に示すように、時刻ｔ０から、テレプレゼンスシステム１５１の遅延に相当する時間だけ遅れたタイミングで、仮想物体をキャッチしたユーザＡの姿（映像）がコミュニケーション装置２１Ｂに表示される。このとき、コミュニケーション装置２１Ｂのスピーカ３４Ｂからは、テレプレゼンスシステム１５１経由のキャッチ音が出力される。

　その後、振りかぶって腕を振っているユーザＡの姿がコミュニケーション装置２１Ｂに表示される。コミュニケーション装置２１Ｂのスピーカ３４Ｂからは、テレプレゼンスシステム１５１経由の腕振り音が出力される。

　時刻ｔ１において、ユーザＡが携帯端末１１Ａのボタンを離し、仮想物体を投げた場合、効果音用スピーカ２２Ａを用いた飛翔音の出力が開始される。この例においては、リリース音の出力の図示が省略されている。効果音用スピーカ２２Ａから出力された飛翔音は、破線矢印Ａ４の先に示すようにコミュニケーション装置２１Ａのマイク３３Ａにより集音される。このとき、仮想物体を投げたユーザＡの姿が、矢印Ａ５の先に示すようにコミュニケーション装置２１Ａのカメラ３２Ａにより撮影される。

　ユーザＢがいる空間においては、矢印Ａ１２に示すように、時刻ｔ１から、テレプレゼンスシステム１５１の遅延に相当する時間だけ遅れたタイミングで、仮想物体を投げるユーザＡの姿がコミュニケーション装置２１Ｂに表示される。このとき、コミュニケーション装置２１Ｂのスピーカ３４Ｂからは、テレプレゼンスシステム１５１経由の飛翔音が出力される。

　図１３の例においては、矢印Ａ１３に示すように、ユーザＡが仮想物体を投げた時刻ｔ１から、効果音システム１５２の遅延に相当する時間だけ遅れたタイミングで、効果音用スピーカ２２Ｂを用いたガイド音の出力が開始されている。効果音システム１５２の遅延は、スローイング側のユーザが仮想物体を投げてから、そのことを示す情報がキャッチング側の情報処理装置２３に到達するまでの時間となる。

　ガイド音の出力開始のタイミングは、所定の調整値を用いて調整される。効果音用スピーカ２２Ｂから出力されたガイド音は、破線矢印Ａ１４の先に示すようにコミュニケーション装置２１Ｂのマイク３３Ｂにより集音される。

　ユーザＡがいる空間においては、時刻ｔ２において、コミュニケーション装置２１Ａのスピーカ３４Ａから、テレプレゼンスシステム１５１経由のガイド音が出力される。時刻ｔ２のタイミングは、矢印Ａ６に示すように、ユーザＢがいる空間においてガイド音の出力が開始されたタイミングから、テレプレゼンスシステム１５１の遅延に相当する時間だけ遅れたタイミングとなる。

　時刻ｔ３においてユーザＢが仮想物体をキャッチした場合、効果音用スピーカ２２Ｂからキャッチ音が出力される。効果音用スピーカ２２Ｂから出力されたキャッチ音は、破線矢印Ａ１５の先に示すようにコミュニケーション装置２１Ｂのマイク３３Ａにより集音される。

　ユーザＡがいる空間においては、矢印Ａ７に示すように、時刻ｔ３から、テレプレゼンスシステム１５１の遅延に相当する時間だけ遅れたタイミングで、テレプレゼンスシステム１５１経由のキャッチ音が出力される。図示を省略しているが、仮想物体をキャッチしたユーザＢの姿は、コミュニケーション装置２１Ｂのカメラ３２Ｂにより撮影され、コミュニケーション装置２１Ａに表示される。

　このように、ユーザＡとユーザＢは、それぞれ、自分の行動や相手の行動に応じたテレプレゼンスシステム１５１の音と効果音システム１５２の音を聴くことになる。

　図１４は、それぞれのユーザが聴く音の音空間の例を示す図である。

　図１４に示すように、ユーザＡの音空間においては、スローイング側の効果音として腕振り音、リリース音、飛翔音が出力される。また、ユーザＢの音空間においては、キャッチング側の効果音としてガイド音とキャッチ音が出力される。

　それぞれのユーザがいる空間が離れた場所にあり音空間が分離している場合において、それぞれ異なる種類の効果音が異なるタイミングでそれぞれの音空間において出力されることにより、効果音が二重に聞こえてしまうことを防ぐことが可能となる。

　例えば、図１５に示すように、同じ効果音を用いて仮想物体の移動を表現する場合を考える。ユーザＡが仮想物体を投げたことに応じて、飛翔音が同じタイミングでそれぞれの音空間において出力される。

　この場合、ユーザＡの音空間に注目すると、ユーザＡが仮想物体を投げたことに応じて、飛翔音が効果音用スピーカ２２Ａから出力される。また、テレプレゼンスシステム１５１経由の飛翔音（ユーザＢがいる空間で出力され、コミュニケーション装置２１Ｂのマイク３３Ｂにより集音された飛翔音）がコミュニケーション装置２１Ａのスピーカ３４Ａから出力される。

　ユーザＡの音空間においては、ユーザＡの音空間で出力された飛翔音と、ユーザＢの音空間で出力された飛翔音が、テレプレゼンスシステム１５１の遅延に相当する時間だけずれたタイミングで二重に聞こえることになる。図１５の下方において色が異なる菱形を重ねて示していることは、飛翔音が二重に聞こえることを示す。

　同様に、ユーザＢの音空間に注目すると、ユーザＡが仮想物体を投げたことに応じて、飛翔音が効果音用スピーカ２２Ｂから出力される。また、テレプレゼンスシステム１５１経由の飛翔音（ユーザＡがいる空間で出力され、コミュニケーション装置２１Ａのマイク３３Ａにより集音された飛翔音）がコミュニケーション装置２１Ｂのスピーカ３４Ｂから出力される。

　ユーザＢの音空間においては、ユーザＢの音空間で出力された飛翔音と、ユーザＡの音空間で出力された飛翔音が、テレプレゼンスシステム１５１の遅延に相当する時間だけずれたタイミングで二重に聞こえることになる。

　異なる種類の効果音を異なるタイミングでそれぞれの音空間において分離して出力させることにより、効果音が二重に聞こえてしまうことを防ぐことが可能となる。すなわち、離れた場所にいるユーザ同士の動作に応じた効果音を適切に出力させることが可能となる。ユーザは、スローイング側の効果音とキャッチング側の効果音を聞き分け、臨場感のある仮想キャッチボールを楽しむことができる。

＜＜各装置の構成例＞＞
＜テレプレゼンスシステム１５１の構成＞
　図１６は、テレプレゼンスシステム１５１を実現する各装置の機能構成例を示すブロック図である。図１６に示す各機能部は、それぞれの装置を構成するコンピュータのCPUが所定のプログラムを実行することによって実現される。重複する説明については適宜省略する。

・制御装置２０１の構成
　コミュニケーション装置２１Ａの全体の動作を制御する制御装置２０１Ａにおいては、映像取得部２１１Ａ、音声取得部２１２Ａ、表示制御部２１３Ａ、音声出力制御部２１４Ａ、および通信制御部２１５Ａが実現される。

　映像取得部２１１Ａは、カメラ３２Ａにより撮影された、ユーザＡが映る映像を取得し、通信制御部２１５Ａに出力する。

　音声取得部２１２Ａは、マイク３３Ａにより集音された、ユーザＡがいる空間で聞こえる音を取得し、通信制御部２１５Ａに出力する。

　表示制御部２１３Ａは、通信制御部２１５Ａにおいて受信された映像をディスプレイ３１Ａに表示させる。通信制御部２１５Ａにおいては、コミュニケーション装置２１Ｂから送信されてきた映像のデータが受信される。コミュニケーション装置２１Ｂから送信されてきた映像にはユーザＢが映っている。

　音声出力制御部２１４Ａは、通信制御部２１５Ａにおいて受信された音声をスピーカ３４Ａから出力させる。通信制御部２１５Ａにおいては、コミュニケーション装置２１Ｂから送信されてきた音声のデータが受信される。コミュニケーション装置２１Ｂから送信されてきた音声には、ユーザＢの音声、ユーザＢがいる空間で聞こえる効果音などが含まれる。

　通信制御部２１５Ａは、コミュニケーション管理サーバ１１１との間の通信を制御する。通信制御部２１５Ａは、映像取得部２１１Ａから供給された映像のデータと音声取得部２１２Ａから供給された音声のデータをコミュニケーション管理サーバ１１１に送信する。

　また、通信制御部２１５Ａは、コミュニケーション管理サーバ１１１を介してコミュニケーション装置２１Ｂから送信されてきた映像のデータを受信し、表示制御部２１３Ａに出力する。通信制御部２１５Ａは、コミュニケーション管理サーバ１１１を介してコミュニケーション装置２１Ｂから送信されてきた音声のデータを受信し、音声出力制御部２１４Ａに出力する。

　コミュニケーション装置２１Ｂの全体の動作を制御する制御装置２０１Ｂにおいては、映像取得部２１１Ｂ、音声取得部２１２Ｂ、表示制御部２１３Ｂ、音声出力制御部２１４Ｂ、および通信制御部２１５Ｂが実現される。制御装置２０１Ｂの各機能部は、対応する制御装置２０１Ａの機能部と同様の機能を有する。

・コミュニケーション管理サーバ１１１の構成
　コミュニケーション管理サーバ１１１においては通信制御部２２１が実現される。通信制御部２２１は、制御装置２０１Ａから送信されてきた映像と音声のデータを受信し、制御装置２０１Ｂに送信する。また、通信制御部２２１は、制御装置２０１Ｂから送信されてきた映像と音声のデータを受信し、制御装置２０１Ａに送信する。

＜効果音システム１５２の構成＞
　図１７は、効果音システム１５２を実現する各装置の機能構成例を示すブロック図である。図１７に示す各機能部は、それぞれの装置を構成するコンピュータのCPUが所定のプログラムを実行することによって実現される。重複する説明については適宜省略する。

・情報処理装置２３の構成
　情報処理装置２３Ａにおいては、センサデータ取得部２３１Ａ、操作検出部２３２Ａ、効果音出力制御部２３３Ａ、および通信制御部２３４Ａが実現される。

　センサデータ取得部２３１Ａは、ユーザＡが持つ携帯端末１１Ａとの間で通信を行い、携帯端末１１Ａに搭載された加速度センサなどの各種のセンサにより計測されたセンサデータを取得する。センサデータ取得部２３１Ａにより取得されたセンサデータは効果音出力制御部２３３Ａと通信制御部２３４Ａに供給される。

　操作検出部２３２Ａは、ユーザＡが持つ携帯端末１１Ａとの間で通信を行い、ユーザＡによるボタン操作を検出する。上述したように、スローイングの開始時、リリース時、キャッチング時などにおいて、携帯端末１１Ａのボタンがユーザによって操作される。操作検出部２３２Ａにより検出されたユーザの操作の内容を示す情報は効果音出力制御部２３３Ａと通信制御部２３４Ａに供給される。

　効果音出力制御部２３３Ａは、効果音用スピーカ２２Ａの各スピーカを駆動し、ユーザＡがいる空間における効果音の出力を制御する。

　例えば、ユーザＡがスローイング側のユーザとしてボタンを押した場合、効果音出力制御部２３３Ａは、ボタンを離すまでの加速度に応じて腕振り音を出力させる。また、ユーザＡがボタンを離すことによって仮想物体を投げた場合、効果音出力制御部２３３Ａは、仮想物体の速度を加速度に基づいて算出し、仮想物体の速度に応じた飛翔音を出力させる。

　また、ユーザＡがキャッチング側のユーザである場合、効果音出力制御部２３３Ａは、ユーザＢが仮想物体を投げたことに応じて、ガイド音の出力を開始させる。ユーザＢが仮想物体を投げた場合、仮想物体を投げたタイミングを示す情報と加速度の情報が通信制御部２３４Ａにおいて受信され、効果音出力制御部２３３Ａに対して供給される。また、ユーザＡがボタンを押すことによって仮想物体をキャッチした場合、効果音出力制御部２３３Ａは、キャッチ音を出力させる。

　通信制御部２３４Ａは、効果音制御サーバ１１２との間の通信を制御する。通信制御部２３４Ａは、スローイングを行うユーザＡがボタンを離した場合、仮想物体を投げたタイミングを示す情報を、センサデータ取得部２３１から供給された加速度の計測結果の情報とともに効果音制御サーバ１１２に送信する。通信制御部２３４Ａが送信した情報は、効果音制御サーバ１１２を介して情報処理装置２３Ｂに対して送信される。通信制御部２３４Ａは、仮想物体を投げたタイミングを示す情報などの各種の情報を他の情報処理装置である情報処理装置２３Ｂに対して送信する通信制御部として機能する。

　また、通信制御部２３４Ａは、ユーザＢが仮想物体を投げたことに応じて、仮想物体を投げたタイミングを示す情報と加速度の情報が効果音制御サーバ１１２から送信されてきた場合、それを受信し、効果音出力制御部２３３Ａに出力する。

　情報処理装置２３Ｂにおいては、センサデータ取得部２３１Ｂ、操作検出部２３２Ｂ、効果音出力制御部２３３Ｂ、および通信制御部２３４Ｂが実現される。情報処理装置２３Ｂの各機能部は、対応する情報処理装置２３Ａの機能部と同様の機能を有する。

・効果音制御サーバ１１２の構成
　効果音制御サーバ１１２においては制御部２５１と通信制御部２５２が実現される。

　制御部２５１は、通信制御部２５２を制御し、情報処理装置２３Ａと情報処理装置２３Ｂの間の情報の送受信を制御する。

　例えば、制御部２５１は、ユーザＡが仮想物体を投げたタイミングを示す情報と加速度の情報が情報処理装置２３Ａから送信されてきた場合、それらの情報を情報処理装置２３Ｂに送信させる。また、制御部２５１は、ユーザＢが仮想物体を投げたタイミングを示す情報と加速度の情報が情報処理装置２３Ｂから送信されてきた場合、それらの情報を情報処理装置２３Ａに送信させる。仮想物体を投げたタイミングを示す情報などの送信タイミングが、テレプレゼンスシステム１５１の遅延などに応じて制御部２５１により制御される。

　制御部２５１は、ユーザＡの行動に応じた効果音を、ユーザＡがいる空間に設けられた効果音用スピーカ２２Ａから出力させ、ネットワークを介して送受信される映像と音声を用いたコミュニケーションをユーザＡとの間で行うユーザＢの行動に応じた効果音を、ユーザＢがいる空間に設けられた効果音用スピーカ２２Ｂから出力させる制御部として機能する。制御部２５１を有する効果音制御サーバ１１２は制御装置として機能する。

　通信制御部２５２は、制御部２５１の制御に従って、情報処理装置２３Ａから送信されてきた情報を情報処理装置２３Ｂに送信する。また、通信制御部２５２は、情報処理装置２３Ｂから送信されてきた情報を情報処理装置２３Ａに送信する。

＜＜各装置の動作＞＞
　ここで、効果音システム１５２の各装置の動作について説明する。なお、仮想キャッチボールをユーザＡとユーザＢが行っている間、テレプレゼンスシステム１５１においては映像と音声の送受信が続けられる。

＜スローイング側の動作＞
　はじめに、図１８のフローチャートを参照して、スローイング側の情報処理装置２３の処理について説明する。スローイング側のユーザがユーザＡである場合について説明する。図１８の処理は、例えば、ユーザＡが携帯端末１１Ａのボタンを押したときに開始される。

　ステップＳ１において、センサデータ取得部２３１Ａは、携帯端末１１Ａから送信された、加速度の計測結果を示すセンサデータを取得する。

　ステップＳ２において、効果音出力制御部２３３Ａは、加速度に応じた腕振り音を効果音用スピーカ２２Ａから出力させる。

　ステップＳ３において、効果音出力制御部２３３Ａは、操作検出部２３２Ａから供給された情報に基づいて、ユーザＡがボタンを離したか否かを判定する。ユーザＡがボタンを離していないと判定された場合、ステップＳ１に戻り、それ以降の処理が繰り返される。

　ユーザＡがボタンを離したとステップＳ３において判定された場合、ステップＳ４に進み、効果音出力制御部２３３Ａは、リリース音を効果音用スピーカ２２Ａから出力させる。

　ステップＳ５において、効果音出力制御部２３３Ａは、仮想物体の速度を加速度に基づいて算出する。

　ステップＳ６において、効果音出力制御部２３３Ａは、速度に応じたタイミングで、飛翔音を効果音用スピーカ２２Ａから出力させる。

　ステップＳ７において、通信制御部２３４Ａは、ユーザＡが仮想物体を投げたタイミングを示す情報と加速度の情報を効果音制御サーバ１１２に送信する。

＜キャッチング側の動作＞
　次に、図１９のフローチャートを参照して、キャッチング側の情報処理装置２３の処理について説明する。キャッチング側のユーザがユーザＢである場合について説明する。図１９の処理は、例えば、ユーザＡが仮想物体を投げたタイミングを示す情報などが、効果音制御サーバ１１２を介して送信されてきたときに開始される。

　ステップＳ１１において、効果音出力制御部２３３Ｂは、情報処理装置２３Ａにおいて取得された加速度に基づいて仮想物体の速度を算出し、速度に応じたタイミングで、ガイド音を効果音用スピーカ２２Ｂから出力させる。

　ステップＳ１２において、効果音出力制御部２３３Ｂは、操作検出部２３２Ｂから供給された情報に基づいて、ユーザＢがボタンを押したか否かを判定する。ユーザＢがボタンを押していないと判定された場合、ステップＳ１１に戻り、それ以降の処理が繰り返される。

　一方、ユーザＢがボタンを押したとステップＳ１２において判定した場合、ステップＳ１３において、効果音出力制御部２３３Ｂは、キャッチ音を効果音用スピーカ２２Ｂから出力させる。

＜効果音制御サーバ１１２の動作＞
　次に、図２０のフローチャートを参照して、効果音制御サーバ１１２の処理について説明する。

　ステップＳ２１において、通信制御部２５２は、スローイング側の情報処理装置２３から送信されてきた情報を受信する。

　ステップＳ２２において、通信制御部２５２は、映像と音声の遅延に応じたタイミングで、受信した情報をキャッチング側の情報処理装置２３に対して送信する。

　以上の一連の処理により、ユーザは、スローイング側の効果音とキャッチング側の効果音を聞き分け、臨場感のある仮想キャッチボールを楽しむことができる。

＜＜変形例＞＞
＜システム構成の例＞
　図２１は、仮想キャッチボールシステム１の他の構成例を示す図である。

　図２１の例においては、テレプレゼンスシステム１５１と効果音システム１５２が連携可能となっている点で、図７等を参照して説明した仮想キャッチボールシステム１の構成と異なる。矢印Ａ１０１に示すように、テレプレゼンスシステム１５１のコミュニケーション管理サーバ１１１から効果音システム１５２の効果音制御サーバ１１２に対して、映像と音声の遅延に関する情報である遅延情報が送信される。

　効果音制御サーバ１１２の制御部２５１は、コミュニケーション管理サーバ１１１から送信されてきた遅延情報を受信し、一方の情報処理装置２３から送信されてきた情報の、他方の情報処理装置２３に対する送信タイミングを制御する。

　例えば、仮想物体を投げるユーザの姿が表示された後にガイド音の出力が開始されるように、キャッチング側におけるガイド音の出力開始タイミングを規定する上述した調整値が遅延情報に基づいて設定される。

　図２２は、仮想キャッチボールシステム１の他の構成例を示す図である。

　以上においては、情報処理装置２３がクライアントとなり、仮想物体を投げたタイミングを示す情報などの送受信が効果音制御サーバ１１２を介して行われるものとしたが、情報処理装置２３Ａと情報処理装置２３Ｂのうちの一方がマスタ、他方がスレーブとして動作して、上述した処理が行われるようにしてもよい。

　図２２の例においては、情報処理装置２３Ａがマスタ、情報処理装置２３Ｂがスレーブとして動作する。情報処理装置２３Ａは、ユーザＡがいる空間における効果音の出力を上述したようにして制御する。また、情報処理装置２３Ａは、スレーブとして機能する情報処理装置２３Ｂに対してコマンドを送信し、ユーザＢがいる空間における効果音の出力を制御する。コマンドの送信タイミングは、情報処理装置２３Ａと情報処理装置２３Ｂの間の遅延を考慮して調整される。情報処理装置２３Ａは、ユーザＡがいる空間における効果音の出力とユーザＢがいる空間における効果音の出力を制御する制御装置として機能する。

　図２３は、仮想キャッチボールシステム１の他の構成例を示す図である。

　図２３の例においては、情報処理装置２３Ａの機能がコミュニケーション装置２１Ａに搭載され、情報処理装置２３Ｂの機能がコミュニケーション装置２１Ｂに搭載される。例えば、図１７を参照して説明したコミュニケーション装置２１Ａの各機能部が、図１６の制御装置２０１Ａに設けられる。また、コミュニケーション装置２１Ｂの各機能部が、図１６の制御装置２０１Ｂに設けられる。

　このように、テレプレゼンスシステム１５１のユーザＡ側の構成と効果音システム１５２のユーザＡ側の構成を一つの装置に設けるとともに、テレプレゼンスシステム１５１のユーザＢ側の構成と効果音システム１５２のユーザＢ側の構成を一つの装置に設けるようにすることが可能である。

　情報処理装置２３の機能が携帯端末１１に設けられるようにすることが可能である。この場合、情報処理装置２３の機能を有する携帯端末１１は、効果音制御サーバ１１２と通信を行い、仮想物体を投げたタイミングを示す情報の送受信などを行うことになる。

　また、効果音制御サーバ１１２が送信するコマンドに従って、スローイング側の効果音とキャッチング側の効果音のそれぞれの効果音の出力が情報処理装置２３により行われるようにしてもよい。例えば、仮想物体をユーザが投げた場合、そのことを表す情報がスローイング側の情報処理装置２３から効果音制御サーバ１１２に対して送信され、効果音制御サーバ１１２が送信するコマンドに従って、飛翔音の出力が開始される。

＜その他の例＞
　ユーザが使用するデバイスがスマートフォンなどの端末であるものとしたが、加速度センサを搭載した専用のセンサデバイスが用いられるようにしてもよい。専用のセンサデバイスに触覚センサが設けられる場合、ユーザ自身の動作や相手の動作に応じた振動などがセンサデバイスを持っているユーザに与えられるようにしてもよい。

　効果音の出力用のスピーカとして複数台のスピーカが設けられるものとしたが、効果音用スピーカ２２が１台のスピーカによって構成されるようにしてもよい。この場合、仮想的な音源位置を移動させることによって、上述したような、飛翔音やガイド音の音源位置の移動が実現される。

　スローイングやキャッチングなどのユーザの行動が、携帯端末１１のボタン操作に基づいて検出されるものとしたが、ユーザが装着するセンサによる計測結果に基づいて検出されるようにしてもよい。また、カメラにより撮影された映像を解析することによってユーザの行動が検出されるようにしてもよい。

　以上においては、スローイング側のユーザがいる空間において出力される効果音が腕振り音、リリース音、飛翔音の３種類の効果音であり、キャッチング側のユーザがいる空間において出力される効果音がガイド音とキャッチ音の２種類の効果音であるものとしたが、それぞれの空間において出力されるこの効果音の組み合わせは一例である。

　例えば、スローイング側のユーザがいる空間において腕振り音とリリース音の２種類の効果音が出力され、キャッチング側のユーザがいる空間において飛翔音、ガイド音、キャッチ音の３種類の効果音が出力されるようにすることが可能である。飛翔音がスローイング側のユーザがいる空間とキャッチング側のユーザがいる空間のいずれかの空間において出力されるといったように、それぞれの空間において出力される効果音の組み合わせを任意の組み合わせとすることが可能である。

・コンピュータの構成例
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図２４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。情報処理装置２３、コミュニケーション管理サーバ１１１、効果音制御サーバ１１２、制御装置２０１は、図２４に示す構成と同様の構成を有する。

　CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。

　バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、キーボード、マウスなどよりなる入力部１００６、ディスプレイ、スピーカなどよりなる出力部１００７が接続される。また、入出力インタフェース１００５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１００８、ネットワークインタフェースなどよりなる通信部１００９、リムーバブルメディア１０１１を駆動するドライブ１０１０が接続される。

　以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを入出力インタフェース１００５及びバス１００４を介してRAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　CPU１００１が実行するプログラムは、例えばリムーバブルメディア１０１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１００８にインストールされる。

　コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる
　制御部を備える
　制御装置。
（２）
　前記制御部は、前記第１の効果音と前記第２の効果音をそれぞれ異なるタイミングで出力させる
　前記（１）に記載の制御装置。
（３）
　前記制御部は、
　前記第１のユーザがいる空間において移動する仮想物体を表現する音を前記第１の効果音として出力させ、
　前記第２のユーザがいる空間において移動する前記仮想物体を表現する音を前記第２の効果音として出力させる
　前記（１）または（２）に記載の制御装置。
（４）
　前記第１の効果音用スピーカと前記第２の効果音用スピーカは、それぞれ複数のスピーカから構成され、
　前記制御部は、
　前記第１のユーザから離れる前記仮想物体を表現する前記第１の効果音を出力させるスピーカを、前記第１のユーザに近い位置にあるスピーカから、前記第１のユーザから遠い位置にあるスピーカに順に切り替え、
　前記第２のユーザに近付く前記仮想物体を表現する前記第２の効果音を出力させるスピーカを、前記第２のユーザから遠い位置にあるスピーカから、前記第２のユーザに近い位置にあるスピーカに順に切り替える
　前記（３）に記載の制御装置。
（５）
　前記制御部は、前記第１のユーザの行動に応じた行動を前記第２のユーザが行う場合、前記映像と前記音声の遅延に応じて、前記第２の効果音の出力タイミングを遅延させる
　前記（１）乃至（４）のいずれかに記載の制御装置。
（６）
　前記制御部は、前記第１のユーザがいる空間と前記第２のユーザがいる空間にそれぞれ設けられたコミュニケーション装置間における前記映像と前記音声の送受信を制御するサーバから、前記映像と前記音声の遅延に関する情報を取得する
　前記（５）に記載の制御装置。
（７）
　制御装置が、
　第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる
　制御方法。
（８）
　コンピュータに、
　第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる
　処理を実行させるプログラム。
（９）
　第１のユーザの行動を検出する検出部と、
　前記第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させる出力制御部と、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる他の情報処理装置に対して、前記第１のユーザが所定の行動をとったタイミングを示す情報を送信する通信制御部と
　を備える情報処理装置。
（１０）
　前記検出部は、前記第１のユーザが持つデバイスから送信されてきた情報に基づいて、前記第１のユーザの行動を検出する
　前記（９）に記載の情報処理装置。
（１１）
　前記出力制御部は、前記第２の効果音の出力タイミングと異なるタイミングで前記第１の効果音を出力させる
　前記（９）または（１０）に記載の情報処理装置。
（１２）
　前記出力制御部は、前記第１のユーザがいる空間において移動する仮想物体を表現する音を前記第１の効果音として出力させる
　前記（９）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　前記第１の効果音用スピーカは複数のスピーカから構成され、
　前記出力制御部は、
　前記第１のユーザから離れる前記仮想物体を表現する前記第１の効果音を出力させるスピーカを、前記第１のユーザに近い位置にあるスピーカから、前記第１のユーザから遠い位置にあるスピーカに順に切り替える
　前記（１２）に記載の情報処理装置。
（１４）
　情報処理装置が、
　第１のユーザの行動を検出し、
　前記第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる他の情報処理装置に対して、前記第１のユーザが所定の行動をとったタイミングを示す情報を送信する
　情報処理方法。
（１５）
　コンピュータに、
　第１のユーザの行動を検出し、
　前記第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる他の情報処理装置に対して、前記第１のユーザが所定の行動をとったタイミングを示す情報を送信する
　処理を実行させるプログラム。

　１　仮想キャッチボールシステム，　１１Ａ，１１Ｂ　携帯端末，　２１Ａ，２１Ｂ　コミュニケーション装置，　２２Ａ，２２Ｂ　効果音用スピーカ，　２３Ａ，２３Ｂ　情報処理装置，　３１Ａ，３１Ｂ　ディスプレイ，　３２Ａ，３２Ｂ　カメラ，　３３Ａ，３３Ｂ　マイク，　３４Ａ，３４Ｂ　マイク，　１１１　コミュニケーション管理サーバ，　１１２　効果音制御サーバ，　１５１　テレプレゼンスシステム，　１５２　効果音システム，　２０１Ａ，２０１Ｂ　制御装置，　２１１Ａ，２１１Ｂ　映像取得部，　２１２Ａ，２１２Ｂ　音声取得部，　２１３Ａ，２１３Ｂ　表示制御部，　２１４Ａ，２１４Ｂ　音声出力制御部，　２３１Ａ，２３１Ｂ　センサデータ取得部，　２３２Ａ，２３２Ｂ　操作検出部，　２３３Ａ，２３３Ｂ　効果音出力制御部，　２３４Ａ，２３４Ｂ　通信制御部，　２５１　制御部，　２５２　通信制御部

Claims

　第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる
　制御部を備える
　制御装置。
　前記制御部は、前記第１の効果音と前記第２の効果音をそれぞれ異なるタイミングで出力させる
　請求項１に記載の制御装置。
　前記制御部は、
　前記第１のユーザがいる空間において移動する仮想物体を表現する音を前記第１の効果音として出力させ、
　前記第２のユーザがいる空間において移動する前記仮想物体を表現する音を前記第２の効果音として出力させる
　請求項１に記載の制御装置。
　前記第１の効果音用スピーカと前記第２の効果音用スピーカは、それぞれ複数のスピーカから構成され、
　前記制御部は、
　前記第１のユーザから離れる前記仮想物体を表現する前記第１の効果音を出力させるスピーカを、前記第１のユーザに近い位置にあるスピーカから、前記第１のユーザから遠い位置にあるスピーカに順に切り替え、
　前記第２のユーザに近付く前記仮想物体を表現する前記第２の効果音を出力させるスピーカを、前記第２のユーザから遠い位置にあるスピーカから、前記第２のユーザに近い位置にあるスピーカに順に切り替える
　請求項３に記載の制御装置。
　前記制御部は、前記第１のユーザの行動に応じた行動を前記第２のユーザが行う場合、前記映像と前記音声の遅延に応じて、前記第２の効果音の出力タイミングを遅延させる
　請求項１に記載の制御装置。
　前記制御部は、前記第１のユーザがいる空間と前記第２のユーザがいる空間にそれぞれ設けられたコミュニケーション装置間における前記映像と前記音声の送受信を制御するサーバから、前記映像と前記音声の遅延に関する情報を取得する
　請求項５に記載の制御装置。
　制御装置が、
　第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる
　制御方法。
　コンピュータに、
　第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる
　処理を実行させるプログラム。
　第１のユーザの行動を検出する検出部と、
　前記第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させる出力制御部と、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる他の情報処理装置に対して、前記第１のユーザが所定の行動をとったタイミングを示す情報を送信する通信制御部と
　を備える情報処理装置。
　前記検出部は、前記第１のユーザが持つデバイスから送信されてきた情報に基づいて、前記第１のユーザの行動を検出する
　請求項９に記載の情報処理装置。
　前記出力制御部は、前記第２の効果音の出力タイミングと異なるタイミングで前記第１の効果音を出力させる
　請求項９に記載の情報処理装置。
　前記出力制御部は、前記第１のユーザがいる空間において移動する仮想物体を表現する音を前記第１の効果音として出力させる
　請求項９に記載の情報処理装置。
　前記第１の効果音用スピーカは複数のスピーカから構成され、
　前記出力制御部は、
　前記第１のユーザから離れる前記仮想物体を表現する前記第１の効果音を出力させるスピーカを、前記第１のユーザに近い位置にあるスピーカから、前記第１のユーザから遠い位置にあるスピーカに順に切り替える
　請求項１２に記載の情報処理装置。
　情報処理装置が、
　第１のユーザの行動を検出し、
　前記第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる他の情報処理装置に対して、前記第１のユーザが所定の行動をとったタイミングを示す情報を送信する
　情報処理方法。
　コンピュータに、
　第１のユーザの行動を検出し、
　前記第１のユーザの行動に応じた第１の効果音を、前記第１のユーザがいる空間に設けられた第１の効果音用スピーカから出力させ、
　ネットワークを介して送受信される映像と音声を用いたコミュニケーションを前記第１のユーザとの間で行う第２のユーザの行動に応じた第２の効果音として、前記第１の効果音と異なる効果音を、前記第２のユーザがいる空間に設けられた第２の効果音用スピーカから出力させる他の情報処理装置に対して、前記第１のユーザが所定の行動をとったタイミングを示す情報を送信する
　処理を実行させるプログラム。