WO2024070085A1

WO2024070085A1 - 仮想空間インターフェース装置、クライアント端末、プログラムおよび仮想空間インターフェース制御方法

Info

Publication number: WO2024070085A1
Application number: PCT/JP2023/023221
Authority: WO
Inventors: 俊輔山本; 愛子滝脇; もゑ藤島; 祐一松本; ヒョンジュンキム; 裕林下; 由佳子佐藤; 和哉関; 実志賀
Original assignee: 株式会社Ｊｖｃケンウッド
Priority date: 2022-09-27
Filing date: 2023-06-22
Publication date: 2024-04-04
Also published as: JP2024047795A

Abstract

仮想空間インターフェース装置は、仮想空間内の状況を示す画像を端末に表示させるための表示データを生成し、端末が収音するユーザが発する音声を仮想空間内に出力するための音声データを生成し、仮想空間内の音声を端末に出力させるための音声データを生成し、表示データおよび音声データは、ユーザのジェスチャとユーザと端末との位置関係とに基づいて制御され、ユーザが手を位置させる顔領域の部位に応じて制御対象が異なる。

Description

仮想空間インターフェース装置、クライアント端末、プログラムおよび仮想空間インターフェース制御方法

　本発明は、仮想空間インターフェース装置、クライアント端末、プログラムおよび仮想空間インターフェース制御方法に関する。

　特許文献１には、通信ネットワークを介して接続されるクライアントコンピュータに仮想空間を提供する仮想空間提供装置について記載されている。特許文献１には、仮想空間提供システムが仮想空間提供装置とクライアントコンピュータとしてのクライアント装置とを含んで構成される旨、仮想空間にアバター等が配置される旨、仮想空間提供装置がサーバとして構成される旨、仮想空間がクライアント装置に表示される旨などが記載されている。
　ところで、特許文献１に記載された技術では、例えばユーザのアバターを仮想空間内で移動させたり、アバターの表情を変化させたり、アバターの姿勢を変化させたりするために、クライアント装置に備えられている操作部（キーボードスイッチ、ポインティングデバイス等の入力機器）が使用される。そのため、特許文献１に記載された技術では、操作部の使用方法を習熟したユーザでなければ仮想空間提供システムを使いこなすことができず、ユーザの利便性を向上させることができない。

　特許文献２には、カメラがユーザの顔の画像を取り込む旨、その画像を使用してカメラに対するユーザの顔の近接度が特定される旨、ユーザの顔に対するデバイス（カメラ）の相対位置を用いてズームインもしくはズームアウト機能を制御する旨などが記載されている。
　ところが、ユーザの顔に対するカメラの相対位置を用いる入力操作では、入力可能な情報が限定される（つまり、入力可能な情報量が少ない）。そのため、特許文献２に記載された技術を特許文献１に記載された技術に適用した場合であっても、特許文献１に記載された仮想空間提供システムのユーザの利便性を向上させることはできない。

特許第５１０２６６２号公報特表２０２０－５１８３２１号公報特許第５６３６８８８号公報特許第７０９００３１号公報特許第６８０２５４９号公報

　上述した問題点に鑑み、本発明は、仮想空間提供システムのユーザの利便性を向上させることができる仮想空間インターフェース装置、クライアント端末、プログラムおよび仮想空間インターフェース制御方法を提供することを目的とする。

　本発明の一態様は、少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムに備えられる仮想空間インターフェース装置であって、前記クライアント端末は、仮想空間内の状況を示す画像を表示する表示装置と、前記仮想空間内の音声を出力する音声出力装置と、前記ユーザが発する音声を収音する収音装置と、前記ユーザの顔画像を撮影する撮影装置とを備え、前記仮想空間インターフェース装置は、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための表示データを生成する表示データ生成部と、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データを生成する音声データ生成部とを備え、前記音声データ生成部は、前記クライアント端末の収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、前記表示データ生成部および前記音声データ生成部は、前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、前記表示データ生成部および前記音声データ生成部は、前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、仮想空間インターフェース装置である。

　本発明の一態様は、仮想空間インターフェース装置を備える仮想空間提供システムに備えられ、ユーザによって使用されるクライアント端末であって、仮想空間内の状況を示す画像を表示する表示装置と、前記仮想空間内の音声を出力する音声出力装置と、前記ユーザが発する音声を収音する収音装置と、前記ユーザの顔画像を撮影する撮影装置とを備え、前記表示装置は、前記仮想空間インターフェース装置の表示データ生成部によって生成される表示データに基づいて、前記仮想空間内の状況を示す画像を表示し、前記音声出力装置は、前記仮想空間インターフェース装置の音声データ生成部によって生成される音声データに基づいて、前記仮想空間内の音声を出力し、前記仮想空間インターフェース装置の前記音声データ生成部は、前記収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、前記撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、クライアント端末である。

　本発明の一態様は、仮想空間インターフェース装置を備える仮想空間提供システムに備えられ、ユーザによって使用されるクライアント端末を構成するコンピュータに、仮想空間内の状況を示す画像を表示する表示ステップと、前記仮想空間内の音声を出力する音声出力ステップと、前記ユーザが発する音声を収音する収音ステップと、前記ユーザの顔画像を撮影する撮影ステップとを実行させるためのプログラムであって、前記表示ステップでは、前記仮想空間インターフェース装置の表示データ生成部によって生成される表示データに基づいて、前記仮想空間内の状況を示す画像が表示され、前記音声出力ステップでは、前記仮想空間インターフェース装置の音声データ生成部によって生成される音声データに基づいて、前記仮想空間内の音声が出力され、前記仮想空間インターフェース装置の前記音声データ生成部は、前記収音ステップにおいて収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、前記撮影ステップにおいて撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、プログラムである。

　本発明の一態様は、少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムに備えられる仮想空間インターフェース装置であって、前記クライアント端末は、仮想空間内の状況を示す画像を表示する表示装置と、前記ユーザの顔画像を撮影する撮影装置とを備え、前記仮想空間インターフェース装置は、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための表示データを生成する表示データ生成部を備え、前記表示データ生成部は、前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データを制御する、仮想空間インターフェース装置である。

　本発明の一態様は、少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムに備えられる仮想空間インターフェース装置であって、前記クライアント端末は、仮想空間内の音声を出力する音声出力装置と、前記ユーザが発する音声を収音する収音装置と、前記ユーザの顔画像を撮影する撮影装置とを備え、前記仮想空間インターフェース装置は、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データを生成する音声データ生成部を備え、前記音声データ生成部は、前記クライアント端末の収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、前記音声データ生成部は、前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、仮想空間インターフェース装置である。

　本発明の一態様は、少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムを制御する仮想空間インターフェース制御方法であって、コンピュータが、仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための表示データを生成し、コンピュータが、前記クライアント端末の収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための第１音声データを生成し、コンピュータが、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための第２音声データを生成し、コンピュータが、前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、前記ユーザが手を位置させる顔領域の部位に応じて、前記表示データ、前記第１音声データ、および、前記第２音声データの少なくともいずれかを異ならせて制御する、仮想空間インターフェース制御方法である。

　本発明によれば、仮想空間提供システムのユーザの利便性を向上させることができる仮想空間インターフェース装置、クライアント端末およびプログラムを提供することができる。

第１実施形態の仮想空間インターフェース装置１２Ｘが適用された仮想空間提供システム１の一例を示す図である。表示データ生成部１２Ａによって生成される第１クライアント端末用表示データに基づいてクライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像の一例を示す図である。第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作の一例を説明するための図である。第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける例を示す図である。第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける例を示す図である。クライアント端末１１の表示装置１１Ａによって表示される図２に示す仮想空間内の状況を示す画像を拡大することによって得られる拡大画像を示す図である。クライアント端末１１の表示装置１１Ａによって表示される図２に示す仮想空間内の状況を示す画像を縮小することによって得られる縮小画像を示す図である。第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの左側に向ける例を示す図である。第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの右側に向ける例を示す図である。クライアント端末１１の表示装置１１Ａによって表示される図２に示す仮想空間内の状況を示す画像の左側部分を中央に移動させることによって得られる画像を示す図である。クライアント端末１１の表示装置１１Ａによって表示される図２に示す仮想空間内の状況を示す画像の右側部分を中央に移動させることによって得られる画像を示す図である。第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作の一例を説明するための図である。第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作の一例を説明するための図である。第１実施形態の仮想空間インターフェース装置１２Ｘによって実行される処理の一例を説明するためのフローチャートである。第２実施形態の仮想空間インターフェース装置２１Ｅが適用された仮想空間提供システム２の一例を示す図である。第２実施形態の仮想空間インターフェース装置２１Ｅによって実行される処理の一例を説明するためのフローチャートである。

　以下、本発明の仮想空間インターフェース装置、クライアント端末およびプログラムの実施形態について、添付図面を参照して説明する。

＜第１実施形態＞
　図１は第１実施形態の仮想空間インターフェース装置１２Ｘが適用された仮想空間提供システム１の一例を示す図である。
　図１に示す例では、仮想空間提供システム１が、クライアント端末１１、１１－２、１１－３、１１－４と、仮想空間提供サーバ１２とを備えている。クライアント端末１１、１１－２、１１－３、１１－４および仮想空間提供サーバ１２は、例えばインターネット等のネットワークＮＷを介して接続されている。
　図１に示す例では、仮想空間提供システム１が、４つのクライアント端末１１、１１－２、１１－３、１１－４を備えているが、他の例では、仮想空間提供システム１が、４以外の任意の数のクライアント端末を備えていてもよい。つまり、仮想空間提供システム１が備えるクライアント端末の数が１つであってもよい。

　図１に示す例では、クライアント端末１１が、例えば第１ユーザＵＲ１（図３参照）によって使用される。クライアント端末１１は、表示装置１１Ａと、音声出力装置１１Ｂと、収音装置１１Ｃと、撮影装置１１Ｄとを備えている。
　表示装置１１Ａは、仮想空間提供サーバ１２によってネットワークＮＷを介して提供される表示データに基づいて、仮想空間内の状況を示す画像（図２参照）を表示する。表示装置１１Ａは、例えばディスプレイ等を備えている。音声出力装置１１Ｂは、仮想空間提供サーバ１２によってネットワークＮＷを介して提供される音声データに基づいて、仮想空間内の音声を出力する。音声出力装置１１Ｂは、例えばスピーカ等を備えている。収音装置１１Ｃは、第１ユーザＵＲ１が発する音声を収音する。収音装置１１Ｃは、例えばマイクロフォン等を備えている。撮影装置１１Ｄは、第１ユーザＵＲ１の顔画像を撮影する。撮影装置１１Ｄは、例えばカメラ等を備えている。

　クライアント端末１１－２は、例えば第１ユーザＵＲ１とは異なる第２ユーザＵＲ２（図８参照）によって使用される。クライアント端末１１－３は、例えば第１ユーザＵＲ１および第２ユーザＵＲ２とは異なる第３ユーザＵＲ３（図９参照）によって使用される。
クライアント端末１１－４は、例えば第１ユーザＵＲ１、第２ユーザＵＲ２および第３ユーザＵＲ３とは異なる第４ユーザによって使用される。
　図１に示す例では、クライアント端末１１－２、１１－３、１１－４のそれぞれが、クライアント端末１１と同様に構成されている。つまり、クライアント端末１１－２、１１－３、１１－４のそれぞれが、表示装置１１Ａと、音声出力装置１１Ｂと、収音装置１１Ｃと、撮影装置１１Ｄとを備えている。
　すなわち、クライアント端末１１－２の収音装置１１Ｃは、第２ユーザＵＲ２が発する音声を収音する。クライアント端末１１－２の撮影装置１１Ｄは、第２ユーザＵＲ２の顔画像を撮影する。クライアント端末１１－３の収音装置１１Ｃは、第３ユーザＵＲ３が発する音声を収音する。クライアント端末１１－３の撮影装置１１Ｄは、第３ユーザＵＲ３の顔画像を撮影する。クライアント端末１１－４の収音装置１１Ｃは、第４ユーザが発する音声を収音する。クライアント端末１１－４の撮影装置１１Ｄは、第４ユーザの顔画像を撮影する。
　他の例では、クライアント端末１１の構成とクライアント端末１１－２の構成とクライアント端末１１－３の構成とクライアント端末１１－４の構成とが異なっていたり、クライアント端末１１、１１－２、１１－３、１１－４のうちのいずれかのクライアント端末の構成が残りのクライアント端末の構成と異なっていたりしてもよい。

　図１に示す例では、仮想空間提供サーバ１２が、クライアント端末１１、１１－２、１１－３、１１－４に対して表示データおよび音声データを提供することによって仮想空間を提供する。仮想空間提供サーバ１２は、仮想空間インターフェース装置１２Ｘと、処理装置１２Ｙとを備えている。仮想空間インターフェース装置１２Ｘは、表示データ生成部１２Ａと、音声データ生成部１２Ｂとを備えている。

　表示データ生成部１２Ａは、仮想空間内の状況を示す画像をクライアント端末１１、１１－２、１１－３、１１－４の表示装置１１Ａに表示させるための表示データを生成する。つまり、表示データ生成部１２Ａは、仮想空間内の状況を示す画像（図２参照）をクライアント端末１１の表示装置１１Ａに表示させるための表示データと、仮想空間内の状況を示す画像をクライアント端末１１－２の表示装置１１Ａに表示させるための表示データと、仮想空間内の状況を示す画像をクライアント端末１１－３の表示装置１１Ａに表示させるための表示データと、仮想空間内の状況を示す画像をクライアント端末１１－４の表示装置１１Ａに表示させるための表示データとを生成する。
　詳細には、表示データ生成部１２Ａは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像（図３参照）に基づいて、仮想空間内に位置する第１アバターＡＴ１（図２参照）を生成する。同様に、表示データ生成部１２Ａは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２の顔画像（図８参照）に基づいて、仮想空間内に位置する第２アバターＡＴ２（図２参照）を生成し、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３の顔画像（図９参照）に基づいて、仮想空間内に位置する第３アバターＡＴ３（図２参照）を生成し、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザの顔画像に基づいて、仮想空間内に位置する第４アバターＡＴ４（図２参照）を生成する。
　他の例では、例えば表示データ生成部１２Ａが、第１ユーザＵＲ１の顔画像とは異なる、記録された画像に基づいて、第１アバターＡＴ１を生成してもよい。更に他の例では、例えば表示データ生成部１２Ａによって生成される第１アバターＡＴ１が、イラスト、ＣＧ（コンピュータグラフィックス）等であってもよい。
　図１に示す例では、処理装置１２Ｙが、仮想空間内の状況を示す画像（つまり、クライアント端末１１、１１－２、１１－３、１１－４の表示装置１１Ａによって表示される画像）に、例えばイラスト、ＣＧ等の背景画像、オブジェクト画像、アバター画像などを含める機能を有する。

　図１に示す例では、表示データ生成部１２Ａは、仮想空間内の状況を示す画像として、第１アバターＡＴ１、第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像（図２参照）をクライアント端末１１の表示装置１１Ａに表示させるための第１クライアント端末用表示データを生成する。同様に、表示データ生成部１２Ａは、仮想空間内の状況を示す画像として、第１アバターＡＴ１、第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像をクライアント端末１１－２の表示装置１１Ａに表示させるための第２クライアント端末用表示データを生成し、仮想空間内の状況を示す画像として、第１アバターＡＴ１、第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像をクライアント端末１１－３の表示装置１１Ａに表示させるための第３クライアント端末用表示データを生成し、仮想空間内の状況を示す画像として、第１アバターＡＴ１、第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像をクライアント端末１１－４の表示装置１１Ａに表示させるための第４クライアント端末用表示データを生成する。
　他の例では、表示データ生成部１２Ａによって生成される例えば第１クライアント端末用表示データが示す「仮想空間内の状況を示す画像」に、第１アバターＡＴ１～第４アバターＡＴ４の他に、あるいは、第１アバターＡＴ１～第４アバターＡＴ４の代わりに、背景画像、アバター以外の他のオブジェクト等が含まれても良い。
　「仮想空間内の状況を示す画像」に第１アバターＡＴ１～第４アバターＡＴ４が含まれない他の例では、ユーザが仮想空間内の特定の座標において視聴できる映像・音声を取得し端末（クライアント端末１１、１１－２、１１－３、１１－４）側で出力するのみであって、ユーザが何らかのオブジェクトに紐づけられなくてもよい。

　図２は表示データ生成部１２Ａによって生成される第１クライアント端末用表示データに基づいてクライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像の一例を示す図である。
　図２に示す例では、表示データ生成部１２Ａによって生成される第１クライアント端末用表示データに基づいてクライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像に、クライアント端末１１を使用する第１ユーザＵＲ１に対応する第１アバターＡＴ１と、クライアント端末１１－２を使用する第２ユーザＵＲ２に対応する第２アバターＡＴ２と、クライアント端末１１－３を使用する第３ユーザＵＲ３に対応する第３アバターＡＴ３と、クライアント端末１１－４を使用する第４ユーザに対応する第４アバターＡＴ４とが含まれる。

　図２に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１を使用する第１ユーザＵＲ１の顔画像に基づいて生成された第１アバターＡＴ１が、クライアント端末１１の表示装置１１Ａによって表示される仮想空間（図２に示す仮想空間）内の最も手前側に位置するように、第１クライアント端末用表示データを生成する。
　詳細には、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１の表示装置１１Ａによって表示される仮想空間（図２に示す仮想空間）内において、第１アバターＡＴ１の左隣にクライアント端末１１－２を使用する第２ユーザＵＲ２に対応する第２アバターＡＴ２が位置し、第１アバターＡＴ１の右隣にクライアント端末１１－３を使用する第３ユーザＵＲ３に対応する第３アバターＡＴ３が位置し、第１アバターＡＴ１の正面にクライアント端末１１－４を使用する第４ユーザに対応する第４アバターＡＴ４が位置するように、第１クライアント端末用表示データを生成する。
　他の例では、クライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像に、クライアント端末１１を使用する第１ユーザＵＲ１に対応する第１アバターＡＴ１が含まれなくてもよい。この例では、第１アバターＡＴ１の視点（つまり、第１ユーザＵＲ１の視点）から見た仮想空間内の状況を示す画像（第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像）が、クライアント端末１１の表示装置１１Ａによって表示される。
　更に他の例では、仮想空間内における第１アバターＡＴ１などの位置（第１ユーザＵＲ１などの座標）が、コントローラ（図示せず）によって制御されてもよい。

　図２に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－２を使用する第２ユーザＵＲ２の顔画像に基づいて生成された第２アバターＡＴ２が、クライアント端末１１－２の表示装置１１Ａによって表示される仮想空間内の最も手前側に位置するように、第２クライアント端末用表示データを生成する。
　詳細には、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－２の表示装置１１Ａによって表示される仮想空間内において、第２アバターＡＴ２の左隣にクライアント端末１１－４を使用する第４ユーザに対応する第４アバターＡＴ４が位置し、第２アバターＡＴ２の右隣にクライアント端末１１を使用する第１ユーザＵＲ１に対応する第１アバターＡＴ１が位置し、第２アバターＡＴ２の正面にクライアント端末１１－３を使用する第３ユーザＵＲ３に対応する第３アバターＡＴ３が位置するように、第２クライアント端末用表示データを生成する。

　更に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－３を使用する第３ユーザＵＲ３の顔画像に基づいて生成された第３アバターＡＴ３が、クライアント端末１１－３の表示装置１１Ａによって表示される仮想空間内の最も手前側に位置するように、第３クライアント端末用表示データを生成する。
　詳細には、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－３の表示装置１１Ａによって表示される仮想空間内において、第３アバターＡＴ３の左隣にクライアント端末１１を使用する第１ユーザＵＲ１に対応する第１アバターＡＴ１が位置し、第３アバターＡＴ３の右隣にクライアント端末１１－４を使用する第４ユーザに対応する第４アバターＡＴ４が位置し、第３アバターＡＴ３の正面にクライアント端末１１－２を使用する第２ユーザＵＲ２に対応する第２アバターＡＴ２が位置するように、第３クライアント端末用表示データを生成する。

　また、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－４を使用する第４ユーザの顔画像に基づいて生成された第４アバターＡＴ４が、クライアント端末１１－４の表示装置１１Ａによって表示される仮想空間内の最も手前側に位置するように、第４クライアント端末用表示データを生成する。
　詳細には、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－４の表示装置１１Ａによって表示される仮想空間内において、第４アバターＡＴ４の左隣にクライアント端末１１－３を使用する第３ユーザＵＲ３に対応する第３アバターＡＴ３が位置し、第４アバターＡＴ４の右隣にクライアント端末１１－２を使用する第２ユーザＵＲ２に対応する第２アバターＡＴ２が位置し、第４アバターＡＴ４の正面にクライアント端末１１を使用する第１ユーザＵＲ１に対応する第１アバターＡＴ１が位置するように、第４クライアント端末用表示データを生成する。

　図３は第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作の一例を説明するための図である。図４は第１ユーザＵＲ１がクライアント端末１１の撮影装置１１Ｄと第１ユーザＵＲ１の顔との距離を変化させる例を説明するための図である。詳細には、図４Ａは第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける例を示しており、図４Ｂは第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける例を示している。図５は仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａによって行われる制御の第１例を説明するための図である。詳細には、図５Ａはクライアント端末１１の表示装置１１Ａによって表示される図２に示す仮想空間内の状況を示す画像を拡大することによって得られる拡大画像を示しており、図５Ｂはクライアント端末１１の表示装置１１Ａによって表示される図２に示す仮想空間内の状況を示す画像を縮小することによって得られる縮小画像を示している。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）と、クライアント端末１１の撮影装置１１Ｄと第１ユーザＵＲ１の顔との距離（図４参照）とに基づいて、クライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像（図２参照）の拡大および／または縮小を制御する。「画像の拡大および／または縮小を制御する」とは、表示データ生成部１２Ａが、例えばクライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像を拡大する機能、および、クライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像を縮小する機能の両方を有することを意味する。表示データ生成部１２Ａは、第１の場合（例えば、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける動作をする場合）に、例えばクライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像を拡大する制御を実行する。表示データ生成部１２Ａは、第１の場合とは異なる第２の場合（例えば、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける動作をする場合）に、例えばクライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像を縮小する制御を実行する。
　具体的には、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける動作（図４Ａ参照）をする場合に、クライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像（図２参照）を拡大する制御を実行し、図５Ａに示す拡大画像をクライアント端末１１の表示装置１１Ａに表示させるための第１クライアント端末用表示データを生成する。
　また、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける動作（図４Ｂ参照）をする場合に、クライアント端末１１の表示装置１１Ａによって表示される仮想空間内の状況を示す画像（図２参照）を縮小する制御を実行し、図５Ｂに示す縮小画像をクライアント端末１１の表示装置１１Ａに表示させるための第１クライアント端末用表示データを生成する。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａが、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像に基づいて、第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）をしたか否かを判定する。仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａが、例えば特許文献３の段落００４１に記載された手法と同様に現在までの公知のジェスチャ認識に関する従来技術を用いることによって、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像に基づいて、第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作をしたか否かを判定してもよい。「第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作」には、例えば、第１ユーザＵＲ１が第１ユーザＵＲ１のまぶた等に第１ユーザＵＲ１の手を触れさせる動作、第１ユーザＵＲ１が、第１ユーザＵＲ１のまぶた等に第１ユーザＵＲ１の手を触れさせないものの、第１ユーザＵＲ１が、第１ユーザＵＲ１の手を、第１ユーザＵＲ１の顔全体のうちの目の部位に最も近づける動作などが含まれる。つまり、第１ユーザＵＲ１が第１ユーザＵＲ１の手を第１ユーザＵＲ１の顔に触れさせない動作も、「第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作」に該当し得る。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａが、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像に基づいて、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける動作（図４Ａ参照）をしたか否か、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける動作（図４Ｂ参照）をしたか否か等を判定する。仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａが、特許文献４に記載されるように第１時刻にクライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像上の例えば２つの特徴点間の距離と、第２時刻にクライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像上のそれらの特徴点間の距離とに基づいて、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける動作をしたか否か、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける動作をしたか否か等を判定してもよい。
　また、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａが、公知のカメラによる距離測定技術を用いることにより、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像に基づいて、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける動作（図４Ａ参照）をしたか否か、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける動作（図４Ｂ参照）をしたか否か等を判定してもよい。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の目に第２ユーザＵＲ２の手を当てる動作と、クライアント端末１１－２の撮影装置１１Ｄと第２ユーザＵＲ２の顔との距離とに基づいて、クライアント端末１１－２の表示装置１１Ａによって表示される仮想空間内の状況を示す画像（第２クライアント端末用表示データに基づいてクライアント端末１１－２の表示装置１１Ａによって表示される画像）の拡大および／または縮小を制御する。
　同様に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の目に第３ユーザＵＲ３の手を当てる動作と、クライアント端末１１－３の撮影装置１１Ｄと第３ユーザＵＲ３の顔との距離とに基づいて、クライアント端末１１－３の表示装置１１Ａによって表示される仮想空間内の状況を示す画像（第３クライアント端末用表示データに基づいてクライアント端末１１－３の表示装置１１Ａによって表示される画像）の拡大および／または縮小を制御し、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザが第４ユーザの目に第４ユーザの手を当てる動作と、クライアント端末１１－４の撮影装置１１Ｄと第４ユーザの顔との距離とに基づいて、クライアント端末１１－４の表示装置１１Ａによって表示される仮想空間内の状況を示す画像（第４クライアント端末用表示データに基づいてクライアント端末１１－４の表示装置１１Ａによって表示される画像）の拡大および／または縮小を制御する。

　図６は第１ユーザＵＲ１がクライアント端末１１の撮影装置１１Ｄに対する第１ユーザＵＲ１の顔の向きを変化させる例を説明するための図である。詳細には、図６Ａは第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの左側に向ける例を示しており、図６Ｂは第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの右側に向ける例を示している。図７は仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａによって行われる制御の第２例を説明するための図である。詳細には、図７Ａはクライアント端末１１の表示装置１１Ａによって表示される図２に示す仮想空間内の状況を示す画像の左側部分を中央に移動させることによって得られる画像を示しており、図７Ｂはクライアント端末１１の表示装置１１Ａによって表示される図２に示す仮想空間内の状況を示す画像の右側部分を中央に移動させることによって得られる画像を示している。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）と、クライアント端末１１の撮影装置１１Ｄに対する第１ユーザＵＲ１の顔の向き（図６参照）とに基づいて、仮想空間内における位置であって、クライアント端末１１の表示装置１１Ａによって表示される画像に対応する位置を制御する。
　具体的には、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの左側（図６Ａの左側）に向ける動作（図６Ａ参照）をする場合に、仮想空間内において第１アバターＡＴ１の左隣に位置する第２アバターＡＴ２を、クライアント端末１１の表示装置１１Ａによって表示される画像（図７Ａ参照）の左右方向の中央に配置する制御を実行する。更に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、図７Ａに示す画像（つまり、図２に示す画像の左側部分を中央に移動させることによって得られる画像）をクライアント端末１１の表示装置１１Ａに表示させるための第１クライアント端末用表示データを生成する。
　また、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの右側（図６Ｂの右側）に向ける動作（図６Ｂ参照）をする場合に、仮想空間内において第１アバターＡＴ１の右隣に位置する第３アバターＡＴ３を、クライアント端末１１の表示装置１１Ａによって表示される画像（図７Ｂ参照）の左右方向の中央に配置する制御を実行する。更に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、図７Ｂに示す画像（つまり、図２に示す画像の右側部分を中央に移動させることによって得られる画像）をクライアント端末１１の表示装置１１Ａに表示させるための第１クライアント端末用表示データを生成する。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａが、例えば特許文献５の段落００５４に記載された手法と同様の手法などを用いることにより、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像に基づいて、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの左側に向ける動作（図６Ａ参照）をしたか否か、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの右側に向ける動作（図６Ｂ参照）をしたか否か等を判定する。
　他の例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａが、例えば第１時刻にクライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔画像上の例えば２つの特徴点間の距離の変化速度に基づいて、第１ユーザＵＲ１が第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの側方に向ける動作をしたか否か等を判定してもよい。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の目に第２ユーザＵＲ２の手を当てる動作と、クライアント端末１１－２の撮影装置１１Ｄに対する第２ユーザＵＲ２の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末１１－２の表示装置１１Ａによって表示される画像に対応する位置を制御する。例えば、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の目に第２ユーザＵＲ２の手を当てる動作をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄの左側に向ける動作（仮想空間内の第４アバターＡＴ４に向ける動作）をする場合に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、仮想空間内において第２アバターＡＴ２の左隣に位置する第４アバターＡＴ４を、クライアント端末１１－２の表示装置１１Ａによって表示される画像の左右方向の中央に配置する制御を実行する。
　更に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の目に第３ユーザＵＲ３の手を当てる動作と、クライアント端末１１－３の撮影装置１１Ｄに対する第３ユーザＵＲ３の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末１１－３の表示装置１１Ａによって表示される画像に対応する位置を制御する。例えば、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３が、第３ユーザＵＲ３の目に第３ユーザＵＲ３の手を当てる動作をし、かつ、第３ユーザＵＲ３の顔をクライアント端末１１－３の撮影装置１１Ｄの左側に向ける動作（仮想空間内の第１アバターＡＴ１に向ける動作）をする場合に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、仮想空間内において第３アバターＡＴ３の左隣に位置する第１アバターＡＴ１を、クライアント端末１１－３の表示装置１１Ａによって表示される画像の左右方向の中央に配置する制御を実行する。
　同様に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザが第４ユーザの目に第４ユーザの手を当てる動作と、クライアント端末１１－４の撮影装置１１Ｄに対する第４ユーザの顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末１１－４の表示装置１１Ａによって表示される画像に対応する位置を制御する。例えば、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザが、第４ユーザの目に第４ユーザの手を当てる動作をし、かつ、第４ユーザの顔をクライアント端末１１－４の撮影装置１１Ｄの左側に向ける動作（仮想空間内の第３アバターＡＴ３に向ける動作）をする場合に、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａは、仮想空間内において第４アバターＡＴ４の左隣に位置する第３アバターＡＴ３を、クライアント端末１１－４の表示装置１１Ａによって表示される画像の左右方向の中央に配置する制御を実行する。

　図１に示す例では、音声データ生成部１２Ｂが、仮想空間内の音声をクライアント端末１１、１１－２、１１－３、１１－４の音声出力装置１１Ｂに出力させるための音声データを生成する。つまり、音声データ生成部１２Ｂは、仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための音声データと、仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための音声データと、仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための音声データと、仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための音声データとを生成する。

　詳細には、音声データ生成部１２Ｂは、クライアント端末１１－２の収音装置１１Ｃによって収音される第２ユーザＵＲ２が発する音声と、クライアント端末１１－３の収音装置１１Ｃによって収音される第３ユーザＵＲ３が発する音声と、クライアント端末１１－４の収音装置１１Ｃによって収音される第４ユーザが発する音声とに基づいて、第２ユーザＵＲ２が発する音声、第３ユーザＵＲ３が発する音声および第４ユーザが発する音声を仮想空間内の音声としてクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成する。
　また、音声データ生成部１２Ｂは、クライアント端末１１の収音装置１１Ｃによって収音される第１ユーザＵＲ１が発する音声と、クライアント端末１１－３の収音装置１１Ｃによって収音される第３ユーザＵＲ３が発する音声と、クライアント端末１１－４の収音装置１１Ｃによって収音される第４ユーザが発する音声とに基づいて、第１ユーザＵＲ１が発する音声、第３ユーザＵＲ３が発する音声および第４ユーザが発する音声を仮想空間内の音声としてクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成する。
　更に、音声データ生成部１２Ｂは、クライアント端末１１の収音装置１１Ｃによって収音される第１ユーザＵＲ１が発する音声と、クライアント端末１１－２の収音装置１１Ｃによって収音される第２ユーザＵＲ２が発する音声と、クライアント端末１１－４の収音装置１１Ｃによって収音される第４ユーザが発する音声とに基づいて、第１ユーザＵＲ１が発する音声、第２ユーザＵＲ２が発する音声および第４ユーザが発する音声を仮想空間内の音声としてクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成する。
　また、音声データ生成部１２Ｂは、クライアント端末１１の収音装置１１Ｃによって収音される第１ユーザＵＲ１が発する音声と、クライアント端末１１－２の収音装置１１Ｃによって収音される第２ユーザＵＲ２が発する音声と、クライアント端末１１－３の収音装置１１Ｃによって収音される第３ユーザＵＲ３が発する音声とに基づいて、第１ユーザＵＲ１が発する音声、第２ユーザＵＲ２が発する音声および第３ユーザＵＲ３が発する音声を仮想空間内の音声としてクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。
　他の例では、音声データ生成部１２Ｂが、第１ユーザＵＲ１～第４ユーザＵＲ４が発生する音声とは異なる、例えば背景音、アバター以外のオブジェクトに設定された音声（例えば動作音など）等をクライアント端末１１、１１－２、１１－３、１１－４の音声出力装置１１Ｂに出力させるための音声データ、音声データ生成部１２Ｂが、第１ユーザＵＲ１～第４ユーザＵＲ４が発生する音声とは異なる、例えば背景音、アバター以外のオブジェクトに設定された音声等を仮想空間内に出力（放音）するための音声データなどを生成してもよい。
　図１に示す例では、音声データ生成部１２Ｂが、クライアント端末１１の収音装置１１Ｃによって収音される第１ユーザＵＲ１が発する音声、クライアント端末１１－２の収音装置１１Ｃによって収音される第２ユーザＵＲ２が発する音声、クライアント端末１１－３の収音装置１１Ｃによって収音される第３ユーザＵＲ３が発する音声、クライアント端末１１－４の収音装置１１Ｃによって収音される第４ユーザＵＲ４が発する音声などに基づいて、クライアント端末１１、１１－２、１１－３、１１－４のいずれの音声出力装置１１Ｂにも出力させないものの、仮想空間内に出力される（例えば仮想空間インターフェース装置１２Ｘに記録される）音声データを生成することもできる。

　図８は第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作の一例を説明するための図である。
　図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂが、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２の顔画像に基づいて、第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作をしたか否かを判定する。仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂが、例えば特許文献３の段落００４１に記載された手法と同様に現在までの公知のジェスチャ認識に関する従来技術を用いることによって、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２の顔画像に基づいて、第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作をしたか否かを判定してもよい。「第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作」には、例えば、第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を触れさせる動作、第２ユーザＵＲ２が、第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を触れさせないものの、第２ユーザＵＲ２が、第２ユーザＵＲ２の手を、第２ユーザＵＲ２の顔全体のうちの耳の部位に最も近づける動作などが含まれる。つまり、第２ユーザＵＲ２が第２ユーザＵＲ２の手を第２ユーザＵＲ２の顔に触れさせない動作も、「第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作」に該当し得る。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作と、クライアント端末１１の撮影装置１１Ｄと第１ユーザＵＲ１の顔との距離（図４参照）とに基づいて、クライアント端末１１の音声出力装置１１Ｂによって出力される仮想空間内の音声の音量を制御する。
　具体的には、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける動作（図４Ａ参照）をする場合に、クライアント端末１１の音声出力装置１１Ｂによって出力される仮想空間内の音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成する。
　また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける動作（図４Ｂ参照）をする場合に、クライアント端末１１の音声出力装置１１Ｂによって出力される仮想空間内の音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、図２に示す仮想空間内において第１アバターＡＴ１から最も離れている第４アバターＡＴ４に対応する第４ユーザが発する音声が、クライアント端末１１の音声出力装置１１Ｂによって出力されなくなるように制御してもよい。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）と、クライアント端末１１－２の撮影装置１１Ｄと第２ユーザＵＲ２の顔との距離とに基づいて、クライアント端末１１－２の音声出力装置１１Ｂによって出力される仮想空間内の音声の音量を制御する。
　具体的には、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄに近づける動作をする場合に、クライアント端末１１－２の音声出力装置１１Ｂによって出力される仮想空間内の音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成する。
　また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄから遠ざける動作をする場合に、クライアント端末１１－２の音声出力装置１１Ｂによって出力される仮想空間内の音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、図２に示す仮想空間内において第２アバターＡＴ２から最も離れている第３アバターＡＴ３に対応する第３ユーザＵＲ３が発する音声が、クライアント端末１１－２の音声出力装置１１Ｂによって出力されなくなるように制御してもよい。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の耳に第３ユーザＵＲ３の手を当てる動作と、クライアント端末１１－３の撮影装置１１Ｄと第３ユーザＵＲ３の顔との距離とに基づいて、クライアント端末１１－３の音声出力装置１１Ｂによって出力される仮想空間内の音声の音量を制御する。また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザが第４ユーザの耳に第４ユーザの手を当てる動作と、クライアント端末１１－４の撮影装置１１Ｄと第４ユーザの顔との距離とに基づいて、クライアント端末１１－４の音声出力装置１１Ｂによって出力される仮想空間内の音声の音量を制御する。

　また、図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作と、クライアント端末１１の撮影装置１１Ｄに対する第１ユーザＵＲ１の顔の向き（図６参照）とに基づいて、クライアント端末１１の音声出力装置１１Ｂによって出力される仮想空間からの音声の到来方向を制御する。
　図１および図２に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂが、クライアント端末１１の音声出力装置１１Ｂによって出力される仮想空間からの音声の到来方向の制御を実行するために、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作と、クライアント端末１１の撮影装置１１Ｄに対する第１ユーザＵＲ１の顔の向きと、仮想空間内における第２アバターＡＴ２の位置、第３アバターＡＴ３の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末１１の音声出力装置１１Ｂによって仮想空間内の音声として出力される、第２ユーザＵＲ２が発する音声、第３ユーザＵＲ３が発する音声および第４ユーザが発する音声の音量を制御する。
　具体的には、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの左側（図６Ａの左側、図２に示す仮想空間内の第２アバターＡＴ２の側、図２に示す仮想空間内の第３アバターＡＴ３の反対側）に向ける動作（図６Ａ参照）をする場合に、クライアント端末１１の音声出力装置１１Ｂによって仮想空間内の音声として出力される、第２ユーザＵＲ２が発する音声の音量を増加させると共に、第３ユーザＵＲ３が発する音声の音量を減少させる制御を実行する。更に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、第２ユーザＵＲ２が発する音声の音量が増加させられると共に、第３ユーザＵＲ３が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、図２に示す仮想空間内における第３アバターＡＴ３に対応する第３ユーザＵＲ３が発する音声が、クライアント端末１１の音声出力装置１１Ｂによって出力されなくなるように制御してもよい。
　また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの右側（図６Ｂの右側、図２に示す仮想空間内の第３アバターＡＴ３の側、図２に示す仮想空間内の第２アバターＡＴ２の反対側）に向ける動作（図６Ｂ参照）をする場合に、クライアント端末１１の音声出力装置１１Ｂによって仮想空間内の音声として出力される、第３ユーザＵＲ３が発する音声の音量を増加させると共に、第２ユーザＵＲ２が発する音声の音量を減少させる制御を実行する。更に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、第３ユーザＵＲ３が発する音声の音量が増加させられると共に、第２ユーザＵＲ２が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、図２に示す仮想空間内における第２アバターＡＴ２に対応する第２ユーザＵＲ２が発する音声が、クライアント端末１１の音声出力装置１１Ｂによって出力されなくなるように制御してもよい。
　すなわち、仮想空間内における第１アバターＡＴ１に対して、第１ユーザＵＲ１の顔を向けた方向から到来する音声の音量を増加し、第１ユーザＵＲ１の顔を向けた方向とは逆方向から到来する音声の音量を減少させることにより、仮想空間からの音声の到来方向を制御する。

　更に、図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）と、クライアント端末１１－２の撮影装置１１Ｄに対する第２ユーザＵＲ２の顔の向きとに基づいて、クライアント端末１１－２の音声出力装置１１Ｂによって出力される仮想空間からの音声の到来方向を制御する。
　図１および図２に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂが、クライアント端末１１－２の音声出力装置１１Ｂによって出力される仮想空間からの音声の到来方向の制御を実行するために、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作と、クライアント端末１１－２の撮影装置１１Ｄに対する第２ユーザＵＲ２の顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第３アバターＡＴ３の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末１１－２の音声出力装置１１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声、第３ユーザＵＲ３が発する音声および第４ユーザが発する音声の音量を制御する。
　具体的には、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄの左側（図２に示す仮想空間内の第４アバターＡＴ４の側、図２に示す仮想空間内の第１アバターＡＴ１の反対側）に向ける動作をする場合に、クライアント端末１１－２の音声出力装置１１Ｂによって仮想空間内の音声として出力される、第４ユーザが発する音声の音量を増加させると共に、第１ユーザＵＲ１が発する音声の音量を減少させる制御を実行する。更に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、第４ユーザが発する音声の音量が増加させられると共に、第１ユーザＵＲ１が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、図２に示す仮想空間内における第１アバターＡＴ１に対応する第１ユーザＵＲ１が発する音声が、クライアント端末１１－２の音声出力装置１１Ｂによって出力されなくなるように制御してもよい。
　また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄの右側（図２に示す仮想空間内の第１アバターＡＴ１の側、図２に示す仮想空間内の第４アバターＡＴ４の反対側）に向ける動作をする場合に、クライアント端末１１－２の音声出力装置１１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声の音量を増加させると共に、第４ユーザが発する音声の音量を減少させる制御を実行する。更に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、第１ユーザＵＲ１が発する音声の音量が増加させられると共に、第４ユーザが発する音声の音量が減少させられた仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成する。例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、図２に示す仮想空間内における第４アバターＡＴ４に対応する第４ユーザが発する音声が、クライアント端末１１－２の音声出力装置１１Ｂによって出力されなくなるように制御してもよい。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の耳に第３ユーザＵＲ３の手を当てる動作と、クライアント端末１１－３の撮影装置１１Ｄに対する第３ユーザＵＲ３の顔の向きとに基づいて、クライアント端末１１－３の音声出力装置１１Ｂによって出力される仮想空間からの音声の到来方向を制御する。図１および図２に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂが、クライアント端末１１－３の音声出力装置１１Ｂによって出力される仮想空間からの音声の到来方向の制御を実行するために、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の耳に第３ユーザＵＲ３の手を当てる動作と、クライアント端末１１－３の撮影装置１１Ｄに対する第３ユーザＵＲ３の顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第２アバターＡＴ２の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末１１－３の音声出力装置１１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声、第２ユーザＵＲ２が発する音声および第４ユーザが発する音声の音量を制御する。また、図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザが第４ユーザの耳に第４ユーザの手を当てる動作と、クライアント端末１１－４の撮影装置１１Ｄに対する第４ユーザの顔の向きとに基づいて、クライアント端末１１－４の音声出力装置１１Ｂによって出力される仮想空間からの音声の到来方向を制御する。図１および図２に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂが、クライアント端末１１－４の音声出力装置１１Ｂによって出力される仮想空間からの音声の到来方向の制御を実行するために、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザが第４ユーザの耳に第４ユーザの手を当てる動作と、クライアント端末１１－４の撮影装置１１Ｄに対する第４ユーザの顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第２アバターＡＴ２の位置および第３アバターＡＴ３の位置とに基づいて、クライアント端末１１－４の音声出力装置１１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声、第２ユーザＵＲ２が発する音声および第３ユーザＵＲ３が発する音声の音量を制御する。

　図９は第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作の一例を説明するための図である。
　図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂが、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３の顔画像に基づいて、第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作をしたか否かを判定する。仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂが、例えば特許文献３の段落００４１に記載された手法と同様に現在までの公知のジェスチャ認識に関する従来技術を用いることによって、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３の顔画像に基づいて、第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作をしたか否かを判定してもよい。「第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作」には、例えば、第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を触れさせる動作、第３ユーザＵＲ３が、第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を触れさせないものの、第３ユーザＵＲ３が、第３ユーザＵＲ３の手を、第３ユーザＵＲ３の顔全体のうちの口の部位に最も近づける動作などが含まれる。つまり、第３ユーザＵＲ３が第３ユーザＵＲ３の手を第３ユーザＵＲ３の顔に触れさせない動作も、「第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作」に該当し得る。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作と、クライアント端末１１の撮影装置１１Ｄと第１ユーザＵＲ１の顔との距離（図４参照）とに基づいて、クライアント端末１１の収音装置１１Ｃによって収音されて仮想空間内に出力される第１ユーザＵＲ１が発する音声の音量を制御する。仮想空間内に出力される第１ユーザＵＲ１が発する音声は、クライアント端末１１－２、１１－３、１１－４のそれぞれの音声出力装置１１Ｂによって出力されてもよく、クライアント端末１１－２、１１－３、１１－４のそれぞれの音声出力装置１１Ｂによって出力されなくてもよい（この場合、第１ユーザＵＲ１が発する音声は、例えば仮想空間インターフェース装置１２Ｘに記録されてもよい）。

　例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄに近づける動作（図４Ａ参照）をする場合に、仮想空間内に出力されてクライアント端末１１－２の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。
　換言すれば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の収音装置１１Ｃによって収音される第１ユーザＵＲ１が発する音声が仮想空間内に放音（出力）される音量を増加させる制御を実行する。

　また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける動作（図４Ｂ参照）をする場合に、仮想空間内に出力されてクライアント端末１１－２の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。
　換言すれば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の収音装置１１Ｃによって収音される第１ユーザＵＲ１が発する音声が仮想空間内に放音（出力）される音量を減少させる制御を実行する。

　図１に示す例では、上述したように、第１ユーザＵＲ１が、第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当て、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄから遠ざける動作（図４Ｂ参照）をする場合に、音声データ生成部１２Ｂが、仮想空間内に出力されてクライアント端末１１－２等の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量を減少させる制御を実行するが、他の例では、第１ユーザＵＲ１が、第１ユーザＵＲ１の口を第１ユーザＵＲ１の手でふさぐ場合に、音声データ生成部１２Ｂが、仮想空間内に出力されてクライアント端末１１－２等の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量をゼロにする制御を実行してもよい。

　図１に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作と、クライアント端末１１－２の撮影装置１１Ｄと第２ユーザＵＲ２の顔との距離とに基づいて、クライアント端末１１－２の収音装置１１Ｃによって収音されて仮想空間内に出力される第２ユーザＵＲ２が発する音声の音量を制御する。仮想空間内に出力される第２ユーザＵＲ２が発する音声は、クライアント端末１１、１１－３、１１－４のそれぞれの音声出力装置１１Ｂによって出力されてもよく、クライアント端末１１、１１－３、１１－４のそれぞれの音声出力装置１１Ｂによって出力されなくてもよい（この場合、第２ユーザＵＲ２が発する音声は、例えば仮想空間インターフェース装置１２Ｘに記録されてもよい）。

　例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄに近づける動作をする場合に、仮想空間内に出力されてクライアント端末１１の音声出力装置１１Ｂによって出力される第２ユーザＵＲ２が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される第２ユーザＵＲ２が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される第２ユーザＵＲ２が発する音声の音量を増加させる制御を実行し、音量が増加させられた仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。
　換言すれば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の収音装置１１Ｃによって収音される第２ユーザＵＲ２が発する音声が仮想空間内に放音（出力）される音量を増加させる制御を実行する。

　また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄから遠ざける動作をする場合に、仮想空間内に出力されてクライアント端末１１の音声出力装置１１Ｂによって出力される第２ユーザＵＲ２が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される第２ユーザＵＲ２が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成し、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される第２ユーザＵＲ２が発する音声の音量を減少させる制御を実行し、音量が減少させられた仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。
　換言すれば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の収音装置１１Ｃによって収音される第２ユーザＵＲ２が発する音声が仮想空間内に放音（出力）される音量を減少させる制御を実行する。

　図１に示す例では、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作（図９参照）と、クライアント端末１１－３の撮影装置１１Ｄと第３ユーザＵＲ３の顔との距離とに基づいて、仮想空間内に出力されてクライアント端末１１、１１－２、１１－４のそれぞれの音声出力装置１１Ｂによって出力される第３ユーザＵＲ３が発する音声の音量を制御する。また、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザが第４ユーザの口に第４ユーザの手を当てる動作と、クライアント端末１１－４の撮影装置１１Ｄと第４ユーザの顔との距離とに基づいて、仮想空間内に出力されてクライアント端末１１、１１－２、１１－３のそれぞれの音声出力装置１１Ｂによって出力される第４ユーザが発する音声の音量を制御する。

　また、図１に示す例では、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作と、クライアント端末１１の撮影装置１１Ｄに対する第１ユーザＵＲ１の顔の向き（図６参照）とに基づいて、第１ユーザＵＲ１が発する音声（クライアント端末１１の収音装置１１Ｃによって収音される音声）の仮想空間への出力方向を制御する。
　図１および図２に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作と、クライアント端末１１の撮影装置１１Ｄに対する第１ユーザＵＲ１の顔の向きと、仮想空間内における第２アバターＡＴ２の位置、第３アバターＡＴ３の位置および第４アバターＡＴ４の位置とに基づいて、仮想空間内に出力されてクライアント端末１１－２の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を制御する。

　具体的には、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの左側（図６Ａの左側、図２に示す仮想空間内の第２アバターＡＴ２の側、図２に示す仮想空間内の第３アバターＡＴ３の反対側）に向ける動作（図６Ａ参照）をする場合に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－２の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を増加させると共に、第１ユーザＵＲ１が発する音声の音量が増加させられた仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成する。また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を減少させると共に、第１ユーザＵＲ１が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成する。更に、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を変更せず、第１ユーザＵＲ１が発する音声の音量が変更されない仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。
　すなわち、仮想空間内における第１アバターＡＴ１に対して、第１ユーザＵＲ１の顔を向けた方向に存在するアバター（例えば第２アバターＡＴ２）に対応するユーザ（例えば第２ユーザＵＲ２）のクライアント端末（例えばクライアント端末１１－２）の音声出力装置１１Ｂによって出力される音声の音量を増加し、第１ユーザＵＲ１の顔を向けた方向とは逆方向に存在するアバター（例えば第３アバターＡＴ３）に対応するユーザ（例えば第３ユーザＵＲ３）のクライアント端末（クライアント端末１１－３）の音声出力装置１１Ｂによって出力される音声の音量を減少させることにより、音声の方向を制御する。
　換言すれば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の収音装置１１Ｃによって収音される第１ユーザＵＲ１が発する音声が仮想空間内に放音（出力）される方向の制御を実行する。

　図１に示す例では、上述したように、第１ユーザＵＲ１が、第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当て、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの左側（図２に示す仮想空間内の第３アバターＡＴ３の反対側）に向ける動作をする場合に、音声データ生成部１２Ｂが、クライアント端末１１－３の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量を減少させる制御を実行するが、他の例では、第１ユーザＵＲ１が、第１ユーザＵＲ１の口を第１ユーザＵＲ１の手でふさぐ場合に、音声データ生成部１２Ｂが、クライアント端末１１－３等の音声出力装置１１Ｂによって出力される第１ユーザＵＲ１が発する音声の音量をゼロにする制御を実行してもよい。

　また、例えば、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１が、第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作をし、かつ、第１ユーザＵＲ１の顔をクライアント端末１１の撮影装置１１Ｄの右側（図６Ｂの右側、図２に示す仮想空間内の第３アバターＡＴ３の側、図２に示す仮想空間内の第２アバターＡＴ２の反対側）に向ける動作（図６Ｂ参照）をする場合に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－２の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を減少させると共に、第１ユーザＵＲ１が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データを生成する。また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を増加させると共に、第１ユーザＵＲ１が発する音声の音量が増加させられた仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成する。更に、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される、第１ユーザＵＲ１が発する音声の音量を変更せず、第１ユーザＵＲ１が発する音声の音量が変更されない仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。
　換言すれば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１の収音装置１１Ｃによって収音される第１ユーザＵＲ１が発する音声が仮想空間内に放音（出力）される方向の制御を実行する。

　また、図１に示す例では、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作と、クライアント端末１１－２の撮影装置１１Ｄに対する第２ユーザＵＲ２の顔の向きとに基づいて、第２ユーザＵＲ２が発する音声（クライアント端末１１－２の収音装置１１Ｃによって収音される音声）の仮想空間への出力方向を制御する。
　図１および図２に示す例では、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作と、クライアント端末１１－２の撮影装置１１Ｄに対する第２ユーザＵＲ２の顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第３アバターＡＴ３の位置および第４アバターＡＴ４の位置とに基づいて、仮想空間内に出力されてクライアント端末１１の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を制御する。

　具体的には、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄの左側（図２に示す仮想空間内の第４アバターＡＴ４の側、図２に示す仮想空間内の第１アバターＡＴ１の反対側）に向ける動作をする場合に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を増加させると共に、第２ユーザＵＲ２が発する音声の音量が増加させられた仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を減少させると共に、第２ユーザＵＲ２が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成する。更に、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を変更せず、第２ユーザＵＲ２が発する音声の音量が変更されない仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成する。
　すなわち、仮想空間内における第２アバターＡＴ２に対して、第２ユーザＵＲ２の顔を向けた方向に存在するアバター（例えば第４アバターＡＴ４）に対応するユーザ（例えば第４ユーザＵＲ４）のクライアント端末（例えばクライアント端末１１－４）の音声出力装置１１Ｂによって出力される音声の音量を増加し、第２ユーザＵＲ２の顔を向けた方向とは逆方向に存在するアバター（例えば第１アバターＡＴ１）に対応するユーザ（例えば第１ユーザＵＲ１）のクライアント端末（クライアント端末１１）の音声出力装置１１Ｂによって出力される音声の音量を減少させることにより、音声の方向を制御する。
　換言すれば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の収音装置１１Ｃによって収音される第２ユーザＵＲ２が発する音声が仮想空間内に放音（出力）される方向の制御を実行する。

　また、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２が、第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作をし、かつ、第２ユーザＵＲ２の顔をクライアント端末１１－２の撮影装置１１Ｄの右側（図２に示す仮想空間内の第１アバターＡＴ１の側、図２に示す仮想空間内の第４アバターＡＴ４の反対側）に向ける動作をする場合に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を減少させると共に、第２ユーザＵＲ２が発する音声の音量が減少させられた仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データを生成する。
また、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を増加させると共に、第２ユーザＵＲ２が発する音声の音量が増加させられた仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データを生成する。更に、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される、第２ユーザＵＲ２が発する音声の音量を変更せず、第２ユーザＵＲ２が発する音声の音量が変更されない仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データを生成する。
　換言すれば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－２の収音装置１１Ｃによって収音される第２ユーザＵＲ２が発する音声が仮想空間内に放音（出力）される方向の制御を実行する。

　図１および図２に示す例では、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作（図９参照）と、クライアント端末１１－３の撮影装置１１Ｄに対する第３ユーザＵＲ３の顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第２アバターＡＴ２の位置および第４アバターＡＴ４の位置とに基づいて、仮想空間内に出力されてクライアント端末１１の音声出力装置１１Ｂによって出力される、第３ユーザＵＲ３が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末１１－２の音声出力装置１１Ｂによって出力される、第３ユーザＵＲ３が発する音声の音量を制御し、仮想空間内に出力されてクライアント端末１１－４の音声出力装置１１Ｂによって出力される、第３ユーザＵＲ３が発する音声の音量を制御する。また、例えば、仮想空間インターフェース装置１２Ｘの音声データ生成部１２Ｂは、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザが第４ユーザの口に第４ユーザの手を当てる動作と、クライアント端末１１－４の撮影装置１１Ｄに対する第４ユーザの顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第２アバターＡＴ２の位置および第３アバターＡＴ３の位置とに基づいて、仮想空間内に出力されてクライアント端末１１の音声出力装置１１Ｂによって出力される、第４ユーザが発する音声の音量を制御し、仮想空間内に出力されてクライアント端末１１－２の音声出力装置１１Ｂによって出力される、第４ユーザが発する音声の音量を制御し、仮想空間内に出力されてクライアント端末１１－３の音声出力装置１１Ｂによって出力される、第４ユーザが発する音声の音量を制御する。

　上述したように、図１に示す例では、仮想空間インターフェース装置１２Ｘの表示データ生成部１２Ａおよび音声データ生成部１２Ｂは、クライアント端末１１の撮影装置１１Ｄによって撮影される第１ユーザＵＲ１の顔領域に手を位置させるジェスチャ（目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作）と、クライアント端末１１の撮影装置１１Ｄと第１ユーザＵＲ１の顔との位置関係（近づく、遠ざかる、クライアント端末１１の撮影装置１１Ｄの左側を向く、クライアント端末１１の撮影装置１１Ｄの右側を向く）と、クライアント端末１１－２の撮影装置１１Ｄによって撮影される第２ユーザＵＲ２の顔領域に手を位置させるジェスチャ（目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作）と、クライアント端末１１－２の撮影装置１１Ｄと第２ユーザＵＲ２の顔との位置関係（近づく、遠ざかる、クライアント端末１１－２の撮影装置１１Ｄの左側を向く、クライアント端末１１－２の撮影装置１１Ｄの右側を向く）と、クライアント端末１１－３の撮影装置１１Ｄによって撮影される第３ユーザＵＲ３の顔領域に手を位置させるジェスチャ（目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作）と、クライアント端末１１－３の撮影装置１１Ｄと第３ユーザＵＲ３の顔との位置関係（近づく、遠ざかる、クライアント端末１１－３の撮影装置１１Ｄの左側を向く、クライアント端末１１－３の撮影装置１１Ｄの右側を向く）と、クライアント端末１１－４の撮影装置１１Ｄによって撮影される第４ユーザの顔領域に手を位置させるジェスチャ（目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作）と、クライアント端末１１－４の撮影装置１１Ｄと第４ユーザの顔との位置関係（近づく、遠ざかる、クライアント端末１１－４の撮影装置１１Ｄの左側を向く、クライアント端末１１－４の撮影装置１１Ｄの右側を向く）とに基づいて、制御対象として、仮想空間内の状況を示す画像をクライアント端末１１の表示装置１１Ａに表示させるための第１クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末１１－２の表示装置１１Ａに表示させるための第２クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末１１－３の表示装置１１Ａに表示させるための第３クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末１１－４の表示装置１１Ａに表示させるための第４クライアント端末用表示データ、仮想空間内の音声をクライアント端末１１の音声出力装置１１Ｂに出力させるための第１クライアント端末用音声データ、仮想空間内の音声をクライアント端末１１－２の音声出力装置１１Ｂに出力させるための第２クライアント端末用音声データ、仮想空間内の音声をクライアント端末１１－３の音声出力装置１１Ｂに出力させるための第３クライアント端末用音声データ、および、仮想空間内の音声をクライアント端末１１－４の音声出力装置１１Ｂに出力させるための第４クライアント端末用音声データの少なくともいずれかを制御する。
　更に、表示データ生成部１２Ａおよび音声データ生成部１２Ｂは、第１ユーザＵＲ１が手を位置させる顔領域の部位（目、耳または口）と、第２ユーザＵＲ２が手を位置させる顔領域の部位（目、耳または口）と、第３ユーザＵＲ３が手を位置させる顔領域の部位（目、耳または口）と、第４ユーザが手を位置させる顔領域の部位（目、耳または口）とに応じて、制御対象（第１～第４クライアント端末用表示データおよび第１～第４クライアント端末用音声データの少なくともいずれか）を異ならせる。

　図１０は第１実施形態の仮想空間インターフェース装置１２Ｘによって実行される処理の一例を説明するためのフローチャートである。
　図１０に示す例では、仮想空間インターフェース装置１２Ｘが、図１０に示すルーチンにおいて、第１ユーザＵＲ１によって使用されるクライアント端末１１、第２ユーザＵＲ２によって使用されるクライアント端末１１－２、第３ユーザＵＲ３によって使用されるクライアント端末１１－３および第４ユーザによって使用されるクライアント端末１１－４に仮想空間を提供する仮想空間提供ステップＳ１を実行する。
　仮想空間提供ステップＳ１には、表示データ生成ステップＳ１Ａと、音声データ生成ステップＳ１Ｂとが含まれる。
　仮想空間インターフェース装置１２Ｘは、表示データ生成ステップＳ１Ａにおいて、仮想空間内の状況を示す画像をクライアント端末１１、１１－２、１１－３、１１－４のそれぞれの表示装置１１Ａに表示させるための表示データ（第１～第４クライアント端末用表示データ）を生成する。
　また、仮想空間インターフェース装置１２Ｘは、音声データ生成ステップＳ１Ｂにおいて、仮想空間内の音声をクライアント端末１１、１１－２、１１－３、１１－４のそれぞれの音声出力装置１１Ｂに出力させるための音声データ（第１～第４クライアント端末用音声データ）を生成する。

　第１実施形態の仮想空間インターフェース装置１２Ｘが適用された仮想空間提供システム１では、第１ユーザＵＲ１、第２ユーザＵＲ２、第３ユーザＵＲ３および第４ユーザが、操作部を用いた入力操作を行う必要なく、仮想空間提供サーバ１２によって提供される仮想空間を利用することができる。つまり、第１実施形態の仮想空間提供システム１では、第１ユーザＵＲ１、第２ユーザＵＲ２、第３ユーザＵＲ３および第４ユーザの利便性を向上させることができる。
　他の例では、仮想空間内でのユーザとオブジェクトの位置関係によって、見える景色（クライアント端末に表示される画像）、聞こえる音（クライアント端末から出力される音声）、発する音（仮想空間内に出力される音声）が変化してもよい。この例では、仮想空間内に決められた座標でオブジェクトが配置され、表示される。
　更に他の例では、仮想空間内の音声が、他のユーザのアバターが発する音声、鳥の声などの環境音であってもよく、オブジェクトが特定の音声出力を行ってもよい。例えば、木のオブジェクトから音楽を流す等の設定を行い、ユーザ（の座標）が近づくことによって、ユーザが使用するクライアント端末から音楽が聞こえてきてもよい。
　更に他の例では、どのユーザが聞いているかを問わず、仮想空間内に音を出力すること、特定のオブジェクトに音声を記録（メッセージを録音）することを仮想空間インターフェース装置１２Ｘが行ってもよい。

＜第２実施形態＞
　以下、本発明の仮想空間インターフェース装置、クライアント端末およびプログラムの第２実施形態について説明する。
　第２実施形態の仮想空間提供システム２は、後述する点を除き、上述した第１実施形態の仮想空間提供システム１と同様に構成されている。従って、第２実施形態の仮想空間提供システム２によれば、後述する点を除き、上述した第１実施形態の仮想空間提供システム１と同様の効果を奏することができる。

　図１１は第２実施形態の仮想空間インターフェース装置２１Ｅが適用された仮想空間提供システム２の一例を示す図である。
　図１１に示す例では、仮想空間提供システム２が、クライアント端末２１、２１－２、２１－３、２１－４を備えている。クライアント端末２１、２１－２、２１－３、２１－４は、例えばインターネット等のネットワークＮＷを介して接続されている。
　図１１に示す例では、仮想空間提供システム２が、４つのクライアント端末２１、２１－２、２１－３、２１－４を備えているが、他の例では、仮想空間提供システム２が、４以外の任意の数のクライアント端末を備えていてもよい。

　図１１に示す例では、クライアント端末２１が、例えば第１ユーザＵＲ１（図３参照）によって使用される。クライアント端末２１は、表示装置２１Ａと、音声出力装置２１Ｂと、収音装置２１Ｃと、撮影装置２１Ｄと、仮想空間インターフェース装置２１Ｅと、処理装置２１Ｆとを備えている。
　表示装置２１Ａは、図１に示す表示装置１１Ａと概略同様の機能を有し、仮想空間インターフェース装置２１Ｅによって提供される表示データに基づいて、仮想空間内の状況を示す画像（図２参照）を表示する。音声出力装置２１Ｂは、図１に示す音声出力装置１１Ｂと概略同様の機能を有し、仮想空間インターフェース装置２１Ｅによって提供される音声データに基づいて仮想空間内の音声を出力する。収音装置２１Ｃは、図１に示す収音装置１１Ｃと概略同様の機能を有し、第１ユーザＵＲ１が発する音声を収音する。撮影装置２１Ｄは、図１に示す撮影装置１１Ｄと概略同様の機能を有し、第１ユーザＵＲ１の顔画像を撮影する。
　仮想空間インターフェース装置２１Ｅは、クライアント端末２１、２１－２、２１－３、２１－４に対して表示データおよび音声データを提供することによって仮想空間を提供する。仮想空間インターフェース装置２１Ｅは、図１に示す表示データ生成部１２Ａと概略同様の機能を有する表示データ生成部２１Ｅ１と、図１に示す音声データ生成部１２Ｂと概略同様の機能を有する音声データ生成部２１Ｅ２とを備えている。
　処理装置２１Ｆは、図１に示す処理装置１２Ｙと概略同様の機能を有する。

　クライアント端末２１－２は、例えば第１ユーザＵＲ１とは異なる第２ユーザＵＲ２（図８参照）によって使用される。クライアント端末２１－３は、例えば第１ユーザＵＲ１および第２ユーザＵＲ２とは異なる第３ユーザＵＲ３（図９参照）によって使用される。
クライアント端末２１－４は、例えば第１ユーザＵＲ１、第２ユーザＵＲ２および第３ユーザＵＲ３とは異なる第４ユーザによって使用される。
　図１１に示す例では、クライアント端末２１－２、２１－３、２１－４のそれぞれが、クライアント端末２１の仮想空間インターフェース装置２１Ｅおよび処理装置２１Ｆを除く部分と概略同様に構成されている。つまり、クライアント端末２１－２、２１－３、２１－４のそれぞれが、表示装置２１Ａと、音声出力装置２１Ｂと、収音装置２１Ｃと、撮影装置２１Ｄとを備えている。
　他の例では、クライアント端末２１の仮想空間インターフェース装置２１Ｅおよび処理装置２１Ｆを除く部分の構成とクライアント端末２１－２の構成とクライアント端末２１－３の構成とクライアント端末２１－４の構成とが異なっていたり、クライアント端末２１の仮想空間インターフェース装置２１Ｅおよび処理装置２１Ｆを除く部分およびクライアント端末２１－２、２１－３、２１－４のうちのいずれかの構成が残りの構成と異なっていたりしてもよい。

　表示データ生成部２１Ｅ１は、仮想空間内の状況を示す画像をクライアント端末２１、２１－２、２１－３、２１－４の表示装置２１Ａに表示させるための表示データを生成する。
　詳細には、表示データ生成部２１Ｅ１は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１の顔画像（図３参照）に基づいて、仮想空間内に位置する第１アバターＡＴ１（図２参照）を生成する。同様に、表示データ生成部２１Ｅ１は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２の顔画像（図８参照）に基づいて、仮想空間内に位置する第２アバターＡＴ２（図２参照）を生成し、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３の顔画像（図９参照）に基づいて、仮想空間内に位置する第３アバターＡＴ３（図２参照）を生成し、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザの顔画像に基づいて、仮想空間内に位置する第４アバターＡＴ４（図２参照）を生成する。

　更に、表示データ生成部２１Ｅ１は、仮想空間内の状況を示す画像として、第１アバターＡＴ１、第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像（図２参照）をクライアント端末２１の表示装置２１Ａに表示させるための第１クライアント端末用表示データを生成する。同様に、表示データ生成部２１Ｅ１は、仮想空間内の状況を示す画像として、第１アバターＡＴ１、第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像をクライアント端末２１－２の表示装置２１Ａに表示させるための第２クライアント端末用表示データを生成し、仮想空間内の状況を示す画像として、第１アバターＡＴ１、第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像をクライアント端末２１－３の表示装置２１Ａに表示させるための第３クライアント端末用表示データを生成し、仮想空間内の状況を示す画像として、第１アバターＡＴ１、第２アバターＡＴ２、第３アバターＡＴ３および第４アバターＡＴ４を含む画像をクライアント端末２１－４の表示装置２１Ａに表示させるための第４クライアント端末用表示データを生成する。

　図１１に示す例では、表示データ生成部２１Ｅ１は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）と、クライアント端末２１の撮影装置２１Ｄと第１ユーザＵＲ１の顔との距離とに基づいて、クライアント端末２１の表示装置２１Ａによって表示される仮想空間内の状況を示す画像（第１クライアント端末用表示データに基づいてクライアント端末２１の表示装置２１Ａによって表示される画像）（図２参照）の拡大および／または縮小を制御する。

　また、表示データ生成部２１Ｅ１は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の目に第２ユーザＵＲ２の手を当てる動作と、クライアント端末２１－２の撮影装置２１Ｄと第２ユーザＵＲ２の顔との距離とに基づいて、クライアント端末２１－２の表示装置１１Ａによって表示される仮想空間内の状況を示す画像（第２クライアント端末用表示データに基づいてクライアント端末２１－２の表示装置２１Ａによって表示される画像）の拡大および／または縮小を制御する。
　同様に、表示データ生成部２１Ｅ１は、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の目に第３ユーザＵＲ３の手を当てる動作と、クライアント端末２１－３の撮影装置２１Ｄと第３ユーザＵＲ３の顔との距離とに基づいて、クライアント端末２１－３の表示装置２１Ａによって表示される仮想空間内の状況を示す画像（第３クライアント端末用表示データに基づいてクライアント端末２１－３の表示装置２１Ａによって表示される画像）の拡大および／または縮小を制御し、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザが第４ユーザの目に第４ユーザの手を当てる動作と、クライアント端末２１－４の撮影装置２１Ｄと第４ユーザの顔との距離とに基づいて、クライアント端末２１－４の表示装置２１Ａによって表示される仮想空間内の状況を示す画像（第４クライアント端末用表示データに基づいてクライアント端末２１－４の表示装置２１Ａによって表示される画像）の拡大および／または縮小を制御する。

　図１１に示す例では、表示データ生成部２１Ｅ１は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の目に第１ユーザＵＲ１の手を当てる動作（図３参照）と、クライアント端末２１の撮影装置２１Ｄに対する第１ユーザＵＲ１の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末２１の表示装置２１Ａによって表示される画像に対応する位置を制御する。

　また、表示データ生成部２１Ｅ１は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の目に第２ユーザＵＲ２の手を当てる動作と、クライアント端末２１－２の撮影装置２１Ｄに対する第２ユーザＵＲ２の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末２１－２の表示装置２１Ａによって表示される画像に対応する位置を制御する。
　更に、表示データ生成部２１Ｅ１は、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の目に第３ユーザＵＲ３の手を当てる動作と、クライアント端末２１－３の撮影装置２１Ｄに対する第３ユーザＵＲ３の顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末２１－３の表示装置２１Ａによって表示される画像に対応する位置を制御する。
　同様に、表示データ生成部２１Ｅ１は、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザが第４ユーザの目に第４ユーザの手を当てる動作と、クライアント端末２１－４の撮影装置２１Ｄに対する第４ユーザの顔の向きとに基づいて、仮想空間内における位置であって、クライアント端末２１－４の表示装置２１Ａによって表示される画像に対応する位置を制御する。

　図１１に示す例では、音声データ生成部２１Ｅ２が、仮想空間内の音声をクライアント端末２１、２１－２、２１－３、２１－４の音声出力装置２１Ｂに出力させるための音声データを生成する。つまり、音声データ生成部２１Ｅ２は、仮想空間内の音声をクライアント端末２１の音声出力装置２１Ｂに出力させるための音声データと、仮想空間内の音声をクライアント端末２１－２の音声出力装置２１Ｂに出力させるための音声データと、仮想空間内の音声をクライアント端末２１－３の音声出力装置２１Ｂに出力させるための音声データと、仮想空間内の音声をクライアント端末２１－４の音声出力装置２１Ｂに出力させるための音声データとを生成する。

　詳細には、音声データ生成部２１Ｅ２は、クライアント端末２１－２の収音装置２１Ｃによって収音される第２ユーザＵＲ２が発する音声と、クライアント端末２１－３の収音装置２１Ｃによって収音される第３ユーザＵＲ３が発する音声と、クライアント端末２１－４の収音装置２１Ｃによって収音される第４ユーザが発する音声とに基づいて、第２ユーザＵＲ２が発する音声、第３ユーザＵＲ３が発する音声および第４ユーザが発する音声を仮想空間内の音声としてクライアント端末２１の音声出力装置２１Ｂに出力させるための第１クライアント端末用音声データを生成する。
　また、音声データ生成部２１Ｅ２は、クライアント端末２１の収音装置２１Ｃによって収音される第１ユーザＵＲ１が発する音声と、クライアント端末２１－３の収音装置２１Ｃによって収音される第３ユーザＵＲ３が発する音声と、クライアント端末２１－４の収音装置２１Ｃによって収音される第４ユーザが発する音声とに基づいて、第１ユーザＵＲ１が発する音声、第３ユーザＵＲ３が発する音声および第４ユーザが発する音声を仮想空間内の音声としてクライアント端末２１－２の音声出力装置２１Ｂに出力させるための第２クライアント端末用音声データを生成する。
　更に、音声データ生成部２１Ｅ２は、クライアント端末２１の収音装置２１Ｃによって収音される第１ユーザＵＲ１が発する音声と、クライアント端末２１－２の収音装置２１Ｃによって収音される第２ユーザＵＲ２が発する音声と、クライアント端末２１－４の収音装置２１Ｃによって収音される第４ユーザが発する音声とに基づいて、第１ユーザＵＲ１が発する音声、第２ユーザＵＲ２が発する音声および第４ユーザが発する音声を仮想空間内の音声としてクライアント端末２１－３の音声出力装置２１Ｂに出力させるための第３クライアント端末用音声データを生成する。
　また、音声データ生成部２１Ｅ２は、クライアント端末２１の収音装置２１Ｃによって収音される第１ユーザＵＲ１が発する音声と、クライアント端末２１－２の収音装置２１Ｃによって収音される第２ユーザＵＲ２が発する音声と、クライアント端末２１－３の収音装置２１Ｃによって収音される第３ユーザＵＲ３が発する音声とに基づいて、第１ユーザＵＲ１が発する音声、第２ユーザＵＲ２が発する音声および第３ユーザＵＲ３が発する音声を仮想空間内の音声としてクライアント端末２１－４の音声出力装置２１Ｂに出力させるための第４クライアント端末用音声データを生成する。

　図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作と、クライアント端末２１の撮影装置２１Ｄと第１ユーザＵＲ１の顔との距離とに基づいて、クライアント端末２１の音声出力装置２１Ｂによって出力される仮想空間内の音声の音量を制御する。
　音声データ生成部２１Ｅ２は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）と、クライアント端末２１－２の撮影装置２１Ｄと第２ユーザＵＲ２の顔との距離とに基づいて、クライアント端末２１－２の音声出力装置２１Ｂによって出力される仮想空間内の音声の音量を制御する。
　音声データ生成部２１Ｅ２は、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の耳に第３ユーザＵＲ３の手を当てる動作と、クライアント端末２１－３の撮影装置２１Ｄと第３ユーザＵＲ３の顔との距離とに基づいて、クライアント端末２１－３の音声出力装置２１Ｂによって出力される仮想空間内の音声の音量を制御する。また、音声データ生成部２１Ｅ２は、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザが第４ユーザの耳に第４ユーザの手を当てる動作と、クライアント端末２１－４の撮影装置２１Ｄと第４ユーザの顔との距離とに基づいて、クライアント端末２１－４の音声出力装置２１Ｂによって出力される仮想空間内の音声の音量を制御する。

　図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作と、クライアント端末２１の撮影装置２１Ｄに対する第１ユーザＵＲ１の顔の向きとに基づいて、クライアント端末２１の音声出力装置２１Ｂによって出力される仮想空間からの音声の到来方向を制御する。
　図２および図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の耳に第１ユーザＵＲ１の手を当てる動作と、クライアント端末２１の撮影装置２１Ｄに対する第１ユーザＵＲ１の顔の向きと、仮想空間内における第２アバターＡＴ２の位置、第３アバターＡＴ３の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末２１の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第２ユーザＵＲ２が発する音声、第３ユーザＵＲ３が発する音声および第４ユーザが発する音声の音量を制御する。
　また、図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）と、クライアント端末２１－２の撮影装置２１Ｄに対する第２ユーザＵＲ２の顔の向きとに基づいて、クライアント端末２１－２の音声出力装置２１Ｂによって出力される仮想空間からの音声の到来方向を制御する。
　図２および図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の耳に第２ユーザＵＲ２の手を当てる動作（図８参照）と、クライアント端末２１－２の撮影装置２１Ｄに対する第２ユーザＵＲ２の顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第３アバターＡＴ３の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末２１－２の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声、第３ユーザＵＲ３が発する音声および第４ユーザが発する音声の音量を制御する。

　更に、図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の耳に第３ユーザＵＲ３の手を当てる動作と、クライアント端末２１－３の撮影装置２１Ｄに対する第３ユーザＵＲ３の顔の向きとに基づいて、クライアント端末２１－３の音声出力装置２１Ｂによって出力される仮想空間からの音声の到来方向を制御する。
　図２および図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の耳に第３ユーザＵＲ３の手を当てる動作と、クライアント端末２１－３の撮影装置２１Ｄに対する第３ユーザＵＲ３の顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第２アバターＡＴ２の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末２１－３の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声、第２ユーザＵＲ２が発する音声および第４ユーザが発する音声の音量を制御する。
　また、図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザが第４ユーザの耳に第４ユーザの手を当てる動作と、クライアント端末２１－４の撮影装置２１Ｄに対する第４ユーザの顔の向きとに基づいて、クライアント端末２１－４の音声出力装置２１Ｂによって出力される仮想空間からの音声の到来方向を制御する。
　図２および図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザが第４ユーザの耳に第４ユーザの手を当てる動作と、クライアント端末２１－４の撮影装置２１Ｄに対する第４ユーザの顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第２アバターＡＴ２の位置および第３アバターＡＴ３の位置とに基づいて、クライアント端末２１－４の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声、第２ユーザＵＲ２が発する音声および第３ユーザＵＲ３が発する音声の音量を制御する。

　図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作と、クライアント端末２１の撮影装置２１Ｄと第１ユーザＵＲ１の顔との距離とに基づいて、クライアント端末２１－２、２１－３、２１－４のそれぞれの音声出力装置２１Ｂによって出力される仮想空間内の音声（第１ユーザＵＲ１が発する音声）の音量を制御する。
　また、音声データ生成部２１Ｅ２は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作と、クライアント端末２１－２の撮影装置２１Ｄと第２ユーザＵＲ２の顔との距離とに基づいて、クライアント端末２１、２１－３、２１－４のそれぞれの音声出力装置２１Ｂによって出力される仮想空間内の音声（第２ユーザＵＲ２が発する音声）の音量を制御する。
　更に、音声データ生成部２１Ｅ２は、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作（図９参照）と、クライアント端末２１－３の撮影装置２１Ｄと第３ユーザＵＲ３の顔との距離とに基づいて、クライアント端末２１、２１－２、２１－４のそれぞれの音声出力装置２１Ｂによって出力される仮想空間内の音声（第３ユーザＵＲ３が発する音声）の音量を制御する。また、音声データ生成部２１Ｅ２は、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザが第４ユーザの口に第４ユーザの手を当てる動作と、クライアント端末２１－４の撮影装置２１Ｄと第４ユーザの顔との距離とに基づいて、クライアント端末２１、２１－２、２１－３のそれぞれの音声出力装置２１Ｂによって出力される仮想空間内の音声（第４ユーザが発する音声）の音量を制御する。

　図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作と、クライアント端末２１の撮影装置２１Ｄに対する第１ユーザＵＲ１の顔の向きとに基づいて、第１ユーザＵＲ１が発する音声（クライアント端末２１の収音装置２１Ｃによって収音される音声）の仮想空間への出力方向を制御する。
　図２および図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１が第１ユーザＵＲ１の口に第１ユーザＵＲ１の手を当てる動作と、クライアント端末２１の撮影装置２１Ｄに対する第１ユーザＵＲ１の顔の向きと、仮想空間内における第２アバターＡＴ２の位置、第３アバターＡＴ３の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末２１－２の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声の音量を制御し、クライアント端末２１－３の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声の音量を制御し、クライアント端末２１－４の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第１ユーザＵＲ１が発する音声の音量を制御する。
　換言すれば、音声データ生成部２１Ｅ２は、クライアント端末２１の収音装置２１Ｃによって収音される第１ユーザＵＲ１が発する音声が仮想空間内に放音（出力）される方向の制御を実行する。

　また、図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作と、クライアント端末２１－２の撮影装置１１Ｄに対する第２ユーザＵＲ２の顔の向きとに基づいて、第２ユーザＵＲ２が発する音声（クライアント端末２１－２の収音装置２１Ｃによって収音される音声）の仮想空間への出力方向を制御する。
　図２および図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２が第２ユーザＵＲ２の口に第２ユーザＵＲ２の手を当てる動作と、クライアント端末２１－２の撮影装置１１Ｄに対する第２ユーザＵＲ２の顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第３アバターＡＴ３の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末２１の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第２ユーザＵＲ２が発する音声の音量を制御し、クライアント端末２１－３の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第２ユーザＵＲ２が発する音声の音量を制御し、クライアント端末２１－４の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第２ユーザＵＲ２が発する音声の音量を制御する。
　換言すれば、音声データ生成部２１Ｅ２は、クライアント端末２１－２の収音装置２１Ｃによって収音される第２ユーザＵＲ２が発する音声が仮想空間内に放音（出力）される方向の制御を実行する。

　更に、図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作（図９参照）と、クライアント端末２１－３の撮影装置２１Ｄに対する第３ユーザＵＲ３の顔の向きとに基づいて、第３ユーザＵＲ３が発する音声（クライアント端末２１－３の収音装置２１Ｃによって収音される音声）の仮想空間への出力方向を制御する。
　図２および図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３が第３ユーザＵＲ３の口に第３ユーザＵＲ３の手を当てる動作（図９参照）と、クライアント端末２１－３の撮影装置２１Ｄに対する第３ユーザＵＲ３の顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第２アバターＡＴ２の位置および第４アバターＡＴ４の位置とに基づいて、クライアント端末２１の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第３ユーザＵＲ３が発する音声の音量を制御し、クライアント端末２１－２の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第３ユーザＵＲ３が発する音声の音量を制御し、クライアント端末２１－４の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第３ユーザＵＲ３が発する音声の音量を制御する。
　また、図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザが第４ユーザの口に第４ユーザの手を当てる動作と、クライアント端末２１－４の撮影装置２１Ｄに対する第４ユーザの顔の向きとに基づいて、第４ユーザＵＲ４が発する音声（クライアント端末２１－４の収音装置２１Ｃによって収音される音声）の仮想空間への出力方向を制御する。
　図２および図１１に示す例では、音声データ生成部２１Ｅ２は、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザが第４ユーザの口に第４ユーザの手を当てる動作と、クライアント端末２１－４の撮影装置２１Ｄに対する第４ユーザの顔の向きと、仮想空間内における第１アバターＡＴ１の位置、第２アバターＡＴ２の位置および第３アバターＡＴ３の位置とに基づいて、クライアント端末２１の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第４ユーザが発する音声の音量を制御し、クライアント端末２１－２の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第４ユーザが発する音声の音量を制御し、クライアント端末２１－３の音声出力装置２１Ｂによって仮想空間内の音声として出力される、第４ユーザが発する音声の音量を制御する。

　上述したように、図１１に示す例では、クライアント端末２１の仮想空間インターフェース装置２１Ｅの表示データ生成部２１Ｅ１および音声データ生成部２１Ｅ２は、クライアント端末２１の撮影装置２１Ｄによって撮影される第１ユーザＵＲ１の顔領域に手を位置させるジェスチャ（目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作）と、クライアント端末２１の撮影装置２１Ｄと第１ユーザＵＲ１の顔との位置関係（近づく、遠ざかる、クライアント端末２１の撮影装置２１Ｄの左側を向く、クライアント端末２１の撮影装置２１Ｄの右側を向く）と、クライアント端末２１－２の撮影装置２１Ｄによって撮影される第２ユーザＵＲ２の顔領域に手を位置させるジェスチャ（目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作）と、クライアント端末２１－２の撮影装置２１Ｄと第２ユーザＵＲ２の顔との位置関係（近づく、遠ざかる、クライアント端末２１－２の撮影装置２１Ｄの左側を向く、クライアント端末２１－２の撮影装置２１Ｄの右側を向く）と、クライアント端末２１－３の撮影装置２１Ｄによって撮影される第３ユーザＵＲ３の顔領域に手を位置させるジェスチャ（目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作）と、クライアント端末２１－３の撮影装置２１Ｄと第３ユーザＵＲ３の顔との位置関係（近づく、遠ざかる、クライアント端末２１－３の撮影装置２１Ｄの左側を向く、クライアント端末２１－３の撮影装置２１Ｄの右側を向く）と、クライアント端末２１－４の撮影装置２１Ｄによって撮影される第４ユーザの顔領域に手を位置させるジェスチャ（目に手を当てる動作、耳に手を当てる動作、口に手を当てる動作）と、クライアント端末２１－４の撮影装置２１Ｄと第４ユーザの顔との位置関係（近づく、遠ざかる、クライアント端末２１－４の撮影装置２１Ｄの左側を向く、クライアント端末２１－４の撮影装置２１Ｄの右側を向く）とに基づいて、制御対象として、仮想空間内の状況を示す画像をクライアント端末２１の表示装置２１Ａに表示させるための第１クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末２１－２の表示装置２１Ａに表示させるための第２クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末２１－３の表示装置２１Ａに表示させるための第３クライアント端末用表示データ、仮想空間内の状況を示す画像をクライアント端末２１－４の表示装置２１Ａに表示させるための第４クライアント端末用表示データ、仮想空間内の音声をクライアント端末２１の音声出力装置２１Ｂに出力させるための第１クライアント端末用音声データ、仮想空間内の音声をクライアント端末２１－２の音声出力装置２１Ｂに出力させるための第２クライアント端末用音声データ、仮想空間内の音声をクライアント端末２１－３の音声出力装置２１Ｂに出力させるための第３クライアント端末用音声データ、および、仮想空間内の音声をクライアント端末２１－４の音声出力装置２１Ｂに出力させるための第４クライアント端末用音声データの少なくともいずれかを制御する。
　更に、表示データ生成部２１Ｅ１および音声データ生成部２１Ｅ２は、第１ユーザＵＲ１が手を位置させる顔領域の部位（目、耳または口）と、第２ユーザＵＲ２が手を位置させる顔領域の部位（目、耳または口）と、第３ユーザＵＲ３が手を位置させる顔領域の部位（目、耳または口）と、第４ユーザが手を位置させる顔領域の部位（目、耳または口）とに応じて、制御対象（第１～第４クライアント端末用表示データおよび第１～第４クライアント端末用音声データの少なくともいずれか）を異ならせる。

　図１２は第２実施形態の仮想空間インターフェース装置２１Ｅによって実行される処理の一例を説明するためのフローチャートである。
　図１２に示す例では、仮想空間インターフェース装置２１Ｅが、図１２に示すルーチンにおいて、第１ユーザＵＲ１によって使用されるクライアント端末２１、第２ユーザＵＲ２によって使用されるクライアント端末２１－２、第３ユーザＵＲ３によって使用されるクライアント端末２１－３および第４ユーザによって使用されるクライアント端末２１－４に仮想空間を提供する仮想空間提供ステップＳ２を実行する。
　仮想空間提供ステップＳ２には、表示データ生成ステップＳ２Ａと、音声データ生成ステップＳ２Ｂとが含まれる。
　仮想空間インターフェース装置２１Ｅは、表示データ生成ステップＳ２Ａにおいて、仮想空間内の状況を示す画像をクライアント端末２１、２１－２、２１－３、２１－４のそれぞれの表示装置２１Ａに表示させるための表示データ（第１～第４クライアント端末用表示データ）を生成する。
　また、仮想空間インターフェース装置２１Ｅは、音声データ生成ステップＳ２Ｂにおいて、仮想空間内の音声をクライアント端末２１、２１－２、２１－３、２１－４のそれぞれの音声出力装置１１Ｂに出力させるための音声データ（第１～第４クライアント端末用音声データ）を生成する。

　第２実施形態の仮想空間インターフェース装置２１Ｅが適用された仮想空間提供システム２では、第１ユーザＵＲ１、第２ユーザＵＲ２、第３ユーザＵＲ３および第４ユーザが、操作部を用いた入力操作を行う必要なく、仮想空間インターフェース装置２１Ｅによって提供される仮想空間を利用することができる。つまり、第２実施形態の仮想空間提供システム２では、第１ユーザＵＲ１、第２ユーザＵＲ２、第３ユーザＵＲ３および第４ユーザの利便性を向上させることができる。

　以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。上述した各実施形態および各例に記載の構成を適宜組み合わせてもよい。

　なお、上述した実施形態における仮想空間提供システム１、２が備える各部の機能全体あるいはその一部は、これらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１…仮想空間提供システム、１１、１１－２、１１－３、１１－４…クライアント端末、１１Ａ…表示装置、１１Ｂ…音声出力装置、１１Ｃ…収音装置、１１Ｄ…撮影装置、１２…仮想空間提供サーバ、１２Ａ…表示データ生成部、１２Ｂ…音声データ生成部、１２Ｘ…仮想空間インターフェース装置、１２Ｙ…処理装置、２…仮想空間提供システム、２１、２１－２、２１－３、２１－４…クライアント端末、２１Ａ…表示装置、２１Ｂ…音声出力装置、２１Ｃ…収音装置、２１Ｄ…撮影装置、２１Ｅ…仮想空間インターフェース装置、２１Ｅ１…表示データ生成部、２１Ｅ２…音声データ生成部、２１Ｆ…処理装置、ＮＷ…ネットワーク、ＵＲ１…第１ユーザ、ＵＲ２…第２ユーザ、ＵＲ３…第３ユーザ、ＡＴ１…第１アバター、ＡＴ２…第２アバター、ＡＴ３…第３アバター、ＡＴ４…第４アバター

Claims

　少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムに備えられる仮想空間インターフェース装置であって、
　前記クライアント端末は、
　仮想空間内の状況を示す画像を表示する表示装置と、
　前記仮想空間内の音声を出力する音声出力装置と、
　前記ユーザが発する音声を収音する収音装置と、
　前記ユーザの顔画像を撮影する撮影装置とを備え、
　前記仮想空間インターフェース装置は、
　前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための表示データを生成する表示データ生成部と、
　前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データを生成する音声データ生成部とを備え、
　前記音声データ生成部は、
　前記クライアント端末の収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、
　前記表示データ生成部および前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、
　前記表示データ生成部および前記音声データ生成部は、
　前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、
　仮想空間インターフェース装置。
　前記表示データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの目に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の表示装置によって表示される前記仮想空間内の状況を示す画像の拡大および／または縮小を制御し、
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの耳に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の音声出力装置によって出力される前記仮想空間内の音声の音量を制御し、
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの口に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の収音装置によって収音されて前記仮想空間内に出力される前記ユーザが発する音声の音量を制御する、
　請求項１に記載の仮想空間インターフェース装置。
　前記表示データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの目に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記仮想空間内における位置であって、前記クライアント端末の表示装置によって表示される画像に対応する位置を制御し、
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの耳に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記クライアント端末の音声出力装置によって出力される前記仮想空間からの音声の到来方向を制御し、
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの口に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記ユーザが発する音声の前記仮想空間への出力方向を制御する、
　請求項１に記載の仮想空間インターフェース装置。
　仮想空間インターフェース装置を備える仮想空間提供システムに備えられ、ユーザによって使用されるクライアント端末であって、
　仮想空間内の状況を示す画像を表示する表示装置と、
　前記仮想空間内の音声を出力する音声出力装置と、
　前記ユーザが発する音声を収音する収音装置と、
　前記ユーザの顔画像を撮影する撮影装置とを備え、
　前記表示装置は、前記仮想空間インターフェース装置の表示データ生成部によって生成される表示データに基づいて、前記仮想空間内の状況を示す画像を表示し、
　前記音声出力装置は、前記仮想空間インターフェース装置の音声データ生成部によって生成される音声データに基づいて、前記仮想空間内の音声を出力し、
　前記仮想空間インターフェース装置の前記音声データ生成部は、前記収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、
　前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、
　前記撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、
　前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、
　前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、
　クライアント端末。
　仮想空間インターフェース装置を備える仮想空間提供システムに備えられ、ユーザによって使用されるクライアント端末を構成するコンピュータに、
　仮想空間内の状況を示す画像を表示する表示ステップと、
　前記仮想空間内の音声を出力する音声出力ステップと、
　前記ユーザが発する音声を収音する収音ステップと、
　前記ユーザの顔画像を撮影する撮影ステップとを実行させるためのプログラムであって、
　前記表示ステップでは、前記仮想空間インターフェース装置の表示データ生成部によって生成される表示データに基づいて、前記仮想空間内の状況を示す画像が表示され、
　前記音声出力ステップでは、前記仮想空間インターフェース装置の音声データ生成部によって生成される音声データに基づいて、前記仮想空間内の音声が出力され、
　前記仮想空間インターフェース装置の前記音声データ生成部は、前記収音ステップにおいて収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、
　前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、
　前記撮影ステップにおいて撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データ、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、
　前記仮想空間インターフェース装置の前記表示データ生成部および前記音声データ生成部は、
　前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、
　プログラム。
　少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムに備えられる仮想空間インターフェース装置であって、
　前記クライアント端末は、
　仮想空間内の状況を示す画像を表示する表示装置と、
　前記ユーザの顔画像を撮影する撮影装置とを備え、
　前記仮想空間インターフェース装置は、
　前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための表示データを生成する表示データ生成部を備え、
　前記表示データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための前記表示データを制御する、
　仮想空間インターフェース装置。
　前記表示データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの目に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の表示装置によって表示される前記仮想空間内の状況を示す画像の拡大および／または縮小を制御する、
　請求項６に記載の仮想空間インターフェース装置。
　前記表示データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの目に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記仮想空間内における位置であって、前記クライアント端末の表示装置によって表示される画像に対応する位置を制御する、
　請求項６に記載の仮想空間インターフェース装置。
　少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムに備えられる仮想空間インターフェース装置であって、
　前記クライアント端末は、
　仮想空間内の音声を出力する音声出力装置と、
　前記ユーザが発する音声を収音する収音装置と、
　前記ユーザの顔画像を撮影する撮影装置とを備え、
　前記仮想空間インターフェース装置は、
　前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データを生成する音声データ生成部を備え、
　前記音声データ生成部は、
　前記クライアント端末の収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための音声データを生成し、
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、制御対象として、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための音声データ、および、前記ユーザが発する音声を前記仮想空間内に出力するための音声データの少なくともいずれかを制御し、前記ユーザが手を位置させる顔領域の部位に応じて、前記制御対象を異ならせる、
　仮想空間インターフェース装置。
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの耳に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の音声出力装置によって出力される前記仮想空間内の音声の音量を制御する、
　請求項９に記載の仮想空間インターフェース装置。
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの口に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置と前記ユーザの顔との距離とに基づいて、前記クライアント端末の収音装置によって収音されて前記仮想空間内に出力される前記ユーザが発する音声の音量を制御する、
　請求項９に記載の仮想空間インターフェース装置。
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの耳に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記クライアント端末の音声出力装置によって出力される前記仮想空間からの音声の到来方向を制御する、
　請求項９に記載の仮想空間インターフェース装置。
　前記音声データ生成部は、
　前記クライアント端末の撮影装置によって撮影される前記ユーザが前記ユーザの口に前記ユーザの手を当てる動作と、前記クライアント端末の撮影装置に対する前記ユーザの顔の向きとに基づいて、前記ユーザが発する音声の前記仮想空間への出力方向を制御する、
　請求項９に記載の仮想空間インターフェース装置。
　少なくともユーザによって使用されるクライアント端末を備える仮想空間提供システムを制御する仮想空間インターフェース制御方法であって、
　コンピュータが、仮想空間内の状況を示す画像を前記クライアント端末の表示装置に表示させるための表示データを生成し、
　コンピュータが、前記クライアント端末の収音装置によって収音される前記ユーザが発する音声を前記仮想空間内に出力するための第１音声データを生成し、
　コンピュータが、前記仮想空間内の音声を前記クライアント端末の音声出力装置に出力させるための第２音声データを生成し、
　コンピュータが、前記クライアント端末の撮影装置によって撮影される前記ユーザの顔領域に手を位置させるジェスチャと、前記クライアント端末の撮影装置と前記ユーザの顔との位置関係とに基づいて、前記ユーザが手を位置させる顔領域の部位に応じて、前記表示データ、前記第１音声データ、および、前記第２音声データの少なくともいずれかを異ならせて制御する、
　仮想空間インターフェース制御方法。