WO2023243375A1

WO2023243375A1 - 情報端末、情報処理方法、プログラム、および情報処理装置

Info

Publication number: WO2023243375A1
Application number: PCT/JP2023/019859
Authority: WO
Inventors: 崇史服部; 修一郎錦織; 裕史竹田
Original assignee: ソニーグループ株式会社
Priority date: 2022-06-17
Filing date: 2023-05-29
Publication date: 2023-12-21

Abstract

本技術は、他者の音声をより好適に提示することができるようにする情報端末、情報処理方法、プログラム、および情報処理装置に関する。本技術の情報端末は、１台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データであって、送信元の端末に関する属性情報に基づいて情報量が決定された符号化データを復号する復号部と、復号された音声情報に基づく音声を、ユーザが使用する出力機器から出力させる出力制御部とを備える。本技術は、例えば、リモート観客がライブ会場外から参加可能なリモートライブを実現するシステムに適用することができる。

Description

情報端末、情報処理方法、プログラム、および情報処理装置

　本技術は、情報端末、情報処理方法、プログラム、および情報処理装置に関し、特に、他者の音声をより好適に提示することができるようにした情報端末、情報処理方法、プログラム、および情報処理装置に関する。

　近年、多数のリモートライブイベントが開催されている。リモートライブでは、音楽や演劇などのエンターテインメントが行われるライブ会場から、演者や観客の様子を撮影した映像データが、ライブ会場外の観客（以下、リモート観客と呼ぶ）が使用する端末にリアルタイムで配信される。

　例えば、リモート観客の反応を示す音声（以下、反応音声と呼ぶ）を各リモート観客の端末で録音し、録音された反応音声の音声データを他のリモート観客に相互に送信するシステムが提案されている。このシステムにおいては、他のリモート観客の反応音声が、コンテンツの主となる演者の音声に重畳されて提示されることで、ライブイベントに対するリモート観客の参加意識が誘起され、リモート観客が熱気を感じたり、一体感を得たりすることができる。

　しかしながら、このシステムでは、多数の音声データが各リモート観客の端末に送信されるため、各端末に送信される音声データの情報量が肥大化し、通信のトラフィックが圧迫される可能性がある。

　トラフィックの圧迫を防ぐために、例えば、特許文献１には、仮想空間内でのリモート観客同士の距離などに基づいて優先度を設定し、優先度の低い音声データを送信しないことで、各端末に送信される音声データの数を減少させる方法が開示されている。また、特許文献２，３には、仮想空間内における各リモート観客の位置と仮想空間の音響特性に基づいて、仮想空間内の各観客の位置で聞こえる反応音声をサーバでシミュレーションした結果を、１つの音声データとして各端末に送信することで、各端末に送信される音声データの情報量を減らす方法が開示されている。

特開２０２０－００４３９２号公報特開２０１２－１２９８００号公報特開２０１０－２３２８６０号公報

　しかしながら、特許文献１に開示された方法では、仮想空間内で遠くにいる他のリモート観客の反応データの優先度が低く設定され、近くにいる他のリモート観客の反応データの優先度が高く設定されるため、リモート観客は、近くにいる他のリモート観客の反応音声しか聞くことができない。したがって、リモート観客が、大規模なライブイベントに特有の大人数の歓声から盛り上がりや熱気を感じられなくなり、ライブイベントに対する参加意識を誘起することができなくなる可能性がある。

　また、特許文献２，３に開示された方法では、リモートライブイベントに参加するリモート観客の人数が多くなると、シミュレーションに係るサーバでの演算量が飛躍的に増加し、演算量の増加に付随して反応音声の遅延も増加する。反応音声の遅延が増加すると、リモート観客同士が言葉によってコミュニケーションをとることが困難となり、近くにいる友人と一緒に盛り上がるといったライブイベントの醍醐味が失われてしまう。

　本技術はこのような状況に鑑みてなされたものであり、他者の音声をより好適に提示することができるようにするものである。

　本技術の第１の側面の情報端末は、１台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データであって、前記送信元の端末に関する属性情報に基づいて情報量が決定された前記符号化データを復号する復号部と、復号された前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる出力制御部とを備える。

　本技術の第１の側面の情報処理方法は、情報端末が、１台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる。

　本技術の第１の側面のプログラムは、コンピュータに、１台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる処理を実行させる。

　本技術の第２の側面の情報処理装置は、１台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データを、前記送信元の端末に関する属性情報と送信先の端末に関する属性情報とに基づいて決定された情報量の符号化データに変換する変換部と、変換済みの符号化データを前記送信先の端末に送信する送信部とを備える。

　本技術の第１の側面においては、１台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データが復号され、前記音声情報に基づく音声が、ユーザが使用する出力機器から出力される。

　本技術の第２の側面においては、１台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データが、前記送信元の端末に関する属性情報と送信先の端末に関する属性情報とに基づいて決定された情報量の符号化データに変換され、変換済みの符号化データが前記送信先の端末に送信される。

本技術を適用したリモートライブシステムの一実施形態の構成例を示す図である。伝送されるデータの例を示す図である。伝送されるデータの例を示す図である。リモートライブの様子の例を示す図である。多数のリモート観客がリモートライブに参加する場合にサーバから送信されるデータの例を示す図である。優先度に基づいて反応データが送信される場合の反応音声の聞こえ方の例を示す図である。演者端末と観客端末が受信する情報と送信する情報の例を示す図である。リモート観客同士の距離に基づく、符号化反応データの情報量の決定方法の例を示す図である。仮想空間内の各観客の位置で聞こえる反応音声をシミュレーションするサーバの処理について説明する図である。従来のリモートライブシステムにおける反応音声の遅延の例を示す図である。本技術のサーバが行う処理について説明する図である。リモート観客同士の距離に基づく処理により生じる遅延の例を示す図である。グループごとに反応音声をシミュレーションするサーバの処理について説明する図である。本技術のサーバが行うグループごとの処理について説明する図である。従来の観客端末における処理について説明する図である。本技術の観客端末における処理について説明する図である。仮想空間内の各リモート観客の位置の例を示す図である。サーバの構成例を示すブロック図である。反応音声加工選択部の詳細な構成例を示すブロック図である。サーバが行う処理について説明するフローチャートである。図２０のステップＳ２において行われる反応音声加工選択処理について説明するフローチャートである。データ選択処理と符号化品質変更処理で用いられるテーブルの例を示す図である。観客端末の構成例を示すブロック図である。反応音声合算部の詳細な構成例を示すブロック図である。観客端末が行う録音処理について説明するフローチャートである。観客端末が行う再生処理について説明するフローチャートである。図２６のステップＳ３３において行われる反応音声合算処理について説明するフローチャートである。演者端末の構成例を示すブロック図である。観客端末に送信される符号化反応データ群の例を示す図である。データ選択処理と符号化品質変更処理で用いられるテーブルの他の例を示す図である。観客端末に送信される符号化反応データ群の例を示す図である。符号化反応データに含まれるパラメータ化前の音声データと、パラメータに基づくテンプレートの音声データとの例を示す図である。サーバにおける反応音声の音声認識の結果の例を示す図である。観客端末における反応音声合算処理の流れを示す図である。通信状況に応じて切り替えられる、送信先のリモート観客宛の符号化反応データの例を示す図である。コンピュータのハードウェアの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．リモートライブシステムの概要
　２．第１の実施の形態
　３．第２の実施の形態
　４．第３の実施の形態

＜１．リモートライブシステムの概要＞
　図１は、本技術を適用したリモートライブシステムの一実施形態の構成例を示す図である。

　リモートライブシステムでは、演奏などのエンターテインメントが行われるライブ会場から、演者の様子を撮影した映像などが、ライブ会場外のリモート観客が使用する観客端末にリアルタイムで配信されるリモートライブが実現される。

　演者は、ライブイベントで演目を実施する人物である。なお、ライブ会場で行われるエンターテインメントは、ライブコンサートに限定されず、演劇やスポーツ、トークライブであってもよい。リモート観客は、ライブイベントにライブ会場外から遠隔で参加する人物である。リモート観客は、コンテンツの主となるライブ会場の映像や音声を視聴しながら、拍手をしたり、歓声を揚げたりといった、コンテンツに対する反応を行う。

　図１の例においては、自宅やカラオケボックスなどの施設内といったライブ会場外の場所でリモートライブに参加しているリモート観客Ａ，Ｂが示されている。例えばリモート観客Ａは、タブレット端末を使用してライブイベントに参加し、リモート観客Ｂは、PC(Personal Computer)を使用してライブイベントに参加している。

　なお、リモート観客（ユーザ）の数は２人に限定されるものではなく、実際には、さらに多くのリモート観客がライブイベントに参加する。

　図１のリモートライブシステムは、リモートライブの運営者により管理されるサーバ１００に対して、演者側が使用する演者端末とリモート観客Ａ，Ｂが使用する観客端末がインターネットなどのネットワークを介して接続されることにより構成される。なお、演者端末とサーバ１００が無線または有線により直接接続されるようにしてもよい。

　ライブ会場では、演者の様子を撮影した映像である配信映像の映像データがビデオカメラなどにより取得される。また、ライブ会場では、演者の音声などを集音した音声である配信音声の音声データがミキサなどにより取得される。以下では、ビデオカメラやミキサなどの収録装置は、演者端末に含まれるとする。なお、ライブ会場にも観客がいる場合、演者とともに観客の様子を撮影した配信映像、および、演者の音声とともに観客の歓声などを集音した配信音声が、ライブ会場で取得されるようにしてもよい。

　観客端末においては、リモート観客Ａ，Ｂそれぞれがコンテンツに対する反応として発した歓声、拍手、合いの手などの音声（以下では、反応音声と称する）を集音した結果の音声データ（以下では、反応データと称する）が、反応音声を示す音声情報として取得される。

　リモートライブの期間中、図２の太線の矢印で示すように、ライブ会場で取得された配信映像の映像データと配信音声の音声データは、符号化された後にサーバ１００に送信される。また、細線の矢印で示すように、観客端末において取得された反応データは、符号化された後にサーバ１００に送信される。

　サーバ１００は、図３の実線の矢印で示すように、配信映像の映像データと配信音声の音声データを各観客端末に送信する。また、サーバ１００は、二重線の矢印で示すように、反応データを演者端末と各観客端末に送信する。具体的には、サーバ１００は、全てのリモート観客の反応データを演者端末に送信する。また、サーバ１００は、リモート観客Ａ以外の反応データを、リモート観客Ａが使用する観客端末に送信し、リモート観客Ｂ以外の反応データを、リモート観客Ｂが使用する観客端末に送信する。

　演者端末は、サーバ１００から送信されてきた各リモート観客の反応データを受信し、必要に応じて反応音声を加工して演者に提示する。

　各観客端末は、サーバ１００から送信されてきた配信映像の映像データと配信音声の音声データを受信し、配信映像と配信音声をリモート観客に提示する。例えば、配信映像は図示せぬディスプレイで表示され、配信音声は図示せぬスピーカから出力される。ディスプレイやスピーカは、リモート観客が使用する出力機器である。また、各観客端末は、サーバ１００から送信されてきた複数の反応データを受信し、必要に応じて反応音声を加工する。各観客端末は、反応音声を配信音声に重畳してリモート観客に提示する。

　なお、反応データとともに、リモート観客の顔や動きの様子を撮影した映像の映像データや、リモート観客の触覚に関する触覚情報のデータが観客端末により取得され、他の観客端末に送信されるようにしてもよい。例えば、他のリモート観客の観客端末において、リモート観客を撮影した映像に基づいて、リモート観客が動く様子を示すアバタの映像が提示される。また、触覚情報に基づいて、仮想空間内でのリモート観客同士のハイタッチなどの身体の触れ合いや、リモート観客がペンライトを把持する強さ、ペンライトを振る激しさなどが再現される。

　図４は、リモートライブの様子の例を示す図である。

　リモートライブに参加する多数のリモート観客は、例えば、図４のＡに示すように、仮想空間内の所定の位置に配置される。多数のリモート観客のうちの例えばリモート観客Ｕ１には、配信映像が提示されるとともに、同じ仮想空間内に配置された他のリモート観客の反応音声が配信音声に重畳されて提示される。

　反応音声が配信音声に重畳されてリモート観客Ｕ１に提示されることにより、リモート観客Ｕ１は、図４のＢの吹き出し＃１で示す演者の配信音声に加えて、吹き出し＃２で示す仮想空間内にいる他のリモート観客の反応音声を同時に聞くことができる。

　ライブ会場内で参加するような通常のライブイベントでは、観客にとって、他の観客の歓声や動きといった反応を知ることが、熱気を感じたり、一体感を得たりするために重要な要素となる。しかしながら、ライブ会場外で参加する従来のリモートライブイベントでは、他のリモート観客の反応がリモート観客に伝わりにくい。

　本技術のリモートライブシステムにおいては、配信音声に加えて反応音声がリモート観客に提示されることで、ライブイベントに対するリモート観客の参加意識が誘起され、リモート観客が熱気を感じたり、一体感を得たりすることが可能となる。

　図５は、多数のリモート観客がリモートライブに参加する場合にサーバ１００から送信されるデータの例を示す図である。

　多数のリモート観客がリモートライブに参加する場合、リモートライブシステムでは、図５の二重線の太矢印で示すように、多数の反応データが演者端末と各観客端末に送信されるため、演者端末と各観客端末に送信される反応データの情報量が肥大化し、通信のトラフィックが圧迫される可能性がある。例えば、特許文献１乃至特許文献３には、トラフィックの圧迫を防ぐための方法が開示されている。

　図６は、優先度に基づいて反応データが送信される場合の反応音声の聞こえ方の例を示す図である。

　特許文献１に開示された方法では、例えば、図６の上側に示すように、仮想空間内でリモート観客Ｕ１の周りにいる多数の他のリモート観客の反応データのうち、遠くにいる他のリモート観客の反応データの優先度が低く設定され、近くにいる他のリモート観客の反応データの優先度が高く設定される。

　この場合、リモート観客Ｕ１にとって遠くにいる他のリモート観客の反応データは、リモート観客Ｕ１の観客端末に送信されないため、リモート観客Ｕ１にとって遠くにいる他のリモート観客の反応音声はリモート観客Ｕ１に提示されない。一方、リモート観客Ｕ１の近くにいる他のリモート観客の反応データが、リモート観客Ｕ１の観客端末に送信されて、リモート観客Ｕ１の近くにいる他のリモート観客の反応音声だけがリモート観客Ｕ１に提示される。

　したがって、リモート観客Ｕ１は、図６の下側の破線で示される、遠くにいる他のリモート観客の反応音声を聞くことができず、図６の下側において灰色で塗られている、リモート観客Ｕ１の近くにいる他のリモート観客の反応音声だけを聞くことになる。近くにいる他のリモート観客の反応音声だけが提示されると、大規模なライブイベントに特有の大人数の歓声から感じられるはずの盛り上がりや熱気をリモート観客Ｕ１が感じられなくなり、ライブイベントに対する参加意識を誘起することができなくなる可能性がある。

　そこで、本技術のリモートライブシステムは、各観客端末に送信される反応データの情報量を、各観客端末に関する属性情報に基づいて変化させることで、トラフィックの圧迫を防ぐ。

　図７は、演者端末と観客端末が受信する情報と送信する情報の例を示す図である。

　図７の例では、演者端末は、全てのリモート観客の反応データを受信し、配信映像の映像データと配信音声の音声データを送信する。

　リモート観客Ａが使用する観客端末は、サーバ１００から送信されてくる配信映像の映像データと配信音声の音声データを受信するとともに、サーバ１００から送信されてくるリモート観客Ａ以外のリモート観客の反応データを受信する。リモート観客Ａが使用する観客端末は、リモート観客Ａの反応データをサーバ１００に送信するとともに、当該観客端末に関する属性情報をサーバ１００に送信する。

　リモート観客Ｂが使用する観客端末は、サーバ１００から送信されてくる配信映像の映像データと配信音声の音声データを受信するとともに、サーバ１００から送信されてくるリモート観客Ｂ以外のリモート観客の反応データを受信する。リモート観客Ｂが使用する観客端末は、リモート観客Ｂの反応データをサーバ１００に送信するとともに、当該観客端末に関する属性情報をサーバ１００に送信する。

　なお、配信映像の映像データや配信音声の音声データは、配信映像の映像データや配信音声の音声データが符号化されたデータである配信データの形で、リモートライブシステムを構成する各装置間においてやり取りされる。また、反応データは、反応データが符号化されたデータである符号化反応データの形で、リモートライブシステムを構成する各装置間においてやり取りされる。

　属性情報は、例えば、観客端末を使用するリモート観客の仮想空間上の位置を示す情報である。属性情報がリモート観客の仮想空間上の位置を示す場合、サーバ１００は、属性情報に基づいて、リモート観客同士の仮想空間上の距離を算出し、リモート観客同士の距離に基づいて、各観客端末に送信する符号化反応データの情報量を変化させる。

　図８は、リモート観客同士の距離に基づく、符号化反応データの情報量の決定方法の例を示す図である。

　まず、サーバ１００は、図８の上側に示す仮想空間内でリモート観客Ｕ１の周りにいる多数の他のリモート観客を、図８の下側に示すように、例えば４つのグループに分ける。

　図８の例では、リモート観客Ｕ１とリモート観客Ｕ１の近くにいる他のリモート観客とにより構成されるグループＡ１、および、リモート観客Ｕ１から遠くにいる他のリモート観客により構成されるグループＡ２乃至Ａ４に、リモート観客がそれぞれ分けられている。

　リモート観客Ｕ１に反応データを送信する場合、サーバ１００は、グループＡ１の優先度を高く設定し、グループＡ１に所属するリモート観客の符号化反応データの符号化品質を高くする。一方、サーバ１００は、グループＡ２乃至Ａ４の優先度を低く設定し、グループＡ２乃至Ａ４に所属するリモート観客の符号化反応データの符号化品質を低くする。なお、グループＡ２乃至Ａ４に所属するリモート観客の符号化反応データが、グループごとに１つの符号化反応データとして合算されるようにしてもよい。

　符号化品質に応じて生じる音質の劣化が分かりやすいグループＡ１のリモート観客の符号化反応データが高品質で送信されることで、リモート観客Ｕ１は音質の劣化を感じにくくなる。音質の劣化が分かりにくいグループＡ２乃至Ａ４のリモート観客の反応データが低品質で送信されることで、全てのリモート観客の符号化反応データを同じ品質で送信する場合よりも、リモート観客Ｕ１の観客端末に送信される符号化反応データの合計の情報量を大幅に削減することが可能となる。

　リモート観客の人数が多いほど、リモート観客Ｕ１にとって遠くにいるリモート観客とみなされるリモート観客の人数が増えるため、より多くの符号化反応データの符号化品質を低くすることができる。したがって、リモートライブイベントの規模が大きくなるほど、各観客端末に送信される符号化反応データにおいて削減される情報量も大きくなる。

　上述したように、特許文献１に開示された方法では、遠くにいる他のリモート観客の符号化反応データがリモート観客Ｕ１の観客端末に送信されないが、本技術のリモートライブシステムでは、遠くにいる他のリモート観客の符号化反応データも、符号化品質を変化させることで情報量を削減しながら、リモート観客Ｕ１の観客端末に送信される。観客端末は、遠くにいる多数のリモート観客の歓声が聞こえる状況を再現することができるため、リモート観客Ｕ１は、多数のリモート観客の歓声から熱気を感じたり、一体感を得たりすることが可能となる。

　一方、特許文献２，３に開示された方法では、リモートライブイベントに参加するリモート観客の人数が多くなると、シミュレーションに係るサーバでの演算量が飛躍的に増加してしまうため、特許文献２，３に開示された方法が適用されたリモートライブシステムは、大規模なライブイベントでの利用に適していない。

　図９は、仮想空間内の各観客の位置で聞こえる反応音声をシミュレーションするサーバ１００Ａの処理について説明する図である。

　以下では、Ｎ人のリモート観客がリモートライブイベントに参加するとして説明を行う。図９の例では、３人のリモート観客Ａ乃至Ｃがリモートライブイベントに参加している（Ｎ＝３）。

　図９に示すように、まず、サーバ１００ＡにはＮ人分の符号化反応データが入力され、サーバ１００ＡはＮ人分の符号化反応データをデコードする。したがって、サーバ１００Ａでは、Ｎ回のデコードが行われる。

　次に、サーバ１００Ａは、仮想空間内の各観客の位置で聞こえる反応音声をシミュレーションする処理をＮ人分だけ行う。

　図９の例では、サーバ１００Ａは、リモート観客Ｂの反応データとリモート観客Ｃの反応データを合算する処理、および、各リモート観客の位置関係に応じた音響特性の畳み込み処理を行うことで、リモート観客Ａに提示するための１つの反応データを生成する。同様に、サーバ１００Ａは、リモート観客Ｃの反応データとリモート観客Ａの反応データを合算する処理、および、各リモート観客の位置関係に応じた音響特性の畳み込み処理を行うことで、リモート観客Ｂに提示するための１つの反応データを生成する。また、サーバ１００Ａは、リモート観客Ａの反応データとリモート観客Ｂの反応データを合算する処理、および、各リモート観客の位置関係に応じた音響特性の畳み込み処理を行うことで、リモート観客Ｃに提示するための１つの反応データを生成する。

　つまり、１人分のシミュレーション処理につき、Ｎ－１人分の反応データを合算し、Ｎ－１回の畳み込み処理を行う必要がある。したがって、Ｎ人分のシミュレーション処理において、Ｎ（Ｎ－１）回の合算処理と畳み込み処理が行われる。Ｎの２乗のオーダーで合算処理と畳み込み処理が行われるため、Ｎが大きくなると、サーバ１００Ａの演算量が膨大になる。

　多数の反応データを用いてシミュレーション処理を行うためには、サーバ１００Ａにおいて各符号化反応データを受信するまでの待ち時間が必要となり、再生時の反応音声の遅延も増加してしまう。

　特許文献２，３に開示された方法では、図１０の円で囲んで示される、例えば、リモート観客Ｕ１と同じ仮想空間内にいるリモート観客Ｕ１を除く全てのリモート観客の反応データが合算されて、リモート観客Ｕ１の観客端末に送信される。全てのリモート観客の反応データが合算されるため、仮想空間上のリモート観客同士の距離に関わらず、図１０の吹き出しに示すように、全てのリモート観客の反応音声に大きな遅延が発生する可能性がある。

　反応音声の遅延が増加すると、リモート観客同士が言葉によってコミュニケーションをとることが困難となり、近くにいる友人と一緒に盛り上がるといったライブイベントの醍醐味が失われてしまう。

　本技術のリモートライブシステムにおいては、各観客装置に送信される符号化反応データの情報量を、各観客端末に関する属性情報に基づいて変化させることで、特許文献２，３に開示された方法よりも演算量が大幅に少なくなり、遅延についても実用上問題なくなるように対処することが可能となる。

　属性情報は、例えば、観客端末を使用するリモート観客の仮想空間上の位置を示す情報、および、各観客端末とサーバ１００の間の通信状況を示す情報を含む。サーバ１００は、属性情報に基づいて、例えば、符号化反応データを合算するか否かや符号化反応データの符号化品質を変更するか否かを動的に変更させる。

　図１１は、本技術のサーバ１００が行う処理について説明する図である。図１１の例では、リモート観客Ａの観客端末とサーバ１００の間の通信状況が不良であり、リモート観客Ｂおよびリモート観客Ｃの各観客端末とサーバ１００の間の通信状況が良好であるとする。

　図１１に示すように、サーバ１００にはＮ人分の符号化反応データが入力される。サーバ１００は、符号化反応データのデコードと畳み込み処理を行わない。デコードと畳み込み処理を行わない代わりに、サーバ１００は、符号化反応データに対して、デコード処理の全てを行わずに可能な合算処理や符号化品質の変更処理を行う。

　以降で述べる合算処理や符号化品質の変更処理では、符号化反応データを完全にデコードしてPCMデータの形式にする必要がない。したがって、これらの処理は、符号化反応データを完全にデコードしPCMデータを得てから、畳み込みを行う従来の方法に比較して少ない演算量で実施できる。本明細書では使用する符号化方法を規定しないが、一般的なオーディオ符号化方法を想定して、合算処理と符号化品質の変更処理について具体例を述べる。

　まず、符号化品質の変更処理について述べる。通常、符号化反応データは、例えばハフマン符号を用いてエントロピー符号化が行われた“符号化ビット列”となっている。そこで、サーバ１００は、この符号化ビット列の復号だけを行い、得られたデータに対してビット割り当て量の再調整を行って再量子化し、エントロピー符号化を再度行うようにする。この方法により、少ない演算量で符号化品質の変更（制限）ができる。

　合算処理についても、サーバ１００は、音声符号化のデコード処理における周波数領域から時間領域への変換（例えばIMDCT(Inverse Modified Discrete Cosine Transform)）を行う前の段階までを実施し、周波数領域で合算してから、量子化・エントロピー符号化を行うようにする。この方法により、合算する符号化反応データの数だけ必要であった周波数領域から時間領域への変換処理、および、時間領域から周波数領域への変換（例えば、MDCT(Modified Discrete Cosine Transform)など）の処理を省略することができる。

　図１１の例では、リモート観客Ａの観客端末とサーバ１００の間の通信状況が不良であるため、サーバ１００は、リモート観客Ｂの符号化反応データとリモート観客Ｃの符号化反応データを合算する処理、および、合算済みの符号化反応データの符号化品質を変更する処理を行うことで、リモート観客Ａに提示するための１つの符号化反応データを生成する。

　また、リモート観客Ｂの観客端末とサーバ１００の間の通信状況が良好であるため、サーバ１００は、リモート観客Ｃの符号化反応データとリモート観客Ａの符号化反応データをそのまま、リモート観客Ｂに送信される符号化反応データとする。リモート観客Ｃの観客端末とサーバ１００の間の通信状況が良好であるため、サーバ１００は、リモート観客Ａの符号化反応データとリモート観客Ｂの符号化反応データをそのまま、リモート観客Ｃに送信される符号化反応データとする。なお、図１１の例では、リモート観客Ｂとリモート観客Ｃに送信される符号化反応データの数は２つであるが、実際には、各リモート観客に送信される符号化反応データの数は動的に変化する。

　サーバ１００において、全ての符号化反応データに対して、デコード処理の全てを行わずに可能な合算処理や符号化品質の変更処理が行われることで、サーバ１００の演算負荷を小さくすることができる。サーバ１００においては、通信状況が良好な観客端末に対して、他の観客端末から送信されてきた符号化反応データがパススルーされて送信される（低遅延パス）ため、デコードや合算、符号化品質の変更などの処理による演算量の増加や遅延の発生を抑えることができる。

　以上のように、本技術のリモートライブシステムは、特許文献２，３に開示された方法が適用されたリモートライブシステムよりも低演算量かつ低遅延なシステムとなる。

　なお、リモート観客同士の距離に基づいて、反応音声を合算するか否かや反応音声の符号化品質を変更するか否かを動的に変更させることも可能である。

　図１２は、リモート観客同士の距離に基づく処理により生じる遅延の例を示す図である。

　図１２の例でも、リモート観客Ｕ１とリモート観客Ｕ１の近くにいる他のリモート観客とにより構成されるグループＡ１と、リモート観客Ｕ１から遠くにいる他のリモート観客により構成されるグループＡ２乃至Ａ４とに、リモート観客がそれぞれ分けられている。

　リモート観客Ｕ１に符号化反応データを送信する場合、サーバ１００は、グループＡ１に所属するリモート観客の符号化反応データに対して、例えば合算と符号化品質の変更を行わない。したがって、グループＡ１に所属するリモート観客の反応音声は、リモート観客Ｕ１に低遅延で提示される。一方、サーバ１００は、例えば、グループＡ２乃至Ａ４に所属するリモート観客の符号化反応データをグループごとに合算し、合算済みの符号化反応データの符号化品質を変更する。したがって、グループＡ２乃至Ａ４に所属するリモート観客の反応音声は、遅延が生じた状態でリモート観客Ｕ１に提示される。

　同じグループに所属するリモート観客の反応音声は、低遅延かつ高品質でリモート観客Ｕ１に提示されるため、リモート観客Ｕ１は、同じグループに所属するリモート観客と言葉によるコミュニケーションをとることが可能となる。なお、仮想空間内で遠くにいるリモート観客の反応音声の遅延は大きいが、通常、言葉によるコミュニケーションをとるのは近くにいる人に限られるため、近くにいるリモート観客の反応音声の遅延を小さくできれば十分である。

　以上のように、サーバ１００においては、１台または複数台の観客端末により集音された音声を示す音声情報としての符号化反応データの情報量が、少なくとも送信元の観客端末に関する属性情報に基づいて決定され、符号化品質の変更などによって情報量が調整された符号化反応データが符号化反応データとして送信先の各リモート観客の観客端末に送信される。

　具体的には、サーバ１００において、仮想空間内で遠くにいるリモート観客の符号化反応データの送信については、合算や符号化品質変更によってトラフィックを削減する効果が遅延の発生よりも優先され、近くにいる限られたリモート観客の符号化反応データの送信については、遅延を低減させることと高品質なデータを送信することとがトラフィックの削減よりも優先される。サーバ１００は、遅延によるデメリットを最小限としながらトラフィックを削減することが可能となる。

　なお、リモート観客をグループに分け、グループごとに１つの反応データを生成することで、サーバの演算量を低減させることが考えられる。

　図１３は、グループごとに反応音声をシミュレーションするサーバ１００Ａの処理について説明する図である。図１３の例では、リモート観客Ａがグループ１に所属し、リモート観客Ｂとリモート観客Ｃがグループ２に所属している。

　グループごとに反応音声をシミュレーションする場合、図１３に示すように、サーバ１００Ａは、リモート観客Ｂの反応データとリモート観客Ｃの反応データを合算する処理、および、グループ１を代表する位置とリモート観客Ｂ，Ｃの位置との関係に応じた音響特性の畳み込み処理を行うことで、グループ１に所属するリモート観客Ａに提示するための１つの反応データを生成する。同様に、サーバ１００Ａは、リモート観客Ａ乃至Ｃの反応音声を合算する処理、および、グループ２を代表する位置とリモート観客Ａ乃至Ｃの位置の関係に応じた音響特性の畳み込み処理を行うことで、グループ２に所属するリモート観客Ｂ，Ｃに提示するための１つの反応データを生成する。

　合算処理や畳み込みの処理がグループごとに１回で済むため、サーバ１００Ａの演算量を削減することができる。しかし、Ｎ人分の符号化反応データをデコードして、反応データの合算処理や畳み込み処理を行うといった１人分のシミュレーション処理は、送信先のリモート観客ごとに反応音声をシミュレーションする場合の１人分のシミュレーション処理と変わらないため、遅延の低減には効果がない。

　また、この方法では、各リモート観客に対して、自身の反応音声も含まれた音声が提示されることになるので、違和感の要因となりうる。この理由を説明する。

　図１３に示したように、グループ２（リモート観客Ｂ，Ｃ）に提示するための反応データは、リモート観客Ａの反応データに加えて、リモート観客Ｂ，Ｃ自身の反応データも用いて生成される。なぜなら、グループ２に提示するための反応データは、リモート観客Ｂに提示するための反応データと、リモート観客Ｃに提示するための反応データを兼ねているからである。

　換言すれば、リモート観客Ｂに提示される音声にはリモート観客Ｃの反応音声が必要であり、リモート観客Ｃに提示される音声にはリモート観客Ｂの反応音声が必要であり、そのような条件を１つの反応データで同時に満たすためには、リモート観客Ｂ，Ｃ両者の反応データを用いて、グループ２に提示するための反応データを生成する必要がある。

　一方、グループ１にはリモート観客Ａしか所属してしない。したがって、グループ１（リモート観客Ａ）に提示するための反応データを、リモート観客Ａ自身の反応データを用いずに生成することも可能である。

　しかし、リモート観客をグループに分ける目的は、演算量の低減であるから、通常、グループ２のように、各グループには最低２人以上のリモート観客が含まれることが望ましい。したがって、この方法では、各リモート観客に対して、通常、自分自身の音声も含まれた反応音声が提示されてしまう。

　図１４は、本技術のサーバ１００が行うグループごとの処理について説明する図である。図１４の例でも、図１３と同様に、リモート観客Ａがグループ１に所属し、リモート観客Ｂとリモート観客Ｃがグループ２に所属している。

　図１４に示すように、サーバ１００にはＮ人分の符号化反応データが入力される。サーバ１００は、符号化反応データのデコードと畳み込み処理を行わない。デコードと畳み込み処理を行わない代わりに、サーバ１００は、符号化反応データに対して、デコード処理の全てを行わずに可能な合算処理や符号化品質の変更処理をグループごとに行う。

　図１４の例では、サーバ１００は、グループ２に所属するリモート観客Ｂの符号化反応データとリモート観客Ｃの符号化反応データを合算する処理、および、合算済みの符号化反応データの符号化品質を変更する処理を行うことで、グループ１に所属するリモート観客Ａに提示するための１つの符号化反応データを生成する。

　また、サーバ１００は、グループ１に所属するリモート観客Ａの符号化反応データを合算する処理、および、合算済みの符号化反応データの符号化品質を変更する処理を行うことで、グループ２に所属するリモート観客Ｂ，Ｃに提示するための１つの符号化反応データを生成する。

　さらに、サーバ１００は、リモート観客Ｃの符号化反応データをそのまま、リモート観客Ｂに送信される符号化反応データとし、リモート観客Ｂの符号化反応データをそのまま、リモート観客Ｃに送信される符号化反応データとする。

　本技術のサーバ１００においては、入力された符号化反応データのデコード処理を全て行わずに合算処理などが行われるため、サーバ１００の演算量は少ない。したがって、グループごとに符号化反応データを処理する場合でも、特許文献２に開示された方法と比較して、本技術のサーバ１００の演算負荷は低くなる。また、本技術のサーバ１００は、同一グループに所属する他のリモート観客の符号化反応データを、そのまま送ることができるので、各リモート観客に対して、自分自身の音声も含まれた反応音声が提示されてしまうといった、上述した問題を回避できる。

　サーバ１００においては、シミュレーション処理が行われずに、複数の符号化反応データが観客端末に送信されるため、観客端末においても、本技術と特許文献２に開示された方法とで異なる処理が行われる。

　図１５は、従来の観客端末における処理について説明する図である。

　特許文献２に開示された方法における観客端末は、図１５に示すように、サーバ１００Ａから送信されてきた符号化反応データを受信し、符号化反応データを復号して取得された反応データで示される重畳音声を配信音声に重畳して再生する。重畳音声は、仮想空間内で聞こえる複数の他のリモート観客の反応音声をシミュレーションした結果の音声である。

　シミュレーション済みの重畳音声のデータがサーバ１００Ａから送信されてくるため、観客端末は、重畳音声をそのまま再生することになる。したがって、観客端末における他のリモート観客の反応音声の再生方法の自由度は低い。

　図１６は、本技術の観客端末における処理について説明する図である。図１６の例では、リモート観客Ａ乃至Ｃのうちのリモート観客Ａが使用する観客端末について説明する。

　本技術の観客端末は、図１６の＃１１に示すように、リモート観客Ｂの符号化反応データとリモート観客Ｃの符号化反応データを受信し、これらの符号化反応データを復号して取得された反応データに対して合算処理と畳み込み処理を行う。すなわち、本技術の観客端末では、特許文献２に開示された方法におけるサーバ１００Ａで行われていたシミュレーション処理に相当する処理が行われる。したがって、観客端末は、受信した１つ以上の反応データに基づいて重畳音声のデータをローカルで生成する。換言すれば、本技術のリモートライブシステムでは、シミュレーション処理が、サーバ１００内で一括して行われるのではなく、各観客端末で分散して行われる。

　合算処理と畳み込み処理を行った後、観客端末は、図１６の＃１２に示すように、重畳音声を配信音声に重畳して再生する。

　反応データに対する合算処理と畳み込み処理が観客端末で行われるため、観客端末は、例えば、図１６の吹き出しに示すように、リモート観客Ａにとってリモート観客Ｃは友人なので、リモート観客Ｂの反応音声よりもリモート観客Ｃの反応音声を大きく出力させるといったように、リモート観客ごとに反応音声の大きさを調整することができる。このように、本技術を用いることで、観客端末における他のリモート観客の反応音声の再生方法の自由度を高めることができる。

　以上のように、本技術のリモートライブシステムは、各観客端末に送信される符号化反応データの情報量を変化させることで、サーバ１００における演算量や遅延時間を状況に応じて調整し、高い臨場感や、熱気、一体感などを演出するような反応音声をリモート観客に提示することが可能となる。

＜２．第１の実施の形態＞
・実施の形態の概要
　第１の実施の形態においては、サーバ１００に送信されてきた各リモート観客の符号化反応データが、リモート観客ごとのビットストリームとして各観客端末に送信される。

　図１７は、仮想空間内の各リモート観客の位置の例を示す図である。

　以下では、３６人のリモート観客１乃至３６が１つの仮想空間内にいるとする。図１７に示される１乃至３６の数字は、リモート観客１乃至３６のそれぞれに割り当てられた観客IDを示す。図１７においては、１乃至３６の数字を囲む矩形の位置が各リモート観客の仮想的な位置となる。リモート観客１乃至３６は、例えば、各位置に配置される座席に仮想的に座ってライブコンサートを鑑賞する。

　リモート観客１乃至３６のそれぞれは、仮想空間内の位置に基づいて例えば４つのグループに分けられる。図１７の例では、リモート観客１乃至９がグループ１に分けられ、リモート観客１０乃至１８がグループ２に分けられる。また、リモート観客１９乃至２７がグループ３に分けられ、リモート観客２８乃至３６がグループ４に分けられる。

　例えばリモート観客５の観客端末に、リモート観客５以外のリモート観客の符号化反応データを送信する場合、サーバ１００は、リモート観客５が所属するグループであるグループ１に所属するリモート観客１乃至４とリモート観客６乃至９の８人分の符号化反応データを符号化品質（ビットレート）を変換せずに送信する。例えば、観客端末からサーバ１００に送信される符号化反応データの元々のビットレートが64kbpsであるとすると、リモート観客５の観客端末に送信されるリモート観客１乃至４とリモート観客６乃至９の符号化反応データのビットレートも64kbpsとなる。

　また、サーバ１００は、グループ２に所属するリモート観客１０乃至１８の９人分の符号化反応データのビットレートを例えば64kbpsから20kbpsに変換し、ビットレートが変換された符号化反応データをリモート観客５の観客端末に送信する。

　サーバ１００は、グループ３に所属するリモート観客１９乃至２７の９人分の符号化反応データのビットレートを例えば64kbpsから20kbpsに変換し、ビットレートが変換された符号化反応データをリモート観客５の観客端末に送信する。

　サーバ１００は、グループ４に所属するリモート観客２８乃至３６の９人分の符号化反応データのビットレートを例えば64kbpsから10kbpsに変換し、ビットレートが変換された符号化反応データをリモート観客５の観客端末に送信する。

　以上のように、サーバ１００は、送信先のリモート観客が所属するグループと同じグループに割り当てられたリモート観客の符号化反応データを高品質で送信する、または、符号化品質を変更せずに送信する。また、サーバ１００は、送信先のリモート観客が所属するグループ以外のグループに所属するリモート観客の符号化反応データを低品質で送信する。

　元々の各符号化反応データのビットレートが64kbpsであるとすると、全ての符号化反応データをそのまま各観客端末に送信する場合、各観客端末に送信される符号化反応データの情報量の合計は、64×35＝2240[kbps]になる。サーバ１００は、他のグループに所属するリモート観客の符号化反応データを低品質に変換することで、各観客端末に送信される符号化反応データの情報量の合計を、64×8＋20×9＋20×9＋10×9＝962[kbps]に抑えることができる。

・サーバの構成
　図１８は、サーバ１００の構成例を示すブロック図である。

　図１８に示すように、サーバ１００は、受信部１０１、反応音声加工選択部１０２、および送信部１０３により構成される。

　受信部１０１は、ネットワークを介して複数の観客端末のそれぞれから送信されてきた符号化反応データと属性情報を受信する。また、受信部１０１は、演者端末から送信されてきた配信データを受信する。

　受信部１０１は、各端末に関する属性情報を反応音声加工選択部１０２と送信部１０３に供給する。図１８においては、属性情報が反応音声加工選択部１０２に補助情報として入力されることが破線の矢印で示される。後述する他のブロックにおいても、同様に、属性情報が各構成に補助情報として入力されることが破線の矢印で示される。受信部１０１は、各リモート観客の符号化反応データを反応音声加工選択部１０２に供給し、配信データを送信部１０３に供給する。

　図１８においては、複数の情報が各構成でやり取りされることが太線の矢印で示される。後述して説明する他のブロック図においても同様である。

　反応音声加工選択部１０２は、受信部１０１から供給された各リモート観客の符号化反応データと、各観客端末に関する属性情報とに基づいて、各観客端末に送信される符号化反応データ群を生成し、送信部１０３に供給する。リモート観客の数がＮ人である場合、各観客端末に対して最大でＮ－１人分の符号化反応データが送信されるため、反応音声加工選択部１０２は、最大で合計Ｎ（Ｎ－１）人分の符号化反応データを生成する。

　送信部１０３は、受信部１０１から供給された属性情報と配信データ、および、反応音声加工選択部１０２から供給された符号化反応データ群を、ネットワークを介して観客端末に送信する。また、送信部１０３は、符号化反応データ群をネットワークを介して演者端末に送信する。なお、配信データ、属性情報、および符号化反応データ群は、ネットワークを介した送信に適した形式に変換されて、観客端末や演者端末に送信される。

　図１９は、反応音声加工選択部１０２の詳細な構成例を示すブロック図である。

　図１９に示すように、反応音声加工選択部１０２は、複数の変換部１１１Ａ乃至１１１Ｚとデータ選択部１１２を備える。

　図１９においては、説明の都合上、反応音声加工選択部１０２に２６個の変換部１１１Ａ乃至１１１Ｚが設けられるとしたが、実際には、変換部１１１Ａ乃至１１１Ｚは、観客端末に送信される符号化反応データの符号化品質のパターンの数だけ設けられる。なお、以下では、変換部１１１Ａ乃至１１１Ｚをそれぞれ区別する必要がない場合、単に変換部１１１と称する。

　変換部１１１は、各観客の符号化反応データと、各端末に関する属性情報とを受信部１０１から取得し、各符号化反応データの符号化品質を、変換部１１１Ａ乃至１１１Ｚにそれぞれ対応する符号化品質に変換する。例えば、変換部１１１Ａは、符号化反応データの符号化品質を10kbpsに変換し、変換部１１１Ｂは、符号化反応データの符号化品質を20kbpsに変換する。

　例えば10kbps，20kbps，…といったように、符号化反応データがＭ個のパターンに変換される場合、Ｎ個の符号化反応データが入力されるとすると、複数の変換部１１１によって、合計でＭＮ個の符号化反応データが生成され、データ選択部１１２に供給される。なお、例えば、前述したように10kbps, 20kbps,…といったように10kbpsごとに昇順でビットレートが変化するパターンであってもよいし、ビットレートの値がユーザによって任意に設定されてもよい。また、各端末からの属性情報や符号化反応データ、通信状況やサーバ１００の電力状況等に応じてビットレートのパターンが変更されるようにしてもよい。

　データ選択部１１２は、変換済みのＭＮ個の符号化反応データを変換部１１１Ａ乃至１１１Ｚから取得し、符号化品質を変換していない（パススルーされた）符号化反応データを受信部１０１から取得する。また、データ選択部１１２は、各観客端末に関する属性情報を受信部１０１から取得し、属性情報に基づいて、各観客端末に送信される符号化反応データを、変換済みの符号化反応データおよび変換されていない符号化反応データの中から選択して割り振る。データ選択部１１２は、リモート観客１乃至Ｎのそれぞれ宛の符号化反応データ群を送信部１０３に供給する。

　データ選択部１１２には、ＭＮ個の変換済みの符号化反応データとＮ個の変換されていない符号化反応データが入力されるため、合計でＭＮ＋Ｎ個の符号化反応データが入力される。一方、Ｎ台の各観客端末に対して最大でＮ－１人分の符号化反応データが送信されるため、データ選択部１１２からは、最大でＮ（Ｎ－１）個の符号化反応データが出力される。通常、リソースの観点からＭ＜＜Ｎとされるため、Ｍ＋２＜Ｎとなる。Ｍ＋２＜Ｎは、Ｎ（Ｍ＋１）＜Ｎ（Ｎ－１）のように変形できるため、データ選択部１１２においては、入力されるデータの数よりも出力されるデータの数の方が大きくなる。

・サーバの動作
　図２０のフローチャートを参照して、以上のような構成を有するサーバ１００が行う処理について説明する。

　ステップＳ１において、受信部１０１は、データ受信処理を行い、演者端末から送信されてきた配信データ、および、観客端末から送信されてきた各リモート観客の符号化反応データと各観客端末に関する属性情報とを受信する。

　ステップＳ２において、反応音声加工選択部１０２は、反応音声加工選択処理を行う。反応音声加工選択処理により、各リモート観客の反応音声と各観客端末に関する属性情報とに基づいて符号化品質が変更された加工済みの符号化反応データが生成され、加工済みの符号化反応データおよび未加工の符号化反応データ群が各リモート観客宛に割り振られる。反応音声加工選択処理の詳細は、図２１を参照して後述する。

　ステップＳ３において、送信部１０３は、データ送信処理を行い、配信データ、各リモート観客宛の符号化反応データ群、および各観客端末に関する属性情報の一部または全部を、各観客端末に送信する。また、送信部１０３は、加工済みの符号化反応データと未加工の符号化反応データの少なくともいずれかを含む各リモート観客の符号化反応データと、各端末に関する属性情報の一部または全部とを、演者端末に送信する。なお、各観客端末に関する属性情報は、仮想空間上での各リモート観客の位置の変化量が閾値よりも大きい場合などに限定して送信されるようにしてもよい。

　次に、図２１のフローチャートを参照して、図２０のステップＳ２において行われる反応音声加工選択処理について説明する。

　ステップＳ１１において、反応音声加工選択部１０２は、反応音声取得処理を行い、受信部１０１により受信された各リモート観客の符号化反応データと各端末に関する属性情報とを取得する。

　ステップＳ１２において、変換部１１１は、符号化品質変更処理を行い、各リモート観客の符号化反応データの符号化品質を、変換部１１１に対応する符号化品質に変換して、加工済みの符号化反応データを生成する。符号化品質変更処理により生成される加工済みの符号化反応データの符号化品質のパターンは、後述するテーブルに基づいて決定される。例えば、リモート観客１の符号化反応データの符号化品質を10kbpsと20kbpsに変換して２つの加工済みの符号化反応データを生成するといったように、生成される符号化反応データの符号化品質のパターンの方針がテーブルに基づいて決定される。

　ステップＳ１３において、変換部１１１は、符号化反応データの全ての変換が完了したか否かを判定する。

　符号化反応データの全ての変換が完了していないとステップＳ１３において判定された場合、ステップＳ１２に戻り、必要な全てのパターンの符号化品質に変換された符号化反応データが揃うまで、符号化品質変更処理が継続される。

　一方、符号化反応データの全ての変換が完了したとステップＳ１３において判定された場合、処理はステップＳ１４に進む。ステップＳ１４において、データ選択部１１２は、データ選択処理を行い、各リモート観客宛の符号化反応データを選択する。

　ステップＳ１４においてデータ選択処理が行われた後、図２０のステップＳ２に戻り、それ以降の処理が行われる。

　なお、ステップＳ１４における各リモート観客宛の符号化反応データの選択は、符号化品質変更処理において用いられるテーブルと同じテーブルに基づいて行われる。このテーブルは、例えば、各リモート観客の観客端末に対してどの符号化反応データを送信するかといったように、送信先のリモート観客の観客IDと、送信先のリモート観客宛の符号化反応データ群に含まれる各符号化反応データの符号化品質のパターンとの対応関係を示す。

　図２２は、データ選択処理と符号化品質変更処理で用いられるテーブルの例を示す図である。図２２では、図１７を参照して説明したグループ１乃至４に所属するリモート観客１乃至３６のうちのリモート観客５，１３，２３，３６宛の符号化反応データについての情報が記載されている。なお、図２２では、説明の都合上、各グループに所属する代表的な４人のリモート観客宛の符号化反応データについての情報のみが抜粋されて記載されているが、実際には、全ての送信先のリモート観客宛の符号化反応データについての情報がテーブルに記載される。

　図２２の例では、送信先のリモート観客が所属するグループに割り当てられた他のリモート観客の符号化反応データは符号化品質を変換しないというルールでテーブルが設定されている。また、送信先のリモート観客が所属するグループに隣接するグループに割り当てられた他のリモート観客の符号化反応データの符号化品質を20kbpsに変換し、送信先のリモート観客が所属するグループの対角線上にあるグループに割り当てられた他のリモート観客の符号化反応データの符号化品質を10kbpsに変換するというルールでテーブルが設定されている。なお、符号化品質のパターンはこれに限らず、任意に設定されてよい。例えばユーザによって任意の変換パターンが設定されてもよい。また、送信先のリモート観客が所属するグループに割り当てられた他のリモート観客の符号化反応データは符号化品質が適宜変更されるようにしてもよい。

　したがって、テーブルには、グループ１に所属するリモート観客５宛の符号化反応データとして、グループ１に所属するリモート観客１乃至４とリモート観客６乃至９の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。テーブルには、リモート観客５宛の符号化反応データとして、グループ２に所属するリモート観客１０乃至１８の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。

　テーブルには、リモート観客５宛の符号化反応データとして、グループ３に所属するリモート観客１９乃至２７の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客５宛の符号化反応データとして、グループ４に所属するリモート観客２８乃至３６の符号化反応データであり、符号化品質が10kbpsに変換された符号化反応データを選択することが記録されている。

　また、テーブルには、グループ２に所属するリモート観客１３宛の符号化反応データとして、グループ１に所属するリモート観客１乃至９の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客１３宛の符号化反応データとして、グループ２に所属するリモート観客１０乃至１２とリモート観客１４乃至１８の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。

　テーブルには、リモート観客１３宛の符号化反応データとして、グループ３に所属するリモート観客１９乃至２７の符号化反応データであり、符号化品質が10kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客１３宛の符号化反応データとして、グループ４に所属するリモート観客２８乃至３６の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。

　テーブルには、グループ３に所属するリモート観客２３宛の符号化反応データとして、グループ１に所属するリモート観客１乃至９の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客２３宛の符号化反応データとして、グループ２に所属するリモート観客１０乃至１８の符号化反応データであり、符号化品質が10kbpsに変換された符号化反応データを選択することが記録されている。

　テーブルには、リモート観客２３宛の符号化反応データとして、グループ３に所属するリモート観客１９乃至２２とリモート観客２４乃至２７の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。テーブルには、リモート観客２３宛の符号化反応データとして、グループ４に所属するリモート観客２８乃至３６の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。

　テーブルには、グループ４に所属するリモート観客３６宛の符号化反応データとして、グループ１に所属するリモート観客１乃至９の符号化反応データであり、符号化品質が10kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客３６宛の符号化反応データとして、グループ２に所属するリモート観客１０乃至１８の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。

　テーブルには、リモート観客３６宛の符号化反応データとして、グループ３に所属するリモート観客１９乃至２７の符号化反応データであり、符号化品質が20kbpsに変換された符号化反応データを選択することが記録されている。テーブルには、リモート観客３６宛の符号化反応データとして、グループ４に所属するリモート観客２８乃至３５の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。

　反応音声加工選択部１０２は、各リモート観客の符号化反応データに基づいて、符号化品質が10kbpsと20kbpsに変換された２種類の加工済みの符号化反応データを生成し（Ｍ＝２）、加工済みの符号化反応データおよび未加工の符号化反応データを適宜コピーするだけで、各観客端末に送信される全て（Ｎ（Ｎ－１）個）の符号化反応データを用意することができる。

　属性情報に基づいてリモート観客のグループ分けを行った上で設定されたテーブルに基づいて、必要な符号化品質の符号化反応データだけが符号化品質変更処理により生成されるため、変換部１１１が処理を実行する回数が少なくなり、サーバ１００の演算量も少なくすることができる。

　なお、観客端末に関する属性情報に、観客端末を使用するリモート観客にとっての他のリモート観客に対する親密度（関係度）を示す情報が含まれるようにしてもよい。親密度は、例えば、観客端末を使用するリモート観客にとって、他のリモート観客が友人であるか否かや、どの程度親しい友人であるかなどを示す。属性情報が親密度を示す場合、サーバ１００においては、例えば、親密度が高いリモート観客が同じグループになるように、各リモート観客のグループ分けが行われる。

　以上では、各観客端末に送信される符号化反応データの符号化品質の選択方法について述べたが、演者端末に送信される符号化反応データの符号化品質を同様の方法で選択することも可能である。

　演者端末に送信される符号化反応データの符号化品質を選択する場合、例えば、リモートライブイベントに対して特に高い熱意を持ったリモート観客を、演者と同じグループに所属させた状態で、テーブルが設定される。同じグループに所属するリモート観客の符号化反応データは、符号化品質を変更せずに、または、高品質で演者端末に送信されるため、高い熱意を持ったリモート観客の反応音声を優先的に演者に提示することが可能となる。

　高い熱意を持ったリモート観客を判断するために、属性情報に、例えばリモートライブイベントや物販に対する課金額などの情報が含まれるようにしてもよい。また、高い熱意を持ったリモート観客を判断するために、属性情報に、例えばコンテンツに対するリモート観客の聴取態度に関する情報が含まれるようにしてもよい。リモート観客の聴取態度は、例えば、ライブイベントの期間中のリモート観客の視線の動きを各観客端末でセンシングした結果や、歓声のタイミングが適切であるか否かを各観客端末で計測した結果に基づいて取得される。

　また、観客端末に関する属性情報に、各ユーザに関する情報が含まれていてもよい。各ユーザに関する情報とは、例えば、あるユーザが難聴や視覚障がいを有するということを示すデータや、年齢、性別、人種、といったものであってもよい。さらに、補聴器・集音器の装着履歴といったデータや、補聴器・集音器そのもののデバイスデータ、各ユーザの生体データ(体温、脈拍、心拍等)等が属性情報に含まれてもよい。

　これらの情報を属性情報として含めることで、例えば、視覚障がいを持つユーザを優先的に演者と同じグループに所属させた状態にし、演者との一体感を感じてもらい、障がい者でもライブを臨場感高く楽しむことができ、アクセシビリティ向上が期待できる。

　また、外国籍のユーザが参加した場合などでは、当該外国籍ユーザの観客端末に提供される映像データや音声データに、当該外国籍ユーザの母国語での字幕や副音声を重畳させるようにしてもよい。

　例えば、ユーザが補聴器または集音器を使用するユーザであった場合、当該ユーザに提示される音声データは、補聴処理がされることが望ましいが、通常の補聴処理の場合は音声が機械的に増幅されてライブの臨場感ある雰囲気が損なわれてしまう可能性がある。そこで、あるユーザが補聴器または集音器を使用する場合は、ユーザが自身の補聴器・集音器のデバイスデータや聴力データ等をサーバ１００に送信する事で、当該ユーザに個人化された補聴処理がされてもよい。

　生体データに関しては、例えばユーザがライブで使用するペンライト等に体温センサ、脈拍センサ等の各種センサを設けることで容易に取得が可能である。このようにして取得された生体データに基づいてユーザの盛り上がり具合を推定し、盛り上がり度が高いユーザ（例えば体温・脈数ともに上昇しているユーザ等）に対しては、当該観客端末から当該ユーザに提示する反応データの音圧を上げる、映像データの輝度を上げる、といった処理を行う事で、当該ユーザの盛り上がり度を維持し、ライブの満足度を向上させることが期待できる。

・観客端末の構成
　観客端末は、主に以下の機能を有する。
　・観客の反応を集音し、符号化反応データとしてサーバ１００に送信する。
　・配信データを受信し、配信データを復号して配信映像と配信音声を取得する。
　・他のリモート観客の符号化反応データ群を受信し、重畳音声を生成する。
　・配信映像を提示し、配信音声に重畳音声を重畳して提示する。

　観客端末として用いられる具体的な機器は、ユースケースやリモート観客が所持している機器に応じて変わり得る。以下に、観客端末の例を述べる。

（１）観客端末としての機能をスマートフォンまたはタブレット端末に搭載する例
　本技術のリモートライブシステムをサポートするライブ配信アプリケーションをスマートフォンまたはタブレット端末にあらかじめインストールすることで、スマートフォンまたはタブレット端末を観客端末として使用することができる。

　スマートフォンまたはタブレット端末に搭載されたマイクロフォンなどを使用して、リモート観客の反応音声の録音が行われる。有線または無線でスマートフォンまたはタブレット端末に接続された外部のマイクロフォンを使用して、リモート観客の反応音声の録音が行われるようにしてもよい。

　また、スマートフォンまたはタブレット端末に搭載または接続されたディスプレイなどにより配信映像が提示され、スマートフォンまたはタブレット端末に搭載または接続されたスピーカや、インナーイヤーヘッドホン、ヘッドホン、補聴器、集音器などにより配信音声と重畳音声が提示される。

（２）観客端末としての機能をPCまたはゲーム機に搭載する例
　本技術のリモートライブシステムをサポートするライブ配信アプリケーションをPCまたはゲーム機にあらかじめインストールすることで、PCまたはゲーム機を観客端末として使用することができる。

　PCまたはゲーム機に接続されたコントローラやヘッドマウントディスプレイなどに搭載されたマイクロフォンなどを使用して、リモート観客の反応音声の録音が行われる。有線または無線でPCまたはゲーム機に接続された外部のマイクロフォンを使用して、リモート観客の反応音声の録音が行われるようにしてもよい。

　また、PCまたはゲーム機に接続されたディスプレイやヘッドマウントディスプレイなどにより配信映像が提示され、PCまたはゲーム機に接続されたスピーカや、インナーイヤーヘッドホン、ヘッドホン、補聴器、集音器などにより配信音声と重畳音声が提示される。

　なお、演者端末としての機能も、上述した機器と同様の機器によって実現することができる。重畳音声が演者にとって演目の邪魔にならないことが望ましく、重畳音声が配信音声に混入しないことが望ましいため、例えば演者が装着するIEM(In Ear Monitor)などのインナーイヤーヘッドホンにより、重畳音声が演目の音声とミキシングされて提示されることが望ましい。

　図２３は、観客端末２００の構成例を示すブロック図である。

　図２３に示すように、観客端末２００は、反応音声録音部２０１、送信部２０２、受信部２０３、復号部２０４、反応音声合算部２０５、音声重畳部２０６、および出力制御部２０７により構成される。

　反応音声録音部２０１は、例えば観客端末２００に接続されたマイクロフォン２２０を使用してリモート観客の反応音声を録音する。反応音声録音部２０１は、反応音声を示す反応データをサーバ１００への送信に適した形式で符号化して符号化反応データを生成し、送信部２０２に供給する。

　送信部２０２は、反応音声録音部２０１から供給された符号化反応データと、観客端末２００自体に関する属性情報とを、ネットワークを介してサーバ１００に送信する。属性情報は、例えば、観客端末２００に設けられた入力部（図示せず）を用いてリモート観客によりあらかじめ入力されたり、外部の装置などから観客端末２００により取得されたりする。

　受信部２０３は、ネットワークを介してサーバ１００から送信されてきた配信データを受信し、復号部２０４に供給する。また、受信部２０３は、ネットワークを介してサーバ１００から送信されてきた他のリモート観客の符号化反応データ群と他の観客端末２００に関する属性情報とを受信し、反応音声合算部２０５に供給する。

　復号部２０４は、受信部２０３から供給された配信データを復号して配信映像の映像データと配信音声の音声データを取得し、音声重畳部２０６に供給する。

　反応音声合算部２０５は、受信部２０３から供給された他のリモート観客の符号化反応データ群と、他の観客端末２００に関する属性情報とに基づいて、配信音声に重畳される音声である重畳音声のデータを生成し、音声重畳部２０６に供給する。

　音声重畳部２０６は、復号部２０４から供給された配信映像の映像データを、リモート観客に提示する映像である提示映像の映像データとしてそのまま出力制御部２０７に供給（パススルー）する。また、音声重畳部２０６は、復号部２０４から供給された配信音声に対して、反応音声合算部２０５から供給された重畳音声を重畳して、リモート観客に提示される音声である提示音声の音声データを生成し、出力制御部２０７に供給する。

　出力制御部２０７は、音声重畳部２０６から供給された提示映像を例えば観客端末２００に接続されたディスプレイ２２１に表示させ、音声重畳部２０６から供給された提示音声をディスプレイ２２１に設けられたスピーカから出力させる。なお、提示映像の映像データや提示音声の音声データは、HDMI（登録商標）出力フォーマットや公知の映像データフォーマット、公知の音声データフォーマットで出力制御部２０７からディスプレイ２２１などに出力される。

　図２４は、反応音声合算部２０５の詳細な構成例を示すブロック図である。

　図２４に示すように、反応音声合算部２０５は、復号部２１１、合算・畳み込み部２１２を備える。

　復号部２１１は、受信部２０３から供給された他のリモート観客の符号化反応データ群を復号して、他のリモート観客の反応データ群を生成する。復号部２１１は、観客端末２００における反応音声の再生に関する情報である設定情報に基づいて、リモート観客にとって反応音声を聞かなくてもよい他のリモート観客の符号化反応データを復号せずに破棄することも可能である。設定情報は、例えば、リモート観客の友人である他のリモート観客の音声を大きく聞きたい、所定の他のリモート観客の反応音声を聞かなくてもよいといったように、反応音声に対するリモート観客の嗜好の情報を含む。

　復号部２１１は、復号済みの他のリモート観客の反応データ群を合算・畳み込み部２１２に供給する。

　合算・畳み込み部２１２は、復号部２１１から供給された復号済みの反応データ群、受信部２０３から供給された他の観客端末２００に関する属性情報、および設定情報に基づいて、他のリモート観客の反応音声をまとめた重畳音声のデータを生成する。

　具体的には、合算・畳み込み部２１２は、他の観客端末２００に関する属性情報で示される他のリモート観客の位置に基づく音響特性を、属性情報に対応する反応データに畳み込み、音響特性が畳み込まれた反応データ同士を合算する。畳み込み処理と合算処理により、仮想空間内でリモート観客自身の位置で聞こえる他のリモート観客の反応音声が再現される。また、合算・畳み込み部２１２は、設定情報に基づいて、例えば、リモート観客１にとっての友人のリモート観客２の反応音声が大きく聞こえるように反応音声の大きさなどを調整する。

　合算・畳み込み部２１２は、生成した重畳音声のデータを音声重畳部２０６に供給する。

・観客端末の動作
　観客端末２００においては、反応音声を録音するための録音処理、および、配信映像や、配信音声、反応音声をリモート観客に提示するための再生処理が、並行して実行される。

　図２５のフローチャートを参照して、観客端末２００が行う録音処理について説明する。

　ステップＳ２１において、反応音声録音部２０１は、録音処理を行い、マイクロフォン２２０を使用して、観客端末２００を使用するリモート観客の反応音声を録音し、PCM(Pulse Code Modulation)など公知の形式の反応データを生成する。

　ステップＳ２２において、反応音声録音部２０１は、符号化処理を行い、反応データを符号化し、符号化反応データを生成する。反応音声録音部２０１は、サーバ１００への送信に適した形式に符号化反応データを変換する。

　ステップＳ２３において、送信部２０２は、データ送信処理を行い、符号化反応データと、観客端末２００自体に関する属性情報とを、ネットワークを介してサーバ１００に送信する。

　次に、図２６のフローチャートを参照して、観客端末２００が行う再生処理について説明する。

　ステップＳ３１において、受信部２０３は、データ受信処理を行い、ネットワークを介してサーバ１００から送信されてきた配信データ、他のリモート観客の符号化反応データ群、および他の観客端末２００に関する属性情報を受信する。

　ステップＳ３２において、復号部２０４は、復号処理を行い、配信データを復号し、配信映像の映像データと配信音声の音声データを取得する。

　ステップＳ３３において、反応音声合算部２０５は、反応音声合算処理を行う。反応音声合算処理により、他のリモート観客の符号化反応データと、他の各観客端末に関する属性情報とに基づいて、重畳音声のデータが生成される。反応音声合算処理の詳細については、図２７を参照して後述する。

　ステップＳ３４において、音声重畳部２０６は、音声重畳処理を行い、配信音声に重畳音声を重畳して提示音声の音声データを生成する。また、音声重畳部２０６は、配信映像の映像データをそのまま提示映像の映像データとしてパススルーする。

　ステップＳ３５において、出力制御部２０７は、出力処理を行い、提示映像をディスプレイ２２１に表示させ、提示音声をディスプレイ２２１に設けられたスピーカから出力させる。

　観客端末２００は、以上の録音処理と再生処理を定期的に実行し続けることで、リモート観客に配信映像、配信音声、および他のリモート観客の反応音声を提示しつつ、リモート観客自身の反応データを他のリモート観客に送信することができる。

　図２７のフローチャートを参照して、図２６のステップＳ３３において行われる反応音声合算処理について説明する。

　ステップＳ５１において、復号部２１１は、復号処理を行い、他のリモート観客の符号化反応データ群を全て復号して他のリモート観客の反応データ群を取得し、PCMなどの後段の畳み込み処理を実施可能な形式に反応データ群を変換する。符号化反応データ群が復号される際に、リモート観客にとって反応音声を聞かなくてもよい他のリモート観客の符号化反応データが復号されずに破棄されてもよい。

　ステップＳ５２において、合算・畳み込み部２１２は、合算・畳み込み処理を行い、復号済みの反応データ群を合算する。反応データ群が合算される際に、設定情報に基づいて、特定のリモート観客の反応データの合算時の比率を高くする処理が行われるようにしてもよい。反応データ群が合算される際に、他の観客端末に関する属性情報に基づいて特定される仮想空間内のリモート観客間の位置関係に基づく音響特性を各反応音声に畳み込むことで、リモート観客が違和感を抱きにくい重畳音声のデータを生成することも可能である。

　ステップＳ５２において合算・畳み込み処理が行われた後、図２６のステップＳ３３に戻り、それ以降の処理が行われる。

・演者端末の構成
　演者端末は、上述した観客端末が有する機能のうちの、主に以下の機能を有する。
　・リモート観客の符号化反応データ群を受信し、重畳音声を生成する。

　したがって、演者端末の構成は、観客端末２００の構成からいくつかの構成部を除いた構成となる。

　図２８は、演者端末３００の構成例を示すブロック図である。

　図２８に示すように、演者端末３００は、受信部３０１、反応音声合算部３０２、および出力制御部３０３により構成される。

　受信部３０１は、ネットワークを介してサーバ１００から送信されてきたリモート観客の符号化反応データ群と各観客端末２００に関する属性情報とを受信し、反応音声合算部３０２に供給する。

　反応音声合算部３０２は、受信部３０１から供給されたリモート観客の符号化反応データ群と、各観客端末２００に関する属性情報とに基づいて重畳音声のデータを生成し、重畳音声のデータをそのまま提示音声の音声データとして出力制御部３０３に供給する。なお、演者端末３００においては、重畳音声は配信音声に重畳されることなく演者に提示される。

　出力制御部３０３は、反応音声合算部３０２から供給された提示音声を、例えばライブ会場に設けられたスピーカ３２０から出力させる。なお、提示音声の音声データは、例えば（アナログ／デジタル）同軸出力フォーマットや公知の音声データフォーマットといった、スピーカ３２０やIEMなどの音声出力装置に入力可能な形式で出力制御部３０３から出力される。

　なお、反応音声合算部３０２の詳細な構成については、図２４を参照して説明した反応音声合算部２０５の構成と同様であるため、説明を省略する。

　ただし、反応音声が演者に対して提示されることを考慮して、演者端末３００の合算・畳み込み処理においては、観客端末２００で用いられる音響特性と異なる音響特性が用いられることが望ましい。また、演者端末３００の合算・畳み込み処理においては、リモートライブイベントに対して特に高い熱意を持った観客の反応データの合算時の比率を高くする処理が行われるようにしてもよい。また、障がいを有する観客や外国籍の観客の反応データの合算時の比率を高める処理が行われても良い。

・第１の実施の形態の変形例
　サーバ１００の符号化品質変更処理において、送信先のリモート観客が所属するグループ以外のグループに割り当てられたリモート観客の符号化反応データをグループごとに合算することで、トラフィックをさらに削減することが可能となる。

　図２９は、観客端末に送信される符号化反応データ群の例を示す図である。図２９の例では、図１７を参照して説明した場合と同様に、リモート観客１乃至３６のそれぞれがグループ１乃至４に割り振られている。

　例えばリモート観客５の観客端末に、リモート観客５以外のリモート観客の符号化反応データを送信する場合、サーバ１００は、リモート観客５が所属するグループであるグループ１に所属するリモート観客１乃至４とリモート観客６乃至９の８人分の符号化反応データを符号化品質を変換せずに送信する。例えば、観客端末からサーバ１００に送信される符号化反応データの元々のビットレートが64kbpsであるとすると、リモート観客５の観客端末に送信されるリモート観客１乃至４とリモート観客６乃至９の符号化反応データのビットレートも64kbpsとなる。

　また、サーバ１００は、グループ２に所属するリモート観客１０乃至１８の９人分の符号化反応データを合算して１つの符号化反応データとする。合算済みの符号化反応データのビットレートは例えば64kbpsとなる。

　サーバ１００は、グループ３に所属するリモート観客１９乃至２７の９人分の符号化反応データを合算して１つの符号化反応データとする。合算済みの符号化反応データのビットレートは例えば64kbpsとなる。

　サーバ１００は、グループ４に所属するリモート観客２８乃至３６の９人分の符号化反応データを合算して１つの符号化反応データとする。合算済みの符号化反応データのビットレートは例えば64kbpsとなる。

　元々の各符号化反応データのビットレートが64kbpsであるとすると、全ての符号化反応データをそのまま各観客端末に送信する場合、各観客端末に送信される符号化反応データの情報量の合計は、64×35＝2240[kbps]になる。サーバ１００は、他のグループに所属するリモート観客の符号化反応データを合算することで、各観客端末に送信される符号化反応データの情報量の合計を、64×8＋64×3＝704[kbps]に抑えることができる。

　図３０は、データ選択処理と符号化品質変更処理で用いられるテーブルの他の例を示す図である。図３０では、図２９を参照して説明したグループ１乃至４に所属するリモート観客１乃至３６のうちのリモート観客５，１３，２３，３６宛の符号化反応データについての情報が記載されている。なお、図３０では、説明の都合上、各グループに所属する代表的な４人のリモート観客宛のデータについての情報のみが抜粋されて記載されているが、実際には、全ての送信先のリモート観客宛の符号化反応データについての情報がテーブルに記載される。

　図３０の例では、送信先のリモート観客が所属するグループに割り当てられた他のリモート観客の符号化反応データは符号化品質を変換しないというルールでテーブルが設定されている。また、送信先のリモート観客が所属するグループ以外のグループに割り当てられた他のリモート観客の符号化反応データをグループごとに合算し、合算済みの符号化反応データの符号化品質を64kbpsにするというルールでテーブルが設定されている。

　したがって、テーブルには、グループ１に所属するリモート観客５宛の符号化反応データとして、グループ１に所属するリモート観客１乃至４とリモート観客６乃至９の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。テーブルには、リモート観客５宛の符号化反応データとして、グループ２に所属するリモート観客１０乃至１８の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。

　テーブルには、リモート観客５宛の符号化反応データとして、グループ３に所属するリモート観客１９乃至２７の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客５宛の符号化反応データとして、グループ４に所属するリモート観客２８乃至３６の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。

　また、テーブルには、グループ２に所属するリモート観客１３宛の符号化反応データとして、グループ１に所属するリモート観客１乃至９の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客１３宛の符号化反応データとして、グループ２に所属するリモート観客１０乃至１２とリモート観客１４乃至１８の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。

　テーブルには、リモート観客１３宛の符号化反応データとして、グループ３に所属するリモート観客１９乃至２７の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客１３宛の符号化反応データとして、グループ４に所属するリモート観客２８乃至３６の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。

　テーブルには、グループ３に所属するリモート観客２３宛の符号化反応データとして、グループ１に所属するリモート観客１乃至９の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客２３宛の符号化反応データとして、グループ２に所属するリモート観客１０乃至１８の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。

　テーブルには、リモート観客２３宛の符号化反応データとして、グループ３に所属するリモート観客１９乃至２２とリモート観客２４乃至２７の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。テーブルには、リモート観客２３宛の符号化反応データとして、グループ４に所属するリモート観客２８乃至３６の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。

　テーブルには、グループ４に所属するリモート観客３６宛の符号化反応データとして、グループ１に所属するリモート観客１乃至９の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客３６宛の符号化反応データとして、グループ２に所属するリモート観客１０乃至１８の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。

　テーブルには、リモート観客３６宛の符号化反応データとして、グループ３に所属するリモート観客１９乃至２７の符号化反応データが合算された64kbpsの符号化反応データを選択することが記録されている。テーブルには、リモート観客３６宛の符号化反応データとして、グループ４に所属するリモート観客２８乃至３５の符号化反応データであり、未加工の符号化反応データを選択することが記録されている。

　反応音声加工選択部１０２は、各リモート観客の符号化反応データに基づいて、各グループに所属するリモート観客の符号化反応データを、グループごとに、デコード処理の全てを行わずに合算して符号化し（合算および64kbpsへの符号化を行う１種類のパターンしかないため、Ｍ＝１となる）、合算された（加工済み）の符号化反応データおよび未加工の符号化反応データを適宜コピーするだけで、各観客端末に送信される全ての符号化反応データを用意することができる。

　符号化品質変更処理においては、リモート観客の符号化反応データ群をグループごとに合算するだけでよいため、変換部１１１が処理を実行する回数が少なくなり、サーバ１００の演算量も少なくすることができる。

＜３．第２の実施の形態＞
　第２の実施の形態においては、第１の実施の形態の変形例のように、複数の他のリモート観客の符号化反応データがグループごとに合算された後、合算された符号化反応データを復号して取得される反応データの波形から抽出されたパラメータが、反応音声を示す音声情報として観客端末に送信される。反応データの波形から抽出されるパラメータは、各リモート観客の反応音声やグループの反応音声を表現する情報となる。合算後に符号化反応データのデコードを行うため、合算前に符号化反応データの完全なデコードを行うのに比較して、サーバ１００は、少ない演算量でパラメータを抽出することができる。

　図３１は、観客端末に送信される符号化反応データ群の例を示す図である。図３１の例では、図１７を参照して説明した場合と同様に、リモート観客１乃至３６のそれぞれがグループ１乃至４に割り振られている。

　また、サーバ１００は、グループ２に所属するリモート観客１０乃至１８の９人分の符号化反応データを合算して１つの符号化反応データとする。サーバ１００は、合算済みの符号化反応データを復号して取得される反応データの波形からパラメータを取得し、パラメータを符号化して生成されたデータを符号化反応データとしてリモート観客５の観客端末に送信する。符号化反応データに含まれる反応データがパラメータに置き換えられるため、符号化反応データのビットレートは例えば1kbpsとなる。

　サーバ１００は、グループ３に所属するリモート観客１９乃至２７の９人分の符号化反応データのビットレートを合算して１つの符号化反応データとする。サーバ１００は、合算済みの符号化反応データを復号して取得される反応データの波形からパラメータを取得し、パラメータを符号化して生成されたデータを符号化反応データとしてリモート観客５の観客端末に送信する。符号化反応データに含まれる反応データがパラメータに置き換えられるため、符号化反応データのビットレートは例えば1kbpsとなる。

　サーバ１００は、グループ４に所属するリモート観客２８乃至３６の９人分の符号化反応データのビットレートを合算して１つの符号化反応データとする。サーバ１００は、合算済みの符号化反応データを復号して取得される反応データの波形からパラメータを取得し、パラメータを符号化して生成されたデータを符号化反応データとしてリモート観客５の観客端末に送信する。符号化反応データに含まれる反応データがパラメータに置き換えられるため、符号化反応データのビットレートは例えば1kbpsとなる。

　元々の各符号化反応データのビットレートが64kbpsであるとすると、全ての符号化反応データをそのまま各観客端末に送信する場合、各観客端末に送信される符号化反応データの情報量の合計は、64×35＝2240[kbps]になる。サーバ１００は、符号化反応データに含まれる反応データをパラメータに置き換えることで、各観客端末に送信される符号化反応データの情報量の合計を、64×8＋1×3＝515[kbps]に抑えることができる。

　リモートライブシステムは、第１の実施の形態の変形例のように、複数の他のリモート観客の符号化反応データがグループごとに合算された後、符号化反応データに含まれる反応データをパラメータに置き換えることで、第１の実施の形態の変形例よりもトラフィックをさらに削減することが可能となる。なお、合算されていないリモート観客ごとの符号化反応データに含まれる反応データがそれぞれパラメータに置き換えられるようにしてもよい。

　データ選択処理と符号化品質変更処理で用いられるテーブルは、図３０を参照して説明したテーブルにおいて、送信先のリモート観客が所属するグループ以外のグループに割り当てられた他のリモート観客が合算された符号化反応データの符号化品質を64kbpsにするというルールの代わりに、合算された符号化反応データに含まれる反応データをパラメータ化するというルールで設定されたテーブルとなる。

　第２の実施の形態に係るリモートライブシステムの構成は、基本的には第１の実施の形態に係るリモートライブシステムの構成と同じである。なお、第２の実施の形態に係るサーバ１００の反応音声加工選択処理と観客端末２００の反応音声合算処理の内容が、第１の実施の形態に係るこれらの処理の内容と異なるため、反応音声加工選択処理と反応音声合算処理の異なる部分について具体的に説明する。

・反応データのフレームごとの平均値がパラメータとして用いられる例
　反応音声を示すパラメータとして、例えば、符号化反応データに含まれる反応データの振幅変動を示す情報が用いられる。振幅変動を示すパラメータは、例えば、フレームごとの平均値を含む。

　パラメータが平均値を示す場合、観客端末２００が、当該パラメータに基づいて、テンプレートとして保持する歓声音の大きさを適宜変更して再生することで、複数の他のリモート観客（大衆）が歓声を揚げているか否かが再現される。他のリモート観客が歓声を揚げている否かが再現された反応音声を聞くことで、リモート観客は、他のリモート観客の盛り上がりを大まかに知ることができる。

　図３２は、符号化反応データに含まれるパラメータ化前の音声データと、パラメータに基づくテンプレートの音声データとの例を示す図である。

　図３２のＡには、サーバ１００において、同じグループに所属するリモート観客の符号化反応データが合算された符号化反応データを復号して取得された音声データの波形が示されている。

　サーバ１００は、図３２のＡに示すように、符号化反応データに含まれる音声データの平均値をフレームごとに算出する。図３２のＡの例では、波形の一部をそれぞれ囲む破線の矩形の横の長さがフレーム長を示し、縦の長さが平均値を示す。

　平均値の算出方法は規定されないが、例えば、符号化反応データに含まれる音声データの平均値Ａは、下式（１）で算出される。

　式（１）において、x(n)は、合算済みの反応データの１フレーム分の波形を示し、Ｔ[サンプル]はフレーム長を示す。

　通常、音声の符号化は数ms乃至100ms程度のフレーム単位で行われるため、サーバ１００は、１フレーム毎に、符号化反応データに含まれる反応データを、平均値を示すパラメータに置き換えることで、反応データをそのまま符号化して送信する場合と比較して、符号化反応データの情報量を大幅に削減することが可能となる。

　一方、図３２のＢには、観客端末２００において、複数の他のリモート観客の反応音声として提示される歓声音のテンプレートの音声データの波形が示されている。

　まず、観客端末２００は、サーバ１００から送信されてきた符号化反応データを復号し、反応データの平均値Ａを取得する。観客端末２００は、歓声音のテンプレート（以下では、テンプレート歓声音と称する）の音声データをあらかじめ保持しており、テンプレート歓声音の音声データを、複数のリモート観客の反応音声が合算された反応データの代わりとする。

　観客端末２００は、テンプレート歓声音の音声データの平均値Ａ_templateが、反応データの平均値Ａと一致するように、テンプレート歓声音の大きさを調整する。１フレーム分のテンプレート歓声音の音声データの波形をx_template(n)とすると、平均値Ａ_templateは、下式（２）で示される。

　観客端末２００は、下式（３）で示すように、元々の波形x_template(n)に、平均値Ａと平均値Ａ_templateの比率を積算することで、図３２のＢに示すように、フレームごとの平均値が調整されたテンプレート歓声音の音声データの波形y(n)を生成する。図３２のＢの例では、波形の一部をそれぞれ囲む破線の矩形の横の長さがフレーム長Ｔを示し、縦の長さが平均値Ａを示す。

　なお、波形x_template(n)に積算される値（平均値Ａと平均値Ａ_templateの比率）をフレームの境界で急に変動させると、最終的な波形y(n)が不連続となり、音質が低下することがある。音質の低下を防ぐために、観客端末２００は、公知の方法を用いて、波形y(n)を滑らかに遷移させることが望ましい。例えば、観客端末２００は、通常の音声の符号化で実施されるオーバーラップ処理によって、不連続が目立たないようにテンプレート歓声音を再生することができる。

　なお、観客端末２００に送信されるパラメータに、リモートライブの規模を示す情報が含まれるようにしてもよい。リモートライブの規模を示すパラメータは、例えば、各グループに所属するリモート観客の人数を示す情報を含む。パラメータがリモートライブの規模を示す場合、観客端末２００は、規模に応じたテンプレート歓声音をあらかじめ複数保持しておき、複数のテンプレート歓声音の中から、使用するテンプレート歓声音を属性情報に基づいて選択する。

　また、観客端末２００が、符号化反応データを復号して取得される平均値に基づいて、複数のテンプレート歓声音の中から、使用するテンプレート歓声音を選択することも可能である。

・反応音声の音声認識の結果がパラメータとして用いられる例
　反応音声を示すパラメータとして、例えば、反応音声の音声認識の結果が用いられる。

　パラメータが音声認識の結果を示す場合、観客端末２００が、当該パラメータに基づいて合成音声の音声データを生成し、合算する。観客端末２００は、合算された合成音声を出力することで、複数のリモート観客が同時に声援などを発する様子を再現することができる。

　図３３は、サーバ１００における反応音声の音声認識の結果の例を示す図である。

　サーバ１００は、同じグループに所属するリモート観客の符号化反応データが合算された符号化反応データを復号して反応データを取得し、公知の音声認識技術を用いて、図３３の吹き出しに示すように、反応データで示される反応音声に含まれる言葉を示すテキスト情報を取得する。ここでは、テキスト情報が、反応音声を表現するパラメータとなる。図３３の例では、「アンコール！」のテキスト情報が取得されている。

　テキスト情報として、意味のある言葉を取得できなかった場合、サーバ１００は、意味のある言葉を取得できなかった旨を示す情報をテキスト情報の代わりとする。

　サーバ１００は、テキスト情報が符号化されたデータを、加工済みの符号化反応データとして観客端末２００に送信する。また、サーバ１００は、各グループに所属するリモート観客の人数を示す情報を含む属性情報も観客端末２００に送信する。

　図３４は、観客端末２００における反応音声合算処理の流れを示す図である。

　まず、観客端末２００は、サーバ１００から送信されてきた符号化反応データを復号し、図３４の左側に示すように、テキスト情報Ｔ１と属性情報を取得する。

　次に、観客端末２００は、＃２１に示すように、テキスト情報Ｔ１に基づいて、公知の音声合成技術を用いて、「アンコール！」と発話した合成音声の音声データを生成する。観客端末２００は、性別、年齢などの音声合成におけるパラメータを様々に変更して音声合成を行うことで、１つのグループに所属するリモート観客の数と同じ数の合成音声の音声データを生成する。性別、年齢などを様々に変更して音声合成が行われるため、多種多様なバリエーションの合成音声が生成される。

　図３４の例では、６０代男性が「アンコール！」と発話した音声を再現する合成音声の音声データＡＤ１、２０代女性が「アンコール！」と発話した音声を再現する合成音声の音声データＡＤ２、および、３０代男性が「アンコール！」と発話した音声を再現する合成音声の音声データＡＤ３が生成されている。

　なお、１つのグループに所属するリモート観客の数と同じ回数だけ音声合成を行うのではなく、音声合成により生成された数人分の合成音声をベースとして、位相をわずかにずらす、ピッチを変更するなどの加工を行うことで、１つのグループに所属するリモート観客の数と同じ数の合成音声の音声データが生成されるようにしてもよい。この方法を用いることで、観客端末２００の演算量を低減させることができる。

　次に、観客端末２００は、＃２２に示すように、合成音声の音声データＡＤ１乃至ＡＤ３を対象として合算・畳み込み処理を行うことで、重畳音声のデータを生成する。重畳音声は、配信音声に重畳されて提示される。

　なお、ライブイベントの期間中に観客が発話する可能性がある文言（決まり文句）がリモートライブの開催者によりあらかじめ設定されるようにしてもよい。リモート観客がこの文言を発話したことが、サーバ１００において音声認識を用いて検出された場合、文言に対応するプリセット番号がテキスト情報の代わりに符号化されて、サーバ１００から観客端末２００に送信される。

　観客端末２００に送信されるパラメータに、各グループに所属するリモート観客の声質を示す情報が含まれるようにしてもよい。各グループに所属するリモート観客の声質を示すパラメータは、例えばメルケプストラムやスペクトル包絡を含む。また、各グループに所属するリモート観客の声質を示すパラメータは、リモート観客の性別や年齢の情報を含む。

　パラメータが各グループに所属するリモート観客の声質を示す場合、観客端末２００は、合成音声に性別や年齢を反映させたり、重畳音声のデータを公知の声質変換技術を用いて加工したりすることで、重畳音声に含まれる合成音声の声質を本来のリモート観客の声質に似せることができる。観客端末２００は、例えば、男性アイドルのライブコンサートに多く参加している特定の年代の女性により、いわゆる黄色い声援が発せられる様子を再現することができる。

　観客端末２００に送信されるパラメータに、リモート観客が所属する地域を示す情報である地域情報が含まれるようにしてもよい。リモート観客が所属する地域を示すパラメータは、テキスト情報の言語や、反応音声の送信元となる各リモート観客が使用する観客端末２００のIPアドレスを含む。

　パラメータが地域を示す場合、観客端末２００は、国籍に応じたテンプレート歓声音を複数保持しておき、複数のテンプレート歓声音の中から、使用するテンプレート歓声音をパラメータに基づいて選択する。また、観客端末２００は、パラメータで示されるテキスト情報の言語に適した音声合成エンジンを使用して音声合成を行う。リモート観客が所属する地域を示すパラメータに基づいて、テンプレート歓声音の選択や音声合成が行われることで、観客端末２００は、リモート観客が所属する地域に合わせた歓声を提示することができる。

＜４．第３の実施の形態＞
　第３の実施の形態においては、送信先のリモート観客の観客端末２００とサーバ１００の間の通信状況や、送信先のリモート観客の観客端末２００の演算リソースに基づいて、第１の実施の形態と第２の実施の形態で説明した処理が切り替えられる。

　サーバ１００は、送信先のリモート観客の観客端末２００とサーバ１００の間の通信状況を示す情報や、送信先のリモート観客の観客端末２００の演算リソースを示す情報を含む属性情報を受信し、属性情報に基づいて動作を切り替える。

　図３５は、通信状況に応じて切り替えられる、送信先のリモート観客宛の符号化反応データの例を示す図である。図３５の例では、リモート観客５の観客端末に送信される、リモート観客１乃至４とリモート観客６乃至３６の符号化反応データが示されている。

　図３５の左側に示すように、通信状況が不良である場合、サーバ１００は、第１の実施の形態の変形例で説明したように、リモート観客５が所属するグループ１以外のグループに割り当てられたリモート観客の符号化反応データをグループごとに合算することで、トラフィックの削減を優先して処理を行う。リモート観客５宛の符号化反応データ群のビットレートの合計は704kbpsとなる。なお、第２の実施の形態で説明したように、符号化反応データに含まれる反応データがパラメータに置き換えられるようにしてもよい。

　リモート観客５の観客端末の演算リソースに制約がある場合も、同様に、サーバ１００は、リモート観客５が所属するグループ１以外のグループに割り当てられたリモート観客の符号化反応データをグループごとに合算することで、観客端末２００の演算量の削減を優先して処理を行う。

　図３５の中央に示すように、通信状況が不良でも良好でもない中程度である場合、サーバ１００は、第１の実施の形態で説明したように、グループ１に所属するリモート観客の符号化反応データの符号化品質を変更せずに送信し、グループ１以外のグループに所属するリモート観客の符号化反応データの符号化品質を低くして送信する。リモート観客５宛の符号化反応データ群のビットレートの合計は962kbpsとなる。

　図３５の右側に示すように、通信状況が良好である場合、サーバ１００は、全ての符号化反応データをパススルーしてリモート観客５の観客端末に送信する。全ての符号化反応データをパススルーすると、トラフィックは削減されないが、高品質かつ低遅延の反応音声をリモート観客５に提示することができる。

　以上のように、各観客端末の通信状況や演算リソースを示す属性情報に基づいて、サーバ１００は、リモートライブシステム全体に破綻が生じない範囲で反応音声の品質を最大化することができる。

　なお、第３の実施形態に係るリモートライブシステムの構成は、第１の実施形態に係る構成や第２の実施の形態に係る構成と基本的には同じである。ただし、サーバ１００における反応音声加工選択処理の内容や観客端末２００における反応音声合算処理の内容が、送信先のリモート観客の観客端末の通信状況や演算リソースに応じて動的に変化する。

＜コンピュータの構成例＞
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図３６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。サーバ１００、観客端末２００、および演者端末３００は、例えば、図３６に示す構成と同様の構成を有するPCにより構成される。

　CPU(Central Processing Unit)５０１、ROM(Read Only Memory)５０２、RAM(Random Access Memory)５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インタフェース５０５が接続される。入出力インタフェース５０５には、キーボード、マウスなどよりなる入力部５０６、ディスプレイ、スピーカなどよりなる出力部５０７が接続される。また、入出力インタフェース５０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部５０８、ネットワークインタフェースなどよりなる通信部５０９、リムーバブルメディア５１１を駆動するドライブ５１０が接続される。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記憶部５０８に記憶されているプログラムを入出力インタフェース５０５及びバス５０４を介してRAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　CPU５０１が実行するプログラムは、例えばリムーバブルメディア５１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部５０８にインストールされる。

　コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　１台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データであって、前記送信元の端末に関する属性情報に基づいて情報量が決定された前記符号化データを復号する復号部と、
　復号された前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる出力制御部と
　を備える情報端末。
（２）
　前記属性情報は、前記送信元の端末を使用する他のユーザの仮想空間上の位置を示す情報である
　前記（１）に記載の情報端末。
（３）
　前記属性情報は、前記送信元の端末を使用する他のユーザと前記ユーザの関係度を示す情報である
　前記（１）または（２）に記載の情報端末。
（４）
　前記音声情報の情報量は、前記送信元の端末についての前記属性情報、または、前記情報端末の通信状況の少なくとも一方に基づいて決定される
　前記（１）乃至（３）のいずれかに記載の情報端末。
（５）
　前記音声情報は、前記送信元の端末をそれぞれ使用する複数の他のユーザが所属するグループの音声、または、前記他のユーザの音声を表現するパラメータを含む
　前記（１）乃至（４）のいずれかに記載の情報端末。
（６）
　前記パラメータは、前記符号化データの振幅変動を示す情報である
　前記（５）に記載の情報端末。
（７）
　前記パラメータは、所定のフレームごとに算出された、前記他のユーザまたは前記グループの音声の大きさの平均値である
　前記（６）に記載の情報端末。
（８）
　前記パラメータは、前記他のユーザまたは前記グループの音声の音声認識の結果を示す情報である
　前記（５）に記載の情報端末。
（９）
　前記パラメータは、前記音声認識の結果として取得されたテキスト情報、または前記テキスト情報に対するプリセット番号である
　前記（８）に記載の情報端末。
（１０）
　前記パラメータは、前記グループの規模を示す情報である
　前記（５）乃至（９）のいずれかに記載の情報端末。
（１１）
　前記グループの規模を示す情報は、前記グループに所属する前記他のユーザの人数を示す情報を含む
　前記（１０）に記載の情報端末。
（１２）
　前記パラメータは、前記他のユーザまたは前記グループの音声の声質を示す情報である
　前記（５）乃至（１１）のいずれかに記載の情報端末。
（１３）
　前記声質を示す情報は、メルケプストラム、スペクトル包絡、前記他のユーザの性別、年齢の少なくともいずれかを含む
　前記（１２）に記載の情報端末。
（１４）
　前記パラメータは、前記他のユーザが所属する地域を示す地域情報である
　前記（５）乃至（１３）のいずれかに記載の情報端末。
（１５）
　前記地域情報は、前記送信元の端末のIPアドレスを含む
　前記（１４）に記載の情報端末。
（１６）
　前記音声情報は、前記送信元の端末を使用する他のユーザがコンテンツに対する反応として発した音声を示し、
　前記出力制御部は、前記コンテンツの主となる音声に、前記音声情報に基づく音声を重畳して前記出力機器から出力させる
　前記（１）乃至（１５）のいずれかに記載の情報端末。
　（１７）
　前記音声情報は、前記他のユーザの歓声、拍手、合いの手の少なくとも一つを含む音声を示す
　前記（１６）に記載の情報端末。
（１８）
　情報端末が、
　１台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、
　前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる
　情報処理方法。
（１９）
　コンピュータに、
　１台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、
　前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる
　処理を実行させるためのプログラム。
（２０）
　１台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データを、前記送信元の端末に関する属性情報と送信先の端末に関する属性情報とに基づいて決定された情報量の符号化データに変換する変換部と、
　変換済みの符号化データを前記送信先の端末に送信する送信部と
　を備える情報処理装置。

　１００　サーバ，　１０１　受信部，　１０２　反応音声加工選択部，　１０３　送信部，　１１１　変換部，　１１２　データ選択部，　２００　観客端末，　２０１　反応音声録音部，　２０２　送信部，　２０３　受信部，　２０４　復号部，　２０５　反応音声合算部，　２０６　音声重畳部，　２０７　出力制御部，　２１１　復号部，　２１２　合算・畳み込み部，　２２０　マイクロフォン，　２２１　ディスプレイ，　３００　演者端末，　３０１　受信部，　３０２　反応音声合算部，　３０３　出力制御部，　３２０　スピーカ

Claims

　１台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データであって、前記送信元の端末に関する属性情報に基づいて情報量が決定された前記符号化データを復号する復号部と、
　復号された前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる出力制御部と
　を備える情報端末。
　前記属性情報は、前記送信元の端末を使用する他のユーザの仮想空間上の位置を示す情報である
　請求項１に記載の情報端末。
　前記属性情報は、前記送信元の端末を使用する他のユーザと前記ユーザの関係度を示す情報である
　請求項１に記載の情報端末。
　前記音声情報の情報量は、前記送信元の端末についての前記属性情報、または、前記情報端末の通信状況の少なくとも一方に基づいて決定される
　請求項１に記載の情報端末。
　前記音声情報は、前記送信元の端末をそれぞれ使用する複数の他のユーザが所属するグループの音声、または、前記他のユーザの音声を表現するパラメータを含む
　請求項１に記載の情報端末。
　前記パラメータは、前記符号化データの振幅変動を示す情報である
　請求項５に記載の情報端末。
　前記パラメータは、所定のフレームごとに算出された、前記他のユーザまたは前記グループの音声の大きさの平均値である
　請求項６に記載の情報端末。
　前記パラメータは、前記他のユーザまたは前記グループの音声の音声認識の結果を示す情報である
　請求項５に記載の情報端末。
　前記パラメータは、前記音声認識の結果として取得されたテキスト情報、または前記テキスト情報に対応するプリセット番号である
　請求項８に記載の情報端末。
　前記パラメータは、前記グループの規模を示す情報である
　請求項５に記載の情報端末。
　前記グループの規模を示す情報は、前記グループに所属する前記他のユーザの人数を示す情報を含む
　請求項１０に記載の情報端末。
　前記パラメータは、前記他のユーザまたは前記グループの音声の声質を示す情報である
　請求項５に記載の情報端末。
　前記声質を示す情報は、メルケプストラム、スペクトル包絡、前記他のユーザの性別、年齢の少なくともいずれかを含む
　請求項１２に記載の情報端末。
　前記パラメータは、前記他のユーザが所属する地域を示す地域情報である
　請求項５に記載の情報端末。
　前記地域情報は、前記送信元の端末のIPアドレスを含む
　請求項１４に記載の情報端末。
　前記音声情報は、前記送信元の端末を使用する他のユーザがコンテンツに対する反応として発した音声を示し、
　前記出力制御部は、前記コンテンツの主となる音声に、前記音声情報に基づく音声を重畳して前記出力機器から出力させる
　請求項１に記載の情報端末。
　前記音声情報は、前記他のユーザの歓声、拍手、合いの手の少なくとも一つを含む音声を示す
　請求項１６に記載の情報端末。
　情報端末が、
　１台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、
　前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる
　情報処理方法。
　コンピュータに、
　１台または複数台の送信元の端末により集音された音声を示す音声情報が、前記送信元の端末に関する属性情報に基づく情報量で符号化された符号化データを復号し、
　前記音声情報に基づく音声を、ユーザが使用する出力機器から出力させる
　処理を実行させるためのプログラム。
　１台または複数台の送信元の端末により集音された音声を示す音声情報が符号化された符号化データを、前記送信元の端末に関する属性情報と送信先の端末に関する属性情報とに基づいて決定された情報量の符号化データに変換する変換部と、
　変換済みの符号化データを前記送信先の端末に送信する送信部と
　を備える情報処理装置。