WO2023042436A1

WO2023042436A1 - 情報処理装置および方法、並びにプログラム

Info

Publication number: WO2023042436A1
Application number: PCT/JP2022/010483
Authority: WO
Inventors: 崇史服部; 梨奈小谷; 志朗鈴木; 祐樹松村
Original assignee: ソニーグループ株式会社
Priority date: 2021-09-16
Filing date: 2022-03-10
Publication date: 2023-03-23

Abstract

本技術は、より違和感の少ない映像または音声を提示することができるようにする情報処理装置および方法、並びにプログラムに関する。情報処理装置は、自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信する受信部と、複数の反応情報と、自端末の環境を示す環境情報とに基づいて、複数の他のユーザの反応に対応する提示映像または提示音声を生成する生成部とを備える。本技術はリモートライブシステムに適用することができる。

Description

情報処理装置および方法、並びにプログラム

　本技術は、情報処理装置および方法、並びにプログラムに関し、特に、より違和感の少ない映像または音声を提示できるようにした情報処理装置および方法、並びにプログラムに関する。

　近年、多数のリモートライブイベントが開催されているが、観客自身がイベントに参加している感覚やライブの一体感を得ることが困難である。

　そこで、観客の反応をヘッドマウントディスプレイや加速度センサ等でセンシングし、センシングにより得られた情報を動き情報等に変換して他者の端末に送信すると同時に、同様の方法で送信された他者の反応を受信する方法が提案されている。この方法では、受信した他者の反応をペンライトやアバタ等のオブジェクトが動く映像として提示することで、観客のイベントへの参加意識を誘起することができる。

　例えば図１の矢印Q11に示す映像を配信する場合に、自端末で受信した他者の反応を示す動き情報から、矢印Q12に示すオブジェクトの動く映像を生成すれば、矢印Q13に示すように配信された映像に、オブジェクトの動く映像を重畳して提示することができる。そうすれば、自端末でライブ等の映像を鑑賞している観客に対してイベントへの参加意識を誘起することができる。

　このような技術として、例えば特許文献１には、仮想空間上のライブイベントにおける図１を参照して説明した概念の実施方法が開示されている。

　具体的には、観客に装着したHMD（Head Mounted Display：ヘッドマウントディスプレイ）と種々のセンサからなるシステムによって、観客に仮想空間上で開催するライブイベントの映像が提示されるとともに観客の動きがセンシングされ、そのセンシング結果が位置情報や動き情報としてサーバに送信される。同時に、他の観客から得られた動き情報等がサーバから受信され、その動き情報等が用いられて仮想空間上で他の観客に対応するアバタが動く映像が提示される。

　また、特許文献２では、実会場とリモートの両方でライブイベントに参加できる場合に、ライブイベント会場に設置されたディスプレイにリモートで参加する観客の反応を提示する方法が開示されている。

　すなわち、リモートでライブイベントに参加する観客の反応がセンシングされて動作情報としてライブ会場に送信され、その動作情報に基づいてオブジェクトが動く映像が生成される。演目を実施する演者やライブ会場にいる観客は、この映像を会場に設置されたディスプレイで見ることにより、リモートで参加する観客の反応を確認でき、リモートで参加する観客も一体となってライブを作り上げる感覚が誘起される。

　非特許文献１でも特許文献２における場合と同様のシステムが開示されており、カメラで撮影した観客の反応がライブ会場に送信され、ライブ会場でその様子が表示される。この様子は配信映像として観客に再配信される。

　その他、サーバで他者の反応情報を一時的に記憶し、タイミングを合わせてから全端末に反応情報を再送信する方法（例えば、特許文献３参照）や、反応映像をサーバで生成して各端末に配信する方法（例えば、特許文献４参照）も提案されている。

特開２０１９－５０５７６号公報特開２０１３－２１４６６号公報特開２０１９－１９２１７８号公報特開２０２０－１９４０３０号公報

"Beyond LIVE"，［online］，［令和３年６月２２日検索］，インターネット〈URL：https://campaign.naver.com/pr/v/beyondlive/ja/〉

　しかしながら、上述した技術では、違和感の少ない映像や音声を提示することはできなかった。

　例えば特許文献１や特許文献２、非特許文献１に記載の技術では、受信した他の観客からの反応情報（動作情報、動き情報等）には通信路に依存する相異なる遅延があるため、提示される各観客の反応は意図と関係なくずれてしまう。その結果、観客のイベントへの参加意識を高め、ライブの一体感を得るという本来の目的を果たすことができなくなってしまうおそれがある。これと同様のことが特許文献４でも生じてしまう。

　また、例えば特許文献３では、サーバでタイミングを合わせてから反応情報を全端末に再送信するにあたり、遅延量の大きい端末にタイミングを合わせる必要があるから、反応情報の遅延が増大してしまう。そのため、現実的には特許文献３に記載の技術では多人数のライブに適応することは困難である。

　本技術は、このような状況に鑑みてなされたものであり、より違和感の少ない映像または音声を提示できるようにするものである。

　本技術の一側面の情報処理装置は、自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信する受信部と、複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する生成部とを備える。

　本技術の一側面の情報処理方法またはプログラムは、自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成するステップを含む。

　本技術の一側面においては、自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報が受信され、複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声が生成される。

他者の反応から生成した映像の重畳について説明する図である。特許文献１に記載のシステムについて説明する図である。観客の反応のずれについて説明する図である。特許文献２に記載のシステムについて説明する図である。観客の反応のずれについて説明する図である。反応のずれにより一体感が損なわれる例について説明する図である。リモートライブシステムの構成例を示す図である。送信情報と受信情報について説明する図である。観客端末の構成例を示す図である。演者端末の構成例を示す図である。一般的なリモートライブシステムとの違いを説明する図である。本技術の概要について説明する図である。周期情報について説明する図である。周期情報生成処理を説明するフローチャートである。センシング情報について説明する図である。センシング情報について説明する図である。反応を示す動きの向きの切り替わりについて説明する図である。溜め動作について説明する図である。コンテンツ再生処理を説明するフローチャートである。反応再生処理を説明するフローチャートである。反応映像／音声生成部の構成例を示す図である。反応映像／音声生成部の構成例を示す図である。テンポ情報に基づく周期情報の選択について説明する図である。テンポ情報に基づく周期情報の選択について説明する図である。ビート情報に基づく周期情報の選択について説明する図である。自端末周期情報に基づく周期情報の選択について説明する図である。自端末周期情報に基づく周期情報の選択について説明する図である。半周期の分散に基づく周期情報の選択について説明する図である。対応テーブルの例を示す図である。対応テーブルに基づくオブジェクトの生成について説明する図である。反応映像の生成について説明する図である。反応フレーム生成処理を説明するフローチャートである。周期情報について説明する図である。反応音声の生成について説明する図である。反応音声生成処理を説明するフローチャートである。選択周期情報の数と反応音声の変化について説明する図である。本技術の概要について説明する図である。反応映像／音声生成部の構成例を示す図である。遅延量算出処理を説明するフローチャートである。反応映像の生成について説明する図である。反応音声の生成について説明する図である。反応映像／音声生成部の構成例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈反応のずれの発生について〉
　上述のように、他者の反応を受信し、その他者の反応をペンライトやアバタ等のオブジェクトが動く映像として提示する一般的なシステムでは、他者の反応の受信時に、通信路に依存する遅延が生じるため、提示される各観客の反応は意図と関係なくずれてしまう。

　このような他者（観客）の反応のずれの例について、図２乃至図５を参照して説明する。

　なお、実際には観客は多数存在するが、図示の都合上、観客Ａ乃至観客Ｃの３人分のみ示されている。また、説明を簡単にするため、「観客」とは人物そのものに加え、配信映像の提示やセンシングされた反応を他者へ送信する機能を有する各個人に対応した端末も含めることとする。同様に「演者」とは人物そのものに加え、演者が行う演目を録画／録音してサーバに送信する配信者も含めることとする。

　図２および図３は、上述の特許文献１に記載のシステムについて説明するものである。

　図２には特許文献１に記載されたシステムを、説明のために簡略化したものが示されている。このシステムでは、演者が演目を録画／録音して、配信映像／音声としてサーバに送信し、各観客はサーバから配信映像／音声を受信する。

　各観客は配信映像／音声を視聴しながら自身の反応をセンシングし、動き情報として他の観客に送信する。同時に各観客側では、多数の他の観客の動き情報が受信され、それらの動き情報が用いられて他者の反応に相当する映像や音声が生成され、生成された映像／音声が配信映像／音声に重畳されて観客に提示される。

　例えば、観客Ａは配信映像／音声に加え、他者すなわち観客Ｂや観客Ｃなど、他の多数の観客の反応がオブジェクト（アバタ等）の動く映像になって重畳された映像を見ることになる。

　しかし、当システムでは、例えば図３に示すように、観客ごとに異なる通信路遅延があるために、ある観客からみた他者の反応（動き情報）がずれてしまう。

　図３は、観客Ａがある時刻の配信映像を受信したタイミングを起点として、観客Ａに通知された他者、すなわち観客Ｂと観客Ｃの反応が、観客Ａから見てどの程度遅延しているのかを示したタイミングチャートである。

　図２のシステムでは、観客ごとに異なる通信路遅延が生じるので、ある時刻の配信映像が観客Ａ、観客Ｂ、観客Ｃに届く時刻はそれぞれ異なる。また、観客Ｂ、観客Ｃの反応が、観客Ａに届くまでにかかる時間もそれぞれ異なる。したがって、観客Ａが見ている映像に対して観客Ｂ、観客Ｃの反応が遅延しているうえに、その遅延量が異なるから、観客Ａから見た観客Ｂ、観客Ｃの反応は意図せずばらばらにずれることになる。

　図４および図５は、上述の特許文献２に記載のシステムについて説明するものである。

　図４には特許文献２に記載されたシステムを、説明のために簡略化したものが示されている。このシステムは、図２に示したシステムに近いものであるが、観客の反応として動き情報が演者（ライブ会場）にのみ通知される点が図２のシステムとは異なる。

　すなわち、図４に示すシステムでは、演者が演目を録画／録音して得られた配信映像／音声は、サーバにより各観客に配信される。また、各観客側でセンシングにより得られた動き情報が演者に送信され、演者側では、各観客の動き情報が用いられてオブジェクトの動く映像が生成され、提示される。

　このような図４に示すシステムにおいても演者から見た他者の反応がそれぞれずれる。その理由は、例えば図５に示すように、演者がある動作を行い、その様子を配信するタイミングを起点としたタイミングチャートにおいて、演者と観客Ｂ、観客Ｃとの間に図３を参照して説明した例と全く同様の関係性があるからである。

　なお、特許文献４のように、他者の反応に相当する映像をサーバで生成し、その生成した映像を配信映像に重畳して配信する場合にも同様の反応のずれが生じる。その理由は、図５における「演者」を「サーバ」に置き換えれば、サーバと観客Ｂ、観客Ｃとの間に図５の例における場合と全く同様の関係性があるからである。

　以上のように「自分から見た他者の反応のずれ」によって、ライブの一体感が損なわれてしまう。その様子について図６を参照して説明する。

　多人数のライブを想定すると、図中、左側に示すように例えば観客Ａに対して他の観客Ｂ乃至観客Ｊからの反応は相異なる遅延がある。

　したがって、観客Ａから見た他者の反応を示す映像は、図中、右上側に示すように理想的にはオブジェクトの動きが皆揃ってほしい条件下でも、現実的には図中、右下側に示すように観客の意図とは無関係にずれてしまう。

　そこで、本技術では、他者の反応をオブジェクトの動く映像または音声として提示するリモートライブシステム等において、ある端末から見た遅延量が相異なることによって生じる違和感を効果的に防ぐことができるようにした。換言すれば、より違和感の少ない映像または音声を提示できるようにした。

〈リモートライブシステムの構成例〉
　それでは、以下、本技術について詳細に説明する。特に、以下では、本技術をリモートライブシステムに適用した例について説明する。

　まず、本技術の説明で用いる用語について説明する。

（演者）
　「演者」とは、ライブイベントで演奏等の演目を実施する人物である。なお本技術の主たる対象はリモートで開催されるライブコンサートであるが、演目はこれに限定されず、演劇やスポーツ等も含まれる。

（観客）
　「観客」とは、ライブイベントにリモートで参加する観客、（視聴者であるユーザ）である。観客は、後述する観客端末によって提示される映像／音声を見ながら、センシング用の専用機器や端末を動かしたり、体を動かしたり、拍手をしたりといった反応を行う。

（反応情報）
　「反応情報」とは観客の反応を示す情報であり、後述する周期情報や、動き情報等の総称である。

（反応映像）
　「反応映像」とは、主に他者の反応情報から生成される、他者に対応するオブジェクトが動く映像のことである。例えば反応映像は、ペンライトが左右に揺れる映像、人間を模したアバタの頭や手、腕が前後または左右に振れる映像などである。

（反応音声）
　「反応音声」とは、主に他者の反応情報から生成される音声である。例えば、反応音声は会場の拍手音、掛け声などの音声である。

（周期情報）
　「周期情報」とは、反応情報の１つであり、例えば演目に連動して生じるペンライトの動き、体の動き、拍手音のように周期性を持つ観客の反応に対して、その反応の周期を示す情報（反応の周期に基づく情報）のみに単純化された情報である。例えばペンライトの動きを反応映像として提示する場合には、ペンライトが45°から135°の角度で動き、その動きの周期は３秒であるといった情報などが周期情報とされる。

（演者端末）
　「演者端末」とは、演者に対応する端末であり、反応情報を受信し、反応映像、反応音声を演者に提示する。

（観客端末）
　「観客端末」とは、各観客に対応する端末であり、配信映像／音声および反応情報を受信し、反応映像、反応音声と配信映像／音声を重畳させ観客に提示する。また、観客端末は、自端末に対応する観客の反応をセンシングして解析し、他の端末に送信する機能も有する。

　図７は、本技術を適用したリモートライブシステムの一実施の形態の構成例を示す図である。

　図７に示すリモートライブシステムは、観客端末１１Ａ、観客端末１１Ｂ、観客端末１１Ｃを含む多数の観客端末、演者端末１２、収録／配信装置１３、およびネットワーク１４を有している。

　特に、ここでは図を見やすくするため、観客端末として、観客Ａの観客端末１１Ａ、観客Ｂの観客端末１１Ｂ、および観客Ｃの観客端末１１Ｃのみが図示されているが、実際には他の多数の観客の観客端末もネットワーク１４に接続されている。

　なお、以下、観客端末１１Ａ乃至観客端末１１Ｃを含む多数の観客端末を特に区別する必要のない場合、単に観客端末１１とも称することとする。

　リモートライブシステムでは、観客端末１１、演者端末１２、および収録／配信装置１３は、図示せぬサーバを含むネットワーク１４に接続されている。

　演者によって行われる演目は、明示されない配信者によって収録／配信装置１３により録画および録音され、符号化された後に配信映像／音声として、サーバを含むネットワーク１４に送信される。

　すなわち、収録／配信装置１３が録画（撮影）を行うことで、演者を被写体として含む配信映像、より詳細には配信映像の映像データ（配信映像データ）が得られる。また、収録／配信装置１３が録音（収音）を行うことで、演者の音声等を含む配信音声、より詳細には配信音声の音声データ（配信音声データ）が得られる。これらの配信映像と、その配信映像に付随する配信音声とからなるコンテンツが観客端末１１に配信される。

　なお、観客端末１１に配信されるコンテンツは、配信映像と配信音声の少なくとも何れか一方であればよい。以下では、配信映像および配信音声、すなわち配信映像データと配信音声データからなるデータを配信映像／音声とも記すこととする。

　収録／配信装置１３は、配信映像／音声が得られると、その配信映像／音声を符号化し、その結果得られた符号化配信映像／音声をネットワーク１４上のサーバに送信する。

　サーバは、収録／配信装置１３から送信されてきた符号化配信映像／音声を、ネットワーク１４を介して観客端末１１Ａ乃至観客端末１１Ｃを含む多数の観客端末１１へと送信（配信）する。

　なお、以下、観客端末１１に送信される符号化配信映像／音声を、単に配信映像／音声とも称する。また、以下において、収録／配信装置１３による撮影および収音で得られる映像／音声を、その映像／音声を符号化等してネットワーク１４上のサーバにより配信される符号化配信映像／音声と特に区別する場合には、それらの撮影および収音により得られた映像／音声を生映像／音声とも称することとする。

　観客端末１１は、例えばスマートフォン、タブレット、ゲーム機、パーソナルコンピュータ等の情報処理装置（端末装置）からなる。

　観客端末１１は、ネットワーク１４（サーバ）を介して収録／配信装置１３により送信（配信）された符号化配信映像／音声を受信するとともに、受信した符号化配信映像／音声に対する復号を行い、配信映像／音声を得る。

　また、観客端末１１は、配信映像／音声の復号と同時に周期情報の送信と受信も行う。

　すなわち、観客端末１１は、自身（観客端末１１）に対応する観客の反応について周期情報を生成し、その周期情報を、ネットワーク１４（サーバ）を介して他の観客端末１１や演者端末１２へと送信する。また、観客端末１１は、ネットワーク１４（サーバ）を介して複数の他の観客端末１１から、それらの他の観客端末１１に対応する他の観客の反応についての周期情報を受信する。

　例えば、この例では観客端末１１Ａは、観客Ａの反応についての周期情報を生成して送信するとともに、観客端末１１Ｂや観客端末１１Ｃから、観客Ｂの反応についての周期情報や、観客Ｃの反応についての周期情報を受信する。

　観客端末１１は、受信した周期情報を用いて、自端末上で複数の他の観客（他のユーザ）の反応を示す反応映像および反応音声を生成する。また、観客端末１１は、反応映像／音声を復号済みの配信映像／音声に重畳させ、対応する観客に対して映像（以下、提示映像とも称する）と音声（以下、提示音声とも称する）を提示する。

　なお、提示映像は、配信映像に反応映像を重畳したものであってもよいし、反応映像のみであってもよい。同様に、提示音声は、配信音声に反応音声を重畳（合成）したものであってもよいし、反応音声のみであってもよい。

　演者端末１２は、例えばコンピュータ等の情報処理装置（端末装置）からなる。

　演者端末１２は、観客端末１１における場合と同様に、ネットワーク１４（サーバ）を介して、複数の各観客端末１１から、観客の反応についての周期情報を受信する。演者端末１２は、受信した周期情報を用いて、自端末上で複数の観客の反応を示す反応映像および反応音声を生成し、演者に対して提示する。

　以上のようなリモートライブシステムにおいて、収録／配信装置１３により配信されるリモートライブ、すなわち配信映像／音声を視聴する観客が観客Ａ乃至観客Ｃの３名である場合、各装置で送信および受信する情報は、図８に示すようになる。

　収録／配信装置１３と演者端末１２を配信側の１つの装置として考えると、その配信側の装置の受信する情報（受信情報）は、観客Ａ、観客Ｂ、および観客Ｃの各観客について生成された周期情報である。つまり、配信側の装置は、観客端末１１Ａ乃至観客端末１１Ｃのそれぞれから、観客Ａ乃至観客Ｃのそれぞれについての周期情報を受信する。

　また、配信側の装置が送信する情報（送信情報）は、リモートライブの映像と音声である配信映像／音声となる。

　観客端末１１Ａにおいては、受信情報は配信映像／音声、観客Ｂについての周期情報、および観客Ｃについての周期情報であり、送信情報は観客Ａについての周期情報である。

　同様に、観客端末１１Ｂにおいては、受信情報は配信映像／音声、観客Ａについての周期情報、および観客Ｃについての周期情報であり、送信情報は観客Ｂについての周期情報である。観客端末１１Ｃにおいては、受信情報は配信映像／音声、観客Ａについての周期情報、および観客Ｂについての周期情報であり、送信情報は観客Ｃについての周期情報である。

　このように、演者端末１２と観客端末１１では、ともに他者の周期情報が受信され、さらに各観客端末１１では、周期情報に加えて配信映像／音声も受信される。

〈観客端末の構成例〉
　観客端末１１は、例えば図９に示すように構成される。

　この例では、観客端末１１にはセンシングデバイス４１および映像／音声出力装置４２が接続されている。

　観客端末１１は、主に以下に示す機能を有している。
　　・センシングした観客の反応を解析し、周期情報として送信
　　・符号化された配信映像／音声を受信し、復号
　　・他者の周期情報を受信し、反応映像、反応音声を生成
　　・配信映像／音声と、反応映像／音声を重畳して出力

　観客端末１１は、センシング情報解析部５１、送信部５２、受信部５３、配信映像／音声復号部５４、反応映像／音声生成部５５、映像／音声重畳部５６、および映像／音声出力部５７を有している。

　センシング情報解析部５１は、センシングデバイス４１によりセンシングされた観客の反応をセンシング情報としてセンシングデバイス４１から取得し、そのセンシング情報を周期情報に変換して送信部５２および反応映像／音声生成部５５に供給する。換言すれば、センシング情報解析部５１は、センシング情報に基づいて、反応情報として周期情報を生成する反応情報生成部として機能する。

　センシングデバイス４１は、例えばカメラ（イメージセンサ）、マイクロフォン、加速度センサ、ジャイロセンサ、地磁気センサ等の１または複数のセンサを搭載するデバイスからなる。具体的には、例えばセンシングデバイス４１は、観客端末１１に対応する観客（ユーザ）に装着されるヘッドマウントディスプレイや、観客により把持されるペンライト型のデバイスなどとされる。

　センシングデバイス４１は、観客を被写体とする映像、観客の音声、観客の動きを示す角加速度や角速度などを観客の反応としてセンシングし、その結果得られたセンシング情報をセンシング情報解析部５１へと供給する。なお、センシングデバイス４１は、観客端末１１の外部に設けられて観客端末１１に接続されるようにしてもよいし、観客端末１１の内部に搭載されているようにしてもよい。

　また、周期情報は補助情報として反応映像／音声生成部５５へと通知（供給）される。そのため、反応映像／音声生成部５５では、必ずしもセンシング情報解析部５１から供給された周期情報が用いられる必要はない。

　送信部５２は、センシング情報解析部５１から供給された周期情報を、ネットワーク１４上のサーバに送信する。サーバに送信された周期情報は、演者端末１２や他の観客端末１１へと通知（送信）される。

　受信部５３は、ネットワーク１４上のサーバから符号化配信映像／音声を受信し、配信映像／音声復号部５４へと供給する。

　また、受信部５３は、ネットワーク１４上のサーバから他者（他の観客）の反応情報として、他者の周期情報を多数受信（取得）し、反応映像／音声生成部５５に供給する。すなわち、受信部５３は、自端末とは異なる複数の他の観客端末１１のそれぞれで生成された、複数の他のユーザ（他の観客）のそれぞれの反応情報を受信する。

　配信映像／音声復号部５４は、受信部５３から供給された符号化配信映像／音声を復号し、その結果得られた配信映像／音声を反応映像／音声生成部５５および映像／音声重畳部５６に供給する。

　特に、配信映像／音声は補助情報として反応映像／音声生成部５５へと通知（供給）される。そのため、反応映像／音声生成部５５では、必ずしも配信映像／音声復号部５４から供給された配信映像／音声が用いられる必要はない。

　反応映像／音声生成部５５は、少なくとも受信部５３から供給された他者の周期情報に基づいて、複数の他のユーザの反応に対応する反応映像／音声、すなわち反応映像と反応音声を生成し、映像／音声重畳部５６に供給（送信）する。

　反応映像は、例えば他者の反応情報（周期情報）に応じた動きをする、複数の各他者に対応するオブジェクトの映像である。また、反応音声は、例えば他者の反応情報（周期情報）に応じたタイミングで、複数の各他者の反応に対応する特定の音が再生される音声である。

　なお、反応映像／音声の生成時には、反応映像／音声生成部５５は、他者の周期情報だけでなく、補助情報も用いるようにしてもよい。

　例えば、反応映像／音声生成部５５は、センシング情報解析部５１から供給された自端末の周期情報、配信映像／音声復号部５４から供給された配信映像、および配信映像／音声復号部５４から供給された配信音声の少なくとも何れか１つを補助情報として用いて反応映像／音声を生成してもよい。

　補助情報として用いられる自端末の周期情報や配信映像／音声は、自端末における配信映像／音声に関する環境を示す情報である。したがって、これらの補助情報は、配信映像／音声の再生時における自端末（観客端末１１）の環境を示す環境情報であるということができる。

　また、以下では、観客端末１１自身が有するセンシング情報解析部５１により生成された、観客端末１１に対応する観客の反応についての周期情報を、特に自端末周期情報とも称することとする。さらに、以下、観客端末１１が受信した他者の周期情報を他者周期情報とも称することとする。

　映像／音声重畳部５６は、配信映像／音声復号部５４から供給された配信映像／音声に対して、反応映像／音声生成部５５から供給された反応映像／音声を重畳することで、提示映像／音声を生成し、映像／音声出力部５７に供給する。

　なお、上述のように反応映像や反応音声が、そのまま提示映像や提示音声とされてもよい。また、提示映像と提示音声の何れか一方のみが出力されるようにしてもよい。

　映像／音声出力部５７は、映像／音声重畳部５６から供給された提示映像／音声を、実際に映像／音声出力装置４２に出力可能な形式に変換し、変換後の提示映像／音声を映像／音声出力装置４２に供給（出力）する。すなわち、映像／音声出力部５７は、映像／音声出力装置４２に提示映像／音声を出力することで、ユーザに対して提示映像／音声を提示させる。

　例えば映像／音声出力装置４２に出力可能な形式は、HDMI（High-Definition Multimedia Interface）（登録商標）の出力形式や公知の映像／音声データフォーマット（形式）などとされる。

　映像／音声出力装置４２は、例えば映像表示機能と音声出力機能を有するディスプレイ等のデバイスからなり、映像／音声出力部５７から供給された提示映像／音声を自端末の観客に対して提示する。すなわち、映像／音声出力装置４２は、提示映像を表示させるとともに、提示音声を再生する。

〈演者端末の構成例〉
　演者端末１２は、例えば図１０に示すように構成される。

　この例では、演者端末１２は、カメラやマイクロフォン等で得られた生映像／音声の供給を受けるとともに、適宜、生映像／音声を補助情報として用いて生成した反応映像／音声を、演者端末１２に接続されている映像／音声出力装置８１に出力する。

　演者端末１２は、受信部９１、反応映像／音声生成部９２、および映像／音声出力部９３を有している。

　これらの受信部９１、反応映像／音声生成部９２、および映像／音声出力部９３は、観客端末１１の受信部５３、反応映像／音声生成部５５、および映像／音声出力部５７に対応している。すなわち、演者端末１２は、観客端末１１の機能のうち、他者周期情報を受信し、反応映像および反応音声を生成する機能のみを有する。したがって、演者端末１２の構成は、観客端末１１からいくつかの処理ブロックを除いた構成となっている。

　受信部９１は、ネットワーク１４上のサーバから他者の周期情報を多数取得（受信）し、反応映像／音声生成部９２に供給する。

　反応映像／音声生成部９２は、受信部９１から供給された他者の周期情報と、補助情報として外部から供給された生映像／音声とに基づいて、オブジェクトの動きである反応映像と、反応音声を生成し、得られた反応映像／音声を映像／音声出力部９３に供給する。

　上述のように、生映像／音声とは観客に配信する配信映像／音声の元になる、演目を撮影および収音したデータそのものである。また、補助情報である生映像／音声は、必ずしも反応映像／音声の生成に用いられなくてもよい。

　演者端末１２においても観客端末１１における場合と同様に、補助情報として用いられる生映像／音声は、自端末（演者端末１２）の環境を示す環境情報であるということができる。

　映像／音声出力部９３は、反応映像／音声生成部９２から供給された反応映像／音声を、実際に映像／音声出力装置８１に出力可能な形式に変換し、変換後の反応映像／音声を提示映像／音声として映像／音声出力装置８１に供給（出力）する。

　例えば映像／音声出力装置８１に出力可能な形式は、HDMI（登録商標）の出力形式や公知の映像／音声データフォーマット（形式）などとされる。

　ところで、上述の観客端末１１について、その具体的な実施形態はユースケースや観客が保有する機器に応じて変わり得る。以下、観客端末１１の具体的な例を述べる。

（観客端末の具体例１）
　観客端末１１としての機能をスマートフォンやタブレットに搭載する。

　例えば、予めリモートライブシステムをサポートするライブ配信アプリケーションプログラムをスマートフォン等にインストールすることで、そのスマートフォン等を観客端末１１として使用することができる。

　この場合、センシング用の機器、つまりセンシングデバイス４１として、スマートフォン等の内蔵カメラやマイクロフォン等を用いることができる。また、別途、加速度センサやジャイロセンサ等を備えたセンシングデバイス４１を有線または無線で観客端末１１と接続してもよい。

　例えば加速度センサやジャイロセンサ等のセンサを備えペンライトの形状を模し、発光する把持デバイスをセンシングデバイス４１としてもよい。そのような場合、センシングデバイス４１としての把持デバイスをライブイベントの前に観客に購入してもらったり、チケットと共に把持デバイスを観客に配布したりすること等が考えられる。

　また、映像は観客端末１１としてのスマートフォンやタブレットに搭載または接続されたディスプレイに提示し、音声は観客端末１１に搭載または接続されたスピーカ、イヤホン、ヘッドホンにより提示される。

（観客端末の具体例２）
　観客端末１１としての機能をPC（Personal Computer）／ゲーム機に搭載する。

　予めリモートライブシステムをサポートするライブ配信アプリケーションプログラムをPC等にインストールすることで、そのPC等を観客端末１１として使用することができる。

　この場合、センシング用の機器、つまりセンシングデバイス４１として、上記の加速度センサやジャイロセンサ等を備えるデバイス、コントローラ、ヘッドマウントディスプレイ等を用いることができる。また、観客端末１１に接続されたディスプレイや、ヘッドマウントディスプレイに映像を提示し、音声は観客端末１１に接続されたスピーカ、イヤホン、ヘッドホン、ヘッドマウントディスプレイ等により提示される。

　演者端末１２としての機能も、上記の観客端末１１の例と同様の機器によって実現できる。但し、演者端末１２は、生音声の映像／音声を低遅延で入力できるようなインターフェースを備えることが望ましい。

　演者端末１２側では、映像は演者から確認可能な位置にあるディスプレイによって提示し、音声は会場内に設置されたスピーカや、演者が身に着けるイヤホン（IEM（In-Ear Monitor））等で、他の音声とミキシングされて提示される。

〈本技術の概要〉
　本技術では、リモートライブシステムにおける反応映像／音声生成部５５および反応映像／音声生成部９２により行われる処理が、自端末の環境に応じて変化する。

　具体的には、受信した他者の周期情報に加え、適宜、自端末の環境を示す補助情報が参照されて、反応映像および反応音声が生成される。補助情報は、例えば視聴中の配信映像の時刻を示すタイムスタンプや、自端末でセンシングして得られた周期情報、音声から取得したテンポ情報などとされる。

　ここで、図１１に本技術を適用したリモートライブシステムと一般的なリモートライブシステムとの違いを示す。

　図中、上側には、一般的なリモートライブシステムにおいて演者、観客Ａ、および観客Ｂに提示される反応映像の例が示されている。ここでは、反応映像には、他者の反応に応じて動くオブジェクトとしてペンライトが表示されている。

　図中、上側に示すように一般的なリモートライブシステムでは、他者の反応のずれに対する補正等のケアは何ら行われないため、各観客の反応がそのまま提示されてしまう。したがって、他者（観客）の反応が揃ってほしい条件下でも、それらの観客の反応がばらばらになった映像が提示されてしまう。

　これに対して、図中、下側には本技術を適用したリモートライブシステムにおいて演者、観客Ａ、および観客Ｂに提示される反応映像の例が示されている。図中、上側における場合と同様に、反応映像には、他者の反応に応じて動くオブジェクトとしてペンライトが表示されている。

　本技術では、演者や観客の環境に合わせて、自端末で他者の反応のずれを吸収した反応映像／音声が提示される。

　したがって、図中、下側に示すように演者端末１２および各観客端末１１により提示される反応、すなわち反応映像上におけるオブジェクトの動きはそれぞれ全く異なるにもかかわらず、提示される演者や観客自身にとっては違和感がなくなる。

　具体的には、例えば観客Ａに提示される反応映像上のオブジェクトの動きと、観客Ｂに提示される反応映像上のオブジェクトの動きとを比較すると、それらの動きは揃っていない。しかし、例えば観客Ａに提示される反応映像上においては、複数の各オブジェクトの動きが揃っており、違和感の少ない反応映像となっている。

　なお、他者の反応のずれを吸収する方法として、上述の特許文献３における第１２５段落には、サーバで他者の反応情報を一時的に記憶し、タイミングを合わせてから全端末に反応情報を再送信する方法が開示されている。

　しかし、この方法では遅延量の大きい端末にタイミングを合わせる必要があるから、反応情報の遅延が増大してしまう。そのため、現実的には多人数のリモートライブに適応することは困難である。本技術は特許文献３に記載の機構が不要なため、遅延量を増大させることなく、多人数でのリモートライブに適応することができる。

　さらに、本技術は、後述する第２の実施の形態のように、反応情報から未来の反応映像／音声を予測することも可能であるから、反応情報の遅延そのものを検知しにくくなるという、さらなる利点も有している。

　また、上述の特許文献４のように、反応映像をサーバで生成し各端末に配信する方法も考えられる。しかし、本技術は反応映像（反応音声）を自端末上でローカルに生成する点で特許文献４とは異なる。

　この差異によって、上述のように自端末の環境に応じて動作、すなわち反応映像／音声生成部５５や反応映像／音声生成部９２での処理を変化させることができ、より違和感の少ない反応映像／音声を得ることができる。

　以下、各実施の形態において「自端末に最適化された、他者の反応のずれを吸収した反応映像／音声」の具体的な生成方法について説明する。そのために、まず観客端末１１におけるセンシング情報解析部５１での処理の詳細について説明し、次に観客端末１１の反応映像／音声生成部５５および演者端末１２の反応映像／音声生成部９２における処理の詳細について説明する。

　第１の実施の形態では、取得した複数の他者周期情報のなかから、１個以上の他者周期情報を選択し、選択した他者周期情報を用いて反応映像や反応音声を生成する例について説明する。

　図１２に第１の実施の形態の概要を示す。

　図１２では、反応映像／音声生成部５５および反応映像／音声生成部９２の簡易的な構成が示されている。

　反応映像／音声生成部では、受信されたＮ個の他者周期情報から１個以上の周期情報が選択される。そして、選択された周期情報に基づいて、複数個、例えば入力された周期情報の個数と同じＮ個のオブジェクトが動く反応映像と、その反応映像に対応する反応音声が生成される。

　この例では、１つの周期情報ｉが選択されているため、この１つの周期情報ｉから生成した複数のオブジェクトの動きは不自然にばらばらになることがなく、反応映像の違和感が軽減される。換言すれば、複数の他者の観客端末１１ごとに異なる遅延量によってばらばらになっている他者の反応が、選択された周期情報ｉに対応する同一の反応に置き換えられることにより遅延量のずれが補正され、違和感のない反応映像が提示される。

　周期情報の選択基準については後述するが、自端末の環境を示す補助情報が参照されて周期情報の選択が行われる。

　なお、特許文献４では、１つのモーションデータから複数のオブジェクトが動く映像を生成してもよい旨が開示されている。しかし本技術は、受信した複数の反応情報（周期情報）から、自端末の環境を考慮して予め１個以上の反応情報を選択する点で特許文献４と異なる。その結果、自端末に対応する演者または観客にとって違和感の生じにくい反応映像を生成できるという異質の効果が生まれる。

　以下、図１２を参照して説明した概念を、本技術を適用したリモートライブシステムで実施するための具体的な方法について詳細に説明する。

　本技術は、観客の反応に周期性があれば、反応の種類に依らず適応可能であるが、説明を分かりやすくするため、以下では想定する反応映像／音声と、対応して決まる周期情報の内容を具体的に例示する。なぜなら、提示したい反応映像／音声の内容によって、周期情報の具体的な中身が変わるからである。

　例えば、反応映像がペンライトの動きや、観客が手を振る動作を模したものであり、かつペンライトや観客の手が左右にしか振れないような動きに限定される場合には、周期情報は、ある周期で左右に振れることを示す１次元の情報のみで十分である。また、例えば反応映像上のオブジェクトの動きがヘッドバンギングなど体全体を使用する動きであれば、上下または８の字といった動作が復元できるようなメタ情報が必要である。

　なお、反応映像を生成するためのオブジェクトの3Dモデルや、反応音声の生成の元になる音源（例えば、１回分の拍手など）、すなわち音声データは、リモートライブシステムでのリモートライブに参加する際に配信者からダウンロードする等の方法により観客端末１１や演者端末１２に記録されているものとする。

　第１の実施の形態では、観客（他者）が持っているペンライトが他者の反応に対応するオブジェクトであり、そのペンライトが他者の反応（動き）に応じて動く反応映像が生成される例について説明する。

　すなわち、この例では、例えば他者（他の観客）は実際にペンライトを把持しており、そのペンライトが他者に対応するオブジェクトとされ、周期情報からペンライトが左右に動くような反応映像が生成されることを想定する。この場合、他者が実際に把持するペンライトには、加速度センサやジャイロセンサ等のセンサが設けられている。

　ここでは、説明を簡単にするため、観客の動き（動作）として、観客がペンライトを前後や上下に振るような動作については無視することとする。また、提示映像上において単体でペンライトの映像が重畳されると、ペンライトが宙に浮いているように見えて不自然なため、実際には観客に対応するアバタの腕とペンライトが同期して動く映像を提示することが考えられるが、説明の都合上ペンライトの動きに限定して述べることとする。

　このように、配信映像／音声を視聴する観客がペンライトを持って、そのペンライトを左右に振るという反応をし、その反応に応じて、オブジェクトとしてのペンライトが動く反応映像を生成する場合、ペンライトの動きを表現する周期情報として図１３に示す情報を用いることができる。

　図１３では、矢印Q21に示す部分には時系列に並ぶ周期情報の例が示されており、矢印Q22に示す部分にはペンライトの動きが示されている。

　特に、矢印Q22に示す部分において、横軸は時刻を示しており、縦方向の矢印の高さはペンライトの傾きを示す角度の大きさを表している。

　ここでは、ペンライトが水平方向となっている状態、すなわちペンライトが水平面と平行になっている状態を、ペンライトの角度が０°となっている状態であるとする。したがって、例えばペンライトが図中、右斜め上を向く状態では、ペンライトの角度は４５°となり、ペンライトが図中、左斜め上を向く状態では、ペンライトの角度は１３５°となる。

　この例では、観客は配信映像／音声を視聴しながら、ペンライトを左右に動かす反応をする。そして、以下に示す２つの情報が観客の反応を示す周期情報として送信される。

　・動く向きが変わった時のペンライト角度（角速度の符号が変わる瞬間の角度）
　・前回向きが変わってからの経過時間（直前の半周期の時間）

　矢印Q21に示す部分では、周期情報は「角度」および「半周期」という２つの情報からなり、図中、下側に示される周期情報ほど、より新しい周期情報となっている。

　周期情報に含まれている角度（以下、角度情報とも称する）は、ペンライトの動く向き（方向）が変化した時刻における、ペンライトの水平面に対する角度となっている。

　また、周期情報に含まれている半周期（以下、半周期情報とも称する）は、前回（直前に）、ペンライトの動く向き（方向）が変化してから、今回、ペンライトの動く向きが変化するまでの時間を示している。

　この例では、各観客端末１１において、ペンライトの動く向きが変化したタイミングで角度情報と半周期情報とからなる周期情報が生成され、ネットワーク１４上のサーバへと送信される。

　したがって、矢印Q21に示す各タイミングの周期情報が受信された場合には、それらの周期情報から、観客の反応は矢印Q22に示した反応であることが特定できる。

　具体的には、所定の時刻ではペンライトの角度は１３５°となっており、その２秒後にペンライトの角度は４５°となり、さらにその２秒後にペンライトの角度は１３５°となるといったように、他者の反応が、ペンライトが４５°から１３５°の間の角度で左右に動く反応であったことが分かる。すなわち、ペンライトは、例えば右方向から左方向など、ペンライトの動く向きを変化させながら左右に動く周期的な動き（周期運動）をしていることが分かる。

　この場合、ペンライトの動く向きが変化してから、次にペンライトの動く向きが変化するまでの経過時間が、周期運動であるペンライト動きの半周期の時間となる。

　このように限られた情報を動きの半周期という、非常に少ない頻度で他の観客端末１１に通知するだけで、各観客端末１１では反応映像を生成することができる。

　したがって、周期情報を反応情報として用いることで、ゲーム等で用いられる既存技術や特許文献１、特許文献３、特許文献４のように動き情報や位置情報を単に送信する場合とは異なり、多人数へのスケールが可能である。

〈周期情報生成処理の説明〉
　ここで、周期情報を生成するときに行われる処理について説明する。すなわち、以下、図１４のフローチャートを参照して、観客端末１１による周期情報生成処理について説明する。この周期情報生成処理は、センシング情報の取得タイミングに同期して一定の間隔、例えばセンシング情報の数１０サンプル分や映像の数フレーム分の時間ごとに実行される。

　ステップＳ１１においてセンシング情報解析部５１は、センシングデバイス４１からセンシング情報を取得し、取得したセンシング情報から観客（ペンライト）の角加速度、角速度、角度等のセンシング結果に基づく時系列データを得る（取得する）。

　例えば図１５の左側に示すように、観客がセンシングデバイス４１を内蔵するペンライトを左右に振っている状態で、図中、中央に示すように、センシング情報解析部５１がセンシングデバイス４１からセンシング情報を取得したとする。

　この例では、センシングデバイス４１は加速度センサやジャイロセンサからなり、センシング情報解析部５１は、センシング情報として角加速度の時系列データを取得する。

　センシング情報解析部５１は、このようにして取得した角加速度の時系列データを積分するなど、所定の方法により時系列データを加工することで、図中、右側に示すようにペンライトの動きを示す角速度や角度に関する時系列データを得る。この例では、角加速度の時系列データを積分することで、角速度の時系列データが取得される。

　また、例えば図１６に示すように過去に取得されたセンシング情報としての映像フレームFL11と、今回、新たにセンシング情報として取得された映像フレームFL12とを比較することで、観客の手（腕）の動きを検出してもよい。

　この例では、観客を被写体として撮影された映像がセンシング情報とされており、映像フレームFL11と映像フレームFL12には、観客が手を振る様子が被写体として写っている。この場合、センシング情報解析部５１は、例えばセンシング情報として供給された映像フレームに対する解析処理を行うことで、観客の手や腕を検出するとともに、その手や腕の向き、すなわち手や腕の水平面に対する角度を得ることができる。

　したがって、映像フレームFL11と映像フレームFL12など、時間的に前後する映像フレーム、より詳細には映像フレームについて得られた手や腕の角度を比較することで、観客の手（腕）の動き、すなわち手の角速度等に関する時系列データを得ることができる。

　なお、映像フレームからの観客の手や腕の検出には、例えばDNN（Deep Neural Network）等の機械学習により得られた検出器等を用いるようにしてもよいし、映像フレームに対する画像認識などにより検出を行うようにしてもよい。

　図１４のフローチャートの説明に戻り、ステップＳ１２においてセンシング情報解析部５１は、ステップＳ１１で得られた時系列データに基づいて、観客（ペンライト）の動きの向きの切り替わりを検出する。

　具体的には、例えばセンシング情報解析部５１は、以下の２つの基準のうちの少なくとも何れか一方に基づいて、観客の反応を示す動き、すなわちペンライトの動きの向きの切り替わりを検出する。

　基準１：加速度が極大、極小となる点がある
　基準２：角速度の符号が変わる

　例えば図１７の下側に示すように、センシング情報から角速度の時系列データが得られたとする。ここでは折れ線L11が角速度の時系列データを示しており、特に期間T11の部分の時系列データが直前のステップＳ１１の処理で得られたとする。また、図中、下側において横軸よりも上側の領域は角速度（動きが左方向）が正となる領域であり、横軸よりも下側の領域は角速度が負となる領域である。

　この場合、角速度の符号が変化するタイミング（時刻）を、観客の反応を示す動きの向きが変化したタイミングとみなすことができる。

　例えば角速度の時系列データにおける期間T11では、角速度の符号が正から負へと変化しているので、センシング情報解析部５１は、時系列データの符号が変化したタイミング（時刻）を、観客の反応を示す動きの向きが切り替わったタイミングとして検出する。

　また、例えば角速度の絶対値が一定以下となる範囲T12を、観客の動きが停止していると判断される角速度の範囲とし、角速度が範囲T12内となる場合には、観客の反応を示す動きが停止していると判定されるようにしてもよい。この場合、角速度が範囲T12内の値から範囲T12外の値へと変化したタイミング（時刻）が、観客の反応を示す動きの向きが切り替わったタイミングとして検出される。

　さらに、例えば図中、上側に示すように角加速度の時系列データにおける極大または極小の有無によって、観客の反応を示す動きの向きの切り替わりが検出されてもよい。図中、上側では折れ線L12は、角加速度の時系列データを示しており、特に期間T11の部分の時系列データが直前のステップＳ１１の処理で得られたとする。

　この場合、センシング情報解析部５１は、角加速度が極大または極小となるタイミングを、観客の反応を示す動きの向きが切り替わったタイミングとして検出する。

　例えば角加速度の時系列データにおける期間T11には、極小となるタイミングが含まれているから、センシング情報解析部５１は、そのタイミング（時刻）を、観客の反応を示す動きの向きが切り替わったタイミングとする。

　この場合、例えば角加速度の時系列データにおける、期間T11の直前の極大となったタイミングから、期間T11内の極小となるタイミングまでの期間T13の長さが、観客の反応を示す動きの半周期の時間となる。

　なお、実際のセンシング情報にはノイズが含まれるため、センシング情報解析部５１は、ステップＳ１１で得られた時系列データに対して移動平均等の平滑化を行ってから、ステップＳ１２の処理を行うようにしてもよい。

　また、例えば図１８の上側に示すように、実際のペンライトの動作には、向きを変えるときに一定時間ペンライトの角度を変えずに小刻みに動かす、いわば「溜め」のような動きもある。

　図１８の上側には、観客が手にペンライトPL11を持って、溜めを行いながらペンライトPL11を左右に振る（動かす）動きの様子が示されている。

　このように観客がペンライトPL11を左右に振るときに左右の端で溜めの動作を行う場合、例えばセンシング情報解析部５１では、図中、下側に示す角速度の時系列データが得られる。ここでは折れ線L21が角速度の時系列データを示している。

　この場合、例えば角速度の絶対値が一定以下となる範囲T21では、ペンライトPL11の動きが停止していると判断することができる。

　そこでセンシング情報解析部５１は、ペンライトPL11が最後に停止していたとみなされてから（判定されてから）の経過時間ｐ_stopを記録し、経過時間ｐ_stopが予め定められた期間ｐ_１以上となった場合に、ペンライトPL11の動きが溜めの状態となっているとする。

　例えば、この例では折れ線L21における期間T22の部分が図中、中央に示した状態、つまりペンライトPL11が右端で溜めとなっている状態に対応している。図中、中央に示す部分では、ペンライトPL11が右端で溜めとなっているときには、ペンライトPL11の向きが殆ど変化しないことが分かる。

　例えば、前回、ステップＳ１２の処理を行ったときには、ペンライトPL11が溜めの状態であったが、今回、ステップＳ１２の処理を行ったところ、ペンライトPL11の動きの向きの切り替わりが検出されたとする。

　そのような場合、センシング情報解析部５１は、動きの向きの切り替わりが検出された時点における経過時間ｐ_stopを、ペンライトPL11の溜めの時間を示す付加情報として、送信部５２に供給するようにしてもよい。

　但し、期間ｐ_１よりも十分に大きい、予め定められた期間をｐ_２として、経過時間ｐ_stop＞ｐ_２となった場合、センシング情報解析部５１は、ペンライトPL11の動きは溜め動作ではなく、ペンライトPL11の動きが停止したものとする。そしてセンシング情報解析部５１は、ペンライトPL11の動きが停止している、すなわち観客の反応が失われたことを示す情報を送信部５２に供給するようにしてもよい。

　図１４のフローチャートの説明に戻り、ステップＳ１３においてセンシング情報解析部５１は、ステップＳ１２の処理により、観客（ペンライト）の動きの向きの切り替わりが検出されたか否かを判定する。

　ステップＳ１３において向きの切り替わりが検出されたと判定された場合、ステップＳ１４において、センシング情報解析部５１は周期情報を生成し、送信部５２および反応映像／音声生成部５５に供給する。なお、例えばステップＳ１２において溜めの時間を示す付加情報が生成された場合にも、ステップＳ１３の処理が行われる。

　例えばセンシング情報解析部５１は、前回、観客（ペンライト）の動きの向きが変化した時刻ｔ_beforeと、今回、観客の動きの向きが変化した時刻ｔとの差（ｔ－ｔ_before）を観客の動きの半周期に相当する時間（半周期情報）として求める。また、センシング情報解析部５１は、時刻ｔにおける観客の動きを示す角度、すなわち例えばペンライトの水平面に対する角度を角度情報として求める。

　センシング情報解析部５１は、求めた半周期情報と角度情報を含む情報を周期情報として送信部５２および反応映像／音声生成部５５に供給する。このとき、周期情報には、上述の溜めの時間を示す付加情報や、観客の反応が失われたことを示す付加情報が含まれるようにしてもよい。

　なお、観客端末１１に対応する１人の観客がペンライト型の把持デバイス（センシングデバイス４１）を右手と左手のそれぞれに持ち、それらの把持デバイスが無線等により接続される場合など、複数のセンシング情報が得られることもある。

　そのような場合には、センシング情報解析部５１は、上述のステップＳ１１乃至ステップＳ１４の処理を２回行って、センシング情報（センシングデバイス４１）ごとに周期情報を生成し、送信するようにしてもよい。

　その他、ステップＳ１１乃至ステップＳ１４の処理を２回実行することに伴う演算負荷の増加や情報量増加を避ける観点から、通信状態や観客端末１１の演算リソースに応じて、何れか一方のペンライトの情報（センシング情報）のみについて処理を行い、周期情報を生成するようにしてもよい。

　ステップＳ１５において送信部５２は、センシング情報解析部５１から供給された周期情報を、ネットワーク１４上のサーバに送信し、周期情報生成処理は終了する。

　また、ステップＳ１３において向きの切り替わりが検出されなかったと判定された場合、周期情報は送信されないので、ステップＳ１４およびステップＳ１５の処理は行われず、周期情報生成処理は終了する。

　以上のようにして観客端末１１は、センシング情報に基づいて周期情報を生成し、ネットワーク１４上のサーバへと送信する。観客端末１１では、観客の動きの向きの切り替わりが検出された場合にのみ周期情報が生成されるので、観客端末１１が多数ある場合でも、少ない通信量および処理負荷でリモートライブを実現することができる。

〈コンテンツ再生処理の説明〉
　また、観客端末１１は、上述した周期情報生成処理を行いながら、他者周期情報や配信映像／音声を受信して提示映像／音声をコンテンツとして提示するコンテンツ再生処理も同時に行う。以下、図１９のフローチャートを参照して、観客端末１１により行われるコンテンツ再生処理について説明する。例えばコンテンツ再生処理は、配信映像や配信音声のフレームごとに行われる。

　ステップＳ４１において受信部５３は、ネットワーク１４上のサーバから送信されてきた配信映像／音声、より詳細には符号化配信映像／音声を受信して映像／音声復号部５４へと供給する。

　ステップＳ４２において受信部５３は、ネットワーク１４上のサーバから送信されてきた他の観客端末１１の周期情報、すなわち他者周期情報を受信して反応映像／音声生成部５５に供給する。

　なお、配信映像／音声はフレーム単位などで、一定の時間間隔で送信されてくるのに対して、他者周期情報は不定の時間間隔で送信されてくる。つまり他者周期情報は、他の観客端末１１において、他者（他の観客）の動きの向きの切り替わりが検出されたタイミングで送信される。そのため、より詳細には、ステップＳ４２の処理は１フレーム分のコンテンツ再生処理の実行時に必ず行われるわけではなく、またステップＳ４２の処理は他者周期情報が送信されてきたタイミングで行われる。

　ステップＳ４３において配信映像／音声復号部５４は、受信部５３から供給された配信映像／音声を復号し、反応映像／音声生成部５５および映像／音声重畳部５６に供給する。

　ステップＳ４４において反応映像／音声生成部５５は、受信部５３から供給された他者周期情報に基づいて反応映像／音声を生成し、映像／音声重畳部５６に供給する。

　このとき、反応映像／音声生成部５５は、センシング情報解析部５１から供給された自端末周期情報や、配信映像／音声復号部５４から供給された配信映像／音声を、適宜、補助情報として用いて反応映像／音声を生成する。

　例えばステップＳ４４では、反応映像と反応音声の何れか一方のみが生成されるようにしてもよいし、反応映像と反応音声の両方が生成されるようにしてもよいが、ここでは反応映像と反応音声の両方が生成されるものとして説明を続ける。

　また、ステップＳ４４では、必要に応じて、オブジェクトと周期情報との対応を示す対応テーブルを生成する処理も行われる。なお、反応映像や反応音声の生成の詳細や対応テーブルについては後述する。

　ステップＳ４５において映像／音声重畳部５６は、配信映像／音声復号部５４から供給された配信映像／音声と、反応映像／音声生成部５５から供給された反応映像／音声とに基づいて提示映像／音声を生成し、映像／音声出力部５７に供給する。

　ステップＳ４６において映像／音声出力部５７は、映像／音声重畳部５６から供給された提示映像／音声に対して、適宜、フォーマット（形式）を変換する処理を施し、その結果得られた提示映像／音声を映像／音声出力装置４２に出力する。

　これにより映像／音声出力装置４２では、提示映像が表示されるとともに、提示音声が出力される。すなわち、リモートライブシステムで提供されるコンテンツが再生される。提示映像／音声が観客に対して提示されると、コンテンツ再生処理は終了する。

　以上のようにして観客端末１１は、適宜、自端末周期情報や配信映像／音声などの補助情報、換言すれば自端末の環境を示す情報を用いて反応映像／音声を生成し、その反応映像／音声から得られる提示映像／音声を観客に対して提示する。

　このようにすることで、より違和感の少ない提示映像／音声を提示することができ、その結果、一体感のあるリモートライブを実現することができる。

〈反応再生処理の説明〉
　また、配信映像／音声の配信時には、演者端末１２において複数の観客端末１１から送信された周期情報を受信して反応映像／音声を提示する反応再生処理も行われる。以下、図２０のフローチャートを参照して、演者端末１２により行われる反応再生処理について説明する。

　ステップＳ７１において受信部９１は、ネットワーク１４上のサーバから送信されてきた周期情報を受信し、反応映像／音声生成部９２に供給する。

　ステップＳ７２において反応映像／音声生成部９２は、受信部９１から供給された周期情報に基づいて反応映像／音声を生成し、映像／音声出力部９３に供給する。

　このとき、反応映像／音声生成部９２は、外部から供給された生映像／音声を、適宜、補助情報として用いて反応映像／音声を生成する。

　ステップＳ７３において映像／音声出力部９３は、反応映像／音声生成部９２から供給された反応映像／音声に対して、適宜、フォーマットを変換する処理を施し、その結果得られた反応映像／音声を提示映像／音声として映像／音声出力装置８１に出力する。

　これにより映像／音声出力装置８１では、反応映像が表示されるとともに反応音声が出力される。したがって、演者は多数の観客の反応を見ながら演奏を行うことができる。このようにして反応映像／音声が提示されると、反応再生処理は終了する。

　以上のようにして演者端末１２は、適宜、自端末の環境を示す情報である生映像／音声を補助情報として用いて反応映像／音声を生成し、演者に対して提示する。

　このようにすることで、より違和感の少ない反応映像／音声を提示することができ、その結果、一体感のあるリモートライブを実現することができる。

〈反応映像／音声生成部の構成例〉
　続いて、反応映像／音声生成部５５と反応映像／音声生成部９２の構成と動作の具体的な例について説明する。

　反応映像／音声生成部５５は、より詳細には例えば図２１に示すように構成される。

　反応映像／音声生成部５５は周期情報選択部１２１、反応フレーム生成部１２２、および反応音声生成部１２３を有している。

　周期情報選択部１２１は、受信部５３から供給された他者周期情報と、センシング情報解析部５１や配信映像／音声復号部５４から供給された補助情報に基づいて、複数の他者周期情報のなかから１個以上の所定個数の他者周期情報を選択し、反応フレーム生成部１２２および反応音声生成部１２３に供給する。

　例えば周期情報選択部１２１は、センシング情報解析部５１から供給された自端末周期情報と、配信映像／音声復号部５４から供給された配信映像／音声のうちの少なくとも何れか１つを補助情報として用いて周期情報の選択を行う。

　ここで、周期情報を識別（特定）するIDを周期情報IDと呼ぶこととし、周期情報IDがｎである周期情報を周期情報ｎとも記すこととする。この周期情報IDは、他者の観客端末１１を特定するIDであるともいうことができる。

　図２１の例では、周期情報IDが１乃至ＮであるＮ個の他者周期情報が受信されている。そして、それらのＮ個の他者周期情報のなかから、周期情報ｉおよび周期情報ｊ（但し、1≦i,j≦N）という２つの他者周期情報が選択されて反応フレーム生成部１２２および反応音声生成部１２３へと供給されている。

　なお、以下、反応映像／音声生成部５５や反応映像／音声生成部９２において、複数の他者周期情報のなかから選択された周期情報を、特に選択周期情報とも称することとする。

　反応フレーム生成部１２２は、周期情報選択部１２１から供給された周期情報ｉおよび周期情報ｊ、すなわち選択周期情報に基づいて、反応映像の１フレーム分の画像を生成し、映像／音声重畳部５６に供給する。

　反応音声生成部１２３は、周期情報選択部１２１から供給された選択周期情報（周期情報ｉおよび周期情報ｊ）に基づいて反応音声を生成し、映像／音声重畳部５６に供給する。

　また、反応映像／音声生成部９２は、例えば図２２に示すように構成される。

　この例では反応映像／音声生成部９２は、周期情報選択部１５１、反応フレーム生成部１５２、および反応音声生成部１５３を有している。

　これらの周期情報選択部１５１乃至反応音声生成部１５３は、反応映像／音声生成部５５の周期情報選択部１２１乃至反応音声生成部１２３と同様であるので、その説明は省略する。但し、周期情報選択部１５１には、補助情報として外部から生映像／音声が供給される。

〈周期情報選択部の動作について〉
　次に、反応映像／音声生成部５５の周期情報選択部１２１、および反応映像／音声生成部９２の周期情報選択部１５１の動作について説明する。

　周期情報選択部１２１および周期情報選択部１５１において行われる処理は、基本的には同じであるので、以下では主に周期情報選択部１２１において処理が行われるものとして説明を続ける。

　周期情報選択部１２１は、以下で具体的に述べる選択基準に基づき、取得した複数の他者周期情報のなかから自端末にとって最も適切な周期情報を選択する。

　なお、以下に述べる選択基準は、状況に応じて動的に切り替えることが望ましい。すなわち、選択される周期情報が動的に変化するようにしてもよい。また、選択される周期情報の個数も動的に変化させることができる。これらの選択される周期情報や、選択周期情報の個数を動的に変化させることは、周期情報選択部１２１だけでなく、周期情報選択部１５１においても行われるようにすることができる。

　例えば、ある選択基準を採用した際に、有効な情報が得られなかった場合には、周期情報選択部１２１は別の選択基準を優先して周期情報の選択を行う。また、以下に示す選択基準について、その選択基準の一部または全部を組み合わせて用いることが望ましい。

（音声のテンポ情報やビート（拍節）情報を用いる）
　まず、周期情報を選択する際の選択基準として音声のテンポ情報やビート情報を用いる例について説明する。

　例えば視聴中の配信音声（または生音声）を入力として、公知のビートトラッキング・リズム認識技術やDNN等を用いて取得できる、配信音声（または生音声）のテンポ、すなわち一泊を示すテンポ情報を周期情報の選択に用いるようにすることができる。

　この場合、周期情報の半周期情報により示される半周期の値が、補助情報から得られたテンポ情報により示される配信音声（または生音声）の一拍の長さと同じ、または配信音声（または生音声）の一拍の長さの整数倍に最も近い周期情報が選択周期情報として選択される。そうすることで、配信音声により再生される楽曲のテンポに比較的良く同期する周期情報を選択することができる。

　このとき、例えばテンポ情報により示される配信音声の一拍の長さがTである場合、図２３に示すように、半周期の長さがT/2に近いグループ、半周期の長さがTに近いグループ、半周期の長さが2Tに近いグループなど、複数のグループのうちの何れかに各周期情報が属すようにグループ分けが行われる。

　図２３の例では、拍の長さの平均値でグループが形成されており、例えば半周期の長さが5/12T以上3/4T未満である周期情報は、「半周期の長さがT/2に近いグループ」に分類される。

　そして、例えば属している周期情報の数が最も多いグループのなかから、１または複数の周期情報が選択周期情報として選択される。

　より具体的な例として、例えば周期情報選択部１２１が補助情報としての配信音声に基づいて求めた、その配信音声のテンポ情報の値が60BPM[秒]であったとする。

　この場合、周期情報選択部１２１は、受信部５３から取得した各周期情報を、半周期が１（＝60/60）秒に近い周期情報、２秒に近い周期情報、…というようにグループ分けする。

　そして、周期情報選択部１２１は、複数のグループのうち、最も多くの周期情報が属すグループを選択し、その選択したグループに属す周期情報のなかから、半周期情報に基づき所定の個数だけ選択周期情報とする周期情報を選択していく。

　例えば最も周期情報が多いグループが、半周期が２秒に近い周期情報のグループであったとすると、周期情報選択部１２１は、そのグループに属す周期情報のなかから、半周期情報により示される半周期が２秒に近いものから順番に所定数の周期情報を選択周期情報として選択する。

　さらに具体的な例を図２４に示す。

　図２４の上側に示すように、周期情報選択部１２１が配信音声のテンポ情報を算出した結果、テンポ「60BPM」を示すテンポ情報が得られたとする。つまり、配信音声の一拍の長さが１秒であるとする。

　また、最新の周期情報として、図中、左側に示すように、他者周期情報である周期情報１乃至周期情報７が取得されたとし、これらの７個の周期情報のなかから２個の周期情報を選択することとする。ここでは、各周期情報１乃至周期情報７について、周期情報ID、角度情報（角度）、および半周期情報（直前の半周期）が示されている。

　いま、他者周期情報を半周期の長さに基づき、一拍の長さの整数倍ごとにグループ分けをすると、図中、中央に示すように他者周期情報は、半周期が１秒に近いグループと、半周期が２秒に近いグループに分けられる。

　この例では、周期情報１、周期情報３、および周期情報６の合計３個の周期情報が「１秒に近いグループ」に属し、残りの周期情報２、周期情報４、周期情報５、および周期情報７の合計４個の周期情報が「２秒に近いグループ」に属している。

　次に、周期情報選択部１２１は、グループ分けにより得られた２つのグループのうち、より多くの周期情報が属すグループを選択する。したがって、ここでは４個の周期情報が属す「２秒に近いグループ」が選択される。

　そして周期情報選択部１２１は、選択した「２秒に近いグループ」に属す周期情報のなかから、２つの周期情報を選択周期情報として選択する。

　具体的には、例えば配信音声の一拍の長さの整数倍の値、ここでは一拍の長さの２倍である「２秒」に近い半周期を有する周期情報が選択される。

　この場合、半周期と一拍の長さの２倍である「２秒」との差（差分絶対値）が最も小さくなるのは、半周期が「1.9」である周期情報５であり、その差は「0.1」となる。

　また、周期情報５の次に半周期と「２秒」との差が小さくなるのは、半周期が「2.2」である周期情報２であり、その差は「0.2」となる。

　したがって、周期情報５および周期情報２が選択周期情報として選択される。これらの選択周期情報は、配信音声のテンポと最も同期がとれた他者（観客）の反応の周期情報であるから、適切な選択周期情報であるということができる。

　また、例えばビートトラッキング・リズム認識技術やDNN等から得られる、拍（ビート）の発生時刻や、楽器音の発音時刻といった時系列情報を用いて、拍の発生時刻や楽器音の発音時刻に最も近いタイミングで更新（受信）された周期情報を選択してもよい。

　周期情報が更新されるタイミングは、ちょうどペンライトを振る向きが変わるタイミングであるから、この方法により、配信音声の拍に同期してペンライトを振る反応を選択できることになる。

　具体的には、例えば周期情報選択部１２１が補助情報としての配信音声に基づいて、その配信音声のビート情報として、図２５の上側に示すような拍（ビート）の発生時刻を示す時系列情報を得た（生成した）とする。

　図２５の上側では、横軸は時間（時刻）を示しており、図中、上側に凸の矢印は配信音声におけるビート発生時刻を表している。

　また、周期情報選択部１２１は、図中、中央に示す周期情報１と、図中、下側に示す周期情報２とを取得し、これらの周期情報１と周期情報２のうちの何れかを選択周期情報として選択するものとする。

　なお、図中、中央および図中、下側において、横軸は時間（時刻）を示しており、図中、上側に凸の矢印は周期情報が更新されたタイミング、つまり左右に動くペンライトの動く向きが切り替わったタイミングを示している。

　ここで、周期情報１が更新されるタイミングと、ビート情報により示されるビート発生時刻、つまりビートのタイミングとを比較すると、それらのタイミングはずれているため、周期情報１は、配信音声に対する周期情報として適切であるとはいえない。

　これに対して、周期情報２が更新されるタイミングは、ビート情報により示されるビートのタイミングに近いので、周期情報２に対応する観客の反応、つまり観客によるペンライトの動きは、配信音声のビートにあった動きとなっている。したがって、周期情報２は、配信音声に対して適切な周期情報であるといえる。

　そこで、周期情報選択部１２１は、周期情報１と周期情報２のうち、よりビート情報により示されるビートの発生タイミングに近いタイミングで更新されている周期情報２を優先的に選択周期情報として選択する。

（自端末で取得した周期情報を用いる）
　また、例えば観客端末１１において、周期情報選択部１２１がセンシング情報解析部５１から補助情報として取得した自端末周期情報を用いて、複数の他者周期情報のなかから選択周期情報を選択するようにしてもよい。

　ここで、自端末周期情報の周期情報IDを「０」とし、自端末周期情報を、他者周期情報である周期情報１乃至周期情報Ｎと区別して周期情報０とも記すこととする。

　例えば周期情報選択部１２１は、複数の他者周期情報のうち、半周期が周期情報０の半周期情報により示される半周期と最も近い他者周期情報を選択する。

　具体的な例として、例えば図２６に示すように、最新の周期情報として、自端末周期情報である周期情報０と、他者周期情報である周期情報１乃至周期情報４が取得されたとする。ここでは、各周期情報０乃至周期情報４について、角度情報（角度）、半周期情報（直前の半周期）、および周期情報０との半周期の差が示されている。

　いま、周期情報１乃至周期情報４のなかから、２つの周期情報を選択周期情報として選択することとする。特に４つの周期情報のうち、半周期の長さが周期情報０と近いものが２つ選択されるとする。

　この場合、周期情報０の半周期「1.1」と最も近い半周期をもつ他者周期情報は、半周期の差が「+0.1」である周期情報１であるので、１つ目の選択周期情報として周期情報１が選択される。また、周期情報０の半周期との差が次に小さいのは、半周期の差が「-0.2」である周期情報３であるので、この周期情報３が２つ目の選択周期情報として選択される。

　また、例えば周期情報０が更新された、つまり自端末に対応する観客のペンライト（オブジェクト）の動く向きが切り替わったタイミングと最も近いタイミングで更新された（受信された）他者周期情報を選択周期情報として選択するようにしてもよい。

　このようにすることで、周期だけではなくペンライトを振っている向きについても同期のとれている他者周期情報を選択できる可能性が高まる。その結果、観客は、提示映像を見たときに他者と息のあった動きを感じることができる。

　具体的には、例えば図２７に示すようなタイミングで周期情報が得られたとする。

　なお、図２７において、横軸は時間（時刻）を示しており、図中、上側に凸の矢印は周期情報が更新されたタイミング、つまり左右に動くペンライトの動く向きが切り替わったタイミングを示している。特に、図中、上側に凸の矢印の大きさは、周期情報における角度情報の大きさを示している。

　図２７では、図中、上側には周期情報０が更新されたタイミングが示されており、図中、中央には周期情報１が更新されたタイミングが示されており、図中、下側には周期情報２が更新されたタイミングが示されている。

　また、ここでは周期情報選択部１２１により周期情報１と周期情報２が取得され、これらの周期情報１と周期情報２のうちの何れかが選択周期情報として選択されるものとする。

　この場合、周期情報０と周期情報１とを比較すると、それらの周期情報の更新のタイミングのずれ（時間差）は大きくなっている。そのため、自端末の観客と、周期情報１に対応する他者（他の観客）との反応を示す動きの向きが異なっている可能性がある。

　これに対して、周期情報０と周期情報２とを比較すると、それらの周期情報の更新のタイミングのずれ（時間差）は周期情報１における場合と比較して大幅に小さくなっている。そのため、自端末の観客と、周期情報２に対応する他者（他の観客）との反応を示す動きの向きが同じ向きとなっている可能性が高い。

　そこで、周期情報選択部１２１は、周期情報１と周期情報２のうち、周期情報０との更新タイミングのずれがより小さい周期情報２を優先的に選択周期情報として選択する。これにより、自端末の観客と、他者（他の観客）との反応を示す動きの向きが異なっている可能性等の原因によるずれを、より確実に抑制することができる。

（映像から生成できる周期情報を用いる）
　さらに、例えばリモートライブの演目によっては、配信映像（または生映像）から演者が手や体でリズムを取る動きを公知の画像認識や動き検出等の方法により検出し、センシング情報解析部５１における場合と同様の処理を行って、周期情報を得ることができる。

　そこで、周期情報選択部１２１が、配信映像から周期情報を生成し、その周期情報を周期情報０の代わりに用いて、上述の方法により選択周期情報の選択を行ってもよい。この場合、周期情報選択部１５１においても、生映像から生成した周期情報を、周期情報０の代わりに用いることができる。

（基準となる周期情報を受信する）
　また、例えば配信者、特にPA（Public Address）担当者が、収録／配信装置１３等により、基準となる周期情報を、ネットワーク１４上のサーバを介して観客端末１１や演者端末１２に送信するようにしてもよい。

　そのような場合、例えば観客端末１１の周期情報選択部１２１や、演者端末１２の周期情報選択部１５１は、受信した基準となる周期情報を周期情報０の代わりに用いて、選択周期情報の選択を行う。

　その他、例えば周期情報選択部１２１や周期情報選択部１５１において、受信された基準となる周期情報が、選択周期情報の１つとして用いられるようにしてもよい。

　このような基準となる周期情報を利用する方法は、テンポ情報の取得が困難な演目等において特に有効である。

（半周期の履歴を解析する）
　さらに、各周期情報について過去の半周期の値の履歴を解析し、半周期の分散が小さい周期情報を優先して選択してもよい。なぜなら半周期の分散が小さい場合、観客（ペンライト）は安定した周期運動をしている可能性が高いからである。

　具体的には、例えば図２８に示す周期情報が得られたとする。なお、図２８において、図中、左上側および左下側には、それぞれ１つの周期情報IDについての各時刻の周期情報を構成する角度情報（角度）および半周期情報（半周期）が示されている。

　また、図中、右上側および右下側には、図中、左上側および左下側に示した周期情報が取得（受信）されたタイミングが示されている。特に、横軸は時間（時刻）を示しており、図中、上側に凸の矢印は周期情報が更新されたタイミング、つまり左右に動くペンライトの動く向きが切り替わったタイミングを示している。また、図中、上側に凸の矢印の大きさは、周期情報における角度情報の大きさを示している。

　図中、上側に示す周期情報の例では、各時刻における半周期は1.1乃至1.5の間の値となっており、周期情報の分散が小さいことが分かる。このような周期情報に対応する観客の反応、つまりペンライトの動きは、一定時間間隔で左右に振られている周期性の高い動きとなっている。

　したがって、このような周期情報を選択周期情報として用いれば、周期的な動きをするオブジェクトの反応映像を容易に生成することができる。

　そこで、周期情報選択部１２１や周期情報選択部１５１は、他のユーザ（他者）ごとに、周期情報の履歴を解析することで周期情報に基づく半周期の分散を求め、得られた分散の小さい周期情報を優先的に選択周期情報として選択するようにするとよい。

　これに対して、図中、下側に示す周期情報の例では、各時刻における半周期は0.3乃至2.7の間の値となっており、周期情報の分散が大きいことが分かる。

　すなわち、周期情報に対応する観客の反応（ペンライトの動き）にはむらがあり、その反応は周期性の低い動きとなっている。

　したがって、このような周期情報は、反応映像の生成に用いるのには適していないため、選択周期情報として選択されにくくするとよい。

　以上のように、周期情報選択部１２１や周期情報選択部１５１では、各時刻で受信した他者周期情報の履歴の解析結果に基づいて、選択周期情報が選択されるようにすることができる。

〈周期情報とオブジェクトの対応について〉
　周期情報選択部１２１や周期情報選択部１５１では、以上において説明した方法により１個以上の選択周期情報が選択されるが、実際に反応映像に含まれる各オブジェクトをどの選択周期情報から生成するかは、例えば図２９に示す対応テーブルにより管理される。

　図２９では、反応映像に５０個のオブジェクトが表示される場合における対応テーブルの例が示されている。例えば各オブジェクトは、各観客端末１１に対応する観客に対応している。なお、以下では、反応映像上のオブジェクトを識別（特定）するIDをオブジェクトIDと呼ぶこととする。

　対応テーブルは、各オブジェクトをどの選択周期情報に基づいて生成するかを定義するものである。対応テーブルでは、オブジェクトIDと、そのオブジェクトIDにより示されるオブジェクトの生成に用いられる選択周期情報の周期情報IDとが対応付けられている。

　この例では、対応テーブルに基づき、画面上に５０個のオブジェクトを配置した反応映像が生成される。

　このとき、例えばオブジェクトIDが26乃至35である合計１０個のオブジェクトは、周期情報IDが２である周期情報２に基づいて生成されることが分かる。この周期情報２は、例えば観客端末１１Ｂにおいて生成された周期情報となっている。

　なお、反応映像上に表示するオブジェクトの最大数は、例えば反応映像が表示される映像／音声出力装置４２や映像／音声出力装置８１の画面解像度、観客端末１１や演者端末１２の演算リソース等に基づいて定められるようにしてもよい。

　また、どのオブジェクトをどの選択周期情報に基づき生成するかは、反応映像上における各オブジェクトの配置位置等に応じて定められるようにすればよい。例えば、近い位置に配置されるオブジェクトが同じ選択周期情報に基づき生成されるようにすれば、オブジェクトの動きが揃った違和感のない反応映像を得ることができる。

　ここで、具体的な例として、反応映像上の９個のオブジェクトを生成する場合について図３０を参照して説明する。

　図３０では、図中、右側には対応テーブルが示されており、図中、左側には対応テーブルに従って生成されたオブジェクトとしてのペンライトが示されている。

　この例では、オブジェクトIDが１乃至３であるオブジェクトは、周期情報IDが７である選択周期情報に基づいて生成される。そのため、図中、左側の上段に示すように、オブジェクトIDが１乃至３である各オブジェクトは、周期情報７により示される動きと同じ動きをしており、それらのオブジェクトの向きも同じ向きとなっている。

　また、オブジェクトIDが４乃至６であるオブジェクトは、周期情報IDが２である選択周期情報に基づいて生成される。そのため、図中、左側の中段に示すように、オブジェクトIDが４乃至６である各オブジェクトは、周期情報２により示される動きと同じ動きをしており、それらのオブジェクトの向きも同じ向きとなっている。

　但し、オブジェクトIDが４乃至６であるオブジェクトの動き（向き）は、異なる周期情報から生成されたオブジェクトIDが１乃至３であるオブジェクトの動きとは異なる動きとなっていることが分かる。

　同様に、オブジェクトIDが７乃至９であるオブジェクトは、周期情報IDが９である選択周期情報に基づいて生成される。そのため、図中、左側の下段に示すように、オブジェクトIDが７乃至９である各オブジェクトは、周期情報９により示される動きと同じ動きをしており、それらのオブジェクトの向きも同じ向きとなっている。

　但し、オブジェクトIDが７乃至９であるオブジェクトの動き（向き）は、異なる周期情報から生成された、オブジェクトIDが１乃至３であるオブジェクトの動きや、オブジェクトIDが４乃至６であるオブジェクトの動きとは異なる動きとなっていることが分かる。

　例えば、図１９を参照して説明したコンテンツ再生処理におけるステップＳ４４では、必要に応じて適宜、周期情報選択部１２１によって選択周期情報を選択する処理と、選択周期情報の選択結果に応じて、対応テーブルを生成（更新）する処理が行われる。

　この場合、周期情報選択部１２１は、選択周期情報と対応テーブルを反応フレーム生成部１２２および反応音声生成部１２３に供給する。

　なお、選択周期情報を選択する処理と対応テーブルを生成する処理は、例えばリモートライブの演目（楽曲）が変わったときに行われたり、アンコールを要望する拍手や掛け声が発せられている期間中に継続して繰り返し行われたりすることが考えられる。

　また、例えば図２０を参照して説明した反応再生処理におけるステップＳ７２においても、必要に応じて適宜、周期情報選択部１５１によって選択周期情報を選択する処理と、選択周期情報の選択結果に応じて、対応テーブルを生成（更新）する処理が行われる。

〈反応映像の生成について〉
　次に、図２１に示した反応映像／音声生成部５５の反応フレーム生成部１２２、および図２２に示した反応映像／音声生成部９２の反応フレーム生成部１５２の動作について説明する。

　例えば、反応映像は配信映像と同様のフレームレート（例えば、30fps）でオブジェクトの角度、つまりオブジェクトの向きが変化する映像とされる。

　したがって、反応映像を生成する処理は、配信映像を復号する処理に同期して周期的に実行され、配信映像の１フレーム分に相当する画像が出力される。

　ここで、図３１を参照して反応映像を生成する処理の概要について説明する。

　なお、以下では、説明を簡単にするため、オブジェクトの動きとして角速度が一定である動きを仮定し、溜め状態となる周期情報（付加情報）はなく、周期情報の通知（送受信）ができない等の問題も生じないこととする。

　また、図３１において、横軸は時間（時刻）を示しており、図中、上側に凸の矢印は周期情報の更新のタイミング、つまり左右に動くペンライトの動く向きの切り替わりのタイミングを示している。また、図中、上側に凸の矢印の大きさは、周期情報における角度情報の大きさ、つまりペンライトの向き（角度）を示している。

　図３１の上側には、１つの周期情報IDについての各時刻における選択周期情報が示されている。

　ここでは、現在時刻がｔであり、最後に周期情報が取得（受信）された時刻がｔ_０となっている。また、時刻ｔ_０における周期情報を構成する角度情報により示される角度α_０が135°であり、時刻ｔ_０における周期情報を構成する半周期情報により示される半周期の長さがＴとなっている。

　さらに、時刻ｔ_０の直前に周期情報が取得（受信）された時刻は（ｔ_０－Ｔ）であり、その時刻（ｔ_０－Ｔ）における周期情報を構成する角度情報により示される角度α_beforeが45°となっている。

　いま、現時刻である時刻ｔにおけるオブジェクト（ペンライト）の角度αを求めることを考える。

　ここでは、時刻ｔ_０、時刻ｔ_０における周期情報、すなわち角度α_０と半周期Ｔ、時刻（ｔ_０－Ｔ）における角度α_beforeに基づいて角度αを求め、その角度αにより示される方向を向いているオブジェクトの画像が生成される。

　具体的には、まず直近で取得された２つの周期情報から角速度が求められる。

　この例では半周期Ｔで角度情報により示される角度が角度α_before＝45°から角度α_０＝135°に変化しているので、時刻（ｔ_０－Ｔ）から時刻ｔ_０の間での角速度ωは、次式（１）により求めることができる。

　また、時刻ｔ_０以降の次の半周期では、オブジェクトは時刻（ｔ_０－Ｔ）から時刻ｔ_０の間における場合と反対向きの同じ角速度で動くと予想される。

　したがって、時刻ｔ_０から時刻（ｔ_０＋Ｔ）の間における角速度ωは、上述の式（１）における符号を反転させて次式（２）により求めることができる。

　図中、上側の例では、時刻ｔ_０から時刻（ｔ_０＋Ｔ）の間における角速度ωは、式（２）により、ω＝-(135-45)/Tとなる。

　次に、図中、下側に示すように、求められた角速度ωから、時刻ｔにおけるオブジェクトの向き、すなわちオブジェクトの向きを示す角度αが求められる。

　具体的には、角速度がωで現在時刻がｔであるならば、求める角度αは、最後に周期情報を受信した（更新のあった）時刻ｔ_０と、時刻ｔ_０における角度α_０＝135°を用いて、次式（３）により求めることができる。

　図中、下側の例では、角度α_０＝135°であるので、式（３）により、α＝135+ω(t-t₀)となる。

〈反応フレーム生成処理の説明〉
　次に、反応フレーム生成部１２２により行われる処理について、さらに具体的に説明する。

　図１９を参照して説明したコンテンツ再生処理のステップＳ４４では、反応フレーム生成部１２２は、選択周期情報に基づいて１フレーム分の反応映像である反応フレームを生成する反応フレーム生成処理を行う。

　以下、図３２のフローチャートを参照して、反応フレーム生成部１２２により行われる反応フレーム生成処理について説明する。

　ステップＳ１０１において反応フレーム生成部１２２は、処理対象とするオブジェクトを示すオブジェクトIDと、そのオブジェクトIDに対応する周期情報を取得する。

　例えば反応フレーム生成部１２２は、予め周期情報選択部１２１から対応テーブルを取得して記録しており、対応テーブルにおいて、取得したオブジェクトIDに対応付けられている周期情報IDにより示される選択周期情報を周期情報選択部１２１から取得する。

　ステップＳ１０２において反応フレーム生成部１２２は、取得した選択周期情報について、現時刻におけるオブジェクト（ペンライト）の向きを示す角度αが算出済みであるか否かを判定する。

　例えば図２９に示した対応テーブルの例では、オブジェクトIDが１であるオブジェクト（ペンライト）と、オブジェクトIDが２乃至２５であるオブジェクトとでは、同一の周期情報７に基づいて角度αが算出される。

　そのため、例えばオブジェクトIDが１であるオブジェクトについて角度αが既に算出されている場合、オブジェクトIDが２乃至２５であるオブジェクトが処理対象とされているときには、ステップＳ１０２では角度αは算出済みであると判定される。

　同様に、例えばオブジェクトIDが２６であるオブジェクトの角度αが算出済みである場合、オブジェクトIDが２７乃至３５であるオブジェクトの角度αは算出済みであると判定される。また、オブジェクトIDが３６であるオブジェクトの角度αが算出済みである場合、オブジェクトIDが３７乃至５０であるオブジェクトの角度αは算出済みであると判定される。

　ステップＳ１０２において角度αが算出済みでないと判定された場合、ステップＳ１０３において反応フレーム生成部１２２は、周期情報が更新されたか否かを判定する。

　例えばステップＳ１０１で、これまでに取得されていない新たな選択周期情報が取得された場合、周期情報が更新されたと判定される。

　ステップＳ１０３において周期情報が更新されたと判定された場合、ステップＳ１０４において反応フレーム生成部１２２は、オブジェクトの動きの角速度ωを更新する。

　例えば反応フレーム生成部１２２は、図３１を参照して説明したように、更新後（最新）の選択周期情報の角度情報により示される角度α_０、更新後の選択周期情報の半周期情報により示される半周期Ｔ、更新前の選択周期情報の角度情報により示される角度α_beforeに基づいて、次式（４）を計算することで角速度ωを算出する。この式（４）は上述の式（２）と同様の式である。

　なお、ここでは角度α_beforeが存在するものとして説明を行っているが、周期情報を初めて受信したときには角度α_beforeは存在しないので、そのような場合にはステップＳ１０４乃至ステップＳ１０８の処理はスキップされる。

　ステップＳ１０４の処理が行われたか、またはステップＳ１０３において周期情報が更新されていない、つまり新たな選択周期情報は受信されていないと判定された場合、ステップＳ１０５の処理が行われる。

　ステップＳ１０５において反応フレーム生成部１２２は、オブジェクトの動きの角速度ωに基づいて、現時刻ｔにおけるオブジェクトの動きの向きを示す角度αを算出する。

　例えば反応フレーム生成部１２２は、最後に選択周期情報を受信した時刻ｔ_０、現在時刻ｔ、角速度ω、および角度α_０に基づいて次式（５）を計算することで角度αを求める。式（５）は上述の式（３）と同様の式である。

　なお、角度αの最大値α_maxまたは最小値α_minを、α_max≒α_beforeまたはα_min≒α_beforeとなるように定めておき、角度αが最大値α_maxまたは最小値α_minに達した場合には、次に選択周期情報が更新されるまで、角度αの計算方法が次式（６）に示すように変更されるようにしてもよい。

　式（６）において±δは、オブジェクトとしてのペンライトを手で保持することによる揺れを示すランダムな微小値である。すなわち、この段階でオブジェクトは右または左に傾いたまま保持される。

　また、ステップＳ１０２において角度αが算出済みであると判定された場合、ステップＳ１０３乃至ステップＳ１０５の処理はスキップされ、処理はステップＳ１０６へと進む。

　ステップＳ１０６において反応フレーム生成部１２２は、処理対象のオブジェクトの角度αに対して、一定量以下のランダム値（ランダムな値）を加算する。

　この処理により、同一の選択周期情報から生成された各オブジェクトの動きが全く同一となって、機械的な動きに感じられてしまうことを防止することができる。

　ステップＳ１０５の処理が行われたか、またはステップＳ１０６の処理が行われると、その後、ステップＳ１０７の処理が行われる。

　ステップＳ１０７において反応フレーム生成部１２２は、処理対象のオブジェクトが角度αにより示される方向を向いている１個分のオブジェクトの画像をオブジェクト画像として生成する。

　この場合、リモートライブに対する投げ銭の額、すなわち支援のための消費金額や、物品の事前購入有りといった観客に対応するオブジェクトのメタ情報に基づき、特定のオブジェクトIDを持つオブジェクトは通常とは異なる特別な表示形式で表示されるようにしてもよい。また、例えば各観客端末１１が、固有のオブジェクト情報（3Dモデル等）をメタ情報として周期情報とともに一度だけ送信しておく等の方法により、そのメタ情報に基づき特定のオブジェクトの表示方法を変えることができるようにしてもよい。

　以上のような方法により、各観客に対して実在する他者に対応するオブジェクトを見ていることをより強く認識させ、他者と共にライブイベントに参加している感覚をより強く持たせることができる。

　ステップＳ１０８において反応フレーム生成部１２２は、生成しようとする反応映像の１フレーム分の画像（フレーム画像）上に、ステップＳ１０７で生成した処理対象のオブジェクトのオブジェクト画像を上書きして配置する。換言すれば、フレーム画像にオブジェクト画像が合成される。

　なお、フレーム画像上におけるオブジェクト画像の配置位置は、オブジェクトIDごとに予め決めておいてもよいし、自端末（映像／音声出力装置４２）の画面解像度等によって動的に変えるようにしてもよい。例えば同じ周期情報IDに紐づくオブジェクトは、フレーム画像内の比較的近い位置に配置する等の方法が考えられる。

　反応フレーム生成部１２２では、以上において説明した処理が、反応映像に表示されるオブジェクトの数だけ行われる。

　すなわち、ステップＳ１０９において反応フレーム生成部１２２は、まだ処理対象としていない処理すべきオブジェクトがあるか否かを判定する。

　ステップＳ１０９において、まだ処理すべきオブジェクトがあると判定された場合、処理はステップＳ１０１に戻り、上述した処理が繰り返し行われる。すなわち、まだ処理対象とされていないオブジェクトが、新たな処理対象のオブジェクトとされてオブジェクト画像が生成され、そのオブジェクト画像に基づいてフレーム画像が更新される。

　これに対して、ステップＳ１０９において処理すべきオブジェクトがないと判定された場合、反応フレーム生成部１２２は、最後に行ったステップＳ１０８の処理により得られた（更新された）フレーム画像を、反応映像の１フレーム分の画像として映像／音声重畳部５６に出力し、反応フレーム生成処理は終了する。

　なお、図１９を参照して説明したコンテンツ再生処理のステップＳ４４において、反応音声が生成されない場合もある。

　そのような場合、反応音声生成部１２３での処理は行われず、反応音声生成部１２３から０データ（ゼロデータ）が反応音声として出力されるようにしてもよいし、反応音声が無効化されるようにしてもよい。

　また、以上において説明した反応フレーム生成処理では、溜め時間を示す経過時間ｐ_stop、つまり溜めの時間を示す付加情報がない場合について説明した。

　これに対して、溜めの時間を示す付加情報がある場合には、角速度ωの算出時には、上述の式（４）に代えて次式（７）の計算を行うようにすればよい。

　なお、式（７）は、付加情報により示される溜めの時間をｐ_stopとして、式（４）における半周期Ｔを「T-p_stop」に置き換えた式となっている。

　このようにすることで、選択周期情報の更新後、比較的早い段階で角度αが最大値α_maxまたは最小値α_minに到達し、角度αの変化が少ない動きとなって、溜め状態の表現が可能となる。

　以上のようにして反応フレーム生成部１２２は、選択周期情報に基づいて反応映像を生成する。特に反応フレーム生成部１２２では、周期情報選択部１２１で選択された１つ以上の周期情報に基づいて複数のオブジェクトのオブジェクト画像が生成され、それらのオブジェクト画像がフレーム画像上に配置される。このようにすることで、複数のオブジェクトの動き（反応）が揃った違和感の少ない反応映像を提示することができる。

　なお、図２０を参照して説明した反応再生処理のステップＳ７２においても、反応フレーム生成部１５２によって、図３２を参照して説明した反応フレーム生成処理と同様の処理が行われる。したがって、演者端末１２においても違和感の少ない反応映像を提示することができる。

〈第１の実施の形態の他の例１〉
〈反応映像と反応音声を生成する例〉
　なお、以上においては、反応映像のみを生成する例について説明したが、反応映像と反応音声の両方が生成されるようにしてもよい。

　以下では、反応映像と同時に反応音声も生成される場合について説明する。特に、以下では、一例として、反応映像は観客に対応するオブジェクトが拍手をする映像であり、反応音声は多人数の拍手音である場合について説明する。

　このような場合においても、リモートライブシステムの構成は図７に示した構成とされるため、ここでは以下に示す第１の実施の形態との差異についてのみ説明する。

　・センシング情報解析部５１の動作
　・反応音声生成部１２３および反応音声生成部１５３の動作

　なお、以下で説明する例では、反応映像におけるオブジェクトが第１の実施の形態における場合とは異なるため、厳密には反応フレーム生成部１２２および反応フレーム生成部１５２の動作も第１の実施の形態における場合とは異なる。

　しかし、後述するように、周期情報に角度に関する情報（角度情報）が含まれていない点が異なるだけであり、以下で説明する例においても第１の実施の形態における場合と同様の方法により反応映像を生成することができるため、その説明は省略する。

（周期情報の例）
　まず、周期情報の例について説明する。

　例えば観客の動き（反応）が拍手する動きである場合、各観客端末１１で生成される周期情報は、図３３の左側に示すように前回、観客による拍手が生じてから、今回、拍手が生じるまでの経過時間を示す経過時間情報となる。すなわち、経過時間情報は、観客の反応としての拍手の１周期の時間（長さ）を示す時間情報となっている。

　これは、拍手をする動きの１周期の時間を示す経過時間情報があれば、拍手という動きをするオブジェクトを含む反応映像や、拍手音からなる反応音声を生成することができるからである。

　反応音声生成部１２３や反応音声生成部１５３では、図中、右側に示すように時系列の周期情報に基づいて拍手のタイミングが定義される。そして、そのタイミングに従って１回分の拍手音を複数回再生することで、観客１人分に対応する１つのオブジェクト分の再生音が得られる。

　なお、図中、右側において横軸は時間（時刻）を示しており、図中、上側に凸の矢印は所定の１つの周期情報ｉに基づき特定された拍手が生じたタイミングを示している。

　また、図中、右側に示す波形は、拍手が生じたタイミングで再生される拍手音の波形からなる、１つのオブジェクトについての拍手の再生音の波形を示している。この例では、周期情報ｉに基づき生成された３回分の拍手の音が再生される。

（センシング情報解析部の動作）
　続いて、センシング情報解析部５１の動作について説明する。

　センシング情報解析部５１の動作は、基本的には第１の実施の形態における場合と同様である。しかし、例えばセンシング情報に基づいて観客の動きを検出する代わりに、センシングデバイス４１としてのマイクロフォンで収音（録音）して得られた音声を公知の音声区間検出等の処理により解析することで拍手のタイミングを検出し、その検出結果から周期情報としての経過時間情報を生成してもよい。すなわち、センシング情報解析部５１により、センシング情報としての収音信号が周期情報へと変換されるようにしてもよい。

（反応音声生成部の動作）
　次に、反応音声生成部１２３や反応音声生成部１５３の動作の概要を図３４に示す。

　図３４の左側には、いくつかの選択周期情報に基づいて生成されたＮ人分、すなわちＮ個のオブジェクトのそれぞれについての再生音１乃至再生音Ｎの波形が示されている。

　ここでは、選択周期情報に基づいて１つのオブジェクトの拍手音である再生音を生成する処理がＮ回行われて、Ｎ個の再生音１乃至再生音Ｎが生成される。

　そして、それらの再生音１乃至再生音Ｎが合成、すなわち加算（合算）されて１つの反応音声が生成される。図中、右側には、生成された反応音声の波形が示されており、この反応音声はＮ人（Ｎ個のオブジェクト）が拍手したときの拍手音、つまりＮ人分の拍手音となっている。

〈反応音声生成処理の説明〉
　この実施の形態では、図１９を参照して説明したコンテンツ再生処理のステップＳ４４では、反応フレーム生成部１２２により図３２を参照して説明した反応フレーム生成処理と同様の処理が行われるとともに、反応音声生成部１２３により反応音声生成処理が行われる。

　以下、図３５のフローチャートを参照して、反応音声生成部１２３により行われる反応音声生成処理について説明する。

　ステップＳ１４１において反応音声生成部１２３は、処理対象とするオブジェクトを示すオブジェクトIDと、そのオブジェクトIDに対応する周期情報を取得する。

　例えば反応音声生成部１２３は、予め周期情報選択部１２１から対応テーブルを取得して記録しており、対応テーブルにおいて、取得したオブジェクトIDに対応付けられている周期情報IDにより示される選択周期情報を周期情報選択部１２１から取得する。

　ステップＳ１４２において反応音声生成部１２３は、周期情報が更新されたか否かを判定する。例えばステップＳ１４１で、これまでに取得されていない新たな選択周期情報が取得された場合、周期情報が更新されたと判定される。

　ステップＳ１４２において周期情報が更新されたと判定された場合、ステップＳ１４３において反応音声生成部１２３は、ステップＳ１４１で取得した選択周期情報と、予め記録している拍手音の音声データとに基づいて、１回分の拍手音を再生音として生成する。

　このとき、同一の選択周期情報が複数のオブジェクトの再生音の生成に用いられる場合には、再生音における拍手音の再生タイミングが必ず一定量以下の時間だけずらされるようにする。これは、複数のオブジェクトの拍手音の再生タイミングが完全に一致してしまうと不自然になってしまうからである。

　また、ステップＳ１４２において周期情報が更新されていないと判定された場合、ステップＳ１４３の処理は行われず、処理はステップＳ１４４へと進む。

　ステップＳ１４３の処理が行われたか、またはステップＳ１４２において周期情報が更新されていないと判定されると、ステップＳ１４４の処理が行われる。

　すなわち、ステップＳ１４４において反応音声生成部１２３は、まだ処理対象としていない処理すべきオブジェクトがあるか否かを判定する。

　ステップＳ１４４において、まだ処理すべきオブジェクトがあると判定された場合、処理はステップＳ１４１に戻り、上述した処理が繰り返し行われる。すなわち、まだ処理対象とされていないオブジェクトが、新たな処理対象のオブジェクトとされて、そのオブジェクトについての再生音が生成される。

　これに対して、ステップＳ１４４において処理すべきオブジェクトがないと判定された場合、ステップＳ１４５において反応音声生成部１２３は、これまでに生成した全てのオブジェクトの再生音を合成することで反応音声を生成する。

　反応音声生成部１２３は、生成した反応音声を映像／音声重畳部５６に出力し、反応音声生成処理は終了する。

　以上のようにして反応音声生成部１２３は、選択周期情報に基づいてオブジェクトごとに再生音を生成し、それらの再生音を合成して反応音声とする。特に反応音声生成部１２３では、例えば周期情報選択部１２１で選択された１つの周期情報に基づいて複数のオブジェクトの再生音を生成すれば、複数のオブジェクトの音声（反応）が揃った違和感の少ない反応音声を提示することができる。

　なお、図２０を参照して説明した反応再生処理のステップＳ７２においても、反応音声生成部１５３によって、図３５を参照して説明した反応音声生成処理と同様の処理が行われる。したがって、演者端末１２においても違和感の少ない反応音声を提示することができる。

　以上のような本技術では、選択する周期情報の種類や数を動的に変化させることによって、一般的なリモートライブシステムではできなかった表現を実現することができる。

　例えば、ライブイベントの規定の演目が終了した後、アンコールを示すために反応音声の拍手音が少しずつ揃っていき、手拍子になっていくような表現が可能となる。

　そのような拍手音が手拍子へと変わっていくような反応音声による表現について、図３６を参照して説明する。なお、ここでは周期情報選択部１２１において処理が行われる場合について説明するが、周期情報選択部１５１における場合の処理も同様の処理となる。

　図３６には、選択周期情報に基づきオブジェクトごとに生成された再生音（拍手音）の時間波形が示されており、図中、横方向は時間（時刻）を示している。特に、ここではオブジェクトの数、すなわち周期情報の取得元となる観客端末１１の数はＮ個となっている。

　図中、上側に示すように、通常では、周期情報選択部１２１は受信されたＮ個の周期情報を全て選択周期情報として選択し、選択周期情報に基づいてオブジェクトごとに拍手音からなる再生音を生成する。すなわち、全ての周期情報がパススルーされる。

　図中、上側にはＮ個のオブジェクトごとに生成された再生音１乃至再生音Ｎの波形が示されている。この例では、オブジェクトごとに選択周期情報が異なるため、拍手音は各周期情報に従いばらばらのタイミングで再生される。したがって、それらの再生音を合成（加算）して得られる反応音声は、会場で多数の観客が各々のタイミングで拍手しているように聞こえる音声となる。

　また、周期情報選択部１２１は、何らかのトリガ等によってアンコール開始を検知した場合には、時間の経過とともに選択周期情報として選択する周期情報の数をＮ個から少しずつ減らしていく。ここでは、例えば選択周期情報の数をＮ個から１個まで少しずつ減らしていくとする。

　すると、選択周期情報が１個となったときには、例えば図中、下側に示すようなＮ個のオブジェクトごとの再生音１乃至再生音Ｎが得られる。特に、図中、下側では、図中、上側における場合と比較して、各再生音における拍手のタイミングが略同じとなっている。

　選択周期情報の数を時間とともに少なくしていくと、各オブジェクトに対応する再生音（拍手音）のタイミングも時間とともに揃ってくる。そのため、各オブジェクトの再生音を合成して得られる反応音声は、多人数の拍手というよりも、むしろ手拍子のように聞こえるようになっていく。

　なお、上述のようにオブジェクトの拍手音の再生タイミングには、一定範囲以下のランダムな揺らぎ（ずれ）が必ず付加されるようになされる。

　また、このような拍手音が手拍子へと変わっていくような反応音声の表現を実現するためには、アンコール開始を検知するためのトリガが必要である。

　そこで、周期情報選択部１２１は、例えば周期情報が演目終了後も一定時間以上続く（継続して更新される）場合に、アンコールが開始されたと判定するようにしてもよい。

　また、例えばアンコールの実施が判断された段階で、配信者の操作等により、収録／配信装置１３が配信映像／音声に対して、アンコールが開始された旨のトリガ情報を付加してネットワーク１４上のサーバに配信映像／音声を送信するなどしてもよい。

〈第１の実施の形態の他の例２〉
〈リソースに応じた処理について〉
　また、以上においては、各観客端末１１や演者端末１２が他者の周期情報を全て取得（受信）する例について説明したが、通信リソースや各観客端末１１や演者端末１２の演算リソースの都合上、多数の周期情報を受信して解析することが困難である場合もある。

　そこで、例えばネットワーク１４上のサーバにおいて、各周期情報について過去の半周期の値の履歴を解析し、分散が異常に大きいなど各観客端末１１や演者端末１２で選択される可能性の低い周期情報は配信されないようにしてもよい。

　また、例えば各観客端末１１や演者端末１２が自端末の演算リソース等に基づいて、自端末で受信可能な周期情報の数の目安を予めネットワーク１４上のサーバに対して通知しておくようにしてもよい。

　この場合、サーバは、予め通知された、受信可能な周期情報の数に基づいて限定された所定数の周期情報のみを観客端末１１や演者端末１２に送信する。すなわち、サーバでは、各端末のリソースに応じて送信前に周期情報の事前スクリーニングが行われる。

　なお、サーバ上で周期情報の解析に時間がかかると、周期情報の送信の遅延が増大してしまうため、そのような遅延の発生を避けるために以下のような簡易的な方法を用いるようにしてもよい。

　すなわち、まず１つ目の方法として、各周期情報は各々の観客に対応する情報であることから、サーバは投げ銭や物品購入金額といったメタ情報が所定の基準を満たす周期情報を優先して（優先的に）各観客端末１１や演者端末１２に送信することが考えられる。

　なぜならライブイベントに多額を投入する、いわゆる「ガチ勢」と呼ばれている観客は、自分がライブイベントを一緒に作っているという意識が強いはずであり、こうした観客の周期情報は演目との親和性が高いと考えられるからである。

　なお、例えばサーバから観客端末１１や演者端末１２に対して、周期情報に付加するか、または個別に、投げ銭の額等を示すメタ情報を送信するようにしてもよい。このメタ情報は、投げ銭の額等に基づくユーザの優先度、すなわち周期情報の優先度を示しているということができる。この場合、例えば観客端末１１の周期情報選択部１２１や演者端末１２の周期情報選択部１５１は、サーバから受信したメタ情報に基づいて、優先度の高い周期情報を選択周期情報として選択する。

　また、２つ目の方法として、サーバが観客端末１１の過去の半周期の値の履歴を解析し、半周期の分散が小さい周期情報を優先的に各観客端末１１や演者端末１２に送信することが考えられる。

　これらの方法で選択的に周期情報を送信する場合には、観客端末１１や演者端末１２において、サーバからリモートライブへの参加者、つまり観客の人数に関する情報だけは別途受信するようにするとよい。そうすることで、観客端末１１や演者端末１２において、取得した周期情報の数が少なくても、表示できるオブジェクトの数は変わらないようにすることができる。

〈第２の実施の形態〉
〈遅延量の算出と反応の予測について〉
　ところで、観客端末１１や演者端末１２において、取得した他者の周期情報の遅延量を求め、その遅延量の分だけ時刻を進めた他者の反応を予測することもできる。

　以下では、他者の現時刻の反応を予測し、その予測結果に基づいて反応映像／音声を生成する例について説明する。

　まず、図３７を参照して、本技術の第２の実施の形態の概要について説明する。

　図３７では、反応映像／音声生成部５５および反応映像／音声生成部９２の簡易的な構成が示されている。

　反応映像／音声生成部では、取得した他者のＮ個の周期情報について、自端末の基準時刻からの遅延量が計算され、その遅延量を補正した反応映像／音声が予測されて生成される。

　換言すれば、他者の反応について、それらの他者の反応ごとに自端末から見た遅延量（基準時刻に対する他者周期情報の遅延量）が求められ、その遅延量の分だけ先の時刻（未来）の反応を予測することで、自端末から見た他者の反応の遅延が補正され、違和感のない反応映像が提示される。

　具体的には、まず各観客端末１１は、送信する周期情報に自端末で視聴中の配信映像のタイムスタンプも付加する。すなわち、送信する周期情報に対して、その周期情報の生成時（生成時刻）における再生中の配信映像（コンテンツ）のタイムスタンプを付加することで、周期情報がどの時刻（再生時刻）の配信映像に対する反応であるかについての情報が付加されたことになる。

　以下では、特に周期情報IDがｎ（例えば０≦ｎ≦Ｎ）である周期情報ｎに付加されたタイムスタンプをタイムスタンプｎとも記すこととする。

　また、観客端末１１および演者端末１２は、受信した他者の周期情報のそれぞれに対して、自端末の基準時刻に基づいて、自端末から見た周期情報の遅延量を計算する。

　この例では、Ｎ個の周期情報１乃至周期情報Ｎが受信されており、それらのＮ個の周期情報ごとに、基準時刻に基づいて遅延量が求められている。これにより、周期情報１乃至周期情報Ｎに対して、遅延量を示す遅延情報１乃至遅延情報Ｎが得られている。

　ここで、観客端末１１における基準時刻は、例えば観客端末１１自身（自端末）において視聴中の配信映像の時刻、つまり現時点（現時刻）における再生中の配信映像の再生時刻とされる。また、例えば演者端末１２における基準時刻は、演者端末１２において取得される現在時刻、つまりシステム時刻などとされる。

　また、自端末から見た周期情報の遅延量は、基準時刻から周期情報に付加されたタイムスタンプの値を減算して得られる値（基準時刻－周期情報に含まれるタイムスタンプ）とされる。

　観客端末１１および演者端末１２は、周期情報に対応する遅延情報から、それらの遅延情報により示される遅延量分の時間分だけ未来の反応映像／音声を予測する。

　自端末においては、予測により得られた反応映像／音声は、視聴中の配信映像と同時刻のものとなるので、自端末から見た他者の反応の遅延はなくなったかのように見える。すなわち、自端末から見た他者の反応の遅延が補正された反応映像／音声が得られる。

　したがって、第２の実施の形態では、上述の第１の実施の形態とは異なり、観客が意図をもって反応をずらすような表現、例えばリモートライブでは困難なウェーブ等の表現を実現することが可能となる。

　なお、第２の実施の形態においても、リモートライブシステムの構成は図７に示した構成とされるため、ここでは以下に示す第１の実施の形態との差異についてのみ説明する。

　また、説明を簡単にするため、観客端末１１および演者端末１２のそれぞれにおいて、NTP（Network Time Protocol）等公知の方法によりシステム時刻の同期は十分な精度でとれているものとして説明を続ける。

（反応映像／音声生成部の構成）
　第２の実施の形態では、反応映像／音声生成部５５は、例えば図３８に示すように構成される。なお、図３８において図２１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　反応映像／音声生成部５５は、遅延量算出部１８１、反応フレーム生成部１２２、および反応音声生成部１２３を有している。

　遅延量算出部１８１には、タイムスタンプの付加された他者周期情報が受信部５３から供給されるとともに、配信映像の再生時刻が自端末の基準時刻として配信映像／音声復号部５４から供給される。

　この例では、Ｎ個の周期情報１乃至周期情報Ｎと、それらの周期情報１乃至周期情報Ｎに付加されたＮ個のタイムスタンプ１乃至タイムスタンプＮとが遅延量算出部１８１に供給されている。また、配信映像／音声復号部５４から供給される自端末の基準時刻は、補助情報と同様に、自端末（観客端末１１）の環境を示す情報であるということができる。

　遅延量算出部１８１は、他者周期情報に付加されたタイムスタンプと、自端末の基準時刻とに基づいて、他者周期情報ごとに、自端末から見た他者周期情報の遅延量、すなわち他者周期情報の基準時刻からの遅延量を示す遅延情報を生成する。

　また、遅延量算出部１８１は、他者周期情報と遅延情報を反応フレーム生成部１２２および反応音声生成部１２３に供給する。

　この例では、供給された周期情報１乃至周期情報Ｎのそれぞれに対して、遅延情報１乃至遅延情報Ｎのそれぞれが生成され、周期情報１乃至周期情報Ｎと遅延情報１乃至遅延情報Ｎが、反応フレーム生成部１２２および反応音声生成部１２３に供給される。

　反応フレーム生成部１２２は、遅延量算出部１８１から供給された周期情報ｎおよび遅延情報ｎ（但し、n＝1,2,…,N）に基づいて、反応映像の１フレーム分のフレーム画像を生成し、映像／音声重畳部５６に供給する。

　反応音声生成部１２３は、遅延量算出部１８１から供給された周期情報ｎおよび遅延情報ｎ（但し、n＝1,2,…,N）に基づいて反応音声を生成し、映像／音声重畳部５６に供給する。

　以上のような構成の反応映像／音声生成部５５は、受信した他者の周期情報が全て用いられて（選択されて）遅延情報が生成され、周期情報とともに遅延情報が反応フレーム生成部１２２および反応音声生成部１２３に供給される点で、第１の実施の形態における場合と異なる。

　なお、第２の実施の形態では、反応映像／音声生成部９２の構成も、図３８に示した反応映像／音声生成部５５の構成と同様の構成となるため、その図示および説明は省略する。但し、反応映像／音声生成部９２においては、演者端末１２により取得されたシステム時刻（現在時刻）が自端末の基準時刻として、遅延量算出部１８１に対応するブロックに供給される。

　センシング情報解析部５１の動作は、基本的には第１の実施の形態における場合と同様であり、センシング情報解析部５１によって図１４を参照して説明した周期情報生成処理が行われる。

　但し、ステップＳ１４において、センシング情報解析部５１は周期情報を生成するだけでなく、配信映像／音声復号部５４から自端末で視聴中の配信映像（のフレーム）のタイムスタンプを取得し、そのタイムスタンプを周期情報に付加して送信部５２に供給する。

〈遅延量算出処理の説明〉
　次に、反応映像／音声生成部５５により行われる処理について、さらに具体的に説明する。特に、以下では、反応映像として第１の実施の形態における場合と同様に、オブジェクトとしてのペンライトが動く映像が生成される例について説明する。

　そのような場合、図１９を参照して説明したコンテンツ再生処理のステップＳ４４では、反応映像を生成する処理として、遅延量算出部１８１による遅延量算出処理と、反応フレーム生成部１２２による反応フレーム生成処理とが行われる。

　まず、図３９のフローチャートを参照して、遅延量算出部１８１による遅延量算出処理について説明する。

　ステップＳ１７１において遅延量算出部１８１は、受信部５３から必要な他者の周期情報を取得する。この場合、取得される周期情報にはタイムスタンプが付加されている。

　ステップＳ１７２において遅延量算出部１８１は、配信映像／音声復号部５４から、配信映像の現時点の再生時刻（例えばタイムスタンプ）を自端末の基準時刻として取得する。

　なお、ここでは観客端末１１における場合について説明しているため、配信映像の再生時刻が基準時刻として取得されるが、例えば演者端末１２においては、現在時刻（システム時刻）が自端末の基準時刻として取得される。

　ステップＳ１７３において遅延量算出部１８１は、取得した周期情報と基準時刻とから、自端末から見た周期情報の遅延量Δｔ_delayを算出する。

　具体的には、例えば遅延量算出部１８１は、次式（８）により、基準時刻と、周期情報に付加されているタイムスタンプとの差分を計算することで遅延量Δｔ_delayを求める。

　遅延量算出部１８１は、このようにして求めた遅延量Δｔ_delayを示す遅延情報と、周期情報とを対応付けて（紐づけて）反応フレーム生成部１２２および反応音声生成部１２３に供給する。

　ステップＳ１７４において遅延量算出部１８１は、まだ処理すべき周期情報があるか否か、すなわち処理する周期情報が残っているか否かを判定する。ステップＳ１７４では、全ての観客端末１１の周期情報について遅延量を求める処理が行われた場合、処理すべき周期情報がないと判定される。

　ステップＳ１７４において、まだ処理すべき周期情報があると判定された場合、処理はステップＳ１７１に戻り、上述した処理が繰り返し行われる。すなわち、遅延量算出部１８１は、まだ処理していない新たな周期情報を受信部５３から取得し、取得した周期情報について遅延情報を生成する。

　これに対して、全ての周期情報について処理を行った場合、すなわちステップＳ１７４において、処理すべき周期情報がないと判定された場合、遅延量算出処理は終了する。

　以上のようにして遅延量算出部１８１は、全ての観客端末１１について、それらの観客端末１１で生成された周期情報の遅延量を示す遅延情報を生成する。

　これにより、各周期情報について対応する遅延情報を得ることができ、後段において遅延量が補正されたずれのない反応映像および反応音声を得ることができるようになる。すなわち、より違和感の少ない反応映像／音声を得ることができる。

（反応フレーム生成部の動作）
　次に、第２の実施の形態における反応フレーム生成部１２２の動作について説明する。すなわち、遅延量算出部１８１によって遅延量算出処理が行われた後に実行される、反応フレーム生成部１２２による反応フレーム生成処理について説明する。

　反応フレーム生成部１２２では、基本的には図３２を参照して説明した反応フレーム生成処理と同じ処理が行われるが、ステップＳ１０５の処理のみ第１の実施の形態における場合と異なる処理が行われる。

　ステップＳ１０５においては、オブジェクトの動きの向きを示す角度αが算出されるが、第１の実施の形態における場合と、第２の実施の形態における場合とでの角度αの算出方法の差異を図４０に示す。

　なお、図４０において、横軸は時間（時刻）を示しており、図中、上側に凸の矢印は周期情報の更新のタイミング、つまり左右に動くペンライトの動く向きの切り替わりのタイミングを示している。また、図中、上側に凸の矢印の大きさは、周期情報における角度情報の大きさ、つまりペンライトの向き（角度）を示している。

　図中、左側には、第１の実施の形態において説明した、現在時刻ｔにおけるオブジェクト（ペンライト）の向きを示す角度αの算出方法が示されている。

　すなわち、この算出方法では、時刻ｔ_０において周期情報が最後に受信されてからの経過時間（t-t₀）だけが考慮されている。そのため、時刻ｔ_０で最後に受信した周期情報の角度情報により示される角度α_０に、経過時間（t-t₀）で変化する角度ω（t-t₀）が加算されて角度αが求められている。

　具体的には、以下の式（９）により角度αが求められる。なお、式（９）は上述した式（３）と同様の式である。

　これに対して、第２の実施の形態では、図中、右側に示すようにしてオブジェクト（ペンライト）の向きを示す角度αが算出される。

　具体的には、反応フレーム生成部１２２は、時刻ｔ_０で他の観客端末１１から受信した周期情報そのものにある遅延量Δｔ_delayを補正するために、さらに遅延量Δｔ_delayの分の時間だけ経過した時刻（t+Δｔ_delay）におけるペンライトの角度を角度αとして求める。すなわち、式（９）において、（t-t₀）が（t-t₀+Δｔ_delay）に置き換えられる。

　したがって、角速度がωで、最後に周期情報を受信した時刻がｔ_０で、その時刻ｔ_０における周期情報を構成する角度情報により示される角度がα_０であり、時刻ｔ_０における周期情報の遅延量がΔｔ_delayである場合、角度αは次式（１０）により求まる。

　このようにして求まる角度αは、遅延量Δｔ_delayを考慮しなければ、現在時刻ｔよりも遅延量Δｔ_delayだけ先の時刻（t+Δｔ_delay）における、オブジェクト（ペンライト）の向きを示す角度の予測値である。

　しかし、実際には角度α_０は、周期情報を受信した時刻ｔ_０よりも遅延量Δｔ_delayだけ前の時刻（t₀-Δｔ_delay）におけるオブジェクトの向きを示す角度である。そのため、式（１０）により求まる角度αは、実際には現時刻ｔにおけるオブジェクトの向きを示す角度の予測値となっている。換言すれば、式（１０）の計算により、遅延量Δｔ_delayが補正された、より正確な角度αを得ることができる。

　なお、式（１０）における２項目における「t-t₀+Δｔ_delay」（以下、Δｔ_predとも記す）が半周期Ｔよりも大きくなってしまうこともある。

　しかし、そのような場合には、仮定している周期性から式（１０）の２項目「ω（t-t₀+Δｔ_delay）」を以下の式（１１）に示すように置き換えればよい。なお、式（１１）においてmodは、剰余演算を示している。

　また、第２の実施の形態では、第１の実施の形態のような周期情報の選択は行われないため、周期情報とオブジェクトの対応関係を示す対応テーブルは、オブジェクトID＝周期情報IDのように、オブジェクトIDと周期情報IDとが全て１対１に対応するものとなる。

　すなわち、複数のオブジェクトのオブジェクト画像が同じ周期情報に基づいて生成されることはない。したがって、第２の実施の形態では、反応フレーム生成処理において、算出された角度αにランダム値を加算するステップＳ１０６の処理は実施されない。

　また、以上においては反応映像／音声生成部５５において行われる処理について説明したが、演者端末１２の反応映像／音声生成部９２においても反応映像／音声生成部５５における場合と同様の処理が行われる。

〈第２の実施の形態の他の例１〉
〈反応映像と反応音声を生成する例〉
　なお、以上においては、反応映像のみを生成する例について説明したが、反応映像と反応音声の両方が生成されるようにしてもよい。

　このような場合においても、リモートライブシステムの構成は図７に示した構成とされ、反応映像／音声生成部５５は図３８に示した構成とされる。

　また、反応映像の生成は、上述の第２の実施の形態における場合と同様にして実現することができるため、ここではその説明は省略し、第２の実施の形態との差異となる反応音声生成部における動作についてのみ説明する。

　なお、演者端末１２の反応映像／音声生成部９２における、反応音声生成部１２３に対応する反応音声生成部１５３の動作も反応音声生成部１２３における場合と同様であるため、その図示および説明については省略する。

　反応音声生成部１２３は、例えば図４１に示すようにして反応音声を生成する。この場合、周期情報は、例えば図３３を参照して説明したものとされる。

　なお、図４１において横軸は時間（時刻）を示しており、図中、上に凸の矢印は周期情報が受信されたタイミング、換言すれば、オブジェクトの反応を示す音である拍手の再生音の再生が開始されるタイミングを表している。

　矢印Q101に示す部分には周期情報の遅延がない場合、すなわち理想的な場合における再生音（拍手音）の再生開始タイミングが示されている。

　ところが、実際に取得した周期情報は上述の遅延量Δｔ_delayの時間だけ遅延しているため、矢印Q102に示すように再生音（拍手音）の再生開始タイミングには、理想的な再生開始タイミングに対してずれが生じてしまう。ここでは期間T31の長さは、周期情報の遅延量、すなわち上述の遅延量Δｔ_delayを表している。

　しかし、観客の反応である拍手は略周期的な反応（動き）であるから、取得した周期情報に基づく再生音（拍手音）の再生開始タイミングに対して、もう１周期先に拍手のタイミングが来ると予想できる。

　そこで、反応音声生成部１２３は、再生音（拍手音）の再生開始タイミングを、周期情報（経過時間情報）により示される１周期の時間から、周期情報の遅延量Δｔ_delayを減算して得られる補正量T32の時間（周期－遅延量）だけ遅らせる。

　そのような場合、反応音声生成部１２３は、基本的には図３５を参照して説明した反応音声生成処理と同様の処理を行う。

　但し、ステップＳ１４３において反応音声生成部１２３は、周期情報と拍手音の音声データに基づいて１回分の拍手音を再生音として生成するときに、その拍手音の再生が開始されるタイミングを（周期－遅延量）の時間の分だけ遅らせるようにする。

　換言すれば、周期情報により示される周期と、周期情報の遅延量との差分に基づいて、再生音の再生開始タイミングが補正される。

　このようにすることで、矢印Q103に示すように、拍手音の再生開始タイミングが、ちょうど周期情報の遅延がない場合の理想的な再生開始タイミングから１周期分だけ遅れたタイミングとなる。オブジェクトの反応としての拍手は周期的なものであるため、拍手音の再生開始タイミングを理想的な場合から１周期分だけずらすことで、周期情報の遅延量により生じる拍手のタイミングのずれが補正されることになる。

　したがって、このようにして周期情報の遅延を補正することで、全ての観客端末１１の周期情報を用いた場合であっても、複数のオブジェクトの音声（反応）が揃った違和感の少ない反応音声を提示することができる。

　また、この実施の形態で説明した方法によれば、第１の実施の形態の他の例１における場合のように、アンコール開始を検知しなくても、「拍手が少しずつ手拍子に変わっていくような表現」を実現することが可能となる。

〈第３の実施の形態〉
〈反応映像／音声生成部の構成例〉
　ところで、反応映像／音声生成部５５や反応映像／音声生成部９２において、第１の実施の形態のように周期情報の選択を行い、かつ第２の実施の形態のように遅延情報を生成して遅延量に応じた補正を行うようにしてもよい。

　特に、そのような場合に周期情報の選択を行う手法（以下、周期情報選択手法とも称する）と、遅延量に応じた補正を行う手法（以下、遅延量補正手法とも称する）とを、自端末の演算リソース等に応じて使い分けるようにしてもよい。

　例えば自端末、すなわち観客端末１１や演者端末１２がPCやゲーム機等であって、処理に余裕があるときには、比較的表現の幅が広い遅延量補正手法を中心に用いるようにすることが考えられる。

　また、例えば自端末、すなわち観客端末１１や演者端末１２がスマートフォンやタブレット等、比較的リソースの不足している機器である場合には、比較的演算負荷の低い周期情報選択手法を中心に用いるようにすることが考えられる。

　このようにすることで、遅延量補正手法のような方法でしか実現できない反応映像／音声を提示しつつ、自端末における演算負荷を低く抑えることができる。

　周期情報選択手法と遅延量補正手法を組み合わせて用いる場合においても、リモートライブシステムの構成は図７に示した構成とされるため、ここでは差異の生じる反応映像／音声生成部５５と反応映像／音声生成部９２の構成について説明する。

　特に、反応映像／音声生成部９２の構成と動作は、基本的には反応映像／音声生成部５５と同様であるため、以下では反応映像／音声生成部５５について説明を行い、反応映像／音声生成部９２については、その説明は省略する。

　例えば、反応映像／音声生成部５５の構成は、周期情報選択手法と遅延量補正手法の組み合わせ方によっていくつかの構成が考えられるが、ここでは一例として、周期情報選択部１２１と遅延量算出部１８１を縦続接続させる例について説明する。

　そのような場合、反応映像／音声生成部５５は図４２に示すように構成される。なお、図４２において図２１または図３８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図４２に示す反応映像／音声生成部５５は、周期情報選択部１２１、遅延量算出部１８１、反応フレーム生成部１２２、および反応音声生成部１２３を有している。

　この例では、周期情報選択部１２１には、受信部５３からＮ個の観客端末１１から受信された周期情報１乃至周期情報Ｎが供給される。これらの周期情報１乃至周期情報Ｎには、タイムスタンプ１乃至タイムスタンプＮが付加されている。

　また、周期情報選択部１２１には、センシング情報解析部５１からの自端末周期情報や、配信映像／音声復号部５４からの配信映像／音声が補助情報として供給される。なお、演者端末１２では、生映像／音声が補助情報として供給される。

　周期情報選択部１２１は、第１の実施の形態における場合と同様にして、補助情報に基づいて、供給されたＮ個の他者周期情報のなかから、Ｎ以下のＭ個（Ｍ≦Ｎ）の周期情報を選択周期情報として選択する。

　周期情報選択部１２１は、選択周期情報として選択したＭ個の周期情報と、それらの周期情報に付加されているタイムスタンプとを遅延量算出部１８１に供給する。

　この場合、例えば周期情報選択部１２１は、現時点における自端末（観客端末１１）の演算リソース等に基づいて、選択する周期情報の個数Ｍを決定する。特に、自端末の演算リソースが所定値以上ある場合など、遅延量補正手法の割り合いを増やしたいとき、つまり遅延量補正手法を中心に用いたいときには、選択される周期情報の個数Ｍを増やすようにすればよい。例えば、選択される周期情報の個数ＭをＭ≒Ｎとすれば、受信された周期情報が殆どパススルーされて遅延量算出部１８１へと供給されるような動作となる。

　遅延量算出部１８１には、第２の実施の形態における場合と同様に、配信映像／音声復号部５４から自端末の基準時刻として、観客端末１１自身（自端末）において再生中の配信映像の再生時刻が供給される。なお、演者端末１２では、システム時刻が自端末の基準時刻として供給される。

　遅延量算出部１８１は、第２の実施の形態における場合と同様にして、周期情報選択部１２１から供給されたＭ個の周期情報ごとに、供給された周期情報に付加されているタイムスタンプと、供給された自端末の基準時刻とに基づいて遅延情報を生成する。

　遅延量算出部１８１は、選択周期情報として選択されたＭ個の周期情報と、それらの周期情報に対応するＭ個の遅延情報とを反応フレーム生成部１２２および反応音声生成部１２３に供給する。

　反応フレーム生成部１２２は、遅延量算出部１８１から供給されたＭ個の周期情報と遅延情報に基づいて、第２の実施の形態における場合と同様にして反応映像を生成する。この場合、Ｍ個のオブジェクト画像が重畳された反応映像が生成されるようにしてもよいし、１つの周期情報から複数のオブジェクト画像を生成することで、Ｎ個のオブジェクト画像が重畳された反応映像が生成されるようにしてもよい。

　また、反応音声生成部１２３も遅延量算出部１８１から供給されたＭ個の周期情報と遅延情報に基づいて、第２の実施の形態の他の例１における場合と同様にして反応音声を生成する。この場合、Ｍ個のオブジェクトの再生音からなる反応音声が生成されるようにしてもよいし、１つの周期情報から複数のオブジェクトの再生音を生成することで、Ｎ個のオブジェクトの再生音からなる反応音声が生成されるようにしてもよい。

　なお、反応映像や反応音声の生成にあたり、１つの周期情報から複数のオブジェクト画像やオブジェクトの再生音を生成するときには、第１の実施の形態や第１の実施の形態の他の例１における場合と同様に、オブジェクトの角度や、拍手音等の再生音の再生タイミングに微小なずれが付加されてもよい。

　具体的には第３の実施の形態では、反応フレーム生成処理において、１個の周期情報から複数のオブジェクト画像を生成する必要があるときには、適宜算出された角度αにランダム値を加算するステップＳ１０６の処理が実施される。

　同様に、反応音声生成処理において、１個の周期情報から複数の再生音を生成する必要があるときには、ステップＳ１４３の処理を実施する際に再生音における拍手音の再生タイミングが必ず一定量以下の時間だけずらされるようにされる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図４３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信する受信部と、
　複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する生成部と
　を備える情報処理装置。
（２）
　センサにより取得された情報に基づいて、前記自端末に対応するユーザの反応を示す前記反応情報を生成する反応情報生成部と、
　前記ユーザの反応を示す前記反応情報を送信する送信部と
　をさらに備える（１）に記載の情報処理装置。
（３）
　前記センサは、カメラ、マイクロフォン、加速度センサ、ジャイロセンサ、および地磁気センサの少なくとも何れか１つを含む
　（２）に記載の情報処理装置。
（４）
　前記反応情報は、反応の周期に基づく周期情報である
　（１）乃至（３）の何れか一項に記載の情報処理装置。
（５）
　前記環境情報は、コンテンツの映像、コンテンツの音声、および前記自端末に対応するユーザの反応を示す前記反応情報の少なくとも何れか１つである
　（１）乃至（４）の何れか一項に記載の情報処理装置。
（６）
　前記生成部は、前記受信部により受信された前記複数の前記反応情報のなかから選択した所定数の前記反応情報に基づいて、前記提示映像または前記提示音声を生成する
　（１）乃至（５）の何れか一項に記載の情報処理装置。
（７）
　前記生成部は、コンテンツの音声から得られるテンポ情報またはビート情報に基づいて、前記所定数の前記反応情報を選択する
　（６）に記載の情報処理装置。
（８）
　前記生成部は、前記自端末に対応するユーザの反応を示す前記反応情報に基づいて、前記所定数の前記反応情報を選択する
　（６）に記載の情報処理装置。
（９）
　前記生成部は、前記他のユーザの反応を示す前記反応情報の履歴の解析結果に基づいて、前記所定数の前記反応情報を選択する
　（６）に記載の情報処理装置。
（１０）
　前記生成部は、前記他のユーザの反応を示す前記反応情報のメタ情報に基づいて、前記所定数の前記反応情報を選択する
　（６）に記載の情報処理装置。
（１１）
　前記生成部は、選択する前記反応情報、および選択する前記反応情報の数を動的に変化させる
　（６）乃至（１０）の何れか一項に記載の情報処理装置。
（１２）
　前記生成部は、前記自端末における基準時刻に対する、受信した前記他のユーザの反応を示す前記反応情報の遅延量を算出し、前記他のユーザの反応を示す前記反応情報および前記遅延量に基づいて、前記提示映像または前記提示音声を生成する
　（１）乃至（１１）の何れか一項に記載の情報処理装置。
（１３）
　前記生成部は、前記他のユーザの反応を示す前記反応情報に付加された、前記反応情報生成時におけるコンテンツのタイムスタンプに基づいて前記遅延量を算出する
　（１２）に記載の情報処理装置。
（１４）
　前記生成部は、前記他のユーザの反応を示す前記反応情報に応じた動きをするオブジェクトの映像を前記提示映像として生成する
　（１）乃至（１３）の何れか一項に記載の情報処理装置。
（１５）
　前記生成部により生成された前記提示映像を、前記受信部により受信されたコンテンツの映像に重畳し、最終的な前記提示映像とする映像重畳部をさらに備える
　（１）乃至（１４）の何れか一項に記載の情報処理装置。
（１６）
　前記生成部は、前記他のユーザの反応を示す前記反応情報に応じたタイミングで特定音が再生される音声を前記提示音声として生成する
　（１）乃至（１５）の何れか一項に記載の情報処理装置。
（１７）
　前記生成部により生成された前記提示音声を、前記受信部により受信されたコンテンツの音声に合成し、最終的な前記提示音声とする音声重畳部をさらに備える
　（１）乃至（１６）の何れか一項に記載の情報処理装置。
（１８）
　前記提示映像または前記提示音声を提示させる出力部をさらに備える
　（１）乃至（１７）の何れか一項に記載の情報処理装置。
（１９）
　前記生成部は、前記自端末の演算リソースに基づいて、選択する前記反応情報の数を決定する
　（１１）に記載の情報処理装置。
（２０）
　情報処理装置が、
　自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、
　複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する
　情報処理方法。
（２１）
　自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、
　複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する
　処理をコンピュータに実行させるプログラム。

　１１Ａ乃至１１Ｃ，１１　観客端末，　１２　演者端末，　１４　ネットワーク，　４１　センシングデバイス，　５１　センシング情報解析部，　５２　送信部，　５３　受信部，　５５　反応映像／音声生成部，　５６　映像／音声重畳部，　５７　映像／音声出力部，　９１　受信部，　９２　反応映像／音声生成部，　１２１　周期情報選択部，　１２２　反応フレーム生成部，　１２３　反応音声生成部，　１８１　遅延量算出部

Claims

　自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信する受信部と、
　複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する生成部と
　を備える情報処理装置。
　センサにより取得された情報に基づいて、前記自端末に対応するユーザの反応を示す前記反応情報を生成する反応情報生成部と、
　前記ユーザの反応を示す前記反応情報を送信する送信部と
　をさらに備える請求項１に記載の情報処理装置。
　前記センサは、カメラ、マイクロフォン、加速度センサ、ジャイロセンサ、および地磁気センサの少なくとも何れか１つを含む
　請求項２に記載の情報処理装置。
　前記反応情報は、反応の周期に基づく周期情報である
　請求項１に記載の情報処理装置。
　前記環境情報は、コンテンツの映像、コンテンツの音声、および前記自端末に対応するユーザの反応を示す前記反応情報の少なくとも何れか１つである
　請求項１に記載の情報処理装置。
　前記生成部は、前記受信部により受信された前記複数の前記反応情報のなかから選択した所定数の前記反応情報に基づいて、前記提示映像または前記提示音声を生成する
　請求項１に記載の情報処理装置。
　前記生成部は、コンテンツの音声から得られるテンポ情報またはビート情報に基づいて、前記所定数の前記反応情報を選択する
　請求項６に記載の情報処理装置。
　前記生成部は、前記自端末に対応するユーザの反応を示す前記反応情報に基づいて、前記所定数の前記反応情報を選択する
　請求項６に記載の情報処理装置。
　前記生成部は、前記他のユーザの反応を示す前記反応情報の履歴の解析結果に基づいて、前記所定数の前記反応情報を選択する
　請求項６に記載の情報処理装置。
　前記生成部は、前記他のユーザの反応を示す前記反応情報のメタ情報に基づいて、前記所定数の前記反応情報を選択する
　請求項６に記載の情報処理装置。
　前記生成部は、選択する前記反応情報、および選択する前記反応情報の数を動的に変化させる
　請求項６に記載の情報処理装置。
　前記生成部は、前記自端末における基準時刻に対する、受信した前記他のユーザの反応を示す前記反応情報の遅延量を算出し、前記他のユーザの反応を示す前記反応情報および前記遅延量に基づいて、前記提示映像または前記提示音声を生成する
　請求項１に記載の情報処理装置。
　前記生成部は、前記他のユーザの反応を示す前記反応情報に付加された、前記反応情報生成時におけるコンテンツのタイムスタンプに基づいて前記遅延量を算出する
　請求項１２に記載の情報処理装置。
　前記生成部は、前記他のユーザの反応を示す前記反応情報に応じた動きをするオブジェクトの映像を前記提示映像として生成する
　請求項１に記載の情報処理装置。
　前記生成部により生成された前記提示映像を、前記受信部により受信されたコンテンツの映像に重畳し、最終的な前記提示映像とする映像重畳部をさらに備える
　請求項１に記載の情報処理装置。
　前記生成部は、前記他のユーザの反応を示す前記反応情報に応じたタイミングで特定音が再生される音声を前記提示音声として生成する
　請求項１に記載の情報処理装置。
　前記生成部により生成された前記提示音声を、前記受信部により受信されたコンテンツの音声に合成し、最終的な前記提示音声とする音声重畳部をさらに備える
　請求項１に記載の情報処理装置。
　前記提示映像または前記提示音声を提示させる出力部をさらに備える
　請求項１に記載の情報処理装置。
　情報処理装置が、
　自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、
　複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する
　情報処理方法。
　自端末とは異なる複数の他の端末のそれぞれで生成された、他のユーザの反応を示す反応情報を受信し、
　複数の前記反応情報と、前記自端末の環境を示す環境情報とに基づいて、複数の前記他のユーザの反応に対応する提示映像または提示音声を生成する
　処理をコンピュータに実行させるプログラム。