WO2024034646A1

WO2024034646A1 - データ配信システム、データ配信方法、データ処理装置及びデータ処理方法

Info

Publication number: WO2024034646A1
Application number: PCT/JP2023/029160
Authority: WO
Inventors: 俊也浜田; 量資近藤
Original assignee: ソニーグループ株式会社
Priority date: 2022-08-12
Filing date: 2023-08-09
Publication date: 2024-02-15

Abstract

データ配信システムは、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成するセントラルサーバ装置と、各々が前記セントラルサーバ装置と通信するとともに互いに地理的に離れた位置に分散して配置され、前記セントラルサーバ装置が生成した前記３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する複数のエッジサーバ装置と、を備える。

Description

データ配信システム、データ配信方法、データ処理装置及びデータ処理方法

　本開示は、データ配信システム、データ配信方法、データ処理装置及びデータ処理方法に関する。

　例えば特許文献１及び特許文献２に示されるように、仮想空間の提供に関するさまざまな技術が提案されている。

特開２０２０－１７２４２号公報特開２０２０－２１３９４号公報

　例えば、大規模なライブイベント会場を仮想化してリアルタイム配信することが考えられる。その場合、多数のユーザを含む仮想空間、それもユーザの動きを反映したり、ユーザどうしのインタラクションを可能にしたりする仮想空間を構築しなければならない。膨大な量のデータの伝送及び処理が必要になることから、ユーザの動きを仮想空間に反映して映像表示、知覚するまでの遅延（ｍｏｔｉｏｎ－ｔｏ－ｐｈｏｔｏｎ　ｌａｔｅｎｃｙ）が生じたり、ユーザどうしのインタラクションに遅延が生じたりする。

　本開示の一側面は、遅延を抑制する。

　本開示の一側面に係るデータ配信システムは、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成するセントラルサーバ装置と、各々がセントラルサーバ装置と通信するとともに互いに地理的に離れた位置に分散して配置され、セントラルサーバ装置が生成した３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する複数のエッジサーバ装置と、を備える。

　本開示の一側面に係るデータ配信方法は、セントラルサーバ装置が、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成することと、各々がセントラルサーバ装置と通信するとともに互いに地理的に離れた位置に分散して配置された複数のエッジサーバ装置が、セントラルサーバ装置が生成した３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成することと、を含む。

　本開示の一側面に係るデータ処理装置は、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する。

　本開示の一側面に係るデータ処理方法は、データ処理装置が、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成することを含む。

実施形態に係るデータ配信システム１００の概略構成の例を示す図である。バウンディングボックスデータの例を示す図である。視聴者の３Ｄモデルデータ（アバターデータ）の例を示す図である。アニメーションデータの例を示す図である。装置の接続関係及び装置間のデータ伝送の例を示す図である。ネットワークリソースの分担の例を示す図である。セントラルサーバ装置３の配置の例を示す図である。エッジサーバ装置２の地理的配置の例を示す図である。マッピングの例を示す図である。視聴者グループの例を示す図である。視聴者グループの例を示す図である。異なる視聴者グループに属する視聴者Ａｕの３Ｄモデルどうしのインタラクションの例を示す図である。配信準備段階でのデータ配信システム１００の動作の例を示す図である。配信準備段階でのデータ配信システム１００の動作の例を示す図である。配信直前準備段階でのデータ配信システム１００の動作の例を示す図である。配信直前準備段階でのデータ配信システム１００の動作の例を示す図である。配信中のデータ配信システム１００の動作の例を示す図である。配信中のデータ配信システム１００の動作の例を示す図である。配信中のデータ配信システム１００の動作の例を示す図である。配信中のデータ配信システム１００の動作の例を示す図である。配信中のデータ配信システム１００の動作の例を示す図である。配信中のデータ配信システム１００の動作の例を示す図である。比較例を示す図である。比較例を示す図である。検討例を示す図である。ネットワークリソースの例を示す図である。変形例のネットワーク構成の例を示す図である。装置のハードウェア構成の例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の要素には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　０．序
　　１．実施形態
　　２．変形例
　　３．ハードウェア構成の例
　　４．まとめ

０．序
　開示される技術の１つのユースケースは、仮想化空間を利用した音楽ライブ等のライブイベントの配信である。ユーザ、より具体的には演者及び視聴者の分身（後述の３Ｄモデル）等が配置された会場を含む仮想空間が構築され、そのシーン、例えば映像及び音がユーザに提供される。仮想空間では、現実空間における演者の演奏、発声、体の動き等がリアルタイムに反映されるだけでなく、視聴者の声、体の動き等もリアルタイムに反映される。例えば、演者の演奏に合わせて視聴者が他の視聴者と一緒にダンスをすることもできる。仮想空間を利用して、双方向のインタラクションが可能な音楽ライブが配信される。このような配信は、インタラクティブ性を有する大規模リアルタイム自由視点音楽ライブ配信とも呼べる。

　なお、本開示において、映像及び撮影は、画像及び撮像の意味に解されてよく、矛盾の無い範囲においてそれらは適宜読み替えられてよい。また、データは、情報の意味に解されてよく、矛盾の無い範囲においてそれらは適宜読み替えられてよい。データの伝送は、データの通信、データの送受信、データの配信等の意味に解されてよく、矛盾の無い範囲においてそれらは適宜読み替えられてよい。

　多数のユーザを含む仮想空間を利用した配信においては、膨大なデータの伝送及び処理が発生し、それによって、ｍｏｔｉｏｎ－ｔｏ－ｐｈｏｔｏｎ　ｌａｔｅｎｃｙが生じたり、ユーザどうしのインタラクションに遅延が生じたりする。この問題が、開示される技術によって対処される。

　一実施形態において、データ通信に全光通信（ＡＰＮ（オールフォトニクスネットワーク））が用いられる。伝送路が光ファイバで構成され、データは、光電変換を介さず光信号のままで伝送される。信号のルーティングは光スイッチで行われ、そこでの遅延は発生しない。他のデータが多重化されることによる遅延、伝送レートの低下、遅延の揺らぎ（ジッタ）が発生しないか、或いは非常に小さくなる。光ファイバを利用するため、伝送遅延も非常に短い。

　多数のユーザ、例えば１００万人レベルの視聴者が参加するようなライブイベントを配信する場合には、データ伝送量、映像生成のためのレンダリング処理が膨大になり、遅延の問題が顕在化する。上述の全光通信とは別のアプローチの検討も重要である。

　詳細は後述するが、例えば、システムの構成要素とシステムの実装に必要なネットワークリソースが定義される。ネットワークリソースの物理配置上の特性を生かして、システムの構成要素がネットワークリソースに割り当てられる（マッピングされる）。また、演者と視聴者の３Ｄモデルについて、求められる品質と用途から、伝送する３Ｄモデルデータが使い分けられる。システムの構成要素間で、処理内容に応じて、伝送するデータの形式が定義される。一般的なサーバ・クライアント構成と比較して、システムの構成要素間のデータレートを削減し、３Ｄシーン生成、表示のためのレンダリング処理の負荷を分散し、また、遅延を低減することができる。より多くのユーザへのデータ配信（配信の大規模化）が可能になる。

　自由視点空間を構成する３Ｄモデルデータは、近距離視点でも高画質が担保されるように高精細さが求められるが、従来の２Ｄ映像データと比較するとデータ量が膨大になる。加えて、会場に集まる多数の視聴者の３Ｄモデルデータを処理する必要があり、単純にそれらの３Ｄモデルデータを伝送すると、ネットワークの伝送帯域容量を超えてしまう。膨大なデータを処理(レンダリング等)するために、高速なコンピューティングリソースも必要になる。

　一実施形態において、演者と視聴者とで、異なる３Ｄモデルが用いられる。このうちの視聴者の３Ｄモデルを、アバターとも称する。例えば、演者の動きがボリュ―メトリックキャプチャされ、時系列に変化する演者の３Ｄモデルデータが生成される。一方で、視聴者の３Ｄモデルは、静的な３Ｄモデルデータ（アバターデータ）、及び、その３Ｄモデルを動かす（動的なアバターを得るための）アニメーションデータで構成される。視聴者の動きは、視聴者の３Ｄモデルデータにアニメーションデータを反映させることで実現する。

　また、システムを構成するネットワークリソースとして、例えば１つのセントラルサーバ装置、多数のエッジサーバ装置、さらに多数のクライアント装置（オンプレミス装置）の３つの構成要素が定義される。ネットワークリソースの地理的配置の工夫により、データが一箇所に集中する問題が緩和され、また、処理負荷が分散される。ネットワーク上でのデータ集中（局所的な高データレート）が低減され、また、遅延も低減される。多数のユーザが参加する仮想空間内での自由視点リアルタイム音楽ライブ配信を提供することができる。

１．実施形態
　図１は、実施形態に係るデータ配信システム１００の概略構成の例を示す図である。データ配信システム１００は、仮想空間を利用したさまざまなイベントを、複数のユーザに配信（提供）する。イベントは、ライブイベントであってよい。イベントのライブ配信（リアルタイム配信）が行われる。仮想空間は、仮想化されたライブイベント会場を含む。イベントの例は、音楽ライブ、スポーツ、トークショー等であるが、これらに限定されるものではない。なお、とくに説明がある場合を除き、以下では、イベントは音楽ライブであるものとする。

　仮想空間は、３次元の仮想空間（３Ｄ仮想空間）である。そのような仮想空間は、メタバース、デジタルツイン等と呼ばれることもある。仮想空間内のユーザを表す３Ｄモデルは、アバター、デジタルヒューマン等と呼ばれることもある。仮想空間は、複数のユーザの３Ｄモデルを含む仮想空間であり、また、リアルタイムに変化する仮想空間であってよい。

　データ配信システム１００を利用する複数のユーザは、視聴者Ａｕ及び演者Ｐを含む。視聴者Ａｕ及び演者Ｐを区別しない場合は、単にユーザとも呼ぶ。視聴者Ａｕは、複数の視聴者Ａｕであってよく、図１には、３人の視聴者Ａｕが例示される。各視聴者Ａｕを区別できるように、視聴者Ａｕ－１、視聴者Ａｕ－２及び視聴者Ａｕ－３と称し図示する。演者Ｐは、１又は複数の演者Ｐであってよく、図１には、１人の演者Ｐが例示される。

　データ配信システム１００は、複数の装置（データ処理装置等とも呼べる）を含んで構成される。具体的に、データ配信システム１００は、複数のクライアント装置と、複数のエッジサーバ装置と、１つ以上のセントラルサーバ装置と、複数のデータベース装置とを含む。図１には、複数のクライアント装置として、複数のクライアント装置１、及びクライアント装置１－Ｐが例示される。複数のエッジサーバ装置として、複数のエッジサーバ装置２、及びエッジサーバ装置２－Ｐが例示される。１つ以上のセントラルサーバ装置として、１つのセントラルサーバ装置３が例示される。複数のデータベース装置として、データベース装置２０、データベース装置２０－Ｐ及びデータベース装置３０が例示される。

　上述の各装置は、物理的に離れた複数の領域にわたって分散して配置される。複数の領域は、オンプレミス領域Ｒ１と、リージョナル領域Ｒ２と、セントラル領域Ｒ３とを含む。なお、図１において同じ領域内に示される異なる装置どうしも、物理的に離れて配置され得る。

　オンプレミス領域Ｒ１には、クライアント装置１及びクライアント装置１－Ｐが配置される。クライアント装置１及びクライアント装置１－Ｐは、ユーザである視聴者Ａｕ及び演者Ｐが直接使用する装置（オンプレミス装置とも呼べる）であり、ユーザごとに設けられる。

　視聴者Ａｕの数に対応する複数のクライアント装置１が存在する。視聴者Ａｕ－１のクライアント装置１を、クライアント装置１－１と称し図示する。視聴者Ａｕ－２のクライアント装置１を、クライアント装置１－２と称し図示する。視聴者Ａｕ－３のクライアント装置１を、クライアント装置１－３と称し図示する。これらをとくに区別しない場合は、単にクライアント装置１と呼ぶ。

　クライアント装置１及びクライアント装置１－Ｐを含む複数のクライアント装置の各々は、対応するエッジサーバ装置２と通信する。また、この例では、クライアント装置１－Ｐは、エッジサーバ装置２－Ｐだけでなく、エッジサーバ装置２及びセントラルサーバ装置３とも通信する。

　視聴者Ａｕのクライアント装置１は、キャプチャ装置１１と、ディスプレイ装置１２とを含む。

　キャプチャ装置１１は、視聴者Ａｕの体の動き、顔の表情、体の各部の位置、向き、音声等のデータを取得する。キャプチャ装置１１は、カラーカメラ、深度センサ、ＨＭＤ（Head　Mounted　Display）、コントローラ、マイク等を含んで構成されてよい。カラーカメラの例は、ＲＧＢカメラ等である。深度センサの例は、ＴｏＦ（Time　of　Flight）センサ等である。ＨＭＤは、視聴者Ａｕの頭部に装着されて用いられる。コントローラは、例えば視聴者Ａｕが手で持って使用する。マイクは視聴者Ａｕの音声を集音する。集音された音は、例えばサンプリングされてデジタル化される。キャプチャ装置１１によって取得されたデータを、視聴者Ａｕのキャプチャデータ（又はセンシングデータ）とも称する。なお、カラーカメラ等に代えて、或いはそれとともに、キャプチャ装置１１は、視聴者Ａｕの体に取り付けられる加速度センサ等を含んで構成されてもよい。加速度センサから得られる視聴者Ａｕの体の部分の加速度のデータ、さらにはその部分の速度や位置のデータを、キャプチャデータとして取得することができる。

　ディスプレイ装置１２は、仮想空間の映像を表示したり、音を出力したりする。ディスプレイ装置１２の表示映像は、視聴者Ａｕの視点で観たときの仮想空間の映像であってよい。表示映像は、演者Ｐの３Ｄモデルを含んでよく、また、他の視聴者Ａｕの３Ｄモデルを含んでよい。ディスプレイ装置１２の出力音は、視聴者Ａｕの音声、演奏音を含んでよく、また、他の視聴者Ａｕの音声を含んでよい。あたかも視聴者Ａｕがライブ会場にいるかのような映像、音が提供される。

　演者Ｐのクライアント装置１－Ｐは、キャプチャ装置１１－Ｐと、ディスプレイ装置１２－Ｐと、３Ｄモデル生成装置１３とを含む。

　キャプチャ装置１１－Ｐは、演者Ｐの体の動き、顔の表情、体の各部の位置、向き、音声、演奏音等のデータを取得する。キャプチャ装置１１－Ｐは、例えば、カラーカメラ、深度センサ、ＨＭＤ、コントローラ、マイク等を含んで構成されてよい。カメラは、多数のカメラであってよく、それにより、多くの異なる視点で観たときの演者Ｐの体の動き等のデータが取得される（ボリュメトリックキャプチャ）。また、マイクは、複数のマイクであってよい。キャプチャ装置１１－Ｐによって取得されたデータを、演者Ｐのキャプチャデータとも称する。演者Ｐのキャプチャデータは、例えば１秒間に３０回等のレートで演者Ｐの動きを多視点の２Ｄ映像としてキャプチャしたデータであってよい。前述のキャプチャ装置１１と同様に、加速度センサ等がキャプチャ装置１１－Ｐに含まれてもよい。

　ディスプレイ装置１２－Ｐは、仮想空間の映像を表示したり、音を出力したりする。ディスプレイ装置１２－Ｐの表示映像は、演者Ｐの視点で観たときの仮想空間の映像であってもよいし、それとは別の位置から演者Ｐを観たときの仮想空間の映像（演者Ｐの３Ｄモデルを含む映像）であってもよい。これにより、演者Ｐは、視聴者Ａｕの反応を確認したり、演者Ｐ自身をモニタしたりすることができる。

　３Ｄモデル生成装置１３は、キャプチャ装置１１－Ｐによって取得された演者Ｐのキャプチャデータに基づいて、演者Ｐの３Ｄモデルデータを生成する。演者Ｐの３Ｄモデルデータは、第１の３Ｄモデルデータと、第２の３Ｄモデルデータとを含む。第１の３Ｄモデルデータは、第２の３Ｄモデルデータよりも高精度な３Ｄモデルのデータであってよい。第２の３Ｄモデルデータは、第１の３Ｄモデルデータよりもデータ量が小さくてよい。

　第１の３Ｄモデルデータの例は、メッシュデータ、テクスチャデータ、ポイントクラウドデータ等である。３Ｄモデル生成装置１３は、演者Ｐのキャプチャデータに含まれる演者Ｐの画像データ等に基づいて、立体的なメッシュデータ及びテクスチャデータのデータを生成したり、ポイントクラウドデータを生成したりする。

　第２の３Ｄモデルデータの例は、バウンディングボックスデータ（Bounding　box）である。バウンディングボックスデータについて、図２も参照して説明する。

　図２は、バウンディングボックスデータの例を示す図である。バウンディングボックスデータは、演者Ｐの３Ｄモデルを取り囲むように記述されるデータである。この例では、バウンディングボックスデータは、３Ｄモデルを取り囲む直方体の８個の頂点Ｖ１～頂点Ｖ８の位置と、正面方向を示すデータを含み、また、顔の向き或いは視線の方向を表すデータを含む。

　各辺をｘｙｚ軸に平行な直方体に制約すれば、正面方向は９０°単位になるが、辺テーブルは不要である。例えば、最初の面、この例では頂点Ｖ１～頂点Ｖ４で規定される面の法線ベクトルが、正面とされる。視線方向は、６パラメータで表現される。例えば、ｘ、ｙ及びｚの３パラメータが演者Ｐの目の位置を示し、ｙａｗ，ｐｉｔｃｈ及びｒｏｌｌの３パラメータが視線方向を示す。

　第２の３Ｄモデルデータであるバウンディングボックスデータのデータ量は、通常の３Ｄモデルのデータ量と比較してかなり小さくなる。

　図１に戻り、例えば、３Ｄモデル生成装置１３は、生成した３Ｄモデルデータのうちの第１の３Ｄモデルデータをエッジサーバ装置２－Ｐ（のレンダリング装置２２－Ｐ）に送信し、第２の３Ｄモデルデータをセントラルサーバ装置３（の３Ｄシーン生成装置３１）に送信する。このように３Ｄモデルデータのうちの第２の３Ｄモデルデータだけをセントラルサーバ装置３に送信することで、セントラルサーバ装置３へのデータ伝送レートを抑制することができる。

　図１に戻り、３Ｄモデル生成装置１３は、演者Ｐのキャプチャデータのうちの演者Ｐの音、演奏音等のデータに基づいて、リスニングポジションを自由に変えられる音のデータ（オーディオデータ）も生成する。そのようなオーディオデータの例は、オブジェクトオーディオ、３Ｄオーディオ、６ＤｏＦ（６自由度）オーディオ等のデータである。

　リージョナル領域Ｒ２には、クライアント装置１との間で伝送するデータを処理等する装置が配置される。リージョナル領域Ｒ２は、リージョナルデータセンター（ＤＣ）等とも呼べる。

　具体的に、図１に示される例では、リージョナル領域Ｒ２には、エッジサーバ装置２、データベース装置２０－Ｐ、エッジサーバ装置２－Ｐ及びデータベース装置２０－Ｐが配置される。エッジサーバ装置２は、クライアント装置１に対して設けられる。データベース装置２０は、エッジサーバ装置２に対して設けられる。エッジサーバ装置２－Ｐは、クライアント装置１－Ｐに対して設けられる。データベース装置２０－Ｐは、エッジサーバ装置２－Ｐに対して設けられる。

　１つのエッジサーバ装置２は、１又は２以上のクライアント装置１に対応し、従って、エッジサーバ装置２の数は、クライアント装置１の数よりも少なくてよい。図１に示される例では、１つのエッジサーバ装置２が、クライアント装置１－１～クライアント装置１－３に対応する。

　なお、同じエッジサーバ装置２（共通のエッジサーバ装置２）が対応するクライアント装置１のグループ、又はそれらのクライアント装置１を使用する視聴者Ａｕのグループを、「視聴者グループ」（オーディエンスグループ）と称する。図１に示される例では、クライアント装置１－１～クライアント装置１－３又は視聴者Ａｕ－１～視聴者Ａｕ-３が、同じ視聴者グループに属する。

　エッジサーバ装置２及びエッジサーバ装置２－Ｐを含む複数のエッジサーバ装置の各々は、セントラルサーバ装置３と通信するとともに、互いに地理的に離れた位置に分散して配置される。なお、エッジサーバ装置２どうしの通信も可能であってよい。各エッジサーバ装置は、後述のセントラルサーバ装置３の３Ｄシーン生成装置３１が生成した３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する。配信データの一例は、仮想空間の映像及び音のデータ（映像データ、音データ）である。映像データは、レンダリング済みの映像データであってよい。

　エッジサーバ装置２は、モーションデータ生成装置２１と、レンダリング装置２２とを含む。エッジサーバ装置２に対応するデータベース装置２０は、エッジサーバ装置２で用いられるデータを記憶する。データベース装置２０に記憶されるデータとして、視聴者Ａｕの３Ｄモデルデータ、３Ｄシーン記述データ、及びレンダリング済み映像・音データが例示される。

　データベース装置２０中の視聴者Ａｕの３Ｄモデルデータは、例えば予め生成されたり、準備された複数の３Ｄモデルから視聴者Ａｕによって選択されたりした３Ｄモデルのデータである。視聴者Ａｕの３Ｄモデルデータは、例えば後述のデータベース装置３０に記憶されており、ライブ開始前に、その視聴者Ａｕのクライアント装置１に対応するエッジサーバ装置２のデータベース装置２０まで伝送され、記憶（格納）される。この３Ｄモデルデータは、視聴者Ａｕの静的な３Ｄモデルのデータであり、後述のアニメーションデータに基づいて動かされる。視聴者Ａｕの３Ｄモデルデータについて、図３も参照して説明する。

　図３は、視聴者Ａｕの３Ｄモデルデータ（アバターデータ）の例を示す図である。例示される３Ｄモデルデータは、ジオメトリ（Ｍｅｓｈ）データと表面の色を表すテクスチャデータで構成される。データ量としてはテクスチャデータが大半を占めるが、例えば５万ポリゴン、２Ｋ×２Ｋテクスチャの３Ｄモデルのデータサイズは１３．５４Ｍｂｙｔｅｓ程度になる。

　図１に戻り、データベース装置２０中の３Ｄシーン記述データは、先にも述べたような、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述するデータである。３Ｄシーン記述データは、例えば、会場を構築する部品、ユーザ（視聴者Ａｕ、演者Ｐ）の３Ｄモデルの配置等の記述を含むデータである。３Ｄシーン記述データは、３Ｄシーンを構築するための設計図のようなデータともいえる。

　データベース装置２０中のレンダリング済み映像・音データは、後述のレンダリング装置２２、レンダリング装置２２－Ｐによるレンダリングが行われた後の視聴者Ａｕの３Ｄモデル、演者Ｐの３Ｄモデル等を含む仮想空間の映像のデータ、また、視聴者Ａｕの音声、演者Ｐの音声、演奏音等を含む仮想空間の音のデータである。このようなデータをデータベース装置２０に記録しておくことで、例えば音楽ライブが終了した後でも、視聴者Ａｕは、音楽ライブの映像を観ることができる。データベース装置２０に記憶されるレンダリング済み映像・音データは、視聴者Ａｕの視点で観たときの映像のデータ及び視聴者Ａｕの位置で聞こえる音のデータであってよい。

　モーションデータ生成装置２１は、対応する視聴者Ａｕのキャプチャデータに基づいて、その視聴者Ａｕの３Ｄモデルのアニメーションデータ（モーションションデータとも呼べる）を生成する。アニメーションデータは、３Ｄモデルの関節の動き等を示すデータであり、静的（static）な３Ｄモデルデータを動的（dynamic）に動かすためにデータである。アニメーションデータについて、図４も参照して説明する。

　図４は、アニメーションデータの例を示す図である。３Ｄモデルの動きを１００個の関節の位置・方向で表現したときのアニメーションデータのデータレートは、フレームレート＝３０ｆｐｓの場合、１０８ｋｂｐｓになる。顔の表情も、関節の動きで表される。動きのある３Ｄモデルのデータそのものと比較して、データ量はかなり小さくなる。

　図１に戻り、アニメーションデータには、当該データの反映先を特定するデータ、例えば視聴者Ａｕの３ＤモデルのＵＵＩＤ（Universally　Unique　Identifier）等が付与され得る。ＵＵＩＤは、３Ｄシーン記述データでも用いられてよい。後述のレンダリング装置２２では、例えばＵＵＩＤをキーとして、３Ｄシーン記述データが指定する視聴者Ａｕの３Ｄモデルの位置が特定される。

　モーションデータ生成装置２１は、視聴者Ａｕの視野、視線等を示すデータ（視野・視線データ）も生成してよい。これにより、例えば後述のレンダリング装置２２において、視聴者Ａｕの視点で観たときの仮想空間の映像を生成することができる。とくに説明がある場合を除き、視線・視野データは、アニメーションデータに含まれるものとする。

　モーションデータ生成装置２１は、視聴者Ａｕの３Ｄモデルの音声データも生成する。音声データは、アニメーションデータに含まれてもよいし、アニメーションデータとは別のデータであってもよい。とくに説明がある場合を除き、音声データも、アニメーションデータに含まれるものとする。

　モーションデータ生成装置２１は、生成したアニメーションデータを、セントラルサーバ装置３に送信する。伝送されるのは、３Ｄモデルの動きを表すアニメーションデータであり、データ量が多くなる動的な３Ｄモデルデータ列（例えば１秒間に３０回更新されることで動きを表現する３Ｄモデルデータ）そのものは伝送されない。その分、データ伝送量が低減される。

　レンダリング装置２２は、３Ｄシーン記述データと、視聴者Ａｕの３Ｄモデルデータ及び演者Ｐの３Ｄモデルデータとに基づいて、仮想空間のレンダリング済みの映像データを生成する。ここで用いられる３Ｄモデルデータは、先に説明したように、メッシュデータ、テクスチャデータ、ポイントクラウドデータ等の第１の３Ｄモデルデータであってよい。映像データは、ライブ中に配信データとして生成され、対応するクライアント装置１に送信（視聴者Ａｕに配信）される。

　具体的に、レンダリング装置２２は、３Ｄシーン記述データに基づいて、視聴者Ａｕの視点で観たときの仮想空間の映像データをレンダリングによって生成する。生成された映像データは、対応する視聴者Ａｕのクライアント装置１のディスプレイ装置１２に伝送され、そこで映像が表示される。なお、音データも例えばレンダリング装置２２によって生成され、ディスプレイ装置１２まで伝送され、そこで音が出力される。

　エッジサーバ装置２－Ｐは、レンダリング装置２２－Ｐを含む。エッジサーバ装置２－Ｐに対応するデータベース装置２０－Ｐは、エッジサーバ装置２－Ｐで用いられるデータを記憶する。データベース装置２０－Ｐに記憶されるデータとして、演者Ｐの３Ｄモデルデータ、３Ｄシーン記述データ、及びレンダリング済み映像・音データが例示される。

　データベース装置２０－Ｐ中の演者Ｐの３Ｄモデルデータは、演者Ｐの３Ｄモデルのデータであり、先に説明したように３Ｄモデル生成装置１３によって生成される。３Ｄシーン記述データは先に説明したとおりである。

　データベース装置２０－Ｐ中のレンダリング済み映像・音データは、レンダリング装置２２、レンダリング装置２２－Ｐによるレンダリングが行われた後の視聴者Ａｕの３Ｄモデル、演者Ｐの３Ｄモデル等を含む仮想空間の映像のデータ、また、視聴者Ａｕの音声、演者Ｐの音声、演奏音等を含む仮想空間の音のデータである。このようなデータをデータベース装置２０ーＰに記録しておくことで、例えば音楽ライブが終了した後でも、演者Ｐは、音楽ライブの映像を観ることができる。データベース装置２０－Ｐに記憶されるレンダリング済み映像・音データは、演者Ｐが所望する任意の視点及び位置、例えば演者Ｐの視点及び位置又はそれとは別の視点及び位置から演者Ｐを観たときの映像のデータ及びその位置で聞こえる音のデータであってよい。

　レンダリング装置２２－Ｐは、３Ｄシーン記述データと、視聴者Ａｕの３Ｄモデルデータ及び演者Ｐの３Ｄモデルデータとに基づいて、仮想空間のレンダリング済みの映像データを生成する。ここで用いられる３Ｄモデルデータも、先に説明した第１の３Ｄモデルデータであってよい。映像データは、ライブ中に配信データとして生成され、クライアント装置１－Ｐに送信（演者Ｐに配信）される。

　具体的に、レンダリング装置２２－Ｐは、３Ｄシーン記述データに基づいて、演者Ｐが所望する任意の視点で観たときの仮想空間の映像データをレンダリングによって生成する。生成された映像データは、クライアント装置１－Ｐに伝送され、そこで映像が表示される。なお、音データも、例えばレンダリング装置２２－Ｐによって生成され、ディスプレイ装置１２まで伝送され、そこで音が出力される。

　セントラル領域Ｒ３には、リージョナル領域Ｒ２、さらにはオンプレミス領域Ｒ１との間で伝送するデータを処理等する装置が配置される。セントラル領域Ｒ３は、セントラルデータセンター（ＤＣ）等とも呼べる。

　具体的に、図１に示される例では、セントラル領域Ｒ３には、セントラルサーバ装置３及びデータベース装置３０が配置される。セントラルサーバ装置３は、エッジサーバ装置２に対して設けられる。

　セントラルサーバ装置３は、１つの（単一の）セントラルサーバ装置３であってもよいし、複数のセントラルサーバ装置３であってよい。１つのセントラルサーバ装置３は、１又は２以上のエッジサーバ装置２に対応し、従って、セントラルサーバ装置３の数は、エッジサーバ装置２の数よりも少なくてよい。図１に示される例では、セントラルサーバ装置３は、１つのセントラルサーバ装置３である。

　セントラルサーバ装置３は、３Ｄシーン生成装置３１を含む。セントラルサーバ装置３に対応するデータベース装置３０は、セントラルサーバ装置３で用いられるデータを記憶する。データベース装置３０に記憶されるデータとして、部品データ、視聴者Ａｕの３Ｄモデルデータ、及び３Ｄシーン記述データが例示される。

　データベース装置３０中の部品データは、ライブ会場を含む仮想空間を構成する部品のデータである。部品の例は、ステージ、観客席、照明等である。

　データベース装置３０中の視聴者Ａｕの３Ｄモデルデータ及び３Ｄシーン記述データについては、これまで説明したとおりである。

　３Ｄシーン生成装置３１は、３Ｄシーン記述データを生成するために、３Ｄシーン生成装置３１は、ライブ会場を含む仮想空間を構築する。例えば、データベース装置３０内の部品データ、エッジサーバ装置２のモーションデータ生成装置２１からのアニメーションデータ、クライアント装置１－Ｐの３Ｄモデル生成装置１３からの演者Ｐの３Ｄモデルデータ等に基づいて、リアルタイムに変化する仮想空間が構築される。ここで用いられる３Ｄモデルデータは、先に説明したように、第２の３Ｄモデルデータ（バウンディングボックスデータ）であってよい。

　例えば、部品データに基づいて、仮想空間内に各種の部品が配置され、それによって、仮想空間における映像効果（視覚的なエフェクト）等が提供される。また、演者Ｐの３Ｄモデル及び視聴者Ａｕの３Ｄモデルが、仮想空間内のライブ会場に配置される。アニメーションデータ、第２の３Ｄもモデルデータ（バウンディングボックスデータ）等に基づいて、それらの位置、動き等がリアルタイムに変化する。そのシーンを記述するデータが、３Ｄシーン記述データとして生成される。

　先にも述べたように、データ配信システム１００を構成するは、互いに通信可能に構成される。図１に模式的に示されるように、通信は、ネットワークＮを介して行われる。ネットワークＮで接続された装置どうしの接続及びデータ伝送について、図５も参照して説明する。

　図５は、装置どうしの接続及びデータ伝送の例を示す図である。これまで説明した装置間のいくつかのデータ伝送が、矢印ＡＲ１～矢印ＡＲ１４で示される。

　矢印ＡＲ１は、キャプチャ装置１１からモーションデータ生成装置２１へのデータ伝送を示す。例えば、キャプチャ装置１１で取得された視聴者Ａｕのキャプチャデータが伝送される。

　矢印ＡＲ２は、モーションデータ生成装置２１から３Ｄシーン生成装置３１へのデータ伝送を示す。例えば、視聴者Ａｕの３Ｄモデルのアニメーションデータ、音声データが伝送される。

　矢印ＡＲ３は、モーションデータ生成装置２１とレンダリング装置２２との間のデータ伝送を示す。例えば、視聴者Ａｕの３Ｄモデルのアニメーションデータが伝送される。

　矢印ＡＲ４は、３Ｄシーン生成装置３１からレンダリング装置２２ーＰへのデータ伝送を示す。例えば、３Ｄシーン記述データが伝送される。

　矢印ＡＲ５は、３Ｄシーン生成装置３１からレンダリング装置２２へのデータ伝送を示す。例えば、３Ｄシーン記述データが伝送される。

　矢印ＡＲ６は、３Ｄシーン生成装置３１とデータベース装置３０との間のデータ伝送を示す。例えば、部品データ、視聴者Ａｕの３Ｄモデルデータ、３Ｄシーン記述データが伝送される。

　矢印ＡＲ７は、レンダリング装置２２とデータベース装置２０との間のデータ伝送を示す。例えば、視聴者Ａｕの３Ｄモデルデータ、３Ｄシーン記述データ、レンダリング済み映像・音データが伝送される。

　矢印ＡＲ８は、レンダリング装置２２からディスプレイ装置１２へのデータ伝送を示す。例えば、レンダリング済み映像・音データが伝送される。

　矢印ＡＲ９は、キャプチャ装置１１－Ｐから３Ｄモデル生成装置１３へのデータ伝送を示す。例えば、演者Ｐのキャプチャデータが伝送される。

　矢印ＡＲ１０は、３Ｄモデル生成装置１３からレンダリング装置２２へのデータ伝送を示す。例えば、演者Ｐの３Ｄモデルのデータのうちの第１の３Ｄモデルデータ（ポイントクラウドデータ、メッシュ・テクスチャデー等）が伝送される。

　矢印ＡＲ１１は、３Ｄモデル生成装置１３から３Ｄシーン生成装置３１へのデータ伝送を示す。例えば、演者Ｐの３Ｄモデルのデータのうちの第２の３Ｄモデルデータ（バウンディングボックスデータ）、音声データ等が伝送される。

　矢印ＡＲ１２は、３Ｄモデル生成装置１３からレンダリング装置２２－Ｐへのデータ送信を示す。例えば、演者Ｐの３Ｄモデルのデータのうち、第１の３Ｄモデルデータ（ポイントクラウドデータ、メッシュ・テクスチャデータ等）が伝送される。

　矢印ＡＲ１３は、レンダリング装置２２－Ｐと、データベース装置２０－Ｐとの間のデータ伝送を示す。例えば、演者Ｐの３Ｄモデルデータ、３Ｄシーン記述データ、レンダリング済み映像・音データが伝送される。

　矢印ＡＲ１４は、レンダリング装置２２－Ｐからディスプレイ装置１２－Ｐへのデータ伝送を示す。例えば、レンダリング済み映像・音データが伝送される。

　例えば上記のようなデータ伝送を行うことで、データ配信システム１００を構成する各装置（構成要素）を、ネットワークＮ上に分散配置して用いることができる。各装置は、ネットワークＮ上で利用可能なネットワークリソースとも呼べる。

　上記のように各装置を接続し、また、データ伝送を行うことで、データ処理負荷を分散するとともに、データ伝送も分散することができる。これにより、冒頭で述べたような遅延を低減することができる。一実施形態において、ネットワークＮは、全光ネットワークであってよく、ネットワークＮを用いた装置間の通信は全光通信であってよい。遅延低減効果がさらに高められる。結果として、多くのユーザへのデータ配信、この例では大規模な自由視点リアルタイム音楽ライブ配信を提供することができる。図６も参照して説明する。

　図６は、ネットワークリソースの分担の例を示す図である。基本となるネットワーク構成はサーバ・クライアントモデルであり、例示されるネットワーク構成は、階層構造を有する。セントラル領域Ｒ３に配置された１つのセントラルサーバ装置３に、リージョナル領域Ｒ２に配置された複数のエッジサーバ装置２が接続される。また、各エッジサーバ装置２に、オンプレミス領域Ｒ１に配置された１又は複数のクライアント装置１が接続される。

　図６には、装置間の物理的な距離の例も示される。この例では、クライアント装置１とエッジサーバ装置２との間の距離は、数百ｍ～数十ｋｍである。エッジサーバ装置２とセントラルサーバ装置３との間の距離は、数十ｋｍ～数百ｋｍである。

　先にも述べたように、セントラルサーバ装置３は、１つのセントラルサーバ装置３であってもよいし、複数のセントラルサーバ装置３であってもよい。１つのセントラルサーバ装置３だけでカバーする配信対象地域が広くなるにつれて、ネットワークＮ上の遅延が顕在化し得る。この問題は、例えば、互いにネットワークＮを介して通信可能な複数のセントラルサーバ装置３を用いることで対処できる。１つのセントラルサーバ装置３がカバーする配信対象地域が広くなりすぎるのを防ぐことができるからである。これにより、例えば遅延に起因するユーザ体験の低下を抑制することができる。図７も参照して説明する。

　図７は、セントラルサーバ装置３の配置の例を示す図である。データ配信システム１００がデータ配信可能な範囲が、セントラルサーバ装置３を内側に含むサークルで模式的に示される。図７の（Ａ）に示される例では、１つのセントラルサーバ装置３だけで、すべての配信対象地域がカバーされる。これに対し、図７の（Ｂ）に示される例では、１つのセントラルサーバ装置３だけですべての配信対象地域をカバーすることができず、従って、異なる位置に配置され互いに通信可能な２つのセントラルサーバ装置３を用いて、すべての配信対象地域がカバーされる。

　なお、複数のセントラルサーバ装置３を用いる場合には、セントラルサーバ装置３間の通信オーバーヘッド、サーバ利用コスト等が必要にはなる。１つのセントラルサーバ装置３だけを用いる場合には、その必要性は無い。

　図６に戻り、セントラルサーバ装置３とクライアント装置１との間に、エッジサーバ装置２が介在する。エッジサーバ装置２は、セントラルサーバ装置３がカバーする配信対象の地域をさらに分割し、細分化した地域ごとに１つのエッジサーバ装置２が担当するように配置される。

　エッジサーバ装置２の地理的位置のいくつかの決定手法（設計手法）について述べる。例えば、エッジサーバ装置２どうしの間の距離がほぼ等距離になるように、エッジサーバ装置２を配置してよい。設計が容易であるといったメリットがある。クライアント装置１の密度に応じてエッジサーバ装置２の配置を変えてもよい。エッジサーバ装置２の負荷を平準化させることができる。図８も参照して説明する。

　図８は、エッジサーバ装置２の地理的配置の例を示す図である。エッジサーバ装置２は、クライアント装置１の密度に応じて配置される。例えば、各エッジサーバ装置２が対応するクライアント装置１の数が同じか又は近づくように、各エッジサーバ装置２が配置される。

　図６に戻り、エッジサーバ装置２どうしは、セントラルサーバ装置３を介して通信してもよいし、セントラルサーバ装置３を介さずに直接通信してもよい。例えば、互いに近くに配置されたエッジサーバ装置２どうしは、直接通信してよい。互いに離れて配置されたエッジサーバ装置２どうしは、セントラルサーバ装置３を介して通信してよい。

　クライアント装置１は、基本的には物理的に最も近い距離に位置するエッジサーバ装置２との間でデータ伝送する。これにより、クライアント装置１とエッジサーバ装置２との間のデータ伝送に起因する遅延が最小化される。

　図６に示されるようなネットワークリソースに、データ配信システム１００の構成要素が対応付けられる（マッピングされる）。図９も参照して説明する。

　図９は、マッピングの例を示す図である。データ配信システム１００の構成要素、構成要素の数、及びネットワークリソースへの対応付けの関係が表で示される。

　データ配信システム１００の構成要素として、これまで説明したキャプチャ装置１１、キャプチャ装置１１－P、ディスプレイ装置１２、ディスプレイ装置１２－P、モーションデータ生成装置２１、レンダリング装置２２、データベース装置２０、３Ｄモデル生成装置１３、３Ｄシーン生成装置３１、データベース装置３０、レンダリング装置２２－Ｐ及びデータベース装置２０－Ｐ示される。

　キャプチャ装置１１及びキャプチャ装置１１－Ｐの数は、視聴者Ａｕの数及び演者Ｐの数と同じである。これらの構成要素は、クライアント装置１及びクライアント装置１－Ｐに配置され、ネットワークリソースに対応付けられる。

　モーションデータ生成装置２１、レンダリング装置２２及びデータベース装置２０の数は、視聴者グループの数と同じであり、これらの構成要素は、エッジサーバ装置２とその付近に配置され、ネットワークリソースに対応付けられる。

　３Ｄモデル生成装置１３の数は、演者Ｐの数と同じであり、この構成要素は、クライアント装置１－Ｐに配置され、ネットワークリソースに対応付けられる。

　３Ｄシーン生成装置３１及びデータベース装置３０の数は、１又は複数であり、これらの構成要素は、セントラルサーバ装置３とその付近に配置され、ネットワークリソースに対応付けられる。

　レンダリング装置２２－Ｐ及びデータベース装置２０－Ｐの数は、演者Ｐの数と同じであり、これらの構成要素は、エッジサーバ装置２－Ｐとその付近に配置され、ネットワークリソースに対応付けられる。

　視聴者グループについて改めて述べる。視聴者グループは、同じエッジサーバ装置２が対応する一群のクライアント装置１又はそれらを使用する一群の視聴者Ａｕを指し示す。同じ視聴者グループに属するクライアント装置１又は視聴者Ａｕは、例えば、同じエッジサーバ装置２から物理的に近くに位置している。図１０及び図１１も参照して説明する。

　図１０及び図１１は、視聴者グループの例を示す図である。複数の視聴者グループそれぞれが、サークルで模式的に示される。同じ視聴者グループに属するクライアント装置１又は視聴者Ａｕの地理的規模は、例えば、エッジサーバ装置２を中心として、数ｋｍ～百ｋｍ程度であってよい。日本の場合で述べると、あくまで一例に過ぎないが、都道府県ごとに、エッジサーバ装置２が配置され、対応する視聴者グループが存在してよい。

　或る視聴者グループに属する一群のクライアント装置１は、物理的に近い距離に位置しているため、それらを使用する視聴者Ａｕどうしの会話や体の動き等によって、同じ仮想空間内でインタラクションが行われた場合に、応答遅延が小さくなるという特徴がある。このような特徴を生かす観点から、一実施形態において、原則として１つの視聴者グループに対して１つのライブ会場を提供するように、仮想空間が構築されてよい。セントラルサーバ装置３の３Ｄシーン生成装置３１は、各ライブ会場の３Ｄシーンを生成してよい。

　ネットワークＮが全光ネットワークであれば、遅延の変動が無く、視聴者グループの地理的規模から最大遅延時間を見積もることができるため、同じライブ会場に集まる視聴者Ａｕの３Ｄモデルどうしの自然なインタラクションを保証することができる。人間が応答遅延を知覚できる最小時間を例えば５０ｍｓ（ミリ秒）とすると、最大遅延時間が５０ｍｓに収まるように視聴者グループの範囲を決めれば、その視聴者グループに属する視聴者Ａｕの３Ｄモデルに対し、遅延を知覚しない自然なインタラクションを提供できることになる。このような考え方で音楽ライブの配信地域を視聴者グループに分割すれば、すべての視聴者Ａｕの３Ｄモデルに対して、自然なインタラクションを提供することも可能である。

　ところで、互いに異なる視聴者グループに属する視聴者Ａｕの３Ｄモデルどうしでは、同じ視聴者グループに属する視聴者Ａｕの３Ｄモデルどうしほどの自然なインタラクションの提供の保証は難しくなる可能性がある。その場合、例えば仮想空間内の音楽ライブ会場に巨大な映像パネルを設置する等して、そこに他の視聴者グループの音楽会場の様子を表示し、それぞれの音楽会場にいる視聴者Ａｕの３Ｄモデルどうしのインタラクションを実現してもよい。図１２を参照して説明する。

　図１２は、異なる視聴者グループに属する視聴者Ａｕの３Ｄモデルどうしのインタラクションの例を示す図である。例えば図１２に示されるような仮想空間の映像が、或る視聴者グループに属する視聴者Ａｕが使用するクライアント装置１のディスプレイ装置１２によって表示される。画面の両側には、それぞれ、別の視聴者グループのライブ会場の映像が表示される。なお、視聴者グループどうしの間の物理的な距離が近いほど、それらの視聴者グループに属する視聴者Ａｕの３Ｄモデルどうしのインタラクションにおける遅延は小さくなる。

　図１３～図２２は、データ配信システム１００の動作（データ配信方法、データ処理方法）の例を示す図である。配信前から配信中（ライブ開始前からライブ中）のデータ配信システム１００の動作を、いくつかの段階に分けて説明する。

＜配信前＞
＜配信準備＞
　図１３及び図１４に、配信準備段階でのデータ配信システム１００の動作の例を示す図である。図１３には、データ配信システム１００において実行されるいくつかの処理が示される。図１４には、データ配信システム１００におけるいくつかのデータ伝送が太矢印で示される。

　ステップＳ１において、視聴者Ａｕの３Ｄモデルデータが生成され、又は、３Ｄモデルが選択される。視聴者Ａｕの３Ｄモデルデータの生成は、例えばその視聴者Ａｕのクライアント装置１のキャプチャ装置１１によって取得された視聴者Ａｕのキャプチャデータに基づいて行われる。生成はエッジサーバ装置２で行われてもよいしセントラルサーバ装置３で行われてもよい。３Ｄモデルの選択は、先にも述べたように、予め準備されたいくつかの３Ｄモデルから視聴者Ａｕが自身の３Ｄモデルを選択することによって行われる。選択は、例えば、先に述べたコントローラ（キャプチャ装置１１の一例）、ディスプレイ装置１２等を用いて行われてよい。

　ステップＳ２において、視聴者Ａｕの３Ｄモデルデータがアップロードされ、又は、３Ｄモデルの選択が決定される。先のステップＳ１で視聴者Ａｕの３Ｄモデルが生成された場合は、そのデータが、データベース装置３０及びデータベース装置２０まで伝送される。なお、視聴者Ａｕの３Ｄモデルデータは、その視聴者Ａｕのクライアント装置１に対応するエッジサーバ装置２に対応するデータベース装置２０に伝送される。先のステップＳ１で３Ｄモデルが選択された場合は、選択された３Ｄモデルのデータが、その視聴者Ａｕの３Ｄモデルのデータとして決定される。決定された視聴者Ａｕの３Ｄモデルデータは、データベース装置３０及びデータベース装置２０まで伝送される。なお、すでに視聴者Ａｕの３Ｄモデルデータがデータベース装置３０又はデータベース装置２０に記憶されている場合には、そこへのデータ伝送は不要である。

　ステップＳ３において、視聴者Ａｕの３Ｄモデルデータがデータベース装置３０及びデータベース装置２０に記憶される。先のステップＳ２で伝送された３Ｄモデルデータを、伝送先のデータベース装置が記憶する。

　例えば以上のようにして、配信準備の段階で、視聴者Ａｕの３Ｄモデルデータが、データベース装置３０及びデータベース装置２０まで伝送され、記憶される。視聴者Ａｕの３Ｄモデルはデータ量が多いので、配信前にデータベース装置３０及びデータベース装置２０に伝送することで、伝送速度等の制約を受けることなく（非リアルタイムで）データ伝送できるメリットがある。

＜配信直前準備＞
　図１５及び図１６は、配信直前準備段階でのデータ配信システム１００の動作の例を示す図である。図１５には、データ配信システム１００において実行されるいくつかの処理が示される。図１６には、データ配信システム１００におけるいくつかのデータ伝送が太矢印で示される。

　ステップＳ１１において、視聴者Ａｕの３Ｄモデルデータが、モーションデータ生成装置２１にロードされる。例えば、図１６の（Ａ）に示されるように、データベース装置２０内の視聴者Ａｕの３Ｄモデルデータが、モーションデータ生成装置２１まで伝送される。或いは、図１６の（Ｂ）に示されるように、データベース装置３０内の視聴者Ａｕの３Ｄモデルデータが、モーションデータ生成装置２１まで伝送される。

　例えば以上のようにして、配信直前の準備の段階で、視聴者Ａｕの３Ｄモデルデータが、モーションデータ生成装置２１まで伝送され、モーションデータ生成装置２１においてすぐに利用可能な状態になる。その後、配信が開始する。

＜配信中＞
　図１７～図２２は、配信中のデータ配信システム１００の動作の例を示す図である。

＜キャプチャ＞
　図１７及び図１８は、視聴者Ａｕ及び演者Ｐの情報の取得（キャプチャ）に関するデータ配信システム１００の動作の例を示す図である。図１７には、データ配信システム１００において実行されるいくつかの処理が示される。図１８には、データ配信システム１００におけるいくつかのデータ伝送が太矢印で示される。

　ステップＳ２１において、視聴者Ａｕのキャプチャデータがモーションデータ生成装置２１に伝送される。キャプチャ装置１１は、視聴者Ａｕのキャプチャデータを取得し、モーションデータ生成装置２１に送信する。モーションデータ生成装置２１は、キャプチャ装置１１からのキャプチャデータを受信する。

　ステップＳ２２において、視聴者Ａｕの３Ｄモデルのアニメーションデータが生成される。モーションデータ生成装置２１は、先のステップＳ１で受信した視聴者Ａｕのキャプチャデータと、データベース装置２０からロードした視聴者Ａｕの３Ｄモデルデータとに基づいて、視聴者Ａｕの３Ｄモデルのアニメーションデータを生成する。

　ステップＳ２３において、アニメーションデータが３Ｄシーン生成装置３１に伝送される。モーションデータ生成装置２１は、先のステップＳ２２で生成したアニメーションデータを、３Ｄシーン生成装置３１に送信する。３Ｄシーン生成装置３１は、モーションデータ生成装置２１からのアニメーションデータを受信する。

　ステップＳ２４において、演者Ｐのキャプチャデータが３Ｄモデル生成装置１３に伝送される。キャプチャ装置１１－Ｐは、演者Ｐのキャプチャデータを取得し、３Ｄモデル生成装置１３に送信する。３Ｄモデル生成装置１３は、キャプチャ装置１１－Ｐからのキャプチャデータを受信する。

　ステップＳ２５において、演者Ｐの第２の３Ｄモデルデータ、例えばバウンディングボックスデータが生成される。３Ｄモデル生成装置１３は、先のステップＳ２４で受信した演者Ｐのキャプチャデータに基づいて、演者Ｐの第２の３Ｄモデルデータを生成する。

　ステップＳ２６において、第２の３Ｄモデルデータが３Ｄシーン生成装置３１に伝送される。３Ｄモデル生成装置１３は、先のステップＳ２５で生成した演者Ｐの第２の３Ｄモデルデータを、３Ｄシーン生成装置３１に送信する。３Ｄシーン生成装置３１は、３Ｄモデル生成装置１３からの第２の３Ｄモデルデータを受信する。

　例えば上記のようにして、配信中の視聴者Ａｕ及び演者Ｐのキャプチャデータが取得され、アニメーションデータ及び第２の３Ｄモデルデータが３Ｄシーン生成装置３１まで伝送される。

　なお、上記のステップＳ２１～ステップＳ２３の処理と、ステップＳ２４～ステップＳ２６の処理とは、逆の順序で実行されてもよいし、並列に実行されてもよい。

＜配信データの生成＞
＜視聴者Ａｕへの配信データの生成＞
　図１９及び図２０は、視聴者Ａｕへの配信映像の生成に関するデータ配信システム１００の動作の例を示す。図１９には、データ配信システム１００において実行されるいくつかの処理が示される。図２０には、データ配信システム１００におけるいくつかのデータ伝送が太矢印で示される。

　ステップＳ３１において、３Ｄシーン記述データが生成され、レンダリング装置２２に伝送される。３Ｄシーン生成装置３１は、視聴者Ａｕの３Ｄモデルのアニメーションデータと、演者Ｐの第２の３Ｄモデルデータ（バウンディングボックスデータ）とに基づいて、３Ｄシーンを構築する。例えば、３Ｄシーン生成装置３１は、データベース装置３０内の部品データに基づいてライブ会場を含む仮想空間を構築し、データベース装置３０内の視聴者Ａｕの３Ｄモデルデータに基づいて、視聴者Ａｕの３Ｄモデルを仮想空間内に配置する。また、３Ｄシーン生成装置３１は、演者Ｐの第２の３Ｄモデルデータに基づいて、演者Ｐの仮想空間内の位置を決定する（例えばステージ上に配置する）。３Ｄシーン生成装置３１は、このようにして得られた３Ｄシーンを記述するデータを、３Ｄシーン記述データとして生成し、レンダリング装置２２に送信する。レンダリング装置２２は、３Ｄシーン生成装置３１からの３Ｄシーン記述データを受信する。

　ステップＳ３２において、視聴者Ａｕの最新のアニメーションデータがレンダリング装置２２に伝送される。最新のアニメーションデータは、視聴者Ａｕの最新のキャプチャデータを反映する（視聴者Ａｕの動作をリアルタイムに反映する）データともいえる。モーションデータ生成装置２１は、例えば、視聴者Ａｕの最新のアニメーションデータ（視野・視線データも含む）を生成し、レンダリング装置２２に送信する。レンダリング装置２２は、モーションデータ生成装置２１からの視聴者Ａｕの最新のアニメーションデータを受信する。

　ステップＳ３３において、演者Ｐの最新の第１の３Ｄモデルデータ（ポイントクラウドデータ等）がレンダリング装置２２に伝送される。最新の第１の３Ｄモデルデータは、演者Ｐの最新のキャプチャデータを反映する（演者Ｐの動作をリアルタイムに反映する）データともいえる。３Ｄモデル生成装置１３は、演者Ｐの最新の第１の３Ｄモデルデータを生成し、レンダリング装置２２に送信する。レンダリング装置２２は、３Ｄモデル生成装置１３からの演者Ｐの最新の第１の３Ｄモデルデータを受信する。

　ステップＳ３４において、レンダリング済み映像・音データが生成される。レンダリング装置２２は、３Ｄシーン記述データ、視聴者Ａｕの３Ｄモデルデータ、アニメーションデータ、演者Ｐの第１の３Ｄモデルデータ及びキャプチャデータ等に基づいて、レンダリング済み映像・音データを生成する。このデータは、視聴者Ａｕへの配信データである。

　ステップＳ３５において、レンダリング済み映像・音データがディスプレイ装置１２に伝送される。レンダリング装置２２は、先のステップＳ３４で生成したレンダリング済み映像・音データを、ディスプレイ装置１２に送信する。ディスプレイ装置１２は、レンダリング装置２２からのレンダリング済み映像・音データを受信し、出力（映像表示及び音出力）する。

　ステップＳ３６において、レンダリング済み映像・音データがデータベース装置２０に伝送される。レンダリング装置２２は、先のステップＳ３４で生成したレンダリング済み映像・音データをデータベース装置２０に送信する。データベース装置２０は、レンダリング装置２２からのレンダリング済み映像・音データを受信し、記憶する。

　例えば上記のようにして、映像・音データを含む配信データが視聴者Ａｕに配信される。

＜演者Ｐへの配信データの生成＞
　図２１及び図２２は、演者Ｐへの配信映像の生成に関するデータ配信システム１００の動作の例を示す。図２１には、データ配信システム１００において実行されるいくつかの処理が示される。図２２には、データ配信システム１００におけるいくつかのデータ伝送が太矢印で示される。

　ステップＳ４１において、３Ｄシーン記述データが生成され、レンダリング装置２２－Ｐに伝送される。３Ｄシーン生成装置３１は、これまで説明したように３Ｄシーン記述データを生成し、レンダリング装置２２－Ｐに送信する。レンダリング装置２２－Ｐは、３Ｄシーン生成装置３１からの３Ｄシーン記述データを受信する。

　ステップＳ４２において、演者Ｐの最新の第２の３Ｄモデルデータ（バウンディングボックスデータ）がレンダリング装置２２－Ｐに伝送される。最新の第２の３Ｄモデルデータは、演者Ｐの最新のキャプチャデータを反映する（演者Ｐの動作をリアルタイムに反映する）データともいえる。３Ｄモデル生成装置１３は、演者Ｐの最新の第２の３Ｄモデルデータを生成し、レンダリング装置２２ーＰに送信する。レンダリング装置２２ーＰは、３Ｄモデル生成装置１３からの演者Ｐの最新の第２の３Ｄモデルデータを受信する。

　ステップＳ４３において、レンダリング済み映像・音データが生成される。レンダリング装置２２－Ｐは、例えば、視聴者Ａｕの３Ｄモデルデータ、アニメーションデータ、演者Ｐの第２の３Ｄモデルデータ等に基づいて、レンダリング済み映像・音データを生成する。このデータは、演者Ｐへの配信データである。

　ステップＳ４４において、レンダリング済み映像・音データがディスプレイ装置１２－Ｐに伝送される。レンダリング装置２２－Ｐは、先のステップＳ４３で生成したレンダリング済み映像・音データを、ディスプレイ装置１２－Ｐに送信する。ディスプレイ装置１２－Ｐは、レンダリング装置２２－Ｐからのレンダリング済み映像・音データを受信し、出力（映像表示及び音出力）する。

　ステップＳ４５において、レンダリング済み映像・音データがデータベース装置２０－Ｐに伝送される。レンダリング装置２２－Ｐは、先のステップＳ４３で生成したレンダリング済み映像・音データを、データベース装置２０－Ｐに送信する。データベース装置２０－Ｐは、レンダリング装置２２－Ｐからのレンダリング済み映像・音データを受信し、記憶する。

　例えば上記のようにして、映像・音データを含む配信データが演者Ｐに配信される。

　以上で説明したデータ配信システム１００によれば、分散配置された複数のエッジサーバ装置２、２－Ｐの各々が対応する視聴者Ａｕ、演者Ｐへの配信データを生成するので、処理負荷が分散される。また、例えば、クライアント装置１－Ｐからセントラルサーバ装置３へは、演者Ｐの３Ｄモデルデータのうちの第２の３Ｄモデルデータ（バウンディングボックスデータ）が伝送される。エッジサーバ装置２からセントラルサーバ装置３へは、視聴者Ａｕの３Ｄモデルのアニメーションデータが伝送される。セントラルサーバ装置３からエッジサーバ装置２及びエッジサーバ装置２－Ｐへは、３Ｄシーン記述データが伝送される。このような形式のデータを伝送することで、セントラルサーバ装置３におけるデータ伝送量を減らすことができる。従って、処理負荷の集中やデータ伝送量の増加に起因して生じうる遅延、例えばｍｏｔｉｏｎ－ｔｏ－ｐｈｏｔｏｎ　ｌａｔｅｎｃｙ、仮想空間におけるユーザの３Ｄモデルどうしのインタラクションの遅延等を抑制することができる。比較例及び検討例も用いて説明する。

＜比較例＞
　図２３及び図２４は、比較例を示す図である。図２４に示される比較例１は、典型的なサーバ・クライアント構成である。３Ｄシーン生成装置・レンダリング装置が、サーバに相当する。この比較例１の構成では、入力データ及び出力データがサーバに集中するという問題がある。サーバにおいて、ユーザ（視聴者Ａｕ及び演者Ｐ）の３Ｄモデルデータ（例えば先に述べた第１の３Ｄモデルデータに相当）が入力され、また、ユーザごとに異なるレンダリング映像が生成され、対応するユーザに配信される。例えばユーザ一人当たりの入力データレートが１００Ｍｂｐｓの場合、ユーザが１００万人になると、合計の入力データレートは１００Ｔ（テラ）ｂｐｓにもなる。

　図２４に示される比較例２では、比較例１よりは、データ及び処理負荷の集中が緩和される。比較例２では、ユーザ（視聴者Ａｕ及び演者Ｐ）の３Ｄモデルデータを受信する３Ｄシーン生成装置と、ユーザに配信する映像を生成するレンダリング装置とが分離されている。レンダリング済みの映像がレンダリング装置から出力されるので、ユーザからの入力データと、それらへの出力データとが一つの装置に集中することは無い。しかしながら、３Ｄシーン生成装置に全ユーザの３Ｄモデルデータが集中する点は変わらず、課題が残る（課題（ａ））。また、３Ｄシーン生成装置からレンダリング装置へは、３Ｄシーンを構成するすべてのデータが伝送されるので、３Ｄシーン生成装置とレンダリング装置との間のデータ伝送レートが非常に高いという課題も残る（課題（ｂ））。

＜検討例＞
　図２５は、検討例を示す図である。上述の課題（ａ）、すなわち３Ｄシーン生成装置にデータが集中する問題が対処される。検討例では、３Ｄモデルデータをレンダリング装置に直接送る経路が設けられる。ユーザ（視聴者Ａｕ及び演者Ｐ）は、３Ｄシーン生成装置及びレンダリング装置の両方に３Ｄモデルデータを伝送することになるが、そのデータ内容を変える工夫をする。配信が開始されると、演者Ｐから３Ｄシーン生成装置へは、第２の３Ｄモデルデータ（バウンディングボックスデータ）が伝送される。一方、視聴者Ａｕから３Ｄシーン生成装置へは、視聴者Ａｕの３Ｄモデルを動かすためのアニメーションデータが伝送される。このように３Ｄモデルのデータをそのまま３Ｄシーン生成装置へ伝送しないようにすることで、３Ｄシーン生成装置への入力データレートが低減される。３Ｄシーン生成装置は基本的にはシステム内に１つ、または２～３個程度の少数を想定する。各レンダリング装置に対しては、３Ｄモデルデータを記憶するためのデータベース装置が設けられる。

　上述の課題（ｂ）に対しては、レンダリング装置をシステム内に複数存在させ、各レンダリング装置でのレンダリングに必要な３Ｄシーン記述データに基づいて、レンダリング処理が行われる。全ユーザの３Ｄモデルを含む３Ｄシーンデータの伝送は不要である。例えば先の実施形態で説明したように、配信対象地域を分割し、それぞれの地域に対してレンダリング装置を分散配置する。レンダリング装置は、その近辺に居住する視聴者Ａｕとの間でデータ伝送を行う。或いはその地域にある、キャプチャ装置・３Ｄモデル生成装置を備えるカラオケボックス、ライブスペース等の施設から参加する視聴者Ａｕとデータ送受信を行う。レンダリング装置と視聴者Ａｕは物理的に近い距離に位置する分、ｍｏｔｉｏｎ－ｔｏ－ｐｈｏｔｏｎ　ｌａｔｅｎｃｙが低減される。また、同一のレンダリング装置に対応する視聴者グループ内では、視聴者Ａｕの３Ｄモデルどうしのインタラクションにおける応答遅延が小さくなる。

　上記の検討例の構成をベースとして、さらに視聴者Ａｕの３Ｄモデル生成装置をキャプチャ装置から分離してモーションデータ生成装置とし、演者Ｐの３Ｄモデル生成装置をキャプチャ装置から分離して３Ｄモデル生成装置とした構成が、先に説明した実施形態に係るデータ配信システム１００になる。なお、図２５の検討例の構成も、実施形態の１つであってよい。

２．変形例
　開示される技術は、上記の実施形態に限定されない。いくつかの変形例について説明する。

　ネットワークリソースに関して、エッジサーバ装置２の機能が分けて（分解されて）配置されてもよい。なお、ここでのエッジサーバ装置２は、対応するデータベース装置２０も含めた構成であってよい。図２６を参照して説明する。

　図２６は、ネットワークリソースの例を示す図である。図２６の（Ａ）には、これまで説明した実施形態におけるネットワークリソースが示される。視聴者Ａｕ又は演者Ｐが使用する複数のクライアント装置１と、各々が１又は２以上のクライアント装置１に対応する複数のエッジサーバ装置２と、複数のエッジサーバ装置２に対応する１又は２以上のセントラルサーバ装置３とが、物理的に離れた位置に配置される。なお、装置間の距離も例示される。

　エッジサーバ装置２は、フロントサーバとしての機能と、ＭＥＣ（計算資源）としての機能の両方の機能を有するともいえる。一実施形態において、それらの機能が分けて（分解されて）配置されてよい。そのような変形例が、図２６の（Ｂ）に示される。

　図２６の（Ｂ）に示される変形例では、各エッジサーバ装置２は、ＭＥＣ２ａと、フロント部２ｂと含むとともにそれらを分解できるように構成され、それらが分けて配置される。ＭＥＣ２ａは、これまで説明したモーションデータ生成装置２１、レンダリング装置２２及びデータベース装置２０等による各種の処理に必要な計算資源（計算リソース）である。ＭＥＣ２ａは、フロントサーバとして機能し、例えば、対応するクライアント装置１との間でデータ伝送したり、対応するユーザに（そのクライアント装置１に）にＭＥＣ２ａを割り当てたりする。この割り当てを、ＭＥＣ２ａの負荷状況等に応じてダイナミックに行うことで、フロント部２ｂは、ロードバランサとしての役割を担い得る。

　上記のようなエッジサーバ装置２は、これまでエッジサーバ装置２が担っていたリソース割り当て機能を、フロント部２ｂとして独立させた構成ともいえる。これにより、ＭＥＣ２ａの地理的配置の自由度が高まる。図２７も参照して説明する。

　図２７は、変形例のネットワーク構成の例を示す図である。クライアント装置１（図２７中の「視聴者」に相当）は、最も近いフロント部２ｂ（フロントサーバ）に接続される。フロント部２ｂは、距離が近い周辺の複数のＭＥＣ２ａと接続される。各ＭＥＣ２ａは、セントラルサーバ装置３セントラルサーバと接続され、さらに、周辺のＭＥＣ２ａと接続される。

　フロント部２ｂとＭＥＣ２ａは同一拠点に配置されてもよいし、例えば数～数十ｋｍ程度離れて配置されてもよい。フロント部２ｂどうしの間にＭＥＣ２ａが配置されてもよい。ＭＥＣ２ａの距離は、例えば数ｋｍ～数十ｋｍ程度であってよい。

　ＭＥＣ２ａは、複数の物理的な計算資源、例えばＣＰＵ、ＧＰＵ等のプロセッサを含んで構成されてよい。或いは、ＭＥＣ２ａは、仮想的な計算資源、例えば仮想化された複数の計算資源・インスタンス（ＧＰＵリソースを含む）等によって実現されてもよい。

　各クライアント装置１には、専用の計算資源（物理or仮想）が１：１で割り当てられる。仮想化により、クライアント装置１からは１つの計算資源が割り当てられているように見える。

　フロント部２ｂによるＭＥＣ２ａの割り当ては、他のエッジサーバ装置２のＭＥＣ２ａを割り当てることを含んでよい。例えば、視聴者Ａｕのクライアント装置１から物理的距離が最も近いエッジサーバ装置２のフロント部２ｂは、基本的に、そのエッジサーバ装置２のＭＥＣ２ａをその視聴者Ａｕに割り当てる。ただし、そのＭＥＣ２ａに割り当て可能な計算資源が残っていない場合、フロント部２ｂは、次に地理的距離が近い（エッジサーバ装置２の）ＭＥＣ２ａをその視聴者Ａｕに割り当てる。地理的距離を優先順位として探索することで、生じ得る通信遅延を最小化することができる。

　なお、実際に視聴者Ａｕに対して割り当てられたＭＥＣ２ａに対応するデータベース装置２０には、例えば先に説明したように、対応する視聴者Ａｕの３Ｄモデルデータ等が配信前に伝送され記憶される。

　クライアント装置１に割り当てられた仮想計算資源が、どのくらいのハードウェアで構成されているかは、クライアント装置１（すなわち視聴者Ａｕ又は演者Ｐ）は意識しない。一般には、１つのＣＰＵ、１つのＧＰＵが複数のクライアント装置１に計算資源を提供するが、その逆、すなわち複数のＣＰＵ、複数のＧＰＵが１つのクライアント装置１に計算資源を提供してもよい。

　仮想計算資源へのハードウェアの割り当ては、ユースケースごとの処理負荷見積で決まる。時間経過により動的にハードウェア割り当てを変更するケースもあり得る。

３．ハードウェア構成の例
　図２８は、装置のハードウェア構成の例を示す図である。これまで説明したデータ配信システム１００に含まれる各装置（データ処理装置等）、具体的にはクライアント装置１、エッジサーバ装置２、セントラルサーバ装置３さらにはそれらに含まれる各装置は、例えばコンピュータ１０００を含んで構成され得る。

　コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インタフェース１５００、及び入出力インタフェース１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る各動作を実行するためのプログラムを記録する記録媒体である。

　通信インタフェース１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインタフェースである。例えば、ＣＰＵ１１００は、通信インタフェース１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インタフェース１６００は、上述したＩ／Ｆ部１８を含む構成であり、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインタフェースである。例えば、ＣＰＵ１１００は、入出力インタフェース１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インタフェース１６００を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインタフェースとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等である。

　例えば、コンピュータ１０００が、クライアント装置１、エッジサーバ装置２又はセントラルサーバ装置３として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、クライアント装置１、エッジサーバ装置２又はセントラルサーバ装置３の機能を実現する。また、ＨＤＤ１４００には、プログラム等が格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

４．まとめ
　以上で説明した技術は、例えば次のように特定される。開示される技術の１つは、データ配信システム１００である。図１～図２２、図２６及び図２７等を参照して説明したように、データ配信システム１００は、セントラルサーバ装置３と、複数のエッジサーバ装置２、２－Ｐとを含む。セントラルサーバ装置３（３Ｄシーン生成装置３１）は、複数のユーザ（視聴者Ａｕ、演者Ｐ）の３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成する。複数のエッジサーバ装置２、２－Ｐの各々（レンダリング装置２２、２２－Ｐ）は、セントラルサーバ装置３と通信するとともに互いに地理的に離れた位置に分散して配置され、セントラルサーバ装置３が生成した３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する。

　上記のデータ配信システム１００によれば、分散配置された複数のエッジサーバ装置２、２－Ｐの各々が対応するユーザへの配信データを生成するので、処理負荷が分散される。セントラルサーバ装置３においては、リアルタイムに変化する仮想空間のすべてのデータを生成する必要はなく、そのシーンを記述する３Ｄシーン記述データを生成すれば足りる。その分、セントラルサーバ装置３におけるデータ伝送量を減らすことができる。従って、処理負荷の集中やデータ伝送量の増加に起因して生じうる遅延、例えばｍｏｔｉｏｎ－ｔｏ－ｐｈｏｔｏｎ　ｌａｔｅｎｃｙ、仮想空間におけるユーザどうしのインタラクションの遅延等を抑制することができる。

　図１等を参照して説明したように、３Ｄシーン記述データは、仮想空間内の複数のユーザの配置の記述を含むデータであってよい。例えばこのような３Ｄシーン記述データを用いることで、セントラルサーバ装置３におけるデータ伝送量を減らしつつ、エッジサーバ装置２、２－Ｐにおいて配信データを生成することができる。

　図１及び図５等を参照して説明したように、エッジサーバ装置２、２－Ｐ（レンダリング装置２２、レンダリング装置２２－Ｐ）は、３Ｄシーン記述データと、ユーザの３Ｄモデルデータとに基づいて、仮想空間のレンダリング済みの映像データを、配信データとして生成してよい。これにより、レンダリングに要する処理負荷を分散するとともに、レンダリング済みの映像データをユーザに配信することができる。データ配信システム１００を映像配信システムとして用いることができる。

　図１及び図５等を参照して説明したように、エッジサーバ装置２（レンダリング装置２２）は、対応するユーザ（視聴者Ａｕ）の３Ｄモデルのアニメーションデータを生成し、生成したアニメーションデータと、３Ｄシーン記述データと、ユーザの３Ｄモデルデータ（アバターデータ）とに基づいて、映像データを生成してよい。例えばこのようにして、動きのあるユーザの３Ｄモデルを含む映像データを生成することができる。また、アニメーションデータのデータ量が、動きのある３Ｄモデルデータそのものを示すデータよりも小さい分だけ、データ伝送量を抑制することができる。

　図１等を参照して説明したように、アニメーションデータは、対応するユーザ（視聴者Ａｕ）の視野・視線データを含み、エッジサーバ装置２（レンダリング装置２２）は、対応するユーザ（視聴者Ａｕ）の視点で観たときの映像データを生成してよい。これにより、対応するユーザへの配信に適した映像データを生成することができる。

　図１及び図５等を参照して説明したように、エッジサーバ装置２（レンダリング装置２２）は、生成したアニメーションデータをセントラルサーバ装置３（３Ｄシーン生成装置３１）に送信し、セントラルサーバ装置３は、エッジサーバ装置２からのアニメーションデータに基づいて、３Ｄシーン記述データを生成してよい。このようにデータ量の小さいアニメーションデータをエッジサーバ装置２からセントラルサーバ装置３に送信し、セントラルサーバ装置３で３Ｄシーン記述データを生成することで、データ伝送量を抑制することができる。

　図１、図２及び図５等を参照して説明したように、データ配信システム１００は、エッジサーバ装置２、２－Ｐ及びセントラルサーバ装置３と通信するとともに、対応するユーザ（演者Ｐ）の３Ｄモデルデータを生成するクライアント装置１－Ｐ（３Ｄモデル生成装置１３）をさらに備え、クライアント装置１ーＰ（３Ｄモデル生成装置１３）が生成する３Ｄモデルデータは、ポイントクラウドデータ、メッシュデータ及びテクスチャデータの少なくとも１つを含む第１の３Ｄモデルデータと、バウンディングボックスデータを含む第２の３Ｄモデルデータと、を含み、クライアント装置１－Ｐ（３Ｄモデル生成装置１３）は、生成した３Ｄモデルデータのうちの第１の３Ｄモデルデータをエッジサーバ装置２、２－Ｐ（レンダリング装置２２、レンダリング装置２２－Ｐ）に送信し、第２の３Ｄモデルデータをセントラルサーバ装置３（３Ｄシーン生成装置３１）に送信し、エッジサーバ装置２、２－Ｐ（レンダリング装置２２、レンダリング装置２２－Ｐ）は、第１の３Ｄモデルデータに基づいて、映像データを生成し、セントラルサーバ装置３（３Ｄシーン生成装置３１）は、第２の３Ｄモデルデータに基づいて、３Ｄシーン記述データを生成してよい。このようにデータ量の小さい第２の３Ｄモデルデータだけをセントラルサーバ装置３に伝送し、そこで３Ｄシーン記述データを生成することで、データ伝送量を抑制することができる。

　図２６及び図２７等を参照して説明したように、複数のエッジサーバ装置２の各々は、計算資源であるＭＥＣ２ａと、対応するユーザ（視聴者Ａｕ）にＭＥＣ２ａを割り当てるフロント部２ｂと、を含み、フロント部２ｂによる割り当ては、他のエッジサーバ装置２のＭＥＣ２ａを割り当てることを含んでよい。これにより、ＭＥＣ２ａの地理的配置の自由度を高めることができる。

　図１等を参照して説明したように、仮想空間は、仮想化されたライブイベント会場を含み、複数のユーザは、複数の視聴者Ａｕ及び１以上の演者Ｐを含んでよい。例えばこのようなライブイベントを低遅延で配信することができる。

　図１等を参照して説明したように、通信は、光通信であってよい（ネットワークＮは全光通信ネットワークであってよい）。これにより、遅延をさらに抑制できる可能性が高まる。

　図１等を参照して説明したように配信データは、映像データ及び音データを含んでよい。このようなデータ量の大きいデータを配信する場合でも、遅延を抑制することができる。

　図１～図２２、図２６及び図２７等を参照して説明したデータ配信方法も、開示される技術の１つである。データ配信方法は、セントラルサーバ装置３（３Ｄシーン生成装置３１）が、複数のユーザ（視聴者Ａｕ、演者Ｐ）の３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成すること（ステップＳ３１、ステップＳ４１）と、各々がセントラルサーバ装置３と通信するとともに互いに地理的に離れた位置に分散して配置された複数のエッジサーバ装置２、２－Ｐが、セントラルサーバ装置３が生成した３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成すること（ステップＳ３４、ステップＳ４３）と、を含む。このようなデータ配信方法によっても、これまで説明したように遅延を抑制することができる。

　データ配信システム１００を構成するデータ処理装置、例えばエッジサーバ装置２、２－Ｐ、また、そのようなデータ処理装置を用いたデータ処理方法も、開示される技術である。図１～図２２、図２６及び図２７等を参照して説明したように、エッジサーバ装置２、２－Ｐは、複数のユーザ（視聴者Ａｕ、演者Ｐ）の３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する。データ処理方法は、エッジサーバ装置２、２－Ｐが、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成すること（ステップＳ３４、ステップＳ４３）を含む。このようなデータ処理装置又はデータ処理方法によっても、これまで説明したように遅延を抑制することができる。

　なお、本開示に記載された効果は、あくまで例示であって、開示された内容に限定されない。他の効果があってもよい。

　以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　開示される技術は、次のように説明することもできる。例えば、データ配信システム１００は、映像・音楽配信システムであってよい。現実空間での視聴者Ａｕや演者Ｐの動きが反映された仮想空間を実現するために、１つ又は少数のセントラルデータセンター（セントラル領域Ｒ３、セントラルサーバ装置３）に３Ｄシーン生成装置３１を配置し、映像・音楽コンテンツを提供する各地域に存在するリージョナルデータセンター（リージョナル領域Ｒ２、エッジサーバ装置２、２－Ｐ）にレンダリング装置２２、２２－Ｐを分散配置してよい。

　リージョナルデータセンターは、セントラルデータセンター又は他のリージョナルデータセンターとネットワークＮで接続されてよい。

　３Ｄシーン生成装置３１は、仮想空間内の映像・音楽コンテンツを設計・制御する３Ｄシーン記述データを生成してよい。

　レンダリング装置２２、２２－Ｐは、３Ｄシーン記述データ基づき、視聴者Ａｕや演者Ｐの視野・視線データに従って、視聴者Ａｕや演者Ｐが視聴する映像・オーディオ（映像・音）をレンダリング処理によって生成してよい。

　視聴者Ａｕ及び演者Ｐのリアルタイムな動きデータは、基本的に地理的に最も距離が近いリージョナルデータセンターが受信してよい。また、視聴者Ａｕ及び演者Ｐは、基本的に地理的距離が最も近いリージョナルデータセンターから、レンダリング映像（レンダリング済みの映像）を受信してよい。

　実空間での視聴者Ａｕの動きを仮想空間に反映させる動きデータは、視聴者Ａｕのアバターデータ（３Ｄモデルデータ）と、アバターデータに対するアニメーションデータで構成されてよい。

　実空間での視聴者Ａｕの動きは、視聴者Ａｕのアバターデータに対するアニメーションデータを３Ｄシーン生成装置３１に送信することにより、仮想空間に反映されてよい。

　実空間での演者Ｐの動きを仮想空間に反映させる動きデータは、演者Ｐの動きを時々刻々とキャプチャし、時系列で変化する３Ｄモデルデータで構成されてよい。

　実空間での演者Ｐの動きは、演者の３Ｄモデルデータに関わるバウンディングボックスデータを３Ｄシーン生成装置３１に送信することにより、仮想空間に反映されてよい。

　共通のリージョナルデータセンターを利用するクライアント（クライアント装置１又はそれを使用する視聴者Ａｕ）の集合である視聴者グループに所属するクライアント装置１間又は視聴者Ａｕ間では、あらかじめ算出されたある遅延時間以下でインタラクションが可能であることが保証されてよい。

　視聴者Ａｕのアバターを動かすアニメーションデータ（モーションデータ）を生成するモーションデータ生成装置２１は、アニメーションデータをリージョナルデータセンター内のレンダリング装置２２に送信するとともに、セントラルデータセンターへ送信してよい。

　視聴者Ａｕのための映像・音楽データを生成するレンダリング装置２２は、リアルタイムな視聴者Ａｕの動きを低遅延にレンダリング画像に反映させるために、セントラルデータセンターから受信した３Ｄシーン記述データに、モーションデータ生成装置２１からの、視聴者Ａｕの最新のアニメーションデータを組み合せてレンダリング画像を生成してよい。

　演者Ｐの動きを低データレートで３Ｄシーンに反映させるために、３Ｄモデル生成装置１３は、演者Ｐのリアルタイムなバウンディングボックスデータを３Ｄシーン生成装置３１があるセントラルデータセンターへ送信してよい。

　演者Ｐのための映像・音楽データを生成するレンダリング装置２２－Ｐは、リアルタイムな演者Ｐの動きを低遅延にレンダリング画像に反映させるために、セントラルデータセンターから受信した３Ｄシーン記述データに、３Ｄモデル生成装置１３からの、演者Ｐの最新の３Ｄモデルデータを組み合せてレンダリング画像を生成してよい。

　これまで説明した技術によれば、例えば、全光ネットワーク上での大規模インタラクティブ音楽ライブ配信を実現する際の課題を解決するために、システム構成が考案され、物理的なネットワークリソースへの対応付けが定義される。これにより、従来の単純なサーバ・クライアント構成と比較して、ネットワーク上のデータレートの削減、低遅延化、より多人数の視聴者の参加が可能になる。

　音楽ライブ全体を制御するセントラルデータセンターに３Ｄシーン生成装置３１を配置し、各地域のデータセンター（リージョナルデータセンター）にレンダリング装置２２、２２－Ｐを分散配置する。視聴者ＡＵ及び演者Ｐは、物理的距離が近いリージョナルデータセンターに、キャプチャ装置１１、１１－Ｐからのセンシングデータ（キャプチャデータ）或いはオンプレミスで生成した３Ｄモデルデータを送信する。また、物理的距離が近いリージョナルデータセンターから、レンダリングされた映像を受信する。これにより、視聴者のｍｏｔｉｏｎ－ｔｏ－ｐｈｏｔｏｎ　ｌａｔｅｎｃｙを低減できる。同じリージョナルデータセンターを利用する視聴者Ａｕどうしのインタラクション時の応答遅延を低減できる。レンダリング装置２２、２２－Ｐのレンダリング処理負荷を分散できる。レンダリング装置２２、２２－Ｐからのレンダリング画像の出力を分散できる。

　視聴者Ａｕの動きを３Ｄシーンに反映させるために、リージョナルデータセンターは、リアルタイム３Ｄモデルデータとして、視聴者Ａｕのアバターを動かすアニメーションデータ（モーションデータ）をセントラルデータセンターへ送信する。これにより、セントラルデータセンターへの、視聴者Ａｕに関する入力データのレートを低減する。

　リージョナルデータセンターは、セントラルデータセンターから受信した３Ｄシーン記述データに、モーションデータ生成装置２１からのより新しいアニメーションデータを組み合せて３Ｄシーンを構築する。視聴者Ａｕのｍｏｔｉｏｎ－ｔｏ－ｐｈｏｔｏｎ　ｌａｔｅｎｃｙを低減できる。

　演者Ｐの動きを３Ｄシーンに反映させるために、リージョナルデータセンターは、リアルタイム３Ｄモデルデータとして、演者Ｐのバウンディングボックスデータをセントラルデータセンターへ送信する。これにより、セントラルデータセンターへの、演者Ｐに関する入力データのレートを低減する。

　リージョナルデータセンターは、セントラルデータセンターから受信した３Ｄシーン記述データに、３Ｄモデル生成装置１３からのより新しい３Ｄモデルデータを組み合せて３Ｄシーンを構築する。これにより、演者Ｐのｍｏｔｉｏｎ－ｔｏ－ｐｈｏｔｏｎ　ｌａｔｅｎｃｙを低減できる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成するセントラルサーバ装置と、
　各々が前記セントラルサーバ装置と通信するとともに互いに地理的に離れた位置に分散して配置され、前記セントラルサーバ装置が生成した前記３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する複数のエッジサーバ装置と、
　を備える、
　データ配信システム。
（２）
　前記３Ｄシーン記述データは、前記仮想空間内の前記複数のユーザの３Ｄモデルの配置の記述を含むデータである、
　（１）に記載のデータ配信システム。
（３）
　前記エッジサーバ装置は、前記３Ｄシーン記述データと、前記ユーザの３Ｄモデルデータとに基づいて、前記仮想空間のレンダリング済みの映像データを、前記配信データとして生成する、
　（１）又は（２）に記載のデータ配信システム。
（４）
　前記エッジサーバ装置は、対応するユーザの３Ｄモデルのアニメーションデータを生成し、生成したアニメーションデータと、前記３Ｄシーン記述データと、前記ユーザの３Ｄモデルデータとに基づいて、前記映像データを生成する、
　（３）に記載のデータ配信システム。
（５）
　前記アニメーションデータは、対応するユーザの視野・視線データを含み、
　前記エッジサーバ装置は、前記対応するユーザの視点で観たときの前記映像データを生成する、
　（４）に記載のデータ配信システム。
（６）
　前記エッジサーバ装置は、生成したアニメーションデータをセントラルサーバ装置に送信し、
　前記セントラルサーバ装置は、前記エッジサーバ装置からのアニメーションデータに基づいて、前記３Ｄシーン記述データを生成する、
　（４）又は（５）に記載のデータ配信システム。
（７）
　前記エッジサーバ装置及び前記セントラルサーバ装置と通信するとともに、対応するユーザの３Ｄモデルデータを生成するクライアント装置をさらに備え、
　前記クライアント装置が生成する３Ｄモデルデータは、
　メッシュデータ、テクスチャデータ及びポイントクラウドデータの少なくとも１つを含む第１の３Ｄモデルデータと、
　バウンディングボックスデータを含む第２の３Ｄモデルデータと、
　を含み、
　前記クライアント装置は、生成した３Ｄモデルデータのうちの前記第１の３Ｄモデルデータを前記エッジサーバ装置に送信し、前記第２の３Ｄモデルデータを前記セントラルサーバ装置に送信し、
　前記エッジサーバ装置は、前記第１の３Ｄモデルデータに基づいて、前記映像データを生成し、
　前記セントラルサーバ装置は、前記第２の３Ｄモデルデータに基づいて、前記３Ｄシーン記述データを生成する、
　（３）～（６）のいずれかに記載のデータ配信システム。
（８）
　前記複数のエッジサーバ装置の各々は、
　計算資源であるＭＥＣと、
　対応するユーザに前記ＭＥＣを割り当てるフロント部と、
　を含み、
　前記フロント部による前記割り当ては、他のエッジサーバ装置のＭＥＣを割り当てることを含む、
　（１）～（７）のいずれかに記載のデータ配信システム。
（９）
　前記仮想空間は、仮想化されたライブイベント会場を含み、
　前記複数のユーザは、複数の視聴者及び１又は複数の演者を含む、
　（１）～（８）のいずれかに記載のデータ配信システム。
（１０）
　前記通信は、全光通信である、
　（１）～（９）のいずれかに記載のデータ配信システム。
（１１）
　前記配信データは、映像データ及び音データを含む、
　（１）～（１０）のいずれかに記載のデータ配信システム。
（１２）
　セントラルサーバ装置が、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成することと、
　各々が前記セントラルサーバ装置と通信するとともに互いに地理的に離れた位置に分散して配置された複数のエッジサーバ装置が、前記セントラルサーバ装置が生成した前記３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成することと、
　を含む、
　データ配信方法。
（１３）
　複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する、
　データ処理装置。
（１４）
　データ処理装置が、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成することを含む、
　データ処理方法。

　　　１００　データ配信システム
　　　　　１　クライアント装置
　　　　１１　キャプチャ装置
　　　　１２　ディスプレイ装置
　　　１－Ｐ　クライアント装置
　　１１－Ｐ　キャプチャ装置
　　１２－Ｐ　ディスプレイ装置
　　　　１３　３Ｄモデル生成装置
　　　　　２　エッジサーバ装置（データ処理装置）
　　　　２０　データベース装置
　　　　２１　モーションデータ生成装置
　　　　２２　レンダリング装置
　　　２－Ｐ　エッジサーバ装置（データ処理装置）
　　２０－Ｐ　データベース装置
　　２２－Ｐ　レンダリング装置
　　　　２ａ　ＭＥＣ
　　　　２ｂ　フロント部
　　　　　３　セントラルサーバ装置（データ処理装置）
　　　　３０　データベース装置
　　　　３１　３Ｄシーン生成装置（データ処理装置）
　　　　Ａｕ　視聴者（ユーザ）
　　　　　Ｎ　ネットワーク
　　　　　Ｐ　演者（ユーザ）
　　　　Ｒ１　オンプレミス領域
　　　　Ｒ２　リージョナル領域
　　　　Ｒ３　セントラル領域

Claims

　複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成するセントラルサーバ装置と、
　各々が前記セントラルサーバ装置と通信するとともに互いに地理的に離れた位置に分散して配置され、前記セントラルサーバ装置が生成した前記３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する複数のエッジサーバ装置と、
　を備える、
　データ配信システム。
　前記３Ｄシーン記述データは、前記仮想空間内の前記複数のユーザの３Ｄモデルの配置の記述を含むデータである、
　請求項１に記載のデータ配信システム。
　前記エッジサーバ装置は、前記３Ｄシーン記述データと、前記ユーザの３Ｄモデルデータとに基づいて、前記仮想空間のレンダリング済みの映像データを、前記配信データとして生成する、
　請求項１に記載のデータ配信システム。
　前記エッジサーバ装置は、対応するユーザの３Ｄモデルのアニメーションデータを生成し、生成したアニメーションデータと、前記３Ｄシーン記述データと、前記ユーザの３Ｄモデルデータとに基づいて、前記映像データを生成する、
　請求項３に記載のデータ配信システム。
　前記アニメーションデータは、対応するユーザの視野・視線データを含み、
　前記エッジサーバ装置は、前記対応するユーザの視点で観たときの前記映像データを生成する、
　請求項４に記載のデータ配信システム。
　前記エッジサーバ装置は、生成したアニメーションデータをセントラルサーバ装置に送信し、
　前記セントラルサーバ装置は、前記エッジサーバ装置からのアニメーションデータに基づいて、前記３Ｄシーン記述データを生成する、
　請求項４に記載のデータ配信システム。
　前記エッジサーバ装置及び前記セントラルサーバ装置と通信するとともに、対応するユーザの３Ｄモデルデータを生成するクライアント装置をさらに備え、
　前記クライアント装置が生成する３Ｄモデルデータは、
　メッシュデータ、テクスチャデータ及びポイントクラウドデータの少なくとも１つを含む第１の３Ｄモデルデータと、
　バウンディングボックスデータを含む第２の３Ｄモデルデータと、
　を含み、
　前記クライアント装置は、生成した３Ｄモデルデータのうちの前記第１の３Ｄモデルデータを前記エッジサーバ装置に送信し、前記第２の３Ｄモデルデータを前記セントラルサーバ装置に送信し、
　前記エッジサーバ装置は、前記第１の３Ｄモデルデータに基づいて、前記映像データを生成し、
　前記セントラルサーバ装置は、前記第２の３Ｄモデルデータに基づいて、前記３Ｄシーン記述データを生成する、
　請求項３に記載のデータ配信システム。
　前記複数のエッジサーバ装置の各々は、
　計算資源であるＭＥＣと、
　対応するユーザに前記ＭＥＣを割り当てるフロント部と、
　を含み、
　前記フロント部による前記割り当ては、他のエッジサーバ装置のＭＥＣを割り当てることを含む、
　請求項１に記載のデータ配信システム。
　前記仮想空間は、仮想化されたライブイベント会場を含み、
　前記複数のユーザは、複数の視聴者及び１又は複数の演者を含む、
　請求項１に記載のデータ配信システム。
　前記通信は、全光通信である、
　請求項１に記載のデータ配信システム。
　前記配信データは、映像データ及び音データを含む、
　請求項１に記載のデータ配信システム。
　セントラルサーバ装置が、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データを生成することと、
　各々が前記セントラルサーバ装置と通信するとともに互いに地理的に離れた位置に分散して配置された複数のエッジサーバ装置が、前記セントラルサーバ装置が生成した前記３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成することと、
　を含む、
　データ配信方法。
　複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成する、
　データ処理装置。
　データ処理装置が、複数のユーザの３Ｄモデルを含みリアルタイムに変化する仮想空間のシーンを記述する３Ｄシーン記述データに基づいて、対応するユーザへの配信データを生成することを含む、
　データ処理方法。