WO2023026519A1

WO2023026519A1 - 情報処理装置、情報処理端末、情報処理方法、および記憶媒体

Info

Publication number: WO2023026519A1
Application number: PCT/JP2022/007277
Authority: WO
Inventors: 孝悌清水; 伸明泉; 徹増田; 隆今村
Original assignee: ソニーグループ株式会社
Priority date: 2021-08-27
Filing date: 2022-02-22
Publication date: 2023-03-02

Abstract

【課題】３次元モデルが配置された仮想空間におけるユーザ視点の映像を低遅延で視聴することが可能な情報処理装置、情報処理端末、情報処理方法、および記憶媒体を提供する。【解決手段】仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部を備え、前記制御部は、前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する制御を行う、情報処理装置。

Description

情報処理装置、情報処理端末、情報処理方法、および記憶媒体

　本開示は、情報処理装置、情報処理端末、情報処理方法、および記憶媒体に関する。

　近年、実空間を多数のカメラで同時に撮影して得られる多視点映像に基づいてカメラ視点以外の自由な視点からの映像を生成する技術が提案されている。

　自由視点映像を合成する技術に関し、例えば下記特許文献１では、ビルボードと称される厚みのない簡易なモデルを利用して高速に自由視点映像を合成する技術について説明されている。かかるビルボードを利用した技術では、映像からモデル化対象のオブジェクトのテクスチャを切り出し、それを厚みのないビルボードモデルとして仮想空間の地面に立たせることで、自由視点映像を生み出す。また下記特許文献１では、仮想視点に応じてビルボードを変形することで、ビルボードに合成される画像に含まれる被写体の像の姿勢を適切に表現している。

特開２０１７－１５６８８０号公報

　しかしながら、上記特許文献１では、仮想空間に３次元モデルを構築した場合については考慮されていない。

　そこで、本開示では、３次元モデルが配置された仮想空間におけるユーザ視点の映像を低遅延で視聴することを可能とする情報処理装置、情報処理端末、情報処理方法、および記憶媒体を提案する。

　本開示によれば、仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部を備え、前記制御部は、前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する制御を行う、情報処理装置を提案する。

　本開示によれば、ユーザ視点の情報を配信サーバに送信する送信部と、前記配信サーバから、３次元モデルが配置される仮想空間において、前記ユーザ視点に対応する仮想カメラで撮像された前記３次元モデルの２次元画像を受信する受信部と、前記２次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対する位置に配置する制御を行う、情報処理端末を提案する。

　本開示によれば、プロセッサが、仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行うことを含み、さらに、前記制御では、前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する、情報処理方法を提案する。

　本開示によれば、コンピュータを、仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部として機能させるプログラムを記憶し、前記制御部は、前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する制御を行う、記憶媒体を提案する。

本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態による配信サーバの構成の一例を示すブロック図である。本実施形態による本実施形態による視聴者端末の構成の一例を示すブロック図である。本実施形態による配信サーバの動作処理の流れの一例を示すフローチャートである。本実施形態による本ステレオビルボード用２Ｄ画像の生成の一例について説明する図である。本実施形態による視聴者端末の動作処理の流れの一例を示すフローチャートである。本実施形態によるビルボードの回転制御について説明する図である。本実施形態によるＮパターンの視聴位置の一例について説明する図である。本実施形態の変形例によるＮパターンの視点を事前に用意する場合のシステム構成の一例を示す図である。本実施形態の変形例によるワープ移動の際のビルボードの回転制御について説明する図である。本実施形態の変形例による視聴者端末の動作処理の流れの一例を示すフローチャートである。本実施形態の変形例のシステム構成の他の例を示す図である。本実施形態の変形例による複数視点の表示について説明する図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による情報処理システムの概要
　２．構成例
　　２－１．配信サーバ２０
　　２－２．視聴者端末３０
　３．動作処理
　３－１．配信サーバ２０の動作処理
　３－２．視聴者端末３０の動作処理
　４．変形例
　　４－１．ワープ移動
　　４－２．デプス情報を用いたオクルージョン制度の向上
　　４－３．影付きのステレオ２Ｄ画像の生成
　　４－４．双方向インタラクションの実現
　５．補足

　＜＜１．本開示の一実施形態による情報処理システムの概要＞＞
　図１は、本開示の一実施形態による情報処理システムの概要について説明する図である。図１に示すように、本実施形態による情報処理システムは、複数のカメラにより被写体を撮像する多視点撮像システム１０と、配信サーバ２０（情報処理装置）と、１以上の視聴者端末３０（情報処理端末）と、を含む。

　多視点撮像システム１０は、被写体を同時に撮像する複数のカメラ１１（１１－１～１１－ｎ）と、複数のカメラ１１から撮像画像を取得して多視点画像を生成する多視点画像生成装置１２と、を含む。複数のカメラ１１（１１－１～１１－ｎ）は、スタジオ等で被写体（演者）の周囲を取り囲むように設置されている。カメラ１１は、例えば数十台設置され得る。多視点画像生成装置１２は、多視点画像を配信サーバ２０に送信する。

　配信サーバ２０は、実写映像である多視点画像に基づいて被写体（演者）を３Ｄ映像化し、演者の３Ｄモデルを生成する。また、配信サーバ２０は、生成した演者の３Ｄモデルを仮想空間に配置し、演者の３Ｄモデルの映像をリアルタイムで視聴者端末３０に配信（所謂ライブ配信）する。仮想空間では、コンサートや講演会、演劇、祭り、その他各種の催し物（イベント）が実施され得る。本実施形態では、一例として、仮想空間内において演者によりコンサートが行われ、多数の視聴者がリアルタイムでコンサートを視聴する場合を想定する。

　被写体（演者）の３Ｄ映像化には、例えばVolumetric　Capture技術が用いられる。これにより高品質で不自然さの無い実写３Ｄモデルがリアルタイムに生成され、仮想空間に配置され得る。なお仮想空間には、実写３Ｄモデルの他、背景やステージ、ＣＧキャラクタ、エフェクト等、様々な２Ｄ画像や３Ｄモデルの情報（以下、仮想オブジェクトと称する）が配置される。なお、本実施形態では演者の分身となる仮想オブジェクトの一例として実写３Ｄモデルを用いているが、本実施形態はこれに限定されず、例えば演者の動きが反映される３ＤＣＧキャラクタを生成し、演者の仮想オブジェクトとして用いてもよい。その際は例えばモーションキャプチャ技術が用いられてもよい。

　また、仮想空間には、視聴者の分身となる仮想オブジェクトである視聴者アバターが配置されてもよい。視聴者アバターは、例えば視聴者により操作されるＣＧキャラクタであってもよい。視聴者による操作は、視聴者が手に持つコントローラや身体に装着するウェアラブルデバイス（例えばＨＭＤ；Head　Mounted　Display）のセンサ等により入力され、リアルタイムに仮想空間の仮想アバターに反映され得る。仮想空間におけるユーザ視点は、視聴者アバターの視点であってもよいし、視聴者アバターの背後（すなわち視聴者自身のアバターを視界に含む視点）であってもよい。また、仮想空間内に自分以外の視聴者アバター（すなわち他の視聴者により操作されるアバター）が表示されることで、よりリアルに他者と空間を共有する体験を得ることができる。

　視聴者端末３０は、仮想空間におけるユーザ視点の映像を視聴者が視聴するために用いられる情報処理端末である。視聴者端末３０は、ユーザ（視聴者）の頭部に装着されるＨＭＤであってもよいし、スマートフォンやタブレット端末、テレビ装置、プロジェクタ等の表示装置であってもよい。また、視聴者端末３０は、表示装置と通信接続するＰＣやスマートフォン、ゲーム機等であってもよい。

　なお、図１には図示していないが、カメラ１１が配置されているスタジオ等に表示装置を設置し、配信サーバ２０から仮想空間の会場全体の映像や、仮想空間における演者視点から見える視聴者の映像（視聴者アバターが配置されている観客席の映像）をリアルタイムに表示してもよい。これにより、視聴者の反応を演者に提供することも可能となる。

　（課題の整理）
　ここで、仮想空間に３Ｄモデルを構築する場合、ユーザ視点に対応した立体視視聴が可能となるが、配信サーバ２０から視聴者端末３０に送信する３Ｄモデルのデータ量は膨大であり、リアルタイムで低遅延の配信を行うことが困難であった。３Ｄモデルが配置される仮想空間の仮想視点における２Ｄ映像を配信する２Ｄストリーミング配信も可能であるが、その場合は従来の２Ｄ映像配信との顕著な差別化が難しい。また、従来の２Ｄ映像配信では、仮想空間を視聴者が自由に移動できる場合に期待するアングルの映像を見ることが困難である。すなわち、側面から２Ｄ映像を覗き込んでも、演者の側面は見えない。

　そこで、本開示による実施形態では、演者の３Ｄモデルの映像を配信することで、３Ｄモデルが構築された仮想空間におけるユーザ視点のより自然な映像を低遅延で視聴することを可能とする。

　具体的には、本実施形態では、ユーザ視点に対応する仮想カメラに対して正対するよう仮想空間に配置されるビルボードを用いる。ビルボードとは、平面領域を有する板状のスクリーンのような仮想オブジェクトである。配信サーバ２０は、演者の実写３Ｄモデルを配置した仮想空間（サーバ側仮想空間）におけるユーザ視点に対応するステレオ仮想カメラで撮像したステレオ２Ｄ画像を、リアルタイムで視聴者端末３０にストリーミング配信する。ステレオ２Ｄ画像とは、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含む画像であり、立体視画像とも称される。視聴者端末３０は、予め取得した仮想空間の情報に基づいて、ステージ等を配置して仮想空間（視聴者側仮想空間）を構築している。かかる仮想空間の情報とは、例えば、背景データ（背景ＣＧ群）や他の視聴者アバター、エフェクトデータ、ライティングデータ等、仮想空間に配置される各種仮想オブジェクトの画像やパラメータを含む。仮想空間の情報は、例えばコンテンツ格納サーバ（不図示）から予め受信し得る。また、視聴者端末３０にダウンロードされたアプリケーションを実行することで、アプリケーションに含まれた仮想空間の情報（背景データ等）を用いた仮想空間が構築されてもよい。次いで視聴者端末３０は、構築した仮想空間のステージ上にステレオビルボードを配置し、当該ステレオビルボードにステレオ２Ｄ画像をレンダリングする。そして、視聴者端末３０は、仮想空間（視聴者側仮想空間）において、ユーザ視点に対応するステレオ仮想カメラで立体視画像を取得し、表示する制御を行う。

　視聴者端末３０は、仮想空間に配置したビルボードを仮想カメラ（ユーザ視点）に正対するよう回転制御を行うことで、仮想空間を視聴者が自由に移動できる場合に期待するアングルの映像を提供することを実現し得る。より具体的には、ユーザ（視聴者）の視点情報（視点方向、視点移動の情報）がリアルタイムで配信サーバ２０に送信され、配信サーバ２０が制御するステレオ仮想カメラに反映される。そして、ユーザ視点に対応したステレオ２Ｄ画像が配信サーバ２０から視聴者端末３０に送信され、ユーザ視点に正対するよう回転制御されるビルボードにレンダリングされる。

　以上、本開示の一実施形態による情報処理システムの概要について説明した。なお、本システムは仮想空間で行われるコンサートのライブ配信に限らず、講演やゲーム等、多様な用途でのライブ配信における低遅延の実現に利用され得る。また、本システムでは音声については言及しないが、本システムを実施する際には、演者やコンサート会場の音声が別途処理され、適宜、視聴者端末３０に送信され得る。

　続いて、本実施形態による情報処理システムに含まれる各装置の具体的な構成について図面を参照して説明する。

　＜＜２．構成例＞＞
　＜２－１．配信サーバ２０＞
　図２は、本実施形態による配信サーバ２０の構成の一例を示すブロック図である。図２に示すように、配信サーバ２０は、通信部２１０と、制御部２２０と、記憶部２３０と、を有する。

　（通信部２１０）
　通信部２１０は、外部装置と通信接続し、データの送受信を行う。例えば通信部２１０は、多視点撮像システム１０に含まれる多視点画像生成装置１２と通信接続し、演者の多視点画像を受信する。また、通信部２１０は、１以上の視聴者端末３０と通信接続し、ユーザ視点のステレオ２Ｄ画像等を送信したり、視点情報を受信したりする。

　（制御部２２０）
　制御部２２０は、演算処理装置および制御装置として機能し、各種プログラムに従って配信サーバ２０内の動作全般を制御する。制御部２２０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部２２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部２２０は、仮想空間生成部２２１、３Ｄモデル生成部２２２、ステレオ仮想カメラ制御部２２３、およびステレオ２Ｄ画像生成部２２４として機能する。

　仮想空間生成部２２１は、演者の３Ｄモデルを配置する仮想空間（サーバ側仮想空間）を生成する。具体的には、仮想空間生成部２２１は、背景ＣＧ群や、ステージその他の仮想オブジェクトを配置し、各仮想オブジェクトのパラメータを適宜設定する。また、仮想空間生成部２２１は、予め生成された仮想空間の情報をコンテンツ格納サーバから取得し、仮想空間を生成し得る。

　３Ｄモデル生成部２２２は、多視点画像生成装置１２から受信した演者の多視点画像に基づいて、例えばVolumetric　Capture技術が用いて演者の３Ｄモデル（実写３Ｄとも称される）を生成する。具体的には、３Ｄモデル生成部２２２は、多視点画像に基づいて演者（被写体）の三次元情報を取得し、デプスマップとテクスチャの生成を行う。演者の撮像に用いられるカメラ１１には深度センサ（例えば赤外線を用いたセンサ）が設けられていてもよく、３Ｄモデル生成部２２２は、深度センサにより得られた深度情報と組み合わせて演者の三次元情報を取得してもよい。また、Volumetric　Capture技術では、デプスマップ、テクスチャの生成において、適宜、機械学習が用いられ得る。

　ステレオ仮想カメラ制御部２２３は、視聴者端末３０から送信される視点情報（視点方向情報または視点移動情報の少なくともいずれかを含む）に応じて、サーバ側仮想空間におけるステレオ仮想カメラの位置姿勢をリアルタイムに制御する。本実施形態では、立体視画像を取得（生成）するためにステレオ仮想カメラを定義する。左目用仮想カメラと右目用仮想カメラの間は、予め設定された両眼視差量に基づいて離隔して配置される。

　ステレオ２Ｄ画像生成部２２４は、ステレオ仮想カメラの位置姿勢に基づいてステレオ２Ｄ画像を生成する。かかるステレオ２Ｄ画像は、仮想空間における視聴者の視界に対応する。また、ステレオ２Ｄ画像は、予め設定された両眼視差量に基づいて生成される左目用画像および右目用画像である。制御部２２０は、ステレオ２Ｄ画像生成部２２４により生成されたステレオ２Ｄ画像を視聴者端末３０に送信する制御を行う。送信する制御とは、ステレオ２Ｄ画像を視聴者端末３０に送信するための各種の制御を意味する。例えば、通信部２１０から視聴者端末３０にステレオ２Ｄ画像を送信する制御であってもよいし、他の装置を介してステレオ２Ｄ画像を視聴者端末３０に送信する制御であってもよい。また、ステレオ２Ｄ画像の視聴者端末３０への送信は、ストリーミング配信によって行われてもよい。演者の３Ｄモデルのステレオ２Ｄ画像は、ライブ配信中にリアルタイムで生成され、視聴者端末３０に継続的に送信され得る。

　（記憶部２３０）
　記憶部２３０は、制御部２２０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。本実施形態により記憶部２３０は、仮想空間の情報を格納する。

　以上、配信サーバ２０の構成について具体的に説明したが、本開示による配信サーバ２０の構成は図２に示す例に限定されない。例えば、配信サーバ２０は、複数の装置により実現されてもよい。

　＜２－２．視聴者端末３０＞
　図３は、本実施形態による視聴者端末３０の構成の一例を示すブロック図である。図３に示すように、視聴者端末３０は、通信部３１０と、制御部３２０と、表示部３３０と、センサ部３４０と、操作入力部３５０と、記憶部３６０と、を有する。なお、本実施形態による視聴者端末３０は、例えば、視聴者の視界全体を覆う非透過型のＨＭＤにより実現されてもよい。また、視聴者端末３０は、スマートフォン、タブレット端末、ＰＣ、プロジェクタ、ゲーム機、テレビ装置、ウェアラブルデバイス等の各種装置により実現されてもよい。

　（通信部３１０）
　通信部３１０は、配信サーバ２０と通信接続し、データの送受信を行う。例えば通信部３１０は、配信サーバ２０から、継続的に演者の３Ｄモデルの映像（ステレオ２Ｄ画像）を受信する。また、通信部３１０は、コンテンツ格納サーバから、仮想空間生成用の情報である仮想空間の情報を受信してもよい。仮想空間の情報とは、背景ＣＧ群、各視聴者アバターのデータ（３Ｄモデルデータ等）、ステージやエフェクトのデータ等（仮想オブジェクトのデータ）を含む。仮想空間の情報は、配信サーバ２０によるライブ配信前に、コンテンツ格納サーバから予め送信され得る。

　また、通信部３１０は、センサ部３４０により取得されたセンシングデータ等を、視点情報として配信サーバ２０に送信する。視点情報には、視点方向または視点移動（視点位置の変化）の情報が少なくとも含まれる。視点方向の情報の一例として、例えば、ユーザの頭部に装着された視聴者端末３０（ＨＭＤ）の姿勢（すなわち頭部の向き）が挙げられる。また、視点移動の情報の一例として、例えば、視聴者端末３０の移動（すなわちユーザの身体の動き）や、ユーザが把持するコントローラからの操作情報（ボタン操作、振る操作、移動先を指し示すポインティング操作等）が挙げられる。

　（制御部３２０）
　制御部３２０は、演算処理装置および制御装置として機能し、各種プログラムに従って視聴者端末３０内の動作全般を制御する。制御部３２０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部２２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部３２０は、仮想空間生成部３２１、描画処理部３２２、ビルボード制御部３２３、および視点情報送信制御部３２４としても機能する。

　仮想空間生成部３２１は、サーバ側仮想空間に対応するローカルの仮想空間（視聴者端末側仮想空間）を生成する。具体的には、仮想空間生成部３２１は、ライブ配信が開始される前にコンテンツ格納サーバから送信された仮想空間の情報に基づいて、仮想空間を生成する。

　描画処理部３２２は、表示部３３０に表示する画像の描画処理を行う。具体的には、描画処理部３２２は、生成されたローカルの仮想空間においてユーザ視点に対応する仮想カメラにより撮像される画像を生成し、表示部３３０に表示する制御を行う。ここでの「ユーザ視点」には、視点位置および視点方向が含まれる。仮想カメラは立体視画像を取得するステレオ仮想カメラであってもよい。これにより、表示部３３０に立体視画像が表示され得る。また、仮想カメラは、ユーザの頭部や身体の動きに応じて仮想空間内を自由移動し得る。具体的には、描画処理部３２２は、センサ部３４０により取得されたセンシングデータ（例えばユーザ頭部の動きや身体の動き）に基づいて、仮想カメラの位置姿勢を制御する。

　ビルボード制御部３２３は、ローカルの仮想空間に配置したビルボードの回転制御を行う。本実施形態では、実際のステージ床面に相当する仮想オブジェクトを生成し、当該仮想オブジェクトのローカル座標原点にビルボードを配置する。すなわち、ビルボードの底辺が仮想空間内で定義される床面に接するよう配置される。また、ビルボード制御部３２３は、仮想空間内において自由移動するユーザの視線方向（仮想カメラの向き）に正対するようビルボードをPitch回転（ローカル座標におけるｘ軸で回転）またはYaw回転（ローカル座標におけるｙ軸で回転）させる。詳細については図７を参照して後述する。また、本実施形態では、一例として、左目用画像と右目用画像を各々描画して立体視を可能とするステレオビルボードを用いる。

　視点情報送信制御部３２４は、センサ部３４０により取得されたセンシングデータをユーザの視点情報として配信サーバ２０に送信する制御を行う。視点情報送信制御部３２４は、センシングデータをそのまま送信してもよいし、センシングデータに基づいて算出した座標位置情報（例えばグローバル座標）を送信してもよい。また、視点情報には、視点位置（三次元座標値）および視線方向の情報が含まれる。視点情報送信制御部３２４は、視点情報を配信サーバ２０に継続的に送信してもよい。

　（表示部３３０）
　表示部３３０は、仮想空間の映像を視聴者に呈示する機能を有する。例えば表示部３３０は、３Ｄディスプレイを有する表示装置であってもよい。表示装置は、ユーザの頭部に装着されるＨＭＤであってもよい。また、表示部３３０は、２Ｄディスプレイを有する表示装置、プロジェクタ、若しくは、立体ホログラムの呈示装置等により実現されてもよい。３Ｄまたは２Ｄ対応の表示装置として、スマートフォン、タブレット端末、ＰＣ、テレビ装置、ゲーム機等も挙げられる。

　（センサ部３４０）
　センサ部３４０は、視聴者端末３０を所持するユーザ（視聴者）の頭部や身体の動きを検出する。頭部の動きとは、主に頭部を前後左右に動かす動きと傾ける動き（ｘ軸、ｙ軸、ｚ軸周りの３つの動き）を想定する。センサ部３４０は、例えば、加速度センサ、角速度センサ、地磁気センサにより実現され、装着されたユーザの頭部の動きを検出する。視聴者端末３０は、例えば、所謂３ＤｏＦ（degree　of　freedom）対応のＨＭＤにより実現されてもよい。

　また、身体の動きとは、主に身体の移動（部屋の中で歩いて移動等）を想定する。センサ部３４０は、例えば、加速度センサ、角速度センサ、地磁気センサにより実現され、装着されたユーザの腰や足の動きを検出する。また、身体の動きは、ユーザの頭部に装着されるＨＭＤに設けられる各種センサにより検出されてもよい（例えば位置トラッキング）。

　なお、制御部３２０は、部屋に設置されたカメラやセンサを併用してユーザの身体の動きを検出（位置トラッキング）してもよい。例えば、部屋に設置されたカメラやセンサでユーザの頭部に装着しているＨＭＤ（視聴者端末３０の一例）の位置や、ユーザが把持しているコントローラの位置を検出し、検出結果をリアルタイムで視聴者端末３０に入力するようにしてもよい。このような外部センサとの組み合わせでユーザの身体の動き（移動）を検出することも可能なＨＭＤとして、所謂６ＤｏＦ（degree　of　freedom）対応のＨＭＤが挙げられる。６ＤｏＦとは、３ＤｏＦで対応していたｘ軸、ｙ軸、ｚ軸周りの３つの動きに加えて、ｘ軸、ｙ軸、ｚ軸軸方向の「移動」という３つの動きを加えた６つの動きに対応することを意味する。

　なお、センサ部３４０は、上記の他、カメラ、ＩＲセンサ、マイクロフォン、生体センサ等を含んでいてもよい。センサ部３４０は、視聴者端末３０（ＨＭＤや、スマートフォン等）に設けられていてもよいし、視聴者端末３０とは別体で部屋に設置されたりユーザの身体に装着されたりしていてもよいし、ユーザが把持するコントローラ（操作入力部３５０の一例）に設けられていてもよい。センサ部１５０は、複数個、複数種類のセンサを有していてもよい。

　（操作入力部３５０）
　操作入力部３５０は、ユーザによる視聴者端末３０に対する操作入力を受け付け、入力情報を制御部３２０に出力する。操作入力部３５０は、例えば、ボタン、スイッチ、ジョイスティック、キーボード、マウス、タッチパッド等により実現される。また、操作入力部３５０は、ユーザに把持されるコントローラであってもよい。ユーザは、仮想空間内での移動を実際の頭部や身体を動かすことで操作する他、操作入力部３５０から移動操作情報を入力することも可能である。

　（記憶部３６０）
　記憶部３６０は、制御部３２０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。本実施形態による記憶部３６０は、例えば、仮想空間の情報を格納する。

　以上、視聴者端末３０の構成について具体的に説明した。なお、視聴者端末３０の構成は図３に示す例に限定されない。例えば、視聴者端末３０は、複数の装置から構成されてもよい。具体的には、視聴者端末３０は、配信サーバ２０と通信を行う通信部３１０および制御部３２０を少なくとも有する制御装置と、表示部３３０およびセンサ部３４０を少なくとも有する表示装置と、ユーザに把持される操作入力部３５０と、から構成されてもよい。また、センサ部３４０は、表示部３３０、操作入力部３５０、部屋（ユーザの周囲）等の様々な場所に適宜設けられ、また、センサ部３４０単体でユーザの身体に装着されていてもよい。また、視聴者端末３０が、表示部３３０を少なくとも有する表示装置と、制御部３２０を少なくとも有する制御装置とから構成される際、制御部３２０の少なくとも一部の処理を表示装置側で行うようにしてもよい。

　＜＜３．動作処理＞＞
　続いて、本実施形態による動作処理について具体的に説明する。以下では、配信サーバ２０の動作処理と視聴者端末３０の動作処理について順次説明する。

　＜３－１．配信サーバ２０の動作処理＞
　図４は、本実施形態による配信サーバ２０の動作処理の流れの一例を示すフローチャートである。

　図４に示すように、まず、配信サーバ２０の制御部２２０は、ライブで配信する条件が成立したか否かを判断する（ステップＳ１０３）。ライブ配信条件の成立とは、例えばサーバ側仮想空間の生成や、多視点撮像システム１０との通信接続、配信者による開始指示等が挙げられる。

　次に、ライブ配信条件が成立すると（ステップＳ１０３／Ｙｅｓ）、配信サーバ２０は配信を開始する。具体的には、まず、配信サーバ２０は、スタジオで撮影された多視点画像を多視点撮像システム１０から取得する（ステップＳ１０６）。スタジオには多数のカメラ１１が設置され、演者のグリーンバック撮影が多方向から同時に行われる。

　次いで、配信サーバ２０は、視聴者端末３０から、ユーザの視点情報を取得する（ステップＳ１０９）。

　次に、配信サーバ２０の３Ｄモデル生成部２２２は、演者の多視点画像に基づき、演者の実写３Ｄモデルの生成として、テクスチャおよびデプスマップを生成する（ステップＳ１１２）。

　次いで、３Ｄモデル生成部２２２は、実写３Ｄモデルのレンダリング補正を行う（ステップＳ１１５）。レンダリング補正では、例えばエッジのノイズ除去が行われる。以上により、実写３Ｄモデルの生成が行われる。生成された実写３Ｄモデルは、サーバ側仮想空間のステージ上に配置される。

　続いて、視聴者端末３０から取得した視点に変化があるか否かを判断する（ステップＳ１１８）。なお、配信開始時の視点は所定のデフォルト位置に設定されていてもよい。視点の変化とは、例えばユーザが頭部を上下左右に動かしたり、頭を傾けたりといったことが想定される。

　次に、視点に変化がある場合（ステップＳ１１８／Ｙｅｓ）、ステレオ仮想カメラ制御部２２３は、視点情報に応じて、サーバ側仮想空間におけるステレオ仮想カメラの位置姿勢を変更させる（ステップＳ１２１）。これにより、ユーザの視点情報を、ステレオ仮想カメラの視点変更にリアルタイムで反映させることができる。

　一方、視点に変化がない場合は（ステップＳ１１８／Ｎｏ）、ステレオ仮想カメラの位置姿勢の変更は行われない。

　次に、ステレオ２Ｄ画像生成部２２４は、ユーザ視点におけるビルボード用の実写３Ｄモデルのステレオ２Ｄ画像を生成する（ステップＳ１２４）。すなわち、ステレオ２Ｄ画像生成部２２４は、視点情報がリアルタイムに反映されるステレオ仮想カメラで取得される、サーバ側仮想空間に配置されリアルタイムで演者の映像が反映される実写３Ｄモデルのユーザ視点２Ｄ画像として、仮想空間の右目用２Ｄ画像と左目用２Ｄ画像を生成する。かかる右目用２Ｄ画像と左目用２Ｄ画像は、視聴者端末３０側のローカル仮想空間に配置されるステレオビルボードに各々描画されるためのデータである。ここで、図５を参照して本実施形態によるステレオビルボード用２Ｄ画像の生成の一例について説明する。

　図５上段に示すように、本実施形態では、サーバ２０側で生成される仮想空間がオリジナルステージであり、演者の多視点画像に基づいてリアルタイムに生成される演者の実写３Ｄモデル４０が配置される。そして、かかる仮想空間では、実写３Ｄモデル４０から一定距離ｄに、ステレオ仮想カメラＶＣが配置され、ステレオ仮想カメラＶＣの位置姿勢は、視点情報がリアルタイムに反映される。

　一方、図５下段で示すように、視聴者端末３０側で生成されるローカルの仮想空間は、オリジナルステージに対応するミラーリングステージであり、ミラーリングステージ（ステージオブジェクトのローカル座標原点）にステレオビルボード５００が配置される。そして、ステレオビルボード５００には、オリジナルステージのステレオ仮想カメラＶＣで撮像されたステレオ２Ｄ画像が描画される。ステレオビルボード５００は右目用２Ｄ画像を描画するビルボードと、左目用２Ｄ画像を描画するビルボードから成る。かかるステレオビルボード５００を、ユーザ視点（ＵＶ）に対応するステレオ仮想カメラＵＣ（ユーザが頭部に装着するＨＭＤの動きが反映されるユーザ視点のステレオカメラ）で見た映像として、立体視映像が取得される。

　これにより、サーバ側では実写３Ｄモデルを配置するが、視聴者端末３０には、実写３Ｄモデルの映像としてビルボード用のステレオ２Ｄ画像の配信を行うことで低遅延を実現し得る。視聴者端末３０側では、ステレオビルボードを用いることで、立体視映像を実現し得る。なお、サーバ側では、ユーザ視点ＵＶに対応するようステレオ仮想カメラＶＣの位置姿勢を制御する。すなわち、ステレオ仮想カメラＵＣとビルボード５００との位置関係になるよう、ステレオ仮想カメラＶＣにカメラワークを与える。しかし、ビルボード５００に映る実写３Ｄモデルのサイズが変わらないよう、ステレオ仮想カメラ制御部２２３は、図５上段に示すように、ステレオ仮想カメラＶＣと実写３Ｄモデル４０との間が常に一定距離ｄを維持するよう制御する。つまり、ステレオ仮想カメラ制御部２２３は、一定距離ｄを維持した上で、ステレオ仮想カメラＶＣと実写３Ｄモデル４０の位置関係（角度、向き）が、ユーザ視点ＵＶ（ステレオ仮想カメラＵＣ）とビルボード５００の位置関係（角度、向き）と同様になるようステレオ仮想カメラＶＣの位置姿勢を制御する。このため、ミラーリングステージにおいて、ユーザ視点ＵＶ（ステレオ仮想カメラＵＣ）がビルボード５００に近付ける最短距離ｄ’を、一定距離ｄと同じ距離に設定してもよい。

　次いで、制御部２２０は、実写３Ｄモデルの２Ｄステレオストリームを視聴者端末３０に送信（配信）する（ステップＳ１２７）。２Ｄステレオストリームとは、実写３Ｄモデルのステレオ２Ｄ画像（右目用２Ｄ画像と左目用２Ｄ画像）を同期してストリームデータ処理したデータである。なお、データの配信方法は一例であって、本開示はこれに限定されない。

　そして、配信サーバ２０は、上記ステップＳ１０６～Ｓ１２７に示す処理を、ライブ配信終了まで繰り返す（ステップＳ１３０）。

　配信サーバ２０の制御部２２０は、各視聴者端末３０から受信した視点情報に応じて、各ユーザ視点にリアルタイムに対応する実写３Ｄモデルのステレオ２Ｄ画像をストリーミング配信し得る。また、制御部２２０は、ステレオ２Ｄ画像のストリーミング配信中も、例えば１フレーム毎に仮想空間の更新情報を視聴者端末３０に送信する。更新情報には、例えば他の視聴者アバターの位置姿勢の情報や、背景やライティングの変化に関する情報等が含まれる。

　また、図４に示す動作処理は一例であって、各ステップが必ずしも図４に示す順番で行われる必要はない。各ステップは適宜並列または逆の順で行われてもよい。例えば、ステップＳ１０９、およびＳ１１８～Ｓ１２７による視点情報に応じたステレオ２Ｄ画像の配信と、ステップＳ１０６、Ｓ１１２、およびＳ１１５による実写３Ｄモデルの生成は、継続的に並列して行われてもよい。

　＜３－２．視聴者端末３０の動作処理＞
　続いて、視聴者端末３０の動作処理について図６を参照して説明する。図６は、本実施形態による視聴者端末３０の動作処理の流れの一例を示すフローチャートである。

　まず、視聴者端末３０は、コンテンツ格納サーバから仮想空間の情報を受信し、受信した仮想空間の情報に基づいて仮想空間生成部３２１により仮想空間を生成する（ステップＳ１４３）。

　次に、視聴者端末３０は、２Ｄステレオストリームを配信サーバ２０から受信する（ステップＳ１４６）。

　次いで、視聴者端末３０の描画処理部３２２は、受信した２Ｄステレオストリームから、ビルボード描画用のステレオ２Ｄ画像を生成する（ステップＳ１４９）。

　次に、描画処理部３２２は、ステレオ２Ｄ画像のグリーンバック背景を除去し、仮想空間に配置されたビルボードへの描画を完了する（ステップＳ１５２）。より具体的には、描画処理部３２２は、右目用２Ｄ画像と左目用２Ｄ画像を、仮想空間に配置されたステレオビルボードに各々描画する。これにより、演者の実写３Ｄモデルのステレオ２Ｄ画像が仮想空間のミラーリングステージに配置されたビルボードに描画され、ユーザ視点に対応するステレオ仮想カメラにより仮想空間の背景ＣＧと合成された立体視画像が取得される。立体視画像は表示部３３０に表示され、ユーザに低遅延で仮想空間の立体視画像（自由視点映像）を提供することが可能となる。

　続いて、仮想空間におけるユーザ視点ＵＶが移動した場合（ステップＳ１５５／Ｙｅｓ）、ビルボード制御部３２３は、ビルボード５００の底辺を床面に接地させながらユーザ視点ＵＶに正対するようビルボード５００の向きをＹａｗ回転またはＰｉｔｃｈ回転させる制御を行う（ステップＳ１５８）。本実施形態において、ユーザ視点ＵＶには、三次元位置情報および方向情報（視線方向）が含まれる。仮想空間におけるユーザ視点ＵＶは、例えばセンサ部３４０により検出されるユーザ頭部の動き（前後左右や上下への動き、傾く動き）に追随して変化する。この場合、ビルボード制御部３２３は、仮想空間においてユーザ視点ＵＶ（視線方向、頭部の向き）に正対するようビルボード５００を制御することで、厚さの無いビルボード５００が斜めから視聴されるといった不自然な視聴状態を回避し得る。また、この際、ビルボード制御部３２３は、ビルボード５００の底辺を床面に接地させながらＹａｗ回転またはＰｉｔｃｈ回転させる。ここで、図７に、ビルボード５００の回転制御について説明する図を示す。

　図７左に示すように、本実施形態では、例えばＨＭＤ３３０ａ（表示部３３０の一例）を頭部に装着したユーザが椅子等に座った状態で仮想空間を視聴している場合を想定する。この場合、ユーザ頭部の動きに応じて、仮想空間内のユーザ視点ＵＶも移動するため、ユーザは仮想空間を自由視点で視聴することができる。そして、仮想空間の床面５１１に配置されるビルボード５００（演者の実写３Ｄモデルの２Ｄ画像が描画されるスクリーンオブジェクト）は、常にユーザ視点ＵＶに正対するようビルボード制御部３２３により制御される。具体的には、上述したように、ビルボード５００の底辺をミラーリングステージの床面５１１に接地させた状態で、床面５１１に対して垂直なＹ軸を回転軸としたＹａｗ回転制御、または、床面５１１と水平のｘ軸を回転軸としたＰｉｔｃｈ回転制御される。このように、回転制御中にビルボード５００が床面から離れないようにすることで、ビルボード５００に描画される演者（実写３Ｄモデルの２Ｄ画像）の足元と床面が接地する状態を回転制御中も維持し、演者の足元が不自然に床面（ステージ）から離れるといった不自然な見え方を回避することができる。

　そして、視点情報送信制御部３２４は、視点情報を配信サーバ２０へ送信する（ステップＳ１６１）。視点情報とは、センサ部３４０により検出されるユーザの頭部の位置姿勢を示す情報である。視点情報送信制御部３２４は、センサ部３４０により検出されたセンシングデータを視点情報として送信してもよいし、センシングデータに基づいて算出された仮想空間におけるユーザ視点の情報（グローバル座標位置、および視線方向を含む情報）を視点情報として送信してもよい。視点情報の送信は継続的に行われ得る。これにより、リアルタイムのユーザ視点に対応する実写３Ｄモデルのステレオ２Ｄ画像が配信サーバ２０から送信され（上記ステップＳ１４６）、ユーザ視点に正対するビルボード５００に描画することが可能となる（上記ステップＳ１５２）。本実施形態によれば、２Ｄ画像の配信を用いることで低遅延を実現し、かつ、視聴者端末３０側からは視点情報を送信するという双方向データ通信により、演者を上から見たり左右から覗き込んだりする自由視点視聴を可能とする。またさらに、ステレオ２Ｄ画像を配信し、ステレオビルボードを用いることで、立体視画像を低遅延でユーザに提供することが可能となる。

　視聴者端末３０の制御部３２０は、以上説明した処理をライブ配信終了まで繰り返す。

　なお、図６に示す動作処理は一例であって、各ステップが必ずしも図６に示す順番で行われる必要はない。各ステップは適宜並列または逆の順で行われてもよい。例えば、ステップＳ１４６～Ｓ１５２による描画処理と、ステップＳ１５５～Ｓ１５８によるビルボード回転制御処理と、Ｓ１６１による情報送信処理は、継続的に並列して行われてもよい。

　＜＜４．変形例＞＞
　続いて、本実施形態の変形例について説明する。

　＜４－１．ワープ移動＞
　上述した実施形態では、小エリアでの視点移動を想定している。推奨される視聴状態としては、ユーザが歩き回ったりせずに座った状態で視聴する座位視聴である。ユーザは座った状態で頭部を上下左右に動かしたり、傾けたりして自由視点視聴し得る。上述した実施形態の変形例として、このような小エリアでの視点移動に限定されるＮパターンの視点を事前に用意し、ユーザが任意に移動できるようにしてもよい。Ｎパターンの視聴位置としては、例えば仮想空間がライブ会場の場合、アリーナ席、２階席、遠方から俯瞰できる席、真正面の最前席、サイドの最前席等が挙げられる。図８は、Ｎパターンの視聴位置の一例について説明する図である。図８に示すように、例えば中央のステージ４１０に対して、正面エリアのＰ１視点や、サイドエリアのＰ２視点、サイド遠方（２階席）のＰ３視点、斜め後方のＰ４視点等を用意してもよい。本システムでは、チケット購入したＰｎ視点のみから視聴できるようにしてもよい。多数のＰｎ視点から視聴できるチケットを購入した視聴者に対しては、任意のＰｎ視点に移動できるようにしてもよい。また、本システムでは、視聴者全員が任意のＰｎ視点に移動できるようにしてもよい。本明細書では、事前に用意されたＮパターンの視点間の移動を、ワープ移動と称する。

　（システム構成）
　図９は、本実施形態の変形例によるＮパターンの視点を事前に用意する場合のシステム構成の一例を示す図である。図９に示すように、用意するＮパターンの視点毎に配信サーバ２０（２０Ａ、２０Ｂ、２０Ｃ・・・）を設け、各視聴者端末３０は、選択したＰｎ視点に対応する配信サーバ２０と通信接続する。各配信サーバ２０では、仮想空間を生成し、各Ｐｎ視点（小エリア）において、ユーザ視点をリアルタイムに反映させたステレオ２Ｄ画像を視聴者端末３０に送信する。Ｐｎ視点配信サーバ２０Ａ、２０Ｂ、２０Ｃ・・・の構成は、図２に示す構成と同様である。

　Ｐｎ視点間の移動、すなわちワープ移動を行う際は、各視聴者端末３０は通信接続する配信サーバ２０の切り替えを行う。例えば、まず、視聴者端末３０Ｂが、正面エリアのＰ１視点での視聴（小エリアでの視点移動）を行う場合、Ｐ１視点配信サーバ２０Ａと通信接続する。次いで、サイドエリアのＰ２視点にワープ移動する場合、図９に示すように、視聴者端末３０は、Ｐ２視点配信サーバ２０Ｂと通信接続に切り替える。これにより、Ｐ２視点配信サーバ２０Ｂから、サイドエリアのＰ２視点における実写３Ｄモデルのステレオ２Ｄ画像を取得し得る。

　なお、ワープ移動の操作は、ユーザが把持するコントローラや、ＨＭＤに設けられるボタン、スイッチ等により行われてもよい。また、ワープ移動は、移動距離が大きい離散的な移動であるが、移動距離が小さい無数の離散的視点移動の視聴に対応することも可能である。具体的には、視聴者端末３０の描画処理部３２２は、現在位置（例えばステージ正面）からワープ移動先（例えばステージ斜め後ろ）まで、仮想空間内の仮想カメラを、移動距離が小さい無数の離散的視点の移動により到達させてもよい。この際、ビルボード制御部３２３は、ビルボード５００の回転制御をＹａｗ回転のみに限定することで、上下方向の視点移動量を微小量とし、立体視歪みの発生を低減する。図１０は、本実施形態の変形例によるワープ移動の際のビルボードの回転制御について説明する図である。描画処理部３２２は、図１０に示すように、Ｙ軸を回転軸とするＹａｗ回転のみで、ユーザ視点ＵＶに対応するステレオ仮想カメラＵＣに正対するようビルボード５００（ステレオビルボード）を制御する。

　（動作処理）
　図１１は、本実施形態の変形例による視聴者端末３０の動作処理の流れの一例を示すフローチャートである。

　図１１に示すステップＳ１８３～Ｓ１９５は、図６に示すステップＳ１４３～Ｓ１５５と同様であるため、ここでの説明を省略する。

　次に、ユーザ視点が移動した場合（ステップＳ１９５／Ｙｅｓ）、ユーザ視点の移動がワープ移動（移動距離が大きな離散的な移動）であるか否かの判断を行う（ステップＳ１９８）。

　次いで、ワープ移動ではない場合（ステップＳ１９８／Ｎｏ）、図６に示すステップ１５８と同様に、ビルボード制御部３２３は、ビルボード５００の底辺を床面に接地させながらユーザ視点ＵＶに正対するようビルボード５００の向きをＹａｗ回転またはＰｉｔｃｈ回転させる制御を行う（ステップＳ２０１）。

　次に、視点情報送信制御部３２４は、視点情報を配信サーバ２０へ送信する（ステップＳ２０４）。

　一方、ワープ移動の場合（ステップＳ１９８／Ｙｅｓ）、ビルボード制御部３２３は、ビルボード５００の底辺を床面に接地させながらユーザ視点ＵＶに正対するようビルボード５００の向きをＹａｗ回転させる制御を行う（ステップＳ２０７）。

　そして、視点情報送信制御部３２４は、視点情報をワープ移動先に対応する配信サーバ２０へ送信する（ステップＳ２１０）。図９を参照して説明したように、Ｐｎ視点毎に配信サーバ２０が用意されている場合、視点情報送信制御部３２４は、ワープ移動先のＰｎ視点のステレオ２Ｄ画像を配信ししている配信サーバ２０と通信接続し、ユーザの視点情報を送信する。なお、視聴者端末３０は、各Ｐｎ視点と対応する配信サーバ２０の情報（例えば通信接続に必要な情報）を、ライブ配信開始前に予めいずれかの配信サーバ２０から取得し得る。

　（システム構成の他の例）
　上述した変形例では、小エリアでの視点移動に限定されるＮパターンの各Ｐｎ視点と対応する配信サーバ２０を各々用意したが、本変形例はこれに限定されず、複数視点を同時配信する配信サーバ２０を用いてもよい。図１２は、本実施形態の変形例のシステム構成の他の例を示す図である。

　図１２に示すように、仮想空間における各Ｐｎ視点での各ユーザ視点に対応するステレオ２Ｄ画像を配信可能な複数視点配信サーバ２０Ｍを用いることで、視聴者端末３０では、各々任意の視点から視聴することが可能となる。複数視点配信サーバ２０Ｍの構成は、図２に示す構成と同様である。制御部２２０は、各Ｐｎ視点におけるステレオ仮想カメラを各ユーザ視点の動きにリアルタイムに反映させる制御を行い、各視聴者端末３０に対して、各ユーザ視点に対応するステレオ２Ｄ画像を送信する制御を行う。また、各視聴者端末３０からは、視点選択情報が送信され得る。

　これにより、ワープ移動する際に、視聴者端末３０は、別視点の２Ｄステレオストリームに切り替える（他の配信サーバ２０に切り替える）必要が無くなる。

　また、配信サーバ２０Ｍは、一の視聴者端末３０に、複数のＰｎ視点における実写３Ｄモデルのステレオ２Ｄ画像を送信してもよい。視聴者端末３０では、複数のＰｎ視点に対応する仮想空間を生成し、受信したステレオ２Ｄ画像を各仮想空間のビルボードに描画し、複数の表示用画像を生成し得る。これにより、視聴者端末３０は、例えば図１３に示すように、表示部３３０に複数視点からの立体視画像を同時出力することが可能となる。ユーザは、表示部３３０に表示された表示画像３３２ａ～３３２ｄから一の視聴視点を選択してもよいし、複数視点を同時に視聴してもよい。

　＜４－２．デプス情報を用いたオクルージョン制度の向上＞
　配信サーバ２０のステレオ２Ｄ画像生成部２２４は、ステレオ２Ｄ画像生成時に、ステレオデプス情報を算出し、視聴者端末３０への２Ｄステレオストリームにおいて、併せてステレオデプス情報を送信してもよい。視聴者端末３０の描画処理部３２２は、実写３Ｄモデルのステレオ２Ｄ画像のデプス情報に基づいて、ローカル仮想空間に配置するビルボードの画像（実写３Ｄモデルの像）と、当該空間に配置される他の仮想オブジェクトの前後関係の位置補正を行うことが可能となる。より具体的には、影のレンダリング配置に利用することが可能である。すなわち、演者（ビルボードの画像）の足元と、床面に配置する影が離れ、演者が浮いてるように見えてしまうことを回避できる。

　これにより、演者（ビルボードの画像）と、床面の影との位置関係（仮想オブジェクトの前後関係）を正しく表現することが可能となる。

　＜４－３．影付きのステレオ２Ｄ画像の生成＞
　上述した実施形態では、配信サーバ２０は、実写３Ｄモデル（演者）のみのステレオ２Ｄ画像を生成しているが、さらに、スタジオのライティング角度を推定し、仮想のライティング処理を行うことで、「演者および影のステレオ２Ｄ画像」をステレオビルボードへの描画用に生成し、視聴者端末３０にストリーミング配信してもよい。スタジオのライティング角度の推定は、予め設定された値に基づいて行ってもよいし、多視点撮像システム１０から取得した情報に基づいて行ってもよい。

　より具体的には、配信サーバ２０の３Ｄモデル生成部２２２は、実写３Ｄモデル生成の際に、スタジオの照明方向を推定し、被写体（演者）の床面への影を併せてモデリングする。なお、ここでは、影が落ちる床面が平面であることを前提とする。

　これにより、視聴者端末３０の描画処理部３２２において、仮想空間のライティングによる演者の床面への影の演算処理負荷や描画を大幅に低減することが可能となる。

　＜４－４．双方向インタラクションの実現＞
　配信サーバ２０のステレオ２Ｄ画像生成部２２４は、２Ｄ画像に映る演者の顔や手の位置推定や、全身のボーン検出からポーズ推定等を行い（空間位置の認識）、視聴者端末３０への２Ｄステレオストリームにおいて、演者（被写体）のモーダル情報として併せて送信してもよい。より具体的には、配信サーバ２０の制御部２２０は、演者の視差付き２Ｄステレオビルボードストリーミングパケットに、メタデータとしてモーダル情報（演者の手、顔、全身などの空間座標値）を付与する。

　視聴者端末３０では、ステレオ２Ｄ画像が描画されるビルボード５００の配置箇所において、実写３Ｄモデル（演者）の顔、手、全身のポーズなどの空間座標値（モーダル情報）を画像フレーム毎に重畳し、演者（配信者）と視聴者の双方向インタラクションを実現してもよい。例えば、視聴者端末３０は、演者の顔や手の向き、全身のポーズなどの空間座標値から、演者のポインティングゾーン（演者が指し示す場所）を推定し、ポインティングした先のエリアから立体音響で歓声が湧き起こしたり、ポインティングした先のエリアをスポットライトで照らしたりする演出を行ってもよい。また、視聴者端末３０は、ポインティングした先のエリアに位置する視聴者（観客）アバターが所持するサイリウムの色を変化させてもよい。また、視聴者端末３０は、ポインティングした先のエリアに位置するＮＰＣ（non　player　character）群衆のモーションを変えてもよい（例えば手拍子から声援に変える）。

　また、視聴者端末３０は、演者のポーズなど身体の動作に応じて、手や頭、身体の空間座標値に、所定のエフェクト（仮想オブジェクト）を重畳（配置）することも可能である。

　また、視聴者端末３０は、演者の手の空間座標位置と、視聴者が手の位置（具体的には、手に把持するコントローラの空間座標位置）とが近付いた際（所定の距離以下となった場合）に、コントローラに振動（触覚刺激）を与える等して演者とハイタッチしているような体験を視聴者に提供することも可能である。

　このように、演者のモーダル情報を用いることで、演者と視聴者の双方向のインタラクションが実現される。

　＜＜５．補足＞＞
　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、演者の３Ｄモデルは実写３Ｄモデルに限定されず、モーションキャプチャにより得た演者の動きを反映する３ＤＣＧキャラクタであってもよい。

　また、表示部３３０がスマートフォンやタブレット等のモバイル端末に設けられるディスプレイの場合、視聴者端末３０は、モバイル端末の姿勢（３軸方向における向き）に応じてユーザの視点方向を検出してもよい。また、視聴者端末３０は、視点移動の操作（ワープ移動を含む）を、ディスプレイへのタッチ操作（タッチポイント）により受け付けてもよい。また、視聴者端末３０は、モバイル端末に設けられる外向きカメラにより取得される撮像画像を用いるＳＬＡＭ（Simultaneous　Localization　and　Mapping）技術により、視点移動を推定してもよい。また、視聴者端末３０は、ディスプレイへのタッチ操作に応じてモバイル端末に設けられる振動部を振動させ、演者とのハイタッチ等の双方向インタラクションを実現してもよい。

　また、配信サーバ２０のステレオ仮想カメラ制御部２２３は、事前に用意したカメラワークによりステレオ仮想カメラを制御してもよい。また、本システムの変形例として、単眼の仮想カメラとシングルのビルボードに置き換えることも可能である。

　上述した実施形態では、コンテンツ格納サーバから予め仮想空間の情報を受信してローカルの仮想空間を生成する旨を説明したが、本発明はこれに限定されない。例えば、仮想空間の情報を生成、送信するサーバと、ライブ配信するサーバは同一であってもよい。

　また、視聴者端末３０は、ライブ配信中に、仮想空間の更新情報を仮想空間制御サーバ（不図示）から受信し、ローカルの仮想空間に反映させてもよい。仮想空間制御サーバは、仮想空間に配置される各仮想オブジェクトのリアルタイム制御を行うサーバである。仮想オブジェクトのリアルタイム制御とは、例えば、各視聴者アバターの位置姿勢の制御、背景データの切り替え制御、エフェクトやライティングの制御等が挙げられる。

　また、上述した実施形態では、被写体の一例として「演者」と記載したが、被写体は人間に限定されず、動物や物体等であってもよい。

　また、上述した配信サーバ２０または視聴者端末３０に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、配信サーバ２０または視聴者端末３０による処理の機能を発揮させるための１以上のコンピュータプログラムも作成可能である。また、当該１以上のコンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部を備え、
　前記制御部は、
　　前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する制御を行う、情報処理装置。
（２）
　前記２次元画像は、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含むステレオ画像である、前記（１）に記載の情報処理装置。
（３）
　前記ステレオ画像は、前記視聴者端末で生成される仮想空間に配置されるビルボードに描画される、前記（２）に記載の情報処理装置。
（４）
　前記３次元モデルは、実空間において被写体を複数の視点から同時に撮像して得られる多視点撮像画像に基づいて生成される、前記（１）～（３）のいずれか１に記載の情報処理装置。
（５）
　前記制御部は、前記２次元画像に映る被写体の像のデプス情報を併せて前記視聴者端末に送信する制御を行う、前記（４）に記載の情報処理装置。
（６）
　前記制御部は、前記被写体の影を含む前記２次元画像を生成し、前記視聴者端末に送信する制御を行う、前記（４）または（５）に記載の情報処理装置。
（７）
　前記制御部は、前記２次元画像に映る被写体の像の頭、手、または身体の空間位置の認識結果を併せて前記視聴者端末に送信する制御を行う、前記（４）～（６）のいずれか１項に記載の情報処理装置。
（８）
　ユーザ視点の情報を配信サーバに送信する送信部と、
　前記配信サーバから、３次元モデルが配置される仮想空間において、前記ユーザ視点に対応する仮想カメラで撮像された前記３次元モデルの２次元画像を受信する受信部と、
　前記２次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対する位置に配置する制御を行う制御部と、
を備える、情報処理端末。
（９）
　前記２次元画像は、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含むステレオ画像である、前記（８）に記載の情報処理端末。
（１０）
　前記制御部は、前記２次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対するよう回転制御されるビルボードに描画する処理を行う、前記（８）または（９）に記載の情報処理端末。
（１１）
　前記ビルボードは、前記２次元画像に含まれる左目用画像および右目用画像が各々描画されるステレオビルボードであり、
　前記制御部は、前記ローカルの仮想空間における前記ユーザ視点の画像をステレオ仮想カメラにより取得し、表示部に表示する制御を行う、前記（１０）に記載の情報処理端末。
（１２）
　前記制御部は、前記ビルボードの底辺が前記ローカルの仮想空間で定義された床面に接地した状態で、前記ユーザ視点に正対するよう回転制御する、前記（１０）または（１１）に記載の情報処理端末。
（１３）
　前記受信部は、前記２次元画像に映る被写体の像のデプス情報を受信し、
　前記制御部は、前記デプス情報に基づいて、前記ローカルの仮想空間において、前記２次元画像に映る被写体の像と、周辺の仮想オブジェクトとの位置関係を補正する、前記（８）～（１２）のいずれか１項に記載の情報処理端末。
（１４）
　前記受信部は、前記２次元画像に映る被写体の像の頭、手、または身体の空間位置の認識結果を受信し、
　前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、所定の事象を発生させる制御を行う、前記（８）～（１３）のいずれか１項に記載の情報処理端末。
（１５）
　前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、前記被写体によるポインティングゾーンを推定し、当該ポインティングゾーンに相当するエリアに対して所定の事象を発生させる制御を行う、前記（１４）に記載の情報処理端末。
（１６）
　前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、前記被写体の手の位置と視聴者の手の位置が近付いた場合、前記視聴者が把持するコントローラにより触覚刺激を呈示する制御を行う、前記（１４）に記載の情報処理端末。
（１７）
　前記ユーザ視点の情報は、ユーザの視点方向または視点移動の情報を少なくとも含む、前記（８）～（１６）のいずれか１項に記載の情報処理端末。
（１８）
　前記視点方向は、前記情報処理端末の向きに対応する、前記（１７）に記載の情報処理端末。
（１９）
　プロセッサが、
　仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行うことを含み、
　さらに、前記制御では、前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する、情報処理方法。
（２０）
　コンピュータを、
　仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部として機能させるプログラムを記憶し、
　前記制御部は、
　　前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する制御を行う、記憶媒体。

　１０　多視点撮像システム
　１１　カメラ
　１２　多視点画像生成装置
　２０　配信サーバ
　　２１０　通信部
　　２２０　制御部
　　　２２１　仮想空間生成部
　　　２２２　３Ｄモデル生成部
　　　２２３　ステレオ仮想カメラ制御部
　　　２２４　ステレオ２Ｄ画像生成部
　　２３０　記憶部
　３０　視聴者端末
　　３１０　通信部
　　３２０　制御部
　　　３２１　仮想空間生成部
　　　３２２　描画処理部
　　　３２３　ビルボード制御部
　　　３２４　視点情報送信制御部
　　３３０　表示部
　　３４０　センサ部
　　３５０　操作入力部
　　３６０　記憶部

Claims

　仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部を備え、
　前記制御部は、
　　前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する制御を行う、情報処理装置。
　前記２次元画像は、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含むステレオ画像である、請求項１に記載の情報処理装置。
　前記ステレオ画像は、前記視聴者端末で生成される仮想空間に配置されるビルボードに描画される、請求項２に記載の情報処理装置。
　前記３次元モデルは、実空間において被写体を複数の視点から同時に撮像して得られる多視点撮像画像に基づいて生成される、請求項１に記載の情報処理装置。
　前記制御部は、前記２次元画像に映る被写体の像のデプス情報を併せて前記視聴者端末に送信する制御を行う、請求項４に記載の情報処理装置。
　前記制御部は、前記被写体の影を含む前記２次元画像を生成し、前記視聴者端末に送信する制御を行う、請求項４に記載の情報処理装置。
　前記制御部は、前記２次元画像に映る被写体の像の頭、手、または身体の空間位置の認識結果を併せて前記視聴者端末に送信する制御を行う、請求項４に記載の情報処理装置。
　ユーザ視点の情報を配信サーバに送信する送信部と、
　前記配信サーバから、３次元モデルが配置される仮想空間において、前記ユーザ視点に対応する仮想カメラで撮像された前記３次元モデルの２次元画像を受信する受信部と、
　前記２次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対する位置に配置する制御を行う制御部と、
を備える、情報処理端末。
　前記２次元画像は、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含むステレオ画像である、請求項８に記載の情報処理端末。
　前記制御部は、前記２次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対するよう回転制御されるビルボードに描画する処理を行う、請求項８に記載の情報処理端末。
　前記ビルボードは、前記２次元画像に含まれる左目用画像および右目用画像が各々描画されるステレオビルボードであり、
　前記制御部は、前記ローカルの仮想空間における前記ユーザ視点の画像をステレオ仮想カメラにより取得し、表示部に表示する制御を行う、請求項１０に記載の情報処理端末。
　前記制御部は、前記ビルボードの底辺が前記ローカルの仮想空間で定義された床面に接地した状態で、前記ユーザ視点に正対するよう回転制御する、請求項１０に記載の情報処理端末。
　前記受信部は、前記２次元画像に映る被写体の像のデプス情報を受信し、
　前記制御部は、前記デプス情報に基づいて、前記ローカルの仮想空間において、前記２次元画像に映る被写体の像と、周辺の仮想オブジェクトとの位置関係を補正する、請求項８に記載の情報処理端末。
　前記受信部は、前記２次元画像に映る被写体の像の頭、手、または身体の空間位置の認識結果を受信し、
　前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、所定の事象を発生させる制御を行う、請求項８に記載の情報処理端末。
　前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、前記被写体によるポインティングゾーンを推定し、当該ポインティングゾーンに相当するエリアに対して所定の事象を発生させる制御を行う、請求項１４に記載の情報処理端末。
　前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、前記被写体の手の位置と視聴者の手の位置が近付いた場合、前記視聴者が把持するコントローラにより触覚刺激を呈示する制御を行う、請求項１４に記載の情報処理端末。
　前記ユーザ視点の情報は、ユーザの視点方向または視点移動の情報を少なくとも含む、請求項８に記載の情報処理端末。
　前記視点方向は、前記情報処理端末の向きに対応する、請求項１７に記載の情報処理端末。
　プロセッサが、
　仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行うことを含み、
　さらに、前記制御では、前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する、情報処理方法。
　コンピュータを、
　仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部として機能させるプログラムを記憶し、
　前記制御部は、
　　前記仮想空間に配置される３次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した２次元画像を視聴者端末に送信する制御を行う、記憶媒体。