WO2021172506A1

WO2021172506A1 - 動画配信方法、動画再生方法、動画配信装置、及び配信データ構造

Info

Publication number: WO2021172506A1
Application number: PCT/JP2021/007303
Authority: WO
Inventors: 巧馬平山
Original assignee: 株式会社近江デジタルファブリケーションズ
Priority date: 2020-02-29
Filing date: 2021-02-26
Publication date: 2021-09-02
Also published as: US20220368957A1; CN114207562A; EP4124022A1; EP4124022A4; JPWO2021172506A1

Abstract

【課題】ユーザの視線の変化に起因するサーバ負荷の増大を軽減する動画配信方法および動画配信装置を提供する。【解決手段】カメラ１０を観測点とする天球に定められた複数の視点ごとに、当該天球を含む映像ストリーム４４を記憶させるステップ、ユーザ端末１４に対して前記映像ストリーム４４を配信させる配信ステップ、を含み、前記配信ステップは、前記ユーザ端末１４で決定された視線に対応する前記天球における最近傍の視点以外の前記視点の映像ストリーム４４を配信させることを特徴とする。

Description

動画配信方法、動画再生方法、動画配信装置、及び配信データ構造

　本発明は、動画を配信する動画配信方法、動画再生方法、動画配信装置、及び配信データ構造に関するものである。

　静止画や動画を配信する配信システムが知られている。例えば、特許文献１の配信システムは、サーバとクライアントを備えており、当該サーバのメモリには配信すべき動画を構成するキーフレーム画像および差分フレーム画像が記憶されている。そして、サーバがクライアントからのリクエストを受信した場合に、上記メモリに記憶されたキーフレーム画像や差分フレーム画像をクライアントに配信する構成となっている。

　ここで、非特許文献１に記載のパノラマ動画配信システムでは、背景全体を低解像度画像として配信するとともに、ユーザの視線に対応する部分を高解像度画像として切り取って配信するサーバを備えている。低解像度画像と高解像度画像を受信したクライアントは、これらの画像を合成して画面に表示することで、ユーザが見ている部分を高画質で表示することを可能にしている。

特許第６１４９９６７号公報

ＮＴＴテクノクロス「パノラマ超プレイヤ／パノラマ超エンジン」、［令和2年2月23日検索］、インターネット＜https://www.ntt-tx.co.jp/products/panocho/＞

　しかしながら、上記サーバは、時事刻々と変化するユーザの視点に合わせて高解像度画像を切り取る処理を実行しなければならないため、サーバに対して多数のユーザがアクセスすると、その分サーバの負荷が増大することとなる。さらに、特許文献１のように、送信すべき動画（高画質動画）についてキーフレーム画像および差分フレーム画像の生成をおこなうこととなれば、サーバの負荷はさらに増大することとなる。

　本願発明は、ユーザの視線の変化に起因するサーバ負荷の増大を軽減する動画配信方法、動画再生方法、動画配信装置、及び配信データ構造を提供することを目的とする。

　上記の目的を達成するため、本発明の動画配信方法は、カメラを観測点とする天球に定められた複数の視点ごとに、当該天球を含む映像ストリームを記憶させるステップ、ユーザの端末に対して前記映像ストリームを配信させる配信ステップ、を含み、前記配信ステップは、前記ユーザの端末で決定された視線に対応する前記天球における最近傍の視点以外の前記視点の映像ストリームを配信させることを特徴とする。

　また、上記の目的を達成するため、本発明の動画再生方法は、カメラを観測点とする天球に定められた複数の視点ごとに、当該天球を含む映像ストリームを記憶させるステップ、ユーザの端末において前記映像ストリームを再生する再生ステップ、を含み、前記再生ステップは、前記ユーザの端末で決定された視線に対応する前記天球における最近傍の視点以外の前記視点の映像ストリームを再生することを特徴とする。

　また、上記目的を達成するため、本発明の動画配信装置は、カメラを観測点とする天球に定められた複数の視点ごとに、当該天球を含む映像ストリームを記憶する記憶部と、ユーザの端末に対して前記映像ストリームを配信する配信部と、を備え、前記配信部は、前記ユーザの端末で決定された視線に対応する前記天球における最近傍の視点以外の前記視点の映像ストリームを配信することを特徴とする。

　さらに、本発明の配信データ構造は、特定の観測点から向けられた視線上にある画像を中心部に含み、当該中心部の外側に、当該観測点から撮影された天球の画像を含む映像ストリームを備え、前記映像ストリームは、特定の観測点から向けられた第一の視線上にある視点の画像を中心部に含む第一の映像ストリームと、前記観測点から向けられた第二の視線上にある視点の画像を中心部に含む第二の映像ストリームと、を含む。

　本発明の動画配信方法、動画再生方法、動画配信装置、及び配信データ構造によれば、ユーザの視線の変化に起因するサーバ負荷の増大を軽減することができる。

本実施形態の動画配信システムの概略図（ａ）上記動画配信システムのユーザ端末のハードウェア概略図、（ｂ）上記動画配信システムのカメラのハードウェア概略図、（ｃ）上記動画配信システムのサーバのハードウェア概略図（ａ）上記サーバにおいて実行される動画生成配信プログラムのフロー図、（ｂ）動画生成プログラムにおける生成処理のフロー図生成処理において生成される画像を示す図視点の位置を示す図。映像ストリーム生成処理における画素の抽出過程を示す図視点別キーフレーム画像と仮想球の対応関係を示す図画角情報の関数の例を示す図視点別キーフレーム画像における低画質部分を生成する場合の対応関係を示す図視点別の一群の映像ストリームの例を示す図ユーザ端末のフロー図

［第１実施形態］

　以下、図面を参照しながら、本発明の実施形態に係る動画配信システムおよび動画配信方法を説明する。

　図１に示すように、第１実施形態の動画配信システム１は、ユーザの端末１４（以下、ユーザ端末１４）に動画（映像ストリーム４４）を配信するシステムであって、画像を生成するカメラ１０と、当該カメラ１０から取得した画像に基づいて配信用の動画を生成する配信装置として機能するサーバ１２と、を備える。これらカメラ１０、サーバ１２、及びユーザ端末１４は、インターネット通信回線に代表されるネットワークに接続されており、サーバ１２はカメラ１０とユーザ端末１４に対して通信可能となっている。

　ユーザ端末１４は、例えば公知のスマートフォンやタブレット端末などの携帯情報端末であり、図２（ａ）に示すように、インターネット通信回線に接続するためのインターフェイスである通信モジュール１６（通信部）と、サーバ１２から受信した動画を表示する液晶ディスプレイ１８（表示部）と、当該液晶ディスプイレイ１８上に重畳配置され、ユーザからの入力を受け付けるタッチパネル２０（入力部）と、端末の姿勢を検出する角速度センサ２２（検出部）と、メモリ２４に記憶されたプログラムを実行することで液晶ディスプレイ１８、タッチパネル２０、及び角速度センサ２２を制御するＣＰＵ２６（制御部）と、を備えている。

　カメラ１０は、少なくとも半天球画像を生成する装置であって、図２（ｂ）に示すように、イメージセンサ２８と、当該イメージセンサ２８を観測点とする半径無限大の仮想の半球面の像（イメージサークル）を当該イメージセンサ２８の受光面内に結像させる光学部品である魚眼レンズと、イメージセンサ２８を制御して、イメージセンサ２８から出力された電気信号に基づいて半天球画像を生成するＣＰＵ３０と、インターネット通信回線に接続するための通信モジュール３２と、を備えている。当該カメラ１０は、６０ｆｐｓ（frames per second）のフレームレートで、半天球画像を生成する。このようにして生成された複数の連続する半天球画像は、生成された時系列順にメモリ３４に記憶される。一定期間撮像され生成された複数の半天球画像（一群の半天球画像）がメモリ３４に蓄積されると、カメラ１０はメモリ３４に記憶した一群の半天球画像を、インターネット通信回線を介して、サーバ１２へと送信する。

　サーバ１２は、上記一群の半天球画像に基づいて生成した配信データである動画（映像ストリーム４４）をユーザ端末１４に対して配信する端末であって、図２（ｃ）に示すように、インターネット通信回線に接続された通信モジュール３６と、動画生成配信プログラムが記憶されたメモリ３８と、当該動画生成配信プログラムを実行するＣＰＵ４０と、を備えている。

　当該動画生成配信プログラムは、図３（ａ）に示すように、カメラ１０から一群の半天球画像を取得する取得処理（ｓ１０）、取得した一群の半天球画像から配信用の映像ストリーム４４を生成する生成処理（ｓ２０）、ユーザ端末１４からのリクエストに対応する映像ストリーム４４をユーザ端末１４に配信する配信処理（ｓ３０）をサーバ１２に実行させるプログラムである。本実施形態において、生成処理（ｓ２０）において生成される映像ストリーム４４は、図５に示すように、カメラ１０のイメージセンサ２８を基点とする半径無限大の仮想的な全天球上に予め定められた視点毎に生成される。換言すれば、カメラ１０によって生成された半天球画像が仮想的な全天球にマッピングされた場合において、当該全天球の中心をユーザの視座として、当該視座から当該全天球を観察する際における全天球上の視点を複数箇所に設定し、当該複数箇所の視点毎に映像ストリーム４４が生成される。そして、配信処理（ｓ３０）において、ユーザ端末１４からのリクエストに含まれるユーザの視線情報に対応する又は近似する一の視点の映像ストリーム４４がユーザ端末１４へと送信される。以下、具体的に説明する。

　取得処理（ｓ１０）は、カメラ１０から一群の半天球画像４２（図１，図４）を取得する処理であり、受信した一群の半天球画像４２は時系列の順にメモリ３８に記憶される。このように、サーバ１２は、カメラ１０から一群の半天球画像４２を取得する取得部として機能する。また、サーバ１２のメモリ３８は一群の半天球画像４２を記憶する記憶部として機能する。

　上記取得処理（ｓ１０）が実行されると生成処理（ｓ２０）が実行される。生成処理（ｓ２０）は、図４に示されるように、メモリ３８に記憶されている一群の半天球画像４２に基づいて、映像ストリーム４４（時系列において連続する連続画像）を予め定められた視点ごとに生成する処理であって、中間画像生成処理（ｓ２１）と、映像ストリーム生成処理（ｓ２２）を含む。

　中間画像生成処理（ｓ２１）は、メモリ３８に記憶された一群の半天球画像４２を抽出し、抽出した一群の半天球画像４２から一群の中間画像４６を生成する（図４）。当該一群の中間画像４６は、公知のフレーム間予測を用いて生成されたキーフレーム画像４６ａと差分フレーム画像４６ｂを含む。本実施形態では、一群の半天球画像４２の中から所定のフレーム毎（本実施形態では６０フレーム毎）に抽出された半天球画像４２ａをキーフレーム画像としている。また、当該半天球画像４２ａ（キーフレーム画像）に続くフレームの他の複数の半天球画像４２ｂについて、その前フレームの半天球画像との差分を求めることで差分フレーム画像４６ｂが生成される。当該中間画像生成処理（ｓ２１）によって生成された一群の中間画像４６は、サーバ１２のメモリ３８に記憶される。なお、一群の半天球画像４２における最後のフレームの半天球画像４２は、一群の中間画像４６における最後のフレームに配されるキーフレーム画像４６ａとして抽出される。このように、サーバ１２のＣＰＵ３８は、一群の中間画像４６を生成する中間画像生成部として機能し、サーバ１２のメモリ３８は一群の中間画像４６を記憶する記憶部として機能する。以下、中間画像生成処理（ｓ２１）で生成されたキーフレーム画像４６ａおよび差分フレーム画像４６ｂをそれぞれ中間キーフレーム画像４６ａおよび中間差分フレーム画像４６ｂという。

　映像ストリーム生成処理（ｓ２２）は、一群の中間画像４６に基づいて、視点別に映像ストリーム４４を生成する処理である。映像ストリーム４４は、ユーザ端末１４に配信される連続画像であって、視点別キーフレーム画像４４ａおよび視点別差分フレーム画像４４ｂを含む。上記のように、当該映像ストリーム４４は、予め定められた複数の視点の各々に対応して生成される。当該予め定められた複数の視点とは、上述の通り図５に示すように、カメラ１０のイメージセンサ２８を観測点（基点）として眺めた全天球を含む仮想的な全天球上に定められた複数の点であって、各々の視点は、当該観測点を基点とするロール角（α）、ピッチ角（β）、ヨー角（γ）から成る視点情報によって定義付けられている。例えば、視点ａについては、（α_ａ，β_a，γ_ａ）のように視点情報が定められており、この視点情報は視点ａに付与された視点識別情報に対応付けてメモリ３８に記憶されている。また、視点ａについて生成された映像ストリーム４４が視点識別情報に対応づけてメモリ３８に記憶されている。すなわち、各視点の視点情報および視点別に生成された映像ストリーム４４は、視点識別情報に対応づけてメモリ３８に記憶されている。

　映像ストリーム４４を構成する視点別キーフレーム画像４４ａや視点別差分フレーム画像４４ｂは、図６（ａ）に示されるように、ユーザ端末１４において展開された場合に、その画像の中心から外側に向かって画質が漸減するように圧縮されている。視点別キーフレーム画像４４ａを例にすると、図６（ｂ）に示されるように、視点別キーフレーム画像４４ａの中心を基点とし、視点別キーフレーム画像４４ａの４辺（縁）に内接する内接円内側の画質が高く、当該内接円の外側（画像の４隅）の画質が低くなるように圧縮される。このような視点別キーフレーム画像４４ａの生成処理を、視点ａを例にして、以下説明する。

　視点ａにおける視点別キーフレーム画像４４ａ（以下、視点ａキーフレーム画像４４ａという）は、図６（ｃ），（ｄ）に示されるように、中間キーフレーム画像４６ａが仮想的にマッピングされた仮想球５６から画素が抽出されて生成される。具体的には、図３（ｂ）に示すように、視点ａキーフレーム画像４４ａを構成すべき各画素について、仮想球５６面上の対応する第１座標が対応式によって算出され（第１算出処理（ｓ２２１））、当該第１座標に視点ａの視点情報を含む回転式を適用して第２座標が算出され（第２算出処理（ｓ２２２））、当該第２座標に位置している仮想球５６面上の画素が抽出される。なお、視点ａキーフレーム画像４４ａの座標は、図７（ｂ）に示すように、その中心を原点とするＸＹ直交座標によって示され、視点ａキーフレーム画像４４ａの横方向（Ｘ座標）は－１≦Ｘ≦１の値をとり、縦方向（Ｙ座標）は－１≦Ｙ≦１の値をとるものとる。また、仮想球５６の座標は図７（ａ）に示すように、その中心を原点とするＸＹＺ直交座標によって示され、仮想球５６の半径ｒは１とする。

　上記の第１算出処理（ｓ２２１）は、視点ａキーフレーム画像４４ａの座標と画角情報に基づいて仮想球５６における球面座標（ｒ，θ，φ）を求める球面座標算出処理、及び当該球面座標に対応する直交座標（ｘ，ｙ，ｚ）を求める直交座標算出処理を含む。なお、画角情報は、ユーザ端末１４の液晶ディスプレイ１８に表示させるべき範囲を指標する情報であって、本実施形態では３０°に定められている。

　図７に示されるように、視点ａキーフレーム画像４４ａに含まれる画素Ｐを例に球面座標算出処理を説明する。仮想球におけるＺ軸に対する角度θｐ´と、Ｘ軸に対する角度φｐ´が次のように求められる。なお、上記の通り仮想球５６の半径ｒは１となる。角度θｐ´は、視点ａキーフレーム画像４４ａのＸＹ直交座標における原点から画素Ｐまでの距離Ｐｒと、所定の画角情報に基づいて定められる。距離Ｐｒについては、画素Ｐの座標値（Ｐｘ，Ｐｙ）に基づいて、次の対応式により定められる。

　そして、算出された距離Ｐｒの値を、画角情報に応じて予め定められた関数ｆ（Ｐｒ）に入力することで角度θｐ´を求める。当該関数は、図８（ａ）に示すように、距離Ｐｒと角度θp´の関係を定めたものであり、例えば画角情報が３０°に設定されている場合には、Ｐｒ＝１の場合にθが３０°になるように関数が定められており、当該関数に対して、上記数１において求められた距離Ｐｒが代入されて点Ｐにおける角度θが求められる。すなわち、関数は、視点ａキーフレーム画像４４ａにおける高画素部分と低画素部分の境界が画角情報に対応するように定められている。当該画角情報および関数は、図８（ｂ）に示されるように、画角情報が９０°の場合にＰｒ＝１の場合にθが９０°になるように定められても良い。また、図８（ｃ）に示されるように１次関数であっても構わない。

　角度φｐ´は、視点ａキーフレーム画像４４ａのＸＹ直交座標におけるφｐと同一であり、当該φｐは点Ｐの座標（Ｐｘ，Ｐｙ）に基づいて、以下の対応式により求められる。

　ここで、図９（ｂ）に示すように、低画質部分を構成している画素、例えば円周Ｃ上にある画素に対して、上記の対応式（数２）と同様に角度φを求めた場合、破線で示された弧（破線弧）上に位置する画素が考慮されず、一点鎖線で示された弧に対応する画素のみが考慮される偏った画素情報の抽出となってしまう。そこで、本実施形態では、円周Ｃに対する破線弧の比率に基づいて、破線部分を含めた円周Ｃ上の点を均等に一点鎖線上に配列することで、画素情報の偏りなく間引き抽出し、視点ａキーフレーム画像４４ａ（映像ストリーム）の情報量の低減を実現している。そのため、例えば円周Ｃ上の画素Ｑには画素Ｑ´に対応する画素情報が抽出されることとなる。このような均等配列を実現するための対応式は次の式になる。

　ここで、φ_ｉは、円周Ｃに対する破線弧の比率（割合）を求めるための角度である。

　上記のようにして、視点ａキーフレーム画像４４ａ中の各画素に対する球面座標（１，θ，φ）が求められると、直交座標算出処理において、次の変換式により各画素に対する第１座標（ｘ１，ｙ１，ｚ１）が求められる。

　直交座標算出処理が実行されると、次いで、第２算出処理が実行される。第２算出処理では、各第１座標に対して、視点情報（α_ａ，β_ａ，γ_ａ）、を含む回転式を適用し第２座標（ｘ２，ｙ２，ｚ２）が求められる。

　上記第２算出処理により、仮想球において抽出されるべき画素が特定される。そして、当該特定された画素の情報を抽出し、抽出した画素の情報を視点ａキーフレーム画像４４ａにおいて対応する各画素に割り当てる。このようにして、高画質部分となる内接円内には、画角に応じて、仮想球上の画素が魚眼画像状に抽出され、低画質部分となる内接円外には画角外となる仮想球上の画素が間引き抽出された視点ａキーフレーム画像４４ａが生成されることとなっている。

　上記の通り、視点ａにおける視点別キーフレーム画像４４ａの生成処理を説明したが、視点ａにおける視点別差分キーフレーム画像４４ｂも同様の処理によって生成される。このようにして視点ａの映像ストリーム４４が生成される。他の視点についても、視点ａと同様の処理によって、映像ストリーム４４（視点別キーフレーム画像４４ａおよび視点別差分フレーム画像４４ｂ）が生成され、生成された映像ストリーム４４は、視点情報に関連付けられて（視点識別情報に対応づけられることにより、視点情報に関連づけられて）サーバ１２のメモリ３８に記憶される。このように、サーバ１２のメモリ３８は視点情報に対応づけて各視点の映像ストリーム４４を記憶する記憶部として機能している。

　上記のようにして、各視点の映像ストリーム４４が生成されるが、本実施形態では、映像ストリーム４４を構成している視点別キーフレーム画像４４ａが視点間で同期しておらず、一の視点の視点別キーフレーム画像４４ａと他の視点の視点別キーフレーム画像４４ａとが時系列において異なるタイミングに配列されてメモリ３８に記憶されている。すなわち、映像ストリーム４４の各々は、互いに、視点別キーフレーム画像４４ａおよび視点別差分フレーム画像４４ｂが時系列において非同期となるよう配列されている。例えば、図１０に示すように、視点ａ～視点ｄの映像ストリーム４４において、各視点ａ～ｄの視点別キーフレーム画像ＫＦ００２ａ，ＫＦ００２ｂ，ＫＦ００２ｃ，ＫＦ００２ｄは、中間キーフレーム画像ＫＦ００２から生成された画像であるが、視点ａキーフレーム画像ＫＦ００２ａに対して、視点ｂキーフレーム画像ＫＦ００２ｂは４フレーム分遅延するように配列されており、視点ｃキーフレーム画像ＫＦ００２ｃは９フレーム分遅延するように配列されており、視点ｄキーフレーム画像ＫＦ００２ｄは１４フレーム分遅延するように配列されている。上記のように視点ごとに映像ストリーム４４が互いに非同期となるよう、例えば視点ｂの映像ストリーム４４においては、１フレームから４フレームに亘って視点ｂキーフレーム画像ＫＦ００１ｂ（先頭の視点別キーフレーム画像４４ａ）を連続的に配列している。

　次に、ユーザ端末１４に対する配信処理（ｓ３０）を説明する。

　配信処理（ｓ３０）に先立って、サーバ１２は、不図示のシグナリングサーバ１２によって、ユーザ端末１４との間でｐｅｅｒ－ｔｏ－ｐｅｅｒ接続が確立され、相互に通信可能となり、ユーザ端末１４からのリクエスト（ｓ４０）を受信する（図１１）。当該リクエストは、サーバ１２に対して動画の配信をリクエストする情報であり、ユーザ端末１４の視線情報が含まれている。視線情報は、ユーザの視線（ユーザ端末１４に表示させるべき画像の中心）を指標する情報であって、ユーザ端末１４のＣＰＵ２６が角速度センサ２２の出力信号に基づいて決定するロール角（α）、ピッチ角（β）、及びヨー角（γ）を含む。

　サーバ１２は、ユーザ端末１４からリクエストを受信すると、当該リクエストに含まれている視線情報とメモリに記憶されている複数の視点情報を比較し、視線情報と一致又は近似する視点情報に対応する映像ストリーム４４をユーザ端末１４に対して配信する。

　ユーザ端末１４は、図１１に示すように、映像ストリーム４４を受信すると展開処理（ｓ６０）を行う。展開処理（ｓ６０）では、先ず、受信した映像ストリーム４４に基づいて、展開用のキーフレーム画像および差分フレーム画像を生成する。展開用のキーフレーム画像の中央部分には、視点別キーフレーム画像４４ａにおける高画質部分の画素がそのまま配置される。当該高画質部分の周りには、視点別キーフレーム画像４４ａにおける低画質部分の画像が配置される。ここで、当該低画質部分の角画素については、そのまま配置するのではなく、上記の数式４を用いてφ_Ｑ’の位置を特定し、特定した位置に画素を配置する。このとき、φ_Ｑ’を含む円周Ｃ上には連続して画素が配置されないため、各画素間を補間する補間処理が行われる。当該補間処理は特に限定されないが、例えば、同一円周上にある画素と画素の間にそれぞれと近似した画素を配置する。当該展開用のキーフレーム画像と同様の処理により、展開用の差分フレーム画像が生成される。

　当該補間処理を経て展開用のキーフレーム画像および展開用の差分フレーム画像が生成されると、公知のパノラマ展開処理を用いて表示用のキーフレーム画像および表示用の差分フレーム画像が生成され、これらの画像に基づいて動画が生成され、ユーザ端末１４に当該動画が表示される。

　ユーザ端末１４に動画が表示（再生）されている間も、ユーザ端末１４は、そのＣＰＵ２６が角速度センサ２２の出力を確認することにより、ユーザの視線を監視し、視線の変化量に合わせて動画の表示座標をシフトさせる。また、ユーザ端末１４は、視線情報を更新し、当該視線情報をサーバ１２へと送信する。

　サーバ１２は、視線情報を受信する度に、時系列においてキーフレームが近くに配置されている映像ストリーム４４の視点情報を抽出し、受信した視線情報と抽出した視点情報とを比較して、最も近似する視点を検索し、近似する視点に対応する映像ストリーム４４をユーザ端末１４に送信する。

　ここで、ユーザの視線が視線ａから視線ｆに変化する間、具体的には、ユーザの端末操作によりユーザ端末１４の姿勢が変化し、当該姿勢の変化に基づいて検出されたユーザの視線が視点ａから視点ｆに変化する間には下記のようにして映像ストリーム４４が配信される。

　サーバ１２は、ユーザ端末１４から視線情報を受信すると、その受信した時点との関係で視点別キーフレーム画像４４ａが時系列において近いタイミングに配置されている映像ストリーム４４を検索する。具体的には、メモリ３８に記憶されている映像ストリーム４４の各々は、上記の通り、時系列において互いに非同期となるように生成されているので、映像ストリーム４４における視点別キーフレーム画像４４ａの配置位置（配置タイミング）が、複数の映像ストリーム４４において互いに異なっている。サーバ１２のＣＰＵ１２は、各映像ストリーム４４におけるキーフレーム周期（６０フレーム）と、各映像ストリーム４４に設定されている遅延分に基づいて、キーフレーム画像の配置位置（配置タイミング）を算出し、視線情報を受信した時点において配信しているフレーム画像（ユーザ端末１４において再生されているフレーム画像）と、最も近いタイミングに視点別キーフレーム画像４４ａを有する映像ストリーム４４を検索する。
　そして、検索された映像ストリーム４４に対応する視点情報が、変化前の視点（視点ａ）よりも変化後の視点（視点ｆ）に位置的に近いか否かを判定する。

　例えば、視点別キーフレーム画像４４ａを検索した結果、視点ｃの視点別キーフレーム画像４４ａが時系列において近いと判定された場合には、視点ｃは視点ａよりも視点ｆに位置的に近いため、視点ｃの映像ストリーム４４がユーザ端末１４に配信される。

　一方、視点別キーフレーム画像４４ａを検索した結果、視点ｇの視点別キーフレーム画像４４ａが時系列において近いタイミングに配置されていると判定された場合であっても、視点ｇは視点ａよりも視点ｆに位置的に遠いため、視点ａの映像ストリーム４４がユーザ端末１４に配信される。

　本実施形態の動画配信システム１では、予め、複数の視点に対応した映像ストリーム４４を生成しておくため、ユーザの視線が生じた場合でも、当該視線によって求められた視点に対応する映像ストリーム４４を配信すればよいので、例え多数のユーザ端末１４からのリクエストがあったとしてもサーバ１２の負荷の増大を軽減することができる。

　また、ユーザ端末１４の姿勢が変化したことに伴って、表示中の動画の表示座標がシフトされた結果、その画質が漸減したとしても、時系列および位置的に近い視点別キーフレーム画像４４ａを有する映像ストリーム４４が配信されるので、表示中の画像の画質が著しく低下することを防止することができる。

［第２実施形態］

　上記第１実施形態では、サーバ１２は、ユーザ端末１４から受信した視線情報に基づいて、配信すべき映像ストリーム４４を選択することとしているが、第２実施形態では、ユーザ端末１４が、受信すべき映像ストリーム４４を視線情報に基づいて選択し、選択した映像ストリーム４４の配信をサーバ１２に対してリクエストすることとしている。以下、第１実施形態と異なる構成やフローを中心に説明することとし、第１実施形態と共通する構成や方法については適宜省略して説明する。

　本実施形態は、第１実施形態と同様に、視点別に生成された映像ストリーム４４が、視点識別情報に対応付けられて、サーバ１２のメモリに記憶されているが、視点情報はサーバ１２のメモリ１２に記憶されていない点で異なっている。本実施形態では、視点情報の各々は、視点識別情報に対応づけられてユーザ端末１４のメモリ２４に記憶されている。

　また、本実施形態においても第１実施形態と同様に、視点別に生成された複数の映像ストリーム４４中には視点別キーフレーム画像４４ａが含まれている。そして、これら複数の映像ストリーム４４では、先頭の視点別キーフレーム画像４４ａがオフセットされていることにより、視点別キーフレーム画像４４ａは、時系列において互いに非同期となるように配置されている。本実施形態では、各視点の映像ストリーム４４における視点別キーフレーム画像４４ａの配置タイミングがユーザ端末１４のメモリ２４に記憶されている。当該配置タイミングは、各視点の映像ストリーム４４において、視点別キーフレーム画像４４ａがどのタイミング（フレーム）に配置されているかを示すものであり、代表的には、各映像ストリーム４４における視点別キーフレーム画像４４ａのインターバル（配置周期）、及び各視点の映像ストリーム４４における先頭の視点別キーフレーム画像４４ａのオフセット数（遅延させるフレームの数）である。本実施形態では、図４に示すように、６０フレームごとに視点別キーフレーム画像が配置されているから、インターバルは“６０”となる。また、図１０に示すように、視点ａの視点別キーフレーム画像４４ａはオフセットされていないので、視点ａのオフセット数は“０”である。また、視点ｂの映像ストリーム４４において先頭の視点別キーフレーム画像４４ａは４フレームのオフセットが設けられているから、視点ｂのオフセット数は“４”となる。同様に、視点ｃのオフセット数は“９”となり、視点ｄのオフセット数は“１４”となる。このよう視点別に定義された配置タイミングが視点識別情報に対応づけて記憶されており、当該視点識別情報の各々は視点情報に対応づけて記憶されている。

　本実施形態のユーザ端末１４は、上述したように、視線情報に基づいて、受信すべき視点の映像ストリーム４４を決定し、決定した視点の映像ストリーム４４の配信をサーバ１２に対してリクエストする。具体的には、ユーザ端末１４は、視線情報取得処理、リクエスト処理、及び表示処理を、この順に実行する。
（１）視線情報取得処理は、ユーザ端末１４のＣＰＵ２６が、角速度センサ２２からの出力に基づいて視線情報を取得する処理であって、第１実施形態と同様に、ロール角（α）、ピッチ角（β）、及びヨー角（γ）を取得する。
（２）リクエスト処理は、上記の視線情報取得処理において取得した視線情報に近似する視点情報を抽出し、抽出した視点情報に対応する視点識別情報をサーバ１２に送信する。サーバ１２は、ユーザ端末１４から視点識別情報を受信すると、視点識別情報に対応する映像ストリーム４４を当該ユーザ端末１４に対して配信する。
（３）表示処理は、サーバ１２から映像ストリーム４４を受信しながら、液晶ディスプレイ１８に表示する処理である。
　上記のフローによって、初期段階における映像ストリーム４４の配信およびその表示が実行される。

　上記のようにユーザ端末１４のＣＰＵ２６は、映像ストリーム４４を表示させながら、ユーザがユーザ端末１４を操作することによる視線変更に対応した映像ストリーム４４を表示すべく、視線情報取得処理、決定処理、リクエスト処理、及び表示処理を、映像ストリーム４４のフレームレートに同期して実行する。

（４）視線情報取得処理は、上記（１）の処理と同様であり、角速度センサー２２の出力に基づいて視線情報（ロール角（α）、ピッチ角（β）、及びヨー角（γ））を取得する処理である。

（５）決定処理は、サーバ１２に対してリクエストする映像ストリームを決定する処理であって、ユーザ端末１４のＣＰＵ２６は、時系列的に視点別キーフレーム画像４４ａが近くに配置されている視点識別情報を選択する。
（５－１）具体的には、再生中の映像ストリーム４４におけるフレーム番号（以下、再生中フレーム番号）を特定する。例えば、視点ａの映像ストリーム４４を再生している場合において、１００番目のフレーム画像を表示している場合には、フレーム番号が“１００”であると特定する。
（５－２）次に、配置タイミングとして定められたインターバルおよびオフセットに基づいて、視点毎に視点別キーフレーム画像４４ａの配置位置を算出し、その中で特定したフレーム番号よりも後に配置され、且つ時系列において近いキーフレームの番号を抽出する。
　例えば、視点ｂの配置タイミングでは、インターバルが“６０”であり、オフセットは“４”と定義づけられているため、視点ｂの第１の視点別キーフレーム画像４４ａの位置は“５”、第２の視点別キーフレーム画像４４ａの位置は“６５”、第３の視点別キーフレーム画像４４ａの位置は“１２５”、第４の視点別キーフレーム画像４４ａの位置は“１８５”として求められる。そして、これらの視点別キーフレーム画像４４ａの位置を求める度に、特定されたフレーム番号“１００”との差分を算出し、差分が最も少ない視点別キーフレーム画像４４ａの位置、具体的には第３の視点別キーフレーム画像の位置“１２４”が、特定されたフレーム番号“１００”に近似するものとされる。
　視点ｃ、ｄ・・・についても同様に算出され、視点ｃについては第３の視点別キーフレーム画像の位置“１２９”が特定されたフレーム番号“１００”に近似するものとされる。また、視点ｄについては第２の視点別キーフレーム画像の位置である“７４”が最も近似するが、特定されたフレーム番号“１００”よりも前に位置するので、次いで近似する第３の視点別キーフレーム画像の位置“１３４”が特定されたフレーム番号“１００”に近似するものとされる。
　このように、視点ごとに近似する視点別キーフレーム画像４４ａの位置が算出されると、その中で、特定されたフレーム番号に最も近似する視点が選択される。上記の例では、特定されたフレーム番号“１００”に近似する視点ｂが選択される。
（５－３）視点別キーフレーム画像４４ａが最も近い視点（上記の例では視点ｂ）が選択されると、当該視点（視点ｂ）と視線情報の距離が算出される。また、再生中の視点（視点ａ）と視線情報の距離が算出される。そして、これら２つの距離のうち短い方の視点が再生すべき視点として決定され、当該視点に対応する視点識別情報が抽出される。すなわち、現在再生中の視点（視点ａ）が視線情報に近似している場合には、現在再生中の視点（視点ａ）が継続してリクエストされる。一方で、現在再生中のフレームに近いタイミングに視点別キーフレームが配置されている視点（視点ｂ）と視線情報のほうが現在再生中の視点（視点ａ）よりも座標的に近い場合には当該視点（視点ｂ）の映像ストリーム４４が新たにリクエストされる。

（６）リクエスト処理において、当該視点識別情報と特定されたフレーム番号がサーバ１２に送信される。サーバ１２は、視点識別情報およびフレーム番号を受信すると、当該視点識別情報に対応し、且つ特定されたフレーム番号に相当するフレーム画像を起点とした映像ストリーム４４をユーザ端末１４に送信する。

（７）ユーザ端末１４は、受信した映像ストリーム４４を、視線情報に応じた位置を液晶ディスプレイ１８の中心に表示させる。

［第３実施形態］
　上記の第１実施形態および第２実施形態のユーザ端末１４は、サーバ１２から配信される映像ストリーム４４を受信しながら再生する再生態様であるが、当該再生態様に限られない。第３実施形態は、サーバ１２を備えておらず、視点別に生成された映像ストリーム４４が、視点情報に対応づけられてユーザ端末１４のメモリ２４に記憶されている。また、これら複数の映像ストリーム４４は、第１実施形態および第２実施形態と同様に、先頭の視点別キーフレーム画像４４ａがオフセットされていることにより、視点別キーフレーム画像４４ａは、時系列において互いに非同期となるように配置されている。そして、各視点の映像ストリーム４４における視点別キーフレーム画像４４ａの配置タイミングがユーザ端末１４のメモリ２４に記憶されている。

　このような本実施形態では、ユーザ端末１４において、視線情報取得処理、及び再生処理が、この順に実行される。
（１）視線情報取得処理は、ユーザ端末１４のＣＰＵ２６が、角速度センサ２２からの出力に基づいて視線情報を取得する処理であって、第１実施形態や第２実施形態と同様に、ロール角（α）、ピッチ角（β）、及びヨー角（γ）を取得する。
（２）再生処理は、上記の視線情報取得処理において取得した視線情報に値が近似する視点情報を抽出し、抽出した視点情報に対応する映像ストリーム４４を再生する。

　上記のようにユーザ端末１４のＣＰＵ２６は、映像ストリーム４４を再生させながら、ユーザがユーザ端末１４を操作することによる視線変更に対応した映像ストリーム４４を再生すべく、視線情報取得処理、及び再生処理を、映像ストリーム４４のフレームレートに同期して実行する。

（５）再生処理は、再生すべき映像ストリーム４４を決定して再生する処理であって、ユーザ端末１４のＣＰＵ２６は、再生している時点において時系列的に視点別キーフレーム画像４４ａが近くに配置されている視点情報を選択するとともに、当該選択した視点情報と上記（４）において取得した視線情報に基づいて再生すべき映像ストリーム４４を選択することとしている。
（５－１）具体的には、再生中の映像ストリーム４４におけるフレーム番号（以下、再生中フレーム番号）を特定する。
（５－２）次に、メモリ２４に記憶されている視点別の映像ストリーム４４の各々について、視点別キーフレーム画像４４ａの配置位置を配置タイミングに基づいて算出する。そして、算出されたキーフレーム画像の配置位置までのフレーム数を、視点別の映像ストリーム４４の各々について算出する。すなわち、再生中フレーム番号からキーフレーム画像の配置位置までのフレーム数をカウントし、カウント値が最も少ないキーフレーム画像がある視点別の映像ストリーム４４を特定し、当該視点別の映像ストリーム４４に対応する視点情報が抽出される。
（５－３）次に、抽出した視点情報と上記（４）で取得した視線情報の距離が算出される。また、再生中の映像ストリーム４４の視点情報と視線情報の距離が算出される。そして、これら２つの距離のうち短い方の視点が再生すべき視点として決定され、当該視点に対応する映像ストリーム４４が再生される。
　すなわち、現在再生中の映像ストリーム４４の視点情報がユーザの視線情報に近似している場合には、現在再生中の映像ストリーム４４が継続して再生される。一方で、現在再生中のフレームに近いタイミングに視点別キーフレーム画像４４ａが配置されている視点情報のほうが現在再生中の視点情報よりもユーザの視線情報に座標的に近い場合には、当該視点情報の映像ストリーム４４が新たに再生される。

　本発明は上記の実施形態に限定されず、下記のような形態であっても構わない。

＜変形例１＞
　上記実施形態では、カメラ１０によって撮像された一群の半天球画像に基づいて視点別の映像ストリーム４４を生成することとしていたが、カメラ１０によって撮像された一群の全天球画像に基づいて視点別の映像ストリームを生成しても構わない。また、半天球や全天球に限定されず、画角が４５度のカメラ１０を観測点として眺めた半径無限大の仮想の球面であってもかまわない。このように、本発明はカメラ１０によって撮像された一群の天球の画像に基づいて視点別の映像ストリームを生成するものであればよい。

＜変形例２＞
　上記実施形態では、実世界を撮像するカメラ１０を用いていたが、仮想世界を撮像するカメラであっても構わない。

＜変形例３＞
　上記実施形態において、サーバ１２の取得処理や生成処理は必須の処理ではなく、ユーザ端末１４への配信に先立って、複数の視点に対応づけて映像ストリーム４４を予め準備し、メモリ３８に記憶させても構わない。

＜変形例４＞
　上記実施形態では、映像ストリーム４４は、各視点間において視点別キーフレーム画像４４ａが時系列において非同期となるよう配列されているが、例えば、映像ストリームの先頭に複数のブランク画像など、視点別キーフレーム画像や視点別差分フレームと関連しない画像を連続して配列することで非同期とさせても構わない。また、各視点間の映像ストリームにおいて視点別キーフレーム画像の配列間隔が異なるように構成しても構わない。例えば、視点ａの視点別キーフレーム画像が６０フレーム毎に配置されるのに対し、視点ｂの視点別キーフレーム画像は５５フレーム毎、視点ｃの視点別キーフレーム画像は５０フレーム毎、視点ｄの視点別キーフレーム画像は４５フレーム毎に配列することで時系列において非同期とすることができる。

＜変形例５＞
　上記第２実施形態では、キーフレームのインターバルが一定であったため、当該インターバル値と、オフセット値によって配列リストが定義づけられているが、このような態様には限定されない。例えば、キーフレームのインターバルがランダムである場合には、各映像ストリームにおけるキーフレームの位置（番号）リストを視点識別情報に対応づけて記憶しても構わない。

＜変形例６＞
　上記実施形態では、ユーザがユーザ端末１４を操作したことによる視線の変化時において、時系列において最も近くのタイミングに視点別キーフレーム画像４４ａを含んでいる映像ストリーム４４が、配信対象または再生対象として選択されるように構成されているが、最も近くのタイミングに限られず、近くのタイミングに視点別キーフレーム画像４４ａを含んでいる映像ストリーム４４が選択されても構わない。
　ここで「近くのタイミング」とは、配信中または再生中の映像ストリーム４４の視点に位置的に最も近い視点の映像ストリーム４４（最近傍視点の映像ストリーム４４）に着目し、配信タイミング（再生タイミング）から当該最近傍視点の映像ストリーム４４のキーフレーム画像までのフレームカウント数を基準として、当該基準となるフレームカウント数よりも少ないことを言う。すなわち、視点別の映像ストリーム４４の各々において、視点別キーフレーム画像４４ａの配置位置（配置タイミング）を算出し、配信タイミング（再生タイミング）の前後における視点別キーフレーム画像４４ａの配置位置（配置タイミング）が基準よりも少ない場合には、時系列において近くのタイミングに視点別キーフレーム画像４４ａを含む映像ストリーム４４として選択され、選択された映像ストリーム４４ａの視点情報と変化後の視線情報とが比較される。
　なお、上記基準となるフレームカウント数は、ネットワーク環境に起因して生じる配信の遅延を考慮したフレーム数を差し引いたフレームカウント数であっても構わない。

１　…　動画配信システム
１０　…　カメラ
１２　…　サーバ
１４　…　ユーザ端末
２８　…　イメージセンサ（撮像部）
３０　…　ＣＰＵ
３４　…　メモリ
３８　…　メモリ
４０　…　ＣＰＵ

Claims

　カメラを観測点とする天球に定められた複数の視点ごとに、当該天球を含む映像ストリームを記憶させるステップ、
　ユーザの端末に対して前記映像ストリームを配信させる配信ステップ、
を含み、
　前記配信ステップは、
　　前記ユーザの端末で決定された視線に対応する前記天球における最近傍の視点以外の前記視点の映像ストリームを配信させることを特徴とする、動画配信方法。
　前記映像ストリームは、キーフレーム画像と差分フレーム画像を含み、
　一の視点のキーフレーム画像と、他の視点のキーフレーム画像は時系列において非同期であることを特徴とする、請求項１に記載の動画配信方法。
　前記配信ステップは、
　　前記視線の変化時において、前記キーフレーム画像が時系列において近くに配列されている視点の映像ストリームを前記最近傍の視点以外の視点の映像ストリームとすることを特徴とする、請求項２に記載の動画配信方法。
　前記他の視点の映像ストリームは、連続する複数のキーフレーム画像が配列されていることを特徴とする、請求項２または請求項３に記載の動画配信方法。
　前記他の視点の映像ストリームでは、第１キーフレーム画像が、前記一の視点の映像ストリームにおける第１キーフレーム画像よりも遅延するように配列されていることを特徴とする、請求項２または請求項３に記載の動画配信方法。
　前記他の視点の映像ストリームは、前記キーフレーム画像の配列間隔が前記一の視点の映像ストリームにおけるキーフレーム画像の配列間隔と異なることを特徴とする、請求項２または請求項３に記載の動画配信方法。
　カメラを観測点とする天球に定められた複数の視点ごとに、当該天球を含む映像ストリームを記憶する記憶部と、
　ユーザの端末に対して前記映像ストリームを配信する配信部と、
を備え、
　前記配信部は、
　　前記ユーザの端末で決定された視線に対応する前記天球における最近傍の視点以外の前記視点の映像ストリームを配信することを特徴とする、動画配信装置。
　カメラを観測点とする天球に定められた複数の視点ごとに、当該天球を含む映像ストリームを記憶させるステップ、
　ユーザの端末において前記映像ストリームを再生する再生ステップ、
を含み、
　前記再生ステップは、
　　前記ユーザの端末で決定された視線に対応する前記天球における最近傍の視点以外の前記視点の映像ストリームを再生することを特徴とする、動画再生方法。
　特定の観測点から向けられた視線上にある画像を中心部に含み、当該中心部の外側に、当該観測点から撮影された天球の画像を含む映像ストリームを備え、
　前記映像ストリームは、
　　特定の観測点から向けられた第一の視線上にある視点の画像を中心部に含む第一の映像ストリームと、
　　前記観測点から向けられた第二の視線上にある視点の画像を中心部に含む第二の映像ストリームと、
を含む、配信データ構造。
　前記第一の映像ストリームと前記第二の映像ストリームの各々はキーフレームを含み、
　前記第一の映像ストリームのキーフレームと、前記第二の映像ストリームのキーフレームは、時系列において非同期であることを特徴とする配信データ構造。
　前記第一の映像ストリームにおけるキーフレームのタイミング情報と、
　前記第二の映像ストリームにおけるキーフレームのタイミング情報を、
を含む、配信データ構造。