WO2021200140A1

WO2021200140A1 - 信号処理装置、信号処理方法、および信号処理システム

Info

Publication number: WO2021200140A1
Application number: PCT/JP2021/010742
Authority: WO
Inventors: 悟郎高木; 浅井　聡; 陽野々山; 晋作平野; 翔小倉; 正憲松島
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-31
Filing date: 2021-03-17
Publication date: 2021-10-07

Abstract

本開示は、被写体の行動を予測して、被写体を撮像する複数のカメラにより撮像された画像や、複数のカメラにより撮像された画像から生成される自由視点画像の視点位置を切り替えられるようにすることができるようにする信号処理装置、信号処理方法、および信号処理システムに関する。複数の視点方向のカメラにより撮像された画像を取得し、複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力し、予測行動に基づいて、複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する。カメラワークを切り替えるスイッチャ装置に適用することができる。

Description

信号処理装置、信号処理方法、および信号処理システム

　本開示は、信号処理装置、信号処理方法、および信号処理システムに関し、特に、複数のカメラにより撮像された画像から被写体の行動を予測して、予測された行動に基づいて複数のカメラにより撮像された画像から生成される自由視点画像の視点方向を適切に切り替えて出力できるようにした信号処理装置、信号処理方法、および信号処理システムに関する。

　音楽ライブやスポーツなどのイベントを撮像する場合、広大なスタジオ、ホール、および競技施設内等で、多数の視点方向のカメラを用いて、撮像する必要がある。

　一般的に、多数の視点方向のカメラを用いた撮像を行った場合には、多数の視点方向のカメラにより撮像された画像を適切に切り替える必要があるが、多数の画像に映し出される被写体の状態を確認しながら切り替える必要があり、適切に切り替えるのは極めて困難である。

　そこで、被写体の位置情報を取得して、被写体の位置情報に基づいて、被写体を撮像しているカメラを切り替える技術が提案されている（特許文献１参照）。

特開２００５－２７７８４５号公報

　しかしながら、特許文献１においては、被写体の行動を予測して、被写体を撮像している複数のカメラの画像を切り替えたり、複数のカメラにより撮像された画像に基づいて生成される自由視点画像の視点位置を切り替えることはできず、被写体の行動が急激に変化するような場合、追従できず、適切に画像を切り替えることができなくなる恐れがあった。

　本開示は、このような状況に鑑みてなされたものであり、特に、被写体の行動を予測して、予測された行動に基づいて、被写体を撮像する複数のカメラにより撮像された画像から生成される自由視点画像の視点方向を適切に切り替えられるようにするものである。

　本開示の一側面の信号処理装置および信号処理システムは、複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と信号処理装置および信号処理システムである。

　本開示の一側面の信号処理方法は、複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力し、前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力するステップを含む信号処理方法である。

　本開示の一側面においては、複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動が予測されて、予測行動として出力され、前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力される。

本開示の信号処理システムを、サッカーの試合の撮像に適用する場合の例を説明する図である。本開示の信号処理システムを、野球の試合の撮像に適用する場合の例を説明する図である。本開示の信号処理システムを、ライブ会場の撮像に適用する場合の例を説明する図である。本開示のＳＷ装置のハードウェアの構成例を説明するブロック図である。図４のＳＷ装置により実現される第１の実施の形態のＳＷ処理部の機能を説明する機能ブロック図である。図５のリアルタイム情報解析部の構成例を説明する機能ブロック図である。図５のカメラワーク推定部の構成例を説明する機能ブロック図である。図４のＳＷ処理部によるＳＷ処理を説明するフローチャートである。図８のリアルタイム情報解析処理を説明するフローチャートである。図８のカメラワーク推定処理を説明するフローチャートである。図４のＳＷ装置により実現される第２の実施の形態のＳＷ処理部の機能を説明する機能ブロック図である。図１１のカメラワーク推定部の構成例を説明する機能ブロック図である。図１１のＳＷ処理部によるＳＷ処理を説明するフローチャートである。図１３のカメラワーク推定処理を説明するフローチャートである。図４のＳＷ装置により実現される第３の実施の形態のＳＷ処理部の機能を説明する機能ブロック図である。汎用のパーソナルコンピュータの構成例を説明する図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．第１の実施の形態
　２．第２の実施の形態
　３．第３の実施の形態
　４．ソフトウェアにより実行させる例

　＜＜１．第１の実施の形態＞＞
　＜サッカーの試合を撮像する場合＞
　本開示は、特に被写体の行動を予測して、被写体を撮像するカメラにより撮像された画像から生成される自由視点画像の視点方向を適切に切り替えられるようにするものである。なお、ここでの画像とは、例えば動画像（映像）である。

　本開示の技術を適用した信号処理システムの説明にあたって、図１を参照して、サッカーの試合を複数の視点方向から撮像する場合に、被写体となる選手の動きから予測される予測行動に基づいて、複数の視点方向から撮像される画像から生成される自由視点画像の視点方向を適切に切り替えて出力する信号処理システムの構成例について説明する。

　図１の信号処理システム１１Ａは、カメラ２１Ａ－１乃至２１Ａ－１２、ＳＷ（スイッチング）装置２２Ａ、通信装置２３Ａ、および通信ネットワーク２４Ａより構成される。

　カメラ２１Ａ－１乃至２１Ａ－１２は、サッカー場ＳＣＳを取り囲むように設置され、サッカー場ＳＣＳを複数の視点方向から撮像し、撮像した画像を、通信ネットワーク２４Ａを介して、ＳＷ装置２２Ａに供給する。

　尚、図１においては、サッカー場ＳＣＳを１２の視点方向から撮像するカメラ２１Ａ－１乃至２１Ａ－１２が設けられる例について説明しているが、視点方向は、これ以外の数であってもよい。

　また、図１においては、カメラ２１Ａ－１乃至２１Ａ－１２が、有線接続された通信ネットワーク２４Ａを介してＳＷ装置２２Ａに供給する例について記載されているが、無線接続であってもよい。

　尚、カメラ２１Ａ－１乃至２１Ａ－１２のそれぞれについて、特に区別する必要がない場合、単にカメラ２１Ａと称するものとして、その他の構成も同様に称するものとする。

　ＳＷ装置２２Ａは、通信ネットワーク２４を介して、カメラ２１Ａ－１乃至２１Ａ－１２より供給されてくる画像に基づいて、被写体の行動を予測し、予測した行動に基づいて、適切な視点方向の自由視点画像を生成する。また、ＳＷ装置２２Ａは、カメラ２１Ａ－１乃至２１Ａ－１２より供給されてくる画像に基づいて、例えば点数や選手情報などのグラフィックスの重畳などの編集が施された編集画像、試合のダイジェスト画像、ハイライト画像等を生成する。ＳＷ装置２２Ａは、生成した自由視点画像や編集画像、ダイジェスト画像、ハイライト画像、また選手紹介等のインタビュー画像など事前に生成された素材画像を切り替えて放送用の本線画像を生成し、当該本線画像を通信装置２３Ａに出力し、通信装置２３Ａより放送局に配信、もしくは放送波等により放送させる。なお、ここでの各種編集や、ダイジェスト画像、ハイライト画像の生成、各種画像の切り替えは、ＳＷ装置２２Ａが自動で行っても良いし、各種操作部（図示せず）を介してオペレータによる操作に基づき行われるものであっても良い。

　ここで、サッカーの試合の放送用の本線画像を自由視点画像に切り替えた後に、自由視点画像内で視点を切り替えて放送する場合について考える。より具体的には、例えば、図１のサッカー場ＳＣＳにおいて、選手Ｈ１がボールＢ１をドリブルしながら図中左方向に移動する場合、ＳＷ装置２２Ａは、例えば、カメラ２１Ａ－１乃至２１Ａ－１２により撮像された画像のうち、ボールＢ１をドリブルしている選手Ｈ１の画像を撮像する視点方向Ｖ１となるカメラ２１Ａ－６により撮像される画像を通信装置２３Ａに出力する。

　この際、ＳＷ装置２２Ａは、複数のカメラ２１Ａ－１乃至２１Ａ－１２により撮像された画像より得られるパターンなどに基づいたディープラーニング等の機械学習により、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像内の選手Ｈ１の画像から、選手Ｈ１の行動を予測し続ける。

　ここで、例えば、予測された行動に基づいて、図１の矢印方向に選手Ｈ１がボールＢ１を蹴って、シュートを打つという行動が予測される場合、ＳＷ装置２２Ａは、選手Ｈ１がボールＢ１を図中左側のゴールに向かって蹴り込む、いわゆる、シュートタイミングにおいて、視点方向Ｖ２となるカメラ２１Ａ－４により撮像される画像に切り替えて、通信装置２３Ａに出力する。

　この際、ＳＷ装置２２Ａは、シュートを打つタイミングにおいて、視点方向Ｖ２となるカメラ２１Ａ－４により撮像される画像を通常再生速度よりもゆっくりとした低速再生に切り替えて、シュートを打つ画像を詳細に表示させるようにする。

　すなわち、図１のＳＷ装置２２Ａは、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像に基づいて、被写体の行動を予測し、予測行動に基づいて、再生する画像の視点方向を切り替える（空間方向に対するカメラワークを切り替える）と共に、再生する画像の再生速度を切り替えて（時間方向に対するカメラワークを切り替えて）出力する。

　結果として、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像より、適切な視点方向の画像に切り替えられて、かつ、適切な再生速度で再生されることになるので、視聴者は、サッカーの試合における重要なシーンを視聴し易い視点方向の画像で、かつ、視聴し易い再生速度で視聴することが可能となる。

　換言すれば、ＳＷ装置２２Ａは、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像を、空間方向にカメラワークを適切に切替えながら、同時に、時間方向にカメラワークを適切に切り替えて出力しているとも言える。

　尚、以降において、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像に基づいて、被写体の行動が予測されて、予測行動に基づいて、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像の視点方向が切り替えられるカメラワークを空間方向カメラワークと称する。

　また、空間方向カメラワークにおいては、所望とする視点方向の画像が、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像が用いられて、自由視点画像として補間生成されることを前提として説明を進めるものとする。

　しかしながら、カメラ２１Ａ－１乃至２１Ａ－１２のいずれかにより撮像される視点方向が、所望とする視点方向と同一であるときには、所望とする視点方向と同一の視点方向で撮像するカメラにより撮像された画像をそのまま使用してもよいものとする。

　すなわち、空間方向カメラワークにより切り替えられる視点方向の画像については、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像が用いられて、自由視点画像として補間生成されたものでも、カメラ２１Ａ－１乃至２１Ａ－１２のいずれかにより撮像される画像そのものであってもよいものとする。従って、空間方向カメラワークは、自由視点画像において、順次視点が切り替えられていく動き（軌跡）であるとも言える。

　さらに、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像に基づいて、被写体の行動が予測されて、予測行動に基づいて、再生速度が切り替えられるとき、再生速度が切り替えらえるカメラワークを時間方向カメラワークと称する。

　従って、本開示のＳＷ装置２２Ａは、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像に対して、空間方向カメラワークと、時間方向カメラワークとがなされているとみなすことができる。このように空間方向カメラワークと、時間方向カメラワークとがなされるカメラワークを総称して時空間方向カメラワークとも称する。

　以上においては、空間方向カメラワークにより、カメラ２１Ａ－６により撮像される視点方向Ｖ１の画像が、カメラ２１Ａ－４により撮像される視点方向Ｖ２の画像に切り替えられる例について説明してきたが、それ以外の視点方向からの画像に切り替えられてもよい。

　すなわち、例えば、視点方向Ｖ３の画像が必要である場合については、ＳＷ装置２２Ａは、空間方向カメラワークにより、カメラ２１Ａ－５により撮像される視点方向Ｖ３の画像に切り替えるようにしてもよい。

　また、必要とされる画像が、例えば、視点方向Ｖ１と視点方向Ｖ３との中間となる視点方向Ｖ１１の画像である場合、ＳＷ装置２２Ａは、空間方向カメラワークにより、視点方向Ｖ１のカメラ２１Ａ－６の画像と、視点方向Ｖ３のカメラ２１Ａ－５の画像とから、視点方向Ｖ１１の画像を自由視点画像として補間生成し、視点方向を切り替えた画像として出力する。

　同様に、必要とされる画像が、例えば、視点方向Ｖ３と視点方向Ｖ２との中間となる視点方向Ｖ１２の画像である場合、ＳＷ装置２２Ａは、空間方向カメラワークにより、視点方向Ｖ３のカメラ２１Ａ－５の画像と、視点方向Ｖ２のカメラ２１Ａ－４の画像とから、視点方向Ｖ１２の画像を自由視点画像として補間生成し、視点方向を切り替えた画像として出力する。

　さらに、被写体の予測行動に基づいて、ＳＷ装置２２Ａは、空間方向カメラワークにより、視点方向Ｖ１，Ｖ１１，Ｖ３，Ｖ１２，Ｖ２の順番に、視点方向を切り替えながら画像を表示するようにしてもよい。

　ここで、視点方向Ｖ１，Ｖ２，Ｖ３のカメラ２１Ａ－６，２１Ａ－５，２１Ａ－４の画像については、撮像されたオリジナルの画像が用いられるため、画像に歪などが生じない。

　これに対して、視点方向Ｖ１１，Ｖ１２の画像については補間生成された自由視点画像であるため、画像内に歪などが生じる可能性がある。

　そこで、このような場合、ＳＷ装置２２Ａは、時間方向カメラワークにより、視点方向Ｖ１，Ｖ２，Ｖ３のカメラ２１Ａ－６，２１Ａ－５，２１Ａ－４の画像については、表示時間を所定の表示時間よりも長めにしてゆっくりと表示する。

　これに対して、ＳＷ装置２２Ａは、時間方向カメラワークにより、自由視点画像として補間生成された視点方向Ｖ１１，Ｖ１２の画像については、表示時間を所定の表示時間よりも短めにして高速で表示する。

　このようにすることで、表示される画像の破綻を目立たせないようにしながら、視点方向Ｖ１，Ｖ１１，Ｖ３，Ｖ１２，Ｖ２の画像を順次切り替えて表示させることが可能となる。

　このように、視点方向を切り替えて表示させる際、カメラ２１Ａで撮像されたオリジナル画像については、表示時間を長くゆっくりと表示し、自由視点画像として補間生成された画像については、表示時間を短めに高速で表示させる場合においても、ＳＷ装置２２Ａは、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像より生成される自由視点画像の視点方向を、空間方向カメラワークにより適切に切り替えながら、時間方向カメラワークに適切な再生速度で出力しており、時空間方向カメラワークがなされているとも言える。

　このように本開示のＳＷ装置２２Ａにおいては、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ａ－１乃至２１Ａ－１２により撮像される画像より生成される自由視点画像の視点方向を空間方向カメラワークにより切り替えながら、時間方向カメラワークに適切な再生速度で出力する。

　結果として、複数のカメラにより撮像される画像に基づいて、被写体の行動を予測し、予測した被写体の行動に応じて、複数のカメラにより撮像される画像に基づいた自由視点画像の視点方向を、適切に切り替えながら、適切な再生速度で表示することが可能となる。

　＜野球の試合を撮像する場合＞
　次に、本開示の技術を適用した信号処理システムの説明にあたって、図２を参照して、野球の試合を複数の視点方向から撮像する場合に、被写体となる選手の動きから予測される予測行動に基づいて、複数の視点方向から撮像された画像から生成される自由視点画像の視点位置を適切に切り替えて出力する信号処理システムの構成例について説明する。

　図２の信号処理システム１１Ｂは、カメラ２１Ｂ－１乃至２１Ｂ－１６、ＳＷ（スイッチング）装置２２Ｂ、通信装置２３Ｂ、および通信ネットワーク２４Ｂより構成される。

　カメラ２１Ｂ－１乃至２１Ｂ－１６は、野球場ＢＢＳを取り囲むように設置され、野球場ＢＢＳを複数の視点方向から撮像し、撮像した画像を、通信ネットワーク２４Ｂを介して、ＳＷ装置２２Ｂに供給する。

　尚、図２においては、野球場ＢＢＳを１６の視点方向から撮像するカメラ２１Ｂ－１乃至２１Ｂ－１６が設けられる例について説明しているが、視点方向は、これ以外の数であってもよい。

　また、図２においては、カメラ２１Ｂ－１乃至２１Ｂ－１６が、有線接続された通信ネットワーク２４Ｂを介してＳＷ装置２２Ｂに供給する例について記載されているが、無線接続であってもよい。

　尚、カメラ２１Ｂ－１乃至２１Ｂ－１６のそれぞれについて、特に区別する必要がない場合、単にカメラ２１Ｂと称するものとして、その他の構成も同様に称するものとする。

　ＳＷ装置２２Ｂは、通信ネットワーク２４Ｂを介して、カメラ２１Ｂ－１乃至２１Ｂ－１６より供給されてくる画像に基づいて、被写体の行動を予測して、予測行動に基づいた視点方向の自由視点画像を生成する。また、ＳＷ装置２２Ｂは、カメラ２１Ｂ－１乃至２１Ｂ－１６より供給されてくる画像に基づいて、例えば点数や選手情報などのグラフィックスの重畳などの編集が施された編集画像、試合のダイジェスト画像、ハイライト画像等を生成する。ＳＷ装置２２Ｂは、生成した自由視点画像や編集画像、ダイジェスト画像、ハイライト画像、また選手紹介等のインタビュー画像など事前に生成された素材画像を切り替えて放送用の本線画像を生成し、当該本線画像を通信装置２３Ｂに出力し、通信装置２３Ｂより放送局に配信、もしくは放送波として送信させる。なお、ここでの各種編集や、ダイジェスト画像、ハイライト画像の生成、各種画像の切り替えは、ＳＷ装置２２Ｂが自動で行っても良いし、各種操作部（図示せず）を介してオペレータによる操作に基づき行われるものであっても良い。

　ここで、野球の試合の放送用の本線画像を自由視点画像に切り替えた後に、自由視点画像内で視点を切り替えて放送する場合について考える。より具体的には、ＳＷ装置２２Ｂは、例えば、カメラ２１Ｂ－１乃至２１Ｂ－１６により撮像された画像のうち、野球場ＢＢＳにおいて、例えば、ボールＢ１１を投球する選手Ｈ１１の画像を撮像する場合、視点方向Ｖ３１となるカメラ２１Ｂ－３により撮像される画像を通信装置２３Ｂに出力する。

　この際、ＳＷ装置２２Ｂは、複数のカメラ２１Ｂ－１乃至２１Ｂ－１２により撮像された画像より得られるパターンなどに基づいたディープラーニング等の機械学習により、カメラ２１Ｂ－１乃至２１Ｂ－１６により撮像される画像内の選手Ｈ１１の画像から、選手Ｈ１１の行動を予測し続ける。

　ここで、例えば、予測された行動に基づいて、選手Ｈ１１がボールＢ１１を打者である選手Ｈ１２に向かって投げることが予測される場合、ＳＷ装置２２Ｂは、選手Ｈ１１がボールＢ１を投球するタイミングにおいて、視点方向Ｖ３２となるカメラ２１Ｂ－２により撮像される画像に切り替えて、通信装置２３Ｂに出力する。

　この次のタイミングにおいて、ＳＷ装置２２Ｂは、ボールＢ１１が打者となる選手Ｈ１２がバットＢ１２でボールＢ１１を打撃するという行動を予測する。

　すると、ＳＷ装置２２Ｂは、予測行動である選手Ｈ１２がバットＢ１２でボールＢ１１を打撃するタイミングにおいて、視点方向Ｖ３３となるカメラ２１Ｂ－２により撮像される、打者となる選手Ｈ１２の打撃シーンの画像に切り替えると共に、ボールＢ１１とバットＢ１２とがぶつかるタイミングにおいて、通常再生速度よりも低速再生に切り替えて、打撃の瞬間が詳細に視聴可能な画像として表示させるようにする。

　すなわち、図２のＳＷ装置２２Ｂは、カメラ２１Ｂ－１乃至２１Ｂ－１６により撮像される画像に基づいて、被写体の行動を予測し、予測行動に基づいて、空間方向カメラワークにより、再生する画像の視点方向を切り替えると共に、時間方向カメラワークにより、再生する画像を時間方向に伸長させるように処理を施す。

　結果として、カメラ２１Ｂ－１乃至２１Ｂ－１２により撮像される画像より、適切な視点方向の画像に切り替えられて、かつ、適切な再生速度で再生されることになるので、視聴者は、野球の試合における重要なシーンを、視聴し易い視点方向の画像で、かつ、視聴し易い再生速度で視聴することが可能となる。

　換言すれば、ＳＷ装置２２Ｂは、カメラ２１Ｂ－１乃至２１Ｂ－１６により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ｂ－１乃至２１Ｂ－１６により撮像される画像を、空間方向に視点方向を適切に切替えながら、時間方向に再生速度を適切に切り替えて出力しているとも言える。

　尚、以上においては、空間方向カメラワークにより、カメラ２１Ｂ－３により撮像される視点方向Ｖ３１の画像が、カメラ２１Ｂ－１により撮像される視点方向Ｖ３２の画像に切り替えられる、または、カメラ２１Ｂ－１により撮像される視点方向Ｖ３２の画像が、カメラ２１Ｂ－２により撮像される視点方向Ｖ３３の画像に切り替えられる、例について説明してきたが、それ以外の視点方向からの画像に切り替えてもよい。

　また、必要とされる画像が、例えば、カメラ２１Ｂ－７の視点方向Ｖ３４とカメラ２１Ｂ－８の視点方向Ｖ３５との中間となる視点方向Ｖ４１の画像である場合、ＳＷ装置２２Ｂは、空間方向カメラワークにより、視点方向Ｖ３４のカメラ２１Ｂ－７の画像と、視点方向Ｖ３５のカメラ２１Ｂ－８の画像とから、視点方向Ｖ４１の画像を自由視点画像として補間生成して視点方向を切り替えて出力する。

　さらに、被写体の予測行動に基づいて、ＳＷ装置２２Ｂは、空間方向カメラワークにより視点方向Ｖ３４，Ｖ４１，Ｖ３５の順番に画像を切り替えて表示するようにしてもよい。

　ここで、視点方向Ｖ３４，Ｖ３５のカメラ２１Ｂ－７，２１Ｂ－８の画像については、撮像されたオリジナルの画像であるため、画像に歪などが生じていない。

　これに対して、視点方向Ｖ４１の画像については補間生成された自由視点画像であるため、画像内に歪などが生じている可能性がある。

　そこで、ＳＷ装置２２Ｂは、時間方向カメラワークにより、視点方向Ｖ３４，Ｖ３５のカメラ２１Ｂ－７，２１Ｂ－８の画像については表示時間を所定の表示時間より長めにしてゆっくりと表示する。

　これに対して、ＳＷ装置２２Ｂは、時間方向カメラワークにより、視点方向Ｖ４１の画像については表示時間を所定の表示時間より短めにして高速で表示する。

　このようにすることで、表示される画像の破綻を目立たせないようにしながら、視点方向を切り替えて画像を表示させることが可能となる。

　このように、視点方向を切り替えて表示させる際、カメラ２１Ｂで撮像されたオリジナル画像については、表示時間を長くゆっくりと表示し、補間生成された画像については、表示時間を短めに高速で表示させる場合においても、ＳＷ２２Ｂは、カメラ２１Ｂ－１乃至２１Ｂ－１６により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ｂ－１乃至２１Ｂ－１２により撮像される画像より生成される自由視点画像の視点方向を、空間方向カメラワークにより適切に切り替えながら、時間方向カメラワークにより適切な再生速度で出力しており、時空間方向カメラワークがなされているとも言える。

　このように本開示のＳＷ２２Ｂにおいては、カメラ２１Ｂ－１乃至２１Ｂ－１６により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ｂ－１乃至２１Ｂ－１２により撮像される画像より生成される自由視点画像の視点方向を空間方向カメラワークにより切り替えながら、時間方向カメラワークにより適切な再生速度で出力する。

　結果として、複数のカメラにより撮像される画像に基づいて、被写体の動きを予測し、予測した被写体の動きに応じて、複数のカメラにより撮像される画像に基づいた自由視点画像の視点方向を、適切に切り替えながら出力することが可能となる。

　＜音楽ライブ会場を撮像する場合＞
　次に、本開示の技術を適用した信号処理システムの説明にあたって、図３を参照して、音楽ライブ会場を撮像する場合に、被写体となるアーティストの動きから予測される予測行動に基づいて、複数の視点方向から撮像される画像から生成される自由視点画像の視点位置を適切に切り替えて出力する信号処理システムの構成例について説明する。

　図３の信号処理システム１１Ｃは、カメラ２１Ｃ－１乃至２１Ｃ－１５、ＳＷ（スイッチング）装置２２Ｃ、通信装置２３Ｃ、および通信ネットワーク２４Ｃより構成される。

　カメラ２１Ｃ－１乃至２１Ｃ－１５は、ライブ会場ＬＶＳにおけるステージＳＴを取り囲むように設置され、ライブ会場ＬＶＳのステージＴＳを複数の視点方向から撮像し、撮像した画像を、通信ネットワーク２４Ｃを介して、ＳＷ装置２２Ｃに供給する。

　尚、図３においては、ライブ会場ＬＶＳを１５の視点方向から撮像するカメラ２１Ｃ－１乃至２１Ｃ－１６が設けられる例について説明しているが、視点方向は、これ以外の数であってもよい。

　また、図３においては、カメラ２１Ｃ－１乃至２１Ｃ－１５が、有線接続された通信ネットワーク２４Ｃを介してＳＷ装置２２Ｃに供給する例について記載されているが、無線接続であってもよい。

　尚、カメラ２１Ｃ－１乃至２１Ｃ－１５のそれぞれについて、特に区別する必要がない場合、単にカメラ２１Ｃと称するものとして、その他の構成も同様に称するものとする。

　ＳＷ装置２２Ｃは、通信ネットワーク２４Ｃを介して、カメラ２１Ｃ－１乃至２１Ｃ－１５より供給されてくる画像に基づいて、被写体の行動を予測して、予測された行動に基づいて、視点方向の自由視点画像を生成する。また、ＳＷ装置２２Ｃは、カメラ２１Ｃ－１乃至２１Ｃ－１５より供給されてくる画像に基づいて、例えば演じている楽曲やアーティスト情報などのグラフィックスの重畳などの編集が施された編集画像、音楽ライブのダイジェスト画像、ハイライト画像等を生成する。ＳＷ装置２２Ｃは、生成した自由視点画像や編集画像、ダイジェスト画像、ハイライト画像、またアーティスト紹介等のインタビュー画像など事前に生成された素材画像を切り替えて放送用の本線画像を生成し、当該本線画像を通信装置２３Ｃに出力し、通信装置２３Ｃより放送局に配信、もしくは放送波として送信させる。なお、ここでの各種編集や、ダイジェスト画像、ハイライト画像の生成、各種画像の切り替えは、ＳＷ装置２２Ｃが自動で行っても良いし、各種操作部（図示せず）を介してオペレータによる操作に基づき行われるものであっても良い。

　ここで、音楽ライブの放送用の本線画像を自由視点画像に切り替えた後に、自由視点画像内で視点を切り替えて放送する場合について考える。より具体的には、ＳＷ装置２２Ｃは、カメラ２１Ｃ－１乃至２１Ｃ－１６により撮像された画像のうち、ライブ会場ＬＶＳにおいて、アーティストＨ２１，Ｈ２２のうち、アーティストＨ２１のみがステージＳＴ上で、例えば、ソロで歌うような場合、アーティストＨ２１の画像を撮像する視点方向Ｖ５１となるカメラ２１Ｃ－１により撮像される画像を通信装置２３Ｃに出力する。

　この際、ＳＷ装置２２Ｃは、複数のカメラ２１Ｃ－１乃至２１Ｃ－１５より撮像された画像より得られるパターンなどに基づいたディープラーニング等の機械学習により、カメラ２１Ｃ－１乃至２１Ｃ－１５により撮像される画像内のアーティストＨ２１の画像から、アーティストＨ２１の行動を予測し続ける。

　ここで、例えば、予測された行動に基づいて、アーティストＨ２１が歌いながら体の向きを観客席の図中の左方向から正面方向に変えることが予測される場合、ＳＷ装置２２Ｃは、アーティストＨ２１が観客席正面方向に向きを変えるタイミングにおいて、視点方向Ｖ５１となるカメラ２１Ｃ－１により撮像される画像から、視点方向Ｖ５２となるカメラ２１Ｃ－１０により撮像される画像に切り替えて、通信装置２３Ｃに出力する。

　この際、ＳＷ装置２２Ｃは、アーティストＨ２１が体の向きを左方向から正面方向にかえると同時に、ダンスなどによりジャンプすることを予測するときには、アーティストＨ２１がジャンプするタイミングにおいて、通常再生速度より低速再生に切り替えて、ジャンプする瞬間を詳細に視聴可能な画像にして出力させるようにする。

　すなわち、図３のＳＷ装置２２Ｃは、カメラ２１Ｃ－１乃至２１Ｃ－１５により撮像される画像に基づいて、被写体の行動を予測し、予測された行動に基づいて、空間方向カメラワークにより、再生する画像の視点方向を切り替えると共に、時間方向カメラワークにより、再生する画像の時間方向に伸長させるように処理を施して出力する。

　結果として、カメラ２１Ｃ－１乃至２１Ｃ－１５により撮像される画像より、適切な視点方向の画像に切り替えられて、かつ、適切な再生速度で再生されることになるので、視聴者は、音楽ライブ会場ＬＶＳにおいて音楽ライブが盛り上がるシーンを、視聴し易い視点方向の画像で、かつ、視聴し易い再生速度で視聴することが可能となる。

　換言すれば、ＳＷ装置２２Ｃは、カメラ２１Ｃ－１乃至２１Ｃ－１５により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ｃ－１乃至２１Ｃ－１５により撮像される画像を、空間方向について視点方向を適切に切替えながら、時間方向に再生速度を適切に切り替えて出力しているとも言える。

　尚、以上においては、空間方向カメラワークにより、カメラ２１Ｃ－１により撮像される視点方向Ｖ５１の画像が、カメラ２１Ｃ－１０により撮像される視点方向Ｖ５２の画像に切り替えられる例について説明してきたが、それ以外の視点方向からの画像に切り替えてもよい。

　また、必要とされる画像が、例えば、カメラ２１Ｃ－１２の視点方向Ｖ５３とカメラ２１Ｃ－９の視点方向Ｖ５４との中間となる視点方向Ｖ６１の画像である場合、ＳＷ２２Ｃは、空間方向カメラワークにより、視点方向Ｖ５３のカメラ２１Ｃ－１２の画像と、視点方向Ｖ５４のカメラ２１Ｃ－９の画像とから、視点方向Ｖ６１の画像を自由視点画像として補間生成し、視点方向を切り替えた画像として出力する。

　さらに、被写体の予測行動に基づいて、ＳＷ装置２２Ｃは、空間方向カメラワークにより、視点方向Ｖ５３，Ｖ６１，Ｖ５４の順番に視点方向を切り替えながら表示するようにしてもよい。

　ここで、視点方向Ｖ５３，Ｖ５４のカメラ２１Ｃ－１２，２１Ｃ－９の画像については、撮像されたオリジナルの画像であるため、画像に歪などが生じていない。

　これに対して、視点方向Ｖ６１の画像については補間生成された自由視点画像であるため、画像内に歪などが生じている可能性がある。

　そこで、ＳＷ装置２２Ｃは、時間方向カメラワークにより、視点方向Ｖ５３，Ｖ５４のカメラ２１Ｃ－１２，２１Ｃ－９の画像については表示時間を所定の表示時間よりも長めにしてゆっくりと表示する。

　これに対して、ＳＷ装置２２Ｃは、時間方向カメラワークにより、自由視点画像として補間生成された視点方向Ｖ６１の画像については、表示時間を所定の表示時間よりも短めにして高速で表示する。

　このようにすることで、表示される画像の破綻を目立たせないようにしながら、視点方向Ｖ５３，Ｖ６１，Ｖ５４の画像を順次切り替えて表示させることが可能となる。

　このように、視点方向を切り替えて表示させる際、カメラ２１Ｃで撮像されたオリジナル画像については、表示時間を長くゆっくりと表示し、補間生成された画像については、表示時間を短めに高速で表示させる場合においても、ＳＷ２２Ｃは、カメラ２１Ｃ－１乃至２１Ｃ－１５により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、カメラ２１Ｃ－１乃至２１Ｃ－１５により撮像される画像より生成される自由視点画像の視点方向を、空間方向カメラワークにより適切に切り替えながら、時間方向カメラワークにより適切な再生速度で出力しており、時空間方向カメラワークがなされているとも言える。

　このように本開示のＳＷ２２Ｃにおいては、カメラ２１Ｃ－１乃至２１Ｃ－１５により撮像される画像に基づいて、被写体の行動を予測して、予測行動に基づいて、画像より生成される自由視点画像の視点方向を空間方向カメラワークにより切り替えながら、時間方向カメラワークにより適切な再生速度で出力する。

　すなわち、本開示の信号処理システム１１Ａ乃至１１Ｃにおいては、いずれにおいても、上述した、図１乃至図３を参照して説明した、サッカーや野球の試合、および音楽ライブなどのイベントの撮像にあたって、複数のカメラにより撮像される画像から、被写体の行動を予測して、予測した被写体の行動に応じて、複数のカメラにより撮像される画像の空間方向（視点方向）を切り替えると共に、時間方向（再生速度）に対する処理を適切に切り替えて（時空間方向に対して適切に処理を施して）出力することが可能となる。

　＜ＳＷ装置の構成例＞
　次に、図４のブロック図を参照して、本開示のＳＷ装置の構成例について説明する。

　尚、本開示の信号処理システムの構成については、図１乃至図３を参照して説明してきたサッカーの試合を撮像する信号処理システム１１Ａ、野球の試合を撮像する信号処理システム１１Ｂ、および音楽ライブを撮像する信号処理システム１１Ｃに相当する、各種のイベントを撮像するための信号処理システムであり、複数のカメラにより撮像される画像から、被写体の行動を予測して、予測した被写体の行動に応じて、複数のカメラにより撮像される画像を、空間方向カメラワークにより視点方向を適切に切り替えながら、時間方向カメラワークにより再生速度を適切に切り替えて出力する点については、同様の機能を備えた構成である。

　また、図１乃至図３の信号処理システム１１Ａ乃至１１Ｃを構成するカメラ２１Ａ乃至２１Ｃ、ＳＷ装置２２Ａ乃至２２Ｃ、通信装置２３Ａ乃至２３Ｃ、および通信ネットワーク２４Ａ乃至２４Ｃは、それぞれ基本的な機能において同様であるので、以降においては、単に、信号処理システム１１、カメラ２１、ＳＷ装置２２、通信装置２３、および通信ネットワーク２４と称する。

　図４のＳＷ装置２２は、図１乃至図３における信号処理システム１１Ａ乃至１１ＣにおけるＳＷ装置２２Ａ乃至２２Ｃとしての機能と同様に、複数のカメラ２１により撮像された画像を取得して、複数のカメラにより撮像される画像から、被写体の行動を予測して、予測した被写体の行動に応じて、複数のカメラにより撮像される画像の空間方向に対する視点方向を適切に切り替えると共に、時間方向に対する再生速度を適切に切り替えて、通信装置２３に出力する。

　この際、切り替えて出力すべき視点方向の画像が存在しない場合、ＳＷ装置２２は、複数のカメラ２１により撮像された画像に基づいて、切り替えて出力すべき視点方向の画像を自由視点画像として補間生成する。

　より詳細には、ＳＷ装置２２は、制御部３１、入力部３２、出力部３３、記憶部３４、通信部３５、ドライブ３６、およびリムーバブル記憶媒体３７、並びにＳＷ部３９より構成されており、相互にバス３８を介して接続されており、データやプログラムを送受信することができる。

　制御部３１は、プロセッサやメモリから構成されており、ＳＷ装置２２の動作の全体を制御する。

　また、制御部３１は、ＳＷ処理部４１としての機能を備えており、複数のカメラ２１により撮像された複数の画像より、被写体の行動を予測し、予測した行動に基づいて、ＳＷ３９の動作を制御して、空間方向に対する視点方向の画像を切り替えると共に、時間方向に対する再生速度を切り替えて、通信装置２３に出力する。

　尚、ＳＷ処理部４１の構成については、図５を参照して詳細を後述する。

　入力部３２は、ユーザが操作コマンドを入力するキーボードや操作ボタンなどの入力デバイスより構成され、入力された各種の信号を制御部３１に供給する。

　出力部３３は、スピーカ等からなる音声出力部、LCD（Liquid Crystal Display）や有機EL（Organic Electro-Luminescence）等からなる表示部、LED（Light Emitting Diode）等から構成される発光部などから構成され、制御部３１により制御されて、各種の処理結果をユーザに提示する。

　記憶部３４は、HDD（Hard Disk Drive）、SSD（Solid State Drive）、または、半導体メモリなどからなり、制御部３１により制御され、カメラ２１より供給される画像を含む各種のデータおよびプログラムを書き込む、または、読み出す。

　通信部３５は、制御部３１により制御され、図示せぬ各種の装置との間で各種のデータやプログラムを送受信する。また、通信部３５は、通信ネットワーク２４（図１乃至図３の通信ネットワーク２４Ａ乃至２４Ｃに相当）を介して、複数のカメラ２１より供給されてくる撮像された画像を取得する。

　ドライブ３６は、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブル記憶媒体３７に対してデータを読み書きする。

　ＳＷ３９は、制御部３１のＳＷ処理部４１により制御されて、複数のカメラ２１により撮像される複数の画像に基づいて予測される被写体の行動に応じて、出力すべき空間方向に対応する視点方向の画像を切り替えると共に、時間方向（再生速度）に対する処理を切り替えて（時空間方向に対する処理を切り替えて）、通信装置２３に出力する。

　＜ＳＷ処理部の機能＞
　次に、図５の機能ブロック図を参照して、ＳＷ処理部４１により実現される機能について説明する。

　ＳＷ処理部４１は、リアルタイム情報解析部５１、カメラワーク推定部５２、カメラワーク決定部５３、自由視点画像生成部５４、エフェクト処理部５５、およびＳＷ制御部５６、並びに、ストレージ１３１、過去データ記憶部１３２、カメラ情報記憶部１３３、およびリプレイ画像記憶部１３４を備えている。

　ここで、ストレージ１３１、過去データ記憶部１３２、カメラ情報記憶部１３３、およびリプレイ画像記憶部１３４は、いずれも図４の記憶部３４、およびリムーバブル記憶媒体３７の少なくともいずれかの領域に設定される。

　ストレージ１３１は、複数のカメラ２１－１乃至２１－ｎにより様々な視点方向で撮像される画像を記憶する。

　また、カメラ２１－１乃至２１－ｎには、それぞれ音声を録音するためのマイク（マイクロフォン）１２１－１乃至１２１－ｎが設けられており、カメラ２１－１乃至２１－ｎのそれぞれにより撮像される画像と対応付けてストレージ１３１に記憶される。

　尚、マイク１２１は、カメラ２１とは別体とされてもよく、例えば、サッカーや野球などのスポーツを撮像する場合については、選手一人一人に設けられるようにしてもよいし、音楽ライブを撮像する場合については、アーティスト一人一人や楽器一つ一つに設けられるようにしてもよい。ただし、本実施の形態においては、マイク１２１が、それぞれカメラ２１に対応付けて設けられている例について説明する。

　リアルタイム情報解析部５１は、ストレージ１３１に格納された各画像を解析して、解析結果としてのリアルタイム情報をカメラワーク推定部５２に出力する。

　リアルタイム情報は、画像を解析することで得られる情報であり、画像内の人物の位置情報および姿勢情報、人物識別情報、動体位置情報、イベント情報、およびイベント領域情報を含む。

　人物の位置情報および姿勢情報とは、撮像された画像内における人物からなる被写体の空間的な位置情報および姿勢情報である。

　人物識別情報とは、画像内の被写体としての人物を識別する情報であり、例えば、どの被写体の人物がどの選手であるのか、または、どのアーティストであるのかなどを識別する情報である。

　リアルタイム情報解析部５１は、被写体となる人物の情報として、例えば、サッカーや野球の試合を撮像する際には各選手名やプロフィールの情報や音楽ライブを撮像する際にはアーティスト名の情報等を含む、リアルタイムメタ情報を予め取得しており、画像を解析することで、リアルタイムメタ情報に基づいて、どの被写体がどの選手であり、どの被写体がどのアーティストであるのかを識別し、人物識別情報を生成する。

　動体位置情報とは、スポーツで使用されるボールなどの競技で使用される道具類の位置や、アーティストが使用する楽器の位置の情報である。

　イベント情報とは、画像から撮像されているイベントがどのようなイベントであるのかを示す情報、および、イベントの盛り上がり具合などを示す情報である。

　例えば、サッカーの試合を撮像する場合、選手がボールに対して特定の位置関係で、特定の姿勢をとることで、シュートを打つといったイベントが発生することが認識される。

　さらに、そのシュートにより得点がなされることにより、例えば、試合が逆転するような場合には、さらに、逆転というイベントが発生したことが認識される。

　また、野球の試合を撮像する場合、投手である選手が所定の姿勢でボールを振りかぶって投げるとき、ピッチングがなされたというイベントが発生したことが認識される。

　さらに、野球の試合を撮像する場合、打者が所定の姿勢でバットを振って、ボールを打つことで、打撃がなされたといイベントが発生したことが認識される。

　また、この打撃により逆転がなされるようなときには、逆転というイベントが発生されたことが認識される。

　イベント領域情報とは、撮像されている画像内におけるどの領域においてイベントが発生しているのかを示す情報である。

　尚、リアルタイム情報解析部５１の詳細な構成については、図６を参照して、詳細を後述する。

　カメラワーク推定部５２は、過去データ記憶部１３２に過去のリアルタイム情報と対応付けて記憶されている行動履歴、カメラ情報記憶部１３３に記憶されているカメラ２１のそれぞれの位置、姿勢、および種類などの情報、および、現状におけるリアルタイム情報に基づいて、複数のカメラ２１により撮像された画像のカメラワークを推定する。

　ここでいうカメラワークとは、図１乃至図３を参照して説明したように、複数のカメラ２１により撮像された画像のうち、重要度の高いシーンを見易い視点方向から見易い再生速度で出力するカメラワークである。

　より具体的には、カメラワークには、イベントが発生した状況を見易い視点方向からの画像に切り替えて出力する処理に加えて、複数のカメラ２１により撮像された画像に基づいて、発生したイベントを視聴し易い視点方向からの画像として撮像するカメラ２１が存在しない場合については、現実の複数のカメラ２１により撮像された画像から、発生したイベントを視聴し易い視点方向からの画像を自由視点画像として補間生成して出力する空間方向カメラワークを含む。

　また、カメラワークには、例えば、再生速度に変化を与える時間方向カメラワークも含まれており、サッカーなどの試合などで重要度の高いイベントとして、例えば、シュートが打たれるときなどについては、詳細に視聴できるように、通常再生速度より低速で再生されるような処理が含まれる。

　また、時間方向カメラワークには、野球などにおける重要度の高いイベントとして、打者がバットでボールを打撃するときなどについては、詳細に視聴できるように、通常再生速度より低速で再生させるような処理が含まれる。

　すなわち、カメラワークについては、視点方向の異なる自由視点画像を生成することで複数のカメラ２１により撮像された画像に対して空間方向に対する処理を切り替える空間方向カメラワークと、再生速度を変化させることで時間方向に対する処理を切り替える時間方向カメラワークとが含まれる。

　また、図１乃至図３の実施例においては、ユーザが放送局であることを前提としているため、カメラワーク推定部５２は、予めユーザとなる放送局向けユーザの意向を反映させる設定情報を、放送局向けユーザ設定として取得しており、カメラワークの推定に反映させる。

　より具体的には、放送局向けユーザ情報として、例えば、放送局のスポンサーの広告を重要視することが設定されるような場合、カメラワーク推定部５２は、カメラワークを推定するにあたって、サッカーなどの試合でシュートを打つようなイベントが発生するときにシュートシーンを撮像する視点方向の画像を選択する際、スポンサーの広告が描かれた壁や看板が映りやすい視点方向の画像が出力されるようなカメラワークを推定するようにしてもよい。

　また、放送局向けユーザ情報として、例えば、放送局の視聴者アンケートによる視聴者の要望が高いアングル（視点方向）が設定されるような場合、カメラワーク推定部５２は、カメラワークを推定するにあたって、視聴者アンケートにより最も要望が高いアングル（視点方向）の画像が出力されるようなカメラワークを推定するようにしてもよい。

　カメラワーク推定部５２は、視点方向や再生速度が異なる複数のカメラワークをカメラワーク候補として推定してカメラワーク決定部５３に出力する。

　また、カメラワーク推定部５２は、リアルタイム情報に基づいて、試合が中断している状態や、野球などで攻撃と守備の入れ替えているような状態であることが認識できるときには、カメラワークの１つとしてリプレイ画像を表示することをカメラワーク候補として出力する。

　カメラワーク決定部５３は、推定された複数のカメラワークの候補のうちから、いずれか最適なカメラワークを決定し、決定したカメラワークの情報を自由視点画像生成部５４、エフェクト処理部５５、およびＳＷ制御部５６に出力する。

　より具体的には、カメラワーク決定部５３は、候補となるカメラワークのそれぞれにより生成される画像に基づいて、例えば、シュートシーンなどにおいては、シュートを打っている選手の顔が最も大きく映るカメラワークを最適なカメラワークとしてもよいし、放送局向けユーザ情報としてスポンサーを重視するような設定があるときには、最もスポンサーの広告となる壁や看板などが映り込む画像が生成されるようなカメラワークに決定するようにしてもよい。

　また、カメラワーク決定部５３は、リプレイ画像の表示が指示されるようなカメラワークが含まれる場合、例えば、試合中に競技が中断していることが画像から認識されるタイミングにおいては、リプレイ画像を表示させるようなカメラワークに決定するようにしてもよい。

　さらに、カメラワーク決定部５３は、ユーザ入力として入力されたカメラワークを決定したカメラワークの情報として出力することもできる。

　自由視点画像生成部５４は、カメラワーク決定部５３により決定されたカメラワークの情報に基づいて、ストレージ１３１に格納された複数のカメラ２１により撮像された画像に基づいて自由視点画像を生成してエフェクト処理部５５に出力する。

　より詳細には、自由視点画像生成部５４は、決定されたカメラワーク（空間方向カメラワーク）の情報に基づいて、視点方向が、カメラ２１のいずれかの視点方向に対応するときには、ストレージ１３１に格納された画像のうち、視点方向が対応するカメラ２１により撮像される画像を読み出して使用する。

　また、自由視点画像生成部５４は、決定されたカメラワーク（空間方向カメラワーク）の情報に基づいて、視点方向がカメラ２１のいずれにも対応しないときには、近傍の視点方向のカメラ２１により撮像される画像を用いて自由視点画像を補間生成することで、対応する視点方向の画像を生成して使用する。

　さらに、自由視点画像生成部５４は、決定されたカメラワーク（時間方向カメラワーク）の情報に基づいて、時間方向に対する処理が指示されているとき、対応する再生速度になるように、時間方向に対する処理を施す。

　すなわち、自由視点画像生成部５４は、再生速度を通常再生速度より低速で再生させるようにカメラワーク（時間方向カメラワーク）として指示されている場合、視点方向に対応付けてストレージ１３１より読み出された画像、または、自由視点画像として補間生成された画像のいずれかに対して、再生速度を通常再生速度より低速で再生させるような処理を施す。

　エフェクト処理部５５は、放送局向けユーザ設定に基づいて、生成された自由視点画像に対して所定のエフェクト処理を施して、ＳＷ３９、およびリプレイ画像記憶部１３４に出力する。

　ここで、エフェクト処理とは、放送局向けユーザ設定に基づいたものであり、例えば、シュートシーンなどの場合については、シュートを打っている選手以外はボケた状態で表示されるようにして、シュートを打つ選手のみが良く認識できるようなエフェクトでもよいし、放送局のスポンサー以外のスポンサー広告が映し出される領域については、ボケた状態で表示されるようにエフェクトされるようにしてもよい。

　また、エフェクト処理として、シュートシーンや打撃シーンで、派手な演出が加えられるようにしてもよい。

　さらに、エフェクト処理として、サッカーなどでは、ボール支配率などが視認できるように可視化して表示するようにしてもよく、例えば、チームのエリアが色分けして表示されるような処理が施されるようにしてもよい。

　尚、カメラワーク決定部５３により決定されたカメラワークとして、カメラ２１のいずれかにより撮像された画像に対してエフェクト処理を施すだけの場合、自由視点画像生成部５４は、対応する画像をストレージ１３１より読み出して、自由視点画像を生成することなく、そのままエフェクト処理部５５に出力するようにしてもよい。この場合、エフェクト処理部５５は、カメラ２１のいずれかの画像に対してエフェクト処理のみを施しを出力する。

　また、決定されたカメラワークにおいて、カメラ２１のいずれかにより撮像された画像が読み出されるだけで、エフェクト処理について指示がない場合については、自由視点画像生成部５４は、ストレージ１３１に蓄積された画像のうち、所望とする画像を読み出して、そのままエフェクト処理部５５に供給するようにしてもよい。

　さらに、エフェクト処理部５５においても、何のエフェクト処理がなされることなく出力されるようにしてもよい。

　つまり、この場合、単に、ストレージ１３１に蓄積された画像がＳＷ３９およびリプレイ画像記憶部１３４に供給される。

　ＳＷ制御部５６は、カメラワーク決定部５３より供給されるカメラワークの情報に基づいて、ＳＷ３９の動作を制御して、エフェクト処理部５５を介して、自由視点画像生成部５４より供給される、ストレージ１３１に格納されている複数のカメラ２１のいずれかにより撮像された画像、補間生成された自由視点画像、エフェクト処理部５５により何らかのエフェクト処理が施された画像、または、リプレイ画像記憶部１３４に記憶された画像のいずれかを切り替えて出力する。

　＜リアルタイム情報解析部の構成例＞
　次に、図６のブロック図を参照して、リアルタイム情報解析部５１の構成例について説明する。

　リアルタイム情報解析部５１は、人物モデル推定部１５１、人物識別部１５２、動体位置検出部１５３、イベント解析部１５４、イベント領域検出部１５５、および情報統合部１５６を備えている。

　人物モデル推定部１５１は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、自由視点画像に基づいた人物モデルを構成し、行動を予測するために必要な、人物モデルの位置情報、および姿勢情報を推定する。

　より詳細には、人物モデル推定部１５１は、自由視点画像モデル生成部１７１、姿勢推定部１７２、およびモデル結合部１７３を備えている。

　自由視点画像モデル生成部１７１は、ストレージ１３１に蓄積されている複数のカメラ２１により撮像された複数の視点方向の画像より、人物の行動を予測する上で必要な人物の位置情報を含む自由視点画像モデルを生成して結合部１７３に出力する。

　姿勢推定部１７２は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、人物の行動を予測する上で必要な人物の姿勢情報を含む人物モデルを生成して結合部１７３に出力する。

　結合部１７３は、人物の行動を予測する上で必要とされる人物モデルと自由視点画像モデルとを結合して情報統合部１５６に出力する。

　人物識別部１５２は、事前に供給される選手やアーティストの情報などからなるリアルタイムメタ情報に基づいて、ストレージ１３１に蓄積されている複数のカメラ２１の画像内における人物が誰であるのかを識別する情報を、画像内の人物ごとに付与し、人物識別情報として、情報統合部１５６に出力する。

　動体位置検出部１５３は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、人物以外の動体となる物体の位置情報を検出して、情報統合部１５６に出力する。

　ここでいう人物以外の動体となる物体とは、例えば、サッカーや野球の試合を撮像する際におけるボールなどであり、音楽ライブなどにおけるアーティストが使用する楽器などである。

　すなわち、動体位置検出部１５３は、例えば、サッカーや野球の試合を撮像する際においては、ボールの位置を動体の位置情報として検出し、音楽ライブを撮像する際においては、楽器の位置を動体の位置情報として検出し、情報統合部１５６に出力する。

　イベント解析部１５４は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、撮像されているイベントを解析し、イベントの種別や、盛り上がり度合いなどからなるイベント情報を求めて情報統合部１５６に出力する。

　この際、イベント解析部１５４は、イベントを解析するにあたって、ストレージ１３１に蓄積されている複数のカメラ２１の画像に加えて、必要に応じて、人物モデル推定部１５１により推定された人物の位置情報、および姿勢情報、人物識別部１５２により生成された人物識別情報、並びに動体位置検出部１５３により検出された動体位置情報を用いてイベントを解析する。

　イベント領域検出部１５５は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、画像内におけるイベントが発生している領域を検出し、情報統合部１５６に出力する。

　イベントが発生している画像内における領域とは、例えば、サッカーの試合などでシュートを打つシーンの場合、シュートを打つというイベントが、画像内のどの領域で発生しているのかを検出するものである。

　情報統合部１５６は、人物モデル推定部１５１より供給される人物の位置情報および姿勢情報、人物識別部１５２の人物識別情報、動体位置検出部１５３より供給される動体位置情報、イベント解析部１５４のイベント情報、およびイベント領域検出部１５５からのイベントの発生している領域を示すイベント領域情報を統合して、リアルタイム情報としてカメラワーク推定部５２に出力する。

　＜カメラワーク推定部の構成例＞
　次に、図７のブロック図を参照して、カメラワーク推定部５２の構成例について説明する。

　カメラワーク推定部５２は、行動予測部２０１およびカメラワーク生成部２０２とを備えている。

　行動予測部２０１は、リアルタイム情報解析部５１より供給されるリアルタイム情報に基づいて、ストレージ１３１に蓄積されている複数のカメラ２１の画像内の被写体となる人物の行動を予測する。

　より詳細には、行動予測部２０１は、行動推定部２２１、信頼度計算部２２２、および行動予測決定部２２３を備えている。

　行動推定部２２１は、ディープラーニングなどの機械学習により生成された行動推定学習モデルに対して、リアルタイム情報解析部５１より供給されるリアルタイム情報を適用することにより、カメラ２１により撮像された画像内の人物の行動を推定し、信頼度計算部２２２、および行動予測決定部に出力する。ここで、行動推定学習モデルは、例えば、過去データ記憶部１３２に過去のリアルタイム情報と対応付けて記憶されている行動履歴の情報に基づいて生成され、過去データ記憶部１３２に記憶されている。なお、推定される行動は１つに限らず、複数であって良い。また、行動推定部２２１は、例えば、過去データ記憶部１３２に過去のリアルタイム情報のパターンと対応付けて記憶されている行動履歴のパターンに基づいて、リアルタイム情報解析部５１より供給されるリアルタイム情報がいずれのパターンに属するかを判定し、対応する行動履歴のパターンに基づき、カメラ２１により撮像された画像内の人物の行動を推定しても良い。

　信頼度計算部２２２は、リアルタイム情報と、過去データ記憶部１３２に過去のリアルタイム情報と対応付けて記憶されている行動履歴とから、推定された行動のそれぞれについて、信頼度を計算し、計算結果を行動予測決定部２２３に出力する。

　行動予測決定部２２３は、行動推定部２２１より供給される推定された行動と、信頼度計算部２２２により計算される推定された行動のそれぞれに対応する信頼度とに基づいて、所定の信頼度よりも高い信頼度で推定された行動を予測行動として決定し、カメラワーク生成部２０２に出力する。

　このように、複数に推定された行動から、信頼度が所定値よりも高いものが予測行動として選ばれることになるので、例えば、サッカー選手がボールをドリブルするようなシーンにおいて、フェイントを掛ける行動と、フェイントを掛けない行動とをそれぞれ信頼度と共に予測することが可能となる。

　カメラワーク生成部２０２は、行動予測部２０１より供給される予測行動と、カメラ情報記憶部１３３に記憶されているカメラ２１の個別の位置、撮像方向、およびカメラの種別の情報に基づいてカメラワークを生成する。なお、カメラワーク生成部２０２０は、さらにリアルタイム情報解析部５１より供給されるリアルタイム情報に基づいてカメラワークを生成しても良い。

　より詳細には、カメラワーク生成部２０２は、空間方向カメラワーク生成部２４１、時間方向カメラワーク生成部２４２、音声切替情報生成部２４３、および統合部２４４を備えている。

　空間方向カメラワーク生成部２４１は、ディープラーニングなどの機械学習により生成された空間方向カメラワーク学習モデルに対して、行動予測部２０１より供給される予測行動の情報を適用し、カメラ情報記憶部１３３に記憶されているカメラ２１の個別の位置、撮像方向、およびカメラの種別の情報、並びに、放送局向けユーザ設定に基づいて、いずれの視点方向のカメラ２１により撮像されている画像を順次選択するかを空間方向カメラワークとして生成する。ここで、空間方向カメラワーク学習モデルは、例えば、過去データ記憶部１３２に過去の予測行動の情報と対応付けて記憶されている空間方向カメラワークに基づいて生成され、過去データ記憶部１３２に記憶されている。なお、過去の予測行動の情報と対応付けて記憶されているカメラワークとしては、例えば過去のカメラマンによる撮影時のカメラワークを情報として記憶させるものであっても良い。

　なお、空間方向カメラワーク生成部２４１は、過去データ記憶部１３２に過去の予測行動の情報及び過去のリアルタイム情報と対応付けて記憶されている空間方向カメラワークに基づいて生成され、過去データ記憶部１３２に記憶されている空間方向カメラワーク学習モデルに対して、行動予測部２０１より供給される予測行動の情報と、リアルタイム情報解析部５１より供給されるリアルタイム情報とを適用することで、空間方向カメラワークを生成しても良い。

　また、空間方向カメラワーク生成部２４１は、例えば、過去データ記憶部１３２に過去の予測行動のパターンと対応付けて記憶されている空間方向カメラワークのパターンに基づき、行動予測部２０１より供給される予測行動がいずれのパターンに属するかを判定し、対応する空間方向カメラワークのパターンに基づき空間方向カメラワークを生成しても良い。

　また、空間方向カメラワーク生成部２４１は、例えば、特定の選手がパスを出すときには、パスを受ける選手が撮像されているカメラ２１の画像が選択されるようにすることで、視点方向を先回りするように切り替えるような空間方向カメラワークを生成する。さらに、空間方向カメラワーク生成部２４１は、例えば、投手が投球するときには、捕球するキャッチャの目線の画像が撮像されているカメラ２１が選択されるようにすることで、視点方向を先回りするように切り替えるような空間方向カメラワークを生成する。

　また、放送局向けユーザ設定などに、スポンサー広告が含まれるアングルを優先するような設定がある場合については、空間方向カメラワーク生成部２４１は、スポンサー広告となる壁や看板が含まれるアングルの視点方向の画像を出力するような空間方向カメラワークを生成する。

　ここで生成される空間方向カメラワークは、最終的に選択されるカメラワークの候補であるので、複数の空間方向カメラワークが生成されてもよい。

　時間方向カメラワーク生成部２４２は、ディープラーニングなどの機械学習により生成された時間方向カメラワーク学習モデルに対して、行動予測部２０１より供給される予測行動の情報を適用し、カメラ情報記憶部１３３に記憶されているカメラ２１の個別の位置、撮像方向、およびカメラの種別の情報、並びに、放送局向けユーザ設定に基づいて、再生速度に対する所定の処理を時間方向カメラワークとして生成する。ここで、時間方向カメラワーク学習モデルは、例えば、過去データ記憶部１３２に過去の予測行動の情報と対応付けて記憶されている時間方向カメラワークに基づいて生成され、過去データ記憶部１３２に記憶されている。なお、過去の予測行動の情報と対応付けて記憶されている時間方向カメラワークとしては、例えば過去の編集オペレータによる再生速度に関する編集時の情報として記憶させるものであっても良い。

　なお、時間方向カメラワーク生成部２４２は、過去データ記憶部１３２に過去の予測行動の情報及び過去のリアルタイム情報と対応付けて記憶されている時間方向カメラワークに基づいて生成され、過去データ記憶部１３２に記憶されている時間方向カメラワーク学習モデルに対して、行動予測部２０１より供給される予測行動の情報と、リアルタイム情報解析部５１より供給されるリアルタイム情報とを適用することで、時間方向カメラワークを生成しても良い。

　また、時間方向カメラワーク生成部２４２は、例えば、過去データ記憶部１３２に過去の予測行動のパターンと対応付けて記憶されている時間方向カメラワークのパターンに基づき、行動予測部２０１より供給される予測行動がいずれのパターンに属するかを判定し、対応する時間方向カメラワークのパターンに基づき時間方向カメラワークを生成しても良い。

　すなわち、時間方向カメラワーク生成部２４２は、シュートを打つ瞬間や打者の打撃の瞬間、フェイントが決まった瞬間、ディフェンスを抜いた瞬間などについては、再生速度を通常の再生速度よりも低速再生にするといった時間方向の処理を施すカメラワークを時間方向カメラワークとして生成し、詳細に視聴できるようにする。

　また、時間方向カメラワーク生成部２４２は、空間方向カメラワークにより、視点方向を切り替えて表示させる際、カメラ２１で撮像されたオリジナルの視点方向の画像については、破綻が少ないので、再生速度を通常再生速度よりも低速再生でゆっくりと表示するように時間方向の処理を施すカメラワークを時間方向カメラワークとして生成する。

　一方、カメラ２１のオリジナルの視点方向の画像が存在せず、近傍の視点方向の画像より、自由視点画像として補間生成された画像については、破綻が生じ易いので、時間方向カメラワーク生成部２４２は、再生速度を通常再生速度よりも高速で表示させるようにするといった時間方向の処理を施すカメラワークを時間方向カメラワークとして生成し、歪が目立たないようにする。

　尚、時間方向カメラワークについては、必須ではなく、予測行動の種別やリアルタイム情報によっては、時間方向カメラワークの処理がなされないままでもよい。

　音声切替情報生成部２４３は、空間方向カメラワークおよび時間方向カメラワークに対応して、マイク１２１により収音された音声を切り替える情報を音声切替情報として生成し、統合部２４４に出力する。

　すなわち、音声切替情報生成部２４３は、例えば、視点方向に対応するカメラ２１と対応付けて設けられているマイク１２１の音声をカメラワークと対応付けるように音声切替情報を生成するようにしてもよい。

　また、例えば、選手やアーティスト一人一人にマイク１２１が設置されているような場合、音声切替情報生成部２４３は、空間方向カメラワーク、および時間方向のカメラワークにより表示される画像内に、選手やアーティストがただ一人であるようなときには、その選手やアーティストの音声のみを抽出するようなカメラワークに対応した音声を切り替えて出力する音声切替情報を生成するようにしてもよい。

　統合部２４４は、空間方向カメラワーク、時間方向カメラワーク、および音声切替情報を対応付けて統合した情報をカメラワーク候補としてカメラワーク決定部５３に出力する。

　以上のような構成により、カメラワーク候補は、空間方向カメラワーク、および時間方向カメラワーク、並びに、空間方向カメラワーク、および時間方向カメラワーク対応する音声切替情報が統合された情報として生成される。

　なお、ここでは、空間方向カメラワーク生成部２４１、時間方向カメラワーク生成部２４２を別の構成として説明したが、１つのカメラワーク生成部（図示せず）が、時空間方向カメラワークを生成しても良い。この場合、カメラワーク生成部（図示せず）は、例えば、ディープラーニングなどの機械学習により生成された時空間方向カメラワーク学習モデルに対して、行動予測部２０１より供給される予測行動の情報と、リアルタイム情報解析部５１より供給されるリアルタイム情報とを適用することで、時間方向カメラワークを生成しても良い。ここで、時空間方向カメラワーク学習モデルは、例えば、過去データ記憶部１３２に過去の予測行動の情報及び過去のリアルタイム情報と対応付けて記憶されている空間方向カメラワーク及び時間方向カメラワークに基づいて生成され、過去データ記憶部１３２に記憶されている。

　＜図５のＳＷ処理部によるＳＷ処理＞
　次に、図８のフローチャートを参照して、図５のＳＷ処理部４１によるＳＷ処理について説明する。

　ステップＳ１１において、ＳＷ装置２２の制御部３１により機能するＳＷ処理部４１が、カメラ２１－１乃至２１－ｎにより撮像される画像を取得する。

　ステップＳ１２において、ＳＷ処理部４１は、取得した各カメラ２１より供給される画像をストレージ１３１に蓄積する。

　ステップＳ１３において、リアルタイム情報解析部５１は、リアルタイム情報解析処理を実行することで、ストレージ１３１に蓄積された各カメラ２１の画像を解析し、リアルタイム情報を抽出して、カメラワーク推定部５２に供給する。

　尚、リアルタイム情報解析処理については、図９のフローチャートを参照して、詳細を後述する。

　ステップＳ１４において、カメラワーク推定部５２は、リアルタイム情報、過去データ、カメラ情報、および放送局向けユーザ設定に基づいて、カメラワーク推定処理を実行して、複数のカメラ２１により撮像された画像より被写体となる人物の行動を予測し、予測された行動に応じた、複数のカメラワーク候補を推定してカメラワーク決定部５３に供給する。

　尚、カメラワーク推定処理については、図１０のフローチャートを参照して、詳細を後述する。

　ステップＳ１５において、カメラワーク決定部５３は、カメラワーク候補からカメラワークを決定し、自由視点画像生成部５４、エフェクト処理部５５、およびＳＷ制御部５６に供給する。

　ここで決定されるカメラワークは、目的とされる視点方向（カメラアングル）に対応するカメラ２１のいずれかにより撮像された画像、カメラ２１により撮像された画像に基づいて補間生成される自由視点画像、または、リプレイ画像のいずれかを特定する空間方向カメラワークと、再生速度の調整に係る時間方向カメラワークとを含む情報である。

　ステップＳ１６において、自由視点画像生成部５４は、カメラワーク決定部５３により決定されたカメラワークに基づいて、ストレージ１３１により蓄積された各カメラ２１により撮像された画像に基づいて自由視点画像を生成し、エフェクト処理部５５に出力する。

　より詳細には、自由視点画像生成部５４は、カメラワーク決定部５３により決定されたカメラワークのうちの、空間方向カメラワークに基づいて、特定された視点方向の画像を、ストレージ１３１により蓄積された各カメラ２１により撮像された画像に基づいて自由視点画像を生成する。

　さらに、自由視点画像生成部５４は、空間方向カメラワークに基づいて生成された自由視点画像に対して、カメラワークのうちの、時間方向カメラワークに基づいて、再生速度を調整する処理を施して、エフェクト処理部５５に出力する。

　従って、例えば、低速再生させるような場合については、自由視点画像生成部５４は、空間方向カメラワークに基づいて生成された自由視点画像に対して、通常再生速度よりも低速再生するような処理を施してエフェクト処理部５５に出力する。

　ステップＳ１７において、エフェクト処理部５５は、放送局向けユーザ設定に基づいて、自由視点画像生成部５４により生成された自由視点画像にエフェクトを施してリプレイ画像記憶部１３４、およびＳＷ３９に出力する。

　ステップＳ１８において、リプレイ画像記憶部１３４は、エフェクト処理部５５より供給されてくるエフェクト処理が施された画像をリプレイ画像として記憶する。

　ステップＳ１９において、ＳＷ制御部５６は、カメラワーク決定部５３により決定されたカメラワークに基づいて、ＳＷ３９を制御して、画像を出力する。

　すなわち、ＳＷ制御部５６は、カメラワーク決定部５３により決定されたカメラワークの情報に基づいて、空間方向カメラワークおよび時間方向カメラワークに基づいた処理がなされた、カメラ２１のいずれかにより撮像された画像、カメラ２１により撮像された画像に基づいて補間生成される自由視点画像、または、リプレイ画像記憶部１３４に記憶されているリプレイ画像のいずれかを選択して出力する。

　以上の処理により、複数のカメラ２１により撮像された画像より被写体となる人物の行動が予測され、予測された行動に応じたカメラワークを実現することが可能となる。

　＜リアルタイム情報解析処理＞
　次に、図９のフローチャートを参照して、リアルタイム情報解析処理について説明する。

　ステップＳ４１において、人物モデル推定部１５１の自由視点画像モデル生成部１７１は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、人物の行動を予測する上で必要な人物の位置情報を含む自由視点画像モデルを生成して結合部１７３に出力する。

　ステップＳ４２において、人物モデル推定部１５１の姿勢推定部１７２は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、人物の行動を予測する上で必要な人物の姿勢情報を含む人物モデルを生成して結合部１７３に出力する。

　ステップＳ４３において、結合部１７３は、自由視点画像モデル生成部１７１より供給される人物モデルに基づいて求められた位置情報と、姿勢推定部１７２より供給される人物の姿勢情報とを結合して、情報統合部１５６に出力する。

　ステップＳ４４において、人物識別部１５２は、ストレージ１３１に蓄積されている複数のカメラ２１の画像と、リアルタイムメタ情報とに基づいて、画像内における人物を識別し、人物識別情報を生成して情報統合部１５６に出力する。

　ステップＳ４５において、動体位置検出部１５３は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、画像内における、例えば、ボール、バット、および楽器などの動体の位置を検出し、動体位置情報として情報統合部１５６に出力する。

　ステップＳ４６において、イベント解析部１５４は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に基づいて、画像内の情報を解析することで、発生しているイベントを解析し、解析結果となるイベント情報をイベント領域検出部１５５および情報統合部１５６に出力する。

　この際、イベント解析部１５４は、ストレージ１３１に蓄積されている複数のカメラ２１の画像に加えて、必要に応じて、人物モデル推定部１５１により推定された人物の位置情報、および姿勢情報、人物識別部１５２により生成された人物識別情報、並びに動体位置検出部１５３により検出された動体位置情報を用いてイベントを解析し、イベント情報を求める。

　ステップＳ４７において、イベント領域検出部１５５は、ストレージ１３１に蓄積されている複数のカメラ２１の画像と、イベント解析部１５４より供給されるイベント情報とに基づいて、画像内におけるイベントが発生している領域を検出し、イベント領域情報として情報統合部１５６に出力する。

　ステップＳ４８において、情報統合部１５６は、画像内における人物の位置情報および姿勢情報、動体位置情報、人物識別情報、イベント情報、およびイベント領域情報を統合してリアルタイム情報としてカメラワーク推定部５２に出力する。

　以上の処理により、複数のカメラ２１により撮像された画像に基づいて、画像内における人物の位置情報および姿勢情報、動体位置情報、人物識別情報、イベント情報、およびイベント領域情報からなるリアルタイム情報が生成されてカメラワーク推定部５２に供給することが可能となる。

　＜カメラワーク推定処理＞
　次に、図１０のフローチャートを参照して、図７のカメラワーク推定部５２によりカメラワーク推定処理について説明する。

　ステップＳ６１において、行動推定部２２１は、リアルタイム情報解析部５１より供給されるリアルタイム情報、および、過去データ記憶部１３２に過去のリアルタイム情報と対応付けて記憶されている行動履歴に基づいて、例えば、ディープラーニングなどにより人物の行動を推定し、推定結果を信頼度計算部２２２、および行動予測決定部２２３に出力する。

　この際、行動推定部２２１は、複数の行動を推定する場合もあり、そのような場合は、複数の推定結果を信頼度計算部２２２、および行動予測決定部２２３に出力する。

　ステップＳ６２において、信頼度計算部２２２は、行動推定部２２１により供給された推定結果となる行動のそれぞれについて信頼度を計算し、計算結果を行動予測決定部２２３に出力する。

　ステップＳ６３において、行動予測決定部２２３は、信頼度計算部２２２により計算された信頼度に基づいて、信頼度が所定値よりも高い推定結果となる行動を予測行動に決定し、決定した予測行動の情報をカメラワーク生成部２０２に出力する。すなわち、ここでは、信頼度が所定値よりも高い推定結果となる行動は、全て予測行動に決定されるので、決定される予測行動は、複数であることもある。

　ステップＳ６４において、カメラワーク生成部２０２の空間方向カメラワーク生成部２４１は、放送局向けユーザ設定、予測行動の情報、過去データ記憶部１３２に過去のリアルタイム情報と対応付けて記憶されている行動履歴、およびカメラ情報記憶部１３３のカメラ情報に基づいて、空間方向カメラワークを生成し、生成した空間方向カメラワークの情報を音声切替情報生成部２４３および統合部２４４出力する。

　ステップＳ６５において、時間方向カメラワーク生成部２４２は、放送局向けユーザ設定、予測行動の情報、過去データ記憶部１３２に過去のリアルタイム情報と対応付けて記憶されている行動履歴、およびカメラ情報記憶部１３３のカメラ情報に基づいて、時間方向カメラワークを生成し、生成した時間方向カメラワークの情報を音声切替情報生成部２４３および統合部２４４出力する。

　ステップＳ６６において、音声切替情報生成部２４３は、複数のマイク１２１により収録された音声を、放送局向けユーザ設定に基づいて、空間方向カメラワーク、および時間方向カメラワークに対応するように切り替えられる音声切替情報を生成し、統合部２４４に出力する。

　ステップＳ６７において、統合部２４４は、放送局向けユーザ設定、空間方向カメラワーク、および時間方向カメラワークの情報、および、対応する音声切替情報を統合して、カメラワーク候補の情報としてカメラワーク決定部５３に出力する。

　以上の処理により、複数のカメラ２１により撮像された画像に基づいて、画像内における人物の予測行動が信頼度と共に求められ、所定の閾値よりも高い信頼度の予測行動に基づいて、空間方向カメラワーク、および時間方向カメラワーク、音声切替情報、および放送局向けユーザ設定に応じたカメラワーク候補を生成することが可能となる。

　この結果、信頼度を含む複数の予測行動と放送局向けユーザ設定に基づいた、空間方向カメラワークおよび時間方向カメラワーク、並びに音声切替情報からなるカメラワーク候補が生成されるので、カメラワーク決定部５３は、カメラワーク候補の予測行動の信頼度や放送局向けユーザ設定に応じて、最終的なカメラワークを決定することが可能となる。

　すなわち、予測行動の信頼度を優先にする場合、カメラワーク決定部５３は、カメラワーク候補のうち、予測行動の信頼度が最も高い予測行動に基づいたカメラワークに決定するようにしてもよい。また、信頼度が低い場合には、カメラワーク決定部５３は、空間方向カメラワークにより視点方向の変化タイミングを遅らせるようにして、フェイントなどによる変化に対応できるようにしてもよい。

　また、放送局向けユーザ設定を優先にする場合、放送局向けユーザ設定として、例えば、視聴者アンケートで最も要望の高いカメラワークを優先するときには、カメラワーク決定部５３は、カメラワーク候補のうち、視聴者アンケートで最も要望の高いカメラワークに最も近いカメラワーク候補を、カメラワークとして決定するようにしてもよい。

　カメラワーク候補は、複数のカメラ２１により撮像された画像内の人物の予測行動により求められることになるので、人物の行動に応じたカメラワークを実現することが可能となる。

　また、この際、信頼度を優先することで、例えば、サッカーの試合などが撮像される場合、選手のフェイントの有無などを信頼度に基づいて高精度に判別し、適切なカメラワークを実現することが可能となる。これにより、選手のフェイントなどにより、選手を追跡できなくなるようなことを抑制することが可能となる。

　さらに、この際、放送局向けユーザ設定を優先することで、例えば、視聴者アンケートを反映させたカメラワークを実現することも可能となる。

　＜＜２．第２の実施の形態＞＞
　以上においては、ＳＷ装置２２が放送局向けユーザにより利用されて、最終的な画像が放送網を介して配信される例について説明してきた。

　しかしながら、ＳＷ装置２２の利用は、放送局向けユーザのみならず、例えば、一般の利用者がスマートフォンなどを用いて画像を撮像し、SNS（Social Networking Service）など放送回線網などを利用せず、インターネット経由で画像を配信する、いわゆるOTT（Over The Top）サービスにより利用されるものであってもよい。

　図１１は、OTTサービスの利用者を対象としたＳＷ処理部４１’の構成例を示している。

　尚、図１１のＳＷ処理部４１’の構成のうち、図５のＳＷ処理部４１と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。

　図１１のＳＷ処理部４１’において、図５のＳＷ処理部４１と異なる点は、カメラワーク推定部５２、およびエフェクト処理部５５に代えて、カメラワーク推定部５２’、およびエフェクト処理部５５’を設けた点である。

　カメラワーク推定部５２’は、基本的な機能において、カメラワーク推定部５２と同一の機能であるが、カメラワーク推定処理にあたって、放送局向けユーザ設定に代えて、OTT向けユーザ設定を利用する点で異なる。

　OTT向けユーザ設定は、画像を撮像し配信しようとするユーザ個人が設定することが可能なユーザ設定であるので、ユーザの個人の嗜好をそのまま設定することが可能である。

　したがって、例えば、サッカーや野球の試合を撮像する場合、ユーザの好みの選手を設定することで、好みの選手が撮像された画像を主体としたカメラワークが推定されるようにしてもよい。

　また、音楽ライブを撮像するような場合、ユーザの好みのアーティストを設定することで、好みのアーティストが撮像された画像を主体としてカメラワークが推定されるようにしてもよい。

　さらに、エフェクト処理部５５’は、基本的な機能は、エフェクト処理部５５と同一であるが、放送局向けユーザ設定に代えて、OTT向けユーザ設定が反映されるようなエフェクトを施す。

　したがって、例えば、OTT向けユーザ設定により、設定された選手やアーティストが主体となるイベントとして認識されるゴールシーンやソロ演奏などのシーンでは、特にユーザが好みとなるような演出が施されるようにエフェクト処理がなされるようにしてもよい。

　＜図１１のカメラワーク推定部の構成例＞
　次に、図１２のブロック図を参照して、図１１のカメラワーク推定部５２’の構成例について説明する。

　尚、図１２のカメラワーク推定部５２’において、図７を参照して説明したカメラワーク推定部５２と同様の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。

　すなわち、図１２のカメラワーク推定部５２’において、図７のカメラワーク推定部５２と異なるのは、カメラワーク生成部２０２に代えて、カメラワーク生成部２０２’が設けられている点である。

　カメラワーク生成部２０２’は、基本的な機能はカメラワーク生成部２０２と同様であるが、図７のカメラワーク生成部２０２の空間方向カメラワーク生成部２４１、時間方向カメラワーク生成部２４２、および音声切替情報生成部２４３に代えて、空間方向カメラワーク生成部２４１’、時間方向カメラワーク生成部２４２’、および音声切替情報生成部２４３’が設けられた点で異なる。

　空間方向カメラワーク生成部２４１’は、基本的な機能としては、空間方向カメラワーク生成部２４１と同一の機能を備えているが、放送局向けユーザ設定に代えて、OTT向けユーザ設定に基づいて、空間方向カメラワークを生成する点で異なる。

　また、OTT向けユーザ設定などに、好みの選手の画像を優先するような設定がある場合については、空間方向カメラワーク生成部２４１’は、好みの選手が含まれるアングルの視点方向の画像を出力するような空間方向カメラワークを生成するようにしてもよい。

　時間方向カメラワーク生成部２４２’は、基本的な機能としては、時間方向カメラワーク生成部２４２と同一の機能を備えているが、放送局向けユーザ設定に代えて、OTT向けユーザ設定に基づいて、時間方向カメラワークを生成する点で異なる。

　すなわち、OTT向けユーザ設定などに、好みの選手の画像を優先するような設定がある場合については、時間方向カメラワーク生成部２４２’は、シュートを打つ瞬間や打者の打撃の瞬間などについては、自らが好みの選手が主体となる動作であるときには、再生速度を低速再生にするといったカメラワークを生成するようにしてもよい。

　音声切替情報生成部２４３’は、基本的な機能としては、音声切替情報生成部２４３と同一の機能を備えているが、放送局向けユーザ設定に代えて、OTT向けユーザ設定に基づいて、マイク１２１により収音された音声を切り替えて、生成されたカメラワークに付与し、統合部２４４に出力する点で異なる。

　例えば、OTT向けユーザ設定などに、好みの選手の画像を優先するような設定がある場合については、音声切替情報生成部２４３’は、好みの選手の音声が切り替えて出力されるようにしてもよい。

　＜図１１のＳＷ処理部によるＳＷ処理＞
　次に、図１３のフローチャートを参照して、図１１のＳＷ処理部によるＳＷ処理について説明する。

　尚、図１３のフローチャートにおけるステップＳ１１１乃至Ｓ１１７、およびステップＳ１１９，Ｓ１２０の処理については、図８のフローチャートにおけるステップＳ１１乃至Ｓ１７、およびステップＳ１９，Ｓ２０の処理と同様であるので、説明は省略する。

　ステップＳ１１７において、エフェクト処理部５５は、カメラワーク決定部５３により決定されたカメラワーク、およびOTT向けユーザ設定に基づいて、自由視点画像生成部５４により生成された自由視点画像にエフェクト処理を施してリプレイ画像記憶部１３４、およびＳＷ３９に出力する。

　以上の一連の処理により、OTT向けユーザ設定に応じたエフェクトを生成される画像に対して施すことが可能となる。

　＜図１２のカメラワーク推定部によるカメラワーク推定処理＞
　次に、図１４のフローチャートを参照して、図１２のカメラワーク推定部５２’によるカメラワーク推定処理について説明する。

　尚、図１４のフローチャートにおけるステップＳ１６１乃至Ｓ１６３，Ｓ１６７の処理については、図１０のフローチャートにおけるステップＳ６１乃至Ｓ６３，Ｓ６７の処理と同様であるので、その説明は適宜省略する。

　すなわち、ステップＳ１６４において、カメラワーク生成部２０２’の空間方向カメラワーク生成部２４１’は、OTT向けユーザ設定、予測行動の情報、過去データ記憶部１３２に過去のリアルタイム情報と対応付けて記憶されている行動履歴、およびカメラ情報記憶部１３３のカメラ情報に基づいて、空間方向カメラワークを生成し、生成した空間方向カメラワークの情報を音声切替情報生成部２４３’および統合部２４４出力する。

　ステップＳ１６５において、時間方向カメラワーク生成部２４２’は、OTT向けユーザ設定、予測行動の情報、過去データ記憶部１３２に過去のリアルタイム情報と対応付けて記憶されている行動履歴、およびカメラ情報記憶部１３３のカメラ情報に基づいて、時間方向カメラワークを生成し、音声切替情報生成部２４３’および統合部２４４に出力する。

　ステップＳ１６６において、音声切替情報生成部２４３’は、複数のマイク１２１により収録された音声を、OTT向けユーザ設定に基づいて、空間方向カメラワーク、および時間方向カメラワークに対応するように切り替えられる音声切替情報を生成し、統合部２４４に出力する。

　以上の処理により、複数のカメラ２１により撮像された画像に基づいて、画像内における人物の予測行動が信頼度と共に求められ、所定の閾値よりも高い信頼度の予測行動に基づいて、OTT向けユーザ設定に応じた、空間方向カメラワーク、および時間方向カメラワークからなるカメラワーク候補を生成することが可能となる。

　この結果、信頼度を含む複数の予測行動とOTT向けユーザ設定に基づいて、空間方向カメラワークおよび時間方向カメラワークからなるカメラワーク候補が生成されるので、カメラワーク決定部５３は、カメラワーク候補の予測行動の信頼度やOTT向けユーザ設定に応じて、最終的なカメラワークを決定することが可能となる。

　＜＜３．第３の実施の形態＞＞
　以上においては、放送局向けユーザに対応したＳＷ処理部４１、およびOTT向けユーザに対応したＳＷ処理部４１’について説明してきたが、これらを両方備えた構成にしてもよい。

　図１５は、放送局向けユーザ、およびOTT向けユーザに対応したＳＷ処理部４１’’の構成例が示されている。

　尚、図１５のＳＷ処理部４１’’において、図５のＳＷ処理部４１および図７のＳＷ処理部４１’における構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は、省略する。

　また、符号に「－」を付した構成については、「－１」および「－２」により区別しているが、「－」が付されていない符号の構成と、基本的には同一の機能を備えた構成である。

　すなわち、図１５のＳＷ処理部４１’’においては、放送局向けブロック３０１、およびOTT向けブロック３０２が設けられており、さらに、図５のＳＷ処理部４１および図７のＳＷ処理部４１’におけるストレージ１３１、およびリアルタイム情報解析部５１が、放送局向けブロック３０１、およびOTT向けブロック３０２に対して共用されている。

　放送局向けブロック３０１は、過去データ記憶部１３２－１、カメラ情報記憶部１３３－１、およびリプレイ画像記憶部１３４－１、並びに、カメラワーク推定部５２－１、カメラワーク決定部５３－１、自由視点画像生成部５４－１、エフェクト処理部５５－１、ＳＷ制御部５６－１、およびＳＷ３９－１を備えている。

　OTT向けブロック３０２は、過去データ記憶部１３２－２、カメラ情報記憶部１３３－２、およびリプレイ画像記憶部１３４－２、並びに、カメラワーク推定部５２－２、カメラワーク決定部５３－２、自由視点画像生成部５４－２、エフェクト処理部５５－２、ＳＷ制御部５６－２、およびＳＷ３９－２を備えている。

　これらの構成のうち、過去データ記憶部１３２－１、カメラ情報記憶部１３３－１、およびリプレイ画像記憶部１３４－１、並びに、カメラワーク決定部５３－１、自由視点画像生成部５４－１、ＳＷ制御部５６－１、およびＳＷ３９－１と、過去データ記憶部１３２－２、カメラ情報記憶部１３３－２、およびリプレイ画像記憶部１３４－２、並びに、カメラワーク決定部５３－２、自由視点画像生成部５４－２、ＳＷ制御部５６－２、およびＳＷ３９－２とは、それぞれ同一の構成である。

　また、カメラワーク推定部５２－１、およびエフェクト処理部５５－１と、カメラワーク推定部５２－２、およびエフェクト処理部５５－２とは、基本的な機能は同一であるが、カメラワーク推定部５２－１、およびエフェクト処理部５５－１が、放送局向けユーザ設定に基づいた処理を実行し、カメラワーク推定部５２－２、およびエフェクト処理部５５－２が、OTT向けユーザ設定に基づいた処理を実行する点で異なる。

　このような構成により、放送局向けブロック３０１は、複数のカメラ２１により撮像された画像より、被写体となる選手やアーティストの行動を予測して、放送局向けユーザ設定に応じたカメラワークで、放送局向けユーザに対応する、いわゆる放送回線などにより動画を配信することが可能となる。

　また、OTT向けブロック３０２は、複数のカメラ２１により撮像された画像より、被写体となる選手やアーティストの行動を予測して、OTT向けユーザ設定に応じたカメラワークで、OTT向けユーザに対応する、いわゆる放送回線などを用いない、インターネットなどにより動画を配信することが可能となる。

　（応用例）
　以上においては、全ての構成が単一のＳＷ装置２２により実現される例について説明してきたが、単一の構成により実現するのみならず、複数の構成で実現するようにしてもよい。

　すなわち、本開示のＳＷ装置２２は、例えば、ネットワーク上に構成される複数のコンピュータなどにより実現される信号処理システムやクラウドコンピューティングにより実現されるようにしてもよい。

　また、信号処理システムやクラウドコンピューティングにより実現される場合においては、遅延の発生が生じる恐れがあるが、ＳＷ装置２２を実現する構成のうち、処理負荷の特に高い一部の構成については、例えば、通信回線として５Ｇ通信のような高速通信回線の基地局を用いた、MEC（Multi-access Edge Computing）により実現されるようにしてもよい。

　MECにより実現される、処理負荷の高い構成としては、例えば、リアルタイム情報解析部５１などが挙げられるが、その他の構成であってもよい。

　また、ＳＷ装置２２を実現する全ての構成が、MECにより実現されるようにしてもよい。

　＜＜４．ソフトウェアにより実行させる例＞＞
　図１６は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)１００１を内蔵している。CPU１００１にはバス１００４を介して、入出力インタフェース１００５が接続されている。バス１００４には、ROM(Read Only Memory)１００２およびRAM(Random Access Memory)１００３が接続されている。

　入出力インタフェース１００５には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部１００６、処理操作画面や処理結果の画像を表示デバイスに出力する出力部１００７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１００８、LAN（Local Area Network）アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部１００９が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブル記憶媒体１０１１に対してデータを読み書きするドライブ１０１０が接続されている。

　CPU１００１は、ROM１００２に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体１０１１ら読み出されて記憶部１００８にインストールされ、記憶部１００８からRAM１００３にロードされたプログラムに従って各種の処理を実行する。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記憶媒体１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　尚、図１６におけるCPU１００１が、図４の制御部３１の機能を実現させる。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本開示は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　尚、本開示は、以下のような構成も取ることができる。

＜１＞　複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、
　前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と
　を含む信号処理装置。
＜２＞　前記行動予測部は、
　　前記被写体の行動を推定行動として推定し、
　　前記推定行動について、信頼度を計算し、
　　前記信頼度に基づいて、前記推定行動より、前記予測行動を決定する
　＜１＞に記載の信号処理装置。
＜３＞　前記行動予測部は、前記推定行動のうち、前記信頼度が所定値よりも高い前記推定行動を前記予測行動に決定する
　＜２＞に記載の信号処理装置。
＜４＞　前記複数の視点方向のカメラにより撮像された画像より、リアルタイム情報を検出するリアルタイム情報解析部をさらに含み、
　前記行動予測部は、前記リアルタイム情報に基づいて、前記被写体の予測行動を予測する
　＜２＞に記載の信号処理装置。
＜５＞　前記リアルタイム情報は、前記複数の視点方向のカメラにより撮像された画像より、前記画像内における被写体となる人物の位置情報、および姿勢情報、人物識別情報、動体位置情報、並びにイベント情報を含む
　＜４＞に記載の信号処理装置。
＜６＞　前記予測行動に基づいて、前記特定視点方向を特定する特定視点方向特定部をさらに含み、
　前記切替部は、前記複数の視点方向のカメラにより撮像された画像に基づいて、前記特定視点方向特定部により特定された、前記特定視点方向の画像を出力する
　＜１＞乃至＜５＞のいずれかに記載の信号処理装置。
＜７＞　前記切替部は、前記複数の視点方向のカメラにより撮像された画像のうち、前記特定視点方向の画像を選択して出力する
　＜６＞に記載の信号処理装置。
＜８＞　前記複数の視点方向のカメラにより撮像された画像を用いた補間生成により、前記特定視点方向の画像を自由視点画像として生成する画像生成部をさらに含み、
　前記切替部は、前記画像生成部により生成された、前記特定視点方向の前記自由視点画像を出力する
　＜６＞に記載の信号処理装置。
＜９＞　前記特定視点方向特定部は、ユーザ設定と前記予測行動とに基づいて、前記特定視点方向を特定する
　＜６＞に記載の信号処理装置。
＜１０＞　前記ユーザ設定は、放送局向けユーザの設定であり、前記放送局における視聴者に対するアンケート結果に基づいた設定である
　＜９＞に記載の信号処理装置。
＜１１＞　前記ユーザ設定は、OTT（Over The Top）向けユーザの設定であり、前記OTT向けユーザの個人の嗜好に基づいた設定である
　＜９＞に記載の信号処理装置。
＜１２＞　前記予測行動に基づいて、前記切替部より出力される画像に対する時間方向の処理を時間方向処理として特定する時間方向処理特定部をさらに含み、
　前記画像生成部は、前記複数の視点方向のカメラにより撮像された画像より、前記特定視点方向の画像を生成すると共に、前記時間方向処理を施し、
　前記切替部は、前記画像生成部により生成された、前記特定視点方向の画像に前記時間方向処理が施された画像を出力する
　＜８＞に記載の信号処理装置。
＜１３＞　前記時間方向処理は、前記特定視点方向の画像の再生速度を変化させる処理を含む
　＜１２＞に記載の信号処理装置。
＜１４＞　前記時間方向処理特定部は、
　　前記特定視点方向が、前記複数の視点方向のカメラのいずれかのカメラ方向であり、前記切替部により、前記特定視点方向に対応する視点方向のカメラの画像を出力するとき、前記時間方向処理を、通常再生速度より低速の低速再生を施す処理として特定し、
　　前記特定視点方向が、前記複数の視点方向のカメラのいずれかのカメラ方向ではなく、前記複数の視点方向のカメラにより撮像された画像を用いて補間生成された前記自由視点画像が出力されるとき、前記時間方向処理を、通常再生速度よりも高速の高速再生を施す処理として特定する
　＜１２＞に記載の信号処理装置。
＜１５＞　前記時間方向処理特定部は、前記予測行動が、ゴールシュート、または打者による打撃であるとき、前記時間方向処理を、通常再生速度より低速の低速再生にするように施す処理として特定する
　＜１２＞に記載の信号処理装置。
＜１６＞　前記画像生成部により生成された画像に対してエフェクト処理を施すエフェクト処理部をさらに含む
　＜８＞に記載の信号処理装置。
＜１７＞　前記エフェクト処理部は、前記画像生成部により生成された画像に対して、前記被写体のうち、所定の被写体をぼかす処理を施す
　＜１６＞に記載の信号処理装置。
＜１８＞　前記エフェクト処理部によりエフェクト処理された画像をリプレイ画像として記憶するリプレイ画像記憶部をさらに含み、
　前記切替部は、前記リプレイ画像記憶部に記憶された画像を出力する
　＜１６＞に記載の信号処理装置。
＜１９＞　複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力し、
　前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する
　ステップを含む信号処理方法。
＜２０＞　複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、
　前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と
　を含む信号処理システム。

　１１，１１Ａ乃至１１Ｃ　信号処理システム，　２１，２１－１乃至２１－ｎ，２１Ａ－１乃至２１Ａ－１２，２１Ｂ－１乃至２１Ｂ－１２，２１Ｃ－１乃至２１Ｃ－１５　カメラ，　３１　制御部，　３９　ＳＷ，　４１，４１’，４１’’　ＳＷ処理部，　５１　リアルタイム情報解析部，　５２，５２’，５２－１，５２－２　カメラワーク推定部，　５３，５３－１，５３－２　カメラワーク推定部，　５４，５４－１，５４－２　自由視点画像生成部，　５５，５５’　エフェクト処理部，　５６　ＳＷ制御部，　１２１，１２１－１乃至１２１－ｎ　マイク，　１３１，１３１－１，１３１－２　ストレージ，　１３２，１３２－１，１３２－２　過去データ記憶部，　１３３，１３３－１，１３３－２　カメラ情報記憶部，　１３４，１３４－１，１３４－２　リプレイ画像記憶部，　１５１　人物モデル推定部，　１５２　人物識別部，　１５３　動体位置検出部，　１５４　外部トリガ装置，　１５５　イベント領域検出部，　１５６　情報統合部，　１７１　自由視点画像モデル生成部，　１７２　姿勢推定部，　１７３　統合部，　２０１　行動予測部，　２０２，２０２’　カメラワーク推定部，　２２１　行動推定部，　２２２　信頼度計算部，　２２３　予測行動決定部，　２４１，２４１’　空間方向カメラワーク生成部，　２４２，２４２’　時間方向カメラワーク生成部，　２４３，２４３’　音声切替情報生成部，　２４４　統合部

Claims

　複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、
　前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と
　を含む信号処理装置。
　前記行動予測部は、
　　前記被写体の行動を推定行動として推定し、
　　前記推定行動について、信頼度を計算し、
　　前記信頼度に基づいて、前記推定行動より、前記予測行動を決定する
　請求項１に記載の信号処理装置。
　前記行動予測部は、前記推定行動のうち、前記信頼度が所定値よりも高い前記推定行動を前記予測行動に決定する
　請求項２に記載の信号処理装置。
　前記複数の視点方向のカメラにより撮像された画像より、リアルタイム情報を検出するリアルタイム情報解析部をさらに含み、
　前記行動予測部は、前記リアルタイム情報に基づいて、前記被写体の予測行動を予測する
　請求項２に記載の信号処理装置。
　前記リアルタイム情報は、前記複数の視点方向のカメラにより撮像された画像より、前記画像内における被写体となる人物の位置情報、および姿勢情報、人物識別情報、動体位置情報、並びにイベント情報を含む
　請求項４に記載の信号処理装置。
　前記予測行動に基づいて、前記特定視点方向を特定する特定視点方向特定部をさらに含み、
　前記切替部は、前記複数の視点方向のカメラにより撮像された画像に基づいて、前記特定視点方向特定部により特定された、前記特定視点方向の画像を出力する
　請求項１に記載の信号処理装置。
　前記切替部は、前記複数の視点方向のカメラにより撮像された画像のうち、前記特定視点方向の画像を選択して出力する
　請求項６に記載の信号処理装置。
　前記複数の視点方向のカメラにより撮像された画像を用いた補間生成により、前記特定視点方向の画像を自由視点画像として生成する画像生成部をさらに含み、
　前記切替部は、前記画像生成部により生成された、前記特定視点方向の前記自由視点画像を出力する
　請求項６に記載の信号処理装置。
　前記特定視点方向特定部は、ユーザ設定と前記予測行動とに基づいて、前記特定視点方向を特定する
　請求項６に記載の信号処理装置。
　前記ユーザ設定は、放送局向けユーザの設定であり、放送局における視聴者に対するアンケート結果に基づいた設定である
　請求項９に記載の信号処理装置。
　前記ユーザ設定は、OTT（Over The Top）向けユーザの設定であり、前記OTT向けユーザの個人の嗜好に基づいた設定である
　請求項９に記載の信号処理装置。
　前記予測行動に基づいて、前記切替部より出力される画像に対する時間方向の処理を時間方向処理として特定する時間方向処理特定部をさらに含み、
　前記画像生成部は、前記複数の視点方向のカメラにより撮像された画像より、前記特定視点方向の画像を生成すると共に、前記時間方向処理を施し、
　前記切替部は、前記画像生成部により生成された、前記特定視点方向の画像に前記時間方向処理が施された画像を出力する
　請求項８に記載の信号処理装置。
　前記時間方向処理は、前記特定視点方向の画像の再生速度を変化させる処理を含む
　請求項１２に記載の信号処理装置。
　前記時間方向処理特定部は、
　　前記特定視点方向が、前記複数の視点方向のカメラのいずれかのカメラ方向であり、前記切替部により、前記特定視点方向に対応する視点方向のカメラの画像を出力するとき、前記時間方向処理を、通常再生速度より低速の低速再生を施す処理として特定し、
　　前記特定視点方向が、前記複数の視点方向のカメラのいずれかのカメラ方向ではなく、前記複数の視点方向のカメラにより撮像された画像を用いて補間生成された前記自由視点画像が出力されるとき、前記時間方向処理を、通常再生速度よりも高速の高速再生を施す処理として特定する
　請求項１２に記載の信号処理装置。
　前記時間方向処理特定部は、前記予測行動が、ゴールシュート、または打者による打撃であるとき、前記時間方向処理を、通常再生速度より低速の低速再生にするように施す処理として特定する
　請求項１２に記載の信号処理装置。
　前記画像生成部により生成された画像に対してエフェクト処理を施すエフェクト処理部をさらに含む
　請求項８に記載の信号処理装置。
　前記エフェクト処理部は、前記画像生成部により生成された画像に対して、前記被写体のうち、所定の被写体をぼかす処理を施す
　請求項１６に記載の信号処理装置。
　前記エフェクト処理部によりエフェクト処理された画像をリプレイ画像として記憶するリプレイ画像記憶部をさらに含み、
　前記切替部は、前記リプレイ画像記憶部に記憶された画像を出力する
　請求項１６に記載の信号処理装置。
　複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力し、
　前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する
　ステップを含む信号処理方法。
　複数の視点方向のカメラにより撮像された画像に基づいて、被写体の行動を予測して、予測行動として出力する行動予測部と、
　前記予測行動に基づいて、前記複数の視点方向のカメラにより撮像された画像より、特定の視点方向である特定視点方向の画像を出力する切替部と
　を含む信号処理システム。