WO2021220892A1

WO2021220892A1 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: WO2021220892A1
Application number: PCT/JP2021/016070
Authority: WO
Inventors: 一紀田村; 史憲入江; 貴嗣青木; 真彦宮田; 泰規村上
Original assignee: 富士フイルム株式会社
Priority date: 2020-04-27
Filing date: 2021-04-20
Publication date: 2021-11-04
Also published as: US20230071355A1; JPWO2021220892A1

Abstract

画像処理装置は、位置が異なる複数のカメラによって、撮像領域が撮像されることで得られた複数の画像から対象物を示す対象物画像を検出する検出処理を行い、複数の画像のうちの第１画像を出力し、検出処理によって第１画像から対象物画像が検出された検出状態から、検出処理によって第１画像から対象物画像が検出されない非検出状態に遷移した場合に、複数の画像のうち、検出処理によって対象物画像が検出された第２画像を出力する。

Description

画像処理装置、画像処理方法、及びプログラム

　本開示の技術は、画像処理装置、画像処理方法、及びプログラムに関する。

　特開２０１９－１１４１４７号公報には、複数の撮影装置により撮影された複数の画像を用いて生成される仮想視点画像に係る視点の位置を決定する情報処理装置が開示されている。特開２０１９－１１４１４７号公報に記載の情報処理装置は、複数の撮影装置の撮影対象から所定の範囲内の位置を示す位置情報を取得する第１取得手段と、第１取得手段により取得された位置情報に基づいて、第１取得手段により取得された位置情報が示す位置とは異なる位置を視点として撮影対象を写すための仮想視点画像に係る視点の位置を決定する決定手段と、を有することを特徴とする。

　特開２０１９－１１８１３６号公報には、複数の撮影映像データを保存する保存部と、保存部に保存された複数の撮影映像データから死角を検出し、死角を防止するように指示信号を生成して、撮影映像データを生成するカメラに出力する解析部を有することを特徴とする情報処理装置が開示されている。

　本開示の技術に係る一つの実施形態は、撮像領域が撮像されることで得られた画像の観賞者に対して、撮像領域内の対象物を観察可能な画像を継続的に提供することができる画像処理装置、画像処理方法、及びプログラムを提供する。

　本開示の技術に係る第１の態様は、プロセッサと、プロセッサに内蔵又は接続されたメモリと、を備え、プロセッサが、位置が異なる複数のカメラによって、撮像領域が撮像されることで得られた複数の画像から対象物を示す対象物画像を検出する検出処理を行い、複数の画像のうちの第１画像を出力し、検出処理によって第１画像から対象物画像が検出された検出状態から、検出処理によって第１画像から対象物画像が検出されない非検出状態に遷移した場合に、複数の画像のうち、検出処理によって対象物画像が検出された第２画像を出力する画像処理装置である。

　本開示の技術に係る第２の態様は、第１画像及び第２画像のうちの少なくとも一方が、仮想視点画像である第１の態様に係る画像処理装置である。

　本開示の技術に係る第３の態様は、プロセッサが、第１画像を出力している状況下で、検出状態から非検出状態に遷移した場合に、第１画像の出力から第２画像の出力に切り替える第１の態様又は第２の態様に係る画像処理装置である。

　本開示の技術に係る第４の態様は、画像が、複数のフレームからなる複数フレーム画像である第１の態様から第３の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第５の態様は、複数フレーム画像が動画像である第４の態様に係る画像処理装置である。

　本開示の技術に係る第６の態様は、複数フレーム画像が連写画像である第４の態様に係る画像処理装置である。

　本開示の技術に係る第７の態様は、プロセッサが、第２画像としての複数フレーム画像を出力し、第２画像としての複数フレーム画像の出力を、非検出状態に至ったタイミングよりも前のタイミングから開始する第４の態様から第６の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第８の態様は、プロセッサが、第２画像としての複数フレーム画像を出力し、第２画像としての複数フレーム画像の出力を、非検出状態に至ったタイミングよりも後のタイミングで終了する第４の態様から第７の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第９の態様は、複数の画像が、検出処理によって対象物画像が検出された第３画像を含み、第２画像としての複数フレーム画像が、検出処理によって対象物画像が検出された検出フレームと、検出処理によって対象物画像が検出されていない非検出フレームと、を含む場合に、プロセッサが、複数のカメラのうちの第２画像を得るための撮像で用いられた第２画像用カメラの位置と、複数のカメラのうちの第３画像を得るための撮像で用いられた第３画像用カメラの位置との距離、及び、非検出状態の時間に応じて、非検出フレーム及び第３画像を選択的に出力する第４の態様から第８の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第１０の態様は、プロセッサが、距離が閾値を超え、かつ、非検出状態の時間が既定時間未満であるという非検出フレーム出力条件を満たした場合に、非検出フレームを出力し、非検出フレーム出力条件を満たしていない場合に、非検出フレームに代えて第３画像を出力する第９の態様に係る画像処理装置である。

　本開示の技術に係る第１１の態様は、プロセッサが、非検出状態から検出状態に戻ったことを条件に、第１画像の出力を再開する第１の態様から第１０の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第１２の態様は、複数のカメラが、少なくとも１台の仮想カメラ及び少なくとも１台の物理カメラを含み、複数の画像が、仮想カメラによって撮像領域が撮像されることで得られた仮想視点画像、及び物理カメラによって撮像領域が撮像されることで得られた撮像画像を含む第１の態様から第１１の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第１３の態様は、プロセッサが、第１画像の出力から第２画像の出力に切り替える期間に、第１画像を得るための撮像で用いられたカメラの位置、向き、及び画角から第２画像を得るための撮像で用いられたカメラの位置、向き、及び画角までを連続的に繋げる複数の仮想カメラにより撮像されることで得られた複数の仮想視点画像を出力する第１の態様から第１２の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第１４の態様は、対象物が人物である第１の態様から第１３の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第１５の態様は、プロセッサが、人物の顔を示す顔画像を検出することで対象物画像を検出する第１４の態様に係る画像処理装置である。

　本開示の技術に係る第１６の態様は、プロセッサが、複数の画像のうち、画像内での対象物画像の位置及び大きさのうちの少なくとも一方が既定条件を満足し、かつ、検出処理によって対象物画像が検出された画像を第２画像として出力する第１の態様から第１５の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第１７の態様は、第２画像が、撮像領域を俯瞰した態様を示す俯瞰画像である第１の態様から第１６の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第１８の態様は、第１画像が、テレビ放映用の画像である第１の態様から第１７の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第１９の態様は、第１画像が、複数のカメラのうち、撮像領域を観察する観察位置又は観察位置の近隣に設置されているカメラによって撮像されることで得られた画像である第１の態様から第１８の態様の何れか１つの態様に係る画像処理装置である。

　本開示の技術に係る第２０の態様は、位置が異なる複数のカメラによって、撮像領域が撮像されることで得られた複数の画像から対象物を示す対象物画像を検出する検出処理を行い、複数の画像のうちの第１画像を出力し、検出処理によって第１画像から対象物画像が検出された検出状態から、検出処理によって第１画像から対象物画像が検出されない非検出状態に遷移した場合に、複数の画像のうち、検出処理によって対象物画像が検出された第２画像を出力することを含む画像処理方法である。

　本開示の技術に係る第２１の態様は、コンピュータに、位置が異なる複数のカメラによって、撮像領域が撮像されることで得られた複数の画像から対象物を示す対象物画像を検出する検出処理を行い、複数の画像のうちの第１画像を出力し、検出処理によって第１画像から対象物画像が検出された検出状態から、検出処理によって第１画像から対象物画像が検出されない非検出状態に遷移した場合に、複数の画像のうち、検出処理によって対象物画像が検出された第２画像を出力することを含む処理を実行させるためのプログラムである。

第１及び第２実施形態に係る画像処理システムの外観構成の一例を示す概略斜視図である。第１及び第２実施形態に係る画像処理システムによって生成される仮想視点画像の一例を示す概念図である。第１及び第２実施形態に係る画像処理システムで用いられる複数の物理カメラ及び複数の仮想カメラがサッカー競技場に設置されている態様の一例を示す概略平面図である。第１及び第２実施形態に係る画像処理装置の電気系のハードウェア構成の一例を示すブロック図である。第１及び第２実施形態に係るユーザデバイスの電気系のハードウェア構成の一例を示すブロック図である。第１及び第２実施形態に係る画像処理装置によって生成されて出力される物理カメラ動画像を構成する時系列の複数の撮像画像４６Ｂの一例を示す概念図である。第１実施形態に係る画像処理装置の要部機能の一例を示すブロック図である。第１実施形態に係る画像処理装置の仮想視点画像生成部の処理内容の一例を示す概念図である。第１実施形態に係る画像処理装置の出力部の処理内容の一例を示す概念図である。第１実施形態に係る画像処理装置の画像取得部の処理内容の一例を示す概念図である。第１実施形態に係る画像処理装置の画像取得部、検出部、及び出力部の一例を示す概念図である。第１実施形態に係る画像処理装置の画像取得部、検出部、及び画像選定部の一例を示す概念図である。第１実施形態に係る画像処理装置の検出部、画像選定部、及び出力部の一例を示す概念図である。第１及び第２実施形態に係る出力制御処理の流れの一例を示すフローチャートである。第１実施形態に係る出力制御処理の流れの一例を示すフローチャートであって、図１４Ａに示すフローチャートの続きである。基準物理カメラ画像の出力から仮想視点画像の出力に切り替わる態様の一例を示す概念図である。仮想視点画像の出力から基準物理カメラ画像の出力に切り替わる態様の一例を示す概念図である。基準物理カメラ画像の出力から最良撮像条件を満たす仮想視点画像の出力に直接切り替わる態様の一例を示す概念図である。基準物理カメラ画像の出力から最良撮像条件を満たす仮想視点画像の出力に切り替える過程において、仮想カメラ位置、仮想カメラ向き、及び画角を連続的に繋げる複数の仮想カメラで撮像されることで得られた複数の仮想視点画像を順次に出力する態様の一例を示す概念図である。基準物理カメラ動画像に代えて基準仮想視点動画像を出力し、かつ、基準仮想視点動画像を構成する仮想視点画像の出力から、他カメラ画像としての仮想視点画像の出力に切り替える態様の一例を示す概念図である。出力部が俯瞰画像をユーザデバイスに出力する態様の一例を示す概念図である。基準物理カメラ動画像の出力と他カメラ動画像としての仮想視点動画像の出力とが並行して行われる態様の一例を示す概念図である。図２１に示す出力が行われた場合にユーザデバイスのディスプレイに表示される基準物理カメラ動画像及び仮想視点動画像の態様の一例を示す画面図である。第２実施形態に係る画像処理装置の要部機能の一例を示す概念図である。第２実施形態に係る画像処理装置の画像取得部、検出部、出力部、及び設定部の処理内容の一例を示す概念図である。第２実施形態に係る画像処理装置の画像取得部、検出部、及び判定部の処理内容の一例を示すブロック図である。第２実施形態に係る画像処理装置の画像取得部、検出部、設定部、及び判定部の処理内容の一例を示すブロック図である。第２実施形態に係る画像処理装置の画像取得部、検出部、出力部、設定部、判定部、及び算出部の処理内容の一例を示す概念図である。第２実施形態に係る画像処理装置の画像取得部、検出部、出力部、設定部、及び算出部の処理内容の一例を示す概念図である。第２実施形態に係る出力制御処理の流れの一例を示すフローチャートであって、図１４Ａに示すフローチャートの続きである。図２９Ａに示すフローチャートの続きである。図２９Ｂに示すフローチャートの続きである。物理カメラ連写画像予備仮想視点連写画像が画像群としてストレージに記憶されている態様の一例を示すブロック図である。出力制御プログラムが記憶されている記憶媒体から画像処理装置のコンピュータに出力制御プログラムがインストールされる態様の一例を示すブロック図である。

　添付図面に従って本開示の技術の画像処理装置、画像処理方法、及びプログラムに係る実施形態の一例について説明する。

　先ず、以下の説明で使用される文言について説明する。

　ＣＰＵとは、“Central Processing Unit”の略称を指す。ＲＡＭとは、“Random Access Memory”の略称を指す。ＳＳＤとは、“Solid State Drive”の略称を指す。ＨＤＤとは、“Hard Disk Drive”の略称を指す。ＥＥＰＲＯＭとは、“Electrically Erasable and Programmable Read Only Memory”の略称を指す。Ｉ／Ｆとは、“Interface”の略称を指す。ＩＣとは、“Integrated Circuit”の略称を指す。ＡＳＩＣとは、“Application Specific Integrated Circuit”の略称を指す。ＰＬＤとは、“Programmable Logic Device”の略称を指す。ＦＰＧＡとは、“Field-Programmable Gate Array”の略称を指す。ＳｏＣとは、“System-on-a-chip”の略称を指す。ＣＭＯＳとは、“Complementary Metal Oxide Semiconductor”の略称を指す。ＣＣＤとは、“Charge Coupled Device”の略称を指す。ＥＬとは、“Electro-Luminescence”の略称を指す。ＧＰＵとは、“Graphics Processing Unit”の略称を指す。ＷＡＮとは、“Wide Area Network”の略称を指す。ＬＡＮとは、“Local Area Network”の略称を指す。３Ｄとは、“3 Dimensions”の略称を指す。ＵＳＢとは、“Universal Serial Bus”の略称を指す。５Ｇとは、“5th Generation”の略称を指す。ＬＴＥとは、“Long Term Evolution”の略称を指す。ＷｉＦｉとは、“Wireless Fidelity”の略称を指す。ＲＴＣとは、“Real Time Clock”の略称を指す。ＳＮＴＰとは、“Simple Network Time Protocol”の略称を指す。ＮＴＰとは、“Network Time Protocol”の略称を指す。ＧＰＳとは、“Global Positioning System”の略称を指す。Ｅｘｉｆとは、“Exchangeable image file format for digital still cameras”の略称を指す。ｆｐｓとは、“frame per second”の略称を指す。ＧＮＳＳとは、“Global Navigation Satellite System”の略称を指す。以下では、説明の便宜上、本開示の技術に係る「プロセッサ」の一例として、ＣＰＵを例示しているが、本開示の技術に係る「プロセッサ」は、ＣＰＵ及びＧＰＵ等のように複数の処理装置の組み合わせであってもよい。本開示の技術に係る「プロセッサ」の一例として、ＣＰＵ及びＧＰＵの組み合わせが適用される場合、ＧＰＵは、ＣＰＵの制御下で動作し、画像処理の実行を担う。

　以下の説明において、「一致」とは、完全な一致の他に、本開示の技術が属する技術分野で一般的に許容される誤差を含めた意味合い（本開示の技術の趣旨に反しない程度の誤差を含めた意味合い）での一致を指す。また、以下の説明において、「同一の撮像時刻」とは、完全に同一の撮像時刻の他に、本開示の技術が属する技術分野で一般的に許容される誤差を含めた意味合い（本開示の技術の趣旨に反しない程度の誤差を含めた意味合い）での同一の撮像時刻を指す。

　［第１実施形態］
　一例として図１に示すように、画像処理システム１０は、画像処理装置１２、ユーザデバイス１４、及び複数の物理カメラ１６を備えている。ユーザデバイス１４は、ユーザ１８によって使用される。

　本第１実施形態では、ユーザデバイス１４の一例として、スマートフォンが適用されている。但し、スマートフォンは、あくまでも一例に過ぎず、例えば、パーソナル・コンピュータであってもよいし、タブレット端末又はヘッドマウントディスプレイ等の携帯型の多機能端末であってもよい。また、本第１実施形態では、画像処理装置１２の一例として、サーバが適用されている。サーバの台数は、１台であってもよいし、複数台であってもよい。サーバは、あくまでも一例に過ぎず、例えば、少なくとも１台のパーソナル・コンピュータであってもよいし、少なくとも１台のサーバと少なくとも１台のパーソナル・コンピュータとの組み合わせであってもよい。このように、画像処理装置１２は、画像処理を実行することが可能な少なくとも１台のデバイスであればよい。

　ネットワーク２０は、例えば、ＷＡＮ及び／又はＬＡＮを含んで構成されている。図１に示す例では、図示が省略されているが、ネットワーク２０は、例えば、基地局を含む。基地局は１ヵ所に限らず、複数存在していてもよい。更に、基地局で使用する通信規格には、５Ｇ規格、ＬＴＥ規格、ＷｉＦｉ（８０２．１１）規格、及又はＢｌｕｅｔｏｏｔｈ（登録商標）規格等の無線通信規格が含まれる。ネットワーク２０は、画像処理装置１２とユーザデバイス１４との間で通信を確立し、画像処理装置１２とユーザデバイス１４との間の各種の情報の送受信を行う。画像処理装置１２は、ネットワーク２０を介してユーザデバイス１４からの要求を受け、要求に応じたサービスを、ネットワーク２０を介して、要求元のユーザデバイス１４に提供する。

　なお、本第１実施形態では、ユーザデバイス１４とネットワーク２０との間の通信方式、及び画像処理装置１２とネットワーク２０との間の通信方式の一例として、無線通信方式が適用されているが、これはあくまでも一例に過ぎず、有線通信方式であってもよい。

　物理カメラ１６は、実際に物体として存在しており、視覚的に認識可能な撮像装置である。物理カメラ１６は、ＣＭＯＳイメージセンサを有する撮像用のデバイスであり、光学式ズーム機能及び／又はデジタルズーム機能が搭載されている。なお、ＣＭＯＳイメージセンサに代えてＣＣＤイメージセンサ等の他種類のイメージセンサを適用してもよい。また、本第１実施形態では、複数の物理カメラ１６にズーム機能が搭載されているが、これはあくまでも一例に過ぎず、複数の物理カメラ１６の一部にズーム機能が搭載されていてもよいし、複数の物理カメラ１６にズーム機能が搭載されていなくてもよい。

　複数の物理カメラ１６は、サッカー競技場２２内に設置されている。複数の物理カメラ１６は、撮像位置（以下、単に「位置」とも称する）が互いに異なっており、各物理カメラ１６の撮像方向（以下、単に「向き」とも称する）は変更可能とされている。図１に示す例では、複数の物理カメラ１６の各々が、サッカーフィールド２４を取り囲むように配置されており、サッカーフィールド２４を含む領域を撮像領域として撮像する。物理カメラ１６による撮像とは、例えば、撮像領域を含む画角での撮像を指す。ここで、「撮像領域」という概念には、サッカー競技場２２内の全体を示す領域という概念の他に、サッカー競技場２２内の一部を示す領域という概念も含まれる。撮像領域は、撮像位置、撮像方向、及び画角に応じて変更される。

　なお、ここでは、複数の物理カメラ１６の各々がサッカーフィールド２４を取り囲むように配置されている形態例を挙げているが、本開示の技術はこれに限定されず、例えば、サッカーフィールド２４内の特定の一部を取り囲むように複数の物理カメラ１６を配置してもよい。複数の物理カメラ１６の位置及び／又は向きは変更可能であり、生成されることがユーザ１８等によって要求された仮想視点画像に応じて決定される。

　なお、図示は省略するが、少なくとも１台の物理カメラ１６が無人式航空機（例えば、マルチ回転翼型無人航空機）に設置されており、サッカーフィールド２４を含む領域を撮像領域として上空から俯瞰した状態で撮像するようにしてもよい。

　画像処理装置１２は、管制室３２に設置されている。複数の物理カメラ１６及び画像処理装置１２は、ＬＡＮケーブル３０を介して接続されており、画像処理装置１２は、複数の物理カメラ１６を制御し、かつ、複数の物理カメラ１６の各々によって撮像されることで得られた画像を取得する。なお、ここでは、ＬＡＮケーブル３０による有線通信方式を用いた接続を例示しているが、これに限らず、無線通信方式を用いた接続であってもよい。

　サッカー競技場２２には、サッカーフィールド２４を取り囲むように観戦席２６が設けられており、観戦席２６にはユーザ１８が着座している。ユーザ１８は、ユーザデバイス１４を所持しており、ユーザデバイス１４は、ユーザ１８によって用いられる。なお、ここでは、サッカー競技場２２内にユーザ１８が存在している形態例を挙げて説明しているが、本開示の技術はこれに限定されず、ユーザ１８は、サッカー競技場２２外に存在していてもよい。

　一例として図２に示すように、画像処理装置１２は、複数の物理カメラ１６の各々の位置から観察した場合の撮像領域を示す撮像画像４６Ｂを複数の物理カメラ１６の各々から取得する。撮像画像４６Ｂは、物理カメラ１６の位置から観察した場合の撮像領域を示すフレーム画像である。つまり、撮像画像４６Ｂは、複数の物理カメラ１６の各々によって撮像領域が撮像されることで得られる。撮像画像４６Ｂには、撮像に用いられた物理カメラ１６を特定する物理カメラ特定情報、及び物理カメラ１６によって撮像が行われた時刻（以下、「物理カメラ撮像時刻」とも称する）が１フレーム毎に付与されている。また、撮像画像４６Ｂには、撮像に用いられた物理カメラ１６の設置位置（撮像位置）を特定可能な物理カメラ設置位置情報も１フレーム毎に付与されている。

　画像処理装置１２は、複数の物理カメラ１６によって撮像領域が撮像されることで得られた複数の撮像画像４６Ｂを合成することにより、３Ｄポリゴンを用いた画像を生成する。そして、画像処理装置１２は、生成した３Ｄポリゴンを用いた画像に基づき、任意の位置及び任意の方向から撮像領域が観察された場合の撮像領域を示す仮想視点画像４６Ｃを１フレームずつ生成する。

　ここで、撮像画像４６Ｂは、物理カメラ１６によって撮像されることで得られた画像であるのに対し、仮想視点画像４６Ｃは、任意の位置及び任意の方向から仮想的な撮像装置、すなわち、仮想カメラ４２によって撮像されることで得られた画像であると考えることができる。仮想カメラ４２は、実際に物体として存在しているわけではなく、視覚的に認識されない仮想的なカメラである。本実施形態では、サッカー競技場２２内の複数箇所に仮想カメラが設置されている（図３参照）。全ての仮想カメラ４２は、互いに異なる位置に設置されている。また、全ての仮想カメラ４２は、全ての物理カメラ１６とも異なる位置に設置されている。すなわち、全ての物理カメラ１６及び全ての仮想カメラ４２は、互いに異なる位置に設置されている。

　仮想視点画像４６Ｃには、撮像に用いられた仮想カメラ４２を特定する仮想カメラ特定情報、及び仮想カメラ４２によって撮像が行われた時刻（以下、「仮想カメラ撮像時刻」とも称する）が１フレーム毎に付与されている。また、仮想視点画像４６Ｃには、撮像に用いられた仮想カメラ４２の設置位置（撮像位置）を特定可能な仮想カメラ設置位置情報が付与されている。

　以下では、説明の便宜上、物理カメラ１６と仮想カメラ４２とを区別して説明する必要がない場合、単に「カメラ」と称する。また、以下では、説明の便宜上、撮像画像４６Ｂと仮想視点画像４６Ｃとを区別して説明する必要がない場合、「カメラ画像」と称する。また、以下では、説明の便宜上、物理カメラ特定情報と仮想カメラ特定情報とを区別して説明する必要がない場合、「カメラ特定情報」と称する。また、以下では、説明の便宜上、物理カメラ撮像時刻と仮想カメラ撮像時刻とを区別して説明する必要がない場合、「撮像時刻」と称する。また、以下では、説明の便宜上、物理カメラ設置位置情報と仮想カメラ設置位置情報とを区別して説明する必要がない場合、「カメラ設置位置情報」と称する。なお、カメラ特定情報、撮像時刻、及びカメラ設置位置情報は、例えば、Ｅｘｉｆ方式で各カメラ画像に付与される。

　画像処理装置１２は、例えば、既定時間分（例えば、数時間～数十時間分）のカメラ画像を保持している。そのため、例えば、画像処理装置１２は、既定時間分のカメラ画像群から、指定された撮像時刻のカメラ画像を取得し、取得したカメラ画像を処理する。

　仮想カメラ４２の位置（以下、「仮想カメラ位置」とも称する）４２Ａ及び向き（以下、「仮想カメラ向き」とも称する）４２Ｂは変更可能である。また、仮想カメラ４２の画角も変更可能である。

　なお、本第１実施形態では、仮想カメラ位置４２Ａと称しているが、一般的に、仮想カメラ位置４２Ａは、視点位置とも称されている。また、本第１実施形態では、仮想カメラ向き４２Ｂと称しているが、一般的に、仮想カメラ向き４２Ｂは、視線方向とも称されている。ここで、視点位置とは、例えば、仮想的な人物の視点の位置を意味し、視線方向とは、例えば、仮想的な人物の視線の方向を意味する。

　すなわち、本実施形態では、説明の便宜上、仮想カメラ位置４２Ａを用いて説明しているが、仮想カメラ位置４２Ａを用いることは必須ではない。「仮想カメラを設置」とは、仮想視点画像４６Ｃを生成する視点位置、視線方向、及び／又は画角を決めることを意味する。従って、例えばコンピュータ上で撮像領域に対して仮想カメラのようなオブジェクトを設置する態様に限らず、数値で視点位置の座標及び／又は方向を指定する等の別の方法でも良い。また、「仮想カメラによって撮像」とは、「仮想カメラを設置」した位置及び方向から撮像領域を見た場合に相当する仮想視点画像４６Ｃを生成することを意味する。

　図２に示す例では、仮想視点画像４６Ｃの一例として、観戦席２６内の仮想カメラ位置４２Ａ及び仮想カメラ向き４２Ｂから撮像領域を観察した場合の撮像領域を示す仮想視点画像が示されている。仮想カメラ位置及び仮想カメラ向きは固定されていない。つまり、仮想カメラ位置及び仮想カメラ向きは、ユーザ１８等からの指示に応じて変更可能である。例えば、画像処理装置１２は、サッカーフィールド２４内のサッカープレーヤー及びレフェリー等のうちの対象被写体として指定された人物（以下、「対象人物」とも称する）の位置を仮想カメラ位置として設定し、対象人物の目線方向を仮想カメラ向きとして設定することも可能である。

　一例として図３に示すように、仮想カメラ４２は、サッカーフィールド２４内の複数箇所、及びサッカーフィールド２４の周辺の複数箇所に設置されている。なお、図３に示す仮想カメラ４２の設置態様は、あくまでも一例に過ぎない。例えば、サッカーフィールド２４内に仮想カメラ４２を設置せず、サッカーフィールド２４の周辺のみに仮想カメラ４２を設置するようにしてもよいし、サッカーフィールド２４の周辺に仮想カメラ４２を設置せず、サッカーフィールド２４内のみに仮想カメラ４２を設置するようにしてもよい。また、仮想カメラ４２の設置数も、図３に示す例よりも多くしてもよいし、少なくしてもよい。また、仮想カメラ４２の各々の仮想カメラ位置４２Ａ及び仮想カメラ向き４２Ｂも変更可能である。

　一例として図４に示すように、画像処理装置１２は、コンピュータ５０、ＲＴＣ５１、受付デバイス５２、ディスプレイ５３、第１通信Ｉ／Ｆ５４、及び第２通信Ｉ／Ｆ５６を備えている。コンピュータ５０は、ＣＰＵ５８、ストレージ６０、及びメモリ６２を備えている。ＣＰＵ５８は、本開示の技術に係る「プロセッサ」の一例である。メモリ６２は、本開示の技術に係る「メモリ」の一例である。コンピュータ５０は、本開示の技術に係る「コンピュータ」の一例である。

　ＣＰＵ５８、ストレージ６０、及びメモリ６２は、バス６４を介して接続されている。図４に示す例では、図示の都合上、バス６４として１本のバスが図示されているが、複数のバスであってもよい。また、バス６４には、シリアルバス、又は、データバス、アドレスバス、及びコントロールバス等で構成されるパラレルバスが含まれていてもよい。

　ＣＰＵ５８は、画像処理装置１２の全体を制御する。ストレージ６０は、各種パラメータ及び各種プログラムを記憶している。ストレージ６０は、不揮発性の記憶装置である。ここでは、ストレージ６０の一例として、ＥＥＰＲＯＭが適用されている。但し、これはあくまでも一例に過ぎず、ＳＳＤ又はＨＤＤ等であってもよい。メモリ６２は、記憶装置である。メモリ６２には、各種情報が一時的に記憶される。メモリ６２は、ＣＰＵ５８によってワークメモリとして用いられる。ここでは、メモリ６２の一例として、ＲＡＭが適用されている。但し、これはあくまでも一例に過ぎず、他の種類の記憶装置であってもよい。

　ＲＴＣ５１は、コンピュータ５０用の電源系から切り離された電源系から駆動用電力の供給を受け、コンピュータ５０がシャットダウンした状態であっても、現在時刻（例えば、年月日時分秒）を刻み続ける。ＲＴＣ５１は、現在時刻が更新される毎に、ＣＰＵ５８に現在時刻を出力する。ＣＰＵ５８は、ＲＴＣ５１から入力された現在時刻を撮像時刻として使用する。なお、ここでは、ＣＰＵ５８がＲＴＣ５１から現在時刻を取得する形態例を挙げているが、本開示の技術はこれに限定されず、例えば、ＣＰＵ５８は、ネットワーク２０経由で外部装置（図示省略）から提供される現在時刻を取得する（例えば、ＳＮＴＰ及び／又はＮＴＰを利用して取得する）ようにしてもよいし、内蔵又は接続されたＧＮＳＳ機器（例えば、ＧＰＳ機器）から現在時刻を取得するようにしてもよい。

　受付デバイス５２は、画像処理装置１２の使用者等からの指示を受け付ける。受付デバイス５２の一例としては、タッチパネル、ハードキー、及びマウス等が挙げられる。受付デバイス５２は、バス６４等に接続されており、受付デバイス５２によって受け付けられた指示は、ＣＰＵ５８によって取得される。

　ディスプレイ５３は、バス６４に接続されており、ＣＰＵ５８の制御下で、各種情報を表示する。ディスプレイ５３の一例としては、液晶ディスプレイが挙げられる。なお、液晶ディプレイに限らず、ＥＬディスプレイ（例えば、有機ＥＬディスプレイ又は無機ＥＬディスプレイ）等の他の種類のディスプレイがディスプレイ５３として採用されてもよい。

　第１通信Ｉ／Ｆ５４は、ＬＡＮケーブル３０に接続されている。第１通信Ｉ／Ｆ５４は、例えば、ＦＰＧＡを有するデバイスによって実現される。第１通信Ｉ／Ｆ５４は、バス６４に接続されており、ＣＰＵ５８と複数の物理カメラ１６との間で各種情報の授受を司る。例えば、第１通信Ｉ／Ｆ５４は、ＣＰＵ５８の要求に従って複数の物理カメラ１６を制御する。また、第１通信Ｉ／Ｆ５４は、複数の物理カメラ１６の各々によって撮像されることで得られた撮像画像４６Ｂ（図２参照）を取得し、取得した撮像画像４６ＢをＣＰＵ５８に出力する。なお、ここでは、第１通信Ｉ／Ｆ５４は有線通信Ｉ／Ｆとして例示されているが、高速無線ＬＡＮ等の無線通信Ｉ／Ｆであってもよい。

　第２通信Ｉ／Ｆ５６は、ネットワーク２０に対して無線通信可能に接続されている。第２通信Ｉ／Ｆ５６は、例えば、ＦＰＧＡを有するデバイスによって実現される。第２通信Ｉ／Ｆ５６は、バス６４に接続されている。第２通信Ｉ／Ｆ５６は、ネットワーク２０を介して、無線通信方式で、ＣＰＵ５８とユーザデバイス１４との間で各種情報の授受を司る。

　なお、第１通信Ｉ／Ｆ５４及び第２通信Ｉ／Ｆ５６のうちの少なくとも一方は、ＦＰＧＡの代わりに固定回路で構成することも可能である。また、第１通信Ｉ／Ｆ５４及び第２通信Ｉ／Ｆ５６のうちの少なくとも一方は、ＡＳＩＣ、ＦＰＧＡ、及び／又はＰＬＤ等で構成された回路であってもよい。

　一例として図５に示すように、ユーザデバイス１４は、コンピュータ７０、ジャイロセンサ７４、受付デバイス７６、ディスプレイ７８、マイクロフォン８０、スピーカ８２、物理カメラ８４、及び通信Ｉ／Ｆ８６を備えている。コンピュータ７０は、ＣＰＵ８８、ストレージ９０、及びメモリ９２を備えており、ＣＰＵ８８、ストレージ９０、及びメモリ９２は、バス９４を介して接続されている。図５に示す例では、図示の都合上、バス９４として１本のバスが図示されているが、バス９４は、シリアルバスで構成されているか、或いは、データバス、アドレスバス、及びコントロールバス等を含んで構成されている。

　ＣＰＵ８８は、ユーザデバイス１４の全体を制御する。ストレージ９０は、各種パラメータ及び各種プログラムを記憶している。ストレージ９０は、不揮発性の記憶装置である。ここでは、ストレージ９０の一例として、ＥＥＰＲＯＭが適用されている。但し、これはあくまでも一例に過ぎず、ＳＳＤ又はＨＤＤ等であってもよい。メモリ９２には、各種情報が一時的に記憶され、メモリ９２は、ＣＰＵ８８によってワークメモリとして用いられる。ここでは、メモリ９２の一例として、ＲＡＭが適用されている。但し、これはあくまでも一例に過ぎず、他の種類の記憶装置であってもよい。

　ジャイロセンサ７４は、ユーザデバイス１４のヨー軸周りの角度（以下、「ヨー角」とも称する）、ユーザデバイス１４のロール軸周りの角度（以下、「ロール角」とも称する）、及びユーザデバイス１４のピッチ軸周りの角度（以下、「ピッチ角」とも称する）を測定する。ジャイロセンサ７４は、バス９４に接続されており、ジャイロセンサ７４によって測定されたヨー角、ロール角、及びピッチ角を示す角度情報は、バス９４等を介してＣＰＵ８８によって取得される。

　受付デバイス７６は、ユーザ１８（図１及び図２参照）からの指示を受け付ける。受付デバイス７６の一例としては、タッチパネル７６Ａ及びハードキー等が挙げられる。受付デバイス７６は、バス９４に接続されており、受付デバイス７６によって受け付けられた指示は、ＣＰＵ８８によって取得される。

　ディスプレイ７８は、バス９４に接続されており、ＣＰＵ８８の制御下で、各種情報を表示する。ディスプレイ７８の一例としては、液晶ディスプレイが挙げられる。なお、液晶ディプレイに限らず、ＥＬディスプレイ（例えば、有機ＥＬディスプレイ又は無機ＥＬディスプレイ）等の他の種類のディスプレイがディスプレイ７８として採用されてもよい。

　ユーザデバイス１４は、タッチパネル・ディスプレイを備えており、タッチパネル・ディスプレイは、タッチパネル７６Ａ及びディスプレイ７８によって実現される。すなわち、ディスプレイ７８の表示領域に対してタッチパネル７６Ａを重ね合わせることによって、或いは、ディスプレイ７８の内部にタッチパネル機能を内蔵（「インセル」型）することによってタッチパネル・ディスプレイが形成される。なお、「インセル」型のタッチパネル・ディスプレイは、あくまでも一例に過ぎず、「アウトセル」型又は「オンセル」型のタッチパネル・ディスプレイであってもよい。

　マイクロフォン８０は、収集した音を電気信号に変換する。マイクロフォン８０は、バス９４に接続されている。マイクロフォン８０によって収集された音が変換されて得られた電気信号は、バス９４を介してＣＰＵ８８によって取得される。

　スピーカ８２は、電気信号を音に変換する。スピーカ８２は、バス９４に接続されている。スピーカ８２は、ＣＰＵ８８から出力された電気信号を、バス９４を介して受信し、受信した電気信号を音に変換し、電気信号を変換して得た音をユーザデバイス１４の外部に出力する。

　物理カメラ８４は、被写体を撮像することで、被写体を示す画像を取得する。物理カメラ８４は、バス９４に接続されている。物理カメラ８４によって被写体が撮像されることで得られた画像は、バス９４を介してＣＰＵ８８によって取得される。なお、物理カメラ８４によって撮像されることで得られた画像も、撮像画像４６Ｂと共に、仮想視点画像４６Ｃの生成に用いられるようにしてもよい。

　通信Ｉ／Ｆ８６は、ネットワーク２０に対して無線通信可能に接続されている。通信Ｉ／Ｆ８６は、例えば、回路（例えば、ＡＳＩＣ、ＦＰＧＡ、及び／又はＰＬＤ等）で構成されたデバイスによって実現される。通信Ｉ／Ｆ８６は、バス９４に接続されている。通信Ｉ／Ｆ８６は、ネットワーク２０を介して、無線通信方式で、ＣＰＵ８８と外部装置との間で各種情報の授受を司る。ここで、「外部装置」としては、例えば、画像処理装置１２が挙げられる。

　複数の物理カメラ１６（図１～図４参照）の各々は、撮像領域を撮像することで撮像領域を示す動画像（以下、「物理カメラ動画像」とも称する）を生成する。本第１実施形態では、複数の物理カメラ１６のうちの何れかの物理カメラ１６が基準物理カメラとして用いられる。基準物理カメラによって撮像されることで得られた物理カメラ動画像（以下、「基準物理カメラ動画像」とも称する）は、例えば、ユーザデバイス１４に配信されて、ユーザデバイス１４のディスプレイ７８に表示される。そして、ユーザ１８は、ディスプレイ７８に表示された基準物理カメラ動画像を観賞する。

　物理カメラ動画像は、特定フレームレート（例えば、６０ｆｐｓ）で物理カメラ１６によって撮像されることで得られる。一例として図６に示すように、物理カメラ動画像は、特定フレームレートに従って得られた複数のフレームからなる複数フレーム画像である。すなわち、物理カメラ動画像は、特定フレームレートで規定されたタイミング毎に得られた複数の撮像画像４６Ｂが時系列に並べられて構成されている。

　図６に示す例では、物理カメラ動画像に含まれる複数の撮像画像４６Ｂのうち、対象人物を示す対象人物画像９６を含む３フレーム分の撮像画像４６Ｂ１～４６Ｂ３が示されている。ここで、対象人物は、本開示の技術に係る「対象物」の一例であり、対象人物画像９６は、本開示の技術に係る「対象物画像」の一例である。

　３フレーム分の撮像画像４６Ｂ１～４６Ｂ３は、最も過去のフレームから最新のフレームにかけて、１フレーム目の撮像画像４６Ｂ１、２フレーム目の撮像画像４６Ｂ２、及び３フレーム目の撮像画像４６Ｂ３に大別される。１フレーム目の撮像画像４６Ｂ１には、対象人物画像９６の全体が対象人物の顔の表情を含めて視認可能な位置に表れている。

　しかし、２フレーム目の撮像画像４６Ｂ２及び３フレーム目の撮像画像４６Ｂ３では、対象人物以外の人物を示す人物画像によって、対象人物画像９６のうちの対象人物の顔を含めた大半の領域が視認できないレベルで遮られてしまっている。図６に示す物理カメラ動画像が基準物理カメラ動画像としてユーザデバイス１４のディスプレイ７８に表示されると、ユーザ１８は、少なくとも２フレーム目及び３フレーム目の撮像画像４６Ｂ２及び４６Ｂ３から対象人物画像９６の全体の態様を把握することが困難になる。特に、ユーザ１８が対象人物の顔の表情を観察することを望んでいる場合、少なくとも２フレーム目及び３フレーム目の撮像画像４６Ｂ２及び４６Ｂ３からは、対象人物の顔の表情を観察することはできない。このように、図６に示す例では、対象人物を観察可能な画像を継続してユーザ１８に提供することができない。

　このような事情に鑑み、一例として図７に示すように、画像処理装置１２では、ストレージ６０に出力制御プログラム１００が記憶されている。そして、ＣＰＵ５８は、出力制御プログラム１００に従って、後述の出力制御処理（図１４Ａ及び図１４Ｂ）を実行する。

　ＣＰＵ５８は、ストレージ６０から出力制御プログラム１００を読み出し、出力制御プログラム１００をメモリ６２上で実行することで、仮想視点画像生成部５８Ａ、画像取得部５８Ｂ、検出部５８Ｃ、出力部５８Ｄ、及び画像選定部５８Ｅとして動作する。

　ストレージ６０には、画像群１０２が記憶されている。画像群１０２は、物理カメラ動画像及び仮想視点動画像を含んでいる。物理カメラ動画像は、基準物理カメラ動画像と、基準物理カメラ以外の物理カメラ１６（以下、「他物理カメラ」とも称する）によって撮像されることで得られた他物理カメラ動画像とに大別される。本第１実施形態では、他物理カメラは、複数存在している。基準物理カメラ動画像には、基準物理カメラによって撮像されることで得られた複数の撮像画像４６Ｂが基準物理カメラ画像として時系列で含まれている。他物理カメラ動画像には、他物理カメラによって撮像されることで得られた複数の撮像画像４６Ｂが他物理カメラ画像として時系列で含まれている。

　仮想視点動画像は、特定フレームレートで仮想カメラ４２（図２及び図３参照）によって撮像されることで得られる。一例として図７に示すように、仮想視点動画像は、特定フレームレートに従って得られた複数のフレームからなる複数フレーム画像である。すなわち、仮想視点動画像は、特定フレームレートで規定されたタイミング毎に得られた複数の仮想視点画像４６Ｃが時系列に並べられて構成されている。本第１実施形態では、上述したように、仮想カメラ４２は、複数存在しており、各仮想カメラ４２によって仮想視点動画像が得られてストレージ６０に記憶される。

　なお、以下では、説明の便宜上、基準物理カメラ以外のカメラで撮像されることで得られたカメラ画像を「他カメラ画像」と称する。すなわち、他カメラ画像とは、他物理カメラ画像及び仮想視点画像の総称を指す。

　本第１実施形態では、検出部５８Ｃが、検出処理を行う。検出処理は、位置が異なる複数のカメラによって撮像されることで得られた複数のカメラ画像の各々から対象人物画像９６を検出する処理である。検出処理では、対象人物の顔を示す顔画像が検出されることで対象人物画像９６が検出される。検出処理の一例としては、後述の第１検出処理（図１１参照）及び後述の第２検出処理（図１２参照）が挙げられる。

　また、本第１実施形態では、出力部５８Ｄが、複数のカメラ画像のうちの基準物理カメラ画像を出力する。また、出力部５８Ｄは、検出処理によって基準物理カメラ画像から対象人物画像９６が検出された検出状態から、検出処理によって基準物理カメラ画像から対象人物画像９６が検出されない非検出状態に遷移した場合に、複数のカメラ画像のうち、検出処理によって対象人物画像９６が検出された他カメラ画像を出力する。例えば、出力部５８Ｄは、基準物理カメラ画像を出力している状況下で、検出状態から非検出状態に遷移した場合に、基準物理カメラ画像の出力から他カメラ画像の出力に切り替える。

　ここで、検出状態から非検出状態への遷移とは、出力部５８Ｄによる出力対象とされる基準物理カメラ画像が、対象人物が写り込んでいる基準物理カメラ画像から、対象人物が写り込んでいない基準物理カメラ画像に切り替わることを意味する。更に換言すると、検出状態から非検出状態への遷移とは、基準物理カメラ動画像に含まれる複数の基準物理カメラ画像のうち、時間的に隣接しているフレーム間において、対象人物が写り込んでいるフレームから、対象人物が写り込んでいないフレームに、出力部５８Ｄによる出力対象が切り替わることを意味する。例えば、基準物理カメラが同じ撮像領域を撮像していた場合に、図６に示す撮像画像４６Ｂ１～４６Ｂ２のように、撮像領域中の物体（例えば、対象人物、又は、対象人物の周辺の物体等）の移動により、対象人物画像９６が検出できる状態から別の人物等によって隠れて検出できない状態になることである。

　なお、本第１実施形態において、カメラ画像は、本開示に技術に係る「画像」の一例である。また、基準物理カメラ画像は、本開示の技術に係る「第１画像」の一例である。また、他カメラ画像は、本開示の技術に係る「第２画像」の一例である。

　本実施形態では、仮想視点画像生成部５８Ａが、全ての仮想カメラ４２の各々に対して撮像を行わせることで複数の仮想視点動画像を生成する。一例として図８に示すように、仮想視点画像生成部５８Ａは、ストレージ６０から物理カメラ動画像を取得する。仮想視点画像生成部５８Ａは、ストレージ６０から取得した物理カメラ動画像に基づいて、仮想カメラ４２毎に、現時点で設定されている仮想カメラ位置、仮想カメラ向き、及び画角に応じた仮想視点動画像を生成する。そして、仮想視点画像生成部５８Ａは、生成した仮想視点動画像を、仮想カメラ４２単位でストレージ６０に記憶する。

　なお、ここで、現時点で設定されている仮想カメラ位置、仮想カメラ向き、及び画角に応じた仮想視点動画像とは、例えば、現時点で設定されている仮想カメラ位置及び仮想カメラ向きから、現時点で設定されている画角で、観察されている領域を示す動画像を意味する。

　また、ここでは、仮想視点画像生成部５８Ａが、全ての仮想カメラ４２の各々に対して撮像を行わせることで複数の仮想視点動画像を生成する形態例を挙げているが、必ずしも全ての仮想カメラ４２の各々に対して撮像を行わせる必要はなく、例えば、コンピュータの性能等により、一部の仮想カメラ４２による仮想視点動画像の生成は行われないようにしてもよい。

　一例として図９に示すように、出力部５８Ｄは、ストレージ６０から基準物理カメラ動画像を取得し、取得した基準物理カメラ動画像をユーザデバイス１４に出力する。これにより、ユーザデバイス１４のディスプレイ７８には、基準物理カメラ動画像が表示される。

　一例として図１０に示すように、ユーザデバイス１４のディスプレイ７８に基準物理カメラ動画像が表示されている状態で、ユーザ１８は、注目する領域（以下、「注目領域」とも称する）を、タッチパネル７６Ａを介して指で指定する。図１０に示す例では、注目領域は、ディスプレイ７８に表示されている基準物理カメラ動画像内の対象人物画像９６が含まれている領域である。

　ユーザデバイス１４は、基準物理カメラ動画像内の注目領域を示す注目領域情報を画像取得部５８Ｂに送信する。画像取得部５８Ｂは、ユーザデバイス１４から送信された注目領域情報を受信する。画像取得部５８Ｂは、受信した注目領域情報に対して画像解析（例えば、カスケード分類器及び／又はパターンマッチング等による画像解析）を行うことで、注目領域情報により示される注目領域から、対象人物画像９６を抽出する。画像取得部５８Ｂは、注目領域から抽出した対象人物画像９６を対象人物画像サンプル９８としてストレージ６０に記憶する。

　一例として図１１に示すように、画像取得部５８Ｂは、ストレージ６０内の基準物理カメラ動画像から１フレーム単位で基準物理カメラ画像を取得する。検出部５８Ｃは、第１検出処理を実行する。第１検出処理は、画像取得部５８Ｂによって取得された基準物理カメラ画像に対して、ストレージ６０内の対象人物画像サンプル９８を用いて画像解析を行うことで、基準物理カメラ画像から対象人物画像９６を検出する処理である。画像解析としては、例えば、カスケード分類器及び／又はパターンマッチング等による画像解析が挙げられる。

　第１検出処理によって検出される対象人物画像９６には、図１０に示す対象人物画像９６により示される対象人物の態様とは異なる態様の対象人物を示す画像も含まれる。つまり、検出部５８Ｃは、第１検出処理を実行することで、基準物理カメラ画像に、対象人物画像サンプル９８により示される対象人物が写り込んでいるか否かを判定する。

　出力部５８Ｄは、第１検出処理によって対象人物画像９６が検出された場合、第１検出処理の処理対象とされた基準物理カメラ画像、すなわち、対象人物画像９６を含む基準物理カメラ画像をユーザデバイス１４に出力する。これにより、ユーザデバイス１４のディスプレイ７８には、対象人物画像９６を含む基準物理カメラ画像が表示される。

　一例として図１２に示すように、第１検出処理によって対象人物画像９６が検出されなかった場合、画像取得部５８Ｂは、第１検出処理の処理対象とされた基準物理カメラ画像と同一の撮像時刻の複数の他カメラ画像をストレージ６０から取得する。なお、以下では、説明の便宜上、複数の他カメラ画像を、「他カメラ画像群」とも称する。

　検出部５８Ｃは、画像取得部５８Ｂによって取得された他カメラ画像群に含まれる他カメラ画像の各々に対して、第２検出処理を実行する。第２検出処理は、基準物理カメラ画像に代えて他カメラ画像を処理対象として用いている点が第１検出処理と異なる。

　第２検出処理によって対象人物画像９６が検出された他カメラ画像が複数存在していた場合、画像選定部５８Ｅは、第２検出処理によって検出された対象人物画像９６を含む他カメラ画像群から、最良撮像条件を満たす他カメラ画像を選定する。最良撮像条件とは、例えば、他カメラ画像群のうち、他カメラ画像内で対象人物画像９６の位置が既定範囲に収まっており、かつ、他カメラ画像内での対象人物画像９６の大きさが既定の大きさ以上である、との条件を指す。本第１実施形態では、最良撮像条件の一例として、対象人物画像９６により示される対象人物の全体がフレームの中央部に予め定められた中央枠内に最も大きく写り込んでいる、という条件を用いている。中央枠の形状及び／又は大きさは、固定されていてもよいし、与えられた指示及び／又は条件に応じて変更されるようにしてもよい。中央枠に限らず、他の位置に枠を設けてもよい。

　また、ここでは、中央枠内に対象人物の全体が写り込んでいる、との条件を例示しているが、これはあくまでも一例に過ぎず、中央枠内に対象人物のうちの顔を含めた既定割合（例えば、８割）以上の領域が写り込んでいる、との条件であってもよい。なお、既定割合は、固定値であってもよいし、与えられた指示及び／又は条件に応じて変更される可変値であってもよい。

　一例として図１３に示すように、画像選定部５８Ｅは、第２検出処理によって検出された対象人物画像９６を含む他カメラ画像群から、最良撮像条件を満たす他カメラ画像を選定し、選定した他カメラ画像を出力部５８Ｄに出力する。また、第２検出処理によって対象人物画像９６が検出された他カメラ画像が１フレーム存在していた場合、検出部５８Ｃは、対象人物画像９６が検出された他カメラ画像を出力部５８Ｄに出力する。

　出力部５８Ｄは、検出部５８Ｃ又は画像選定部５８Ｅから入力された他カメラ画像をユーザデバイス１４に出力する。これにより、ユーザデバイス１４のディスプレイ７８には、対象人物画像９６を含む他カメラ画像が表示される。

　一方、第２検出処理によって対象人物画像９６が検出されなかった場合、一例として図１１に示すように、出力部５８Ｄは、第１検出処理の処理対象とされた基準物理カメラ画像をユーザデバイス１４に出力する。この場合、第１検出処理によって対象人物画像９６が検出されなかった基準物理カメラ画像がユーザデバイス１４に出力される。これにより、ユーザデバイス１４のディスプレイ７８には、第１検出処理によって対象人物画像９６が検出されなかった基準物理カメラ画像が表示される。

　次に、画像処理システム１０の作用について図１４Ａ及び図１４Ｂを参照しながら説明する。

　図１４Ａ及び図１４Ｂには、ＣＰＵ５８によって実行される出力制御処理の流れの一例が示されている。図１４Ａ及び図１４Ｂに示す出力制御処理の流れは、本開示の技術に係る「画像処理方法」の一例である。なお、以下に示す出力制御処理の説明は、説明の便宜上、ストレージ６０に画像群１０２が既に記憶されていることを前提としている。また、以下に示す出力制御処理の説明は、説明の便宜上、ストレージ６０に既に対象人物画像サンプル９８が記憶されていることを前提としている。

　図１４Ａに示す出力制御処理では、先ず、ステップＳＴ１０で、画像取得部５８Ｂは、ストレージ６０内の基準物理カメラ動画像から、１フレーム分の未処理の基準物理カメラ画像を取得し、その後、出力制御処理はステップＳＴ１２へ移行する。ここで、未処理の基準物理カメラ画像とは、ステップＳＴ１２の処理が未だに行われていない基準物理カメラ画像を指す。

　ステップＳＴ１２で、検出部５８Ｃは、ステップＳＴ１０で取得された基準物理カメラ画像に対して第１検出処理を実行し、その後、出力制御処理はステップＳＴ１４へ移行する。

　ステップＳＴ１４で、検出部５８Ｃは、第１検出処理によって基準物理カメラ画像から対象人物画像９６が検出されたか否かを判定する。ステップＳＴ１４において、第１検出処理によって基準物理カメラ画像から対象人物画像９６が検出されていない場合は、判定が否定されて、出力制御処理は、図１４Ｂに示すステップＳＴ１８へ移行する。ステップＳＴ１４において、第１検出処理によって基準物理カメラ画像から対象人物画像９６が検出された場合は、判定が肯定されて、出力制御処理はステップＳＴ１６へ移行する。

　ステップＳＴ１６で、出力部５８Ｄは、ステップＳＴ１４の第１検出処理の処理対象とされた基準物理カメラ画像をユーザデバイス１４に出力し、その後、出力制御処理はステップＳＴ３２へ移行する。ステップＳＴ１６の処理が実行されることによって基準物理カメラ画像がユーザデバイス１４に出力されると、ユーザデバイス１４のディスプレイ７８には、基準物理カメラ画像が表示される（図１１参照）。

　図１４Ｂに示すステップＳＴ１８で、画像取得部５８Ｂは、第１検出処理の処理対象とされた基準物理カメラ画像と同一の撮像時刻の他カメラ画像群をストレージ６０から取得し、その後、出力制御処理はステップＳＴ２０へ移行する。

　ステップＳＴ２０で、検出部５８Ｃは、ステップＳＴ１８で取得された他カメラ画像群に対して第２検出処理を実行し、その後、出力制御処理はステップＳＴ２２へ移行する。

　ステップＳＴ２２で、検出部５８Ｃは、ステップＳＴ１８で取得された他カメラ画像群から対象人物画像９６が検出されたか否かを判定する。ステップＳＴ２２において、ステップＳＴ１８で取得された他カメラ画像群から対象人物画像９６が検出されなかった場合は、判定が否定されて、出力制御処理は、図１４Ａに示すステップＳＴ１６へ移行する。ステップＳＴ２２において、ステップＳＴ１８で取得された他カメラ画像群から対象人物画像９６が検出された場合は、判定が肯定されて、出力制御処理はステップＳＴ２４へ移行する。

　ステップＳＴ２４で、検出部５８Ｃは、第２検出処理によって対象人物画像９６が検出された他カメラ画像が複数であるか否かを判定する。ステップＳＴ２４において、第２検出処理によって対象人物画像９６が検出された他カメラ画像が複数である場合は、判定が肯定されて、出力制御処理はステップＳＴ２６へ移行する。ステップＳＴ２４において、第２検出処理によって対象人物画像９６が検出された他カメラ画像が１フレームである場合は、判定が否定されて、出力制御処理はステップＳＴ３０へ移行する。

　ステップＳＴ２６で、画像選定部５８Ｅは、第２検出処理によって対象人物画像９６が検出された他カメラ画像群から、最良撮像条件（図１２参照）を満たす他カメラ画像を選定し、その後、出力制御処理はステップＳＴ２８へ移行する。

　ステップＳＴ２８で、出力部５８Ｄは、ステップＳＴ２６で選定された他カメラ画像をユーザデバイス１４に出力し、その後、出力制御処理は、図１４Ａに示すステップＳＴ３２へ移行する。ステップＳＴ２８の処理が実行されることによって他カメラ画像がユーザデバイス１４に出力されると、ユーザデバイス１４のディスプレイ７８には、他カメラ画像が表示される（図１３参照）。

　ステップＳＴ３０で、出力部５８Ｄは、第２検出処理によって対象人物画像９６が検出された他カメラ画像をユーザデバイス１４に出力し、その後、出力制御処理は、図１４Ａに示すステップＳＴ３２へ移行する。ステップＳＴ３０の処理が実行されることによって他カメラ画像がユーザデバイス１４に出力されると、ユーザデバイス１４のディスプレイ７８には、他カメラ画像が表示される（図１３参照）。

　図１４Ａに示すステップＳＴ３２で、出力部５８Ｄは、出力制御処理を終了させる条件（以下、「出力制御処理終了条件」とも称する）を満足したか否かを判定する。出力制御処理終了条件の一例としては、画像処理装置１２に対して、出力制御処理を終了させる指示が与えられた、との条件が挙げられる。出力制御処理を終了させる指示は、例えば、受付デバイス５２又は７６によって受け付けられる。ステップＳＴ３２において、出力制御処理終了条件を満足していない場合は、判定が否定されて、出力制御処理はステップＳＴ１０へ移行する。ステップＳＴ３２において、出力制御処理終了条件を満足した場合は、判定が肯定されて、出力制御処理が終了する。

　このように、出力制御処理が実行されることで、対象人物画像９６が障害物に遮られていない基準物理カメラ画像は、出力部５８Ｄによってユーザデバイス１４に出力される。また、基準物理カメラ画像内で対象人物画像９６が障害物に遮られている場合、対象人物画像９６が障害物に遮られている基準物理カメラ画像に代えて、対象人物画像９６の全体が視認可能な仮想視点画像４６Ｃが出力部５８Ｄによってユーザデバイス１４に出力される。これにより、ユーザ１８に対して、対象人物を観察可能なカメラ画像を継続的に提供することができる。

　また、出力制御処理が実行されると、一例として図１５に示すように、基準物理カメラ動画像が出力されている状況下で、基準物理カメラ画像内で対象人物画像９６が障害物に遮られていない状態から基準物理カメラ画像内で対象人物画像９６が障害物に遮られた状態に遷移した場合に、基準物理カメラ動画像の出力から仮想視点動画像の出力に切り替えられる。これにより、ユーザ１８に対して、対象人物を観察可能なカメラ画像を継続的に提供することができる。

　また、出力制御処理が実行されると、一例として図１５及び図１６に示すように、出力部５８Ｄは、基準物理カメラ画像内で対象人物画像９６が障害物に遮られる状態に至ったタイミングで基準物理カメラ動画像の出力から仮想視点動画像の出力に切り替える。そして、出力部５８Ｄは、基準物理カメラ画像内で対象人物画像９６が障害物に遮られる状態に至ったタイミングよりも後のタイミングで仮想視点動画像の出力を終了する。つまり、仮想視点動画像の出力は、第１検出処理によって対象人物画像９６が検出されない状態に至ったタイミングよりも後のタイミングで終了する。これにより、ユーザ１８に対して、第１検出処理によって対象人物画像９６が検出されない状態に至った後の対象人物を観察可能な仮想視点動画像を提供することができる。

　また、出力制御処理が実行されると、一例として図１６に示すように、基準物理カメラ画像内で対象人物画像９６が障害物に遮られている状態から基準物理カメラ画像内で対象人物画像９６が障害物に遮られていない状態に戻ったことを条件に、出力部５８Ｄによって基準物理カメラ動画像の出力が再開される。すなわち、第１検出処理によって基準物理カメラ画像から対象人物画像９６が検出されない状態から第１検出処理によって基準物理カメラ画像から対象人物画像９６が検出された状態に戻ったことを条件に、仮想視点動画像の出力から基準物理カメラ動画像の出力に切り替えられる。これにより、基準物理カメラ画像内で対象人物画像９６が障害物に遮られている状態から基準物理カメラ画像内で対象人物画像９６が障害物に遮られていない状態に戻ったにも関わらず、仮想視点動画像の出力が継続している場合に比べ、仮想視点動画像の出力から基準物理カメラ動画像の出力に切り替える手間を軽減することができる。

　また、出力制御処理が実行されると、最良撮像条件を満たす他カメラ画像が画像選定部５８Ｅによって選定され（図１４Ｂに示すステップＳＴ２６参照）、選定された他カメラ画像が出力部５８Ｄによってユーザデバイス１４に出力される（図１４Ｂに示すステップＳＴ２８参照）。これにより、他カメラ画像内での対象人物画像９６の位置及び大きさが考慮されずに、単に対象人物画像９６が検出された他カメラ画像が出力される場合に比べ、ユーザ１８は、他カメラ画像内の対象人物画像９６を見つけ易くなる。

　また、出力制御処理では、第１検出処理及び第２検出処理によって対象人物の顔を示す顔画像が検出されることで対象人物画像９６が検出される。従って、顔画像を検出しない場合に比べ、対象人物画像９６を高精度に検出することができる。

　また、出力制御処理が実行されると、複数のフレームからなる複数フレーム画像が出力部５８Ｄによってユーザデバイス１４に出力される。複数フレーム画像としては、例えば、図１５及び図１６に示すように、基準物理カメラ動画像及び仮想視点動画像が挙げられる。従って、本構成によれば、基準物理カメラ動画像及び仮想視点動画像を観賞しているユーザ１８に対して、対象人物を継続して観察させることができる。

　また、画像処理システム１０では、複数の物理カメラ１６によって撮像領域が撮像され、複数の仮想カメラ４２によっても撮像領域が撮像される。従って、仮想カメラ４２を用いずに物理カメラ１６のみで撮像領域が撮像される場合に比べ、ユーザ１８に対して、多様な位置及び向きから対象人物を観察させることができる。ここでは、複数の物理カメラ１６及び複数の仮想カメラ４２を例示しているが、本開示の技術はこれに限定されず、物理カメラ１６の台数は１台であってもよいし、仮想カメラ４２の台数も１台であってもよい。

　なお、上記第１実施形態では、仮想視点動画像の出力を、第１検出処理によって対象人物画像９６が検出されない状態に至ったタイミングよりも後のタイミングで終了させる形態例を挙げて説明したが、本開示の技術に技術はこれに限定されない。例えば、仮想視点動画像の出力を、第１検出処理によって対象人物画像９６が検出されない状態に至ったタイミングよりも後のタイミングで終了させるだけでなく、出力部５８Ｄは、仮想視点動画像の出力を、第１検出処理によって対象人物画像９６が検出されない状態に至ったタイミングよりも前のタイミングから開始するようにしてもよい。例えば、既に撮像済みの動画像であれば、基準物理カメラ動画像において対象人物画像９６が検出されない状態に至るタイミングは認識できるため、基準物理カメラ動画像において対象人物画像９６が検出されない状態に至るタイミングより前から仮想視点動画像を出力することができる。これにより、ユーザ１８に対して、第１検出処理によって対象人物画像９６が検出されない状態に至る前の対象人物を観察可能な仮想視点動画像を提供することができる。

　また、上記第１実施形態では、第２検出処理によって対象人物画像９６が検出された他カメラ画像が複数存在していた場合に、最良撮像条件が満たされる他カメラ映像が出力される形態例を挙げたが、必ずしも最良撮像条件を満たす他カメラ映像が出力される必要は無い。例えば、対象人物画像９６が検出された何れかの他カメラ画像が出力されるようにすれば、ユーザ１８は、対象人物画像９６を視認することができる。

　また、上記第１実施形態では、最良撮像条件の一例として、他カメラ画像群のうち、他カメラ画像内で対象人物画像９６の位置が既定範囲に収まっており、かつ、他カメラ画像内での対象人物画像９６の大きさが既定の大きさ以上である、との条件を挙げて説明したが、本開示の技術はこれに限定されない。例えば、最良撮像条件は、他カメラ画像群のうち、他カメラ画像内で対象人物画像９６の位置が既定範囲に収まっている、との条件、又は、他カメラ画像内での対象人物画像９６の大きさが既定の大きさ以上である、との条件であってもよい。

　また、上記第１実施形態では、一例として図１７に示すように、基準物理カメラ画像の出力から、最良撮像条件を満たす仮想視点画像４６Ｃの出力に直接切り替えられる形態例を挙げて説明したが、本開示の技術はこれに限定されない。基準物理カメラ画像の出力から、最良撮像条件を満たす仮想視点画像４６Ｃの出力に直接切り替えられると、出力が切り替えられる前後で、対象人物の位置が把握し難くなる虞がある。

　そこで、一例として図１８に示すように、出力部５８Ｄは、基準物理カメラ画像の出力から最良撮像条件を満たす仮想視点画像４６Ｃの出力に切り替える期間に、位置、向き、及び画角を連続的に繋げる複数のカメラにより撮像されることで得られたカメラ画像を出力する。位置、向き、及び画角を連続的に繋げる複数のカメラにより撮像されることで得られたカメラ画像とは、例えば、基準物理カメラの撮像位置、撮像方向、及び画角から、最良撮像条件を満たす仮想視点画像４６Ｃを得るための撮像で用いられた仮想カメラ４２の仮想カメラ位置、仮想カメラ向き、及び画角までを連続的に繋げる複数の仮想カメラ４２により撮像されることで得られた複数の仮想視点画像４６Ｃを指す。これにより、基準物理カメラ画像の出力から仮想視点画像４６Ｃの出力に直接切り替えられる場合に比べ、ユーザ１８に対して、対象人物の位置を把握させ易くすることができる。

　また、上記第１実施形態では、基準物理カメラ画像内で対象人物画像９６が障害物に遮られている場合に、対象人物画像９６が障害物に遮られている基準物理カメラ画像に代えて、対象人物画像９６の全体が視認可能な仮想視点画像４６Ｃ又は他物理カメラ画像が出力部５８Ｄによってユーザデバイス１４に出力されることが可能な形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、基準物理カメラ画像内で対象人物画像９６が障害物に遮られている場合に、対象人物画像９６が障害物に遮られている基準物理カメラ画像に代えて、対象人物画像９６の全体が視認可能な仮想視点画像４６Ｃのみが出力されるようにしてもよい。これにより、第１検出処理によって対象人物画像９６が検出されなくなった場合に、ユーザ１８に対して、仮想視点動画像を提供することで対象人物の観察を継続させることができる。

　また、対象人物画像９６の全体が視認可能な仮想視点画像４６Ｃ又は他物理カメラ画像が出力されなくてもよく、例えば対象人物画像９６により示される顔などの特定の一部のみが視認可能な仮想視点画像４６Ｃ又は他物理カメラ画像が出力されてもよい。この特定の一部は、ユーザ１８から与えられた指示に従って設定可能とされていてもよい。例えば、対象人物画像９６により示される顔が、ユーザ１８から与えられた指示に従って設定された場合は、対象人物の顔が視認可能な仮想視点画像４６Ｃ又は他物理カメラ画像が出力される。また、例えば、基準物理カメラ画像内で視認可能な対象人物画像９６の割合よりも大きい割合で対象人物画像９６が視認可能な仮想視点画像４６Ｃ又は他物理カメラ画像が出力されてもよい。

　また、仮想視点画像４６Ｃが出力される場合は、必ずしも上記の検出処理で対象人物画像９６が検出された画像が出力されなくてもよい。例えば、三角測量等により撮像領域中の各物体の３次元位置を認識し、基準物理カメラ画像内で対象人物画像９６が障害物に遮られている場合に、対象人物、障害物及びその他の物体の位置関係から、対象人物が視認可能と推定される視点位置、方向及び画角から観察された態様を示す仮想視点画像４６Ｃが出力されるようにしてもよい。本開示の技術における検出処理には、このような推定に基づく処理も含まれる。

　また、上記第１実施形態では、基準物理カメラ動画像が出力部５８Ｄによって出力される形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、図１９に示すように、基準物理カメラ動画像に代えて、特定の仮想カメラ４２によって撮像されることで得られた時系列の複数の仮想視点画像４６Ｃで構成された基準仮想視点動画像が出力部５８Ｄによってユーザデバイス１４に出力されるようにしてもよい。この場合、出力制御処理が実行されることによって、基準仮想視点動画像の出力から他カメラ画像（図１９に示す例では、基準仮想視点動画像以外の仮想視点動画像）の出力に切り替えられる。このように、基準仮想視点動画像の出力から他カメラ画像の出力に切り替えられるようにした場合であっても、上記第１実施形態と同様に、ユーザ１８に対して対象人物を継続的に観察させることができる。

　また、上記第１実施形態では、物理カメラ画像と仮想視点画像４６Ｃとが出力部５８Ｄによって選択的に出力される形態例を挙げて説明したが、一例として図１９に示すように、出力に切り替え前であっても後であっても、出力部５８Ｄによって仮想視点画像４６Ｃのみが出力されるようにしてもよい。この場合も、上記第１実施形態と同様に、ユーザ１８に対して対象人物を継続的に観察させることができる。

　また、上記第１実施形態では、出力部５８Ｄによって基準物理カメラ画像の出力から他カメラ画像の出力に切り替えられる形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、図２０に示すように、他カメラ画像として、対象人物画像９６を含む俯瞰画像が出力部５８Ｄによってユーザデバイス１４に出力されるようにしてもよい。俯瞰画像とは、撮像領域（図２０に示す例では、サッカーフィールド２４の全体）を俯瞰した態様を示す画像を指す。例えば、画像選定部５８Ｅによって、最良撮像条件を満足する他カメラ画像が選定されなかった場合（最良撮像条件を満足する他カメラ画像が存在しなかった場合）に、出力部５８Ｄによって俯瞰画像が出力されるようにしてもよい。従って、俯瞰画像が出力部５８Ｄによって出力されるという形態例によれば、撮像領域の一部のみが撮像されることで得られたカメラ画像が出力される場合に比べ、対象人物が写り込んでいる可能性が高いカメラ画像をユーザ１８に提供することができる。

　また、上記第１実施形態では、基準物理カメラによって基準物理カメラ動画像が得られる形態例を挙げて説明したが、基準物理カメラ動画像は、テレビ放映用の画像であってもよい。テレビ放映用の画像としては、録画された動画像、又は、生中継用の動画像が挙げられる。また、動画像に限らず、静止画像であってもよい。例えば、ユーザ１８がユーザデバイス１４を持ってテレビ放送の映像（例えば、テレビ中継用の画像等）を観賞している場合に、テレビ放送の映像内で対象人物画像９６が障害物に遮られたときに、対象人物画像９６が視認可能な仮想視点画像４６Ｃ又は他物理カメラ画像が、上記第１実施形態で説明した技術を用いて、ユーザデバイス１４に出力されるという使用方法が想定される。従って、基準物理カメラ動画像としてテレビ放映用の画像が用いられる形態例によれば、ユーザ１８がテレビ中継用の画像を観賞している場合であっても、ユーザ１８に対して、対象人物を継続的に観察させることができる。

　また、上記第１実施形態では、基準物理カメラの設置位置は特に定められていないが、基準物理カメラは、複数の物理カメラ１６のうち、撮像領域（例えば、サッカーフィールド２４）を観察する観察位置、又は、観察位置の近隣に設置されている物理カメラ１６であることが好ましい。また、基準物理カメラ動画像に代えて基準仮想視点動画像が出力部５８Ｄによって出力される場合、撮像領域（例えば、サッカーフィールド２４）を観察する観察位置、又は、観察位置の近隣に設置されている仮想カメラ４２によって撮像領域が撮像されるようにすればよい。観察位置の一例としては、例えば、図１に示す観戦席２６に着座しているユーザ１８の位置が挙げられる。観察位置の近隣に設置されているカメラとしては、例えば、図１に示す観戦席２６に着座しているユーザ１８に最も近い位置に設置されているカメラ（例えば、物理カメラ１６又は仮想カメラ４２）が挙げられる。

　従って、本構成によれば、複数のカメラのうち、撮像領域を観察する観察位置又は観察位置の近隣に設置されているカメラによって撮像されることで得られたカメラ画像をユーザ１８が観賞している場合であっても、ユーザ１８に対して、対象人物を継続的に観察させることができる。また、本構成によれば、ユーザ１８が撮像領域を直接見ている場合、ユーザ１８が見ている領域と同じ領域又は近い領域を基準物理カメラが撮像していることになる。従って、ユーザ１８が直接撮像領域を見ている場合（実空間上で直接観察している場合）に、ユーザ１８から対象人物が見えなかったことを基準物理カメラ動画像から検知することができる。これにより、ユーザ１８から直接対象人物が見えなくなった場合に、対象人物画像９６が視認可能な仮想視点画像４６Ｃ又は他物理カメラ画像をユーザデバイス１４に出力することができる。

　また、上記第１実施形態では、第１検出処理によって対象人物画像９６が検出されていた状態から対象人物画像９６が検出されない状態に遷移した場合に、基準物理カメラ動画像の出力から、対象人物画像９６を観察可能な仮想視点動画像の出力に切り替わる形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、図２１に示すように、第１検出処理によって対象人物画像９６が検出されていた状態から対象人物画像９６が検出されない状態に遷移した場合であっても、出力部５８Ｄは、基準物理カメラ動画像の出力を継続し、かつ、対象人物画像９６を観察可能な仮想視点動画像の出力も並行して行うようにしてもよい。この場合、例えば、図２２に示すように、カメラ画像の出力先であるユーザデバイス１４のディスプレイ７８には、基準物理カメラ動画像と仮想視点動画像とが異なる画面で並行して表示される。これにより、ユーザ１８は、基準物理カメラ動画像を観賞しながら、基準物理カメラ動画像及び仮想視点動画像を通じて対象人物を継続して観察することができる。なお、基準物理カメラ動画像に代えて基準仮想視点動画像が出力部５８Ｄによってユーザデバイス１４に出力されるようにしてもよい。また、仮想視点動画像に代えて他物理カメラ動画像が出力部５８Ｄによってユーザデバイス１４に出力されるようにしてもよい。また、例えば、ユーザ１８がユーザデバイス１４を複数所持している等の場合は、例えば、基準物理カメラ動画像と仮想視点動画像とが別々のユーザデバイス１４（一台は図示省略）に出力されるようにしてもよい。

　また、上記第１実施形態では、対象人物画像９６を例示したが、本開示の技術はこれに限定されず、非人物（人間以外の物体）を示す画像であってもよい。非人物としては、物体を認識可能なデバイス（例えば、物理カメラと物理カメラに接続されたコンピュータ等を含むデバイス）が搭載されたロボット（例えば、人物、動物又は昆虫等の生物を模したロボット）、動物、及び昆虫等が挙げられる。

　［第２実施形態］
　上記第１実施形態では、対象人物画像９６を含む他カメラ画像が出力部５８Ｄによって出力される形態例を挙げて説明したが、本第２実施形態では、条件次第で対象人物画像９６を含まない他カメラ画像も出力部５８Ｄによって出力される形態例について説明する。　なお、本第２実施形態では、上記第１実施形態と同一の構成要素については同一の符号を付し、その説明を省略する。本第２実施形態では、上記第１実施形態と異なる部分について説明する。また、以下では、説明の便宜上、他物理カメラ動画像と仮想視点動画像とを区別して説明する必要がない場合、「他カメラ動画像」と称する。

　本第２実施形態では、複数のカメラ（例えば、図３に示す全てのカメラ）のうち、基準物理カメラ以外の何れか１つのカメラが特定カメラとされ、複数のカメラのうち、基準物理カメラ及び特定カメラ以外のカメラが非特定カメラとされている。特定カメラの一例としては、図１４Ｂに示すステップＳＴ２８又はステップＳＴ３０の処理が実行されることによって出力部５８Ｄによって出力された他カメラ画像を得るための撮像で用いられたカメラが挙げられる。ここで、特定カメラは、本開示の技術に係る「第２画像用カメラ」の一例である。

　また、本第２実施形態では、検出処理として、上述した第１検出処理及び第２検出処理の他に、第３検出処理及び第４検出処理が行われる。

　第３検出処理は、特定カメラによって撮像されることで得られた他カメラ画像である特定カメラ画像から対象人物画像９６を検出する処理である。特定カメラ画像は、本開示の技術に係る「第２画像」の一例である。また、第３検出処理でも、第１及び第２検出処理と同様に、対象人物の顔を示す顔画像が検出されることで対象人物画像９６が検出される。顔画像の検出対象とされる他カメラ画像は、特定カメラ画像である。

　特定カメラによって撮像されることで得られた他カメラ動画像を構成する複数のフレームの種類は、第３検出処理によって対象人物画像９６が検出された検出フレームと、第３検出処理によって対象人物画像９６が検出されていない非検出フレームと、に大別される。なお、以下では、説明に便宜上、特定カメラによって撮像されることで得られた他カメラ動画像を、「特定カメラ動画像」とも称する。

　第４検出処理は、非特定カメラによって撮像されることで得られた他カメラ画像である非特定カメラ画像から対象人物画像９６を検出する処理である。非特定カメラ画像のうち、第４検出処理によって対象人物画像９６が検出された非特定カメラ画像は、本開示の技術に係る「第３画像」の一例である。第４検出処理によって対象人物画像９６が検出された非特定カメラ画像を得るための撮像で用いられた非特定カメラは、本開示の技術に係る「第３画像用カメラ」の一例である。また、第４検出処理でも、第１～第３検出処理と同様に、対象人物の顔を示す顔画像が検出されることで対象人物画像９６が検出される。顔画像の検出対象とされるカメラ画像は、非特定カメラ画像である。

　本第２実施形態では、特定カメラ動画像が、検出フレームと非検出フレームとを含む場合、ＣＰＵ５８は、特定カメラの位置と非特定カメラの位置との距離、及び、上記第１実施形態で説明した非検出状態の時間に応じて、非検出フレーム及び非特定カメラ画像を選択的に出力する。

　例えば、ＣＰＵ５８は、特定カメラの位置と非特定カメラの位置との距離が閾値を超え、かつ、非検出状態の時間が既定時間未満であるという非検出フレーム出力条件を満たした場合に、非検出フレームを出力し、非検出フレーム出力条件を満たしていない場合に、非検出フレームに代えて非特定カメラ画像を出力する。以下、本構成について、詳しく説明する。

　一例として図２３に示すように、本第２実施形態に係る画像処理装置１２のＣＰＵ５８は、更に、設定部５８Ｆ、判定部５８Ｇ、及び算出部５８Ｈとして動作する点が上記第１実施形態で説明した画像処理装置１２のＣＰＵ５８と異なる。

　設定部５８Ｆは、第２検出処理の検出対象とされた他カメラ画像、又は、画像選定部５８Ｅによって選定された他カメラ画像が出力部５８Ｄによって出力された場合、出力部５８Ｄによって出力された他カメラ画像を得るための撮像で用いられたカメラを特定カメラに設定する。また、設定部５８Ｆは、出力部５８Ｄによって出力された他カメラ画像からカメラ特定情報を取得する。そして、設定部５８Ｆは、他カメラ画像から取得したカメラ特定情報を、特定カメラを識別可能な特定カメラ識別情報として保持する。

　一例として図２４に示すように、画像取得部５８Ｂは、設定部５８Ｆによって特定カメラが設定されている場合、設定部５８Ｆから特定カメラ識別情報を取得する。そして、画像取得部５８Ｂは、特定カメラ識別情報から特定される特定カメラによって撮像されることで得られた特定カメラ動画像から、第１検出処理の処理対象とされた基準物理カメラ画像と同一の撮像時刻の特定カメラ画像を取得する。

　検出部５８Ｃは、画像取得部５８Ｂによって取得された特定カメラ画像に対して、第１及び第２検出処理と同様の方法で、対象人物画像サンプル９８を用いて第３検出処理を実行する。第３検出処理によって特定カメラ画像から対象人物画像９６が検出された場合、出力部５８Ｄは、第３検出処理によって検出された対象人物画像９６を含む特定カメラ画像をユーザデバイス１４に出力する。これにより、ユーザデバイス１４のディスプレイ７８には、第３検出処理によって検出された対象人物画像９６を含む特定カメラ画像が表示される。

　一例として図２５に示すように、第３検出処理によって特定カメラ画像から対象人物画像９６が検出されなかった場合、判定部５８Ｇは、非検出継続時間が既定時間（例えば、３秒）未満であるか否かを判定する。ここで、非検出継続時間とは、非検出状態の時間、すなわち、非検出状態が継続している時間を指す。既定時間は、固定時間であってもよいし、与えられた指示及び／又は条件に応じて変更される可変時間であってもよい。

　一例として図２６に示すように、設定部５８Ｆによって特定カメラが設定されている状況下で、判定部５８Ｇによって非検出継続時間が既定時間未満であるか否かの判定が行われた後、画像取得部５８Ｂは、設定部５８Ｆから特定カメラ識別情報を取得する。画像取得部５８Ｂは、画像群１０２から、特定カメラ識別情報を用いて、第１検出処理の処理対象とされた基準物理カメラ画像と同一の撮像時刻の複数の他カメラ画像のうちの特定カメラ画像以外の全ての非特定カメラ画像（以下、「非特定カメラ画像群」とも称する）を取得する。そして、検出部５８Ｃは、画像取得部５８Ｂによって取得された非特定カメラ画像群に対して、第１～第３検出処理と同様の方法で、対象人物画像サンプル９８を用いて第４検出処理を実行する。

　一例として図２７に示すように、第４検出処理によって対象人物画像９６が検出された場合、算出部５８Ｈは、第４検出処理によって対象人物画像９６が検出された非特定カメラ画像に付与されているカメラ特定情報を、非特定カメラ画像を得るための撮像で用いられた非特定カメラを識別可能な非特定カメラ識別情報として取得する。

　算出部５８Ｈは、設定部５８Ｆが保持している特定カメラ識別情報により特定される特定カメラに関するカメラ設置位置情報、及び非特定カメラ識別情報により特定される非特定カメラに関するカメラ設置位置情報を用いて、特定カメラと非特定カメラとの間の距離（以下、「カメラ距離」とも称する）を算出する。算出部５８Ｈは、非特定カメラ識別情報毎、すなわち、第４検出処理によって対象人物画像９６が検出された非特定カメラ画像毎に、カメラ距離を算出する。

　判定部５８Ｇは、算出部５８Ｈによって算出されたカメラ距離のうち、最も短いカメラ距離（以下、「最短カメラ距離」とも称する）を取得する。そして、判定部５８Ｇは、最短カメラ距離が閾値を超えているか否かを判定する。閾値は、固定値であってもよいし、与えられた指示及び／又は条件に応じて変更される可変値であってもよい。

　判定部５８Ｇによって最短カメラ距離が閾値を超えていると判定された場合、出力部５８Ｄは、画像取得部５８Ｂによって取得された特定カメラ画像、すなわち、第３検出処理によって対象人物画像９６が検出されなかった特定カメラ画像をユーザデバイス１４に出力する。また、出力部５８Ｄは、第４検出処理によって非特定カメラ画像群から対象人物画像９６が検出されなかった場合も、画像取得部５８Ｂによって取得された特定カメラ画像、すなわち、第３検出処理によって対象人物画像９６が検出されなかった特定カメラ画像をユーザデバイス１４に出力する。これにより、ユーザデバイス１４のディスプレイ７８には、対象人物画像９６を含まない特定カメラ画像が表示される。

　図２８には、判定部５８Ｇによって最短カメラ距離が閾値以下であると判定された場合、及び非検出継続時間が既定時間以上であり、かつ、第４検出処理によって対象人物画像９６が検出された場合のＣＰＵ５８の処理内容の一例が示されている。図２８に示す例において、算出部５８Ｈは、画像取得部５８Ｂ及び設定部５８Ｆに最短距離非特定カメラ識別情報を出力する。最短距離非特定カメラ識別情報とは、算出部５８Ｈによって算出された最短カメラ距離の算出対象とされた非特定カメラを識別可能な非特定カメラ識別情報を指す。画像取得部５８は、第４検出処理によって対象人物画像９６が検出された非特定カメラ画像のうち、非特定カメラ識別情報により特定される非特定カメラによって撮像されることで得られた非特定カメラ画像である最短距離非特定カメラ画像を取得する。

　出力部５８Ｄは、画像取得部５８Ｂによって取得された最短距離非特定カメラ画像をユーザデバイス１４に出力する。これにより、ユーザデバイス１４のディスプレイ７８には、最短距離非特定カメラ画像が表示される。なお、最短距離非特定カメラ画像には、対象人物画像９６が含まれているので、ユーザ１８は、ディスプレイ７８を通して対象人物を観察することができる。

　出力部５８Ｄは、最短距離非特定カメラ画像の出力が完了すると、出力完了情報を設定部５８Ｆに出力する。設定部５８Ｆは、出力部５８Ｄから出力完了情報が入力されると、現時点で設定されている特定カメラに代えて、算出部５８Ｈから入力された最短距離非特定カメラ識別情報から特定される非特定カメラ（以下、「最短距離非特定カメラ」とも称する）を特定カメラに設定する。

　次に、本第２実施形態に係る出力制御処理の流れの一例を、図２９Ａ～図２９Ｃを参照しながら説明する。図２９Ａ～図２９Ｃに示すフローチャートは、図１４Ａ及び図１４Ｂに示すフローチャートに比べ、ステップＳＴ１００～ステップＳＴ１３８を有する点が異なる。以下では、図１４Ａ及び図１４Ｂに示すフローチャートと異なる点を説明する。

　図１４Ａに示すステップＳＴ１４において、判定が否定されると、出力制御処理は、図２９Ａに示すステップＳＴ１００へ移行する。ステップＳＴ１００は、検出部５８Ｃは、特定カメラが未設定であるか否かを判定する。例えば、ここで、検出部５８Ｃは、設定部５８Ｆが特定カメラ識別情報を保持していない場合、特定カメラが未設定であると判定し、設定部５８Ｆが特定カメラ識別情報を保持している場合、特定カメラが未設定でない（特定カメラが設定されている）と判定する。

　ステップＳＴ１００において、特定カメラが未設定の場合は、判定が肯定されて、出力制御処理はステップＳＴ１８へ移行する。ステップＳＴ１００において、特定カメラが未設定でない場合は、判定が否定されて、出力制御処理は、図２９Ｂに示すステップＳＴ１０４へ移行する。

　ステップＳＴ１０２で、設定部５８Ｆは、ステップＳＴ２８又はステップＳＴ３０で出力された他カメラ画像を得るための撮像で用いられたカメラを特定カメラに設定し、その後、出力制御処理は、図１４Ａに示すステップＳＴ３２へ移行する。

　図２９Ｂに示すステップＳＴ１０４で、特定カメラによって撮像されることで得られた特定カメラ動画像から、第１検出処理の処理対象とされた基準物理カメラ画像と同一の撮像時刻の特定カメラ画像を取得し、その後、出力制御処理はステップＳＴ１０６へ移行する。

　ステップＳＴ１０６で、検出部５８Ｃは、ステップＳＴ１０４で取得された特定カメラ画像に対して、対象人物画像サンプル９８を用いて第３検出処理を実行し、その後、出力制御処理はステップＳＴ１０８へ移行する。

　ステップＳＴ１０８で、検出部５８Ｃは、第３検出処理によって特定カメラ画像から対象人物画像９６が検出されたか否かを判定する。ステップＳＴ１０８において、第３検出処理によって特定カメラ画像から対象人物画像９６が検出されていない場合は、判定が否定されて、出力制御処理はステップＳＴ１１２へ移行する。ステップＳＴ１０８において、第３検出処理によって特定カメラ画像から対象人物画像９６が検出された場合は、判定が肯定されて、出力制御処理はステップＳＴ１１０へ移行する。

　ステップＳＴ１１０で、出力部５８Ｄは、第３検出処理の検出対象とされた特定カメラ画像をユーザデバイス１４に出力し、その後、出力制御処理は、図１４Ａに示すステップＳＴ３２へ移行する。

　ステップＳＴ１１２で、判定部５８Ｇは、非検出継続時間が既定時間未満か否かを判定する。ステップＳＴ１１２において、非検出継続時間が既定時間以上の場合は、判定が否定されて、出力制御処理は、図２９Ｃに示すステップＳＴ１２８へ移行する。ステップＳＴ１１２において、非検出継続時間が既定時間未満の場合は、判定が肯定されて、出力制御処理はステップＳＴ１１４へ移行する。

　ステップＳＴ１１４で、検出部５８Ｃは、非特定カメラ画像群に対して、対象人物画像サンプル９８を用いて第４検出処理を実行し、その後、出力制御処理はステップＳＴ１１６へ移行する。

　ステップＳＴ１１６で、検出部５８Ｃは、第４検出処理によって非特定カメラ画像群から対象人物画像９６が検出されたか否かを判定する。ステップＳＴ１１６において、第４検出処理によって非特定カメラ画像群から対象人物画像９６が検出されていない場合は、判定が否定されて、出力制御処理はステップＳＴ１１０へ移行する。ステップＳＴ１１６において、第４検出処理によって非特定カメラ画像群から対象人物画像９６が検出された場合は、判定が肯定されて、出力制御処理はステップＳＴ１１８へ移行する。

　ステップＳＴ１１８で、先ず、算出部５８Ｈは、ステップＳＴ１１４の第４検出処理によって対象人物画像９６が検出された非特定カメラ画像に付与されているカメラ特定情報を、非特定カメラ画像を得るための撮像で用いられた非特定カメラを識別可能な非特定カメラ識別情報として取得する。次に、算出部５８Ｈは、設定部５８Ｆが保持している特定カメラ識別情報により特定される特定カメラに関するカメラ設置位置情報、及び非特定カメラ識別情報により特定される非特定カメラに関するカメラ設置位置情報を用いて、カメラ距離を算出する。カメラ距離は、ステップＳＴ１１４の第４検出処理によって対象人物画像９６が検出された非特定カメラ画像毎に算出される。ステップＳＴ１１８の処理が実行された後、出力制御処理はステップＳＴ１２０へ移行する。

　ステップＳＴ１２０で、判定部５８Ｇは、ステップＳＴ１１８で算出されたカメラ距離のうちの最短カメラ距離が閾値を超えているか否かを判定する。ステップＳＴ１２０において、最短カメラ距離が閾値以下の場合は、判定が否定されて、出力制御処理はステップＳＴ１２２へ移行する。ステップＳＴ１２０において、最短カメラ距離が閾値を超えている場合は、判定が肯定されて、出力制御処理はステップＳＴ１１０へ移行する。

　ステップＳＴ１２２で、先ず、画像取得部５８Ｂは、算出部５８Ｈから最短距離非特定カメラ識別情報を取得する。そして、画像取得部５８Ｂは、最短距離非特定カメラ識別情報から特定される非特定カメラによって撮像されることで得られた最短距離非特定カメラ画像を、ステップＳＴ１１４の第４検出処理によって対象人物画像９６が検出された少なくとも１フレームの非特定カメラ画像から取得する。ステップＳＴ１２２の処理が実行された後、出力制御処理はステップＳＴ１２４へ移行する。

　ステップＳＴ１２４で、出力部５８Ｄは、ステップＳＴ１２２で取得された最短距離非特定カメラ画像をユーザデバイス１４に出力し、その後、出力制御処理はステップＳＴ１２６へ移行する。

　ステップＳＴ１２６で、設定部５８Ｆは、算出部５８Ｈから最短距離非特定カメラ識別情報を取得する。そして、設定部５８Ｆは、現時点で設定されている特定カメラに代えて、最短距離非特定カメラ識別情報から特定される最短距離非特定カメラを特定カメラに設定し、その後、出力制御処理は、図１４Ａに示すステップＳＴ３２へ移行する。

　図２９Ｃに示すステップＳＴ１２８で、検出部５８Ｃは、非特定カメラ画像群に対して、対象人物画像サンプル９８を用いて第４検出処理を実行し、その後、出力制御処理はステップＳＴ１３０へ移行する。

　ステップＳＴ１３０で、検出部５８Ｃは、ステップＳＴ１２８の第４検出処理によって非特定カメラ画像群から対象人物画像９６が検出されたか否かを判定する。ステップＳＴ１３０において、ステップＳＴ１２８の第４検出処理によって非特定カメラ画像群から対象人物画像９６が検出されていない場合は、判定が否定されて、出力制御処理は、図２９Ｂに示すステップＳＴ１１０へ移行する。ステップＳＴ１３０において、ステップＳＴ１２８の第４検出処理によって非特定カメラ画像群から対象人物画像９６が検出された場合は、判定が肯定されて、出力制御処理はステップＳＴ１３２へ移行する。

　ステップＳＴ１３２で、先ず、算出部５８Ｈは、ステップＳＴ１２８の第４検出処理によって対象人物画像９６が検出された非特定カメラ画像に付与されているカメラ特定情報を、非特定カメラ画像を得るための撮像で用いられた非特定カメラを識別可能な非特定カメラ識別情報として取得する。次に、算出部５８Ｈは、設定部５８Ｆが保持している特定カメラ識別情報により特定される特定カメラに関するカメラ設置位置情報、及び非特定カメラ識別情報により特定される非特定カメラに関するカメラ設置位置情報を用いて、カメラ距離を算出する。カメラ距離は、ステップＳＴ１２８の第４検出処理によって対象人物画像９６が検出された非特定カメラ画像毎に算出される。ステップＳＴ１３２の処理が実行された後、出力制御処理はステップＳＴ１３４へ移行する。

　ステップＳＴ１３４で、先ず、画像取得部５８Ｂは、算出部５８Ｈから最短距離非特定カメラ識別情報を取得する。そして、画像取得部５８Ｂは、最短距離非特定カメラ識別情報から特定される非特定カメラによって撮像されることで得られた最短距離非特定カメラ画像を、ステップＳＴ１２８の第４検出処理によって対象人物画像９６が検出された少なくとも１フレームの非特定カメラ画像から取得する。ステップＳＴ１３４の処理が実行された後、出力制御処理はステップＳＴ１３６へ移行する。

　ステップＳＴ１３６で、出力部５８Ｄは、ステップＳＴ１３４で取得された最短距離非特定カメラ画像をユーザデバイス１４に出力し、その後、出力制御処理はステップＳＴ１３８へ移行する。

　ステップＳＴ１３８で、設定部５８Ｆは、算出部５８Ｈから最短距離非特定カメラ識別情報を取得する。そして、設定部５８Ｆは、現時点で設定されている特定カメラに代えて、最短距離非特定カメラ識別情報から特定される最短距離非特定カメラを特定カメラに設定し、その後、出力制御処理は、図１４Ａに示すステップＳＴ３２へ移行する。

　このように、特定カメラによって撮像されることで得られる特定カメラ動画像が対象人物画像９６を含むフレームと対象人物画像９６を含まないフレームとを含む場合、出力部５８Ｄは、カメラ距離及び非検出継続時間に応じて、特定カメラ動画像内の対象人物画像９６を含まないフレーム、及び対象人物画像９６を含む非特定カメラ画像を選択的に出力する。従って、本構成によれば、対象人物画像９６が検出されない期間に、常に、対象人物画像９６を含む非特定カメラ画像を出力する場合に比べ、他カメラ画像の急峻な変化がユーザに対して与える不快感を抑制することができる。

　また、本第２実施形態係る出力制御処理が実行されると、最短カメラ距離が閾値を超え、かつ、非検出継続時間が既定時間未満であるという条件を満たした場合に、特定カメラ動画像内の対象人物画像９６を含まないフレームが出力される。また、最短カメラ距離が閾値を超え、かつ、非検出継続時間が既定時間未満であるという条件を満たしていない場合に、特定カメラ動画像内の対象人物画像９６を含まないフレームに代えて、対象人物画像９６を含む非特定カメラ画像が出力される。従って、本構成によれば、対象人物画像９６が検出されない期間に、常に、対象人物画像９６を含む非特定カメラ画像を出力する場合に比べ、他カメラ画像の急峻な変化がユーザに対して与える不快感を抑制することができる。

　なお、上記第２実施形態では、最短カメラ距離が閾値を超え、かつ、非検出継続時間が既定時間未満であるという条件を例示したが、本開示の技術はこれに限定されず、例えば、最短カメラ距離が閾値と一致し、かつ、非検出継続時間が既定時間未満であるという条件であってもよい。また、最短カメラ距離が閾値を超え、かつ、非検出継続時間が既定時間に到達したという条件であってもよい。また、最短カメラ距離が閾値と一致し、かつ、非検出継続時間が既定時間に到達したという条件であってもよい。

　また、上記第２実施形態で説明した画像処理装置１２に対しても、上記第１実施形態で説明した各種の形態例を適宜に適用することができる。

　また、上記各実施形態では、複数のフレームからなる複数フレーム画像の一例として動画像が出力部５８Ｄによってユーザデバイス１４に出力される形態例を挙げたが、本開示の技術はこれに限定されず、動画像に代えて連写画像が出力部５８Ｄによって出力されるようにしてもよい。なお、この場合、一例として図３０に示すように、基準物理カメラ動画像に代えて基準物理カメラ連写画像、他物理カメラ動画像に代えて他物理カメラ連写画像、仮想視点動画像に代えて仮想視点連写画像が画像群１０２としてストレージ６０に記憶されていればよい。このように、連写画像がユーザデバイス１４に出力される場合であっても、ユーザ１８に対して、対象人物を継続して観察させることができる。

　また、上記各実施形態では、動画像がユーザデバイス１４のディスプレイ７８に表示される形態例を挙げて説明したが、ディスプレイ７８に表示される動画像を構成する時系列の複数のカメラ画像のうち、ユーザ１８が意図するカメラ画像が、タッチパネル７６Ａに対してユーザ１８がフリック操作及び／又はスワイプ操作を行うことで、ディスプレイ７８に選択的に表示されるようにしてもよい。

　また、上記各実施形態では、サッカー競技場２２を例示したが、これはあくまでも一例に過ぎず、野球場、ラグビー場、カーリング場、陸上競技場、競泳場、コンサートホール、野外音楽場、及び演劇会場等のように、複数の物理カメラ１６が設置可能であれば、如何なる場所であってもよい。

　また、上記各実施形態では、コンピュータ５０及び７０を例示したが、本開示の技術はこれに限定されない。例えば、コンピュータ５０及び／又は７０に代えて、ＡＳＩＣ、ＦＰＧＡ、及び／又はＰＬＤを含むデバイスを適用してもよい。また、コンピュータ５０及び／又は７０に代えて、ハードウェア構成及びソフトウェア構成の組み合わせを用いてもよい。

　また、上記各実施形態では、出力制御処理が画像処理装置１２のＣＰＵ５８によって実行される形態例を挙げて説明したが、本開示の技術はこれに限定されない。出力制御処理に含まれる一部の処理がユーザデバイス１４のＣＰＵ８８によって実行されるようにしてもよい。また、ＣＰＵ８８に代えて、ＧＰＵを採用してもよいし、複数のＣＰＵを採用してもよく、１つのプロセッサ、又は、物理的に離れている複数のプロセッサによって各種処理が実行されるようにしてもよい。

　また、上記各実施形態では、ストレージ６０に出力制御プログラム１００が記憶されているが、本開示の技術はこれに限定されず、一例として図２９に示すように、任意の可搬型の記憶媒体２００に出力制御プログラム１００が記憶されていてもよい。記憶媒体２００は、非一時的記憶媒体である。記憶媒体２００としては、例えば、ＳＳＤ又はＵＳＢメモリ等が挙げられる。記憶媒体２００に記憶されている出力制御プログラム１００はコンピュータ５０にインストールされ、ＣＰＵ５８は、出力制御プログラム１００に従って、出力制御処理を実行する。

　また、通信網（図示省略）を介してコンピュータ５０に接続される他のコンピュータ又はサーバ装置等のプログラムメモリに出力制御プログラム１００を記憶させておき、画像処理装置１２の要求に応じて出力制御プログラム１００が画像処理装置１２にダウンロードされるようにしてもよい。この場合、ダウンロードされた出力制御プログラム１００に基づく出力制御処理がコンピュータ５０のＣＰＵ５８によって実行される。

　出力制御処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、上述したように、ソフトウェア、すなわち、プログラムに従って出力制御処理を実行するハードウェア資源として機能する汎用的なプロセッサであるＣＰＵが挙げられる。

　また、他のプロセッサとしては、例えば、ＦＰＧＡ、ＰＬＤ、又はＡＳＩＣなどの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで出力制御処理を実行する。

　出力制御処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせ、又はＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、出力制御処理を実行するハードウェア資源は１つのプロセッサであってもよい。

　１つのプロセッサで構成する例としては、第１に、クライアント及びサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが、出力制御処理を実行するハードウェア資源として機能する形態がある。第２に、ＳｏＣなどに代表されるように、出力制御処理を実行する複数のハードウェア資源を含むシステム全体の機能を１つのＩＣチップで実現するプロセッサを使用する形態がある。このように、出力制御処理は、ハードウェア資源として、上記各種のプロセッサの１つ以上を用いて実現される。

　更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。

　また、上述した出力制御処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。

　以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

　本明細書において、「Ａ及び／又はＢ」は、「Ａ及びＢのうちの少なくとも１つ」と同義である。つまり、「Ａ及び／又はＢ」は、Ａだけであってもよいし、Ｂだけであってもよいし、Ａ及びＢの組み合わせであってもよい、という意味である。また、本明細書において、３つ以上の事柄を「及び／又は」で結び付けて表現する場合も、「Ａ及び／又はＢ」と同様の考え方が適用される。

　本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

　プロセッサと、
　前記プロセッサに内蔵又は接続されたメモリと、を備え、
　前記プロセッサは、
　位置が異なる複数のカメラによって、撮像領域が撮像されることで得られた複数の画像から対象物を示す対象物画像を検出する検出処理を行い、
　前記複数の画像のうちの第１画像を出力し、
　前記検出処理によって前記第１画像から前記対象物画像が検出された検出状態から、前記検出処理によって前記第１画像から前記対象物画像が検出されない非検出状態に遷移した場合に、前記複数の画像のうち、前記検出処理によって前記対象物画像が検出された第２画像を出力する
　画像処理装置。
　前記第１画像及び前記第２画像のうちの少なくとも一方は、仮想視点画像である請求項１に記載の画像処理装置。
　前記プロセッサは、前記第１画像を出力している状況下で、前記検出状態から前記非検出状態に遷移した場合に、前記第１画像の出力から前記第２画像の出力に切り替える請求項１又は請求項２に記載の画像処理装置。
　前記画像は、複数のフレームからなる複数フレーム画像である請求項１から請求項３の何れか一項に記載の画像処理装置。
　前記複数フレーム画像は動画像である請求項４に記載の画像処理装置。
　前記複数フレーム画像は連写画像である請求項４に記載の画像処理装置。
　前記プロセッサは、
　前記第２画像としての前記複数フレーム画像を出力し、
　前記第２画像としての前記複数フレーム画像の出力を、前記非検出状態に至ったタイミングよりも前のタイミングから開始する請求項４から請求項６の何れか一項に記載の画像処理装置。
　前記プロセッサは、
　前記第２画像としての前記複数フレーム画像を出力し、
　前記第２画像としての前記複数フレーム画像の出力を、前記非検出状態に至ったタイミングよりも後のタイミングで終了する請求項４から請求項７の何れか一項に記載の画像処理装置。
　前記複数の画像は、前記検出処理によって前記対象物画像が検出された第３画像を含み、
　前記第２画像としての前記複数フレーム画像が、前記検出処理によって前記対象物画像が検出された検出フレームと、前記検出処理によって前記対象物画像が検出されていない非検出フレームと、を含む場合に、前記プロセッサは、前記複数のカメラのうちの前記第２画像を得るための撮像で用いられた第２画像用カメラの前記位置と、前記複数のカメラのうちの前記第３画像を得るための撮像で用いられた第３画像用カメラの前記位置との距離、及び、前記非検出状態の時間に応じて、前記非検出フレーム及び前記第３画像を選択的に出力する請求項４から請求項８の何れか一項に記載の画像処理装置。
　前記プロセッサは、前記距離が閾値を超え、かつ、前記非検出状態の時間が既定時間未満であるという非検出フレーム出力条件を満たした場合に、前記非検出フレームを出力し、前記非検出フレーム出力条件を満たしていない場合に、前記非検出フレームに代えて前記第３画像を出力する請求項９に記載の画像処理装置。
　前記プロセッサは、前記非検出状態から前記検出状態に戻ったことを条件に、前記第１画像の出力を再開する請求項１から請求項１０の何れか一項に記載の画像処理装置。
　前記複数のカメラは、少なくとも１台の仮想カメラ及び少なくとも１台の物理カメラを含み、
　前記複数の画像は、前記仮想カメラによって前記撮像領域が撮像されることで得られた仮想視点画像、及び前記物理カメラによって前記撮像領域が撮像されることで得られた撮像画像を含む請求項１から請求項１１の何れか一項に記載の画像処理装置。
　前記プロセッサは、前記第１画像の出力から前記第２画像の出力に切り替える期間に、前記第１画像を得るための撮像で用いられた前記カメラの前記位置、向き、及び画角から前記第２画像を得るための撮像で用いられた前記カメラの前記位置、向き、及び画角までを連続的に繋げる複数の仮想カメラにより撮像されることで得られた複数の仮想視点画像を出力する請求項１から請求項１２の何れか一項に記載の画像処理装置。
　前記対象物は人物である請求項１から請求項１３の何れか一項に記載の画像処理装置。
　前記プロセッサは、前記人物の顔を示す顔画像を検出することで前記対象物画像を検出する請求項１４に記載の画像処理装置。
　前記プロセッサは、前記複数の画像のうち、前記画像内での前記対象物画像の位置及び大きさのうちの少なくとも一方が既定条件を満足し、かつ、前記検出処理によって前記対象物画像が検出された画像を前記第２画像として出力する請求項１から請求項１５の何れか一項に記載の画像処理装置。
　前記第２画像は、前記撮像領域を俯瞰した態様を示す俯瞰画像である請求項１から請求項１６の何れか一項に記載の画像処理装置。
　前記第１画像は、テレビ放映用の画像である請求項１から請求項１７の何れか一項に記載の画像処理装置。
　前記第１画像は、前記複数のカメラのうち、前記撮像領域を観察する観察位置又は前記観察位置の近隣に設置されているカメラによって撮像されることで得られた画像である請求項１から請求項１８の何れか一項に記載の画像処理装置。
　位置が異なる複数のカメラによって、撮像領域が撮像されることで得られた複数の画像から対象物を示す対象物画像を検出する検出処理を行い、
　前記複数の画像のうちの第１画像を出力し、
　前記検出処理によって前記第１画像から前記対象物画像が検出された検出状態から、前記検出処理によって前記第１画像から前記対象物画像が検出されない非検出状態に遷移した場合に、前記複数の画像のうち、前記検出処理によって前記対象物画像が検出された第２画像を出力することを含む
　画像処理方法。
　コンピュータに、
　位置が異なる複数のカメラによって、撮像領域が撮像されることで得られた複数の画像から対象物を示す対象物画像を検出する検出処理を行い、
　前記複数の画像のうちの第１画像を出力し、
　前記検出処理によって前記第１画像から前記対象物画像が検出された検出状態から、前記検出処理によって前記第１画像から前記対象物画像が検出されない非検出状態に遷移した場合に、前記複数の画像のうち、前記検出処理によって前記対象物画像が検出された第２画像を出力することを含む処理を実行させるためのプログラム。