WO2024023982A1

WO2024023982A1 - 映像処理装置、方法およびプログラム

Info

Publication number: WO2024023982A1
Application number: PCT/JP2022/028990
Authority: WO
Inventors: 和宮川
Original assignee: 日本電信電話株式会社
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2024-02-01

Abstract

この発明の一態様は、撮影対象領域に向けて所定の配置パターンで配置された複数のカメラから出力される映像データをそれぞれ取得して記憶媒体に記憶すると共に、取得された前記各映像データに対し、それぞれ所定の時間間隔でその各時間位置のシーン映像ごとにその注目度を表すスコアを付与する。そして、前記スコアと、前記複数のカメラ相互間の配置距離とに基づいて、前記時間位置ごとに視点の移動先となるカメラを選択して、その選択順序を表す視点移動スケジュールを生成し、前記時間位置ごとに前記視点移動スケジュールに基づいて、前記視点の移動先となるカメラに対応するシーン映像を前記記憶媒体から読み出して配信映像データを生成し、視聴者に向け送信するようにしたものである。

Description

映像処理装置、方法およびプログラム

　この発明の一態様は、例えばスポーツ等のイベントの中継において、複数のカメラが撮影した映像を処理する映像処理装置、方法およびプログラムに関する。

　例えばスポーツ中継に使用される映像処理技術には、様々な技術がある。例えば、サッカー等の球技においては、ボールを自動追尾することで１台のカメラによる自動撮影を実現する技術が知られている。この技術は、ＡＩカメラ等と呼ばれ、例えば以下のサイトで紹介されている。　
　　　　Pixellot；インターネット＜URL: https://www.pixellot.tv/＞
　　　　Veo；インターネット＜URL: https://event.veo.co/＞

　しかし、上記した自動撮影技術は、ボールを中心に広いフィールドを選手が移動するような球技には有効であるが、例えばボクシングや武道等の格闘技のように、ボールのような明確な追尾対象がなく、注目すべき対象が一意に定まりにくいスポーツの自動撮影には適用することが難しい。

　一方、撮影対象エリアを囲むように複数のカメラを配置し、これらのカメラにより撮影された複数の映像の中から任意の視点の映像を逐次選択することにより、例えば格闘技のように追跡対象が一意に定まりにくい競技においても、適切な視点が得られるようにする技術が提案されている（例えば非特許文献１を参照）。

　非特許文献１に記載された技術は、タイムスライス撮影法と呼ばれ、競技コート周辺に円形に配置された数十台のカメラでコート内を同期撮影し、各カメラ映像を逐次選択するものである。この撮影法を用いると、例えばボクシングの試合における決定的なパンチシーンを最も迫力のある視点から撮影した映像を視聴者に提供することが可能となる。また、隣り合うカメラの映像を順次選択することで、選手の周囲を回りながら視点を移動するような映像を視聴者に提供することもできる。

三ッ峰秀樹、「スポーツ映像表現技術の研究開発動向」、ＮＨＫ放送技術研究所、ＮＨＫ技研Ｒ＆Ｄ　2019年1月号、［2022年6月16日検索］、インターネット＜URL: https://www.nhk.or.jp/strl/publica/rd/173/2.html＞

　ところで、複数のカメラを用いた任意視点映像の撮影法では、最も適切な視点、例えば迫力のある視点や周囲の選手に阻まれずに最も明確に対象が見える視点等へカメラ映像を切替える必要がある。しかし、切替前後のカメラ間の距離が大きい場合には、視点の移動速度が速くなって、視聴者は画面移動の目まぐるしさに疲れたり、あるいは画面酔いにより気分が悪くなる可能性がある。これに対し、視聴者の視認性を考慮して視点の移動速度を制限すると、次の視点に切り替わるまでに時間が掛かり、その間に視聴者が決定的な場面を見逃してしまう可能性がある。

　一方、例えば4DReplayと呼ばれる手法のように、視点の移動時に映像の再生を一時的に止め、これにより視点の移動速度を一定に保ちつつ決定的な場面を見逃さないようにする技術がある。しかし、例えばライブ映像を視聴しているときに映像を停止すると、視聴者は、映像を停止した時間分だけ映像を遅れて視聴することになる。この場合、上記映像の遅延を回復するには遅延分の時間を飛ばせばよいが、映像の時間的連続性を失うため、視聴者には違和感が生じてしまう。また、遅延時間分の映像を早回しすると、時間的一貫性を失うため、この場合も視聴者の違和感の発生は避けられない。

　また、一般的なスポーツ中継では、あるカメラから別のカメラへ瞬時に映像を切り替える、いわゆるカット割りを行うことにより、ライブ視聴を継続しつつ決定的な場面を見逃さないように配慮している。しかし、複数のカメラによる任意視点映像の視聴においてカット割りを用いると、視点をダイナミックに移動させるという、複数カメラを用いた撮影手法の本来の持ち味が失われてしまう。

　この発明は、上記事情に着目してなされたもので、時間的連続性および時間的一貫性を維持しつつ、適切な視点のライブ映像を視聴可能とする技術を提供しようとするものである。

　上記課題を解決するために、この発明に係る映像処理装置または映像処理方法の一態様は、撮影対象領域に対し所定の位置関係を有して配置された複数のカメラからそれぞれ映像データを取得して記憶媒体に記憶すると共に、取得された前記各映像データに対し、それぞれ所定の時間間隔でその各時間位置のシーン映像ごとにその注目度を表すスコアを付与する。そして、前記スコアと、前記複数のカメラ相互間の配置距離とに基づいて、前記時間位置ごとに視点の移動先となるカメラを選択して、その選択順序を表す視点移動スケジュールを生成し、前記時間位置ごとに前記視点移動スケジュールに基づいて、前記視点の移動先となるカメラに対応するシーン映像を前記記憶媒体から読み出して配信映像データを生成し、視聴者に向け送信するようにしたものである。

　この発明の一態様によれば、複数のカメラにより撮影された映像データの中で、時間位置ごとに注目度合いの高いシーンの映像を視点映像として選択してこれを視聴者に提供することができる。しかも、視点映像を注目度の高いシーンの映像に切り替える際に、切替前後のカメラ間の距離を考慮し、当該カメラ間に配置されている複数のカメラを段階的に経由することで、視点映像を上記注目度の高いシーンの映像に切り替えるようにしている。このため、視点の移動がスムーズな配信映像を視聴者に提供することが可能となる。

　すなわち、視聴者への映像データの配信タイミングがライブ映像データの受信タイミングに対し一定時間遅延するものの、映像の配信を一時的に停止したり時間調整のために早送りしたりすることがなく、これにより時間的連続性および時間的一貫性をいずれも維持した上で、注目度の高いシーンの映像を視聴者に提供することができる。

　この発明の一態様によれば、時間的連続性および時間的一貫性を維持しつつ、適切な視点のライブ映像を視聴可能とする技術を提供することができる。

図１は、この発明の一実施形態に係るイベント中継システムの構成の一例を示す図である。図２は、図１に示したイベント中継システムで使用される映像処理装置のハードウェア構成の一例を示すブロック図である。図３は、図１に示したイベント中継システムで使用される映像処理装置のソフトウェア構成の一例を示すブロック図である。図４は、図３に示した映像処理装置の制御部が実行する映像処理手順と処理内容の一例を示すフローチャートである。図５は、撮影対象エリアに対する複数台のカメラの配置構成の一例を示す図である。図６は、複数台のカメラにより得られた各映像に対し付与されたスコアの一例を示す図である。図７は、スコアデータに基づく視点の選択処理の第１の例を示す図である。図８は、スコアデータに基づく視点の選択処理の第２の例を示す図である。図９は、スコアデータに基づく視点の選択処理の第１の例を示す図である。

　以下、図面を参照してこの発明に係わる実施形態を説明する。

　［一実施形態］
　（構成例）
　（１）システム
　図１は、この発明の一実施形態に係るイベント中継システムの構成の一例を示す図である。

　一実施形態に係るイベント中継システムは、複数のカメラＣＭ１～ＣＭｎによりそれぞれイベントの様子を撮影し得られた映像データを、ネットワークＮＷを介して映像処理装置ＳＶへ伝送する。そして、映像処理装置ＳＶにおいて、上記複数のカメラＣＭ１～ＣＭｎから伝送された各映像データを選択的に編集することで配信映像データを生成し、生成した上記配信映像データをネットワークＮＷを介して視聴者のモニタ装置ＭＴ１～ＭＴｍへ配信するように構成される。

　複数のカメラＣＭ１～ＣＭｎは、ボクシングや柔道等の格闘技を中継する場合には、図例えば５に示すように中継対象エリアであるリングＲＥの周囲に、当該リングＲＥを囲むように等間隔で配置される。この例では８台のカメラＣＭ１～ＣＭ８を配置した場合を示している。

　カメラＣＭ１～ＣＭｎは、例えばＷｅｂカメラからなり、上記リングＲＥ上をそれぞれ決められた視点で撮影し、この撮影動作により得られたライブ映像データを、ネットワークＮＷを介して映像処理装置ＳＶへ送信する。なお、カメラＣＭ１～ＣＭｎには、視点および視野を調整するためにチルト・パン機能およびズーム機能が備えられていてもよい。

　ネットワークＮＷは、例えばインターネットを中核とする広域ネットワークと、この広域ネットワークにアクセスするためのアクセスネットワークとを備える。アクセスネットワークとしては、例えば、有線または無線を使用する公衆通信ネットワーク、有線または無線を使用するＬＡＮ（Local Area Network）、ＣＡＴＶ（Cable Television）ネットワークが使用される。また、ネットワークＮＷには、地上波または衛星を使用する放送媒体が含まれていてもよい。

　モニタ装置ＭＴ１～ＭＴｍは、視聴者が所有するテレビジョン装置またはパーソナルコンピュータからなる。モニタ装置ＭＴ１～ＭＴｍは、ブラウザまたは放送受信用のチューナを備え、映像処理装置ＳＶからネットワークＮＷを介して配信または放送される配信映像データを受信して表示する。

　（２）映像処理装置ＳＶ
　図２はこの発明の一実施形態に係る映像処理装置ＳＶのハードウェア構成の一例を示すブロック図、図３は上記映像処理装置ＳＶのソフトウェア構成の一例を示すブロック図である。

　映像処理装置ＳＶは、例えばサーバコンピュータまたはパーソナルコンピュータ等の情報処理装置からなり、例えば放送局内またはイベント会場に配置される。なお、映像処理装置ＳＶの機能を、Ｗｅｂまたはクラウド上に配置されたサーバコンピュータに設けるようにしてもよい。

　映像処理装置ＳＶは、中央処理ユニット（Central Processing Unit：ＣＰＵ）等のハードウェアプロセッサを使用した制御部１を備え、この制御部１に対し、バス５を介して、プログラム記憶部２およびデータ記憶部３を有する記憶ユニットと、通信インタフェース（以後インタフェースをＩ／Ｆと略称する）部４を接続したものとなっている。

　通信Ｉ／Ｆ部４は、上記カメラＣＭ１～ＣＭｎからそれぞれ送信される映像データをネットワークＮＷを介して受信すると共に、編集後の配信映像データをネットワークＮＷを介して視聴者のモニタ装置ＭＴ１～ＭＴｍへ配信する。なお、通信Ｉ／Ｆ部４は、例えばカメラＣＭ１～ＣＭｎのオン／オフや各種パラメータ調整のための制御信号をカメラＣＭ１～ＣＭｎへ送信する場合にも使用される。

　プログラム記憶部２は、例えば、記憶媒体としてＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ（Read Only Memory）等の不揮発性メモリとを組み合わせて構成したもので、ＯＳ（Operating System）等のミドルウェアに加えて、一実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムを格納する。なお、以後ＯＳと各アプリケーション・プログラムとをまとめてプログラムと称する。

　データ記憶部３は、例えば、記憶媒体として、ＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリと組み合わせたもので、その記憶領域には、各カメラＣＭ１～ＣＭｎに対応する複数のカメラ映像記憶部３１～３ｎと、学習モデル記憶部３２と、スコアデータ記憶部３３が設けられている。

　カメラ映像記憶部３１～３ｎは、それぞれカメラＣＭ１～ＣＭｎからリアルタイムに送信されたライブ映像データを蓄積する。

　学習モデル記憶部３２は、スコア付与処理に使用する学習モデルを記憶する。学習モデルは、例えば対象イベントに係る過去の複数の配信映像を学習データとして用い、当該配信映像の各シーンに対し、視点としての注目度を表すスコアを正解データとして設定することにより生成される。視点の注目度は、例えば瞬間視聴率や、歓声の大きさ等に基づく盛り上がり度合い等により定義可能であるが、被写体の動きの変化量や速さ等のその他の特徴量に基づいて定義されてもよい。

　スコアデータ記憶部３３は、各カメラＣＭ１～ＣＭｎから送信されたライブ映像データに対しシーンごとに付与されたスコアの一覧データを記憶する。

　制御部１は、一実施形態を実施するために必要な処理機能として、複数のカメラＣＭ１～ＣＭｎに対応して用意される複数のカメラ映像取得処理部１１１～１１ｎと、スコア付与処理部１２と、視点映像選択処理部１３と、配信映像送信処理部１４とを備える。これらの処理部１１１～１１ｎ，１２～１４は、何れもプログラム記憶部２に格納されたアプリケーション・プログラムを制御部１のハードウェアプロセッサに実行させることにより実現される。

　なお、上記各処理部１１１～１１ｎ，１２～１４の一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）等のハードウェアを用いて実現されてもよい。

　カメラ映像取得処理部１１１～１１ｎは、カメラＣＭ１～ＣＭｎからリアルタイムに送信されるライブ映像データを通信Ｉ／Ｆ部４を介してそれぞれ受信し、受信した上記ライブ映像データを対応するカメラ映像記憶部３１１～３１ｎに順次記憶する。

　スコア付与処理部１２は、上記カメラ映像取得処理部１１１～１１ｎにより受信された上記各ライブ映像データからそれぞれ所定の時間間隔で各々の時間位置におけるシーン映像を抽出し、抽出した各シーン映像に対し学習モデルを用いてスコアを付与する。そして、スコア付与処理部１２は、上記各映像データのシーン映像ごとに付与したスコアの一覧データをスコアデータ記憶部３３に記憶する。

　視点映像選択処理部１３は、各ライブ映像データの同一の時間位置ごとに、上記スコアデータ記憶部３３に記憶されたスコアの一覧データにより表されるスコア値と、各カメラＣＭ１～ＣＭｎ相互間の距離とに基づいて、スコア値の高さと視点移動距離の少なさを考慮して、視点の移動先として最適なカメラを選択する。

　なお、上記スコアの付与処理および視点映像選択処理の一例は、動作例において説明する。

　配信映像送信処理部１４は、上記各ライブ映像データの同一の時間位置ごとに、上記視点映像選択処理部１３により視点の移動先として選択されたカメラに対応する映像データを、カメラ映像記憶部３１１～３１ｎから選択的に読み出す。そして、配信映像送信処理部１４は、読み出した上記映像データを時間方向に接続する編集処理を行って配信映像データを生成し、生成した上記配信映像データを通信Ｉ／Ｆ部４から、事前に視聴登録された視聴者のモニタ装置ＭＴ１～ＭＴｍに向け配信する。

　（動作例）
　次に、以上のように構成された映像処理装置ＳＶの動作例を説明する。

　図４は、映像処理装置ＳＶの制御部１が実行する映像処理の処理手順と処理内容の一例を示すフローチャートである。

　（１）ライブ映像データの取得および記憶
　映像処理装置ＳＶの制御部１は、ステップＳ１においてイベント中継の開始を監視する。この状態で、イベント中継が開始されると、カメラ映像取得処理部１１１～１１ｎの制御の下、ステップＳ２において、各カメラＣＭ１～ＣＭｎからリアルタイムに送信されるライブ映像データを通信Ｉ／Ｆ部４を介してそれぞれ受信する。そして、カメラ映像取得処理部１１１～１１ｎは、受信した上記各ライブ映像データをそれぞれ対応するカメラ映像記憶部３１１～３１ｎに順次記憶する。

　かくして、カメラ映像記憶部３１１～３１ｎには、カメラＣＭ１～ＣＭｎからそれぞれリアルタイムに送信される各ライブ映像データが並行して蓄積される。

　（２）スコアの付与
　上記ライブ映像データの受信が開始されると、映像処理装置ＳＶの制御部１は、スコア付与処理部１２の制御の下、ステップＳ３において、上記各ライブ映像データに対し視点の注目度を表すスコアを付与する処理を以下のように実行する。

　すなわち、スコア付与処理部１２は、先ず各ライブ映像データからそれぞれ所定の時間間隔でそれぞれの時間位置におけるシーン映像を抽出する。このとき、上記時間間隔は、視点映像を切り替える際に視聴者が違和感を生じないような適切な時間、例えば１秒に設定されるが、この限りではない。

　スコア付与処理部１２は、続いて、抽出した上記各シーン映像からそれぞれシーンの特徴量を抽出する。そして、抽出した上記特徴量を学習モデルに説明変数として入力し、学習モデルから目的変数として出力されるスコアを取得して、取得した上記スコアをカメラＣＭ１～ＣＭｎごとに、上記シーン映像の時間位置に対応付けてスコアデータ記憶部３３に記憶する。

　図６は、各カメラＣＭ１～ＣＭｎに対応してスコアデータ記憶部３３に記憶される、ライブ映像データの各時間位置におけるシーン映像に付与されたスコアの一例を示すものである。この例では、図５に示したようにリングＲＥを取り囲むように等間隔で配置された８台のカメラＣＭ１～ＣＭ８の各々について、時間位置ｔ－ｎ，…，ｔ－１，ｔごとにスコアを記憶した場合を示している。なお、同図においてスコアは、値が高いほど注目度が高いことを表している。

　（３）視点映像の選択
　映像処理装置ＳＶの制御部１は、次に視点映像選択処理部１３の制御の下、ステップＳ４において、視聴者に提供すべき視点映像の選択を以下のように実行する。

　すなわち、視点映像選択処理部１３は、上記時間位置ごとに、スコアデータ記憶部３３に記憶されたスコアの一覧データにより表されるスコア値と、複数のカメラＣＭ１～ＣＭｎ相互間の距離とに基づいて、視点の移動先として最適なカメラを選択する。

　例えば、図５に示した場合を例にとると、カメラＣＭ１～ＣＭ８間の最大距離は正対するカメラ、例えばＣＭ１とＣＭ５との間の距離であり、視点をこの最大距離間でスムーズに移動させようとすると、視点をカメラＣＭ１から、ＣＭ２、ＣＭ３、ＣＭ４、ＣＭ５の順に段階的に移動させる必要がある。いま例えば１回の視点移動に要する時間を１秒とすると、上記移動パターンで視点をカメラＣＭ５まで移動させるには、少なくとも４秒が必要となる。

　そこで、視点映像選択処理部１３は、配信映像の送信タイミングをライブ映像データの受信タイミングより４秒遅らせ、この４秒間を利用して段階的に視点位置が移動するようにカメラを選択する。

　例えば、図６の例では、最新の時間位置ｔにおいて各カメラＣＭ１～ＣＭ８から受信されたシーン映像の中で、カメラＣＭ５のシーン映像のスコア（０．８９）が最も高い。このスコアが最大のシーン映像を視点として選択するには、視点映像選択処理部１３は、例えば図７に示すように、４秒前の時間位置ｔ－４において視点として選択しているカメラＣＭ１から、１秒間隔でＣＭ２、ＣＭ３、ＣＭ４、ＣＭ５の順にカメラを選択するように、視点移動スケジュールを設定する。

　また、次の時間位置ｔ＋１において、例えば図８に示すように、上記カメラＣＭ５のスコア（０．８９）よりスコアが（０．９２）と高いカメラＣＭ４が見つかったとする。この場合、視点映像選択処理部１３は、図８に示すように、視点を例えばカメラＣＭ２から、ＣＭ３、ＣＭ３、ＣＭ４、ＣＭ４の順にカメラを選択するように、視点移動スケジュールを更新する。

　一方、例えば図９に示すように、次の時間位置ｔ＋１における最大スコアがカメラＣＭ３の（０．８８）だったとする。この場合、視点映像選択処理部１３は、上記カメラＣＭ３のスコア（０．８８）よりカメラＣＭ５のスコア（０．８９）の方が高いので、図９に示すように視点の移動先がカメラＣＭ５となる視点移動スケジュールを維持する。

　以上ように視点移動スケジュールを設定すると、視聴者に配信される映像はライブ映像に対し常時４秒遅延することになるものの、視点の移動がスムーズな配信映像を視聴者に提供することが可能となる。すなわち、時間的連続性および時間的一貫性をいずれも維持した上で、４秒間の中で最も注目度の高い時間位置ｔにおけるシーン映像を捨てることなく配信することが可能となる。

　（４）配信映像の編集および送信
　時間位置ごとに、上記視点映像選択処理部１３から視点移動スケジュールが出力されると、配信映像送信処理部１４が以下のように配信映像の編集および送信処理を行う。

　すなわち、配信映像送信処理部１４は、先ずステップＳ５において、上記視点移動スケジュールに従い、当該スケジュールにおいて現在の配信時間位置の視点移動先として指定されているカメラに対応するシーン映像を、対応するカメラ映像記憶部から読み出す。

　例えば、先に図７に示した視点移動スケジュールでは、時間位置ｔにおける移動先はカメラＣＭ５と指定されているので、カメラＣＭ５に対応するカメラ映像記憶部３１５から上記時間位置ｔにおけるシーン映像を読み出す。そして、１秒前の時間位置ｔ－１において配信中のシーン映像を、上記時間位置ｔにおけるシーン映像に切り替える。その際、シーン映像間の連続性をより高めるために、切替時の映像の変化を緩やかにする等の映像の編集処理が行われてもよい。

　配信映像送信処理部１４は、続いてステップＳ６において、上記編集後の配信映像データを、通信Ｉ／Ｆ部４から、例えば事前に視聴登録されている視聴者のモニタ装置ＭＴ１～ＭＴｍに向け送信する。

　（５）イベント中継の終了
　映像処理装置ＳＶの制御部１は、以上述べた一連のイベント中継処理を実行しながら、ステップＳ７においてイベント中継の終了監視を行う。そして、イベント中継が続いている場合には、ステップＳ２に戻って先に述べたステップＳ２～ステップＳ６による一連のイベント中継処理を繰り返す。

　これに対し、例えば管理者の端末からイベント中継の終了指示が入力されると、映像処理装置ＳＶの制御部１は、例えばカメラＣＭ１～ＣＭｎに対し電源をオフするための制御信号を送信した後、上記一連のイベント中継処理を終了する。

　（作用・効果）
　以上述べたように一実施形態では、イベント会場に配置された複数のカメラＣＭ１～ＣＭｎから送信されるライブ映像データをそれぞれ受信してカメラ映像記憶部３１１～３１ｎに記憶すると共に、受信された上記各ライブ映像データに対し所定の時間間隔でその各時間位置のシーンごとに注目度を表すスコアを付与する。そして、上記スコアと、上記カメラＣＭ１～ＣＭｎ相互間の距離に基づいて、視点移動スケジュールを生成し、生成した上記視点移動スケジュールに従い、時間位置ごとに上記カメラ映像記憶部３１１～３１ｎから対応するシーン映像を読み出して編集し、これにより生成された配信映像データを視聴者のモニタ装置ＭＴ１～ＭＴｍに向け送信するようにしている。

　従って、複数のカメラＣＭ１～ＣＭｎにより撮影されたライブ映像データの中で、時間位置ごとに注目度合いの高いシーンの映像を視点映像として選択してこれを視聴者に提供することができる。しかも、視点映像を注目度の高いシーンの映像に切り替える際には、切替前後のカメラ間の距離を考慮して、当該カメラ間に配置されている複数のカメラを段階的に経由して、視点映像を上記注目度の高いシーンの映像に切り替えるようにしている。このため、視点の移動がスムーズな配信映像を視聴者に提供することが可能となる。

　［その他の実施形態］
　（１）一実施形態では、スコアの付与処理のために、過去のライブ映像データを用いて事前に学習を行った学習モデルを用いている。しかし、イベント中継処理を行いながらこの中継処理で受信したライブ映像データをもとに上記学習モデルをさらに学習するようにしてもよい。このようにすることで、付与されるスコアの精度をさらに高めることが可能となる。

　（２）また、学習モデルの学習のために十分な映像データが得られない場合には、オブジェクト検出ＹＯＬＯ（You Look Only Once）等の深層学習、例えば畳み込みニューラルネットワークを用いて、シーン映像から特徴量を抽出するようにしてもよい。この手法を用いることで、シーン映像中から被写体領域を抽出し、被写体領域の重複が少なくかつ画面の手前側にある被写体領域の映像を、注目度合いの高い視点映像として抽出することが可能となる。

　（３）一実施形態では、現在選択中のカメラから視点の移動先となるカメラまでの距離が大きい場合に、上記カメラ間に配置されるカメラを１台ずつ順に選択しながら視点を移動させるように視点の移動ステップを設定している。しかし、視点の移動ステップは、カメラ１台ずつに限るものではなく、例えば１台置きまたは２台置きというように複数台ごとに移動するように設定してもよい。要するに、視点移動スケジュールによる１回の視点の移動量は、カメラＣＭ１～ＣＭｎの物理的な配置間隔、すなわちカメラＣＭ１～ＣＭｎ間の視点の変化量に基づいて、一般的な視聴者が視点の変化に違和感を覚えない範囲で、任意に設定可能である。

　（４）映像処理装置が備える各処理機能は複数台の装置に分散配置してもよい。その他、映像処理装置の設置場所や、イベント中継処理の処理手順と処理内容、中継対象のイベントの種類、カメラの配置パターン等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

　以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

　要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

　ＳＶ…映像処理装置
　ＣＭ１～ＣＭｎ…カメラ
　ＭＴ１～ＭＴｍ…モニタ装置
　ＮＷ…ネットワーク
　１…制御部
　２…プログラム記憶部
　３…データ記憶部
　４…通信Ｉ／Ｆ部
　５…バス
　１１１～１１ｎ…カメラ映像取得処理部
　１２…スコア付与処理部
　１３…視点映像選択処理部
　１４…配信映像送信処理部
　３１１～３１ｎ…カメラ映像記憶部
　３２…学習モデル記憶部
　３３…スコアデータ記憶部

Claims

　撮影対象領域に対し所定の位置関係を有して配置された複数のカメラからそれぞれ映像データを取得し、取得した各映像データを記憶媒体に記憶する第１の処理部と、
　前記各映像データに対し、それぞれ所定の時間間隔でその各時間位置のシーン映像ごとにその注目度を表すスコアを付与する第２の処理部と、
　前記スコアと、前記複数のカメラ間の配置距離とに基づいて、前記時間位置ごとに視点の移動先となるカメラを選択して、その選択順序を表す視点移動スケジュールを生成する第３の処理部と、
　前記時間位置ごとに、前記視点移動スケジュールに基づいて、前記視点の移動先となるカメラに対応するシーン映像を前記記憶媒体から読み出し、読み出した前記シーン映像をもとに配信映像データを生成して、当該配信映像データを視聴者に向け送信する第４の処理部と
　を具備する映像処理装置。
　前記第３の処理部は、前記時間位置ごとに、前記複数のカメラの中から前記スコアが最も高いカメラを前記視点の移動先として選択し、現在選択中の第１のカメラと前記移動先となる第２のカメラとの間に少なくとも１つの第３のカメラが介在配置されている場合に、前記視点移動スケジュールを、前記第１のカメラから前記第３のカメラを経て前記第２のカメラが順に選択されるように生成する、請求項１に記載の映像処理装置。
　前記第３の処理部は、新たな時間位置において、前記視点移動スケジュールにより移動先として定義されている前記第２のカメラより、前記スコアの高い第４のカメラが検出された場合に、前記第４のカメラを前記視点の移動先とするように前記視点移動スケジュールを更新する、請求項２に記載の映像処理装置。
　前記第３の処理部は、新たな時間位置において、前記視点移動スケジュールにより移動先として定義されている前記第２のカメラより、前記スコアの低い第５のカメラが検出された場合には、前記視点移動スケジュールを変更せずに維持する、請求項２に記載の映像処理装置。
　前記第２の処理部は、前記映像データから前記時間位置ごとに抽出される前記シーン映像の特徴量を説明変数として入力し、前記特徴量の注目度を表す前記スコアを目的変数として出力する学習モデルを使用する、請求項１に記載の映像処理装置。
　情報処理装置が実行する映像処理方法であって、
　撮影対象領域に対し所定の位置関係を有して配置された複数のカメラからそれぞれ映像データを取得し、取得した各映像データを記憶媒体に記憶する過程と、
　取得された前記各映像データに対し、それぞれ所定の時間間隔でその各時間位置のシーン映像ごとにその注目度を表すスコアを付与する過程と、
　前記スコアと、前記複数のカメラ相互間の配置距離とに基づいて、前記時間位置ごとに視点の移動先となるカメラを選択して、その選択順序を表す視点移動スケジュールを生成する過程と、
　前記時間位置ごとに、前記視点移動スケジュールに基づいて、前記視点の移動先となるカメラに対応するシーン映像を前記記憶媒体から読み出し、読み出した前記シーン映像をもとに配信映像データを生成して、当該配信映像データを視聴者に向け送信する過程と
　を具備する映像処理方法。
　請求項１乃至５のいずれかに記載の映像処理装置が具備する第１の処理部乃至第４の処理部の少なくとも１つが実行する処理を、前記映像処理装置が備えるプロセッサに実行させるプログラム。