WO2023175652A1

WO2023175652A1 - 動画生成装置、動画生成方法、および動画生成プログラム

Info

Publication number: WO2023175652A1
Application number: PCT/JP2022/011186
Authority: WO
Inventors: 大二郎秋月; 一樹市川; 雄介大井
Original assignee: 日本電気株式会社
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2023-09-21

Abstract

所定の検出対象にフォーカスした動画像を容易に生成することを可能にするために、動画生成装置（１）は、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成部（１１）と、生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正部（１２）を備えている。

Description

動画生成装置、動画生成方法、および動画生成プログラム

　動画像を自動生成する動画生成装置等に関する。

　広範囲を写した動画像からは、特定の対象物を詳細に観察することが困難な場合がある。このような問題を解決するための技術として、例えば下記の特許文献１が挙げられる。特許文献１には、動画像を構成する複数のフレーム画像の各々に、予め指定された被写体像を囲む枠体を設定し、その枠体に含まれる画像を切り出してフレーム画像のサイズにまで拡大し、拡大された画像をフレーム画像の順番に従って繋ぎ合わせることにより、特定の被写体を中心とした動画像を作成する画像処理装置が開示されている。

特開２００６－２７９８９４号公報

　特許文献１に記載の画像処理装置においては、枠体の設定をユーザが手動で行うため、その設定に手間がかかるという問題があった。また、特許文献１には、前のフレームから変化した部分を検出して、検出した変化部分を囲む矩形枠を設定することも記載されているが、この手法は常に動いている被写体以外に適用することはできない。このように、従来技術では、所定の検出対象にフォーカスした動画像を生成することは容易ではなかった。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、所定の検出対象にフォーカスした動画像を容易に生成することが可能な動画生成装置等を提供することにある。

　本発明の一側面に係る動画生成装置は、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段と、動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正手段と、を備える。

　本発明の一側面に係る動画生成方法は、少なくとも１つのプロセッサが、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成することと、動画像のフレーム間で検出対象が写る位置を揃える補正を行うことと、を含む。

　本発明の一側面に係る動画生成プログラムは、コンピュータを、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段、および動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正手段、として機能させる。

　本発明の一態様によれば、所定の検出対象にフォーカスした動画像を容易に生成することが可能になる。

本発明の例示的実施形態１に係る動画生成装置の構成を示すブロック図である。本発明の例示的実施形態１に係る動画生成方法の流れを示すフロー図である。本発明の例示的実施形態２に係る動画生成システムの概要を示す図である。上記動画生成システムにおける動画像の生成方法の概要を示す図である。本発明の例示的実施形態２に係る動画生成装置の構成を示すブロック図である。上記動画生成装置が備えるマスキング部によるマスキング処理の例を示す図である。本発明の例示的実施形態２に係る動画生成方法の流れを示すフロー図である。本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　（動画生成装置の構成）
　本例示的実施形態に係る動画生成装置１の構成について、図１を参照して説明する。図１は、動画生成装置１の構成を示すブロック図である。図示のように動画生成装置１は、動画生成部１１と補正部１２とを備えている。

　動画生成部１１は、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する。そして、補正部１２は、生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う。

　このように、本例示的実施形態に係る動画生成装置１においては、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成部１１と、生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正部１２とを備える、という構成が採用されている。このため、本例示的実施形態に係る動画生成装置１によれば、所定の検出対象にフォーカスした動画像を容易に生成することが可能になるという効果が得られる。

　（動画生成プログラム）
　上述の動画生成装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係る動画生成プログラムは、コンピュータを、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段、および生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う補正手段、として機能させる。この動画生成プログラムによれば、所定の検出対象にフォーカスした動画像を容易に生成することが可能になるという効果が得られる。

　（動画生成方法の流れ）
　本例示的実施形態に係る動画生成方法の流れについて、図２を参照して説明する。図２は、動画生成方法の流れを示すフロー図である。なお、この動画生成方法における各ステップの実行主体は、動画生成装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

　Ｓ１１では、少なくとも１つのプロセッサが、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する。続いて、Ｓ１２では、少なくとも１つのプロセッサが、Ｓ１１で生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行う。

　このように、本例示的実施形態に係る動画生成方法においては、少なくとも１つのプロセッサが、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成することと、生成された動画像のフレーム間で検出対象が写る位置を揃える補正を行うことと、を含む、という構成が採用されている。このため、本例示的実施形態に係る動画生成方法によれば、所定の検出対象にフォーカスした動画像を容易に生成することが可能になるという効果が得られる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　（システム概要）
　本例示的実施形態に係る動画生成システムの概要を図３に基づいて説明する。図３は、動画生成システム７の概要を示す図である。動画生成システム７は、競走馬の一頭一頭にフォーカスした動画像を自動で生成するシステムである。図示のように、動画生成システム７には、動画生成装置２、撮影装置３、エッジサーバ４、端末装置５、および端末装置６が含まれている。

　撮影装置３は、競走馬の動画像を撮影する。具体的には、撮影装置３は、図３に示すように、パドックを回る競走馬の動画像を撮影する。撮影装置３の位置は固定されているため、撮影装置３により決まった範囲（例えば図３に破線で示す範囲）の動画像が撮影される。撮影装置３は、複数頭の競走馬を一度に撮影できるように、広角撮影を行うことができるものとすることが好ましい。また、後述する馬体の検出や識別が容易になるという点で、撮影装置３は、図３のように馬体を側方から撮影することが好ましい。

　なお、図３には撮影装置３を１台のみ示しているが、より多数の競走馬を同時に撮影するために複数台の撮影装置３を設置してもよい。また、例えば、３６０度カメラ等の超広角撮影が可能な撮影装置３を用いてもよい。ただし、競走馬の近くに撮影装置３を配置したり、あまりに多くの撮影装置３を配置したりすると、競走馬に刺激を与えることになり好ましくない。このため、図３の例のように、競走馬から離れた位置に広角撮影が可能な撮影装置３を配置することが好ましい。

　エッジサーバ４は、撮影装置３が撮影する動画像を取得し、動画生成装置２に転送する。この際、エッジサーバ４は、動画像の画質やフレームレートを調整した上で動画生成装置２に転送する。例えば、エッジサーバ４は、所定のフレームレート（例えば３０ｆｐｓ）であり、かつ、一定以上の画質の動画像をリアルタイムで動画生成装置２に転送してもよい。なお、エッジサーバ４を介さずに、撮影装置３が撮影する動画像をそのまま動画生成装置２に転送してもよい。

　動画生成装置２は、エッジサーバ４から受信した動画像を用いて、競走馬の一頭一頭にフォーカスした動画像を生成し、生成した動画像を公開して、動画生成システム７のユーザがアクセスできるようにする。なお、動画像の生成方法については図４に基づいて後述する。

　端末装置５および６は、動画生成システム７のユーザが使用する端末装置である。動画生成システム７のユーザは、端末装置５や６のような任意の端末装置を用いて動画生成装置２が生成する動画像、すなわち競走馬の一頭一頭にフォーカスした動画像を視聴することができる。例えば、図３に示す端末装置５にはゼッケン番号２番の競走馬にフォーカスした動画像が表示されており、一方端末装置６にはゼッケン番号１番の競走馬にフォーカスした動画像が表示されている。

　なお、動画生成システム７で使用可能な端末装置は、図３に示すようなタブレット型の端末装置やスマートフォンに限られない。例えば、パーソナルコンピュータ等の端末装置を使用して、動画生成システム７により生成された動画像を視聴することも可能である。また、動画生成システム７で使用可能な端末装置の数も特に限定されない。

　以上のように、動画生成システム７によれば、撮影装置３が撮影する動画像から、各競走馬にフォーカスした動画像を生成し、これを動画生成システム７のユーザに視聴させることができる。動画像はユーザが何ら操作を行うことなく自動で生成されるから、首記の特許文献１に記載されている画像処理装置と比べて容易かつ短時間で動画像を生成することができる。また、動画生成システム７では、競走馬の写る領域を検出するから、競走馬が動いているか否かにかかわらず、それを検出して動画像を生成することができる。

　また、撮影装置３が撮影する動画像は広角で撮影されたものであるから、この動画像から個々の競走馬の状態を判別することは難しいが、動画生成システム７が生成する各競走馬にフォーカスした動画像によれば、個々の競走馬の状態を容易に判別することができる。さらに、動画生成システム７では、各競走馬を個別に撮影する必要がないことにより、撮影機材や撮影人員を最小限に抑えることができ、また、上述のように競走馬に不要な刺激を与えることもないという利点もある。

　なお、動画生成システム７は、競走馬に限られず、任意の検出対象の動画像を生成することが可能である。例えば、動画生成システム７によれば、競馬以外の公営競技（例えばボートレースや競輪等）において、複数の競技者が写る動画像から、個々の競技者にフォーカスした動画像を生成することもできる。この他にも、例えば、スポーツの試合を撮影した動画像から、個々の選手にフォーカスした動画像を生成することもできるし、コンサートを撮影した動画像から、個々の演者にフォーカスした動画像を生成することもできる。また、動画生成システム７によれば、監視カメラやドライブレコーダ等の撮影装置で撮影された動画像または静止画像から、それらの画像に写る特定の人物や車両等にフォーカスした動画像を生成することもできる。したがって、以下の説明における「競走馬」は任意の検出対象に読み替えることができる。

　（動画生成方法の概要）
　図４は、本例示的実施形態における動画生成方法（以下、本方法と称する）の概要を示す図である。本方法では、まず、所定の検出対象である競走馬が写る時系列の静止画像２１１を取得する。静止画像２１１は、撮影装置３により競走馬を撮影することにより生成された動画像から抽出したフレーム画像であってもよい。フレーム画像の抽出は、図３に示したエッジサーバ４が行ってもよい。また、撮影装置３は、動画像を撮影する代わりに時系列の静止画像２１１を撮影してもよく、この場合、撮影装置３が撮影する静止画像２１１をそのまま取得すればよい。

　次に、本方法では、静止画像２１１において競走馬が写る領域を検出する。図４では、検出された領域を破線の矩形で示している。つまり図示の例では、ゼッケン１番の競走馬が写る領域と、ゼッケン２番の競走馬が写る領域が抽出されている。この処理は、時系列の静止画像２１１のそれぞれについて行われる。

　次に、本方法では、上記のようにして検出した領域を静止画像２１１から抽出して部分画像２１５を生成する。このようにして生成された部分画像２１５には、上述したゼッケン１番の競走馬が写るものと、ゼッケン２番の競走馬が写るものとが含まれている。

　そこで、本方法では、生成した複数の部分画像２１５を、その部分画像２１５に写る検出対象に応じて分類する。図４の例では、生成した複数の部分画像２１５を、ゼッケン１番の競走馬が写る部分画像２１５１と、ゼッケン２番の競走馬が写る部分画像２１５２に分類している。

　そして、本方法では、部分画像２１５１を時系列順で繋いで、部分画像２１５１をフレーム画像とする動画像を生成する。同様にして、部分画像２１５２からも動画像が生成される。ここで生成した動画像は、領域抽出の精度等の要因により、フレーム間で競走馬の位置がぶれたものとなっている可能性がある。このようなぶれが生じたときには不自然な動画像となり得る。

　そこで、本方法では、動画像を生成した後、動画像のフレーム間で検出対象が写る位置を揃える補正を行い、これにより動画像が完成となる。この補正を行うことにより、競走馬の一頭一頭にフォーカスした自然な動画像を生成することができる。

　（動画生成装置の構成）
　本例示的実施形態に係る動画生成装置２の構成を図５に基づいて説明する。図５は、動画生成装置２の構成を示すブロック図である。動画生成装置２は、動画像または時系列の複数の静止画像から動画像を生成する装置である。図示のように、動画生成装置２は、動画生成装置２の各部を統括して制御する制御部２０と、動画生成装置２が使用する各種データを記憶する記憶装置である記憶部２１を備えている。また、動画生成装置２は、動画生成装置２に対するユーザの入力操作を受け付ける入力部２２と、動画生成装置２がデータを出力するための出力部２３を備えている。なお、動画生成装置２は、動画生成専用の装置であってもよいし、他の用途にも使用できる汎用的な装置であってもよい。

　また、制御部２０には、データ取得部２０１、検出部（検出手段）２０２、部分画像生成部（部分画像生成手段）２０３、マスキング部（マスキング手段）２０４、画像分類部（画像分類手段）２０５、動画生成部（動画生成手段）２０６、および補正部（補正手段）２０７が含まれている。そして、記憶部２１には、静止画像２１１、検出モデル２１２、顔検出モデル２１３、個体識別モデル２１４、部分画像２１５、および動画像２１６が記憶されている。なお、マスキング部２０４および顔検出モデル２１３については後記「マスキング処理について」の項目で説明する。

　データ取得部２０１は、動画像の元になる時系列の複数の静止画像２１１を取得し、記憶部２１に記憶させる。例えば、データ取得部２０１は、図３に示したエッジサーバ４から動画像を取得し、取得した動画像からフレーム画像を抽出して、それらのフレーム画像を動画像の元になる時系列の静止画像としてもよい。なお、動画像からフレーム画像を抽出する処理はエッジサーバ４が行ってもよく、この場合、データ取得部２０１は、エッジサーバ４から受信するフレーム画像を取得し、静止画像２１１として記憶部２１に記憶させればよい。

　検出部２０２は、静止画像２１１から検出対象が写る領域を検出する。より詳細には、検出部２０２は、検出対象である競走馬が写る画像を教師データとした機械学習により構築された検出モデル２１２を用いて、静止画像２１１から競走馬が写る領域を検出する。

　検出モデル２１２の教師データは、検出対象である競走馬が写る画像に対し、当該画像における競走馬が写る領域を示す情報（例えば当該領域の代表座標および当該領域の幅および高さを示す情報）を正解データとして対応付けたものであってもよい。機械学習のアルゴリズムは特に限定されず、例えば畳み込みニューラルネットワーク等を適用してもよい。なお、検出モデル２１２は、個々の検出対象を識別できる必要はない。つまり、検出モデル２１２は、任意の競走馬を検出するように学習されたものであってもよい。

　部分画像生成部２０３は、検出部２０２が検出する領域を静止画像２１１から抽出して部分画像２１５を生成し、記憶部２１に記憶させる。この際、部分画像生成部２０３は、静止画像２１１から抽出する領域に対し、拡大等のサイズ調整や画像の縦横比等の調整を行ってもよい。なお、部分画像生成部２０３が生成した部分画像２１５に観客等の人物が写り込んでいる場合には、生成された部分画像２１５は、マスキング部２０４によりマスキング処理が施された上で記憶部２１に記憶される。

　画像分類部２０５は、部分画像２１５をその部分画像２１５に写る検出対象に応じて分類する。部分画像２１５の分類には個体識別モデル２１４が用いられる。個体識別モデル２１４は、部分画像２１５に写る検出対象すなわち競走馬の各個体を識別するためのモデルである。画像分類部２０５は、部分画像２１５に分類結果を示す情報を対応付けて記憶部２１に記憶させる。

　個体識別モデル２１４は、競走馬のゼッケン番号を識別するように機械学習された学習済みモデルであってもよい。このような個体識別モデル２１４は、例えば、ゼッケンが写る領域を示す情報（例えば当該領域の代表座標および当該領域の幅および高さを示す情報）とそのゼッケンの番号とを正解データとして対応付けた部分画像２１５を教師データとした機械学習により構築することができる。この構成は、各競走馬に付されたゼッケン番号を競走馬の識別情報として利用したものである。

　このように、画像分類部２０５は、複数の検出対象を識別するために検出対象に付された識別情報を部分画像２１５から検出することにより、部分画像２１５を分類してもよい。この構成によれば、検出対象に付された識別情報を利用するので、例示的実施形態１に係る動画生成装置１の奏する効果に加えて、複数の検出対象を精度よく識別することができるという効果が得られる。

　動画生成部２０６は、部分画像２１５を時系列順で繋いで、部分画像２１５をフレーム画像とする動画像２１６を生成する。この際、動画生成部２０６は、画像分類部２０５が同じ分類に分類した部分画像２１５を時系列順で繋いで動画像２１６を生成する。

　補正部２０７は、動画生成部２０６が生成する動画像２１６のフレーム間で検出対象が写る位置を揃える補正を行う。そして、補正部２０７は、補正後の動画像２１６を記憶部２１に記憶させる。補正の方法は特に限定されない。例えば、補正部２０７は、動画像の手振れ補正用のアルゴリズムを用いて上記補正を行ってもよい。これにより、動画像２１６のフレーム間で検出対象が写る位置を揃える補正を簡易に行うことができる。

　以上のように、動画生成装置２は、時系列の複数の静止画像２１１のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像２１５を時系列順で繋いで、当該部分画像２１５をフレーム画像とする動画像２１６を生成する動画生成部２０６と、生成された動画像２１６のフレーム間で検出対象が写る位置を揃える補正を行う補正部２０７と、を備えている。

　この構成によれば、静止画像２１１のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像２１５を用いるため、検出対象が動いているか否かにかかわらず、それを検出して動画像２１６を生成することができる。

　ただし、部分画像２１５に写る検出対象の位置が揃っているとは限らない。検出対象の位置が揃っていない部分画像２１５から動画像２１６を生成した場合には、フレーム間で検出対象の位置がずれて見にくい動画像となってしまう。そこで、上記の構成によれば、一度動画像２１６を生成した後で、生成した動画像２１６のフレーム間で検出対象が写る位置を揃える補正を行っている。これにより、検出対象の位置が揃っていない部分画像２１５から、フレーム間で検出対象の位置が揃った動画像２１６を自動で生成することができる。したがって、動画生成装置２によれば、所定の検出対象にフォーカスした動画像２１６を容易に生成することが可能になるという効果が得られる。

　また、以上のように、動画生成装置２は、検出対象が写る画像を教師データとした機械学習により構築された検出モデル２１２を用いて、静止画像２１１から検出対象が写る領域を検出する検出部２０２と、検出部２０２が検出する領域を静止画像２１１から抽出して部分画像２１５を生成する部分画像生成部２０３とを備える。これにより、例示的実施形態１に係る動画生成装置１の奏する効果に加えて、静止画像２１１から部分画像２１５を自動で生成することができるという効果が得られる。

　また、以上のように、動画生成装置２は、部分画像２１５を当該部分画像２１５に写る検出対象に応じて分類する画像分類部２０５を備え、動画生成部２０６は、画像分類部２０５が同じ分類に分類した部分画像２１５を時系列順で繋いで動画像２１６を生成する。これにより、例示的実施形態１に係る動画生成装置１の奏する効果に加えて、複数の検出対象が写る静止画像２１１から、各検出対象にフォーカスした動画像２１６を自動で生成することができるという効果が得られる。

　（検出対象の識別について）
　上述のように、個体識別モデル２１４を用いることにより部分画像２１５に写る検出対象を識別することができる。そして、上述のように、競走馬にはゼッケン番号という識別情報が付されたゼッケンが取り付けられているから、個体識別モデル２１４はこのゼッケン番号を識別するように機械学習したものとすればよい。

　ただし、数字には１と７のように外観が類似したものがあり、また、光の当たり具合や画角等によっては数字が読み取りにくい状態となることもあるため、個体識別モデル２１４による識別結果が必ずしも正しいとは限らない。このため、画像分類部２０５は、個体識別モデル２１４の出力値に加えて、検出対象の識別に関する情報を考慮することにより、部分画像２１５の分類先を決定してもよい。

　例えば、パドックには、基本的に決まった順序で競走馬が入場するから、画像分類部２０５は、個体識別モデル２１４の出力値から特定される識別結果が妥当であるか否かを、競走馬の入場順、あるいは、当該競走馬が撮影された時刻に基づいて検証してもよい。この検証の結果、識別結果が妥当ではないと判定された部分画像２１５については、動画像化の対象から外すようにしてもよい。また、そのような部分画像２１５については、例えば出力部２３に出力させる等して動画生成装置２のユーザに提示し、正しい分類先をユーザに決定させてもよい。

　また、より簡易的な識別方法を採用してもよい。例えば、画像分類部２０５は、パドックに入場した順序に基づいて競走馬を識別してもよい。例えば、画像分類部２０５は、静止画像２１１に最初に写った競走馬を１番目の競走馬と識別してもよい。この場合、画像分類部２０５は、当該競走馬が撮影装置３の画角から外れるまでに撮影された時系列の静止画像２１１において、先頭に写る競走馬を１番目の競走馬と識別すればよい。また、画像分類部２０５は、１番目の競走馬の次に写る競走馬を２番目の競走馬と識別すればよい。以後同様にして、画像分類部２０５は、最後の競走馬まで識別することができる。

　なお、パドックでは興奮した競走馬が暴れたりしてゼッケン番号の識別が困難になることがある。このため、画像分類部２０５は、部分画像２１５を解析してこのような競走馬の特殊な動きを検出してもよい。そして、画像分類部２０５は、特殊な動きが検出された部分画像２１５については、動画像化の対象から外してもよいし、正しい分類先をユーザに決定させてもよい。

　上記した以外にも、例えば競走馬の毛色や騎手等に基づいて競走馬を識別することも可能である。また、検出対象が競走馬ではなく例えば人物である場合には、画像分類部２０５は、人物の顔を認識することにより識別を行ってもよい。

　（マスキング処理について）
　マスキング部２０４および顔検出モデル２１３について図６に基づいて説明する。図６は、マスキング部２０４によるマスキング処理の例を示す図である。図６には、マスキング処理を行う前の部分画像２１５Ａと、マスキング処理後の部分画像２１５Ｂを示している。

　マスキング部２０４は、部分画像２１５における人物の顔が写る領域を検出し、検出した領域をマスキング処理する。なお、マスキング処理は、人物を識別不能にする処理であり、例えばモザイク処理やぼかし処理等であってもよい。図６の例では、マスキング部２０４は、部分画像２１５Ａにおける人物ＡおよびＢの顔が写る領域を検出し、それらの領域にぼかし処理を施して部分画像２１５Ｂを生成している。

　本例示的実施形態に係る動画生成装置２は、マスキング部２０４を備えていることにより、例示的実施形態１に係る動画生成装置１の奏する効果に加えて、写り込んだ人物のプライバシーや肖像権に配慮した動画像２１６を自動で生成することができるという効果が得られる。

　人物の顔が写る領域の検出には顔検出モデル２１３が用いられる。顔検出モデル２１３は、例えば、人物の顔が写る領域を示す情報（例えば当該領域の代表座標および当該領域の幅および高さを示す情報）を正解データとして対応付けた部分画像２１５を教師データとした機械学習により構築されたものであってもよい。機械学習のアルゴリズムは特に限定されず、例えば畳み込みニューラルネットワーク等を適用してもよい。

　ここで、図６の部分画像２１５Ｂには、人物Ａ、Ｂの他に競走馬を誘導する騎手も写っているが、騎手の顔にはぼかし処理が施されていない。このように、マスキング部２０４は、部分画像２１５Ｂに写る所定の人物の顔にはマスキング処理を施さず、他の人物の顔にはマスキング処理を施すようにしてもよい。

　ここで、パドックを撮影した画像においては、図６の部分画像２１５Ａおよび２１５Ｂに示すように、観客である人物Ａ、Ｂの顔は正面から写る一方、騎手については横顔が写ることが多い。このため、正面から撮影された顔を正解データとした教師データを用いて機械学習することにより構築された顔検出モデル２１３を用いれば、人物Ａ、Ｂの顔は検出し、騎手の顔は検出しないようにすることができる。よって、このような顔検出モデル２１３を用いれば、自動的に観客の顔にはマスキング処理を施し、騎手の顔にはマスキング処理を施さないようにし、騎手や馬の視認性が低下することを防ぐことができる。

　また、例えば、観客と騎手をそれぞれ識別できるように機械学習することにより構築された識別モデルを用いてもよい。この場合、マスキング部２０４は、当該識別モデルを用いて識別した観客と騎手のうち観客の顔領域のみにマスキング処理を施せばよい。

　また、パドックを一定の位置から撮影した動画像においては、その撮影位置を予め調整しておけば、観客と騎手が異なった領域に写るようにすることができる。例えば、図６の部分画像２１５Ａおよび２１５Ｂでは、観客である人物Ａ、Ｂはそれらの画像の上端部の帯状の領域（客席の領域）に写り、騎手はそれより下方の領域に写る。よって、マスキング部２０４は、部分画像２１５の上端部の帯状の領域（客席の領域）で検出された顔領域はマスキング処理し、他の領域で検出された顔領域にはマスキング処理しないようにしてもよい。あるいは、マスキング部２０４は、部分画像２１５の上端部の帯状の領域（客席の領域）のみを対象として顔検出処理を行ってもよい。

　（処理の流れ）
　動画生成装置２が実行する処理（動画生成方法）の流れを図７に基づいて説明する。図７は、動画生成装置２が実行する動画生成方法の流れを示すフロー図である。以下の処理は、撮影装置３によるパドックを回る競走馬の動画像の撮影（図３参照）と並行して行われてもよい。

　Ｓ２１では、データ取得部２０１が、時系列の所定数の静止画像２１１を取得する。例えば、データ取得部２０１は、撮影装置３が撮影する、パドックを回る競走馬の動画像をエッジサーバ４から取得し、その動画像を構成するフレーム画像を静止画像２１１として取得してもよい。

　Ｓ２２では、検出部２０２が、Ｓ２１で取得された各静止画像２１１から馬体が写る領域を検出する。具体的には、検出部２０２は、Ｓ２１で取得された各静止画像２１１を検出モデル２１２に入力することにより得られる出力値に基づいて、各静止画像２１１における馬体が写る領域を検出する。

　Ｓ２３では、部分画像生成部２０３が、Ｓ２１で取得された各静止画像２１１における、Ｓ２２で検出された領域を抽出して部分画像２１５を生成する。

　Ｓ２４では、マスキング部２０４が、Ｓ２３で生成された各部分画像２１５において、人の顔が写る領域を検出し、検出した領域にマスキング処理を施す。具体的には、マスキング部２０４は、Ｓ２３で生成された部分画像２１５を顔検出モデル２１３に入力することにより得られる出力値に基づいて、部分画像２１５における人の顔が写る領域を検出し、その領域にマスキング処理を施す。なお、Ｓ２４の処理は、Ｓ２１で取得された静止画像２１１に対して行ってもよい。この場合、Ｓ２４の処理は、Ｓ２１の後、Ｓ２３より前に行われる。

　Ｓ２５では、画像分類部２０５が、Ｓ２３で生成され、Ｓ２４でマスキング処理が施された部分画像２１５を、その部分画像２１５に写る競走馬の個体ごとに分類する。具体的には、画像分類部２０５は、部分画像２１５を個体識別モデル２１４に入力することにより得られる出力値に基づいて部分画像２１５を分類する。

　Ｓ２６では、動画生成部２０６が、Ｓ２５で同じ分類に分類された部分画像２１５を時系列順で繋いで、当該部分画像２１５をフレーム画像とする動画像２１６を生成する。

　Ｓ２７では、補正部２０７が、Ｓ２６で生成された動画像２１６のフレーム間で検出対象である競走馬が写る位置を揃える補正を行う。これにより、各競走馬にフォーカスした動画像２１６が完成する。完成した動画像２１６は、例えば図３に示した端末装置５および６のような動画生成システム７のユーザが使用する端末装置から視聴できるように、オンラインで公開されてもよい。

　なお、パドックを回る競走馬の動画像の撮影と並行して以上の処理を行う場合、エッジサーバ４から継続的に新たな動画像（より正確には動画像を構成するフレーム画像）が受信される。このため、動画生成装置２は、新たな動画像が受信される毎に上記Ｓ２１～Ｓ２７の処理を行い、先に生成した動画像２１６を更新してもよい。

　〔変形例〕
　上述の実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置（プロセッサということもできる）により、動画生成装置２の機能を代替することができる。例えば、図５に示す各ブロックを複数の装置に分散して設けることにより、動画生成装置２と同様の機能を有するシステムを構築することができる。

　また、部分画像２１５をその部分画像２１５に写る検出対象に応じて分類した後、各分類の部分画像２１５をそれぞれ別の装置で動画像化してもよい。これにより、各検出対象にフォーカスした動画像を複数の装置による並列処理で生成することができるので、各検出対象にフォーカスした動画像を短時間で生成することが可能になる。

　〔ソフトウェアによる実現例〕
　動画生成装置１および２の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、動画生成装置１および２は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図８に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを動画生成装置１および２として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、動画生成装置１および２の各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段と、前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行う補正手段と、を備える動画生成装置。

　（付記２）
　前記検出対象が写る画像を教師データとした機械学習により構築された検出モデルを用いて、前記静止画像から前記検出対象が写る領域を検出する検出手段と、前記検出手段が検出する前記領域を前記静止画像から抽出して前記部分画像を生成する部分画像生成手段と、を備える付記１に記載の動画生成装置。

　（付記３）
　前記部分画像を当該部分画像に写る前記検出対象に応じて分類する画像分類手段を備え、前記動画生成手段は、前記画像分類手段が同じ分類に分類した前記部分画像を時系列順で繋いで動画像を生成する付記１又は２に記載の動画生成装置。

　（付記４）
　前記画像分類手段は、複数の前記検出対象を識別するために当該検出対象に付された識別情報を前記部分画像から検出することにより、前記部分画像を分類する、付記３に記載の動画生成装置。

　（付記５）
　前記部分画像における人物の顔が写る領域を検出し、検出した領域をマスキング処理して当該人物を識別できなくするマスキング手段を備える付記１から４の何れかに記載の動画生成装置。

　（付記６）
　少なくとも１つのプロセッサが、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成することと、前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行うことと、を含む、動画生成方法。

　（付記７）
　コンピュータを付記１～５の何れか一に記載の動画生成装置として動作させるためのプログラムであって、前記コンピュータを前記各手段として機能させる、ことを特徴とする動画生成プログラム。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。少なくとも１つのプロセッサを備え、前記プロセッサは、時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する処理と、前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行う処理とを実行する動画生成装置。

　なお、この動画生成装置は、更にメモリを備えていてもよく、このメモリには、前記動画像を生成する処理と、前記補正を行う処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　　１　　　動画生成装置
　１１　　　動画生成部
　１２　　　補正部
　　２　　　動画生成装置
２０２　　　検出部
２０３　　　部分画像生成部
２０４　　　マスキング部
２０５　　　画像分類部
２０６　　　動画生成部
２０７　　　補正部

Claims

　時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段と、
　前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行う補正手段と、を備える動画生成装置。
　前記検出対象が写る画像を教師データとした機械学習により構築された検出モデルを用いて、前記静止画像から前記検出対象が写る領域を検出する検出手段と、
　前記検出手段が検出する前記領域を前記静止画像から抽出して前記部分画像を生成する部分画像生成手段と、を備える請求項１に記載の動画生成装置。
　前記部分画像を当該部分画像に写る前記検出対象に応じて分類する画像分類手段を備え、
　前記動画生成手段は、前記画像分類手段が同じ分類に分類した前記部分画像を時系列順で繋いで動画像を生成する、請求項１または２に記載の動画生成装置。
　前記画像分類手段は、複数の前記検出対象を識別するために当該検出対象に付された識別情報を前記部分画像から検出することにより、前記部分画像を分類する、請求項３に記載の動画生成装置。
　前記部分画像における人物の顔が写る領域を検出し、検出した領域をマスキング処理するマスキング手段を備える、請求項１から４の何れか１項に記載の動画生成装置。
　少なくとも１つのプロセッサが、
　時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成することと、
　前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行うことと、を含む、動画生成方法。
　コンピュータを、
　時系列の複数の静止画像のそれぞれから所定の検出対象が写る領域を抽出することにより生成された部分画像を時系列順で繋いで、当該部分画像をフレーム画像とする動画像を生成する動画生成手段、および
　前記動画像のフレーム間で前記検出対象が写る位置を揃える補正を行う補正手段、として機能させる、動画生成プログラム。