WO2019198200A1

WO2019198200A1 - 学習用画像生成装置、学習用画像生成方法及びプログラム

Info

Publication number: WO2019198200A1
Application number: PCT/JP2018/015400
Authority: WO
Inventors: 諒川合
Original assignee: 日本電気株式会社
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2019-10-17
Also published as: JP6908183B2; US20210117731A1; JPWO2019198200A1; US11429814B2

Abstract

本発明は、背景画像を取得する背景画像取得部（１１１）と、背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得部（１１２）と、物体を含む物体連続画像を取得する物体連続画像取得部（１１３）と、物体連続画像に含まれる複数の物体静止画像各々に含まれる物体の背景画像上の合成位置を、背景カメラの姿勢情報に基づき決定する合成位置決定部（１２１）と、背景画像と、物体連続画像と、合成位置とに基づき、複数の物体静止画像各々に含まれる物体を背景画像に合成した合成連続画像を生成する画像合成部（１３１）と、を有する学習用画像生成装置（１００）を提供する。

Description

学習用画像生成装置、学習用画像生成方法及びプログラム

　本発明は、学習用画像生成装置、学習用画像生成方法及びプログラムに関する。

　近年、監視カメラ等の画像をコンピュータにより処理することで、不審、あるいは異常な行動を行う人物等の検出などを行う技術が多数開発されている。このような技術は、機械学習をもとに確立されていることが多い。

　最近特に広く用いられている機械学習技術として、非特許文献１で述べられているＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）に代表される、ディープラーニングと呼ばれる技術がある。この技術は様々な認識対象に対して高い認識率を得ることができることが示されている。

　ディープラーニングにおいては、非常に多くの学習用データが必要とされている。認識対象によっては、インターネット上にアップロードされている画像や動画を用いて大量の学習用画像を得るなどの手段がとられているが、監視の用途で用いる映像は公開される性質の映像でないため、インターネットなどを利用して画像を集めることは困難である。

　そこで、学習するための画像を人工的に生成する技術が提案されている。たとえば特許文献１では、背景画像に何人かの人物の画像を貼り付けることで、人が込み合っている状態の画像を再現し、混雑状況の認識に利用している。また、特許文献２では、２枚の画像を合成して新しい画像を生成する際、片方の色情報をもう片方の色情報に類似するように変換することで、色の不自然さを抑制している。

特許第６００８０４５号公報特開２０１７－４５４４１号公報

ＬｅＣｕｎｅｔａｌ．，　"Ｇｒａｄｉｅｎｔ－ｂａｓｅｄ　ｌｅａｒｎｉｎｇ　ａｐｐｌｉｅｄ　ｔｏ　ｄｏｃｕｍｅｎｔ　ｒｅｃｏｇｎｉｔｉｏｎ"，　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ，　１９９８

　特許文献１及び２は、静止画像の生成を前提としている。しかし、人物の行動を認識するときは、一定時間の動画像、即ち時間的に連続した一定枚数の静止画像（以下、「連続画像」と呼ぶ）の認識が必要になる場合が多い。連続画像からなる学習用画像を生成する場合、連続画像で示される物体の動きが不自然になることを軽減する必要がある。特許文献１、特許文献２及び非特許文献１は当該課題を解決する手段を開示していない。

　本発明は、連続画像からなり、連続画像で示される物体の動きが不自然になることを軽減した学習用画像を増やす手段を提供することを課題とする。

　本発明によれば、
　背景画像を取得する背景画像取得手段と、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段と、
　物体を含む物体連続画像を取得する物体連続画像取得手段と、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段と、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段と、
を有する学習用画像生成装置が提供される。

　また、本発明によれば、
　コンピュータが、
　背景画像を取得する背景画像取得工程と、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得工程と、
　物体を含む物体連続画像を取得する物体連続画像取得工程と、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定工程と、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成工程と、
を実行する学習用画像生成方法が提供される。

　また、本発明によれば、
　コンピュータを、
　背景画像を取得する背景画像取得手段、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段、
　物体を含む物体連続画像を取得する物体連続画像取得手段、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段、
として機能させるプログラムが提供される。

　本発明によれば、連続画像からなり、連続画像で示される物体の動きが不自然になることを軽減した学習用画像を増やすことができる。

　上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。

本実施形態の学習用画像生成装置の機能ブロック図の一例である。本実施形態の学習用画像生成装置のハードウエア構成の一例を示す図である。本実施形態の背景画像の一例を示す図である。本実施形態の物体連続画像の一例を示す図である。本実施形態の合成連続画像の一例を示す図である。本実施形態のシルエット画像の一例を示す図である。本実施形態の学習用画像生成装置の処理の流れの一例を示すフローチャートである。本実施形態の合成位置決定部の機能ブロック図の一例である。本実施形態の合成位置決定部の処理の流れの一例を示すフローチャートである。本実施形態の背景画像上移動距離及び背景画像上移動方向等を説明するための図である。本実施形態の学習用画像生成装置の機能ブロック図の一例である。本実施形態の合成位置決定部の機能ブロック図の一例である。本実施形態の矛盾判断手段の処理を説明するための図である。本実施形態の学習用画像生成装置の処理の流れの一例を示すフローチャートである。

＜第１の実施形態＞
　まず、本実施形態の学習用画像生成装置の概要を説明する。学習用画像生成装置は、連続画像に含まれる複数の静止画像各々に含まれる物体を背景画像に合成して、複数の連続画像を生成する。そして、学習用画像生成装置は、背景画像を生成した時の背景カメラの姿勢情報を利用して、背景画像上の物体の合成位置を決定する。上記姿勢情報を利用して合成位置を決定することで、合成により生成された連像画像で示される物体の動きの不自然な点を軽減できる。以下、詳細に説明する。

　図１に、学習用画像生成装置１００の機能ブロック図の一例を示す。機能ブロック図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。学習用画像生成装置１００は、物理的及び／又は論理的に分かれた複数の装置により構成されてもよいし、物理的及び論理的に１つの装置により構成されてもよい。

　図示するように、学習用画像生成装置１００は、背景画像取得部１１１と、背景カメラ姿勢情報取得部１１２と、物体連続画像取得部１１３と、合成位置決定部１２１と、画像合成部１３１とを有する。

　学習用画像生成装置１００が備える各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図２は、本実施形態の学習用画像生成装置１００のハードウエア構成を例示するブロック図である。図２に示すように、学習用画像生成装置１００は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。なお、装置は周辺回路４Ａを有さなくてもよい。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵやＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

　図１に戻り、背景画像取得部１１１は、背景画像を取得する。図３に、背景画像Ｂの一例を示す。

　ここで、本実施形態における「取得」について説明する。本実施形態における「取得」は、能動的な取得及び受動的な取得の少なくとも一方を含む。能動的な取得は、例えば、自装置（学習用画像生成装置１００）が他の装置や自装置の記憶装置に格納されているデータまたは情報を取りに行くことを含めることができる。能動的な取得は、例えば、自装置から他の装置にリクエストまたは問い合わせを送信し、それに応じて返信されたデータ又は情報を受信すること、他の装置や自装置の記憶装置にアクセスして読み出すこと等を含む。受動的な取得は、他の装置から自装置に向けて自発的に出力されるデータまたは情報を取得することを含めることができる。受動的な取得は、例えば、配信、送信、プッシュ通知等されるデータまたは情報を受信することや、自装置が備える入力装置又は自装置に接続された入力装置を介して入力されたデータ又は情報を受信すること等を含む。取得は、受信したデータまたは情報の中から選択して取得することや、配信されたデータまたは情報を選択して受信することを含んでもよい。なお、取得に関する当該前提は、以下のすべての実施形態において同様である。

　背景カメラ姿勢情報取得部１１２は、背景画像取得部１１１により取得された背景画像を生成した背景カメラの背景画像を生成した時の姿勢情報を取得する。姿勢情報は、少なくともカメラの焦点距離、カメラのレンズ中心、カメラの回転行列及び並進ベクトルの各要素を含む。

　例えば、カメラキャリブレーションにより、背景画像生成時のカメラの内部パラメータ（焦点距離、画像中心座標、歪み係数等）や外部パラメータ（回転行列、並進ベクトル等）が算出されてもよい。そして、背景カメラ姿勢情報取得部１１２は、当該内部パラメータや外部パラメータを姿勢情報として取得してもよい。

　物体連続画像取得部１１３は、物体を含む複数の連続画像である物体連続画像を取得する。物体連像画像に含まれる複数の静止画像各々には、物体が含まれている。以下、物体連続画像に含まれる静止画像を「物体静止画像」と呼ぶ。物体は動いているのが好ましいが、静止していてもよい。図４に、物体連続画像の一例を示す。図には、物体静止画像Ｏ_１乃至Ｏ_３が示されている。物体静止画像Ｏ_１乃至Ｏ_３各々には同一人物（物体）が含まれている。

　合成位置決定部１２１は、複数の物体静止画像各々に含まれる物体の背景画像上の合成位置を、背景カメラの姿勢情報に基づき決定する。

　背景カメラの姿勢情報を利用することで、画像上に設定された２次元の座標系で示された座標（以下、「画像上の座標」と呼ぶ場合がある）と、実空間上に設定された３次元の座標系（以下、「実空間上の座標系」と呼ぶ場合がある）で示された座標（以下、「実空間上の座標」と呼ぶ場合がある）とを相互に変換することができる。これを利用することで、物体の実空間上の移動距離が自然な内容となるように、画像上に設定された２次元の座標系での物体の合成位置を決定することができる。結果、合成位置決定部１２１により決定された合成位置によれば、合成連続画像で示される物体の移動距離が自然な内容となる。なお、カメラの姿勢情報を利用して画像上の座標と実空間上の座標とを相互に変換する技術は広く知られている技術であるので、ここでの説明は省略する。

　画像合成部１３１は、背景画像取得部１１１が取得した背景画像と、物体連続画像取得部１１３が取得した物体連続画像と、合成位置決定部１２１が決定した合成位置とに基づき、複数の物体静止画像各々に含まれる物体を背景画像に合成して複数の合成静止画像を生成することで、合成連続画像を生成する。例えば、画像合成部１３１は、図４の物体静止画像Ｏ_１に含まれる人物を図３の背景画像Ｂに合成して、図５に示す合成静止画像Ｏ_１を生成する。また、画像合成部１３１は、図４の物体静止画像Ｏ_２に含まれる人物を図３の背景画像Ｂに合成して、図５に示す合成静止画像Ｏ_２を生成する。さらに、画像合成部１３１は、図４の物体静止画像Ｏ_３に含まれる人物を図３の背景画像Ｂに合成して、図５に示す合成静止画像Ｏ_３を生成する。

　画像合成部１３１は、複数の物体静止画像各々から一部の領域の画像を切り取り、切り取った画像を背景画像上に合成する。切り取る領域は、物体が存在する領域である。物体静止画像から切り取る領域を決定する手段は様々であるが、以下一例を説明する。

　例えば、予め、複数の物体静止画像各々に含まれる物体の画像上の位置を示す情報が生成されていてもよい。そして、画像合成部１３１は、当該情報に基づき、複数の物体静止画像各々から切り取る一部の領域を決定してもよい。当該情報は、例えば、図６に示すようなシルエット画像であってもよい。図示するシルエット画像Ｓ_１乃至Ｓ_３は、各々、図４に示す複数の物体静止画像Ｏ_１乃至Ｏ_３に含まれる人物の画像上の位置を示す。シルエット画像は例えば、人物の衣服を含む身体が含まれている画素を白、含まれていない画素を黒で塗った画像である。

　その他、画像合成部１３１は、二値化処理、輪郭抽出処理、パターンマッチング等のあらゆる画像解析手段を用いて、複数の物体静止画像各々に含まれる物体を検出してもよい。そして、画像合成部１３１は、検出した物体が存在する領域を、切り取る領域として決定してもよい。

　次に、図７のフローチャートを用いて、本実施形態の学習用画像生成装置１００の処理の流れの一例を説明する。

　Ｓ１０では、背景画像取得部１１１が、背景画像を取得する。また、Ｓ１０では、背景カメラ姿勢情報取得部１１２が、背景画像取得部１１１により取得された背景画像を生成した背景カメラの背景画像を生成した時の姿勢情報を取得する。また、Ｓ１０では、物体連続画像取得部１１３が、物体を含む物体連続画像を取得する。

　なお、背景画像取得部１１１による背景画像の取得、背景カメラ姿勢情報取得部１１２による背景カメラの姿勢情報の取得、物体連続画像取得部１１３による物体連像画像の取得は、任意の順番で行われてもよいし、並行して行われてもよい。

　Ｓ１１では、合成位置決定部１２１が、物体連続画像に含まれる複数の物体静止画像各々に含まれる物体の背景画像上の合成位置を、背景カメラの姿勢情報に基づき決定する。

　Ｓ１２では、画像合成部１３１が、背景画像取得部１１１が取得した背景画像と、物体連続画像取得部１１３が取得した物体連続画像と、合成位置決定部１２１が決定した合成位置とに基づき、複数の物体静止画像各々に含まれる物体を背景画像に合成して複数の合成静止画像を生成することで、合成連続画像を生成する。

　以上説明した本実施形態の学習用画像生成装置１００によれば、機械学習に用いる学習用画像であって、連続画像からなる学習用画像を生成することができる。また、背景画像を生成した背景カメラの姿勢情報に基づき物体の合成位置を決定する本実施形態の学習用画像生成装置１００によれば、合成連続画像で示される物体の移動距離等を自然な内容にすることができる。

　以上、本実施形態の学習用画像生成装置１００によれば、連続画像からなり、連続画像で示される物体の動きが不自然になることを軽減した学習用画像を増やすことができる。

＜第２の実施形態＞
　本実施形態の学習用画像生成装置１００は、第１の実施形態と同様な処理を実行するが、処理内容が具体化される。以下、説明する。

　本実施形態の学習用画像生成装置１００のハードウエア構成の一例は、第１の実施形態と同様である。

　本実施形態の学習用画像生成装置１００の機能ブロック図の一例は、図１で示される。図示するように、学習用画像生成装置１００は、背景画像取得部１１１と、背景カメラ姿勢情報取得部１１２と、物体連続画像取得部１１３と、合成位置決定部１２１と、画像合成部１３１とを有する。

　背景画像取得部１１１は、背景画像を取得する。背景カメラ姿勢情報取得部１１２は、背景画像取得部１１１により取得された背景画像を生成した背景カメラの背景画像を生成した時の姿勢情報を取得する。

　ここで、背景画像取得部１１１及び背景カメラ姿勢情報取得部１１２が背景画像や姿勢情報を取得する手段の一例を説明する。なお、あくまで一例でありこれに限定されない。

　当該例では、学習用画像生成装置１００は、１つ又は複数の背景画像を記憶する背景画像データベース（以下、「背景画像ＤＢ」と呼ぶ）を有する。背景画像ＤＢに記憶される背景画像には任意の画像が含まれていてよく、一般に公開されている画像ＤＢを利用してもよい。また、背景画像ＤＢには、各背景画像を生成した背景カメラの各背景画像を生成した時の姿勢情報が保存される。

　そして、背景画像取得部１１１は、背景画像ＤＢから背景画像を取得する。背景画像取得部１１１は、背景画像ＤＢから無作為に背景画像を取得することができる。背景画像取得部１１１は、背景画像ＤＢに保存されている背景画像をそのまま取得してもよいし、背景画像ＤＢに保存されている背景画像の一部分を無作為に切り出して取得してもよい。

　また、背景カメラ姿勢情報取得部１１２は、背景画像ＤＢから姿勢情報を取得する。

　背景画像取得部１１１及び背景カメラ姿勢情報取得部１１２のその他の構成は、第１の実施形態と同様である。

　物体連続画像取得部１１３は、物体を含む物体連続画像を取得する。以下、物体は人物とするが、これに限定されない。

　ここで、物体連続画像取得部１１３が物体連続画像を取得する手段の一例を説明する。なお、あくまで一例でありこれに限定されない。

　当該例では、学習用画像生成装置１００は、１つ又は複数の物体連続画像を記憶する物体連続画像データベース（以下、「物体連続画像ＤＢ」と呼ぶ）を有する。

　物体連続画像ＤＢには、１つ又は複数の物体連続画像、各物体連続画像に含まれる複数の物体静止画像各々の中で人物がいる位置や領域を示す人物位置情報、各物体連続画像のフレームレートの情報が保存されている。人物位置情報は、例えば第１の実施形態で説明したシルエット画像であるが、これに限定されない。

　なお、物体連続画像ＤＢには、各物体連続画像に含まれる人物の身長を示す身長情報が付加されていてもよい。物体連続画像ＤＢには任意の人物を含む物体連続画像が含まれていてよいが、性別、年齢、服装等が互いに異なる多様な人物を含む物体連続画像が含まれていることが望ましい。

　物体連続画像取得部１１３は、物体連続画像ＤＢから物体連続画像を取得することができる。また、物体連続画像ＤＢに身長情報が登録されている場合、物体連続画像取得部１１３さらに物体連続画像ＤＢから身長情報を取得することができる。

　ところで、画像合成部１３１による画像の合成に利用される物体連続画像のフレームレートは、合成連続画像の所望のフレームレートと同じにすることが望まれる。これを実現するため、物体連続画像取得部１１３は、フレームレートが合成連続画像の所望のフレームレートと同じ又はその整数倍である物体連続画像を物体連続画像ＤＢから取得してもよい。すなわち、物体連続画像取得部１１３はフレームレートをキーとして物体連続画像ＤＢを検索し、キーに合致する物体連続画像を取得してもよい。

　なお、合成連続画像の所望のフレームレートの整数倍（２倍以上）である物体連続画像を取得した場合、物体連続画像取得部１１３は、取得した物体連続画像に含まれる複数の物体静止画像を部分的に抽出することで、合成連続画像の所望のフレームレートと同じフレームレートとなった物体連続画像を生成することができる。例えば、合成連続画像の所望のフレームレートが１０ｆｐｓであり、取得した物体連続画像のフレームレートが３０ｆｐｓであった場合は、物体連続画像の中から２個おきに物体静止画像を抽出することで、合成連続画像の所望のフレームレートと同じフレームレートとなった物体連続画像を生成することができる。

　合成連続画像の所望のフレームレートは、予め学習用画像生成装置１００に登録されていてもよいし、オペレータが学習用画像生成装置１００を操作して入力してもよい。

　物体連続画像取得部１１３のその他の構成は、第１の実施形態と同様である。

　合成位置決定部１２１は、背景カメラの姿勢情報に基づき、複数の物体静止画像各々に含まれる人物の背景画像上の合成位置を、合成静止画像毎に決定する。具体的な手順の例は以下の通りである。

　合成位置決定部１２１はまず、合成連続画像の中の最初の合成静止画像において、合成させる各人物の足元を背景画像上のどこに位置させるか決定する。このとき、足元が画像の外に出ても構わない。足元は、左足と右足の中心を結んだ直線の中点（もしどちらかの足が浮いていればその中点をまっすぐ地面に下ろした点）と定義するのが自然であるが、この定義に限らない。

　なお、「連続画像の中の最初の静止画像」は、連続画像を再生処理する際に最初に表示される静止画像である。「連続画像の中の最後の静止画像」は、連続画像を再生処理する際に最後に表示される静止画像である。「連続画像の中の第Ｎ番目の静止画像」は、連続画像を再生処理する際にＮ番目に表示される静止画像である。当該前提は、以下のすべての実施形態において同様である。

　合成位置決定部１２１は次に、合成連続画像の中の最初の合成静止画像から最後の合成静止画像までの間で各人物が移動する実移動距離を決定する。人の歩行に関しては、人の歩幅は身長のおおよそ０．４５倍であること、また人が１歩歩くのにかかる時間はおおよそ０．５秒であることが知られている。これらのことから、人は１秒で身長のおおよそ０．９倍の距離を歩くことができることがわかる。したがって、この事実と、合成連続画像の再生時間と、当該人物の身長（身長情報がなければ画像合成部１３１と同様人の平均身長と仮定する）の情報とから、実移動距離を推定できる。この距離を合成連続画像でも移動するとし、合成連続画像の最初の合成静止画像から最後の合成静止画像までの画像上（背景画像上）での移動距離を背景カメラ姿勢情報に基づいて推定する。移動方向は物体連続画像と同じとして、最後の合成静止画像について各人物の足元の位置を決定する。そして、その他の合成静止画像の合成位置については、最初の合成静止画像から最後の合成静止画像までの移動距離を等間隔に区切ることによって足元の位置を決定する。なお、以下でもカメラ姿勢情報から実際の長さと画像上の長さを相互に換算することがあるが、この方法については広く知られていることであるため説明は割愛する。なお、人が１秒で歩くことのできる距離は、前記の数値ではなく独自に統計を取って算出しても構わない。

　次に、合成位置決定部１２１による上記処理の具体例を説明する。図８に、合成位置決定部１２１の機能ブロック図の一例を示す。図示するように、合成位置決定部１２１は、移動方向決定手段１２１１と、移動距離決定手段１２１２と、位置決定手段１２１３とを有する。これらが協働することで、上記処理が実現される。以下、図９のフローチャートを用いて処理の流れを説明する。

　まず、位置決定手段１２１３が、合成連続画像の中の最初の合成静止画像における背景画像上の人物の合成位置（第１の合成位置）を任意に決定する（Ｓ２０）。その後、位置決定手段１２１３は、背景カメラの姿勢情報を用いて、第１の合成位置を示す画像上の座標を、実空間上の座標に変換する（Ｓ２１）。合成位置は、人物の足元、頭部の頂点、顔の中心、又は、身体の任意の部分の画像上の座標を示す。人物の身体の全てが画像内に収まるように合成位置を決定してもよいし、人物の身体の一部が画像から漏れるように合成位置を決定してもよい。

　次に、移動方向決定手段１２１１は、合成連続画像における背景画像上での人物の移動方向である背景画像上移動方向を決定する（Ｓ２２）。例えば、移動方向決定手段１２１１は、物体連続画像における画像上での人物の移動方向を、背景画像上移動方向として決定する。物体連続画像における画像上での人物の移動方向は、例えば最初の物体静止画像における人物の画像上の位置（画像上の座標）から、最後の物体静止画像における人物の画像上の位置（画像上の座標）に向かう方向とすることができる。背景画像上移動方向を決定した後、移動方向決定手段１２１１は、背景カメラの姿勢情報を用いて、背景画像上移動方向を実空間上の移動方向に変換する（Ｓ２３）。

　次に、移動距離決定手段１２１２は、合成連続画像の再生時間の間に人物が実空間で移動する距離（実移動距離）を決定する（Ｓ２４）。実移動距離は、物体連続画像取得部１１３により取得された身長情報で示される人物の身長と、合成連続画像の再生時間とに基づき決定されてもよい。例えば、移動距離決定手段１２１２は、上述の通り、「身長情報で示される人物の身長の０．９倍」と「合成連続画像の再生時間（秒）」との積を、実移動距離として算出することができる。なお、人物の身長に掛ける係数（０．９）は、これに準じた他の値とすることもできる。例えば、独自に統計を取って算出してもよい。また、物体連続画像取得部１１３が身長情報を取得しない場合、物体連続画像取得部１１３は任意のグループの平均身長等の他の値を利用して、実移動距離を算出してもよい。

　なお、位置決定手段１２１３によるＳ２０及びＳ２１の処理、移動方向決定手段１２１１によるＳ２２及びＳ２３の処理、及び、移動距離決定手段１２１２によるＳ２４の処理の処理順は図９のフローチャートで示すものに限定されず、他の順であってもよいし、これらが並行して行われてもよい。

　その後、位置決定手段１２１３は、Ｓ２１で算出された第１の合成位置を示す実空間上の座標、Ｓ２３で算出された実空間上の移動方向、及び、Ｓ２４で算出された実移動距離に基づき、最後の合成静止画像における合成位置を決定する。

　具体的には、まず、位置決定手段１２１３は、実空間上の座標系で、「第１の合成位置を示す座標」から、「実空間上の移動方向」に向かって「実移動距離」だけ移動した後の終点位置を算出し、これを、最後の合成静止画像における合成位置とする（Ｓ２５）。その後、位置決定手段１２１３は、背景カメラの姿勢情報を用いて、最後の合成静止画像における合成位置を示す実空間上の座標を、画像上の座標に変換する（Ｓ２６）。

　次いで、移動距離決定手段１２１２は、Ｓ２０で決定された画像上の座標で示される第１の合成位置と、Ｓ２６で算出された画像上の座標で示される最後の合成静止画像における合成位置との直線距離を、背景画像上移動距離として算出する（Ｓ２７）。

　次いで、位置決定手段１２１３は、他の合成静止画像の合成位置を決定する（Ｓ２８）。具体的には、位置決定手段１２１３は、最初の合成静止画像における画像上の合成位置（第１の合成位置）と最後の合成静止画像における画像上の合成位置との直線距離（背景画像上移動距離）を、残りの画像静止画像の数に基づき等間隔で分割して分割距離を算出する。そして、位置決定手段１２１３は、第Ｎ番目（Ｎ＞１）の合成静止画像における合成位置として、第（Ｎ－１）番目の合成静止画像における合成位置から背景画像上移動方向に分割距離だけ移動した後の位置を決定する。なお、背景画像上移動距離の分割方法は均等分割に限定されず、他の分割方法を採用してもよい。

　図１０に、最初の合成静止画像の合成位置Ｎｓ（第１の合成位置）、最後の合成静止画像の合成位置Ｎｅ、背景画像上移動方向及び背景画像上移動距離の概念を示す。

　なお、ここでは、位置決定手段１２１３は、最初の合成静止画像における合成位置を決定した後、最後の合成静止画像における合成位置を決定し、次いで、その他の合成静止画像における合成位置を決定する例を説明した。変形例として、最後の合成静止画像における合成位置を決定した後、同様にして最初の合成静止画像における合成位置を決定し、次いで、同様にしてその他の合成静止画像における合成位置を決定してもよい。この場合、第１の合成位置は、最後の合成静止画像における合成位置となる。そして、位置決定手段１２１３は、Ｓ２５の処理において、実空間上の座標系で、「第１の合成位置示す座標」から、「実空間上の移動方向の逆方向（１８０°反対方向）」に向かって「実移動距離」だけ移動した後の終点位置を算出し、これを、最初の合成静止画像における合成位置とする。

　このように、位置決定手段１２１３は、合成連続画像に含まれる複数の合成静止画像の中の１つの合成位置を決定した後、背景画像上移動方向と背景画像上移動距離とに基づき、他の合成静止画像の合成位置を決定することができる。

　合成位置決定部１２１のその他の構成は、第１の実施形態と同様である。

　画像合成部１３１は、背景画像取得部１１１が取得した背景画像と、物体連続画像取得部１１３が取得した物体連続画像と、合成位置決定部１２１が決定した合成位置とに基づき、複数の物体静止画像各々に含まれる人物を背景画像に合成して複数の合成静止画像を生成することで、合成連続画像を生成する。

　なお、画像合成部１３１は、物体静止画像から切り取った人物を示す画像の大きさを調整（拡大／縮小）した後、背景画像上に合成してもよい。画像合成部１３１は、合成位置と、人物の身長と、背景カメラの姿勢情報とに基づき、背景画像上の人物が自然な大きさとなるように、切り取った画像の大きさを調整することができる。例えば、背景画像上の人物の頭部の頂点の座標及び足元の座標を実空間の座標に変換して求めた当該人物の身長が、所定の身長となるように、切り取った画像の大きさを調整することができる。所定の身長は、上述した身長情報で示される各人物の身長であってもよいし、任意のグループの平均身長等であってもよい。

　画像合成部１３１のその他の構成は、第１の実施形態と同様である。

　本実施形態の学習用画像生成装置１００の処理の流れの一例は、第１の実施形態と同様である、

　以上説明した本実施形態の学習用画像生成装置１００によれば、第１の実施形態と同様な作用効果が実現される。

＜第３の実施形態＞
　本実施形態の学習用画像生成装置１００は、背景画像上移動距離を算出する手段において、第２の実施形態と異なる。その他の構成は、第２の実施形態と同様である。以下、説明する。

　本実施形態の学習用画像生成装置１００のハードウエア構成の一例は、第１及び第２の実施形態と同様である。

　本実施形態の学習用画像生成装置１００の機能ブロック図の一例は、図１１で示される。図示するように、学習用画像生成装置１００は、背景画像取得部１１１と、背景カメラ姿勢情報取得部１１２と、物体連続画像取得部１１３と、物体カメラ姿勢情報取得部１１４と、合成位置決定部１２１と、画像合成部１３１とを有する。

　合成位置決定部１２１の機能ブロック図の一例は、第２の実施形態同様、図８で示される。図示するように、合成位置決定部１２１は、移動方向決定手段１２１１と、移動距離決定手段１２１２と、位置決定手段１２１３とを有する。

　背景画像取得部１１１、背景カメラ姿勢情報取得部１１２、物体連続画像取得部１１３、画像合成部１３１、移動方向決定手段１２１１及び位置決定手段１２１３の構成は、第１及び第２の実施形態と同様である。

　物体カメラ姿勢情報取得部１１４は、物体連続画像を生成した物体カメラの当該画像生成時の姿勢情報を取得する。例えば、カメラキャリブレーションにより、物体連続画像生成時の物体カメラの内部パラメータ（焦点距離、画像中心座標、歪み係数等）や外部パラメータ（回転行列、並進ベクトル等）が算出される。そして、物体カメラ姿勢情報取得部１１４は、当該内部パラメータや外部パラメータを姿勢情報として取得する。なお、第２の実施形態で説明した物体連続画像ＤＢに、各物体連続画像を生成した物体カメラの当該画像生成時の姿勢情報が登録されてもよい。そして、物体カメラ姿勢情報取得部１１４は、物体連続画像ＤＢから物体カメラの姿勢情報を取得してもよい。

　移動距離決定手段１２１２は、第２の実施形態と異なる手段で、合成連続画像の再生時間の間に人物が実空間で移動する距離（実移動距離）を決定する。具体的には、移動距離決定手段１２１２は、物体連続画像と物体カメラの姿勢情報とに基づき、物体連続画像で示される物体の実移動距離を算出する。例えば、移動距離決定手段１２１２は、物体カメラの姿勢情報に基づき、最初の物体静止画像における画像上の人物の座標を、実空間上の座標に変換する。また、移動距離決定手段１２１２は、物体カメラの姿勢情報に基づき、最後の物体静止画像における画像上の人物の座標を、実空間上の座標に変換する。そして、移動距離決定手段１２１２は、上記算出した実空間上の２つの座標間の直線距離を、実移動距離として算出する。なお、最初の物体静止画像から最後の物体静止画像までの再生時間は、合成連続画像の再生時間と同じである。

　本実施形態の学習用画像生成装置１００の処理の流れの一例は、第１及び第２の実施形態と同様である、

　以上説明した本実施形態の学習用画像生成装置１００によれば、第１及び第２の実施形態と同様な作用効果が実現される。

　また、本実施形態の学習用画像生成装置１００によれば、物体連続画像で示される人物の実際の移動距離を算出し、合成連続画像においてその移動距離を移動するように人物の合成位置を決定することができる。

　身長に基づき実移動距離を推定する第１の実施形態においても、移動距離の不自然さを解消することができる。しかし、同じ身長であっても歩く速さは異なり、実移動距離は異なり得る。そして、歩く速さが異なると、手や足が動くスピードが異なる。同じ身長であるが、手や足が動くスピードが互いに異なる人物を同じ距離だけ移動するように合成位置を決定する場合、多少不自然になり得る。

　物体連続画像で示される人物の実際の移動距離を算出し、合成連続画像においてその移動距離を移動するように人物の合成位置を決定できる本実施形態の学習用画像生成装置１００によれば、上述のような不自然さを軽減することができる。また、高齢者、子ども、体調不良者など、平均的な歩行と異なった歩行となる人物からも違和感の少ない合成連続画像を生成することが可能になる。このため、より多様な合成連続画像を生成することが可能になる。

＜第４の実施形態＞
　本実施形態の学習用画像生成装置１００は、複数の人物を１つの背景画像に合成できる点で、第１乃至第３の実施形態と異なる。その他の構成は、第１乃至第３の実施形態と同様である。以下、説明する。

　本実施形態の学習用画像生成装置１００のハードウエア構成の一例は、第１乃至第３の実施形態と同様である。

　本実施形態の学習用画像生成装置１００の機能ブロック図の一例は、図１又は図１１で示される。図１に示すように、学習用画像生成装置１００は、背景画像取得部１１１と、背景カメラ姿勢情報取得部１１２と、物体連続画像取得部１１３と、合成位置決定部１２１と、画像合成部１３１とを有する。図１１に示すように、学習用画像生成装置１００は、物体カメラ姿勢情報取得部１１４をさらに有してもよい。

　合成位置決定部１２１の機能ブロック図の一例は、図８で示される。図示するように、合成位置決定部１２１は、移動方向決定手段１２１１と、移動距離決定手段１２１２と、位置決定手段１２１３とを有する。

　背景画像取得部１１１、背景カメラ姿勢情報取得部１１２、物体連続画像取得部１１３、物体カメラ姿勢情報取得部１１４の構成は、第１乃至第３の実施形態と同様である。

　合成位置決定部１２１は、第１乃至第３の実施形態と同様にして、複数の人物各々の同じ背景画像上への合成位置を決定する。合成位置決定部１２１のその他の構成は、第１乃至第３の実施形態と同様である。移動方向決定手段１２１１、移動距離決定手段１２１２及び位置決定手段１２１３の構成は、第２及び第３の実施形態と同様である。

　画像合成部１３１は、１つの背景画像に複数の人物を合成する。背景画像に人物を合成する手段は、第１乃至第３の実施形態と同様である。画像合成部１３１は、カメラからの距離が遠い人物から順に合成することができる。なお、後から合成する人物の一部又は全部が先に合成した人物と画像上で重なる場合、後から合成する人物の画像を上側に位置させる。この場合、先に合成した人物の上記重なる部分は画像上に現れない。

　カメラからの距離の順番は任意の手段で決定できるが、例えば、人物毎に決定された合成位置等に基づき背景画像上に合成した人物各々の足元の座標を算出し、足元の座標が画像の下端により近い人物を、カメラからの距離がより小さい人物として決定してもよい。

　本実施形態の学習用画像生成装置１００の処理の流れの一例は、第１乃至第３の実施形態と同様である。

　以上説明した本実施形態の学習用画像生成装置１００によれば、第１乃至第３の実施形態と同様な作用効果が実現される。また、複数の人物を１つの背景画像上に合成できる本実施形態の学習用画像生成装置１００によれば、多様な合成連続画像を生成することが可能になる。

＜第５の実施形態＞
　本実施形態の学習用画像生成装置１００は、複数の人物を１つの背景画像に合成した場合に、複数の人物の合成位置間で矛盾がないか判断する手段を有する点で、第１乃至第４の実施形態と異なる。その他の構成は、第１乃至第４の実施形態と同様である。以下、説明する。

　本実施形態の学習用画像生成装置１００のハードウエア構成の一例は、第１乃至第４の実施形態と同様である。

　合成位置決定部１２１の機能ブロック図の一例は、図１２で示される。図示するように、合成位置決定部１２１は、移動方向決定手段１２１１と、移動距離決定手段１２１２と、位置決定手段１２１３と、矛盾判断手段１２１４とを有する。

　背景画像取得部１１１、背景カメラ姿勢情報取得部１１２、物体連続画像取得部１１３及び物体カメラ姿勢情報取得部１１４の構成は、第１乃至第４の実施形態と同様である。

　矛盾判断手段１２１４は、位置決定手段１２１３により決定された複数の物体の合成位置間で矛盾がないか判断する。

　ここで、図１３を用いて、矛盾判断手段１２１４が判断する矛盾を説明する。図１３は、３つの合成静止画像Ｐ_１乃至Ｐ_３を示している。なお、背景画像や、人物の詳細な外観はここでの説明に不要なので、当該図において省略している。

　合成静止画像Ｐ_１及び合成静止画像Ｐ_２においては、人物Ｈ_１が画面手前に位置し、人物Ｈ_２が画面奥に位置する。しかし、合成静止画像Ｐ_２の直後の合成静止画像Ｐ_３においては、人物Ｈ_１が画面奥に位置し、人物Ｈ_２が画面手前に位置する。このような人物の並び順の変化が突然現れると、不自然になる。なお、並び順の変化の不自然さは、ここで例示した図中前後方向の並び順のみならず、図中左右方向の並び順においても現れる。

　矛盾判断手段１２１４は、位置決定手段１２１３が決定した合成位置に基づき、上述したような複数の人物の並び順において不自然さがないか判断する。

　例えば、矛盾判断手段１２１４は、第Ｎの合成静止画像における第１の人物の合成位置と第２の人物の合成位置との画像上の左右方向の距離が閾値以下である場合に、第Ｎの合成静止画像と第（Ｎ＋１）の合成静止画像において第１の人物の合成位置と第２の人物の合成位置との画像上の前後方向の並び順が逆転している場合、矛盾していると判断してもよい。

　「第１の人物の合成位置と第２の人物の合成位置との画像上の左右方向の距離が閾値以下」の条件を満たす第１の人物と第２の人物とは、互いの画像上の前後の並び順が入れ替わるためには一方が他方をかわす動作（図中、左右方向にずれる動作）が必要になるほど画像上の左右方向の距離が近接している状態にある。互いの画像上の前後の並び順の入れ替わりにこのようなかわす動作を要するはずの２人の画像上の前後の並び順が、連続する２つの合成静止画像間で入れ替わっていると不自然である。矛盾判断手段１２１４は、このような矛盾を検出できる。

　なお、画像上の前後方向の並び順は、例えば、各人物の足元の座標に基づき決定することができる。例えば、足元の座標が画像の下端により近い人物を前にするルールに基づき決定される。

　その他、矛盾判断手段１２１４は、第Ｎの合成静止画像における第１の人物の合成位置と第２の人物の合成位置との図中上下方向の距離が閾値以下である場合に、第Ｎの合成静止画像と第（Ｎ＋１）の合成静止画像において第１の人物の合成位置と第２の人物の合成位置との図中左右方向の並び順が逆転している場合、矛盾していると判断してもよい。

　「第１の人物の合成位置と第２の人物の合成位置との画像上の上下方向の距離が閾値以下」の条件を満たす第１の人物と第２の人物とは、互いの画像上の左右の並び順が入れ替わるためには一方が他方をかわす動作（図中、上下方向にずれる動作）が必要になるほど画像上の上下方向の距離が近接している状態にある。互いの画像上の左右の並び順の入れ替わりにこのようなかわす動作を要するはずの２人の画像上の左右の並び順が、連続する２つの合成静止画像間で入れ替わっていると不自然である。矛盾判断手段１２１４は、このような矛盾を検出できる。

　合成位置決定部１２１は、矛盾判断手段１２１４が矛盾していると判断すると、合成位置を決定し直す。合成位置決定部１２１のその他の構成は、第１乃至第４の実施形態と同様である。移動方向決定手段１２１１、移動距離決定手段１２１２及び位置決定手段１２１３の構成は、第２乃至第４の実施形態と同様である。

　画像合成部１３１は、矛盾判断手段１２１４が矛盾しないと判断した合成位置に基づき、合成連続画像を生成する。画像合成部１３１のその他の構成は、第１乃至第４の実施形態と同様である。

　次に、図１４のフローチャートを用いて、本実施形態の学習用画像生成装置１００の処理の流れの一例を説明する。

　Ｓ３０では、背景画像取得部１１１が、背景画像を取得する。また、Ｓ３０では、背景カメラ姿勢情報取得部１１２が、背景画像取得部１１１により取得された背景画像を生成した背景カメラの背景画像を生成した時の姿勢情報を取得する。また、Ｓ３０では、物体連続画像取得部１１３が、物体を含む物体連続画像を取得する。

　Ｓ３１では、合成位置決定部１２１が、合成静止画像毎に、複数の物体静止画像各々に含まれる人物各々の背景画像上の合成位置を決定する。

　Ｓ３２では、矛盾判断手段１２１４が複数の人物の合成位置間で矛盾がないか判断する。判断の詳細は上述の通りであるので、ここでの説明は省略する。

　矛盾判断手段１２１４が矛盾すると判断した場合（Ｓ３２のＮｏ）、Ｓ３１に戻って合成位置決定部１２１が合成位置を決定し直す。一方、矛盾判断手段１２１４が矛盾なしと判断した場合（Ｓ３２のＹｅｓ）、画像合成部１３１が、背景画像取得部１１１が取得した背景画像と、物体連続画像取得部１１３が取得した物体連続画像と、合成位置決定部１２１が決定した合成位置とに基づき、複数の人物を背景画像に合成して複数の合成静止画像を生成することで、合成連続画像を生成する（Ｓ３３）。

　以上説明した本実施形態の学習用画像生成装置１００によれば、第１乃至第４の実施形態と同様な作用効果が実現される。また、複数の人物を合成した際に生じ得る並び順の不自然さを軽減することができる。結果、不自然さを軽減し、多様な合成連続画像を生成することが可能になる。

　以下、参考形態の例を付記する。
１．　背景画像を取得する背景画像取得手段と、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段と、
　物体を含む物体連続画像を取得する物体連続画像取得手段と、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段と、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段と、
を有する学習用画像生成装置。
２．　１に記載の学習用画像生成装置において、
　前記合成位置決定手段は、
　　前記合成連続画像における前記背景画像上での前記物体の移動方向である背景画像上移動方向を決定する移動方向決定手段と、
　　前記背景カメラの前記姿勢情報に基づき、前記合成連続画像における前記背景画像上での前記物体の移動距離である背景画像上移動距離を決定する移動距離決定手段と、
　　前記背景画像上移動方向と前記背景画像上移動距離とに基づき、前記合成位置を決定する位置決定手段と、
を有する学習用画像生成装置。
３．　２に記載の学習用画像生成装置において、
　前記物体は人物であり、
　前記移動距離決定手段は、
　　前記人物の身長を示す身長情報と前記合成連続画像の再生時間とに基づき、前記人物が前記再生時間内に移動する実移動距離を推定し、
　　前記背景カメラの前記姿勢情報に基づき、前記実移動距離を前記背景画像上移動距離に変換する学習用画像生成装置。
４．　２に記載の学習用画像生成装置において、
　前記物体連続画像を生成した物体カメラの姿勢情報を取得する物体カメラ姿勢情報取得手段をさらに有し、
　前記移動距離決定手段は、
　　前記物体連続画像と、前記物体カメラの前記姿勢情報とに基づき、前記物体の実移動距離を算出し、
　　前記背景カメラの前記姿勢情報に基づき、前記実移動距離を前記背景画像上移動距離に変換する学習用画像生成装置。
５．　１から４のいずれかに記載の学習用画像生成装置において、
　前記位置決定手段は、
　　前記合成連続画像に含まれる複数の合成静止画像の中の１つの前記合成位置を決定した後、前記背景画像上移動方向と前記背景画像上移動距離とに基づき、前記合成連続画像に含まれる他の前記合成静止画像の前記合成位置を決定する学習用画像生成装置。
６．　１から５のいずれかに記載の学習用画像生成装置において、
　前記合成位置決定手段は、複数の前記物体各々の前記合成位置を決定し、
　前記画像合成手段は、１つの前記背景画像に複数の前記物体を合成する学習用画像生成装置。
７．　６に記載の学習用画像生成装置において、
　前記合成位置決定手段は、複数の前記物体の前記合成位置間で矛盾がないか判断する矛盾判断手段を有する学習用画像生成装置。
８．　コンピュータが、
　背景画像を取得する背景画像取得工程と、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得工程と、
　物体を含む物体連続画像を取得する物体連続画像取得工程と、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定工程と、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成工程と、
を実行する学習用画像生成方法。
９．　コンピュータを、
　背景画像を取得する背景画像取得手段、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段、
　物体を含む物体連続画像を取得する物体連続画像取得手段、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段、
として機能させるプログラム。

Claims

　背景画像を取得する背景画像取得手段と、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段と、
　物体を含む物体連続画像を取得する物体連続画像取得手段と、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段と、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段と、
を有する学習用画像生成装置。
　請求項１に記載の学習用画像生成装置において、
　前記合成位置決定手段は、
　　前記合成連続画像における前記背景画像上での前記物体の移動方向である背景画像上移動方向を決定する移動方向決定手段と、
　　前記背景カメラの前記姿勢情報に基づき、前記合成連続画像における前記背景画像上での前記物体の移動距離である背景画像上移動距離を決定する移動距離決定手段と、
　　前記背景画像上移動方向と前記背景画像上移動距離とに基づき、前記合成位置を決定する位置決定手段と、
を有する学習用画像生成装置。
　請求項２に記載の学習用画像生成装置において、
　前記物体は人物であり、
　前記移動距離決定手段は、
　　前記人物の身長を示す身長情報と前記合成連続画像の再生時間とに基づき、前記人物が前記再生時間内に移動する実移動距離を推定し、
　　前記背景カメラの前記姿勢情報に基づき、前記実移動距離を前記背景画像上移動距離に変換する学習用画像生成装置。
　請求項２に記載の学習用画像生成装置において、
　前記物体連続画像を生成した物体カメラの姿勢情報を取得する物体カメラ姿勢情報取得手段をさらに有し、
　前記移動距離決定手段は、
　　前記物体連続画像と、前記物体カメラの前記姿勢情報とに基づき、前記物体の実移動距離を算出し、
　　前記背景カメラの前記姿勢情報に基づき、前記実移動距離を前記背景画像上移動距離に変換する学習用画像生成装置。
　請求項１から４のいずれか１項に記載の学習用画像生成装置において、
　前記位置決定手段は、
　　前記合成連続画像に含まれる複数の合成静止画像の中の１つの前記合成位置を決定した後、前記背景画像上移動方向と前記背景画像上移動距離とに基づき、前記合成連続画像に含まれる他の前記合成静止画像の前記合成位置を決定する学習用画像生成装置。
　請求項１から５のいずれか１項に記載の学習用画像生成装置において、
　前記合成位置決定手段は、複数の前記物体各々の前記合成位置を決定し、
　前記画像合成手段は、１つの前記背景画像に複数の前記物体を合成する学習用画像生成装置。
　請求項６に記載の学習用画像生成装置において、
　前記合成位置決定手段は、複数の前記物体の前記合成位置間で矛盾がないか判断する矛盾判断手段を有する学習用画像生成装置。
　コンピュータが、
　背景画像を取得する背景画像取得工程と、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得工程と、
　物体を含む物体連続画像を取得する物体連続画像取得工程と、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定工程と、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成工程と、
を実行する学習用画像生成方法。
　コンピュータを、
　背景画像を取得する背景画像取得手段、
　前記背景画像を生成した背景カメラの姿勢情報を取得する背景カメラ姿勢情報取得手段、
　物体を含む物体連続画像を取得する物体連続画像取得手段、
　前記物体連続画像に含まれる複数の物体静止画像各々に含まれる前記物体の前記背景画像上の合成位置を、前記背景カメラの姿勢情報に基づき決定する合成位置決定手段、
　前記背景画像と、前記物体連続画像と、前記合成位置決定手段が決定した前記合成位置とに基づき、複数の前記物体静止画像各々に含まれる前記物体を前記背景画像に合成した合成連続画像を生成する画像合成手段、
として機能させるプログラム。