WO2020178957A1

WO2020178957A1 - 画像処理装置、画像処理方法及びプログラム記録媒体

Info

Publication number: WO2020178957A1
Application number: PCT/JP2019/008441
Authority: WO
Inventors: 登吉田
Original assignee: 日本電気株式会社
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2020-09-10
Also published as: US20220051054A1; US11803615B2; JPWO2020178957A1; JP7294402B2

Abstract

人の行動に関する学習データを低コストで生成するため、本発明の画像処理装置は、画像中の人物の部位に関する二次元特徴を抽出する抽出手段と、当該二次元特徴を人体構造に関する三次元特徴に変換する変換手段と、当該三次元特徴及び該人物の物理的な状態を示すラベルを用いて、学習データを生成する学習データ生成手段と、を備える。

Description

画像処理装置、画像処理方法及びプログラム記録媒体

　本発明は、人の行動を学習して検知するシステムに必要な学習データを生成する装置、方法及びプログラム記録媒体に関する。

　監視カメラ等の映像から、人の行動を検知するニーズが高まっている。たとえば、駅のホームで泥酔する等によりふらふらと歩いている人を検知して、転落を予測して保護することで人身事故を防ぐことができる。また、小売店等で顧客がどの商品を手に取ったか等の情報を分析することで、商品開発に活用することができる。

　特許文献１には、被写体の姿勢に関するモーションキャプチャーデータのうち、撮像画像の被写体の姿勢との類似度が最も高いモーションキャプチャーデータの姿勢が、該撮像画像における該被写体の姿勢であると推定することが開示されている。

　上述のような検知技術の精度は、Ｄｅｅｐ　ｌｅａｒｎｉｎｇ等の機械学習により、向上している。

　しかしながら、Ｄｅｅｐ　ｌｅａｒｎｉｎｇ等の機械学習によって検知技術の精度を向上させるためには、人の姿勢や行動等の人の物理的な状態に関する画像や動画と、人の行動の種類を示す正解ラベルと、を含む学習データが大量に必要になる。

　特許文献２－４には、学習データの生成に関する技術がそれぞれ開示されている。

　特許文献２には、学習データを生成する際に、入力データの内容がラベルと合致することを示す正評価と、入力データの内容がラベルと合致しないことを示す負評価に加えて、学習対象から除外することを示す無視評価を用いることにより、不完全な学習データの生成を防止することが開示されている。

　特許文献３には、モーションキャプチャーシステムを利用して得られた人体の骨格形状情報を用いて生成されるＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）画像を活用して、学習データを生成することが開示されている。

　特許文献４には、学習データセット内の行動ごとのデータ量に応じて、学習データを人工生成するか否かの要否を判定し、様々な行動に対して万遍なく学習データセットを作成することが開示されている。
　

特開２０１３－１２０５５６号公報国際公開第２０１７／０７３３７３号特開２０１０－２１１７３２号公報特開２０１８－６７２９４号公報

　従来技術では、学習データを作成する際に、モーションキャプチャーシステム等の特別な設備や装置を利用するため、学習データを作成する際のコストが高くなる、という課題がある。

　本発明は、上記課題に鑑みてなされたものであり、その目的は、学習のデータを低コストで生成することである。
　

　本発明の第１の視点によれば、画像中の人物の部位に関する二次元特徴を抽出する抽出手段と、該二次元特徴を人体構造に関する三次元特徴に変換する変換手段と、該三次元特徴と、該人物の物理的な状態を示すラベルと、を用いて、学習データを生成する学習データ生成手段と、を備える画像処理装置が提供される。

　本発明の第２の視点によれば、画像中の人物の部位に関する二次元特徴を抽出し、該二次元特徴を、人体構造に関する三次元特徴に変換し、該三次元特徴と、該人物の物理的な状態を示すラベルと、を用いて、学習データを生成する画像処理方法が提供される。

　本発明の第３の視点によれば、コンピュータに対して、画像中の人物の部位に関する二次元特徴を抽出する処理と、該二次元特徴を人体構造に関する三次元特徴に変換する処理と、該三次元特徴と、該人物の物理的な状態を示すラベルと、を用いて、学習データを生成する処理と、を実行させるためのプログラムを記録する記録媒体が提供される。
　

　本発明によれば、モーションキャプチャー等の特別な設備や装置を利用することなく、通常の可視光カメラで撮影した画像や動画から得られた人物特徴を用いて、人の行動を再現した学習データを作成する。

　これにより、低コストで、人の行動に関する学習データを作成することができる。
　

第１の実施形態における画像処理装置の構成を示す図である。第１の実施形態における格納部が保持する背景画像の一例を示す図である。第１の実施形態における画像処理装置が抽出する二次元特徴の一例を示す図である。第１の実施形態における画像処理装置が画像から二次元特徴を抽出する一例を示す図である。第１の実施形態における画像処理装置が変換して得られる三次元特徴の一例を示す図である。第１の実施形態における画像処理装置が二次元特徴を三次元特徴に変換する一例を示す図である。第１の実施形態における人物画像生成部が人物画像を生成する際に用いる人物モデルの一例を示す図である。第１の実施形態の変形例における人物画像生成部が生成する人物画像の一例を示す図である。第１の実施形態における人物画像生成部が人物画像を生成する一例を示す図である。第１の実施形態における画像処理装置が生成する学習データの一例を示す図である。第１の実施形態における合成部が学習データを生成する一例を示す図である。第１の実施形態における画像処理装置の背景画像を取得し格納する処理動作を示すフローチャートである。第１の実施形態における画像処理装置の処理動作を示すフローチャートである。第２の実施形態における画像処理装置の構成を示す図である。第２の実施形態における画像処理装置の処理動作を示すフローチャートである。第３の実施形態における画像処理装置の構成を示す図である。第３の実施形態における画像処理装置の処理動作を示すフローチャートである。本発明の各実施形態の各部を構成するハードウェアの例を示すブロック図である。

　以下、実施の形態について、図面を参照しながら具体的に説明する。
　

　＜第１の実施形態＞
　図１は、本実施形態における画像処理装置１の構成を示す図である。

　図１に示す画像処理装置１は、入力受付部１１と、取得部１２と、格納部１３と、選択部１４と、抽出部１５と、変換部１６と、学習データ生成部１７と、出力部１８と、を備える。

　入力受付部１１は、１つ以上の図示しないカメラ等の撮影装置が撮像した画像と、該画像中の人物の物理的な状態を示すラベルと、の入力を受け付ける。入力受付部１１は、ラベルの入力を、ユーザから受け付けてもよいし、自動生成されたものを受け付けてもよい。入力受付部１１は、時系列に沿った連続する画像の入力を順次受け付けてもよい。入力受付部１１は、画像ではなく動画の入力を受け付けてもよい。

　入力受付部１１は、入力された情報のうち、少なくとも画像を取得部１２及び抽出部１５に出力し、少なくともラベルを選択部１４に出力する。

　取得部１２は、入力された画像から背景画像を取得する。取得部１２は、取得した背景画像を格納部１３に出力する。

　格納部１３は、取得部１２により入力された背景画像を格納する。

　図２は、格納部１３に格納されている背景画像の一例を示す図である。格納部１３には、学習データの生成に使用可能な複数の背景画像が格納されている。格納部１３は、あらかじめ背景画像を格納しておいてもよい。

　選択部１４は、格納部１３に格納されている複数の背景画像から、学習データの生成に用いる背景画像を選択する。

　選択部１４は、入力されたラベルに応じて適切な背景画像を選択してもよい。例えば、選択部１４は、ラベルがゴルフクラブのスイングならば、緑の草原のような背景が好ましく、ラベルがふらつきならば、駅や道路のような背景が好ましい。この選択は人手で行ってもよいし、あらかじめ設定したアルゴリズムに応じて自動で行ってもよい。選択部１４は、入力された画像の撮像装置の撮像条件に類似した撮像条件で撮像された画像の背景画像を選択してもよい。

　抽出部１５は、入力された画像中の人物の二次元特徴を抽出する。二次元特徴は、画像や動画中の人物の身体部位に関する情報である。

　図３は、二次元特徴の一例を示す図である。図３に示す二次元特徴は、画像上での人物の骨格構造を表す情報である。

　二次元特徴は、画像上での人物の骨格構造を表す情報に限定されず、例えば、画像上での人物の各関節や、頭、手、足等の身体部位の位置座標であってもよい。又は、例えば、二次元特徴は、画像中の人物の各関節間をつないだベクトル情報であってもよいし、二次元特徴は、画像上での人物の存在領域を示すシルエット情報であってもよい。

　図４は、抽出部１５が画像から二次元特徴を抽出する一例を示す図である。

　例えば、抽出部１５は、機械学習を行ったコンピュータによって、画像から二次元特徴を抽出する。具体的には、抽出部１５は、機械学習により生成されるモデルを用いて、入力された画像中の人物の関節の位置座標を抽出する。当該モデルは、画像と、該画像中の人物の関節の位置座標と、から成る複数のデータを用いた機械学習により生成される。

　抽出部１５は、例えば、Ｄｅｅｐｌｅａｒｎｉｎｇにより生成されるモデルを用いる。又は、抽出部１５は、Ｄｅｅｐｌｅａｒｎｉｎｇ以外のニューラルネットワークを用いた機械学習により生成されたモデルを用いてもよい。又は、抽出部１５は、ニューラルネットワーク以外の機械学習により生成されたモデルを用いてもよく、例えば、ＳＶＭ（サポートベクターマシン）により生成されたモデルを用いてもよい。

　または、抽出部１５は、二次元特徴について、人手による抽出を受け付けるように構成されていてもよい。

　画像中の重なりや隠れ等によって二次元特徴の一部が抽出されない場合、抽出部１５は、任意の方法で該画像とは異なる画像から該二次元特徴を補うための他の二次元特徴を抽出してもよい。

　二次元特徴を補う方法として、例えば、抽出部１５は、二次元特徴を補うための他の二次元特徴を、人手による入力により受け付けてもよいし、時系列的に前後の画像から抽出し、該他の二次元特徴を用いて補ってもよい。

　抽出部１５は、抽出した二次元特徴を変換部１６に出力する。

　変換部１６は、抽出部１５から入力された二次元特徴を三次元特徴に変換する。三次元特徴は、画像中の人物の三次元空間における人体構造に関する情報である。

　図５は、三次元特徴の一例を示す図である。図５に示す三次元特徴は、三次元空間における人物の骨格構造を表す情報である。

　三次元特徴は、三次元空間における人物の骨格構造を表す情報に限定されず、例えば、三次元空間における、画像上での人物の各関節や、頭、手、足等の身体部位の位置座標であってもよい。又は、例えば、三次元特徴は、三次元空間における、人物の各関節間をつないだベクトル情報であってもよいし、三次元空間における人物の存在領域を示すシルエット情報であってもよい。

　図６は、変換部１６が二次元特徴を三次元特徴に変換する一例を示す図である。

　具体的には、変換部１６は、機械学習を行ったコンピュータによって、二次元特徴を三次元特徴に変換する。

　例えば、変換部１６は、機械学習により生成されるモデルを用いて、入力された画像から抽出された関節の位置座標を三次元空間での位置座標に変換する。当該モデルは、画像中の人物の関節の位置座標と、該人物の関節の三次元空間での位置座標と、から成る複数のデータを用いた機械学習により得られる。

　変換部１６は、例えば、Ｄｅｅｐｌｅａｒｎｉｎｇにより生成されるモデルを用いる。又は、変換部１６は、Ｄｅｅｐｌｅａｒｎｉｎｇ以外のニューラルネットワークを用いた機械学習により生成されたモデルを用いてもよい。又は、変換部１６は、ニューラルネットワーク以外の機械学習により生成されたモデルを用いてもよく、例えば、ＳＶＭ（サポートベクターマシン）により生成されたモデルを用いてもよい。

　変換部１６は、三次元特徴を学習データ生成部１７に出力する。

　学習データ生成部１７は、人物画像生成部１７１と、合成部１７２と、を備える。

　人物画像生成部１７１は、変換部１６から入力された三次元特徴及び人物モデルに基づいて、人物画像を生成する。人物画像生成部１７１は、人物モデルを予め保持していてもよいし、外部からの入力を受け付けてもよい。

　図７は、人物画像生成部１７１が人物画像を生成する際に用いる人物モデルの一例を示す図である。人物モデルは、例えば、コンピュータ上で生成された人物のＣＧモデルである。

　人物モデルとして、年齢、性別、体型、上半身の服装（スーツ、シャツ等）、上半身の服色（赤、青、黄、黒、白等）、肌色、髪型、髪色、下半身の服装（ジーンズ、スカート等）、下半身の服色（赤、青、黄、黒、白等）、履物（革靴、スニーカー等）、履物色（赤、青、黄、黒、白等）等の属性についての様々なバリエーションのモデルが用意されていてもよい。

　図８は、人物画像生成部１７１が生成する人物画像の一例を示す図である。図８は、「走る」という行動をとる人物の人物画像である。

　具体的には、例えば、人物画像生成部１７１は、三次元特徴を、ＣＧで生成された人物モデルに当てはめて、任意の方向及び距離から撮影した画像としてレンダリングする。これにより、人物画像生成部１７１は、入力されたラベルが示す行動と同じ行動をとる人物画像を生成する。この時、例えば、人物画像生成部１７１は、入力された画像からカメラパラメータと人物のカメラに対する位置、方向等を抽出して人物画像の生成に用いることで、入力された画像の人物と同じ姿勢の人物モデルに置き換えた人物画像を生成することができる。

　図９は、人物画像生成部１７１が人物画像を生成する一例を示す図である。例えば、人物画像生成部１７１は、図９に示すように、三次元特徴を人物モデルに当てはめることにより、「走る」という行動をとる人物の人物画像を生成する。

　人物画像生成部１７１は、入力された画像を撮像した撮像装置の撮像条件と、該画像中の人物及び該撮像装置の位置関係と、に基づいて、人物画像を生成してもよい。
　人物画像生成部１７１は、入力されたラベルに基づいて選択された人物モデルを用いて、人物画像を生成してもよい。例えば、人物画像生成部１７１は、「走る」というラベルに基づいて人物画像を生成する場合、「走る」という行動をとる可能性の低い高齢者ではなく、「走る」という行動をとる可能性の高い若者の人物モデルを用いて、人物画像を生成する。また、人物画像生成部１７１は、「杖をついて歩く」等の行動であれば、ＣＧで生成された高齢者の人物モデルを用いて、人物画像を生成する。人物画像生成部１７１がラベルに基づいて選択した人物モデルを用いることにより、機械学習を利用した行動分析に対する高精度な学習データを生成することができる。

　人物画像生成部１７１は、生成された学習データを用いて学習したコンピュータの利用シーンに応じて、人物モデルを選択してもよい。例えば、人物画像生成部１７１は、サラリーマンが多く行きかう場所を撮影している映像に対して利用する場合は、スーツ姿の人物モデルを選定する確率を高くするように設定した固定のルールに応じて選定を行ってもよい。また、例えば、人物画像生成部１７１は、老人ホームで撮影している映像に対して利用する場合は、高齢者の人物モデルを選定する確率を高くするように設定した固定のルールに応じて選定を行ってもよい。また、例えば、人物画像生成部１７１は、事前に映る人の属性を統計情報として観測しておいて、それに基づいて人物モデルのバリエーションを決めてもよい。

　人物画像生成部１７１は、画像中の人が身に着けている装飾品（マスク、帽子等）、持ち物（鞄、傘、リュックサック等）、その他の道具を別途認識し、それらの道具のＣＧを付加した人物モデルを用いて、人物画像を生成してもよい。

　人物画像生成部１７１は、生成した人物画像を合成部１７２に出力する。

　合成部１７２は、選択部１４から入力された背景画像と、人物画像生成部１７１から入力された人物画像を合成することで、学習データを生成する。学習データは、機械学習によりニューラルネットワークを学習させる際に用いるデータである。学習データは、画像と、該画像中の人物がとる行動を示すラベルと、を含む。

　図１０は、合成部１７２により生成される学習データの一例である。図１０に示す学習データは、「走る」という行動を学習するための学習データである。

　図１１は、合成部１７２が学習データを生成する一例を示す図である。図１１に示すように、合成部１７２は、背景画像と人物画像を合成することで、学習データを生成する。

　出力部１８は、合成部１７２が生成した学習データを出力する。

　図１２は、画像処理装置１が入力された画像から背景画像を取得し、格納する処理動作を説明するまでのフローチャートである。以下、画像処理装置１の処理の流れを、図１２を参照しながら説明する。

　取得部１２は、入力された画像から背景画像を取得する（Ｓ１２１）。格納部１３は、背景画像を格納する（Ｓ１２２）。

　図１３は、画像処理装置１が画像およびラベルの入力を受け付けてから学習データを生成するまでの処理動作を説明するためのフローチャートである。以下、画像処理装置１の処理の流れを、図１３を参照しながら説明する。

　入力受付部１１は、画像及びラベルの入力を受け付ける（Ｓ１３１）。抽出部１５は、入力された画像から二次元特徴を抽出する（Ｓ１３２）。変換部１６は、抽出された二次元特徴を三次元特徴に変換する（Ｓ１３３）。人物画像生成部１７１は、三次元特徴と人物モデルに基づいて、人物画像を生成する（Ｓ１３４）。選択部１４は、格納部１３から学習データの生成に使用する背景画像を選択する（Ｓ１３５）。合成部１７２は、背景画像及び人物画像を合成して、学習データを生成する（Ｓ１３６）。

　尚、選択部１４は、背景画像を選択する処理を、合成部１７２における学習データ生成処理よりも前であればいつ行ってもよいし、抽出部１５、変換部１６又は人物画像生成部１７１における処理と並行して行ってもよい。また、図１２を用いて説明した処理は、図１３を用いて説明した処理と並行して行ってもよい。

　以上説明したように、本実施形態に係る画像処理装置は、画像から抽出した人物の二次元特徴を三次元特徴に変換し、学習データを生成する。これにより、モーションキャプチャーシステム等の特別な設備を利用することなく、低コストで、学習データを生成することができる。
　

　＜第２の実施形態＞
　本発明の第２の実施形態について、図面を用いて詳細に説明する。

　本実施形態における画像処理装置１０と、第１の実施形態における画像処理装置１とは、本実施形態における画像処理装置１０が三次元特徴生成部１９を備えている点で相違する。

　図１４は、第２の実施形態における画像処理装置１０の構成を示す図である。

　尚、画像処理装置１０の構成のうち、第１の実施形態の画像処理装置１の構成と同じ処理動作を行う構成については、図１と同じ符号を付し、詳細な説明を省略する。

　三次元特徴生成部１９は、変換部１６により得られた三次元特徴を用いて、該三次元特徴とは異なる他の三次元特徴を生成する。

　例えば、三次元特徴生成部１９は、変換部１６から受け付けた三次元特徴を人物モデルに基づいて変化させて、ラベルが示す物理的な状態における他の三次元特徴を生成する。具体的には、例えば、三次元特徴生成部１９は、三次元特徴が人体の三次元骨格情報である場合、各関節の可動域等の知識に基づいて各関節の角度を変化させることで、他の三次元特徴を生成する。生成される他の三次元特徴は、画像に付与されているラベルの範囲内に収まるようにすることが好ましい。例えば、「ふらつき」というラベルがついた画像から得られた三次元特徴を変化させる場合、変化後の三次元特徴も「ふらついて」いる姿勢を表すように変化条件を決めることが好ましい。

　また、例えば、三次元特徴生成部１９は、同一のラベルの付いた複数の時系列画像それぞれから得られた複数の三次元特徴を用いて、ラベルが示す物理的な状態における他の三次元特徴を生成する。具体的には、例えば、三次元特徴生成部１９は、「ふらつき」というラベルがついた二つの時系列画像の入力を受け付けた場合、該二つの時系列画像の撮像時刻の間に相当する時刻における、人物の三次元骨格情報を生成する。具体的には、三次元特徴生成部１９は、当該二つの時系列画像における人物の体の各関節等の位置情報の平均を取ることで、該二つの時系列画像の撮像時刻の間に相当する時刻における各関節の位置に関する三次元特徴を生成する。

　三次元特徴生成部１９は、同じ原理を用いて、画像間の任意の時刻における三次元特徴を生成することができる。

　同様に、三次元特徴生成部１９は、二つの時系列画像から得られる三次元特徴を用いて、該二つの時系列画像の撮像時刻外の時刻における三次元特徴を生成することができる。このとき、生成された三次元特徴が元画像に付与されているラベルの範囲内に収まるよう、二つの時系列画像間の時間間隔を設定してもよい。

　三次元特徴生成部１９は、生成した三次元特徴を、人物画像生成部１７１に出力する。

　人物画像生成部１７１は、三次元特徴生成部１９により入力された三次元特徴及び人物モデルに基づいて、人物画像を生成する。

　図１５は、画像処理装置１０が、二次元特徴を抽出してから、三次元特徴を用いて生成される他の三次元特徴を用いて、学習データを生成するまでの処理の流れを示すフローチャートである。以下、画像処理装置１０の処理動作の流れを、図１５を参照しながら説明する。尚、第１の実施形態と同じ処理については、図１３と同様の符号を付し、説明は省略する。

　三次元特徴生成部１９は、変換部１６により得られた三次元特徴を用いて、該三次元特徴とは異なる他の三次元特徴を生成する（Ｓ１５１）。人物画像生成部１７１は、当該他の三次元特徴及び人物モデルに基づいて、人物画像を生成する（Ｓ１５２）。

　以上説明したように、本実施形態の画像処理装置は、画像像から得られた三次元特徴を用いて生成された他の三次元特徴を用いて、学習データを生成する。これにより、各行動に関する学習データのバリエーションを容易に増やすことができる。
　

　＜第３の実施形態＞
　図１６は、本実施形態における画像処理装置１００の構成を示す図である。以下、図１６を参照しながら、画像処理装置１００の概要を説明する。

　本実施形態の画像処理装置１００は、抽出部１０１と、変換部１０２と、学習データ生成部１０３と、を備える。

　抽出部１０１は、画像中の人物の部位に関する二次元特徴を抽出する。抽出部１０１は、抽出した二次元特徴を変換部１０２に出力する。

　変換部１０２は、二次元特徴を、人体構造に関する三次元特徴に変換する。変換部１０２は、得られた三次元特徴を学習データ生成部１０３に出力する。

　学習データ生成部１０３は、三次元特徴と、人物の物理的な状態を示すラベルと、を用いて、学習データを生成する。

　図１７は、画像処理装置１００が、画像から二次元特徴を抽出してから、学習データを生成するまでの処理の流れを示すフローチャートである。以下、画像処理装置１００の処理の流れを、図１７を参照しながら説明する。

　抽出部１０１は、画像中の人物の部位に関する二次元特徴を抽出する（Ｓ１７１）。変換部１０２は、抽出した二次元特徴を三次元特徴に変換する（Ｓ１７２）。学習データ生成部１０３は、当該三次元特徴及び正解ラベルを用いて、学習データを生成する（Ｓ１７３）。

　＜実施形態の各部を実現するハードウェアの構成＞
　以上で説明された本発明の各実施形態において、各装置の各構成要素を示すブロックは、機能単位で示されている。しかし、構成要素を示すブロックは、各構成要素が別個のモジュールにより構成されることを必ずしも意味していない。

　各構成要素の処理は、たとえば、コンピュータシステムが、コンピュータ読み取り可能な記憶媒体により記憶された、その処理をコンピュータシステムに実行させるプログラムを、読み出し、実行することによって、実現されてもよい。「コンピュータ読み取り可能な記憶媒体」は、たとえば、光ディスク、磁気ディスク、光磁気ディスク、及び不揮発性半導体メモリ等の可搬媒体、ならびに、コンピュータシステムに内蔵されるＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）及びハードディスク等の記憶装置である。「コンピュータ読み取り可能な記憶媒体」は、コンピュータシステム内部の揮発性メモリのようにプログラムを一時的に保持可能なもの、及び、ネットワークや電話回線等の通信回線のように、プログラムを伝送するものも含む。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、更に前述した機能をコンピュータシステムにすでに記憶されているプログラムとの組み合わせで実現できるものであってもよい。

　「コンピュータシステム」とは、一例として、図１８に示されるようなコンピュータ９００を含むシステムである。コンピュータ９００は、以下のような構成を含む。
・１つ又は複数のＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１
・ＲＯＭ９０２
・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３
・ＲＡＭ９０３へロードされるプログラム９０４Ａ及び記憶情報９０４Ｂ
・プログラム９０４Ａ及び記憶情報９０４Ｂを格納する記憶装置９０５
・記憶媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インタフェース９０８
・データの入出力を行う入出力インタフェース９１０
・各構成要素を接続するバス９１１
　たとえば、各実施形態における各装置の各構成要素は、その構成要素の機能を実現するプログラム９０４ＡをＣＰＵ９０１がＲＡＭ９０３にロードして実行することで実現される。各装置の各構成要素の機能を実現するプログラム９０４Ａは、例えば、予め、記憶装置９０５やＲＯＭ９０２に格納される。そして、必要に応じてＣＰＵ９０１がプログラム９０４Ａを読み出す。記憶装置９０５は、たとえば、ハードディスクである。プログラム９０４Ａは、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記憶媒体９０６に格納されており、ドライブ装置９０７に読み出され、ＣＰＵ９０１に供給されてもよい。なお、記憶媒体９０６は、たとえば、光ディスク、磁気ディスク、光磁気ディスク、及び不揮発性半導体メモリ等の、可搬媒体である。

　各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個のコンピュータ９００とプログラムとの可能な組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータ９００とプログラムとの可能な組み合わせにより実現されてもよい。

　また、各装置の各構成要素の一部又は全部は、その他の汎用又は専用の回路、コンピュータ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。

　各装置の各構成要素の一部又は全部が複数のコンピュータや回路等により実現される場合には、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、コンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　（付記事項）
　なお、前述の実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　画像における人物の部位に関する二次元特徴を抽出する抽出手段と、
　前記二次元特徴を、人体構造に関する三次元特徴に変換する変換手段と、
　前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する学習データ生成手段と、
　を備える画像処理装置。
（付記２）
　前記変換手段は、機械学習により予め学習されたモデルを用いて、前記二次元特徴を前記三次元特徴に変換する
　付記１に記載の画像処理装置。
（付記３）
　前記三次元特徴を用いて、前記ラベルが示す物理的な状態における他の三次元特徴を生成する三次元特徴生成手段を備える
　付記１又は２に記載の画像処理装置。
（付記４）
　前記三次元特徴生成手段は、人体構造に基づいて、前記三次元特徴を変化させて、前記他の三次元特徴を生成する
　付記３に記載の画像処理装置。
（付記５）
　前記抽出手段は、前記人物を含む複数の時系列画像それぞれにおける前記人物の部位に関する二次元特徴を抽出し、
　前記変換手段は、前記二次元特徴を、人体構造に関する三次元特徴にそれぞれ変換し、
　前記三次元特徴生成手段は、複数の前記三次元特徴に基づいて、前記複数の時系列画像それぞれの撮像時刻とは異なる時刻における前記他の三次元特徴を生成する
　付記３に記載の画像処理装置。
（付記６）
　前記抽出手段は、前記画像において前記人物の人体の一部が隠れている場合に、前記画像よりも時系列的に前後の画像から、前記二次元特徴を補うための他の二次元特徴を抽出する
　付記１から５のいずれか一項に記載の画像処理装置。
（付記７）
　前記画像の背景画像を抽出する取得手段と、
　前記背景画像を格納する格納手段と、
　前記格納手段が記憶する背景画像のうち、前記学習データの生成に用いる背景画像を選択する選択手段と、
　をさらに備え、
　前記学習データ生成手段は、
　前記三次元特徴に基づいて、前記物理的な状態における人物画像を生成する人物画像生成手段と、
　前記人物画像と、選択された前記背景画像と、を合成する合成手段と、
　を含む、
　付記１から６のいずれか一項に記載の画像処理装置。
（付記８）
　前記人物画像生成手段は、前記画像を撮像した撮像装置の撮像条件と、前記人物及び前記撮像装置の位置関係と、に基づいて、前記人物画像を生成し、
　前記選択手段は、前記撮像条件に類似の撮像条件で撮像された画像の背景画像を選択する、
　付記７に記載の画像処理装置。
（付記９）
　前記人物画像生成手段は、
　前記ラベルに基づいて、人物モデルを選択し、
　前記人物モデルを用いて、前記人物画像を生成する、
　付記７又は８に記載の画像処理装置。
（付記１０）
　前記選択手段は、前記ラベルに基づいて、前記格納手段から、前記学習データの生成に用いる背景画像を選択する、
　付記７から９のいずれか一項に記載の画像処理装置。
（付記１１）
　画像中の人物の部位に関する二次元特徴を抽出し、
　前記二次元特徴を、人体構造に関する三次元特徴に変換し、
　前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する、
　画像処理方法。
（付記１２）
　コンピュータに対して、
　画像中の人物の部位に関する二次元特徴を抽出する処理と、
　前記二次元特徴を、人体構造に関する三次元特徴に変換する処理と、
　前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する処理と、
　を実行させるためのプログラムを記録したプログラム記録媒体。
　

１　画像処理装置
１０　画像処理装置
１１　入力受付部
１２　取得部
１３　格納部
１４　選択部
１５　抽出部
１６　変換部
１７　学習データ生成部
１８　出力部
１９　三次元特徴生成部
１００　画像処理装置
１０１　抽出部
１０２　変換部
１０３　学習データ生成部
１７１　人物画像生成部
１７２　合成部
９００　コンピュータ
９０１　ＣＰＵ
９０２　ＲＯＭ
９０３　ＲＡＭ
９０４Ａ　プログラム
９０４Ｂ　記憶情報
９０５　記憶装置
９０６　記憶媒体
９０７　ドライブ装置
９０８　通信インタフェース
９０９　通信ネットワーク
９１０　入出力インタフェース
９１１　バス

Claims

　画像における人物の部位に関する二次元特徴を抽出する抽出手段と、
　前記二次元特徴を、人体構造に関する三次元特徴に変換する変換手段と、
　前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する学習データ生成手段と、
　を備える画像処理装置。
　前記変換手段は、機械学習により予め学習されたモデルを用いて、前記二次元特徴を前記三次元特徴に変換する
　請求項１に記載の画像処理装置。
　前記三次元特徴を用いて、前記ラベルが示す物理的な状態における他の三次元特徴を生成する三次元特徴生成手段を備える
　請求項１又は２に記載の画像処理装置。
　前記三次元特徴生成手段は、人体構造に基づいて、前記三次元特徴を変化させて、前記他の三次元特徴を生成する
　請求項３に記載の画像処理装置。
　前記抽出手段は、前記人物を含む複数の時系列画像それぞれにおける前記人物の部位に関する二次元特徴を抽出し、
　前記変換手段は、前記二次元特徴を、人体構造に関する三次元特徴にそれぞれ変換し、
　前記三次元特徴生成手段は、複数の前記三次元特徴に基づいて、前記複数の時系列画像それぞれの撮像時刻とは異なる時刻における前記他の三次元特徴を生成する
　請求項３に記載の画像処理装置。
　前記抽出手段は、前記画像において前記人物の人体の一部が隠れている場合に、前記画像よりも時系列的に前後の画像から、前記二次元特徴を補うための他の二次元特徴を抽出する
　請求項１から５のいずれか一項に記載の画像処理装置。
　前記画像の背景画像を抽出する取得手段と、
　前記背景画像を格納する格納手段と、
　前記格納手段が記憶する背景画像のうち、前記学習データの生成に用いる背景画像を選択する選択手段と、
　をさらに備え、
　前記学習データ生成手段は、
　前記三次元特徴に基づいて、前記物理的な状態における人物画像を生成する人物画像生成手段と、
　前記人物画像と、選択された前記背景画像と、を合成する合成手段と、
　を含む、
　請求項１から６のいずれか一項に記載の画像処理装置。
　前記人物画像生成手段は、前記画像を撮像した撮像装置の撮像条件と、前記人物及び前記撮像装置の位置関係と、に基づいて、前記人物画像を生成し、
　前記選択手段は、前記撮像条件に類似の撮像条件で撮像された画像の背景画像を選択する、
　請求項７に記載の画像処理装置。
　前記人物画像生成手段は、
　前記ラベルに基づいて、人物モデルを選択し、
　前記人物モデルを用いて、前記人物画像を生成する、
　請求項７又は８に記載の画像処理装置。
　前記選択手段は、前記ラベルに基づいて、前記格納手段から、前記学習データの生成に用いる背景画像を選択する、
　請求項７から９のいずれか一項に記載の画像処理装置。
　画像中の人物の部位に関する二次元特徴を抽出し、
　前記二次元特徴を、人体構造に関する三次元特徴に変換し、
　前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する、
　画像処理方法。
　コンピュータに対して、
　画像中の人物の部位に関する二次元特徴を抽出する処理と、
　前記二次元特徴を、人体構造に関する三次元特徴に変換する処理と、
　前記三次元特徴と、前記人物の物理的な状態を示すラベルと、を用いて、学習データを生成する処理と、
　を実行させるためのプログラムを記録したプログラム記録媒体。