WO2023243185A1

WO2023243185A1 - 学習用データ生成装置

Info

Publication number: WO2023243185A1
Application number: PCT/JP2023/013389
Authority: WO
Inventors: 拓実會下; 洋登永吉; 朋晟平岡
Original assignee: 株式会社日立製作所
Priority date: 2022-06-15
Filing date: 2023-03-30
Publication date: 2023-12-21
Also published as: JP2023183255A

Abstract

学習用データ生成装置は、１つ以上のＣＧモデルを含むＣＧ空間に関する１つ以上のＣＧパラメータを有する第一ＣＧデータを取得し、前記第一ＣＧデータの前記ＣＧパラメータを変動させた第二ＣＧデータを１つ以上生成する第二ＣＧデータ生成部と、前記第一ＣＧデータから１つ以上の第一画像を生成し、前記第二ＣＧデータから１つ以上の第二画像を生成する画像生成部と、前記第一画像と前記第二画像の間の変動量を算出する画像変動算出部と、前記変動量に基づいて、１つ以上の前記第二ＣＧデータからいずれかを選択する第二ＣＧデータ選択部と、前記第二ＣＧデータ選択部によって選択された前記第二ＣＧデータから、１つ以上の学習用画像を生成する学習用画像生成部と、を備える。

Description

学習用データ生成装置

　本発明は、機械学習に使用される学習用データを生成する装置に関する。

　従来、ディープラーニングに代表される機械学習を用いた画像認識手法が広く知られている。このような画像認識手法において、機械学習を実行するモデルの学習を効果的に行うためには、認識対象の物体や、認識対象の物体が存在する場面に関して、これらの画像上での見え方がそれぞれ異なる多様な学習用画像を用いた学習用データを準備することが求められる。

　しかしながら、学習用画像に適した大量の実画像を準備するのは手間がかかるため、容易ではない。そこで、実画像の代わりにＣＧ（Computer Graphics）を用いて学習用画像を生成する手法が提案されている。実画像と異なり、ＣＧの場合はパラメータを変更するだけでプログラムによって多様な画像を作成できるため、学習用データに適した大量の画像を容易に生成することが可能である。

　たとえば、特許文献１では、認識対象の物体の３次元ＣＧを作成し、これを２次元平面に投影することで２次元画像を作成し、作成した２次元画像を、認識対象の物体の様々な形状の学習画像として用いることが記載されている。

　また、特許文献２では、元フレーム画像と作成したＣＧモデルとの間の類似度を算出し、この類似度に基づいてＣＧモデルから教師データを生成することで、実写画像とＣＧ画像との間における認識性能を向上させる教師データ生成装置が記載されている。

日本国特開２０１０－２１１７３２号公報日本国特開２０２１－１０７９８１号公報

　特許文献１では、生成された学習画像の見え方を考慮していないため、見た目が類似する学習画像が大量に生成されてしまう可能性がある。また、特許文献２では、実写画像である元フレーム画像とＣＧモデルとのセットに対して教師データが生成されるため、実写画像に含まれない多様な教師データを生成することができない。このように、従来の手法では、ＣＧを用いることで学習用画像を大量に生成することが可能だが、見た目が類似する画像の割合が高くなり、その結果、多様性に乏しい学習用画像が生成されてしまうおそれがある。こうした多様性に乏しい学習用画像をモデルの学習に用いると、効果的に学習を行うことができないため、画像認識の精度が向上しないという問題がある。

　本発明は、こうした背景に基づきなされたものであり、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することを目的とする。

　本発明による学習用データ生成装置は、１つ以上のＣＧモデルを含むＣＧ空間に関する１つ以上のＣＧパラメータを有する第一ＣＧデータを取得し、前記第一ＣＧデータの前記ＣＧパラメータを変動させた第二ＣＧデータを１つ以上生成する第二ＣＧデータ生成部と、前記第一ＣＧデータから１つ以上の第一画像を生成し、前記第二ＣＧデータから１つ以上の第二画像を生成する画像生成部と、前記第一画像と前記第二画像の間の変動量を算出する画像変動算出部と、前記変動量に基づいて、１つ以上の前記第二ＣＧデータからいずれかを選択する第二ＣＧデータ選択部と、前記第二ＣＧデータ選択部によって選択された前記第二ＣＧデータから、１つ以上の学習用画像を生成する学習用画像生成部と、を備える。

　本発明によれば、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することができる。

本発明の一実施形態に係る学習用データ生成装置のハードウェア構成を示す図である。学習用データ生成装置の機能構成を示すブロック図である。本発明の第１の実施形態に係る学習用データ生成装置が学習用ＣＧデータを生成する処理の例を示すフローチャートである。ＣＧデータ変動制約表の一例を示す図である。算出対象選定表の一例を示す図である。操作画面の一例を示す図である。学習用データ生成装置が学習用データを生成する処理の例を示すフローチャートである。本発明の第２の実施形態に係る学習用データ生成装置が学習用ＣＧデータを生成する処理の例を示すフローチャートである。

　以下、本発明の実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成に同一の符号を付して重複した説明を省略することがある。また以下の説明において、同種の構成を区別する必要がある場合、構成を総称する符号の後に括弧書きで識別子（数字、アルファベット等）を表記することがある。

（第１の実施形態）
　はじめに、本発明の第１の実施形態について、図１～図７を参照して以下に説明する。

＜学習用データ生成装置１のハードウェア構成例＞
　図１は、本発明の一実施形態に係る学習用データ生成装置のハードウェア構成を示す図である。図１に示す学習用データ生成装置１は、機械学習に用いられる学習用データを生成する情報処理装置（コンピュータ）であり、プロセッサ２、主記憶装置３、補助記憶装置４、入力装置５、出力装置６、および通信装置７を備える。

　プロセッサ２は、演算処理を行う装置であり、たとえばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等を用いて構成される。主記憶装置３は、各種プログラムやデータを記憶する装置であり、たとえばＲＯＭ（Read Only Memory）、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＲＡＭ（Random Access Memory）、ＤＲＡＭ（Dynamic RAM）、ＳＲＡＭ（Static RAM）、ＮＶＲＡＭ（Non Volatile RAM）等を用いて構成される。補助記憶装置４は、プログラムやデータを格納する装置であり、たとえばＨＤＤ（Hard Disk Drive）、フラッシュメモリ、ＳＳＤ（Solid State Drive）、光学式記憶媒体等を用いて構成される。補助記憶装置４に格納されているプログラムやデータは、プロセッサ２によって主記憶装置３に随時読み込まれ、プロセッサ２が行う処理や制御に利用される。

　入力装置５は、ユーザから情報を受付けるユーザインタフェースであり、たとえば、キーボード、マウス、カードリーダ、タッチパネル等である。出力装置６は、各種の情報を出力（表示出力、音声出力、印字出力等）するユーザインタフェースであり、たとえば、各種情報を可視化する表示装置（ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）や音声出力装置（スピーカ）、印字装置等である。

　通信装置７は、通信手段を介して他の装置と通信する通信インタフェースである。通信手段の構成は必ずしも限定されないが、たとえば、ＵＳＢ（Universal Serial Bus）やＲＳ－２３２Ｃ等の各種通信規格に準拠した通信手段、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、専用線等である。通信装置７は、たとえば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢモジュール、シリアル通信モジュール等である。通信装置７は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また通信装置７は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。

＜学習用データ生成装置１の機能構成＞
　図２は、学習用データ生成装置１の機能構成を示すブロック図である。同図に示すように、学習用データ生成装置１は、記憶部１０、学習用ＣＧデータ生成部２０、学習用データ生成部３０の各機能を備える。記憶部１０は、たとえば主記憶装置３や補助記憶装置４によって実現される。また、学習用ＣＧデータ生成部２０および学習用データ生成部３０は、たとえばプロセッサ２が主記憶装置３に格納されているプログラムを読み出して、このプログラムに従った処理を実行することにより実現される。

　なお、学習用データ生成装置１において、図１に示したもの以外に、たとえばＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ等のハードウェアをさらに搭載し、これらのハードウェアを単独で、またはプロセッサ２と協働して用いることで、図２に示す機能の一部または全部を実現してもよい。

　記憶部１０は、第一ＣＧデータ群１１、ＣＧデータ変動制約表１２、算出対象選定表１３、学習用ＣＧデータ群１４および学習用データ群１５を記憶する。記憶部１０は、たとえば、ＤＢＭＳ（DataBase Management System）が提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報（データ）を記憶することができる。

　第一ＣＧデータ群１１は、１つ以上のＣＧデータ（第一ＣＧデータ）により構成される。第一ＣＧデータ群１１の各第一ＣＧデータは、ＣＧ空間に関する１つ以上のＣＧパラメータを有している。たとえば、ＣＧ空間内に存在する１つ以上のＣＧモデルとその構成部品の形状、角度、位置等の情報や、ＣＧ空間内に設定されるカメラモデルの位置や向きの情報、ＣＧ空間内で各ＣＧモデルに照射される環境光や照明の情報などが、第一ＣＧデータにおけるＣＧパラメータとして設定される。これらのＣＧパラメータの値は、たとえば、ユーザが入力装置５を用いて入力したり、通信装置７から取得したりすることで、学習用データ生成装置１において予め設定される。

　学習用ＣＧデータ群１４は、１つ以上の学習用ＣＧデータにより構成される。学習用ＣＧデータ群１４の各学習用ＣＧデータは、学習用ＣＧデータ生成部２０によって生成される。なお、学習用ＣＧデータ生成部２０による学習用ＣＧデータの生成方法の詳細については後述する。

　学習用データ群１５は、１つ以上の学習用データにより構成される。学習用データ群１５の各学習用データは、学習用データ生成部３０によって生成される。なお、学習用データ生成部３０による学習用データの生成方法の詳細については後述する。

　ＣＧデータ変動制約表１２は、第一ＣＧデータ群１１の各第一ＣＧデータのＣＧパラメータを変動させる際の制約条件を表す情報である。なお、ＣＧデータ変動制約表１２の詳細については後述する。

　算出対象選定表１３は、学習用ＣＧデータ生成部２０が学習用ＣＧデータを生成する際に算出する画像間の変動量の算出条件に関する情報である。なお、算出対象選定表１３の詳細については後述する。

　学習用ＣＧデータ生成部２０は、第二ＣＧデータ生成部２１、画像生成部２２、画像変動算出部２３、第二ＣＧデータ選択部２４を有する。

　第二ＣＧデータ生成部２１は、記憶部１０に記憶された第一ＣＧデータ群１１からいずれかの第一ＣＧデータを取得する。そして、ＣＧデータ変動制約表１２に基づき、取得した第一ＣＧデータが有する１つ以上のＣＧパラメータを変動させることで、第一ＣＧデータとは異なるＣＧデータ（第二ＣＧデータ）を１つ以上生成する。

　画像生成部２２は、第二ＣＧデータ生成部２１が取得した第一ＣＧデータから、１つ以上のＣＧ画像（第一画像）を生成する。また画像生成部２２は、第二ＣＧデータ生成部２１が生成した第二ＣＧデータから、第一画像とは異なる１つ以上のＣＧ画像（第二画像）を生成する。このとき画像生成部２２は、生成した第一画像と第二画像に対して、グレースケール化やエッジ検出などの画像処理を適用してもよい。なお、第二ＣＧデータは第一ＣＧデータからＣＧパラメータが変動されているため、第一画像と第二画像は見た目が異なる。

　画像変動算出部２３は、画像生成部２２が生成した第一画像と第二画像を取得し、これらの画像間の変動量を算出する。たとえば、画像変動算出部２３は、背景差分法やオプティカルフローによって、第一画像と第二画像の差分を表す変動画像を生成し、この変動画像から算出対象選定表１３に基づき変動量を算出する。また画像変動算出部２３は、第一画像と第二画像からそれぞれの画像の特徴量を計算し、これらの特徴量間の距離を変動量として算出してもよい。

　第二ＣＧデータ選択部２４は、画像変動算出部２３が算出した変動量を取得し、この変動量に基づいて、画像生成部２２が生成した１つ以上の第二ＣＧデータからいずれかを選択する。そして、選択した第二ＣＧデータを学習用ＣＧデータとして、記憶部１０に記憶された学習用ＣＧデータ群１４に格納する。

　学習用データ生成部３０は、学習用画像生成部３１および教師信号生成部３２を有する。

　学習用画像生成部３１は、記憶部１０に記憶された学習用ＣＧデータ群１４からいずれかの学習用ＣＧデータ、すなわち、第二ＣＧデータ選択部２４によって選択された第二ＣＧデータを取得する。そして、取得した学習用ＣＧデータ（第二ＣＧデータ）からＣＧ画像（学習用画像）を生成する。

　教師信号生成部３２は、学習用画像生成部３１が取得した学習用ＣＧデータ（第二ＣＧデータ）に基づき、教師信号を生成する。そして、学習用画像生成部３１が生成した学習用画像と教師信号とを対応付けた学習用データを生成し、記憶部１０に記憶された学習用データ群１５に格納する。

　これにより、学習用データ生成装置１は、学習用ＣＧデータ生成部２０において、第二ＣＧデータから生成される第二画像の変動量に基づいていずれかの第二ＣＧデータを選択し、学習用データ生成部３０において、選択された第二ＣＧデータから学習用データを生成することができる。したがって、学習用データ生成装置１は、見た目が異なる多様な学習用画像を含む学習用データの生成を図ることができる。

＜学習用ＣＧデータ生成部２０の処理例＞
　図３は、本発明の第１の実施形態に係る学習用データ生成装置１が、学習用ＣＧデータ生成部２０において、学習用ＣＧデータを生成する処理の例を説明するフローチャートである。

　まず、学習用ＣＧデータ生成部２０は、第二ＣＧデータ生成部２１において、記憶部１０が有する第一ＣＧデータ群１１から第一ＣＧデータを取得する（Ｓ２１０）。

　第一ＣＧデータは、１つ以上のＣＧモデルを含むＣＧ空間に関する１つ以上のＣＧパラメータを有する。ＣＧパラメータとは、ＣＧ空間およびＣＧ空間内に存在する各ＣＧモデルを制御するためのパラメータである。たとえば、ＣＧパラメータは、ＣＧ空間に関して、背景情報や環境光に関するパラメータを含む。また、各ＣＧモデルおよび各ＣＧモデルを構成する部品に関して、これらの個数や、ＣＧ空間上でのこれらの位置および角度、色、模様、反射特性、動き、形状などのパラメータを含む。また、ＣＧ空間内に設置される照明に関して、個数や、ＣＧ空間上での位置および角度、照射方向、照度などのパラメータを含む。また、カメラモデルに関して、ＣＧ空間上での位置や角度などのパラメータを含む。これ以外にも、ＣＧ画像に関する任意のパラメータをＣＧパラメータとして設定することができる。

　続いて、学習用ＣＧデータ生成部２０は、第二ＣＧデータ生成部２１において、ＣＧデータ変動制約表１２に基づき、ステップＳ２１０で取得した第一ＣＧデータから、１つ以上の第二ＣＧデータを生成する（Ｓ２２０）。

　図４に、ＣＧデータ変動制約表１２の例を示す。同図に示すように、ＣＧデータ変動制約表１２は、各ＣＧパラメータに関して、第一ＣＧデータの設定値、変動値の最小値および最大値、変動させる割合等の情報を保持する。このうち、第一ＣＧデータの設定値は第一ＣＧデータから得られるため、省略してもよい。また、変動値の最小値および最大値と変動させる割合は、ユーザがあらかじめ設定してもよい。さらに、変動値の最小値および最大値は、各ＣＧパラメータがＣＧ空間上で取り得る値の最小値と最大値をそれぞれ自動的に設定してもよく、もしくは、第一ＣＧデータの設定値を中心とした区間の最小値と最大値をそれぞれ自動的に設定してもよい。

　第二ＣＧデータ生成部２１は、まず、ＣＧデータ変動制約表１２に示された変動させる割合に基づき、第一ＣＧデータにおいて変動させるＣＧパラメータを決定する。続いて、ＣＧデータ変動制約表１２に示された変動値の最小値および最大値に基づき、変動後のＣＧパラメータの値を無作為に決定する。たとえば、図４のＣＧデータ変動制約表１２において、行１２１に記載されたＣＧパラメータ（ＣＧモデルＭ１の構成部品Ｐ１の角度を制御するＣＧパラメータ）は、変動させる割合が０．５、変動値の最小値が３０°、最大値が９０°にそれぞれ設定されている。したがって、このＣＧパラメータの値は、第二ＣＧデータ生成部２１により、５０％の確率で、３０°以上かつ９０°以下の範囲内で無作為に決定された値へと変更される。

　このように、第二ＣＧデータ生成部２１は、図３のステップＳ２２０において、ＣＧデータ変動制約表１２に基づき、第一ＣＧデータのＣＧパラメータを変更することで、第一ＣＧデータとはＣＧパラメータの値が異なる第二ＣＧデータを生成することができる。

　図３の説明に戻ると、続いて、学習用ＣＧデータ生成部２０は、画像生成部２２において、第二ＣＧデータ生成部２１がステップＳ２１０で取得した第一ＣＧデータから、第一合成画像と第一領域画像を生成する（Ｓ２３０）。

　具体的には、画像生成部２２は、第一ＣＧデータが有するＣＧパラメータに基づき、ＣＧ空間を作成し、そのＣＧ空間内に１つ以上のＣＧモデルとカメラモデルをそれぞれ設定（配置）する。そして、カメラモデルによって各ＣＧモデルを撮影することで得られる画像を、第一合成画像として生成する。

　また画像生成部２２は、第一合成画像上の各ＣＧモデル、および／または各ＣＧモデルを構成する各部品の領域を、これらに対してそれぞれ個別に割り当てられた特定の形態（色、模様、明度等）で塗り分けることにより、第一領域画像を生成する。これにより、たとえば、第一合成画像上に複数のＣＧモデルが存在した場合であっても、第一領域画像上で特定の形態を有する領域を参照することで、特定のＣＧモデルや特定の部品に関して、これらに対応する領域を第一合成画像内および第一領域画像内で容易に抽出することができる。

　なお、画像生成部２２は、第一合成画像を生成せずに第一領域画像のみを生成してもよい。また、第一合成画像の各画素に対して、当該画素に対応するＣＧモデルとカメラモデルとの間のＣＧ空間における距離値を埋め込むことにより、距離情報を含む第一合成画像を生成してもよい。さらに、画像生成部２２は、生成した第一合成画像に対して、グレースケール化やエッジ検出、ＨＳＶ（Hue, Saturation and Value）変換などの画像処理を適用してもよい。

　続いて、学習用ＣＧデータ生成部２０は、第二ＣＧデータ生成部２１がステップＳ２２０で生成した１つ以上の第二ＣＧデータの各々に対して、以下のステップＳ２４０からステップＳ２７０の処理を行うことで、第一ＣＧデータによる画像と第二ＣＧデータによる画像の間での変動量を算出する。

　ステップＳ２４０では、画像生成部２２において、処理対象の第二ＣＧデータから、第二合成画像と第二領域画像を生成する。ここでは、ステップＳ２３０で第一合成画像および第一領域画像を生成したのと同様の処理により、第二ＣＧデータから第二合成画像および第二領域画像を生成することができる。このとき、第二合成画像上の各ＣＧモデル、および／または各ＣＧモデルを構成する各部品の領域を、それぞれ第一領域画像と同じ形態で塗り分けることにより、第二領域画像を生成することが好ましい。

　ステップＳ２５０では、画像変動算出部２３において、画像生成部２２がステップＳ２３０、Ｓ２４０でそれぞれ生成した第一合成画像と第二合成画像から、これらの画像間の差分を表す変動画像を求める。具体的には、第一合成画像と第二合成画像から、背景差分法やオプティカルフローによってこれらの差分を抽出し、変動画像を求めることができる。このとき画像変動算出部２３は、変動画像の各画素の値に対して、絶対値化および正規化などの処理を行ってもよい。たとえば、変動画像では、第一合成画像と第二合成画像とで変化が生じなかった領域の画素の値が０となり、変化が生じた領域に含まれる画素の値が０以外の値となる。

　あるいは、他の方法を用いて変動画像を生成することもできる。たとえば、第一合成画像および第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した色味や明度成分が第一合成画像と第二合成画像の間で異なる領域を抽出して、その領域を示す画像を変動画像として生成してもよい。また、第一領域画像を第一合成画像、第二領域画像を第二合成画像としてそれぞれ用いて、これらの画像間で位置が変化したＣＧモデルの領域や、オクルージョンの発生によって可視領域が変化したＣＧモデルの領域等を抽出することで、変動画像を生成してもよい。さらに、第一合成画像および第二合成画像において、前述のように各画素に距離値が埋め込まれている場合には、第一合成画像と第二合成画像とで距離値が変化した画素の領域、すなわち、３次元的に形状が変化した領域を抽出することで、変動画像を生成してもよい。これ以外にも、第一合成画像と第二合成画像の間の差分を適切に表すことができれば、任意の方法で変動画像を生成することが可能である。

　ステップＳ２６０では、画像変動算出部２３において、ステップ２５０で求めた変動画像に対して、画像生成部２２がステップＳ２３０、Ｓ２４０でそれぞれ生成した第一領域画像と第二領域画像から、算出対象選定表１３に基づき、１つ以上の算出対象領域を抽出する。

　図５に、算出対象選定表１３の例を示す。同図に示すように、算出対象選定表１３は、第一ＣＧデータが有する各ＣＧモデルおよびＣＧモデルを構成する各部品に関して、変動量の算出対象とするか否かの情報と、重みの値とを有する。変動量の算出対象とするか否かの情報として、算出対象とする場合には「１」、しない場合には「０」が設定される。重みの値は、０から１の間でいずれかの値が設定される。これらの値は、ユーザがあらかじめ設定してもよい。

　画像変動算出部２３は、まず、算出対象選定表１３において、変動量の算出対象とするか否かの情報が「１」と設定された各ＣＧモデルおよびＣＧモデルを構成する各部品に関して、これらに対応する第一領域画像上での領域と、第二領域画像上での領域とをそれぞれ抽出する。そして、抽出したこれらの領域の和集合の領域を、変動量の算出対象領域として抽出する。たとえば、算出対象選定表１３において、認識対象のＣＧモデルに関して、変動量の算出対象とするか否かの情報を「１」と設定することで、そのＣＧモデルの領域が算出対象領域として抽出される。もしくは、第一領域画像と第二領域画像から変動量の算出対象としてそれぞれ抽出した領域の積集合、差集合、対称差集合などを、変動量の算出対象領域として抽出してもよい。

　図３の説明に戻ると、ステップＳ２７０では、画像変動算出部２３において、ステップＳ２６０で抽出した算出対象領域に基づき、ステップＳ２５０で求めた変動画像から変動量を算出する。具体的には、画像変動算出部２３は、たとえば、変動画像において算出対象領域に対応する領域を抽出し、その領域内に含まれる各画素の値の平均値を変動量として算出する。このとき画像変動算出部２３は、算出対象選定表１３を参照し、これに基づいて変動量を重み付けしてもよい。たとえば、変動画像から抽出した領域に対して、その領域に対応する算出対象領域の重みの値を算出対象選定表１３から取得し、取得した重みを領域内の各画素の値に乗算した後に、各画素の値の平均値を変動量として算出してもよい。

　あるいは、他の方法を用いて変動画像から変動量を算出することもできる。たとえば、変動画像から抽出した領域内の各画素の値を所定の閾値とそれぞれ比較し、閾値を超える画素の割合を変動量として算出してもよい。この閾値は、たとえば、変動画像の画素の値が取り得る値の中央値を設定してもよいし、ユーザがあらかじめ設定してもよい。これ以外にも、第一合成画像と第二合成画像の間の変動量を変動画像から適切に算出することができれば、任意の方法で変動量を算出することが可能である。

　上記のステップＳ２４０からＳ２７０の処理を第二ＣＧデータごとに繰り返すことで、学習用ＣＧデータ生成部２０は、第二ＣＧデータ生成部２１が生成した１つ以上の第二ＣＧデータの各々に対して、第一ＣＧデータからの変動量を算出することができる。

　第二ＣＧデータ生成部２１が生成した全ての第二ＣＧデータに対してステップＳ２４０からステップＳ２７０の処理を実施したら、続いて、学習用ＣＧデータ生成部２０は、第二ＣＧデータ選択部２４において、画像変動算出部２３がステップＳ２７０で算出した変動量に基づき、いずれかの第二ＣＧデータを選択する。そして、選択した第二ＣＧデータを学習用ＣＧデータとして、記憶部１０に記憶された学習用ＣＧデータ群１４に格納する（Ｓ２８０）。その後、図３のフローチャートに示す処理を終了する。

　具体的には、第二ＣＧデータ選択部２４は、たとえば、第二ＣＧデータ生成部２１がステップＳ２２０で生成した１つ以上の第二ＣＧデータのうち、画像変動算出部２３がステップＳ２７０で算出した変動量が所定の閾値を超える第二ＣＧデータを選択する。このとき閾値としては、たとえば、変動画像の画素の値が取り得る値の中央値を設定することができる。もしくは、ユーザがあらかじめ設定してもよい。

　図６は、第二ＣＧデータ選択部２４における操作画面の一例を示す説明図である。同図に示す操作画面１０００は、ステップＳ２８０において、学習用データ生成装置１の出力装置６や、通信装置７を介して通信可能な不図示のディスプレイなどに表示される。

　操作画面１０００には、選択結果１００１と変動量設定１００２が含まれる。選択結果１００１では、第二ＣＧデータの選択結果が列１０１１に、各第二ＣＧデータの変動量の値が列１０１２に、第一合成画像と第二合成画像、またはこれらの縮小画像が列１０１３にそれぞれ表示される。列１０１１において、第二ＣＧデータ選択部２４がステップＳ２８０で選択した第二ＣＧデータの欄には「１」が表示され、他の欄には「０」が表示される。また、変動量設定１００２では、第二ＣＧデータ選択時の変動量の使用結果が列１０２１に、閾値が列１０２２にそれぞれ表示される。列１０２１において、第二ＣＧデータ選択部２４がステップＳ２８０で第二ＣＧデータを選択する際に使用された変動量の欄には「１」が表示され、他の欄には「０」が表示される。

　ユーザは、選択結果１００１の列１０１１を書き換えることで、選択される第二ＣＧデータを任意に変更することができる。また、変動量設定１００２の列１０２１、１０２２を書き換えることで、第二ＣＧデータ選択部２４が第二ＣＧデータを選択する際に使用される変動量と閾値を任意に変更することができる。

　以上、詳細に説明したように、本実施形態の学習用データ生成装置１において、学習用ＣＧデータ生成部２０は、第一ＣＧデータのＣＧパラメータを変動させることで、第二ＣＧデータを１つ以上生成する。そして、第一ＣＧデータから生成される第一合成画像と、第二ＣＧデータから生成される第二合成画像との間の変動に基づき、第一ＣＧデータに対して見た目が異なる画像を生成可能な第二ＣＧデータを選択することができる。したがって、学習用データ生成装置１は、学習用ＣＧデータ生成部２０によって選択された第二ＣＧデータ（学習用ＣＧデータ）から学習用画像を生成することで、多様な学習用画像の生成を図ることができる。

＜学習用データ生成部３０の処理例＞
　図７は、学習用データ生成装置１が、学習用データ生成部３０において、学習用データを生成する処理の例を説明するフローチャートである。

　まず、学習用データ生成部３０は、学習用画像生成部３１において、記憶部１０が有する学習用ＣＧデータ群１４から学習用ＣＧデータ、すなわち、第二ＣＧデータ選択部２４が図３のステップＳ２８０で選択した第二ＣＧデータを取得する(Ｓ３１０)。

　続いて、学習用データ生成部３０は、学習用画像生成部３１において、ステップＳ３１０で取得した学習用ＣＧデータ（第二ＣＧデータ）から、学習用画像を生成する（Ｓ３２０）。具体的には、学習用画像生成部３１は、学習用ＣＧデータが有するＣＧパラメータに基づき、ＣＧ空間を作成し、そのＣＧ空間内に１つ以上のＣＧモデルとカメラモデルをそれぞれ設定（配置）する。そして、カメラモデルによって各ＣＧモデルを撮影することで得られる画像を、学習用画像として生成する。このとき学習用画像生成部３１は、生成した学習用画像に対して、グレースケール化などの画像処理や、深層学習による画像変換などを適用してもよい。また、図３のステップＳ２４０で画像生成部２２が生成した第二合成画像を記憶部１０に保存しておき、これを用いることで、ステップＳ３２０の処理を省略してもよい。

　続いて、学習用データ生成部３０は、教師信号生成部３２において、学習用画像生成部３１がステップＳ３１０で取得した学習用ＣＧデータ（第二ＣＧデータ）から、教師信号を生成する（Ｓ３３０）。具体的には、教師信号生成部３２は、たとえば、ステップＳ３２０で学習用画像生成部３１が生成した学習用画像上の各ＣＧモデル、および／または各ＣＧモデルを構成する各部品の領域を、前述の第一領域画像や第二領域画像と同様に塗り分けた領域画像を、教師信号として生成する。なお、図３のステップＳ２４０で画像生成部２２が生成した第二領域画像を記憶部１０に保存しておき、これを用いることで、ステップＳ３３０の処理を省略してもよい。

　さらに教師信号生成部３２は、生成した領域画像に基づき、各ＣＧモデルやＣＧモデルを構成する各部品の領域を囲む二次元バウンディングボックスを作成し、これを教師信号に含めてもよい。また教師信号生成部３２は、ステップＳ３２０で学習用画像生成部３１が生成した学習用画像の各画素に対して、当該画素に対応するＣＧモデルとカメラモデルとの間のＣＧ空間における距離値を埋め込み、これを教師信号に含めてもよい。また教師信号生成部３２は、学習用画像生成部３１がステップＳ３１０で取得した学習用ＣＧデータ（第二ＣＧデータ）に含まれる各ＣＧパラメータ、たとえば、ＣＧ空間に関する背景情報や環境光に関するパラメータ、各ＣＧモデルおよびＣＧモデルを構成する各部品に関するＣＧ空間上での位置および角度、色、模様、反射特性、動き、形状などのパラメータ、照明に関するＣＧ空間上での位置および角度、照射方向、照度などのパラメータ、カメラモデルに関するＣＧ空間上での位置や角度などのパラメータなどを、教師信号に含めてもよい。また教師信号生成部３２は、学習用画像上の各ＣＧモデルおよびＣＧモデルを構成する各部品に関して、学習用画像生成部３１がステップＳ３１０で取得した学習用ＣＧデータ（第二ＣＧデータ）に含まれる各ＣＧパラメータから作成される情報、たとえば、クラス名や属性情報、三次元バウンディングボックス、ボリュームデータ等を教師信号に含めてもよい。これ以外にも、学習用ＣＧデータから得られる任意の情報を教師信号に含めることができる。

　続いて、学習用データ生成部３０は、教師信号生成部３２において、ステップＳ３２０で学習用画像生成部３１が生成した学習用画像と、ステップＳ３３０で生成した教師信号とを互いに対応付けて、学習用データを作成する。そして、作成した学習用データを記憶部１０に記憶された学習用データ群１５に格納する（Ｓ３４０）。その後、図７のフローチャートに示す処理を終了する。

　以上、詳細に説明したように、本実施形態の学習用データ生成装置１は、学習用ＣＧデータ生成部２０において、見た目が異なる画像を生成することのできる第二ＣＧデータを生成し、学習用データ生成部３０において、学習用ＣＧデータ生成部２０が生成した第二ＣＧデータから学習用データを生成する。これにより、多様な学習用画像を含む学習用データの生成を図ることができる。

　以上説明した本発明の第１の実施形態によれば、以下の作用効果が得られる。

（１）学習用データ生成装置１は、第二ＣＧデータ生成部２１と、画像生成部２２と、画像変動算出部２３と、第二ＣＧデータ選択部２４と、学習用画像生成部３１とを備える。第二ＣＧデータ生成部２１は、１つ以上のＣＧモデルを含むＣＧ空間に関する１つ以上のＣＧパラメータを有する第一ＣＧデータを取得し（Ｓ２１０）、第一ＣＧデータのＣＧパラメータを変動させた第二ＣＧデータを１つ以上生成する（Ｓ２２０）。画像生成部２２は、第一ＣＧデータから１つ以上の第一画像を生成し（Ｓ２３０）、第二ＣＧデータから１つ以上の第二画像を生成する（Ｓ２４０）。画像変動算出部２３は、第一画像と第二画像の間の変動量を算出する（Ｓ２５０～Ｓ２７０）。第二ＣＧデータ選択部２４は、変動量に基づいて、１つ以上の第二ＣＧデータからいずれかを選択する（Ｓ２８０）。学習用画像生成部３１は、第二ＣＧデータ選択部２４によって選択された第二ＣＧデータから、１つ以上の学習用画像を生成する（Ｓ３２０）。このようにしたので、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することができる。

（２）画像生成部２２は、ステップＳ２３０では、第一ＣＧデータが有するＣＧパラメータに基づくＣＧ空間において、第一ＣＧデータが有するＣＧパラメータに基づいてカメラモデル（第一カメラモデル）を設定する。そして、第一カメラモデルによってＣＧ空間内の各ＣＧモデルを撮影した第一合成画像と、第一合成画像上の各ＣＧモデルおよび／または各ＣＧモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第一領域画像と、を生成する。また、ステップＳ２４０では、第二ＣＧデータが有するＣＧパラメータに基づくＣＧ空間において、第二ＣＧデータが有するＣＧパラメータに基づいてカメラモデル（第二カメラモデル）を設定する。そして、第二カメラモデルによってＣＧ空間内の各ＣＧモデルを撮影した第二合成画像と、第二合成画像上の各ＣＧモデルおよび／または各ＣＧモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第二領域画像と、を生成する。画像変動算出部２３は、第一合成画像と第二合成画像から変動画像を生成し（Ｓ２５０）、第一領域画像と第二領域画像から算出対象領域を抽出し（Ｓ２６０）、変動画像における算出対象領域の画像情報に基づいて変動量を算出する（Ｓ２７０）。このようにしたので、第一画像と第二画像の間の変動の大きさを表す変動量を、確実に算出することができる。

（３）画像変動算出部２３は、第一合成画像および第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した色味および明度成分の少なくとも一方に基づいて変動画像を生成することができる。このようにすれば、変動画像を容易に生成することが可能となる。

（４）また、画像変動算出部２３は、第一領域画像を第一合成画像、第二領域画像を第二合成画像としてそれぞれ用いて変動量を算出してもよい。このようにすれば、変動量を容易に算出することが可能となる。

（５）さらに、画像生成部２２は、第一合成画像の各画素に対して、当該画素に対応するＣＧモデルと第一カメラモデルとの間のＣＧ空間における距離値を埋め込むとともに、第二合成画像の各画素に対して、当該画素に対応するＣＧモデルと第二カメラモデルとの間のＣＧ空間における距離値を埋め込むようにしてもよい。このようにすれば、画像変動算出部２３が変動画像を容易に生成することが可能となる。

（６）学習用データ生成装置１は、第二ＣＧデータから教師信号を生成し（Ｓ３３０）、生成した教師信号と学習用画像とを対応付けた学習用データを生成する（Ｓ３４０）教師信号生成部３２を備える。このようにしたので、多様な学習用画像を含む学習用データを生成することができる。

（第２の実施形態）
　次に、本発明の第２の実施形態について、図８を参照して以下に説明する。本実施形態では、変動量が所定の閾値を超える第二ＣＧデータが十分に得られなかった場合に、第二ＣＧデータを再生成する例を説明する。

　なお、本実施形態における学習用データ生成装置のハードウェア構成と機能構成は、第１の実施形態において図１、図２に示したものとそれぞれ同一である。したがって以下では、第１の実施形態と共通のハードウェア構成と機能構成を用いて、本実施形態の学習用データ生成装置を説明する。

　図８は、本発明の第２の実施形態に係る学習用データ生成装置１が、学習用ＣＧデータ生成部２０において、学習用ＣＧデータを生成する処理の例を説明するフローチャートである。なお、図８のフローチャートにおいて、第１の実施形態で説明した図３のフローチャートと同様の処理を行う部分については、図３と共通のステップ番号としている。以下では、図３と共通のステップ番号が付された処理の説明を省略して、図８のフローチャートを説明する。

　第二ＣＧデータ生成部２１が生成した全ての第二ＣＧデータに対してステップＳ２４０からステップＳ２７０の処理を実施したら、続いて、学習用ＣＧデータ生成部２０は、画像変動算出部２３がステップＳ２７０で算出した変動量を所定の閾値と比較し、変動量が閾値以上の第二ＣＧデータが所定数以上あるか否かを判定する（Ｓ２７１）。変動量が閾値以上の第二ＣＧデータが所定数以上ある場合はステップＳ２８０Ａへ進み、ない場合はステップＳ２７２へ進む。

　ステップＳ２７２では、第二ＣＧデータ選択部２４において、第二ＣＧデータ生成部２１がステップＳ２２０で生成した１つ以上の第二ＣＧデータのうち、画像変動算出部２３がステップＳ２７０で算出した変動量が最も大きい第二ＣＧデータを選択する。そして、第二ＣＧデータ生成部２１において、第二ＣＧデータ選択部２４が選択した第二ＣＧデータのＣＧパラメータを、さらに変動量が大きくなるように調整することで、１つ以上の新たな第二ＣＧデータを再生成する。たとえば、選択した第二ＣＧデータが有する各ＣＧパラメータを、第一ＣＧデータにおけるＣＧパラメータ値との差分が大きくなるように変化させることで、変動量が大きくなるように第二ＣＧデータを調整することができる。

　ステップＳ２７２で１つ以上の第二ＣＧデータを再生成したら、学習用ＣＧデータ生成部２０は、ステップＳ２４０へ戻り、再生成後の各第二パラメータに対して、ステップＳ２４０からＳ２７０の処理を繰り返す。これにより、学習用ＣＧデータ生成部２０は、第二ＣＧデータ生成部２１が再生成した１つ以上の第二ＣＧデータの各々に対して、第一ＣＧデータからの変動量を算出することができる。

　ステップＳ２８０Ａでは、第二ＣＧデータ選択部２４において、第二ＣＧデータ生成部２１がステップＳ２２０で生成するか、もしくはステップＳ２７２で再生成した１つ以上の第二ＣＧデータのうち、画像変動算出部２３がステップＳ２７０で算出した変動量が所定の閾値を超える第二ＣＧデータを選択する。そして、選択した第二ＣＧデータを学習用ＣＧデータとして、記憶部１０に記憶された学習用ＣＧデータ群１４に格納する。その後、図８のフローチャートに示す処理を終了する。

　以上説明した本発明の第２の実施形態によれば、第二ＣＧデータ生成部２１は、変動量に基づき、１つ以上の第二ＣＧデータを再生成する（Ｓ２７２）。このようにしたので、多様な学習用画像を確実に生成することができる。

　なお、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。たとえば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、説明した全ての構成を備えるものに必ずしも限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。

　また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、たとえば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

　また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。たとえば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。

　また以上に説明した各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

　また前述した各種のデータを格納するデータベースの構成（スキーマ（Schema）等）は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。

１　学習用データ生成装置
２　プロセッサ
３　主記憶装置
４　補助記憶装置
５　入力装置
６　出力装置
７　通信装置
１０　記憶部
１１　第一ＣＧデータ群
１２　ＣＧデータ変動制約表
１３　算出対象選定表
１４　学習用ＣＧデータ群
１５　学習用データ群
２０　学習用ＣＧデータ生成部
２１　第二ＣＧデータ生成部
２２　画像生成部
２３　画像変動算出部
２４　第二ＣＧデータ選択部
３０　学習用データ生成部
３１　学習用画像生成部
３２　教師信号生成部

Claims

　１つ以上のＣＧモデルを含むＣＧ空間に関する１つ以上のＣＧパラメータを有する第一ＣＧデータを取得し、前記第一ＣＧデータの前記ＣＧパラメータを変動させた第二ＣＧデータを１つ以上生成する第二ＣＧデータ生成部と、
　前記第一ＣＧデータから１つ以上の第一画像を生成し、前記第二ＣＧデータから１つ以上の第二画像を生成する画像生成部と、
　前記第一画像と前記第二画像の間の変動量を算出する画像変動算出部と、
　前記変動量に基づいて、１つ以上の前記第二ＣＧデータからいずれかを選択する第二ＣＧデータ選択部と、
　前記第二ＣＧデータ選択部によって選択された前記第二ＣＧデータから、１つ以上の学習用画像を生成する学習用画像生成部と、を備える、学習用データ生成装置。
　請求項１に記載の学習用データ生成装置であって、
　前記画像生成部は、
　前記第一ＣＧデータが有する前記ＣＧパラメータに基づく前記ＣＧ空間において、前記第一ＣＧデータが有する前記ＣＧパラメータに基づいて第一カメラモデルを設定し、
　前記第一カメラモデルによって前記ＣＧ空間内の各ＣＧモデルを撮影した第一合成画像と、前記第一合成画像上の各ＣＧモデルおよび／または各ＣＧモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第一領域画像と、を生成し、
　前記第二ＣＧデータが有する前記ＣＧパラメータに基づく前記ＣＧ空間において、前記第二ＣＧデータが有する前記ＣＧパラメータに基づいて第二カメラモデルを設定し、
　前記第二カメラモデルによって前記ＣＧ空間内の各ＣＧモデルを撮影した第二合成画像と、前記第二合成画像上の各ＣＧモデルおよび／または各ＣＧモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第二領域画像と、を生成し、
　前記画像変動算出部は、
　前記第一合成画像と前記第二合成画像から変動画像を生成し、
　前記第一領域画像と前記第二領域画像から算出対象領域を抽出し、
　前記変動画像における前記算出対象領域の画像情報に基づいて前記変動量を算出する、学習用データ生成装置。
　請求項２に記載の学習用データ生成装置であって、
　前記画像変動算出部は、前記第一合成画像および前記第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した前記色味および前記明度成分の少なくとも一方に基づいて前記変動画像を生成する、学習用データ生成装置。
　請求項２に記載の学習用データ生成装置であって、
　前記画像変動算出部は、前記第一領域画像を前記第一合成画像、前記第二領域画像を前記第二合成画像としてそれぞれ用いて前記変動量を算出する、学習用データ生成装置。
　請求項２に記載の学習用データ生成装置であって、
　前記画像生成部は、前記第一合成画像の各画素に対して、当該画素に対応する前記ＣＧモデルと前記第一カメラモデルとの間の前記ＣＧ空間における距離値を埋め込むとともに、前記第二合成画像の各画素に対して、当該画素に対応する前記ＣＧモデルと前記第二カメラモデルとの間の前記ＣＧ空間における距離値を埋め込む、学習用データ生成装置。
　請求項１に記載の学習用データ生成装置であって、
　前記第二ＣＧデータ生成部は、前記変動量に基づき、１つ以上の前記第二ＣＧデータを再生成する、学習用データ生成装置。
　請求項１に記載の学習用データ生成装置であって、
　前記第二ＣＧデータから教師信号を生成し、生成した前記教師信号と前記学習用画像とを対応付けた学習用データを生成する教師信号生成部を備える、学習用データ生成装置。