WO2021193391A1

WO2021193391A1 - データ生成方法、学習方法及び推定方法

Info

Publication number: WO2021193391A1
Application number: PCT/JP2021/011271
Authority: WO
Inventors: 肇保坂; 宜邦野村; 森山　豊; 龍平秦; 嘉基安藤; 雄亮新見
Original assignee: ソニーセミコンダクタソリューションズ株式会社
Priority date: 2020-03-26
Filing date: 2021-03-18
Publication date: 2021-09-30
Also published as: JP2023062217A; CN115298693A; US20230147960A1

Abstract

［課題］センサ状態を様々に設定した訓練データを生成する［解決手段］データ生成方法は、プロセッサによってCGモデルから機械学習に用いる訓練データを生成する方法である。このデータ生成方法は、前記CGモデルにおいて、第1撮影条件により取得される第1画像と、前記第1撮影条件と異なる第2撮影条件により取得される第2画像をシミュレーションにより生成し、少なくとも前記第1画像及び前記第2画像を前記訓練データにおける入力画像データとして取得する。

Description

データ生成方法、学習方法及び推定方法

　本開示は、データ生成方法、学習方法及び推定方法に関する。

　今日、ディープラーニングをはじめとして、機械学習による推定モデル生成等が広く研究されている。機械学習を実行する場合には、生成するモデルに多くの訓練データを入力する必要がある。また、バリデーションを実行するためにも、多くの訓練データが必要となる。画像を入力とするモデル生成に用いる訓練データの収集には、実際の風景を写真として取得したり、絵画を描いたりする必要がある。これらの訓練データを収集した後には、訓練を実行する人間が個々の訓練データに対してアノテーションを付与する必要があることが多い。

　このデータの収集には手間が掛かり、収集したデータを用いたとしても望ましい推定結果が得られるモデルを訓練するのが困難であることがある。例えば、ステレオカメラで撮影されたステレオ画像から、当該カメラの中心位置から撮影した画像を推定する場合、教師データとして当該中心位置から撮影した画像が必要となるが、この画像を取得することは、カメラの大きさ等の問題から物理的に困難である。

　また、事実上、複数の同種又は異種のセンサにより、同じ時刻に、同じ方向を向いたカメラで、同じ景色を撮影することはできない。例えば、RGB画像を取得するカメラの画像からターゲットまでの距離を取得する場合、このカメラの隣りにTOF画像を取得するカメラを並べて撮影し、TOF画像から求められた距離を教師データとしてターゲットまでの距離を推定するモデルを生成することができる。しかしながら、どのように推定モデルを訓練したとしても、RGB画像を取得したセンサの面からの距離をTOF画像により正確に取得することは困難であり、このため、このように訓練されたモデルは、決して小さくない誤差を有することが多い。

特開平６－３４８８４０号公報

　そこで、本開示は、様々なセンサ状態において任意に撮影した訓練データを生成することを実現する。

　一実施形態によれば、データ生成方法は、プロセッサによってCGモデルから機械学習に用いる訓練データを生成する方法であって、CGモデルにおいて、第1撮影条件により取得される第1画像と、第1撮影条件と異なる第2撮影条件により取得される第2画像をシミュレーションにより生成し、少なくとも第1画像及び第2画像を訓練データにおける入力画像データとして取得する。

　第1撮影条件に含まれる撮影位置は、第2撮影条件に含まれる撮影位置とは異なる位置であってもよい。

　CGモデル内において、第1撮影条件及び第2撮影条件のいずれか一方と同じ位置、又は、第1撮影条件及び第2撮影条件の双方とも異なる位置から撮影する条件を含む第3撮影条件により取得される第3画像をシミュレーションにより生成してもよく、少なくとも第3画像を訓練データにおける出力画像データとして取得してもよい。

　撮影条件としてさらに、第1撮影条件と第2撮影条件は、異なる画角を有する光学系を備えてもよい。

　撮影条件としてさらに、第3撮影条件の画角を複数に変化させて撮影された第3画像を取得してもよい。

　撮影条件としてさらに、第1撮影条件と第2撮影条件は、異なるダイナミックレンジを有する光学系を備えてもよい。

　第1撮影条件は、第2撮影条件より画素値が飽和しにくくてもよく、第2撮影条件は、第1撮影条件よりノイズが小さくてもよい。

　第1撮影条件は、感知情報を対数変換して取得するセンサであってもよく、第2撮影条件は、感知情報を対数変換せずに取得するセンサであってもよい。

　第1撮影条件と第2撮影条件は、露光時間が異なってもよい。

　第1撮影条件と第2撮影条件は、センサにおける電荷の蓄積時間が異なってもよい。

　第3画像は、ハイダイナミックレンジを有する画像であってもよい。

　撮影条件としてさらに、第1撮影条件と第2撮影条件は、センサが感知する情報が異なる条件を含んでもよい。

　第1撮影条件は、カラー情報を取得する撮影であってもよく、第2撮影条件は、温度情報を取得する撮影であってもよい。

　第2撮影条件は、赤外線を感知するセンサによる撮影であってもよい。

　第1撮影条件は、グレースケール情報を取得する撮影であってもよく、第2撮影条件は、カラー情報を取得する撮影であってもよい。

　第1撮影条件は、グレースケール情報を取得する撮影であってもよく、第2撮影条件は、プラズモン共鳴を用いて情報を取得する撮影であってもよい。

　第1撮影条件におけるセンサの画素サイズと、第2撮影条件におけるセンサの画素サイズが異なるサイズであってもよい。

　第1撮影条件は、カラー情報を取得する撮影であってもよく、第2撮影条件は、距離情報を取得する撮影であってもよい。

　第3撮影条件は、第1撮影条件と同じ位置、同じ方向における距離情報を取得する撮影であってもよい。

　第2撮影条件及び第3撮影条件は、TOF画像を取得する撮影であってもよい。

　第1撮影条件と、第2撮影条件は、超広角レンズを含む光学系であって、互いに機械的に干渉しない光学系を有する逆方向を向いた撮像系による撮影であってもよい。

　第3撮影条件と異なる方向を向き、第3撮影条件の光学系と同一の主点を有する光学系による撮影である、第4撮影条件により取得された第4画像をシミュレーションにより生成してもよく、第4画像を訓練データの出力データとして取得してもよい。

　第2撮影条件は、第1撮影条件に対する相対的な所定位置からランダムにずれた位置から、第1撮影条件の光軸と平行な所定方向からランダムにずれた光軸の方向を撮影してもよい。

　所定位置からの第2撮影条件の位置のずれと、所定方向からの第2撮影条件の光軸の方向のずれと、を訓練データの教師データとして取得してもよい。

　第1所定位置、第2所定位置、第1光軸方向及び第2光軸方向を設定してもよく、第1撮影条件は、第1所定位置からランダムにずれた位置から第1光軸方向からランダムにずれた方向を撮影してもよく、第2撮影条件は、第2所定位置からランダムにずれた位置から第2光軸方向からランダムにずれた方向を撮影してもよい。

　第1所定位置から第1光軸方向を撮影する、第3撮影条件により取得された第3画像をシミュレーションにより生成してもよく、第2所定位置から第2光軸方向を撮影する、第4撮影条件により取得された第4画像をシミュレーションにより生成してもよく、第3画像及び第4画像を訓練データの教師データとして取得してもよい。

　撮影条件は、3以上の訓練データにおける入力画像データのセットを生成する条件を含んでもよい。

　撮影条件は、2以上の訓練データにおける出力画像データのセットを生成する条件を含んでもよい。

　一実施形態によれば、学習方法は、上記のデータ生成方法により生成された訓練データを用いて、推定モデルの最適化を実行する。

　推定モデルは、ニューラルネットワークモデルであってもよい。

　一実施形態によれば、推定方法は、上記のデータ生成方法により生成された訓練データを用いて最適化された推定モデルを用いて、実写データである入力データに対する推定データを取得する。

　一実施形態によれば、データ生成装置は、メモリと、プロセッサと、を備え、プロセッサにより、上記のデータ生成方法を実行する

　一実施形態によれば、学習装置は、メモリと、プロセッサと、を備え、プロセッサにより、上記の学習方法を実行する。

　一実施形態によれば、推定装置は、メモリと、プロセッサと、を備え、プロセッサにより、上記の推定方法を実行する。

　一実施形態によれば、プログラムは、プロセッサに、上記のデータ生成方法、学習方法又は推定方法を実行させる。

　一実施形態によれば、非一時的コンピュータ可読媒体は、上記のいずれかを実行するためのプログラムを格納する。

　一実施形態によれば、学習モデルの生成方法は、プロセッサによってCGモデルから生成した機械学習に用いる訓練データを用いて学習モデルを生成する方法であって、前記CGモデルにおいて、第1撮影条件により取得される第1画像と、前記第1撮影条件と異なる第2撮影条件により取得される第2画像をシミュレーションにより生成し、少なくとも前記第1画像及び前記第2画像を前記訓練データにおける入力画像データとして取得する。

　前記学習モデルの生成方法において、前記入力画像データの取得は、上記に記載のいずれかのデータ生成方法により生成されてもよい。

　一実施形態によれば、記憶媒体の生成方法は、上記の学習モデルの生成方法で生成された学習モデルを記憶媒体に記憶することを含む。

　一実施形態によれば、電子機器の生成方法は、上記の学習モデルの生成方法で生成された学習モデルを電子機器の記憶媒体に記憶することを含む。

一実施形態に係るデータ生成システムの一例を示す図。一実施形態に係る訓練装置の一例を示す図。一実施形態に係る推定装置の一例を示す図。一実施形態に係るデータ生成システムの処理を示すフローチャート。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係る現実世界におけるカメラ配置の一例を示す図。一実施形態に係る現実世界における推定像を取得するカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係る現実世界におけるカメラ配置の一例を示す図。一実施形態に係る現実世界における推定像を取得するカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係る現実世界におけるカメラ配置の一例を示す図。一実施形態に係る現実世界における推定像を取得するカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係る現実世界における推定像を取得するカメラ配置の一例を示す図。一実施形態に係るCGモデル内におけるカメラ配置の一例を示す図。一実施形態に係る現実世界における推定像を取得するカメラ配置の一例を示す図。ＡＩ処理を行う装置を含むシステムの構成例を示す図である。電子機器の構成例を示すブロック図である。エッジサーバ又はクラウドサーバの構成例を示すブロック図である。光センサの構成例を示すブロック図である。処理部の構成例を示すブロック図である。ＡＩを利用した処理の流れを説明するフローチャートである。補正処理の流れを説明するフローチャートである。ＡＩを利用した処理の流れを説明するフローチャートである。学習処理の流れを説明するフローチャートである。複数の装置間でのデータの流れを示す図である。

　以下、図面を用いて本開示における実施形態について説明する。本開示においては、様々な状態で撮影された画像を、CGモデルを用いたシミュレーションにより生成して取得し、機械学習における訓練データとする。様々な状態で撮影された画像とは、例えば、複数の同じ性能又は異なる性能を有するカメラにより撮影された、様々な方向又は状況における画像である。

　図１は、一実施形態に係るデータ生成システムの一例を示す図である。このデータ生成システム1は、別々の装置により構成されているが、これらの全てを包含する機能を有するデータ生成装置として構成されてもよい。データ生成システム1は、CGジェネレータ2と、シミュレータ3とを備える。

　CGジェネレータ2は、CGモデルを生成する装置である。CGジェネレータ2は、例えば、風景のCGモデル内に、1以上のオブジェクトを配置する。このCGの生成は、ユーザの指示により実現されてもよい。

　シミュレータ3は、入出力インタフェース（以下、入出力I/F 300と記載する。）と、記憶部302と、条件設定部304と、画像生成部306と、を備える。このシミュレータ3は、CGジェネレータ2が生成したCGモデルを用いたシミュレーションを実行し、機械学習用の訓練データを生成する。シミュレータ3は、CGモデルにおいて光線の条件、及び、カメラの位置、光学系、センサ系の条件を考慮したシミュレーションを実行することにより、様々な撮影条件下における画像を生成する。シミュレータ3は、例えば、レイトレーシング等のレンダリングを実行して画像を生成する。

　入出力I/F 300は、シミュレータ3と外部とのデータの送信、受信を実行する。例えば、入出力I/F 300は、CGジェネレータ2が生成したCGモデルを入力として受け付け、記憶部302に記憶する。また、入出力I/F 300は、シミュレータ3が生成した画像を外部へと出力する。さらに、ユーザからのリクエストをこの入出力I/F 300が受け付けてもよい。

　記憶部302は、少なくともシミュレータ3に必要なデータを格納する。例えば、入出力I/F 300を介して入力されたデータ等を格納してもよい。例えば、条件設定部304が設定した情報を格納してもよい。また、例えば、画像生成部306が生成した画像を格納してもよい。

　条件設定部304は、CGモデル内における撮影条件を設定する。撮影条件は、例えば、CGモデル内において画像を取得するカメラの条件、又は、光源等の外部の条件である。カメラの条件は、例えば、カメラのレンズ系の条件と、当該レンズ系を介して受光するセンサの条件とを含む。光源の条件は、例えば、光源の種類、光源の方向等を決定する条件である。

　画像生成部306は、条件設定部304が設定した条件に基づいて、CGモデルにおいて取得される画像をシミュレーションにより生成する。シミュレーションは、数値計算により実行される。この生成は、レイトレーシング等のレンダリング手法を用いて実行される。画像生成部306は、例えば、CGモデル内の環境、オブジェクトの情報に対して、条件設定部304において設定された光源からの光を照射し、レンダリングされたモデルを生成する。このレンダリングされたモデルを、カメラに関する撮影条件に基づいて、どのような画像が取得できるかをシミュレートし、撮影条件に対するCGモデルの画像を取得する。

　条件設定部304は、複数の撮影条件を設定することも可能であり、この場合、画像生成部306は、同じCGモデルに対して複数の撮影条件において取得できる画像を生成する。例えば、条件設定部304が第1撮影条件、第2撮影条件、第3撮影条件の3つの撮影条件を設定した場合、画像生成部306は、第1撮影条件に基づいて第1画像、第2撮影条件に基づいて第2画像、第3撮影条件に基づいて第3画像をそれぞれシミュレートして生成する。この第1画像、第2画像、第3画像が訓練データとしてデータ生成システム1から出力される。なお、上記では撮影条件は、3つであるとしたが、これには限られず、2つであってもよいし、4つ以上であってもよい。

　図２は、一実施形態に係る機械学習を実行する訓練装置（学習装置）の一例を示す図である。訓練装置4は、入出力I/F 400と、記憶部402と、訓練部404と、を備え、さらに、訓練の対象となるモデル406を備える。訓練装置4は、例えば、データ生成システム1が出力した訓練データを用いて画像からなんらかの結果を推定するモデル406の訓練を実行する。

　入出力I/F 400は、訓練装置4と外部との間でデータ等の入出力を実行する。

　記憶部402は、少なくとも訓練装置4に必要なデータを格納する。例えば、入出力I/F 400を介して入力された訓練データ等が格納されてもよい。例えば、訓練部404が訓練の実行に必要なデータを格納してもよい。また、例えば、モデル406を構成するハイパーパラメータ、最適化途中のパラメータ又は最適化されたパラメータのうち少なくとも1つを格納してもよい。

　訓練部404は、入出力I/F 400を介して入力された訓練データを用いてモデル406を機械学習の手法を用いて訓練する。この機械学習は、一般的に知られている方法で実行されてもよい。訓練により最適化が終了したモデルは、入出力I/F 400を介して出力されてもよいし、記憶部402に記憶されてもよい。

　モデル406は、何らかのデータが入力されると、そのデータに関する別のデータを推定して出力するモデルである。モデル406は、ニューラルネットワークモデルであってもよい。また、種々の統計モデルに基づいたモデルであってもよい。最適化されると、モデル406は、学習済モデルとして出力される。

　この訓練装置4は、データ生成システム1から出力された複数組の訓練データに基づいて、モデル406の最適化を実行する。データ生成システム1は、訓練装置4における最適化に必要となる訓練データの組を生成する。この訓練データは、オーグメンテーションの手法により、さらに多数のデータへと変換されてもよいし、データ生成システム1において、推定モデル最適化のために必要な条件に拘束された撮影条件を種々設定した上で複数回のデータの取得を実行してもよい。

　図３は、一実施形態に係る推定を実行する推定装置の一例を示す図である。推定装置5は、入出力I/F 500と、記憶部502と、推定部504と、を備え、さらに、推定に用いる学習済モデル506を備える。推定装置5は、学習済モデル506にデータを入力することにより、推定結果を出力する。

　入出力I/F 500は、推定装置5と外部との間でデータ等の入出力を実行する。

　記憶部502は、少なくとも推定装置5に必要なデータを格納する。例えば、入出力I/F 500を介して入力されたデータ等が格納されてもよい。例えば、推定部504が推定の実行に必要なデータを格納してもよい。また、例えば、学習済モデル506を構成するハイパーパラメータ又は最適化済みのパラメータのうち少なくとも1つを格納してもよい。

　推定部504は、入出力I/F 500を介して入力されたデータから、学習済モデル506を用いることにより推定データを取得し、入出力I/F 500を介して出力、又は、記憶部502へと格納する。

　学習済モデル506は、訓練装置4により、データ生成システム1により生成された訓練データにより最適化されたモデルである。学習済モデル506は、適切なデータが入力されると、当該データに対して所定の推定を実行したデータを出力する。

　なお、訓練装置4と推定装置5の構成要素は、同じ装置内に備えられていてもよい。すなわち、訓練装置4と推定装置5は、1の装置として構成されてもよい。このように構成することにより、一度最適化が終了した学習済モデル506の再訓練を実現しながら推定をも実現することが可能となる。

　このように、データ生成システム1により生成された訓練データを用いて訓練装置4により推定モデルが最適化され、この推定モデルを用いて推定装置5を形成することができる。

　図４は、データ生成システム1の処理の一例を示すフローチャートである。

　まず、データ生成システム1は、CGジェネレータ2によりCGモデルを取得する（S100）。CGモデルは、CGジェネレータ2により生成されたものには限られず、予め生成されていたCGモデルを用いてもよい。この場合、データ生成システム1においてCGジェネレータ2は、必須の構成では無い。

　次に、CGモデル内に撮影条件に基づいてシミュレータ上のカメラを設定する（S102）。カメラを設定するとともに、撮影条件に基づいた光源等の情報を設定してもよい。カメラの設定とは、例えば、撮影条件に基づいたレンズ等の光学系、及び、センサ等の受光系を、撮影条件により設定されているカメラの位置に基づいて設置する。

　次に、シミュレータ3は、撮影条件に基づいてCGモデル内を撮影した状態をシミュレートし、撮影条件にしたがった画像を取得する（S104）。シミュレータ3は、例えば、上記のS102 によりCGモデル内に設定されたカメラに基づいてレンダリングをして、当該カメラにより取得される画像を生成する。

　次に、シミュレータ3により生成された画像を出力する（S106）。出力した画像は、例えば、訓練装置4に入力され、機械学習に基づいた手法により推定モデルの最適化が実行される。

　撮影条件が複数ある場合には、S102において複数の撮影条件を設定し、S104において複数の画像を取得し、S106において複数の画像を出力してもよい。別の例として、S102からS106を複数ある撮影条件ごとに繰り返してもよい。例えば、3つの撮影条件が設定される場合には、撮影条件を変更しつつS102からS106の処理を3回繰り返すことにより3種類の画像を取得してもよい。

　本開示においては、このように、CGモデルから機械学習に用いる訓練データを生成する方法について説明する。この方法は、例えば、コンピュータのプロセッサにより実現されるものである。

　具体的には、CGモデルにおいて、複数の撮影条件により取得されるであろう画像をシミュレータ3により生成して、データ生成システム1は、これらの生成された画像の少なくとも1つを訓練データとして取得する。

　以下、撮影条件及び当該撮影条件に対する推定について、本開示における非限定的な例である実施形態としていくつか説明する。

　（第1実施形態）
　第1実施形態では、CGモデル内において異なる位置から撮影した少なくとも2つの画像と、当該2つの画像のうち一方と同じ位置、又は、双方と異なる位置から撮影した少なくとも1つの画像とを取得する。

　図５Ａは、本実施形態に係る撮影条件についてシミュレーション上のカメラを例に示した図である。これらのカメラは、CGモデル内に配置され、CGモデル内の環境及び／又は物体を撮影する。撮影は、静止画には限られず、動画であってもよい。以下の説明においては、一例として、物体M1を撮影するものとするが、これは、物体に限られず、景色等であってもよい。また、人間が道具なしに見るものを撮影するには限られず、例えば、顕微鏡、内視鏡、望遠鏡等の画像を取得するものであってもよい。

　それぞれのカメラは、CGモデル内の物体M1を撮影する。

　カメラは、例えば、カメラC0、C1、C2の3つを用いるが、カメラの個数は、これに限られずさらに多くてもよい。それぞれのカメラに、撮影条件が対応する。撮影条件は、図に示されるようにカメラの位置を含み、さらに、CGモデル内の光源の状態（光の照射状態）、それぞれのカメラのレンズ・センサに関する情報を含んでも良い。

　カメラC0は、理想的な画像を取得するカメラであり、機械学習における訓練対象となるモデルの出力画像に対応する画像を取得するカメラである。カメラC1、C2は、このモデルに入力する画像を取得するカメラである。CGモデル内においては、この図５Ａに示すように、カメラC1、C2と、これらのカメラに重なるように配置されるカメラC0を用いて同時に撮影を行うことが可能である。

　上述のシミュレータ3は、CGモデル内に各カメラを設置した後、シミュレーションにより、各カメラが撮影した画像を生成する。データ生成システム1は、この生成された画像を1組の訓練データとして出力する。

　なお、カメラの図で示しているが、このような筐体が分かれているカメラには限られず、例えば、携帯型端末のように、同じ筐体内に複数の撮像系（レンズ及びセンサ等）が備えられているものとしてもよい。このような場合、例えば、レンズ間の位置は固定されているため、この固定されている位置を相対位置としてCGモデル内において2つ以上のカメラを配置することができる。

　図５Ｂから図５Ｄは、それぞれのカメラにおける物体M1の撮影の状態を示す図である。図５Ｂから図５Ｄに示すようにそれぞれのカメラは、異なる位置から同時にCGモデル内を撮影する。例えば、カメラC0、C1、C2は、同じ画角を有するレンズにおいて撮影されるモデルである。

　（HDR合成）
　例えば、このような配置では、HDR合成（High Dynamic Range合成）する推定モデルの最適化に用いる訓練データを生成することができる。HDR合成を行う撮影条件の一例を挙げる。

　カメラC1は、撮影条件として、画素値の飽和が発生しづらいが、ノイズが発生しやすい（ノイズが大きい）カメラという撮影条件を設定する。カメラC2は、画素値の飽和が発生しやすいが、ノイズが発生しづらい（ノイズが小さい）カメラという撮影条件を設定する。カメラC0は、画素値が飽和しづらく、かつ、ノイズが小さいカメラとして撮影条件を設定する。さらにカメラC0は、CGモデル内における領域ごとに画素値を適切に取得し、ガンマ補正等を実行できるカメラとしてもよい。

　上記の場合、例えば、カメラC1は、センサにおいて、画素において許容量を超える光電子を受光した場合に、この許容量を超える光電子を蓄える回路を備えていてもよい。このような回路を備えることにより、ノイズはカメラC2よりは大きくなるが、電子の飽和を起こしにくいデバイスとすることが可能である。一方で、カメラC2は、このような回路を備えない構成とすることにより、画素値の飽和がカメラC1より発生しやすいが、ノイズが小さいデバイスとすることができる。そして、カメラC0は、飽和しづらく、かつ、ノイズが発生しづらいデバイスとしてもよい。

　これらのカメラC0、C1、C2を用いて、シミュレータ3は、シミュレーションにより各カメラにより撮影された画像を生成する。データ生成システム1は、これらの3枚の画像を1組の訓練データとして出力する。同じCGモデル内において同時に撮影した画像を取得することにより、カメラC1、C2の画像を用いて、カメラC0のダイナミックレンジを有する画像を推定する、推定モデルの最適化における訓練データとすることができる。なお、同じCGモデル内において、撮影条件、例えば、光源の光量、光の照射方向、カメラの位置、姿勢等を様々に変化させることにより、複数組の訓練データを取得してもよい。

　図６は、現実世界におけるターゲットT1を撮影する、2つのカメラC1、C2を示す図である。訓練装置4は、上記のデータ生成システム1により生成された画像を用いて推定モデルを最適化する。推定装置5は、この最適化された推定モデルを備えて構成され、図５Ａに示すカメラC1、C2の撮影条件により取得された画像を入力画像とする。そして、カメラC0の撮影条件により取得された画像を推定画像として出力する。図６は、図５ＡにおけるカメラC1、C2の撮影条件を現実において配置したものである。逆に、現実におけるデバイスの制限を有する図６の撮影条件に基づいて、CGモデル内における図５Ａに示すような撮影条件を有するカメラを配置する。

　一方、図７は、理想的なHDR画像を取得するカメラC0により、現実世界において仮想的に撮影される状況を示す図である。

　上述したように、カメラC1は、例えば、画素値の飽和が発生しづらいが、ノイズが発生しやすいカメラであり、カメラC2は、画素値の飽和が発生しやすいが、ノイズが発生しづらいカメラである。これら2つのカメラにより取得された画像を、図５Ａに示す訓練データを用いて最適化した推定モデルに入力することにより、図７の仮想的なカメラC0において撮影されたダイナミックレンジが最適化された推定画像を取得することができる。

　カメラC0は、現実においては、カメラC1、C2と物理的な制限、例えば、筐体の大きさ、レンズの位置の物理的な重なりにより、配置することが不可能なカメラであってもよい。この場合、現実世界においては、カメラC1、C2の撮影と同時に、カメラC0で撮影することは不可能であり、教師データを取得することができない。このような場合であっても、本実施形態のデータ生成システム1は、CGモデルを用いることにより、理想的な教師データの画像を取得することが可能である。

　図５Ａにおいては、3つのカメラが異なる位置に配置されているが、カメラC0は、カメラC1、C2のいずれかと同一の位置に配置されてもよい。例えば、カメラC0は、カメラC1と同一の位置に配置されてもよい。

　例えば、カメラC0の位置をカメラC1の位置と同一にしてもよい。この場合同一であるとは、例えば、カメラC0、C1のレンズの主点、センサ面の位置が同一であることである。このような撮影条件とすると、例えば、デバイスにおいてカメラC1から撮影されている画像をユーザが見ることができる場合に、このカメラC1におけるハイダイナミックレンジの画像を推定装置5において推定することが可能となる。

　また、入力画像として用いるカメラは、2つには限られず、3つ以上のカメラにより構成されてもよい。例えば、3眼のカメラを有するスマートフォン等のデバイスにおいて、各レンズを用いて撮影される画像と、教師データとなる画像とをシミュレータ3により取得し、3以上の入力データと、教師データとを1組の訓練データとしてもよい。

　なお、HDR画像を推定するための入力画像は、上述のように、画素値の飽和、ノイズの違うデバイスにより取得するものには限られない。例えば、カメラC1は、センサの感知情報を対数変換して取得するセンサを備え、カメラC2は、センサの感知情報をリニアに変換して取得するセンサを備えているような撮影条件を設定してもよい。

　別の例として、レンズ、センサの性能では無く、カメラC1、C2の露光時間の長さが異なる撮影条件としてもよい。例えば、カメラC1の露光時間を明るい物体の画像を取得するのに適した短い露光時間に、カメラC2の露光時間を暗い物体の画像を取得するのに適したカメラC1の露光時間よりも十分に長い露光時間として設定し、これらを撮影条件としてもよい。

　この例によれば、異なる撮影条件を有する2以上のカメラにより取得された画像を用いてHDR合成を行う推定モデルの最適化に用いる訓練データを適切に取得することが可能となる。

　（TOF画像合成）
　上記のものは、可視光を取得するカメラのレンズ、センサ等の違いであったが、これには限られない。カメラC1、C2の撮影条件は、異なる種類の感知情報を取得するデバイスであってもよい。異なる種類の感知情報を取得するデバイスについて、いくつか説明する。例えば、カメラC1は、可視光を取得するカメラであり、カメラC2は、TOF（Time of Flight）画像を取得するカメラであってよい。そして、カメラC0は、カメラC1の位置から、TOF情報を取得した画像を生成してもよい。

　カメラC0を仮定することにより、実際には、視差が発生するカメラC1、C2において、カメラC2が取得したTOF情報を、カメラC1が取得したRGB情報に重ねて表示することが可能な画像を推定することが可能となる。例えば、カメラC2の位置において取得されたTOF情報から、カメラC1の位置におけるTOF情報を、カメラC1、C2それぞれが取得した情報から推定するモデルを最適化する訓練データを生成することが可能となる。現実においては、カメラC1と同じ位置にカメラC0としてTOF画像を取得するデバイスを配置することは不可能であるが、CGモデル内においてカメラを配置することにより、カメラC1の位置におけるTOF画像を取得するデバイスを仮想することが可能となる。

　この例によれば、RGB画像を取得するデバイスと同じ位置においてTOF画像を推定するための訓練データを生成することが可能となる。RGB画像を取得するデバイスとTOF画像を取得するデバイスは、近い位置に配置することが可能であるが、近い位置に配置したとしても、視差は必ず発生する。本手法によれば、このような視差を排除した画像をシミュレーションにより生成することが可能となるため、RGB画像を取得するデバイスとTOF画像を取得するデバイスとを正確に同じ位置に配置したデータを取得することができる。このように生成された訓練データを用いて推定モデルを最適化することにより、視差を有するRGB画像とTOF画像の組み合わせから、視差を有しないRGB画像とTOF画像の組み合わせを推定することが可能となる。この結果、物体の位置の把握をより正確に実現することができる。

　なお、距離情報の取得は、TOFによる手法に限られるものではなく、他の手法により実現されるものであってもよい。また、カメラC0をカメラC1と同じ位置にするのでは無く、例えば、図５Ａに示すカメラC0の位置としてもよい。この場合、カメラC0は、2つの撮影条件、例えば、カメラC0の位置におけるRGB画像と、TOF画像と、を取得する条件を有し、シミュレータ3は、カメラC0の位置からRGB画像及びTOF画像をシミュレーションにより取得してもよい。

　（高解像度サーマル画像）
　異なる種類の感知情報を取得するデバイスとして、別の例を挙げる。例えば、カメラC1は、高解像度のRGB画像を取得するデバイス、又は、高解像度のグレースケール画像を取得するデバイスであってもよく、カメラC2は、サーマル画像を取得するデバイスであってもよい。サーマル画像は、温度を取得するセンサ、例えば、赤外線、遠赤外線等を用いたサーモグラフィにより取得されるものとしてもよい。カメラC0は、CGモデルにおける温度情報をシミュレーションにより取得し、この温度情報を取得して、画像へと変換したものであってもよい。赤外線に関する情報を取得する場合、例えば、赤外線のみの情報を取得するデバイスであってもよいし、RGBの情報とともに赤外線を取得するデバイスとしてもよい。

　これらの画像を訓練データとすることにより、RGB画像及びグレースケール画像と、サーマル画像とを視差の無い状態でオーバーレイする推定モデルを最適化することができる。上記と同様に、視差が無い状態で、可視画像とサーマル画像とを取得することは困難であり、現実世界では、訓練データをうまく取得することができないが、CGモデルを用いることにより、より精度の高い（視差が存在しない）訓練データを取得することが可能となる。このように最適化された推定モデルを用いることにより、視差を有する可視画像とサーマル画像とから、視差の無い可視画像とサーマル画像を取得することができる。

　（高解像度画像）
　一般的に、RGB画像を取得する場合には、フィルタ、有機光電膜等を介した異なる色の光の強度を取得して合成するため、グレースケール画像を取得する場合に比較して解像度が落ちる。例えば、グレースケール画像の4ピクセルに対して、カラー画像の1ピクセルが定義される。本実施形態の手法を用いることにより、カラー画像における高解像度化を実現することもできる。

　例えば、カメラC1を高解像度のグレースケール画像を取得するデバイス、カメラC2をベイヤ－配列のカラーフィルタが備えられるデバイスとしてもよい。そして、カメラC0は、高解像度のカラー画像を取得するデバイスと設定してもよい。

　カメラC0は、同じ瞬間において、全ての画素において同色のフィルタを掛けた画像を、色の種類分、例えば、RGBの3色分を取得してもよい。CGモデルにおいては、このように同じ瞬間、同じ位置において取得される、異なる情報を感知するデバイスを設定することも可能である。このように、カメラC0からは、高解像度の各色の画像が取得できるため、高解像度のカラー画像を取得することが可能となる。

　このことから、カメラC1で取得した高解像度のグレースケール画像、カメラC2で取得した、それよりは低解像度のカラー画像から、カメラC0で取得した高解像度のカラー画像を推定するための訓練データを生成することができる。これらの訓練データを用いることにより、視差を有する高解像度のグレースケール画像及び低解像度のカラー画像から、高解像度のカラー画像を推定するモデルを生成することが可能となる。なお、ベイヤ配列を用いる例であれば、高解像度の画像は、低解像度の画像と比較して2 × 2倍の解像度を理論的には有する。

　上記では、ベイヤ配列としたが、これには限られない。また、カメラC0の合成にはRGBを用いるとしたが、さらに、補色系（CMY）を用いてもよいし、他の色を用いてもよい。すなわち、赤外線カメラの高解像度及びカラー画像化、又は、マルチスペクトルやハイパースペクトルの画像合成に適用することも可能である。さらには、黒（K）を用いてもよく、この場合、コピー機等の印刷機やスキャナの性能の向上にも応用することが可能となる。別の例として、プラズモン共鳴によるフィルタを備えるセンサによる画像を取得してもよい。この場合、種々の個人認証デバイス等に応用することもできる。

　（高感度かつ高解像度画像）
　上記では、高解像度画像を各種センサにより取得された画像から生成することについて記載したが、高感度の画像も同様に訓練データとして生成し、推定モデルの出力として推定することも可能である。

　例えば、カメラC1は、カメラC2よりも画素サイズが小さいセンサを用いるとした撮影条件を設定してもよい。このように設定することにより、カメラC1は、カメラC2よりも高解像度の画像を取得し、カメラC2は、カメラC1よりも高感度の画像を取得することが可能となる。そして、カメラC0は、カメラC1の解像度を有し、感度がカメラC2の画素となる撮影条件を設定する。

　データ生成システム1は、これらの高解像度画像と、高感度画像とを入力データとし、高解像度かつ高感度画像を出力データとした訓練データを生成してもよい。このように生成された訓練データを用いて最適化された推定モデルは、サイズが異なる画素を備えるカメラにより取得された解像度、感度が異なる画像から、高解像度、高感度の画像を推定することが可能となる。

　以上のように、本実施形態によれば、推定モデルの最適化において入出力データとなる訓練データをCGモデル内において自由に生成することが可能となる。現実世界においては、それぞれのカメラの筐体の大きさに基づいて物理的な干渉等から、このようにカメラC1、C2と重なるようにカメラC0を配置することはできない。また、同じ瞬間ではなくとも、カメラC1、C2に対して、カメラC0を理想的な位置に配置することも困難である。このような場合においても、データ生成システム1によれば、自由に画像を取得することができる。

　（第2実施形態）
　第1実施形態では、撮影条件として、教師データが物理的に筐体等の影響により干渉を受ける場合に、同じ位置から種々の撮影条件を設定することにより推定データを取得したが、さらにこの撮影条件を拡げることも可能である。本実施形態においては、データ生成システム1は、一例として、位置がずれた様々な画角を有する複数のデバイスが取得した画像から、所定の画角を有するデバイスが取得した画像を推定するモデルの訓練データを生成する。

　図８は、本実施形態に係るCGモデル内における推定モデルに入力するデータを取得するシミュレーション上のカメラ配置の一例を示す図である。この図８に示すように、CGモデル内において、カメラC1、C2、C3は、異なる位置に、異なる画角を有する光学系を有するカメラとして、撮影条件が設定されている。

　例えば、カメラC1は、標準の画角、カメラC2は、望遠の画角、カメラC3は、広角の画角を有したレンズを備えて撮影を実行する。そして、それぞれのカメラは、現実の空間内で配置が可能であるように、物理的に干渉しない位置に配置される。そして、それらの撮影条件において、画像がシミュレーションにより取得される。

　図９Ａから図９Ｅは、図８で取得された入力データに対する、教師データを取得するための撮影条件をそれぞれ示す図である。例えば、図９Ａのように、カメラC0は、超広角なレンズを有するデバイスとする撮影条件であってもよい。

　この場合、図８に示すカメラC1、C2、C3により取得した画像を用いて、超広角レンズを用いて取得した画像を推定するモデルの訓練を実現する。これは、図９Ｂから図９Ｅにおいても同様であり、それぞれの画角に応じた教師データを生成して出力する。

　訓練装置4は、それぞれの教師データに基づいた推定モデルを最適化してもよい。例えば、入力画像として、図８に示すカメラC1、C2、C3からの画像を入力し、図９Ａに示す超広角の画像を取得する推定モデル、図９Ｂに示す広角の画像を取得する推定モデル、・・・、を推定する推定モデルをそれぞれ訓練してもよい。

　別の例としては、訓練装置4は、それぞれの教師データの画像を推定する1つのモデルを訓練により最適化してもよい。訓練装置4は、例えば、1つの推定モデルに対して、出力層から出力される画像を5画像とし、この5画像が図９Ａ、図９Ｂ、・・・、図９Ｅの状態において生成された画像となるように推定モデルの訓練を実行してもよい。

　図１０は、このように生成された推定モデルにおける現実世界の画像を取得するカメラを示す図である。推定装置5は、図８及び図９Ａから図９Ｅの撮影条件により生成された画像に基づいて生成された推定モデルに、図１０のカメラC1、C2、C3により撮影された画像を入力する。

　図１１は、推定モデルから出力される画像の画角の一例を示す図である。推定装置5は、推定モデルに上記の画像を入力し、図１１のような画角の画像を取得する。上述したように、推定する画像の画角に基づいて推定モデルが異なるものであってもよいし、複数の画角を1つの推定モデルが出力できるものであってもよい。

　以上のように、本実施形態によれば、異なる画角を有する複眼のカメラにおいて撮影された画像を、任意の画角で撮影された画像へと変換する、推定モデルを生成するための訓練データを取得することが可能となる。

　なお、上記においては、画角にしか言及していないが、もちろん、被写界深度がシミュレータ3により考慮され、被写界深度をも異なる画像が取得されてもよい。この場合、推定装置5により推定された画像は、例えば、あるターゲットT1にピントが合わせられた任意の画角の画像であってもよい。このように取得された画像は、例えば、教師データとして生成した被写界深度に基づいて、ピントが合っている物体以外に適切なボケ等の効果が適用された画像となる。逆に、所定の距離又は位置にピントが合っており、他の距離又は位置においてボケている画像に対して、全ての位置でピントが合っている画像を推定するモデルを推定する教師データを生成すること及びこのモデルを学習することも可能である。

　（第3実施形態）
　前述の各実施形態においては、推定モデルの入力となる画像を取得するカメラは、その光軸が同じ方向を向いているものであったが、これには限られない。

　図１２は、本実施形態に係るCGモデル内におけるシミュレーション上のカメラ配置の一例を示す図である。本実施形態では、例えば、360度の情報が取得できるカメラのセットによる画像の取得に関するものである。より具体的には、例えば、全天球カメラによる撮影を想定したものである。

　カメラC1、C2は、例えば、逆の方向を向いた画角が180度よりも大きい魚眼レンズを備える。カメラC1、C2は、互いが物理的、機械的に干渉しないように配置される。このように配置されたカメラは、その主点の位置を一致させることが困難である。このため、スティッチングした画像のつなぎ目を完全に除去することはできない。そこで、CGモデル内において主点が一致するような2つのカメラを配置して、これらのカメラの撮影条件により撮影された画像を、シミュレータ3が生成する。

　図１３Ａは、CGモデル内におかれた主点が一致するシミュレーション上のカメラの一例を示す図である。この図１３Ａに示すように、カメラC0a、C0bは、レンズの主点が一致するようにCGモデル内に配置される。図１３Ｂ、図１３Ｃは、重なりの部分がわかりやすくなるように、カメラC0a、C0bを別々に示す図である。カメラC0a、C0bは、これらの図に示されるように、主点が一致し、撮影方向が逆方向となるようにCGモデル内に配置される。例えば、カメラC0aの光軸は、カメラC1の光軸と一致し、カメラC0bの光軸は、カメラC2の光軸と一致するように、カメラC0a、C0bが配置される撮影条件としてもよい。

　なお、CGモデル内にカメラC0a、C0bを配置することにより、互いのカメラが写らないように制御することも可能である。例えば、カメラC0aにより撮影された画像を生成する際には、カメラC0bが配置されていないものとし、逆に、カメラC0bにより撮影された画像を生成する際には、カメラC0aが配置されていないものとしてもよい。このようにすることで、互いのカメラの筐体が撮影画像の邪魔をしない状態で撮影を実現することができる。

　データ生成システム1は、図１２の撮影条件において生成された画像データ及び図１３の撮影条件において生成された画像データの組を訓練データとして出力する。訓練装置4は、この訓練データを用いて、図１２の条件において取得された画像から、図１３の条件において取得された画像を推定するようにモデルを最適化する。すなわち、推定モデルは、カメラC1、C2により撮影された画像が入力されると、カメラC0a、C0bにより撮影された画像が出力されるように最適化が実行される。

　このように最適化されたモデルを用いて、推定装置5は、図１４に示すようなカメラC1、C2により撮影されたターゲットT1を含む画像から、図１５に示すようなカメラC0a、C0bにより撮影されたターゲットT1を含む画像を推定する。このように推定された画像は、レンズの主点の位置が一致している画像であり、それぞれの画像中にオーバーラップする領域が元のカメラC1、C2で撮影された画像と比較して広い。このため、カメラC1、C2により撮影された画像をスティッチングするよりも、推定モデルを介して取得されたカメラC0a、C0bで撮影された画像を用いることにより、つなぎ目等の補正がより精度よく実現できる画像を取得することが可能となる。

　以上のように、本実施形態によれば、現実世界においては、物理的な問題から主点を一致させて同時に撮影することが困難である全天球カメラにおいても、CGモデル内で主点を一致させたシミュレーション上のカメラにより同時に撮影することにより、主点が一致した逆方向を撮影するカメラにより取得される画像を推定するモデルを最適化する訓練データを取得することが可能となる。

　なお、図１３Ａから図１３Ｃは、一例として示したものであり、カメラC0の撮影条件は、これに限られるものではない。

　図１６は、カメラC0の別の撮影条件を示す図である。図１６に示すカメラC0a、C0bのように、カメラを光軸と一致させるのでは無く、別の方向に光軸が向いている反対方向を撮影するカメラC0c、C0dを用いてもよい。また、図１３Ａの状況に加えて、さらに、図１６のカメラを追加して推定を実行できるようにしてもよい。

　このように3以上のカメラを用いることが可能であるということは、レンズを超広角以外にすることも考えられる。図１７Ａ、図１７Ｂは、レンズが超広角ではない一例を示す図である。例えば、図１２のカメラC1、C2に対して、標準的な画角を有する3以上のカメラを、教師データを取得するカメラとして配置してもよい。図１７Ａ、図１７Ｂは、この一例であり、主点が一致する4つのカメラC0a、C0b、C0c、C0dが撮影する画像をシミュレータ3は、教師データとして生成してもよい。例えば、標準的な画角を有する撮影条件とすることにより、教師データの歪みを抑制することもできる。

　さらに、教師データは、カメラC0が撮影した画像ではなく、スティッチングされた画像としてもよい。この場合、例えば、シミュレータ3は、カメラC1、C2の主点の位置の中央の点を主点として共有する任意台数の複数のカメラC0により正確なスティッチング画像を取得できるように撮影された画像を生成してもよい。このように生成された複数の画像から、シミュレータ3は、スティッチング画像を演算により取得し、このスティッチング画像を教師データとして、カメラC1、C2により撮影されたデータと組にして訓練データとして出力する。

　訓練装置4は、カメラC1、C2により撮影された画像が入力されると、教師データであるスティッチング画像が出力される推定モデルの最適化を実行する。そして、最適化が完了した推定モデルを用いて、推定装置5は、入力画像からスティッチング画像を推定してもよい。

　（第4実施形態）
　携帯端末においては、その使用形態、又は、使用環境により複眼のカメラの相対位置及び光軸の方向がずれてしまう可能性がある。例えば、携帯する場合に、ポケットに入れると、筐体の歪みからずれが生じることがあるし、使用する温度により筐体に歪みが発生する可能性がある。本実施形態に係るデータ生成システム1は、このような相対位置のずれ及び光軸の方向のずれを補正する情報を取得する訓練データを生成する。

　図１８は、一実施形態に係るCGモデル内におけるシミュレーション上のカメラ配置の一例を示す図である。この図に示すようにカメラC1、C2'がCGモデル内に配置される。点線で示されるのは、正しいカメラC2の位置及び方向である。これに対して、カメラC2'は、その位置及び方向がずれて配置される。ここで、位置とは、例えば、カメラC1に対するカメラC2の相対位置のことを示す。この場合、教師データは、例えば、この相対位置からのズレと光軸のズレであってもよい。すなわち、カメラC1に対するカメラC2の相対位置と、カメラC1の光軸に対するカメラC2の光軸のズレを教師データとしてもよい。

　また、別の例として、カメラC1、C2を相対位置及び光軸の相対的な角度が正しくなるように配置して、これを第1所定位置、第2所定位置、第1光軸方向、第2光軸方向とおいてもよい。この場合、カメラC1の位置及び光軸の方向の少なくとも一方を、第1所定位置及び第1光軸方向からランダムにずらし、カメラC2の位置及び光軸の方向の少なくとも一方を、第2所定位置及び第2光軸方向からランダムにずらして、このズレを相対的なズレに変換して教師データとしてもよい。

　ここで、ランダムにずらすとは、微少なズレであるとする。微少なズレとは、例えば、カメラC1、C2が備えられる筐体が破壊しない程度にずれる位置又は方向のズレであるとする。

　このようにずらした状態におけるカメラをCGモデル内に配置し、それぞれのカメラにより撮影される画像をシミュレータ3が生成してもよい。この生成された画像と、教師データである位置、方向のズレとを組にして訓練データとする。上記の拘束条件を満たす様々なズレを有する撮影条件を設定し、訓練データを生成してもよい。

　訓練装置4は、2枚の画像が入力されると、相対的な位置のずれ、及び、光軸の方向のズレを出力する推定モデルの最適化を実行する。推定装置5は、訓練装置4により最適化された推定モデルを用いて、図１９に示すような2枚の画像から、相対位置のずれ、及び、光軸のズレを推定して出力する。

　このような構成は、通常のセンサにおいても実現できるが、単眼において視差が取得できるデバイスを用いることにより、さらに精度よく実現することができる。シミュレータ3において、このようなセンサを有するカメラを撮影条件として設定してもよい。単眼視差画像を取得するセンサとしては、例えば、1つのオンチップレンズに対応する画素内に2 × 2の受光素子を有する、2 × 2 OCL（On-Chip Lens）素子を用いてもよい。

　図２０は、本実施形態の別の例を示すシミュレーション上のカメラの配置の一例を示す図である。例えば、教師データは、上記のように位置ズレ、光軸ズレといった数値データではなく、前述した実施形態と同様に、カメラC0a、C0bを理想的なカメラC1、C2の位置、方向として配置してもよい。そして、これらのカメラC0a、C0bにより撮影されるデータをシミュレータ3が生成し、これらを教師データとしてもよい。このようなデータを取得する場合にも、上記の第1所定位置、第2所定位置、第1光軸方向、第2光軸方向を用いてもよい。すなわち、カメラC1、C2の位置に対して、これらの位置、方向にしたがったカメラC0a、C0bをCGモデル内に配置することで実現してもよい。

　図２１は、現実世界における理想的なカメラC1、C2の相対的な配置を示す図である。図２０に示す状態において、訓練データを取得することにより、図１９のような相対位置ズレ及び光軸のズレを有する画像同士を、図２１に示すようなカメラで撮影された画像へと補正する推定モデルを最適化する訓練データを、データ生成システム1が生成することが可能となる。

　以上のように、本実施形態によれば、カメラ同士の相対位置のずれや、光軸のずれを推定し、又は、相対位置のずれや光軸のズレを補正した画像を推定する推定モデルを生成するための訓練データを取得することが可能となる。いずれの場合においても、現実世界では、正解データを得ることが困難である状態において、CGモデル内における配置等の撮影条件を用いることにより、正確なデータを取得することができ、推定モデルの推定精度を向上することが可能となる。

　前述の各実施形態は、適切に適用できる範囲において、重複して適用されてもよい。

　本開示の態様は、その一部又は全部がプログラムにより実装されてもよい。プログラムは、記憶部302、402、502に記憶され、ソフトウェアによる情報処理がハードウェアにより具体的に実現されるものであってもよい。また、一部又は全部の処理は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）等のプロセッサにおいて実行される他、種々のアナログ回路又はデジタル回路、例えば、FPGA（Field Programmable Gate Array）、ASIC（Application Specific Integrated Circuit）、DSP（Digital Signal Processor）によりハードウェアで実装されてもよい。

＜ＡＩを利用した応用例＞

　本開示に係る技術（本技術）を適用した構成では、機械学習等の人工知能（ＡＩ：Artificial Intelligence）を利用することができる。図２２は、ＡＩ処理を行う装置を含むシステムの構成例を示している。

　電子機器２０００１は、スマートフォン、タブレット型端末、携帯電話機等のモバイル端末である。電子機器２０００１は、本開示に係る技術を適用した光センサ２００１１を有する。なお、光センサ２００１１は、電子機器２０００１において、例えば、カメラの機能を構成することができ、また、図示していないが、一以上有していても良い。光センサは、光を電気信号に変換するセンサ（画像センサ）である。電子機器２０００１は、所定の通信方式に対応した無線通信によって所定の場所に設置された基地局２００２０に接続することで、コアネットワーク２００３０を介して、インターネット等のネットワーク２００４０に接続することができる。

　基地局２００２０とコアネットワーク２００３０の間などのモバイル端末により近い位置には、モバイルエッジコンピューティング（ＭＥＣ：Mobile Edge Computing）を実現するためのエッジサーバ２０００２が設けられる。ネットワーク２００４０には、クラウドサーバ２０００３が接続される。エッジサーバ２０００２とクラウドサーバ２０００３は、用途に応じた各種の処理を行うことができる。なお、エッジサーバ２０００２は、コアネットワーク２００３０内に設けられてもよい。

　電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１により、ＡＩ処理が行われる。ＡＩ処理は、本開示に係る技術を、機械学習等のＡＩを利用して処理するものである。ＡＩ処理は、学習処理と推論処理を含む。学習処理は、学習モデルを生成する処理である。また、学習処理には、後述する再学習処理も含まれる。推論処理は、学習モデルを用いた推論を行う処理である。以下、本開示に係る技術に関する処理を、ＡＩを利用せずに処理することを、通常処理と呼び、ＡＩ処理と区別する。

　電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１においては、ＣＰＵ(Central Processing Unit)等のプロセッサがプログラムを実行したり、あるいは特定用途に特化したプロセッサ等の専用のハードウェアを用いたりすることで、ＡＩ処理が実現される。例えば、特定用途に特化したプロセッサとしては、ＧＰＵ(Graphics Processing Unit)を用いることができる。

　図２３は、電子機器２０００１の構成例を示している。電子機器２０００１は、各部の動作の制御や各種の処理を行うＣＰＵ２０１０１と、画像処理や並列処理に特化したＧＰＵ２０１０２と、ＤＲＡＭ(Dynamic Random Access Memory)等のメインメモリ２０１０３と、フラッシュメモリ等の補助メモリ２０１０４を有する。

　補助メモリ２０１０４は、ＡＩ処理用のプログラムや各種パラメータ等のデータを記録している。ＣＰＵ２０１０１は、補助メモリ２０１０４に記録されたプログラムやパラメータをメインメモリ２０１０３に展開してプログラムを実行する。あるいは、ＣＰＵ２０１０１とＧＰＵ２０１０２は、補助メモリ２０１０４に記録されたプログラムやパラメータをメインメモリ２０１０３に展開してプログラムを実行する。これにより、ＧＰＵ２０１０２を、ＧＰＧＰＵ(General-Purpose computing on Graphics Processing Units)として用いることができる。

　なお、ＣＰＵ２０１０１やＧＰＵ２０１０２は、ＳｏＣ(System on a Chip)として構成されてもよい。ＣＰＵ２０１０１がＡＩ処理用のプログラムを実行する場合には、ＧＰＵ２０１０２を設けなくてもよい。

　電子機器２０００１はまた、本開示に係る技術を適用した光センサ２００１１と、物理的なボタンやタッチパネル等の操作部２０１０５と、少なくとも１以上のセンサを含むセンサ２０１０６と、画像やテキスト等の情報を表示するディスプレイ２０１０７と、音を出力するスピーカ２０１０８と、所定の通信方式に対応した通信モジュール等の通信Ｉ／Ｆ２０１０９と、それらを接続するバス２０１１０を有する。

　センサ２０１０６は、光センサ（画像センサ）、音センサ（マイクロフォン）、振動センサ、加速度センサ、角速度センサ、圧力センサ、匂いセンサ、生体センサ等の各種のセンサを少なくとも１以上有している。ＡＩ処理では、前述した通り、光センサ２００１１から取得した画像データとともに、センサ２０１０６の少なくとも１以上のセンサから取得したデータを用いることができる。このように、画像データとともに、様々な種類のセンサから得られるデータを用いることで、マルチモーダルＡＩの技術により、様々な場面に適合したＡＩ処理を実現することができる。

　なお、センサフュージョンの技術によって２以上の光センサから取得した画像データを統合的に処理して得られるデータが、前述した通り、ＡＩ処理で用いられてもよい。２以上の光センサとしては、光センサ２００１１とセンサ２０１０６内の光センサの組み合わせでもよいし、あるいは光センサ２００１１内に複数の光センサが含まれていてもよい。例えば、光センサには、ＲＧＢの可視光センサ、ＴｏＦ（Time of Flight）等の測距センサ、偏光センサ、イベントベースのセンサ、ＩＲ像を取得するセンサ、多波長取得可能なセンサなどが含まれる。すなわち、前述の実施形態において、少なくとも１つのデータを、さらに限定されない例として、偏光センサ、イベントベースのセンサとしてもよい。

　電子機器２０００１においては、ＣＰＵ２０１０１やＧＰＵ２０１０２等のプロセッサによってＡＩ処理を行うことができる。電子機器２０００１のプロセッサが推論処理を行う場合には、光センサ２００１１で画像データを取得した後に時間を要さずに処理を開始することができるため、高速に処理を行うことができる。そのため、電子機器２０００１では、短い遅延時間で情報を伝達することが求められるアプリケーションなどの用途に推論処理が用いられた際に、ユーザは遅延による違和感なく操作を行うことができる。また、電子機器２０００１のプロセッサがＡＩ処理を行う場合、クラウドサーバ２０００３等のサーバを利用する場合と比べて、通信回線やサーバ用のコンピュータ機器などを利用する必要がなく、低コストで処理を実現することができる。

　図２４は、エッジサーバ２０００２の構成例を示している。エッジサーバ２０００２は、各部の動作の制御や各種の処理を行うＣＰＵ２０２０１と、画像処理や並列処理に特化したＧＰＵ２０２０２を有する。エッジサーバ２０００２はさらに、ＤＲＡＭ等のメインメモリ２０２０３と、ＨＤＤ(Hard Disk Drive)やＳＳＤ(Solid State Drive)等の補助メモリ２０２０４と、ＮＩＣ(Network Interface Card)等の通信Ｉ／Ｆ２０２０５を有し、それらがバス２０２０６に接続される。

　補助メモリ２０２０４は、ＡＩ処理用のプログラムや各種パラメータ等のデータを記録している。ＣＰＵ２０２０１は、補助メモリ２０２０４に記録されたプログラムやパラメータをメインメモリ２０２０３に展開してプログラムを実行する。あるいは、ＣＰＵ２０２０１とＧＰＵ２０２０２は、補助メモリ２０２０４に記録されたプログラムやパラメータをメインメモリ２０２０３に展開してプログラムを実行することで、ＧＰＵ２０２０２をＧＰＧＰＵとして用いることができる。なお、ＣＰＵ２０２０１がＡＩ処理用のプログラムを実行する場合には、ＧＰＵ２０２０２を設けなくてもよい。

　エッジサーバ２０００２においては、ＣＰＵ２０２０１やＧＰＵ２０２０２等のプロセッサによってＡＩ処理を行うことができる。エッジサーバ２０００２のプロセッサがＡＩ処理を行う場合、エッジサーバ２０００２はクラウドサーバ２０００３と比べて、電子機器２０００１と近い位置に設けられるため、処理の低遅延化を実現することができる。また、エッジサーバ２０００２は、電子機器２０００１や光センサ２００１１に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、エッジサーバ２０００２のプロセッサがＡＩ処理を行う場合、電子機器２０００１や光センサ２００１１の仕様や性能の違いに依らず、データを受信できればＡＩ処理を行うことができる。エッジサーバ２０００２でＡＩ処理を行う場合には、電子機器２０００１や光センサ２００１１における処理の負荷を軽減することができる。

　クラウドサーバ２０００３の構成は、エッジサーバ２０００２の構成と同様であるため、説明は省略する。

　クラウドサーバ２０００３においては、ＣＰＵ２０２０１やＧＰＵ２０２０２等のプロセッサによってＡＩ処理を行うことができる。クラウドサーバ２０００３は、電子機器２０００１や光センサ２００１１に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、クラウドサーバ２０００３のプロセッサがＡＩ処理を行う場合、電子機器２０００１や光センサ２００１１の仕様や性能の違いに依らず、ＡＩ処理を行うことができる。また、電子機器２０００１又は光センサ２００１１のプロセッサで負荷の高いＡＩ処理を行うことが困難である場合には、その負荷の高いＡＩ処理をクラウドサーバ２０００３のプロセッサが行い、その処理結果を電子機器２０００１又は光センサ２００１１のプロセッサにフィードバックすることができる。

　図２５は、光センサ２００１１の構成例を示している。光センサ２００１１は、例えば複数の基板が積層された積層構造を有する１チップの半導体装置として構成することができる。光センサ２００１１は、基板２０３０１と基板２０３０２の２枚の基板が積層されて構成される。なお、光センサ２００１１の構成としては積層構造に限らず、例えば、撮像部を含む基板が、ＣＰＵやＤＳＰ(Digital Signal Processor)等のＡＩ処理を行うプロセッサを含んでいてもよい。

　上層の基板２０３０１には、複数の画素が２次元に並んで構成される撮像部２０３２１が搭載されている。下層の基板２０３０２には、撮像部２０３２１での画像の撮像に関する処理を行う撮像処理部２０３２２と、撮像画像や信号処理結果を外部に出力する出力Ｉ／Ｆ２０３２３と、撮像部２０３２１での画像の撮像を制御する撮像制御部２０３２４が搭載されている。撮像部２０３２１、撮像処理部２０３２２、出力Ｉ／Ｆ２０３２３、及び撮像制御部２０３２４により撮像ブロック２０３１１が構成される。

　また、下層の基板２０３０２には、各部の制御や各種の処理を行うＣＰＵ２０３３１と、撮像画像や外部からの情報等を用いた信号処理を行うＤＳＰ２０３３２と、ＳＲＡＭ（Static Random Access Memory）やＤＲＡＭ（Dynamic Random Access Memory）等のメモリ２０３３３と、外部と必要な情報のやり取りを行う通信Ｉ／Ｆ２０３３４が搭載されている。ＣＰＵ２０３３１、ＤＳＰ２０３３２、メモリ２０３３３、及び通信Ｉ／Ｆ２０３３４により信号処理ブロック２０３１２が構成される。ＣＰＵ２０３３１及びＤＳＰ２０３３２の少なくとも１つのプロセッサによってＡＩ処理を行うことができる。

　このように、複数の基板が積層された積層構造における下層の基板２０３０２に、ＡＩ処理用の信号処理ブロック２０３１２を搭載することができる。これにより、上層の基板２０３０１に搭載される撮像用の撮像ブロック２０３１１で取得される画像データが、下層の基板２０３０２に搭載されたＡＩ処理用の信号処理ブロック２０３１２で処理されるため、１チップの半導体装置内で一連の処理を行うことができる。

　光センサ２００１１においては、ＣＰＵ２０３３１等のプロセッサによってＡＩ処理を行うことができる。光センサ２００１１のプロセッサが推論処理等のＡＩ処理を行う場合、１チップの半導体装置内で一連の処理が行われるため、センサ外部に情報が漏れないことから情報の秘匿性を高めることができる。また、画像データ等のデータを他の装置に送信する必要がないため、光センサ２００１１のプロセッサでは、画像データを用いた推論処理等のＡＩ処理を高速に行うことができる。例えば、リアルタイム性が求められるアプリケーションなどの用途に推論処理が用いられた際に、リアルタイム性を十分に確保することができる。ここで、リアルタイム性を確保するということは、短い遅延時間で情報を伝達できることを指す。さらに、光センサ２００１１のプロセッサがＡＩ処理を行うに際して、電子機器２０００１のプロセッサにより各種のメタデータを渡すことで、処理を削減して低消費電力化を図ることができる。

　図２６は、処理部２０４０１の構成例を示している。電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１のプロセッサがプログラムに従った各種の処理を実行することで、処理部２０４０１として機能する。なお、同一の又は異なる装置が有する複数のプロセッサを処理部２０４０１として機能させてもよい。

　処理部２０４０１は、ＡＩ処理部２０４１１を有する。ＡＩ処理部２０４１１は、ＡＩ処理を行う。ＡＩ処理部２０４１１は、学習部２０４２１と推論部２０４２２を有する。

　学習部２０４２１は、学習モデルを生成する学習処理を行う。学習処理では、画像データに含まれる補正対象画素を補正するための機械学習を行った機械学習済みの学習モデルが生成される。また、学習部２０４２１は、生成済みの学習モデルを更新する再学習処理を行ってもよい。以下の説明では、学習モデルの生成と更新を区別して説明するが、学習モデルを更新することで、学習モデルを生成しているとも言えるため、学習モデルの生成には、学習モデルの更新の意味が含まれるものとする。

　また、生成された学習モデルは、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などが有するメインメモリ又は補助メモリなどの記憶媒体に記録されることで、推論部２０４２２が行う推論処理において新たに利用可能となる。これにより、当該学習モデルに基づく推論処理を行う電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などを生成することができる。さらに、生成された学習モデルは、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などとは独立した記憶媒体又は電子機器に記録され、他の装置で使用するために提供されてもよい。なお、これらの電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などの生成とは、製造時において、それらの記憶媒体に新たに学習モデルを記録することだけでなく、既に記録されている生成済学習モデルを更新することも含まれるものとする。

　推論部２０４２２は、学習モデルを用いた推論処理を行う。推論処理では、学習モデルを用いて、画像データに含まれる補正対象画素を補正するための処理が行われる。補正対象画素は、画像データに応じた画像内の複数個の画素のうち、所定の条件を満たした補正対象となる画素である。この補正処理により、例えば、限定されない例として、前述の実施形態に記載したように、物理的に重なる位置に存在するカメラからの画像を取得したり、物理的には存在しない位置に存在するカメラからの画像を取得したり、物理的に配置することが困難であるセンサを仮定した画像を取得したりすることができる。

　機械学習の手法としては、ニューラルネットワークやディープラーニングなどを用いることができる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層（隠れ層）、出力層の３種類の層からなる。ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。

　機械学習の問題設定としては、教師あり学習を用いることができる。例えば、教師あり学習は、与えられたラベル付きの教師データに基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。教師データは、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データ、例えば、前述の実施形態に記載したようなシミュレータにより生成されたデータセットなどを用いることができる。

　なお、教師あり学習に限らず、教師なし学習、半教師あり学習、強化学習などを用いてもよい。教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリング等を行う。これにより、膨大な未知のデータに基づいて傾向の分析や予測を行うことが可能となる。半教師あり学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な教師データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。

　このように、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１のプロセッサがＡＩ処理部２０４１１として機能することで、それらの装置のいずれか又は複数の装置でＡＩ処理が行われる。

　ＡＩ処理部２０４１１は、学習部２０４２１及び推論部２０４２２のうち少なくとも一方を有していればよい。すなわち、各装置のプロセッサは、学習処理と推論処理の両方の処理を実行することは勿論、学習処理と推論処理のうちの一方の処理を実行するようにしてもよい。例えば、電子機器２０００１のプロセッサが推論処理と学習処理の両方を行う場合には、学習部２０４２１と推論部２０４２２を有するが、推論処理のみを行う場合には、推論部２０４２２のみを有していればよい。

　各装置のプロセッサは、学習処理又は推論処理に関する全ての処理を実行してもよいし、一部の処理を各装置のプロセッサで実行した後に、残りの処理を他の装置のプロセッサで実行してもよい。また、各装置においては、学習処理や推論処理などのＡＩ処理の各々の機能を実行するための共通のプロセッサを有してもよいし、機能ごとに個別にプロセッサを有してもよい。

　なお、上述した装置以外の他の装置によりＡＩ処理が行われてもよい。例えば、電子機器２０００１が無線通信などにより接続可能な他の電子機器によって、ＡＩ処理を行うことができる。具体的には、電子機器２０００１がスマートフォンである場合に、ＡＩ処理を行う他の電子機器としては、他のスマートフォン、タブレット型端末、携帯電話機、ＰＣ(Personal Computer)、ゲーム機、テレビ受像機、ウェアラブル端末、デジタルスチルカメラ、デジタルビデオカメラなどの装置とすることができる。

　また、自動車等の移動体に搭載されるセンサや、遠隔医療機器に用いられるセンサなどを用いた構成においても、推論処理等のＡＩ処理を適用可能であるが、それらの環境では遅延時間が短いことが求められる。このような環境においては、ネットワーク２００４０を介してクラウドサーバ２０００３のプロセッサでＡＩ処理を行うのではなく、ローカル側の装置（例えば車載機器や医療機器としての電子機器２０００１）のプロセッサでＡＩ処理を行うことで遅延時間を短くすることができる。さらに、インターネット等のネットワーク２００４０に接続する環境がない場合や、高速な接続を行うことができない環境で利用する装置の場合にも、例えば電子機器２０００１や光センサ２００１１等のローカル側の装置のプロセッサでＡＩ処理を行うことで、より適切な環境でＡＩ処理を行うことができる。

　なお、上述した構成は一例であって、他の構成を採用しても構わない。例えば、電子機器２０００１は、スマートフォン等のモバイル端末に限らず、ＰＣ、ゲーム機、テレビ受像機、ウェアラブル端末、デジタルスチルカメラ、デジタルビデオカメラなどの電子機器、車載機器、医療機器であってもよい。また、電子機器２０００１は、無線LAN(Local Area Network)や有線LANなどの所定の通信方式に対応した無線通信又は有線通信によってネットワーク２００４０に接続してもよい。ＡＩ処理は、各装置のＣＰＵやＧＰＵ等のプロセッサに限らず、量子コンピュータやニューロモーフィック・コンピュータなどを利用しても構わない。

（処理の流れ）
　図２７のフローチャートを参照して、ＡＩを利用した処理の流れを説明する。

　ステップＳ２０００１では、処理部２０４０１が、光センサ２００１１からの画像データを取得する。ステップＳ２０００２では、処理部２０４０１が、取得した画像データに対する補正処理を行う。この補正処理では、画像データの少なくとも一部に学習モデルを用いた推論処理が行われ、画像データに含まれる補正対象画素を補正した後のデータである補正済みデータが得られる。ステップＳ２０００３では、処理部２０４０１が、補正処理で得られた補正済みデータを出力する。

　ここで、図２８のフローチャートを参照して、上述したステップＳ２０００２における補正処理の詳細を説明する。

　ステップＳ２００２１では、処理部２０４０１が、画像データに含まれる補正対象画素を特定する。この補正対象画素を特定するステップ（以下、特定ステップ（Detection Step）と呼ぶ）では、推論処理又は通常処理が行われる。

　特定ステップとして推論処理が行われる場合、推論部２０４２２では、学習モデルに対し画像データを入力することで、入力された画像データに含まれる補正対象画素を特定するための情報（以下、特定情報（Detection Information）と呼ぶ）が出力されるので、補正対象画素を特定することができる。ここでは、補正対象画素を含む画像データを入力とし、画像データに含まれる補正対象画素の特定情報を出力とする学習モデルが用いられる。一方で、特定ステップとして通常処理が行われる場合、電子機器２０００１又は光センサ２００１１のプロセッサや信号処理回路によって、ＡＩを利用せずに、画像データに含まれる補正対象画素を特定する処理が行われる。
　なお、補正対象画素が画像データの全ての画素であるなど分かっている場合には、特定ステップをスキップすることもできる。

　ステップＳ２００２１で、画像データに含まれる補正対象画素が特定されると、処理は、ステップＳ２００２２に進められる。ステップＳ２００２２では、処理部２０４０１が、特定された補正対象画素を補正する。この補正対象画素を補正するステップ（以下、補正ステップ（Correction Step）と呼ぶ）では、推論処理又は通常処理が行われる。

　補正ステップとして推論処理が行われる場合、推論部２０４２２では、学習モデルに対し画像データ及び補正対象画素の特定情報を入力することで、補正された画像データ又は補正された補正対象画素の特定情報が出力されるので、補正対象画素を補正することができる。ここでは、補正対象画素を含む画像データ及び補正対象画素の特定情報を入力とし、補正された画像データ又は補正された補正対象画素の特定情報を出力とする学習モデルが用いられる。一方で、補正ステップとして通常処理が行われる場合、電子機器２０００１又は光センサ２００１１のプロセッサや信号処理回路によって、ＡＩを利用せずに、画像データに含まれる補正対象画素を補正する処理が行われる。

　このように、補正処理では、補正対象画素を特定する特定ステップで推論処理又は通常処理が行われ、特定した補正対象画素を補正する補正ステップで推論処理又は通常処理が行われることで、特定ステップ及び補正ステップの少なくとも一方のステップで、推論処理が行われる。すなわち、補正処理では、光センサ２００１１からの画像データの少なくとも一部に学習モデルを用いた推論処理が行われる。

　また、補正処理では、推論処理を用いることで、特定ステップが補正ステップと一体的に行われるようにしてもよい。このような補正ステップとして推論処理が行われる場合、推論部２０４２２では、学習モデルに対し画像データを入力することで、補正対象画素が補正された画像データが出力されるので、入力された画像データに含まれる補正対象画素を補正することができる。ここでは、補正対象画素を含む画像データを入力とし、補正対象画素が補正された画像データを出力とする学習モデルが用いられる。

　ところで、処理部２０４０１では、補正済みデータを用いてメタデータを生成するようにしてもよい。図２９のフローチャートには、メタデータを生成する場合の処理の流れを示している。

　ステップＳ２００５１，Ｓ２００５２においては、上述したステップＳ２０００１，Ｓ２０００２と同様に、画像データが取得され、取得された画像データを用いた補正処理が行われる。ステップＳ２００５３では、処理部２０４０１が、補正処理で得られた補正済みデータを用いてメタデータを生成する。このメタデータを生成するステップ（以下、生成ステップ（Generation Step）と呼ぶ）では、推論処理又は通常処理が行われる。

　生成ステップとして推論処理が行われる場合、推論部２０４２２では、学習モデルに対し補正済みデータを入力することで、入力された補正済みデータに関するメタデータが出力されるので、メタデータを生成することができる。ここでは、補正済みデータを入力とし、メタデータを出力とする学習モデルが用いられる。例えば、メタデータには、ポイントクラウドやデータ構造体等の３次元データが含まれる。なお、ステップＳ２００５１乃至Ｓ２００５４の処理は、エンドツーエンド（end-to-end）の機械学習で行われてもよい。一方で、生成ステップとして通常処理が行われる場合、電子機器２０００１又は光センサ２００１１のプロセッサや信号処理回路によって、ＡＩを利用せずに、補正済みデータからメタデータを生成する処理が行われる。

　以上のように、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１においては、光センサ２００１１からの画像データを用いた補正処理として、補正対象画素を特定する特定ステップと補正対象画素を補正する補正ステップ、又は画像データに含まれる補正対象画素を補正する補正ステップが行われる。さらに、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１では、補正処理で得られる補正済みデータを用い、メタデータを生成する生成ステップを行うこともできる。

　さらに、これらの補正済みデータや、メタデータ等のデータを読み出し可能な記憶媒体に記録することで、それらのデータが記録された記憶媒体や、当該記憶媒体を搭載した電子機器などの装置を生成することもできる。当該記憶媒体は、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１に備わるメインメモリ又は補助メモリなどの記憶媒体でもよいし、それらとは独立した記憶媒体又は電子機器でもよい。

　補正処理で特定ステップと補正ステップが行われる場合、特定ステップ、補正ステップ、及び生成ステップのうち、少なくとも１つのステップで、学習モデルを用いた推論処理を行うことができる。具体的には、特定ステップにおいて推論処理又は通常処理が行われた後に、補正ステップにおいて推論処理又は通常処理が行われ、さらに生成ステップにおいて推論処理又は通常処理が行われることで、少なくとも１つのステップで推論処理が行われる。

　また、補正処理で補正ステップのみが行われる場合、補正ステップで推論処理を行い、生成ステップで推論処理又は通常処理を行うことができる。具体的には、補正ステップにおいて推論処理が行われた後に、生成ステップにおいて推論処理又は通常処理が行われることで、少なくとも１つのステップで推論処理が行われる。

　このように、特定ステップ、補正ステップ、及び生成ステップにおいては、全てのステップで推論処理が行われてもよいし、あるいは一部のステップで推論処理が行われ、残りのステップで通常処理が行われてもよい。以下、各ステップで推論処理が行われる場合の処理を説明する。

（Ａ）特定ステップで推論処理が行われる場合の処理
　補正処理で特定ステップと補正ステップが行われる場合に、当該特定ステップで推論処理が行われるとき、推論部２０４２２では、補正対象画素を含む画像データを入力とし、画像データに含まれる補正対象画素の特定情報を出力とする学習モデルが用いられる。この学習モデルは、学習部２０４２１による学習処理で生成され、推論部２０４２２に提供されて推論処理を行う際に用いられる。

　図３０のフローチャートを参照しながら、補正処理で特定ステップと補正ステップが行われる場合に、当該特定ステップで推論処理を行うに際して事前に行われる学習処理の流れを説明すれば、次のようになる。すなわち、学習部２０４２１は、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データ、シミュレータにより生成されたデータセットなどを教師データとして取得し（Ｓ２００６１）、取得した教師データを用いて学習モデルを生成する（Ｓ２００６２）。この学習モデルとしては、補正対象画素を含む画像データを入力とし、画像データに含まれる補正対象画素の特定情報を出力とする学習モデルが生成され、推論部２０４２２に出力される（Ｓ２００６３）。

（Ｂ）補正ステップで推論処理が行われる場合の処理
　補正処理で特定ステップと補正ステップが行われる場合に、当該補正ステップで推論処理が行われるとき、推論部２０４２２では、補正対象画素を含む画像データ及び補正対象画素の特定情報を入力とし、補正された画像データ又は補正された補正対象画素の特定情報を出力とする学習モデルが用いられる。この学習モデルは、学習部２０４２１による学習処理で生成される。

　図３０のフローチャートを参照しながら、補正処理で特定ステップと補正ステップが行われる場合に、当該補正ステップで推論処理を行うに際して事前に行われる学習処理の流れを説明すれば、次のようになる。すなわち、学習部２０４２１は、例えば、前述の実施形態に記載したようなシミュレータからのデータセットなどを教師データとして取得し（Ｓ２００６１）、取得した教師データを用いて学習モデルを生成する（Ｓ２００６２）。この学習モデルとしては、補正対象画素を含む画像データ及び補正対象画素の特定情報を入力とし、補正された画像データ又は補正された補正対象画素の特定情報を出力とする学習モデルが生成され、推論部２０４２２に出力される（Ｓ２００６３）。

　なお、教師データは、シミュレータから提供されるデータセットに限らず、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データなどを更に用いても構わない。

（Ｃ）補正ステップで推論処理が行われる場合の処理
　補正処理で補正ステップのみが行われる場合に、当該補正ステップで推論処理が行われるとき、推論部２０４２２では、補正対象画素を含む画像データを入力とし、補正対象画素が補正された画像データを出力とする学習モデルが用いられる。この学習モデルは、学習部２０４２１による学習処理で生成される。

　図３０のフローチャートを参照しながら、補正処理で補正ステップのみが行われる場合に、当該補正ステップで推論処理を行うに際して事前に行われる学習処理の流れを説明すれば、次のようになる。すなわち、学習部２０４２１は、例えば、前述の実施形態に記載したようなシミュレータからのデータセットなどを教師データとして取得し（Ｓ２００６１）、取得した教師データを用いて学習モデルを生成する（Ｓ２００６２）。この学習モデルとしては、補正対象画素を含む画像データを入力とし、補正対象画素が補正された画像データを出力とする学習モデルが生成され、推論部２０４２２に出力される（Ｓ２００６３）。

　ところで、学習モデルや画像データ、補正済みデータ等のデータは、単一の装置内で用いられることは勿論、複数の装置の間でやり取りされ、それらの装置内で用いられてもよい。図３１は、複数の装置間でのデータの流れを示している。

　電子機器２０００１－１乃至２０００１－Ｎ（Ｎは１以上の整数）は、ユーザごとに所持され、それぞれ基地局（不図示）等を介してインターネット等のネットワーク２００４０に接続可能である。製造時において、電子機器２０００１－１には、学習装置２０５０１が接続され、学習装置２０５０１により提供される学習モデルを補助メモリ２０１０４に記録することができる。学習装置２０５０１は、例えば、前述の実施形態に記載したような手法によってシミュレータ２０５０２により生成されたデータセットを教師データとして用いて学習モデルを生成し、電子機器２０００１－１に提供する。なお、教師データは、シミュレータ２０５０２から提供されるデータセットに限らず、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データなどを更に用いても構わない。

　図示は省略しているが、電子機器２０００１－２乃至２０００１－Ｎについても、電子機器２０００１－１と同様に、製造時の段階で学習モデルを記録することができる。以下、電子機器２０００１－１乃至２０００１－Ｎをそれぞれ区別する必要がない場合には、電子機器２０００１と呼ぶ。

　ネットワーク２００４０には、電子機器２０００１のほかに、学習モデル生成サーバ２０５０３、学習モデル提供サーバ２０５０４、データ提供サーバ２０５０５、及びアプリサーバ２０５０６が接続され、相互にデータをやり取りすることができる。各サーバは、クラウドサーバとして設けることができる。

　学習モデル生成サーバ２０５０３は、クラウドサーバ２０００３と同様の構成を有し、ＣＰＵ等のプロセッサによって学習処理を行うことができる。学習モデル生成サーバ２０５０３は、教師データを用いて学習モデルを生成する。図示した構成では、製造時に電子機器２０００１が学習モデルを記録する場合を例示しているが、学習モデルは、学習モデル生成サーバ２０５０３から提供されてもよい。学習モデル生成サーバ２０５０３は、生成した学習モデルを、ネットワーク２００４０を介して電子機器２０００１に送信する。電子機器２０００１は、学習モデル生成サーバ２０５０３から送信されてくる学習モデルを受信し、補助メモリ２０１０４に記録する。これにより、その学習モデルを備える電子機器２０００１が生成される。

　すなわち、電子機器２０００１では、製造時の段階で学習モデルを記録していない場合には、学習モデル生成サーバ２０５０３からの学習モデルを新規で記録することで、新たな学習モデルを記録した電子機器２０００１が生成される。また、電子機器２０００１では、製造時の段階で学習モデルを既に記録している場合、記録済みの学習モデルを、学習モデル生成サーバ２０５０３からの学習モデルに更新することで、更新済みの学習モデルを記録した電子機器２０００１が生成される。電子機器２０００１では、適宜更新される学習モデルを用いて推論処理を行うことができる。

　学習モデルは、学習モデル生成サーバ２０５０３から電子機器２０００１に直接提供するに限らず、各種の学習モデルを集約して管理する学習モデル提供サーバ２０５０４がネットワーク２００４０を介して提供してもよい。学習モデル提供サーバ２０５０４は、電子機器２０００１に限らず、他の装置に学習モデルを提供することで、その学習モデルを備える他の装置を生成しても構わない。また、学習モデルは、フラッシュメモリ等の着脱可能なメモリカードに記録して提供しても構わない。電子機器２０００１では、スロットに装着されたメモリカードから学習モデルを読み出して記録することができる。これにより、電子機器２０００１では、過酷環境下で使用される場合や、通信機能を有していない場合、通信機能を有しているが伝送可能な情報量が少ない場合などであっても、学習モデルを取得することができる。　

　電子機器２０００１は、画像データや補正済みデータ、メタデータなどのデータを、ネットワーク２００４０を介して他の装置に提供することができる。例えば、電子機器２０００１は、画像データや補正済みデータ等のデータを、ネットワーク２００４０を介して学習モデル生成サーバ２０５０３に送信する。これにより、学習モデル生成サーバ２０５０３では、１又は複数の電子機器２０００１から収集された画像データや補正済みデータ等のデータを教師データとして用い、学習モデルを生成することができる。より多くの教師データを用いることで、学習処理の精度を上げることができる。

　画像データや補正済みデータ等のデータは、電子機器２０００１から学習モデル生成サーバ２０５０３に直接提供するに限らず、各種のデータを集約して管理するデータ提供サーバ２０５０５が提供してもよい。データ提供サーバ２０５０５は、電子機器２０００１に限らず他の装置からデータを収集してもよいし、学習モデル生成サーバ２０５０３に限らず他の装置にデータを提供しても構わない。

　学習モデル生成サーバ２０５０３は、既に生成された学習モデルに対し、電子機器２０００１又はデータ提供サーバ２０５０５から提供された画像データや補正済みデータ等のデータを教師データに追加した再学習処理を行い、学習モデルを更新してもよい。更新された学習モデルは、電子機器２０００１に提供することができる。学習モデル生成サーバ２０５０３において、学習処理又は再学習処理を行う場合、電子機器２０００１の仕様や性能の違いに依らず、処理を行うことができる。

　また、電子機器２０００１において、補正済みデータやメタデータに対してユーザが修正の操作を行った場合（例えばユーザが正しい情報を入力した場合）に、その修正処理に関するフィードバックデータが、再学習処理に用いられてもよい。例えば、電子機器２０００１からのフィードバックデータを学習モデル生成サーバ２０５０３に送信することで、学習モデル生成サーバ２０５０３では、電子機器２０００１からのフィードバックデータを用いた再学習処理を行い、学習モデルを更新することができる。なお、電子機器２０００１では、ユーザによる修正の操作が行われる際に、アプリサーバ２０５０６により提供されるアプリケーションが利用されてもよい。

　再学習処理は、電子機器２０００１が行ってもよい。電子機器２０００１において、画像データやフィードバックデータを用いた再学習処理を行って学習モデルを更新する場合、装置内で学習モデルの改善を行うことができる。これにより、その更新された学習モデルを備える電子機器２０００１が生成される。また、電子機器２０００１は、再学習処理で得られる更新後の学習モデルを学習モデル提供サーバ２０５０４に送信して、他の電子機器２０００１に提供されるようにしてもよい。これにより、複数の電子機器２０００１の間で、更新後の学習モデルを共有することができる。

　あるいは、電子機器２０００１は、再学習された学習モデルの差分情報（更新前の学習モデルと更新後の学習モデルに関する差分情報）を、アップデート情報として、学習モデル生成サーバ２０５０３に送信してもよい。学習モデル生成サーバ２０５０３では、電子機器２０００１からのアップデート情報に基づき改善された学習モデルを生成して、他の電子機器２０００１に提供することができる。このような差分情報をやり取りすることで、全ての情報をやり取りする場合と比べてプライバシを保護することができ、また通信コストを削減することができる。なお、電子機器２０００１と同様に、電子機器２０００１に搭載された光センサ２００１１が再学習処理を行ってもよい。

　アプリサーバ２０５０６は、ネットワーク２００４０を介して各種のアプリケーションを提供可能なサーバである。アプリケーションは、学習モデルや補正済みデータ、メタデータ等のデータを用いた所定の機能を提供する。電子機器２０００１は、ネットワーク２００４０を介してアプリサーバ２０５０６からダウンロードしたアプリケーションを実行することで、所定の機能を実現することができる。あるいは、アプリサーバ２０５０６は、例えばＡＰＩ（Application Programming Interface）などを介して電子機器２０００１からデータを取得し、アプリサーバ２０５０６上でアプリケーションを実行することで、所定の機能を実現することもできる。

　このように、本技術を適用した装置を含むシステムでは、各装置の間で、学習モデル、画像データ、補正済みデータ等のデータがやり取りされて流通し、それらのデータを用いた様々なサービスを提供することが可能となる。例えば、学習モデル提供サーバ２０５０４を介した学習モデルを提供するサービスや、データ提供サーバ２０５０５を介した画像データや補正済みデータ等のデータを提供するサービスを提供することができる。また、アプリサーバ２０５０６を介したアプリケーションを提供するサービスを提供することができる。

　あるいは、学習モデル提供サーバ２０５０４により提供される学習モデルに、電子機器２０００１の光センサ２００１１から取得した画像データを入力して、その出力として得られる補正済みデータが提供されてもよい。また、学習モデル提供サーバ２０５０４により提供される学習モデルを実装した電子機器などの装置を生成して提供してもよい。さらに、学習モデルや補正済みデータ、メタデータ等のデータを読み出し可能な記憶媒体に記録することで、それらのデータが記録された記憶媒体や、当該記憶媒体を搭載した電子機器などの装置を生成して提供してもよい。当該記憶媒体は、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの不揮発性メモリでもよいし、ＳＲＡＭやＤＲＡＭなどの揮発性メモリでもよい。

　前述した実施形態は、以下のような形態としてもよい。

(１)
　プロセッサによってCGモデルから機械学習に用いる訓練データを生成する方法であって、
　前記CGモデルにおいて、第1撮影条件により取得される第1画像と、前記第1撮影条件と異なる第2撮影条件により取得される第2画像をシミュレーションにより生成し、
　少なくとも前記第1画像及び前記第2画像を前記訓練データにおける入力画像データとして取得する、
　データ生成方法。

(２)
　前記第1撮影条件に含まれる撮影位置は、前記第2撮影条件に含まれる撮影位置とは異なる位置である、
　(１)に記載のデータ生成方法。

(３)
　前記CGモデル内において、前記第1撮影条件及び前記第2撮影条件のいずれか一方と同じ位置、又は、前記第1撮影条件及び前記第2撮影条件の双方とも異なる位置から撮影する条件を含む第3撮影条件により取得される第3画像をシミュレーションにより生成し、
　少なくとも前記第3画像を前記訓練データにおける出力画像データとして取得する、
　(２)に記載のデータ生成方法。

(４)
　前記撮影条件としてさらに、
　　前記第1撮影条件と前記第2撮影条件は、異なる画角を有する光学系を備える、
　(３)に記載のデータ生成方法。

(５)
　前記撮影条件としてさらに、
　　前記第3撮影条件の画角を複数に変化させて撮影された前記第3画像を取得する、
　(４)に記載のデータ生成方法。

(６)
　前記撮影条件としてさらに、
　　前記第1撮影条件と前記第2撮影条件は、異なるダイナミックレンジを有する光学系を備える、
　(３)に記載のデータ生成方法。

(７)
　前記第1撮影条件は、前記第2撮影条件より画素値が飽和しにくく、
　前記第2撮影条件は、前記第1撮影条件よりノイズが小さい、
　(６)に記載のデータ生成方法。

(８)
　前記第1撮影条件は、感知情報を対数変換して取得するセンサであり、
　前記第2撮影条件は、感知情報を対数変換せずに取得するセンサである、
　(６)又は(７)に記載のデータ生成方法。

(９)
　前記第1撮影条件と前記第2撮影条件は、露光時間が異なる、
　(６)から(８)のいずれかに記載のデータ生成方法。

(１０)
　前記第1撮影条件と前記第2撮影条件は、センサにおける電荷の蓄積時間が異なる、
　(６)から(９)のいずれかに記載のデータ生成方法。

(１１)
　前記第3画像は、ハイダイナミックレンジを有する画像である、
　(６)から(１０)のいずれかに記載のデータ生成方法。

(１２)
　前記撮影条件としてさらに、
　　前記第1撮影条件と前記第2撮影条件は、センサが感知する情報が異なる条件を含む、
　(３)に記載のデータ生成方法。

(１３)
　前記第1撮影条件は、カラー情報を取得する撮影であり、
　前記第2撮影条件は、温度情報を取得する撮影である、
　(１２)に記載のデータ生成方法。

(１４)
　前記第2撮影条件は、赤外線を感知するセンサによる撮影である、
　(１３)に記載のデータ生成方法。

(１５)
　前記第1撮影条件は、グレースケール情報を取得する撮影であり、
　前記第2撮影条件は、カラー情報を取得する撮影である、
　(１３)に記載のデータ生成方法。

(１６)
　前記第1撮影条件は、グレースケール情報を取得する撮影であり、
　前記第2撮影条件は、プラズモン共鳴を用いて情報を取得する撮影である、
　(１３)に記載のデータ生成方法。

(１７)
　前記第1撮影条件におけるセンサの画素サイズと、前記第2撮影条件におけるセンサの画素サイズが異なるサイズである、
　(１３)に記載のデータ生成方法。

(１８)
　前記第1撮影条件は、カラー情報を取得する撮影であり、
　前記第2撮影条件は、距離情報を取得する撮影である、
　(１２)に記載のデータ生成方法。

(１９)
　前記第3撮影条件は、第1撮影条件と同じ位置、同じ方向における距離情報を取得する撮影である、
　(１８)に記載のデータ生成方法。

(２０)
　前記第2撮影条件及び前記第3撮影条件は、TOF画像を取得する撮影である、
　(１８)又は(１９)に記載のデータ生成方法。

(２１)
　前記第1撮影条件と、前記第2撮影条件は、超広角レンズを含む光学系であって、互いに機械的に干渉しない前記光学系を有する逆方向を向いた撮像系による撮影である、
　(３)に記載のデータ生成方法。

(２２)
　前記第3撮影条件と異なる方向を向き、前記第3撮影条件の光学系と同一の主点を有する光学系による撮影である、第4撮影条件により取得された第4画像をシミュレーションにより生成し、
　前記第4画像を前記訓練データの出力データとして取得する、
　(２１)に記載のデータ生成方法。

(２３)
　前記第2撮影条件は、前記第1撮影条件に対する相対的な所定位置からランダムにずれた位置から、前記第1撮影条件の光軸と平行な所定方向からランダムにずれた光軸の方向を撮影する、
　(２)に記載のデータ生成方法。

(２４)
　前記所定位置からの前記第2撮影条件の位置のずれと、
　前記所定方向からの前記第2撮影条件の光軸の方向のずれと、
　を前記訓練データの教師データとして取得する、
　(２３)に記載のデータ生成方法。

(２５)
　第1所定位置、第2所定位置、第1光軸方向及び第2光軸方向を設定し、
　前記第1撮影条件は、前記第1所定位置からランダムにずれた位置から前記第1光軸方向からランダムにずれた方向を撮影し、
　前記第2撮影条件は、前記第2所定位置からランダムにずれた位置から前記第2光軸方向からランダムにずれた方向を撮影する、
　(２)に記載のデータ生成方法。

(２６)
　前記第1所定位置から前記第1光軸方向を撮影する、第3撮影条件により取得された第3画像をシミュレーションにより生成し、
　前記第2所定位置から前記第2光軸方向を撮影する、第4撮影条件により取得された第4画像をシミュレーションにより生成し、
　前記第3画像及び前記第4画像を前記訓練データの教師データとして取得する、
　請求項２５に記載のデータ生成方法。

(２７)
　前記撮影条件は、3以上の前記訓練データにおける入力画像データのセットを生成する条件を含む、
　(１)から(２３)のいずれかに記載のデータ生成方法。

(２８)
　前記撮影条件は、2以上の前記訓練データにおける出力画像データのセットを生成する条件を含む、
　(１)から(２７)のいずれかに記載のデータ生成方法。

(２９)
　(１)から(２８)のいずれかに記載のデータ生成方法により生成された訓練データを用いて、推定モデルの最適化を実行する、
　学習方法。

(３０)
　前記推定モデルは、ニューラルネットワークモデルである、
　(２９)に記載の学習方法。

(３１)
　(１)から(２８)のいずれかに記載するデータ生成方法により生成された訓練データを用いて最適化された推定モデルを用いて、実写データである入力データに対する推定データを取得する、
　推定方法。

(３２)
　前記推定モデルは、ニューラルネットワークモデルである、
　(３１)に記載の推定方法。

(３３)
　メモリと、プロセッサと、を備え、
　前記プロセッサにより、(１)から(２８)のいずれかに記載のデータ生成方法を実行する、
　データ生成装置。

(３４)
　メモリと、プロセッサと、を備え、
　前記プロセッサにより、(２９)又は(３０)に記載の学習方法を実行する、
　学習装置。

(３５)
　メモリと、プロセッサと、を備え、
　前記プロセッサにより、(３１)又は(３２)に記載の推定方法を実行する、
　推定装置。

(３６)
　プロセッサに、
　(１)から(２８)のいずれかに記載のデータ生成方法を実行させる、
　プログラム。

(３７)
　プロセッサに、
　(２９)又は(３０)に記載の学習方法を実行させる、
　プログラム。

(３８)
　プロセッサに、
　(３１)又は(３２)に記載の推定方法を実行させる、
　プログラム。

(３９)
　(３６)から(３８)のいずれかに記載のプログラムを格納する、
　非一時的コンピュータ可読媒体。

(４０)
　プロセッサによってCGモデルから生成した機械学習に用いる訓練データを用いて学習モデルを生成する方法であって、
　前記CGモデルにおいて、第1撮影条件により取得される第1画像と、前記第1撮影条件と異なる第2撮影条件により取得される第2画像をシミュレーションにより生成し、
　少なくとも前記第1画像及び前記第2画像を前記訓練データにおける入力画像データとして取得する、
　学習モデルの生成方法。

(４１)
　前記入力画像データの取得は、(１)から(２７)のいずれかに記載された方法により実行される、
　(４０)に記載の学習モデルの生成方法。

(４２)
　(４０)又は(４１)に記載の学習モデルの生成方法で生成された学習モデルを記憶媒体に記憶することを含む、
　記憶媒体の生成方法。

(４３)
　(４０)又は(４１)に記載の学習モデルの生成方法で生成された学習モデルを電子機器の記憶媒体に記憶することを含む、
　電子機器の生成方法。

　本開示の態様は、前述した実施形態に限定されるものではなく、想到しうる種々の変形も含むものであり、本開示の効果も前述の内容に限定されるものではない。各実施形態における構成要素は、適切に組み合わされて適用されてもよい。すなわち、特許請求の範囲に規定された内容及びその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。

1：データ生成システム、
2：CGジェネレータ、
3：シミュレータ、
300：入出力I/F、302：記憶部、304：条件設定部、306：画像生成部、
4：訓練装置、
400：入出力I/F、402：記憶部、404：訓練部、406：モデル、
5：推定装置、
500：入出力I/F、502：記憶部、504：推定部、506：学習済モデル

Claims

　プロセッサによってCGモデルから機械学習に用いる訓練データを生成する方法であって、
　前記CGモデルにおいて、第1撮影条件により取得される第1画像と、前記第1撮影条件と異なる第2撮影条件により取得される第2画像をシミュレーションにより生成し、
　少なくとも前記第1画像及び前記第2画像を前記訓練データにおける入力画像データとして取得する、
　データ生成方法。
　前記第1撮影条件に含まれる撮影位置は、前記第2撮影条件に含まれる撮影位置とは異なる位置である、
　請求項１に記載のデータ生成方法。
　前記CGモデル内において、前記第1撮影条件及び前記第2撮影条件のいずれか一方と同じ位置、又は、前記第1撮影条件及び前記第2撮影条件の双方とも異なる位置から撮影する条件を含む第3撮影条件により取得される第3画像をシミュレーションにより生成し、
　少なくとも前記第3画像を前記訓練データにおける出力画像データとして取得する、
　請求項２に記載のデータ生成方法。
　撮影条件としてさらに、
　　前記第1撮影条件と前記第2撮影条件は、異なる画角を有する光学系を備える、
　請求項３に記載のデータ生成方法。
　撮影条件としてさらに、
　　前記第3撮影条件の画角を複数に変化させて撮影された前記第3画像を取得する、
　請求項４に記載のデータ生成方法。
　撮影条件としてさらに、
　　前記第1撮影条件と前記第2撮影条件は、異なるダイナミックレンジを有する光学系を備える、
　請求項３に記載のデータ生成方法。
　撮影条件としてさらに、
　　前記第1撮影条件と前記第2撮影条件は、センサが感知する情報が異なる条件を含む、
　請求項３に記載のデータ生成方法。
　前記第1撮影条件は、カラー情報を取得する撮影であり、
　前記第2撮影条件は、温度情報を取得する撮影である、
　請求項７に記載のデータ生成方法。
　前記第1撮影条件は、グレースケール情報を取得する撮影であり、
　前記第2撮影条件は、プラズモン共鳴を用いて情報を取得する撮影である、
　請求項７に記載のデータ生成方法。
　前記第1撮影条件におけるセンサの画素サイズと、前記第2撮影条件におけるセンサの画素サイズが異なるサイズである、
　請求項７に記載のデータ生成方法。
　前記第1撮影条件は、カラー情報を取得する撮影であり、
　前記第2撮影条件は、距離情報を取得する撮影である、
　請求項７に記載のデータ生成方法。
　前記第3撮影条件は、前記第1撮影条件と同じ位置、同じ方向における距離情報を取得する撮影である、
　請求項１１に記載のデータ生成方法。
　前記第1撮影条件と、前記第2撮影条件は、超広角レンズを含む光学系であって、互いに機械的に干渉しない前記光学系を有する逆方向を向いた撮像系による撮影である、
　請求項３に記載のデータ生成方法。
　前記第3撮影条件と異なる方向を向き、前記第3撮影条件の光学系と同一の主点を有する光学系による撮影である、第4撮影条件により取得された第4画像をシミュレーションにより生成し、
　前記第4画像を前記訓練データの出力データとして取得する、
　請求項１３に記載のデータ生成方法。
　前記第2撮影条件は、前記第1撮影条件に対する相対的な所定位置からランダムにずれた位置から、前記第1撮影条件の光軸と平行な所定方向からランダムにずれた光軸の方向を撮影する、
　請求項２に記載のデータ生成方法。
　前記所定位置からの前記第2撮影条件の位置のずれと、
　前記所定方向からの前記第2撮影条件の光軸の方向のずれと、
　を前記訓練データの教師データとして取得する、
　請求項１５に記載のデータ生成方法。
　撮影条件は、3以上の前記訓練データにおける入力画像データのセットを生成する条件を含む、
　請求項１に記載のデータ生成方法。
　撮影条件は、2以上の前記訓練データにおける出力画像データのセットを生成する条件を含む、
　請求項１に記載のデータ生成方法。
　請求項１に記載のデータ生成方法により生成された前記訓練データを用いて、推定モデルの最適化を実行する、
　学習方法。
　請求項１に記載するデータ生成方法により生成された前記訓練データを用いて最適化された推定モデルを用いて、実写データである入力データに対する推定データを取得する、
　推定方法。
　プロセッサによってCGモデルから生成した機械学習に用いる訓練データを用いて学習モデルを生成する方法であって、
　前記CGモデルにおいて、第1撮影条件により取得される第1画像と、前記第1撮影条件と異なる第2撮影条件により取得される第2画像をシミュレーションにより生成し、
　少なくとも前記第1画像及び前記第2画像を前記訓練データにおける入力画像データとして取得する、
　学習モデルの生成方法。
　請求項２１に記載の学習モデルの生成方法で生成された学習モデルを記憶媒体に記憶することを含む、
　記憶媒体の生成方法。
　請求項２１に記載の学習モデルの生成方法で生成された学習モデルを電子機器の記憶媒体に記憶することを含む、
　電子機器の生成方法。