WO2021177324A1

WO2021177324A1 - 画像生成装置、画像生成方法、記録媒体生成方法、学習モデル生成装置、学習モデル生成方法、学習モデル、データ処理装置、データ処理方法、推論方法、電子機器、生成方法、プログラム及び非一時的コンピュータ可読媒体

Info

Publication number: WO2021177324A1
Application number: PCT/JP2021/008019
Authority: WO
Inventors: 龍平秦; 嘉基安藤; 雄亮新見; 肇保坂; 森山　豊; 宜邦野村
Original assignee: ソニーセミコンダクタソリューションズ株式会社
Priority date: 2020-03-05
Filing date: 2021-03-02
Publication date: 2021-09-10
Also published as: EP4116938A1; JP2023056056A; US20230078763A1; CN115226406A; EP4116938A4; TW202143120A

Abstract

［課題］コンピュータグラフィックスを用いて訓練データを取得する。［解決手段］画像生成方法は、CGモデル又は前記CGモデルに基づいて生成された人工画像を取得することと、プロセッサにより、前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成することと、を備える。

Description

画像生成装置、画像生成方法、記録媒体生成方法、学習モデル生成装置、学習モデル生成方法、学習モデル、データ処理装置、データ処理方法、推論方法、電子機器、生成方法、プログラム及び非一時的コンピュータ可読媒体

　本開示は、画像生成装置、画像生成方法、記録媒体生成方法、学習モデル生成装置、学習モデル生成方法、学習モデル、データ処理装置、データ処理方法、推論方法、電子機器、生成方法、プログラム及び非一時的コンピュータ可読媒体に関する。

　今日、ディープラーニングをはじめとして、機械学習による推定モデル生成等が広く研究されている。機械学習を実行する場合には、生成するモデルに多くの訓練データを入力する必要がある。また、バリデーションを実行するためにも、多くの訓練データが必要となる。画像を入力とするモデル生成に用いる訓練データの収集には、実際の風景を写真として取得したり、絵画を描いたりする必要がある。これらの訓練データを収集した後には、訓練を実行する人間が個々の訓練データに対してアノテーションを付与する必要があることが多い。

　しかしながら、データの収集及びアノテーションの付与には手間が掛かり、ヒューマンエラー等が発生する蓋然性も高い。特殊な状況におけるデータ、例えば、夜間における自動運転に対応するモデル、所定のカメラで撮影された画像を補正するモデルといったモデルを訓練する場合には、当該状況におけるデータの収集をする必要があるが、このようなデータの収集は、一般的にはコストが高くなる。さらに、自動運転における事故発生のシーン、病理の画像、手術中の画像等、そもそも遭遇するのが困難である状況の画像も訓練データとして収集するのが望ましいが、これらの状況を意図的に発生させるのは倫理的な問題を含めて様々な問題があり、データを収集可能な状態において意図的ではなくこれらの状況に遭遇することも困難である。

特開平６－３４８８４０号公報

　そこで、本開示は、コンピュータグラフィックスを用いた訓練データの取得を実現する。

　一実施形態によれば、データ生成方法は、プロセッサによりデータを生成する方法であって、CGモデルから、機械学習において推定モデルの最適化に用いられる訓練データを取得する、データ生成方法である。

　CGモデルから、撮影するカメラのパラメータに基づいた画像を取得してもよい。

　カメラのパラメータは、カメラのレンズに関するパラメータを備えてもよい。

　カメラのレンズに関するパラメータは、魚眼レンズ、広角レンズ、望遠レンズ、マクロレンズ又は標準レンズのうち、少なくとも1つに基づいたパラメータであってもよい。

　カメラのレンズに関するパラメータは、カメラのレンズに起因する、ぼけ、歪み、シェーディング、フレア又はゴーストのうち少なくとも1つに関するパラメータであってもよい。

　カメラのパラメータは、カメラの受光センサに関するパラメータを備えていてもよい。

　カメラのセンサに関するパラメータは、白色画素、黒色画素又はランダムな画素値を有する欠陥のうち少なくとも1つに関するパラメータであってもよい。

　カメラのセンサに関するパラメータは、像面位相差取得用の画素、偏光画素、IR取得画素、UV取得画素、測距用の画素又は温度画素のうち少なくとも1つに関するパラメータであってもよい。

　カメラのセンサに関するパラメータは、カラーフィルタ特性、分光特性、カラーフィルタ配列、温度特性、変換効率、感度又は読み出し順のうち少なくとも1つに関するパラメータであってもよい。

　CGモデルから取得した撮影するカメラのパラメータにより変換された画像に対して、データ圧縮に関するパラメータに基づいて圧縮された画像を取得してもよい。

　データ圧縮に関するパラメータは、圧縮アルゴリズム、圧縮率、ビットレート、階調又は色空間変換のうち少なくとも1つに関するパラメータを備えていてもよい。

　CGモデルから、マルチスペクトル画像、ハイパースペクトル画像を取得してもよい。

　CGモデルから、撮影条件に基づいた画像を取得してもよい。

　撮影条件は、光源の種類、位置又は方向のうち少なくとも1つに関するものであってもよい。

　撮影条件は、画素値の飽和に関するものであってもよい。

　撮影条件は、露出に関するものであってもよい。

　CGモデルから、推定モデルの入力画像となる通常画像と、通常画像を入力した場合の望ましい出力画像である理想画像と、を別々に取得してもよい。

　CGモデルから、上記の少なくともいずれか1つに記載の方法を用いて通常画像及び理想画像を取得してもよい。

　前記CGモデルにアノテーションを付与して前記理想画像を取得してもよい。

　前記アノテーションは、前記理想画像の領域ごと又は画素ごとに付与されてもよい。

　前記アノテーションは、前記CGモデルから前記理想画像を生成する変換と同じ変換における幾何学的変換により変換されて付与されてもよい。

　一実施形態によれば、学習方法は、上記のいずれかに記載のデータ生成方法を用いて取得した訓練データを用いて推定モデルを最適化する。

　一実施形態によれば、推定方法は、上記のいずれかに記載のデータ生成方法を用いて取得した訓練データを用いて最適化された推定モデルを用いた推定を実行する。

　また、一実施形態によれば、画像生成方法は、CGモデル又は前記CGモデルに基づいて生成された人工画像を取得することと、プロセッサにより、前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成することと、を備える。

　前記CGモデル又は前記人工画像を加工する少なくとも1つのパラメータを選択することと、前記CGモデル又は前記人工画像を生成するタイミングにおいて、前記選択されたパラメータに基づいて前記CGモデル又は前記人工画像に施すことと、をさらに備えてもよい。

　前記少なくとも1つのパラメータは、前記センサに関するパラメータであってもよい。

　前記センサは、少なくともカメラを備えてもよい。

　前記センサで取得した画像に対して使用される前記AIは、前記センサ又は前記カメラに起因した画像の変化を補正することに用いられてもよい。

　前記加工画像又は前記人工画像のメタデータを記録媒体に記録すること、をさらに備えてもよい。

　前記加工画像又は前記人工画像のメタデータを前記人工画像と関連付けて前記記憶媒体に記録してもよい。

　一実施形態によれば、画像生成装置は、プロセッサを備え、前記プロセッサは、CGモデル又は前記CGモデルに基づいて生成された人工画像を取得し、前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成する。

　一実施形態によれば、非一時的コンピュータ可読媒体は、プロセッサに実行させると、CGモデル又は前記CGモデルに基づいて生成された人工画像を取得することと、前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成することと、を備える画像生成方法を実行するプログラムを格納する。

　一実施形態によれば、学習モデル生成方法は、センサで取得した画像に対して用いられるAIの学習モデル生成方法であって、第1画像データを取得することと、前記第1画像データと異なる第2画像データを取得することと、前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成することと、を備え、前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、前記第2画像データは、プロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである。

　前記第2画像データは、前記第2画像のメタデータであってもよい。

　一実施形態によれば、学習モデル生成装置は、プロセッサを備え、センサで取得した画像に対して用いられるAIの学習モデルを生成する学習モデル生成装置であって、前記プロセッサは、第1画像データを取得し、前記第1画像データと異なる第2画像データを取得し、前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成し、前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、前記第2画像データは、前記プロセッサと同一のプロセッサ又は前記プロセッサと異なるプロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである。

　一実施形態によれば、非一時的コンピュータ可読媒体は、プロセッサに実行させると、第1画像データを取得することと、前記第1画像データと異なる第2画像データを取得することと、前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成することと、を備える学習モデル生成方法を実行するプログラムであって、前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、前記第2画像データは、前記プロセッサと同一のプロセッサ又は前記プロセッサと異なるプロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである、プログラムを格納する。

　一実施形態によれば、推論方法は、センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する推論方法であって、プロセッサにより、入力画像データを取得することと、前記入力画像データが入力された前記学習モデルから、前記学習モデルの処理結果を取得すること、を備え、前記学習モデルは、第1画像データと、前記第1画像データと異なる第2画像データを取得することと、前記第1画像データと、前記第2画像データと、に基づいて、学習することと、により生成されたモデルであり、前記第1画像データは、人工的に生成された人工画像であり、前記第2画像データは、前記第1画像に対して処理が施されたデータである。

　一実施形態によれば、電子機器は、センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する電子機器であって、制御装置を有し、前記制御装置は、入力画像データが入力されると、前記入力画像データを前記学習モデルに入力し、前記入力画像データが入力された学習モデルの処理結果を取得し、取得した前記処理結果を出力し、前記学習モデルは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像とによって学習されたモデルである。

　一実施形態によれば、プログラムは、センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する推論方法をプロセッサに実行させるプログラムであって、前記推論方法は、入力画像データを取得することと、前記入力画像データが入力された前記学習モデルから、前記学習モデルの処理結果を取得すること、を備え、前記学習モデルは、第1画像データと、前記第1画像データと異なる第2画像データを取得することと、前記第1画像データと、前記第2画像データと、に基づいて、学習することと、により生成されたモデルであり、前記第1画像データは、人工的に生成された人工画像であり、前記第2画像データは、前記第1画像に対して処理が施されたデータである。

　一実施形態によれば、生成方法は、センサで取得した画像に対して使用されるAIの学習モデルを生成する生成方法であって、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、に基づいて、センサで取得される前記人工画像に対応する画像を入力すると、前記加工画像に対応した画像を出力する学習モデルを学習すること、を備える。

　電子機器の生成方法は、上記により生成された前記学習モデルを非一時的コンピュータ可読媒体に記録すること、を備えてもよい。

　一実施形態によれば、学習モデルは、センサで取得した画像に対して使用されるAIの学習モデルであって、複数のノードで構成される複数の階層を有し、前記複数の階層のそれぞれは、関数を有するとともに、前記複数の階層のそれぞれにおける前記複数のノードのそれぞれは、前記複数の階層の他の階層の1又は複数のノードとエッジを介して接続され、前記エッジは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、に基づいた重み付けを有する。

　一実施形態によれば、非一時的コンピュータ可読媒体は、センサで取得した画像に対して使用されるAIの学習モデルが記録された非一時的コンピュータ可読媒体であって、前記学習モデルは、複数のノードで構成される複数の階層を有し、前記複数の階層のそれぞれは、関数を有するとともに、前記複数の階層のそれぞれにおける前記複数のノードのそれぞれは、前記複数の階層の他の階層の1又は複数のノードとエッジを介して接続され、前記エッジは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、に基づいて求められた重み付け情報が、前記エッジに関連付けられて記録されている。

　一実施形態によれば、データ処理方法は、学習モデルからの結果に基づいて、データ処理されるデータ処理方法であって、学習モデルの結果が入力されることと、前記学習モデルの結果に基づいて、処理データを生成することと、前記処理データを出力することと、を備え、前記学習モデルからの結果は、取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、前記あらかじめ学習された学習モデルは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている。

　一実施形態によれば、データ処理装置は、学習モデルからの結果に基づいて、データ処理を実行するデータ処理装置であって、学習モデルの結果が入力されることと、前記学習モデルの結果に基づいて、処理データを生成することと、前記処理データを出力することと、を実行するプロセッサを備え、前記学習モデルからの結果は、取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、前記あらかじめ学習された学習モデルは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている。

　一実施形態によれば、プログラムは、プロセッサに、学習モデルからの結果に基づいて、データ処理されるデータ処理方法を実行させるプログラムであって、前記データ処理方法は、学習モデルの結果が入力されることと、前記学習モデルの結果に基づいて、処理データを生成することと、前記処理データを出力することと、を備え、前記学習モデルからの結果は、取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、前記あらかじめ学習された学習モデルは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている。

　一実施形態によれば、画像生成方法は、AIの学習において用いられる画像を生成する画像生成方法であって、人工的に生成された人工画像を入力することと、前記人工画像に対して加工処理を施した加工画像を生成することと、前記加工画像を出力することと、を備える。

一実施形態に係るデータ生成システムの一例を示す図。一実施形態に係るシミュレータの一例を示す図。一実施形態に係るシミュレータの出力例を示す図。一実施形態に係るシミュレータの一例を示す図。一実施形態に係るCGジェネレータ及びシミュレータの出力を示す図。一実施形態に係るCGジェネレータ及びシミュレータの出力を示す図。一実施形態に係るシミュレータの出力例を示す図。一実施形態に係る機械学習システムの一例を示す図。ＡＩ処理を行う装置を含むシステムの構成例を示す図である。電子機器の構成例を示すブロック図である。エッジサーバ又はクラウドサーバの構成例を示すブロック図である。光センサの構成例を示すブロック図である。処理部の構成例を示すブロック図である。ＡＩを利用した処理の流れを説明するフローチャートである。補正処理の流れを説明するフローチャートである。ＡＩを利用した処理の流れを説明するフローチャートである。学習処理の流れを説明するフローチャートである。複数の装置間でのデータの流れを示す図である。

　以下、図面を用いて本開示における実施形態について説明する。

　（第1実施形態）
　図１は、第1実施形態に係るデータ生成システムの一例を概略的に示す図である。データ生成システム1は、CGジェネレータ2と、シミュレータ3と、を備える。データ生成システム1は、機械学習における推定モデルの最適化に用いられる訓練データを生成する。この他、図示しない入出力インタフェース等が備えられていてもよい。

　CGジェネレータ2は、コンピュータグラフィックス（Computer Graphics、以下CGと記載する。）を生成する。CGジェネレータ2は、機械学習を実行する際に必要となる訓練データを含むようにCGのモデルを生成する。ここで、CGモデルとは、仮想空間内に形成される3次元物体、周辺環境等のモデルを指す。また、以下において単にCG（またはCGモデル）と記載する場合、このCGモデルを示す場合と、CGモデルからレイトレーシング等を用いて作成されたCG画像である場合があるが、これらは文脈により適切に読み分けることができるものである。

　シミュレータ3は、CGジェネレータ2から出力されたCGモデルに対して、学習に用いられる様々な状況に合わせてシミュレーションをして種々の状況を再現した画像を出力する。

　データ生成システム1は、CGジェネレータ2が生成したCGモデルをシミュレータ3が加工することにより、種々の状況に応じた画像を取得することが可能となる。CGジェネレータ2が精密なCGモデルを出力することにより、実際に撮影された画像と比較して、元の画像に対するノイズ等が小さい状態で訓練データを取得することが可能となり、機械学習により訓練されたモデルの精度を向上するとともに、データ収集のコストを削減することが可能となる。

　以下、CGジェネレータ2及びシミュレータ3における処理について説明する。

　CGジェネレータ2は、上記に記載したように、ノイズ等が付加されていない、現実に近いCGモデルを生成する。このCGジェネレータ2は、オペレータにより操作され、オブジェクト等の作成を実行する。オペレータによりオブジェクトが作成され、オブジェクトの質感等が設定された後、CGジェネレータ2は、レイトレーシング等の物理ベースのレンダリングを用いることにより、オブジェクト、光源に基づいた、状況に応じた精緻なCGモデルを生成する。

　生成の対象となるデータは、種々の状況に関するが、一例として、データ生成システム1により自動車の自動運転の用いられる訓練データを学習する場合について考える。もちろん、他の環境、例えば、手術室の中の状況、水中、海中、航空写真、天体、宇宙、室内、微少物体等に基づいたCGモデルを下記と同様に生成することが可能である。これらの状況は、機械学習の訓練対象となるモデルに基づいて適切に設定することができる。

　CGジェネレータ2は、種々のオブジェクト、例えば、他の自動車、自転車、バイク、人間、街路樹、ガードレール、水たまり、凍結面、その他の障害物等のモデルを道路、歩道等のモデル上に生成する。この生成は、上述したようにオペレータにより実現されてもよいし、オペレータがオブジェクトを指定すると自動的にCGジェネレータ2が生成するものであってもよい。

　CGジェネレータ2は、この生成されたオブジェクト、道路等を自動車の中から視覚的に感知したCGモデルを生成する。CGモデルの生成は、適切なレンダリングを用いて実行される。CGジェネレータ2は、例えば、オブジェクトの表面及び内部等の状態にデータとして取得したい状況に対応する光線を当てた状態をシミュレートしてレンダリングし、取得したい状況に合わせた精緻なCGを生成する。

　オブジェクトの表面及び内部等の状態とは、例えば、自動車であれば金属的な質感を持った表面であり、人間であれば柔らかい皮膚の質感を持った表面であり、街路樹であれば植物の特性を有する表面、建物であればその建物に用いられている物質に対応する表面、その他の障害物の表面又は表層面における物質に対応する表面における、光の反射の状態を示す情報のことである。

　光線とは、例えば、太陽光であったり、トンネルの中であれば、トンネル照明であったり、夜間の状況であれば、街頭、ビルの灯りであったりする。また、光線は、方向を指定することも可能である。CGジェネレータ2は、例えば、光源の位置を指定することにより、各オブジェクトの各領域に対して照射される光線の法線を演算する。

　CGジェネレータ2は、このようなオブジェクトの表面の情報と、光線の情報に基づいて、オブジェクトに反射して人間の目又はカメラにより感知される視覚情報を適切にレンダリングして、精緻なCGモデルを生成する。生成されるCGモデルは、3次元のCGモデルであってもよい。3次元のCGモデルを2次元で表す場合、レイヤが設定され、適切なレイヤごとに3次元のCGモデルに基づいてオブジェクト及び放線情報が配置される画像であってもよい。

　シミュレータ3は、例えば、カメラのパラメータを設定し、レンズの影響等に基づいたノイズ、歪み等をCGジェネレータ2の出力したモデルに対して適用し、取得したいデバイスの情報に基づいた画像データを演算して生成する。例えば、レンズの枚数、レンズの性能に基づいて、カメラのレンズ光学系に関するパラメータを用いて取得できる画像をCGモデルから取得する。また、カメラのセンサ（例えば、受光センサ）の影響に基づいた劣化をシミュレーションにより取得してもよい。

　図２は、シミュレータ3の一例を示す図である。シミュレータ3は、入出力I/F 300と、記憶部302と、通常モデル適用部304と、理想モデル適用部306と、を備える。

　入出力I/F 300は、シミュレータ3へのデータの入力、及び、シミュレータ3からのデータの出力を行うためのインタフェースである。入出力I/F 300として示されているが、もちろん、入力I/Fと出力I/Fとを別々に備えていてもよい。なお、CGジェネレータ2自体がシミュレータ3に備えられるものであってもよい。この場合、入力のステップを省略することが可能である。

　記憶部302は、シミュレータ3において必要となるデータを一時的又は非一時的に格納する。記憶部302は、例えば、メモリを備える。また、シミュレータ3の機能のうち少なくとも1つがソフトウェアにより実行される場合には、記憶部302は、シミュレータ3の各機能のうち少なくとも1つを実行するためのプログラムを格納してもよい。例えば、記憶部302は、入出力I/F 300を介して入力されたデータを格納してもよいし、モデルを適用した後の出力データを格納してもよい。また、シミュレータ3における演算において、適宜途中経過等を格納してもよい。

　シミュレータ3は、例えば、入出力I/F 300を介して取得されたCGジェネレータ2の生成したCGモデルから、自動車の運転者の目線或いは自動運転に用いられるカメラの位置、姿勢に基づいた視覚的な感知情報を生成する。

　通常モデル適用部304は、生成されたCGモデル、すなわち、現実世界に近いモデルに対して、ターゲットとなるカメラに対応するモデルを用いることにより劣化画像を生成する。モデルを生成するターゲットとなるカメラが決まっている場合には、当該カメラのレンズ系に対応するモデルと、当該カメラに搭載されているチップ等のセンサに対応するモデルと、を備えていてもよい。さらに、レンズ系と、センサ系における撮像面までの距離と、に基づいた劣化因子を考慮するモデルであってもよい。このモデルの情報も記憶部302に格納されていてもよい。

　複数のカメラに対応するパラメータが設定されていてもよく、この場合、ユーザは、入出力I/Fを介していずれのカメラをターゲットとするか選択できる構成とし、通常モデル適用部304は、選択されたモデルを用いて劣化画像を生成してもよい。

　通常モデル適用部304は、カメラの位置、姿勢を設定した後、例えば、レンズにおける収差、ぼけ、迷光等のレンズ系における劣化をCGモデルに加え、センサにおけるノイズ等のデータをさらに付加してもよい。このように、モデルを用いることにより、ターゲットとなるデバイスに対応した劣化画像を生成する。ターゲットとなるデバイスのレンズ系の情報、センサの情報等、劣化に必要となる情報は、例えば、仕様書等から取得してもよいし、実際にデバイスを分解してもよいし、何らかのパターンを当該デバイスにより撮影し、撮影された画像から劣化要素を抽出してモデル化してもよい。

　理想モデル適用部306は、CGモデルを理想型となるような画像へと変換する。通常モデル適用部304と同様に、理想モデル適用部306は、理想レンズモデルと理想センサモデルとを備えていてもよい。理想モデル適用部306は、例えば、機械学習の教師データ（ラベルデータや結果を示すデータ）に適合するように、CGモデルから理想的な画像データを取得する。

　通常モデル及び理想モデルの例は、後述にてまとめて具体的な例を挙げて説明する。

　図３は、シミュレータ3によるCGモデルから画像データへの変換例を示す図である。この図３は、画像がどのように変換されるかとともに、フローチャートと同様のステップが示されている。

　左上に記載されているCGモデルが、シミュレータ3に入力される。このCGモデルを元に、通常画像（劣化画像）と理想画像とが生成される。ここで、本開示における通常画像とは、推定モデルに入力する画像と同様の条件で取得される画像である。推定モデルは、例えば、通常画像を入力すると、理想画像が推定されるように機械学習における最適化が実行される。すなわち、理想画像は、通常画像に対する望ましい推定画像に対応する。

　通常モデル適用部304は、入力されたCGデータを、訓練の対象となる推定モデルに入力するデータと同じ劣化等を有する画像データへと変換する（S100）。上述したように、通常モデル適用部304は、ターゲットのカメラ、センサ等のパラメータに基づいて、CGモデル内に存在するオブジェクト等が、カメラの位置、姿勢等の情報と、レンズ系及び／又はセンサ系のパラメータとが設定されているシミュレータにより、ターゲットのカメラ等によりどのような撮像結果が取得されるかを出力する。

　一方で、理想モデル適用部306は、入力されたCGモデルを、訓練の対象となる推定モデル生成に用いる教師データとなる画像へと変換する（S102）。S100とS102の処理は、順番を問わずにシリアルに実行されてもよいし、パラレルに実行されてもよい。

　そして、シミュレータ3は、S100及びS102で取得された画像を内部又は外部のメモリへと出力する（S104）。外部のメモリへと出力する場合には、入出力I/F 300を介して外部へと送信する。また、メモリへと出力するのでは無く、機械学習装置に出力してもよい。この場合、例えば、破線で囲まれるように、劣化画像が入力画像、理想画像が出力画像となるような訓練対象モデルに直接的にシミュレータ3から出力を実行してもよい。破線部の処理は、訓練装置により実行されてもよい。

　なお、本開示の内容は、上記のように、CGモデルから劣化画像及び理想画像を生成することに限定されるものではない。例えば、CGモデルから理想画像を生成した(S102)のちに、生成された理想画像から劣化画像を生成する(S100’)、という処理であってもよい。以下の実施形態においても同様である。また、これらの生成される理想画像及び劣化画像には、併せてメタデータが生成されるものであってもよい。メタデータは、例えば、画像に写っているものを示すアノテーションデータであってもよいし、画像が撮影された状況、環境等を示すデータであってもよい。このように、画像の情報、画像に写っている対象の情報、又は、画像が撮影された環境に関する情報のうち、少なくとも1つを含む情報であるメタデータを併せて取得することもできる。

　また、ここで生成された訓練データ（理想画像や劣化画像）、メタデータ等のデータを読み出し可能な記憶媒体に記録することで、それらのデータが記録された記憶媒体や、当該記憶媒体を搭載した電子機器などの装置を製造生成して提供してもよい。当該記憶媒体は、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの不揮発性メモリ（非一時的コンピュータ可読媒体）でもよいし、ＳＲＡＭ（Static Random Access Memory）や、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリでもよい。

　シミュレータ3により出力されたこれらのデータを用いて訓練対象モデルの機械学習を実行することにより、設定したカメラにより取得された画像を入力すると、理想的な画像を出力する推定モデルを生成することが可能となる。

　以上のように、本実施形態によれば、機械学習の訓練データを、CGモデルを生成する手法と同様の手法により生成することが可能となる。CGモデルを利用することにより、通常では収集が困難である状況の画像を多数生成することが可能となる。また、CGモデル内においてオブジェクトの位置を変更し、又は、オブジェクトを変更し、さらに、カメラに関するパラメータ、光源のパラメータ等を変更してレンダリングし直すことにより、種々の状況を再現する画像データ（訓練データ）を生成することが可能である。

　例えば、実際に撮影されたデータから、推定モデルの出力データとなる教師データを生成することは、たとえ撮影したデバイスの仕様が既知であったとしても、そもそも撮影データが種々の劣化要因に起因しているため、困難なことである。本実施形態によれば、生成したCGモデルから推定モデルの入力となる劣化画像と、推定モデルの出力となる理想画像とを取得することが可能となり、適切な訓練データのセットを取得することが可能となる。

　さらに、学習済みモデルを生成したいデバイスに適合したパラメータを任意に設定することが可能であるので、種々のデバイスに対する推定モデルについての訓練データを同じデータ生成システム1において生成することが可能となる。例えば、元のCGモデルが同じものであっても、通常モデル適用部304及び理想モデル適用部306における劣化モデルを変更することにより、様々なデバイスに対応する訓練データを取得することが可能となる。この結果、1つのCGモデルを生成することより、様々なデバイスに対する訓練データを生成することが可能となり、データ収集のコストを削減することが可能となる。例えば、カメラ、センサのパラメータが異なる複数の開発中のデバイスに対して、同じCGモデルから訓練データを生成することができる。

　（第2実施形態）
　本実施形態においては、上述の第1実施形態と同様に取得されるCGモデルにアノテーション情報を付与する。アノテーション情報は、機械学習の訓練において用いられる情報又はメタ情報であり、例えば、オブジェクトの識別、画像中におけるラベリング等を示す情報である。

　図４は、本実施形態に係るシミュレータ3の構成の一例を示す図である。上述のシミュレータ3の構成に加え、シミュレータ3はさらに、アノテーション付与部308を備える。

　アノテーション付与部308は、入力されたCGモデルに対してアノテーションを付与する。このアノテーションは、CGデータ内の領域ごとに付与されるものであってもよい。CGデータがレイヤごとに作成されている場合、レイヤごとにアノテーションが付与されていてもよい。

　シミュレータ3は、アノテーション付与部308により、CGモデルにアノテーションを付与する。そして、理想モデル適用部306が、このアノテーションが付与されたCGモデルを変換する。

　CGジェネレータ2が、CGモデルとともに、アノテーションデータをも作成してもよい。このアノテーションデータは、例えば、CGモデルのオブジェクトが描かれている領域ごとに、当該領域が何を示しているかを示すデータであってもよい。

　図５は、作成されたCGモデルの一例を示す図である。この図５の場合、CGモデルは、例えば、3次元のモデルデータとして取得される。CGモデルには、オブジェクトO1とオブジェクトO2が配置されている。

　CGジェネレータ2は、例えば、1枚の画像として、オブジェクトO1とオブジェクトO2とを含むデータを生成する。これとともに、CGジェネレータ2は、オブジェクトのモデルの生成するタイミングにおいて付与されていたアノテーションデータを画像中においてそれぞれが存在する領域に付与する。

　この付与は、例えば、画素ごとに付与されてもよい。画素ごとに付与される場合には、例えば、RGBチャネルの他、オブジェクトを表すチャネルを準備し、4次元のデータとして付与されてもよい。このように、シミュレータ3は、画像ファイルにアノテーション情報を埋め込むことができる。また、オブジェクトの認識のみを実現する推定モデルを生成する場合には、画像データが削除され、画素又は領域に対するアノテーション情報のみが存在するラベルデータを生成してもよい。

　別の例として、チャネルを増やすのでは無く、CGモデルとは別のアノテーション用のファイルを生成し、このアノテーション用のファイルに画素又は領域に対してそれぞれのオブジェクトのアノテーション情報を保持してもよい。そして、このアノテーション情報を機械学習の入力としてもよい。

　別の例として、CGジェネレータ2は、複数のレイヤを有する1枚の画像としてオブジェクトO1とオブジェクトO2とを含むデータを生成してもよい。これとともに、CGジェネレータ2は、オブジェクトのモデルを生成するタイミングにおいて付与されていたアノテーションデータをレイヤごとに付与する。

　例えば、オブジェクトO1 が備えられるレイヤには、オブジェクトO1 に対するアノテーションが付与され、オブジェクトO2が備えられるレイヤには、オブジェクトO2 に対するアノテーションが付与される。このアノテーションも、上記と同様に、レイヤの画素又は領域ごとに与えられてもよい。

　別の例として、2次元の画像データへとレイヤを重ねるタイミングにおいて、アノテーションが画像データに付与されてもよい。アノテーションの付与方法は、上記と同様の方法を用いてもよい。

　図６は、作成されたCGモデルをあるカメラの位置、姿勢から取得した一例を示す図である。この図６の場合、CGモデルは、上記と同様に3次元のモデルデータとして取得される。このCGモデルには、あるカメラの位置、姿勢から見ると、オブジェクトO1とオブジェクトO1の後ろに隠れているオブジェクトO2とが備えられる。

　CGジェネレータ2によりCGモデルを生成することにより、図６に示すようなカメラの位置、姿勢における隠れたオブジェクトに対してもアノテーションを付与することが可能となる。

　なお、図６においては、オブジェクトO2のすべてがオブジェクトO1に隠れている場合を示したが、これには限られず、例えば、オブジェクトO2の一部がオブジェクトO1に隠れている場合についても同様の処理を行うことができる。この場合、オブジェクトO1とオブジェクトO2が重なる領域は、オブジェクトO1のみのアノテーションを付与してもよいし、オブジェクトO1とオブジェクトO2の双方のアノテーションを付与してもよい。

　この付与は、機械学習において学習したいモデルによって適切に使い分けることができる。例えば、単純に画像処理で写っているものを推定したい場合には、重複領域にはより近いオブジェクトのアノテーションを付与すればよい。一方で、後ろに隠れているものの領域等をも推定したい場合には、重複した領域においては、重複したアノテーションを付与すればよい。

　図７は、本実施形態に係るシミュレータ3によるCGモデルの変換例を示す図である。この図７は、図３と同様に、画像がどのように変換されるかとともに、フローチャートと同様のステップが示されている。

　アノテーション付与以外は、図３と同様であるので詳細は省略する。例えば、CGモデルにおいて画像右側のトラックに対して「トラック」というアノテーション情報がある場合、本実施形態においては、理想画像のトラックが占める領域に「トラック」というアノテーション情報を付与する。

　シミュレータ3は、CGジェネレータ2から出力されたCGモデル及びアノテーションデータに基づいて、アノテーションデータが付与された2次元の画像データを取得する（S106）。例えば、CGモデルに基づいて2次元画像を取得するタイミングにおいて、領域ごと又は画素ごとにCGジェネレータ2が出力したアノテーションデータを埋め込み、アノテーション情報が付与された画像データを取得する。この取得方法は、例えば、上述したように、多チャンネルにしたり、他のファイルとして画素単位で情報を付与したりすることにより実装されてもよい。

　そして、このアノテーション情報が付与された画像を、理想モデルを用いて変換する（S102）。この処理において、アノテーション情報は、例えば、理想モデルにおける幾何学的な変形をしてオブジェクトの変換と同様に実行される。このようにアノテーション情報に対して幾何学的な変換を実行することにより、理想画像における各オブジェクトが存在する領域に対して、アノテーション情報が付与される。

　例えば、劣化画像がぼけ画像である場合には、ぼけ画像に対する理想画像の領域においてアノテーション情報が付与される。劣化画像がノイズ付加画像である場合には、このノイズ付加がされた画像に対する理想画像の領域においてアノテーション情報が付与される。このようにアノテーション情報が付与されることにより、シミュレータ3は、機械学習の訓練データとして、劣化画像とアノテーション情報が付与された理想画像のセットを出力する。理想画像がぼけを有する場合には、アノテーションの境界をぼかしてもよい。アノテーションをぼかすとは、例えば、境界におけるアノテーション情報に確率の情報を付加し、機械学習においてこの確率情報をも訓練データとして用いてもよいことをいう。

　なお、図６のように見えない箇所にアノテーション情報を付与することにより、例えば、交叉点においてブロック塀の裏に隠れている人間の情報を理想画像に付与したり、障害物により見えていない病理領域を理想画像に付与したりすることができる。このように付与することにより、自動運転における交差点の飛び出しを推定したり、内視鏡画像における病理領域を推定したりする、見えていない情報をも推定するモデルの訓練を実現することが可能となる。このような出力の用途は、一例として、隠れマルコフモデルを含む機械学習に用いることもできるが、隠れマルコフモデルに限られず種々のモデルに適切に応用することができる。

　以上のように、本実施形態によれば、前述の第1実施形態のように劣化画像と理想画像を訓練データとする場合に、理想画像についてアノテーション情報を付与することが可能となる。このことより、機械学習による訓練データの生成をより効率よく実現することができる。

　図８は、本実施形態に係るデータ生成システム1を用いた機械学習システム4を示す図である。機械学習システム4は、データ生成システム1と、機械学習装置5と、を備える。

　前述の全ての形態においては、機械学習の訓練データの生成方法、生成装置、生成システムについて説明したが、これらにより生成された訓練データは、推定モデルの生成に用いることができる。このため、本開示は、このように生成された訓練データを用いた機械学習方法、機械学習装置5、又は、この機械学習システム4により取得された推定モデル、推定方法、推定装置にも及ぶものである。

　また、機械学習装置5が、シミュレータ3を備える構成であってもよい。この場合、CGモデルを入力すると、訓練データを生成して機械学習を実行する構成としてもよい。さらには、CGジェネレータ2をも機械学習装置5が備えていてもよい。この場合、CGジェネレータ2がCGモデルを生成し、そのまま機械学習を実現することが可能となる。

　以下、理想画像と通常画像（劣化画像）の限定的ではない例をいくつかの具体的に例示する。すなわち、本実施形態のデータ生成方法は、以下の実装に限定されるものではなく、上記の構成を備える方法として、より広く定義されるものである。また、これらの例は、適切に組み合わせて実装されてもよい。

　（第1例）
　通常モデル及び／又は理想モデルは、例えば、対象となるデバイスに備えられるレンズに起因するぼけ、歪み、シェーディング、フレア、ゴースト等を適切に付加するモデルであってもよい。これらのパラメータは、複数のレンズにおけるレンズの種類、開口数、焦点距離等により表されるものであってもよい。このような画像の変換は、例えば、点像分布関数（Point Spread Function：PSF）、各種収差を表す係数、パワー等に起因するため、シミュレータ3においてこれらのパラメータを調整することにより、CGデータから劣化画像を取得することが可能となる。また、この他、レンズの透過率等の情報を用いてもよい。この透過率は、波長ごとに定義されるものであってもよい。

　また、別の例として、魚眼レンズ、広角レンズ、望遠レンズ、マクロレンズ、標準レンズ等、レンズの種類を設定できるものであってもよい。例えば、通常モデル適用部304は魚眼レンズモデルを用い、理想モデル適用部は標準レンズモデルを用いることにより、魚眼レンズにより撮影された画像から標準レンズにより撮影された画像を推定するモデルの訓練データを生成してもよい。

　これらのパラメータは、例えば、レンズのスペックから光学シミュレーション又は実験をすることにより取得することができる。また、このオブジェクトの形状の変化は、アノテーションの形状にも適用することができる。例えば、通常モデル適用部304及び理想モデル適用部306の双方において魚眼レンズモデルを使用してアノテーション情報を魚眼レンズに併せて幾何学的に変形し、魚眼レンズで撮影された画像における物体の判別をするモデルの訓練データを生成してもよい。

　また、別の応用例として、上記のようなレンズに起因するモデルを利用することにより、オートフォーカスの追従を実現するように、所望のオブジェクトにピントを合わせるような推定モデルの訓練データを生成してもよい。

　さらに、カメラの設定として、偏光フィルタ、IRフィルタ、NDフィルタ等を用いた変換を行ってもよい。

　（第2例）
　通常モデル及び理想モデルは、カメラの位置、姿勢に基づいた変換をしてもよい。複数のカメラが備えられる場合には、複数カメラの相対位置に基づいた変換をしてもよい。このような変換をするモデルは、シミュレータ3において、カメラの位置、姿勢の設定により定義することが可能である。

　（第3例）
　通常モデル及び／又は理想モデルは、センサノイズを付加する変換をしてもよい。センサノイズは、例えば、光学ショットノイズ、暗電流ショットノイズ、ランダムなショットノイズ、パターンノイズ、画素値の加算塔により実装される。このようなノイズは、センサの仕様から取得することが可能である。このような設定をすることにより、各被写体（オブジェクト）とカメラの相対位置、姿勢を設定したり、画像における被写体の位置を設定したり、複数カメラ同士の相対位置、姿勢を設定したりした画像データを取得することができる。

　（第4例）
　通常モデル及び／又は理想モデルは、上記のようなデバイスの仕様ではなく、圧縮された画像（データ圧縮された画像）にも応用することができる。例えば、圧縮アルゴリズム、圧縮率の変更、可変ビットレート、階調間引き等をした画像を生成し、これらを劣化モデルとして用いてもよい。これらの圧縮は、例えば、CGモデルから、撮影するカメラのパラメータにより変換された後に適用されてもよい。すなわち、通常モデル適用部304は、撮影するカメラのパラメータにより変換して取得されたデータを、圧縮することにより画像データを取得する。

　また、動画であれば、フレームを間引いた画像を生成してもよい。例えば、通常モデルは、理想モデルよりもFPS（Flame per Second）の小さい画像セットを取得してもよい。動画においては、圧縮のコーデックによる劣化を与えてもよい。例えば、通常モデル適用部304においてH264による動画を生成し、理想モデル適用部306において生データを用いた動画を生成してもよい。

　さらに、通常モデル適用部304においてYUV画像を取得し、理想モデル適用部306においてRGB画像を取得して、YUVからRGBへの変換を実行する色空間の変換モデルの訓練データを生成してもよい。

　（第5例）
　通常モデルは、センサにおける撮像画素の欠陥を考慮した劣化をするモデルであってもよい。画素の欠陥は、白色、黒色、又は、ランダムな値への欠陥に加え、像面位相差取得用の画素、偏光画素、IR取得画素、UV取得画素、測距用の画素、温度画素等の画像に使用されない埋め込まれた画素のうち少なくとも1つであってもよい。通常モデルは、このような画素欠陥をモデル化したものであってもよい。

　（第6例）
　通常モデルは、その他のセンサの特性を考慮したモデルであってもよい。例えば、通常モデルは、センサのカラーフィルタ特性、分光特性、カラーフィルタ配列、温度特性、変換効率、感度（HDR合成、ゲイン特性）、読み出し順（ローリングシャッタ歪み）等を考慮した劣化画像を取得できるモデルであってもよい。

　また、通常モデル及び／又は理想モデルは、マルチスペクトル画像、ハイパースペクトル画像に対応したカメラ等を考慮した画像を取得できるモデルであってもよい。これは、光源の情報と、カメラの情報（レンズとセンサの組み合わせのパラメータ）とを適切に選択することにより実現できる。

　（第7例）
　通常モデル及び／又は理想モデルは、撮影条件による変換を与えるものであってもよい。撮影条件とは、例えば、照明、飽和、露出等の条件である。

　照明条件は、例えば、光源の種類等を示すものである。例えば、上述したように、太陽光であるとか、トンネル照明であるとか、街灯であるとかを設定することにより、レンダリングにおける設定をCGジェネレータ2側で変更しておいてもよい。また、シミュレータ3が、CGジェネレータ2で取得されている法線の情報等に基づいて種々の光源に対応する画像を取得してもよい。また、光源の種類だけでは無く、光源の位置、向いている方向を光源の種類とともに設定してもよい。

　飽和は、例えば、白飛び等であり、周囲の画素からの映り込みによる画素値の色の最大値を超える劣化を示すものである。

　露出は、シャッタースピード、絞り等に基づく条件により撮影されるものであり、露出アンダー、露出オーバー等の設定である。なお、上述の画素値の飽和についても、この露出の条件でカバーしてもよい。

　この他、レンズのピント等に関する情報を設定するものであってもよい。

　（第8例）
　もちろん、単純な幾何学的変換を実行してもよい。例えば、アフィン変換、領域抽出等を実現するモデルの訓練データを取得してもよい。

　例えば、通常モデル適用部304がアフィン変換した画像に変換し、理想モデル適用部306は、アフィン変換されていない画像を取得してもよい。

　別の例として、通常モデル適用部304に任意の画像全体の変換を実行し、理想モデル適用部306において文字領域を抽出するモデルを実現してもよい。この訓練データを用いることにより、画像から文字領域を抽出するモデルを訓練することもできる。

　以下、上記の例により生成されたデータにより訓練される推定モデルの非限定的な具体例を示す。

　（第9例）
　データ生成システム1は、デモザイクを実行する推定モデル訓練用のデータを生成することができる。通常モデル適用部304は、CGデータから画素が間引きされた画像を生成する。この生成は、例えば、色ごとにカラーフィルタパターンによる間引きを行うことにより実装される。これに対して理想画像として間引きしていない画像を生成する。このように生成されたデータを用いることにより、多色センサの解像の改善を実現する推定モデルを生成することが可能となる。

　また、例えば、ノイズを付加した後にローパスフィルタを施した画像を劣化画像とし、理想画像へと変換するような高解像度化をする推定モデルの訓練データとしてもよい。

　この他、データ生成システム1は、リニアマトリクス、ガンマ補正等の色再現をより精巧に実現する推定モデルの訓練データを生成してもよい。

　（第10例）
　データ生成システム1は、画素の欠陥を補正する推定モデル訓練用のデータを生成することができる。通常モデル適用部304は、欠陥画素のある画像を生成する。この生成は、例えば、欠陥画素を任意の値に変えることにより実装される。これに対して理想画像として欠陥画素のない画像を生成する。このように生成されたデータを用いることにより、画像出力に使用されない画素部分を補間した推定を実現する推定モデルを生成することが可能となる。

　（第11例）
　データ生成システム1は、偏光センサを用いて取得された画像を補正する推定モデル訓練用のデータを生成することができる。通常モデル適用部304は、偏光画像を生成する。この画像は、CGジェネレータ2によりレイトレーシングを行う際に偏光状態を取得することにより、生成されてもよい。そして、理想モデル適用部306は、偏光していない画像を生成する。これらの画像を訓練データとして用いることにより、偏光による劣化を抑制した画像を推定するモデルを生成することが可能となる。

　別の例として、通常モデル適用部304において、P偏光、S偏光の画像をそれぞれ取得してもよい。この場合、P偏光画像、S偏光画像の2つの画像から、理想的な画像を出力する推定モデルの訓練データを生成することができる。さらにこの場合、2つの偏光画像を取得する複数のカメラの位置、姿勢をそれぞれ設定してもよい。

　（第12例）
　データ生成システム1は、マルチカメラのフュージョンを実現する推定モデルの訓練データを生成することができる。通常モデル適用部304において、CGモデル内に様々な位置、姿勢において設置されたカメラによる撮影画像を取得し、理想モデル適用部306において取得したい位置、姿勢に設置されたカメラによる撮影画像を取得することによりこの推定モデルの訓練データを取得することができる。それぞれのカメラは、上述した種々のパラメータ等をさらに別途設定することもできる。この訓練データを用いることにより、種々の状況に応じたマルチカメラにより撮影された画像からフュージョンした画像を取得する推定モデルの訓練データを生成することができる。

　（第13例）
　データ生成システム1は、上記の第4例に挙げた画像生成例に基づいて、時間軸を含む様々な画像、動画の圧縮フォーマット等による劣化を抑制する画像を推定するモデルの訓練データを生成してもよい。このような訓練データを用いることにより、例えば、JPEG、MPEGによるブロックノイズを抑制した画像を生成するモデル、フレームレートを変換した動画を生成するモデル等、圧縮による画質の劣化を補正するモデルやFHR補間を実現するモデルを生成することが可能となる。

　次に、アノテーション情報についていくつか非限定的な具体例を挙げる。

　（第14例）
　アノテーション付与部308は、単純に2次元画像において写っている物体の情報をテキストでアノテーションを付与してもよい。これは、画像に対して付与されるものであり、例えば、アノテーション付与部308は、犬が写っている画像には、犬、と、猫が写っている画像には、猫、というアノテーション情報を画像に対するアノテーション情報として付与する。

　このようにアノテーション情報を付与することにより、画像に写っているものの名称を抽出する推定モデルに対する訓練データを生成することができる。

　（第15例）
　アノテーション付与部308は、2次元画像において矩形領域でアノテーションを付与してもよい。上述したように、これは、画素単位、領域単位で実現してもよいし、その境界は、理想画像の生成と同様の幾何学的変換により変形（例えば、レンズ歪みにあわせてアフィン変換、射影変換等）されてもよい。例えば、アノテーション付与部308は、犬と猫が写っている写真に対して、犬が写っている領域に犬というアノテーションを付与し、猫が写っている領域に猫というアノテーションを付与する。

　このようにアノテーション情報を付与することにより、画像において、どの領域に何が移っているかを識別する推定モデルに対する訓練データを生成することができる。

　（第16例）
　アノテーション付与部308は、CGモデルのオブジェクトの領域を利用して上記のようなアノテーション情報を付与することができる。このようにCGモデルに基づいてアノテーション情報を付与することにより、3次元から2次元に情報を落とした場合に重なりのあるオブジェクト同士を表現することが可能となる。

　この場合、重なっている領域におけるアノテーション情報同士は、適切に処理して訓練データとすることができる。前述の実施形態でも説明したように、教師データとして、一番手前にあるもの、すなわち、画像に写っているものをアノテーション情報として付与してもよい。別の例として、複数の情報、例えば、オブジェクトが重なっている領域においては、手前にあるものと、奥にあるものと、の双方をアノテーション情報として付与してもよい。この場合、手前と奥の区別をできるアノテーション情報を付与してもよい。また、2つのオブジェクトに限られず、3つ以上のオブジェクトであっても同様に重なりを表現してもよい。このように付与されたアノテーション情報は、学習時において任意に外して訓練データとしてもよい。

　このように、写っていないもののアノテーション情報を付与することにより、写っていないもの、例えば、上述したようにブロック塀に隠れている人間に対する危険予知をする推定モデルを訓練することも可能となる。

　（第17例）
　前述の全ての形態において、アノテーション付与部308は、動画に対しても正確にアノテーション情報を付与することが可能である。これは、アノテーション付与部308がCGモデルのオブジェクトに対してアノテーションを付与することが可能なためである。このことから、一般的には非常に困難である、動画に対するアノテーションの付与を容易に実現することが可能となる。

　（第18例）
　アノテーション付与部308は、オブジェクトに対するアノテーションの他、照明条件、時刻、カメラの向き、姿勢、レンズ情報、撮影条件、カメラの存在する位置（緯度、経度等）等のメタ情報をアノテーションとして、理想モデル適用部306により生成される画像に付与することもできる。

　（第19例）
　アノテーション付与部308は、オブジェクトのカメラに対する相対的な正確な位置をアノテーションとして付与してもよい。このように正確な位置を付与することにより、ToF（Time of Flight）センサにおける位置推定モデルの訓練データのためのアノテーションを付与することが可能となる。オブジェクトのカメラに対する相対的な位置は、別の例として、カメラのCGモデル内の絶対位置及びオブジェクトのCGモデル内の絶対的な位置として付与されてもよい。

　（第20例）
　アノテーション付与部308は、オブジェクトの速度、加速度、角速度等の動きの情報をアノテーションとして付与してもよい。オブジェクトの速度等をアノテーションとして付与することにより、例えば、モーションブラー等による画像劣化を回復する推定モデルの訓練データとすることができる。

　また、オブジェクトの速度等の情報を、ローリングシャッタ歪みを回復する推定モデルの訓練データとして用いてもよい。

　以下、上記のように生成された訓練データを用いて学習された推定モデルがどのようなアプリケーションに適用できるかを非限定的な例として挙げる。

　例えば、周辺の様子を音声で案内するモデルに適用することができる。これは、種々のオブジェクトを取得した画像から推定することができるからである。さらに、オブジェクトの位置をも推定することも可能であり、この場合、どの程度の位置に何が存在するかを案内するモデルとすることもできる。

　例えば、周辺に存在する文字を読み上げるモデルに適用することができる。これも、上記と同じ理由による。これは、文字を抽出して翻訳して出力するモデルとして応用されてもよい。このようにすると、例えば、カメラで撮影された画像における文字を適切な言語に翻訳して音声又は文字情報として出力することも可能である。

　例えば、リモート診療に用いてもよい。これは、患者の顔色、顔の表情、幹部の判別等を推定するモデルを用いて応用される。

　例えば、配車システムに適用することができる。これは、顔認識をするモデルを用いることにより、ユーザの顔の認証を実現することにより応用できる。また、自動運転による配車システムであれば、自動運転の安全性を確保するモデルを用いてもよい。例えば、高価な機材を搭載すること無く、一般的なスマートフォンのカメラやドライブレコーダのカメラといったデバイスが取得した画像で顔認証等を実現することができる。

　例えば、音声アシスタントとして応用することができる。例えば、口の動きから発言の内容を取得するモデル（読唇術を実現するモデル）として利用することができる。

　例えば、英語等の言語の発音練習として応用することができる。上記のモデルと同様に、口の動きをから判別することが可能である。さらに、のどの動き、舌の動き等を取得してもよい。この場合、画像データのみならず、音声データをも入力するモデルとして生成されてもよい。

　例えば、画像から気持ちを読み込んでくれるモデル、又は感情を分析するモデルとして応用することができる。これは、顔の表情、顔色等と、気持ち、感情を示すアノテーションを紐付けることにより実現することができる。

　例えば、ベストショットを選択するカメラとして応用することができる。例えば、オブジェクトの認識、距離と、オブジェクトの動きの推定等を推定するモデルを学習するための訓練データを生成することにより実現される。また、マルチスペクトル化をAIにより実現し、照明条件を任意に変更できるモデルの訓練を実現してもよい。

　例えば、カメラ画像を用いた手相占いに応用することができる。手のひらのしわ等の微妙な形状も、前述のシステムにより生成してもよい。この場合、カメラによる撮影画像の劣化の他、データを転送する際の画像の圧縮も考慮に入れた訓練データを生成してもよい。

　例えば、撮影された写真から、図鑑等を参照できるように応用することができる。オブジェクトの認識の精度を向上することにより、実現することが可能である。上記と同様に、データ転送の際の画像圧縮も考慮に入れた訓練データを生成してもよい。

　例えば、ワインのエチケットから銘柄を取得するように応用することもできる。この場合、理想画像として、ワインの瓶に張られていない状態のエチケットを教師画像として取得してもよい。逆に言えば、CGジェネレータ2内において、ワインの瓶に張られる前の種々のエチケットのモデル情報を別途取得しておくことにより、理想画像を取得することもできる。さらに通信の際の画像圧縮を考慮に入れることもできる。

　例えば、絵画の詳細情報を取得するように応用することもできる。美術館等においては、照明条件が特殊であることが多いが、前述の各実施形態によれば、絵画のモデルに対して照射される照明条件で、この条件を吸収することが可能である。

　例えば、一般的なAIと同様に、画像からキャプションを生成すること、又は、人物の顔認識をすること、がより高い精度で実現することが可能となる。例えば、人物の顔認識においては、髪型の変更や眼鏡、アクセサリ、マスク等を着用した画像をも1つのCGモデルから簡単に生成することが可能である。このため、認識の精度をより高めることが可能となる。

　例えば、ToFセンサにも用いる応用をすることもできる。これは、CGモデル上で正確に距離を設定することが可能なためである。

　例えば、画像のレタッチをする応用もできる。これは、CGモデルとしてオブジェクトが取得できているためのこのオブジェクトから所望のタッチの画像を取得することができるためである。例えば、実際の画像をアニメタッチの絵に変換したり、絵画風の画像に変換したりすることも可能である。

　例えば、レンズ、センサ等の仕様が決定した開発中のデバイスにおける画像処理の実現に応用することもできる。これは、CGモデルから適切にパラメータに基づいた画像を取得することができるためである。この結果、例えば、デジタルカメラにおいて、当該デジタルカメラに搭載するためのAIモデルを、ファームウェアアップデート等をすること無く、製品販売初期の工場出荷時から搭載することが可能となる。このように、開発途中のデバイスにおいても、レンズ、センサ等の仕様から先んじて推定モデルの最適化を実現することが可能となる。

　前述の各形態において、例えば、図3等の例では、人工的に生成された理想画像(以下、人工画像と記載する)に対して劣化画像を生成するものとしたが、人工画像に対して加工が施される画像(加工画像)は、劣化画像ではなく、推論の目的となる画像であってもよい。すなわち、CG又は実際に撮影された画像(人工画像)に対して、劣化画像だけではなく、より理想的な加工画像を生成してもよい。この人工画像と加工画像の組み合わせによって訓練することで、劣化画像を生成する場合には、劣化画像を入力すると理想画像を出力するモデルを、より理想的な画像を生成する場合には、人工画像を入力するとより理想的な画像を出力するモデルを生成することができる。

　モデルは、例えば、ニューラルネットワークモデルであり、複数の階層(レイヤ)と、複数の階層にそれぞれ備えられる複数のノードとを備える。前述の訓練とは、例えば、このノード間の重み付けを訓練する処理のことであってもよい。また、CNN等の場合には、各階層におけるノードの値自体(カーネルを含む)であってもよい。

　以下、加工画像とCGによる人工画像との組み合わせ、及び、この組み合わせにより訓練されるモデルについて、限定されないいくつかの例を列挙する。各モデルは、例えば、アプリケーションに実装することができる。以下の例は、適切な組み合わせにおいて、複数を組み合わせることもできる。

　ローリングシャッタ歪み画像を生成することにより、ローリングシャッタ歪み画像を補正するモデルを生成することができる。

　長波長により撮影された画像を生成することにより、物体検出の精度を向上させたモデルを生成することができる。例えば、人間の目には見えない波長の画像から、サーマルセンサによる画像を推論することもできる。

　光学特性を反映した画像を生成することにより、ゴースト、フレアを抑止した画像を推論するモデルを生成することができる。

　対向車のヘッドライトのハレーションに関する画像を生成することにより、危険予知、ハレーション除去に関する推論をするモデルを生成することができる。

　残像を反映した画像を生成することにより、残像除去した画像を推論するモデルを生成することができる。

　レンズ歪みを有する画像を生成することにより、歪み補正した画像を推論するモデルを生成することができる。

　ノイズを付与した画像を生成することにより、ノイズリダクションの推論するモデルを生成することができる。

　雨、霧等を反映した画像を生成することにより、雨粒除去、霧除去等をした画像を推論するモデルを生成することができ、これは、例えば、危険予知に応用することができる。

　直射日光、例えば、朝方の東からの日光や夕方の西日等を反映した画像を生成することにより、まぶしさや反射等を抑制した推論するモデルを生成することができ、これは、危険予知に応用することができる。

　光学系のぼけ、又は、モーションブラー等の各種PSF(Point Spread Function)、各種フィルタを重畳した画像を生成することにより、解像度を補正するモデルを生成することができる。

　上記の限定されない一例として、デフォーカスした画像を生成することにより、任意の被写体にピントを合わせる推論をするモデルを生成することができる。

　HDR(High Dynamic Range)画像を生成することにより、任意の被写体が白飛び、黒つぶれしない画像を推論するモデルを生成することができる。

　HFR(High Frame Rate)画像を生成することにより、任意の被写体がぶれない画像を推論するモデルを生成することができる。

　全天画像(360度全天周画像)を生成することにより、任意の被写体をトリミングしたり、逆に、任意の被写体以外をトリミングしたりする推論をするモデルを生成することができる。

　視差画像を生成することにより、奥行き検出を推論したり、デプス画像を推論したりするモデルを生成することができる。

　ToF画像を生成することにより、距離ノイズを除去したり、距離誤差を除去したりするモデルを生成することができる。

　絞り値を指定して撮影された画像を生成することにより、指定した絞り値とボケ量が異なる画像を推論するモデルを生成することができる。

　イメージセンサの製造ムラ等のムラを有する画像を生成することにより、製造のばらつきによるムラを除去した画像を推論するモデルを生成することができる。

　昔のレンズで撮影した画像を生成することにより、最新型のレンズで撮影した画像を推論するモデルを生成することができる。

　逆に、最新型のレンズで撮影した画像を生成することにより、昔のレンズで撮影した画像を推論するモデルを生成することができる。

　生データを生成することにより、理想のRGB画像を推論するモデル(デモザイクするモデル)を生成することができる。この場合、生データから理想のRGB画像を生成してもよい。

　マルチスペクトルセンサ画像を生成することにより、種々の状態量を推論できるモデル、限定されない例としては、農業における収穫時期や生育度を推定するモデルを生成することができる。

　光源を変えた画像を生成することにより、光源推定をするモデルを生成することができる。

　トゥーンレンダリングされた画像を生成することにより、漫画やイラスト風の作画に変換するモデルを生成することができる。

　天候、時刻が変化した画像を生成することにより、条件に特化した推論を実現するモデルを生成することができる。

　飽和、黒つぶれ、超低照度の画像を生成することにより、HDR画像を推論したり、飽和、つぶれ部分の推論をしたりするモデルを生成することができる。

　低解像度画像を生成することにより、高解像度画像、超解像画像を推論するモデルを生成することができる。

　モアレが付与された画像を生成することにより、モアレ除去の推論をするモデルを生成することができる。

　偽色が発生している画像を生成することにより、偽色の補正をするモデルを生成することができる。

　マルチスペクトルを含む種々のCFA(Color Filter Array)パターンにより撮像された画像を生成することにより、適切なデモザイク処理を実現できるモデルを生成することができる。

　センサ内の信号処理による劣化、例えば、ノイズ除去やデモザイク処理の過程における劣化を含む画像を生成することにより、これらの劣化を補正する、例えば、欠陥補正やZAF補正を適用した画像を推論するモデルを生成することができる。

　カラーフィルタの特性や経年劣化をした素子によって取得された画像を生成することにより、色再現性を向上するモデルを生成することができる。

　JPEG、MPEG、AVC等の画像圧縮、動画圧縮技術による劣化をした画像を生成することにより、圧縮による劣化画像を復元するモデルやブロックノイズを除去するモデルを生成することができる。

　低フレームレートの映像情報を生成することにより、フレーム補間を実現するモデルを生成することができる。

　伝送時の劣化や低ビットレートの画像、映像を生成することにより、劣化画像を復元する画像を推論するモデルを生成することができる。

　インタレース画像を生成することにより、プログレッシブ画像を推論するモデルを生成することができる。例えば、昔の映像等の情報をプログレッシブ化するとともに、高解像度化するようなモデルを生成することもできる。

　距離画像を生成することにより、2次元を3次元に変換するモデル、VR(Virtual Reality)に用いる画像を生成するモデル、顔認証するモデル、背景除去又は背景合成するモデル、3次元データを合成するモデル等を生成することができる。

　各種モニタに映した画像を生成することにより、ディスプレイ等の表示系まで含めたキャリブレーションをするモデルを生成することができる。

　例えば、ヘッドアップディスプレイにより表示される画像であってもよく、この場合、歪み補正、見やすい色、明るさに調整された画像を生成するモデルを生成することができる。

　マルチカメラ(ホモ構成、ヘテロ構成含む)により撮影された画像を生成することにより、合成画像を生成するモデルを生成することができる。

　複数枚の画像からパノラマ画像を生成することにより、パノラマ合成をするモデルを生成することができる。

　手ぶれした画像を生成することにより、手ぶれ補正された推論をするモデルを生成することができる。

　露光アンダー、露光オーバーの画像を生成することにより、適正露光への補正をするモデルを生成することができる。

　動被写体のブラーを有する画像を生成することにより、ブラー補正した画像を推論するモデルを生成することができる。

　白黒画像、輝度画像、彩度画像、色相画像等の色空間における任意の特徴量を抽出した画像を生成することにより、これらの画像を適切にカラー画像に変換するモデルを生成することができる。これは、特定の条件下で撮影された画像等からオブジェクト等を抽出したり認識したりするモデルに応用することができる。

　色あせた画像、セピア系の画像を生成することにより、色の復元をするモデルを生成することができる。例えば、RGB以外の波長からの推論をするモデルであってもよい。

　3chの位相がそろった画像を生成することにより、ピクセルシフト等の合成、又は、アーティファクト除去するモデルを生成することができる。

　照明の方向を失敗した画像を生成することにより、適切な照明である画像を推論するモデルを生成することができる。

　色覚による色の見え方の違いを反映した画像を生成することにより、見やすい色へと変換された画像を推論するモデルを生成することができる。

　フリッカが発生している画像を生成することにより、フリッカを補正した画像を推論するモデルを生成することができる。

　視点が異なる画像を生成することにより、視点を変換した画像を推論するモデルを生成することができる。

　(包括)
　前述した各実施形態は、以下のような学習モデル生成のための画像生成、当該画像に関するメタデータ生成、学習モデル生成の一連の処理に用いることが可能である。さらには、このように生成された学習モデルを用いた推論についても本開示の範囲は及ぶものである。

(a)機械学習のためのデータ生成
　データを生成するデータジェネレータ(例えば、上記のような生成方法を実現するデータ生成装置)において、任意のカメラの特性(物理モデル)を加味して、対象の高画質、低画質のデータセットを生成する。高画質及び低画質の組み合わせは、上述に示したように、例えば、高解像度及び低解像度の画像、明るい状態(日中、屋外)及び暗い状態(夜間、屋内)の画像、通常光学系及び広角光学系における画像等であってもよい。

(b)機械学習によるモデル生成
　モデルを種々の機械学習の手法により訓練することにより、この低画質の画像を用いて対象を検出するモデルを生成してもよいし、低画質の画像から高画質の画像を推論するモデルを生成してもよい。また、これらを組み合わせることもできる。限定されない一例として、夜間に撮影された画像から顔検出をする訓練と、夜間に撮影された顔の画像から日中に撮影された顔の画像を推論する訓練と、を用いることにより、夜間に撮影された画像から、日中に撮影された顔の画像を抽出して生成する推論モデルを訓練することも可能である。

(c)モデルを用いたアプリケーション生成
　上記の高画質の対象画像を推論するモデルを用いて、対象をトラッキングするアプリケーションを構成することも可能である。例えば、人の画像を推論するモデルを用いることにより、特定の人をトラッキングするアプリケーションを構成することもできる。上記のように生成されたモデルによれば、任意のカメラで撮影された低画質な画像から顔を抽出し、この顔を高画質の画像へと変換することにより、任意の人物のトラッキングをすることができる。例えば、所定エリア内で迷子の子供を顔の画像から探し出したり、犯罪者の顔を読み込ませることにより犯罪者の居場所を監視カメラ等の情報から推定したり、動線調査をしたりすることも可能である。もちろん、人物だけではなく、交通違反車のトラッキング、盗難された自転車、ペット探し、動物の生態系調査等にも適用可能である。また、動かないもの、例えば、建物や場所の検索等にも適用することが可能である。

(d)アプリケーションの配布
　上記のアプリケーションは、配布、デプロイすることも可能である。例えば、人物の顔とともにカメラにより撮影される映像から顔を抽出するアプリケーションを配布することにより、広域にいるユーザにアプリケーションを使用させることが可能となる。このアプリケーションは、ユーザのスマートフォン等のカメラを用いて映像を取得して推論をする形態であってもよいし、ユーザがこのアプリケーションに任意の映像を入力する形態であってもよい。このようにアプリケーションを使用させることにより、迷子、犯罪者のトラッキングを容易に行うことが可能となる。他の用途についても同様であり、任意のユーザにより撮影される映像を用いて種々の推定を実現することができる。また、監視カメラや任意の固定若しくは可動のカメラ、又は、これらのカメラと接続される周辺機器にこのようなアプリケーションをデプロイしてもよい。

(e)アプリケーションの利用
　上記のように配布、デプロイされたアプリケーションを用いることにより、対象のトラッキング、推論等を高精度で行うことができる。デプロイされるアプリケーションを用いる環境に基づいた物理モデルによりモデルをカスタマイズすることができるので、精度を落とさずにトラッキング等が実現できる。例えば、あるスマートフォンに搭載されているカメラにおいて当該スマートフォンで用いられる画像処理された夜間の画像から、CGにより生成された日中の理想画像を推論できるモデルを生成し、このモデルを利用するアプリケーションを種々のカメラ等にデプロイすることができ、このカメラ等を用いてアプリケーションを利用することで、トラッキング等の領域を大きく広げ、さらには、高い精度での推論を担保することも可能である。なお、日中、夜間等の高画質、低画質のそれぞれの撮影データに適したモデルを生成してもよく、これらのモデルをそれぞれデプロイしてもよい。例えば、アプリケーションを使用する側のスマートフォンの持ち主がカメラ及び通信帯域を利用することを許可した場合に、撮影情報からスマートフォンにおいて解析をしてもよいし、スマートフォンで取得した映像を通信によりサーバへと送信してもよい。アプリケーションは、位置情報を合わせて出力してもよい。位置情報は、例えば、GPS(Global Positioning System)、Wi-Fi(登録商標)情報、又は、基地局情報等により取得さてもよい。これらの機能は、スマートフォンを所有している持ち主のセキュリティを担保するために、オプトインで機能がオンされる形態としてもよい。また、専用のアプリケーションではなく、例えば、任意のアプリケーションにアドオンする態様で、上記と同様にスマートフォンの所有者のオプトインにより、任意のアプリケーションにより撮影された映像、画像等を解析する形態としてもよい。

(f)アプリケーションとの通信
　例えば、サーバ等は、デプロイしたアプリケーションからの通信を許可する形態であってもよい。このようにサーバにデプロイしたアプリケーションからの情報を集約することにより、人物の位置情報や検出した時間等の情報をまとめることができる。これらの情報により、時間ごとの位置情報等を取得することも可能であり、トラッキングの性能を向上させることができる。また、メタデータとして、人物であれば、洋服の色、身長、性別、表情等をアプリケーション側から通信してもよい。メタデータは、ユーザが追加できるものであってもよい。サーバは、このメタデータに基づいて画像を再生成してモデルを更新し、アプリケーションに適用(再デプロイ)させてもよい。さらに、例えば、警察等のユーザが、このサーバにアクセスすることを許可したり、トラッキングを依頼したユーザに情報を提供したりしてもよい。

(g)対象画像の送信
　さらに、アプリケーションは、カメラ等のセンサで取得した顔画像データを送出してもよい。例えば、スマートフォンのカメラで夜間に撮影された映像は、そのデータ量からアプリケーションにより処理するのは処理能力が足りない場合がある。このような場合には、映像自体をサーバへと送信してもよい。この送信は、リアルタイムであってもよいし、いったんファイルとして格納した後に、帯域に余裕があるタイミングで送信するものであってもよい。例えば、Wi-Fi接続されている場合に送信するとしてもよい。

(h)対象情報の出力、表示
　サーバは、デプロイしたアプリケーションから情報を収集し、又は、収集した情報から推論、再推論した情報に基づいて、時間、位置情報等をわかりやすい形で出力してもよい。例えば、サーバは、地図上に、ターゲットの時間と位置の情報をわかりやすい形で表示して、トラッキングの依頼者に出力してもよい。また、リアルタイムの処理である場合には、サーバは、プッシュ通知等により、トラッキング対象の位置に関する情報をリアルタイムに依頼者に出力してもよい。位置に関する情報は、住所であってもよいし、地図の所定エリア、一点等を指し示してもよい。

(i)モデルの更新
　上記にも記載したが、任意のタイミングでサーバは、モデルを更新してもよい。例えば、アプリケーションから情報が集約されると、訓練の対象となるデータが蓄積される。この蓄積されたデータを用いてモデルを更新することにより、モデルによる推論の精度を向上させることも可能である。さらには、蓄積されたデータを前述の実施形態で示した手法により加工し、例えば、高解像度画像から低解像度画像を生成して、この生成された画像のセットをモデルの更新に用いてもよい。

　前述の実施形態は(i)に記載したように、CGを用いたモデルを劣化させて低画質な画像を取得することのみならず、実際に撮影された画像を劣化させてモデルの訓練に用いてもよい。

　本開示の態様は、プログラムにより実装されてもよい。プログラムは、記憶部に記憶され、ソフトウェアによる情報処理がハードウェアにより具体的に実現されるものであってもよい。ソフトウェアの処理は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）等のプロセッサにおいて実行される他、種々のアナログ回路又はデジタル回路、例えば、FPGA（Field Programmable Gate Array）、ASIC（Application Specific Integrated Circuit）、DSP（Digital Signal Processor）により実装されてもよい。

＜ＡＩを利用した応用例＞

　本開示に係る技術（本技術）を適用した構成では、機械学習等の人工知能（ＡＩ：Artificial Intelligence）を利用することができる。図9は、ＡＩ処理を行う装置を含むシステムの構成例を示している。

　電子機器２０００１は、スマートフォン、タブレット型端末、携帯電話機等のモバイル端末である。電子機器２０００１は、本開示に係る技術を適用したセンサ２００１１（例えば光センサ）を有する。光センサは、光を電気信号に変換するセンサ（画像センサ）である。電子機器２０００１は、所定の通信方式に対応した無線通信によって所定の場所に設置された基地局２００２０に接続することで、コアネットワーク２００３０を介して、インターネット等のネットワーク２００４０に接続することができる。

　基地局２００２０とコアネットワーク２００３０の間などのモバイル端末により近い位置には、モバイルエッジコンピューティング（ＭＥＣ：Mobile Edge Computing）を実現するためのエッジサーバ２０００２が設けられる。ネットワーク２００４０には、クラウドサーバ２０００３が接続される。エッジサーバ２０００２とクラウドサーバ２０００３は、用途に応じた各種の処理を行うことができる。なお、エッジサーバ２０００２は、コアネットワーク２００３０内に設けられてもよい。

　電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又はセンサ（例えば光センサ）２００１１により、ＡＩ処理が行われる。ＡＩ処理は、本開示に係る技術を、機械学習等のＡＩを利用して処理するものである。ＡＩ処理は、学習処理と推論処理を含む。学習処理は、学習モデルを生成する処理である。また、学習処理には、後述する再学習処理も含まれる。推論処理は、学習モデルを用いた推論を行う処理である。以下、本開示に係る技術に関する処理を、ＡＩを利用せずに処理することを、通常処理と呼び、ＡＩ処理と区別する。

　電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又はセンサ２００１１光センサ２００１１においては、ＣＰＵ(Central Processing Unit)等のプロセッサがプログラムを実行したり、あるいは特定用途に特化したプロセッサ等の専用のハードウェアを用いたりすることで、ＡＩ処理が実現される。例えば、特定用途に特化したプロセッサとしては、ＧＰＵ(Graphics Processing Unit)を用いることができる。

　図10は、電子機器２０００１の構成例を示している。電子機器２０００１は、各部の動作の制御や各種の処理を行うＣＰＵ２０１０１と、画像処理や並列処理に特化したＧＰＵ２０１０２と、ＤＲＡＭ(Dynamic Random Access Memory)等のメインメモリ２０１０３と、フラッシュメモリ等の補助メモリ２０１０４を有する。

　補助メモリ２０１０４は、ＡＩ処理用のプログラムや各種パラメータ等のデータを記録している。ＣＰＵ２０１０１は、補助メモリ２０１０４に記録されたプログラムやパラメータをメインメモリ２０１０３に展開してプログラムを実行する。あるいは、ＣＰＵ２０１０１とＧＰＵ２０１０２は、補助メモリ２０１０４に記録されたプログラムやパラメータをメインメモリ２０１０３に展開してプログラムを実行する。これにより、ＧＰＵ２０１０２を、ＧＰＧＰＵ(General-Purpose computing on Graphics Processing Units)として用いることができる。

　なお、ＣＰＵ２０１０１やＧＰＵ２０１０２は、ＳｏＣ(System on a Chip)として構成されてもよい。ＣＰＵ２０１０１がＡＩ処理用のプログラムを実行する場合には、ＧＰＵ２０１０２を設けなくてもよい。

　電子機器２０００１はまた、本開示に係る技術を適用したセンサ２００１１光センサ２００１１と、物理的なボタンやタッチパネル等の操作部２０１０５と、少なくとも１以上のセンサを含む音を集音するセンサマイクロフォン２０１０６と、画像やテキスト等の情報を表示するディスプレイ２０１０７と、音を出力するスピーカ２０１０８と、所定の通信方式に対応した通信モジュール等の通信Ｉ／Ｆ２０１０９と、それらを接続するバス２０１１０を有する。

　センサ２０１０６は、光センサ（画像センサ）、音センサ（マイクロフォン）、振動センサ、加速度センサ、角速度センサ、圧力センサ、匂いセンサ、生体センサ等の各種のセンサを少なくとも１以上有している。ＡＩ処理では、光センサ２００１１から取得した画像データとともに、センサ２０１０６の少なくとも１以上のセンサから取得したデータを用いることができる。このように、画像データとともに、様々な種類のセンサから得られるデータを用いることで、マルチモーダルＡＩの技術により、様々な場面に適合したＡＩ処理を実現することができる。

　なお、センサフュージョンの技術によって２以上の光センサから取得した画像データを統合的に処理して得られるデータが、ＡＩ処理で用いられてもよい。２以上の光センサとしては、光センサ２００１１とセンサ２０１０６内の光センサの組み合わせでもよいし、あるいは光センサ２００１１内に複数の光センサが含まれていてもよい。例えば、光センサには、ＲＧＢの可視光センサ、ＴｏＦ（Time of Flight）等の測距センサ、偏光センサ、イベントベースのセンサ、ＩＲ像を取得するセンサ、多波長取得可能なセンサなどが含まれる。

　電子機器２０００１においては、ＣＰＵ２０１０１やＧＰＵ２０１０２等のプロセッサによってＡＩ処理を行うことができる。電子機器２０００１のプロセッサが推論処理を行う場合には、センサ２００１１光センサ２００１１で画像データを取得した後に時間を要さずに処理を開始することができるため、高速に処理を行うことができる。そのため、電子機器２０００１では、短い遅延時間で情報を伝達することリアルタイム性が求められるアプリケーションなどの用途に推論処理が用いられた際に、ユーザは遅延による違和感なく操作を行うことができる。また、電子機器２０００１のプロセッサがＡＩ処理を行う場合、クラウドサーバ２０００３等のサーバを利用する場合と比べて、通信回線やサーバ用のコンピュータ機器などを利用する必要がなく、低コストで処理を実現することができる。

　図11は、エッジサーバ２０００２の構成例を示している。エッジサーバ２０００２は、各部の動作の制御や各種の処理を行うＣＰＵ２０２０１と、画像処理や並列処理に特化したＧＰＵ２０２０２を有する。エッジサーバ２０００２はさらに、ＤＲＡＭ等のメインメモリ２０２０３と、ＨＤＤ(Hard Disk Drive)やＳＳＤ(Solid State Drive)等の補助メモリ２０２０４と、ＮＩＣ(Network Interface Card)等の通信Ｉ／Ｆ２０２０５を有し、それらがバス２０２０６に接続される。

　補助メモリ２０２０４は、ＡＩ処理用のプログラムや各種パラメータ等のデータを記録している。ＣＰＵ２０２０１は、補助メモリ２０２０４に記録されたプログラムやパラメータをメインメモリ２０２０３に展開してプログラムを実行する。あるいは、ＣＰＵ２０２０１とＧＰＵ２０２０２は、補助メモリ２０２０４に記録されたプログラムやパラメータをメインメモリ２０２０３に展開してプログラムを実行することで、ＧＰＵ２０２０２をＧＰＧＰＵとして用いることができる。なお、ＣＰＵ２０２０１がＡＩ処理用のプログラムを実行する場合には、ＧＰＵ２０２０２を設けなくてもよい。

　エッジサーバ２０００２においては、ＣＰＵ２０２０１やＧＰＵ２０２０２等のプロセッサによってＡＩ処理を行うことができる。エッジサーバ２０００２のプロセッサがＡＩ処理を行う場合、エッジサーバ２０００２はクラウドサーバ２０００３と比べて、電子機器２０００１と近い位置に設けられるため、処理の低遅延化を実現することができる。また、エッジサーバ２０００２は、電子機器２０００１やセンサ２００１１光センサ２００１１に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、エッジサーバ２０００２のプロセッサがＡＩ処理を行う場合、電子機器２０００１やセンサ２００１１光センサ２００１１の仕様や性能の違いに依らず、データを受信できればＡＩ処理を行うことができる。エッジサーバ２０００２でＡＩ処理を行う場合には、電子機器２０００１やセンサ２００１１光センサ２００１１における処理の負荷を軽減することができる。

　クラウドサーバ２０００３の構成は、エッジサーバ２０００２の構成と同様であるため、説明は省略する。

　クラウドサーバ２０００３においては、ＣＰＵ２０２０１やＧＰＵ２０２０２等のプロセッサによってＡＩ処理を行うことができる。クラウドサーバ２０００３は、電子機器２０００１やセンサ２００１１光センサ２００１１に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、クラウドサーバ２０００３のプロセッサがＡＩ処理を行う場合、電子機器２０００１やセンサ２００１１光センサ２００１１の仕様や性能の違いに依らず、ＡＩ処理を行うことができる。また、電子機器２０００１又はセンサ２００１１光センサ２００１１のプロセッサで負荷の高いＡＩ処理を行うことが困難である場合には、その負荷の高いＡＩ処理をクラウドサーバ２０００３のプロセッサが行い、その処理結果を電子機器２０００１又はセンサ２００１１光センサ２００１１のプロセッサにフィードバックすることができる。

　図12は、センサ２００１１光センサ２００１１の構成例を示している。センサ２００１１光センサ２００１１は、例えば複数の基板が積層された積層構造を有する１チップの半導体装置として構成することができる。センサ２００１１光センサ２００１１は、基板２０３０１と基板２０３０２の２枚の基板が積層されて構成される。なお、光センサ２００１１の構成としては積層構造に限らず、例えば、撮像部を含む基板が、ＣＰＵやＤＳＰ(Digital Signal Processor)等のＡＩ処理を行うプロセッサを含んでいてもよい。

　上層の基板２０３０１には、複数の画素が２次元に並んで構成される撮像部２０３２１が搭載されている、。下層の基板２０３０２には、撮像部２０３２１での画像の撮像に関する処理を行う撮像処理部２０３２２と、撮像画像や信号処理結果を外部に出力する出力Ｉ／Ｆ２０３２３と、乃至撮像部２０３２１での画像の撮像を制御する撮像制御部２０３２４、及びＣＰＵ２０３３１乃至通信Ｉ／Ｆ２０３３４が搭載されている。撮像部２０３２１、及び撮像処理部２０３２２、出力Ｉ／Ｆ２０３２３、及び乃至撮像制御部２０３２４により撮像ブロック２０３１１が構成される。

　また、下層の基板２０３０２には、各部の制御や各種の処理を行うＣＰＵ２０３３１と、撮像画像や外部からの情報等を用いた信号処理を行うＤＳＰ２０３３２と、ＳＲＡＭ（Static Random Access Memory）やＤＲＡＭ（Dynamic Random Access Memory）等のメモリ２０３３３と、外部と必要な情報のやり取りを行う通信Ｉ／Ｆ２０３３４が搭載されている。ＣＰＵ２０３３１、ＤＳＰ２０３３２、メモリ２０３３３、及び乃至通信Ｉ／Ｆ２０３３４により信号処理ブロック２０３１２が構成される。ＣＰＵ２０３３１及びＤＳＰ２０３３２の少なくとも１つのプロセッサによってＡＩ処理を行うことができる。

　このように、複数の基板が積層された積層構造における下層の基板２０３０２に、ＡＩ処理用の信号処理ブロック２０３１２を搭載することができる。これにより、上層の基板２０３０１に搭載される撮像用の撮像ブロック２０３１１で取得される画像データが、下層の基板２０３０２に搭載されたＡＩ処理用の信号処理ブロック２０３１２で処理されるため、１チップの半導体装置内で一連の処理を行うことができる。

　センサ２００１１光センサ２００１１においては、ＣＰＵ２０３３１等のプロセッサによってＡＩ処理を行うことができる。センサ２００１１光センサ２００１１のプロセッサが推論処理等のＡＩ処理を行う場合、１チップの半導体装置内で一連の処理が行われるため、センサ外部に情報が漏れないことから情報の秘匿性を高めることができる。また、画像データ等のデータを他の装置に送信する必要がないため、センサ２００１１光センサ２００１１のプロセッサでは、画像データを用いた推論処理等のＡＩ処理を高速に行うことができる。例えば、リアルタイム性が求められるアプリケーションなどの用途に推論処理が用いられた際に、リアルタイム性を十分に確保することができる。ここで、リアルタイム性を確保するということは、短い遅延時間で情報を伝達できることを指す。さらに、センサ２００１１光センサ２００１１のプロセッサがＡＩ処理を行うに際して、電子機器２０００１のプロセッサにより各種のメタデータを渡すことで、処理を削減して低消費電力化を図ることができる。

　図13は、処理部２０４０１の構成例を示している。電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又はセンサ２００１１光センサ２００１１のプロセッサがプログラムに従った各種の処理を実行することで、処理部２０４０１として機能する。なお、同一の又は異なる装置が有する複数のプロセッサを処理部２０４０１として機能させてもよい。

　処理部２０４０１は、ＡＩ処理部２０４１１を有する。ＡＩ処理部２０４１１は、ＡＩ処理を行う。ＡＩ処理部２０４１１は、学習部２０４２１と推論部２０４２２を有する。

　学習部２０４２１は、学習モデルを生成する学習処理を行う。学習処理では、画像データに含まれる補正対象画素を補正するための機械学習を行った機械学習済みの学習モデルが生成される。また、学習部２０４２１は、生成済みの学習モデルを更新する再学習処理を行ってもよい。以下の説明では、学習モデルの生成と更新を区別して説明するが、学習モデルを更新することで、学習モデルを生成しているとも言えるため、学習モデルの生成には、学習モデルの更新の意味が含まれるものとする。

　なお、本学習部２０４２１は本発明の実施例であげた機械学習装置５に該当する。更に本学習部２０４２１で学習する際に、本発明のCGジェネレータ２とシミュレータ３を適用して、CGジェネレータ２とシミュレータ３で生成される訓練データ（教師画像と劣化画像）を用いることができる。

　CGジェネレータ２とシミュレータ３の各々は、本学習部２０４２１に有していても良いし、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又はセンサ（例えば光センサ）２００１１に有していてもよい。

　また、生成された学習モデルは、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などが有するメインメモリ又は補助メモリなどの記憶媒体に記録されることで、推論部２０４２２が行う推論処理において新たに利用可能となる。これにより、当該学習モデルに基づく推論処理を行う電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などを生成することができる。さらに、生成された学習モデルは、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などとは独立した記憶媒体又は電子機器に記録され、他の装置で使用するために提供されてもよい。なお、これらの電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１などの生成とは、製造時において、それらの記憶媒体に新たに学習モデルを記録することだけでなく、既に記録されている生成済学習モデルを更新することも含まれるものとする。

　推論部２０４２２は、学習モデルを用いた推論処理を行う。推論処理では、学習モデルを用いて、例えば、画像データに含まれる補正対象画素を補正するための処理が行われる。補正対象画素は、画像データに応じた画像内の複数個の画素のうち、所定の条件を満たした補正対象となる画素である。

　以下、推論処理にについて、主に画像データに含まれる補正対象画素を補正するための処理を例に説明するが、推論処理は補正対象画素を補正するものに限定されず、前述した通り、色々な推論処理であってよい。

　機械学習の手法としては、ニューラルネットワークやディープラーニングなどを用いることができる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層（隠れ層）、出力層の３種類の層からなる。ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。

　機械学習の問題設定としては、教師あり学習を用いることができる。例えば、教師あり学習は、与えられたラベル付きの教師データに基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。教師データは、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データ、シミュレータにより生成されたデータセットなどを用いることができる。

　なお、教師あり学習に限らず、教師なし学習、半教師あり学習、強化学習などを用いてもよい。教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリング等を行う。これにより、膨大な未知のデータに基づいて傾向の分析や予測を行うことが可能となる。半教師あり学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な教師データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。

　このように、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又はセンサ２００１１光センサ２００１１のプロセッサがＡＩ処理部２０４１１として機能することで、それらの装置のいずれか又は複数の装置でＡＩ処理が行われる。

　ＡＩ処理部２０４１１は、学習部２０４２１及び推論部２０４２２のうち少なくとも一方を有していればよい。すなわち、各装置のプロセッサは、学習処理と推論処理の両方の処理を実行することは勿論、学習処理と推論処理のうちの一方の処理を実行するようにしてもよい。例えば、電子機器２０００１のプロセッサが推論処理と学習処理の両方を行う場合には、学習部２０４２１と推論部２０４２２を有するが、推論処理のみを行う場合には、推論部２０４２２のみを有していればよい。

　各装置のプロセッサは、学習処理又は推論処理に関する全ての処理を実行してもよいし、一部の処理を各装置のプロセッサで実行した後に、残りの処理を他の装置のプロセッサで実行してもよい。また、各装置においては、学習処理や推論処理などのＡＩ処理の各々の機能を実行するための共通のプロセッサを有してもよいし、機能ごとに個別にプロセッサを有してもよい。

　なお、上述した装置以外の他の装置によりＡＩ処理が行われてもよい。例えば、電子機器２０００１が無線通信などにより接続可能な他の電子機器によって、ＡＩ処理を行うことができる。具体的には、電子機器２０００１がスマートフォンである場合に、ＡＩ処理を行う他の電子機器としては、他のスマートフォン、タブレット型端末、携帯電話機、ＰＣ(Personal Computer)、ゲーム機、テレビ受像機、ウェアラブル端末、デジタルスチルカメラ、デジタルビデオカメラなどの装置とすることができる。

　また、自動車等の移動体に搭載されるセンサや、遠隔医療機器に用いられるセンサなどを用いた構成においても、推論処理等のＡＩ処理を適用可能であるが、それらの環境では遅延時間が短いことが求められる。このような環境においては、ネットワーク２００４０を介してクラウドサーバ２０００３のプロセッサでＡＩ処理を行うのではなく、ローカル側の装置（例えば車載機器や医療機器としての電子機器２０００１）のプロセッサでＡＩ処理を行うことで遅延時間を短くすることができる。さらに、インターネット等のネットワーク２００４０に接続する環境がない場合や、高速な接続を行うことができない環境で利用する装置の場合にも、例えば電子機器２０００１や光センサ２００１１等のローカル側の装置のプロセッサでＡＩ処理を行うことで、より適切な環境でＡＩ処理を行うことができる。

　なお、上述した構成は一例であって、他の構成を採用しても構わない。例えば、電子機器２０００１は、スマートフォン等のモバイル端末に限らず、ＰＣ、ゲーム機、テレビ受像機、ウェアラブル端末、デジタルスチルカメラ、デジタルビデオカメラなどの電子機器、車載機器、医療機器であってもよい。また、電子機器２０００１は、無線LAN(Local Area Network)や有線LANなどの所定の通信方式に対応した無線通信又は有線通信によってネットワーク２００４０に接続してもよい。センサ２００１１は、複数の基板が積層された積層構造を有した構成に限らず、他の構成を採用してもよい。ＡＩ処理は、各装置のＣＰＵやＧＰＵ等のプロセッサに限らず、量子コンピュータやニューロモーフィック・コンピュータなどを利用しても構わない。

（処理の流れ）
　図14のフローチャートを参照して、ＡＩを利用した処理の流れを説明する。

　ステップＳ２０００１では、処理部２０４０１が、センサ２００１１光センサ２００１１からの画像データを取得する。ステップＳ２０００２では、処理部２０４０１が、取得した画像データに対する補正処理を行う。この補正処理では、画像データの少なくとも一部に学習モデルを用いた推論処理が行われ、画像データに含まれる補正対象画素を補正した後のデータである補正済みデータが得られる。ステップＳ２０００３では、処理部２０４０１が、補正処理で得られた補正済みデータを出力する。

　ここで、図15のフローチャートを参照して、上述したステップＳ２０００２における補正処理の詳細を説明する。

　ステップＳ２００２１では、処理部２０４０１が、画像データに含まれる補正対象画素を特定する。この補正対象画素を特定するステップ（以下、特定ステップ（Detection Step）と呼ぶ）では、推論処理又は通常処理が行われる。

　特定ステップとして推論処理が行われる場合、推論部２０４２２では、学習モデルに対し画像データを入力することで、入力された画像データに含まれる補正対象画素を特定するための情報（以下、特定情報（Detection Information）と呼ぶ）が出力されるので、補正対象画素を特定することができる。ここでは、補正対象画素を含む画像データを入力とし、画像データに含まれる補正対象画素の特定情報を出力とする学習モデルが用いられる。一方で、特定ステップとして通常処理が行われる場合、電子機器２０００１又はセンサ２００１１光センサ２００１１のプロセッサや信号処理回路によって、ＡＩを利用せずに、画像データに含まれる補正対象画素を特定する処理が行われる。

　ステップＳ２００２１で、画像データに含まれる補正対象画素が特定されると、処理は、ステップＳ２００２２に進められる。ステップＳ２００２２では、処理部２０４０１が、特定された補正対象画素を補正する。この補正対象画素を補正するステップ（以下、補正ステップ（Correction Step）と呼ぶ）では、推論処理又は通常処理が行われる。

　補正ステップとして推論処理が行われる場合、推論部２０４２２では、学習モデルに対し画像データ及び補正対象画素の特定情報を入力することで、補正された画像データ又は補正された補正対象画素の特定情報が出力されるので、補正対象画素を補正することができる。ここでは、補正対象画素を含む画像データ及び補正対象画素の特定情報を入力とし、補正された画像データ又は補正された補正対象画素の特定情報を出力とする学習モデルが用いられる。一方で、補正ステップとして通常処理が行われる場合、電子機器２０００１又はセンサ２００１１光センサ２００１１のプロセッサや信号処理回路によって、ＡＩを利用せずに、画像データに含まれる補正対象画素を補正する処理が行われる。

　このように、補正処理では、補正対象画素を特定する特定ステップで推論処理又は通常処理が行われ、特定した補正対象画素を補正する補正ステップで推論処理又は通常処理が行われることで、特定ステップ及び補正ステップの少なくとも一方のステップで、推論処理が行われる。すなわち、補正処理では、センサ２００１１光センサ２００１１からの画像データの少なくとも一部に学習モデルを用いた推論処理が行われる。

　また、補正処理では、推論処理を用いることで、特定ステップが補正ステップと一体的に行われるようにしてもよい。このような補正ステップとして推論処理が行われる場合、推論部２０４２２では、学習モデルに対し画像データを入力することで、補正対象画素が補正された画像データが出力されるので、入力された画像データに含まれる補正対象画素を補正することができる。ここでは、補正対象画素を含む画像データを入力とし、補正対象画素が補正された画像データを出力とする学習モデルが用いられる。

　ところで、処理部２０４０１では、補正済みデータを用いてメタデータを生成するようにしてもよい。図16のフローチャートには、メタデータを生成する場合の処理の流れを示している。

　ステップＳ２００５１，Ｓ２００５２においては、上述したステップＳ２０００１，Ｓ２０００２と同様に、画像データが取得され、取得された画像データを用いた補正処理が行われる。ステップＳ２００５３では、処理部２０４０１が、補正処理で得られた補正済みデータを用いてメタデータを生成する。このメタデータを生成するステップ（以下、生成ステップ（Generation Step）と呼ぶ）では、推論処理又は通常処理が行われる。

　生成ステップとして推論処理が行われる場合、推論部２０４２２では、学習モデルに対し補正済みデータを入力することで、入力された補正済みデータに関するメタデータが出力されるので、メタデータを生成することができる。ここでは、補正済みデータを入力とし、メタデータを出力とする学習モデルが用いられる。例えば、メタデータには、ポイントクラウドやデータ構造体等の３次元データが含まれる。なお、ステップＳ２００５１乃至Ｓ２００５４の処理は、エンドツーエンド（end-to-end）の機械学習で行われてもよい。一方で、生成ステップとして通常処理が行われる場合、電子機器２０００１又はセンサ２００１１光センサ２００１１のプロセッサや信号処理回路によって、ＡＩを利用せずに、補正済みデータからメタデータを生成する処理が行われる。

　以上のように、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又はセンサ２００１１光センサ２００１１においては、センサ２００１１光センサ２００１１からの画像データを用いた補正処理として、補正対象画素を特定する特定ステップと補正対象画素を補正する補正ステップ、又は画像データに含まれる補正対象画素を補正する補正ステップが行われる。さらに、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又はセンサ２００１１光センサ２００１１では、補正処理で得られる補正済みデータを用い、メタデータを生成する生成ステップを行うこともできる。

　さらに、これらの補正済みデータや、メタデータ等のデータを読み出し可能な記憶媒体に記録することで、それらのデータが記録された記憶媒体や、当該記憶媒体を搭載した電子機器などの装置を生成することもできる。当該記憶媒体は、電子機器２０００１、エッジサーバ２０００２、クラウドサーバ２０００３、又は光センサ２００１１に備わるメインメモリ又は補助メモリなどの記憶媒体でもよいし、それらとは独立した記憶媒体又は電子機器でもよい。

　補正処理で特定ステップと補正ステップが行われる場合、特定ステップ、補正ステップ、及び生成ステップのうち、少なくとも１つのステップで、学習モデルを用いた推論処理を行うことができる。具体的には、特定ステップにおいて推論処理又は通常処理が行われた後に、補正ステップにおいて推論処理又は通常処理が行われ、さらに生成ステップにおいて推論処理又は通常処理が行われることで、少なくとも１つのステップで推論処理が行われる。

　また、補正処理で補正ステップのみが行われる場合、補正ステップで推論処理を行い、生成ステップで推論処理又は通常処理を行うことができる。具体的には、補正ステップにおいて推論処理が行われた後に、生成ステップにおいて推論処理又は通常処理が行われることで、少なくとも１つのステップで推論処理が行われる。

　このように、特定ステップ、補正ステップ、及び生成ステップにおいては、全てのステップで推論処理が行われてもよいし、あるいは一部のステップで推論処理が行われ、残りのステップで通常処理が行われてもよい。以下、各ステップで推論処理が行われる場合の処理を説明する。

（Ａ）特定ステップで推論処理が行われる場合の処理
　補正処理で特定ステップと補正ステップが行われる場合に、当該特定ステップで推論処理が行われるとき、推論部２０４２２では、補正対象画素を含む画像データを入力とし、画像データに含まれる補正対象画素の特定情報を出力とする学習モデルが用いられる。この学習モデルは、学習部２０４２１による学習処理で生成され、推論部２０４２２に提供されて推論処理を行う際に用いられる。

　図17のフローチャートを参照しながら、補正処理で特定ステップと補正ステップが行われる場合に、当該特定ステップで推論処理を行うに際して事前に行われる学習処理の流れを説明すれば、次のようになる。すなわち、学習部２０４２１は、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データ、シミュレータにより生成されたデータセットなどを教師データとして取得し（Ｓ２００６１）、取得した教師データを用いて学習モデルを生成する（Ｓ２００６２）。この学習モデルとしては、補正対象画素を含む画像データを入力とし、画像データに含まれる補正対象画素の特定情報を出力とする学習モデルが生成され、推論部２０４２２に出力される（Ｓ２００６３）。

（Ｂ）補正ステップで推論処理が行われる場合の処理
　補正処理で特定ステップと補正ステップが行われる場合に、当該補正ステップで推論処理が行われるとき、推論部２０４２２では、補正対象画素を含む画像データ及び補正対象画素の特定情報を入力とし、補正された画像データ又は補正された補正対象画素の特定情報を出力とする学習モデルが用いられる。この学習モデルは、学習部２０４２１による学習処理で生成される。

　図17のフローチャートを参照しながら、補正処理で特定ステップと補正ステップが行われる場合に、当該補正ステップで推論処理を行うに際して事前に行われる学習処理の流れを説明すれば、次のようになる。すなわち、学習部２０４２１は、光センサからの画像データや、シミュレータからのにより生成されたデータセットなどを教師データとして取得し（Ｓ２００６１）、取得した教師データを用いて学習モデルを生成する（Ｓ２００６２）。この学習モデルとしては、補正対象画素を含む画像データ及び補正対象画素の特定情報を入力とし、補正された画像データ又は補正された補正対象画素の特定情報を出力とする学習モデルが生成され、推論部２０４２２に出力される（Ｓ２００６３）。

（Ｃ）補正ステップで推論処理が行われる場合の処理
　補正処理で補正ステップのみが行われる場合に、当該補正ステップで推論処理が行われるとき、推論部２０４２２では、補正対象画素を含む画像データを入力とし、補正対象画素が補正された画像データを出力とする学習モデルが用いられる。この学習モデルは、学習部２０４２１による学習処理で生成される。

　図17のフローチャートを参照しながら、補正処理で補正ステップのみが行われる場合に、当該補正ステップで推論処理を行うに際して事前に行われる学習処理の流れを説明すれば、次のようになる。すなわち、学習部２０４２１は、光センサからの画像データや、シミュレータからのにより生成されたデータセットなどを教師データとして取得し（Ｓ２００６１）、取得した教師データを用いて学習モデルを生成する（Ｓ２００６２）。この学習モデルとしては、補正対象画素を含む画像データを入力とし、補正対象画素が補正された画像データを出力とする学習モデルが生成され、推論部２０４２２に出力される（Ｓ２００６３）。

　ところで、学習モデルや画像データ、補正済みデータ等のデータは、単一の装置内で用いられることは勿論、複数の装置の間でやり取りされ、それらの装置内で用いられてもよい。図18は、複数の装置間でのデータの流れを示している。

　電子機器２０００１－１乃至２０００１－Ｎ（Ｎは１以上の整数）は、ユーザごとに所持され、それぞれ基地局（不図示）等を介してインターネット等のネットワーク２００４０に接続可能である。製造時において、電子機器２０００１－１には、学習装置２０５０１が接続され、学習装置２０５０１により提供される学習モデルを補助メモリ２０１０４に記録することができる。学習装置２０５０１は、シミュレータ２０５０２により生成されたデータセットを教師データとして用いて学習モデルを生成し、電子機器２０００１－１に提供する。なお、教師データは、シミュレータ２０５０２から提供されるデータセットに限らず、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データなどを用いても構わない。

　図示は省略しているが、電子機器２０００１－２乃至２０００１－Ｎについても、電子機器２０００１－１と同様に、製造時の段階で学習モデルを記録することができる。以下、電子機器２０００１－１乃至２０００１－Ｎをそれぞれ区別する必要がない場合には、電子機器２０００１と呼ぶ。

　ネットワーク２００４０には、電子機器２０００１のほかに、学習モデル生成サーバ２０５０３、学習モデル提供サーバ２０５０４、データ提供サーバ２０５０５、及びアプリサーバ２０５０６が接続され、相互にデータをやり取りすることができる。各サーバは、クラウドサーバとして設けることができる。

　学習モデル生成サーバ２０５０３は、クラウドサーバ２０００３と同様の構成を有し、ＣＰＵ等のプロセッサによって学習処理を行うことができる。学習モデル生成サーバ２０５０３は、教師データを用いて学習モデルを生成する。図示した構成では、製造時に電子機器２０００１が学習モデルを記録する場合を例示しているが、学習モデルは、学習モデル生成サーバ２０５０３から提供されてもよい。学習モデル生成サーバ２０５０３は、生成した学習モデルをし、ネットワーク２００４０を介して電子機器２０００１に送信する。電子機器２０００１は、学習モデル生成サーバ２０５０３から送信されてくる学習モデルを受信し、補助メモリ２０１０４に記録する。これにより、その学習モデルを備える電子機器２０００１が生成される。

　すなわち、電子機器２０００１では、製造時の段階で学習モデルを記録していない場合には、学習モデル生成サーバ２０５０３からの学習モデルを新規で記録することで、新たな学習モデルを記録した電子機器２０００１が生成される。また、電子機器２０００１では、製造時の段階で学習モデルを既に記録している場合、記録済みの学習モデルを、学習モデル生成サーバ２０５０３からの学習モデルに更新することで、更新済みの学習モデルを記録した電子機器２０００１が生成される。電子機器２０００１では、適宜更新される学習モデルを用いて推論処理を行うことができる。

　学習モデルは、学習モデル生成サーバ２０５０３から電子機器２０００１に直接提供するに限らず、各種の学習モデルを集約して管理する学習モデル提供サーバ２０５０４がネットワーク２００４０を介して提供してもよい。学習モデル提供サーバ２０５０４は、電子機器２０００１に限らず、他の装置に学習モデルを提供することで、その学習モデルを備える他の装置を生成しても構わない。また、学習モデルは、フラッシュメモリ等の着脱可能なメモリカードに記録して提供しても構わない。電子機器２０００１では、スロットに装着されたメモリカードから学習モデルを読み出して記録することができる。これにより、電子機器２０００１では、過酷環境下で使用される場合や、通信機能を有していない場合、通信機能を有しているが伝送可能な情報量が少ない場合などであっても、学習モデルを取得することができる。

　電子機器２０００１は、画像データや補正済みデータ、メタデータなどのデータを、ネットワーク２００４０を介して他の装置に提供することができる。例えば、電子機器２０００１は、画像データや補正済みデータ等のデータを、ネットワーク２００４０を介して学習モデル生成サーバ２０５０３に送信する。これにより、学習モデル生成サーバ２０５０３では、１又は複数の電子機器２０００１から収集された画像データや補正済みデータ等のデータを教師データとして用い、学習モデルを生成することができる。より多くの教師データを用いることで、学習処理の精度を上げることができる。

　画像データや補正済みデータ等のデータは、電子機器２０００１から学習モデル生成サーバ２０５０３に直接提供するに限らず、各種のデータを集約して管理するデータ提供サーバ２０５０５が提供してもよい。データ提供サーバ２０５０５は、電子機器２０００１に限らず他の装置からデータを収集してもよいし、学習モデル生成サーバ２０５０３に限らず他の装置にデータを提供しても構わない。

　学習モデル生成サーバ２０５０３は、既に生成された学習モデルに対し、電子機器２０００１又はデータ提供サーバ２０５０５から提供された画像データや補正済みデータ等のデータを教師データに追加した再学習処理を行い、学習モデルを更新してもよい。更新された学習モデルは、電子機器２０００１に提供することができる。学習モデル生成サーバ２０５０３において、学習処理又は再学習処理を行う場合、電子機器２０００１の仕様や性能の違いに依らず、処理を行うことができる。

　また、電子機器２０００１において、補正済みデータやメタデータに対してユーザが修正の操作を行った場合（例えばユーザが正しい情報を入力した場合）に、その修正処理に関するフィードバックデータが、再学習処理に用いられてもよい。例えば、電子機器２０００１からのフィードバックデータを学習モデル生成サーバ２０５０３に送信することで、学習モデル生成サーバ２０５０３では、電子機器２０００１からのフィードバックデータを用いた再学習処理を行い、学習モデルを更新することができる。なお、電子機器２０００１では、ユーザによる修正の操作が行われる際に、アプリサーバ２０５０６により提供されるアプリケーションが利用されてもよい。

　再学習処理は、電子機器２０００１が行ってもよい。電子機器２０００１において、画像データやフィードバックデータを用いた再学習処理を行って学習モデルを更新する場合、装置内で学習モデルの改善を行うことができる。これにより、その更新された学習モデルを備える電子機器２０００１が生成される。また、電子機器２０００１は、再学習処理で得られる更新後の学習モデルを学習モデル提供サーバ２０５０４に送信して、他の電子機器２０００１に提供されるようにしてもよい。これにより、複数の電子機器２０００１の間で、更新後の学習モデルを共有することができる。

　あるいは、電子機器２０００１は、再学習された学習モデルの差分情報（更新前の学習モデルと更新後の学習モデルに関する差分情報）を、アップデート情報として、学習モデル生成サーバ２０５０３に送信してもよい。学習モデル生成サーバ２０５０３では、電子機器２０００１からのアップデート情報に基づき改善された学習モデルを生成して、他の電子機器２０００１に提供することができる。このような差分情報をやり取りすることで、全ての情報をやり取りする場合と比べてプライバシを保護することができ、また通信コストを削減することができる。なお、電子機器２０００１と同様に、電子機器２０００１に搭載されたセンサ２００１１光センサ２００１１が再学習処理を行ってもよい。

　アプリサーバ２０５０６は、ネットワーク２００４０を介して各種のアプリケーションを提供可能なサーバである。アプリケーションは、学習モデルや補正済みデータ、メタデータ等のデータを用いた所定の機能を提供する。電子機器２０００１は、ネットワーク２００４０を介してアプリサーバ２０５０６からダウンロードしたアプリケーションを実行することで、所定の機能を実現することができる。あるいは、アプリサーバ２０５０６は、例えばＡＰＩ（Application Programming Interface）などを介して電子機器２０００１からデータを取得し、アプリサーバ２０５０６上でアプリケーションを実行することで、所定の機能を実現することもできる。

　このように、本技術を適用した装置を含むシステムでは、各装置の間で、学習モデル、画像データ、補正済みデータ等のデータがやり取りされて流通し、それらのデータを用いた様々なサービスを提供することが可能となる。例えば、学習モデル提供サーバ２０５０４を介した学習モデルを提供するサービスや、データ提供サーバ２０５０５を介した画像データや補正済みデータ等のデータを提供するサービスを提供することができる。また、アプリサーバ２０５０６を介したアプリケーションを提供するサービスを提供することができる。

　あるいは、学習モデル提供サーバ２０５０４により提供される学習モデルに、電子機器２０００１のセンサ２００１１光センサ２００１１から取得した画像データを入力して、その出力として得られる補正済みデータが提供されてもよい。また、学習モデル提供サーバ２０５０４により提供される学習モデルを実装した電子機器などの装置を製造生成して提供してもよい。さらに、学習モデルや補正済みデータ、メタデータ等のデータを読み出し可能な記憶媒体に記録することで、それらのデータが記録された記憶媒体や、当該記憶媒体を搭載した電子機器などの装置を製造生成して提供してもよい。当該記憶媒体は、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの不揮発性メモリ（非一時的コンピュータ可読媒体）でもよいし、ＳＲＡＭ（Static Random Access Memory）や、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリでもよい。

　前述した実施形態は、以下のような形態としてもよい。

(１)
　プロセッサによりデータを生成する方法であって、
　CGモデルから、機械学習において推定モデルの最適化に用いられる訓練データを取得する、
　データ生成方法。

(２)
　前記CGモデルから、撮影するカメラのパラメータに基づいた画像を取得する、
　(１)に記載のデータ生成方法。

(３)
　前記カメラのパラメータは、前記カメラのレンズに関するパラメータを備える、
　(２)に記載のデータ生成方法。

(４)
　前記カメラのレンズに関するパラメータは、魚眼レンズ、広角レンズ、望遠レンズ、マクロレンズ又は標準レンズのうち、少なくとも1つに基づいたパラメータである、
　(３)に記載のデータ生成方法。

(５)
　前記カメラのレンズに関するパラメータは、前記カメラのレンズに起因する、ぼけ、歪み、シェーディング、フレア又はゴーストのうち少なくとも1つに関するパラメータである、
　(３)又は(４)に記載のデータ生成方法。

(６)
　前記カメラのパラメータは、前記カメラの受光センサに関するパラメータを備える、
　(２)から(５)のいずれかに記載のデータ生成方法。

(７)
　前記カメラのセンサに関するパラメータは、白色画素、黒色画素又はランダムな画素値を有する欠陥のうち少なくとも1つに関するパラメータである、
　(６)に記載のデータ生成方法。

(８)
　前記カメラのセンサに関するパラメータは、像面位相差取得用の画素、偏光画素、IR取得画素、UV取得画素、測距用の画素又は温度画素のうち少なくとも1つに関するパラメータである、
　(６)又は(７)に記載のデータ生成方法。

(９)
　前記カメラのセンサに関するパラメータは、カラーフィルタ特性、分光特性、カラーフィルタ配列、温度特性、変換効率、感度又は読み出し順のうち少なくとも1つに関するパラメータである、
　(６)から(８)のいずれかに記載のデータ生成方法。

(１０)
　前記CGモデルから取得した撮影するカメラのパラメータにより変換された画像に対して、データ圧縮に関するパラメータに基づいて圧縮された画像を取得する、
　(１)から(９)のいずれかに記載のデータ生成方法。

(１１)
　前記データ圧縮に関するパラメータは、圧縮アルゴリズム、圧縮率、ビットレート、階調又は色空間変換のうち少なくとも1つに関するパラメータを備える、
　(１０)に記載のデータ生成方法。

(１２)
　前記CGモデルから、マルチスペクトル画像、ハイパースペクトル画像を取得する、
　(１)から(１１)のいずれかに記載のデータ生成方法。

(１３)
　前記CGモデルから、撮影条件に基づいた画像を取得する、
　(１)から(１２)のいずれかに記載のデータ生成方法。

(１４)
　前記撮影条件は、光源の種類、位置又は方向のうち少なくとも1つに関する、
　(１３)に記載のデータ生成方法。

(１５)
　前記撮影条件は、画素値の飽和に関する、
　(１３)又は(１４)に記載のデータ生成方法。

(１６)
　前記撮影条件は、露出に関する、
　(１３)から(１５)のいずれかに記載のデータ生成方法。

(１７)
　前記CGモデルから、
　　前記推定モデルの入力画像となる通常画像と、
　　前記通常画像を入力した場合の望ましい出力画像である理想画像と、
　を別々に取得する、
　(１)から(１６)のいずれかに記載のデータ生成方法。

(１８)
　前記CGモデルから、(２)から(１７)の少なくともいずれか1つに記載の方法を用いて前記通常画像及び前記理想画像を取得する、
　(１７)に記載のデータ生成方法。

(１９)
　前記CGモデルにアノテーションを付与して前記理想画像を取得する、
　(１７)又は(１８)に記載のデータ生成方法。

(２０)
　前記アノテーションは、前記理想画像の領域ごと又は画素ごとに付与される、
　(１９)に記載のデータ生成方法。

(２１)
　前記アノテーションは、前記CGモデルから前記理想画像を生成する変換と同じ変換における幾何学的変換により変換されて付与される、
　(１９)又は(２０)に記載のデータ生成方法。

(２２)
　(１)から(２１)のいずれかに記載の前記データ生成方法を用いて取得した訓練データを用いて前記推定モデルを最適化する、学習方法。

(２２)
　(１)から(２１)のいずれかに記載の前記データ生成方法を用いて取得した訓練データを用いて最適化された前記推定モデルを用いた推定を実行する、推定方法。

(２３)
　(１)から(２２)のいずれかに記載の方法を実行するためのプロセッサを備える、データ生成装置、学習装置又は推定装置。

　さらに、以下のような態様とすることも可能である。

(1)
　CGモデル又は前記CGモデルに基づいて生成された人工画像を取得することと、
　プロセッサにより、前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成することと、
　を備える、画像生成方法。
　また、当該画像方法により生成された画像を記録媒体に記憶すること、
　を備える記録媒体生成方法。

(2)
　前記CGモデル又は前記人工画像を加工する少なくとも1つのパラメータを選択することと、
　前記CGモデル又は前記人工画像を生成するタイミングにおいて、前記選択されたパラメータに基づいて前記CGモデル又は前記人工画像に施すことと、
　をさらに備える、(1)に記載に画像生成方法。

(3)
　前記少なくとも1つのパラメータは、前記センサに関するパラメータである、
　(2)に記載の画像生成方法。

(4)
　前記センサは、少なくともカメラを備える、
　(3)に記載の画像生成方法。

(5)
　前記センサで取得した画像に対して使用される前記AIは、前記センサ又は前記カメラに起因した画像の変化を補正することに用いられる、
　(4)に記載の画像生成方法。

(6)
　前記加工画像又は前記人工画像のメタデータを記録媒体に記録すること、
　をさらに備える、(1)に記載の画像生成方法。

(7)
　前記加工画像又は前記人工画像のメタデータを前記人工画像と関連付けて前記記憶媒体に記録する、
　(6)に記載の画像生成方法。

(8)
　プロセッサを備え、
　前記プロセッサは、
　　CGモデル又は前記CGモデルに基づいて生成された人工画像を取得し、
　　前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成する、
　画像生成装置。

(9)
　プロセッサに実行させると、
　　CGモデル又は前記CGモデルに基づいて生成された人工画像を取得することと、
　　前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成することと、
　を備える画像生成方法を実行するプログラムを格納した、非一時的コンピュータ可読媒体。

(10)
　センサで取得した画像に対して用いられるAIの学習モデル生成方法であって、
　　第1画像データを取得することと、
　　前記第1画像データと異なる第2画像データを取得することと、
　　前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成することと、
　を備え、
　前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、
　前記第2画像データは、プロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである、
　学習モデル生成方法。

(11)
　前記第2画像データは、前記第2画像のメタデータである、
　(10)に記載の学習モデル生成方法。

(12)
　プロセッサを備え、センサで取得した画像に対して用いられるAIの学習モデルを生成する学習モデル生成装置であって、
　前記プロセッサは、
　　第1画像データを取得し、
　　前記第1画像データと異なる第2画像データを取得し、
　　前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成し、
　前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、
　前記第2画像データは、前記プロセッサと同一のプロセッサ又は前記プロセッサと異なるプロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである、
　学習モデル生成装置。

(13)
　プロセッサに実行させると、
　　第1画像データを取得することと、
　　前記第1画像データと異なる第2画像データを取得することと、
　　前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成することと、
　を備える学習モデル生成方法を実行するプログラムであって、
　前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、
　前記第2画像データは、前記プロセッサと同一のプロセッサ又は前記プロセッサと異なるプロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである、
　プログラムを格納した、非一時的コンピュータ可読媒体。

(14)
　センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する推論方法であって、
　プロセッサにより、
　　入力画像データを取得することと、
　　前記入力画像データが入力された前記学習モデルから、前記学習モデルの処理結果を取得すること、
　を備え、
　前記学習モデルは、
　　第1画像データと、前記第1画像データと異なる第2画像データを取得することと、
　　前記第1画像データと、前記第2画像データと、に基づいて、学習することと、
　により生成されたモデルであり、
　前記第1画像データは、人工的に生成された人工画像であり、
　前記第2画像データは、前記第1画像に対して処理が施されたデータである、
　推論方法。

(15)
　センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する電子機器であって、制御装置を有し、
　前記制御装置は、
　　入力画像データが入力されると、
　　前記入力画像データを前記学習モデルに入力し、
　　前記入力画像データが入力された学習モデルの処理結果を取得し、
　　取得した前記処理結果を出力し、
　前記学習モデルは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像とによって学習されたモデルである、
　電子機器。

(16)
　センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する推論方法をプロセッサに実行させるプログラムであって、
　前記推論方法は、
　　入力画像データを取得することと、
　　前記入力画像データが入力された前記学習モデルから、前記学習モデルの処理結果を取得すること、
　を備え、
　前記学習モデルは、
　　第1画像データと、前記第1画像データと異なる第2画像データを取得することと、
　　前記第1画像データと、前記第2画像データと、に基づいて、学習することと、
　により生成されたモデルであり、
　前記第1画像データは、人工的に生成された人工画像であり、
　前記第2画像データは、前記第1画像に対して処理が施されたデータである、
　プログラム。

(17)
　センサで取得した画像に対して使用されるAIの学習モデルを生成する生成方法であって、
　人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、に基づいて、センサで取得される前記人工画像に対応する画像を入力すると、前記加工画像に対応した画像を出力する学習モデルを学習すること、
　を備える生成方法。

(18)
　(17)で生成された前記学習モデルを電子機器が有する非一時的コンピュータ可読媒体に記録すること、
　を備える電子機器の生成方法。

(19)
　センサで取得した画像に対して使用されるAIの学習モデルであって、
　　複数のノードで構成される複数の階層を有し、
　　前記複数の階層のそれぞれは、関数を有するとともに、前記複数の階層のそれぞれにおける前記複数のノードのそれぞれは、前記複数の階層の他の階層の1又は複数のノードとエッジを介して接続され、
　　前記エッジは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、に基づいた重み付けを有する、
　学習モデル。

(20)
　センサで取得した画像に対して使用されるAIの学習モデルが記録された非一時的コンピュータ可読媒体であって、
　前記学習モデルは、
　　複数のノードで構成される複数の階層を有し、
　　前記複数の階層のそれぞれは、関数を有するとともに、前記複数の階層のそれぞれにおける前記複数のノードのそれぞれは、前記複数の階層の他の階層の1又は複数のノードとエッジを介して接続され、
　　前記エッジは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、に基づいて求められた重み付け情報が、前記エッジに関連付けられて記録されている、
　非一時的コンピュータ可読媒体。

(21)
　学習モデルからの結果に基づいて、データ処理されるデータ処理方法であって、
　　学習モデルの結果が入力されることと、
　　前記学習モデルの結果に基づいて、処理データを生成することと、
　　前記処理データを出力することと、
　を備え、
　前記学習モデルからの結果は、
　　取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、
　前記あらかじめ学習された学習モデルは、
　　人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている、
　データ処理方法。

(22)
　学習モデルからの結果に基づいて、データ処理を実行するデータ処理装置であって、
　　学習モデルの結果が入力されることと、
　　前記学習モデルの結果に基づいて、処理データを生成することと、
　　前記処理データを出力することと、
　を実行するプロセッサを備え、
　前記学習モデルからの結果は、
　　取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、
　前記あらかじめ学習された学習モデルは、
　　人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている、
　データ処理装置。

(23)
　プロセッサに、学習モデルからの結果に基づいて、データ処理されるデータ処理方法を実行させるプログラムであって、
　前記データ処理方法は、
　　学習モデルの結果が入力されることと、
　　前記学習モデルの結果に基づいて、処理データを生成することと、
　　前記処理データを出力することと、
　を備え、
　前記学習モデルからの結果は、
　　取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、
　前記あらかじめ学習された学習モデルは、
　　人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている、
　プログラム。

(24)
　AIの学習において用いられる画像を生成する画像生成方法であって、
　　人工的に生成された人工画像を入力することと、
　　前記人工画像に対して加工処理を施した加工画像を生成することと、
　　前記加工画像を出力することと、
　を備える画像生成方法。

(25)
　(15)に記載の画像生成方法。

(26)
　前記人工画像は、コンピュータグラフィックスにより生成された画像である、
　(1)に記載の画像生成方法。

(27)
　前記人工画像は、メタデータを有し、
　前記メタデータは、アノテーションの付与に使用される、
　(1)に記載の画像生成方法。

(28)
　前記加工画像と、前記加工画像に対応する前記人工画像と、が対応づけられて記録される、
　(1)に記載の画像生成方法。

　本開示の態様は、前述した実施形態に限定されるものではなく、想到しうる種々の変形も含むものであり、本開示の効果も前述の内容に限定されるものではない。各実施形態における構成要素は、適切に組み合わされて適用されてもよい。すなわち、特許請求の範囲に規定された内容及びその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更及び部分的削除が可能である。

1：データ生成システム、
2：CGジェネレータ、
3：シミュレータ、
300：入出力I/F、302：記憶部、304：通常モデル適用部、306：理想モデル適用部、308：アノテーション付与部、
4：機械学習システム、
5：機械学習装置

Claims

　CGモデル又は前記CGモデルに基づいて生成された人工画像を取得することと、
　プロセッサにより、前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成することと、
　を備える、画像生成方法。
　前記CGモデル又は前記人工画像を加工する少なくとも1つのパラメータを選択することと、
　前記CGモデル又は前記人工画像を生成するタイミングにおいて、前記選択されたパラメータに基づいて前記CGモデル又は前記人工画像に施すことと、
　をさらに備える、請求項1に記載に画像生成方法。
　前記少なくとも1つのパラメータは、前記センサに関するパラメータである、
　請求項2に記載の画像生成方法。
　前記センサは、少なくともカメラを備える、
　請求項3に記載の画像生成方法。
　前記センサで取得した画像に対して使用される前記AIは、前記センサ又は前記カメラに起因した画像の変化を補正することに用いられる、
　請求項4に記載の画像生成方法。
　前記加工画像又は前記人工画像のメタデータを記録媒体に記録すること、
　をさらに備える、請求項1に記載の画像生成方法。
　前記加工画像又は前記人工画像のメタデータを前記人工画像と関連付けて前記記憶媒体に記録する、
　請求項6に記載の画像生成方法。
　請求項1に記載の画像生成方法で生成した画像を記録媒体に記憶すること、
　を備える記録媒体生成方法。
　プロセッサを備え、
　前記プロセッサは、
　　CGモデル又は前記CGモデルに基づいて生成された人工画像を取得し、
　　前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成する、
　画像生成装置。
　プロセッサに実行させると、
　　CGモデル又は前記CGモデルに基づいて生成された人工画像を取得することと、
　　前記CGモデル又は前記人工画像に対して加工処理を施し、センサで取得した画像に対して使用されるAIの学習に用いられる加工画像又は前記人工画像のメタデータを生成することと、
　を備える画像生成方法を実行するプログラムを格納した、非一時的コンピュータ可読媒体。
　センサで取得した画像に対して用いられるAIの学習モデル生成方法であって、
　　第1画像データを取得することと、
　　前記第1画像データと異なる第2画像データを取得することと、
　　前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成することと、
　を備え、
　前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、
　前記第2画像データは、プロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである、
　学習モデル生成方法。
　前記第2画像データは、前記第2画像のメタデータである、
　請求項11に記載の学習モデル生成方法。
　プロセッサを備え、センサで取得した画像に対して用いられるAIの学習モデルを生成する学習モデル生成装置であって、
　前記プロセッサは、
　　第1画像データを取得し、
　　前記第1画像データと異なる第2画像データを取得し、
　　前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成し、
　前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、
　前記第2画像データは、前記プロセッサと同一のプロセッサ又は前記プロセッサと異なるプロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである、
　学習モデル生成装置。
　プロセッサに実行させると、
　　第1画像データを取得することと、
　　前記第1画像データと異なる第2画像データを取得することと、
　　前記第1画像データと、前記第2画像データと、に基づいて、前記第1画像データを入力すると、前記第2画像データに対応した画像を出力する前記学習モデルを生成することと、
　を備える学習モデル生成方法を実行するプログラムであって、
　前記第1画像データは、CGモデル又は前記CGモデルに基づいて生成された人工画像であり、
　前記第2画像データは、前記プロセッサと同一のプロセッサ又は前記プロセッサと異なるプロセッサにより、前記CGモデル又は前記CGモデルに基づいて生成された人工画像に対して処理が施されたデータである、
　プログラムを格納した、非一時的コンピュータ可読媒体。
　センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する推論方法であって、
　プロセッサにより、
　　入力画像データを取得することと、
　　前記入力画像データが入力された前記学習モデルから、前記学習モデルの処理結果を取得すること、
　を備え、
　前記学習モデルは、
　　第1画像データと、前記第1画像データと異なる第2画像データを取得することと、
　　前記第1画像データと、前記第2画像データと、に基づいて、学習することと、
　により生成されたモデルであり、
　前記第1画像データは、人工的に生成された人工画像であり、
　前記第2画像データは、前記第1画像に対して処理が施されたデータである、
　推論方法。
　センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する電子機器であって、制御装置を有し、
　前記制御装置は、
　　入力画像データが入力されると、
　　前記入力画像データを前記学習モデルに入力し、
　　前記入力画像データが入力された学習モデルの処理結果を取得し、
　　取得した前記処理結果を出力し、
　前記学習モデルは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像とによって学習されたモデルである、
　電子機器。
　センサで取得した画像に対して使用されるAIの学習モデルで推論を実行する推論方法をプロセッサに実行させるプログラムであって、
　前記推論方法は、
　　入力画像データを取得することと、
　　前記入力画像データが入力された前記学習モデルから、前記学習モデルの処理結果を取得すること、
　を備え、
　前記学習モデルは、
　　第1画像データと、前記第1画像データと異なる第2画像データを取得することと、
　　前記第1画像データと、前記第2画像データと、に基づいて、学習することと、
　により生成されたモデルであり、
　前記第1画像データは、人工的に生成された人工画像であり、
　前記第2画像データは、前記第1画像に対して処理が施されたデータである、
　プログラム。
　センサで取得した画像に対して使用されるAIの学習モデルを生成する生成方法であって、
　人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、に基づいて、センサで取得される前記人工画像に対応する画像を入力すると、前記加工画像に対応した画像を出力する学習モデルを学習すること、
　を備える生成方法。
　請求項18で生成された前記学習モデルを電子機器が有する非一時的コンピュータ可読媒体に記録すること、
　を備える電子機器の生成方法。
　センサで取得した画像に対して使用されるAIの学習モデルであって、
　　複数のノードで構成される複数の階層を有し、
　　前記複数の階層のそれぞれは、関数を有するとともに、前記複数の階層のそれぞれにおける前記複数のノードのそれぞれは、前記複数の階層の他の階層の1又は複数のノードとエッジを介して接続され、
　　前記エッジは、人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、に基づいた重み付けを有する、
　学習モデル。
　学習モデルからの結果に基づいて、データ処理されるデータ処理方法であって、
　　学習モデルの結果が入力されることと、
　　前記学習モデルの結果に基づいて、処理データを生成することと、
　　前記処理データを出力することと、
　を備え、
　前記学習モデルからの結果は、
　　取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、
　前記あらかじめ学習された学習モデルは、
　　人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている、
　データ処理方法。
　学習モデルからの結果に基づいて、データ処理を実行するデータ処理装置であって、
　　学習モデルの結果が入力されることと、
　　前記学習モデルの結果に基づいて、処理データを生成することと、
　　前記処理データを出力することと、
　を実行するプロセッサを備え、
　前記学習モデルからの結果は、
　　取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、
　前記あらかじめ学習された学習モデルは、
　　人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている、
　データ処理装置。
　プロセッサに、学習モデルからの結果に基づいて、データ処理されるデータ処理方法を実行させるプログラムであって、
　前記データ処理方法は、
　　学習モデルの結果が入力されることと、
　　前記学習モデルの結果に基づいて、処理データを生成することと、
　　前記処理データを出力することと、
　を備え、
　前記学習モデルからの結果は、
　　取得された画像データを、あらかじめ学習された学習モデルに入力されることによって取得され、
　前記あらかじめ学習された学習モデルは、
　　人工的に生成された人工画像と、前記人工画像に対して処理が施された加工画像と、によって学習されている、
　プログラム。
　AIの学習において用いられる画像を生成する画像生成方法であって、
　　人工的に生成された人工画像を入力することと、
　　前記人工画像に対して加工処理を施した加工画像を生成することと、
　　前記加工画像を出力することと、
　を備える画像生成方法。