WO2024079792A1

WO2024079792A1 - 情報処理装置、方法、及びプログラム

Info

Publication number: WO2024079792A1
Application number: PCT/JP2022/037923
Authority: WO
Inventors: アルトゥーロエドゥアルドセロンロペス; 美玖柳元
Original assignee: 株式会社エクサウィザーズ
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2024-04-18

Abstract

変換部（３２）が、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、特性の種類毎に用意された複数の変換器（３２１、３２２、・・・、３２Ｋ）を用いて、段階的に画像の変換を行い、学習部（３４）が、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、複数の変換器の各々の機械学習を個別に実行する。

Description

情報処理装置、方法、及びプログラム

　本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。

　従来、ＧＡＮ（Generative Adversarial Network）等のＡＩ（Artificial Intelligence）を用いて、画像を生成又は変換することが行われている。具体的には、入力された画像の画風やカラーリングを変換した画像を生成する技術が存在する。

　また、実際に撮影された画像を機械学習モデルで処理して何らかの処理を実行するシステムが存在する。このようなシステムにおいて、その機械学習モデルの訓練のために、実際の画像を大量に用意することは手間がかかる。そこで、人工的に合成された画像を、上記のような画像変換の技術を用いて、実際に撮影された画像に近いリアリスティックな画像に変換する技術が提案されている。例えば、情報処理装置が実行する生成方法であって、レンダリングパラメータを調整する処理と、調整したレンダリングパラメータに基づき合成データを生成する処理と、リアリズムスコアの値が最適になるようにレンダリングパラメータを調整する処理と、を含む生成方法が提案されている（特許文献１参照）。

特許第７０５８４３４号公報

　上記従来技術のレンダリングパラメータには、画像の特性に応じた複数のパラメータが含まれている。しかしながら、上記従来技術では、どの特性について、どのように調整することで、よりリアルな合成画像が生成されるかということを把握することが困難である。そのため、パラメータの調整による合成画像のリアルさの向上に改善の余地がある。

　本開示は、上記の点に鑑みてなされたものであり、リアルさをより向上させた合成画像を生成することができる情報処理装置、方法、及びプログラムを提供することを目的とする。

　上記目的を達成するために、本開示の第１態様に係る情報処理装置は、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う変換部と、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する学習部と、を含んで構成される。

　また、本開示の第２態様に係る情報処理方法は、変換部が、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行い、学習部が、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する方法である。

　また、本開示の第３態様に係る情報処理プログラムは、コンピュータを、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う変換部、及び、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する学習部として機能させるためのプログラムである。

　本開示に係る情報処理装置、方法、及びプログラムによれば、リアルさをより向上させた合成画像を生成することができる。

本実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。本実施形態に係る情報処理装置の機能構成を示すブロック図である。変換部の具体的な構成を示すブロック図である。変換部の具体的なユースケースの例を示すブロック図である。本実施形態における学習処理の流れを示すフローチャートである。本実施形態における生成処理の流れを示すフローチャートである。参考手法における出力例を示す図である。本手法における出力例を示す図である。

　以下、本開示の実施形態の一例を、図面を参照しつつ説明する。

　図１は、本実施形態に係る情報処理装置１０のハードウェア構成を示すブロック図である。図１に示すように、情報処理装置１０は、ＣＰＵ（Central Processing Unit）１２、メモリ１４、記憶装置１６、入力装置１８、出力装置２０、記憶媒体読取装置２２、及び通信Ｉ／Ｆ（Interface）２４を有する。各構成は、バス２６を介して相互に通信可能に接続されている。

　記憶装置１６には、後述する学習処理及び生成処理を実行するための情報処理プログラムが格納されている。ＣＰＵ１２は、中央演算処理ユニットであり、各種プログラムの実行、及び各構成の制御を行う。すなわち、ＣＰＵ１２は、記憶装置１６からプログラムを読み出し、メモリ１４を作業領域としてプログラムを実行する。ＣＰＵ１２は、記憶装置１６に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

　メモリ１４は、ＲＡＭ（Random Access Memory）により構成され、作業領域として一時的にプログラム及びデータを記憶する。記憶装置１６は、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等により構成され、オペレーティングシステムを含む各種プログラム及び各種データを格納する。

　入力装置１８は、例えば、キーボードやマウス等の、各種の入力を行うための装置である。出力装置２０は、例えば、ディスプレイやプリンタ等の、各種の情報を出力するための装置である。出力装置２０として、タッチパネルディスプレイを採用することにより、入力装置１８として機能させてもよい。

　記憶媒体読取装置２２は、ＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ、ブルーレイディスク、ＵＳＢ（Universal Serial Bus）メモリ等の各種の記憶媒体２２Ａに記憶されたデータの読み込みや、記憶媒体に対するデータの書き込み等を行う。通信Ｉ／Ｆ２４は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、本実施形態に係る情報処理装置１０の機能構成について説明する。図２は、情報処理装置１０の機能構成の例を示すブロック図である。図２に示すように、情報処理装置１０は、機能構成として、変換部３２と、学習部３４と、生成部３６とを含む。各機能構成は、ＣＰＵ１２が記憶装置１６に記憶された情報処理プログラムを読み出し、メモリ１４に展開して実行することにより実現される。

　変換部３２は、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器を多段階に接続して構成される。各変換器は、前段の変換器の出力画像が後段の変換器の入力画像となるように接続されている。図２では、変換部３２は、第１変換器３２１、第２変換器３２２、・・・、第Ｋ変換器３２Ｋを含む例を示している。以下では、各変換器を区別なく説明する場合には、「第ｋ変換器３２ｋ」（ｋ＝１，２，・・・，Ｋ、Ｋは変換器の数）と表記する。

　第ｋ変換器３２ｋは、例えば、ＧＡＮ等の機械学習モデルで構成される。第ｋ変換器３２ｋは、実画像に本来存在するはずの複数の特性の種類毎に用意される。特性は、実画像を撮影する場合に想定される環境条件に基づく美観特性、及び実画像を撮影するカメラに想定されるアーティファクトに基づくアーティファクト特性の少なくとも一方を含む。美観特性は、本開示の「第１特性」の一例であり、アーティファクト特性は、本開示の「第２特性」の一例である。具体的には、美観特性は、画像内の物体の構成及び構造、カラーリング、照明条件、及び画風の少なくとも１つを含む。アーティファクト特性は、ノイズ、及びカメラ要因の少なくとも１つを含む。

　図３に、変換部３２について、より具体的な構成を示す。図３の例では、変換部３２は、美観特性１用の第１変換器３２１、美観特性２用の第２変換器３２２、・・・、美観特性ｎ用の第ｎ変換器３２ｎを含む。さらに、変換部３２は、アーティファクト特性１用の第ｎ＋１変換器３２ｎ＋１、アーティファクト特性２用の第ｎ＋２変換器３２ｎ＋２、・・・、アーティファクト特性ｍ用の第ｎ＋ｍ変換器３２Ｋを含む。ｎは、美観特性用の第ｋ変換器３２ｋの数であり、ｍは、アーティファクト特性用の第ｋ変換器３２ｋの数であり、ｎ＋ｍはＫである。

　図３の例では、変換部３２への入力画像である初期合成画像が第１変換器３２１への入力画像となる。初期合成画像は、人工的加工により生成される合成画像、例えば、レンダリングエンジンにより生成されるレンダリング画像である。第１変換器３２１は、入力画像に対して、美観特性１に関する特徴を追加した第１合成画像を生成して出力する。第１合成画像は、第２変換器３２２の入力画像となる。第２変換器３２２は、入力画像（第１合成画像）に対して、美観特性２に関する特徴を追加した第２合成画像を生成して出力する。

　以下同様に、第ｎ変換器３２ｎへの入力画像は第ｎ－１合成画像、第ｎ変換器３２ｎからの出力画像は第ｎ合成画像となる。また、第ｎ＋１変換器３２ｎ＋１への入力画像は第ｎ合成画像、第ｎ＋１変換器３２ｎ＋１からの出力画像は第ｎ＋１合成画像となる。また、第ｎ＋２変換器３２ｎ＋２への入力画像は第ｎ＋１合成画像、第ｎ＋２変換器３２ｎ＋２からの出力画像は第ｎ＋２合成画像となる。また、第ｎ＋ｍ変換器３２Ｋへの入力画像は第ｎ＋ｍ－１合成画像、第ｎ＋ｍ変換器３２Ｋからの出力画像は第Ｋ合成画像となり、この第Ｋ合成画像が変換部３２からの出力画像となる。

　例えば、美観特性１が照明条件の場合、第１変換器３２１は、初期合成画像に対して、照明の種類、角度、強度等をシミュレーションして特徴を追加した第１合成画像を生成して出力する。また、例えば、美観特性２がカラーリングの場合、第２変換器３２２は、第１合成画像に対して、ＲＧＢの各値をシミュレーションして特徴を追加した第２合成画像を生成して出力する。また、例えば、美観特性３が画像内の物体の構成及び構造の場合、第３変換器３２３（図示省略）は、第２合成画像に対して、物体の位置、サイズ、材質等をシミュレーションして特徴を追加した第３合成画像を生成して出力する。また、例えば、美観特性ｎが画風の場合、第ｎ変換器３２ｎは、第ｎ－１合成画像に対して、スケッチ、線画、モザイク等の画風をシミュレーションして特徴を追加した第ｎ合成画像を生成して出力する。

　また、例えば、アーティファクト特性１がノイズの場合、第ｎ＋１変換器３２ｎ＋１は、ノイズの種類、強度等をシミュレーションして特徴を追加した第ｎ＋１合成画像を生成して出力する。また、例えば、アーティファクト特性２がカメラ要因の場合、第ｎ＋２変換器３２ｎ＋２は、第ｎ＋１合成画像に対して、カメラのフォーカス、露出、値域、色収差、レンズ鏡筒の歪み等をシミュレーションして特徴を追加した第ｎ＋２合成画像を生成して出力する。

　図４に、変換部３２のより具体的なユースケースの例を示す。図４の例では、変換部３２において、第１変換器３２１、第２変換器３２２、及び第３変換器３２３が順に接続されている。第１変換器３２１は、照明条件の特性に関する特徴を追加する変換器であり、第２変換器３２２は、ノイズの特性に関する特徴を追加する変換器であり、第３変換器３２３は、カメラ要因の特性に関する特徴を追加する変換器である。図４に示すように、第１合成画像は、初期合成画像に対して、照明条件の特性に関する特徴が追加された合成画像となる。また、第２合成画像は、初期合成画像に対して、照明条件及びノイズの特性に関する特徴が追加された合成画像となる。また、第３合成画像は、初期合成画像に対して、照明条件、ノイズ、及びカメラ要因の特性に関する特徴が追加された合成画像となる。

　学習部３４は、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、第ｋ変換器３２ｋの各々の機械学習を個別に実行する。具体的には、学習部３４は、第ｋ変換器３２ｋの各々について、出力画像（第ｋ合成画像）の画素値から得られる複数種類の指標の各々を、第ｋ変換器３２ｋに対応する特性の種類に応じて重み付けをして統合したリアリズムスコアを算出する。そして、学習部３４は、算出したリアリズムスコアが予め定めた基準を満たすように、第ｋ変換器３２ｋのパラメータを更新する。リアリズムスコアを算出するための指標は、ヒストグラム交差法、画像内の物体の構造の類似性、ユークリッド距離、色再現性、画素値の標準偏差、焦点スコア、ノイズの分散、ピーク信号対雑音比、及び平均二乗誤差に関する指標の少なくとも１つを含む。なお、リアリズムスコアを算出するための指標は、前述したものに限られず、その他の指標を用いてもよい。

　具体的には、学習部３４は、各第ｋ変換器３２ｋのリアリズムスコア算出用のメタデータを取得する。メタデータは、リアリズムスコアを算出するための各指標に対する重み、及びリアリズムスコアの基準値を含む。各指標に対する重みは、その第ｋ変換器３２ｋに対応する特性に関連する指標ほど大きな値を予め定めておく。例えば、カラーリングの特性に関する特徴を追加する第ｋ変換器３２ｋについては、色再現性の指標の重みを、他の指標の重みよりも大きな値に設定しておく。例えば、学習部３４は、第ｋ変換器３２ｋの出力画像である第ｋ合成画像の画素値から、上記の各指標の値を算出し、取得したメタデータに含まれる重みを用いて、各指標の重み付き和をリアリズムスコアとして算出する。そして、学習部３４は、算出したリアリズムスコアが、メタデータとして取得した基準値を超えるように、第ｋ変換器３２ｋのパラメータを更新する。

　なお、パラメータの更新方法は上記の例に限定されない。例えば、リアリズムスコアが０～１の間の値で、１に近いほど、画像内の物体の実物らしさを示す度合いが高いとする。この場合、算出したリアリズムスコアが１に近づくように第ｋ変換器３２ｋのパラメータを更新する処理を、予め定めた回数繰り返すようにしてもよい。

　学習部３４は、第ｋ変換器３２ｋのそれぞれについて、更新した最終的なパラメータを各第ｋ変換器３２ｋに設定する。

　生成部３６は、学習部３４により機械学習が実行された複数の第ｋ変換器３２ｋを多段階に接続した変換部３２に画像を入力する。これにより、変換部３２が、画像内の物体の実物らしさを示す度合いが入力時より高くなるように、すなわちリアリズムスコアが高くなるように入力画像を変換して出力画像を生成する。生成部３６は、変換部３２により生成された出力画像を、例えば、撮影された画像を機械学習モデルへ入力して得られる結果に基づいて所定の処理を行うシステムにおける機械学習モデルの訓練データとして出力してよい。このようなシステムとしては、例えば、ピックアンドプレースを含むロボットアームの動作を制御するシステム、画像から対象物体を検出するシステム、画像上の物体の領域をセグメンテーションするシステム等が挙げられる。また、このようなシステムとして他にも、自律移動を行う装置（ロボット等）の移動進路を案内するナビゲーションシステムや、自動運転車両の走行経路を決定する自動運転システム等も挙げられる。

　次に、本実施形態に係る情報処理装置１０の作用について説明する。図５は、情報処理装置１０のＣＰＵ１２により実行される学習処理の流れを示すフローチャートである。また、図６は、情報処理装置１０のＣＰＵ１２により実行される生成処理の流れを示すフローチャートである。ＣＰＵ１２が記憶装置１６から情報処理プログラムを読み出して、メモリ１４に展開して実行することにより、ＣＰＵ１２が情報処理装置１０の各機能構成として機能し、図５に示す学習処理、及び図６に示す生成処理が実行される。なお、学習処理及び生成処理は、本開示の「情報処理方法」の一例である。以下、学習処理及び生成処理の各々について詳述する。

　まず、図５に示す学習処理について説明する。

　ステップＳ１０で、学習部３４が、各第ｋ変換器３２ｋ（ｋ＝１，２，・・・，Ｋ）の、リアリズムスコアを算出するための各指標に対する重み、及びリアリズムスコアの基準値ＲＳｔｈ（ｋ）を含むリアリズムスコア算出用のメタデータを取得する。

　次に、ステップＳ１２で、学習部３４が、レンダリングエンジン等により生成された初期の入力画像を取得し、変換部３２へ受け渡す。次に、ステップＳ１４で、学習部３４が、第ｋ変換器３２ｋを識別するための変数ｋに１を設定する。

　次に、ステップＳ１６で、変換部３２が、第ｋ変換器３２ｋに、入力画像として、第ｋ－１合成画像を入力し、第ｋ合成画像を生成する。ｋ＝１の場合における第ｋ－１合成画像は、上記ステップＳ１２で取得された入力画像である。

　次に、ステップＳ１８で、学習部３４が、上記ステップＳ１６で生成された第ｋ合成画像の画素値から、各指標の値を算出し、上記ステップＳ１０で取得したメタデータに含まれる重みを用いて、各指標の重み付き和をリアリズムスコアＲＳ（ｋ）として算出する。

　次に、ステップＳ２０で、学習部３４が、算出したリアリズムスコアＲＳ（ｋ）が、上記ステップＳ１０で取得したメタデータに含まれる基準値ＲＳｔｈ（ｋ）より大きいか否かを判定する。ＲＳ（ｋ）＞ＲＳｔｈ（ｋ）の場合には、ステップＳ２４へ移行し、ＲＳ（ｋ）≦ＲＳｔｈ（ｋ）の場合には、ステップＳ２２へ移行する。ステップＳ２２では、学習部３４が、ＲＳ（ｋ）＞ＲＳｔｈ（ｋ）となるように、第ｋ変換器３２ｋのパラメータを更新し、ステップＳ１６に戻る。

　ステップＳ２４では、学習部３４が、ｋを１インクリメントする。次に、ステップＳ２６で、学習部３４が、ｋが、第ｋ変換器３２ｋの数であるＫを超えたか否かを判定する。ｋ＞Ｋの場合には、ステップＳ２８へ移行し、ｋ≦Ｋの場合には、ステップＳ１６に戻る。

　ステップＳ２８では、学習部３４が、第ｋ変換器３２ｋのそれぞれについて、更新した最終的なパラメータを各第ｋ変換器３２ｋに設定し、学習処理は終了する。

　次に、図６に示す生成処理について説明する。生成処理は、上記の学習処理が終了した後に実行される。

　ステップＳ４０で、生成部３６が、レンダリングエンジン等により生成された初期の入力画像を取得し、変換部３２へ受け渡す。次に、ステップＳ４２で、生成部３６が、第ｋ変換器３２ｋを識別するための変数ｋに１を設定する。

　次に、ステップＳ４４で、変換部３２が、第ｋ変換器３２ｋに、入力画像として、第ｋ－１合成画像を入力し、第ｋ合成画像を生成する。ｋ＝１の場合における第ｋ－１合成画像は、上記ステップＳ４０で取得された入力画像である。

　次に、ステップＳ４６で、生成部３６が、ｋを１インクリメントする。次に、ステップＳ４８で、生成部３６が、ｋが、第ｋ変換器３２ｋの数であるＫを超えたか否かを判定する。ｋ＞Ｋの場合には、ステップＳ５０へ移行し、ｋ≦Ｋの場合には、ステップＳ４４に戻る。

　ステップＳ５０では、生成部３６が、第Ｋ変換器３２Ｋから出力された第Ｋ合成画像を出力画像として出力し、生成処理は終了する。

　以上説明したように、本実施形態に係る情報処理装置によれば、変換部が、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う。そして、学習部が、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、複数の変換器の各々の機械学習を個別に実行する。これにより、特性毎に変換器を最適化することができる。そのため、機械学習が実行された変換器を接続した変換部により生成される合成画像のリアルさをより向上させることができる。

　ここで、本実施形態に係る手法（以下、「本手法」という）の効果を、参考手法と比較して説明する。ここでの参考手法は、１つの変換器で、リアリズムスコアが高くなるように、照明条件及びノイズの特性に関する特徴を追加する手法である。また、本手法は、照明条件の特性に関する特徴を追加する第１変換器と、ノイズの特性に関する特徴を追加する第２変換器とを多段階に接続した変換部により、リアリズムスコアが高くなるように、画像合成を行う手法である。

　図７に、参考手法における出力例を示す。図７の左図は、変換器への入力画像であり、中央の図は、変換器からの出力画像である。また、図７の右図は、実際の物体を撮影した実画像である。また、入力画像及び出力画像の各々の下部には、リアリズムスコア（Realism Score）、及びリアリズムスコアを算出するための指標の値を示している。参考手法においても、入力画像よりも出力画像の方が、リアリズムスコアが高くなっている。

　図８に、本手法における出力例を示す。図８の左図は、図７の参考手法の場合と同様の入力画像である。図８の中央の図は、第１変換器から出力される第１合成画像、右図は、第２変換器から出力される第２合成画像である。図７と同様に各図の下部には、リアリズムスコア及び指標を示している。図８に示すように、参考手法の出力画像に比べ、本手法の第２合成画像のリアリズムスコアの方が高くなっている。すなわち、照明条件及びノイズという複数の特性に関する特徴を追加する場合において、複数の特性に関する特徴の追加を１つの変換器でまとめて行う場合に比べ、特性毎に最適化された変換器を用いて、特性毎に特徴を追加する方が、リアルさをより向上させた合成画像を生成することができる。

＜変形例＞
　上記実施形態において、各変換器をどの順番で配置するかによって、最終的に出力される出力画像のリアリズムスコアは異なるものと想定される。そこで、変換器の並び順を異ならせた複数のパターンの各々について、上記実施形態と同様に各変換器の機械学習を実行し、最終的な出力画像のリアリズムスコアが最もよいパターンの並び順を採用するようにしてもよい。

　また、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した学習処理及び生成処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Field-Programmable Gate Array）等の製造後に回路構成を変更可能なＰＬＤ（Programmable Logic Device）、及びＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び生成処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記実施形態では、情報処理プログラムが記憶装置に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ（Digital Versatile Disc Read Only Memory）、及びＵＳＢ（Universal Serial Bus）メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

１０   情報処理装置
１２   ＣＰＵ
１４   メモリ
１６   記憶装置
１８   入力装置
２０   出力装置
２２   記憶媒体読取装置
２２Ａ記憶媒体
２４   通信Ｉ／Ｆ
２６   バス
３２   変換部
３２１、３２２、３２３、３２ｋ、３２Ｋ    変換器
３４   学習部
３６   生成部

Claims

　実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う変換部と、
　画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する学習部と、
　を含む情報処理装置。
　前記学習部は、前記複数の変換器の各々について、前記出力画像の画素値から得られる複数種類の指標の各々を、前記変換器に対応する前記特性の種類に応じて重み付けをして統合したリアリズムスコアを前記度合いとして算出し、算出した前記リアリズムスコアが予め定めた基準を満たすように前記変換器のパラメータを更新する請求項１に記載の情報処理装置。
　前記特性は、画像を撮影する場合における環境条件に基づく第１特性、及び画像を撮影するカメラのアーティファクトに基づく第２特性の少なくとも一方を含む請求項１又は請求項２に記載の情報処理装置。
　前記第１特性は、画像内の物体の構成及び構造、カラーリング、照明条件、及び画風の少なくとも１つを含む請求項３に記載の情報処理装置。
　前記第２特性は、画像に含まれるノイズ、カメラのフォーカス、露出、値域、色収差、レンズ鏡筒の歪みの少なくとも１つを含む請求項３に記載の情報処理装置。
　前記複数種類の指標は、ヒストグラム交差法、画像内の物体の構造の類似性、ユークリッド距離、色再現性、画素値の標準偏差、焦点スコア、ノイズの分散、ピーク信号対雑音比、及び平均二乗誤差に関する指標の少なくとも１つを含む請求項２に記載の情報処理装置。
　前記変換部に画像を入力し、前記学習部により機械学習が実行され、多段階に接続された前記複数の変換器を用いて、前記変換部により段階的に画像の変換を行わせることで、前記画像内の物体の実物らしさを示す度合いが入力時より高くなるように変換された画像を生成する生成部を含む請求項１又は請求項２に記載の情報処理装置。
　前記生成部は、人工的加工により生成された画像を前記変換部に入力することにより生成した画像を、撮影された画像を機械学習モデルへ入力して得られる結果に基づいて所定の処理を行うシステムにおける前記機械学習モデルの訓練データとして出力する請求項７に記載の情報処理装置。
　前記システムは、ピックアンドプレースを含むロボットアームの動作を制御するシステム、画像から対象物体を検出するシステム、又は、画像上の物体の領域をセグメンテーションするシステムである請求項８に記載の情報処理装置。
　変換部が、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行い、
　学習部が、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する
　情報処理方法。
　コンピュータを、
　実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う変換部、及び、
　画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する学習部
　として機能させるための情報処理プログラム。