JPWO2019224947A1

JPWO2019224947A1 - 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム

Info

Publication number: JPWO2019224947A1
Application number: JP2020520935A
Authority: JP
Inventors: 大地小野
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2021-02-12
Anticipated expiration: 2038-05-23
Also published as: US20210158482A1; US11900258B2; JP6892557B2; WO2019224947A1

Abstract

画像生成部に入力される画像の画角の外の環境の推定精度を向上できる学習装置、画像生成装置、学習方法、画像生成方法及びプログラムを提供する。第２学習データ取得部（６４）は、入力画像を取得する。第２学習部（６６）は、入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する。入力データ生成部（３８）は、入力画像と結果データとが結合された入力データを生成する。第２学習部（６６）は、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する広画角画像生成部（２８）の学習を、入力データを入力として用いることで実行する。

Description

本発明は、学習装置、画像生成装置、学習方法、画像生成方法及びプログラムに関する。

実写の画像に基づいて設定される光源を用いて、リアルなコンピュータグラフィックス（ＣＧ）の画像やＣＧと実写の画像とを合成した画像を生成するイメージベースドライトニング（ＩＢＲ）の技術が知られている。

生成される画像のリアリティを向上させるため、ＩＢＲにおいてはハイダイナミックレンジ（ＨＤＲ）の３６０度画像などといった画角が広い画像に基づいて光源が設定されることが望ましい。しかし、画角が広い画像を得るためには全天周カメラや半天周カメラなどといった専用機材による撮影が必要であり、また、専門の知識も求められる。

そのため、撮影によってＩＢＲに好適な画像を生成する代わりに、学習済の機械学習モデルなどによって実装された画像生成部を用いてＩＢＲに好適な画像を生成することが行われている。この場合は例えば、一般的なカメラにより撮影される画像を画像生成部に入力することで、当該画像の画角の外の物体や風景などといった当該画像の画角の外の環境の推定結果が補われた、当該画像よりも画角が広い画像が生成される。

しかし上述のようにして画角が広い画像を生成する従来技術においては、入力される画像の画角の外の環境の推定精度が充分でなく、その結果、所望の画像が生成されないことがあった。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、画像生成部に入力される画像の画角の外の環境の推定精度を向上できる学習装置、画像生成装置、学習方法、画像生成方法及びプログラムを提供することにある。

上記課題を解決するために、本発明に係る学習装置は、入力画像を取得する画像取得部と、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する結果データ取得部と、前記入力画像と前記結果データとが結合された入力データを生成する入力データ生成部と、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行する学習部と、を含む。

本発明の一態様では、前記画像取得部は、前記入力画像と前記結果データとが結合された前記入力データの入力に応じて前記画像生成部が生成する画像とは異なる、当該入力画像よりも画角が広い学習画像をさらに取得し、前記学習部は、前記入力画像と前記結果データとが結合された前記入力データの入力に応じて前記画像生成部が生成する画像と、前記学習画像と、に基づいて、前記画像生成部の学習を実行する。

また、本発明に係る画像生成装置は、入力画像を取得する画像取得部と、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する結果データ取得部と、前記入力画像と前記結果データとが結合された入力データを生成する入力データ生成部と、前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成する画像生成部と、を含む。

また、本発明に係る学習方法は、入力画像を取得するステップと、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得するステップと、前記入力画像と前記結果データとが結合された入力データを生成するステップと、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行するステップと、を含む。

また、本発明に係る画像生成方法は、入力画像を取得するステップと、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得するステップと、前記入力画像と前記結果データとが結合された入力データを生成するステップと、前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成するステップと、を含む。

また、本発明に係るプログラムは、入力画像を取得する手順、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する手順、前記入力画像と前記結果データとが結合された入力データを生成する手順、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行する手順、をコンピュータに実行させる。

また、本発明に係る別のプログラムは、入力画像を取得する手順、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する手順、前記入力画像と前記結果データとが結合された入力データを生成する手順、前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成する手順、をコンピュータに実行させる。

第１実施形態に係る画像処理装置の構成図である。第１実施形態に係る第１学習の一例を示す図である。第１実施形態に係る第２学習の一例を示す図である。第１実施形態に係る第２学習の別の一例を示す図である。第１実施形態に係る画像の生成の一例を示す図である。第１実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。第１実施形態に係る画像処理装置で行われる学習処理の流れの一例を示すフロー図である。第１実施形態に係る画像処理装置で行われる学習処理の流れの別の一例を示すフロー図である。第１実施形態に係る画像処理装置で行われるターゲット広画角画像の生成処理の流れの一例を示すフロー図である。第２実施形態に係る学習の一例を示す図である。第２実施形態に係る学習の別の一例を示す図である。第２実施形態に係る画像の生成の一例を示す図である。第２実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。

［第１実施形態］
以下、本発明の一実施形態である第１実施形態について図面に基づき詳細に説明する。

図１は、本実施形態に係る画像処理装置１０の構成図である。本実施形態に係る画像処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る画像処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

プロセッサ１２は、例えば画像処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

なお、画像処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ−ＲＯＭやＢｌｕ−ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

本実施形態に係る画像処理装置１０には学習済の機械学習モデルが実装される。そして当該機械学習モデルを用いて、一般的なカメラで撮影される画像などといった二次元画像に基づいて、当該二次元画像の画角の外の物体や風景が補われた、当該二次元画像よりも画角が広い画像が生成される。ここで例えば、全天周画像（３６０度画像）や半天周画像（１８０度画像）などが生成されてもよい。また例えば、パノラマ画像が生成されてもよい。

以下、本実施形態に係る画像処理装置１０に実装されている機械学習モデルの学習の一例について説明する。

本実施形態に係る画像処理装置１０に実装されている機械学習モデルの学習においては、まず、図２に示すように、セマンティックセグメンテーション実行部２０の学習が実行される。ここでセマンティックセグメンテーション実行部２０の学習に用いられる学習データを第１学習データと呼ぶこととする。また、以下、セマンティックセグメンテーション実行部２０の学習を第１学習と呼ぶこととする。

セマンティックセグメンテーション実行部２０は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）により実装された機械学習モデルである。セマンティックセグメンテーション実行部２０は、例えば、画像の入力に応じて、当該画像に対するセマンティックセグメンテーションの実行結果を出力する。

第１学習データには、例えば、第１学習入力画像２２と教師データ２４との組合せが含まれる。

第１学習データに含まれる第１学習入力画像２２は、例えば、第１学習においてセマンティックセグメンテーション実行部２０に入力される画像である。第１学習入力画像２２は、例えば、一般的なカメラで撮影される画像などといった二次元画像である。第１学習入力画像２２は、スタンダードダイナミックレンジ（ＳＤＲ）の画像であってもよい。

第１学習データに含まれる教師データ２４は、例えば、当該第１学習データに含まれる第１学習入力画像２２に含まれる画素単位で当該画素が表す物体に応じたカテゴリが表された画像である。教師データ２４は、例えば、それぞれが認識結果である物体に応じたカテゴリに対応付けられる複数の領域に画素単位で分割された画像であってもよい。また教師データ２４は、それぞれが物体に応じたカテゴリに対応付けられる複数の画像を含むデータであってもよい。そして当該画像に含まれる画素には、当該画素が当該画像に対応付けられる物体のカテゴリを表す確率を表す値が設定されていてもよい。

そして本実施形態では例えば、セマンティックセグメンテーション実行部２０に第１学習入力画像２２を入力した際の出力である結果データ２６が特定される。結果データ２６は、例えば、セマンティックセグメンテーション実行部２０によるセマンティックセグメンテーションの実行結果に相当するデータである。ここで結果データ２６は例えば、教師データ２４と同様の、第１学習入力画像２２に含まれる画素単位で当該画素が表す物体に応じたカテゴリが表された画像である。

そして本実施形態では例えば、第１学習データに含まれる第１学習入力画像２２をセマンティックセグメンテーション実行部２０に入力した際の出力である結果データ２６と、当該第１学習データに含まれる教師データ２４と、の誤差（比較結果）が特定される。ここで例えばソフトマックスエントロピー誤差が特定されてもよい。そして特定される誤差に基づいて、例えば誤差逆伝搬法により、セマンティックセグメンテーション実行部２０のパラメータの値が更新される。

そして本実施形態では、複数の第１学習データを用いた第１学習が実行された後に、図３に示すように、広画角画像生成部２８の学習が実行される。ここで広画角画像生成部２８の学習に用いられる学習データを第２学習データと呼ぶこととする。また、以下、広画角画像生成部２８の学習を第２学習と呼ぶこととする。

以下、ＧＡＮ（Generative Adversarial Network）の技術を用いて、広画角画像生成部２８の学習だけではなくドメイン識別部３０の学習も併せて実行される第２学習の一例について説明する。

広画角画像生成部２８は、例えば、ＣＮＮにより実装された機械学習モデルである。広画角画像生成部２８には、例えば、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータが入力される。

そして広画角画像生成部２８は、例えば入力されるデータに含まれる画像の画角の外の物体や風景などといった当該画像の画角の外の環境を推定する。そして広画角画像生成部２８は例えば、当該推定の結果が反映された、入力されるデータに含まれる画像よりも画角が広い画像を生成する。例えば入力されるデータに含まれる画像が室内の画像であることが推定された際に、天井の画像が補完された画像が生成されてもよい。また例えば、入力されるデータに含まれる画像が室外の画像であることが推定された際に、空の画像が補完された画像が生成されてもよい。ここで例えば、全天周画像や半天周画像が生成されてもよい。また例えば、パノラマ画像が生成されてもよい。また生成される画像は、ハイダイナミックレンジ（ＨＤＲ）の画像であってもよい。そして広画角画像生成部２８は、生成された画像を出力する。

ドメイン識別部３０は、例えば、ＣＮＮにより実装された機械学習モデルである。ドメイン識別部３０には、例えば、広画角画像生成部２８により生成された画像、又は、広画角画像生成部２８では生成された画像とは異なる画像のいずれかが入力される。そしてドメイン識別部３０は、例えば、ドメイン識別部３０に入力される画像が広画角画像生成部２８により生成された画像であるか否かの識別結果を出力する。ここでドメイン識別部３０が、ドメイン識別部３０に入力された画像が広画角画像生成部２８により生成された画像である可能性の高さを示すデータを出力してもよい。

第２学習データには、第２学習入力画像３２と、学習広画角画像３４と、が含まれている。

第２学習データに含まれる第２学習入力画像３２は、例えば、第１学習が実行されたセマンティックセグメンテーション実行部２０に入力される画像である。第２学習入力画像３２は、例えば、一般的なカメラで撮影される画像などといった二次元画像である。第２学習入力画像３２は、ＳＤＲの画像であってもよい。なお、第２学習入力画像３２として、第１学習入力画像２２が流用されてもよい。まだ第１学習入力画像２２とは異なる画像が第２学習入力画像３２として用いられてもよい。

第２学習データに含まれる学習広画角画像３４は、例えば、広画角画像生成部２８により生成された画像ではない、全天周カメラで撮影された全天周画像や半天周カメラで撮影された半天周画像などの広画角画像である。なお学習広画角画像３４は、パノラマカメラで撮影されたパノラマ画像であってもよい。また、学習広画角画像３４は、ＨＤＲの画像であってもよい。

また、第２学習データに含まれる学習広画角画像３４として、当該第２学習データに含まれる第２学習入力画像３２に対応付けられる画像が用いられてもよい。第２学習データに含まれる学習広画角画像３４は、例えば、当該第２学習データに含まれる第２学習入力画像３２と同じ位置で撮影された画像であってもよい。

第２学習において、まず、第２学習データに含まれる第２学習入力画像３２が学習済のセマンティックセグメンテーション実行部２０に入力された際の出力、すなわちセマンティックセグメンテーションの実行結果である結果データ３６が特定される。

そして入力データ生成部３８が、第２学習入力画像３２と結果データ３６とが結合された学習入力データ４０を生成する。ここで学習入力データ４０は例えば、第２学習入力画像３２と結果データ３６とがチャネル方向に結合されたデータなどといった、第２学習入力画像３２よりもチャネル数が多いデータである。例えば、学習入力データ４０では、各画素について、第２学習入力画像３２が表す画素値（ＲＧＢ値）に加え、結果データ３６における当該画素が表す物体に応じたカテゴリを示す値が設定されていてもよい。また、学習入力データ４０では、各画素について、第２学習入力画像３２が表す画素値（ＲＧＢ値）に加え、複数の物体のそれぞれについての当該画素が当該物体を表す確率を表す値が設定されていてもよい。

そして学習入力データ４０が広画角画像生成部２８に入力される。すると広画角画像生成部２８は、当該学習入力データ４０の入力に応じて、当該学習入力データ４０に含まれる第２学習入力画像３２よりも画角が広い画像を生成する。このようにして生成される画像を生成広画角画像４２と呼ぶこととする。

そしてドメイン識別部３０に、第２学習データに含まれる第２学習入力画像３２に基づいて生成された生成広画角画像４２、又は、第２学習データに含まれる学習広画角画像３４のいずれかが入力される。

そしてドメイン識別部３０は、例えば、ドメイン識別部３０に入力された画像が生成広画角画像４２である可能性の高さを示す生成可能性データ４４を出力する。そして当該生成可能性データ４４と、ドメイン識別部３０に入力された画像が生成広画角画像４２であるか学習広画角画像３４であるかを示すドメイン識別データ４６との誤差（比較結果）が特定される。

ここで例えばドメイン識別データ４６の値として、生成広画角画像４２又は学習広画角画像３４のいずれかに対応付けられる値が設定されてもよい。

例えば生成可能性データ４４が０以上１以下の値をとるデータであってもよい。この場合、ドメイン識別データ４６は例えば、ドメイン識別部３０に入力された画像が生成広画角画像４２である場合に値として１をとり学習広画角画像３４である場合に値として０をとるデータであってもよい。

また生成可能性データ４４及びドメイン識別データ４６が例えば２個の要素を含むベクトルとして表現されてもよい。例えば、生成可能性データ４４の第１の要素の値がドメイン識別部３０に入力された画像が生成広画角画像４２である可能性の高さを示す値であってもよい。そして生成可能性データ４４の第２の要素の値がドメイン識別部３０に入力された画像が学習広画角画像３４である可能性の高さを示す値であってもよい。この場合、生成広画角画像４２に対応付けられるドメイン識別データ４６の値が二次元ベクトル（１，０）で表現され、学習広画角画像３４に対応付けられるドメイン識別データ４６の値が二次元ベクトル（０，１）で表現されてもよい。

そして本実施形態では、生成可能性データ４４とドメイン識別データ４６との誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部２８又はドメイン識別部３０のいずれかのパラメータの値が更新される。

ここで本実施形態に係る第２学習において、所定数の第２学習データを用いた広画角画像生成部２８のパラメータの値の更新と所定数の第２学習データを用いたドメイン識別部３０のパラメータの値の更新とが、交互に繰り返し実行されてもよい。この場合、広画角画像生成部２８のパラメータの値の更新の際には、ドメイン識別部３０のパラメータの値が固定された状態で、広画角画像生成部２８のパラメータの値が更新される。また、ドメイン識別部３０のパラメータの値の更新の際には、広画角画像生成部２８のパラメータの値が固定された状態で、ドメイン識別部３０のパラメータの値が更新される。

以上のようにして、画像処理装置１０に実装されている機械学習モデルが学習される。

なお第２学習の方法は上述のものに限定されない。例えば図４に示すように、ＧＡＮの技術を用いずに、第２学習が実行されてもよい。図４の例ではドメイン識別部３０を用いずに広画角画像生成部２８の学習が実行される。図４に示す第２学習における第２学習データに含まれる学習広画角画像３４は、当該第２学習データに含まれる第２学習入力画像３２と同じ位置から撮影された画像などといった、当該第２学習データに含まれる第２学習入力画像３２に対応付けられる画像である。

図４に示す第２学習の例では、第２学習データに含まれる第２学習入力画像３２に基づいて生成される生成広画角画像４２と、当該第２学習データに含まれる学習広画角画像３４との誤差（比較結果）が特定される。ここで例えば、平均絶対誤差（ＭＡＥ）、平均二乗誤差（ＭＳＥ）、平均平方二乗誤差（ＲＭＳＥ）が特定されてもよい。そして特定される誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部２８のパラメータの値が更新される。

本実施形態では例えば、以上のようにして学習が実行された機械学習モデルを用いて、一般的なカメラで撮影される画像などといった二次元画像に基づいて、当該二次元画像の画角の外の物体や風景が補われた、当該二次元画像よりも画角が広い画像が生成される。

以下、学習済の機械学習モデルを用いた画像の生成について図５を参照しながら説明する。

まず、一般的なカメラで撮影される画像などといった二次元画像が学習済のセマンティックセグメンテーション実行部２０に入力される。以下、このようにして入力される画像をターゲット入力画像４８と呼ぶこととする。ターゲット入力画像４８は、ＳＤＲの画像であってもよい。そして当該ターゲット入力画像４８の入力に応じたセマンティックセグメンテーション実行部２０の出力、すなわちセマンティックセグメンテーションの実行結果である結果データ５０が特定される。

そして入力データ生成部３８が、当該ターゲット入力画像４８と当該結果データ５０とが結合されたターゲット入力データ５２を生成する。

そして当該ターゲット入力データ５２が学習済の広画角画像生成部２８に入力される。そして広画角画像生成部２８が、当該ターゲット入力データ５２に応じた画像を生成して出力する。ここで生成される画像は、例えば、ターゲット入力画像４８の画角の外の物体や風景が補われた、当該ターゲット入力画像４８よりも画角が広い画像である。以下、生成される画像をターゲット広画角画像５４と呼ぶこととする。ターゲット広画角画像５４は、ＨＤＲの画像であってもよい。そして広画角画像生成部２８が、生成されたターゲット広画角画像５４を出力する。

本実施形態では以上のようにして、第２学習（広画角画像生成部２８の学習）とは別に第１学習（セマンティックセグメンテーション実行部２０の学習）が実行される。そして広画角画像生成部２８に、ターゲット入力画像４８と当該ターゲット入力画像４８の入力に応じた学習済のセマンティックセグメンテーション実行部２０の出力との組合せであるターゲット入力データ５２が入力される。ターゲット入力データ５２は、ターゲット入力画像４８よりもチャネル数が多いデータである。そして広画角画像生成部２８において当該ターゲット入力データ５２に基づいてターゲット入力画像４８の画角の外の環境が推定される。そして当該推定の結果が反映されたターゲット広画角画像５４が出力される。

このようにして本実施形態によれば、ターゲット入力画像４８のみからターゲット入力画像４８の画角の外の環境を推定する場合よりもターゲット入力画像４８の画角の外の環境の推定精度を向上できることとなる。例えば本実施形態に係る画像処理装置１０で生成されるターゲット広画角画像５４に基づいて、イメージベースドライトニング（ＩＢＲ）における光源が設定されてもよい。なおもちろん、本実施形態に係る画像処理装置１０で生成されるターゲット広画角画像５４の用途はＩＢＲには限定されない。

以下、本実施形態に係る画像処理装置１０の機能、及び、画像処理装置１０で実行される処理についてさらに説明する。

図６は、本実施形態に係る画像処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置１０で、図６に示す機能のすべてが実装される必要はなく、また、図６に示す機能以外の機能が実装されていても構わない。

図６に示すように、本実施形態に係る画像処理装置１０には、機能的には例えば、セマンティックセグメンテーション実行部２０、広画角画像生成部２８、ドメイン識別部３０、入力データ生成部３８、第１学習データ取得部６０、第１学習部６２、第２学習データ取得部６４、第２学習部６６、ターゲット入力画像取得部６８、ターゲット広画角画像取得部７０、が含まれる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。

本実施形態に係る画像処理装置１０は、画像処理装置１０に実装されている機械学習モデルの学習を実行する学習装置としての役割も学習済の機械学習モデルを用いた画像の生成を実行する画像生成装置としての役割も担っている。図６の例では、セマンティックセグメンテーション実行部２０、広画角画像生成部２８、ドメイン識別部３０、入力データ生成部３８、第１学習データ取得部６０、第１学習部６２、第２学習データ取得部６４、及び、第２学習部６６が、学習装置としての役割に相当する。また、セマンティックセグメンテーション実行部２０、広画角画像生成部２８、ドメイン識別部３０、入力データ生成部３８、ターゲット入力画像取得部６８、及び、ターゲット広画角画像取得部７０が、画像生成装置としての役割に相当する。

以上の機能は、コンピュータである画像処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置１０に供給されてもよい。

セマンティックセグメンテーション実行部２０は、上述のように本実施形態では例えば、画像の入力に応じて、当該画像に対するセマンティックセグメンテーションの実行結果を出力する。

広画角画像生成部２８は、上述のように本実施形態では例えば、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて、当該画像よりも画角が広い画像を生成する。また広画角画像生成部２８は、上述のように本実施形態では例えば、生成された画像を出力する。

ドメイン識別部３０は、上述のように本実施形態では例えば、ドメイン識別部３０に入力される画像が広画角画像生成部２８により生成された画像であるか否かの識別結果を出力する。

入力データ生成部３８は、本実施形態では例えば、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合した入力データを生成する。入力データ生成部３８は、例えば、上述の学習入力データ４０やターゲット入力データ５２を生成する。

第１学習データ取得部６０は、本実施形態では例えば、第１学習入力画像２２と教師データ２４との組合せを含む上述の第１学習データを取得する。

第１学習部６２は、本実施形態では例えば、第１学習データ取得部６０が取得する第１学習データを用いて第１学習を実行する。

第２学習データ取得部６４は、本実施形態では例えば、第２学習入力画像３２と、学習広画角画像３４と、を含む、上述の第２学習データを取得する。学習広画角画像３４は、上述のように例えば、学習入力データ４０の入力に応じて広画角画像生成部２８が生成する画像とは異なる、当該第２学習入力画像３２よりも画角が広い画像である。

第２学習部６６は、本実施形態では例えば、第２学習データ取得部６４が取得する第２学習データを用いて第２学習を実行する。また第２学習部６６は、本実施形態では例えば、第２学習入力画像３２に対するセマンティックセグメンテーションの実行結果を示す結果データ３６を取得する。また第２学習部６６は、本実施形態では例えば、入力データ生成部３８が生成する学習入力データ４０を入力として用いることで広画角画像生成部２８の学習を実行する。

また第２学習部６６は、本実施形態では例えば、第２学習データに含まれる第２学習入力画像３２と結果データ３６とが結合された学習入力データ４０の入力に応じて広画角画像生成部２８が生成する生成広画角画像４２を取得する。また第２学習部６６は、本実施形態では例えば、当該生成広画角画像４２と、当該第２学習データに含まれる学習広画角画像３４と、に基づいて、広画角画像生成部２８の学習を実行する。

ターゲット入力画像取得部６８は、本実施形態では例えば、学習済の広画角画像生成部２８に入力される、上述のターゲット入力画像４８を取得する。

ターゲット広画角画像取得部７０は、本実施形態では例えば、上述したようにターゲット入力画像４８に基づいて生成されるターゲット入力データ５２の入力に応じて広画角画像生成部２８が生成して出力するターゲット広画角画像５４を取得する。

ここで、本実施形態に係る画像処理装置１０で行われるセマンティックセグメンテーション実行部２０、広画角画像生成部２８、及び、ドメイン識別部３０の学習処理の流れの一例を、図７に例示するフロー図を参照しながら説明する。図７に示す処理例は、図３を参照して説明した内容に相当する。

まず、第１学習データ取得部６０が、複数の第１学習データを取得する（Ｓ１０１）。

そして、第１学習部６２が、Ｓ１０１に示す処理で取得した複数の第１学習データを用いて第１学習を実行する（Ｓ１０２）。

そして、第２学習データ取得部６４が、複数の第２学習データを取得する（Ｓ１０３）。ここでは例えば、ｍ×２ｎ（ｍ，ｎは整数）個の第２学習データが取得されることとする。また、ｍ×２ｎ個の第２学習データは、２ｎ個ずつのデータ群に分割されていることとする。以下、ｉ（１≦ｉ≦ｍ）番目のデータ群を第ｉデータ群と呼ぶこととする。

そして、第２学習部６６が、変数ｉの値に１を設定する（Ｓ１０４）。

そして、第２学習部６６が、第ｉデータ群に含まれるｎ個の第２学習データを用いて、広画角画像生成部２８についての第２学習を実行する（Ｓ１０５）。Ｓ１０５に示す処理では、ドメイン識別部３０のパラメータの値が固定された状態で、広画角画像生成部２８のパラメータの値が更新される。

そして、第２学習部６６が、第ｉデータ群に含まれる、Ｓ１０５に示す処理で用いられていない残りのｎ個の第２学習データを用いて、ドメイン識別部３０についての第２学習を実行する（Ｓ１０６）。Ｓ１０６に示す処理では、広画角画像生成部２８のパラメータの値が固定された状態で、ドメイン識別部３０のパラメータの値が更新される。

そして、第２学習部６６は、変数ｉの値がｍであるか否かを確認する（Ｓ１０７）。値がｍでない場合は（Ｓ１０７：Ｎ）、第２学習部６６は、変数ｉの値を１増加させて（Ｓ１０８）、Ｓ１０５に示す処理に戻る。値がｍである場合は（Ｓ１０７：Ｙ）、本処理例に示す処理を終了する。

ここで、本実施形態に係る画像処理装置１０で行われるセマンティックセグメンテーション実行部２０、広画角画像生成部２８、及び、ドメイン識別部３０の学習処理の流れの別の一例を、図８に例示するフロー図を参照しながら説明する。図８に示す処理例は、図４を参照して説明した内容に相当する。

まず、第１学習データ取得部６０が、複数の第１学習データを取得する（Ｓ２０１）。

そして、第１学習部６２が、Ｓ２０１に示す処理で取得する複数の第１学習データを用いて第１学習を実行する（Ｓ２０２）。

そして、第２学習データ取得部６４が、複数の第２学習データを取得する（Ｓ２０３）。

そして、第２学習部６６が、Ｓ２０３に示す処理で取得された複数の学習データを用いて、第２学習を実行して（Ｓ２０４）、本処理例に示す処理を終了する。

次に、本実施形態に係る画像処理装置１０で行われる、ターゲット広画角画像５４の生成処理の流れの一例を、図９に例示するフロー図を参照しながら説明する。

まず、ターゲット入力画像取得部６８が、ターゲット入力画像４８を取得する（Ｓ３０１）。

そして、ターゲット入力画像取得部６８が、Ｓ３０１に示す処理で取得されたターゲット入力画像４８をセマンティックセグメンテーション実行部２０に入力する（Ｓ３０２）。

そして、セマンティックセグメンテーション実行部２０が、Ｓ３０２に示す処理で入力されたターゲット入力画像４８に応じた結果データ５０を生成して、当該結果データ５０を出力する（Ｓ３０３）。

そして、入力データ生成部３８が、Ｓ３０１に示す処理で取得されたターゲット入力画像４８と、Ｓ３０３に示す処理で出力された結果データ５０と、を取得する。そして入力データ生成部３８が、取得したターゲット入力画像４８と結果データ５０とを結合することによって、ターゲット入力データ５２を生成する。そして、入力データ生成部３８が、当該ターゲット入力データ５２を出力する（Ｓ３０４）。

そして、入力データ生成部３８は、Ｓ３０４に示す処理で生成されたターゲット入力データ５２を広画角画像生成部２８に入力する（Ｓ３０５）。

そして、広画角画像生成部２８は、Ｓ３０５に示す処理で入力されたターゲット入力データ５２に応じたターゲット広画角画像５４を生成して、当該ターゲット広画角画像５４を出力する（Ｓ３０６）。

そして、ターゲット広画角画像取得部７０が、Ｓ３０６に示す処理で出力されたターゲット広画角画像５４を取得して（Ｓ３０７）、本処理例に示す処理を終了する。

［第２実施形態］
以下、本発明の別の一実施形態である第２実施形態について図面に基づき詳細に説明する。

本実施形態に係る画像処理装置１１０は、図１に示す画像処理装置１０と同様に、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータであり、例えば、図１に示すものと同様のプロセッサ、記憶部、操作部、表示部を含んでいる。

本実施形態に係る画像処理装置１１０には学習済の機械学習モデルが実装される。そして本実施形態では、ハイパースペクトルカメラでハイパースペクトルデータが撮影される。そして当該機械学習モデルを用いて、当該ハイパースペクトルデータに基づいて、当該ハイパースペクトルデータよりも画角が広い画像（当該ハイパースペクトルデータを撮影したハイパースペクトルカメラよりも画角が広い画像）が生成される。ここで例えば、全天周画像や半天周画像などが生成されてもよい。また例えば、パノラマ画像が生成されてもよい。

以下、本実施形態に係る画像処理装置１１０に実装されている機械学習モデルの学習の一例について説明する。

本実施形態では、図１０に示すように、広画角画像生成部１２８の学習が実行される。ここで広画角画像生成部１２８の学習に用いられる学習データを第３学習データと呼ぶこととする。

以下、ＧＡＮの技術を用いて、広画角画像生成部１２８の学習だけではなくドメイン識別部１３０の学習も併せて実行される学習の一例について説明する。

広画角画像生成部１２８は、例えば、ＣＮＮにより実装された機械学習モデルである。広画角画像生成部１２８には、例えば、ハイパースペクトルデータが入力される。

そして広画角画像生成部１２８は、例えば入力されるハイパースペクトルデータに含まれる画像の画角の外の物体や風景などといった当該画像の画角の外の環境を推定する。そして広画角画像生成部１２８は例えば、当該推定の結果が反映された、入力されるハイパースペクトルデータよりも画角が広い画像を生成する。例えば入力されるデータに含まれる画像が室内の画像であることが推定された際に、天井の画像が補完された画像が生成されてもよい。また例えば、入力されるデータに含まれる画像が室外の画像であることが推定された際に、空の画像が補完された画像が生成されてもよい。ここで例えば、全天周画像や半天周画像が生成されてもよい。また例えば、パノラマ画像が生成されてもよい。また生成される画像は、ＨＤＲの画像であってもよい。そして広画角画像生成部１２８は、生成された画像を出力する。

ドメイン識別部１３０は、例えば、ＣＮＮにより実装された機械学習モデルである。ドメイン識別部１３０には、例えば、広画角画像生成部１２８により生成された画像、又は、広画角画像生成部１２８では生成された画像とは異なる画像のいずれかが入力される。そしてドメイン識別部１３０は、例えば、ドメイン識別部１３０に入力される画像が広画角画像生成部１２８により生成された画像であるか否かの識別結果を出力する。ここでドメイン識別部１３０が、ドメイン識別部１３０に入力された画像が広画角画像生成部１２８により生成された画像である可能性の高さを示すデータを出力してもよい。

第３学習データには、学習ハイパースペクトルデータ１３２と、学習広画角画像１３４と、が含まれている。

第３学習データに含まれる学習ハイパースペクトルデータ１３２は、例えば、広画角画像生成部１２８に入力されるハイパースペクトルデータである。

第３学習データに含まれる学習広画角画像１３４は、例えば、広画角画像生成部１２８により生成された画像ではない、全天周カメラで撮影された全天周画像や半天周カメラで撮影された半天周画像などの広画角画像である。なお学習広画角画像１３４は、パノラマカメラで撮影されたパノラマ画像であってもよい。また、学習広画角画像１３４は、ＨＤＲの画像であってもよい。

また、第３学習データに含まれる学習広画角画像１３４として、当該第３学習データに含まれる学習ハイパースペクトルデータ１３２に対応付けられる画像が用いられてもよい。第３学習データに含まれる学習広画角画像１３４は、例えば、当該第３学習データに含まれる学習ハイパースペクトルデータ１３２と同じ位置で撮影された画像であってもよい。

本実施形態に係る学習において、まず、学習ハイパースペクトルデータ１３２が広画角画像生成部１２８に入力される。すると広画角画像生成部１２８は、当該学習ハイパースペクトルデータ１３２の入力に応じて、当該学習ハイパースペクトルデータ１３２よりも画角が広い画像を生成する。このようにして生成される画像を生成広画角画像１４２と呼ぶこととする。

そしてドメイン識別部１３０に、第３学習データに含まれる学習ハイパースペクトルデータ１３２に基づいて生成された生成広画角画像１４２、又は、第３学習データに含まれる学習広画角画像１３４のいずれかが入力される。

そしてドメイン識別部１３０は、例えば、ドメイン識別部１３０に入力された画像が生成広画角画像１４２である可能性の高さを示す生成可能性データ１４４を出力する。そして当該生成可能性データ１４４と、ドメイン識別部１３０に入力された画像が生成広画角画像１４２であるか学習広画角画像１３４であるかを示すドメイン識別データ１４６との誤差（比較結果）が特定される。

ここで例えばドメイン識別データ１４６の値として、生成広画角画像１４２又は学習広画角画像１３４のいずれかに対応付けられる値が設定されてもよい。

例えば生成可能性データ１４４が０以上１以下の値をとるデータであってもよい。この場合、ドメイン識別データ１４６は例えば、ドメイン識別部１３０に入力された画像が生成広画角画像１４２である場合に値として１をとり学習広画角画像１３４である場合に値として０をとるデータであってもよい。

また生成可能性データ１４４及びドメイン識別データ１４６が例えば２個の要素を含むベクトルとして表現されてもよい。例えば、生成可能性データ１４４の第１の要素の値がドメイン識別部１３０に入力された画像が生成広画角画像１４２である可能性の高さを示す値であってもよい。そして生成可能性データ１４４の第２の要素の値がドメイン識別部１３０に入力された画像が学習広画角画像１３４である可能性の高さを示す値であってもよい。この場合、生成広画角画像１４２に対応付けられるドメイン識別データ１４６の値が二次元ベクトル（１，０）で表現され、学習広画角画像１３４に対応付けられるドメイン識別データ１４６の値が二次元ベクトル（０，１）で表現されてもよい。

そして本実施形態では、生成可能性データ１４４とドメイン識別データ１４６との誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部１２８又はドメイン識別部１３０のいずれかのパラメータの値が更新される。

ここで本実施形態に係る学習において、所定数の第３学習データを用いた広画角画像生成部１２８のパラメータの値の更新と所定数の第３学習データを用いたドメイン識別部１３０のパラメータの値の更新とが、交互に繰り返し実行されてもよい。この場合、広画角画像生成部１２８のパラメータの値の更新の際には、ドメイン識別部１３０のパラメータの値が固定された状態で、広画角画像生成部１２８のパラメータの値が更新される。また、ドメイン識別部１３０のパラメータの値の更新の際には、広画角画像生成部１２８のパラメータの値が固定された状態で、ドメイン識別部１３０のパラメータの値が更新される。

以上のようにして、画像処理装置１１０に実装されている機械学習モデルが学習される。

なお本実施形態に係る学習の方法は上述のものに限定されない。例えば図１１に示すように、ＧＡＮの技術を用いずに、本実施形態に係る学習が実行されてもよい。図１１の例ではドメイン識別部１３０を用いずに広画角画像生成部１２８の学習が実行される。図１１に示す学習における第３学習データに含まれる学習広画角画像１３４は、当該第３学習データに含まれる学習ハイパースペクトルデータ１３２と同じ位置で撮影された画像などといった、当該第３学習データに含まれる学習ハイパースペクトルデータ１３２に対応付けられる画像である。

図１１に示す学習の例では、第３学習データに含まれる学習ハイパースペクトルデータ１３２に基づいて生成される生成広画角画像１４２と、当該第３学習データに含まれる学習広画角画像１３４との誤差（比較結果）が特定される。ここで例えば、平均絶対誤差（ＭＡＥ）、平均二乗誤差（ＭＳＥ）、平均平方二乗誤差（ＲＭＳＥ）が特定されてもよい。そして特定される誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部１２８のパラメータの値が更新される。

以上のようにして本実施形態では例えば、学習が実行された機械学習モデルを用いて、ハイパースペクトルデータに基づいて、当該ハイパースペクトルデータの画角の外の物体や風景が補われた、当該ハイパースペクトルデータよりも画角が広い画像が生成される。

以下、学習済の機械学習モデルを用いた画像の生成について図１２を参照しながら説明する。

まず、ハイパースペクトルカメラで撮影されるハイパースペクトルデータが学習済の広画角画像生成部１２８に入力される。以下、当該ハイパースペクトルデータをターゲットハイパースペクトルデータ１４８と呼ぶこととする。そして広画角画像生成部１２８が、当該ターゲットハイパースペクトルデータ１４８に応じた画像を生成して出力する。ここで生成される画像は、例えば、ターゲットハイパースペクトルデータ１４８の画角の外の物体や風景が補われた、当該ターゲットハイパースペクトルデータ１４８よりも画角が広い画像である。以下、生成される画像をターゲット広画角画像１５４と呼ぶこととする。ターゲット広画角画像１５４は、ＨＤＲの画像であってもよい。そして広画角画像生成部１２８が、生成されたターゲット広画角画像１５４を出力する。

本実施形態では以上のようにして、一般的なカメラにより撮影される二次元画像よりもチャネル数が多いターゲットハイパースペクトルデータ１４８が広画角画像生成部１２８に入力される。そして広画角画像生成部１２８において当該ターゲットハイパースペクトルデータ１４８に基づいてターゲットハイパースペクトルデータ１４８の画角の外の環境が推定される。そして当該推定の結果が反映されたターゲット広画角画像１５４が出力される。

このようにして本実施形態によれば、一般的なカメラにより撮影される画像に基づいて当該画像の画角の外の環境を推定する場合よりも画像の画角の外の環境の推定精度を向上できることとなる。例えば本実施形態に係る画像処理装置１１０で生成されるターゲット広画角画像１５４に基づいて、イメージベースドライトニング（ＩＢＲ）における光源が設定されてもよい。なおもちろん、本実施形態に係る画像処理装置１１０で生成されるターゲット広画角画像５４の用途はＩＢＲには限定されない。

以下、本実施形態に係る画像処理装置１１０の機能についてさらに説明する。

図１３は、本実施形態に係る画像処理装置１１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置１１０で、図１３に示す機能のすべてが実装される必要はなく、また、図１３に示す機能以外の機能が実装されていても構わない。

図１３に示すように、本実施形態に係る画像処理装置１１０には、機能的には例えば、広画角画像生成部１２８、ドメイン識別部１３０、学習データ取得部１６４、学習部１６６、ターゲットハイパースペクトルデータ取得部１６８、ターゲット広画角画像取得部１７０、が含まれる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。

以上の機能は、コンピュータである画像処理装置１１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置１１０に供給されてもよい。

広画角画像生成部１２８は、上述のように本実施形態では例えば、ハイパースペクトルデータの入力に応じて、当該ハイパースペクトルデータよりも画角が広い画像を生成する。また広画角画像生成部１２８は、上述のように本実施形態では例えば、生成された画像を出力する。

ドメイン識別部１３０は、上述のように本実施形態では例えば、ドメイン識別部１３０に入力される画像が広画角画像生成部１２８により生成された画像であるか否かの識別結果を出力する。

学習データ取得部１６４は、本実施形態では例えば、上述の第３学習データを取得する。

学習部１６６は、本実施形態では例えば、学習データ取得部１６４が取得する第３学習データを用いて本実施形態に係る学習を実行する。

ターゲットハイパースペクトルデータ取得部１６８は、本実施形態では例えば、上述のターゲットハイパースペクトルデータ１４８を取得する。

ターゲット広画角画像取得部１７０は、本実施形態では例えば、上述したようにターゲットハイパースペクトルデータ１４８の入力に応じて広画角画像生成部１２８が生成して出力するターゲット広画角画像１５４を取得する。

なお、本発明は上述の実施形態に限定されるものではない。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

入力画像を取得する画像取得部と、
前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する結果データ取得部と、
前記入力画像と前記結果データとが結合された入力データを生成する入力データ生成部と、
画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行する学習部と、
を含むことを特徴とする学習装置。
前記画像取得部は、前記入力画像と前記結果データとが結合された前記入力データの入力に応じて前記画像生成部が生成する画像とは異なる、当該入力画像よりも画角が広い学習画像をさらに取得し、
前記学習部は、前記入力画像と前記結果データとが結合された前記入力データの入力に応じて前記画像生成部が生成する画像と、前記学習画像と、に基づいて、前記画像生成部の学習を実行する、
ことを特徴とする請求項１に記載の学習装置。
入力画像を取得する画像取得部と、
前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する結果データ取得部と、
前記入力画像と前記結果データとが結合された入力データを生成する入力データ生成部と、
前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成する画像生成部と、
を含むことを特徴とする画像生成装置。
入力画像を取得するステップと、
前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得するステップと、
前記入力画像と前記結果データとが結合された入力データを生成するステップと、
画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行するステップと、
を含むことを特徴とする学習方法。
入力画像を取得するステップと、
前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得するステップと、
前記入力画像と前記結果データとが結合された入力データを生成するステップと、
前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成するステップと、
を含むことを特徴とする画像生成方法。
入力画像を取得する手順、
前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する手順、
前記入力画像と前記結果データとが結合された入力データを生成する手順、
画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行する手順、
をコンピュータに実行させることを特徴とするプログラム。
入力画像を取得する手順、
前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する手順、
前記入力画像と前記結果データとが結合された入力データを生成する手順、
前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成する手順、
をコンピュータに実行させることを特徴とするプログラム。