JPWO2019224947A1 - 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム - Google Patents

学習装置、画像生成装置、学習方法、画像生成方法及びプログラム Download PDF

Info

Publication number
JPWO2019224947A1
JPWO2019224947A1 JP2020520935A JP2020520935A JPWO2019224947A1 JP WO2019224947 A1 JPWO2019224947 A1 JP WO2019224947A1 JP 2020520935 A JP2020520935 A JP 2020520935A JP 2020520935 A JP2020520935 A JP 2020520935A JP WO2019224947 A1 JPWO2019224947 A1 JP WO2019224947A1
Authority
JP
Japan
Prior art keywords
image
input
data
learning
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020520935A
Other languages
English (en)
Other versions
JP6892557B2 (ja
Inventor
大地 小野
大地 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2019224947A1 publication Critical patent/JPWO2019224947A1/ja
Application granted granted Critical
Publication of JP6892557B2 publication Critical patent/JP6892557B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

画像生成部に入力される画像の画角の外の環境の推定精度を向上できる学習装置、画像生成装置、学習方法、画像生成方法及びプログラムを提供する。第2学習データ取得部(64)は、入力画像を取得する。第2学習部(66)は、入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する。入力データ生成部(38)は、入力画像と結果データとが結合された入力データを生成する。第2学習部(66)は、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する広画角画像生成部(28)の学習を、入力データを入力として用いることで実行する。

Description

本発明は、学習装置、画像生成装置、学習方法、画像生成方法及びプログラムに関する。
実写の画像に基づいて設定される光源を用いて、リアルなコンピュータグラフィックス(CG)の画像やCGと実写の画像とを合成した画像を生成するイメージベースドライトニング(IBR)の技術が知られている。
生成される画像のリアリティを向上させるため、IBRにおいてはハイダイナミックレンジ(HDR)の360度画像などといった画角が広い画像に基づいて光源が設定されることが望ましい。しかし、画角が広い画像を得るためには全天周カメラや半天周カメラなどといった専用機材による撮影が必要であり、また、専門の知識も求められる。
そのため、撮影によってIBRに好適な画像を生成する代わりに、学習済の機械学習モデルなどによって実装された画像生成部を用いてIBRに好適な画像を生成することが行われている。この場合は例えば、一般的なカメラにより撮影される画像を画像生成部に入力することで、当該画像の画角の外の物体や風景などといった当該画像の画角の外の環境の推定結果が補われた、当該画像よりも画角が広い画像が生成される。
しかし上述のようにして画角が広い画像を生成する従来技術においては、入力される画像の画角の外の環境の推定精度が充分でなく、その結果、所望の画像が生成されないことがあった。
本発明は上記課題に鑑みてなされたものであって、その目的の1つは、画像生成部に入力される画像の画角の外の環境の推定精度を向上できる学習装置、画像生成装置、学習方法、画像生成方法及びプログラムを提供することにある。
上記課題を解決するために、本発明に係る学習装置は、入力画像を取得する画像取得部と、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する結果データ取得部と、前記入力画像と前記結果データとが結合された入力データを生成する入力データ生成部と、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行する学習部と、を含む。
本発明の一態様では、前記画像取得部は、前記入力画像と前記結果データとが結合された前記入力データの入力に応じて前記画像生成部が生成する画像とは異なる、当該入力画像よりも画角が広い学習画像をさらに取得し、前記学習部は、前記入力画像と前記結果データとが結合された前記入力データの入力に応じて前記画像生成部が生成する画像と、前記学習画像と、に基づいて、前記画像生成部の学習を実行する。
また、本発明に係る画像生成装置は、入力画像を取得する画像取得部と、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する結果データ取得部と、前記入力画像と前記結果データとが結合された入力データを生成する入力データ生成部と、前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成する画像生成部と、を含む。
また、本発明に係る学習方法は、入力画像を取得するステップと、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得するステップと、前記入力画像と前記結果データとが結合された入力データを生成するステップと、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行するステップと、を含む。
また、本発明に係る画像生成方法は、入力画像を取得するステップと、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得するステップと、前記入力画像と前記結果データとが結合された入力データを生成するステップと、前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成するステップと、を含む。
また、本発明に係るプログラムは、入力画像を取得する手順、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する手順、前記入力画像と前記結果データとが結合された入力データを生成する手順、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行する手順、をコンピュータに実行させる。
また、本発明に係る別のプログラムは、入力画像を取得する手順、前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する手順、前記入力画像と前記結果データとが結合された入力データを生成する手順、前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成する手順、をコンピュータに実行させる。
第1実施形態に係る画像処理装置の構成図である。 第1実施形態に係る第1学習の一例を示す図である。 第1実施形態に係る第2学習の一例を示す図である。 第1実施形態に係る第2学習の別の一例を示す図である。 第1実施形態に係る画像の生成の一例を示す図である。 第1実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。 第1実施形態に係る画像処理装置で行われる学習処理の流れの一例を示すフロー図である。 第1実施形態に係る画像処理装置で行われる学習処理の流れの別の一例を示すフロー図である。 第1実施形態に係る画像処理装置で行われるターゲット広画角画像の生成処理の流れの一例を示すフロー図である。 第2実施形態に係る学習の一例を示す図である。 第2実施形態に係る学習の別の一例を示す図である。 第2実施形態に係る画像の生成の一例を示す図である。 第2実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。
[第1実施形態]
以下、本発明の一実施形態である第1実施形態について図面に基づき詳細に説明する。
図1は、本実施形態に係る画像処理装置10の構成図である。本実施形態に係る画像処理装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図1に示すように、本実施形態に係る画像処理装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
プロセッサ12は、例えば画像処理装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
なお、画像処理装置10は、ネットワークボードなどの通信インタフェース、DVD−ROMやBlu−ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
本実施形態に係る画像処理装置10には学習済の機械学習モデルが実装される。そして当該機械学習モデルを用いて、一般的なカメラで撮影される画像などといった二次元画像に基づいて、当該二次元画像の画角の外の物体や風景が補われた、当該二次元画像よりも画角が広い画像が生成される。ここで例えば、全天周画像(360度画像)や半天周画像(180度画像)などが生成されてもよい。また例えば、パノラマ画像が生成されてもよい。
以下、本実施形態に係る画像処理装置10に実装されている機械学習モデルの学習の一例について説明する。
本実施形態に係る画像処理装置10に実装されている機械学習モデルの学習においては、まず、図2に示すように、セマンティックセグメンテーション実行部20の学習が実行される。ここでセマンティックセグメンテーション実行部20の学習に用いられる学習データを第1学習データと呼ぶこととする。また、以下、セマンティックセグメンテーション実行部20の学習を第1学習と呼ぶこととする。
セマンティックセグメンテーション実行部20は、例えば、畳み込みニューラルネットワーク(CNN)により実装された機械学習モデルである。セマンティックセグメンテーション実行部20は、例えば、画像の入力に応じて、当該画像に対するセマンティックセグメンテーションの実行結果を出力する。
第1学習データには、例えば、第1学習入力画像22と教師データ24との組合せが含まれる。
第1学習データに含まれる第1学習入力画像22は、例えば、第1学習においてセマンティックセグメンテーション実行部20に入力される画像である。第1学習入力画像22は、例えば、一般的なカメラで撮影される画像などといった二次元画像である。第1学習入力画像22は、スタンダードダイナミックレンジ(SDR)の画像であってもよい。
第1学習データに含まれる教師データ24は、例えば、当該第1学習データに含まれる第1学習入力画像22に含まれる画素単位で当該画素が表す物体に応じたカテゴリが表された画像である。教師データ24は、例えば、それぞれが認識結果である物体に応じたカテゴリに対応付けられる複数の領域に画素単位で分割された画像であってもよい。また教師データ24は、それぞれが物体に応じたカテゴリに対応付けられる複数の画像を含むデータであってもよい。そして当該画像に含まれる画素には、当該画素が当該画像に対応付けられる物体のカテゴリを表す確率を表す値が設定されていてもよい。
そして本実施形態では例えば、セマンティックセグメンテーション実行部20に第1学習入力画像22を入力した際の出力である結果データ26が特定される。結果データ26は、例えば、セマンティックセグメンテーション実行部20によるセマンティックセグメンテーションの実行結果に相当するデータである。ここで結果データ26は例えば、教師データ24と同様の、第1学習入力画像22に含まれる画素単位で当該画素が表す物体に応じたカテゴリが表された画像である。
そして本実施形態では例えば、第1学習データに含まれる第1学習入力画像22をセマンティックセグメンテーション実行部20に入力した際の出力である結果データ26と、当該第1学習データに含まれる教師データ24と、の誤差(比較結果)が特定される。ここで例えばソフトマックスエントロピー誤差が特定されてもよい。そして特定される誤差に基づいて、例えば誤差逆伝搬法により、セマンティックセグメンテーション実行部20のパラメータの値が更新される。
そして本実施形態では、複数の第1学習データを用いた第1学習が実行された後に、図3に示すように、広画角画像生成部28の学習が実行される。ここで広画角画像生成部28の学習に用いられる学習データを第2学習データと呼ぶこととする。また、以下、広画角画像生成部28の学習を第2学習と呼ぶこととする。
以下、GAN(Generative Adversarial Network)の技術を用いて、広画角画像生成部28の学習だけではなくドメイン識別部30の学習も併せて実行される第2学習の一例について説明する。
広画角画像生成部28は、例えば、CNNにより実装された機械学習モデルである。広画角画像生成部28には、例えば、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータが入力される。
そして広画角画像生成部28は、例えば入力されるデータに含まれる画像の画角の外の物体や風景などといった当該画像の画角の外の環境を推定する。そして広画角画像生成部28は例えば、当該推定の結果が反映された、入力されるデータに含まれる画像よりも画角が広い画像を生成する。例えば入力されるデータに含まれる画像が室内の画像であることが推定された際に、天井の画像が補完された画像が生成されてもよい。また例えば、入力されるデータに含まれる画像が室外の画像であることが推定された際に、空の画像が補完された画像が生成されてもよい。ここで例えば、全天周画像や半天周画像が生成されてもよい。また例えば、パノラマ画像が生成されてもよい。また生成される画像は、ハイダイナミックレンジ(HDR)の画像であってもよい。そして広画角画像生成部28は、生成された画像を出力する。
ドメイン識別部30は、例えば、CNNにより実装された機械学習モデルである。ドメイン識別部30には、例えば、広画角画像生成部28により生成された画像、又は、広画角画像生成部28では生成された画像とは異なる画像のいずれかが入力される。そしてドメイン識別部30は、例えば、ドメイン識別部30に入力される画像が広画角画像生成部28により生成された画像であるか否かの識別結果を出力する。ここでドメイン識別部30が、ドメイン識別部30に入力された画像が広画角画像生成部28により生成された画像である可能性の高さを示すデータを出力してもよい。
第2学習データには、第2学習入力画像32と、学習広画角画像34と、が含まれている。
第2学習データに含まれる第2学習入力画像32は、例えば、第1学習が実行されたセマンティックセグメンテーション実行部20に入力される画像である。第2学習入力画像32は、例えば、一般的なカメラで撮影される画像などといった二次元画像である。第2学習入力画像32は、SDRの画像であってもよい。なお、第2学習入力画像32として、第1学習入力画像22が流用されてもよい。まだ第1学習入力画像22とは異なる画像が第2学習入力画像32として用いられてもよい。
第2学習データに含まれる学習広画角画像34は、例えば、広画角画像生成部28により生成された画像ではない、全天周カメラで撮影された全天周画像や半天周カメラで撮影された半天周画像などの広画角画像である。なお学習広画角画像34は、パノラマカメラで撮影されたパノラマ画像であってもよい。また、学習広画角画像34は、HDRの画像であってもよい。
また、第2学習データに含まれる学習広画角画像34として、当該第2学習データに含まれる第2学習入力画像32に対応付けられる画像が用いられてもよい。第2学習データに含まれる学習広画角画像34は、例えば、当該第2学習データに含まれる第2学習入力画像32と同じ位置で撮影された画像であってもよい。
第2学習において、まず、第2学習データに含まれる第2学習入力画像32が学習済のセマンティックセグメンテーション実行部20に入力された際の出力、すなわちセマンティックセグメンテーションの実行結果である結果データ36が特定される。
そして入力データ生成部38が、第2学習入力画像32と結果データ36とが結合された学習入力データ40を生成する。ここで学習入力データ40は例えば、第2学習入力画像32と結果データ36とがチャネル方向に結合されたデータなどといった、第2学習入力画像32よりもチャネル数が多いデータである。例えば、学習入力データ40では、各画素について、第2学習入力画像32が表す画素値(RGB値)に加え、結果データ36における当該画素が表す物体に応じたカテゴリを示す値が設定されていてもよい。また、学習入力データ40では、各画素について、第2学習入力画像32が表す画素値(RGB値)に加え、複数の物体のそれぞれについての当該画素が当該物体を表す確率を表す値が設定されていてもよい。
そして学習入力データ40が広画角画像生成部28に入力される。すると広画角画像生成部28は、当該学習入力データ40の入力に応じて、当該学習入力データ40に含まれる第2学習入力画像32よりも画角が広い画像を生成する。このようにして生成される画像を生成広画角画像42と呼ぶこととする。
そしてドメイン識別部30に、第2学習データに含まれる第2学習入力画像32に基づいて生成された生成広画角画像42、又は、第2学習データに含まれる学習広画角画像34のいずれかが入力される。
そしてドメイン識別部30は、例えば、ドメイン識別部30に入力された画像が生成広画角画像42である可能性の高さを示す生成可能性データ44を出力する。そして当該生成可能性データ44と、ドメイン識別部30に入力された画像が生成広画角画像42であるか学習広画角画像34であるかを示すドメイン識別データ46との誤差(比較結果)が特定される。
ここで例えばドメイン識別データ46の値として、生成広画角画像42又は学習広画角画像34のいずれかに対応付けられる値が設定されてもよい。
例えば生成可能性データ44が0以上1以下の値をとるデータであってもよい。この場合、ドメイン識別データ46は例えば、ドメイン識別部30に入力された画像が生成広画角画像42である場合に値として1をとり学習広画角画像34である場合に値として0をとるデータであってもよい。
また生成可能性データ44及びドメイン識別データ46が例えば2個の要素を含むベクトルとして表現されてもよい。例えば、生成可能性データ44の第1の要素の値がドメイン識別部30に入力された画像が生成広画角画像42である可能性の高さを示す値であってもよい。そして生成可能性データ44の第2の要素の値がドメイン識別部30に入力された画像が学習広画角画像34である可能性の高さを示す値であってもよい。この場合、生成広画角画像42に対応付けられるドメイン識別データ46の値が二次元ベクトル(1,0)で表現され、学習広画角画像34に対応付けられるドメイン識別データ46の値が二次元ベクトル(0,1)で表現されてもよい。
そして本実施形態では、生成可能性データ44とドメイン識別データ46との誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部28又はドメイン識別部30のいずれかのパラメータの値が更新される。
ここで本実施形態に係る第2学習において、所定数の第2学習データを用いた広画角画像生成部28のパラメータの値の更新と所定数の第2学習データを用いたドメイン識別部30のパラメータの値の更新とが、交互に繰り返し実行されてもよい。この場合、広画角画像生成部28のパラメータの値の更新の際には、ドメイン識別部30のパラメータの値が固定された状態で、広画角画像生成部28のパラメータの値が更新される。また、ドメイン識別部30のパラメータの値の更新の際には、広画角画像生成部28のパラメータの値が固定された状態で、ドメイン識別部30のパラメータの値が更新される。
以上のようにして、画像処理装置10に実装されている機械学習モデルが学習される。
なお第2学習の方法は上述のものに限定されない。例えば図4に示すように、GANの技術を用いずに、第2学習が実行されてもよい。図4の例ではドメイン識別部30を用いずに広画角画像生成部28の学習が実行される。図4に示す第2学習における第2学習データに含まれる学習広画角画像34は、当該第2学習データに含まれる第2学習入力画像32と同じ位置から撮影された画像などといった、当該第2学習データに含まれる第2学習入力画像32に対応付けられる画像である。
図4に示す第2学習の例では、第2学習データに含まれる第2学習入力画像32に基づいて生成される生成広画角画像42と、当該第2学習データに含まれる学習広画角画像34との誤差(比較結果)が特定される。ここで例えば、平均絶対誤差(MAE)、平均二乗誤差(MSE)、平均平方二乗誤差(RMSE)が特定されてもよい。そして特定される誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部28のパラメータの値が更新される。
本実施形態では例えば、以上のようにして学習が実行された機械学習モデルを用いて、一般的なカメラで撮影される画像などといった二次元画像に基づいて、当該二次元画像の画角の外の物体や風景が補われた、当該二次元画像よりも画角が広い画像が生成される。
以下、学習済の機械学習モデルを用いた画像の生成について図5を参照しながら説明する。
まず、一般的なカメラで撮影される画像などといった二次元画像が学習済のセマンティックセグメンテーション実行部20に入力される。以下、このようにして入力される画像をターゲット入力画像48と呼ぶこととする。ターゲット入力画像48は、SDRの画像であってもよい。そして当該ターゲット入力画像48の入力に応じたセマンティックセグメンテーション実行部20の出力、すなわちセマンティックセグメンテーションの実行結果である結果データ50が特定される。
そして入力データ生成部38が、当該ターゲット入力画像48と当該結果データ50とが結合されたターゲット入力データ52を生成する。
そして当該ターゲット入力データ52が学習済の広画角画像生成部28に入力される。そして広画角画像生成部28が、当該ターゲット入力データ52に応じた画像を生成して出力する。ここで生成される画像は、例えば、ターゲット入力画像48の画角の外の物体や風景が補われた、当該ターゲット入力画像48よりも画角が広い画像である。以下、生成される画像をターゲット広画角画像54と呼ぶこととする。ターゲット広画角画像54は、HDRの画像であってもよい。そして広画角画像生成部28が、生成されたターゲット広画角画像54を出力する。
本実施形態では以上のようにして、第2学習(広画角画像生成部28の学習)とは別に第1学習(セマンティックセグメンテーション実行部20の学習)が実行される。そして広画角画像生成部28に、ターゲット入力画像48と当該ターゲット入力画像48の入力に応じた学習済のセマンティックセグメンテーション実行部20の出力との組合せであるターゲット入力データ52が入力される。ターゲット入力データ52は、ターゲット入力画像48よりもチャネル数が多いデータである。そして広画角画像生成部28において当該ターゲット入力データ52に基づいてターゲット入力画像48の画角の外の環境が推定される。そして当該推定の結果が反映されたターゲット広画角画像54が出力される。
このようにして本実施形態によれば、ターゲット入力画像48のみからターゲット入力画像48の画角の外の環境を推定する場合よりもターゲット入力画像48の画角の外の環境の推定精度を向上できることとなる。例えば本実施形態に係る画像処理装置10で生成されるターゲット広画角画像54に基づいて、イメージベースドライトニング(IBR)における光源が設定されてもよい。なおもちろん、本実施形態に係る画像処理装置10で生成されるターゲット広画角画像54の用途はIBRには限定されない。
以下、本実施形態に係る画像処理装置10の機能、及び、画像処理装置10で実行される処理についてさらに説明する。
図6は、本実施形態に係る画像処理装置10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置10で、図6に示す機能のすべてが実装される必要はなく、また、図6に示す機能以外の機能が実装されていても構わない。
図6に示すように、本実施形態に係る画像処理装置10には、機能的には例えば、セマンティックセグメンテーション実行部20、広画角画像生成部28、ドメイン識別部30、入力データ生成部38、第1学習データ取得部60、第1学習部62、第2学習データ取得部64、第2学習部66、ターゲット入力画像取得部68、ターゲット広画角画像取得部70、が含まれる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。
本実施形態に係る画像処理装置10は、画像処理装置10に実装されている機械学習モデルの学習を実行する学習装置としての役割も学習済の機械学習モデルを用いた画像の生成を実行する画像生成装置としての役割も担っている。図6の例では、セマンティックセグメンテーション実行部20、広画角画像生成部28、ドメイン識別部30、入力データ生成部38、第1学習データ取得部60、第1学習部62、第2学習データ取得部64、及び、第2学習部66が、学習装置としての役割に相当する。また、セマンティックセグメンテーション実行部20、広画角画像生成部28、ドメイン識別部30、入力データ生成部38、ターゲット入力画像取得部68、及び、ターゲット広画角画像取得部70が、画像生成装置としての役割に相当する。
以上の機能は、コンピュータである画像処理装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置10に供給されてもよい。
セマンティックセグメンテーション実行部20は、上述のように本実施形態では例えば、画像の入力に応じて、当該画像に対するセマンティックセグメンテーションの実行結果を出力する。
広画角画像生成部28は、上述のように本実施形態では例えば、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて、当該画像よりも画角が広い画像を生成する。また広画角画像生成部28は、上述のように本実施形態では例えば、生成された画像を出力する。
ドメイン識別部30は、上述のように本実施形態では例えば、ドメイン識別部30に入力される画像が広画角画像生成部28により生成された画像であるか否かの識別結果を出力する。
入力データ生成部38は、本実施形態では例えば、画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合した入力データを生成する。入力データ生成部38は、例えば、上述の学習入力データ40やターゲット入力データ52を生成する。
第1学習データ取得部60は、本実施形態では例えば、第1学習入力画像22と教師データ24との組合せを含む上述の第1学習データを取得する。
第1学習部62は、本実施形態では例えば、第1学習データ取得部60が取得する第1学習データを用いて第1学習を実行する。
第2学習データ取得部64は、本実施形態では例えば、第2学習入力画像32と、学習広画角画像34と、を含む、上述の第2学習データを取得する。学習広画角画像34は、上述のように例えば、学習入力データ40の入力に応じて広画角画像生成部28が生成する画像とは異なる、当該第2学習入力画像32よりも画角が広い画像である。
第2学習部66は、本実施形態では例えば、第2学習データ取得部64が取得する第2学習データを用いて第2学習を実行する。また第2学習部66は、本実施形態では例えば、第2学習入力画像32に対するセマンティックセグメンテーションの実行結果を示す結果データ36を取得する。また第2学習部66は、本実施形態では例えば、入力データ生成部38が生成する学習入力データ40を入力として用いることで広画角画像生成部28の学習を実行する。
また第2学習部66は、本実施形態では例えば、第2学習データに含まれる第2学習入力画像32と結果データ36とが結合された学習入力データ40の入力に応じて広画角画像生成部28が生成する生成広画角画像42を取得する。また第2学習部66は、本実施形態では例えば、当該生成広画角画像42と、当該第2学習データに含まれる学習広画角画像34と、に基づいて、広画角画像生成部28の学習を実行する。
ターゲット入力画像取得部68は、本実施形態では例えば、学習済の広画角画像生成部28に入力される、上述のターゲット入力画像48を取得する。
ターゲット広画角画像取得部70は、本実施形態では例えば、上述したようにターゲット入力画像48に基づいて生成されるターゲット入力データ52の入力に応じて広画角画像生成部28が生成して出力するターゲット広画角画像54を取得する。
ここで、本実施形態に係る画像処理装置10で行われるセマンティックセグメンテーション実行部20、広画角画像生成部28、及び、ドメイン識別部30の学習処理の流れの一例を、図7に例示するフロー図を参照しながら説明する。図7に示す処理例は、図3を参照して説明した内容に相当する。
まず、第1学習データ取得部60が、複数の第1学習データを取得する(S101)。
そして、第1学習部62が、S101に示す処理で取得した複数の第1学習データを用いて第1学習を実行する(S102)。
そして、第2学習データ取得部64が、複数の第2学習データを取得する(S103)。ここでは例えば、m×2n(m,nは整数)個の第2学習データが取得されることとする。また、m×2n個の第2学習データは、2n個ずつのデータ群に分割されていることとする。以下、i(1≦i≦m)番目のデータ群を第iデータ群と呼ぶこととする。
そして、第2学習部66が、変数iの値に1を設定する(S104)。
そして、第2学習部66が、第iデータ群に含まれるn個の第2学習データを用いて、広画角画像生成部28についての第2学習を実行する(S105)。S105に示す処理では、ドメイン識別部30のパラメータの値が固定された状態で、広画角画像生成部28のパラメータの値が更新される。
そして、第2学習部66が、第iデータ群に含まれる、S105に示す処理で用いられていない残りのn個の第2学習データを用いて、ドメイン識別部30についての第2学習を実行する(S106)。S106に示す処理では、広画角画像生成部28のパラメータの値が固定された状態で、ドメイン識別部30のパラメータの値が更新される。
そして、第2学習部66は、変数iの値がmであるか否かを確認する(S107)。値がmでない場合は(S107:N)、第2学習部66は、変数iの値を1増加させて(S108)、S105に示す処理に戻る。値がmである場合は(S107:Y)、本処理例に示す処理を終了する。
ここで、本実施形態に係る画像処理装置10で行われるセマンティックセグメンテーション実行部20、広画角画像生成部28、及び、ドメイン識別部30の学習処理の流れの別の一例を、図8に例示するフロー図を参照しながら説明する。図8に示す処理例は、図4を参照して説明した内容に相当する。
まず、第1学習データ取得部60が、複数の第1学習データを取得する(S201)。
そして、第1学習部62が、S201に示す処理で取得する複数の第1学習データを用いて第1学習を実行する(S202)。
そして、第2学習データ取得部64が、複数の第2学習データを取得する(S203)。
そして、第2学習部66が、S203に示す処理で取得された複数の学習データを用いて、第2学習を実行して(S204)、本処理例に示す処理を終了する。
次に、本実施形態に係る画像処理装置10で行われる、ターゲット広画角画像54の生成処理の流れの一例を、図9に例示するフロー図を参照しながら説明する。
まず、ターゲット入力画像取得部68が、ターゲット入力画像48を取得する(S301)。
そして、ターゲット入力画像取得部68が、S301に示す処理で取得されたターゲット入力画像48をセマンティックセグメンテーション実行部20に入力する(S302)。
そして、セマンティックセグメンテーション実行部20が、S302に示す処理で入力されたターゲット入力画像48に応じた結果データ50を生成して、当該結果データ50を出力する(S303)。
そして、入力データ生成部38が、S301に示す処理で取得されたターゲット入力画像48と、S303に示す処理で出力された結果データ50と、を取得する。そして入力データ生成部38が、取得したターゲット入力画像48と結果データ50とを結合することによって、ターゲット入力データ52を生成する。そして、入力データ生成部38が、当該ターゲット入力データ52を出力する(S304)。
そして、入力データ生成部38は、S304に示す処理で生成されたターゲット入力データ52を広画角画像生成部28に入力する(S305)。
そして、広画角画像生成部28は、S305に示す処理で入力されたターゲット入力データ52に応じたターゲット広画角画像54を生成して、当該ターゲット広画角画像54を出力する(S306)。
そして、ターゲット広画角画像取得部70が、S306に示す処理で出力されたターゲット広画角画像54を取得して(S307)、本処理例に示す処理を終了する。
[第2実施形態]
以下、本発明の別の一実施形態である第2実施形態について図面に基づき詳細に説明する。
本実施形態に係る画像処理装置110は、図1に示す画像処理装置10と同様に、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータであり、例えば、図1に示すものと同様のプロセッサ、記憶部、操作部、表示部を含んでいる。
本実施形態に係る画像処理装置110には学習済の機械学習モデルが実装される。そして本実施形態では、ハイパースペクトルカメラでハイパースペクトルデータが撮影される。そして当該機械学習モデルを用いて、当該ハイパースペクトルデータに基づいて、当該ハイパースペクトルデータよりも画角が広い画像(当該ハイパースペクトルデータを撮影したハイパースペクトルカメラよりも画角が広い画像)が生成される。ここで例えば、全天周画像や半天周画像などが生成されてもよい。また例えば、パノラマ画像が生成されてもよい。
以下、本実施形態に係る画像処理装置110に実装されている機械学習モデルの学習の一例について説明する。
本実施形態では、図10に示すように、広画角画像生成部128の学習が実行される。ここで広画角画像生成部128の学習に用いられる学習データを第3学習データと呼ぶこととする。
以下、GANの技術を用いて、広画角画像生成部128の学習だけではなくドメイン識別部130の学習も併せて実行される学習の一例について説明する。
広画角画像生成部128は、例えば、CNNにより実装された機械学習モデルである。広画角画像生成部128には、例えば、ハイパースペクトルデータが入力される。
そして広画角画像生成部128は、例えば入力されるハイパースペクトルデータに含まれる画像の画角の外の物体や風景などといった当該画像の画角の外の環境を推定する。そして広画角画像生成部128は例えば、当該推定の結果が反映された、入力されるハイパースペクトルデータよりも画角が広い画像を生成する。例えば入力されるデータに含まれる画像が室内の画像であることが推定された際に、天井の画像が補完された画像が生成されてもよい。また例えば、入力されるデータに含まれる画像が室外の画像であることが推定された際に、空の画像が補完された画像が生成されてもよい。ここで例えば、全天周画像や半天周画像が生成されてもよい。また例えば、パノラマ画像が生成されてもよい。また生成される画像は、HDRの画像であってもよい。そして広画角画像生成部128は、生成された画像を出力する。
ドメイン識別部130は、例えば、CNNにより実装された機械学習モデルである。ドメイン識別部130には、例えば、広画角画像生成部128により生成された画像、又は、広画角画像生成部128では生成された画像とは異なる画像のいずれかが入力される。そしてドメイン識別部130は、例えば、ドメイン識別部130に入力される画像が広画角画像生成部128により生成された画像であるか否かの識別結果を出力する。ここでドメイン識別部130が、ドメイン識別部130に入力された画像が広画角画像生成部128により生成された画像である可能性の高さを示すデータを出力してもよい。
第3学習データには、学習ハイパースペクトルデータ132と、学習広画角画像134と、が含まれている。
第3学習データに含まれる学習ハイパースペクトルデータ132は、例えば、広画角画像生成部128に入力されるハイパースペクトルデータである。
第3学習データに含まれる学習広画角画像134は、例えば、広画角画像生成部128により生成された画像ではない、全天周カメラで撮影された全天周画像や半天周カメラで撮影された半天周画像などの広画角画像である。なお学習広画角画像134は、パノラマカメラで撮影されたパノラマ画像であってもよい。また、学習広画角画像134は、HDRの画像であってもよい。
また、第3学習データに含まれる学習広画角画像134として、当該第3学習データに含まれる学習ハイパースペクトルデータ132に対応付けられる画像が用いられてもよい。第3学習データに含まれる学習広画角画像134は、例えば、当該第3学習データに含まれる学習ハイパースペクトルデータ132と同じ位置で撮影された画像であってもよい。
本実施形態に係る学習において、まず、学習ハイパースペクトルデータ132が広画角画像生成部128に入力される。すると広画角画像生成部128は、当該学習ハイパースペクトルデータ132の入力に応じて、当該学習ハイパースペクトルデータ132よりも画角が広い画像を生成する。このようにして生成される画像を生成広画角画像142と呼ぶこととする。
そしてドメイン識別部130に、第3学習データに含まれる学習ハイパースペクトルデータ132に基づいて生成された生成広画角画像142、又は、第3学習データに含まれる学習広画角画像134のいずれかが入力される。
そしてドメイン識別部130は、例えば、ドメイン識別部130に入力された画像が生成広画角画像142である可能性の高さを示す生成可能性データ144を出力する。そして当該生成可能性データ144と、ドメイン識別部130に入力された画像が生成広画角画像142であるか学習広画角画像134であるかを示すドメイン識別データ146との誤差(比較結果)が特定される。
ここで例えばドメイン識別データ146の値として、生成広画角画像142又は学習広画角画像134のいずれかに対応付けられる値が設定されてもよい。
例えば生成可能性データ144が0以上1以下の値をとるデータであってもよい。この場合、ドメイン識別データ146は例えば、ドメイン識別部130に入力された画像が生成広画角画像142である場合に値として1をとり学習広画角画像134である場合に値として0をとるデータであってもよい。
また生成可能性データ144及びドメイン識別データ146が例えば2個の要素を含むベクトルとして表現されてもよい。例えば、生成可能性データ144の第1の要素の値がドメイン識別部130に入力された画像が生成広画角画像142である可能性の高さを示す値であってもよい。そして生成可能性データ144の第2の要素の値がドメイン識別部130に入力された画像が学習広画角画像134である可能性の高さを示す値であってもよい。この場合、生成広画角画像142に対応付けられるドメイン識別データ146の値が二次元ベクトル(1,0)で表現され、学習広画角画像134に対応付けられるドメイン識別データ146の値が二次元ベクトル(0,1)で表現されてもよい。
そして本実施形態では、生成可能性データ144とドメイン識別データ146との誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部128又はドメイン識別部130のいずれかのパラメータの値が更新される。
ここで本実施形態に係る学習において、所定数の第3学習データを用いた広画角画像生成部128のパラメータの値の更新と所定数の第3学習データを用いたドメイン識別部130のパラメータの値の更新とが、交互に繰り返し実行されてもよい。この場合、広画角画像生成部128のパラメータの値の更新の際には、ドメイン識別部130のパラメータの値が固定された状態で、広画角画像生成部128のパラメータの値が更新される。また、ドメイン識別部130のパラメータの値の更新の際には、広画角画像生成部128のパラメータの値が固定された状態で、ドメイン識別部130のパラメータの値が更新される。
以上のようにして、画像処理装置110に実装されている機械学習モデルが学習される。
なお本実施形態に係る学習の方法は上述のものに限定されない。例えば図11に示すように、GANの技術を用いずに、本実施形態に係る学習が実行されてもよい。図11の例ではドメイン識別部130を用いずに広画角画像生成部128の学習が実行される。図11に示す学習における第3学習データに含まれる学習広画角画像134は、当該第3学習データに含まれる学習ハイパースペクトルデータ132と同じ位置で撮影された画像などといった、当該第3学習データに含まれる学習ハイパースペクトルデータ132に対応付けられる画像である。
図11に示す学習の例では、第3学習データに含まれる学習ハイパースペクトルデータ132に基づいて生成される生成広画角画像142と、当該第3学習データに含まれる学習広画角画像134との誤差(比較結果)が特定される。ここで例えば、平均絶対誤差(MAE)、平均二乗誤差(MSE)、平均平方二乗誤差(RMSE)が特定されてもよい。そして特定される誤差に基づいて、例えば誤差逆伝搬法により、広画角画像生成部128のパラメータの値が更新される。
以上のようにして本実施形態では例えば、学習が実行された機械学習モデルを用いて、ハイパースペクトルデータに基づいて、当該ハイパースペクトルデータの画角の外の物体や風景が補われた、当該ハイパースペクトルデータよりも画角が広い画像が生成される。
以下、学習済の機械学習モデルを用いた画像の生成について図12を参照しながら説明する。
まず、ハイパースペクトルカメラで撮影されるハイパースペクトルデータが学習済の広画角画像生成部128に入力される。以下、当該ハイパースペクトルデータをターゲットハイパースペクトルデータ148と呼ぶこととする。そして広画角画像生成部128が、当該ターゲットハイパースペクトルデータ148に応じた画像を生成して出力する。ここで生成される画像は、例えば、ターゲットハイパースペクトルデータ148の画角の外の物体や風景が補われた、当該ターゲットハイパースペクトルデータ148よりも画角が広い画像である。以下、生成される画像をターゲット広画角画像154と呼ぶこととする。ターゲット広画角画像154は、HDRの画像であってもよい。そして広画角画像生成部128が、生成されたターゲット広画角画像154を出力する。
本実施形態では以上のようにして、一般的なカメラにより撮影される二次元画像よりもチャネル数が多いターゲットハイパースペクトルデータ148が広画角画像生成部128に入力される。そして広画角画像生成部128において当該ターゲットハイパースペクトルデータ148に基づいてターゲットハイパースペクトルデータ148の画角の外の環境が推定される。そして当該推定の結果が反映されたターゲット広画角画像154が出力される。
このようにして本実施形態によれば、一般的なカメラにより撮影される画像に基づいて当該画像の画角の外の環境を推定する場合よりも画像の画角の外の環境の推定精度を向上できることとなる。例えば本実施形態に係る画像処理装置110で生成されるターゲット広画角画像154に基づいて、イメージベースドライトニング(IBR)における光源が設定されてもよい。なおもちろん、本実施形態に係る画像処理装置110で生成されるターゲット広画角画像54の用途はIBRには限定されない。
以下、本実施形態に係る画像処理装置110の機能についてさらに説明する。
図13は、本実施形態に係る画像処理装置110で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置110で、図13に示す機能のすべてが実装される必要はなく、また、図13に示す機能以外の機能が実装されていても構わない。
図13に示すように、本実施形態に係る画像処理装置110には、機能的には例えば、広画角画像生成部128、ドメイン識別部130、学習データ取得部164、学習部166、ターゲットハイパースペクトルデータ取得部168、ターゲット広画角画像取得部170、が含まれる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。
以上の機能は、コンピュータである画像処理装置110にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置110に供給されてもよい。
広画角画像生成部128は、上述のように本実施形態では例えば、ハイパースペクトルデータの入力に応じて、当該ハイパースペクトルデータよりも画角が広い画像を生成する。また広画角画像生成部128は、上述のように本実施形態では例えば、生成された画像を出力する。
ドメイン識別部130は、上述のように本実施形態では例えば、ドメイン識別部130に入力される画像が広画角画像生成部128により生成された画像であるか否かの識別結果を出力する。
学習データ取得部164は、本実施形態では例えば、上述の第3学習データを取得する。
学習部166は、本実施形態では例えば、学習データ取得部164が取得する第3学習データを用いて本実施形態に係る学習を実行する。
ターゲットハイパースペクトルデータ取得部168は、本実施形態では例えば、上述のターゲットハイパースペクトルデータ148を取得する。
ターゲット広画角画像取得部170は、本実施形態では例えば、上述したようにターゲットハイパースペクトルデータ148の入力に応じて広画角画像生成部128が生成して出力するターゲット広画角画像154を取得する。
なお、本発明は上述の実施形態に限定されるものではない。
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (7)

  1. 入力画像を取得する画像取得部と、
    前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する結果データ取得部と、
    前記入力画像と前記結果データとが結合された入力データを生成する入力データ生成部と、
    画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行する学習部と、
    を含むことを特徴とする学習装置。
  2. 前記画像取得部は、前記入力画像と前記結果データとが結合された前記入力データの入力に応じて前記画像生成部が生成する画像とは異なる、当該入力画像よりも画角が広い学習画像をさらに取得し、
    前記学習部は、前記入力画像と前記結果データとが結合された前記入力データの入力に応じて前記画像生成部が生成する画像と、前記学習画像と、に基づいて、前記画像生成部の学習を実行する、
    ことを特徴とする請求項1に記載の学習装置。
  3. 入力画像を取得する画像取得部と、
    前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する結果データ取得部と、
    前記入力画像と前記結果データとが結合された入力データを生成する入力データ生成部と、
    前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成する画像生成部と、
    を含むことを特徴とする画像生成装置。
  4. 入力画像を取得するステップと、
    前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得するステップと、
    前記入力画像と前記結果データとが結合された入力データを生成するステップと、
    画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行するステップと、
    を含むことを特徴とする学習方法。
  5. 入力画像を取得するステップと、
    前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得するステップと、
    前記入力画像と前記結果データとが結合された入力データを生成するステップと、
    前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成するステップと、
    を含むことを特徴とする画像生成方法。
  6. 入力画像を取得する手順、
    前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する手順、
    前記入力画像と前記結果データとが結合された入力データを生成する手順、
    画像と当該画像に対するセマンティックセグメンテーションの実行結果とを結合したデータの入力に応じて当該画像よりも画角が広い画像を生成する画像生成部の学習を、前記入力データを入力として用いることで実行する手順、
    をコンピュータに実行させることを特徴とするプログラム。
  7. 入力画像を取得する手順、
    前記入力画像に対するセマンティックセグメンテーションの実行結果を示す結果データを取得する手順、
    前記入力画像と前記結果データとが結合された入力データを生成する手順、
    前記入力データの入力に応じて前記入力画像よりも画角が広い画像を生成する手順、
    をコンピュータに実行させることを特徴とするプログラム。
JP2020520935A 2018-05-23 2018-05-23 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム Active JP6892557B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/019853 WO2019224947A1 (ja) 2018-05-23 2018-05-23 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2019224947A1 true JPWO2019224947A1 (ja) 2021-02-12
JP6892557B2 JP6892557B2 (ja) 2021-06-23

Family

ID=68615776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020520935A Active JP6892557B2 (ja) 2018-05-23 2018-05-23 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム

Country Status (3)

Country Link
US (1) US11900258B2 (ja)
JP (1) JP6892557B2 (ja)
WO (1) WO2019224947A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7375666B2 (ja) * 2020-04-20 2023-11-08 オムロン株式会社 推定装置、学習装置、教師データ作成装置、推定方法、学習方法、教師データ作成方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209396A (ja) * 2005-01-27 2006-08-10 Matsushita Electric Ind Co Ltd 画像変換方法、装置およびプログラム、並びに、サーバークライアントシステム
JP2011138314A (ja) * 2009-12-28 2011-07-14 Sharp Corp 画像処理装置
JP2016163971A (ja) * 2015-03-06 2016-09-08 株式会社沖データ 画像処理装置
JP2017162456A (ja) * 2016-03-11 2017-09-14 株式会社東芝 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング
JP2017204085A (ja) * 2016-05-10 2017-11-16 トヨタ自動車株式会社 画像認識システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11282287B2 (en) * 2012-02-24 2022-03-22 Matterport, Inc. Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications
US20140267587A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Panorama packet
US20150130799A1 (en) * 2013-11-12 2015-05-14 Fyusion, Inc. Analysis and manipulation of images and video for generation of surround views
JP2016057918A (ja) * 2014-09-10 2016-04-21 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
KR102288280B1 (ko) * 2014-11-05 2021-08-10 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치
US10360572B2 (en) * 2016-03-07 2019-07-23 Ricoh Company, Ltd. Image processing system, method and computer program product for evaluating level of interest based on direction of human action
US10282815B2 (en) * 2016-10-28 2019-05-07 Adobe Inc. Environmental map generation from a digital image
DE112017005807T5 (de) * 2016-11-17 2019-09-12 Sony Corporation Bildverarbeitungsvorrichtung und Bildverarbeitungsverfahren
US10430978B2 (en) * 2017-03-02 2019-10-01 Adobe Inc. Editing digital images utilizing a neural network with an in-network rendering layer
US10607329B2 (en) * 2017-03-13 2020-03-31 Adobe Inc. Illumination estimation from a single image
US10609286B2 (en) * 2017-06-13 2020-03-31 Adobe Inc. Extrapolating lighting conditions from a single digital image
JP7026456B2 (ja) * 2017-07-05 2022-02-28 キヤノン株式会社 画像処理装置、学習装置、フォーカス制御装置、露出制御装置、画像処理方法、学習方法、及びプログラム
US11144786B2 (en) * 2017-11-02 2021-10-12 Canon Kabushiki Kaisha Information processing apparatus, method for controlling information processing apparatus, and storage medium
JP7149707B2 (ja) * 2018-01-15 2022-10-07 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム、並びに、運転制御システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209396A (ja) * 2005-01-27 2006-08-10 Matsushita Electric Ind Co Ltd 画像変換方法、装置およびプログラム、並びに、サーバークライアントシステム
JP2011138314A (ja) * 2009-12-28 2011-07-14 Sharp Corp 画像処理装置
JP2016163971A (ja) * 2015-03-06 2016-09-08 株式会社沖データ 画像処理装置
JP2017162456A (ja) * 2016-03-11 2017-09-14 株式会社東芝 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング
JP2017204085A (ja) * 2016-05-10 2017-11-16 トヨタ自動車株式会社 画像認識システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林 隆伯、外2名: ""球面没入型ディスプレイにおける実写映像とCGの合成"", 日本バーチャルリアリティ学会第8回大会論文集, JPN6018023712, 30 September 2003 (2003-09-30), JP, pages 1 - 4, ISSN: 0004502596 *

Also Published As

Publication number Publication date
US20210158482A1 (en) 2021-05-27
US11900258B2 (en) 2024-02-13
JP6892557B2 (ja) 2021-06-23
WO2019224947A1 (ja) 2019-11-28

Similar Documents

Publication Publication Date Title
KR102107709B1 (ko) 공간 트랜스포머 모듈들
WO2020220968A1 (zh) 一种视频数据处理方法和相关装置
JP7051267B2 (ja) 画像検出方法、装置、電子設備、記憶媒体、及びプログラム
US9344690B2 (en) Image demosaicing
WO2015070668A1 (en) Image processing method and apparatus
US20210383199A1 (en) Object-Centric Learning with Slot Attention
WO2014187223A1 (en) Method and apparatus for identifying facial features
US12008167B2 (en) Action recognition method and device for target object, and electronic apparatus
CN113688907B (zh) 模型训练、视频处理方法,装置,设备以及存储介质
WO2023160513A1 (zh) 3d素材的渲染方法、装置、设备及存储介质
CN111179159A (zh) 消除视频中目标影像的方法、装置、电子设备及存储介质
CN107766803B (zh) 基于场景分割的视频人物装扮方法、装置及计算设备
JP6980913B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
CN109065001B (zh) 一种图像的降采样方法、装置、终端设备和介质
CN114663570A (zh) 贴图生成方法、装置、电子装置及可读存储介质
US20240161391A1 (en) Relightable neural radiance field model
JP6892557B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
CN108734712B (zh) 背景分割的方法、装置及计算机存储介质
CN115222859A (zh) 图像动画化
JPWO2018211602A1 (ja) 学習装置、推定装置、学習方法及びプログラム
CN113592875A (zh) 数据处理方法、图像处理方法、存储介质及计算设备
CN115272575B (zh) 图像生成方法及装置、存储介质和电子设备
JP6967150B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
CN116193216A (zh) 特效视频帧的生成方法、装置、电子设备及存储介质
CN111986083A (zh) 一种图像自动组合的方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210527

R150 Certificate of patent or registration of utility model

Ref document number: 6892557

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150