JPWO2018198233A1 - 学習装置、画像認識装置、学習方法及びプログラム - Google Patents

学習装置、画像認識装置、学習方法及びプログラム Download PDF

Info

Publication number
JPWO2018198233A1
JPWO2018198233A1 JP2019514953A JP2019514953A JPWO2018198233A1 JP WO2018198233 A1 JPWO2018198233 A1 JP WO2018198233A1 JP 2019514953 A JP2019514953 A JP 2019514953A JP 2019514953 A JP2019514953 A JP 2019514953A JP WO2018198233 A1 JPWO2018198233 A1 JP WO2018198233A1
Authority
JP
Japan
Prior art keywords
image
feature amount
intermediate feature
classifier
offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019514953A
Other languages
English (en)
Other versions
JP6722351B2 (ja
Inventor
大地 小野
大地 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2018198233A1 publication Critical patent/JPWO2018198233A1/ja
Application granted granted Critical
Publication of JP6722351B2 publication Critical patent/JP6722351B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

CG画像による学習が行われた分類器を用いた実写画像の画像認識精度を向上できる学習装置、画像認識装置、学習方法及びプログラムを提供する。中間特徴量特定部(44)は、中間特徴量を特定する。オフセット特徴量特定部(46)は、CG中間特徴量と実写中間特徴量とに基づいて、オフセット特徴量を特定する。オフセット後中間特徴量特定部(48)は、CG画像に対応付けられる中間特徴量とオフセット特徴量とに基づいて、当該CG画像に対応付けられるオフセット後中間特徴量を特定する。第2分類器学習部(50)は、CG画像に対応付けられるオフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第2分類器(40b)の学習を実行する。

Description

本発明は、学習装置、画像認識装置、学習方法及びプログラムに関する。
近年、機械学習の分野において、分類器を用いた実写画像の画像認識技術が注目されている。
分類器を用いた実写画像の画像認識技術の一つであるセマンティックセグメンテーションでは、入力された実写画像に含まれる画素単位で、その画素が表す物体などといった、その画素の意味が特定される。
また、分類器を用いた実写画像の画像認識技術の他の例として、入力された実写画像が何の画像であるかを特定する技術や、入力された実写画像内のどこに何が配置されているのかを特定する技術などが存在する。
セマンティックセグメンテーション等の、分類器を用いた実写画像の画像認識の精度を向上させるには、大量の実写画像を用いて分類器の学習を行う必要がある。しかし大量の実写画像を入手することは困難である。そこで実写画像の代わりにコンピュータグラフィックの技術で作成したCG画像を用いて分類器の学習を行うことが考えられる。
ところがCG画像と実写画像との間には、たとえCG画像が実写画像と同様のものであったとしても特徴量には差がある。そして特徴量の差のために、CG画像により学習が行われた分類器を用いた実写画像の画像認識精度の向上には限界があった。
本発明は上記課題に鑑みてなされたものであって、その目的の1つは、CG画像による学習が行われた分類器を用いた実写画像の画像認識精度を向上できる学習装置、画像認識装置、学習方法及びプログラムを提供することにある。
上記課題を解決するために、本発明に係る学習装置は、CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する中間特徴量特定部と、1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定するオフセット特徴量特定部と、CG画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該CG画像に対応付けられるオフセット後中間特徴量を特定するオフセット後中間特徴量特定部と、複数のCG画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第2分類器の学習を実行する学習部と、を含む。
本発明の一態様では、前記オフセット特徴量特定部は、複数のCG画像のそれぞれに対応付けられる前記中間特徴量の代表値と、複数の実写画像のそれぞれに対応付けられる前記中間特徴量の代表値と、に基づいて、前記オフセット特徴量を特定する。
また、本発明の一態様では、前記第1分類器は、CG画像の学習データと実写画像の学習データを用いた学習が行われた後の分類器である。
また、本発明に係る画像認識装置は、CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する中間特徴量特定部と、1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づくオフセット特徴量と、画像認識対象の実写画像に対応付けられる前記中間特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定するオフセット後中間特徴量特定部と、前記画像認識対象の実写画像に対応付けられる前記オフセット後中間特徴量を、複数のCG画像のそれぞれに対応付けられる前記中間特徴量を用いた学習が実行された第2分類器に入力データとして入力した場合における当該第2分類器の出力を当該実写画像の画像認識の結果として特定する画像認識実行部と、を含む。
また、本発明に係る学習方法は、CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定するステップと、1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定するステップと、CG画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該CG画像に対応付けられるオフセット後中間特徴量を特定するステップと、複数のCG画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第2分類器の学習を実行するステップと、を含む。
また、本発明に係る画像認識方法は、CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定するステップと、1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づくオフセット特徴量と、画像認識対象の実写画像に対応付けられる前記中間特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定するステップと、前記画像認識対象の実写画像に対応付けられる前記オフセット後中間特徴量を、複数のCG画像のそれぞれに対応付けられる前記中間特徴量を用いた学習が実行された第2分類器に入力データとして入力した場合における当該第2分類器の出力を当該実写画像の画像認識の結果として特定するステップと、を含む。
また、本発明に係るプログラムは、CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する手順、1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定する手順、CG画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該CG画像に対応付けられるオフセット後中間特徴量を特定する手順、複数のCG画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第2分類器の学習を実行する手順、をコンピュータに実行させる。
また、本発明に係る別のプログラムは、CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する手順、1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づくオフセット特徴量と、画像認識対象の実写画像に対応付けられる前記中間特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定する手順、前記画像認識対象の実写画像に対応付けられる前記オフセット後中間特徴量を、複数のCG画像のそれぞれに対応付けられる前記中間特徴量を用いた学習が実行された第2分類器に入力データとして入力した場合における当該第2分類器の出力を当該実写画像の画像認識の結果として特定する手順、をコンピュータに実行させる。
本発明の一実施形態に係る情報処理装置の構成図である。 実行結果画像の一例を示す図である。 本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。 第1分類器の一例を模式的に示す図である。 第2分類器の一例を模式的に示す図である。 本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。 本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。 本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。 本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。
以下、本発明の一実施形態について図面に基づき詳細に説明する。
図1は、本発明の一実施形態に係る情報処理装置10の構成図である。本実施形態に係る情報処理装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図1に示すように、本実施形態に係る情報処理装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
プロセッサ12は、例えば情報処理装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
なお、情報処理装置10は、ネットワークボードなどの通信インタフェース、DVD−ROMやBlu−ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
本実施形態に係る情報処理装置10には、畳み込みニューラルネットワークの分類器が実装されている。そして本実施形態に係る情報処理装置10では、実空間をカメラで撮影した画像である実写画像に対するセマンティックセグメンテーション等の画像認識処理が実行される。
図2は、実写画像に対するセマンティックセグメンテーションの実行結果の画像である実行結果画像20の一例を示す図である。図2に示すように、実行結果画像20は、それぞれが認識結果である物体に応じたカテゴリに対応付けられる複数の領域に画素単位で分割されている。
図2の例では、壁に対応付けられる壁領域22、机に対応付けられる机領域24、椅子に対応付けられる椅子領域26、床に対応付けられる床領域28、及び、カーテンに対応付けられるカーテン領域30が示されている。ここで壁領域22や椅子領域26のように、互いに分離された複数の領域が同じカテゴリの領域として認識されてもよい。
ここで各領域が、当該領域に対応付けられるカテゴリに応じた色で表現されてもよい。こうすれば、ユーザは実行結果画像20を表示部18に表示させることなどによって、それぞれの領域について、当該領域に対応するカテゴリを確認できる。
また例えば実行結果画像20が、自動車の自動運転制御などといった各種の制御における入力として用いられてもよい。
セマンティックセグメンテーション等の、分類器を用いた実写画像の画像認識の精度を向上させるには、大量の実写画像を用いて分類器の学習を行う必要がある。しかし大量の実写画像を入手することは困難である。
そこで本実施形態では、以下のようにして、実写画像の代わりにコンピュータグラフィックの技術で作成したCG画像を用いて分類器の学習を行うこととした。
以下、本実施形態に係る情報処理装置10の機能、及び、情報処理装置10で実行される処理についてさらに説明する。
図3は、本実施形態に係る情報処理装置10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置10で、図3に示す機能のすべてが実装される必要はなく、また、図3に示す機能以外の機能が実装されていても構わない。
図3に示すように、情報処理装置10は、機能的には例えば、第1分類器40a、第2分類器40b、第1分類器学習部42、中間特徴量特定部44、オフセット特徴量特定部46、オフセット後中間特徴量特定部48、第2分類器学習部50、画像認識実行部52、を含んでいる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。本実施形態に係る情報処理装置10は、分類器を用いた画像の学習を実行する学習装置としての役割も、学習済の分類器を用いた画像認識を実行する画像認識装置としての役割も担っている。
以上の機能は、コンピュータである情報処理装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して情報処理装置10に供給されてもよい。
第1分類器40aは、本実施形態では例えば、図4に模式的に示す、CG画像と実写画像とを分類する分類器である。第1分類器40aは、二値分類器であってもよい。また第1分類器40aは、例えば、畳み込み層、プーリング層、全結合層などを含む、畳み込みニューラルネットワークの分類器であってもよい。本実施形態に係る第1分類器40aは、1個の入力層60と、1個の出力層62と、n個の中間層64(64(1)、64(2)、・・・、64(n−2)、64(n−1)、64(n))と、を含んでいる。ここでnは1以上の整数である。なお図4には、5個の中間層64が図示されているが、中間層64の数は4個以下でも構わない。また図4には、入力層60への入力66、及び、出力層62からの出力68も示されている。また、図4には、中間層64(n)からの出力70も示されている。出力70については後述する。
第2分類器40bは、本実施形態では例えば、図5に模式的に示す、実写画像のセマンティックセグメンテーション等の画像認識を実行する分類器である。第2分類器40bは、例えば、畳み込み層、プーリング層、全結合層などを含む、畳み込みニューラルネットワークの分類器であってもよい。本実施形態に係る第2分類器40bは、1個の入力層72と、1個の出力層74と、m個の中間層76(76(1)、76(2)、・・・、76(m−2)、76(m−1)、76(m))と、を含んでいる。ここでmは1以上の整数である。また値mと上述の値nとは同じであっても異なっていてもよい。なお図5には、5個の中間層76が図示されているが、中間層76の数は4個以下でも構わない。また図5には、入力層72への入力78、及び、出力層74からの出力80も示されている。また、図5には、中間層76(m)への入力82も示されている。入力82については後述する。
本実施形態では、第1分類器40aに含まれる特定の1の中間層64の出力(図4の例では中間層64(n)の出力70)が第2分類器40bへの入力78として用いられる。ここで出力70は、畳込み層又はプーリング層の出力である画像(マップ)であってもよい。
以下、出力が第2分類器40bへの入力78として用いられる中間層64を、特定中間層64aと呼ぶこととする。図4の例では、中間層64(n)が特定中間層64aであることとなる。ここで中間層64(n)の代わりに、中間層64(n)よりも前の中間層64である中間層64(n−1)や中間層64(n−2)などが特定中間層64aであってもよい。この場合は、中間層64(n−1)や中間層64(n−2)などの出力が、第2分類器40bへの入力78として用いられることとなる。
第1分類器学習部42は、複数の画像を学習データとして用いた第1分類器40aの学習を実行する。ここで例えば、複数のCG画像の学習データ、及び、複数の実写画像の学習データを用いた学習が行われてもよい。
ここで学習データには、入力66として第1分類器40aに入力される入力データと、当該入力データが入力された際の出力68と比較される教師データと、が含まれていてもよい。このように教師データが含まれる学習データを用いた教師あり学習が行われるようにしてもよい。
ここでCG画像の入力データとは、CG画像に対して所定の前処理を行うことで生成されるデータなどを指す。また実写画像の入力データとは、実写画像に対して所定の前処理を行うことで生成されるデータなどを指す。なおCG画像の入力データと実写画像の入力データとが同等に扱えるような前処理が実行されるようにしてもよい。例えばCG画像の入力データと実写画像の入力データとが同じフォーマットのデータとして扱えるような前処理が実行されるようにしてもよい。
第1分類器学習部42による学習が実行されることにより、畳み込み層のフィルタの係数や全結合層における重みなどを示す、第1分類器40aのパラメータの値が適切な値に設定される。例えば誤差逆伝搬法などにより、学習データに含まれる入力データを入力66とした際の出力68と、当該学習データに含まれる教師データとの比較に基づく、第1分類器40aのパラメータの値の調整が行われる。
中間特徴量特定部44は、本実施形態では例えば、第1分類器40aに画像の入力データを入力した際の、上述の特定中間層64aの出力70を、当該画像に対応付けられる中間特徴量として特定する。ここで入力データが入力される第1分類器40aは、第1分類器学習部42によるCG画像の学習データと実写画像の学習データを用いた学習が行われた後の分類器(学習済の分類器)であってもよい。以下、CG画像に対応付けられる中間特徴量をCG中間特徴量と呼び、実写画像に対応付けられる中間特徴量を実写中間特徴量と呼ぶこととする。
オフセット特徴量特定部46は、1又は複数のCG画像のそれぞれに対応付けられるCG中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる実写中間特徴量と、に基づいて、オフセット特徴量を特定する。
ここで例えば、中間特徴量特定部44が、CG画像の入力データを学習済の第1分類器40aに入力した際における、特定中間層64aからの出力70である個別CG中間特徴量を特定してもよい。そして中間特徴量特定部44が、複数のCG画像について特定される個別CG中間特徴量に基づいて、CG中間特徴量を特定してもよい。例えば、複数のCG画像について特定される個別CG中間特徴量の平均値などといった代表値が、CG中間特徴量の値として特定されてもよい。なお1のCG画像について特定される個別CG中間特徴量がCG中間特徴量の値として特定されてもよい。
また例えば、中間特徴量特定部44が、実写画像の入力データを学習済の第1分類器40aに入力した際における、特定中間層64aからの出力70である個別実写中間特徴量を特定してもよい。そして中間特徴量特定部44が、複数の実写画像について特定される個別実写中間特徴量に基づいて、実写中間特徴量を特定してもよい。例えば、複数の実写画像について特定される個別実写中間特徴量の平均値などといった代表値が、実写中間特徴量の値として特定されてもよい。なお1の実写画像について特定される個別実写中間特徴量が、実写中間特徴量として特定されてもよい。
そしてオフセット特徴量特定部46は、上述のようにして特定されるCG中間特徴量と実写中間特徴量との差を、オフセット特徴量として特定してもよい。
ここで例えば、中間特徴量特定部44が、CG画像と実写画像との組合せについて、当該CG画像に対応付けられる個別CG中間特徴量と、当該実写画像に対応付けられる個別実写中間特徴量と、を特定してもよい。ここで当該組合せに含まれるCG画像と実写画像とは、互いに似た画像であってもよい。例えば当該組合せに含まれるCG画像と実写画像は、同じ物体を表す画像であってもよい。そしてオフセット特徴量特定部46は、当該個別CG中間特徴量と当該個別実写中間特徴量との差を、個別オフセット特徴量として特定してもよい。そして、複数のCG画像と実写画像との組合せのそれぞれについて特定される個別オフセット特徴量に基づいて、オフセット特徴量が特定されてもよい。例えば複数のCG画像と実写画像との組合せのそれぞれについて特定される個別オフセット特徴量の平均値などといった代表値が、オフセット特徴量として特定されてもよい。
オフセット後中間特徴量特定部48は、本実施形態では例えば、CG画像に対応付けられる中間特徴量と、オフセット特徴量と、に基づいて、当該CG画像に対応付けられるオフセット後中間特徴量を特定する。またオフセット後中間特徴量特定部48は、本実施形態では例えば、実写画像に対応付けられる中間特徴量と、オフセット特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定する。
ここで例えば、実写中間特徴量の値からCG中間特徴量の値を引いた値が、オフセット特徴量の値であることとする。この場合、CG画像の中間特徴量の値にオフセット特徴量の値を加算した値が、CG画像に対応付けられるオフセット後中間特徴量の値として算出されてもよい。また、実写画像の中間特徴量の値にオフセット特徴量の値を減算した値が、実写画像に対応付けられるオフセット後中間特徴量の値として算出されてもよい。
逆に例えば、CG中間特徴量の値から実写中間特徴量の値を引いた値が、オフセット特徴量の値であることとする。この場合、CG画像の中間特徴量の値にオフセット特徴量の値を減算した値が、CG画像に対応付けられるオフセット後中間特徴量の値として算出されてもよい。また、実写画像の中間特徴量の値にオフセット特徴量の値を加算した値が、実写画像に対応付けられるオフセット後中間特徴量の値として算出されてもよい。
以下、CG画像に対応付けられるオフセット後中間特徴量をオフセット後CG中間特徴量と呼ぶこととし、実写画像に対応付けられるオフセット後中間特徴量をオフセット後実写中間特徴量と呼ぶこととする。
ここでCG画像に対応付けられるオフセット後CG中間特徴量は、当該CG画像と同様な実写画像が存在することを仮定した場合における当該実写画像の実写中間特徴量に相当する。また、実写画像に対応付けられるオフセット後実写中間特徴量は、当該実写画像と同様なCG画像が存在することを仮定した場合における当該CG画像のCG中間特徴量に相当する。
第2分類器学習部50は、本実施形態では例えば、第2分類器40bの学習を実行する。ここで第2分類器学習部50は、CG画像に対応付けられるCG中間特徴量を学習データに含まれる入力データとして用いた、第2分類器40bの学習を実行してもよい。この場合、当該学習データは、CG画像に対応付けられるCG中間特徴量を入力データとして含み、当該CG画像に対応付けられる、図2に示す実行結果画像20のようなカテゴリによって領域が分割された画像を教師データとして含んでいてもよい。そして当該教師データが含まれる学習データを用いた教師あり学習が行われるようにしてもよい。
また第2分類器学習部50は、CG画像に対応付けられるオフセット後CG中間特徴量を学習データに含まれる入力データとして用いた、第2分類器40bの学習を実行してもよい。この場合、当該学習データは、CG画像に対応付けられるオフセット後CG中間特徴量を入力データとして含み、当該CG画像に対応付けられる、図2に示す実行結果画像20のようなカテゴリによって領域が分割された画像を教師データとして含んでいてもよい。そして当該教師データが含まれる学習データを用いた教師あり学習が行われるようにしてもよい。
本実施形態では例えば、第2分類器学習部50による第2分類器40bの学習の際に、空間情報を補間するためのデータが入力82として中間層76(m)に入力される。例えばCG画像の中間特徴量を学習データとして用いた第2分類器40bの学習の際に、当該CG画像の入力データが入力82として中間層76(m)に入力されてもよい。また例えば、CG画像のオフセット後中間特徴量を学習データとして用いた第2分類器40bの学習の際に、当該CG画像の入力データが入力82として中間層76(m)に入力されてもよい。
第2分類器学習部50による学習が実行されることにより、畳み込み層のフィルタの係数や全結合層における重みなどを示す、第2分類器40bのパラメータの値が適切な値に設定される。例えば、誤差逆伝搬法などにより、例えばCG画像に対応付けられるCG中間特徴量を入力78とした際の出力80と、当該CG画像に対応付けられる教師データとの比較に基づく、第2分類器40bのパラメータの値の調整が行われる。あるいは例えば、CG画像に対応付けられるオフセット後CG中間特徴量を入力78とした際の出力80と、当該CG画像に対応付けられる教師データとの比較に基づく、第2分類器40bのパラメータの値の調整が行われる。
画像認識実行部52は、本実施形態では例えば、セマンティックセグメンテーション等の画像認識処理を実行する。
本実施形態では例えば、画像認識実行部52による実写画像の画像認識の際に、空間情報を補間するためのデータが入力82として中間層76(m)に入力される。例えば実写画像の画像認識の際に、当該実写画像の入力データが入力82として中間層76(m)に入力されてもよい。
例えば、第2分類器学習部50が、複数のCG画像のそれぞれに対応付けられるオフセット後CG中間特徴量を学習データに含まれる入力データとして用いた第2分類器40bの学習を実行したとする。
この場合は、第2分類器40bは、CG画像に対応付けられるオフセット後CG中間特徴量による学習が実行されている。すなわち第2分類器40bは、当該CG画像と同様な実写画像が存在することを仮定した場合における当該実写画像の実写中間特徴量に相当するオフセット後CG中間特徴量によって学習が実行されている。よってこの場合は、入力78は実写画像に相当するものであることが望ましい。そのためこの場合は、本実施形態では、画像認識実行部52は、画像認識対象の実写画像に対応付けられる実写中間特徴量を入力78として第2分類器40bに入力する。
そしてこの場合は、画像認識実行部52は、画像認識対象の実写画像に対応付けられる実写中間特徴量が第2分類器40bに入力された場合における第2分類器40bの出力80を当該実写画像の画像認識の結果として特定する。
また例えば、第2分類器学習部50が、複数のCG画像のそれぞれに対応付けられるCG中間特徴量を学習データに含まれる入力データとして用いた第2分類器40bの学習を実行したとする。
この場合は、第2分類器40bは、CG中間特徴量による学習が実行されているので、入力78はCG画像に相当するものであることが望ましい。そのためこの場合は、本実施形態では、画像認識実行部52が、画像認識対象の実写画像に対応付けられるオフセット後実写中間特徴量を入力78として第2分類器40bに入力する。上述のように当該オフセット後実写中間特徴量は、画像認識対象の実写画像と同様なCG画像が存在することを仮定した場合における当該CG画像のCG中間特徴量に相当する。
そしてこの場合は、画像認識実行部52は、画像認識対象の実写画像に対応付けられるオフセット後実写中間特徴量を学習済の第2分類器40bに入力データとして入力した場合における第2分類器40bの出力80を当該実写画像の画像認識の結果として特定する。
なお、第2分類器学習部50による第2分類器40bの学習や画像認識実行部52による実写画像の画像認識の際に、空間情報を補間するためのデータが入力82として中間層76(m)に入力される必要はない。空間情報を補間するためのデータは、中間層76(m)以外の中間層76に入力されてもよい。
ここで、本実施形態に係る情報処理装置10で行われる、第2分類器40bの学習処理の流れの一例を、図6に例示するフロー図を参照しながら説明する。図6には、オフセット後CG中間特徴量を用いた第2分類器40bの学習が実行される場合における、第2分類器40bの学習処理の流れの一例が示されている。
まず、第1分類器学習部42が、複数のCG画像の学習データ、及び、複数の実写画像の学習データを用いた第1分類器40aの学習を実行する(S101)。
そして中間特徴量特定部44が、複数のCG画像の入力データのそれぞれについて、当該CG画像の個別CG中間特徴量を特定する(S102)。
S102に示す処理では、中間特徴量特定部44は、S101に示す処理で用いられたCG画像の学習データに含まれる入力データを、再度、第1分類器学習部42による学習済の第1分類器40aに入力66として入力してもよい。そして当該入力66に応じた出力70に基づいて、当該CG画像の個別CG中間特徴量を特定してもよい。
あるいは中間特徴量特定部44が、S101に示す処理で用いられたCG画像の学習データとは別の新たなCG画像の入力データを、第1分類器学習部42による学習済の第1分類器40aに入力66として入力してもよい。そして中間特徴量特定部44が、当該入力66に応じた出力70に基づいて、当該CG画像の個別CG中間特徴量を特定してもよい。
そして中間特徴量特定部44が、S102に示す処理で複数のCG画像について特定された個別CG中間特徴量に基づいて、CG中間特徴量を特定する(S103)。
そして中間特徴量特定部44が、複数の実写画像の入力データのそれぞれについて、当該実写画像の個別実写中間特徴量を特定する(S104)。
S104に示す処理では、中間特徴量特定部44は、S101に示す処理で用いられた実写画像の学習データに含まれる入力データを、再度、第1分類器学習部42による学習済の第1分類器40aに入力66として入力してもよい。そして当該入力66に応じた出力70に基づいて、当該実写画像の個別実写中間特徴量を特定してもよい。
あるいは中間特徴量特定部44が、S101に示す処理で用いられた実写画像の学習データとは別の新たな実写画像の入力データを、第1分類器学習部42による学習済の第1分類器40aに入力66として入力してもよい。そして中間特徴量特定部44が、当該入力66に応じた出力70に基づいて、当該実写画像の個別実写中間特徴量を特定してもよい。
そして中間特徴量特定部44が、S104に示す処理で複数の実写画像について特定された個別実写中間特徴量に基づいて、実写中間特徴量を特定する(S105)。
そしてオフセット特徴量特定部46が、S103に示す処理で特定されたCG中間特徴量と、S105に示す処理で特定された実写中間特徴量と、に基づいて、オフセット特徴量を特定する(S106)。
そしてオフセット後中間特徴量特定部48が、複数のCG画像のそれぞれに対応付けられるオフセット後CG中間特徴量を特定する(S107)。
そして第2分類器学習部50が、S107に示す処理で特定されたオフセット後CG中間特徴量を用いた第2分類器40bの学習を実行して(S108)、本処理例に示す処理が終了される。S108に示す処理では、CG画像に対応付けられるオフセット後CG中間特徴量が入力78として第2分類器40bに入力される際に、当該CG画像の入力データが入力82として中間層76(m)に入力される。
S107に示す処理では、S101やS102に示す処理で用いられたものとは別の新たなCG画像の学習データに含まれる入力データが、第1分類器学習部42による学習済の第1分類器40aに入力66として入力されてもよい。そして当該入力66に応じた出力70に基づいて、当該CG画像に対応付けられるオフセット後CG中間特徴量が特定されてもよい。そしてS108に示す処理では、当該オフセット後CG中間特徴量と当該学習データに含まれる教師データとを用いた第2分類器40bの学習が実行されてもよい。
また例えば、S102に示す処理で特定された個別CG中間特徴量に対応付けられるCG画像に、S108に示す処理での学習に用いられる教師データが予め関連付けられていてもよい。そしてこの場合にS107に示す処理で、S102に示す処理で特定されたCG画像に対応付けられる個別CG中間特徴量と、オフセット特徴量と、に基づいて、当該CG画像に対応付けられるオフセット後CG中間特徴量が特定されてもよい。そしてS108に示す処理で、当該オフセット後CG中間特徴量と当該CG画像に関連付けられている教師データとを用いた第2分類器40bの学習が実行されてもよい。
なお図6に示す処理の実行順序は上述のものに限定されない。例えば図6のS102〜S105に示す処理は、S102、S104、S103、S105の順序や、S104、S105、S102、S103の順序などで実行されてもよい。
また例えば、複数の処理対象のデータについてのS107に示す処理が終了した後に、当該複数の処理対象のデータについてのS108に示す処理が実行される必要はない。例えば、処理対象毎にS107及びS108に示す一連の処理が実行されることで、S107及びS108に示す一連の処理が繰り返し実行されてもよい。
次に、本実施形態に係る情報処理装置10で行われる、実写画像の画像認識処理の流れの一例を、図7に例示するフロー図を参照しながら説明する。図7には、図6に示す一連の処理により第2分類器40bの学習が実行される場合における、実写画像の画像認識処理の流れの一例が示されている。
まず、画像認識実行部52が、画像認識対象の実写画像の入力データを取得する(S201)。
そして中間特徴量特定部44が、S201に示す処理で取得された実写画像の入力データを入力66とした、第1分類器40aへの入力を実行する(S202)。
そして中間特徴量特定部44が、S202に示す処理で実行された入力における入力66に応じた出力70を、当該実写画像の実写中間特徴量として特定する(S203)。
そして画像認識実行部52が、S203に示す処理で特定された実写中間特徴量を入力78とし、S201に示す処理で取得された実写画像の入力データを入力82とした、第2分類器40bへの入力を実行する(S204)。
そして画像認識実行部52が、S204に示す処理で実行された入力における入力78及び入力82に応じた出力80を、画像認識対象の実写画像の認識結果として特定して(S205)、本処理例に示す処理を終了する。
次に、本実施形態に係る情報処理装置10で行われる、第2分類器40bの学習処理の流れの別の一例を、図8に例示するフロー図を参照しながら説明する。図8には、CG中間特徴量を用いた第2分類器40bの学習が実行される場合における、第2分類器40bの学習処理の流れの一例が示されている。
なお、図8におけるS301〜S306に示す処理では、図6に示すS101〜S106に示す処理と同様の処理が実行される。そのためS301〜S306に示す処理については説明を省略する。
S306に示す処理が終了すると、第2分類器学習部50が、複数のCG画像のそれぞれに対応付けられるCG中間特徴量を用いた第2分類器40bの学習を実行して(S307)、本処理例に示す処理が終了される。
S307に示す処理では、CG画像に対応付けられるCG中間特徴量が入力78として第2分類器40bに入力される際に、当該CG画像の入力データが入力82として中間層76(m)に入力される。
S307に示す処理では、S301やS302に示す処理で用いられたものとは別の新たなCG画像の学習データに含まれる入力データが、第1分類器学習部42による学習済の第1分類器40aに入力66として入力されてもよい。そして当該入力66に応じた出力70が、当該CG画像に対応付けられるCG中間特徴量として特定されてもよい。そして特定されたCG中間特徴量と当該学習データに含まれる教師データとを用いた第2分類器40bの学習が実行されてもよい。
また例えば、S302に示す処理で特定された個別CG中間特徴量に対応付けられるCG画像に、S307に示す処理での学習に用いられる教師データが予め関連付けられていてもよい。そしてこの場合にS307に示す処理で、S302に示す処理で特定されたCG画像に対応付けられる個別CG中間特徴量と、当該CG画像に関連付けられている教師データとを用いた第2分類器40bの学習が実行されてもよい。
なお図8に示す処理の実行順序は上述のものに限定されない。例えば図8のS302〜S305に示す処理は、S302、S304、S303、S305の順序や、S304、S305、S302、S303の順序などで実行されてもよい。
次に、本実施形態に係る情報処理装置10で行われる、第2分類器40bの学習処理の流れの別の一例を、図9に例示するフロー図を参照しながら説明する。図9には、図8に示す一連の処理により第2分類器40bの学習が実行される場合における、実写画像の画像認識処理の流れの一例が示されている。
なお、図9におけるS401〜S403に示す処理では、図7に示すS201〜S203に示す処理と同様の処理が実行される。そのためS401〜S403に示す処理については、説明を省略する。
S403に示す処理が終了すると、オフセット後中間特徴量特定部48が、画像認識対象の実写画像に対応付けられるオフセット後実写中間特徴量を特定する(S404)。S404に示す処理では例えば、S403に示す処理で特定された実写中間特徴量と、S306に示す処理で特定されたオフセット特徴量と、に基づいて、当該オフセット後実写中間特徴量が特定される。
そして画像認識実行部52が、S404に示す処理で特定されたオフセット後実写中間特徴量を入力78とし、S401に示す処理で取得された実写画像の入力データを入力82とした、第2分類器40bへの入力を実行する(S405)。
そして画像認識実行部52が、S405に示す処理で実行された入力における入力78及び入力82に応じた出力80を、画像認識対象の実写画像の認識結果として特定して(S406)、本処理例に示す処理を終了する。
以上のように本実施形態では、CG画像と実写画像とを分類する第1分類器40aが、特定中間層64aからの出力70によってCG中間特徴量や実写中間特徴量が抽出される特徴量抽出器としての役割も担うこととなる。そしてCG中間特徴量と実写中間特徴量とに基づいて特定されるオフセット特徴量によって、CG画像と当該CG画像と同様の実写画像との特徴量の差が補正される。このようにして本実施形態では、CG画像による学習が行われた分類器を用いた実写画像の画像認識精度が向上することとなる。
なお、本発明は上述の実施形態に限定されるものではない。
例えば、画像認識実行部52が実行する画像認識は、セマンティックセグメンテーションに限定されない。例えば、画像認識実行部52が、入力された実写画像が何の画像であるかを特定する処理や、入力された実写画像内のどこに何が配置されているのかを特定する処理を実行してもよい。
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (6)

  1. CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する中間特徴量特定部と、
    1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定するオフセット特徴量特定部と、
    CG画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該CG画像に対応付けられるオフセット後中間特徴量を特定するオフセット後中間特徴量特定部と、
    複数のCG画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第2分類器の学習を実行する学習部と、
    を含むことを特徴とする学習装置。
  2. 前記オフセット特徴量特定部は、複数のCG画像のそれぞれに対応付けられる前記中間特徴量の代表値と、複数の実写画像のそれぞれに対応付けられる前記中間特徴量の代表値と、に基づいて、前記オフセット特徴量を特定する、
    ことを特徴とする請求項1に記載の学習装置。
  3. 前記第1分類器は、CG画像の学習データと実写画像の学習データを用いた学習が行われた後の分類器である、
    ことを特徴とする請求項1又は2に記載の学習装置。
  4. CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する中間特徴量特定部と、
    1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づくオフセット特徴量と、画像認識対象の実写画像に対応付けられる前記中間特徴量と、に基づいて、当該実写画像に対応付けられるオフセット後中間特徴量を特定するオフセット後中間特徴量特定部と、
    前記画像認識対象の実写画像に対応付けられる前記オフセット後中間特徴量を、複数のCG画像のそれぞれに対応付けられる前記中間特徴量を用いた学習が実行された第2分類器に入力データとして入力した場合における当該第2分類器の出力を当該実写画像の画像認識の結果として特定する画像認識実行部と、
    を含むことを特徴とする画像認識装置。
  5. CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定するステップと、
    1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定するステップと、
    CG画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該CG画像に対応付けられるオフセット後中間特徴量を特定するステップと、
    複数のCG画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第2分類器の学習を実行するステップと、
    を含むことを特徴とする学習方法。
  6. CG画像と実写画像とを分類する第1分類器に画像の入力データを入力した際の当該第1分類器に含まれる1の中間層の出力を、当該画像に対応付けられる中間特徴量として特定する手順、
    1又は複数のCG画像のそれぞれに対応付けられる前記中間特徴量と、1又は複数の実写画像のそれぞれに対応付けられる前記中間特徴量と、に基づいて、オフセット特徴量を特定する手順、
    CG画像に対応付けられる前記中間特徴量と、前記オフセット特徴量と、に基づいて、当該CG画像に対応付けられるオフセット後中間特徴量を特定する手順、
    複数のCG画像のそれぞれに対応付けられる前記オフセット後中間特徴量を用いた、実写画像の画像認識の際に当該実写画像に対応付けられる前記中間特徴量が入力される第2分類器の学習を実行する手順、
    をコンピュータに実行させることを特徴とするプログラム。
JP2019514953A 2017-04-26 2017-04-26 学習装置、画像認識装置、学習方法及びプログラム Active JP6722351B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/016565 WO2018198233A1 (ja) 2017-04-26 2017-04-26 学習装置、画像認識装置、学習方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2018198233A1 true JPWO2018198233A1 (ja) 2019-08-08
JP6722351B2 JP6722351B2 (ja) 2020-07-15

Family

ID=63920228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019514953A Active JP6722351B2 (ja) 2017-04-26 2017-04-26 学習装置、画像認識装置、学習方法及びプログラム

Country Status (5)

Country Link
US (1) US11403560B2 (ja)
EP (1) EP3617991A4 (ja)
JP (1) JP6722351B2 (ja)
CN (1) CN110582783B (ja)
WO (1) WO2018198233A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784424B (zh) * 2019-03-26 2021-02-09 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
CN110175500B (zh) 2019-04-03 2024-01-19 平安科技(深圳)有限公司 指静脉比对方法、装置、计算机设备及存储介质
WO2021081386A1 (en) * 2019-10-25 2021-04-29 Mashgin, Inc. Method and system for item identification
JP6992099B2 (ja) * 2020-01-16 2022-01-13 本田技研工業株式会社 情報処理装置、車両、車両の制御方法、プログラム、情報処理サーバ、情報処理方法
JP7420607B2 (ja) 2020-03-19 2024-01-23 本田技研工業株式会社 情報処理装置、情報処理方法、車両、情報処理サーバ、及びプログラム
US11844458B2 (en) 2020-10-13 2023-12-19 June Life, Llc Method and system for automatic cook program determination

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573663A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 3次元物体の画像認識法
JP2014137756A (ja) * 2013-01-17 2014-07-28 Canon Inc 画像処理装置および画像処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4606828B2 (ja) * 2003-09-25 2011-01-05 富士フイルム株式会社 特定シーンの画像を選別する装置、プログラムおよびプログラムを記録した記録媒体
CN101729916A (zh) * 2008-10-10 2010-06-09 富士胶片株式会社 图像处理装置、图像记录装置、方法及程序
JP2012243180A (ja) * 2011-05-23 2012-12-10 Sony Corp 学習装置および方法、並びにプログラム
CN102663451A (zh) * 2012-03-29 2012-09-12 天津科技大学 一种基于色彩空间特征的图形图像分类方法
KR102146560B1 (ko) * 2014-02-17 2020-08-20 삼성전자주식회사 영상 보정 방법 및 장치
US9652846B1 (en) * 2015-10-22 2017-05-16 International Business Machines Corporation Viewpoint recognition in computer tomography images
CN105335712A (zh) * 2015-10-26 2016-02-17 小米科技有限责任公司 图像识别方法、装置及终端
US9984471B2 (en) * 2016-07-26 2018-05-29 Intuit Inc. Label and field identification without optical character recognition (OCR)
US20190149725A1 (en) * 2017-09-06 2019-05-16 Trax Technologies Solutions Pte Ltd. Using augmented reality for image capturing a retail unit
US10607118B2 (en) * 2017-12-13 2020-03-31 Microsoft Technology Licensing, Llc Ensemble model for image recognition processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573663A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 3次元物体の画像認識法
JP2014137756A (ja) * 2013-01-17 2014-07-28 Canon Inc 画像処理装置および画像処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
土屋 成光 他: "ハイブリッド型転移学習による物体検出における学習の効率化", 電子情報通信学会技術研究報告, vol. 第112巻 第386号, JPN6020016005, 16 January 2013 (2013-01-16), JP, pages 329 - 334, ISSN: 0004265947 *
田路 賢太郎 他: "手形状CGを用いたAdaBoostによる指文字の認識", 電子情報通信学会技術研究報告, vol. 第111巻 第472号, JPN6020016004, 2 March 2012 (2012-03-02), JP, pages 7 - 12, ISSN: 0004265946 *

Also Published As

Publication number Publication date
JP6722351B2 (ja) 2020-07-15
EP3617991A1 (en) 2020-03-04
CN110582783B (zh) 2023-04-04
US11403560B2 (en) 2022-08-02
US20210056464A1 (en) 2021-02-25
WO2018198233A1 (ja) 2018-11-01
EP3617991A4 (en) 2020-12-09
CN110582783A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
WO2018198233A1 (ja) 学習装置、画像認識装置、学習方法及びプログラム
CN109670558B (zh) 使用深度学习的数字图像完成
JP7013489B2 (ja) 学習装置、実写画像分類装置の生成システム、実写画像分類装置の生成装置、学習方法及びプログラム
CN111783505A (zh) 伪造人脸的识别方法、装置和计算机可读存储介质
US11681910B2 (en) Training apparatus, recognition apparatus, training method, recognition method, and program
TW202013311A (zh) 一種圖像處理方法、電子設備及存儲介質
US20230021533A1 (en) Method and apparatus for generating video with 3d effect, method and apparatus for playing video with 3d effect, and device
WO2020063835A1 (zh) 模型生成
KR20220066944A (ko) 조직 분할을 위한 머신 러닝 모델의 상호작용 트레이닝
CN111062854A (zh) 检测水印的方法、装置、终端及存储介质
JP7298825B2 (ja) 学習支援装置、学習装置、学習支援方法及び学習支援プログラム
US11164318B2 (en) Image recognition apparatus, method, and program for enabling recognition of objects with high precision
EP4075381B1 (en) Image processing method and system
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
JP7053195B2 (ja) 家屋異動推定装置、家屋異動学習装置、家屋異動推定方法、識別器のパラメータ生成方法及びプログラム
JP6791593B2 (ja) 認識装置、認識プログラム、及び認識方法
CN113850238B (zh) 文档检测方法、装置、电子设备及存储介质
EP4220555A1 (en) Training method and apparatus for image segmentation model, image segmentation method and apparatus, and device
JP6892557B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
CN113808192A (zh) 一种户型图生成方法、装置、设备及存储介质
CN113837236A (zh) 图像中目标对象的识别方法、装置、终端设备及存储介质
CN106469437A (zh) 图像处理方法和图像处理装置
WO2024078426A1 (zh) 样本处理方法、装置、计算设备和计算机可读存储介质
CN116343226A (zh) 公式检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200619

R150 Certificate of patent or registration of utility model

Ref document number: 6722351

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150