WO2022250071A1

WO2022250071A1 - 学習方法、学習装置及びプログラム

Info

Publication number: WO2022250071A1
Application number: PCT/JP2022/021329
Authority: WO
Inventors: 弘亘藤吉; 隆義山下; 翼平川; 和紀小塚
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2021-05-27
Filing date: 2022-05-25
Publication date: 2022-12-01
Also published as: JPWO2022250071A1; EP4350612A1; US20240087098A1

Abstract

学習方法は、第１領域にノイズを付与することにより、第１画像を生成し、第２領域にノイズを付与することにより、第２画像を生成し、第１画像と第２画像との重み付け加算を行うことにより、合成画像を生成し、第１画像に対する第１教師ラベル（ｙ１）を生成し、第２画像に対する第２教師ラベル（ｙ２）を生成し、第１教師ラベル（ｙ１）と第２教師ラベル（ｙ２）との重み付け加算を行うことにより、合成教師ラベル（ｙ）を生成し、合成画像及び合成教師ラベル（ｙ）を用いて機械学習を行うことにより、学習モデルを生成する。

Description

学習方法、学習装置及びプログラム

　本開示は、画像認識に用いられる学習モデルを生成する学習方法等に関する。

　特許文献１には、より汎用的で頑健な分類器の生成を可能とするため、画像に恣意的なノイズが加えられることが示されている。

特開２０１９－７９３７４号公報

　しかしながら、元画像にノイズが付与されることで、元画像とは全く異なる画像が得られる可能性がある。そして、元画像とは全く異なる画像に対して元画像の教師ラベルで機械学習が行われることにより、画像認識の精度が劣化する可能性がある。したがって、ノイズに対して頑健な画像認識を行うことは必ずしも容易ではない。

　そこで、本開示は、ノイズに対して頑健な学習モデルを生成することができる学習方法等を提供する。

　本開示の一態様に係る学習方法は、画像認識に用いられる学習モデルを生成する学習方法であって、元画像のうちの第１領域にノイズを付与することにより、第１画像を生成し、前記元画像のうち前記第１領域を除く第２領域にノイズを付与することにより、第２画像を生成し、前記第１画像と前記第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第１基礎ラベルと、前記元画像の不正解ラベルに対応する第２基礎ラベルとの重み付け加算を、前記第１領域のサイズと、前記第２領域のサイズとの比率である第２比率で行うことにより、前記第１画像に対する第１教師ラベルを生成し、前記第１基礎ラベルと前記第２基礎ラベルとの重み付け加算を前記第２比率とは逆の比率で行うことにより、前記第２画像に対する第２教師ラベルを生成し、前記第１教師ラベルと前記第２教師ラベルとの重み付け加算を前記第１比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様に係る学習方法等によって、ノイズに対して頑健な学習モデルを生成することが可能になる。

図１は、参考例における認識処理の結果を示す概念図である。図２は、参考例における学習を示す概念図である。図３は、参考例における部分ノイズ付与画像を示す概念図である。図４は、本実施の形態における学習装置の構成を示すブロック図である。図５は、本実施の形態における学習装置の動作を示すフローチャートである。図６は、本実施の形態における合成画像の生成の詳細を示す概念図である。図７は、本実施の形態における合成教師ラベルの生成の詳細を示す概念図である。図８は、本実施の形態における認識精度の比較結果を示すデータ図である。

　例えば、画像にノイズを付与し、ノイズが付与された画像を用いて、機械学習を行うことにより、ノイズに対して頑健な学習モデルが生成される可能性がある。また、画像の一部にノイズを付与し、一部にノイズが付与された画像を用いて、機械学習を行うことにより、ノイズに対してより頑健な学習モデルが生成される可能性がある。

　しかしながら、元画像にノイズが付与されることで、元画像とは全く異なる画像が得られる可能性がある。また、元画像の一部にノイズが付与される場合、ノイズのある領域と、ノイズのない領域との存在によって、元画像の教師ラベルが適切でなくなる可能性がある。このような画像に対して元画像の教師ラベルで機械学習が行われることにより、画像認識の精度が劣化する可能性がある。したがって、ノイズに対して頑健な画像認識を行うことは必ずしも容易ではない。

　そこで、例えば、本開示の一態様に係る学習方法は、画像認識に用いられる学習モデルを生成する学習方法であって、元画像のうちの第１領域にノイズを付与することにより、第１画像を生成し、前記元画像のうち前記第１領域を除く第２領域にノイズを付与することにより、第２画像を生成し、前記第１画像と前記第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第１基礎ラベルと、前記元画像の不正解ラベルに対応する第２基礎ラベルとの重み付け加算を、前記第１領域のサイズと、前記第２領域のサイズとの比率である第２比率で行うことにより、前記第１画像に対する第１教師ラベルを生成し、前記第１基礎ラベルと前記第２基礎ラベルとの重み付け加算を前記第２比率とは逆の比率で行うことにより、前記第２画像に対する第２教師ラベルを生成し、前記第１教師ラベルと前記第２教師ラベルとの重み付け加算を前記第１比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。

　これにより、第１比率に従って各領域にノイズが付与された合成画像を生成することが可能になる。したがって、これにより、学習に適切な画像が生成される可能性がある。また、第１比率に従って、２つの画像が合成され、かつ、２つの教師ラベルが合成されるため、合成画像に対して適切な合成教師ラベルを生成することが可能になる。そして、合成画像及び合成教師ラベルを用いることにより、ノイズに対して頑健な学習モデルを生成することが可能になる。

　また、例えば、前記学習方法は、複数の第１領域のそれぞれについて、前記第１画像、前記第２画像、前記合成画像、前記第１教師ラベル、前記第２教師ラベル及び前記合成教師ラベルを生成することにより、複数の合成画像及び複数の合成教師ラベルを生成し、前記複数の合成画像及び前記複数の合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。

　これにより、様々な第１領域に従って、様々な合成画像及び様々な合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。

　また、例えば、前記学習方法は、複数の第１比率のそれぞれについて、前記合成画像及び前記合成教師ラベルを生成することにより、複数の合成画像及び複数の合成教師ラベルを生成し、前記複数の合成画像及び前記複数の合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。

　これにより、様々な第１比率に従って、様々な合成画像及び様々な合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。

　また、例えば、前記第１領域は、

に従って決定され、Ｗは、前記元画像の幅を示し、Ｈは、前記元画像の高さを示し、ｒ_ｘ１は、前記第１領域の左端を示し、ｒ_ｙ１は、前記第１領域の上端を示し、ｒ_ｘ２は、前記第１領域の右端を示し、ｒ_ｙ２は、前記第１領域の下端を示し、ａ～Ｕ［ｂ、ｃ］は、ａがｂからｃまでの一様分布に従って決定されることを示す。

　これにより、元画像の大きさに従って適切に決定される第１領域を用いて、合成画像及び合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。

　また、例えば、前記第１比率は、Ｂ（α、α）のベータ分布に従って決定され、Ｂは、ベータ関数を示し、αは、正の実数を示す。

　これにより、対称性を有する確率分布に従って適切に決定される第１比率を用いて、合成画像及び合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。

　また、例えば、本開示の一態様に係る学習装置は、画像認識に用いられる学習モデルを生成する学習装置であって、プロセッサ及びメモリを備え、前記プロセッサは、前記メモリを用いて、元画像のうちの第１領域にノイズを付与することにより、第１画像を生成し、前記元画像のうち前記第１領域を除く第２領域にノイズを付与することにより、第２画像を生成し、前記第１画像と前記第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第１基礎ラベルと、前記元画像の不正解ラベルに対応する第２基礎ラベルとの重み付け加算を、前記第１領域のサイズと、前記第２領域のサイズとの比率である第２比率で行うことにより、前記第１画像に対する第１教師ラベルを生成し、前記第１基礎ラベルと前記第２基礎ラベルとの重み付け加算を前記第２比率とは逆の比率で行うことにより、前記第２画像に対する第２教師ラベルを生成し、前記第１教師ラベルと前記第２教師ラベルとの重み付け加算を前記第１比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。

　これにより、学習装置は、上記の学習方法を実行することができる。そして、上記の学習方法が、学習装置によって実現される。

　また、例えば、本開示の一態様に係るプログラムは、前記学習方法をコンピュータに実行させるためのプログラムであってもよい。

　これにより、プログラムは、上記の学習方法をコンピュータに実行させることができる。そして、上記の学習方法が、プログラムによって実現される。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　以下、図面を用いて、実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示す。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、請求の範囲を限定する主旨ではない。

　図１は、参考例における認識処理の結果を示す概念図である。例えば、元画像に対してノイズが付与されることにより、ノイズ付与画像が生成される。具体的には、元画像と、ノイズ画像にεの重みを掛けることで得られる画像とを足し合わせることにより、ノイズ付与画像が生成される。このノイズ付与画像に対して画像認識が行われた場合、正しい認識結果が得られない場合がある。なお、画像と画像とを足し合わせるとは、２つの画像の対応する画素の画素値を足し合わせることを意味する。

　図１の例では、元画像に対して認識処理が行われた場合、元画像が「犬」を表していると正しく認識される。一方、ノイズ付与画像に対して認識処理が行われた場合、ノイズ付与画像が「猫」を表していると誤って認識される。つまり、元画像に対して付与されたノイズによって、誤認識が発生する可能性がある。

　図２は、参考例における学習を示す概念図である。図２の例では、画像認識に用いられるモデルに対して、ノイズ付与画像を用いて学習が行われている。具体的には、ノイズ付与画像が「犬」を表していると正しく認識されるように、モデルが更新されている。

　画像認識に用いられるモデルは、認識モデル又は学習モデルとも呼ばれる数理モデルである。画像認識に用いられるモデルは、ニューラルネットワークモデルであってもよい。また、上記のように、元画像に敢えてノイズを付与して行われる学習は、敵対的学習（Ａｄｖｅｒｓａｒｉａｌ　Ｔｒａｉｎｉｎｇ）の一例である。

　上記のような学習が行われることにより、画像がノイズを含んでいても、正しい認識結果が得られる。したがって、ノイズに対して頑健なモデルが得られる。しかしながら、元画像にノイズが付与されることで、元画像とは全く異なる画像が得られる可能性がある。そして、元画像とは全く異なる画像に対して元画像の教師ラベルで学習が行われると、画像認識の精度が劣化する可能性がある。したがって、ノイズに対して頑健な画像認識を行うことは必ずしも容易ではない。

　図３は、参考例における部分ノイズ付与画像を示す概念図である。ここで、部分ノイズ付与画像は、元画像の全体ではなく、元画像の一部の領域にノイズを付与することによって得られる画像である。

　具体的には、画像の全領域のうち、ノイズが付与される領域以外がマスクされたマスク画像が生成される。マスク画像では、ノイズが付与される領域の各画素値が１に設定され、ノイズが付与される領域以外の各画素値が０に設定される。また、画像の全領域にわたってノイズで構成されるノイズ画像が生成される。ノイズ画像は、例えば、画像の全領域にわたって一様なノイズで構成されてもよい。

　そして、マスク画像とノイズ画像とが画素毎に掛け合わされることにより、ノイズが付与される領域のみにノイズを含む部分ノイズ画像が生成される。そして、部分ノイズ画像と、元画像とが画素毎に足し合わされることにより、部分ノイズ付与画像が生成される。

　このような、部分ノイズ付与画像を用いてモデルに対して学習が行われてもよい。これにより、より多くのパターンを用いて学習を行うことが可能になり、ノイズに対してより頑健なモデルを得ることが可能になる。

　しかしながら、部分ノイズ付与画像では、一部の領域にノイズが付与され、残りの領域にノイズが全く付与されない。領域毎にノイズ付与方法が大きく異なる部分ノイズ付与画像は、学習に適切でない可能性がある。また、元画像に対応するラベルが、部分ノイズ付与画像に対応するラベルとして適切でない可能性がある。

　そこで、以下では、学習に適切な画像及びラベルを生成し、学習に適切な画像及びラベルを用いて学習を行う学習方法が説明される。

　図４は、本実施の形態における学習装置の構成を示すブロック図である。図４に示された学習装置１００は、プロセッサ１０１及びメモリ１０２を備える。学習装置１００は、コンピュータであってもよい。

　プロセッサ１０１は、例えば、情報処理を行う専用又は汎用の電気回路であり、メモリ１０２にアクセス可能な回路である。プロセッサ１０１は、ＣＰＵのようなプロセッサであってもよい。また、プロセッサ１０１は、複数の電気回路の集合体であってもよい。また、プロセッサ１０１は、メモリ１０２からプログラムを読み出して、プログラムを実行することにより、情報処理を行ってもよい。プロセッサ１０１は、情報処理として機械学習を行ってもよいし、画像認識を行ってもよい。

　例えば、プロセッサ１０１は、学習のための画像、及び、画像に対応するラベルを生成する。具体的には、プロセッサ１０１は、学習のための元画像、及び、元画像に対応する元ラベルを取得し、元画像及び元ラベルから、学習のための追加の画像、及び、追加の画像に対応する追加のラベルを生成する。

　また、プロセッサ１０１は、学習のための画像、及び、画像に対応するラベルを用いて、モデルに対して学習を行う。例えば、プロセッサ１０１は、モデルに対して画像を入力することによりモデルから出力されるラベルが、画像に対応するラベルに一致するように、モデルを更新することにより学習を行う。また、プロセッサ１０１は、学習が行われたモデルを用いて画像認識を行ってもよい。

　メモリ１０２は、例えば、プロセッサ１０１が情報処理を行うための情報が記憶される専用又は汎用の電気回路である。メモリ１０２は、プロセッサ１０１に接続されていてもよいし、プロセッサ１０１に含まれていてもよい。また、メモリ１０２は、複数の電気回路の集合体であってもよい。

　また、メモリ１０２は、不揮発性メモリでもよいし、揮発性メモリでもよい。また、メモリ１０２は、磁気ディスク又は光ディスク等であってもよいし、ストレージ又は記録媒体等と表現されてもよい。また、メモリ１０２は、ＣＤ－ＲＯＭ等の非一時的な記録媒体であってもよい。

　また、メモリ１０２には、画像認識に用いられるモデルが記憶されていてもよいし、認識対象画像が記憶されてもよいし、認識結果が記憶されてもよい。また、メモリ１０２には、プロセッサ１０１が、情報処理を行うためのプログラムが記憶されていてもよい。

　また、図４には、学習装置１００の構成の例が示されているが、学習装置１００の構成は、図４に示された例に限られない。学習装置１００は、以下に説明される複数の処理を行う複数の構成要素を備えていてもよい。

　図５は、図４に示された学習装置１００の動作を示すフローチャートである。具体的には、学習装置１００において、プロセッサ１０１が、メモリ１０２を用いて、図５に示された動作を行う。

　まず、プロセッサ１０１は、元画像のうちの第１領域にノイズを付与することにより、第１画像を生成する（Ｓ１０１）。また、プロセッサ１０１は、元画像のうち第１領域を除く第２領域にノイズを付与することにより、第２画像を生成する（Ｓ１０２）。そして、プロセッサ１０１は、第１画像と第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成する（Ｓ１０３）。

　また、プロセッサ１０１は、第１基礎ラベルと第２基礎ラベルとの重み付け加算を第２比率で行うことにより、第１画像に対する第１教師ラベルを生成する（Ｓ１０４）。また、プロセッサ１０１は、第１基礎ラベルと第２基礎ラベルとの重み付け加算を第２比率とは逆の比率で行うことにより、第２画像に対する第２教師ラベルを生成する（Ｓ１０５）。そして、第１教師ラベルと第２教師ラベルとの重み付け加算を第１比率で行うことにより、合成画像に対する合成教師ラベルを生成する（Ｓ１０６）。

　ここで、第１基礎ラベルは、元画像の正解ラベルに対応し、第２基礎ラベルは、元画像の不正解ラベルに対応する。上記の各ラベルは、１つの正解クラスを表すラベルに限られず、いわゆるソフトラベルであってもよく、複数のクラスに対する複数の尤度を表してもよい。また、第２比率は、第１領域のサイズと、第２領域のサイズとの比率である。

　最後に、プロセッサ１０１は、合成画像及び合成教師ラベルを用いて機械学習を行うことにより、学習モデルを生成する（Ｓ１０７）。具体的には、プロセッサ１０１は、合成画像が学習モデルに入力されると、合成教師ラベルが出力されるように、学習モデルを生成する。

　上記の動作によって、学習装置１００は、元画像のうちの第１領域と、元画像のうち第１領域を除く第２領域とのそれぞれに第１比率に従ってノイズを付与することができる。したがって、学習装置１００は、領域によって大きく異なる方法でノイズが付与されることを抑制することができる。よって、学習装置１００は、学習に適切な画像を生成することができる。

　また、学習装置１００は、２つの画像の合成に用いられる比率と同じ比率を用いて２つの教師ラベルを合成することができる。したがって、学習装置１００は、合成画像に対して適切な合成教師ラベルを生成することができる。そして、学習装置１００は、合成画像及び合成教師ラベルを用いることにより、ノイズに対して頑健な学習モデルを生成することができる。

　学習装置１００は、上記の複数の処理（Ｓ１０１～Ｓ１０７）にそれぞれ対応する複数の構成要素を備えていてもよい。例えば、学習装置１００は、第１画像生成部、第２画像生成部、合成画像生成部、第１教師ラベル生成部、第２教師ラベル生成部、合成教師ラベル生成部、及び、学習モデル生成部を備えていてもよい。

　また、例えば、プロセッサ１０１は、複数の第１領域のそれぞれについて、上記の処理（Ｓ１０１～Ｓ１０６）を行うことにより、複数の合成画像及び複数の合成教師ラベルを生成してもよい。そして、プロセッサ１０１は、複数の合成画像及び複数の合成教師ラベルを用いて機械学習を行うことにより、学習モデルを生成してもよい。複数の第１領域は、例えば、元画像における互いに異なる領域である。また、複数の第１領域は、部分的に重複していてもよい。

　これにより、学習装置１００は、様々な第１領域に従って、様々な合成画像及び様々な合成教師ラベルを生成することができる。そして、これにより、学習装置１００は、ノイズに対して頑健な学習モデルを生成することができる。

　また、例えば、プロセッサ１０１は、複数の第１比率のそれぞれについて、合成画像を生成（Ｓ１０３）し、合成教師ラベルを生成（Ｓ１０６）することにより、複数の合成画像及び複数の合成教師ラベルを生成してもよい。そして、プロセッサ１０１は、複数の合成画像及び複数の合成教師ラベルを用いて機械学習を行うことにより、学習モデルを生成してもよい。

　これにより、学習装置１００は、様々な第１比率に従って、様々な合成画像及び様々な合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。

　また、例えば、プロセッサ１０１は、複数の第１領域のそれぞれについて、上記の処理（Ｓ１０１～Ｓ１０６）を行い、かつ、複数の第１比率のそれぞれについて、合成画像及び合成教師ラベルの生成（Ｓ１０３及びＳ１０６）を行ってもよい。そして、これにより、プロセッサ１０１は、複数の合成画像及び複数の合成教師ラベルを生成してもよい。そして、プロセッサ１０１は、複数の合成画像及び複数の合成教師ラベルを用いて機械学習を行うことにより、学習モデルを生成してもよい。

　これにより、学習装置１００は、様々な第１領域及び様々な第１比率に従って、様々な合成画像及び様々な合成教師ラベルを生成することができる。そして、これにより、学習装置１００は、ノイズに対して頑健な学習モデルを生成することができる。

　図６は、本実施の形態における合成画像の生成の詳細を示す概念図である。具体的には、まず、プロセッサ１０１は、元画像のうちの第１領域を決定し、元画像のうち第１領域を除く第２領域を決定する。プロセッサ１０１は、以下の式に従って、第１領域を決定してもよい。

　ここで、Ｗは、元画像の幅を示し、Ｈは、元画像の高さを示す。また、ｒ_ｘ１は、第１領域の左端を示し、ｒ_ｙ１は、第１領域の上端を示し、ｒ_ｘ２は、第１領域の右端を示し、ｒ_ｙ２は、第１領域の下端を示す。また、ａ～Ｕ［ｂ、ｃ］は、ａがｂからｃまでの一様分布に従って決定されることを示す。これにより、第１領域が、元画像の大きさに従って適切に決定される。

　そして、プロセッサ１０１は、元画像の全領域のうち、第１領域以外（つまり第２領域）がマスクされた第１マスク画像を生成する。第１マスク画像では、第１領域の各画素値が１に設定され、第１領域以外の第２領域の各画素値が０に設定される。また、プロセッサ１０１は、元画像の全領域のうち、第２領域以外（つまり第１領域）がマスクされた第２マスク画像を生成する。第２マスク画像では、第２領域の各画素値が１に設定され、第２領域以外の第１領域の各画素値が０に設定される。

　また、プロセッサ１０１は、全領域が同種のノイズで構成されるノイズ画像を生成する。そして、第１マスク画像とノイズ画像とが画素毎に掛け合わされることにより、第１領域のみにノイズを含む第１ノイズ画像が生成される。また、第２マスク画像とノイズ画像とが画素毎に掛け合わされることにより、第２領域のみにノイズを含む第２ノイズ画像が生成される。第１ノイズ画像及び第２ノイズ画像は、それぞれ、第１部分ノイズ画像及び第２部分ノイズ画像とも表現され得る。

　そして、プロセッサ１０１は、第１ノイズ画像と元画像とを画素毎に足し合わせることにより、第１画像を生成する。これにより、元画像のうち第１領域にノイズが付与された第１画像が生成される。また、プロセッサ１０１は、第２ノイズ画像と元画像とを画素毎に足し合わせることにより、第２画像を生成する。これにより、元画像のうち第１領域を除く第２領域にノイズが付与された第２画像が生成される。第１画像及び第２画像は、それぞれ、第１部分ノイズ付与画像及び第２部分ノイズ付与画像とも表現され得る。

　そして、プロセッサ１０１は、第１領域にノイズが付与された第１画像と、第２領域にノイズが付与された第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成する。具体的には、プロセッサ１０１は、第１画像にλ_２の重みを与え、第２画像に１－λ_２の重みを与え、これらの重み付け加算を画素毎に行うことにより、合成画像を生成する。ここで、λ_２は、０から１までの値であり、具体的には、０以上１以下の値であってもよいし、０よりも大きく１よりも小さい値であってもよい。

　プロセッサ１０１は、Ｂ（α、α）のベータ分布に従ってλ_２を決定してもよい。ここで、Ｂは、ベータ関数を示し、αは、正の実数を示す。これにより、対称性を有する確率分布に従って適切に決定されるλ_２に対応する第１比率を用いて、合成画像及び合成教師ラベルを生成することが可能になる。そして、元画像及び元教師ラベルから複数のデータセットが生成される場合において、複数のデータセットに偏りが発生することが抑制される。

　上記の処理によって、合成画像が適切に生成される。なお、上記の処理は、合成画像を生成するための処理の一例であって、合成画像を生成するための処理は、上記の処理に限られない。例えば、マスク画像、ノイズ画像、第１ノイズ画像及び第２ノイズ画像が用いられなくてもよく、元画像の各領域に同種のノイズが直接付与されることにより、第１画像及び第２画像が生成されてもよい。

　図７は、本実施の形態における合成教師ラベルの生成の詳細を示す概念図である。図７において、λは、第１領域のサイズと、第２領域のサイズとの第２比率に対応する。具体的には、λは、元画像のサイズに対する第１領域のサイズの割合を示し、１－λは、元画像のサイズに対する第２領域のサイズの割合を示す。

　第１基礎ラベルは、元画像の正解ラベルに対応し、正解ラベルと表現されてもよい。正解ラベルは、元画像に写る物体の正しいクラスを示すラベルである。すなわち、第１基礎ラベルは、元画像に対する教師ラベルに対応し得る。第１基礎ラベルは、元画像に写る物体の正しいクラスに対して１００％の尤度を有し、他の各クラスに対して０％の尤度を有していてもよい。例えば、第１基礎ラベルは、犬のクラスに対して１００％の尤度を有し、他の各クラスに対して０％の尤度を有していてもよい。

　第２基礎ラベルは、元画像の不正解ラベルに対応し、不正解ラベルと表現されてもよい。不正解ラベルは、元画像に写る物体の正しくないクラスを示すラベルである。すなわち、第２基礎ラベルは、ノイズ画像に対する教師ラベルに対応し得る。第２基礎ラベルは、元画像に写る物体の正しいクラスに対して０％の尤度を有し、他の各クラスに対して０％よりも大きい尤度を有していてもよい。

　例えば、第２基礎ラベルは、犬のクラスに対して０％の尤度を有し、他の各クラスに対して数パーセントの尤度を有していてもよい。より具体的には、第２基礎ラベルは、他の各クラスに対して１／総クラス数の尤度を有していてもよい。ここで、総クラス数は、他のクラスの総数であってもよい。

　ｙ_１は、第１画像に対する第１教師ラベルに対応する。ｙ_１は、第１画像においてノイズのある領域とノイズのない領域との比率に従って、正解ラベルと不正解ラベルとにそれぞれ対応する第１基礎ラベルと第２基礎ラベルとの重み付け加算を行うことにより得られる。具体的には、ｙ_１は、図７の通り、第１基礎ラベルにλの重みを与え、第２基礎ラベルに１－λの重みを与え、これらの重み付け加算を行うことにより得られる。

　ｙ_２は、第２画像に対する第２教師ラベルに対応する。ｙ_２は、第２画像においてノイズのある領域とノイズのない領域との比率に従って、正解ラベルと不正解ラベルとにそれぞれ対応する第１基礎ラベルと第２基礎ラベルとの重み付け加算を行うことにより得られる。具体的には、ｙ_２は、図７の通り、第２基礎ラベルにλの重みを与え、第１基礎ラベルに１－λの重みを与え、これらの重み付け加算を行うことにより得られる。

　すなわち、ｙ_２は、ｙ_１とは逆の比率で、第１基礎ラベルと第２基礎ラベルとの重み付け加算を行うことにより得られる。逆の比率とは、第１基礎ラベルと第２基礎ラベルとに与える重みを入れ替えることを意味する。

　ｙは、合成画像に対する合成教師ラベルに対応する。ｙは、第１教師ラベル（ｙ_１）にλ_２の重みを与え、第２教師ラベル（ｙ_２）に１－λ_２の重みを与え、これらの重み付け加算を行うことにより得られる。λ_２は、第１比率に対応する。つまり、第１教師ラベルと第２教師ラベルとの重み付け加算のための比率は、合成画像を生成するための比率と同じである。

　上記の処理によって、合成教師ラベルが生成される。例えば、第１画像に対する第１教師ラベルの生成、及び、第２画像に対する第２教師ラベルの生成に、ノイズのある領域の割合が反映される。そして、第１画像に対する第１教師ラベルと、第２画像に対する第２教師ラベルとの重み付け加算に、第１画像と第２画像との重み付け加算のための第１比率が反映される。したがって、各領域にノイズが付与された合成画像に対して適切な合成教師ラベルが生成される。

　図８は、本実施の形態における認識精度の比較結果を示すデータ図である。具体的には、図８には、画像に付与されるノイズの種類毎に、図３において説明された参考例の学習方法に基づく認識精度と、図４～図７において説明された本実施の形態の学習方法に基づく認識精度とが比較して示されている。

　また、ここでは、ノイズの種類として、ノイズなし、ＦＧＳＭ（Ｆａｓｔ　Ｇｒａｄｉｅｎｔ　Ｓｉｇｎ　Ｍｅｔｈｏｄ）、ＰＧＤ（Ｐｒｏｊｅｃｔ　Ｇｒａｄｉｅｎｔ　Ｄｅｓｃｅｎｔ）－１０、及び、ＰＤＧ－２０が用いられている。また、評価用のデータセットとしてＣＩＦＡＲ（Ｃａｎａｄｉａｎ　Ｉｎｓｔｉｔｕｔｅ　Ｆｏｒ　Ａｄｖａｎｃｅｄ　Ｒｅｓｅａｒｃｈ）－１０データセットが用いられている。

　参考例の学習方法と比較して、本実施の形態の学習方法では、様々なノイズに対して、認識精度の劣化が抑制されている。ノイズがない場合、本実施の形態の学習方法の認識精度は、参考例の学習方法と比較して若干低いが、９０％以上であり、問題のないレベルである。

　以上、学習方法の態様を実施の形態に基づいて説明したが、学習方法の態様は、実施の形態に限定されない。実施の形態に対して当業者が思いつく変形が施されてもよいし、実施の形態における複数の構成要素が任意に組み合わされてもよい。例えば、実施の形態において特定の構成要素によって実行される処理を特定の構成要素の代わりに別の構成要素が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

　また、説明に用いられた第１及び第２等の序数は、適宜、付け替えられてもよいし、取り除かれてもよいし、新たに付与されてもよい。これらの序数は、意味のある順序に必ずしも対応せず、要素の識別に用いられてもよい。

　また、学習方法が任意の装置又はシステムによって実行されてもよい。つまり、学習方法は、学習装置によって実行されてもよいし、他の装置又はシステムによって実行されてもよい。

　例えば、上記の学習方法は、プロセッサ、メモリおよび入出力回路等を備えるコンピュータによって実行されてもよい。その際、コンピュータに学習方法を実行させるためのプログラムがコンピュータによって実行されることにより、学習方法が実行されてもよい。また、ＣＤ－ＲＯＭ等の非一時的なコンピュータ読み取り可能な記録媒体に、プログラムが記録されていてもよい。

　例えば、上記のプログラムは、コンピュータに、画像認識に用いられる学習モデルを生成する学習方法であって、元画像のうちの第１領域にノイズを付与することにより、第１画像を生成し、前記元画像のうち前記第１領域を除く第２領域にノイズを付与することにより、第２画像を生成し、前記第１画像と前記第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第１基礎ラベルと、前記元画像の不正解ラベルに対応する第２基礎ラベルとの重み付け加算を、前記第１領域のサイズと、前記第２領域のサイズとの比率である第２比率で行うことにより、前記第１画像に対する第１教師ラベルを生成し、前記第１基礎ラベルと前記第２基礎ラベルとの重み付け加算を前記第２比率とは逆の比率で行うことにより、前記第２画像に対する第２教師ラベルを生成し、前記第１教師ラベルと前記第２教師ラベルとの重み付け加算を前記第１比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する学習方法を実行させる。

　また、学習方法を実行する学習装置の複数の構成要素は、専用のハードウェアで構成されてもよいし、上記のプログラム等を実行する汎用のハードウェアで構成されてもよいし、これらの組み合わせで構成されてもよい。また、汎用のハードウェアは、プログラムが記憶されたメモリ、及び、メモリからプログラムを読み出して実行する汎用のプロセッサ等で構成されてもよい。ここで、メモリは、半導体メモリ又はハードディスク等でもよいし、汎用のプロセッサは、ＣＰＵ等でもよい。

　また、専用のハードウェアが、メモリ及び専用のプロセッサ等で構成されてもよい。例えば、専用のプロセッサが、メモリを参照して、上記の学習方法を実行してもよい。

　また、学習方法を実行する学習装置の各構成要素は、電気回路であってもよい。これらの電気回路は、全体として１つの電気回路を構成してもよいし、それぞれ別々の電気回路であってもよい。また、これらの電気回路は、専用のハードウェアに対応していてもよいし、上記のプログラム等を実行する汎用のハードウェアに対応していてもよい。

　また、本開示は、機械学習により学習モデルを生成するための学習用データ（いわゆる、データセット）の生成方法として実現されてもよい。学習用データの生成方法は、画像認識に用いられる学習モデルを機械学習により生成するための学習用データの生成方法であって、元画像のうちの第１領域にノイズを付与することにより、第１画像を生成し、前記元画像のうち前記第１領域を除く第２領域にノイズを付与することにより、第２画像を生成し、前記第１画像と前記第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第１基礎ラベルと、前記元画像の不正解ラベルに対応する第２基礎ラベルとの重み付け加算を、前記第１領域のサイズと、前記第２領域のサイズとの比率である第２比率で行うことにより、前記第１画像に対する第１教師ラベルを生成し、前記第１基礎ラベルと前記第２基礎ラベルとの重み付け加算を前記第２比率とは逆の比率で行うことにより、前記第２画像に対する第２教師ラベルを生成し、前記第１教師ラベルと前記第２教師ラベルとの重み付け加算を前記第１比率で行うことにより、前記合成画像に対する合成教師ラベルを生成することで、前記合成画像及び前記合成画像に対応する前記合成教師ラベルを含む学習用データを生成する。

　また、合成画像は、第１領域及び第２領域に加えて、第１領域及び第２領域とノイズが異なる第３領域を有していてもよい。そして、合成教師ラベルは、第１領域のサイズと、第２領域のサイズと、第３領域のサイズとに基づいて生成されてもよい。

　また、合成画像における第１領域は、矩形状の領域であるが、非矩形状の領域であってもよい。

　本開示は、例えば、画像認識に用いられる学習モデルを生成する学習装置に有用であり、画像認識システム、文字認識システム及び生体認証システム等に適用可能である。

　　１００　学習装置
　　１０１　プロセッサ
　　１０２　メモリ

Claims

　画像認識に用いられる学習モデルを生成する学習方法であって、
　元画像のうちの第１領域にノイズを付与することにより、第１画像を生成し、
　前記元画像のうち前記第１領域を除く第２領域にノイズを付与することにより、第２画像を生成し、
　前記第１画像と前記第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成し、
　前記元画像の正解ラベルに対応する第１基礎ラベルと、前記元画像の不正解ラベルに対応する第２基礎ラベルとの重み付け加算を、前記第１領域のサイズと、前記第２領域のサイズとの比率である第２比率で行うことにより、前記第１画像に対する第１教師ラベルを生成し、
　前記第１基礎ラベルと前記第２基礎ラベルとの重み付け加算を前記第２比率とは逆の比率で行うことにより、前記第２画像に対する第２教師ラベルを生成し、
　前記第１教師ラベルと前記第２教師ラベルとの重み付け加算を前記第１比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、
　前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する
　学習方法。
　複数の第１領域のそれぞれについて、前記第１画像、前記第２画像、前記合成画像、前記第１教師ラベル、前記第２教師ラベル及び前記合成教師ラベルを生成することにより、複数の合成画像及び複数の合成教師ラベルを生成し、
　前記複数の合成画像及び前記複数の合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する
　請求項１に記載の学習方法。
　複数の第１比率のそれぞれについて、前記合成画像及び前記合成教師ラベルを生成することにより、複数の合成画像及び複数の合成教師ラベルを生成し、
　前記複数の合成画像及び前記複数の合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する
　請求項１又は２に記載の学習方法。
　前記第１領域は、

に従って決定され、
　Ｗは、前記元画像の幅を示し、Ｈは、前記元画像の高さを示し、
　ｒ_ｘ１は、前記第１領域の左端を示し、ｒ_ｙ１は、前記第１領域の上端を示し、ｒ_ｘ２は、前記第１領域の右端を示し、ｒ_ｙ２は、前記第１領域の下端を示し、
　ａ～Ｕ［ｂ、ｃ］は、ａがｂからｃまでの一様分布に従って決定されることを示す
　請求項１又は２に記載の学習方法。
　前記第１比率は、Ｂ（α、α）のベータ分布に従って決定され、
　Ｂは、ベータ関数を示し、
　αは、正の実数を示す
　請求項１又は２に記載の学習方法。
　画像認識に用いられる学習モデルを生成する学習装置であって、
　プロセッサ及びメモリを備え、
　前記プロセッサは、前記メモリを用いて、
　元画像のうちの第１領域にノイズを付与することにより、第１画像を生成し、
　前記元画像のうち前記第１領域を除く第２領域にノイズを付与することにより、第２画像を生成し、
　前記第１画像と前記第２画像との重み付け加算を第１比率で行うことにより、合成画像を生成し、
　前記元画像の正解ラベルに対応する第１基礎ラベルと、前記元画像の不正解ラベルに対応する第２基礎ラベルとの重み付け加算を、前記第１領域のサイズと、前記第２領域のサイズとの比率である第２比率で行うことにより、前記第１画像に対する第１教師ラベルを生成し、
　前記第１基礎ラベルと前記第２基礎ラベルとの重み付け加算を前記第２比率とは逆の比率で行うことにより、前記第２画像に対する第２教師ラベルを生成し、
　前記第１教師ラベルと前記第２教師ラベルとの重み付け加算を前記第１比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、
　前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する
　学習装置。
　請求項１又は２に記載の学習方法をコンピュータに実行させるためのプログラム。