WO2022185432A1

WO2022185432A1 - 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム

Info

Publication number: WO2022185432A1
Application number: PCT/JP2021/008095
Authority: WO
Inventors: 智規中井; 達也今井
Original assignee: Ｈｅｒｏｚ株式会社
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2022-09-09

Abstract

検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システムを提供するため、画像認識学習システム１００は、訓練用画像を受け付ける入力部１０と、入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部２０と、特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部３０と、特徴マップ生成部が生成した特徴マップまたはアテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部４０と、訓練用画像に対応する着目画像とアテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部６０と、を備える。検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、早期に学習を安定化できる。

Description

画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム

　本発明は、画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システムに関する。

　従来から、ニューラルネットワークによる深層学習（ディープラーニング）において、ニューラルネットワークの出力が何を根拠に決定されたか不明確であるという問題に対処するために、特徴マップからネットワークの注視領域を表すアテンションマップを出力し認識過程に利用することで、画像認識においてモデルの注視領域の可視化を行うことが試みられている。

　たとえば、特許文献１は、ニューラルネットワークを用いるモデルにおいて、出力に寄与した特徴量を得ることを目的としたデータ処理装置を開示する。このデータ処理装置は、多変量時系列データの特徴量毎に、アテンション機構を用いて、モデルの出力に対する寄与度を表す特徴アテンションを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に特徴アテンションを生成し、生成された各重みを、特徴量に対応付けて出力する。

　また、特許文献２は、多様な入力データを扱うニューラルネットワークであっても、その判断根拠を示す顕著性マップを低コストで作成することを目的とした根拠提示装置を開示する。この根拠提示装置は、機械学習装置のデータセットを参照して学習するニューラルネットワークによる推論の判断根拠を提示する。根拠提示装置では、たとえば、入力画像データに対する正解、不正解の判別結果（「犬が写っている」か否か、等）を判断根拠と共に提示するニューラルネットワークシステムによる学習方法が記載されている。これらの学習方法の適用分野として、製品、部品等が撮影された入力画像において、その製品等が正常な状態なのか、それとも異常個所（傷や損傷など）を含む状態なのかを分類する外観検査の分野が考えられる。

　この点、特許文献３は、外観検査の画像処理技術おいて画像から検出対象を見つけ出す画像処理を最適化できる画像処理システムを開示する。この画像処理システムでは、検査対象製品画像と正常製品画像を入力画像として画像処理を行い、得られた出力画像を教師画像である異常箇所のある画像と比較することによって、検出対象を見つけ出す方法が記載されている。

特開２０２０－１４９６０１号公報特開２０２０－１３５４３８号公報特開２０２０－１０７００９号公報

　しかし、上記の特許文献１、２の技術においては、検出対象となる領域（たとえば、異常箇所）が極めて小さい場合には、その領域を見つけ出すのが難しく、どの領域に注視すべきか判別するのが困難で学習が進まない（安定しない）という問題がある。また、特許文献３の技術においては、異常箇所の画像を教師画像として用いているものの、画像処理の成果を事後的に検証して画像処理を最適化するために用いており、当初より学習を安定させるために異常箇所画像を用いるような考え方は示されていない。

　そこで、本発明は、かかる事情に鑑みて考案されたものであり、検出対象を含む画像を認識するニューラルネットワークを学習させる場合において、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システムを提供するものである。

　上記課題を解決するために、訓練用画像を受け付ける入力部と、入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部と、特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部と、特徴マップ生成部が生成した特徴マップまたはアテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部と、訓練用画像に対応する着目画像とアテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部と、を備える画像認識学習システムが提供される。
　これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システムを提供することができる。

　さらに、画像認識部は、ラベルを出力することを特徴としてもよい。
　これによれば、ラベルにより、画像をクラス分類することができる画像認識学習システムを提供することができる。

　さらに、画像認識部は、予測値を出力することを特徴としてもよい。
　これによれば、予測値により、画像が示す内容を出力することができる画像認識学習システムを提供することができる。

　さらに、訓練用画像に対応する着目画像は、訓練用画像の中で、アテンションマップ生成部が生成するアテンションマップにおける寄与率の高い部分として指示された部分を含む画像であることを特徴としてもよい。
　これによれば、着目画像がアテンションマップにおける寄与率の高い部分として指示された部分を含む画像であることで、計算される損失が検出対象となる領域に焦点が当たったものとなり、検出対象が極めて小さい場合であっても早期に学習の安定化を図ることができる。

　さらに、正常画像と異常部分を含む異常画像とを識別することを学習する画像認識学習システムであって、着目画像は、異常画像の異常部分に対応する着目部分を含むことを特徴としてもよい。
　これによれば、検出対象が異常部分を含む領域である場合、着目画像が異常部分に対応する着目部分を含むことで、計算される損失が異常部分に焦点が当たったものとなり、異常部分が極めて小さい場合であっても早期に学習の安定化を図ることができる異常画像識別用の画像認識学習システムを提供することができる。

　上記課題を解決するために、訓練用画像を受け付けるステップと、受け付けた訓練用画像に基づき特徴マップを生成するステップと、生成した特徴マップに基づきアテンションマップを生成するステップと、生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、を備える画像認識学習方法が提供される。
　これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習方法を提供することができる。

　上記課題を解決するために、訓練用画像を受け付けるステップと、受け付けた訓練用画像に基づき特徴マップを生成するステップと、生成した特徴マップに基づきアテンションマップを生成するステップと、生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、をコンピュータに実行させる画像認識学習プログラムが提供される。
　これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習プログラムを提供することができる。

　上記課題を解決するために、訓練用画像を受け付ける入力部と、入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部と、特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部と、特徴マップ生成部が生成した特徴マップまたはアテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部と、訓練用画像に対応する着目画像とアテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部と、を備える画像認識機械学習器が提供される。
　これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識機械学習器を提供することができる。

　上記課題を解決するために、上記の画像認識学習システムにより学習された画像認識部を含み、入力部は、認識するための画像を受け付け、画像認識部は、入力部が受け付けた画像を認識する、画像認識システムが提供される。
　これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システムにより学習された学習済みモデルを有する画像認識システムを提供することができる。

　以上説明したように、本発明によれば、検出対象を含む画像を認識するニューラルネットワークを学習させる場合において、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システムを提供することができる。

本発明に係る第一実施形態の画像認識学習システムの構成ブロック図。本発明に係る第一実施形態の画像認識学習システムにおける学習過程を示す説明図。本発明に係る第一実施形態の画像認識学習システムにおける学習フローを示すフローチャート。本発明に係る第一実施形態の画像認識学習システムに対する入力画像における、（Ａ）正常画像、（Ｂ）異常画像（異常箇所が極めて小さい例）、（Ｃ）着目画像（異常であることを示す画像）を示す図。本発明に係る第一実施形態の画像認識学習システムにおける損失の計算方法の例を示す図。本発明に係る第二実施形態の画像認識システムの構成ブロック図。本発明に係る第一実施形態の画像認識学習システムおよび第二実施形態の画像認識システムのハードウェア構成図。

　以下では、図面を参照しながら、本発明に係る各実施形態について説明する。
＜第一実施形態＞
　図１～図５を参照し、本実施形態における画像認識学習システム１００を説明する。画像認識学習システム１００は、教師データを使用する教師あり学習のディープラーニングによって、画像を認識・推論する多層ニューラルネットワークを学習させるためのシステムである。ディープラーニングは、多層ニューラルネットワークを使用した認識・推論の精度が向上するように、ネットワーク内の重みの更新を繰り返し実行し、ネットワーク内の適切な重みを導出する機械学習の一手法である。

　一般的に、画像を認識・推論するディープラーニングには、タスクとしては、犬猫、良不良等のクラスのラベルを出力するクラス分類のタスクと、犬が写っている領域や、異常領域等を区分けするセグメンテーションのタスクがある。従来のディープラーニングのクラス分類においては、正解ラベルと認識・推論結果との誤差のみを用い、その誤差を最小化することを目的としてネットワーク内の重みの更新を繰り返すことで学習していく。そのため、たとえば図４のようなバスケットボールの製品の外観検査等において、図４（Ｂ）のように異常箇所（表面の傷）が極めて小さい場合には、セグメンテーションの難易度は比較的低いものの、クラス分類では位置情報が与えられないため異常箇所を見つけ出すのが難しく、学習が不安定になって学習が進まないことがあるという問題がある。

　画像認識学習システム１００は、かかる問題を解決するために、正解ラベルと認識・推論結果との誤差だけでなく、検出対象に焦点を当てる着目画像とアテンションマップとの誤差をも用いることで、誤差（損失）を従来技術に比べてより少ない繰り返し回数で最小化させ、学習を短期間に安定させるものである。

　画像認識学習システム１００は、図１に示すように、訓練・学習用画像を受け付ける入力部１０と、特徴マップを生成する特徴マップ生成部２０と、アテンションマップを生成するアテンションマップ生成部３０と、画像を認識する画像認識部４０と、アテンションマップと画像認識部４０の出力結果を出力する出力部５０と、着目画像とアテンションマップとの損失を計算する着目損失計算部６０と、正解ラベルと出力結果との損失を計算する認識損失計算部７０と、を備える。

　入力部１０は、１ピクセルごとに色情報（色調や階調）を有する２次元の画像データから構成される画像ファイルを受け付ける。入力部１０は、ニューラルネットワークにおいて、入力される画像ファイルの各ピクセルに対応するノードを有する入力層を構成する。一般的に、学習フェーズで入力される画像ファイルは、学習に利用する訓練用画像、ニューラルネットワークの重み再調整に利用する確認用画像、認識結果の評価に利用するテスト用画像に分類できるが、本明細書では、学習フェーズで利用するこれらの画像を訓練用画像または訓練・学習用画像と総称する。入力部１０は、訓練・学習用画像だけでなく、後述するように認識・推論フェーズでは認識・推論するための画像を受け付ける。

　特徴マップ生成部２０は、ニューラルネットワークにおいて所謂隠れ層の一部を構成し、入力部１０が受け付けた画像に基づき特徴マップを生成する。特徴マップとは、受け付けた画像のどこに特徴が存在するのかという反応の強さを示すものである。画像認識学習システム１００におけるニューラルネットワークが畳み込みニューラルネットワークを有する例では、特徴マップ生成部２０は、ニューラルネットワーク構造のおおよそ前半部分に相当し、入力された画像データに対して各フィルタ（特徴検出器）に対応した特徴量を示す複数の特徴マップを出力する。フィルタの数、フィルタのサイズ、ストライドなどのパラメータは適宜選定される。また、生成する特徴マップのサイズや解像度に応じて、プーリングも適宜行われる。

　多層の畳み込みニューラルネットワークでは、このような畳み込み演算を行うことにより低次から高次の特徴マップを得ることができ、どの程度の多層構造を採用するかは適宜定められる。画像認識学習システム１００のニューラルネットワークは、Ｅｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒ構造を基本とするも、主としてＥｎｃｏｄｅｒ要素をから構成されている。特徴マップ生成部２０は、Ｅｎｃｏｄｅｒ構造で得た特徴マップを出力する。特徴マップ生成部２０は、特定のニューラルネットワーク構造に限定されるものではない。

　アテンションマップ生成部３０は、ニューラルネットワークにおいて所謂隠れ層の一部を構成し、特徴マップ生成部２０が生成した特徴マップに基づきアテンションマップを生成する。アテンションマップは、生成した特徴マップに対応した寄与度（出力に対する重要度）を表す重みとして示される。アテンションは、一般的に、特徴マップのどの領域に注目すればいいのかをアテンション機構を適用することにより自動的に学習し、ネットワークの出力の根拠を明確にするため使用される。

　この場合、アテンションマップ生成部３０は、いくつかの畳み込み層を含む全結合層等の直前の特徴マップに対してアテンション機構を適用する。しかし、これに限定されず、どの段階の特徴マップに適用してもよく、特徴マップの出力に寄与する特徴量を高い方から選択してもよい。なお、アテンション機構は、たとえば、特徴マップに対して畳み込み層を適用し、活性化関数を通すことで、幅や高さはそのままでチャネル数が１のアテンションマスクを作成するものである。アテンションマスクは、値が大きいほどその領域に注目するというマスクとして機能する。

　画像認識部４０は、ニューラルネットワークにおいて所謂隠れ層の一部を構成し、特徴マップ生成部２０が生成した特徴マップまたはアテンションマップ生成部３０が生成したアテンションマップに基づき画像を認識・推論する。画像認識部４０は、ニューラルネットワーク構造のおおよそ後半部分に相当し、いくつかの畳み込み層を含む全結合層等を繰り返すことで認識・推論に関して最終的な出力を得る部分である。画像認識部４０は、特徴マップ生成部２０が生成した特徴マップの入力を全結合層で受けて認識・推論に関する出力してもよいし、アテンションマップ生成部３０が生成したアテンションマップの入力を全結合層で受けて認識・推論に関する出力してもよい。また、画像認識部４０は、特徴マップとアテンションマップの両方を受けて、重み付き特徴マップに基づき認識・推論に関する出力してもよい。

　出力部５０は、アテンションマップ生成部３０が生成したアテンションマップと画像認識部４０が認識した出力結果を出力する。画像認識部４０に対する出力部５０は、ニューラルネットワークにおいて、前段の隠れ層からの認識・推論結果をその種類の数に対応させたノードを有する出力層を構成する。たとえば、認識結果が「正常画像」または「異常画像」の２種類である場合、出力部５０は、２つのノードを有し、この２つのラベルについての確率を出力する。また、離散的なクラス分類ではなく、推論結果が画像が示す内容である場合など、連続的な実数値を予測する回帰問題の場合は、目標値の種類に合わせて出力部５０のノード数を決定し、内容である予測値を出力する。画像認識部４０の認識結果がラベルである場合ラベルにより画像をクラス分類することができ、画像認識部４０の推論結果が予測値である場合画像が示す内容を出力することができる。また、アテンションマップ生成部３０に対する出力部５０は、着目画像と比較可能な縦横の大きさとチャネル数を有するピクセル情報を出力する。

　認識損失計算部７０は、訓練・学習用画像に対応する正解ラベルと画像認識部４０が認識・推論した出力結果との損失を計算する。正解ラベルは、それぞれの訓練・学習用画像に対応して事前に用意される。たとえば、犬の訓練・学習画像に対して「犬」という正解ラベル、異常個所を含む訓練・学習画像に対して「異常」という正解ラベルの如きである。認識損失計算部７０は、その正解ラベルと画像認識部４０が認識した出力結果との損失（誤差）を所定の目的関数により算出する。たとえば、最も単純な例では、画像認識部４０が異常個所を含む訓練・学習画像に対して「異常」である確率は８０％である（逆に言えば「正常」である確率は２０％）と出力した場合、正解ラベル「異常」（１００％）に対する損失は減算することにより２０％と算出される。認識損失計算部７０における算出方法は、他にこれらの値から、分類問題の場合は交差エントロピー関数、回帰問題の場合は平均二乗誤差関数を用いて算出してもよく、目的関数は特に限定されない。

　学習フェーズでは、損失が大きければ学習が適切に行われていないことを示し、この損失が小さくなるようにさらに学習される。認識損失計算部７０は、損失が所定の閾値以上であると判断する場合には、ネットワーク内の重み（パラメータ）を調整する。調整の方法は、損失をネットワークの逆方向に伝えて各層の重み行列を更新する誤差逆伝播法が好ましいが、ニューラルネットワークの学習フェーズにおいて出力精度を高めるためにネットワーク内の重みを調整する既知の手法が用いられる。

　着目損失計算部６０は、訓練・学習用画像に対応する着目画像とアテンションマップ生成部３０が生成したアテンションマップとの損失を計算する。着目画像は、訓練・学習用画像の中で画像を認識・推論する際に特徴となる部分（検出対象）に焦点を当てることを目的として、それぞれの訓練・学習用画像に対応して事前に用意される。換言すれば、着目画像は、訓練・学習用画像の中でアテンションマップや特徴マップにおける寄与率の高い部分として指示された部分を含む画像である。

　たとえば、着目画像は、犬の訓練・学習画像に対して「犬の顔」の部分に焦点を当てる領域として指示された画像、異常個所を含む訓練・学習画像に対して「損傷個所」の部分に焦点を当てる領域として指示された画像である。このように、着目画像がアテンションマップにおける寄与率の高い部分として指示された部分を含む画像であることで、計算される損失が検出対象となる領域に焦点が当たったものとなり、検出対象が極めて小さい場合であっても早期に学習の安定化を図ることができる。着目画像は、たとえば、訓練・学習用画像のそれぞれに対応して、人が塗ったり、明るさ・色・位置を追加削除変更したり、実際に異常を含む物体を検出したりして、事前に用意される。

　バスケットボールの表面における傷（損傷個所）の例を図４に示す。本図（Ａ）は、バスケットボールの表面に傷は無い正常な状態のバスケットボールの画像（正常画像）である。本図（Ｂ）は、中央やや下の辺りにパネル間の縫い目に沿って三角状の傷の有る異常な状態のバスケットボールの画像（異常画像）である。本図（Ｃ）は、バスケットボールが正常か異常かを認識する場合に特徴となりうる部分を、本図（Ｂ）の三角状の傷（着目部分）に対応して示した着目画像である。たとえば、バスケットボールがパネル間の縫い目に沿った領域に傷があることが多いという知見があるならば、縫い目に沿った領域（着目部分）を示した画像が着目画像となる。このように、検出対象が異常部分を含む領域である場合、着目画像が異常部分に対応する着目部分を含むことで、計算される損失が異常部分に焦点が当たったものとなり、異常部分が極めて小さい場合であっても早期に学習の安定化を図ることができる異常画像識別用の画像認識学習システム１００を提供することができる。

　着目損失計算部６０は、そのような着目画像とアテンションマップ生成部３０が生成したアテンションマップとの損失（誤差）を計算する。損失の算出方法の一例を図５に示す。なお、本図は画像が９つの単位領域から構成されている。本図は、用意した着目画像と生成されたアテンションマップ（画像）を比較し、２枚の画像を引き算して２乗にして平均することで損失を計算、すなわち平均二乗誤差を計算することを示している。本図における着目画像は、画像の下３分の１に最も焦点を当てる領域（２００の重みを有する領域）として、画像の中段３分の１は２番目に焦点を当てる領域（１００の重みを有する領域）として、画像の上３分の１に最も焦点を当てなくてよい領域（０の重みを有する領域）として指示されている。

　生成されたアテンションマップ（Ａ）は、特徴マップ生成部２０が特徴マップを生成する際に最も寄与度が高いと認識した領域（２００の重みを有する領域）は画像の右３分の１であり、寄与度が中程度と認識した領域（１００の重みを有する領域）は中央３分の１であり、寄与度が最も低いと認識した領域（０の重みを有する領域）は右３分の１であることを示している。着目画像からアテンションマップ（Ａ）を減算し、減算した値を２乗し、これらの値を加算し平均すると、単位領域平均で１６６６６の損失があると算出される。また、生成されたアテンションマップ（Ｂ）は、寄与度が左右方向だけでなく上下方向にも違いがある場合を示す。この場合も同様に損失を算出すると、損失は３３３３と算出される。アテンションマップ（Ａ）とアテンションマップ（Ｂ）を比較すると、アテンションマップ（Ａ）の方が、損失が大きいことになる。

　着目損失計算部６０が算出した損失が大きいということは、特徴マップ生成部２０が特徴マップを生成する際に最も寄与度が高いと認識した領域と、着目画像が示すアテンションマップにおける寄与率の高い部分として指示した領域とが大きくずれていることを意味している。学習フェーズでは、この損失が大きい場合学習が適切に行われていないことを示し、この損失が小さくなるようにさらに学習される。

　図２は、例として、着目損失計算部６０および認識損失計算部７０で算出された損失を用いて、ネットワークを逆に遡りながらネットワーク内の重みを補正してゆく（逆伝播）過程を示す。着目損失計算部６０は、出力部５０を介して、アテンションマップ生成部３０が生成したアテンションマップを受け取った後、上述したようにアテンションマップと着目画像の損失を算出する。そして、その損失が所定の閾値以上である場合、着目損失計算部６０は、算出した損失を出力部５０における損失として、その損失をアテンションマップ生成部３０の重み、さらに特徴マップ生成部２０の重みに逆伝播させて、ニューラルネットワーク内のノード間の重みを補正し、更新してゆく。

　同様に、認識損失計算部７０は、出力部５０を介して、画像認識部４０が出力した認識・推論結果を受け取った後、上述したように出力結果と正解ラベルの損失を算出する。そして、その損失が所定の閾値以上である場合、認識損失計算部７０は、算出した損失を出力部５０における損失として、その損失を画像認識部４０の重み、さらに特徴マップ生成部２０の重みやアテンションマップ生成部３０の重みに逆伝播させて、ニューラルネットワーク内のノード間の重みを補正し、更新してゆく。これらの更新は、同時に行われてもよい。すなわち、特徴マップ生成部２０、アテンションマップ生成部３０、画像認識部４０が完全に独立したネットワークで別々に学習しているわけではなく、１つのネットワークで学習も同時に行っており、損失が発生したという情報が遡るように出力側から入力側に伝わって、ネットワーク全体が学習されるようになっていることが好ましい。

　これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システム１００を提供することができる。すなわち、画像認識学習システム１００は、正解ラベルとの損失を算出する認識損失計算部７０だけであると学習過程における情報が不十分だが、アテンションマップと着目画像の損失を算出する着目損失計算部６０があることで早期に学習を安定させることができる。しかも、着目損失計算部６０を設けることは、難易度が比較的低く、容易に実装可能である。

　図３を参照して、画像認識学習システム１００における学習フローを説明する。なお、フローチャートにおけるＳはステップを意味する。画像認識学習システム１００は、Ｓ１００において、入力部１０から訓練・学習用画像を入力される。特徴マップ生成部２０は、Ｓ１０２において、初期の重みに従って、入力された訓練・学習用画像の特徴量を演算し、特徴マップを生成する。アテンションマップ生成部３０は、Ｓ１０４において、生成された特徴マップに基づきアテンションマップを生成する。着目損失計算部６０は、Ｓ１０６において、生成されたアテンションマップと着目画像を比較して損失を計算する。

　一方、画像認識部４０は、Ｓ１０８において、生成された特徴マップとアテンションマップに基づき認識・推論を行う。認識損失計算部７０は、Ｓ１１０において、認識・推論結果と正解ラベルを比較して損失を計算する。画像認識学習システム１００は、Ｓ１１２において、Ｓ１０６とＳ１１０で算出した損失をまとめて、誤差逆伝播法を用いてニューラルネットワーク内のノード間の初期の重みを更新する。さらに、他の訓練・学習用画像が入力されると上記の学習フローが繰り返され、徐々に重みが更新されていき学習が進むことになる。

　上述したことは、画像を認識する学習方法でもある。すなわち、この画像認識学習方法は、訓練用画像を受け付けるステップと、受け付けた訓練用画像に基づき特徴マップを生成するステップと、生成した特徴マップに基づきアテンションマップを生成するステップと、生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、認識・推論した出力結果と正解ラベルとの損失を計算するステップと、を備える方法である。

　これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習方法を提供することができる。上述した方法は、コンピュータに実行させるプログラム、ソフトウェア、モジュール、アプリケーションとして提供されてもよい。同様に、着目画像を当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習プログラム等を提供することができる。

　なお、「プログラム」とは、任意の言語または記述方法にて記述されたデータ処理方法であり、ソースコードまたはバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、ＯＳに代表される別個のプログラムと協働してその機能を達成するものをも含む。

　また、画像認識学習プログラム等を汎用の計算機のプロセッサ（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）により実行することもできるが、この画像認識学習方法のロジックをハードウェアとして構成し、行列計算を並列的に高速に処理するＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）により実行するも可能である。これにより、着目画像を当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識機械学習器を提供することができる。

＜第二実施形態＞
　図６を参照し、本実施形態における画像認識システム１を説明する。画像認識システム１は、認識・推論用画像を受け付ける入力部１０と、画像認識学習システム１００により学習された特徴マップを生成する特徴マップ生成部２０と、学習された特徴マップに基づき入力された画像を認識・推論する画像認識部４０と、画像認識部４０の認識・推論結果を出力する出力部５０と、を備える。特徴マップ生成部２０と画像認識部４０のニューラルネットワークにおけるノード間の重みは、上述した画像認識学習システム１００により学習行った学習済みの重みである。

　これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システム１００により学習された学習済みモデルを有する画像認識システム１を提供することができる。

　なお、本発明が適用される画像認識の分野は、製品や部品等の外観検査の他、いわゆる犬猫分類や、建物の修復後の画像と修復前の画像の比較等、種々の分野に適用できる。特に、検出対象や着目部分となる領域が画像全体の領域に比べて極めて小さい場合に適用されることが好ましい。

＜画像認識学習システムおよび画像認識システムにおけるハードウェア構成の例＞
　図７を参照し、本開示の実施形態による態様を実施するためのコンピュータシステム３００を説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム３００の主要コンポーネントは、１つ以上のプロセッサ３０２、メモリ３０４、端末インターフェース３１２、ストレージインターフェース３１４、Ｉ／Ｏ（入出力）デバイスインターフェース３１６、及びネットワークインターフェース３１８を含む。これらのコンポーネントは、メモリバス３０６、Ｉ／Ｏバス３０８、バスインターフェースユニット３０９、及びＩ／Ｏバスインターフェースユニット３１０を介して、相互的に接続されてもよい。

　コンピュータシステム３００は、プロセッサ３０２と総称される１つ又は複数の汎用プログラマブル中央処理装置（ＣＰＵ）３０２Ａ及び３０２Ｂを含んでもよい。ある実施形態では、コンピュータシステム３００は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム３００は単一のＣＰＵシステムであってもよい。各プロセッサ３０２は、メモリ３０４に格納された命令を実行し、オンボードキャッシュを含んでもよい。

　ある実施形態では、メモリ３０４は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体（揮発性又は不揮発性のいずれか）を含んでもよい。ある実施形態では、メモリ３０４は、コンピュータシステム３００の仮想メモリ全体を表しており、ネットワークを介してコンピュータシステム３００に接続された他のコンピュータシステムの仮想メモリを含んでもよい。メモリ３０４は、概念的には単一のものとみなされてもよいが、他の実施形態では、このメモリ３０４は、キャッシュおよび他のメモリデバイスの階層など、より複雑な構成となる場合がある。例えば、メモリは複数のレベルのキャッシュとして存在し、これらのキャッシュは機能毎に分割されてもよい。その結果、１つのキャッシュは命令を保持し、他のキャッシュはプロセッサによって使用される非命令データを保持する構成であってもよい。メモリは、いわゆるＮＵＭＡ（Ｎｏｎ－Ｕｎｉｆｏｒｍ　Ｍｅｍｏｒｙ　Ａｃｃｅｓｓ）コンピュータアーキテクチャのように、分散され、種々の異なるＣＰＵに関連付けられてもよい。

　メモリ３０４は、本明細書で説明する機能を実施するプログラム、モジュール、アプリケーション及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ３０４は、画像認識学習アプリケーション３５０を格納していてもよい。ある実施形態では、画像認識学習アプリケーション３５０は、後述する機能をプロセッサ３０２上で実行する命令又は記述を含んでもよく、あるいは別の命令又は記述によって解釈される命令又は記述を含んでもよい。ある実施形態では、画像認識学習アプリケーション３５０は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および／または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、画像認識学習アプリケーション３５０は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス（図示せず）が、バスインターフェースユニット３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するように提供されてもよい。このような構成では、プロセッサ３０２がメモリ３０４及び画像認識学習アプリケーションにアクセスする必要性が低減する可能性がある。メモリ３０４に格納された画像認識学習アプリケーション用プログラムは、プロセッサ３０２に逐次ロードされ実行されることにより、コンピュータシステム３００は、画像認識学習システム１００を構成する。

　コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、表示システム３２４、及びＩ／Ｏバスインターフェースユニット３１０間の通信を行うバスインターフェースユニット３０９を含んでもよい。Ｉ／Ｏバスインターフェースユニット３１０は、様々なＩ／Ｏユニットとの間でデータを転送するためのＩ／Ｏバス３０８と連結していてもよい。Ｉ／Ｏバスインターフェースユニット３１０は、Ｉ／Ｏバス３０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）又はＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインターフェースユニット３１２、３１４、３１６、及び３１８と通信してもよい。表示システム３２４は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置３２６に提供することができる。また、コンピュータシステム３００は、データを収集し、プロセッサ３０２に当該データを提供するように構成された１つまたは複数のセンサ等のデバイスを含んでもよい。表示メモリは、ビデオデータをバッファするための専用メモリであってもよい。表示システム３２４は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置３２６に接続されてもよい。ある実施形態では、表示装置３２６は、オーディオをレンダリングするためスピーカを含んでもよい。あるいは、オーディオをレンダリングするためのスピーカは、Ｉ／Ｏインターフェースユニットと接続されてもよい。他の実施形態では、表示システム３２４が提供する機能は、プロセッサ３０２を含む集積回路によって実現されてもよい。同様に、バスインターフェースユニット３０９が提供する機能は、プロセッサ３０２を含む集積回路によって実現されてもよい。

　Ｉ／Ｏインターフェースユニットは、様々なストレージ又はＩ／Ｏデバイスと通信する機能を備える。例えば、端末インターフェース３１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス３２０の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス３２０及びコンピュータシステム３００に対して入力データや指示を入力し、コンピュータシステム３００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス３２０を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。

　ストレージインターフェース３１４は、１つ又は複数のディスクドライブや直接アクセスストレージ装置３２２（通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい）の取り付けが可能である。ある実施形態では、ストレージ装置３２２は、任意の二次記憶装置として実装されてもよい。メモリ３０４の内容は、記憶装置３２２に記憶され、必要に応じて記憶装置３２２から読み出されてもよい。Ｉ／Ｏデバイスインターフェース３１６は、プリンタ、ファックスマシン等の他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース３１８は、コンピュータシステム３００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク３３０であってもよい。

　図７に示されるコンピュータシステム３００は、プロセッサ３０２、メモリ３０４、バスインターフェースユニット３０９、表示システム３２４、及びＩ／Ｏバスインターフェースユニット３１０の間の直接通信経路を提供するバス構造を備えているが、他の実施形態では、コンピュータシステム３００は、階層構成、スター構成、又はウェブ構成のポイントツーポイントリンク、複数の階層バス、平行又は冗長の通信経路を含んでもよい。さらに、Ｉ／Ｏバスインターフェースユニット３１０及びＩ／Ｏバス３０８が単一のユニットとして示されているが、実際には、コンピュータシステム３００は複数のＩ／Ｏバスインターフェースユニット３１０又は複数のＩ／Ｏバス３０８を備えてもよい。また、Ｉ／Ｏバス３０８を様々なＩ／Ｏデバイスに繋がる各種通信経路から分離するための複数のＩ／Ｏインターフェースユニットが示されているが、他の実施形態では、Ｉ／Ｏデバイスの一部または全部が、１つのシステムＩ／Ｏバスに直接接続されてもよい。

　ある実施形態では、コンピュータシステム３００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム３００は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。

　なお、本発明は、例示した実施例に限定するものではなく、特許請求の範囲の各項に記載された内容から逸脱しない範囲の構成による実施が可能である。すなわち、本発明は、主に特定の実施形態に関して特に図示され、かつ説明されているが、本発明の技術的思想および目的の範囲から逸脱することなく、以上述べた実施形態に対し、数量、その他の詳細な構成において、当業者が様々な変形を加えることができるものである。

　１　　　　画像認識システム
　１００　　画像認識学習システム
　１０　　　入力部
　２０　　　特徴マップ生成部
　３０　　　アテンションマップ生成部
　４０　　　画像認識部
　５０　　　出力部
　６０　　　着目損失計算部
　７０　　　認識損失計算部
　ＮＮ　　　ニューラルネットワーク

Claims

　訓練用画像を受け付ける入力部と、
　前記入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部と、
　前記特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部と、
　前記特徴マップ生成部が生成した特徴マップまたは前記アテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部と、
　訓練用画像に対応する着目画像と前記アテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部と、
　を備える画像認識学習システム。
　前記画像認識部は、ラベルを出力することを特徴とする請求項１に記載の画像認識学習システム。
　前記画像認識部は、予測値を出力することを特徴とする請求項１に記載の画像認識学習システム。
　訓練用画像に対応する着目画像は、訓練用画像の中で、前記アテンションマップ生成部が生成するアテンションマップにおける寄与率の高い部分として指示された部分を含む画像であることを特徴とする請求項１乃至３のいずれかに記載の画像認識学習システム。
　正常画像と異常部分を含む異常画像とを識別することを学習する画像認識学習システムであって、
　着目画像は、異常画像の異常部分に対応する着目部分を含むことを特徴とする請求項１乃至４のいずれかに記載の画像認識学習システム。
　訓練用画像を受け付けるステップと、
　受け付けた訓練用画像に基づき特徴マップを生成するステップと、
　生成した特徴マップに基づきアテンションマップを生成するステップと、
　生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、
　訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、
　を備える画像認識学習方法。
　訓練用画像を受け付けるステップと、
　受け付けた訓練用画像に基づき特徴マップを生成するステップと、
　生成した特徴マップに基づきアテンションマップを生成するステップと、
　生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、
　訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、
　をコンピュータに実行させる画像認識学習プログラム。
　訓練用画像を受け付ける入力部と、
　前記入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部と、
　前記特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部と、
　前記特徴マップ生成部が生成した特徴マップまたは前記アテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部と、
　訓練用画像に対応する着目画像と前記アテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部と、
　を備える画像認識機械学習器。
　請求項１乃至５のいずれかに記載の画像認識学習システムにより学習された前記画像認識部を含み、
　前記入力部は、認識するための画像を受け付け、
　前記画像認識部は、前記入力部が受け付けた画像を認識する、
　画像認識システム。