WO2021220990A1

WO2021220990A1 - 画像認識装置および画像認識プログラム

Info

Publication number: WO2021220990A1
Application number: PCT/JP2021/016538
Authority: WO
Inventors: 弘亘藤吉; 隆義山下; 翼平川; 祐輔坂下
Original assignee: 学校法人中部大学; 株式会社ニデック
Priority date: 2020-04-28
Filing date: 2021-04-23
Publication date: 2021-11-04
Also published as: JPWO2021220990A1

Abstract

ネットワークモデル２０は、入力画像４０に対して互いに異なる認識処理を実行する複数のユニット３０を備える。各々のユニット３０は、アテンション部３１と認識部３３を備える。アテンション部３１は、入力画像４０上で注目される注目度の分布を示すアテンションマップ４２を出力する。認識部３３は、アテンションマップ４２と、入力画像４０から抽出された特徴を示す特徴マップ４１に基づいて、入力画像４０に対する認識結果を出力する。いずれかのユニット３０におけるアテンション部３１が、入力画像４０を把握した人による指示に応じて生成された正解アテンションマップによって訓練される。

Description

画像認識装置および画像認識プログラム

　本開示は、機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置、および、画像認識装置によって実行される画像認識プログラムに関する。

　近年、機械学習アルゴリズムを利用して画像を認識する際に、アテンションマップを生成する技術が知られている（例えば、非特許文献１、２参照）。アテンションマップは、ネットワークモデルによる推論時に注目された画像内の領域を示す。

Ｒａｍｐｒａｓａａｔｈ，　Ｒ．，　Ｓ．，　Ｍｉｃｈａｅｌ，　Ｃ．，　Ａｂｈｉｓｈｅｋ，　Ｄ．，　Ｒａｍａｋｒｉｓｈｎａ，　Ｖ．，　Ｄｅｖｉ，　Ｐ．　ａｎｄ　Ｄｈｒｕｖ，　Ｂ．：　Ｇｒａｄ－ＣＡＭ：　Ｖｉｓｕａｌ　Ｅｘｐｌａｎａｔｉｏｎｓ　ｆｒｏｍ　Ｄｅｅｐ　Ｎｅｔｗｏｒｋｓ　ｖｉａ　Ｇｒａｄｉｅｎｔ－Ｂａｓｅｄ　Ｌｏｃａｌｉｚａｔｉｏｎ，　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ，　ｐｐ．　６１８－６２６　（２０１７）．Ｚｈｏｕ，　Ｂ．，　Ｋｈｏｓｌａ，　Ａ．，　Ｌａｐｅｄｒｉｚａ，　Ａ．　ａｎｄ　Ｔｏｒｒａｌｂａ，　Ａ．：　Ｌｅａｒｎｉｎｇ　Ｄｅｅｐ　Ｆｅａｔｕｒｅｓ　ｆｏｒ　Ｄｉｓｃｒｉｍｉｎａｔｉｖｅ　Ｌｏｃａｌｉｚａｔｉｏｎ，　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ，　ｐｐ．　２９２１－２９２９　（２０１６）．

　従来の技術では、１つの画像に対して１つのアテンションマップが生成される。この場合、推論時に注目される画像内の領域の分布が単調となり易かった。つまり、１つのアテンションマップのみを生成する方法では、例えば、推論時に注目される画像内の領域が不要に局所領域に限定されてしまう場合、不必要に広くなり過ぎてしまう場合、または、注目される領域の境界が不明瞭となってしまう場合等が多く、画像の認識精度を向上させることが困難であった。さらに、アテンションマップによって示される推論時の注目領域の分布が、人が注目する領域の分布と異なっている場合には、人による認識結果とは異なる認識結果が出力され易い。

　本開示の典型的な目的は、人による画像の認識結果に近い認識結果をより適切に出力することが可能な画像認識装置および画像認識プログラムを提供することである。

　本開示における典型的な実施形態が提供する画像認識装置は、機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置であって、前記ネットワークモデルは、入力される画像である入力画像に対して互いに異なる認識処理を実行する複数のユニットを備え、各々の前記ユニットは、前記入力画像上で注目される注目度の分布を示すアテンションマップを出力するアテンション部と、前記アテンションマップと、入力画像から抽出された特徴を示す特徴マップとに基づいて、前記入力画像に対する認識結果を出力する認識部と、を備え、少なくとも、いずれかの前記ユニットにおける前記アテンション部が、前記入力画像を把握した人による指示に応じて生成されたアテンションマップである正解アテンションマップによって訓練される。

　本開示における典型的な実施形態が提供する画像認識プログラムは、機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置によって実行される画像認識プログラムであって、前記画像認識プログラムが前記画像認識装置のコントローラによって実行されることで、画像に対して互いに異なる認識処理を実行する複数のユニットを備えた前記ネットワークモデルに、入力画像を入力する画像入力ステップと、前記複数のユニットの各々が備えるアテンション部に、前記入力画像上で注目される注目度の分布を示すアテンションマップを出力させるアテンションマップ取得ステップと、前記複数のユニットの各々が備える認識部に、前記アテンションマップと、前記入力画像から抽出された特徴を示す特徴マップとに基づく前記入力画像の認識結果を出力させる認識結果取得ステップと、を前記画像認識装置に実行させ、少なくとも、いずれかの前記ユニットにおける前記アテンション部が、前記入力画像を把握した人による指示に応じて生成されたアテンションマップである正解アテンションマップによって訓練される。

　本開示に係る画像認識装置および画像認識プログラムによると、人による画像の認識結果に近い認識結果がより適切に出力される。

　本開示で例示する画像認識装置は、画像認識プログラムがコントローラによって実行されることで仮想的に実現されるネットワークモデルを備える。ネットワークモデルは複数のユニットを備える。複数のユニットは、ネットワークモデルに入力される画像（入力画像）に対して互いに異なる認識処理を実行する。各々のユニットは、アテンション部と認識部を備える。アテンション部は、入力画像上で注目される注目度の分布を示すアテンションマップを出力する。認識部は、アテンションマップと、入力画像から抽出された特徴の分布を示す特徴マップとに基づいて、入力画像に対する認識結果を出力する。少なくとも、いずれかのユニットにおけるアテンション部が、入力画像を把握した人による指示に応じて生成されたアテンションマップ（正解アテンションマップ）によって訓練される。

　換言すると、本開示で例示する画像認識装置は、画像入力ステップ、アテンションマップ取得ステップ、および、認識結果取得ステップを実行する。画像入力ステップでは、複数のユニットを備えたネットワークモデルに入力画像が入力される。アテンションマップ取得ステップでは、画像認識装置は、複数のユニットの各々が備えるアテンション部に、アテンションマップを出力させる。認識結果取得ステップでは、画像認識装置は、複数のユニットの各々が備える認識部に、入力画像の認識結果を出力させる。少なくとも、いずれかのユニットにおけるアテンション部が、正解アテンションマップによって訓練される。

　本開示で例示する画像認識装置によると、互いに異なる認識処理を実行する複数のユニットの各々によって、アテンションマップが出力され、且つ、認識結果が出力される。従って、各々のユニットが実行する認識処理に応じた複数のアテンションマップが、１つの入力画像に対して生成されたうえで、各々のアテンションマップに応じた複数の認識結果が出力される。よって、画像がより適切に認識される。さらに、ネットワークモデルのうち、少なくともいずれかのアテンション部が、入力画像を把握した人による指示に応じて生成された正解アテンションマップによって訓練される。つまり、ユーザは、ネットワークモデルに含まれる複数のアテンション部の各々に対して、正解アテンションマップによる学習を実行させるか否か、および、学習させる正解アテンションマップの内容を、個別に判断することが可能である。その結果、正解アテンションマップの生成を指示した人またはグループ（以下、「模範ユーザ」という）の知見が、アテンション部によって適切に学習され、模範ユーザによる認識結果に近い認識結果が出力され易くなる。よって、高い精度の認識結果が適切に出力され易くなる。

　なお、正解アテンションマップを用いた訓練は、一旦構築されたネットワークモデルが再訓練される際に採用されてもよいし、ネットワークモデルを構築する際の最初の訓練時に採用されてもよい。また、認識部が出力する認識結果は、入力画像に関する特徴量であってもよい。この場合、複数のユニットの各々によって出力された複数の特徴量が統合されることで、入力画像に関する最終的な認識結果が出力されてもよい。

　ネットワークモデルは、入力画像から抽出される特徴の分布を示す特徴マップを出力する特徴抽出部を備えていてもよい。アテンション部は、特徴抽出部によって出力された特徴マップに基づいて、アテンションマップを生成して出力してもよい。この場合、特徴抽出部によって抽出される特徴に応じて、アテンションマップおよび認識結果が適切に出力される。

　複数のユニットは、入力画像内で注目する注目領域の大きさ、数、形状、および、入力画像について認識する認識内容の少なくともいずれかが互いに異なる認識処理を、同一の入力画像に対して実行してもよい。この場合、１つの入力画像に対して、注目領域および認識内容の少なくともいずれかが異なる複数の認識処理が、適切に実行される。従って、１つのユニットによって認識処理が実行される場合に比べて、認識精度が適切に向上する。

　正解アテンションマップの生成を指示する人または複数の人のグループ（模範ユーザ）毎に、ネットワークモデルが別々に訓練されてもよい。この場合、模範ユーザ毎に異なる知見が、別々にネットワークモデルによって学習される。よって、ユーザは、例えば、希望する模範ユーザの知見を学習したネットワークモデルを用いて、画像の認識結果を得ることも可能である。また、ユーザは、自分の知見をネットワークモデルに学習させることで、自分の認識に近い認識をネットワークモデルに実行させることも可能である。

　ネットワークモデルの訓練に用いられた正解アテンションマップの生成を指示した人またはグループを識別する識別情報が、ネットワークモデルに付与されていてもよい。画像認識装置の制御部は、認識結果を出力したネットワークモデルに付与された識別情報を、ユーザに通知してもよい。この場合、ユーザは、学習のための知見を提供した模範ユーザを識別したうえで、ネットワークモデルによって出力された認識結果を確認することができる。

　画像認識装置の制御部は、同一の入力画像について、複数のアテンション部によって出力された複数のアテンションマップを、各々を識別可能な状態で表示部に表示させた状態で、複数のアテンションマップの少なくともいずれかに対するユーザからの修正指示の入力を受け付けてもよい。制御部は、入力された修正指示に応じた正解アテンションマップを生成してもよい。この場合、ユーザは、出力されたアテンションマップに示される注目度の分布（注目領域）と、自らが認識する入力画像内の注目領域とを、複数のアテンションマップの各々について適切に比較したうえで、修正が必要なアテンションマップに対して修正を行うことができる。従って、ユーザの知見がより適切にネットワークモデルに反映される。

　複数のユニットの各々は、実行した認識処理の確度を出力してもよい。画像認識装置の制御部は、複数のユニットの各々から出力された複数のアテンションマップのうち、実行した認識処理の確度が低いユニットから出力されたアテンションマップの修正の優先順位を、確度が高いユニットから出力されたアテンションマップの修正の優先順位よりも高くしてもよい。実行した認識処理の確度が低いユニットでは、アテンションマップが示す注目度の分布と、実際に人が認識する注目度の分布との間の差が大きい場合が多い。従って、認識処理の確度が低いユニットのアテンションマップが、優先して修正されることで、人の知見がより効率よくネットワークモデルに反映される。

　なお、認識処理の確度を示す情報には、種々の情報を利用することができる。例えば、複数のアテンション部の各々は、アテンションマップと共に、入力画像に対する認識結果の確度を出力してもよい。この場合、アテンション部によって出力された確度に基づいて、アテンションマップの修正の優先順位が設定されてもよい。また、複数の認識部の各々が出力する認識結果の確度に基づいて、アテンションマップの修正の優先順位が設定されてもよい。

　アテンションマップを修正する優先順位の具体的な設定方法も、適宜選択できる。例えば、制御部は、複数のアテンションマップのうち、認識処理の確度が閾値以下であるユニットのアテンションマップを、修正する候補としてユーザに提示してもよい。また、制御部は、認識処理の確度が低い順に、複数のアテンションマップを修正候補としてユーザに提示してもよい。また、制御部は、アテンション部によって出力されたアテンションマップと、人の指示に応じて生成された正解アテンションマップの誤差が大きい順（つまり、両者の類似度が小さい順）に、複数のアテンションマップの修正の優先順位を設定してもよい。また、制御部は、単純に複数のアテンションマップを表示部に表示させることで、修正が必要なアテンションマップをユーザに選択させてもよい。

　ネットワークモデルに入力される画像は、生体の組織を撮影した生体画像であってもよい。ネットワークモデルは、複数のユニットによって、生体画像に写る組織における特定の疾患の程度の認識結果を出力してもよい。この場合、互いに異なる認識処理を実行する複数のユニットによって、組織における特定の疾患の程度が高い精度で認識される。

　ネットワークモデルによって認識される特定の疾患の種類は、適宜選択できる。例えば、画像は、被検眼の眼底組織を撮影した眼底画像であってもよい。ネットワークモデルは、眼底画像に写る組織における糖尿病網膜症および加齢黄斑変性等の少なくともいずれかの疾患の程度を認識してもよい。また、画像は、被検者の内臓を撮影した生体画像であってもよい。ネットワークモデルは、生体画像に写る組織における癌等の疾患の程度を認識してもよい。また、画像は、製造、加工、または修理された物品を撮影した検査画像であってもよい。ネットワークモデルは、検査画像に写る物品の品質（例えば、欠陥、傷、汚れ、異物、形状不良等）の程度を認識してもよい。

　本開示で例示するネットワークモデルを、画像の認識方法をユーザに教育するための教育用アプリケーションまたは教育用装置に搭載してもよい。この場合、ユーザは、自らの画像の認識結果と、人（例えば熟練者等）の知見が学習されたネットワークモデルによって出力された認識結果を適切に比較することができる。よって、ユーザは、ネットワークモデルに知見を提供した人の技能を、教育用アプリケーションまたは装置を用いて適切に習得することができる。

画像認識装置１および撮影装置１０の概略構成を示すブロック図である。本実施形態のネットワークモデル２０の構成を示す図である。画像認識装置１が実行するモデル訓練処理のフローチャートである。正解アテンションマップが生成される際の表示画面５０、および、生成された正解アテンションマップ４３Ｂの一例を示す図である。画像認識装置１が実行する画像認識処理のフローチャートである。

（装置構成）
　以下、本開示における典型的な実施形態の１つについて、図面を参照して説明する。図１に示すように、本実施形態では画像認識装置１および撮影装置１０が用いられる。画像認識装置１は、機械学習アルゴリズムによってネットワークモデル２０（図２参照）を訓練（再訓練を含む）させることで、ネットワークモデル２０を構築する。また、画像認識装置１は、構築されたネットワークモデル２０を使用して、撮影装置１０から取得した画像に対する認識結果を出力する。つまり、本実施形態の画像認識装置１は、ネットワークモデル２０を訓練して構築するモデル構築装置としての機能と、構築されたネットワークモデル２０を使用して画像を認識する画像認識装置としての機能を兼ねる。しかし、モデル構築装置と画像認識装置が別々に設けられていてもよい。また、モデル構築装置および画像認識装置の少なくとも一方が、複数使用されてもよい。例えば、複数のモデル構築装置によって、１つのネットワークモデル２０が構築されてもよい。また、画像を撮影する撮影装置１０が、モデル構築装置および画像認識装置の少なくとも一方として機能してもよい。

　本実施形態の画像認識装置１にはＰＣが用いられる。しかし、画像認識装置１として機能できるデバイスは、ＰＣに限定されない。例えば、画像を撮影する撮影装置１０、またはサーバ等が、画像認識装置１として機能してもよい。また、タブレット端末またはスマートフォン等の携帯端末が、画像認識装置１として機能してもよい。複数のデバイスの制御部（例えば、ＰＣのＣＰＵと、撮影装置１０のＣＰＵ１３）が、協働して各種処理を行ってもよい。

　なお、本実施形態では、認識処理を行う対象の画像として、被検眼の眼底組織を被検眼の視線方向から撮影した二次元の眼底正面画像が用いられる場合を例示する。しかし、認識処理を行う対象の画像が、眼底正面画像以外の画像である場合でも、本開示で例示する技術の少なくとも一部を適用できる。例えば、認識処理を行う対象の画像は、被検眼の眼底の深さ方向の情報を含む二次元断層画像または三次元断層画像であってもよい。認識処理を行う対象の画像は、被検眼の眼底以外の組織の画像（例えば前眼部画像等）であってもよいし、被検眼以外の生体組織の画像（例えば内臓の画像等）であってもよい。また、認識処理を行う対象の画像は、製造、加工、または修理された物品を撮影した検査画像等であってもよい。

　画像認識装置１について説明する。本実施形態の画像認識装置１は、例えば、被検者の診断または検査等を行う施設（例えば、病院または健康診断施設等）に配置される。画像認識装置１は、各種制御処理を行う制御ユニット２と、通信Ｉ／Ｆ５を備える。制御ユニット２は、制御を司るコントローラであるＣＰＵ３と、プログラムおよびデータ等を記憶することが可能な記憶装置４を備える。記憶装置４には、後述するモデル訓練処理（図３参照）および画像認識処理（図５参照）を実行するための画像認識プログラムが記憶されている。なお、画像認識プログラムには、後述するネットワークモデル２０（図２参照）を実現させるプログラムも含まれる。また、通信Ｉ／Ｆ５は、画像認識装置１を他のデバイス（例えば、撮影装置１０等）と接続する。

　画像認識装置１は、操作部７および表示装置８に接続されている。操作部７は、ユーザが各種指示を画像認識装置１に入力するために、ユーザによって操作される。操作部７には、例えば、キーボード、マウス、タッチパネル等の少なくともいずれかを使用できる。なお、操作部７と共に、または操作部７に代えて、各種指示を入力するためのマイク等が使用されてもよい。表示装置８は、各種画像を表示する。表示装置８には、画像を表示可能な種々のデバイス（例えば、モニタ、ディスプレイ、プロジェクタ等の少なくともいずれか）を使用できる。なお、本開示における「画像」には、静止画像も動画像も共に含まれる。

　画像認識装置１は、撮影装置１０から画像のデータ（以下、単に「画像」という場合もある）を取得することができる。画像認識装置１は、例えば、有線通信、無線通信、着脱可能な記憶媒体（例えばＵＳＢメモリ）等の少なくともいずれかによって、撮影装置１０から画像のデータを取得してもよい。

　撮影装置１０について説明する。撮影装置１０は、各種制御処理を行う制御ユニット１２と、撮影部１６を備える。制御ユニット１２は、制御を司るコントローラであるＣＰＵ１３と、プログラムおよびデータ等を記憶することが可能な記憶装置１４を備える。

　撮影部１６は、被検者の組織の画像（本実施形態では眼底正面画像）を撮影するために必要な各種構成を備える。例えば、撮影装置１０が眼底カメラである場合には、撮影部１６には、被検者の眼底の正面画像を撮影するための照明光学系、受光光学系、撮影素子等が含まれる。なお、撮影装置１０として使用できるデバイスは眼底カメラに限定されない。例えば、走査型レーザ検眼鏡（ＳＬＯ）、ＯＣＴ装置、角膜内皮細胞撮影装置（ＣＥＭ）、コンピュータ断層撮影（ＣＴ）装置等が、撮影装置１０として使用されてもよい。

（ネットワークモデル）
　図２を参照して、本実施形態で例示するネットワークモデル２０について説明する。前述したように、画像認識装置１の記憶装置４に記憶された画像認識プログラムが実行されることで、図２に例示するネットワークモデル２０が仮想的に実現される。本実施形態のネットワークモデル２０は、生体の組織を撮影した生体画像（詳細には、被検眼の眼底組織を撮影した眼底画像）を入力し、入力した画像に写る組織における特定の疾患（詳細には、糖尿病網膜症）の程度の認識結果を出力する。本実施形態のネットワークモデル２０は、特徴抽出部２１と、複数のユニット３０（第１ユニット３０Ａ、第２ユニット３０Ｂ、第３ユニット３０Ｃ）を備える。なお、ネットワークモデル２０が備えるユニット３０の数は３つに限定されず、２つまたは４つ以上であってもよいことは言うまでもない。

　特徴抽出部２１には、画像のデータである入力画像４０が入力される。特徴抽出部２１は、入力画像４０から特徴を抽出し、抽出された特徴の分布を示す特徴マップ４１を出力する。本実施形態の特徴抽出部２１は、第１ユニット３０Ａに入力される第１特徴マップ４１Ａと、第２ユニット３０Ｂに入力される第２特徴マップ４１Ｂと、第３ユニット３０Ｃに入力される第３特徴マップ４１Ｃを出力する。

　詳細には、特徴抽出部２１は、複数の畳み込み層を含む複数の層を備える。特徴抽出部２１の複数の層には、複数のプーリング層等が含まれていてもよい。特徴抽出部２１は、入力画像４０のデータを複数の層に伝播させることで、特徴マップ４１を生成する。特徴マップ４１は、Ｋ個のクラスにそれぞれ対応するＫ個の解像度ｈ×ｗ（ｈ、ｗは任意の整数）のマップである。特徴マップ４１の解像度は、入力画像４０の解像度と同じであってもよいし、入力画像４０の解像度より低くてもよい。

　複数のユニット３０（３０Ａ，３０Ｂ，３０Ｃ）の各々は、入力画像４０に対して互いに異なる認識処理を実行する。詳細には、複数のユニット３０の各々は、入力画像４０内で注目する注目領域の大きさ、数、形状、および、入力画像４０について認識する認識内容（本実施形態では、眼底組織における異常の種類等）の少なくともいずれかが、互いに異なる。

　一例として、本実施形態では、第１ユニット３０Ａは、入力画像４０に写る眼底組織における微小動脈瘤の有無の認識結果を、第１認識結果４６Ａとして出力する。第２ユニット３０Ｂは、入力画像４０に写る眼底組織における網膜内出血、静脈異常、および網膜内微小血管異常の有無の認識結果を、第２認識結果４６Ｂとして出力する。第３ユニット３０Ｃは、入力画像４０に写る眼底組織における新生血管、および硝子体出血の有無の認識結果を、第３認識結果４６Ｃとして出力する。

　本実施形態では、各々のユニット３０によって出力された複数の認識結果４６（第１認識結果４６Ａ、第２認識結果４６Ｂ，および第３認識結果４６Ｃ）は、全結合層２３に入力される。全結合層２３は、入力された複数の認識結果４６に基づいて、結合認識結果４８を出力する。よって、結合認識結果４８の認識精度が向上する。ただし、ネットワークモデル２０は、結合認識結果４８を出力せずに、複数の認識結果４６をそのまま出力してもよい。この場合でも、複数の認識結果４６によって、入力画像４０がより適切に認識される。また、複数の認識結果４６の少なくともいずれかは、入力画像４０に関する特徴量であってもよい。

　本実施形態では、入力画像４０に写る眼底組織の糖尿病網膜症の程度（グレード）の認識結果が、結合認識結果４８として出力される。詳細には、３つの認識結果４６Ａ，４６Ｂ，４６Ｃのいずれも「異常無し」であれば、「グレード０：糖尿病網膜症無し」が出力される。第１認識結果４６Ａにおいて微小動脈瘤の存在が認識され、且つ、第２認識結果４６Ｂおよび第３認識結果４６Ｃが「異常無し」であれば、「グレード１：軽度の非増殖性糖尿病網膜症」が出力される。第１認識結果４６Ａにおいて微小動脈瘤の存在が認識され、第２認識結果４６Ｂにおいて所定数以下の網膜内出血等の存在が認識され、且つ、第３認識結果４６Ｃが「異常無し」であれば、「グレード２：中程度の非増殖性糖尿病網膜症」が出力される。第１認識結果４６Ａにおいて微小動脈瘤の存在が認識され、第２認識結果４６Ｂにおいて所定数よりも多い網膜内出血等の存在が認識され、且つ、第３認識結果４６Ｃが「異常無し」であれば、「グレード３：深刻な非増殖性糖尿病網膜症」が出力される。第３認識結果４６Ｃにおいて、新生血管および硝子体出血の少なくとも一方の存在が認識されていれば、「グレード４：増殖性糖尿病網膜症」が出力される。

　第１ユニット３０Ａは、第１アテンション部３１Ａ、第１合成部３２Ａ、および第１認識部３３Ａを備える。特徴抽出部２１から出力された第１特徴マップ４１Ａは、第１アテンション部３１Ａおよび第１合成部３２Ａの各々に入力される。

　第１アテンション部３１Ａは、入力された第１特徴マップ４１Ａに基づいて、第１アテンションマップ４２Ａと第１アテンション部認識結果４４Ａを出力する。第１アテンションマップ４２Ａは、第１ユニット３０Ａが所定の認識結果（本実施形態では、入力画像４０に写る眼底組織における微小動脈瘤の有無）を出力するために入力画像４０上で注目する注目度の分布を示す。第１アテンション部認識結果４４Ａは、第１アテンションマップ４２Ａが生成される際に一旦得られる仮の認識結果であり、第１ユニット３０Ａの第１認識部３３Ａから最終的に出力される第１認識結果４６Ａとは異なる場合もある。第１アテンション部認識結果４４Ａには、認識結果の確度（尤度）の情報も含まれる。

　第１合成部３２Ａは、特徴抽出部２１から出力された第１特徴マップ４１Ａと、第１アテンション部３１Ａから出力された第１アテンションマップ４２Ａを合成する。具体的には、第１特徴マップ４１Ａと第１アテンションマップ４２Ａの、同じ位置の画素同士が乗算または加算される。なお、同じ位置の画素同士に対し、加算および乗算を組み合わせた演算処理が行われてもよい。

　第１認識部３３Ａは、第１特徴マップ４１Ａと第１アテンションマップ４２Ａ（本実施形態ではこれらの合成マップ）に基づいて、入力画像４０に対する第１認識結果４６Ａを出力する。前述したように、本実施形態の第１認識結果４６Ａは、入力画像４０に写る眼底組織における微小動脈瘤の有無、およびその尤度を示す。

　なお、第２ユニット３０Ｂは、第２アテンション部３１Ｂ、第２合成部３２Ｂ、および第２認識部３３Ｂを備える。特徴抽出部２１から出力された第２特徴マップ４１Ｂは、第２アテンション部３１Ｂおよび第２合成部３２Ｂの各々に入力される。第２アテンション部３１Ｂは、第２アテンションマップ４２Ｂおよび第２アテンション部認識結果４４Ｂを出力する。また、第３ユニット３０Ｃは、第３アテンション部３１Ｃ、第３合成部３２Ｃ、および第３認識部３３Ｃを備える。特徴抽出部２１から出力された第３特徴マップ４１Ｃは、第３アテンション部３１Ｃおよび第３合成部３２Ｃの各々に入力される。第３アテンション部３１Ｃは、第３アテンションマップ４２Ｃおよび第３アテンション部認識結果４４Ｃを出力する。第２ユニット３０Ｂおよび第３ユニット３０Ｃの各部の構成は、第１ユニット３０Ａの各部の構成と同様であるため、これらの詳細な説明は省略する。

（モデル訓練処理）
　図３および図４を参照して、本実施形態の画像認識装置１が実行するモデル訓練処理について説明する。モデル訓練処理では、学習用画像（入力画像４０）を把握した人による指示に応じて作成された正解アテンションマップ４３（図５参照）によって、ネットワークモデル２０が訓練（本実施形態では再訓練）される。モデル訓練処理は、記憶装置４に記憶された画像認識プログラムに従って、ＣＰＵ３によって実行される。ＣＰＵ３は、ネットワークモデル２０の再訓練を開始させる指示を入力すると、図３に示すモデル訓練処理を実行する。

　まず、ＣＰＵ３は、模範ユーザを指定する指示が入力されたか否かを判断する（Ｓ１）。模範ユーザとは、ネットワークモデル２０を訓練（学習）させるための正解アテンションマップ４３（詳細は後述する）の生成を指示した人、またはグループである。つまり、模範ユーザは、ネットワークモデル２０に学習させる知見を提供した人、または複数の人のグループとも言える。本実施形態のネットワークモデル２０は、入力画像４０に写る組織における糖尿病網膜症の程度を認識する。従って、模範ユーザは、例えば、眼科医、眼科を有する医療機関、および健康診断機関等のいずれかであってもよい。眼科医が自ら正解アテンションマップ４３を作成してネットワークモデル２０を訓練させる場合には、眼科医は、自らの名前を模範ユーザとして指定してもよい。

　模範ユーザが指定されると（Ｓ１：ＹＥＳ）、ＣＰＵ３は、指定された模範ユーザのネットワークモデル２０（つまり、指定された模範ユーザの知見を学習させるネットワークモデル２０）を読み出す（Ｓ２）。本実施形態では、１つまたは複数のネットワークモデル２０が、模範ユーザ毎に別々に訓練される。指定された模範ユーザに対応するネットワークモデル２０が既に構築されている場合には、ＣＰＵ３は、構築されているネットワークモデル２０の中から、指定された模範ユーザに対応するネットワークモデル２０を読み出す。指定された模範ユーザに対応するネットワークモデル２０が未だ構築されていない場合（つまり、模範ユーザの知見を新たに学習させる場合）には、ＣＰＵ３は、未だ再訓練が行われていないデフォルトのネットワークモデル２０が読み出される。

　次いで、ＣＰＵ３は、学習用画像を入力画像４０として、Ｓ２で読み出されたネットワークモデル２０に入力する（Ｓ４）。前述したように、ネットワークモデル２０に入力画像４０が入力されると、複数のユニット３０の各々に特徴マップ４１が入力され、各々のユニット３０のアテンション部３１からアテンションマップ４２とアテンション部認識結果４４が出力される。また、各々のユニットの認識部３３から認識結果４６が出力される。さらに、全結合層２３から結合認識結果４８が出力される。

　ＣＰＵ３は、各々のアテンション部３１（３１Ａ，３１Ｂ，３１Ｃ）が出力した複数のアテンションマップ４２（４２Ａ，４２Ｂ，４２Ｃ）を取得する（Ｓ５）。ＣＰＵ３は、Ｓ５で取得した複数のアテンションマップ４２を、各々を識別可能な状態で表示装置８に表示させる（Ｓ６）。

　図４は、正解アテンションマップ４３の生成指示（本実施形態では修正指示）の入力を受け付ける際の、表示装置８における表示画面５０の一例を示す。本実施形態の表示画面５０では、ネットワークモデルに入力された入力画像４０と共に、各々のアテンション部３１Ａ，３１Ｂ，３１Ｃから出力された第１アテンションマップ４２Ａ、第２アテンションマップ４２Ｂ、および第３アテンションマップ４２Ｃが、別々に表示されている。

　なお、複数のアテンションマップ４２を判別可能な状態で表示する方法は、適宜選択できる。例えば、ＣＰＵ３は、複数のアテンションマップ４２の各々の表示色等を変えて、１つの枠内に重畳表示させてもよい。この場合、ユーザは、複数のアテンションマップ４２の各々の位置および範囲を容易に比較することができる。また、各々のアテンションマップ４２が、入力画像４０に重畳して表示されてもよい。

　ＣＰＵ３は、ネットワークモデル２０による入力画像の認識結果を取得して、表示装置８に表示させる（Ｓ７）。Ｓ７で取得および表示される認識結果は、複数のアテンション部認識結果４４、複数の認識部３３が出力する認識結果４６、および、結合認識結果４８のうちの少なくともいずれかである。図４に示す例では、アテンションマップ４２毎に、認識部３３が出力した認識結果４６（「微小動脈瘤あり」「静脈異常等あり」「新生血管等無し」）と、結合認識結果４８（「グレード３」）が表示されている。

　ＣＰＵ３は、複数のアテンションマップ４２の少なくともいずれかについて、修正の優先順位を設定する（Ｓ８）。詳細には、本実施形態では、実行した認識処理の確度が低いユニット３０から出力されたアテンションマップ４２の修正の優先順位が、確度が高いユニット３０から出力されたアテンションマップ４２の修正の優先順位よりも高くされる。一例として、本実施形態のＣＰＵ３は、各々のアテンション部３１が出力するアテンション部認識結果４４の確度が低い程、アテンションマップ４２の修正の優先順位が高くなるように、複数のアテンションマップ４２の各々の修正の優先順位を設定する。図４に示す例では、アテンション部認識結果４４の確度が閾値未満である場合に優先順位「高」、確度が閾値異常である場合に優先順位「低」が設定される。しかし、３段階以上の優先順位が設定されてもよいことは勿論である。また、アテンション部認識結果４４の確度と共に、または、アテンション部認識結果４４の確度の代わりに、認識部３３が出力する認識結果４６の確度に基づいて、修正の優先順位が設定されてもよい。また、ＣＰＵ３は、認識処理の確度が閾値以下であるユニット３０のアテンションマップ４２のみを、修正する候補として表示画面５０に表示させてもよい。また、ＣＰＵ３は、認識処理の確度が低い順に、複数のアテンションマップ４２を修正候補として表示画面５０に表示させてもよい。

　次いで、ＣＰＵ３は、複数のアテンションマップ４２のいずれかに対する修正指示が入力されたか否かを判断する（Ｓ１０）。ユーザは、表示画面５０に表示された複数のアテンションマップ４２のいずれかを修正する場合、操作部７を操作することで、修正が必要なアテンションマップ４２に対する修正の指示を入力する。例えば、ユーザは、表示された複数のアテンションマップ４２のうち、修正するアテンションマップ４２（本実施形態では第２アテンションマップ４２Ｂ）を選択し、選択したアテンションマップ４２上で、注目領域の消去または追加の指示を入力する。ＣＰＵ３は、修正指示が入力されると（Ｓ１０：ＹＥＳ）、入力された指示に応じて、正解アテンションマップ４３（図４では、第２アテンションマップ４２Ｂが修正された第２正解アテンションマップ４３Ｂ）を生成する（Ｓ１１）。

　次いで、ＣＰＵ３は、認識結果に対する修正指示が入力されたか否かを判断する（Ｓ１２）。ユーザは、操作部７を操作することで、修正が必要な認識結果（本実施形態では、各々の認識部３３が出力する複数の認識結果４６、および結合認識結果４８のいずれか）を指定して修正指示を入力する。ＣＰＵ３は、修正指示が入力されると（Ｓ１２：ＹＥＳ）、指示に応じて、正解認識結果を生成する（Ｓ１３）。なお、Ｓ１２，Ｓ１３では、アテンション部認識結果４４が修正されてもよい。また、認識結果を修正する処理（Ｓ１２，Ｓ１３）が省略され、正解アテンションマップ４３を生成する処理のみが実行されてもよい。

　ＣＰＵ３は、アテンションマップ４２および認識結果の修正が完了したか否かを判断する（Ｓ１４）。完了指示が入力されておらず、修正が完了していない場合には（Ｓ１４：ＮＯ）、処理はＳ１０へ戻り、Ｓ１０～Ｓ１４の処理が繰り返される。修正が完了すると（Ｓ１４：ＹＥＳ）、ＣＰＵ３は、生成された正解アテンションマップ４３を含む訓練用データを用いて、ネットワークモデル２０のうち、少なくとも、正解アテンションマップ４３を出力したアテンション部３１を訓練（再訓練）する（Ｓ１６）。

　詳細には、本実施形態では、ＣＰＵ３は、ネットワークモデル２０が備える複数のユニット３０のうち、正解アテンションマップ４３の生成を指示されたユニット３０を、再訓練する対象のユニット（再訓練ユニット）として特定する。ＣＰＵ３は、再訓練ユニットが出力したアテンションマップ４２（図４の例ではアテンションマップ４２Ｂ）と、生成された正解アテンションマップ４３（図４の例では正解アテンションマップ４３Ｂ）の学習誤差Ｌｍａｐを用いて、再訓練ユニットのアテンション部３１の重み、バイアス等の学習パラメータを更新する。なお、ＣＰＵ３は、再訓練ユニットにおけるアテンション部３１の学習パラメータと共に、再訓練ユニットにおける認識部３３の学習パラメータも、正解アテンションマップ４３に基づいて更新してもよい。ＣＰＵ３は、Ｓ１３で正解認識結果が生成されている場合、正解アテンションマップ４３と共に正解認識結果も用いて、アテンション部３１および認識部３３の少なくともいずれかの学習パラメータを更新する。以上のように、ユーザは、ネットワークモデル２０に含まれる複数のアテンション部３１の各々に対して、正解アテンションマップ４３による訓練（学習）を実行させるか否か、および、学習させる正解アテンションマップ４３の内容を、個別に判断することが可能である。よって、模範ユーザの知見がネットワークモデル２０に適切に反映される。

　次いで、指定されたネットワークモデル２０の再訓練を完了させるか否かが判断される（Ｓ１７）。完了指示が入力されていなければ（Ｓ１７：ＮＯ）、処理はＳ４へ戻り、別の学習用画像を用いた再訓練処理（Ｓ４～Ｓ１６）が実行される。完了指示が入力されると（Ｓ１７：ＹＥＳ）、モデル訓練処理は終了する。

　なお、モデル訓練処理（図３参照）によって構築されたネットワークモデル２０を実現させるためのプログラムおよびデータ等は、モデル訓練処理を実行したデバイス（本実施形態では画像認識装置１）とは異なるデバイスに提供されることも可能である。従って、ユーザは、所望の模範ユーザの知見を学習したネットワークモデル２０によって、画像の認識結果を容易に取得することができる。

（画像認識処理）
　図２および図５を参照して、本実施形態の画像認識装置１が実行する画像認識処理について説明する。画像認識処理では、１つまたは複数のネットワークモデル２０のうち、模範ユーザによる指示に応じて訓練されたネットワークモデル２０によって、画像に対する認識結果が取得される。画像認識処理は、記憶装置４に記憶された画像認識プログラムに従って、ＣＰＵ３によって実行される。

　まず、ＣＰＵ３は、模範ユーザを指定する指示が入力されたか否かを判断する（Ｓ２１）。前述したように、本実施形態では、知見を提供した模範ユーザ毎に、ネットワークモデル２０が訓練されている。模範ユーザが指定されると（Ｓ２１：ＹＥＳ）、ＣＰＵ３は、指定された模範ユーザのネットワークモデル２０（つまり、指定された模範ユーザの知見を学習したネットワークモデル２０）を読み出す（Ｓ２２）。

　認識対象とする画像が取得されると（Ｓ２３：ＹＥＳ）、ＣＰＵ３は、取得された画像を入力画像４０として、Ｓ２２で読み出されたネットワークモデル２０に入力する（Ｓ２４）。前述したように、ネットワークモデル２０に入力画像４０が入力されると、複数のユニット３０の各々に特徴マップ４１が入力され、各々のユニット３０のアテンション部３１からアテンションマップ４２が出力される（図２参照）。ＣＰＵ３は、各々のユニット３０のアテンション部３１から出力された複数のアテンションマップ４２を取得する（Ｓ２５）。ＣＰＵ３は、アテンションマップ４２および特徴マップ４１に基づいて出力される、入力画像４０の認識結果（認識結果４６および結合認識結果４８の少なくともいずれか）を取得する（Ｓ２６）。

　ＣＰＵ３は、Ｓ２２で読み出された（つまり、Ｓ２４～Ｓ２６で使用された）ネットワークモデル２０に知見を提供した模範ユーザを識別する識別情報を取得する（Ｓ２７）。模範ユーザを識別する識別情報は、例えば、模範ユーザの名前、ＩＤ等であってもよく、各々のネットワークモデル２０に対応付けて記憶装置４に記憶されている。

　ＣＰＵ３は、模範ユーザを識別する識別情報を、Ｓ２６で取得された入力画像４０の認識結果と共に、表示装置８に表示させる（Ｓ２８）。従って、ユーザは、学習のための知見を提供した模範ユーザを識別したうえで、ネットワークモデル２０によって出力された入力画像の認識結果を確認することができる。

　以上説明した画像認識処理は、画像の認識方法をユーザに教育するための教育用アプリケーションによって実行される。つまり、本実施形態の画像認識装置は、画像の認識方法をユーザに教育するために使用される教育用装置として機能する。従って、ユーザは、自らの画像の認識結果と、人の知見が学習されたネットワークモデルによって出力された画像の認識結果を、適切に比較することができる。よって、ユーザは、熟練者等の画像認識の技能を適切に習得することが可能である。

　上記実施形態で開示された技術は一例に過ぎない。従って、上記実施形態で例示された技術を変更することも可能である。まず、上記実施形態で例示された複数の技術のうちの一部のみを実行することも可能である。例えば、画像認識装置１が小規模な施設で使用される場合等には、模範ユーザ毎にネットワークモデル２０を訓練する処理、および、模範ユーザを通知する処理等を省略することも可能である。

　上記実施形態のネットワークモデル２０は、入力画像に対して互いに異なる認識処理を実行する複数のユニットを備えたマルチスケールのネットワークモデルである。しかし、本開示で例示した技術の少なくとも一部は、ユニットを１つのみ備えたネットワークモデルにおいても適用できる。例えば、正解アテンションマップの生成を指示する人またはグループ毎（つまり、模範ユーザ毎）に、ネットワークモデルを別々に訓練する場合、ネットワークモデルが備えるユニットは１つでも複数でもよい。また、ネットワークモデルに知見を提供した人またはグループをユーザに通知する場合にも、ネットワークモデルが備えるユニットは１つでも複数でもよい。

　上記実施形態のモデル訓練処理（図３参照）では、一旦構築されたネットワークモデル２０が読み出された後、正解アテンションマップ４３によって再訓練される。しかし、正解アテンションマップ４３を用いたネットワークモデル２０の訓練は、ネットワークモデル２０を構築する際の最初の訓練時に実行されてもよい。

　上記実施形態のモデル訓練処理（図３参照）では、１つの入力画像４０に対して出力されたアテンションマップ４２が修正される毎に、ネットワークモデル２０が訓練される。しかし、複数の入力画像４０についての複数のアテンションマップ４２が修正された後に、ネットワークモデル２０が訓練されてもよい。

　なお、図３のＳ４および図５のＳ２４で画像をネットワークモデル２０に入力する処理は、「画像入力ステップ」の一例である。図３のＳ５および図５のＳ２５でアテンションマップ４２を取得する処理は、「アテンションマップ取得ステップ」の一例である。図３のＳ７および図５のＳ２６で入力画像４０の認識結果を取得する処理は、「認識結果取得ステップ」の一例である。図３のＳ１６で正解アテンションマップによってネットワークモデル２０を訓練する処理は、「訓練ステップ」の一例である。

Claims

　機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置であって、
　前記ネットワークモデルは、入力される画像である入力画像に対して互いに異なる認識処理を実行する複数のユニットを備え、
　各々の前記ユニットは、
　前記入力画像上で注目される注目度の分布を示すアテンションマップを出力するアテンション部と、
　前記アテンションマップと、入力画像から抽出された特徴を示す特徴マップとに基づいて、前記入力画像に対する認識結果を出力する認識部と、
　を備え、
　少なくとも、いずれかの前記ユニットにおける前記アテンション部が、前記入力画像を把握した人による指示に応じて生成されたアテンションマップである正解アテンションマップによって訓練されることを特徴とする画像認識装置。
　請求項１に記載の画像認識装置であって、
　前記複数のユニットは、前記入力画像内で注目する注目領域の大きさ、数、形状、および、前記入力画像について認識する認識内容の少なくともいずれかが互いに異なる認識処理を、同一の前記入力画像に対して実行することを特徴とする画像認識装置。
　請求項１または２に記載の画像認識装置であって、
　前記正解アテンションマップの生成を指示する人または複数の人のグループ毎に、前記ネットワークモデルが別々に訓練されることを特徴とする画像認識装置。
　請求項１から３のいずれかに記載の画像認識装置であって、
　前記ネットワークモデルの訓練に用いられた前記正解アテンションマップの生成を指示した人またはグループを識別する識別情報が、前記ネットワークモデルに付与されており、
　制御部は、前記認識結果を出力した前記ネットワークモデルに付与された前記識別情報を、ユーザに通知することを特徴とする画像認識装置。
　請求項１から４のいずれかに記載の画像認識装置であって、
　制御部は、
　同一の前記入力画像について、複数の前記アテンション部によって出力された複数の前記アテンションマップを、各々を識別可能な状態で表示部に表示させた状態で、前記複数のアテンションマップの少なくともいずれかに対する修正指示の入力を受け付けると共に、
　前記修正指示に応じた前記正解アテンションマップを生成することを特徴とする画像認識装置。
　請求項１から５のいずれかに記載の画像認識装置であって、
　前記複数のユニットの各々は、実行した認識処理の確度を出力し、
　制御部は、前記複数のユニットの各々から出力された複数の前記アテンションマップのうち、実行した認識処理の前記確度が低い前記ユニットから出力された前記アテンションマップの修正の優先順位を、前記確度が高い前記ユニットから出力された前記アテンションマップの修正の優先順位よりも高くすることを特徴とする画像認識装置。
　請求項１から６のいずれかに記載の画像認識装置であって、
　前記ネットワークモデルに入力される画像は、生体の組織を撮影した生体画像であり、
　前記ネットワークモデルは、前記複数のユニットによって、前記生体画像に写る組織における特定の疾患の程度の認識結果を出力することを特徴とする画像認識装置。
　機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置によって実行される画像認識プログラムであって、
　前記画像認識プログラムが前記画像認識装置のコントローラによって実行されることで、
　画像に対して互いに異なる認識処理を実行する複数のユニットを備えた前記ネットワークモデルに、入力画像を入力する画像入力ステップと、
　前記複数のユニットの各々が備えるアテンション部に、前記入力画像上で注目される注目度の分布を示すアテンションマップを出力させるアテンションマップ取得ステップと、
　前記複数のユニットの各々が備える認識部に、前記アテンションマップと、前記入力画像から抽出された特徴を示す特徴マップとに基づく前記入力画像の認識結果を出力させる認識結果取得ステップと、
　を前記画像認識装置に実行させ、
　少なくとも、いずれかの前記ユニットにおける前記アテンション部が、前記入力画像を把握した人による指示に応じて生成されたアテンションマップである正解アテンションマップによって訓練されることを特徴とする画像認識プログラム。