WO2021235061A1

WO2021235061A1 - 画像分類装置、画像分類方法、及び、画像分類プログラム

Info

Publication number: WO2021235061A1
Application number: PCT/JP2021/010287
Authority: WO
Inventors: 均服部; 理也栗原; 一男米倉; 幸二徳永
Original assignee: 株式会社Ihi
Priority date: 2020-05-21
Filing date: 2021-03-15
Publication date: 2021-11-25
Also published as: EP4156092A1; JP7371776B2; US20220343632A1; EP4156092A4; JPWO2021235061A1

Abstract

画像分類装置、画像分類方法、画像分類プログラムによれば、第１モデルと第２モデルとに基づいて、二段階の認識によって物体を撮像した画像の分類ラベルを決定する。画像と第１モデルに基づいて算出した第１ラベルが所定ラベルでない場合に、第１ラベルを画像の分類ラベルとして設定し、第１ラベルが所定ラベルである場合に、画像と第２モデルに基づいて算出した第２ラベルを画像の分類ラベルとして設定する。

Description

画像分類装置、画像分類方法、及び、画像分類プログラム

　本開示は、画像分類装置、画像分類方法、及び、画像分類プログラムに関する。

　特許文献１には、ユーザが撮像画像を参照しながら撮像画像のグループ化を行うことにより、画像データのデータベースを構築することが可能なシステムが開示されている。

特開２００５－４５６４号公報

　しかしながら、特許文献１に開示される技術を用いて、航空機エンジン等を分解した後の構成部品を撮像した画像を分類しようとした場合、撮像画像の分類作業に必要な時間とコストが膨大なものとなっていた。

　より具体的には、航空機エンジン等の構成部品には似たような部品が多く、細かい特徴を確認しなければ、構成部品を撮像した画像の分類の精度を向上させにくい。そのため、撮像画像の分類作業に時間とコストがかかるという問題が生じていた。また、航空機エンジン等の構成部品に関する撮像画像の分類作業に習熟した作業員を養成するための時間とコストが生じるという問題が生じていた。

　本開示は上述の状況を鑑みて成されたものである。即ち、本開示は、構成部品の細かい特徴を確認しなければ分類の精度を向上させにくい、似たような構成部品を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる画像分類装置、画像分類方法、及び、画像分類プログラムを提供することを目的とする。

　本開示に係る画像分類装置は、物体を撮像した画像を受信する受信部と、第１モデルと第２モデルに基づいて、画像の分類ラベルを決定するコントローラと、を有する。ここで、第１モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第１教師データに基づいて生成されたモデルである。第２モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第２教師データに基づいて生成されたモデルである。上記コントローラは、上記画像と上記第１モデルに基づいて第１ラベルを算出し、上記第１ラベルが所定ラベルであるか否かを判定する。そして、上記第１ラベルが上記所定ラベルでない場合には、上記第１ラベルを上記画像の分類ラベルとして設定する。一方、上記第１ラベルが上記所定ラベルである場合には、上記画像と上記第２モデルに基づいて第２ラベルを算出し、上記第２ラベルを上記画像の分類ラベルとして設定する。

　上記第２モデルは、上記分類済み画像の分類ラベルが上記所定ラベルである上記第２教師データのみに基づいて生成されたモデルであってもよい。

　正答率が所定閾値以下である上記分類済み画像の分類ラベルを上記所定ラベルとするものであってもよい。ここで、上記分類済み画像と上記第１モデルに基づいて算出されたラベルを再現ラベルとし、上記分類済み画像の分類ラベルごとに算出された、上記再現ラベルと上記分類済み画像の分類ラベルが一致する割合を正答率とするものであってもよい。

　上記第１モデルは、上記第１教師データに基づく機械学習によって生成されたモデルであってもよい。

　上記領域は、上記画像における上記物体の特徴部分が写り込む領域であってもよい。

　上記第２モデルは、検出アルゴリズムを用いて上記画像から上記領域を推定するモデルであってもよい。

　上記検出アルゴリズムは、物体検出手法（Ｆａｓｔｅｒ　Ｒ－ＣＮＮ（Ｒｅｇｉｏｎｓ　ｗｉｔｈ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ）、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ））あるいはセマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含むものであってもよい。

　上記物体は機械を構成する部品であってもよい。

　上記機械は、例えば航空機エンジンであってもよい。

　本開示に係る画像分類方法は、第１モデルと第２モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第１モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第１教師データに基づいて生成されたモデルである。第２モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第２教師データに基づいて生成されたモデルである。画像分類方法は、上記画像と上記第１モデルに基づいて第１ラベルを算出し、上記第１ラベルが所定ラベルであるか否かを判定する。そして、上記第１ラベルが上記所定ラベルでない場合には、上記第１ラベルを上記画像の分類ラベルとして設定する。一方、上記第１ラベルが上記所定ラベルである場合には、上記画像と上記第２モデルに基づいて第２ラベルを算出し、上記第２ラベルを上記画像の分類ラベルとして設定する。

　本開示に係る画像分類プログラムは、第１モデルと第２モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第１モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第１教師データに基づいて生成されたモデルである。第２モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第２教師データに基づいて生成されたモデルである。画像分類プログラムは、コンピュータに、上記画像と上記第１モデルに基づいて第１ラベルを算出させ、上記第１ラベルが所定ラベルであるか否かを判定させる。そして、上記第１ラベルが上記所定ラベルでない場合には、上記第１ラベルを上記画像の分類ラベルとして設定させる。一方、上記第１ラベルが上記所定ラベルである場合には、上記画像と上記第２モデルに基づいて第２ラベルを算出させ、上記第２ラベルを上記画像の分類ラベルとして設定させる。

　本開示によれば、構成部品の細かい特徴を確認しなければ分類の精度を向上させにくい、似たような構成部品を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる。

一実施形態に係る画像分類装置の構成を示すブロック図である。画像分類の処理手順を示すフローチャートである。ファンロータを撮像した画像を模式的に示す図である。インレットコーンを撮像した画像を模式的に示す図である。第１のインナーシュラウドを撮像した画像を模式的に示す図である。第２のインナーシュラウドを撮像した画像を模式的に示す図である。

　以下、いくつかの例示的な実施形態について、図面を参照して説明する。なお、各図において共通する部分には同一の符号を付し、重複する説明を省略する。

　［画像分類装置の構成］
　図１は、画像分類装置の構成を示すブロック図である。図１に示すように、画像分類装置２０は、受信部２１と、データベース２３と、コントローラ２５と、出力部２７と、を備える。コントローラ２５は、受信部２１、データベース２３、出力部２７と通信可能なように接続される。

　その他、出力部２７は、画像分類装置２０自体が備えていてもよいし、画像分類装置２０の外部に設置されて、無線又は有線のネットワークによって画像分類装置２０と接続されるものであってもよい。

　受信部２１は、無線又は有線によって撮像装置１０と通信可能なように接続される。受信部２１は、撮像装置１０が撮像した物体の画像を受信する。その他、受信部２１は、画像を取得した日時を示すタイムスタンプを、画像と共に受信するものであってもよい。

　また、データベース２３は、画像分類装置２０とは異なる方法によって分類ラベルが既に設定されている画像（以下、分類済み画像）について、第１教師データ、第２教師データを記録するものであってもよい。ここで、第１教師データとは、分類済み画像と分類済み画像の分類ラベルを組とするデータである。また、第２教師データとは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とするデータである。

　画像の分類ラベルとは、当該画像に設定されたラベルであって、当該画像が属するグループを表現するラベルである。例えば、分類ラベルは、当該画像に写る物体の名前である。画像に写る物体が機械を構成する部品である場合には、分類ラベルは、機械を構成する部品の名前であってもよい。より具体的には、画像に写る物体が航空機エンジンを構成する部品である場合には、分類ラベルは、航空機エンジンを構成する部品の名前であってもよい。航空機エンジンを構成する部品の名前としては、例えば、ファンロータ、インレットコーン、インナーシュラウド、ブレード、など、様々なものが挙げられる。画像に写る物体の名前、特に、航空機エンジンを構成する部品の名前は、ここで挙げた例に限定されない。

　画像に設定された領域とは、当該画像上に設定された領域であって、当該画像に写る物体の特徴部分が写り込む領域である。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素のみから構成される領域であってもよい。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素を含む領域であってもよい。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素を含む、矩形状の領域であってもよい。画像に設定された領域は、その他、複数の頂点を有する多角形を境界とする領域であってもよい。

　なお、物体の特徴部分とは、当該物体を他の物体と区別する部分である。つまり、注目する物体の特徴部分とは、注目する物体と注目する物体以外の物体の間にある非類似の部分である。

　その他、第２教師データは、分類済み画像の分類ラベルが所定ラベルであるデータのみから構成されるものであってもよい。所定ラベルについては、後述する。

　その他、データベース２３は、受信部２１によって受信した画像を記録するものであってもよい。また、データベース２３は、後述する第１モデル及び第２モデルを記録するものであってもよい。

　出力部２７は、後述するコントローラ２５によって生成された情報を出力する。特に、出力部２７は、コントローラ２５によって画像ごとに設定された分類ラベルをユーザ等に出力する。

　例えば、出力部２７は、複数の表示画素の組合せにより図形、文字を表示することで、ユーザに情報を提示するディスプレイであってもよい。出力部２７は、音声により、ユーザに情報を通知するスピーカであってもよい。出力部２７による情報の出力方法は、ここに挙げた例に限定されない。

　コントローラ２５（制御部）は、ＣＰＵ（中央処理装置）、メモリ、及び入出力部を備える汎用のマイクロコンピュータである。コントローラ２５には、画像分類装置２０として機能するためのコンピュータプログラム（画像分類プログラム）がインストールされている。コンピュータプログラムを実行することにより、コントローラ２５は、画像分類装置２０が備える複数の情報処理回路（２５１、２５３、２５５、２５７）として機能する。なお、コンピュータプログラム（画像分類プログラム）は、コンピュータによって読み書き可能な記憶媒体に格納されるものであってもよい。

　本開示では、ソフトウェアによって複数の情報処理回路（２５１、２５３、２５５、２５７）を実現する例を示す。ただし、以下に示す各情報処理を実行するための専用のハードウェアを用意して、情報処理回路（２５１、２５３、２５５、２５７）を構成することも可能である。また、複数の情報処理回路（２５１、２５３、２５５、２５７）を個別のハードウェアにより構成してもよい。さらに、情報処理回路（２５１、２５３、２５５、２５７）は、撮像装置１０の監視または制御に用いる制御ユニットと兼用してもよい。

　図１に示すように、コントローラ２５は、複数の情報処理回路（２５１、２５３、２５５、２５７）として、第１ラベル算出部２５１、第２ラベル算出部２５３、判定部２５５、分類ラベル設定部２５７を備える。

　第１ラベル算出部２５１は、第１教師データに基づいて「学習」を行い、その後、分類ラベルが設定されていない画像に基づいてラベルの「推定」を行う。同様に、第２ラベル算出部２５３は、第２教師データに基づいて「学習」を行い、その後、分類ラベルが設定されていない画像に基づいてラベルの「推定」を行う。

　初めに、第１ラベル算出部２５１、第２ラベル算出部２５３における「学習」について説明する。

　第１ラベル算出部２５１は、第１教師データに基づいて機械学習を行い、第１モデルを生成する。一方、第２ラベル算出部２５３は、第２教師データに基づいて機械学習を行い、第２モデルを生成する。生成された第１モデル及び第２モデルは、データベース２３に記憶されるものであってもよい。

　具体的には、第１ラベル算出部２５１、第２ラベル算出部２５３は、ニューラルネットワークを用いて、それぞれ第１モデル、第２モデルを生成する。

　第１ラベル算出部２５１は、画像を入力とし、ラベルを出力とする第１ニューラルネットワークを用いて、第１モデルを生成する。その際、第１ラベル算出部２５１は、分類済み画像を第１ニューラルネットワークに入力した際に得られるラベルと、入力した分類済み画像に対応する分類ラベルの誤差を算出する。

　そして、第１ラベル算出部２５１は、誤差が最小となるように第１ニューラルネットワークを定義するパラメータの調整を行って、第１教師データを表現する特徴を学習する。第１モデルは第１ニューラルネットワークによって表現される。

　一方、第２ラベル算出部２５３は、画像を入力とし、ラベル及び領域情報（画像上に設定される領域を示す情報）を出力とする第２ニューラルネットワークを用いて、第２モデルを生成する。その際、第２ラベル算出部２５３は、分類済み画像を第２ニューラルネットワークに入力した際に得られるラベルと、入力した分類済み画像に対応する分類ラベルの誤差を算出する。

　また、第２ラベル算出部２５３は、分類済み画像を第２ニューラルネットワークに入力した際に得られる領域情報と、入力した分類済み画像に設定された領域情報の誤差を算出する。

　そして、第２ラベル算出部２５３は、ラベルに関する誤差及び領域情報に関する誤差が最小となるように第２ニューラルネットワークを定義するパラメータの調整を行って、第２教師データを表現する特徴を学習する。第２モデルは第２ニューラルネットワークによって表現される。

　なお、第２ラベル算出部２５３は、検出アルゴリズムを用いて、第２ニューラルネットワークに入力される画像から領域情報を算出するものであってもよい。すなわち、第２ラベル算出部２５３によって生成される第２モデルは、検出アルゴリズムを用いて前記画像から前記領域を推定するモデルであってもよい。

　検出アルゴリズムとしては、物体検出手法あるいはセマンティック・セグメンテーションが挙げられる。物体検出手法には、例えば、Ｆａｓｔｅｒ　Ｒ－ＣＮＮ（Ｒｅｇｉｏｎｓ　ｗｉｔｈ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ）、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ）などがある。その他、検出アルゴリズムとして、これらのアルゴリズムを内部に含むものが挙げられる。検出アルゴリズムは、ここに挙げた例に限定されない。

　例えば、上述したニューラルネットワークは、画像が入力される入力層、出力値が出力される出力層、入力層と出力層の間に設けられる少なくとも１層以上の隠れ層とを含み、入力層、隠れ層、出力層の順番に信号が伝搬する。入力層、隠れ層、出力層の各層は、１つ以上のユニットから構成される。層間のユニット同士が結合しており、各ユニットは活性化関数（例えば、シグモイド関数、正規化線形関数、ソフトマックス関数など）を有する。ユニットへの複数の入力に基づいて重み付きの合計が算出され、合計値を変数とする活性化関数の値が、ユニットの出力となる。

　例えば、第１ラベル算出部２５１、第２ラベル算出部２５３は、ニューラルネットワークを定義するパラメータのうち、各ユニットで重み付き合計を算出する際の重みを調整する。そして、第１ラベル算出部２５１、第２ラベル算出部２５３は、ニューラルネットワークの出力と分類データとの間の誤差を最小化する。複数の教師データに対して、ニューラルネットワークの出力に関する誤差の最小化には、最尤推定法などが適用可能である。

　ニューラルネットワークの出力に関する誤差を最小化するため、例えば、第１ラベル算出部２５１、第２ラベル算出部２５３は、勾配降下法、確率的勾配降下法などを用いてもよい。第１ラベル算出部２５１、第２ラベル算出部２５３は、勾配降下法、確率的勾配降下法での勾配計算のため、誤差逆伝搬法を用いてもよい。

　ニューラルネットワークによる機械学習では汎化性能（未知データに対する判別能力）と過適合（教師データに対して適合する一方で汎化性能が改善しない現象）が問題となりうる。

　そこで、第１ラベル算出部２５１、第２ラベル算出部２５３における学習モデルの作成では、過適合を緩和するため、学習時の重みの自由度を制約する正則化などの手法を用いてもよい。その他にも、ニューラルネットワーク中のユニットを確率的に選別してそれ以外のユニットを無効化するドロップアウトなどの手法を用いてもよい。さらには、汎化性能を向上させるため、教師データ中の偏りをなくすデータ正則化、データ標準化、データ拡張などの手法を用いてもよい。

　次に、第１ラベル算出部２５１、第２ラベル算出部２５３における「推定」について説明する。

　第１ラベル算出部２５１は、第１教師データによって生成された第１モデルを用いて、分類ラベルが未知の画像に対して分類ラベルを推定する。すなわち、第１ラベル算出部２５１は、第１モデルを表現する第１ニューラルネットワークに画像を入力し、第１ニューラルネットワークの出力を算出する。そして、第１ニューラルネットワークの出力を第１ラベル（第１モデルによって推定された分類ラベル）とする。

　第２ラベル算出部２５３は、第２教師データによって生成された第２モデルを用いて、分類ラベルが未知の画像に対して分類ラベルを推定する。すなわち、第２ラベル算出部２５３は、第２モデルを表現する第２ニューラルネットワークに画像を入力し、第２ニューラルネットワークの出力を算出する。そして、第２ニューラルネットワークの出力を第２ラベル（第２モデルによって推定された分類ラベル）とする。

　第２モデルに基づく推定は、第１モデルに基づく推定よりも計算コストが大きい傾向にある。一方で、第２モデルに基づく推定は、第１モデルに基づく推定よりも細かい推定が可能な傾向にある。この理由は、第１モデルと比較して、第２モデルでは、画像に写り込む物体の特徴部分に関する計算が行われることにある。

　分類ラベルが設定されていない画像に対して、第１ラベルと第２ラベルのいずれが分類ラベルとして設定されるかは、次に説明する判定部２５５及び分類ラベル設定部２５７での処理によって決まる。

　なお、第１ラベル算出部２５１は、第１モデルを用いて、分類済み画像に対して分類ラベルを推定し、第１モデルの正答率を算出するものであってもよい。すなわち、第１ラベル算出部２５１は、分類済み画像と第１モデルに基づいて算出されたラベルを再現ラベルとし、再現ラベルと分類済み画像の分類ラベルが一致する割合を、分類済み画像の分類ラベルごとに算出するものであってもよい。正答率は、分類済み画像の分類ラベルごとに算出される。

　上述した正答率は、第１モデルが第１教師データを再現する度合いを示している。第１モデルを表現する第１ニューラルネットワークに分類済み画像を入力した際に、入力した分類済み画像に対応する分類ラベルが再現ラベルとして出力される確率を、正答率は表している。

　その他、第１ラベル算出部２５１は、正答率が所定閾値以下である分類済み画像の分類ラベルを所定ラベルとして設定するものであってもよい。所定ラベルは、正答率に基づいて設定されるものであってもよいし、画像分類装置２０のユーザが、任意に設定するものであってもよい。所定ラベルの設定方法は、ここで挙げた例に限定されない。

　所定ラベルを設定する理由は、第１モデルによって再現される度合いの小さい第１教師データを用いて、第２教師データを構成することにある。

　第１モデルを用いて分類ラベルが未知の画像に対して分類ラベルを推定する際の推定の精度が低い状況を改善するため、第２モデルを用いて分類ラベルが未知の画像に対して分類ラベルを推定するのである。

　判定部２５５は、第１ラベル算出部２５１によって算出した第１ラベルが所定ラベルであるか否かを判定する。そして、判定の結果を、分類ラベル設定部２５７に出力する。判定部２５５は、第１ラベル算出部２５１によって算出した第１ラベルが所定ラベルである場合に、第２ラベルが算出されるよう、第２ラベル算出部２５３を制御するものであってもよい。

　分類ラベル設定部２５７は、判定部２５５による判定結果に基づいて、第１ラベル、第２ラベルの一方を、分類ラベルが設定されていない画像に対する分類ラベルとして設定する。具体的には、第１ラベルが所定ラベルでない場合には、分類ラベル設定部２５７は、第１ラベルを分類ラベルとして設定する。一方、第１ラベルが所定ラベルである場合には、分類ラベル設定部２５７は、第２ラベルを分類ラベルとして設定する。

　［画像分類の処理手順］
　次に、本開示に係る画像分類装置における、画像分類の処理手順を、図２のフローチャートを参照して説明する。

　図２に示されるフローチャートの処理は、ユーザが画像分類装置を稼働させた際に開始される。なお、画像分類装置による画像の分類を始める時点で、既に第１モデル及び第２モデルが生成されているものとする。

　ステップＳ１０１にて、受信部２１は、撮像装置１０が撮像した物体の画像を受信する。

　ステップＳ１０３にて、第１ラベル算出部２５１は、画像と第１モデルに基づいて第１ラベルを算出する。つまり、第１ラベル算出部２５１は、第１モデルを表現する第１ニューラルネットワークに画像を入力し、第１ニューラルネットワークの出力を算出する。そして、第１ニューラルネットワークの出力を第１ラベルとする。

　ステップＳ１０５にて、判定部２５５は、第１ラベル算出部２５１によって算出した第１ラベルが所定ラベルであるか否かを判定する。

　ステップＳ１０５にて、第１ラベルが所定ラベルでないと判定された場合（ステップＳ１０５でＮＯの場合）、ステップＳ１０７に進み、分類ラベル設定部２５７は、画像に対して第１ラベルを分類ラベルとして設定する。

　一方、ステップＳ１０５にて、第１ラベルが所定ラベルであると判定された場合（ステップＳ１０５でＹＥＳの場合）、ステップＳ１１１に進み、第２ラベル算出部２５３は、画像と第２モデルに基づいて第２ラベルを算出する。つまり、第２ラベル算出部２５３は、第２モデルを表現する第２ニューラルネットワークに画像を入力し、第２ニューラルネットワークの出力を算出する。そして、第２ニューラルネットワークの出力を第２ラベルとする。

　その後、ステップＳ１１３にて、分類ラベル設定部２５７は、画像に対して第２ラベルを分類ラベルとして設定する。

　ステップＳ１０７又はステップＳ１１３での処理を行った後、図２に示す画像分類の処理は終了する。

　このように、ステップＳ１０７又はステップＳ１１３での処理が行われる結果、分類ラベルが未知の画像に対して分類ラベルの推定が行われ、第１ラベルと第２ラベルのうち一方が、分類ラベルとして設定される。

　［実施形態の効果］
　以上詳細に説明したように、本開示に係る画像分類装置、画像分類方法、及び、画像分類プログラムは、第１モデルと第２モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第１モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第１教師データに基づいて生成されたモデルである。第２モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第２教師データに基づいて生成されたモデルである。画像分類方法は、上記画像と上記第１モデルに基づいて第１ラベルを算出し、上記第１ラベルが所定ラベルであるか否かを判定する。そして、上記第１ラベルが上記所定ラベルでない場合には、上記第１ラベルを上記画像の分類ラベルとして設定する。一方、上記第１ラベルが上記所定ラベルである場合には、上記画像と上記第２モデルに基づいて第２ラベルを算出し、上記第２ラベルを上記画像の分類ラベルとして設定する。

　これにより、物体を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる。

　特に、本開示によれば、第２モデルよりも計算コストの小さい第１モデルに基づいて画像の粗い推定が行われる。そして、粗い推定では十分に分類できない画像に対して、第２モデルを用いて細かい推定が行われる。そのため、分類作業における計算コストを低減することができる。

　また、分類作業が自動化される結果、構成部品の数が多い機械の整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。

　例えば、航空機エンジンは、例えば、図３Ａ、図３Ｂ、図３Ｃ、図３Ｄに示すような部品から構成される。図３Ａに示すファンロータ、図３Ｂに示すインレットコーンは、図３Ｃ及び図３Ｄに示すインナーシュラウドとは大きく外観が異なる。そのため、第１モデルに基づく粗い推定によって、図３Ａに写り込む部品がファンロータであると推定でき、図３Ｂに写り込む部品がインレットコーンであると推定できる。

　第１モデルに基づく粗い推定によれば、図３Ｃ及び図３Ｄに写り込む部品がインナーシュラウドであると推定することはできる。しかしながら、図３Ｃに写り込む第１のインナーシュラウドと図３Ｄに写り込むインナーシュラウドとを互いに区別して推定することは困難である。

　そこで、例えば、所定ラベルとして、「第１のインナーシュラウド」「第２のインナーシュラウド」を設定し、第２モデルに基づく細かい推定によって、図３Ｃ及び図３Ｄに写り込む部品を互いに区別して推定する。

　第２モデルを生成する際、第２教師データには、第１のインナーシュラウドが写り込む画像には、図３Ｃに示すように領域Ｒ１が設定されている。また、第２のインナーシュラウドが写り込む画像には、図３Ｄに示すように領域Ｒ２が設定されている。そのため、第２モデルに基づく細かい推定によれば、図３Ｃ及び図３Ｄに写り込む部品を互いに区別して推定することができる。

　なお、航空機エンジンを構成する部品の名前は、上述した例に限定されない。また、所定ラベルの設定は、上述した例に限定されない。

　上記第２モデルは、上記分類済み画像の分類ラベルが上記所定ラベルである上記第２教師データのみに基づいて生成されたモデルであってもよい。これにより、第２モデルは、第１モデルに基づく分類では十分に分類できない画像の分類に特化したモデルとなる。その結果、第１モデルによる粗い推定では十分に分類できない画像に対する分類の精度を向上させることができる。さらには、第２教師データに基づく学習の時間を短縮することができる。

　これにより、第１モデルによる粗い推定では十分に分類できない画像に対して、第２モデルを用いて細かい推定を行うことができる。特に、正答率に基づいて所定モデルが自動設定されるため、ユーザが所定モデルを設定する作業を省略できる。その結果、分類作業における作業時間及びコストを削減することができる。

　上記第１モデルは、上記第１教師データに基づく機械学習によって生成されたモデルであってもよい。これにより、画像の粗い推定を行うことができる。また、第１モデルに基づく粗い推定で十分な分類済み画像に対する学習の時間を短縮することができる。

　上記領域は、上記画像における上記物体の特徴部分が写り込む領域であってもよい。これにより、第２モデルによる細かい推定による分類精度を向上させることができる。

　上記第２モデルは、検出アルゴリズムを用いて上記画像から上記領域を推定するモデルであってもよい。これにより、第２モデルは、第１モデルよりも細かい推定を行うことができる。

　上記検出アルゴリズムは、Ｆａｓｔｅｒ　Ｒ－ＣＮＮ（Ｒｅｇｉｏｎｓ　ｗｉｔｈ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ）、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ）、セマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含むものであってもよい。これにより、第２モデルは、第１モデルよりも細かい推定を行うことができる。

　上記物体は機械を構成する部品であってもよい。これにより、構成部品の数が多い機械の整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。

　上記機械は航空機エンジンであってもよい。これにより、構成部品の数が多い航空機エンジンの整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。

　本開示で示した各機能は、１又は複数の処理回路によって実装されうる。処理回路には、プログラムされたプロセッサ、電気回路などが含まれ、さらには、特定用途向けの集積回路（ＡＳＩＣ）のような装置、又は、記載された機能を実行するよう配置された回路構成要素なども含まれる。

　本開示によれば、似たような構成部品を撮像した画像の分類作業が自動化されて、分類作業における作業時間及びコストを削減することができるので、例えば、国際連合が主導する持続可能な開発目標（ＳＤＧｓ）の目標１２「持続可能な生産消費形態を確保する。」に貢献することができる。

　本開示は、ここでは記載していない様々な実施の形態などを含むことは勿論である。したがって、本開示の技術的範囲は、上述の説明から妥当な請求の範囲に係る事項によってのみ定められる。

　本出願は、２０２０年５月２１日に出願された日本国特許願第２０２０－０８８８１５に基づく優先権を主張しており、この出願の全内容が参照により本明細書に組み込まれる。

　１０　　撮像装置
　２０　　画像分類装置
　２１　　受信部
　２５　　コントローラ
　２５１　第１ラベル算出部
　２５３　第２ラベル算出部
　２５５　判定部
　２５７　分類ラベル設定部

Claims

　物体を撮像した画像を受信する受信部と、
　　分類済み画像と前記分類済み画像の分類ラベルを組とする第１教師データに基づいて生成された第１モデルと、
　　前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第２教師データに基づいて生成された第２モデルと、
　に基づいて、前記画像の分類ラベルを決定するコントローラと、
を有する画像分類装置であって、
　前記コントローラは、
　　前記画像と前記第１モデルに基づいて第１ラベルを算出し、
　　前記第１ラベルが所定ラベルであるか否かを判定し、
　　前記第１ラベルが前記所定ラベルでない場合に、前記第１ラベルを前記画像の分類ラベルとして設定し、
　　前記第１ラベルが前記所定ラベルである場合に、前記画像と前記第２モデルに基づいて第２ラベルを算出し、前記第２ラベルを前記画像の分類ラベルとして設定する、画像分類装置。
　前記第２モデルは、前記分類済み画像の分類ラベルが前記所定ラベルである前記第２教師データのみに基づいて生成されたモデルである、請求項１に記載の画像分類装置。
　前記分類済み画像と前記第１モデルに基づいて算出されたラベルを再現ラベルとし、
　前記分類済み画像の分類ラベルごとに算出された、前記再現ラベルと前記分類済み画像の分類ラベルが一致する割合を正答率として、
　前記正答率が所定閾値以下である前記分類済み画像の分類ラベルを前記所定ラベルとする、請求項１又は２に記載の画像分類装置。
　前記第１モデルは、前記第１教師データに基づく機械学習によって生成されたモデルである、請求項１～３のいずれか一項に記載の画像分類装置。
　前記領域は、前記画像における前記物体の特徴部分が写り込む領域である、請求項１～４のいずれか一項に記載の画像分類装置。
　前記第２モデルは、検出アルゴリズムを用いて前記画像から前記領域を推定するモデルである、請求項１～５のいずれか一項に記載の画像分類装置。
　前記検出アルゴリズムは、物体検出手法（Ｆａｓｔｅｒ　Ｒ－ＣＮＮ（Ｒｅｇｉｏｎｓ　ｗｉｔｈ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ）、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ））あるいはセマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含む、請求項６に記載の画像分類装置。
　前記物体は機械を構成する部品である、請求項１～７のいずれか一項に記載の画像分類装置。
　前記機械は航空機エンジンである、請求項８に記載の画像分類装置。
　分類済み画像と前記分類済み画像の分類ラベルを組とする第１教師データに基づいて生成された第１モデルと、
　前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第２教師データに基づいて生成された第２モデルと、
に基づいて、物体を撮像した画像の分類ラベルを決定する画像分類方法であって、
　前記画像と前記第１モデルに基づいて第１ラベルを算出し、
　前記第１ラベルが所定ラベルであるか否かを判定し、
　前記第１ラベルが前記所定ラベルでない場合に、前記第１ラベルを前記画像の分類ラベルとして設定し、
　前記第１ラベルが前記所定ラベルである場合に、前記画像と前記第２モデルに基づいて第２ラベルを算出し、前記第２ラベルを前記画像の分類ラベルとして設定する、画像分類方法。
　分類済み画像と前記分類済み画像の分類ラベルを組とする第１教師データに基づいて生成された第１モデルと、
　前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第２教師データに基づいて生成された第２モデルと、
に基づいて、物体を撮像した画像の分類ラベルを決定するための画像分類プログラムであって、
　コンピュータに、
　　前記画像と前記第１モデルに基づいて第１ラベルを算出するステップと、
　　前記第１ラベルが所定ラベルであるか否かを判定するステップと、
　　前記第１ラベルが前記所定ラベルでない場合に、前記第１ラベルを前記画像の分類ラベルとして設定するステップと、
　　前記第１ラベルが前記所定ラベルである場合に、前記画像と前記第２モデルに基づいて第２ラベルを算出するステップと、前記第２ラベルを前記画像の分類ラベルとして設定するステップと、
を実行させるための画像分類プログラム。