WO2021235061A1 - 画像分類装置、画像分類方法、及び、画像分類プログラム - Google Patents

画像分類装置、画像分類方法、及び、画像分類プログラム Download PDF

Info

Publication number
WO2021235061A1
WO2021235061A1 PCT/JP2021/010287 JP2021010287W WO2021235061A1 WO 2021235061 A1 WO2021235061 A1 WO 2021235061A1 JP 2021010287 W JP2021010287 W JP 2021010287W WO 2021235061 A1 WO2021235061 A1 WO 2021235061A1
Authority
WO
WIPO (PCT)
Prior art keywords
label
image
classification
model
classified
Prior art date
Application number
PCT/JP2021/010287
Other languages
English (en)
French (fr)
Inventor
均 服部
理也 栗原
一男 米倉
幸二 徳永
Original Assignee
株式会社Ihi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ihi filed Critical 株式会社Ihi
Priority to JP2022524901A priority Critical patent/JP7371776B2/ja
Priority to EP21809682.4A priority patent/EP4156092A4/en
Publication of WO2021235061A1 publication Critical patent/WO2021235061A1/ja
Priority to US17/811,596 priority patent/US20220343632A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Definitions

  • This disclosure relates to an image classification device, an image classification method, and an image classification program.
  • Patent Document 1 discloses a system capable of constructing a database of image data by a user grouping captured images while referring to the captured images.
  • the present disclosure automates the classification work of images of similar components, which is difficult to improve the accuracy of classification without confirming the detailed features of the components, and reduces the work time and cost in the classification work. It is an object of the present invention to provide an image classification device, an image classification method, and an image classification program which can be used.
  • the image classification device includes a receiving unit that receives an image obtained by capturing an image of an object, and a controller that determines an image classification label based on the first model and the second model.
  • the first model is a model generated based on the first teacher data in which the classified image and the classification label of the classified image are paired.
  • the second model is a model generated based on the second teacher data, which is a set of the classified image, the classification label of the classified image, and the area set in the classified image.
  • the controller calculates the first label based on the image and the first model, and determines whether or not the first label is a predetermined label. Then, when the first label is not the predetermined label, the first label is set as the classification label of the image.
  • the second label is calculated based on the image and the second model, and the second label is set as the classification label of the image.
  • the second model may be a model generated based only on the second teacher data in which the classification label of the classified image is the predetermined label.
  • the classification label of the classified image whose correct answer rate is equal to or less than the predetermined threshold value may be the predetermined label.
  • the classified image and the label calculated based on the first model are used as reproduction labels, and the reproduction label calculated for each classification label of the classified image and the classification label of the classified image match.
  • the percentage of correct answers may be the correct answer rate.
  • the first model may be a model generated by machine learning based on the first teacher data.
  • the area may be an area in which the characteristic portion of the object in the image is reflected.
  • the second model may be a model that estimates the region from the image using a detection algorithm.
  • the above detection algorithm is an object detection method (Faster R-CNN (Regions with Convolutional Neural Networks), YOLO (You Only Look None), SSD (Single Shot MultiBox, at least one of the algorithms, Segment). It may be included.
  • the above object may be a component of a machine.
  • the machine may be, for example, an aircraft engine.
  • the classification label of the image obtained by capturing the object is determined based on the first model and the second model.
  • the first model is a model generated based on the first teacher data in which the classified image and the classification label of the classified image are paired.
  • the second model is a model generated based on the second teacher data, which is a set of the classified image, the classification label of the classified image, and the area set in the classified image.
  • the image classification method calculates a first label based on the image and the first model, and determines whether or not the first label is a predetermined label. Then, when the first label is not the predetermined label, the first label is set as the classification label of the image. On the other hand, when the first label is the predetermined label, the second label is calculated based on the image and the second model, and the second label is set as the classification label of the image.
  • the image classification program determines the classification label of the image obtained by capturing the object based on the first model and the second model.
  • the first model is a model generated based on the first teacher data in which the classified image and the classification label of the classified image are paired.
  • the second model is a model generated based on the second teacher data, which is a set of the classified image, the classification label of the classified image, and the area set in the classified image.
  • the image classification program causes a computer to calculate a first label based on the image and the first model, and determines whether or not the first label is a predetermined label. Then, when the first label is not the predetermined label, the first label is set as the classification label of the image. On the other hand, when the first label is the predetermined label, the second label is calculated based on the image and the second model, and the second label is set as the classification label of the image.
  • FIG. 1 is a block diagram showing a configuration of an image classification device.
  • the image classification device 20 includes a receiving unit 21, a database 23, a controller 25, and an output unit 27.
  • the controller 25 is connected so as to be able to communicate with the receiving unit 21, the database 23, and the output unit 27.
  • the output unit 27 may be provided by the image classification device 20 itself, or may be installed outside the image classification device 20 and connected to the image classification device 20 by a wireless or wired network. good.
  • the receiving unit 21 is connected wirelessly or by wire so as to be able to communicate with the image pickup device 10.
  • the receiving unit 21 receives an image of an object captured by the imaging device 10.
  • the receiving unit 21 may receive a time stamp indicating the date and time when the image was acquired together with the image.
  • the database 23 records the first teacher data and the second teacher data for the image for which the classification label has already been set by a method different from that of the image classification device 20 (hereinafter referred to as the classified image). good.
  • the first teacher data is data in which a classified image and a classification label of the classified image are paired.
  • the second teacher data is data in which the classified image, the classification label of the classified image, and the area set in the classified image are set as a set.
  • the image classification label is a label set for the image and represents a group to which the image belongs.
  • the classification label is the name of the object that appears in the image. If the object in the image is a component of the machine, the classification label may be the name of the component of the machine. More specifically, when the object shown in the image is a component constituting the aircraft engine, the classification label may be the name of the component constituting the aircraft engine.
  • Various names of parts constituting an aircraft engine include, for example, a fan rotor, an inlet cone, an inner shroud, a blade, and the like.
  • the names of the objects in the image, especially the names of the parts that make up the aircraft engine, are not limited to the examples given here.
  • the area set in the image is an area set on the image, and is an area in which the characteristic portion of the object reflected in the image is reflected.
  • the area set in the image may be an area composed of only the pixels corresponding to the characteristic portion of the object on the image.
  • the region set in the image may be a region including pixels corresponding to the characteristic portion of the object on the image.
  • the area set in the image may be a rectangular area including pixels corresponding to the characteristic portion of the object on the image.
  • the area set in the image may be an area having a polygon having a plurality of vertices as a boundary.
  • the characteristic part of an object is a part that distinguishes the object from other objects. That is, the characteristic portion of the object of interest is a dissimilar portion between the object of interest and an object other than the object of interest.
  • the second teacher data may be composed only of data in which the classification label of the classified image is a predetermined label.
  • the predetermined label will be described later.
  • the database 23 may record the image received by the receiving unit 21. Further, the database 23 may record the first model and the second model described later.
  • the output unit 27 outputs the information generated by the controller 25, which will be described later.
  • the output unit 27 outputs the classification label set for each image by the controller 25 to the user or the like.
  • the output unit 27 may be a display that presents information to the user by displaying figures and characters by combining a plurality of display pixels.
  • the output unit 27 may be a speaker that notifies the user of information by voice.
  • the method of outputting information by the output unit 27 is not limited to the examples given here.
  • the controller 25 (control unit) is a general-purpose microcomputer including a CPU (central processing unit), a memory, and an input / output unit.
  • a computer program (image classification program) for functioning as the image classification device 20 is installed in the controller 25.
  • the controller 25 By executing the computer program, the controller 25 functions as a plurality of information processing circuits (251, 255, 255, 257) included in the image classification device 20.
  • the computer program (image classification program) may be stored in a storage medium that can be read and written by a computer.
  • This disclosure shows an example of realizing a plurality of information processing circuits (251, 255, 255, 257) by software.
  • an information processing circuit (251, 253, 255, 257) by preparing dedicated hardware for executing each of the following information processing.
  • a plurality of information processing circuits (251, 255, 255, 257) may be configured by individual hardware.
  • the information processing circuit (251, 255, 255, 257) may also be used as a control unit used for monitoring or controlling the image pickup apparatus 10.
  • the controller 25 has a plurality of information processing circuits (251, 255, 255, 257) as a first label calculation unit 251, a second label calculation unit 253, a determination unit 255, and a classification label setting unit 257. Equipped with.
  • the first label calculation unit 251 performs "learning” based on the first teacher data, and then performs “estimation” of the label based on the image in which the classification label is not set.
  • the second label calculation unit 253 performs "learning” based on the second teacher data, and then “estimates” the label based on the image to which the classification label is not set.
  • the first label calculation unit 251 performs machine learning based on the first teacher data and generates the first model.
  • the second label calculation unit 253 performs machine learning based on the second teacher data and generates the second model.
  • the generated first model and the second model may be those stored in the database 23.
  • the first label calculation unit 251 and the second label calculation unit 253 generate the first model and the second model, respectively, using the neural network.
  • the first label calculation unit 251 generates a first model using a first neural network that inputs an image and outputs a label. At that time, the first label calculation unit 251 calculates an error between the label obtained when the classified image is input to the first neural network and the classification label corresponding to the input classified image.
  • the first label calculation unit 251 adjusts the parameters that define the first neural network so that the error is minimized, and learns the feature expressing the first teacher data.
  • the first model is represented by the first neural network.
  • the second label calculation unit 253 generates the second model by using the second neural network that inputs the image and outputs the label and the area information (information indicating the area set on the image). At that time, the second label calculation unit 253 calculates an error between the label obtained when the classified image is input to the second neural network and the classification label corresponding to the input classified image.
  • the second label calculation unit 253 calculates an error between the area information obtained when the classified image is input to the second neural network and the area information set in the input classified image.
  • the second label calculation unit 253 adjusts the parameters that define the second neural network so that the error related to the label and the error related to the area information are minimized, and learns the feature expressing the second teacher data.
  • the second model is represented by the second neural network.
  • the second label calculation unit 253 may calculate the area information from the image input to the second neural network by using the detection algorithm. That is, the second model generated by the second label calculation unit 253 may be a model that estimates the region from the image using a detection algorithm.
  • Examples of the detection algorithm include an object detection method or semantic segmentation.
  • Examples of the object detection method include Faster R-CNN (Regions with Convolutional Neural Networks), YOLO (You Only Look Noise), SSD (Single Shot MultiBox), and the like.
  • examples of the detection algorithm include those containing these algorithms internally. The detection algorithm is not limited to the examples given here.
  • the above-mentioned neural network includes an input layer into which an image is input, an output layer in which an output value is output, and at least one hidden layer provided between the input layer and the output layer, and includes an input layer and a hidden layer.
  • the signal propagates in the order of layer and output layer.
  • Each layer of the input layer, the hidden layer, and the output layer is composed of one or more units.
  • the units between the layers are connected to each other, and each unit has an activation function (for example, a sigmoid function, a rectified linear function, a softmax function, etc.).
  • a weighted sum is calculated based on multiple inputs to the unit, and the value of the activation function with the sum value as a variable is the output of the unit.
  • the first label calculation unit 251 and the second label calculation unit 253 adjust the weights when calculating the weighted total in each unit among the parameters defining the neural network. Then, the first label calculation unit 251 and the second label calculation unit 253 minimize the error between the output of the neural network and the classification data.
  • the maximum likelihood estimation method or the like can be applied to minimize the error related to the output of the neural network for a plurality of teacher data.
  • the first label calculation unit 251 and the second label calculation unit 253 may use a gradient descent method, a stochastic gradient descent method, or the like.
  • the first label calculation unit 251 and the second label calculation unit 253 may use an error back propagation method for gradient calculation by the gradient descent method or the stochastic gradient descent method.
  • a method such as regularization that restricts the degree of freedom of weights at the time of learning may be used in order to alleviate overfitting.
  • a method such as a dropout that probabilistically selects units in the neural network and invalidates other units may be used.
  • methods such as data regularization, data standardization, and data expansion that eliminate bias in teacher data may be used.
  • the first label calculation unit 251 estimates the classification label for an image whose classification label is unknown by using the first model generated by the first teacher data. That is, the first label calculation unit 251 inputs an image to the first neural network representing the first model, and calculates the output of the first neural network. Then, the output of the first neural network is used as the first label (classification label estimated by the first model).
  • the second label calculation unit 253 estimates the classification label for an image whose classification label is unknown by using the second model generated by the second teacher data. That is, the second label calculation unit 253 inputs an image to the second neural network representing the second model, and calculates the output of the second neural network. Then, the output of the second neural network is used as the second label (classification label estimated by the second model).
  • Estimates based on the second model tend to have higher calculation costs than estimates based on the first model.
  • the estimation based on the second model tends to enable finer estimation than the estimation based on the first model. The reason for this is that, as compared with the first model, in the second model, the calculation regarding the characteristic portion of the object reflected in the image is performed.
  • Which of the first label and the second label is set as the classification label for the image for which the classification label is not set is determined by the processing in the determination unit 255 and the classification label setting unit 257 described below.
  • the first label calculation unit 251 may use the first model to estimate the classification label for the classified image and calculate the correct answer rate of the first model. That is, the first label calculation unit 251 uses the classified image and the label calculated based on the first model as the reproduction label, and sets the ratio at which the reproduction label and the classification label of the classified image match as the classification label of the classified image. It may be calculated for each. The correct answer rate is calculated for each classification label of the classified image.
  • the above-mentioned correct answer rate indicates the degree to which the first model reproduces the first teacher data.
  • the correct answer rate represents the probability that the classification label corresponding to the input classified image is output as a reproduction label.
  • the first label calculation unit 251 may set the classification label of the classified image whose correct answer rate is equal to or less than the predetermined threshold value as the predetermined label.
  • the predetermined label may be set based on the correct answer rate, or may be arbitrarily set by the user of the image classification device 20. The method of setting the predetermined label is not limited to the example given here.
  • the reason for setting the predetermined label is to construct the second teacher data by using the first teacher data to a small degree of reproduction by the first model.
  • the classification label is used for the image whose classification label is unknown using the second model. Is estimated.
  • the determination unit 255 determines whether or not the first label calculated by the first label calculation unit 251 is a predetermined label. Then, the result of the determination is output to the classification label setting unit 257. The determination unit 255 may control the second label calculation unit 253 so that the second label is calculated when the first label calculated by the first label calculation unit 251 is a predetermined label.
  • the classification label setting unit 257 sets one of the first label and the second label as the classification label for the image for which the classification label is not set, based on the determination result by the determination unit 255. Specifically, when the first label is not a predetermined label, the classification label setting unit 257 sets the first label as the classification label. On the other hand, when the first label is a predetermined label, the classification label setting unit 257 sets the second label as the classification label.
  • the processing of the flowchart shown in FIG. 2 is started when the user activates the image classification device. It is assumed that the first model and the second model have already been generated at the time when the image classification by the image classification device is started.
  • step S101 the receiving unit 21 receives the image of the object captured by the imaging device 10.
  • step S103 the first label calculation unit 251 calculates the first label based on the image and the first model. That is, the first label calculation unit 251 inputs an image to the first neural network representing the first model, and calculates the output of the first neural network. Then, the output of the first neural network is used as the first label.
  • step S105 the determination unit 255 determines whether or not the first label calculated by the first label calculation unit 251 is a predetermined label.
  • step S105 If it is determined in step S105 that the first label is not a predetermined label (NO in step S105), the process proceeds to step S107, and the classification label setting unit 257 sets the first label as the classification label for the image. do.
  • step S105 if it is determined in step S105 that the first label is a predetermined label (YES in step S105), the process proceeds to step S111, and the second label calculation unit 253 is based on the image and the second model. Calculate the second label. That is, the second label calculation unit 253 inputs an image to the second neural network representing the second model, and calculates the output of the second neural network. Then, the output of the second neural network is used as the second label.
  • step S113 the classification label setting unit 257 sets the second label as the classification label for the image.
  • step S107 or step S113 After performing the processing in step S107 or step S113, the processing of image classification shown in FIG. 2 is completed.
  • the classification label is estimated for the image whose classification label is unknown, and one of the first label and the second label is set as the classification label. Will be done.
  • the image classification device, the image classification method, and the image classification program according to the present disclosure determine the classification label of the image obtained by capturing the object based on the first model and the second model.
  • the first model is a model generated based on the first teacher data in which the classified image and the classification label of the classified image are paired.
  • the second model is a model generated based on the second teacher data, which is a set of the classified image, the classification label of the classified image, and the area set in the classified image.
  • the image classification method calculates a first label based on the image and the first model, and determines whether or not the first label is a predetermined label.
  • the first label is set as the classification label of the image.
  • the second label is calculated based on the image and the second model, and the second label is set as the classification label of the image.
  • the time required for the classification work of the captured images acquired for the maintenance and inspection of a machine having a large number of component parts can be shortened. Furthermore, it is not necessary to train workers who are proficient in the work of classifying captured images.
  • an aircraft engine is composed of parts as shown in FIGS. 3A, 3B, 3C, and 3D.
  • the fan rotor shown in FIG. 3A and the inlet cone shown in FIG. 3B are significantly different in appearance from the inner shrouds shown in FIGS. 3C and 3D. Therefore, by rough estimation based on the first model, it can be estimated that the component reflected in FIG. 3A is a fan rotor, and the component reflected in FIG. 3B is an inlet cone.
  • the parts reflected in FIGS. 3C and 3D are inner shrouds.
  • a "first inner shroud” and a “second inner shroud” are set as predetermined labels, and the parts reflected in FIGS. 3C and 3D are estimated separately from each other by detailed estimation based on the second model. ..
  • the area R1 is set in the image in which the first inner shroud is reflected in the second teacher data as shown in FIG. 3C. Further, in the image in which the second inner shroud is reflected, the area R2 is set as shown in FIG. 3D. Therefore, according to the detailed estimation based on the second model, the parts reflected in FIGS. 3C and 3D can be estimated separately from each other.
  • the names of the parts that make up the aircraft engine are not limited to the above examples. Further, the setting of the predetermined label is not limited to the above-mentioned example.
  • the second model may be a model generated based only on the second teacher data in which the classification label of the classified image is the predetermined label.
  • the second model becomes a model specialized in the classification of images that cannot be sufficiently classified by the classification based on the first model.
  • the learning time based on the second teacher data can be shortened.
  • the classification label of the classified image whose correct answer rate is equal to or less than the predetermined threshold value may be the predetermined label.
  • the classified image and the label calculated based on the first model are used as reproduction labels, and the reproduction label calculated for each classification label of the classified image and the classification label of the classified image match.
  • the percentage of correct answers may be the correct answer rate.
  • the first model may be a model generated by machine learning based on the first teacher data. This makes it possible to make a rough estimation of the image. In addition, it is possible to shorten the learning time for a sufficiently classified image by rough estimation based on the first model.
  • the area may be an area in which the characteristic portion of the object in the image is reflected. This makes it possible to improve the classification accuracy by fine estimation by the second model.
  • the second model may be a model that estimates the region from the image using a detection algorithm. This allows the second model to make finer estimates than the first model.
  • the detection algorithm includes Faster R-CNN (Regions with Convolutional Neural Networks), YOLO (You Only Look None), SSD (Single Shot MultiBox At least Semantic), and a semantic algorithm including SSD (Single Shot MultiBox Detector). May be good. This allows the second model to make finer estimates than the first model.
  • the above object may be a component of a machine. As a result, it is possible to shorten the time required for sorting the captured images acquired for maintenance and inspection of a machine having a large number of component parts. Furthermore, it is not necessary to train workers who are proficient in the work of classifying captured images.
  • the above machine may be an aircraft engine. As a result, it is possible to shorten the time required for sorting the captured images acquired for maintenance and inspection of an aircraft engine having a large number of components. Furthermore, it is not necessary to train workers who are proficient in the work of classifying captured images.
  • Processing circuits include programmed processors, electrical circuits, etc., as well as devices such as application specific integrated circuits (ASICs), or circuit components arranged to perform the described functions. Etc. are also included.
  • the classification work of images of similar components can be automated to reduce the work time and cost in the classification work, and thus, for example, United Nations-led sustainable development. It can contribute to Goal 12 “Ensuring sustainable production and consumption patterns” of the Goals (SDGs).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

画像分類装置、画像分類方法、画像分類プログラムによれば、第1モデルと第2モデルとに基づいて、二段階の認識によって物体を撮像した画像の分類ラベルを決定する。画像と第1モデルに基づいて算出した第1ラベルが所定ラベルでない場合に、第1ラベルを画像の分類ラベルとして設定し、第1ラベルが所定ラベルである場合に、画像と第2モデルに基づいて算出した第2ラベルを画像の分類ラベルとして設定する。

Description

画像分類装置、画像分類方法、及び、画像分類プログラム
 本開示は、画像分類装置、画像分類方法、及び、画像分類プログラムに関する。
 特許文献1には、ユーザが撮像画像を参照しながら撮像画像のグループ化を行うことにより、画像データのデータベースを構築することが可能なシステムが開示されている。
特開2005-4564号公報
 しかしながら、特許文献1に開示される技術を用いて、航空機エンジン等を分解した後の構成部品を撮像した画像を分類しようとした場合、撮像画像の分類作業に必要な時間とコストが膨大なものとなっていた。
 より具体的には、航空機エンジン等の構成部品には似たような部品が多く、細かい特徴を確認しなければ、構成部品を撮像した画像の分類の精度を向上させにくい。そのため、撮像画像の分類作業に時間とコストがかかるという問題が生じていた。また、航空機エンジン等の構成部品に関する撮像画像の分類作業に習熟した作業員を養成するための時間とコストが生じるという問題が生じていた。
 本開示は上述の状況を鑑みて成されたものである。即ち、本開示は、構成部品の細かい特徴を確認しなければ分類の精度を向上させにくい、似たような構成部品を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる画像分類装置、画像分類方法、及び、画像分類プログラムを提供することを目的とする。
 本開示に係る画像分類装置は、物体を撮像した画像を受信する受信部と、第1モデルと第2モデルに基づいて、画像の分類ラベルを決定するコントローラと、を有する。ここで、第1モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第1教師データに基づいて生成されたモデルである。第2モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第2教師データに基づいて生成されたモデルである。上記コントローラは、上記画像と上記第1モデルに基づいて第1ラベルを算出し、上記第1ラベルが所定ラベルであるか否かを判定する。そして、上記第1ラベルが上記所定ラベルでない場合には、上記第1ラベルを上記画像の分類ラベルとして設定する。一方、上記第1ラベルが上記所定ラベルである場合には、上記画像と上記第2モデルに基づいて第2ラベルを算出し、上記第2ラベルを上記画像の分類ラベルとして設定する。
 上記第2モデルは、上記分類済み画像の分類ラベルが上記所定ラベルである上記第2教師データのみに基づいて生成されたモデルであってもよい。
 正答率が所定閾値以下である上記分類済み画像の分類ラベルを上記所定ラベルとするものであってもよい。ここで、上記分類済み画像と上記第1モデルに基づいて算出されたラベルを再現ラベルとし、上記分類済み画像の分類ラベルごとに算出された、上記再現ラベルと上記分類済み画像の分類ラベルが一致する割合を正答率とするものであってもよい。
 上記第1モデルは、上記第1教師データに基づく機械学習によって生成されたモデルであってもよい。
 上記領域は、上記画像における上記物体の特徴部分が写り込む領域であってもよい。
 上記第2モデルは、検出アルゴリズムを用いて上記画像から上記領域を推定するモデルであってもよい。
 上記検出アルゴリズムは、物体検出手法(Faster R-CNN(Regions with Convolutional Neural Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector))あるいはセマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含むものであってもよい。
 上記物体は機械を構成する部品であってもよい。
 上記機械は、例えば航空機エンジンであってもよい。
 本開示に係る画像分類方法は、第1モデルと第2モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第1モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第1教師データに基づいて生成されたモデルである。第2モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第2教師データに基づいて生成されたモデルである。画像分類方法は、上記画像と上記第1モデルに基づいて第1ラベルを算出し、上記第1ラベルが所定ラベルであるか否かを判定する。そして、上記第1ラベルが上記所定ラベルでない場合には、上記第1ラベルを上記画像の分類ラベルとして設定する。一方、上記第1ラベルが上記所定ラベルである場合には、上記画像と上記第2モデルに基づいて第2ラベルを算出し、上記第2ラベルを上記画像の分類ラベルとして設定する。
 本開示に係る画像分類プログラムは、第1モデルと第2モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第1モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第1教師データに基づいて生成されたモデルである。第2モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第2教師データに基づいて生成されたモデルである。画像分類プログラムは、コンピュータに、上記画像と上記第1モデルに基づいて第1ラベルを算出させ、上記第1ラベルが所定ラベルであるか否かを判定させる。そして、上記第1ラベルが上記所定ラベルでない場合には、上記第1ラベルを上記画像の分類ラベルとして設定させる。一方、上記第1ラベルが上記所定ラベルである場合には、上記画像と上記第2モデルに基づいて第2ラベルを算出させ、上記第2ラベルを上記画像の分類ラベルとして設定させる。
 本開示によれば、構成部品の細かい特徴を確認しなければ分類の精度を向上させにくい、似たような構成部品を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる。
一実施形態に係る画像分類装置の構成を示すブロック図である。 画像分類の処理手順を示すフローチャートである。 ファンロータを撮像した画像を模式的に示す図である。 インレットコーンを撮像した画像を模式的に示す図である。 第1のインナーシュラウドを撮像した画像を模式的に示す図である。 第2のインナーシュラウドを撮像した画像を模式的に示す図である。
 以下、いくつかの例示的な実施形態について、図面を参照して説明する。なお、各図において共通する部分には同一の符号を付し、重複する説明を省略する。
 [画像分類装置の構成]
 図1は、画像分類装置の構成を示すブロック図である。図1に示すように、画像分類装置20は、受信部21と、データベース23と、コントローラ25と、出力部27と、を備える。コントローラ25は、受信部21、データベース23、出力部27と通信可能なように接続される。
 その他、出力部27は、画像分類装置20自体が備えていてもよいし、画像分類装置20の外部に設置されて、無線又は有線のネットワークによって画像分類装置20と接続されるものであってもよい。
 受信部21は、無線又は有線によって撮像装置10と通信可能なように接続される。受信部21は、撮像装置10が撮像した物体の画像を受信する。その他、受信部21は、画像を取得した日時を示すタイムスタンプを、画像と共に受信するものであってもよい。
 また、データベース23は、画像分類装置20とは異なる方法によって分類ラベルが既に設定されている画像(以下、分類済み画像)について、第1教師データ、第2教師データを記録するものであってもよい。ここで、第1教師データとは、分類済み画像と分類済み画像の分類ラベルを組とするデータである。また、第2教師データとは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とするデータである。
 画像の分類ラベルとは、当該画像に設定されたラベルであって、当該画像が属するグループを表現するラベルである。例えば、分類ラベルは、当該画像に写る物体の名前である。画像に写る物体が機械を構成する部品である場合には、分類ラベルは、機械を構成する部品の名前であってもよい。より具体的には、画像に写る物体が航空機エンジンを構成する部品である場合には、分類ラベルは、航空機エンジンを構成する部品の名前であってもよい。航空機エンジンを構成する部品の名前としては、例えば、ファンロータ、インレットコーン、インナーシュラウド、ブレード、など、様々なものが挙げられる。画像に写る物体の名前、特に、航空機エンジンを構成する部品の名前は、ここで挙げた例に限定されない。
 画像に設定された領域とは、当該画像上に設定された領域であって、当該画像に写る物体の特徴部分が写り込む領域である。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素のみから構成される領域であってもよい。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素を含む領域であってもよい。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素を含む、矩形状の領域であってもよい。画像に設定された領域は、その他、複数の頂点を有する多角形を境界とする領域であってもよい。
 なお、物体の特徴部分とは、当該物体を他の物体と区別する部分である。つまり、注目する物体の特徴部分とは、注目する物体と注目する物体以外の物体の間にある非類似の部分である。
 その他、第2教師データは、分類済み画像の分類ラベルが所定ラベルであるデータのみから構成されるものであってもよい。所定ラベルについては、後述する。
 その他、データベース23は、受信部21によって受信した画像を記録するものであってもよい。また、データベース23は、後述する第1モデル及び第2モデルを記録するものであってもよい。
 出力部27は、後述するコントローラ25によって生成された情報を出力する。特に、出力部27は、コントローラ25によって画像ごとに設定された分類ラベルをユーザ等に出力する。
 例えば、出力部27は、複数の表示画素の組合せにより図形、文字を表示することで、ユーザに情報を提示するディスプレイであってもよい。出力部27は、音声により、ユーザに情報を通知するスピーカであってもよい。出力部27による情報の出力方法は、ここに挙げた例に限定されない。
 コントローラ25(制御部)は、CPU(中央処理装置)、メモリ、及び入出力部を備える汎用のマイクロコンピュータである。コントローラ25には、画像分類装置20として機能するためのコンピュータプログラム(画像分類プログラム)がインストールされている。コンピュータプログラムを実行することにより、コントローラ25は、画像分類装置20が備える複数の情報処理回路(251、253、255、257)として機能する。なお、コンピュータプログラム(画像分類プログラム)は、コンピュータによって読み書き可能な記憶媒体に格納されるものであってもよい。
 本開示では、ソフトウェアによって複数の情報処理回路(251、253、255、257)を実現する例を示す。ただし、以下に示す各情報処理を実行するための専用のハードウェアを用意して、情報処理回路(251、253、255、257)を構成することも可能である。また、複数の情報処理回路(251、253、255、257)を個別のハードウェアにより構成してもよい。さらに、情報処理回路(251、253、255、257)は、撮像装置10の監視または制御に用いる制御ユニットと兼用してもよい。
 図1に示すように、コントローラ25は、複数の情報処理回路(251、253、255、257)として、第1ラベル算出部251、第2ラベル算出部253、判定部255、分類ラベル設定部257を備える。
 第1ラベル算出部251は、第1教師データに基づいて「学習」を行い、その後、分類ラベルが設定されていない画像に基づいてラベルの「推定」を行う。同様に、第2ラベル算出部253は、第2教師データに基づいて「学習」を行い、その後、分類ラベルが設定されていない画像に基づいてラベルの「推定」を行う。
 初めに、第1ラベル算出部251、第2ラベル算出部253における「学習」について説明する。
 第1ラベル算出部251は、第1教師データに基づいて機械学習を行い、第1モデルを生成する。一方、第2ラベル算出部253は、第2教師データに基づいて機械学習を行い、第2モデルを生成する。生成された第1モデル及び第2モデルは、データベース23に記憶されるものであってもよい。
 具体的には、第1ラベル算出部251、第2ラベル算出部253は、ニューラルネットワークを用いて、それぞれ第1モデル、第2モデルを生成する。
 第1ラベル算出部251は、画像を入力とし、ラベルを出力とする第1ニューラルネットワークを用いて、第1モデルを生成する。その際、第1ラベル算出部251は、分類済み画像を第1ニューラルネットワークに入力した際に得られるラベルと、入力した分類済み画像に対応する分類ラベルの誤差を算出する。
 そして、第1ラベル算出部251は、誤差が最小となるように第1ニューラルネットワークを定義するパラメータの調整を行って、第1教師データを表現する特徴を学習する。第1モデルは第1ニューラルネットワークによって表現される。
 一方、第2ラベル算出部253は、画像を入力とし、ラベル及び領域情報(画像上に設定される領域を示す情報)を出力とする第2ニューラルネットワークを用いて、第2モデルを生成する。その際、第2ラベル算出部253は、分類済み画像を第2ニューラルネットワークに入力した際に得られるラベルと、入力した分類済み画像に対応する分類ラベルの誤差を算出する。
 また、第2ラベル算出部253は、分類済み画像を第2ニューラルネットワークに入力した際に得られる領域情報と、入力した分類済み画像に設定された領域情報の誤差を算出する。
 そして、第2ラベル算出部253は、ラベルに関する誤差及び領域情報に関する誤差が最小となるように第2ニューラルネットワークを定義するパラメータの調整を行って、第2教師データを表現する特徴を学習する。第2モデルは第2ニューラルネットワークによって表現される。
 なお、第2ラベル算出部253は、検出アルゴリズムを用いて、第2ニューラルネットワークに入力される画像から領域情報を算出するものであってもよい。すなわち、第2ラベル算出部253によって生成される第2モデルは、検出アルゴリズムを用いて前記画像から前記領域を推定するモデルであってもよい。
 検出アルゴリズムとしては、物体検出手法あるいはセマンティック・セグメンテーションが挙げられる。物体検出手法には、例えば、Faster R-CNN(Regions with Convolutional Neural Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)などがある。その他、検出アルゴリズムとして、これらのアルゴリズムを内部に含むものが挙げられる。検出アルゴリズムは、ここに挙げた例に限定されない。
 例えば、上述したニューラルネットワークは、画像が入力される入力層、出力値が出力される出力層、入力層と出力層の間に設けられる少なくとも1層以上の隠れ層とを含み、入力層、隠れ層、出力層の順番に信号が伝搬する。入力層、隠れ層、出力層の各層は、1つ以上のユニットから構成される。層間のユニット同士が結合しており、各ユニットは活性化関数(例えば、シグモイド関数、正規化線形関数、ソフトマックス関数など)を有する。ユニットへの複数の入力に基づいて重み付きの合計が算出され、合計値を変数とする活性化関数の値が、ユニットの出力となる。
 例えば、第1ラベル算出部251、第2ラベル算出部253は、ニューラルネットワークを定義するパラメータのうち、各ユニットで重み付き合計を算出する際の重みを調整する。そして、第1ラベル算出部251、第2ラベル算出部253は、ニューラルネットワークの出力と分類データとの間の誤差を最小化する。複数の教師データに対して、ニューラルネットワークの出力に関する誤差の最小化には、最尤推定法などが適用可能である。
 ニューラルネットワークの出力に関する誤差を最小化するため、例えば、第1ラベル算出部251、第2ラベル算出部253は、勾配降下法、確率的勾配降下法などを用いてもよい。第1ラベル算出部251、第2ラベル算出部253は、勾配降下法、確率的勾配降下法での勾配計算のため、誤差逆伝搬法を用いてもよい。
 ニューラルネットワークによる機械学習では汎化性能(未知データに対する判別能力)と過適合(教師データに対して適合する一方で汎化性能が改善しない現象)が問題となりうる。
 そこで、第1ラベル算出部251、第2ラベル算出部253における学習モデルの作成では、過適合を緩和するため、学習時の重みの自由度を制約する正則化などの手法を用いてもよい。その他にも、ニューラルネットワーク中のユニットを確率的に選別してそれ以外のユニットを無効化するドロップアウトなどの手法を用いてもよい。さらには、汎化性能を向上させるため、教師データ中の偏りをなくすデータ正則化、データ標準化、データ拡張などの手法を用いてもよい。
 次に、第1ラベル算出部251、第2ラベル算出部253における「推定」について説明する。
 第1ラベル算出部251は、第1教師データによって生成された第1モデルを用いて、分類ラベルが未知の画像に対して分類ラベルを推定する。すなわち、第1ラベル算出部251は、第1モデルを表現する第1ニューラルネットワークに画像を入力し、第1ニューラルネットワークの出力を算出する。そして、第1ニューラルネットワークの出力を第1ラベル(第1モデルによって推定された分類ラベル)とする。
 第2ラベル算出部253は、第2教師データによって生成された第2モデルを用いて、分類ラベルが未知の画像に対して分類ラベルを推定する。すなわち、第2ラベル算出部253は、第2モデルを表現する第2ニューラルネットワークに画像を入力し、第2ニューラルネットワークの出力を算出する。そして、第2ニューラルネットワークの出力を第2ラベル(第2モデルによって推定された分類ラベル)とする。
 第2モデルに基づく推定は、第1モデルに基づく推定よりも計算コストが大きい傾向にある。一方で、第2モデルに基づく推定は、第1モデルに基づく推定よりも細かい推定が可能な傾向にある。この理由は、第1モデルと比較して、第2モデルでは、画像に写り込む物体の特徴部分に関する計算が行われることにある。
 分類ラベルが設定されていない画像に対して、第1ラベルと第2ラベルのいずれが分類ラベルとして設定されるかは、次に説明する判定部255及び分類ラベル設定部257での処理によって決まる。
 なお、第1ラベル算出部251は、第1モデルを用いて、分類済み画像に対して分類ラベルを推定し、第1モデルの正答率を算出するものであってもよい。すなわち、第1ラベル算出部251は、分類済み画像と第1モデルに基づいて算出されたラベルを再現ラベルとし、再現ラベルと分類済み画像の分類ラベルが一致する割合を、分類済み画像の分類ラベルごとに算出するものであってもよい。正答率は、分類済み画像の分類ラベルごとに算出される。
 上述した正答率は、第1モデルが第1教師データを再現する度合いを示している。第1モデルを表現する第1ニューラルネットワークに分類済み画像を入力した際に、入力した分類済み画像に対応する分類ラベルが再現ラベルとして出力される確率を、正答率は表している。
 その他、第1ラベル算出部251は、正答率が所定閾値以下である分類済み画像の分類ラベルを所定ラベルとして設定するものであってもよい。所定ラベルは、正答率に基づいて設定されるものであってもよいし、画像分類装置20のユーザが、任意に設定するものであってもよい。所定ラベルの設定方法は、ここで挙げた例に限定されない。
 所定ラベルを設定する理由は、第1モデルによって再現される度合いの小さい第1教師データを用いて、第2教師データを構成することにある。
 第1モデルを用いて分類ラベルが未知の画像に対して分類ラベルを推定する際の推定の精度が低い状況を改善するため、第2モデルを用いて分類ラベルが未知の画像に対して分類ラベルを推定するのである。
 判定部255は、第1ラベル算出部251によって算出した第1ラベルが所定ラベルであるか否かを判定する。そして、判定の結果を、分類ラベル設定部257に出力する。判定部255は、第1ラベル算出部251によって算出した第1ラベルが所定ラベルである場合に、第2ラベルが算出されるよう、第2ラベル算出部253を制御するものであってもよい。
 分類ラベル設定部257は、判定部255による判定結果に基づいて、第1ラベル、第2ラベルの一方を、分類ラベルが設定されていない画像に対する分類ラベルとして設定する。具体的には、第1ラベルが所定ラベルでない場合には、分類ラベル設定部257は、第1ラベルを分類ラベルとして設定する。一方、第1ラベルが所定ラベルである場合には、分類ラベル設定部257は、第2ラベルを分類ラベルとして設定する。
 [画像分類の処理手順]
 次に、本開示に係る画像分類装置における、画像分類の処理手順を、図2のフローチャートを参照して説明する。
 図2に示されるフローチャートの処理は、ユーザが画像分類装置を稼働させた際に開始される。なお、画像分類装置による画像の分類を始める時点で、既に第1モデル及び第2モデルが生成されているものとする。
 ステップS101にて、受信部21は、撮像装置10が撮像した物体の画像を受信する。
 ステップS103にて、第1ラベル算出部251は、画像と第1モデルに基づいて第1ラベルを算出する。つまり、第1ラベル算出部251は、第1モデルを表現する第1ニューラルネットワークに画像を入力し、第1ニューラルネットワークの出力を算出する。そして、第1ニューラルネットワークの出力を第1ラベルとする。
 ステップS105にて、判定部255は、第1ラベル算出部251によって算出した第1ラベルが所定ラベルであるか否かを判定する。
 ステップS105にて、第1ラベルが所定ラベルでないと判定された場合(ステップS105でNOの場合)、ステップS107に進み、分類ラベル設定部257は、画像に対して第1ラベルを分類ラベルとして設定する。
 一方、ステップS105にて、第1ラベルが所定ラベルであると判定された場合(ステップS105でYESの場合)、ステップS111に進み、第2ラベル算出部253は、画像と第2モデルに基づいて第2ラベルを算出する。つまり、第2ラベル算出部253は、第2モデルを表現する第2ニューラルネットワークに画像を入力し、第2ニューラルネットワークの出力を算出する。そして、第2ニューラルネットワークの出力を第2ラベルとする。
 その後、ステップS113にて、分類ラベル設定部257は、画像に対して第2ラベルを分類ラベルとして設定する。
 ステップS107又はステップS113での処理を行った後、図2に示す画像分類の処理は終了する。
 このように、ステップS107又はステップS113での処理が行われる結果、分類ラベルが未知の画像に対して分類ラベルの推定が行われ、第1ラベルと第2ラベルのうち一方が、分類ラベルとして設定される。
 [実施形態の効果]
 以上詳細に説明したように、本開示に係る画像分類装置、画像分類方法、及び、画像分類プログラムは、第1モデルと第2モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第1モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第1教師データに基づいて生成されたモデルである。第2モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第2教師データに基づいて生成されたモデルである。画像分類方法は、上記画像と上記第1モデルに基づいて第1ラベルを算出し、上記第1ラベルが所定ラベルであるか否かを判定する。そして、上記第1ラベルが上記所定ラベルでない場合には、上記第1ラベルを上記画像の分類ラベルとして設定する。一方、上記第1ラベルが上記所定ラベルである場合には、上記画像と上記第2モデルに基づいて第2ラベルを算出し、上記第2ラベルを上記画像の分類ラベルとして設定する。
 これにより、物体を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる。
 特に、本開示によれば、第2モデルよりも計算コストの小さい第1モデルに基づいて画像の粗い推定が行われる。そして、粗い推定では十分に分類できない画像に対して、第2モデルを用いて細かい推定が行われる。そのため、分類作業における計算コストを低減することができる。
 また、分類作業が自動化される結果、構成部品の数が多い機械の整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。
 例えば、航空機エンジンは、例えば、図3A、図3B、図3C、図3Dに示すような部品から構成される。図3Aに示すファンロータ、図3Bに示すインレットコーンは、図3C及び図3Dに示すインナーシュラウドとは大きく外観が異なる。そのため、第1モデルに基づく粗い推定によって、図3Aに写り込む部品がファンロータであると推定でき、図3Bに写り込む部品がインレットコーンであると推定できる。
 第1モデルに基づく粗い推定によれば、図3C及び図3Dに写り込む部品がインナーシュラウドであると推定することはできる。しかしながら、図3Cに写り込む第1のインナーシュラウドと図3Dに写り込むインナーシュラウドとを互いに区別して推定することは困難である。
 そこで、例えば、所定ラベルとして、「第1のインナーシュラウド」「第2のインナーシュラウド」を設定し、第2モデルに基づく細かい推定によって、図3C及び図3Dに写り込む部品を互いに区別して推定する。
 第2モデルを生成する際、第2教師データには、第1のインナーシュラウドが写り込む画像には、図3Cに示すように領域R1が設定されている。また、第2のインナーシュラウドが写り込む画像には、図3Dに示すように領域R2が設定されている。そのため、第2モデルに基づく細かい推定によれば、図3C及び図3Dに写り込む部品を互いに区別して推定することができる。
 なお、航空機エンジンを構成する部品の名前は、上述した例に限定されない。また、所定ラベルの設定は、上述した例に限定されない。
 上記第2モデルは、上記分類済み画像の分類ラベルが上記所定ラベルである上記第2教師データのみに基づいて生成されたモデルであってもよい。これにより、第2モデルは、第1モデルに基づく分類では十分に分類できない画像の分類に特化したモデルとなる。その結果、第1モデルによる粗い推定では十分に分類できない画像に対する分類の精度を向上させることができる。さらには、第2教師データに基づく学習の時間を短縮することができる。
 正答率が所定閾値以下である上記分類済み画像の分類ラベルを上記所定ラベルとするものであってもよい。ここで、上記分類済み画像と上記第1モデルに基づいて算出されたラベルを再現ラベルとし、上記分類済み画像の分類ラベルごとに算出された、上記再現ラベルと上記分類済み画像の分類ラベルが一致する割合を正答率とするものであってもよい。
 これにより、第1モデルによる粗い推定では十分に分類できない画像に対して、第2モデルを用いて細かい推定を行うことができる。特に、正答率に基づいて所定モデルが自動設定されるため、ユーザが所定モデルを設定する作業を省略できる。その結果、分類作業における作業時間及びコストを削減することができる。
 上記第1モデルは、上記第1教師データに基づく機械学習によって生成されたモデルであってもよい。これにより、画像の粗い推定を行うことができる。また、第1モデルに基づく粗い推定で十分な分類済み画像に対する学習の時間を短縮することができる。
 上記領域は、上記画像における上記物体の特徴部分が写り込む領域であってもよい。これにより、第2モデルによる細かい推定による分類精度を向上させることができる。
 上記第2モデルは、検出アルゴリズムを用いて上記画像から上記領域を推定するモデルであってもよい。これにより、第2モデルは、第1モデルよりも細かい推定を行うことができる。
 上記検出アルゴリズムは、Faster R-CNN(Regions with Convolutional Neural Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)、セマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含むものであってもよい。これにより、第2モデルは、第1モデルよりも細かい推定を行うことができる。
 上記物体は機械を構成する部品であってもよい。これにより、構成部品の数が多い機械の整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。
 上記機械は航空機エンジンであってもよい。これにより、構成部品の数が多い航空機エンジンの整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。
 本開示で示した各機能は、1又は複数の処理回路によって実装されうる。処理回路には、プログラムされたプロセッサ、電気回路などが含まれ、さらには、特定用途向けの集積回路(ASIC)のような装置、又は、記載された機能を実行するよう配置された回路構成要素なども含まれる。
 本開示によれば、似たような構成部品を撮像した画像の分類作業が自動化されて、分類作業における作業時間及びコストを削減することができるので、例えば、国際連合が主導する持続可能な開発目標(SDGs)の目標12「持続可能な生産消費形態を確保する。」に貢献することができる。
 本開示は、ここでは記載していない様々な実施の形態などを含むことは勿論である。したがって、本開示の技術的範囲は、上述の説明から妥当な請求の範囲に係る事項によってのみ定められる。
 本出願は、2020年5月21日に出願された日本国特許願第2020-088815に基づく優先権を主張しており、この出願の全内容が参照により本明細書に組み込まれる。
 10  撮像装置
 20  画像分類装置
 21  受信部
 25  コントローラ
 251 第1ラベル算出部
 253 第2ラベル算出部
 255 判定部
 257 分類ラベル設定部

Claims (11)

  1.  物体を撮像した画像を受信する受信部と、
      分類済み画像と前記分類済み画像の分類ラベルを組とする第1教師データに基づいて生成された第1モデルと、
      前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第2教師データに基づいて生成された第2モデルと、
     に基づいて、前記画像の分類ラベルを決定するコントローラと、
    を有する画像分類装置であって、
     前記コントローラは、
      前記画像と前記第1モデルに基づいて第1ラベルを算出し、
      前記第1ラベルが所定ラベルであるか否かを判定し、
      前記第1ラベルが前記所定ラベルでない場合に、前記第1ラベルを前記画像の分類ラベルとして設定し、
      前記第1ラベルが前記所定ラベルである場合に、前記画像と前記第2モデルに基づいて第2ラベルを算出し、前記第2ラベルを前記画像の分類ラベルとして設定する、画像分類装置。
  2.  前記第2モデルは、前記分類済み画像の分類ラベルが前記所定ラベルである前記第2教師データのみに基づいて生成されたモデルである、請求項1に記載の画像分類装置。
  3.  前記分類済み画像と前記第1モデルに基づいて算出されたラベルを再現ラベルとし、
     前記分類済み画像の分類ラベルごとに算出された、前記再現ラベルと前記分類済み画像の分類ラベルが一致する割合を正答率として、
     前記正答率が所定閾値以下である前記分類済み画像の分類ラベルを前記所定ラベルとする、請求項1又は2に記載の画像分類装置。
  4.  前記第1モデルは、前記第1教師データに基づく機械学習によって生成されたモデルである、請求項1~3のいずれか一項に記載の画像分類装置。
  5.  前記領域は、前記画像における前記物体の特徴部分が写り込む領域である、請求項1~4のいずれか一項に記載の画像分類装置。
  6.  前記第2モデルは、検出アルゴリズムを用いて前記画像から前記領域を推定するモデルである、請求項1~5のいずれか一項に記載の画像分類装置。
  7.  前記検出アルゴリズムは、物体検出手法(Faster R-CNN(Regions with Convolutional Neural Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector))あるいはセマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含む、請求項6に記載の画像分類装置。
  8.  前記物体は機械を構成する部品である、請求項1~7のいずれか一項に記載の画像分類装置。
  9.  前記機械は航空機エンジンである、請求項8に記載の画像分類装置。
  10.  分類済み画像と前記分類済み画像の分類ラベルを組とする第1教師データに基づいて生成された第1モデルと、
     前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第2教師データに基づいて生成された第2モデルと、
    に基づいて、物体を撮像した画像の分類ラベルを決定する画像分類方法であって、
     前記画像と前記第1モデルに基づいて第1ラベルを算出し、
     前記第1ラベルが所定ラベルであるか否かを判定し、
     前記第1ラベルが前記所定ラベルでない場合に、前記第1ラベルを前記画像の分類ラベルとして設定し、
     前記第1ラベルが前記所定ラベルである場合に、前記画像と前記第2モデルに基づいて第2ラベルを算出し、前記第2ラベルを前記画像の分類ラベルとして設定する、画像分類方法。
  11.  分類済み画像と前記分類済み画像の分類ラベルを組とする第1教師データに基づいて生成された第1モデルと、
     前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第2教師データに基づいて生成された第2モデルと、
    に基づいて、物体を撮像した画像の分類ラベルを決定するための画像分類プログラムであって、
     コンピュータに、
      前記画像と前記第1モデルに基づいて第1ラベルを算出するステップと、
      前記第1ラベルが所定ラベルであるか否かを判定するステップと、
      前記第1ラベルが前記所定ラベルでない場合に、前記第1ラベルを前記画像の分類ラベルとして設定するステップと、
      前記第1ラベルが前記所定ラベルである場合に、前記画像と前記第2モデルに基づいて第2ラベルを算出するステップと、前記第2ラベルを前記画像の分類ラベルとして設定するステップと、
    を実行させるための画像分類プログラム。
PCT/JP2021/010287 2020-05-21 2021-03-15 画像分類装置、画像分類方法、及び、画像分類プログラム WO2021235061A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022524901A JP7371776B2 (ja) 2020-05-21 2021-03-15 画像分類装置、画像分類方法、及び、画像分類プログラム
EP21809682.4A EP4156092A4 (en) 2020-05-21 2021-03-15 IMAGE CLASSIFICATION DEVICE, IMAGE CLASSIFICATION METHOD AND IMAGE CLASSIFICATION PROGRAM
US17/811,596 US20220343632A1 (en) 2020-05-21 2022-07-11 Image classification device, image classification method, and image classification program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-088815 2020-05-21
JP2020088815 2020-05-21

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/811,596 Continuation US20220343632A1 (en) 2020-05-21 2022-07-11 Image classification device, image classification method, and image classification program

Publications (1)

Publication Number Publication Date
WO2021235061A1 true WO2021235061A1 (ja) 2021-11-25

Family

ID=78708450

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/010287 WO2021235061A1 (ja) 2020-05-21 2021-03-15 画像分類装置、画像分類方法、及び、画像分類プログラム

Country Status (4)

Country Link
US (1) US20220343632A1 (ja)
EP (1) EP4156092A4 (ja)
JP (1) JP7371776B2 (ja)
WO (1) WO2021235061A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004564A (ja) 2003-06-13 2005-01-06 Joho Kankyo Design Kk 画像分類処理システム
JP2017084320A (ja) * 2015-03-06 2017-05-18 パナソニックIpマネジメント株式会社 学習方法およびプログラム
JP2018081629A (ja) * 2016-11-18 2018-05-24 住友電気工業株式会社 判定装置、判定方法および判定プログラム
JP2019212073A (ja) * 2018-06-06 2019-12-12 アズビル株式会社 画像判別装置および方法
JP2020088815A (ja) 2018-11-30 2020-06-04 Connected Design株式会社 管理サーバ、情報処理方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004564A (ja) 2003-06-13 2005-01-06 Joho Kankyo Design Kk 画像分類処理システム
JP2017084320A (ja) * 2015-03-06 2017-05-18 パナソニックIpマネジメント株式会社 学習方法およびプログラム
JP2018081629A (ja) * 2016-11-18 2018-05-24 住友電気工業株式会社 判定装置、判定方法および判定プログラム
JP2019212073A (ja) * 2018-06-06 2019-12-12 アズビル株式会社 画像判別装置および方法
JP2020088815A (ja) 2018-11-30 2020-06-04 Connected Design株式会社 管理サーバ、情報処理方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4156092A4

Also Published As

Publication number Publication date
EP4156092A1 (en) 2023-03-29
JP7371776B2 (ja) 2023-10-31
US20220343632A1 (en) 2022-10-27
EP4156092A4 (en) 2024-04-10
JPWO2021235061A1 (ja) 2021-11-25

Similar Documents

Publication Publication Date Title
US11645744B2 (en) Inspection device and inspection method
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN110942015B (zh) 人群密度估计方法
JP6798614B2 (ja) 画像認識装置、画像認識方法および画像認識プログラム
JP2015087903A (ja) 情報処理装置及び情報処理方法
US20220245405A1 (en) Deterioration suppression program, deterioration suppression method, and non-transitory computer-readable storage medium
JP7276488B2 (ja) 推定プログラム、推定方法、情報処理装置、再学習プログラムおよび再学習方法
CN111814852B (zh) 图像检测方法、装置、电子设备和计算机可读存储介质
US11809519B2 (en) Semantic input sampling for explanation (SISE) of convolutional neural networks
US20230134508A1 (en) Electronic device and method with machine learning training
CN115631112B (zh) 一种基于深度学习的建筑轮廓矫正方法及装置
JP2022554302A (ja) 製造プロセスのためのシステム、方法、および媒体
WO2007020466A2 (en) Data classification apparatus and method
US20210319269A1 (en) Apparatus for determining a classifier for identifying objects in an image, an apparatus for identifying objects in an image and corresponding methods
WO2021235061A1 (ja) 画像分類装置、画像分類方法、及び、画像分類プログラム
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
JP6499938B2 (ja) 稼働データ分類装置
CN108446602B (zh) 一种用于人脸检测的装置和方法
CN115937991A (zh) 人体摔倒识别方法、装置、计算机设备及存储介质
TWI801820B (zh) 用於製造流程之系統及方法
JP7006724B2 (ja) 分類装置、分類方法、及び、プログラム
WO2021049119A1 (ja) 学習装置、学習方法及び学習プログラムが格納された非一時的なコンピュータ可読媒体
WO2006090731A1 (ja) 顔画像分類方法、顔画像分類装置及び顔画像分類プログラム
KR20180082680A (ko) 분류기를 학습시키는 방법 및 이를 이용한 예측 분류 장치
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21809682

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022524901

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021809682

Country of ref document: EP

Effective date: 20221221