WO2021161595A1 - 画像分類装置及び方法 - Google Patents

画像分類装置及び方法 Download PDF

Info

Publication number
WO2021161595A1
WO2021161595A1 PCT/JP2020/041530 JP2020041530W WO2021161595A1 WO 2021161595 A1 WO2021161595 A1 WO 2021161595A1 JP 2020041530 W JP2020041530 W JP 2020041530W WO 2021161595 A1 WO2021161595 A1 WO 2021161595A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
classification
class
subclass
feature amount
Prior art date
Application number
PCT/JP2020/041530
Other languages
English (en)
French (fr)
Inventor
壮太 小松
昌義 石川
史浩 別宮
武史 柿沼
Original Assignee
株式会社日立ハイテク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ハイテク filed Critical 株式会社日立ハイテク
Priority to US17/793,832 priority Critical patent/US20230058441A1/en
Priority to CN202080094984.8A priority patent/CN115004248A/zh
Priority to KR1020227026994A priority patent/KR20220124226A/ko
Publication of WO2021161595A1 publication Critical patent/WO2021161595A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to an image classification device and a method, and more particularly to an image classification device and a method for providing teacher data used in an image classification system having a learning function.
  • An image classification system with a learning function may be configured using an image classification model such as deep learning.
  • an image classification model such as deep learning
  • many input images and teacher information representing the type of image are required as teacher data, and the teacher information is often created manually by an expert.
  • Experts classify teacher data in the sense shown in the image.
  • images having a plurality of features may be grouped together in the same class.
  • an expert may create a non-classification class that collects all images other than the class that the expert wants to explicitly classify into the image classification model (hereinafter referred to as the classification target class).
  • the classification target class the image classification model
  • there is a risk that various images that should be separated may be mixed in a single class.
  • the existence of a class containing images to be classified is not always optimal in terms of classification accuracy when learning an image classifier. This is because, in general, teacher data in which one feature corresponds to one class is preferable because it enables compact learning when training an image classification model. Therefore, in order to perform compact learning, it is necessary to divide the non-classified classes so that one feature corresponds to one class.
  • Patent Document 1 an effort is made to reduce the number of steps by automatically dividing the non-classification class from the similarity with the classification target class by using the generation model of the classification target class for the non-classification target class other than the classification target class. It has been broken.
  • a classification target class generation model is used to divide a non-classification target class based on the degree of similarity with the classification target class. Therefore, among the images of the non-classification class, the images having a small similarity with all the classification target classes cannot be divided, and the images included in the non-classification class cannot be divided by feature. ..
  • an appropriate teacher is generated by dividing the class for each feature and generating a divided class as a subclass. It is an object of the present invention to provide an image classification device and a method capable of creating data.
  • the present invention is an image classification device that classifies an image using an image of a classification target class including teacher information and an image of a non-classification target class to which teacher information is not assigned, and is a classification target class.
  • the image group input unit for inputting the image group belonging to the non-classified class and the image group belonging to the non-classified class, and the feature amount of each image of the image group are extracted, and the feature amount of the image is obtained for the image group belonging to the non-classified class. It is characterized by having a subclassification unit for clustering and dividing into subclasses.
  • it is an image classification method that classifies images using images of the classification target class that includes teacher information and images of the non-classification target class to which teacher information is not assigned, and is an image classification method that belongs to the classification target class and is not classified.
  • the feature is that the feature amount is extracted for each image of the image group belonging to the class, and the feature amount of the image is clustered for the image group belonging to the non-classification target class and divided into subclasses.
  • the present invention it is possible to divide a class not subject to classification into subclasses for each feature. As a result, it is possible to support the creation of appropriate teacher data and reduce the man-hours required to improve the accuracy of the image classification model.
  • the figure which shows an example of the image classification apparatus which concerns on embodiment of this invention The figure which shows an example of the class structure of teacher data. The figure which shows the processing procedure example of the subclassing process for realizing the subclassing part. The figure which shows an example of the monitor screen in the result correction input unit 103. The figure which showed the detailed processing flow of the processing in the processing step S302 of FIG. The figure which shows the example which occupies a small proportion in the image of a foreign substance in the photographed image in the foreign matter contamination inspection. The figure which shows the example which occupies a large proportion in the image of a foreign substance in the photographed image in the foreign matter contamination inspection. The figure which shows an example of the feature amount distribution before dividing into a subclass. The figure which shows an example of the feature amount distribution after being divided into subclasses.
  • FIG. 1 shows an example of an image classification device according to an embodiment of the present invention.
  • the image classification device 100 includes a learning image input unit 101, a subclassing unit 102 that divides each image feature, and a result correction input unit 103, and divides an image belonging to a class that is not subject to classification into a class for each image feature. A subclass is formed, and the user corrects the result for the image belonging to the subclass to create a class correctly divided for each feature.
  • the divided classes that are the outputs of the image classification device 100 and the images included in the divided classes are provided as teacher data in an image classification system having a learning function.
  • the learning image input unit 101 includes a learning image group D1 (hereinafter, classification target image group) belonging to the classification target class, a learning image group D2 (hereinafter, non-classification target image group) belonging to the non-classification target class, and a class to which each belongs. Enter the annotation information (not shown) of. At this time, it is explicitly entered that the class is not subject to classification.
  • D1 classification target image group
  • D2 learning image group belonging to the non-classification target class
  • Figure 2 shows an example of the class structure of teacher data.
  • an image group of "dog”, “cat”, and “others (monkey, bird, cow)” will be described as a learning image having three classes.
  • the user sets the "dog” class CL1a and the “cat” class CL1b as the classification target class CL1 and the "others (monkey / bird / cow)" as the non-classification target class CL2.
  • the "dog” class CL1a contains an image that should belong to the "cat” class CL1b
  • the "other (monkey / bird / cow)" class CL2 contains an image that should belong to the "dog” class CL1a. It is possible that In this way, the training image group may contain noise.
  • the number of images in the "other (monkey / bird / cow)" class CL2 may be larger or smaller than that in the "dog” class CL1a or the "cat” class CL1b, and the number of images between each class does not matter.
  • the learning image input unit 101 does not limit the method as long as the non-classification target image group D2 is uniquely determined.
  • the classification target class CL1 and the entire image group to be the teacher data may be given.
  • the image group obtained by subtracting the images belonging to the classification target class CL1 from all the image groups belongs to the non-classification target class CL2.
  • the subclassing unit 102 that divides each image feature divides the non-classification class CL2 according to the image feature.
  • the "other" class CL2 is divided into the "monkey” subclass CL2a, the "bird” subclass CL2b, and the "cow” subclass CL2c.
  • the divided "monkey”, "bird”, and “cow” classes are positioned as subclasses in the "other" class CL2. At this time, it is not necessary that all the classes are divided into correct classes, and errors may be included. If an error is included, the user corrects it in the result correction input unit 103.
  • the result correction input unit 103 gives information D3 of the class including the subclass defined in the subclassing unit 102 or the subclass reviewed by the user.
  • the class information D3 in addition to the "dog" class CL1a and the “cat” class CL1b, which are the classification target classes CL1, "others (monkeys, birds, cows)", which is the non-classification target class CL2, are subclassed.
  • the image group of the "monkey” subclass CL2a, the "bird” subclass CL2b, and the "cow” subclass CL2c and their teacher information are included, and are provided as teacher data in an image classification system having a learning function.
  • FIG. 3 is a diagram illustrating an example of a processing procedure of the subclassing process for realizing the subclassing unit 102 that divides each image feature.
  • the process step S302 which is the first process in the series of processes of FIG. 3, the classification target image group D1 and the non-classification target image group D2 are input, and the feature amount is extracted for each image forming the image group.
  • the information D4 obtained in the processing step S302 is the feature amount in each individual image in the classification target image group D1 and the non-classification target image D2.
  • the specific processing contents of the processing step S302 will be described later with reference to FIGS. 5, 6a and 6b.
  • the feature amount is clustered, and the subclass information D3 obtained by dividing the non-classification target image group D2 for each feature is obtained.
  • the specific processing contents of the processing step S304 will be described later with reference to FIGS. 7a and 7b.
  • a typical example of the feature amount extraction process in the process step S302 will be described with reference to FIGS. 5, 6a, and 6b.
  • the entire image is subdivided into minute regions, for example, in a matrix, and each pixel, which is a subdivided small region, is digitized by labeling, and this numerical value is calculated.
  • the feature amount information D3 output in the processing step S302 excludes features (for example, background) that are common to all images in the non-classification target image group D2. Is extracted. In that case, the feature amount represents a part other than the background, and the feature amounts of images containing the same object are close to each other.
  • feature extraction may be performed using a convolutional neural network (CNN).
  • CNN convolutional neural network
  • a method such as principal component analysis may be used, or a method combining CNN and principal component analysis may be used.
  • a notable area in the image may be obtained in advance before the feature amount extraction is performed, and the feature amount extraction may be performed by paying attention to the area.
  • the area of interest may be manually set for the non-classified image, or the area of interest may be set automatically.
  • FIG. 5 is a diagram showing a detailed processing flow of the above processing in the processing step S302 of FIG.
  • FIG. 5 is a program for setting a region of interest using the ratio of pixels occupied by objects of interest in an image as an example of automatically setting the region of interest.
  • each image in the classification target image group D1 and the non-classification target image group D2 is labeled with the object type for each pixel in the minute area.
  • a model as used in Semantec Segmentation which is a task of classifying object labels for each pixel.
  • the number of pixels in the image group for each label is counted in the processing step S504.
  • the process step S505 it is confirmed whether or not all the labels have been determined, and when all the labels are determined (Yes), a series of processes is completed.
  • the process of process step S506 is executed.
  • the processes after the process step S505 are iteratively processed for each label.
  • the label targeted in the current loop will be referred to as a target label.
  • the processing step S506 it is determined whether the number of pixels having the target label satisfies the condition (for example, a predetermined number or less), and when the condition is satisfied (Yes), the pixel having the target label is set in the region of interest in the processing step S507.
  • the condition for example, a predetermined number or less
  • the process returns to the processing step S505, and it is confirmed that all the determination of the target label is completed.
  • 6a and 6b show the captured image 601 in the foreign matter contamination inspection, which is divided into minute regions in a matrix and represented as a pixel group. It is assumed that the white part is a foreign substance and the other pixels do not contain the foreign substance.
  • the processing step S506 of FIG. 5 for example, in the image 601 in the foreign matter contamination inspection, when it is known that the foreign matter occupies a small proportion in the image as shown in FIG. 6a, it is determined whether the number of pixels of the target label is smaller than the threshold value. do. Further, when it is known that the foreign matter occupies a large proportion in the image as shown in FIG. 6b, it is determined whether the number of pixels of the target label is larger than the threshold value.
  • the processing content in the processing step S304 of FIG. 3 will be described with reference to FIGS. 7a and 7b.
  • the feature amount information D3 is clustered.
  • a method of specifying the number of clusters to be divided such as K-means may be used, or a method of not specifying the number of clusters to be divided such as hierarchical cluster analysis may be used.
  • the processing steps S302 and S304 may be performed by one algorithm.
  • a method such as an unsupervised clustering method using a CNN, in which a feature amount is extracted by a CNN and the clustering result of the feature amount is learned by using pseudo teacher information may be used.
  • the type of clustering method is not limited.
  • FIGS. 7a and 7b are examples in which the feature amount extracted from the image group of FIG. 2 can be represented on the coordinate system of the two-dimensional vector.
  • 7a and 7b show before and after dividing into subclasses, respectively.
  • dog class CL1a and cat class CL1b are set as target class CL1, and dog class CL1a exists in the first quadrant of the same plane.
  • cat class CL1b exists in the second quadrant of the same plane.
  • other classes are set as the non-classification class CL2
  • the features of the other classes are non-uniformly present on the vertical axis near the origin, and are clear, for example, appearing in a specific quadrant. It is assumed that there is no tendency.
  • the particle size of the feature amount is represented by the size of the symbol, and the star-shaped mark of the dog class CL1a is displayed small, whereas the square mark of the cat class CL1b is displayed. The mark is displayed large.
  • the statistical value of the grain size of the classification target class CL2 is obtained from the radius of the sphere (circle in two dimensions) containing the feature amount of the dog class CL1a and the radius of the sphere containing the feature amount of the cat class CL1b. It is possible to split other classes based on statistics.
  • FIG. 7b which shows an example of the feature amount distribution after being divided into subclasses, is an example in which the other class CL2 is subclassed using the particle size of the classification target class CL1.
  • Other features of class CL2 existed non-uniformly on the vertical axis near the origin, but subclass 1 (CL2a) located at the upper part of the vertical axis near the origin and near the origin were classified by using grain size information. It shows that it was possible to divide into subclass 2 (CL2b) located at the origin and subclass 3 (CL2c) located at the lower part of the vertical axis near the origin.
  • CL2b subclass 2
  • CL2c subclass 3
  • FIG. 4 shows an example of the monitor screen in the result correction input unit 103.
  • the monitor screen is roughly divided into four areas.
  • the area 404 is a display area of the classification target class CL1, and according to the previous example, images belonging to the dog class CL1a and the cat class CL1b are displayed.
  • the area 401 is a display area of the non-classification class CL2, and according to the previous example, images determined to belong to the monkey class CL2a, the bird class CL2b, and the cow class CL2c are displayed.
  • Reference numeral 402 denotes an area representing an operation button for a subclass addition function by the user. Further, the area 403 displays the basis data for classifying the images into the subclass for each image.
  • the subclass created by the subclassing unit 102 is displayed on the monitor screen of the subclass result display / correction unit 401.
  • area 401 has a function for the user to modify the subclass result to the correct subclass. For example, when most of the images in the subclass 1 are monkey images and the bird image X1 is included, the user determines that the bird image X1 is an error and modifies it to the subclass 2 containing many bird images. At this time, it may be moved by dragging and dropping using the mouse, or it may be moved by preparing a shortcut key or the like, and the correction method is not limited.
  • it has a subclass addition function 402 for preparing a subclass other than the subclass displayed at the time of modification. Further, since the classification target class may also contain noise, it has a function that can be corrected in the area 404.
  • the reliability is, for example, when the processing step S304 is K-means, the reciprocal of the distance from the cluster center to which the feature amount extracted from the image belongs is used as the reliability, and the clustering method using CNN. In this case, the image classification probability is used as the reliability, and the images with the lowest reliability are displayed on the left side in order.
  • the features of the classification target class are extracted, the distance from the spherical surface of the smallest sphere containing the features is set as the reliability, and the images in the area 404 with the lowest reliability are displayed on the left side in order. good. That is, it is preferable to determine the arrangement of images in the subclass according to the reliability of incorporating the images into the subclass when the images are classified into the subclass.
  • the classification score of the selected image is displayed in the area 403.
  • the display position of the area 403 is not limited. For example, you may want it to pop up while you hover your mouse over the image. It can be said that this classification score displays the basis information for incorporating the image into the subclass when the image is classified into the subclass.
  • the feature amount parts of each image are displayed in a coordinated manner with respect to the feature amount that is the basis for judging that it is appropriate for this image to be classified into the class or subclass. It is good to keep it.
  • Compact learning refers to learning in which the distribution of features is well gathered for each class.
  • the advantages of compact learning will be described with reference to FIGS. 7a and 7b.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

適切な教師データを作成することができる画像分類装置及びその方法を提供することを目的とする。教師情報を含む分類対象クラスの画像と、教師情報が付与されていない分類対象外クラスの画像を用いて画像分類を行う画像分類装置であって、分類対象クラスに属する画像群と分類対象外クラスに属する画像群とを入力する画像群入力部と、画像群の各画像について特徴量を抽出し、分類対象外クラスに属する画像群について、画像の特徴量をクラスタリングして、サブクラスに分割するサブクラス化部を備えることを特徴とする。

Description

画像分類装置及び方法
 本発明は画像分類装置及び方法に係り、特に学習機能を備えた画像分類システムにおいて使用される教師データを提供するための画像分類装置及び方法に関する。
 学習機能を備えた画像分類システムは、深層学習等の画像分類モデルを用いて構成されることがある。深層学習等の画像分類モデルを用いる場合、教師データとして多くの入力画像と画像の種別を表す教師情報が必要であり、教師情報は多くの場合専門家による手作業で作成されている。
 専門家は画像が示す意味で教師データのクラス分けを行う。このとき、同じクラス内に複数の特徴を持つ画像がまとめられることがある。例えば、専門家が明示的に画像分類モデルに分類させたいクラス(以下、分類対象クラスという)以外の画像をすべてまとめた分類対象外クラスを作成することがある。この場合、単一のクラスに本来は分離すべき多様な画像が混入してしまう恐れがある。
 この場合に、分類すべき画像が混入したクラスの存在は画像分類器を学習する際に分類精度の意味で必ずしも最適ではない。これは一般に教師データは一つのクラスに一つの特徴が対応している教師データの方が画像分類モデルを学習させる際コンパクトな学習ができるため好ましいためである。そこで、コンパクトな学習を行うため、一つのクラスに一つの特徴が対応するように分類対象外クラスを分割することが必要となる。
 教師データを必要とする画像分類分野では、分類対象外クラスを特徴ごとに分割する作業にかかる工数が課題となる。特許文献1では、分類対象クラス以外の分類対象外クラスを分類対象クラスの生成モデルを用いて、分類対象クラスとの類似度から分類対象外クラスを自動で分割し、工数を削減する取り組みが行われてきた。
特開2014-135014号公報
 特許文献1では、分類対象クラスの生成モデルを用いて、分類対象外クラスを分類対象クラスとの類似度から分割する。そのため、分類対象外クラスの画像のうち、全ての分類対象クラスと類似度が小さい画像については分割することができず、分類対象外クラスに含まれている画像を特徴ごとに分割することはできない。
 このことから本発明においては、分類対象外クラスのような複数の特徴をもつ画像がまとめられているクラスに対して、特徴ごとに分割し分割されたクラスをサブクラスとして生成することで適切な教師データを作成することができる画像分類装置及び方法を提供することを目的とする。
 以上のことから本発明においては、教師情報を含む分類対象クラスの画像と、教師情報が付与されていない分類対象外クラスの画像を用いて画像分類を行う画像分類装置であって、分類対象クラスに属する画像群と分類対象外クラスに属する画像群とを入力する画像群入力部と、画像群の各画像について特徴量を抽出し、分類対象外クラスに属する画像群について、画像の特徴量をクラスタリングして、サブクラスに分割するサブクラス化部を備えることを特徴とする。
 また教師情報を含む分類対象クラスの画像と、教師情報が付与されていない分類対象外クラスの画像を用いて画像分類を行う画像分類方法であって、分類対象クラスに属する画像群と分類対象外クラスに属する画像群の各画像について特徴量を抽出し、分類対象外クラスに属する画像群について、画像の特徴量をクラスタリングして、サブクラスに分割することを特徴とする。
 本発明によれば、分類対象外クラスを特徴毎のサブクラスに分割することが可能となる。これにより、適切な教師データ作成を支援し、画像分類モデルの精度向上に必要な工数を削減できる。
本発明の実施例に係る画像分類装置の一例を示す図。 教師データのクラス構造の一例を示す図。 サブクラス化部を実現するためのサブクラス化処理の処理手順例を示す図。 結果修正入力部103におけるモニタ画面の一例を示す図。 図3の処理ステップS302における処理の詳細処理フローを示した図。 異物混入検査における撮影画像において異物の画像内で占める割合が小さい例を示す図。 異物混入検査における撮影画像において異物の画像内で占める割合が大きい例を示す図。 サブクラスに分割する前の特徴量分布の一例を示す図。 サブクラスに分割した後の特徴量分布の一例を示す図。
 以下本発明の実施例について、図面を参照して詳細に説明する。
 図1に本発明の実施例に係る画像分類装置の一例を示す。画像分類装置100は学習画像入力部101、画像特徴ごとに分割するサブクラス化部102及び結果修正入力部103を備え、分類対象外となるクラスに属する画像を画像の特徴ごとにクラスを分割してサブクラスを形成し、サブクラスに属する画像に対する結果修正をユーザが行うことで、正しく特徴ごとに分割されたクラスを作成する。画像分類装置100の出力である分割されたクラスとそれに含まれる画像は、学習機能を備えた画像分類システムにおける教師データとして提供される。
 学習画像入力部101には、分類対象クラスに属する学習画像群D1(以下、分類対象画像群)と分類対象外クラスに属する学習画像群D2(以下、分類対象外画像群)とそれぞれの属するクラスのアノテーション情報(図示せず)を入力する。このとき、分類対象外クラスであることは明示的に入力されている。
 図2に、教師データのクラス構造の一例を示す。一例として、「犬」「猫」「その他(猿・鳥・牛)」の画像群を3つのクラスをもつ学習画像について説明する。この場合ユーザは「犬」クラスCL1a、「猫」クラスCL1bを分類対象クラスCL1とし、「その他(猿・鳥・牛)」を分類対象外クラスCL2と設定している。
 この場合に、これらのクラス分けは人の手作業によって行われているため、誤りがあることも考えられる。例えば、「犬」クラスCL1aに「猫」クラスCL1bに属するべき画像が含まれていることや、「その他(猿・鳥・牛)」クラスCL2に「犬」クラスCL1aに属するべき画像が含まれていることが考えられる。このように、学習画像群にノイズが含まれている場合がある。なお、「その他(猿・鳥・牛)」クラスCL2の画像枚数が「犬」クラスCL1aや「猫」クラスCL1bより多くても少なくてもよく、各クラス間の枚数の大小は問わない。
 図1の画像分類装置において、学習画像入力部101は一意に分類対象外画像群D2が定まるならば手法は限定しない。例えば、分類対象クラスCL1と教師データとなる全画像群を与えても良い。そのとき、全画像群から分類対象クラスCL1に属する画像を差し引いた画像群を分類対象外クラスCL2に属しているものとする。
 画像特徴ごとに分割するサブクラス化部102は、分類対象外クラスCL2を画像の特徴ごとに分割する。図2で示す例では、「その他」クラスCL2を「猿」サブクラスCL2a、「鳥」サブクラスCL2b、「牛」サブクラスCL2cに分割する。なお分割された「猿」「鳥」「牛」のクラスは、「その他」クラスCL2におけるサブクラスとして位置づけられる。このとき、全て正しいクラスに分割されていなくてもよく、誤りを含んでいてもよい。誤りを含んでいた場合は結果修正入力部103にてユーザが修正を行う。
 結果修正入力部103により、サブクラス化部102において定められたサブクラスあるいはこれをユーザが見直ししたサブクラスを含むクラスの情報D3が与えられる。クラスの情報D3には、分類対象クラスCL1である「犬」クラスCL1aや「猫」クラスCL1bの他に、分類対象外クラスCL2である「その他(猿・鳥・牛)」をサブクラス化した「猿」サブクラスCL2a、「鳥」サブクラスCL2b、「牛」サブクラスCL2cの画像群とその教師情報が含まれており、学習機能を備えた画像分類システムにおける教師データとして提供される。
 図3は、画像特徴ごとに分割するサブクラス化部102を実現するためのサブクラス化処理の処理手順例を説明する図である。図3の一連の処理における最初の処理である処理ステップS302では、分類対象画像群D1と分類対象外画像群D2を入力とし、画像群を形成する各画像について特徴量を抽出する。処理ステップS302で求めた情報D4が、分類対象画像群D1と分類対象外画像D2におけるそれぞれの個別画像における特徴量である。処理ステップS302の具体的な処理内容に関して図5、図6a,図6bを用いて後述する。
 次に処理ステップS304において特徴量をクラスタリングし、分類対象外画像群D2を特徴ごとに分割したサブクラスの情報D3を得る。処理ステップS304の具体的な処理内容に関して図7a,図7bを用いて後述する。
 処理ステップS302における特徴量抽出処理の代表的な事例について、図5、図6a,図6bを用いて説明する。処理ステップS302における特徴量を抽出する代表的な手法として、画像全体を微少領域に例えばマトリクス状に細分化し、細分化された小領域である画素ごとにラベル付けによる数値化を行い、この数値を用いた識別により画像における特徴量並びに特徴量を示す領域を明確化する手法が知られている。この手法によれば、通常は背景情報を主体に構成される画像において、特徴量が存在する画像である場合に、特徴量であることと、特徴量の部位や形状を抽出することができる。
 係る抽出処理では、処理ステップS302で出力される特徴量の情報D3は、分類対象外画像群D2のうち、全ての画像で共通するような特徴(例えば、背景)は除外されるように特徴量を抽出する。その場合、特徴量は背景以外の部分を表し、同じオブジェクトが含まれている画像同士の特徴量は近い値となる。例えば畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いて特徴量抽出を行っても良い。又は主成分分析等の手法を用いても良いし、CNNと主成分分析を組み合わせた手法でもよい。
 処理ステップS302では特徴量抽出を行う前に、画像内の注目すべき領域を事前に求めておいて、その領域に注目して特徴量抽出を行っても良い。例えば、分類対象外画像に手作業で注目領域を設定してもよいし、自動で注目領域を設定してもよい。
 図5は、図3の処理ステップS302における上記処理の詳細処理フローを示した図である。図5は、自動で注目領域を設定する際の一例として、画像内の注目すべきオブジェクトが占める画素の割合を用いて注目領域を設定するプログラムである。
 図5の処理ステップS502では、分類対象画像群D1、分類対象外画像群D2内の個々の画像に対し、微少領域化した画素ごとにオブジェクトの種別をラベル付けする。このとき、画素ごとにオブジェクトのラベルを分類するタスクであるSemantec Segmentationで用いられるようなモデルを用いるのがよい。
 画素ごとにラベル付けされた分類対象画像群D1´、分類対象外画像群D2´を用いて、処理ステップS504においてラベルごとの画像群内の画素数をカウントする。次に処理ステップS505では全てのラベルを判定したことの是非を確認し、全てのラベルを判定した時(Yes)は一連の処理を終了する。未判定のラベルがある時(No)は処理ステップS506の処理を実行する。これにより処理ステップS505以降の処理は、ラベルごとに繰り返し処理される。以下、現ループで対象となっているラベルを対象ラベルと称する。
 処理ステップS506では、対象ラベルをもつ画素数が条件(例えば所定個数以下)を満たすかを判定し、条件を満たす時(Yes)処理ステップS507にて対象ラベルをもつ画素を注目領域に設定する。条件を満たさない時(No)は、処理ステップS505に戻り、対象ラベルの判定が全て終了したことを確認する。この処理を全てのラベルに対して行い、分類対象外画像群D2の全ての画像の画素が注目領域かそれ以外かに分類することが可能となる。
 図6a、図6bは、異物混入検査における撮影画像601について、この画像をマトリクス状に微少領域に分割し画素群として表したものである。白抜きの部分が異物であり、それ以外の画素が異物を含まないものとしている。
 図5の処理ステップS506は例えば、異物混入検査における画像601において、図6aに示すように、異物は画像内で占める割合が小さいと分かっている場合、対象ラベルの画素数が閾値より小さいか判定する。また、図6bに示すように異物は画像内で占める割合が大きいと分かっている場合、対象ラベルの画素数が閾値より大きいか判定する。
 次に図3の処理ステップS304における処理内容について、図7a,図7bを用いて説明する。図3の処理ステップS304では、特徴量の情報D3をクラスタリングする。
 このとき、例えばK-meansのような分割するクラスタ数を指定する手法を用いても良いし、階層クラスタ分析のような分割するクラスタ数を指定しない手法を用いても良い。また、処理ステップS302、S304は一つのアルゴリズムで行っても良い。例えば、CNNを用いた教師なしクラスタリング手法のようなCNNで特徴量を抽出しその特徴量のクラスタリング結果を疑似的な教師情報を用いてCNNを学習するような手法を用いても良い。クラスタリング手法の種類は限定しない。
 このとき、分類対象画像群D1の特徴量を抽出して当該特徴量を包含する最小の円または球の半径を粒度と定義し、分類対象画像群D1と同様な粒度の特徴を抽出することが可能となることも考えられる。
 クラスタリングする際に粒度に着目してサブクラスに分割した事例を、図7a、図7bに示して説明する。図7a、図7bは、図2の画像群から抽出した特徴量が2次元ベクトルの座標系上に表すことができた場合の例である。図7a、図7bは、それぞれサブクラスに分割する前、後を示している。
 サブクラスに分割する前の特徴量分布の一例を示す図7aの二次元平面では、対象クラスCL1として犬クラスCL1aと猫クラスCL1bが設定されていて、犬クラスCL1aは同平面の第1象限に存在し、かつ猫クラスCL1bは同平面の第2象限に存在するものとする。これに対し、分類対象外クラスCL2として、その他クラスが設定されている場合、その他クラスの特徴量は原点付近の縦軸上に不均一に存在し、例えば特定の象限に表れるといったような明確な傾向を示さないものであるとする。
 また図7aの二次元平面では、特徴量についての粒度がシンボルの大きさで表されており、犬クラスCL1aである星形のマークが小さく表示されているのに対し、猫クラスCL1bの四角のマークが大きく表示されている。この事例では、犬クラスCL1aの特徴量を包含する球(2次元では円)の半径と猫クラスCL1bの特徴量を包含する球の半径から、分類対象クラスCL2の粒度の統計値を求め、その統計値に基づいてその他クラスを分割することが可能である。
 サブクラスに分割した後の特徴量分布の一例を示す図7bは、分類対象クラスCL1の粒度を用いてその他クラスCL2をサブクラス化した例である。その他クラスCL2の特徴量は原点付近の縦軸上に不均一に存在していたが、粒度の情報を用いた分類化により、原点付近の縦軸上部に位置するサブクラス1(CL2a)、原点付近に位置するサブクラス2(CL2b)、原点付近の縦軸下部に位置するサブクラス3(CL2c)に分けることができたことを表している。なおここでは、全てのクラスの粒度が近くなるようにサブクラス化されたものとする。
 図4に結果修正入力部103におけるモニタ画面の一例を示す。モニタ画面は、大きく4つの領域に分けて構成されている。領域404は、分類対象クラスCL1の表示領域であり、先の例に従えば犬クラスCL1aと猫クラスCL1bに属する画像が表示されている。領域401は、分類対象外クラスCL2の表示領域であり、先の例に従えば猿クラスCL2aと鳥クラスCL2bと牛クラスCL2cに属すると判断された画像が表示されている。402は、ユーザによるサブクラス追加機能のための操作ボタンを表す領域である。また領域403は、各画像について、その画像を当該サブクラスに分類した根拠データを表示したものである。
 サブクラス化部102にて作成されたサブクラスを、サブクラス結果表示・修正部401のモニタ画面に表示する。このうち領域401はユーザがサブクラス結果を正しいサブクラスに修正する機能を有する。例えば、サブクラス1の大半の画像が猿の画像であり鳥画像X1が含まれていた場合、ユーザは鳥画像X1を誤りと判断し、鳥画像の多く含むサブクラス2に修正する。このとき、マウスを使ってドラッグ&ドロップで移動するようにしてもよいし、ショートカットキーなどを用意して移動してもよく、修正の方法は限定しない。また、修正時に表示されているサブクラス以外のサブクラスを用意するときのためにサブクラス追加機能402を有する。また、分類対象クラスについてもノイズを含んでいる可能性があるため、領域404にて修正できる機能を有する。
 領域401はユーザの修正作業の効率化のため、左から順に信頼度の小さい画像から表示するのがよい。信頼度とは例えば、処理ステップS304がK-meansであった場合、画像から抽出された特徴量の所属するクラスタ中心からの距離の逆数を信頼度とし、また、CNNを用いたクラスタリング手法であった場合、画像の分類確率を信頼度として、信頼度の低い画像から順に左側に表示する。また、分類対象クラスの特徴量を抽出している場合は、特徴量を包含する最小の球の球面からの距離を信頼度とし、領域404で信頼度の低い画像から順に左側に表示するのがよい。つまり、画像をサブクラスに分類した際の当該サブクラスに組み入れることの信頼度に応じて、サブクラス内における画像の配列を定めるのがよい。
 また、選択している画像の分類スコアを領域403に表示する。このとき、領域403の表示位置は限定しない。例えば、マウスを画像に置いている間ポップアップするようにしても良い。この分類スコアは、画像をサブクラスに分類した際の当該サブクラスに組み入れることの根拠情報を表示したものといえる。
 またクラスまたはサブクラスに分類される各画像について、この画像が当該クラスまたはサブクラスに分類されるのが妥当であると判断する根拠となる特徴量について、各画像の特徴量部位を協調的に表示しておくのがよい。
 以下に、コンパクトな学習について詳述する。コンパクトな学習とは、特徴量の分布がクラスごとによく集まるような学習を示す。図7a、図7bを例にコンパクトな学習の利点を説明する。
 一般に教師データを用いる画像分類では、クラスごとに粒度の範囲まで分類確率が大きくなるように学習する。図7aのその他クラスCL2の粒度は大きく、犬クラスCL1aや猫クラスCL1bの特徴量について、その他クラスへCL2の分類確率が大きくなってしまい、誤った分類をしてしまう可能性がある。そこで、図7bのようにその他クラスCL2をサブクラスに分割すれば、犬クラスや猫クラスの特徴量について、各サブクラスへの分類確率は小さく、精度向上が見込める。
 本実施例によれば、分類対象外クラスCL2を自動でコンパクトな学習が可能となるようなサブクラスに分割することが可能となる。
100:画像分類装置、101:学習画像入力部、102:サブクラス化部、103:結果修正入力部

Claims (11)

  1.  教師情報を含む分類対象クラスの画像と、前記教師情報が付与されていない分類対象外クラスの画像を用いて画像分類を行う画像分類装置であって、
     分類対象クラスに属する画像群と分類対象外クラスに属する画像群とを入力する画像群入力部と、前記画像群の各画像について特徴量を抽出し、前記分類対象外クラスに属する画像群について、前記画像の前記特徴量をクラスタリングして、サブクラスに分割するサブクラス化部を備えることを特徴とする画像分類装置。
  2.  請求項1に記載の画像分類装置であって、
     画像分類装置は表示部を有する結果修正入力部を備え、前記表示部には前記分類対象クラスに属する画像群と、前記分類対象外クラスに属する画像群を分割した前記サブクラスに属する画像群として別個に表示し、表示された画像のクラス修正を可能とすることを特徴とする画像分類装置。
  3.  請求項1または請求項2に記載の画像分類装置であって、
     前記サブクラス化部は、前記画像の前記特徴量を抽出する際に、画像全体を微少領域に細分化し、細分化された小領域である画素ごとにラベル付けによる数値化を行い、この数値を用いた識別により画像における特徴量並びに特徴量を示す領域を明確化することを特徴とする画像分類装置。
  4.  請求項1から請求項3のいずれか1項に記載の画像分類装置であって、
     前記サブクラス化部は、前記画像の前記特徴量をクラスタリングする際に、当該特徴量を包含する最小の円または球の半径を粒度と定義し、粒度に応じてサブクラスを形成することを特徴とする画像分類装置。
  5.  請求項2に記載の画像分類装置であって、
     前記結果修正入力部の前記表示部には、新たなサブクラスの設定手段を備えていることを特徴とする画像分類装置。
  6.  請求項2または請求項5に記載の画像分類装置であって、
     前記結果修正入力部の前記表示部には、画像をサブクラスに分類した際の当該サブクラスに組み入れることの根拠情報を表示する分類スコア表示部を備えていることを特徴とする画像分類装置。
  7.  請求項2、請求項5、請求項6のいずれか1項に記載の画像分類装置であって、
     前記結果修正入力部の前記表示部には、画像をサブクラスに分類した際の当該サブクラスに組み入れることの信頼度に応じて、サブクラスにおける画像の配列を定めて表示されていることを特徴とする画像分類装置。
  8.  請求項2、請求項5、請求項6、請求項7のいずれか1項に記載の画像分類装置であって、
     前記結果修正入力部の前記表示部には、クラスまたはサブクラスに分類される各画像について、この画像が当該クラスまたはサブクラスに分類されるのが妥当であると判断する根拠となる特徴量について、各画像の特徴量部位を表示することを特徴とする画像分類装置。
  9.  請求項1から請求項8のいずれか1項に記載の画像分類装置であって、
     前記サブクラス化部は、分類対象外画像内の注目すべき領域を事前に特定し、その領域に基づいてクラスタリングすることを特徴とする画像分類装置。
  10.  請求項1から請求項9のいずれか1項に記載の画像分類装置であって、
     画像分類装置が与える分類対象クラスに属する画像群及びその情報と、分割したサブクラスに属する画像群及びその情報は、学習機能を備えた画像分類システムにおいて使用される教師データとして提供されることを特徴とする画像分類装置。
  11.  教師情報を含む分類対象クラスの画像と、前記教師情報が付与されていない分類対象外クラスの画像を用いて画像分類を行う画像分類方法であって、
     分類対象クラスに属する画像群と分類対象外クラスに属する画像群の各画像について特徴量を抽出し、前記分類対象外クラスに属する画像群について、前記画像の前記特徴量をクラスタリングして、サブクラスに分割することを特徴とする画像分類方法。
PCT/JP2020/041530 2020-02-12 2020-11-06 画像分類装置及び方法 WO2021161595A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/793,832 US20230058441A1 (en) 2020-02-12 2020-11-06 Image Classification Device and Method
CN202080094984.8A CN115004248A (zh) 2020-02-12 2020-11-06 图像分类装置及方法
KR1020227026994A KR20220124226A (ko) 2020-02-12 2020-11-06 화상 분류 장치 및 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020021469A JP7328915B2 (ja) 2020-02-12 2020-02-12 画像分類装置及び方法
JP2020-021469 2020-02-12

Publications (1)

Publication Number Publication Date
WO2021161595A1 true WO2021161595A1 (ja) 2021-08-19

Family

ID=77291475

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041530 WO2021161595A1 (ja) 2020-02-12 2020-11-06 画像分類装置及び方法

Country Status (5)

Country Link
US (1) US20230058441A1 (ja)
JP (1) JP7328915B2 (ja)
KR (1) KR20220124226A (ja)
CN (1) CN115004248A (ja)
WO (1) WO2021161595A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149323A (ja) * 2003-11-18 2005-06-09 Canon Inc 画像処理システム及び画像処理装置並びに画像処理方法
JP2006099565A (ja) * 2004-09-30 2006-04-13 Kddi Corp コンテンツ識別装置
JP2008165572A (ja) * 2006-12-28 2008-07-17 Fuji Xerox Co Ltd データ分類装置、データ分類プログラム
JP2014164499A (ja) * 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 画像分類装置及び画像分類プログラム
JP2019101959A (ja) * 2017-12-07 2019-06-24 ヤフー株式会社 抽出装置、抽出方法、抽出プログラム及びモデル

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5880454B2 (ja) 2013-01-11 2016-03-09 富士ゼロックス株式会社 画像識別装置及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149323A (ja) * 2003-11-18 2005-06-09 Canon Inc 画像処理システム及び画像処理装置並びに画像処理方法
JP2006099565A (ja) * 2004-09-30 2006-04-13 Kddi Corp コンテンツ識別装置
JP2008165572A (ja) * 2006-12-28 2008-07-17 Fuji Xerox Co Ltd データ分類装置、データ分類プログラム
JP2014164499A (ja) * 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 画像分類装置及び画像分類プログラム
JP2019101959A (ja) * 2017-12-07 2019-06-24 ヤフー株式会社 抽出装置、抽出方法、抽出プログラム及びモデル

Also Published As

Publication number Publication date
JP2021128418A (ja) 2021-09-02
CN115004248A (zh) 2022-09-02
KR20220124226A (ko) 2022-09-13
US20230058441A1 (en) 2023-02-23
JP7328915B2 (ja) 2023-08-17

Similar Documents

Publication Publication Date Title
US11790643B2 (en) Deep learning for tooth detection and evaluation
Sharma et al. Crowdsourcing for chromosome segmentation and deep classification
CN109344874B (zh) 一种基于深度学习的染色体自动分析方法及系统
US20180336683A1 (en) Multi-Label Semantic Boundary Detection System
CN105849274B (zh) 用于显微图像中的单独细胞的分类和识别的方法和系统
US20070065003A1 (en) Real-time recognition of mixed source text
CN108805170A (zh) 形成用于全监督式学习的数据集
US10410354B1 (en) Method and apparatus for multi-model primitive fitting based on deep geometric boundary and instance aware segmentation
JP2010140478A (ja) 文書画像分類のための方法及びシステム
JP6702716B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN109145964B (zh) 一种实现图像颜色聚类的方法和系统
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
CN112487930A (zh) 自动染色体核型分析方法、系统和存储介质
WO2021161595A1 (ja) 画像分類装置及び方法
Lidasan et al. Mushroom recognition using neural network
Saputra et al. Integration GLCM and geometric feature extraction of region of interest for classifying tuna
CN111968115B (zh) 基于栅格化图像处理方法的骨科耗材检测方法及系统
Sharma Foreground clustering for joint segmentation and localization in videos and images
US11568176B1 (en) Deep feature extraction and training tools and associated methods
Lv et al. Automated nanoparticle count via modified blendmask instance segmentation on sem images
Sormunen Pallet detection in warehouse environment
Ashraf et al. An integral computer vision system for apple detection, classification, and semantic segmentation
CN110246133B (zh) 一种玉米籽粒分类方法、装置、介质及设备
JP6964296B2 (ja) 領域抽出装置、方法、及びプログラム
Mukasa et al. Deep learning application for real-time gravity-assisted seed conveying system for watermelon seeds purity sorting

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20918242

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20227026994

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20918242

Country of ref document: EP

Kind code of ref document: A1