WO2021166058A1 - 画像認識装置、画像認識方法、及び、記録媒体 - Google Patents

画像認識装置、画像認識方法、及び、記録媒体 Download PDF

Info

Publication number
WO2021166058A1
WO2021166058A1 PCT/JP2020/006180 JP2020006180W WO2021166058A1 WO 2021166058 A1 WO2021166058 A1 WO 2021166058A1 JP 2020006180 W JP2020006180 W JP 2020006180W WO 2021166058 A1 WO2021166058 A1 WO 2021166058A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
feature
time
series
recognition device
Prior art date
Application number
PCT/JP2020/006180
Other languages
English (en)
French (fr)
Inventor
重哲 並木
尚司 谷内田
剛志 柴田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/006180 priority Critical patent/WO2021166058A1/ja
Priority to JP2022501427A priority patent/JP7338779B2/ja
Priority to US17/796,702 priority patent/US20230053838A1/en
Publication of WO2021166058A1 publication Critical patent/WO2021166058A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10141Special mode during image acquisition
    • G06T2207/10152Varying illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a technique for recognizing an abnormality of an object contained in an image.
  • Patent Document 1 describes a system for inspecting a defect of a product by using images of a moving molded sheet taken continuously with a camera in time.
  • the defect inspection system described in Patent Document 1 performs the same processing on all the images obtained by the camera. Therefore, the same load processing is performed on an image that does not include defects, and the processing time increases when there are many images, which is not suitable for real-time processing on a production line or the like.
  • One object of the present invention is to provide an image recognition device capable of efficiently recognizing an abnormal part based on a photographed image of an object.
  • the image recognition device is An image selection unit that selects a feature image indicating a feature location of the object from time-series captured images of the object, and an image selection unit.
  • a recognition unit that performs recognition processing of the object using the feature image is provided.
  • the image recognition method From the time-series captured images of the object, a feature image showing the feature location of the object is selected.
  • the object recognition process is performed using the feature image.
  • the recording medium is: From the time-series captured images of the object, a feature image showing the feature location of the object is selected. Using the feature image, a program for causing a computer to execute a process of recognizing the object is recorded.
  • the state of abnormality detection using an image recognition device is shown. It is a figure explaining the concept of image selection from a time series image. It is a figure which shows the hardware configuration of the image recognition apparatus which concerns on 1st Embodiment. It is a figure which shows the functional structure of the image recognition apparatus which concerns on 1st Embodiment. It is a figure which shows the structure of an image selector. An example of processing by the image selector is shown. It is a flowchart of image recognition processing by this embodiment. An example of changing the range of image selection is shown. The functional configuration of the image selector according to the second embodiment is shown. An embodiment of the image selector according to the second embodiment is shown. The method of generating the non-redundancy vector is schematically shown. A schematic configuration of an image recognition device using a deep learning model is shown. The functional configuration of the image recognition apparatus according to the third embodiment is shown.
  • FIG. 1 shows a state of abnormality detection using the image recognition device 100.
  • the object for abnormality detection is tablet 5.
  • the tablets 5 are arranged at predetermined intervals on the conveyor 2 moving in the direction of the arrow, and move with the movement of the conveyor 2.
  • a lighting 3 and a high-speed camera 4 are arranged above the conveyor 2.
  • two bar-shaped lights 3 are used, but the form of the lights is not limited to this.
  • Multiple lights of various intensities and lighting ranges are installed according to the shape of the object and the type of abnormality to be detected.
  • a plurality of illuminations are used and the illumination conditions are variously changed for imaging.
  • the high-speed camera 4 takes a high-speed image of the tablet 5 under illumination and outputs the photographed image to the image recognition device 100.
  • the tablet 5 is moved and photographed with the high-speed camera 4, it is possible to capture the image without missing the timing when the S / N (Signal to Noise Ratio) of the minute abnormal portion existing in the tablet 5 becomes high.
  • the abnormalities that occur in the tablet 5 include hair adhesion, fine chipping, and the like. Since hair can be detected based on the specular reflection component of the illumination light due to the gloss of its surface, it is effective to use the illumination light along the optical axis of the high-speed camera 4. On the other hand, since the minute chipping of the tablet 5 can be detected based on the brightness around the edge of the portion, it is effective to use the illumination light from the direction orthogonal to the optical axis of the high-speed camera 4.
  • time-series images As described above, when the tablet 5 which is the object is photographed by the high-speed camera 4, a huge amount of time-series photographed images (hereinafter, also referred to as “time-series images”) are obtained, but after that, a minute abnormality is detected. The processing time for this is also increased, and real-time processing for abnormality detection becomes difficult.
  • minute abnormalities appear temporarily as steep changes in image statistics at the timing when the lighting conditions are met, and there is no such tendency. Timing images are redundant and are considered unnecessary.
  • an image containing a minute abnormality that is, an image having a temporary change in the statistic of the image is selected from the time-series image obtained by the high-speed camera 4, and an image selection for discarding the redundant image is performed. I do.
  • FIG. 2 is a diagram for explaining the concept of image selection from time series images.
  • the image recognition device 100 selects an image including a minute abnormality from the time-series images, recognizes the selected image, and detects the abnormality.
  • the unselected image is discarded and excluded from the recognition processing in the subsequent stage. As a result, the load of recognition processing can be reduced and the overall processing speed can be increased.
  • the conveyor 2 is provided with a mechanism for reversing the object by vibration or the like, the captured images before and after the reversal are captured by one camera. However, both sides of the object can be inspected. Similarly, even when the object is three-dimensional, if the conveyor 2 is provided with a mechanism for rotating the object, it is possible to photograph a plurality of surfaces of the object and determine an abnormality.
  • FIG. 3 is a block diagram showing a hardware configuration of the image recognition device according to the first embodiment.
  • the image recognition device 100 includes an interface (I / F) 12, a processor 13, a memory 14, a recording medium 15, a database (DB) 16, an input unit 17, and a display unit 18. To be equipped with.
  • Interface 12 inputs and outputs data to and from an external device. Specifically, the time-series image to be processed by the image recognition device 100 is input through the interface 12. Further, the abnormality detection result generated by the image recognition device 100 is output to an external device through the interface 12.
  • the processor 13 is a computer such as a CPU (Central Processing Unit) or a CPU and a GPU (Graphics Processing Unit), and controls the entire image recognition device 100 by executing a program prepared in advance. Specifically, the processor 13 executes the image recognition process described later.
  • a CPU Central Processing Unit
  • a CPU and a GPU Graphics Processing Unit
  • the memory 14 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the memory 14 is also used as a working memory during execution of various processes by the processor 13.
  • the recording medium 15 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be removable from the image recognition device 100.
  • the recording medium 15 records various programs executed by the processor 13. When the image recognition device 100 executes various processes, the program recorded on the recording medium 15 is loaded into the memory 14 and executed by the processor 13.
  • the database 16 stores captured images to be image-recognized.
  • the input unit 17 is composed of a keyboard, a mouse, and the like for the user to give instructions and inputs.
  • the display unit 18 is composed of, for example, a liquid crystal display or the like, and displays a recognition result of an object or the like.
  • FIG. 4 is a block diagram showing a functional configuration of the image recognition device 100 according to the first embodiment.
  • the image recognition device 100 includes an object area extraction unit 20, an image selector 30, and a recognizer 40.
  • the object area extraction unit 20 receives a time-series image of an object from the high-speed camera 4, and extracts an object area, which is an area including an object, from each photographed image. Specifically, the object area extraction unit 20 extracts an object area of an object in a captured image by a background subtraction method or the like.
  • the object region is the region of the tablet 5 in the photographed image, and specifically, it is a rectangular region including the tablet 5 as shown in FIG.
  • the object area extraction unit 20 outputs a time-series image of the extracted object area to the image selector 30.
  • the image selector 30 is an image (hereinafter, referred to as “micro / low frequency feature”) showing a part of a minute and infrequent abnormality feature (hereinafter, referred to as “micro / low frequency feature”) of the object from the input time series image of the object region. It is called “feature image”).
  • feature image a feature image including minute / low frequency features from the input time series image and outputs it to the recognizer 40, and does not include an image other than the feature image, that is, a minute / low frequency feature. Discard the image.
  • the image selector 30 uses the input time-series image as the image statistic. A series of captured images whose amount temporarily shows a sharp change is selected as a feature image.
  • FIG. 5 is a block diagram showing the configuration of the image selector 30.
  • the image selector 30 includes a cell partitioning unit 31, a cell-specific change detection unit 32, and a selection unit 33.
  • FIG. 6 shows an example of processing by the image selector 30.
  • the time-series image output from the object area extraction unit 20 is input to the cell division unit 31 and the selection unit 33.
  • the cell division unit 31 divides each captured image into a plurality of cells C. In the example of FIG. 6, the cell dividing unit 31 divides each captured image into 16 cells C having a predetermined size (4 ⁇ 4).
  • the image of the divided cell C is input to the cell-specific change detection unit 32.
  • the cell-specific change detection unit 32 calculates the image statistic for each cell.
  • the cell-specific change detection unit 32 uses the brightness value as the statistic of the image.
  • the cell-specific change detection unit 32 obtains the time change of the calculated statistic for each cell. Specifically, the cell-specific change detection unit 32 obtains a statistic at each time for each cell, and outputs time change data indicating the time change to the selection unit 33.
  • FIG. 6 for convenience of explanation, an example of the time change of the brightness value of one cell Cx is shown in a graph.
  • the selection unit 33 selects a captured image as a feature image when the statistic changes by a predetermined amount or more based on the time change of the statistic for each cell.
  • the selection unit 33 uses the captured image X (t 10 ) at the time t 10 when the change in the statistic starts and the captured image at the time t 20 when the change ends.
  • X (t 20 ) is detected, and a series of captured images X (t 10 ) to X (t 20 ) including them are selected as feature images.
  • the selection unit 33 identifies the captured images X (t 10 ) to X (t 20 ) based on the time change data input from the cell-specific change detection unit 32, and is input from the object area extraction unit 20. Captured images X (t 10 ) to X (t 20 ) are selected from the time-series images and output to the recognizer 40 as feature images. By detecting the change in the statistic of the image in this way, it is possible to select only a series of captured images showing an abnormality of the object from the time-series captured images.
  • the statistic changes only in one of the plurality of cells C obtained by the division, but when there is an abnormality in a plurality of places of one object, there is a case where there is an abnormality.
  • Statistic changes occur in multiple cells C at the same time. Therefore, when the statistic changes even in one of the plurality of cells C, the selection unit 33 selects a series of captured images including the captured image as a feature image. In other words, the selection unit 33 discards only the captured image in which the statistic has not changed in any cell C.
  • the recognizer 40 performs image recognition processing using the feature image selected by the image selector 30 and outputs the recognition result.
  • the recognizer 40 is configured by a neural network or the like, classifies an object or detects an abnormality using a recognition model that has been learned in advance, and outputs the result as a recognition result.
  • FIG. 7 is a flowchart of the image recognition process according to the present embodiment. This process is realized by the processor 13 shown in FIG. 3 executing a program prepared in advance and operating as each element shown in FIGS. 4 and 5.
  • a moving object is photographed by the high-speed camera 4 to generate a time-series image (step S11).
  • the object area extraction unit 20 extracts the object area of the object from each captured image by the background subtraction method or the like (step S12).
  • the image selector 30 selects a feature image having minute and low frequency features from the time-series image of the object region by the above-mentioned method (step S13).
  • the recognizer 40 classifies the object or detects an abnormality using the feature image, and outputs the recognition result (step S14). Then, the image recognition process ends.
  • the cell division unit 31 divides the captured image of the object region into cells C having a predetermined size, but the cell division method is not limited to this.
  • superpixels created by grouping captured images based on gradation values and color features may be used as cell C.
  • each pixel of the captured image may be used as the cell C.
  • the image selector 30 starts from the time t 10 when the change of the image statistic starts, and the time when the change ends.
  • a series of captured images including up to t 20 are selected as feature images.
  • the image selector 30 does not fix the amount of a series of captured images selected as the feature image, but may change it according to the processing load of the subsequent recognizer 40. For example, when the processing load of the recognizer 40 is light, that is, when there is a margin in the processing of the recognizer 40, the image selector 30 sets the start time of the change in the image statistic as shown in FIG. 8 (A).
  • a series of captured images including the end time is selected as the feature image.
  • the image selector 30 may narrow the range of captured images to be selected as shown in FIG. 8 (B). good.
  • the image selector 30 selects a series of captured images as feature images from the time t 13 when the increase in the statistic is completed to the time t 17 when the decrease in the statistic starts. There is. In this way, by adjusting the amount of feature images to be selected according to the processing load of the recognizer 40, it is possible to stably perform real-time recognition processing.
  • the image selector 30 is configured by a neural network to which a deep learning model is applied.
  • the hardware configuration of the image recognition device 100 according to the second embodiment is the same as that of FIG. 1, and the functional configuration is the same as that of FIG.
  • FIG. 9A shows the configuration of the image selector 30 according to the second embodiment at the time of learning.
  • the image selector 30 includes a neural network 35 and an optimization unit 37, and performs supervised learning of a deep learning model applied to the neural network 35.
  • a time-series image of the object region extracted by the object region extraction unit 20 is input to the neural network 35 as learning data.
  • a deep learning model that selects a feature image from a time-series image is applied to the neural network 35.
  • the neural network 35 selects a non-redundant image as a feature image from the input time-series image, and outputs an image index (for example, an image ID or an image shooting time) indicating the captured image to the optimization unit 37.
  • the non-redundant captured image means an image having a large difference in feature amount between the captured images that are adjacent in time, and corresponds to a feature image showing minute and low-frequency features of an object.
  • a teacher label with a correct answer to the time-series image input to the neural network 35 is prepared and input to the optimization unit 37.
  • the teacher label indicates whether each of the time series images is a non-redundant image.
  • the optimization unit 37 calculates the loss between the image index output by the neural network 35 and the teacher label, and optimizes the parameters of the neural network 35 so that the loss becomes small.
  • FIG. 9B shows the configuration of the image selector 30 according to the second embodiment at the time of inference.
  • the image selector 30 includes a neural network 35 to which the deep learning model learned by the above method is applied, and a selection unit 36.
  • the time-series image output from the object area extraction unit 20 is input to the neural network 35 and the selection unit 36.
  • the neural network 35 detects a non-redundant captured image from the time-series image using the trained deep learning model, and outputs the image index to the selection unit 36.
  • the selection unit 36 selects only the captured image corresponding to the image index output by the neural network 35 from the time-series images input from the object area extraction unit 20, and outputs the captured image as a feature image to the recognizer 40.
  • a non-redundant captured image is selected from the time-series images and output to the recognizer 40 as a feature image. Since the recognizer 40 performs image recognition only on the selected feature image, the recognition process can be speeded up.
  • a teacher label is given in units of captured images as learning data, but instead, as in the first embodiment, the captured images are assigned to a plurality of cells. It may be divided into two and a teacher label may be given in units of cells.
  • the neural network 35 first divides the input captured image into a plurality of cells, obtains non-redundancy for each cell, and outputs the captured image to the optimization unit 37.
  • the optimization unit 37 may optimize the neural network 35 by obtaining the loss between the non-redundancy obtained for each cell and the teacher label prepared for each cell.
  • a cell having a predetermined size, a super pixel, or the like may be used as the cell, as in the first embodiment.
  • FIG. 10A shows an example in which the image selector 30 is configured by using the deep learning model.
  • the image selector 30 connects time-series images in the time axis direction, calculates an evaluation value for each cell by a convolution operation, and selects a feature image.
  • the image selector 30 includes a neural network 35 to which a deep learning model is applied, and a convolution calculation unit 38.
  • the time-series image is input to the neural network 35 and the convolution calculation unit 38.
  • the neural network 35 extracts the feature amount from the input time-series image, generates a non-redundancy degree vector, and outputs it to the convolution calculation unit 38.
  • the convolution calculation unit 38 calculates the product of the time-series image and the non-redundancy vector in the time axis direction.
  • FIG. 11 schematically shows a method of generating a non-redundancy degree vector.
  • the non-redundancy vector is a vector of the length of the input time series image. Note that this length is, for example, the length of a time-series image from the appearance of one object to its disappearance.
  • the neural network 35 applies a convolution filter of the time series length to the input time series image, and applies an activation function such as ReLU (Rectifier Liner Unit) to the output.
  • ReLU Rectifier Liner Unit
  • the neural network 35 normalizes the obtained statistic to the range of "0" to "1” with an activation function (sigmoid function), and pools it to generate a non-redundant degree vector of time series length. do.
  • the non-redundancy vector represents the non-redundancy of the captured image at the corresponding time of each element.
  • the convolution calculation unit 38 convolves the non-redundancy degree vector into the time-series captured image, so that the time-series image is weighted by the non-redundancy degree vector and output as a feature image.
  • the weighted time series image and the teacher label are used to optimize the deep learning model.
  • the image selection process is a process that cannot be differentiated, but at the time of learning, it is a process that can be differentiated by only weighting the non-redundancy degree vector, and it can be learned at the same time as the recognizer 40 in the subsequent stage. End-to-end processing is possible.
  • the threshold processing by the threshold processing unit 39 is applied to the non-redundant degree vector output from the neural network 35.
  • the threshold processing unit 39 holds the elements belonging to the upper N non-redundancy degrees as they are, and sets the value of the elements below that to “0”.
  • "N" is an arbitrary number and is a specified value indicating the number of images selected by the image selector 30.
  • the convolution calculation unit 38 convolves the time-series image and the non-redundancy degree vector after the threshold processing.
  • captured images having a non-redundancy degree belonging to the top N are selected as feature images. That is, the number of captured images to be passed to the recognition device 40 in the subsequent stage is reduced to N images.
  • the value of "N" can be adjusted from the viewpoint of a trade-off between the processing accuracy and the processing speed of the recognizer 40 in the subsequent stage.
  • end-to-end learning is possible by configuring it with one neural network together with the recognizer 40 in the subsequent stage. That is, at the time of system construction, the labor of repetitive work such as examining a plurality of image selection models according to the data characteristics of the object, learning them separately, and evaluating the combination with the recognizer is reduced.
  • FIG. 12A shows a schematic configuration of the image recognition device 100a when a deep learning model is used.
  • the recognizer 40a is configured by a neural network in which a CNN (Convolutional Neural Network) and an RNN (Recurrent Neural Network) are combined.
  • a normal recognizer that detects an abnormality from a single image requires a large amount of calculation and is not suitable for high-speed inspection based on time-series images.
  • by combining the recognizer 40 with a lightweight CNN and a regression structure as in this example it is possible to recognize a time series image at high speed.
  • the Attention map series is generated by the image selector 30a and input to the recognition device 40a in the subsequent stage.
  • the attention map shows the attention of the cell that is the basis for determining the image selection in the image selector 30a.
  • the image selector 30a uses time-series images to obtain minute and low-frequency features for each cell in the time axis direction and generate an attention map. By inputting the attention map sequence into the recognizer 40a, it is expected that the identification accuracy of minute / low frequency features in the recognizer 40a will be improved.
  • FIG. 12B shows a schematic configuration of another image recognition device 100b when a deep learning model is used.
  • the image selector 30b inputs the attention map sequence to the recognizer 40b in addition to the feature image.
  • the recognizer 40b a vector in which the attention map series is concated in the time axis direction is generated, and recognition is performed by CNN using this vector and the feature image.
  • FIG. 13 shows the functional configuration of the image recognition device according to the third embodiment.
  • the image recognition device 70 includes an image selection unit 71 and a recognition unit 72.
  • the image selection unit 71 selects a feature image showing a feature portion of the object from the time-series captured images of the object.
  • the recognition unit 72 performs an object recognition process using the feature image.
  • An image selection unit that selects a feature image indicating a feature location of the object from time-series captured images of the object, and an image selection unit.
  • a recognition unit that performs recognition processing of the object using the feature image,
  • An image recognition device comprising.
  • the image selection unit divides each of the captured images into a plurality of cells, and selects the feature image from the captured images in the time series based on the change in the statistic of the captured image for each cell.
  • Appendix 3 The image recognition device according to Appendix 2, wherein the image selection unit selects a continuous captured image from the captured image at which the change in the statistic for each cell has started to the captured image at which the change has ended as the feature image.
  • Appendix 4 The image recognition device according to Appendix 2 or 3, wherein the cell is any of a cell having a predetermined size obtained by dividing the captured image, a super pixel, and a pixel constituting the captured image.
  • Appendix 5 The image recognition unit according to Appendix 1 selects the feature image using a trained model configured by a neural network and trained to select the feature image from the captured images in the time series. Device.
  • the image selection unit extracts a feature amount from the time-series captured images, generates a vector indicating the degree of non-duplexity between the time-series captured images based on the feature amount, and uses the vector to generate the above-mentioned time.
  • the image recognition device which selects the feature image from a series of captured images.
  • the image selection unit divides each of the captured images into a plurality of cells, and selects the feature image from the captured images in the time series based on the degree of non-redundancy of each cell of the captured image.
  • the image selection unit outputs the attention information of the cell that is the basis for selecting the feature image to the recognition unit.
  • the image recognition device according to Appendix 7, wherein the recognition unit recognizes the featured portion of the object by using the attention information.
  • Appendix 9 The image recognition device according to any one of Appendix 5 to 8, wherein the image selection unit and the recognition unit are configured by one neural network.
  • the characteristic portion is a portion indicating an abnormality existing in the object, and is a portion indicating an abnormality.
  • the image recognition device according to any one of Supplementary note 1 to 9, wherein the recognition unit classifies an abnormality related to the object or detects an abnormality existing in the object.
  • High-speed camera 5 Tablets 20 Object area extraction unit 30 Image selector 31 Cell division unit 32 Cell-specific change detection unit 33 Selection unit 35 Neural network 37 Optimization unit 38 Convolution calculation unit 39 Threshold processing unit 40 Recognizer 100 Image recognition device

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

画像認識装置は、画像選択部と、認識部と、を備える。画像選択部は、対象物を撮影した時系列の撮影画像から、対象物の特徴箇所を示す特徴画像を選択する。特徴画像は、例えば対象物の異常個所を示す画像である。認識部は、特徴画像を用いて、対象物の認識処理を行う。認識処理により、対象物の異常が検出される。

Description

画像認識装置、画像認識方法、及び、記録媒体
 本発明は、画像に含まれる対象物の異常を認識する技術に関する。
 製品の画像を用いて異常検査を行う手法が提案されている。例えば、特許文献1は、移動中の成形シートをカメラで時間的に連続して撮影した画像を用いて、製品の欠陥を検査するシステムを記載している。
特開2011-95171号公報
 特許文献1に記載の欠陥検査システムは、カメラにより得られた全ての画像に対して同じ処理を行っている。このため、欠陥が含まれない画像に対しても同じ負荷の処理を行うことになり、画像が多い場合には処理時間が増大するため、製造ラインなどにおけるリアルタイム処理には適さない。
 本発明の1つの目的は、対象物の撮影画像に基づく異常個所の認識を効率化することが可能な画像認識装置を提供することにある。
 本発明の一つの観点では、画像認識装置は、
 対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択する画像選択部と、
 前記特徴画像を用いて、前記対象物の認識処理を行う認識部と、を備える。
 本発明の他の観点では、画像認識方法は、
 対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
 前記特徴画像を用いて、前記対象物の認識処理を行う。
 本発明のさらに他の観点では、記録媒体は、
 対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
 前記特徴画像を用いて、前記対象物の認識処理を行う処理をコンピュータに実行させるプログラムを記録する。
 本発明によれば、対象物の撮影画像に基づく異常個所の認識を効率化することが可能となる。
画像認識装置を用いた異常検出の様子を示す。 時系列画像からの画像選択の概念を説明する図である。 第1実施形態に係る画像認識装置のハードウェア構成を示す図である。 第1実施形態に係る画像認識装置の機能構成を示す図である。 画像選択器の構成を示す図である。 画像選択器による処理の例を示す。 本実施形態による画像認識処理のフローチャートである。 画像選択の範囲を変化させる例を示す。 第2実施形態に係る画像選択器の機能構成を示す。 第2実施形態に係る画像選択器の実施例を示す。 非冗長度合いベクトルの生成方法を模式的に示す。 深層学習モデルを用いる画像認識装置の概略構成を示す。 第3実施形態に係る画像認識装置の機能構成を示す。
 以下、図面を参照して、本発明の好適な実施形態について説明する。
 [基本原理]
 まず、本発明に係る画像認識装置100の基本原理について説明する。図1は、画像認識装置100を用いた異常検出の様子を示す。本実施形態では、異常検出の対象物を錠剤5とする。錠剤5は、矢印の方向に移動するコンベア2上に所定間隔で配置され、コンベア2の移動に伴って移動する。コンベア2の上方には照明3と高速カメラ4が配置される。図1の例では、2つのバー型照明3を用いているが、照明の形態はこれには限られない。対象物の形状や検出すべき異常の種類に応じて、様々な強度及び照明範囲の照明が複数設置される。特に錠剤5などの小さい対象物の場合、微小な異常の種類、度合い、位置などは様々であるため、複数の照明を用いて照明条件を様々に変えて撮影を行う。
 高速カメラ4は、照明下の錠剤5を高速撮影し、撮影画像を画像認識装置100へ出力する。錠剤5を移動させつつ高速カメラ4で撮影すると、錠剤5に存在する微小な異常個所のS/N(Signal to Noise Ratio)が高くなったタイミングを逃さず撮影することができる。具体的に、錠剤5に生じる異常としては、髪の毛の付着、微細な欠けなどがある。髪の毛は、その表面の光沢による照明光の鏡面反射成分に基づいて検出できるので、高速カメラ4の光軸に沿った照明光を用いるのが有効である。一方、錠剤5の微細な欠けは、その部分のエッジ周りの明暗に基づいて検出できるので、高速カメラ4の光軸と直交する方向からの照明光を用いるのが有効である。
 上記のように、高速カメラ4で対象物である錠剤5を撮影すると膨大な時系列の撮影画像(以下、「時系列画像」とも呼ぶ。)が得られるが、その後に微小な異常を検出するための処理時間も増えてしまい、異常検出のリアルタイム処理が難しくなる。高速カメラ4で得られる膨大な時系列画像の中で、微小な異常は照明条件がフィットしたタイミングで、一時的に急峻な画像の統計量の変化として現れることが分かっており、その傾向が無いタイミングの画像は冗長であり、不要と考えられる。そこで、本実施形態では、高速カメラ4で得られる時系列画像から微小な異常を含む画像、即ち、一時的な画像の統計量の変化を有する画像を選択し、冗長な画像を破棄する画像選択を行う。
 図2は、時系列画像からの画像選択の概念を説明する図である。移動するコンベア2上の錠剤5を高速カメラ4で撮影することにより、一連の時系列画像が得られる。画像認識装置100は、この時系列画像のうち、微小な異常を含む画像を選択し、選択された画像の認識を行って異常を検出する。選択されなかった画像は破棄され、その後段における認識処理の対象から除外される。これにより、認識処理の負荷を低減でき、全体の処理速度を上げることができる。
 なお、上記のように対象物が錠剤などの板状の物体である場合、振動などにより対象物を反転させる機構をコンベア2に設ければ、反転の前後の撮影画像を1台のカメラで撮影し、対象物の両面の検査を行うことができる。同様に、対象物が立体の場合でも、コンベア2に対象物を回転させる機構を設ければ、対象物の複数の面を撮影し、異常の判定を行うことができる。
 [第1実施形態]
 (ハードウェア構成)
 図3は、第1実施形態に係る画像認識装置のハードウェア構成を示すブロック図である。図示のように、画像認識装置100は、インタフェース(I/F)12と、プロセッサ13と、メモリ14と、記録媒体15と、データベース(DB)16と、入力部17と、表示部18と、を備える。
 インタフェース12は、外部装置との間でデータの入出力を行う。具体的に、画像認識装置100による処理の対象となる時系列画像は、インタフェース12を通じて入力される。また、画像認識装置100により生成された異常の検出結果などは、インタフェース12を通じて外部の装置へ出力される。
 プロセッサ13は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、画像認識装置100の全体を制御する。具体的に、プロセッサ13は、後述する画像認識処理を実行する。
 メモリ14は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ14は、プロセッサ13による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体15は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、画像認識装置100に対して着脱可能に構成される。記録媒体15は、プロセッサ13が実行する各種のプログラムを記録している。画像認識装置100が各種の処理を実行する際には、記録媒体15に記録されているプログラムがメモリ14にロードされ、プロセッサ13により実行される。
 データベース16は、画像認識の対象となる撮影画像を記憶する。入力部17は、ユーザが指示や入力を行うためのキーボード、マウスなどにより構成される。表示部18は、例えば液晶ディスプレイなどにより構成され、対象物の認識結果などを表示する。
 (機能構成)
 図4は、第1実施形態に係る画像認識装置100の機能構成を示すブロック図である。画像認識装置100は、物体領域抽出部20と、画像選択器30と、認識器40と、を備える。物体領域抽出部20は、高速カメラ4から物体の時系列画像を受け取り、各撮影画像から対象物を含む領域である物体領域を抽出する。具体的に、物体領域抽出部20は、背景差分法などにより、撮影画像中の対象物の物体領域を抽出する。本実施形態では、対象物は錠剤5であるので、物体領域は撮影画像中の錠剤5の領域であり、具体的には図2に示すような錠剤5を含む矩形の領域となる。物体領域抽出部20は、抽出した物体領域の時系列画像を画像選択器30に出力する。
 画像選択器30は、入力された物体領域の時系列画像から、対象物の微小で低頻度な異常の特徴(以下、「微小・低頻度特徴」と呼ぶ。)の箇所を示す画像(以下、「特徴画像」と呼ぶ。)を選択する。本実施形態では、対象物である錠剤5に存在する髪の毛、欠けなどが対象物の異常に相当する。画像選択器30は、入力された時系列画像から、微小・低頻度特徴を含む特徴画像を選択して認識器40に出力し、特徴画像以外の画像、即ち、微小・低頻度特徴を含まない画像を破棄する。前述のように、対象物の微小・低頻度特徴は、撮影画像における一時的に急峻な画像の統計量の変化として現れるので、画像選択器30は、入力された時系列画像から、画像の統計量が一時的に急峻な変化を示す一連の撮影画像を特徴画像として選択する。
 図5は、画像選択器30の構成を示すブロック図である。画像選択器30は、セル分割部31と、セル別変化検出部32と、選択部33とを備える。図6は、画像選択器30による処理の例を示す。物体領域抽出部20から出力された時系列画像は、セル分割部31及び選択部33へ入力される。セル分割部31は、各撮影画像を複数のセルCに分割する。図6の例では、セル分割部31は、各撮影画像を所定サイズ(4×4)の16個のセルCに分割している。分割されたセルCの画像はセル別変化検出部32に入力される。
 セル別変化検出部32は、セル毎に画像の統計量を算出する。図6の例では、セル別変化検出部32は、画像の統計量として明度値を使用している。セル別変化検出部32は、算出されたセル毎の統計量の時間変化を求める。具体的には、セル別変化検出部32は、セル毎に各時刻における統計量を求め、その時間変化を示す時間変化データを選択部33に出力する。図6では、説明の便宜上、1つのセルCxの明度値の時間変化の例をグラフに示している。
 選択部33は、セル毎の統計量の時間変化に基づき、統計量が所定量以上変化しているときの撮影画像を特徴画像として選択する。図6の例では、破線の領域で示すように、選択部33は、統計量の変化が開始した時刻t10の撮影画像X(t10)と、その変化が終了した時刻t20の撮影画像X(t20)とを検出し、それらを含む一連の撮影画像X(t10)~X(t20)を特徴画像として選択する。詳しくは、選択部33は、セル別変化検出部32から入力された時間変化データに基づいて撮影画像X(t10)~X(t20)を特定し、物体領域抽出部20から入力される時系列画像から撮影画像X(t10)~X(t20)を選択して、特徴画像として認識器40へ出力する。このように画像の統計量の変化を検出することにより、時系列の撮影画像のうち、対象物の異常を示す一連の撮影画像のみを選択することができる。
 なお、図6の例では、分割により得られた複数のセルCのうちの1つのみにおいて統計量の変化が生じているが、1つの対象物の複数の箇所に異常がある場合には、複数のセルCに同時に統計量の変化が生じる。よって、選択部33は、複数のセルCのうち1つでも統計量の変化が生じている場合には、その撮影画像を含む一連の撮影画像を特徴画像として選択する。言い換えると、選択部33は、いずれのセルCにおいても統計量の変化が生じていない撮影画像のみを破棄する。
 認識器40は、画像選択器30が選択した特徴画像を用いて画像認識処理を行い、認識結果を出力する。具体的には、認識器40は、ニューラルネットワークなどにより構成され、予め学習済みの認識モデルを用いて、対象物のクラス分類又は異常検知を行い、その結果を認識結果として出力する。
 (画像認識処理)
 図7は、本実施形態による画像認識処理のフローチャートである。この処理は、図3に示すプロセッサ13が予め用意されたプログラムを実行し、図4及び図5に示す各要素として動作することにより実現される。
 まず、図1に示すように、移動中の対象物を高速カメラ4で撮影し、時系列画像が生成される(ステップS11)。次に、物体領域抽出部20は、背景差分法などにより、各撮影画像から対象物の物体領域を抽出する(ステップS12)。次に、画像選択器30は、物体領域の時系列画像から、前述の方法により、微小・低頻度特徴を有する特徴画像を選択する(ステップS13)。認識器40は、特徴画像を用いて、対象物のクラス分類又は異常検知を行い、認識結果として出力する(ステップS14)。そして、画像認識処理は終了する。
 (変形例)
 上記の実施形態では、セル分割部31は、物体領域の撮影画像を所定サイズのセルCに分割しているが、セルの分割方法はこれには限られない。例えば、撮影画像を諧調値や色特徴に基づいてグルーピングして作成したスーパーピクセルをセルCとして使用してもよい。また、別の例では、撮影画像の各画素をセルCとして用いてもよい。
 上記の実施形態では、図8(A)のグラフ(図6と同じ)に示すように、画像選択器30は、画像の統計量の変化が開始した時刻t10から、その変化が終了した時刻t20までを含む一連の撮影画像を特徴画像として選択している。しかし、画像選択器30は、特徴画像として選択する一連の撮影画像の量を固定せず、後段の認識器40の処理負荷に応じて変化させてもよい。例えば、認識器40の処理負荷が軽いとき、即ち、認識器40の処理に余裕があるときには、画像選択器30は、図8(A)に示すように画像の統計量の変化の開始時刻と終了時刻を含む一連の撮影画像を特徴画像として選択する。一方、認識器40の処理負荷が重いとき、即ち、認識器40の処理に余裕がないときには、画像選択器30は、図8(B)に示すように選択する撮影画像の範囲を狭めてもよい。図8(B)の例では、画像選択器30は、統計量の増加が完了した時刻t13から、統計量の減少が始まった時刻t17までの一連の撮影画像を特徴画像として選択している。このように、認識器40の処理負荷に応じて、選択する特徴画像の量を調整することにより、リアルタイムの認識処理を安定的に行うことが可能となる。
 [第2実施形態]
 (機能構成)
 次に、第2実施形態について説明する。第2実施形態では、画像選択器30を深層学習モデルを適用したニューラルネットワークにより構成する。第2実施形態に係る画像認識装置100のハードウェア構成は図1と同様であり、機能構成は図4と同様である。
 図9(A)は、第2実施形態に係る画像選択器30の学習時の構成を示す。画像選択器30は、学習時においては、ニューラルネットワーク35と、最適化部37とを備え、ニューラルネットワーク35に適用される深層学習モデルの教師あり学習を行う。ニューラルネットワーク35には、学習データとして、物体領域抽出部20により抽出された物体領域の時系列画像が入力される。ニューラルネットワーク35には、時系列画像から特徴画像を選択する深層学習モデルが適用される。ニューラルネットワーク35は、入力された時系列画像から、非冗長な画像を特徴画像として選択し、その撮影画像を示す画像インデックス(例えば画像IDや画像の撮影時刻など)を最適化部37へ出力する。ここで、非冗長な撮影画像とは、時間的に隣接する撮影画像との間の特徴量の差が大きい画像を意味し、対象物の微小・低頻度特徴を示す特徴画像に相当する。
 学習時には、ニューラルネットワーク35に入力される時系列画像に対して予め正解付けをした教師ラベルが用意され、最適化部37に入力される。教師ラベルは、時系列画像の各々が非冗長な画像であるか否かを示す。最適化部37は、ニューラルネットワーク35が出力した画像インデックスと、教師ラベルとの間の損失を計算し、損失が小さくなるようにニューラルネットワーク35のパラメータを最適化する。
 図9(B)は、第2実施形態に係る画像選択器30の推論時の構成を示す。推論時には、画像選択器30は、上記の方法で学習済みの深層学習モデルを適用したニューラルネットワーク35と、選択部36とを備える。物体領域抽出部20から出力された時系列画像がニューラルネットワーク35及び選択部36に入力される。ニューラルネットワーク35は、学習済みの深層学習モデルを用いて、時系列画像から非冗長な撮影画像を検出し、その画像インデックスを選択部36に出力する。選択部36は、物体領域抽出部20から入力された時系列画像から、ニューラルネットワーク35が出力した画像インデックスに対応する撮影画像のみを選択し、特徴画像として認識器40へ出力する。こうして、学習済みの深層学習モデルを用いて、時系列画像から非冗長な撮影画像が選択され、特徴画像として認識器40へ出力される。認識器40は、選択された特徴画像のみについて画像認識を行うので、認識処理の高速化が可能となる。
 なお、上記の例では、深層学習モデルの学習時に、学習用データとしての撮影画像の単位で教師ラベルを付与しているが、その代わりに、第1実施形態のように撮影画像を複数のセルに分割し、セルの単位で教師ラベルを付与してもよい。その場合、ニューラルネットワーク35は、入力された撮影画像をまず複数のセルに分割し、セル毎に非冗長性を求めて最適化部37へ出力する。最適化部37は、セル毎に求められた非冗長性と、セル毎に用意された教師ラベルとの損失を求めてニューラルネットワーク35を最適化すればよい。なお、この場合においても、第1実施形態と同様に、所定サイズのセルやスーパーピクセルなどをセルとして使用してもよい。
 (画像選択部の実施例)
 図10(A)は、深層学習モデルを用いて画像選択器30を構成した場合の実施例を示す。この実施例では、画像選択器30は、時系列画像を時間軸方向に連結し、畳み込み演算によりセル毎の評価値を算出して特徴画像を選択する。図示のように、画像選択器30は、深層学習モデルが適用されたニューラルネットワーク35と、畳み込み演算部38とを備える。時系列画像は、ニューラルネットワーク35及び畳み込み演算部38に入力される。ニューラルネットワーク35は、入力された時系列画像から特徴量を抽出し、非冗長度合いベクトルを生成して畳み込み演算部38に出力する。畳み込み演算部38は、時系列画像と非冗長度ベクトルとの時間軸方向の積を演算する。
 図11は、非冗長度合いベクトルの生成方法を模式的に示す。非冗長度合いベクトルは、入力された時系列画像の長さのベクトルである。なお、この長さは、例えば1つの対象物が表れてから消えるまでの時系列画像の長さとする。ニューラルネットワーク35は、入力された時系列画像に、その時系列の長さの畳み込みフィルタを適用し、その出力にReLU(Rectified Linear Unit)などの活性化関数を適用する。この畳み込みフィルタ処理と活性化処理は、計算負荷が低く留まる範囲で繰り返してもよい。これにより、撮影画像の統計量、即ち非冗長度合いが得られる。次に、ニューラルネットワーク35は、得られた統計量を活性化関数(シグモイド関数)で「0」~「1」の範囲に正規化し、プーリングして時系列の長さの非冗長度合いベクトルを生成する。非冗長度合いベクトルは、各要素が、対応する時刻における撮影画像の非冗長度合いを表す。
 図10(A)に戻り、畳み込み演算部38が時系列の撮影画像に非冗長度合いベクトルを畳み込み演算することにより、時系列画像が非冗長度合いベクトルで重み付けされ、特徴画像として出力される。学習時には、この重み付けされた時系列画像と、教師ラベルとを用いて、深層学習モデルが最適化される。なお、画像選択処理は微分不可能な処理であるが、学習時は非冗長度合いベクトルの重み付けのみにすることで微分可能な処理となり、後段の認識器40と併せて同時に学習可能となるので、エンドツーエンドの処理が可能となる。
 一方、推論時には、図10(B)に示すように、ニューラルネットワーク35から出力された非冗長度合いベクトルに、閾値処理部39による閾値処理が適用される。閾値処理部39は、非冗長度合いベクトルの要素のうち、非冗長度合いが上位N個に属する要素をそのまま保持し、それ以下の要素の値を「0」とする。ここで「N」は、任意の数であり、画像選択器30により選択される画像の枚数を示す規定値である。畳み込み演算部38は、時系列画像と、閾値処理後の非冗長度合いベクトルとの畳み込みを行う。これにより、入力された時系列画像のうち、非冗長度合いが上位N個に属するの撮影画像が特徴画像として選択される。即ち、後段の認識器40に渡す撮影画像数がN枚までに削減される。なお、「N」の値は、後段の認識器40による処理精度と処理速度とのトレードオフの観点で調整可能である。
 なお、画像選択器30に深層学習モデルを用いる場合、処理負荷の大きいモデルを用いると、画像選択により後段の認識器40の処理負荷を軽減させる意味がなくなってしまう。そこで、深層学習モデルとしては、画像選択により認識器40において削減される分の処理負荷よりも小さい処理負荷のモデルを用いる。これにより、画像選択の効果が得られ、安定したリアルタイム処理が可能となる。
 画像選択器30に深層学習モデルを用いる場合、後段の認識器40とともに1つのニューラルネットワークで構成することにより、エンドツーエンドな学習が可能となる。つまり、システム構築時に、対象物のデータ特性に合わせて画像選択モデルを複数検討し、別々に学習し、認識器との組み合わせを評価する、といった繰り返し作業の手間が削減される。
 (画像認識装置の実施例)
 次に、深層学習モデルを用いる場合の画像認識装置の実施例を説明する。図12(A)は、深層学習モデル用いる場合の画像認識装置100aの概略構成を示す。この実施例では、認識器40aを、CNN(Convolutional Neural Network)とRNN(Reccurent Neural Network)を組み合わせたニューラルネットワークにより構成する。1枚の画像から異常を検知する通常の認識器は計算量が多く、時系列画像に基づく高速な検査には不向きである。この点、本例のように認識器40に軽量のCNNと回帰(Recurrent)構造を組み合わせることにより、時系列画像を高速に認識することが可能となる。
 また、本実施例では、画像選択器30aにおいてアテンション(Attention)マップ系列を生成し、後段の認識器40aに入力する。アテンションマップは、画像選択器30aにおいて画像選択の判断根拠となったセルのアテンションを示す。画像選択器30aでは、時系列画像を用いて時間軸方向におけるセル毎の微小・低頻度特徴を求めてアテンションマップを生成する。アテンションマップ系列を認識器40aに入力することにより、認識器40aでの微小・低頻度特徴の識別精度の向上が期待できる。
 図12(B)は、深層学習モデル用いる場合の別の画像認識装置100bの概略構成を示す。この例でも、画像選択器30bは、特徴画像に加えてアテンションマップ系列を認識器40bに入力する。認識器40bでは、アテンションマップ系列を時間軸方向に連結(concat)したベクトルを生成し、これと特徴画像を用いてCNNにより認識を行う。
 [第3実施形態]
 次に、本発明の第3実施形態について説明する。図13は、第3実施形態に係る画像認識装置の機能構成を示す。画像認識装置70は、画像選択部71と、認識部72と、を備える。画像選択部71は、対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択する。認識部72は、特徴画像を用いて対象物の認識処理を行う。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択する画像選択部と、
 前記特徴画像を用いて、前記対象物の認識処理を行う認識部と、
 を備える画像認識装置。
 (付記2)
 前記画像選択部は、前記撮影画像の各々を複数のセルに分割し、前記撮影画像の前記セル毎の統計量の変化に基づいて、前記時系列の撮影画像から前記特徴画像を選択する付記1に記載の画像認識装置。
 (付記3)
 前記画像選択部は、前記セル毎の統計量の変化が開始した撮影画像から、前記変化が終了した撮影画像までの連続する撮影画像を前記特徴画像として選択する付記2に記載の画像認識装置。
 (付記4)
 前記セルは、前記撮影画像を分割した所定サイズのセル、スーパーピクセル、及び、前記撮影画像を構成するピクセルのいずれかである付記2又は3に記載の画像認識装置。
 (付記5)
 前記画像選択部は、ニューラルネットワークにより構成され、前記時系列の撮影画像から前記特徴画像を選択するように学習された学習済みモデルを用いて、前記特徴画像を選択する付記1に記載の画像認識装置。
 (付記6)
 前記画像選択部は、前記時系列の撮影画像から特徴量を抽出し、前記特徴量に基づいて前記時系列の撮影画像間の非冗長度合いを示すベクトルを生成し、前記ベクトルを用いて前記時系列の撮影画像から前記特徴画像を選択する付記5に記載の画像認識装置。
 (付記7)
 前記画像選択部は、前記撮影画像の各々を複数のセルに分割し、前記撮影画像の前記セル毎の非冗長度合いに基づいて、前記時系列の撮影画像から前記特徴画像を選択する付記6に記載の画像認識装置。
 (付記8)
 前記画像選択部は、前記特徴画像を選択する根拠となったセルのアテンション情報を前記認識部に出力し、
 前記認識部は、前記アテンション情報を用いて、前記対象物の前記特徴箇所を認識する付記7に記載の画像認識装置。
 (付記9)
 前記画像選択部と前記認識部は、1つのニューラルネットワークにより構成される付記5乃至8のいずれか一項に記載の画像認識装置。
 (付記10)
 前記特徴箇所は前記対象物に存在する異常を示す箇所であり、
 前記認識部は、前記対象物の異常に関するクラス分類、又は、前記対象物に存在する異常検知を行う付記1乃至9のいずれか一項に記載の画像認識装置。
 (付記11)
 対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
 前記特徴画像を用いて、前記対象物の認識処理を行う画像認識方法。
 (付記12)
 対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
 前記特徴画像を用いて、前記対象物の認識処理を行う処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 4 高速カメラ
 5 錠剤
 20 物体領域抽出部
 30 画像選択器
 31 セル分割部
 32 セル別変化検出部
 33 選択部
 35 ニューラルネットワーク
 37 最適化部
 38 畳み込み演算部
 39 閾値処理部
 40 認識器
 100 画像認識装置

Claims (12)

  1.  対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択する画像選択部と、
     前記特徴画像を用いて、前記対象物の認識処理を行う認識部と、
     を備える画像認識装置。
  2.  前記画像選択部は、前記撮影画像の各々を複数のセルに分割し、前記撮影画像の前記セル毎の統計量の変化に基づいて、前記時系列の撮影画像から前記特徴画像を選択する請求項1に記載の画像認識装置。
  3.  前記画像選択部は、前記セル毎の統計量の変化が開始した撮影画像から、前記変化が終了した撮影画像までの連続する撮影画像を前記特徴画像として選択する請求項2に記載の画像認識装置。
  4.  前記セルは、前記撮影画像を分割した所定サイズのセル、スーパーピクセル、及び、前記撮影画像を構成するピクセルのいずれかである請求項2又は3に記載の画像認識装置。
  5.  前記画像選択部は、ニューラルネットワークにより構成され、前記時系列の撮影画像から前記特徴画像を選択するように学習された学習済みモデルを用いて、前記特徴画像を選択する請求項1に記載の画像認識装置。
  6.  前記画像選択部は、前記時系列の撮影画像から特徴量を抽出し、前記特徴量に基づいて前記時系列の撮影画像間の非冗長度合いを示すベクトルを生成し、前記ベクトルを用いて前記時系列の撮影画像から前記特徴画像を選択する請求項5に記載の画像認識装置。
  7.  前記画像選択部は、前記撮影画像の各々を複数のセルに分割し、前記撮影画像の前記セル毎の非冗長度合いに基づいて、前記時系列の撮影画像から前記特徴画像を選択する請求項6に記載の画像認識装置。
  8.  前記画像選択部は、前記特徴画像を選択する根拠となったセルのアテンション情報を前記認識部に出力し、
     前記認識部は、前記アテンション情報を用いて、前記対象物の前記特徴箇所を認識する請求項7に記載の画像認識装置。
  9.  前記画像選択部と前記認識部は、1つのニューラルネットワークにより構成される請求項5乃至8のいずれか一項に記載の画像認識装置。
  10.  前記特徴箇所は前記対象物に存在する異常を示す箇所であり、
     前記認識部は、前記対象物の異常に関するクラス分類、又は、前記対象物に存在する異常検知を行う請求項1乃至9のいずれか一項に記載の画像認識装置。
  11.  対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
     前記特徴画像を用いて、前記対象物の認識処理を行う画像認識方法。
  12.  対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
     前記特徴画像を用いて、前記対象物の認識処理を行う処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2020/006180 2020-02-18 2020-02-18 画像認識装置、画像認識方法、及び、記録媒体 WO2021166058A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/006180 WO2021166058A1 (ja) 2020-02-18 2020-02-18 画像認識装置、画像認識方法、及び、記録媒体
JP2022501427A JP7338779B2 (ja) 2020-02-18 2020-02-18 画像認識装置、画像認識方法、及び、プログラム
US17/796,702 US20230053838A1 (en) 2020-02-18 2020-02-18 Image recognition apparatus, image recognition method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/006180 WO2021166058A1 (ja) 2020-02-18 2020-02-18 画像認識装置、画像認識方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2021166058A1 true WO2021166058A1 (ja) 2021-08-26

Family

ID=77390705

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/006180 WO2021166058A1 (ja) 2020-02-18 2020-02-18 画像認識装置、画像認識方法、及び、記録媒体

Country Status (3)

Country Link
US (1) US20230053838A1 (ja)
JP (1) JP7338779B2 (ja)
WO (1) WO2021166058A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220292285A1 (en) * 2021-03-11 2022-09-15 International Business Machines Corporation Adaptive selection of data modalities for efficient video recognition
WO2022205685A1 (zh) * 2021-03-29 2022-10-06 泉州装备制造研究所 一种基于轻量化网络的交通标志识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011095171A (ja) * 2009-10-30 2011-05-12 Sumitomo Chemical Co Ltd 欠陥検査システム、並びに、それに用いる、欠陥検査用撮影装置、欠陥検査用画像処理装置、欠陥検査用画像処理プログラム、記録媒体、および欠陥検査用画像処理方法
JP2018190329A (ja) * 2017-05-11 2018-11-29 オムロン株式会社 画像処理装置、画像処理プログラム、画像処理システム
JP2019184489A (ja) * 2018-04-13 2019-10-24 日東電工株式会社 画像識別装置、及び画像識別装置を備える物品製造装置
WO2019243863A1 (en) * 2018-06-18 2019-12-26 Inception Institute Of Artificial Intelligence Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi-view vehicle representations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011095171A (ja) * 2009-10-30 2011-05-12 Sumitomo Chemical Co Ltd 欠陥検査システム、並びに、それに用いる、欠陥検査用撮影装置、欠陥検査用画像処理装置、欠陥検査用画像処理プログラム、記録媒体、および欠陥検査用画像処理方法
JP2018190329A (ja) * 2017-05-11 2018-11-29 オムロン株式会社 画像処理装置、画像処理プログラム、画像処理システム
JP2019184489A (ja) * 2018-04-13 2019-10-24 日東電工株式会社 画像識別装置、及び画像識別装置を備える物品製造装置
WO2019243863A1 (en) * 2018-06-18 2019-12-26 Inception Institute Of Artificial Intelligence Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi-view vehicle representations

Also Published As

Publication number Publication date
US20230053838A1 (en) 2023-02-23
JPWO2021166058A1 (ja) 2021-08-26
JP7338779B2 (ja) 2023-09-05

Similar Documents

Publication Publication Date Title
CN111402203B (zh) 一种基于卷积神经网络的织物表面缺陷检测方法
CN106960195B (zh) 一种基于深度学习的人群计数方法及装置
CN109613002B (zh) 一种玻璃缺陷检测方法、装置和存储介质
WO2018003212A1 (ja) 物体検出装置及び物体検出方法
US7668388B2 (en) System and method for single image focus assessment
WO2021166058A1 (ja) 画像認識装置、画像認識方法、及び、記録媒体
Bong et al. Vision-based inspection system for leather surface defect detection and classification
JP2017049974A (ja) 識別器生成装置、良否判定方法、およびプログラム
JP2022510622A (ja) 画像処理モデルの訓練方法、画像処理方法、ネットワーク機器、及び記憶媒体
CN112700435B (zh) 一种基于深度学习的墙体缺陷检测方法
CN110889838A (zh) 一种织物疵点检测方法及装置
CN115184359A (zh) 一种自动调参的表面缺陷检测系统与方法
CN113223027A (zh) 基于PolarMask的未成熟柿子分割方法及系统
JP7453813B2 (ja) 検査装置、検査方法、プログラム、学習装置、学習方法、および学習済みデータセット
CN111145145A (zh) 一种基于MobileNets的图像表面缺陷检测方法
Ünal et al. Fruit recognition and classification with deep learning support on embedded system (fruitnet)
CN111612787A (zh) 混凝土裂纹高分图像无损语义分割方法、装置及存储介质
CN113780287A (zh) 一种多深度学习模型的最优选取方法及系统
CN110033443B (zh) 一种显示面板缺陷检测方法
KR102172727B1 (ko) 설비 결함 검출 장치 및 방법
JP2021092887A (ja) 外観検査装置、外観検査システム、特徴量推定装置および外観検査プログラム
CN114926675A (zh) 外壳污损缺陷检测方法、装置、计算机设备及存储介质
WO2022185474A1 (ja) 学習装置、学習方法、検査装置、検査方法、及び、記録媒体
WO2013038225A1 (en) Methods and apparatus for image analysis and modification using fast sliding parabola erosion
KR20210098106A (ko) 딥러닝 기반 자동 결함 검사 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20920702

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022501427

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20920702

Country of ref document: EP

Kind code of ref document: A1